JP2016197375A

JP2016197375A - 写像学習方法、情報圧縮方法、装置、及びプログラム

Info

Publication number: JP2016197375A
Application number: JP2015077868A
Authority: JP
Inventors: 豪入江; Takeshi Irie; 啓之新井; Hiroyuki Arai; 行信谷口; Yukinobu Taniguchi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-04-06
Filing date: 2015-04-06
Publication date: 2016-11-24
Anticipated expiration: 2035-04-06
Also published as: JP6368677B2

Abstract

【課題】異なる種別のメディアコンテンツを考慮して低次元特徴量に変換する写像を学習することができる。異なる種別のメディアコンテンツを考慮して低次元特徴量に変換することができる。【解決手段】特徴抽出部が、コンテンツのメディア種別毎に、コンテンツからメディア種別に応じた特徴量を抽出するステップと、写像学習部が、特徴量に基づいて、メディア種別毎に、メディア種別に応じた特徴量が存在する空間である特徴量空間において、メディア種別に応じた特徴量の近傍に存在する他のコンテンツのメディア種別に応じた特徴量との相対的幾何関係を計算するステップと、写像学習部が、特徴量と、コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について計算された相対的幾何関係と、コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の特徴量を低次元特徴量に変換するための写像を学習するステップと、を含む。【選択図】図１

Description

本発明は、写像学習方法、情報圧縮方法、装置、及びプログラムに関する。

通信環境やコンピュータ、クラウド等の分散処理基盤技術の高度・高品質化により、ネットワークに流通するメディアコンテンツ（画像・映像・音声・文書等）の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々３．５億の画像がアップロードされていると報告されており、また、あるサイトでは、１分当たり６４時間分の映像が新規に公開されているとの報告もある。

このような膨大な量のメディアコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。

コンテンツの解析においては、類似したコンテンツの発見が重要な役割を果たす。例えば、コンテンツを分類する場合は、同じようなコンテンツは同じカテゴリに分類する。あるいは検索の場合、あるコンテンツをクエリとして与えたとき、このコンテンツに類似したコンテンツを検索することが基本的な要件となる。そのほか、コンテンツ推薦においても利用者がこれまでに閲覧した／閲覧しているコンテンツと類似したコンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、類似したコンテンツを提示することは冗長であるため、これを発見して省くような処理が必要となる。

ここで、類似コンテンツを発見する典型的な手続きについて解説しておく。まず、コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度に基づいて類似コンテンツを発見する。単純な例を挙げれば、コンテンツが画像や映像であれば、画像（映像フレーム）の色ヒストグラムを特徴量としてその類似度を測ることができる。コンテンツが文書であれば、単語の出現頻度をヒストグラム化したもの（Bag-of-Wordsヒストグラムなどと呼ぶ）を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が１０００あれば、１０００のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。

しかしながら、前述のように、膨大な量のコンテンツを対象にした場合、下記３つの重要な課題がある。

（１）計算時間とメモリを大量に消費する。

（２）同一種別の類似コンテンツしか発見できない。

（３）不確かなコンテンツ間の関係性に対する頑健性がない。

通常、コンテンツの特徴量（ベクトル）の次元は高次元になることが多く、その類似度の計算には膨大な時間を要する。一般に、文書のBag-of-Wordsヒストグラムの次元は、単語の種類（語彙）と同次元になる。画像の色ヒストグラムのような単純な特徴量であっても、一般に数百〜数千次元の実数値ベクトルとなるし、最近用いられるスパース表現やフィッシャーカーネルに基づく特徴表現では、数十万〜数百万次元のベクトルとなることもあり得る。さらに、全てのコンテンツの組に対してその類似度を計算する必要があるため、どのような類似度計算手段を用いようとも、特徴量の次元がＤ、コンテンツがＮ個あったとするとＯ（ＤＮ）の計算量を要する。上記述べたように、億を超えるオーダのコンテンツを扱う必要がある昨今においては、非現実的な時間とメモリを要するのである。

さらに、昨今のメディアコンテンツは、単一種別のみで流通することは稀である。例えば、通常ウェブページには文書や画像が混在しているし、映像や音声が付加されていることも少なくない。これらのコンテンツは、メディアの種別こそ異なるものの、あるコンテキストに即しながら相互に関連した内容を持つことが多い。然るに、例えば文書に類似した文書だけでなく、関連する画像や映像、音声に至るまで、メディアの隔たり無く類似したコンテンツを発見できることが好ましい。しかしながら、これは上記通常のやり方では不可能である。コンテンツの類似度を測るためには、コンテンツを表現する特徴量が同一である必要があるが、メディアの種別が異なる以上、同一の特徴量で記述することが不可能であるためである。検索エンジンなどにおいては、キーワード検索によって画像や映像などを検索することができるが、これは「同一ウェブページに共起している単語と画像なら類似している」といったごく単純な仮定に基づくものであって、文書の内容と画像の内容を評価しているわけではない。

またさらに、不確かなコンテンツ間の関係性に対する頑健性がないことについては、同一種別の類似コンテンツしか発見できないことと関連の深い課題である。ウェブ上にはさまざまなメディア種別の多様なコンテンツが玉石混交と存在しているため、中には非常に関係の深いコンテンツ同士もあれば、そうでないものも多く存在する。このような関係の不確かなコンテンツ関係の中から、関係の深いものだけを頑健に発見し、その関係を捉えることができなければ、無関係なコンテンツ同士が関連づけられることとなり、意味のある結果を得ることができない。

このような問題を解決するために、従来からいくつかの発明がなされ、開示されている。

例えば、特許文献１に開示されている技術では、コンテンツの特徴量と、異なる２つのコンテンツを関連付けるべきか否かを示す関連情報（正解データ）に基づいて写像を求め、この写像を基に特徴量を低ビットな低次元特徴量に変換する。

また、非特許文献１に開示されている技術では、近接する任意の２つのコンテンツ（特徴量）において、元の特徴量の類似度と衝突確率が等しくなるような写像群を生成する。典型的な類似度としてコサイン類似度を考えており、その場合の写像生成の基本的な手続きは、特徴量空間にランダムな超平面を複数生成することによる（random projectionと呼ばれる）。各超平面のどちら側に特徴量が存在するかによって特徴量を低次元特徴量化し、全てのコンテンツ間で類似度を求めることなく、近似的に類似コンテンツを発見することができる。

また、非特許文献２に開示されている技術は、特徴量の分布を捉え、その分布に対して最適な低次元特徴量を構成する。具体的には、特徴量空間における多様体構造を捉え、その多様体構造を最適に保存するバイナリ空間（低次元特徴量空間）への非線形な埋め込みを求めることで、元の高次元な特徴量を、低ビットな低次元特徴量に変換する。その低次元特徴量の類似性を評価することで、高速な類似コンテンツ発見を実現することができる。

さらにまた、非特許文献３に開示されている技術は、画像と文書のペアから、それぞれの特徴量の分布とペア間の相関を捉えた最適な低次元特徴量を構成する。より具体的には、非特許文献２同様、特徴量空間における多様体構造と、画像・文書間の相関を最適に保存するバイナリ空間（低次元特徴量空間）への非線形な埋め込みを求めることで、元の高次元な特徴量を、低ビットな低次元特徴量に変換する。その低次元特徴量の類似性を評価することで、高速な類似コンテンツ発見を実現することができる。

特開２０１３−６８８８４号公報

M. Datar, N. Immorlica, P. Indyk, V.S. Mirrokni, "Locality-Sensitive Hashing Scheme based on p-Stable Distributions", In Proceedings of the Twentieth Annual Symposium on Computational Geometry, 2004, p.253-262 入江豪、Zhenguo Li、Shih-Fu Chang，「構造を保存するハッシング」、画像の認識・理解シンポジウム、2013．入江豪、新井啓之、谷口行信，「幾何構造保存に基づくクロスモーダルハッシング」、画像の認識・理解シンポジウム、2014．

特許文献１及び非特許文献１、２に開示されている技術では、元のコンテンツをコンパクトな低次元特徴量に変換することで、非常に高精度かつ高速な類似コンテンツの発見を可能にしていた。しかしながら、いずれの技術も、異なるメディアの類似コンテンツを相互に発見できるようなものではなかった。

また、非特許文献３に開示されている技術は、画像と文書間の相関を保存するコンパクトな低次元特徴量を捉えることで、計算時間とメモリを大量に消費すること、及び同一種別の類似コンテンツしか発見できないことを解決することのできる情報圧縮を実現している。一方で、不確かなコンテンツ間の関係性に対する頑健性がないことに関連して、与えられた画像・文書ペアが必ずしも関係性のあるものであるか否かは考慮せず、必ず強い関連性があるとして学習するものであった。従って、与えられたペアの中に関係性の弱いものが含まれる場合、その精度が著しく劣化するという問題があった。

例えば、あるウェブページに、「犬の画像」、「山の画像」があり、同時に、「犬について解説した文章」、「山について解説した文章」が掲載されているとする。人間が見れば、文章のどの部分が「犬について解説した文章」であるかを判断することができるため、この文章は「犬の画像」と関連があり、「山の画像」とは関連がないと判断することができる。しかし、非特許文献３の技術にはこれを考慮する仕組みはなく、従って、取りうる方策としては、全ての画像−文書ペアが一律に深く関連していると見做すしかなかった。結果として、全く関連していないはずの「犬の画像」と「山について解説した文章」とにも関連があるとして得られた低次元特徴量を生成することになってしまうため、あたかも犬と山とが関連しているかのような不正確な類似コンテンツが検索されてしまうこととなる。

然るに現在に至るまで、いずれの技術によっても、計算時間とメモリを大量に消費すること、同一種別の類似コンテンツしか発見できないこと、及び不確かなコンテンツ間の関係性に対する頑健性がないこと全てを解決する情報圧縮技術は実現されていないのが実状である。

本発明は、上記の事情を鑑みてなされたものであり、異なる種別のメディアコンテンツを考慮して低次元特徴量に変換する写像を学習することができる写像学習方法、装置、及びプログラムを提供することを目的とする。

また、異なる種別のメディアコンテンツを考慮して低次元特徴量に変換することができる情報圧縮方法、装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の第１の態様は写像学習方法であって、特徴抽出部、及び写像学習部を備え、複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置における写像学習方法であって、前記特徴抽出部が、コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出するステップと、前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算するステップと、前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習するステップと、を含む。

本発明の第２の態様は、第１の態様において、前記写像学習部が前記相対的幾何関係を計算するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量を、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量の線形結合で表したときの結合重みを前記相対的幾何関係として計算し、前記写像学習部が写像を学習するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された結合重みと、前記コンテンツの各々のグループ識別子とに基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された前記結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツ間で相関があるコンテンツの組み合わせの各々について、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習してもよい。

本発明の第３の態様は、第１の態様または第２の態様において、前記写像学習装置は、最大相関ペア抽出部をさらに備え、前記最大相関ペア抽出部が、前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツの組み合わせのうち、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の相関が最大となる前記コンテンツの組み合わせを抽出するステップを更に含み、前記写像学習部によって学習するステップは、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、前記グループ識別子の各々について、前記最大相関ペア抽出部によって抽出された前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習してもよい。

本発明の第４の態様は、第１の態様〜第３の態様の何れか１態様において、前記写像学習装置は低次元特徴量生成部をさらに備え、前記低次元特徴量生成部によって、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、前記写像学習部によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップを更に含み、予め定められた反復終了条件を満たすまで、前記低次元特徴量生成部による生成、最大相関ペア抽出部による抽出、前記写像学習部による計算、及び前記写像学習部による学習を繰り返してもよい。

本発明の第５の態様は、情報圧縮方法であって、特徴抽出部及び低次元特徴量生成部を含む情報圧縮装置における情報圧縮方法であって、前記特徴抽出部が、一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出するステップと、前記低次元特徴量生成部が、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、第１の態様〜第４の態様の何れか１項に記載の写像学習方法によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップと、を含む。

本発明の第６の態様は写像学習装置であって複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置であって、コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出する特徴抽出部と、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算し、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する写像学習部と、を備える。

本発明の第７の態様は情報圧縮装置であって、一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出する特徴抽出部と、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、第６の態様に記載の写像学習装置によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成する低次元特徴量生成部と、を含む。

本発明の第８の態様は、プログラムであって、コンピュータに、第１の態様１〜第４の態様の何れか１態様に記載の写像学習方法、又は第５の態様の情報圧縮方法の各ステップを実行させるためのものである。

本発明の写像学習方法、装置、及びプログラムによれば、異なる種別のメディアコンテンツを考慮して低次元特徴量に変換する写像を学習することができる、という効果が得られる。

また、本発明の情報圧縮方法、装置、及びプログラムによれば、異なる種別のメディアコンテンツを考慮して低次元特徴量に変換することができる、という効果が得られる。

第１の実施の形態の情報処理装置の構成の一例を示す構成図である。写像を説明するための説明図である。特徴量空間における多様対構造を説明するための説明図である。画像特徴量空間における特徴量と文書特徴量空間における特徴量との相関関係を説明するための説明図である。第１の実施の形態の写像生成処理の一例を示すフローチャートである。第１の実施の形態の情報圧縮処理の一例を示すフローチャートである。第３の実施の形態の情報処理システムの構成の一例を示す概略図である。

＜概要＞
本発明の実施の形態では、相互に異なるメディア種別であっても、グループ指示子によって緩く関連づけられたコンテンツ同士の関係から、その相関が最も強い最大相関ペアだけを頑健に発見して、これに基づいて写像を更新することで、不確かな関係性を持つコンテンツ同士の中からであっても、より確度の高い低次元特徴量を生成可能であり、その結果、高速かつ省メモリでありながらも高精度な情報処理装置に、本発明を適用した場合について説明する。

本発明の効果を活用した具体的な産業応用上の利用シーンとして、街中を歩いているときに気になる場所や商品をモバイル端末で写真撮影し、類似した場所・商品を検索することが可能になるという利点がある。ｅコマースサイトにある各商品は、ある商品カテゴリ（例えば「パソコン」、「衣類」など）に属しており、また、商品説明文が付与されていることが常である。また、特定のランドマーク（「東京タワー」）などであれば、例えばＷｉｋｉｐｅｄｉａ（商標登録）等のウェブ上に記事があることが多く、そのランドマークを写した画像の他、ランドマーク種別（例えば「ビル」、「モニュメント」など）や、そのランドマークを説明する文書が手に入る。一方で、ｅコマースサイトのページのどの部分が商品説明文にあたるのか、Ｗｉｋｉｐｅｄｉａの記事のどの部分がランドマークについて説明したものであるのかを人手を介さずに特定することは難しい。

本技術の特徴によれば、画像から抽出された特徴量、これに付随する説明文の中から、画像の内容をよく説明する文書を自動的に発見し、これらの関係を捉えた写像および低次元特徴量を生成することが可能になる。結果として、人手を介さずとも、高速・省メモリな検索を実現することが可能になる。

以下、図面を参照して本発明の実施形態を詳細に説明する。なお、本実施の形態は本発明を限定するものではない。なお、本実施の形態では、動画像のことを「映像」といい、静止画像のことを「画像」という。

［第１の実施の形態］
（全体構成）
まず、本実施形態の情報処理装置１０の全体構成の一例について説明する。図１は、本実施形態に係る情報処理装置１０の構成の一例を示す機能ブロック図である。図１に示すように、情報処理装置１０は、入力部２０、出力部２２、特徴抽出部３０、特徴量記憶部３２、写像学習部３４、写像記憶部３６、低次元特徴量生成部３８、及び最大相関ペア抽出部４０を備える。

また、図１に示すコンテンツデータベース１２には、複数のコンテンツが格納されている。コンテンツデータベース１２には、少なくともコンテンツ自体、あるいは、当該コンテンツデータの所在を一意に示すアドレスが格納されている。コンテンツは、例えば、文書であれば文書ファイル、画像であれば画像ファイル、音であれば音ファイル、映像であれば映像ファイルなどである。好ましくは、コンテンツデータベース１２には、各コンテンツのメディア種別とそれ自体を一意に識別可能な識別子が含まれているものとする。

さらに、コンテンツデータベース１２には、異なるメディア種別のメディアが含まれているものとし（例えば、画像と文書等）、各コンテンツに対して、当該コンテンツが所属するグループを表すグループ指示子が関連づけて付与されているものとする。グループ指示子は、例えばグループの識別子を表すようなものであってもよく、各グループは必ずしも意味概念的に記述されている必要はない。例えば、ある画像１が、３番目のグループに属する場合、
画像１：グループ３
として記述すればよい。また、同様に、文書２がグループ３に属する場合、
文書２：グループ３
として記述することができる。グループ指示子を与える手段は問わず、人手によって与えてもよいし、自動的に与えてもよいが、好ましくは、後者の方が人手を介さずに済むため、効率的である。例えば、同一ウェブページ内に出現する画像と文書は同一のグループに属するとしてグループ指示子を与えてもよい。あるいは、メタデータとして、例えばコンテンツの内容を表現するもの（コンテンツのタイトル、概要文、及びキーワード等）、コンテンツのフォーマットに関するもの（コンテンツのデータ量、及びサムネイル等のサイズ等）等を含んでいるような場合には、共通するメタデータやフォーマットを持つものを同一のグループに属するとみなしてもよい。

情報処理装置１０は、コンテンツデータベース１２と通信手段を介して接続され、入力部２０、出力部２２を介して相互に情報通信し、コンテンツデータベース１２に登録されたコンテンツに基づいて写像を生成する写像生成処理と、生成した写像を用いてコンテンツを元の特徴量よりも低次元な低次元特徴量に変換する情報圧縮処理を行う。

また、コンテンツデータベース１２は、情報処理装置１０の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとして、通信手段は、インターネット、ＴＣＰ／ＩＰにより通信するよう接続されているものとする。コンテンツデータベース１２は、いわゆるＲＤＢＭＳ (Relational Database Management System）等で構成されているものとしてもよい。

なお、情報処理装置１０が備える各部、及びコンテンツデータベース１２は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは情報処理装置１０が備える記憶装置に記憶されており、記録媒体に記録することも、ンターネット等のネットワークや電話回線等の通信回線を介して提供することも可能である。なお、「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータやサーバ等に内蔵されるハードディスク等の記憶装置のことをいう。

もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワーク等によって接続された複数のコンピュータやサーバ等に分散して実現してもよい。さらに、情報処理装置１０が備える各部の機能をコンピュータやサーバ等にすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

次に、図１に示す情報処理装置１０が備える各部について説明する。

入力部２０は、コンテンツデータベース１２から、複数のコンテンツのコンテンツデータ、複数のコンテンツ各々についてのメディア種別、及び複数のコンテンツの各々に付与されたグループ指示子を取得する。

特徴抽出部３０は、入力部２０より取得したコンテンツデータを解析することで、コンテンツのメディア種別毎に、当該メディア種別の複数のコンテンツの各々について、コンテンツを特徴的に表す特徴量を抽出する。また、特徴抽出部３０は。抽出した特徴量をグループ指示子と合せて特徴量記憶部３２に記憶させる。

特徴抽出部３０における特徴量を抽出する処理（以下、「特徴量抽出処理」という）は、コンテンツのメディア種別に依存する。

例えば、コンテンツが文書であるか、画像であるか、音であるか、映像であるかによって、抽出するまたは抽出できる特徴量は変化する。ここで、各メディア種別に対してどのような特徴量を抽出するかは、本発明の要件として重要ではなく、一般に知られた公知の特徴抽出処理を用いてよい。具体的には、あるコンテンツから抽出された次元を持つ数値データ（スカラー又はベクトル）であれば、あらゆる特徴量に対して有効である。したがって、ここでは、本実施形態の一例に適する、各種コンテンツに対する特徴抽出処理の一例を説明する。

コンテンツが文書である場合には、文書中に出現する単語の出現頻度を用いることができる。例えば、公知の形態素解析を用いて、名詞、形容詞等に相当する単語ごとに、その出現頻度を計数すればよい。この場合、各文書の特徴量は、単語種別と同じだけの次元を持つベクトルとして表現される。

あるいは、下記の参考文献１や参考文献２に記載の分散表現方法を用いてもよい。

[参考文献１] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of Advances in Neural Information Processing Systems, 2013.
[参考文献２] Quoc Le and Tomas Mikolov. Distributed Representations of Sentences and Documents. In Proceedings of International Conference on Machine Learning, 2014.

また、コンテンツが画像である場合には、例えば、明るさ特徴、色特徴、テクスチャ特徴、景観特徴、あるいはニューラルネット特徴等を抽出する。

明るさ特徴は、ＨＳＶ色空間におけるＶ値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像の特徴量は、Ｖ値の量子化数（例えば、１６ビット量子化であれば２５６諧調）と同数の次元を持つベクトルとして表現される。

色特徴は、Ｌ＊ａ＊ｂ＊色空間における各軸（Ｌ＊、ａ＊、ｂ＊）の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、Ｌ＊に対して４、ａ＊に対して１４、ｂ＊に対して１４等とすればよく、この場合、３軸の合計ビン数は、４×１４×１４＝７８４、すなわち７８４次元のベクトルとなる。

テクスチャ特徴としては、濃淡ヒストグラムの統計量（コントラスト）やパワースペクトルなどを求めればよい。あるいは、局所特徴量を用いると、色や動きなどと同様、ヒストグラムの形式で抽出することができるようになるため好適である。局所特徴としては、例えば下記の参考文献３に記載されるＳＩＦＴ（Scale Invariant Feature Transform ）や、下記の参考文献４に記載されるＳＵＲＦ（Speeded Up Robust Features）等を用いることができる。

［参考文献３］D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints ”, International Journal of Computer Vision, pp.91-110, 2004
［参考文献４］H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006

これらによって抽出される局所特徴は、例えば１２８次元の実数値ベクトルとなる。このベクトルを、予め学習して生成しておいた符号帳を参照して、符号に変換し、その符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号帳の符号数と一致する。又は、参考文献５に記載のスパース表現や、参考文献６、７に記載のフィッシャーカーネルに基づく特徴表現等を利用してもよい。

[参考文献５] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, “Locality-constrained Linear Coding for Image Classification”, IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献６] Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification”, European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献７] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes”, IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.

結果として生成される特徴量は、いずれの場合にも、符号帳の符号数に依存した長さを持つ実数値ベクトルになる。

景観特徴は、画像の風景や場面を表現した特徴量である。例えば参考文献８に記載のＧＩＳＴ記述子を用いることができる。ＧＩＳＴ記述子は画像を領域分割し、各領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現されるが、この場合、生成される特徴量は、フィルタの種類（分割する領域の数とオリエンテーションの数）に依存した長さのベクトルとなる。

［参考文献８］A. Oliva and A. Torralba, “Building the gist of a scene: the role of global image features in recognition”, Progress in Brain Research, 155, pp.23-36, 2006

ニューラルネット特徴は、画像をニューラルネットに入力することで得られる特徴量である。ニューラルネットとしては、例えば参考文献９に記載のConvolutional Neural Networkを用いればよい。

[参考文献９] A. Krizhevsky, I. Sutskever, and G.E. Hinton. ImageNet classification with deep convolutional neural networks. In Proceedings of Neural Information Processing Systems, 2012.

また、コンテンツが音である場合には、音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴、あるいはニューラルネット特徴等を抽出する。

音高特徴は、例えばピッチを取るものとすればよく、下記の参考文献１０に記載される方法等を用いて抽出することができる。この場合、ピッチを1次元ベクトル（スカラー）として表現するか、あるいはこれをいくつかの次元に量子化しておいてもいい。

［参考文献１０］古井貞熙, 「ディジタル音声処理, ４. ９ピッチ抽出」, pp.57-59, 1985

音圧特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。いずれにしても、音圧を計算するバンドの数に依存した長さのベクトルとなる。

スペクトル特徴としては、例えばメル尺度ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstral Coefficients ）を用いることができる。

リズム特徴としては、例えばテンポを抽出すればよい。テンポを抽出するには、例えば下記の参考文献１１に記載される方法等を用いることができる。

［参考文献１１］E.D. Scheirer, “Tempo and Beat Analysis of Acoustic Musical Signals ”, Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998

発話特徴や音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば下記の参考文献１２に記載される方法等を用いればよい。

［参考文献１２］K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, “Video Handling with Music and Speech Detection”, IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998

音イベント特徴としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音等の環境音の生起等を用いるものとすればよい。このような音イベントを検出するには、例えば下記の参考文献１３に記載される方法等を用いればよい。

［参考文献１３］国際公開第２００８／０３２７８７号

ニューラルネット特徴としては、音声信号又はその周波数変換を入力として得られるニューラルネットの出力を用いればよい。ニューラルネットとしては、例えば上記参考文献９に記載のConvolutional Neural Networkを用いればよい。

また、コンテンツが映像である場合、映像は、一般に画像と音のストリームであるから、上記説明した画像特徴と音特徴とを用いることができる。映像中のどの画像、音情報を分析するかについては、例えば、予め映像をいくつかの区間に分割し、その区間毎に１つの画像、及び音から特徴抽出を実施する。

映像を区間に分割するには、予め決定しておいた一定の間隔で分割するものとしてもよいし、例えば下記の参考文献１４に記載される方法等を用いて、映像が不連続に切れる点であるカット点によって分割するものとしてもよい。

［参考文献１５］Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, “Structured Video Computing”, IEEE Multimedia, pp.34-43, 1994

映像を区間に分割する場合には、望ましくは、上記の後者の方法を採用する。映像区間分割処理の結果として、区間の開始点（開始時刻）と終了点（終了時刻）とが得られるが、この時刻毎に別々の特徴量として扱えばよい。

上記説明した特徴量の中から、一つあるいは複数を利用してもよいし、その他の公知の特徴量を用いるものとしてもよい。

写像学習部３４は、特徴量記憶部３２から読み出した特徴量とメディア種別、並びに、後述する最大相関ペア指示子とに基づいて、メディア種別毎に１つ以上の写像を学習し、写像記憶部３６に記憶させる。以下、写像学習部３４で行われる処理を「学習処理」という。

具体的には、あるメディア種別ｍのコンテンツｉから抽出された特徴量をｘ_ｍ、ｉ∈Ｒ^Ｄｍと表す。メディア種別ｍのコンテンツの特徴量次元はＤ_ｍであり、これは一般に高次元である。写像学習部３４、メディア種別ｍの特徴量を１次元特徴量に変換する写像ｗ_ｍ、ｋ：ＲＤｍ→Ｒとなる写像の集合を求める。

１つのｗ_ｍ、ｋによって、特徴量ｘ_ｍ、ｉ∈Ｒ^Ｄｍは実数値に写像されるから、写像集合Ｗ_ｍ＝｛ｗ_ｍ、１、ｗ_ｍ、２、・・・、ｗ_ｍ、ｄ｝によってｄ＜Ｄ_ｍ次元のベクトル、すなわち、ｄの低次元特徴量に変換されることになる。

このような低次元特徴量は、元の高次元特徴量に比べ効率的である。例えば上記参考文献９に記載のニューラルネット特徴の場合、典型的にはＤ_ｍ＝４０９６次元とすることが多いが、これに対し、低次元特徴量はｄ＝６４次元などとすればよい。この場合、データ量は１／６４となり、計算時間及び必要なメモリ容量共に同じ割合だけ減少する。

本実施の形態の情報処理装置１０における目的は、この低次元特徴量によって、異なるメディア種別であっても類似度の計測を可能にすることである。したがって、ここで生成する写像と、それにより生成される低次元特徴量は、次の２つの性質を持つ。

（Ａ）元のコンテンツのメディア種別ｍにおいて、元の空間Ｒ^Ｄｍでの類似度を表す低次元特徴量へと変換する。すなわち、元の特徴量が類似したコンテンツ同士ほど、低次元特徴量の類似度も高く（距離も近く）なる。

（Ｂ）グループ指示子が示すグループが同一のグループの内、異なるメディア種別でありながら相互に関連の強いコンテンツのペアは、低次元特徴量の距離が近くなる。

ここで、相互に関連性の強いペアとは、最大相関ペアのことである。これを発見する手段についての説明は、後述することとし、ここではこのような最大相関ペアはひとまず所与として話を進める（例えば、同一グループに含まれる異種メディア同士のペアの内、ランダムに１つを最大相関ペアと見做すなどとしてもよい）。

本実施の形態の一例では、写像として下記（１）式で示す線形関数に基づく写像を考える。

ここで、ｗ_ｍ、ｋ∈Ｒ^Ｄｋ、ｂ_ｍ、ｋ∈Ｒは未知のパラメータである。この写像において、未知のパラメータはｗ_ｍ、ｋとｂ_ｍ、ｋの二つだけである。

ここで、仮にｘ_ｍ、ｉ（ｉ＝１，２，・・・，Ｎ_ｍ）が平均０に正規化されているとき、ｂ_ｍ、ｋ＝０としても一般性を失わない。ｘ_ｍ、ｉを０に正規化するには、ｘ_ｍ、ｉの平均を、各ｘ_ｍ、ｉから減算すればよいのであり、これはｘ_ｍ、ｉ∈Ｒ^Ｄｍにおいて常に可能であることから、ｂ_ｍ、ｋ＝０と決定できる。したがって、以降、ｘ_ｍ，ｉの平均は０に正規化されているとし、上記（１）式を下記（２）式に定義しなおして説明する。

この写像の定義によれば、関数φ_ｍ、ｋ内にあるパラメータｗ_ｍ、ｋを定めることで、写像を一意に定めることができる。
上記（２）式に示すように、本実施の形態における写像は、特徴抽出部３０によってコンテンツのメディア種別毎に抽出されたコンテンツの特徴量ｘ_ｍと、写像のパラメータｗ_ｍ，ｋとの内積を算出し、算出された内積に基づいて、コンテンツのメディア種別毎の特徴量に対応する写像を出力する関数である。したがって、写像学習部３４で行われる学習処理の目的は、このｗ_ｍ、ｋ（ｋ＝１，２，…, ｄ）を求めることである。

上述した２つの性質、すなわち、
（Ａ）元のメディア種別ｍにおいて、元の空間Ｒ^Ｄｍでの類似度を表す低次元特徴量へと変換する。すなわち、元の特徴量が類似したコンテンツ同士ほど、低次元特徴量の類似度も高く（距離も近く）なること。

（Ｂ）グループ指示子が示すグループが同一のグループの内、異なるメディア種別でありながら相互に関連の強いコンテンツのペアは、低次元特徴量の距離が近くなること。
に合う写像となるように、ｗ_ｍ、ｋを求めたい。

まず、上記（Ａ）の性質を満たすための方法を説明する。求めたいｗ_ｍ、ｋは、元の特徴量空間を２分割する超平面であると解釈できる。図２を用いて説明する。図２中に示した、白丸（○）と黒丸（●）は特徴量空間上にある特徴量を表す。このとき、ｗ_ｍ、ｋはその値によって、直線６１や直線６２と見做すことができる。すなわち、より低次元な特徴量で類似するコンテンツをまとめることは、より少ない本数の直線（写像ｗ_ｍ、ｋ）で、類似する特徴量を分割することに相当する。

メディアコンテンツにおいては、上述した特徴量のメディア種別によらず、類似したコンテンツ同士の特徴量の分布は滑らかな多様体構造を形成することがよく知られている。多様体構造とは、簡単に言えば滑らかな変化である。分かりやすく、図２と類似する図３を用いて説明すると、これらの特徴量は、大まかに曲線５１と曲線５２の滑らかに変化する２本の曲線上に分布しており、同じ曲線上の点同士は互いに類似していることが多い。図３中においては、同色であれば互いに類似したコンテンツの特徴量となる。

従って、これらの類似したコンテンツ群が直線の片側に集まるように直線ｗ_ｍ、ｋを引くことで、類似するコンテンツをできる限り少ない本数の直線で分割することが可能になる。図２に示す直線の内、直線６１のような直線は好ましくなく、２群の間を通る直線６２のような直線を規定する写像のパラメータｗ_ｍ、ｋを求めればよいことになる。

続いて、上記（Ｂ）の性質を満たすための方法を説明する。例えば、コンテンツのメディア種別が画像と文書である場合について、図４を用いて説明する。図４の例では、画像特徴量を丸（○または●）、文書特徴量を三角（△または▲）で表している。仮に、それぞれの画像と文書の特徴量空間において、性質（Ａ）を満たすように、すなわち、多様体構造を分離するような直線７１、７２がそれぞれ得られているとしよう。加えて、ここでは最大相関ペアが得られているとし、直線７３〜７６によって結ばれているペア同士が最大相関ペアを示すとする。このとき、直線７１、７２によって分離されている画像および文書特徴量に対して、直線７３〜７６で結ばれた最大相関ペアである画像／文書特徴量同士が、互いに近しい低次元特徴量となるように写像のパラメータｗ_ｍ、ｋを求めればよい。例えば、図４の例では白丸と白三角（△）、黒丸と黒三角（▲）がそれぞれ近しくなるような低次元特徴量に変換できればよい。

以上示した２つの方法に基づき、本実施の形態の一例では、上記（Ａ）及び（Ｂ）の２つの性質を満たすパラメータｗ_ｍ、ｋを求める。本実施の形態の一例では、次の２つの手続きによってｗ_ｍ、ｋを求める。第１の手続は、コンテンツのメディア種別ｍ毎に、その特徴量空間における多様体構造を捉える。また、第２の手続は、各メディア種別の多様体構造、及び異種メディア種別間の相関に基づいて、ｗ_ｍ、ｋを求める。

以下、それぞれの手続きについて詳述する。

第１の手続きは、コンテンツのメディア種別によらず同じであり、各メディア種別に対してそれぞれ同じ処理を適用すればよい。例えば、上記非特許文献３に記載の公知の方法を用いることができる。以下、上記非特許文献３に記載の方法を説明する。

多様体とは、大まかに言えば滑らかな図形であり、言い換えれば局所的に見ればユークリッドな空間とみなせる。例えば、上記図３に示すような曲線のように、いくつかの直線の集まりとして近似されるようなものであると解釈してもよい。このことは、多様体とは局所的に見れば線形で近似される構造を持つことを表しているのであり、言い換えれば、多様体上の任意の点は、同じ多様体上にあるいくつかの近傍点に基づく、近傍の相対的幾何関係によって表現できることを意味している。

上記非特許文献３では、次の問題を解くことによって多様体を発見する。

ここで、第一項は特徴量ｘ_ｍ，ｉを、そのユークリッド空間上での近傍集合ε（ｘ_ｍ，ｉ）に含まれる特徴量インデクスに対応する特徴量の集合｛ｘ_ｍ、ｊ｜ｊ∈ε（ｘ_ｍ，ｉ）｝によって線形結合で表したときの誤差であり、ｓ_ｍ，ｉｊはその際の結合重みである。第二項は、結合重みのベクトルｓ_ｍ，ｉ＝｛ｓ_ｍ，ｉ１，・・・，ｓ_ｍ，ｉＮ｝に対して、その要素がスパースであることを要請する、すなわち、ベクトル中のいくつかの限られた要素にのみ非ゼロの値を持つように正則化するスパース項であり、ｖ_ｍ，ｉはｘ_ｍ，ｉに近いほど小さな値を持つような定数を要素として持つベクトルである。ベクトルｖ_ｍ，ｉの要素ｖ_ｍ，ｉjは、例えば、下記（４）式のように表わされる。なお、自分自身のベクトルについての重みｓ_ｉ＝ｊは０である。

つまるところ、この問題を解くことによってある特徴量ｘ_ｍ，ｉをできる限り少数の近傍点の線形結合として表した場合の結合重みｓ_ｍ，ｉを求めることができるが、これは多様体を表現するいくつかの近傍点と、その相対的幾何関係（結合重み）を表しているに他ならない。この問題は、公知のスパース問題ソルバによって解決することができる。例えば、ＳＰＡＭＳ（SPArse Modeling Software）などのオープンソースソフトウェアを用いてもよい。

なお、近傍集合ε（ｘ_ｍ，ｉ）は、いかなる方法を用いて求めてもよい。最も単純な方法は、各特徴量ｘ_ｍ、ｊに対して、その他全ての点ｘ_{ｍ、ｊ≠ｉ}とのユークリッド距離を求め、近いものからｔ個を近傍集合とするものである。ｔは任意の正の整数でよく、例えばｔ＝１０などとしてもよい。

しかし、この方法では１つの特徴量に対してその他全ての特徴量との距離を求める必要があるため、未知の特徴量ｘ_ｍ、ｊに対して近傍集合を求めようとすると、Ｏ（Ｎ_ｍ）の計算時間が掛かるという問題がある。したがって、高速に計算できる手法を用いることが好ましい。例えば、クラスタリングやハッシングによる方法を用いることができる。

クラスタリングを用いる場合、例えばｋ−ｍｅａｎｓ法等により全Ｎ_ｍ個の特徴量をクラスタリングし、Ｌ個のクラスタ（Ｌ＜＜Ｎ_ｍ）と、各クラスタを代表するＬ個の代表特徴量（クラスタ中心）を求めておく。Ｌの値は任意の正の整数としてよいが、例えば、Ｌ＝１２８等とすればよい。この結果、各特徴量がどのクラスタに属するか、及び、当該クラスタの代表特徴量を得ることができる。この前提のもと、下記の手続きによって、未知の特徴量ｘ_ｍ、ｊに対する近傍集合を得ることができる。まず、特徴量ｘ_ｍ、ｊに対して、Ｌ個の代表特徴量との距離を計算し、最も近いクラスタを特定する。次に、当該クラスタに属する全ての特徴量を、近傍集合ε（ｘ_ｍ，ｉ）として得る。この処理に必要な計算時間はＯ（Ｌ）であり、Ｌ＜＜Ｎ_ｍであることから、単純な方法に比べて高速に近傍集合を得ることができる。

また、ハッシングを用いる場合、例えば上記非特許文献１等の方法によって、全Ｎ_ｍ個の特徴量に対するハッシュ値を求めておく。この前提のもと、未知の特徴量ｘ_ｍ、ｊのハッシュ値を求め、これと同一またはハミング距離上近い値を持つハッシュ値を持つ（すなわち、同一あるいはそれに近接するバケットに属する）全ての特徴量を、近傍集合ε（ｘ_ｍ，ｉ）として得ればよい。この処理に必要な計算時間は参照するバケットの数に依存するが、一般に参照バケット数はＮ_ｍよりも小さいことから、こちらも高速に近傍集合を得ることができる。なお、上記非特許文献１の方法によるハッシュ値は、ユークリッド空間上のコサイン類似度を保存するような写像であり、ユークリッド空間上の角度が近ければ近いほど低次元特徴量（ハッシュ値）が衝突する確率が高くなる。一方で、本実施の形態により生成される低次元特徴量は、ユークリッド空間上ではなく、多様体上の近さ（測地線距離に基づく近さ）を保存するような写像となるのであり、生成される低次元特徴量は特徴量の分布をより正確に捉えたものである。

以上の手続きを、対象とするコンテンツの全てのメディア種別に対して適用すればよい。

次に第２の手続について説明する。

第１の手続きによって得た各メディア種別のｓ_ｍ，ｉ（ｉ＝１，２，・・・，Ｎ_ｍ）と同様の近傍の相対的幾何関係を求めることによって、ｗ_ｍ、ｋを求める。

簡単にするため、コンテンツのメディア種別は２つ、例えば画像と文書とし、ｍ＝１のとき画像、ｍ＝２のとき文書を表すものとする。もちろん、以下に説明する実施の形態の一例は、その他のメディア種別、あるいは、コンテンツのメディア種別が３以上の場合に対しても同様に適用できるものである。

具体的には、下記の問題を解決する。便宜上、画像特徴量ｘ_１，ｉ（ｉ＝１，２，・・・，Ｎ_１）、及び文書特徴量ｘ_２，ｉ（ｉ＝１，２，・・・，Ｎ_２）を並べた行列Ｘ_１＝｛ｘ_１，１，・・・，ｘ_１、Ｎ１｝、Ｘ_２＝｛ｘ_２，１，・・・，ｘ_２、Ｎ２｝を定義する。さらに、画像特徴量のための写像のパラメータｗ_１，ｋ（ｋ＝１，２，…，ｄ）、及び文書特徴量のための写像のパラメータｗ_２，ｋ（ｋ＝１，２，…，ｄ）を並べた行列Ｗ_１＝｛ｗ_１、１，・・・，ｗ_１、ｄ｝、Ｗ_２＝｛ｗ_２、１，・・・，ｗ_２、ｄ｝を定義する。

具体的には、以下の問題を解く。

ここで、Ｓ_ｍはそれぞれｓ_ｍ，ｉｊを要素に持つ行列、Ｒ_ｍｌはメディア種別ｍとメディア種別ｌとの最大相関ペアに基づいて求める行列である。行列Ｒ_ｍｌのサイズはＮ_ｍ×Ｎ_ｌであり、最大相関ペアである特徴量の組に対応する要素のみ１、その他の要素は０を取る行列である。仮に（ｘ_ｍ，ｉ，ｘ_ｌ，ｊ）が最大相関ペアであるとしたときＲ_ｍｌのｉ，ｊ番目の要素は１となる。

Ｊ_ｍ（Ｗ_ｍ；Ｘ_ｍ，Ｓ_ｍ）は、それぞれコンテンツのメディア種別ｍにおける特徴量空間の多様体構造を保存するための関数であり、例えば、下記（６）式のように定義することができる。

上記（６）式における多様体構造は、コンテンツのメディア種別に応じた特徴量が存在する空間である特徴量空間において、コンテンツのメディア種別に応じた特徴量を、当該コンテンツのメディア種別に応じた特徴量の近傍に存在する他のコンテンツのメディア種別に応じた特徴量に対応する写像で表したものである。

上記（６）式は、元々の特徴量空間における多様体構造、すなわち、ｓ_ｍ，ｉｊとその線形結合を、下記（７）式の写像

によって変換された先においてもそのまま再構築することを要請するものであり、上記（３）とも相似性を持つものである。すなわち、上記（５）式に代入されたとき、低次元特徴量に変換された先でも元の空間と同様の多様体構造を持つようにＷ_ｍを決定することができる。

また、Ｊ_ｍｌ（Ｗ_ｍ、Ｗ_ｌ；Ｘ_ｍ，Ｘ_ｌ，Ｒ_ｍｌ）は、コンテンツのメディア種別ｍとメディア種別ｌとの間の相関関係を保存するための関数であり、例えば、下記のように定義することができる。

上記（８）式では、最大相関ペアである特徴量ペアを、変換先でも類似した値となるように要請するものである。上記（８）式は、メディア種別ｍのｉ番目の特徴量ｘ_ｍ，ｉとメディア種別ｌのｊ番目の特徴量ｘ_ｌ，ｊのペアについて、それぞれ上記（７）式によって与えられる写像により変換された値を相関行列で重みづけた値となっている。したがって、これを上記（５）式に代入することで、最大相関ペアの距離をできる限り小さくするようにＷ_ｍを決定することができる。

従って、写像学習部３４は、上記（５）式、（６）式、及び（８）式に従って、コンテンツのメディア種別毎に、当該種メディア別の複数のコンテンツの各々について、当該コンテンツのメディア種別に応じた特徴量が存在する空間である特徴量空間において、当該コンテンツのメディア種別に応じた特徴量の近傍に存在する他のコンテンツの特徴量と計算された結合重みとに基づいて求められる、特徴量を写像により変換した低次元特徴量と、当該コンテンツから抽出された特徴量を写像により変換した低次元特徴量との距離が小さくなり、かつ、グループ識別子の各々について、最大相関ペアとして抽出された組み合わせのコンテンツの各々から抽出された特徴量を写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の特徴量を低次元特徴量に変換するための写像を生成する。

以上のように定義された上記（６）式、及び（８）式を、上記（５）式に代入し、代数変形を適用すると、下記（９）式の問題が得られる。

である。上記（７）式は、Ｗ_ｍおよびＷ_ｌ、すなわちＰについて凸であるので、Ｗについて微分して極値を取ることで、次の一般化固有値問題に帰着される。

なお、上記（１１）式におけるηは固有値を表す。このような一般化固有値問題の解は、反復法やべき乗法などの公知の方法によって求めることができる。

このようにして求めたＷ_ｍおよびＷ_ｌは、元の空間における多様体構造を最適に保存し、かつ、最大相関ペアとなっている異種メディアを近しい低次元特徴量に変換するものである。したがって、目的としていた２つの性質上記（Ａ）及び（Ｂ）を最適に満たすようなＷ_ｍおよびＷ_ｌを得ることができる。

新たな低次元特徴量を生成する際には、上記（７）式を計算すればよいだけである。この計算に必要となるメモリ量は、ｗ_ｍ，ｋとｘ_ｍ，ｉそれぞれを格納するに必要なメモリ量のみであり、仮に、特徴量が浮動小数点表示であり、次元Ｄが１００の場合８００Ｂ程度、仮に次元Ｄが１０００００程度になったとしても高々８００ＫＢと、現存する一般的なコンピュータにおいても極めて容易に蓄積できるメモリ量に抑えることができる。したがって、この方法によって、多様体の構造を捉えることによる高い精度でありながら、高速かつ省メモリな低次元特徴量生成が可能である。

上記の処理詳細によって生成された写像、すなわち、具体的には、全てのコンテンツのメディア種別における｛Ｗ_ｍ｝は、写像記憶部３６に記憶される。

なお、実際の写像生成時（後述する写像生成処理、図５参照）には、一度この学習処理が終了した段階で一度終了判定を実施し、終了条件を満たす場合には低次元特徴量生成部３８による低次元特徴量生成処理（詳細後述）及び最大相関ペア抽出部４０による最大相関ペア抽出処理（詳細後述）を経て最大相関ペアを更新し、再び学習処理を実施する。

また、低次元特徴量生成部３８は、特徴量記憶部３２に格納された特徴量を、写像記憶部３６に格納されたそのメディア種別に対応する１つ以上の写像に基づいて低次元特徴量に変換し、特徴量記憶部３２に記憶させるか、出力部２２に出力する。以下では、低次元特徴量生成部３８により行われる処理を「低次元特徴量生成処理」という。

低次元特徴量生成部３８は、写像学習部３４による学習処理が済んでいれば、写像記憶部３６には、コンテンツのメディア種別ごとにｄ組の写像が格納されている。これを用いれば、上記（２）式にしたがって、特徴量で表現された任意のコンテンツを、ｄ次元以下の任意の次元を持つ低次元特徴量で表現することができる。

最大相関ペア抽出部４０は、特徴量記憶部３２を参照し、同一のグループ指示子が割り当てられたコンテンツ群と、それに対応する低次元特徴量とに基づいて、メディア種別が異なるコンテンツの組み合わせのうち、相関が最大となる最大相関ペアを発見する。また、最大相関ペア抽出部４０は、発見した最大相関ペアを表す最大相関ペア指示子をグループ指示子に紐付けて特徴量記憶部３２に記憶させる。この情報は、例えば、３番目のグループ（グループ指示子＝３）に画像１、画像２、文書１、文書２、文書３があったとし、最大相関ペアは画像２と文書３であったとする。このとき、
グループ３：画像２・文書３
等として記憶しておけばよい。この最大相関ペア指示子は、上述した写像学習部３４における学習処理において用いる。

最大相関ペア抽出部４０により行われる最大相関ペア抽出処理について具体的に説明する。

上記学習処理では、最大相関ペアは既に得られている（ひとまずランダムに与えられているなど）と仮定して説明を実施した。ここでは、現在得られている写像を用いて、最大相関ペアを更新する手続きについて詳述する。

上述した写像学習部３４による学習処理により、全てのコンテンツに対して低次元特徴量を求めることができることは言うまでもない。最大相関ペアは、同一グループに属する異種メディアの内、この相関が最大となるものを発見することによって抽出する。

コンテンツのメディア種別ｍ、ｌの２種があるとする。各コンテンツが属するグループは、グループ指示子を参照することで分かるので、あるグループｇに属するコンテンツ群に対応する低次元特徴量群Ｙ_ｇｍ＝｛ｙ_ｍ，ｇｉ｝、Ｙ_ｇｌ＝｛ｙ_ｌ，ｇｊ｝は自明に得ることができる。

Ｙ_ｇｍ、Ｙ_ｇｌに含まれる低次元特徴量ｙ_ｉ、ｙ_ｊの相関は下記（１２）式によって求めることができる。

これを、Ｙ_ｇｍ、Ｙ_ｇｌに属する低次元特徴量全ての組み合わせについて求め、最大の値を撮ったペアをグループｇの最大相関ペアとすればよい。

以上を全てのグループに対して実施すれば、全てのグループに対する最大相関ペアを求めることができる。

出力部２２は、低次元特徴量生成部３８で変換した低次元特徴量をコンテンツデータベース１２に伝達する。コンテンツデータベース１２は、出力部２２から伝達された低次元特徴量を格納する。

＜情報処理装置１０の作用＞
次に、本実施の形態の情報処理装置１０の作用について説明する。本実施の形態における情報処理装置１０は、写像を生成する写像生成処理と、特徴量を低次元特徴量化する情報圧縮を実行する。以下、これら２つの処理について説明する。

＜写像生成処理＞
まず、写像生成処理について説明する。図５は、写像生成処理の一例の流れを示すフローチャートである。図５に示した写像生成処理は、実際にコンテンツの低次元特徴量を生成する前に、少なくとも１度実施しておく処理である。

まず、ステップＳ１００で入力部２０が、コンテンツデータベース１２に格納されている複数のコンテンツのコンテンツデータ、複数のコンテンツ各々のメディア種別、複数のコンテンツ各々のグループ指示子を取得する。

次のステップＳ１０２で特徴抽出部３０が、コンテンツデータに対して、そのメディア種別に即した特徴量を抽出して、メディア種別、グループ指示子と共に特徴量記憶部３２に記憶させる。

次のステップＳ１０４で写像学習部３４が、特徴量とメディア種別、及び最大相関ペア指示子に基づいて１つ以上の写像を生成して、写像記憶部３６に記憶させる。

次のステップＳ１０６において、終了条件を満たしていれば本写像生成処理を終了する。一方、終了条件を満たしていない場合は、ステップＳ１０８へ移行する。なお、ステップＳ１０６で判断に用いる終了条件は、例えばステップＳ１０４を一定回数（例えば３０回等）実施した後としてもよい。

ステップＳ１０８で低次元特徴量生成部３８が、前記特徴量と前記写像とに基づいて各コンテンツの低次元特徴量を生成し、特徴量記憶部３２に記憶させる。

次のステップＳ１１０で最大相関ペア抽出部４０が、前記グループ指示子と前記低次元特徴量とに基づいて、グループごとに相関が最大となるペアを発見し、特徴量記憶部３２に記憶させた後、ステップＳ１０４に戻り、処理を繰り返す。

以上の写像生成処理により、コンテンツデータベース１２に格納されたコンテンツデータとグループ指示子から写像を生成することができる。

＜情報圧縮処理＞
次に、情報圧縮処理について説明する。図６は、情報圧縮処理の一例の流れを示すフローチャートである。図６に示す情報圧縮処理は、写像記憶部３６に格納された写像を用いてコンテンツの特徴量を低次元特徴量化する処理である。

まず、ステップＳ２００で入力部２０が、コンテンツデータベース１２あるいは外部から直接コンテンツデータおよびメディア種別を取得する。

次のステップＳ２０２で特徴抽出部３０が、コンテンツデータに対して、そのメディア種別に即した特徴量を抽出する。

次のステップＳ２０４で低次元特徴量生成部３８が、写像記憶部３６に記憶された、そのコンテンツのメディア種別に対応する１つ以上の写像を用いて、特徴量を低次元特徴量に変換する。

本実施の形態の一例においては、コンテンツのメディア種別によらず、１つの写像につき、特徴量は１次元に変換されるので、写像記憶部３６にＢ個の写像が格納されている場合は、特徴量はＢ次元の低次元特徴量に変換される。

次のステップＳ２０６で出力部２２が、低次元特徴量をコンテンツデータベース１２に記憶させる。

以上の処理により、入力したコンテンツに対して、メディア種別によらず低次元特徴量を求めることができる。

本実施の形態の情報処理装置１０によれば、メディア種別ごとの特徴量空間の多様体構造を捉え、かつ異種メディア種別間の最大相関ペアの関係を保存するようにパラメトリックな写像を生成する。これにより、相互に異なるメディア種別でありながら、関連するコンテンツ同士を、高速かつ省メモリ、かつ高精度に発見することができる。

［第２の実施の形態］
＜全体構成＞
次に、本発明の第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、ハッシュ関数の種類が第１の実施の形態と異なっている。

上記第１の実施の形態で前述した第２の手続きでは、上記（２）式の形をとる写像の場合において、そのパラメータｗ_ｍ，ｋ（ｋ＝１，２，…，Ｂ）を求める方法について述べたが、本発明の実施の形態で扱える写像は、何もこの形に限るものではなく、別の形式をとる写像であっても、同様にそのパラメータを決定することができる。

例えば、次のような写像も扱うことができる。

ここで、α_{ｍ，ｋ，ｔ}はパラメータ、κ（ｘ_ｍ，ｔ，ｘ_ｍ）はカーネル関数である。カーネル関数は、

のような関数であり、さらにＮ_ｍ個の特徴量｛ｘ_ｍ，１，・・・，ｘ_ｍ，Ｎｍ｝に対して、

及び、任意の実数α_ｉ、α_ｊに対して

を満たすような任意の関数である。このような関数は無数に存在するが、例を挙げれば、

等が存在する。ただし、β、γは正の実数値パラメータ、ｐは整数パラメータであり、適宜決定してよい。
上記（１３）式において、ｂ_ｍ，ｋは

（すなわち平均値）で定められる定数なので、上記（１３）式は、

と、内積の形に変換できる。ただし、

である。ここで、Ｔは写像を定める定数である。上記写像、具体的にはカーネルベクトル写像κ_ｍ（ｘ_ｍ）は、Ｔ個の特徴量によって定められるが、ＴはＴ＜Ｎ_ｍの範囲で任意の値に決めてよい。例えば、Ｔ＝３００等として、全特徴量｛ｘ_ｍ，１，・・・，ｘ_ｍ，Ｎｍ｝の中からランダムにＴ個選んでもよいし、あるいはＫ−ｍｅａｎｓ等のクラスタリング法を用いて選ばれた代表ベクトルとしてもよい。

このように定義された写像は、カーネル関数の形で定義された非線形写像を扱うことができる。したがって、非線形な関数、すなわち、直線だけでなく、曲線も扱える点で、上記（６）式による写像よりも柔軟な表現が可能であるという利点を持つ。

以下、上記（１９）式の形式をとる写像において、そのパラメータα_ｍ，ｋを決定する方法を述べる。ここでも、画像特徴量（ｍ＝１）と文書特徴量（ｍ＝２）の場合を考え、便宜上、κ_１（ｘ_１，ｉ）（ｉ= １，２，…，Ｎ_１）及びκ_２（ｘ_２，ｉ）（ｉ= １，２，…，Ｎ_２）を並べた行列Κ_１＝｛κ_１（ｘ_１，１），・・・，κ_１（ｘ_１、Ｎ）｝、Κ＝｛κ_２（ｘ_２，１），・・・，κ_２（ｘ_２，Ｎ）｝を定義する。さらに、画像特徴量のための写像のパラメータα_１，ｋ（ｋ= 1,2,…,ｄ）および文書特徴量のための写像のパラメータα_２，ｋ（ｋ= 1,2,…,ｄ）を並べた行列Α_１＝｛α_１，１，・・・，α_１，ｄ｝、Α_２＝｛α_２，１，・・・，α_２，ｄ｝を定義する。

具体的には、上記（２）式で定義される写像で言うところの上記（５）式に相当する、以下の問題を解く。

Ｊ_ｍ（Α_ｍ；Κ_ｍ，Ｓ_ｍ）及びＪ_ｍｌ（Α_ｍ、Α_ｌ；Κ_ｍ，Κ_ｌ，Ｒ_ｍｌ）は、上記（６）式、及び（８）式と同様の理由で、例えば、下記のように定義することができる。

上記（２２）式を、上記（５）式に代入し、代数変形を適用すると、下記（２３）式の問題が得られる。

ここで、

である。この問題は、上記（９）式の問題と等価であるため、全く同様の手続きで解くことができる。

上記の処理詳細によって生成された写像、すなわち、具体的には、全てのコンテンツのメディア種別における｛Α_ｍ｝およびカーネル関数κ_ｍ（ｘ_ｍ）は、写像記憶部３６に記憶される。

なお、第２の実施の形態に係る情報処理装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

［第３の実施の形態］
＜システム構成＞
次に、図７を参照して、本発明の第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

上記第１又は第２の実施の形態において、写像学習部と低次元特徴量生成部とは分離可能であり、例えば、上記図１に示した情報処理装置１０以外にも、サーバ―クライアント装置構成を取ることもできる。

第３の実施の形態では、サーバ装置とクライアント装置とで情報処理システムを構成する点が、第１及び第２の実施の形態と異なっている。第３の実施の形態では、類似コンテンツ検索を実施する情報処理システムに、本発明を適用させた場合を例に説明する。具体的には、第３の実施の形態では、ｅコマースサイトにおける販売促進サービスに本発明を適用させた場合を例に説明する。ユーザが実世界で撮影した商品画像に関連する商品を、ｅコマースサイトから探し出して当該ユーザに提示することで、ユーザの購買意欲を掻き立て、ｅコマースサイトの販売に繋げることができる。

第３の実施の形態の情報処理システム１００は、図７に示すようにサーバ装置１２０と、クライアント装置１３０と、を備えている。

図７に示すサーバ装置１２０は、ｅコマースサイト側に設置されており、入力部１５０、出力部１５２、特徴抽出部１６０、特徴量記憶部１６２、写像学習部１６４、写像記憶部１６６、低次元特徴量生成部１６８、及び最大相関ペア抽出部１７０を備える。また、コンテンツデータベース１１２は、商品画像、商品紹介文書、及び意味ラベルとして商品カテゴリが格納されている。

クライアント装置１３０は、ユーザ端末であり、例えばスマートフォン等で構成されていれば、本発明の技術を実施する上で必要な要件を満たすため、好適である。本クライアント装置１３０は、入力部１８０、出力部１８２、特徴抽出部１９０、写像記憶部１９６、及び低次元特徴量生成部１９８を備える。

ここで、サーバ装置１２０とクライアント装置１３０において、共通する構成要素（入力部、特徴抽出部、最大相関ペア抽出部、写像記憶部、低次元特徴量生成部）はそれぞれ同一の機能を有するように構成し、また、図１に記載した各構成要素と同一名称のものは、図１の場合と同一の機能を有するものとしてよい。さらに、低次元特徴量生成部の内容は、それぞれ何らかの通信手段（例えばインターネットやＶＬＡＮ等）の通信手段で適宜同期されているものとする。

図７に示す装置構成における処理概要は下記の通りである。まずサーバ装置１２０は、上記説明した処理と同様の処理を以って、適宜写像を生成して写像記憶部１６６に記憶し、クライアント装置１３０の写像記憶部１９６と同期させる。さらに、コンテンツデータベース１１２中のコンテンツに対して、やはり上記説明した処理と同様の処理を以って、低次元特徴量を生成し、コンテンツデータベース１１２に記憶しておく。

一方、クライアント装置１３０は、ユーザからの検索要求、すなわち、撮影した画像である新規コンテンツの入力部１８０への入力を受け付けたら、低次元特徴量生成部１９８が当該コンテンツに対して低次元特徴量を生成し、出力部１８２からサーバ装置１２０の入力部１５０へと当該低次元特徴量を伝達する。

クライアント装置１３０から入力部１５０が低次元特徴量を受けた場合、サーバ装置１２０は、当該低次元特徴量を用いて、コンテンツデータベース１１２へと検索を掛け、低次元特徴量に基づいて類似コンテンツを発見して、その結果を出力部１５２からクライアント装置１３０へと伝達する。

最後に、クライアント装置１３０は、サーバ装置１２０より受け取った検索結果をユーザに出力する。

このように構成することで、サーバ装置１２０で写像生成処理を実施し、クライアント装置１３０では情報圧縮処理のみを実施するように構成することができる。

なお、第３の実施の形態の情報処理システム１００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

この構成を取るメリットを述べる。一般に、クライアント装置（スマートフォンやＰＣ、携帯端末等）は、サーバ装置と比較して演算能力に乏しいため、写像生成のように演算量が比較的多い処理には適さない場合がある。この構成にすれば、写像生成処理は演算能力の高いサーバ装置で適宜実施し、クライアント装置では演算量の少ない情報圧縮処理だけを実施することができる。さらに、通常、ネットワークを介した通信によってデータ容量の多い情報を伝送する場合、伝送時間が掛かるという問題があるが、当該構成によって、伝送するのは情報量の小さい低次元特徴量のみでよくなり、検索に対する即応性を高めることができる。

また、本実施の形態によれば、従来の技術に開示されているような、画像と文書の全てのペアに対して関係があるとして写像を得る方法に比べ、最大相関ペアを自動的に発見し、それに基づいて写像を得ることができる点で、より精度の高い検索が可能となる。例えば、従来の技術によれば、「赤いスカート」の画像に付随する文書として、「スカート：レッド」等といった商品の見た目を直接記述するような文言だけでなく、ＥＣサイトのタイトル、商品の値段や、在庫数等、必ずしも商品の見た目を表さないような単語も含めて関係を学習してしまう。結果として、同じ値段の全く別の商品や、在庫数が同じ別の商品と類似していると判断されてしまったりするといった誤りを起こしていた。一方で、本実施の形態によれば、画像と文書との間の最も相関の高いペア（この例では画像と「スカート：レッド」の記述）だけを抽出してその関係を反映した写像を得ることができるため、「赤いスカート」を的確に検索することが可能である。

以上の結果、本実施例における販売促進のような、実時間性を要求しつつも、大規模なデータベースを高精度に検索することが求められるサービスを実現することができる点で、本技術の産業応用上のメリットは大きい。

（実施例）
次に、本発明の実施形態の一例により生成した写像によって、類似コンテンツを高速かつ省メモリに検索する実施形態の一例について説明する。

例えば、コンテンツデータベース１２に、Ｎ_１個の画像特徴量Ｘ_１＝｛ｘ_１，１，・・・，ｘ_１，Ｎ１｝とＮ_２個の文書特徴量Ｘ_２＝｛ｘ_２，１，・・・，ｘ_２，Ｎ２｝とが格納されているとし、これらの特徴量は全て上記（２）式に基づいて低次元特徴量Ｙ_１＝｛ｙ_１，１，・・・，ｙ_１，Ｎ１｝およびＹ_２＝｛ｙ_２，１，・・・，ｙ_２，Ｎ２｝に変換されているものとする。このとき、目的はＸ_１、Ｘ_２いずれにも含まれない特徴量ｘ_１，ｑあるいはｘ_２，ｑに対して類似するコンテンツをＸ_１およびＸ_２の中から発見することである。

まず、上記（２）式に基づいて、特徴量ｘ_１，ｑあるいはｘ_２，ｑを低次元特徴量ｙ_１，ｑあるいはｙ_２，ｑに変換しておく。

類似コンテンツの発見は、低次元特徴量の距離に基づいて実施すればよい。すなわち、ｙ_１，ｑあるいはｙ_２，ｑと、Ｙ_１およびＹ_２に含まれるＮ_１＋Ｎ_２個の低次元特徴量との距離を計算し、距離の小さいものを類似コンテンツとして得るものである。前述の通り、低次元特徴量は元の特徴量に比べ低次元であることから、遥かに高速に演算できる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。本実施形態の主要な特徴を満たす範囲内において、任意の用途と構成を取ることができることは言うまでもない。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。

１０情報処理装置
１２、１１２コンテンツＤＢ（データベース）
２０、１５０、１８０入力部
２２、１５２、１８２出力部
３０、１６０、１９０特徴抽出部
３２、１６２特徴量記憶部
３４、１６４写像学習部
３６、１６６、１９６写像記憶部
３８、１６８、１９８低次元特徴量生成部
４０、１７０最大相関ペア抽出部
１２０サーバ装置
１３０クライアント装置
１００情報処理システム

Claims

特徴抽出部、及び写像学習部を備え、複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置における写像学習方法であって、
前記特徴抽出部が、コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出するステップと、
前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算するステップと
前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習するステップと、
を含む写像学習方法。
前記写像学習部が前記相対的幾何関係を計算するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量を、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量の線形結合で表したときの結合重みを前記相対的幾何関係として計算し、
前記写像学習部が写像を学習するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された結合重みと、前記コンテンツの各々のグループ識別子とに基づいて、
前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された前記結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、
前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツ間で相関があるコンテンツの組み合わせの各々について、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する請求項１に記載の写像学習方法。
前記写像学習装置は、最大相関ペア抽出部をさらに備え、
前記最大相関ペア抽出部が、前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツの組み合わせのうち、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の相関が最大となる前記コンテンツの組み合わせを抽出するステップを更に含み、
前記写像学習部によって学習するステップは、
前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、
前記グループ識別子の各々について、前記最大相関ペア抽出部によって抽出された前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する請求項１または請求項２に記載の写像学習方法。
前記写像学習装置は低次元特徴量生成部をさらに備え、
前記低次元特徴量生成部によって、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、前記写像学習部によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップを更に含み、
予め定められた反復終了条件を満たすまで、前記低次元特徴量生成部による生成、最大相関ペア抽出部による抽出、前記写像学習部による計算、及び前記写像学習部による学習を繰り返す請求項１〜請求項３の何れか１項に記載の写像学習方法。
特徴抽出部及び低次元特徴量生成部を含む情報圧縮装置における情報圧縮方法であって、
前記特徴抽出部が、一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出するステップと、
前記低次元特徴量生成部が、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、請求項１〜請求項４の何れか１項に記載の写像学習方法によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップと、
を含む情報圧縮方法。
複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置であって、
コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算し、
前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する写像学習部と、
を備える写像学習装置。
一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出する特徴抽出部と、
前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、請求項６記載の写像学習装置によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成する低次元特徴量生成部と、
を含む情報圧縮装置。
コンピュータに、請求項１〜請求項４の何れか１項に記載の写像学習方法、又は請求項５記載の情報圧縮方法の各ステップを実行させるためのプログラム。