JP2020013272A

JP2020013272A - 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Info

Publication number: JP2020013272A
Application number: JP2018134398A
Authority: JP
Inventors: 豪入江; Takeshi Irie; 薫平松; Kaoru Hiramatsu; 柏野　邦夫; Kunio Kashino; 邦夫柏野; 清晴相澤; Kiyoharu Aizawa
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-01-23
Anticipated expiration: 2038-07-17
Also published as: US20210271702A1; US11615132B2; JP7014072B2; WO2020017380A1

Abstract

【課題】２種類のコンテンツの集合同士の関連性からコンテンツの意味内容を捉えた低次元特徴量を生成する。【解決手段】第一の種類のコンテンツのグループの各々に対して、第二の種類のコンテンツのグループのうちどのグループが関連しているかを示すグループの組を示した関係指示子に基づいて、初期特徴量抽出部１１が、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出して、コンテンツペア選定部１２が、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定する。特徴量変換関数生成部１３が、グループの組の各々から選定された全てのコンテンツペアに基づいて、初期特徴量を低次元特徴量に変換する特徴量変換関数３１を生成する。【選択図】図１

Description

本発明は、画像・音声・映像などのコンテンツの検索や認識を実行するための特徴量を生成するに当たり、個々のコンテンツの意味的な内容を捉えた特徴量を学習できる特徴量生成方法、特徴量生成装置、特徴量生成プログラムに関する。

通信環境、コンピュータ、分散処理基盤技術等の高度化・高品質化により、ネットワークに流通するメディアコンテンツ（画像・映像・音声等）の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々３．５億の画像がアップロードされていると報告されており、また、あるサイトでは、１分当たり６４時間分の映像が新規に公開されているとの報告もある。

このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。

コンテンツの解析においては、意味的に関連しているコンテンツを発見する手続きが重要な役割を果たす。例えば、コンテンツを分類する場合を考えると、同じような意味概念を表すようなコンテンツを同じカテゴリに分類することが常である。あるいはコンテンツを検索する場合、コンテンツをクエリとして与えたとき、このコンテンツと意味的に関連しているコンテンツを検索することが基本的な要件となる。その他、コンテンツ推薦においても利用者がこれまでに閲覧した／閲覧しているコンテンツと意味的に類似したコンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、意味的に重複のない内容にまとめていく処理が必要となる。

意味的に関連するコンテンツを発見する典型的な手続きについて解説しておく。まず、コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度が近いものほど、意味的に関連しているコンテンツであると見做す。単純な例を挙げれば、コンテンツが画像や映像であれば、画像（映像フレーム）の色ヒストグラムを特徴量としてその類似度を測ることができる。音声信号であれば、音声信号の波形の周波数特性を解析したもの（スペクトログラム等）を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が1,000あれば、1,000のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。

しかしながら、意味的に類似したコンテンツを発見するには、意味的に関連するコンテンツ同士を正しく近く評価できるような、意味内容を表す特徴量を得ることが課題となる。

先に述べた色ヒストグラムのような画像特徴量に代表されるように、画像・映像・音声等のコンテンツの特徴表現は、一般に物理的な性質を表すものが殆どであるが、当然のことながら、物理的な特徴量が近いからと言って、必ずしも意味的に関連のあるコンテンツであるとは言えない。例えば、『（赤い）リンゴ』の画像に類似したコンテンツとして欲しいのは、『赤い鞄』ではなく、同じ果物である『青リンゴ』や『オレンジ』であるが、これらは少なくとも色ヒストグラムの近さで正しく評価することはできない。

以上の背景を鑑み、実用上、意味的に関連したコンテンツの発見を可能にするコンテンツの特徴量を生成することができる技術が望まれる。

従来、このような技術に関していくつかの発明がなされ、開示されてきている。例えば、非特許文献１に開示されている技術では、沢山の画像群と、それに付随する意味ラベル（すなわち、個々の画像がどういった意味カテゴリに属するかを指示するラベル）とが所与の下、Convolutional Neural Network（ＣＮＮ）を利用して画像と意味ラベルとの関係を学習し、特徴量化する方法について開示されている。

また、特許文献１に開示されている技術では、２種類の同時共起するコンテンツの特徴量の圧縮において、一方あるいは双方の特徴量が欠損していて同時共起とならなかったコンテンツを含む場合において、元の特徴量の次元を削減して低次元化する特徴量生成技術が開示されている。

特開２０１０−２８２２７７号公報

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks." In Proc. Advances in Neural Information Processing Systems (NIPS), Pages. 1097-1105, 2012.

非特許文献１に開示されている技術では、画像と意味ラベルとのペアを元に画像と意味ラベルとの関係を学習することで、意味的な画像特徴量を得ることを可能にしていた。しかしながら、この技術は膨大な量の画像（例えば、非特許文献１に開示されている例ではおよそ120万枚の画像）と、そのそれぞれに対する意味ラベルが既知であることを前提とする。多くの場合、画像に意味ラベルを付与する場合には人手によって付与しなければならず、このような膨大な量の画像に意味ラベルを付与することは多大な労力がかかるため、現実的にこの技術を利用しにくい場合が多かった。また、この技術は画像に対してのみ適用できる技術であり、例えば音声など他のコンテンツに適用することはできなかった。

また、特許文献１に開示されている技術は、同時共起する２種のコンテンツのペアを前提として、その相関関係を使って新たな低次元特徴量を生成する技術である。非特許文献１に開示されている技術とは異なり、画像に意味ラベルを直接付与する必要がない点が特長である。この技術において、特徴量は、コンテンツの特徴量と文書の特徴量との統計量（相関）に基づいて学習生成される。しかしながら、コンテンツの物理的な特徴量と、文書の意味的な特徴量との単純な相関は、必ずしも有意ではない場合も多く、結果として意味的に関連したコンテンツを発見できるような特徴量を得ることは難しい場合も多かった。特に、この技術は、同時共起するコンテンツと文書とのペアを多数必要とするものであり、もし十分な数のペアが集められないような場合には、十分な精度を得ることが難しかった。

本発明は、以上のような事情に鑑みてなされたものであり、２種類のコンテンツの関連するペアが得られず、コンテンツの集合同士に対して与えられた緩やかな関連性のみからでも、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することを目的とする。

上記目的を達成するために、本発明の特徴量生成方法は、一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、第一の種類のコンテンツのグループと、第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定ステップと、グループの組の各々から選定された全てのコンテンツペアに基づいて、第一の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数、及び第二の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、を有する。

「コンテンツ」とは、コンピュータなどの電子機器で再生することが可能な電子的な情報のまとまりを指し、例えば、画像・映像・音声・文書などがある。コンテンツの種類は、コンテンツを記録及び再生する形式によって分けられ、例えば、画像と文書は異なる種類のコンテンツを指す。また、コンテンツのグループは、同じ種類のコンテンツの集合を指し、グループには関連する内容のコンテンツを集めたものが望ましい。

なお、コンテンツペア選定ステップは、グループの組の各々から、特徴量変換関数生成ステップによって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い第一の種類のコンテンツと第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、コンテンツペア選定ステップによる新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた特徴量変換関数生成ステップによる特徴量変換関数の生成を、終了条件を満たすまで繰り返すように構成してもよい。

なお、特徴量変換関数は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列であり、第一の種類のコンテンツの低次元特徴量は、第一の種類のコンテンツの初期特徴量に対して第一の種類のコンテンツの変換行列を掛けることで生成され、第二の種類のコンテンツの低次元特徴量は、第二の種類のコンテンツの初期特徴量に対して第二の種類のコンテンツの変換行列を掛けることで生成され、特徴量変換関数生成ステップは、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列を、コンテンツペアの低次元特徴量の相関が最大となるように学習するように構成してもよい。

本発明の特徴量生成装置は、一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、第一の種類のコンテンツのグループと、第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、第一の種類のコンテンツ、及び、第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出部と、関係指示子により示されているグループの組の各々から、第一の種類のコンテンツ、及び、第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定部と、グループの組の各々から選定された全てのコンテンツペアに基づいて、第一の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数、及び第二の種類のコンテンツの初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成部と、を有する。

なお、コンテンツペア選定部は、グループの組の各々から、特徴量変換関数生成部によって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い第一の種類のコンテンツと第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、コンテンツペア選定部による新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた特徴量変換関数生成部による特徴量変換関数の生成を、終了条件を満たすまで繰り返すように構成してもよい。

なお、特徴量変換関数は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列であり、第一の種類のコンテンツの低次元特徴量は、第一の種類のコンテンツの初期特徴量に対して第一の種類のコンテンツの変換行列を掛けることで生成され、第二の種類のコンテンツの低次元特徴量は、第二の種類のコンテンツの初期特徴量に対して第二の種類のコンテンツの変換行列を掛けることで生成され、特徴量変換関数生成部は、第一の種類のコンテンツの変換行列、及び第二の種類のコンテンツの変換行列を、コンテンツペアの低次元特徴量の相関が最大となるように学習するように構成してもよい。

本発明の特徴量生成プログラムは、コンピュータに、上記特徴量生成方法の各ステップを実行させるためのプログラムである。

以上の特徴からなる本発明によれば、第一の種類のコンテンツ（例えば画像）のグループと、第二の種類のコンテンツ（例えば文書）のグループの、グループ間の関連性のみが与えられるような場合であっても、関連するグループの組から、適切なコンテンツのペアを選定し、このコンテンツペア間の低次元特徴量間の相関が高くなるように低次元特徴量を生成する特徴量変換関数を学習することで、２種類のコンテンツの間で関連するペアが得られないような場合であっても、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することができる。結果、低容量でありながら、意味的に類似したコンテンツの発見を可能にするコンテンツの特徴量を生成可能である。

本発明の第１の実施形態に係る特徴量生成装置の構成を示すブロック図である。本発明の第１の実施形態に係る特徴量生成装置の特徴量変換関数学習処理の流れを示すフローチャートである。本発明の第１の実施形態に係る特徴量生成装置の特徴量変換処理の流れを示すフローチャートである。本発明の第２の実施形態に係る特徴量生成装置の構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

図１は、本発明の第１の実施形態に係る特徴量生成装置１の構成の一例を示す機能ブロック図である。本発明は、２種類のコンテンツのグループの関連性から、意味内容を表現する低次元特徴量を生成するが、本発明の実施形態の一例では２種類のコンテンツとして画像と文書を例に説明する。

特徴量生成装置１は、演算処理装置、主記憶装置、補助記憶装置、データバス、入出力インターフェース、及び通信インターフェース等の周知のハードウェアを備えたコンピュータあるいはサーバコンピュータにより構成されている。また、特徴量生成プログラムを構成する各種プログラムが主記憶装置にロードされた後に演算処理装置によって実行されることにより、特徴量生成装置１の各部として機能する。本実施形態では、各種プログラムは、特徴量生成装置１が備える補助記憶装置に記憶されているが、各種プログラムの記憶先はこれに限らず、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録されても良く、ネットワークを通して提供されても良い。また、その他のいかなる構成要素も、必ずしも単一のコンピュータやサーバコンピュータによって実現される必要はなく、ネットワークによって接続された複数のコンピュータにより分散されて実現されてもよい。

図１に示す特徴量生成装置１は、初期特徴量抽出部１１、コンテンツペア選定部１２、特徴量変換関数生成部１３、及び、低次元化部１４を備える。また、特徴量生成装置１は、補助記憶装置として記憶部３を備える。

また、特徴量生成装置１は、コンテンツデータベース２と通信手段を介して接続されて相互に情報通信する。

特徴量生成装置１は、主に２つの処理を実行する。まず、特徴量生成装置１は、コンテンツデータベース２に登録された第一の種類のコンテンツグループ群２１、第二の種類のコンテンツグループ群２２、及び、関係指示子２３に基づいて特徴量変換関数３１を生成し、記憶部３に格納する特徴量変換関数学習処理を実行する。

また、特徴量生成装置１は、学習して生成した特徴量変換関数３１を用い、意味内容の判別対象であるコンテンツ４の初期特徴量に基づいて新たな低次元特徴量５を生成する特徴量変換処理を実行する。以下、コンテンツ４が画像である場合を例に説明する。なお、コンテンツ４は画像ファイル４とする。

なお、同図において、実線矢印は、特徴量変換関数学習処理時のデータの通信とその方向を示し、破線矢印は、特徴量変換処理時のデータの通信とその方向を表している。

コンテンツデータベース２は、特徴量生成装置１の内部にあっても外部にあっても構わない。上述した通信手段は、任意の公知ものを用いることができる。本実施形態では、コンテンツデータベース２が特徴量生成装置１の外部にあるものとして、特徴量生成装置１は、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）のプロトコルに従って通信するインターネット等の通信手段を介してコンテンツデータベース２に接続されているものとするが、これに限らず、他のプロトコルに従った通信手段であってもよい。本実施形態では、コンテンツデータベース２は、演算処理装置、主記憶装置、補助記憶装置、データバス、入出力インターフェース、及び通信インターフェース等の周知のハードウェアを備えたコンピュータあるいはサーバコンピュータにより構成されている。また、コンテンツデータベース２は、いわゆるＲＤＢＭＳ (リレーショナルデータベース管理システム；Relational Database Management System）を含んで構成されているものとするが、これに限らず、他の管理システムを用いたデータベースであっても良い。

同図に示すように、コンテンツデータベース２には、第一の種類のコンテンツグループ群２１、第二の種類のコンテンツグループ群２２、及び関係指示子２３が格納されている。以下、第一の種類のコンテンツが画像ファイルであり、第二の種類のコンテンツが文書ファイルである場合を例に説明する。第一の種類のコンテンツグループ群２１は、一つ以上の画像ファイルにより構成されたグループの一つ以上の集合によって構成される。同様に、第二の種類のコンテンツグループ群２２は、一つ以上の文書ファイルにより構成されたグループの一つ以上の集合によって構成される。

コンテンツデータベース２には、第一の種類のコンテンツグループ群２１及び第二の種類のコンテンツグループ群２２に含まれるファイルに対し、それぞれを一意に識別可能なファイル識別子（例えば、ファイル固有の通し番号によるＩＤ等）が関連付けられており、任意のファイルを、ファイル識別子を指定することにより参照することができる。

さらに、第一の種類のコンテンツグループ群２１及び第二の種類のコンテンツグループ群２２に含まれるグループに対し、それぞれを一意に識別可能なグループ識別子があるものとし、これらは先のファイル識別子と関連づけられて記憶されている。例えば、第一の種類のコンテンツグループ群２１の内のグループ識別子が“画像グループ１”であるグループに所属する各画像ファイルのファイル識別子が参照できるように格納されている。また、逆に、任意の画像ファイルのファイル識別子から、当該画像ファイルが属するグループ識別子を参照できるように格納されている。

関係指示子２３は、各々の第一の種類のコンテンツグループ群２１の画像グループ、及び、第二の種類のコンテンツグループ群２２の文書グループの間の関係を示すものであり、相互に関係すると判断される画像グループ及び文書グループのグループ識別子の組を記述したものである。ここで言う「関係」とは、好ましくは意味内容の関連性に基づいて与えられる。グループ識別子の組を生成する手法としては、任意の手法を採用することができるが、例えば、人手によって生成しても良く、機械的に生成しても良く、あるいはその双方によって生成しても良い。

例えば、人手により生成する場合は、“画像グループ３”のグループ識別子を持つ画像グループと、“文書グループ８”のグループ識別子を持つ文書グループに対して、人が画像グループ３に属する画像ファイルの画像と文書グループ８に属する文書ファイルの文書を目で見て、その内容が相互に関連していると判断される場合には、ユーザの指示に基づき、当該グループ識別子の組である｛“画像グループ３”、“文書グループ８”｝を示す情報が、関係指示子２３としてコンテンツデータベース２に格納される。

また、例えば、機械的に生成する場合は、ウェブページから画像ファイル及び文書ファイルを収集するような場合が例として挙げられる。最も単純には、同一ウェブページ内にある画像ファイル群と文書ファイル群は相互に関連していると見做し、当該画像ファイル群を“画像グループＡ”、文書ファイル群を“文書グループＢ”としてグループ識別子を与え、その組である｛“画像グループＡ”、“文書グループＢ”｝を示す情報が、関係指示子２３としてコンテンツデータベース２に格納される。機械的に生成する場合、人手をかけることなく関係指示子２３が得られるというメリットがあり、また、このような人手を介さない緩やかなグループ間の関係からのみでも、意味的に関連した低次元特徴量を生成可能であるという本発明の利点を活かすことができるため、好適である。

その他、メタデータとして、例えば、第一の種類のコンテンツグループ群２１又は第二の種類のコンテンツグループ群２２の各ファイルの内容を表現するデータ（タイトル、概要文、キーワード等）やフォーマットに関するデータ等を含んでいても構わない。なお、本実施形態では、メタデータを使用しない場合について説明する。

＜＜処理部＞＞
次に、本実施形態における特徴量生成装置１の各処理部について説明する。

初期特徴量抽出部１１は、特徴量変換関数学習処理において、コンテンツデータベース２に格納されている第一の種類のコンテンツグループ群２１の画像ファイルと第二の種類のコンテンツグループ群２２の文書ファイルを取得し、その画像ファイルの初期特徴量と文書ファイルの初期特徴量を抽出して、コンテンツペア選定部１２に出力する。一方、特徴量変換処理においては、上述した通信手段を介して特徴量生成装置１の外部から利用者の指示に従って入力された画像ファイル４を取得し、取得した画像ファイル４を解析し、画像ファイル４の初期特徴量を抽出し、低次元化部１４に出力する。あるいは、特徴量変換処理においては、上述した通信手段を介して特徴量生成装置１の外部から利用者の指示に従って入力された文書ファイルを取得した場合には、取得した文書ファイルを解析し、文書ファイルの初期特徴量を抽出し、低次元化部１４に出力する。

コンテンツペア選定部１２は、初期特徴量抽出部１１から入力された第一の種類のコンテンツグループ群２１の各画像ファイルの初期特徴量、第二の種類のコンテンツグループ群２２の各文書ファイルの初期特徴量、コンテンツデータベース２から読み取った関係指示子２３、並びに、記憶部３から読み取った特徴量変換関数３１に基づき、関係指示子２３の記述に従って第一の種類のコンテンツグループ群２１と第二の種類のコンテンツグループ群２２の中の関係のある画像グループと文書グループの組から、それぞれ画像ファイルと文書ファイルの一つずつをコンテンツペアとして選定して特徴量変換関数生成部１３に出力する。

特徴量変換関数生成部１３は、コンテンツペア選定部１２から入力されたコンテンツペアと、これらに対応する初期特徴量とを解析し、画像ファイルの初期特徴量を新たな低次元特徴量に変換する新たな特徴量変換関数３１Ａと、文書ファイルの初期特徴量を新たな低次元特徴量に変換する新たな特徴量変換関数３１Ｂとを学習して生成し、記憶部３に記憶させる。

低次元化部１４は、初期特徴量抽出部１１から画像ファイル４の初期特徴量を取得し、記憶部３から特徴量変換関数３１Ａを読み出し、初期特徴量を特徴量変換関数３１Ａを用いて低次元特徴量５に変換することにより低次元特徴量５を生成する。あるいは、低次元化部１４は、初期特徴量抽出部１１から文書ファイルの初期特徴量を取得し、記憶部３から特徴量変換関数３１Ｂを読み出し、初期特徴量を特徴量変換関数３１Ｂを用いて低次元特徴量に変換することにより低次元特徴量を生成する。

＜＜処理概要＞＞
次に、本実施形態における特徴量生成装置１の２つの処理の流れについてそれぞれ説明する。本実施形態に係る特徴量生成装置１は、特徴量変換関数を学習して生成する特徴量変換関数学習処理、及び、初期特徴量を低次元特徴量に変換する特徴量変換処理を実行する。

＜＜＜特徴量変換関数学習処理の概要＞＞＞
最初に、特徴量変換関数学習処理について説明する。図２は、特徴量変換関数学習処理の流れを示すフローチャートである。特徴量変換関数学習処理は、画像ファイル４に対して特徴量変換処理を実行する前に、少なくとも１度実施しておく処理であり、利用者の指示が入力されたタイミングで実行される。

ステップＳ２０１では、初期特徴量抽出部１１が、コンテンツデータベース２から第一の種類のコンテンツグループ群２１及び第二の種類のコンテンツグループ群２２を取得し、取得した第一の種類のコンテンツグループ群２１に含まれる画像ファイルの画像及び第二の種類のコンテンツグループ群２２に含まれる文書ファイルの文書の各々に対して特徴抽出処理を行って初期特徴量を抽出し、コンテンツペア選定部１２に出力する。

次のステップＳ２０２では、コンテンツペア選定部１２が、初期特徴量抽出部１１から入力された第一の種類のコンテンツグループ群２１の各画像ファイルの初期特徴量、第二の種類のコンテンツグループ群２２の各文書ファイルの初期特徴量、コンテンツデータベース２から読み取った関係指示子２３、並びに、記憶部３から読み取った特徴量変換関数３１Ａ、３１Ｂに基づき、関係指示子２３に記述に従って第一の種類のコンテンツグループ群２１と第二の種類のコンテンツグループ群２２の中の関係のある画像グループと文書グループの組から、それぞれ画像ファイルと文書ファイルの一つずつをコンテンツペアとして選定して特徴量変換関数生成部１３に出力する。

次のステップＳ２０３では、特徴量変換関数生成部１３が、コンテンツペア選定部１２から入力されたコンテンツペアと、これらに対応する初期特徴量とを解析し、画像ファイルの初期特徴量を新たな低次元特徴量に変換する特徴量変換関数３１Ａと、文書ファイルの初期特徴量を新たな低次元特徴量に変換する特徴量変換関数３１Ｂとを学習して生成し、記憶部３に記憶させる。

続いて、終了条件を満たしているかどうかを検証し、満たしている場合には、処理を終了、満たしていない場合にはステップＳ２０２に戻り、処理を繰り返していく。

以上のような処理により、特徴量生成装置１は、コンテンツデータベース２に格納された第一の種類のコンテンツグループ群２１、第二の種類のコンテンツグループ群２２、関係指示子２３から、特徴量変換関数３１を生成する。なお、各ステップにおいて実行される各種処理の詳細については後述する。

＜＜＜特徴量変換処理の概要＞＞＞
次に、特徴量変換処理について説明する。図３は、特徴量変換処理の流れを示すフローチャートである。特徴量変換処理は、記憶部３に格納された特徴量変換関数３１Ａを用いて、画像ファイル４の初期特徴量を低次元化する処理である。特徴量変換処理は、利用者により画像ファイル４が指定された上で、利用者の指示が入力されたタイミングで実行される。

ステップＳ３０１では、初期特徴量抽出部１１が、上述した通信手段を介して、利用者により指定された画像ファイル４を取得し、取得した画像ファイル４の初期特徴量を抽出し、初期特徴量を低次元化部１４に出力する。本実施形態では、利用者に指摘された画像ファイル４を取得するが、画像ファイル４の取得方法はこれに限らず、画像ファイル４が記憶部３に記憶されている場合には、記憶部３から取得しても良い。

次のステップＳ３０２では、低次元化部１４が、記憶部３から取得した特徴量変換関数３１Ａに基づいて、初期特徴量抽出部１１から取得した初期特徴量を低次元化して低次元特徴量５に変換して出力する。

以上のような処理により、特徴量生成装置１は、利用者により指定された画像ファイル４の低次元特徴量５を求める。

このような画像の低次元特徴量５を得ることにより、意味的に類似したコンテンツを発見する際に、意味的に関連するコンテンツ同士を正しく評価して、意味的に近いコンテンツを評価することが可能になる。また、大量のコンテンツを評価するためには大容量の記憶領域が必要になるが、低次元特徴量５を用いることで、記憶領域を節約することができる。

また、本発明の実施形態において、コンテンツの種類に依存する部分は初期特徴量抽出部の処理のみであり、その他の種類のコンテンツ（例えば、音や映像）の意味内容の関連性を扱う場合であっても、当該処理を適当に設計することにより適用可能である。上述では、画像と文書を例に説明したが、例えば、音と文書の２種類のコンテンツのグループの関連性から意味内容を表現する低次元特徴量を生成するようにしてもよいし、映像と文書の２種類のコンテンツのグループの関連性から意味内容を表現する低次元特徴量を生成するようにしてもよい。あるいは、画像と音の２種類のコンテンツのグループの関連性を表現する低次元特徴量を生成するようにしてもよく、様々な種類のコンテンツ中から選択した２種類を組み合わせて関連性を表現する低次元特徴量を生成するようにしてもよい。

＜＜各処理の処理詳細＞＞
以降、上述した各々の処理の詳細について、本実施形態における一例を説明する。

［初期特徴量抽出］
初期特徴量を抽出する初期特徴量抽出方法について説明する。初期特徴量は、数値データであればよくスカラー又は次元を持つベクトルであれば有効であり、どのような初期特徴量を抽出するかは、本実施形態の要件として重要ではなく、公知の特徴抽出処理を用いて公知の初期特徴量を抽出して構わない。これはコンテンツが画像や文書ではなく、音や映像などその他の種類のコンテンツに対しても同様である。

まず、本実施形態の一例に適する、第一の種類のコンテンツグループ群２１の画像ファイルに対する初期特徴抽出処理の一例を説明する。

例えば、明るさ特徴、色特徴、テクスチャ特徴、コンセプト特徴、景観特徴等の特徴量を初期特徴量として抽出する。

明るさ特徴を抽出する場合は、ＨＳＶ色空間におけるＶ値を数え上げることで、ヒストグラムとして抽出する。この場合、第一の種類のコンテンツグループ群２１に含まれる各々の画像は、Ｖ値の量子化数（例えば、16bit量子化であれば256諧調）と同数の次元を持つベクトルとして表現される。

色特徴を抽出する場合は、Ｌ^＊ａ^＊ｂ^＊色空間における各軸（Ｌ^＊、ａ^＊、ｂ^＊）の値を数え上げることで、ヒストグラムとして抽出する。この際、各々の軸のヒストグラムのビンの数は、例えば、Ｌ^＊に対して４、ａ^＊に対して１４、ｂ^＊に対して１４等とすれば良い。この場合、第一の種類のコンテンツグループ群２１に含まれる各々の画像は、３軸の合計のビンの数は、４×１４×１４＝７８４、すなわち７８４次元のベクトルとして表現される。

テクスチャ特徴を抽出する場合は、濃淡ヒストグラムの統計量（コントラスト）、パワースペクトル等を抽出する。又は、局所特徴量を抽出しても良い。局所特徴量を抽出する場合には、色、動き等と同様に、ヒストグラムとして抽出することができるようになるため好適である。局所特徴量としては、例えば下記の参考文献１に記載のＳＩＦＴ（Scale Invariant Feature Transform ）等を用いることができる。

［参考文献１］D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, pp.91-110, 2004.

このようにして抽出される局所特徴量は、例えば１２８次元の実数値ベクトルとして表現される。このベクトルを予め学習して生成しておいた符号長を参照して符号に変換し、その符号の数を数え上げることで、ヒストグラムを生成する。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、局所特徴量として、参考文献２に記載のスパース表現、参考文献３及び４に記載のフィッシャーカーネルに基づく特徴表現等を用いても良い。

[参考文献２] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, "Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.

[参考文献３] Florent Perronnin, Jorge Sanchez, Thomas Mensink, "Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.

[参考文献４] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, "Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.

何れの局所特徴量を用いた場合であっても、結果として生成される初期特徴量は、符号長の符号数に依存した長さを持つ実数値ベクトルとなる。

コンセプト特徴を抽出する場合は、画像内に含まれる物体、画像が捉えているイベント等の特徴量を初期特徴量として抽出する。抽出する物体、イベント等は、任意の物体、イベント等を用いて良いが、例えば、「海」、「山」、「ボール」等である。仮に、画像内に「海」が映されていた場合、その画像は、「海」のコンセプトに帰属する画像であると判断する。各々の画像が、各々のコンセプトに帰属するか否かは、コンセプト識別器を用いて識別する。通常、コンセプト識別器は、コンセプト毎に１つずつ用意され、画像の特徴量が入力されると、当該画像が識別対象とするコンセプトに帰属しているか否かを帰属レベルとして出力する。コンセプト識別器は、画像の特徴量（例えば上述した局所特徴量）と、予め人手によって入力された、当該画像がどのコンセプトに帰属しているかを示す正解ラベルと、の関係を学習することによって獲得される。学習器としては、例えばサポートベクターマシン等を用いれば良い。コンセプト特徴を抽出する場合は、各々のコンセプトへの帰属レベルをまとめてベクトルとして表現する。この場合、生成される初期特徴量は、コンセプトの数と同数の次元を持つベクトルとなる。

景観特徴は、画像の風景や場面を表現した特徴量である。景観特徴を抽出する場合は、例えば下記の参考文献５に記載のＧＩＳＴ記述子を用いることができる。ＧＩＳＴ記述子は、画像を複数の領域に分割し、分割した各々の領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現される。しかし、この場合、生成される初期特徴量は、フィルタの種類（分割する領域の数、及びオリエンテーションの数）に依存した長さのベクトルとなる。

［参考文献５］A. Oliva and A. Torralba, "Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006.

また、非特許文献１に記載のＣＮＮによる特徴量を初期特徴量として抽出しても良い。

続いて、本実施形態の一例に適する、第二の種類のコンテンツグループ群２２の文書ファイルに対する初期特徴抽出処理の一例を説明する。

最も単純な特徴量としては、文書に含まれる単語のヒストグラムを用いることができる。あるいは、下記の参考文献６に記載のＳｋｉｐ−ｇｒａｍ（ＳＧ）、ＣｏｎｔｉｎｕｏｕｓＢａｇ−ｏｆ−Ｗｏｒｄｓ（ＣＢＯＷ）による特徴量を適用すると良い。

［参考文献６］T. Mikolov, I. Sutskever, K. Chen, G.S. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and Their Compositionality," In Proc., Advances in Neural Information Processing Systems (NIPS), 2013.

以上、画像ファイルと文書ファイルに対する初期特徴量抽出処理を説明したが、その他の種類のコンテンツに対する初期特徴量抽出の一例を記載しておく。まず、コンテンツが音ファイルである場合には、例えば音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴等を初期特徴量として抽出する。

音高特徴を抽出する場合は、音ファイルから例えば音高（ピッチ）の特徴量を抽出すれば良い。抽出方法としては、例えば、下記の参考ウェブサイトに記載の方法等を適用することができる。この場合、ピッチを１次元ベクトル（スカラー）として表現しても良く、あるいはピッチを複数の次元に量子化し、複数の次元を持つベクトルとして表現しても良い。

［参考ウェブサイト］http://en.wikipedia.org/wiki/Pitch_detection_algorithm

音圧特徴を抽出する場合は、音ファイルから音声波形データの振幅値の特徴量を初期特徴量として抽出すれば良い。また、音ファイルから音声波形データの短時間パワースペクトルを抽出し、任意の帯域の平均パワーを計算して特徴量を求め、初期特徴量としても良い。音声波形データの振幅値を抽出しても、短時間パワースペクトルを抽出しても、生成した初期特徴量は、音圧を計算するバンドの数に依存した長さのベクトルとなる。

スペクトル特徴を抽出する場合は、音ファイルから例えばメル尺度ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstral Coefficients ）の特徴量を初期特徴量として抽出すれば良い。

リズム特徴を抽出する場合は、音ファイルから例えばテンポの特徴量を初期特徴量として抽出すればよい。テンポを抽出する際には、例えば下記の参考文献７に記載の方法等を適用することができる。

［参考文献７］E.D. Scheirer, "Tempo and Beat Analysis of Acoustic Musical Signals ", Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998.

発話特徴及び音楽特徴は、それぞれ発話の有無及び音楽の有無を表す。発話特徴又は音楽特徴を抽出する場合は、音ファイルから、発話又は音楽が存在する区間を特徴量として抽出すれば良い。発話又は音楽が存在する区間を識別するためには、例えば下記の参考文献８に記載の方法等を適用することができる。

［参考文献８］K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, "Video Handling with Music and Speech Detection", IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998.

音イベント特徴を抽出する場合は、音イベントとして、例えば、笑い声、大声等の感情的な音声、又は、銃声、爆発音等の環境音の生起等を検出し、このような音イベントの特徴量を初期特徴量として抽出すれば良い。このような音イベントを検出する際には、例えば下記の参考文献９に記載に方法等を適用することができる。

［参考文献９］国際公開第２００８／０３２７８７号公報

コンテンツが映像ファイルである場合は、映像が一般に画像及び音のストリームであることから、上述した画像特徴及び音特徴を用いて初期特徴量を抽出することができる。映像ファイル中の何れの画像の区間を分析するか、又は何れの音の区間を分析するかについては、例えば、映像ファイルを複数の区間に予め分割し、その区間毎に１つの画像を抽出して特徴量を抽出する。また、映像ファイルを複数の区間に予め分割し、その区間毎に音の特徴量を抽出する。このようにして、初期特徴抽出処理を実施する。

なお、映像ファイルを複数の区間に分割する場合は、映像ファイルを予め定めた一定の間隔で分割しても良く、例えば下記の参考文献１０に記載の分割方法等を適用し、映像が不連続に途切れる点であるカット点で分割してもよい。望ましくは、後者の分割方法を適用すると良い。映像を複数の区間に分割した結果として、各々の区間の開始点（開始時刻）と終了点（終了時刻）が得られるが、この時刻毎に別々の初期特徴量として扱えば良い。

［参考文献１０］Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, "Structured Video Computing", IEEE Multimedia, pp.34-43, 1994.

以上のようにして抽出した初期特徴量は、抽出した特徴量のうちの何れか１つの特徴量であっても良く、複数の特徴量から計算した特徴量であっても良い。また、初期特徴量は、上述した方法で抽出した特徴量に限らず、その他の公知の抽出方法で取得した特徴量を初期特徴量として用いても良い。

［コンテンツペアの選定］
続いて、コンテンツペアを選定する方法について詳細に説明する。

第一の種類のコンテンツグループ群２１のうち、ｊ番目のグループに属するｉ番目の画像ファイルから抽出された初期特徴量をｘ_ｊｉと表す。同様に、第二の種類のコンテンツグループ群２２のうち、ｊ番目のグループに属するｉ番目の文書ファイルから抽出された初期特徴量をｙ_ｊｉと表す。画像ファイルの初期特徴量の次元をＤ_ｘ、文書ファイルの初期特徴量の次元をＤ_ｙと表す。

また、ｊ番目のグループに属する画像ファイルの初期特徴量の集合をＸ_ｊ＝｛ｘ_ｊ１、ｘ_ｊ２、・・・、ｘ_ｊＮｊｘ｝、文書ファイルの初期特徴量の集合をＹ_ｊ＝｛ｙ_ｊ１、ｙ_ｊ２、・・・、ｙ_ｊＮｊｙ｝と表す。Ｎ_ｊｘはＸ_ｊに含まれる画像ファイルの初期特徴量の数、Ｎ_ｊｙはＹ_ｊに含まれる文書ファイルの初期特徴量の数である。以降、一般性を失うことなく、Ｘ_ｊとＹ_ｊは関係指示子により関係があると示されている画像グループと文書グループであるとし、グループの数をＭと表す。また、これらは平均０に正規化されているとする。すなわち、初期特徴量ｘ_ｊｉについて、全てのｉ、及び、ｊについて平均したベクトルは０ベクトルである。

本発明の特徴量変換関数学習処理の目的は、画像の初期特徴量をｄ次元（ｄ≦Ｄ_ｘ＝Ｎ_ｊｘ）に低次元化する特徴量変換関数ｆ：ＲＤ_ｘ→Ｒｄを求めることである。特徴量変換関数ｆの形式は、学習により最適化できるものであれば任意の公知のものを用いることができるが、本発明の実施形態の一例においては下記の線形関数を用いる。

（１）

ここで、ＡはＤ_ｘ×ｄのサイズを持つ変換行列である。さらに、もう一つの特徴量変換関数として、同じく文書の初期特徴量をｄ次元（ｄ≦Ｄ_ｙ＝Ｎ_ｊｙ）に低次元化する特徴量変換関数ｇ：ＲＤ_ｙ→Ｒｄを定める。

（２）

ＢはＤ_ｙ×ｄのサイズを持つ変換行列である。このような線形関数を用いる場合、特徴量変換関数学習処理の目的はＡ及びＢの要素を求めることに相当する。

本発明の実施形態の一例における特徴量変換関数学習処理は、ここで説明するコンテンツペアの選定と、後に説明する特徴量変換関数の生成（すなわちＡとＢの要素を求める処理）とを繰り返すことにより、順次最適なＡとＢを求めていく。処理開始時点では、ＡもＢも要素が定まっていないため、初期化しておく必要がある。最も単純には乱数を用いて各要素の値を決めることができるが、好ましくは主成分分析などの方法により初期値を求める。以降、ＡとＢの要素には、それぞれ現繰り返し時点での値が代入されているとして説明を進める。

コンテンツペアの選定の目的は、Ｘ_ｊとＹ_ｊから、それぞれ一つずつの初期特徴量ｘ_ｊｔとｙ_ｊｔを選出することである。選定の方法は様々あり得るが、本発明の実施形態に適する選定方法として、下記の３種類を用いることができる。

（１．ランダムに選定する）
Ｘ_ｊに含まれる初期特徴量の内一つ、及び、Ｙ_ｊに含まれる初期特徴量の内一つをランダムに選定し、これをｘ_ｊｔ、ｙ_ｊｔとする。

（２．統計量を用いて選定する）
Ｘ_ｊの統計量とＹ_ｊの統計量を求め、これに最も近い初期特徴量をそれぞれｘ_ｊｔ、ｙ_ｊｔとする。統計量としては例えば平均値や中央値などを用いればよい。

（３．相関最大のペアを選定する）
精度の観点から最も好ましい選定方法である。まず、Ｘ_ｊとＹ_ｊに含まれる初期特徴量を、現時点でのＡとＢを用いて、（１）と（２）に基づき低次元特徴量に変換する。Ｘ_ｊに対する変換後の低次元特徴量の集合をＵ_ｊ＝｛ｕ_ｊ１、ｕ_ｊ２、・・・、ｕ_ｊＮｊｘ｝、Ｙ_ｊに対する変換後の低次元特徴量の集合をＶ_ｊ＝｛ｖ_ｊ１、ｖ_ｊ２、・・・、ｖ_ｊＮｊｙ｝と表す。Ｕ_ｊとＶ_ｊに含まれる全ての低次元特徴量間で相関を求める。Ｕ_ｊのｉ番目の低次元特徴量ｕ_ｊｉと、Ｖ_ｊのｋ番目の低次元特徴量ｖ_ｊｋの相関は次式により求めることができる。

（３）

全てのｉとｋに対して上記相関を求めた後、この相関が最も大きい値となったものをコンテンツペアｘ_ｊｔ、ｙ_ｊｔとする。

（４）

このような処理により、低次元特徴量の中でも最も相関の高いコンテンツのペアを見出すことができる。

上記処理に従って、全てのグループの組についてコンテンツペアを求めればよい。以上のようにしてコンテンツペアを選定することができる。

［特徴量変換関数の生成］
次に、特徴量変換関数の生成方法について詳細に説明する。

本処理の目的は、選定されたコンテンツペアを基に、関係指示子によって表される第一の種類のコンテンツグループ群２１及び第二の種類のコンテンツグループ群２２の関係を最大限保存するように、初期特徴量を、初期特徴量の次元より低次元な次元を持つ低次元特徴量へと変換する特徴量変換関数を求めることである。

関係指示子が表す関係を保存するような特徴量変換関数を学習するため、本発明では、選定されたコンテンツペア同士について、学習された特徴量変換関数により変換された低次元特徴量の相関が最も高くなるように、特徴量変換関数ｆとｇを求める。

これは次の問題を解くことにより実行可能である。

（５）
ここで、Ｘ_ｔ＝（ｘ_１ｔｘ_２ｔ・・・ｘ_Ｍｔ）、Ｙ_ｔ＝（ｙ_１ｔｙ_２ｔ・・・ｙ_Ｍｔ）は、それぞれ各グループの組のコンテンツペアを含む行列である。この問題は正準相関分析として知られており、一般化固有値問題として解くことができる。

この問題を解いて求めたＡとＢを、現在の特徴量変換関数３１Ａ、３１Ｂとして求めて出力する。

以上説明したコンテンツペアの選定と特徴量変換関数の生成を繰り返すことにより、次第に精度の高い低次元特徴量を得ることができる特徴量変換関数を求めることができるようになる。

なお、繰り返しの終了は終了条件を満たしているか否かを検証することで行う。本発明の実施形態の一例に適する終了条件としては、「規定の回数繰り返したか」、あるいは、「選定されたコンテンツペアが変化しなかったか」を終了条件とする。

以上が、特徴量変換関数学習処理の一例である。

［低次元化］
特徴量変換関数ｆを求めた後であれば、任意の画像に対し低次元特徴量を求めることができる。具体的には、既に述べた処理方法で初期特徴量ｘを求め、この初期特徴量ｘに対して平均が０になるようシフトした後、上記（１）式により新たな低次元特徴量を計算する。

上述では、ファイルのメタデータを使用しない場合について説明したが、各画像ファイル及び各文書ファイルのメタデータから得られた特徴量を初期特徴量に含めるようにしてもよい。

次に、第２の実施の形態では、既に特徴量変換関数３１が学習済みであって、特徴量変換関数学習処理を実行する必要が無い場合の特徴量生成装置１の装置構成の一例について説明する。第１の実施の形態と同一符号が付されている各部は、第１の実施の形態と同じ機能を有するので、詳細な説明は省略し、第１の実施の形態と相違する点についてのみ説明する。

図４に示すように、特徴量変換関数学習処理に関わる処理部は省略した構成を採用することができる。この場合の特徴量生成装置１は、初期特徴量抽出部１１、低次元化部１４、及び、記憶部３を備える。

初期特徴量抽出部１１は、上述した通信手段を介して特徴量生成装置１の外部（コンテンツデータベース２を除く）から利用者の指示に従って入力された画像ファイル４を取得し、取得した画像ファイル４を解析し、画像ファイル４の初期特徴量を抽出し、低次元化部１４に出力する機能のみを備えていればよい。

記憶部３に格納する特徴量変換関数３１Ａは、外部で学習が行われ、通信手段を介して外部から受け取って最新の特徴量変換関数３１Ａを記憶部３に記憶するようにしてもよい。

また、第２の実施の形態では、図３のフローチャートで説明した特徴量変換処理と同様の処理を行うことにより、利用者により指定された画像ファイル４の低次元特徴量５を求める。

以上説明したように、本発明の実施の形態に係る特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムによれば、２種類のコンテンツの関連するペアが得られず、コンテンツの集合同士に対して与えられた緩やかな関連性のみからでも、コンテンツの意味内容を捉えた低次元特徴量を生成可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

なお、上述の実施の形態において、演算処理装置は、汎用的なプロセッサであるＣＰＵ（Central Processing Unit)が用いられる。さらに、必要に応じてＧＰＵ（Graphics Processing Unit）を設けるのが好ましい。また、上述の機能の一部をＦＰＧＡ (Field Programmable Gate Array) などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device:ＰＬＤ）、またはＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有する専用電気回路などを用いて実現してもよい。

１特徴量生成装置
２コンテンツデータベース
３記憶部
４コンテンツ
５低次元特徴量
１１初期特徴量抽出部
１２コンテンツペア選定部
１３特徴量変換関数生成部
１４低次元化部
２１第一のコンテンツグループ群
２２第二のコンテンツグループ群
２３関係指示子
３１Ａ、３１Ｂ特徴量変換関数

Claims

一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、
一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、
前記第一の種類のコンテンツのグループと、前記第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、前記コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、
前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、
前記関係指示子により示されている前記グループの組の各々から、前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定ステップと、
前記グループの組の各々から選定された全ての前記コンテンツペアに基づいて、前記第一の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数、及び前記第二の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、
を有する特徴量生成方法。
前記コンテンツペア選定ステップは、前記グループの組の各々から、前記特徴量変換関数生成ステップによって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い前記第一の種類のコンテンツと前記第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、
前記コンテンツペア選定ステップによる新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた前記特徴量変換関数生成ステップによる特徴量変換関数の生成を、終了条件を満たすまで繰り返す請求項１に記載の特徴量生成方法。
前記特徴量変換関数は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列であり、
前記第一の種類のコンテンツの前記低次元特徴量は、前記第一の種類のコンテンツの初期特徴量に対して前記第一の種類のコンテンツの前記変換行列を掛けることで生成され、
前記第二の種類のコンテンツの前記低次元特徴量は、前記第二の種類のコンテンツの初期特徴量に対して前記第二の種類のコンテンツの前記変換行列を掛けることで生成され、
前記特徴量変換関数生成ステップは、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列を、前記コンテンツペアの低次元特徴量の相関が最大となるように学習する請求項１または請求項２に記載の特徴量生成方法。
一つ以上の第一の種類のコンテンツを含む一つ以上の第一の種類のコンテンツのグループと、
一つ以上の第二の種類のコンテンツを含む一つ以上の第二の種類のコンテンツのグループと、
前記第一の種類のコンテンツのグループと、前記第二の種類のコンテンツのグループとの間の関係を示した関係指示子とが所与である場合に、前記コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、
前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツの初期特徴量を抽出する初期特徴量抽出部と、
前記関係指示子により示されている前記グループの組の各々から、前記第一の種類のコンテンツ、及び、前記第二の種類のコンテンツを一つずつ選び出すことで、コンテンツペアを選定するコンテンツペア選定部と、
前記グループの組の各々から選定された全ての前記コンテンツペアに基づいて、前記第一の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数、及び前記第二の種類のコンテンツの前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成部と、
を有する特徴量生成装置。
前記コンテンツペア選定部は、前記グループの組の各々から、前記特徴量変換関数生成部によって新たに生成された特徴量変換関数を用いて変換された低次元特徴量の相関が最も高い前記第一の種類のコンテンツと前記第二の種類のコンテンツとのペアを選び出して新たなコンテンツペアとし、
前記コンテンツペア選定部による新たなコンテンツペアの選定と、当該新たなコンテンツペアを用いた前記特徴量変換関数生成部による特徴量変換関数の生成を、終了条件を満たすまで繰り返す請求項４に記載の特徴量生成装置。
前記特徴量変換関数は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列であり、
前記第一の種類のコンテンツの前記低次元特徴量は、前記第一の種類のコンテンツの初期特徴量に対して前記第一の種類のコンテンツの前記変換行列を掛けることで生成され、
前記第二の種類のコンテンツの前記低次元特徴量は、前記第二の種類のコンテンツの初期特徴量に対して前記第二の種類のコンテンツの前記変換行列を掛けることで生成され、
前記特徴量変換関数生成部は、前記第一の種類のコンテンツの変換行列、及び前記第二の種類のコンテンツの変換行列を、前記コンテンツペアの低次元特徴量の相関が最大となるように学習する請求項４または請求項５に記載の特徴量生成装置。
コンピュータに、請求項１〜請求項３の何れか１項記載の特徴量生成方法の各ステップを実行させるための特徴量生成プログラム。