JP6397378B2 - 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム - Google Patents

特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム Download PDF

Info

Publication number
JP6397378B2
JP6397378B2 JP2015148079A JP2015148079A JP6397378B2 JP 6397378 B2 JP6397378 B2 JP 6397378B2 JP 2015148079 A JP2015148079 A JP 2015148079A JP 2015148079 A JP2015148079 A JP 2015148079A JP 6397378 B2 JP6397378 B2 JP 6397378B2
Authority
JP
Japan
Prior art keywords
feature
document
feature amount
signal content
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015148079A
Other languages
English (en)
Other versions
JP2017027526A (ja
Inventor
豪 入江
豪 入江
島村 潤
潤 島村
明 小島
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015148079A priority Critical patent/JP6397378B2/ja
Publication of JP2017027526A publication Critical patent/JP2017027526A/ja
Application granted granted Critical
Publication of JP6397378B2 publication Critical patent/JP6397378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、画像・音声・映像などの信号コンテンツの検索や認識を実行するための特徴量を生成するに当たり、文書を用いることで、より意味的に関連した信号コンテンツの発見を可能にする特徴量を生成するための特徴量生成方法、特徴量生成装置、特徴量生成プログラムに関する。
通信環境、コンピュータ、分散処理基盤技術等の高度化・高品質化により、ネットワークに流通するメディアコンテンツ(画像・映像・音声等)の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
以降、便宜上、画像、映像、音声等の信号メディアによってなるコンテンツを信号コンテンツと呼称する。
このような膨大な量の信号コンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したい信号コンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したい信号コンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
信号コンテンツの解析においては、意味的に関連している信号コンテンツを発見する手続きが重要な役割を果たす。例えば、信号コンテンツを分類する場合を考えると、同じような意味概念に属する信号コンテンツを同じカテゴリに分類することが常である。あるいは信号コンテンツを検索する場合、信号コンテンツをクエリとして与えたとき、この信号コンテンツと意味的に関連している信号コンテンツを検索することが基本的な要件となる。その他、コンテンツ推薦においても利用者がこれまでに閲覧した/閲覧している信号コンテンツと意味内容として類似した信号コンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、意味的に重複のない内容にまとめていく処理が必要となる。
意味的に関連する信号コンテンツを発見する典型的な手続きについて解説しておく。まず、信号コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度が近いものほど、意味的に関連している信号コンテンツであると見做す。単純な例を挙げれば、信号コンテンツが画像や映像であれば、画像(映像フレーム)の色ヒストグラムを特徴量としてその類似度を測ることができる。音声信号であれば、音声信号の波形の周波数特性を解析したもの(Mel-Frequency Cepstral Coefficient等)を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が1,000あれば、1,000のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。
しかしながら、信号コンテンツの類似度を測る際には、下記(1)及び(2)に示す2つの重要な課題がある。
(1)膨大な計算時間を要する
(2)意味的に類似した信号コンテンツを発見することが難しい
以下、上記(1)及び(2)に示した重要な課題について、具体的に説明する。
(1)通常、信号コンテンツの特徴量(ベクトル)の次元は高次元になることが多く、その類似度の計算には膨大な時間を要する。画像や映像を例に挙げると、色ヒストグラムのような単純な特徴量であっても、一般に数百〜数千次元の実数値ベクトルとなるし、最近用いられるニューラルネットを用いた特徴表現では数千次元、スパース表現やフィッシャーカーネルに基づく特徴表現では、数十万〜数百万次元のベクトルとなることもあり得る。さらに、全てのコンテンツの組に対してその類似度を計算する必要があるため、どのような類似度計算手段を用いようとも、特徴量の次元D、コンテンツ数Nに対してそれぞれ比例する計算時間を要する。
(2)先に述べた色ヒストグラムのような画像特徴量に代表されるように、画像・映像・ 音声等の信号コンテンツの特徴表現は、一般に物理的な性質を表すものが殆どであるが、当然のことながら、物理的な特徴量が近いからと言って、必ずしも意味的に関連のある信号コンテンツであるとは言えない。例えば、『(赤い)リンゴ』の画像に類似したコンテンツとして欲しいのは、『赤い鞄』ではなく、同じ果物である『青リンゴ』や『オレンジ』であるが、これらは少なくとも色ヒストグラムの近さで正しく評価することはできない。
以上の背景を鑑み、実用上、(1)高速でありながらも、(2)意味的に関連したコンテンツの発見を可能にする信号コンテンツの特徴量を生成することができる技術が望まれる。
従来、このような技術に関していくつかの発明がなされ、開示されてきている。
例えば、非特許文献1に開示されている技術では、沢山の画像群と、それに付随する意味ラベル(すなわち、個々の画像がどういった意味カテゴリに属するかを指示するラベル)とが所与の下、Convolutional Neural Network (CNN)を利用して画像と意味ラベルとの関係を学習し、特徴量化する方法について開示されている。
また、特許文献1に開示されている技術では、2種類の同時共起する信号コンテンツの特徴量の圧縮において、一方あるいは双方の特徴量が欠損していて同時共起とならなかった信号コンテンツを含む場合において、元の特徴量の次元を削減して低次元化する特徴量生成技術が開示されている。
特開2010−282277号公報
非特許文献1に開示されている技術では、画像と意味ラベルとのペアを元に画像と意味ラベルとの関係を学習することで、意味的な画像特徴量を得ることを可能にしていた。しかしながら、この技術は膨大な量の画像(例えば、非特許文献1に開示されている例ではおよそ120万枚の画像)と、そのそれぞれに対する意味ラベルが既知であることを前提とする。多くの場合、画像に意味ラベルを付与する場合には人手によって付与しなければならず、このような膨大な量の画像に意味ラベルを付与することは多大な労力がかかるため、現実的にこの技術を利用しにくい場合が多かった。また、この技術は画像に対してのみ適用できる技術であり、例えば音声など他の信号コンテンツに適用することはできなかった。
また、特許文献1に開示されている技術は、同時共起する2種のコンテンツのペアを前提として、その相関関係を使って新たな低次元特徴量を生成する技術である。非特許文献1に開示されている技術とは異なり、画像に意味ラベルを直接付与する必要がない点が特長である。
特許文献1の技術において、特徴量は、信号コンテンツの特徴量と文書の特徴量との統計量(相関)に基づいて学習生成される。しかしながら、信号コンテンツの物理的な特徴量と、文書の意味的な特徴量との単純な相関は、必ずしも有意ではない場合も多く、結果として意味的に関連した信号コンテンツを発見できるような特徴量を得ることは難しい場合も多かった。特に、この技術は、同時共起する信号コンテンツと文書とのペアを多数必要とするものであり、もし十分な数のペアが集められないような場合には、十分な精度を得ることが難しかった。
本発明は、以上のような事情に鑑みてなされたものであり、信号コンテンツの低次元特徴量を生成可能であり、かつ、文書の意味内容と対応した、文書特徴量の特徴的な幾何的特性を捕捉し、幾何的特性に基づいて信号コンテンツと文書との関連性を学習することで、信号コンテンツと文書のペアが少ないような場合であっても、意味的に関連した信号コンテンツを精度良く発見することを可能とする特徴量生成方法、特徴量生成装置、及び特徴量生成プログラムを提供することを目的とする。
上記目的を達成するために、本発明の特徴量生成方法は、所望の種別の信号コンテンツ及び文書がそれぞれ1つ以上所与であり、前記信号コンテンツ及び前記文書の1つ以上の組の関係性の有無を表す関係指示子が所与である場合に、前記信号コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、前記文書に含まれる単語の共起に基づいて、共起しやすい単語ほど相互に近い単語ベクトルになるように、各単語及び単語ベクトル間の対応関係を生成する単語ベクトル学習ステップと、学習した前記単語ベクトルを用いて、前記文書の文書特徴量を抽出する文書特徴抽出ステップと、前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、前記単語ベクトル及び前記文書特徴量のうちの少なくとも1つを用いて、前記信号コンテンツ及び前記文書の相対的幾何関係を求め、前記初期特徴量、前記相対的幾何関係、及び関係指示子に基づいて、前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、を有する。
なお、記所望の種別の信号コンテンツが所与である場合において、前記信号コンテンツの前記低次元特徴量を生成する特徴量生成方法であって、前記信号コンテンツの前記初期特徴量を抽出する初期特徴量抽出ステップと、上記特徴量生成方法により生成した前記特徴量変換関数に基づいて、前記初期特徴量を低次元化して出力する低次元化ステップと、を有するようにしても良い。
また、本発明の特徴量生成装置は、所望の種別の信号コンテンツ及び文書がそれぞれ1つ以上所与であり、前記信号コンテンツ及び前記文書の1つ以上の組の関係性の有無を表す関係指示子が所与である場合に、前記信号コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、前記文書に含まれる単語の共起に基づいて、共起しやすい単語ほど相互に近い単語ベクトルになるように、各単語及び単語ベクトル間の対応関係を生成する単語ベクトル学習部と、学習した前記単語ベクトルを用いて、前記文書の文書特徴量を抽出する文書特徴抽出部と、前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出部と、前記単語ベクトル及び前記文書特徴量のうちの少なくとも1つを用いて、前記信号コンテンツ及び前記文書の相対的幾何関係を求め、前記初期特徴量、前記相対的幾何関係、及び関係指示子に基づいて、前記初期特徴量を低次元特徴量に変換する特徴量変換関数を生成し、出力する特徴量変換関数生成部と、を有する。
また、所望の種別の信号コンテンツが所与である場合において、信号コンテンツの低次元特徴量を生成する特徴量生成装置であって、前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出部と、上記特徴量生成装置により生成した前記特徴量変換関数に基づいて、前記初期特徴量を低次元化して出力する低次元化部と、を有するようにしても良い。
本発明の特徴量生成プログラムは、コンピュータに、上記特徴量生成方法の各ステップを実行させるためのプログラムである。
以上の特徴からなる本発明によれば、文書特徴量の持つ幾何的な特性を捉えることで、文書の持つ意味内容をより正確に捉え、幾何的特性を用いて信号コンテンツと文書の関係性を学習することで、信号コンテンツと文書のペアが少ないような場合であっても、より意味的に関連した信号コンテンツを精度よく発見することを可能とする信号コンテンツの低次元特徴量を生成可能な特徴量生成方法、特徴量生成装置、特徴量生成プログラムを提供することができる。
さらに、本発明により生成される信号コンテンツの特徴量は、元の初期特徴量と比べて非常に低次元であることから、高速な類似コンテンツの発見が可能である。つまり、より実時間性の要求される利用に対しても対応可能であり、これらの効果を活用した具体的な利用シーンとして、街中を歩いているときに気になる場所や商品をモバイル端末で写真撮影し、類似した場所・商品を検索することが可能になるという利点がある。
上記2点の特長によれば、本発明によって(1)高速でありながらも、(2)意味的に類似したコンテンツの発見を可能にする信号コンテンツの特徴量を生成可能である。
第1実施形態に係る特徴量生成装置の構成を示すブロック図である。 実施形態に係る特徴量変換関数の生成方法を説明するための模式図である。 実施形態に係る特徴量生成装置により実行される特徴量変換関数学習処理の流れを示すフローチャートである。 実施形態に係る特徴量生成装置により実行される特徴量変換処理の流れを示すフローチャートである。 第2実施形態に係る特徴量生成装置の構成を示すブロック図である。
以下、本発明の実施形態について図面を用いて説明する。
<<全体構成>>
図1は、本発明の実施形態に係る特徴量生成装置1の構成の一例を示す機能ブロック図である。
同図に示す特徴量生成装置1は、単語ベクトル学習部11、文書特徴量抽出部12、初期特徴量抽出部13、特徴量変換関数生成部14、及び、低次元化部15を備える。また、特徴量生成装置1は、記憶装置として記憶部3を備える。
また、特徴量生成装置1は、コンテンツデータベース2と通信手段を介して接続されて相互に情報通信する。特徴量生成装置1は、コンテンツデータベース2に登録された信号コンテンツ21、文書22、及び関係指示子23に基づいて特徴量変換関数31を生成して記憶部3に格納する特徴量変換関数学習処理を実行する。また、特徴量生成装置1は、学習して生成した特徴量変換関数31を用い、信号コンテンツ4の初期特徴量に基づいて新たな低次元特徴量5を生成する特徴量変換処理を実行する。
なお、同図において、実線矢印は、特徴量変換関数学習処理時のデータの通信とその方向を示し、破線矢印は、特徴量変換処理時のデータの通信とその方向を表している。
コンテンツデータベース2は、特徴量生成装置1の内部にあっても外部にあっても構わない。上述した通信手段は、任意の公知ものを用いることができる。本実施形態では、コンテンツデータベース2が特徴量生成装置1の外部にあるものとして、特徴量生成装置1は、インターネット、TCP/IPにより通信する通信手段を介してコンテンツデータベース2に接続されているものとする。本実施形態では、コンテンツデータベース2は、いわゆるRDBMS (リレーショナルデータベース管理システム;Relational Database Management System)を含んで構成されているものとするが、これに限らず、他の管理システムを用いたデータベースであっても良い。
同図に示すように、コンテンツデータベース2には、信号コンテンツ21、文書22、及び関係指示子23が格納されている。信号コンテンツ21は、複数のコンテンツファイルの集合によって構成される。例えば、信号コンテンツ21の種別が画像である場合、信号コンテンツ21は画像ファイルの集合によって構成される。信号コンテンツ21の種別が音である場合は、信号コンテンツ21は音ファイルに集合によって構成される。信号コンテンツ21の種別が映像である場合は、信号コンテンツ21は映像ファイルの集合によって構成される。一方、文書22は、文書ファイルの集合によって構成される。
コンテンツデータベース2には、各々の信号コンテンツ21のコンテンツファイル、各々の文書22の文書ファイルに対して、それぞれを一意に識別可能な識別子(例えば、ファイル固有の通し番号によるID等)が関連付けられており、任意のファイルを識別子を指定することにより参照することができる。
関係指示子23は、各々の信号コンテンツ21のコンテンツファイル、及び、各々の文書22の文書ファイルの間の“関係”を示すものであり、“関係”があると判断される信号コンテンツ21のコンテンツファイル及び文書22の文書ファイルの組を識別子の組として記述したものである。ここで言う“関係”とは、好ましくは信号コンテンツ21または文書22の意味内容的関連性である。識別子の組を生成する手法としては、任意の手法を採用することができる。例えば、人手によって識別子の組を生成しても良く、機械的に識別子の組を生成しても良く、あるいはその双方によって識別子の組を生成しても良い。
例えば、信号コンテンツ21が画像である場合を考える。例えば、人手により識別子の組を生成する場合は、“画像3”の識別子を持つ3番目の画像ファイルと、“文書8”の識別子を持つ8番目の文書ファイルの内容が、人手で見て、その内容が相互に関連していると判断される場合には、ユーザの指示に基づき、3番目の画像ファイルの識別子と8番目の文書ファイルの識別子との組である{“画像3”、“文書8”}を示す情報が、関係指示子23としてコンテンツデータベース2に格納される。
また、例えば、機械的に識別子の組を生成する場合は、ウェブページから画像ファイルを収集するような場合が例として挙げられる。最も単純には、同一ウェブページ内にある画像ファイルAと文書ファイルBは関連していると見做し、画像ファイルAの識別子と文書ファイルBの識別子との組である{“画像A”、“文書B”}を示す情報が、関係指示子23としてコンテンツデータベース2に格納される。あるいは、ウェブページ上レイアウトとして近傍にある画像ファイルと文書ファイル同士は互いに関連していると見做し、これらの画像ファイルの識別子と文書ファイルの識別子との組を示す情報が、関係指示子23としてコンテンツデータベース2に格納されても良い。機械的に識別子の組を生成する場合、人手をかけることなく関係指示子23が得られるというメリットがある。
なお、関係指示子23は、必ずしもコンテンツデータベース2に格納されている全ての信号コンテンツ21に対して付与されている必要はなく、一部の信号コンテンツ21に対して付与されていれば良い。特に、本実施形態の技術は、文書の意味と相関の高い文書特徴量空間上の相対的な幾何関係を捉えることができる点が特長であり、与えられる関係指示子23は、例えば、全ての信号コンテンツ21のうちの半数程度の信号コンテンツ21に対して付与されていれば十分である。
その他、メタデータとして、例えば、信号コンテンツ21の内容を表現するデータ(信号コンテンツ21のタイトル、概要文、キーワード等)、信号コンテンツ21のフォーマットに関するデータ(信号コンテンツ21のデータ量、信号コンテンツ21を表すサムネイル等のサイズ等)等を含んでいても構わない。なお、本実施形態では、メタデータを使用しない場合について説明する。
ここで、上述した幾何関係について具体的に説明する。例えば幾何関係は行列Wとして表現される。幾何関係Wのi,j番目の要素はi番目の文書特徴量とj番目の文書特徴量の近さを表すとし、これが大きければ大きいほど近いとする。一例として図2に示すように、幾何関係W内の要素として相互に大きな値を持っている文書特徴量8A同士、文書特徴量8B同士は、(暗黙的に)グループを構成していると考えられる。ただし、実際にグルーピング処理をしているわけではなく、幾何関係W内の要素として相互に大きな値を持っている文書特徴量8A同士、文書特徴量8B同士を、ここでは便宜上ある種のソフトなグループと表現している。幾何関係Wは意味的な関連性を表すものであるので、同じグループに属しているような文書特徴量同士は意味的関連性も高い。
このような前提で、同じグループの文書特徴量8Aと、関係指示子23を通じて接続されている初期特徴量9A同士もまた、同じグループに属していると見做すことができる。また、同じグループの文書特徴量8Bと、関係指示子23を通じて接続されている初期特徴量9B同士もまた、同じグループに属していると見做すことができる。これを通じて、初期特徴量9A同士、初期特徴量9B同士もまた、文書特徴量の意味的な関連性を反映したようなグループを持つと考えられる。
すなわち、同じグループに属する初期特徴量9A同士、初期特徴量9B同士が同じ次元に、異なるグループに属する初期特徴量同士は異なる次元に配置されるように低次元化する特徴量変換関数を求める。なお、特徴量変換関数の詳細に関しては、後述する。
特徴量生成装置1が備える各部およびコンテンツデータベース2は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成され、特徴量生成装置1の各部が実行する処理は各種プログラムによって実行される。本実施形態では、各種プログラムは、特徴量生成装置1が備える記憶装置に記憶されているが、各種プログラムの記憶先はこれに限らず、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録されても良く、ネットワークを通して提供されても良い。また、その他のいかなる構成要素も、必ずしも単一のコンピュータやサーバによって実現される必要はなく、ネットワークによって接続された複数のコンピュータにより分散されて実現されても構わない。
検索装置6は、本実施形態を実現する上で必須の構成要素ではないが、本実施形態による特徴量生成装置1を意味的に関連した信号コンテンツを検索する目的で利用する上で備える装置である。検索装置6は、特徴量生成装置1、ならびにコンテンツデータベース2と相互に通信可能な形で接続されている。
<<処理部>>
次に、本実施形態における特徴量生成装置1の各処理部について説明する。
単語ベクトル学習部11は、コンテンツデータベース2から文書22を取得し、文書に含まれる1つ又は複数の単語の各々に対して、単語を特徴づけるベクトルである単語ベクトル32を学習して生成し、文書特徴量抽出部12に出力すると共に記憶部3に記憶させる。
文書特徴量抽出部12は、単語ベクトル学習部11から、単語ベクトル32、及びコンテンツデータベース2から取得した文書22を取得し、単語ベクトル32に基づいて文書22の各文書ファイルの文書特徴量を抽出する。また、文書特徴量抽出部12は、抽出した文書特徴量を、特徴量変換関数生成部14に出力する。
初期特徴量抽出部13は、特徴量変換関数学習処理において、コンテンツデータベース2に格納されている信号コンテンツ21を取得し、取得した信号コンテンツ21を解析し、信号コンテンツ21の初期特徴量を抽出し、特徴量変換関数生成部14に出力する。また、初期特徴量抽出部13は、特徴量変換処理において、上述した通信手段を介して外部から入力された信号コンテンツ4を取得し、取得した信号コンテンツ4を解析し、信号コンテンツ4の初期特徴量を抽出し、低次元化部15に出力する。
特徴量変換関数生成部14は、文書特徴量抽出部12から文書特徴量を取得し、初期特徴量抽出部13から初期特徴量を取得し、コンテンツデータベース2から関係指示子23を取得し、記憶部3から単語ベクトル32を読み出す。そして、特徴量変換関数生成部14は、文書特徴量、初期特徴量、関係指示子23、及び単語ベクトル32を用いて、初期特徴量を新たな低次元特徴量5に変換する特徴量変換関数31を学習して生成し、記憶部3に記憶させる。
低次元化部15は、初期特徴量抽出部13から初期特徴量を取得し、記憶部3から特徴量変換関数31を読み出し、初期特徴量を特徴量変換関数31を用いて低次元特徴量5に変換することにより低次元特徴量5を生成する。そして、低次元化部15は、生成した低次元特徴量5をコンテンツデータベース2に記憶させる。これにより、低次元特徴量5は、コンテンツデータベース2に格納されている各々の信号コンテンツ21に対応付けられた上で、コンテンツデータベース2に格納される。
また、低次元化部15は、特徴量生成装置1が検索装置6に接続されている場合には、生成した低次元特徴量5を検索装置6に出力する。検索装置6は、利用者の指示により信号コンテンツ4が入力されると、特徴量生成装置1から信号コンテンツ4に対応する低次元特徴量5を取得する。また、検索装置6は、コンテンツデータベース2を用いて信号コンテンツ4に対応する低次元特徴量5に類似する信号コンテンツ21を検索し、コンテンツデータベース2から検索結果7を取得し、信号コンテンツ4の入力元に出力する。
<<処理概要>>
次に、本実施形態における特徴量生成装置1の各処理について大まかに説明する。本実施形態に係る特徴量生成装置1は、特徴量変換関数を学習して生成する特徴量変換関数学習処理、及び、初期特徴量を低次元特徴量に変換する特徴量変換処理を実行する。
最初に、特徴量変換関数学習処理について説明する。図3は、特徴量変換関数学習処理の流れを示すフローチャートである。特徴量変換関数学習処理は、例えば検索の対象とする信号コンテンツ4に対して特徴量変換処理を実行する前に、少なくとも1度実施しておく処理であり、利用者の指示が入力されたタイミングで実行される。
ステップS201では、単語ベクトル学習部11が、コンテンツデータベース2から文書22を取得し、文書22に含まれる単語の共起に基づいて、共起しやすい単語ほど相互に近い単語ベクトルになるように、単語ベクトル32を学習して生成し、単語ベクトル32を記憶部3に記憶させる。
次のステップS202では、文書特徴量抽出部12が、コンテンツデータベース2から文書22を取得すると共に、記憶部3から単語ベクトル32を取得する。また、文書特徴量抽出部12は、その後、取得した単語ベクトル32に基づいて文書22に含まれる各々の文書ファイルの各々、又は、文書ファイルの一部に対して特徴抽出処理を行って文書特徴量を抽出し、特徴量変換関数生成部14に出力する。
次のステップS203では、初期特徴量抽出部13が、コンテンツデータベース2から信号コンテンツ21を取得し、取得した信号コンテンツ21に含まれるコンテンツファイルの各々、又は、コンテンツファイルの一部に対して特徴抽出処理を行って初期特徴量を抽出し、特徴量変換関数生成部14に出力する。
次のステップS204では、特徴量変換関数生成部14が、記憶部3から取得した単語ベクトル、及び、文書特徴量抽出部12から取得した文書特徴量のうちの少なくとも1つを用いて、信号コンテンツ21及び文書22の相対的な幾何関係を求め、初期特徴量抽出部13から取得した初期特徴量、求めた相対的な幾何関係、及びコンテンツデータベース2から取得した関係指示子23に基づいて特徴量変換関数31を生成し、特徴量変換関数31を記憶部3に記憶させる。
以上のような処理により、特徴量生成装置1は、コンテンツデータベース2に格納された信号コンテンツ21、文書22、関係指示子23から、特徴量変換関数31を生成する。なお、各ステップにおいて実行される各種処理の詳細については後述する。
次に、特徴量変換処理について説明する。図4は、特徴量変換処理の流れを示すフローチャートである。特徴量変換処理は、記憶部3に格納された特徴量変換関数31を用いて、信号コンテンツ4の初期特徴量を低次元化する処理である。特徴量変換処理は、利用者により信号コンテンツ4が指定された上で、利用者の指示が入力されたタイミングで実行される。
ステップS301では、初期特徴量抽出部13が、上述した通信手段を介して、利用者により指定された信号コンテンツ4を取得し、取得した信号コンテンツ4の初期特徴量を抽出し、初期特徴量を低次元化部15に出力する。本実施形態では、利用者に指摘された信号コンテンツ4を取得するが、信号コンテンツ4の取得方法はこれに限らず、信号コンテンツ4が記憶部3に記憶されている場合には、記憶部3から取得しても良い。
次のステップS302では、低次元化部15が、記憶部3から取得した特徴量変換関数31に基づいて、初期特徴量抽出部13から取得した初期特徴量を低次元化して低次元特徴量5に変換して出力する。
以上のような処理により、特徴量生成装置1は、利用者により指定された信号コンテンツ4の低次元特徴量5を求める。
<<各処理の処理詳細>>
以降、上述した各々の処理の詳細について、本実施形態における一例を説明する。
[単語ベクトルの学習]
単語ベクトル32は、単語に対して一意に定まる有限次元のベクトルである。単語ベクトル32の次元Dyとすると、次元Dyには任意の整数の値を指定することができる。例えば、Dy=100、Dy=1000等とすると良い。ここで、語彙Vocに含まれる単語vを単語ベクトル32に変換する変換がvec(v)で表わされるとする。この場合、変換vec(v)は、例えば、単語vをキーとし、単語ベクトル32をその値とするハッシュやルックアップテーブルによって構成される。
語彙Vocに含まれる任意の単語vの単語ベクトル32を生成方法としては、種々の公知の方法を適用することができ、本実施形態では、特異値分解(Singular Value Decomposition:SVD)を用いる方法を適用する。この方法においては、下記の手続きによって単語ベクトル32を生成する。
(1)文書内に出現する単語を重複なく列挙する。この際、表記揺れを吸収したり、語形が変化する単語の語幹でマッチングを行う処理であるステミング処理を施したりすることにより、実質的に同じ単語であると見做せる単語を予め1つの単語にまとめても構わない。また、この際、出現回数が極めて多い単語、出現回数が極めて少ない単語等を除去しても構わない。出現頻度に基づいて単語を除去する場合には、例えば、各々の単語について単語頻度逆文書頻度(Term−frequency、Inverse Document Frequency:TF−IDF)のスコアを求め、スコアが低い単語を除去すれば良い。そして、これらの処理を行った後に最終的に列挙された単語の集合を、語彙Vocとする。
(2)語彙Voc内の全ての単語について、各々の文書内の出現頻度を計数し、各々の要素として出現頻度を持つ文書数×単語数サイズの行列を生成する。なお、各々の要素の値は、出現頻度に限らず、例えばTF−IDFのスコアの値としても良い。
(3)生成した行列にSVDを施す。生成した行列は、SVDを施すことにより、「文書数×Dyの行列」、「Dy×Dyの行列」、及び「Dy×単語数の行列」に分解することが可能となる。なお、分解して得られたこれらの行列のうち、最後のDy×単語数の行列の各列が、語彙Vocに含まれる全ての単語の単語ベクトル32を表している。
このように、本実施形態では、単語ベクトル32の生成方法としてSVDを用いる方法を適用するが、単語ベクトル32の生成方法としてはSVDを用いる方法以外の方法が多数存在するため、SVDを用いる方法以外の方法を適用しても良い。その場合には、好ましくは、下記の参考文献1に記載のSkip−gram(SG)、Continuous Bag−of−Words (CBOW)等を用いる方法を適用すると良い。
[参考文献1]T. Mikolov, I. Sutskever, K. Chen, G.S. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and Their Compositionality," In Proc., Advances in Neural Information Processing Systems (NIPS), 2013.
SG、CBOW等を用いる方法では、文書内に出現する単語の前後関係を元に単語ベクトル32を学習する。SGを用いる方法では、文書内の各々の単語が入力情報として与えられた際、与えられた単語の前後に出現する単語を予測する3層のニューラルネット型の関数を学習する。このニューラルネット型の関数のモデルの第2層のノードの数をDyとすると、最終的に、その第2層―第1層間のネットワーク結合重みがDy×単語数の行列で表され、この行列を単語ベクトル32とする。
CBOWを用いる方法では、SGを用いる方法とは異なり、予測対象の単語の前後に出現する単語が入力情報として与えられた下で、予測対象の単語を予測する3層のニューラルネット型の関数を学習する。そして、SGを用いる方法と同様に、第2層―第1層間のネットワーク結合重みを単語ベクトル32とする。
上記参考文献1によれば、このようにして生成された単語ベクトル32は、SVD等の単語ベクトル32と比較して格段に高い意味内容捕捉能力があることが示されており、例えば、vec(“ベルリン”)−vec(“ドイツ”)+vec(“フランス”) ≒ vec(“パリ”)になるという、特徴的な幾何的特性を持つことが示されている。従って、上記参考文献1に記載の単語ベクトル32の生成方法により、単語の持つ意味の関係と、単語ベクトルの幾何的な関係の対応に特徴的な関係があるという点で、本実施形態の目的に適した単語ベクトル32を得ることができる。
以上のような手続きにより、特徴量生成装置1は、入力された文書22から、単語ベクトル32を学習し、生成する。
[文書特徴量の抽出]
次に、生成した単語ベクトル32に基づいて、任意の文書から当該文書の文書特徴量を抽出する抽出方法を詳細に説明する。
この手続きは至極単純であり、文書内に出現する単語のうち、語彙Vocに含まれる単語を全て列挙し、列挙した各々の単語に対応する単語ベクトル32の統計量を文書特徴量とすれば良い。ここで言う統計量は、文書に含まれている単語の数に依存せずに有効であるべきであるという要請から、複数の単語が含まれる文書であっても、1つの単語が含まれる文書である場合、すなわち、元の単語ベクトル32自体と同じ次元を持つ、単語ベクトル空間上のデータとして表現可能である統計量であることが望ましい。例えば、次元毎の和、次元毎の最大値、次元毎の中央値、次元毎の最頻値等、次元毎に求めることができる統計量であれば任意の統計量を用いて良い。しかしながら、最も単純には、全ての単語ベクトル32の平均ベクトルを求め、求めた平均ベクトルを文書特徴量とすることが好ましい。
以上のような手続きにより、特徴量生成装置1は、コンテンツデータベース2に格納された文書22の文書特徴量を求める。
[初期特徴量抽出]
次に、信号コンテンツ21の初期特徴量を抽出する初期特徴量抽出方法について説明する。
初期特徴量抽出処理では、抽出できる初期特徴量が、信号コンテンツ21の種別(画像、音、映像等)によって異なっている。しかしながら、各々の種別の信号コンテンツ21からどのような初期特徴量を抽出するかは、本実施形態の要件として重要ではなく、公知の特徴抽出処理を用いて公知の初期特徴量を抽出して構わない。
具体的には、信号コンテンツ21の初期特徴量は、信号コンテンツ21から抽出された、次元を持つ数値データ(スカラー又はベクトル)であれば有効である。ここでは、本実施形態の一例に適する、各種信号コンテンツ21に対する初期特徴抽出処理の一例を説明する。
信号コンテンツ21の種類が画像である場合には、信号コンテンツ21から、例えば、明るさ特徴、色特徴、テクスチャ特徴、コンセプト特徴、景観特徴等の特徴量を初期特徴量として抽出する。
明るさ特徴を抽出する場合は、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出する。この場合、信号コンテンツ21に含まれる各々の画像は、V値の量子化数(例えば、16bit量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴を抽出する場合は、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出する。この際、各々の軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14等とすれば良い。この場合、信号コンテンツ21に含まれる各々の画像は、3軸の合計のビンの数は、4×14×14=784、すなわち784次元のベクトルとして表現される。
テクスチャ特徴を抽出する場合は、濃淡ヒストグラムの統計量(コントラスト)、パワースペクトル等を抽出する。又は、局所特徴量を抽出しても良い。局所特徴量を抽出する場合には、色、動き等と同様に、ヒストグラムとして抽出することができるようになるため好適である。局所特徴量としては、例えば下記の参考文献2に記載のSIFT(Scale Invariant Feature Transform )、下記の参考文献3に記載のSURF(Speeded Up Robust Features)等を用いることができる。
[参考文献2]D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, pp.91-110, 2004.
[参考文献3]H. Bay, T. Tuytelaars, and L.V. Gool, "SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006.
このようにして抽出される局所特徴量は、例えば128次元の実数値ベクトルとして表現される。このベクトルを予め学習して生成しておいた符号長を参照して符号に変換し、その符号の数を数え上げることで、ヒストグラムを生成する。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、局所特徴量として、参考文献4に記載のスパース表現、参考文献5及び6に記載のフィッシャーカーネルに基づく特徴表現等を用いても良い。
[参考文献4] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, "Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献5] Florent Perronnin, Jorge Sanchez, Thomas Mensink, "Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献6] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, "Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
何れの局所特徴量を用いた場合であっても、結果として生成される初期特徴量は、符号長の符号数に依存した長さを持つ実数値ベクトルとなる。
コンセプト特徴を抽出する場合は、画像内に含まれる物体、画像が捉えているイベント等の特徴量を初期特徴量として抽出する。抽出する物体、イベント等は、任意の物体、イベント等を用いて良いが、例えば、「海」、「山」、「ボール」等である。仮に、画像内に「海」が映されていた場合、その画像は、「海」のコンセプトに帰属する画像であると判断する。各々の画像が、各々のコンセプトに帰属するか否かは、コンセプト識別器を用いて識別する。通常、コンセプト識別器は、コンセプト毎に1つずつ用意され、画像の特徴量が入力されると、当該画像が識別対象とするコンセプトに帰属しているか否かを帰属レベルとして出力する。コンセプト識別器は、画像の特徴量(例えば上述した局所特徴量)と、予め人手によって入力された、当該画像がどのコンセプトに帰属しているかを示す正解ラベルと、の関係を学習することによって獲得される。学習器としては、例えばサポートベクターマシン等を用いれば良い。コンセプト特徴を抽出する場合は、各々のコンセプトへの帰属レベルをまとめてベクトルとして表現する。この場合、生成される初期特徴量は、コンセプトの数と同数の次元を持つベクトルとなる。
景観特徴は、画像の風景や場面を表現した特徴量である。景観特徴を抽出する場合は、例えば下記の参考文献7に記載のGIST記述子を用いることができる。GIST記述子は、画像を複数の領域に分割し、分割した各々の領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現される。しかし、この場合、生成される初期特徴量は、フィルタの種類(分割する領域の数、及びオリエンテーションの数)に依存した長さのベクトルとなる。
[参考文献7]A. Oliva and A. Torralba, "Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006.
また、非特許文献1に記載のCNNによる特徴量を初期特徴量として抽出しても良い。
次に、信号コンテンツ21の種類が音である場合には、信号コンテンツ21から、例えば音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴等を初期特徴量として抽出する。
音高特徴を抽出する場合は、信号コンテンツ21に含まれる音ファイルから例えば音高(ピッチ)の特徴量を抽出すれば良い。抽出方法としては、例えば、下記の参考ウェブサイトに記載の方法等を適用することができる。この場合、ピッチを1次元ベクトル(スカラー)として表現しても良く、あるいはピッチを複数の次元に量子化し、複数の次元を持つベクトルとして表現しても良い。
[参考ウェブサイト]http://en.wikipedia.org/wiki/Pitch_detection_algorithm
音圧特徴を抽出する場合は、信号コンテンツ21に含まれる音ファイルから音声波形データの振幅値の特徴量を初期特徴量として抽出すれば良い。また、信号コンテンツ21に含まれる音ファイルから音声波形データの短時間パワースペクトルを抽出し、任意の帯域の平均パワーを計算して特徴量を求め、初期特徴量としても良い。音声波形データの振幅値を抽出しても、短時間パワースペクトルを抽出しても、生成した初期特徴量は、音圧を計算するバンドの数に依存した長さのベクトルとなる。
スペクトル特徴を抽出する場合は、信号コンテンツ21に含まれる音ファイルから例えばメル尺度ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients )の特徴量を初期特徴量として抽出すれば良い。
リズム特徴を抽出する場合は、信号コンテンツ21に含まれる音ファイルから例えばテンポの特徴量を初期特徴量として抽出すればよい。テンポを抽出する際には、例えば下記の参考文献8に記載の方法等を適用することができる。
[参考文献8]E.D. Scheirer, "Tempo and Beat Analysis of Acoustic Musical Signals ", Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998.
発話特徴及び音楽特徴は、それぞれ発話の有無及び音楽の有無を表す。発話特徴又は音楽特徴を抽出する場合は、信号コンテンツ21に含まれる音ファイルから、発話又は音楽が存在する区間を特徴量として抽出すれば良い。発話又は音楽が存在する区間を識別するためには、例えば下記の参考文献9に記載の方法等を適用することができる。
[参考文献9]K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, "Video Handling with Music and Speech Detection", IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998.
音イベント特徴を抽出する場合は、音イベントとして、例えば、笑い声、大声等の感情的な音声、又は、銃声、爆発音等の環境音の生起等を検出し、このような音イベントの特徴量を初期特徴量として抽出すれば良い。このような音イベントを検出する際には、例えば下記の参考文献10に記載に方法等を適用することができる。
[参考文献10]国際公開第2008/032787号公報
信号コンテンツ21の種類が映像である場合は、映像が一般に画像及び音のストリームであることから、上述した画像特徴及び音特徴を用いて初期特徴量を抽出することができる。映像中の何れの画像の区間を分析するか、又は何れの音の区間を分析するかについては、例えば、映像を複数の区間に予め分割し、その区間毎に1つの画像を抽出して特徴量を抽出する。また、映像を複数の区間に予め分割し、その区間毎に音の特徴量を抽出する。このようにして、初期特徴抽出処理を実施する。
なお、映像を複数の区間に分割する場合は、映像を予め定めた一定の間隔で分割しても良く、例えば下記の参考文献11に記載の分割方法等を適用し、映像が不連続に途切れる点であるカット点で分割してもよい。望ましくは、後者の分割方法を適用すると良い。映像を複数の区間に分割した結果として、各々の区間の開始点(開始時刻)と終了点(終了時刻)が得られるが、この時刻毎に別々の初期特徴量として扱えば良い。
[参考文献11]Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, "Structured Video Computing", IEEE Multimedia, pp.34-43, 1994.
以上のようにして抽出した初期特徴量は、抽出した特徴量のうちの何れか1つの特徴量であっても良く、複数の特徴量から計算した特徴量であっても良い。また、初期特徴量は、上述した方法で抽出した特徴量に限らず、その他の公知の抽出方法で取得した特徴量を初期特徴量として用いても良い。
[特徴量変換関数の生成]
次に、特徴量変換関数の生成方法について詳細に説明する。
複数の信号コンテンツ21のうちの信号コンテンツiから抽出された初期特徴量をxi∈RDと表す。また、信号コンテンツの初期特徴量次元はDxである。
このとき、信号コンテンツをd次元(d≦Dx)に低次元化する特徴量変換関数f:RDx→Rdを求める。本実施形態では、信号コンテンツ21と文書22の関係性を学習し、活用することで、文書22の持つ意味的な内容を信号コンテンツ21の初期特徴量に移し、意味的な類似性がより反映された低次元特徴量を生成することである。これを実現するために、下記2つの方針を採る。
(1)初期特徴量・文書特徴量間の関係の保存:文書特徴量から捕捉される意味内容を初期特徴量に移すためには、信号コンテンツ21(初期特徴量)及び文書22(文書特徴量)の関係を崩さないような特徴量変換関数fを生成する。本実施形態では、信号コンテンツ21及び文書22の関係は関係指示子23として与えられるため、関係指示子23が指示する関係を保存するように特徴量変換関数fを学習する。
(2)文書特徴量空間の幾何関係の保存:先に述べた通り、単語ベクトル32には、例えばSGやCBOWにおける「vec(“ベルリン”)−vec(“ドイツ”)+vec(“フランス”)≒vec(“パリ”)」等、単語の持つ意味と、単語ベクトル32の幾何関係の間に明確な関連性があることが知られている。然るに、単語ベクトル空間上の幾何関係を保存するように、特徴量変換関数fを学習すれば、単語ベクトルの持つ意味的な関係性を効果的に保存した特徴量変換関数fを得ることができる。上記特許文献1に記載の低次元化方法のように単純な相関を用いる場合とは異なり、意味内容に関連した幾何関係を捉えることで、文書22の量が少ない場合であっても、有効な低次元特徴量を構成することができる点で利がある。
以降、一般性を失うことなく、関係指示子23の与えられている信号コンテンツ21及び文書22の組の数をNとし、当該信号コンテンツ21の初期特徴量xi(i=1,2,・・・,N)と文書特徴量yi(i=1,2,・・・,N)について、同一インデクスを持つ組(例えばx1とy1、x2とy2など)は関係指示子23によって関係が指示されている組であるとする。また、これらは平均0に正規化されているとする。すなわち、初期特徴量xiの平均ベクトルは0ベクトルである。
次に、特徴量変換関数fを生成する際の具体的な手続きを説明する。
まず、単語ベクトル空間にある幾何関係を捉える処理について説明する。これを実現するためには、各々の文書特徴量yiが、他の文書特徴量yj≠iとどのような幾何関係にあるかを調べる必要がある。一般に、この幾何関係は、N個の文書特徴量ベクトルyi(i=1,2,・・・,N)を入力情報として、文書特徴量yi及び文書特徴量yjの間の幾何関係Wを出力とする、下記の最適化問題を解くことによって求められる。
Figure 0006397378
ここで、幾何関係W={wij}はN×Nの行列であり、そのi行目幾何関係wiは、文書特徴量yiの他の文書特徴量yjとの幾何関係を表す。ここで言う幾何関係Wは、より具体的には、文書特徴量yiを、他の文書特徴量yj(j=1,2,・・・,N、ただしi≠j)の線形和で表現した際の、線形結合重みを表している。この計算方法は所謂最小二乗法であり、公知の勾配法や行列分解を用いて解くことができる。結果として得られる幾何関係Wは、より意味的に関連した内容を持つ文書22同士の関係に対応する要素(つまり文書特徴量yi及び文書特徴量yjの間の関係に対応する要素wij)ほど大きい値を持つ傾向にある。
わかりやすい例を挙げると、文書特徴量yiがリンゴについて記述した文書22の文書特徴量であったとする。また、青リンゴについて記述した文書22の文書特徴量yjと、自動車について記述した文書22の文書特徴量ykがあったとする。このとき、文書特徴量ykと比較し、文書特徴量yjの方が文書特徴量yiに類似しているため、幾何関係Wのうち、文書特徴量ykに対応する幾何関係wkはほとんどの値が0を取り、文書特徴量yjに対応する幾何関係wkはほとんどの値が1に近い値を取る。
あるいは、各々の文書特徴量yiは、他の極少数の文書特徴量としか有効な幾何関係Wを持たない、つまり、文書特徴量yiを持つ文書22に意味的に関連した文書22は、N個の文書の中で非常に限られている場合が多くある。この場合には、文書特徴量yi及び文書特徴量yjの間の幾何関係Wは、N個の文書特徴量ベクトルyi(i=1,2,・・・,N)を入力情報として、文書特徴量yi及び文書特徴量yjの間の幾何関係Wを出力情報とする、下記(1)式及び(2)式の最適化問題を解くことによって求められる。
Figure 0006397378
この最適化問題はベクトルwi中のいくつかの限られた要素にのみ非ゼロの値を持つように正則化する、所謂スパース回帰問題、スパースコーディング問題と言われる問題であり、例えば、最小角回帰(Least Angle Regression:LARS),Alternating Direction Method of Multipliers(ADMM)等のいくつかの公知の数値計算アルゴリズムを用いて解くことができる。
一方、本実施形態では、必ずしもコンテンツデータベース2に登録された全ての文書22に関係指示子23が与えられている必要はない。特に、関係指示子23が与えられている文書22が少ない場合には、単語ベクトル空間上の幾何関係を捉えるに足る十分な量のデータ(文書特徴量)が得られず、結果として幾何関係の捕捉に失敗する、すなわち、意味的に関連した(していない)文書22同士の幾何関係Wの要素が、本来、大きく(小さく)なるべきところ、そうはならないような場合も出てくる。そこで、本実施形態では、関係指示子23が与えられていない文書22の文書特徴量も活用して、幾何関係を捉えるに十分な量のデータを得ることを考える。
関係指示子23が与えられていない文書22がM個存在するとする。関係指示子23が与えられていない文書22も含めた文書特徴量ui(i=1,2,・・・,(N+M))と表す(最初のN個は関係指示子23が与えられている文書22の文書特徴量yi(i=1,・・・,N))。この場合にも上記述べた手続きと同様に、N+M個の文書特徴量uiを用いてこれらの幾何関係Wを求めればよい。具体的には、(1)式及び(2)式に対応する問題は、それぞれ下記(3)式及び(4)式となる。
Figure 0006397378
Figure 0006397378
上記(3)式及び(4)式を、上記(1)式及び(2)式を用いた手続と同様の手続きで解くことによって幾何関係Wを求めれば良い。なお、関係指示子23を持たない文書22の文書特徴量は、必ずしも文書22から抽出した文書特徴量である必要はない。具体的には、単語ベクトル32自体を、直接関係指示子23を持たない文書22として利用することも可能である。単語ベクトル32自体は、単語ベクトル空間上のDy次元ベクトルであり、この空間を定める“基底”とも言える特別なデータであることから、単語ベクトル空間中の幾何関係Wを捉える上では特別有益な情報をもたらすものであり、効果的である。
以上のような手続きによって、特徴量生成装置1は、単語ベクトル空間上の幾何関係Wを捕捉する。
続いて、単語ベクトル空間上の文書特徴量同士の幾何関係Wを可能な限り保存し、かつ、関係指示子23によって表される信号コンテンツ21及び文書22の関係を最大限保存するように、初期特徴量を、初期特徴量の次元より低次元な次元を持つ低次元特徴量へと変換する特徴量変換関数fを生成する。具体的には、下記の手続きに従って特徴量変換関数fを生成する。
本実施形態では、特徴量変換関数fとして以下の形式をとるものを考える。
Figure 0006397378
上記(5)式において、αk,tはパラメータ、κ(xt,x)はカーネル関数である。カーネル関数は、下記(6)式に示す関数であると共に、N個の初期特徴量{x1,・・・,xN}に対して、下記(7)式を満たし、任意の実数αi、αjに対して、下記(8)式を満たす関数である。
Figure 0006397378
Figure 0006397378
Figure 0006397378
このような関数は無数に存在するが、例を挙げれば、下記(9)式、(10)式、(11)式等が存在する。ただし、β、γは正の実数値パラメータ、pは整数パラメータであり、適宜決定してよい。
Figure 0006397378
Figure 0006397378
Figure 0006397378
なお、上記(11)式のカーネル関数を用い、さらにp=1、γ=0とした場合には、得られる特徴量変換関数fは単純な線形関数に帰着され、低次元特徴量を求める処理、及び、特徴量変換関数fを求めるための処理量が大きく低減されるという利点がある。一方、この場合以外の場合には特徴量変換関数fは非線形関数となり、処理量は増加するものの、最終的に得られる低次元特徴量に移すことのできる文書22の情報量は増え、結果的に得られる精度が向上するという利点がある。
上記(5)式において、bkは下記(12)式、すなわち平均値を求めることで定められる定数であるため、上記(5)式は、下記(13)式のような内積の形式に変換することができる。ただし、ak、κ(x)は、下記(14)式で表される。
Figure 0006397378
Figure 0006397378
Figure 0006397378
ここで、Tは、特徴量変換関数f、具体的にはカーネルベクトル写像κ(x)を定める定数である。定数Tは、T≦Nの範囲で任意の値に決めてよい。例えば、T=300として、全ての初期特徴量{x1,・・・,xN}の中から初期特徴量をランダムにT個選出して特徴量変換関数fの生成に用いても良く、あるいはK−means等のクラスタリング法を用いて決定された代表ベクトルを特徴量変換関数fの生成に用いても良い。
然るに、特徴量変換関数fを求めるためには、パラメータ{αk}を決定すれば良い。そこで、以下に、パラメータ{αk}を決定する方法を説明する。
便宜上、関係指示子23を持たない文書特徴量も含めた文書特徴量{u1,・・・,u(N+M)}(ただし、u1=y1,・・・,uN=yN)を定義しておく。ただし、関係指示子23を持たない文書特徴量は必須ではなく、その場合には、M=0とすれば良い。さらに、上記初期特徴量xiと同様の手続きによって、κ(xi)に相当するカーネルベクトル写像ρ(ui)を求めておく。
κ(xi)(i=1,2,・・・,N)およびκ(ui)(i=1,2,・・・,N+M)を並べた行列K=[κ(x1,1),・・・,κ1(x1、N)]、Ρ=[κ(u1),・・・,κ(uN+M)]を定義する。さらに、特徴量変換関数fに加えて、全く同様の形式を持つ文書特徴量を低次元化する変換関数gを用意し、上記(13)式におけるαkに相当するパラメータをθk(k=1,2,・・・,d)とする。なお、g並びにθkは数理的理由によって便宜上用いるものであって、本実施形態において特徴量変換関数fとして利用することはない。αkを並べた行列をΑ=[α1,・・・,αd]と定義し、θk(k=1,2,・・・,d)を並べた行列をΘ=[θ1,・・・,θd]と定義し、以下の数式を解く。
Figure 0006397378
ここで、上記(15)式の第1項は、初期特徴量及び文書特徴量のそれぞれをAおよびΘによって低次元化した際に得られる低次元特徴量において、関係指示子23によって支持された組同士の線形または非線形な相関を最大化することを要請する項である。第2項は、幾何関係Wにより捕捉されている単語ベクトル32上の幾何関係Wが、低次元化された後も保存されることを要請する項である。すなわち、上記(15)式を解くことによって求められる特徴量変換関数fは、信号コンテンツ21の低次元特徴量と同じく低次元化された文書特徴量との関係、および、単語ベクトル32上の意味を反映した幾何関係Wの、双方を最大限保存する項である。
上記(15)式に対して簡単な代数変形を適用すると、下記(16)式が得られる。
Figure 0006397378
ここで、下記(17)式は、Gについて凸であるので、Gについて微分してその極値を取ることで、下記(18)式に示すように、一般化固有値問題に帰着できる。
Figure 0006397378
Figure 0006397378
このような一般化固有値問題の解は、反復法などの公知の数値計算アルゴリズムによって求めることができる。Gの要素は、求めたいパラメータAを含んでいるので、Gの要素を用いて特徴量変換関数fを得ることができる。
以上のようにして、特徴量生成装置1は、目的としていた性質を最適に満たすような特徴量変換関数fを得る。
[低次元化]
特徴量変換関数fを求めた後であれば、任意の信号コンテンツ21に対する初期特徴量を低次元化することができる。具体的には、初期特徴量xに対して平均が0になるようにシフトした後、下記(19)式により新たな低次元特徴量を計算する。
Figure 0006397378
<<意味的に関連したコンテンツの発見への適用>>
上記説明した本実施形態に係る特徴量生成装置1を、意味的に関連のある信号コンテンツ21を検索する目的で利用する場合の一例について説明する。ここでは、信号コンテンツ21が画像である場合を例に挙げて説明する。
例えば、コンテンツデータベース2に、N枚のデータベース画像が格納されているとする。上記説明した特徴量変換関数学習処理を通じて特徴量変換関数fを求め、これが記憶部3に格納されているものとし、さらに、上記N枚のデータベース画像に対応する低次元特徴量Z={z1,・・・,zN}が得られているものとする。このとき、目的は新たなクエリ画像が利用者から与えられた時に、当該クエリ画像に意味的に関連のあるデータベース画像を発見することである。
まず、クエリ画像に対して初期特徴量抽出処理を施し、初期特徴量xqを抽出する。その後、上記(19)式に基づいて、特徴量xqを低次元化し、低次元特徴量zqを求める。
この低次元特徴量zqと、低次元特徴量Zのそれぞれと距離を計算し、距離が小さいデータベース画像を意味的に関連のあるデータベース画像として出力する。低次元特徴量zq及び低次元特徴量Zはいずれも低次元であるため、距離計算に要する時間は、低次元化される前の初期特徴量を用いた場合に比べて短くなり、高速に演算することができる。また、物理的な特徴量である初期特徴量とは異なり、本実施形態により得られる低次元特徴量は文書22の持つ意味内容と関連性が高くなるように学習された特徴量変換関数fを介して変換されているため、意味的な関連性の高いデータベース画像を精度良く発見することが可能である。
以上が、本実施形態において、意味的に関連のある信号コンテンツ21を検索する目的で利用する場合一例である。
以上のように、本実施形態によれば、文書特徴量の持つ幾何的な特性を捉えることで、文書22の持つ意味内容をより正確に捉え、これを用いて信号コンテンツ21と文書22の関係性を学習することで、信号コンテンツ21と文書22のペアが少ないような場合であっても、より意味的に関連した信号コンテンツ21の発見が可能となる。
さらに、本実施形態で生成される信号コンテンツ21の低次元特徴量は、元の初期特徴量と比べて非常に低次元であることから、高速な類似コンテンツの発見が可能であり、本実施形態によって(1)高速でありながらも、(2)意味的に類似したコンテンツの発見を可能にする信号コンテンツ21の特徴量を生成可能である。
なお、本実施形態における主要な特徴を満たす範囲内において、任意の用途と構成を取ることができることは言うまでもない。例えば、特徴量変換関数生成処理と特徴量変換処理は分離可能であり、それぞれを成す装置を分けることもできるため、バッチ処理で実行する特徴量変換関数生成処理をサーバ装置に、オンライン処理で実行する特徴量変換処理をスマートフォンなどのクライアント装置に組み込む構成を取ることもできる。この場合の装置構成の一例を図5に示す。
図5に示すように、サーバ装置100は、単語ベクトル学習部101、文書特徴抽出部102、初期特徴量抽出部103、特徴量変換関数生成部104、低次元化部105、及び記憶部300を備える。記憶部300には、特徴量変換関数301及び単語ベクトル302が記憶されている。また、コンテンツデータベース200には、信号コンテンツ201、文書202、関係指示子203、及び低次元特徴量204が記憶されている。サーバ装置100は、コンテンツデータベース200に接続されている。
一方、図5に示すように、クライアント装置400は、初期特徴量抽出部401、低次元化部402、及び記憶部500を備える。記憶部500には、特徴量変換関数501が記憶されている。
ここで、サーバ装置100とクライアント装置400において、共通する構成要素(初期特徴量抽出部、記憶部)はそれぞれ同一の機能を有するように構成し、また、図1に記載した各構成要素と同一名称のものは、図1の場合と同一の機能を有するものとしてよい。さらに、サーバ装置100の記憶部300に記憶されている特徴量変換関数301、及びクライアント装置400の記憶部500に記憶されている特徴量変換関数501は、それぞれ何らかの通信手段で適宜同期されているものとする。
さらに、検索装置800を備える。この検索装置800は、サーバ装置100に組み込まれていても構わないし、外部からサーバ装置100に接続されていても構わない。
この装置構成における処理概要は下記の通りである。
まずサーバ装置100は、上述した特徴量変換関数学習処理を行って、適宜、特徴量変換関数を生成し、クライアント装置400の特徴量変換関数と同期する。さらに、コンテンツデータベース200中のコンテンツに対して、上述した処理と同様の処理を行って、低次元特徴量204を生成し、コンテンツデータベース200に格納する。
一方、クライアント装置400は、利用者からの検索要求、すなわち、新規信号コンテンツ600の入力を受け付けたら、当該信号コンテンツ600に対して低次元特徴量700を生成し、検索装置800に出力する。
検索装置800は、クライアント装置400から低次元特徴量700を受け付けた場合、当該低次元特徴量を用いてコンテンツデータベース200へ検索を掛け、低次元特徴量700に基づいて意味的に関連した信号コンテンツを発見し、発見した信号コンテンツを検索結果900として利用者に出力する。
このようにサーバ装置100及びクライアント装置400を構成することで、サーバ装置100で特徴量変換関数学習処理を実施し、クライアント装置400では特徴量変換処理のみを実施するように構成することができる。
ここで、サーバ装置100及びクライアント装置400をこのように構成するメリットを述べる。一般に、クライアント装置(PC,スマートフォン等)は、サーバ装置と比較して演算能力に乏しいため、特徴量変換関数生成のように演算量が比較的多い処理には適さない場合がある。しかし、このように構成にすれば、特徴量変換関数学習処理は演算能力の高いサーバ装置で適宜実施し、クライアント装置では演算量の少ない特徴量変換処理だけを実施することができる。さらに、通常、ネットワークを介した通信によってデータ容量の多い情報を伝送する場合、伝送時間が掛かるという問題があるが、当該構成によって、伝送するのは情報量の小さい低次元特徴量の伝送でのみで処理が可能となり、検索に対する即応性を高めることができる。
1 特徴量生成装置
2 コンテンツデータベース
3 記憶部
4 信号コンテンツ
5 低次元特徴量
11 単語ベクトル学習部
12 文書特徴量抽出部
13 初期特徴量抽出部
14 特徴量変換関数生成部
15 低次元化部
21 信号コンテンツ
22 文書
23 関係指示子
31 特徴量変換関数
32 単語ベクトル

Claims (5)

  1. 所望の種別の信号コンテンツ及び文書がそれぞれ1つ以上所与であり、前記信号コンテンツ及び前記文書の1つ以上の組の関係性の有無を表す関係指示子が所与である場合に、前記信号コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成方法であって、
    前記文書に含まれる単語の共起に基づいて、共起しやすい単語ほど相互に近い単語ベクトルになるように、各単語及び単語ベクトル間の対応関係を生成する単語ベクトル学習ステップと、
    学習した前記単語ベクトルを用いて、前記文書の文書特徴量を抽出する文書特徴抽出ステップと、
    前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出ステップと、
    前記単語ベクトル及び前記文書特徴量のうちの少なくとも1つを用いて、前記文書同士の前記文書特徴量の文書特徴量空間上の相対的幾何関係を求め、前記初期特徴量、前記相対的幾何関係、及び関係指示子に基づいて、前記初期特徴量および前記文書特徴量の各々を低次元化した低次元特徴量において前記関係指示子によって指示された組同士の線形または非線形な相関を最大化することを要請し、かつ、前記相対的幾何関係が、前記文書特徴量を前記低次元化した後においても保たれることを要請する一般化固有値問題を解くことにより、前記初期特徴量を低次元特徴量に変換するカーネル関数に基づいた特徴量変換関数を生成し、出力する特徴量変換関数生成ステップと、
    を有する特徴量生成方法。
  2. 前記所望の種別の信号コンテンツが所与である場合において、前記信号コンテンツの前記低次元特徴量を生成する特徴量生成方法であって、
    前記信号コンテンツの前記初期特徴量を抽出する初期特徴量抽出ステップと、
    請求項1に記載の特徴量生成方法により生成した前記特徴量変換関数に基づいて、前記初期特徴量を低次元化して出力する低次元化ステップと、
    を有する特徴量生成方法。
  3. 所望の種別の信号コンテンツ及び文書がそれぞれ1つ以上所与であり、前記信号コンテンツ及び前記文書の1つ以上の組の関係性の有無を表す関係指示子が所与である場合に、前記信号コンテンツの低次元特徴量を生成する特徴量変換関数を学習する特徴量生成装置であって、
    前記文書に含まれる単語の共起に基づいて、共起しやすい単語ほど相互に近い単語ベクトルになるように、各単語及び単語ベクトル間の対応関係を生成する単語ベクトル学習部と、
    学習した前記単語ベクトルを用いて、前記文書の文書特徴量を抽出する文書特徴抽出部と、
    前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出部と、
    前記単語ベクトル及び前記文書特徴量のうちの少なくとも1つを用いて、前記文書同士の前記文書特徴量の文書特徴量空間上の相対的幾何関係を求め、前記初期特徴量、前記相対的幾何関係、及び関係指示子に基づいて、前記初期特徴量および前記文書特徴量の各々を低次元化した低次元特徴量において前記関係指示子によって指示された組同士の線形または非線形な相関を最大化することを要請し、かつ、前記相対的幾何関係が、前記文書特徴量を前記低次元化した後においても保たれることを要請する一般化固有値問題を解くことにより、前記初期特徴量を低次元特徴量に変換するカーネル関数に基づいた特徴量変換関数を生成し、出力する特徴量変換関数生成部と、
    を有する特徴量生成装置。
  4. 所望の種別の信号コンテンツが所与である場合において、信号コンテンツの低次元特徴量を生成する特徴量生成装置であって、
    前記信号コンテンツの初期特徴量を抽出する初期特徴量抽出部と、
    請求項3に記載の特徴量生成装置により生成した前記特徴量変換関数に基づいて、前記初期特徴量を低次元化して出力する低次元化部と、
    を有する特徴量生成装置。
  5. コンピュータに、請求項1又は2記載の特徴量生成方法の各ステップを実行させるための特徴量生成プログラム。
JP2015148079A 2015-07-27 2015-07-27 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム Active JP6397378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015148079A JP6397378B2 (ja) 2015-07-27 2015-07-27 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015148079A JP6397378B2 (ja) 2015-07-27 2015-07-27 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Publications (2)

Publication Number Publication Date
JP2017027526A JP2017027526A (ja) 2017-02-02
JP6397378B2 true JP6397378B2 (ja) 2018-09-26

Family

ID=57950614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015148079A Active JP6397378B2 (ja) 2015-07-27 2015-07-27 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム

Country Status (1)

Country Link
JP (1) JP6397378B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6835756B2 (ja) * 2018-01-30 2021-02-24 日本電信電話株式会社 作業特定装置、作業特定方法及びプログラム
JP6893186B2 (ja) 2018-02-16 2021-06-23 日本電信電話株式会社 フレーズベクトル学習装置、方法、及びプログラム
JP7014072B2 (ja) * 2018-07-17 2022-02-01 日本電信電話株式会社 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP7068106B2 (ja) * 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
CN111400546B (zh) * 2020-03-18 2020-12-01 腾讯科技(深圳)有限公司 一种视频召回方法、视频推荐方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4228031B1 (ja) * 2008-06-09 2009-02-25 株式会社リミックスポイント 画像解析装置、画像登録装置および画像検索装置
JP5755516B2 (ja) * 2011-06-17 2015-07-29 セコム株式会社 物体形状推定装置
JP5964784B2 (ja) * 2013-06-10 2016-08-03 日本電信電話株式会社 ディジタルコンテンツ分類装置、ディジタルコンテンツ検索装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2017027526A (ja) 2017-02-02

Similar Documents

Publication Publication Date Title
CA3029411C (en) Video to data
US7124149B2 (en) Method and apparatus for content representation and retrieval in concept model space
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
US11615132B2 (en) Feature amount generation method, feature amount generation device, and feature amount generation program
JP5596648B2 (ja) ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム
Zhang et al. Exploiting mid-level semantics for large-scale complex video classification
JP6368677B2 (ja) 写像学習方法、情報圧縮方法、装置、及びプログラム
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
JP2016066012A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6152032B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
Hong et al. Content-based video-music retrieval using soft intra-modal structure constraint
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6461773B2 (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
Inayathulla et al. Supervised Deep Learning Approach for Generating Dynamic Summary of the Video
Shrivastav et al. Towards an ontology based framework for searching multimedia contents on the web
TWI656448B (zh) 主題提供裝置及其雲儲存檔案提示方法
JP2015201041A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP2015079333A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
Luo et al. Multiple kernel-based multimedia fusion for automated event detection from tweets
JP6283308B2 (ja) 画像辞書構成方法、画像表現方法、装置、及びプログラム
Singh et al. Content-Based Visual Information Retrieval Technique Using Adaptive Deep Learning Algorithms: A Review
Tian et al. Multi-View Feature Learning Based on User Contributed Tag

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180831

R150 Certificate of patent or registration of utility model

Ref document number: 6397378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150