JP6104209B2 - ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム - Google Patents

ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム Download PDF

Info

Publication number
JP6104209B2
JP6104209B2 JP2014079577A JP2014079577A JP6104209B2 JP 6104209 B2 JP6104209 B2 JP 6104209B2 JP 2014079577 A JP2014079577 A JP 2014079577A JP 2014079577 A JP2014079577 A JP 2014079577A JP 6104209 B2 JP6104209 B2 JP 6104209B2
Authority
JP
Japan
Prior art keywords
content
hash value
hash
feature
hash function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014079577A
Other languages
English (en)
Other versions
JP2015201042A (ja
Inventor
豪 入江
豪 入江
新井 啓之
啓之 新井
行信 谷口
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014079577A priority Critical patent/JP6104209B2/ja
Publication of JP2015201042A publication Critical patent/JP2015201042A/ja
Application granted granted Critical
Publication of JP6104209B2 publication Critical patent/JP6104209B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラムに係り、特に、ハッシュ関数を生成するハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラムに関する。
通信環境やコンピュータ、分散処理基盤技術の高度・高品質化により、ネットワークに流通するコンテンツ(画像・映像・音声・文書等)の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
コンテンツの解析においては、類似したコンテンツの発見が重要な役割を果たす。例えば、コンテンツを分類する場合は、同じようなコンテンツは同じカテゴリに分類する。あるいは検索の場合、あるコンテンツをクエリとして与えたとき、このコンテンツに類似したコンテンツを検索することが基本的な要件となる。そのほか、コンテンツ推薦においても利用者がこれまでに閲覧した/閲覧しているコンテンツと類似したコンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、類似したコンテンツを提示することは冗長であるため、これを発見して省くような処理が必要となる。
ここで、類似コンテンツを発見する典型的な手続きについて説明する。まず、コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度に基づいて類似コンテンツを発見する。単純な例を挙げれば、コンテンツが画像や映像であれば、画像(映像フレーム)の色ヒストグラムを特徴量としてその類似度を測ることができる。コンテンツが文書であれば、単語の出現頻度をヒストグラム化したもの(Bag−of−Wordsヒストグラムなどと呼ぶ)を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が1000あれば、1000のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。
しかしながら、前述のように、膨大な量のコンテンツを対象にした場合、計算時間とメモリを大量に消費するという課題があった。
通常、コンテンツの特徴量(ベクトル)の次元は高次元になることが多く、その類似度の計算には膨大な時間を要する。一般に、文書のBag−of−Wordsヒストグラムの次元は、単語の種類(語彙)と同次元になる。画像の色ヒストグラムのような単純な特徴量であっても、一般に数百〜数千次元の実数値ベクトルとなるし、最近用いられるスパース表現やフィッシャーカーネルに基づく特徴表現では、数十万〜数百万次元のベクトルとなることもあり得る。さらに、全てのコンテンツの組に対してその類似度を計算する必要があるため、どのような類似度計算手段を用いようとも、特徴量の次元がD、コンテンツがN個あったとするとO(DN)の計算量を要する。また、即時検索を実行するためには、特徴量あるいはその類似度をメモリに蓄積しておくことが好ましいが、これを行うためにはO(N)のメモリが必要となる。このように、億を超えるオーダのコンテンツを扱う必要がある昨今においては、非現実的な時間とメモリを要するのである。
このような問題を解決するために、従来からいくつかの発明がなされている。
例えば、非特許文献1に開示されている技術では、近接する任意の2つのコンテンツ(特徴量)において、元の特徴量の類似度と衝突確率が等しくなるようなハッシュ関数群を生成する。典型的な類似度としてコサイン類似度を考えており、その場合のハッシュ関数生成の基本的な手続きは、特徴量空間にランダムな超平面を複数生成することによる(random projectionと呼ばれる)。各超平面のどちら側に特徴量が存在するかによって特徴量をハッシュ化し、全てのコンテンツ間で類似度を求めることなく、近似的に類似コンテンツを発見することができる。
また、非特許文献2に開示されている技術は、特徴量の分布を捉え、その分布に対して最適なハッシュ値を構成する。具体的には、特徴量空間における多様体構造を捉え、その多様体構造を最適に保存するバイナリ空間(ハッシュ空間)への非線形な埋め込みを求めることで、元の高次元な特徴量を、低ビットなハッシュ値に変換する。そのハッシュ値の類似性を評価することで、高速な類似コンテンツの発見を実現することができる。
また、特許文献1に開示されている技術では、コンテンツの特徴量と、異なる2つのコンテンツを関連付けるべきか否かを示す関連情報(正解データ)に基づいてハッシュ関数を求め、このハッシュ関数を基に特徴量を低ビットなハッシュ値に変換する。
特開2013−68884号公報
M. Datar, N. Immorlica, P. Indyk, V.S. Mirrokni,"Locality-Sensitive Hashing Scheme based on p-Stable Distributions",In Proceedings of the Twentieth Annual Symposium on Computational Geometry,2004,p.253-262. 入江 豪、Zhenguo Li、Shih−Fu Chang、「構造を保存するハッシング」、画像の認識・理解シンポジウム、2013.
非特許文献1、2に開示されている技術では、元のコンテンツをコンパクトなハッシュ値に変換することで、非常に高精度かつ高速な類似コンテンツの発見を可能にしていた。しかしながら、いずれの技術もそのハッシュ値は、コンテンツの特徴量の情報のみによって求められるのであり、コンテンツの意味的観点に即したハッシュ値を生成するものではなかったため、十分な精度を得られないという問題があった。
一方、特許文献1に開示されている技術では、コンテンツの特徴量と、異なる2つのコンテンツを関連付けるべきか否かを示す関連情報(正解データ)に基づいてハッシュ関数を求めるものであり、関連情報に即したハッシュ値を生成することができる。
しかしながら、コンテンツを関連付けるべきか否かという関連情報と、コンテンツの意味的観点は必ずしも同等の情報を表すものではなく、後者はより多様でさまざまなものが存在する。分かりやすい一例をあげると、例えば、「赤いりんご」、「青りんご」、「みかん」、「マグロ」の合計4枚の画像を有していたとする。特許文献1の技術では、どの画像とどの画像が関連しているか(またしていないか)を関連情報として与えるが、この4枚の画像を考えた場合、同じ果物である「赤いりんご」と「青りんご」は関連しているとし、それ以外は関連していないとして関連情報を与える。あるいは、「赤いりんご」と「青りんご」と「みかん」は果物であるため、これらを関連しているとし、「マグロ」のみを関連していないと見做して関連情報を与えるという選択も採りうるであろう。一方で、「赤いりんご」と「マグロ」は、ともに青森県の名産であるという観点に立てば、弱い関連を持っているという見方もできるはずである。すなわち、「赤いりんご」を様々な意味的観点から見るに、果物という観点で「青りんご」と強く関連し、「みかん」と弱く関連し、青森名産という観点で弱く関連しているのである。特許文献1の技術では、こういった多様な観点、さらに関連の強弱を表すことは不可能であった。
然るに、現在に至るまで、いずれの技術によっても、高速かつ省メモリでありながら、多様な意味的観点に基づいてハッシュ値を構成することで高精度な類似コンテンツの発見を実現することはできないという問題があった。
本発明は、上記の事情を鑑みてなされたもので、コンテンツの意味を考慮したハッシュ値を求めるためのハッシュ関数を生成することができるハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係るハッシュ関数生成方法は、特徴抽出手段、及びハッシュ関数生成手段を含むハッシュ関数生成装置におけるハッシュ関数生成方法であって、前記特徴抽出手段が、複数のコンテンツの各々について、前記コンテンツから特徴量を抽出するステップと、前記ハッシュ関数生成手段が、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するステップと、を含んで構成されている。
本発明に係るハッシュ関数生成装置は、複数のコンテンツの各々について、前記コンテンツから特徴量を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するハッシュ関数生成手段と、を含んで構成されている。
上記ハッシュ関数生成方法及び上記ハッシュ関数生成装置における、前記ハッシュ関数生成手段は、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記特徴量が存在する空間である特徴量空間において、前記コンテンツの前記特徴量を、前記コンテンツの前記特徴量の近傍に存在する他のコンテンツの前記特徴量に対応するハッシュ値の線形結合で表した多様体構造に基づいて求められる前記コンテンツの前記特徴量に対応するハッシュ値と、前記コンテンツから抽出された特徴量に対応するハッシュ値との距離が小さくなり、かつ、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するようにすることができる。
また、上記ハッシュ関数生成方法及び上記ハッシュ関数生成装置における、前記ハッシュ関数生成手段は、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記意味ベクトルが存在する空間である意味ベクトル空間において、前記コンテンツの前記意味ベクトルを、前記コンテンツの前記意味ベクトルの近傍に存在する他のコンテンツの前記意味ベクトルに対応するハッシュ値の線形結合で表した多様体構造に基づいて求められる前記コンテンツの前記意味ベクトルに対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなり、かつ、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するようにすることができる。
本発明における前記ハッシュ値を、バイナリ値とすることができる。
本発明に係るハッシュ値生成方法は、特徴抽出手段、及びハッシュ値生成手段を含むハッシュ値生成装置におけるハッシュ値生成方法であって、前記特徴抽出手段が、コンテンツから特徴量を抽出するステップと、前記ハッシュ値生成手段が、前記特徴抽出手段によって抽出された前記特徴量と、本発明のハッシュ関数生成方法によって生成された前記特徴量に対応するハッシュ値を求めるための前記ハッシュ関数とに基づいて、前記コンテンツの特徴量に対応するハッシュ値を生成するステップと、を含んで構成されている。
本発明に係るハッシュ値生成装置は、コンテンツから特徴量を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された前記特徴量と、本発明のハッシュ関数生成装置によって生成された前記特徴量に対応するハッシュ値を求めるための前記ハッシュ関数とに基づいて、前記コンテンツの特徴量に対応するハッシュ値を生成するハッシュ値生成手段と、を含んで構成されている。
本発明のプログラムは、本発明のハッシュ関数生成方法、又は本発明のハッシュ値生成方法の各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明のハッシュ関数生成方法、装置、及びプログラムによれば、複数のコンテンツの各々の特徴量と、複数のコンテンツの各々について与えられたコンテンツの意味を表す意味ベクトルとに基づいて、複数のコンテンツの各々について、当該コンテンツから抽出された特徴量に対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成することにより、コンテンツの意味を考慮したハッシュ値を求めるためのハッシュ関数を生成することができる、という効果が得られる。
また、本発明のハッシュ値生成方法、装置、及びプログラムによれば、コンテンツから抽出された特徴量と、生成されたハッシュ関数とに基づいて、コンテンツの特徴量に対応するハッシュ値を生成することにより、コンテンツの意味を考慮したハッシュ値を用いて、コンテンツと類似するデータを精度よく発見することができる、という効果が得られる。
本発明の第1の実施の形態に係る情報処理装置の構成を示す概略図である。 ハッシュ関数を説明するための説明図である。 特徴量空間における多様体構造を説明するための説明図である。 特徴量空間における多様体構造を考慮したハッシュ関数を説明するための説明図である。 特徴量空間における多様体構造と意味ベクトル空間における多様体構造とを説明するための説明図である。 本発明の第1の実施の形態に係る情報処理装置におけるハッシュ関数生成処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る情報処理装置におけるハッシュ値生成処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態に係る情報処理システムの構成を示す概略図である。 ハッシュ値によって対応付けられたコンテンツの一例を示す図である。
本発明の実施の形態では、高速かつ省メモリでありながらも高精度な類似コンテンツ発見を実現するためのハッシュ関数の生成及びハッシュ値の生成を行う情報処理装置に本発明を適用した場合を例に説明する。以下、図面を参照して本発明の実施の形態を詳細に説明する。
<第1の実施の形態>
<システム構成>
本発明の実施の形態では、コンテンツに対して、複数の意味的観点およびその関連の強さを考慮したハッシュ関数とハッシュ値とを生成する。本発明の第1の実施の形態に係る情報処理装置1は、ハッシュ関数を生成し、生成されたハッシュ関数を用いてハッシュ値を生成する。この情報処理装置1は、CPUと、RAMと、後述するハッシュ関数生成処理ルーチン及びハッシュ値生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、情報処理装置1は、入力部2と、演算部3と、出力部4とを備えている。
また、図1に示すコンテンツデータベース5には、複数のコンテンツが登録されている。コンテンツデータベース5には、少なくともコンテンツ自体、あるいは、当該コンテンツデータの所在を一意に示すアドレスが格納されている。コンテンツは、例えば、文書であれば文書ファイル、画像であれば画像ファイル、音であれば音ファイル、映像であれば映像ファイルなどであり、好ましくは、コンテンツデータベース5には、更に、各コンテンツのメディア種別とそれ自体を一意に識別可能な識別子が格納されているものとする。
また、図1に示す意味ベクトルデータベース6には、コンテンツデータベース5に登録された各コンテンツに対応する意味ベクトルが格納されているものとする。
意味ベクトルは、コンテンツの意味を表す。また、意味ベクトルは、コンテンツごとに対応して与えられるベクトルであり、一つ以上の意味概念に対して当該コンテンツがどの程度の関連を持つかをベクトルとして表現したものである。例えば、上記例では意味ベクトルは「りんご」、「果物」、「青森」の3つの意味概念を表す3次元のベクトルと定めることができ、例えば
「赤いりんご」は{りんご:1}、{果物:1}、{青森:0.9}―>(1,1,0.9)
「青りんご」は{りんご:1}、{果物:1}、{青森:0.1}―>(1,1,0.1)
「みかん」は{りんご:0}、{果物:1}、{青森:0}―>(0,1,0)
「マグロ」は{りんご:0}、{果物:0}、{青森:0.7}―>(0,0,0.7)
などと定めることができる。上記の3次元の意味ベクトルによって、「赤いりんご」と「青りんご」の距離は(1−1)+(1−1)+(0.9−0.1)=0.64と計算できる。同様に、「赤いりんご」と「みかん」の距離は1.81、「赤いりんご」と「マグロ」の距離は2.04と求めることができ、多様な観点に基づく意味的な差異を柔軟に表現することができる。
ここで、本発明の実施の形態において最も重要な点は、意味的観点を柔軟に表現できる意味ベクトルを取り入れたハッシュ関数およびハッシュ値を求めることができる点にある。上記特許文献1の技術によっては、どのコンテンツとどのコンテンツが関連しているか、という確定的かつ画一的な関連情報しか考慮できず、このように柔軟な意味ベクトルを取り入れてハッシュ関数およびハッシュ値を求めることはできない。
意味ベクトルデータベース6が所与でない場合には、別途意味ベクトルデータベース入力部を備えていても構わない。意味ベクトルデータベース入力部は、意味ベクトルの各次元(要素)に対応する意味概念と各要素の値を人手、あるいは、機械的に与えるための入力装置であり、人手によって与える場合にはユーザインタフェース(キーボードやポインティングデバイス等)を備えた汎用コンピュータ、機械的に与える場合には、例えばインターネットに接続可能な汎用コンピュータによって構成されているものとすればよい。
人手により与える場合には、利用者はユーザインタフェースを通じて、先行して示した一例のように、コンテンツの内容に関連の深いと想定される意味概念をリストしておき、各コンテンツがどの意味概念とどの程度関連しているかを、例えば0〜1の実数値で与えるものとすればよい。
また、機械的に与える場合の例として、例えばWebページから画像を収集するような場合があげられる。最も単純には、例えば同一Webページ内にある画像と文書は関連していると見做すという前提のもと、文書中に含まれる特徴的な単語を抽出し、これを意味概念として用いてもよい。特徴的な単語の抽出には、いかなる公知の方法を用いてもよいが、単純にはStopwords(助詞などの情報量の低い単語)をルールベースで除去した後、Document Frequency(DF)と呼ばれる各単語を含む文書数の高い/低い単語を除去することで実行してもよい。
あるいは、ブログやニュースサイト、マイクロブログ、SNS等、特定のWebページには、タグなどと呼ばれる分類キーワードが付与されている場合もある。このときにはこれらを直接意味概念として用いても構わない。
その他、メタデータとして、例えばコンテンツの内容を表現するもの(コンテンツのタイトル、概要文、キーワード)、コンテンツのフォーマットに関するもの(コンテンツのデータ量、サムネイル等のサイズ)などが、意味ベクトルデータベース6に格納されていてもよく、これらを意味ベクトルとして利用してもよい。
なお、意味ベクトルが機械的に与えられる場合、人手をかけることなく意味ベクトルが得られるというメリットがある。
情報処理装置1は、コンテンツデータベース5、及び意味ベクトルデータベース6と通信手段を介して接続され、入力部2、出力部4を介して相互に情報通信し、コンテンツデータベース5、及び意味ベクトルデータベース6に登録されたコンテンツに基づいてハッシュ関数を生成するハッシュ関数生成処理と、生成したハッシュ関数を用いてコンテンツを複数のバイナリ値に変換するハッシュ値生成処理を行う。
また、コンテンツデータベース5、及び意味ベクトルデータベース6は、情報処理装置1の内部にあっても外部にあっても構わず、通信手段は任意の公知のものを用いることができるが、本実施形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。コンテンツデータベース5、及び意味ベクトルデータベース6は、いわゆるRDBMS(Relational Database Management System)などで構成されているものとしてもよい。
情報処理装置1の各部、コンテンツデータベース5、及び意味ベクトルデータベース6は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは情報処理装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
次に、図1に示す情報処理装置1の各部について説明する。
入力部2は、コンテンツデータベース5から、複数(N個)のコンテンツを取得する。また、入力部2は、検索クエリとしてのコンテンツの入力を受け付ける。また、入力部2は、意味ベクトルデータベース6から、N個のコンテンツの各々について与えられた意味ベクトルを取得する。
演算部3は、特徴抽出部30と、ハッシュ関数生成部32と、ハッシュ関数記憶部34と、ハッシュ値生成部36とを備えている。
特徴抽出部30は、入力部2によって受け付けたN個のコンテンツの各々に対し、当該コンテンツから特徴量を抽出する。
また、特徴抽出部30は、入力部2によって受け付けた検索クエリとしてのコンテンツから、特徴量を抽出する。
特徴抽出部30における特徴量を抽出する処理は、コンテンツのメディア種別に依存する。例えば、コンテンツが文書であるか、画像であるか、音であるか、映像であるかによって、抽出するまたは抽出できる特徴量は変化する。ここで、各メディア種別に対してどのような特徴量を抽出するかは、本実施の形態の要件として重要ではなく、一般に知られた公知の特徴抽出処理を用いてよい。具体的には、あるコンテンツから抽出された次元を持つ数値データ(スカラー又はベクトル)であれば、あらゆる特徴量に対して有効である。したがって、ここでは、本実施形態に適する、各種コンテンツに対する特徴抽出処理の一例を説明する。
コンテンツが文書である場合には、文書中に出現する単語の出現頻度を用いることができる。例えば、公知の形態素解析を用いて、名詞、形容詞等に相当する単語ごとに、その出現頻度を計数すればよい。この場合、各文書の特徴量は、単語種別と同じだけの次元を持つベクトルとして表現される。
コンテンツが画像である場合には、例えば、明るさ特徴、色特徴、テクスチャ特徴、コンセプト特徴、景観特徴、形状特徴などを抽出する。明るさ特徴は、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像の特徴量は、V値の量子化数(例えば、16ビット量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴は、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14などとすればよく、この場合、3軸の合計ビン数は、4×14×14=784、すなわち784次元のベクトルとなる。
テクスチャ特徴としては、濃淡ヒストグラムの統計量(コントラスト)やパワースペクトルなどを求めればよい。あるいは、局所特徴量を用いると、色や動きなどと同様、ヒストグラムの形式で抽出することができるようになるため好適である。局所特徴としては、例えば下記の参考文献1に記載されるSIFT(Scale Invariant Feature Transform)や、下記の参考文献2に記載されるSURF(Speeded Up Robust Features)などを用いることができる。
[参考文献1]D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004
[参考文献2]H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
これらによって抽出される局所特徴は、例えば128次元の実数値ベクトルとなる。このベクトルを、予め学習して生成しておいた符号長を参照して、符号に変換し、その符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、参考文献3に記載のスパース表現や、参考文献4、5に記載のフィッシャーカーネルに基づく特徴表現などを利用してもよい。
[参考文献3]Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, “Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献4]Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献5]Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
結果として生成される特徴量は、いずれの場合にも、符号長の符号数に依存した長さを持つ実数値ベクトルになる。
コンセプト特徴とは、画像中に含まれる物体や、画像が捉えているイベントのことである。任意のものを用いてよいが、例を挙げれば、「海」、「山」、「ボール」などのようなものである。もし、ある画像に「海」が映っていた場合、その画像は「海」コンセプトに帰属する画像であるという。その画像が、各コンセプトに帰属するか否かは、コンセプト識別器を用いて判断することができる。通常、コンセプト識別器はコンセプト毎に一つ用意され、画像の特徴量を入力として、その画像があるコンセプトに帰属しているか否かを帰属レベルとして出力する。コンセプト識別器は、予め学習して獲得しておくものであり、決められた画像特徴、例えば先に述べた局所特徴と、予め人手によって、その画像がどのコンセプトに帰属しているかを表した正解ラベルとの関係を学習することによって獲得する。学習器としては、例えばサポートベクターマシンなどを用いればよい。コンセプト特徴は、各コンセプトへの帰属レベルをまとめてベクトルとして表現することで得ることができる。この場合、生成される特徴量はコンセプトの数と同数の次元を持つベクトルとなる。
景観特徴は、画像の風景や場面を表現した特徴量である。例えば参考文献6に記載のGIST記述子を用いることができる。GIST記述子は画像を領域分割し、各領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現されるが、この場合、生成される特徴量は、フィルタの種類(分割する領域の数とオリエンテーションの数)に依存した長さのベクトルとなる。
[参考文献6]A. Oliva and A. Torralba, “Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006
形状特徴は、画像に写る物体の形状を表す特徴量である。例えば参考文献7に記載のHOG特徴量やエッジヒストグラムを用いることができる。
[参考文献7]N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection", IEEE Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005
コンテンツが音である場合には、音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴などを抽出する。音高特徴は、例えばピッチを取るものとすればよく、下記の参考文献8に記載される方法などを用いて抽出することができる。この場合、ピッチを1次元ベクトル(スカラー)として表現するか、あるいはこれをいくつかの次元に量子化しておいてもよい。
[参考文献8]古井貞熙,“ディジタル音声処理,4.9ピッチ抽出”,pp.57−59,1985
音圧特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。いずれにしても、音圧を計算するバンドの数に依存した長さのベクトルとなる。
スペクトル特徴としては、例えばメル尺度ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)を用いることができる。
リズム特徴としては、例えばテンポを抽出すればよい。テンポを抽出するには、例えば下記の参考文献9に記載される方法などを用いることができる。
[参考文献9]E.D. Scheirer, “Tempo and Beat Analysis of Acoustic Musical Signals ", Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998
発話特徴、音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば下記の参考文献10に記載される方法などを用いればよい。
[参考文献10]K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, “Video Handling with Music and Speech Detection", IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998
音イベント特徴としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには、例えば下記の参考文献11に記載される方法などを用いればよい。
[参考文献11]国際公開第2008/032787号
コンテンツが映像である場合、映像は、一般に画像と音のストリームであるから、上記説明した画像特徴と音特徴を用いることができる。映像中のどの画像、音情報を分析するかについては、例えば、予め映像をいくつかの区間に分割し、その区間ごとに1つの画像、音から特徴抽出を実施する。
映像を区間に分割するには、予め決定しておいた一定の間隔で分割するものとしてもよいし、例えば下記の参考文献12に記載される方法などを用いて、映像が不連続に切れる点であるカット点によって分割するものとしてもよい。
[参考文献12]Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, “Structured Video Computing", IEEE Multimedia, pp.34-43, 1994
映像を区間に分割する場合には、望ましくは、上記の後者の方法を採用する。映像区間分割処理の結果として、区間の開始点(開始時刻)と終了点(終了時刻)が得られるが、この時刻毎に別々の特徴量として扱えばよい。
上記説明した特徴量の中から、一つあるいは複数を利用してもよいし、その他の公知の特徴量を用いるものとしてもよい。
ハッシュ関数生成部32は、特徴抽出部30によって抽出されたN個のコンテンツの各々の特徴量と、入力部2によって取得したN個のコンテンツの各々について与えられた意味ベクトルとに基づいて、ハッシュ関数を生成する。ハッシュ関数は、特徴量に対応するハッシュ値を求めるためのハッシュ関数である。
具体的には、あるコンテンツiから抽出された特徴量をx∈Rと表し、特徴量xのコンテンツの特徴量次元はDであるとき、ハッシュ関数生成部32は、特徴量xに対して、h:R→{−1,1}となるハッシュ関数の集合を求める。{−1,1}と{0,1}とは情報量という観点で本質的に差異がないことに注意すれば、各hによって、特徴量x∈Rは0または1を取るバイナリ値に写像されるから、特徴量xは、ハッシュ関数集合H={h,h,・・・,h}によってB個のバイナリ値、すなわち、Bビットのハッシュ値に変換されることを意味する。本実施の形態では、ハッシュ値が、複数のバイナリ値によって構成される場合を例に説明する。
本発明の実施の形態における目的は、このハッシュ値によって、異なるメディア種別であっても類似度の計測を可能にしたうえ、さらに時間のかかる類似度計算を省略することである。したがって、ここで生成するハッシュ関数と、それにより生成されるハッシュ値は、次の2つの性質を持つ。
(A)元の空間Rでの類似度を表すハッシュ値へと変換する。すなわち、高い類似度を持つコンテンツほど、ハッシュ値の距離(ハミング距離)が近くなる。
(B)意味ベクトルの近いコンテンツ同士は、ハッシュ値の距離が近くなる。
本実施の形態の一例では、ハッシュ関数として(1)式で示す線形関数に基づくハッシュ関数を適用する。
ここで、sign(x)は符号関数であり、x≧0のとき1、x<0のとき−1をとる関数である。また、w∈R、b∈Rのパラメータである。このハッシュ関数において、未知のパラメータはwとbの二つだけである。
ここで、仮にx(i=1,2,・・・,N)が平均0に正規化されているとき、b=0としても一般性を失わない。xを0に正規化するには、xの平均を、各xから減算すればよいのであり、これはx∈Rにおいて常に可能であることから、b=0と決定できる。したがって、以降、xの平均は0に正規化されているとし、上記(1)式を(2)式のように定義しなおして説明する。
このハッシュ関数の定義によれば、ハッシュ関数を構成する関数φ内にあるパラメータwを定めることで、ハッシュ関数を一意に定めることができる。したがって、本ハッシュ関数生成処理の目的は、このw(k=1,2,…,B)を求めることである。
ここで、上記(2)式のように規定されるハッシュ関数の意味は、幾何的には図2を用いて説明できる。図2には、特徴量空間R上に、各コンテンツ(i=1,2,・・・,N)から抽出された特徴量x(i=1,2,・・・,N)が分布している。図2では、便宜上2次元のように図示しているが、実際にはD次元の空間である。ここでハッシュ関数を構成する関数φ(x)は、この特徴量空間上の原点を通る直線(実際はD−1次元の超平面)を表す。h(x)は、本質的には符号関数であるから、その値は、特徴量の点が、ハッシュ関数を構成する関数φ(x)の直線のどちら側にあるかによって、1または0をとる。すなわち、上記(2)式によって定義されるハッシュ関数41は、特徴量空間を直線によって1と0の2つの領域に分割する関数である。ここで、wはこの直線の傾きに対応し、wが変化すれば、分割する角度が変化することになる。
前述した(A)、(B)の2つの性質に合うハッシュ関数となるように、wを求めるには、
(A’)類似したコンテンツ群が、上記図2の例における直線の片側に集まるように直線を引き(すなわち、wを決める)、
(B’)なおかつ、意味ベクトルが示す関連するコンテンツ同士が、ハッシュ値の空間において近い値を持つようにすればよい。
まず、(A’)の性質を満たすための方法を説明する。メディアコンテンツにおいては、前述した特徴量の種別によらず、類似したコンテンツ同士の特徴量や意味ベクトルの分布は滑らかな多様体構造を形成することがよく知られている。多様体構造とは、簡単に言えば滑らかな変化である。分かりやすく図3を用いて説明すると、各特徴量は大まかに、曲線51と曲線52の滑らかに変化する2本の曲線上に分布しており、同じ曲線上の点同士は互いに類似していることが多い。上記図3でいうところの、白丸(○)と黒丸(●)で表されている特徴量は、同色であれば互いに類似したコンテンツの特徴量となる。
さらに、意味ベクトルによって形成される意味ベクトル空間を考えた場合にも同じことが言える。
この知見に基づけば、これらの特徴量空間あるいは意味ベクトル空間において類似したコンテンツ群が直線の片側に集まるように直線を引けばよい。この観点に基づけば、図4に示す直線の内、直線61のような直線は好ましくなく、2群の間を通る直線62のような直線を規定するハッシュ関数のパラメータwを求めればよいことになる。
続いて、(B’)の性質を満たすための方法について、図5を用いて説明する。図5の例では、特徴量によって形成される特徴量空間と、各コンテンツと対応して存在する意味ベクトルによって形成される意味ベクトル空間とを対応づけて示し、特徴量を丸、意味ベクトルを三角で表している。仮に、それぞれの特徴量空間と意味ベクトル空間において、性質(A’)を満たすように、すなわち、多様体構造を分離するような直線71、72がそれぞれ得られているとし、さらに、コンテンツごとの特徴量と意味ベクトルの対応関係が破線73〜76で示すように得られているとする(図中では3つのコンテンツのみにしか対応関係を示していないが、実際には他のコンテンツに対しても同様の対応関係があると考えてよい)。
このとき、直線71、72によって分離されている特徴量および意味ベクトルのうち、対応している特徴量/意味ベクトル同士が、互いに同じハッシュ値を持つようにハッシュ関数のパラメータwを求めれば、特徴量の意味においても、意味ベクトルの意味においても類似したハッシュ値を生成でき、(B’)の性質を満たすようなになる。例えば、図5の例では白丸と白三角(△)、黒丸と黒三角(▲)がそれぞれ同じハッシュ値を持てばよい。
以上示した2つの方法に基づき、本実施形態の一例では、前述の(A’)と(B’)の2つの性質を満たすパラメータwを求める。本実施形態の一例では、次の2つの手続きによってwを求める。第1の手続きは、特徴量空間および意味ベクトル空間のそれぞれにおける多様体構造を捉える。第2の手続きは、特徴量空間および意味ベクトル空間それぞれの多様体構造、および、コンテンツ関係の対応に基づいて、wを求める。
以下、それぞれの手続きについて詳述する。第1の手続きは、特徴量、意味ベクトルによらず同じであり、双方に対してそれぞれ同じ処理を適用すればよいので、ここでは特徴量の場合についてのみ述べる。例えば、上記非特許文献2に記載の公知の方法を用いることができる。以下、上記非特許文献2に記載の方法を説明する。
多様体とは、大まかに言えば滑らかな図形であり、言い換えれば局所的に見ればユークリッドな空間とみなせる。例えば、上記図3に示すような曲線のように、いくつかの直線の集まりとして近似されるようなものであると解釈してもよい。このことは、多様体とは局所的に見れば線形で近似される構造を持つことを表しているのであり、言い換えれば、多様体上の任意の点は、同じ多様体上にあるいくつかの近傍点に基づく、近傍の相対的幾何関係によって表現できることを意味している。
上記非特許文献2では、次の問題を解くことによって多様体を発見する。
ここで、第一項は特徴量xを、そのユークリッド空間上での近傍集合ε(x)に含まれる特徴量インデクスに対応する特徴量の集合{x|j∈ε(x)}によって線形結合で表したときの誤差であり、sijはその際の結合重みである。第二項は、結合重みのベクトルs={si1,・・・,si|ε(xi)|}に対して、その要素がスパースであることを要請する、すなわち、ベクトル中のいくつかの限られた要素にのみ非ゼロの値を持つように正則化するスパース項であり、vはxに近いほど小さな値を持つような定数を要素として持つベクトルである。ベクトルvの要素vijは、例えば、(4)式のように表わされる。なお、自分自身のベクトルについての重みsi=jは0である。
つまるところ、この問題を解くことによってある特徴量xをできる限り少数の近傍点の線形結合として表した場合の結合重みsを求めることができるが、これは多様体を表現するいくつかの近傍点と、その相対的幾何関係(結合重み)を表しているに他ならない。この問題は、公知のスパース問題ソルバによって解決することができる。例えば、SPAMSなどのオープンソースソフトウェアを用いてもよい。
なお、近傍集合ε(x)は、いかなる方法を用いて求めてもよい。最も単純な方法は、各特徴量xに対して、その他全ての点xj≠iとのユークリッド距離を求め、近いものからt個を近傍集合とするものである。tは任意の正の整数でよく、例えばt=10などとしてもよい。
しかし、この方法では1つの特徴量に対してその他全ての特徴量との距離を求める必要があるため、未知の特徴量xに対して近傍集合を求めようとすると、O(N)の計算時間が掛かるという問題がある。したがって、高速に計算できる手法を用いることが好ましい。例えば、クラスタリングやハッシュによる方法を用いることができる。
クラスタリングを用いる場合、例えばk−means法などにより全N個の特徴量をクラスタリングし、L個のクラスタ(L<<N)と、各クラスタを代表するL個の代表特徴量(クラスタ中心)を求めておく。Lの値は任意の正の整数としてよいが、例えば、L=128などとすればよい。この結果、各特徴量がどのクラスタに属するか、および、当該クラスタの代表特徴量を得ることができる。この前提のもと、下記の手続きによって、未知の特徴量xに対する近傍集合を得ることができる。まず、特徴量xに対して、L個の代表特徴量との距離を計算し、最も近いクラスタを特定する。次に、当該クラスタに属する全ての特徴量を、近傍集合ε(x)として得る。この処理に必要な計算時間はO(L)であり、L<<Nであることから、単純な方法に比べて高速に近傍集合を得ることができる。
また、ハッシュを用いる場合、例えば上記非特許文献1などの方法によって、全N個の特徴量に対するハッシュ値を求めておく。この前提のもと、未知の特徴量xのハッシュ値を求め、これと同一またはハミング距離上近い値を持つハッシュ値を持つ(すなわち、同一あるいはそれに近接するバケットに属する)全ての特徴量を、近傍集合ε(x)として得ればよい。この処理に必要な計算時間は参照するバケットの数に依存するが、一般に参照バケット数はNよりも小さいことから、こちらも高速に近傍集合を得ることができる。なお、非特許文献1の方法によるハッシュ値は、ユークリッド空間上のコサイン類似度を保存するようなハッシュ関数であり、ユークリッド空間上の角度が近ければ近いほどハッシュ値が衝突する確率が高くなる。一方で、本実施形態により生成されるハッシュ値は、ユークリッド空間上ではなく、多様体上の近さ(測地線距離に基づく近さ)を保存するようなハッシュ関数であり、特徴量の分布をより正確に捉えたハッシュ値を生成できる。
以上の手続きを、特徴量、意味ベクトル双方に対して適用すればよい。
次に、第2の手続きについて説明する。第1の手続きによって得た特徴量のs(i=1,2,・・・,N)と同様の近傍の相対的幾何関係を持つハッシュ空間(埋め込み)を求めることによって、wを求める。
以降、i番目のコンテンツの特徴量をこれまで同様x、意味ベクトルをyと表すものとする。
具体的には、下記の問題を解決する。便宜上、特徴量x(i=1,2,・・・,N)および意味ベクトルy(i=1,2,・・・,N)を並べた行列X={x,・・・,x}、Y={y,・・・,y}を定義する。さらに、ハッシュ関数のパラメータw(k=1,2,…,B)の他、意味ベクトルに対する疑似的なハッシュ関数のパラメータu(k=1,2,…,B)を導入し、これらを並べた行列W={w,・・・,w}、U={u,・・・,u}を定義する。
以下の問題を解く。
ここで、S/Sは特徴量/意味ベクトルそれぞれに対するsijを要素に持つ行列(sijについては前記第1の手続きによって求められている)である。
、Jは、それぞれ特徴量、意味ベクトルの空間における多様体構造を保存するための関数であり、例えば、(6)式のように定義することができる。
上記式(6)における多様体構造は、特徴量が存在する空間である特徴量空間において、コンテンツの特徴量を、当該コンテンツの特徴量の近傍に存在する他のコンテンツの特徴量に対応するハッシュ値の線形結合で表したものである。
上記式(6)は、元々の特徴量空間における多様体構造、すなわち、sijとその線形結合を、ハッシュ関数を構成する関数
によって変換された先においてもそのまま再構築することを要請するものであり、上記(3)式とも相似性を持つものである。すなわち、上記(5)式に代入されたとき、ハッシュ値に変換された先でも元の空間と同様の多様体構造を持つようにWを決定することができる。上記はJの例について示したが、Jについても全く同様でよい。Jについての式を(8)式に示す。
上記(8)式における多様体構造は、意味ベクトルが存在する空間である意味ベクトル空間において、コンテンツの意味ベクトルを、当該コンテンツの意味ベクトルの近傍に存在する他のコンテンツの意味ベクトルに対応するハッシュ値の線形結合で表したものである。
上記(5)式におけるJXYは、同一コンテンツの特徴量と意味ベクトルとの関係を保存するための関数であり、例えば、(9)式のように定義することができる。
この式では、同一コンテンツの特徴量と意味ベクトルを、変換先で同一の値にするよう要請するものである。上記式は、特徴量と意味ベクトルのペアについて、それぞれ上記(7)式によって与えられるハッシュ関数を構成する関数により変換された値の距離を表している。したがって、これを上記(5)式に代入することで、できる限りその距離を小さくするようにW(およびU)を決定することができる。
従って、ハッシュ関数生成部32は、上記(5)式、(6)式、(8)式、(9)式に従って、N個のコンテンツの各々について、当該コンテンツから抽出された特徴量に対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなり、かつ、N個のコンテンツの各々について、多様体構造に基づいて求められる当該コンテンツの特徴量に対応するハッシュ値と、当該コンテンツから抽出された特徴量に対応するハッシュ値との距離が小さくなり、かつ、N個のコンテンツの各々について、多様体構造に基づいて求められる当該コンテンツの意味ベクトルに対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する。
以上のように定義された上記(6)式、(8)式及び(9)式を、上記(5)式に代入し、代数変形を適用すると、次の(10)式の問題が得られる。
ここで、
である。上記(10)式は、W(およびU)、すなわちPについて凸であるので、Wについて微分して極値を取ることで、次の一般化固有値問題に帰着される。
なお、上記式(12)におけるηは固有値を表す。このような一般化固有値問題の解は、反復法やべき乗法などの公知の方法によって求めることができる。
このようにして求めたW(およびU)は、元の空間における多様体構造を最適に保存し、かつ、同一のコンテンツと意味ベクトルとの関係を可能な限り同じハッシュ値に変換するものである。したがって、目的としていた2つの性質(A’)、(B’)を最適に満たすようなWを得ることができる。
新たなハッシュ値を生成する際には、上記(7)式を計算した後、その符号を調べればよいだけである。この計算に必要となるメモリ量は、wとxそれぞれを格納するに必要なメモリ量のみであり、仮に、特徴量が浮動小数点表示であり、次元Dが100の場合800B程度、仮に次元Dが100000程度になったとしても高々800KBと、現存する一般的なコンピュータにおいても極めて容易に蓄積できるメモリ量に抑えることができる。したがって、この方法によって、多様体の構造を捉えることによる高い精度でありながら、高速かつ省メモリなハッシュ値生成が可能である。
ハッシュ関数生成部32は、特徴抽出部30によって抽出されたN個のコンテンツの各々の特徴量と、入力部2によって受け付けたN個のコンテンツの各々について与えられたコンテンツの意味ベクトルとに基づいて、上記(10)式、(11)式、及び(12)式に従って、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する。
ハッシュ関数記憶部34には、ハッシュ関数生成部32によって生成された特徴量に対応するハッシュ値を求めるためのハッシュ関数が格納される。上記の処理詳細によって生成された特徴量に対応するハッシュ値を求めるためのハッシュ関数、すなわち、具体的には、全てのメディア種別におけるWが、ハッシュ関数記憶部34に記憶される。
ハッシュ値生成部36は、コンテンツデータベース5に格納されたN個のコンテンツの各々について、特徴抽出部30によって抽出された特徴量と、ハッシュ関数記憶部34に格納されたハッシュ関数とに基づいて、当該コンテンツの特徴量に対応するハッシュ値を生成する。
また、ハッシュ値生成部36は、入力部2によって受け付けた検索クエリとしてのコンテンツについて、特徴抽出部30によって抽出された特徴量と、ハッシュ関数記憶部34に格納されたハッシュ関数とに基づいて、当該コンテンツの特徴量に対応するハッシュ値を生成する。
出力部4は、ハッシュ値生成部36によって生成されたハッシュ値を、コンテンツデータベース5へ出力する。
コンテンツデータベース5には、出力部4によって出力されたハッシュ値と、当該ハッシュ値に対応するコンテンツとの組み合わせが格納される。
<情報処理装置の作用>
次に、本実施の形態に係る情報処理装置1の作用について説明する。情報処理装置1は、ハッシュ関数を生成するハッシュ関数生成処理と、特徴量をハッシュ化するハッシュ値生成処理を実行する。以下、これら2つの処理について説明する。
<ハッシュ関数生成処理ルーチン>
まず、情報処理装置1が、コンテンツデータベース5に格納されたN個のコンテンツと、意味ベクトルデータベース6に格納されたN個の意味ベクトルとを取得すると、情報処理装置1によって、図6に示すハッシュ関数生成処理ルーチンが実行される。ハッシュ関数生成処理ルーチンは、実際にコンテンツデータをハッシュ化する前に、少なくとも1度実行される処理である。
まず、ステップS100において、入力部2によって、コンテンツデータベース5に格納されている複数(N個)のコンテンツと、意味ベクトルデータベース6に格納されたN個の意味ベクトルとを取得する。
ステップS102において、特徴抽出部30によって、上記ステップS100で取得されたN個のコンテンツの各々に対し、当該コンテンツから特徴量を抽出する。
ステップS104において、ハッシュ関数生成部32によって、上記ステップS102で抽出されたN個のコンテンツの各々の特徴量と、上記ステップS100で取得したN個のコンテンツの各々について与えられた意味ベクトルとに基づいて、上記式(10)〜式(12)に従って、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する。また、ハッシュ関数生成部32によって、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を、ハッシュ関数記憶部34へ格納して、ハッシュ関数生成処理ルーチンを終了する。
以上の処理により、コンテンツデータベース5に格納されたN個のコンテンツと、意味ベクトルデータベース6に格納されたN個の意味ベクトルとからハッシュ関数を生成することができる。
<ハッシュ値生成処理ルーチン>
次に、検索クエリとしてのコンテンツが情報処理装置1に入力されると、情報処理装置1によって、図7に示すハッシュ値生成処理ルーチンが実行される。ハッシュ値生成処理ルーチンは、ハッシュ関数記憶部34に格納された特徴量に対応するハッシュ値を求めるためのハッシュ関数を用いてコンテンツの特徴量をハッシュ化する処理である。
まず、ステップS200において、入力部2によって、検索クエリとしてのコンテンツの入力を受け付ける。
ステップS202において、特徴抽出部30によって、上記ステップS200で受け付けたコンテンツから、特徴量を抽出する。
ステップS204において、ハッシュ値生成部36によって、上記ステップS202で抽出された特徴量と、上記ステップS104でハッシュ関数記憶部34に格納されたハッシュ関数とに基づいて、上記ステップS200で受け付けたコンテンツのハッシュ値を生成する。また、ハッシュ値生成部36によって、コンテンツデータベース5に格納されたN個のコンテンツの各々について、上記ステップS102で抽出された当該コンテンツの各々の特徴量と、上記ステップS104でハッシュ関数記憶部34に格納されたハッシュ関数とに基づいて、当該コンテンツのハッシュ値を生成する。
ステップS206において、出力部4によって、上記ステップS204で生成されたハッシュ値と、上記ステップS200で受け付けたコンテンツとの組み合わせ、及び上記ステップS204で生成されたハッシュ値と、N個コンテンツとの組み合わせをコンテンツデータベース5へ出力し、コンテンツデータベース5に格納して、ハッシュ値生成処理ルーチンを終了する。
以上の処理により、入力したコンテンツに対して、メディアの種別によらずハッシュ値を求めることができる。また、検索クエリとしてのコンテンツのハッシュ値と類似するハッシュ値を有するコンテンツを、N個のコンテンツから発見することができる。
以上説明したように、本発明の実施の形態に係る情報処理装置によれば、複数のコンテンツの各々の特徴量と、複数のコンテンツの各々について与えられたコンテンツの意味を表す意味ベクトルとに基づいて、複数のコンテンツの各々について、当該コンテンツから抽出された特徴量に対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成することにより、コンテンツの意味を考慮したハッシュ値を求めるためのハッシュ関数を生成することができる。
また、本発明の実施の形態に係る情報処理装置によれば、コンテンツから抽出された特徴量と、生成されたハッシュ関数とに基づいて、コンテンツの特徴量に対応するハッシュ値を生成することにより、コンテンツの意味を考慮したハッシュ値を生成することができる。また、検索クエリとしてのコンテンツから抽出された特徴量と、生成されたハッシュ関数とに基づいて、検索クエリとしてのコンテンツの特徴量に対応するハッシュ値を生成することにより、コンテンツの意味を考慮したハッシュ値を用いて、検索クエリとしてのコンテンツの類似するコンテンツを精度よく発見することができる。
また、以上説明したように、本実施の形態によれば、特徴量空間の多様体構造を捉え、かつ意味ベクトルの近さを保存するようにパラメトリックなハッシュ関数を生成することによって、意味的観点において類似したコンテンツ同士を、高速かつ省メモリでありながらも高精度に発見することができる。
また、大量のコンテンツの中から、類似コンテンツを発見することができる。
また、多様な意味的観点を考慮しながら、コンテンツを、高速かつ省メモリでありながらも高精度に発見することができるという効果が得られる。
<第2の実施の形態>
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、ハッシュ関数の種類が第1の実施の形態と異なっている。
上記第1の実施の形態で前述した第2の手続きでは、上記式(2)の形をとるハッシュ関数の場合において、そのパラメータw(k=1,2,…,B)を求める方法について述べたが、本発明の実施の形態で扱えるハッシュ関数は、何もこの形に限るものではなく、別の形式をとるハッシュ関数であっても、同様にそのパラメータを決定することができる。
例えば、次のようなハッシュ関数も扱うことができる。
ここで、αはパラメータ、κ(x,x)はカーネル関数である。カーネル関数は、
のような関数であり、さらにN個の特徴量{x,・・・,x}に対して、
および、任意の実数α、αに対して
を満たすような任意の関数である。このような関数は無数に存在するが、例を挙げれば、
などが存在する。ただし、β、γは正の実数値パラメータ、pは整数パラメータであり、適宜決定してよい。
上記(13)式において、b
すなわち平均値で定められる定数なので、上記(13)式は、
と、内積の形に変換できる。ただし、
である。ここで、Tはハッシュ関数を定める定数である。上記ハッシュ関数を構成するカーネル関数、具体的にはカーネルベクトル写像κ(x)は、T個の特徴量によって定められるが、TはT<Nの範囲で任意の値に決めてよい。例えば、T=300等として、全特徴量{x,・・・,x}の中からランダムにT個選んでもよいし、あるいはK−meansなどのクラスタリング法を用いて選ばれた代表ベクトルとしてもよい。本実施の形態では、T個の特徴量が予め選択されている場合を例に説明する。
このように定義されたハッシュ関数は、カーネル関数の形で定義された非線形写像を扱うことができる。したがって、非線形な関数、すなわち、直線だけでなく、曲線も扱える点で、上記(6)式によるハッシュ関数よりも柔軟な表現が可能であるという利点を持つ。
ハッシュ関数生成部32は、予め選択されているT個のコンテンツの特徴量に基づいて、カーネル関数を生成する。
以下、(13)式の形式をとるハッシュ関数において、そのパラメータαを決定する方法を説明する。便宜上、特徴量についてκ(x)(i= 1,2,…,N)および意味ベクトルについてκ(y)(i=1,2,…,N)を並べた行列Κ={κ(x),・・・,κ(x)}、Κ={κ(y),・・・,κ(y)}を定義する。さらに、特徴量のためのハッシュ関数のパラメータα(k=1,2,…,B)および意味ベクトルのための疑似的なハッシュ関数のパラメータθ(k=1,2,…,B)を並べた行列Α={α,・・・,α}、Θ={θ,・・・,θ}を定義する。
具体的には、上記(2)式で定義されるハッシュ関数で言うところの上記(5)式に相当する、以下の問題を解く。
、JおよびJXYは、上記(6)式、(8)式、及び(9)式と同様の理由で、例えば、下記のように定義することができる。
上記(20)式、(21)式、及び(22)式を、上記(19)式に代入し、代数変形を適用すると、次の(23)式の問題が得られる。
ここで、
である。この問題は、上記(10)式の問題と等価であるため、全く同様の手続きで解くことができる。
ハッシュ関数生成部32は、特徴抽出部30によって抽出されたN個のコンテンツの各々の特徴量と、入力部2によって受け付けたN個のコンテンツの各々について与えられたコンテンツの意味ベクトルとに基づいて、上記(23)式、(24)式に従って、N個のコンテンツの各々について、当該コンテンツから抽出された特徴量に対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなり、かつ、N個のコンテンツの各々について、多様体構造に基づいて求められる当該コンテンツの特徴量に対応するハッシュ値と、当該コンテンツから抽出された特徴量に対応するハッシュ値との距離が小さくなり、かつ、N個のコンテンツの各々について、多様体構造に基づいて求められる当該コンテンツの意味ベクトルに対応するハッシュ値と、当該コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する。
ハッシュ関数生成部32によって生成された特徴量に対応するハッシュ値を求めるためのハッシュ関数及びカーネル関数は、ハッシュ関数記憶部34に記憶される。具体的には、パラメータΑおよびカーネル関数κ(x)が、ハッシュ関数記憶部34に記憶される。
ハッシュ値生成部36は、コンテンツデータベース5に格納されたN個のコンテンツの各々について、特徴抽出部30によって抽出された特徴量と、ハッシュ関数記憶部34に格納されたハッシュ関数及びカーネル関数とに基づいて、当該コンテンツの特徴量に対応するハッシュ値を生成する。
また、ハッシュ値生成部36は、入力部2によって受け付けた検索クエリとしてのコンテンツについて、特徴抽出部30によって抽出された特徴量と、ハッシュ関数記憶部34に格納されたハッシュ関数及びカーネル関数とに基づいて、当該コンテンツの特徴量に対応するハッシュ値を生成する。
なお、第2の実施の形態に係る情報処理装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
<第3の実施の形態>
<システム構成>
次に、図8を参照して、本発明の第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、サーバ装置とクライアント装置とで情報処理システムを構成する点が、第1及び第2の実施の形態と異なっている。第3の実施の形態では、類似コンテンツ検索を実施する情報処理システムに、本発明を適用させた場合を例に説明する。
本発明の第3の実施の形態に係る情報処理システム200は、図8に示すように、サーバ装置7と、クライアント装置13とを備えている。
図8に示すサーバ装置7は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図8に示すように、サーバ装置7は、入力部8、演算部9、出力部10を備えている。また、演算部9は、特徴抽出部90、ハッシュ関数生成部92、ハッシュ関数記憶部94、及びハッシュ値生成部96を備えている。また、コンテンツデータベース11には、第1の実施の形態のコンテンツデータベース5と同様に、複数のコンテンツが登録されている。また、意味ベクトルデータベース12には、第1の実施の形態の意味ベクトルデータベース6と同様に、コンテンツデータベース11に登録された各コンテンツに対応する意味ベクトルが格納されているものとする。
また、図8に示すクライアント装置13は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図8に示すように、クライアント装置13は、入力部14、演算部15、出力部16を備えている。また、演算部15は、特徴抽出部150、ハッシュ関数記憶部154、及びハッシュ値生成部156を備える。
ここで、サーバ装置7とクライアント装置13において、共通する構成要素(入力部、特徴抽出部、ハッシュ関数記憶部、ハッシュ値生成部)はそれぞれ同一の機能を有するように構成し、また、上記図1に記載した各構成要素と同一名称のものは、上記図1の場合と同一の機能を有するものとしてよい。さらに、ハッシュ値生成部の内容は、それぞれ何らかの通信手段で適宜同期されているものとする。
図8に示す装置構成における処理動作は下記の通りである。まずサーバ装置7は、上記説明した処理と同様の処理を行って、適宜、ハッシュ関数を生成してハッシュ関数記憶部94に格納し、クライアント装置13のハッシュ関数記憶部154と同期させる。さらに、コンテンツデータベース11中のコンテンツに対して、上記説明した処理と同様の処理を行って、ハッシュ値を生成し、コンテンツデータベース11に格納しておく。
一方、クライアント装置13は、入力部14によって、利用者からの検索要求、すなわち、検索クエリとしてのコンテンツの入力を受け付けたら、当該コンテンツに対してハッシュ値を生成し、出力部16からサーバ装置7の入力部8へと当該ハッシュ値を出力する。
クライアント装置13からハッシュ値を受けた場合、サーバ装置7は、当該ハッシュ値を用いて、コンテンツデータベース11に対して検索を行い、ハッシュ値に基づいて類似コンテンツを発見し、その結果をクライアント装置13へと出力する。
最後に、クライアント装置13は、サーバ装置7より受け取った検索結果を利用者に出力する。
このように構成することで、サーバ装置7でハッシュ関数生成処理を実施し、クライアント装置13ではハッシュ値生成処理のみを実施するように構成することができる。
なお、第3の実施の形態に係る情報処理システム200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
この構成を取るメリットを説明する。一般に、クライアント装置(PC,携帯端末等)は、サーバ装置と比較して演算能力に乏しいため、ハッシュ関数生成のように演算量が比較的多い処理には適さない場合がある。この構成にすれば、ハッシュ関数生成処理は演算能力の高いサーバ装置で適宜実施し、クライアント装置では演算量の少ないハッシュ値生成処理だけを実施することができる。さらに、通常、ネットワークを介した通信によってデータ容量の多い情報を伝送する場合、伝送時間が掛かるという問題があるが、当該構成によって、伝送するのは情報量の小さい複数特徴量ハッシュ値のみでよくなり、検索に対する即応性を高めることができる。
以上説明したように、前述したハッシュ関数とハッシュ値を用いることにより、多様な意味的観点とその強さも含めて類似したコンテンツを、高速かつ省メモリでありながらも高精度に発見することが可能になる。この構成により、省メモリであることから、例えば、メモリ量の小さいモバイル端末(スマートフォンやタブレット)での利用も可能となる。また、高速であることから、実時間性の要求される利用に対しても対応可能である。これらの効果を活用した具体的な利用シーンとして、街中を歩いているときに気になる場所や商品をモバイル端末で写真撮影し、類似した場所・商品を検索することが可能になる。
[実施例]
次に、第1の実施の形態で説明した処理により生成したハッシュ関数によって、類似コンテンツを高速かつ省メモリに検索する実施例の一例について説明する。前述のハッシュ関数生成処理が済んでいれば、ハッシュ関数記憶部34には、メディア種別ごとにB組のハッシュ関数が格納されている。これを用いれば、上記(2)式にしたがって、特徴量で表現された任意のコンテンツを、Bビット以下のハッシュ値で表現することができる。例えば、コンテンツデータベース5に、N個の画像コンテンツが格納されているとし、特徴量X={x,・・・,x}と対応する意味ベクトルY={y,・・・,y}が意味ベクトルデータベース6に格納されているとし、特徴量は全て上記(2)式に基づいてハッシュ値Z={z,・・・,z}に変換されているものとする。このとき、目的は、Xに含まれない特徴量xに対して類似するコンテンツをXの中から発見することである。
まず、上記(2)式に基づいて、特徴量xをハッシュ値zに変換しておく。最も単純には、図9に示すハッシュテーブルを用いる方法がある。まず、コンテンツデータベース5に登録されているハッシュ値Zによって、図9に示すようなハッシュテーブルを構成する。このテーブルでは、あるハッシュ値と、そのハッシュ値に変換された特徴量(コンテンツ識別子)を対応づけて格納しており、ハッシュ値が与えられた際に、それと同一のハッシュ値を取るコンテンツを即時発見することができる。ここで、本発明の実施の形態により生成されるハッシュ値においては、メディア種別に寄らず、関連するもの、類似するものを同一のハッシュ値に変換できることが特徴である。すなわち、例えば、ハッシュ値「0000」を指定した場合、それに対応づけられた画像(画像1、画像3・・・)を、メディア種別に寄らずに直ちに発見できるのである。同様に、このハッシュテーブルを利用すれば、ハッシュ値zに対応したコンテンツを即座に発見することが可能となる。
この方法によれば、コンテンツデータベース5に登録された画像コンテンツ数Nに寄らず、ほぼ一定の時間で高速に、かつ、元の特徴量をメモリに保持する必要がないため、省メモリに類似コンテンツを発見できるという利点がある。
また、別の方法として、ハミング距離による距離計算を利用することができる。すなわち、ハッシュ値zと、Zに含まれるN個のハッシュ値との距離を計算し、距離の小さいものを類似コンテンツとして得るものである。ハッシュ値はバイナリであるため、距離計算は例えばハミング距離で計算することができるが、ハミング距離はXOR(排他的論理和)とpopcnt演算(すなわち、バイナリ列のうち、1となっているビットの数を数える演算)のみで計算できること、および、ハッシュ値は通常少数のバイナリ値で表現できることから、元の特徴量で距離計算する場合に比べ、遥かに高速に演算できる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。本実施形態の主要な特徴を満たす範囲内において、任意の用途と構成を取ることができることは言うまでもない。
また、上記第1の実施の形態における、ハッシュ関数生成部32と、ハッシュ値生成部36とを別々の装置として構成してもよい。その場合には、ハッシュ関数生成部32を含んでハッシュ関数生成装置を構成し、ハッシュ値生成部36を含んでハッシュ値生成装置を構成する。
また、本実施の形態の情報処理装置及び情報処理システムは、ハッシュ関数記憶部34を備えている場合について説明したが、例えばハッシュ関数記憶部34が情報処理装置及び情報処理システムの外部装置に設けられ、情報処理装置及び情報処理システムは、外部装置と通信手段を用いて通信することにより、ハッシュ関数記憶部34を参照するようにしてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
例えば、前述した実施形態におけるハッシュ関数生成部、ハッシュ値生成部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
また、上述の情報処理装置及び情報処理システムは、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
1 情報処理装置
2,8,14 入力部
3,9,15 演算部
4,10,16 出力部
5,11 コンテンツデータベース
6,12 意味ベクトルデータベース
7 サーバ装置
13 クライアント装置
30,90,150 特徴抽出部
32,92 ハッシュ関数生成部
34,94,154 ハッシュ関数記憶部
36,96,156 ハッシュ値生成部
200 情報処理システム

Claims (8)

  1. 特徴抽出手段、及びハッシュ関数生成手段を含むハッシュ関数生成装置におけるハッシュ関数生成方法であって、
    前記特徴抽出手段が、複数のコンテンツの各々について、前記コンテンツから特徴量を抽出するステップと、
    前記ハッシュ関数生成手段が、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するステップと、
    を含むハッシュ関数生成方法。
  2. 前記ハッシュ関数生成手段が前記ハッシュ関数を生成するステップは、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記特徴量が存在する空間である特徴量空間において、前記コンテンツの前記特徴量を、前記コンテンツの前記特徴量の近傍に存在する他のコンテンツの前記特徴量に対応するハッシュ値の線形結合で表した多様体構造に基づいて求められる前記コンテンツの前記特徴量に対応するハッシュ値と、前記コンテンツから抽出された特徴量に対応するハッシュ値との距離が小さくなり、かつ、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する
    請求項1記載のハッシュ関数生成方法。
  3. 前記ハッシュ関数生成手段が前記ハッシュ関数を生成するステップは、前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記意味ベクトルが存在する空間である意味ベクトル空間において、前記コンテンツの前記意味ベクトルを、前記コンテンツの前記意味ベクトルの近傍に存在する他のコンテンツの前記意味ベクトルに対応するハッシュ値の線形結合で表した多様体構造に基づいて求められる前記コンテンツの前記意味ベクトルに対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなり、かつ、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成する
    請求項1又は請求項2記載のハッシュ関数生成方法。
  4. 前記ハッシュ値をバイナリ値とした請求項1〜請求項3の何れか1項記載のハッシュ関数生成方法。
  5. 特徴抽出手段、及びハッシュ値生成手段を含むハッシュ値生成装置におけるハッシュ値生成方法であって、
    前記特徴抽出手段が、コンテンツから特徴量を抽出するステップと、
    前記ハッシュ値生成手段が、前記特徴抽出手段によって抽出された前記特徴量と、請求項1〜請求項3の何れか1項記載のハッシュ関数生成方法によって生成された前記特徴量に対応するハッシュ値を求めるための前記ハッシュ関数とに基づいて、前記コンテンツの特徴量に対応するハッシュ値を生成するステップと、
    を含むハッシュ値生成方法。
  6. 複数のコンテンツの各々について、前記コンテンツから特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段によって抽出された前記複数のコンテンツの各々の前記特徴量と、前記複数のコンテンツの各々について与えられた前記コンテンツの意味を表す意味ベクトルとに基づいて、前記複数のコンテンツの各々について、前記コンテンツから抽出された特徴量に対応するハッシュ値と、前記コンテンツの意味ベクトルに対応するハッシュ値との距離が小さくなるように、前記特徴量に対応するハッシュ値を求めるためのハッシュ関数、及び前記意味ベクトルに対応するハッシュ値を求めるためのハッシュ関数を生成するハッシュ関数生成手段と、
    を含むハッシュ関数生成装置。
  7. コンテンツから特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段によって抽出された前記特徴量と、請求項6記載のハッシュ関数生成装置によって生成された前記特徴量に対応するハッシュ値を求めるための前記ハッシュ関数とに基づいて、前記コンテンツの特徴量に対応するハッシュ値を生成するハッシュ値生成手段と、
    を含むハッシュ値生成装置。
  8. 請求項1〜請求項4の何れか1項記載のハッシュ関数生成方法、又は請求項5記載のハッシュ値生成方法の各ステップをコンピュータに実行させるためのプログラム。
JP2014079577A 2014-04-08 2014-04-08 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム Active JP6104209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014079577A JP6104209B2 (ja) 2014-04-08 2014-04-08 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014079577A JP6104209B2 (ja) 2014-04-08 2014-04-08 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015201042A JP2015201042A (ja) 2015-11-12
JP6104209B2 true JP6104209B2 (ja) 2017-03-29

Family

ID=54552249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014079577A Active JP6104209B2 (ja) 2014-04-08 2014-04-08 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6104209B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461773B2 (ja) * 2015-11-30 2019-01-30 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
JP6632945B2 (ja) * 2016-08-02 2020-01-22 Kddi株式会社 重複検出装置、重複検出方法及び重複検出プログラム
CN110209867B (zh) * 2019-06-05 2023-05-16 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
WO2021038887A1 (ja) * 2019-08-30 2021-03-04 富士通株式会社 類似文書検索方法、類似文書検索プログラム、類似文書検索装置、索引情報作成方法、索引情報作成プログラムおよび索引情報作成装置
KR102073833B1 (ko) 2019-11-05 2020-02-05 (주)키온비트 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법
CN114446407A (zh) * 2022-03-03 2022-05-06 冰洲石生物科技(上海)有限公司 化学反应的反应模板提取方法、系统、介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187384A (ja) * 2008-02-07 2009-08-20 Ntt Resonant Inc 検索装置、検索方法、検索プログラム、および、記録媒体
JP4970301B2 (ja) * 2008-02-08 2012-07-04 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP5592337B2 (ja) * 2011-11-18 2014-09-17 日本電信電話株式会社 コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム

Also Published As

Publication number Publication date
JP2015201042A (ja) 2015-11-12

Similar Documents

Publication Publication Date Title
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Liu et al. Contextual hashing for large-scale image search
US9053386B2 (en) Method and apparatus of identifying similar images
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
JP6368677B2 (ja) 写像学習方法、情報圧縮方法、装置、及びプログラム
Wang et al. Beauty product image retrieval based on multi-feature fusion and feature aggregation
US11615132B2 (en) Feature amount generation method, feature amount generation device, and feature amount generation program
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
JP2013068884A (ja) ハッシュ関数生成方法、ハッシュ値演算方法、ハッシュ関数生成装置、ハッシュ値演算装置、ハッシュ関数生成プログラム及びハッシュ値演算プログラム
JP2016066012A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Guan et al. On-device mobile visual location recognition by using panoramic images and compressed sensing based visual descriptors
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6152032B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6461773B2 (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
CN112287134B (zh) 检索模型的训练和识别方法、电子设备及存储介质
JP2015201041A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Mathan Kumar et al. An approach for image search and retrieval by cluster-based indexing of binary MKSIFT codes
Zhang et al. Short video fingerprint extraction: from audio–visual fingerprint fusion to multi-index hashing
JP2015079333A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170228

R150 Certificate of patent or registration of utility model

Ref document number: 6104209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150