JP2015079101A - ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム - Google Patents

ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム Download PDF

Info

Publication number
JP2015079101A
JP2015079101A JP2013215723A JP2013215723A JP2015079101A JP 2015079101 A JP2015079101 A JP 2015079101A JP 2013215723 A JP2013215723 A JP 2013215723A JP 2013215723 A JP2013215723 A JP 2013215723A JP 2015079101 A JP2015079101 A JP 2015079101A
Authority
JP
Japan
Prior art keywords
hash function
hash
feature
hash value
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013215723A
Other languages
English (en)
Other versions
JP6134246B2 (ja
Inventor
豪 入江
Takeshi Irie
豪 入江
新井 啓之
Hiroyuki Arai
啓之 新井
行信 谷口
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013215723A priority Critical patent/JP6134246B2/ja
Publication of JP2015079101A publication Critical patent/JP2015079101A/ja
Application granted granted Critical
Publication of JP6134246B2 publication Critical patent/JP6134246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】膨大なメディアコンテンツから、類似するコンテンツを発見する際に用いるハッシュ関数とハッシュ値を、高精度でありながら、高速、さらに省メモリで生成する。【解決手段】デジタルデータをバイナリ値に変換するハッシュ関数生成方法であって、デジタルデータをD(D>0)次元実数値ベクトルによって表現した特徴量を抽出する特徴量抽出ステップと、特徴量について、その近傍の相対的幾何関係を求める幾何関係算出ステップと、相対的幾何関係に基づいて、ハッシュ関数を表現するためのパラメータを決定してハッシュ関数を生成するステップとを有する。ハッシュ値生成方法は、デジタルデータに対応するD(D>0)次元実数値ベクトルたる特徴量を抽出する特徴量抽出ステップと、前記ハッシュ関数生成方法により生成された1つ以上のハッシュ関数を用いて、前記特徴量を1つ以上のバイナリ値に変換する変換ステップとを有する。【選択図】図1

Description

本発明は、大量のメディアコンテンツの中から、類似コンテンツを発見するためのハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラムに関する。
通信環境やコンピュータ、分散処理基盤技術の高度・高品質化により、ネットワークに流通するメディアコンテンツ(画像・映像・音声・文書等)の数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
このような膨大な量のメディアコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
コンテンツの解析においては、類似したコンテンツの発見が重要な役割を果たす。例えば、コンテンツを分類する場合は、同じようなコンテンツは同じカテゴリに分類する。あるいは検索の場合、あるコンテンツをクエリとして与えたとき、このコンテンツに類似したコンテンツを検索することが基本的な要件となる。そのほか、コンテンツ推薦においても利用者がこれまでに閲覧した/閲覧しているコンテンツと類似したコンテンツを発見してこれを推薦するし、コンテンツ要約の場合においても、類似したコンテンツを提示することは冗長であるため、これを発見して省くような処理が必要となる。
ここで、類似コンテンツを発見する典型的な手続きについて説明する。まず、コンテンツをある特徴量によって表現する。次に、特徴量同士の近さを測ることで類似度を計算し、この類似度に基づいて類似コンテンツを発見する。単純な例を挙げれば、コンテンツが画像や映像であれば、画像(映像フレーム)の色ヒストグラムを特徴量としてその類似度を測ることができる。コンテンツが文書であれば、単語の出現頻度をヒストグラム化したもの(Bag−of−Wordsヒストグラムなどと呼ぶ)を特徴量として類似度を測ることができる。いうまでもなく、仮にコンテンツの数が1000あれば、1000のコンテンツそれぞれに対して類似度を計算し、結果類似度の高いコンテンツを類似コンテンツとして拾い上げる必要がある。
しかしながら、前述のように、膨大な量のコンテンツを対象にした場合、下記2つの重要な課題がある。第1の課題は、計算時間がかかることである。第2の課題は、メモリを大量に消費することである。
通常、コンテンツの特徴量(ベクトル)の次元は高次元になることが多く、その類似度の計算には膨大な時間を要する。一般に、文書のBag−of−Wordsヒストグラムの次元は、単語の種類(語彙)と同次元になる。画像の色ヒストグラムのような単純な特徴量であっても、一般に数百〜数千次元の実数値ベクトルとなるし、最近用いられるスパース表現やフィッシャーカーネルに基づく特徴表現では、数十万〜数百万次元のベクトルとなることもあり得る。さらに、全てのコンテンツの組に対してその類似度を計算する必要があるため、どのような類似度計算手段を用いようとも、特徴量の次元がD、コンテンツがN個あったとするとO(DN)の計算量を要する。また、即時検索を実行するためには、特徴量あるいはその類似度をメモリに蓄積しておくことが好ましいが、これを行うためにはO(N)のメモリが必要となる。このように、億を超えるオーダのコンテンツを扱う必要がある昨今においては、非現実的な時間とメモリを要するのである。
この課題に対して、コンテンツの特徴量を低容量な表現に変換し、効率的に類似コンテンツを発見する技術に関する取り組みがなされてきた。従来いくつかの発明がなされ、開示されてきている。例えば、特許文献1に開示されている技術では、コンテンツの特徴量を、主成分分析により次元圧縮して低次元化し、この低次元な特徴量同士の距離を測ることで、特徴量の低容量化、高速化を図っている。
また、特許文献2に開示されている技術では、コンテンツの特徴量と、異なる2つのコンテンツを関連付けるべきか否かを示す関連情報(正解データ)に基づいてハッシュ関数を求め、このハッシュ関数を基に特徴量を低ビットなハッシュ値に変換する。
また、非特許文献1に開示されている技術では、近接する任意の2つのコンテンツ(特徴量)において、元の特徴量の類似度と衝突確率が等しくなるようなハッシュ関数群を生成する。典型的な類似度としてコサイン類似度を考えており、その場合のハッシュ関数生成の基本的な手続きは、特徴量空間にランダムな超平面を複数生成することによる(random projectionと呼ばれる)。各超平面のどちら側に特徴量が存在するかによって特徴量をハッシュ化し、全てのコンテンツ間で類似度を求めることなく、近似的に類似コンテンツを発見することができる。
また、非特許文献2に開示されている技術は、非特許文献1におけるコサイン類似度とは異なり、Shift−Invariant Kernelによる類似度を用いるハッシュ関数生成技術である。基本的な手続きこそ非特許文献1と似ており、やはりランダムな写像を生成し、これに基づいて特徴量をハッシュ化する。一方で、その性質は非特許文献1とは異なっており、非特許文献1が「元の特徴量の類似度と衝突確率が等しくなるようなハッシュ関数群を生成する」のに対して、非特許文献2では、ハッシュ値間のハミング距離が、Shift−Invariant Kernelによる類似度に依存したバウンド(上界・下界)によって抑えられるようなハッシュ関数を生成する。
さらに、非特許文献3に開示されている技術は、特徴量の分布を捉え、その分布に対して最適なハッシュ値を構成する。具体的には、特徴量空間における多様体構造を捉え、その多様体構造を最適に保存するバイナリ空間(ハッシュ空間)への非線形な埋め込みを求めることで、元の高次元な特徴量を、低ビットなハッシュ値に変換する。そのハッシュ値の類似性を評価することで、高速な類似コンテンツ発見を実現することができる。
特許第3730179号公報 特開2013−68884号公報
M. Datar, N. Immorlica, P. Indyk, V.S. Mirrokni,"Locality-Sensitive Hashing Scheme based on p-Stable Distributions", In Proceedings of the Twentieth Annual Symposium on Computational Geometry, 2004, p.253-262 M. Raginsky, S. Lazebnik,"Locality-Sensitive Binary Codes from Shift-Invariant Kernels", Advances in Neural Information Processing Systems 22, 2009, p.1509-1517 入江 豪、Zhenguo Li、Shih−Fu Chang,"構造を保存するハッシング"、画像の認識・理解シンポジウム、2013.
しかしながら、特許文献1に記載の技術は、特徴量を圧縮表現するものの、圧縮された特徴量間の類似度をユークリッド距離で求める必要があったため、大幅な計算時間削減を実現するものではなかった。また、特許文献2に記載の技術は、特徴量を低ビットなハッシュ値に変換するものの、コンテンツが類似であるか否かを表す関連情報を人手で用意しなければならないとするというデメリットがあった。
また、非特許文献1、2に開示されている技術では、ハッシュ関数(超平面)の生成はランダムであるため、コンテンツの類似度を反映するようなハッシュ関数を生成するためには、ハッシュ数を十分に大きく取り、多数のハッシュ関数を生成する必要があった。
また、非特許文献3に開示されている技術では、特徴量の分布を柔軟な多様体構造として捉え、さらにハッシュ値に変換することで非常に高精度かつ高速な類似コンテンツの発見を可能にしている。しかしながら、後に詳述する通り、ハッシュ関数の学習には多くの時間を要し、また、ハッシュ値の生成には元の高次元な特徴量をメモリ上に保持しておく必要があったため、多くのメモリが必要になるという欠点があった。
以上のことから、現在に至るまで、いずれの技術によっても、高精度でありながら、高速かつ省メモリであるような技術は実現されていないのが実状である。
本発明は、このような事情に鑑みてなされたもので、膨大なメディアコンテンツから、類似するコンテンツを発見する際に用いるハッシュ関数とハッシュ値を、高精度でありながら、高速、さらに省メモリで生成することができるハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラムを提供することを目的とする。
本発明は、デジタルデータをバイナリ値に変換するハッシュ関数生成方法であって、前記デジタルデータをD(D>0)次元実数値ベクトルによって表現した特徴量を抽出する特徴量抽出ステップと、前記特徴量について、その近傍の相対的幾何関係を求める幾何関係算出ステップと、前記相対的幾何関係に基づいて、ハッシュ関数を表現するためのパラメータを決定して前記ハッシュ関数を生成するステップとを有することを特徴とする。
本発明は、前記ハッシュ関数は、前記特徴量と前記パラメータとの内積として表現されることを特徴とする。
本発明は、デジタルデータに対応するD(D>0)次元実数値ベクトルたる特徴量を抽出する特徴量抽出ステップと、前記ハッシュ関数生成方法により生成された1つ以上のハッシュ関数を用いて、前記特徴量を1つ以上のバイナリ値に変換する変換ステップとを有することを特徴とする。
本発明は、デジタルデータをバイナリ値に変換するハッシュ関数生成装置であって、前記デジタルデータをD(D>0)次元実数値ベクトルによって表現した特徴量を抽出する特徴量抽出手段と、前記特徴量について、その近傍の相対的幾何関係を求める幾何関係算出手段と、前記相対的幾何関係に基づいて、ハッシュ関数を表現するためのパラメータを決定して前記ハッシュ関数を生成する手段とを備えることを特徴とする。
本発明は、前記ハッシュ関数は、前記特徴量と前記パラメータとの内積として表現されることを特徴とする。
本発明は、デジタルデータに対応するD(D>0)次元実数値ベクトルたる特徴量を抽出する特徴量抽出手段と、前記ハッシュ関数生成装置により生成された1つ以上のハッシュ関数を用いて、前記特徴量を1つ以上のバイナリ値に変換する変換手段とを備えることを特徴とする。
本発明は、コンピュータに、前記ハッシュ関数生成方法を実行させるためのハッシュ関数生成プログラムである。
本発明は、コンピュータに、前記ハッシュ値生成方法を実行させるためのハッシュ値生成プログラムである。
本発明によれば、膨大なメディアコンテンツから、類似するコンテンツを発見する際に用いるハッシュ関数とハッシュ値を、高精度でありながら、高速、さらに省メモリで生成することができるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 ハッシュ関数生成処理の動作を示すフローチャートである。 ハッシュ値生成処理の動作を示すフローチャートである。 類似する2群を分割するハッシュ関数を示す説明図である。 特徴量空間に見られる滑らかな多様体構造を示す説明図である。 多様体構造を捉えたハッシュ関数を示す説明図である。 ハッシュ値によるハッシュテーブルを示す説明図である。 類似コンテンツ検索を実施する場合において、その一例の装置構成を示すブロック図である。
以下、図面を参照して、本発明の一実施形態によるハッシュ関数生成装置及びハッシュ値生成装置を実現するための情報処理装置を説明する。図1は同実施形態の構成を示すブロック図である。同図に示す情報処理装置1は、入力部11、特徴抽出部12、ハッシュ関数生成部13、ハッシュ関数記憶部14、ハッシュ値生成部15及び出力部16を備える。このうち、本発明の主たる機能を備える構成要素はハッシュ関数生成部13及びハッシュ値生成部15である。
情報処理装置1は、コンテンツデータベース2と通信手段を介して接続され、入力部11、出力部16を介して相互に情報通信し、コンテンツデータベース2に登録されたコンテンツに基づいてハッシュ関数を生成するハッシュ関数生成処理と、生成したハッシュ関数を用いてコンテンツを複数のバイナリ値に変換するハッシュ値生成処理を行う。
コンテンツデータベース2は、情報処理装置1の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。コンテンツデータベース2は、いわゆるRDBMS(Relational Database Management System)などで構成されているものとしてもよい。
コンテンツデータベース2には、少なくともコンテンツ自体、あるいは、当該データの所在を一意に示すアドレスが記憶されている。コンテンツは、例えば、文書であれば文書ファイル、画像(静止画像)であれば画像ファイル、音であれば音ファイル、映像(動画像と必要に応じて音も含む)であれば映像ファイルなどである。好ましくは、コンテンツデータベース2には、各コンテンツを一意に識別可能な識別子が含まれているものとする。その他、メタデータとして、例えばコンテンツの内容を表現するもの(コンテンツのタイトル、概要文、キーワード)、コンテンツのフォーマットに関するもの(コンテンツのデータ量、サムネイル等のサイズ)などを含んでいてもよい。
情報処理装置1が備える各部及びコンテンツデータベース2は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは情報処理装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
次に、図1に示す情報処理装置1の構成について説明する。入力部11は、コンテンツデータベース2からコンテンツデータを取得して特徴抽出部12に対して出力する。特徴抽出部12は、入力部11より入力したコンテンツデータを解析し、コンテンツを特徴的に表す特徴量を抽出する。特徴量は、ハッシュ値生成処理時にはハッシュ値生成部15に、ハッシュ関数生成処理時にはハッシュ関数生成部13に対して出力される。
ハッシュ関数生成部13は、特徴抽出部12から入力した特徴量に基づいて、1つ以上のハッシュ関数を生成してハッシュ関数記憶部14に記憶する。ハッシュ関数記憶部14は、ハッシュ関数生成部13が生成した1つ以上のハッシュ関数を記憶する。
ハッシュ値生成部15は、ハッシュ関数記憶部14に記憶された1つ以上のハッシュ関数に基づいて、特徴抽出部12から出力された特徴量を複数のバイナリ値であるハッシュ値に変換し、出力部16に対して出力する。出力部16は、ハッシュ値生成部15において求めたハッシュ値を出力し、コンテンツデータベース2に記憶する。
次に、図1に示す情報処理装置1の処理動作を説明する。図1に示す情報処理装置1は、ハッシュ関数を生成するハッシュ関数生成処理と、特徴量をハッシュ化するハッシュ値生成処理を実行する。以下、これら2つの処理について説明する。
最初に、図2を参照して、ハッシュ関数生成処理について説明する。図2は、ハッシュ関数生成処理の動作を示すフローチャートである。ハッシュ関数生成処理は、実際にコンテンツデータをハッシュ化する前に、少なくとも1度実施しておく処理である。
まず、入力部11は、コンテンツデータベース2からコンテンツデータを入力し、これを特徴抽出部12に対して出力する(ステップS201)。続いて、特徴抽出部12は、入力したコンテンツデータから特徴量を抽出してハッシュ関数生成部13に対して出力する(ステップS202)。
次に、ハッシュ関数生成部13は、特徴量に基づいて1つ以上のハッシュ関数を生成し、ハッシュ関数記憶部14に記憶する(ステップS203)。
以上の処理により、コンテンツデータベース2に記憶されたコンテンツデータからハッシュ関数を生成することができる。なお、特徴量の抽出、ハッシュ関数の生成の詳細については後述する。
次に、図3を参照して、ハッシュ値生成処理について説明する。図3は、ハッシュ値生成処理の動作を示すフローチャートである。ハッシュ値生成処理は、ハッシュ関数記憶部14に記憶されたハッシュ関数を用いてコンテンツの特徴量をハッシュ化する処理である。
まず、入力部11は、コンテンツデータベース2あるいは外部から直接コンテンツデータを入力し、特徴抽出部12に対して出力する(ステップS301)。続いて、特徴抽出部12は、コンテンツデータから特徴量を抽出してハッシュ値生成部15に対して出力する(ステップS302)。
次に、ハッシュ値生成部15は、ハッシュ関数記憶部14に記憶された1つ以上のハッシュ関数を用いて、特徴量をハッシュ値に変換し、出力部16に対して出力する(ステップS303)。本実施形態の一例においては、1つのハッシュ関数につき、特徴量は1bitに変換されるので、ハッシュ関数記憶部14にB個のハッシュ関数が記憶されている場合は、特徴量はBbitのハッシュ値に変換される。
最後に、出力部16は、ハッシュ値をコンテンツデータベース2に記憶する(ステップS304)。
以上の処理により、入力したコンテンツデータのハッシュ値を求めることができる。
次に、各処理の詳細を説明する。始めに、特徴量の抽出について説明する。特徴量を抽出する処理は、コンテンツの種類に依存する。例えば、コンテンツが文書であるか、画像であるか、音であるか、映像であるかによって、抽出するまたは、抽出できる特徴量は変化する。ここで、どのような特徴量を抽出するかは、本発明の要件として重要ではなく、一般に知られた公知の特徴抽出処理を用いてよい。具体的には、あるコンテンツから抽出された次元を持つ数値データ(スカラー又はベクトル)であれば、あらゆる特徴量に対して有効である。したがって、ここでは、本実施形態の一例に適する、各種コンテンツに対する特徴抽出処理の一例を説明する。
コンテンツが文書である場合には、文書中に出現する単語の出現頻度を用いることができる。例えば、公知の形態素解析を用いて、名詞、形容詞等に相当する単語ごとに、その出現頻度を計数すればよい。この場合、各文書は単語種別と同じだけの次元を持つベクトルとして表現される。
コンテンツが画像である場合には、例えば、明るさ特徴、色特徴、テクスチャ特徴、コンセプト特徴、景観特徴などを抽出する。明るさ特徴は、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像はV値の量子化数(例えば、16bit量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴は、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14などとすればよく、この場合、3軸の合計ビン数は、4×14×14=784、すなわち784次元のベクトルとなる。
テクスチャ特徴としては、濃淡ヒストグラムの統計量(コントラスト)やパワースペクトルなどを求めればよい。あるいは、局所特徴量を用いると、色や動きなどと同様、ヒストグラムの形式で抽出することができるようになるため好適である。局所特徴としては、例えば下記の参考文献1に記載されるSIFT(Scale Invariant Feature Transform)や、下記の参考文献2に記載されるSURF(Speeded Up Robust Features)などを用いることができる。
[参考文献1]D.G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, pp.91-110, 2004
[参考文献2]H. Bay, T. Tuytelaars, and L.V. Gool,"SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
これらによって抽出される局所特徴は、例えば128次元の実数値ベクトルとなる。このベクトルを、予め学習して生成しておいた符号長を参照して、符号に変換し、その符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、参考文献3に記載のスパース表現や、参考文献4、5に記載のフィッシャーカーネルに基づく特徴表現などを利用してもよい。
[参考文献3] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong,"Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献4] Florent Perronnin, Jorge Sanchez, Thomas Mensink,"Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献5] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid,"Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
結果として生成される特徴量は、いずれの場合にも、符号長の符号数に依存した長さを持つ実数値ベクトルになる。
コンセプト特徴とは、画像中に含まれる物体や、画像が捉えているイベントのことである。任意のものを用いてよいが、例を挙げれば、「海」、「山」、「ボール」などのようなものである。もし、ある画像に「海」が映っていた場合、その画像は「海」コンセプトに帰属する画像であるという。その画像が、各コンセプトに帰属するか否かは、コンセプト識別器を用いて判断することができる。
通常、コンセプト識別器はコンセプト毎に一つ用意され、画像の特徴量を入力として、その画像があるコンセプトに帰属しているか否かを帰属レベルとして出力する。コンセプト識別器は、予め学習して獲得しておくものであり、決められた画像特徴、例えば先に述べた局所特徴と、予め人手によって、その画像がどのコンセプトに帰属しているかを表した正解ラベルとの関係を学習することによって獲得する。学習器としては、例えばサポートベクターマシンなどを用いればよい。コンセプト特徴は、各コンセプトへの帰属レベルをまとめてベクトルとして表現することで得ることができる。この場合、生成される特徴量はコンセプトの数と同数の次元を持つベクトルとなる。
景観特徴は、画像の風景や場面を表現した特徴量である。例えば参考文献6に記載のGIST記述子を用いることができる。GIST記述子は画像を領域分割し、各領域に対して一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現されるが、この場合、生成される特徴量は、フィルタの種類(分割する領域の数とオリエンテーションの数)に依存した長さのベクトルとなる。
[参考文献6]A. Oliva and A. Torralba,"Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006
コンテンツが音である場合には、音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴などを抽出する。
音高特徴は、例えばピッチを取るものとすればよく、下記の参考文献7に記載される方法などを用いて抽出することができる。この場合、ピッチを1次元ベクトル(スカラー)として表現するか、あるいはこれをいくつかの次元に量子化しておいてもいい。
[参考文献7]古井貞熙,"ディジタル音声処理,4.9ピッチ抽出”,pp.57−59,1985
音圧特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。いずれにしても、音圧を計算するバンドの数に依存した長さのベクトルとなる。
スペクトル特徴としては、例えばメル尺度ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)を用いることができる。
リズム特徴としては、例えばテンポを抽出すればよい。テンポを抽出するには、例えば下記の参考文献8に記載される方法などを用いることができる。
[参考文献8]E.D. Scheirer,"Tempo and Beat Analysis of Acoustic Musical Signals", Journal of Acoustic Society America, Vol. 103, Issue 1, pp.588-601, 1998
発話特徴、音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば下記の参考文献9に記載される方法などを用いればよい。
[参考文献9]K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura,"Video Handling with Music and Speech Detection", IEEE Multimedia, vol. 5, no. 3, pp.17-25, 1998
音イベント特徴としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには、例えば下記の参考文献10に記載される方法などを用いればよい。
[参考文献10]国際公開第2008/032787号
コンテンツが映像である場合、映像は、一般に動画像と音のストリームであるから、上記説明した画像特徴と音特徴を用いることができる。映像中のどの画像、音情報を分析するかについては、例えば、予め映像をいくつかの区間に分割し、その区間ごとに1つの画像、音から特徴抽出を実施する。
映像を区間に分割するには、予め決定しておいた一定の間隔で分割するものとしてもよいし、例えば下記の参考文献11に記載される方法などを用いて、映像が不連続に切れる点であるカット点によって分割するものとしてもよい。
[参考文献11]Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki,"Structured Video Computing", IEEE Multimedia, pp.34-43, 1994
望ましくは、後者の方法を採用する。映像区間分割処理の結果として、区間の開始点(開始時刻)と終了点(終了時刻)が得られるが、この時刻毎に別々の特徴量として扱えばよい。
以上のように抽出した特徴量は、一つあるいは複数を利用してもよいし、その他の公知の特徴量を用いるものとしてもよい。
次に、ハッシュ関数の生成について説明する。コンテンツiから抽出された特徴量をx∈Rと表す。このとき、図2に示すステップS203では、h:R→{−1,1}となるハッシュ関数の集合を求める。{−1,1}と{0,1}は情報量という観点で本質的に差異がないことに注意すれば、各hによって、特徴量x∈Rは0または1を取るバイナリ値に写像されるから、特徴量xは、ハッシュ関数集合H={h,h,・・・,h}によってB個のバイナリ値、すなわち、B bitのハッシュ値に変換されることになる。なお、特徴量x∈Rはコンテンツから抽出されるものに限らず、広くデジタルデータに対応し定められるD次元実数値ベクトルであればよい。
本発明の目的は、このハッシュ値によって時間のかかる類似度計算を省略することである。したがって、ハッシュ関数は、元のコンテンツの類似度を表すものであることが要請され、高い類似度を持つコンテンツほど、ハッシュ値の距離(ハミング距離)が近くなることが好ましい。
本実施形態の一例では、ハッシュ関数として(1)式で示す線形関数に基づくハッシュ関数を適用する。
Figure 2015079101
ここで、sign(x)は符号関数であり、x≧0のとき1、x<0のとき−1をとる関数である。また、w∈R、b∈Rのパラメータである。このハッシュ関数において、未知のパラメータはwとbの二つだけである。
ここで、仮にx(i=1,2,…,N)が平均0に正規化されているとき、b= 0としても一般性を失わない。xを0に正規化するには、xの平均mを、各xから減算すればよいのであり、これはx∈Rにおいて常に可能であることから、b= 0と決定できる。したがって、以降、xの平均は0に正規化されているとし、(1)式を(2)式のように定義しなおして説明する。
Figure 2015079101
このハッシュ関数の定義によれば、関数φ内にあるパラメータwを定めることで、ハッシュ関数を一意に定めることができる。したがって、本ハッシュ関数生成処理の目的は、このw(k= 1,2,…,B)を求めることである。
ここで、(2)式のように規定されるハッシュ関数の意味は、幾何的には図4を用いて説明できる。図4には、特徴量空間R上に、各コンテンツ(i=1, 2,…,N)から抽出された特徴量x(i=1,2,…,N)が分布している。図4では、便宜上2次元のように図示しているが、実際にはD次元の空間である。ここでハッシュ関数を構成するφ(x)は、この特徴量空間上の原点を通る直線(実際はD−1次元の超平面)を表す。h(x)は、本質的には符号関数であるから、その値は、特徴量の点がこの直線φ(x)のどちら側にあるかによって、1または0をとる。すなわち、(2)式によって定義されるハッシュ関数41は、特徴量空間を直線によって1と0の2つの領域に分割する関数である。ここで、wはこの直線の傾きに対応し、wが変化すれば、分割する角度が変化することになる。
本実施形態は、このwを特徴量の分布に基づいて、合理的に決定するハッシュ関数の生成方法提供することができる。その原理と処理内容を説明する。前述した目的に合うハッシュ関数となるように、wを求めるもっとも合理的な方法の一つは、類似したコンテンツ群が、図4に示す例における直線の片側に集まるように直線を引く(すなわち、wを決める)ことである。例えば、図4における直線41などがその例であるが、このような直線は無数に存在するのであり、その中で最も適当な直線を選ぶことが重要である。
メディアコンテンツにおいては、前述した特徴量の種別によらず、類似したコンテンツ同士の特徴量の分布は滑らかな多様体構造を形成することがよく知られている。多様体構造とは、簡単に言えば滑らかな変化である。分かりやすく図5を用いて説明すると、各特徴量は大まかに、曲線51と曲線52の滑らかに変化する2本の曲線上に分布しており、同じ曲線上の点同士は互いに類似していることが多い。この図でいうところの、白丸(○)と黒丸(●)で表されている特徴量は、同色であれば互いに類似したコンテンツの特徴量となる。
この知見に基づけば、これらの類似したコンテンツ群が直線の片側に集まるように直線を引けばよい。この観点に基づけば、図6に示す直線の内、直線61のような直線は好ましくなく、2群の間を通る直線62のような直線を規定するハッシュ関数のパラメータwを求めればよいことになる。
本実施形態の手続きでは、無限にある直線の中から、直線62のような直線を求めることができる。言い換えれば、特徴量空間を形成する複数の多様体(図5で言うところの各曲線)を分割するような直線である。これを実現するには、次の2つの問題を解決する必要がある。
第1の問題は、どのように元の特徴量空間における各多様体を発見するかである。また、第2の問題は、発見した多様体を正確に分離する直線をどのように発見するかである。
同様の原理に基づく先行技術として先に述べた非特許文献3があり、これには第1の問題と第2の問題を解決する手段が開示されている。まずは非特許文献3に開示されている第1の問題と第2の問題それぞれの解決について、その発想と手続きを記載する。
まず、非特許文献3における第1の問題の解決方法について説明する。多様体とは、大まかに言えば滑らかな図形であり、言い換えれば局所的に見ればユークリッドな空間であるとみなせる。例えば、図5に示すような曲線のように、いくつかの直線の集まりとして近似されるようなものであると解釈してもよい。このことは、多様体とは局所的に見れば線形で近似される構造を持つことを表しているのであり、言い換えれば、多様体上任意の点は、同じ多様体上にあるいくつかの近傍点に基づく、近傍の相対的幾何関係によって表現できることを意味している。
この点に着目し、非特許文献3では、次の問題を解くことによって多様体を発見している。
Figure 2015079101
ここで、第一項は特徴量xを、そのユークリッド空間上での近傍集合ε(x)に含まれる特徴量インデクスに対応する特徴量の集合{x|j∈ε(x)}によって線形結合で表したときの誤差であり、sijはその際の結合重みである。第二項は、結合重みのベクトルs={si1,・・・,siN}に対して、その要素がスパースであることを要請する、すなわち、ベクトル中のいくつかの限られた要素にのみ非ゼロの値を持つように正則化するスパース項であり、vはxに近いほど小さな値を持つような定数を要素として持つベクトルである。例えば、(4)式のようにしてもよい。
Figure 2015079101
つまるところ、この問題を解くことによってある特徴量xをできる限り少数の近傍点の線形結合として表した場合の結合重みsを求めることができるが、これは多様体を表現するいくつかの近傍点と、その相対的幾何関係(結合重み)を表しているに他ならない。この問題は、公知のスパース問題ソルバによって解決することができる。例えば、SPAMSなどのオープンソースソフトウェアを用いてもよい。
なお、近傍集合ε(x)は、いかなる方法を用いて求めてもよい。最も単純な方法は、各特徴量xに対して、その他全ての点xj≠iとのユークリッド距離を求め、近いものからt個を近傍集合とするものである。tは任意の正の整数でよく、例えばt=10などとしてもよい。
しかし、この方法では1つの特徴量に対してその他全ての特徴量との距離を求める必要があるため、未知の特徴量xに対して近傍集合を求めようとすると、O(N)の計算時間が掛かるという問題がある。したがって、高速に計算できる手法を用いることが好ましい。例えば、クラスタリングやハッシュによる方法を用いることができる。
クラスタリングを用いる場合、例えばk−means法などにより全N個の特徴量をクラスタリングし、L個のクラスタ(L<<N)と、各クラスタを代表するL個の代表特徴量(クラスタ中心)を求めておく。Lの値は任意の正の整数としてよいが、例えば、L=128などとすればよい。この結果、各特徴量がどのクラスタに属するか、及び当該クラスタの代表特徴量を得ることができる。この前提のもと、下記の手続きによって、未知の特徴量xに対する近傍集合を得ることができる。まず、特徴量xに対して、L個の代表特徴量との距離を計算し、最も近いクラスタを特定する;次に、当該クラスタに属する全ての特徴量を、近傍集合ε(x)として得る。この処理に必要な計算時間はO(L)であり、L<<Nであることから、単純な方法に比べて高速に近傍集合を得ることができる。
また、ハッシュを用いる場合、例えば非特許文献1などの方法によって、全N個の特徴量に対するハッシュ値を求めておく。この前提のもと、未知の特徴量xのハッシュ値を求め、これと同一またはハミング距離上近い値を持つハッシュ値を持つ(すなわち、同一あるいはそれに近接するバケットに属する)全ての特徴量を、近傍集合ε(x)として得ればよい。この処理に必要な計算時間は参照するバケットの数に依存するが、一般に参照バケット数はNよりも小さいことから、こちらも高速に近傍集合を得ることができる。なお、非特許文献1の方法によるハッシュ値は、ユークリッド空間上のコサイン類似度を保存するようなハッシュ関数であり、ユークリッド空間上の角度が近ければ近いほどハッシュ値が衝突する確率が高くなる。一方で、本実施形態により生成されるハッシュ値は、ユークリッド空間上ではなく、多様体上の近さ(測地線距離に基づく近さ)を保存するようなハッシュ関数であり、特徴量の分布をより正確に捉えたハッシュ値を生成することができる。
次に、非特許文献3における第2の問題の解決方法について説明する。非特許文献3においては、第1の問題の解決によって得たs(i=1,・・・,N)と同様の近傍の相対的幾何関係を持つハッシュ空間(埋め込み)を求めることによって、各特徴量x(i=1,・・・,N)をハッシュ値に変換している。具体的には、下記の問題を解決する。
Figure 2015079101
ここで、yは特徴量xに対応するハッシュ値であり、Y={y,・・・,yとした行列である。非特許文献3では、上記問題が適当な緩和によって解くことができることを示している。
以上が、非特許文献3における第1の問題と第2の問題の解決である。この手続きによって求められるハッシュ値は、多様体を正確に捉えることができ、それゆえに非常に高精度である。
しかしながら、前述した通りこの方法では大量のメモリが必要になるという欠点がある。具体的には、新たな特徴量x、すなわち、x(i = 1,2,…,N)に含まれない特徴量に対するハッシュ値を生成する際には、まず(3)式を解き、その後(5)式と解く必要があるが、(3)式は元の高次元な特徴量x(i=1,・・・,N)に依存するため、これらをメモリ上に保持しておく必要があるためである。
そこで、本実施形態では、先に述べたハッシュ関数(2)式を用い、そのwパラメータを求めることによって、メモリの問題を解決する。実際、(2)式よって定義されたハッシュ関数は、省メモリなハッシュ値の生成が可能である。なぜならば、新たな特徴量xに対するハッシュ値を求める際に必要となる計算は、実質的に(6)式の内積演算のみであり、必要となるメモリ量は、wとxそれぞれを記憶するに必要なメモリ量のみだからである。
Figure 2015079101
仮に、特徴量が浮動小数点表示であり、次元Dが100の場合800B程度、仮に次元Dが100000程度になったとしても高々800KBと、現存する一般的なコンピュータにおいても極めて容易に蓄積できるメモリ量に抑えることができる。
以下、本実施形態においてw(k= 1,2,…,B)を求める処理詳細例を記載する。始めに、本実施形態における第1の問題の解決方法について説明する。この処理については、先に記載の「非特許文献3における第1の問題の解決方法」と同様、近傍の相対的幾何関係に基づく方式による手続きを取ってもよい。本実施形態のポイントは続く第2の問題の解決にある。
次に、本実施形態における第2の問題の解決例1について説明する。前述の通り、非特許文献3においては、第1の問題の解決によって得たs(i=1,・・・,N)と同様の近傍の相対的幾何関係を持つハッシュ値yを直接求めていたのに対し、本実施形態においてはwを求める。便宜上、x(i= 1,2,…,N)、w(k= 1,2,…,B)を並べた行列X={x,・・・,x}、W={w,・・・,w}をそれぞれ定義する。具体的には、以下の問題を解く。
Figure 2015079101
ここで、Sはsijを要素に持つ行列である。(7)式は、さらに次の問題と等価である。
Figure 2015079101
これはWについて凸であるので、Wについて微分して極値を取ることで、次の一般化固有値問題に帰着される。
Figure 2015079101
このような一般化固有値問題の解は、先述の通り、反復法などの公知の方法によって求めることができる。
このようにして求めたWは、特徴量xのハッシュ値を生成する際、その基になる実数ベクトルWxが、その近傍にある実数ベクトル{Wx|j∈ε(x)}によって再構成できるようなWであり、これは元の空間における多様体構造を最適に保存するWを求めることに他ならない。
また、前述の通り、新たなハッシュ値を生成する際には、(6)式を計算した後、その符号を調べればよいだけである。したがって、この方法によって、多様体の構造を捉えることによる高い精度、高速処理を兼ね備えたまま、ハッシュ値生成時のメモリ量を大きく削減することができるのである。
上記の処理詳細によって生成されたハッシュ関数、すなわち、具体的には、w (k=1,2,…,B)は、ハッシュ関数記憶部14に記憶される。
次に、本実施形態における第2の問題の解決例2について説明する。上記では、(6)式の形をとるハッシュ関数の場合において、そのパラメータw(k=1,2,…,B)を求める方法について述べたが、本実施形態で扱えるハッシュ関数は、何もこの形に限るものではなく、別の形式をとるハッシュ関数であっても、同様にそのパラメータを決定することができる。
例えば、次のようなハッシュ関数も扱うことができる。
Figure 2015079101
ここで、αk,tはパラメータ、κ(x,x)はカーネル関数である。カーネル関数は、
Figure 2015079101
のような関数であり、さらにN個の特徴量{x,・・・,x}に対して、
Figure 2015079101
及び、任意の実数α、αに対して
Figure 2015079101
を満たすような任意の関数である。
このような関数は無数に存在するが、例を挙げれば、
Figure 2015079101
Figure 2015079101
Figure 2015079101
などが存在する。ただし、β、γは正の実数値パラメータ、pは整数パラメータであり、適宜決定してよい。
(10)式において、b
Figure 2015079101
すなわち平均値で定められる定数なので、(10)式は、
Figure 2015079101
と、内積の形に変換できる。ただし、
Figure 2015079101
である。ここで、Tはハッシュ関数を定める定数である。上記ハッシュ関数、具体的にはカーネルベクトル写像κ(x)は、T個の特徴量によって定められるが、TはT<Nの範囲で任意の値に決めてよい。例えば、T=300等として、全特徴量{x,・・・,x}の中からランダムにT個選んでもよいし、あるいはK−meansなどのクラスタリング法を用いて選ばれた代表ベクトルとしてもよい。
このように定義されたハッシュ関数は、カーネル関数の形で定義された非線形写像を扱うことができる。したがって、非線形な関数、すなわち、直線だけでなく、曲線も扱える点で、(6)式によるハッシュ関数よりも柔軟な表現が可能であるという利点を持つ。
以下、(18)式の形式をとるハッシュ関数において、そのパラメータαを決定する方法を述べる。便宜上、κ(x)(i= 1,2,…,N)、α(k= 1,2,…,B)を並べた行列Κ={κ(x),・・・,κ(x)}、Α={α,・・・,α}をそれぞれ定義する。具体的には、(6)式で定義されるハッシュ関数で言うところの(7)式に相当する、以下の問題を解く。
Figure 2015079101
この問題は、変数こそ違うものの、(7)式の問題と等価であるため、全く同様の手続きで解くことができる。上記の処理詳細によって生成されたハッシュ関数、具体的には、α(k= 1,2,…,B)及び、カーネル関数κ(x)は、ハッシュ関数記憶部14に記憶される。
次に、ハッシュ値生成処理について説明する。前述のハッシュ関数生成処理が済んでいれば、ハッシュ関数記憶部14には、B組のハッシュ関数が記憶されている。これを用いれば、(2)式、あるいは、(10)式にしたがって、特徴量で表現された任意のコンテンツを、Bビット以下のハッシュ値で表現することができる。
次に、類似コンテンツの発見処理について説明する。以上、本実施形態の一例により生成したハッシュ関数によって、類似コンテンツを高速かつ省メモリに検索する例について説明する。コンテンツデータベース2にN個の特徴量X={x,・・・,x}が記憶されているとし、これらの特徴量は全て(2)式に基づいてハッシュ値Y={y,・・・,y}に変換されているものとする。このとき、目的はXに含まれない特徴量xに対して類似するコンテンツをXの中から発見することである。
まず、(2)式に基づいて、特徴量xをハッシュ値yに変換しておく。最も単純には、図7に示すハッシュテーブルによる方法がある。まず、コンテンツデータベース2に登録されているハッシュ値Yによって、図7に示すようなハッシュテーブルを構成する。このテーブルでは、あるハッシュ値と、そのハッシュ値に変換された特徴量(コンテンツ識別子)を対応づけて記憶しており、ハッシュ値が与えられた際に、それと同一のハッシュ値を取るコンテンツを即時発見することができる。例えば、ハッシュ値「0000」を指定した場合、それに対応づけられたコンテンツ1、コンテンツ5・・・を直ちに発見できる。同様に、このハッシュテーブルを利用すれば、ハッシュ値yに対応したコンテンツを即座に発見することが可能となる。
この方法によれば、コンテンツデータベース2に記憶されたコンテンツの数Nに寄らず、ほぼ一定の時間で高速に、かつ、元の特徴量をメモリに保持する必要がないため、省メモリに類似コンテンツを発見できるという利点がある。
また、別の方法として、ハミング距離による距離計算を利用することができる。すなわち、ハッシュ値yとYに含まれるN個のハッシュ値との距離を計算し、距離の小さいものを類似コンテンツとして得るものである。ハッシュ値はバイナリであるため、距離計算は例えばハミング距離で計算することができるが、ハミング距離はXOR(排他的論理和)とpopcnt演算(すなわち、バイナリ列のうち、1となっているビットの数を数える演算)のみで計算できること、及び、ハッシュ値は通常少数のバイナリ値で表現できることから、元の特徴量で距離計算する場合に比べ、遥かに高速に演算できる。
実験の結果、2.53GHz Intel Xeon CPU and 64GB RAMのコンピュータを利用し、それぞれ960次元の景観特徴量で記述された約100万枚の画像が記憶されたコンテンツデータベースに対し、64ビットのハッシュ値を生成した場合には、元の特徴量で距離計算する場合に比べて、ハッシュ値でハミング距離計算した方が、約1000倍高速に演算できた。
以上説明したように、本実施形態によれば、特徴量空間の多様体構造を捉えたパラメトリックなハッシュ関数を生成することによって、高精度、高速でありながら、省メモリなハッシュ値生成、及び類似コンテンツの発見を実現することができる。
なお、本実施形態の主要な特徴を満たす範囲内において、任意の用途と構成を取ることができることは言うまでもない。例えば、ハッシュ関数生成部13とハッシュ値生成部15は分離可能であり、例えば、上記例における装置構成を示す図1以外にも、サーバクライアント装置構成を取ることもできる。図8に、類似コンテンツ検索を実施する場合について、その一例を示す。
同図に示すサーバ装置8は、入力部81、特徴抽出部82、ハッシュ関数生成部83、ハッシュ関数記憶部84、ハッシュ値生成部85、及び出力部86を備える。また、同図に示すクライアント装置10は、入力部101、特徴抽出部102、ハッシュ値生成部103、ハッシュ関数記憶部104、及び出力部105を備える。
ここで、サーバ装置8とクライアント装置10において、共通する構成要素(入力部、特徴抽出部、ハッシュ関数記憶部、ハッシュ値生成部)はそれぞれ同一の機能を有するように構成し、また、図1に記載した各構成要素と同一名称のものは、図1の場合と同一の機能を有するものとしてよい。さらに、ハッシュ値生成部の内容は、それぞれ何らかの通信手段で適宜同期されているものとする。
図8に示す装置構成における処理動作は下記の通りである。まずサーバ装置8は、上記説明した処理と同様の処理を以って、適宜ハッシュ関数を生成、クライアント装置のそれと同期する。さらに、コンテンツデータベース9中のコンテンツに対して、やはり上記説明した処理と同様の処理を以って、ハッシュ値を生成、コンテンツデータベース9に記憶しておく。
一方、クライアント装置10は、利用者からの検索要求、すなわち、新規コンテンツの入力部101への入力を受け付けたら、当該コンテンツに対してハッシュ値を生成クライアント装置で生成された新たなコンテンツに対するハッシュ値を生成し、出力部105からサーバ装置8の入力部81へと当該ハッシュ値を出力する。
クライアント装置10からハッシュ値を受けた場合、サーバ装置8は、当該ハッシュ値を用いて、コンテンツデータベース9へと検索を掛け、ハッシュ値に基づいて類似コンテンツを発見し、その結果をクライアント装置10へと出力する。
最後に、クライアント装置10は、サーバ装置8より受け取った検索結果を利用者に出力する。
このように構成することで、サーバ装置8でハッシュ関数生成処理を実施し、クライアント装置ではハッシュ値生成処理のみを実施するように構成することができる。
この構成を取るメリットを説明する。一般に、クライアント装置(パソコン、携帯端末等)は、サーバ装置と比較して演算能力に乏しいため、ハッシュ関数生成のように演算量が比較的多い処理には適さない場合がある。この構成にすれば、ハッシュ関数生成処理は演算能力の高いサーバ装置で適宜実施し、クライアント装置では演算量の少ないハッシュ値生成処理だけを実施することができる。さらに、通常、ネットワークを介した通信によってデータ容量の多い情報を伝送する場合、伝送時間が掛かるという問題があるが、当該構成によって、伝送するのは情報量の小さいハッシュ値のみでよくなり、検索に対する即応性を高めることができる。
以上説明したように、この構成によれば、大量のメディアコンテンツから、高精度でありながら、高速かつ省メモリに類似するコンテンツを発見するためのハッシュ関数を生成することができるとともに、このハッシュ関数を用いてハッシュ値を生成することができる。この構成により、省メモリであることから、例えば、メモリ量の小さいモバイル端末(スマートフォンやタブレット)での利用も可能となる。また、高速であることから、実時間性の要求される利用に対しても対応可能である。これらの効果を活用した具体的な利用シーンとして、街中を歩いているときに気になる場所や商品をモバイル端末で写真撮影し、類似した場所・商品を検索することが可能になる。
前述した実施形態におけるハッシュ関数生成部、ハッシュ値生成部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
膨大なメディアコンテンツから、高精度でありながら、高速、さらに省メモリに類似するコンテンツを発見することが不可欠な用途に適用できる。
1・・・情報処理装置、11、81、101・・・入力部、12、82、102・・・特徴抽出部、13、83・・・ハッシュ関数生成部、14、84、104・・・ハッシュ関数記憶部、15、85、103・・・ハッシュ値生成部、16、86、105・・・出力部、2・・・コンテンツデータベース、8・・・サーバ装置、9・・・コンテンツデータベース

Claims (8)

  1. デジタルデータをバイナリ値に変換するハッシュ関数生成方法であって、
    前記デジタルデータをD(D>0)次元実数値ベクトルによって表現した特徴量を抽出する特徴量抽出ステップと、
    前記特徴量について、その近傍の相対的幾何関係を求める幾何関係算出ステップと、
    前記相対的幾何関係に基づいて、ハッシュ関数を表現するためのパラメータを決定して前記ハッシュ関数を生成する関数生成ステップと
    を有することを特徴とするハッシュ関数生成方法。
  2. 前記ハッシュ関数は、前記特徴量と前記パラメータとの内積として表現されることを特徴とする請求項1に記載のハッシュ関数生成方法。
  3. デジタルデータに対応するD(D>0)次元実数値ベクトルたる特徴量を抽出する特徴量抽出ステップと、
    請求項1または2に記載のハッシュ関数生成方法により生成された1つ以上のハッシュ関数を用いて、前記特徴量を1つ以上のバイナリ値に変換する変換ステップと
    を有することを特徴とするハッシュ値生成方法。
  4. デジタルデータをバイナリ値に変換するハッシュ関数生成装置であって、
    前記デジタルデータをD(D>0)次元実数値ベクトルによって表現した特徴量を抽出する特徴量抽出手段と、
    前記特徴量について、その近傍の相対的幾何関係を求める幾何関係算出手段と、
    前記相対的幾何関係に基づいて、ハッシュ関数を表現するためのパラメータを決定して前記ハッシュ関数を生成する関数生成手段と
    を備えることを特徴とするハッシュ関数生成装置。
  5. 前記ハッシュ関数は、前記特徴量と前記パラメータとの内積として表現されることを特徴とする請求項4に記載のハッシュ関数生成装置。
  6. デジタルデータに対応するD(D>0)次元実数値ベクトルたる特徴量を抽出する特徴量抽出手段と、
    請求項4または5に記載のハッシュ関数生成装置により生成された1つ以上のハッシュ関数を用いて、前記特徴量を1つ以上のバイナリ値に変換する変換手段と
    を備えることを特徴とするハッシュ値生成装置。
  7. コンピュータに、請求項1または2記載のハッシュ関数生成方法を実行させるためのハッシュ関数生成プログラム。
  8. コンピュータに、請求項3記載のハッシュ値生成方法を実行させるためのハッシュ値生成プログラム。
JP2013215723A 2013-10-16 2013-10-16 ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム Active JP6134246B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013215723A JP6134246B2 (ja) 2013-10-16 2013-10-16 ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013215723A JP6134246B2 (ja) 2013-10-16 2013-10-16 ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム

Publications (2)

Publication Number Publication Date
JP2015079101A true JP2015079101A (ja) 2015-04-23
JP6134246B2 JP6134246B2 (ja) 2017-05-24

Family

ID=53010564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013215723A Active JP6134246B2 (ja) 2013-10-16 2013-10-16 ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム

Country Status (1)

Country Link
JP (1) JP6134246B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671227B1 (ko) * 2015-05-22 2016-11-01 줌인터넷 주식회사 문서 중복 및 유사도를 검출하기 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록 매체
US10121085B2 (en) 2016-03-10 2018-11-06 Fujitsu Limited Information processing apparatus and method of searching for similar data
JP2022082538A (ja) * 2019-02-01 2022-06-02 グーグル エルエルシー 動的アプリケーションコンテンツ分析

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP2013109479A (ja) * 2011-11-18 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006092957A1 (ja) * 2005-03-01 2006-09-08 Osaka Prefecture University Public Corporation 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置
JP2013109479A (ja) * 2011-11-18 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山口 修、外1名: "パターンハッシング:部分画像と不変量索引を用いた分散アピアランスモデル", 情報処理学会論文誌, vol. 第44巻,第SIG5(CVIM6)号, JPN6017002171, 15 April 2003 (2003-04-15), JP, pages 64 - 73, ISSN: 0003537986 *
黄瀬 浩一、外1名: "特徴点の高速照合とその文書画像検索への応用", 電子情報通信学会誌, vol. 第94巻,第8号, JPN6017002172, 1 August 2011 (2011-08-01), JP, pages 735 - 740, ISSN: 0003537987 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671227B1 (ko) * 2015-05-22 2016-11-01 줌인터넷 주식회사 문서 중복 및 유사도를 검출하기 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록 매체
US10121085B2 (en) 2016-03-10 2018-11-06 Fujitsu Limited Information processing apparatus and method of searching for similar data
JP2022082538A (ja) * 2019-02-01 2022-06-02 グーグル エルエルシー 動的アプリケーションコンテンツ分析
US20220360638A1 (en) 2019-02-01 2022-11-10 Google Llc Dynamic application content analysis
US11722575B2 (en) 2019-02-01 2023-08-08 Google Llc Dynamic application content analysis
JP7422823B2 (ja) 2019-02-01 2024-01-26 グーグル エルエルシー 動的アプリケーションコンテンツ分析

Also Published As

Publication number Publication date
JP6134246B2 (ja) 2017-05-24

Similar Documents

Publication Publication Date Title
CN105912611B (zh) 一种基于cnn的快速图像检索方法
Duan et al. Overview of the MPEG-CDVS standard
Yang et al. Scalable mobile image retrieval by exploring contextual saliency
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
JP5596648B2 (ja) ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム
JP6368677B2 (ja) 写像学習方法、情報圧縮方法、装置、及びプログラム
WO2020017380A1 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
Wang et al. Beauty product image retrieval based on multi-feature fusion and feature aggregation
Zhang et al. Large‐scale video retrieval via deep local convolutional features
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
Liu et al. Adding spatial distribution clue to aggregated vector in image retrieval
JP2016066012A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6152032B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6461773B2 (ja) ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Liu et al. Video copy detection by conducting fast searching of inverted files
Lu et al. Content-oriented multimedia document understanding through cross-media correlation
JP2015201041A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Zhang et al. Short video fingerprint extraction: from audio–visual fingerprint fusion to multi-index hashing
JP2015079333A (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
Du et al. A Low Overhead Progressive Transmission for Visual Descriptor Based on Image Saliency.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170421

R150 Certificate of patent or registration of utility model

Ref document number: 6134246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150