JP2017040972A - 特徴量生成装置、方法、及びプログラム - Google Patents

特徴量生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017040972A
JP2017040972A JP2015160456A JP2015160456A JP2017040972A JP 2017040972 A JP2017040972 A JP 2017040972A JP 2015160456 A JP2015160456 A JP 2015160456A JP 2015160456 A JP2015160456 A JP 2015160456A JP 2017040972 A JP2017040972 A JP 2017040972A
Authority
JP
Japan
Prior art keywords
feature
vector
vectors
content
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015160456A
Other languages
English (en)
Other versions
JP6364387B2 (ja
Inventor
豪 入江
Takeshi Irie
豪 入江
潤 島村
Jun Shimamura
潤 島村
明 小島
Akira Kojima
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015160456A priority Critical patent/JP6364387B2/ja
Publication of JP2017040972A publication Critical patent/JP2017040972A/ja
Application granted granted Critical
Publication of JP6364387B2 publication Critical patent/JP6364387B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる。
【解決手段】変換学習部21が、量子化器及び変換行列を、特徴量ベクトルと、量子化器及び変換行列を用いて特徴量ベクトルから得られるバイナリベクトルとの誤差を最小にするように定める。量子化部13が、特徴量ベクトルの各々に対して、予め定めた量子化器を適用することで、特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当て、バイナリ化部14が、予め求めた所定の変換行列を適用することで、バイナリベクトルを求める。
【選択図】図1

Description

本発明は、特徴量生成装置、方法、及びプログラムに係り、特に、コンテンツの特徴ベクトルをバイナリベクトルに変換する特徴量生成装置、方法、及びプログラムに関する。
通信環境やコンピュータ、分散処理基盤技術の高度・高品質化により、ネットワークに流通するメディアコンテンツの数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
上記のような用途においては、一般にコンテンツの意味内容に興味があり、意味内容として同一、又は類似したコンテンツを発見する手続きが重要な役割を果たす。ここで言う意味内容とは、コンテンツの内容を表すインスタンスであり、実態を伴い、名称づけできるものを指す。例えば、画像や映像に写っている物体がその代表例である。
例えば、コンテンツを分類する場合を考えると、同じような意味内容を持つコンテンツを同じカテゴリに分類したいことが多い。あるいは検索の場合、あるコンテンツをクエリとして与えたとき、このコンテンツと同一あるいは類似した意味内容を持つコンテンツを検索することが基本的な要件となる。そのほか、コンテンツ推薦においても、利用者がこれまでに閲覧した/閲覧しているコンテンツと意味内容として同一、ないし類似したコンテンツを発見してこれを推薦する。また、コンテンツ要約の場合においても、意味内容に重複のない部分を発見し、これをまとめていく処理が必要となる。
ここで、意味内容が同一、又は類似したコンテンツを発見する典型的な手続きについて解説しておく。まず、各々のコンテンツを一つ以上の特徴量ベクトルの集合によって表現する。次に、互いに異なる二つのコンテンツに含まれる特徴量ベクトル同士の近さを測り、これが近いペア(マッチするペア)が多数含まれているほど、意味内容が近しい、又は、同一のコンテンツであると見做す。
ここで、一つのコンテンツを一つ以上の特徴量ベクトルの集合として表現する理由を、コンテンツが画像で、意味内容が物体である場合を例に説明しよう。なお、意味内容が物体以外のもの、例えば文字や図形、情景や場所などを表す場合も全く同様であり、また、コンテンツが映像である場合にも、映像は画像の系列と考えられるので、この場合にも全く同様である。
通常、物体は、例え同一の物体であっても、どの画像にも同じ位置・姿勢(角度など)・大きさで写っているわけではなく、画像によってさまざまである。然るに画像から抽出される特徴量は、位置・姿勢・大きさに対して不変性を持つことが望ましい。画像一枚そのものを表現するような単純な特徴量ベクトルでは、このような不変性を得ることは難しい。例えばピクセル値をベクトルに並べたもの等は、位置・姿勢・大きさいずれに対しても不変でない。一方、一部情報を抽象化したもの、例えば、色ヒストグラム等は、位置・姿勢に対する不変性は持ちうるが、大きさに対する不変量ではない。また、物体の一部が欠けていたりする場合に対しても脆弱であるし、情報を抽象化している分判別精度が劣化しやすい。一方で、画像の微小な領域を大量に抽出し、各微小領域を表現する一定次元の特徴量ベクトルを得るものとし、この複数の特徴量ベクトルの集合によって画像を表現したとすると、位置・姿勢・大きさ、いずれに対しても不変な特徴量とすることができる。より具体的には、このように表現された二枚の画像があるとき、各画像を表現する特徴量ベクトルの集合から、それぞれ一サンプルずつを取って比較し、同一性を判定する。同一なものの数が多ければ、この二枚の画像は同一の物体を含む可能性が高く、小さければ低いと言える。各画像の(微小領域の)特徴量ベクトル同士の比較は、微小領域の位置や大きさに依らず行われる。また、もし特徴量ベクトル自体が姿勢に対して不変性を持つものであるとすれば、このような表現及びその比較は、位置・姿勢・大きさのいずれにも不変である。実際、姿勢に対して不変性を持つ特徴量ベクトルを得る方法は、多くの方法が知られており、例えば非特許文献1に記載のScale Invariant Feature Transform(SIFT)や非特許文献2に記載のSpeed−up Robust Features(SURF)などが存在する。
以上述べた通り、上記典型的な手続きによれば、コンテンツを一つ以上の特徴量ベクトルの集合として表現することで、位置・姿勢・大きさによらず、頑健に、意味内容が同一、又は、近しいコンテンツを発見することができる。
一方で、このような方法は、コンテンツ同士を比較するために、多数の特徴量ベクトルを比較しなければならず、非常に非効率的であるという問題がある。
仮に、コンテンツが128次元の特徴量ベクトル10000個で表現されているとしよう。この時、任意の二つのコンテンツを比較するのに、10000×10000×128の、計128億回の演算を要し、一般的なコンピュータで実行した場合、10〜15秒程度の時間を要する。もしコンテンツ数が10000あったとして、これらの中から意味内容が同一あるいは近しいコンテンツを発見するような場合には、さらにこの10000倍の時間を要することとなる。
加えて、このような特徴量ベクトルが実数値(4バイト精度)を全てメモリにストアした場合、約50ギガバイト(GB)という非常に大きなメモリが必要となる。
以上の問題を鑑み、実用上、高速かつ高効率に、意味内容が同一又は近しいコンテンツを発見可能にする特徴量生成技術が望まれる。
以上の問題に対して、従来よりいくつかの発明がなされ、開示されてきている。
非特許文献3には、特徴量ベクトルを量子化することによって、文書検索の容量で同一の物体を含む画像を発見可能にする方法を開示している。画像から、微小領域であるところの多数の特徴点を検出し、各特徴点をSIFT特徴量によって記述する。このようにして抽出された多数のSIFT特徴量をK−means法によってクラスタリングすることで、予めベクトル量子化器(符号張)を学習しておく。この量子化器を用いて、元の画像の特徴量ベクトルを量子(符号)にベクトル量子化することで、画像は複数の量子によって表現されることになる。結果として、画像と量子の関係は、文書とこれに含まれる単語の関係と等価になるので、文書検索と同じ容量で検索が実行できるようになる。
特許文献1には、非特許文献3に開示されている手続きと同様の手続きを取り、さらに、各量子の出現頻度を複数種類求めることで、より高精度に同一の物体を含む画像を発見することができる方法を開示している。
非特許文献4に開示されている技術は、下記のようなものである。まず、非特許文献3に開示されている手続きと同様に量子化器を学習する。また、特徴量ベクトルの次元に等しい大きさを持つランダムな変換行列を一つ生成し、さらに、量子ごとに各量子に割り当てられた特徴量ベクトルに対して、この変換行列を適用した際に得られるベクトルの中央値ベクトルを求めておく。画像を表現する際には、まず、当該画像に含まれる特徴量ベクトルを量子化器を用いて量子化した後、さらに、先の変換行列を特徴量ベクトルに適用し、特徴量ベクトルが先に求めた中央値ベクトルよりも大きいか否かを判定することによって、二値(例えば1、0)のバイナリベクトルを生成する。これにより、各特徴量ベクトルが、量子と二値とのバイナリベクトルの二種類の情報によって表現されることとなる。画像間(又は異なる画像に含まれる特徴量ベクトル間)の比較を実行する際には、特徴量ベクトルが割り当てられた量子が同一であり、さらに、対応するバイナリベクトル間の距離が一定値以下である場合に限り、両者はマッチすると判定する。
非特許文献5に開示されている技術は、下記のようなものである。まず、非特許文献3に開示されている手続きと同様に量子化器を学習する。画像を表現する際には、まず、当該画像に含まれる特徴量ベクトルを量子化器を用いて量子化する。続いて、量子ごとに、当該量子に割り当てられた特徴量ベクトルと、当該量子の代表ベクトルとの残差ベクトルを求め、その総和を取る。最終的に、量子ごとに計算されたこの残差ベクトルを一列に並べたベクトル(すなわち、「量子数×特徴量ベクトル次元数」の次元を持つ)を求め、これを当該画像の表現とする。
非特許文献6には、非特許文献5に類似した技術が開示されている。非特許文献5の技術との違いは、量子ごとの残差ベクトルの総和に対して、非特許文献4同様、特徴量ベクトルの次元に等しい大きさを持つランダムな変換行列を適用し、これが中央値ベクトルよりも大きいか否かを判定することによって、二値(例えば1、0)のバイナリベクトルに変換する。最終的に、量子ごとに計算されたバイナリベクトルを一列に並べたベクトル(すなわちこちらも、「量子数×特徴量ベクトル次元数」の次元を持つ)を求め、これを当該画像の表現とする。
特開2014−229063
D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004 H. Bay, T. Tuytelaars, and L.V. Gool, "SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006 Josef Sivic, Andrew Zisserman. Video Google: A Text Retrieval Approach to Object Matching in Videos. In Proc. IEEE International Conference on Computer Vision (ICCV). Pages. 1470-1477, 2003. Herve Jegou, Matthijs Douze, Cordelia Schmid. Hamming Embedding and Weak Geometric Consistency. In Proc. European Conference on Computer Vision (ECCV). Pages. 304-317, 2008. Herve Jegou, Matthijs Douze, Cordelia Schmid, Patrick Perez. Aggregating Local Descriptors into a Compact Image Representation. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Pages. 3304-3311, 2010. Giorgos Tolias, Yannis S. Avrithis, Herve Jegou. To Aggregate or Not To Aggregate: Selective Match Kernels for Image Search. In Proc. IEEE International Conference on Computer Vision (ICCV). Pages. 1401-1408, 2013.
大局的にみれば、既存の技術においては、精度と処理効率の両立がなされていない点が問題である。
非特許文献3、及び特許文献1に開示されている技術は、特徴量ベクトルを量子化し、コンテンツを量子の集合として表現することで、非効率的な特徴量ベクトルの比較を省き、処理を効率化することができていた。しかしながら、本来実数値の特徴量ベクトルを、単純に量子化してしまうと、量子化誤差の影響が非常に大きく、結果として精度が大きく劣化するという問題が出てきてしまう。
反対に、非特許文献5の技術は、各量子に割り当てられた特徴量ベクトルと代表ベクトルとの残差ベクトルの総和を求めることで、この量子化誤差の影響を低減している。しかしながら、このようにして求められる残差ベクトルは依然として実数値のままであり、現実的な量子数で量子化した場合には非効率的な処理になってしまうという問題がある。つまり、例えば、量子数Kが16ビット、すなわち2^16=65536個の量子によって量子化されるとした場合、最終的にコンテンツを表現するベクトルの長さは1コンテンツあたり65536×128=8,388,608次元と膨大な次元となる。最悪の場合、情報量にして1コンテンツ当たり32メガバイト(MB)、仮にコンテンツ数が10000であるとすると、必要なメモリ容量は312GBにまで膨れ上がることになる。さらに、コンテンツ間の比較を行う場合にも、この非常に高次元な実数値ベクトルの距離を比較することになるので、多大な時間を要してしまう。
非特許文献6の技術は、非特許文献5の技術の効率を改善しようとした技術であると見做すことができる。各量子に割り当てられた特徴量ベクトルと代表ベクトルとの残差ベクトルの総和を、ランダムな変換行列と中央値ベクトルによってバイナリベクトル化する。つまり、例えば、先の例と同様、16ビット量子化、コンテンツ数10000の場合、必要な最悪メモリ容量は10GB程度にまで抑えることができる。さらに、バイナリベクトルの比較は論理演算のみ(排他的論理和と、1であるビットの数のカウント)で演算することが可能であり、実数値である残差ベクトルの比較よりも遥かに高速に処理できる。しかしながら、この技術は、本来実数である特徴量ベクトルをランダムな変換行列によってバイナリベクトルに変換するため、元の特徴量ベクトルの持つ情報を必ずしも良好に保存しない。言い換えれば、バイナリ化することによる量子化誤差の影響が無視できない位大きくなる。さらに、非特許文献3、及び特許文献1と同様、量子化による量子化誤差の影響を受けるため、トータルとしての量子化誤差の影響が非常に大きく、結果として甚大な精度劣化を引き起こすという問題が残っていた。
以上概観するに、現在に至るまで、処理時間、メモリ容量の観点での効率的でありながら、意味内容が同一または近しいコンテンツを精度よく発見できるコンテンツの特徴量を生成することができる技術は発明されていなかった。
本発明は、上記問題点を解決するために成されたものであり、意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる特徴量生成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る特徴量生成装置は、一つ以上の特徴量ベクトルの集合によって表現されたコンテンツを、前記一つ以上のベクトルの集合が持つ情報量よりも小さい情報量となるようなバイナリベクトルに変換する特徴量生成装置であって、特徴量生成対象のコンテンツを表現する前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、予め定めた量子化器を適用することで、前記特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当てる量子化部と、前記量子が割り当てられた前記特徴量ベクトルの各々について、予め求めた所定の変換行列を適用することで、前記バイナリベクトルを求めるバイナリ化部と、を含んで構成されており、前記量子化器、及び前記変換行列は、入力された複数の前記特徴量ベクトルに基づいて、前記特徴量ベクトルと、前記量子化器及び前記変換行列を用いて前記特徴量ベクトルから得られる前記バイナリベクトルとの誤差を最小にするように定められることを特徴とする。
また、第1の発明に係る特徴量生成装置において、前記量子化部は、前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、前記量子化器を適用することで、前記特徴量ベクトルの各々に前記所定個数の量子のうちの少なくとも一つを割り当てると共に、同一の量子が割り当てられた一つ以上の特徴量ベクトルに基づいて、統合特徴量ベクトルを求め、前記バイナリ化部が、前記統合特徴量ベクトルについて、前記変換行列を適用することで、前記バイナリベクトルを求めるようにしてもよい。
第2の発明に係る特徴量生成方法は、一つ以上の特徴量ベクトルの集合によって表現されたコンテンツを、前記一つ以上のベクトルの集合が持つ情報量よりも小さい情報量となるようなバイナリベクトルに変換する特徴量生成装置における特徴量生成方法であって、量子化部が、特徴量生成対象のコンテンツを表現する前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、予め定めた量子化器を適用することで、前記特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当てる量子化ステップと、バイナリ化部が、前記量子が割り当てられた前記特徴量ベクトルの各々について、予め求めた所定の変換行列を適用することで、前記バイナリベクトルを求めるバイナリ化ステップと、を含んで実行し、前記量子化器、及び入力された複数の前記特徴量ベクトルに基づいて、前記特徴量ベクトルと、前記量子化器及び前記変換行列を用いて前記特徴量ベクトルから得られる前記バイナリベクトルとの誤差を最小にするように定められることを特徴とする。
また、第2の発明に係る特徴量生成方法において、前記量子化部が割り当てるステップは、前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、前記量子化器を適用することで、前記特徴量ベクトルの各々に前記所定個数の量子のうちの少なくとも一つを割り当てると共に、同一の量子が割り当てられた一つ以上の特徴量ベクトルに基づいて、統合特徴量ベクトルを求め、前記バイナリ化部が求めるステップは、前記統合特徴量ベクトルについて、前記変換行列を適用することで、前記バイナリベクトルを求めるようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、第2の発明に係る特徴量生成方法の各ステップを実行させるためのプログラムである。
本発明の特徴量生成装置、方法、及びプログラムによれば、量子化器及び変換行列を、特徴量ベクトルと、量子化器及び変換行列を用いて特徴量ベクトルから得られるバイナリベクトルとの誤差を最小にするように定め、特徴量ベクトルの各々に対して、量子化器を適用することで、特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当て、変換行列を適用することで、バイナリベクトルを求めることにより、意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる、という効果が得られる。
本発明の実施の形態に係る特徴量生成装置の構成を示すブロック図である。 バイナリベクトルの出力/格納の一例を示す図である。 バイナリベクトルの出力/格納の一例を示す図である。 バイナリベクトルの出力/格納の一例を示す図である。 本発明の実施の形態に係る特徴量生成装置における変換学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る特徴量生成装置におけるバイナリベクトル生成処理ルーチンを示すフローチャートである。 特徴量ベクトルとバイナリベクトルとの誤差の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<<全体構成>>
図1は、本発明の実施形態に係る特徴量生成装置1の構成の一例を示す機能ブロック図である。
図1に示す特徴量生成装置1は、特徴抽出部11と、変換学習部12と、量子化部13と、バイナリ化部14とを備え、また記憶装置として記憶部3を備えている。
また、特徴量生成装置1は、コンテンツデータベース2と通信手段を介して接続されて相互に情報通信し、コンテンツデータベース2に登録されているコンテンツ21に基づいて、量子化器31、及び変換行列32を学習生成し、記憶部3に量子化器31、及び変換行列32を格納する変換学習処理と、学習生成した量子化器31、及び変換行列32を用い、新たなコンテンツ4に対して量子・バイナリベクトル情報5を生成するバイナリベクトル生成処理とを実行する。
コンテンツデータベース2は、特徴量生成装置1の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。また、コンテンツデータベース2は、いわゆるRDBMS (Relational Database Management System)などで構成されているものとしてもよい。
コンテンツデータベース2には、コンテンツ21が格納されているものとする。コンテンツ21は、本発明の実施の形態の要件を満たす範囲で、任意の種類のメディアであってよく、例えば、画像であれば画像ファイル、音であれば音ファイル、映像であれば映像ファイル、文書であれば文書ファイルなどの集合によってなるものであるとしてよい。さらに、コンテンツデータベース2には、各コンテンツファイル、各文書ファイルに対して、これらそれぞれを一意に識別可能な識別子(例えば、ファイル固有の通し番号によるID等)が関連づけられており、任意のファイルを参照できるものであるとする。その他、メタデータとして、例えばコンテンツの内容を表現するもの(コンテンツのタイトル、概要文、又はキーワード等)、コンテンツのフォーマットに関するもの(コンテンツのデータ量、サムネイル等のサイズ)などを含んでいても構わないが、本発明の実施形態の一例においては利用しない。
また、特徴量生成装置1が備える各部及びコンテンツデータベース2は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは特徴量生成装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
なお、本発明の実施の形態において必須の構成要素ではないが、本発明の実施の形態に係る特徴量生成装置1により生成されたバイナリベクトルを用いてコンテンツ検索を実行する場合に外部に検索装置6を備える。検索装置6は、特徴量生成装置1、ならびにコンテンツデータベース2と相互に通信可能な形で接続されているものとする。
<<処理部>>
本実施の形態における特徴量生成装置1の各処理部について説明する。
特徴抽出部11は、コンテンツデータベース2に格納されたコンテンツ21、又は、外部から入力されたコンテンツ4を受け取った下で、これを解析し、一つ以上の特徴量ベクトルの集合を抽出してコンテンツデータベース2又は量子化部13に出力する。
変換学習部12は、コンテンツデータベース2に格納された複数の特徴量ベクトルに基づいて、特徴量ベクトルと、量子化器31及び変換行列32を用いて特徴量ベクトルから得られるバイナリベクトルとの誤差を最小にするように量子化器31、及び変換行列32を学習して生成し、学習生成した量子化器31、及び変換行列32を記憶部3に格納する。
量子化部13は、特徴量生成対象のコンテンツを表現する一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々について、記憶部3に格納された量子化器31を適用することで、特徴量ベクトルの各々に所定個数の量子のうち少なくとも一つを割り当て、コンテンツデータベース2に格納するか、又は、特徴量ベクトルと共にバイナリ化部14に出力する。量子の数Kは事前に定めて置くものとし、任意の正の整数であればよい。例えばK=512、2048、K=65536などとしておけばよい。特徴量ベクトルに対して量子を割り当てる処理は、各々の特徴量ベクトルに対して、K個の量子の中から一つ以上の量子を関連づける処理である。また、同一の量子が割り当てられた一つ以上の特徴量ベクトルに基づいて、統合特徴量ベクトルを求める。
バイナリ化部14は、量子が割り当てられた特徴量ベクトルの各々について、記憶部3に格納された変換行列32を適用することで、バイナリベクトルを求め、求められたバイナリベクトルをコンテンツデータベース2に格納するか、又は外部に出力する。本実施の形態では、統合特徴量ベクトルについて、変換行列を適用することで、バイナリベクトルを求める。
量子、及びバイナリベクトルを格納/出力する形式はいくつか存在する。図2〜4にその一例を示す。本発明の実施形態における特徴量生成装置1は、コンテンツが入力されると、各コンテンツ、量子ごとに一つずつ、各々短いバイナリベクトルを生成する。ここで、あるコンテンツを表現する一つ以上の特徴量ベクトルに対して、量子を割り当てた結果、特定の量子を持たないようなコンテンツも存在することに注意されたい。例えば、図2の例では、コンテンツID=2のコンテンツは、量子ID=2の量子が割り当てられた特徴量ベクトルが存在しないので、これを便宜上N/Aと表現している。
最も単純には、例えば、図2に示すように、コンテンツID、及び量子IDをキーとして、バイナリベクトルを参照できるように出力・格納する方法がありえる。あるいは、コンテンツごとのバイナリベクトル全体に関心がある場合には、図3に示すように、コンテンツごと全ての量子に対して生成された短いバイナリベクトルを一列に並べ、これをコンテンツIDと対応づけて出力・格納してもよい。この形式の場合、存在しない量子(N/A)には仮想的にNULL文字(図中では仮に‘*’としている)を割り当てることで、当該位置にはバイナリベクトルが存在しないことを表現する。実際に、バイナリベクトルを比較する際にこの文字がある箇所はいかなる演算も実行しない(スキップする)こととすればよい。
また、特にコンテンツ検索の目的において実用的であるのは、図4の形式である。これは、量子IDをキーとして、当該量子IDを有するコンテンツIDを列挙して格納する。また、さらに、同じく量子IDをキーとして、当該量子IDを有するコンテンツIDと同一の順に、そのコンテンツID・量子IDにおけるバイナリベクトルを列挙して格納する。この形式の利点は、コンテンツ検索において検索処理を実行する際には、ある量子(量子ID)を持つコンテンツを参照し、その範囲で(バイナリベクトルの)比較を行うことが多く、量子IDをキーとして必要な情報(コンテンツID、及びバイナリベクトル)が即座に、過不足なく参照できることである。
検索装置6を備える構成を採る場合には、予めコンテンツデータベース2に格納されたコンテンツ21に対して、特徴量生成装置1によりバイナリベクトルが生成され同じくコンテンツデータベース2に先の形式で格納されているとする。このとき、検索装置6は、コンテンツ4が利用者より入力されて、特徴量生成装置1により生成・出力された量子・バイナリベクトル情報5を入力として受け取ると、コンテンツデータベース2に対して検索を行い、検索結果7を出力する。量子・バイナリベクトル情報5は、当該コンテンツ4が持つ量子、ならびに対応するバイナリベクトルが特定可能な情報である。本発明の実施の形態が適用可能な範囲において、量子・バイナリベクトル情報とバイナリベクトルが持つ情報は等価であるので、以降、混乱しない限りこれに相当する情報をバイナリベクトルと呼称することとする。
<<処理概要>>
次に、本実施の形態における特徴量生成装置1の処理について説明する。本実施の形態における特徴量生成装置1は、特徴量変換関数を学習生成する変換学習処理と、初期の特徴量ベクトルをバイナリベクトルに変換するバイナリベクトル生成処理を実行する。以下、これら2つの処理について説明する。
最初に、変換学習処理について説明する。図5は、変換学習処理の流れを示すフローチャートである。変換学習処理は、量子化器31及び変換行列32を学習生成する処理であり、実際にコンテンツのバイナリベクトルを生成する前に、少なくとも1度実施しておく処理である。
まず、ステップS201では、特徴抽出部11は、コンテンツデータベース2からコンテンツ21を取得し、コンテンツ21に含まれるコンテンツファイルの各々に対して特徴抽出処理を行って複数の特徴量ベクトルを抽出し、コンテンツデータベース2に格納する。
続いて、ステップS202では、変換学習部12が、コンテンツデータベース2から複数の特徴量ベクトルを読み込み、複数の特徴量ベクトルに基づいて、特徴量ベクトルと、量子化器及び変換行列を用いて特徴量ベクトルから得られるバイナリベクトルとの間の誤差が最小となるように量子化器、及び変換行列を学習生成し、記憶部3に格納する。
以上のステップS201〜ステップS202の処理により、コンテンツデータベース2に格納されたコンテンツ21から、量子化器31、及び変換行列32を生成することができる。なお、各種処理詳細については後述する。
続いて、バイナリベクトル生成処理について説明する。図6は、バイナリベクトル生成処理の流れを示すフローチャートである。バイナリベクトル生成処理は、記憶部3に格納された量子化器31、変換行列32を用いて、入力されたコンテンツを表現する一つ以上の特徴量ベクトルの集合からバイナリベクトルを生成する処理である。
本処理において入力されるコンテンツはコンテンツデータベース2から読み込んでも、外部から入力されても、そのいずれでも構わず、本質的には同じ処理が適用される。以降、簡単のため、外部から入力される場合(図1におけるコンテンツ4が入力された場合)について説明する。
まず、ステップS301では、特徴抽出部11が、外部からコンテンツ4を得て、一つ以上の特徴量ベクトルの集合の要素である特徴ベクトルの各々を抽出し、量子化部13に伝達する。伝達先は量子化部13でなく、コンテンツデータベース2であっても構わない。
続いて、ステップS302では、量子化部13が、ステップS301で抽出した一つ以上の特徴量ベクトルの各々に対して、記憶部3から取得した量子化器31を適用することで、特徴ベクトルの各々に所定個数の量子のうち少なくとも一つを割り当ててバイナリ化部14に出力する。
最後に、ステップS303では、バイナリ化部14が、ステップS302で量子が割り当てられた特徴ベクトルの各々について、割り当てられた量子に基づいて、記憶部3から取得した変換行列32を適用することで、バイナリベクトルを生成し、検索装置6に出力する。
以上の処理により、入力されたコンテンツ4に対して、バイナリベクトル(量子・バイナリベクトル情報5)を求めることができる。
<<各処理の処理詳細>>
以降、各処理の詳細処理について、本実施形態における一例を説明する。
[特徴抽出]
コンテンツの各々に対して、当該コンテンツを表現する一つ以上の特徴量ベクトルの集合を抽出する方法について説明する。初期特徴量抽出処理は、コンテンツの種別に依存し、これによって抽出する/できる特徴量ベクトルは変化するが、抽出する特徴量ベクトルは、コンテンツに対して一義的に定まる、固定の次元を持つベクトルとして表現できるものであれば任意の公知のものを用いてよい。ここでは、コンテンツが画像である場合について述べることとする。
最も好適な例としては、局所特徴量を抽出する。一般に、局所特徴量は、画像から特徴点と呼ばれる領域を検出する特徴点検出法と、領域の画像的特徴を特徴量ベクトルとして記述する記述子の二つによって構成される。例えば非特許文献1に記載のSIFTは、Difference of Gaussian(DoG)と呼ばれる特徴点検出法を用いて特徴点を検出し、各特徴点は輝度値の勾配を表現した記述子によって記述される。これ以外にも様々な特徴点検出法、記述子が一般に知られており、任意のものを用いて構わない。また、必ずしも特徴点検出法に基づいて特徴点を検出する必要はなく、画像中の領域を定めるものであれば任意の手続きを取って構わない。例えば、画像全体を領域とするものとしてもよいし、あるいは画像の高さ・幅に対して一定の割合で(格子状に)領域を取っても構わない。
好ましくはSIFTのように、領域の位置・姿勢(角度)や、その大きさに対して不変となるような特徴量ベクトルを得ることができる方法を採用することが好ましい。以降、本実施形態の一例ではSIFTを用いるものとして説明する。SIFTを用いた場合、抽出される局所特徴量は通常128次元の実数値ベクトルとなる。従って、画像一枚は、特徴点数分の128次元実数値ベクトルの集合として表現される。
また、必ずしも局所特徴量を用いる必要はなく、例えば、領域ごとに明るさ特徴、色特徴、又は形状特徴などを抽出しても構わない。
明るさ特徴としては、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像はV値の量子化数(例えば、16ビット量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴としては、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14などとすればよく、この場合、3軸の合計ビン数は、4×14×14=784、すなわち784次元のベクトルとなる。
形状特徴としては、例えば参考文献1に記載のHistogram of Oriented Gradients(HOG)として知られる特徴量ベクトルを抽出すればよい。
[参考文献1]Navneet Dalal, Bill Triggs. Histograms of Oriented Gradients for Human Detection. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 886-893, 2005.
また、参考文献2などに記載の、ニューラルネットワークによる特徴量を抽出しても構わない。
[参考文献2]Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. In Proc. Advances in Neural Information Processing Systems (NIPS). Pages. 1097-1105, 2012.
以上のように、コンテンツを表現する一つ以上の特徴量ベクトルを求めることができる。
[変換学習:量子化器、変換行列の生成]
次に、量子化器、及び変換行列の生成方法について説明する。
ここでは、M個のコンテンツから抽出された特徴量ベクトルを用いて、量子化器、及び変換行列を生成する。以下(1)式に示すように、j番目のコンテンツから抽出された特徴量ベクトルの集合をSと表し、Sのl番目の要素をs と表す。s は特徴量ベクトルであり、その次元はDである。便宜上、全てのコンテンツから抽出された特徴量ベクトルをまとめたものをSとする。
ここで、Sの要素の数(つまり、全てのコンテンツから抽出された特徴量ベクトルの数)をNと表す。さらに、Sの要素を行列表現したものをXと表す。XはD×Nのサイズを持つ行列である。Xの各列は、元の特徴量ベクトルそのものであり、これをx(i=1, 2, ・・・, N)と表す。
次に、任意の特徴量ベクトルxをバイナリベクトルに変換する手続きの一例を述べる。
本発明の実施形態の一例においては、大まかに量子化、バイナリ化の2ステップによってバイナリベクトルに変換される。量子化とは、量子化器を用いて特徴量ベクトルxを最も近い量子に一つ以上割り当てる処理であり、バイナリ化とは、特徴量ベクトルとそれに割り当てられた量子とに基づいてバイナリベクトルを求める処理である。
まず、量子化部13における量子化について説明する。本発明の実施形態の一例による量子化器31は、予め定められたK個の量子を代表する代表ベクトルによって規定されるものである(符号拡張などと呼ぶこともある)。然るに、K個の量子に量子化する量子化器を求めることは、すなわちK個の代表ベクトルを求めるに等しい。k番目の量子に対応する代表ベクトルをμと表す。この代表ベクトルの次元数は特徴量ベクトルと同じDである。このような代表ベクトル群を用いれば、任意の特徴量ベクトルxに対する量子を割り当てることができる。すなわち、仮に、P個の量子を割り当てることを考えるとすると、特徴量ベクトルxに最も距離の近いP個の代表ベクトルを求め、その代表ベクトルに対応する量子を割り当てればよい。Pは任意の自然数であればよく、例えばP=5などとすればよい。この処理によって、任意の特徴量ベクトルに対して量子(及びこれに対応する代表ベクトル)を割り当てることができる。
続いて、バイナリ化部14におけるバイナリ化について説明する。本発明の実施形態の一例においては、バイナリ化はサイズがc×Dの変換行列Rを用いて実行される。ここで、cは生成されるバイナリベクトルのビット数であり、予め定めた任意の自然数を指定してよい。本発明の実施形態の一例においてはc≦Dとし、例えばD=128であればc=128、c=64、c=32などとすればよい。また、Rの各列は互いに直交するようなものであるとする。先の量子化を経て、特徴量ベクトルxに対して一つ以上の量子及びこれに対応する代表ベクトルが割り当てられる。仮に特徴量ベクトルxにk番目の量子が割り当てられているとすると、k番目の量子に対応する特徴量ベクトルxのバイナリベクトルb
と求められる。このように求められるバイナリベクトルbの値は、代表ベクトルμを起点と見た場合の特徴量ベクトルxの方向(角度)によって決まる。例えば、2つの特徴量ベクトルx、xがあったとしよう。このとき、これら2つの特徴量ベクトルの、代表ベクトルμに対する方向が完全に一致するときは、(2)式によって求まるバイナリベクトルのビットは全て一致する(2つのバイナリベクトルの距離は0)。反対に、もしμに対する方向が真逆であれば、全てのビットが逆になる(2つのバイナリベクトルの距離はc)。また、特徴量ベクトルxに割り当てられている他の量子についても、同様に(2)式を用いた計算を実行する。
以上が特徴量ベクトルxに対するバイナリベクトルを求める手順である。
さて、本発明の実施の形態におけるポイントは、特徴量ベクトルxと、量子化器及び変換行列を用いた結果生成されるバイナリベクトルbが表す特徴ベクトルとの誤差が最小となるように、量子化器及び変換行列を求めることで、良好な検索精度を得ることができるバイナリベクトルを求めることができるようにすることである。
この誤差を図7を用いて説明する。上記説明した量子化、及びバイナリ化の手続きに則った場合、元の特徴量ベクトルx、特徴量ベクトルxに割り当てられた量子の代表ベクトルμ、及び、生成されるバイナリベクトルbの位置関係は、変換行列Rを介して図7のように示すことができる。すなわち、上記量子化、及びバイナリ化の手続きは、特徴量ベクトルxをμ+Rbというベクトルで近似しようとしていることに等しく、結果としてその誤差は
と表現できる。
本発明の実施の形態における変換学習は、この(3)式が表す誤差が、N個の特徴量ベクトルx(i=1, 2, ・・・,N)に対して最小になるような代表ベクトルμ(k=1,2, ・・・,K)と、変換行列Rとを求めることである。以降、簡単のため、特徴量ベクトルxに割り当てられる量子の数は一つとする。このとき、xには唯一のバイナリベクトルbが求められることとなる。そこで(3)式についてのN個の特徴量ベクトルに対する総和を考える。k番目の量子に割り当てがされている特徴量ベクトルのインデクス集合Nと表すとすると、この総和は
と表すことができる。なお、(2)式に示した通り、バイナリベクトルはR(x−μ)の取る符号によって決定されるのであり、スケールに対して不変であるから、その自由度を許容するためサイズcの対角行列Λを導入し、
と書く。このように変換行列R及び対角行列Λを用いて、特徴量ベクトルxに対するバイナリベクトルが表現する特徴量ベクトルを復元することにより誤差が求まる。結果的に、特徴量ベクトルxと、バイナリベクトルとの誤差を最小化するように量子化器31及び変換行列32を求めるには、(5)式を最小化するように全ての未知変数を求めるようにすればよい。具体的には、以下(6)式の最適化問題を解く。
ただし、Δは対角行列の集合である。
上記(6)式の問題を解く手続き、つまり、K個の代表ベクトル{μ}、変換行列R、並びにその他の未知変数である対角行列Λ、{N}、及び{b}を求める手続きを下記に説明する。
まず初期値として、{μ}、及び変換行列Rを適当な方法で生成する。例えば、{μ}はK−means法、変換行列Rはランダムに生成すればよい。続いて、下記〈1〉〜〈5〉の手続きを所定の条件(例えば、所定の回数繰り返す、あるいは、(5)式の値が所定の値よりも小さくなるなど)を充足するまで繰り返す。
〈1〉バイナリベクトル{b}を求める。{b}は、特徴量ベクトルxと、代表ベクトルμと、変換行列Rとに基づいて、(2)式に従って求めればよい。
〈2〉対角行列Λを求める。Λは、特徴量ベクトルxの行列Xと、変換行列Rとに基づいて、下記の(7)式に従って求める。
ただし、
は全要素に1を持つ列ベクトル、meanは列平均を取る関数、diagはベクトルを対角行列に変換する関数である。
〈3〉変換行列Rを求める。まず、バイナリベクトル{b}を列方向に並べた行列をBと表す。Rは次の手順で求める。次に、特徴量ベクトルxの集合Xと、バイナリベクトル{b}を列方向に並べた行列Bと、対角行列Λとに基づいて、下記の(8)式に示す行列Θを求める。
続いて、上記(8)式のΘを特異値分解し、以下(9)式のようにユニタリ行列U、V及び、特異値行列Ωを求める。
最後に、変換行列Rを以下(10)式により求める。
〈4〉全ての代表ベクトル{μ}を求める。全ての特徴量ベクトルを格納した行列Xの内、k番目の量子に割り当てられた特徴量ベクトルに対応する列のみを抽出した行列をXと表す。また、これに対応するバイナリベクトル行列も同じくBと表す。このとき、k番目の量子に対応する代表ベクトルμを次の(11)式により求める(全てのkに対して同様に実施する)。
〈5〉{N}を求める。ただし、Nは、k番目の量子が割り当てられている特徴量ベクトルのインデクス集合である。この操作は、各特徴量ベクトルに対して量子を割り当て直す処理に他ならない。各特徴量ベクトルxに対して、xをシフトしたベクトルx−RΛbを求める。全ての代表ベクトル{μ}の中で、先のシフトしたベクトルに最も近いものを選び、選んだ代表ベクトルを新たに特徴量ベクトルxの量子とする。
以上の手続きによって、上記(5)式を最小とするような量子化器(を規定する代表ベクトル)と変換行列を求めることができる。
[量子化]
先に述べた通り、本発明の実施形態の一例による量子化器31は、上記のように生成されたK個の量子を代表する代表ベクトルμによって規定されるものであり、量子化は、特徴量ベクトルxに対して最も距離の近いP個の代表ベクトルを求め、その代表ベクトルが代表する量子を割り当てればよい。
量子化部13では、実用上は、あるコンテンツに対して抽出された全ての特徴量ベクトルの各々に対して量子化を行うと、同一の量子に割り当てられる特徴量ベクトルが一つ以上存在してしまう場合が起こる。このような場合には、同一の量子に割り当てられている一つ以上の特徴量ベクトルを、単一の特徴量ベクトルに統合した統合特徴量ベクトルを求めることが好ましい。統合特徴量ベクトルは、例えば同一の量子に割り当てられた特徴量ベクトルの平均ベクトルや中央値ベクトル、あるいは、当該量子の代表ベクトルに最も近い特徴量ベクトルなどとすればよい。このように統合特徴量ベクトルを求めることで、複数の特徴量ベクトルの情報を効果的に圧縮することが可能となる。統合特徴量ベクトルも、特徴量ベクトルと同一の次元数を持つベクトルという点では特徴量ベクトルと何ら差はなく、以降、これらを特に区別せずに用いる。
[バイナリ化]
バイナリ化部14においては、量子化部13の処理を経て、特徴量ベクトルの各々が量子に割り当てられているため、先に述べた場合と同様、(2)式に従って、特徴ベクトルの各々について、変換行列32を適用することでバイナリ化し、バイナリベクトルを求めればよい。
<<コンテンツ検索への適用>>
上記説明した本発明の実施の形態に係る特徴量生成装置を、コンテンツ検索に利用する場合の実施形態の一例について説明する。ここでは、コンテンツが画像である場合について説明する。
例えば、コンテンツデータベース2に、M枚のデータベース画像が格納されているとする。上記説明した変換学習処理を通じて量子化器を規定する代表ベクトル群{μ}、ならびに変換行列Rを求め、これが記憶部3に格納されているものとし、さらに、上記M枚のデータベース画像については、上記説明した処理によって既にバイナリベクトルが生成され、図4の形式で格納されているものとする。このとき、目的は新たなクエリ画像が利用者から与えられた時に、当該クエリ画像と同一の意味内容を持つようなデータベース画像を検索することである。
まず、クエリ画像Qに対して特徴抽出処理を施し、一つ以上の特徴量ベクトルの集合{x 、・・・、x }を抽出したとする。特徴量ベクトルの各々に対して先の量子化器を適用して量子化することにより量子を割り当てる。結果として、L(≦K)個の量子が割り当てられたとする。同一の量子が割り当てられた特徴量ベクトルについては、その平均ベクトルを求めて統合特徴量ベクトルとする。この処理によって、クエリ画像Qは、L個の(統合)特徴量ベクトルによって表現されることとなる。
続いて、(2)式に基づき、変換行列Rを用いて量子ごとに特徴量ベクトルをバイナリベクトル化する。以上の処理により、クエリ画像Qは、量子数分のバイナリベクトルによって表現された。
続いて検索処理を行う。上記図4の形式でデータベース画像のバイナリベクトルが格納されているとする。まず、クエリ画像において、空ではない(つまり、特徴量ベクトルに割り当てられたL個の)量子の量子IDを列挙し、当該量子IDをキーとして、データベース画像のバイナリベクトルを参照する。例えば、k番目の量子に対する量子IDがkであるとすると、同じくk番目の量子IDの欄に登録されているバイナリベクトルを全て参照すればよい。
次に、参照したデータベース画像のバイナリベクトルの各々に対して、バイナリベクトルの比較を行う。例えば、k番目の量子に対するクエリ画像のバイナリベクトルをz 、参照したデータベース画像のバイナリベクトルのうちの一つをz と表すとすると、これらはいずれもバイナリベクトルであるから、その距離は両者の排他的論理和を取ったのち、1となっているビットの数を数え上げることで距離を測れば、両者を比較することができる。あるいは、z とz の内積を求めても構わず、この場合は両者の類似度を得ることができる。
全ての量子ID、全てのバイナリベクトルに対して、上記比較を行ったのち、データベース画像毎に、全ての量子について求めた距離(あるいは類似度)の総和を取り、この総和が最も小さい(あるいは大きい)ものから順に意味内容が同一ないし近いデータベース画像として出力する。
バイナリベクトルは情報量が小さく、低容量であり、少数の演算回数で高速に距離(又は類似度)を計算できることから、効率的に処理できる。また、本発明により得られるバイナリベクトルは元の特徴量ベクトルとバイナリベクトルとの誤差が最小となるように求められるのであり、損失が非常に少ない。結果として、元の特徴量ベクトル同様に、精度よくデータベース画像を発見することが可能である。
以上が本発明の実施形態の一例である。
以上、説明したように、本発明の実施の形態に係る特徴量生成装置によれば、量子化器31及び変換行列32を、特徴量ベクトルと、量子化器及び変換行列を用いて特徴量ベクトルから得られるバイナリベクトルとの誤差を最小にするように定め、特徴量ベクトルの各々に対して、量子化器31を適用することで、特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当て、変換行列32を適用することで、バイナリベクトルを求めることにより、意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる。
また、本発明の実施形態によれば、一つ以上の特徴量ベクトルの集合を、情報損失であるところの誤差が最小となるような、より小さい情報量のバイナリベクトルに変換することで、結果として、コンテンツを表現する小さい情報量のバイナリベクトルを生成可能な特徴量生成方法、特徴量生成装置、特徴量生成プログラムを提供することができる。
また、本発明の実施形態に係る特徴生成装置により生成されるコンテンツのバイナリベクトルは、元の一つ以上の特徴量ベクトルの集合と比べて、情報量が小さく、さらにバイナリベクトルであることから、高速な比較演算が可能である。
さらに、本発明の実施形態に係る特徴生成装置により生成されるコンテンツのバイナリベクトルは、元の一つ以上の特徴量ベクトルとの誤差が最小となるように生成されるため、従来の技術で問題となっていた量子化誤差による精度劣化を抑えることができるのであり、高精度なコンテンツ検索が可能である。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
1 特徴量生成装置
2 コンテンツデータベース
3 記憶部
4、21 コンテンツ
5 量子・バイナリベクトル情報
6 検索装置
7 検索結果
11 特徴抽出部
12 変換学習部
13 量子化部
14 バイナリ化部
31 量子化器
32 変換行列

Claims (5)

  1. 一つ以上の特徴量ベクトルの集合によって表現されたコンテンツを、前記一つ以上のベクトルの集合が持つ情報量よりも小さい情報量となるようなバイナリベクトルに変換する特徴量生成装置であって、
    特徴量生成対象のコンテンツを表現する前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、予め定めた量子化器を適用することで、前記特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当てる量子化部と、
    前記量子が割り当てられた前記特徴量ベクトルの各々について、予め求めた所定の変換行列を適用することで、前記バイナリベクトルを求めるバイナリ化部と、
    を含み、
    前記量子化器、及び前記変換行列は、入力された複数の前記特徴量ベクトルに基づいて、前記特徴量ベクトルと、前記量子化器及び前記変換行列を用いて前記特徴量ベクトルから得られる前記バイナリベクトルとの誤差を最小にするように定められることを特徴とする特徴量生成装置。
  2. 前記量子化部は、前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、前記量子化器を適用することで、前記特徴量ベクトルの各々に前記所定個数の量子のうちの少なくとも一つを割り当てると共に、同一の量子が割り当てられた一つ以上の特徴量ベクトルに基づいて、統合特徴量ベクトルを求め、
    前記バイナリ化部が、前記統合特徴量ベクトルについて、前記変換行列を適用することで、前記バイナリベクトルを求めることを特徴とする請求項1に記載の特徴量生成装置。
  3. 一つ以上の特徴量ベクトルの集合によって表現されたコンテンツを、前記一つ以上のベクトルの集合が持つ情報量よりも小さい情報量となるようなバイナリベクトルに変換する特徴量生成装置における特徴量生成方法であって、
    量子化部が、特徴量生成対象のコンテンツを表現する前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、予め定めた量子化器を適用することで、前記特徴量ベクトルの各々に所定個数の量子のうちの少なくとも一つを割り当てる量子化ステップと、
    バイナリ化部が、前記量子が割り当てられた前記特徴量ベクトルの各々について、予め求めた所定の変換行列を適用することで、前記バイナリベクトルを求めるバイナリ化ステップと、
    を含み、
    前記量子化器、及び入力された複数の前記特徴量ベクトルに基づいて、前記特徴量ベクトルと、前記量子化器及び前記変換行列を用いて前記特徴量ベクトルから得られる前記バイナリベクトルとの誤差を最小にするように定められることを特徴とする特徴量生成方法。
  4. 前記量子化部が割り当てるステップは、前記一つ以上の特徴量ベクトルの集合の要素である特徴量ベクトルの各々に対して、前記量子化器を適用することで、前記特徴量ベクトルの各々に前記所定個数の量子のうちの少なくとも一つを割り当てると共に、同一の量子に割り当てられた一つ以上の特徴量ベクトルに基づいて、統合特徴量ベクトルを求め、
    前記バイナリ化部が求めるステップは、前記統合特徴量ベクトルについて、前記変換行列を適用することで、前記バイナリベクトルを求めることを特徴とする請求項3に特徴量生成方法。
  5. コンピュータに、請求項3又は請求項4に記載の特徴量生成方法の各ステップを実行させるためのプログラム。
JP2015160456A 2015-08-17 2015-08-17 特徴量生成装置、方法、及びプログラム Active JP6364387B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015160456A JP6364387B2 (ja) 2015-08-17 2015-08-17 特徴量生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015160456A JP6364387B2 (ja) 2015-08-17 2015-08-17 特徴量生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017040972A true JP2017040972A (ja) 2017-02-23
JP6364387B2 JP6364387B2 (ja) 2018-07-25

Family

ID=58203451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015160456A Active JP6364387B2 (ja) 2015-08-17 2015-08-17 特徴量生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6364387B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020525908A (ja) * 2017-09-27 2020-08-27 シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd 画像検索方法、装置、機器および読み取り可能な記憶媒体
JP2021507397A (ja) * 2018-04-25 2021-02-22 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法、訓練方法、装置、機器、媒体及びプログラム
JPWO2021152715A1 (ja) * 2020-01-29 2021-08-05

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012160047A (ja) * 2011-02-01 2012-08-23 Denso It Laboratory Inc 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
US20130262488A1 (en) * 2012-03-28 2013-10-03 Fujitsu Limited Information conversion device, computer-readable recording medium, and information conversion method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012160047A (ja) * 2011-02-01 2012-08-23 Denso It Laboratory Inc 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム
US20130262488A1 (en) * 2012-03-28 2013-10-03 Fujitsu Limited Information conversion device, computer-readable recording medium, and information conversion method
JP2013206193A (ja) * 2012-03-28 2013-10-07 Fujitsu Ltd 情報変換プログラム、情報変換装置および情報変換方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020525908A (ja) * 2017-09-27 2020-08-27 シェンチェン センスタイム テクノロジー カンパニー リミテッドShenzhen Sensetime Technology Co.,Ltd 画像検索方法、装置、機器および読み取り可能な記憶媒体
US11256737B2 (en) 2017-09-27 2022-02-22 Shenzhen Sensetime Technology Co., Ltd. Image retrieval methods and apparatuses, devices, and readable storage media
JP2021507397A (ja) * 2018-04-25 2021-02-22 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像処理方法、訓練方法、装置、機器、媒体及びプログラム
US11334763B2 (en) 2018-04-25 2022-05-17 Beijing Sensetime Technology Development Co., Ltd. Image processing methods, training methods, apparatuses, devices, media, and programs
JPWO2021152715A1 (ja) * 2020-01-29 2021-08-05
WO2021152715A1 (ja) * 2020-01-29 2021-08-05 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法及びプログラム

Also Published As

Publication number Publication date
JP6364387B2 (ja) 2018-07-25

Similar Documents

Publication Publication Date Title
Latif et al. Content‐Based Image Retrieval and Feature Extraction: A Comprehensive Review
Zheng et al. SIFT meets CNN: A decade survey of instance retrieval
Zhou et al. Recent advance in content-based image retrieval: A literature survey
Zhou et al. Scalar quantization for large scale image search
Ali et al. A novel image retrieval based on visual words integration of SIFT and SURF
Chou et al. Pattern-based near-duplicate video retrieval and localization on web-scale videos
Liu et al. Indexing of the CNN features for the large scale image search
JP5294342B2 (ja) 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
Duan et al. Weighted component hashing of binary aggregated descriptors for fast visual search
Zhou et al. Multiple distance-based coding: toward scalable feature matching for large-scale web image search
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
Li et al. Subspace-based multi-view fusion for instance-level image retrieval
Nair et al. Static video summarization using multi-CNN with sparse autoencoder and random forest classifier
Zhang et al. Video copy detection based on deep CNN features and graph-based sequence matching
Zhang et al. Large‐scale video retrieval via deep local convolutional features
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
Zhou et al. Visual word expansion and BSIFT verification for large-scale image search
Ciaparrone et al. A comparison of deep learning models for end-to-end face-based video retrieval in unconstrained videos
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
Liao et al. An efficient content based video copy detection using the sample based hierarchical adaptive k-means clustering
Kordopatis-Zilos et al. Finding near-duplicate videos in large-scale collections
Che et al. Image retrieval by information fusion based on scalable vocabulary tree and robust Hausdorff distance
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180702

R150 Certificate of patent or registration of utility model

Ref document number: 6364387

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150