JP6373292B2 - 特徴量生成装置、方法、及びプログラム - Google Patents

特徴量生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP6373292B2
JP6373292B2 JP2016043652A JP2016043652A JP6373292B2 JP 6373292 B2 JP6373292 B2 JP 6373292B2 JP 2016043652 A JP2016043652 A JP 2016043652A JP 2016043652 A JP2016043652 A JP 2016043652A JP 6373292 B2 JP6373292 B2 JP 6373292B2
Authority
JP
Japan
Prior art keywords
vector
feature
quantum
residual
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016043652A
Other languages
English (en)
Other versions
JP2017162009A (ja
Inventor
豪 入江
豪 入江
之人 渡邉
之人 渡邉
隆行 黒住
隆行 黒住
杵渕 哲也
哲也 杵渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016043652A priority Critical patent/JP6373292B2/ja
Publication of JP2017162009A publication Critical patent/JP2017162009A/ja
Application granted granted Critical
Publication of JP6373292B2 publication Critical patent/JP6373292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特徴量生成装置、方法、及びプログラムに係り、特に、コンテンツの特徴量ベクトルを得る特徴量生成装置、方法、及びプログラムに関する。
通信環境やコンピュータ、プロセッサ、分散処理基盤技術の高度化・高品質化により、ネットワークに流通するメディアコンテンツの数は膨大なものとなっている。例えば、ある検索エンジンがインデクシングしているウェブページの数は数兆にのぼるといわれている。また、あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることが困難になっているという技術的な課題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
上記のような用途においては、一般にコンテンツの意味内容に興味があり、意味内容として同一、又は類似したコンテンツを発見する手続きが重要な役割を果たす。ここで言う意味内容とは、コンテンツの内容を表すインスタンスであり、実態を伴い、名称づけできるものを指す。例えば、画像や映像に写っている物体がその代表例である。
例えば、コンテンツを分類する場合を考えると、同じような意味内容を持つコンテンツを同じカテゴリに分類したいことが多い。あるいは検索の場合、あるコンテンツをクエリとして与えたとき、このコンテンツと同一あるいは類似した意味内容を持つコンテンツを検索することが基本的な要件となる。そのほか、コンテンツ推薦においても、利用者がこれまでに閲覧した/閲覧しているコンテンツと意味内容として同一、ないし類似したコンテンツを発見してこれを推薦する。また、コンテンツ要約の場合においても、意味内容に重複のない部分を発見し、これをまとめていく処理が必要となる。
ここで、意味内容が同一、又は類似したコンテンツを発見する典型的な手続きについて解説しておく。まず、各々のコンテンツを一つ以上の特徴量ベクトルの集合によって表現する。次に、互いに異なる二つのコンテンツに含まれる特徴量ベクトル同士の近さを測り、これが近いペア(マッチするペア)が多数含まれているほど、意味内容が近しい、又は、同一のコンテンツであると見做す。
ここで、一つのコンテンツを一つ以上の特徴量ベクトルの集合として表現する理由を、コンテンツが画像で、意味内容が物体である場合を例に説明しよう。なお、意味内容が物体以外のもの、例えば文字や図形、情景や場所などを表す場合も全く同様であり、また、コンテンツが映像である場合にも、映像は画像の系列と考えられるので、この場合にも全く同様である。
画像の例として写真を考えると、例え同一の物体であっても、どの写真にも同じ位置・姿勢(角度など)・大きさで写っているわけではなく、写真によってさまざまな見え方で撮影されているのが普通である。然るに画像から抽出される特徴量は、位置・姿勢・大きさに依らず、不変性を持つことが望ましい。画像一枚全体を表現するような単純な特徴量では、このような不変性を得ることは難しい。例えば各ピクセルの色(RGB値)をベクトルに並べたもの等は、位置・姿勢・大きさいずれに対しても不変ではない。一方、一部情報を抽象化したもの、例えば、色ヒストグラム等は、位置や姿勢に対する不変性は持ちうるが、大きさに対しては不変的ではない。また、物体の一部が欠けていたりする場合に対しても脆弱であるし、情報を抽象化している分、精度が劣化しやすい。
一方で、画像の微小な領域を大量に抽出し、各微小領域を表現する一定次元の特徴量ベクトルを得るものとし、この複数の特徴量ベクトルの集合によって画像を表現したとする(局所特徴量などと呼ばれる)。すると、位置・姿勢・大きさ、いずれに対しても不変な特徴量とすることができることが知られている。より具体的には、このように表現された二枚の画像があるとき、各画像を表現する特徴量ベクトルの集合から、それぞれ一サンプルずつを取って比較し、同一性を判定する。同一であると判定できる特徴量ベクトルの組が多ければ、この二枚の画像は同一の物体を含む可能性が高く、小さければ低いと言える。各画像の(微小領域の)特徴量ベクトル同士の比較は、微小領域の位置だけでなく、大きさにも依らない方法で行われる。また、もし特徴量ベクトル自体が姿勢に対して不変性を持つものであるとすれば、このような表現及びその比較は、位置・姿勢・大きさのいずれにも不変なものとなる。このような不変性を持つ特徴量ベクトルを得る方法は数多く知られており、例えば非特許文献1に記載のScale Invariant Feature Transform(SIFT)などが存在する。
以上述べた通り、上記典型的な手続きによれば、コンテンツを一つ以上の特徴量ベクトルの集合として表現することで、位置・姿勢・大きさによらず、頑健に、意味内容が同一、又は、近しいコンテンツを発見することができる。
一方で、このような方法は、コンテンツ同士を比較するために、多数の特徴量ベクトルを比較しなければならず、非常に非効率的であるという問題がある。
仮に、コンテンツが128次元の特徴量ベクトル10000個で表現されているとしよう。この時、任意の二つのコンテンツを比較するのに、10000×10000×128の、計128億回の演算を要し、一般的なコンピュータで実行した場合、10〜15秒程度の時間を要する。もしコンテンツ数が10000あったとして、これらの中から意味内容が同一あるいは近しいコンテンツを発見するような場合には、さらにこの10000倍の時間を要することとなる。
加えて、このような特徴量ベクトルが実数値(4バイト精度)を全てメモリにストアした場合、約50ギガバイト(GB)という非常に大きなメモリが必要となる。
以上の問題を鑑み、実用上、高精度かつ高効率に、意味内容が同一又は近しいコンテンツを発見可能にする特徴量生成技術が望まれる。
以上の問題に対して、従来よりいくつかの発明がなされ、開示されてきている。
非特許文献2には、特徴量ベクトルをあらかじめ定められた量子のうち、いずれか一つに割り当てる量子化を行うことによって、同一の物体を含みうる画像を効率的に発見する方法を開示している。予め集めた学習用の画像から、多数の局所特徴量を抽出し、これらをK−means法によってクラスタリングすることで、量子化器(符号張)を学習しておく。この量子化器を用いて、元の画像の特徴量ベクトルをおのおの一つの量子に割り当てられるよう量子化することで、画像は複数の量子によって表現されることになる。結果として、画像と量子の関係は、文書とこれに含まれる単語の関係と等価になるので、文書検索と同じ要領で検索が実行できるようになる。
特許文献1には、非特許文献2に開示されている手続きと同様の手続きを取り、さらに、各量子の出現頻度を複数種類求めることで、より高精度に同一の物体を含む画像を発見することができる方法を開示している。
非特許文献3に開示されている技術は、下記のようなものである。まず、非特許文献2に開示されている手続きと同様に量子化器を学習する。画像を表現する際には、まず、当該画像に含まれる特徴量ベクトルを量子化する。続いて、量子ごとに、当該量子に割り当てられた特徴量ベクトルと、当該量子の代表ベクトルとの残差ベクトルを求め、その総和を求める。最終的に、量子ごとに計算されたこの残差ベクトルを一列に並べたベクトル(すなわち、「量子数×特徴量ベクトル次元数」の次元を持つ)を求め、これを当該画像の表現とする。
非特許文献4には、非特許文献3をさらに改良した技術が開示されている。非特許文献3の技術との違いは次の2点である:量子ごとに残差ベクトルの総和を求めるのではなく、正規化残差ベクトルの総和を求める。また、量子ごとに、正規化残差ベクトルに対して主成分分析(Principal Component Analysis:PCA)を適用する。以降、非特許文献3と同様に、量子ごとに計算された正規化残差ベクトルを一列に並べたベクトル(すなわちこちらも、「量子数×特徴量ベクトル次元数」の次元を持つ)を求め、これを当該画像の表現とする。
特開2014−229063号公報
D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004 Josef Sivic, Andrew Zisserman. Video Google: A Text Retrieval Approach to Object Matching in Videos. In Proc. IEEE International Conference on Computer Vision (ICCV). Pages. 1470-1477, 2003. Herve Jegou, Matthijs Douze, Cordelia Schmid, Patrick Perez. Aggregating Local Descriptors into a Compact Image Representation. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Pages. 3304-3311, 2010. Jonathan Delhumeau, Philippe-Henri Gosselin, Herve Jegou, Patrick Perez. Revisiting the VLAD image representation. In Proc. ACM Multimedia. Pages. 653-656, 2013.
大局的にみれば、既存の技術においては量子化による情報損失の小さい特徴量ベクトルを生成することができず、良好な精度が得られない点が問題である。
先に述べた通り、意味内容が同一のコンテンツを高速に発見するためには、量子化を導入することが効果的であることが知られている。一方で、量子化を導入することで、元の特徴量ベクトルが本来持っていた情報は失われてしまう。結果として、意味内容を正しく表現することができなくなり、精度劣化を引き起こしてしまう。言うまでもなく両者は相反する関係にあり、然るに、精度と効率を両立させるためには、量子化された後であっても、精度に影響を及ぼさないような効果的な特徴量を生成する必要がある。
非特許文献2、及び特許文献1に開示されている技術は、特徴量ベクトルを量子化し、コンテンツを量子の集合として表現することで、非効率的な特徴量ベクトルの比較を省き、処理を効率化することができていた。しかしながら、本来実数値ベクトルとして表現される特徴量ベクトルを単純に量子化するのみでは、量子化による情報損失の影響を直接受けるため、結果として精度が大きく劣化するという問題がある。
また、非特許文献2、特許文献1の技術については、依然として特徴量ベクトルの数分の情報をメモリにストアする必要があったため、量子化しているにもかかわらず、処理が非効率的なままであるという問題も残されている。
一方、非特許文献3、及び非特許文献4の技術は、各量子に割り当てられた特徴量ベクトルと代表ベクトルとの(正規化)残差ベクトルの総和を求めることで、量子化誤差の影響を低減しつつ、メモリ効率の改善を図っている。しかしながら、依然として量子化の方法は各特徴量ベクトルを単一の量子に割り当てる至極単純なものであり、このようにして求められる特徴量ベクトルによって十分な精度を得るには、量子化損失を抑えるために非常に多くの量子を用意しなければならなかった。結果として、最終的に生成される特徴量ベクトルは非常に高次元となり、非効率的な処理になってしまうという問題があった。一例として、16ビット量子化、すなわち2^16=65536個の量子に量子化する場合、最終的にコンテンツを表現するベクトルの長さは1コンテンツあたり65536×128=8,388,608次元となる。最悪の場合、情報量にして1コンテンツ当たり32メガバイト(MB)、仮にコンテンツ数が10000であるとすると、必要なメモリ容量は312GBにまで膨れ上がることになる。さらに、コンテンツ間の比較を行う場合にも、この非常に高次元な実数値ベクトルの距離を比較することになるので、多大な時間を要してしまう。
以上、概観するに、現在に至るまで、処理時間、メモリ容量の観点での効率的でありながら、意味内容が同一または近しいコンテンツを精度よく発見できるコンテンツの特徴量を生成することができる技術は発明されていなかった。
本発明は、上記問題点を解決するために成されたものであり、処理時間、メモリ容量の観点での効率的でありながら、意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる特徴量を生成することができる特徴量生成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る特徴量生成装置は、特徴量生成対象のコンテンツを表現する一つ以上の初期特徴量ベクトルが入力されたときに、統合特徴量ベクトルを生成して出力する特徴量生成装置であって、前記初期特徴量ベクトルの各々を、予め定めた複数の量子と前記複数の量子の各々に対応する代表ベクトルとによって規定される量子化器に基づいて、一つ以上の量子に割り当てる量子化部と、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルを求める残差計算部と、前記量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた前記統合特徴量ベクトルに、予め定めた変換行列を適用して無相関化処理を施して得られた前記統合特徴量ベクトルを、前記コンテンツの特徴量として出力する統合部と、を含んで構成されている。
また、第1の発明に係る特徴量生成装置において、前記残差計算部は、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルの総和を計算し、前記量子ごとに計算された前記残差ベクトルの総和に対して、予め定められた、前記残差ベクトルと同数の次元を持つ射影ベクトルで構成される一つ以上の射影ベクトル行列による変換を施すようにしてもよい。
第2の発明に係る特徴量生成方法は、特徴量生成対象のコンテンツを表現する一つ以上の初期特徴量ベクトルが入力されたときに、統合特徴量ベクトルを生成して出力する特徴量生成装置における特徴量生成方法であって、量子化部が、前記初期特徴量ベクトルの各々を、予め定めた複数の量子と前記複数の量子の各々に対応する代表ベクトルとによって規定される量子化器に基づいて、一つ以上の量子に割り当てるステップと、残差計算部が、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルを求めるステップと、統合部が、前記量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた前記統合特徴量ベクトルに、予め定めた変換行列を適用して無相関化処理を施して得られた前記統合特徴量ベクトルを、前記コンテンツの特徴量として出力するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る特徴量生成装置において、前記残差計算部が残差ベクトルを求めるステップは、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルの総和を計算し、前記量子ごとに計算された前記残差ベクトルの総和に対して、予め定められた、前記残差ベクトルと同数の次元を持つ射影ベクトルで構成される一つ以上の射影ベクトル行列による変換を施すようにしてもよい。
また、第3の発明に係るプログラムは、コンピュータを、第1の発明に係る特徴量生成装置の各部として機能させるためのプログラムである。
本発明の特徴量生成装置、方法、及びプログラムによれば、初期特徴量ベクトルの各々を、一つ以上の量子に割り当て、量子ごとに、量子化部により量子に割り当てられた初期特徴量ベクトルと、量子に対応する代表ベクトルとの残差ベクトルを求め、量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた統合特徴量ベクトルに、予め定めた変換行列を適用して無相関化処理を施して得られた統合特徴量ベクトルを、コンテンツの特徴量として出力することにより、処理時間、メモリ容量の観点での効率的でありながら、意味内容が同一又は近しいコンテンツを、精度よく、かつ効率的に発見することができる特徴量を生成することができる、という効果が得られる。
特徴量ベクトルのベクトル空間における残差ベクトルの一例を表す図である。 本発明の実施の形態に係る特徴量生成装置の構成を示すブロック図である。 本発明の実施の形態に係る特徴量生成装置における特徴量生成処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を図1の概念図を用いて説明する。
図1は、特徴量ベクトルのベクトル空間である。x1、x2は二つの独立な特徴量ベクトルであり、c1、c2はそれぞれ量子1、量子2に対応する代表ベクトルを表す。上記先行技術では、いずれも特徴量ベクトルは単一の量子(図1の例ではc1)によって表現される。この例では、単一の量子からの残差ベクトルのみを用いてx1、x2を表現することになる。c1からx1、x2への正規化残差ベクトルをそれぞれr11、r12と表す。しかしながら、x1、x2がc1から見て近しい方向に存在する場合、量子化の損失によって量子化後の残差ベクトルr1とr2は非常に近くなってしまうため両者の違いが見極められないという問題が起こり、先行技術では、この量子化損失を抑えるために非常に多くの量子を用意しなければならなかった。
本発明の実施の形態では、単一の量子ではなく、複数の量子に割り当てて、正規化残差ベクトル、図1の例では、c2からの残差ベクトルr21およびr22を求める。c1からの残差ベクトルとは異なり、c2からの残差ベクトルには大きな違いが生じる。結果として、量子数を増やすことなく、量子化による損失の影響を抑えることができるのである。
一方、ただ複数の量子に割り当てるだけでは、量子間の相関が不必要に増加してしまう。場合によってはこの相関の影響により、最終的な統合後の統合ベクトルの類似度が正しく計算されず、精度が低下する懸念がある。本発明では、統合ベクトルに対して無相関化処理を施すことによってこの相関の影響を消去することによって、コンテンツを精度よく発見することができるのである。
<<全体構成>>
図2は、本発明の実施形態に係る特徴量生成装置1の構成の一例を示す機能ブロック図である。
図2に示す特徴量生成装置1は、初期特徴量抽出部11と、量子化部12と、残差計算部13、統合部14とを備え、また記憶装置として記憶部3を備え、予め記憶した量子化器31、射影ベクトル32、無相関化写像33を格納している。
また、特徴量生成装置1は、コンテンツデータベース2と通信手段を介して接続されて相互に情報通信し、コンテンツデータベース2に登録されているコンテンツ21、または、入力されたコンテンツ4に対して、これらを表現する統合特徴量ベクトル5を生成する。
コンテンツデータベース2は、特徴量生成装置1の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができるが、本実施の形態においては、外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。また、コンテンツデータベース2は、いわゆるRDBMS(Relational Database Management System)などで構成されているものとしてもよい。
コンテンツデータベース2にはコンテンツ21が格納されているものとする。コンテンツ21は、主として画像または映像ファイルならびにその集合を想定するが、本発明の実施の形態の要件を満たす範囲で、音ファイル、文書ファイルなど、任意の種類のメディアであってよい。さらに、コンテンツデータベース2には、各コンテンツのファイルに対して、これらそれぞれを一意に識別可能な識別子(例えば、ファイル固有の通し番号によるID等)が関連づけられており、任意のファイルを参照できるものであるとする。その他、メタデータとして、例えばコンテンツの内容を表現するもの(コンテンツのタイトル、概要文、又はキーワード等)、コンテンツのフォーマットに関するもの(コンテンツのデータ量、サムネイル等のサイズ)などを含んでいても構わないが、本発明の実施においては必須ではない。
また、特徴量生成装置1が備える各部及びコンテンツデータベース2は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは特徴量生成装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
なお、本発明の実施の形態において必須の構成要素ではないが、本発明の実施の形態に係る特徴量生成装置1により生成された統合特徴量ベクトルを用いてコンテンツ検索を実行する場合には、外部に検索装置6を備える。検索装置6は、特徴量生成装置1、ならびにコンテンツデータベース2と相互に通信可能な形で接続されているものとする。
<<処理部>>
本実施の形態における特徴量生成装置1の各処理部について説明する。
初期特徴量抽出部11は、コンテンツデータベース2に格納されたコンテンツ21、又は、外部から入力されたコンテンツ4を受け取った下で、これを解析し、一つ以上の初期特徴量ベクトルの集合を抽出してコンテンツデータベース2又は量子化部12に出力する。
量子化部12は、特徴量生成対象のコンテンツを表現する初期特徴量ベクトルの各々を、記憶部3に格納された、予め定めた複数の量子と複数の量子の各々に対応する代表ベクトルとによって規定される量子化器31に基づいて、一つ以上の量子に割り当て、出力する。
残差計算部13は、各々の量子ごとに、当該量子に割り当てられた初期特徴量ベクトルと対応する代表ベクトルとの残差ベクトルを求め、必要に応じて記憶部3に格納された射影ベクトル32による変換を施したのちに出力する。残差ベクトルを正規化した正規化残差ベクトルを求めるようにしてもよい。
統合部14は、量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた統合特徴量ベクトルに、予め定めた変換行列(無相関化写像33)を適用して無相関化処理を施して得られた統合特徴量ベクトルを、コンテンツの特徴量として出力する。
検索装置6を備える構成を採る場合には、予めコンテンツデータベース2に格納されたコンテンツ21に対して、特徴量生成装置1により統合特徴量ベクトルが生成され、同じくコンテンツデータベース2に先の形式で格納されているとする。このとき、検索装置6は、コンテンツ4が利用者より入力されて、特徴量生成装置1により生成・出力された統合特徴量ベクトル5を入力として受け取ると、コンテンツデータベース2に対して検索を行い、検索結果7を出力する。統合特徴量ベクトル5は、当該コンテンツ4に対する統合特徴量ベクトルである。
<<処理概要>>
次に、本実施の形態における特徴量生成装置1の処理について説明する。本実施の形態における特徴量生成装置1は、初期特徴量ベクトルから統合特徴量ベクトルを生成する処理を実行する。
図3は、処理の流れを示すフローチャートである。
本処理において入力されるコンテンツはコンテンツデータベース2から読み込んでも、外部から入力されても、そのいずれでも構わず、本質的には同じ処理が適用される。以降、簡単のため、外部から入力される場合(図2におけるコンテンツ4が入力された場合)について説明する。
まず、ステップS301では、初期特徴量抽出部11が、外部からコンテンツ4を得て、一つ以上の初期特徴量ベクトルを抽出し、量子化部12に伝達する。
続いて、ステップS302では、量子化部12が、ステップS301で抽出した一つ以上の初期特徴量ベクトルの各々に対して、記憶部3から取得した量子化器31を適用することで、一つ以上の量子に割り当て、残差計算部13に出力する。
続いて、ステップS303では、残差計算部13が、各々の量子ごとに、当該量子に割り当てられた初期特徴量ベクトルと対応する代表ベクトルとの残差ベクトルを求め、必要に応じて記憶部3に格納された射影ベクトル32による変換を施したのちに、統合部14に出力する。なお、残差ベクトルは正規化残差ベクトルを求めるようにしてもよい。
最後に、ステップS304では、統合部14が、残差ベクトル(正規化残差ベクトル)を一つに統合して統合特徴量ベクトルを構成し、さらに無相関化写像33を適用して無相関化したのちに、最終的に得られた統合特徴量ベクトルを検索装置6に出力する。
以上の処理により、入力されたコンテンツ4に対して、統合特徴量ベクトル5を求めることができる。
<<各処理の処理詳細>>
以降、各処理の詳細処理について、本実施形態における一例を説明する。
[初期特徴量抽出処理]
まず、初期特徴量抽出部11において、コンテンツの各々に対して、当該コンテンツを表現する一つ以上の初期特徴量ベクトルを抽出する方法について説明する。初期特徴量抽出処理は、コンテンツの種別に依存し、これによって抽出する/できる初期特徴量ベクトルは変化するが、抽出する初期特徴量ベクトルは、コンテンツに対して一義的に定まる、固定の次元を持つベクトルとして表現できるものであれば任意の公知のものを用いてよい。ここでは、コンテンツが画像である場合について述べることとする。
最も好適な例としては、局所特徴量を抽出する。一般に、局所特徴量は、画像から特徴点と呼ばれる領域を検出する特徴点検出法と、領域の画像的特徴を特徴量ベクトルとして記述する記述子の二つによって構成される。例えば非特許文献1に記載のSIFTは、Difference of Gaussian(DoG)と呼ばれる特徴点検出法を用いて特徴点を検出し、各特徴点は輝度値の勾配を表現した記述子によって記述される。これ以外にも様々な特徴点検出法、記述子が一般に知られており、任意のものを用いて構わない。また、必ずしも特徴点検出法に基づいて特徴点を検出する必要はなく、画像中の領域を定めるものであれば任意の手続きを取って構わない。例えば、画像全体を領域とするものとしてもよいし、あるいは画像の高さ・幅に対して一定の割合で(格子状に)領域を取っても構わない。
好ましくはSIFTのように、領域の位置・姿勢(角度)や、その大きさに対して不変となるような特徴量ベクトルを得ることができる方法を採用することが好ましい。以降、本実施形態の一例ではSIFTを用いるものとして説明する。SIFTを用いた場合、抽出される局所特徴量は通常128次元の実数値ベクトルとなる。従って、画像一枚は、特徴点数分の128次元実数値ベクトルの集合として表現される。
また、必ずしも局所特徴量を用いる必要はなく、例えば、領域ごとに明るさ特徴、色特徴、又は形状特徴などを抽出しても構わない。
明るさ特徴としては、HSV色空間におけるV値を数え上げることで、ヒストグラムとして抽出することができる。この場合、各画像はV値の量子化数(例えば、16ビット量子化であれば256諧調)と同数の次元を持つベクトルとして表現される。
色特徴としては、L*a*b*色空間における各軸(L*、a*、b*)の値を数え上げることで、ヒストグラムとして抽出することができる。各軸のヒストグラムのビンの数は、例えば、L*に対して4、a*に対して14、b*に対して14などとすればよく、この場合、3軸の合計ビン数は、4×14×14=784、すなわち784次元のベクトルとなる。
形状特徴としては、例えば参考文献1に記載のHistogram of Oriented Gradients(HOG)として知られる特徴量ベクトルを抽出すればよい。
[参考文献1]Navneet Dalal, Bill Triggs. Histograms of Oriented Gradients for Human Detection. In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 886-893, 2005.
また、参考文献2などに記載の、ニューラルネットワークによる特徴量を抽出しても構わない。
[参考文献2]Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. In Proc. Advances in Neural Information Processing Systems (NIPS). Pages. 1097-1105, 2012.
以上のように、コンテンツを表現する一つ以上の初期特徴量ベクトルを求めることができる。
[統合特徴量ベクトルの生成処理]
次に、統合特徴量ベクトルの生成処理について説明する。統合特徴量ベクトルの生成処理では、量子化処理、残差計算処理、統合処理が行われる。なお、ここで用いる変換器の構成方法については後述する。
あるコンテンツjから抽出した一つ以上の初期特徴量ベクトルからなる集合{x}を、統合特徴量ベクトルに変換する手続きの一例を述べる。
本発明の実施形態の一例においては、変換器である量子化器31、射影ベクトル32、及び無相関化写像33は、いずれも事前に構成されて記憶部3に格納されているものとする。なお、量子化器は量子と代表ベクトルの組を複数備えた符号帳により構成されており、たとえばK−meansなどの公知のクラスタリング法を用いて構成することができる。また、射影ベクトル、無相関化写像は任意の公知の線形変換(ランダムベクトル、主成分分析、独立成分分析等)、または非線形変換(カーネル主成分分析等)を用いて得ることができるが、本発明の実施形態の一例においては主成分分析を用いて得られた変換行列を射影ベクトル、無相関化写像として用いる。
<量子化処理>
量子化部12の量子化について説明する。量子化とは、量子化器を用いて、各々の初期特徴量ベクトルを、一つ以上の量子に割り当てる処理である。本発明の実施形態の一例による量子化器は、予め定められたK個の量子を代表する代表ベクトルによって規定されるものであるため、K個の量子に量子化する量子化器を求めることは、すなわちK個の代表ベクトルを求めるに等しい。Kの値は任意の自然数でよいが、例えばK=64、K=256、K=4096などとすればよい。k番目の量子に対応する代表ベクトルをcと表す。この代表ベクトルの次元数は初期特徴量ベクトルと同一である。当該次元をbと表す。
このような代表ベクトル群を用いれば、任意の初期特徴量ベクトルxに対する量子を割り当てることができる。すなわち、仮に、P個の量子を割り当てることを考えるとすると、初期特徴量ベクトルxに最も距離の近いP個の代表ベクトルを求め、その代表ベクトルに対応する量子を割り当てればよい。Pは任意の自然数であればよく、例えばP=2、P=5などとすればよい。この処理によって、任意の初期特徴量ベクトルに対して量子(及びこれに対応する代表ベクトル)を割り当てることができる。
<残差計算処理>
続いて、残差計算部13の残差計算について説明する。先の量子化を経て、各量子には初期特徴量ベクトルが割り当てられる。あるコンテンツjについて、仮にk番目の量子に初期特徴量ベクトルxjiが割り当てられているとすると、量子化による残差ベクトルrjikは(1)式のように定められる。
なお、上記は通常の残差ベクトルであるが、代わりに(2)式の正規化残差ベクトルを用いても構わない。
なお、分母のノルムはL2ノルムを表す。通常、一つの量子に対して一つ以上の初期特徴量ベクトルが得られている場合が多いので、残差ベクトルrjikの和rjkを求める。
もし初期特徴量ベクトルが一つも割り当てられていないような量子が存在する場合には、全要素が0を返すものとすればよい。このようにして求められた残差ベクトルの総和の次元は初期特徴量ベクトルの次元と等しく、bである。この処理により、j番目のコンテンツについて、k番目の量子ベクトルrjkを求めることができる。全ての量子に対して上記手続きを実行することで、K個の量子の各々に対してb次元の量子ベクトルが得られる。
なお、射影ベクトルを用いて、残差ベクトルの総和に変換を施しても構わない。たとえば、主成分分析によってe本の射影ベクトルが得られているとし、これを行列の形に格納してQと表す。Qはサイズb×eの行列である。ただし、e≦bとし、例えばb=128であればe=128、e=64、e=32などとすればよい。
この場合には、(3)式の代わりに、(4)式によって残差ベクトルの総和を求める。
本実施の形態の一例においては、量子ごとに一つの射影ベクトル行列Qを用意する場合について説明する。
量子ごとに一つの射影ベクトル行列Qを用意する場合、上記残差計算部13は、量子kごとに、量子化部12により量子kに割り当てられた初期特徴量ベクトルxjiと、量子kに対応する代表ベクトルcとの残差ベクトルrjikの総和rjkを計算し、量子kごとに計算された残差ベクトルの総和rに対して、量子kについて予め定められた、残差ベクトルと同数の次元を持つ射影ベクトルで構成される射影ベクトル行列Qによる変換を施す。
このように量子ごとに一つの射影ベクトル行列Qを用意することによって、量子ごとにより細やかなコントロールが可能となり、精度を向上させることが可能であるが、一方で、量子数分の射影ベクトル行列を格納しなければならないため、メモリを多く消費するというデメリットも存在する。そこで、すべての量子に対して同一の射影ベクトル行列を用意する(Q=Q=・・・=Q)とすることによってメモリ使用量を削減しても構わない。
<統合処理>
続いて、統合部14の統合処理について説明する。j番目のコンテンツに対して求めたK個の量子に対する残差ベクトルの総和{rj1、・・・、rjK}を縦に並べれば、当該j番目のコンテンツをb×K次元の1本のベクトルへと統合した統合ベクトルvとして表現することができる。
当該ベクトルの次元はD=K×eである。これ自体を統合特徴量ベクトルとしてもよい。ただし、このようにして得られた統合ベクトルは、要素間の相関が高く、これに基づいて計算される類似度が信頼できない場合がある。そこで、この統合ベクトルに対して無相関化処理を施してこの影響を排除する。
具体的には、主成分分析によって求めたD×hの変換行列が得られているとし、これをAと表す。ただし、h≦Dである。(5)式により求めたvに対して、次のように新たなvを求める。
ここで、vはj番目のコンテンツの統合特徴量ベクトル、AはサイズK×hの行列である。
なお、本発明の実施形態においては、統合特徴量ベクトルvを持って、最終的な画像の特徴量ベクトルとしているが、一方、より効率的な処理を求めるべく、統合特徴量ベクトルvをさらに量子化しても構わない。たとえば、最も簡単には2値化することが考えられ、これはvの符号を取り、vの値が正(または0以上)の場合には1を、負の場合には0(または−1)を取るようにすることで、当該統合特徴量ベクトルのよりコンパクトに表現する。このような2値ベクトルの比較はビット演算によって実現でき、実数ベクトルによる比較よりも高速計算できるため、処理時間・メモリ使用量の観点で有利である。
以上が一つ以上の初期特徴量ベクトルからなる集合{x}から、統合特徴量ベクトルvを求める手順である。
以上、本発明の実施形態の一例における変換器の構成の一例について詳細に説明した。
<<コンテンツ検索への適用>>
上記説明した本発明の実施の形態に係る特徴量生成装置を、コンテンツ検索に利用する場合の実施の形態の一例について説明する。ここでは、コンテンツが画像である場合について説明する。
例えば、コンテンツデータベース2に、M枚のデータベース画像が格納されているとする。変換器である量子化器31、射影ベクトル32、及び無相関化写像33は、記憶部3に格納されているものとし、さらに、上記M枚のデータベース画像については、上記説明した処理によって既に統合特徴量ベクトルが生成され格納されているものとする。このとき、目的は新たなクエリ画像が利用者から与えられた時に、当該クエリ画像と同一の意味内容を持つようなデータベース画像を検索することである。
まず、クエリ画像に対して初期特徴量抽出処理を施し、一つ以上の特徴量ベクトルの集合を抽出したとする。この初期特徴量ベクトルの集合に対して先の変換器を適用し、統合特徴量ベクトルを求める。
続いて検索処理を行う。コンテンツデータベース2に格納された統合特徴量ベクトルの各々と、クエリ画像の統合特徴量ベクトルとの類似度を求める。類似度は、例えば内積、コサイン類似度など、任意の公知の尺度によって求めればよい。この類似度の最も高いものから順に意味内容が同一ないし近いデータベース画像として出力する。あるいは、これを求める際に、公知のインデクシング法を用いても構わない。特に、転置インデクス法は好適である。
統合特徴量ベクトルは情報量が小さく、低容量であり、少数の演算回数で高速に距離(又は類似度)を計算できることから、効率的に処理できる。また、本発明により得られる統合特徴量ベクトルは、量子化による損失を適切に抑えたものであるがゆえに、精度よくコンテンツを発見することが可能である。
以上が本発明の実施の形態の一例である。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
1 特徴量生成装置
2 コンテンツデータベース
3 記憶部
4 コンテンツ
5 統合特徴量ベクトル
6 検索装置
7 検索結果
11 初期特徴量抽出部
12 量子化部
13 残差計算部
14 統合部
21 コンテンツ
31 量子化器
32 射影ベクトル
33 無相関化写像

Claims (3)

  1. 特徴量生成対象のコンテンツを表現する一つ以上の初期特徴量ベクトルが入力されたときに、統合特徴量ベクトルを生成して出力する特徴量生成装置であって、
    前記初期特徴量ベクトルの各々を、予め定めた複数の量子と前記複数の量子の各々に対応する代表ベクトルとによって規定される量子化器に基づいて、つ以上の量子に割り当てる量子化部と、
    前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルを求める残差計算部と、
    前記量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた前記統合特徴量ベクトルに、予め定めた変換行列を適用して無相関化処理を施して得られた前記統合特徴量ベクトルを、前記コンテンツの特徴量として出力する統合部と、
    を含み、
    前記残差計算部は、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルの総和を計算し、前記量子ごとに計算された前記残差ベクトルの総和に対して、予め定められた、前記残差ベクトルと同数の次元を持つ射影ベクトルで構成される二つ以上の射影ベクトル行列による変換を施す特徴量生成装置。
  2. 特徴量生成対象のコンテンツを表現する一つ以上の初期特徴量ベクトルが入力されたときに、統合特徴量ベクトルを生成して出力する特徴量生成装置における特徴量生成方法であって、
    量子化部が、前記初期特徴量ベクトルの各々を、予め定めた複数の量子と前記複数の量子の各々に対応する代表ベクトルとによって規定される量子化器に基づいて、つ以上の量子に割り当てるステップと、
    残差計算部が、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルを求めるステップと、
    統合部が、前記量子ごとに計算された残差ベクトルを統合した統合特徴量ベクトルを求め、求められた前記統合特徴量ベクトルに、予め定めた変換行列を適用して無相関化処理を施して得られた前記統合特徴量ベクトルを、前記コンテンツの特徴量として出力するステップと、
    を含み、
    前記残差計算部は、前記量子ごとに、前記量子化部により前記量子に割り当てられた前記初期特徴量ベクトルと、前記量子に対応する前記代表ベクトルとの残差ベクトルの総和を計算し、前記量子ごとに計算された前記残差ベクトルの総和に対して、予め定められた、前記残差ベクトルと同数の次元を持つ射影ベクトルで構成される二つ以上の射影ベクトル行列による変換を施す特徴量生成方法。
  3. コンピュータを、請求項1に記載の特徴量生成装置の各部として機能させるためのプログラム。
JP2016043652A 2016-03-07 2016-03-07 特徴量生成装置、方法、及びプログラム Active JP6373292B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016043652A JP6373292B2 (ja) 2016-03-07 2016-03-07 特徴量生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016043652A JP6373292B2 (ja) 2016-03-07 2016-03-07 特徴量生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017162009A JP2017162009A (ja) 2017-09-14
JP6373292B2 true JP6373292B2 (ja) 2018-08-15

Family

ID=59853043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016043652A Active JP6373292B2 (ja) 2016-03-07 2016-03-07 特徴量生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6373292B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345481A (zh) * 2018-09-28 2019-02-15 北京空间机电研究所 一种用于航天光学遥感图像的量子优化方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020153743A (ja) * 2019-03-19 2020-09-24 株式会社戸上電機製作所 地絡要因推定装置、データ生成装置、地絡要因推定方法、データ生成方法及び地絡継電器
JP7556269B2 (ja) 2020-11-16 2024-09-26 富士通株式会社 推論プログラム及び推論方法
CN113489459B (zh) * 2021-07-26 2022-07-19 安徽科技学院 一种基于数字孪生的光伏发电组件故障检测和识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836481B2 (en) * 2014-03-31 2017-12-05 Paypal, Inc. Image-based retrieval and searching
CN105205497B (zh) * 2015-09-15 2019-01-15 北京大学深圳研究生院 一种基于局部pca白化的图像表示方法和处理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345481A (zh) * 2018-09-28 2019-02-15 北京空间机电研究所 一种用于航天光学遥感图像的量子优化方法
CN109345481B (zh) * 2018-09-28 2020-09-18 北京空间机电研究所 一种用于航天光学遥感图像的量子优化方法

Also Published As

Publication number Publication date
JP2017162009A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
Latif et al. Content‐Based Image Retrieval and Feature Extraction: A Comprehensive Review
Ahmed et al. Content based image retrieval using image features information fusion
Zheng et al. SIFT meets CNN: A decade survey of instance retrieval
Zhou et al. Recent advance in content-based image retrieval: A literature survey
Ali et al. A novel image retrieval based on visual words integration of SIFT and SURF
US8213725B2 (en) Semantic event detection using cross-domain knowledge
Tsai Bag‐of‐words representation in image annotation: a review
Gkelios et al. Deep convolutional features for image retrieval
Zhou et al. Image retrieval based on effective feature extraction and diffusion process
Bibi et al. Query-by-visual-search: multimodal framework for content-based image retrieval
JP6373292B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
An et al. Scalable attribute-driven face image retrieval
Li et al. Subspace-based multi-view fusion for instance-level image retrieval
Zhang et al. Video copy detection based on deep CNN features and graph-based sequence matching
Kalaiarasi et al. Clustering of near duplicate images using bundled features
Zhang et al. Large‐scale video retrieval via deep local convolutional features
JP5592337B2 (ja) コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
Abraham et al. Automatically classifying crime scene images using machine learning methodologies
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
Amato et al. Aggregating binary local descriptors for image retrieval
CN105117735A (zh) 一种大数据环境下的图像检测方法
Maihami et al. A review on the application of structured sparse representation at image annotation
Kordopatis-Zilos et al. Finding near-duplicate videos in large-scale collections
Harada et al. Image annotation and retrieval for weakly labeled images using conceptual learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180717

R150 Certificate of patent or registration of utility model

Ref document number: 6373292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150