JP6283308B2 - 画像辞書構成方法、画像表現方法、装置、及びプログラム - Google Patents

画像辞書構成方法、画像表現方法、装置、及びプログラム Download PDF

Info

Publication number
JP6283308B2
JP6283308B2 JP2014261008A JP2014261008A JP6283308B2 JP 6283308 B2 JP6283308 B2 JP 6283308B2 JP 2014261008 A JP2014261008 A JP 2014261008A JP 2014261008 A JP2014261008 A JP 2014261008A JP 6283308 B2 JP6283308 B2 JP 6283308B2
Authority
JP
Japan
Prior art keywords
image
partial
unit
feature amount
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014261008A
Other languages
English (en)
Other versions
JP2016122279A (ja
Inventor
豪 入江
豪 入江
新井 啓之
啓之 新井
行信 谷口
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014261008A priority Critical patent/JP6283308B2/ja
Publication of JP2016122279A publication Critical patent/JP2016122279A/ja
Application granted granted Critical
Publication of JP6283308B2 publication Critical patent/JP6283308B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像辞書構成方法、画像表現方法、装置、及びプログラムに係り、特に、画像の画像表現を得るための画像辞書を構成する画像辞書構成方法、装置、及びプログラム、並びに、画像の画像表現を求める画像表現方法、装置、及びプログラムに関する。
通信環境やコンピュータ、分散処理基盤技術の高度・高品質化により、ネットワークに流通する画像、映像コンテンツの数は膨大なものとなっている。あるサイトでは、日々3.5億の画像がアップロードされていると報告されており、また、あるサイトでは、1分当たり64時間分の映像が新規に公開されているとの報告もある。
このような膨大な量のコンテンツは、利用者にとっては豊富な情報源となる一方で、閲覧したいコンテンツに素早くアクセスすることがますます困難になっているという問題ももたらしている。このような流れの中、閲覧・視聴したいコンテンツを効率的に探し出すためのメディア解析技術への要望がますます高まってきている。
以降画像に限って述べるが、映像は、連続する一連の画像によって構成されているため、本明細書に記載の範囲で、映像にもそのまま適用することができることは言うまでもない。
画像解析の最初のステップは、画像表現を得ること、すなわち、画像を数値によって比較可能なベクトルとして記述することである。こうすることで、例えば画像認識を実施する場合は、画像表現によって生成される空間の内、ある特定の領域にあるものを同じカテゴリに分類することができる。あるいは画像検索の場合、ある画像をクエリとして与えたとき、画像表現によって画像の類似度を評価し、類似画像を検索することができる。そのほか、画像推薦においても利用者がこれまでに閲覧した/閲覧している画像と類似する画像を発見してこれを推薦するし、沢山の画像をより少数の代表画像にまとめるような場合においても、類似した画像を発見して省くような処理を実行する。いずれの場合においても、画像表現が必要となる。
以上利用形態を鑑みるに、画像表現に対する要件として、画像の“意味的な内容”を捉えたものであることが好ましい。ここでいう“意味的な内容”とは、すなわち、画像に収められた被写体(『犬』、『家』、『パソコン』等)やシーン(『海岸』、『オフィス』、『森林』等)を特徴づける部品や物体及びその特徴を指すものであり、言語として指示可能な画像中の一部領域のことである。例えば、『犬』であれば『耳の形』(『尖った耳』、『垂れ耳』等)や『足』(『短く丸い足』、『細長い足』等)等、『海岸』であれば『ビーチ』、『海』、『船』等を指す。仮に、画像中にこういった部品や物体の有無が得られていれば、その集合から撮影されている被写体やシーンを演繹的に推論することができる。結果、意味的な内容に基づく分類や検索が可能となり、産業上における応用価値が高い。
過去、様々な画像表現方法が考案されてきている。特許文献1記載の技術では、画像の輝度や色、テクスチャ(模様)、エッジ等について、画像全域に渡る統計をヒストグラム等として求め、これを画像表現とする方法が開示されている。
また、画像表現を得る上で、事前にそのモデルとなる画像辞書を構成しておき、この辞書に基づいて画像表現を求める方法も開示されてきている。
非特許文献1には、一般にBag−of−Words、又は、Bag−of−Key−Points等として知られる技術が開示されている。この技術では、画像を数ピクセル四方の微小領域の集合と見做し、その領域の有無を画像全体に渡って計数することによって、当該微小領域のヒストグラムとして画像を表現する。まず、画像中の特にコントラストの強い微小領域の集合を求め、当該微小領域を輝度勾配によって記述した後、これらを量子化することによって画像辞書(コードブック)を得る。画像を表現する際には、画像全域に渡りコントラストの強い微小領域の輝度勾配を求め、辞書に基づいてこれらを符号化する。この後、各符号の出現頻度を求め、ヒストグラム化することで、これを画像表現とする。
非特許文献2には、被写体やシーンを特徴的に表すような領域を探し出し、これによって画像を表現する方法が開示されている。この方法では、画像をランダムな部分領域に分割し、これをクラスタリングしていくことで類似した部分領域をまとめていく。続いて、各クラスタに含まれる部分領域の特徴量を、Support Vector Machine(SVM)等によって関数としてモデル化し、このモデルに適合した部分領域(すなわち、モデルに部分領域の特徴量を入力したとき、その出力値が高いもの)の集合として辞書を構成する。得られた辞書を用い、新たな画像が入力された際、辞書に登録された部分領域と類似した部分領域が出現する頻度を求め、ヒストグラム化することで画像を表現する。
特開2014−67174号公報
J. Sivic and A. Zisserman、「Video Google: A Text Retrieval Approach to Object Matching in Videos」、In Proc. of IEEE International Conference on Computer Vision, 2003年、pp.1470-1477 S. Singh、Saurabh Singh、A. Gupta、and Alexei A. Efros、「Unsupervised Discovery of Mid-Level Discriminative Patches」、In Proceedings of the European Conference on Computer Vision、2005年、pp.239-248
先に述べた通り、画像認識、画像検索等、多くの産業上の応用の観点においては、画像表現は被写体やシーンの意味的な内容をよく表す表現となっていることが好ましい。この観点においては、前記先行技術は、以下に示す問題があった。
特許文献1及び非特許文献1記載の技術は、画像全体から抽出された、ごく低次の物理量(色やテクスチャ、輝度勾配等)によって画像を表現している。しかしながら、画像全体から抽出された低次の物理量では、全体が類似した被写体やシーンを判別できないという問題があった。特に、同じ『鳥』であってもよく似た種類(『タカ』と『ハヤブサ』等)や、『犬』であってもよく似た犬種(『シベリアン・ハスキー』と『アラスカン・マラミュート』等)は、部分的な差異こそあるものの、全貌が良く類似しているため、このような画像表現では実用的な識別精度を得ることができなかった。
一方、非特許文献2記載の技術は、特徴的な部分領域から、差異となる部分領域を抽出して画像辞書を構成することで、画像表現において、被写体間の細かな差異を識別できる画像辞書を獲得できる可能性がある。しかしながら、依然として画像特徴のみから画像辞書を構築しようとするため、先に述べたような意味的な内容(『尖った耳』、『細長い足』等)に即した部分領域を必ずしも特定して抽出できるとは限らず、有効な画像辞書を獲得できないという問題があった。
以上のことより、従来開示されている発明は、そのいずれも、画像表現に対する要件である、画像中の被写体やシーンの意味的な内容を表す画像表現を獲得できるような画像辞書構築技術、及び画像表現技術ではなかった。
本発明は、上記問題点を解決するために成されたものであり、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる画像辞書構成方法、装置、及びプログラムを提供することを目的とする。
また、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる画像表現方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像辞書構成方法は、部分領域分割部と、特徴量抽出部と、分類部と、候補領域決定部と、識別器学習部とを含み、入力された一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置における画像辞書構成方法であって、前記部分領域分割部が、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割するステップと、前記特徴量抽出部が、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出するステップと、前記分類部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類するステップと、前記候補領域決定部が、前記クラスタの各々について、前記分類部によって前記クラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定するステップと、前記識別器学習部が、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力するステップと、を含んで実行することを特徴とする。
第1の発明に係る画像辞書構成装置は、入力として受け付けた一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置であって、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割する部分領域分割部と、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類する分類部と、前記クラスタの各々について、前記分類部によってクラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定する候補領域決定部と、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力する識別器学習部と、を含んで構成されている。
また、第2の発明に係る画像表現方法は、部分領域分割部と、特徴量抽出部と、表現部と、を含む画像表現装置における画像表現方法であって、前記部分領域分割部が、入力された画像を一つ以上の部分領域に分割するステップと、前記特徴量抽出部が、前記部分領域の各々について、特徴量を抽出するステップと、前記表現部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、第1の発明に係る画像辞書構成方法によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力するステップと、を含んで実行することを特徴とする。
第2の発明に係る画像表現装置は、入力された画像を一つ以上の部分領域に分割する部分領域分割部と、前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項2記載の画像辞書構成装置によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力する表現部と、を含んで構成されている。
第1の発明に係るプログラムは、コンピュータを、第1の発明に係る画像辞書構成方法又は画像表現方法を構成する各ステップを実行させるためのプログラムである。
本発明の画像辞書構成方法、装置、及びプログラムによれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の特徴量と、部分領域を含む画像に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる、という効果が得られる。
また、画像表現方法、装置、及びプログラムによれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる、という効果が得られる。
本発明の実施の形態に係る画像辞書構成装置の構成を示すブロック図である。 本発明の実施の形態に係る画像表現装置の構成を示すブロック図である。 本発明の実施の形態に係る画像辞書構成装置における画像辞書構成処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る画像表現装置における画像表現処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の第1の実施の形態に係る画像辞書構成装置の構成>
まず、本発明の第1の実施の形態に係る画像辞書構成装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る画像辞書構成装置100は、CPUと、RAMと、後述する画像辞書構成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像辞書構成装置100は、機能的には図1に示すように画像データベース10と、演算部20と、画像辞書50とを備えている。
画像データベース10には、画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。また、格納されている画像の内、一つ以上の画像に対応した文書データが格納されているものとする。この文書データは、画像全体に関する意味的な内容を表すものである。ここでいう意味的な内容を表す文書データは、画像に撮影された被写体やシーンを特徴づける部品や物体について記述した文書である。その形式は、例えばキーワードの形で与えられていてもよいし、文章として与えられていてもよい。前者の場合、好ましくは、当該画像の撮影された被写体やシーンの全体、又は一部を記述する単語として与えられているものとする。例えば、被写体が『犬』であれば『耳の形』(『尖った耳』、『垂れ耳』等)や『足』(『短く丸い足』、『細長い足』等)等、『海岸』であれば『ビーチ』、『海』、『船』等として与えられる。後者の場合は、その画像の被写体やシーンを記述する文書として与えられていることが好ましい。その具体性は任意であり、例えば、船の渡航する海岸に耳の尖った犬がいるような場合、『海岸に犬がいる』と記述されていてもよいし、『船の渡航する海岸に耳の尖った犬がいる』と記述されていても構わない。
以上の文書データを準備する方法は問わない。例えば、インターネット上のウェブページにある画像を用いる場合には、通常、画像の周囲にその画像と関連のある文書があるが、これを文書データとして用いてもよい。この場合、人手を介さずに文書データを得ることができる利点がある。あるいは、各画像について、人手で文書データを入力しても構わない。この場合、人の正確な判断に則った信頼性の高い文書データを構成できるという利点がある。
また、画像データベース10は、上記各画像、又はアドレス、及び、対応する文書データを関連づけて格納できるものであればよく、いわゆるRDBMS(Relational Database Management System)などで構成されているものとしてもよい。なお、画像データベース10は、画像辞書構成装置100の内部にあっても外部にあっても構わず、通信手段は任意の公知ものを用いることができる。さらに、画像辞書構成装置100が一つ以上の画像を入力として受信できる限り、必ずしもデータベースでなくとも構わない。本実施形態においては、画像データベース10が外部にあるものとして、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。
また、画像辞書構成装置100が備える各部及び画像データベース10は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像辞書構成装置100が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
演算部20は、部分領域分割部30と、特徴量抽出部32と、分類部34と、候補領域決定部36と、識別器学習部38とを含んで構成されている。
部分領域分割部30は、画像データベース10から入力された一つ以上の画像を読み込み、各画像を一つ以上の部分領域に分割、選定してこれらを特徴量抽出部32に出力する。
以下、部分領域分割部30における部分領域抽出処理について詳述する。本処理は、画像データベース10に格納された画像全てに対して実施されるが、全ての画像に対して同じ処理が実行されるので、ここでは1枚の画像に対する処理のみについて説明する。
部分領域抽出処理では、画像全体の中から、その一部領域だけを切り出して抽出する。具体的には、部分領域数と部分領域サイズを指定し、一定間隔で部分領域を抽出していく。
例えば、元の画像サイズが縦360ピクセル×横240ピクセルであるとし、部分領域数を16×16=256個、部分領域サイズを32ピクセル×32ピクセルとした場合の一例を説明する。この場合、縦は(360−32)/16=20ピクセル(少数点以下切りすて)シフトごと、横は(240−32)/16=13ピクセルシフトごとに一つ、32ピクセル×32ピクセルの部分領域を抽出する。
部分領域数及び部分領域サイズに対しては、任意の正の整数を設定すればよい。部分領域は相互に重なりがあっても構わず、また、いくつかの設定を組み合わせて用いるものとしてもよい。
以上の処理を画像全体に対して行うことで、部分領域の集合を得ることができる。こうして得た部分領域集合を特徴量抽出部32に出力し、処理を終了する。
特徴量抽出部32は、部分領域分割部30によって分割された画像の部分領域からなる部分領域の集合に含まれる部分領域の各々について、解析をし、予め定めた特徴量を抽出する。当該特徴量は、分類部34に出力される。なお、本実施の形態では、特徴量として画像特徴ベクトルを抽出する。
以下、特徴量抽出部32における特徴量の抽出について説明する。本実施の形態では以下に挙げる全ての特徴量について抽出をするが、どのような特徴量を抽出するかは、本発明の実施の形態の要件として重要ではなく、一般に知られた公知の特徴抽出処理を用いてよい。具体的には、画像から抽出された次元を持つ数値データ(スカラー又はベクトル)であれば、あらゆる特徴量及びその組み合わせに対して有効であり、例えば、明るさ特徴、色特徴、テクスチャ特徴、景観特徴、形状特徴などを抽出すればよい。
明るさ特徴は、部分領域内のピクセルに対して、HSV色空間におけるV値のヒストグラムとして求めることができる。
色特徴は、L*a*b*色空間における各軸(L*、a*、b*)の値のヒストグラムとして求めることができる。
テクスチャ特徴としては、部分領域内から一定間隔で抽出したキーポイントごとに局所特徴量を抽出すればよい。局所特徴としては、例えば下記の参考文献1に記載されるSIFT(Scale Invariant Feature Transform)や、下記の参考文献2に記載されるSURF(Speeded Up Robust Features)などを用いることができる。
[参考文献1]D.G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004
[参考文献2]H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features", Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
これらによって抽出される局所特徴は、例えばキーポイント1点あたり128次元の実数値ベクトルとなるため、128次元×キーポイント数分の次元を持つ。あるいは、このベクトルを予め学習して生成しておいた符号長を参照して、符号に変換し、部分領域内適当なサイズのブロック内に存在する符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。又は、参考文献3に記載のスパース表現や、参考文献4、5に記載のフィッシャーカーネルに基づく特徴表現などを利用してもよい。
[参考文献3] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas Huang, and Yihong Gong, “Locality-constrained Linear Coding for Image Classification", IEEE Conference on Computer Vision and Pattern Recognition, pp. 3360-3367, 2010.
[参考文献4] Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification", European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献5] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes", IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
結果として生成される特徴量は、いずれの場合にも、符号長の符号数に依存した長さを持つ実数値ベクトルになる。
景観特徴は、画像の風景や場面を表現した特徴量である。例えば参考文献6に記載のGIST記述子を用いることができる。GIST記述子は部分領域内ブロックごとに一定のオリエンテーションを持つフィルタを掛けたときの係数によって表現されるが、この場合、生成される特徴量は、フィルタの種類(ブロック数×オリエンテーション数)に依存した長さのベクトルとなる。
[参考文献6]A. Oliva and A. Torralba, “Building the gist of a scene: the role of global image features in recognition", Progress in Brain Research, 155, pp.23-36, 2006
形状特徴は、画像に写る物体の形状を表す特徴量である。例えば参考文献7に記載のHistogram of Oriented Gradient(HOG)特徴量やエッジヒストグラムを用いることができる。
[参考文献7]N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection", IEEE Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005
なお、これらの特徴量は、一つあるいは複数を利用してもよいし、その他の公知の特徴量を用いるものとしてもよい。
特徴量抽出部32は、上記処理によって得られた部分領域ごとの各ブロックの特徴量を、分類部34に出力し、処理を終了する。
分類部34は、特徴量抽出部32により抽出した部分領域の各々の画像特徴ベクトルに関する類似度に基づいて、部分領域集合の部分領域の各々を一つ以上のクラスタのうちいずれかのクラスタに分類し、分類結果を候補領域決定部36に出力する。
分類部34では、特徴量抽出部32の特徴量の抽出において、部分領域の各々は同一の画像特徴ベクトルとして表現されているから、分類は任意のクラスタリング手法を用いることができる。例えば、K−means法などを用いることで、任意のクラスタ数に分類すればよい。クラスタ数は、例えば部分領域の総数に対してその1/4などと設定すればよい。
ここで、場合によっては一部クラスタに非常に多数の部分領域が属する場合や、ごく少数の部分領域しか属さないような場合があり得る。こういったクラスタに属する部分領域は、極端に一般的な部分領域であるか、極端に稀な部分領域であることが多く、画像認識や検索等に対して効果が低い場合がある。したがって、クラスタ内の部分領域数が一定以上(例えば1000以上)となるようなクラスタ及び一定以下(例えば3以下)となるようなクラスタを、削除しても構わない。
そして、分類部34は、得られた分類結果(部分領域の各々と、部分領域の各々が属するクラスタ)を候補領域決定部36に出力し、処理を終了する。
候補領域決定部36は、分類部34により出力された分類結果を受け取り、クラスタの各々について、分類部34によって当該クラスタに分類された部分領域の各々に対する、当該部分領域の画像特徴ベクトルと、画像データベース10に格納された、当該部分領域を含む画像に対応した文書データとに基づいて、当該クラスタを代表する部分領域である候補領域を決定する。候補領域は、識別器学習部38の識別器の学習において正例として用いられる。
候補領域決定部36の処理は、本発明の実施の形態の目的である意味的な内容を保持した画像辞書を構成する上で、要となる処理である。具体的には、下記二つの要件を満たす部分領域を格納した画像辞書を構成することを目的とする。
要件1は、画像データベース10中にある画像内に頻出するような代表的な見た目を持つ部分領域であることである。要件2は、画像データベース10中にある画像内に表れる被写体及びシーンの意味的な内容を捉えた部分領域であることである。
このような部分領域は、画像データベース中に含まれる被写体やシーンを効率的に記述できるだけでなく(要件1)、同時にその意味的な内容を捉えることができるため(要件2)、特に高精度な画像認識、画像検索などを実現する画像辞書として好適である。
以下、候補領域決定部36における第1〜第4の処理について詳細に説明する。なお、候補領域決定部36の処理では、各クラスタについて、全く同一の処理を実施するため、ここでは単一のクラスタの中での処理のみを記載する。
候補領域決定部36は、まず、第1の処理として、部分領域と文書データとの対応を取る。先に述べたように、画像データベース10には、画像(又はその所在を一意に示すアドレス)と、当該画像全体に関する意味的な内容を表す文書データが関連づけて格納されている。従って、部分領域がどの画像から抽出されたものであるかを見ることによって、その部分領域と、それが抽出された画像に関連づけられた文書データとを対応づけることができる。この第1の処理によって、全て又は一部の部分領域に、文書データが対応づけられることとなる。
候補領域決定部36は、続いて、第2の処理として、文書データから、これを数値化した文書ベクトルを、第1の処理で文書データと対応付けられた部分領域ごとに構成する。これはいかなる公知の技術を用いても構わず、単純には単語の正規頻度によってベクトルを構成するBag−of−wordsヒストグラムを適用することができる。あるいは、単語の生起頻度で重みを付けたtf−idf法などを適用しても構わない。このような方法は、画像データベース10に登録された文書データが単語であるか、文章であるか等に依らず、一様に同一の文書ベクトルに変換し、表現することができる点で利便性が高い。
候補領域決定部36は、続いて、第3及び第4の処理を行って、部分領域の画像特徴ベクトルと、これに対応づけられた文書データの文書ベクトルから、候補領域を発見する。
第3及び第4の処理の目的は、各クラスタに属する部分領域及びこれに対応する文書ベクトルの中から、より少数の候補領域を絞り込むことである。より厳密には、あるクラスタ内にM個の部分領域の画像特徴ベクトル、及び対応する文書ベクトルが存在するとしたとき、これらからT<M個の候補領域を選び、決定する。
候補領域決定部36の第3及び第4の処理の基本的な方針は、処理対象のクラスタに属する部分領域のうち、クラスタを代表する度合いを代表度スコアとして算出し、その代表度スコアの上位T個を候補領域として選ぶことである。このような代表度スコアを求める方法はさまざまある。例えば、K−means法などでは、クラスタの中心、すなわち、クラスタに属する他の部分領域との距離の総和が最も小さい点を代表とする。この観点では、代表度スコアはその他のデータとの距離の近さで与えられるといえる。同様の考えに基づき、本実施の形態においても、他の部分領域との距離の近さによって定めるものと考え、クラスタリングを用いてこれを決定する。以下、この第3の処理におけるクラスタリングについて詳述する。
候補領域決定部36の第3の処理では、処理対象のクラスタについて、当該クラスタに属する部分領域集合について、部分領域の画像特徴ベクトル及び文書ベクトルのそれぞれに対してのクラスタリングを個別に適用し、代表度スコアを求める。なお、本処理は、画像特徴ベクトルの場合も、文書ベクトルの場合も、いずれも同一の処理を適用するため、画像特徴ベクトルの場合についてのみ述べる。
用いるクラスタリング法はいかなる公知のものを用いてよい。ただし、クラスタ内にある部分領域の特徴量のばらつきには差があることが多いこと、及び、画像特徴ベクトル(又は文書ベクトル)の種類によって、それぞれ適当な距離(ユークリッド距離、コサイン類似度、又はヒストグラムインターセクション等)は異なることに鑑み、K−means法などのように、事前にクラスタ数を指定する必要があったり、距離が特定の種類に限定されるものよりも、好ましくは、Affinity Propagationのようにクラスタ数を自動的に推定でき、かつ、任意の距離に基づいてクラスタリングできるものである方がよい。
候補領域決定部36の第3の処理におけるクラスタリングの結果、K個の画像特徴ベクトルのクラスタ中心が発見できる。候補領域決定部36は、これらのクラスタ中心を基準に、代表度スコアを求める。
候補領域決定部36の第3の処理では、例えば、クラスタ中心と当該クラスタに属する部分領域との平均(あるいは、中央値など、任意の統計量を用いてもよい)距離が最も小さいものを代表クラスタ中心として代表度スコア1.0を与え、以下、この代表クラスタ中心からの距離が近いものから順にスコアが高くなるように代表度スコアを決定すればよい。この際の代表度スコアの計算式は、代表クラスタ中心からの距離をdistとしたとき、例えば
Figure 0006283308
などと求めることができる。
あるいは、K個のクラスタ中心の内、最も近いクラスタ中心からの距離をdistとして求め、同様に上記(1)式を用いて代表度スコアを求めるものとしてもよい。
ここでは画像特徴ベクトルによる代表度スコアを求めたが、同様に文書ベクトルによる代表度スコアも求める。仮に、部分領域の中に、対応付けられた文書ベクトルが存在しないものがある場合、当該文書ベクトルによる代表度スコアは、予め定めた値として定めるとしてよい。例えば一様に0とする、あるいは、得られている文書ベクトルの平均値又は中央値とする等とすればよい。
候補領域決定部36は、次に、第4の処理において、処理対象のクラスタについて先に求めた画像特徴ベクトル及び文書ベクトルによる代表度スコアに基づいて、候補領域を選定する。最終的には、画像特徴ベクトル及び文書ベクトルそれぞれから独立に求めた代表度スコアの双方に基づいて、最終的な代表度スコアを求め、これに基づいて候補領域を選択する。
最も単純には、画像特徴ベクトル及び文書ベクトルの各代表度スコアの和が大きい順に部分領域をランキングし、これが最も高いものからT個を候補領域として選定すればよい。なお、画像特徴ベクトル及び文書ベクトルの各代表度スコアの和を用いるのではなく、画像特徴ベクトル及び文書ベクトルの代表度スコアの内、大きい方、又は小さい方のいずれかを当該部分領域の代表度スコアとして採用しても構わない。
あるいは、画像特徴ベクトル及び文書ベクトルそれぞれの代表度スコアの大きい順に、それぞれをランキングして、2つの異なるランキングリストを作成したのち、これらの2つのランキングリストを一つのランキングリストに統合することによって実施してもよい。2つのランキングを統合する際には、例えば、ボルダ得点方式を用いることができる。この場合、各ランキングリスト1位〜M位にそれぞれ順にM点〜1点を与え、その合算値が大きい順にT個を候補領域として選択すればよい。このような方法は、代表度スコアにノイズが含まれているような場合でも、その順位のみによって頑健に有効な候補領域を選定することができるため、頑健で高精度である。
そして、候補領域決定部36は、第4の処理によって選定されたクラスタごとの候補領域を識別器学習部38に出力し、処理を終了する。
識別器学習部38は、第1の処理として、クラスタの各々について、候補領域決定部36により選択された候補領域の画像特徴ベクトルを正例とし、当該クラスタに分類されなかった任意の部分領域の集合に含まれる部分領域の画像特徴ベクトルを負例として、識別器を学習し、これを画像辞書50として出力する。
一般に、正例及び負例が与えられた下で識別器を学習する手法は様々な公知のものが存在する。任意のものを用いてよいが、本実施の形態ではSVMや、[参考文献8]記載のSupport vector regression(SVR)を用いることができる。
[参考文献8]A.J. Smola, B. Scholkopf “A Tutorial on Support Vector Regression", Statistics and Computing, Vol. 14, Issue 3, pp.199-222, 2004
いずれの場合にも、あるクラスタに対して、その候補領域を正例、及び、当該クラスタに属さない任意の部分領域を負例として、ある部分領域がどの程度当該クラスタに帰属するかを表す確度を求めるための識別器を得ることができる。そして、クラスタごとに得られた識別器を画像辞書50として出力し、処理を終了すればよい。
なお、識別器学習部38は、第2の処理として、一度学習した識別器を、予め用意した新たな画像データセットに適用して、当該画像データセットに含まれる部分領域がどのクラスタに属するかを判定し、各クラスタに分類した後、その分類結果を候補領域決定部36に出力しても構わない。その後、候補領域決定部36は、各クラスタに分類された新たな画像データセットについて、各クラスタの候補領域を、先に述べた候補領域決定部36の処理によって決定した後、再度、識別器学習部38に出力する。このようにすることによって、新たな画像データセットが追加された際には、その画像データセットを用いて繰り返し候補領域の決定と識別器の学習を所定の条件が満たされるまで実行し、得られた識別器を画像辞書50として出力することで、画像データセットの偏りの影響を低減し、特定の意味的な内容を持つ部分領域に対して反応する(高い正の値を出力する)ような識別器を得ることができる。
なお、本実施の形態では識別器学習部38は、第1及び第2の処理を実行するが、第1の処理のみを実行して取得した識別器を画像辞書50として出力するようにしてもよい。
以上が、画像辞書構成装置の各処理部の処理詳細の一例である。
<本発明の第1の実施の形態に係る画像表現装置の構成>
次に、本発明の第1の実施の形態に係る画像表現装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係る画像表現装置200は、CPUと、RAMと、後述する画像表現処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像表現装置200は、機能的には図2に示すように画像データベース210と、演算部220とを備えている。
画像データベース210には、少なくとも画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。その他の構成は、画像辞書構成装置100の画像データベース10と同様である。
演算部220は、部分領域分割部230と、特徴量抽出部232と、表現部234と、画像辞書236とを含んで構成されている。
部分領域分割部230は、画像データベース210から入力された画像を読み込み、各画像を部分領域に分割、選定してこれを特徴量抽出部232に出力する。その他の構成は、画像辞書構成装置100の部分領域分割部30と同様である。
特徴量抽出部232は、部分領域分割部230によって分割された画像の部分領域からなる部分領域の集合に含まれる部分領域の各々について、解析をし、予め定めた特徴量を抽出する。当該特徴量は、表現部234に出力される。その他の構成は、画像辞書構成装置100の特徴量抽出部32と同様である。
表現部234は、特徴量抽出部232によって抽出された部分領域の各々の特徴量と、画像辞書構成装置100によって出力された画像辞書236とに基づいて、部分領域の各々について、当該部分領域がクラスタの各々に帰属する確度を算出し、算出された確度に基づいて、当該部分領域がクラスタのいずれかに属するか、又はクラスタのいずれにも属さないかを判定する。表現部234は、判定の結果に基づいて、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力する。
以下、表現部234の処理について詳細に説明する。ここで、入力された画像に対しては、部分領域、及び各部分領域に対する特徴量が抽出されている。この元で、画像辞書構成装置100により予め学習した画像辞書236を用い、この画像に対する画像表現を得る。
まず、表現部234は、画像辞書構成装置100における分類部34と同様の処理によって、それぞれの部分領域がいずれかの「クラスタに属する」、又は、「いずれのクラスタにも属さない」のいずれに相当するかを判定する。
最も単純には、クラスタの各々について、各クラスタK(i=1、・・・、V)に属すると判定された頻度を求め、V次元のヒストグラムを構成することでこれを画像表現とすることができる。
あるいは、[参考文献9]記載のSpatial Pyramid Matching(又はSpatial Pooling)と呼ばれる処理によって、頻度を計算してもよい。
[参考文献9]S. Lazebnik, C. Schmid, J. Ponce, “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories” In Proc. IEEE Conference on Computer Vision and Pattern Recognition. Pp.2169-2178, 2006.
これ以外にも、一つ以上のクラスタと、それに属する要素の集合から求めることのできる任意の統計量によって画像表現を得ることができる。
そして、表現部234は、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを、画像表現として出力し、処理を終了する。
<本発明の第1の実施の形態に係る画像辞書構成装置の作用>
次に、本発明の第1の実施の形態に係る画像辞書構成装置100の作用について説明する。画像データベース10から一つ以上の画像及び画像の各々に対応した文書データの入力を受け付けると、画像辞書構成装置100は、図3に示す画像辞書構成処理ルーチンを実行する。
まず、ステップS100では、画像データベース10から受け付けた一つ以上の画像及び画像の各々に対応した文書データを読み込む。
ステップS102では、ステップS100で読み込まれた画像の各々を、一つ以上の部分領域の各々に分割する。
ステップS104では、ステップS102で分割された部分領域からなる部分領域集合の部分領域の各々について解析をし、部分領域ごとに特徴量として画像特徴ベクトルを抽出する。
ステップS106では、ステップS102で分割された全ての部分領域からなる部分領域集合を、ステップS104で抽出した画像特徴ベクトルに基づいて、一つ以上のクラスタのうちのいずれかに分類する。
ステップS108では、ステップS106で得られたクラスタ集合から処理対象となるクラスタを選択する。
ステップS110では、ステップS108で選択したクラスタについて、ステップS106で当該クラスタに分類された部分領域の集合に含まれる部分領域と、ステップS100で読み込んだ、当該部分領域を含む画像に対応する文書データとを対応づける。
ステップS112では、ステップS110で部分領域の各々に対応付けられた文書データに基づいて、文書ベクトルを部分領域ごとに構成する。
ステップS114では、ステップS108で選択したクラスタについて、ステップS106で当該クラスタに分類された部分領域の画像特徴ベクトルに基づいて、画像特徴ベクトルをクラスタリングすることによりクラスタ中心を求め、クラスタ中心を基準に、部分領域の各々の代表度スコアを求める。また、当該クラスタに分類された部分領域ごとにステップS112で構成された文書ベクトルに基づいて、文書ベクトルをクラスタリングすることによりクラスタ中心を求め、クラスタ中心を基準に、部分領域の各々の代表度スコアを求める。そして、当該クラスタに分類された部分領域ごとに、双方で求められた代表度スコアに基づいて、当該部分領域の代表度スコアを求める。
ステップS116では、ステップS108で選択したクラスタについて、ステップS114で求めた部分領域の各々の代表度スコアに基づいて、当該クラスタを代表する部分領域である候補領域を決定する。
ステップS118では、ステップS108で選択したクラスタについて、ステップS116で決定した候補領域を正例、当該クラスタに属さない部分領域を負例として用い、識別器を学習する。
ステップS120では、全てのクラスタについて、ステップS108〜ステップS118の処理を終了したかを判定し、終了していなければ、ステップS108へ戻ってクラスタを選択して処理を繰り返し、終了していれば、ステップS122へ移行する。
ステップS122では、ステップS118において全てのクラスタについて学習された識別器を画像辞書として出力し、処理を終了する。
<本発明の第1の実施の形態に係る画像表現装置の作用>
次に、本発明の第1の実施の形態に係る画像表現装置200の作用について説明する。画像データベース210から画像の入力を受け付けると、画像表現装置200は、図4に示す画像表現処理ルーチンを実行する。
まず、ステップS200では、画像データベース210から受け付けた画像を読み込む。
ステップS202では、ステップS200で読み込まれた画像を、一つ以上の部分領域の各々に分割する。
ステップS204では、ステップS202で分割された部分領域からなる部分領域集合の部分領域の各々について特徴量を抽出する。
ステップS206では、ステップS204で抽出された部分領域の各々の特徴量と、上記の画像辞書構成処理ルーチンによって出力された画像辞書236とに基づいて、部分領域の各々について、当該部分領域がクラスタの各々に帰属する確度を算出する。
ステップS208では、ステップS206で算出された部分領域の各々がクラスタの各々に帰属する確度に基づいて、それぞれの部分領域がクラスタのいずれかに属するか、又はクラスタのいずれにも属さないかを判定する。
ステップS210では、ステップS208の判定の結果に基づいて、クラスタの各々について当該クラスタに属すると判定された頻度を表すヒストグラムを構成する。
ステップS212では、ステップS212で構成されたヒストグラムを画像表現として出力し、処理を終了する。
以上説明したように、本発明の第1の実施の形態に係る画像辞書構成装置によれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の画像特徴ベクトルと、部分領域を含む画像全体に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる。
また、本発明の第1の実施の形態に係る画像表現装置によれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる。
<本発明の第2の実施の形態に係る画像辞書構成装置の構成>
次に、本発明の第2の実施の形態に係る画像辞書構成装置の構成について説明する。なお、第1の実施の形態の画像辞書構成装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図1に示すように、本発明の第2の実施の形態に係る画像辞書構成装置100は、CPUと、RAMと、後述する画像辞書構成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像辞書構成装置100は、機能的には図1に示すように画像データベース10と、演算部20と、画像辞書50とを備えている。
第2の実施の形態に係る画像データベース10には、画像自体、あるいは、当該画像ファイルの所在を一意に示すアドレスが格納されているものとする。また、格納されている画像の内、一つ以上の画像に対応した文書データが格納されているものとする。この文書データは、画像の一部領域に関する意味的な内容を表すものである。
また、文書データに記載されている画像の一部領域の内容は、その画像のどこの領域について記述したものであるのか、その位置情報と共に記述されているものとする。例えば、画像の一部の部分領域において長方形で囲まれる区間については、縦横ピクセル位置、及び、幅と高さの4点の位置が位置情報として与えられていれば十分である。この場合、画像のどこにどんな意味的な内容が含まれているかについて特定性が高まるため、より精密に意味的な内容を表す画像辞書、及び画像表現を得ることができる。
第2の実施の形態に係る演算部20は、部分領域分割部30と、特徴量抽出部32と、分類部34と、候補領域決定部36と、識別器学習部38とを含んで構成されている。
第2の実施の形態に係る候補領域決定部36は、分類部34により出力された分類結果を受け取り、クラスタの各々について、分類部34によって当該クラスタに分類された部分領域の各々に対する、当該部分領域の特徴量と、画像データベース10に格納された、当該部分領域を含む画像の一部領域に対応した文書データとに基づいて、クラスタを代表する部分領域である候補領域を決定する。
第2の実施の形態に係る候補領域決定部36は、まず、第1の処理として、部分領域と文書データの対応を取る。先に述べたように、画像データベース10には、画像(又はその所在を一意に示すアドレス)と、当該画像の一部領域に関する意味的な内容を表す文書データが関連づけて格納されている。従って、部分領域がどの画像から抽出されたものであるかを見ることによって、その部分領域と、部分領域が抽出された画像に関連づけられた文書データとを対応づけることができる。第2の実施の形態では、文書データが画像の一部領域について記述したものであり、その領域の位置情報も併せて格納されているため、これに基づいて直接部分領域と文書データの対応づけを行う。例えば、領域の重なり割合を用いて関連づけることができる。つまり、重なる領域の割合(文書データの割り当てられた領域)と(部分領域)の積により得られる領域のサイズに対する、その和により得られる領域のサイズの比率が閾値以上(例えば0.5)の割合となった場合に、当該部分領域にその文書データを対応づければよい。例えば、ある文書データが画像位置(横36ピクセル、縦56ピクセル)に、サイズ(幅18ピクセル、高さ24ピクセル)で割り当てられているとする。また、例えば、ある画像領域が(横40ピクセル、縦60ピクセル)の位置に(幅20ピクセル、高さ20ピクセル)で取られたとしよう。このとき、重なり割合は、(36+18-40)×20/(18×24+20×20-(36+18-40)×20)= 0.51である。仮に、閾値を0.5と設定していたならば、この部分領域には当該文書データを対応づけることとなる。なお、第2の実施の形態に係る候補領域決定部36における第1の処理以降の第2〜第4の処理は、第1の実施の形態に係る候補領域決定部36における第2〜第4の処理と同様である。
なお、第2の実施の形態に係る画像辞書構成装置の他の構成及び作用は、第1の実施の形態の画像辞書構成装置100と同様であるため詳細な説明を省略する。
<本発明の第2の実施の形態に係る画像表現装置の構成>
次に、本発明の第2の実施の形態に係る画像表現装置の構成について説明する。なお、第1の実施の形態の画像表現装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図2に示すように、本発明の第2の実施の形態に係る画像表現装置200は、CPUと、RAMと、後述する画像表現処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像表現装置200は、機能的には図2に示すように画像データベース210と、演算部220とを備えている。
なお、第2の実施の形態に係る画像表現装置の他の構成及び作用は、第1の実施の形態の画像表現装置200と同様であるため詳細な説明を省略する。
以上説明したように、本発明の第2の実施の形態に係る画像辞書構成装置によれば、入力された画像を部分領域に分割し、部分領域の各々をクラスタに分類し、クラスタの各々について、部分領域の画像特徴ベクトルと、部分領域を含む画像の一部領域に対応した文書データとに基づいて、クラスタの代表となる部分領域である候補領域を決定し、候補領域を正例として用いて識別器を学習することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を得るための画像辞書を構成することができる。
また、本発明の第2の実施の形態に係る画像表現装置によれば、入力された画像を部分領域に分割し、部分領域の各々の特徴量と、画像辞書とに基づいて、部分領域の各々について、クラスタのいずれかに属するか、クラスタのいずれにも属さないかを判定し、判定の結果に基づいて、クラスタの各々についてクラスタに属すると判定された頻度を表すヒストグラムを、入力された画像の画像表現として出力することにより、画像中の意味のある特徴的な領域を発見することが可能な画像表現を求めることができる。
また、上述した実施の形態における画像辞書構成装置によれば、画像特徴のみならず、これに付随する意味的な内容を指し示す文書データを参考情報として用いることで、被写体やシーンの意味的な内容を表す部分領域を発見し、これを基に画像辞書を構成することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した第1の実施の形態では、画像全体に対応する文書データを、第2の実施の形態では、画像の一部領域に対応する文書データをそれぞれ用いて、部分領域と文書データとを対応付け、文書ベクトルを構成したが、これに限定されるものではなく、画像の全体及び一部領域に対応する文書データを用いてもよい。ここで、部分領域と対応付けられる文書データとして、画像全体に対応する文書データ及び一部領域に対応する文書データの両方が存在する場合には、一部領域に対応する文書データを優先して文書ベクトルを構成してもよいし、画像全体に対応する文書データ及び一部領域に対応する文書データを合わせた文書データについて文書ベクトルを構成するようにしてもよい。
10、210 画像データベース
20、220 演算部
30、230 部分領域分割部
32、232 特徴量抽出部
34 分類部
36 候補領域決定部
38 識別器学習部
50、236 画像辞書
100 画像辞書構成装置
200 画像表現装置
234 表現部
250 出力部

Claims (5)

  1. 部分領域分割部と、特徴量抽出部と、分類部と、候補領域決定部と、識別器学習部とを含み、入力された一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置における画像辞書構成方法であって、
    前記部分領域分割部が、前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割するステップと、
    前記特徴量抽出部が、前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出するステップと、
    前記分類部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類するステップと、
    前記候補領域決定部が、前記クラスタの各々について、前記分類部によって前記クラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定するステップと、
    前記識別器学習部が、前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力するステップと、
    を含む画像辞書構成方法。
  2. 入力として受け付けた一つ以上の画像の各々、及び前記画像の各々に対応した文書データから画像辞書を構成する画像辞書構成装置であって、
    前記入力された一つ以上の画像の各々を、一つ以上の部分領域に分割する部分領域分割部と、
    前記部分領域分割部によって分割された前記部分領域からなる部分領域の集合に含まれる前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出した前記部分領域の各々の特徴量に関する類似度に基づいて、前記部分領域の集合の前記部分領域の各々を一つ以上のクラスタのうちのいずれかのクラスタに分類する分類部と、
    前記クラスタの各々について、前記分類部によってクラスタに分類された部分領域の各々に対する、前記部分領域の特徴量と、前記入力された、前記部分領域を含む画像に対応した文書データとに基づいて、前記クラスタを代表する部分領域である候補領域を決定する候補領域決定部と、
    前記クラスタの各々について、前記候補領域決定部によって決定された候補領域の前記特徴量を正例、前記クラスタに分類されなかった前記部分領域の前記特徴量を負例として、前記部分領域が前記クラスタに属するか否かを識別するための識別器を学習して取得し、前記クラスタの各々について取得した前記識別器を、画像辞書として出力する識別器学習部と、
    を含む画像辞書構成装置。
  3. 部分領域分割部と、特徴量抽出部と、表現部と、を含む画像表現装置における画像表現方法であって、
    前記部分領域分割部が、入力された画像を一つ以上の部分領域に分割するステップと、
    前記特徴量抽出部が、前記部分領域の各々について、特徴量を抽出するステップと、
    前記表現部が、前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項1記載の画像辞書構成方法によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力するステップと、
    を含む画像表現方法。
  4. 入力された画像を一つ以上の部分領域に分割する部分領域分割部と、
    前記部分領域の各々について、特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出した前記部分領域の各々の特徴量と、請求項2記載の画像辞書構成装置によって出力された前記画像辞書とに基づいて、前記部分領域の各々について、前記部分領域が前記クラスタの各々に帰属する確度を算出し、前記算出された確度に基づいて、前記部分領域が前記クラスタのいずれかに属するか、又は前記クラスタのいずれにも属さないかを判定し、前記判定の結果に基づいて、前記クラスタの各々について前記クラスタに属すると判定された頻度を表すヒストグラムを、前記入力された画像の画像表現として出力する表現部と、
    を含む画像表現装置。
  5. コンピュータを、請求項1に記載の画像辞書構成方法、又は請求項3に記載の画像表現方法を構成する各ステップを実行させるためのプログラム。
JP2014261008A 2014-12-24 2014-12-24 画像辞書構成方法、画像表現方法、装置、及びプログラム Active JP6283308B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014261008A JP6283308B2 (ja) 2014-12-24 2014-12-24 画像辞書構成方法、画像表現方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014261008A JP6283308B2 (ja) 2014-12-24 2014-12-24 画像辞書構成方法、画像表現方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016122279A JP2016122279A (ja) 2016-07-07
JP6283308B2 true JP6283308B2 (ja) 2018-02-21

Family

ID=56329046

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014261008A Active JP6283308B2 (ja) 2014-12-24 2014-12-24 画像辞書構成方法、画像表現方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6283308B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022144738A (ja) * 2021-03-19 2022-10-03 京セラドキュメントソリューションズ株式会社 情報抽出システムおよび情報抽出プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5413156B2 (ja) * 2009-11-30 2014-02-12 富士ゼロックス株式会社 画像処理プログラム及び画像処理装置
JP4926266B2 (ja) * 2010-07-13 2012-05-09 ヤフー株式会社 学習データ作成装置、学習データ作成方法及びプログラム
JP5821590B2 (ja) * 2011-12-06 2015-11-24 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
US9317781B2 (en) * 2013-03-14 2016-04-19 Microsoft Technology Licensing, Llc Multiple cluster instance learning for image classification

Also Published As

Publication number Publication date
JP2016122279A (ja) 2016-07-07

Similar Documents

Publication Publication Date Title
US10922350B2 (en) Associating still images and videos
Jiao et al. SAR images retrieval based on semantic classification and region-based similarity measure for earth observation
CN105027162B (zh) 图像解析装置、图像解析系统、图像解析方法
CN107209860A (zh) 使用分块特征来优化多类图像分类
US20130282712A1 (en) Combined semantic description and visual attribute search
JP2013531297A (ja) 画像中の特定物体の迅速且つ堅牢性のある識別方法及び識別システム
US10489681B2 (en) Method of clustering digital images, corresponding system, apparatus and computer program product
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
CN103995864B (zh) 一种图像检索方法和装置
Lee et al. Improved image retrieval and classification with combined invariant features and color descriptor
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
Karamti et al. Content-based image retrieval system using neural network
Kim et al. Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition
JP5833499B2 (ja) 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
JP6283308B2 (ja) 画像辞書構成方法、画像表現方法、装置、及びプログラム
Morsillo et al. Youtube scale, large vocabulary video annotation
KR101758869B1 (ko) 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법
JP6134246B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム
Histograms Bi-level classification of color indexed image histograms for content based image retrieval
JP2017215784A (ja) 物体検出装置、方法、及びプログラム
Feng et al. Image retrieval system based on bag of view words model
Liu et al. Creating descriptive visual words for tag ranking of compressed social image
Pertusa et al. MirBot: A multimodal interactive image retrieval system
Xu Cross-Media Retrieval: Methodologies and Challenges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180126

R150 Certificate of patent or registration of utility model

Ref document number: 6283308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150