JP5370267B2 - 画像処理システム - Google Patents

画像処理システム Download PDF

Info

Publication number
JP5370267B2
JP5370267B2 JP2010121887A JP2010121887A JP5370267B2 JP 5370267 B2 JP5370267 B2 JP 5370267B2 JP 2010121887 A JP2010121887 A JP 2010121887A JP 2010121887 A JP2010121887 A JP 2010121887A JP 5370267 B2 JP5370267 B2 JP 5370267B2
Authority
JP
Japan
Prior art keywords
category
attribute
information
score information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010121887A
Other languages
English (en)
Other versions
JP2011248680A (ja
Inventor
悠一 吉田
満 安倍
孝介 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2010121887A priority Critical patent/JP5370267B2/ja
Publication of JP2011248680A publication Critical patent/JP2011248680A/ja
Application granted granted Critical
Publication of JP5370267B2 publication Critical patent/JP5370267B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、未知の画像データが入力されたときに、その画像データに対する画像処理結果と、その画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、対象画像が属するカテゴリーを決定する画像処理システムに関する。
近年、デジタルカメラ付の情報端末が普及したことにより、画像が日常的に扱われるようになり、ユーザは、名称や詳細な情報を取得したい対象を撮影することもある。また、ユーザは、撮影した画像をカテゴリーごとに自動的に整理したいとの要望を持つ場合もある。それに対して、画像に含まれている対象を自動的に認識する画像認識技術は、認識対象のカテゴリーが多く、また同一カテゴリーの物体であっても、形態が様々であるため、困難性が高い技術であることが知られている。
近年では、このような画像認識技術に、例えば非特許文献1に記載されているように、画像の局所特徴量(局所パターン)の分布に基づいて対象の認識を行なう手法を適用することで、認識精度の向上が図られている。
この非特許文献1では、複数のカテゴリーの標本画像の各々について、エッジ等の特徴点を多数抽出し、それらの特徴点周辺パターンをSIFT(Scale-Invariant Feature Transform)特徴ベクトルにより表現する。そして、予め求めておいた代表的な局所パターンであるvisual wordsに基づいて、各画像の特徴点周辺パターンをヒストグラム化する。これにより、各画像は、visual wordsの集合として表現され、そのヒストグラムから、画像の特徴ベクトルが定められる。このように定められた画像特徴ベクトルは、SVM(サポートベクターマシン)などにより各カテゴリーに分類される。
"Visual Categorization with Bags of Keypoints" Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Cedric Bray, In ECCV International Workshop on Statistical Learning in Computer Vision (2004)
しかしながら、画像の局所パターンのみに基づいて認識を行なう場合、カテゴリーが異なるにも係らず、良く似ている画像に関しては、カテゴリーを誤って認識する場合もある。そのため、画像認識結果のみに基づいて認識対象のカテゴリーを決定する場合、必ずしも高い認識精度を期待することはできないという問題がある。
本発明は上述した点に鑑みてなされたものであり、未知の画像データに対する画像処理結果と、簡単な質問に対するユーザの回答を得て、その質疑応答結果とを組み合わせることにより、画像データの対象画像が属する真のカテゴリーを効率的に決定することが可能な画像処理システムを提供することを目的とする。
上記目的を達成するために、請求項1に記載の画像処理システムは、
未知の画像データを入力する入力手段と、
入力手段により入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出手段と、
共通かつ複数の属性について複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したスコア情報を記憶する記憶手段と、
算出手段によって算出された複数の候補カテゴリーに対応するスコア情報を記憶手段から読み出して、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定手段と、
質問属性決定手段によって決定された属性に該当するか否かの質問をユーザに提示する質問提示手段と、
ユーザからの回答を受け付ける回答受付手段と、を備えることを特徴とする。
ここで、各カテゴリーの属性に関する質問に関する回答を得ることで、多数のカテゴリーの中から真のカテゴリーを絞り込もうとした場合には、いわゆる“20の質問”で知られているように、カテゴリーの数を半分に絞り込む質問を繰り返すことが、結果的には、質問数を最も少なくすることができる。このときの質問数は、認識対象となるカテゴリーの数をNとすれば、log2Nとなる。しかし、この場合、認識対象となるカテゴリーの数が多くなるほど、質問数も多くなり、対象画像の真のカテゴリーを決定する際にユーザに過度の負担をかける虞が生じる。
そこで、請求項1の発明では、まず、未知の画像データに対して画像処理を施して、その画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、その確率とを算出する。そして、各候補カテゴリーに対応するスコア情報と、対象画像が各候補カテゴリーに属する確率とに基づいて質問すべき属性を決定する。
スコア情報は、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したものである。従って、画像データに対する画像処理により候補カテゴリーとなったカテゴリーのスコア情報と、各候補カテゴリーに属する確率とから、カテゴリーを絞り込む上で最も適切な属性を決定することができる。そして、このようにして決定した属性に関する質問を行うことで、カテゴリーの数を効率的に絞り込むことができ、真のカテゴリーを決定するまでの質問数を大幅に低減することができる。
請求項2に記載したように、スコア情報は、質問提示手段が、未知の画像データが入力された後の、初回の質問を提示する際に利用されることが好ましい。初回の質問時は、画像データの対象画像が属する可能性がある候補カテゴリーの数が多いため、その候補カテゴリーを一気に絞り込むことが最も効果的に行いうるためである。また、認識対象となる全カテゴリーを対象としてスコア情報を事前に用意しておくことが容易なためである。
2回目以降の質問時に、上述した請求項1の発明を利用して、質問を提示することも可能であるが、その場合、既に提示された質問により絞り込まれたカテゴリーを対象として作成されたスコア情報が必要となる。換言すれば、2回目以降の質問時に、請求項1の発明を利用して質問を提示しようとする場合には、絞り込まれるカテゴリーのあらゆる組み合わせを考慮して、それぞれの組み合わせごとにスコア情報を事前に用意しておく必要がある。このようなスコア情報を事前に用意しておくことは煩雑であるため、初回の質問時に、請求項1に記載の発明を利用して質問を提示することが好ましい。
請求項3に記載したように、記憶手段が記憶するスコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成することができる。
具体的には、請求項4に記載するように、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられるようにすることが好ましい。また、請求項5に記載するように、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第2スコア情報よりも大きい第3スコア情報が与えられるようにすることが好ましい。
上述した請求項4,5のようにスコア情報を定め、かつ、各組み合わせごとに定めたスコア情報を、各候補カテゴリーごとにまとめることにより、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表すことが可能となる。
なお、請求項5において、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合に、最も大きい第3スコア情報を与えるのは、属性情報が一致する属性に関する質問に対する回答を得ても、真のカテゴリーと候補カテゴリーとを識別することができないため、そのような属性に関する質問を避けるためである。
請求項6に記載したように、第1スコア情報と第2スコア情報との差異は、第2スコア情報と第3スコア情報との差異よりも小さいことが好ましい。換言すれば、第1スコア情報、第2スコア情報、及び第3スコア情報は、比例的に増加するのではなく、第3スコア情報が、第2スコア情報に対して大幅に増加されることが好ましい。このようにすると、真のカテゴリーと候補カテゴリーとを区分けすることができない属性に関する質問をより厳格に回避することが可能となる。
請求項7に記載したように、質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することができる。請求項4,5において説明したように、スコア情報として、真のカテゴリーを識別できる可能性が高い属性ほど、小さなスコアが与えられる。従って、各候補カテゴリーに属する確率と、その各候補カテゴリーに対応するスコア情報とを乗算し、各属性ごとに乗算結果の総計を算出した場合、その総計が最も小さい属性が、カテゴリーを絞り込むために質問すべき最適な属性となる。
請求項8に記載したように、スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第1〜第3スコア情報に応じた位置に0以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることが好ましい。これにより、スコア情報の設定や、スコア情報を用いた演算処理を容易に行うことができる。
請求項9〜16は、上述した請求項1〜8に記載した画像処理システムにおいて実行される画像処理方法について記述したものである。このため、請求項9〜16の画像処理方法の作用効果は、請求項1〜8の画像処理システムと同様であり、その説明を省略する。
実施形態による画像処理システムの構成を示す構成図である。 画像認識処理に用いられる学習データを作成するための処理フローを示すフローチャートである。 スコア情報確率行列P(R|attr, Cpre)を作成するための処理フローを示すフローチャートである。 属性情報について説明するための説明図である。 真のカテゴリーと候補カテゴリーとが一致する場合の、スコア情報行列Hの作成方法を説明するための説明図である。 真のカテゴリーと候補カテゴリーとが異なる場合の、スコア情報行列Hの作成方法を説明するための説明図である。 各カテゴリーが真のカテゴリーである場合の、それぞれのスコア情報行列H(R, attr, Cpre, Ctrue)を示す図である。 スコア情報確率行列P(R|attr, Cpre)を示す図である。 未知の画像データが入力された場合に、スコア情報確率行列P(R|attr, Cpre)を用いて、質問すべき最適な属性を決定する処理フローを示すフローチャートである。 条件付確率行列P(R|attr,I)の一例を示す図である。
以下、本発明の第1実施形態による画像処理システムについて、図面に基づいて説明する。図1は、本実施形態の画像処理システムの構成を示す構成図である。なお、本実施形態による画像処理システムは、コンピュータもしくは専用の演算処理回路などを用いて実現される。
図1において、画像入力部10は、例えばメモリカードインターフェース、USBコネクタ、無線通信装置などからなり、デジタルカメラ付の情報端末(図示せず)により撮影された画像データを当該情報端末から取得して、後述する画像処理部20に入力するものである。
画像処理部20は、画像入力部10から入力された画像データに対して画像処理を行い、画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、それらの候補カテゴリーに属する確率を算出する。また、画像処理部20は、その画像処理結果と、予めデータベース30に記憶しているスコア情報確率行列P(R|attr, Cpre)とに基づいて、対象画像のカテゴリーを絞り込むための最も適切な、質問すべき属性を決定する。そして、決定した属性に関する質問に対するユーザからの回答に応じて、候補カテゴリーを絞り込み、その絞り込まれた候補カテゴリーを対象として、最終的に1つのカテゴリーが抽出されるまで、属性に関する質問を繰り返す。このようにして、画像処理部20は、画像データの対象画像のカテゴリーを決定する。なお、画像処理部20が行う画像処理や、質問すべき属性を決定するための処理等については、後に詳細に説明する。
データベース30は、記憶媒体からなり、画像処理部20が画像処理を実行するときに利用する学習データと、ユーザに対して質問すべき属性を決定するために利用されるスコア情報確率行列P(R|attr, Cpre)とが予め記憶されている。なお、Rはスコア情報、attrは属性、Cpreは候補カテゴリーを示す。
質問提示部40は、例えばディスプレイやスピーカからなり、画像処理部20により決定された属性に関する質問を、ディスプレイにおける表示やスピーカからの音声などによりユーザに提示するものである。なお、ユーザには、例えば、認識対象が動物である場合には、「それは肉食性ですか?」等の、ユーザが「Yes」又は「No」で簡単に回答することができる、各カテゴリーの属性に関する二者択一の質問が提示される。
回答受付部50は、キーボード、マウス、タッチパネル、音声認識装置などからなり、提示された質問に対するユーザの回答を受け付けて、その回答結果を画像処理部20に出力するものである。
カテゴリー出力部60は、例えばディスプレイやスピーカからなり、画像処理部20において最終的に決定された画像データの対象画像のカテゴリーをユーザに報知するものである。なお、必要に応じて、カテゴリーの名称に加え、その詳細な情報をユーザに提供しても良い。また、入力した画像データを整理する場合には、例えば、画像処理部20が決定したカテゴリーに応じたフォルダをデータベース30に作成し、そのフォルダ内に画像データを保存するようにしても良い。
次に、データベース30に予め記憶され、画像処理部20が画像処理を実行するときに利用する学習データについて説明する。本実施形態では、学習データを作成するために、認識対象となるそれぞれのカテゴリーに属する多数の画像からなる標本データを用いる。
図2は、学習データを作成するための処理フローを示すフローチャートである。まず、ステップS100では、用意された標本データが、画像処理部20に入力される。ただし、学習データを作成する主体は、画像処理部20以外の他のコンピュータであっても良い。
ステップS110では、入力された標本データの画像をN1次元(例えば1000次元)の画像特徴量ベクトルに変換する。画像をN1次元の画像特徴量ベクトルに変換する手法として種々の方法が知られているが、以下に、その一例について簡単に説明する。
まず、画像から沢山の小領域を切り出して、各小領域の特徴量である輝度分布の勾配方向のパターンを、SIFT(Scale-Invariant Feature Transform)特徴ベクトル(128次元のベクトル)により表す。このSIFT特徴ベクトルは、小領域を4×4=16グリッドに分割し、各グリッドの勾配方向を8方向のベクトルにて表現したものである。
小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域とすれば良い。あるいは、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、1枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。
標本データに含まれるすべての画像に関して、局所特徴量に対応するSIFT特徴ベクトルが算出されると、SIFT特徴ベクトルの128次元空間において、K−平均法(K‐means)を用いて、算出したSIFT特徴ベクトルをN1個にクラスタリングする。そして、各クラスタの中心に当たるSIFT特徴ベクトルを、画像の特徴を表すための代表的なパターンであるvisual wordsとして定める。
上述したようにして定められたN1個のvisual wordsと、各画像ごとに算出されたSIFT特徴ベクトルとを用いて、各画像にそれぞれのvisual wordsがいくつ含まれているかを算出することによりベクトル量子化する。これにより、各画像はN1個のvisual wordsがそれぞれいくつ含まれているかを示すヒストグラムとして表現され、各画像はN1次元の画像特徴量ベクトルに変換される。
そして、ステップS120において、変換された各画像の画像特徴量ベクトルを、SVM(サポートベクターマシン)などにより各カテゴリーに分類する。この各カテゴリーに分類された各画像の画像特徴量ベクトルが、学習データとして、データベース30に記憶される。
未知の画像データが入力された場合には、その画像データは、標本データの画像に対するのと同様の手法によりベクトル量子化され、N1次元の画像特徴量ベクトルに変換される。そして、変換された画像特徴量ベクトルに基づき、その画像特徴量ベクトルが分類される可能性があるカテゴリーを候補カテゴリーとして抽出する。この場合、通常は、複数のカテゴリーが候補カテゴリーとして抽出される。
さらに、学習データとして、各カテゴリーに含まれる画像特徴量ベクトルと、入力された未知画像データの画像特徴量ベクトルとの類似度から、画像データが各候補カテゴリーに属する確からしさを示す確率を算出する。なお、候補カテゴリーとならなかったカテゴリーに属する確率はゼロとなる。
このようにして、画像処理部20は、未知の画像データが入力されたとき、画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、それら候補カテゴリーに属する確率を算出するのである。
次に、学習データとともにデータベース30に記憶されるスコア情報確率行列P(R|attr, Cpre)の作成方法について説明する。図3は、スコア情報確率行列P(R|attr, Cpre)を作成するための処理フローを示すフローチャートである。
まず、ステップS200において、認識対象とする複数のカテゴリーに関する属性情報を取得する。ここで、属性情報について、図4に基づいて説明する。
属性情報とは、共通かつ複数の属性について、認識対象とする複数のカテゴリーがそれぞれ該当するか否かを示すものである。図4に示す例では、認識対象とするカテゴリーが「トラ」、「白熊」、「牛」、…などであり、それら認識対象カテゴリーを識別することができるように定められた属性は、「ストライプがある」、「斑点がある」、「肉食性である」、「草食性である」、「北極に住む」、「黄色である」などである。そして、図4に示す例では、「1」又は「0」によって、各カテゴリーがそれぞれの属性に該当するか否かが示されている。
このような属性情報は、図5に示す属性情報行列Aによって表すことができる。ステップS200においては、このような属性情報行列Aによって表された属性情報を取得する。ただし、図5においては、説明の便宜上、認識対象カテゴリーは3種類、属性は6種類の場合の属性情報行列Aを示しているが、認識対象カテゴリー及び属性の数によって、属性情報行列Aのサイズは変化する。
続くステップS210では、ステップS200にて取得した属性情報行列Aに基づき、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに、スコア情報行列H(R, attr, Cpre, Ctrue)を作成する。
図5は、真のカテゴリーと候補カテゴリーとが一致する場合の、スコア情報行列H(R, attr, Cpre, Ctrue)の作成方法を示している。より具体的には、1番目のカテゴリーであるトラが真のカテゴリー(Ctrue=1)であって、かつ候補カテゴリー(Cpre=1)である場合の、スコア情報行列H(R, attr, Cpre=1, Ctrue=1)の作成方法を示している。図5の例では、1番目の属性(attr=1)に関しては、真のカテゴリー(Ctrue=1)の属性情報(“1”)が、他のカテゴリーの属性情報(“0”)と相違している。そのため、1番目の属性に対しては、最も低い第1スコア情報(R=1)が与えられる。
ここで、スコア情報行列H(R, attr, Cpre, Ctrue)においては、第1行が第1スコア情報(R=1)、第2行が第2スコア情報(R=2)、及び第3行が第3スコア情報(R=3)に対応している。そのため、ある属性に第1スコア情報(R=1)が与えられる場合には、その属性に対応する列において、第1行に“1”が設定され、第2,3行には“0”が設定される。
また、図5の例において、2番目の属性(attr=2)に関しては、真のカテゴリー(Ctrue=1)の属性情報(“1”)が、2番目のカテゴリーの属性情報(“0”)とは相違しているが、3番目のカテゴリーの属性情報(“1”)とは一致している。このように、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、上述した第1スコア情報(R=1)よりも大きい第2スコア情報(R=2)が与えられる。このため、2番目の属性(attr=2)に関しては、第2スコア情報を示す第2行に“1”が設定され、第1,3行には“0”が設定される。
なお、第3スコア情報(R=3)は、真のカテゴリーと候補カテゴリーとが相違し、かつ、真のカテゴリーの属性情報と候補カテゴリーの属性情報とが一致する場合に、該当する属性に与えられるものである。そのため、真のカテゴリーと候補カテゴリーとが一致している図5の例では、第3スコア情報(R=3)が与えられることはない。
次に、図6に基づき、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関して、スコア情報行列H(R, attr, Cpre, Ctrue)の作成方法を説明する。図6に示す例では、1番目のカテゴリーであるトラが真のカテゴリー(Ctrue=1)であり、2番目のカテゴリーである白熊が候補カテゴリー(Cpre=2)となっている。
図6において、1番目の属性(attr=1)に関しては、真のカテゴリーの属性情報(“1”)が候補カテゴリーの属性情報(“0”)と異なり、かつ、候補カテゴリー以外の他のカテゴリーの属性情報(“0”)とも相違している。従って、真のカテゴリーが1番目のカテゴリーであり、かつ2番目のカテゴリーが候補カテゴリーとなった場合には、1番目の属性に関する質問を行えば、真のカテゴリーを含むより少ないカテゴリーに絞り込むことができる。そのため、1番目の属性に対しては、最も低い第1スコア情報(R=1)が与えられる。
また、図6の例において、2番目の属性(attr=2)に関しては、真のカテゴリー(Ctrue=1)の属性情報(“1”)が、候補カテゴリーの属性情報(“0”)とは相違しているが、3番目のカテゴリーの属性情報(“1”)とは一致している。このように、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、絞り込むことができるカテゴリーの数が増えるため、上述した第1スコア情報(R=1)よりも大きい第2スコア情報(R=2)が与えられる。
さらに、図6の例において、3番目の属性(attr=3)に関しては、真のカテゴリー(Ctrue=1)の属性情報(“1”)が、候補カテゴリーの属性情報(“1”)と一致している。この場合、この属性に関する質問をしても、候補カテゴリーと真のカテゴリーとを区分けすることができない。そのため、第2スコア情報よりも大きい第3スコア情報(R=3)が与えられる。
なお、図5、図6に示した例では、認識対象カテゴリーの数を3としたため、スコア情報も第1〜第3スコア情報の3種類であったが、認識対象カテゴリーの数に応じて、スコア情報の数も変化する。この場合、真のカテゴリーと一致する属性情報を有するカテゴリーの数が多いほど、スコア情報も大きくなるように設定する。ただし、最大のスコア情報は、真のカテゴリーの属性情報と候補カテゴリーの属性情報とが一致しているときに付与される。
上述したようにして、認識対象となる複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに、スコア情報行列H(R, attr, Cpre, Ctrue)を作成する。これにより、図7に示すように、1番目のカテゴリーが真のカテゴリー(Ctrue=1)である場合のスコア情報行列H(R, attr, Cpre, Ctrue=1)、2番目のカテゴリーが真のカテゴリー(Ctrue=2)である場合のスコア情報行列H(R, attr, Cpre, Ctrue=2)、…をそれぞれ求めることができる。この場合、それぞれのスコア情報行列Hは、図7に示すように直方体の形状で3次元的に表すことができる。
次に、ステップS220に進んで、ステップS210にて求めたスコア情報行列Hを用いて、以下の数式1に従って、各候補カテゴリーごとに、スコア情報確率行列P(R|attr, Cpre)を計算する。
Figure 0005370267
そして、各候補カテゴリーごとに求めたスコア情報確率行列P(R|attr, Cpre)を図8に示すように、直方体形状にまとめることにより、最終的なスコア情報確率行列P(R|attr, Cpre)を得ることができる。
なお、数式1において、P(Ctrue)は、真のカテゴリーである確率を示すものである。本実施形態では、各カテゴリーが真のカテゴリーである確率は同等であるとみなし、その値を一定値とした。
次に、未知の画像データが入力された場合に、上述したスコア情報確率行列P(R|attr, Cpre)を用いて、質問すべき最適な属性を決定する処理について、図9のフローチャートを用いて説明する。
なお、本実施形態においては、スコア情報確率行列P(R|attr, Cpre)を用いて、質問すべき最適な属性を決定する処理は、未知の画像データが入力された後の、初回の質問をユーザに提示する際に利用される。初回の質問時は、画像データの対象画像が属する可能性がある候補カテゴリーの数が多いため、その候補カテゴリーを一気に絞り込むことが最も効果的に行いうるためである。また、認識対象となる全カテゴリーを対象としてスコア情報を事前に用意しておくことが容易なためである。
2回目以降の質問時にも、スコア情報確率行列P(R|attr, Cpre)を用いて、質問すべき属性を決定することも可能であるが、その場合、既に提示された質問により絞り込まれたカテゴリーを対象として作成されたスコア情報確率行列P(R|attr, Cpre)が必要となる。そのためには、前回以前の質問にて絞り込まれるカテゴリーのあらゆる組み合わせを考慮して、それぞれの組み合わせごとにスコア情報を事前に用意しておく必要がある。このようなスコア情報を事前に用意しておくことは煩雑であるため、本実施形態では、初回の質問時に、スコア情報確率行列P(R|attr, Cpre)を用いて質問すべき属性を決定する。そして、その後は従来と同様に、カテゴリーの数を半分に分けることができる属性に関する質問を繰り返し、最終的に、1つのカテゴリーを決定する。
図9のフローチャートに示すように、まず、ステップS300では、画像入力部10により未知の画像データが入力される。続くステップS310では、未知の画像データに対して、標本データの画像に対するのと同様の手法を適用してベクトル量子化し、その画像データをN1次元の画像特徴量ベクトルに変換する。そして、データベース30に記憶されている学習データと、変換された画像特徴量ベクトルとに基づき、その画像特徴量ベクトルが分類される可能性があるカテゴリーを候補カテゴリーとして抽出するとともに、画像データが各候補カテゴリーに属する確からしさを示す確率P(Cpre|I)を算出する。
次に、ステップS320において、データベース30に記憶されているスコア情報確率行列P(R|attr, Cpre)と、画像データが各候補カテゴリーに属する確からしさを示す確率P(Cpre|I)とを用いて、条件付確率行列P(R|attr,I)を、以下の数式2によって求める。
Figure 0005370267
上記数式2のように、条件付確率行列P(R|attr,I)は、スコア情報確率行列P(R|attr, Cpre)における各候補カテゴリーごとのスコア情報確率行列に、画像処理により得られた各候補カテゴリーに属する確率P(Cpre|I)を乗じて、各行列要素毎に乗算結果の総和を求めたものである。なお、この条件付確率行列P(R|attr,I)は、各属性を対比して評価できるようにするため、属性毎に正規化される。この条件付確率行列P(R|attr,I)の一例を、図10に示す。
次に、ステップS330では、スコア情報Rに応じて定めた損失関数L(R)を用いて、各属性の期待値を算出する。損失関数L(R)は、例えば、下記の数式3に示すように定める。
Figure 0005370267
図5,6を用いて説明した例では、第1〜第3スコア情報の3種類のスコア情報が用いられた。この場合、例えば、第1スコア情報の損失関数L(R)=1、第2スコア情報の損失関数L(R)=2、第3スコア情報の損失関数L(R)=300(重み)となる。このように、スコア情報が最大値となったときの損失関数L(R)に重みを与え、第1スコア情報や第2スコア情報に比較して、大幅に増加させる。これにより、真のカテゴリーと候補カテゴリーとを区分けすることができない属性に関する質問をより厳格に回避することが可能となる。
そして、期待値E[P(R|attr,I)L(R)]は、条件付確率行列P(R|attr,I)における各属性毎に、各々のスコア情報(確率)に対応する損失関数L(R)を乗じて、合計値を求めることにより算出される。例えば、図10に示す条件付確率行列P(R|attr,I)の1番目の属性の期待値Eは、E=0.8×1+0.2×2+0×300=1.2となる。このようにして、各属性毎に期待値Eを算出し、その中で最も低い期待値Eを持った属性を、質問すべき最適な属性として決定する。
続くステップS340では、ステップS330にて決定された属性に関する質問をユーザに提示する。そして、ステップS350では、提示した質問に対するユーザからの回答を受け付ける。
本実施形態による手法に従って、1回目の質問を行った後に残るカテゴリーの数を評価する実験を行った。その実験結果について、以下に説明する。
まず、認識対象としたのは動物であり、カテゴリーの数は35とした。そして、20回の実験を行い、1回目の質問の後に残るカテゴリーの数の平均値を算出した。その結果は、6.6であった。
前述したように、各カテゴリーの属性に関する質問に関する回答を得ることで、多数のカテゴリーの中から真のカテゴリーを絞り込もうとした場合には、カテゴリーの数を半分に絞り込む質問を繰り返すことになる。そのため、カテゴリーの数が35であれば、1回目の質問の後に残るカテゴリーの数の平均値は17.5になる。
それに対し、本実施形態では、画像処理結果を利用して、質問すべき最適な属性を決定しているので、単に質問のみによってカテゴリーを絞り込む場合に比較して、1回の質問で、カテゴリーの数を大幅に減少させることができる(17.5→6.6)。そのため、真のカテゴリーを決定するまでの質問数を大幅に低減することができる。
10 画像入力部
20 画像処理部
30 データベース
40 質問提示部
50 回答受付部
60 カテゴリー出力部

Claims (16)

  1. 未知の画像データが入力されたときに、前記画像データに対する画像処理結果と、前記画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、前記対象画像が属するカテゴリーを決定する画像処理システムにおいて、
    未知の画像データを入力する入力手段と、
    前記入力手段により入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき前記画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出手段と、
    共通かつ複数の属性について前記複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したスコア情報を記憶する記憶手段と、
    前記算出手段によって算出された複数の候補カテゴリーに対応するスコア情報を記憶手段から読み出して、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定手段と、
    前記質問属性決定手段によって決定された属性に該当するか否かの質問をユーザに提示する質問提示手段と、
    前記ユーザからの回答を受け付ける回答受付手段と、を備えることを特徴とする画像処理システム。
  2. 前記スコア情報は、前記質問提示手段が、前記未知の画像データが入力された後の、初回の質問を提示する際に利用されることを特徴とする請求項1に記載の画像処理システム。
  3. 前記記憶手段が記憶するスコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成されたものであることを特徴とする請求項1または2に記載の画像処理システム。
  4. 真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられることを特徴とする請求項3に記載の画像処理システム。
  5. 真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第2スコア情報よりも大きい第3スコア情報が与えられることを特徴とする請求項3又は4に記載の画像処理システム。
  6. 前記第1スコア情報と第2スコア情報との差異は、前記第2スコア情報と第3スコア情報との差異よりも小さいことを特徴とする請求項5に記載の画像処理システム。
  7. 前記質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することを特徴とする請求項4乃至6のいずれかに記載の画像処理システム。
  8. 前記スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第1〜第3スコア情報に応じた位置に0以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることを特徴とする請求項3乃至7のいずれかに記載の画像処理システム。
  9. 未知の画像データが入力されたときに、前記画像データに対する画像処理結果と、前記画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、前記対象画像が属するカテゴリーを決定する画像処理方法において、
    未知の画像データを入力する入力ステップと、
    前記入力ステップにより入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき前記画像データに映し出されている対象が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出ステップと、
    共通かつ複数の属性について前記複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表した予め用意されているスコア情報から、前記算出ステップにおいて算出された複数の候補カテゴリーに対応するスコア情報を抽出し、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定ステップと、
    前記質問属性決定ステップによって決定された属性に該当するか否かの質問をユーザに提示する質問提示ステップと、
    前記ユーザからの回答を受け付ける回答受付ステップと、を備えることを特徴とする画像処理方法。
  10. 前記スコア情報は、前記質問提示ステップにおいて、前記未知の画像データが入力された後の初回の質問を提示する際に利用されることを特徴とする請求項9に記載の画像処理方法。
  11. 前記スコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成されることを特徴とする請求項9又は10に記載の画像処理方法。
  12. 真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられることを特徴とする請求項11に記載の画像処理方法。
  13. 真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第1スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第1スコア情報よりも大きい第2スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第2スコア情報よりも大きい第3スコア情報が与えられることを特徴とする請求項11又は12に記載の画像処理方法。
  14. 前記第1スコア情報と第2スコア情報との差異は、前記第2スコア情報と第3スコア情報との差異よりも小さいことを特徴とする請求項13に記載の画像処理方法。
  15. 前記質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することを特徴とする請求項12乃至14のいずれかに記載の画像処理方法。
  16. 前記スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第1〜第3スコア情報に応じた位置に0以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることを特徴とする請求項11乃至15のいずれかに記載の画像処理方法。
JP2010121887A 2010-05-27 2010-05-27 画像処理システム Expired - Fee Related JP5370267B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010121887A JP5370267B2 (ja) 2010-05-27 2010-05-27 画像処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010121887A JP5370267B2 (ja) 2010-05-27 2010-05-27 画像処理システム

Publications (2)

Publication Number Publication Date
JP2011248680A JP2011248680A (ja) 2011-12-08
JP5370267B2 true JP5370267B2 (ja) 2013-12-18

Family

ID=45413852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121887A Expired - Fee Related JP5370267B2 (ja) 2010-05-27 2010-05-27 画像処理システム

Country Status (1)

Country Link
JP (1) JP5370267B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714077B (zh) * 2012-09-29 2017-10-20 日电(中国)有限公司 物体检索的方法、检索校验的方法及装置
JP6334455B2 (ja) * 2015-04-23 2018-05-30 日本電信電話株式会社 クラスタリング装置、方法、及びプログラム
CN111612010B (zh) * 2020-05-21 2024-07-16 京东方科技集团股份有限公司 图像处理方法、装置、设备以及计算机可读存储介质
CN111626202B (zh) * 2020-05-27 2023-08-29 北京百度网讯科技有限公司 用于识别视频的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075980A (ja) * 1999-09-02 2001-03-23 Ntt Docomo Inc データベース検索支援装置及びその制御方法
JP2005267609A (ja) * 2004-02-20 2005-09-29 Fuji Photo Film Co Ltd デジタル図鑑システム、図鑑検索方法、及び図鑑検索プログラム
JP2005267374A (ja) * 2004-03-19 2005-09-29 Mitsubishi Electric Corp 情報検索支援装置
JP4403937B2 (ja) * 2004-09-29 2010-01-27 カシオ計算機株式会社 カメラ装置、情報処理装置、被写体識別方法

Also Published As

Publication number Publication date
JP2011248680A (ja) 2011-12-08

Similar Documents

Publication Publication Date Title
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
KR102252081B1 (ko) 이미지 특성의 획득
US11416710B2 (en) Feature representation device, feature representation method, and program
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
Li et al. SHREC’13 track: large scale sketch-based 3D shape retrieval
JP5916886B2 (ja) 画像特徴の類似性に基づく画像索引作成
JP5214760B2 (ja) 学習装置、方法及びプログラム
JP6203077B2 (ja) 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム
JP6226701B2 (ja) データ処理方法及び装置、データ識別方法及び装置、プログラム
Marini et al. Bird species classification based on color features
JP2012042990A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
WO2019207910A1 (ja) データ分析システム及びデータ分析方法
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
CN114299363A (zh) 图像处理模型的训练方法、图像分类方法及装置
JP5370267B2 (ja) 画像処理システム
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
JP2007066019A (ja) 画像検索方法及び装置
US20210042550A1 (en) Information processing device, information processing method, and computer-readable recording medium recording information processing program
US20150363671A1 (en) Non-transitory computer readable medium, information processing apparatus, and attribute estimation method
JP2019021100A (ja) 画像探索装置、商品認識装置および画像探索プログラム
CN117557901A (zh) 一种田间小目标作物的检测模型及构建方法
JP6517652B2 (ja) 物体顕著性マップ算出装置、方法、及びプログラム
JPWO2015068417A1 (ja) 画像照合システム、画像照合方法およびプログラム
CN116958730A (zh) 图像识别模型的训练方法和装置、存储介质及电子设备
JP6448036B2 (ja) 物体領域特定方法、装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5370267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees