JP7057324B2

JP7057324B2 - 認識装置、プログラム及び構築装置

Info

Publication number: JP7057324B2
Application number: JP2019128574A
Authority: JP
Inventors: 千尋道後
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2022-04-19
Anticipated expiration: 2039-07-10
Also published as: JP2021015363A

Description

本発明は、類似対象を区別した画像認識を効率的に行うことが可能な認識装置及びこれに対応するプログラムと、この認識装置で利用するデータベース情報を効率的に構築することが可能な構築装置と、に関する。

類似対象を区別して画像認識を行う技術として例えば特許文献１，２がある。

特許文献１は、画像認識を利用して画像中の物品が対象物品であるかを判断する技術に関し、以下の手順が用いられる。
・認識対象の画像を一枚撮影。まず局所特徴量で認識結果候補を絞る。
・候補物品のDB（データベース、以下同様）画像の画像差分をとり、差異領域を出す。
・対象画像から差異領域に当たる部分を割り出し、歪み・色を補正する。
・対象画像の差異領域と、各候補のDB画像の差異領域の画像差分をとり、差の小さい方を認識結果とする。

特許文献２は、外見は似ているが別商品、または外見に差があるが同商品、を判別する技術に関し、1つの対象画像に対し、画像認識と文字認識を行い、両方を加味して認識結果としている。

特許第5984096号特開2014-49015号公報

しかしながら、以上のような従来技術では、類似対象を区別した画像認識を効率的に行うことに関して課題があった。

特許文献１では例えば、販売時に販促のために特別にポップが付けられる商品に関して、ポップが付けられていない状態の商品と同じものとして認識させたい場合に、ポップの箇所が差分領域として抽出されることで、同じものとしての認識が困難となる。また逆に、わずかな相違箇所を差分領域として区別して認識させたい場合に、大規模画像検索を可能とする目的で検索速度を高めるため、特徴量を部分的にのみDB検索にかける手法を併用した場合、DBが受け取る情報に差異領域が含まれていないことがある。さらに、小売りに出る商品のように、短期間にパッケージの変更が起こり、DBに全く同じ物品が登録されていない場合、画像差分をとっての認識は困難であるという問題がある。

特許文献２では例えば、画像全体を文字認識する場合、計算資源に乏しい撮影用の端末では処理できない、または、計算資源が豊富なサーバへの画像アップロード時間が発生し、その間は認識処理を進めることができない。また、物品上に存在する文字を全てDBに記載すると作成コストが大きく、またDBも肥大する。さらに、類似対象の相違箇所が文字によるものでない場合には、区別が困難であるという問題がある。

上記従来技術の課題に鑑み、本発明は、類似対象を区別した画像認識を効率的に行うことが可能な認識装置及びこれに対応するプログラムを提供することを第１の目的とする。また、本発明は、この認識装置で利用するデータベース情報を効率的に構築することが可能な構築装置を提供することを第２の目的とする。

上記目的を達成するため、本発明は認識装置であって、クエリ対象を撮影したクエリ画像よりクエリ第一特徴情報を取得する第一取得部と、複数のリファレンス対象の各々についてリファレンス第一特徴情報及び類似候補群を紐づけて記憶している第一蓄積部に対して、前記クエリ第一特徴情報を用いて検索を行うことにより、リファレンス第一特徴情報が類似していると判定されるリファレンス対象及び紐づいた類似候補群を列挙した情報を含む第一検索結果を得る第一検索部と、前記第一検索結果に含まれる類似候補群の中から最適類似候補群を選択し、当該最適類似候補群に応じた種別のクエリ第二特徴情報を、クエリ対象を撮影したクエリ画像より取得する第二取得部と、リファレンス対象の各々について、前記第一蓄積部で紐づけられている類似候補群に応じた種別のリファレンス第二特徴情報を紐づけて記憶している第二蓄積部に対して、前記クエリ第二特徴情報を用いて、前記第一検索結果に列挙されるリファレンス対象に関して検索を行い、リファレンス対象ごとの類似度を列挙した情報を含む第二検索結果を得る第二検索部と、前記第一検索結果及び／又は前記第二検索結果に基づいて、前記クエリ画像に撮影されているクエリ対象に関する特定結果を得る特定部と、を備えること、及び、コンピュータをこの認識装置として機能させるプログラムであること、を第１の特徴とする。

また、本発明は、この認識装置において検索される、第一蓄積部に記憶される第一データベース情報と第二蓄積部に記憶される第二データベース情報とを構築する構築装置であって、既に構築されているデータベース情報として、リファレンス対象の各々についてその画像から取得されるリファレンス第一特徴情報が紐づけられたデータベース情報を取得し、複数のリファレンス対象を、そのリファレンス第一特徴情報を用いてクラスタリングした結果における所属クラスタとして、複数のリファレンス対象の各々についての類似候補群を決定することにより、リファレンス対象の各々についてリファレンス第一特徴情報と類似候補群とを紐づけることによって前記第一データベース情報を構築する第一構築部と、前記第一データベース情報において紐づけられることで各類似候補群に属するリファレンス対象の画像に対して、所定の複数種類の画像判別手法にそれぞれ対応する複数種類の画像特徴情報を用いてそれぞれクラスタリングを行うことで、得られるクラスタリング結果のうち属するリファレンス対象の弁別性能が最良判定されるものを決定し、各類似候補群に属するリファレンス対象について、当該最良判定されたクラスタリング結果に対応する種類の画像特徴情報をリファレンス第二特徴情報として紐づけることによって、前記第二データベース情報を構築する第二構築部と、を備えることを第２の特徴とする。

前記第１の特徴によれば、第一検索部及び第二検索部による２段階の検索を行い、特定部において第一検索結果及び／又は第二検索結果に基づいてクエリ対象を特定することで、類似対象を区別した画像認識を効率的に行うことが可能となる。前記第２の特徴によれば、認識装置で利用するデータベース情報を効率的に構築することが可能となる。

一実施形態に係る認識装置の機能ブロック図である。一実施形態に係る認識装置の動作のフローチャートである。第一蓄積部が記憶しているリファレンス情報の模式例を表形式で示すものである。図３の例に対応するものとして第二取得部が予め記憶しておく判別手法及び用いる画像特徴情報（第二特徴情報）の種別の例を表で示すものである。第二取得部が図４に例示される２つの類似候補群を予め記憶しておく場合に対応する、第二蓄積部の構成図である。図３及び図４の例に対応するものとして、図５の第I蓄積部が記憶しておく商品ごとのリファレンス情報としての第二特徴情報であるカラーヒストグラムを、表で示すものである。図３及び図４の例に対応するものとして、図５の第II蓄積部が記憶しておく商品ごとのリファレンス情報としての第二特徴情報であるテキストを、表で示すものである。第一蓄積部及び第二蓄積部を構築する、一実施形態に係る構築装置の機能ブロック図である。一般的なコンピュータ装置におけるハードウェア構成の例を示す図である。ネットワークにより相互に通信可能な、スマートフォン等の情報端末装置と、３つのサーバ装置と、を示す図である。この再帰的な処理を１回行う場合の認識装置の機能ブロック図である。

図１は、一実施形態に係る認識装置10の機能ブロック図である。認識装置10は、撮影部1、第一取得部2、第一検索部3、第二取得部4、第二検索部5、特定部6、第一蓄積部7、第二蓄積部8及び提示部9を備える。認識装置10は、スマートフォン等の１つの情報端末装置として構成されることができるが、２つ以上の装置で構成されてもよく、その任意の一部分の機能部（例えば、第一蓄積部7及び第二蓄積部8）をネットワーク上の別途の１つ以上のサーバ等の装置において構成されるようにし、スマートフォン等の情報端末装置とサーバとの間においてネットワーク経由により情報を授受するようにしてもよい。図２は、一実施形態に係る認識装置10の動作のフローチャートである。

以下、図２の各ステップを説明しながら、図２の認識装置10の各機能部の処理内容について説明する。説明例として、認識装置10によるタスクと、前提として所持する情報について、次の通りであるものとする。すなわち、認識装置10は、商品の撮影画像から、被写体になっている商品を認識し、その商品名を出力する。商品認識に使用する検索対象としてのDB（第一蓄積部7及び第二蓄積部8）には数万以上の商品が登録され、これら商品の中には同商品名のパッケージ違い商品や、異商品名の色違い商品などの細かい差異を含むものもある。

（ステップS1…第一蓄積部7及び第二蓄積部8）
ステップS1では、DBとしての第一蓄積部7及び第二蓄積部8を構築してから、ステップS2へと進む。当該DB構築の詳細に関しては、図２の各ステップの説明を終えてから後述する。図２の各ステップの説明においては、当該DB構築がなされている前提で、第一蓄積部7及び第二蓄積部8等に関する説明を行う。

（ステップS2…撮影部1）
ステップS2では、撮影部1が認識対象である商品を被写体として撮影した画像（クエリ画像）を得て、この画像を第一取得部2及び第二取得部4へと出力してから、ステップS3へと進む。撮影部1はハードウェアとしてはデジタルカメラで構成されることができ、認識装置10を利用するユーザがこのカメラとしての撮影部1を操作して撮影することにより、ステップS2において商品の画像を得ることができる。

（ステップS3…第一取得部2）
ステップS3では、撮影部1で得た画像を第一取得部2が解析することにより第一特徴情報を取得し、この取得した第一特徴情報を第一検索部3へと出力してから、ステップS4へと進む。

一実施形態では、第一取得部2において取得する第一特徴情報には、大規模画像検索に利用可能なものとして、既存手法であるBoVW（Bag of Visual Words；バグ・オブ・ビジュアル・ワーズ）を用いることができる。既知のように、第一取得部2では、画像より特徴点検出及び特徴量抽出を行い、この特徴量を量子化し、量子化された特徴量の現れる頻度をヒストグラム化したものとして、この画像の第一特徴情報であるBoVWを取得することができる。

ここで、特徴点及び特徴量に関しては、例えば以下の非特許文献に開示のSIFT特徴量や、その他の既存手法としてこれに類したSURF特徴量などにおける特徴点及び特徴量（特徴点の近傍から得られる局所特徴量）を用いることができ、以下の説明における特徴点及び特徴量に関しても同様である。
Distinctive Image Features from Scale-Invariant Keypoints、David G. Lowe、2014

(ステップS4…第一検索部3)
ステップS4では、第一検索部3が、第一取得部2で得た第一特徴情報をクエリとして、検索用DBである第一蓄積部7に対して検索を行うことにより、第一検索結果を得て、この第一検索結果を第二取得部4、第二検索部5及び特定部6へと出力してから、ステップS5へと進む。

第一蓄積部7は、後述する手法によって構築されることにより、検索対象のリファレンス情報として、個別の商品名（商品ID（識別子））に、この商品を撮影した画像から第一取得部2と同様の手法で取得されるリファレンスとしての第一特徴情報と、この商品が属する１つ以上の類似候補群名（類似候補群ID）と、を紐づけて記憶している。

なお、以下の説明で「商品名」という場合、商品を一意に識別できるIDを指すものとする。認識装置10は、このIDでの認識を行うものである。このIDは管理者等が予め定めておくことができるものであり、例えば同一商品であってもバリエーション（商品の色など）が異なるもの同士には、異なるIDを付与するようにしてもよい。類似候補群名に関しても同様にIDを指すものとする。

図３に、第一蓄積部7が記憶しているリファレンス情報の模式例を表形式で示す。この例においては、第一蓄積部7では全部で５個の商品a～eに関して、そのリファレンスとしての第一特徴情報と類似候補群名とを紐づけて記憶している。なお、既に説明した通り、認識装置10による実際のタスクにおいては認識対象として数万以上の商品を第一蓄積部7に記憶しておくことも可能であるが、図３では説明のための模式例として商品を５個としている。

図３の例では、第一特徴情報がBoVWのヒストグラムで得られるものとし、ヒストグラムの各ビン（量子化ベクトル）がA,B,C,D,E,F,G,Hの少なくとも８個で構成されるものとし、ビンの頻度が閾値以上である場合にそのビン名を示すことで、各商品のリファレンスとしての第一特徴情報を簡略化して模式的に示している。例えば商品aの第一特徴情報[A,B,C,D,E]とは、８個のビンA～Hのうち、５個のビンA,B,C,D,Eが一定値以上の頻度を有し、残りの３個のビンF,G,Hは一定未満の頻度となるものである。

また、図３の例では、類似候補群名はI及びIIの２種類であり、各商品a～eに関して属する１つ以上の類似候補群名が与えられている。すなわち、商品aは類似候補群Iに属し、商品bは類似候補群I及びIIの両方に属し、商品c,d,eのそれぞれは類似候補群IIに属しているものとして、第一蓄積部7に記憶されている。以上の図３の模式例は、以降の説明においても適宜、説明用の共通した模式例として参照する。

ステップS4では具体的に、以上のように構成されている第一蓄積部7に対して第一検索部3がクエリとしての第一特徴情報を用いて検索を行うことで、リファレンスとしての第一特徴情報が類似していると判定される商品名を、第一検索結果として得ることができる。ここで、類似判定された商品名にはそれぞれ類似候補群名が紐づいているので、この紐づいた類似候補群名も含めて、第一検索結果を出力することができる。また、類似判定する際に算出する各商品の類似度も含めて、第一検索結果を出力することができる。

この際、クエリとしての第一特徴情報とリファレンスとしての第一特徴情報との類似判定は、第一特徴情報の具体的な種類に応じた任意の既存手法によって類似度を算出し、この類似度に対する閾値判定により類似していると判定される商品を求めることで、第一検索結果を得るようにすればよい。従って、第一検索結果には複数の商品が含まれうる。類似度算出手法として例えば、第一特徴情報が具体的にBoVWで構成されている場合、ヒストグラム同士のコサイン類似度などで評価してもよいし、さらに、特徴点の画像上の座標情報も利用して幾何検証も行うことにより類似度を評価してもよい。幾何検証を行う場合、第一蓄積部7で記憶しておくリファレンスとしての第一特徴情報にも、各特徴点の画像上の座標情報を紐づけておけばよい。

（第一検索結果の例）
例えば、図３の情報（合計の商品数が５）を記憶している第一蓄積部7を検索する場合、図３と同様の表記でクエリの第一特徴情報（BoVW）を表現することにより、第一検索結果の例として以下の例EX-1及びEX-2が挙げられる。この例EX-1及びEX-2は、以降の説明においても適宜、説明例として利用する。
（EX-1）…クエリとしての第一特徴情報が[D,E]であった場合、図３の１つの商品aのみが閾値判定で類似していると判定され、商品名aと、その類似度と、紐づいた類似候補群名Iと、が第一検索結果として得られる。
（EX-2）…クエリとしての第一特徴情報が[A,B,D]であった場合、図３の４つの商品a,b,c,dが閾値判定で類似していると判定され、この４つのそれぞれの商品名と、それぞれの類似度と、それぞれに紐づいた類似候補群名と、が第一検索結果として得られる。

（ステップS5…特定部6）
ステップS5では、第一検索部3で得られた第一検索結果に含まれる商品名が１つのみであることにより、第一検索結果において商品が一意に特定されたか否かを特定部6が判定し、一意に特定されている場合はステップS9へと進み、一意に特定されていない場合（第一検索結果に含まれる商品名が複数の場合）はステップS6へと進む。

（ステップS9…特定部6及び提示部9）
上記のステップS5で肯定判断を得てから到達するステップS9では、特定部6が、第一検索部3で得られた第一検索結果に含まれる１つのみの商品名を、認識装置10における最終的な認識結果として出力して、且つ、この認識結果を提示部9がユーザに対して提示して、図２のフローは終了する。ここで、提示部9での提示態様については、後述するステップS8での提示部9による認識結果の提示処理と同様に、ディスプレイ表示等の任意態様を用いることができる。

なお、ステップS5からステップS9に到達した場合は、図２のフロー構造から見て取ることができるように、ステップS6,S7及びS8（それぞれ後述する）は実施されないこととなり、これによって第二取得部4及び第二検索部5は処理を行わないこととなる。

（ステップS5→S9と遷移する例）
ステップS5からステップS9に到達する例として、第一検索結果が前述の例EX-1が挙げられる。この場合、第一検索結果が１つのみの商品名aを含むことにより、ステップS5で肯定判定を得てステップS9へと進み、ステップS9で最終的な認識結果を「商品a」として特定部6が出力する。

（ステップS5→S6と遷移する例）
一方、ステップS5からステップS6へ到達する例としては、第一検索結果が前述の例EX-2である場合が該当する。すなわち例EX-2の場合、第一検索結果に含まれる商品名はa,b,c,dの４つであるため、ステップS5で否定判定を得てステップS6へと進むこととなる。

（ステップS6…第二取得部4）
ステップS6では、第一検索部3で得た第一検索結果を参照することにより最も多く含まれる類似候補群名を求めたうえで、第二取得部4が、この最多の類似候補群名に応じた種類の判別手法で用いる第二特徴情報を撮影部1で得た撮影画像から取得して、この第二特徴情報を第二検索部5へと出力してから、ステップS7へと進む。

第二取得部4は、上記の処理を可能とするために、第一蓄積部7及び第二蓄積部8を構築した際に定まる、類似候補群名ごとの判別手法と、この判別手法で用いる画像特徴情報としての第二特徴情報の種別と、を予め記憶しておく。（この判別手法等の定め方に関しては、後述する第一蓄積部7及び第二蓄積部8の構築の説明において、「手法M1～M5」等を例として説明する。）図４に、図３の例に対応するものとして第二取得部4が予め記憶しておく判別手法及び用いる画像特徴情報（第二特徴情報）の種別の例を表で示す。すなわち、図３の例では類似候補群名はI及びIIの２種類であり、図４に示されるように第二取得部4ではこのそれぞれに対応する判別手法及び画像特徴情報の種別として、類似候補群Iに関してはカラーヒストグラム及びカラーヒストグラムを、類似候補群IIに関しては文字認識及びテキストを、予め記憶しておく。

第二取得部4で記憶しておく判別手法は、図４に例示されるカラーヒストグラムや文字認識のように、画像判別に利用可能な既存手法の中から所定のものを予め定めておくことができ、第二取得部4においてこの判別手法で用いられる第二特徴情報を画像から取得する際も、既存手法の通りに取得すればよい。例えば判別手法としてのカラーヒストグラムに関しては、第二特徴情報として、画像のカラーヒストグラムを取得すればよく、判別手法としての文字認識に関しては、画像に任意の既存手法の文字認識（光学文字認識など）を適用することにより、第二特徴情報として文字認識結果のテキストを取得すればよい。

（第二取得部4で取得する第二特徴情報の例）
例えば、第一検索結果が前述の例EX-2であり、商品名a,b,c,dの４つを含むことでステップS6に到達した場合、図３に示されるように第一検索結果の４つの商品名a,b,c,dにはそれぞれ、類似候補群名として「Iのみ」、「I及びIIの両方」、「IIのみ」、「IIのみ」が紐づいていることから、これらの集計結果は「Iが２回」及び「IIが３回」となり、最多の類似候補群名はIIとなる。従ってこの場合、類似候補群名I,IIに関して図４の判別手法を第二取得部4が予め記憶しているものとすると、ステップS6において第二取得部4では、最多の類似候補群名IIに対応する判別手法の「文字認識」を画像に適用して、認識結果としてのテキストを第二特徴情報として取得することとなる。

（ステップS7…第二検索部5）
ステップS7では、第二取得部4で得た最多の類似候補群名に対応する種類の第二特徴情報をクエリとして、第二検索部5が検索用DBである第二蓄積部8に対して、第一検索結果に含まれる各商品に関して記憶されているリファレンスの第二特徴情報を検索したうえで、クエリ第二特徴情報と検索されたリファレンス第二特徴情報との類似度を求めることにより、第二検索結果を得て、この第二検索結果を特定部6へと出力してから、ステップS8へと進む。すなわち、第二検索結果は、クエリの第二特徴情報と、第一検索結果の各商品のリファレンスの第二特徴情報と、の間の類似度を、第一検索結果の各商品に関して列挙した情報で構成される。例えば、上記の例EX-2の場合、第二検索結果は、４つの商品a,b,c,dに関して第二特徴情報で計算された４つの類似度を列挙した情報となる。

ここで、第二検索部5が第二蓄積部8に対して検索する際は、第二蓄積部8で記憶されている全商品（通常、これは、第一蓄積部7で記憶されている全商品と一致する）についての全てのDB情報を対象として検索するのではなく、第一検索部3で得られた第一検索結果に含まれる商品の中で最多の類似候補群に対応する、第二蓄積部8で記憶されている一部分のDB情報のみを対象として、検索を行う。

第二検索部5による上記の検索が可能なように、第二蓄積部8では、第二取得部4で予め記憶しておく類似候補群名ごとに区別して、対応する種別の第二特徴情報をリファレンス情報として予め記憶しておく。図５は、第二取得部4が図４に例示される２つの類似候補群名を予め記憶しておく場合に対応する、第二蓄積部8の構成図である。図５ではすなわち、第二蓄積部8は２つの検索用DBとして、第I蓄積部8-I及び第II蓄積部8-IIを含んで構成される。

第I蓄積部8-Iは、図４の類似候補群Iに対応する画像判別手法であるカラーヒストグラムにおいて利用される画像特徴情報としてのカラーヒストグラムを、類似候補群Iに含まれる各商品に紐づいたリファレンスの第二特徴情報として記憶している。第II蓄積部8-IIは、図４の類似候補群IIに対応する画像判別手法である文字認識において利用される画像特徴情報としてのテキストを、類似候補群IIに含まれる各商品に紐づいたリファレンスの第二特徴情報として記憶している。

図５の例では、図３の通り、第一蓄積部7に記憶されている類似候補群が２つ（I,II）であるため、このそれぞれに対応するDBとして２つの第I蓄積部8-I及び第II蓄積部8-IIを含んで第二蓄積部8が構成されている。より一般に、第一蓄積部7に記憶されている類似候補群がN種類（N≧２）である場合も同様に、第二蓄積部8は、それぞれの類似候補群に対応する種類の画像特徴情報を第二特徴情報として各商品に紐づけて記憶するN個のDBを含んで構成される。

なお、第一蓄積部7においては、検索対象の全ての商品に関して、その第一特徴情報などを紐づけて記憶しておくのに対し、第二蓄積部8では、N種類のそれぞれのDBごとに、当該DBに対応する類似候補群に属する商品のみに関して、第二特徴情報を記憶しておけばよい。こうすることで、第二蓄積部8におけるDB容量を抑制することができる。ここで、検索対象の全商品のうち、類似候補群に属する商品がいずれであるかは、第一蓄積部7に記憶されており、既に説明した通り、商品によっては２つ以上の類似候補群に属する場合もある。

図６及び図７に、図３及び図４の例に対応するものとして、図５の２つの第I蓄積部8-I及び第II蓄積部8-IIがそれぞれ記憶しておく商品ごとのリファレンス情報としての第二特徴情報（それぞれカラーヒストグラム及びテキスト）を、表で示す。

すなわち、図６では第I蓄積部8-Iにおいて保存されるリファレンス情報の第二特徴情報として、対応する類似候補群Iに属する商品a,bのヒストグラムHa,Hbが示されている。（なお図６では、各ヒストグラムはその識別子Ha,Hbのみを示し、ヒストグラムの具体的内容については示すのを省略している。）また、図７では第II蓄積部8-IIにおいて保存されるリファレンス情報の第二特徴情報として、対応する類似候補群IIに属する商品b,c,d,eのテキストTb,Tc,Td,Teが示されている。図示される通り、例えばテキストTbの内容は"アプリコット"である。

なお、対応する図３に各商品の属する類似候補群名が示されるように、商品bに関しては類似候補群I,IIの両方に属するため、図６に示される通りそのヒストグラムHbが第I蓄積部8-Iに第二特徴情報として記憶され、且つ、図７に示される通り、そのテキストTbが第II記憶部8-IIに第二特徴情報として記憶されている。その他の商品a,c,d,eに関しては、類似候補群I又はIIのいずれかのみに属するため、図６又は図７に示される通り、第I蓄積部8-I又は第II記憶部8-IIのいずれかのみにその第二特徴情報が記憶されている。

なお、第二検索部5が第二検索結果を得る際に行う、類似候補群に対応する第二特徴情報同士の類似度（クエリ及びリファレンスの間の類似度）の算出は、この第二特徴情報における類似度算出で用いられる任意の既存手法を用いるようにすればよい。例えば、類似候補群Iに対応する画像特徴情報（第二特徴情報）であるカラーヒストグラムに関して、クエリのカラーヒストグラムとリファレンスのカラーヒストグラムとの類似度を、ヒストグラム交差法やコサイン類似度などを用いて算出すればよい。また例えば、類似候補群IIに対応する画像特徴情報（第二特徴情報）であるテキストに関して、クエリのテキストとリファレンスのテキストとの距離を、レーベンシュタイン距離やジャロ・ウィンクラー距離によって距離算出し、この距離が近いほど類似度が高いものとして算出すればよい。あるいは、テキスト同士が完全一致するか否かによって類似／非類似として2値判定してもよい。

なお、上記のように、DB容量を抑制して第二蓄積部8を構築している場合、第二検索部5が類似度を算出するために参照するリファレンスの特定種別の第二特徴情報が、商品によっては第二蓄積部8に保存されていない場合が発生しうる。この場合、第二検索部5では次の追加処理を行うようにすればよい。

（ステップS7での第二検索部5による追加処理）
第一検索結果に列挙されている各商品に関して、第一検索結果での最多の類似候補群に対応する判別手法で用いられる種別の第二特徴情報をリファレンスとして、第二蓄積部8を参照して探したが、１つ以上の商品（「第二特徴情報非保存商品」と呼ぶ）に関して当該種別でのリファレンスとしての第二特徴情報が第二蓄積部8に保存されていなかった場合、第二検索部5では自身においてこの１つ以上の第二特徴情報非保存商品におけるリファレンスとしての第二特徴情報を取得したうえで、クエリの第二特徴情報との間で類似度を計算して、第二検索結果を得るようにすればよい。

具体的には、第二蓄積部8では、各商品の画像（第二特徴情報を取得する対象としての画像）を保存しておくものとし、第二検索部5では第二蓄積部8より第二特徴情報非保存商品の画像を取得したうえで、この取得した画像を解析することにより、最多の類似候補群に対応する種別の第二特徴情報を自身において取得することができる。（すなわち、DBとしての第二蓄積部8に特定商品及び特定種別に関しての第二特徴情報が存在しない場合、元の画像を取得して、第二検索部5がその場で画像解析することで第二特徴情報を求めるようにすればよい。）

上記の第二検索部5による追加処理の例は、以下説明する第二検索結果の例において、例EX-3として後述する。

（第二検索結果の例）
第二検索結果の例として、前述の例EX-2の場合（第一検索結果で類似判定された商品がa,b,c,dの４つであって、最多の類似候補群がIIであり対応する判別手法及び第二特徴情報が文字認識及びテキストの場合）は、次の通りとなる。前提として、この例EX-2において、第二取得部4では撮影部1で得た画像（クエリ画像）に文字認識を適用して、クエリとしての第二特徴情報をテキストTq="ダークローズ"として得たものとする。この場合、第二検索部5では、第二蓄積部8を検索することで、商品a,b,c,dに関して類似候補群IIに対応する種別であるテキストとしての第二特徴情報を探す。

図５に示される通り、類似候補群IIの第二特徴情報であるテキストは第二蓄積部8のうち第II蓄積部8-IIに保存され、その内容は図７に示される通りである。従って、第二検索部5では第II蓄積部8-IIに対して商品a,b,c,dを検索し、記憶されている商品b,c,dに関してそれぞれテキストTb,Tc,Td（図７参照）を第二特徴情報として得ることができる一方、記憶されていない商品aに関しては、前述の追加処理を適用し、以下の例EX-3のようにそのテキストTaを自身で取得し、第二特徴情報として得ることができる。

（EX3）…追加処理の例
商品aに関する類似候補群IIの第二特徴情報であるテキストは第II蓄積部8-II（図７）に保存されていないので、第二検索部5では商品aの画像Paを第二蓄積部8より取得したうえで、この画像Paに対して自身で文字認識を行い、テキストTa="ディープコーラル"を取得する。

第二検索部5では以上のようにして商品a,b,c,dのそれぞれのテキストTa,Tb,Tc,Tdをリファレンスとしての第二特徴情報として取得し、これらそれぞれを、クエリ画像から得たクエリとしての第二特徴情報であるテキストTq="ダークローズ"と比較して、それぞれ類似度を値0,0,1,0として算出し、第二検索結果を得ることができる。この例では、テキスト同士の類似度は完全一致するか否かによって類似／非類似で算出し、類似の場合は値を1、非類似の場合は値を0として類似度を求めている。Tc=Tq="ダークローズ"であり、Ta≠Tq,Tb≠Tq,Td≠Tqであるため、商品a,b,c,dのうち、商品cのみがクエリと一致し、商品a,b,dに関してはクエリと非一致であるという内容として、第二検索結果が得られている。

（ステップS8…特定部6及び提示部9）
ステップS8では、特定部6が、第一検索部3で得た第一検索結果と、第二検索部5で得た第二検索結果と、の両方を加味することで、クエリ画像（撮影部1で得た画像）に対するリファレンスの各商品の類似度を総合スコアとして算出することにより、クエリ画像の最終的な認識結果を得て提示部9に出力し、提示部9ではこの認識結果をユーザに対して提示したうえで、図２のフローは終了する。

提示部9でのユーザに対する提示は、認識結果をテキスト情報等により表現することでディスプレイ表示によって提示するようにしてもよいし、音声再生によって提示するようにしてもよい。ディスプレイ表示する場合、撮影部1で得た画像に対して認識結果を重畳等して表示するようにしてもよい。その他にも、任意の既存の情報通知態様によって、提示部9による提示を行うことが可能である。

ここで、特定部6では総合スコアが最上位となる１つの商品を認識結果として求めてもよいし、総合スコアが上位側の所定数の商品を認識結果として求めてもよいし、総合スコアが閾値を超える１つ以上の商品を認識結果として求めてもよい。

この総合スコアは次のように求めればよい。第一検索結果ではM個の商品が得られ、i番目（i=1,2,…,M）の商品のスコア（類似度）がs1[i]であるものとし、第二検索結果ではこのi番目の商品のスコア（類似度）がs2[i]であるものとする。i番目の商品の総合スコア（類似度）s[i]は、以下の式(1)のようにこれら第一検索結果及び第二検索結果でのスコアの重みづけ和として求めることができる。w1及びw2は所定の重み係数である。
s[i]=w1*s1[i]+w2*s2[i] …(1)

ここで、第一検索結果を得た第一検索部3で類似度算出に用いた手法と、第二検索結果を得た第二検索部5で類似度算出に用いた手法と、が異なる場合においても上記の式(1)の重みづけによる総合スコアが適切に算出されるように、特定部6においては予め、第一検索結果のスコアs1[i]と第二検索結果のスコアs2[i]とを標準化（正規化）したうえで、式(1)の総合スコアを求めるようにすればよい。すなわち、M個の第一検索結果のスコア値集合{s1[i]|i=1,2,…,M}と、M個の第二検索結果のスコア値集合{s2[i]|i=1,2,…,M}と、のいずれもが、平均0、分散1となるように、第一検索結果のスコアs1[i]と第二検索結果のスコアs2[i]とを標準化すればよい。

（ステップS8での特定部6による最終的な認識結果の例）
例えば、前述の例EX-2に基づく第二検索結果の例に対応する、特定部6での最終的な認識結果の例として、第一検索結果では商品a,b,c,dが得られたがそのスコアに大差はなく、第二検索結果では商品cのみがテキスト一致（Tc=Tq="ダークローズ"）により他の商品a,b,dよりも顕著に高いスコアとなることで、最終的な認識結果として、商品cがクエリ画像に最類似である、という結果を得ることができる。

（認識装置10による総括的な効果）
以上、図１及び図２に示される一実施形態に係る認識装置10によれば、以下の２段階の検索によって、全体として大規模な多数のリファレンス商品が存在し、且つ、一部のリファレンス商品群では細かな差異を有するものが存在する場合であっても、効率的に、クエリ画像の商品の認識結果を得ることができる。

すなわち、１段階目として、ステップS3及びS4において第一取得部2及び第一検索部3が、第一特徴情報としてBoVW等を用いた大規模画像検索に即した手法を利用することにより、多数の商品が記憶されている第一蓄積部7からある程度絞り込まれた候補としての第一検索結果を得る。２段階目として、１段階目の大規模画像検索の手法では互いに弁別することが困難な商品同士の細かな差異が反映されうる画像特徴情報としてヒストグラムやテキスト情報などを、第一検索結果に応じて選択的に第二特徴情報として利用することで、ステップS6及びS7において第二取得部4及び第二検索部5が第二検索結果を得る。そして最終的に、ステップS8において特定部6により第一検索結果と第二検索結果の両方を加味して、最適な認識結果を得ることができる。第一検索結果ではそれほど類似度に差が出ず、第二検索結果で顕著に差が出る場合と、この逆の場合と、いずれにおいても最適な認識結果を得ることができる。

（ステップS1での第一蓄積部7及び第二蓄積部8の構築）
以下、ステップS1に関して後述するとしていた、DBとしての第一蓄積部7及び第二蓄積部8の構築の詳細を、説明する。図８は、第一蓄積部7及び第二蓄積部8を構築する、一実施形態に係る構築装置の機能ブロック図である。構築装置20は、第一蓄積部7を構築する第一構築部11と、この構築された第一蓄積部7の情報を参照することによって第二蓄積部8を構築する第二構築部12と、を備える。第一構築部11はDB取得部21及び群付与部22を備え、第二構築部12は手法受付部23及び性能評価部24を備える。

（DB取得部21）
DB取得部21は、既存DB30を参照することによってDB情報を取得し、必要な場合には適宜、このDB情報を補完したうえで、群付与部22へと出力する。既存DB30は、既に構築されている多数の商品に関するDBであり、各商品に関して、その商品名（商品ID）と、当該商品の画像と、当該商品の画像より認識装置10の第一取得部2で取得されるのと同種類の画像特徴情報であるリファレンスとしての第一特徴情報と、を紐づけたものを、DB情報として記憶している。既存DB30で記憶されるこのDB情報に関しては、予め自動及び／又は管理者等のマニュアル入力により、用意しておけばよい。

商品の画像に関しては、次のように用意しておいてもよい。すなわち、リファレンスとしての第一特徴情報の算出元となる画像（リファレンス画像）は、各商品名につき1枚用意するが、商品パッケージの変更などで、同商品名（ID）を持つが外見が異なる複数の商品画像が登録されることも許容する。この場合、同商品IDに対して、異なる画像ごとにリファレンス情報を用意することを許容する。（従って、構築される第一蓄積部7及び第二蓄積部8のDB情報でも、同商品IDに対して異なるリファレンス情報が登録されることを許容する。結果として例えば、商品パッケージの変更の前後のいずれのクエリ画像であっても、認識装置10において共通の商品IDを認識結果として得ることができる。）リファレンス画像は、各商品がEC（電子商取引）サイト等に掲載される際に使用されるような商品画像(いわゆるブツ撮り)のものが用意されることを想定しており、販促ポップや外箱の有無は問わない。

なお、既存DB30におけるDB情報における商品の全部又は一部に関して、情報が存在しない場合、DB取得部21において、この存在しない情報を自動及び／又は管理者等のマニュアル入力によって補完したうえで、この補完されたDB情報を群付与部22へと出力すればよい。例えば、既存DB30におけるDB情報に含まれるある商品に関して、商品名及び画像の情報のみが存在する場合、DB取得部21において第一取得部2と同様の処理をこの画像に対して実施することでこの商品に関するリファレンスとしての第一特徴情報を取得し、この商品に紐づけるようにすればよい。また例えば、既存DB30におけるDB情報において画像は存在するが商品名が付与されていない場合、DB取得部21において管理者等によるマニュアル入力を受け付けることにより、この画像の商品名を付与するようにすればよい。

（群付与部22）
群付与部22は、DB取得部21から得られるDB情報の各商品に対して、１つ以上の類似候補群名をさらに紐づけることにより、第一蓄積部7で記憶しておくべきDB情報（模式例として前述の図３）を作成し、この作成されたDB情報を第一蓄積部7に出力する。第一蓄積部7は群付与部22で類似候補群名が付与されたDB情報を受け取って保存することにより、DBとしての第一蓄積部7が構築される。

群付与部22では具体的に、DB情報の各商品に対して、紐づいたリファレンスとしての第一特徴情報を用いて任意の既存手法のクラスタリングを行い、得られたクラスタリング結果における所属クラスタIDとして、類似候補群名を紐づける。例えば、第一特徴情報がBoVWで構成されている場合、その分布ヒストグラムを、各ビンの頻度を各要素の値とするベクトルとして扱うことにより、クラスタリングを行うことができる。

クラスタリング手法としては、非階層型のk-means法（k平均法）等を用いることで、各商品に１つのみの類似候補群名を紐づけるようにしてもよいし、Fuzzy c-means法（ファジーc平均法）のように１つの商品が１つ以上のグループに属する手法のクラスタリングや、階層型クラスタリングを用いる場合には、閾値を設けて１つ以上の類似候補群名を１商品に紐づけるようにしてもよい。これらのクラスタ数や閾値の指定に関しては、管理者等によるマニュアル入力による指定を群付与部22において受け付けた値を利用すればよい。管理者等においては、認識装置10で必要とする速度や精度に応じた値を指定することができる。

（手法受付部23）
手法受付部23では、認識装置10の第二取得部4、第二検索部5及び第二蓄積部8において利用される第二特徴情報を定めるための、所定の判別手法及びこの判別手法で利用される画像特徴情報（第二特徴情報）の種別の指定を、管理者等によるマニュアル入力として受け付けて、この指定された判別手法等を性能評価部24へと出力する。

第二取得部4等の説明において既に説明した通り、手法受付部23で受け付ける判別手法等の指定には、任意の既存手法の判別手法等を複数、指定することができる。例えば、既に図４、図６及び図７の例で説明したような以下の手法M1,M2以外にも、以下の手法M3,M4,M5などを指定するようにしてもよく、こうした手法M1～M5の任意の一部分のみを指定するようにしてもよい。さらにその他の１種類以上の手法を指定するようにしてもよい。

（手法M1）…判別手法としてカラーヒストグラムを、ここで用いる第二特徴情報として画像から抽出されるカラーヒストグラムを用いる。
（手法M2）…判別手法として文字認識（及び認識されたテキストの一致度の評価）を、ここで用いる第二特徴情報として画像に対して文字認識により抽出されるテキストを用いる。この際、商品に記載されている全てのテキストではなく、弁別性能の高い一部のテキスト（例えば、商品種別によらず共通に現れるテキスト以外の、個別商品に特化したテキスト）だけをリファレンスの第二特徴情報として、管理者等が予め登録しておくようにしてもよい。また、個別商品に特化したテキストを自動検出する例として、文字認識したうえで、得られるテキスト全部のうち、特定カテゴリ（色、数量、地名、型番、食品における味など）に該当するものだけを抜粋して、クエリ及びリファレンスの第二特徴情報としてもよい。特定カテゴリに該当するテキストの抜粋は、形態素解析などの自然言語処理分野での既存手法を利用すればよい。前述の図７は、文字認識したテキストのうち「色」のカテゴリに該当するものを第二特徴情報とする例となっている。（図７の例はまた、個別商品に特化したテキストが「色」に関するものであった例でもある。）全テキストの中から抜粋する特定カテゴリが異なる場合、互いに異なる文字認識の手法として定義しておけばよい。（例えば色に関する文字認識と、数量に関する文字認識は、別の手法として定義しておくことができる。）色に関する文字認識では、色としてありうる単語を予め辞書として登録しておき、一般的な文字認識手法で得られた認識結果に対し、辞書に近い単語があれば補正（例えば、認識結果「フルー」を辞書登録された「ブルー」に補正する）を行うことで、ノイズ等があったとしてもより確実に色情報を認識できるようにしてよい。数量に関する文字認識も同様に、数量としてあり得る表記を辞書登録したうえで認識（及び補正）すればよい。

（手法M3）…判別手法として、（既に説明した一実施形態に係る第一取得部2及び第一検索部3等で第一特徴情報として用いたのと同種の）画像特徴量であるBoVWによる類似度判定を、ここで用いる第二特徴情報としてBoVWを用いる。
（手法M4）…判別手法として、画像に撮影されている商品のスケール（大きさ）がクエリ及びリファレンスで閾値判定により同一スケールであると判定できるか、という手法を用い、ここで用いる第二特徴情報として、画像から抽出される商品のスケールを用いる。
（手法M5）…判別手法として畳み込みニューラルネットワークやサポートベクトルマシン等の機械学習を用い、第二特徴情報はこの機械学習での特徴情報（あるいは種別判定結果）を用いる。

なお、手法M4に関して、第二取得部4等において商品のスケールを取得する際は、任意の既存手法を用いることができる。例えば、画像内で商品以外にサイズが既知の別対象（ARマーカ等）を撮影して且つそのスケールを求めておき、この別対象のスケールから、商品のスケールを求めるようにしてよい。また例えば、手法M3において第一取得部2に関して説明したように、手法M3では特徴量検出の前に行う特徴点検出の結果を用いてさらに幾何検証を行うことも可能であるが、この幾何検証の際に取得可能となるスケール（商品サイズ）を、手法M4として用いるようにしてもよい。また例えば、画像として近接時刻で撮影アングルが異なる２枚を用いてステレオ視差を適用することにより、手法M4において商品のサイズを取得するようにしてもよい。

（性能評価部24）
性能評価部24は、構築されている第一蓄積部7のDB情報を読み込み、その類似候補群ごとに、手法受付部23で受け付けた複数の判別手法のそれぞれについて、当該類似候補群に属する商品を弁別する性能を評価し、弁別性能が最良となる判別手法（及び対応する第二特徴情報の種別）を当該類似候補群に紐づけたDB情報を第二蓄積部8へと出力する。ここで、性能評価部24では、各類似候補群に判別手法等を紐づけたうえでさらに、各類似候補群に属する商品に関して、紐づけられた判別手法等に対応するリファレンスとしての第二特徴情報も紐づけることでDB情報を作成して、第二蓄積部8へと出力する。

第二蓄積部8は、上記の通り性能評価部24で各類似候補群に対して紐づけられた最良の判別手法等の情報（模式例として前述の図４）と、性能評価の際に各類似候補群に属する商品に関して算出された当該最良の判別手法に対応するリファレンスの第二特徴情報（模式例として前述の図６及び図７）と、をDB情報として受け取って保存することにより、DBとしての第二蓄積部8が構築される。ここで、性能評価部24で各類似候補群に対して紐づけられた最良の判別手法等の情報は認識装置10の第二取得部4にも共有されることで、第二取得部4において既に説明した処理（ステップS6）を行うことが可能となる。なお、各商品のリファレンスの第二特徴情報は、１枚の（元の）リファレンス画像から求めてもよいし、以下に説明する性能評価部24で利用する複数画像間で安定的に抽出可能なものとして求めるようにしてもよい。

（性能評価部24での弁別性能の評価）
性能評価部24では、各類似候補群に関して具体的に以下の（第１手順）～（第３手順）のようにして弁別性能の評価を行うことができる。

（第１手順）…各類似候補群に属する各商品に関して画像を複数用意する。
すなわち、各商品には第一蓄積部7でのDB情報において１枚のリファレンス画像が用意されているが、弁別性能評価に用いるデータとしては１枚では足りないため、また、実際に撮影した際の商品の見え方や写り方の変化も考慮した弁別性能評価を可能とするため、第１手順として、この１枚のリファレンス画像に対して所定の加工を施すことでさらにn枚の画像を用意する。

なお、この加工により得られたn枚の画像の属する類似候補群は、対応する元のリファレンス画像の属する類似候補群（すなわち、対応する商品の属する類似候補群）と同じものとして、後述する第２手順及び第３手順においてクラスタリング及びその評価を行う。

例えば、類似候補群Iに属する商品a（図３）について１枚のリファレンス画像Paが第一蓄積部7のDB情報に存在する場合、これにn種類の所定の加工処理を施すことで同じく類似候補群Iに属するn枚の加工画像Pa-1,Pa-2,…Pa-nを用意し、これらの集合として類似候補群Iに属する商品aに関するn+1枚の画像群Ga={Pa,Pa-1,Pa-2,…Pa-n}を用意する。その他の商品b,c等に関しても所定の加工処理で、対応する商品の類似候補群に属するn+1枚の画像群Gb,Gc等を用意する。

加工処理に関しては、実際の変動しうる撮影状況（光源、撮影角度、縮尺など）を模したものとして所定のものを用意しておき、リファレンス画像に対して適用するようにすればよい。例えば、射影変換、トリミング、色相編集、背景付与などの加工法の１種類またはその組み合わせにより、自動及び／又は手動による手法で行えばよい。ここで、同一種類の加工法であっても、異なるパラメータによって異なる複数の加工処理であるものとして用意しておき、適用することができる。例えば同じ射影変換であっても、対応する射影変換行列の値で定まることとなる、歪ませる向きや程度の違いによって、互いに異なる加工処理として用意しておくことができる。

あるいは、加工処理を施す代わりに、各商品の画像を様々な撮影状況の下でマニュアル作業により撮影して、各商品に関してn+1枚の画像群を用意するようにしてもよい。

なお、以上では各商品に関して同じ枚数n+1の画像群を用意するものとしたが、枚数は商品ごとに異なっていてもよい。加工処理や撮影処理に関しても、商品ごとに異なる種類のものを適用するようにしてもよい。

（第２手順…クラスタリング）
第２手順では、類似候補群の各々に属する全画像（類似候補群に属する各商品のリファレンス画像と第１手順でこれを加工等して得られる画像との全て）ごとに、手法受付部23で受け付けた判別手法ごとの第二特徴情報を取得したうえで、この第二特徴情報を用いてクラスタリングを行い、クラスタリング結果を得る。すなわち、第２手順において得られるクラスタリング結果は、類似候補群ごと、且つ、判別手法ごと、となる。ここで、類似候補群ごと及び判別手法ごとのいずれのクラスタリングにおいても、クラスタ数は、当該類似候補群に属する商品の数としてクラスタリング結果を得るようにする。（ここで、「商品の数」とは第１手順で加工処理等により増やした画像の数ではない。例えば商品aに関してn+1枚の画像を用意する例を挙げたが、このn+1枚の画像に対応する商品はaの１つのみであり、このn+1枚の画像に対してカウントされる商品数は１である。）

例えば、手法受付部23で前述の手法M1、M2及びM3からなる３種類の判別手法を受け付けたとする場合で、且つ、群付与部22では類似候補群I及びIIの２種類の類似候補群が付与されたとする場合、以下の３×２＝６通りのクラスタリング結果を得ることとなる。
・類似候補群Iに属する全画像を、各画像の特徴量を手法M1の特徴量（カラーヒストグラム）としてクラスタリングした結果R-I-1
・類似候補群Iに属する全画像を、各画像の特徴量を手法M2の特徴量（テキスト）としてクラスタリングした結果R-I-2
・類似候補群Iに属する全画像を、各画像の特徴量を手法M3の特徴量（BoVW）としてクラスタリングした結果R-I-3
・類似候補群IIに属する全画像を、各画像の特徴量を手法M1の特徴量（カラーヒストグラム）としてクラスタリングした結果R-II-1
・類似候補群IIに属する全画像を、各画像の特徴量を手法M2の特徴量（テキスト）としてクラスタリングした結果R-II-2
・類似候補群IIに属する全画像を、各画像の特徴量を手法M3の特徴量（BoVW）としてクラスタリングした結果R-II-3

（第３手順…クラスタリング結果の評価）
第３手順では、類似候補群ごとに、第２手順で得た判別手法ごとのクラスタリング結果を評価し、当該類似候補群に属する商品の弁別性能が最も高い判別手法を、当該類似候補群に対して紐づけることで、性能評価部24での最終的な出力結果を得る。ここで、判別手法ごとの弁別性能の評価は、以下の（第３－１手順）～（第３－５手順）のように行えばよい。ここでは説明例として、当該判別手法によるクラスタリング結果を得た類似候補群にはm個（m種類）の商品p-1,p-2,…,p-mが属しているものとする。（従って、この説明例ではクラスタリング結果のクラスタ数もmである。）

（第３－１手順）
弁別性能を評価するためのm種類の商品p-1,p-2,…,p-mの所定の評価順番を決定して、第３－２手順へ進む。ここでは説明のために一般性を失うことなくこの順番、すなわち、i番目（i=1,2,…,m）には商品p-iを評価するものとする。
（第３－２手順）
評価対象であるi番目（i=1,2,…,m）の商品p-iに関して、クラスタリング結果のm個のクラスタの中から、商品p-iの画像（第１手順で用意した商品p-iの元画像又はこれを加工等した画像、あるいは加工ではなく撮影で得た場合は撮影画像）の属する割合（クラスタ内の全画像数に対する商品p-iの画像数の割合）が最大となるクラスタを、商品p-iのクラスタC-iとして決定して、（第３－３手順）へ進む。

（第３－３手順）
商品p-iの弁別性能の評価指標として、そのF値（値をF(p-i)とする）を求めてから、（第３－４手順）へと進む。ここで、F値に関しては既知のように、適合率と再現率との調和平均として求めることができる。既知のように、適合率及び再現率は以下のように求めることができる。
適合率=(クラスタC-iに属する商品p-iの画像数)／(クラスタC-iに属する画像総数)
再現率=(クラスタC-iに属する商品p-iの画像数)／(商品p-iの画像総数)
（第３－４手順）
（第３－１手順）で定めた順番に従って全ての商品p-i（i=1,2,…,m）に関して、現段階のi番目において、（第３－２手順）及び（第３－３手順）を実施してそのF値であるF(p-i)を既に求めたか否かを判断する。（すなわち、現段階i番目が最後のm番目であるか否かを判断する。）全て求めていれば（第３－５手順）に進み、求めていない商品があれば、現段階i番目をその次の(i+1)番目に更新したうえで、（第３－２手順）に戻る。

（第３－５手順）
以上、m回繰り返されて求められた各商品p-i（i=1,2,…,m）の評価指標としてのF値F(p-i)の平均値（求めたm個での平均値）を、当該判別手法の評価性能の指標として求める。

以上の（第３－１手順）～（第３－５手順）を判別手法ごと及び類似候補群ごとのクラスタリング結果に対してそれぞれ実施することで、判別手法ごと及び類似候補群ごとの評価指標をF値平均として求めることができるので、類似候補群ごとに、複数の判別手法のうちこの評価指標（F値平均）が最大となるような判別手法を、最良な判別手法として決定することができる。

なお、（第３－２手順）においては、商品p-i（i≧2とする）の所属クラスタC-iを、既に過去(i-1,i-2,…,1番目)に決定された商品p-i-1,p-i-2,…p-1の所属クラスタC-i-1,C-i-2,…,C-1以外のものから決定することで、所属クラスタの重複を避けるようにしてよい。

例として、前述の３×２＝６通り（手法M1,M2,M3の３通りと類似候補群I,IIの２通り）のクラスタリング結果R-I-1～R-II-3に関して、以下のように類似候補群I,IIごとの最良な判定手法が決定された場合は、前述の図４の例に合致することとなる。
・類似候補群Iを手法M1,M2,M3でそれぞれクラスタリングした３つの結果R-I-1,R-I-2,R-I-3のうち、手法M1（カラーヒストグラム）によるクラスタリング結果R-I-1が最良の弁別性能を実現していると評価されたため、類似候補群Iに手法M1を紐づける。
・類似候補群IIを手法M1,M2,M3でそれぞれクラスタリングした３つの結果R-II-1,R-II-2,R-II-3のうち、手法M2（文字認識）によるクラスタリング結果R-II-2が最良の弁別性能を実現していると評価されたため、類似候補群IIに手法M2を紐づける。

なお、上記及び図４の例とは異なり、クラスタリング結果によっては、異なる類似候補群に対して、同一の判定手法が最良なものとして決定されることもありうる。

（構築装置20及び認識装置10の全体による総括的な効果）
以上のようにして、ステップS1（図２）において構築装置20により第一蓄積部7及び第二蓄積部8をDBとして構築しておくことで、ステップS2～S9において認識装置10による画像に撮影されている商品の認識が可能となる。ここで、既に「認識装置10による総括的な効果」として説明した通り、認識装置10では検索を１段階目と２段階目とで実施することで効率的な認識が可能となり、且つ、この認識に用いるDBに関しても、以下の点により、既に稼働している商品検索システムなどの既存システム（既存DB30）を効率的に利用して構築装置20によって構築することが可能である。

・特徴検出の分散配置処理やDBの圧縮等、データの軽量化を行っている既存システムに対しても、上記の通り構築装置20によりほぼ自動でDB構築できるため、少ない追加コストで類似品の認識精度を高めることが可能である。
・既存システムのDB上の登録データを直接には増やさない方式でDB構築が可能であるため、類似品が存在しない認識対象に関しては、既存システムに余計な遅延を追加しない。すなわち、１段階目の検索において２段階目につなげるための類似候補群の紐づけはあるが、検索対象や検索要素は既存システムと同じであり１段階目の検索の際に類似候補群は用いないため、１段階目で検索終了する（図２のステップS9に至る）商品の検索速度に悪影響を及ぼすことがない。

また、第二蓄積部8は類似候補群ごとに最適な判別手法を決定したうえで構築されており、認識装置10の２段階目の検索ではこの第二蓄積部8のDB情報を利用することから、以下の効果が得られる。

・２段階目の検索では、類似品グループごとに弁別性の高い特徴量（第二特徴情報）で比較するため、弁別に寄与しない情報を削除し、DBを削減することができる。例えば特定カテゴリ「色」に関する文字認識（手法M2の１つ）を判別方法に選んだ場合、類似品グループのすべての商品に、「色」には該当しない共通のブランド名が印字されていても、段階を踏んで認識しないシステムでは、他商品との弁別のために情報を削除することはできないが、認識装置10の場合には弁別性の無い情報として削除することができる。すなわち、図７の例のように、商品に印字されたテキスト全てではなく、「色」に関するテキストのみをDBに記憶しておけばよい。
・２段階目の検索では、類似品グループごとに弁別性の高い方法を選別して使用するため、1つの手法に固定する従来手法と比べて、より実態に合った方法で差異の比較が可能となる。

・認識のための検索を２段階に分けることによって、２段階目の弁別すべき対象数を減らすことによって、従来手法であれば、大規模画像検索に適応しづらかった、コストの高い機械学習等による認識も、一部とりいれることが可能になる。

また、２段階の検索を行う手法の対比例として、１段階目では類似グループ（認識装置10での類似候補群）を検索結果として出力することも考えられるが、認識装置10においては１段階目で類似候補群ではなく、商品（及びこれに紐づく類似候補群等）を検索結果として得るようにしている。この効果として以下が挙げられる。
・第一検索結果の一部が、その時選択された判別方法が推奨されるグループ（最多の類似候補群）に入っていなくても、候補から外すことなく認識を継続できる。具体的にこの継続は、前述した「ステップS7での第二検索部5による追加処理」によって可能となる。

以下、追加的な実施形態などに関する補足説明を行う。

（１－１）撮影部1では一定長の映像としてクエリ画像（映像）を取得し、第一取得部2においてこの映像を解析することで、時間変化に頑強な情報として、第一特徴情報を取得するようにしてもよい。すなわち、以上の説明では１枚のみの静止画としてのクエリ画像から第一取得部2で第一特徴情報を得るものとしていたが、この変形例として一定長の映像の各フレーム画像を利用して第一特徴情報を得るようにしてもよい。

具体的には、映像の各フレームについて例えばBoVWとして第一特徴情報を得るものとして、特徴量を得るための特徴点に関して、映像上において既存手法によるトラッキング（追跡）を行い、当該一定時間の映像内で閾値時間以上、継続してトラッキングに成功したもの（すなわち、安定してトラッキングできたもの）のみを用いて、BoVWとしての第一特徴情報を得るようにしてもよい。この処理によれば、撮影部1のカメラ（撮像素子や回路などのハードウェア）内において突発的に現れたノイズや、撮影している商品においてカメラに対する角度によって画像の一部に一瞬だけ現れた光源反射による白飛びなど、本来の商品を反映していない情報を除外して、第一特徴情報を得ることができる。

なお、第一特徴情報を得る際は、トラッキングされる特徴点から特徴量を求めるが、この特徴量は、一定時間以上継続して得られた値の時間平均を用いるようにしてもよいし、任意の一時刻のものを用いるようにしてもよい。

（１－２）また、第一取得部2では、クエリ画像に対して例えばBoVWとして第一特徴情報を得るものとして、特徴量を得るための特徴点に関して、クエリ画像の一部(文字や模様が多い場所)に偏って特徴点が検出されることを防ぐために、画像範囲を例えば縦9×横9の81個の枠に分割し、各枠内で信頼性上位（例えば上位100個）の特徴点を採用するようにしてもよい。

（２）以上の説明では、第一取得部2で第一特徴情報を取得するために用いるクエリ画像と、第二取得部4で第二特徴情報を取得するために用いるクエリ画像とが、ステップS2において撮影部1で撮影して得られた同一の画像であるものとしていた。この変形例として、第二取得部4ではより適切に第二特徴情報を取得可能なように、次の（２－１）又は（２－２）のようにしてもよい。

（２－１）第二取得部4では、ステップS2で得た撮影部1が撮影したクエリ画像の全体ではなく、その一部分のみを対象として、第二特徴情報を取得するようにしてもよい。この一部分は、クエリ画像の全体範囲から一部分をトリミングすること及び／又はクエリ画像のサイズ（縦画素数×横画素数の積で与えられる解像度）を一定割合だけ縮小すること、によって定めることができる。

このトリミング及び／又は縮小により、第二検索部5で使用される認識手法が、負荷の大きい処理であったとしても、処理範囲を少なくすることができ、処理負荷を削減できる。また、第二取得部4から第二検索部5へネットワーク経由で情報送信を行う場合には、送信時間を削減できる。

トリミングは例えば次のように実施することができる。すなわち、第一検索部3での検索の際に、幾何検証を行うのと同様の手法で、クエリ画像に撮影されている商品の範囲を推定し、当該推定した範囲のみをトリミングしてもよい。また、当該推定した範囲からさらに、あるいは、クエリ画像全体の範囲のうち、第二取得部4で取得する第二特徴情報の種別に応じて、あるいは当該種別に依らず、「商品の特性」や「商品の特徴量の分布」等の観点から、弁別への寄与が高い部分を割り出してトリミングするようにしてもよい。

・「商品の特性」の観点からのトリミングとは、例として商品を文字認識（手法M2）する場合、エッジ密度が低い箇所はそもそもテキストが存在しえないものと推定し、文字認識への寄与は低い（文字認識してもテキストが得られない）ことが多いため、寄与の低い部分として除外する。

・また、「特徴量の分布」の観点からのトリミングとは、第一検索結果の取得に寄与する特徴量がなかった範囲を背景として扱うことで、寄与の低い部分として除外する。例として、以下の例EX-4が挙げられる。

（EX4）…例えば、第一取得部2で取得したBoVWの第一特徴情報として、特徴量[A,B,C,D,J,K]が画像クエリから取得されたものとし、第一蓄積部7は図３に例示されるDB情報を記憶していることにより、第一検索部3での第一検索結果において類似度の高い商品として商品a及び商品dが得られたとする場合、特徴量[A,B,C,D]は算出に寄与した特徴量であり、特徴量[J,K]は寄与しなかった特徴量となる。ここから、クエリ画像上の、特徴量[A,B,C,D]が検出された部分に商品が存在すると推定し、例えば、その特徴量の検出部分が画像の右半分に偏っているならば、左半分の画像は送信情報から除外することが可能である。

ここで、この特徴量[A,B,C,D]を用いて幾何検証の手法で、商品の範囲を推定してもよい。

すなわち、第一検索結果においてクエリ画像に対して、１つ以上のリファレンスとしての商品が候補として得られた場合に、クエリ画像から取得されたクエリ第一特徴情報の全体のうち、１つ以上のリファレンス商品のリファレンス第一特徴情報とマッチしたと判定される一部分のクエリ第一特徴情報が、クエリ画像において占めていると判定される範囲を、トリミング対象として決定してよい。この範囲は、例えばマッチ判定された特徴点回りの所定形状及び所定サイズの範囲としてもよいし、画像の範囲全体を予め所定のグリッド状に区切っておき、マッチ判定された特徴点が属する領域として求めてもよい。

（２－２）第二取得部4では、ユーザに対して撮影部1を構成するハードウェアとしてのカメラを用いて撮影を再度、適切な形で行うように指示するメッセージを、テキスト表示及び／又は撮影部1のカメラのプレビュー表示に対する画像表示等として与えるようにしてよい。第二取得部4では、ユーザがこの指示に従って再度、撮影部1を操作して商品を撮影することにより得られたクエリ画像を用いて、第二特徴情報を取得することができる。

すなわちこの場合、第一取得部2で利用するクエリ画像と第二取得部4で利用するクエリ画像とは共に、商品を撮影したものとして撮影部1により得られたものとなるが、この撮影操作が別途のものとなり、前者のクエリ画像はステップS2で得られるものであり、後者のクエリ画像はステップS6で第二取得部4による指示を受けたユーザによって再度、得られるものとなる。

第二取得部4でユーザに対して再撮影を指示するメッセージの内容は、第一検索部3で得られた第一検索結果に応じた所定内容とすることができ、例えば、画像内において商品が撮影される位置を、認識処理のためにより適切な位置へと調整させる内容とすることができる。具体例には、（２－１）の場合と同様に、ステップS2で得たクエリ画像における商品の位置（商品の重要部分の位置）をクエリ画像内において推定し、この位置が画像中心となるように、所定方向の矢印をカメラプレビュー表示に重畳して表示する等の内容とすることができる。例えば前述の例EX-4のように、ステップS2で得たクエリ画像では、第一検索結果に寄与した特徴量が画像の右半分に偏っていると判定される場合、画像の左半分においても商品認識に寄与する特徴量を得ることが可能なように、カメラプレビュー表示に、商品を左に動かす（あるいはカメラを右に動かす）ことを促す矢印を重畳表示することで、ユーザに対して画像の左側でも商品を捉えて撮影することを促すようにしてもよい。

（３）以上の説明では、構築装置20においては、群付与部22に固定されたクラスタ数mを管理者等がマニュアルで指定することでDBとしての第一蓄積部7を第一構築部11が構築し、これを用いて第二構築部12がm個の類似候補群ごとに最適な判別手法を決定することで、DBとしての第二蓄積部8を構築した。この変形例として、クラスタ数mも一定範囲内（m1≦m≦m2）でそれぞれ第一構築部11に対して指示して与え、各クラスタ数mにおける弁別性能を、m個のクラスタのF値の平均値として第二構築部12において求めるようにし、一定範囲内（m1≦m≦m2）のうち、弁別性能が最良となるクラスタ数mを決定し、このクラスタ数mで構築されたDB情報を記憶することにより、第一蓄積部7及び第二蓄積部8を構築するようにしてもよい。

上記ではクラスタ数mも一定範囲内（m1≦m≦m2）でパラメータとして振って最適なものを全数探索により決定したが、これに加えて、あるいはこれに代えて、クラスタリング手法に関して所定の複数の手法の中からそれぞれ適用して、弁別性能が最良となるものを決めるようにして、当該最良の弁別性能のクラスタ数m及び／又はクラスタリング手法において、第一蓄積部7及び第二蓄積部8を構築するようにしてもよい。

（４）第二取得部4では、第一検索結果における各商品に紐づいた類似候補群を全て列挙して、この中で最多の類似候補群に応じた種別の判別手法に対応する第二特徴情報をクエリ画像から取得するものとして説明した。ここで、より一般には、最多の類似候補群ではなく、最適と判定される類似候補群を用いるようにしてもよい。具体例に、最適な類似候補群を求める際は、第一検索結果において、各商品に紐づいた類似候補群の情報の他、各商品の類似度の情報も参照し、この類似度の総和として各類似候補群のスコアを算出し、スコアが最大となる類似候補群を最適なものとして判定することができる。（すなわち、最多の場合は単純に個数の和で評価したが、最適の場合は、個数の和を類似度で重みづけして評価すればよい。なお、重みの値を類似度ではなく全て等しく1とした場合、和は個数となる。）

（５）図９は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。認識装置10及び構築装置20はそれぞれ、このような構成を有する１台以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72（GPU（グラフィック演算装置）や深層学習専用プロセッサ等）、CPU71や専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、カメラ77、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース78と、これらの間でデータを授受するためのバスBSと、を備える。

認識装置10及び構築装置20の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又は専用プロセッサ72によって実現することができる。ここで、撮影関連の処理が行われる場合にはさらに、カメラ77が連動して動作し、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。

撮影部1での撮影はカメラ77において実施することができる。第一蓄積部7及び第二蓄積部8でのDB情報の保存は、補助記憶装置としてのROM74において実施することができる。提示部9において画像表示により認識結果を提示する処理は、ディスプレイ76において実施することができる。DB取得部21、群付与部22及び手法受付部23等での、管理者等による各種の情報のマニュアル入力を受け付ける処理は、入力インタフェース78において実施することができる。認識装置10及び構築装置20がそれぞれ、ネットワークを経由して情報を相互に送受信する１つ以上のコンピュータ装置70で構成される場合、この情報の送受信は、通信インタフェース75において実施することができる。

（６）図１０は、ネットワークNWにより相互に通信可能な、スマートフォン等の情報端末装置Tと、３つのサーバ装置SV1～SV3と、を示す図である。これら各装置はそれぞれ、図９に示すような一般的なコンピュータ装置70の全部又は一部の構成を備えるものである。認識装置10は、ネットワークNWにより相互に通信可能な１つ以上のコンピュータ装置70として実現することができるが、以下のような構成が可能である。

例えば、ユーザは情報端末装置Tを用いることにより商品の撮影を行い、認識のための２段階の検索処理及びこれに必要なDB情報に関しては、３つのサーバ装置SV1～SV3において担い、認識結果を情報端末装置Tにおいてユーザに対して提示する構成として、次が可能である。すなわち、撮影部1及び提示部9は、ユーザが所持する情報端末装置Tに備わるものとして実現し、２段階の検索処理を行うための第一取得部2、第一検索部3、第二取得部4及び第二検索部5は、１つめのサーバ装置SV1に備わるものとして実現し、１つめのDBとしての第一蓄積部7は、２つめのサーバ装置SV2に備わるものとして実現し、２つめのDBとしての第二蓄積部8は、３つめのサーバ装置SV3に備わるものとして実現する、といった構成が可能である。この、１つめのサーバ装置SV1に備わる構成の第一取得部2、第一検索部3、第二取得部4及び第二検索部5のうちの任意の一部又は全部を情報端末装置Tの側に備わるものとしてもよい。第一蓄積部7及び第二蓄積部8を１つのみのサーバ装置SV2に備わるものとして実現してもよい。

（７）手法受付部23で受け付ける個別の判別手法として、既存の判別手法を２つ以上用いた総合スコアを用いるものが含まれてもよい。例えばヒストグラム類似度とテキスト類似度との重みづけ和で類似度評価する判別手法を指定してもよい。この際、リファレンスとしての第二特徴情報も、複数の種類の画像特徴情報を列挙したもの（例えば、（ヒストグラム、テキスト））を用いればよい。

（８）第一検索結果及び／又は第二検索結果を用いて特定部6が特定した結果が、閾値判定で候補が絞り切れていないと判定される場合（例えば、類似度が上位となるものが多いと判定される場合）、認識装置10の処理をさらに再帰的に行うようにしてよい。図１１は、この再帰的な処理を１回行う場合の認識装置10の機能ブロック図である。図１の構成に対して、再帰的処理を１回行うための追加構成として図１１の認識装置10では第三取得部4-3、第三検索部5-3及び第三蓄積部8-3をさらに備えることにより、以下の追加処理を行う。

第三取得部4-3は、第二検索結果に含まれる最多（又は最適）の類似候補群に応じた種別の第三特徴情報をクエリ画像より取得して、クエリ第三特徴情報として第三検索部5-3に出力する。第三検索部5-3は、第二検索結果の各商品のリファレンス第三特徴情報を第三蓄積部8-3から取得し、クエリ第三特徴情報との類似度を列挙した情報を第三検索結果として特定部6に出力する。特定部6では第一検索結果及び／又は第二検索結果と第三検索結果に基づき商品の認識結果を得る。

図１１での機能部間の接続関係の共通性からも見て取れるように、第三取得部4-3及び第三検索部5-3が第三蓄積部8-3を参照して第三リファレンス情報を用いて行う処理（３段階目検索）は、第二取得部4及び第二検索部5が第二蓄積部8を参照して第二リファレンス情報を用いて行う処理（２段階目検索）に対応し、再帰的な検索を行うものである。相違は、３段階目検索では２段階目検索で利用した類似候補群よりもさらに下位の（より細分化した）類似候補群が各商品に予め付与されたうえで利用され、対応する種別の第三特徴情報が定義され、リファレンス情報として第三蓄積部8-3に記憶されているという点である。

このため、DBとしての第三蓄積部8-3は次のように構築すればよい。すなわち、図８の構築装置20が出力として得た第二蓄積部8の情報を、（図８における既存DB30の位置に配置することで）再度、構築装置20に対して入力することで第一構築部11の出力として得られる情報が、第三蓄積部8-3が保存しておくDB情報である。（例えば、第二蓄積部8が図５のように第I蓄積部8-I及び第II蓄積部8-IIの２つの下位DBで構成される場合、この２つの下位DBにそれぞれ対応する第三蓄積部8-3-I及び8-3-II（不図示）が得られることとなる。）またこの際さらに、第二構築部12の出力として得られる情報としての類似候補群に対応する判別手法での第三特徴情報の種別を、第三取得部4-3では記憶しておき、最多の（下位）類似候補群に対応するものをクエリ画像から取得することとなる。

以上、特定部6での特定結果が絞り切れていないと判定される場合に再帰的な処理を１回行う場合を説明したが、１回の再帰的処理でも特定結果が絞り切れていないと判定される場合、さらに同様にして２回目以降の再帰的な処理を行うことも可能である。

（９）以上では説明例のタスクとして、認識装置10によって認識されるべき対象が商品であるものとしたが、商品に限らず、任意の種類のクエリ対象を認識することが可能である。この場合、第一蓄積部7及び第二蓄積部8は、リファレンス対象に関するものとして、構築装置20により構築しておけばよい。

10…認識装置、1…撮影部、2…第一取得部、3…第一検索部、4…第二取得部、5…第二検索部、6…特定部、7…第一蓄積部、8…第二蓄積部
20…構築装置、11…第一構築部、21…DB取得部、22…群付与部、12…第二構築部、23…手法受付部、24…性能評価部

Claims

クエリ対象を撮影したクエリ画像よりクエリ第一特徴情報を取得する第一取得部と、
複数のリファレンス対象の各々についてリファレンス第一特徴情報及び類似候補群を紐づけて記憶している第一蓄積部に対して、前記クエリ第一特徴情報を用いて検索を行うことにより、リファレンス第一特徴情報が類似していると判定されるリファレンス対象及び紐づいた類似候補群を列挙した情報を含む第一検索結果を得る第一検索部と、
前記第一検索結果に含まれる類似候補群の中から最適類似候補群を選択し、当該最適類似候補群に応じた種別のクエリ第二特徴情報を、クエリ対象を撮影したクエリ画像より取得する第二取得部と、
リファレンス対象の各々について、前記第一蓄積部で紐づけられている類似候補群に応じた種別のリファレンス第二特徴情報を紐づけて記憶している第二蓄積部に対して、前記クエリ第二特徴情報を用いて、前記第一検索結果に列挙されるリファレンス対象に関して検索を行い、リファレンス対象ごとの類似度を列挙した情報を含む第二検索結果を得る第二検索部と、
前記第一検索結果及び／又は前記第二検索結果に基づいて、前記クエリ画像に撮影されているクエリ対象に関する特定結果を得る特定部と、を備えることを特徴とする認識装置。
前記第一検索結果おいて前記類似していると判定されるリファレンス対象が１つのみであった場合には、前記特定部では当該１つのみのリファレンス対象を特定結果として得て、前記第二取得部における取得する処理と前記第二検索部における検索する処理とが省略されることを特徴とする請求項１に記載の認識装置。
前記第一蓄積部では、複数のリファレンス対象がそのリファレンス第一特徴情報を用いてクラスタリングされた結果における所属クラスタとして、複数のリファレンス対象の各々についての類似候補群を記憶していることを特徴とする請求項１または２に記載の認識装置。
前記第二蓄積部では、前記第一蓄積部で紐づけられることにより各類似候補群に属するリファレンス対象同士を、所定の弁別性能をもって判別することが可能であると判定される画像特徴情報として、類似候補群に応じた種別のリファレンス第二特徴情報を記憶していることを特徴とする請求項１ないし３のいずれかに記載の認識装置。
前記第二取得部では、前記第一検索結果に含まれる類似候補群のうち最多のものとして前記最適類似候補群を選択することを特徴とする請求項１ないし４のいずれかに記載の認識装置。
前記第一取得部では、クエリ対象を撮影したクエリ画像の一定時間に渡る映像より、一定期間以上継続してトラッキング可能な情報として、クエリ第一特徴情報を得ることを特徴とする請求項１ないし５のいずれかに記載の認識装置。
前記第二検索部では、前記第一検索結果に列挙されるリファレンス対象に関して検索を行った際に、前記第二蓄積部において前記最適類似候補群に応じた種別のリファレンス第二特徴情報が記憶されていないリファレンス対象が存在する場合には、当該リファレンス対象の画像を取得して解析することにより、前記最適類似候補群に応じた種別のリファレンス第二特徴情報を取得することを特徴とする請求項１ないし６のいずれかに記載の認識装置。
前記第二取得部では、前記第一検索結果に基づいて、前記第一取得部において前記クエリ第一特徴情報を取得するのに用いたクエリ画像のうち、クエリ対象が撮影されている範囲を推定し、当該範囲をトリミングした画像を用いることにより、前記クエリ第二特徴情報を取得することを特徴とする請求項１ないし７のいずれかに記載の認識装置。
前記第二取得部では、前記推定されるクエリ対象が撮影されている範囲を、前記第一検索結果でのクエリ第一特徴情報のうち、重複して複数のリファレンス第一特徴情報とマッチしていると判定されるものに基づいて推定することを特徴とする請求項８に記載の認識装置。
前記第二取得部では、前記第一検索結果に基づいて、前記第一取得部において前記クエリ第一特徴情報を取得するのに用いたクエリ画像のうち、クエリ対象が撮影されている範囲を推定し、当該範囲が適切に撮影されることを促す所定メッセージをユーザに対して通知し、当該所定メッセージを受けたユーザが撮影を行うことで得られたクエリ画像を用いることにより、前記クエリ第二特徴情報を取得することを特徴とする請求項１ないし７のいずれかに記載の認識装置。
前記特定部による前記第一検索結果及び／又は前記第二検索結果に基づく特定結果が絞り切れていないと判定される場合の構成として、
前記第二検索結果に含まれる下位類似候補群の中から最適下位類似候補群を選択し、当該最適下位類似候補群に応じた種別のクエリ第三特徴情報を、クエリ対象を撮影したクエリ画像より取得する第三取得部と、
リファレンス対象の各々について、紐づけられている下位類似候補群に応じた種別のリファレンス第三特徴情報を紐づけて記憶している第三蓄積部に対して、前記クエリ第三特徴情報を用いて、前記第二検索結果に列挙されるリファレンス対象に関して検索を行い、リファレンス対象ごとの類似度を列挙した情報を含む第三検索結果を得る第三検索部と、をさらに備え、
前記特定部は、前記第一検索結果及び／又は前記第二検索結果と、前記第三検索結果と、に基づいて、前記クエリ画像に撮影されているクエリ対象に関する特定結果を得ることを特徴とする請求項１ないし１０のいずれかに記載の認識装置。
前記第二取得部で取得されうる、前記最適類似候補群に応じた種別のクエリ第二特徴情報の種別の１つに、クエリ画像から文字認識したテキストより特定カテゴリに該当するものを抜粋した情報が含まれることを特徴とする請求項１ないし１１のいずれかに記載の認識装置。
コンピュータを請求項１ないし１２のいずれかに記載の認識装置として機能させることを特徴とするプログラム。
請求項１ないし１２のいずれかに記載の認識装置において検索される、第一蓄積部に記憶される第一データベース情報と第二蓄積部に記憶される第二データベース情報とを構築する構築装置であって、
既に構築されているデータベース情報として、リファレンス対象の各々についてその画像から取得されるリファレンス第一特徴情報が紐づけられたデータベース情報を取得し、複数のリファレンス対象を、そのリファレンス第一特徴情報を用いてクラスタリングした結果における所属クラスタとして、複数のリファレンス対象の各々についての類似候補群を決定することにより、リファレンス対象の各々についてリファレンス第一特徴情報と類似候補群とを紐づけることによって前記第一データベース情報を構築する第一構築部と、
前記第一データベース情報において紐づけられることで各類似候補群に属するリファレンス対象の画像に対して、所定の複数種類の画像判別手法にそれぞれ対応する複数種類の画像特徴情報を用いてそれぞれクラスタリングを行うことで、得られるクラスタリング結果のうち属するリファレンス対象の弁別性能が最良判定されるものを決定し、
各類似候補群に属するリファレンス対象について、当該最良判定されたクラスタリング結果に対応する種類の画像特徴情報をリファレンス第二特徴情報として紐づけることによって、前記第二データベース情報を構築する第二構築部と、を備えることを特徴とする構築装置。