JP7109414B2

JP7109414B2 - 識別装置、識別方法及び識別プログラム

Info

Publication number: JP7109414B2
Application number: JP2019169863A
Authority: JP
Inventors: 雅二郎岩崎; 修平西村; 拓明田口
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-07-29
Anticipated expiration: 2039-09-18
Also published as: JP2021047650A

Description

本発明は、識別装置、識別方法及び識別プログラムに関する。

従来、クエリ画像と類似する画像を検索する技術が知られている。このような技術の一例として、端末装置が撮影した画像をクエリ画像として受信すると、クエリ画像に類似する画像を検索し、検索結果の画像が示す取引対象の情報を提供する技術が知られている。

特開２０１６－００９４５９号公報

しかしながら、上述した技術では、検索精度を向上させる余地がある。

例えば、上述した技術では、利用者が検索対象としたい物体が他の物体に隠れている場合や、撮影した画像の明度が低い場合等、端末装置が撮影した画像の撮影条件が好ましくない場合は、撮影した画像をクエリ画像とする類似画像検索を精度良く行うことができなくなる。この結果、上述した技術では、利用者が所望する物体と関連する取引対象の情報を適切に提供することができない恐れがある。

本願は、上記に鑑みてなされたものであって、画像を用いた検索の検索精度を向上させることを目的とする。

本願にかかる識別装置は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定部と、前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する識別部とを有することを特徴とする。

実施形態の一態様によれば、画像を用いた検索の検索精度を向上させることができるといった効果を奏する。

図１は、実施形態に係る識別処理の一例を示す図である。図２は、実施形態に係るスコアの付与処理の一例を示す図である。図３は、実施形態に係る情報提供システムの構成例を示す図である。図４は、実施形態に係る情報提供装置の構成例を示す図である。図５は、実施形態に係る画像データベースの一例を示す図である。図６は、実施形態に係る識別処理の手順の一例を示すフローチャートである。図７は、情報提供装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る識別装置、識別方法及び識別プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ説明する。なお、この実施形態により本願に係る識別装置、識別方法及び識別プログラムが限定されるものではない。また、以下の実施形態において、同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．実施形態〕
図１を用いて、本実施形態の識別装置等により実現される識別処理を説明する。図１は、実施形態に係る識別処理の一例を示す図である。なお、図１では、本願に係る識別装置の一例である情報提供装置１０によって、実施形態に係る識別処理などが実現されるものとする。

図１の説明に先立って、図３を用いて、実施形態に係る情報提供システム１について説明する。図３は、実施形態に係る情報提供システムの構成例を示す図である。図３に示すように、実施形態に係る情報提供システム１は、情報提供装置１０と、端末装置１００とを含む。情報提供装置１０及び端末装置１００は、ネットワークＮを介して有線または無線により相互に通信可能に接続される。ネットワークＮは、例えば、インターネットなどのＷＡＮ（Wide Area Network）である。なお、図３に示した情報提供システム１には、複数台の情報提供装置１０及び複数台の端末装置１００が含まれていてもよい。

情報提供装置１０は、端末装置１００が撮影した動画像に含まれる撮影対象の識別結果を提供する情報処理装置である。例えば、情報提供装置１０は、各種の画像認識技術を用いて、動画像から抽出した画像である抽出画像に含まれる撮影対象を識別する。なお、情報提供装置１０は、画像認識に関するアプリケーションのデータそのものを配信するサーバであってもよい。また、情報提供装置１０は、端末装置１００に制御情報を配信する配信装置として機能してもよい。ここで、制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語やＣＳＳ（Cascading Style Sheets）等のスタイルシート言語により記述される。なお、情報提供装置１０から配信される画像認識に関するアプリケーションそのものを制御情報とみなしてもよい。

端末装置１００は、利用者によって利用される情報処理装置である。端末装置１００は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。また、端末装置１００は、端末装置１００が備える撮像部により撮像した動画像）を情報提供装置１０に送信する。また、端末装置１００は、情報提供装置１０によって提供される情報の表示処理を実現する制御情報を情報提供装置１０から受け取った場合には、制御情報に従って表示処理を実現する。なお、図１に示す例において、端末装置１００は、利用者によって利用されるスマートフォンやタブレット等のスマートデバイスである場合を示す。

以下、図１を用いて、情報提供装置１０が行う識別処理について説明する。なお、以下の説明では、端末装置１００が利用者Ｕにより利用される例を示す。また、以下の説明では、端末装置１００を利用者Ｕと同一視する場合がある。すなわち、以下では、利用者Ｕを端末装置１００と読み替えることもできる。

まず、端末装置１００は、利用者Ｕの操作に応じて、動画像を撮影する（ステップＳ１）。なお、図１の例において、利用者Ｕは、撮影位置を移動しながら、物体Ｍ１及びＭ２を撮影対象として動画像を所定時間（例えば、１秒、３秒）以上撮影したものとする。

続いて、情報提供装置１０は、端末装置１００が撮影した動画像を取得する（ステップＳ２）。続いて、情報提供装置１０は、動画像から抽出した抽出画像から、撮影対象が含まれる領域である対象領域を特定する（ステップＳ３）。例えば、図１の例において、情報提供装置１０は、ステップＳ２において取得した動画像から、時系列が連続する抽出画像Ｐ１～Ｐ４を抽出する。そして、情報提供装置１０は、各抽出画像の中から物体Ｍ１、若しくは、物体Ｍ２が含まれる対象領域を、各種の画像認識技術を用いて特定する。

具体的な例を挙げると、情報提供装置１０は、各抽出画像の中から複数の特徴点を特定し、特定した特徴点から所定の範囲に含まれる画素の特徴を選択した特徴点の特徴量として算出する。そして、情報提供装置１０は、算出した特徴量に基づき、物体Ｍ１、若しくは、物体Ｍ２が含まれる対象領域を各抽出画像から特定する。

ここで、図１に示す画像ＡI１～ＡI４は、それぞれ抽出画像Ｐ１～Ｐ４に対応し、情報提供装置１０が各抽出画像から特定したものを模式的に示す図である。図１の例において、情報提供装置１０は、抽出画像Ｐ１から物体Ｍ１が含まれる対象領域Ａ１－１、並びに、物体Ｍ２が含まれる対象領域Ａ２－１を特定したものとする。また、情報提供装置１０は、抽出画像Ｐ２から物体Ｍ２が含まれる対象領域Ａ２－２を特定した一方で、物体Ｍ１が含まれる対象領域を特定できなかったものとする。また、情報提供装置１０は、抽出画像Ｐ３から物体Ｍ１が含まれる対象領域Ａ１－２を特定した一方で、物体Ｍ２が含まれる対象領域を特定できなかったものとする。また、情報提供装置１０は、抽出画像Ｐ４から物体Ｍ２が含まれる対象領域Ａ２－３を特定した一方で、物体Ｍ１が含まれる対象領域を特定できなかったものとする。

なお、特徴量の算出には、ＧＩＳＴ（http://ilab.usc.edu/siagian/Research/Gist/Gist.html）、カラーヒストグラム、色分布などの広域特徴量やＳＩＦＴ（Scale-Invariant Feature Transform）、ＳＵＲＦ（Speed-Up Robust Features）、局所特徴量等、画像が有する特徴量を算出する任意の技術が採用可能である。また、ニューラルネットで生成される特徴量も利用可能である。

続いて、情報提供装置１０は、抽出画像を重ね合わせた場合の対象領域の重畳態様を特定する（ステップＳ４）。例えば、図１の例において、情報提供装置１０は、抽出画像Ｐ１～Ｐ４のそれぞれに含まれる特徴点を照合し、抽出画像Ｐ１～Ｐ４間で一致する特徴点（例えば、特徴量の差が所定の閾値以内である特徴点）を抽出する。ここで、図１の例において、情報提供装置１０は、抽出画像Ｐ１～Ｐ４それぞれに含まれる特徴点ＰＴを、抽出画像Ｐ１～Ｐ４間で一致する特徴点として抽出したものとする。この場合、情報提供装置１０は、抽出画像Ｐ１～Ｐ４のそれぞれに含まれる特徴点ＰＴの位置が一致するように抽出画像Ｐ１～Ｐ４を重畳させた場合に、いずれかの抽出画像に含まれる対象領域と、他の抽出画像に含まれる対象領域とが重畳する態様を示す重畳態様Ｃを特定する。

続いて、情報提供装置１０は、対象領域に重畳態様に応じた重み付けを行う（ステップＳ５）。例えば、図１の例において、情報提供装置１０は、重畳態様Ｃに基づき、対象領域に含まれる各領域に対し、他の対象領域が重畳する数に応じた重み付け（スコアの付与）を行う。言い換えると、情報提供装置１０は、対象領域に含まれる領域と、撮影対象とが対応する確度を示すスコアの付与を行う。ここで、対象領域に含まれる各領域に対しスコアを付与する処理について、図２を用いて詳細に説明する。図２は、実施形態に係るスコアの付与処理の一例を示す図である。

最初に、対象領域Ａ１－２に含まれる領域に対しスコアを付与する処理について説明する。図２に示すように、対象領域Ａ１－２に含まれる領域の一部は、特定元の抽出画像Ｐ３以外の他の抽出画像に含まれない。この場合、情報提供装置１０は、対象領域Ａ１－２に含まれる領域に重畳する他の対象領域の数に１を合計した数を、当該領域を含む抽出画像の数で除算し、得られたスコアを、対象領域Ａ１－２の各領域に付与する。

具体的な例を挙げると、情報提供装置１０は、対象領域Ａ１－２に対象領域Ａ１－１が重畳し、抽出画像Ｐ１～Ｐ４に含まれる領域ＡＲ１－１に対し、スコア「２／４（対象領域Ａ１－１＋１／抽出画像Ｐ１～Ｐ４）」を付与する。また、情報提供装置１０は、対象領域Ａ１－２に他の対象領域が重畳せず、抽出画像Ｐ１～Ｐ３に含まれる領域ＡＲ１－２に対し、スコア「１／３（重畳する他の対象領域なし（０）＋１／抽出画像Ｐ１～Ｐ３）」を付与する。また、情報提供装置１０は、対象領域Ａ１－２に他の対象領域が重畳せず、抽出画像Ｐ３及びＰ４に含まれる領域ＡＲ１－３に対し、スコア「１／２（重畳する他の対象領域なし（０）＋１／抽出画像Ｐ３及びＰ４）」を付与する。

次に、対象領域Ａ２－１に含まれる領域に対しスコアを付与する処理について説明する。図２に示すように、対象領域Ａ２－１は、特定元の抽出画像Ｐ１以外の他の抽出画像にも含まれる。この場合、情報提供装置１０は、対象領域Ａ２－１に含まれる領域に重畳する他の対象領域の数に１を合計した数を、抽出画像の数で除算し、得られたスコアを、対象領域Ａ２－１の各領域に付与する。

具体的な例を挙げると、情報提供装置１０は、対象領域Ａ２－１に対象領域Ａ２－２及びＡ２－３が重畳する領域ＡＲ２－１に対し、スコア「３／４（対象領域Ａ２－２及びＡ２－３＋１／抽出画像Ｐ１～Ｐ４）」を付与する。また、情報提供装置１０は、対象領域Ａ２－１に対象領域Ａ２－２のみが重畳する領域ＡＲ２－２に対し、スコア「２／４（対象領域Ａ２－２＋１／抽出画像Ｐ１～Ｐ４）」を付与する。また、情報提供装置１０は、対象領域Ａ２－３に他の対象領域が重畳しない領域ＡＲ２－３に対し、スコア「１／４（重畳する他の対象領域なし（０）＋１／抽出画像Ｐ１～Ｐ４）」を付与する。

なお、図２の例において、情報提供装置１０は、各抽出画像の領域のうち、対象領域Ａ１－２及びＡ１－１、並びに、対象領域Ａ２－１～Ａ２－３のいずれも含まない領域に対しては、スコア「０」を付与してもよい。

図１の説明に戻り、情報提供装置１０は、撮影された撮影対象を識別する（ステップＳ６）。例えば、図１の例において、情報提供装置１０は、対象領域から算出する特徴量に対し重畳態様Ｃに応じた重み付けを行い、対象領域に含まれる撮影対象を識別する。具合的な例を挙げると、情報提供装置１０は、対象領域に含まれる各領域に付与したスコアの高さに応じて、対応する領域から算出する特徴量に対する重み付けを大きく設定する。そして、情報提供装置１０は、対象領域Ａ１－１、並びに、対象領域Ａ１－１に重畳する対象領域Ａ１－２に含まれる各領域から算出した特徴量に基づいて、対象領域Ａ１－１及び対象領域Ａ１－２に含まれる撮影対象（物体Ｍ１）を識別する。また、情報提供装置１０は、対象領域Ａ２－１、並びに、対象領域Ａ２－１に重畳する対象領域Ａ２－２及びＡ２－３に含まれる各領域から算出した特徴量に基づいて、対象領域Ａ２－１～Ａ２－３に含まれる撮影対象（物体Ｍ２）を識別する。

続いて、情報提供装置１０は、識別結果に応じた情報を端末装置１００に提供する（ステップＳ７）。例えば、図１の例において、情報提供装置１０は、物体Ｍ１及び物体Ｍ２の名称を示す情報を端末装置１００に提供する。

以上のように、実施形態に係る情報提供装置１０は、撮影対象を撮影した動画像から抽出した複数の抽出画像に基づいて撮影対象の識別処理を行う。従来、画像の撮影条件が悪い場合（例えば、撮影場所が暗い、撮影対象の一部が他の物体に隠れている、など）、一の画像から撮影対象を識別する際に精度が低下するという問題点があった。これに対し、実施形態に係る情報提供装置１０は、複数の抽出画像から特定した対象領域と、撮影対象とが対応する確度による重み付けを用いて、対象領域から撮影対象を識別する。これにより、実施形態に係る情報提供装置１０は、撮影条件によって一の抽出画像から対象領域が誤って特定された場合であっても、他の抽出画像から特定した対象領域に基づいて、誤って特定された対象領域の重みを小さくすることができるため、撮影対象の識別の精度を向上できる。また、実施形態に係る情報提供装置１０は、撮影条件によって一の抽出画像から撮影対象が特定できない場合であっても、他の抽出画像に基づいて撮影対象の識別を可能とする。すなわち、実施形態に係る情報提供装置１０は、画像を用いた検索の検索精度を向上させることができる。

〔２．情報提供装置の構成〕
次に、図４を用いて、情報提供装置１０の構成について説明する。図４は、実施形態に係る情報提供装置の構成例を示す図である。図４に示すように、情報提供装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

（通信部２０について）
通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、端末装置１００等との間で情報の送受信を行う。

（記憶部３０について）
記憶部３０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図４に示すように、記憶部３０は、画像データベース３１を有する。

（画像データベース３１について）
画像データベース３１は、利用者が端末装置１００を用いて撮影した画像（動画像、若しくは、静止画像）に関する情報を記憶する。ここで、図５を用いて、画像データベース３１が記憶する情報の一例を説明する。図５は、実施形態に係る画像データベースの一例を示す図である。図５の例では、画像データベース３１は、「画像ＩＤ」、「抽出画像ＩＤ」、「抽出画像」、「特徴情報」、「対象領域情報」といった項目を有する。

「画像ＩＤ」は、利用者が撮影した画像を識別するための識別情報を示す。「抽出画像ＩＤ」は、利用者が撮影した画像から抽出した抽出画像を識別するための識別情報を示す。「抽出画像」は、抽出画像に関する情報を示す。なお、図５に示す例では、「抽出画像」に「抽出画像＃１」といった概念的な情報が格納される例を示したが、実際には、抽出画像を示す静止画像や、抽出画像の所在を示すＵＲＬ（Uniform Resource Locator）、格納場所を示すファイルパス名などが格納される。

「特徴情報」は、抽出画像から抽出した商品の特徴に関する情報を示し、例えば、抽出画像に含まれる特徴点や、抽出画像の特徴量に関する情報が格納される。「対象領域情報」は、抽出画像のうち、撮影対象が含まれる領域である対象領域に関する情報であり、例えば、抽出画像内の対象領域を示す座標等が格納される。

すなわち、図５では、画像ＩＤ「ＩＤ＃１」によって識別される画像から、抽出画像ＩＤ「ＡＩＤ＃１」によって識別される抽出画像「抽出画像＃１」が抽出され、「抽出画像＃１」の特徴情報が「特徴情報＃１」、対象領域情報が「対象領域情報＃１」である例を示す。

（制御部４０について）
制御部４０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報提供装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部４０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。実施形態に係る制御部４０は、図４に示すように、特定部４１と、抽出部４２と、識別部４３と、提供部４４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。

（特定部４１について）
特定部４１は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。例えば、図１の例において、特定部４１は、端末装置１００から取得した動画像から抽出画像Ｐ１～Ｐ４を抽出し、各抽出画像の中から物体Ｍ１、若しくは、物体Ｍ２が含まれる対象領域を、各種の画像認識技術を用いて特定する。そして、特定部４１は、抽出画像及び対象領域に関する情報を画像データベース３１に格納する。

また、特定部４１は、対象領域に含まれる撮影対象の種別をさらに特定してもよい。例えば、特定部４１は、対象領域を各種の画像認識技術を用いて解析することにより、対象領域に含まれる撮影対象の種別を特定する。具体的な例を挙げると、特定部４１は、図１に示す対象領域Ａ２－１に含まれる物体Ｍ２の種別を「リンゴ」と特定する。

なお、特定部４１は、対象領域に含まれる撮影対象が、情報提供装置１０の管理者等により任意に設定された種別のいずれに分類されるかを特定してもよい。また、特定部４１は、対象領域に含まれる撮影対象の具体的な名称を特定してもよい。また、特定部４１は、抽出画像に含まれる複数の撮影対象をそれぞれ区別するための種別を特定してもよい。例えば、図１の例において、特定部４１は、対象領域Ａ１－１及びＡ１－２に含まれる撮影対象の種別を「撮影対象１」と特定し、対象領域Ａ２－１～Ａ２－３に含まれる撮影対象の種別を「撮影対象２」と特定する。

また、特定部４１は、動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。例えば、図１の例において、特定部４１は、時系列が連続する抽出画像Ｐ１～Ｐ４ごとに、各抽出画像の中から物体Ｍ１、若しくは、物体Ｍ２が含まれる対象領域を、各種の画像認識技術を用いて特定する。

（抽出部４２について）
抽出部４２は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する。例えば、図１の例において、抽出部４２は、抽出画像Ｐ１～Ｐ４のそれぞれに含まれる特徴点ＰＴの位置が一致するように抽出画像Ｐ１～Ｐ４を重畳させた場合に、いずれかの抽出画像に含まれる対象領域と、他の抽出画像に含まれる対象領域とが重畳する態様を示す重畳態様Ｃを特定する。そして、抽出部４２は、重畳態様Ｃに基づいて、抽出画像Ｐ１～Ｐ４に含まれる対象領域のうち、重畳する他の対象領域の数が最も多い領域を識別領域として抽出する。具体的な例を挙げると、図１の例において、抽出部４２は、対象領域Ａ１－２及びＡ１－２に含まれる各領域のうち、対象領域Ａ１－２に対象領域Ａ１－１が重畳する領域ＡＲ１－１を識別領域として抽出する。また、抽出部４２は、対象領域Ａ２－１～Ａ２－３に含まれる各領域のうち、対象領域Ａ２－１に対象領域Ａ２－２及びＡ２－３が重畳する領域ＡＲ２－１を識別領域として抽出する。

また、抽出部４２は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出してもよい。例えば、図１の例において、抽出部４２は、重畳態様Ｃに基づき、対象領域に含まれる各領域に対し、他の対象領域が重畳する数に応じて算出したスコアを付与する。そして、抽出部４２は、スコアを付与した領域のうち、スコアが最も高い領域を識別領域として抽出する。具体的な例を挙げると、図１の例において、抽出部４２は、対象領域Ａ１－２及びＡ１－２に含まれる各領域のうち、最も高いスコアを付与した領域ＡＲ１－１を識別領域として抽出する。また、抽出部４２は、対象領域Ａ２－１～Ａ２－３に含まれる各領域のうち、最も高いスコアを付与した領域ＡＲ２－１を識別領域として抽出する。なお、抽出部４２は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の閾値以上である対象領域を識別領域として抽出してもよい。

また、抽出部４２は、対象領域ごとに、重畳した他の対象領域の数に１を合計した値を、抽出画像の数で除算したスコアを算出してもよい。例えば、図１の例において、抽出部４２は、対象領域Ａ２－１に含まれる領域に重畳する他の対象領域の数に１を合計した数を、抽出画像の数で除算したスコアを、対象領域Ａ２－１の各領域に付与する。

また、抽出部４２は、対象領域ごとに、当該対象領域と重畳する他の対象領域の数に１を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出してもよい。例えば、図１の例において、抽出部４２は、対象領域Ａ１－２に含まれる領域に重畳する他の対象領域の数に１を合計した数を、当該領域を含む抽出画像の数で除算したスコアを、対象領域Ａ１－２の各領域に付与する。

また、抽出部４２は、対象領域ごとに、当該対象領域に含まれる画素数が多い程より高い値のスコアを算出してもよい。例えば、抽出部４２は、動画像から抽出した抽出画像の画素数、若しくは、対象領域の画素数が多い程、対象領域と、撮影対象とが対応する確度を示すスコアを高く算出する。具体的な例を挙げると、抽出部４２は、対象領域ごとに算出したスコアに対し、対応する画素数に応じた値を乗算する。

なお、抽出部４２は、対象領域ごとに、当該対象領域に含まれる画像数が多い程より高い値のスコアを算出してもよい。例えば、抽出部４２は、動画像から抽出した抽出画像の数、若しくは、対象領域を含む抽出画像の数が多い程、当該対象領域と、撮影対象とが対応する確度を示すスコアを高く算出する。

（識別部４３について）
識別部４３は、複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。例えば、図１の例において、識別部４３は、対象領域から算出する特徴量であって、重畳態様Ｃに応じた重み付けを行った特徴量に基づいて、対象領域に含まれる撮影対象を識別する。

また、識別部４３は、識別領域に含まれる撮影対象を識別してもよい。例えば、図１の例において、識別部４３は、対象領域Ａ１－１、並びに、対象領域Ａ１－１に重畳する対象領域Ａ１－２に含まれる領域のうち、識別領域として抽出された領域ＡＲ１－１の特徴量に基づいて、領域ＡＲ１－１に含まれる撮影対象（言い換えると、対象領域Ａ１－１及びＡ１－２に含まれる撮影対象）を識別する。また、図１の例において、識別部４３は、対象領域Ａ２－１、並びに、対象領域Ａ２－１に重畳する対象領域Ａ２－２及びＡ２－３に含まれる領域のうち、識別領域として抽出された領域ＡＲ２－１の特徴量に基づいて、領域ＡＲ２－１に含まれる撮影対象（言い換えると、対象領域Ａ２－１～Ａ２－３に含まれる撮影対象）を識別する。

また、識別部４３は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、識別部４３は、各抽出画像に含まれる対象領域のうち、同一種別と特定された撮影対象が含まれる各対象領域（言い換えると、同一の撮影対象を含むと特定された各対象領域）が重畳する態様に基づいて、当該撮影対象を識別する。

また、識別部４３は、重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別してもよい。例えば、図１の例において、対象領域Ａ２－１の種別が「梨」、対象領域Ａ２－２及びＡ２－３の種別が「リンゴ」と特定された場合、対象領域Ａ２－１～Ａ２－３に含まれる撮影対象（物体Ｍ２）を「リンゴ」と識別する。

また、識別部４３は、同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、図１の例において、識別部４３は、物体Ｍ１が含まれる対象領域Ａ１－１及びＡ１－２が重なり、物体Ｍ２が含まれる対象領域Ａ２－１～Ａ２－３が重なるように抽出画像Ｐ１～Ｐ４を重畳した場合の重畳態様を特定し、特定した重畳態様に基づいて、対象領域Ａ１－１及びＡ１－２に含まれる撮影対象と、対象領域Ａ２－１～Ａ２－３に含まれる撮影対象とを特定する。なお、識別部４３は、同一種別の撮影対象が含まれる対象領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。

また、識別部４３は、複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、図１の例において、識別部４３は、抽出画像Ｐ１～Ｐ４のそれぞれに含まれる特徴点を照合し、抽出画像Ｐ１～Ｐ４間で一致する特徴点ＰＴを抽出する。そして、識別部４３は、抽出画像Ｐ１～Ｐ４のそれぞれに含まれる特徴点ＰＴの位置が一致するように抽出画像Ｐ１～Ｐ４を重畳させた重畳態様Ｃに基づいて、対象領域に含まれる撮影対象を識別する。

また、識別部４３は、複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別してもよい。例えば、図１の例において、識別部４３は、抽出画像Ｐ１～Ｐ４に撮影された撮影対象の時間的に連続する動きをベクトル解析（例えば、オプティカルフローの技術を用いて解析）した解析結果を用いて、同一の撮影対象が撮影された領域が重なるように抽出画像Ｐ１～Ｐ４を重畳させた重畳態様を特定する。そして識別部４３は、特定した重畳態様に基づき、対象領域に含まれる撮影対象を識別する。

（提供部４４について）
提供部４４は、撮影対象の識別結果を提供する。例えば、図１の例において、提供部４４は、物体Ｍ１及び物体Ｍ２の名称を示す情報を端末装置１００に提供する。

〔３．識別処理のフロー〕
図６を用いて、実施形態に係る情報提供装置１０の識別処理の手順について説明する。図６は、実施形態に係る識別処理の手順の一例を示すフローチャートである。

図６に示すように、情報提供装置１０は、端末装置１００から動画像を取得する（ステップＳ１０１）。続いて、情報提供装置１０は、動画像から抽出した抽出画像ごとに、撮影対象が含まれる対象領域を特定する（ステップＳ１０２）。続いて、情報提供装置１０は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する（ステップＳ１０３）。例えば、情報提供装置１０は、対象領域のうち、重畳する他の対象領域の数が最も多い領域を識別領域として抽出する。

続いて、情報提供装置１０は、識別領域に含まれる撮影対象を識別する（ステップＳ１０４）。例えば、情報提供装置１０は、識別領域として抽出された領域の特徴量に基づいて、識別領域に含まれる撮影対象を識別する。続いて、情報提供装置１０は、識別結果に応じた情報を端末装置１００に提供し（ステップＳ１０５）、処理を終了する。

〔４．変形例〕
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。

〔４－１．抽出画像について〕
上述の実施形態において、特定部４１が、動画像から抽出された複数の抽出画像から対象領域を特定する例を示したが、特定部４１の機能はこのような例に限定されない。例えば、特定部４１は、撮影対象を連続撮影した各画像から対象領域を特定してもよい。また、特定部４１が対象領域を特定する各画像は、同一の撮影対象を含むものであれば、時系列が連続していなくともよい。

〔４－２．対象領域について〕
上述の実施形態において、特定部４１が、撮影対象が含まれる矩形を対象領域として抽出画像から特定する例を示したが、特定部４１の機能はこのような例に限定されず、任意の形状の対象領域を特定してよい。例えば、特定部４１は、ピクセル単位で表現される領域を対象領域として特定してもよい。

〔４－３．抽出画像の重畳について〕
上述の実施形態において、各抽出画像に含まれる特徴点や、撮影対処の動きを示すベクトルに基づいて複数の抽出画像を重畳させる例を示したが、抽出画像を重畳させる手法はこのような例に限定されず、同一の撮影対象を含む対象領域が重畳する任意の手法が用いられてよい。例えば、重畳する対象領域に含まれる撮影対象が同一種別となるように、各抽出画像を重畳させてもよい。また、色相や明度、彩度等が一致するように各抽出画像を重畳させてもよい。

〔５．効果〕
上述してきたように、実施形態に係る情報提供装置１０は、特定部４１と、抽出部４２と、識別部４３と、提供部４４とを有する。特定部４１は、動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。また、特定部４１は、動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する。抽出部４２は、対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する。識別部４３は、複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、識別部４３は、識別領域に含まれる撮影対象を識別する。提供部４４は、撮影対象の識別結果を提供する。

これにより、実施形態に係る情報提供装置１０は、複数の画像から特定された対象領域に基づき撮影対象を識別できるため、画像を用いた検索の検索精度を向上させることができる。

また、実施形態に係る情報提供装置１０において、例えば、抽出部４２は、対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出する。また、抽出部４２は、対象領域ごとに、重畳した他の対象領域の数に１を合計した値を、抽出画像の数で除算したスコアを算出する。また、抽出部４２は、対象領域ごとに、当該対象領域と重畳する他の対象領域の数に１を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出する。また、抽出部４２は、対象領域ごとに、当該対象領域に含まれる画像数が多い程より高い値のスコアを算出する。

これにより、実施形態に係る情報提供装置１０は、重畳の態様に応じて算出するスコアを用いて識別領域を抽出することにより、対象領域に含まれる領域と、撮影対象とが対応する確度が高い領域を抽出して撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。

また、実施形態に係る情報提供装置１０において、例えば、特定部４１は、対象領域に含まれる撮影対象の種別をさらに特定する。そして、識別部４３は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、特定部４１は、対象領域に含まれる撮影対象の種別をさらに特定する。そして、識別部４３は、重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別する。また、識別部４３は、同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。

これにより、実施形態に係る情報提供装置１０は、同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。

また、実施形態に係る情報提供装置１０において、例えば、識別部４３は、複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。また、識別部４３は、複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する。

これにより、実施形態に係る情報提供装置１０は、各抽出画像に含まれる対象領域のうち対応するものを重畳させ、撮影対象の識別を行うことができるため、画像を用いた検索の検索精度を向上させることができる。

〔６．ハードウェア構成〕
また、上述してきた各実施形態に係る情報提供装置１０は、例えば、図７に示すような構成のコンピュータ１０００によって実現される。以下、情報提供装置１０を例に挙げて説明する。図７は、情報提供装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス１５００は、通信網５００（実施形態のネットワークＮに対応する）を介して他の機器からデータを受信してＣＰＵ１１００へ送り、また、通信網５００を介してＣＰＵ１１００が生成したデータを他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して生成したデータを出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラム又はデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が情報提供装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。また、ＨＤＤ１４００には、情報提供装置１０の記憶装置内の各データが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

〔７．その他〕
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した情報提供装置１０は、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、特許請求の範囲に記載した「部」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。

１０情報提供装置
２０通信部
３０記憶部
３１画像データベース
４０制御部
４１特定部
４２抽出部
４３識別部
４４提供部
１００端末装置

Claims

動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定部と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出部と、
前記識別領域に基づいて、前記識別領域に含まれる撮影対象を識別する識別部と
を有することを特徴とする識別装置。
前記抽出部は、
前記対象領域ごとに、重畳した他の対象領域の数が多い程高い値のスコアを算出し、算出したスコアが所定の条件を満たす対象領域を識別領域として抽出する
ことを特徴とする請求項１に記載の識別装置。
前記抽出部は、
前記対象領域ごとに、重畳した他の対象領域の数に１を合計した値を、前記抽出画像の数で除算したスコアを算出する
ことを特徴とする請求項２に記載の識別装置。
前記抽出部は、
前記対象領域ごとに、当該対象領域と重畳する他の対象領域の数に１を合計した値を、当該対象領域と重畳する領域を有する抽出画像の数で除算したスコアを算出する
ことを特徴とする請求項２に記載の識別装置。
前記抽出部は、
前記対象領域ごとに、当該対象領域に含まれる画素数が多い程より高い値のスコアを算出する
ことを特徴とする請求項２～４のうちいずれか１つに記載の識別装置。
前記特定部は、
前記対象領域に含まれる撮影対象の種別をさらに特定し、
前記識別部は、
同一種別の撮影対象が含まれる対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項１～５のうちいずれか１つに記載の識別装置。
前記特定部は、
前記対象領域に含まれる撮影対象の種別をさらに特定し、
前記識別部は、
重畳する対象領域のうち最も多くの対象領域に含まれる撮影対象の種別を特定し、当該重畳する対象領域から、特定した種別の撮影対象を識別する
ことを特徴とする請求項１～５のうちいずれか１つに記載の識別装置。
前記識別部は、
同一の撮影対象が撮影された領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項１～７のうちいずれか１つに記載の識別装置。
前記識別部は、
前記複数の抽出画像の各領域のうち、特徴量が類似する領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項８に記載の識別装置。
前記識別部は、
前記複数の抽出画像に撮影された撮影対象の動きを示すベクトルを用いて同一の撮影対象が撮影された領域が重なるように前記複数の抽出画像を重畳した場合に各対象領域が重畳する態様に基づいて、各対象領域に含まれる撮影対象を識別する
ことを特徴とする請求項８または９に記載の識別装置。
前記特定部は、
動画像から抽出された複数の抽出画像であって、時系列が連続する複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する
ことを特徴とする請求項１～１０のうちいずれか１つに記載の識別装置。
識別装置が実行する識別方法であって、
動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定工程と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出工程と、
前記識別領域に基づいて、前記識別領域に含まれる撮影対象を識別する識別工程と
を含むことを特徴とする識別方法。
動画像から抽出された複数の抽出画像ごとに、撮影対象が含まれる対象領域を特定する特定手順と、
前記対象領域のうち、他の対象領域と重畳する態様が所定の条件を満たす領域を識別領域として抽出する抽出手順と、
前記識別領域に基づいて、前記識別領域に含まれる撮影対象を識別する識別手順と
をコンピュータに実行させることを特徴とする識別プログラム。