JP2017049891A

JP2017049891A - 物体領域特定方法、装置、及びプログラム

Info

Publication number: JP2017049891A
Application number: JP2015174036A
Authority: JP
Inventors: 周平田良島; Shuhei Tarashima; 豪入江; Takeshi Irie; 啓之新井; Hiroyuki Arai; 行信谷口; Yukinobu Taniguchi; 真一佐藤; Shinichi Sato
Original assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Priority date: 2015-09-03
Filing date: 2015-09-03
Publication date: 2017-03-09
Anticipated expiration: 2035-09-03
Also published as: JP6448036B2

Abstract

【課題】画像に含まれる対象物体を精度よく特定することができる。
【解決手段】候補領域抽出部２４が、複数の画像の各々から対象物体の候補領域を抽出する。特徴量抽出部２６が、抽出された候補領域の各々から特徴量を抽出する。重複度算出部２８が、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出する。モデル推定部３２が、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定する。最適化部３４が、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数を含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。
【選択図】図３

Description

本発明は、物体領域特定方法、装置、及びプログラムに関する。

画像共有サイトの普及や検索エンジンの高度化に伴い、ウェブ上にアップロードされた大規模な画像データへ容易にアクセスすることが可能になってきている。例えばウェブ検索エンジンで任意の物体（例えば「飛行機」「犬」など）のキーワード画像検索を行えば、その物体が写った複数の画像データを得ることが可能である。こうして得られる「多くの画像にある物体が共通して写る画像群」を入力として、その共通する物体(以下、対象物体)に関する“辞書”を自動で構築する技術が近年活発に提案されている。

例えば、画像集合に含まれる各画像から矩形の候補領域を複数抽出し、候補領域の対象物体らしさおよび候補領域間の類似度を同時に評価、最適化することで、画像群に多く含まれる対象物体を最もよく捉えた候補領域を各画像から一つずつ選択する技術が開示されている（例えば、非特許文献１）。非特許文献１の技術において、自動構築される辞書とは選択された候補領域（画像中の矩形領域）の集合である。これを辞書として用いることで、入力画像群をそのまま用いるよりもより正確な、対象物体に関する辞書を構築することが可能となっている。

同様の技術として、例えばウェブ画像検索結果に代表される、画像集合の一部に対象物体を含まない画像が混在するような画像集合からも正確に対象物体領域を特定するため、画像間の類似性/識別性に基づき画像に対象物体が含まれるか否かを評価する項と、各画像から複数抽出される候補領域間の類似性/識別性に基づき、どの候補領域が最もよく対象物体を捉えているかを評価する項とを含む二次計画問題を解くことで、対象物体を含まない画像の発見および除去と、対象物体を含む画像についてはその領域の特定（画像内の矩形候補領域を一つ選択）とを同時に行う方法が開示されている（例えば、非特許文献２）。

ここで、上記の辞書自動構築技術の出力として得られる画像領域集合(以下、物体領域集合)が、対象物体の辞書として具備すべき条件を考えると、それは以下の２点であると言える。

（ｉ）個々の領域が対象物体の「個体」を捉えていること
（ｉｉ）物体領域集合が、画像集合中に含まれる対象物体を網羅的に捉えていること

（ｉ）は、例えば画像中に複数の対象物体が含まれていたときに、得られた各画像領域が物体個々の領域を捉えられていることを指している。例えば物体検出などのアプリケーションを実現するための学習データとして上記辞書を用いる場合を考えれば、（ｉ）の条件が不可欠であることは明らかである。また通常一般物体は、個体によりその外見が異なるとともに、画像中で様々な見え（方向や大きさ、照明条件など）で写り込んでいることが想定される。これらの個体差/見えの変化に頑健な辞書を構築するためには、様々な個体に関する様々な見えの事例を辞書に含める必要がある。（ｉｉ）は、これを自動で実現するために不可欠な条件である。

T. Deselaers et al., "Weakly Supervised Localization and Learning with Generic Knowledge", in IJCV, 2012. K. Tang et al., "Co-localization in Real-World Images", in Proc. CVPR, 2014.

しかし、上記の条件に照らし合わせると、上記非特許文献１および上記非特許文献２に記載の技術は、必ずしもこれらの条件を満たしていないことがわかる。上記非特許文献１および上記非特許文献２に記載の技術は、いずれも、集合中の各画像から対象物体領域を最も正しく捉えていると考えられる領域を最大一つ選択する問題として定式化されている。

仮に集合中の各画像に対象物体が２つ以上含まれないことが保証されているのであれば、上記技術は条件（ｉ）（ｉｉ）を満たしているものの、例えば図９に示した入力画像のように、対象物体（ここでは犬）が画像中に複数含まれている場合は、公知の技術は画像中の全ての対象物体を捉えることができず、よって条件（ｉｉ）が満たされないという問題がある。更には、図９中の入力画像（ｃ）のように、対象物体間にオクルージョンが発生している場合、公知の技術では各画像から得られる候補領域各々がどの程度物体の個体を正しく捉えてられているかを全く評価していないため、図９の右側のように、複数の物体が連結した候補領域が結果として出力されてしまうことがある。したがって（ｉ）の条件も必ずしも満たされてはいないという問題がある。

以上から明らかなように、「多くの画像にある物体が共通して写る画像群」を入力として、対象物体に関する“辞書”を自動構築する公知の技術には、（１）入力集合中の画像に複数の対象物体が含まれる場合にそれら網羅的に捉えることができず、（２）また選択される物体領域が必ずしも対象物体個体を捉えられていないという２つの問題があった。

本発明は、上記の事情に鑑みてなされたもので、画像に含まれる対象物体を精度よく特定することができる物体領域特定方法、装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の物体領域特定方法は、候補領域抽出部、特徴量抽出部、重複度算出部、モデル推定部、及び最適化部を含み、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置における物体領域特定方法であって、前記候補領域抽出部が、前記複数の画像の各々から前記対象物体の候補領域を抽出するステップと、前記特徴量抽出部が、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出するステップと、前記重複度算出部が、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出するステップと、前記モデル推定部が、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するステップと、前記最適化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップと、を含み、前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する。

本発明の物体領域特定装置は、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置であって、前記複数の画像の各々から前記対象物体の候補領域を抽出する候補領域抽出部と、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出する特徴量抽出部と、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出する重複度算出部と、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するモデル推定部と、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出する最適化部と、を含み、前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する。

また、物体領域初期化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度とに基づいて、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップを更に含み、前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定するようにしてもよい。

また、収束判定部が、収束条件が満たされるまで、前記モデル推定部による推定及び前記最適化部による抽出を繰り返すステップを更に含み、前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合、又は前記最適化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定するようにしてもよい。

本発明のプログラムは、上記物体領域特定方法の各ステップをコンピュータに実行させるためのプログラムである。

以上説明したように、本発明の物体領域特定方法、装置、及びプログラムによれば、複数の画像の各々から抽出された対象物体の候補領域の各々に対し、候補領域から特徴量を抽出し、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出し、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定し、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出することにより、画像に含まれる対象物体を精度よく特定することができる、という効果が得られる。

本発明の実施の形態の概要を説明するための説明図である。本発明の実施の形態の概要を説明するための説明図である。本実施の形態に係る物体領域特定装置の機能的な構成例を示すブロック図である。画像の対応付けを概念的に示した図である。本実施の形態に係る物体領域特定装置の候補領域抽出部を説明するための説明図である。本実施の形態に係る物体領域特定装置の物体領域初期化部を説明するための説明図である。本実施の形態に係る物体領域特定装置のモデル推定部を説明するための説明図である。本実施の形態に係る物体領域特定装置の最適化部を説明するための説明図である。本実施の形態における物体領域特定処理ルーチンを示すフローチャートである。従来の画像セグメンテーション技術を用いて画像から物体領域を抽出した場合の一例を示す図である。

以下、図面を参照して、本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞

まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、膨大な画像中の物体領域を自動で特定する技術に関する。

本発明の実施の形態では、ウェブ画像群に代表される“容易に取得可能だが雑多な画像群”から、認識に有効な画像領域（例えば、対象物体個々の領域）を自動で特定する。

図１に、本発明の実施の形態の概要を説明するための図を示す。図１に示すように、上記の画像群（キーワード“飛行機”で得られた画像群）は、以下の（１）〜（３）に示す点で雑多である。

（１）飛行機を直接含まない画像が混在している。
（２）様々な見えの物体(plane)が含まれている。
（３）画像あたり複数の物体が含まれている（オクルージョン発生）。

本発明の実施の形態によれば、ウェブ検索の結果をそのまま用いるよりも、白枠で囲われた領域を物体領域として特定し、教師データとして用いることで、より高精度な認識を実現することができる。

図２に、本発明の実施の形態の概要を説明するための図を示す。本発明の実施の形態では、以下の（１）〜（３）を同時に考慮することで、図２に示すような対象物体の個体を捉えた領域が特定可能となる。

（１）候補領域の対象物体らしさ
（２）候補領域間の類似度
（３）選択された領域間の重複していない度合

また、本実施の形態では、対象物体のモデル推定と上記最適化とを交互に繰り返すことで、候補領域の集合中の対象物体の領域を網羅的に特定可能とする。

具体的に、上記の課題（２）「選択される物体領域が物体個体を捉えられていない」ことを解決する本実施の形態の第１のアイデアは、各画像中の候補領域のうち物体個体をよく捉えているものを選択するために、候補領域の対象物体らしさと、候補領域間の見た目の類似度と、対象物体領域として選択された候補領域間が“空間的に重複していない”度合の３つの要素を同時に考慮して候補領域を選択するという点にある。

候補領域の対象物体らしさと、候補領域間の類似度の２要素を同時に評価することは上記非特許文献１でも行われているが、一般に、公知の技術で算出できる対象物体らしさは候補領域に実際に含まれる物体の数とはほぼ無関係であり、したがって物体単体を捉えた候補領域のみならず、物体を複数捉えてしまっている候補領域も同時に物体領域として選択してしまうという問題がある。

本発明の実施の形態においては、対象物体単体を捉えた理想的な候補領域間では、空間的重複は発生しないという事実に基づき、公知の技術で考慮されていた要素に加え、選択された候補領域間が空間的に重複していない度合を評価する指標も同時に考慮する。これにより、対象物体らしい候補領域の中でも、特に物体単体を捉えた候補領域の集合を選択することが可能になる。

上記のようにして選択された候補領域の集合に基づいて対象物体のモデルを推定することと、推定されたモデルに基づいて候補領域の集合の中から対象物体個体を捉えた物体領域集合を選択することは相補的であると考えられる。上記の課題（１）「画像中に複数の対象物体が含まれるとき、網羅的にそれらを特定することができない」を解決する本実施の形態の第２のアイデアは、本発明の実施の形態の第１のアイデアに基づく候補領域の選択と、選択された候補領域の集合に基づくモデルの構築を交互に実施することである。これによって、画像集合中で正しく特定される対象物体の網羅性と、対象物体のモデルの頑健性を共に向上させることができる。

上記の２つのアイデアによって、本発明の実施の形態では、入力された画像集合の画像に複数の対象物体が含まれていても、複数の対象物体を網羅的に、対象物体個体を捉えつつその領域を特定することができる。

＜本発明の実施の形態に係る物体領域特定装置の構成＞
本発明の実施の形態に係る物体領域特定装置１００は、ＣＰＵ（Central Processing Unit）と、ＣＰＵが後述する各処理ルーチンを実行するためのプログラム等を記憶したＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、を備えたコンピュータで構成することができる。この物体領域特定装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部４０とを備えている。物体領域特定装置１００は、複数の画像の各々について、当該画像に含まれる対象物体の領域を特定する。

入力部１０は、複数の画像を受け付ける。

演算部２０は、画像集合データベース２２と、候補領域抽出部２４と、特徴量抽出部２６と、重複度算出部２８と、物体領域初期化部３０と、モデル推定部３２と、最適化部３４と、収束判定部３６とを備える。

画像集合データベース２２には、入力部１０によって受け付けられた複数の画像が格納される。

候補領域抽出部２４は、画像集合データベース２２に格納された複数の画像の各々から、対象物体の候補領域を抽出する。

具体的には、候補領域抽出部２４は、画像集合データベース２２に格納されたＮ枚の画像集合Ｉ＝｛Ｉ_ｉ｝_ｉ＝１ ^Ｎに含まれる各画像Ｉ_ｉから、候補領域の集合ｘ_ｉｊ∈Ｘ_ｉを抽出する。ここで抽出される候補領域は互いに重複してよいものとする。また、ｊは候補領域のインデックスを表す。

候補領域を抽出する方法としては、例えば以下の参考文献１又は参考文献２で開示されている物体候補領域抽出手法を各画像に適用し、得られた全候補領域のうち、同時に算出される対象物体らしさが高い領域を上位Ｍ個抽出するなどすればよい。

［参考文献１］P. Arbelaez et al.,“Multiscale Combinatorial Grouping”, in Proc. CVPR, 2014.
［参考文献２］M.-M. Cheng et al.,“BING: Binarized Normed Gradients for Objectness Estimation at 300fps”, in Proc. CVPR, 2014.

または、候補領域抽出部２４は、上記各候補領域の対象物体らしさは、画像中での各候補領域の顕著性（saliency）を評価し、顕著性を表す値を以って対象物体らしさを定義してもよい。具体的には、候補領域抽出部２４は、まず、例えば参考文献３で開示されている物体顕著性算出処理を各画像に適用し、顕著性マップ（画像中各ピクセルに対して顕著性スコアが算出されたマップ）を得る。そして、候補領域抽出部２４は、候補領域に含まれるピクセルの顕著性スコアの平均値を、各候補領域の対象物体らしさｓ_ｉｊとして求めればよい。

［参考文献３］F. Perazzi et al., Saliency Filters: Contrast Based Filtering for Salient Region Detection, in Proc. CVPR, 2012.

本実施の形態では、候補領域抽出部２４は、図４に示すように、候補領域ｘ_ｉｊの各々について、当該候補領域の対象物体らしさｓ_ｉｊを算出する。そして、候補領域抽出部２４は、対象物体らしさｓ_ｉｊが高い領域を上位Ｍ個抽出し、候補領域の集合を抽出する。

特徴量抽出部２６は、候補領域抽出部２４によって複数の画像の各々から抽出された候補領域の各々に対し、候補領域から特徴量を抽出する。

具体的には、特徴量抽出部２６は、候補領域抽出部２４による候補領域の抽出処理で得られた各画像の各候補領域ｘ_ｉｊから画像特徴量ｆ_ｉｊを算出する。任意の画像特徴量としては、例えば以下の参考文献４〜７に示すような、ＳＰＭ、ＶＬＡＤ、ＧＩＳＴ、ＲＣＮＮといったものを用いることができる。

［参考文献４］S. Lazebnik et al., “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories”, in CVPR, 2006.
［参考文献５］H. Jegou et al., “Aggregating local descriptors into a compact image representation”, in CVPR, 2010.
［参考文献６］A. Oliva et al., “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope”, in IJCV, 2001.
［参考文献７］R. Girshick et al., “Rich feature hierarchies for accurate object detection and semantic segmentation”, in Proc. CVPR, 2014.

重複度算出部２８は、候補領域抽出部２４によって同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出する。

具体的には、重複度算出部２８は、候補領域抽出部２４による候補領域の抽出処理で得られた画像内の候補領域の集合の各ペアについて、候補領域の重複度を算出する。候補領域ｘ_ｉｊとｘ_ｉｊ’の重複度Ｊ（ｘ_ｉｊ，ｘ_ｉｊ’)は、例えば以下の式（１）のＪａｃｃａｒｄ類似度で算出することができる。

ここでｂ_ｉｊは候補領域ｘ_ｉｊに対応するバイナリマスクである。バイナリマスクとしては、例えば、候補領域を１、候補領域とは異なる領域を０とするバイナリマスクを用いることができる。

物体領域初期化部３０は、特徴量抽出部２６によって候補領域の各々に対して抽出された特徴量と、重複度算出部２８によって候補領域のペアの各々に対して算出された重複度とに基づいて、候補領域抽出部２４によって抽出された候補領域の集合から、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出し、物体領域集合の初期化を行う。物体領域集合は、候補領域の集合から抽出された部分集合である。

具体的には、物体領域初期化部３０は、図５に示すように、候補領域抽出部２４によって抽出された候補領域の集合から、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出する。

例えば、物体領域初期化部３０は、特徴量抽出部２６によって候補領域の各々に対して抽出された特徴量と、重複度算出部２８によって候補領域のペアの各々に対して算出された重複度とに基づいて、予め定められた関数を最適化するように、候補領域抽出部２４によって抽出された候補領域の集合から物体領域集合を抽出する。

本実施の形態では、予め定められた関数は、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む。

具体的には、物体領域初期化部３０は、初期化の時点で画像内候補領域間の空間重複度を考慮し、候補領域の集合

を入力として、「対象物体らしさが高く、互いに類似しかつ空間的に最小限しか重複しない」ような候補領域の集合の部分集合を選択することを目的として、以下の式（２）で定義される関数を最小化するようなラベル集合

を求めればよい。なおラベルｙ_ｉｊは、１のとき対象物体を表す領域として選択されていること、０のとき対象物体を表す領域として選択されていないことを意味している。

上記式（２）の右辺第１項は、物体領域集合に含まれる候補領域の対象物体らしさを表す関数である。当該関数は、候補領域抽出部２４で得られる各候補領域ｘ_ｉｊの対象物体らしさの値ｓ_ｉｊを用いて、例えば

と定義することができる。βはパラメータである。

右辺第２項は、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数であり、候補領域間の見た目の類似性を評価する項である。物体領域集合に含まれる候補領域間の類似度合いを表す関数は、特徴量抽出部２６で算出される各候補領域ｘ_ｉｊの特徴量ｆ_ｉｊを用いて、例えば

のように定義することができる。λ_Ψ、σ_Ψはパラメータ、μ_Ψは候補領域ｘ_ｉｊ，ｘ_ｉ’ｊ’のラベル互換性を評価する項であり、例えば

のように定義することができる。μ_Ψは、候補領域ｘ_ｉｊと候補領域ｘ_ｉ’ｊ’とのラベルが異なるときに１、候補領域ｘ_ｉｊと候補領域ｘ_ｉ’ｊ’とのラベルが同じときに０をとる変数である。

右辺第３項は、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数であり、候補領域間の重複していない度合を評価する項である。物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数は、重複度算出部２８で得られる候補領域間の重複度Ｊ（ｘ_ｉｊ，ｘ_ｉｊ’）を用いて、例えば

のように定義することができる。λ_Ω、σ_Ωはパラメータ、μ_Ωは候補領域ｘ_ｉｊ，ｘ_ｉ’ｊ’のラベル互換性を評価する項であり、例えば

のように定義することができる。μ_Ωは候補領域ｘ_ｉｊと候補領域ｘ_ｉ’ｊ’とのラベルが共に１のとき１、それ以外で０をとる変数である。また、上記式（２）の右辺第２項及び右辺第３項における

は、ｉ＝ｉ'かつｊ＝ｊ’とは異なるｉ，ｉ'，ｊ，及びｊ’の組み合わせについて総和を取ることを表す。

上記式（２）は公知のアルゴリズム、例えばBelief PropagationやTRW-Sといった方法を用いて解くことができる。

モデル推定部３２は、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定する。また、モデル推定部３２は、後述する最適化部３４の最適化処理によって抽出された物体領域集合に基づいて、モデルを推定する。

具体的には、モデル推定部３２は、図６に示されるように、物体領域初期化部３０によって初期化された物体領域集合、又は後述する最適化部３４によって抽出された物体領域集合を用いて、対象物体を表すか否かを識別するためのモデルｚを推定する。モデルは任意のモデルを用いることが可能で、例えばＧＭＭやＬａｔｅｎｔＳＶＭ、線形ＳＶＭなどを用いることができる。例えば線形ＳＶＭを用いる場合、具体的には線形ＳＶＭのモデルパラメータｗを、選択された候補領域の部分集合に対応する特徴量集合を正例として学習する。

ここで用いられる特徴量は、特徴量抽出部２６で抽出したものを用いてもよいし、あるいは新たに抽出してもよい。また、負例の選択は任意であり、例えば選択された部分集合以外の候補領域から抽出された特徴量の平均として与えてもよいし、全く外部の画像から集中した特徴量を用いてもよい。

最適化部３４は、特徴量抽出部２６によって候補領域の各々に対して抽出された特徴量と、重複度算出部２８によって候補領域のペアの各々に対して算出された重複度と、モデル推定部３２によって推定されたモデルとに基づいて、予め定められた目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。

本実施の形態では、予め定められた目的関数は、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む。

具体的には、最適化部３４は、候補領域の抽出処理で得られた候補領域の集合

の中から、対象物体個体の領域をよく捉えた候補領域の部分集合である物体領域集合を抽出する。ここで物体領域集合は、候補領域抽出部２４、特徴量抽出部２６、重複度算出部２８、及びモデル推定部３２の結果に基づいて、「対象物体らしさが高く、互いに類似しかつ空間的に最小限しか重複しない」ような候補領域の集合の部分集合を選択する最適化問題を解くことによって得るものとする。

上記を満たす最適化は、例えば以下の式（６）で定義される目的関数を最小化するようなラベル集合

を求める問題として定式化し、以下の式（６）を解けばよい。図７に、以下の式（６）の目的関数を示す。

上式の右辺第１項は、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数であり、例えば各候補領域の対象物体らしさを評価する項である。例えば、物体領域集合に含まれる候補領域の対象物体らしさを表す関数は、候補領域抽出部２４で算出される各候補領域ｘ_ｉｊについて得られる対象物体らしさの値ｓ_ｉｊ、モデル推定部３２で得られるモデルｚ、およびモデル推定に用いた特徴量ｆ_ｉｊを用いて

と定義することができる。ｗはモデルｚを線形ＳＶＭとして推定したときのモデルパラメータ、β’はパラメータである。

上記式（６）の右辺第２項及び第３項は、例えば上記式（４）及び上記式（５）と同様に定義すればよい。上記式（６）の右辺第２項は、特徴量を用いた、物体領域集合に含まれる前記候補領域間の類似度合いを表す関数である。また、上記式（６）の右辺第３項は、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数である。また、上記式（６）は上記式（２）同様、belief propagationやTRW-Sといった公知のアルゴリズムで解くことができる。

収束判定部３６は、予め定められた収束条件が満たされるまで、モデル推定部３２による推定及び最適化部３４による抽出を繰り返す。

具体的には、収束判定部３６は、最適化部３４による処理の結果得られた物体領域集合に基づき、収束判定を行う。収束したと判定された場合、得られた物体領域集合が、後述する出力部４０で結果として出力される。収束していないと判定された場合、得られた物体領域集合に基づきモデル推定部３２以降の処理が繰り返される。

収束判定の条件は任意であり、例えば直前の最適化部３４で得られた物体領域集合とその１ステップ前に得られた物体領域集合とに変化がないことを収束条件としたり、あるいはモデル推定部３２と最適化部３４の繰り返し回数がパラメータｔを超えたことを収束条件とすればよい。パラメータｔは任意であり、例えばｔ＝５などと設定すればよい。

出力部４０は、最適化部３４によって得られた物体領域集合を結果として出力する。

＜本発明の実施の形態に係る物体領域特定装置の作用＞
次に、本発明の実施の形態に係る物体領域特定装置１００の作用について説明する。入力部１０より複数の画像が入力されると、物体領域特定装置１００は、図８に示す物体領域特定処理ルーチンを実行する。

ステップＳ１００において、入力部１０は、複数の画像を受け付け、画像集合データベース２２に格納する。

ステップＳ１０２において、候補領域抽出部２４は、上記ステップＳ１００で画像集合データベース２２に格納された複数の画像の各々から、対象物体の候補領域を抽出する。

ステップＳ１０４において、特徴量抽出部２６は、上記ステップＳ１０２で複数の画像の各々から抽出された候補領域の各々に対し、候補領域から特徴量を抽出する。

ステップＳ１０６において、重複度算出部２８は、上記ステップＳ１０２で同じ画像から抽出された候補領域のペアの各々に対し、上記式（１）に従って、候補領域間の重複度を算出する。

ステップＳ１０８において、物体領域初期化部３０は、上記ステップＳ１０４で候補領域の各々に対して抽出された特徴量と、上記ステップＳ１０６で候補領域のペアの各々に対して算出された重複度とに基づいて、上記ステップＳ１０２で抽出された候補領域の集合から、上記式（２）で定義される関数を最小化するように、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出し、物体領域集合の初期化を行う。

ステップＳ１１０において、モデル推定部３２は、上記ステップＳ１０８で初期化された物体領域集合又は後述するステップＳ１１２で前回抽出された物体領域集合に基づいて、特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定する。

ステップＳ１１２において、最適化部３４は、上記ステップＳ１０４で候補領域の各々に対して抽出された特徴量と、上記ステップＳ１０６で候補領域のペアの各々に対して算出された重複度と、上記ステップＳ１１０で推定されたモデルとに基づいて、上記式（６）に示す目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。

ステップＳ１１４において、収束判定部３６は、予め定められた収束条件が満たされたか否かを判定する。収束条件が満たされた場合には、ステップＳ１１６へ進む。一方、収束条件が満たされていない場合には、ステップＳ１１０へ進む。

ステップＳ１１６において、出力部４０は、上記ステップＳ１１２で得られた物体領域集合を結果として出力して、物体領域特定処理ルーチンを終了する。

以上説明したように、本発明の実施の形態に係る物体領域特定装置によれば、複数の画像の各々から抽出された対象物体の候補領域の各々に対し、候補領域から特徴量を抽出し、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出し、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定し、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出することにより、画像に含まれる対象物体を精度よく特定することができる。

また、画像に複数の対象物体が含まれていても、複数の対象物体を網羅的に、対象物体の個体を捉えつつ対象物体の個体の領域を特定することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記実施の形態では、物体領域集合を初期化する方法として、予め定められた関数を最適化するように、候補領域抽出部２４によって抽出された候補領域の集合から物体領域集合を抽出する場合を例に説明したがこれに限定されるものではない。例えば、候補領域抽出部２４によって算出された各候補領域の対象物体らしさに基づき、全候補領域の集合から対象物体らしさの値が特に大きい候補領域をＫ要素選択するなどすればよい。Ｋはパラメータであり、例えばＫ＝１０などと設定することができる。あるいは、各入力画像から最大一つの物体領域を抽出することを目的として、上記非特許文献１や上記非特許文献２で開示されている既存の物体領域特定手法を適用してもよい。

また、上述の物体領域特定装置１００は、画像集合データベース２２を備えている場合について説明したが、例えば画像集合データベース２２が物体領域特定装置１００の外部装置に設けられ、物体領域特定装置１００は、外部装置と通信手段を用いて通信することにより、画像集合データベース２２を参照するようにしてもよい。

また、上述の物体領域特定装置１００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばＣＤ−ＲＯＭやメモリーカード等に格納して提供することも可能である。

１０入力部
２０演算部
２２画像集合データベース
２４候補領域抽出部
２６特徴量抽出部
２８重複度算出部
３０物体領域初期化部
３２モデル推定部
３４最適化部
３６収束判定部
４０出力部
１００物体領域特定装置

Claims

候補領域抽出部、特徴量抽出部、重複度算出部、モデル推定部、及び最適化部を含み、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置における物体領域特定方法であって、
前記候補領域抽出部が、前記複数の画像の各々から前記対象物体の候補領域を抽出するステップと、
前記特徴量抽出部が、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出するステップと、
前記重複度算出部が、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出するステップと、
前記モデル推定部が、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するステップと、
前記最適化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップと、
を含み、
前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
物体領域特定方法。
物体領域初期化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度とに基づいて、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップを更に含み、
前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
請求項１に記載の物体領域特定方法。
収束判定部が、収束条件が満たされるまで、前記モデル推定部による推定及び前記最適化部による抽出を繰り返すステップを更に含み、
前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合、又は前記最適化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
請求項２に記載の物体領域特定方法。
複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置であって、
前記複数の画像の各々から前記対象物体の候補領域を抽出する候補領域抽出部と、
前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出する特徴量抽出部と、
前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出する重複度算出部と、
前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するモデル推定部と、
前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出する最適化部と、
を含み、
前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
物体領域特定装置。
請求項１〜請求項３の何れか１項記載の物体領域特定方法の各ステップをコンピュータに実行させるためのプログラム。