JP2017049891A - 物体領域特定方法、装置、及びプログラム - Google Patents

物体領域特定方法、装置、及びプログラム Download PDF

Info

Publication number
JP2017049891A
JP2017049891A JP2015174036A JP2015174036A JP2017049891A JP 2017049891 A JP2017049891 A JP 2017049891A JP 2015174036 A JP2015174036 A JP 2015174036A JP 2015174036 A JP2015174036 A JP 2015174036A JP 2017049891 A JP2017049891 A JP 2017049891A
Authority
JP
Japan
Prior art keywords
candidate
unit
region
area
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015174036A
Other languages
English (en)
Other versions
JP6448036B2 (ja
Inventor
周平 田良島
Shuhei Tarashima
周平 田良島
豪 入江
Takeshi Irie
豪 入江
啓之 新井
Hiroyuki Arai
啓之 新井
行信 谷口
Yukinobu Taniguchi
行信 谷口
真一 佐藤
Shinichi Sato
真一 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015174036A priority Critical patent/JP6448036B2/ja
Publication of JP2017049891A publication Critical patent/JP2017049891A/ja
Application granted granted Critical
Publication of JP6448036B2 publication Critical patent/JP6448036B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像に含まれる対象物体を精度よく特定することができる。
【解決手段】候補領域抽出部24が、複数の画像の各々から対象物体の候補領域を抽出する。特徴量抽出部26が、抽出された候補領域の各々から特徴量を抽出する。重複度算出部28が、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出する。モデル推定部32が、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定する。最適化部34が、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数を含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。
【選択図】図3

Description

本発明は、物体領域特定方法、装置、及びプログラムに関する。
画像共有サイトの普及や検索エンジンの高度化に伴い、ウェブ上にアップロードされた大規模な画像データへ容易にアクセスすることが可能になってきている。例えばウェブ検索エンジンで任意の物体(例えば「飛行機」「犬」など)のキーワード画像検索を行えば、その物体が写った複数の画像データを得ることが可能である。こうして得られる「多くの画像にある物体が共通して写る画像群」を入力として、その共通する物体(以下、対象物体)に関する“辞書”を自動で構築する技術が近年活発に提案されている。
例えば、画像集合に含まれる各画像から矩形の候補領域を複数抽出し、候補領域の対象物体らしさおよび候補領域間の類似度を同時に評価、最適化することで、画像群に多く含まれる対象物体を最もよく捉えた候補領域を各画像から一つずつ選択する技術が開示されている(例えば、非特許文献1)。非特許文献1の技術において、自動構築される辞書とは選択された候補領域(画像中の矩形領域)の集合である。これを辞書として用いることで、入力画像群をそのまま用いるよりもより正確な、対象物体に関する辞書を構築することが可能となっている。
同様の技術として、例えばウェブ画像検索結果に代表される、画像集合の一部に対象物体を含まない画像が混在するような画像集合からも正確に対象物体領域を特定するため、画像間の類似性/識別性に基づき画像に対象物体が含まれるか否かを評価する項と、各画像から複数抽出される候補領域間の類似性/識別性に基づき、どの候補領域が最もよく対象物体を捉えているかを評価する項とを含む二次計画問題を解くことで、対象物体を含まない画像の発見および除去と、対象物体を含む画像についてはその領域の特定(画像内の矩形候補領域を一つ選択)とを同時に行う方法が開示されている(例えば、非特許文献2)。
ここで、上記の辞書自動構築技術の出力として得られる画像領域集合(以下、物体領域集合)が、対象物体の辞書として具備すべき条件を考えると、それは以下の2点であると言える。
(i) 個々の領域が対象物体の「個体」を捉えていること
(ii) 物体領域集合が、画像集合中に含まれる対象物体を網羅的に捉えていること
(i)は、例えば画像中に複数の対象物体が含まれていたときに、得られた各画像領域が物体個々の領域を捉えられていることを指している。例えば物体検出などのアプリケーションを実現するための学習データとして上記辞書を用いる場合を考えれば、(i)の条件が不可欠であることは明らかである。また通常一般物体は、個体によりその外見が異なるとともに、画像中で様々な見え(方向や大きさ、照明条件など)で写り込んでいることが想定される。これらの個体差/見えの変化に頑健な辞書を構築するためには、様々な個体に関する様々な見えの事例を辞書に含める必要がある。(ii)は、これを自動で実現するために不可欠な条件である。
T. Deselaers et al., "Weakly Supervised Localization and Learning with Generic Knowledge", in IJCV, 2012. K. Tang et al., "Co-localization in Real-World Images", in Proc. CVPR, 2014.
しかし、上記の条件に照らし合わせると、上記非特許文献1および上記非特許文献2に記載の技術は、必ずしもこれらの条件を満たしていないことがわかる。上記非特許文献1および上記非特許文献2に記載の技術は、いずれも、集合中の各画像から対象物体領域を最も正しく捉えていると考えられる領域を最大一つ選択する問題として定式化されている。
仮に集合中の各画像に対象物体が2つ以上含まれないことが保証されているのであれば、上記技術は条件(i)(ii)を満たしているものの、例えば図9に示した入力画像のように、対象物体(ここでは犬)が画像中に複数含まれている場合は、公知の技術は画像中の全ての対象物体を捉えることができず、よって条件(ii)が満たされないという問題がある。更には、図9中の入力画像(c)のように、対象物体間にオクルージョンが発生している場合、公知の技術では各画像から得られる候補領域各々がどの程度物体の個体を正しく捉えてられているかを全く評価していないため、図9の右側のように、複数の物体が連結した候補領域が結果として出力されてしまうことがある。したがって(i)の条件も必ずしも満たされてはいないという問題がある。
以上から明らかなように、「多くの画像にある物体が共通して写る画像群」を入力として、対象物体に関する“辞書”を自動構築する公知の技術には、(1)入力集合中の画像に複数の対象物体が含まれる場合にそれら網羅的に捉えることができず、(2)また選択される物体領域が必ずしも対象物体個体を捉えられていないという2つの問題があった。
本発明は、上記の事情に鑑みてなされたもので、画像に含まれる対象物体を精度よく特定することができる物体領域特定方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の物体領域特定方法は、候補領域抽出部、特徴量抽出部、重複度算出部、モデル推定部、及び最適化部を含み、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置における物体領域特定方法であって、前記候補領域抽出部が、前記複数の画像の各々から前記対象物体の候補領域を抽出するステップと、前記特徴量抽出部が、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出するステップと、前記重複度算出部が、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出するステップと、前記モデル推定部が、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するステップと、前記最適化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップと、を含み、前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する。
本発明の物体領域特定装置は、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置であって、前記複数の画像の各々から前記対象物体の候補領域を抽出する候補領域抽出部と、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出する特徴量抽出部と、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出する重複度算出部と、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するモデル推定部と、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出する最適化部と、を含み、前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する。
また、物体領域初期化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度とに基づいて、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップを更に含み、前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定するようにしてもよい。
また、収束判定部が、収束条件が満たされるまで、前記モデル推定部による推定及び前記最適化部による抽出を繰り返すステップを更に含み、前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合、又は前記最適化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定するようにしてもよい。
本発明のプログラムは、上記物体領域特定方法の各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明の物体領域特定方法、装置、及びプログラムによれば、複数の画像の各々から抽出された対象物体の候補領域の各々に対し、候補領域から特徴量を抽出し、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出し、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定し、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出することにより、画像に含まれる対象物体を精度よく特定することができる、という効果が得られる。
本発明の実施の形態の概要を説明するための説明図である。 本発明の実施の形態の概要を説明するための説明図である。 本実施の形態に係る物体領域特定装置の機能的な構成例を示すブロック図である。画像の対応付けを概念的に示した図である。 本実施の形態に係る物体領域特定装置の候補領域抽出部を説明するための説明図である。 本実施の形態に係る物体領域特定装置の物体領域初期化部を説明するための説明図である。 本実施の形態に係る物体領域特定装置のモデル推定部を説明するための説明図である。 本実施の形態に係る物体領域特定装置の最適化部を説明するための説明図である。 本実施の形態における物体領域特定処理ルーチンを示すフローチャートである。 従来の画像セグメンテーション技術を用いて画像から物体領域を抽出した場合の一例を示す図である。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、膨大な画像中の物体領域を自動で特定する技術に関する。
本発明の実施の形態では、ウェブ画像群に代表される“容易に取得可能だが雑多な画像群”から、認識に有効な画像領域(例えば、対象物体個々の領域)を自動で特定する。
図1に、本発明の実施の形態の概要を説明するための図を示す。図1に示すように、上記の画像群(キーワード“飛行機”で得られた画像群)は、以下の(1)〜(3)に示す点で雑多である。
(1)飛行機を直接含まない画像が混在している。
(2)様々な見えの物体(plane)が含まれている。
(3)画像あたり複数の物体が含まれている(オクルージョン発生)。
本発明の実施の形態によれば、ウェブ検索の結果をそのまま用いるよりも、白枠で囲われた領域を物体領域として特定し、教師データとして用いることで、より高精度な認識を実現することができる。
図2に、本発明の実施の形態の概要を説明するための図を示す。本発明の実施の形態では、以下の(1)〜(3)を同時に考慮することで、図2に示すような対象物体の個体を捉えた領域が特定可能となる。
(1)候補領域の対象物体らしさ
(2)候補領域間の類似度
(3)選択された領域間の重複していない度合
また、本実施の形態では、対象物体のモデル推定と上記最適化とを交互に繰り返すことで、候補領域の集合中の対象物体の領域を網羅的に特定可能とする。
具体的に、上記の課題(2)「選択される物体領域が物体個体を捉えられていない」ことを解決する本実施の形態の第1のアイデアは、各画像中の候補領域のうち物体個体をよく捉えているものを選択するために、候補領域の対象物体らしさと、候補領域間の見た目の類似度と、対象物体領域として選択された候補領域間が“空間的に重複していない”度合の3つの要素を同時に考慮して候補領域を選択するという点にある。
候補領域の対象物体らしさと、候補領域間の類似度の2要素を同時に評価することは上記非特許文献1でも行われているが、一般に、公知の技術で算出できる対象物体らしさは候補領域に実際に含まれる物体の数とはほぼ無関係であり、したがって物体単体を捉えた候補領域のみならず、物体を複数捉えてしまっている候補領域も同時に物体領域として選択してしまうという問題がある。
本発明の実施の形態においては、対象物体単体を捉えた理想的な候補領域間では、空間的重複は発生しないという事実に基づき、公知の技術で考慮されていた要素に加え、選択された候補領域間が空間的に重複していない度合を評価する指標も同時に考慮する。これにより、対象物体らしい候補領域の中でも、特に物体単体を捉えた候補領域の集合を選択することが可能になる。
上記のようにして選択された候補領域の集合に基づいて対象物体のモデルを推定することと、推定されたモデルに基づいて候補領域の集合の中から対象物体個体を捉えた物体領域集合を選択することは相補的であると考えられる。上記の課題(1)「画像中に複数の対象物体が含まれるとき、網羅的にそれらを特定することができない」を解決する本実施の形態の第2のアイデアは、本発明の実施の形態の第1のアイデアに基づく候補領域の選択と、選択された候補領域の集合に基づくモデルの構築を交互に実施することである。これによって、画像集合中で正しく特定される対象物体の網羅性と、対象物体のモデルの頑健性を共に向上させることができる。
上記の2つのアイデアによって、本発明の実施の形態では、入力された画像集合の画像に複数の対象物体が含まれていても、複数の対象物体を網羅的に、対象物体個体を捉えつつその領域を特定することができる。
<本発明の実施の形態に係る物体領域特定装置の構成>
本発明の実施の形態に係る物体領域特定装置100は、CPU(Central Processing Unit)と、CPUが後述する各処理ルーチンを実行するためのプログラム等を記憶したROM(Read Only Memory)と、RAM(Random Access Memory)と、を備えたコンピュータで構成することができる。この物体領域特定装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部40とを備えている。物体領域特定装置100は、複数の画像の各々について、当該画像に含まれる対象物体の領域を特定する。
入力部10は、複数の画像を受け付ける。
演算部20は、画像集合データベース22と、候補領域抽出部24と、特徴量抽出部26と、重複度算出部28と、物体領域初期化部30と、モデル推定部32と、最適化部34と、収束判定部36とを備える。
画像集合データベース22には、入力部10によって受け付けられた複数の画像が格納される。
候補領域抽出部24は、画像集合データベース22に格納された複数の画像の各々から、対象物体の候補領域を抽出する。
具体的には、候補領域抽出部24は、画像集合データベース22に格納されたN枚の画像集合I={Ii=1 に含まれる各画像Iから、候補領域の集合xij∈Xを抽出する。ここで抽出される候補領域は互いに重複してよいものとする。また、jは候補領域のインデックスを表す。
候補領域を抽出する方法としては、例えば以下の参考文献1又は参考文献2で開示されている物体候補領域抽出手法を各画像に適用し、得られた全候補領域のうち、同時に算出される対象物体らしさが高い領域を上位M個抽出するなどすればよい。
[参考文献1]P. Arbelaez et al.,“Multiscale Combinatorial Grouping”, in Proc. CVPR, 2014.
[参考文献2]M.-M. Cheng et al.,“BING: Binarized Normed Gradients for Objectness Estimation at 300fps”, in Proc. CVPR, 2014.
または、候補領域抽出部24は、上記各候補領域の対象物体らしさは、画像中での各候補領域の顕著性(saliency)を評価し、顕著性を表す値を以って対象物体らしさを定義してもよい。具体的には、候補領域抽出部24は、まず、例えば参考文献3で開示されている物体顕著性算出処理を各画像に適用し、顕著性マップ(画像中各ピクセルに対して顕著性スコアが算出されたマップ)を得る。そして、候補領域抽出部24は、候補領域に含まれるピクセルの顕著性スコアの平均値を、各候補領域の対象物体らしさsijとして求めればよい。
[参考文献3]F. Perazzi et al., Saliency Filters: Contrast Based Filtering for Salient Region Detection, in Proc. CVPR, 2012.
本実施の形態では、候補領域抽出部24は、図4に示すように、候補領域xijの各々について、当該候補領域の対象物体らしさsijを算出する。そして、候補領域抽出部24は、対象物体らしさsijが高い領域を上位M個抽出し、候補領域の集合を抽出する。
特徴量抽出部26は、候補領域抽出部24によって複数の画像の各々から抽出された候補領域の各々に対し、候補領域から特徴量を抽出する。
具体的には、特徴量抽出部26は、候補領域抽出部24による候補領域の抽出処理で得られた各画像の各候補領域xijから画像特徴量fijを算出する。任意の画像特徴量としては、例えば以下の参考文献4〜7に示すような、SPM、VLAD、GIST、RCNNといったものを用いることができる。
[参考文献4]S. Lazebnik et al., “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories”, in CVPR, 2006.
[参考文献5]H. Jegou et al., “Aggregating local descriptors into a compact image representation”, in CVPR, 2010.
[参考文献6]A. Oliva et al., “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope”, in IJCV, 2001.
[参考文献7]R. Girshick et al., “Rich feature hierarchies for accurate object detection and semantic segmentation”, in Proc. CVPR, 2014.
重複度算出部28は、候補領域抽出部24によって同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出する。
具体的には、重複度算出部28は、候補領域抽出部24による候補領域の抽出処理で得られた画像内の候補領域の集合の各ペアについて、候補領域の重複度を算出する。候補領域xijとxij’の重複度J(xij,xij’)は、例えば以下の式(1)のJaccard類似度で算出することができる。
ここでbijは候補領域xijに対応するバイナリマスクである。バイナリマスクとしては、例えば、候補領域を1、候補領域とは異なる領域を0とするバイナリマスクを用いることができる。
物体領域初期化部30は、特徴量抽出部26によって候補領域の各々に対して抽出された特徴量と、重複度算出部28によって候補領域のペアの各々に対して算出された重複度とに基づいて、候補領域抽出部24によって抽出された候補領域の集合から、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出し、物体領域集合の初期化を行う。物体領域集合は、候補領域の集合から抽出された部分集合である。
具体的には、物体領域初期化部30は、図5に示すように、候補領域抽出部24によって抽出された候補領域の集合から、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出する。
例えば、物体領域初期化部30は、特徴量抽出部26によって候補領域の各々に対して抽出された特徴量と、重複度算出部28によって候補領域のペアの各々に対して算出された重複度とに基づいて、予め定められた関数を最適化するように、候補領域抽出部24によって抽出された候補領域の集合から物体領域集合を抽出する。
本実施の形態では、予め定められた関数は、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む。
具体的には、物体領域初期化部30は、初期化の時点で画像内候補領域間の空間重複度を考慮し、候補領域の集合
を入力として、「対象物体らしさが高く、互いに類似しかつ空間的に最小限しか重複しない」ような候補領域の集合の部分集合を選択することを目的として、以下の式(2)で定義される関数を最小化するようなラベル集合
を求めればよい。なおラベルyijは、1のとき対象物体を表す領域として選択されていること、0のとき対象物体を表す領域として選択されていないことを意味している。
上記式(2)の右辺第1項は、物体領域集合に含まれる候補領域の対象物体らしさを表す関数である。当該関数は、候補領域抽出部24で得られる各候補領域xijの対象物体らしさの値sijを用いて、例えば
と定義することができる。βはパラメータである。
右辺第2項は、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数であり、候補領域間の見た目の類似性を評価する項である。物体領域集合に含まれる候補領域間の類似度合いを表す関数は、特徴量抽出部26で算出される各候補領域xijの特徴量fijを用いて、例えば
のように定義することができる。λΨ、σΨはパラメータ、μΨは候補領域xij,xi’j’のラベル互換性を評価する項であり、例えば
のように定義することができる。μΨは、候補領域xijと候補領域xi’j’とのラベルが異なるときに1、候補領域xijと候補領域xi’j’とのラベルが同じときに0をとる変数である。
右辺第3項は、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数であり、候補領域間の重複していない度合を評価する項である。物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数は、重複度算出部28で得られる候補領域間の重複度J(xij,xij’)を用いて、例えば
のように定義することができる。λΩ、σΩはパラメータ、μΩは候補領域xij,xi’j’のラベル互換性を評価する項であり、例えば
のように定義することができる。μΩは候補領域xijと候補領域xi’j’とのラベルが共に1のとき1、それ以外で0をとる変数である。また、上記式(2)の右辺第2項及び右辺第3項における
は、i=i'かつj=j’とは異なるi,i',j,及びj’の組み合わせについて総和を取ることを表す。
上記式(2)は公知のアルゴリズム、例えばBelief PropagationやTRW-Sといった方法を用いて解くことができる。
モデル推定部32は、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定する。また、モデル推定部32は、後述する最適化部34の最適化処理によって抽出された物体領域集合に基づいて、モデルを推定する。
具体的には、モデル推定部32は、図6に示されるように、物体領域初期化部30によって初期化された物体領域集合、又は後述する最適化部34によって抽出された物体領域集合を用いて、対象物体を表すか否かを識別するためのモデルzを推定する。モデルは任意のモデルを用いることが可能で、例えばGMMやLatent SVM、線形SVMなどを用いることができる。例えば線形SVMを用いる場合、具体的には線形SVMのモデルパラメータwを、選択された候補領域の部分集合に対応する特徴量集合を正例として学習する。
ここで用いられる特徴量は、特徴量抽出部26で抽出したものを用いてもよいし、あるいは新たに抽出してもよい。また、負例の選択は任意であり、例えば選択された部分集合以外の候補領域から抽出された特徴量の平均として与えてもよいし、全く外部の画像から集中した特徴量を用いてもよい。
最適化部34は、特徴量抽出部26によって候補領域の各々に対して抽出された特徴量と、重複度算出部28によって候補領域のペアの各々に対して算出された重複度と、モデル推定部32によって推定されたモデルとに基づいて、予め定められた目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。
本実施の形態では、予め定められた目的関数は、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む。
具体的には、最適化部34は、候補領域の抽出処理で得られた候補領域の集合
の中から、対象物体個体の領域をよく捉えた候補領域の部分集合である物体領域集合を抽出する。ここで物体領域集合は、候補領域抽出部24、特徴量抽出部26、重複度算出部28、及びモデル推定部32の結果に基づいて、「対象物体らしさが高く、互いに類似しかつ空間的に最小限しか重複しない」ような候補領域の集合の部分集合を選択する最適化問題を解くことによって得るものとする。
上記を満たす最適化は、例えば以下の式(6)で定義される目的関数を最小化するようなラベル集合
を求める問題として定式化し、以下の式(6)を解けばよい。図7に、以下の式(6)の目的関数を示す。
上式の右辺第1項は、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数であり、例えば各候補領域の対象物体らしさを評価する項である。例えば、物体領域集合に含まれる候補領域の対象物体らしさを表す関数は、候補領域抽出部24で算出される各候補領域xijについて得られる対象物体らしさの値sij、モデル推定部32で得られるモデルz、およびモデル推定に用いた特徴量fijを用いて
と定義することができる。wはモデルzを線形SVMとして推定したときのモデルパラメータ、β’はパラメータである。
上記式(6)の右辺第2項及び第3項は、例えば上記式(4)及び上記式(5)と同様に定義すればよい。上記式(6)の右辺第2項は、特徴量を用いた、物体領域集合に含まれる前記候補領域間の類似度合いを表す関数である。また、上記式(6)の右辺第3項は、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数である。また、上記式(6)は上記式(2)同様、belief propagationやTRW-Sといった公知のアルゴリズムで解くことができる。
収束判定部36は、予め定められた収束条件が満たされるまで、モデル推定部32による推定及び最適化部34による抽出を繰り返す。
具体的には、収束判定部36は、最適化部34による処理の結果得られた物体領域集合に基づき、収束判定を行う。収束したと判定された場合、得られた物体領域集合が、後述する出力部40で結果として出力される。収束していないと判定された場合、得られた物体領域集合に基づきモデル推定部32以降の処理が繰り返される。
収束判定の条件は任意であり、例えば直前の最適化部34で得られた物体領域集合とその1ステップ前に得られた物体領域集合とに変化がないことを収束条件としたり、あるいはモデル推定部32と最適化部34の繰り返し回数がパラメータtを超えたことを収束条件とすればよい。パラメータtは任意であり、例えばt=5などと設定すればよい。
出力部40は、最適化部34によって得られた物体領域集合を結果として出力する。
<本発明の実施の形態に係る物体領域特定装置の作用>
次に、本発明の実施の形態に係る物体領域特定装置100の作用について説明する。入力部10より複数の画像が入力されると、物体領域特定装置100は、図8に示す物体領域特定処理ルーチンを実行する。
ステップS100において、入力部10は、複数の画像を受け付け、画像集合データベース22に格納する。
ステップS102において、候補領域抽出部24は、上記ステップS100で画像集合データベース22に格納された複数の画像の各々から、対象物体の候補領域を抽出する。
ステップS104において、特徴量抽出部26は、上記ステップS102で複数の画像の各々から抽出された候補領域の各々に対し、候補領域から特徴量を抽出する。
ステップS106において、重複度算出部28は、上記ステップS102で同じ画像から抽出された候補領域のペアの各々に対し、上記式(1)に従って、候補領域間の重複度を算出する。
ステップS108において、物体領域初期化部30は、上記ステップS104で候補領域の各々に対して抽出された特徴量と、上記ステップS106で候補領域のペアの各々に対して算出された重複度とに基づいて、上記ステップS102で抽出された候補領域の集合から、上記式(2)で定義される関数を最小化するように、対象物体を捉えていると考えられる候補領域の部分集合を、物体領域集合として抽出し、物体領域集合の初期化を行う。
ステップS110において、モデル推定部32は、上記ステップS108で初期化された物体領域集合又は後述するステップS112で前回抽出された物体領域集合に基づいて、特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定する。
ステップS112において、最適化部34は、上記ステップS104で候補領域の各々に対して抽出された特徴量と、上記ステップS106で候補領域のペアの各々に対して算出された重複度と、上記ステップS110で推定されたモデルとに基づいて、上記式(6)に示す目的関数を最適化するように、候補領域の集合から物体領域集合を抽出する。
ステップS114において、収束判定部36は、予め定められた収束条件が満たされたか否かを判定する。収束条件が満たされた場合には、ステップS116へ進む。一方、収束条件が満たされていない場合には、ステップS110へ進む。
ステップS116において、出力部40は、上記ステップS112で得られた物体領域集合を結果として出力して、物体領域特定処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る物体領域特定装置によれば、複数の画像の各々から抽出された対象物体の候補領域の各々に対し、候補領域から特徴量を抽出し、同じ画像から抽出された候補領域のペアの各々に対し、候補領域間の重複度を算出し、候補領域の集合から抽出された部分集合である物体領域集合に基づいて、対象物体を表すか否かを識別するためのモデルを推定し、候補領域の各々に対して抽出された特徴量と、候補領域のペアの各々に対して算出された重複度と、推定されたモデルとに基づいて、モデルを用いた、物体領域集合に含まれる候補領域の対象物体らしさを表す関数と、特徴量を用いた、物体領域集合に含まれる候補領域間の類似度合いを表す関数と、物体領域集合に含まれる同じ画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、候補領域の集合から物体領域集合を抽出することにより、画像に含まれる対象物体を精度よく特定することができる。
また、画像に複数の対象物体が含まれていても、複数の対象物体を網羅的に、対象物体の個体を捉えつつ対象物体の個体の領域を特定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態では、物体領域集合を初期化する方法として、予め定められた関数を最適化するように、候補領域抽出部24によって抽出された候補領域の集合から物体領域集合を抽出する場合を例に説明したがこれに限定されるものではない。例えば、候補領域抽出部24によって算出された各候補領域の対象物体らしさに基づき、全候補領域の集合から対象物体らしさの値が特に大きい候補領域をK要素選択するなどすればよい。Kはパラメータであり、例えばK=10などと設定することができる。あるいは、各入力画像から最大一つの物体領域を抽出することを目的として、上記非特許文献1や上記非特許文献2で開示されている既存の物体領域特定手法を適用してもよい。
また、上述の物体領域特定装置100は、画像集合データベース22を備えている場合について説明したが、例えば画像集合データベース22が物体領域特定装置100の外部装置に設けられ、物体領域特定装置100は、外部装置と通信手段を用いて通信することにより、画像集合データベース22を参照するようにしてもよい。
また、上述の物体領域特定装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばCD−ROMやメモリーカード等に格納して提供することも可能である。
10 入力部
20 演算部
22 画像集合データベース
24 候補領域抽出部
26 特徴量抽出部
28 重複度算出部
30 物体領域初期化部
32 モデル推定部
34 最適化部
36 収束判定部
40 出力部
100 物体領域特定装置

Claims (5)

  1. 候補領域抽出部、特徴量抽出部、重複度算出部、モデル推定部、及び最適化部を含み、複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置における物体領域特定方法であって、
    前記候補領域抽出部が、前記複数の画像の各々から前記対象物体の候補領域を抽出するステップと、
    前記特徴量抽出部が、前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出するステップと、
    前記重複度算出部が、前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出するステップと、
    前記モデル推定部が、前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するステップと、
    前記最適化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップと、
    を含み、
    前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
    物体領域特定方法。
  2. 物体領域初期化部が、前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度とに基づいて、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出するステップを更に含み、
    前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
    請求項1に記載の物体領域特定方法。
  3. 収束判定部が、収束条件が満たされるまで、前記モデル推定部による推定及び前記最適化部による抽出を繰り返すステップを更に含み、
    前記モデル推定部は、前記物体領域初期化部によって抽出された前記物体領域集合、又は前記最適化部によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
    請求項2に記載の物体領域特定方法。
  4. 複数の画像の各々について、前記画像に含まれる対象物体の領域を特定する物体領域特定装置であって、
    前記複数の画像の各々から前記対象物体の候補領域を抽出する候補領域抽出部と、
    前記候補領域抽出部によって前記複数の画像の各々から抽出された前記候補領域の各々に対し、前記候補領域から特徴量を抽出する特徴量抽出部と、
    前記候補領域抽出部によって同じ前記画像から抽出された前記候補領域のペアの各々に対し、前記候補領域間の重複度を算出する重複度算出部と、
    前記候補領域の集合から抽出された部分集合である物体領域集合に基づいて、前記特徴量に基づいて対象物体を表すか否かを識別するためのモデルを推定するモデル推定部と、
    前記特徴量抽出部によって前記候補領域の各々に対して抽出された前記特徴量と、前記重複度算出部によって前記ペアの各々に対して算出された前記重複度と、前記モデル推定部によって推定された前記モデルとに基づいて、前記モデルを用いた、前記物体領域集合に含まれる前記候補領域の対象物体らしさを表す関数と、前記特徴量を用いた、前記物体領域集合に含まれる前記候補領域間の類似度合いを表す関数と、前記物体領域集合に含まれる同じ前記画像における候補領域間の重複度合いを表す関数とを含む目的関数を最適化するように、前記候補領域の集合から前記物体領域集合を抽出する最適化部と、
    を含み、
    前記モデル推定部は、前記最適化によって抽出された前記物体領域集合に基づいて、前記モデルを推定する
    物体領域特定装置。
  5. 請求項1〜請求項3の何れか1項記載の物体領域特定方法の各ステップをコンピュータに実行させるためのプログラム。
JP2015174036A 2015-09-03 2015-09-03 物体領域特定方法、装置、及びプログラム Active JP6448036B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015174036A JP6448036B2 (ja) 2015-09-03 2015-09-03 物体領域特定方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015174036A JP6448036B2 (ja) 2015-09-03 2015-09-03 物体領域特定方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017049891A true JP2017049891A (ja) 2017-03-09
JP6448036B2 JP6448036B2 (ja) 2019-01-09

Family

ID=58279822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015174036A Active JP6448036B2 (ja) 2015-09-03 2015-09-03 物体領域特定方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6448036B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222704A (zh) * 2019-06-12 2019-09-10 北京邮电大学 一种弱监督目标检测方法及装置
JP2020518076A (ja) * 2017-04-28 2020-06-18 トヨタ モーター ヨーロッパ デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149018A (ja) * 1998-09-10 2000-05-30 Fuji Photo Film Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2012123642A (ja) * 2010-12-08 2012-06-28 Toyota Central R&D Labs Inc 画像識別装置及びプログラム
JP2012221162A (ja) * 2011-04-07 2012-11-12 Toyota Central R&D Labs Inc 対象物検出装置及びプログラム
JP2013254367A (ja) * 2012-06-07 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置、画像検索方法、及び画像検索プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149018A (ja) * 1998-09-10 2000-05-30 Fuji Photo Film Co Ltd 画像処理方法、画像処理装置及び記録媒体
JP2012123642A (ja) * 2010-12-08 2012-06-28 Toyota Central R&D Labs Inc 画像識別装置及びプログラム
JP2012221162A (ja) * 2011-04-07 2012-11-12 Toyota Central R&D Labs Inc 対象物検出装置及びプログラム
JP2013254367A (ja) * 2012-06-07 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置、画像検索方法、及び画像検索プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020518076A (ja) * 2017-04-28 2020-06-18 トヨタ モーター ヨーロッパ デジタル画像内の物体を検出するためのシステムおよび方法、ならびに物体検出を再スコアリングするためのシステムおよび方法
US11715281B2 (en) 2017-04-28 2023-08-01 Toyota Motor Europe System and method for detecting objects in a digital image, and system and method for rescoring object detections
CN110222704A (zh) * 2019-06-12 2019-09-10 北京邮电大学 一种弱监督目标检测方法及装置

Also Published As

Publication number Publication date
JP6448036B2 (ja) 2019-01-09

Similar Documents

Publication Publication Date Title
Rocco et al. Efficient neighbourhood consensus networks via submanifold sparse convolutions
Melekhov et al. Dgc-net: Dense geometric correspondence network
Melekhov et al. Siamese network features for image matching
JP6832504B2 (ja) 物体追跡方法、物体追跡装置およびプログラム
Zhao et al. ApLeaf: An efficient android-based plant leaf identification system
CN112384948A (zh) 用于图像分割的生成对抗网络
Chen et al. Robust feature matching with alternate hough and inverted hough transforms
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
US20150261803A1 (en) Edge-based recognition, systems and methods
CN111667005B (zh) 一种采用rgbd视觉传感的人体交互系统
CN103236068A (zh) 一种局部图像匹配方法
CN103824090A (zh) 一种自适应的人脸低层特征选择方法及人脸属性识别方法
JP6597914B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN107480627B (zh) 行为识别方法、装置、存储介质和处理器
JP4721829B2 (ja) 画像検索方法及び装置
CN113553975B (zh) 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质
JP6448036B2 (ja) 物体領域特定方法、装置、及びプログラム
CN104598898A (zh) 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法
JP5370267B2 (ja) 画像処理システム
JP6517652B2 (ja) 物体顕著性マップ算出装置、方法、及びプログラム
JP2018195270A (ja) 局所特徴表現学習装置、及び方法
JP6126979B2 (ja) 特徴選択装置、方法、及びプログラム
Farfan-Escobedo et al. Towards accurate building recognition using convolutional neural networks
JP2014225168A (ja) 特徴点集合で表される画像間の類似度を算出するプログラム、装置及び方法
JP6670787B2 (ja) 繰り返しパターン発見装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181128

R150 Certificate of patent or registration of utility model

Ref document number: 6448036

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250