JP6389742B2 - 画像セグメンテーション方法、装置、及びプログラム - Google Patents

画像セグメンテーション方法、装置、及びプログラム Download PDF

Info

Publication number
JP6389742B2
JP6389742B2 JP2014239327A JP2014239327A JP6389742B2 JP 6389742 B2 JP6389742 B2 JP 6389742B2 JP 2014239327 A JP2014239327 A JP 2014239327A JP 2014239327 A JP2014239327 A JP 2014239327A JP 6389742 B2 JP6389742 B2 JP 6389742B2
Authority
JP
Japan
Prior art keywords
object region
image
unit
candidate
appearance model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014239327A
Other languages
English (en)
Other versions
JP2016099980A (ja
Inventor
周平 田良島
周平 田良島
豪 入江
豪 入江
新井 啓之
啓之 新井
行信 谷口
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014239327A priority Critical patent/JP6389742B2/ja
Publication of JP2016099980A publication Critical patent/JP2016099980A/ja
Application granted granted Critical
Publication of JP6389742B2 publication Critical patent/JP6389742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像セグメンテーション方法、装置、及びプログラムに係り、特に、抽出対象の物体が多くの割合で含まれる画像群を入力として、入力された画像群に含まれる物体を自動でセグメンテーションする画像セグメンテーション方法、装置、及びプログラムである。
物体の写り込んだ画像が与えられたとき、画像から物体が写り込んだ領域を抽出する、すなわちセグメンテーションすることは、例えば画像ベースの物体検索の辞書、画像アノテーションの学習データ、及び画像編集の素材等を構築するための重要な要素処理である。一般に、上記辞書、学習データ、及び素材等を構築するには大量の画像が必要であるが、それらの画像を一つ一つ手動でセグメンテーションするのはコストが高い。上記辞書、学習データ、及び素材等を低コストで構築し、上記のような大規模の画像アプリケーションサービスを実現するためには、人手を介することなく膨大な画像を精度良くセグメンテーションする技術は不可欠であると言える。
膨大な画像を自動でセグメンテーションするにあたり、ウェブにおいて構造化された情報は有効であると考えられる。例えば、種々の検索エンジンや画像共有サイトが提供するキーワード画像検索を用いることで、キーワード(例えば「飛行機」、「車」など)に関連する物体が写り込んだ複数の画像は容易に入手可能である。或るキーワードで検索した結果得られた画像群を入力とし、その中に含まれるキーワードに該当する物体を自動でセグメンテーションすることができれば、ラベル(すなわち検索キーワード)が付与された物体領域を自動で取得することが可能となる。
キーワード検索の結果得られた画像群の多くには、キーワードに相当する物体領域が含まれている。入力された画像群に共通する物体が写り込んでいるという情報を活用して、自動で画像群を同時にセグメンテーションする公知の技術として、非特許文献1には、各画像の類似する隣接ピクセルのラベル(前景か背景かのラベル)の一貫性を評価する項と、画像中の前景ラベルを有するピクセル集合から抽出される特徴量の、背景ラベルを有するピクセル集合から抽出される特徴量に対する識別性を評価する項と、から構成されるエネルギー関数を最小化することにより、各画像中のピクセルに対してラベルを割り当てる方法が開示されている。非特許文献1に開示された技術は、ラベル割当問題を解くために、入力された画像群の全ての画像に抽出対象の物体が写り込んでいることを前提としている。
一方、非特許文献2には、入力された画像群のうち特に類似した画像のペアでSIFT Flowによるピクセル間の対応付けを行い、得られた対応付けに基づいて定義される、各ピクセルの抽出対象の物体らしさを評価する項を含むエネルギー最小化問題を解くことによって、入力された画像群に一部混在する抽出対象以外の物体は除外しつつ、抽出対象の物体を抽出することが可能な方法が開示されている。非特許文献2で開示された技術は、入力された画像群に抽出対象の物体が全く写り込んでいない画像が含まれ得ることが考慮されているという点で、非特許文献1の技術よりも、入力された画像群から抽出対象の物体領域を精度良く抽出することが可能な技術であると言える。
A. Joulin et al., Multi-Class Cosegmentation, in Proc. CVPR, 2012. インターネット(URL:http://www.di.ens.fr/~fbach/joulin_cvpr2012.pdf) M. Rubinstein et al., Unsupervised Joint Object Discovery and Segmentation in Internet Images, in Proc. CVPR, 2013. インターネット(URL:http://people.csail.mit.edu/mrub/papers/ObjectDiscovery-cvpr13.pdf)
しかしながら、非特許文献1に開示された方法では、以下のような問題があった。キーワード検索結果として得られる画像群の一部には、抽出対象の物体が全く写り込んでいない画像が含まれていることが多いため、非特許文献1が仮定する、入力された画像群の全ての画像に抽出対象の物体が写っているという条件は、一般には成立しない。そのため、キーワード検索の結果得られた画像群を入力とし、非特許文献1に開示された技術を用いてセグメンテーションした結果は、本来の物体領域を正しく捉えることができず精度が低い、という問題があった。
また、非特許文献2における抽出対象以外の物体の除外を実現するピクセル間の対応付け処理は、画像ペア間でピクセルの一対一の対応付けが可能であることを前提として実行されている。すなわち、画像ペア間で抽出対象の物体数は同一であるという仮定が暗になされている。
また、キーワード検索の結果得られる画像群の一部には、一枚の中に抽出対象の物体が複数写り込んだ画像が含まれることは、抽出対象以外の物体が写り込んだ画像が混在することと同様に一般的である。そのため、非特許文献2に開示された、画像ペア間でピクセルの一対一の対応付けが可能であるという仮説は一般には成り立たず、特に一枚に複数の抽出対象の物体が写り込んだ画像を多く含む画像群を入力とした場合、非特許文献2に開示された技術を用いてセグメンテーションした結果は、本来の物体領域を正しく捉えることができず精度が低い、という問題がある。
さらに、非特許文献1及び非特許文献2の何れの方法についても、画像内に抽出対象の物体が複数写り込んでいた場合、それらを自動で分離する手段を有していない、という問題があった。これは、非特許文献1及び非特許文献2で開示されている方法が、入力された画像群に含まれる各画像の各ピクセルが「抽出対象の物体であるか否か」のみを決定する方法であり、画像中に複数の物体が写っている場合、それらのうちどの物体に属するかを判別する機能を有していない。
上記の画像アプリケーションサービスを実現するための辞書や学習データは、物体個々をデータの単位として用いるのが一般的であるが、既存の公知技術では、画像に含まれる複数の物体が空間的に離れている場合、それらを分離するための後処理が必要となる。個々の物体が画像中で空間的に明らかに分離している場合は、自動でそれらを分離することは難しくないものの、複数の物体が空間的に接して写り込んでいる場合、それらを自動で分離することは非常に困難であり、コストの高い人手による作業が避けられない、という問題があった。
このように、キーワード検索の結果得られた画像群を入力としてキーワードに該当する物体領域を同時にセグメンテーションする既存の公知の技術では、キーワード検索の結果得られる画像群の特徴である「抽出対象の物体領域を含んでいない又は抽出対象以外の物体を含む画像が混在する」という特徴と、「抽出対象の物体が複数写り込んでいる画像が混在する」という特徴とを同時に捉え、画像に含まれる個々の抽出対象の物体を精度良く分離してセグメンテーションすることができない、という問題があった。
本発明は、上記の事情に鑑みてなされたもので、入力画像群の中に抽出対象の物体領域を含まない画像が混在していたり、1つの画像に複数の抽出対象の物体が写り込んでいる画像が混在していたりする場合でも、抽出対象の物体領域を精度よくセグメンテーションすることができる画像セグメンテーション方法、装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の画像セグメンテーション方法は、物体領域抽出部、アピアランスモデル推定部、対応付け推定部、物体領域更新部、収束判定部、及び物体領域出力部を含む画像セグメンテーション装置における画像セグメンテーション方法であって、前記物体領域抽出部が、画像群に含まれる各画像から、抽出対象物体を表す一つ以上の物体領域候補を抽出するステップと、前記アピアランスモデル推定部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補に基づいて、前記物体領域候補の各々についてアピアランスモデルを推定するステップと、前記対応付け推定部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補の各々について、類似した他の物体領域候補との間のピクセルの対応付けを推定するステップと、前記物体領域更新部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補、前記アピアランスモデル推定部により推定された前記アピアランスモデル、及び前記対応付け推定部により推定された対応付けに基づいて、前記画像群に含まれる各画像の前記物体領域候補を更新するステップと、前記収束判定部が、所定の収束条件が満たされるまで、前記アピアランスモデル推定部による推定、前記対応付け推定部による推定、及び前記物体領域更新部による更新を繰り返し行うステップと、前記物体領域出力部が、前記画像群に含まれる各画像の前記物体領域候補を物体領域として出力するステップと、を含み、前記物体領域更新部が前記物体領域候補を更新するステップは、前記画像群に含まれる各画像の各ピクセルに関する前記抽出対象物体らしさを評価する項と、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補からの空間的な近さを評価する項と、前記画像群に含まれる各画像の各ピクセルに関する、前記アピアランスモデル推定部により推定された前記アピアランスモデルへの寄与を評価する項と、前記対応付け推定部により対応付けられたピクセル間の画像特徴量の類似性を評価する項と、画像内で隣接するピクセルの、物体領域候補に含まれるか否かを示すラベルのなめらかさを評価する項と、前記対応付け推定部により対応付けられたピクセル間の前記ラベルの一貫性を評価する項と、を含む目的関数を最適化することによって、前記画像群に含まれる各画像の前記物体領域候補の更新を行う
また、前記物体領域抽出部が前記物体領域候補を抽出するステップは、画像中で互いに重複する領域が存在しないように前記物体領域候補を抽出するようにしてもよい。
また、前記アピアランスモデル推定部が前記アピアランスモデルを推定するステップは、前記物体領域抽出部により抽出された各画像の各物体領域候補について前記アピアランスモデルを推定し、各画像の、各物体領域候補の何れにも含まれないピクセル集合で構成される背景領域について、前記アピアランスモデルを推定するようにしてもよい。
また、前記対応付け推定部が前記対応付けを推定するステップは、前記物体領域候補の各々について、類似した他の物体領域候補との間で対応付けられるピクセル間の画像特徴量の類似性を評価する項と、前記物体領域候補内の近傍ピクセルに関する、前記ピクセルの対応付けに伴う移動ベクトルのなめらかさを評価する項と、から構成される最適化関数を解くことによって、前記類似した他の物体領域候補との間のピクセルの対応付けを推定するようにしてもよい。
本発明の画像セグメンテーション装置は、画像群に含まれる各画像から、抽出対象物体を表す一つ以上の物体領域候補を抽出する物体領域抽出部と、前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補に基づいて、前記物体領域候補の各々についてアピアランスモデルを推定するアピアランスモデル推定部と、前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補の各々について、類似した他の物体領域候補との間のピクセルの対応付けを推定する対応付け推定部と、前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補、前記アピアランスモデル推定部により推定された前記アピアランスモデル、及び前記対応付け推定部により推定された対応付けに基づいて、前記画像群に含まれる各画像の前記物体領域候補を更新する物体領域更新部と、所定の収束条件が満たされるまで、前記アピアランスモデル推定部による推定、前記対応付け推定部による推定、及び前記物体領域更新部による更新を繰り返し行う収束判定部と、前記画像群に含まれる各画像の前記物体領域候補を物体領域として出力する物体領域出力部と、を含み、前記物体領域更新部は、前記画像群に含まれる各画像の各ピクセルに関する前記抽出対象物体らしさを評価する項と、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補からの空間的な近さを評価する項と、前記画像群に含まれる各画像の各ピクセルに関する、前記アピアランスモデル推定部により推定された前記アピアランスモデルへの寄与を評価する項と、前記対応付け推定部により対応付けられたピクセル間の画像特徴量の類似性を評価する項と、画像内で隣接するピクセルの、物体領域候補に含まれるか否かを示すラベルのなめらかさを評価する項と、前記対応付け推定部により対応付けられたピクセル間の前記ラベルの一貫性を評価する項と、を含む目的関数を最適化することによって、前記画像群に含まれる各画像の前記物体領域候補の更新を行う
本発明の画像セグメンテーションプログラムは、コンピュータに、上記画像セグメンテーション方法の各ステップを実行させるための画像セグメンテーションプログラムである。
以上説明したように、本発明の画像セグメンテーション方法、装置、及びプログラムによれば、入力画像群の中に抽出対象を含まない画像が混在していたり、1つの画像に複数の抽出対象の物体が写り込んでいる画像が混在していたりする場合でも、抽出対象の物体領域を精度よくセグメンテーションすることができる、という効果が得られる。
本実施の形態に係る画像セグメンテーション装置の機能的な構成例を示すブロック図である。 本実施の形態における画像セグメンテーションルーチンを示すフローチャートである。 画像から抽出された複数の物体領域の一例を示す図である。 画像から抽出された複数の物体領域のうち重複する領域の割合が大きい物体領域を除去した例を示す図である。 重複した領域のピクセルを何れかの物体領域にラベリングした例を示す図である。 入力された画像群及び当該画像群から抽出された物体領域のみを含む出力画像の画像群の一例を示す図である。 従来技術において一部が重複した複数の物体領域を含む画像から抽出された1つの物体領域を示す図である。 本実施の形態において一部が重複した複数の物体領域を含む画像から抽出された2つの物体領域を示す図である。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
本実施の形態では、一例として、キーワード検索の結果得られた画像群を入力として、入力された画像群に含まれる、キーワードに該当する物体領域を自動でセグメンテーションする。
<システム構成>
図1に示すように、本実施の形態に係る画像セグメンテーション装置10は、物体領域抽出部12、アピアランスモデル推定部14、対応付け推定部16、物体領域更新部18、収束判定部20、及び物体領域出力部22を備えている。
物体領域抽出部12は、入力された入力画像群に含まれる各画像から、一つ以上の物体領域を抽出する。物体領域抽出部12に入力される入力画像群は、例えば画像検索サイト等において物体を表すキーワードを入力し、キーワードに対応する物体を含む画像を検索することにより得られた画像群である。なお、画像群に含まれる画像の多くは、キーワードに対応する物体を含むが、必ずしも全ての画像にキーワードに対応する抽出対象物体が含まれるとは限らない。
アピアランスモデル推定部14は、物体領域抽出部12により抽出された物体領域候補又は物体領域更新部18により更新された物体領域候補に基づいて、物体領域候補の各々についてアピアランスモデルを推定する。
対応付け推定部16は、物体領域抽出部12により抽出された物体領域候補又は物体領域更新部18により更新された物体領域候補の各々について、類似した他の物体領域との間のピクセルの対応付けを推定する。
物体領域更新部18は、物体領域抽出部12により抽出された物体領域候補又は物体領域更新部18により更新された物体領域候補、アピアランスモデル推定部14により推定されたアピアランスモデル、及び対応付け推定部16により推定された対応付けに基づいて、物体領域候補を更新する。
収束判定部20は、所定の収束条件を満たしたか否かを判定し、所定の収束条件を満たしたと判定されるまで、アピアランスモデルの推定、対応付けの推定、及び物体領域候補の更新を繰り返し行う。
物体領域出力部22は、収束判定部20が所定の収束条件を満たすと判定した場合に、画像群に含まれる各画像の物体領域候補を、物体領域として出力する。物体領域出力部22は、例えば抽出された物体領域のみを含む画像をネットワーク上の他の端末装置等に送信したり、記憶装置に出力したり、表示装置に出力したりする。
物体領域抽出部12、アピアランスモデル推定部14、対応付け推定部16、物体領域更新部18、収束判定部20、及び物体領域出力部22は、例えばCPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する画像セグメンテーションルーチンを実行するための画像セグメンテーションプログラムを記憶したROM(Read Only Memory)と、を備えたコンピュータにより実現される。なお、ROMに代えて不揮発性メモリを用いてもよい。また、画像セグメンテーション装置10を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにCPUが実行するプログラムが記憶されていてもよい。CPUがROMやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。
<画像セグメンテーション装置の作用>
次に、図2を参照して、本実施の形態に係る画像セグメンテーション装置10において実行される画像セグメンテーションルーチンについて説明する。
ステップS100では、物体領域抽出部12が、入力画像群
を入力する。Nは画像数である。各画像は元のサイズのままでステップS102以降の処理に用いてもよいし、あるいはリサイズしてもよい。各画像をリサイズする場合、画像
の元の高さをheight、幅をwidth、lmaxを定数として、例えば各画像をlmax/max(height,width)のスケールにリサイズする。
次に、物体領域抽出部12が、入力された画像群に含まれる各画像Iに写っている物体領域候補を抽出する。ここで抽出される物体領域候補は、画像内で互いに重複する領域が存在しないように抽出される。以下、画像内で互いに重複しないように物体領域候補を抽出する方法について具体的に説明する。
なお、以下では、物体領域候補として矩形領域を抽出する場合について説明するが、抽出する領域の形状は矩形に限られるものではない。
まず、画像中の任意の矩形領域について物体のカテゴリに依存しない物体らしさを評価する公知の技術を用いて、物体らしさのスコアが高い矩形領域をNproposal個抽出する。
proposalはパラメータであり、予め定めた値を設定する。図3には、一例としてNproposal=5とした場合に画像Iから抽出された矩形領域、すなわち物体領域候補の例を示した。図3に示すように、物体領域候補30は物体領域候補30と重複している。また、物体領域候補30は物体領域候補30及び物体領域候補30と重複している。また、物体領域候補30は物体領域候補30、物体領域候補30、及び物体領域候補30と重複している。また、物体領域候補30は、物体領域候補30及び物体領域候補30と重複している。また、物体領域候補30は、物体領域候補30及び物体領域候補30と重複している。
以下では、画像Iについて物体領域抽出処理で得られた物体領域候補を
、各物体領域候補に対応する物体らしさのスコアを
とする。物体領域候補
は、ピクセルxが物体領域候補に含まれるとき
、それ以外で0をとる画像と同じサイズのバイナリマスクである。画像中の任意の矩形領域について物体のカテゴリに依存しない物体らしさを評価する公知の技術としては、例えば下記参考文献1に開示された方法を用いることができる。
(参考文献1) M.M. Cheng et al., BING: Binarized Normed Gradients for Objectness Estimation at 300fps, in Proc. CVPR, 2014.
次に、抽出された物体領域候補のうち、他の物体領域候補と重複する領域の割合が大きい物体領域候補をNon Maximal Suppression(NMS)を用いて除去する。図4には、NMSを用いて他の物体領域候補と重複する領域の割合が大きい物体領域候補を除去した場合の例を示した。図4に示すように、物体領域候補30、30が残され、物体領域候補30、30、30は除去されている。図3に示すように、物体領域候補30、30、30は、他の物体領域候補と重複する領域の割合が大きいためである。なお、図4に示すように、物体領域候補30、30は一部の領域32が重複している。このように、重複領域を有する物体領域候補が全て除去されるわけではない。
以下では、NMSの結果残った物体領域候補集合を
とする。
は、画像Iから抽出される物体領域候補の数である。NMSの結果残った物体領域候補は、重複する領域は小さいものの互いに重複している可能性がある。そこで、領域が重複するのを避けるため、上記数7で示した物体領域候補集合に含まれる2つ以上の物体領域候補に属する各ピクセルについては、その色、位置、及び隣接ピクセルとのラベル一貫性を評価することにより、上記数7で示した物体領域候補集合に含まれる何れかの物体領域候補への割り当て処理を行う。上記割り当て処理は、例えば下記(1)式で示すエネルギー関数を最小化するような物体領域候補集合
を求めることで得られる。
・・・(1)
ここで、
は、上記数7に示す物体領域候補集合に含まれる物体領域候補のうち少なくとも一つ以上の物体領域候補に含まれるピクセルの集合、Nは、ピクセルxの近傍ピクセルの集合(例えばピクセルxの上下左右に存在するピクセルから構成される集合)である。
上記(1)の右辺第一項は、ピクセルxの位置を評価する項であり、例えば下記(2)式のように定義できる。
・・・(2)
ここで、
は物体領域候補
に含まれるピクセルの集合、
はピクセルxの座標である。また、κpositionはパラメータであり、予め定めた値を設定する。
上記(1)式の右辺第二項は、物体領域候補
のアピアランスモデルに対するピクセルxの寄与を評価する項、すなわちピクセルxの色を評価する項であり、例えば下記(3)式のように定義できる。
・・・(3)
ここで、
は、上記数14で示す物体領域候補に対応するアピアランスモデル
に対するピクセルxの輝度値
の対数尤度、κcolorはパラメータであり、予め定めた値を設定する。上記数19で示したアピアランスモデルは、例えばGaussian Mixture Modelを用いて構築することができる。
上記(1)式の右辺第三項は、輝度値の類似した隣接ピクセルx、x’の、物体領域候補に含まれるか否かを示すラベルの一貫性を評価する項であり、例えば下記(4)式のように定義することができる。
・・・(4)
ここで、κintはパラメータであり、予め定めた値を設定する。また、[]は、[]内の条件が満たされる場合に1、満たされない場合に0となるインジケータ関数である。
は、ピクセルxが上記数9で示した物体領域候補集合に含まれる何れの物体領域候補にも含まれない場合に0、物体領域候補Rijに含まれる場合にjとなる。
以上の処理によって、各画像Iについて上記数9で示すような、互いに重複しない物体領域候補集合が得られる。例えば図4に示すように物体領域候補30、30の一部が重複した領域32のピクセルは、図5に示すように物体領域候補30及び物体領域候補30の何れか一方にラベリングされることとなる。このため、上記数9で示すような互いに重複しない物体領域候補集合に含まれる各物体領域候補は、必ずしも矩形領域になるとは限らない。
ステップS102では、アピアランスモデル推定部14が、ステップS102で得られた上記数9で示す各画像の物体領域候補集合に基づいて、アピアランスモデルを推定する。ここで、アピアランスモデルは、各画像から抽出された物体領域候補集合を構成する各物体領域候補と、何れの物体領域候補にも含まれないピクセル集合で構成される領域、すなわち背景領域と、について推定する。
以下では、画像Iについて推定されたアピアランスモデル集合を
とする。ここで、アピアランスモデル
は、物体領域候補
に対応しており、物体領域候補Rijに含まれるピクセル集合
から推定することができる。アピアランスモデルHi0は、上記数9で示した物体領域候補集合を構成する何れの物体領域候補にも含まれない領域、すなわち背景領域から推定されるアピアランスモデルであり、上記数9で示した物体領域候補集合を構成する何れの物体領域候補にも含まれないピクセル集合から推定することができる。アピアランスモデルは、例えばGaussian Mixture Modelを用いて構築することができる。
ステップS104では、対応付け推定部16が、ステップS102で得られた各画像の各物体領域候補について、各画像に含まれる全ての物体領域候補の中から特に類似した物体領域候補とのピクセル間の密な対応付けを推定する。ここで、類似する物体領域候補間におけるピクセル間の密な対応付けは、対応付けられるピクセル間の画像特徴量の類似性を評価する項と、物体領域候補内の近傍ピクセルに関する、対応付けに伴う移動ベクトルのなめらかさを評価する項と、から構成される最適化関数を解くことによって算出する。例えば、以下の処理を実行する。
まず、各物体領域候補から画像特徴量を抽出し、各物体領域候補
について、抽出した画像特徴量に関して特に類似した|N|個の物体領域候補との間で下記参考文献2に開示されているSIFT Flowを算出する。|N|はパラメータであり、予め定めた値を設定する。また、各物体領域候補から画像特徴量を抽出する方法としては、例えば下記参考文献3に開示されたGIST特徴量を用いることができる。
(参考文献2) C. Liu et al., SIFT Flow: Dense Correspondence across the Scenes and its Applications, TPAMI, 33(5),2011.
インターネット(URL:http://people.csail.mit.edu/celiu/SIFTflow/SIFTflow.pdf)
(参考文献3) A. Oliva et al., Modeling the Spape of the Scene: A Holistic Representation of the Spatial Envelope, IJCV, 42(3), pp145-175, 2001.
インターネット(URL:http://cvcl.mit.edu/Papers/IJCV01-Oliva-Torralba.pdf)
以下では、対応付け推定処理で得られた対応付け集合を
とする。wRR’(x)は、ピクセルx∈Rに対応付けられる
内のピクセルである。
ステップS106では、物体領域候補更新部18が、ステップS102で得られた上記数9で示すような物体領域候補集合又は前回ステップS106を実行することにより更新された物体領域候補集合、ステップS102のアピアランスモデル推定処理で得られたアピアランスモデル集合、及びステップS104の対応付け推定処理で得られた対応付け集合の結果を用いて、物体領域候補を更新する。
ここで、物体領域候補の更新は、入力された画像群に含まれる各画像の各ピクセルに関する物体らしさを評価する項と、ステップS102で得られた上記数9で示すような物体領域候補集合又は前回ステップS106を実行することにより更新された物体領域候補集合に含まれる物体領域候補の空間上の近さを評価する項と、ステップS102のアピアランスモデル推定処理で得られたアピアランスモデルへの寄与を評価する項と、ステップS104の対応付け処理で対応付けられたピクセル間の画像特徴量の類似性を評価する項と、画像内で隣接するピクセルのラベルのなめらかさを評価する項と、ステップS104の対応付け処理で対応付けられたピクセルのラベルの一貫性を評価する項と、を含む目的関数を最適化することによって行う。このような目的関数は、例えば下記(5)式のように定義することができる。
・・・(5)
ここで、上記(5)式の右辺第一項は、各画像の各ピクセルに定義されるエネルギー項であり、下記(6)式のように定義される。
・・・(6)
ここで、βはパラメータであり、予め定めた値を設定する。上記(6)式のEobj(x)は、ピクセルxの物体らしさを評価する項であり、例えばステップS100の物体領域抽出処理で得られた上記数3で示した物体領域候補及び上記数4で示した各物体領域候補に対応する物体らしさのスコアを用いて、下記(7)式のように定義することができる。
・・・(7)
ここで、λobjはパラメータであり、予め定めた値を設定する。上記(6)式の
は、ピクセルxの位置について、前回更新された物体領域候補からの空間上の近さを評価する項であり、例えば下記(8)式で定義することができる。
・・・(8)
ここで、λpositionはパラメータであり、予め定めた値を設定する。上記(6)式の
は、ステップS104の対応付け処理で対応付けられたピクセル間の画像特徴量の類似性を評価する項であり、例えば下記(9)式のように定義することができる。
・・・(9)
ここで、α、λmatchはパラメータであり、予め定めた値を設定する。dはピクセルxに定義される局所画像特徴量であり、例えばSIFT記述子を用いることができる。
上記(5)式の右辺第二項は、各画像の各ピクセルのアピアランスモデルに対する寄与を評価する項であり、例えば下記(10)式のように定義できる。
・・・(10)
ここで、logp(c|Hij)は、物体領域候補Rijに対応するアピアランスモデルHijに対する上記数19で示したピクセルxの輝度値の対数尤度である。また、λcolorは、パラメータであり、予め定めた値を設定する。
上記(5)式の右辺第三項は、画像内で隣接するピクセルのラベルのなめらかさを評価する項であり、下記(11)式のように定義することができる。
・・・(11)
ここで、λintはパラメータであり、予め定めた値を設定する。
上記(5)式の右辺第四項は、ステップS104の対応付け推定処理で対応付けられたピクセル間のラベルのなめらかさを評価する項であり、下記(12)式のように定義することができる。
・・・(12)
ここで、λextはパラメータであり、予め定めた値を設定する。また、B(x)は、
のとき0、それ以外で1をとる。
上記(5)式は、例えば以下のように解くことができる。まず画像Iを選択し、それ以外の画像に含まれる物体領域候補は全て固定する。この場合、上記(5)式は画像Iに対応する、上記数9で示した物体領域候補集合を変数とする関数となり、これはloopy belief propagation等の公知のアルゴリズムを用いて解くことができる。この処理を各画像について実行することにより、上記数9で示した物体領域候補集合を更新することができる。
ステップS108では、収束判定部20が、ステップS108の物体領域更新処理の結果が収束条件を満たすか否かを判定する。収束条件としては、例えば物体領域更新処理で定義された目的関数の値の変化量が一定以下になったことを収束条件としてもよいし、ステップS102〜S106までの一連の処理を繰り返す回数を予め定めておき、ステップS102〜S106までの一連の処理を予め定めた回数繰り返したことを収束条件としてもよい。そして、収束判定部20が、収束条件を満たすと判定した場合はステップS108へ移行し、収束条件を満たさないと判定した場合はステップS102へ移行する。
ステップS108では、物体領域出力部22が、ステップS106の物体領域更新処理により得られた物体領域を含む画像を出力する。図6には、入力画像群40と、入力画像群40に対してステップS100〜S108の処理を実行することにより得られた物体領域のみを含む出力画像群50を示した。なお、図6に示すように、入力画像群40は、抽出対象を飛行機とした画像群である。
図6に示すように、入力画像群40に含まれる入力画像42には1機の飛行機が含まれており、この入力画像42からは、1機の飛行機のみを含む出力画像52が得られる。また、入力画像44には向かい合わせの2機の飛行機が含まれており、この入力画像44からは、右向きの飛行機のみを含む出力画像54、左向きの飛行機のみを含む出力画像54が得られる。また、入力画像46には大小様々な複数の飛行機が含まれており、この入力画像46からは、それぞれの飛行機のみを含む出力画像56、56、56、・・・が得られる。また、入力画像48には、飛行機は1機も含まれていないため、この入力画像48からは、飛行機が抽出された出力画像は得られない。
ここで、例えば図7に示すように、入力画像60に一部が重なり合う2つの物体領域候補62、62が含まれている場合、従来技術では、2つの物体領域候補62、62を精度良くセグメンテーションすることができず、出力画像70は、1つの物体領域候補72のみを含む出力画像となってしまう。
これに対し、本実施形態では、図8に示すように、入力画像60に一部が重なり合う2つの物体領域候補62、62が含まれている場合、2つの物体領域候補62、62を精度良くセグメンテーションすることができ、出力画像70は、2つの物体領域候補62、62に対応した2つの物体領域候補72、72を含む出力画像となる。
このように、入力画像群の中に1つの画像に複数の抽出対象の物体が写り込んでいる画像が混在していたり、抽出対象の物体領域を含まない画像が混在していたりする場合でも、抽出対象の物体領域を精度よくセグメンテーションすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の画像セグメンテーション装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばCD−ROMやメモリーカード等に格納して提供することも可能である。
10 画像セグメンテーション装置
12 物体領域抽出部
14 アピアランスモデル推定部
16 対応付け推定部
18 物体領域更新部
20 収束判定部
22 物体領域出力部

Claims (6)

  1. 物体領域抽出部、アピアランスモデル推定部、対応付け推定部、物体領域更新部、収束判定部、及び物体領域出力部を含む画像セグメンテーション装置における画像セグメンテーション方法であって、
    前記物体領域抽出部が、画像群に含まれる各画像から、抽出対象物体を表す一つ以上の物体領域候補を抽出するステップと、
    前記アピアランスモデル推定部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補に基づいて、前記物体領域候補の各々についてアピアランスモデルを推定するステップと、
    前記対応付け推定部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補の各々について、類似した他の物体領域候補との間のピクセルの対応付けを推定するステップと、
    前記物体領域更新部が、前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補、前記アピアランスモデル推定部により推定された前記アピアランスモデル、及び前記対応付け推定部により推定された対応付けに基づいて、前記画像群に含まれる各画像の前記物体領域候補を更新するステップと、
    前記収束判定部が、所定の収束条件が満たされるまで、前記アピアランスモデル推定部による推定、前記対応付け推定部による推定、及び前記物体領域更新部による更新を繰り返し行うステップと、
    前記物体領域出力部が、前記画像群に含まれる各画像の前記物体領域候補を物体領域として出力するステップと、
    を含み、
    前記物体領域更新部が前記物体領域候補を更新するステップは、
    前記画像群に含まれる各画像の各ピクセルに関する前記抽出対象物体らしさを評価する項と、
    前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補からの空間的な近さを評価する項と、
    前記画像群に含まれる各画像の各ピクセルに関する、前記アピアランスモデル推定部により推定された前記アピアランスモデルへの寄与を評価する項と、
    前記対応付け推定部により対応付けられたピクセル間の画像特徴量の類似性を評価する項と、
    画像内で隣接するピクセルの、物体領域候補に含まれるか否かを示すラベルのなめらかさを評価する項と、
    前記対応付け推定部により対応付けられたピクセル間の前記ラベルの一貫性を評価する項と、
    を含む目的関数を最適化することによって、前記画像群に含まれる各画像の前記物体領域候補の更新を行う
    画像セグメンテーション方法。
  2. 前記物体領域抽出部が前記物体領域候補を抽出するステップは、画像中で互いに重複する領域が存在しないように前記物体領域候補を抽出する
    請求項1記載の画像セグメンテーション方法。
  3. 前記アピアランスモデル推定部が前記アピアランスモデルを推定するステップは、前記物体領域抽出部により抽出された各画像の各物体領域候補について前記アピアランスモデルを推定し、各画像の、各物体領域候補の何れにも含まれないピクセル集合で構成される背景領域について、前記アピアランスモデルを推定する
    請求項1又は請求項2記載の画像セグメンテーション方法。
  4. 前記対応付け推定部が前記対応付けを推定するステップは、
    前記物体領域候補の各々について、
    類似した他の物体領域候補との間で対応付けられるピクセル間の画像特徴量の類似性を評価する項と、
    前記物体領域候補内の近傍ピクセルに関する、前記ピクセルの対応付けに伴う移動ベクトルのなめらかさを評価する項と、
    から構成される最適化関数を解くことによって、前記類似した他の物体領域候補との間のピクセルの対応付けを推定する
    請求項1〜3の何れか1項に記載の画像セグメンテーション方法。
  5. 画像群に含まれる各画像から、抽出対象物体を表す一つ以上の物体領域候補を抽出する物体領域抽出部と、
    前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補に基づいて、前記物体領域候補の各々についてアピアランスモデルを推定するアピアランスモデル推定部と、
    前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補の各々について、類似した他の物体領域候補との間のピクセルの対応付けを推定する対応付け推定部と、
    前記物体領域抽出部により抽出された前記物体領域候補又は更新された前記物体領域候補、前記アピアランスモデル推定部により推定された前記アピアランスモデル、及び前記対応付け推定部により推定された対応付けに基づいて、前記画像群に含まれる各画像の前記物体領域候補を更新する物体領域更新部と、
    所定の収束条件が満たされるまで、前記アピアランスモデル推定部による推定、前記対応付け推定部による推定、及び前記物体領域更新部による更新を繰り返し行う収束判定部と、
    前記画像群に含まれる各画像の前記物体領域候補を物体領域として出力する物体領域出力部と、
    を含み、
    前記物体領域更新部は、
    前記画像群に含まれる各画像の各ピクセルに関する前記抽出対象物体らしさを評価する項と、
    前記物体領域抽出部により抽出された前記物体領域候補又は前記物体領域更新部により更新された前記物体領域候補からの空間的な近さを評価する項と、
    前記画像群に含まれる各画像の各ピクセルに関する、前記アピアランスモデル推定部により推定された前記アピアランスモデルへの寄与を評価する項と、
    前記対応付け推定部により対応付けられたピクセル間の画像特徴量の類似性を評価する項と、
    画像内で隣接するピクセルの、物体領域候補に含まれるか否かを示すラベルのなめらかさを評価する項と、
    前記対応付け推定部により対応付けられたピクセル間の前記ラベルの一貫性を評価する項と、
    を含む目的関数を最適化することによって、前記画像群に含まれる各画像の前記物体領域候補の更新を行う
    画像セグメンテーション装置。
  6. コンピュータに、請求項1〜の何れか1項に記載の画像セグメンテーション方法の各ステップを実行させるための画像セグメンテーションプログラム。
JP2014239327A 2014-11-26 2014-11-26 画像セグメンテーション方法、装置、及びプログラム Active JP6389742B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014239327A JP6389742B2 (ja) 2014-11-26 2014-11-26 画像セグメンテーション方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014239327A JP6389742B2 (ja) 2014-11-26 2014-11-26 画像セグメンテーション方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016099980A JP2016099980A (ja) 2016-05-30
JP6389742B2 true JP6389742B2 (ja) 2018-09-12

Family

ID=56077258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014239327A Active JP6389742B2 (ja) 2014-11-26 2014-11-26 画像セグメンテーション方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6389742B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6598746B2 (ja) * 2016-08-22 2019-10-30 Kddi株式会社 他の物体の画像領域も考慮して物体を追跡する装置、プログラム及び方法
KR101874471B1 (ko) * 2016-11-07 2018-07-04 광주과학기술원 객체 검색 후보 영역을 개선하기 위한 방법, 컴퓨터-판독가능 저장 매체 및 장치
JP6754717B2 (ja) * 2017-04-04 2020-09-16 日本電信電話株式会社 物体候補領域推定装置、物体候補領域推定方法、及び物体候補領域推定プログラム
JP6968342B2 (ja) * 2017-12-25 2021-11-17 オムロン株式会社 物体認識処理装置、物体認識処理方法及びプログラム
JP6814178B2 (ja) * 2018-06-11 2021-01-13 日本電信電話株式会社 物体検出装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5750603B2 (ja) * 2011-03-23 2015-07-22 株式会社ブレイン 物体識別装置

Also Published As

Publication number Publication date
JP2016099980A (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
Ronneberger et al. U-net: Convolutional networks for biomedical image segmentation
JP6458394B2 (ja) 対象追跡方法及び対象追跡装置
JP6389742B2 (ja) 画像セグメンテーション方法、装置、及びプログラム
Xu et al. Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions
CN110992379B (zh) 一种基于方向超像素的快速图像分割方法
KR20180067909A (ko) 영상 분할 장치 및 방법
KR20200075940A (ko) 실시간 데이터 셋 확대 생성 시스템, 실시간 데이터 셋 확대 생성 방법, 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
CN113592881B (zh) 图片指代性分割方法、装置、计算机设备和存储介质
KR101906663B1 (ko) 다양한 컬러 공간에서 협동 얼굴 컬러 특징 학습 방법 및 장치
Chen et al. Objects co-segmentation: Propagated from simpler images
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
JP6448036B2 (ja) 物体領域特定方法、装置、及びプログラム
KR102444172B1 (ko) 영상 빅 데이터의 지능적 마이닝 방법과 처리 시스템
JP2014149788A (ja) 物体領域境界推定装置、物体領域境界推定方法及び物体領域境界推定プログラム
CN113888567A (zh) 一种图像分割模型的训练方法、图像分割方法及装置
JP6389743B2 (ja) 画像対応付け方法、装置、及びプログラム
Zhang et al. RGB-D saliency detection with multi-feature-fused optimization
Yu et al. Points2Polygons: Context-based segmentation from weak labels using adversarial networks
JP2011076575A (ja) 画像処理装置、画像処理方法及びプログラム
CN111862212B (zh) 基于图正则化多视图特征嵌入的多类目标协同定位方法
Facil et al. Deep single and direct multi-view depth fusion
Ito et al. Interactive region segmentation for manga

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180820

R150 Certificate of patent or registration of utility model

Ref document number: 6389742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150