JP2014203157A

JP2014203157A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2014203157A
Application number: JP2013076837A
Authority: JP
Inventors: 一郎梅田; Ichiro Umeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2014-10-27

Abstract

【課題】事例群の要素数によらず精度よくセグメンテーションを高速化できるようにする。【解決手段】まず、マスク事例演算部２０７は、教師画像及び正マスク例２０１からマスク事例群２１２を求め、マスク事例集約部２０８は、マスク事例群２１２を集約し教師画像毎のマスクモデル２０２を求める。次いで、入力画像適応部２０９は、教師画像ごとのマスクモデル２０２を入力画像２０３に適応させ、前景重み及び背景重み２１３を求め、マスク演算部２１０は、入力画像２０３を前景重み及び背景重み２１３に従ってセグメンテーションし、入力画像２０３のマスク２０４を求める。【選択図】図２

Description

本発明は、特に、物体を含む画像からその物体の領域を切り出すために用いて好適な画像処理装置、画像処理方法及びプログラムに関する。

ある物体を含む画像からその物体の領域をピクセル単位で切り出す技術は一般にセグメンテーションまたは前景背景分離と呼ばれており、このセグメンテーションにはグラフカット法が広く用いられている。グラフカット法とは、ノードが画像の各ピクセルに対応する重み付きグラフを作成し、最大フロー最小カット定理に基づきそのグラフのカットを求め、そのカットを前景と背景との境界とする手法である。

特許文献１には、セグメンテーションを高速化するために、上記グラフを作成した後に、機械学習によりリンクの要不要を識別し、不要である場合には削除する手法が開示されている。また、特許文献２には、セグメンテーションを高速化するために、上記グラフをスパニングツリー構造になるまでリンクを削除する手法が開示されている。さらに特許文献３には、セグメンテーションを高速化するために、画像上で隣接かつ類似するピクセル群をスーパーピクセルとして集約し、グラフのノード数及びリンク数を削減する手法が開示されている。

一方、非特許文献１には、ユーザーが任意の矩形を物体の周囲に描くことにより、その矩形上の各ピクセルを背景と想定して色クラスタ頻度ヒストグラムを作成し、この色クラスタ頻度ヒストグラムを背景モデルとする手法が開示されている。非特許文献２には、セグメンテーションを構造化ＳＶＭの問題と捉え、複数の教師画像及びその正マスク例が用意されている場合に、教師画像あたり複数の負マスク例を生成してその重みを学習し、セグメンテーションの精度を向上させる手法が開示されている。

国際公開第２００６／１３２１９４号特表２００８−５２２２７３号公報特開２０１２−８５２３３号公報米国特許出願公開第２００７／０２３７３８７号明細書

ＧｒａｂＣｕｔ−ＩｎｔｅｒａｃｔｉｖｅＦｏｒｅｇｒｏｕｎｄＥｘｔｒａｃｔｉｏｎｕｓｉｎｇＩｔｅｒａｔｅｄＧｒａｐｈＣｕｔｓ，ＣａｒｓｔｅｎＲｏｔｈｅｒ，ＶｌａｄｉｍｉｒＫｏｌｍｏｇｏｒｏｖ，ａｎｄＡｎｄｒｅｗＢｌａｋｅ，ＳＩＧＧＲＡＰＨ２００４ＫｅｒｎｅｌｉｚｅｄＳｔｒｕｃｔｕｒａｌＳＶＭＬｅａｒｎｉｎｇｆｏｒＳｕｐｅｒｖｉｓｅｄＯｂｊｅｃｔＳｅｇｍｅｎｔａｔｉｏｎ，ＬｕｃａＢｅｒｔｅｌｌｉ，ＴｉａｎｌｉＹｕ，ＤｉｅｍＶｕ，ＳａｌｉｈＧｏｋｔｕｒｋ，ＣＶＰＲ２０１１ＪａｃｋＥｄｍｏｎｄｓａｎｄＲｉｃｈａｒｄＭ．Ｋａｒｐ． "Ｔｈｅｏｒｅｔｉｃａｌｉｍｐｒｏｖｅｍｅｎｔｓｉｎａｌｇｏｒｉｔｈｍｉｃｅｆｆｉｃｉｅｎｃｙｆｏｒｎｅｔｗｏｒｋｆｌｏｗｐｒｏｂｌｅｍｓ"．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ１９（２）：２４８−２６４．

セグメンテーションを行う場合には、一般に処理が高速であることが望ましい。ところが、ある入力画像のマスクを求める際に、何らかの事例群に基づいてセグメンテーションを行う手法では、その事例群の要素数が多い程セグメンテーションが正確になるが、その演算量は必然的にその事例群の要素数に比例してしまう。例えば非特許文献２に記載の手法では、事例の数は負マスク例の数と等しく、その演算コストは負マスク例数に比例してしまう。

本発明は前述の問題点に鑑み、事例群の要素数によらず精度よくセグメンテーションを高速化できるようにすることを目的としている。

本発明に係る画像処理装置は、物体を映した複数の教師画像と、前記教師画像の前景となるピクセルを真とし背景となるピクセルを偽とした二値の正マスク例とに基づいて、入力画像の物体のマスクを求める画像処理装置であって、前記複数の教師画像のそれぞれについて、前記教師画像から前記正マスク例と異なる負マスク例及びその重みを求めるマスク事例演算手段と、前記正マスク例、前記負マスク例、及び前記負マスク例の重みを前記教師画像ごとに集約し、教師画像ごとのマスクモデルを求めるマスク事例集約手段と、前記マスク事例集約手段によって求められた教師画像ごとのマスクモデルに基づいて前記入力画像の前景重み及び背景重みを求める入力画像適応手段と、前記入力画像適応手段によって求められた前景重み及び背景重みに基づいて前記入力画像のマスクを求めるマスク演算手段と、を備えることを特徴とする。

本発明によれば、事例群の要素数によらず精度よくセグメンテーションを高速化することができる。

本発明の実施形態に係る画像処理装置のハードウェア構成例を示すブロック図である。本発明の実施形態に係る画像処理装置の機能構成例を示すブロック図である。重み付きグラフの生成方法及び最大フロー最小カットによるセグメンテーションを説明するための図である。入力画像及びその画像に対応するマスクの一例を示す図である。本発明の実施形態に係る画像処理装置による処理手順の一例を示すフローチャートである。教師画像及びその正マスク例から入力画像のマスクを求めるまでの流れを説明するための図である。本発明の実施形態において、マスク事例演算部による処理手順の一例を示すフローチャートである。本発明の実施形態において、マスク事例集約部による処理手順の一例を示すフローチャートである。本発明の実施形態において、入力画像適応部による処理手順の一例を示すフローチャートである。本発明の実施形態において、マスク演算部による処理手順の一例を示すフローチャートである。

以下、本発明の実施形態について図面を参照しながら説明する。
図１は、本実施形態に係る画像処理装置１００のハードウェア構成例を示すブロック図である。
図１において、撮像素子１０１はＣＣＤ、ＣＭＯＳ等で構成され、被写体像を光から電気信号に変換するための撮像手段である。信号処理回路１０２は撮像素子１０１から得られた被写体像に関する時系列信号を処理し、デジタル信号に変換する回路である。

ＣＰＵ１０３は、ＲＯＭ１０４に格納されている制御プログラムを実行することにより、画像処理装置１００全体の制御を行う。ＲＯＭ１０４は、ＣＰＵ１０３が実行する制御プログラムや各種パラメータデータを格納する。制御プログラムは、ＣＰＵ１０３によって実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。ＲＡＭ１０５は、画像や各種情報を記憶する。また、ＲＡＭ１０５は、ＣＰＵ１０３のワークエリアやデータの一時待避領域として機能する。また、ディスプレイ１０６は画像などを表示させるための表示手段である。

なお、本実施形態では、後述するフローチャートの各ステップに対応する処理を、ＣＰＵ１０３を用いてソフトウェアで実現することとするが、その処理の一部または全部を電子回路などのハードウェアで実現するようにしても構わない。また、本実施形態に係る画像処理装置１００は、撮像素子１０１や信号処理回路１０２を省いて汎用のパーソナルコンピュータ（ＰＣ）を用いて実現してもよいし、画像処理専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア（プログラム）をＰＣタ等の処理装置（ＣＰＵ，プロセッサ）にて実行してもよい。

図２は、本実施形態に係る画像処理装置１００の機能構成例を示すブロック図である。
本実施形態に係る画像処理装置１００は、辞書作成部２０５と、セグメンテーション部２０６とから構成されている。辞書作成部２０５は、複数の教師画像及びその正マスク例２０１の対が与えられた場合に、教師画像ごとのマスクモデル２０２、いわゆる辞書を作成する。セグメンテーション部２０６は、入力画像２０３を入力して、入力画像２０３に対応するマスク２０４を出力する。

ここで、入力画像２０３及び教師画像は、同一の物体を撮影した画像であって、その縦横ピクセル数は全て同一になる様に調整されているものとする。また、マスクとは、対応する画像の各ピクセルについてその物体に属するピクセルか否かを二値で表現した画像である。入力画像及びマスクの例をそれぞれ図４（Ａ）及び図４（Ｂ）に示す。図４（Ｂ）に示すマスクは、図４（Ａ）の入力画像が示す動物の顔領域を前景としている。以降、マスクについて図面で表現する場合に白色を前景と表現し、黒色を背景と表現する。

辞書作成部２０５は、教師画像及び正マスク例２０１が変更されるごとに動作し、セグメンテーション部２０６は、入力画像２０３が入力されるごとに動作する。本実施形態では、入力画像２０３は、教師画像及び正マスク例２０１の変更より高頻度に入力されることを前提とする。また、辞書作成部２０５及びセグメンテーション部２０６は、必ずしも同一環境上で動作する必要はない。例えば、辞書作成部２０５は図１に示すハードウェア構成により動作するのではなく、通信ネットワークを介し別途設けられたＰＣ・サーバ等の上で動作してもよい。

辞書作成部２０５は、マスク事例演算部２０７及びマスク事例集約部２０８から構成されており、セグメンテーション部２０６は、入力画像適応部２０９及びマスク演算部２１０から構成されている。

マスク事例演算部２０７は、教師画像及び正マスク例２０１から、マスク事例群２１２を求める。マスク事例群２１２は、教師画像及び正マスク例２０１のみならず、さらに教師画像のそれぞれについての負マスク例及びその重みを含むものである。負マスク例とは、ある教師画像から生成し得るマスク例であり、かつ正マスク例とは異なるマスクである。負マスク例の重みはその負マスクが正しくセグメンテーションする上でどれだけ重要かを示すものであり、絶対値が大きいほど重要であるものとする。負マスク例及びその重みは構造化ＳＶＭ（サポートベクタマシン）を用いて生成する。教師画像あたりの負マスク例の数が多い程、セグメンテーションの精度は向上する。

マスク事例集約部２０８は、マスク事例群２１２に含まれる教師画像、正マスク例、負マスク例、及びその重みから、教師画像ごとに、正負のマスク形状の傾向や、色クラスタヒストグラム等を集約し、教師画像ごとのマスクモデル２０２を出力する。マスク事例集約部２０８で教師画像ごとにマスク事例を集約しておくことにより、セグメンテーション部２０６による演算量は、負マスク例数に比例せず、教師画像数に比例するようになり、演算量が減少する。

入力画像適応部２０９は、教師画像ごとのマスクモデル２０２について、教師画像ごとに入力画像２０３との類似度を求め、教師画像ごとのマスクモデル２０２の重み付き総和を求めて入力画像２０３に適応させ、前景重み・背景重み２１３を生成する。マスク演算部２１０は、入力画像２０３及び前景重み・背景重み２１３から重み付きグラフを生成し、その重み付きグラフを前景と背景とに分離し、マスク２０４を作成する。この処理は、通常の画像のグラフカット法によるセグメンテーションに相当する。

次に、辞書作成部２０５及びセグメンテーション部２０６の動作をそれぞれ図５（Ａ）及び図５（Ｂ）を用いて説明する。但し、各ステップの詳細についてはそれぞれ後述する。

まず、図５（Ａ）の処理について図６を参照しながら説明する。前述したように辞書作成部２０５は、教師画像及び正マスク例２０１を入力して、教師画像ごとのマスクモデル２０２を出力する。そこで、まず、ステップＳ５０１において、マスク事例演算部２０７は、教師画像及び正マスク例２０１からマスク事例群２１２を求める。例えば、辞書作成部２０５に、図６に示す教師画像６０１及び正マスク例６０２が与えられた場合に、教師画像６０１のそれぞれについて、負マスク例６０３、６０４、及び負マスク例重み６０５、６０６を求め、マスク事例群を求める。次に、ステップＳ５０２において、マスク事例集約部２０８は、マスク事例群２１２を集約し教師画像毎のマスクモデル２０２を求める。図６に示す例の場合、教師画像ごとのマスクモデル６０７を求める。

次に、図５（Ｂ）の処理について図６を参照しながら説明する。前述したようにセグメンテーション部２０６は、入力画像２０３、及び図５（Ａ）に示したフローチャートの処理によって出力された教師画像ごとのマスクモデル２０２を入力する。そして、入力画像２０３に対応するマスク２０４を出力する。まず、ステップＳ５１１において、入力画像適応部２０９は、教師画像ごとのマスクモデル２０２を入力画像２０３に適応させ、前景重み及び背景重み２１３を求める。図６に示す例の場合、入力画像６０８及び教師画像ごとのマスクモデル６０７から、前景重み・背景重み６０９を求める。次に、ステップＳ５１２において、マスク演算部２１０は、入力画像２０３を前景重み及び背景重み２１３に従ってセグメンテーションし、マスク２０４を求める。図６に示す例の場合、入力画像６０８及び前景重み・背景重み６０９から重み付きグラフ６１０を作成し、重み付きグラフ６１０からマスク６１１を作成する。

ここで、図５の各ステップを通して行う演算について説明する。なお、図面では、数式中の下付き添え字を'＿'記号を用いて表現している。

ステップＳ５１２で入力画像ｘからマスクｙを求めるには、いわゆる画像のグラフカットによるセグメンテーションに従い、以下の式（１）に示す値Ｅを最大化するマスクｙを求める。

ここで、式（１）の値Ｅは重み付きグラフのフローであって、値Ｅの最大化はグラフのノード重みを示すＦ（ｘ，ｙ）及びリンク重みを示すＢ（ｘ，ｙ）で定義される重み付きグラフの最大フロー最小カット問題と等しいものとする。また、ｐは画像ｘ上のあるピクセル及びグラフ上の対応するノードを示し、ｑはｐに隣接するピクセル及びノードを示す。下添え字に示すｐは画像ｘやマスクｙの点ｐにおけるピクセル値ないしマスク値を示す。また、オーバーライン付きのマスクｙはマスクｙの各ピクセルを否定したものを示す。さらにＫ_FG及びＫ_BGはそれぞれ入力画像ｘの前景重み、背景重みである。

式（１）に示したＦ（ｘ，ｙ）は、あるノードｐとソースノード、あるノードｐとシンクノードの間のリンクの重みを定義する。前景重みＫ_FG及び背景重みＫ_BGは、後述する教師画像ｘ_true及び正マスク例ｙ_trueと、入力画像ｘとが与えられた時に、入力画像ｘ上の各ピクセルについて、それぞれ前景もしくは背景と判定される場合の重みを、画像状に並べたものと解釈できる。

式（１）に示すＬｉｎｋＷｅｉｇｈｔ（ｐ，ｑ）は、あるノードｐと、隣接するノードｑとの間のリンクの重みを定義する。リンク重みは一般に画像にグラフカットアルゴリズムを適用する際のスムージング項であって、輪郭の凹凸を抑制したり飛び地の発生を抑えたりする。定数γはスムージングの強さを経験的に定義する。値ｄ_pqはｐｑ間のユークリッド距離であり、（ｘ_p−ｘ_q）を入力画像ｘ上のピクセルｐ及びピクセルｑの色のＲＧＢ空間上に変換したユークリッド距離である。σ_colorはＲＧＢ空間上での色のユークリッド距離の分散であり、経験的もしくは統計的に定義する。

次に、重み付きグラフの生成及び最大フロー最小カットによるセグメンテーションについて図３を参照しながら簡単に説明する。入力画像を図３（Ａ）に示すものとし、前景重みＫ_FG及び背景重みＫ_BGをそれぞれ図３（Ｂ）及び図３（Ｃ）に示すものとし、さらに生成する重み付きグラフを図３（Ｄ）に示すものとする。また、図３（Ａ）に示す入力画像おいて、同一の模様は同色を示すものとする。さらに、図３（Ｂ）及び図３（Ｃ）において、濃色が高い値を示し、淡色が低い値を示すものとする。

入力画像上のピクセル３０１は重み付きグラフ上のノード３１１に相当し、ピクセル３０１とピクセル３０２との間の隣接関係はノード３１１とノード３１２との間のリンクに相当する。ノード３１１とノード３１２とを結ぶノード間のリンクの重みは、ピクセル３０１、３０２のＲＧＢ値により式（１）に示すＬｉｎｋＷｅｉｇｈｔ（）に従って求められる。

次に、ソースノード３１３を追加し、ソースノード３１３とノード３１１とにリンクを張る。このリンクの重みとして前景重みＫ_FGのピクセル３０３の値を用いる。同様に、シンクノード３１４とノード３１２とのリンクの重みとして背景重みＫ_BGのピクセル３０４の値を用いる。

次に、ソースノード３１３からシンクノード３１４への最大フロー最小カットを行う。この重み付きグラフは、ノード数に比してリンク数が少なく、かつ、Ｆ（ｘ，ｙ）の値及びＢ（ｘ，ｙ）の値を明示的に求める必要はないので、この最小カットを求めるには、非特許文献３に記載のエドモンズ・カープのアルゴリズムが適している。

最大フロー最小カットにより、重み付きグラフ上の各ピクセルは、ソースノード側とシンクノード側とに分割される。図３（Ｄ）には、ソースノードに分類されたノードを白抜きの丸印で示し、シンクノードに分類されたノードを黒の丸印で示している。図３（Ｄ）の各ノードの分割結果を改めて画像状に並べた物をマスクｙとし、図３（Ｅ）に示す。シンクノード側に分類されたノード３１１は背景としてピクセル３２１に対応し、ソースノード側に分類されたノード３１２はピクセル３２２に対応する。このように図３（Ｅ）に示すマスクｙがセグメンテーションの結果である。

非特許文献２に記載の方法では、式（１）に示すＦ（ｘ，ｙ）は、以下の式（２）に示す構造化ＳＶＭによる識別を行っていた。この演算はセグメンテーション部内で行われ、その演算量は負マスク例ｙ_falseの数に比例していた。

但し、式（２）において、Ｋ′は構造化ＳＶＭのカーネル、Λは入力画像ｘと教師画像ｘ_trueとの類似度、βはサブカーネルΩの重み、Ωはサブカーネルの演算を示す。サブカーネルについては後述する。

本実施形態では、式（１）に示すように、式（２）のＦ′（ｘ，ｙ）のカーネルを前景と背景とで場合分けしてそれぞれ前景重みＫ_FG及び背景重みＫ_BGとして置き換えた。さらに以下の式（３）に示すように、前景重みＫ_FG及び背景重みＫ_BGの演算に関数Ｉと関数Ｊとを導入している。関数Ｊは、入力画像ｘに依存しない範囲で、正マスク例ｙ_true、負マスク例ｙ_false及びその重みα_yfalseを教師画像ｘ_trueごとに集約する。関数Ｉは関数Ｊの結果を入力画像ｘに適応させたものである。また、関数Ｊは入力画像ｘに依存しないのでセグメンテーション部２０６内ではなく事前に辞書作成部２０５内で演算することができる。よって、セグメンテーション部２０６によるステップＳ５１１及びステップＳ５１２の演算は、関数Ｉ及び関数Ｋの演算のみとなる。その演算量は、負マスク例ｙ_falseの数に対して独立であって、教師画像数ｘ_trueの数に比例することから、演算量を減少させることができる。

式（３）において、ある負マスク例ｙ_falseとは、ある教師画像ｘ_trueから得られたマスクのうちの正マスク例ｙ_trueと異なるマスクとする。また、前景重みＫ_FG及び背景重みＫ_BGは、複数のサブカーネル、即ち関数Ｉの重みβによる重み付き総和である。

関数Ｉは、サブカーネルであって、関数Ｊの、入力画像ｘと教師画像ｘ_trueとの類似度Λを重みとした重み付け総和を求める関数である。また、入力画像ｘの個々のピクセルについて、前景重みもしくは背景重みを並べた画像状の配列でもある。サブカーネルとは、前景重み・背景重みの尺度であって、構造化ＳＶＭのカーネルとして適する、即ち半正定値性を満たす任意の関数である。Ｉ＊はサブカーネルのそれぞれに応じて変化する項を示す。

Λ（ｘ_i，ｙ_j）は入力画像ｘと教師画像ｘ_trueとの類似度、即ち重要度を示す。φ_xは画像間の類似度を導出可能な任意の特徴量である。本実施形態では特許文献４に示すＨＯＧ特徴を用いる。画像間の類似度は半正定値性を満たすべくＲＢＦカーネル距離で定義され、０から１の値域を取る。σ_HOGはこのＨＯＧ特徴の分散であって、経験的に定められる定数である。

βは関数Ｉの個々のサブカーネルの重みである。本実施形態では、βは、説明の簡略化及び学習を高速化するために、経験的に定義するものとし、それぞれのサブカーネルを通したβの総和は１になるものとする。

関数Ｊは、教師画像ｘ_trueごとに、正マスク例ｙ_true、負マスク例ｙ_false及びその重みα_yfalseを前景・背景のそれぞれについて集約する。Ｊ＊はサブカーネルのそれぞれに応じて変化する項を示す。

α_trueは、ある教師画像ｘ_trueについての負マスク例重みα_yfalseの総和である。負マスク例ｙ_false及び負マスク例重みα_yfalseは、式（１）のＦ（ｘ，ｙ）を構造化ＳＶＭと見なし、その学習結果であるサポートベクタの重みとして得られる。画像における構造化ＳＶＭとは、入力画像ｘとマスクｙとをそれぞれベクトルとみなし、その２つのベクトルの単純連結を事例のベクトルとして扱うＳＶＭを意味する。この学習は、非特許文献２に記載の方法と同様、以下の式（４）の拘束付き最小二乗問題を逐次的に繰り返すことにより行われる。即ち、全ての教師画像について式（１）に基づきマスクを求め、そのマスクのｄｅｌｔａ項が最大となるマスクを負マスク例ｙ_falseとして選択・追加し、式（４）を最小化する負マスク例重みα_yfalseを求める。但しｄｅｌｔａ（ｙ_true，ｙ_false）は正マスク例ｙ_trueと負マスク例ｙ_falseとで異なるピクセル値を持つピクセルの数を示す。ξ及びＣは経験的に設定するパラメータである。

以下、サブカーネルごとに、関数Ｉ及び関数Ｊについて説明する。前述したように、関数Ｉは関数Ｊの類似度による重み付き総和でなければならない。かつ、関数Ｊは、入力画像ｘに依存してはならず、関数Ｉ及び関数Ｊは、構造化ＳＶＭのカーネルとして適さなければならない。これらを満たす限り、関数Ｉ及び関数Ｊについては、任意の関数が適用可能である。本実施形態では、サブカーネルは、非特許文献２に記載の方法と同様に、マスク形状の類似度、画像内でのマスクによる色の分離性、及び教師画像群との色との一致度の３種とする。また、それぞれ形状重み、ローカル色重み、グローバル色重みと表現し、下添え字としてそれぞれＳｈａｐｅ、ＬＣｏｌｏｒ、ＧＣｏｌｏｒで表記する。

マスク形状の類似度のサブカーネルの定義は、以下の式（５）に示すものとなる。

但し、ｘ・ｙは画像ｘ，ｙをそれぞれ行列として捉えた場合のｘとｙのドット積を示し、α・ｙはスカラ量αと行列として捉えたｙとの積を示し、オーバーライン付きｙはｙの各ピクセルのマスク値を否定したものを示す。

前景形状モデルＪ_FGShapeは、ある教師画像について、その個々のピクセルについて、そのピクセルが前景として識別されたときに、その識別がどれだけ正しいか、を並べた画像状の配列となる。同様に背景形状モデルＪ_BGShapeは、あるピクセルの背景としての識別の確からしさを示す。

前景形状重みＩ_FGShape及び背景形状重みＩ_BGShapeは、教師画像毎の類似度を重みとする、前景形状モデルＪ_FGShape及び背景形状モデルＪ_BGShapeの重み付き総和をピクセルごとに並べた画像状の配列である。すなわち、入力画像の各ピクセルがどれだけ前景もしくは背景として正しく識別されやすいかを示す。

画像内でのあるマスクによる色の分離性によるサブカーネルの定義を以下の式（６）に示す。

ここで、ｘ_pは画像ｘのピクセルｐを示し、ｙ_pはマスクｙのピクセルｐにおけるマスク値を示す。ｅ_pは、画像においてピクセルｐのみを１とし、他を０とした行列を意味する。ｈ（ｘ_p）は画像ｘのピクセルｐの色クラスタベクトルであって、即ち、該当する色クラスタに相当する次元のみを１とし残りを０としたベクトルを示す。色クラスタの導出手法は任意であり、例えばある色がそれぞれ０から２５５の値を取るＲＧＢで表されたものとして、（Ｒ％１６）＊２５６＋（Ｇ％１６）＊１６＋（Ｂ％１６）として計算する。なお、％は除算した商の小数点以下の切り捨てを意味する。

前景ローカル色重みＩ_FGLColor及び背景ローカル色重みＩ_BGLColorは、単一画像内でのあるマスクによる色の分離性による重みである。それぞれ、入力画像ｘのピクセルについて、そのピクセルの色が、どれだけ前景に現れるか、あるいは背景に現れるか、を示す画像である、と解釈できる。

ｃｏｌｏｒＨｉｓｔ（ｘ，ｙ）は、画像ｘの重み付き色クラスタ頻度ヒストグラムを示す。色クラスタの導出はｈ（ｘ）と等しく、また、その重みはマスクｙによりピクセルごとに与えられる。ヒストグラムは色クラスタｈ（ｘ）が返すクラスタ数と同じＢＩＮ数を持ち、そのＢＩＮの値は、全てのピクセルについての値の総和で正規化されている。また、色クラスタ頻度ヒストグラム同士の類似度はヒストグラム同士のドット積で求められる。

次に、教師画像群との色との一致度によるサブカーネルの定義を以下の式（７）に示す。

但し、上付きＴは配列の転置を示す。

前景グローバル色重みＩ_FGGColor及び背景グローバル色重みＩ_BGGColorは、入力画像のそれぞれのピクセルｐについて、そのピクセルｐの色が、前景もしくは背景の色クラスタ頻度ヒストグラムにどれだけ近いかを示す画像であると解釈できる。この色クラスタ頻度ヒストグラムは全ての教師画像と正マスク例の対から式（６）に示すｃｏｌｏｒＨｉｓｔ関数によって得られ、色クラスタｈ（ｘ）が返すクラスタ数と同じＢＩＮ数を持つ。また、前景の色クラスタ頻度ヒストグラムをグローバル前景色モデルＦＧ_Global、背景の色クラスタ頻度ヒストグラムをグローバル背景色モデルＢＧ_Globalとする。

グローバル色モデル重みＪ_GColorは、前景グローバル色重みＩ_FGGColor及び背景グローバル色重みＩ_BGGColorに共通で教師画像毎に求められる数で、その教師画像の色モデルが教師画像全体から得た色モデルにどれだけ適合するかを示す。あるいはその教師画像でグローバル色モデルによるセグメンテーションがどれだけ有効かを示す。ＧｌｏＣｏｌｏｒＭａｔｃｈ（ｘ，ｙ）は、画像ｘのマスクｙによる前景背景色モデルのグローバル色モデルとの類似度である。

次に、マスク事例演算部２０７による図５（Ａ）のステップＳ５０１のマスク事例群を求める詳細な動作について図７を用いて説明する。この処理では教師画像及び正マスク例２０１を入力し、マスク事例群２１２を出力する。

まず、ステップＳ７０１において、教師画像及び正マスク例から式（７）に示したグローバル前景色モデルＦＧ_Global及びグローバル背景色モデルＢＧ_Globalを求める。次に、ステップＳ７０２において、教師画像ごとに、ＨＯＧ特徴を求める。このＨＯＧ特徴は式（３）に示した値φである。ＨＯＧ特徴の導出法については、例えば特許文献４に開示されている方法を用いるものとする。

次に、ステップＳ７０３において、評価値が収束するまで、ステップＳ７０４〜ステップＳ７０７を繰り返す。この評価値は後述するステップＳ７０５で求め、収束条件は例えば前回のループによりステップＳ７０５で求めた重みα_falseの絶対値が一定値以下になることとする。このループは式（４）の負マスク例重みα_yfalseの学習と等しい。

まず、ステップＳ７０４において、最も正マスク例と異なるピクセル数が多いセグメンテーション結果を、負マスク例として選択し、新たな負マスク例ｙ_falseとして追加する。かつ、選択された負マスク例と対応した教師画像を追加する。ステップＳ７０４のループの初回、及びループ回数が教師画像の数以下の間は、正マスク例を単純に否定したものを負マスク例として選択する。それ以外であれば、最後のステップＳ７０７の実行で求めたセグメンテーション結果のうち、最も正マスク例と異なるピクセル数が多いセグメンテーション結果を選択する。

次に、ステップＳ７０５において、ステップＳ７０４で新たに追加した負マスク例ｙ_falseについて、式（４）を満たす負マスク例重みα_yfalseを求める。そして、ステップＳ７０６において、教師画像、正マスク例、負マスク例、及び負マスク例重みを教師画像ごとに集約する。なお、この処理はマスク事例集約部２０８が行ってもよく、処理の詳細については後述する。次に、ステップＳ７０７において、全ての教師画像をセグメンテーションし、マスクを求める。このセグメンテーションは、それぞれの教師画像を入力画像とした場合の入力画像適応部２０９、マスク演算部２１０の動作に等しく、詳細な説明は後述する。

ステップＳ７０３のループ条件が満たされた後、グローバル前景色モデルＦＧ_Global、グローバル背景色モデルＢＧ_Global、ＨＯＧ特徴、負マスク例ｙ_false、負マスク例重みα_yfalse、及び負マスク例と教師画像との対応が出力される。すなわち、これらのパラメータがマスク事例群として出力される。

次に、マスク事例集約部２０８による図５（Ａ）のステップＳ５０２の教師画像ごとのマスク事例の集約処理の詳細について図８（Ａ）を参照しながら説明する。この処理は、式（５）及び式（７）に示す前景形状モデルＪ_FGShape、背景形状モデルＪ_BGShape、グローバル色モデル重みＪ_Gcolorの演算に等しい。図８（Ａ）の処理では、マスク事例群として教師画像ｘ_true、正マスク例ｙ_true、負マスク例ｙ_false、負マスク例重みα_yfalse、グローバル前景色モデルＦＧ_Global、及びグローバル背景色モデルＢＧ_Globalを入力する。そして、教師画像ごとの前景形状モデルＪ_FGShape、教師画像ごとの背景形状モデルＪ_BGShape、及び教師画像ごとのグローバル色モデル重みＪ_Gcolorを教師画像ごとのマスクモデルとして出力する。

まず、ステップＳ８０１において、全ての教師画像ｘ_trueについて、ステップＳ８０２〜ステップＳ８０５のループを繰り返す。

そして、ステップＳ８０２において、教師画像ｘ_trueに対応する全ての負マスク例重みα_yfalseの総和を求め、正マスク例重みα_trueとする。この処理は式（３）のα_trueの演算に相当する。次に、ステップＳ８０３において、前景形状モデルＪ_FGShape、背景形状モデルＪ_BGShape、グローバル色モデル重みＪ_Gcolorを初期化する。初期値はそれぞれ正マスク例重みと正マスク例との積、正マスク例重みと正マスク例の各ピクセルを否定したものとの積、教師画像と正マスク例の対のＧｌｏＣｏｌｏｒＭａｔｃｈ関数と正マスク例重みとの積である。なお、ＧｌｏＣｏｌｏｒＭａｔｃｈ関数については後述する。

最後に、ステップＳ８０４〜ステップＳ８０５において、教師画像ｘ_trueに対応する全ての負マスク例ｙ_falseについて、ステップＳ８０５の処理を繰り返す。ステップＳ８０５においては、前景形状モデルＪ_FGShape、背景形状モデルＪ_BGShape、及びグローバル色モデル重みＪ_Gcolorに負マスク例を畳み込む。前景形状モデルＪ_FGShapeについては、前景形状モデルＪ_FGShapeから、ステップＳ８０４で着目した負マスク例とその重みとの積を減算する。背景形状モデルＪ_BGShapeについては、背景形状モデルＪ_BGShapeから、その負マスク例の否定とその重みとの積を減算する。グローバル色モデル重みＪ_Gcolorについては、グローバル色モデル重みＪ_Gcolorから、教師画像と負マスク例との対のＧｌｏＣｏｌｏｒＭａｔｃｈ関数と負マスク例重みとの積を減算する。ステップＳ８０１のループを終了すると、教師画像ｘ_trueごとの前景形状モデルＪ_FGShape、背景形状モデルＪ_BGShape、グローバル色モデル重みＪ_Gcolorが教師画像ごとのマスクモデルとして出力される。

次に、ステップＳ８０３及びステップＳ８０５で用いるＧｌｏＣｏｌｏｒＭａｔｃｈ関数について、図８（Ｂ）のフローチャートを用いて説明する。この処理では、画像ｘ及びマスクｙから得られる色モデルの、グローバル色モデルとの類似度を求める。また、この処理では画像ｘ、マスクｙ、グローバル前景色モデルＦＧ_Global、及びグローバル背景色モデルＢＧ_Globalを入力し、求めた類似度を出力する。

まず、ステップＳ８１１において、初期設定として類似度をゼロにクリアする。次に、ステップＳ８１２において、画像ｘ上の各ピクセルｐについて、ステップＳ８１３〜ステップＳ８１６の処理を繰り返す。

まず、ステップＳ８１３において、画像ｘ上のピクセルｐの色クラスタｈを求める。色クラスタの導出法は式（６）に示すｈ（ｘ）に記載した通りである。次に、ステップＳ８１４〜ステップＳ８１６では、マスクｙ上のピクセルｐが前景か否かに応じて、グローバル色モデルの色クラスタに相当する要素を類似度に加算する。ステップＳ８１４の判定の結果、前景であれば、ステップＳ８１５においてグローバル前景色モデルＦＧ_Globalをグローバル色モデルとして使用する。一方、背景であれば、ステップＳ８１６においてグローバル背景色モデルＢＧ_Globalをグローバル色モデルとして使用する。その後に、ステップＳ８１２のループを繰り返す。ステップＳ８１２のループが終了すると、ステップＳ８１５及びステップＳ８１６で演算した類似度が出力される。

次に、入力画像適応部２０９による図５のステップＳ５１１の詳細な動作について図９を用いて説明する。この処理では、入力画像２０３及び教師画像ごとのマスクモデル２０２などを入力し、入力画像２０３の前景重み・背景重み２１３を出力する。教師画像ごとのマスクモデル２０２は、図８に示したフローチャートに従って算出されたものである。具体的には入力画像２０３の他に、図７の処理によって得られたグローバル前景色モデルＦＧ_Global、グローバル背景色モデルＢＧ_Global、及び教師画像ごとのＨＯＧ特徴を入力する。さらに、図８（Ａ）の処理によって得られた教師画像ごとの前景形状モデルＪ_FGShape、教師画像ごとの背景形状モデルＪ_BGShape、及び教師画像ごとのグローバル色モデル重みＪ_Gcolorを入力する。

また、図９（Ａ）のステップＳ９０１〜ステップＳ９０８までの動作は、式（５）〜式（７）に示す演算に等しい。即ち前景形状重みＩ_FGShape、背景形状重みＩ_BGShape、前景ローカル色重みＩ_FGLColor、背景ローカル色重みＩ_BGLColor、前景グローバル色重みＩ_FGGColor、背景グローバル色重みＩ_BGGColorを求める演算に等しい。また、ステップＳ９０９〜ステップＳ９１１の動作は、式（３）での前景重みＫ_FG及び背景重みＫ_BGを求める演算に等しい。

まず、ステップＳ９０１において、前景形状重みＩ_FGShape、背景形状重みＩ_BGShape、前景ローカル色重みＩ_FGLColor、及び背景ローカル色重みＩ_BGLColorの各要素を０で初期化する。さらに、前景グローバル色重みＩ_FGGColor、背景グローバル色重みＩ_BGGColor、前景重みＫ_FG、及び背景重みＫ_BGの各要素を０で初期化する。これらは全て入力画像ｘと同じピクセル数を持つ画像状の配列であって、入力画像ｘの各ピクセルについての何らかの重みを示している。詳細については、前景形状重みＩ_FGShape及び背景形状重みＩ_BGShapeは式（５）に示したものであり、前景ローカル色重みＩ_FGLColor及び背景ローカル色重みＩ_BGLColorは式（６）に示したものである。また、前景グローバル色重みＩ_FGGColor及び背景グローバル色重みＩ_BGGColorは式（７）に示したものであり、前景重みＫ_FG及び背景重みＫ_BGは式（１）のＦ（ｘ，ｙ）で説明したものである。

次に、ステップＳ９０２において、全ての教師画像ｘ_trueについて、ステップＳ９０３〜ステップＳ９０８の処理をループする。但し、このフローチャート内においては、教師画像そのものは保有する必要はなく、例えばそれぞれの教師画像を代表するＩＤ等を用いて処理を繰り返せばよい。

まず、ステップＳ９０３において、入力画像ｘからＨＯＧ特徴を取得し、ステップＳ９０２で着目した教師画像ｘ_trueのＨＯＧ特徴との類似度Λを求める。類似度の導出は、式（３）に示したΛ（ｘ_i，ｘ_j）に従うものとする。そして、ステップＳ９０４において、前景形状重みＩ_FGShapeに、ステップＳ９０２で着目した教師画像ｘ_trueに対応する前景形状モデルＪ_FGShapeと類似度Λとの積を加算する。同様に、背景形状重みＩ_BGShapeに、ステップＳ９０２で着目した教師画像ｘ_trueに対応する背景形状モデルＪ_BGShapeと類似度Λとの積を加算する。ステップＳ９０３〜ステップＳ９０８のループが終了すると、前景形状重みＩ_FGShape及び背景形状重みＩ_BGShapeは、類似度Λとの積が教師画像の数だけ加算され、類似度による重み付き総和となる。

次に、ステップＳ９０５において、入力画像ｘ及び教師画像ｘ_trueに対応する前景形状モデルＪ_FGShapeまたは背景形状モデルＪ_BGShapeから、それぞれ、入力画像前景色モデル及び入力画像背景色モデルを求める。この入力画像前景色モデル及び入力画像背景色モデルは、式（６）のｃｏｌｏｒＨｉｓｔ（ｘ，ｙ）に相当する。これらの色モデルは式（６）で説明した様に、色クラスタヒストグラムであって、即ち、色クラスタの数だけの次元を持つ配列である。ｃｏｌｏｒＨｉｓｔ関数の動作に関しては後述する。

次に、ステップＳ９０６において、入力画像ｘ上の各ピクセルｐについて、ステップＳ９０７〜ステップＳ９０８の処理を繰り返す。

まず、ステップＳ９０７において、入力画像ｘのピクセルｐの色クラスタｈを求める。色クラスタの求め方は式（６）のｈ（ｘ）に従うものとする。次に、ステップＳ９０８において、前景ローカル色重みＩ_FGLColor、背景ローカル色重みＩ_BGLColor、前景グローバル色重みＩ_FGGColor、及び背景グローバル色重みＩ_BGGColorを更新する。前景ローカル色重みＩ_FGLColorについては、そのピクセルｐに相当する場所に、ステップＳ９０５で求めた入力画像前景色モデルの色クラスタｈに相当する値と類似度Λとの積を加算する。背景ローカル色重みＩ_BGLColorについても入力画像背景色モデルを用いる以外は同様である。前景グローバル色重みＩ_FGGColorについては、ピクセルｐに相当する場所に、類似度Λと、着目した教師画像に対応するグローバル色モデル重みＪ_Gcolorと、グローバル前景色モデルＦＧ_Globalの色クラスタｈに相当する値との積を加算する。背景グローバル色重みＩ_BGGColorについても、グローバル前景色モデルＦＧ_Globalの代わりにグローバル背景色モデルＢＧ_Globalを用いる以外は同様である。

ステップＳ９０２及びステップＳ９０６のループが終了すると、前景ローカル色重みＩ_FGLColor及び背景ローカル色重みＩ_BGLColorは、類似度Λとの積が教師画像の数×ピクセル数だけ加算され、類似度による重み付き総和となる。また、前景グローバル色重みＩ_FGGColor及び背景グローバル色重みＩ_BGGColorについても、類似度Λとの積が教師画像の数×ピクセル数だけ加算され、類似度による重み付き総和となる。

次に、ステップＳ９０９〜ステップＳ９１１では、前景重みＫ_FG及び背景重みＫ_BGの全てのピクセルｐについて、式（３）に従って、その値を求める。

まず、ステップＳ９１０において、式（３）に示す通り前景重みＫ_FGの全てのピクセルについて前景形状重みＩ_FGShapeと前景ローカル色重みＩ_FGLColorと前景グローバル色重みＩ_FGGColorとのピクセルの値の重み付き総和を代入する。背景重みＫ_BGも同様に背景形状重みＩ_BGShapeと背景ローカル色重みＩ_BGLColorと背景グローバル色重みＩ_BGGColorとの重み付き総和を代入する。また、それぞれの項の重みはβ_Shape、β_LColor、β_GColorとし、経験的に設定するものとする。

さらに、ステップＳ９１１において、前景重みＫ_FG及び背景重みＫ_BGのそれぞれのピクセルについて、教師画像の個数で割り、正規化する。そして、このステップＳ９０９のループで得られた前景重みＫ_FG及び背景重みＫ_BGが出力される。

次に、ステップＳ９０５で用いたｃｏｌｏｒＨｉｓｔ（ｘ，ｙ）について、図９（Ｂ）を用いて説明する。この処理では、入力画像ｘ及び重みマスクｙを入力し、その入力画像および重みマスクから生成される色クラスタ頻度ヒストグラムを返す。

まず、ステップＳ９２１において、色クラスタ頻度ヒストグラムｈｉｓｔを０で初期化する。次に、ステップＳ９２２〜Ｓ９２４のループで、入力画像ｘ上の各ピクセルｐについて、入力画像ｘのピクセルｐの色クラスタｈを求め、色クラスタ頻度ヒストグラムｈｉｓｔのｈに対応する要素に、重みマスクｙ上のｐに対応するピクセルの値を加算する。ステップＳ９２２〜ステップＳ９２４のループが終了した後の色クラスタ頻度ヒストグラムｈｉｓｔが返り値となる。

次に、マスク演算部２１０による図５（Ｂ）のステップＳ５１２の動作について、図１０を用いて説明する。この処理では、入力画像２０３、前景重み・背景重み２１３を入力し、入力画像２０３に対応するマスク２０４を求める。式（１）で説明した値Ｅの最大化によるセグメンテーションに相当する。

まず、ステップＳ１００１において、重み付きグラフＧを初期化する。そして、重み付きグラフＧにソースノード及びシンクノードを追加する。次に、ステップＳ１００２〜ステップＳ１００３において、入力画像ｘ上の各ピクセルｐについて、ノードｐを重み付きグラフＧに追加し、ソースノードとノードｐとを結ぶリンク、シンクノードとノードｐとを結ぶリンクを追加する。そして、ソースノードとノードｐとを結ぶリンクの重みとして、前景重みＫ_FG上のピクセルｐの値を割り当て、シンクノードとノードｐとを結ぶリンクの重みとして背景重みＫ_BG上のピクセルｐの値を割り当てる。

次に、ステップＳ１００４〜ステップＳ１００５において、入力画像ｘ上で隣接する全てのピクセルｐ，ｑの対について、重み付きグラフＧにノードｐとノードｑとの間のリンクを追加する。さらに、このリンクの重みとして、式（１）に示すＬｉｎｋＷｅｉｇｈｔ（ｐ，ｑ）の演算結果を設定する。

次に、ステップＳ１００６において、作成した重み付きグラフＧに対し、ソースノードからシンクノードへの最大フローを持つ最小カットを求める。そして、ステップＳ１００７において、重み付きグラフＧ上のそれぞれのノードｐについて、そのノードｐが最小カットによりソースノード側に分類される場合は、マスク画像においてピクセルｐをマスクとする。一方、ノードｐがシンクノード側に分類される場合は、マスク画像のピクセルｐをマスクではないものとする。そして、このステップＳ１００７で作成したマスクｙが出力される。

以上のように本実施形態によれば、ある教師画像に対し多くの負マスク例を生成する。これにより、その負マスク例に類似する誤セグメンテーションを防ぐことが期待できる。また、本実施形態によれば、教師画像ごとにその多数の負マスク例を教師画像毎のマスクモデル２０２として集約する。これにより、同一の教師画像で複数の入力画像をセグメンテーションする場合のセグメンテーション部２０６の演算量が負マスク例数から独立となる。すなわち負マスク例数が多い場合にセグメンテーションを高速化できる。

さらに、本実施形態によれば、入力画像が与えられた後に、各ピクセルについて、そのピクセルがマスクの場合とマスクではない場合とのそれぞれについて、その重みを求める。これにより、ある入力画像のマスクを求める場合に、その最大フローを、一度の最大フロー最小カット問題の解決で求めることができる。

（その他の実施形態）
前述した実施形態におけるピクセルの代わりに、特許文献３に記載の手法を適用し、色が類似しかつ隣接するピクセル同士を統合した小領域を用いてもよい。この場合、前述した実施形態における「ピクセル」は適宜「小領域」と読み替えるものとする。また、式（１）に示すＬｉｎｋＷｅｉｇｈｔ（ｐ，ｑ）の値ｄ_pqにおいて、そのユークリッド距離は、小領域の中心同士の距離に置き換える。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

２０５辞書作成部
２０６セグメンテーション部
２０７マスク事例演算部
２０８マスク事例集約部
２０９入力画像適応部
２１０マスク演算部

Claims

物体を映した複数の教師画像と、前記教師画像の前景となるピクセルを真とし背景となるピクセルを偽とした二値の正マスク例とに基づいて、入力画像の物体のマスクを求める画像処理装置であって、
前記複数の教師画像のそれぞれについて、前記教師画像から前記正マスク例と異なる負マスク例及びその重みを求めるマスク事例演算手段と、
前記正マスク例、前記負マスク例、及び前記負マスク例の重みを前記教師画像ごとに集約し、教師画像ごとのマスクモデルを求めるマスク事例集約手段と、
前記マスク事例集約手段によって求められた教師画像ごとのマスクモデルに基づいて前記入力画像の前景重み及び背景重みを求める入力画像適応手段と、
前記入力画像適応手段によって求められた前景重み及び背景重みに基づいて前記入力画像のマスクを求めるマスク演算手段と、
を備えることを特徴とする画像処理装置。
前記入力画像適応手段は、前記入力画像のピクセルのそれぞれについて、前記ピクセルがマスクである場合の前記前景重みと、前記ピクセルがマスクでない場合の前記背景重みとを求め、
前記マスク演算手段は、前記入力画像の各ピクセルをノードとした場合の前景を示すソースノードと前記ノードとの間、背景を示すシンクノードと前記ノードとの間、及び隣接するノード間をそれぞれリンクとするグラフと、前記前景重み及び背景重みとを用いて最大フロー最小カットにより前記マスクを求めることを特徴とする請求項１に記載の画像処理装置。
前記マスク事例集約手段は、前記教師画像ごとに前記負マスク例の重みによる重み付き総和を求め、前記重み付き総和と前記正マスク例とから前記マスクモデルとして形状モデル及び色モデル重みを求めることを特徴とする請求項１又は２に記載の画像処理装置。
前記入力画像適応手段は、前記入力画像と前記教師画像との間の類似度を求め、前記教師画像ごとのマスクモデルを用いた値の前記類似度による重み付き総和を求めることによって、前記入力画像の前景重み及び背景重みを求めることを特徴とする請求項１〜３の何れか１項に記載の画像処理装置。
前記入力画像適応手段は、前記入力画像において色が類似して隣接するピクセル同士を統合した小領域のそれぞれについて、前記小領域がマスクである場合の前記前景重みと、前記小領域がマスクでない場合の前記背景重みとを求め、
前記マスク演算手段は、前記入力画像の各小領域をノードとした場合の前景を示すソースノードと前記ノードとの間、背景を示すシンクノードと前記ノードとの間、及び隣接するノード間をそれぞれリンクとするグラフと、前記前景重み及び背景重みとを用いて最大フロー最小カットにより前記マスクを求めることを特徴とする請求項１に記載の画像処理装置。
物体を映した複数の教師画像と、前記教師画像の前景となるピクセルを真とし背景となるピクセルを偽とした二値の正マスク例とに基づいて、入力画像の物体のマスクを求める画像処理方法であって、
前記複数の教師画像のそれぞれについて、前記教師画像から前記正マスク例と異なる負マスク例及びその重みを求めるマスク事例演算工程と、
前記正マスク例、前記負マスク例、及び前記負マスク例の重みを前記教師画像ごとに集約し、教師画像ごとのマスクモデルを求めるマスク事例集約工程と、
前記マスク事例集約工程において求められた教師画像ごとのマスクモデルに基づいて前記入力画像の前景重み及び背景重みを求める入力画像適応工程と、
前記入力画像適応工程において求められた前景重み及び背景重みに基づいて前記入力画像のマスクを求めるマスク演算工程と、
を備えることを特徴とする画像処理方法。
物体を映した複数の教師画像と、前記教師画像の前景となるピクセルを真とし背景となるピクセルを偽とした二値の正マスク例とに基づいて、入力画像の物体のマスクを求める画像処理装置を制御するためのプログラムであって、
前記複数の教師画像のそれぞれについて、前記教師画像から前記正マスク例と異なる負マスク例及びその重みを求めるマスク事例演算工程と、
前記正マスク例、前記負マスク例、及び前記負マスク例の重みを前記教師画像ごとに集約し、教師画像ごとのマスクモデルを求めるマスク事例集約工程と、
前記マスク事例集約工程において求められた教師画像ごとのマスクモデルに基づいて前記入力画像の前景重み及び背景重みを求める入力画像適応工程と、
前記入力画像適応工程において求められた前景重み及び背景重みに基づいて前記入力画像のマスクを求めるマスク演算工程と、
をコンピュータに実行させることを特徴とするプログラム。