JP6448109B2 - 映像領域分割装置および映像領域分割プログラム - Google Patents

映像領域分割装置および映像領域分割プログラム Download PDF

Info

Publication number
JP6448109B2
JP6448109B2 JP2013264623A JP2013264623A JP6448109B2 JP 6448109 B2 JP6448109 B2 JP 6448109B2 JP 2013264623 A JP2013264623 A JP 2013264623A JP 2013264623 A JP2013264623 A JP 2013264623A JP 6448109 B2 JP6448109 B2 JP 6448109B2
Authority
JP
Japan
Prior art keywords
cluster
clusters
node
cost
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013264623A
Other languages
English (en)
Other versions
JP2015121901A (ja
Inventor
英彦 大久保
英彦 大久保
寛史 盛岡
寛史 盛岡
秀樹 三ツ峰
秀樹 三ツ峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2013264623A priority Critical patent/JP6448109B2/ja
Publication of JP2015121901A publication Critical patent/JP2015121901A/ja
Application granted granted Critical
Publication of JP6448109B2 publication Critical patent/JP6448109B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、映像領域分割装置および映像領域分割プログラムに関する。
静止画像から所望の被写体領域をインタラクティブに抽出する画像処理方法として、グラフカット法が知られている(例えば、非特許文献1参照)。
また、このグラフカット法に対して前景および背景の尤度情報に改良を加えたグラブカット法も知られている(例えば、非特許文献2参照)。
Yuri Y. Boykov, Marie-Pierre Jolly, "Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images", ICCV, vol. I, pp.105-112, 2001 Carsten Rother, Vladimir Kolmogorov, Andrew Blake,""GrabCut"-Interactive Foreground Extraction Using Iterated Graph Cuts", ACM Trans. Graphics (SIGGRAPH '04), vol.23, no.3, pp.309-314, 2004
映像から被写体領域を抽出するために、画素(ピクセル)を直接の処理対象とするグラブカット法を用いることは、処理対象のデータが膨大となるため現実的ではない。また、映像を独立した静止画像の羅列とみなし、フレーム毎の静止画像に対する処理を単純に拡張して実行しても、適切に被写体領域を抽出できない。これは、人間の眼は時間的なコヒーレンシ(つじつま)に敏感である一方、フレーム毎に独立した条件において処理した結果は時間方向に対するつじつまがとれないためである。また、時空間に広がった画素に対してグラフカットを実行することは、データ量が膨大となるため現実的でなく、また、グラフカットに必要なシード処理が困難である。
本発明は、上記事情に鑑みてなされたものであり、簡易な操作によって、映像から所望の映像領域を高精度且つ効率的に抽出することができる、映像領域分割装置および映像領域分割プログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様である映像領域分割装置は、映像を構成する画素を、時空間において複数のクラスタに分割し、前記複数のクラスタと各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成するクラスタ情報生成部と、特定のクラスタが物体または背景のいずれに属するかを示すシード情報を取得するシード情報取得部と、前記クラスタ情報生成部が生成した前記クラスタ情報と前記シード情報取得部が取得した前記シード情報とに基づいて、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布を求め、前記シード情報と前記第1条件付き確率分布と前記第2条件付き確率分布とに基づいて、あるクラスタと物体ノードとの間の第1コストおよび前記クラスタと背景ノードとの間の第2コストとを計算する尤度項計算部と、前記クラスタ情報に基づいて、隣接するクラスタにおいて色の差が大きいほど低い第3コストを計算する隣接項計算部と、各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有し、前記クラスタノードと前記物体ノードとの間のエッジが前記第1コストに対応し、前記クラスタノードと前記背景ノードとの間のエッジが前記第2コストに対応し、隣接するクラスタノード間のエッジが前記第3コストに対応するグラフを、それぞれのクラスタノードが前記物体ノードまたは前記背景ノードのいずれか一方のみと連結になるように、グラフカット法によりコストが小さくなるよう二分する分割部と、を備える。
[2]上記[1]記載の映像領域分割装置において、前記クラスタ情報に基づいて、クラスタごとのフレームあたりのクラスタ平均画素数を計算するクラスタ平均画素数計算部、をさらに備え、前記尤度項計算部は、前記クラスタ平均画素数計算部が計算した前記クラスタ平均画素数によって重み付けて前記第1コストおよび前記第2コストを計算する。
[3]上記の課題を解決するため、本発明の一態様である映像領域分割プログラムは、コンピュータを、映像を構成する画素を、時空間において複数のクラスタに分割し、前記複数のクラスタと各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成するクラスタ情報生成手段、特定のクラスタが物体または背景のいずれに属するかを示すシード情報を取得するシード情報取得手段、前記クラスタ情報生成手段が生成した前記クラスタ情報と前記シード情報取得手段が取得した前記シード情報とに基づいて、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布を求め、前記シード情報と前記第1条件付き確率分布と前記第2条件付き確率分布とに基づいて、あるクラスタと物体ノードとの間の第1コストおよび前記クラスタと背景ノードとの間の第2コストとを計算する尤度項計算手段、前記クラスタ情報に基づいて、隣接するクラスタにおいて色の差が大きいほど低い第3コストを計算する隣接項計算手段、各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有し、前記クラスタノードと前記物体ノードとの間のエッジが前記第1コストに対応し、前記クラスタノードと前記背景ノードとの間のエッジが前記第2コストに対応し、隣接するクラスタノード間のエッジが前記第3コストに対応するグラフを、それぞれのクラスタノードが前記物体ノードまたは前記背景ノードのいずれか一方のみと連結になるように、グラフカット法によりコストが小さくなるよう二分する分割手段、として機能させる。
本発明によれば、簡易な操作によって、映像から所望の映像領域を高精度且つ効率的に抽出することができる。
本発明の実施形態におけるクラスタ情報生成装置の構成を示すブロック図である。 本発明の実施形態におけるクラスタ情報生成処理の全体の流れを示すフローチャートである。 クラスタ情報生成処理の対象となる映像の例である。 分割処理において、クラスタの隣接関係の初期状態を示すグラフである。 分割処理において、図4に示したグラフに対応する隣接クラスタマトリックスである。 再分割条件検出処理の流れを示すフローチャートである。 再分割処理において、(a)は第1フレームについての到達可能クラスタマトリックスを示し、(b)は第4フレームについての到達可能クラスタマトリックスを示し、(c)は分離クラスタマトリックスを示す。 再分割処理の流れを示すフローチャートである。 再分割処理において、グラフカットの様子を説明する図である。 再分割処理の途中において、(a)は更新したグラフを示し、(b)は更新した分離クラスタマトリックスを示す。 再分割処理において、(a)は再分割処理後のグラフを示し、(b)は再分割処理後の分離クラスタマトリックスを示す。 クラスタ情報生成処理の対象となる映像の例である。 図12に示した映像の、映像処理分割処理による処理結果を示す図であり、(a)はクラスタ化処理結果、(b)はクラスタ統合処理結果、(c)はクラスタ再分割処理結果を示す。 クラスタ情報生成処理の対象となる撮影された映像の他の例であり、第23フレームを示す画像である。 クラスタ情報生成処理の対象となる撮影された映像の他の例であり、第27フレームを示す画像である。 クラスタ情報生成処理の対象となる撮影された映像の他の例であり、第31フレームを示す画像である。 図14Aから図14Cに示した映像の、映像処理分割処理によるクラスタ化処理結果を示す画像である。 図14Aから図14Cに示した映像の、映像処理分割処理によるクラスタ統合処理結果を示す画像である。 図14Aから図14Cに示した映像の、映像処理分割処理によるクラスタ再分割処理結果を示す画像である。 本実施形態である映像領域分割装置の機能構成を示すブロック図である。 時空間分割されたクラスタに対するグラフを簡略化し模式的に表した図である。 時空間におけるグラフを表した図である。 クラスタ平均画素数に対する寄与率を表した図である。 クラスタ情報生成部が生成するクラスタ情報における領域代表色映像の画像と、シード情報取得部によってシード情報が指定された様子と、分割部が出力する抽出映像の画像とを表した図である。 映像領域分割装置の処理手順を示すフローチャートである。
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
まず、後述する映像領域分割装置に適用されるクラスタ情報生成装置(クラスタ情報生成部)について説明する。
まず、領域分割処理(クラスタ領域分割処理)において、映像をどのように領域分割するかの指針について説明する。
クラスタ情報生成装置は、入力として領域分割の対象となる映像と、領域分割処理のための少数のパラメータを与えることで、映像の色情報のみから被写体領域の抽出に対して適切な領域分割結果を取得できるようにするものである。
本実施形態において、映像の領域分割とは、時空間領域を有する映像について、ある領域に対して一意に識別する領域ID(識別番号)を割り振ること、及び、その領域IDを割り振られた時空間領域を特定できるようにすることである。そして、その各領域は被写体として同一の物体領域を占めるとともに、可能な限り時空間領域として大きな領域を構成することが望まれるものである。すなわち、映像の被写体領域の抽出において適切な領域分割とは、「同じ被写体領域には同じ領域IDが割り振られ、それが時空間領域として大きく構成されること」と「異なる被写体領域には同じ領域IDが割り振られないこと」を満たすものである。
また、被写体領域の抽出においては、領域分割処理の結果に対して、被写体領域を特定(指定)するためにユーザによる手動の領域指定が伴うことを前提とするものである。つまり、本実施形態による領域分割処理は、要求に応じてユーザは任意の複数の被写体領域を指定するプロセスを経る。例えば、人物が写っている映像に対して、ある要求では人物全体の抽出を行うために、人物全体を指定する場合もあれば、別の要求では顔と頭だけを抽出する場合もある。つまり、領域分割処理の結果から被写体を抽出する際に、抽出する部分に汎用性があるように領域分割を行うものである。
[クラスタ情報生成装置の構成]
本実施形態におけるクラスタ情報生成装置1の構成について、図1を参照して説明する。図1に示すように、本実施形態に係るクラスタ情報生成装置1(クラスタ情報生成部)は、クラスタ化処理部10と、クラスタ統合処理部20と、クラスタ再分割処理部30と、を備え、領域分割処理の対象である映像と処理のためのパラメータとを入力し、入力した映像を領域分割するものである。
クラスタ化処理部10は、第1段階の処理として、入力された処理対象となる映像に対して、所定のパラメータを用いた平均値シフト法によるクラスタ化処理を行い、映像を過分割な状態に領域分割するものである。ここで過分割な状態とは、映像中の異なる被写体が同一の領域として分割されず、かつ、同一の被写体領域が1又は2以上の領域に分割された状態をいう。
クラスタ統合処理部20は、第2段階の処理として、隣接クラスタ間の代表色の差に基づいて第1段階の処理で過分割されたクラスタの統合処理を行うものである。
クラスタ再分割処理部30は、最後の第3段階の処理として、第2段階の処理で統合された領域を、所定の再分割条件に基づいて、第1段階の処理で分割されたクラスタを単位として、領域の再分割をするものである。
また、本実施形態では、第3段階の処理結果である最終的な領域分割結果を、領域ID(再分割領域ID)ごとに領域を色分けした領域ID分布映像と、領域の代表色で色分けした領域代表色映像として出力できるように構成されている。
以下、各部について、順次詳細に説明する。
なお、本実施形態に係るクラスタ情報生成装置1は、CPU、メモリ、ハードディスクなどの記憶装置などを備えた一般的なコンピュータを用いて、各処理部として機能させることで実現することができる。
クラスタ化処理部10は、クラスタ化処理手段11と、グラフ化処理手段12と、クラスタデータ記憶手段13と、を備えている。クラスタ化処理部10は、領域分割処理対象となる映像と、クラスタ化処理のためのパラメータとを外部から入力し、入力した映像をクラスタ化するとともに、クラスタ化した分割領域間の隣接情報を示すグラフを作成するものである。
クラスタ化処理手段11は、映像とクラスタ化処理のためのパラメータとを外部から入力して、映像をクラスタ化するものである。本実施形態では、平均値シフト(Mean Shift)法を用いてクラスタ化処理を行う。
本実施形態で用いる平均値シフト法による映像のクラスタ化処理は、非特許文献5に記載された手法と同様の手法を用いるものである。本実施形態においては、平均値シフト法による分割領域を制御するために、空間(フレーム内の座標で表される2次元の空間)、時間(フレーム番号又は時刻で表される1次元の空間)及び色空間(RGB、HSV,L*a*b*などの色の3要素で表される3次元の空間)ごとに、それぞれ独立に繰り返し重み付け平均化処理を行うための計算範囲(バンド幅(カーネル半径))を定める。すなわち、平均値シフト法によるクラスタ化処理のためのパラメータとして、それぞれ一定の空間バンド幅、時間バンド幅及び色空間バンド幅を指定することにより、時空間的に近隣にあり、かつ、色空間上での距離が近い(色が類似している)画素の集合ごとに1つのクラスタを形成し、映像を複数のクラスタに領域分割する。
なお、時空間的に近傍となる範囲は、空間バンド幅及び時間バンド幅によって定められる。また、色空間上で距離が近いかどうかは、色空間バンド幅で定められる。すなわち、クラスタの粒度(クラスタの大きさ)は、これらのバンド幅によって調整することができる。
なお、バンド幅は、入力された映像を過分割な状態にクラスタ化するために、映像の空間解像度、時間解像度、色解像度、及び映像の内容に応じて適宜に設定することができる。例えば、映像のサイズが320×240画素、フレーム周波数が30Hz、RGBの階調数が各色256階調の場合、例えば、空間バンド幅を6〜8画素程度、時間バンド幅を2フレーム程度、色空間バンド幅を8階調程度とすることができる。
本実施形態では、クラスタ化処理手段11は、入力した映像を、空間、時間及び色空間ごとにパラメータとして入力される3つのバンド幅を用いて、平均値シフト法によりクラスタ化する。
クラスタ化処理手段11は、クラスタごとの代表色を算出するとともに、クラスタごとにクラスタを一意に識別するクラスタIDを付与し、これらのデータを処理結果として、グラフ化処理手段12に出力する。なお、クラスタの代表色とは、そのクラスタの代表的な色であり、具体的には各クラスタにおける平均値シフト処理の収束値を使用することができる。
クラスタ化処理においては、映像中の同一の被写体については、各クラスタがなるべく時空間的に大きく構成され、かつ、1つのクラスタに映像中の異なる被写体の領域が跨らないように、パラメータであるバンド幅を設定する。すなわち、映像中の異なる被写体が同一の領域として分割されない範囲で、各クラスタができる限り時空間的に大きく構成されるようにすることが好ましい。従って、クラスタ化処理手段11によるクラスタ化処理では、最終的に分割すべき領域の広さに比べて細かく分割された過分割の状態のクラスタに分割される。
なお、クラスタ化処理手段11の処理結果である各クラスタについての代表色、当該クラスタに含まれるフレーム番号及び画素領域などのクラスタについてのデータは、クラスタIDに対応付けて、グラフ化処理手段12を介して、クラスタデータ記憶手段13にクラスタデータの一部として記憶される。
グラフ化処理手段(隣接状態情報作成手段)12は、クラスタ化処理手段11からクラスタごとに付与されたID及びその代表色を入力し、クラスタをノードとし、ノード間をノード間の類似度を示すエッジで接続したデータ構造である無向グラフ(以下、単に「グラフ」という)を作成する。
図4にグラフの例を示す。図4において、各ノードに示した「0」〜「5」の数字はクラスタIDを示している。すなわち、グラフとは、本例では時空間的に隣接するクラスタ間の接続状態を示すデータである。ここで、エッジで接続されたノード(クラスタ)同士は互いに隣接していることを示し、エッジは、所定のコスト関数で定められるコストを有するものである。ノードであるクラスタ間の代表色の差が小さいほどノード間の類似度は高くなり、コスト関数で定められるコストの値は大きくなる。このコストは、後記するグラフカット処理において、このエッジを切断するために要するコストを示すものである。
ここで、コスト関数の例について説明する。式(1)はコスト関数の例であり、式(1)のB{m,n}は、ノードmとノードnとを接続するエッジを切断するためのコストを表すものである。式(1)で算出されるコストB{m,n}は、ノードm,nである2つのクラスタの代表色In,Imの差(色差)が小さいほど大きくなる関数である。
なお、式(1)において、βの分母にある〈・〉で表される部分は、映像に含まれるすべてのクラスタ代表色の色差の2乗の平均を表すものである。言い換えれば、〈・〉で表される部分は、映像に含まれるすべてのクラスタ代表色についての分散を表すものである。
また、グラフ化処理手段12は、グラフとともに、クラスタ間の隣接状態を示す隣接クラスタマトリックス(隣接状態情報)を作成する。図5に隣接クラスタマトリックスの例を示す。図5に示した隣接クラスタマトリックスにおいて、上端の行及び左端の列に記載されている「0」〜「5」の数字はクラスタIDを示しており、各行列が交差する欄に「n」が記載されたクラスタIDで特定されるクラスタ対は、互いに隣接していることを示している。
なお、グラフ化処理手段12によってグラフ化処理を行う段階では、クラスタの統合処理が行われていない。従って、グラフ化処理手段12は、映像中のすべてのクラスタをノードとする1つのグラフを作成する。また、グラフ化処理手段12は、前記した隣接クラスタマトリックスにおいて、互いに隣接するクラスタ間のすべてのエッジについて、前記したコスト関数によってコストを算出する。
グラフ化処理手段12は、作成したグラフ(エッジのコストを含む)及び隣接クラスタマトリックスをクラスタデータ記憶手段13に記憶する。また、グラフ化処理手段12は、クラスタ化処理手段11の処理結果であるクラスタのついてのデータをクラスタIDに対応付けてクラスタデータ記憶手段13に記憶する。
クラスタデータ記憶手段(分割領域データ記憶手段)13は、クラスタ化処理手段11の処理結果であるクラスタについてのデータ及びグラフ化処理手段12が作成したグラフ、隣接クラスタマトリックスについてのデータを記憶する記憶装置である。
クラスタデータ記憶手段13に記憶されたデータは、クラスタ統合処理部20の隣接クラスタ統合処理手段21によって参照される。
クラスタ統合処理部(統合処理部)20は、隣接クラスタ統合処理手段21と、統合領域データ記憶手段22と、を備え、クラスタ化処理部10で過分割な状態に分割されたクラスタを、色情報に基づいて統合するものである。
クラスタ化処理部10は、異なる被写体に属する領域が同一のクラスタに含まれないよう、過分割な状態にクラスタ化するため、クラスタ統合処理部20は、細かく分割され過ぎたクラスタを大きな領域に統合するためのものである。
隣接クラスタ統合処理手段21は、クラスタデータ記憶手段13から、クラスタ化処理部10の処理結果であるクラスタについてのデータ及びクラスタの接続関係を示すデータを読み出すとともに、統合処理についてのパラメータを外部から入力して、時空間で互いに隣接し、かつ代表色が類似するクラスタを統合して、新たな分割領域として統合領域を形成するものである。
このとき、隣接クラスタ統合処理手段21は、統合するかどうかを判定するためのパラメータとして、クラスタ間の代表色の差の上限値を示す閾値を外部から入力する。この閾値は、クラスタ化処理手段11がクラスタ化のために用いた色空間についてのバンド幅を基準にした十分に大きな値とする。例えば、この閾値を色空間バンド幅の半分程度とすることができる。これによって、クラスタ化処理手段11によって過分割状態に分割されたクラスタを統合することができる。
また、隣接クラスタ統合処理手段21は、統合領域ごとに、統合領域を一意に識別する統合領域IDを付与するとともに、統合領域の代表色を算出する。統合領域の代表色は、例えば、統合領域に含まれるクラスタの代表色の平均値とすることができる。また、隣接クラスタ統合処理手段21は、第1段階で作成した全クラスタからなるグラフから、統合領域に含まれるクラスタについての情報を切出して統合領域に含まれるクラスタで構成されるグラフを作成する。なお、グラフについてのデータには、そのグラフにノードとして含まれるクラスタのIDのリストと、それらのクラスタ間のエッジのコストとが含まれる。
隣接クラスタ統合処理手段21は、処理結果である統合領域データとして、統合領域ごとに、グラフデータと統合領域の代表色とを、統合領域IDに対応付けて統合領域データ記憶手段22に記憶する。
統合領域データ記憶手段22は、隣接クラスタ統合処理手段21の処理結果である統合領域についてのデータを、統合領域ごとに記憶する記憶装置である。
統合領域データ記憶手段22に記憶されたデータは、クラスタ再分割処理部30の再分割条件検出処理手段31によって参照される。
クラスタ再分割処理部30は、再分割条件検出処理手段31と、再分割処理手段32と、再分割領域データ記憶手段33と、を備え、クラスタ統合処理部20が統合した統合領域について、所定の再分割条件に該当するクラスタ対が含まれるかどうかを検出し、条件に該当するクラスタ対が検出された場合は、このクラスタ対を互いに異なる領域となるように再分割するものである。
クラスタ統合処理部20は、代表色が類似する隣接クラスタを統合するため、統合領域には、例えば、移動する被写体がたまたま類似する色を有する他の被写体と映像内で交差することがあると、これらの被写体の領域を統合することがある。本実施形態に係るクラスタ情報生成装置1は、異なる被写体に属するクラスタを、同一の領域IDが割当てられる領域として統合しないようにするために、一度統合した領域から、異なる被写体に属するクラスタを検出して、異なる被写体に属するクラスタ同士を互いに異なる領域に再分割するものである。
再分割条件検出処理手段31は、統合領域データ記憶手段22に記憶されている統合領域データを読み出し、統合領域ごとに、所定の再分割条件に該当するクラスタ対が含まれるかどうかを検出し、検出結果を再分割処理手段32に出力する。
ここで、再分割条件とは、1つの統合領域に、異なる被写体に属するクラスタが統合されているかどうかを判断する条件のことである。
なお、再分割条件の詳細については後記する。
再分割処理手段32は、再分割条件検出処理手段31が検出した検出結果を入力し、再分割条件に該当するクラスタ対を、互いに異なる領域に再分割する。再分割処理手段32は、処理結果である再分割した領域についてのデータを再分割領域データ記憶手段33に記憶する。
なお、再分割処理手段32は、再分割領域ごとに、再分割領域を一意に識別する再分割領域IDを付与するとともに、再分割領域の代表色を算出する。代表色としては、例えば、再分割領域を構成するクラスタの代表色の平均値とすることができる。再分割処理手段32は、処理結果である再分割領域データとして、再分割領域に含まれるクラスタのIDのリストと代表色とを、再分割領域IDに対応付けて再分割領域データ記憶手段33に記憶する。
再分割処理手段32は、再分割対象として検出されたクラスタ対を分割する際に、クラスタ対が属する統合領域についてのグラフにおいて、この統合領域に関与するノードの接続関係を調べて、このクラスタ対を分割するためのエッジの切断方法を策定する。ここで、複数のエッジ切断方法が策定できる場合は、それぞれのエッジ切断方法について、所定のコスト関数を用いて個々のエッジを切断するコストを算出し、その切断方法で切断されるエッジの切断コストの総和を算出する。そして、切断コストの総和が最も低い切断方法でエッジを切断する。このエッジ切断方法に従って、グラフが2つに分割され、再分割対象であるクラスタ対が互いに異なる2つの領域に分割される。
なお、再分割処理の詳細については後記する。
再分割領域データ記憶手段33は、再分割処理手段32の処理結果である再分割領域についてのデータを、再分割領域ごとに記憶する記憶装置である。
再分割領域データ記憶手段33に記憶されたデータは、例えば、外部の映像編集装置などによって、領域ID分布映像や領域代表色映像の作成のために用いられる。
[クラスタ情報生成装置の動作]
次に、適宜図面を参照してクラスタ情報生成装置1の動作であるクラスタ情報生成処理について説明する。
まず、図2を参照(適宜図1参照)して、クラスタ情報生成処理の概要について説明する。
図2に示すように、クラスタ情報生成装置1は、クラスタ化処理手段11によって、処理対象となる映像とクラスタ処理のためのパラメータとして、空間バンド幅、時間バンド幅及び色空間バンド幅を外部から入力し、平均値シフト法による映像のクラスタ化処理を行う(ステップS10)。
クラスタ情報生成装置1は、グラフ化処理手段12によって、クラスタ化処理手段11の処理結果であるクラスタデータを用いて、クラスタをノードとするグラフを作成するグラフ化処理を行う(ステップS11)。グラフ化とは、クラスタ間の隣接状態を示す構造のデータを作成することである。このときクラスタ情報生成装置1は、グラフ化処理手段12によって、グラフデータとして、クラスタの隣接状態を示す隣接クラスタマトリックスの作成と、隣接するクラスタ間のすべてのエッジについて、前記したコスト関数(例えば式(1))を用いてコストの算出とを行う。また、クラスタ情報生成装置1は、グラフ化処理手段12によって、クラスタ化処理手段11の処理結果であるクラスタデータとグラフ化処理手段12の処理結果であるグラフデータとを、クラスタデータ記憶手段13に記憶する。
次に、クラスタ情報生成装置1は、隣接クラスタ統合処理手段21によって、時空間で互いに隣接するクラスタを統合するためのパラメータとして、統合の可否を判定するためのクラスタ間の色差の閾値を外部から入力し、クラスタデータ記憶手段13に記憶されているクラスタデータ及びグラフデータを参照して、クラスタの色情報である代表色と入力したパラメータとに基づいて隣接クラスタの統合処理を行う(ステップS12)。このときクラスタ情報生成装置1は、隣接クラスタ統合処理手段21によって、ステップS11で作成したグラフから各統合領域に含まれるクラスタが関するデータを切出して、統合領域ごとのグラフを作成する。また、クラスタ情報生成装置1は、隣接クラスタ統合処理手段21によって、その処理結果である統合領域データを統合領域データ記憶手段22に記憶する。
次に、クラスタ情報生成装置1は、クラスタ再分割処理部30によって、統合領域データ記憶手段22に記憶されている統合領域データを参照し、再分割処理の対象として、その中から1つの統合領域を選択する(ステップS13)。
クラスタ情報生成装置1は、再分割条件検出処理手段31によって、ステップS13で選択された統合領域についてのデータを統合領域データ記憶手段22から読み出し、選択された統合領域に含まれるクラスタの中から、所定の条件に一致するクラスタ対を検出する(ステップS14)。
クラスタ情報生成装置1は、再分割処理手段32によって、ステップS14で再分割対象として検出されたクラスタ対を、互いに異なる領域に分割する再分割処理を行う(ステップS15)。また、クラスタ情報生成装置1は、再分割処理手段32の処理結果である再分割領域についてのデータを、再分割領域データ記憶手段33に記憶する。この再分割領域データ記憶手段33に蓄積されるデータが、最終的に分割された領域のデータとなり、例えば、外部の映像編集装置などによって利用される。
また、クラスタ情報生成装置1は、クラスタ再分割処理部30によって、すべての統合領域について再分割処理が終了したかを確認し(ステップS16)、未処理の統合領域がある場合は(ステップS16でNo)、クラスタ再分割処理部30によって次に処理する統合領域を選択する(ステップS13)。
一方、すべての統合領域について再分割処理が終了している場合は(ステップS16でYes)、クラスタ情報生成装置1は、クラスタ情報生成処理を終了する。
以上のように、クラスタ情報生成装置1は、クラスタ化処理の際の3つのバンド幅、及びクラスタ統合処理のためのクラスタ間の色差の閾値という少数のパラメータを用いて領域分割を行うことができる。また、クラスタ単位で、時空間で隣接する領域の統合と再分割とを行うため、空間方向だけでなく、時間方向についても適切に統合された領域分割を行うことができる。
次に、図3に示した4フレームからなる映像を例として、適宜図1及び図2を参照してクラスタ情報生成処理の第3段階である再分割処理について詳細に説明する。
図3に示した映像は、クラスタ化処理手段11によって、すでに平均値シフト法により過分割な状態にクラスタ化され、グラフ化処理手段12によって、クラスタの隣接状態が分析された第1段階を終了し、更に第2段階である隣接クラスタ統合処理手段21による統合処理が終了した状態を示すものである。図3中において、数字「0」〜「5」は、それぞれクラスタIDを示している。この映像は、画面の中央付近に縦長の長方形の物体(例えば円柱)OBJ1が静止しており、円形の物体(例えば球体)OBJ2が、長方形の物体OBJ1の背後を画面の左側から右側に向かって通過している様子を示すものである。また、フレーム1からフレーム4に向かって順次に時間が経過するものとする。
また、物体OBJ1の領域に相当する中央付近の矩形の各クラスタC0,C1,C5,C4は、互いに色が極めて類似しているものとし、背後を通過する物体OBJ2の領域に相当する円形のクラスタC2,C3は中央付近のクラスタC0,C1,C5,C4と類似する色を有するものとする。
なお、図3においては、この後の、第3段階である再分割処理の説明を容易にするために、第2段階である隣接クラスタの統合処理で1つの統合領域に統合されるクラスタのみを示している。このため、他の統合領域に統合される背景(周辺領域)は、ここでは処理対象として考慮しないこととする。
すなわち、図3に表されたクラスタC0〜C5は、1つの統合領域に含まれる1組のクラスタ群を構成するものである。
なお、クラスタ化処理手段11は、映像を時空間に過分割な状態になるようにクラスタ化する。このため、同一の被写体であっても、クラスタC0,C1,C5のように複数のクラスタに分割される場合があり、フレームが異なる(時間が離れる)と、クラスタC0及びクラスタC4のように異なるクラスタとして分割される場合がある。また、円形の物体OBJ2についてのクラスタC2及びクラスタC3のように、本来は同一被写体であっても、画面中の位置を移動する被写体は、空間的又は/及び時間的に離れるため、異なるクラスタとして分割される場合がある。
なお、本実施形態では、クラスタを統合処理する際に、例えば、クラスタC0とクラスタC4の統合のように、時間方向に隣接するクラスタも統合する。このため、このクラスタ情報生成処理の結果を用いて、映像の制作や加工を行うための映像中の所望の領域を、例えば、マウスなどのポインティングデバイスを用いて動画像中から所望の被写体領域の指定を行う場合に、この手作業を容易に行うことができる。
第1段階のクラスタ化処理及びグラフ化処理と、第2段階の統合処理とが終了した段階では、統合領域ごとに、図4に示すグラフと、図5に示す隣接クラスタマトリックスとが生成される。
図4に示すように、グラフは、図3に示したクラスタC0〜C5を、それぞれノードN0〜N5とし、映像中で互いに隣接するノードN0〜N5間をエッジE01〜E15で接続して示したものである。なお、クラスタが隣接するとは、同一のフレーム内で隣接する場合の他に、ノードN0(クラスタC0)及びノードN4(クラスタC4)のように、時間的に隣接するフレーム内で空間的に隣接(又は重複)する場合も、互いに隣接するクラスタとして取り扱うものとする。
また、図5に示した隣接クラスタマトリックス(隣接状態情報)は、任意の2つのクラスタ間が隣接しているかどうかを示す情報であり、マトリックス中で「n」が記された組み合わせのクラスタ間が隣接していることを示している。すなわち、隣接クラスタマトリックスは、グラフにおけるノード(クラスタ)間の隣接関係だけを示した情報である。
なお、隣接クラスタマトリックスは、統合処理によってクラスタの隣接状態が変化しないため、統合領域ごとに分割せずに、映像全体で1つのまま保持するようにしてもよい。
図3に示した例では、統合処理を行うことにより、実際には異なる被写体領域であっても、あるフレーム(第2フレーム2、第3フレーム)において異なる被写体領域が隣接することがあり、かつ、その被写体領域の色が近い場合は、その領域同士も統合されてしまう。このため、前景部のクラスタのすべてが統合されてしまい分割不足の状態となっている。
このように、第2段階で生成された統合領域は、色の類似したクラスタが、時空間方向に多数接続された大きな領域となる。この統合領域は、クラスタを統合したものであるので、各統合領域にはその構成要素である第1段階の分割領域であるクラスタの構成リストが生成できる。
第3段階では、各統合領域に対して、各統合領域を構成するクラスタを単位とした再分割を行うものである。
第3段階の処理は、まず、各統合領域について、その再分割のための条件検出処理を行い、各統合領域内で再分割が必要となるクラスタ対のリストなどを作成する。次に、そのリストに基づいて、グラフカット処理を用いた再分割処理を行う。
グラフカット(s-t min cut)処理は、画像解析などにおいて広く用いられる手法であ
る。一般的には画素をノードとして、画素間及びソースノード、シンクノードと呼ばれる特殊なノード間をエッジで接続し、そのエッジを切断するエネルギーを最小化するエッジ切断の組合せを見つけることで領域分割などの問題を解決する手法である(例えば、非特許文献2参照)。
本実施形態では、クラスタをノードとする統合領域のグラフにおいて、互いに分割するクラスタ対の2つのクラスタの一方をソースノード、他方をシンクノードとし、ソースノードとシンクノードとを分割するために切断するエッジのエネルギーの総和を最小にするエッジの切断の組合せを見つけ、切断するものである。
(再分割条件検出処理)
次に、図6及び図7を参照(適宜図1参照)して、図2におけるステップS14である再分割条件検出処理の詳細について説明する。
前記したように、本実施形態における再分割処理は、クラスタを最小単位として行う。ここで、1つの統合領域に含まれる1対のクラスタに着目したときに、この統合領域を構成するクラスタが空間的に2以上のクラスタ群に分離した状態のフレームにおいて(この状態を、分離クラスタがある状態、又は分離フレームという)、着目したそのクラスタ対が統合領域に属する他の隣接クラスタを順次に経由しても互いに到達可能(接続可能)でないことを、そのクラスタ対を再分割する条件とする。互いに到達可能でないクラスタ対とは、言い換えれば、クラスタ対を構成する2つのクラスタが、その分離フレームにおいて、それぞれ異なるクラスタ群に属するクラスタ対のことである。
再分割条件検出処理は、このような条件を満たすクラスタ対の検出を行う処理である。なお、クラスタ群は、1個のクラスタから構成されていてもよく、2以上のクラスタから構成されていてもよい。
図3に示した例では、静止する物体OBJ1の領域内のクラスタC0,C1,C4,C5の1つと、移動する物体OBJ2の領域内のクラスタC2,C3の1つとからなるクラスタ対が、このような条件を満たす。
図6に示すように、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、まず、統合領域を構成するすべてのクラスタ対を対象とした(後記する)分離クラスタマト
リックスを生成する。初期状態としてはクラスタ対の分離状態情報として何も情報がない状態とする(ステップS20)。
次に、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、最初のフレームを1つ選択する(ステップS21)。なお、再分割処理条件検出処理において、調査するフレームは、フレーム番号順でなくともよい。
クラスタ情報生成装置1は、再分割条件検出処理手段31によって、選択したフレームにおいて、分離クラスタがあるかどうかを確認する(ステップS22)。
分離クラスタがある場合は(ステップS22でYes)、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、到達可能クラスタマトリックス(到達可能性情報)を作成する(ステップS23)。ここで到達可能クラスタマトリックスとは、分離クラスタがあるフレームである分離フレームにおいて、空間的に隣接するクラスタを経由して他方のクラスタに到達可能であるクラスタ対であることを示す情報のことである。到達可能クラスタマトリックスの詳細については後記する。
次に、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、分離クラスタマトリックス(分離状態情報)を更新する(ステップS24)。ここで分離クラスタマトリックスとは、映像中の全フレームにおいて、互いに到達可能でない状態となるフレームが存在するクラスタ対であることを示す情報のことである。すなわち、少なくとも何れか1つの分離フレームについての到達可能クラスタマトリックスにおいて、互いに到達可能でないクラスタ対であることを示す情報のことである。そして、分離クラスタマトリックスの更新とは、分離クラスタマトリックスに、新たに調査した分離フレームについて作成した到達可能クラスタマトリックスに基づいて、到達可能でないクラスタ対の情報を追加登録することである。分離クラスタマトリックスの詳細については後記する。
また、分離クラスタがない場合(ステップS22でNo)及び分離クラスタマトリックス更新(ステップS24)の処理後は、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、次のフレームがあるかどうかを確認する(ステップS25)。次のフレームがある場合は(ステップS25でYes)、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、未調査のフレームを1つ選択する(ステップS21)し、選択したフレームについて、到達可能クラスタマトリックス作成(ステップS23)及び分離クラスタマトリックス更新(ステップS24)の処理を行う。
一方、次のフレームがない場合は(ステップS25でNo)、クラスタ情報生成装置1は、再分割条件検出処理を終了する。
なお、到達可能クラスタマトリックス作成(ステップS23)及び分離クラスタマトリックス更新(ステップS24)において、分離クラスタが検出された2つ目以降のフレームについては、対応する分離フレームごとに到達可能クラスタマトリックスをそれぞれ作成し、分離クラスタマトリックスに、映像中に互いに到達可能でない状態となるフレームが存在するクラスタ対であることを示す情報を、追加登録するものとする。
以上のように、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、すべてのフレームについて分離クラスタの有無を調査し、分離クラスタがあるフレームについて、互いに到達可能であるクラスタ対であることを示す情報と、映像中に互いに到達可能でない状態となるフレームが存在することを示す情報とを、それぞれ到達可能クラスタマトリックスと、分離クラスタマトリックスとに登録する。
次に、図3に示した映像を例として、到達可能クラスタマトリックス作成処理と、分離クラスタマトリックス更新処理について説明する。
図3に示した例における分離クラスタについて説明すると、第1フレームにおいては、クラスタC0,C1,C5からなるクラスタ群と、クラスタC2からなるクラスタ群とが、互いに隣接していない。従って、第1フレームおいては、分離クラスタがある状態(分離フレーム)である。
一方、第2フレーム及び第3フレームにおいては、すべてのクラスタで1つのクラスタ群を構成しているため、分離クラスタがない状態(分離フレームではない)である。
また、第4フレームは、クラスタC4,C1,C5からなるクラスタ群と、クラスタC3からなるクラスタ群とが、互いに隣接していないため、分離クラスタがある状態である。
(到達可能クラスタマトリックス作成処理)
まず、到達可能クラスタマトリックス作成処理について説明する。
到達可能クラスタマトリックスとは、空間的に隣接するクラスタを経由して他方のクラスタに到達可能であるクラスタ対であることを示す情報のことである。
ステップS22において、分離クラスタがある場合は、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、図7(a)に示すような、その分離フレームについての到達可能クラスタマトリックスを作成する。図7(a)に示した到達可能クラスタマトリックスにおいて、上端の行及び左端の列に記載された「0」〜「5」は、処理対象の統合領域のうち、現在処理を行っている分離フレームに含まれるクラスタのクラスタIDを示しており、マトリックス中に「v」が記された行列に対応するクラスタ対が、互いにその分離フレーム内にて到達可能であることを示す。すなわち、あるフレームにおいて分離クラスタがある場合に、そのフレームに含まれるクラスタについて、互いに到達可能なクラスタ対であることを示す情報が到達可能クラスタマトリックスに登録される。なお、到達可能クラスタマトリックスには、任意のクラスタ対が到達可能であるかどうかを示す情報が登録されればよいため、到達可能でないクラスタ対であること示す情報を記録するようにしてもよい。
図3に示すように、第1フレームにおいては、分離クラスタがあるため、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、第1フレームについて到達可能クラスタマトリックス作成処理を行う(ステップS23)。
第1フレームでは、存在するクラスタはC0,C1,C2,C5となる。クラスタC0からクラスタC1へは、直接隣接しているため、到達可能である。クラスタC0からクラスタC5へは、隣接するクラスタC1を経由して到達可能である。クラスタC0からクラスタC2へは、クラスタC2と隣接するクラスタがないため到達可能ではない。クラスタC1からクラスタC5へは、直接隣接しているため、到達可能である。クラスタC1からクラスタC2へは、クラスタC2と隣接するクラスタがないため到達可能ではない。クラスタC5からクラスタC2へは、クラスタC2と隣接するクラスタがないため到達可能ではない。
以上より、到達可能なクラスタ対として、クラスタC0とクラスタC1、クラスタC0とクラスタC5、及びクラスタC1とクラスタC5の3組が抽出される。
図7(a)に示した到達可能クラスタマトリックスは、図3に示した第1フレームについて調査した結果を示している。従って、第1フレームについての到達可能クラスタマトリックスにおいて、「0」と「1」、「0」と「5」、及び「1」と「5」で示される行列要素に「v」が登録される。なお、クラスタ対の順番は交換できるため、行と列とは入れ替えた行列要素にも「v」が登録される。
なお、次ステップである分離クラスタマトリックスの更新処理(ステップS24)は、先にすべてのフレームについて到達可能クラスタマトリックス生成処理(ステップS23)を終了してから、改めてすべてのフレームについての到達可能クラスタマトリックスを順次に参照して、分離クラスタマトリックスを更新するようにしてもよい。
このため、ここでは到達可能クラスタマトリックス作成処理について、先に説明を進める。
クラスタ情報生成装置1は、再分割条件検出処理手段31によって、順次に第2フレーム〜第4フレームを選択し、各フレームについて調査する。前記したように、第2フレーム及び第3フレームには分離クラスタがないため、到達可能クラスタマトリックス作成処理は行わない。そして、第4フレームには分離クラスタがあるため、到達可能クラスタマトリックス作成処理を行う。
第4フレームにおいては、図3に示すように、存在するクラスタはC1,C3,C4,C5となる。クラスタC3は、他の何れのクラスタC4,C1,C5とも到達可能ではなく、クラスタC4とクラスタC1、クラスタC4とクラスタC5、及びクラスタC1とクラスタC5の3組が到達可能なクラスタ対として抽出される。従って、図7(b)に示すように、第4フレームについての到達可能クラスタマトリックスにおいて、「4」と「1」、及び「4」と「5」、及び「1」と「5」で示される行列要素に「v」が追加登録される。
図3に示した映像例は、第4フレームが最後のフレームであるから、ここで到達可能クラスタマトリックスの作成は終了する。
(分離クラスタマトリックス更新処理)
次に、分離クラスタマトリックス更新処理について説明する。
前記したように、予め、ステップS20において、統合領域を構成するすべてのクラスタ対を対象とした分離クラスタマトリックスの初期状態を生成しておく。初期状態としてはクラスタ対の分離状態情報として何も情報がない状態とする。本例では、図7(c)に示す分離クラスタマトリックスにおいて、すべての要素が空欄の状態のマトリックスを生成する。
そして、ステップS22において、分離クラスタがある場合は(Yes)、クラスタ情報生成装置1は、再分割条件検出処理手段31によって、図7(c)に示すように、分離クラスタマトリックスを更新する。図7(c)に示した分離クラスタマトリックスにおいて、上端の行及び左端の列に記載された「0」〜「5」は、処理対象の統合領域に含まれるクラスタのクラスタIDを示しており、マトリックス中に「x」が記された行列に対応するクラスタ対(ペア)が、映像中に互いに到達可能でない状態となるフレームが存在することを示す。すなわち、あるフレームにおいて分離クラスタがある場合に、そのフレームに含まれるクラスタについて、互いに到達可能でないクラスタ対であることを示す情報が分離クラスタマトリックスに登録される。
また、図7(c)に示した分離クラスタマトリックスは、図3に示したすべてのフレームについて調査した結果を示している。第1フレームを調査した段階では、図7(a)に示した到達可能マトリックスの情報から、互いに到達可能でないクラスタ対として、クラスタC0とクラスタC2、クラスタC1とクラスタC2、及びクラスタC5とクラスタC2の3組が抽出される。従って、この段階では、分離クラスタマトリックスにおいて、「0」と「2」、「1」と「2」、及び「5」と「2」で示される行列要素に「x」が登録される。なお、クラスタ対の順番は交換できるため、行と列とを入れ替えた行列要素にも「x」が登録される。
クラスタ情報生成装置1は、再分割条件検出処理手段31によって、順次に第2フレーム〜第4フレームを選択し、各フレームについて調査する。前記したように、第2フレーム及び第3フレームには分離クラスタがないため、分離クラスタマトリックス作成処理は行わない。そして、第4フレームには分離クラスタがあるため、分離クラスタマトリックス作成処理を行う。
第4フレームにおいては、図7(b)に示す到達可能マトリックスの情報から、図3に示すように、互いに到達可能でないクラスタ対として、クラスタC4とクラスタC3、クラスタC1とクラスタC3、及びクラスタC5とクラスタC3の3組が抽出される。従って、分離クラスタマトリックスにおいて、「4」と「3」、「1」と「3」、及び「5」と「3」で示される行列要素に「x」が追加登録される。
図3に示した映像例は、第4フレームが最後のフレームであるから、ここで分離クラスタマトリックスの作成は終了する。なお、この段階の分離クラスタマトリックスは初期値として、次の処理に用いられる。
(再分割処理)
次に、図8乃至図10を参照(適宜図1参照)して、図2におけるステップS15である再分割処理の詳細について説明する。
再分割処理は、図5に示した隣接クラスタマトリックス及び図7(c)に示した分離クラスタマトリックスを用いて、統合領域ごとにグラフカット処理を行うものである。
再分割処理においては、図8に示すように、クラスタ情報生成装置1は、再分割処理手段32によって、まず、処理対象である統合領域に含まれるクラスタの中から、分割すべきクラスタ対である分割対象ペアを検出する(ステップS30)。ここで検出された分割対象ペアは、互いに異なる領域に再分割されるクラスタ対である。
(分割対象ペアの検出)
ここで、分割対象ペアの検出方法について説明する。
分割対象ペアを検出する条件は、図7(c)に示した分離クラスタマトリックスに登録されたクラスタ対であることである。すなわち、映像中の分離クラスタがある何れかのフレームにおいて互いに到達可能でないクラスタ対を分離対象ペアとして検出する。
図3に示した映像例においては、分離クラスタマトリックスを参照することにより、クラスタC0とクラスタC2、クラスタC1とクラスタC2、クラスタC1とクラスタC3、クラスタC2とクラスタC5、クラスタC3とクラスタC4、及びクラスタC3とクラスタC5の6組のクラスタ対が分離対象ペアとして検出される。
次に、クラスタ情報生成装置1は、再分割処理手段32によって、ステップS30で検出した分離対象ペアから、分割処理を行う1つのクラスタ対を選択する(ステップS31)。このとき、図5に示した隣接クラスタマトリックスに登録されている互いに隣接するクラスタ対を優先的に選択する。分割されるべきクラスタの主要部分が先に分割されることで、末端部の余計な再分割がなされないために、再分割結果の領域がより大きく保たれると同時に、分割処理回数が軽減され再分割処理の効率が向上するため好ましい。
ここでは、隣接クラスタマトリックスに登録されているクラスタ対であるクラスタC0とクラスタC2とのクラスタ対を選択することとする。
次に、クラスタ情報生成装置1は、再分割処理手段32によって、ステップS31で選択した分離対象ペアに対して、一方のクラスタをソースノード、他方のクラスタをシンクノードに割当てる(ステップS32)。
なお、ソースノード及びシンクノードとは、互いに分割される1対のノードのことであり、次工程の処理であるグラフカット処理S33において、これらのノード間を直接に接続するエッジ、及び/又は他のノードを経由して間接に接続されるエッジが切断される。
(グラフカット処理)
次に、クラスタ情報生成装置1は、再分割処理手段32によって、ステップS32で割当てたソースノード及びシンクノード間のグラフカット処理を行う(ステップS33)。
グラフカット処理は、ソースノード及びシンクノード間を直接及び/又は間接に接続するエッジを切断して、ソースノードに接続されるノードと、シンクノードに接続されるノードとに分割する際に、切断するエッジのエネルギーの総和が最小となる組み合わせのエッジを切断する手法である。ここで、エッジのエネルギーとは、例えば、式(1)で示したコスト関数で計算されるコストのことである。
図9に、ソースノードとしてクラスタC0であるノードN0を、シンクノードとしてクラスタC2であるノードN2を割当てた場合の両ノード間の切断方法について説明する。
図9に示すように、ソースノードとしてN0を、シンクノードとしてN2を割り当て、隣接するエッジをそのままソースノードとシンクノード間をつなぐエッジ(t−link)とする。グラフカット処理は、このソースノードとシンクノードとを与えることで、ソースノードに属するノード群とシンクノードに属するノード群の2つに分割するための切断方法について、それを最小コストで行う切断方法を得ることができるアルゴリズムを実装した処理である。各エッジのコストは、クラスタデータ記憶手段13に記憶されているグラフ化処理手段12による処理結果であるグラフデータを参照して用いることができる。
前記したように、式(1)に示したコスト関数は、クラスタの代表色の色差が小さいほど大きな値となる関数である。図3に示した映像例では、前記したように画面中央付近のクラスタC0,C1,C4(ノードN0,N1,N4)の代表色が極めて類似しているため、それらのクラスタ間のエッジE01,E04を切断するコストが非常に高くなる。このため、切断方法CT1のコスト総和が他の切断方法のコスト総和よりも小さくなると考えられる。
そのため、この場合は、切断方法CT1に従ってエッジE02,E12が切断され、この統合領域のグラフから、ノードN2が分断される。すなわち、この統合領域は、クラスタC0,C1,C3,C5,C4からなるクラスタ群と、クラスタC2からなるクラスタ群と、の2つの領域に分割される。
図10(a)は、ノードN2(クラスタC2)とノードN0,N1(クラスタC0,C1)との間のエッジE02,E12(図9参照)が切断された後の状態のグラフを示したものである。
図8に戻って、グラフカット処理S33を行うと、クラスタ情報生成装置1は、再分割処理手段32によって、分離クラスタマトリックスを更新する(ステップS34)。
分離クラスタマトリックス更新処理S34では、グラフカット処理S33によって再分割された結果に基づいて、図7(a)に示した分離クラスタマトリックスを更新する。すなわち、分離クラスタマトリックスに登録されたクラスタから、グラフカット処理S33により分断されたクラスタを除外する。
前記したように、図3に示した映像例では、分割されるのはクラスタC2であるから、図10(b)に示すように、分離クラスタマトリックスからクラスタC2が関与する情報を削除する。なお、図10(b)において、ハッチングを施した要素データが削除されたことを示している。
このとき、元の統合領域についてのデータから、クラスタC2についてのクラスタデータも削除するものとする。図3に示した映像例では、分割されるのはクラスタC2のみであるが、複数のクラスタがクラスタC2とともに分割される場合は、統合領域データからそれらのクラスタに関するデータも削除する。
なお、この分割によって削除された方のクラスタ群は、元の統合領域とは異なる新たな統合領域として登録される。言い換えれば、元の統合領域を2つに分割するものである。
これに伴い、分離クラスタマトリックスを2つに分割する。そして、分割された新たな統合領域についても、分割対象ペアが存在しなくなるまで順次に再分割処理が行われる。
次に、クラスタ情報生成装置1は、再分割処理手段32によって、図10(b)に示した更新後の分離クラスタマトリックスを参照して、分離対象ペアが残存するか確認し(ステップS35)、残存しない場合は(ステップS35でNo)、この統合領域についての再分割処理を終了する。
一方、分割対象ペアが残存する場合は(ステップS35でYes)、ステップS30に戻って、クラスタ情報生成装置1は再分割処理手段32によって再分割処理を続ける。
図3に示した映像例では、クラスタC1とクラスタC3、クラスタC3とクラスタC4、及びクラスタC3とクラスタC5の3組のクラスタ対が分割対象ペアとして残存している。そこで、ステップS30に戻り、クラスタ情報生成装置1は、再分割処理手段32によって、図5に示した隣接クラスタマトリックス及び図10(b)に示した更新後の分離クラスタマトリックスを用いて、分割対象ペアの再検出を行い、分割対象ペアとなるクラスタ対をリストアップする(ステップS30)。そして、クラスタ情報生成装置1は、再分割処理手段32によって、リストアップしたクラスタ対から1つのクラスタ対を選択する(ステップS31)。
図3に示した映像例では、分割対象ペアとして前記した3組のクラスタ対がリストアップされる。この中から、隣接クラスタマトリックスに登録されているクラスタ対である、クラスタC1とクラスタC3とのクラスタ対を分割対象ペアとして選択する(ステップS31)。そして、ソースノードとしてクラスタC1であるノードN1を、シンクノードとしてクラスタC3であるノードN3を割当て(ステップS32)、グラフカット処理を行う(ステップS33)。
前記した要領でグラフカット処理を行うことにより、図10(a)に示したグラフにおいて、他の切断方法よりも切断するエッジのエネルギー総和の小さい切断方法CT2が選択され、エッジE03,E13が切断される。
これによって、この統合領域のグラフは、図11(a)に示すよう、統合処理直後の統合領域から、クラスタC2に加えて、更にクラスタC3が分断された状態となる。このグラフカット処理の結果に基づき、クラスタC2に加えて、クラスタC3に関するデータを削除する分離クラスタマトリックスの更新を行う(ステップS34)。その結果、分離クラスタマトリックスは、図11(b)に示すようになる。なお、図11(b)において、ハッチングを施した要素データが削除されたことを示している。
分離クラスタマトリックスを更新すると(ステップS34)、クラスタ情報生成装置1は、再分割処理手段32によって、図11(b)に示した更新後の分離クラスタマトリックスを参照して、分離対象ペアが残存するか確認する(ステップS35)。図11(b)に示した分離クラスタマトリックスによれば、分割対象ペアは残存してないことが確認できる(ステップS35でNo)。従って、クラスタ情報生成装置1は、この統合領域についての再分割処理を終了する。
図3に示した映像例では、この統合領域は、クラスタC2及びクラスタC3がそれぞれ独立のクラスタ群として分断され、残りのクラスタC0,C1,C5,C4からなるクラスタ群と合わせて、クラスタを単位とする3つの領域に再分割されたことになる。すなわち、再分割処理による分割領域の数は、クラスタ化処理によって分割された領域数より少なく、統合処理による領域数よりも多くなっている。更に、映像全体を通して見たときに、空間的に分離されることがある部分(クラスタC2,C3)は、それぞれ別の領域に分割されるため、適切な領域分割結果となる。
クラスタ情報生成装置1は、領域ID分布映像から、各クラスタ間の隣接関係をデータ化する。具体的に、クラスタ情報生成装置1は、あるクラスタIDを有した全てのピクセルについて、ピクセルに時空間上隣接するピクセル(26近傍)のIDをリストアップすることにより、当該クラスタに隣接する全クラスタのクラスタIDを取得する。クラスタ情報生成装置1が出力するクラスタ隣接情報は、例えば、隣接マトリックス、またはこれと1対1に対応するグラフ上の連結データの形式による。
以上説明したように、本実施形態におけるクラスタ情報生成装置1による領域分割処理によって、入力として領域分割の対象となる映像と、領域分割処理のためのいくつかの少数のパラメータを与えることで、その色情報のみから被写体領域の抽出に対して適切な領域分割結果を取得することができる。
また、ピクセル単位での取り扱いではなく、過分割な状態にクラスタ化された領域を単位として、統合と再分割とを行って領域分割が成されるため、処理するデータ量は極めて小さくなり、インタラクティブなレスポンスが可能である。統合と再分割を行うことにより、均一なパラメータでは制御の難しかった領域の粒度を適応的に制御することができ、「同一の被写体領域はなるべく時空間的に大きく構成され」、「異なる被写体領域には同じ領域IDが割り振られない」ように領域分割することができる。
また、色情報に基づいて時空間領域を分割する際に必要な前提は、同じ被写体領域は時間方向に同じ色であり続けることと、異なる被写体領域は異なる色である必要があるという点である。しかしながら、撮影しているカメラが動いていたり、被写体が映像内で動いていたりする場合、同一の被写体領域は時刻によって映像内の空間位置を変えるだけでなく、カメラの性能や物体と光源の位置関係の変化などから対象領域の色情報も変化する。
このような場合においても、特に時間方向への領域情報の継承のため、第2段階の統合処理に用いる色情報の閾値として、比較的に緩い設定とすることでその継承性を向上することが可能である。
その際に、空間的に近くにある類似した色の異なる被写体領域を同じ域に取り込む副作用がある。例えば、2人の人物がすれ違う際に交差する顔や髪の毛の領域など、色が近い物体が映像上の空間的に接近し、背面に隠れ、再度分離する際に、異なる被写体領域に同じ領域IDを割り振られてしまうことを誘発しやすくなる。
本実施形態では、統合処理によって同一の領域に統合された異なる被写体領域を、再分割して被写体ごとの領域に適切に分割することができる。
本実施形態は、「同一の被写体領域はなるべく時空間的に大きく構成され」、「異なる被写体領域には同じ領域IDが割り振られない」ように、領域分割を行うことができる。
なお、被写体領域の抽出を目的とした領域分割を考えると、「異なる被写体領域には同じ領域IDが割り振られないこと」が満たされることはきわめて重要な要件である。これが満足されない場合、該当する領域には複数の被写体領域が含まれていることになり、後の処理でその領域を抽出領域として選択してしまうと、関係する領域すべてが選択されてしまうために、本来不必要な他の被写体領域も選択されてしまう。本実施形態によれば、「異なる被写体領域には同じ領域IDが割り振られない」を満足するように領域分割できるため、映像制作や映像加工などにおける被写体領域の抽出処理や、映像検索における被写体領域を指定入力するための領域分割装置として好適に利用することができる。
<実施例1>
次に、実施例1として、抽象的な被写体の映像を入力映像として、クラスタ情報生成処理を行った結果について説明する。
図12は、実施例1で用いた映像であり、30個のフレームからなる映像の内の、第1フレームと、第10フレームと、第30フレームとを示したものである。映像中には、縦長の長方形の2つの被写体OBJ1、OBJ3が画面の中央付近に並置されており、これらの被写体OBJ1,OBJ3は静止している。また、これらの被写体OBJ1、OBJ3は、ともに被写体全域でほぼ一様な赤色をしている。なお、OBJ1については、中心部において、円形の被写体OBJ2よりも小さな一部の領域で、他の部分の赤色に極めて類似するが異なる色の分布となった部分を持っている。また、円形の被写体OBJ2は、被写体全域でほぼ一様な赤色をしており、被写体OBJ1と類似した色である。また、被写体OBJ2は、第1フレームから第30フレームにかけて、画面の左側から右側に向かって移動し、被写体OBJ1の背後を通過するものである。また、背景となる被写体OBJ4は、被写体全域が一様な黄色で経時変化はしない。
図12に示した映像の、第1段階から第3段階までの各段階の領域分割処理の結果として、第10フレームに対応する画像を図13に示す。
図13(a)は、第1段階の領域分割処理であるクラスタ化処理の結果示すものである。図13(a)は、クラスタごとに色分けした映像である領域ID(クラスタID)分布映像を示したものである。図13(a)において、異なるハッチングを施した領域は、異なるクラスタとして領域分割されていることを示す。この段階の領域分割では、被写体OBJ1が、縦方向に3つの領域に分割され、被写体OBJ2も独立した1つのクラスタとして領域分割されている。
図13(b)は、第2段階の領域分割処理であるクラスタ統合処理の結果示すものである。図13(b)は、統合領域ごとに色分けした映像である領域ID(統合領域ID)分布映像を示したものである。図13(b)において、異なるハッチングを施した領域は、異なるクラスタとして領域分割されていることを示す。この段階の領域分割では、被写体OBJ1の領域の3つのクラスタが1つの領域に統合されているが、色が類似し、かつ、映像中で隣接する状態があるために、異なる被写体OBJ2の領域のクラスタも一緒に統合されている。
図13(c)は、第3段階の領域分割処理であるクラスタ再分割処理の結果示すものである。図13(c)は、再分割領域ごとに色分けした映像である領域ID(再分割領域ID)分布映像を示したものである。図13(c)において、異なるハッチングを施した領域は、異なるクラスタとして領域分割されていることを示す。この最終段階の領域分割では、被写体OBJ1の領域の3つのクラスタが1つの領域に統合されたまま、異なる被写体OBJ2の領域のクラスタは異なる領域に再分割されていることが分かる。
<実施例2>
次に、実施例2として、ビデオカメラを用いて撮影した映像を入力映像として、クラスタ情報生成処理を行った結果について説明する。
図14Aから図14Cは、実施例1で用いた映像であり、図14A、図14B及び図14Cは、74個のフレームからなる映像の内の、それぞれ第23フレーム、第27フレーム及び第31フレームを示したものである。この映像において、黒い服を着た人物が画面内を右から左に向かって歩いており、白い服を着た人物が画面内を左から右に向かって歩いており、両人物は画面の中央付近で、黒い服を着た人物が手前側となるように交差する。また、両者が交差する画面中央付近の背景には、黒っぽい色の樹木があり、何れも黒っぽい両人物の頭部が、背景の樹木と交差するフレームがある。また、両人物以外の背景は、ほぼ静止している。
図14Aから図14Cに示した映像の、第1段階から第3段階までの各段階の領域分割処理の結果として、第23フレームに対応する画像を図15Aから図15Cに示す。
図15Aは、第1段階の領域分割処理であるクラスタ化処理の結果示すものである。図15Aは、クラスタごとに色分けした映像である領域ID(クラスタID)分布映像を示したものである。色の濃さの異なる領域は、異なるクラスタとして領域分割されていることを示す。但し、原画像では、クラスタごとに色分けされているが、図15Aでは、白黒の階調画像に変換して示しているため、異なるクラスタに領域分割されているかどうか分かりにくい部分もある。なお、図15B及び図15Cも同様である。
図15Aに示すように、第1段階では、異なる被写体の領域が同じクラスタに領域分割されることがなく、人物のズボンや上着なども個々のクラスタからは元の形状が判別できない程度の過分割な状態に領域分割されていることが分かる。
図15Bは、第2段階の領域分割処理であるクラスタ統合処理の結果示すものである。図15Bは、統合領域ごとに色分けした映像である領域ID(統合領域ID)分布映像を示したものである。
図15Bに示すように、類似した色のクラスタが統合され、例えば、人物のズボンや上着などの領域のクラスタが大きく統合されているのが分かる。一方、図中に矢印で示した領域である人物の頭部、手前(右側)の人物の上着、及び背景の樹木について、色が互いに類似しており、かつ、映像中で交差するフレームがあるため、これらの異なる被写体の領域のクラスタが1つの領域に統合されている。
図15Cは、第3段階の領域分割処理であるクラスタ再分割処理の結果示すものである。図15Cは、再分割領域ごとに色分けした映像である領域ID(再分割領域ID)分布映像を示したものである。
図15Cに示すように、クラスタ再分割処理により、図15Cに矢印で示した異なる被写体のクラスタが統合された領域が、被写体ごとに異なる領域に再分割されているのが分かる。また、人物のズボンなどは再び細かく過分割されることが抑制され、適切に再分割されていることが分かる。このため、特に手作業で被写体の領域指定を行うためには、より好適に領域分割されているのが分かる。
以上により、クラスタ情報生成装置1(クラスタ情報生成部)は、映像を構成するピクセル(画素)を、時空間において複数のクラスタに分割し、これら複数のクラスタ(IDを有する)と各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成する。
次に、映像領域分割装置の構成について説明する。
図16は、本実施形態である映像領域分割装置の機能構成を示すブロック図である。同図に示すように、映像領域分割装置100は、上述したクラスタ情報生成部1と、シード情報取得部2と、隣接項計算部3と、クラスタ平均画素数計算部4と、尤度項計算部5と、分割部6とを備える。
シード情報取得部2は、特定のクラスタが物体(前景)または背景のいずれに属するかを示すシード情報を取得する。物体として指定されたシード情報(物体シード)は、物体に対応するクラスタと、このクラスタを構成する画素の集合である。また、背景として指定されたシード情報(背景シード)は、背景に対応するクラスタと、このクラスタを構成する画素の集合である。取得方法として、例えば、処理対象である領域代表映像における所望のフレーム画像(代表フレーム画像)において、ユーザによる操作(矩形領域指定)によって、抽出対象である物体を含むおおよその領域が矩形の枠で囲まれ、また、ユーザによる操作(タッチアップ)によって、物体および背景を構成する一部のクラスタが指定される。シード情報取得部2は、設定された矩形の枠の外側にのみ構成される画素が存在するクラスタの集合を背景シード、物体として指定したクラスタの集合を物体シード、背景として指定したクラスタの集合を背景シードとして取得する。シード情報取得部2は、取得したシード情報を尤度項計算部5に供給する。
クラスタ平均画素数計算部4は、クラスタ情報生成部1が生成したクラスタ情報に基づいて、クラスタごとのフレームあたりのクラスタ平均画素数を計算する。具体的に、クラスタ平均画素数計算部4は、クラスタを構成する画素数をそのクラスタが存在する時間フレーム数で除算することによってクラスタ平均画素数を得る。クラスタ平均画素数計算部4は、算出したクラスタ平均画素数の情報を尤度項計算部5に供給する。
尤度項計算部5は、クラスタ情報生成部1が生成したクラスタ情報とシード情報取得部2が取得したシード情報とに基づいて、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布(背景の尤度)、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布(物体の尤度)を求める。尤度項計算部5は、背景シードに属する複数のクラスタそれぞれの代表色をサンプルとして用いて統計処理を行い、GMM(Gaussian Mixture Model)による色の確率分布を求める。具体的には、尤度項計算部5は、GMMにおける各次元の平均値と共分散を求める。この確率分布は、あるクラスタの代表色を前提としてそのクラスタが背景に属する条件付き確率分布(第1条件付き確率分布)である。尤度項計算部5は、物体シードについても同様の処理を行い、GMMによる色の確率分布を求める。この確率分布は、あるクラスタの代表色を前提としてそのクラスタが物体に属する条件付き確率分布(第2条件付き確率分布)である。これら第1および第2の条件付き確率分布に基づいて、クラスタノードのうち、物体シードかつ背景シードのどちらにもシードされていないクラスタ(非シードクラスタと呼ぶ。)の、第1コストおよび第2コストを設定する。物体シードまたは背景シードのいずれかに指定されたクラスタの第1コストおよび第2コストについては、後述する。
つまり、尤度項計算部5は、シード情報と第1条件付き確率分布と第2条件付き確率分布とに基づいて、あるクラスタと物体ノードとの間の第1コストおよび前記のクラスタと背景ノードとの間の第2コストとを計算する。尤度項計算部5は、算出した第1コストおよび第2コストを分割部6に供給する。なお、尤度項計算部5は、クラスタ平均画素数計算部4が計算したクラスタ平均画素数によって重み付けて、非シートクラスタの第1コストおよび第2コストを計算してもよい。
隣接項計算部3は、クラスタ情報生成部1により生成されたクラスタ情報に基づいて、隣接するクラスタにおいて、色の差が大きいほど低い第3コストを計算する。隣接項計算部3は、算出した第3コストを分割部6に供給する。
分割部6は、各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有する。分割部6は、クラスタノードと物体ノードとの間のエッジが第1コストに対応し、クラスタノードと背景ノードとの間のエッジが第2コストに対応し、隣接するクラスタノード間のエッジが第3コストに対応するグラフを、それぞれのクラスタノードが物体ノードまたは背景ノードのいずれか一方のみと連結になるように、例えばグラフカット法により、コストを最小化させて二分する。なお、分割部6は、コストを最小化させないものの、あらかじめ定めた所定レベルよりも小さくするようにクラスタノードを分割してもよい。
次に、分割部6が実行するグラフカット処理について説明する。
図17は、時空間分割されたクラスタに対するグラフを簡略化し模式的に表した図である。本実施形態におけるグラフは画像空間を時間方向に拡張した時空間の領域を対象とするものであるが、同図では、便宜上、時間方向を省略したクラスタを概念的に表している。同図において、グラフgは、時空間分割された各クラスタに対応したクラスタノードと、ソースノード(物体ノード)Sと、シンクノード(背景ノード)Tとを有する。クラスタノードには、物体シード(obj seed)として指定されたクラスタノードと、背景シード(bkg seed)として指定されたクラスタノードとが含まれる。隣接クラスタ間には、それぞれのクラスタを繋ぐエッジ(n−link)が設けられる。また、ソースノードと全てのクラスタそれぞれとの間には、それらを繋ぐエッジ(t−link)が設けられる。また、シンクノードと全てのクラスタそれぞれとの間には、それらを繋ぐエッジ(t−link)が設けられる。分割部6は、これらのエッジにコストを付与し、例えば、グラフ理論のアルゴリズムの一つであるmax−flowアルゴリズム(非特許文献1参照)を適用して、各クラスタがソースノードSまたはシンクノードTいずれかに属するように分割する。
図17のグラフgを時空間において表すと図18のようになる。同図には、画像空間と時間方向とを表した時空間において、隣接クラスタ間(物体シードクラスタ、背景シードクラスタ、および非シードクラスタ相互間)にエッジが設けられたグラフGが表されている。
分割部6が実行するグラフカット処理では、シード情報取得部2によって指定された物体シードに似た色を有するクラスタが物体側となるよう、また、シード情報取得部2によって指定された背景シードに似た色を有するクラスタが背景側となるよう、さらに、隣接クラスタの色の差が大きい部分が境界となるよう最適なラベリングを計算する。
m個のクラスタからなるクラスタ集合Pを、ユーザが指定する物体領域とそれ以外の背景領域とに分割する場合について説明する。各クラスタp∈Pに対して割り振るラベルのベクトルを、A={A,A,・・・,A}とする。各A(p=1,2,3,・・・,m)は、物体“obj”または背景“bkg”いずれかのラベルである。また、クラスタpに隣接するクラスタ群をN、隣接クラスタをq∈Nとする。ここで、クラスタの振り分けにおいて生じるコストは、下記の式(2)のコスト関数E(A)として表される。
式(2)におけるR(A)は、領域に対するコスト関数(尤度項)、式(2)におけるB(A)は、物体と背景との境界に対するコスト関数(隣接項)である。R(A)は、各クラスタが物体“obj”または背景“bkg”のラベルに割り当てられる際のコストに相当する。B(A)は、隣接クラスタpおよびqのラベルが異なった場合に生じる境界コストに相当する。下記の式(3)に示すように、分割部6は、コスト関数E(A)を最小にするようなラベルのベクトルA(ハット)を、例えばmax−flowアルゴリズムを適用して算出する。
次に、領域に対するコスト関数(尤度項)R(A)について説明する。下記の式(4)に示すように、クラスタとソースノード(物体ノード)との間のエッジを切るために生ずるコストR(“bkg”)は、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布(背景の尤度)により求められる。また、クラスタとシンクノード(背景ノード)との間のエッジを切るために生ずるコストR(“obj”)は、クラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布(物体の尤度)により求められる。式(4)において、Iは、クラスタpの代表色、Oは物体領域、Bは背景領域を表す。
ただし、尤度項計算部5は、下記の式(5)に示すとおり、平均ベクトルμと共分散Σとを用いた、シードの代表色Iのガウシアン分布P(I|μ,Σ)をGMMにより混合した条件付き確率分布Pr(I|・)を適用して、背景および物体の尤度を算出する。式(5)において、αは、GMMの各要素の混合係数(mixture weighting coef.)、Nは、GMMの要素数(次元数)を表す。Nは、例えば、5である。
下記の式(6)は、非シードクラスタの領域に対するコスト関数(尤度項)である。ただし、本実施形態では、画面空間として大きい領域と小さい領域との間で尤度の寄与に差をつける。つまり、尤度項計算部5は、クラスタ平均画素数計算部4が算出したクラスタ平均画素数によって重み(寄与率)κを付して、第1コストおよび第2コストを計算する。式(6)において、p(オーバ・バー)は、クラスタpにおける平均画素数、μは、全領域に関する平均画素数の平均、aは、固定のコントロールパラメータである。なお、式(6)の寄与率の平均ピクセル数による変化は、図19のグラフに示すとおりである。同図のグラフは、クラスタ平均画素数に対する寄与率κを表したものである。つまり、尤度項計算部5は、画像空間の領域の画素数が多いほど寄与率を高くして(重く重みを付けて)尤度項を計算する。
次に、物体と背景との境界に対するコスト関数(隣接項)B(A)について説明する。隣接クラスタ間のエッジ(n−link)にかかるコストは、下記の式(7)として表される。式(7)は、注目クラスタに対する、ラベルが異なる隣接クラスタ間の切断コストの総和を求めるものである。式(7)によれば、隣接するクラスタにおけるラベルが異なる場合のB{p,q}が第3コストとなる。
この隣接クラスタ間のエッジにかかるコストB{p,q}は、下記の式(8)として表される。ただし、βは、全ての隣接クラスタ間の色の差の大きさの平均値である。また、γは、隣接項と尤度項との効果のバランスを制御するためのパラメータである。つまり、第3コストは、隣接クラスタ間の座標間距離に依存せず、色の差が大きいほど小さいコストである。
物体または背景として特定されたシードクラスタのt−linkにかかるコストKは、下記の式(9)として表される。ただし、Nは、領域pの隣接領域数である。また、γは、隣接項と尤度項との効果のバランスを制御するためのパラメータである。シードクラスタは、特別にユーザによって明示的に物体または背景として指示されたものである。よって、式(9)は、その指定を代表色から算出される非シードクラスタ領域の尤度よりも強く作用させるためのものである。つまり、物体シードされたクラスタの、クラスタノードとソースノードとの間のコストはKに、物体シードされたクラスタの、クラスタノードとシンクノードとの間のコストは“0(ゼロ)”になる。(ユーザによって物体としてシードされたクラスタはシンクノード(背景ノード)を切るのにコストはかからないが、ソースノード(物体ノード)を切るためには大きなコストを必要とする。)同様に、背景シードされたクラスタの、クラスタノードとソースノードとの間のコストは“0(ゼロ)”に、背景シードされたクラスタの、クラスタノードとシンクノードとの間のコストはKになる。
以上、n−linkおよびt−linkにかかるコストを下記の表(1)にまとめる。
表1において、隣接クラスタ間のエッジ(n−link)を切るためにかかるコストは、B{p,q}である。また、各クラスタとソースノードとの間のエッジ(t−link)を切るためにかかるコストは、クラスタが矩形枠外にある場合は、それらのクラスタは背景シードとされるため、“0(ゼロ)”になる。クラスタが物体シードとして指定された場合は、Kにより表され、クラスタが背景シードとして指定された場合は、“0(ゼロ)”である。そして、それ以外の矩形枠内の非シードクラスタの場合、そのコストは、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布により表される。また、各クラスタとシンクノードとの間のエッジ(t−link)を切るためにかかるコストは、クラスタが矩形枠外にある場合は、それらのクラスタは背景シードとされるため、Kになる。クラスタが背景シードとして指定された場合は、Kにより表され、クラスタが物体シードとして指定された場合は、“0(ゼロ)”である。そして、それ以外の矩形枠内の非シードクラスタの場合、そのコストは、クラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布により表される。
図20は、クラスタ情報生成部1が生成するクラスタ情報におけるクラスタIDによる領域ごとの色分けの画像と、シード情報取得部2によってシード情報が指定された様子と、分割部6が出力する物体領域抽出映像の画像とを表した図である。同図に示すように、入力映像に対して、ユーザによる矩形枠211と、物体シード212と、背景シード213とがユーザの操作によって指定される。矩形枠211は、その中に物体が含まれるように設定される。そして、分割部6による分割処理の結果として、抽出映像221が生成される。
次に、映像領域分割装置100の動作について説明する。
図21は、映像領域分割装置100の処理手順を示すフローチャートである。
ステップS101において、クラスタ情報生成部1は、映像を構成する画素を、時空間において複数のクラスタに分割し、これら複数のクラスタと各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成する。
次に、ステップS102において、シード情報取得部2は、特定のクラスタが物体(前景)または背景のいずれに属するかを示すシード情報を取得する。
次に、ステップS103において、クラスタ平均画素数計算部4は、クラスタ情報生成部1が生成したクラスタ情報に基づいて、クラスタごとのフレームあたりのクラスタ平均画素数を計算する。
次に、ステップS104において、尤度項計算部5は、クラスタ情報生成部1が生成したクラスタ情報とシード情報取得部2が取得したシード情報とに基づいて、非シードクラスタに対して、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布を計算する。そして、尤度項計算部5は、シード情報と第1条件付き確率分布と第2条件付き確率分布とに基づいて、ある非シードクラスタと物体ノードとの間の第1コストおよび前記の非シードクラスタと背景ノードとの間の第2コストとを計算する。また、物体および背景シードクラスタの領域に対する第1および第2コストは、表1のp∈Oあるいはp∈Bの行のように設定される。尤度項計算部5は、算出した第1コストおよび第2コストを分割部6に供給する。
次に、ステップS105において、隣接項計算部3は、クラスタ情報生成部1が生成したクラスタ情報に基づいて、隣接するクラスタにおいて、色の差が大きいほど低い第3コストを計算する。
次に、ステップS106において、分割部6は、各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有する。分割部6は、クラスタノードと物体ノードとの間のエッジが第1コストに対応し、クラスタノードと背景ノードとの間のエッジが第2コストに対応し、隣接するクラスタノード間のエッジが第3コストに対応するグラフを、それぞれのクラスタノードが物体ノードまたは背景ノードのいずれか一方のみと連結になるように、例えばグラフカット法により、コストが最小となるよう二分する。
所望の物体が抽出された場合(ステップS107:YES)は、本フローチャートの処理を終了し、抽出が不十分である場合(ステップS108:NO)は、ステップS102の処理へ戻す。
なお、図21のフローチャートにおいて、ステップS104の処理とステップS105の処理とは、処理の順番が逆であってもよい。
以上、説明したとおり、本実施形態によれは、時空間においてクラスタ分割された映像について、物体および背景の一部を指示する簡単なシード操作を行うだけで、所望の部分領域映像の抽出を高精度且つ効率的に行うことができる。
なお、映像領域分割装置100のクラスタ情報生成部1が実行するクラスタ処理については、本実施形態によるクラスタリング手法が望ましいが、平均値シフト法などをベースとした一般的な時空間クラスタリング処理方法を用いてもよい。
また、上述した実施形態である映像領域分割装置100の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための映像領域分割プログラムをコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録された映像領域分割プログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することにより、当該機能を実現してもよい。なお、このコンピュータシステムとは、オペレーティングシステム(Operating System;OS)や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記の映像領域分割プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
1…クラスタ情報生成装置(クラスタ情報生成部)、2…シード情報取得部、3…隣接項計算部、4…クラスタ平均画素数計算部、5…尤度項計算部、6…分割部、10…クラスタ化処理部、11…クラスタ化処理手段、12…グラフ化処理手段(隣接状態情報作成手段)、13…クラスタデータ記憶手段、20…クラスタ統合処理部、21…隣接クラスタ統合処理手段、22…統合領域データ記憶手段、30…クラスタ再分割処理部、31…再分割条件検出処理手段、32…再分割処理手段、33…再分割領域データ記憶手段、100…映像領域分割装置、C0〜C5…クラスタ、N0〜N5…ノード、E01〜E15…エッジ、CT1、CT2…切断方法、OBJ1〜OBJ3…物体(被写体)

Claims (4)

  1. 映像を構成する画素を、時空間において複数のクラスタに分割し、前記複数のクラスタと各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成するクラスタ情報生成部と、
    特定のクラスタが物体または背景のいずれに属するかを示すシード情報を取得するシード情報取得部と、
    前記クラスタ情報生成部が生成した前記クラスタ情報と前記シード情報取得部が取得した前記シード情報とに基づいて、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布を求め、前記シード情報と前記第1条件付き確率分布と前記第2条件付き確率分布とに基づいて、あるクラスタと物体ノードとの間の第1コストおよび前記クラスタと背景ノードとの間の第2コストとを計算する尤度項計算部と、
    前記クラスタ情報に基づいて、隣接するクラスタにおいて色の差が大きいほど低い第3コストを計算する隣接項計算部と、
    各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有し、前記クラスタノードと前記物体ノードとの間のエッジが前記第1コストに対応し、前記クラスタノードと前記背景ノードとの間のエッジが前記第2コストに対応し、隣接するクラスタノード間のエッジが前記第3コストに対応するグラフを、それぞれのクラスタノードが前記物体ノードまたは前記背景ノードのいずれか一方のみと連結になるように、グラフカット法によりコストが小さくなるよう二分する分割部と、
    を備える映像領域分割装置であって、
    前記クラスタ情報生成部は、
    前記映像に属する前記画素を、映像中の異なる被写体が同一の領域として分割されない状態にある過分割クラスタに分割するクラスタ化処理部と、
    前記クラスタ化処理部によって分割された前記過分割クラスタの代表色に基づいて隣接する前記過分割クラスタを統合クラスタとして統合する処理を行うクラスタ統合処理部と、
    前記クラスタ統合処理部によって統合された前記統合クラスタを、異なる前記被写体に属する前記過分割クラスタが統合されているかどうかを判断するための所定の再分割条件に基づいて前記過分割クラスタを単位として、前記再分割条件に該当する過分割クラスタ対が互いに異なる領域に属するよう再分割することによって前記クラスタとするクラスタ再分割処理部と、を備える、
    映像領域分割装置。
  2. 前記再分割条件は、1つの前記統合クラスタに含まれる1対の前記過分割クラスタに関して、当該1対の前記過分割クラスタが空間的に2以上のクラスタ群に分離した状態のフレームにおいて、当該1対の前記過分割クラスタが当該統合クラスタに属する他の隣接過分割クラスタを順次に経由しても互いに到達可能ではない場合に当該1対の前記過分割クラスタが再分割されるものであることを表す条件である、
    請求項1に記載の映像領域分割装置。
  3. 映像を構成する画素を、時空間において複数のクラスタに分割し、前記複数のクラスタと各クラスタの代表色を示す色情報と隣接するクラスタを示すクラスタ隣接情報とを含むクラスタ情報を生成するクラスタ情報生成部と、
    特定のクラスタが物体または背景のいずれに属するかを示すシード情報を取得するシード情報取得部と、
    前記クラスタ情報生成部が生成した前記クラスタ情報と前記シード情報取得部が取得した前記シード情報とに基づいて、クラスタが背景であることを前提としたクラスタの代表色の第1条件付き確率分布、およびクラスタが物体であることを前提としたクラスタの代表色の第2条件付き確率分布を求め、前記シード情報と前記第1条件付き確率分布と前記第2条件付き確率分布とに基づいて、あるクラスタと物体ノードとの間の第1コストおよび前記クラスタと背景ノードとの間の第2コストとを計算する尤度項計算部と、
    前記クラスタ情報に基づいて、隣接するクラスタにおいて色の差が大きいほど低い第3コストを計算する隣接項計算部と、
    各クラスタに対応するクラスタノードと物体に対応する物体ノードと背景に対応する背景ノードとを有し、前記クラスタノードと前記物体ノードとの間のエッジが前記第1コストに対応し、前記クラスタノードと前記背景ノードとの間のエッジが前記第2コストに対応し、隣接するクラスタノード間のエッジが前記第3コストに対応するグラフを、それぞれのクラスタノードが前記物体ノードまたは前記背景ノードのいずれか一方のみと連結になるように、グラフカット法によりコストが小さくなるよう二分する分割部と、
    前記クラスタ情報に基づいて、クラスタごとのフレームあたりのクラスタ平均画素数を計算するクラスタ平均画素数計算部と、
    を備える映像領域分割装置であって、
    前記尤度項計算部は、前記クラスタ平均画素数計算部が計算した前記クラスタ平均画素数によって重み付けて前記第1コストおよび前記第2コストを計算する、
    映像領域分割装置。
  4. コンピュータを、
    請求項1から3までのいずれか一項に記載の映像領域分割装置
    として機能させるための映像領域分割プログラム。
JP2013264623A 2013-12-20 2013-12-20 映像領域分割装置および映像領域分割プログラム Expired - Fee Related JP6448109B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013264623A JP6448109B2 (ja) 2013-12-20 2013-12-20 映像領域分割装置および映像領域分割プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013264623A JP6448109B2 (ja) 2013-12-20 2013-12-20 映像領域分割装置および映像領域分割プログラム

Publications (2)

Publication Number Publication Date
JP2015121901A JP2015121901A (ja) 2015-07-02
JP6448109B2 true JP6448109B2 (ja) 2019-01-09

Family

ID=53533469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013264623A Expired - Fee Related JP6448109B2 (ja) 2013-12-20 2013-12-20 映像領域分割装置および映像領域分割プログラム

Country Status (1)

Country Link
JP (1) JP6448109B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208398B (zh) * 2015-09-22 2018-06-19 西南交通大学 一种获取道路实时背景图的方法
JP6336952B2 (ja) * 2015-09-30 2018-06-06 セコム株式会社 群衆解析装置
JP2017126304A (ja) * 2016-01-15 2017-07-20 富士ゼロックス株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178569A (ja) * 2002-11-12 2004-06-24 Matsushita Electric Ind Co Ltd データ分類装置、物体認識装置、データ分類方法及び物体認識方法
JP2006190188A (ja) * 2005-01-07 2006-07-20 Toyota Motor Corp 領域分割方法

Also Published As

Publication number Publication date
JP2015121901A (ja) 2015-07-02

Similar Documents

Publication Publication Date Title
JP6458394B2 (ja) 対象追跡方法及び対象追跡装置
Bauer et al. The potential of automatic methods of classification to identify leaf diseases from multispectral images
Ta et al. Graph-based tools for microscopic cellular image segmentation
JP2021512446A (ja) 画像処理方法、電子機器および記憶媒体
JP6497579B2 (ja) 画像合成システム、画像合成方法、画像合成プログラム
US10957055B2 (en) Methods and systems of searching for an object in a video stream
Ranganathan Real life human movement realization in multimodal group communication using depth map information and machine learning
AU2018267620A1 (en) Method and system for unsupervised image segmentation using a trained quality metric
Arunachalam et al. Computer aided image segmentation and classification for viable and non-viable tumor identification in osteosarcoma
JP5965764B2 (ja) 映像領域分割装置及び映像領域分割プログラム
JP6624877B2 (ja) 情報処理装置、情報処理方法及びプログラム
Venkatesan et al. Face recognition system with genetic algorithm and ANT colony optimization
CN108320281B (zh) 一种基于多特征扩散的图像显著性检测方法及终端
JP6448109B2 (ja) 映像領域分割装置および映像領域分割プログラム
Wu et al. Video saliency prediction with optimized optical flow and gravity center bias
Borovec et al. Fully automatic segmentation of stained histological cuts
CN104766068A (zh) 一种多规则融合的随机游走舌像提取方法
Teixeira et al. Object segmentation using background modelling and cascaded change detection
CN106022310B (zh) 基于htg-hog和stg特征的人体行为识别方法
Nguyen et al. An efficient combination of RGB and depth for background subtraction
Bravo-Reyna et al. Recognition of the damage caused by the cogollero worm to the corn plant, Using artificial vision
Fuad et al. A review on methods of identifying and counting aedes aegypti larvae using image segmentation technique
Wang et al. Image segmentation incorporating double-mask via graph cuts
Lin et al. Foreground object detection in highly dynamic scenes using saliency
JP4750758B2 (ja) 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180621

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181203

R150 Certificate of patent or registration of utility model

Ref document number: 6448109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees