JP5192437B2

JP5192437B2 - 物体領域検出装置、物体領域検出方法および物体領域検出プログラム

Info

Publication number: JP5192437B2
Application number: JP2009107235A
Authority: JP
Inventors: 泳青孫; 聡嶌田; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-04-27
Filing date: 2009-04-27
Publication date: 2013-05-08
Anticipated expiration: 2029-04-27
Also published as: JP2010257267A

Description

本発明は、ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出する物体領域検出装置およびその方法と、その物体領域検出装置の実現に用いられる物体領域検出プログラムとに関する。

ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出する処理は、ターゲット物体を撮影した映像をより有効に利用するための基本的な処理であり、その検出性能の向上が望まれている。

映像の各フレーム画像におけるターゲット物体の領域を検出する従来技術として、背景画像差分による方法と物体追跡による方法とがある。

背景画像差分による方法では、予め背景画像を撮影したり、カメラワーク推定などの方法により映像から背景画像を自動生成することで背景画像を生成するようにして、そのようにして生成した背景画像と映像のフレーム画像との差分により、ターゲット物体の領域を検出するようにしている（例えば、非特許文献１参照）。

ここで、背景画像の生成方法としては、撮影やカメラワーク推定に基づく自動生成の他に、様々な方法が検討されている。

また、物体追跡による方法では、初期フレーム画像におけるターゲット物体の領域を何らかの方法で検出し、検出したターゲット物体の領域の他のフレーム画像における位置や大きさを追跡していくことで、ターゲット物体の領域を検出するようにしている（例えば、非特許文献２参照）。

ここで、初期フレーム画像におけるターゲット物体の領域については、ターゲット物体の特徴を表したモデルを用意しておき、そのモデルに類似した領域を探索するなどの方法で検出する。例えば、ターゲット領域が人物顔の場合には、顔検出用の辞書モデルを用いて顔領域を求める方法や、特定の状況であれば肌色領域の抽出などで顔領域を求める方法がある。

Extracting Moving Objects from a Moving Camera Video Sequence. Memoirs of the Faculty of Engineering, Okayama University, 39 (1). pp. 56-62. ISSN 0475-0071 ＳＩＦＴ特徴量に基づくＭean-Ｓhift探索による特徴点追跡, 都築勇司, 藤吉弘亘, 金出武雄, 情報処理学会研究報告, ＣＶＩＭ, 〔コンピュータビジョンとイメージメディア〕, Vol.2007, No.1(20070111) pp. 101-108

前述したように、映像の各フレーム画像におけるターゲット物体の領域を検出する従来技術として、背景画像差分による方法と物体追跡による方法とがあるが、これらの従来技術には次のような問題がある。

すなわち、背景画像差分による方法では、背景画像を生成する必要があるが、予め撮影することにより背景画像を生成する場合には、手間がかかるという問題がある。また、カメラワーク推定などの方法により背景画像を自動生成する場合には、一般環境で撮影された映像のノイズが大きいことから、背景画像の精度の点で問題がある。

しかも、この方法は、カメラを移動させながらターゲット物体を撮影する場合には適用することが困難であるという問題がある。

一方、物体追跡による方法では、初期フレーム画像における物体領域を検出するために、ターゲット物体毎にモデルを用意する必要があることで、事前に作成する手間やコストがかかるという問題がある。

さらに、追跡処理については、時間が経過するにつれて誤差が累積し、いずれは破綻する可能性があることが問題である。特に、物体の動き方や姿勢変化などに制約がない場合に適用するのには精度の点で問題がある。

本発明はかかる事情に鑑みてなされたものであって、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理のいずれも用いることなく、ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出できるようにする新たな物体領域検出技術の提供を目的とする。

映像におけるターゲット物体には、以下に示す２つの観点がある。

（ｉ）フレーム画像における物理的な基本単位は画像のセグメントである。このような意味のない物理的な画像のセグメントをまとめることで、実世界のオブジェクト（人、車など）を表現することができる。

（ii）ターゲット物体を撮影した映像のフレーム画像列においては、ターゲット物体を撮影対象としていることから、ターゲット物体に関する画像のセグメントの出現頻度が高いと考えられる。これから、クラスタリング手法を用いれば、ターゲット物体に関する画像のセグメントのクラスタを得ることができる。

この２つの点を踏まえて、本発明は、上記の目的を達成するために、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理のいずれも用いることなく、映像のフレーム画像列からターゲット物体に関する画像のセグメントのクラスタを求めることで、ターゲット物体の領域を検出することを実現する。

このことを実現するために、本発明の物体領域検出装置は、（１）映像のフレーム画像列に対してセグメント分割を行う分割手段と、（２）分割手段が得た全てのセグメントをクラスタリング対象として、それらのセグメントをクラスタリングするクラスタリング手段と、（３）クラスタリング手段が得たセグメントクラスタの中から、物体領域を表現した物体領域クラスタを選定する選定手段と、（４）選定手段が得た物体領域クラスタに属するセグメントに基づいて、ターゲット物体の領域を検出する検出手段とを備え、（５）選定手段は、クラスタリング手段が得たセグメントクラスタが同じフレーム画像の中に共に出現する確率を算出して、その確率が所定の閾値よりも大きいものとなるセグメントクラスタを特定し、その特定したセグメントクラスタを物体領域クラスタとして選定するように構成する。

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明の物体領域検出装置では、処理対象の映像を入力すると、その映像のフレーム画像列に対してセグメント分割を行う。

続いて、そのようにして得た全てのセグメントをクラスタリング対象として、Fuzzy K-means などのクラスタリング手法を用いて、それらのセグメントをクラスタリングすることでセグメントクラスタを得る。

続いて、そのようにして得たセグメントクラスタの中から、物体領域を表現した物体領域クラスタを選定する。

例えば、物体領域にあるセグメントは同時に出現するという性質があることに着目して、クラスタリングで得たセグメントクラスタが同じフレーム画像の中に共に出現する確率を算出して、その確率が所定の閾値よりも大きいものとなるセグメントクラスタを特定し、その特定したセグメントクラスタを物体領域クラスタとして選定する。

続いて、そのようにして得た物体領域クラスタに属するセグメントに基づいて、ターゲット物体の領域を検出する。

このようにして、本発明の物体領域検出装置は、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理を用いることなく、ターゲット物体の領域を検出するように処理する。

本発明によれば、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理のいずれも用いることなく、ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出することができるようになる。

本発明の物体領域検出装置の装置構成図である。分割結果記憶部のデータ構造の説明図である。分類結果記憶部のデータ構造の説明図である。選定結果記憶部のデータ構造の説明図である。本発明の物体領域検出装置の実行するフローチャートである。物体領域クラスタの選定処理のフローチャートである。物体領域クラスタの選定処理の説明図である。物体領域クラスタの選定処理のフローチャートである。物体領域クラスタの選定処理の説明図である。物体領域クラスタの選定処理のフローチャートである。インデクシング表の説明図である。物体領域クラスタの選定処理の説明図である。物体領域セグメントの補正処理の説明図である。物体領域セグメントの補正処理の説明図である。物体領域セグメントの補正処理のフローチャートである。物体領域セグメントの補正処理のフローチャートである。

以下、実施の形態に従って本発明を詳細に説明する。

〔１〕本発明の物体領域検出装置の装置構成
図１に、本発明を具備する物体領域検出装置１の装置構成の一例を図示する。

この図に示すように、本発明の物体領域検出装置１は、映像入力部１０と、映像記憶部１１と、セグメント分割部１２と、分割結果記憶部１３と、クラスタリング部１４と、分類結果記憶部１５と、物体領域クラスタ選定部１６と、選定結果記憶部１７と、物体領域検出部１８とを備える。

映像入力部１０は、処理対象の映像（フレーム画像列で構成される）を入力して映像記憶部１１に格納する。以下では、説明の便宜上、処理対象の映像がＮ枚のフレーム画像で構成されることを想定する。

セグメント分割部１２は、映像記憶部１１から処理対象の映像を読み込み、その読み込んだフレーム画像列の個々のフレーム画像に対して、例えば、下記の参考文献１に記載される画像セグメント分割手法を用いてセグメント分割を行って、その分割結果を分割結果記憶部１３に格納する。

〔参考文献１〕Yongqing Sun, Shinji Ozawa, "HIRBIR: A Hierarchical Approach for Region-based Image Retrieval," ACM Multimedia Systems Journal, 1 0(6): 559-569 (2005)
ここで、参考文献１に記載される画像セグメント分割手法は、画像のウェーブレット変換により求めた画像の低周波成分だけを用いて、より効率の良い画像セグメント分割を実現する手法である。

分割結果記憶部１３は、セグメント分割部１２の得た分割結果を格納する記憶部であり、例えば、図２に示すようなデータ構造を有して、処理対象の映像を構成する各フレーム画像ごとに、そのフレーム画像にいくつのセグメントが存在するのかということと、それらのセグンメントのそれぞれについて、そのセグメントの属性情報（セグメント分割に用いられた情報）と、そのセグメントの領域情報（位置・大きさ・形状についての情報）とを管理する。

クラスタリング部１４は、分割結果記憶部１３から映像の持つ全てのセグメントの属性情報を読み込み、Fuzzy K-means などのクラスタリング手法を用い、それらの属性情報に基づいて、それらのセグメントをクラスタリングして、そのクラスタリング結果であるセグメントクラスタについての情報を分類結果記憶部１５に格納する。

分類結果記憶部１５は、クラスタリング部１４の得た分類結果を格納する記憶部であり、例えば、図３に示すようなデータ構造を有して、処理対象の映像の持つセグメントがいくつのセグメントクラスタに分類されたのかということと、それらのセグメントクラスタのそれぞれについて、そのセグメントクラスタに属するセグメントの識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）を管理する。なお、以下では、説明の便宜上、セグメントクラスタの数がＫ個であることを想定する。

物体領域クラスタ選定部１６は、分類結果記憶部１５に格納される各セグメントクラスタがターゲット物体の領域から切り出されたセグメントのクラスタであるのか否かを判断することで、分類結果記憶部１５に格納されるセグメントクラスタの中から、ターゲット物体の領域から切り出されたセグメントのクラスタ（前述した物体領域クラスタ）を選定して、その選定結果を選定結果記憶部１７に格納する。

選定結果記憶部１７は、物体領域クラスタ選定部１６の得た選定結果を格納する記憶部であり、例えば、図４に示すようなデータ構造を有して、いくつの物体領域クラスタが選定されたのかということと、それらの物体領域クラスタのそれぞれについて、その物体領域クラスタに属するセグメントの識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）を管理する。なお、以下では、説明の便宜上、物体領域クラスタの数がＬ個であることを想定する。

物体領域検出部１８は、選定結果記憶部１７に格納される物体領域クラスタの情報と、映像記憶部１１に格納されるフレーム画像列と、分類結果記憶部１３に格納されるセグメントの情報とに基づいて、物体領域クラスタにあるセグメントをフレーム画像に対応付けることで各フレーム画像におけるターゲット物体の領域を検出して、その結果結果を出力する。

〔２〕本発明の物体領域検出装置１の実行する基本処理
図５に、このように構成される本発明の物体領域検出装置１の実行する基本処理についてのフローチャートの一例を図示する。

次に、このフローチャートに従って、本発明の物体領域検出装置１の実行する基本処理について説明する。

本発明の物体領域検出装置１は、処理対象の映像を指定してターゲット物体領域の検出要求があると、図５のフローチャートに示すように、まず最初に、ステップＳ１００で、処理対象の映像（Ｎ枚のフレーム画像列で構成されるものとする）を読み込んで、映像記憶部１１に格納する。

続いて、ステップＳ１０１で、処理対象の映像の全フレーム画像についてセグメント分割処理を終了したのか否かを判断して、全フレーム画像についてセグメント分割処理を終了していないことを判断するときには、ステップＳ１０２に進んで、映像記憶部１１から、先頭からの順番に従って未処理のフレーム画像を１枚読み込む。

続いて、ステップＳ１０３で、読み込んだフレーム画像に対して、公知の画像セグメント分割手法を用いてセグメント分割を行い、その分割結果を分割結果記憶部１３に格納してから、ステップＳ１０１の処理に戻る。例えば、前述の参考文献１に記載される画像セグメント分割手法を用いてセグメント分割を行い、その分割結果を分割結果記憶部１３に格納して、ステップＳ１０１の処理に戻るのである。

このようにして、ステップＳ１０１〜ステップＳ１０３の処理を繰り返すことで、ステップＳ１０１で、全フレーム画像についてセグメント分割の処理を終了したことを判断すると、ステップＳ１０４に進んで、分割結果記憶部１３から、映像の持つ全てのセグメントの属性情報を読み込む。

続いて、ステップＳ１０５で、Fuzzy K-means などのクラスタリング手法を用い、読み込んだセグメントの属性情報に基づいて、それらのセグメントをクラスタリングして、そのクラスタリング結果であるセグメントクラスタの情報を分類結果記憶部１５に格納する。

続いて、ステップＳ１０６で、分類結果記憶部１５に格納されるセグメントクラスタの情報に基づいて、それらのセグメントクラスタの中から物体領域クラスタ（ターゲット物体の領域から切り出されたセグメントが属するセグメントクラスタ）を選定して、その選定結果を選定結果記憶部１７に格納する。なお、この物体領域クラスタの選定処理については後述する。

続いて、ステップＳ１０７で、フレーム画像の番号を示す変数ｎに初期値“１”をセットする。

続いて、ステップＳ１０８で、ｎ番目のフレーム画像のセグメントと物体領域クラスタとを対応付けることで、ｎ番目のフレーム画像におけるターゲット物体の領域を検出する。

すなわち、図４に示すように、選定結果記憶部１７には、物体領域クラスタに属するセグメントの識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）が管理されており、一方、図２に示すように、分割結果記憶部１３には、そのセグメント識別情報に対応付けて、そのセグメントの領域情報が管理されているので、これらの情報を結び付けることで、ｎ番目のフレーム画像におけるターゲット物体の領域を検出するのである。

続いて、ステップＳ１０９で、変数ｎの値が最大値であるＮ（フレーム画像の枚数）に到達したのか否かを判断して、変数ｎの値がＮに到達していないことを判断するときには、ステップＳ１１０に進んで、変数ｎの値を１つインクリメントしてから、ステップＳ１０８の処理に戻る。

このようにして、ステップＳ１０８〜ステップＳ１１０の処理を繰り返すことで、映像の各フレーム画像についてターゲット物体領域を検出する処理を行う。

そして、ステップＳ１０９で、変数ｎの値がＮに到達したことを判断することで、映像の全フレーム画像についてターゲット物体領域の検出処理を終了したことを判断すると、処理を終了する。

このようにして、本発明の物体領域検出装置１は、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理を用いることなく、映像のフレーム画像列からターゲット物体の領域を検出するように処理するのである。

〔３〕物体領域クラスタの選定処理
次に、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理について説明する。

〔３−１〕物体領域クラスタの選定処理の一例
図６に、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理についてのフローチャートの一例を示す。

ここで、図６のフローチャートでは、ユーザとの対話処理に従って、分類結果記憶部１５に格納されるセグメントクラスタの中から物体領域クラスタを選定するようにしている。

次に、図６のフローチャートに従って、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理の一例について説明する。

本発明の物体領域検出装置１は、図６のフローチャートに従って物体領域クラスタを選定する場合には、図５のフローチャートのステップＳ１０６の処理に入ると、図６のフローチャートに示すように、まず最初に、ステップＳ２００で、セグメントクラスタの番号を示す変数ｉに初期値“１”をセットする。

続いて、ステップＳ２０１で、図３に示すようなデータ構造を持つ分類結果記憶部１５を参照することで、ｉ番目のセグメントクラスタに属する各セグメントについて、セグメント識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）を取得する。

続いて、ステップＳ２０２で、ステップＳ２０１で取得したセグメント識別情報をキーにして図２に示すようなデータ構造を持つ分割結果記憶部１３を参照することで、ｉ番目のセグメントクラスタに属する各セグメントについて、そのセグメントの領域情報（セグメントの位置・大きさ・形状についての情報）を取得する。

ステップＳ２０１で取得したセグメント識別情報の持つフレーム画像番号と、ステップＳ２０２で取得したセグメント領域情報とで、処理対象の映像からセグメントの画像部分を抽出することができる。

これから、続いて、ステップＳ２０３で、映像記憶部１１を参照することで、ｉ番目のセグメントクラスタに属する各セグメントについて、ステップＳ２０１で取得したセグメント識別情報の持つフレーム画像番号およびステップＳ２０２で取得したセグメント領域情報の指す画像部分を抽出する。

続いて、ステップＳ２０４で、変数ｉの値が最大値であるＫ（セグメントクラスタの数）に到達したのか否かを判断して、変数ｉの値がＫに到達していないことを判断するときには、ステップＳ２０５に進んで、変数ｉの値を１つインクリメントしてから、ステップＳ２０１の処理に戻る。

このようにして、ステップＳ２０１〜ステップＳ２０５の処理を繰り返すことで、セグメントクラスタごとに、そのセグメントクラスタに属するセグメントについての画像部分（以下、セグメント画像と称する）を抽出する処理を行う。

そして、ステップＳ２０４で、変数ｉの値がＫに到達したことを判断することで、全てのセグメントについてセグメント画像の抽出処理を終了したことを判断すると、ステップＳ２０６に進んで、抽出したセグメント画像をセグメントクラスタ別に一覧表示する。

このセグメント画像の一覧表示を受けて、ユーザは、どのセグメントクラスタを物体領域クラスタとして選定するのかを入力してくる。

これから、続いて、ステップＳ２０７で、その一覧表示に応答してユーザから入力されてくる、どのセグメントクラスタを物体領域クラスタとするのかについての選定情報を受け取る。

続いて、ステップＳ２０８で、ユーザからの選定情報に従って、セグメントクラスタの中から物体領域クラスタを選定して、その選定結果を図４に示すようなデータ構造を持つ選定結果記憶部１７に格納して、処理を終了する。

このようにして、本発明の物体領域検出装置１は、図６のフローチャートに従ってセグメントクラスタの中から物体領域クラスタを選定する場合には、ユーザとの対話処理に従って、物体領域クラスタを選定するように処理するのである。

例えば、図７（ａ）に示すようなターゲット物体を検出対象とする場合にあって、図７（ｂ）に示すような映像を入力する場合には、図７（ｃ）に示すように、そのセグメントクラスタに属するセグメントについての画像部分をセグメントクラスタ別に一覧を表示するようにして、その一覧表示に応答してユーザから入力されてくる選定情報に従って、物体領域クラスタを選定するように処理する。

ここで、図７では、Ｎ枚のフレーム画像において３種類のセグメントの出現頻度が高いことで、３つのセグメントクラスタ１〜３がクラスタリングされたことを想定しており、それらのセグメントクラスタ１〜３の中から、ユーザの指示に従って、セグメントクラスタ１とセグメントクラスタ２という２つのセグメントクラスタを物体領域クラスタとして選定するということを想定している。

〔３−２〕物体領域クラスタ選定処理の他の一例
図８に、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理についてのフローチャートの他の一例を示す。

ここで、図８のフローチャートでは、ユーザとの対話に依らない自動処理に従って、分類結果記憶部１５に格納されるセグメントクラスタの中から物体領域クラスタを選定するようにしている。

次に、図８のフローチャートに従って、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理の一例について説明する。

本発明の物体領域検出装置１は、図８のフローチャートに従って物体領域クラスタを選定する場合には、図５のフローチャートのステップＳ１０６の処理に入ると、図８のフローチャートに示すように、まず最初に、ステップＳ３００で、セグメントクラスタの番号を示す変数ｉに初期値“１”をセットする。

続いて、ステップＳ３０１で、図３に示すようなデータ構造を持つ分類結果記憶部１５を参照することで、ｉ番目のセグメントクラスタについて、そのセグメントクラスタに属するセグメントの数を取得する。

続いて、ステップＳ３０２で、ｉ番目のセグメントクラスタについて、取得したセグメントの数が所定の閾値よりも大きいのか否かを判断する。

続いて、ステップＳ３０３で、ステップＳ３０２の判断処理に従って、ｉ番目のセグメントクラスタについて、取得したセグメントの数が所定の閾値よりも大きいという判断結果が得られたのかを判断して、所定の閾値よりも大きいという判断結果が得られた場合には、ステップＳ３０４に進んで、ｉ番目のセグメントクラスタを物体領域クラスタとして選定して、その選定結果を選定結果記憶部１７に格納し、一方、所定の閾値よりも大きいという判断結果が得られない場合には、この処理を省略する。

続いて、ステップＳ３０５で、変数ｉの値が最大値であるＫ（セグメントクラスタの数）に到達したのか否かを判断して、変数ｉの値がＫに到達していないことを判断するときには、ステップＳ３０６に進んで、変数ｉの値を１つインクリメントしてから、ステップＳ３０１の処理に戻る。

そして、ステップＳ３０５で、変数ｉの値がＫに到達したことを判断することで、物体領域クラスタの選定処理を終了したことを判断すると、処理を終了する。

このようにして、本発明の物体領域検出装置１は、図８のフローチャートに従ってセグメントクラスタの中から物体領域クラスタを選定する場合には、セグメントクラスタのサイズ（セグメントの数）に従って、物体領域クラスタを自動選定するように処理するのである。

例えば、図９（ａ）示すような映像を入力する場合にあって、図９（ｂ）に示すように、Ｎ枚のフレーム画像において３種類のセグメントの出現頻度が高いことで、３つのセグメントクラスタ１〜３がクラスタリングされた場合には、それらのセグメントクラスタ１〜３のサイズに従って、それらのセグメントクラスタ１〜３の中から、セグメントクラスタ１とセグメントクラスタ２という２つのセグメントクラスタを物体領域クラスタとして選定するように処理する。

この図８のフローチャートに基づいて物体領域クラスタを自動選定するという方法は、フレーム画像列の全体においてターゲット物体がほぼ登場するような場合に特に有効な方法となる。

〔３−３〕物体領域クラスタの選定処理の他の一例
図１０に、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理についてのフローチャートの他の一例を示す。

ここで、図１０のフローチャートもまた、ユーザとの対話に依らない自動処理に従って、分類結果記憶部１５に格納されるセグメントクラスタの中から物体領域クラスタを選定するようにしている。

次に、図１０のフローチャートに従って、図５のフローチャートのステップＳ１０６で実行する物体領域クラスタの選定処理の一例について説明する。

本発明の物体領域検出装置１は、図１０のフローチャートに従って物体領域クラスタを選定する場合には、図５のフローチャートのステップＳ１０６の処理に入ると、図１０のフローチャートに示すように、まず最初に、ステップＳ４００で、図３に示すようなデータ構造を持つ分類結果記憶部１５から、セグメントクラスタ番号とセグメント識別情報との対応関係データを読み込む。

ここで、セグメントクラスタ番号とは、どのセグメントクラスタに属するのか表示する番号であり、セグメント識別情報とは、前述したように、そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号とで構成されるものである。

続いて、ステップＳ４０１で、読み込んだ対応関係データに従って、図１１に示すようなデータ構造を持つインデクシング表を作成する。

このインデクシング表は、セグメントの識別情報をキーとして、そのセグメントがどのセグメントクラスタに属するのかということについて記載するものであり、フラグ（図中に示す丸印のもの）を使い、例えば、フレーム画像番号が“１”で、フレーム画像内におけるセグメントの番号が“１”であるＲ１１というセグメントについては、Ｋ個存在するセグメントクラスタＣ１〜ＣＫの内のセグメントクラスタＣ１に属するということについて記載する。

続いて、ステップＳ４０２で、セグメントクラスタの番号を示す変数ｉに初期値“１”をセットし、続くステップＳ４０３で、セグメントクラスタの番号を示すもう１つの変数ｊに初期値“２”をセットする。

続いて、ステップＳ４０４で、インデクシング表を参照して、セグメントクラスタｉとセグメントクラスタｊとの共起確率Ｐcij を算出する。

このとき算出する共起確率Ｐcij は、例えば、
Ｐcij ＝（１／Ｎ）×Σｐ_n ^ci・ｐ_n ^cj
ただし、Ｎは映像を構成するフレーム画像の枚数
Σはｎ＝１〜Ｎについての総和
で定義される。

ここで、ｐ_n ^ciは、図１１に示すインデクシング表において、セグメントクラスタＣi の列とｎ番目のフレーム画像のセグメントＲｎｘの行にフラグがある場合には“１”という値をとり、そのフラグがない場合には“０”という値をとる変数である。ここで、ｘは、１≦ｘ≦ｒ（ｒはｎ番目のフレーム画像のセグメント数）を表している。

要するに、ｐ_n ^ciは、フレーム画像ｎにおいて、セグメントクラスタＣi に属するセグメントがある場合には“１”という値をとり、セグメントクラスタＣi に属するセグメントがない場合には“０”という値をとる変数である。

したがって、上記の共起確率Ｐcij は、セグメントクラスタｉに属するセグメントとセグメントクラスタｊに属するセグメントとが共に存在するフレーム画像の数を求めて、それをフレーム画像の総数Ｎで割り算した値を意味するものであり、その値が大きいほど、セグメントクラスタｉに属するセグメントとセグメントクラスタｊに属するセグメントとが同時に存在することが多いことを意味する。

このようにして、ステップＳ４０４で、セグメントクラスタｉとセグメントクラスタｊとの共起確率Ｐcij を算出すると、続いて、ステップＳ４０５で、算出した共起確率Ｐcij が所定の閾値よりも大きいのか否かを判断する。

続いて、ステップＳ４０６で、ステップＳ４０５の判断処理に従って、算出した共起確率Ｐcij が所定の閾値よりも大きいという判断結果が得られたのかを判断して、所定の閾値よりも大きいという判断結果が得られた場合には、ステップＳ４０７に進んで、セグメントクラスタｉとセグメントクラスタｊとを物体領域クラスタとして選定して、その選定結果を選定結果記憶部１７に格納し、一方、所定の閾値よりも大きいという判断結果が得られない場合には、この処理を省略する。

続いて、ステップＳ４０８で、変数ｊの値が最大値であるＫ（セグメントクラスタの数）に到達したのか否かを判断して、変数ｊの値がＫに到達していないことを判断するときには、ステップＳ４０９に進んで、変数ｊの値を１つインクリメントしてから、ステップＳ４０４の処理に戻る。

一方、ステップＳ４０８の判断処理に従って、変数ｊの値がＫに到達したことを判断するときには、ステップＳ４１０に進んで、変数ｉの値が最大値であるＫ−１（セグメントクラスタの数から１を引いた値）に到達したのか否かを判断して、変数ｉの値がＫ−１に到達していないことを判断するときには、ステップＳ４１１に進んで、変数ｉの値を１つインクリメントしてから、ステップＳ４０４の処理に戻る。

そして、ステップＳ４１０で、変数ｉの値がＫ−１に到達したことを判断することで、物体領域クラスタの選定処理を終了したことを判断すると、処理を終了する。

このようにして、例えば、セグメントクラスタａ、セグメントクラスタｂ、セグメントクラスタｃ、セグメントクラスタｄという４つのセグメントクラスタが得られた場合にあって、セグメントクラスタａ、セグメントクラスタｂ、セグメントクラスタｃが物体領域クラスタである場合には、
（１）セグメントクラスタａとセグメントクラスタｂとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定され、
（２）セグメントクラスタａとセグメントクラスタｃとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定され、
（３）セグメントクラスタａとセグメントクラスタｄとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定されず、
（４）セグメントクラスタｂとセグメントクラスタｃとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定され、
（５）セグメントクラスタｂとセグメントクラスタｄとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定されず、
（６）セグメントクラスタｃとセグメントクラスタｄとの共起確率に従って、この２つのセグメントクラスタが物体領域クラスタとして選定されない
ことにより、セグメントクラスタａ、セグメントクラスタｂ、セグメントクラスタｃという３つのセグメントクラスタが物体領域クラスタとして選定されることになる。

このように、本発明の物体領域検出装置１は、図１０のフローチャートに従ってセグメントクラスタの中から物体領域クラスタを選定する場合には、２つのセグメントクラスタの共起確率に従って、物体領域クラスタを自動選定するように処理するのである。

例えば、図１２（ａ）示すような映像を入力する場合にあって、図１２（ｂ）に示すように、Ｎ枚のフレーム画像において３種類のセグメントの出現頻度が高いことで、３つのセグメントクラスタ１〜３がクラスタリングされた場合には、それらのセグメントクラスタ１〜３の共起確率に従って、それらのセグメントクラスタ１〜３の中から、セグメントクラスタ１とセグメントクラスタ２という２つのセグメントクラスタを物体領域クラスタとして選定するように処理する。

ここで、図１０のフローチャートでは、２つのセグメントクラスタの共起確率に従って、物体領域クラスタを自動選定するように処理しているが、それ以上の数のセグメントクラスタの共起確率に従って、物体領域クラスタを自動選定するように処理してもよい。

上記の具体例で説明するならば、例えば、３つのセグメントクラスタの共起確率（３つのセグメントクラスタに属するセグメントが共に存在するフレーム画像の数を求めて、それをフレーム画像の総数Ｎで割り算することなどにより求める）を使う場合には、
（１）セグメントクラスタａとセグメントクラスタｂとセグメントクラスタｃとの共起確率に従って、この３つのセグメントクラスタが物体領域クラスタとして選定され、
（２）セグメントクラスタｂとセグメントクラスタｃとセグメントクラスタｄとの共起確率に従って、この３つのセグメントクラスタが物体領域クラスタとして選定されず、
（３）セグメントクラスタａとセグメントクラスタｃとセグメントクラスタｄとの共起確率に従って、この３つのセグメントクラスタが物体領域クラスタとして選定されず、
（４）セグメントクラスタａとセグメントクラスタｂとセグメントクラスタｄとの共起確率に従って、この３つのセグメントクラスタが物体領域クラスタとして選定されない
ことにより、２つのセグメントクラスタの共起確率に従って物体領域クラスタを選定する場合と同様に、セグメントクラスタａ、セグメントクラスタｂ、セグメントクラスタｃという３つのセグメントクラスタが物体領域クラスタとして選定されることになる。

この図１０のフローチャートに基づいて物体領域クラスタを自動選定するという方法は、フレーム画像列の全体においてターゲット物体が時々登場するような場合に特に有効な方法となる。

〔４〕物体領域セグメント（物体領域に属するセグメント）の補正処理
ターゲット物体のセグメントではないのにそのセグメントが検出されてしまうことで、物体領域クラスタにターゲット物体には関係のないセグメントが入ったり、また、ターゲット物体のセグメントであるのにそのセグメントが検出されないことで、物体領域クラスタに入るべきセグメントが欠如するということが起こる。

例えば、丸のセグメントと三角形のセグメントとで構成されるターゲット物体を含む図１３（ａ）に示すような映像を入力する場合にあって、図１３（ｂ）に示すように、丸のセグメントについての物体領域クラスタ１と、三角形のセグメントについての物体領域クラスタ２とが物体領域クラスタとして選定される場合に、ｊ番目のフレーム画像におけるセグメントの検出結果により、丸という同一の特徴を持つ２つのセグメント（内部にｊを記述するセグメントと内部にｊ^*を記述するセグメント）が検出されるようなことが起こることで、物体領域クラスタにターゲット物体には関係のないセグメントが入ることが起こる。

また、丸のセグメントと三角形のセグメントとで構成されるターゲット物体を含む図１４（ａ）に示すような映像を入力する場合にあって、図１４（ｂ）に示すように、丸のセグメントについての物体領域クラスタ１と、三角形のセグメントについての物体領域クラスタ２とが物体領域クラスタとして選定される場合に、ｊ＋１番目のフレーム画像におけるセグメントの検出漏れに従って、三角形という特徴を持つセグメント（内部にｊ＋１を記述するセグメント）が検出されないようなことが起こることで、物体領域クラスタに入るべきセグメントが欠如するということが起こる。

そこで、本発明の物体領域検出装置１は、図５のフローチャートのステップＳ１０６で、物体領域クラスタを選定してその選定結果を選定結果記憶部１７に格納すると、直ちにステップＳ１０７に進むのではなくて、図１５および図１６のフローチャートを実行することで、物体領域に属するセグメント（物体領域セグメント）についての補正処理を行うようにしている。

次に、図１５および図１６のフローチャートに従って、この物体領域セグメントについての補正処理について説明する。

本発明の物体領域検出装置１は、図５のフローチャートのステップＳ１０６の処理を終えると、図１５および図１６のフローチャートに示すように、まず最初に、ステップＳ５００で、フレーム画像の番号を示す変数ｎに初期値“１”をセットする。

続いて、ステップＳ５０１で、図２に示すようなデータ構造を持つ分割結果記憶部１３を参照することで、ｎ番目のフレーム画像の各セグメント（物体領域に属さないセグメントもある）について、そのセグメントの識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）を取得する。

続いて、ステップＳ５０２で、取得したセグメント識別情報をキーにして図４に示すようなデータ構造を持つ選定結果記憶部１７を参照することで、取得したセグメント識別情報の指す物体領域クラスタ番号を特定する。

続いて、ステップＳ５０３で、特定した物体領域クラスタ番号に従って、ｎ番目のフレーム画像において、同一の物体領域クラスタに複数の物体領域セグメントが存在するという物体領域クラスタがあるのか否かを判断する。

すなわち、図１３（ｂ）に示す例で説明するならば、ｊ番目のフレーム画像では、物体領域クラスタ１に２つのセグメント（内部にｊを記述するセグメントと内部にｊ^*を記述するセグメント）が存在するので、このｊ番目のフレーム画像を処理する場合には、同一の物体領域クラスタに複数の物体領域セグメントが存在するという物体領域クラスタがあることを判断することになる。

この判断処理に従って、複数の物体領域セグメントが存在する物体領域クラスタがあることを判断するときには、ｎ番目のフレーム画像に過剰な物体領域セグメントが存在することを判断して、ステップＳ５０４に進んで、図２に示すようなデータ構造を持つ分割結果記憶部１３を参照することで、ｎ番目のフレーム画像に存在する各物体領域セグメント（物体領域に属さないセグメントについては除く）のセグメント領域情報を取得する。

続いて、ステップＳ５０５で、取得したセグメント領域情報に従って、ｎ番目のフレーム画像に存在する各物体領域セグメントの位置関係を評価することで、同一の物体領域クラスタに属する複数の物体領域セグメントの中に含まれる過剰な物体領域セグメントを特定する。

過剰な物体領域セグメントについては、図１３（ａ）から分かるように、ターゲット物体とは関係がないことでその位置が孤立したものになるので、ｎ番目のフレーム画像に存在する各物体領域セグメントの位置関係を評価することで、同一の物体領域クラスタに属する複数の物体領域セグメントの中に含まれる過剰な物体領域セグメントを特定することができることになるので、その評価を行うことで過剰な物体領域セグメントを特定するのである。

続いて、ステップＳ５０６で、選定結果記憶部１７に格納されている過剰な物体領域セグメントについての情報を削除するとともに、それに合わせて、分割結果記憶部１３および分類結果記憶部１５に格納されているその過剰な物体領域セグメントについての情報を削除する。

続いて、ステップＳ５０７で、変数ｎの値が最大値であるＮ（フレーム画像の枚数）に到達したのか否かを判断して、変数ｎの値がＮに到達していないことを判断するときには、ステップＳ５０８に進んで、変数ｎの値を１つインクリメントしてから、ステップＳ５０１の処理に戻り、変数ｎの値がＮに到達したことを判断するときには、このステップＳ５０８の処理を省略する。

このようにして、ステップＳ５０１〜ステップＳ５０８の処理を繰り返すことで、ターゲット物体には関係のないセグメントが検出されて、それがターゲット物体の領域として判断されてしまう場合には、図１３（ｂ）に示すように、そのセグメントを削除するように処理するのである。

ステップＳ５０７で、変数ｎの値が最大値であるＮに到達したことを判断すると、続いて、ステップＳ５０９で、図４に示すようなデータ構造を持つ選定結果記憶部１７を参照することで、各物体領域クラスタに属する物体領域セグメントの個数を検出し、その検出結果に従って、他の物体領域クラスタよりも物体領域セグメントの個数が少ない物体領域クラスタを特定する。

物体領域セグメントに検出漏れがある物体領域クラスタについては、図１４（ｂ）から分かるように、物体領域セグメントの個数が他の物体領域クラスタよりも少なくなるので、各物体領域クラスタに属する物体領域セグメントの個数を検出することで、検出漏れが起きた物体領域クラスタを特定するのである。

この物体領域クラスタの特定処理については、例えば、物体領域セグメントの個数が同一となる物体領域クラスタが多数ある場合に、その個数よりも僅かに少ない個数の物体領域セグメントを持つ物体領域クラスタを特定することにより行うことになる。

続いて、ステップＳ５１０で、フレーム画像の番号を示す変数ｎに初期値“１”をセットする。

続いて、ステップＳ５１１で、図２に示すようなデータ構造を持つ分割結果記憶部１３を参照することで、ｎ番目のフレーム画像の各セグメント（物体領域に属さないセグメントもある）について、そのセグメントの識別情報（そのセグメントの存在するフレーム画像の番号と、そのフレーム画像内におけるセグメントの番号）を取得する。

続いて、ステップＳ５１２で、取得したセグメント識別情報をキーにして図４に示すようなデータ構造を持つ選定結果記憶部１７を参照することで、取得したセグメント識別情報の指す物体領域クラスタ番号（物体領域クラスタ）を特定する。

続いて、ステップＳ５１３で、特定した物体領域クラスタの中に、物体領域セグメントの個数が少ない物体領域クラスタが含まれているのか否かを判断することで、ｎ番目のフレーム画像で物体領域セグメントの検出漏れがあったのか否かを判断する。

すなわち、特定した物体領域クラスタの中に、物体領域セグメントの個数が少ない物体領域クラスタが含まれている場合には、ｎ番目のフレーム画像で物体領域セグメントの検出漏れがなかったことを判断し、一方、物体領域セグメントの個数が少ない物体領域クラスタが含まれていない場合には、ｎ番目のフレーム画像で物体領域セグメントの検出漏れがあったことを判断するのである。

例えば、図１４（ｂ）に示す例で説明するならば、ｊ番目のフレーム画像を処理する場合には、ステップＳ５１２で物体領域クラスタ１と物体領域クラスタ２（検出漏れが起きた物体領域クラスタ）とを特定することになることで、ｊ番目のフレーム画像では検出漏れがなかったことを判断し、一方、ｊ＋１番目のフレーム画像を処理する場合には、ステップＳ５１２で物体領域クラスタ１のみを特定することになるので、ｊ＋１番目のフレーム画像では検出漏れがあったことを判断することになる。

続いて、ステップＳ５１４で、ステップＳ５１３の判断処理に従って、ｎ番目のフレーム画像で物体領域セグメントの検出漏れがあったという判断結果が得られたのか否かを判断して、物体領域セグメントの検出漏れがあったという判断結果が得られたことを判断するときには、ステップＳ５１５に進んで、映像記憶部１１から、ｎ番目のフレーム画像の前後に位置するフレーム画像を読み込み、それらのフレーム画像では検出が漏れなかった物体領域セグメント（ｎ番目のフレーム画像では検出が漏れた物体領域セグメント）の画像部分を抽出する。

ここで、この画像部分については、図２の示すようなデータ構造を持つ分割結果記憶部１３から取得するセグメント領域情報に従って抽出することができる。

続いて、ステップＳ５１６で、抽出した画像部分と、物体領域セグメントの検出漏れが起きたｎ番目のフレーム画像とを使って、ｎ番目のフレーム画像では検出が漏れた物体領域セグメントを内挿により生成する。

続いて、ステップＳ５１７で、選定結果記憶部１７に対して、生成した検出漏れの物体領域セグメントについての情報を追加するとともに、それに合わせて、分割結果記憶部１３および分類結果記憶部１５に対して、生成した検出漏れの物体領域セグメントについての情報を追加する。

一方、ステップＳ５１４で、ｎ番目のフレーム画像で物体領域セグメントの検出漏れがなかったことを判断するときには、このステップＳ５１５〜ステップＳ５１７の処理を省略する。

続いて、ステップＳ５１８で、変数ｎの値が最大値であるＮ（フレーム画像の枚数）に到達したのか否かを判断して、変数ｎの値がＮに到達していないことを判断するときには、ステップＳ５１９に進んで、変数ｎの値を１つインクリメントしてから、ステップＳ５１１の処理に戻る。

一方、ステップＳ５１８で、変数ｎの値がＮに到達したことを判断するときには、物体領域セグメントについての補正処理を終了する。

このようにして、ステップＳ５１１〜ステップＳ５１９の処理を繰り返すことで、ターゲット物体のセグメントであるのに、そのセグメントが検出されない場合には、図１４（ａ）に示すように、そのセグメントを生成するように処理するのである。

このようにして本発明の物体領域検出装置１は、図１５および図１６のフローチャートを実行することで、ターゲット物体には関係のないセグメントが検出されて、それがターゲット物体の領域として判断されてしまう場合には、そのセグメントを削除し、また、ターゲット物体のセグメントであるのに、そのセグメントが検出されない場合には、そのセグメントを生成するように処理することになる。

次に、図１３および図１４について説明する。

図１３では、物体領域クラスタにターゲット物体に関係ない画像のセグメントが入ったことを想定している。この場合、フレーム画像において、セグメントの間の位置関係を用いて物体領域を検出するように処理する。

図１３では、Ｎ枚のフレーム画像から、２つのセグメントクラスタを物体領域クラスタ１，２として求めたことを想定している。

このとき、クラスタリングをした際に、物体領域と関係ない画像のセグメント（ｊ番目のフレーム画像のｊ^*という丸のセグメント）の特徴量がクラスタリングの行われた特徴量空間で物体領域に関するセグメントに類似すると判断されるので、物体領域クラスタ１に入ったとする。このようなことは過剰検出と呼ばれる。

このことに対して、まずは、物体領域クラスタと個々のフレーム画像とを対応付けることで、ｊ番目のフレーム画像に、ｊという丸のセグメント、ｊという三角のセグメント、ｊ^*という丸のセグメントが検出された場合には、次に、この３つのセグメントの間の位置距離を計算し、一定以上になるセグメント（この例では、ｊ^*という丸のセグメント）を過剰なセグメントと判断して物体領域から削除する。

図１４では、ターゲット物体に関する画像のセグメントが物体領域クラスタに入らなかったことを想定している。この場合、検出される前後フレーム画像から内挿により物体領域を検出するように処理する。

図１４では、Ｎ枚のフレーム画像から、２つのセグメントクラスタを物体領域クラスタ１，２として求めたことを想定している。

しかし、このとき、ｊ＋１番目のフレーム画像にある、物体領域に関するｊ＋１という三角形のセグメントが物体領域クラスタ２に入らなかったとする。このようなことは検出漏れと呼ばれる。

このことに対して、まずは、物体領域クラスタと個々のフレーム画像とを対応付けることで、ｊ＋１番目のフレーム画像に、ｊ＋１という丸のセグメントだけが検出されたことを検出すると、次に、ｊ＋１番目のフレーム画像の前後のフレーム画像（ｊ番目のフレーム画像とｊ＋２番目のフレーム画像）から、動き特徴ベクトルなどを用いて三角形の領域を内挿することで、ｊ＋１番目のフレーム画像で検出されるべき三角形の物体領域を検出する。

本発明は、ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出する場合に適用できるものであり、本発明によれば、従来技術の必要とするターゲット物体に関しての設定処理や照合処理や追跡処理や背景差分処理のいずれも用いることなく、ターゲット物体の領域を検出することができるようになる。

１物体領域検出装置
１０映像入力部
１１映像記憶部
１２セグメント分割部
１３分割結果記憶部
１４クラスタリング部
１５分類結果記憶部
１６物体領域クラスタ選定部
１７選定結果記憶部
１８物体領域検出部

Claims

ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出する物体領域検出装置であって、
映像のフレーム画像列に対してセグメント分割を行う分割手段と、
前記分割手段が得た全てのセグメントをクラスタリング対象として、それらのセグメントをクラスタリングするクラスタリング手段と、
前記クラスタリング手段が得たセグメントクラスタの中から、物体領域を表現した物体領域クラスタを選定する選定手段と、
前記選定手段が得た物体領域クラスタに属するセグメントに基づいて、ターゲット物体の領域を検出する検出手段とを有し、
前記選定手段は、前記クラスタリング手段が得たセグメントクラスタが同じフレーム画像の中に共に出現する確率を算出して、その確率が所定の閾値よりも大きいものとなるセグメントクラスタを特定し、その特定したセグメントクラスタを物体領域クラスタとして選定することを、
特徴とする物体領域検出装置。
ターゲット物体を撮影した映像の各フレーム画像からターゲット物体の領域を検出する物体領域検出装置が実行する物体領域検出方法であって、
映像のフレーム画像列に対してセグメント分割を行う過程と、
前記セグメント分割で得た全てのセグメントをクラスタリング対象として、それらのセグメントをクラスタリングする過程と、
前記クラスタリングで得たセグメントクラスタの中から、物体領域を表現した物体領域クラスタを選定する過程と、
前記選定で得た物体領域クラスタに属するセグメントに基づいて、ターゲット物体の領域を検出する過程とを有し、
前記選定する過程では、前記クラスタリングで得たセグメントクラスタが同じフレーム画像の中に共に出現する確率を算出して、その確率が所定の閾値よりも大きいものとなるセグメントクラスタを特定し、その特定したセグメントクラスタを物体領域クラスタとして選定することを、
特徴とする物体領域検出方法。
請求項１に記載の物体領域検出装置を構成する手段としてコンピュータを機能させるための物体領域検出プログラム。