JP3740065B2

JP3740065B2 - 領域分割された映像の領域特徴値整合に基づいた客体抽出装置およびその方法

Info

Publication number: JP3740065B2
Application number: JP2002012131A
Authority: JP
Inventors: 斗植林; 昌容金; 智淵金; 相均金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-20
Filing date: 2002-01-21
Publication date: 2006-01-25
Anticipated expiration: 2022-01-21
Also published as: KR100450793B1; DE60235591D1; CN1384464A; EP1233374A2; US20020136449A1; CN1223969C; US6990233B2; EP1233374A3; EP1233374B1; JP2002288658A; KR20020062557A

Description

【０００１】
【発明の属する技術分野】
本発明は、抽出される客体の映像が質疑（参照）映像として提供された条件の下で、抽出される客体を含む客体抽出対象映像（静止映像、ビデオシーケンス）から、客体の領域情報を抽出する方法、およびその装置に関する。
より詳細には、客体抽出対象映像の中に含まれる客体の位置を検出するために客体抽出対象映像を処理し、空間配置の類似度、テキスチャー特性値、および色特性値に基づいて客体位置であると決定された客体抽出対象映像内の特定の領域から構成される映像と質疑（参照）映像とを比較して、客体の領域情報を抽出する方法、およびその装置に関する。
【０００２】
【従来の技術】
映像（画像）の中から客体を抽出する方法は、客体の動きを利用する方法、客体領域特徴値を利用する方法、映像編集ソフトウェアを利用した手作業による方法の３つに大別できる。
【０００３】
客体の動きを利用して映像から客体を抽出する方法は、連続映像における差（違い）を計算して動き領域を抽出する方法、背景領域の除去により抽出する方法、運動解析により抽出する方法に分けられる。
連続映像における差（ｆｒａｍｅｄｉｆｆｅｒｅｎｃｅ：ＵＳ５５００９０４、ＵＳ５１０９４３５）を利用する方法は、映像の中の連続したフレーム毎の輝度差を計算して動きを抽出する方式であり、これは基本的な運動領域抽出方式である。
【０００４】
背景領域除去（ｂａｃｋｇｒｏｕｎｄｓｕｂｔｒａｃｔｉｏｎ：ＵＳ５７４８７７５）による方法は、映像特徴変数の時間的（一時的）変化を利用して、背景映像を復元し、復元映像とオリジナル（元）映像との差から客体領域を抽出する方式である。
【０００５】
運動解析（ｍｏｔｉｏｎａｎａｌｙｓｉｓ：ＵＳ５８６２５０８）による方法は、動いている客体の運動方向と速度とを計算して運動領域を抽出する方式である。この方式は、背景構造や照明状態が変化した場合であっても対応できる最も一般的な運動領域抽出方式である。
この動きを利用した領域抽出は、連続的な映像において、客体の動きが十分にある場合に使用できる。しかし、静止映像や客体の動きが少ない映像あるいは運動速度が非常に大きい映像には、適用し難いという問題点がある。
【０００６】
客体領域の特徴値を利用する方法は、テンプレート整合（ｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ）、多重閾値分割（ｍｕｌｔｉ−ｖａｌｕｅｔｈｒｅｓｈｏｌｄｂａｓｅｄｓｅｇｍｅｎｔａｔｉｏｎ）、特徴値整合（ｆｅａｔｕｒｅｍａｃｈｉｎｇ）による方法に分類できる。
【０００７】
テンプレート整合（ｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ：ＵＳ５９４３４４２）は、抽出しようとする客体はテンプレート映像として定義され、検索対象の映像の中から、正規化相関値が最大値になる領域を客体領域として抽出する。しかしながら、客体の大きさが変化する場合や客体が回転する場合、正規化相関値が敏感に反応して抽出性能が低下してしまう。
【０００８】
多重閾値（ｍｕｌｔｉ−ｖａｌｕｅｔｈｒｅｓｈｏｌｄｓ：ＵＳ５１３８６７１）を使用して客体を抽出する方法は、映像の輝度値や色値の分布を多重閾値を使用して複数の領域に分割し、各々の領域を客体領域と見なす方法である。この方法の場合、背景領域と客体領域とを正確に区分（区別）しづらいという問題点がある。
【０００９】
また、映像編集ソフトウェアを利用した手作業による方法は、領域の区分を人の手で直接行う方法である。この方法の場合、客体抽出の正確度は高いが、作業時間が長く要するので、連続映像や多映像を含むデータベースイメージの編集には適していないという問題点がある。
【００１０】
【発明が解決しようとする課題】
本発明が解決しようとする技術的課題は、異なる映像における分割された領域同士の特性値整合を行って、客体を抽出する方法およびその装置を提供することである。
本発明が解決しようとする他の技術的課題は、上記方法をコンピュータで実行させるためのプログラムを記録した、コンピュータで読み出しうる記録媒体を提供することである。
【００１１】
【課題を解決するための手段】
本発明は、映像から客体を抽出する客体抽出装置であって、前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される映像入力部と、前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において前記客体が存在すると推定された位置である候補客体位置を設定する客体位置判定部と、色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する映像分割部と、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する客体領域決定部とを含み、前記客体位置判定部は、色空間において規定された各ビンに含まれる画素数を表す色ヒストグラムを、前記質疑映像および前記客体抽出対象映像の各々について求める色ヒストグラム計算部と、前記質疑映像および客体抽出対象映像に対する色ヒストグラムを、前記質疑映像の各ビンに含まれる画素数を前記質疑映像の有効画素数の総数で割った値、若しくは質疑映像のビンの画素数を質疑映像のビンに対応する客体抽出対象映像のビンの画素数で割った値と１のうちの小さい方の値としたヒストグラム値比に代える映像投射部と、前記ヒストグラム値比に代えられた客体抽出対象映像において前記候補客体位置を決定する候補客体位置判定部とを含み、前記候補客体位置判定部は、前記質疑映像内の客体を取り囲むように設定された境界ボックスを基準に決定されたマスクを用いて、前記ヒストグラム値比に代えられた客体抽出対象映像の畳み込みを行って画素毎に存在確率を求め、求めた存在確率が所定値以上となる画素と、前記質疑映像において設定された境界ボックス内の各画素との色距離を求め、求めた色距離の平均が予め決められた閾値以下となる画素の位置を前記候補客体位置として設定する客体抽出装置に関するものである。
【００１５】
また、前記映像分割部は、前記質疑映像と前記客体抽出対象映像とを、色空間およびテクスチャー空間にそれぞれ射影して求められる色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定することが好ましい。
【００１６】
さらに本発明は、映像から客体を抽出する客体抽出装置であって、前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される映像入力部と、前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において前記客体が存在すると推定された位置である候補客体位置を設定する客体位置判定部と、色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する映像分割部と、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する客体領域決定部とを含み、
前記客体領域決定部は、前記客体抽出対象映像において設定された分割領域のうち、前記候補客体位置を含む分割領域について、前記質疑映像の分割領域との類似性を示す距離値を下記式（１）を用いて求め、求めた距離値が、予め決められた閾値よりも小さい値となる前記分割領域が存在する場合に、前記客体抽出対象映像において設定された分割領域の中に、前記客体を含む領域である客体領域が存在すると判断する領域整合部と、

ここでＤc（ｘ，ｙ）は、色空間における２つの領域ｘ，ｙ間の距離を示し、Ｄt（ｘ，ｙ）はテクスチャー空間における２つの領域ｘ、ｙ間の距離を示し、ｗcとｗtは各々の距離値に付加される加重係数であり、領域ｘは、客体抽出対象映像において設定された分割領域を、領域ｙは、質疑映像の分割領域において設定された分割領域を示し、
前記客体抽出対象映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記客体抽出対象映像内において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記客体抽出対象映像用の空間隣接性行列と、
前記質疑映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記質疑映像において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記質疑映像用の空間隣接性行列とをそれぞれ生成する隣接性行列計算部と、
前記客体抽出対象映像用の空間隣接性行列と、前記質疑映像用の空間隣接性行列と、前記式（１）により求めた距離値とに基づいて、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域との対応関係を求める対応領域検出部と、
前記対応関係に基づいて、前記質疑映像の分割領域と前記客体抽出対象映像の分割領域との類似度を求め、前記客体抽出対象映像における客体領域を決定する類似度計算部とを含む客体抽出装置に関するものである。
【００１８】
ここで、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域の各々について、各分割領域を識別するラベル番号が割り当てられており、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像の空間隣接性行列では、各分割領域が互いに隣接しているか否かが、隣接している場合には第１の値で、隣接していない場合は第２の値で示されていることが好ましい。
【００１９】
さらに、前記対応領域検出部は、前記質疑映像において設定された分割領域と前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を示す行列式である比較行列を、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列とから、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列に要素として含まれる前記分割領域の数に応じて生成することが好ましい。
【００２０】
また、前記比較行列は、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域であって、前記式（１）で求めた距離値が予め決められた閾値よりも小さい値となる分割領域と、の対応関係を示す行列式であることが好ましい。
【００２１】
さらに、前記対応領域検出部は、前記客体抽出対象映像において設定された分割領域と、前記質疑映像において設定された分割領域の各々との類似性を、前記式（１）で求めた前記距離値に関連付けて表示する行列式である距離行列を生成することが好ましい。
【００２２】
また、前記距離行列は、前記質疑映像において設定された分割領域に割り当てられたラベル番号を行の要素として、前記客体抽出対象映像において設定された分割領域に割り当てられたラベル番号を列の要素として構成される行列であることが好ましい。
【００２３】
さらに、前記比較行列では、前記客体抽出対象映像用の空間隣接性行列における隣接性と、前記質疑映像用の空間隣接性行列における隣接性とが一致する場合には、第１の値で、一致しない場合には第２の値で示されており、前記類似度計算部は、前記比較行列において前記第１の値を有する要素の数を、前記比較行列に含まれる要素の総数から、重複する要素の数を減算した数で除算することにより、前記類似度を求めることが好ましい。
【００２４】
また、本発明は、（ａ）前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される段階と、（ｂ）前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において、前記客体が存在すると推定された位置である候補客体位置を設定する段階と、（ｃ）色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する段階と、（ｄ）前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含み、前記（ｂ）段階は、（ｂ１）色空間において規定された各ビンに含まれる画素数を表す色ヒストグラムを、前記質疑映像および前記客体抽出対象映像の各々について求める段階と、（ｂ２）前記質疑映像および客体抽出対象映像に対する色ヒストグラムを、前記質疑映像の各ビンに含まれる画素数を前記質疑映像の有効画素数の総数で割った値、若しくは質疑映像のビンの画素数を質疑映像のビンに対応する客体抽出対象映像のビンの画素数で割った値と１のうちの小さい方の値としたヒストグラム値比に代える段階と、（ｂ３）前記ヒストグラム値比に代えられた客体抽出対象映像において前記候補客体位置を決定する段階とを含み、前記（ｂ３）段階は、（ｂ３−１）前記質疑映像内の客体を取り囲むように設定された境界ボックスを基準に決定されたマスクを用いて、前記ヒストグラム値比に代えられた客体抽出対象映像の畳み込みを行って画素毎に存在確率を求める段階と、（ｂ３−２）求めた存在確率が所定値以上となる画素と、前記質疑映像において設定された境界ボックス内の各画素との色距離を求める段階と、（ｂ３−３）求めた色距離の平均が予め決められた閾値以下となる画素の位置を前記候補客体位置として設定する段階とを含む映像から客体を抽出する客体抽出方法に関するものである。
【００３０】
さらに、画素位置（ｘp、ｙp）での前記マスクは下記式（２）を利用して定義される円であることが好ましい。

ここで、ｂｌは前記境界ボックスの長い辺の長さであり、ｂｓは前記境界ボックスの短い辺の長さであり、αは大きさを調節するための変数である。
【００３１】
さらに、前記色距離の平均は、下記式（３）により求められることが好ましい。

ここで、Ｎは境界ボックス内に位置する画素のうちの有効画素の数であり、添字ｑは質疑映像であり、ｄは客体抽出対象映像である。
【００３２】
また、本発明は、（ａ）前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される段階と、（ｂ）前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において、前記客体が存在すると推定された位置である候補客体位置を設定する段階と、（ｃ）色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する段階と、（ｄ）前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含み、
前記（ｄ）段階は、（ｄ１）前記客体抽出対象映像において設定された分割領域のうち、前記候補客体位置を含む分割領域について、前記質疑映像の分割領域との類似性を示す距離値を下記式（４）を用いて求め、求めた距離値が、予め決められた閾値よりも小さい値となる前記分割領域が存在する場合に、前記客体抽出対象映像において設定された分割領域の中に、前記客体を含む領域である客体領域が存在すると判断する段階と

ここでＤc（ｘ，ｙ）は、色空間における２つの領域ｘ，ｙ間の距離を示し、Ｄt（ｘ，ｙ）はテクスチャー空間における２つの領域ｘ、ｙ間の距離を示し、ｗcとｗtは各々の距離値に付加される加重係数であり、領域ｘは、客体抽出対象映像において設定された分割領域を、領域ｙは、質疑映像の分割領域において設定された分割領域を示し、（ｄ２）前記客体抽出対象映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記客体抽出対象映像内において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記客体抽出対象映像用の空間隣接性行列と、前記質疑映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記質疑映像において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記質疑映像用の空間隣接性行列とをそれぞれ生成する段階と、（ｄ３）前記客体抽出対象映像用の空間隣接性行列と、前記質疑映像用の空間隣接性行列と、前記式（４）により求めた距離値とに基づいて、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域との対応関係を求める段階と、（ｄ４）前記対応関係に基づいて、前記質疑映像の分割領域と前記客体抽出対象映像の分割領域との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含む映像から客体を抽出する客体抽出方法に関するものである。
【００３５】
さらに、前記（ｄ２）段階に関し、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域の各々について、各分割領域を識別するラベル番号が割り当てられており、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像の空間隣接性行列では、各分割領域が互いに隣接しているか否かが、隣接している場合には第１の値で、隣接していない場合は第２の値で示されていることか好ましい。
【００３６】
さらに、前記（ｄ３）段階では、前記質疑映像において設定された分割領域と前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域との対応関係を示す行列式である比較行列を、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列とから、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列に含まれる前記分割領域の数に応じて生成することが好ましい。
【００３７】
また、前記比較行列は、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域の中で前記候補客体位置を含む分割領域であって、前記式（４）で求めた距離値が予め決められた閾値よりも小さい値となる分割領域と、の対応関係を示す行列式であることが好ましい。
【００３８】
さらに、前記（ｄ３）段階では、前記客体抽出対象映像において設定された分割領域と、前記質疑映像において設定された分割領域の各々との類似性を、前記式（４）で求めた前記距離値に関連付けて表示する行列式である距離行列を生成することが好ましい。
【００３９】
なお、前記距離行列は、前記質疑映像において設定された分割領域に割り当てられたラベル番号を行の要素として、前記客体抽出対象映像において設定された分割領域に割り当てられたラベル番号を列の要素として構成される行列であることが好ましい。
【００４０】
さらに、前記比較行列では、前記客体抽出対象映像用の空間隣接性行列における隣接性と、前記質疑映像用の空間隣接性行列における隣接性とが一致する場合には、第１の値で、一致しない場合には第２の値で示されており、前記（ｄ４）段階では、前記比較行列において前記第１の値を有する要素の数を、前記比較行列に含まれる要素の総数から、重複する要素の数を減算した数で除算することにより、前記類似度を求めることが好ましい。
【００４２】
また、本発明は、前記した映像から客体を抽出する客体抽出方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み出し可能な記録媒体に関するものである。
【００４３】
【発明の実施の形態】
以下、添付した図面を参照して本発明の望ましい実施形態について詳細に説明する。
【００４４】
図１は、本発明にかかる客体抽出装置の望ましい実施形態のブロック図である。図１に示すように、客体抽出装置は、映像入力部１１０と、客体位置判定部１２０と、映像分割部１３０と、客体領域決定部１４０とを含む。前記客体位置判定部１２０は、色ヒストグラム計算部１２１と、映像投射部１２３と、候補客体位置判定部１２５とを含んでも良い。また、前記客体領域決定部１４０は、領域整合部１４１と、隣接性行列計算部１４３と、対応領域検出部１４５と、類似度計算部１４７とを含んでも良い。
【００４５】
図２は、本発明にかかる客体抽出方法の望ましい実施形態のフローチャートである。図２を参照しながら図１に示した客体抽出装置の動作を詳細に説明する。
【００４６】
はじめに、映像入力部１１０に、客体を含む質疑（参照）映像と、客体抽出対象映像が入力される（２１０段階）。
ここで質疑（参照）映像とは、抽出しようとする客体を含む映像である。この質疑（参照）映像は、抽出しようとする客体をブルースクリーンなどを背景として撮影する、または動映像（画像）の任意の一映像フレームにおいて背景部分と客体部分とを映像編集機などを利用して分離する、などの方法により得ることができる。この場合、客体のある領域（部分）以外の領域、すなわち背景部分の画素の値は、「０」（ｂｌａｃｋ）として処理される。
また、客体抽出対象映像とは、任意の一映像、または動映像（画像）の中から場面検出技法などを利用して選択された代表フレーム映像をいう。
【００４７】
客体抽出対象映像が動映像（画像）における代表フレーム映像である場合、当該代表フレーム映像は、抽出しようとする客体を含んでいても良く、含んでいなくても良い。
質疑（参照）映像および客体抽出対象映像は、本発明の他の段階を始める前に備えておく必要がある。
【００４８】
次に、客体位置判定部１２０は、客体抽出対象映像内における客体の位置を特定するために、質疑（参照）映像と客体抽出対象映像の画素単位ごとに色特徴の整合（ｃｏｌｏｒｆｅａｔｕｒｅｍａｔｃｈｉｎｇ）を行う（２２１〜２２５−３段階）。
【００４９】
具体的には、色ヒストグラム計算部１２１が、選択された色空間と量子化水準を用いて、質疑（参照）映像と客体抽出対象映像について色ヒストグラム値を求める（２２１段階）。ここで、色ヒストグラム値は、量子化された色空間内の各ビン（ｂｉｎ）に含まれる画素数を意味する。
【００５０】
図３は、本発明で使用する量子化された色空間内におけるビンの例を示している。この図において、色空間は赤色（Ｒ）軸、緑色（Ｇ）軸、青色（Ｂ）軸からなる３次元空間で表現される。
図３の各軸は、色空間を一定の体積を有する立方体に量子化するために、各軸ごとに５個の区間（０から始まって、５１、１０２、１５３、２０４、２５５という値ごと）に分割される。
ここでビンとは、以上のように量子化された３次元色空間内の一区間（例えば、図３で斜線をつけた部分（四面体））を意味する。
【００５１】
各ビンに含まれた画素数Ｃ_miが、臨界画素数（閾値）以下の場合、ビン内の画素を雑音（ノイズ）と見なして、当該ビンの色ヒストグラム値を「０」と設定する。
【００５２】
臨界画素数（閾値）は、ｔｈｒＰｉｘｅｌ＝ＳＵＭ（Ｃ_mi）／ｎと定義できる。ここで、ｉは０、...、ｎ−１の値を有するビン番号であり、ｎはビンの数、Ｃ_miは質疑（参照）映像内のｉ番目のビンに含まれた画素の数である。
【００５３】
この場合、映像内での出現頻度が少ない色値を有する画素は、雑音（ノイズ）と見なされる。また背景色（画素値が「０」である）と見なされた領域に対する色ヒストグラム値は、「０」として処理し、これにより最終色ヒストグラム値が決定される。
【００５４】
本実施の形態ではＲＧＢ色空間が使われ、８×８×８の量子化が用いられる。しかしながら、本発明は、特定の色空間や量子化に限定されるものではない。ＹＣｂＣｒ、Ｌ＊ｕ＊ｖなどの他の色空間を適宜選択使用することが可能であり、量子化も４×４×４あるいは１６×１６×１６など他の水準を使用できる。このように他の色空間を選択したり、他の量子化水準を使用する場合における結果の変化は微細である。
【００５５】
映像投射部１２３は、ヒストグラム値比を計算し、客体抽出対象映像の各画素値をヒストグラム値比と置換する（２２３段階）。これが色ヒストグラムを利用した映像投射（射影）（ｉｍａｇｅｐｒｏｊｅｃｔｉｏｎ）である。
ヒストグラム値比は次の２つの方法で計算できる。その最初の方法は、質疑（参照）映像のｉ番目ビンに含まれる画素の数を、質疑（参照）映像内の全ての有効画素数で割った値すなわち、Ｒ［Ｃｉ］＝［Ｃ_mi／ＳＵＭ（Ｃ_mi）＿eｆｆeｃｔｉｖｅ］で決定する方法である。ここで、ＳＵＭ（Ｃ_mi）＿eｆｆeｃｔｉｖｅはｉ番目のビンに含まれた有効画素数を意味する。
【００５６】
二番目の方法は、質疑（参照）映像のビンの画素数を客体抽出対象映像内のビンであって質疑（参照）映像のビンに対応するビンに含まれる画素数で割った値と、１のうち小さいほうの値をヒストグラム値比とする方法である。すなわち、ヒストグラム値比は、Ｒ［Ｃｉ］＝ｍｉｎ［（Ｃ_mi／Ｃ_di）、１］で定義される。ここで、Ｒ［Ｃｉ］はｉ番目のビンに対応する色を有する画素の比（割合）を意味する。
客体抽出対象映像の各画素の色値に対応するヒストグラム値比と、画素値とを置換する、これにより、映像投射がなされる。
【００５７】
候補客体位置判定部１２５は、ヒストグラム値比とともに客体抽出対象映像における候補客体の位置を画素の値として決定する（２２５−１段階）。
具体的には、質疑（参照）映像内の客体の映像領域を取り囲む最小限の四角形、すなわち境界ボックス（枠）を求める。各画素ごとに客体の存在可能性に関する尺度（存在確率）を計算するために、この境界ボックスの大きさを基準として決定される特定の大きさを有するマスクを、ヒストグラム値比を有する客体抽出対象映像に対して畳み込みをする。その計算した尺度の値が基準値以上であれば、相当する画素の位置を候補客体位置と判定する。
【００５８】
ここで、各画素（ｘ_p、ｙ_p）の尺度を計算するために使われるマスクＷは、半径の大きさがＷＲである円となる。このマスクＷは、下記式１のように定義される。
【００５９】
【数１】

【００６０】
ここでＷＲは境界ボックスにより規定される値であり、ｂｌは境界ボックスの長辺の長さ、ｂｓは境界ボックスの短辺の長さであり、αは大きさを調節するための変数である。
各画素内に客体が存在する可能性は「ｌｏｃ」と表現され、ｌｏｃ（ｘ、ｙ）＝Ｗ＊ｐ（ｘ、ｙ）と定義される。
ここで、ｐ（ｘ、ｙ）は、画素（ｘ、ｙ）におけるヒストグラム値比であり、＊は畳み込みを意味する。ｌｏｃ（ｘ、ｙ）の最大値は２５５というように正規化される。ｌｏｃ値が基準値以上であｒｕ場合、画素（ｘ、ｙ）の位置は候補客体位置として決定される。
前記式１において、変数αを調節することで、客体の多重位置を決定できる。すなわち、抽出しようとする客体の大きさが、質疑（参照）映像と客体抽出対象映像とで異なる場合、その大きさ変化が認識することができる。
【００６１】
２２５−１段階において候補客体の位置が決定されると、テンプレート整合を行うために、質疑（参照）映像内の客体領域の一部または全部を含む特定大きさの四角形領域内にある画素と、客体抽出対象映像内の候補客体位置の周りの特定大きさの四角形領域にある画素との間の色距離差を求める（２２５−２段階）。
【００６２】
少なくとも一つの客体の位置が、平均色距離差を元に決定される（２２５−３段階）。
【００６３】
具体的には、質疑（参照）映像内の客体領域を囲むマスク内の画素と、客体抽出対象映像内の候補客体位置判定部１２５により候補客体位置と決定された位置にある画素のマスクに含まれる画素との間の平均色距離差が最小となる場合、候補客体位置は客体位置として決定される。そして、２番目に小さい値となった場合、相当する候補客体位置は、他の客体の位置として決定される。このようにして、少なくとも一つの客体の位置が決定される。
ここで、マスクは、質疑（参照）映像内の客体境界ボックスのサイズに基づいて決定される任意の大きさ、例えば縦横の大きさがｂｓである、を有する四角い領域である。
【００６４】
質疑（参照）映像内の画素と、客体抽出対象映像の画素との間の平均色距離差（ＡＤ_pixelcolor）は、下記式２のように定義できる。
【００６５】
【数２】

【００６６】
ここで、Ｎは、Ｒ_q＝Ｇ_q＝Ｂ_q＝０とならない有効画素の数を意味し、Ｒ_q＝Ｇ_q＝Ｂ_q＝０となる画素は計算から除外される。下添字ｑは質疑（参照）映像を、ｄは客体抽出対象映像をそれぞれ意味する。
【００６７】
一方、映像分割部１３０は、映像入力部１１０を介して入力された質疑（参照）映像と客体抽出対象映像とを、色やテクスチャーの映像特徴値を利用して、複数の領域にそれぞれ分割する（２３０段階）。
この映像を分割する方法は特に限定されるものではなく、従来公知の方法を使用して行える。
この映像を分割する方法の好ましい一態様が図５に示されている。図５（ａ）は、元の映像を、図５（ｂ）は領域分割された映像を示す。図５（ｂ）に示すように、分割された領域にはラベル番号が割り当てられている。
【００６８】
客体領域決定部１４０は、質疑（参照）映像の分割された全ての領域と、客体抽出対象映像の分割された領域の中で前記客体位置判定部１２０により客体位置として決定された位置に含まれるすべての領域との領域整合を行う。
そして整合された領域における空間隣接性の類似度を利用して最終客体領域を決定する（２４１段階〜２４９段階）。
【００６９】
具体的には、領域整合部１４１は、客体抽出対象映像内の客体位置として決定された位置を中心とするマスクＷに接する分割された領域を検出し、これと質疑（参照）映像の分割された全ての領域との間の類似度を計算して領域整合を行う（２４１段階）。
類似度が所定値よりも小さい場合、客体抽出対象映像内の検出された領域を、客体領域として決定する。
一方、類似度が所定値よりも大きい場合、相当する検出領域を、客体領域から除外する。
ここで、類似度は、色−テクスチャー特徴値空間における距離Ｄ_CTを用いて決定される。なお、距離Ｄ_CTは、下記式３のように定義される。
【００７０】
【数３】

【００７１】
ここで、Ｄ_c（ｘ、ｙ）は、色特徴空間における２つの領域ｘ、ｙ間の距離であり、Ｄ_t（ｘ、ｙ）は、テクスチャー特徴値空間における２つの領域ｘ、ｙ間の距離を示す。ｗ_cとｗ_tは各々の距離値に付加される加重係数である。
【００７２】
Ｄ_c（ｘ、ｙ）とＤ_t（ｘ、ｙ）とを計算する過程の一例を以下に詳細に説明する。
分割された各領域の色特徴値は下記式４のように定義される。ここで、輝度（Ｂ、Ｂｒｉｇｈｔｎｅｓｓ）、色相（Ｈ、Ｈｕｅ）、彩度（Ｓ、Ｓａｔｕｒａｔｉｏｎ）である。
【００７３】
【数４】

【００７４】
ここでｒ、ｇ、ｂは、入力された領域の平均色値であり、ｕ＝ｍｉｎ（ｒ，ｇ，ｂ）である。
ＢＨＳ色空間上の距離は、下記式５で表される色空間内の距離Ｄｃ（ｘ，ｙ）として使用できる。
【００７５】
【数５】

【００７６】
ここでＢ（ｘ）、Ｈ（ｘ）、Ｓ（ｘ）は、色空間内の一点における輝度、色相、彩度をそれぞれ意味し、Ｋ_B、Ｋ_H、Ｋ_Sは、それぞれ輝度、色相、彩度の加重係数である。
【００７７】
テクスチャー特徴値空間は、多重大きさおよび多重方向のテクスチャー特徴値を利用して形成される。各特徴値は、各画画素ごとの多重方向の局所変動ｖと局所振動ｇとをそれぞれ合算することによって得られる。映像の輝度値Ｂは、このようなテクスチャー特徴値を抽出するのに使用される。
【００７８】
テキスチャー特性値を求める際に、長さ２Ｌである画素の集合を、画素（ｍ、ｎ）を中心として確度α_k＝ｋπ／Ｋ（ｋ＝０、...、Ｋ−１）回転させる。
ここで、Ｌについて図４を参照しながら説明する。
【００７９】
図４は、画素（ｍ、ｎ）を中心にした回転と、Ｌの意味とを説明するための図面である。図４の黒色に塗りつぶした部分は、計算しようとするテキスチャー特性値の画素（ｍ，ｎ）である。画素（ｍ，ｎ）の上下左右に位置する各画素は、ハッチング線で示している。ここでＬは４である。対角線上に示された画素群は、４つの画素を画素（ｍ，ｎ）を中心として４５度回転させた際の様子を示している。
【００８０】
ｙ_i（−Ｌ≦ｉ≦Ｌ）は、このように均一に分布された配列画素の中の一個の画素の輝度値Ｂを示す。ここで、ｄ_i＝ｙ_i+1−ｙ_iは、この配列画素の中で隣り合った画素の輝度値の差を示し、ｗ_i＝ｕｃｏｓ（ｉπ／（２Ｌ＋１））はコサイン加重関数となる。
ここで係数ｕは、

を形成するための値として使われる。
これを利用して得られる加重変動の上限および下限は、次の数式６の通りである。
【００８１】
【数６】

【００８２】
ここで、上記式６の二つの値のうち小さい方の値を局所変動値ｖとして選択する。すなわち、局所変動値ｖは、下記式７のように定義される。
【００８３】
【数７】

【００８４】
局所振動値ｇは、長さＬ（−Ｌ≦ｉ≦Ｌ）の配列画素に含まれるｄ_iの中で、その方向（ｓｉｇｎ）が変わるとｄ_iの振幅の大きさが所定の規定値を超えるｄ_iの数である。
【００８５】
各画素のテキスチャー特性値

は、各画素の局所変動値と局所振動値とを乗算することによって求められる。
【００８６】
求められたテキスチャー特徴値をさらに均一にするために、各テキスチャー特性値は、サイズがｈである枠の尺度値に平坦化され、そして下記式８に示す変換式を利用して双曲線正接（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔ）変換処理される。これにより、高いテクスチャー特徴値は小さく、低いテクスチャー特徴値は大きくなる。
【００８７】
【数８】

【００８８】
テクスチャーは大きさに依存する特徴値であるために、映像の大きさを、異なる周波数で毎回１／２づつＳ回縮める。各画素のテクスチャー特徴値は、映像の大きさを縮める必要があるときはいつでも、この方法に従って求めることが出来る。このようにして求められるテクスチャー特徴値は、下記式９のように表される。
【００８９】
【数９】

【００９０】
式９によると、各画素のテクスチャー特徴値の数はＫＳである。各領域の各画素のＫＳ個のテクスチャー特徴値は、異なる領域の画素間のテキスチャー距離を求めるのに利用される。ここで、テキスチャー距離は下記式１０で表される。
【００９１】
【数１０】

【００９２】
ここでｘ，ｙは、テクスチャー特性空間内の二点を意味する。

と

は、それぞれｘとｙのテキスチャー特性値であり、Ｗ^sはテクスチャーの多重大きさに付加される加重係数である。
【００９３】
領域整合部１４１は、客体抽出対象映像内に少なくとも一つの客体領域が存在するか否かを、計算された類似度に基づいて判断する（２４２段階）。
客体領域が存在しないと判断された場合、客体抽出対象映像内に客体領域が含まれないと判断し、終了する。
一方、すくなくとも一つの客体領域が存在すると判断された場合、客体抽出対象映像が客体領域を含むと判断する。
【００９４】、
続いて、隣接性行列計算部１４３は、分割された領域を有する質疑（参照）映像と、領域整合を行って得られた映像とを受信し、入力された映像のそれぞれの分割された領域について空間隣接性行列を計算する（２４３段階）。
ここで、領域整合を行って得られた映像とは、客体抽出対象映像の分割された領域の中で客体領域を含むと見なされた領域と、質疑（参照）映像の分割された領域とに領域整合を行って得られた映像とのことである。
【００９５】
分割された領域にはラベル番号がそれぞれ割り当てられており、分割された領域の中の隣接性は行列で示されている。２つの分割された領域が隣接している場合、行列内の対応する要素は値「１」を有する。２つの分割された領域が隣接していない場合、行列内の対応する要素は、値「０」を有する。このような隣接行列の好ましい一態様を図６に示す。
【００９６】
図６は、図５（ｂ）に示す映像の隣接性行列を示したものである。
この図では、領域２と領域３とは互いに隣接した領域となっているので、行列の要素（２，３）の成分は「１」の値を有する。また、領域２と領域４とは互いに隣接せずに分離された領域となっているので、行列の要素（２，４）は「０」の値を有する。
このように、分割された領域のラベル番号は、行列内の行と列とに割り当てられており、２つの領域の隣接性は、対応する要素「１」、「０」で示されるので、隣接性行列が形成される。
【００９７】
対応領域検出部１４５は、質疑（参照）映像の隣接性行列を構成する領域に対応する客体抽出対象映像内の領域を、隣接性行列を用いて検出する（２４５段階）。
具体的には、質疑（参照）映像と客体抽出対象映像とにおける対応領域は比較行列で表わされる。質疑（参照）映像の分割された領域の数と、客体抽出対象映像の分割された領域の数に基づいて、比較行列をそれぞれ方法で求めることは必要である。
【００９８】
（１）質疑（参照）映像の分割された領域の数が、客体抽出対象映像の分割された領域の数より多い場合、例えば、質疑（参照）映像の分割された領域の数が４つ、客体抽出対象映像の分割された領域の数は３つである場合、
−質疑（参照）映像および客体抽出映像の隣接性行列を求める。
−質疑（参照）映像の分割された領域の数に基づいて正方形の比較行列を構成する。
−客体抽出対象映像の隣接性行列にラベル番号を割り当て、割り当てられたラベルに対応する要素の値を「０」とする。
【００９９】
図７は、質疑（参照）映像の分割された領域の数が、客体抽出対象映像の分割された領域の数より多い場合の比較行列を求める望ましい実施形態を示している。
図７（ａ）は質疑（参照）映像の隣接性行列の一例を示しており、図７（ｂ）は客体抽出対象映像の隣接性行列の一例を示しており、図７（ｃ）は、図７（ａ）、図７（ｂ）の隣接性行列から求められた比較行列の一例を示している。ここで、図７（ｂ）および図７（ｃ）における「×」は、追加されたラベルである。
【０１００】
（２）質疑（参照）映像の分割された領域の数が、客体抽出対象映像の分割された領域の数より少ない場合、
−質疑（参照）映像および客体抽出対象映像の隣接性行列を求める。
−質疑（参照）映像の分割された領域の数に基づいて正方形の比較行列を構成する。
−客体抽出対象映像の領域ラベルのうちの一部を比較行列構成から除外する。
図８は、質疑（参照）映像の分割された領域の数が、客体抽出対象映像の分割された領域の数より少ない場合に比較行列を求める望ましい実施形態が示されている。
図８（ａ）は質疑（参照）映像の隣接性行列であり、図８（ｂ）は客体抽出対象映像の隣接性行列であり、図８（ｃ）は、図８（ａ）および図８（ｂ）で求めた比較行列である。
【０１０１】
図７乃至図８では、質疑（参照）映像の領域ラベルと客体抽出対象映像の領域ラベルとが同じものを整合させて比較行列を構成する。
ここで、比較行列とは、質疑映像の隣接性行列（図７（ａ））における各要素と、客体抽出対象映像の隣接性行列（図７（ｂ））における各要素との対応関係、すなわち、両行列の各要素同士が一致しているか否かを示す行列である。
図７を参照して、具体的に説明すると、図７（ａ）の要素（１，２）の成分は「１」であり、図７（ｂ）の要素（１，２）の成分は「１」である。すなわち、両成分は一致しているので、比較行列（図７（ｃ）において、要素（１，２）の成分は「１」となる。
一方、図７（ａ）の要素（１，３）の成分は「１」であり、図７（ｂ）の要素（１，３）の成分は「０」である。すなわち、両成分は一致していないので、比較行列（図７（ｃ））において、要素（１，３）の成分は「０」となることが判る。
しかし、図７乃至図８に示す前記方法に従って得られた比較行列は、同一のラベル番号を有する領域が同じ特性値（色特性値、テキスチャー特性値）を有すると仮定した状況下においてのみ有効である。
すなわち、質疑（参照）映像および客体抽出対象映像内のラベル番号が割り当てられた領域同士が最も類似した特性を有する対応領域を探す必要がある。各対応領域のラベル番号を用いて比較行列を求めた場合のみ、質疑（参照）映像と客体抽出対象映像における領域比較が有効である。このような対応領域は以下の手順に従って求められる。
【０１０２】
（１）質疑（参照）映像の領域ラベル番号を行として、客体抽出対象映像の領域ラベル番号を列としてそなえる行列を構成し、質疑（参照）映像内の分割された領域間の距離と、客体抽出対象映像内の分割された領域間の距離とを求め、求めた距離を要素としてそなえる距離行列を求める。ここで、距離とは色−テクスチャー特徴空間における距離Ｄ_CT（ｘ，ｙ）である。
【０１０３】
（２）質疑（参照）映像の領域に対応する客体抽出対象映像内の領域を距離行列の値により決定して、その対応領域によって比較行列を再構成する。
【０１０４】
図９は、質疑（参照）映像と客体抽出対象映像のそれぞれについて、異なるラベル番号を有する領域の特性値に最も近い特性値を有する領域を検索し、検索結果に基づいて比較行列を構成する方法の好ましい位置態様図である。
【０１０５】
図９（ａ）は、質疑（参照）映像と客体抽出対象映像に存在する領域間の距離を示す距離行列の望ましい実施形態を示したものである。
図９（ｂ）は、図９（ａ）の距離行列において距離が最短となる領域にそれぞれ割り当てられたラベル番号を使用して再構成された比較行列の好ましい一態様
を示したものである。
ここで、距離行列とは、「客体抽出対象映像において設定された分割領域と、質疑映像において設定された分割領域の各々との類似性を距離値に関連付けて表示する行列式である。
【０１０６】
図９（ａ）の距離行列の要素のうちハッチング線を付した各要素では、質疑（参照）映像と客体抽出対象映像の領域間の距離が最短となる。
図９では、質疑（参照）映像の領域が３つ、比較される客体抽出対象映像の領域が４つである場合を例に挙げており、比較行列ではラベル番号が距離行列で求めた対応する領域によって変化することを示している。
【０１０７】
次に、類似度計算部１４７は、空間隣接性行列の類似度を計算する（２４７段階）。類似度は比較行列における「１」の数Ｅuを、上の三角行列全体の要素の数Ｍuで割ることで求める。ここで、三角行列とは、図７（ｃ）の場合は、図中においてハッチングで示す部分の行列を意味する。
したがって、言い換えると、類似度計算部１４７は、比較行列において「１」の値を有する要素の数を、比較行列に含まれる要素の総数から、重複する要素の数を減算した数で除算することにより、類似度を求める。
質疑（参照）映像における隣接性と、客体抽出対象映像における隣接性とが略一致する場合、類似性の値は「１」となる。一方、質疑（参照）映像における隣接性と、客体抽出対象映像における隣接性とが完全に異なる場合、類似性の値は「０」となる。すなわち、質疑（参照）映像と客体抽出対象映像との間の空間隣接性における類似度Ｓｉは、下記式１１で表される。
【０１０８】
【数１１】

【０１０９】
そして、計算された類似度が臨界値（閾値）以上であるかどうかを判断する（２４８段階）。類似度が臨界値（閾値）以上である場合、最終客体領域が決定される（２４９段階）。
すなわち、色特性値およびテキスチャー特性値を利用して領域整合を行うことにより求められた客体抽出対象映像内の領域が、抽出しようとする客体であるか否かを判断する。客体領域として最終的に決定された領域を客体（最終客体領域）として決定される。
最終客体領域の画素の値は、オリジナル（元）映像内の画素の値として決定される。そして客体抽出対象映像の他の領域の画素の値を「０」とする。
【０１１０】
一方、類似度が臨界値（閾値）以下である場合、客体抽出対象映像の中に抽出される客体が存在しないと決定され、客体抽出対象内の全ての画素の値を「０」とする。
【０１１１】
図１０は、客体抽出映像から二つの相異なる客体を抽出した結果を示すものである。図１０（ａ）は、４個の客体抽出対象映像に含まれた女性出演者の服（抽出対象客体）を本発明によって抽出した結果を示したものであり、図１０（ｂ）は、４個の客体抽出対象映像から男性出演者の服（抽出対象客体）を本発明によって抽出した結果を示したものである。
【０１１２】
一方、上述した本発明の実施形態はコンピュータで実行できるプログラムで作成可能である。そして、コンピュータで使われる媒体を利用して上記プログラムを動作させる汎用ディジタルコンピュータで具現できる。
上記媒体はマグネチック貯蔵媒体（例えば、ＲＯＭ、フレキシブルディスクディスク、ハードディスク等）、光学的判読媒体（例えば、ＣＤ-ＲＯＭ、ＤＶＤ等）およびキャリアウェーブ（例えば、インターネットを通した伝送）のような貯蔵媒体を含む。
【０１１３】
【発明の効果】
以上述べたように、本発明は従来の動き基盤客体抽出方法などとは違って客体抽出対象映像内に存在する客体の動きの有無に関係なく客体を抽出できる長所がある。
それだけでなく、客体抽出対象映像が連続する動映像フレームである必要もない。
また、色特性値やテクスチャー特徴値などの単一種の情報だけを利用して客体を抽出する方法と比べると、本発明によるとより正確な客体の映像領域抽出が可能となる。
抽出しようとする客体を含む質疑（参照）映像と客体抽出対象映像の入力に応じて客体抽出を自動的に行えるので、手動の客体を抽出する際に要する時間を節約できる。本発明のこのような特徴および長所は、特定客体の映像領域を自動で抽出する必要がある映像編集および書込み機、客体基盤映像符号化機、対話形動映像製作機等に有用に利用できる。
【０１１４】
今まで本発明について望ましい実施形態を中心に調べた。本発明が属する技術分野で通常の知識を有する者は本発明を本発明の本質的な特性を外れない範囲で変形された形で具現できることを理解できる。したがって開示された実施形態は限定的な観点でなく説明的な観点で考慮されねばならない。本発明の範囲は特許請求の範囲に示されており、それと同等な範囲内にあるすべての差異点は本発明に含まれると解析されねばならない。
【図面の簡単な説明】
【図１】本発明による客体抽出装置の望ましい実施形態のブロック図である。
【図２】本発明による客体抽出方法のフローチャートである。
【図３】色空間の量子化およびビンに関する説明図である。
【図４】画素（ｍ、ｎ）を中心にした回転に関する説明図である。
【図５】（ａ）、（ｂ）ともに領域分割された映像にラベル番号を割り当てた例を示す。
【図６】図５Ｂについての隣接性行列を示す。
【図７】質疑（参照）映像の分割された領域の数が客体抽出対象領域の分割された領域の数より大きい場合に比較行列を求める例を示す。
【図８】質疑（参照）映像の分割された領域の数が客体抽出対象領域の分割された領域の数より小さい場合に比較行列を求める例を示す。
【図９】距離行列の例とそれに従う比較行列の例を示す。
【図１０】二つの相異なる客体についての客体抽出対象映像での客体抽出結果を示す。

Claims

映像から客体を抽出する客体抽出装置であって、
前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される映像入力部と、
前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において前記客体が存在すると推定された位置である候補客体位置を設定する客体位置判定部と、
色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像と
を各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する映像分割部と、
前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する客体領域決定部とを含み、
前記客体位置判定部は、
色空間において規定された各ビンに含まれる画素数を表す色ヒストグラムを、前記質疑映像および前記客体抽出対象映像の各々について求める色ヒストグラム計算部と、
前記質疑映像および客体抽出対象映像に対する色ヒストグラムを、前記質疑映像の各ビンに含まれる画素数を前記質疑映像の有効画素数の総数で割った値、若しくは質疑映像のビンの画素数を質疑映像のビンに対応する客体抽出対象映像のビンの画素数で割った値と１のうちの小さい方の値としたヒストグラム値比に代える映像投射部と、
前記ヒストグラム値比に代えられた客体抽出対象映像において前記候補客体位置を決定する候補客体位置判定部とを含み、
前記候補客体位置判定部は、
前記質疑映像内の客体を取り囲むように設定された境界ボックスを基準に決定されたマスクを用いて、前記ヒストグラム値比に代えられた客体抽出対象映像の畳み込みを行って画素毎に存在確率を求め、
求めた存在確率が所定値以上となる画素と、前記質疑映像において設定された境界ボックス内の各画素との色距離を求め、
求めた色距離の平均が予め決められた閾値以下となる画素の位置を前記候補客体位置として設定することを特徴とする客体抽出装置。
前記映像分割部は、
前記質疑映像と前記客体抽出対象映像とを、色空間およびテクスチャー空間にそれぞれ射影して求められる色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定することを特徴とする請求項１に記載の客体抽出装置。
映像から客体を抽出する客体抽出装置であって、
前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される映像入力部と、
前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において前記客体が存在すると推定された位置である候補客体位置を設定する客体位置判定部と、
色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する映像分割部と、
前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する客体領域決定部とを含み、
前記客体領域決定部は、
前記客体抽出対象映像において設定された分割領域のうち、前記候補客体位置を含む分割
領域について、前記質疑映像の分割領域との類似性を示す距離値を下記式（１）を用いて求め、求めた距離値が、予め決められた閾値よりも小さい値となる前記分割領域が存在する場合に、前記客体抽出対象映像において設定された分割領域の中に、前記客体を含む領域である客体領域が存在すると判断する領域整合部と、

ここでＤc（ｘ，ｙ）は、色空間における２つの領域ｘ，ｙ間の距離を示し、Ｄt（ｘ，ｙ）はテクスチャー空間における２つの領域ｘ、ｙ間の距離を示し、ｗcとｗtは各々の距離値に付加される加重係数であり、領域ｘは、客体抽出対象映像において設定された分割領域を、領域ｙは、質疑映像の分割領域において設定された分割領域を示し、
前記客体抽出対象映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記客体抽出対象映像内において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記客体抽出対象映像用の空間隣接性行列と、
前記質疑映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記質疑映像において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記質疑映像用の空間隣接性行列とをそれぞれ生成する隣接性行列計算部と、
前記客体抽出対象映像用の空間隣接性行列と、前記質疑映像用の空間隣接性行列と、前記式（１）により求めた距離値とに基づいて、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域との対応関係を求める対応領域検出部と、
前記対応関係に基づいて、前記質疑映像の分割領域と前記客体抽出対象映像の分割領域との類似度を求め、前記客体抽出対象映像における客体領域を決定する類似度計算部とを含む
ことを特徴とする客体抽出装置。
前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域の各々について、各分割領域を識別するラベル番号が割り当てられており、
前記質疑映像用の空間隣接性行列と前記客体抽出対象映像の空間隣接性行列では、各分割領域が互いに隣接しているか否かが、隣接している場合には第１の値で、隣接していない場合は第２の値で示されている
ことを特徴とする請求項３に記載の客体抽出装置。
前記対応領域検出部は、
前記質疑映像において設定された分割領域と前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を示す行列式である比較行列を、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列とから、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列に要素として含まれる前記分割領域の数に応じて生成する
ことを特徴とする請求項３に記載の客体抽出装置。
前記比較行列は、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域であって、前記式（１）で求めた距離値が予め決められた閾値よりも小さい値となる分割領域と、の対応関係を示す行列式である
ことを特徴とする請求項５に記載の客体抽出装置。
前記対応領域検出部は、
前記客体抽出対象映像において設定された分割領域と、前記質疑映像において設定された分割領域の各々との類似性を、前記式（１）で求めた前記距離値に関連付けて表示する行列式である距離行列を生成する
ことを特徴とする請求項６に記載の客体抽出装置。
前記距離行列は、前記質疑映像において設定された分割領域に割り当てられたラベル番号を行の要素として、前記客体抽出対象映像において設定された分割領域に割り当てられたラベル番号を列の要素として構成される行列である
ことを特徴とする請求項７に記載の客体抽出装置。
前記比較行列では、前記客体抽出対象映像用の空間隣接性行列における隣接性と、前記質疑映像用の空間隣接性行列における隣接性とが一致する場合には、第１の値で、一致しない場合には第２の値で示されており、
前記類似度計算部は、前記比較行列において前記第１の値を有する要素の数を、前記比較行列に含まれる要素の総数から、重複する要素の数を減算した数で除算することにより、前記類似度を求める
ことを特徴とする請求項５に記載の客体抽出装置。
映像から客体を抽出する方法において、
（ａ）前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される段階と、
（ｂ）前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において、前記客体が存在すると推定された位置である候補客体位置を設定する段階と、
（ｃ）色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する段階と、
（ｄ）前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含み
前記（ｂ）段階は、
（ｂ１）色空間において規定された各ビンに含まれる画素数を表す色ヒストグラムを、前記質疑映像および前記客体抽出対象映像の各々について求める段階と、
（ｂ２）前記質疑映像および客体抽出対象映像に対する色ヒストグラムを、前記質疑映像の各ビンに含まれる画素数を前記質疑映像の有効画素数の総数で割った値、若しくは質疑映像のビンの画素数を質疑映像のビンに対応する客体抽出対象映像のビンの画素数で割った値と１のうちの小さい方の値としたヒストグラム値比に代える段階と、
（ｂ３）前記ヒストグラム値比に代えられた客体抽出対象映像において前記候補客体位置を決定する段階とを含み
前記（ｂ３）段階は、
（ｂ３−１）前記質疑映像内の客体を取り囲むように設定された境界ボックスを基準に決定されたマスクを用いて、前記ヒストグラム値比に代えられた客体抽出対象映像の畳み込みを行って画素毎に存在確率を求める段階と、
（ｂ３−２）求めた存在確率が所定値以上となる画素と、前記質疑映像において設定された境界ボックス内の各画素との色距離を求める段階と、
（ｂ３−３）求めた色距離の平均が予め決められた閾値以下となる画素の位置を前記候補客体位置として設定する段階と
を含むことを特徴とする客体抽出方法。
画素位置（ｘp、ｙp）での前記マスクは下記式（２）を利用して定義される円であり、

ここで、ｂｌは前記境界ボックスの長い辺の長さであり、ｂｓは前記境界ボックスの短い辺の長さであり、αは大きさを調節するための変数である
ことを特徴とする請求項１０に記載の客体抽出方法。
前記色距離の平均は、下記式（３）により求められる
ことを特徴とする請求項１０に記載の客体抽出方法。

ここで、Ｎは境界ボックス内に位置する画素のうちの有効画素の数であり、添字ｑは質疑映像であり、ｄは客体抽出対象映像である。
映像から客体を抽出する方法において、
（ａ）前記客体を含む質疑映像および前記質疑映像に含まれた客体が抽出される客体抽出対象映像が入力される段階と、
（ｂ）前記質疑映像と前記客体抽出対象映像の画素単位の色特徴値の比較により、前記客体抽出対象映像において、前記客体が存在すると推定された位置である候補客体位置を設定する段階と、
（ｃ）色特徴値とテクスチャー特性値とを利用して、前記質疑映像と前記客体抽出対象映像とを各々領域分割して、前記質疑映像と前記客体抽出対象映像とにおいて複数の分割領域をそれぞれ設定する段階と、
（ｄ）前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域のうちの前記候補客体位置を含む分割領域との対応関係を、前記色特徴値と前記テクスチャー特性値とを利用して求め、前記対応関係に基づいて、前記質疑映像と前記客体抽出対象映像との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含み
前記（ｄ）段階は、
（ｄ１）前記客体抽出対象映像において設定された分割領域のうち、前記候補客体位置を含む分割領域について、前記質疑映像の分割領域との類似性を示す距離値を下記式（４）を用いて求め、求めた距離値が、予め決められた閾値よりも小さい値となる前記分割領域が存在する場合に、前記客体抽出対象映像において設定された分割領域の中に、前記客体を含む領域である客体領域が存在すると判断する段階と

ここでＤc（ｘ，ｙ）は、色空間における２つの領域ｘ，ｙ間の距離を示し、Ｄt（ｘ，ｙ）はテクスチャー空間における２つの領域ｘ、ｙ間の距離を示し、ｗcとｗtは各々の距離値に付加される加重係数であり、領域ｘは、客体抽出対象映像において設定された分割領域を、領域ｙは、質疑映像の分割領域において設定された分割領域を示し、
（ｄ２）前記客体抽出対象映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記客体抽出対象映像内において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記客体抽出対象映像用の空間隣接性行列と、
前記質疑映像において設定された分割領域の間の距離値を求め、求めた距離値に基づいて、前記質疑映像において設定された分割領域の各々が互いに隣接しているか否かを示す行列式である前記質疑映像用の空間隣接性行列とをそれぞれ生成する段階と、
（ｄ３）前記客体抽出対象映像用の空間隣接性行列と、前記質疑映像用の空間隣接性行列と、前記式（４）により求めた距離値とに基づいて、前記質疑映像の分割領域と、前記客体抽出対象映像の分割領域との対応関係を求める段階と、
（ｄ４）前記対応関係に基づいて、前記質疑映像の分割領域と前記客体抽出対象映像の分割領域との類似度を求め、前記客体抽出対象映像における客体領域を決定する段階とを含む
ことを特徴とする客体抽出方法。
前記（ｄ２）段階に関し、
前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域の各々について、各分割領域を識別するラベル番号が割り当てられており、
前記質疑映像用の空間隣接性行列と前記客体抽出対象映像の空間隣接性行列では、各分割領域が互いに隣接しているか否かが、隣接している場合には第１の値で、隣接していない場合は第２の値で示されている
ことを特徴とする請求項１３に記載の客体抽出方法。
前記（ｄ３）段階では、
前記質疑映像において設定された分割領域と前記客体抽出対象映像の分割領域のうち前記候補客体位置を含む分割領域との対応関係を示す行列式である比較行列を、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列とから、前記質疑映像用の空間隣接性行列と前記客体抽出対象映像用の空間隣接性行列に含まれる前記分割領域の数に応じて生成する
ことを特徴とする請求項１３に記載の客体抽出方法。
前記比較行列は、前記質疑映像において設定された分割領域と、前記客体抽出対象映像の分割領域の中で前記候補客体位置を含む分割領域であって、前記式（４）で求めた距離値が予め決められた閾値よりも小さい値となる分割領域と、の対応関係を示す行列式である
ことを特徴とする請求項１５に記載の客体抽出方法。
前記（ｄ３）段階では、
前記客体抽出対象映像において設定された分割領域と、前記質疑映像において設定された分割領域の各々との類似性を、前記式（４）で求めた前記距離値に関連付けて表示する行列式である距離行列を生成する
ことを特徴とする請求項１３に記載の客体抽出方法。
前記距離行列は、前記質疑映像において設定された分割領域に割り当てられたラベル番号を行の要素として、前記客体抽出対象映像において設定された分割領域に割り当てられたラベル番号を列の要素として構成される行列である
ことを特徴とする請求項１７に記載の客体抽出方法。
前記比較行列では、前記客体抽出対象映像用の空間隣接性行列における隣接性と、前記質疑映像用の空間隣接性行列における隣接性とが一致する場合には、第１の値で、一致しない場合には第２の値で示されており、
前記（ｄ４）段階では、前記比較行列において前記第１の値を有する要素の数を、前記比較行列に含まれる要素の総数から、重複する要素の数を減算した数で除算することにより、前記類似度を求める
ことを特徴とする請求項１５に記載の客体抽出装置。
請求項１０ないし請求項１９のうちのいずれか一項に記載の方法をコンピュータで実行させるためのプログラムを記録した、コンピュータで読み出しうる記録媒体。