JP2002288658A

JP2002288658A - 領域分割された映像の領域特徴値整合に基づいた客体抽出装置およびその方法

Info

Publication number: JP2002288658A
Application number: JP2002012131A
Authority: JP
Inventors: Toshoku Rin; 斗植林; Shoyo Kin; 昌容金; Chien Kin; 智淵金; Sang-Kyun Kim; 相均金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-20
Filing date: 2002-01-21
Publication date: 2002-10-04
Anticipated expiration: 2022-01-21
Also published as: KR100450793B1; CN1223969C; EP1233374A2; DE60235591D1; KR20020062557A; EP1233374A3; EP1233374B1; JP3740065B2; US6990233B2; US20020136449A1; CN1384464A

Abstract

(57)【要約】【課題】領域分割された映像の領域特徴値整合に基づ
いた客体抽出装置およびその方法を提供する。【解決手段】映像から客体を抽出する客体抽出装置で
あって、前記客体を含む質疑映像および前記質疑映像に
含まれた前記客体が抽出される客体抽出対象映像が入力
される映像入力部と、画素単位の色特徴整合により前記
客体抽出対象映像における前記客体の位置を判定する客
体位置判定部と、色またはテクスチャーを含む映像特徴
値を利用して前記質疑映像と前記客体抽出対象映像とを
各々領域分割する映像分割部と、領域分割された質疑映
像の領域と領域分割された客体抽出対象映像の領域との
整合を色またはテクスチャー特性値を利用して行い、整
合の結果得られた整合領域間の空間隣接性の類似度を利
用して最終客体領域を決定する客体領域決定部とを含む
とことを特徴とする客体抽出装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、抽出される客体の
映像が質疑（参照）映像として提供された条件の下で、
抽出される客体を含む客体抽出対象映像（静止映像、ビ
デオシーケンス）から、客体の領域情報を抽出する方
法、およびその装置に関する。より詳細には、客体抽出
対象映像の中に含まれる客体の位置を検出するために客
体抽出対象映像を処理し、空間配置の類似度、テキスチ
ャー特性値、および色特性値に基づいて客体位置である
と決定された客体抽出対象映像内の特定の領域から構成
される映像と質疑（参照）映像とを比較して、客体の領
域情報を抽出する方法、およびその装置に関する。

【０００２】

【従来の技術】映像（画像）の中から客体を抽出する方
法は、客体の動きを利用する方法、客体領域特徴値を利
用する方法、映像編集ソフトウェアを利用した手作業に
よる方法の３つに大別できる。

【０００３】客体の動きを利用して映像から客体を抽出
する方法は、連続映像における差（違い）を計算して動
き領域を抽出する方法、背景領域の除去により抽出する
方法、運動解析により抽出する方法に分けられる。連続
映像における差（ｆｒａｍｅｄｉｆｆｅｒｅｎｃｅ：
ＵＳ５５００９０４、ＵＳ５１０９４３５）を利用する
方法は、映像の中の連続したフレーム毎の輝度差を計算
して動きを抽出する方式であり、これは基本的な運動領
域抽出方式である。

【０００４】背景領域除去（ｂａｃｋｇｒｏｕｎｄｓ
ｕｂｔｒａｃｔｉｏｎ：ＵＳ５７４８７７５）による方
法は、映像特徴変数の時間的（一時的）変化を利用し
て、背景映像を復元し、復元映像とオリジナル（元）映
像との差から客体領域を抽出する方式である。

【０００５】運動解析（ｍｏｔｉｏｎａｎａｌｙｓｉ
ｓ：ＵＳ５８６２５０８）による方法は、動いている客
体の運動方向と速度とを計算して運動領域を抽出する方
式である。この方式は、背景構造や照明状態が変化した
場合であっても対応できる最も一般的な運動領域抽出方
式である。この動きを利用した領域抽出は、連続的な映
像において、客体の動きが十分にある場合に使用でき
る。しかし、静止映像や客体の動きが少ない映像あるい
は運動速度が非常に大きい映像には、適用し難いという
問題点がある。

【０００６】客体領域の特徴値を利用する方法は、テン
プレート整合（ｔｅｍｐｌａｔｅｍａｔｃｈｉｎｇ）、
多重閾値分割（ｍｕｌｔｉ−ｖａｌｕｅｔｈｒｅｓｈ
ｏｌｄｂａｓｅｄｓｅｇｍｅｎｔａｔｉｏｎ）、特
徴値整合（ｆｅａｔｕｒｅｍａｃｈｉｎｇ）による方法
に分類できる。

【０００７】テンプレート整合（ｔｅｍｐｌａｔｅｍ
ａｔｃｈｉｎｇ：ＵＳ５９４３４４２）は、抽出しよう
とする客体はテンプレート映像として定義され、検索対
象の映像の中から、正規化相関値が最大値になる領域を
客体領域として抽出する。しかしながら、客体の大きさ
が変化する場合や客体が回転する場合、正規化相関値が
敏感に反応して抽出性能が低下してしまう。

【０００８】多重閾値（ｍｕｌｔｉ−ｖａｌｕｅｔｈ
ｒｅｓｈｏｌｄｓ：ＵＳ５１３８６７１）を使用して客
体を抽出する方法は、映像の輝度値や色値の分布を多重
閾値を使用して複数の領域に分割し、各々の領域を客体
領域と見なす方法である。この方法の場合、背景領域と
客体領域とを正確に区分（区別）しづらいという問題点
がある。

【０００９】また、映像編集ソフトウェアを利用した手
作業による方法は、領域の区分を人の手で直接行う方法
である。この方法の場合、客体抽出の正確度は高いが、
作業時間が長く要するので、連続映像や多映像を含むデ
ータベースイメージの編集には適していないという問題
点がある。

【００１０】

【発明が解決しようとする課題】本発明が解決しようと
する技術的課題は、異なる映像における分割された領域
同士の特性値整合を行って、客体を抽出する方法および
その装置を提供することである。本発明が解決しようと
する他の技術的課題は、上記方法をコンピュータで実行
させるためのプログラムを記録した、コンピュータで読
み出しうる記録媒体を提供することである。

【００１１】

【課題を解決するための手段】上記課題を解決するため
の本発明にかかる領域分割された映像の領域特徴値整合
に基づいた客体抽出装置は、客体を含む質疑映像および
前記質疑映像に含まれた前記客体が抽出される客体抽出
対象映像が入力される映像入力部と、画素単位の色特徴
整合により前記客体抽出対象映像における前記客体の位
置を判定する客体位置判定部と、色またはテクスチャー
を含む映像特徴値を利用して前記質疑映像と前記客体抽
出対象映像とを各々領域分割する映像分割部と、領域分
割された質疑映像の領域と領域分割された客体抽出対象
映像の領域との整合を色またはテキスチャー特性値を利
用して行い、整合の結果得られた整合領域間の空間隣接
性の類似度を利用して最終客体領域を決定する客体領域
決定部とを含むとことを特徴とする客体抽出装置に関す
るものである（請求項１）。

【００１２】なお、前記客体位置判定部は、前記質疑映
像および前記客体抽出対象映像に対して各々色ヒストグ
ラムを計算する色ヒストグラム計算部と、前記質疑映像
および客体抽出対象映像に対する色ヒストグラムをヒス
トグラム値比に代える映像投射部と、前記ヒストグラム
値比に代えられた客体抽出対象映像から候補客体位置を
判定する候補客体位置判定部とを含むことが好ましい
（請求項２）。

【００１３】また、好ましくは前記色ヒストグラム計算
部は、前記質疑映像および客体抽出対象映像に対して量
子化された色空間での画素数を計算する（請求項３）。

【００１４】さらに、好ましくは、記候補客体位置判定
部は、前記質疑映像に含まれた客体を取り囲む最小限の
境界ボックスを基準に決定されたマスクの値と前記ヒス
トグラム値比に代えられた客体抽出対象映像とを畳み込
み、その結果値が所定の基準値以上になる前記客体抽出
対象映像内の画素と前記質疑映像内の画素間の色距離差
を求めて前記色距離差の平均値が小さな画素順に候補客
体位置を判定する（請求項４）。

【００１５】また、好ましくは、前記映像分割部は、色
またはテクスチャーを含む前記映像特徴値を利用して前
記質疑映像と前記客体抽出対象映像とを各々領域分割す
る（請求項５）。

【００１６】さらに、前記客体領域決定部は、前記映像
分割部で分割された質疑映像を基準に前記客体位置での
分割された客体抽出対象領域に対して少なくとも色とテ
クスチャーを含む映像特徴値を利用して領域を整合し、
前記整合結果によって客体領域の存在の有無を判断する
領域整合部と、前記分割された質疑映像および前記客体
領域が存在すると判断された分割された客体抽出対象映
像についての整合結果によって映像領域の空間隣接性行
列を各々計算する隣接性行列計算部と、前記隣接性行列
計算部で計算された隣接性行列を利用して前記質疑映像
および前記客体抽出対象映像間の対応領域を検出する対
応領域検出部と、前記対応領域に基づいて前記二つの映
像間の類似度を計算して最終客体領域を決定する類似度
計算部とを含むことが好ましい（請求項６）。

【００１７】また、好ましくは、前記領域整合部は、前
記分割された客体抽出対象映像で、客体が存在する所定
の位置に画素を含み、前記質疑映像の客体を取り囲む領
域によって決定されたマスクと接する全分割された領域
を検出し、前記検出された領域と前記質疑映像の分割さ
れた領域間の各々の類似度を計算して前記客体領域の存
在有無を判断する（請求項７）。

【００１８】さらに、好ましくは、前記隣接性行列計算
部は、前記分割された質疑映像および前記質疑映像の客
体を含む分割された客体抽出対象映像に各々ラベル番号
を割り当て、前記ラベル番号に該当する領域が互いに隣
接しているかどうかに関する情報を隣接性行列で示し、
前記行列の各要素は互いに隣接する場合に所定の第１値
を、隣接しない場合には所定の第２値を有する（請求項
８）。

【００１９】また、好ましくは、前記対応領域検出部
は、前記隣接性行列を利用して前記二つの映像間の対応
領域を比較行列で示し、前記質疑映像の分割された領域
の数が客体抽出対象領域の分割された領域の数より大き
い場合と小さな場合によって比較行列を別途に求める
（請求項９）。

【００２０】また、好ましくは、前記対応領域検出部
は、前記隣接性行列を利用して前記二つの映像間の対応
領域を比較行列で示し、前記比較行列は前記質疑映像の
ラベル番号に該当する領域と最も近い映像特徴値を有す
る客体抽出対象映像の分割された領域に限って求められ
る（請求項１０）。

【００２１】さらに、好ましくは、前記対応領域検出部
は、距離行列を利用して前記最も近い映像特徴値を有す
る客体抽出対象映像の分割された領域を決定し、二つの
映像間の対応領域によって比較行列を再構成する（請求
項１１）。

【００２２】また、好ましくは、前記距離行列は、前記
質疑映像のラベル番号を行の値とし、前記客体抽出対象
映像のラベル番号を列の値とする行列で、前記質疑映像
と前記客体抽出対象映像との間に対応するラベル番号に
該当する領域間の距離をその行列の要素とした（請求項
１２）。

【００２３】さらに、好ましくは、前記類似度計算部
は、前記類似度を前記比較行列での上の三角行列内の第
１値を有する要素の数を前記上の三角行列全体の要素の
数で割った方式で求める（請求項１３）。

【００２４】また、本発明に係る映像から客体を抽出す
る方法は、（ａ）客体を含む質疑映像およびその質疑映
像に含まれた客体を抽出しようとする対象映像の客体抽
出対象映像を入力される段階と、（ｂ）画素単位の色特
徴整合によって前記客体抽出対象映像内で客体の位置を
判定する段階と、（ｃ）色またはテクスチャーを含む映
像特徴値を利用して前記質疑映像と前記客体抽出対象映
像とを各々領域分割する段階と、（ｄ）前記分割された
質疑映像内に含まれた客体を基準に、前記分割された客
体抽出対象映像のうち前記（ｂ）段階で判定された客体
位置に該当する分割された客体抽出対象領域に対して色
またはテクスチャー特徴値を利用して領域を整合し、前
記整合された領域間の空間隣接性の類似度を利用して最
終客体領域を決定する段階とを含む（請求項１４）。

【００２５】尚、好ましくは、前記（ｂ）段階は、（ｂ
１）前記質疑映像および前記客体抽出対象映像に対して
各々色ヒストグラムを計算する段階と、（ｂ２）前記質
疑映像および客体抽出対象映像に対する色ヒストグラム
をヒストグラム値比に代える段階と、（ｂ３）前記ヒス
トグラム値比に代えられた客体抽出対象映像から候補客
体位置を判定する段階とを含む（請求項１５）。

【００２６】さらに、好ましくは、前記（ｂ１）段階
は、前記質疑映像および客体抽出対象映像に対して、量
子化された色空間上のビンに含まれた画素数を計算する
（請求項１６）。

【００２７】また、好ましくは、前記（ｂ２）段階は、
比ヒストグラムを、前記質疑映像に対するビンのうち一
つに含まれる画素数を前記質疑映像に対する全体ビンに
含まれた画素数で割った比で決定する（請求項１７）。

【００２８】なお、好ましくは、前記前記（ｂ２）段階
は、比ヒストグラムを、前記質疑映像に対するビンと前
記客体抽出対象映像に対するビンの比で決定する（請求
項１８）。

【００２９】また、好ましくは、前記（ｂ３）段階は、
（ｂ３−１）前記質疑映像に含まれた客体を取り囲む最
小限の境界ボックスを基準に決定されたマスク値および
前記ヒストグラム値比に代えられた客体抽出対象映像を
畳み込む段階と、（ｂ３−２）前記畳み込んだ結果値が
所定の基準値以上になる前記客体抽出対象映像内の画素
と前記質疑映像内の画素間の色距離差を求めて前記色距
離差の平均値を計算する段階と、（ｂ３−３）前記色距
離差の平均値が小さな画素順に一つ以上の候補客体位置
を判定する段階とを含む（請求項１９）。

【００３０】さらに、好ましくは画素位置（ｘ_p、ｙ_p）
での前記マスクは次の数式を利用して定義される円であ
り、ここで、ｂｌは前記境界ボックスの長い辺の長さであ
り、ｂｓは前記境界ボックスの短い辺の長さであり、α
は大きさを調節するための変数である（請求項２０）。

【００３１】さらに、好ましくは、前記色距離差の平均
は次の数式によって定義され、ここで、Ｎは前記境界ボックス内の有効画素の数を意味
し、添字ｑは質疑映像を、ｄは客体抽出対象映像を各々
意味する（請求項２１）。

【００３２】また、好ましくは、前記（ｄ）段階は、
（ｄ１）前記（ｃ）段階で分割された質疑映像を基準に
前記客体位置での分割された客体抽出対象領域に対して
色またはテクスチャーを含む映像特徴値を利用して領域
を整合し、前記整合結果によって客体領域の存在有無を
判断する段階と、（ｄ２）前記分割された質疑映像およ
び前記客体領域が存在すると判断された分割された客体
抽出対象映像についての整合結果によって映像領域の空
間隣接性行列を各々計算する段階と、（ｄ３）前記（ｄ
２）段階で計算された隣接性行列を利用して前記二つの
映像間の対応領域を検出する段階と、（ｄ４）前記対応
領域に基づいて前記二映像間の類似度を計算して最終客
体領域を決定する段階とを含む（請求項２２）。

【００３３】また、好ましくは、前記（ｄ１）段階は、
（ｄ１−１）前記分割された客体抽出対象映像で、客体
が存在する所定の位置に画素を含み、前記質疑映像の客
体を取り囲む領域によって決定されたマスクと出合う全
分割された領域を検出する段階と、（ｄ１−２）前記検
出された領域と前記質疑映像の分割された領域間の各々
の色／テクスチャー距離差を計算して前記客体領域の存
在有無を判断する段階とを含む（請求項２３）。

【００３４】さらに、好ましくは、前記色／テクスチャ
ー距離差は色またはテクスチャーを含む映像特徴値空間
での二つの領域間の距離を利用し、前記距離は次の数式
を利用して計算され、ここでＤ_c（ｘ，ｙ）とＤ_t（ｘ，ｙ）は各々色特徴値空
間とテクスチャー特徴値空間で二つの領域ｘ、ｙ間の距
離を示し、ｗ_cとｗ_tは各々の距離値に賦課される加重係
数である（請求項２４）。

【００３５】さらに、好ましくは、前記（ｄ２）段階
は、前記分割された質疑映像および前記質疑映像の客体
を含む分割された客体抽出対象映像に各々ラベル番号を
割り当て、前記ラベル番号に該当する領域が互いに隣接
しているかどうかに関する情報を隣接性行列で表し、前
記行列の各要素は互いに隣接する場合に所定の第１値
を、隣接しない場合に所定の第２値を有する（請求項２
５）。

【００３６】さらに、好ましくは、前記（ｄ３）段階
は、前記隣接性行列を利用して前記二つの映像間の対応
領域を比較行列で示し、前記質疑映像の分割された領域
の数が客体抽出対象領域の分割された領域の数より大き
い場合と小さな場合によって比較行列を別途に求める
（請求項２６）。

【００３７】また、好ましくは、前記（ｄ３）段階は、
前記隣接性行列を利用して二つの映像間の対応領域を比
較行列で示し、ここで比較行列は質疑映像のラベル番号
に該当する領域と最も近い映像特徴値を有する客体抽出
対象映像の分割された領域に限って求められる（請求項
２７）。

【００３８】さらに、好ましくは、前記（ｄ３）段階
は、距離行列を利用して前記最も近い映像特徴値を有す
る客体抽出対象映像の分割された領域を決定し、前記二
つの映像間の対応領域によって比較行列を再構成する
（請求項２８）。

【００３９】なお、好ましくは、前記距離行列は、前記
質疑映像のラベル番号を行の値とし、前記客体抽出対象
映像のラベル番号を列の値とする行列で、前記質疑映像
と前記客体抽出対象映像間に対応するラベル番号に該当
する領域間の距離をその行列の要素とした（請求項２
９）。

【００４０】さらに、好ましくは、前記（ｄ４）は、前
記隣接性行列の各要素が互いに隣接する場合には第１値
を有し、隣接しない場合には第２値を有する時、前記類
似度を前記比較行列での上の三角行列内の第１値を有す
る要素の数を前記上の三角行列全体の要素の数で割った
方式で求める（請求項３０）。

【００４１】また、好ましくは、前記（ｄ４）段階
で、前記類似度は次の数式を利用して計算され、ここで、隣接性行列の各要素が互いに隣接する場合に前
記第１値を、隣接しない場合に前記第２値を有する時、
Ｅ_uは前記比較行列の上の三角行列内の前記第１値の数
を、Ｍ_uは前記上の三角行列全体の要素の数を各々示す
（請求項３１）。

【００４２】また、本発明は、請求項１４ないし請求項
３１のうちいずれか一項の方法をコンピュータで実行さ
せるためのプログラムを記録した、コンピュータで読み
出しうる記録媒体に関するものである（請求項３２）。

【００４３】

【発明の実施の形態】以下、添付した図面を参照して本
発明の望ましい実施形態について詳細に説明する。

【００４４】図１は、本発明にかかる客体抽出装置の望
ましい実施形態のブロック図である。図１に示すよう
に、客体抽出装置は、映像入力部１１０と、客体位置判
定部１２０と、映像分割部１３０と、客体領域決定部１
４０とを含む。前記客体位置判定部１２０は、色ヒスト
グラム計算部１２１と、映像投射部１２３と、候補客体
位置判定部１２５とを含んでも良い。また、前記客体領
域決定部１４０は、領域整合部１４１と、隣接性行列計
算部１４３と、対応領域検出部１４５と、類似度計算部
１４７とを含んでも良い。

【００４５】図２は、本発明にかかる客体抽出方法の望
ましい実施形態のフローチャートである。図２を参照し
ながら図１に示した客体抽出装置の動作を詳細に説明す
る。

【００４６】はじめに、映像入力部１１０に、客体を含
む質疑（参照）映像と、客体抽出対象映像が入力される
（２１０段階）。ここで質疑（参照）映像とは、抽出し
ようとする客体を含む映像である。この質疑（参照）映
像は、抽出しようとする客体をブルースクリーンなどを
背景として撮影する、または動映像（画像）の任意の一
映像フレームにおいて背景部分と客体部分とを映像編集
機などを利用して分離する、などの方法により得ること
ができる。この場合、客体のある領域（部分）以外の領
域、すなわち背景部分の画素の値は、「０」（ｂｌａｃ
ｋ）として処理される。また、客体抽出対象映像とは、
任意の一映像、または動映像（画像）の中から場面検出
技法などを利用して選択された代表フレーム映像をい
う。

【００４７】客体抽出対象映像が動映像（画像）におけ
る代表フレーム映像である場合、当該代表フレーム映像
は、抽出しようとする客体を含んでいても良く、含んで
いなくても良い。質疑（参照）映像および客体抽出対象
映像は、本発明の他の段階を始める前に備えておく必要
がある。

【００４８】次に、客体位置判定部１２０は、客体抽出
対象映像内における客体の位置を特定するために、質疑
（参照）映像と客体抽出対象映像の画素単位ごとに色特
徴の整合（ｃｏｌｏｒｆｅａｔｕｒｅｍａｔｃｈｉ
ｎｇ）を行う（２２１〜２２５−３段階）。

【００４９】具体的には、色ヒストグラム計算部１２１
が、選択された色空間と量子化水準を用いて、質疑（参
照）映像と客体抽出対象映像について色ヒストグラム値
を求める（２２１段階）。ここで、色ヒストグラム値
は、量子化された色空間内の各ビン（ｂｉｎ）に含まれ
る画素数を意味する。

【００５０】図３は、本発明で使用する量子化された色
空間内におけるビンの例を示している。この図におい
て、色空間は赤色（Ｒ）軸、緑色（Ｇ）軸、青色（Ｂ）
軸からなる３次元空間で表現される。図３の各軸は、色
空間を一定の体積を有する立方体に量子化するために、
各軸ごとに５個の区間（０から始まって、５１、１０
２、１５３、２０４、２５５という値ごと）に分割され
る。ここでビンとは、以上のように量子化された３次元
色空間内の一区間（例えば、図３で斜線をつけた部分
（四面体））を意味する。

【００５１】各ビンに含まれた画素数Ｃ_miが、臨界画素
数（閾値）以下の場合、ビン内の画素を雑音（ノイズ）
と見なして、当該ビンの色ヒストグラム値を「０」と設
定する。

【００５２】臨界画素数（閾値）は、ｔｈｒＰｉｘｅｌ
＝ＳＵＭ（Ｃ_mi）／ｎと定義できる。ここで、ｉは
０、...、ｎ−１の値を有するビン番号であり、ｎはビ
ンの数、Ｃ_miは質疑（参照）映像内のｉ番目のビンに含
まれた画素の数である。

【００５３】この場合、映像内での出現頻度が少ない色
値を有する画素は、雑音（ノイズ）と見なされる。また
背景色（画素値が「０」である）と見なされた領域に対
する色ヒストグラム値は、「０」として処理し、これに
より最終色ヒストグラム値が決定される。

【００５４】本実施の形態ではＲＧＢ色空間が使われ、
８×８×８の量子化が用いられる。しかしながら、本発
明は、特定の色空間や量子化に限定されるものではな
い。ＹＣｂＣｒ、Ｌ＊ｕ＊ｖなどの他の色空間を適宜選
択使用することが可能であり、量子化も４×４×４ある
いは１６×１６×１６など他の水準を使用できる。この
ように他の色空間を選択したり、他の量子化水準を使用
する場合における結果の変化は微細である。

【００５５】映像投射部１２３は、ヒストグラム値比を
計算し、客体抽出対象映像の各画素値をヒストグラム値
比と置換する（２２３段階）。これが色ヒストグラムを
利用した映像投射（射影）（ｉｍａｇｅｐｒｏｊｅｃ
ｔｉｏｎ）である。ヒストグラム値比は次の２つの方法
で計算できる。その最初の方法は、質疑（参照）映像の
ｉ番目ビンに含まれる画素の数を、質疑（参照）映像内
の全ての有効画素数で割った値すなわち、Ｒ［Ｃｉ］＝
［Ｃ_mi／ＳＵＭ（Ｃ_mi）＿eｆｆeｃｔｉｖｅ］で決定す
る方法である。ここで、ＳＵＭ（Ｃ_mi）＿eｆｆeｃｔｉ
ｖｅはｉ番目のビンに含まれた有効画素数を意味する。

【００５６】二番目の方法は、質疑（参照）映像のビン
の画素数を客体抽出対象映像内のビンであって質疑（参
照）映像のビンに対応するビンに含まれる画素数で割っ
た値と、１のうち小さいほうの値をヒストグラム値比と
する方法である。すなわち、ヒストグラム値比は、Ｒ
［Ｃｉ］＝ｍｉｎ［（Ｃ_mi／Ｃ_di）、１］で定義され
る。ここで、Ｒ［Ｃｉ］はｉ番目のビンに対応する色を
有する画素の比（割合）を意味する。客体抽出対象映像
の各画素の色値に対応するヒストグラム値比と、画素値
とを置換する、これにより、映像投射がなされる。

【００５７】候補客体位置判定部１２５は、ヒストグラ
ム値比とともに客体抽出対象映像における候補客体の位
置を画素の値として決定する（２２５−１段階）。具体
的には、質疑（参照）映像内の客体の映像領域を取り囲
む最小限の四角形、すなわち境界ボックス（枠）を求め
る。各画素ごとに客体の存在可能性に関する尺度（存在
確率）を計算するために、この境界ボックスの大きさを
基準として決定される特定の大きさを有するマスクを、
ヒストグラム値比を有する客体抽出対象映像に対して畳
み込みをする。その計算した尺度の値が基準値以上であ
れば、相当する画素の位置を候補客体位置と判定する。

【００５８】ここで、各画素（ｘ_p、ｙ_p）の尺度を計算
するために使われるマスクＷは、半径の大きさがＷＲで
ある円となる。このマスクＷは、下記式１のように定義
される。

【００５９】

【数１】

【００６０】ここでＷＲは境界ボックスにより規定され
る値であり、ｂｌは境界ボックスの長辺の長さ、ｂｓは
境界ボックスの短辺の長さであり、αは大きさを調節す
るための変数である。各画素内に客体が存在する可能性
は「ｌｏｃ」と表現され、ｌｏｃ（ｘ、ｙ）＝Ｗ＊ｐ
（ｘ、ｙ）と定義される。ここで、ｐ（ｘ、ｙ）は、画
素（ｘ、ｙ）におけるヒストグラム値比であり、＊は畳
み込みを意味する。ｌｏｃ（ｘ、ｙ）の最大値は２５５
というように正規化される。ｌｏｃ値が基準値以上であ
ｒｕ場合、画素（ｘ、ｙ）の位置は候補客体位置として
決定される。前記式１において、変数αを調節すること
で、客体の多重位置を決定できる。すなわち、抽出しよ
うとする客体の大きさが、質疑（参照）映像と客体抽出
対象映像とで異なる場合、その大きさ変化が認識するこ
とができる。

【００６１】２２５−１段階において候補客体の位置が
決定されると、テンプレート整合を行うために、質疑
（参照）映像内の客体領域の一部または全部を含む特定
大きさの四角形領域内にある画素と、客体抽出対象映像
内の候補客体位置の周りの特定大きさの四角形領域にあ
る画素との間の色距離差を求める（２２５−２段階）。

【００６２】少なくとも一つの客体の位置が、平均色距
離差を元に決定される（２２５−３段階）。

【００６３】具体的には、質疑（参照）映像内の客体領
域を囲むマスク内の画素と、客体抽出対象映像内の候補
客体位置判定部１２５により候補客体位置と決定された
位置にある画素のマスクに含まれる画素との間の平均色
距離差が最小となる場合、候補客体位置は客体位置とし
て決定される。そして、２番目に小さい値となった場
合、相当する候補客体位置は、他の客体の位置として決
定される。このようにして、少なくとも一つの客体の位
置が決定される。ここで、マスクは、質疑（参照）映像
内の客体境界ボックスのサイズに基づいて決定される任
意の大きさ、例えば縦横の大きさがｂｓである、を有す
る四角い領域である。

【００６４】質疑（参照）映像内の画素と、客体抽出対
象映像の画素との間の平均色距離差（ＡＤ_pixelcolor）
は、下記式２のように定義できる。

【００６５】

【数２】

【００６６】ここで、Ｎは、Ｒ_q＝Ｇ_q＝Ｂ_q＝０となら
ない有効画素の数を意味し、Ｒ_q＝Ｇ _q＝Ｂ_q＝０となる
画素は計算から除外される。下添字ｑは質疑（参照）映
像を、ｄは客体抽出対象映像をそれぞれ意味する。

【００６７】一方、映像分割部１３０は、映像入力部１
１０を介して入力された質疑（参照）映像と客体抽出対
象映像とを、色やテクスチャーの映像特徴値を利用し
て、複数の領域にそれぞれ分割する（２３０段階）。こ
の映像を分割する方法は特に限定されるものではなく、
従来公知の方法を使用して行える。この映像を分割する
方法の好ましい一態様が図５に示されている。図５
（ａ）は、元の映像を、図５（ｂ）は領域分割された映
像を示す。図５（ｂ）に示すように、分割された領域に
はラベル番号が割り当てられている。

【００６８】客体領域決定部１４０は、質疑（参照）映
像の分割された全ての領域と、客体抽出対象映像の分割
された領域の中で前記客体位置判定部１２０により客体
位置として決定された位置に含まれるすべての領域との
領域整合を行う。そして整合された領域における空間隣
接性の類似度を利用して最終客体領域を決定する（２４
１段階〜２４９段階）。

【００６９】具体的には、領域整合部１４１は、客体抽
出対象映像内の客体位置として決定された位置を中心と
するマスクＷに接する分割された領域を検出し、これと
質疑（参照）映像の分割された全ての領域との間の類似
度を計算して領域整合を行う（２４１段階）。類似度が
所定値よりも小さい場合、客体抽出対象映像内の検出さ
れた領域を、客体領域として決定する。一方、類似度が
所定値よりも大きい場合、相当する検出領域を、客体領
域から除外する。ここで、類似度は、色−テクスチャー
特徴値空間における距離Ｄ_CTを用いて決定される。な
お、距離Ｄ_CTは、下記式３のように定義される。

【００７０】

【数３】

【００７１】ここで、Ｄ_c（ｘ、ｙ）は、色特徴空間に
おける２つの領域ｘ、ｙ間の距離であり、Ｄ_t（ｘ、
ｙ）は、テクスチャー特徴値空間における２つの領域
ｘ、ｙ間の距離を示す。ｗ_cとｗ_tは各々の距離値に付加
される加重係数である。

【００７２】Ｄ_c（ｘ、ｙ）とＤ_t（ｘ、ｙ）とを計算す
る過程の一例を以下に詳細に説明する。分割された各領
域の色特徴値は下記式４のように定義される。ここで、
輝度（Ｂ、Ｂｒｉｇｈｔｎｅｓｓ）、色相（Ｈ、Ｈｕ
ｅ）、彩度（Ｓ、Ｓａｔｕｒａｔｉｏｎ）である。

【００７３】

【数４】

【００７４】ここでｒ、ｇ、ｂは、入力された領域の平
均色値であり、ｕ＝ｍｉｎ（ｒ，ｇ，ｂ）である。ＢＨ
Ｓ色空間上の距離は、下記式５で表される色空間内の距
離Ｄｃ（ｘ，ｙ）として使用できる。

【００７５】

【数５】

【００７６】ここでＢ（ｘ）、Ｈ（ｘ）、Ｓ（ｘ）は、
色空間内の一点における輝度、色相、彩度をそれぞれ意
味し、Ｋ_B、Ｋ_H、Ｋ_Sは、それぞれ輝度、色相、彩度の
加重係数である。

【００７７】テクスチャー特徴値空間は、多重大きさお
よび多重方向のテクスチャー特徴値を利用して形成され
る。各特徴値は、各画画素ごとの多重方向の局所変動ｖ
と局所振動ｇとをそれぞれ合算することによって得られ
る。映像の輝度値Ｂは、このようなテクスチャー特徴値
を抽出するのに使用される。

【００７８】テキスチャー特性値を求める際に、長さ２
Ｌである画素の集合を、画素（ｍ、ｎ）を中心として確
度α_k＝ｋπ／Ｋ（ｋ＝０、...、Ｋ−１）回転させる。
ここで、Ｌについて図４を参照しながら説明する。

【００７９】図４は、画素（ｍ、ｎ）を中心にした回転
と、Ｌの意味とを説明するための図面である。図４の黒
色に塗りつぶした部分は、計算しようとするテキスチャ
ー特性値の画素（ｍ，ｎ）である。画素（ｍ，ｎ）の上
下左右に位置する各画素は、ハッチング線で示してい
る。ここでＬは４である。対角線上に示された画素群
は、４つの画素を画素（ｍ，ｎ）を中心として４５度回
転させた際の様子を示している。

【００８０】ｙ_i（−Ｌ≦ｉ≦Ｌ）は、このように均一
に分布された配列画素の中の一個の画素の輝度値Ｂを示
す。ここで、ｄ_i＝ｙ_i+1−ｙ_iは、この配列画素の中で
隣り合った画素の輝度値の差を示し、ｗ_i＝ｕｃｏｓ
（ｉπ／（２Ｌ＋１））はコサイン加重関数となる。こ
こで係数ｕは、を形成するための値として使われる。これを利用して得
られる加重変動の上限および下限は、次の数式６の通り
である。

【００８１】

【数６】

【００８２】ここで、上記式６の二つの値のうち小さい
方の値を局所変動値ｖとして選択する。すなわち、局所
変動値ｖは、下記式７のように定義される。

【００８３】

【数７】

【００８４】局所振動値ｇは、長さＬ（−Ｌ≦ｉ≦Ｌ）
の配列画素に含まれるｄ_iの中で、その方向（ｓｉｇ
ｎ）が変わるとｄ_iの振幅の大きさが所定の規定値を超
えるｄ_iの数である。

【００８５】各画素のテキスチャー特性値は、各画素の局所変動値と局所振動値とを乗算すること
によって求められる。

【００８６】求められたテキスチャー特徴値をさらに均
一にするために、各テキスチャー特性値は、サイズがｈ
である枠の尺度値に平坦化され、そして下記式８に示す
変換式を利用して双曲線正接（ｈｙｐｅｒｂｏｌｉｃ
ｔａｎｇｅｎｔ）変換処理される。これにより、高いテ
クスチャー特徴値は小さく、低いテクスチャー特徴値は
大きくなる。

【００８７】

【数８】

【００８８】テクスチャーは大きさに依存する特徴値で
あるために、映像の大きさを、異なる周波数で毎回１／
２づつＳ回縮める。各画素のテクスチャー特徴値は、映
像の大きさを縮める必要があるときはいつでも、この方
法に従って求めることが出来る。このようにして求めら
れるテクスチャー特徴値は、下記式９のように表され
る。

【００８９】

【数９】

【００９０】式９によると、各画素のテクスチャー特徴
値の数はＫＳである。各領域の各画素のＫＳ個のテクス
チャー特徴値は、異なる領域の画素間のテキスチャー距
離を求めるのに利用される。ここで、テキスチャー距離
は下記式１０で表される。

【００９１】

【数１０】

【００９２】ここでｘ，ｙは、テクスチャー特性空間内
の二点を意味する。とは、それぞれｘとｙのテキスチャー特性値であり、Ｗ^s
はテクスチャーの多重大きさに付加される加重係数であ
る。

【００９３】領域整合部１４１は、客体抽出対象映像内
に少なくとも一つの客体領域が存在するか否かを、計算
された類似度に基づいて判断する（２４２段階）。客体
領域が存在しないと判断された場合、客体抽出対象映像
内に客体領域が含まれないと判断し、終了する。一方、
すくなくとも一つの客体領域が存在すると判断された場
合、客体抽出対象映像が客体領域を含むと判断する。

【００９４】、続いて、隣接性行列計算部１４３は、分
割された領域を有する質疑（参照）映像と、領域整合を
行って得られた映像とを受信し、入力された映像のそれ
ぞれの分割された領域について空間隣接性行列を計算す
る（２４３段階）。ここで、領域整合を行って得られた
映像とは、客体抽出対象映像の分割された領域の中で客
体領域を含むと見なされた領域と、質疑（参照）映像の
分割された領域とに領域整合を行って得られた映像との
ことである。

【００９５】分割された領域にはラベル番号がそれぞれ
割り当てられており、分割された領域の中の隣接性は行
列で示されている。２つの分割された領域が隣接してい
る場合、行列内の対応する要素は値「１」を有する。２
つの分割された領域が隣接していない場合、行列内の対
応する要素は、値「０」を有する。このような隣接行列
の好ましい一態様を図６に示す。

【００９６】図６は、図５（ｂ）に示す映像の隣接性行
列を示したものである。この図では、領域２と領域３と
は互いに隣接した領域となっているので、行列の要素
（２，３）の成分は「１」の値を有する。また、領域２
と領域４とは互いに隣接せずに分離された領域となって
いるので、行列の要素（２，４）は「０」の値を有す
る。このように、分割された領域のラベル番号は、行列
内の行と列とに割り当てられており、２つの領域の隣接
性は、対応する要素「１」、「０」で示されるので、隣
接性行列が形成される。

【００９７】対応領域検出部１４５は、質疑（参照）映
像の隣接性行列を構成する領域に対応する客体抽出対象
映像内の領域を、隣接性行列を用いて検出する（２４５
段階）。具体的には、質疑（参照）映像と客体抽出対象
映像とにおける対応領域は比較行列で表わされる。質疑
（参照）映像の分割された領域の数と、客体抽出対象映
像の分割された領域の数に基づいて、比較行列をそれぞ
れ方法で求めることは必要である。

【００９８】（１）質疑（参照）映像の分割された領域
の数が、客体抽出対象映像の分割された領域の数より多
い場合、例えば、質疑（参照）映像の分割された領域の
数が４つ、客体抽出対象映像の分割された領域の数は３
つである場合、 −質疑（参照）映像および客体抽出映像の隣接性行列を
求める。 −質疑（参照）映像の分割された領域の数に基づいて正
方形の比較行列を構成する。 −客体抽出対象映像の隣接性行列にラベル番号を割り当
て、割り当てられたラベルに対応する要素の値を「０」
とする。

【００９９】図７は、質疑（参照）映像の分割された領
域の数が、客体抽出対象映像の分割された領域の数より
多い場合の比較行列を求める望ましい実施形態を示して
いる。図７（ａ）は質疑（参照）映像の隣接性行列の一
例を示しており、図７（ｂ）は客体抽出対象映像の隣接
性行列の一例を示しており、図７（ｃ）は、図７
（ａ）、図７（ｂ）の隣接性行列から求められた比較行
列の一例を示している。ここで、図７（ｂ）および図７
（ｃ）における「×」は、追加されたラベルである。

【０１００】（２）質疑（参照）映像の分割された領域
の数が、客体抽出対象映像の分割された領域の数より少
ない場合、 −質疑（参照）映像および客体抽出対象映像の隣接性行
列を求める。 −質疑（参照）映像の分割された領域の数に基づいて正
方形の比較行列を構成する。 −客体抽出対象映像の領域ラベルのうちの一部を比較行
列構成から除外する。図８は、質疑（参照）映像の分割された領域の数が、客
体抽出対象映像の分割された領域の数より少ない場合に
比較行列を求める望ましい実施形態が示されている。図
８（ａ）は質疑（参照）映像の隣接性行列であり、図８
（ｂ）は客体抽出対象映像の隣接性行列であり、図８
（ｃ）は、図８（ａ）および図８（ｂ）で求めた比較行
列である。

【０１０１】図７乃至図８では、質疑（参照）映像の領
域ラベルと客体抽出対象映像の領域ラベルとが同じもの
を整合させて比較行列を構成する。しかし、図７乃至図
８に示す前記方法に従って得られた比較行列は、同一の
ラベル番号を有する領域が同じ特性値（色特性値、テキ
スチャー特性値）を有すると仮定した状況下においての
み有効である。すなわち、質疑（参照）映像および客体
抽出対象映像内のラベル番号が割り当てられた領域同士
が最も類似した特性を有する対応領域を探す必要があ
る。各対応領域のラベル番号を用いて比較行列を求めた
場合のみ、質疑（参照）映像と客体抽出対象映像におけ
る領域比較が有効である。このような対応領域は以下の
手順に従って求められる。

【０１０２】（１）質疑（参照）映像の領域ラベル番号
を行として、客体抽出対象映像の領域ラベル番号を列と
してそなえる行列を構成し、質疑（参照）映像内の分割
された領域間の距離と、客体抽出対象映像内の分割され
た領域間の距離とを求め、求めた距離を要素としてそな
える距離行列を求める。ここで、距離とは色−テクスチ
ャー特徴空間における距離Ｄ_CT（ｘ，ｙ）である。

【０１０３】（２）質疑（参照）映像の領域に対応する
客体抽出対象映像内の領域を距離行列の値により決定し
て、その対応領域によって比較行列を再構成する。

【０１０４】図９は、質疑（参照）映像と客体抽出対象
映像のそれぞれについて、異なるラベル番号を有する領
域の特性値に最も近い特性値を有する領域を検索し、検
索結果に基づいて比較行列を構成する方法の好ましい位
置態様図である。

【０１０５】図９（ａ）は、質疑（参照）映像と客体抽
出対象映像に存在する領域間の距離を示す距離行列の望
ましい実施形態を示したものである。図９（ｂ）は、図
９（ａ）の距離行列において距離が最短となる領域にそ
れぞれ割り当てられたラベル番号を使用して再構成され
た比較行列の好ましい一態様を示したものである。

【０１０６】図９（ａ）の距離行列の要素のうちハッチ
ング線を付した各要素では、質疑（参照）映像と客体抽
出対象映像の領域間の距離が最短となる。図９では、質
疑（参照）映像の領域が３つ、比較される客体抽出対象
映像の領域が４つである場合を例に挙げており、比較行
列ではラベル番号が距離行列で求めた対応する領域によ
って変化することを示している。

【０１０７】次に、類似度計算部１４７は、空間隣接性
行列の類似度を計算する（２４７段階）。類似度は比較
行列における「１」の数Ｅ_uを、上の三角行列全体の要
素の数Ｍ_uで割ることで求める。質疑（参照）映像にお
ける隣接性と、客体抽出対象映像における隣接性とが略
一致する場合、類似性の値は「１」となる。一方、質疑
（参照）映像における隣接性と、客体抽出対象映像にお
ける隣接性とが完全に異なる場合、類似性の値は「０」
となる。すなわち、質疑（参照）映像と客体抽出対象映
像との間の空間隣接性における類似度Ｓｉは、下記式１
１で表される。

【０１０８】

【数１１】

【０１０９】そして、計算された類似度が臨界値（閾
値）以上であるかどうかを判断する（２４８段階）。類
似度が臨界値（閾値）以上である場合、最終客体領域が
決定される（２４９段階）。すなわち、色特性値および
テキスチャー特性値を利用して領域整合を行うことによ
り求められた客体抽出対象映像内の領域が、抽出しよう
とする客体であるか否かを判断する。客体領域として最
終的に決定された領域を客体（最終客体領域）として決
定される。最終客体領域の画素の値は、オリジナル
（元）映像内の画素の値として決定される。そして客体
抽出対象映像の他の領域の画素の値を「０」とする。

【０１１０】一方、類似度が臨界値（閾値）以下である
場合、客体抽出対象映像の中に抽出される客体が存在し
ないと決定され、客体抽出対象内の全ての画素の値を
「０」とする。

【０１１１】図１０は、客体抽出映像から二つの相異な
る客体を抽出した結果を示すものである。図１０（ａ）
は、４個の客体抽出対象映像に含まれた女性出演者の服
（抽出対象客体）を本発明によって抽出した結果を示し
たものであり、図１０（ｂ）は、４個の客体抽出対象映
像から男性出演者の服（抽出対象客体）を本発明によっ
て抽出した結果を示したものである。

【０１１２】一方、上述した本発明の実施形態はコンピ
ュータで実行できるプログラムで作成可能である。そし
て、コンピュータで使われる媒体を利用して上記プログ
ラムを動作させる汎用ディジタルコンピュータで具現で
きる。上記媒体はマグネチック貯蔵媒体（例えば、ＲＯ
Ｍ、フレキシブルディスクディスク、ハードディスク
等）、光学的判読媒体（例えば、ＣＤ-ＲＯＭ、ＤＶＤ
等）およびキャリアウェーブ（例えば、インターネット
を通した伝送）のような貯蔵媒体を含む。

【０１１３】

【発明の効果】以上述べたように、本発明は従来の動き
基盤客体抽出方法などとは違って客体抽出対象映像内に
存在する客体の動きの有無に関係なく客体を抽出できる
長所がある。それだけでなく、客体抽出対象映像が連続
する動映像フレームである必要もない。また、色特性値
やテクスチャー特徴値などの単一種の情報だけを利用し
て客体を抽出する方法と比べると、本発明によるとより
正確な客体の映像領域抽出が可能となる。抽出しようと
する客体を含む質疑（参照）映像と客体抽出対象映像の
入力に応じて客体抽出を自動的に行えるので、手動の客
体を抽出する際に要する時間を節約できる。本発明のこ
のような特徴および長所は、特定客体の映像領域を自動
で抽出する必要がある映像編集および書込み機、客体基
盤映像符号化機、対話形動映像製作機等に有用に利用で
きる。

【０１１４】今まで本発明について望ましい実施形態を
中心に調べた。本発明が属する技術分野で通常の知識を
有する者は本発明を本発明の本質的な特性を外れない範
囲で変形された形で具現できることを理解できる。した
がって開示された実施形態は限定的な観点でなく説明的
な観点で考慮されねばならない。本発明の範囲は特許請
求の範囲に示されており、それと同等な範囲内にあるす
べての差異点は本発明に含まれると解析されねばならな
い。

【図面の簡単な説明】

【図１】本発明による客体抽出装置の望ましい実施形態
のブロック図である。

【図２】本発明による客体抽出方法のフローチャートで
ある。

【図３】色空間の量子化およびビンに関する説明図であ
る。

【図４】画素（ｍ、ｎ）を中心にした回転に関する説明
図である。

【図５】（ａ）、（ｂ）ともに領域分割された映像にラ
ベル番号を割り当てた例を示す。

【図６】図５Ｂについての隣接性行列を示す。

【図７】質疑（参照）映像の分割された領域の数が客体
抽出対象領域の分割された領域の数より大きい場合に比
較行列を求める例を示す。

【図８】質疑（参照）映像の分割された領域の数が客体
抽出対象領域の分割された領域の数より小さい場合に比
較行列を求める例を示す。

【図９】距離行列の例とそれに従う比較行列の例を示
す。

【図１０】二つの相異なる客体についての客体抽出対象
映像での客体抽出結果を示す。

───────────────────────────────────────────────────── フロントページの続き (72)発明者金智淵大韓民国ソウル特別市松坡区新川洞７番地薔薇アパート 17棟 1101号 (72)発明者金相均大韓民国京畿道龍仁市器興▲巴▼ 上▲葛▼里 476番地金花マウル大宇現代アパート 103棟 401号Ｆターム(参考） 5C023 AA06 AA16 BA02 BA11 CA01 5L096 AA02 FA15 FA41 FA69 JA11

Claims

【特許請求の範囲】

【請求項１】映像から客体を抽出する客体抽出装置で
あって、前記客体を含む質疑映像および前記質疑映像に含まれた
客体が抽出される客体抽出対象映像が入力される映像入
力部と、画素単位の色特徴整合により前記客体抽出対象映像にお
ける前記客体の位置を判定する客体位置判定部と、色またはテクスチャーを含む映像特徴値を利用して前記
質疑映像と前記客体抽出対象映像とを各々領域分割する
映像分割部と、領域分割された質疑映像の領域と領域分割された客体抽
出対象映像の領域との整合を色またはテクスチャー特性
値を利用して行い、整合の結果得られた整合領域間の空
間隣接性の類似度を利用して最終客体領域を決定する客
体領域決定部とを含むとことを特徴とする客体抽出装
置。
【請求項２】前記客体位置判定部は、前記質疑映像および前記客体抽出対象映像に対して各々
色ヒストグラムを計算する色ヒストグラム計算部と、前記質疑映像および客体抽出対象映像に対する色ヒスト
グラムをヒストグラム値比に代える映像投射部と、前記ヒストグラム値比に代えられた客体抽出対象映像か
ら候補客体位置を判定する候補客体位置判定部とを含む
ことを特徴とする請求項１に記載の客体抽出装置。
【請求項３】前記色ヒストグラム計算部は、前記質疑映像および客体抽出対象映像に対して量子化さ
れた色空間での画素数を計算することを特徴とする請求
項２に記載の客体抽出装置。
【請求項４】前記候補客体位置判定部は、前記質疑映像に含まれた客体を取り囲む最小限の境界ボ
ックスを基準に決定されたマスクの値と前記ヒストグラ
ム値比に代えられた客体抽出対象映像とを畳み込み、そ
の結果値が所定の基準値以上になる前記客体抽出対象映
像内の画素と前記質疑映像内の画素間の色距離差を求め
て前記色距離差の平均値が小さな画素順に候補客体位置
を判定することを特徴とする請求項２に記載の客体抽出
装置。
【請求項５】前記映像分割部は、色またはテクスチャーを含む前記映像特徴値を利用して
前記質疑映像と前記客体抽出対象映像とを各々領域分割
することを特徴とする請求項１に記載の客体抽出装置。
【請求項６】前記客体領域決定部は、前記映像分割部で分割された質疑映像を基準に前記客体
位置での分割された客体抽出対象領域に対して少なくと
も色とテクスチャーを含む映像特徴値を利用して領域を
整合し、前記整合結果によって客体領域の存在の有無を
判断する領域整合部と、前記分割された質疑映像および前記客体領域が存在する
と判断された分割された客体抽出対象映像についての整
合結果によって映像領域の空間隣接性行列を各々計算す
る隣接性行列計算部と、前記隣接性行列計算部で計算された隣接性行列を利用し
て前記質疑映像および前記客体抽出対象映像間の対応領
域を検出する対応領域検出部と、前記対応領域に基づいて前記二つの映像間の類似度を計
算して最終客体領域を決定する類似度計算部とを含むこ
とを特徴とする請求項１に記載の客体抽出装置。
【請求項７】前記領域整合部は、前記分割された客体抽出対象映像の中で、客体が存在す
る所定の位置に画素を含み、前記質疑映像の客体を取り
囲む領域によって決定されたマスクと接する全分割され
た領域を検出し、前記検出された領域と前記質疑映像の
分割された領域間の各々の類似度を計算して前記客体領
域の存在有無を判断することを特徴とする請求項６に記
載の客体抽出装置。
【請求項８】前記隣接性行列計算部は、前記分割された質疑映像および前記質疑映像の客体を含
む分割された客体抽出対象映像に各々ラベル番号を割り
当て、前記ラベル番号に該当する領域が互いに隣接して
いるかどうかに関する情報を隣接性行列で示し、前記行
列の各要素は互いに隣接する場合に所定の第１値を、隣
接しない場合には所定の第２値を有することを特徴とす
る請求項６に記載の客体抽出装置。
【請求項９】前記対応領域検出部は、前記隣接性行列を利用して前記二つの映像間の対応領域
を比較行列で示し、前記質疑映像の分割された領域の数
が客体抽出対象領域の分割された領域の数より大きい場
合と小さな場合によって比較行列を別途に求めることを
特徴とする請求項６に記載の客体抽出装置。
【請求項１０】前記対応領域検出部は、前記隣接性行列を利用して前記二つの映像間の対応領域
を比較行列で示し、前記比較行列は前記質疑映像のラベ
ル番号に該当する領域と最も近い映像特徴値を有する客
体抽出対象映像の分割された領域に限って求められるこ
とを特徴とする請求項６に記載の客体抽出装置。
【請求項１１】前記対応領域検出部は、距離行列を利用して前記最も近い映像特徴値を有する客
体抽出対象映像の分割された領域を決定し、二つの映像
間の対応領域によって比較行列を再構成することを特徴
とする請求項１０に記載の客体抽出装置。
【請求項１２】前記距離行列は、前記質疑映像のラベル番号を行の値とし、前記客体抽出
対象映像のラベル番号を列の値とする行列で、前記質疑
映像と前記客体抽出対象映像との間に対応するラベル番
号に該当する領域間の距離をその行列の要素としたこと
を特徴とする請求項１１に記載の客体抽出装置。
【請求項１３】前記類似度計算部は、前記類似度を前記比較行列での上の三角行列内の第１値
を有する要素の数を前記上の三角行列全体の要素の数で
割った方式で求めることを特徴とする請求項８に記載の
客体抽出装置。
【請求項１４】映像から客体を抽出する方法におい
て、（ａ）客体を含む質疑映像およびその質疑映像に含まれ
た客体を抽出する客体抽出対象映像が入力される段階
と、（ｂ）画素単位の色特徴整合によって前記客体抽出対象
映像内で客体の位置を判定する段階と、（ｃ）色またはテクスチャーを含む映像特徴値を利用し
て前記質疑映像と前記客体抽出対象映像とを各々領域分
割する段階と、（ｄ）前記分割された質疑映像内に含まれた客体を基準
に、前記分割された客体抽出対象映像のうち前記（ｂ）
段階で判定された客体位置に該当する分割された客体抽
出対象領域に対して色またはテクスチャー特徴値を利用
して領域を整合し、前記整合された領域間の空間隣接性
の類似度を利用して最終客体領域を決定する段階とを含
むことを特徴とする映像から客体を抽出する客体抽出方
法。
【請求項１５】前記（ｂ）段階は、（ｂ１）前記質疑映像および前記客体抽出対象映像に対
して各々色ヒストグラムを計算する段階と、（ｂ２）前記質疑映像および客体抽出対象映像に対する
色ヒストグラムをヒストグラム値比に代える段階と、（ｂ３）前記ヒストグラム値比に代えられた客体抽出対
象映像から候補客体位置を判定する段階とを含むことを
特徴とする請求項１４に記載の客体抽出方法。
【請求項１６】前記（ｂ１）段階は、前記質疑映像および客体抽出対象映像に対して、量子化
された色空間上のビンに含まれた画素数を計算すること
を特徴とする請求項１５に記載の客体抽出方法。
【請求項１７】前記（ｂ２）段階は、比ヒストグラムを、前記質疑映像に対するビンのうち一
つに含まれる画素数を前記質疑映像に対する全体ビンに
含まれた画素数で割った比で決定することを特徴とする
請求項１６に記載の客体抽出方法。
【請求項１８】前記（ｂ２）段階は、比ヒストグラムを、前記質疑映像に対するビンと前記客
体抽出対象映像に対するビンの比で決定することを特徴
とする請求項１６に記載の客体抽出方法。
【請求項１９】前記（ｂ３）段階は、（ｂ３−１）前記質疑映像に含まれた客体を取り囲む最
小限の境界ボックスを基準に決定されたマスク値および
前記ヒストグラム値比に代えられた客体抽出対象映像を
畳み込む段階と、（ｂ３−２）前記畳み込んだ結果値が所定の基準値以上
になる前記客体抽出対象映像内の画素と前記質疑映像内
の画素間の色距離差を求めて前記色距離差の平均値を計
算する段階と、（ｂ３−３）前記色距離差の平均値が小さな画素順に一
つ以上の候補客体位置を判定する段階とを含むことを特
徴とする請求項１５に記載の客体抽出方法。
【請求項２０】画素位置（ｘ_p、ｙ_p）での前記マスク
は次の数式を利用して定義される円であり、ここで、ｂｌは前記境界ボックスの長い辺の長さであ
り、ｂｓは前記境界ボックスの短い辺の長さであり、α
は大きさを調節するための変数であることを特徴とする
請求項１９に記載の客体抽出方法。
【請求項２１】前記色距離差の平均は次の数式によっ
て定義され、ここで、Ｎは前記境界ボックス内の有効画素の数を意味
し、添字ｑは質疑映像を、ｄは客体抽出対象映像を各々
意味することを特徴とする請求項１９に記載の客体抽出
方法。
【請求項２２】前記（ｄ）段階は、（ｄ１）前記（ｃ）段階で分割された質疑映像を基準に
前記客体位置での分割された客体抽出対象領域に対して
色またはテクスチャーを含む映像特徴値を利用して領域
を整合し、前記整合結果によって客体領域の存在有無を
判断する段階と、（ｄ２）前記分割された質疑映像および前記客体領域が
存在すると判断された分割された客体抽出対象映像につ
いての整合結果によって映像領域の空間隣接性行列を各
々計算する段階と、（ｄ３）前記（ｄ２）段階で計算された隣接性行列を利
用して前記二つの映像間の対応領域を検出する段階と、（ｄ４）前記対応領域に基づいて前記二映像間の類似度
を計算して最終客体領域を決定する段階とを含むことを
特徴とする請求項１４に記載の客体抽出方法。
【請求項２３】前記（ｄ１）段階は、（ｄ１−１）前記分割された客体抽出対象映像で、客体
が存在する所定の位置に画素を含み、前記質疑映像の客
体を取り囲む領域によって決定されたマスクと出合う全
分割された領域を検出する段階と、（ｄ１−２）前記検出された領域と前記質疑映像の分割
された領域間の各々の色／テクスチャー距離差を計算し
て前記客体領域の存在有無を判断する段階とを特徴とす
る請求項２２に記載の客体抽出方法。
【請求項２４】前記色／テクスチャー距離差は色また
はテクスチャーを含む映像特徴値空間での二つの領域間
の距離を利用し、前記距離は次の数式を利用して計算さ
れ、ここでＤ_c（ｘ，ｙ）とＤ_t（ｘ，ｙ）は各々色特徴値空
間とテクスチャー特徴値空間で二つの領域ｘ、ｙ間の距
離を示し、ｗ_cとｗ_tは各々の距離値に賦課される加重係
数であることを特徴とする請求項２３に記載の客体抽出
方法。
【請求項２５】前記（ｄ２）段階は、前記分割された質疑映像および前記質疑映像の客体を含
む分割された客体抽出対象映像に各々ラベル番号を割り
当て、前記ラベル番号に該当する領域が互いに隣接して
いるかどうかに関する情報を隣接性行列で表し、前記行
列の各要素は互いに隣接する場合に所定の第１値を、隣
接しない場合に所定の第２値を有することを特徴とする
請求項２２に記載の客体抽出方法。
【請求項２６】前記（ｄ３）段階は、前記隣接性行列を利用して前記二つの映像間の対応領域
を比較行列で示し、前記質疑映像の分割された領域の数
が客体抽出対象領域の分割された領域の数より大きい場
合と小さな場合によって比較行列を別途に求めることを
特徴とする請求項２２に記載の客体抽出方法。
【請求項２７】前記（ｄ３）段階は、前記隣接性行列を利用して二つの映像間の対応領域を比
較行列で示し、ここで比較行列は質疑映像のラベル番号
に該当する領域と最も近い映像特徴値を有する客体抽出
対象映像の分割された領域に限って求められることを特
徴とする請求項２２に記載の客体抽出方法。
【請求項２８】前記（ｄ３）段階は、距離行列を利用して前記最も近い映像特徴値を有する客
体抽出対象映像の分割された領域を決定し、前記二つの
映像間の対応領域によって比較行列を再構成することを
特徴とする請求項２２に記載の客体抽出方法。
【請求項２９】前記距離行列は、前記質疑映像のラベル番号を行の値とし、前記客体抽出
対象映像のラベル番号を列の値とする行列で、前記質疑
映像と前記客体抽出対象映像間に対応するラベル番号に
該当する領域間の距離をその行列の要素としたことを特
徴とする請求項２８に記載の客体抽出方法。
【請求項３０】前記（ｄ４）は、前記隣接性行列の各要素が互いに隣接する場合には第１
値を有し、隣接しない場合には第２値を有する時、前記
類似度を前記比較行列での上の三角行列内の第１値を有
する要素の数を前記上の三角行列全体の要素の数で割っ
た方式で求めることを特徴とする請求項２２に記載の客
体抽出方法。
【請求項３１】前記（ｄ４）段階で、前記類似度は次の数式を利用して計算され、ここで、隣接性行列の各要素が互いに隣接する場合に前
記第１値を、隣接しない場合に前記第２値を有する時、
Ｅ_uは前記比較行列の上の三角行列内の前記第１値の数
を、Ｍ_uは前記上の三角行列全体の要素の数を各々示す
ことを特徴とする請求項２６または請求項２７に記載の
客体抽出方法。
【請求項３２】請求項１４ないし請求項３１のうちい
ずれか一項の方法をコンピュータで実行させるためのプ
ログラムを記録した、コンピュータで読み出しうる記録
媒体。