JP2001175869A

JP2001175869A - 話し手位置検出装置及びその方法

Info

Publication number: JP2001175869A
Application number: JP2000248307A
Authority: JP
Inventors: Tochu Kyo; 東中姜; Seiketsu Ryu; 聖杰柳; Chien Kin; 智淵金; Shoyo Kin; 昌容金; Yang-Seock Seo; 亮錫徐
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1999-12-07
Filing date: 2000-08-18
Publication date: 2001-06-29
Also published as: KR20010054674A; KR100343223B1; NL1016006C2; NL1016006A1; US6611613B1

Abstract

(57)【要約】【課題】映像で話し手の目と顔の位置をより正確かつ
より迅速に探すことができ、しかも映像雑音にも強い話
し手位置検出装置及びその方法を提供する。【解決手段】映像で、相対的に強い灰色特徴を示すピ
クセルを検出し、このピクセルが形成する領域中から部
分凝集特性を示しかつテクスチャ特徴を有する領域を目
の候補領域とする目位置検出手段１０と、前記目の候補
領域中から抽出した位置にマッチングさせて形成した探
索テンプレートから最適の探索テンプレートを決定する
顔位置決定手段２０と、この最適の探索テンプレートを
利用して話し手の位置領域を決定する抽出位置安定化手
段３０とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、映像信号処理に係
り、特に、カメラセンサ等の入力手段を通して入力され
た映像または、ビデオ映像で示される人の顔の特徴を表
示する特徴値を解析して抽出し、映像内で人の顔の位置
を検出する装置及びその方法に関する。

【０００２】

【従来の技術】最近、人工知能分野に関する研究は、人
が有する認識能力をコンピュータに移植してコンピュー
タや機械に知的能力を付与することができる部分に関心
と研究とが集中している。その中で、特に、人の視覚シ
ステムを利用した顔の認識技術は、映像処理、パターン
認識及び顔つきの研究などのコンピュータビジョン及び
映像処理の関連分野の全般に渡り非常に活発で広範囲に
研究されている。

【０００３】所定の入力手段で入力された映像を利用し
て顔の存在の有無、及び顔の領域を検出する技術は顔の
認識の問題のみならず、顔つきの特徴の研究、乗り物の
運転手の眠気感知、所定の場所の出入管理、映像インデ
クシング等の種々の応用分野で非常に重要であると認識
されている。人は、各種の動的な環境下でも容易に顔の
領域を探し出すことができるが、コンピュータを利用し
てこのような仕事を実行することは、たとえ顔の背景が
比較的シンプルな構成である映像であっても、単純な問
題とはならない。

【０００４】既に提案されている顔の領域を検出する方
法の中で代表的な方法としては、米国特許番号ＵＳ５６
８０４８１に記載されている神経網（ｎｅｕｒａｌｎ
ｅｔｗｏｒｋ：ニューラルネットワーク）を利用する方
法、米国特許番号ＵＳ５７１０８３３に記載されている
明るさの主成分の分析等による顔の明るさの統計的特徴
を利用する方法、及びＴ．Ｐｏｇｇｉｏが発表した学術
論文[ＩＥＥＥＴＰＡＭＩ２０、１９９８]に記載され
ている整合方法などが挙げられる。

【０００５】ところで、所定の方法によって特定の要素
を抽出されて構成された顔の候補を有する映像を、顔の
認識システムの入力に用いるためには、抽出された顔の
候補領域における顔の構成要素や、顔の特徴に基づき顔
の正確な位置を検出する過程が必要となる。

【０００６】すなわち、所定の入力手段で入力された入
力映像を既設のモデルと比較するためには、この入力映
像から抽出された顔映像とモデルテンプレートの顔映像
との間の大きさの差、回転方向の差及び位置の差などを
補償するための位置抽出及び大きさ正規化過程が、認識
及びマッチング性能を向上させるために必須な先決過程
として要請されている。

【０００７】大部分の顔認識システムでは、このような
整列及び正規化過程で必要な基準になる顔構成要素とし
て、目の領域、またはひとみの中心領域が用いられてい
る。その理由は、顔の構成要素中、顔映像の大きさ、表
情、姿勢、照明などに変化が生じても相対的にその特徴
の変化が小さい部分、すなわち相対的な変化が小さい形
態を有する部分が目の領域であるためである。

【０００８】このような目の領域、またはひとみ中心の
位置を映像で探すための多くの研究が進められてきた。
既存の顔認識システムに適用された方法が主にひとみの
検出方法にも適用されてきた。ひとみ検出方法中、代表
的なものとしては、様々な大きさの目のテンプレートを
作って入力映像のガウスピラミッド（Ｇａｕｓｓｉａｎ
ｐｙｒａｍｉｄ）映像を構成し、入力映像内のあらゆ
る位置で正規化相関係数法を利用してひとみを探索する
方法が一般に適用されてきた（例えば、Ｔ．Ｐｏｇｇｉ
ｏが発表した学術論文［ＩＥＥＥＴＰＡＭＩ２０、１
９９８］に記載されている。）。

【０００９】米国特許番号ＵＳ５６８０４８１とＭｏｇ
ｈａｄｄａｍが発表した学術論文[ＩＥＥＥＴＰＡＭＩ
１９、１９９７]とに各々記載されている方法は、テン
プレートの大きさにより目、鼻、口の領域に対する固有
行列を作って、テンプレート映像内の全領域で入力映像
との比較を通して関心度の比較的高い領域の特徴を探索
するものである。

【００１０】このような２種の方法で生じる共通的な問
題としては、映像で目や鼻などの特徴に対する大きさや
方向、位置等について未知であるために、これらを映像
の全領域に対して大きさや方向により分類されたいくつ
かのモデルテンプレート用いて探索しなければならない
ことが挙げられる。このことは、膨大な計算量を発生さ
せ、また位置決定のための臨界値決定、過度の誤応答処
理などの問題によって実際にシステムに適用することを
困難にしている。

【００１１】米国特許番号ＵＳ５８３２１１５では、同
心円状の二つの楕円で構成された顔の境界を検出するた
めのテンプレートを備え、この二つの楕円間の領域で顔
を包むエッジの大きさの評価を通して顔の位置を検出す
るものである。しかしながら、この方法によっても、楕
円のテンプレートの大きさ及び方向を決定しなければな
らず、全映像領域から顔の位置を探索しなければならな
いという問題がなお存在している。

【００１２】このような顔の位置の検出に関する問題を
解決するために行われている研究の中で、最近では、多
くの研究がカラー映像を利用する部分に集中してきた。
大部分のカラー映像では、顔色や皮膚色のカラー値が一
般的な統計値の範囲に比較的近いという事実に基づい
て、皮膚色を検出することによって顔の候補領域を抽出
するといった研究が主流をなしている（例えば、Ｊ．Ｒ
ｅｈｇが発表した学術論文：ＣＯＭＰＡＱＴＲＣＲ
Ｌ９８１１、１９９８に記載されている。）。

【００１３】このような研究は、最近、カラーインデク
シングや顔追跡及び抽出等に比較的成功的に適用されて
きた。しかしながら、色による顔の位置の抽出では、顔
色が映像を獲得したカメラの違いや照明色、物体表面及
び状態などの映像獲得条件から多くの影響を受ける。す
なわち、他のカメラで得られた映像は、たとえ同一環境
条件下の同一人物に対しても異なるカラー値を有する顔
色を与え易い。

【００１４】とくに、照明の違いによって顔や皮膚のカ
ラー値は、かなり大幅に変化するため、映像獲得条件が
不明である場合には、顔の色領域のみを決定するために
皮膚色のカラー値に対して一定の範囲を決定することが
甚だ困難となる。また、背景の領域を含みながら幅広く
抽出された類似した皮膚色を有する映像に対して顔の領
域のみを決定する過程は容易ではなく、多くの後処理過
程を必要とする。

【００１５】

【発明が解決しようとする課題】本発明は前記した問題
点を解決するために創作されたものであり、本発明の目
的は、映像で話し手の目と顔の位置とをより正確に、し
かも迅速に検出することができて、さらに映像のノイズ
にも強い耐性を備えた話し手位置検出装置及びその方法
を提供することにある。

【００１６】

【課題を解決するための手段】前記した目的を達成する
ために、本発明に係る話し手位置検出装置の一態様は、
入力されたＲＧＢ映像で、相対的に強い灰色の特徴を示
すピクセルを検出し、この検出された相対的に強い灰色
の特徴を示すピクセルが形成する領域の中から部分凝集
特性を示してテクスチャ特徴を有する領域を目の候補領
域として決定する目位置検出手段と、前記目の候補領域
の中から抽出した２個の領域の位置にマッチングさせて
探索テンプレートを形成し、ＲＧＢ映像で前記探索テン
プレートの領域内におけるピクセルの色度値に対する確
率距離の和を正規化した値と、前記探索テンプレートに
よって推定される目、口及び鼻の位置における水平エッ
ジの大きさとを用いて形成された探索テンプレート中、
最適の探索テンプレートを決定することによって顔の位
置を決定する顔位置決定手段と、前記最適の探索テンプ
レートを利用して最小外廓四角形を構成し、形状メモリ
に記憶された各ピクセルに対してカウント値の中から前
記最小外廓四角形の領域に対応するカウント値について
は増加させ、前記最小外廓四角形以外の領域は対応する
カウント値については減少させることによって、前記形
状メモリで所定の値以上のカウント値が位置した領域を
話し手位置領域として出力する抽出位置安定化手段とを
含むように構成する。

【００１７】前記の他の目的を達成するために、本発明
に係る話し手位置検出方法の一態様は、（ａ）入力され
たＲＧＢ映像で、強い灰色の特徴を示すピクセルを検出
して、検出されたピクセルが形成する領域の中から部分
凝集特性を示してテクスチャ特徴がある領域を目の候補
領域と決定する段階と、（ｂ）前記目の候補領域の中か
ら抽出した２個の領域の位置にマッチングさせて探索テ
ンプレートを形成して、ＲＧＢ映像で探索テンプレート
の領域内におけるピクセルの色度値に対する確率距離の
和を正規化した値及び、探索テンプレートにより推定さ
れる目、口及び鼻の位置における水平エッジの大きさを
用いて形成された探索テンプレート中、最適の探索テン
プレートを決定する段階と、（ｃ）前記最適の探索テン
プレートを利用して最小外廓四角形を構成して、形状メ
モリに記憶された各ピクセルに対してカウント値の中か
ら前記最小外廓四角形の領域に対応するカウント値につ
いては増加させ、前記最小外廓四角形以外の領域は対応
するカウント値については減少させながら、前記形状メ
モリから所定の値以上のカウント値が位置する領域を、
話し手の位置領域として出力する段階とを含むように構
成する。

【００１８】以下、本発明に適用される基本的な概念及
び作用について説明する。本発明にあっては、まず、多
様なカラー映像から獲得された数多くの顔の分析を通し
て共通に示される顔の代表的な特徴である目の位置を抽
出するものである。顔において、通常、目は幾何学的に
凹状を有するために、目の明るさは黒い瞳孔を有しない
西洋人の場合でも映像でそのカラー特性は相対的に強い
灰色性向を示す。

【００１９】すなわち、入力されたカラーの３種の主成
分（ＲＧＢ）の値は目の位置では相互に似た大きさを有
し、かつ明るさが極めて低いという特徴を示す。このよ
うなカラー特性が目の代表的なカラー特徴となる。

【００２０】また、目の明るさ分布を見れば、ひとみと
瞳孔、そして顔色などの明るさの差が稠密に集中して分
布するために、ひとみの輪郭が示される大部分の映像
で、テクスチャが存在する特徴を示すようになる。

【００２１】また、目の位置は、目の周囲の顔色によっ
て囲まれているために、このようなカラー及びテクスチ
ャの２種の特徴が集中することによって部分的に生じる
特徴を示すようになる。一方、髪の毛の場合には、境界
部で部分的にテクスチャと相対的に強い灰色との特徴を
有しているが、このような特徴が比較的幅広く、または
比較的長く示されるという特徴がある。したがって、髪
の毛の場合には通常、このようなカラー及びテクスチャ
の２種の特徴が部分的に発生する特徴を満足に示さない
ものとなる。

【００２２】本発明にあっては、このようなひとみと瞳
孔、そして顔色の３種の重要な特徴を目の位置の初期検
出のための情報として用いるものである。すなわち、目
で生じる３種の特徴の結合を通して目の位置を検出し、
引き続いて行われる多くの後処理過程の結合と、顔認識
過程とを通して正確な目の位置を抽出し、このようにし
て得られた情報を利用して顔の位置を抽出する。また、
このようにして抽出された顔の位置情報を利用すること
によって、ビデオホン等の画像伝送で特に関心度の比較
的高い領域への応用に適用することが可能である。

【００２３】

【発明の実施の形態】以下、添付された図面を参照して
本発明を詳細に説明する。図１は、本発明に係る一例の
話し手位置抽出による画質改善装置の全体構成を示した
ブロック構成図である。図１によると、本発明に係る一
例の話し手位置抽出による画質改善装置は、入力映像で
目の位置を決定する目位置検出手段１０、検出された目
の位置の候補点を利用して顔のテンプレートを構成し、
目の位置と顔の位置とを判別するために前記顔のテンプ
レートと映像データとをマッチングさせて顔の位置を決
定する顔位置決定手段２０、及び抽出された目の位置と
顔の位置とが映像で急激に変化することを抑えるための
抽出位置安定化手段３０を含んで構成される。

【００２４】図２は、図１に示す本発明に係る一例の目
位置検出手段１０をより詳細に示したブロック構成図で
ある。図２によると、本発明に係る一例の目位置検出手
段１０は、色変換部２１と、強灰色抽出部２２と、中間
値フィルタリング部２３と、領域形成部２４と、領域形
成解析部２５と、テクスチャ抽出部２６と、目候補判別
部２７とを備える。

【００２５】色変換部２１は、入力された映像のビデオ
信号ＹＵＶを３色信号ＲＧＢに変換する。強灰色抽出部
１２は、映像の３色信号を解析して相対的に強い灰色の
特徴を示すピクセルを抽出する。一例の目位置検出手段
１０では、強灰色抽出部２２が、任意の一つのピクセル
に対してカラーを示す色要素の最大値（ｍａｘｃ）と最
小値（ｍｉｎｃ）との差が所定の値ｔ１より小さく、最
大値（ｍａｘｃ）が他の所定の値ｔ２より小さく分布す
れば強い灰色性向を示すという特徴を利用するものであ
る。

【００２６】ここで、色要素の値が０〜２５５の階調で
表現されるとき、ｔ１は５５〜６５の値の中から決定さ
れ、ｔ２は９０〜１１０の値の中から決定されることが
望ましい。しかし、本発明の範囲は、このような実施の
形態のみに限定されるものではなく、本発明の技術的思
想に基づく限りにおいて、種々の変形が可能である。す
なわち、相対的に強い灰色のピクセルを抽出することが
できる従来公知のあらゆる方法が含まれるものと解釈さ
れなければならない。

【００２７】中間値（Ｍｅｄｉａｎ）フィルタリング部
２３は、抽出されたピクセルを中間値フィルタリングし
てスポットノイズ（ｓｐｏｔｎｏｉｓｅ）などを取り
除く。

【００２８】領域形成部２４は、抽出されたピクセルに
対して連結されたピクセルを一緒にまとめて領域を作
り、各々の領域に該当ラベルを与える。

【００２９】また、図２によると、本発明に係る一例の
目位置検出手段１０では、領域形状解析部２５が、環状
性（Ｃｉｒｃｕｌａｒｉｔｙ）解析部２５ａ、細長比解
析部２５ｂ及び領域大きさ解析部２５ｃを備える。環状
性解析部２５ａは各々のラベル化された領域に対してそ
の形状を解析して円形状に類似しているか否かを判別
し、細長比解析部２５ｂは各々のラベル化された領域の
細長比を算出し、領域大きさ解析部２５ｃは各々のラベ
ル化された領域の相対的な大きさを算出して各領域の部
分凝集特性を検査する。

【００３０】さらに、図２によると、本発明に係る一例
の目位置検出手段１０の一実施の形態でテクスチャ抽出
部２６は、形態論解析部２６ａ及び水平エッジ解析部２
６ｂを備える。形態論解析部２６ａは各領域で形態論フ
ィルタを用いてテクスチャ応答を算出してテクスチャ特
徴を検査し、水平エッジ解析部２６ｂは水平エッジフィ
ルタを用いて水平エッジを抽出する。該形態論フィルタ
としては明るさの最小変化抽出フィルタ[Ｍ．Ｋｕｎ
ｔ、ＩＥＥＥＴＣＳＶＴ、１９９８]を用いることがで
き、また水平エッジフィルタとしては一般的な微分フィ
ルタ（Ｓｏｂｅｌｏｐｅｒａｔｏｒ）を用いることがで
きる。

【００３１】目候補判別部２７は、ラベル化された領域
の中から部分凝集特性及びテクスチャ特徴が所定の値よ
り大きい領域を目の候補領域として判別する。

【００３２】図３は、本発明に係る一例の顔位置決定手
段をより詳細に示したブロック構成図である。図３によ
ると、本発明に係る一例の顔位置決定手段２０は、顔テ
ンプレート形成部３１、確率距離演算部３２、エッジ特
徴解析部３３及び最適テンプレート透３透３４を備え
る。

【００３３】顔テンプレート形成部３１は、予め備えら
れたモデルテンプレートを目の候補領域の中から抽出し
た２個の領域の位置に対応させて相似変換することによ
り入力されたＲＧＢ映像上に探索テンプレートを形成す
る。モデルテンプレートは、両目を示す二つの円を含ん
で、鼻の部分と口の部分との間に四角形の底辺が位置す
る顔の領域の四角形で構成されることが望ましい。

【００３４】確率距離演算部３２は、ＲＧＢ映像で探索
テンプレートの領域内におけるピクセルの色差信号
Ｃ_r、Ｃ_b値と予め学習された統計値とを利用して顔領域
の皮膚色確率距離の和を求め、その和を探索テンプレー
トの大きさに対して正規化した正規化確率距離を算出す
る。

【００３５】エッジ特徴解析部３３は、探索テンプレー
トで推定される目、鼻及び口の位置で入力されたＲＧＢ
映像の水平エッジ特徴値を検出する。エッジ特徴解析部
３３は、探索テンプレートで推定される口と鼻との位置
に対応する入力されたＲＧＢ映像における第１水平エッ
ジ大きさ及び目、鼻及び口の位置以外に前記探索テンプ
レートとマッチングさせる領域に対応する入力されたＲ
ＧＢ映像における第２水平エッジ大きさを検出して、第
１水平エッジ大きさと第２水平エッジ大きさとの比であ
るエッジ成分比を算出する。また、エッジ特徴解析部３
３は、目の部分を示す円の大きさにより正規化された目
の水平エッジ大きさを検出できる。

【００３６】最適テンプレート決定部３４は、前記正規
化確率距離、前記エッジ成分比及び前記正規化された目
の水平エッジ大きさの各々に所定の重みを与えて得られ
た加重値を足し合せた値が最小のテンプレートを最適の
テンプレートとして決定する。一方、最適テンプレート
決定部３４は、複数の探索テンプレートが重畳されて形
成された領域が他の探索テンプレートが重畳されて形成
された領域と独立して位置する場合には、独立した領域
ごとに別々の最適テンプレートを決定する。これは一つ
の映像内に複数の顔が含まれる場合を示すためである。

【００３７】図４は、本発明に係る一例の抽出位置安定
化手段をより詳細に示したブロック構成図である。図４
によると、本発明に係る一例の抽出位置安定化手段３０
は、形状メモリ４３、最小外廓四角形構成部４１、形状
メモリ更新部４２及び追跡位置抽出部４４を備える。ま
た他の例として、速度及び形状解析部４５をさらに備え
てもよい。

【００３８】形状メモリ４３は、入力されたＲＧＢ映像
の大きさ（映像の横長さ×縦長さ）に対応したピクセル
数のカウント値を記憶する。最小外廓四角形構成部４１
は、最適の探索テンプレート内で顔映像が含まれる最小
外廓四角形（ＭＢＲ:ｍｉｎｉｍｕｍｂｏｕｎｄａｒ
ｙｒｅｃｔａｎｇｌｅ）を構成する。

【００３９】探索テンプレートは、両目の相対的な位置
関係によっては映像に対して四角形の方向が回転する場
合もあるが、最小外廓四角形は、最適探索テンプレート
によって決定された顔の外廓は含み、かつ顔が回転する
か否かに関係なく映像と同一な方向に形成された四角形
である。

【００４０】形状メモリ更新部４２は、形状メモリ４３
に記憶された各ピクセルに対してカウント値の中から最
小外廓四角形の領域に対応するカウント値については増
加させ、最小外廓四角形以外の領域に対応するカウント
値については減少させる。

【００４１】追跡位置抽出部４４は、形状メモリ４３か
ら所定値以上のカウント値が位置した領域を話し手位置
領域として出力する。一方、速度及び形状解析部４５
は、最小外廓四角形の大きさ及び動き速度を算出して、
形状メモリ更新部４２により増加または、減少される値
の大きさを制御する。

【００４２】以下、本発明の動作内容を詳細に説明す
る。まず、図２、図５及び図６（Ａ）から図６（Ｄ）を
参照して本発明に係る目の候補領域の決定過程を説明す
る。本発明では一般静止映像または、ビデオカラー映像
のビデオ信号を入力して用いる。入力された映像のビデ
オ信号ＹＵＶは、色変換部２１により３色信号ＲＧＢに
変換される。

【００４３】本発明において、目の位置検出のために考
慮すべき３種の重要な特性として、カラー映像で目が有
する相対的に強い灰色性向、目近辺の位置の水平エッ
ジ、またはテクスチャ、そして分布の凝集性が挙げられ
る。

【００４４】図５は、このような３種の特徴を説明する
ための図面である。図５には１６名に対して各２枚ずつ
計３２枚の正面顔映像とその正面顔映像を平均した１枚
の映像とが示されている。図５の各映像に示されるよう
に、両目の形状は凹状が丸い円形状として集中して示さ
れることが分かる。このような３種の特徴の組合せを通
して目の候補点を抽出することが本発明による目の候補
領域を決定する過程の重要な要旨である。

【００４５】図６（Ａ）は、ＭＰＥＧで用いられる代表
的な４個の映像を示す図である。この映像は、主に頭と
上体とが見える上半身（Ｈｅａｄ＆Ｓｈｏｕｌｄｅ
ｒ）映像である。図６（Ａ）に共通的に示されるよう
に、目の部分は黒色に近い相対的に強い灰色の特徴を示
している。このような灰色の特徴は、図５に示すように
目の部分が凹状幾何学的な形状という点に由来するもの
である。

【００４６】したがって、強灰色抽出部２２は、任意の
一つのピクセルに対してカラーを示す色要素の最大値と
最小値との差が小さく、かつ明るさが低く分布すれば相
対的に強い灰色性向を示すという特徴を利用して、映像
の色信号から相対的に強い灰色性向を示すピクセルを抽
出する。図６（Ｂ）は、このような灰色の特徴を示すピ
クセルを抽出したものを示す図である。図６（Ｂ）では
各映像で灰色性向を有するピクセルは、白色のピクセル
で元の映像に重畳して表示され、目の部分のみならず背
景が相対的に暗い部分がすべて抽出されている。

【００４７】このような抽出ピクセルに対する映像座標
における空間分布を見ると、目の部分は顔の皮膚領域内
部に凝集して示されているが、背景や頭の部分の灰色ピ
クセルは比較的大きな塊であったり、比較的幅広く広ま
ったりして発生していることが分かる。すなわち、この
ような相対的に強い凝集性を示すという目の部分の特徴
は、一貫的に表れるものである。このような部分凝集特
性を用いて目の候補領域のみを抽出することができる。

【００４８】強灰色抽出部２２から出力されたエッジピ
クセルに対して中間値（ｍｅｄｉａｎ）フィルタリング
と領域ラベリングされた後、領域形状解析部２５によっ
て各領域の大きさと形状などが計算されて部分凝集性を
示さない領域は取り除かれる。

【００４９】環状性測定では領域の方向や大きさに関係
なく、形状が円に近い領域を探すことが必要である。し
たがって、本発明に係る一実施の形態では、このような
特徴を示す形状測定基準としてＨａｒａｌｉｃｋ[Ｃｏ
ｍｐｕｔｅｒ＆ＲｏｂｏｔＶｉｓｉｏｎ、Ａｄｄ
ｉｔｉｏｎ−ＷｅｓｌｅｙＰｕｂ．、１９９２]による
下記式（２）及び式（３）を用いることが望ましい。

【００５０】

【数２】

【００５１】

【数３】

【００５２】前記式（２）及び前記式（３）中、二値μ
_Rとσ_Rとは各々ピクセル（ｒ_k、ｃ_k）であってｋ＝０、
…、ｎの項で定義され、ｋは形状内部のピクセルに対す
るインデックスであり、下記（４）は領域中心の座標で
ある。

【００５３】

【数４】

【００５４】前記式（２）及び前記式（３）によって算
出された二値からμ_R／σ_R値を測定すると、この値が形
状の環状性を示す値となる。このμ_R／σ_R値が所定の値
より低い値を示せば、任意の形状になる場合が多いので
その領域は取り除かれる。なお、ここに示す本発明の望
ましい一実施の形態では、このμ_R／σ_R値が１．２と決
定されたが、本発明の範囲はこれに限定されるものでは
ない。

【００５５】領域のＭＢＲ（ＭｉｎｉｍｕｍＢｏｕｎ
ａｒｙＲｅｃｔａｎｇｌｅ）を求めて細長比（横／
縦）を算出してこの細長比に制限を置くことにより、映
像の上下方向に少し長めの領域が取り除かれる。本発明
に係る一実施の形態では、細長比が０．７より小さい
か、または３．５より大きい領域は取り除かれる。ま
た、領域内のピクセル数を数えて所定の大きさ以上の領
域が取り除かれる。本発明に係る一実施の形態では、領
域の大きさが（映像の横ピクセル数×映像の縦ピクセル
数）／１６００より大きければその領域は取り除かれ
る。すなわち、領域形状が比較的幅広く分布したり、大
きさがあまりにも大きい形態であったり、あるいは比較
的長く連結された形態を取り除く作業が実行される。し
かし、本発明の範囲はこのような一実施の形態で用いた
数値的な制限に限定されるものではない。

【００５６】図６（Ｃ）は、形態論演算子を用いて検出
したテクスチャ特徴を示すものである。図６（Ｃ）によ
ると、明るさの稠密性の差により目の部分で比較的強い
応答（明るさの大きさ）を有するテクスチャ特性が抽出
されている。このようなテクスチャ特徴は、領域間の境
界ではないエッジ部で強く示されるという特徴がある。
また、目の近辺では垂直方向に明るさの交差が強く生じ
るので、水平エッジ特性が一貫的に存在することが分か
る。したがって、領域形状解析を通して抽出された目の
領域候補中、水平エッジ特性とテクスチャ特性とを強く
含んだ部分のみを選択することによって目の候補領域を
最終的に決定することが可能である。

【００５７】図６（Ｄ）は、このようにして抽出した最
終的な目の候補領域の位置を示している。目は一つの顔
に２個存在するので、目の位置が決定されると、これと
比較すべき顔テンプレートの大きさ、方向、位置などを
決定することができる。すなわち、抽出された目の候補
位置によって顔テンプレートを重ねて、最終的に顔の領
域を判別することにより目の位置が決定される。

【００５８】図３、図７（Ａ）から図７（Ｃ）、及び図
８を参照して、顔の位置を決定する過程を説明する。図
７（Ａ）から図７（Ｃ）は、モデルテンプレートを用い
て最適の探索テンプレートを決定する過程を説明する図
である。図７（Ｂ）は、検出された目の候補領域と重複
させてマッチングされた探索顔テンプレート（ｆａｃｅ
ｔｅｍｐｌａｔｅ）の形状を示している。

【００５９】モデルテンプレートは、大きさが変化でき
る四角形状と内部に目の位置を示す二つの円形状とで構
成されている。それ以外に四角形の底辺に鼻と口とが位
置することができる領域が内部に含まれている。モデル
テンプレートは、一旦比較する目の候補領域の位置が選
定されると、映像上の位置と形状、方向及び大きさが決
定されて目の候補領域上に重なる。

【００６０】つぎに、重なったモデルテンプレートの内
部に入る映像上の領域の色と幾何学的特徴とを調べるこ
とによって選択された目の候補領域が、実際に顔上の目
を示す領域であるのか否かを決定する。モデルテンプレ
ートは、４個の因子を有して探索テンプレートに相似変
換する。すなわち、二点に対する４個の式と４個の未知
数とがあるので変換因子を決定することが可能である。
図７（Ｃ）は、最終的に認識された目の位置と検出され
た顔の領域とを示している。

【００６１】次に列挙した事項は、目の位置によって決
定された探索テンプレートに対して顔を認識する過程を
示すものである。（１）人の顔は皮膚色を帯びており、人の皮膚色の分布
は一般に一定の範囲を有する。照明や形状が変化すると
物体の反射色は、比較的幅広く、または比較的大きく変
化するが、大部分の映像に対して人の顔や皮膚色は一定
値と分布とを有するものであることは多くの研究から公
知となっている。このような皮膚色の分布を用いれば顔
の候補領域を認識することが可能である。顔の色は、２
次元色空間でガウス（Ｇａｕｓｓｉａｎ）分布を有する
と仮定できる。したがって、例えば数千枚のＭＰＥＧビ
デオ映像で皮膚色を選択して統計値を算出することがで
きる。この統計値を利用して図７（Ｂ）で重なった探索
テンプレート内部の領域が皮膚色に近いか否かを示す確
率距離を算出することが可能である。本発明に係る一実
施の形態では下記式（１）によって算出されるＭａｈａ
ｌａｎｏｂｉｓ距離を確率距離として用いている。

【００６２】

【数１】

【００６３】前記式（１）において、ｄは確率距離であ
り、ｘは色差信号Ｃ_r、Ｃ_bから構成される入力された色
のベクトル値であり、μは学習された皮膚色の平均ベク
トルであり、Σは学習値の分散行列を示している。テン
プレートの大きさに対して正規化された内部の色度値に
対する確率距離の和が小さいほど顔の領域となる可能性
は大きくなる。

【００６４】（２）四角形状の探索テンプレートで底辺
の中央部近辺は、口または鼻の位置となり、この部分の
水平エッジ成分は比較的大きく示される。これとは反対
に、口の部分、鼻の部分と目の部分とを除いた探索テン
プレートにおける残りの顔の領域部分は、比較的均一な
明るさ分布を有してエッジ成分は特に存在しない。した
がって、これら二つの領域における水平エッジ成分の比
を求めて、これらの値を判別値として利用する。

【００６５】（３）目の部分の水平エッジは相対的に大
きい。したがって、目の部分を示す円の大きさによって
正規化された目の水平エッジ大きさは、顔を判別するた
めに用いることができる。

【００６６】図７（Ｂ）で重なった多くの探索テンプレ
ートに対して、以上の（１）から（３）の３つの項目の
値を各々算出して、各項目の重要度により対応する重み
を与えて得られた加重値を足し合せた値が最小の探索テ
ンプレートを取るようになる。但し、複数の目の候補領
域の対に対して各探索テンプレートが重なる場合には、
最小応答を与える探索テンプレートのみを抽出する。

【００６７】一方、複数の探索テンプレートが重畳され
て形成された領域が、他の探索テンプレートが重畳され
て形成された領域と独立して位置する場合には、複数の
人が存在するものと判別して、独立した領域ごとに別々
の最適テンプレートを決定する。このような過程を通し
て目の位置及び顔の位置を抽出することが可能である。
図８は、上半身が示される典型的な連続したＭＰＥＧ映
像に対して抽出した目の位置と顔の位置とを例示したも
のである。

【００６８】以下、図４、図７（Ｃ）を参照して、抽出
安定化過程を説明する。図７（Ｃ）に示されるように、
顔の認識を通して抽出された目と顔とのテンプレートは
連続した映像で安定化されることが必要である。自然映
像シーケンス（ｎａｔｕｒａｌｉｍａｇｅｓｅｑｕ
ｅｎｃｅｓ）は、映像を獲得するときの環境条件、映像
入力装置内部の因子等多くの要因によって常に映像雑音
を有している。

【００６９】したがって、たとえ極めて短い時間に入力
された映像上の連続した前後二つの映像のみを取り上げ
たとしても、これら二つの映像における画質は多くの場
合に相異なる特性を示す。すなわち、このような映像雑
音特性から映像の特徴値の算出が影響を受け、映像で算
出された特徴値は時間軸に大きく依存して変わるように
なる。

【００７０】このような不安定要因から映像認識や物体
抽出の性能は影響を受け、図７（Ｃ）に示される目と顔
とのテンプレートの位置も連続映像では安定して抽出さ
れることが難しいという傾向を示す。このような不安定
要因を取り除くため、本発明は物体の境界を示すＭＢＲ
位置情報を形状メモリに記憶させる技法を通してテンプ
レート抽出の不安定性問題を解決したものである。

【００７１】通常、質量を有する物体は慣性（ｍｏｍｅ
ｎｔ）を有しており、人や物体が映像で運動する際に、
急激な運動変化が生じても微細な時間軸ではその運動変
化がよく反映されない傾向がある。特に、例えば人の上
半身のみが映ったような映像の場合に、人の空間上の位
置はほぼ一定の位置に連続して示される傾向があり、こ
のような場合には人が急激な運動変化を起こしても連続
映像で見れば低速では徐々に変化するように見えること
がある。

【００７２】すなわち、連続した前後の映像フレームの
間において、この映像の抽出位置に対する時間的な相互
の相関性が存在するようになる。例えば、１秒当たり２
０〜３０枚の単位で獲得されたビデオ映像を見るとき、
ｉ番目のフレームでは左側に存在した物体が（ｉ＋１）
番目のフレームで突然に右側に存在するようなことは、
通常起こらない。このような時間軸の相互の相関性を利
用すれば映像の抽出位置を安定化させてＭＢＲを連続的
に抽出及び追跡することが可能である。このような過程
は前記した形状メモリを用いる技法を利用して比較的簡
単に解決することができる。

【００７３】まず、映像フレームの大きさ程度のカウン
ト値を記憶するための空間を有する形状メモリを確保
し、各ピクセルに対応するカウント値を初期化する。次
に、抽出された顔のＭＢＲをｎ個入力し、このＭＢＲ内
部のピクセルの位置に対して割り当てられた形状メモリ
のカウント値を増やす。連続した次の映像で同様に抽出
された顔のＭＢＲを入力し、前記した過程と全く同じ過
程を繰り返す。

【００７４】もし、抽出されたＭＢＲが連続映像で連続
して類似した位置で抽出された場合には、形状メモリの
対応位置におけるカウント値は引続き増えていく。この
カウント値は予め決められた所定の値に到達するときま
で継続的に増え、所定の値に到達すればその値を維持す
るようになる。

【００７５】逆に、ＭＢＲ以外の位置では形状メモリの
カウント値が繰り返して減少され、０に到達すれば０を
続けて維持するようになる。本発明に係る一実施の形態
では、カウント値が０〜７の間の値を有するようにな
る。このような過程を繰り返すようにすれば類似の位置
で連続して抽出される物体のみ安定して、しかも正確な
抽出を実行することができ、位置がランダムで、かつ反
復して抽出される物体の場合には、自然に形状メモリ上
で比較的低いカウント値を有するようになる。

【００７６】したがって、形状メモリのカウント値を検
査して予め定められたしきい値以上のカウント値を示す
部分のみ物体が存在するものと判別することができる。
本発明に係る一実施の形態では、３以上のカウント値を
示す部分のみを顔が存在する位置として判別するように
構成した。しかし、本発明の範囲は前記したカウント値
の範囲及び話し手位置を決定するためのしきい値に限定
されるものではない。

【００７７】このような本発明に係る形状累積メモリの
長所は、比較的簡単に物体抽出と位置安定化とを同時に
達成することができれば、性能に対する実行速度が非常
に速いものとなる。また、急激な位置の変化や、抽出さ
れたＭＢＲの大きさに対応して、カウントステップを減
らしたり加えたりして適宜に調節することができるの
で、動く物体の速度、物体の重要性、または形状特性に
も適応できる。すなわち、より遅く動く場合と物体の顔
の大きさが比較的小さい場合には、カウントステップを
比較的大きくすることが望ましい。

【００７８】動画像電話機や携帯電話等の動映像通話に
おいて、人の顔の領域は最も重要な関心を集める領域Ｒ
ＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）とな
る。したがって、抽出された顔の領域の情報を用いてＭ
ＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６３
等のエンコーダを用いて圧縮された映像を生成すること
において、顔の領域の画質を改善することができる。

【００７９】すなわち、本発明は関心度の比較的高い領
域である顔の部分のみを比較的高い画質の画像で送り、
残りの背景の領域や関心度の比較的低い領域部は、比較
的低い画質の画像や比較的少ない情報量で送ることによ
って、全体的に伝送情報量を調整し、かつ関心度の比較
的高い領域の顔の部分のみを比較的高い画質の画像に維
持する装置に適切に適用することができる。

【００８０】本発明の望ましい実施の形態による話し手
位置検出方法は、コンピューターシステムで実行できる
プログラムで作成可能であり、このようなプログラムを
記録したコンピュータで読むことができる記録媒体から
読み取って、汎用ディジタルコンピューターシステムで
実行することができる。このような記録媒体としては、
マグネチック記録媒体（例えば、ＲＯＭ、フロッピー
（登録商標）ディスク、ハードディスク等）、光学的判
読媒体（例えば、ＣＤＲＯＭ、ＤＶＤ等）及び搬送波
（例えば、インターネットを通した伝送）のような媒体
が含まれる。

【００８１】以上、本発明に対してその望ましい実施の
形態を中心に説明した。本発明が属する技術分野で通常
の知識を有する者であれば、本発明が本発明の本質的な
特性から外れない範囲内で変形された形態で具現できる
ことは容易に理解され得るものである。それゆえ、ここ
に開示された実施の形態は、限定的な観点ではなく本発
明の技術的思想の基本概念的な観点から考慮されなけれ
ばならない。本発明の範囲は前述した説明のみに限定さ
れるものではなく特許請求の範囲に示されており、それ
と同等な範囲内にあるあらゆる相違点は本発明に含まれ
るものとして解釈されなければならない。

【００８２】

【発明の効果】本発明によれば、映像で話し手の目の位
置と顔の位置とをより正確に、しかもより速く探し出す
ことができ、なおかつ映像雑音にも強くしてそれらを実
現することができる。

【００８３】すなわち、停止した背景及び動く背景を有
する映像に同時に適用可能で、目の位置及び顔の位置を
検出する過程で、映像全体の探索を回避することによっ
て、高速処理及び並列処理が可能となり、運動の検出な
どの方法と組み合わせて信頼性をより高めた話し手の位
置の抽出を可能にすることができる。

【００８４】本発明は、携帯用映像電話端末機、画像会
議、動画像チャットモジュール等に適用可能で、さらに
これらが適用可能なビデオホン、顔の映像の高画質保存
が必要な監視システム、内容基盤映像探索などの応用分
野に適切に適用できる。

【図面の簡単な説明】

【図１】本発明に係る一例の話し手位置抽出による画質
改善装置の全体構成を示したブロック構成図である。

【図２】図１に示す本発明に係る一例の目位置検出手段
をより詳細に示したブロック構成図である。

【図３】本発明に係る一例の顔位置決定手段をより詳細
に示したブロック構成図である。

【図４】本発明に係る一例の抽出位置安定化手段をより
詳細に示したブロック構成図である。

【図５】顔形状の明るさ分布を説明するための図面であ
る。

【図６】図６（Ａ）から（Ｄ）は、目の候補領域を検出
する過程を説明するための図面である。

【図７】図７（Ａ）から（Ｃ）は、顔の位置を検出する
過程を説明するための図面である。

【図８】連続ＭＰＥＧ映像で顔の位置が検出されたこと
を例示的に示す図面である。

【符号の説明】

１０目位置検出手段２０顔位置決定手段３０抽出位置安定化手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者金智淵大韓民国ソウル特別市松坡区新川洞７番地薔薇アパート 17棟 1101号 (72)発明者金昌容大韓民国京畿道儀旺市旺谷洞 593 番地栗谷アパート 101棟 1504号 (72)発明者徐亮錫大韓民国ソウル特別市松波区風納洞 219番地美星アパート３棟 501号Ｆターム(参考） 5B057 BA02 CA01 CB01 CE06 CE18 DA08 DB06 DC09 DC16 DC25 DC32 5C066 AA11 BA20 CA21 EB03 EE02 EF11 GA01 GA02 KC08 KC09 KD06 KD07 KE04 KE07 KE24 5L096 AA02 BA18 CA04 EA45 FA06 FA15 FA18 FA32 FA33 FA69 GA55 JA09

Claims

【特許請求の範囲】

【請求項１】入力されたＲＧＢ映像で、相対的に強い
灰色の特徴を示すピクセルを検出し、この検出されたピ
クセルが形成する領域の中から部分凝集特性を示してテ
クスチャ特徴を有する領域を目の候補領域として決定す
る目位置検出手段と、前記目の候補領域の中から抽出した２個の領域の位置に
マッチングさせて探索テンプレートを形成し、ＲＧＢ映
像で前記探索テンプレートの領域内におけるピクセルの
色度値に対する確率距離の和を正規化した値と、前記探
索テンプレートによって推定される目、口及び鼻の位置
における水平エッジの大きさとを用いて形成された探索
テンプレート中、最適の探索テンプレートを決定する顔
位置決定手段と、前記最適の探索テンプレートを利用して最小外廓四角形
を構成し、形状メモリに記憶された各ピクセルに対して
カウント値の中から前記最小外廓四角形の領域に対応す
るカウント値については増加させ、前記最小外廓四角形
以外の領域は対応するカウント値については減少させる
ことによって、前記形状メモリで所定の値以上のカウン
ト値が位置した領域を話し手位置領域として出力する抽
出位置安定化手段と、を含むことを特徴とする話し手位
置検出装置。
【請求項２】前記目位置検出手段は、入力されたＲＧＢ映像を解析して相対的に強い灰色の特
徴を示すピクセルを抽出する強灰色抽出部と、前記強灰色抽出部によって抽出されたピクセル中、相互
に連結されたピクセル同士を結合して領域を形成する領
域形成部と、前記領域形成部によって形成された各領域に対して部分
凝集特性を検出する領域形状解析部と、前記領域形成部によって形成された各領域に対してテク
スチャ特徴を検出するテクスチャ抽出部と、前記領域形成部によって形成された領域の中から前記部
分凝集特性及び前記テクスチャ特徴が各々所定の値より
大きい領域を目の候補領域と判別する目候補判別部と、
を備えることを特徴とする請求項１に記載の話し手位置
検出装置。
【請求項３】前記顔位置決定手段は、予め備えられたモデルテンプレートを、目の候補領域の
中から抽出した２個の領域の位置に対応させて相似変換
することによって入力されたＲＧＢ映像上に探索テンプ
レートを形成する顔テンプレート形成部と、前記ＲＧＢ映像で探索テンプレートの領域内におけるピ
クセルの色度値に対する確率距離の和を前記探索テンプ
レートの大きさに対して正規化した正規化確率距離を算
出する確率距離演算部と、前記探索テンプレートで推定された目、鼻及び口の位置
で入力されたＲＧＢ映像の水平エッジ特徴値を検出する
エッジ特徴解析部と、前記顔テンプレート形成部によって形成された複数の探
索テンプレート中、前記正規化確率距離及び前記水平エ
ッジ特徴値に所定の重みを与えて得られた加重値によっ
て最適のテンプレートを決定する最適テンプレート決定
部と、を備えることを特徴とする請求項１に記載の話し
手位置検出装置。
【請求項４】前記抽出位置安定化手段は、前記入力されたＲＧＢ映像の大きさに対応するピクセル
数のカウント値を記憶する形状メモリと、前記最適の探索テンプレート内で顔映像が含まれる最小
外廓四角形を構成する最小外廓四角形構成部と、前記形状メモリに記憶された各ピクセルに対してカウン
ト値の中から前記最小外廓四角形の領域に対応するカウ
ント値については増加させ、前記最小外廓四角形以外の
領域に対応するカウント値については減少させる形状メ
モリ更新部と、前記形状メモリで所定の値以上のカウント値が位置する
領域を話し手位置領域として出力する追跡位置抽出部
と、を備えることを特徴とする請求項１に記載の話し手
位置検出装置。
【請求項５】前記強灰色抽出部は、前記ＲＧＢ映像の
各ピクセルに対してカラーを示す色要素の最大値と最小
値との差が所定の値より小さく、かつ最大値が他の所定
の値より小さく分布する場合に、相対的に強い灰色性向
を示すピクセルとして抽出することを特徴とする請求項
２に記載の話し手位置検出装置。
【請求項６】前記領域形状解析部は、各領域の環状性
値を算出する環状性解析部を備え、前記目候補判別部は、この各領域の環状性値が所定の値
より小さい場合に、その領域を目の候補領域から取り除
くことを特徴とする請求項２に記載の話し手位置検出装
置。
【請求項７】前記領域形状解析部は、各領域の細長比
を算出する細長比解析部を備え、前記目候補判別部は、この各領域の細長比が所定の値よ
り大きいか、他の所定の値より小さい場合に、その領域
を目の候補領域から取り除くことを特徴とする請求項２
に記載の話し手位置検出装置。
【請求項８】前記領域形状解析部は、各領域に対して
全体映像の大きさに相対的な領域の大きさを算出する領
域大きさ解析部を備え、前記目候補判別部は、この各領域に対して全体映像の大
きさに相対的な大きさが所定の値より大きい場合に、そ
の領域を目の候補領域から取り除くことを特徴とする請
求項２に記載の話し手位置検出装置。
【請求項９】前記テクスチャ抽出部は、各領域のテク
スチャ応答を算出する最小形態論フィルタを備えた形態
論解析部を有し、前記目候補判別部は、この各領域のテクスチャ応答を算
出して得られたテクスチャ特性値が所定の値より小さい
場合に、その領域を目の候補領域から取り除くことを特
徴とする請求項２に記載の話し手位置検出装置。
【請求項１０】前記テクスチャ抽出部は、各領域の水
平エッジを検出する微分フィルタを備えた水平エッジ解
析部を有し、前記目候補判別部は、この各領域の水平エッジを検出し
て得られた水平エッジ特性値が所定の値より小さい場合
に、その領域を目の候補領域から取り除くことを特徴と
する請求項２に記載の話し手位置検出装置。
【請求項１１】前記モデルテンプレートは、両目を示
す二つの円を含み、かつ鼻の部分と口の部分とを挟んで
四角形の底辺が位置する顔領域の四角形として構成され
ることを特徴とする請求項３に記載の話し手位置検出装
置。
【請求項１２】前記確率距離ｄは、下記式（１）によ
って求められることを特徴とする請求項３に記載の話し
手位置検出装置。【数１】前記式（１）中、ｘは入力色差信号Ｃ_r、Ｃ_bから構成さ
れたベクトル値であり、μは予め学習された皮膚色の平
均ベクトルであり、Σは学習値の分散行列を示す。
【請求項１３】前記エッジ特徴解析部は、前記探索テンプレートで推定される口と鼻の各々の位置
に対応するように入力されたＲＧＢ映像における第１水
平エッジ大きさと、目、鼻及び口の位置以外に前記探索
テンプレートとマッチングする領域に対応する入力され
たＲＧＢ映像における第２水平エッジ大きさとを検出
し、前記第１水平エッジ大きさと前記第２水平エッジ大
きさとの比であるエッジ成分比を算出することを特徴と
する請求項３に記載の話し手位置検出装置。
【請求項１４】前記エッジ特徴解析部は、目の部分を
示す円の大きさによって正規化された目の水平エッジ大
きさを検出し、前記最適テンプレート決定部は、前記正規化確率距離、
前記エッジ成分比及び前記正規化された目の水平エッジ
大きさの各々に所定の重みを与えて得られた加重値を足
し合せた値が最小となるテンプレートを最適のテンプレ
ートと決定することを特徴とする請求項１３に記載の話
し手位置検出装置。
【請求項１５】前記最適テンプレート決定部は、複数の探索テンプレートが重畳されて形成された領域と
他の探索テンプレートが重畳されて形成された領域とが
独立して位置する場合に、この独立して位置する領域ご
とに別々の最適テンプレートを決定することを特徴とす
る請求項３に記載の話し手位置検出装置。
【請求項１６】前記最小外廓四角形の大きさ及び動き
速度を算出することによって、前記形状メモリ更新部で
増加または減少させるべき値の大きさを制御する速度及
び形状解析部をさらに備えることを特徴とする請求項４
に記載の話し手位置検出装置。
【請求項１７】下記段階（ａ）から段階（ｃ）を含む
ことを特徴とする話し手位置検出方法。（ａ）入力されたＲＧＢ映像で、相対的に強い灰色の特
徴を示すピクセルを検出し、この検出されたピクセルが
形成する領域の中から部分凝集特性を示してテクスチャ
特徴を有する領域を目の候補領域と決定する段階。（ｂ）前記目の候補領域の中から抽出した２個の領域の
位置にマッチングさせて探索テンプレートを形成し、前
記ＲＧＢ映像で該探索テンプレートの領域内におけるピ
クセルの色度値に対する確率距離の和を正規化した値
と、探索テンプレートによって推定される目、口及び鼻
の位置における水平エッジの大きさとを用いて形成され
た探索テンプレート中、最適の探索テンプレートを決定
する段階。（ｃ）前記最適の探索テンプレートを利用して最小外廓
四角形を構成し、形状メモリに記憶された各ピクセルに
対してカウント値の中から前記最小外廓四角形の領域に
対応するカウント値については増加させ、前記最小外廓
四角形以外の領域は対応するカウント値については減少
させることによって、前記形状メモリから所定の値以上
のカウント値が位置する領域を話し手位置領域として出
力する段階。
【請求項１８】前記段階（ａ）は、下記段階（ａ１）
から段階（ａ５）を備えることを特徴とする請求項１７
に記載の話し手位置方法方法。（ａ１）入力されたＲＧＢ映像を解析して相対的に強い
灰色の特徴を示すピクセルを抽出する段階。（ａ２）抽出されたピクセル中、隣接したピクセルと相
互に連結されたピクセル間同士を結合して領域を形成す
る段階。（ａ３）形成された前記領域の各々に対して部分凝集特
性を検出する段階。（ａ４）形成された前記領域の各々に対してテクスチャ
特徴を検出する段階。（ａ５）形成された前記領域の中で前記部分凝集特性及
び前記テクスチャ特徴が各々所定の値より大きい領域を
目の候補領域と判別する段階。
【請求項１９】前記段階（ｂ）は、下記段階（ｂ１）
から段階（ｂ４）を備えることを特徴とする請求項１７
に記載の話し手位置検出装置。（ｂ１）予め備わったモデルテンプレートを目の候補領
域の中から抽出した２個の領域の位置に対応させて相似
変換することにより入力されたＲＧＢ映像上に探索テン
プレートを形成する段階。（ｂ２）ＲＧＢ映像で探索テンプレートの領域内にける
ピクセルの色度値に対する確率距離の和を前記探索テン
プレートの大きさに対して正規化した正規化確率距離を
算出する段階。（ｂ３）前記探索テンプレートで推定される目、鼻及び
口の位置で入力されたＲＧＢ映像の水平エッジ特徴値を
検出する段階。（ｂ４）前記顔テンプレート形成部により形成された複
数の探索テンプレート中、前記正規化確率距離及び前記
水平エッジ特徴値に所定の重みを与えて得られた加重値
により最適のテンプレートを決定する段階。
【請求項２０】前記（ｃ）段階は、下記段階（ｃ１）
から段階（ｃ３）を備えることを特徴とする請求項１７
に記載の話し手位置検出方法。（ｃ１）前記最適の探索テンプレート内で顔映像が含ま
れる最小外廓四角形を構成する段階。（ｃ２）形状メモリに記憶された各ピクセルに対してカ
ウント値の中から前記最小外廓四角形の領域に対応する
カウント値については増加させ、前記最小外廓四角形以
外の領域に対応するカウント値については減少させる段
階。（ｃ３）前記形状メモリで所定の値以上のカウント値が
位置する領域を話し手位置領域として出力する段階。
【請求項２１】前記（ａ１）段階は、前記ＲＧＢ映像
の各ピクセルに対してカラーを示す色要素の最大値と最
小値との差が所定の値より小さく、かつ最大値が他の所
定の値より小さく分布する場合に、相対的に強い灰色性
向を示すピクセルとして抽出することを特徴とする請求
項１８に記載の話し手位置検出方法。
【請求項２２】前記（ａ３）段階は、各領域の環状性
値を算出し、前記（ａ５）段階は、領域の環状性値が所定の値より少
ない場合に、その領域を目の候補領域から取り除くこと
を特徴とする請求項１８に記載の話し手位置検出方法。
【請求項２３】前記（ａ３）段階は、各領域の細長比
を算出し、前記（ａ５）段階は、領域の細長比が所定の値より大き
いか、または他の所定の値より小さい場合に、その領域
を目の候補領域から取り除くことを特徴とする請求項１
８に記載の話し手位置検出方法。
【請求項２４】前記（ａ３）段階は、各領域に対して
全体映像の大きさに相対的な領域の大きさを算出し、前記（ａ５）段階は、前記各領域に対して全体映像の大
きさに相対的な大きさが所定の値より大きい場合に、そ
の領域を目の候補領域から取り除くことを特徴とする請
求項１８に記載の話し手位置検出方法。
【請求項２５】前記（ａ４）段階は、各領域のテクス
チャ応答を算出し、前記（ａ５）段階は、この各領域のテクスチャ応答を算
出して得られたテクスチャ特性値が所定の値より小さい
場合に、その領域を目の候補領域から取り除くことを特
徴とする請求項１８に記載の話し手位置検出方法。
【請求項２６】前記（ａ４）段階は、各領域の水平エ
ッジを検出し、前記（ａ５）段階は、各領域の水平エッジを検出して得
られた水平エッジ特性値が所定の値より小さい場合に、
その領域を目の候補領域から取り除くことを特徴とする
請求項１８に記載の話し手位置検出方法。
【請求項２７】前記モデルテンプレートは、両目を示
す二つの円を含み、かつ鼻の部分と口の部分とを挟んで
四角形の底辺が位置する顔領域の四角形で構成されるこ
とを特徴とする請求項１９に記載の話し手位置検出方
法。
【請求項２８】前記確率距離ｄは、下記式（１）によ
って求められることを特徴とする請求項１９に記載の話
し手位置検出方法。【数１】前記式（１）中、ｘは入力色差信号Ｃ_r、Ｃ_bから構成さ
れたベクトル値であり、μは予め学習された皮膚色の平
均ベクトルであり、Σは学習値の分散行列を示す。
【請求項２９】前記（ｂ３）段階は、前記探索テンプ
レートで推定された口の位置と鼻の位置に対応して入力
されたＲＧＢ映像における第１水平エッジ大きさと、
目、鼻及び口の位置以外に前記探索テンプレートとマッ
チングする領域に対応して入力されたＲＧＢ映像におけ
る第２水平エッジ大きさとを検出し、第１水平エッジ大
きさと第２水平エッジ大きさとの比を正規化して得られ
るエッジ成分比を算出することを特徴とする請求項１９
に記載の話し手位置検出方法。
【請求項３０】前記（ｂ３）段階は、目部分を示す円
の大きさにより正規化された目の水平エッジ大きさを検
出する段階をさらに備えて、前記（ｂ４）段階は、前記正規化確率距離、前記エッジ
成分比及び前記正規化された目の水平エッジ大きさの各
々に所定の重みを与えて得られた加重値を足し合せた値
が最小となるテンプレートを最適のテンプレートと決定
することを特徴とする請求項２９に記載の話し手位置検
出方法。
【請求項３１】前記（ｂ４）段階は、複数の探索テン
プレートが重畳されて形成された領域が他の探索テンプ
レートが重畳されて形成された領域と独立して位置する
場合に、独立した領域ごとに別々の最適テンプレートを
決定することを特徴とする請求項１９に記載の話し手位
置検出方法。
【請求項３２】前記（ｃ１）段階の後に、前記最小外
廓四角形の大きさ及び動き速度を算出し、前記形状メモ
リで増加、または減少させるべき値の大きさを決定する
段階をさらに備えることを特徴とする請求項２０に記載
の話し手位置検出方法。