JP4335565B2

JP4335565B2 - 画像あるいは一連の画像内の１つあるいは複数の色領域を検出しかつ／または追跡するための方法および装置

Info

Publication number: JP4335565B2
Application number: JP2003099347A
Authority: JP
Inventors: ジェイムズ・クーパー; ミロスロー・ボバー; スタヴロス・パシャラキス
Original assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Current assignee: Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date: 2002-04-08
Filing date: 2003-04-02
Publication date: 2009-09-30
Anticipated expiration: 2023-04-02
Also published as: CN100393106C; EP1353516A1; JP2003346145A; US20040017938A1; US7236629B2; CN1450796A

Description

【０００１】
【発明の属する技術分野】
本発明は画像内の１つあるいは複数の色領域を検出するかつ／または追跡するための方法および装置に関する。本発明は主に、画像内の顔領域のような皮膚色領域を特定することに関する。本発明は特に移動テレビ電話において用いることを目的とするが、セキュリティシステムおよびテレビ会議システムのような他の応用形態において用いることもできる。本出願による同時係属の英国特許出願２３５７６５０号は、顔検出および追跡を用いる移動テレビ電話の一例を記載する。
【０００２】
【従来の技術】
画像内の顔領域を検出するための様々な手法が知られている。これらは、顔の造作に基づく手法、動きに基づく手法および色に基づく手法を含む。顔の造作に基づく手法は、目、鼻および口のようなある特定の顔の造作を検出することにより、ある顔領域を特定しようと試みる。動きに基づく手法は、ある画像において動きのある領域が顔の可能性が高いという原理を基にして動作する。色に基づく手法は、ある画像内の皮膚色領域を探索する。
【０００３】
既知の顔検出手法の多くは計算にコストがかかり、それゆえ移動テレビ電話あるいはテレビ会議のようなリアルタイムの応用形態の場合に理想的ではない。そのような応用形態の場合に好ましい手法は色に基づく手法である。
【０００４】
簡単に述べると、色に基づく顔検出は、皮膚色に対応する色を有する画像の領域を抽出することを含む。顔検出システムは、アフリカ人、アジア人およびヨーロッパ人のような、ある範囲の皮膚の色調を検出することができ、画像が取得された照明条件のいかんを問わず皮膚色を検出できなければならない。したがって、色に基づく数多くの既知の顔検出方法は、ＲＧＢのような第１の色空間からの画素値を第２の色空間に投影することを含み、第２の空間内の画素値は皮膚の色調および照明条件の変動の影響を受けにくい。色相‐彩度、正規化された赤‐緑および対数色空間が種々の皮膚の色調を検出する際に良好な結果を生成すること、およびＨＳＬのようないくつかの色空間が明度成分を色情報から分離することが知られている。
【０００５】
米国特許第５，４３０，８０９号において提示される方法によれば、皮膚および髪エリアの検出を通して顔検出および追跡が達成される。皮膚検出は、各画素の色相値を人間の皮膚の範囲を表す限度（閾値）と比較することにより実行され、髪検出は、各画素の明度値を人間の髪の明度に対応する限度（閾値）と比較することにより実行される。その後、顔検出は、ヒューリスティックルールと関連付けて皮膚および髪の対を検査することにより実行される。この方法が抱える問題は、色相に基づく閾値判定が大きな範囲の色値を抽出し、結果として、皮膚ではないが、皮膚に類似の領域が皮膚として抽出される可能性があることである。この方法が抱える別の問題は、明度に基づく髪検出によって、その方法が、検出されることになる人の髪の色に敏感に反応するようになるとともに、照明の大きな変化に影響を受けやすくなることである。
【０００６】
米国特許第６，１４８，０９２号において提示される方法によれば、画像内の画素の正規化された赤および緑値と、正規化された赤緑面の矩形あるいは円形領域として表される所定の領域とを比較することを通して皮膚検出が達成される。その後、顔検出が、皮膚画素を画像軸上に投影することにより達成される。この方法の短所は、１つの画像内の多数の顔を検出するために直に適用することができないことである。
【０００７】
米国特許第６，３４３，１４１号では、最初にシェープロケータを用いることにより顔検出が達成される。このシェープロケータは、画像内の全ての物体のエッジを特定し、どのエッジが顔を表すものとみなされる所定の形状、すなわち楕円形に近似するかを求める。その後、そのような形状内の画素が検査され、ＤＣＴによる技法を用いて、それらの形状が皮膚の信号エネルギー特性を有するか否かに基づいてそれらが皮膚であるか否かが求められる。それが皮膚に該当する場合には、その後、これらの画素のＣ_rおよびＣ_b色値に基づく色パラメータがサンプリングされ、ある範囲の皮膚の色調が作成され、画像全体においてこれらの皮膚の色調が探索され、さらに皮膚領域が特定される。この方法の短所は、シェープロケータに基づく初期の顔位置の特定が視点の変化に影響を受けやすく、たとえば横顔の視点の場合には、もはや顔が所定の形状による特徴を示さない場合がある。
【０００８】
米国特許第６，２６３，１１３号では、別の顔検出方法が提示される。最初に、皮膚画素を特定するために、画像内の画素の値をＹＵＶ色空間内の範囲と比較することにより、色フィルタリングが実行される。この過程は、皮膚および背景エリアの両方を含む場合がある連続した皮膚に類似のエリアを生成し、これらのエリアを断片化するために、エッジ検出および除去が、１組のヒューリスティックルールに基づいて断片化されたエリアが顔のように見えるまで実行される。また、顔は多数の皮膚状の断片によって表される場合もあるので、１組のヒューリステックルールに基づいてさらに顔のようなエリアを特定するために、グラフに基づいてエリア合成も実行される。最後に、誤って顔とされた断片の数を低減するためにさらに別のルールが適用される。この方法の短所は、用いられるヒューリスティックルールが、顔の最大サイズおよび顔が縦向きであることのような、顔の形状に関する推測的な仮定を行うことである。
【０００９】
色に基づく皮膚検出によらない他の顔検出方法が提案されている。米国特許第５，２８０，５３０号において提示される方法によれば、物体の検出および追跡が、グレースケール画像における大域および局所テンプレートマッチングと、動的に適応するテンプレートを用いることにより行われる。この方法の短所は、顔検出および追跡に成功するために、初期のテンプレートを形成するために追跡されることになる人の協力を必要とすることである。
【００１０】
米国特許第４，９７５，９６０号では、顔検出および追跡が、グレースケール画像内の鼻孔の検出および追跡を通して達成される。この方法は、適当なカメラの位置決めを含む、自動化された音声認識という最終目標とともに提示されるが、カメラの距離または視点に起因して、鼻孔が明瞭に視認できない場合には適用できないであろう。
【００１１】
米国特許第６，０２８，９６０号では、鼻孔検出と、色情報を用いることに基づく顔検出および追跡のための方法が提示される。上記の米国特許第４，９７５，９６０号の短所がこの方法にも当てはまる。
【００１２】
Margaret. M. Fleck等による「Finding Naked People」というタイトルの論文は、元の色値を対数色空間に変換し、その値を皮膚フィルタに入力し、さらにテクスチャ探索アルゴリズムを用いることにより、画像内の皮膚を探索するためのシステムを記載する。検出された皮膚が、その画像のある特定の割合よりも大きな領域を占める場合には、形状解析が実行され、その皮膚領域が体の一部の特徴を示すか否かが確認される。対数色空間による手法は皮膚抽出の場合に適正に動作するが、テクスチャ解析は計算にコストがかかり、そのためリアルタイムの応用形態には特に適していない。
【００１３】
Soriano等による論文「Skin detection in video under changing illumination conditions」は、皮膚モデルヒストグラムを利用し、そのヒストグラムの値を画素値に割り当て、その後、閾値判定を行うことを開示する。
【００１４】
応用形態によっては、フレーム間で顔領域を追跡することが望ましい場合もある。これは、画像内にいくつかの顔領域あるいは皮膚色領域が存在する場合に困難である可能性がある。また、上記の本出願人による同時係属の英国特許出願第２３５７６５０号の場合のように、顔領域が選択的な符号化および表示のようにさらに別の処理のために抽出されることになる場合のようなある特定の応用形態では、皮膚領域の正確な位置およびサイズを求めることも重要である。
【００１５】
【発明が解決しようとする課題】
本発明の目的は、画像あるいは一連の画像内の１つあるいは複数の色領域を検出するかつ／または追跡するための方法および装置を提供することである。
【００１６】
【課題を解決するための手段】
本発明の態様は添付の請求の範囲に詳述される。
【００１７】
【課題を解決するための手段】
たとえば、本発明は、ある画像内の所定の色特性を有する少なくとも１つの領域を検出する方法を提供し、その方法は、
その画像内の画素の色値を第１の色空間から第２の色空間に変換することと、
第２の色空間内の色値を用いて、画素と所定の色特性との間の一致を表す確率値を求めることであって、その確率値は多数の値にわたって変動する、該求めることと、
その確率値を用いて、所定の色特性に少なくとも近い画素を特定することと、
所定の色特性に少なくとも近い連結された画素を特定し、前記連結された画素を、特定された画素から構成される１以上のグループにグループ分けすることと、
グループサイズおよび／またはグループ位置、あるいはパワー、すなわちそのグループ内の画素のための確率の和のような、各グループについての情報を抽出することとを含む。
【００１８】
画素のグループ化および／またはグループについての情報の抽出は、多数の異なる確率値を用いることを含む。言い換えると、たとえば、確率値の閾値判定および二値化を用いることなく、グループ化あるいはグループ情報の導出のいずれかにおいて、画像のマルチレベル確率マップが用いられる。これにより、その性能を大きく改善することができる。
【００１９】
以下の説明では、本明細書において用語「画素」が参照される場合に、それは必ずしも各事象において同じ画素を意味するとは限らない。たとえば、用語「画素」は、状況に応じて、元の画像内の画素を指す場合があるか、元の画像をダウンサンプリングまたは平均することから導出される画素を指す場合があるか、あるいは画素のブロックを指す場合がある。
【００２０】
本発明の結果として、顔領域のような特定の色領域がそのサイズおよび／または位置についての情報とともに特定され、たとえば、特に同時に追跡されている、いくつかの顔のようないくつかの領域が存在するときに、顔領域の追跡、抽出および相関をより簡単に、しかもより正確に行うことができる。また本発明は、顔領域上の「ズーミング」のような機能を簡単に行うことができる。
【００２１】
その画像処理は、処理の複雑さを軽減し、その方法を移動体装置のような小型のシステムにさらに適合させるために、ダウンサンプリングフェーズあるいは簡単なセグメンテーションプロセスを含むことが好ましい。
【００２２】
色領域の特定は、取得された画像を第１の色空間から第２の色空間に変換することと、色フィルタリングステージにおいて色モデルと比較することとを含むことが好ましい。フィルタリングステージは、ある較正方法を用いて、撮影された人の皮膚色のような個々の色分布に対して調整できることが好ましい。これにより、その方法は、たとえば皮膚に対する木のような、類似の色の画像内の他の領域に対して誤りが生じにくくなる。用いられる第２の色空間は、求められる色あるいは色分布を改善することができるように選択される。
【００２３】
【発明の実施の形態】
本発明の実施形態が、添付の図面を参照しながら記載されるであろう。
【００２４】
本発明の応用形態の一例は移動テレビ電話通信システムである。そのようなシステムの構成要素が図１にブロック図の形で示される。一般的に言うと、そのシステムは本出願人による同時係属の英国特許出願第２３５７６５０号に記載されるようなシステムであり、一連の取得された画像内の顔領域を抽出かつ追跡し、受信機において表示するためにその顔領域のみを符号化し、送信する。
【００２５】
移動電話（図示せず）はユーザの画像を取得するためのカメラ２を含む。カメラ２は、移動テレビ電話において用いるための既知のタイプのカメラであり、電話器のハンドセットの一部である。別の実施形態では、カメラは、たとえばリード線によって、あるいは無線通信によって電話器のハンドセットに接続される個別の構成要素である。この実施形態では、カメラはＣＩＦ解像度（３５２×２８８画素）で画像をデジタル化する。
【００２６】
そのカメラは、取得された画像を表す、カメラ２から受信された信号を処理するためのシグナルプロセッサ４に接続される。シグナルプロセッサ４は、図２にさらに詳細に示される。シグナルプロセッサは、取得された画像内の顔あるいは頭のサイズおよび位置を検出するための顔検出モジュール１６と、顔が画像内で動くのに応じてその顔を追跡するための顔追跡モジュール１８と、画像の特定の領域を選択するためのフレーム領域選択モジュール２０と、顔領域抽出モジュール２２とを含む。顔検出モジュールおよび顔追跡モジュールは、以下にさらに詳細に記載される。シグナルプロセッサ４は、顔領域を含む画像内の所望の領域を選択し、かつ抽出するように動作し、それが以下にさらに詳細に記載される。
【００２７】
シグナルプロセッサ４の出力は、画像信号の抽出された領域を表す信号を符号化するための符号器６に接続される。符号器は、符号化された信号を既知の態様で送信するための送信機８に接続される。
【００２８】
そのシステムの受信側は、第２の移動電話（図示せず）の形態の受信端末である。第２の移動電話は、送信された信号を受信するための受信機１０と、受信された信号を復号化するために受信機に接続される復号器１２と、受信された画像をＱＣＩＦ形式で表示するための表示装置１４とを含む。
【００２９】
図には示されないが、第１の移動電話も受信端末の構成要素に対応する構成要素、すなわち受信器、復号器および表示装置を含み、第２の移動電話も第１の移動電話の場合のようなカメラ、シグナルプロセッサ、符号器および送信機を含む。
【００３０】
動作時に、カメラ２によって画像が取得され、結果として生成された信号がシグナルプロセッサ４に入力される。その画像は顔検出モジュール１６によって解析され、その画像内の顔の位置およびサイズのような情報が求められる。
【００３１】
そのような情報は顔検出モジュール１６から顔追跡モジュール１８およびフレーム領域選択モジュール２０に入力され、フレーム領域選択モジュール２０は、顔検出モジュール１６および顔追跡モジュール１８の両方からの情報を用いて、主要な画像から選択されることになるウインドウのサイズおよび位置を求める。この実施形態では、フレーム領域選択モジュール２０は、顔を中心とした所定のサイズのウインドウを選択するように構成される。より具体的には、領域選択モジュールは、表示装置と同じ解像度を有するウインドウを選択する。したがって、この場合には、領域選択モジュールは、顔領域を中心にして１７６×１４４画素のサイズの領域を選択するように構成される。その中心は、任意の適当な態様で定義され、求められることができる。この実施形態では、顔の中心は肌領域の重心である。
【００３２】
顔領域抽出モジュール２２は、カメラからの信号および領域選択回路からの信号を受信し、カメラの画像から顔領域を含むウインドウを抽出する。その後、抽出されたウインドウは、ある適当な既知の符号化方法を用いて符号化するために、標準的なＱＣＩＦビデオコーダ６に転送される。画像の残りの部分は破棄される。これらのステップは、取得されたビデオ画像のフレーム毎に実行される。
【００３３】
符号化された信号は送信され、受信端末によって受信および復号化されて、受信端末において、ＱＣＩＦ形式で顔の画像が表示される。領域の中央に顔を有し、ＱＣＩＦ解像度を有する、取得された画像の領域を選択するプロセスに起因して、表示される画像は中央に顔を有しており、表示装置のための正確な解像度を有する。また顔は、取得された画像内よりも、より大きな部分の画像として表示され、より解像度が高い印象を与える。符号化されたデータは第２の移動電話に送信され、顔領域を含むウインドウが受信され、復号化され、表示される。
【００３４】
本発明は主に、顔検出モジュール１６および顔追跡モジュール１８に関連し、ここでそれがさらに詳細に記載されるであろう。
【００３５】
最初に顔検出モジュール１６の動作が記載されるであろう。この実施形態では、そのモジュールは、メモリ（図示せず）に接続される、固有にプログラミングされたプロセッサとして実装されるが、他の実装形態も実現可能である。その動作方法は、図３および図４の流れ図を参照しながら記載されるであろう。
【００３６】
ある画像フレームがカメラ２によって取得され、ＲＧＢ形式で顔検出モジュール１６に送信される（ステップ１００）。次のステップ、すなわちステップ１１０として、その画像フレームは、処理の複雑さを軽減するためにダウンサンプリングされる。これは、顔検出および顔追跡の処理の実行時の複雑さが、処理される画素の数に直に関連するためである。リアルタイムシステム、および移動電話のような移動体技術を含む数多くの応用形態では、あまり複雑にしないことが特に望ましい。しかしながら、複雑さがクリティカルではない場合には、ダウンサンプリングステージは省略される場合がある。そのような場合には、用語「ダウンサンプリングされた画像」は元の画像を指しており、すなわち１倍でダウンサンプリングすることを意味する。さらに、必ずしもそうではないが、ダウンサンプリングステップは画像の処理の初期段階で実行されることが好ましいことは理解されたい。この方法の他の実施形態では、ダウンサンプリングステップは、画像の処理の後続の時点で実行される場合があるが、これは、画像の処理の複雑さを軽減する際には逆効果の場合がある。
【００３７】
画像のサイズを低減するために種々のダウンサンプリング方法が存在する。ダウンサンプリングの例には、限定はしないが、ブロック平均化、インターリーブ平均化、内部ブロック平均化およびランダム画素平均化が含まれる。それらの各例では、最初にフレームが、８×８、１６×１６あるいは３２×３２画素のような所定の画素のブロックに分割される。その後、各ブロック内の画素値のうちのいくつかあるいは全てが平均化される。その描画した例が図５（ａ）〜図５（ｅ）に示される。ここでは、陰影をつけた画素は、平均化される画素を示す。各ブロックに対するブロック平均化の場合（図５（ａ）を参照されたい）、ブロック内の各画素の色値が合計され、ブロック内の画素の数で割ることにより、そのブロックのための平均値が生成される。インターリーブ平均化の場合（図５（ｂ）および図５（ｃ）を参照されたい）、１つおきの行あるいは列内の画素が平均化される。内部ブロック平均化の場合（図５（ｄ）を参照されたい）、より大きなブロック内のより小さなブロック、たとえば３２×３２ブロック内の１６×１６ブロックが平均化される。ランダム画素平均化の場合（図５（ｅ）を参照されたい）、そのブロックのランダムに選択された所定の数の画素が平均化される。別法では、画像のダウンサンプリングが、平均画素値ではなく、中央画素値を計算することにより、先に記載されたように達成される場合もある。
【００３８】
次に、顔検出モジュール１６は、その色値を、画像が取得された色空間から、皮膚色を検出する際に良好な結果を与えるとともに、画像が取得された皮膚の色調および照明条件の変動に対して影響を受けにくいために選択された第２の色空間に投影することにより、ダウンサンプリングされた画像を処理する。
【００３９】
この実施形態における好ましい第２の色空間は対数ＲＧＢ色空間である。ＲＧＢから対数ＲＧＢへの変換式は以下の通りである。
Ｌ₁＝ｌｏｇ（Ｇｒｅｅｎ＋１）
Ｌ₂＝ｌｏｇ（Ｒｅｄ＋１）−ｌｏｇ（Ｇｒｅｅｎ＋１）
Ｌ₃＝ｌｏｇ（Ｂｌｕｅ＋１）−（ｌｏｇ（Ｇｒｅｅｎ＋１）＋ｌｏｇ（Ｒｅｄ＋１））／２
【００４０】
本発明では、皮膚の色調が青色をほとんど含まないので、Ｌ₃成分は用いられない。第２の色空間として用いられる際に良好な結果を生み出す他の色空間は、正規化されたＲＧＢ色空間およびＨＳＬ色空間を含む。
【００４１】
こうして、ステップ１２０では、ダウンサンプリングされた画像内の画素のＲＧＢ値が、上記の式を用いてＬ₁およびＬ₂値に変換される。以下の説明では、この第２の色空間はＬｏｇＲＧ空間として記載されるであろう。その後、ＬｏｇＲＧ空間内の色値は皮膚領域抽出モジュール１３０に供給され、その第１のステップは、各画素の場合に、それが皮膚領域に属する確率を求めるために、ＬｏｇＲＧ皮膚確率モデル上にそれらを投影することである。その皮膚領域抽出モジュール１３０の内部アーキテクチャが図４に示されており、ここでより詳細に検討されるであろう。
【００４２】
上記のＬｏｇＲＧ皮膚確率モデルは、顔検出モジュール内のメモリに格納され、ＬｏｇＲＧ空間内の値が皮膚色に対応する確率を含む。皮膚確率モデルは、可能な限り大きな範囲の皮膚の色調を網羅し、可能な限り広い照明条件下で、大きな１組のトレーニング皮膚領域を得ることにより作成される。皮膚領域内の各画素値はＬｏｇＲＧ空間内の値に変換され、各ＬｏｇＲＧ値の事象の数をカウントすることにより、ＬｏｇＲＧ空間内にヒストグラムが構築される。このヒストグラムの値は、所与の範囲、たとえば０〜１に標準化されることが好ましい。また、そのヒストグラムは、平滑化し、高い周波数成分を除去するために、たとえばメジアンフィルタあるいは平均フィルタでフィルタリングされることが好ましい。また、この実施形態では、ＬｏｇＲＧ皮膚確率モデルを生成するために、ＬｏｇＲＧヒストグラム全体のうちの比較的少数の関連する部分のみが保持されており、この部分に属さない値は最も低い皮膚確率値、たとえば０を自動的に取得し、それによりその実施態様の複雑さおよび記憶要件を低減している。オプションとして、他の実施形態では、皮膚確率モデルを作成するために、必要に応じて、ＬｏｇＲＧ空間の多数の部分が保持される場合もある。このようにして導出されるＬｏｇＲＧ皮膚確率モデルは、ＬｏｇＲＧ色値が皮膚領域に対応する確率を指示する。ＬｏｇＲＧ皮膚確率モデルの一例が図６（ａ）および図６（ｂ）に示される。ｘ軸およびｙ軸上の点はＬｏｇＲＧ空間内の点に対応し、ｚ軸上の点は皮膚確率に対応する。所与のＬｏｇＲＧ点に対するｚ軸値が高くなるのに応じて、その特定の色が皮膚色であるという確率が高くなる。
【００４３】
こうして、図４のステップ１５０では、ダウンサンプリングされた画像内の各画素の場合に、画素値が皮膚色に対応する確率を指示する値を得るために、ＬｏｇＲＧ値が皮膚確率モデル上に投影される。ダウンサンプリングされた画像の全ての画素に対するこの処理の結果は皮膚確率マップとして知られる。皮膚確率マップの一例が図７に示される。各画素の色調は、それが皮膚色に対応する確率を表しており、画像が薄くなるほど確率が高くなる。明瞭にするために、図７はいくつかの色調値のみを示すが、通常はさらに多くの値が存在するであろう。後続のフィルタリングおよびグループ化とともに、単なる二値の皮膚／非皮膚マップによる代わりにマルチレベル皮膚確率マップを用いることにより、システムの性能が大幅に改善される。
【００４４】
ＬｏｇＲＧ皮膚確率モデルは、ある特定のユーザに対して較正されることができる。たとえば、第１の移動電話のユーザは、そのユーザの皮膚色に適合し、性能を改善するように、皮膚確率モデルを較正することができる。これは、システムを較正モードにすることにより行うことができる。その後、ユーザはカメラ２の焦点を皮膚領域のみに合わせるか、あるいは取得された画像から皮膚領域を手動で抽出し、プロセッサ４が新たなＬｏｇＲＧ皮膚確率モデルを生成する。その後、たとえば、平均化あるいは重み付け平均化することにより、以前のモデルが新たなモデルと合成され、以前のモデルに対して新たなモデルの重要度が調整される。別法では、ユーザから取得されたモデルをそのまま用いることができる。
【００４５】
その方法の次のステップは、平滑化のための皮膚確率マップのフィルタリングであることが好ましい。このステップ、すなわち図４のステップ１６０は、特に、大きな値によって元のフレームがダウンサンプリングされ、粗い皮膚確率マップが生成される場合があるときに望ましい。このフィルタリングは平均あるいはメジアンフィルタのようなフィルタを用いることにより達成されることができ、それにより各画素の所与のサイズの近傍、たとえば３×３が検査され、中央の画素が、それぞれ近傍内の全ての画素の平均値あるいは中央値によって置き換えられる。このステップの結果は、平滑化された皮膚確率マップと呼ばれるであろう。一例として、図７の皮膚確率マップにおいて３×３の近傍をマスクする平均フィルタリングの結果が図８に示される。
【００４６】
平滑化された皮膚確率マップはさらに処理を行うために保持されるが、このマップは、低い皮膚確率を有する皮膚画素を排除し、その方法における後続の処理を容易にするために、二値皮膚確率マップを生成するための閾値判定において用いられる。言い換えると、ステップ１７０において、平滑化された皮膚確率マップ内の各画素の値が、固定された閾値、たとえば０．２５と比較される。その値がその閾値よりも小さい場合には、その画素は最小皮膚確率値、たとえば０を割り当てられ、そうでない場合には、最大皮膚確率値、たとえば１を割り当てられる。一例として、図８の平滑化された皮膚確率マップ上で実行され、上記の閾値を用いるこのステップの結果が図９に示される。
【００４７】
次のステップ、すなわちステップ１８０は、ノイズ、すなわち孤立した皮膚画素の小領域を排除するための二値皮膚確率マップの空間フィルタリングである。このフィルタリングは、他の画素に対するその配置に照らして、皮膚画素を非皮膚画素に、および／または非皮膚画素を皮膚画素に変換することを含む。この例では、このフィルタリングは、その８つの隣接する画素の中で４つ未満の皮膚画素を有する、確率マップ内の全ての皮膚画素を非皮膚画素に変換し、その８つの隣接する画素の中で８つの皮膚画素を有する全ての非皮膚画素を皮膚画素に変換することにより実行される。その方法の他の実施形態では、異なる値が用いられる場合がある。この処理の結果は、フィルタリングされた二値皮膚確率マップと呼ばれるであろう。一例として、図９の二値皮膚確率マップ上でのこのフィルタリング処理の結果が図１０に示される。
【００４８】
フィルタリングされた二値皮膚確率マップは、皮膚領域の連結された画素の１つあるいは複数のグループを含む場合がある。次のステップ、すなわち図４のステップ１９０は連結成分解析、すなわちフィルタリングされた二値皮膚確率マップ内の皮膚画素にラベルを付し、グループ化することを含む。その実施形態では、これは、画素を左上から右下に解析することにより行われる。各皮膚画素はグループ番号を付される。ある皮膚画素が、あるグループ番号を有する皮膚画素に隣接する場合には、その皮膚画素は同じグループ番号を付与される。その皮膚画素があるグループ番号を有する２つ以上の皮膚画素に隣接する場合には、その皮膚画素はこれらのグループ番号のうちの最も小さな番号を取得し、他の皮膚画素も最も小さなグループ番号を取得する。これは第２の解析において行われる場合がある。この処理の結果は、皮膚領域マップと呼ばれるであろう。この処理の一例として、図１１（ａ）は、図１０のフィルタリングされた二値皮膚確率マップ上での第１の解析の結果を示しており、結果として３つのグループが存在し、それは番号１〜３によって特定される。その後、図１１（ｂ）は図１１のマップ上での第２の解析の結果を示しており、２つの隣接するグループが合成される。
【００４９】
次のステップ、すなわち図３のステップ１４０では、各皮膚領域の場合に、ある特定の統計値が計算される。これは、フィルタリングされたマルチレベル皮膚確率マップとともに皮膚領域マップを用いることにより達成される。より具体的には、前者が種々の皮膚領域と、その構成要素である皮膚画素の位置とを指示し、後者はその皮膚画素の皮膚確率を指示する。この実施形態では、両方のマップを用いることにより、各皮膚領域の場合に計算される統計値は、これ以降、その領域の「パワー」と呼ばれることになる、その領域の構成要素の画素の皮膚確率の和と、その領域のパワーを用いて計算されるその領域の重心と、その領域の幅および高さである。最後の２つの値に基づいて、皮膚領域の境界も特定され、各皮膚領域のためのバウンディングボックスが計算される。他の枠形状および／またはパラメータを計算することもできる。一例として、図１２は、図１１（ｂ）の各領域の場合のバウンディングボックスと、十字によって特定される重心とを示しており、以下の表は格納される領域情報である。
【００５０】
【表１】

【００５１】
別法では、統計値の計算が、二値皮膚領域マップのみを用いて実行される場合もある。しかしながら、この手法は、皮膚画素の種々の皮膚確率を考慮に入れ損なうことになり、結果として最適下限の性能になる場合がある。単なる二値皮膚／非皮膚マップによる代わりに、マルチレベルの皮膚確率マップを用いる結果としてシステム性能が改善される。
【００５２】
さらに、皮膚領域の特定は、閾値判定および二値化を用いることなく、マルチレベル皮膚確率マップのみに基づいて、すなわちマルチレベルマップの適当な空間フィルタリングおよび連結成分解析を通して達成される場合もある。この手法は、システムの性能をさらに改善する可能性を有するが、計算のコストが高くなる。
【００５３】
上記のステップの結果として、皮膚である可能性が最も高い画像内の領域が特定される。その後、それらの画素領域の統計値が、上記のように抽出され、格納される。この実施形態は、移動電話のユーザの顔領域を抽出および追跡することに関連するので、次のステップとして、一連のフレーム内の第１のフレームに対して、最も大きなパワーを有する皮膚領域が顔領域として選択される。別法では、その画像の中央部に最も近い皮膚領域を顔領域として選択することができるか、あるいはユーザが対象の顔領域である皮膚領域を手動で選択することもできる。他の応用形態では、皮膚領域のうちの２つ以上の領域が選択される場合もある。
【００５４】
顔検出モジュールの出力は顔追跡モジュール１８に接続される。顔追跡モジュールは、フレーム毎の皮膚領域についての情報（パワー、重心、バウンディングボックス）を受信し、格納する。追跡モジュールはこの情報を用いて、現在のフレーム内の各領域を先行するフレーム内の顔領域に一致させようと試みる。この実施形態では、この照合は、最小空間距離ルールに基づいて実行され、その場合に空間距離は以下に詳述されるように最大軸距離として定義される。異なる実施形態では、ユークリッド距離のような他の距離指標を用いることができる。以下の式では、（ｘ₁，ｙ₁）は以前のフレーム内の顔領域の重心を示し、（ｘ₂，ｙ₂）は現在のフレーム内の皮膚領域の重心を示す。
ｄｘ＝｜ｘ₂−ｘ₁｜
ｄｙ＝｜ｙ₂−ｙ₁｜
最大軸距離＝ｍａｘ（ｄｘ，ｄｙ）
【００５５】
現在のフレームの顔領域が、そのフレームのための皮膚領域の中で最も高いパワーを持たない場合には、ヒステリシス切替え機能が起動される。選択された領域が１１フレーム以上にわたって最も高いパワーを持たない場合には、追跡が最も高いパワーの領域に切り替えられる。このヒステリシス機能は皮膚領域間の切替えを安定させ、類似の領域間のちらつきを防ぐ。
【００５６】
追跡中に、顔の平均位置が多数のフレームにわたって計算される場合があり、この平均位置は、追跡される顔を表示するために用いることができる。この平均化において用いられるフレームの数は所定の限度内でユーザによって制御され、ユーザが追跡の円滑さおよび速度に影響を及ぼすことができるようになる。オプションでは、追跡される顔の位置が平均位置から所定の変位閾値よりも大きく移動するとき、この平均化はリセットされる。
【００５７】
カメラは自動ズーム機能を含む場合があり、その機能によってズームが調整され、追跡される顔領域の寸法が概ね一定に保持されるようになる。ちらつきを避けるために、ズーム機能はヒステリシス機能を含む場合があり、それにより顔領域の寸法の大きな変化が、ある一定の数のフレームにわたって保持される場合にのみズームが調整される。
【００５８】
追跡のヒステリシス、追跡の速度および円滑さのユーザ制御による調整および自動ズーミングのような、記載される実施形態の態様は、本発明の独立の態様であるとみなすことができる。
【００５９】
上記の実施形態では、本発明は移動テレビ電話の内容に沿って記載されてきた。しかしながら、本発明は、セキュリティシステムおよびテレビ会議システムのような皮膚領域の検出に関連する他の応用形態において用いることができる。たとえば、本発明はセキュリティシステムにおいて用いることができ、その場合には、ビルディングの周囲において個人がリアルタイムに特定され、追跡される人認識システムの一部として、１つあるいは複数の顔が同時に追跡される。別の例として、本発明はテレビ会議システムにおいて実装されることができ、その場合には、数人の顔が確認され、顔の順序が一致するように数フレームにわたって正確に追跡される。たとえば、視野内に３人の顔が存在し、各顔が１つのボタンに割り当てられ、視認者が異なる顔を切り替えられるようにする場合がある。顔間の正確な相関が追跡しながら保持され、顔の順序を一致させておかなければならない。そうでなければ、たとえば、顔３が選択されるとき、その特定の選択と以前に関連付けられたものとは同じ顔でない場合がある。
【００６０】
その実施形態は皮膚色領域を検出することに関連するが、本発明は、任意の所定の色あるいは色分布の領域を検出するために用いることができる。
【００６１】
上記の実施形態は、移動テレビ電話通信に関連して記載されてきた。本発明は、テレビ会議、およびパーソナルコンピュータに接続されるカメラからのビデオ画像の伝送のような他の応用形態において用いることもできる。その実施形態は、対象物として話者の顔を含むある領域を選択することを記載するが、本発明は、任意の他の対象物に関連して適用されることができる。本発明はＣＩＦおよびＱＣＩＦを用いて記載されてきたが、他の形式が用いられる場合もある。ある特定の形式を参照すると、それらの形式の回転のような変更が含まれる。たとえば、ＱＣＩＦ形式は高さよりも幅が大きい（紙上に印刷する際の「横長書式」に類似）。人の顔の場合には、９０°だけ回転させたＱＣＩＦ形式、すなわち幅よりも高さが大きいＱＣＩＦ形式（「縦長書式」に類似）が好ましく、結果として、顔は選択された領域のうちのより大きな割合を占め、選択された領域のうちの重要度の低い部分は狭い空間が割り当てられるようになる。選択するかつ／または表示される領域が特定の既知の形式に従わない場合であっても、対象物の性質、特に形状に関連して選択するかつ／または表示される領域を選択する際に、同じような配慮がなされる。
【００６２】
その実施形態では、画像が第１の色空間としてＲＧＢ形式で取得され、第２の異なる色空間としてＬｏｇＲＧ色空間に変換される。しかしながら、画像取得の場合に、さらに第２の色空間として他の色空間を用いることもできる。たとえば、ＹＩＱ、ＹＵＶ、ＲＧＢ、ＨＳＩ、対数のような任意の色形式を用いることができる。しかしながら、第２の色空間は、求められる色領域に適合し、かつ強めるように選択されることが好ましいであろう。上記の説明のように、ＨＳＩ、有彩色空間および対数色空間が特に皮膚領域の場合に最適である。
【００６３】
【発明の効果】
本発明によれば、画像あるいは一連の画像内の１つあるいは複数の色領域を検出および／または追跡するための方法および装置を実現することができる。
【図面の簡単な説明】
【図１】移動体映像通信システムのブロック図である。
【図２】図１の画像処理回路をさらに詳細に示すブロック図である。
【図３】本発明の一実施形態による方法の流れ図である。
【図４】図３の皮膚領域抽出ステップをさらに詳細に示す流れ図である。
【図５】（ａ）ないし（ｅ）よりなり、それぞれ画像をダウンサンプリングする方法を示す図である。
【図６】（ａ）および（ｂ）よりなり、それぞれＬｏｇＲＧ皮膚確率モデルの例を示す図である。
【図７】マルチレベル皮膚確率マップの一例を示す図である。
【図８】フィルタリング後の図７のマルチレベル皮膚確率マップを示す図である。
【図９】二値化後の図８のフィルタリングされたマップを示す図である。
【図１０】フィルタリング後の図９の二値マップを示す図である。
【図１１】（ａ）および（ｂ）よりなり、それぞれ皮膚領域マップを作成するために図１０の二値マップにおいて行われる連結成分解析の一例を示す図である。
【図１２】皮膚領域重心およびバウンディングボックスとともに図８の皮膚確率マップを示す図である。
【符号の説明】
２カメラ、４シグナルプロセッサ、６符号器、８送信機、１０受信機、１２復号器、１４表示装置、１６顔検出モジュール、１８顔追跡モジュール、２０フレーム領域選択モジュール、２２顔領域抽出モジュール。

Claims

ある画像内の所定の色特性を有する少なくとも１つの領域を検出する方法であって、
前記画像内の画素の色値を第１の色空間から第２の色空間に変換することと、
該第２の色空間内の前記色値を用いて、画素と前記所定の色特性との間の一致を表し、多数の値にわたって変動する確率値を求めることと、
前記確率値を用いて、前記所定の色特性に少なくとも近い画素を特定することと、
前記所定の色特性に少なくとも近い連結された画素を特定し、前記連結された画素を、特定された画素から構成される１以上のグループにグループ分けすることと、
各グループについての情報を抽出することとを含み、
前記画素は前記多数の確率値にそれぞれ従って重み付けされ、その重み付けは、前記画素をグループ化する際に、かつ／または、１つのグループについての情報を抽出する際に用いられる方法。
前記抽出される情報は、１つのグループ内の画素の確率値の和に基づくパワーと、グループエリアと、グループサイズと、グループ位置と、グループ重心と、グループ幅と、グループ高と、グループ境界と、グループバウンディングボックス幅と、グループバウンディングボックス高とのうちの１つあるいは複数を含む請求項１に記載の方法。
画像の処理中の任意のステージにおいて前記画像をダウンサンプリングすることを含む請求項１もしくは２に記載の方法。
前記第２の色空間は前記所定の色特性を強め、照明の変化に対して影響を受けにくくする請求項１ないし３のいずれか１項に記載の方法。
前記第１の色空間は線形な色空間であり、前記第２の色空間は非線形な色空間である請求項１ないし４のいずれか１項に記載の方法。
前記第２の色空間は対数色空間である請求項１ないし５のいずれか１項に記載の方法。
１つの画素が前記所定の色特性を有する確率を、前記画素の色値を所定の確率モデルに投影することにより求めることを含み、前記モデルは求められる色特性のヒストグラム全体あるいは該ヒストグラムのうちの１つあるいは複数の領域を含む請求項１ないし６のいずれか１項に記載の方法。
前記確率モデルは、ユーザによって選択されるサンプル色領域を用いて、既存の確率モデルを置き換えるか、該既存の確率モデルと合成するかのいずれかによって、任意の回数だけ較正される請求項７に記載の方法。
前記画像内の最も中央に位置し、かつ／または最も高い確率の和を有するグループが表示するために選択される請求項１ないし８のいずれか１項に記載の方法。
前記画像は一連の画像内にあり、前記所定の色特性を有する画素の少なくとも１つのグループが前記一連の画像内のいくつかの画像において求められる請求項１ないし９のいずれか１項に記載の方法。
前記画素グループは、前記一連の画像を通して追跡され、かつ／または表示される請求項１０に記載の方法。
種々の画像間の画素グループが、距離および／またはサイズ関数を用いて照合される請求項１０もしくは１１に記載の方法。
追跡されるグループの動きが、所定のフレーム数にわたって平均されて、平均位置が生成される請求項１０ないし１２のいずれか１項に記載の方法。
前記動きを平均するために用いられるフレーム数は、所定の限度内でユーザによって求められることができる請求項１３に記載の方法。
あるグループが所定の限度よりも大きな動きを有する場合に、前記グループのための平均化がリセットされる請求項１３もしくは１４に記載の方法。
追跡される各グループは識別タグを割り当てられ、前記追跡されるグループを反復使用するすなわち選択できるようにする請求項１０ないし１５のいずれか１項に記載の方法。
追跡するかつ／または表示するための前記グループをユーザが選択する請求項１０ないし１６のいずれか１項に記載の方法。
前記画像内の最も中央に位置し、かつ／または最も高い確率の和を有するグループが追跡および／または表示するために選択される請求項１０ないし１６のいずれか１項に記載の方法。
前記追跡されるグループが所定の数の連続した画像に対して前記最も高い確率の和を持たないとき、前記追跡および／または表示されるグループは前記最も高い確率の和を有するグループに切り替わる請求項１８に記載の方法。
前記色特性は人間の皮膚の色調に対応する請求項１ないし１９のいずれか１項に記載の方法。
前記領域は人間の顔である請求項１ないし２０のいずれか１項に記載の方法。
前記領域は人間の手である請求項１ないし２０のいずれか１項に記載の方法。
前記確率モデルは対象の画像の領域を抽出することにより較正される請求項７あるいは請求項７に従属する請求項のいずれか１項に記載の方法。
前記画像内の画素の前記グループのエリアに基づいてズーミングが実行される請求項１ないし２３のいずれか１項に記載の方法。
１組の離散したズームレベルが存在する請求項２４に記載の方法。
時間ヒステリシス関数を用いて、離散したズームレベル間の変化を平滑化することを含む請求項２５に記載の方法。
画像取得手段を含む装置を動作させる方法であって、請求項１ないし２６のいずれか１項に記載の方法を用いて、所定の色特性を有する前記取得された画像内の画素のグループを特定することを含む方法。
さらに別の処理を行うために、前記画素のグループを含む１つあるいは複数の領域を抽出することを含む請求項２７に記載の方法。
前記さらに別の処理は、画像表示手段上に表示することを含む請求項２８に記載の方法。
前記装置は画像伝送システムである請求項２７ないし２９のいずれか１項に記載の方法。
請求項１ないし３０のいずれか１項に記載の方法を実行するためのコンピュータプログラム。
請求項３１に記載のコンピュータプログラムを格納するデータ記憶媒体。
請求項１ないし３２のいずれか１項に記載の方法を実施するように構成される装置。
データ記憶手段と画像データ処理手段とを含む請求項３３に記載の装置。
請求項３３もしくは３４に記載の装置を含む通信システムのための送信機。
移動テレビ電話である請求項３３ないし３５のいずれか１項に記載の装置。