JP2004192637A

JP2004192637A - 顔検出

Info

Publication number: JP2004192637A
Application number: JP2003402162A
Authority: JP
Inventors: Robert Mark Stephan Porter; ロバートマークステファンポーター、; Ratna Rambaruth; ラテュナランバルス、
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2002-11-29
Filing date: 2003-12-01
Publication date: 2004-07-08
Also published as: US7336830B2; GB0227893D0; GB2395778A; US20040151381A1

Abstract

【課題】顔検出アルゴリズムにおいて、誤検出を避ける。
【解決手段】ビデオシーケンスからの検定画像と、ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置は、その領域に関して導き出された画像プロパティモデルに最も近くマッチングする、先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、検定画像内の２以上の画像位置に対して適用された画素マスクによって定義された検定画像内の画素と、画像プロパティモデルとを比較し、画像プロパティモデルと、マスク位置においてマスクによって定義された画素との間の最も小さい平均誤差に対応する検定画像のマスク位置において、顔を検出する比較手段とを備える顔映像検出装置。
【選択図】図２

Description

本発明は、顔検出に関する。

人間の顔を検出する顔検出アルゴリズムは、様々な文献で提案されており、これらには、所謂固有顔（eigenfaces）法、顔テンプレートマッチング法、変形可能なテンプレートマッチング（deformable template matching）法又はニューラルネットワーク分類法を使用する手法等がある。これらのいずれの手法も完全ではなく、通常、付随した利点及び欠点を有する。いずれの手法も、画像が顔を含むことを確実な信頼性を持って示すことはなく、全て確率論的な判断（probabilistic assessment）に基づいており、すなわち画像が少なくとも顔を含むある可能性（likelihood）があるという画像の数学的解析に基づいている。それらの用途に従い、アルゴリズムは、通常、顔の誤検出を避けようとするために極めて高く設定された尤度の閾値（threshold likelihood value）を有する。

可能な顔に関するあらゆる種類のブロックベースの解析、又は可能な顔と顔の存在を示す予め派生されたデータとの比較を包む解析において、おそらく顔らしく見えないが、比較テストをパスするある画像属性を有する画像領域によって、アルゴリズムが間違えるという可能性がある。そして、このような領域は、顔を含む確率（probability）が高いとされ、顔の誤検出が生じる。

誤検出が起こることを減らすことを含む顔検出の信頼性を向上させることは、この技術分野における不変の目標である。

本発明に係る顔映像検出装置は、ビデオシーケンスからの検定画像と、ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置において、（１）その領域に関して導き出された画像プロパティモデルに最も近くマッチングする、先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、（２）検定画像内の２以上の画像位置に対して適用された画素マスクによって定義された検定画像内の画素と、画像プロパティモデルとを比較し、画像プロパティモデルと、マスク位置においてマスクによって定義された画素との間の最も小さい平均誤差に対応する検定画像のマスク位置において、顔を検出する比較手段とを備える。

本発明は、顔検出処理において、画像プロパティモデルに最も近くマッチする画素の部分である最も適切な画素の部分を用いる手法を提供する。これにより、より信頼性が高い結果を得ることができる。

なお、「先行する画像」という用語及びこれに類する用語は、画像の検査の順序に関するものであり、ビデオシーケンスにおける時間的な方向に必ずしも関係するものではない。

本発明の更なる側面及び特徴については、添付の請求の範囲において定義されている。

図１は、顔検出システム及び／又は非線形編集システムとして用いる汎用コンピュータ装置のブロック図である。コンピュータ装置は、処理ユニット１０を備え、処理ユニット１０は、中央処理装置（ＣＰＵ）２０と、ランダムアクセスメモリ（ＲＡＭ）のようなメモリ３０と、ディスクドライブ４０のような不揮発性記憶装置と、他の通常の構成要素とを備える。コンピュータ装置は、ローカルエリアネットワーク又はインターネット（あるいは両方）のようなネットワーク５０に接続している。また、コンピュータシステムは、キーボード６０と、マウス又は他のユーザ入力デバイス７０と、表示画面８０とを備える。当業者には、汎用コンピュータ装置がここで記載していない多くの他の従来の部品を含むことは、明らかである。

図２は、顔検出に用いるビデオカメラレコーダ（カムコーダ）のブロック図である。カムコーダ１００は、画像を電荷結合素子（ＣＣＤ）からなる画像捕捉素子１２０上に合焦点するレンズ１１０を備える。電子的な形式で得られる画像は、テープカセットのような記録媒体１４０に記録するために画像処理回路１３０によって処理される。また、画像捕捉素子１２０によって捕捉された画像は、アイピース１６０を介して見られるユーザ表示画面１５０上に表示される。

画像と関連している音を捕捉するために、１つ以上のマイクロホンが用いられる。これらのマイクロホンは、フレキシブルケーブルによってカムコーダ１００に接続され、あるいはカムコーダ１００の本体に搭載されるという意味で、外部マイクロホンであるとも言える。１台以上のマイクロホンからのアナログオーディオ信号は、記録媒体１４０に記録するための適切なオーディオ信号を生成するために、オーディオ処理回路１７０によって処理される。
なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式のいずれか、あるいは両方の形式で記録媒体１４０に記録することができる。したがって、画像処理回路１３０及びオーディオ処理回路１７０は、アナログ／デジタル変換器を備えていてもよい。カムコーダ１００のユーザは、レンズ１１０に電気的制御信号２００を送るようにレンズ制御回路１９０に作用するユーザ制御１８０によって、レンズ１１０の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。
更に、２個のユーザ操作子を説明する。記録媒体１４０への記録を開始し、中止するために押しボタン２１０が設けられている。例えば、押しボタン２１０を１回押したときに記録を開始し、もう１回押したときに記録を中止することができる。あるいは、押した状態を維持することにより記録を行い、又はある時間、例えば５秒間押すことにより記録を開始するようにしてもよい。これらのいかなる構成においても、始めと終わりがある各「撮影（shot）」（連続した記録期間）に対するカムコーダ１００の記録操作の確認は、技術的に非常に簡単である。

図２に示す「素晴らしい撮影マーカ（good shot marker：以下、ＧＳＭという。）」２２０は、ユーザによって操作され、これにより、ビデオ及びオーディオマテリアルに関連した「メタデータ」（関連データ）が記録媒体１４０に格納される。この特別の撮影は、ある観点で「素晴らしい（good）」と操作者によって主観的にみなされたこと（例えば、俳優が特によく演じた、ニュースリポータが各言葉を正しく発音した等）を示している。

メタデータは、記録媒体１４０上の予備領域（例えば「ユーザデータ」領域）に、用いられている特定のフォーマット及び規格に依存して、記録される。あるいは、メタデータはリムーバブルメモリスティック（登録商標）のメモリ（図示せず）のような別個の記録媒体に格納することができ、あるいはメタデータは、例えば無線リンク（図示せず）によって通信する外部データベース（図示せず）に格納することもできる。メタデータには、ＧＳＭの情報だけでなく、撮影条件（shot boundaries）、レンズの属性、ユーザ（例えばキーボード（図示せず））による文字情報入力、全地球測位システム受信機（図示せず）からの地理的位置情報等が含まれてもよい。

以上、メタデータを記録可能なカムコーダについて説明した。次に、このようなカムコーダに顔検出を適用する方法について説明する。
カムコーダ１００は、顔検出器構成２３０を備える。適切な構成のより詳細は、後で説明するが、顔検出器２３０は、画像処理回路１３０から画像が供給され、このような画像が１つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器２３０は、顔検出データを、「ｙｅｓ／ｎｏ」フラグの形式で、あるいは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。

後述するように、顔検出は、検出処理における他の種類のメタデータを用いることにより、助けられる。例えば、顔検出器２３０は、レンズ１１０の現在のフォーカス及びズーミング設定を示すレンズ制御回路１９０からの制御信号が供給される。これらは、画像のフォアグラウンドで表示されるあらゆる顔の予想される画像サイズの初期の表示を与えることによって、顔検出器２１３０を補佐することができる。なお、この観点では、フォーカス及びズーミングの設定は、カムコーダ１００と撮影されている個人との予想される距離、更にはレンズ１１０の倍率を表している。これらの２つの属性からの顔の大きさの平均に基づいて、得られる画像データ内における顔の予想される大きさ（画素）を算出することができる。
従来の（既知の）音声検出器２４０は、オーディオ処理回路１７０からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標（indicator）で示すことができる。
最終的に、撮影境界（shot boundaries）及びユーザによって最も有益であるとみなされるそれらの撮影を示すＧＳＭ情報２２０及び撮影情報（制御２１０から）は、顔検出器２３０に供給される。

もちろん、カムコーダがアナログ記録技術に基づく場合、画像及びオーディオ情報を処理するために、更なるアナログ／デジタル変換器（以下、Ａ／Ｄ変換器という。）が必要とされる。

この実施例では、２段階の顔検出技術を用いる。図３は、トレーニング段階を具体的に説明する図であり、図４は、検出段階を具体的に説明する図である。

以前に提案された顔検出方法（以下に示す参照４及び５を参照）と異なり、この方法は、全体としてではなく顔の一部のモデリングに基づいている。顔の一部は、顔の特徴（所謂「選択サンプリング（selective sampling）」）の推定位置上の中心のブロック、又は顔の通常間隔でサンプリング（所謂「標準サンプリング（regular sampling）」）されたブロックである。ここでは、主に、経験的検定で良い結果が得られた標準サンプリングについて説明する。

トレーニング段階では、解析処理を、顔を含むことが知られている一組の画像に、及び（オプションとして）顔を含まないことが知られている画像（「顔でない画像（nonface images）」）の別のセットに適用する。解析処理は、検定画像を後で（検出段階で）比較することができる顔及び顔でない特徴の数学的モデルを構築する。

したがって、数学的モデル（図３のトレーニング処理３１０）を構築するための基本的な手順は次の通りである。
１．同じ目位置を有するように正規化された顔の画像のセット３００の各顔を、小さいブロックに一様にサンプリングする。
２．後で説明する各ブロックの属性を算出する。
３．属性を、異なる値の処理しやすい数に量子化する。
４．次に、量子化属性を、そのブロック位置に関して１つの量子化値を生成するために組み合わせる。
５．そして、１つの量子化値を、エントリとしてヒストグラム、例えば図５に示すヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報３２０は、顔の特徴の数学的モデルの基礎を形成する。

上述のステップを多数の検定顔画像について繰り返すことによって、１つのそのようなヒストグラムを、各可能なブロック位置に対して作成する。テストデータについては、更に後述する付録Ａで説明する。そこで、８×８ブロックの配列を用いる方式では、６４個のヒストグラムを準備する。処理の後半部において、検定する量子化属性を、ヒストグラムのデータと比較する。データをモデル化するために全部のヒストグラムを用いるという事実は、例えばガウス分布又は他の分布を後でパラメータ化するか否かと仮定する必要はないことを意味する。データ記憶空間（必要ならば）を節約するために、同じヒストグラムが異なるブロック位置に対して再生利用できるように、類似しているヒストグラムを併合することができる。

検出段階で、検定画像３５０を顔検出器３４０で処理するために、検定画像３４０内の連続したウィンドウを、以下のように処理する。
６．ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ１〜４のように量子化する。
７．各ブロック位置の量子化属性値の対応する「確率（probability）」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラムと比較する。ヒストグラムが「確率」データを高める方法については後述する。
８．得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出（所謂誤検出（false positive））してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出（所謂見逃し検出（false negative））してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。

上述のように、トレーニング段階において、一組の「顔でない」画像は、「顔でない」ヒストグラムの対応するセットを生成するために用いることができる。そして、顔の検出を達成するために、顔でないヒストグラムから生成される「確率」を、個々の閾値と比較し、検定ウィンドウが顔を含むためには、確率が閾値以下でなければならない。代わりに、顔でない確率に対する顔確率の比を、閾値と比較することができる。

元のトレーニングセットを例えば位置、方向、大きさ、アスペクト比、背景の風景、照明の明るさ及び周波数成分（frequency content）の変化等の「合成変化（synthetic variations）」３３０で処理することによって、特別な（extra）トレーニングデータを生成することができる。

ここで、属性及びそれらの量子化の導き方について説明する。従来の技術において、属性は、ウィンドウに表示された画像内に存在する異なる種類のブロックを表すコアブロック（又は固有ベクトル）である所謂固有ブロックに関して評価される。まず、固有ブロックの生成について、図６を参照して説明する。
固有ブロックの生成
この実施例の属性は、所謂固有ブロックに基づいている。固有ブロックを、トレーニングセットのブロックの有効な具象的な才能（good representational ability）を有するように設計した。したがって、固有ブロックは、トレーニングセットからのブロックの大きなセットに対して重要な構成要素の解析を実行することによって生成された。この処理を、図６に示すとともに、付録Ｂにおいてより詳細に説明する。
システムのトレーニング
実験を、トレーニングブロックの２の異なるセットによって行った。
固有ブロックセットＩ
まず最初に、トレーニングセットの２５個の顔画像から得られる一組のブロックを用いた。１６×１６ブロックを、重ならないように、１６画素毎にサンプリングした。このサンプリングを、図６に示す。図６から明らかなように、１６×１６ブロックは、個々の６４×６４トレーニング画像から生成される。これにより、全体的に合計４００個のトレーニングブロックが生成される。

これらのトレーニングブロックから生成される第１の１０個の固有ブロックを、図７に示す。
固有ブロックセットＩＩ
固有ブロックの第２のセットを、トレーニングブロックのより大きなセットから生成した。これらのブロックは、トレーニングセット内の５００個の顔画像から得られた。この場合、１６×１６ブロックを、８画素が重なるように、８画素毎にサンプリングした。各６４×６４個のトレーニング画像から、４９個のブロックが生成され、これを合計２４，５００個のトレーニングブロックに適用した。

これらのトレーニングブロックから生成される第１の１２の固有ブロックを、図８に示す。

実験に基づく結果により、固有ブロックセットＩＩが固有ブロックセットＩよりわずかに有効な結果を与えることが分かった。

このことは、固有ブロックセットＩＩが、顔画像から取られたトレーニングブロックのより大きなセットから算出され、顔の変化をより良く表すと認められるからである。しかしながら、性能の向上は、大きくない。
ヒストグラムの作成
６４×６４顔画像内の各サンプリングされたブロック位置に対してヒストグラムを作成した。ヒストグラムの数は、ブロック間隔に依存する。例えば、１６画素のブロック間隔の場合、１６の可能なブロック位置があり、したがって、１６個のヒストグラムが用いられる。

図９は、単一のブロック位置を表すヒストグラムを作成するための処理を示す。ヒストグラムを、Ｍ個の顔画像の大きなトレーニングセット４００を用いて作成する。各顔画像に対する処理は、以下の処理を含んでいる。
・顔画像の位置（ｉ,ｊ）から関連したブロックを抽出する処理４１０。
・ブロックの固有ブロックベースの属性を算出して、これらの属性から関連したビン数４２０を判定する処理。
・ヒストグラム４３０内の関連したビン数を増加させる処理。

属性の出現度数の分布の有効な表現を与えるヒストグラムを作成するために、この処理は、トレーニングセット内のＭ個の画像のそれぞれに対して繰り返される。理想的には、Ｍの値は、非常に大きく、例えば数千である。この処理は、一組の元の顔と各元の顔の数百個の合成変化とからなるトレーニングセットを用いることにより、容易に達成することができる。
ヒストグラムビン数の生成
ヒストグラムビン数は、図１０で示すように、以下の処理を用いて、所定のブロックから生成される。６４×６４ウィンドウ又は顔画像から１６×１６ブロック４４０を抽出する。ブロックは、一組の「固有ブロック重み（eigenblock weight）」を生成するためにＡ固有ブロックのセット４５０上で推定される。これらの固有ブロック重みは、この実行で用いられる「属性」である。固有ブロック重みは、−１〜＋１の範囲を有する。この処理については、付録Ｂでより詳細に説明する。各重みを、一組の量子化属性４７０（ｗ_ｉ,ｊ＝１，・・・，Ａ）を生成するために、レベルＬの固定量に量子化する。量子化重みを、以下のように、単一の値に結合する。

ここで、生成される値ｈは、ヒストグラムビン数４８０である。なお、ヒストグラムのビンの全数は、Ｌ^Ａで与えられる。

ビン「成分（contents）」、すなわちそのビン数を増加する属性のセットの出現度数は、トレーニング画像の数Ｍで割ると、確率値であるとみなすことができる。しかしながら、確率を閾値と比較するので、実際にはＭによる除算をする必要がなく、この値を、計算から除外する。したがって、以下の説明では、ビン「成分」は正確な意味では出現度数であるが、ビン「成分」を「確率値（probability values）」と称し、確率値であるかのように取り扱う。

上述の処理は、トレーニング段階と検出段階の両方で用いられる。
顔検出段階
顔検出処理は、検定画像を６４×６４の移動ウィンドウ（moving 64x64 window）によってサンプリングして、各ウィンドウ位置における顔確率を算出する処理を包む。

図１１に、顔確率の計算を示す。ウィンドウ内の各ブロック位置において、前の章で説明したように、ブロックのビン数４９０を算出する。ブロックの位置に対する適切なヒストグラム５００を用いて、各ビン数を調べ、そのビン数の確率５１０を決定する。そして、これらの確率の対数（log）の和５２０を全てのブロックに亘って算出し、顔確率値Ｐ_ｆａｃｅ（あるいは対数尤度値（log likelihood value））を生成する。

この処理は、全体の検定画像の確率「マップ（map）」を生成する。換言すれば、確率値は、画像の全体に亘る各可能なウィンドウ中心位置に関して導かれる。そして、これらの確率値の全ての長方（あるいは他）形状の配列への結合は、その画像に対応した確率「マップ」であると認められる。

そして、このマップを反転し、これにより、顔を検出する処理は、反転マップ内の最小値を見つけ出すことを含む。所謂距離ベースの技術（distance-based technique）を用いる。この技術は、次のように要約することができる。反転確率マップ内の最も小さい値を有するマップ（画素）位置を選択する。この値が閾値（ＴＤ）より大きいときは、それ以上は顔を選択しない。これは、終了基準（termination criterion）である。一方、選択された中心画素位置に対応している顔の大きさのブロックを無効にし（すなわち、後続の計算から除外し）、終了基準に達するまで、候補顔位置検出処理を画像の残りの部分に対して繰り返し行う。
顔でない方法
顔でないモデルは、顔を含まない画像の属性の確率分布を示すヒストグラムの更なるセットを含む。このヒストグラムは、トレーニング画像が顔の代わりに顔でない画像を含む以外は、顔モデルと全く同じ方法で生成される。

検出を通じて、顔モデルと顔でないモデルを用いた２つの対数確率値を計算する。そして、これらを、単に顔確率から顔でない確率を減算ことによって結合する。

そして、Ｐ_{ｃｏｍｂｉｎｅｄ}を、（極性反転前の）確率マップを生成するために用いる。

なお、Ｐ_ｆａｃｅからＰ_{ｎｏｎｆａｃｅ}を減算する理由は、それらが対数確率値であるからである。
ヒストグラムの具体例
図１２ａ〜１２ｆは、上述したトレーニング処理によって生成されるヒストグラムの具体例を示す図である。

図１２ａ、１２ｂ、１２ｃは、顔画像のトレーニングセットから導かれ、図、１２ｄ、１２ｅ、１２ｆは、顔を含まない画像のトレーニングセットから導かれたものである。特に：

ピークが顔ヒストグラムと顔でないヒストグラムとでは異なる位置にあることが明らかに見られる。
多尺度（multiscale）顔検出
検定画像における異なる大きさの顔を検出するために、検定画像を係数の範囲（range of factors）によって拡大縮尺し（scale）、距離（distance、すなわち確率）マップを各尺度（scale）に対して生成する。図１３ａ〜１３ｃに、画像及びこれらの対応する距離マップを、３つの異なる尺度で示す。この手法は、最も小さい尺度（図１３ａ）で大きな（中心の）対象に対して最良の応答（最高の確率又は最小の距離）を示し、大きな尺度でより小さい対象（主人物の左側）に対してより良い応答を示す。（マップ上のより暗い色は、反転マップにおけるより低い値、すなわちそこが顔であるというより高い確率を示す）。全ての尺度に対して最良の応答を示す位置を最初に検出ことによって、候補顔位置を異なる尺度に亘って抽出する。すなわち、最も高い確率（最も短い距離）を、全ての尺度で全ての確率マップ中で確定する。この候補位置は、顔としてラベルが付けられる第１の位置である。そして、その顔位置の中心におかれるウィンドウは、各尺度の確率マップから削除される。削除されるウィンドウの大きさは、確率マップの尺度に比例する。

この拡大縮小削除処理（scaled blanking out process）の具体例を、図１３ａ〜１３ｃに示す。特に、全てのマップに亘って最高の確率は、最大尺度マップ（図１３ｃ）の左側で検出される。図１３ｃにおいて、顔の推定された大きさに対応する領域５３０を削除する。より小さいマップにおいて、対応する縮小された領域５３２、５３４を削除する。

重複検出を避けるために、マップの検定ウィンドウより大きな領域を削除する。特に、そのような重複検出を避けるのに適した領域の大きさは、検定ウィンドウの幅／長さに、それぞれの半分を加えた大きさである。

次に良い応答を検索し、対応するウィンドウを次々に削除にすることによって、新たな顔を検出する。

処理される尺度間で許容される間隔は、大きさの変化に対する処理の感度（sensitivity）に影響される。尺度に対して不変であるという（scale invariance）この予備的な研究において、多くの場合、ある尺度で良い応答を示した顔が同様に隣の尺度で良い応答を示すように、この処理が大きさの変化に極端に敏感でないことが分かった。

上述の説明では、画像における顔の大きさが検出処理の初めでは分かっていないときの顔検出について言及している。多数の尺度顔検出（multiple scale face detection）の別の態様は、検出処理を確証するために、異なる尺度での２つ以上の並列検出に用いることである。例えば、検出される顔が部分的に覆い隠され、あるいは人が帽子等をかぶっている場合に、この方法は、利点を有する。

図１３ｄ〜１３ｇは、この処理を示す図である。トレーニング段階の間、装置を、「フルフェース(full face)」ヒストグラムデータを生成するために、検定顔全体を囲むウィンドウ（図１３ｄ、上述したようにそれぞれのブロックに分割されている）上でトレーニングし、更に、「ズームイン(zoomed in)」ヒストグラムデータを生成するために、検定顔の中心領域だけが含まれるように拡大した尺度のウィンドウ（図１３ｅ）上でトレーニングする。これにより、２セットのヒストグラムデータを生成する。１つのセットは、図１３ｄの「フルフェース」ウィンドウに関し、他のセットは、図１３ｅの「中心顔領域（central face area）」ウィンドウに関する。

検出段階の間、あらゆる与えられた検定ウィンドウ５３６において、検定ウィンドウが顔の予想される大きさの全部を囲み（図１３ｆ）、また、他の検定ウィンドウがその予想される大きさで顔の主要な領域を含む（図１３ｇ）ように、ウィンドウを、検定画像の２つの異なる尺度に対して適用する。これらは、それぞれ、上述したように処理し、ウィンドウの種類に適したヒストグラムデータの各セットと比較する。各並列処理からの対数確率を加えた後、閾値と比較する。

これらの多尺度顔検出の態様を一緒にすることにより、特に、格納しなければならないデータ量を著しく節約することができる。

特に、これらの実施例において、図１３ａ〜１３ｃの配置に対する複数の尺度は、等比数列的に配列されている。この具体例においては、等比数列の項として並べられた各尺度における隣り合う尺度は、次項が前項の^４√２倍となるように配列されている。そして、図１３ｄ〜１３ｇによって説明した並列検出のために、より大きな尺度、中央領域、検出は、この数列において３段階高い尺度、すなわち「フルフェース」尺度よりも２^３／４倍大きな尺度で、数列において３段階高い尺度に関する属性データを用いて実行する。したがって、複数の尺度範囲の両端は別として、等比数列（geometric progression）は、図１３ｄ〜１３ｇの並列検出が、順番で３段階高い他の多尺度に関して生成される属性データを用いて、常に実行できることを意味している。

２つの処理（多尺度検出と並列尺度検出）は、様々な方法で組み合わせることができる。例えば、図１３ａ〜１３ｃの多尺度検出処理を最初に適用し、それから、図１３ｄ〜１３ｇの並列尺度検出処理を、多尺度検出処理の間に識別された領域（及び尺度）で適用することができる。しかしながら、属性データの便利で効率的な使用は、以下のようにして達成することができる。
・各尺度で検定ウィンドウに関する属性を導く（図１３ａ〜１３ｃに示すように）。
・それらの属性を「フルフェース」ヒストグラムデータと比較して、「フルフェース」の距離マップのセットを生成する。
・属性を「ズームイン」ヒストグラムデータと比較して、「ズームイン」の距離マップのセットを生成する。
・各尺度ｎについて、尺度ｎ＋３の「ズームイン」距離マップを、尺度ｎの「フルフェース」距離マップに組み合わせる。
・図１３ａ〜１３ｃによって上述したように、組み合わせた距離マップから顔位置を導く。

更に、例えば正面、部分的に上、下、左、右等を見た様々なポーズを検出するために、並列検定を、実行することができる。ここで、ヒストグラムデータのそれぞれのセットが必要とされるとともに、結果が、「最大」関数を用いて好ましくは組み合わせられ、すなわち、最も高い確率を与えるポーズは閾値処理に送られ、他は破棄される。
顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。

追跡アルゴリズムの初期の目標は、画像シーケンスの全てのフレームにおける全ての顔を検出することである。しかしながら、時々、シーケンス内の顔が検出できないことが認められる。これらの環境で、追跡アルゴリズムは、見逃した顔検出全体で補間するように補佐することができる。

最終的に、顔追跡の目標は、画像シーケンスにおいて同じシーンに属しているフレームの各セットから有効なメタデータを出力できることである。このメタデータには、以下のものが含まれる。
・顔の数。
・各顔の「顔写真(Mugshot)」（個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている）。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別（前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの）−顔の識別には、顔の認識も必要とされる。

追跡アルゴリズムは、顔検出アルゴリズムの結果を用い、画像シーケンスの各フレーム上で、その開始位置として独立して実行される。顔検出アルゴリズムは時々顔を逃がす（検出しない）こともあるので、見逃した顔を内挿する（interpolating）方法は有効である。このために、顔の次の位置を予測するためにカルマンフィルタ（Kalman filter）を用い、顔追跡を助けるために、肌色マッチングアルゴリズム（skin color matching algorithm）を用いた。更に、顔検出アルゴリズムが頻繁に誤った採用の原因となるので、また、これらを排除する方法は有効である。

このアルゴリズムを、図１４に示す。

このアルゴリズムについては以下に詳細に説明するが、要約すると、入力ビデオデータ５４５（画像シーケンスを表す）がこの出願で説明される種類の検出器５４０及び肌色マッチング検出器５５０に供給される。顔検出器５４０は、各画像内で１つ以上の顔を検出することを試みる。顔が検出されると、カルマンフィルタ５６０が起動され、その顔の位置を追跡する。カルマンフィルタ５６０は、画像シーケンスにおける次の画像内で同じ顔の予測される位置を生成する。目の位置比較器５７０、５８０は、顔検出器５４０が次の画像内のその位置（あるいは、その位置からある閾値距離の範囲内）で顔を検出したかを、検出する。顔が検出された場合、その検出された顔位置は、カルマンフィルタを更新するために用いられ、処理が続けられる。

顔が予測された位置で、あるいは近くで検出されない場合、肌色マッチング回路５５０を用いる。肌色マッチング回路５５０は、厳密でない顔検出技術であり、その検出の閾値は顔検出器５４０よりも低く設定され、顔検出器５４０がその位置で顔があると検出することができないときでさえ、顔を検出する（顔があるとみなす）ことができる。肌色マッチング回路５５０によって「顔」が検出されると、その位置がカルマンフィルタ５６０に更新された位置として供給され、処理が続けられる。

顔検出器４５０又は肌色マッチング回路５５０によって一致が検出されないときは、カルマンフィルタを更新するために予測された位置を用いる。

これらの結果の全ては、判定基準（下記参照）に対する対象である。したがって、例えば、１つの正しい検出に基づきシーケンスを通して追跡される顔、及び予測の残り又は肌色検出の残りは、破棄する。

独立したカルマンフィルタは、追跡アルゴリズムにおいて各顔を追跡するために用いられる。

顔を追跡するためにカルマンフィルタを用いるためには、顔を表す状態モデルを、生成しなければならない。状態モデルにおいて、各顔の位置は、左右の目の座標を含む４次元のベクトルによって表し、左右の目の座標は、ウィンドウの中央位置に対する所定の関係によって順番に導かれる。そして、以下の尺度を用いる。

ここで、ｋはフレーム番号である。

顔の現在の状態は、１２次元のベクトルにおける、その位置、速度及び加速度によって表される。

検出された最初の顔
追跡アルゴリズムは、顔の存在を示す顔検出結果とともにフレームが供給されるまで、何もしない。

そして、カルマンフィルタ５６０は、このフレームで検出された各顔毎に初期化される。その状態は、顔の位置によって、及び速度及び加速度をゼロとして初期化される。

また、カルマンフィルタ５６０は、他の属性状態、すなわちモデル誤差共分散（state model error covariance）Ｑと、観測誤差共分散（observation error covariance）Ｒとが割り当てられる。また、カルマンフィルタの誤差共分散Ｐも、初期化される。これらのパラメータについては、後により詳細に説明する。次のフレーム及び全ての後続のフレームの初めに、カルマンフィルタの予測処理が実行される。
カルマンフィルタの予測処理
各既存のカルマンフィルタに対して、顔の次の位置が、以下の標準カルマンフィルタ予測方程式を用いて予測される。カルマンフィルタは、前状態（フレームｋ−１）、及びフィルタの現状態（フレームｋ）を推定する他の内部及び外部変数を用いる。
状態予測式：

共分散予測方程式：

ここで、Ｚ_ｂ＾（ｋ）（「Ｚ_ｂ＾」は、ハットＺ_ｂを表すもとのする。以下同様）は、フレームｋに対するフィルタを更新する前の状態を示し、Ｚ_ａ＾（ｋ−１）はフレームｋ−１に対するフィルタを更新した後の状態（あるいは、それが新規のフィルタであるときは、初期化状態）を示し、φ（ｋ，ｋ−１）は状態推移行列である。様々な状態推移行列を、後述するように試した。同様に、Ｐ_ｂ(ｋ)は、フレームｋに対するフィルタを更新する前のフィルタの誤差共分散を示し、Ｐ_ａ(ｋ―１)は、前フレームに対するフィルタを更新した後のフィルタの誤差共分散（あるいは、それが新規のフィルタであるときは、初期化された値）を示す。Ｐ_ｂ(ｋ)は、その精度をモデル化するフィルタの内部変数として考えることができる。

Ｑ(Ｋ)は、状態モデルの誤差共分散である。Ｑ(ｋ)の高い値は、フィルタの状態の予測値（すなわち顔の位置）が高いレベルの誤差を有するとみなされることを意味する。このパラメータを調整することによって、フィルタの動作を変更することができ、顔検出に対して潜在的に向上させることができる。
状態推移行列
状態推移行列（φ(ｋ,ｋ―１)）は、次の状態の予測をどのようにして行うかを決定する。運動方程式を用い、φ(ｋ,ｋ―１)に対して次の行列を導くことができる。

ここで、Ｑ_４は４×４零行列であり、Ｉ４は４×４単位行列である。Δｔは、簡単に１（すなわち、ｔの単位はフレーム周期である）に設定することができる。

この状態推移行列は、位置、速度及び加速度をモデル化する。しかしながら、予測状態を補正するために顔検出が利用できなかったときには、加速度を使用すると、顔の予測が画像の端の方に加速される傾向があることが、分かった。したがって、加速度を用いないより単純な状態推移行列が好ましい。

各カルマンフィルタの予測された目位置Ｚ_ｂ＾（ｋ）を、現フレームにおける全ての顔検出結果（存在する場合）と比較する。目位置間の距離が所定の閾値以下であるときは、顔検出は、カルマンフィルタによってモデル化される顔と同じ顔に属するとみなすことができる。そして、顔検出結果を、顔の現在の状態の観測ｙ（ｋ）として扱う。

ここで、ｐ(ｋ)は顔検出結果の目の位置である。この観測は、予測を補正するのを助けるために、カルマンフィルタ更新過程の間、用いられる。
肌色マッチング
肌色マッチングは、顔検出結果と良く一致する顔に対しては用いられない。肌色マッチングは、カルマンフィルタによって位置が予測された顔に対して実行されるだけであり、現フレーム内の顔検出結果に一致しない、したがってカルマンフィルタの更新に役立つ観測データがない顔に対しては実行されない。

第１の手法において、各顔に対して、顔の前の位置を中心とした楕円状の領域が前フレームから抽出される。このような領域の具体例は、図１６に示すように、顔ウィンドウ６１０内の領域６００である。ガウス分布モデルに基づいて、Ｃｒ値及びＣｂ値の平均値及び共分散の推定値を生成するために、この領域の色差データを用いる色モデルを、シードする。

そして、現フレームの予測された顔位置の周辺の領域を検索し、楕円状の領域で再び平均した色モデルと最も一致する位置を選択する。色一致が所定の類似基準を満たすときは、この位置を、前の章で説明した顔検出結果と同様の方法で、顔の現在の状態の観測ｙ（ｋ）として用いる。

図１５ａ及び図１５ｂは、探索領域の生成を具体的に説明する図である。特に、図１５ａは、次の画像６３０内の顔の予測された位置６２０を具体的に説明するための図である。肌色マッチング回路５４０において、次の画像で予測された位置６２０を囲んでいる探索領域６４０が、顔を検出するために検索される。

色の一致が類似基準を満たさないときは、現フレームに対する信頼性が高い観測データは利用できない。代わりに、予測状態Ｚ_ｂ＾（ｋ）を観測データとして用いる。

上述した肌色マッチング方法は、単純なガウス分布の肌色モデルを用いる。モデルは、前フレームで顔の中央に置かれる楕円状の領域の上でシードされて、現フレームで最も一致している楕円状の領域を検出したものである。しかしながら、潜在的により有効な性能を得るために、更なる２つの方法、すなわち色ヒストグラム法（color histogram method）及び色マスク法（color mask method）を開発した。これらを次に説明する。
色ヒストグラム法
この方法においては、追跡された顔で色の分布をモデル化するガウス分布を用いる代わりに、色ヒストグラムを用いる。

前フレームの各追跡された顔に対して、顔の周りの正方形のウィンドウ内のＣｒ値及びＣｂ値のヒストグラムを計算する。ヒストグラムを計算するために、各画素に関するＣｒ値とＣｂ値を、まず、単一の値に組み合わせる。次に、全部のウィンドウ内のこれらの値の出現度数を評価するヒストグラムを計算する。組み合わせるＣｒ値とＣｂ値の数が大きい（２５６×２５６の可能な組合せ）ので、ヒストグラムを算出する前に、値を量子化する。

前フレームの追跡された顔に対するヒストグラムを算出し、このヒストグラムを現フレームに対して用いて、最も類似した色分布を有する画像の領域を検出することによって、顔の最も有望な新たな位置を推定することを試みる。図１５ａ、１５ｂに示すように、この推定は、現フレームの探索領域内のウィンドウ位置の範囲に対して正確に同じ方法でヒストグラムを算出することによって、行う。この探索領域は、予測された顔位置の周辺の所定の領域を含む。そして、前フレームの追跡された顔に関する元のヒストグラムと現フレームの各ヒストグラム間の二乗平均誤差（ＭＳＥ）を算出することによって、これらのヒストグラムを比較する。現フレームの顔の推定される位置は、最小のＭＳＥの位置によって与えられる。

この色ヒストグラム法のアルゴリズムは、様々に変更することができ、以下のものが含まれる。
・２チャンネル（Ｃｒ、Ｃｂ）の代わりに３チャンネル（Ｙ、Ｃｒ、Ｃｂ）を用いる。
・量子化レベルの数を変える。
・ウィンドウをブロックに分割して、各ブロックのヒストグラムを算出する。この方法では、色ヒストグラム法は、位置的に依存するようになる。この方法では、ヒストグラムの各対間のＭＳＥを合計する。
・ウィンドウを分割するブロックの数を変える。
・実際に使用するブロックを変える。例えば、単に部分的に顔の画素を含む外側のブロックを省略する。

これらの技術の実証的な試験で用いられる試験データに対して、最良の結果は次の条件を用いて達成された。しかしながら、他の条件により、異なる試験データを用いて、同様に良好な又はより良い結果が得られることもある。
・３チャンネル（Ｙ、Ｃｒ及びＣｂ）。
・各チャンネルに対して８つの量子化レベル（すなわち、ヒストグラムは８×８×８＝５１２ビン（bins）を含む）。
ウィンドウを１６ブロックに分割する。
１６個の全てのブロックを使用する。
色マスク法
この方法は、上述した第１の方法に基づいている。色マスク法は、顔の画素分布を記述するのに、ガウス分布肌色モデルを用いる。

上述した第１の方法における顔の中央に置かれた楕円状の領域を、色一致顔に用いる。この領域は、モデルを劣化する可能性がある背景画素の数を減らし、又は最小にすると認められる。

存在色マスクモデルにおいて、類似した楕円状の領域を、例えばガウス分布モデルのパラメータを設定するためにＲＧＢ又はＹＣｒＣｂの平均値及び共分散を適用することによって、前フレームで元の追跡された顔に色モデルをシードするために、更に用いる（あるいは、代わりに、ガウス分布モデルのようなデフォルトの色モデルを、以下に示すように、用いることができる）。しかしながら、現フレームにおいて最良の一致を検索するときは、それは用いられない。代わりに、マスク領域を、前フレームからの元の顔のウィンドウにおける画素の分布に基づいて算出する。マスクは、最も色モデルと一致するウィンドウ内の５０％の画素を検出することによって算出される。具体例を、図１７ａ〜１７ｃに示す。詳細には、図１７ａは、検定における初期のウィンドウを具体的に示している。図１７ｂは、色モデルをシードするために使用される楕円状のウィンドウを具体的に示している。図１７ｃは、最も色モデルと一致する５０％の画素によって定義されるマスクを具体的に示している。

現フレームにおいて顔の位置を推定するために、予測された顔位置の周りの探索領域を検索し（前と同じ）、色モデルからの「距離」を各画素に対して算出する。「距離」は、その次元の分散によって各次元で正規化された平均値からの差を表している。得られる距離画像の具体例を図１８に示す。この距離マップの各位置に対して（あるいは、計算時間を減らすためにサンプリングされた位置の少ないセットに対して）、距離画像の画素は、マスクの形をした領域上で平均されている。そして、最低の平均距離を有する位置を、このフレームにおける顔の位置の最良の推定値として、選択する。

したがって、この方法は、楕円状の領域の代わりに、マスクの形をした領域を距離画像において用いるという点で、元の方法と異なる。これにより、色マッチング法は、色と形状の両方の情報を使用することができる。

２つの変形例を提案し、技術の実証的な試験において実行した。
（ａ）ガウス分布肌色モデルは、前フレームにおいて追跡された顔の中央に置かれた楕円状の領域のＣｒ及びＣｂの平均値及び共分散を用いてシードされる。
（ｂ）デフォルトのガウス分布肌色モデルは、前フレームのマスクを算出するために、及び現フレームにおいて距離画像を算出するための両方に、用いられる。

ここで、ガウス分布肌色モデルの使用について説明する。肌色クラスのガウス分布モデルは、ＹＣｂＣｒ色空間の色差成分を用いて作成される。肌色クラスへの検定画素の類似は、そして、評価されることができる。この方法は、したがって各画素（独立して固有顔に拠点を置く方法の）に関する、肌色尤度推定値を提供する。

検定画素のＣｂＣｒ値のベクトルをｗとする。肌色クラスＳにｗが属している確率は、二次元のガウス分布によってモデル化される：

ここで、分布の平均値μ_ｓ及び共分散行列Σ_３は、肌色値のトレーニングセットから予め推定される。肌色検出は、単独で用いた場合、効果的な顔検出法とはならない。これは、画像内には、肌色に類似する多くの領域が存在する可能性があり、これらの領域は、例えば顔以外の体の一部等、必ずしも顔ではないことが多いからである。しかしながら、この肌色検出を顔追跡システムについて説明した手法と組み合わせて用いることにより、固有顔法の性能を向上させることができる。顔検出された目位置及びカルマンフィルタによる観測として色マッチングした目位置のいずれを認めるか、又はいずれの観測も認めないかに関する決定を保存する。この決定に関する情報は、各カルマンフィルタによってモデル化された顔に関する継続中の有効性を評価するために後に用いられる。
カルマンフィルタ更新ステップ
更新ステップは、状態予測及び観測データに基づいて、現在のフレームに対するフィルタの出力を適切なものにするために用いられる。更新ステップでは、予測された状態と観測された状態との間の誤差に基づいて、フィルタの内部変数も更新される。

更新ステップでは、以下の式が用いられる。

カルマン利得式

状態更新式

共分散更新式

ここで、Ｋ（ｋ）は、カルマンフィルタの他の内部変数であるカルマン利得を表す。カルマン利得は、観測された状態に基づいて、予測された状態ｙ（ｋ）をどれ程調整するかを決定するために用いられる。

Ｈ（ｋ）は、観測行列を表す。これは、状態のどの部分が観測可能であるかを決定する。ここでは、顔の位置のみが観測可能であり、速度又は加速度は観測可能でないため、Ｈ（ｋ）として以下の行列を用いる。

Ｒ（ｋ）は、観測データの誤差共分散を表す。Ｑ（ｋ）と同様に、Ｒ（ｋ）の値が大きいことは、フィルタ状態の観測された値（すなわち、顔検出結果又は色マッチング）の誤差が大きいことを意味する。このパラメータを調整することにより、フィルタの振る舞いを変更し、顔検出の精度を潜在的に向上させることができる。本願発明者らによる実験では、Ｑ（ｋ）に対して大きな値のＲ（ｋ）は、適当であることが見出された（これは、予測された顔位置が観測より信頼性が高いものとして取り扱われていることを意味する）。なお、これらのパラメータはフレーム毎に変更してもよい。したがって、観測が顔検出結果（より信頼できる）に基づいているか、色マッチング（信頼性が低い）に基づいているかに基づいて、将来検討すべき領域について、Ｒ（ｋ）とＱ（ｋ）の相対的な値を調整してもよい。

各カルマンフィルタについて、更新状態Ｚ_ａ＾（ｋ）を顔の位置に関する最終決定として用いる。このデータはファイルに出力し、保存する。

マッチングされた顔検出結果は、新たな顔として取り扱う。これらの新たな顔については、新たなカルマンフィルタを初期化する。以下の顔は削除される。
・ピクチャのエッジから外れた顔及び／又は
・これらの顔をサポートする継続中の証拠がない顔（顔検出結果又は色マッチングより、カルマンフィルタ予測に基づく観測の割合が高い場合）
これらの顔については、関連するカルマンフィルタを除去し、ファイルにはデータを出力しない。

この手法からの任意の変形例として、顔がピクチャから外れたことが検出された場合、その顔がピクチャから外れる前のフレームまでの追跡結果を保存し、有効な顔追跡結果として取り扱ってもよい（この結果が追跡結果に適用される他の判断基準に適合していることを前提とする）。これらの結果は、次のような更なる変数を用いることによって定式化及び構築することができる。
prediction_acceptance_ratio_threshold（予測許容率閾値）
所定の顔の追跡の間に、許容されたカルマン予測顔位置の割合が、この閾値を超えた場合、追跡された顔は拒否される。この閾値は、現在０．８に設定している。
detection_acceptance_ratio_threshold（検出許容率閾値）
全てのフレームに亘る最後のパスの間に、所定の顔について、許容された顔検出割合がこの閾値を下回った場合、追跡された顔は拒否される。この閾値は、現在０．０８に設定している。
min_ frames（最少フレーム）
全てのフレームに亘る最後のパスの間に、所定の顔について、発生回数がmin_ framesより少ない場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。min_ framesは、現在５に設定している。
final_prediction_acceptance_ratio_threshold及びmin_frames2（最終予測許容率閾値及び最少フレーム２）
全てのフレームに亘る最後のパスの間に、追跡されている所定の顔の発生回数がmin_frames2であり、許容されたカルマン予測顔位置の割合がfinal_prediction_acceptance_ratio_thresholdを超えた場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。final_prediction_acceptance_ratio_thresholdは、現在０．５に設定してあり、min_frames2は、現在１０に設定してある。
min_eye_spacing（最小目間隔）
更に、追跡された顔の目の間隔が所定の最小距離を下回る場合、その顔を除外する。このような状況は、カルマンフィルタが目の間隔が狭くなっていると誤って判断し、例えば顔検出結果等、この判断を訂正する他の証拠がない場合に生じる。これを訂正しなければ、目の感覚は最終的に０になってしまう可能性がある。任意の変形例として、目の間隔に関する最小値又は下限を強制的に設定し、検出された目間隔が最小目間隔より小さい場合、検出処理はその目間隔を有する顔の探索を継続し、これより小さい目間隔を有する顔の探索は行わないようにしてもよい。

なお、追跡処理は、必ずしもビデオシーケンスを時間的に順方向に追跡する必要はない。画像データにアクセス可能であれば（すなわち、処理が実時間ではなく、又は画像データが時間的に継続する用途のためにバッファリングされている場合）、追跡処理を時間的に逆方向に行うこともできる。または、第１の顔が検出された場合（多くの場合ビデオシーケンスの途中で検出される）、追跡処理は、時間的に順方向及び逆方向の両方について開始してもよい。更なる任意の処理として、追跡処理は、ビデオシーケンス全体に亘って、時間的に順方向及び逆方向の両方について実行し、これらの追跡の結果を組み合わせて（例えば）許容基準に適合する追跡された顔が、追跡が実行されたいずれの方向についても有効な結果として含ませてもよい。

図１４に示す追跡システムは、３つの更なる特徴を有している。

ショット境界データ（shot boundary data）５６０（検査中の画像シーケンスに関連するメタデータから抽出され、又は図２に示すカメラ内で生成されたメタデータから抽出される）は、画像シーケンス内の連続する「ショット」の境界を定義する。カルマンフィルタは、ショットの境界においてリセットされ、後続するショットに関する予測は行わない。このような予測は無意味である可能性があるためである。

顔検出器５４０には、ユーザメタデータ５４２及びカメラ設定メタデータ５４４を供給する。これらのデータは、非追跡システム（non-tracking system）においても使用することができる。カメラ設定メタデータ５４４の具体例については、上述した通りである。ユーザメタデータ５４２は、以下のような情報を含んでいてもよい。
・番組の種類（ニュース、インタビュー、ドラマ等）
・例えば「遠くからのショット」、「カメラが接近する」（特定の種類のカメラショットに基づいて、顔のサイズのサブレンジが予測される）、各ショットに何人の人が含まれるか（これによっても、顔のサイズのサブレンジが予測される）等、ショットの詳細に関する脚本情報。
・スポーツ関連情報。スポーツは、多くの場合、固定されたカメラ位置から標準的なビュー及びショットを用いて撮影される。これらのメタデータにおいて特定することによって、顔のサイズのサブレンジを導き出すことができる。

番組の種類は、画像又は画像シーケンス内に存在すると予想される顔の種類に関連する。例えば、ニュース番組では、画像シーケンスの大部分において、画面の（例えば）１０％を占める単一の顔が登場することが予想される。スケールが異なる顔の検出は、このデータに応じて、このサイズに近い顔の可能性を高めるように重み付けすることができる。これに代えて、又はこれに加えて、検索範囲を削減し、全ての可能なスケールを探索するのではなく、所定のスケールのサブセットのみを探索するようにしてもよい。これにより、顔検出処理の処理負担を軽減することができる。したがって、ソフトウェアに基づくシステムでは、ソフトウェアをより速やかに実行でき及び／又はよりパワーが小さいプロセッサで実行できる。また、ハードウェアに基づくシステム（例えば、特定用途向け集積回路（application-specific integrated circuit：ＡＳＩＣ）を含む。）では、ハードウェアに対する要求を軽減できる。

上述した他の種類のユーザメタデータを同様に適用してもよい。「予想される顔のサイズ」のサブレンジは、例えば、メモリ３０内に格納されたルックアップテーブルに登録してもよい。

例えばレンズ１１０のフォーカス及びズームに関するカメラメタデータについて、画像の前景に存在する可能性がある任意の顔の予想される画像サイズに関する初期的な指標を与えることにより、顔検出器を補助することができる。これに関して、フォーカス及びズームの間の設定は、カムコーダ１００と、撮像されている個人との間の予想される距離、及びレンズ１１０の拡大率を定義する。これら２つの属性から、平均顔サイズに基づき、結果として得られる画像データにおける顔の予想されるサイズ（画素数）を算出することができ、これに基づいて探索すべきサイズのサブレンジを決定し、又は予想される顔サイズの重み付けを行うことができる。
追跡アルゴリズムの利点
顔追跡法は、以下のような３つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める（fill in）ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。

図１９ａ〜図１９ｃは、ビデオシーケンスに適用される顔追跡を説明する図である。具体的には、図１９ａは、連続するビデオ画像（例えば、フィールド又はフレーム）８１０から構成されるビデオシーン８００を図式的に示している。この具体例では、画像８１０は、１又は複数の顔を含んでいる。詳しくは、このシーン内の全ての画像８１０は、画像８１０の図式的表現内における左上に示す顔Ａを含んでいる。更に、一部の画像８１０は、画像８１０の図式的表現内における右下に示す顔Ｂを含んでいる。

この図１９ａに示すシーンに顔追跡処理を適用したとする。顔Ａは、当然、シーン全体に亘って追跡される。１つの画像８２０においては、直接検出によっては顔は追跡されていないが、上述した色マッチング法及びカルマンフィルタリング法により、「見逃された（missing）」画像８２０の前後の両側について、検出が連続していることを示唆する。図１９ｂは、検出された、各画像内に顔が存在する可能性を示している。図１９ｂに示すように、この可能性は、画像８３０において最も高く、したがって、顔Ａを含むと判定された画像の部分８４０を顔Ａに関する「ピクチャスタンプ」として用いる。ピクチャスタンプについては、後により詳細に説明する。同様に、顔Ｂは、異なるレベルの信頼度で検出され、特に画像８５０は、顔Ｂが存在する可能性が最も高いと判定されている。したがって、顔Ｂを含むと判定された対応する画像の一部（部分８６０）をこのシーンにおける顔Ｂのピクチャスタンプとして使用する。（もちろん、これに代えて、画像のより広い部分又は画像全体をピクチャスタンプとして用いてもよい。）
非線形編集装置の表示画面を図２０に示す。非線型編集装置は、広く用いられているものであり、例えば図１に示すような汎用コンピュータ装置上で実行されるソフトウェアプログラムとして実現される場合も多い。これらの編集システムにより、ビデオ、オーディオ及びその他のマテリアルを編集し、各媒体アイテム（例えば、ビデオショット）が捕捉された順序から独立したメディア作品を制作することができる。

図２０に示す表示画面には、ビデオクリップを見ることができるビューワ領域９００と、後に説明する一組のクリップアイコン９１０と、タイムライン９２０とが表示され、タイムライン９２０は、編集されたビデオショット９３０の表現が含まれ、各ショットは、任意項目として、そのショットのコンテンツを示すピクチャスタンプ９４０を含んでいる。

あるレベルにおいて、図１９ａ〜図１９ｃを用いて説明したように導き出されたピクチャスタンプを各編集されたショットのピクチャスタンプ９４０として用い、これにより、捕捉された元のショットより短くなる場合もある編集された長さのショット内において、最も高い確率値を有する顔検出を表すピクチャスタンプをタイムラインに挿入し、ショットからの代表画像を示すことができる。この確率値を、基本的な顔検出閾値より高く設定することもできる閾値と比較し、信頼性が高い顔検出のみに基づいてピクチャスタンプを作成するようにしてもよい。編集されたショット内で２以上の顔が検出された場合、最も確率が高い顔を表示するようにしてもよく、タイムライン上に２以上の顔のピクチャスタンプを表示するようにしてもよい。

非線型編集装置は、多くの場合、スケーリング機能を有し、表示画面の全幅に対応する長さは、出力されるメディア作品について、様々な異なる時間を表すことができる。したがって、例えば、隣接する２つのショットの特定の境界をフレームの精度で編集する場合、タイムラインのスケールを「拡大」し、表示画面が、出力メディア作品について比較的短い時間を表すようにすることができる。一方、出力メディア作品の概観を視覚化するといった目的では、タイムラインのスケールを縮小し、表示画面の幅に亘って、より長い時間を表示できるようにするとよい。このように、タイムラインのスケールの拡大又は縮小に応じて、出力メディア作品を構成する編集された各ショットを表示するために用いることができる表示領域を広くしたり、狭くしたりしてもよい。

拡張されたタイムラインのスケールでは、出力メディア作品を構成する編集された各ショットについて、１つのピクチャスタンプ（図１９ａ〜図１９ｃに関連して説明したように導き出された）を表示するため以上に十分な余地がある。しかしながら、タイムラインのスケールを縮小すると、ピクチャスタンプを表示できなくなる場合がある。このような場合、ショットを「シーケンス」としてグループ化し、各シーケンスが、フェーズピクチャスタンプ（phase picture stamp）を表示するのに十分大きな表示サイズを有するようにする。シーケンス内には、最も確率が高い顔のピクチャスタンプを選択し、表示する。シーケンス内に顔が検出されない場合、任意の画像をタイムライン上に表示してもよく、画像を表示しなくてもよい。

図２０は、更に、２個の「顔タイムライン（face timelines）」９２５、９３５を示している。この顔タイムライン９２５、９３５は、「メイン」のタイムライン９２０と同じスケールで表示される。各顔タイムライン９２５、９３５は、追跡された単一の顔に対応し、この追跡された顔を含む編集されたシーケンスの部分を示している。ここで、複数の顔が同じ個人のものであることがユーザには判るが、これらの顔が追跡アルゴリズムでは関連付けられていないといった場合がある。この場合、ユーザは、顔タイムライン９２５、９３５上の関連する部分を選択し（例えば、複数のアイテムを選択するための標準的なウィンドウズ（登録商標）の選択機能を用いて行う）、画面上の「リンク」ボタン（図示せず）をクリックすることにより、これらの顔を関連付けることができる。これにより、顔タイムライン９２５、９３５は、検出された顔のグループの関連付けを反映し、１つのより長く追跡された顔として表示する。図２１ａ及び図２１ｂは、クリップアイコン９１０’、９１０”の２つの表示例を示している。クリップアイコン９１０’、９１０”は、図２０に示す表示画面に表示され、これによりユーザは、個別のクリップを選択して、タイムラインに含め、及びこれらのクリップの開始位置及び終了位置（イン点及びアウト点）を編集することができる。このように、各クリップアイコン９１０’、９１０”は、装置内に保存されている各クリップの全体を代表している。

図２１ａにおいて、クリップアイコン９１０’は、単一の顔ピクチャスタンプ９１２と、テキストラベル領域９１４とによって表現されている。テキストラベル領域９１４は、例えば、クリップの位置及び長さを定義するタイムコード情報を含んでいる。また、図２１ｂに示すように、マルチパートクリップアイコンを用いて、２以上の顔ピクチャスタンプ９１６をクリップアイコン９１０”に表示してもよい。

クリップアイコン９１０の他の表示例として、「顔の要約（face summary）」を提供し、検出された全ての顔をクリップアイコン９１０の組として、それらの顔が登場する順序（ソースマテリアルにおける順序であっても、編集された出力シーケンスにおける順序であってもよい）で表示してもよい。ここでも、同じ個人の顔でありながら、追跡アルゴリズムでは関連付けられていない複数の顔について、ユーザがこれらの顔が同一の顔であると主観的に判断する場合がある。この場合、ユーザは、関連する顔クリップアイコン９１０を選択し（例えば、複数のアイテムを選択するための標準的なウィンドウズ（登録商標）の選択機能を用いて行う）、画面上の「リンク」ボタン（図示せず）をクリックすることにより、これらの顔を関連付けることができる。これにより、顔タイムラインは、検出された顔のグループの関連付けを反映し、１つのより長く追跡された顔として表示する。

図２２ａ〜図２２ｃは、傾斜前処理法（gradient pre-processing technique）を図式的に説明する図である。

画素の変化が殆どない画像ウィンドウは、固有顔又は固有ブロックに基づく顔検出構成によって、顔として検出される傾向がある。したがって、前処理ステップにおいて、顔検出処理の対象から、画素の変化が殆どない領域を除外するとよい。多数の尺度を有する方式（上述参照）では、前処理ステップを各尺度において実行してもよい。基本的な処理として、画像全体に亘る可能なウィンドウ位置について、「傾斜検査（gradient test）」を適用する。各ウィンドウ位置について所定の画素位置、例えばウィンドウ位置の中心の又は中心に近い画素に対して、このウィンドウに適用された検査の結果に応じてフラグを立て又はラベルを付す。この検査により、このウィンドウにおいては画素の変化が殆どないと判定された場合、このウィンドウ位置は、顔検出処理から除外する。

第１のステップ図２２ａに示す。図２２ａは、画像における任意のウィンドウ位置を示している。上述のように、前処理は、可能な各ウィンドウ位置に対して繰り返し行う。傾斜前処理は、ウィンドウ全体に対して行ってもよいが、本願発明者らは、図２２ａに示すように、前処理を検査ウィンドウ１０１０の中心領域１０００に適用した方が良好な結果が得られることを見出した。

図２２ｂに示すように、傾斜に基づく測定値は、ウィンドウ（又は図２２ａに示すようなウィンドウの中心領域）から得られ、この値は、ウィンドウから得られた水平方向及び垂直方向の両方における隣接する画素１０１１間の絶対距離の平均値である。各ウィンドウの中止領域には、この傾斜に基づく測定値のラベルを付し、これにより画像の傾斜「マップ」を作成する。次に、作成された傾斜マップを傾斜閾値と比較する。そして、傾斜に基づく測定値が傾斜閾値を下回る全てのウィンドウ位置をその画像に関する顔検出処理から除外する。

また、画素の変化又は平均画素値からの画素の絶対平均偏差等の他の傾斜に基づく測定を用いてもよい。

傾斜に基づく測定は、画素の輝度値に関して行うことが好ましいが、カラー画像の他の画像成分について行ってもよいことは言うまでもない。

図２２ｃは、例示的な画像から導出された傾斜マップの具体例を示している。ここで、傾斜が緩い領域１０７０（ハッチングで示す）は、顔検出から除外し、より傾斜が急峻な領域１０８０のみを顔検出に用いる。

上述の具体例は、顔検出（トレーニング及び検出段階を含む）、及びカメラレコーダ及び編集装置におけるこの顔検出の可能な用途に関する具体例を説明するものである。なお、この技術は、この他の多数の用途で利用することができ、例えば、以下に限定されるものではないが、安全監視システム、包括的なメディア処理（例えば、ビデオテープレコーダのコントローラ）、ビデオ会議システム等に利用することもできる。

また、上述した本発明の具体例の少なくとも一部は、ソフトウェアにより制御される処理装置によって実現できる。例えば、上述した１又は複数の要素は、ソフトウェアにより制御される汎用データ処理装置、又は特定用途向け集積回路やフィールドプログラマブルゲートアレー等の専用プログラムにより制御されるデータ処理装置によって実現してもよい。このようなソフトウェア又はプログラム制御を提供するコンピュータプログラム、及びこのようなコンピュータプログラムを保存、伝送又は提供する保存、伝送又は伝送媒体も本発明の側面とみなすことができる。

参考文献のリスト及び付録を以下に示す。なお、疑いの余地をなくすために言及すれば、これらのリスト及び付録は、本願の一部を構成する。これらの文献は、引用により本願に援用されるものとする。
参考文献
１．エイチ・シュナイダーマン（H. Schneiderman）及びティー・カナデ（T. Kanade）著、「顔及び車に適用される３Ｄオブジェクト検出のための統計モデル（A statistical model for 3D object detection applied to faces and cars）」、コンピュータビジョン及びパーターン検出に関するＩＥＥＥコンファレンス２０００（IEEE Conference on Computer Vision and Pattern Detection, 2000）
２．エイチ・シュナイダーマン（H. Schneiderman）及びティー・カナデ（T. Kanade）著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング（Probabilistic modelling of local appearance and spatial relationships for object detection）」、コンピュータビジョン及びパーターン検出に関するＩＥＥＥコンファレンス１９９８（IEEE Conference on Computer Vision and Pattern Detection, 1998）
３．エイチ・シュナイダーマン（H. Schneiderman）著、「顔及び車に適用される３Ｄオブジェクト検出のための統計的手法」、カーネギーメロン大学（Carnegie Mellon University）ロボティクス研究科（Robotics Institute）博士論文、２０００年
４．イー・ヘルマス（E. Hjelmas）及びビー・ケー・ロウ（B.K. Low）著、「顔検出：概観（Face Detection: A Survey）」、コンピュータビジョン及び画像理解（Computer Vision and Image Understanding）第８３号、ｐｐ．２３６〜２７４、２００１年
５．エム−エイチ・ヤング（M.-H.Yang）、ディー・クレイグマン（D.Kriegman）及びエヌ・アフジャ（N.Ahuja）著、「画像における顔の検出：概観（Detecting Faces in Images: A Survey）」、パターン分析及びマシン知能に関するＩＥＥＥトランザクション（IEEE Trans. on Pattern Analysis and Machine Intelligence）、第２４巻１号ｐｐ．３４〜５８、２００２年１月
付録Ａ：トレーニング顔セット
１個のデータベースは、屋内の背景の前に立つ数千個の題材（subject）の画像を格納している。上述の手法の実験に用いられる他のトレーニングデータベースは、正面から左右までの様々な範囲の角度から見た人間の頭の８ビットのグレースケール画像を一万個以上格納している。当業者にとっては明らかであるが、これらとは異なる様々なトレーニングセットを用いてもよく、任意として、ローカルの母集団の顔の特徴を反映するようプロファイルされたトレーニングセットを用いてもよい。
付録Ｂ：固有ブロック
顔検出及び認識のための固有顔法（図４及び図５参照）において、各ｍ×ｎ顔画像は、それぞれ長さｍｎのベクトルによって表現されるようにが記録される。これにより、各画像は、ｍｎ次元空間内の点とみなすことができる。画像の組は、この大きな空間内の点の集合にマッピングされる。

顔画像は、全体的な構成が類似しており、このｍｎ次元画像空間においてランダムには分布せず、すなわち、顔画像は比較的低い次元のサブ空間によって記述できる。主成分分析（principal component analysis：以下、ＰＣＡという。）を用いて、画像空間内における顔画像の分布を最もよく説明するベクトルを見出すことができる。ＰＣＡでは、元の顔画像に対応する共分散行列の主固有ベクトル（principal eigenvectors）を判定する。これらのベクトルは、多くの場合顔空間とも呼ばれる、顔画像のサブ空間を定義する。各ベクトルは、ｍ×ｎ画像を表し、元の顔画像の一次結合である。これらのベクトルは、元の顔画像に対応する共分散行列の固有ベクトルであるため、及びこれらは顔に似た外観を有するため、これらのベクトルは、固有顔とも呼ばれる［４］。

未知の画像が存在する場合、この画像は顔空間に射影される。これにより、この画像は、固有顔の重み付けされた和として表現される。

この具体例では、近接相関法（closely related approach）を用いて、顔画像のブロックに関連する所謂「固有ブロック（eigenblock）」又は固有ベクトルを生成及び適用する。ブロックのグリッドは、（トレーニングセット内の）顔画像又は（検出段階の間に）検査ウィンドウに適用され、固有顔処理に非常に類似した固有ベクトルに基づく処理を各ブロック位置に適用する（又は、データ処理の負荷を軽減する他の具体例においては、この処理は、まず、ブロック位置のグループに対して行い、全てのブロック位置において使用される固有ブロックの１つの組を生成する）。当業者には明らかであるが、中央のブロック等の幾つかのブロックは、画像の鼻の部分を表している場合が多く、顔が存在するか否かを判定するためのより重要な部分となる。
固有ブロックの算出
固有ブロックは、以下のような手順で算出される。
（１）画像のトレーニングセットを用いる。これらを、それぞれｍ×ｎのサイズを有する画像ブロックに分割する。各ブロック位置について、それぞれが各画像におけるそのブロック位置から抽出された、次のような画像ブロックの組が得られる。

（２）正規化されたブロックのトレーニングセット

を以下のようにして算出する。

元のトレーニングセットからの各画像ブロックＩ_０ ^ｔを０と、１のＬ２ノルムとの平均値を有するように正規化し、各正規化された画像ブロックＩ^ｔを生成する。

各画像ブロックＩ_０ ^ｔ，ｔ＝１，・・・，Ｎ_Ｔ：

（すなわち、（Ｉ_０ ^ｔ−ｍｅａｎ＿Ｉ_０ ^ｔ）のＬ２ノルム）
（３）ベクトルのトレーニングセット

を各画像ブロックＩ^ｔの画素要素を辞書順に並べ替えることによって生成する。すなわち、各ｍ×ｎ画像ブロックＩ^ｔを長さＮ＝ｍｎのベクトルｘ^ｔに並べ替える。
（４）偏差ベクトルの組

を算出する。Ｄは、Ｎ個の列とＮ_Ｔ個の行とを有する。
（５）共分散行列Σを算出する。

Σは、Ｎ×Ｎのサイズを有する対称行列である。
（７）以下の式を解くことにより、全ての固有ベクトルからなる組Ｐ及び共分散行列Σの固有値λ_ｉ，ｉ＝１，・・・，Ｎを求める。

ここで、Λは、その対角に沿って（大きさの順に）固有値λ_ｉを有するＮ×Ｎ対角行列であり、Ｐは、それぞれ長さＮを有するＮ個の固有ベクトルの組を含むＮ×Ｎ行列である。この分解は、カルーネン・レーベ変換（Karhunen-Loeve Transform：ＫＬＴ）としても知られている。

固有ベクトルは、顔画像のブロック間の変化を互いに特徴付ける特徴の組であるとみなすことができる。固有ベクトルは直交基底を形成し、これにより画像ブロックを表現することができ、すなわち、原理的には、いかなる画像も固有ベクトルの重み付けされた和によって、誤差を生じることなく表現することができる。

画像空間内のデータ点の数（トレーニング画像の数）が空間の次元より少ない（Ｎ_Ｔ＜Ｎ）場合、意味がある固有ベクトルの数はＮ_Ｔ個のみとなる。残りの固有ベクトルは、０の固有値に関連付けられた値を有する。そこで、多くの場合、Ｎ_Ｔ＜Ｎであるため、ｉ＞Ｎ_Ｔである全ての固有値は０となる。

更に、トレーニングセット内の画像ブロックは、全体の構成において類似する（全てが顔の画像に由来する）ため、残りの固有ベクトルのうちのいくつかのみが、画像ブロック間の相異を強く特徴付ける。これらは、関連する固有値が最も大きい固有ベクトルである。関連する固有値が小さいこの他の固有ベクトルは、このような大きな相異を特徴付けることなく、したがって、顔を検出し、又は顔間の区別を行う目的では有用ではない。

したがって、ＰＣＡにおいては、Ｍ＜Ｎ_Ｔとして、固有値が大きいＭ個の主固有ベクトルのみを考慮し、すなわち、部分的ＫＬＴを実行する。すなわち、ＰＣＡでは、最も大きい固有値に対応するＫＬＴ基底の、より低次元のサブ空間を抽出する。

主成分は顔画像間の大きな相異を記述するため、外観上、これらの主成分は顔ブロックの部分に類似し、ここでは、これらを固有ブロックと呼ぶ。なお、固有ベクトルという用語も同様に用いる。
固有ブロックを用いた顔検出
未知の画像の顔への類似性、すなわち顔類似性（faceness）は、その画像が顔空間によってどれ程適切に表現できるかによって測定される。この処理は、トレーニング処理において用いたものと同じブロックのグリッドを用いて、ブロック毎に行う。

この処理の第１段階では、画像を顔空間に射影する。
画像の顔空間への射影
画像を顔空間に射影する前に、トレーニングセットに対して行った前処理と略同様の前処理をこの画像に対して行う。
（１）ｍ×ｎのサイズの検定画像ブロックＩ_０を得る。
（２）元の検定画像ブロックＩ_０を０と、１のＬ２ノルムとの平均値を有するように正規化し、正規化された検定画像ブロックＩを生成する。

（すなわち、（Ｉ_０−ｍｅａｎ＿Ｉ_０）のＬ２ノルム）
（３）画像の画素要素を辞書順に並べ替えることによって、偏差ベクトルを生成する。画像を長さＮ＝ｍｎの偏差ベクトルｘに並べ替える。

これらの前処理の後、以下のような単純な処理により、偏差ベクトルｘを顔空間に射影する。
（４）顔空間への射影は、偏差ベクトルｘをその固有ブロック成分に変換する処理を含む。この処理は、Ｍ個の主固有ベクトル（固有ブロック）Ｐ_ｉ，ｉ＝１，・・・，Ｍによる単純な乗算を含む。各重みｙ_ｉは、以下のようにして求めることができる。
ここでＰ_ｉは、ｉ番目の固有ベクトルを表す。

これらの重みｙ_ｉ，ｉ＝１，・・・，Ｍは、入力顔ブロックの表現における各固有ブロックの貢献を表す。

外観が類似するブロックは、類似する重みの組を有し、外観が相異するブロックは、相異する重みの組を有する。すなわち、ここでは、重みは、顔検出において顔ブロックを分類する特徴ベクトルとして用いている。

顔検出装置及び／又は非線型編集装置として用いられる汎用コンピュータシステムの構成を示す図である。顔検出に用いるビデオカメラ−レコーダ（カムコーダ）の内部構成を示す図である。トレーニング処理を説明する図である。検出処理を説明する図である。特徴ヒストグラムを示すグラフ図である。固有ブロックを生成するためのサンプリング処理を説明する図である。固有ブロックの組を示す図である。固有ブロックの組を示す図である。ブロック位置を表すヒストグラム表現を構築する処理を説明する図である。ヒストグラムビン番号の生成を説明する図である。顔確率の算出を説明する図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。上述の手法を用いて生成されたヒストグラムの具体例を示すグラフ図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。所謂多尺度顔検出を説明する図である。顔追跡アルゴリズムを説明する図である。肌色検出に使用される探索領域の抽出を説明する図である。肌色検出に使用される探索領域の抽出を説明する図である。肌色検出に適用されるマスクを示す図である。図１６に示すマスクの用途を説明する図である。図１６に示すマスクの用途を説明する図である。図１６に示すマスクの用途を説明する図である。距離マップを示す図である。ビデオシーンに適用される顔追跡を説明する図である。ビデオシーンに適用される顔追跡を説明する図である。ビデオシーンに適用される顔追跡を説明する図である。非線形編集装置の表示画面を示す図である。クリップアイコンを示す図である。クリップアイコンを示す図である。傾斜前処理法を説明する図である。傾斜前処理法を説明する図である。傾斜前処理法を説明する図である。

Claims

ビデオシーケンスからの検定画像と、該ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置において、
（１）その領域に関して導き出された上記画像プロパティモデルに最も近くマッチングする、上記先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、
（２）上記検定画像内の２以上の画像位置に対して適用された上記画素マスクによって定義された検定画像内の画素と、上記画像プロパティモデルとを比較し、上記画像プロパティモデルと、該マスク位置において上記マスクによって定義された画素との間の最も小さい平均誤差に対応する該検定画像のマスク位置において、顔を検出する比較手段とを備える顔映像検出装置。
上記画像プロパティモデルは、色モデルであることを特徴とする請求項１記載の顔映像検出装置。
上記色モデルは、色分布のガウス分布モデルであることを特徴とする請求項１又は２記載の顔映像検出装置。
上記色モデルは、上記ビデオシーケンスにおける少なくとも１つの画像の少なくとも一部における色分布を表していることを特徴とする請求項１又は２記載の顔映像検出装置。
上記マスクは、上記検定画像に対して、上記先行する画像の検出された顔の画像位置の周囲の検査領域内の位置において適用されることを特徴とする請求項１乃至４いずれか１項に記載の顔映像検出装置。
上記検査領域は、矩形の領域であることを特徴とする請求項５記載の顔映像検出装置。
上記所定の割合は、上記画素の５０％であることを特徴とする請求項１乃至６いずれか１項に記載の顔映像検出装置。
請求項１乃至７いずれか１項に記載の顔映像検出装置を備えるビデオ会議装置。
請求項１乃至７いずれか１項に記載の顔映像検出装置を備える監視装置。
図面に示し、明細書において説明する顔映像検出装置。
ビデオシーケンスからの検定画像と、該ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出方法において、
（１）その領域に関して導き出された上記画像プロパティモデルに最も近くマッチングする、上記先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出すステップと、
（２）上記検定画像内の２以上の画像位置に対して適用された上記画素マスクによって定義された検定画像内の画素と、上記画像プロパティモデルとを比較し、
上記画像プロパティモデルと、該マスク位置において上記マスクによって定義された画素との間の最も小さい平均誤差に対応する該検定画像のマスク位置において、顔を検出するステップとを有する顔映像検出方法。
図面に示し、明細書に説明する顔映像検出方法。
請求項１１又は１２記載の顔映像検出方法を実行するプログラムコードを有するコンピュータソフトウェア。
請求項１３記載のプログラムコードを提供する提供媒体。
当該提供媒体は、記録媒体であることを特徴とする請求項１４記載の提供媒体。
当該提供媒体は、伝送媒体であることを特徴とする請求項１４記載の提供媒体。