JP2006031678A

JP2006031678A - 画像処理

Info

Publication number: JP2006031678A
Application number: JP2005158090A
Authority: JP
Inventors: Robert Mark Stefan Porter; マークステファンポーター、ロバート; Ratna Rambaruth; ラテュナランバルス、; Simon D Haynes; サイモンドミニクヘインズ、; Jonathan Living; ジョナサンリビング、; Clive H Gillard; ヘンリークライブジラード
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2004-05-28
Filing date: 2005-05-30
Publication date: 2006-02-02
Anticipated expiration: 2025-05-30
Also published as: EP1600882A1; GB0412025D0; GB2414614A; JP4616702B2; US7630561B2; US20050265603A1

Abstract

【課題】画像シーケンス中の代表的な顔画像を検出し追跡する。
【解決手段】画像処理方法は、ｎを２以上の数として、検査する画像のセットを代表するｎ個の画像のサブセットを選択する画像処理方法において、検査する画像のセット内の画像間の類似性の度合いを検出し、画像のサブセットが検査する画像のセット内の他の画像との間で実質的に最も低い類似性を有するｎ個の画像を含むようにするステップを有する。
【選択図】図１１

Description

本発明は、オブジェクト検出の分野に適用できる画像処理に関する。

人間の顔を検出する顔検出アルゴリズム等の多くのオブジェクト検出アルゴリズムが様々な文献で提案されており、これらには、所謂固有顔（eigenfaces）法、顔テンプレートマッチング法、変形可能なテンプレートマッチング（deformable template matching）法又はニューラルネットワーク分類法を使用する手法等がある。これらの何れの手法も完全ではなく、通常、付随した利点及び欠点を有する。何れの手法も、画像が顔を含むことを確実な信頼性を持って示すことはなく、全て確率論的な判断（probabilistic assessment）に基づいており、すなわち画像が少なくとも顔を含むある可能性（likelihood）があるという画像の数学的解析に基づいている。それらの用途に従い、アルゴリズムは、通常、顔の誤検出を避けようとするために極めて高く設定された尤度の閾値（threshold likelihood value）を有する。

捕捉された画像のシーケンスを含むビデオマテリアルにおける顔検出は、静止画像における顔検出に比べて、より複雑である。この場合、特に、何らかの手法によって、シーケンス内の１つの画像において検出された顔をシーケンス内の他の画像において検出された顔にリンクすることが望ましい。ここで、これらの２つの顔が同じ顔である（可能性がある）か、同じ画像のシーケンスに偶然出現した２つの異なる顔である（可能性がある）かを判定する必要がある。

このようなシーケンスに亘って顔を「追跡」する一手法として、連続する画像内の２つの顔が同じ又は非常に近い位置に出現してるか否かを判定する手法がある。但し、この手法は、顔検出スキームの確率に依存する性質に起因する問題を孕んでいる。例えば、（顔検出の判定のための）確率閾値を高く設定すると、その顔の本人が顔を横に向けたり、顔の一部が隠されたり、本人が鼻を掻いたり、又は他の様々な原因により、実際には顔が存在している幾つかの画像シーケンスが、アルゴリズムによって検出されなくなる。一方、確率閾値を低く設定すると、誤検出確率が高くなり、顔ではないオブジェクトが画像のシーケンス全体に亘って追跡されてしまう虞がある。これらの問題を解決するために、係属中の国際特許出願ＰＣＴ／ＧＢ２００３／００５１６８号では、顔検出、色マッチング及び位置予測の組合せに基づいて追跡を決定する合成追跡処理（composite tracking procedure）を提案している。

追跡処理の目的は、追跡されている同じ顔に対応する一連のリンクされた画像領域を生成することである。但し、追跡される一連の画像の数が非常に多くなることもある。例えば、ニュース番組又はトークショー等のテレビ番組に関して顔が追跡される場合、その顔が追跡されるビデオマテリアルは、数分間も続く場合がある。また、ケーブルテレビ（closed circuit television：以下、ＣＣＴＶという。）システム又はビデオ会議システムのコンテキストで顔が追跡される場合にも同様にデータ量が大量になることがある。

したがって、追跡された一連の画像から代表となる画像又は顔画像のグループを選択することが望ましい場合もある。

ビデオクリップから単一の「代表キースタンプ（representative key stamp）」画像を導出する手法が提案されている。この手法では、クリップ内の他の画像との共通点が最も多い単一の画像を導出する。同様の技術を用いて、追跡された一連の顔画像から代表する画像を生成する手法も提案されている。

本発明に係る画像処理方法は、ｎを２以上の数として、検査する画像のセットを代表するｎ個の画像のサブセットを選択する画像処理方法において、検査する画像のセット内の画像間の類似性の度合いを検出し、画像のサブセットがセット内の他の画像との間で実質的に最も低い類似性を有するｎ個の画像を含むようにするステップを有する。

本発明は、追跡されたオブジェクトを代表する画像のグループを生成する場合、互いに類似することが検出された画像を選択することは実際上、有益ではないという点に着目した。

一具体例として、２つのシーケンスが互いに同じオブジェクトに関連しているか否かを検出するために、２つの異なる追跡シーケンスから一組の代表画像が必要となる場合がある。この構成では、代表画像が追跡されたオブジェクトの様々な角度からの画像をカバーしている場合、２つの追跡されたシーケンスが互いに関係しているか否かを首尾よく（及び正しく）検出できる可能性が高まる。

他の具体例として、ＣＣＴＶ、テレビジョン又はテレビ会議システムからの長いシーケンスにおいて、（例えば、ビデオマテリアルの概要を示す部分、すなわち所謂「メタデータ」として、又はビデオマテリアルに伴う更なるデータとして）追跡されたオブジェクト（例えば、顔）の代表画像の組を生成する場合、同じような向きの画像を複数用いるよりも、この組が異なる角度からの画像をカバーしている方が効果的である。

上述した先に提案されている技術は、単一の代表画像のみを特定する場合にのみ適切であるが、この技術は、一組の（２つ以上の）代表画像を生成するように拡張しようとした場合、却って不利益を生じる場合がある。

本発明では、このようなグループに含ませる代表画像を選択するために「非類似性」を検査することによってこの問題を解決する。

本発明のこの他の様々な側面及び特徴は添付の特許請求の範囲に記載されている。

図１〜図９ｃを用いて、国際特許出願ＰＣＴ／ＧＢ２００３／００５１８６号に開示されている技術について説明する。ここに開示する技術的特徴の詳細については、この特許文献に開示されている。国際特許出願ＰＣＴ／ＧＢ２００３／００５１８６号に開示されている特徴は、以下の説明に明示されていなくとも、本発明に基づく検出装置の（少なくとも任意の）特徴であるとみなされる。

様々な技術の目的として、以下では、人間の顔の検出及び／又は追跡（tracking）について説明する。但し、本発明の技術は、多くの異なる種類のオブジェクトの検出及び／又は追跡に適用することができる。例えば、本発明は、自動車の検出にも適用することができる。すなわち、以下の顔を用いた説明は、単に、本発明をより明瞭に開示するためのフレームワークを例示しているに過ぎない。以下の記述において用いる用語「顔」は、本発明を制限する意味で解釈されることはない。

図１は、顔検出システム及び／又は非線形編集システムとして用いる汎用コンピュータ装置のブロック図である。コンピュータ装置は、処理ユニット１０を備え、処理ユニット１０は、中央処理装置（ＣＰＵ）２０と、ランダムアクセスメモリ（ＲＡＭ）のようなメモリ３０と、ディスクドライブ４０のような不揮発性記憶装置と、他の通常の構成要素とを備える。コンピュータ装置は、ローカルエリアネットワーク又はインターネット（或いは両方）のようなネットワーク５０に接続している。また、コンピュータシステムは、キーボード６０と、マウス又は他のユーザ入力デバイス７０と、表示画面８０とを備える。当業者には、汎用コンピュータ装置がここで記載していない多くの他の従来の部品を含むことは、明らかである。

図２は、顔検出に用いるビデオカメラレコーダ（カムコーダ）のブロック図である。カムコーダ１００は、画像を電荷結合素子（ＣＣＤ）からなる画像捕捉素子１２０上に合焦点するレンズ１１０を備える。電子的な形式で得られる画像は、テープカセットのような記録媒体１４０に記録するために画像処理回路１３０によって処理される。また、画像捕捉素子１２０によって捕捉された画像は、アイピース１６０を介して見られるユーザ表示画面１５０上に表示される。

画像と関連している音を捕捉するために、１つ以上のマイクロホンが用いられる。これらのマイクロホンは、フレキシブルケーブルによってカムコーダ１００に接続され、或いはカムコーダ１００の本体に搭載されるという意味で、外部マイクロホンであるとも言える。１台以上のマイクロホンからのアナログオーディオ信号は、記録媒体１４０に記録するための適切なオーディオ信号を生成するために、オーディオ処理回路１７０によって処理される。

なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式の何れか、或いは両方の形式で記録媒体１４０に記録することができる。したがって、画像処理回路１３０及びオーディオ処理回路１７０は、アナログ／デジタル変換器を備えていてもよい。

カムコーダ１００のユーザは、レンズ１１０に電気的制御信号２００を送るようにレンズ制御回路１９０に作用するユーザ制御１８０によって、レンズ１１０の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。

更に、２個のユーザ操作子を説明する。記録媒体１４０への記録を開始し、中止するために押しボタン２１０が設けられている。例えば、押しボタン２１０を１回押したときに記録を開始し、もう１回押したときに記録を中止することができる。或いは、押した状態を維持することにより記録を行い、又はある時間、例えば５秒間押すことにより記録を開始するようにしてもよい。これらの如何なる構成においても、始めと終わりがある各「撮影（shot）」（連続した記録期間）に対するカムコーダ１００の記録操作の確認は、技術的に非常に簡単である。

図２に示す「素晴らしい撮影マーカ（good shot marker：以下、ＧＳＭという。）」２２０は、ユーザによって操作され、これにより、ビデオ及びオーディオマテリアルに関連した「メタデータ」（関連データ）が記録媒体１４０に格納される。この特別の撮影は、ある観点で「素晴らしい（good）」と操作者によって主観的にみなされたこと（例えば、俳優が特によく演じた、ニュースリポータが各言葉を正しく発音した等）を示している。

メタデータは、記録媒体１４０上の予備領域（例えば「ユーザデータ」領域）に、用いられている特定のフォーマット及び規格に依存して、記録される。或いは、メタデータはリムーバブルメモリスティック（登録商標）のメモリ（図示せず）のような別個の記録媒体に格納することができ、或いはメタデータは、例えば無線リンク（図示せず）によって通信する外部データベース（図示せず）に格納することもできる。メタデータには、ＧＳＭの情報だけでなく、撮影条件（shot boundaries）、レンズの属性、ユーザ（例えばキーボード（図示せず））による文字情報入力、全地球測位システム受信機（図示せず）からの地理的位置情報等が含まれてもよい。

以上、メタデータを記録可能なカムコーダについて説明した。次に、このようなカムコーダに顔検出を適用する方法について説明する。

カムコーダ１００は、顔検出器構成２３０を備える。適切な構成のより詳細は、後に説明するが、顔検出器２３０は、画像処理回路１３０から画像が供給され、このような画像が１つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器２３０は、顔検出データを、「ｙｅｓ／ｎｏ」フラグの形式で、或いは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。

後述するように、顔検出は、検出処理における他の種類のメタデータを用いることにより、助けられる。例えば、顔検出器２３０は、レンズ１１０の現在のフォーカス及びズーミング設定を示すレンズ制御回路１９０からの制御信号が供給される。これらは、画像のフォアグラウンドで表示されるあらゆる顔の予想される画像サイズの初期の表示を与えることによって、顔検出器２１３０を補佐することができる。なお、この観点では、フォーカス及びズーミングの設定は、カムコーダ１００と撮影されている個人との予想される距離、更にはレンズ１１０の倍率を表している。これらの２つの属性からの顔の大きさの平均に基づいて、得られる画像データ内における顔の予想される大きさ（画素）を算出することができる。

従来の（既知の）音声検出器２４０は、オーディオ処理回路１７０からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標（indicator）で示すことができる。

最終的に、撮影境界（shot boundaries）及びユーザによって最も有益であるとみなされるそれらの撮影を示すＧＳＭ情報２２０及び撮影情報（制御２１０から）は、顔検出器２３０に供給される。

勿論、カムコーダがアナログ記録技術に基づく場合、画像及びオーディオ情報を処理するために、更なるアナログ／デジタル変換器（以下、Ａ／Ｄ変換器という。）が必要とされる。

図３は、ビデオ会議システムの構成を示している。２つのビデオ会議ステーション１１００、１１１０は、例えば、インターネット、ローカルエリア又はワイドエリアネットワーク、電話回線、高ビットレート専用回線、ＩＳＤＮ回線等であるネットワーク接続１１２０を介して接続される。各ビデオ会議ステーション１１００、１１１０は、基本的には、カメラ及び関連する送信装置１１３０と、表示及び関連する受信装置１１４０とを備える。テレビ会議システムの参加者は、カメラに撮像され、各ステーションに表示され、参加者の声は、各ステーションにおける１つ以上のマイクロホン（図３には示していない）に入力される。オーディオ及びビデオ情報は、ネットワーク１１２０を介して他方のステーションの受信機１１４０に伝送される。この他方のステーションにおいて、カメラによって撮像された画像が表示され、参加者の声は、スピーカ等の装置から再生される。

なお、ここでは、説明を簡潔にするために、２つのステーションを示しているが、２つ以上のステーションがテレビ会議システムに参加してもよい。

図４は、１つのカメラ／送信装置１１３０を１つの表示／受信装置１１４０に接続する１つのチャンネルを示している。

カメラ／送信装置１１３０は、ビデオカメラ１１５０と、上述した技術を用いた顔検出器１１６０と、画像プロセッサ１１７０と、データフォーマッタ及び送信機１１８０とを備える。マイクロホン１１９０は、参加者の声を検出する。

オーディオ、ビデオ、及び（オプションとして）メタデータ信号は、フォーマッタ及び送信機１１８０からネットワーク接続１１２０を介して表示／受信装置１１４０に送信される。また、ネットワーク接続１１２０を介して表示／受信装置１１４０から制御信号を受信してもよい。

表示／受信装置は、例えば、表示画面及び関連する電子回路を含む表示及び表示プロセッサ１２００と、ユーザ操作子１２１０と、例えばデジタル−アナログ変換器（ＤＡＣ）、増幅器及びスピーカを含むオーディオの出力構成１２２０とを備える。

包括的に言えば、顔検出器１１６０は、カメラ１１５０によって撮像された画像内の顔を検出（及び任意の機能として追跡）する。顔検出は、制御信号として画像プロセッサ１１７０に供給される。画像プロセッサは、以下に説明するように、様々な異なる手法で動作させることができるが、基本的には、画像プロセッサ１１７０は、カメラ１１５０によって撮像された画像をネットワーク１１２０を介して送信する前に処理する。この処理の主な目的は、ネットワーク接続１１２０の帯域幅又はビットレートを有効に活用することである。ここで、殆どの商業用途において、テレビ会議システムに適するネットワーク接続１１２０のコストは、ビットレートの要求に伴って高くなる。フォーマッタ及び送信機１１８０は、画像プロセッサ１１７０からの画像と、マイクロホン１１９０からの（例えば、アナログ−デジタル変換器（ＡＤＣ）を介して、変換された）オーディオ信号と、オプションとして、画像プロセッサ１１７０によって行われた処理の性質を定義するメタデータとを結合する。

図５は、更なるビデオ会議システムの構成を示す図である。ここで、顔検出器１１６０、画像プロセッサ１１７０、フォーマッタ及び送信機１１８０、表示及び表示プロセッサ１２００の処理機能は、プログラミング可能なパーソナルコンピュータ１２３０によって実現される。表示画面（１２００の一部）に表示されている画面は、顔検出及び追跡を用いたビデオ会議の１つの可能なモードを示しており、このモードでは、顔を含んでいる画像部分のみが一方の場所から他方の場所に送信され、この他方の場所において、タイル形式又はモザイク形式で表示される。この動作モードについては、後に説明する。

この実施例では、２段階の顔検出技術を用いる。図６は、トレーニング段階を具体的に説明する図であり、図７は、検出段階を具体的に説明する図である。

以前に提案された顔検出方法と異なり、この方法は、全体としてではなく顔の一部のモデリングに基づいている。顔の一部は、顔の特徴（所謂「選択サンプリング（selective sampling）」）の推定位置上の中心のブロック、又は顔の通常間隔でサンプリング（所謂「標準サンプリング（regular sampling）」）されたブロックである。ここでは、主に、経験的検定で良い結果が得られた標準サンプリングについて説明する。

トレーニング段階では、解析処理を、顔を含むことが知られている一組の画像に、及び（オプションとして）顔を含まないことが知られている画像（「顔でない画像（nonface images）」）の別のセットに適用する。この処理は、顔の異なる角度（例えば、正面、左側、右側）を表す顔データの複数のトレーニング用の組について繰り返すことができる。解析処理は、検定画像を後に（検出段階で）比較することができる顔及び顔でない特徴の数学的モデルを構築する。

したがって、数学的モデル（図６のトレーニング処理３１０）を構築するための基本的な手順は次の通りである。
１．同じ目位置を有するように正規化された顔の画像のセット３００の各顔を、小さいブロックに一様にサンプリングする。
２．各ブロックの属性を算出する。
３．属性を、異なる値の処理しやすい数に量子化する。
４．次に、量子化属性を、そのブロック位置に関して１つの量子化値を生成するために組み合わせる。
５．そして、１つの量子化値を、エントリとしてヒストグラム、ヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報３２０は、顔の特徴の数学的モデルの基礎を形成する。

上述のステップを多数の検定顔画像について繰り返すことによって、１つのそのようなヒストグラムを、各可能なブロック位置に対して作成する。そこで、８×８ブロックの配列を用いる方式では、６４個のヒストグラムを準備する。処理の後半部において、検定する量子化属性を、ヒストグラムのデータと比較する。データをモデル化するために全部のヒストグラムを用いるという事実は、例えばガウス分布又は他の分布を後にパラメータ化するか否かと仮定する必要はないことを意味する。データ記憶空間（必要ならば）を節約するために、同じヒストグラムが異なるブロック位置に対して再生利用できるように、類似しているヒストグラムを併合することができる。

検出段階で、検定画像３５０を顔検出器３４０で処理するために、検定画像３４０内の連続したウィンドウを、以下のように処理する。
６．ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ１〜４のように量子化する。
７．各ブロック位置の量子化属性値の対応する「確率（probability）」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラム（異なる角度を表す複数のトレーニング用の組がある場合には、複数のヒストグラム）と比較する。ヒストグラムが「確率」データを高める方法については後述する。
８．得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出（所謂誤検出（false positive））してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出（所謂見逃し検出（false negative））してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。

上述のように、トレーニング段階において、一組の「顔でない」画像は、「顔でない」ヒストグラムの対応するセットを生成するために用いることができる。そして、顔の検出を達成するために、顔でないヒストグラムから生成される「確率」を、個々の閾値と比較し、検定ウィンドウが顔を含むためには、確率が閾値以下でなければならない。代わりに、顔でない確率に対する顔確率の比を、閾値と比較することができる。

元のトレーニングセットを例えば位置、方向、大きさ、アスペクト比、背景の風景、照明の明るさ及び周波数成分（frequency content）の変化等の「合成変化（synthetic variations）」３３０で処理することによって、特別な（extra）トレーニングデータを生成することができる。

以下、顔検出装置の更なる改善について説明する。

顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。

追跡アルゴリズムの初期の目標は、画像シーケンスの全てのフレームにおける全ての顔を検出することである。しかしながら、時々、シーケンス内の顔が検出できないことが認められる。これらの環境で、追跡アルゴリズムは、見逃した顔検出全体で補間するように補佐することができる。

最終的に、顔追跡の目標は、画像シーケンスにおいて同じシーンに属しているフレームの各セットから有効なメタデータを出力できることである。このメタデータには、以下のものが含まれる。
・顔の数。
・各顔の「顔写真(Mugshot)」（個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている）。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別（前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの）−顔の識別には、顔の認識も必要とされる。

追跡アルゴリズムは、顔検出アルゴリズムの結果を用い、画像シーケンスの各フレーム上で、その開始位置として独立して実行される。顔検出アルゴリズムは時々顔を逃がす（検出しない）こともあるので、見逃した顔を内挿する（interpolating）方法は有効である。このために、顔の次の位置を予測するためにカルマンフィルタ（Kalman filter）を用い、顔追跡を助けるために、肌色マッチングアルゴリズム（skin colour matching algorithm）を用いた。更に、顔検出アルゴリズムが頻繁に誤った採用の原因となるので、また、これらを排除する方法は有効である。

このアルゴリズムを、図８に示す。

要約すると、入力ビデオデータ５４５（画像シーケンスを表す）がこの出願で説明される種類の検出器５４０及び肌色マッチング検出器５５０に供給される。顔検出器５４０は、各画像内で１つ以上の顔を検出することを試みる。顔が検出されると、カルマンフィルタ５６０が起動され、その顔の位置を追跡する。カルマンフィルタ５６０は、画像シーケンスにおける次の画像内で同じ顔の予測される位置を生成する。目の位置比較器５７０、５８０は、顔検出器５４０が次の画像内のその位置（或いは、その位置からある閾値距離の範囲内）で顔を検出したかを、検出する。顔が検出された場合、その検出された顔位置は、カルマンフィルタを更新するために用いられ、処理が続けられる。

顔が予測された位置で、或いは近くで検出されない場合、肌色マッチング回路５５０を用いる。肌色マッチング回路５５０は、厳密でない顔検出技術であり、その検出の閾値は顔検出器５４０よりも低く設定され、顔検出器５４０がその位置で顔があると検出することができないときでさえ、顔を検出する（顔があるとみなす）ことができる。肌色マッチング回路５５０によって「顔」が検出されると、その位置がカルマンフィルタ５６０に更新された位置として供給され、処理が続けられる。

顔検出器４５０又は肌色マッチング回路５５０によって一致が検出されないときは、カルマンフィルタを更新するために予測された位置を用いる。

これらの結果の全ては、判定基準（下記参照）に対する対象である。したがって、例えば、１つの正しい検出に基づきシーケンスを通して追跡される顔、及び予測の残り又は肌色検出の残りは、破棄する。

追跡アルゴリズムにおいて各顔を追跡するために、それぞれ独立したカルマンフィルタを用いる。

なお、追跡処理は、必ずしもビデオシーケンスを時間的に順方向に追跡する必要はない。画像データにアクセス可能であれば（すなわち、処理が実時間ではなく、又は画像データが時間的に継続する用途のためにバッファリングされている場合）、追跡処理を時間的に逆方向に行うこともできる。又は、第１の顔が検出された場合（多くの場合ビデオシーケンスの途中で検出される）、追跡処理は、時間的に順方向及び逆方向の両方について開始してもよい。更なる任意の処理として、追跡処理は、ビデオシーケンス全体に亘って、時間的に順方向及び逆方向の両方について実行し、これらの追跡の結果を組み合わせて（例えば）許容基準に適合する追跡された顔が、追跡が実行された何れの方向についても有効な結果として含ませてもよい。

追跡アルゴリズムの利点
顔追跡法は、以下のような３つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める（fill in）ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。

図９ａ〜図９ｃは、ビデオシーケンスに適用される顔追跡を説明する図である。

具体的には、図９ａは、連続するビデオ画像（例えば、フィールド又はフレーム）８１０から構成されるビデオシーン８００を図式的に示している。

この具体例では、画像８１０は、１又は複数の顔を含んでいる。詳しくは、このシーン内の全ての画像８１０は、画像８１０の図式的表現内における左上に示す顔Ａを含んでいる。更に、一部の画像８１０は、画像８１０の図式的表現内における右下に示す顔Ｂを含んでいる。

この図９ａに示すシーンに顔追跡処理を適用したとする。顔Ａは、当然、シーン全体に亘って追跡される。１つの画像８２０においては、直接検出によっては顔は追跡されていないが、上述した色マッチング法及びカルマンフィルタリング法により、「見逃された（missing）」画像８２０の前後の両側について、検出が連続していることを示唆する。図９ｂは、検出された、各画像内に顔Ａが存在する確率を示しており、図９ｃは、顔Ｂが存在する確率を示している。顔Ａに対する追跡と、顔Ｂに対する追跡とを区別するために、各追跡には、（少なくともこのシステム内における他の追跡に関して）固有の識別番号が与えられる。

上述のシステム及びＰＣＴ／ＧＢ２００３／００５１８６に開示されたシステムでは、顔検出及び追跡において、顔が長期間に亘ってカメラから背けられた場合、又はシーンから短期間消えた場合、個人の追跡が終了する。顔がシーンに戻ると、その顔は、再び検出されるが、この場合、新たな追跡が開始され、この新たな追跡には、以前とは異なる識別（ＩＤ）番号が与えられる。

以下、所謂「顔類似（face similarity）」又は「顔照合（face matching）」技術について説明する。

顔類似の目的は、上述のような状況における、個人の同一性を維持するすることであり、これにより、（同じ個人に関連する）先の顔追跡と、後の顔追跡を互いにリンクさせることができる。この構成においては、少なくとも原理的に、各個人には、固有のＩＤ番号が割り当てられる。個人がシーンに戻るとアルゴリズムは、顔照合技術を用いて、同じ識別番号を再び割り当てるよう試みる。

顔類似法では、新たに検出した個人の複数の顔「スタンプ」（追跡された顔を代表するよう選択された画像）と、以前に検出した個人又は他の場所で検出した個人とを比較する。なお、顔スタンプは、正方形である必要はない。システムの顔検出及び追跡コンポーネントから、１人の個人に属する複数の顔スタンプが得られる。上述のように、顔追跡処理では、検出された顔を一時的にリンクし、その個人がシーンから消えるか、カメラから長時間顔を背けない限り、ビデオフレームのシーケンス中において、これらの顔の同一性を維持する。したがって、このような追跡処理内の顔検出は、同じ個人に属するものと考えられ、その追跡処理内の顔スタンプは、１人の特定の個人の顔スタンプの「組」として用いることができる。

各顔スタンプの組においては、固定された数の顔スタンプが維持される。以下、追跡処理から顔スタンプを選択する手法を説明する。次に、２つの顔スタンプセットの「類似性測定値」について説明する。続いて、顔検出と追跡システム内において、類似法をどのように用いるかを説明する。まず、図１０を用いて、総合的な追跡システムのコンテキストにおける顔類似技術（face similarity techniques）について説明する。

図１０は、上述した顔検出及び追跡システムの技術的コンテキストに顔類似機能を追加したシステムを示している。この図面には、上述のシステム及びＰＣＴ／ＧＢ２００３／００５１８６に開示された処理の概要も示されている。

第１のステージ２３００において、所謂「関心領域」ロジックは、画像内において、顔検出を行うべき領域を導出する。これらの関心領域において、顔検出２３１０が行われ、顔位置が検出される。次に、顔追跡２３２０が行われ、追跡された顔位置及びＩＤが生成される。そして、顔類似処理２３３０において、顔スタンプの組が照合される。

顔スタンプの組のためのスタンプの選択
顔スタンプの組を生成及び維持するために、追跡処理において一時的にリンクされた複数の顔スタンプから所定数（ｎ）のスタンプが選択される。選択の基準は、以下の通りである。
１．スタンプは、色追跡又はカルマン追跡からではなく、顔検出から直接生成されている必要がある。更に、スタンプは、「正面」の顔トレーニングセットから生成されたヒストグラムデータを用いて検出された場合にのみ選択される。
２．一旦、（例えば、顔追跡を構成する画像の時間順に）最初のｎ個のスタンプが集められると、既存の顔スタンプの組と、（時間順の）追跡から得られる新たな各スタンプとの類似性（以下参照）が測定される。追跡された各顔スタンプと、スタンプの組内の残りのスタンプとの類似性も測定され、保存される。新たに得られた顔スタンプが顔スタンプの組の既存の要素より類似性が低い場合、その既存の要素は、無視され、新たな顔スタンプが顔スタンプの組に含まれる。このようにしてスタンプを選択することにより、選択処理の終わりには、顔スタンプの組内に、入手可能な最大限の変化が含まれる。これにより、顔スタンプの組は、特定の個人をより明確に代表するようになる。

１つ顔スタンプの組について集められたスタンプがｎ個より少ない場合、この組は、多くの変化を含んでおらず、したがって、個人のを明確に代表するものではない可能性が高いため、この顔スタンプの組は、類似性評価には使用されない。

この技術は、顔類似アルゴリズムだけではなく、如何なる目的の如何なる用途の代表ピクチャスタンプの組の選択にも応用できる。

例えば、この技術は、所謂顔登録（face logging）にも応用できる。例えば、カメラの前を通り過ぎたことが検出され、登録された個人を表現する必要がある場合がある。この場合、幾つかのピクチャがスタンプを用いるとよい。これらのピクチャスタンプは、できるだけ多くの変化が含まれるように、互いに可能な限り異なるものであることが理想的である。これにより、人間のユーザ又は自動顔認識アルゴリズムがその個人を認識できる機会が広がる。

類似性測定値
２つの顔追跡結果が同じ個人を表しているか否かを判定するためにこれらを比較する際に用いる、新たに遭遇した個人の顔スタンプの組（セットＢ）と、以前に遭遇した個人の顔スタンプ（セットＡ）との間の類似性の基準は、セットＡの顔スタンプからセットＢの顔のスタンプがどれ程良好に再構築できるかに基づいて定められる。セットＡの顔スタンプからセットＢの顔スタンプが良好に再構築できる場合、セットＡとセットＢの両方の顔スタンプは、同じ個人のものである可能性が高いと考えられ、したがって、新たに遭遇した個人は、以前、検出された個人と同一人物であると判定できる。

この手法は、上述した構成にも適用でき、すなわち、特定の顔追跡結果を表す顔スタンプの組として用いる顔画像の選択にも適用できる。この場合、新たに遭遇した各候補顔スタンプと、その組内の既存のスタンプとの間の類似性、及び既存の組内の各スタンプ間の類似性は、後述するように、セットＢからのスタンプと、セットＡからのスタンプとの間の類似性と同様に判定できる。

セットＢ内のスタンプは、ブロックベースの手法によって、セットＡのスタンプから再構築される。この処理図を図１１に示す。

図１７には、４つの顔スタンプ２０００、２０１０、２０２０、２０３０を含む顔スタンプセットＡが示されている（勿論、４個という個数は、図面を明瞭にするために選択しただけであり、実用段階では、当業者はこの個数を任意に選択することができる）。顔スタンプセットＢからのスタンプ２０４０は、セットＡの４つのスタンプと比較される。

顔スタンプ２０４０内の重複しない各ブロック２０５０は、顔スタンプセットＡのスタンプから選択されたブロックによって置換される。ブロックは、セットＡの如何なるスタンプから、及びスタンプの元のブロック位置の近隣又は検索ウィンドウ２１００内の如何なる位置からも選択することができる。平均自乗誤差（mean squared error：ＭＳＥ）が最も小さくなるこれらの位置内のブロックが選択され、これにより、動きが推定法を用いて、再構築されているブロックが置換される（ここで好適に用いられる動き推定法は、演算負荷が軽く、且つ、明るさの変化がある場合、平均自乗誤差が最も小さくなる推定法である）。なお、ブロックは、正方形である必要はない。この実施例では、ブロック２０６０は、スタンプ２０００からの近接するブロックによって置換され、ブロック２０７０は、顔スタンプ２０１０からのブロックによって置換され、ブロック２０８０は、顔スタンプ１２０２０からのブロックによって置換される。

顔スタンプを再構築する場合、各ブロックは、基準顔スタンプ（reference face stamp）内の対応する近隣のブロックによって置換することができる。オプションとして、この近隣のブロックに加えて、最良のブロック（best block）は、反転された基準顔スタンプ内の対応する近隣から選択してもよい。人間の顔は、略対称性を有しているため、このような処理を行うことができる。このようにして、顔スタンプの組内に存在するより多くの変化を利用できる。

用いられる各顔スタンプは、６４×６４のサイズを有し、これは、８×８のサイズのブロックに分割される。類似性測定のために用いられる顔スタンプは、システムの顔検出コンポーネントによって出力される顔スタンプより厳密にクロッピングされる。これは、類似性測定処理において、できるだけ多くの背景を除外するためである。

画像をクロッピングするために、例えば、高さ５０画素、幅４５画素等、縮小されたサイズが選択される（又は予め定められる）（殆どの顔が正方形でないことに対応する）。次に、このサイズの中心領域に対応する画素のグループがリサイズされ、これにより、選択された領域は、再び６４×６４ブロックに対応するようになる。この処理は、簡単な補間処理を含む。中央の非正方形領域をリサイジングして正方形のブロックに対応させることにより、リサイジングされた顔は、多少引き延ばされて見えることがある。

クロッピング領域（例えば、５０×４５画素領域）は、予め定めてもよく、又は各インスタンス内の検出された顔の属性に応じて選択してもよい。何れの場合も、６４×６４ブロックへのリサイジングは、顔スタンプがクロッピングされているか否かにかかわらず、同じ６４×６４サイズで顔スタンプが比較されることを意味する。

一旦、全体のスタンプがこのようにして再構築されると、再構築されたスタンプとセットＢからのスタンプの間で平均自乗誤差が計算される。この平均自乗誤差が低い程、この顔スタンプと、顔スタンプセットＡの間の類似度が高いと判定できる。

２つの顔スタンプの組を比較する場合、顔スタンプセットＢの各スタンプを同様に再構築し、２つの顔スタンプの組の間の類似性測定値として、結合された平均自乗誤差を用いる。

このように、このアルゴリズムは、照合すべき各個人について、複数の顔スタンプが利用可能であるという事実に基づいている。更に、このアルゴリズムは、照合すべき顔の不正確な登録に対するロバスト性を有する。

上述のシステムにおいては、類似性測定値を生成するために、既存の顔スタンプの組から新たに集められた顔スタンプの組が再構築される。他の顔スタンプの組から（ＡからＢ）顔スタンプの組を再構築することによって得られる類似性測定値は、通常、先の組から顔スタンプの組を再構築する場合（ＢからＡ）と異なる結果を示す。したがって、幾つかの状況では、既存の顔スタンプの組を新たな顔スタンプの組から再構築した場合、例えば、非常に短い追跡から既存の顔スタンプの組を集めた場合等、逆の処理を行った場合に比べて、より高い類似性測定値が導き出されることもある。したがって、同様の顔の間の併合が成功する可能性を高めるために、２つの類似性測定値を結合（例えば、平均化）してもよい。

更に可能な変形例を説明する。顔スタンプを再構築する場合、各ブロックは、基準顔スタンプからの同じサイズ、形状及び向きを有するブロックによって置換される。しかしながら、２つの顔スタンプにおいて、サブジェクトのサイズと向きが異なる場合、再構築される顔スタンプのブロックが同じサイズ、形状及び向きのブロックに対応しないため、これらの顔スタンプは、互いから良好に再構築されない。この問題は、基準顔スタンプのブロックのサイズ、形状及び向きを任意に変更できるようにすることによって解決できる。すなわち、最良のブロックは、高次の幾何学変換推定（例えば、回転、ズーム等）を用いることによって、基準顔スタンプから選択される。これに代えて、基本的な手法によって顔がスタンプを再構築する前に基準顔スタンプの全体を回転及びリサイズしてもよい。

明るさの変化に対する類似性測定値のロバスト性を高めるために、平均輝度が０となり、分散が１となるように、各顔スタンプを正規化してもよい。

オブジェクト追跡システム内の顔類似コンポーネントの使用
オブジェクト追跡により、個人がシーンから姿を消さない限り、ビデオフレームのシーケンス中において、その個人の同一性が維持される。顔類似コンポーネントの目的は、個人が一時的にシーンから消え、又はカメラから顔を背け、或いは異なるカメラによってシーンが捕捉された場合においても個人の同一が維持されるように追跡をリンクさせることである。

顔検出及びオブジェクト追跡システムの動作の間、新たな追跡が開始されるたびに、新たな顔スタンプの組の収集が開始される。新たな顔スタンプの組には、固有の（すなわち、以前に追跡された組とは異なる）ＩＤが与えられる。新たな顔スタンプの組の各スタンプが得られると、先に集められた顔スタンプの組に対する類似性測定値（Ｓｉ）が算出される。以下に示すように、この類似性測定値を用いて、反復的な手法によって、先に集められた顔スタンプの組に対する、新たな顔スタンプの組の既存の要素に関する結合された類似性測定値（Ｓｉ−１）が更新される。
^ｊＳ_ｉ＝０．９＊^ｊＳ_ｉ−１＋０．１＊^ｊＳ_ｉ
ここで、上付き文字ｊは、先に集められた顔スタンプの組ｊとの比較を表している。

ここで、以前に遭遇した顔スタンプの組に対する新たな顔スタンプの組の類似性がある閾値（Ｔ）を超え、新たな顔スタンプの組内の要素の数が少なくともｎ（上述の説明参照）個であった場合、新たな顔スタンプの組には、前の顔スタンプの組と同じ所定のＩＤが与えられる。次に、２つの顔スタンプの組を併合し、上述したような、同じ類似性比較法を用いて、これら２つの組に含まれる変化と同じ量の変化を可能な限り含む１つの顔スタンプの組を生成する。

新たな顔スタンプの組は、ｎ個の顔スタンプが集められる前に追跡が終了した場合、破棄される。

２つ以上の保存された顔スタンプの組について、新たな顔スタンプの組の類似性測定値が閾値Ｔを超えている場合、これは、現在の個人が、先の２人の個人に良好に一致すると考えられる。この場合、現在の個人を先の２人の個人の何れかに一致させるために、更に厳格な類似性閾値（すなわち、更に低い差分値）が必要となる。

類似性基準に加えて、他の評価基準を用いて、２つの顔スタンプの組を併合すべきか否かを決定することもできる。この評価基準は、同じ個人に属する２つの顔スタンプの組が同じ時間に重複しないという知識に基づいている。すなわち、数フレーム以上に亘るピクチャ内に同時に現れた２つの顔スタンプの組が互いに一致するとみなされることはない。これは、共存マトリクス（co-existence matrix）を用いて、１又は複数のピクチャ内に同時に存在した全ての顔スタンプの組に関する記録を維持することによって実現される。共存マトリクスは、２つの顔スタンプの組のあらゆる組合せが共存したことがある複数のフレームを保存する。このフレームの数が少なくない、例えば１０フレーム以上である場合（幾つかのフレームに亘って、追跡が顔に定まらないまま削除されることがあることを考慮している。）、２つの顔スタンプの組を同じＩＤに併合することは許可されない。ＩＤ１〜ＩＤ５が付された５人の人（追跡結果）に関する共存マトリクスの具体例を以下に示す。

マトリクスは、以下の事実を示している。
・ＩＤ１は、合計２３４フレームに出現している（但し、これらは連続していない場合もある）。ＩＤ１は、ＩＤ２又はＩＤ３と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ＩＤ１は、８７フレームに亘ってＩＤ４と共存しており、したがって、この個人と併合されることはない。また、ＩＤ１は、５フレームに亘ってＩＤ５と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの２つＩＤは、併合される可能性を残している。
・ＩＤ２は、合計５４フレームに出現している（但し、これらは連続していない場合もある）。ＩＤ２は、ＩＤ３のみと共存しており、したがって、この個人と併合されることはない。また、ＩＤ２は、良好に一致すれば、ＩＤ１、ＩＤ４、ＩＤ５の何れかと将来併合される可能性がある。
・ＩＤ３は、合計４３フレームに出現している（但し、これらは連続していない場合もある）。ＩＤ３は、ＩＤ２のみと共存しており、したがって、この個人と併合されることはない。また、ＩＤ２は、良好に一致すれば、ＩＤ１、ＩＤ４、ＩＤ５の何れかと将来併合される可能性がある。
・ＩＤ４は、合計１０２フレームに出現している（但し、これらは連続していない場合もある）。ＩＤ４は、ＩＤ２又はＩＤ３と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ＩＤ４は、８７フレームに亘ってＩＤ１と共存しており、したがって、この個人と併合されることはない。また、ＩＤ４は、５フレームに亘ってＩＤ５と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの２つＩＤは、併合される可能性を残している。
・ＩＤ５は、合計５フレームに出現している（但し、これらは連続していない場合もある）。ＩＤ５は、全てのフレームについて、ＩＤ１及びＩＤ４と共存したが、このフレーム数は閾値フレーム数より少ないので、ＩＤ５は、ＩＤ１及びＩＤ４の何れか一方と併合される可能性がある。また、ＩＤ５は、ＩＤ２及びＩＤ３と共存していないので、ＩＤ２又はＩＤ３と併合される可能性がある。

顔類似測定値が高いために２つのＩＤが併合されると、共存マトリクスは、これらの併合された２つのＩＤの共存情報を結合することによって更新される。この更新は、単に、２つのＩＤに対応する行の数値を加算し、続いて、２つのＩＤに対応する列の数値を加算することによって行われる。

例えば、ＩＤ５をＩＤ１に併合すると、上述した共存マトリクスは、以下のようになる。

次に、ＩＤ１がＩＤ２に併合されると、この共存マトリクスは、以下のようになる。

なお、以下の点に注意する必要がある。
・ＩＤ１は、他の更なる既存の人とも併合することはできない。
・この具体例では、２つのＩＤが併合された後は、小さい方のＩＤ番号を維持するとの規約がある。
・ＩＤがピクチャ内に存在している間は、ＩＤを併合することは許可されない。

顔スタンプの組を生成及び併合するための類似性検出処理において、顔スタンプは、通常、他の顔スタンプから複数回再構築する必要がある。これは、動きが推定法を用いて、各ブロックを何回か照合する必要があることを意味する。幾つかの動き推定法では、最初のステップとして、用いられる基準顔スタンプの如何にかかわらず、照合する必要があるブロックに関するある情報を計算する。動き推定は、何回か実行する必要があるため、この情報は、顔スタンプとともに保存してもよく、これにより、ブロックを照合するたびにこの情報を算出する必要がなくなり、処理時間が短縮される。

以下、例外的な（少なくとも普通ではない）照明条件の下で撮像された画像の画質を向上させることを目的とする顔検出及びオブジェクト追跡技術の改善について説明する。

照明変化に対するロバスト性を向上させる方法
照明変化に対するロバスト性を向上させる方法には、次のような方法がある。
（ａ）広範囲に亘る照明変化を含む付加的なサンプルを用いた追加的なトレーニング。
（ｂ）急峻な影の影響を減少させるためのコントラストの調整。

ヒストグラムを正規化する更なる修正により、顔検出システムのパラメータの１つを調整する必要がなくなるので、顔検出の性能が向上する。

これらの実験のための検査用のセットは、例外的な照明条件の下で撮像された画像を含んでいる。図１２に示す「小さなトレーニングセット（曲線Ａ）」のラベルが付された第１の組は、正面の顔（２０％）と、左向きの顔（２０％）と、右向きの顔（２０％）と、上向きの顔（２０％）と、下向きの顔（２０％）とを含んでいる。図１２には、上述した改善を行う前及び行った後の、この検査用の組に対する顔検出システムの性能を示している。第２の検査用の画像の組は、オフィスの周辺で撮像されたサンプル画像を含んでいる。図１３ａ及び図１３ｂは、これらのサンプル画像を示しており、これらについては後に説明する。

ヒストグラムトレーニングセットの更なるデータ
異なる照明条件に対処するためにトレーニングセットに更なる顔のサンプルを追加してもよい。これらの顔のサンプルは、好ましくは、元から用いていたトレーニングセット内の顔のサンプルより多くの照明の変化を含んでいるとよい。図１２に示すように、拡張された（結合された）トレーニングセット（曲線Ｂ）は、小さいトレーニングセット（曲線Ａ）のみを用いた場合に比べて、僅かに性能が向上している。

ヒストグラムの正規化
正面のポーズに関するヒストグラムを用いた検出のための適切な閾値は、正面以外のポーズに関するヒストグラムを用いた場合に比べて僅かに低くすることが好ましいことが見出されている。このため、各ポーズの確率マップを結合する前に、正面のポーズの確率マップにバイアスを加える必要がある。顔検出システムのヒストグラムトレーニング機能を変更する際には、この正面のバイアスを経験的に決定する必要があった。

なお、正面の確率マップ及び正面ではない向きの確率マップの両方の検出に同様の閾値を用いることができるように、このバイアスをヒストグラムトレーニング機能に組み込んでもよい。この処理は、正面のヒストグラム及び正面ではない向きのヒストグラムを互いに正規化したと表現することもできる。図１２のグラフに示す「小さいトレーニングセット」の曲線及び「結合されたトレーニングセット」の曲線は、適切な正面のバイアスを経験的に決定する前の結果を示している。曲線Ｃは、最適化されたヒストグラムを用いた場合の結果であり、これは、最適ではないバイアスを用いた場合に比べて、より良好な性能が得られることを示している。

コントラスト調整
急峻な影が存在する顔画像は、検出が難しいことが観察された。このため、影の影響を低減するための前処理を考案した。この前処理では、（検査中の画像全体より小さい）ウィンドウを入力画像内の各画素の周りにセンタリングし、ウィンドウ内の最小の画素値によって、ウィンドウの中心の画素値を平均化する。これにより、出力画像の各画素の値（Ｉ_{ｏｕｔｐｕｔ}）は、以下の式の通りとなる。
Ｉ_{ｏｕｔｐｕｔ}（ｘ）＝（Ｉ_{ｉｎｐｕｔ}（ｘ）＋ｍｉｎ（Ｗ））／２
ここで、Ｗは、画素ｘにセンタリングされたウィンドウを表す。

この具体化で用いる隣接するウィンドウのサイズは、７×７画素である。続いて、処理された画像に対して通常の顔検出を行う。これにより、図１２の曲線Ｄに示すような改善の効果が得られる。すなわち、この新規な処理により、顔検出システムの性能が著しく向上していることがわかる。（なお、「ウィンドウ」が画像全体を含む構成についても同様の検査を行ったが、この場合、上述のような有利な効果は得られなかった。）
この技術は、例えば、店舗内等の厳しい照明環境下で、例えば顔等のオブジェクトを検出する必要がある場合に特に有用であり、したがって、所謂「電子看板（デジタルサイネージ）」に適用し、広告マテリアルを表示する画面を見ている個人の顔を検出するために用いてもよい。この場合、顔の存在、顔の滞在時間、及び／又は顔の数を用いて、広告画面上に表示するマテリアルを変更することができる。

サンプル画像
ここに提案した幾つかのサンプル画像に関する修正を行った後の顔検出システムの性能を図１３ａ及び図１３ｂに示す。左側及び右側の画像は、それぞれ修正前及び修正後の顔検出の結果を示している。このように、上述した修正により、厳しい照明条件下でも、正面の顔及び正面以外の向きの顔の両方の検出が成功している。

ここでは、添付の図面を参照して特定の実施例について説明したが、本発明は、これに限定されるわけではなく、本発明の範囲内で多くの変更及び追加を行うことができることは明らかである。例えば、本発明の範囲から逸脱することなく、特許請求の範囲に示す従属請求項の様々な組合せを独立請求項の特徴に加えることができる。
参考文献
１．エイチ・シュナイダーマン（H. Schneiderman）及びティー・カナデ（T. Kanade）著、「顔及び車に適用される３Ｄオブジェクト検出のための統計モデル（A statistical model for 3D object detection applied to faces and cars）」、コンピュータビジョン及びパーターン検出に関するＩＥＥＥコンファレンス２０００（IEEE Conference on Computer Vision and Pattern Detection, 2000）
２．エイチ・シュナイダーマン（H. Schneiderman）及びティー・カナデ（T. Kanade）著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング（Probabilistic modelling of local appearance and spatial relationships for object detection）」、コンピュータビジョン及びパーターン検出に関するＩＥＥＥコンファレンス１９９８（IEEE Conference on Computer Vision and Pattern Detection, 1998）
３．エイチ・シュナイダーマン（H. Schneiderman）著、「顔及び車に適用される３Ｄオブジェクト検出のための統計的手法」、カーネギーメロン大学（Carnegie Mellon University）ロボティクス研究科（Robotics Institute）博士論文、２０００年

顔検出装置及び／又は非線型編集装置として用いられる汎用コンピュータシステムの構成を示す図である。顔検出に用いるビデオカメラ−レコーダ（カムコーダ）の内部構成を示す図である。ビデオ会議システムの構成を示す図である。ビデオ会議システムの構成をより詳細に示す図である。ビデオ会議システムの構成をより詳細に示す図である。トレーニング処理を説明する図である。検出処理を説明する図である。顔追跡アルゴリズムを説明する図である。図９ａ〜９ｃは、ビデオシーケンスに適用される顔追跡を説明する図である。顔検出及び追跡システムの構成を示す図である。類似性検出技術を説明する図である。異なるトレーニングセットに対するシステム性能を示すグラフ図である。試験結果を示す図である。試験結果を示す図である。

Claims

ｎを２以上の数として、検査する画像のセットを代表するｎ個の画像のサブセットを選択する画像処理方法において、
上記検査する画像のセット内の画像間の類似性の度合いを検出し、上記画像のサブセットが該検査する画像のセット内の他の画像との間で実質的に最も低い類似性を有するｎ個の画像を含むようにするステップを有する画像処理方法。
上記画像のサブセットは、上記検査する画像のセット内の他の画像との間で最も低い類似性を有するｎ個の画像を含むことを特徴とする請求項１記載の画像処理方法。
上記類似性を検出するステップは、
上記検査する画像のセットからｎ個の画像からなる検査用のサブセットを抽出するステップと、
上記検査用のサブセット内のｎ個の画像間で、相互の類似性を検出するステップと、
上記検査する画像のセット内の他の画像のそれぞれについて、
上記他の画像と、上記サブセット内のｎ個の画像との間の類似性の度合いを検出するステップと、
上記他の画像と上記検査用のサブセット内のｎ個の画像との間の類似性が、上記サブセット内の１つの画像と上記検査用のサブセットの残りの画像との間の類似性より低い場合、該サブセット内の類似性が低い画像を他の画像と置換するステップとを有する請求項２記載の画像処理方法。
上記検査する画像のセットがｎ個より少ない画像しか含まない場合、上記検査する画像のセットを代表する画像のサブセットを選択しないことを特徴とする請求項１記載の画像処理方法。
ビデオシーケンスの連続したピクチャ内に存在するオブジェクトを検出するステップと、
上記検出されたオブジェクトを含むピクチャの部分のシーケンスを導出するステップとを有し、
上記ピクチャの部分のシーケンスは、上記検査する画像のセットを構成することを特徴とする請求項１記載の画像処理方法。
上記検査する画像のセットを構成するピクチャの部分のシーケンスは、上記ビデオシーケンス内の時間的に連続するピクチャのグループから導出されることを特徴とする請求項５記載の画像処理方法。
上記オブジェクトを検出するステップは、
上記ピクチャを処理して、上記オブジェクトの存在を示すピクチャ特徴を検出する第１の検出ステップと、
上記オブジェクトが検出される尤度が上記第１の検出ステップより高い１又は複数の第２の検出ステップとを有し、
上記オブジェクトを含むと検出されたピクチャの部分のシーケンスは、上記第１の検出ステップの結果から導出され、０個以上のピクチャの部分は、上記第２の検出ステップ又は各検出ステップの結果を用いて導出された上記シーケンス内のピクチャの部分の分布に関する制約に基づいて上記第２の検出ステップの結果から導出されることを特徴とする請求項５記載の画像処理方法。
上記第２の検出ステップは、上記オブジェクトの存在を示すピクチャの色特性を検出するステップを有することを特徴とする請求項７記載の画像処理方法。
上記第２の検出ステップは、上記オブジェクトについて検出された他の１つ以上のピクチャ内の位置に基づいて、該オブジェクトのピクチャ内の位置を予測するステップを有することを特徴とする請求項７記載の画像処理方法。
上記検査する画像のセットから、上記第２の検出ステップを用いて導出された全てのピクチャの部分を除外するステップを更に有する請求項７記載の画像処理方法。
上記オブジェクトは顔であることを特徴とする請求項１記載の画像処理方法。
上記類似性の度合いを検出するステップは、
上記検査する画像のセットについて、該画像を１つ以上の検査領域に分割するステップと、
上記各検査領域について、該検査領域を上記検査する画像のセット内の１つ以上の他の画像内の１つ以上の参照領域と比較し、該検査領域を置換した場合に、該画像の外観が現在の画像に近くなるような、該検査領域に最も近い参照領域を特定しするステップとを有する請求項１記載の画像処理方法。
請求項１記載の画像処理方法を実行するプログラムコードを含むコンピュータソフトウェア。
請求項１３記載のプログラムコードを提供する提供媒体。
上記提供媒体は、記録媒体であることを特徴とする請求項１４記載の提供媒体。
上記提供媒体は、伝送媒体であることを特徴とする請求項１４記載の提供媒体。
ｎを２以上の数として、検査する画像のセットを代表するｎ個の画像のサブセットを選択する画像処理装置において、
上記検査する画像のセット内の画像間の類似性の度合いを検出し、上記画像のサブセットが該検査する画像のセット内の他の画像との間で実質的に最も低い類似性を有するｎ個の画像を含むようにする検出器を備える画像処理装置。
請求項１７記載の画像処理装置を備えるビデオ会議装置。
請求項１７記載の画像処理装置を備える監視装置。