JP4579931B2

JP4579931B2 - オンライン学習を用いた連続的な顔認識

Info

Publication number: JP4579931B2
Application number: JP2006550478A
Authority: JP
Inventors: ディミトロワ，ネヴェンカ; ファンシェンゼン，ヤン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-02-02
Filing date: 2005-01-31
Publication date: 2010-11-10
Anticipated expiration: 2025-01-31
Also published as: KR20060129366A; TW200539046A; EP1714233A1; WO2005073896A1; US20090196464A1; KR20060133563A; JP2007520010A

Description

本出願は、2004年2月2日に出願された、Nevenka Dimitrova and Jun Fanの“Continuous Face Recognition With Online Learning”と題する米国特許仮出願60/541,206への優先権を主張するものである。

上に同定した、2004年2月2日に出願された、Nevenka Dimitrova and Jun Fanの“Continuous Face Recognition With Online Learning”と題する米国特許仮出願60/541,206の内容はここに参照によってここに組み込まれる。

本発明は一般には顔認識に関する。より詳細には、本発明は、新しい顔のオンライン学習を含む顔認識の改良に関する。

顔認識は活発な研究分野であり続けてきており、多くの技術が現在利用可能である。そのような技術の一つは、ビデオストリームまたはその他の画像中に検出される顔を表す入力ベクトルを認識するかどうかを決定するために、確率的ニューラルネットワーク（probabilistic neural network）（一般に「PNN」）を使う。PNNは顔が「既知」であるか「未知」であるかを、入力ベクトルを、PNNがトレーニングされている固定数の既知の顔と比較することによって決定する。たとえば比較の結果、十分高い信頼値が得られれば、その顔はデータベース中の対応する顔のものであると見なされる。比較結果がそうでなければ、入力顔は単に「未知」と見なされて破棄される。PNNの概要はたとえばP. K. Patra et al.による“Probabilistic Neural Network for Pattern Classification”, Proceedings of the 2002 International Joint Conference on Neural Networks (IEEE IJCNN'02), May 2002, Vol. II, pp.1200-1205で記述されており、その内容はここに参照によってここに組み込まれる。

PNNを顔認識に適用する従来技術における一つの困難は、入力顔が事前にトレーニングされたデータベース中の顔としか比較されないことである。換言すれば、PNNをトレーニングするために使用された顔の一つに対応すると判明した場合にしか、顔が「既知」と判定され得ないのである。よって、データベース中にない顔については、たとえその同じ顔が以前にシステムによって検出されたことがあったとしても、同じ入力顔が繰り返し「未知」と判定されることがある。

米国特許出願公開2002/0136433A1（「'433公開」）は、「適応的固有顔（adaptive eigenface）」システムにおいて未知の顔についてオンライントレーニングを適用する顔認識システムを記載している。'433公開によれば、検出された未知の顔は既知の顔のクラスに追加される。'433公開はまた、その顔を追跡してその未知の顔の複数の画像がデータベースに追加されうるようにすることにも言及している。しかし、'433公開は未知の顔をデータベースに追加するかどうかを決定する際の選択性を教示してはいない。よって、'433データベースは急速に新しい顔でふくれ、またシステムのパフォーマンスを遅くしもすることがありうる。すべての未知画像の取り込みはある種の用途には望ましいかもしれないが（たとえば監視の場合はのちの認識のためにすべての顔を取り込むことが望ましいかもしれない）、他の用途では望ましくないこともある。たとえば、顕著な顔の高速な認識が重要であるビデオシステムでは、無差別なデータベースの拡張は望ましくないこともある。

本発明は、なかんづく、新しい顔を顔認識で使われるデータベースなどに追加することを含み、新しい顔を学習し続ける。新しい顔がデータベースに追加されると、その後受け取られる入力ビデオに再び見出されたときには、それは「既知」の顔として検出されうる。ある側面は、新しい顔のどれがデータベースに追加されるかの判別を、ビデオ中に持続する新しい顔のみがデータベースに追加されることを保証するための規則を適用することによって行う。これは「見かけ上」または「一過性」の顔がデータベースに追加されることを解消する。

ここで、以下の記述で使用される用語法に関して注記しておく。一般に、顔は、その顔特徴に関するデータがシステムに保存されている場合にシステムによって「既知」と考えられる。一般に、顔が「既知」の場合には、その顔を含む入力はシステムによって保存されている顔に対応すると認識されうる。たとえば、PNNベースのシステムにおいて、顔は、その顔に対応するカテゴリーがある場合に「既知」であり、そのようなカテゴリーがない場合に「未知」と考えられる。（もちろん、顔に対応するカテゴリーの存在は必ずしも処理が常にマッチまたはヒットを決定するということを意味しない。入力された既知の顔とそのカテゴリーとの間の「ミス」もありうるからである。）「既知」の顔は一般にシステムによって、一般的ラベルまたは参照番号のような識別子を与えられることになる。（のちに見るように図２および図６のラベルF1、F2、…、FNや図６のFAはシステム中のそのような一般的識別子を表している。）システムは顔についての顔特徴に関するデータまたはそのようなシステム識別子もしくはラベルを、必ずしも人物の素性（その人物の名前など）を有することなくあらかじめ保存していてもよい。こうして、システムは、ある顔について、必ずしもその顔の個人識別に関するデータを有することなく、保存されている顔データを含んでいるという意味で、その顔を「知る」ことができる。もちろん、システムはある顔を「知っている」と同時にその顔についての対応する個人識別データも有していることもありうる。

よって、本発明は顔分類器を有するシステムを有しており、該顔分類器は、ビデオ入力中に検出されたある顔画像が当該分類器中で既知の顔に対応するかどうかの判定を提供する。システムは、未知の検出された顔がビデオ入力中で、一つまたは複数の持続性基準に基づいて持続しているときに、その未知の検出された顔を分類器に追加する。未知の顔はこうしてシステムにとって既知となる。

顔分類器は、たとえば、確率的ニューラルネットワーク（PNN）であってもよく、ビデオ入力中に検出された顔画像は、PNN中のあるカテゴリーに対応する場合に既知の顔となる。未知の顔について持続性基準が満たされたとき、システムは、その未知の顔についてのカテゴリーならびに一つまたは複数のパターンノードをPNNに追加することによって、その未知の顔をPNNに追加しうる。それによりその未知の顔をシステムにとって既知とするのである。前記一つまたは複数の持続性基準は、同じ未知の顔がビデオ入力中である最小時間期間にわたって検出されることでもよい。

本発明はまた、顔分類の同様の方法をも有する。たとえば、顔認識の方法は：ビデオ入力中に検出された顔画像が記憶装置にある既知の顔に対応するかどうかを判定し、未知の検出された顔がビデオ入力中で一つまたは複数の持続性基準に基づいて持続しているときに記憶装置中にその未知の検出された顔を追加するステップを有する。

本発明はまた、写真のような離散的画像を使った顔分類の同様の技術をも有する。また、（ビデオまたは離散的な画像どちらの場合でも）少なくとも一つの画像中の顔が一つまたは複数の顕著性基準、たとえば閾値サイズを満たすときに、未知の顔を追加することを提供する。

本発明の好ましい例示的な実施形態について以下で付属の図面とともに説明する。同様の記号は同様の要素を表す。

上記のように、本発明は、なかんづく、ビデオ画像中に持続する新しい（すなわち未知の）顔のオンライントレーニングを提供する顔認識を有する。ビデオ画像中での新しい顔の持続は、たとえばその顔が新しい顔である確証を与える一つまたは複数の因子によって測定され、のちの判定のためのデータベースへの追加を保証するのに十分有意な顔であることの閾値を与える。

図１は本発明の例示的な実施形態を描いている。図１は本発明のシステムおよび方法、両方の実施形態を表している。以下ではこの実施形態の記述にシステムとしての用語を使うが、以下で記述される処理ステップは対応する方法実施形態を記述および例解するはたらきもすることを注意しておく。以下の記述からすぐ明らかになるように、上の点線より上（部分A）にあるビデオ入力２０およびサンプル顔画像７０はシステム１０への入力であり、受領後、システム１０のメモリに保存されうる。２本の点線の間の処理ブロック（部分B）は、以下でさらに述べる、システム１０によって実行される処理アルゴリズムを有する。

当業者にはすぐ理解されるであろうように、部分Bにおけるシステム１０の処理アルゴリズムは、一つまたは複数のプロセッサによって実行される、そして時間とともにシステムによって修正されうる（たとえば、以下に述べるMPNNのオンライントレーニングを反映するために）ソフトウェア内に存在しうる。また、以下の記述から明らかとなるように、さまざまな処理ブロックアルゴリズムへの入力は、他の処理ブロックの出力によって、直接または付随するメモリを通じて与えられる。（図１ａは、図１に表されているシステム１０の処理をサポートするハードウェアおよびソフトウェア構成要素の簡単な代表的実施形態を示す。このように、図１の部分Bのブロックによって表されているシステム１０の処理は、図１ａにおける、付随するメモリ１０ｂおよびソフトウェア１０ｃと一緒のプロセッサ１０ａによって実行されうる。）

図１のシステム１０は顔分類器４０においてPNNを使用する。このPNNは以下で述べる実施形態では修正されて修正PNN（modified PNN）すなわち「MPNN」４２をなし、よって以下では「MPNN」という。しかし、基本的な（すなわち未修正の）PNNも本発明で使用されうることは理解しておくものとする。顔分類器４０は、主として本実施形態におけるMPNN４２からなるが、追加的な処理をも含みうる。たとえば、以下に示すように、判断ブロック５０の一部または全部は分類器４０におけるMPNN４２とは別個の部分と考えることもできる。（また、代替的な顔分類技法を用いてもよい。）このように、顔分類器４０およびMPNN４２は、ここに記載される図１の実施形態では実質的に同一の広がりをもつものであるが、概念上の明確さのために別個に示されている。また、システム１０は、顔が既知か未知かを判定する際に、サンプル顔画像およびビデオ入力から顔特徴を抽出する。システム１０で使用できる顔特徴抽出技法は、ベクトル量子化（VQ: vector quantization）ヒストグラムまたは固有顔特徴といった多くの異なるものがある。図１の例示的なシステム１０では、ベクトル量子化（VQ）ヒストグラム特徴が顔特徴として使用される。

図１のシステム１０では初期には、MPNN４２の初期オフライントレーニング９０を提供するために、サンプル顔画像７０がシステム１０に入力される。サンプル顔画像はいくつかの異なる顔、すなわち第一の顔F1、第二の顔F2、…、第Nの顔FNについてのものである。ここで、Nはサンプル画像中に含まれる異なる顔の総数である。顔F1〜FNは初期の「既知の」顔（あるいは顔カテゴリー）をなし、システムにとってはカテゴリーラベルF1、F2、…、FNによって「知られる」。トレーニングで使われるサンプル顔画像７０は典型的には顔カテゴリーF1についての複数のサンプル画像、F2についての複数のサンプル画像、…、FNについての複数のサンプル画像を含む。ブロック７０でのサンプル画像入力については、どの画像がどの顔カテゴリーに属するかはわかっている。

各顔カテゴリーについてのサンプル画像は、顔分類器４０のMPNN４２において、その顔カテゴリーについてのパターンノードおよびカテゴリーを生成するために使われる。よって、F1に対応するサンプル画像はF1についてのパターンおよびカテゴリーノードを作成するために使われ、F2に対応するサンプル画像はF2についてのパターンおよびカテゴリーノードを作成するために使われる、といった具合になる。サンプル顔画像７０は特徴抽出器７５によって処理されて、各サンプル顔画像について対応する入力特徴ベクトルXが生成される。（以下のオフライントレーニング９０の記述では、「X」は一般に、考えている特定のサンプル画像についての入力特徴ベクトルのことをいう。）例示的な実施形態では、入力特徴ベクトルXは、サンプル画像７０のそれぞれから抽出されたVQヒストグラムである。特徴抽出のVQヒストグラム技法は当技術分野においてよく知られており、以下でも、入力ビデオ画像についてのブロック３５における類似の特徴抽出の背景においてさらに述べる。このように、各サンプル画像についての入力特徴ベクトルXは、使用されるベクトルコードブックによって決まる次元数（以下の具体例では33）を有することになる。

サンプル画像の入力特徴ベクトルXは、抽出された後、分類器トレーニング器８０によって規格化される。分類器トレーニング器８０はまた、規格化されたXを重みベクトルWとして、MPNN４２におけるある別個のパターンノードに割り当てる。こうして、各パターンノードも顔の一つのサンプル画像に対応する。トレーニング器８０は、各パターンノードを、カテゴリー層における対応する顔について生成されたノードに結び付ける。ひとたびすべてのサンプル入力画像が受領されて同様に処理されたら、MPNN４２は初期トレーニングされたことになる。各顔カテゴリーはいくつかのパターンノードに結び付けられ、各パターンノードはそのカテゴリーについてのあるサンプル顔画像から抽出された特徴ベクトルに対応する重みベクトルを有している。それぞれの顔（またはカテゴリー）についての諸パターンノードの重みベクトルは、集団として、そのカテゴリーについての基底となる確率分布関数（PDF: probability distribution function）を生成する。

図２は、分類器トレーニング器８０によって初期オフライントレーニング９０された、顔分類器４０のMPNN４２を表している。ブロック７０によって出力されるn_1個の入力サンプル画像が顔F1に対応する。第一のパターンノードに割り当てられた重みベクトルW1₁は、F1の第一のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。第二のパターンノードに割り当てられた重みベクトルW1₂は、F1の第二のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。……そして、第n_1のパターンノードに割り当てられた重みベクトルW1_{n_1}は、F1の第n_1のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。最初のn_1個のパターンノードは対応するカテゴリーノードF1に結び付けられている。同様にして、n_2個の入力サンプル画像が顔F2に対応する。重みW2₁〜W2_{n_2}をもつ次のn_2個のパターンノードはそれぞれ同様にして、F2のn_2個のサンプル画像を使って生成される。顔F2についてのパターンノードはカテゴリーF2に結び付けられている。その後のパターンノードおよびカテゴリーノードも同様にしてその後の顔カテゴリーについて生成される。図２では、トレーニングはN個の異なる顔について複数のサンプル画像を使用している。

図２の初期トレーニングされたMPNNを生成するアルゴリズムについてここで手短に述べておく。上記したように、ブロック７０で入力された現在サンプル顔画像について、顔検出器７５はまず、対応する入力特徴ベクトルX（この具体例ではのちに述べるVQヒストグラムである）を生成する。分類器トレーニング器８０はこの入力特徴ベクトルをあるパターンノードについての重みベクトルに変換する。それにはまず、該入力特徴ベクトルを、それぞれの大きさで割ることによって該ベクトルを規格化する：
X′＝X×（1／√(ΣX²)）（１）
現在サンプル画像は（よって現在の対応する規格化特徴ベクトルX′も）ある既知の顔Fjに対応する。ここで、Fjはトレーニングの顔F1、F2、…、FNのうちの一つである。また、上記したように、一般には、ブロック７０のサンプル顔のストリームでは、既知の顔それぞれについていくつかのサンプル画像がある。よって、現在サンプル画像は一般にはブロック７０によって出力されるFjに対応するm番目のサンプル画像ということになる。規格化された入力特徴ベクトルX′は重みベクトルとしてカテゴリーFjについてのm番目のパターンノードに割り当てられる：
Wj_m＝X′ （２）
重みベクトルWj_mをもつパターンノードはそれぞれのカテゴリーノードFjに結び付けられている。ブロック７０によって入力される他のサンプル顔も特徴抽出ブロック７５で入力特徴ベクトルに変換され、分類器トレーニング器８０によって同様に処理されて、図２に示した顔分類器の初期構成されたMPNN４２が生成される。

たとえば、図２に戻ると、ブロック７０による現在サンプル画像入力が顔F1についての第一のサンプル画像である場合、特徴抽出器７５はその画像についての入力特徴ベクトルXを生成する。分類器トレーニング器８０は入力特徴ベクトルを規格化してそれを重みベクトルW1₁としてF1についての第一のパターンノードのために割り当てる。次のサンプル画像は顔F9についての第三のサンプル画像でありうる。この次のサンプル画像についてブロック７５で入力特徴ベクトルXの抽出後、分類器トレーニング器８０はその特徴ベクトルを規格化し、その規格化された特徴ベクトルを重みベクトルW9₃としてF9についての第三のパターンノードのために割り当てる（図示せず）。いくつかの入力画像後、トレーニングにおけるもう一つのサンプル画像が再びF1についてのものということがある。この画像も同様にして処理され、重みベクトルW1₂としてF1についての第二のパターンノードに割り当てられる。

すべてのサンプル顔画像７０が同様にして処理され、結果として図２の分類器４０の初期トレーニングされたMPNN４２が与えられる。そのような初期オフライントレーニング９０ののちには、顔分類器４０が有するMPNN４２は、オフライントレーニングの結果として得られ、オフライントレーニングにおいて使用された顔を反映する、パターン層およびカテゴリー層を有する。このような顔が、オフライントレーニングされたMPNNベースのシステムの初期に「既知」の顔をなす。

のちにさらに述べるように、入力ノードI1、I2、…、IMは、ある検出された顔画像についての特徴ベクトルを受け取り、それが既知の顔カテゴリーに対応するかどうかを判定する。こうして各入力ノードは各パターンノードに結び付けられ、入力ノードの数は特徴ベクトルの次元数（後述の具体例では33）に等しくなる。

MPNNのトレーニングは、上述したように入力サンプル画像のシーケンスとして行われうる。あるいは複数の画像が同時に処理されてもよい。また、上の記述から、サンプル顔画像の入力順序が重要でないことも明らかである。各サンプル画像についての顔カテゴリーはわかっているので、既知の顔それぞれについての全サンプルが順に提出されてもよいし、あるいは順不同で処理されてもよい（上記の例のように）。いずれの場合にも、最終的なトレーニングされたMPNN４２は図２で示されるようになる。

システム１０のそのような初期オフライントレーニングの直後に構成されているMPNNが、オフライントレーニングのみを使用する従来技術のPNNシステムにおけるものと類似していることを注意しておく。たとえば、そのようなオフライントレーニング９０は先に引用したPatra et al.による文書に基づいてなされることもできる。

ここで（のちにさらに述べるが）、本発明が必ずしもオフライントレーニング９０を必要としないことを注意しておく。代わりに、MPNN４２はオンライントレーニング１１０のみを使って構築されてもよい。これものちにさらに述べる。しかし、今述べている実施形態では、MPNN４２はまずオフライントレーニング９０を使ってトレーニングされ、図２に示されるようになる。MPNN４２の初期オフライントレーニング９０ののちは、システム１０はビデオ入力２０中に顔を検出し、検出された場合、その検出された顔を使ってMPNN４２のカテゴリーの一つの既知の顔に対応するかどうかが判定される。図１に戻ると、ビデオ入力２０はまず顔検出３０処理の既存の技術にかけられ、ビデオ入力２０中に（一つまたは複数の）顔の存在および位置が検出される。（このように、顔検出処理３０は単に顔の画像がビデオ入力中に存在することを認識するだけであって、その顔が既知かどうかは認識しない）。システム１０は既存のいかなる顔検出技術を使用してもよい。

よって、顔検出アルゴリズム３０は、高速オブジェクト検出のためのAdaBoostの既知のアプリケーションを使用しうる。高速オブジェクト検出についてはP. Viola and M. Jonesによる“Rapid Object Detection Using A Boosted Cascade of Simple Features”, Proceedings of the 2001 IEEE Conference on Computer Vision and Pattern Recognition （IEEECVPR'01）, Vol. I, pp. 511-518, Dec. 2001で記載されており、その内容はここに参照によってここに組み込まれる。使用される基本顔検出アルゴリズム３０はViolaに記載されているようなものでもよい。すなわち、カスケード式の諸段をなして構成され、各段が強い分類器であり、各段がいくつかの弱い分類器からなり、各弱い分類器が画像のある特徴に対応するというものである。入力ビデオ画像２０は左から右へ、上から下へスキャンされ、画像中の異なるサイズの長方形が解析されて該長方形が顔を含んでいるかどうかが判定される。このように、分類器の諸段は一つの長方形に対して逐次適用される。各段はその長方形についてスコアを算出するが、該スコアはその段をなす弱い分類器の応答の和である。（のちに述べるように、長方形についてのスコア算出は典型的には二つ以上の部分長方形を調べることを含む。）その和がその段についての閾値を超えている場合、その長方形は次の段に進む。長方形のスコアがすべての段についての閾値を通過した場合、その長方形は顔部分を含んでいると判定され、その顔画像が特徴抽出３５に渡される。その長方形がいずれかの段について閾値未満である場合には、その長方形は破棄され、アルゴリズムは画像中の別の長方形に進む。

分類器は、Violaにあるように、検証セットを使って評価される弱い分類器を一つずつ追加して段すなわち強い分類器を構築することにより構築されうる。最新の弱い分類器は、構築中の現在段に追加される。強化の各ラウンドtは、構築中の強い分類器に現在の特徴セットに対する長方形特徴分類器hを追加することを、次式を最小化することによって行う：
E_t＝Σ_i D_t(i)exp(−α_ty_ih_t(x_i)) （３）
上式（３）はViolaの手順で使われている式と同等なもので、E_tは、長方形トレーニング例x_iを使って評価されるt番目の長方形特徴分類器h_tに関連付けられた重み付き誤差を表す。（長方形の例について使われる小文字の記法x_iによりMPNNにおいて使われる画像の特徴ベクトルの記法と区別される。）基本的には、h_t(x_i)はトレーニング例x_iの特定の長方形部分領域におけるピクセルの和の重み付き和である。h_t(x_i)がある設定された閾値を超える場合には、例x_iに対するh_t(x_i)の出力は1であり、そうでない場合にはh_t(x_i)の出力は−1である。hは上記の式で＋1または−1に制限されているため、変数α_tがこの弱い仮説hの構築中の強い分類器に対する影響（大きさ）である。また、y_i≡［−1, 1］は例x_iの目標レベルである（すなわち、x_iが特徴hの負の例であるか正の例であるか；これはトレーニングセットの例については客観的にわかっている）。Dはh_t特徴についてのi番目の例についての重み付け因子である。

ひとたび最小のEがこのようにして決定されると、対応する長方形特徴分類器hが（その大きさαと同様に）新しい弱い分類器を構築するのに使用される。hについてのカスタム判断閾値も前記トレーニングセットを使って、正および負の例の分布に基づいて決定される。閾値は、設計パラメータに基づいて正および負の例を最もよく分割するものが選択される。（閾値は上に引用したViola文書ではθ_jと称されている。）上記したように、弱い分類器はαをも有している。これは、選択されたその長方形特徴分類器hが構築中の強い分類器に対してどのくらい影響するかを表す、実数値をとる数である（そしてトレーニングにおいて決定された誤差Eから決定される）。実装されるとき、画像の入力長方形部分も典型的にはhによって、入力長方形の二つ以上の部分長方形におけるピクセルの重み付け和に基づいて解析され、その入力長方形について閾値（トレーニングから決められる）を超過すればhの出力は1に設定され、そうでなければh＝−1となる。新しい弱い分類器の出力はhの二値出力かける影響値αである。強い分類器は、トレーニング中に追加された弱い分類器の和からなる。

ひとたび新しい弱い分類器が追加されたとき、当該分類器のパフォーマンス（検出率および誤り警告率の面での）は検証セットについての所望の設計パラメータを満たしていれば、それぞれの特徴を十分に検出できるので、その新しく追加された弱い分類器が構築中の段を完成させる。そうでなければ、もう一つの弱い分類器が追加されて評価される。ひとたびあらゆる所望の特徴について諸段が構築され、検証セットについての所望の設計パラメータに従って動作するようになったとき、当該分類器は完成したことになる。

代替的に、顔検出器３０のために、Violaの弱い分類器の上述の構造の修正を使うこともできる。その修正では、αは、新しい弱い分類器のためのhの選択の間にhの中にたたみ込まれる。新しい弱い分類器h（今ではαを組み込んでいる）は上記と同様の仕方でEを最小にすることによって選択される。弱い分類器の実装については、この修正では「強化切り株（boosting stumps）」が使用される。強化切り株とは、葉でない親モードにおいてなされた決定に基づいて左または右の葉の値を出力する決定木である。こうして、弱い分類器は、1および−1の代わりに二つの実数値のうちの一つ（c_leftおよびc_rightという二つの葉の一つ）を出力する決定木によって構成される。弱い分類器はまた、のちに述べるカスタム決定閾値をも有する。画像のある入力長方形部分について、選択された長方形特徴分類器hを使って、当該入力長方形の複数の部分長方形領域の間でのピクセル強度の和の重み付き和が前記閾値よりも大きいかどうかが決定される。もし大きければ、c_leftが弱い分類器から出力され、小さければc_rightが出力される。

葉c_leftおよびc_rightは選択されたhのトレーニングの間に、所与の閾値について左および右の分割にいくつの正の例および負の例が割り当てられるかに基づいて決定される。（トレーニングセットについての基本的事実はわかっているので、例が正であるか負であるかは客観的にわかる。）長方形からの和の重み付き和がサンプルセット全体にわたって評価され、それにより種々の値の分布が与えられ、それらの値は次いでソートされる。ソートされた分布から、そして要求される検出率および誤り警告率に鑑みて、目標は最も多くの正の例が一方の側にはいり、最も多くの負の例が他方の側にはいるような分割を選択することである。ソートされた分布について、最適な分割（弱い分類器について使用されるカスタム判断閾値を与えるもの）は、次の式のTを最小にする分割を選ぶことによってなされる：

ここで、トレーニングセットのうち、Wは考えている分割の左側または右側にはいる、「正」または「負」のいずれかの例の重みを表す。

選択された分割（Tを最小化するもの）はカスタム判断閾値を生成する。また、c_leftおよびc_rightは次式に従ってトレーニングデータ分布から計算される。

ここで、Wは今度は選択された分割の左または右に割り当てられる、「正」または「負」のいずれかの例の重みを表す。（そしてεは大きな予言によって引き起こされる数値的問題を回避するための平滑化項である。）これらの値は弱い分類器の次の反復工程の重みをバランスされた状態に保つ、すなわち境界の両側の正および負の例の相対的な重みが実質的に等しくなるように保つ役割をする。

上記したように、弱い分類器はViolaにおけるように構築されてもよいが、代替的に、すぐ上で述べた決定切り株として構築されてもよい。さらに、どちらの弱い分類器のトレーニングも代替的な技法を使用しうることを注意しておく。一つの技法によれば、現在追加されようとしている弱い分類器を試験するために、検証セットの諸例が、これまでに追加された先行する諸段の弱い分類器および現在の段にこれまでに追加された弱い分類器のすべてを通じてスキャンされる。しかし、より効率的な代替技法においては、これまでのすべての段を通過する長方形および先行する諸段についてのそのスコアが保存される。例を先行するすべての段を通して走らせる代わりに、現在の弱い分類器のトレーニングにおいて前記の残っている長方形についての以前のスコアが使用され、前記の残っている長方形はスコアを更新するために、現在の弱い分類器を通して走らされる必要があるだけである。

ひとたび顔検出３０によってビデオ２０中に顔画像が検出されると、特徴抽出器３５において処理されて当該画像についてのVQヒストグラムが作成される。この特徴抽出処理は検出された画像についての特徴ベクトルX_Dを生じる。X_Dの記号（「検出された（detected）」Xの意）は、このベクトルがトレーニング中のサンプル顔画像ではなく、ビデオストリーム２０中で検出された顔画像（下記の３５ａ）に対応することを強調するために使っている。しかし、検出された画像に対する特徴ベクトルX_Dが、オフライントレーニング９０において使用されるサンプル顔画像について上で議論した入力特徴ベクトルＸと同じ仕方で抽出されることは注意しておく。よって、特徴抽出器３５、７５はシステム１０において同一であってもよい。検出される顔画像を含むビデオフレームとトレーニングにおいて使用されるサンプル画像が同じ未加工の入力フォーマットであってもよく、その場合、特徴抽出処理は同一である。

特徴抽出器３５による特徴抽出についてこれから、顔検出器３０において検出されたビデオ入力２０からの顔画像に関してより詳しく述べる。図３は、検出された顔画像を顔分類器４０への入力のためにVQヒストグラムに変換するために使われる特徴抽出器３５の要素を示している。ビデオ入力中で検出された顔画像（図３で顔セグメント３５ａで示されている）は低域通過フィルタ３５ｂに転送される。この点での顔セグメント３５ａは、ビデオフレーム中でまだ未加工のビデオフォーマットで存在している。低域通過フィルタ３５ｂを使って高周波ノイズが減らされ、顔セグメント３５ａの最も効率的な低周波数成分が認識のために抽出される。顔セグメントは次いでピクセルの４×４のブロックに分割される（処理ブロック３５ｃ）。さらに、最小強度が各４×４ピクセルブロックについて決定され、それぞれのブロックから差し引かれる。結果は、各４×４ブロックについての強度の変動である。

処理ブロック３５ｄでは、顔画像のそのような４×４ブロックのそれぞれは、メモリに保存されているベクトルコードブック３５ｅのコードと比較される。コードブック３５ｅは当技術分野においてよく知られており、単調な強度変動を有する33のコードベクトルで系統的に組織されている。最初の32のコードベクトルは強度変動の方向および範囲を変えることによって生成され、33番目のベクトルは変動も方向も含まない。図３に見られるとおりである。各４×４ブロックについて選択されたコードベクトルは、そのブロックについて決定された強度変動に最も近い一致を有するコードベクトルである。画像ブロックとコードブック中のコードベクトルとの間の距離の一致のためにはユークリッド距離が使われる。

33のコードベクトルのそれぞれは、こうして当該画像中で特定の数の一致する４×４のブロックを有する。各コードベクトルについての一致の数を使ってその画像についてのVQヒストグラム３５ｆが生成される。VQヒストグラム３５ｆは、x軸に沿ってコードベクトルのビン１〜３３を有し、y方向に各コードベクトルについての一致の数を示すように生成される。図３ａは、ある顔セグメント３５ａ′について、図３に示すような特徴抽出器の処理によって生成されたVQヒストグラム３５ｆ′を表している。コードベクトル１〜３３についてのビンはx軸に沿って示されており、画像３５ａ′中で各コードベクトルと４×４画像ブロックとの間の一致の数はy軸に沿って示されている。上記したように、この例示的な実施形態では、VQヒストグラムは、検出された顔画像についての画像特徴ベクトルX_Dとして使われる。（等価的に、処理において使われる画像特徴ベクトルX_Dは33次元ベクトルX_D＝（コードベクトル１の一致数，コードベクトル２の一致数，…，コードベクトルVの一致数）として表現されうる。ここで、Vはコードブックにおいて最後のコードベクトル番号である（上記のコードブックについてはV＝33）。）
K. Kotani et al.による文書“Face Recognition Using Vector Quantization Histogram Method”, Proceedings of the 2002 International Conference on Image Processing (IEEEI CIP '02), Vol. II, pp. 105-108 (Sept. 2002)はここに参照によってここに組み込まれる。この文書はVQヒストグラムを使った顔特徴の表現を記載しているが、それは実質的に、特徴抽出器３５による入力顔画像３５ａからのVQヒストグラム３５ｆの生成に関して上述したとおりである。

図３は顔分類器４０のMPNN４２も示している。VQヒストグラム３５ｆは入力顔画像３５ａについての特徴ベクトルX_Dを出力する。特徴ベクトルX_DはMPNN４２の入力層に転送され、根底にある顔セグメントが既知か未知かを判定するために処理される。

ここで、図２に示したような前記のMPNN４２の初期トレーニングされた構成に戻ると、各パターンノードは、顔カテゴリー内のあるサンプルトレーニング画像の規格化された入力特徴ベクトルに等しい、割り当てられた重みベクトルWを有している。トレーニングにおいて入力特徴ベクトルがサンプル画像から抽出されるのがX_Dについてと同じ仕方であるため、両方のベクトルは同じ次元数（抽出において使用された33コードベクトルの例示的な実施形態では33）を有し、対応するベクトル次元ではそれぞれの画像の同じ特徴を表す。よって、検出された画像のX_Dと、あるカテゴリーのサンプル画像についての重みベクトルWとが比較され、X_Dと前記カテゴリーの既知の顔との間の対応が決定される。

X_Dは入力層ノードを介してMPNN４２に入力され、MPNN４２はその各顔カテゴリーとの対応を、諸パターンノードにおける重みベクトルを使って評価する。MPNN４２はX_Dと既知の顔カテゴリー（F1、F2、…）とを、各カテゴリーについて一つの別個のPDF値を決定することによって比較する。まず、入力層が入力ベクトルX_Dを（その大きさで割ることによって）規格化し、それにより入力ベクトルは、オフライントレーニングの間に行われたパターン層の重みベクトルの先の規格化に対応するようスケーリングされる：
X_D′＝X_D×（1／√(ΣX_D ²)）（７）
第二に、パターン層において、MPNN４２は規格化された入力ベクトルX′_Dと図２に示された各パターンノードの重みベクトルWとの間のドット積を実行する。この結果、各パターンノードについて出力ベクトル値Zが得られる：
Z1₁＝X′_D・W1₁ （８ａ）
Z1₂＝X′_D・W1₂ （８ａ）
………
Z1_{n_N}＝X′_D・WN_{n_N} （８ａ）
ここで、諸パターンノードについての重みベクトルW（よって結果として得られる出力ベクトルZも）についての基準記号は図２に示され、オフライントレーニングに関して上述したのと同様である。

最後に、各カテゴリーに対応するパターンノードの出力値はまとめられ、それぞれの各カテゴリーについて入力ベクトルX_Dに対するPDFの値（関数f）を決定するために規格化される。こうして、j番目のカテゴリーFjについては、j番目のカテゴリーの諸パターンノードについての出力値Zj₁〜Zj_{n_j}が使用される。ここで、n_jはカテゴリーjについてのパターンノードの数である。PDF値fは考えているカテゴリーFjについて、次のように計算される：

ここで、σは平滑因子である。式（９）をj＝0からNについて使うと、PDF値f_F1(X_D)、…、f_FN(X_D)がカテゴリーF1、…、FNについてそれぞれ、それぞれの各カテゴリーに対応する諸パターンノードの出力値Zを使って計算される。各カテゴリーについてのPDF値fがカテゴリーの出力値Zの和に基づいているため、あるカテゴリーについて値fが大きければ、X_Dとそのカテゴリーについての重みベクトルとの間の対応も大きくなる。

MPNN４２は次いで入力ベクトルX_Dについて最大の値fをもつカテゴリー（i番目のカテゴリー、すなわちFiと記す）を選択する。MPNN42によるi番目のカテゴリーの選択は、ベイズ戦略の実装の一つを使用する。これはPDFに基づいて最小リスク・コストを求めるものである。形式的には、ベイズ決定規則は次のように書かれる：
f_Fi(X_D)＞f_Fj(X_D) ∀i≠j ならば d(X_D)＝Fi （１０）
入力ベクトルX_Dについて最大のPDF（fによって測られる）をもつカテゴリーFiは、入力ベクトルX_D（顔セグメント４２ａに対応する）が潜在的に顔カテゴリーFiに一致するという判断を与える。実際に一致したと見なす前に、MPNN４２は信頼測定値を生成する。信頼測定値は、潜在的な一致カテゴリーiについてのベクトルX_DのPDFを、あらゆるカテゴリーのベクトルX_DのPDFの和と比較するものである：

この信頼測定値が信頼閾値（たとえば80%）を超えれば、入力ベクトルX_Dとカテゴリーiとの一致がシステムによって見出される。信頼測定値が信頼閾値を超えなければ、一致は見出されない。

ところが、すぐ上で述べたような決定関数に基づく信頼測定値は、ある入力ベクトルについての最大のPDF値がそれでもそのカテゴリーとの一致を宣言するには低すぎる場合に望ましくないほど高い信頼測定値を与えることがある。これは、上で計算したような信頼測定値が、ある所与の入力ベクトルについてのカテゴリーのPDF出力からの相対的な諸結果を比較することによって生成されているからである。一次元における単純な一般的例がこの点を例解する。

図４は、二つのカテゴリー（Cat1、Cat2）のPDFを表している。各カテゴリーについてのPDF関数は図４では一般に“p(X|Cat)”（すなわち、入力特徴ベクトルXがカテゴリーCatに属する確率）対一次元特徴ベクトルXとして表されている。３つの別個の一次元入力特徴ベクトルX_Ex1、X_Ex2、X_Ex3が示されており、これらを使って望ましくないほど高い信頼値が与えられうることを例解する。入力ベクトルX_Ex1について、最大のPDF値はカテゴリーCat1に対応する（すなわち、p(X_Ex1|Cat1)〜0.1で、p(X_Ex1|Cat2)〜0.02）。式（１０）で与えたのと同様のベイズ規則を適用することによって、Cat1が選択される。また、信頼測定値は、式（１１）に与えたのと同様にX_Ex1についてCat1について計算されうる：
Confi_Ex1＝p(X_Ex1|Cat1)／［p(X_Ex1|Cat1)＋p(X_Ex1|Cat2)］（１２）
〜0.1／［0.1＋0.02］＝83%
しかし、入力特徴ベクトルX_Ex1についてのPDF値は非常に低いので（Cat1については0.1、Cat2についてはもっと低い）、これは入力ベクトルとパターンノード中の重みベクトルとの対応が小さいこと、したがってX_Ex1は「未知」カテゴリーとして同定されるべきであることを含意している。

他の同様に望ましくない結果も図４から明らかである。入力特徴ベクトルX_Ex2を参照すると、それはCat1の最大値に一致するので、カテゴリーCat1に一致するのが適切であることは明らかである。また、式（１２）と同様な仕方で信頼測定値Confi_Ex2を計算すると、信頼測定値は約66%という結果になる。しかし、X_Ex2はX_Ex1よりもCat1についてのPDFの最大値にずっと近いので、Confi_Ex2はConfi_Ex1よりも低いべきではない。もう一つの望ましくない結果はX_Ex3について示されている。ここではX_Ex3が同様にCat2についてのPDFの最大値の一方の側に寄りすぎているにもかかわらず、Cat2が信頼値約80%で選択される。

図５は、所与の入力特徴ベクトルについて低いPDF値を扱うときの、そのような望ましくない結果を回避するための技法を例示している。図５では、図４のカテゴリーCat1、Cat2のそれぞれに閾値が適用される。最大のPDF値をもつカテゴリーを選ぶことに加えて、入力特徴ベクトルXがそのカテゴリーについての閾値を満たすか超えるかしなければ一致とは見なされない。閾値は各カテゴリーについて異なっていてもよい。たとえば、閾値はそのカテゴリーについてのPDFの最大値のある割合（たとえば70%）であってもよい。

図５から見て取れるように、Cat1はここでもまた特徴ベクトルX_Ex1についての最大のPDF値を有するカテゴリーである。しかし、p(X_Ex1|Cat1)〜0.1であり、Cat1についての閾値である約0.28を超えていない。よって、特徴ベクトルX_Ex1は「未知」と判定される。同様にして、X_Ex3のPDF値はCat2についての閾値を超えないので、X_Ex3は「未知」と判定される。しかし、X_Ex2についてのPDF値はCat1についての閾値を超えるので、X_Ex2についてはCat1が選択される。その信頼レベルは上で計算したように66%である。

同様の望ましくない筋書きは多次元の場合（たとえば前記例示的実施形態の33次元の場合）でも生じうることは明らかである。たとえば、ある入力された多次元特徴ベクトルについての最大のカテゴリーについてのPDF値でもカテゴリー一致を宣言するには低すぎることがある。しかし、最大PDF値が信頼測定において他のカテゴリー（さらに低い大きさをもつ）のPDF値とともに使われれば、不当に高い信頼値が得られる可能性がある。

例示的な実施形態に戻ると、所与の入力ベクトルについて低いPDF値出力fを適切に扱うためには、先に示したように、修正されたPNN（MPNN４２）が用いられる。MPNN４２においては、ある入力ベクトルについて最大のPDF値fをもつカテゴリーが暫定的に選択される。しかし、そのカテゴリーについての値f(X)はその暫定的に選択されたカテゴリーについての閾値を満たすか超えるかする必要もある。閾値は各カテゴリーについて異なっていてもよい。たとえば、閾値はそのカテゴリーについてのPDFの最大値のある割合（たとえば70%）であってもよい。当該実施形態のMPNNにおいて使用されるある入力ベクトルX_Dについて生成されるPDF値fの閾値処理が、上で与えられたベイズ決定規則の修正として適用される。よって、当該実施形態のMPNNによって使用されるベイズ決定規則は次のようになる：
f_Fi(X_D)＞f_Fj(X_D) かつ f_Fi(X_D)≧ti ∀i≠j ならばd(X_D)＝Fi （１３）
f_Fi(X_D)＞f_Fj(X_D) かつ f_Fi(X_D)＜ti ∀i≠j ならばd(X_D)＝未知（１４）
ここで、tiは最大のf(X_D)に対応する顔カテゴリー（Fi）の閾値（threshold）であり、該閾値はカテゴリーFiのPDFに基づいている。（少なくとも上に技法における閾値が「未知」カテゴリーのPDFに基づいていないため、この閾値はT. P. Washburne et al.による“Identification Of Unknown Categories With Probabilistic Neural Networks”, IEEE International Conference on Neural Networks, pp. 434-437 (1993)における他の応用について記載されている閾値とは異なる。）
dが未知であれば、ブロック５０でその顔は「未知」と判定される。MPNNの修正ベイズ決定アルゴリズムのもとである顔カテゴリー（Fi）が選択されれば、その選択されたカテゴリーについての信頼値が上記と同じようにして（式（１１））計算される。信頼値が信頼閾値を超えれば、入力ベクトルは選択されたカテゴリー（Fi）に対応すると見なされ、その顔は図１のブロック５０において、ある顔カテゴリーに対応するという意味で「既知」と判定される。その場合、既知の顔の検出に関係する任意の後続の処理がブロック６０で開始されてもよい。そのような開始は任意的であり、タスクの内容もビデオインデックス化、その顔の素性についてのインターネット検索、編集などのような数多くのうちのいかなるものでもよい。さらに、システム１０は出力６５（単純な視覚または聴覚的アラームのような）を提供してビデオ入力の顔セグメントとMPNN中のあるカテゴリー（既知の顔）との一致に注意を喚起することができる。トレーニング画像が顔カテゴリーについて人物識別（たとえば対応する名前）も含んでいた場合には、その識別が出力されてもよい。他方、信頼値が信頼閾値を超えなければ、入力ベクトルはここでもまた未知であると見なされる。

顔が既知または未知であることの決定の処理は、図１では処理判定５０として別個に示されている。ブロック５０は、たった今述べた修正ベイズ決定規則（式１３および１４）およびその後の信頼決定（式１１）を含んでいてもよい。しかし、ブロック５０は概念上の明快のために顔分類器４０と別個に示されているものの、ベイズ決定アルゴリズムおよび信頼決定は典型的には顔分類器４０の一部であることは理解しておくものとする。この決定処理は、MPNN４２の一部と考えられうるが、代替的に、顔分類器４０の別個のコンポーネントであると考えられることもできる。

顔画像が判定５０によって未知であると判定された場合、図１はその顔が単に破棄されることを示しているのではなく、処理は持続性判定ブロック１００に向かう。のちにより詳細に述べるように、未知の顔をもつビデオ入力２０は、その同じ顔が持続する、あるいは他の仕方でビデオ中で優勢かどうかを判定するための一つまたは複数の基準を使ってモニタリングされる。そうであると判定されれば、入力２０を介して受領されたその未知の顔の一つまたは複数の顔画像について特徴ベクトルX_Dがトレーニング器８０に送られる。トレーニング器８０はその顔画像についてのデータを使って、顔分類器４０中のMPNN４２をトレーニングし、その顔についての新たなカテゴリーを含めるようにする。MPNN４２のそのような「オンライン」トレーニングによって、ビデオ中の顕著な新しい（未知の）顔が顔分類器におけるカテゴリーとして追加されることが保証される。こうして、その後のビデオ入力２０においてはその同じ顔は「既知」の顔（すなわち、必ずしも名前などによって「識別」されるわけではないが、あるカテゴリーに対応する）として検出されうる。

上記したように、ブロック５０で顔が未知であると判定されたとき、持続性処理１００が開始される。ビデオ入力２０は、その未知の顔の画像を使ってMPNN４２をオンライントレーニングするかどうかの指標となる一つまたは複数の条件が満たされるかどうかを決定するためにモニタリングされる。その一つまたは複数の条件は、たとえば、同じ未知の顔がある時間期間にわたって連続的にビデオに存在していることを示しうる。よって、持続性処理１００の一つの実施形態では、検出されたその未知の顔はビデオ入力中で追跡される。それにはよく知られた追跡技術のいかなるものを使用してもよい。その顔がビデオ入力中である最低秒数（たとえば10秒）にわたって追跡された場合、その顔は処理ブロック１００によって持続していると見なされる（YESの矢印）。

あるいはまた、持続性判定ブロック１００は、同じ未知の顔がある時間期間にわたってビデオ中に存在しているかどうかを判定するために、顔分類器４０中のMPNN４２によって未知であると判定された顔画像セグメントのシーケンスについてのデータを考慮してもよい。たとえば、次の４つの基準がシーケンスに適用されうる：
１）MPNN４２分類器はビデオ入力２０中の顔セグメントのシーケンスを、上で述べたように未知として同定する。
２）そのシーケンスの顔セグメントについて抽出された特徴ベクトルX_DについてのPDF出力の平均が低い（ここで、「PDF出力」とは、閾値tiを超えはしないながらも、最大の値iについての値f_F1(X_D)である）。特徴ベクトルについての平均PDF出力についての閾値は、典型的には、たとえば、最大PDF出力の40%以下、20%超などである。しかし、この閾値はビデオデータの状態に敏感であるため、検出対偽陽性の所望のレベルを得るために、この閾値は経験的に調整されてもよい。この基準は、既知の顔の一つではない、すなわち未知の顔であることを確証する役割をする。
３）当該シーケンスについての特徴ベクトルX_Dの分散は小さい。これは、入力ベクトルのシーケンスに対して標準偏差を実行することによって入力ベクトルどうしの間の距離を計算することによって決定されうる。入力ベクトルどうしの間の標準偏差についての閾値は、典型的には、たとえば、0.2から0.5の範囲などである。しかし、この閾値はビデオデータの状態に敏感であるため、検出対偽陽性の所望のレベルを得るために、この閾値は経験的に調整されてもよい。この基準は、当該シーケンス中の諸入力ベクトルが同じ未知の顔に対応することを確証する役割をする。
４）上記の３つの条件が、ブロック２０で入力された顔のシーケンスについてある時間期間（たとえば10秒）続く。

上記の最初の３つの基準は、当該セグメントを通じて同じ未知の顔であることを確証する役割をする。４番目の基準は、持続性、すなわち、どの未知の顔がMPNNを再トレーニングして含めさせるに値するものとして資格を有するかのめやすの役割をする。たとえばビデオ入力２０の中で10秒以上続く未知の顔とした場合、短い時間期間、ビデオにちらっと現れる一過性の顔（群衆の顔、端役の俳優などに対応すると思われる）はオンライントレーニングから消去される。その顔の画像のサンプルについての特徴ベクトルX_Dがその時間区間を通じて保存され、オンライントレーニングが実行されるときに使用されてもよい。

当該シーケンスが連続的なある時間期間にわたって続く場合は、処理はストレートである。その場合、ビデオ入力２０の諸顔セグメントについての特徴ベクトルX_Dの一部または全部がバッファメモリに保存され、最低時間期間を超えたら、さらにのちに述べるようなオンライントレーニングにおいて使用できる。そうでない場合、たとえば、ある顔が連続的でないビデオセグメントにおいて非常に短い時間期間にわたって現れるが、合わせれば最低時間期間を超えるということもありうる。（たとえば、会話に従事している役者の間ですばやいカットの切り換えが行われる場合。）その場合、持続性ブロック１００における複数のバッファのそれぞれが、上記の条件１〜３で判定されるところのある特定の未知の顔についての未知の顔画像の特徴ベクトルを保存しうる。MPNNによって「未知」であると判定されるその後の顔画像は、基準１〜３によって判定されるところのその顔についての適切なバッファ中に保存される。（未知の顔が既存のバッファ中に見出される顔に対応しない場合には、新しいバッファに保存される。）ある特定の未知の顔についてのバッファが時間がたつにつれて、顔画像についての特徴ベクトルを蓄積して前記最低時間期間を超えるに十分になった場合、そのときには、持続性ブロック１００はその特徴ベクトルを分類器トレーニング器８０に向けて解放し、そのバッファ中の顔についてオンライントレーニング１１０ができるようにする。

未知の顔についての顔のシーケンスが、持続性基準（すなわち単一の持続性基準）を満たさないと判定された場合には、そのシーケンスの処理は打ち切られ、その未知の顔に関係するあらゆる保存されている特徴ベクトルおよびデータはメモリから破棄される（処理１２０）。上記のように画像セグメントが時間を追って種々の顔について種々のバッファに蓄積されている場合には、あるより長い時間期間（たとえば５分）後になっても時間を追って蓄積された顔画像が最低期間を超えない場合に、いかなる一つのバッファにあるデータも破棄されうる。

未知であると判定されるべきビデオ入力中の顔が前記持続性処理を満足させる場合、システム１０はMPNN４２のオンライントレーニング１１０を実行して、その未知の顔についてのカテゴリーを含めさせる。便宜上、以下の記述は、持続性ブロック１００を満たす未知の顔「A」についてのオンライントレーニングに着目する。上記したように、顔Aの持続性の判定において、システムは、ビデオ入力２０を介して受領した画像のシーケンスから、顔Aの諸画像についてのいくつかの特徴ベクトルX_Dを保存する。特徴ベクトルの数は、持続性判定において使用されるシーケンスにおけるAの顔の全部、あるいはサンプルについてでありうる。たとえば、顔Aのシーケンス中の10枚の画像についての入力ベクトルがトレーニングで使用されるのでもよい。

持続する顔Aについて、システム処理は顔Aを含めるために、トレーニング処理８０に、この場合は顔分類器４０のMPNN４２のオンライントレーニング１１０に戻る。顔Aのためのオンライントレーニングにおいて使用される（たとえば）10個の特徴ベクトルは、当該シーケンス中の諸画像に対する全入力ベクトルのうちから分散が最小のもの、すなわちバッファ中の平均値に最も近い10個の入力ベクトルであってもよい。トレーニング器８０のオンライントレーニングアルゴリズム１１０は、MPNN４２をトレーニングして顔Aについての、前記画像のそれぞれについてのパターンノードを有する新しいカテゴリーFAを含めさせる。

新しいカテゴリーFAのオンライントレーニングは、サンプル顔画像７０を使ったMPNN４２の初期オフライントレーニングについてと同様の仕方で進行する。上記したように、顔Aの諸画像についての特徴ベクトルX_Dはすでにブロック３５で抽出されている。よって、オフライントレーニングと同じ仕方で、分類器トレーニング器８０はFAの特徴ベクトルを規格化し、それぞれをMPNN中のカテゴリーFAについての新しいパターンノードの重みベクトルWとして割り当てる。新しいパターンノードはFAについてのカテゴリーノードに結び付けられる。

図６は、図２のMPNNに新しいカテゴリーFAについての新しいパターンノードを加えたものを示している。新しく加えられたノードは、上で議論した既知の顔を使った初期オフライントレーニングで展開されたN個のカテゴリーおよび対応するパターンノードに追加されるものである。よって、FAについての第一のパターンノードに割り当てられた重みベクトルWA₁は、ビデオ入力２０を介して受領されるFAの第一の画像についての規格化された特徴ベクトルに等しい。FAについての第二のパターンノード（図示せず）に割り当てられた重みベクトルWA₂は、FAの第二のサンプル画像についての規格化された特徴ベクトルに等しい。……そして、FAについての第n_Aのパターンノードに割り当てられた重みベクトルWA_{n_A}は、FAの第n_Aのサンプル画像についての規格化された特徴ベクトルに等しい。そのようなオンライントレーニングにより、顔AはMPNNにおいて「既知」の顔となる。MPNN４２は今やその後のビデオ入力２０における顔Aを、前記した図１の検出および分類処理を使って「既知」の顔であると判定することができる。ここでもまた、その後のビデオ入力２０における顔画像Aが「既知」と判定されるというのは、MPNNのある顔カテゴリーFAに対応するという意味においてであることを注意しておく。これは必ずしも、顔Aの名前がシステム１０に知られているという意味でその顔が「識別される」ことは意味しない。

入力ビデオ２０において検出され、システム１０によって前記した仕方で「未知」として分類された他の顔も同様に持続性処理１００によって処理される。もし、持続性ブロックにおいて適用される一つまたは複数の基準が別の顔（たとえば顔B）によって満たされた場合は、そのときは、トレーニング器８０は、顔Aについて上記したのと同じ仕方でMPNN４２をオンライントレーニングする。オンライントレーニングののちには、MPNN４２は顔Bについてのもう一つのカテゴリーを（対応するパターンノードとともに）含む。持続するさらなる未知の顔（C、Dなど）も同様にしてMPNNをオンライントレーニングするのに使用される。ひとたびMPNNがある顔についてトレーニングされたら、それはシステムにとっては「既知」である。ブロック２０におけるビデオ入力におけるその顔のその後の画像は、MPNN４２でその顔について新たに生成されたそのカテゴリーに対応すると判定されうる。

上述した実施形態はシステム中のビデオ入力２０を利用する。しかし、当業者はここに記載された技術を、個人の画像ライブラリ、画像アーカイブなどからの離散的な画像（写真のような）を使うように適応させることが容易にできる。画像は、たとえば他の検索ソフトウェアを利用することによって、インターネット上の一つまたは複数のサイトからダウンロードされてもよい。ビデオ入力２０の代わりに離散的な画像を使用することは、上記のシステムの若干の適応を必要とすることがありうるが、それは当業者には容易にわかることである。（たとえば、提供される画像が顔に限られていれば、顔検出３０は飛ばしてもよい。）離散的な画像については、顔が未知と認識され、オンライントレーニング処理に含められるべきかどうかを判定するために他の基準が適用されることもある。たとえば、そのような基準の一つは、新しい顔が少なくとも、ユーザーによって指定されうるある最小回数出現するというものである。これは、画像についての類似「持続性基準」を提供する。

画像については、たとえばブロック１００において持続式の基準の代替として「顕著」式の基準が使用されうる。たとえば、いくつかの画像のセットのうちである特定の顔を含んでいるのが一枚の画像しかなくても、その画像についてオンライントレーニングをすることが望ましいことがありうる。具体的な例として、ワシントンDCへの旅行中に撮った何百枚ものうち合衆国大統領と一緒に撮ったユーザーの一枚の写真があるかもしれない。持続性基準の適用では、この画像についてのオンライントレーニングが生じる可能性は低い。しかし、たとえば、重要であるそのような単発の顔画像の多くがきちんとした構図になっているか、そうでなければ大きく写っている、すなわち画像中で「顕著」であることはありそうなことである。よって、画像中の未知の顔の大きさがある所定の閾値よりも大きいか、あるいは少なくともMPNN４２中にあるものと同じくらいの大きさである場合にオンライントレーニングが行われるようにしてもよい。一つまたは複数のそのような顕著性基準の適用はまた、画像中でより小さく、背景画像である可能性がより高い顔を排除するはたらきもする。

離散的な画像について一つまたは複数の顕著性基準を適用するのは、それだけで適用してもいいし、一つまたは複数の持続性基準と組み合わせて適用してもいいことを注意しておく。また、顕著性基準はビデオ入力にも、持続性基準の代替として、あるいは持続性基準とともに適用されうることも注意しておく。

本発明はいくつかの実施形態を参照して記載されてきたが、当業者には本発明が示され、記載されている特定の形に限定されないことは理解されるであろう。よって、形態および詳細におけるさまざまな変更を、付属の請求項によって定義される本発明の精神および範囲から外れることなく施すこともできる。たとえば、顔検出３０のために本発明において使用されうる多数の代替的な技術がある。当技術分野において知られている顔検出の例示的な代替技術は、H. A. Rowley et al.による“Neurarl Network-Based Face Detection”, IEEE Transactions On Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 23-38 (Jan., 1998)においてさらに記載されている。

さらに、特徴抽出の他の諸技法が上述したVQヒストグラム技法の代替として使用されうる。たとえば、よく知られた「固有顔」技法が顔特徴を比較するために使用されうる。さらに、上述したオンライントレーニング技法が利用されうる顔分類のためには、上述したMPNNの代替として数多くのPNN分類の変形がある。また、上記の例示的な実施形態において使用されたMPNN技法の代替として（あるいは該技法とは離れて）使用されうる顔分類の数多くのその他の諸技法がある。たとえばRBF、ナイーブ・ベイジアン分類器（Naive Bayesian Classifier）および最近接分類器（nearest neighbor classifier）である。適切な持続性基準および／または顕著性基準を含むオンライントレーニング諸技法はそのような代替的な諸技法に合わせて容易に調整されうる。

また、たとえば、上述した実施形態は必ずしもNの異なるサンプル顔を用いて初期オフライントレーニングされる必要はない。初期MPNN４２はオフライントレーニングされたノードを全く持たなくてもよく、一つまたは複数の持続性基準（または顕著性基準）を満たす顔によるオンラインのみのトレーニングを上記のような仕方でするのでもよい。

また、上で個別的に議論された以外の持続性基準も本発明の範囲内にはいる。たとえば、顔がビデオ入力に存在している必要のある閾値時間はビデオ内容、ビデオ中のシーンなどの関数であってもよい。よって、上で記載された特定の諸技法はあくまでも例であって、本発明の範囲を限定するものではない。

本発明の実施形態に基づくシステムを表すブロック図である。図１のシステムのある異なるレベルを表す図である。図１のシステムのあるコンポーネントの、初期にトレーニングされた修正されたPNNを示す図である。図１のシステムのいくつかのコンポーネントをより詳細に表す図である。図３におけるような特徴抽出コンポーネントによってある顔画像について作成されたベクトル量子化ヒストグラムである。確率分布関数に基づいてある種の結果を示すのに使われる一次元の例を表す図である。図４の例の修正を示す図である。オンライントレーニングによって作成された新しいカテゴリーを含む、図２の修正PNNを示す図である。

Claims

顔分類器を有するシステムであって、該顔分類器は、ビデオ入力中のある顔画像が該分類器に保存されている既知の顔のどれにも対応しない場合にその顔画像を未知であるという判定を提供し、当該システムは、前記未知の顔が前記ビデオ入力中で一つまたは複数の持続性基準に基づいて持続するときに、その未知の顔を前記分類器に追加する、ことを特徴とするシステム。
前記顔分類器が確率的ニューラルネットワーク（PNN）を有することを特徴とする、請求項１記載のシステム。
前記ビデオ入力中の顔画像が前記PNN中のあるカテゴリーに対応する場合には、前記ビデオ入力中の顔画像は既知の顔を有することを特徴とする、請求項２記載のシステム。
当該システムが、前記未知の顔についてのカテゴリーならびに一つまたは複数のパターンノードを前記PNNに追加することによって前記未知の顔を前記PNNに追加し、それにより前記未知の顔を当該システムにとって既知とすることを特徴とする、請求項３記載のシステム。
前記一つまたは複数の持続性基準が、同じ未知の顔がビデオ入力中である最小時間期間にわたって存在することを含むことを特徴とする、請求項２記載のシステム。
前記未知の顔がビデオ入力中で追跡されることを特徴とする、請求項５記載のシステム。
前記一つまたは複数の持続性基準が：
ａ）ビデオ入力中の未知の顔のシーケンスが前記PNNによって判別され、
ｂ）前記顔のシーケンスについての特徴ベクトルの平均確率分布関数（PDF）値がある第一の閾値未満であり、
ｃ）前記顔のシーケンスの特徴ベクトルの分散がある第二の閾値未満であり、
ｄ）基準ａ、ｂ、ｃがある最小時間期間にわたって満たされる、
ことを含むことを特徴とする、請求項５記載のシステム。
前記最小時間期間が約10秒以上であることを特徴とする、請求項７記載のシステム。
前記PNNが、前記顔画像が未知の顔であるかどうかを判定する際に前記顔画像についての特徴ベクトルのPDF値にあるカテゴリーと関連して閾値を適用し、該閾値は前記カテゴリーのPDFに基づいて決定されることを特徴とする、請求項２記載のシステム。
前記閾値が前記カテゴリーのPDFの最大値のある割合であることを特徴とする、請求項９記載のシステム。
前記分類器に保存されているいくつかの既知の顔が、オフライントレーニングの間に保存された顔カテゴリーを含むことを特徴とする、請求項１記載のシステム。
前記分類器に保存されているすべての既知の顔が、ビデオ画像中で持続しており、当該システムによって前記分類器に加えられたものであることを特徴とする、請求項１記載のシステム。
顔認識の方法であって：
ａ）ビデオ入力中のある顔画像が既知の顔の集合中の既知の顔に対応するかどうかを判定し、対応しなければその顔画像は未知であると判定し、
ｂ）前記未知の顔がビデオ画像中で持続するかどうかを一つまたは複数の持続性基準に基づいて判定し、
ｃ）ステップｂの前記一つまたは複数の持続性基準が満たされるときに前記未知の顔を処理して前記集合中の既知の顔になるようにする、
ステップを有することを特徴とする方法。
前記一つまたは複数の持続性基準が、同じ未知の顔がビデオ入力中にある最小時間期間にわたって存在していることを含むことを特徴とする、請求項１３記載の方法。
請求項１４記載の方法であって、前記一つまたは複数の持続性基準が、前記未知の顔をビデオ入力中である最小時間期間にわたって追跡することを含むことを特徴とする方法。
請求項１４記載の方法であって、前記一つまたは複数の持続性基準が、次のこと、すなわち：
ｉ）ビデオ入力中に未知の顔のシーケンスがあること、
ｉｉ）前記未知の顔のシーケンスの特徴ベクトルの平均確率分布関数（PDF）値がある第一の閾値未満であること、
ｉｉｉ）前記顔のシーケンスについての特徴ベクトルの分散がある第二の閾値未満であること、
が、ある最小時間期間にわたって満たされることを判定することを含むことを特徴とする方法。
前記顔が未知であると判定することが、前記顔画像についての特徴ベクトルのPDF値がある顔カテゴリーと関連してある閾値未満であることを判定することを含み、該閾値が前記カテゴリーのPDFに基づいていることを特徴とする、請求項１３記載の方法。
前記既知の顔の集合が初期に全く既知の顔を含まないことを特徴とする、請求項１３記載の方法。
顔分類器を有するシステムであって、該顔分類器は、入力画像中のある顔画像が該分類器に保存されている既知の顔のどれにも対応しない場合にその顔画像を未知であるという判定を提供し、当該システムは、前記未知の顔が前記入力画像中で：一つまたは複数の持続性基準と一つまたは複数の顕著性基準とのうちの少なくとも一方を満たすときに、その未知の顔を前記分類器に追加する、ことを特徴とするシステム。
前記入力画像が画像アーカイブによって提供されることを特徴とする、請求項１９記載のシステム。
前記入力画像が一つまたは複数の位置で撮影された画像であることを特徴とする、請求項１９記載のシステム。
前記一つまたは複数の持続性基準が、同じ未知の顔がある最低数の入力画像中に存在することを判定することを含むことを含むことを特徴とする、請求項１９記載のシステム。
前記一つまたは複数の持続性基準が、ある未知の顔が少なくとも一つの画像において少なくともある閾値サイズを有することを判定することを含むことを特徴とする請求項１９記載のシステム。
前記入力画像が、ビデオ画像および離散的画像のうちの少なくとも一方であることを特徴とする、請求項１９記載のシステム。