JP4579931B2 - オンライン学習を用いた連続的な顔認識 - Google Patents

オンライン学習を用いた連続的な顔認識 Download PDF

Info

Publication number
JP4579931B2
JP4579931B2 JP2006550478A JP2006550478A JP4579931B2 JP 4579931 B2 JP4579931 B2 JP 4579931B2 JP 2006550478 A JP2006550478 A JP 2006550478A JP 2006550478 A JP2006550478 A JP 2006550478A JP 4579931 B2 JP4579931 B2 JP 4579931B2
Authority
JP
Japan
Prior art keywords
face
image
unknown
input
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006550478A
Other languages
English (en)
Other versions
JP2007520010A (ja
Inventor
ディミトロワ,ネヴェンカ
ファン シェンゼン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007520010A publication Critical patent/JP2007520010A/ja
Application granted granted Critical
Publication of JP4579931B2 publication Critical patent/JP4579931B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本出願は、2004年2月2日に出願された、Nevenka Dimitrova and Jun Fanの“Continuous Face Recognition With Online Learning”と題する米国特許仮出願60/541,206への優先権を主張するものである。
上に同定した、2004年2月2日に出願された、Nevenka Dimitrova and Jun Fanの“Continuous Face Recognition With Online Learning”と題する米国特許仮出願60/541,206の内容はここに参照によってここに組み込まれる。
本発明は一般には顔認識に関する。より詳細には、本発明は、新しい顔のオンライン学習を含む顔認識の改良に関する。
顔認識は活発な研究分野であり続けてきており、多くの技術が現在利用可能である。そのような技術の一つは、ビデオストリームまたはその他の画像中に検出される顔を表す入力ベクトルを認識するかどうかを決定するために、確率的ニューラルネットワーク(probabilistic neural network)(一般に「PNN」)を使う。PNNは顔が「既知」であるか「未知」であるかを、入力ベクトルを、PNNがトレーニングされている固定数の既知の顔と比較することによって決定する。たとえば比較の結果、十分高い信頼値が得られれば、その顔はデータベース中の対応する顔のものであると見なされる。比較結果がそうでなければ、入力顔は単に「未知」と見なされて破棄される。PNNの概要はたとえばP. K. Patra et al.による“Probabilistic Neural Network for Pattern Classification”, Proceedings of the 2002 International Joint Conference on Neural Networks (IEEE IJCNN'02), May 2002, Vol. II, pp.1200-1205で記述されており、その内容はここに参照によってここに組み込まれる。
PNNを顔認識に適用する従来技術における一つの困難は、入力顔が事前にトレーニングされたデータベース中の顔としか比較されないことである。換言すれば、PNNをトレーニングするために使用された顔の一つに対応すると判明した場合にしか、顔が「既知」と判定され得ないのである。よって、データベース中にない顔については、たとえその同じ顔が以前にシステムによって検出されたことがあったとしても、同じ入力顔が繰り返し「未知」と判定されることがある。
米国特許出願公開2002/0136433A1(「'433公開」)は、「適応的固有顔(adaptive eigenface)」システムにおいて未知の顔についてオンライントレーニングを適用する顔認識システムを記載している。'433公開によれば、検出された未知の顔は既知の顔のクラスに追加される。'433公開はまた、その顔を追跡してその未知の顔の複数の画像がデータベースに追加されうるようにすることにも言及している。しかし、'433公開は未知の顔をデータベースに追加するかどうかを決定する際の選択性を教示してはいない。よって、'433データベースは急速に新しい顔でふくれ、またシステムのパフォーマンスを遅くしもすることがありうる。すべての未知画像の取り込みはある種の用途には望ましいかもしれないが(たとえば監視の場合はのちの認識のためにすべての顔を取り込むことが望ましいかもしれない)、他の用途では望ましくないこともある。たとえば、顕著な顔の高速な認識が重要であるビデオシステムでは、無差別なデータベースの拡張は望ましくないこともある。
本発明は、なかんづく、新しい顔を顔認識で使われるデータベースなどに追加することを含み、新しい顔を学習し続ける。新しい顔がデータベースに追加されると、その後受け取られる入力ビデオに再び見出されたときには、それは「既知」の顔として検出されうる。ある側面は、新しい顔のどれがデータベースに追加されるかの判別を、ビデオ中に持続する新しい顔のみがデータベースに追加されることを保証するための規則を適用することによって行う。これは「見かけ上」または「一過性」の顔がデータベースに追加されることを解消する。
ここで、以下の記述で使用される用語法に関して注記しておく。一般に、顔は、その顔特徴に関するデータがシステムに保存されている場合にシステムによって「既知」と考えられる。一般に、顔が「既知」の場合には、その顔を含む入力はシステムによって保存されている顔に対応すると認識されうる。たとえば、PNNベースのシステムにおいて、顔は、その顔に対応するカテゴリーがある場合に「既知」であり、そのようなカテゴリーがない場合に「未知」と考えられる。(もちろん、顔に対応するカテゴリーの存在は必ずしも処理が常にマッチまたはヒットを決定するということを意味しない。入力された既知の顔とそのカテゴリーとの間の「ミス」もありうるからである。)「既知」の顔は一般にシステムによって、一般的ラベルまたは参照番号のような識別子を与えられることになる。(のちに見るように図2および図6のラベルF1、F2、…、FNや図6のFAはシステム中のそのような一般的識別子を表している。)システムは顔についての顔特徴に関するデータまたはそのようなシステム識別子もしくはラベルを、必ずしも人物の素性(その人物の名前など)を有することなくあらかじめ保存していてもよい。こうして、システムは、ある顔について、必ずしもその顔の個人識別に関するデータを有することなく、保存されている顔データを含んでいるという意味で、その顔を「知る」ことができる。もちろん、システムはある顔を「知っている」と同時にその顔についての対応する個人識別データも有していることもありうる。
よって、本発明は顔分類器を有するシステムを有しており、該顔分類器は、ビデオ入力中に検出されたある顔画像が当該分類器中で既知の顔に対応するかどうかの判定を提供する。システムは、未知の検出された顔がビデオ入力中で、一つまたは複数の持続性基準に基づいて持続しているときに、その未知の検出された顔を分類器に追加する。未知の顔はこうしてシステムにとって既知となる。
顔分類器は、たとえば、確率的ニューラルネットワーク(PNN)であってもよく、ビデオ入力中に検出された顔画像は、PNN中のあるカテゴリーに対応する場合に既知の顔となる。未知の顔について持続性基準が満たされたとき、システムは、その未知の顔についてのカテゴリーならびに一つまたは複数のパターンノードをPNNに追加することによって、その未知の顔をPNNに追加しうる。それによりその未知の顔をシステムにとって既知とするのである。前記一つまたは複数の持続性基準は、同じ未知の顔がビデオ入力中である最小時間期間にわたって検出されることでもよい。
本発明はまた、顔分類の同様の方法をも有する。たとえば、顔認識の方法は:ビデオ入力中に検出された顔画像が記憶装置にある既知の顔に対応するかどうかを判定し、未知の検出された顔がビデオ入力中で一つまたは複数の持続性基準に基づいて持続しているときに記憶装置中にその未知の検出された顔を追加するステップを有する。
本発明はまた、写真のような離散的画像を使った顔分類の同様の技術をも有する。また、(ビデオまたは離散的な画像どちらの場合でも)少なくとも一つの画像中の顔が一つまたは複数の顕著性基準、たとえば閾値サイズを満たすときに、未知の顔を追加することを提供する。
本発明の好ましい例示的な実施形態について以下で付属の図面とともに説明する。同様の記号は同様の要素を表す。
上記のように、本発明は、なかんづく、ビデオ画像中に持続する新しい(すなわち未知の)顔のオンライントレーニングを提供する顔認識を有する。ビデオ画像中での新しい顔の持続は、たとえばその顔が新しい顔である確証を与える一つまたは複数の因子によって測定され、のちの判定のためのデータベースへの追加を保証するのに十分有意な顔であることの閾値を与える。
図1は本発明の例示的な実施形態を描いている。図1は本発明のシステムおよび方法、両方の実施形態を表している。以下ではこの実施形態の記述にシステムとしての用語を使うが、以下で記述される処理ステップは対応する方法実施形態を記述および例解するはたらきもすることを注意しておく。以下の記述からすぐ明らかになるように、上の点線より上(部分A)にあるビデオ入力20およびサンプル顔画像70はシステム10への入力であり、受領後、システム10のメモリに保存されうる。2本の点線の間の処理ブロック(部分B)は、以下でさらに述べる、システム10によって実行される処理アルゴリズムを有する。
当業者にはすぐ理解されるであろうように、部分Bにおけるシステム10の処理アルゴリズムは、一つまたは複数のプロセッサによって実行される、そして時間とともにシステムによって修正されうる(たとえば、以下に述べるMPNNのオンライントレーニングを反映するために)ソフトウェア内に存在しうる。また、以下の記述から明らかとなるように、さまざまな処理ブロックアルゴリズムへの入力は、他の処理ブロックの出力によって、直接または付随するメモリを通じて与えられる。(図1aは、図1に表されているシステム10の処理をサポートするハードウェアおよびソフトウェア構成要素の簡単な代表的実施形態を示す。このように、図1の部分Bのブロックによって表されているシステム10の処理は、図1aにおける、付随するメモリ10bおよびソフトウェア10cと一緒のプロセッサ10aによって実行されうる。)
図1のシステム10は顔分類器40においてPNNを使用する。このPNNは以下で述べる実施形態では修正されて修正PNN(modified PNN)すなわち「MPNN」42をなし、よって以下では「MPNN」という。しかし、基本的な(すなわち未修正の)PNNも本発明で使用されうることは理解しておくものとする。顔分類器40は、主として本実施形態におけるMPNN42からなるが、追加的な処理をも含みうる。たとえば、以下に示すように、判断ブロック50の一部または全部は分類器40におけるMPNN42とは別個の部分と考えることもできる。(また、代替的な顔分類技法を用いてもよい。)このように、顔分類器40およびMPNN42は、ここに記載される図1の実施形態では実質的に同一の広がりをもつものであるが、概念上の明確さのために別個に示されている。また、システム10は、顔が既知か未知かを判定する際に、サンプル顔画像およびビデオ入力から顔特徴を抽出する。システム10で使用できる顔特徴抽出技法は、ベクトル量子化(VQ: vector quantization)ヒストグラムまたは固有顔特徴といった多くの異なるものがある。図1の例示的なシステム10では、ベクトル量子化(VQ)ヒストグラム特徴が顔特徴として使用される。
図1のシステム10では初期には、MPNN42の初期オフライントレーニング90を提供するために、サンプル顔画像70がシステム10に入力される。サンプル顔画像はいくつかの異なる顔、すなわち第一の顔F1、第二の顔F2、…、第Nの顔FNについてのものである。ここで、Nはサンプル画像中に含まれる異なる顔の総数である。顔F1〜FNは初期の「既知の」顔(あるいは顔カテゴリー)をなし、システムにとってはカテゴリーラベルF1、F2、…、FNによって「知られる」。トレーニングで使われるサンプル顔画像70は典型的には顔カテゴリーF1についての複数のサンプル画像、F2についての複数のサンプル画像、…、FNについての複数のサンプル画像を含む。ブロック70でのサンプル画像入力については、どの画像がどの顔カテゴリーに属するかはわかっている。
各顔カテゴリーについてのサンプル画像は、顔分類器40のMPNN42において、その顔カテゴリーについてのパターンノードおよびカテゴリーを生成するために使われる。よって、F1に対応するサンプル画像はF1についてのパターンおよびカテゴリーノードを作成するために使われ、F2に対応するサンプル画像はF2についてのパターンおよびカテゴリーノードを作成するために使われる、といった具合になる。サンプル顔画像70は特徴抽出器75によって処理されて、各サンプル顔画像について対応する入力特徴ベクトルXが生成される。(以下のオフライントレーニング90の記述では、「X」は一般に、考えている特定のサンプル画像についての入力特徴ベクトルのことをいう。)例示的な実施形態では、入力特徴ベクトルXは、サンプル画像70のそれぞれから抽出されたVQヒストグラムである。特徴抽出のVQヒストグラム技法は当技術分野においてよく知られており、以下でも、入力ビデオ画像についてのブロック35における類似の特徴抽出の背景においてさらに述べる。このように、各サンプル画像についての入力特徴ベクトルXは、使用されるベクトルコードブックによって決まる次元数(以下の具体例では33)を有することになる。
サンプル画像の入力特徴ベクトルXは、抽出された後、分類器トレーニング器80によって規格化される。分類器トレーニング器80はまた、規格化されたXを重みベクトルWとして、MPNN42におけるある別個のパターンノードに割り当てる。こうして、各パターンノードも顔の一つのサンプル画像に対応する。トレーニング器80は、各パターンノードを、カテゴリー層における対応する顔について生成されたノードに結び付ける。ひとたびすべてのサンプル入力画像が受領されて同様に処理されたら、MPNN42は初期トレーニングされたことになる。各顔カテゴリーはいくつかのパターンノードに結び付けられ、各パターンノードはそのカテゴリーについてのあるサンプル顔画像から抽出された特徴ベクトルに対応する重みベクトルを有している。それぞれの顔(またはカテゴリー)についての諸パターンノードの重みベクトルは、集団として、そのカテゴリーについての基底となる確率分布関数(PDF: probability distribution function)を生成する。
図2は、分類器トレーニング器80によって初期オフライントレーニング90された、顔分類器40のMPNN42を表している。ブロック70によって出力されるn_1個の入力サンプル画像が顔F1に対応する。第一のパターンノードに割り当てられた重みベクトルW11は、F1の第一のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。第二のパターンノードに割り当てられた重みベクトルW12は、F1の第二のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。……そして、第n_1のパターンノードに割り当てられた重みベクトルW1n_1は、F1の第n_1のサンプル画像から抽出された規格化された入力特徴ベクトルに等しい。最初のn_1個のパターンノードは対応するカテゴリーノードF1に結び付けられている。同様にして、n_2個の入力サンプル画像が顔F2に対応する。重みW21〜W2n_2をもつ次のn_2個のパターンノードはそれぞれ同様にして、F2のn_2個のサンプル画像を使って生成される。顔F2についてのパターンノードはカテゴリーF2に結び付けられている。その後のパターンノードおよびカテゴリーノードも同様にしてその後の顔カテゴリーについて生成される。図2では、トレーニングはN個の異なる顔について複数のサンプル画像を使用している。
図2の初期トレーニングされたMPNNを生成するアルゴリズムについてここで手短に述べておく。上記したように、ブロック70で入力された現在サンプル顔画像について、顔検出器75はまず、対応する入力特徴ベクトルX(この具体例ではのちに述べるVQヒストグラムである)を生成する。分類器トレーニング器80はこの入力特徴ベクトルをあるパターンノードについての重みベクトルに変換する。それにはまず、該入力特徴ベクトルを、それぞれの大きさで割ることによって該ベクトルを規格化する:
X′=X×(1/√(ΣX2)) (1)
現在サンプル画像は(よって現在の対応する規格化特徴ベクトルX′も)ある既知の顔Fjに対応する。ここで、Fjはトレーニングの顔F1、F2、…、FNのうちの一つである。また、上記したように、一般には、ブロック70のサンプル顔のストリームでは、既知の顔それぞれについていくつかのサンプル画像がある。よって、現在サンプル画像は一般にはブロック70によって出力されるFjに対応するm番目のサンプル画像ということになる。規格化された入力特徴ベクトルX′は重みベクトルとしてカテゴリーFjについてのm番目のパターンノードに割り当てられる:
Wjm=X′ (2)
重みベクトルWjmをもつパターンノードはそれぞれのカテゴリーノードFjに結び付けられている。ブロック70によって入力される他のサンプル顔も特徴抽出ブロック75で入力特徴ベクトルに変換され、分類器トレーニング器80によって同様に処理されて、図2に示した顔分類器の初期構成されたMPNN42が生成される。
たとえば、図2に戻ると、ブロック70による現在サンプル画像入力が顔F1についての第一のサンプル画像である場合、特徴抽出器75はその画像についての入力特徴ベクトルXを生成する。分類器トレーニング器80は入力特徴ベクトルを規格化してそれを重みベクトルW11としてF1についての第一のパターンノードのために割り当てる。次のサンプル画像は顔F9についての第三のサンプル画像でありうる。この次のサンプル画像についてブロック75で入力特徴ベクトルXの抽出後、分類器トレーニング器80はその特徴ベクトルを規格化し、その規格化された特徴ベクトルを重みベクトルW93としてF9についての第三のパターンノードのために割り当てる(図示せず)。いくつかの入力画像後、トレーニングにおけるもう一つのサンプル画像が再びF1についてのものということがある。この画像も同様にして処理され、重みベクトルW12としてF1についての第二のパターンノードに割り当てられる。
すべてのサンプル顔画像70が同様にして処理され、結果として図2の分類器40の初期トレーニングされたMPNN42が与えられる。そのような初期オフライントレーニング90ののちには、顔分類器40が有するMPNN42は、オフライントレーニングの結果として得られ、オフライントレーニングにおいて使用された顔を反映する、パターン層およびカテゴリー層を有する。このような顔が、オフライントレーニングされたMPNNベースのシステムの初期に「既知」の顔をなす。
のちにさらに述べるように、入力ノードI1、I2、…、IMは、ある検出された顔画像についての特徴ベクトルを受け取り、それが既知の顔カテゴリーに対応するかどうかを判定する。こうして各入力ノードは各パターンノードに結び付けられ、入力ノードの数は特徴ベクトルの次元数(後述の具体例では33)に等しくなる。
MPNNのトレーニングは、上述したように入力サンプル画像のシーケンスとして行われうる。あるいは複数の画像が同時に処理されてもよい。また、上の記述から、サンプル顔画像の入力順序が重要でないことも明らかである。各サンプル画像についての顔カテゴリーはわかっているので、既知の顔それぞれについての全サンプルが順に提出されてもよいし、あるいは順不同で処理されてもよい(上記の例のように)。いずれの場合にも、最終的なトレーニングされたMPNN42は図2で示されるようになる。
システム10のそのような初期オフライントレーニングの直後に構成されているMPNNが、オフライントレーニングのみを使用する従来技術のPNNシステムにおけるものと類似していることを注意しておく。たとえば、そのようなオフライントレーニング90は先に引用したPatra et al.による文書に基づいてなされることもできる。
ここで(のちにさらに述べるが)、本発明が必ずしもオフライントレーニング90を必要としないことを注意しておく。代わりに、MPNN42はオンライントレーニング110のみを使って構築されてもよい。これものちにさらに述べる。しかし、今述べている実施形態では、MPNN42はまずオフライントレーニング90を使ってトレーニングされ、図2に示されるようになる。MPNN42の初期オフライントレーニング90ののちは、システム10はビデオ入力20中に顔を検出し、検出された場合、その検出された顔を使ってMPNN42のカテゴリーの一つの既知の顔に対応するかどうかが判定される。図1に戻ると、ビデオ入力20はまず顔検出30処理の既存の技術にかけられ、ビデオ入力20中に(一つまたは複数の)顔の存在および位置が検出される。(このように、顔検出処理30は単に顔の画像がビデオ入力中に存在することを認識するだけであって、その顔が既知かどうかは認識しない)。システム10は既存のいかなる顔検出技術を使用してもよい。
よって、顔検出アルゴリズム30は、高速オブジェクト検出のためのAdaBoostの既知のアプリケーションを使用しうる。高速オブジェクト検出についてはP. Viola and M. Jonesによる“Rapid Object Detection Using A Boosted Cascade of Simple Features”, Proceedings of the 2001 IEEE Conference on Computer Vision and Pattern Recognition (IEEECVPR'01), Vol. I, pp. 511-518, Dec. 2001で記載されており、その内容はここに参照によってここに組み込まれる。使用される基本顔検出アルゴリズム30はViolaに記載されているようなものでもよい。すなわち、カスケード式の諸段をなして構成され、各段が強い分類器であり、各段がいくつかの弱い分類器からなり、各弱い分類器が画像のある特徴に対応するというものである。入力ビデオ画像20は左から右へ、上から下へスキャンされ、画像中の異なるサイズの長方形が解析されて該長方形が顔を含んでいるかどうかが判定される。このように、分類器の諸段は一つの長方形に対して逐次適用される。各段はその長方形についてスコアを算出するが、該スコアはその段をなす弱い分類器の応答の和である。(のちに述べるように、長方形についてのスコア算出は典型的には二つ以上の部分長方形を調べることを含む。)その和がその段についての閾値を超えている場合、その長方形は次の段に進む。長方形のスコアがすべての段についての閾値を通過した場合、その長方形は顔部分を含んでいると判定され、その顔画像が特徴抽出35に渡される。その長方形がいずれかの段について閾値未満である場合には、その長方形は破棄され、アルゴリズムは画像中の別の長方形に進む。
分類器は、Violaにあるように、検証セットを使って評価される弱い分類器を一つずつ追加して段すなわち強い分類器を構築することにより構築されうる。最新の弱い分類器は、構築中の現在段に追加される。強化の各ラウンドtは、構築中の強い分類器に現在の特徴セットに対する長方形特徴分類器hを追加することを、次式を最小化することによって行う:
Et=Σi Dt(i)exp(−αtyiht(xi)) (3)
上式(3)はViolaの手順で使われている式と同等なもので、Etは、長方形トレーニング例xiを使って評価されるt番目の長方形特徴分類器htに関連付けられた重み付き誤差を表す。(長方形の例について使われる小文字の記法xiによりMPNNにおいて使われる画像の特徴ベクトルの記法と区別される。)基本的には、ht(xi)はトレーニング例xiの特定の長方形部分領域におけるピクセルの和の重み付き和である。ht(xi)がある設定された閾値を超える場合には、例xiに対するht(xi)の出力は1であり、そうでない場合にはht(xi)の出力は−1である。hは上記の式で+1または−1に制限されているため、変数αtがこの弱い仮説hの構築中の強い分類器に対する影響(大きさ)である。また、yi≡[−1, 1]は例xiの目標レベルである(すなわち、xiが特徴hの負の例であるか正の例であるか;これはトレーニングセットの例については客観的にわかっている)。Dはht特徴についてのi番目の例についての重み付け因子である。
ひとたび最小のEがこのようにして決定されると、対応する長方形特徴分類器hが(その大きさαと同様に)新しい弱い分類器を構築するのに使用される。hについてのカスタム判断閾値も前記トレーニングセットを使って、正および負の例の分布に基づいて決定される。閾値は、設計パラメータに基づいて正および負の例を最もよく分割するものが選択される。(閾値は上に引用したViola文書ではθjと称されている。)上記したように、弱い分類器はαをも有している。これは、選択されたその長方形特徴分類器hが構築中の強い分類器に対してどのくらい影響するかを表す、実数値をとる数である(そしてトレーニングにおいて決定された誤差Eから決定される)。実装されるとき、画像の入力長方形部分も典型的にはhによって、入力長方形の二つ以上の部分長方形におけるピクセルの重み付け和に基づいて解析され、その入力長方形について閾値(トレーニングから決められる)を超過すればhの出力は1に設定され、そうでなければh=−1となる。新しい弱い分類器の出力はhの二値出力かける影響値αである。強い分類器は、トレーニング中に追加された弱い分類器の和からなる。
ひとたび新しい弱い分類器が追加されたとき、当該分類器のパフォーマンス(検出率および誤り警告率の面での)は検証セットについての所望の設計パラメータを満たしていれば、それぞれの特徴を十分に検出できるので、その新しく追加された弱い分類器が構築中の段を完成させる。そうでなければ、もう一つの弱い分類器が追加されて評価される。ひとたびあらゆる所望の特徴について諸段が構築され、検証セットについての所望の設計パラメータに従って動作するようになったとき、当該分類器は完成したことになる。
代替的に、顔検出器30のために、Violaの弱い分類器の上述の構造の修正を使うこともできる。その修正では、αは、新しい弱い分類器のためのhの選択の間にhの中にたたみ込まれる。新しい弱い分類器h(今ではαを組み込んでいる)は上記と同様の仕方でEを最小にすることによって選択される。弱い分類器の実装については、この修正では「強化切り株(boosting stumps)」が使用される。強化切り株とは、葉でない親モードにおいてなされた決定に基づいて左または右の葉の値を出力する決定木である。こうして、弱い分類器は、1および−1の代わりに二つの実数値のうちの一つ(c_leftおよびc_rightという二つの葉の一つ)を出力する決定木によって構成される。弱い分類器はまた、のちに述べるカスタム決定閾値をも有する。画像のある入力長方形部分について、選択された長方形特徴分類器hを使って、当該入力長方形の複数の部分長方形領域の間でのピクセル強度の和の重み付き和が前記閾値よりも大きいかどうかが決定される。もし大きければ、c_leftが弱い分類器から出力され、小さければc_rightが出力される。
葉c_leftおよびc_rightは選択されたhのトレーニングの間に、所与の閾値について左および右の分割にいくつの正の例および負の例が割り当てられるかに基づいて決定される。(トレーニングセットについての基本的事実はわかっているので、例が正であるか負であるかは客観的にわかる。)長方形からの和の重み付き和がサンプルセット全体にわたって評価され、それにより種々の値の分布が与えられ、それらの値は次いでソートされる。ソートされた分布から、そして要求される検出率および誤り警告率に鑑みて、目標は最も多くの正の例が一方の側にはいり、最も多くの負の例が他方の側にはいるような分割を選択することである。ソートされた分布について、最適な分割(弱い分類器について使用されるカスタム判断閾値を与えるもの)は、次の式のTを最小にする分割を選ぶことによってなされる:
Figure 0004579931
ここで、トレーニングセットのうち、Wは考えている分割の左側または右側にはいる、「正」または「負」のいずれかの例の重みを表す。
選択された分割(Tを最小化するもの)はカスタム判断閾値を生成する。また、c_leftおよびc_rightは次式に従ってトレーニングデータ分布から計算される。
Figure 0004579931
ここで、Wは今度は選択された分割の左または右に割り当てられる、「正」または「負」のいずれかの例の重みを表す。(そしてεは大きな予言によって引き起こされる数値的問題を回避するための平滑化項である。)これらの値は弱い分類器の次の反復工程の重みをバランスされた状態に保つ、すなわち境界の両側の正および負の例の相対的な重みが実質的に等しくなるように保つ役割をする。
上記したように、弱い分類器はViolaにおけるように構築されてもよいが、代替的に、すぐ上で述べた決定切り株として構築されてもよい。さらに、どちらの弱い分類器のトレーニングも代替的な技法を使用しうることを注意しておく。一つの技法によれば、現在追加されようとしている弱い分類器を試験するために、検証セットの諸例が、これまでに追加された先行する諸段の弱い分類器および現在の段にこれまでに追加された弱い分類器のすべてを通じてスキャンされる。しかし、より効率的な代替技法においては、これまでのすべての段を通過する長方形および先行する諸段についてのそのスコアが保存される。例を先行するすべての段を通して走らせる代わりに、現在の弱い分類器のトレーニングにおいて前記の残っている長方形についての以前のスコアが使用され、前記の残っている長方形はスコアを更新するために、現在の弱い分類器を通して走らされる必要があるだけである。
ひとたび顔検出30によってビデオ20中に顔画像が検出されると、特徴抽出器35において処理されて当該画像についてのVQヒストグラムが作成される。この特徴抽出処理は検出された画像についての特徴ベクトルXDを生じる。XDの記号(「検出された(detected)」Xの意)は、このベクトルがトレーニング中のサンプル顔画像ではなく、ビデオストリーム20中で検出された顔画像(下記の35a)に対応することを強調するために使っている。しかし、検出された画像に対する特徴ベクトルXDが、オフライントレーニング90において使用されるサンプル顔画像について上で議論した入力特徴ベクトルXと同じ仕方で抽出されることは注意しておく。よって、特徴抽出器35、75はシステム10において同一であってもよい。検出される顔画像を含むビデオフレームとトレーニングにおいて使用されるサンプル画像が同じ未加工の入力フォーマットであってもよく、その場合、特徴抽出処理は同一である。
特徴抽出器35による特徴抽出についてこれから、顔検出器30において検出されたビデオ入力20からの顔画像に関してより詳しく述べる。図3は、検出された顔画像を顔分類器40への入力のためにVQヒストグラムに変換するために使われる特徴抽出器35の要素を示している。ビデオ入力中で検出された顔画像(図3で顔セグメント35aで示されている)は低域通過フィルタ35bに転送される。この点での顔セグメント35aは、ビデオフレーム中でまだ未加工のビデオフォーマットで存在している。低域通過フィルタ35bを使って高周波ノイズが減らされ、顔セグメント35aの最も効率的な低周波数成分が認識のために抽出される。顔セグメントは次いでピクセルの4×4のブロックに分割される(処理ブロック35c)。さらに、最小強度が各4×4ピクセルブロックについて決定され、それぞれのブロックから差し引かれる。結果は、各4×4ブロックについての強度の変動である。
処理ブロック35dでは、顔画像のそのような4×4ブロックのそれぞれは、メモリに保存されているベクトルコードブック35eのコードと比較される。コードブック35eは当技術分野においてよく知られており、単調な強度変動を有する33のコードベクトルで系統的に組織されている。最初の32のコードベクトルは強度変動の方向および範囲を変えることによって生成され、33番目のベクトルは変動も方向も含まない。図3に見られるとおりである。各4×4ブロックについて選択されたコードベクトルは、そのブロックについて決定された強度変動に最も近い一致を有するコードベクトルである。画像ブロックとコードブック中のコードベクトルとの間の距離の一致のためにはユークリッド距離が使われる。
33のコードベクトルのそれぞれは、こうして当該画像中で特定の数の一致する4×4のブロックを有する。各コードベクトルについての一致の数を使ってその画像についてのVQヒストグラム35fが生成される。VQヒストグラム35fは、x軸に沿ってコードベクトルのビン1〜33を有し、y方向に各コードベクトルについての一致の数を示すように生成される。図3aは、ある顔セグメント35a′について、図3に示すような特徴抽出器の処理によって生成されたVQヒストグラム35f′を表している。コードベクトル1〜33についてのビンはx軸に沿って示されており、画像35a′中で各コードベクトルと4×4画像ブロックとの間の一致の数はy軸に沿って示されている。上記したように、この例示的な実施形態では、VQヒストグラムは、検出された顔画像についての画像特徴ベクトルXDとして使われる。(等価的に、処理において使われる画像特徴ベクトルXDは33次元ベクトルXD=(コードベクトル1の一致数,コードベクトル2の一致数,…,コードベクトルVの一致数)として表現されうる。ここで、Vはコードブックにおいて最後のコードベクトル番号である(上記のコードブックについてはV=33)。)
K. Kotani et al.による文書“Face Recognition Using Vector Quantization Histogram Method”, Proceedings of the 2002 International Conference on Image Processing (IEEEI CIP '02), Vol. II, pp. 105-108 (Sept. 2002)はここに参照によってここに組み込まれる。この文書はVQヒストグラムを使った顔特徴の表現を記載しているが、それは実質的に、特徴抽出器35による入力顔画像35aからのVQヒストグラム35fの生成に関して上述したとおりである。
図3は顔分類器40のMPNN42も示している。VQヒストグラム35fは入力顔画像35aについての特徴ベクトルXDを出力する。特徴ベクトルXDはMPNN42の入力層に転送され、根底にある顔セグメントが既知か未知かを判定するために処理される。
ここで、図2に示したような前記のMPNN42の初期トレーニングされた構成に戻ると、各パターンノードは、顔カテゴリー内のあるサンプルトレーニング画像の規格化された入力特徴ベクトルに等しい、割り当てられた重みベクトルWを有している。トレーニングにおいて入力特徴ベクトルがサンプル画像から抽出されるのがXDについてと同じ仕方であるため、両方のベクトルは同じ次元数(抽出において使用された33コードベクトルの例示的な実施形態では33)を有し、対応するベクトル次元ではそれぞれの画像の同じ特徴を表す。よって、検出された画像のXDと、あるカテゴリーのサンプル画像についての重みベクトルWとが比較され、XDと前記カテゴリーの既知の顔との間の対応が決定される。
XDは入力層ノードを介してMPNN42に入力され、MPNN42はその各顔カテゴリーとの対応を、諸パターンノードにおける重みベクトルを使って評価する。MPNN42はXDと既知の顔カテゴリー(F1、F2、…)とを、各カテゴリーについて一つの別個のPDF値を決定することによって比較する。まず、入力層が入力ベクトルXDを(その大きさで割ることによって)規格化し、それにより入力ベクトルは、オフライントレーニングの間に行われたパターン層の重みベクトルの先の規格化に対応するようスケーリングされる:
XD′=XD×(1/√(ΣXD 2)) (7)
第二に、パターン層において、MPNN42は規格化された入力ベクトルX′Dと図2に示された各パターンノードの重みベクトルWとの間のドット積を実行する。この結果、各パターンノードについて出力ベクトル値Zが得られる:
Z11=X′D・W11 (8a)
Z12=X′D・W12 (8a)
………
Z1n_N=X′D・WNn_N (8a)
ここで、諸パターンノードについての重みベクトルW(よって結果として得られる出力ベクトルZも)についての基準記号は図2に示され、オフライントレーニングに関して上述したのと同様である。
最後に、各カテゴリーに対応するパターンノードの出力値はまとめられ、それぞれの各カテゴリーについて入力ベクトルXDに対するPDFの値(関数f)を決定するために規格化される。こうして、j番目のカテゴリーFjについては、j番目のカテゴリーの諸パターンノードについての出力値Zj1〜Zjn_jが使用される。ここで、n_jはカテゴリーjについてのパターンノードの数である。PDF値fは考えているカテゴリーFjについて、次のように計算される:
Figure 0004579931
ここで、σは平滑因子である。式(9)をj=0からNについて使うと、PDF値fF1(XD)、…、fFN(XD)がカテゴリーF1、…、FNについてそれぞれ、それぞれの各カテゴリーに対応する諸パターンノードの出力値Zを使って計算される。各カテゴリーについてのPDF値fがカテゴリーの出力値Zの和に基づいているため、あるカテゴリーについて値fが大きければ、XDとそのカテゴリーについての重みベクトルとの間の対応も大きくなる。
MPNN42は次いで入力ベクトルXDについて最大の値fをもつカテゴリー(i番目のカテゴリー、すなわちFiと記す)を選択する。MPNN42によるi番目のカテゴリーの選択は、ベイズ戦略の実装の一つを使用する。これはPDFに基づいて最小リスク・コストを求めるものである。形式的には、ベイズ決定規則は次のように書かれる:
fFi(XD)>fFj(XD) ∀i≠j ならば d(XD)=Fi (10)
入力ベクトルXDについて最大のPDF(fによって測られる)をもつカテゴリーFiは、入力ベクトルXD(顔セグメント42aに対応する)が潜在的に顔カテゴリーFiに一致するという判断を与える。実際に一致したと見なす前に、MPNN42は信頼測定値を生成する。信頼測定値は、潜在的な一致カテゴリーiについてのベクトルXDのPDFを、あらゆるカテゴリーのベクトルXDのPDFの和と比較するものである:
Figure 0004579931
この信頼測定値が信頼閾値(たとえば80%)を超えれば、入力ベクトルXDとカテゴリーiとの一致がシステムによって見出される。信頼測定値が信頼閾値を超えなければ、一致は見出されない。
ところが、すぐ上で述べたような決定関数に基づく信頼測定値は、ある入力ベクトルについての最大のPDF値がそれでもそのカテゴリーとの一致を宣言するには低すぎる場合に望ましくないほど高い信頼測定値を与えることがある。これは、上で計算したような信頼測定値が、ある所与の入力ベクトルについてのカテゴリーのPDF出力からの相対的な諸結果を比較することによって生成されているからである。一次元における単純な一般的例がこの点を例解する。
図4は、二つのカテゴリー(Cat1、Cat2)のPDFを表している。各カテゴリーについてのPDF関数は図4では一般に“p(X|Cat)”(すなわち、入力特徴ベクトルXがカテゴリーCatに属する確率)対一次元特徴ベクトルXとして表されている。3つの別個の一次元入力特徴ベクトルXEx1、XEx2、XEx3が示されており、これらを使って望ましくないほど高い信頼値が与えられうることを例解する。入力ベクトルXEx1について、最大のPDF値はカテゴリーCat1に対応する(すなわち、p(XEx1|Cat1)〜0.1で、p(XEx1|Cat2)〜0.02)。式(10)で与えたのと同様のベイズ規則を適用することによって、Cat1が選択される。また、信頼測定値は、式(11)に与えたのと同様にXEx1についてCat1について計算されうる:
Confi_Ex1=p(XEx1|Cat1)/[p(XEx1|Cat1)+p(XEx1|Cat2)] (12)
〜0.1/[0.1+0.02]=83%
しかし、入力特徴ベクトルXEx1についてのPDF値は非常に低いので(Cat1については0.1、Cat2についてはもっと低い)、これは入力ベクトルとパターンノード中の重みベクトルとの対応が小さいこと、したがってXEx1は「未知」カテゴリーとして同定されるべきであることを含意している。
他の同様に望ましくない結果も図4から明らかである。入力特徴ベクトルXEx2を参照すると、それはCat1の最大値に一致するので、カテゴリーCat1に一致するのが適切であることは明らかである。また、式(12)と同様な仕方で信頼測定値Confi_Ex2を計算すると、信頼測定値は約66%という結果になる。しかし、XEx2はXEx1よりもCat1についてのPDFの最大値にずっと近いので、Confi_Ex2はConfi_Ex1よりも低いべきではない。もう一つの望ましくない結果はXEx3について示されている。ここではXEx3が同様にCat2についてのPDFの最大値の一方の側に寄りすぎているにもかかわらず、Cat2が信頼値約80%で選択される。
図5は、所与の入力特徴ベクトルについて低いPDF値を扱うときの、そのような望ましくない結果を回避するための技法を例示している。図5では、図4のカテゴリーCat1、Cat2のそれぞれに閾値が適用される。最大のPDF値をもつカテゴリーを選ぶことに加えて、入力特徴ベクトルXがそのカテゴリーについての閾値を満たすか超えるかしなければ一致とは見なされない。閾値は各カテゴリーについて異なっていてもよい。たとえば、閾値はそのカテゴリーについてのPDFの最大値のある割合(たとえば70%)であってもよい。
図5から見て取れるように、Cat1はここでもまた特徴ベクトルXEx1についての最大のPDF値を有するカテゴリーである。しかし、p(XEx1|Cat1)〜0.1であり、Cat1についての閾値である約0.28を超えていない。よって、特徴ベクトルXEx1は「未知」と判定される。同様にして、XEx3のPDF値はCat2についての閾値を超えないので、XEx3は「未知」と判定される。しかし、XEx2についてのPDF値はCat1についての閾値を超えるので、XEx2についてはCat1が選択される。その信頼レベルは上で計算したように66%である。
同様の望ましくない筋書きは多次元の場合(たとえば前記例示的実施形態の33次元の場合)でも生じうることは明らかである。たとえば、ある入力された多次元特徴ベクトルについての最大のカテゴリーについてのPDF値でもカテゴリー一致を宣言するには低すぎることがある。しかし、最大PDF値が信頼測定において他のカテゴリー(さらに低い大きさをもつ)のPDF値とともに使われれば、不当に高い信頼値が得られる可能性がある。
例示的な実施形態に戻ると、所与の入力ベクトルについて低いPDF値出力fを適切に扱うためには、先に示したように、修正されたPNN(MPNN42)が用いられる。MPNN42においては、ある入力ベクトルについて最大のPDF値fをもつカテゴリーが暫定的に選択される。しかし、そのカテゴリーについての値f(X)はその暫定的に選択されたカテゴリーについての閾値を満たすか超えるかする必要もある。閾値は各カテゴリーについて異なっていてもよい。たとえば、閾値はそのカテゴリーについてのPDFの最大値のある割合(たとえば70%)であってもよい。当該実施形態のMPNNにおいて使用されるある入力ベクトルXDについて生成されるPDF値fの閾値処理が、上で与えられたベイズ決定規則の修正として適用される。よって、当該実施形態のMPNNによって使用されるベイズ決定規則は次のようになる:
fFi(XD)>fFj(XD) かつ fFi(XD)≧ti ∀i≠j ならばd(XD)=Fi (13)
fFi(XD)>fFj(XD) かつ fFi(XD)<ti ∀i≠j ならばd(XD)=未知 (14)
ここで、tiは最大のf(XD)に対応する顔カテゴリー(Fi)の閾値(threshold)であり、該閾値はカテゴリーFiのPDFに基づいている。(少なくとも上に技法における閾値が「未知」カテゴリーのPDFに基づいていないため、この閾値はT. P. Washburne et al.による“Identification Of Unknown Categories With Probabilistic Neural Networks”, IEEE International Conference on Neural Networks, pp. 434-437 (1993)における他の応用について記載されている閾値とは異なる。)
dが未知であれば、ブロック50でその顔は「未知」と判定される。MPNNの修正ベイズ決定アルゴリズムのもとである顔カテゴリー(Fi)が選択されれば、その選択されたカテゴリーについての信頼値が上記と同じようにして(式(11))計算される。信頼値が信頼閾値を超えれば、入力ベクトルは選択されたカテゴリー(Fi)に対応すると見なされ、その顔は図1のブロック50において、ある顔カテゴリーに対応するという意味で「既知」と判定される。その場合、既知の顔の検出に関係する任意の後続の処理がブロック60で開始されてもよい。そのような開始は任意的であり、タスクの内容もビデオインデックス化、その顔の素性についてのインターネット検索、編集などのような数多くのうちのいかなるものでもよい。さらに、システム10は出力65(単純な視覚または聴覚的アラームのような)を提供してビデオ入力の顔セグメントとMPNN中のあるカテゴリー(既知の顔)との一致に注意を喚起することができる。トレーニング画像が顔カテゴリーについて人物識別(たとえば対応する名前)も含んでいた場合には、その識別が出力されてもよい。他方、信頼値が信頼閾値を超えなければ、入力ベクトルはここでもまた未知であると見なされる。
顔が既知または未知であることの決定の処理は、図1では処理判定50として別個に示されている。ブロック50は、たった今述べた修正ベイズ決定規則(式13および14)およびその後の信頼決定(式11)を含んでいてもよい。しかし、ブロック50は概念上の明快のために顔分類器40と別個に示されているものの、ベイズ決定アルゴリズムおよび信頼決定は典型的には顔分類器40の一部であることは理解しておくものとする。この決定処理は、MPNN42の一部と考えられうるが、代替的に、顔分類器40の別個のコンポーネントであると考えられることもできる。
顔画像が判定50によって未知であると判定された場合、図1はその顔が単に破棄されることを示しているのではなく、処理は持続性判定ブロック100に向かう。のちにより詳細に述べるように、未知の顔をもつビデオ入力20は、その同じ顔が持続する、あるいは他の仕方でビデオ中で優勢かどうかを判定するための一つまたは複数の基準を使ってモニタリングされる。そうであると判定されれば、入力20を介して受領されたその未知の顔の一つまたは複数の顔画像について特徴ベクトルXDがトレーニング器80に送られる。トレーニング器80はその顔画像についてのデータを使って、顔分類器40中のMPNN42をトレーニングし、その顔についての新たなカテゴリーを含めるようにする。MPNN42のそのような「オンライン」トレーニングによって、ビデオ中の顕著な新しい(未知の)顔が顔分類器におけるカテゴリーとして追加されることが保証される。こうして、その後のビデオ入力20においてはその同じ顔は「既知」の顔(すなわち、必ずしも名前などによって「識別」されるわけではないが、あるカテゴリーに対応する)として検出されうる。
上記したように、ブロック50で顔が未知であると判定されたとき、持続性処理100が開始される。ビデオ入力20は、その未知の顔の画像を使ってMPNN42をオンライントレーニングするかどうかの指標となる一つまたは複数の条件が満たされるかどうかを決定するためにモニタリングされる。その一つまたは複数の条件は、たとえば、同じ未知の顔がある時間期間にわたって連続的にビデオに存在していることを示しうる。よって、持続性処理100の一つの実施形態では、検出されたその未知の顔はビデオ入力中で追跡される。それにはよく知られた追跡技術のいかなるものを使用してもよい。その顔がビデオ入力中である最低秒数(たとえば10秒)にわたって追跡された場合、その顔は処理ブロック100によって持続していると見なされる(YESの矢印)。
あるいはまた、持続性判定ブロック100は、同じ未知の顔がある時間期間にわたってビデオ中に存在しているかどうかを判定するために、顔分類器40中のMPNN42によって未知であると判定された顔画像セグメントのシーケンスについてのデータを考慮してもよい。たとえば、次の4つの基準がシーケンスに適用されうる:
1)MPNN42分類器はビデオ入力20中の顔セグメントのシーケンスを、上で述べたように未知として同定する。
2)そのシーケンスの顔セグメントについて抽出された特徴ベクトルXDについてのPDF出力の平均が低い(ここで、「PDF出力」とは、閾値tiを超えはしないながらも、最大の値iについての値fF1(XD)である)。特徴ベクトルについての平均PDF出力についての閾値は、典型的には、たとえば、最大PDF出力の40%以下、20%超などである。しかし、この閾値はビデオデータの状態に敏感であるため、検出対偽陽性の所望のレベルを得るために、この閾値は経験的に調整されてもよい。この基準は、既知の顔の一つではない、すなわち未知の顔であることを確証する役割をする。
3)当該シーケンスについての特徴ベクトルXDの分散は小さい。これは、入力ベクトルのシーケンスに対して標準偏差を実行することによって入力ベクトルどうしの間の距離を計算することによって決定されうる。入力ベクトルどうしの間の標準偏差についての閾値は、典型的には、たとえば、0.2から0.5の範囲などである。しかし、この閾値はビデオデータの状態に敏感であるため、検出対偽陽性の所望のレベルを得るために、この閾値は経験的に調整されてもよい。この基準は、当該シーケンス中の諸入力ベクトルが同じ未知の顔に対応することを確証する役割をする。
4)上記の3つの条件が、ブロック20で入力された顔のシーケンスについてある時間期間(たとえば10秒)続く。
上記の最初の3つの基準は、当該セグメントを通じて同じ未知の顔であることを確証する役割をする。4番目の基準は、持続性、すなわち、どの未知の顔がMPNNを再トレーニングして含めさせるに値するものとして資格を有するかのめやすの役割をする。たとえばビデオ入力20の中で10秒以上続く未知の顔とした場合、短い時間期間、ビデオにちらっと現れる一過性の顔(群衆の顔、端役の俳優などに対応すると思われる)はオンライントレーニングから消去される。その顔の画像のサンプルについての特徴ベクトルXDがその時間区間を通じて保存され、オンライントレーニングが実行されるときに使用されてもよい。
当該シーケンスが連続的なある時間期間にわたって続く場合は、処理はストレートである。その場合、ビデオ入力20の諸顔セグメントについての特徴ベクトルXDの一部または全部がバッファメモリに保存され、最低時間期間を超えたら、さらにのちに述べるようなオンライントレーニングにおいて使用できる。そうでない場合、たとえば、ある顔が連続的でないビデオセグメントにおいて非常に短い時間期間にわたって現れるが、合わせれば最低時間期間を超えるということもありうる。(たとえば、会話に従事している役者の間ですばやいカットの切り換えが行われる場合。)その場合、持続性ブロック100における複数のバッファのそれぞれが、上記の条件1〜3で判定されるところのある特定の未知の顔についての未知の顔画像の特徴ベクトルを保存しうる。MPNNによって「未知」であると判定されるその後の顔画像は、基準1〜3によって判定されるところのその顔についての適切なバッファ中に保存される。(未知の顔が既存のバッファ中に見出される顔に対応しない場合には、新しいバッファに保存される。)ある特定の未知の顔についてのバッファが時間がたつにつれて、顔画像についての特徴ベクトルを蓄積して前記最低時間期間を超えるに十分になった場合、そのときには、持続性ブロック100はその特徴ベクトルを分類器トレーニング器80に向けて解放し、そのバッファ中の顔についてオンライントレーニング110ができるようにする。
未知の顔についての顔のシーケンスが、持続性基準(すなわち単一の持続性基準)を満たさないと判定された場合には、そのシーケンスの処理は打ち切られ、その未知の顔に関係するあらゆる保存されている特徴ベクトルおよびデータはメモリから破棄される(処理120)。上記のように画像セグメントが時間を追って種々の顔について種々のバッファに蓄積されている場合には、あるより長い時間期間(たとえば5分)後になっても時間を追って蓄積された顔画像が最低期間を超えない場合に、いかなる一つのバッファにあるデータも破棄されうる。
未知であると判定されるべきビデオ入力中の顔が前記持続性処理を満足させる場合、システム10はMPNN42のオンライントレーニング110を実行して、その未知の顔についてのカテゴリーを含めさせる。便宜上、以下の記述は、持続性ブロック100を満たす未知の顔「A」についてのオンライントレーニングに着目する。上記したように、顔Aの持続性の判定において、システムは、ビデオ入力20を介して受領した画像のシーケンスから、顔Aの諸画像についてのいくつかの特徴ベクトルXDを保存する。特徴ベクトルの数は、持続性判定において使用されるシーケンスにおけるAの顔の全部、あるいはサンプルについてでありうる。たとえば、顔Aのシーケンス中の10枚の画像についての入力ベクトルがトレーニングで使用されるのでもよい。
持続する顔Aについて、システム処理は顔Aを含めるために、トレーニング処理80に、この場合は顔分類器40のMPNN42のオンライントレーニング110に戻る。顔Aのためのオンライントレーニングにおいて使用される(たとえば)10個の特徴ベクトルは、当該シーケンス中の諸画像に対する全入力ベクトルのうちから分散が最小のもの、すなわちバッファ中の平均値に最も近い10個の入力ベクトルであってもよい。トレーニング器80のオンライントレーニングアルゴリズム110は、MPNN42をトレーニングして顔Aについての、前記画像のそれぞれについてのパターンノードを有する新しいカテゴリーFAを含めさせる。
新しいカテゴリーFAのオンライントレーニングは、サンプル顔画像70を使ったMPNN42の初期オフライントレーニングについてと同様の仕方で進行する。上記したように、顔Aの諸画像についての特徴ベクトルXDはすでにブロック35で抽出されている。よって、オフライントレーニングと同じ仕方で、分類器トレーニング器80はFAの特徴ベクトルを規格化し、それぞれをMPNN中のカテゴリーFAについての新しいパターンノードの重みベクトルWとして割り当てる。新しいパターンノードはFAについてのカテゴリーノードに結び付けられる。
図6は、図2のMPNNに新しいカテゴリーFAについての新しいパターンノードを加えたものを示している。新しく加えられたノードは、上で議論した既知の顔を使った初期オフライントレーニングで展開されたN個のカテゴリーおよび対応するパターンノードに追加されるものである。よって、FAについての第一のパターンノードに割り当てられた重みベクトルWA1は、ビデオ入力20を介して受領されるFAの第一の画像についての規格化された特徴ベクトルに等しい。FAについての第二のパターンノード(図示せず)に割り当てられた重みベクトルWA2は、FAの第二のサンプル画像についての規格化された特徴ベクトルに等しい。……そして、FAについての第n_Aのパターンノードに割り当てられた重みベクトルWAn_Aは、FAの第n_Aのサンプル画像についての規格化された特徴ベクトルに等しい。そのようなオンライントレーニングにより、顔AはMPNNにおいて「既知」の顔となる。MPNN42は今やその後のビデオ入力20における顔Aを、前記した図1の検出および分類処理を使って「既知」の顔であると判定することができる。ここでもまた、その後のビデオ入力20における顔画像Aが「既知」と判定されるというのは、MPNNのある顔カテゴリーFAに対応するという意味においてであることを注意しておく。これは必ずしも、顔Aの名前がシステム10に知られているという意味でその顔が「識別される」ことは意味しない。
入力ビデオ20において検出され、システム10によって前記した仕方で「未知」として分類された他の顔も同様に持続性処理100によって処理される。もし、持続性ブロックにおいて適用される一つまたは複数の基準が別の顔(たとえば顔B)によって満たされた場合は、そのときは、トレーニング器80は、顔Aについて上記したのと同じ仕方でMPNN42をオンライントレーニングする。オンライントレーニングののちには、MPNN42は顔Bについてのもう一つのカテゴリーを(対応するパターンノードとともに)含む。持続するさらなる未知の顔(C、Dなど)も同様にしてMPNNをオンライントレーニングするのに使用される。ひとたびMPNNがある顔についてトレーニングされたら、それはシステムにとっては「既知」である。ブロック20におけるビデオ入力におけるその顔のその後の画像は、MPNN42でその顔について新たに生成されたそのカテゴリーに対応すると判定されうる。
上述した実施形態はシステム中のビデオ入力20を利用する。しかし、当業者はここに記載された技術を、個人の画像ライブラリ、画像アーカイブなどからの離散的な画像(写真のような)を使うように適応させることが容易にできる。画像は、たとえば他の検索ソフトウェアを利用することによって、インターネット上の一つまたは複数のサイトからダウンロードされてもよい。ビデオ入力20の代わりに離散的な画像を使用することは、上記のシステムの若干の適応を必要とすることがありうるが、それは当業者には容易にわかることである。(たとえば、提供される画像が顔に限られていれば、顔検出30は飛ばしてもよい。)離散的な画像については、顔が未知と認識され、オンライントレーニング処理に含められるべきかどうかを判定するために他の基準が適用されることもある。たとえば、そのような基準の一つは、新しい顔が少なくとも、ユーザーによって指定されうるある最小回数出現するというものである。これは、画像についての類似「持続性基準」を提供する。
画像については、たとえばブロック100において持続式の基準の代替として「顕著」式の基準が使用されうる。たとえば、いくつかの画像のセットのうちである特定の顔を含んでいるのが一枚の画像しかなくても、その画像についてオンライントレーニングをすることが望ましいことがありうる。具体的な例として、ワシントンDCへの旅行中に撮った何百枚ものうち合衆国大統領と一緒に撮ったユーザーの一枚の写真があるかもしれない。持続性基準の適用では、この画像についてのオンライントレーニングが生じる可能性は低い。しかし、たとえば、重要であるそのような単発の顔画像の多くがきちんとした構図になっているか、そうでなければ大きく写っている、すなわち画像中で「顕著」であることはありそうなことである。よって、画像中の未知の顔の大きさがある所定の閾値よりも大きいか、あるいは少なくともMPNN42中にあるものと同じくらいの大きさである場合にオンライントレーニングが行われるようにしてもよい。一つまたは複数のそのような顕著性基準の適用はまた、画像中でより小さく、背景画像である可能性がより高い顔を排除するはたらきもする。
離散的な画像について一つまたは複数の顕著性基準を適用するのは、それだけで適用してもいいし、一つまたは複数の持続性基準と組み合わせて適用してもいいことを注意しておく。また、顕著性基準はビデオ入力にも、持続性基準の代替として、あるいは持続性基準とともに適用されうることも注意しておく。
本発明はいくつかの実施形態を参照して記載されてきたが、当業者には本発明が示され、記載されている特定の形に限定されないことは理解されるであろう。よって、形態および詳細におけるさまざまな変更を、付属の請求項によって定義される本発明の精神および範囲から外れることなく施すこともできる。たとえば、顔検出30のために本発明において使用されうる多数の代替的な技術がある。当技術分野において知られている顔検出の例示的な代替技術は、H. A. Rowley et al.による“Neurarl Network-Based Face Detection”, IEEE Transactions On Pattern Analysis and Machine Intelligence, vol. 20, no. 1, pp. 23-38 (Jan., 1998)においてさらに記載されている。
さらに、特徴抽出の他の諸技法が上述したVQヒストグラム技法の代替として使用されうる。たとえば、よく知られた「固有顔」技法が顔特徴を比較するために使用されうる。さらに、上述したオンライントレーニング技法が利用されうる顔分類のためには、上述したMPNNの代替として数多くのPNN分類の変形がある。また、上記の例示的な実施形態において使用されたMPNN技法の代替として(あるいは該技法とは離れて)使用されうる顔分類の数多くのその他の諸技法がある。たとえばRBF、ナイーブ・ベイジアン分類器(Naive Bayesian Classifier)および最近接分類器(nearest neighbor classifier)である。適切な持続性基準および/または顕著性基準を含むオンライントレーニング諸技法はそのような代替的な諸技法に合わせて容易に調整されうる。
また、たとえば、上述した実施形態は必ずしもNの異なるサンプル顔を用いて初期オフライントレーニングされる必要はない。初期MPNN42はオフライントレーニングされたノードを全く持たなくてもよく、一つまたは複数の持続性基準(または顕著性基準)を満たす顔によるオンラインのみのトレーニングを上記のような仕方でするのでもよい。
また、上で個別的に議論された以外の持続性基準も本発明の範囲内にはいる。たとえば、顔がビデオ入力に存在している必要のある閾値時間はビデオ内容、ビデオ中のシーンなどの関数であってもよい。よって、上で記載された特定の諸技法はあくまでも例であって、本発明の範囲を限定するものではない。
本発明の実施形態に基づくシステムを表すブロック図である。 図1のシステムのある異なるレベルを表す図である。 図1のシステムのあるコンポーネントの、初期にトレーニングされた修正されたPNNを示す図である。 図1のシステムのいくつかのコンポーネントをより詳細に表す図である。 図3におけるような特徴抽出コンポーネントによってある顔画像について作成されたベクトル量子化ヒストグラムである。 確率分布関数に基づいてある種の結果を示すのに使われる一次元の例を表す図である。 図4の例の修正を示す図である。 オンライントレーニングによって作成された新しいカテゴリーを含む、図2の修正PNNを示す図である。

Claims (24)

  1. 顔分類器を有するシステムであって、該顔分類器は、ビデオ入力中のある顔画像が該分類器に保存されている既知の顔のどれにも対応しない場合にその顔画像を未知であるという判定を提供し、当該システムは、前記未知の顔が前記ビデオ入力中で一つまたは複数の持続性基準に基づいて持続するときに、その未知の顔を前記分類器に追加する、ことを特徴とするシステム。
  2. 前記顔分類器が確率的ニューラルネットワーク(PNN)を有することを特徴とする、請求項1記載のシステム。
  3. 前記ビデオ入力中の顔画像が前記PNN中のあるカテゴリーに対応する場合には、前記ビデオ入力中の顔画像は既知の顔を有することを特徴とする、請求項2記載のシステム。
  4. 当該システムが、前記未知の顔についてのカテゴリーならびに一つまたは複数のパターンノードを前記PNNに追加することによって前記未知の顔を前記PNNに追加し、それにより前記未知の顔を当該システムにとって既知とすることを特徴とする、請求項3記載のシステム。
  5. 前記一つまたは複数の持続性基準が、同じ未知の顔がビデオ入力中である最小時間期間にわたって存在することを含むことを特徴とする、請求項2記載のシステム。
  6. 前記未知の顔がビデオ入力中で追跡されることを特徴とする、請求項5記載のシステム。
  7. 前記一つまたは複数の持続性基準が:
    a)ビデオ入力中の未知の顔のシーケンスが前記PNNによって判別され、
    b)前記顔のシーケンスについての特徴ベクトルの平均確率分布関数(PDF)値がある第一の閾値未満であり、
    c)前記顔のシーケンスの特徴ベクトルの分散がある第二の閾値未満であり、
    d)基準a、b、cがある最小時間期間にわたって満たされる、
    ことを含むことを特徴とする、請求項5記載のシステム。
  8. 前記最小時間期間が約10秒以上であることを特徴とする、請求項7記載のシステム。
  9. 前記PNNが、前記顔画像が未知の顔であるかどうかを判定する際に前記顔画像についての特徴ベクトルのPDF値にあるカテゴリーと関連して閾値を適用し、該閾値は前記カテゴリーのPDFに基づいて決定されることを特徴とする、請求項2記載のシステム。
  10. 前記閾値が前記カテゴリーのPDFの最大値のある割合であることを特徴とする、請求項9記載のシステム。
  11. 前記分類器に保存されているいくつかの既知の顔が、オフライントレーニングの間に保存された顔カテゴリーを含むことを特徴とする、請求項1記載のシステム。
  12. 前記分類器に保存されているすべての既知の顔が、ビデオ画像中で持続しており、当該システムによって前記分類器に加えられたものであることを特徴とする、請求項1記載のシステム。
  13. 顔認識の方法であって:
    a)ビデオ入力中のある顔画像が既知の顔の集合中の既知の顔に対応するかどうかを判定し、対応しなければその顔画像は未知であると判定し、
    b)前記未知の顔がビデオ画像中で持続するかどうかを一つまたは複数の持続性基準に基づいて判定し、
    c)ステップbの前記一つまたは複数の持続性基準が満たされるときに前記未知の顔を処理して前記集合中の既知の顔になるようにする、
    ステップを有することを特徴とする方法。
  14. 前記一つまたは複数の持続性基準が、同じ未知の顔がビデオ入力中にある最小時間期間にわたって存在していることを含むことを特徴とする、請求項13記載の方法。
  15. 請求項14記載の方法であって、前記一つまたは複数の持続性基準が、前記未知の顔をビデオ入力中である最小時間期間にわたって追跡することを含むことを特徴とする方法。
  16. 請求項14記載の方法であって、前記一つまたは複数の持続性基準が、次のこと、すなわち:
    i)ビデオ入力中に未知の顔のシーケンスがあること、
    ii)前記未知の顔のシーケンスの特徴ベクトルの平均確率分布関数(PDF)値がある第一の閾値未満であること、
    iii)前記顔のシーケンスについての特徴ベクトルの分散がある第二の閾値未満であること、
    が、ある最小時間期間にわたって満たされることを判定することを含むことを特徴とする方法。
  17. 前記顔が未知であると判定することが、前記顔画像についての特徴ベクトルのPDF値がある顔カテゴリーと関連してある閾値未満であることを判定することを含み、該閾値が前記カテゴリーのPDFに基づいていることを特徴とする、請求項13記載の方法。
  18. 前記既知の顔の集合が初期に全く既知の顔を含まないことを特徴とする、請求項13記載の方法。
  19. 顔分類器を有するシステムであって、該顔分類器は、入力画像中のある顔画像が該分類器に保存されている既知の顔のどれにも対応しない場合にその顔画像を未知であるという判定を提供し、当該システムは、前記未知の顔が前記入力画像中で:一つまたは複数の持続性基準と一つまたは複数の顕著性基準とのうちの少なくとも一方を満たすときに、その未知の顔を前記分類器に追加する、ことを特徴とするシステム。
  20. 前記入力画像が画像アーカイブによって提供されることを特徴とする、請求項19記載のシステム。
  21. 前記入力画像が一つまたは複数の位置で撮影された画像であることを特徴とする、請求項19記載のシステム。
  22. 前記一つまたは複数の持続性基準が、同じ未知の顔がある最低数の入力画像中に存在することを判定することを含むことを含むことを特徴とする、請求項19記載のシステム。
  23. 前記一つまたは複数の持続性基準が、ある未知の顔が少なくとも一つの画像において少なくともある閾値サイズを有することを判定することを含むことを特徴とする請求項19記載のシステム。
  24. 前記入力画像が、ビデオ画像および離散的画像のうちの少なくとも一方であることを特徴とする、請求項19記載のシステム。
JP2006550478A 2004-02-02 2005-01-31 オンライン学習を用いた連続的な顔認識 Expired - Fee Related JP4579931B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US54120604P 2004-02-02 2004-02-02
US63737004P 2004-12-17 2004-12-17
PCT/IB2005/050399 WO2005073896A1 (en) 2004-02-02 2005-01-31 Continous face recognition with online learning

Publications (2)

Publication Number Publication Date
JP2007520010A JP2007520010A (ja) 2007-07-19
JP4579931B2 true JP4579931B2 (ja) 2010-11-10

Family

ID=34830516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006550478A Expired - Fee Related JP4579931B2 (ja) 2004-02-02 2005-01-31 オンライン学習を用いた連続的な顔認識

Country Status (6)

Country Link
US (1) US20090196464A1 (ja)
EP (1) EP1714233A1 (ja)
JP (1) JP4579931B2 (ja)
KR (2) KR20060129366A (ja)
TW (1) TW200539046A (ja)
WO (1) WO2005073896A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
JP4577113B2 (ja) 2005-06-22 2010-11-10 オムロン株式会社 対象決定装置、撮像装置および監視装置
KR100866792B1 (ko) * 2007-01-10 2008-11-04 삼성전자주식회사 확장 국부 이진 패턴을 이용한 얼굴 기술자 생성 방법 및장치와 이를 이용한 얼굴 인식 방법 및 장치
US7840061B2 (en) * 2007-02-28 2010-11-23 Mitsubishi Electric Research Laboratories, Inc. Method for adaptively boosting classifiers for object tracking
US7991199B2 (en) * 2007-06-29 2011-08-02 Microsoft Corporation Object identification and verification using transform vector quantization
KR101378372B1 (ko) * 2007-07-12 2014-03-27 삼성전자주식회사 디지털 이미지 처리장치, 그 제어방법 및 제어방법을실행시키기 위한 프로그램을 저장한 기록매체
US7949621B2 (en) 2007-10-12 2011-05-24 Microsoft Corporation Object detection and recognition with bayesian boosting
US8099373B2 (en) 2008-02-14 2012-01-17 Microsoft Corporation Object detector trained using a working set of training data
KR101527408B1 (ko) * 2008-11-04 2015-06-17 삼성전자주식회사 얼굴 표정 검출 방법 및 시스템
US20100259683A1 (en) * 2009-04-08 2010-10-14 Nokia Corporation Method, Apparatus, and Computer Program Product for Vector Video Retargeting
US8712109B2 (en) * 2009-05-08 2014-04-29 Microsoft Corporation Pose-variant face recognition using multiscale local descriptors
US8903798B2 (en) 2010-05-28 2014-12-02 Microsoft Corporation Real-time annotation and enrichment of captured video
NL2004829C2 (en) * 2010-06-07 2011-12-08 Univ Amsterdam Method for automated categorization of human face images based on facial traits.
US20110304541A1 (en) * 2010-06-11 2011-12-15 Navneet Dalal Method and system for detecting gestures
US8744523B2 (en) * 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Method and system for interactive home monitoring
US8559682B2 (en) * 2010-11-09 2013-10-15 Microsoft Corporation Building a person profile database
US9678992B2 (en) 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
JP5789128B2 (ja) * 2011-05-26 2015-10-07 キヤノン株式会社 画像処理装置、画像データの処理方法およびプログラム
US8769556B2 (en) * 2011-10-28 2014-07-01 Motorola Solutions, Inc. Targeted advertisement based on face clustering for time-varying video
KR20130085316A (ko) * 2012-01-19 2013-07-29 한국전자통신연구원 원거리 사람 식별을 위한 다중 카메라 기반의 얼굴영상 획득 장치
JP5995610B2 (ja) * 2012-08-24 2016-09-21 キヤノン株式会社 被写体認識装置及びその制御方法、撮像装置、表示装置、並びにプログラム
US8965170B1 (en) * 2012-09-04 2015-02-24 Google Inc. Automatic transition of content based on facial recognition
US9471675B2 (en) * 2013-06-19 2016-10-18 Conversant Llc Automatic face discovery and recognition for video content analysis
US9159137B2 (en) * 2013-10-14 2015-10-13 National Taipei University Of Technology Probabilistic neural network based moving object detection method and an apparatus using the same
US10043112B2 (en) * 2014-03-07 2018-08-07 Qualcomm Incorporated Photo management
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
TWI797699B (zh) * 2015-12-22 2023-04-01 以色列商應用材料以色列公司 半導體試樣的基於深度學習之檢查的方法及其系統
US10353972B2 (en) * 2016-05-26 2019-07-16 Rovi Guides, Inc. Systems and methods for providing timely and relevant social media updates for a person of interest in a media asset who is unknown simultaneously with the media asset
US20180124437A1 (en) * 2016-10-31 2018-05-03 Twenty Billion Neurons GmbH System and method for video data collection
US10057644B1 (en) * 2017-04-26 2018-08-21 Disney Enterprises, Inc. Video asset classification
CN107330904B (zh) * 2017-06-30 2020-12-18 北京乐蜜科技有限责任公司 图像处理方法、装置、电子设备及存储介质
JP2020533702A (ja) 2017-09-13 2020-11-19 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 対象者識別システム及び方法
TWI662511B (zh) * 2017-10-03 2019-06-11 財團法人資訊工業策進會 階層式影像辨識方法及系統
US11232287B2 (en) 2017-10-27 2022-01-25 Koninklijke Philips N.V. Camera and image calibration for subject identification
CN110163032B (zh) * 2018-02-13 2021-11-16 浙江宇视科技有限公司 一种人脸检测方法及装置
US20190279043A1 (en) 2018-03-06 2019-09-12 Tazi AI Systems, Inc. Online machine learning system that continuously learns from data and human input
US11735018B2 (en) 2018-03-11 2023-08-22 Intellivision Technologies Corp. Security system with face recognition
US10747989B2 (en) * 2018-08-21 2020-08-18 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
CN111061912A (zh) * 2018-10-16 2020-04-24 华为技术有限公司 一种处理视频文件的方法及电子设备
US11157777B2 (en) 2019-07-15 2021-10-26 Disney Enterprises, Inc. Quality control systems and methods for annotated content
EP3806015A1 (en) * 2019-10-09 2021-04-14 Palantir Technologies Inc. Approaches for conducting investigations concerning unauthorized entry
US11645579B2 (en) 2019-12-20 2023-05-09 Disney Enterprises, Inc. Automated machine learning tagging and optimization of review procedures
KR102481555B1 (ko) * 2020-12-29 2022-12-27 주식회사 테라젠바이오 유전정보 기반 미래 얼굴 예측 방법 및 장치
US11933765B2 (en) * 2021-02-05 2024-03-19 Evident Canada, Inc. Ultrasound inspection techniques for detecting a flaw in a test object
JP2024507849A (ja) * 2021-02-22 2024-02-21 ロブロックス・コーポレーション ニューラルネットワークを使用したビデオからのロバストな顔面アニメーション

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
US5680481A (en) * 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
JPH06231258A (ja) * 1993-01-29 1994-08-19 Video Res:Kk ニューラルネットワークを用いた画像認識装置
JP3315888B2 (ja) * 1997-02-18 2002-08-19 株式会社東芝 動画像表示装置および表示方法
JP2002157592A (ja) * 2000-11-16 2002-05-31 Nippon Telegr & Teleph Corp <Ntt> 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体
US20020136433A1 (en) * 2001-03-26 2002-09-26 Koninklijke Philips Electronics N.V. Adaptive facial recognition system and method
TW505892B (en) * 2001-05-25 2002-10-11 Ind Tech Res Inst System and method for promptly tracking multiple faces
US7308133B2 (en) * 2001-09-28 2007-12-11 Koninklijke Philips Elecyronics N.V. System and method of face recognition using proportions of learned model
US6925197B2 (en) * 2001-12-27 2005-08-02 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
KR100438841B1 (ko) * 2002-04-23 2004-07-05 삼성전자주식회사 이용자 검증 및 데이터 베이스 자동 갱신 방법, 및 이를이용한 얼굴 인식 시스템
US7227976B1 (en) * 2002-07-08 2007-06-05 Videomining Corporation Method and system for real-time facial image enhancement
GB2395779A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
JP4230870B2 (ja) * 2003-09-25 2009-02-25 富士フイルム株式会社 動画記録装置、動画記録方法、及びプログラム

Also Published As

Publication number Publication date
KR20060129366A (ko) 2006-12-15
TW200539046A (en) 2005-12-01
EP1714233A1 (en) 2006-10-25
WO2005073896A1 (en) 2005-08-11
US20090196464A1 (en) 2009-08-06
KR20060133563A (ko) 2006-12-26
JP2007520010A (ja) 2007-07-19

Similar Documents

Publication Publication Date Title
JP4579931B2 (ja) オンライン学習を用いた連続的な顔認識
JP4767595B2 (ja) 対象物検出装置及びその学習装置
RU2427911C1 (ru) Способ обнаружения лиц на изображении с применением каскада классификаторов
Salimi et al. Visual-based trash detection and classification system for smart trash bin robot
EP2088535B1 (en) Image processing apparatus and method, and program
JP2006268825A (ja) オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
Filali et al. Multiple face detection based on machine learning
US20100290700A1 (en) Information processing device and method, learning device and method, programs, and information processing system
Huang et al. Detection of human faces using decision trees
Hafemann et al. Meta-learning for fast classifier adaptation to new users of signature verification systems
US8478055B2 (en) Object recognition system, object recognition method and object recognition program which are not susceptible to partial concealment of an object
US20200293807A1 (en) Adaptive image cropping for face recognition
KR102195940B1 (ko) 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
Savchenko Facial expression recognition with adaptive frame rate based on multiple testing correction
CN100474328C (zh) 具有在线学习能力的连续面貌识别系统及方法
Karim et al. Customer and target individual face analysis for retail analytics
JP2008140093A (ja) 異常事象抽出装置、異常事象抽出方法、この方法のプログラム及びこのプログラムを記録した記録媒体
US20220198781A1 (en) Device and method for training a classifier
Fan et al. Online face recognition system for videos based on modified probabilistic neural networks
Ghoualmi et al. Feature Selection Based on Machine Learning Algorithms: A weighted Score Feature Importance Approach for Facial Authentication
JP2021170333A (ja) 分類器をトレーニングするための装置及び方法
Snidaro et al. Fusion of heterogeneous features via cascaded on-line boosting
Kundu et al. A modified RBFN based on heuristic based clustering for location invariant fingerprint recognition and localization with and without occlusion
Patidar et al. Robust face recognition using artificial neural network
Chen et al. Novel Continuous-multi-class Cascade for Real-Time Emotional Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100826

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees