JP4616702B2 - 画像処理 - Google Patents

画像処理 Download PDF

Info

Publication number
JP4616702B2
JP4616702B2 JP2005158090A JP2005158090A JP4616702B2 JP 4616702 B2 JP4616702 B2 JP 4616702B2 JP 2005158090 A JP2005158090 A JP 2005158090A JP 2005158090 A JP2005158090 A JP 2005158090A JP 4616702 B2 JP4616702 B2 JP 4616702B2
Authority
JP
Japan
Prior art keywords
images
face
image
image processing
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005158090A
Other languages
English (en)
Other versions
JP2006031678A (ja
Inventor
マーク ステファン ポーター、ロバート
ラテュナ ランバルス、
サイモン ドミニク ヘインズ、
ジョナサン リビング、
ヘンリー クライブ ジラード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Europe BV United Kingdom Branch
Original Assignee
Sony United Kingdom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony United Kingdom Ltd filed Critical Sony United Kingdom Ltd
Publication of JP2006031678A publication Critical patent/JP2006031678A/ja
Application granted granted Critical
Publication of JP4616702B2 publication Critical patent/JP4616702B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Description

本発明は、オブジェクト検出の分野に適用できる画像処理に関する。
人間の顔を検出する顔検出アルゴリズム等の多くのオブジェクト検出アルゴリズムが様々な文献で提案されており、これらには、所謂固有顔(eigenfaces)法、顔テンプレートマッチング法、変形可能なテンプレートマッチング(deformable template matching)法又はニューラルネットワーク分類法を使用する手法等がある。これらの何れの手法も完全ではなく、通常、付随した利点及び欠点を有する。何れの手法も、画像が顔を含むことを確実な信頼性を持って示すことはなく、全て確率論的な判断(probabilistic assessment)に基づいており、すなわち画像が少なくとも顔を含むある可能性(likelihood)があるという画像の数学的解析に基づいている。それらの用途に従い、アルゴリズムは、通常、顔の誤検出を避けようとするために極めて高く設定された尤度の閾値(threshold likelihood value)を有する。
捕捉された画像のシーケンスを含むビデオマテリアルにおける顔検出は、静止画像における顔検出に比べて、より複雑である。この場合、特に、何らかの手法によって、シーケンス内の1つの画像において検出された顔をシーケンス内の他の画像において検出された顔にリンクすることが望ましい。ここで、これらの2つの顔が同じ顔である(可能性がある)か、同じ画像のシーケンスに偶然出現した2つの異なる顔である(可能性がある)かを判定する必要がある。
このようなシーケンスに亘って顔を「追跡」する一手法として、連続する画像内の2つの顔が同じ又は非常に近い位置に出現してるか否かを判定する手法がある。但し、この手法は、顔検出スキームの確率に依存する性質に起因する問題を孕んでいる。例えば、(顔検出の判定のための)確率閾値を高く設定すると、その顔の本人が顔を横に向けたり、顔の一部が隠されたり、本人が鼻を掻いたり、又は他の様々な原因により、実際には顔が存在している幾つかの画像シーケンスが、アルゴリズムによって検出されなくなる。一方、確率閾値を低く設定すると、誤検出確率が高くなり、顔ではないオブジェクトが画像のシーケンス全体に亘って追跡されてしまう虞がある。これらの問題を解決するために、係属中の国際特許出願PCT/GB2003/005168号では、顔検出、色マッチング及び位置予測の組合せに基づいて追跡を決定する合成追跡処理(composite tracking procedure)を提案している。
追跡処理の目的は、追跡されている同じ顔に対応する一連のリンクされた画像領域を生成することである。但し、追跡される一連の画像の数が非常に多くなることもある。例えば、ニュース番組又はトークショー等のテレビ番組に関して顔が追跡される場合、その顔が追跡されるビデオマテリアルは、数分間も続く場合がある。また、ケーブルテレビ(closed circuit television:以下、CCTVという。)システム又はビデオ会議システムのコンテキストで顔が追跡される場合にも同様にデータ量が大量になることがある。
したがって、追跡された一連の画像から代表となる画像又は顔画像のグループを選択することが望ましい場合もある。
ビデオクリップから単一の「代表キースタンプ(representative key stamp)」画像を導出する手法が提案されている。この手法では、クリップ内の他の画像との共通点が最も多い単一の画像を導出する。同様の技術を用いて、追跡された一連の顔画像から代表する画像を生成する手法も提案されている。
本発明に係る画像処理方法は、nを2以上の数として、検査する画像のセットを代表するn個の画像のサブセットを選択する画像処理方法において、検査する画像のセット内の画像間の類似性の度合いを検出し、画像のサブセットがセット内の他の画像との間で実質的に最も低い類似性を有するn個の画像を含むようにするステップを有する。
本発明は、追跡されたオブジェクトを代表する画像のグループを生成する場合、互いに類似することが検出された画像を選択することは実際上、有益ではないという点に着目した。
一具体例として、2つのシーケンスが互いに同じオブジェクトに関連しているか否かを検出するために、2つの異なる追跡シーケンスから一組の代表画像が必要となる場合がある。この構成では、代表画像が追跡されたオブジェクトの様々な角度からの画像をカバーしている場合、2つの追跡されたシーケンスが互いに関係しているか否かを首尾よく(及び正しく)検出できる可能性が高まる。
他の具体例として、CCTV、テレビジョン又はテレビ会議システムからの長いシーケンスにおいて、(例えば、ビデオマテリアルの概要を示す部分、すなわち所謂「メタデータ」として、又はビデオマテリアルに伴う更なるデータとして)追跡されたオブジェクト(例えば、顔)の代表画像の組を生成する場合、同じような向きの画像を複数用いるよりも、この組が異なる角度からの画像をカバーしている方が効果的である。
上述した先に提案されている技術は、単一の代表画像のみを特定する場合にのみ適切であるが、この技術は、一組の(2つ以上の)代表画像を生成するように拡張しようとした場合、却って不利益を生じる場合がある。
本発明では、このようなグループに含ませる代表画像を選択するために「非類似性」を検査することによってこの問題を解決する。
本発明のこの他の様々な側面及び特徴は添付の特許請求の範囲に記載されている。
図1〜図9cを用いて、国際特許出願PCT/GB2003/005186号に開示されている技術について説明する。ここに開示する技術的特徴の詳細については、この特許文献に開示されている。国際特許出願PCT/GB2003/005186号に開示されている特徴は、以下の説明に明示されていなくとも、本発明に基づく検出装置の(少なくとも任意の)特徴であるとみなされる。
様々な技術の目的として、以下では、人間の顔の検出及び/又は追跡(tracking)について説明する。但し、本発明の技術は、多くの異なる種類のオブジェクトの検出及び/又は追跡に適用することができる。例えば、本発明は、自動車の検出にも適用することができる。すなわち、以下の顔を用いた説明は、単に、本発明をより明瞭に開示するためのフレームワークを例示しているに過ぎない。以下の記述において用いる用語「顔」は、本発明を制限する意味で解釈されることはない。
図1は、顔検出システム及び/又は非線形編集システムとして用いる汎用コンピュータ装置のブロック図である。コンピュータ装置は、処理ユニット10を備え、処理ユニット10は、中央処理装置(CPU)20と、ランダムアクセスメモリ(RAM)のようなメモリ30と、ディスクドライブ40のような不揮発性記憶装置と、他の通常の構成要素とを備える。コンピュータ装置は、ローカルエリアネットワーク又はインターネット(或いは両方)のようなネットワーク50に接続している。また、コンピュータシステムは、キーボード60と、マウス又は他のユーザ入力デバイス70と、表示画面80とを備える。当業者には、汎用コンピュータ装置がここで記載していない多くの他の従来の部品を含むことは、明らかである。
図2は、顔検出に用いるビデオカメラレコーダ(カムコーダ)のブロック図である。カムコーダ100は、画像を電荷結合素子(CCD)からなる画像捕捉素子120上に合焦点するレンズ110を備える。電子的な形式で得られる画像は、テープカセットのような記録媒体140に記録するために画像処理回路130によって処理される。また、画像捕捉素子120によって捕捉された画像は、アイピース160を介して見られるユーザ表示画面150上に表示される。
画像と関連している音を捕捉するために、1つ以上のマイクロホンが用いられる。これらのマイクロホンは、フレキシブルケーブルによってカムコーダ100に接続され、或いはカムコーダ100の本体に搭載されるという意味で、外部マイクロホンであるとも言える。1台以上のマイクロホンからのアナログオーディオ信号は、記録媒体140に記録するための適切なオーディオ信号を生成するために、オーディオ処理回路170によって処理される。
なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式の何れか、或いは両方の形式で記録媒体140に記録することができる。したがって、画像処理回路130及びオーディオ処理回路170は、アナログ/デジタル変換器を備えていてもよい。
カムコーダ100のユーザは、レンズ110に電気的制御信号200を送るようにレンズ制御回路190に作用するユーザ制御180によって、レンズ110の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。
更に、2個のユーザ操作子を説明する。記録媒体140への記録を開始し、中止するために押しボタン210が設けられている。例えば、押しボタン210を1回押したときに記録を開始し、もう1回押したときに記録を中止することができる。或いは、押した状態を維持することにより記録を行い、又はある時間、例えば5秒間押すことにより記録を開始するようにしてもよい。これらの如何なる構成においても、始めと終わりがある各「撮影(shot)」(連続した記録期間)に対するカムコーダ100の記録操作の確認は、技術的に非常に簡単である。
図2に示す「素晴らしい撮影マーカ(good shot marker:以下、GSMという。)」220は、ユーザによって操作され、これにより、ビデオ及びオーディオマテリアルに関連した「メタデータ」(関連データ)が記録媒体140に格納される。この特別の撮影は、ある観点で「素晴らしい(good)」と操作者によって主観的にみなされたこと(例えば、俳優が特によく演じた、ニュースリポータが各言葉を正しく発音した等)を示している。
メタデータは、記録媒体140上の予備領域(例えば「ユーザデータ」領域)に、用いられている特定のフォーマット及び規格に依存して、記録される。或いは、メタデータはリムーバブルメモリスティック(登録商標)のメモリ(図示せず)のような別個の記録媒体に格納することができ、或いはメタデータは、例えば無線リンク(図示せず)によって通信する外部データベース(図示せず)に格納することもできる。メタデータには、GSMの情報だけでなく、撮影条件(shot boundaries)、レンズの属性、ユーザ(例えばキーボード(図示せず))による文字情報入力、全地球測位システム受信機(図示せず)からの地理的位置情報等が含まれてもよい。
以上、メタデータを記録可能なカムコーダについて説明した。次に、このようなカムコーダに顔検出を適用する方法について説明する。
カムコーダ100は、顔検出器構成230を備える。適切な構成のより詳細は、後に説明するが、顔検出器230は、画像処理回路130から画像が供給され、このような画像が1つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器230は、顔検出データを、「yes/no」フラグの形式で、或いは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。
後述するように、顔検出は、検出処理における他の種類のメタデータを用いることにより、助けられる。例えば、顔検出器230は、レンズ110の現在のフォーカス及びズーミング設定を示すレンズ制御回路190からの制御信号が供給される。これらは、画像のフォアグラウンドで表示されるあらゆる顔の予想される画像サイズの初期の表示を与えることによって、顔検出器2130を補佐することができる。なお、この観点では、フォーカス及びズーミングの設定は、カムコーダ100と撮影されている個人との予想される距離、更にはレンズ110の倍率を表している。これらの2つの属性からの顔の大きさの平均に基づいて、得られる画像データ内における顔の予想される大きさ(画素)を算出することができる。
従来の(既知の)音声検出器240は、オーディオ処理回路170からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標(indicator)で示すことができる。
最終的に、撮影境界(shot boundaries)及びユーザによって最も有益であるとみなされるそれらの撮影を示すGSM情報220及び撮影情報(制御210から)は、顔検出器230に供給される。
勿論、カムコーダがアナログ記録技術に基づく場合、画像及びオーディオ情報を処理するために、更なるアナログ/デジタル変換器(以下、A/D変換器という。)が必要とされる。
図3は、ビデオ会議システムの構成を示している。2つのビデオ会議ステーション1100、1110は、例えば、インターネット、ローカルエリア又はワイドエリアネットワーク、電話回線、高ビットレート専用回線、ISDN回線等であるネットワーク接続1120を介して接続される。各ビデオ会議ステーション1100、1110は、基本的には、カメラ及び関連する送信装置1130と、表示及び関連する受信装置1140とを備える。テレビ会議システムの参加者は、カメラに撮像され、各ステーションに表示され、参加者の声は、各ステーションにおける1つ以上のマイクロホン(図3には示していない)に入力される。オーディオ及びビデオ情報は、ネットワーク1120を介して他方のステーションの受信機1140に伝送される。この他方のステーションにおいて、カメラによって撮像された画像が表示され、参加者の声は、スピーカ等の装置から再生される。
なお、ここでは、説明を簡潔にするために、2つのステーションを示しているが、2つ以上のステーションがテレビ会議システムに参加してもよい。
図4は、1つのカメラ/送信装置1130を1つの表示/受信装置1140に接続する1つのチャンネルを示している。
カメラ/送信装置1130は、ビデオカメラ1150と、上述した技術を用いた顔検出器1160と、画像プロセッサ1170と、データフォーマッタ及び送信機1180とを備える。マイクロホン1190は、参加者の声を検出する。
オーディオ、ビデオ、及び(オプションとして)メタデータ信号は、フォーマッタ及び送信機1180からネットワーク接続1120を介して表示/受信装置1140に送信される。また、ネットワーク接続1120を介して表示/受信装置1140から制御信号を受信してもよい。
表示/受信装置は、例えば、表示画面及び関連する電子回路を含む表示及び表示プロセッサ1200と、ユーザ操作子1210と、例えばデジタル−アナログ変換器(DAC)、増幅器及びスピーカを含むオーディオの出力構成1220とを備える。
包括的に言えば、顔検出器1160は、カメラ1150によって撮像された画像内の顔を検出(及び任意の機能として追跡)する。顔検出は、制御信号として画像プロセッサ1170に供給される。画像プロセッサは、以下に説明するように、様々な異なる手法で動作させることができるが、基本的には、画像プロセッサ1170は、カメラ1150によって撮像された画像をネットワーク1120を介して送信する前に処理する。この処理の主な目的は、ネットワーク接続1120の帯域幅又はビットレートを有効に活用することである。ここで、殆どの商業用途において、テレビ会議システムに適するネットワーク接続1120のコストは、ビットレートの要求に伴って高くなる。フォーマッタ及び送信機1180は、画像プロセッサ1170からの画像と、マイクロホン1190からの(例えば、アナログ−デジタル変換器(ADC)を介して、変換された)オーディオ信号と、オプションとして、画像プロセッサ1170によって行われた処理の性質を定義するメタデータとを結合する。
図5は、更なるビデオ会議システムの構成を示す図である。ここで、顔検出器1160、画像プロセッサ1170、フォーマッタ及び送信機1180、表示及び表示プロセッサ1200の処理機能は、プログラミング可能なパーソナルコンピュータ1230によって実現される。表示画面(1200の一部)に表示されている画面は、顔検出及び追跡を用いたビデオ会議の1つの可能なモードを示しており、このモードでは、顔を含んでいる画像部分のみが一方の場所から他方の場所に送信され、この他方の場所において、タイル形式又はモザイク形式で表示される。この動作モードについては、後に説明する。
この実施例では、2段階の顔検出技術を用いる。図6は、トレーニング段階を具体的に説明する図であり、図7は、検出段階を具体的に説明する図である。
以前に提案された顔検出方法と異なり、この方法は、全体としてではなく顔の一部のモデリングに基づいている。顔の一部は、顔の特徴(所謂「選択サンプリング(selective sampling)」)の推定位置上の中心のブロック、又は顔の通常間隔でサンプリング(所謂「標準サンプリング(regular sampling)」)されたブロックである。ここでは、主に、経験的検定で良い結果が得られた標準サンプリングについて説明する。
トレーニング段階では、解析処理を、顔を含むことが知られている一組の画像に、及び(オプションとして)顔を含まないことが知られている画像(「顔でない画像(nonface images)」)の別のセットに適用する。この処理は、顔の異なる角度(例えば、正面、左側、右側)を表す顔データの複数のトレーニング用の組について繰り返すことができる。解析処理は、検定画像を後に(検出段階で)比較することができる顔及び顔でない特徴の数学的モデルを構築する。
したがって、数学的モデル(図6のトレーニング処理310)を構築するための基本的な手順は次の通りである。
1.同じ目位置を有するように正規化された顔の画像のセット300の各顔を、小さいブロックに一様にサンプリングする。
2.各ブロックの属性を算出する。
3.属性を、異なる値の処理しやすい数に量子化する。
4.次に、量子化属性を、そのブロック位置に関して1つの量子化値を生成するために組み合わせる。
5.そして、1つの量子化値を、エントリとしてヒストグラム、ヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報320は、顔の特徴の数学的モデルの基礎を形成する。
上述のステップを多数の検定顔画像について繰り返すことによって、1つのそのようなヒストグラムを、各可能なブロック位置に対して作成する。そこで、8×8ブロックの配列を用いる方式では、64個のヒストグラムを準備する。処理の後半部において、検定する量子化属性を、ヒストグラムのデータと比較する。データをモデル化するために全部のヒストグラムを用いるという事実は、例えばガウス分布又は他の分布を後にパラメータ化するか否かと仮定する必要はないことを意味する。データ記憶空間(必要ならば)を節約するために、同じヒストグラムが異なるブロック位置に対して再生利用できるように、類似しているヒストグラムを併合することができる。
検出段階で、検定画像350を顔検出器340で処理するために、検定画像340内の連続したウィンドウを、以下のように処理する。
6.ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ1〜4のように量子化する。
7.各ブロック位置の量子化属性値の対応する「確率(probability)」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラム(異なる角度を表す複数のトレーニング用の組がある場合には、複数のヒストグラム)と比較する。ヒストグラムが「確率」データを高める方法については後述する。
8.得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出(所謂誤検出(false positive))してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出(所謂見逃し検出(false negative))してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。
上述のように、トレーニング段階において、一組の「顔でない」画像は、「顔でない」ヒストグラムの対応するセットを生成するために用いることができる。そして、顔の検出を達成するために、顔でないヒストグラムから生成される「確率」を、個々の閾値と比較し、検定ウィンドウが顔を含むためには、確率が閾値以下でなければならない。代わりに、顔でない確率に対する顔確率の比を、閾値と比較することができる。
元のトレーニングセットを例えば位置、方向、大きさ、アスペクト比、背景の風景、照明の明るさ及び周波数成分(frequency content)の変化等の「合成変化(synthetic variations)」330で処理することによって、特別な(extra)トレーニングデータを生成することができる。
以下、顔検出装置の更なる改善について説明する。
顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。
追跡アルゴリズムの初期の目標は、画像シーケンスの全てのフレームにおける全ての顔を検出することである。しかしながら、時々、シーケンス内の顔が検出できないことが認められる。これらの環境で、追跡アルゴリズムは、見逃した顔検出全体で補間するように補佐することができる。
最終的に、顔追跡の目標は、画像シーケンスにおいて同じシーンに属しているフレームの各セットから有効なメタデータを出力できることである。このメタデータには、以下のものが含まれる。
・顔の数。
・各顔の「顔写真(Mugshot)」(個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている)。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別(前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの)−顔の識別には、顔の認識も必要とされる。
追跡アルゴリズムは、顔検出アルゴリズムの結果を用い、画像シーケンスの各フレーム上で、その開始位置として独立して実行される。顔検出アルゴリズムは時々顔を逃がす(検出しない)こともあるので、見逃した顔を内挿する(interpolating)方法は有効である。このために、顔の次の位置を予測するためにカルマンフィルタ(Kalman filter)を用い、顔追跡を助けるために、肌色マッチングアルゴリズム(skin colour matching algorithm)を用いた。更に、顔検出アルゴリズムが頻繁に誤った採用の原因となるので、また、これらを排除する方法は有効である。
このアルゴリズムを、図8に示す。
要約すると、入力ビデオデータ545(画像シーケンスを表す)がこの出願で説明される種類の検出器540及び肌色マッチング検出器550に供給される。顔検出器540は、各画像内で1つ以上の顔を検出することを試みる。顔が検出されると、カルマンフィルタ560が起動され、その顔の位置を追跡する。カルマンフィルタ560は、画像シーケンスにおける次の画像内で同じ顔の予測される位置を生成する。目の位置比較器570、580は、顔検出器540が次の画像内のその位置(或いは、その位置からある閾値距離の範囲内)で顔を検出したかを、検出する。顔が検出された場合、その検出された顔位置は、カルマンフィルタを更新するために用いられ、処理が続けられる。
顔が予測された位置で、或いは近くで検出されない場合、肌色マッチング回路550を用いる。肌色マッチング回路550は、厳密でない顔検出技術であり、その検出の閾値は顔検出器540よりも低く設定され、顔検出器540がその位置で顔があると検出することができないときでさえ、顔を検出する(顔があるとみなす)ことができる。肌色マッチング回路550によって「顔」が検出されると、その位置がカルマンフィルタ560に更新された位置として供給され、処理が続けられる。
顔検出器450又は肌色マッチング回路550によって一致が検出されないときは、カルマンフィルタを更新するために予測された位置を用いる。
これらの結果の全ては、判定基準(下記参照)に対する対象である。したがって、例えば、1つの正しい検出に基づきシーケンスを通して追跡される顔、及び予測の残り又は肌色検出の残りは、破棄する。
追跡アルゴリズムにおいて各顔を追跡するために、それぞれ独立したカルマンフィルタを用いる。
なお、追跡処理は、必ずしもビデオシーケンスを時間的に順方向に追跡する必要はない。画像データにアクセス可能であれば(すなわち、処理が実時間ではなく、又は画像データが時間的に継続する用途のためにバッファリングされている場合)、追跡処理を時間的に逆方向に行うこともできる。又は、第1の顔が検出された場合(多くの場合ビデオシーケンスの途中で検出される)、追跡処理は、時間的に順方向及び逆方向の両方について開始してもよい。更なる任意の処理として、追跡処理は、ビデオシーケンス全体に亘って、時間的に順方向及び逆方向の両方について実行し、これらの追跡の結果を組み合わせて(例えば)許容基準に適合する追跡された顔が、追跡が実行された何れの方向についても有効な結果として含ませてもよい。
追跡アルゴリズムの利点
顔追跡法は、以下のような3つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める(fill in)ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。
図9a〜図9cは、ビデオシーケンスに適用される顔追跡を説明する図である。
具体的には、図9aは、連続するビデオ画像(例えば、フィールド又はフレーム)810から構成されるビデオシーン800を図式的に示している。
この具体例では、画像810は、1又は複数の顔を含んでいる。詳しくは、このシーン内の全ての画像810は、画像810の図式的表現内における左上に示す顔Aを含んでいる。更に、一部の画像810は、画像810の図式的表現内における右下に示す顔Bを含んでいる。
この図9aに示すシーンに顔追跡処理を適用したとする。顔Aは、当然、シーン全体に亘って追跡される。1つの画像820においては、直接検出によっては顔は追跡されていないが、上述した色マッチング法及びカルマンフィルタリング法により、「見逃された(missing)」画像820の前後の両側について、検出が連続していることを示唆する。図9bは、検出された、各画像内に顔Aが存在する確率を示しており、図9cは、顔Bが存在する確率を示している。顔Aに対する追跡と、顔Bに対する追跡とを区別するために、各追跡には、(少なくともこのシステム内における他の追跡に関して)固有の識別番号が与えられる。
上述のシステム及びPCT/GB2003/005186に開示されたシステムでは、顔検出及び追跡において、顔が長期間に亘ってカメラから背けられた場合、又はシーンから短期間消えた場合、個人の追跡が終了する。顔がシーンに戻ると、その顔は、再び検出されるが、この場合、新たな追跡が開始され、この新たな追跡には、以前とは異なる識別(ID)番号が与えられる。
以下、所謂「顔類似(face similarity)」又は「顔照合(face matching)」技術について説明する。
顔類似の目的は、上述のような状況における、個人の同一性を維持するすることであり、これにより、(同じ個人に関連する)先の顔追跡と、後の顔追跡を互いにリンクさせることができる。この構成においては、少なくとも原理的に、各個人には、固有のID番号が割り当てられる。個人がシーンに戻るとアルゴリズムは、顔照合技術を用いて、同じ識別番号を再び割り当てるよう試みる。
顔類似法では、新たに検出した個人の複数の顔「スタンプ」(追跡された顔を代表するよう選択された画像)と、以前に検出した個人又は他の場所で検出した個人とを比較する。なお、顔スタンプは、正方形である必要はない。システムの顔検出及び追跡コンポーネントから、1人の個人に属する複数の顔スタンプが得られる。上述のように、顔追跡処理では、検出された顔を一時的にリンクし、その個人がシーンから消えるか、カメラから長時間顔を背けない限り、ビデオフレームのシーケンス中において、これらの顔の同一性を維持する。したがって、このような追跡処理内の顔検出は、同じ個人に属するものと考えられ、その追跡処理内の顔スタンプは、1人の特定の個人の顔スタンプの「組」として用いることができる。
各顔スタンプの組においては、固定された数の顔スタンプが維持される。以下、追跡処理から顔スタンプを選択する手法を説明する。次に、2つの顔スタンプセットの「類似性測定値」について説明する。続いて、顔検出と追跡システム内において、類似法をどのように用いるかを説明する。まず、図10を用いて、総合的な追跡システムのコンテキストにおける顔類似技術(face similarity techniques)について説明する。
図10は、上述した顔検出及び追跡システムの技術的コンテキストに顔類似機能を追加したシステムを示している。この図面には、上述のシステム及びPCT/GB2003/005186に開示された処理の概要も示されている。
第1のステージ2300において、所謂「関心領域」ロジックは、画像内において、顔検出を行うべき領域を導出する。これらの関心領域において、顔検出2310が行われ、顔位置が検出される。次に、顔追跡2320が行われ、追跡された顔位置及びIDが生成される。そして、顔類似処理2330において、顔スタンプの組が照合される。
顔スタンプの組のためのスタンプの選択
顔スタンプの組を生成及び維持するために、追跡処理において一時的にリンクされた複数の顔スタンプから所定数(n)のスタンプが選択される。選択の基準は、以下の通りである。
1.スタンプは、色追跡又はカルマン追跡からではなく、顔検出から直接生成されている必要がある。更に、スタンプは、「正面」の顔トレーニングセットから生成されたヒストグラムデータを用いて検出された場合にのみ選択される。
2.一旦、(例えば、顔追跡を構成する画像の時間順に)最初のn個のスタンプが集められると、既存の顔スタンプの組と、(時間順の)追跡から得られる新たな各スタンプとの類似性(以下参照)が測定される。追跡された各顔スタンプと、スタンプの組内の残りのスタンプとの類似性も測定され、保存される。新たに得られた顔スタンプが顔スタンプの組の既存の要素より類似性が低い場合、その既存の要素は、無視され、新たな顔スタンプが顔スタンプの組に含まれる。このようにしてスタンプを選択することにより、選択処理の終わりには、顔スタンプの組内に、入手可能な最大限の変化が含まれる。これにより、顔スタンプの組は、特定の個人をより明確に代表するようになる。
1つ顔スタンプの組について集められたスタンプがn個より少ない場合、この組は、多くの変化を含んでおらず、したがって、個人のを明確に代表するものではない可能性が高いため、この顔スタンプの組は、類似性評価には使用されない。
この技術は、顔類似アルゴリズムだけではなく、如何なる目的の如何なる用途の代表ピクチャスタンプの組の選択にも応用できる。
例えば、この技術は、所謂顔登録(face logging)にも応用できる。例えば、カメラの前を通り過ぎたことが検出され、登録された個人を表現する必要がある場合がある。この場合、幾つかのピクチャがスタンプを用いるとよい。これらのピクチャスタンプは、できるだけ多くの変化が含まれるように、互いに可能な限り異なるものであることが理想的である。これにより、人間のユーザ又は自動顔認識アルゴリズムがその個人を認識できる機会が広がる。
類似性測定値
2つの顔追跡結果が同じ個人を表しているか否かを判定するためにこれらを比較する際に用いる、新たに遭遇した個人の顔スタンプの組(セットB)と、以前に遭遇した個人の顔スタンプ(セットA)との間の類似性の基準は、セットAの顔スタンプからセットBの顔のスタンプがどれ程良好に再構築できるかに基づいて定められる。セットAの顔スタンプからセットBの顔スタンプが良好に再構築できる場合、セットAとセットBの両方の顔スタンプは、同じ個人のものである可能性が高いと考えられ、したがって、新たに遭遇した個人は、以前、検出された個人と同一人物であると判定できる。
この手法は、上述した構成にも適用でき、すなわち、特定の顔追跡結果を表す顔スタンプの組として用いる顔画像の選択にも適用できる。この場合、新たに遭遇した各候補顔スタンプと、その組内の既存のスタンプとの間の類似性、及び既存の組内の各スタンプ間の類似性は、後述するように、セットBからのスタンプと、セットAからのスタンプとの間の類似性と同様に判定できる。
セットB内のスタンプは、ブロックベースの手法によって、セットAのスタンプから再構築される。この処理図を図11に示す。
図17には、4つの顔スタンプ2000、2010、2020、2030を含む顔スタンプセットAが示されている(勿論、4個という個数は、図面を明瞭にするために選択しただけであり、実用段階では、当業者はこの個数を任意に選択することができる)。顔スタンプセットBからのスタンプ2040は、セットAの4つのスタンプと比較される。
顔スタンプ2040内の重複しない各ブロック2050は、顔スタンプセットAのスタンプから選択されたブロックによって置換される。ブロックは、セットAの如何なるスタンプから、及びスタンプの元のブロック位置の近隣又は検索ウィンドウ2100内の如何なる位置からも選択することができる。平均自乗誤差(mean squared error:MSE)が最も小さくなるこれらの位置内のブロックが選択され、これにより、動きが推定法を用いて、再構築されているブロックが置換される(ここで好適に用いられる動き推定法は、演算負荷が軽く、且つ、明るさの変化がある場合、平均自乗誤差が最も小さくなる推定法である)。なお、ブロックは、正方形である必要はない。この実施例では、ブロック2060は、スタンプ2000からの近接するブロックによって置換され、ブロック2070は、顔スタンプ2010からのブロックによって置換され、ブロック2080は、顔スタンプ12020からのブロックによって置換される。
顔スタンプを再構築する場合、各ブロックは、基準顔スタンプ(reference face stamp)内の対応する近隣のブロックによって置換することができる。オプションとして、この近隣のブロックに加えて、最良のブロック(best block)は、反転された基準顔スタンプ内の対応する近隣から選択してもよい。人間の顔は、略対称性を有しているため、このような処理を行うことができる。このようにして、顔スタンプの組内に存在するより多くの変化を利用できる。
用いられる各顔スタンプは、64×64のサイズを有し、これは、8×8のサイズのブロックに分割される。類似性測定のために用いられる顔スタンプは、システムの顔検出コンポーネントによって出力される顔スタンプより厳密にクロッピングされる。これは、類似性測定処理において、できるだけ多くの背景を除外するためである。
画像をクロッピングするために、例えば、高さ50画素、幅45画素等、縮小されたサイズが選択される(又は予め定められる)(殆どの顔が正方形でないことに対応する)。次に、このサイズの中心領域に対応する画素のグループがリサイズされ、これにより、選択された領域は、再び64×64ブロックに対応するようになる。この処理は、簡単な補間処理を含む。中央の非正方形領域をリサイジングして正方形のブロックに対応させることにより、リサイジングされた顔は、多少引き延ばされて見えることがある。
クロッピング領域(例えば、50×45画素領域)は、予め定めてもよく、又は各インスタンス内の検出された顔の属性に応じて選択してもよい。何れの場合も、64×64ブロックへのリサイジングは、顔スタンプがクロッピングされているか否かにかかわらず、同じ64×64サイズで顔スタンプが比較されることを意味する。
一旦、全体のスタンプがこのようにして再構築されると、再構築されたスタンプとセットBからのスタンプの間で平均自乗誤差が計算される。この平均自乗誤差が低い程、この顔スタンプと、顔スタンプセットAの間の類似度が高いと判定できる。
2つの顔スタンプの組を比較する場合、顔スタンプセットBの各スタンプを同様に再構築し、2つの顔スタンプの組の間の類似性測定値として、結合された平均自乗誤差を用いる。
このように、このアルゴリズムは、照合すべき各個人について、複数の顔スタンプが利用可能であるという事実に基づいている。更に、このアルゴリズムは、照合すべき顔の不正確な登録に対するロバスト性を有する。
上述のシステムにおいては、類似性測定値を生成するために、既存の顔スタンプの組から新たに集められた顔スタンプの組が再構築される。他の顔スタンプの組から(AからB)顔スタンプの組を再構築することによって得られる類似性測定値は、通常、先の組から顔スタンプの組を再構築する場合(BからA)と異なる結果を示す。したがって、幾つかの状況では、既存の顔スタンプの組を新たな顔スタンプの組から再構築した場合、例えば、非常に短い追跡から既存の顔スタンプの組を集めた場合等、逆の処理を行った場合に比べて、より高い類似性測定値が導き出されることもある。したがって、同様の顔の間の併合が成功する可能性を高めるために、2つの類似性測定値を結合(例えば、平均化)してもよい。
更に可能な変形例を説明する。顔スタンプを再構築する場合、各ブロックは、基準顔スタンプからの同じサイズ、形状及び向きを有するブロックによって置換される。しかしながら、2つの顔スタンプにおいて、サブジェクトのサイズと向きが異なる場合、再構築される顔スタンプのブロックが同じサイズ、形状及び向きのブロックに対応しないため、これらの顔スタンプは、互いから良好に再構築されない。この問題は、基準顔スタンプのブロックのサイズ、形状及び向きを任意に変更できるようにすることによって解決できる。すなわち、最良のブロックは、高次の幾何学変換推定(例えば、回転、ズーム等)を用いることによって、基準顔スタンプから選択される。これに代えて、基本的な手法によって顔がスタンプを再構築する前に基準顔スタンプの全体を回転及びリサイズしてもよい。
明るさの変化に対する類似性測定値のロバスト性を高めるために、平均輝度が0となり、分散が1となるように、各顔スタンプを正規化してもよい。
オブジェクト追跡システム内の顔類似コンポーネントの使用
オブジェクト追跡により、個人がシーンから姿を消さない限り、ビデオフレームのシーケンス中において、その個人の同一性が維持される。顔類似コンポーネントの目的は、個人が一時的にシーンから消え、又はカメラから顔を背け、或いは異なるカメラによってシーンが捕捉された場合においても個人の同一が維持されるように追跡をリンクさせることである。
顔検出及びオブジェクト追跡システムの動作の間、新たな追跡が開始されるたびに、新たな顔スタンプの組の収集が開始される。新たな顔スタンプの組には、固有の(すなわち、以前に追跡された組とは異なる)IDが与えられる。新たな顔スタンプの組の各スタンプが得られると、先に集められた顔スタンプの組に対する類似性測定値(Si)が算出される。以下に示すように、この類似性測定値を用いて、反復的な手法によって、先に集められた顔スタンプの組に対する、新たな顔スタンプの組の既存の要素に関する結合された類似性測定値(Si−1)が更新される。
=0.9*−1+0.1*
ここで、上付き文字jは、先に集められた顔スタンプの組jとの比較を表している。
ここで、以前に遭遇した顔スタンプの組に対する新たな顔スタンプの組の類似性がある閾値(T)を超え、新たな顔スタンプの組内の要素の数が少なくともn(上述の説明参照)個であった場合、新たな顔スタンプの組には、前の顔スタンプの組と同じ所定のIDが与えられる。次に、2つの顔スタンプの組を併合し、上述したような、同じ類似性比較法を用いて、これら2つの組に含まれる変化と同じ量の変化を可能な限り含む1つの顔スタンプの組を生成する。
新たな顔スタンプの組は、n個の顔スタンプが集められる前に追跡が終了した場合、破棄される。
2つ以上の保存された顔スタンプの組について、新たな顔スタンプの組の類似性測定値が閾値Tを超えている場合、これは、現在の個人が、先の2人の個人に良好に一致すると考えられる。この場合、現在の個人を先の2人の個人の何れかに一致させるために、更に厳格な類似性閾値(すなわち、更に低い差分値)が必要となる。
類似性基準に加えて、他の評価基準を用いて、2つの顔スタンプの組を併合すべきか否かを決定することもできる。この評価基準は、同じ個人に属する2つの顔スタンプの組が同じ時間に重複しないという知識に基づいている。すなわち、数フレーム以上に亘るピクチャ内に同時に現れた2つの顔スタンプの組が互いに一致するとみなされることはない。これは、共存マトリクス(co-existence matrix)を用いて、1又は複数のピクチャ内に同時に存在した全ての顔スタンプの組に関する記録を維持することによって実現される。共存マトリクスは、2つの顔スタンプの組のあらゆる組合せが共存したことがある複数のフレームを保存する。このフレームの数が少なくない、例えば10フレーム以上である場合(幾つかのフレームに亘って、追跡が顔に定まらないまま削除されることがあることを考慮している。)、2つの顔スタンプの組を同じIDに併合することは許可されない。ID1〜ID5が付された5人の人(追跡結果)に関する共存マトリクスの具体例を以下に示す。
Figure 0004616702
マトリクスは、以下の事実を示している。
・ID1は、合計234フレームに出現している(但し、これらは連続していない場合もある)。ID1は、ID2又はID3と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ID1は、87フレームに亘ってID4と共存しており、したがって、この個人と併合されることはない。また、ID1は、5フレームに亘ってID5と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの2つIDは、併合される可能性を残している。
・ID2は、合計54フレームに出現している(但し、これらは連続していない場合もある)。ID2は、ID3のみと共存しており、したがって、この個人と併合されることはない。また、ID2は、良好に一致すれば、ID1、ID4、ID5の何れかと将来併合される可能性がある。
・ID3は、合計43フレームに出現している(但し、これらは連続していない場合もある)。ID3は、ID2のみと共存しており、したがって、この個人と併合されることはない。また、ID2は、良好に一致すれば、ID1、ID4、ID5の何れかと将来併合される可能性がある。
・ID4は、合計102フレームに出現している(但し、これらは連続していない場合もある)。ID4は、ID2又はID3と同時にショット内に現れたことは一度もなく、したがって、これらの個人は、将来、併合される可能性がある。ID4は、87フレームに亘ってID1と共存しており、したがって、この個人と併合されることはない。また、ID4は、5フレームに亘ってID5と共存している。このフレーム数は、閾値フレーム数より少なく、したがって、これらの2つIDは、併合される可能性を残している。
・ID5は、合計5フレームに出現している(但し、これらは連続していない場合もある)。ID5は、全てのフレームについて、ID1及びID4と共存したが、このフレーム数は閾値フレーム数より少ないので、ID5は、ID1及びID4の何れか一方と併合される可能性がある。また、ID5は、ID2及びID3と共存していないので、ID2又はID3と併合される可能性がある。
顔類似測定値が高いために2つのIDが併合されると、共存マトリクスは、これらの併合された2つのIDの共存情報を結合することによって更新される。この更新は、単に、2つのIDに対応する行の数値を加算し、続いて、2つのIDに対応する列の数値を加算することによって行われる。
例えば、ID5をID1に併合すると、上述した共存マトリクスは、以下のようになる。
Figure 0004616702
次に、ID1がID2に併合されると、この共存マトリクスは、以下のようになる。
Figure 0004616702
なお、以下の点に注意する必要がある。
・ID1は、他の更なる既存の人とも併合することはできない。
・この具体例では、2つのIDが併合された後は、小さい方のID番号を維持するとの規約がある。
・IDがピクチャ内に存在している間は、IDを併合することは許可されない。
顔スタンプの組を生成及び併合するための類似性検出処理において、顔スタンプは、通常、他の顔スタンプから複数回再構築する必要がある。これは、動きが推定法を用いて、各ブロックを何回か照合する必要があることを意味する。幾つかの動き推定法では、最初のステップとして、用いられる基準顔スタンプの如何にかかわらず、照合する必要があるブロックに関するある情報を計算する。動き推定は、何回か実行する必要があるため、この情報は、顔スタンプとともに保存してもよく、これにより、ブロックを照合するたびにこの情報を算出する必要がなくなり、処理時間が短縮される。
以下、例外的な(少なくとも普通ではない)照明条件の下で撮像された画像の画質を向上させることを目的とする顔検出及びオブジェクト追跡技術の改善について説明する。
照明変化に対するロバスト性を向上させる方法
照明変化に対するロバスト性を向上させる方法には、次のような方法がある。
(a)広範囲に亘る照明変化を含む付加的なサンプルを用いた追加的なトレーニング。
(b)急峻な影の影響を減少させるためのコントラストの調整。
ヒストグラムを正規化する更なる修正により、顔検出システムのパラメータの1つを調整する必要がなくなるので、顔検出の性能が向上する。
これらの実験のための検査用のセットは、例外的な照明条件の下で撮像された画像を含んでいる。図12に示す「小さなトレーニングセット(曲線A)」のラベルが付された第1の組は、正面の顔(20%)と、左向きの顔(20%)と、右向きの顔(20%)と、上向きの顔(20%)と、下向きの顔(20%)とを含んでいる。図12には、上述した改善を行う前及び行った後の、この検査用の組に対する顔検出システムの性能を示している。第2の検査用の画像の組は、オフィスの周辺で撮像されたサンプル画像を含んでいる。図13a及び図13bは、これらのサンプル画像を示しており、これらについては後に説明する。
ヒストグラムトレーニングセットの更なるデータ
異なる照明条件に対処するためにトレーニングセットに更なる顔のサンプルを追加してもよい。これらの顔のサンプルは、好ましくは、元から用いていたトレーニングセット内の顔のサンプルより多くの照明の変化を含んでいるとよい。図12に示すように、拡張された(結合された)トレーニングセット(曲線B)は、小さいトレーニングセット(曲線A)のみを用いた場合に比べて、僅かに性能が向上している。
ヒストグラムの正規化
正面のポーズに関するヒストグラムを用いた検出のための適切な閾値は、正面以外のポーズに関するヒストグラムを用いた場合に比べて僅かに低くすることが好ましいことが見出されている。このため、各ポーズの確率マップを結合する前に、正面のポーズの確率マップにバイアスを加える必要がある。顔検出システムのヒストグラムトレーニング機能を変更する際には、この正面のバイアスを経験的に決定する必要があった。
なお、正面の確率マップ及び正面ではない向きの確率マップの両方の検出に同様の閾値を用いることができるように、このバイアスをヒストグラムトレーニング機能に組み込んでもよい。この処理は、正面のヒストグラム及び正面ではない向きのヒストグラムを互いに正規化したと表現することもできる。図12のグラフに示す「小さいトレーニングセット」の曲線及び「結合されたトレーニングセット」の曲線は、適切な正面のバイアスを経験的に決定する前の結果を示している。曲線Cは、最適化されたヒストグラムを用いた場合の結果であり、これは、最適ではないバイアスを用いた場合に比べて、より良好な性能が得られることを示している。
コントラスト調整
急峻な影が存在する顔画像は、検出が難しいことが観察された。このため、影の影響を低減するための前処理を考案した。この前処理では、(検査中の画像全体より小さい)ウィンドウを入力画像内の各画素の周りにセンタリングし、ウィンドウ内の最小の画素値によって、ウィンドウの中心の画素値を平均化する。これにより、出力画像の各画素の値(Ioutput)は、以下の式の通りとなる。
output(x)=(Iinput(x)+ min(W))/2
ここで、Wは、画素xにセンタリングされたウィンドウを表す。
この具体化で用いる隣接するウィンドウのサイズは、7×7画素である。続いて、処理された画像に対して通常の顔検出を行う。これにより、図12の曲線Dに示すような改善の効果が得られる。すなわち、この新規な処理により、顔検出システムの性能が著しく向上していることがわかる。(なお、「ウィンドウ」が画像全体を含む構成についても同様の検査を行ったが、この場合、上述のような有利な効果は得られなかった。)
この技術は、例えば、店舗内等の厳しい照明環境下で、例えば顔等のオブジェクトを検出する必要がある場合に特に有用であり、したがって、所謂「電子看板(デジタルサイネージ)」に適用し、広告マテリアルを表示する画面を見ている個人の顔を検出するために用いてもよい。この場合、顔の存在、顔の滞在時間、及び/又は顔の数を用いて、広告画面上に表示するマテリアルを変更することができる。
サンプル画像
ここに提案した幾つかのサンプル画像に関する修正を行った後の顔検出システムの性能を図13a及び図13bに示す。左側及び右側の画像は、それぞれ修正前及び修正後の顔検出の結果を示している。このように、上述した修正により、厳しい照明条件下でも、正面の顔及び正面以外の向きの顔の両方の検出が成功している。
ここでは、添付の図面を参照して特定の実施例について説明したが、本発明は、これに限定されるわけではなく、本発明の範囲内で多くの変更及び追加を行うことができることは明らかである。例えば、本発明の範囲から逸脱することなく、特許請求の範囲に示す従属請求項の様々な組合せを独立請求項の特徴に加えることができる。
参考文献
1.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「顔及び車に適用される3Dオブジェクト検出のための統計モデル(A statistical model for 3D object detection applied to faces and cars)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス2000(IEEE Conference on Computer Vision and Pattern Detection, 2000)
2.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング(Probabilistic modelling of local appearance and spatial relationships for object detection)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス1998(IEEE Conference on Computer Vision and Pattern Detection, 1998)
3.エイチ・シュナイダーマン(H. Schneiderman)著、「顔及び車に適用される3Dオブジェクト検出のための統計的手法」、カーネギーメロン大学(Carnegie Mellon University)ロボティクス研究科(Robotics Institute)博士論文、2000年
顔検出装置及び/又は非線型編集装置として用いられる汎用コンピュータシステムの構成を示す図である。 顔検出に用いるビデオカメラ−レコーダ(カムコーダ)の内部構成を示す図である。 ビデオ会議システムの構成を示す図である。 ビデオ会議システムの構成をより詳細に示す図である。 ビデオ会議システムの構成をより詳細に示す図である。 トレーニング処理を説明する図である。 検出処理を説明する図である。 顔追跡アルゴリズムを説明する図である。 図9a〜9cは、ビデオシーケンスに適用される顔追跡を説明する図である。 顔検出及び追跡システムの構成を示す図である。 類似性検出技術を説明する図である。 異なるトレーニングセットに対するシステム性能を示すグラフ図である。 試験結果を示す図である。 試験結果を示す図である。

Claims (15)

  1. nを2以上の数として、検査する画像のセットを代表するn個の画像のサブセットを選択する画像処理方法において、
    上記検査する画像のセット内の画像間の類似性の度合いを検出し、上記画像のサブセットが該検査する画像のセット内の他の画像との間で最も低い類似性を有するn個の画像を含むようにするステップを有し、
    上記類似性の度合いを検出するステップは、
    上記検査する画像のセットについて、該画像を1つ以上の検査領域に分割するステップと、
    上記各検査領域について、該検査領域を上記検査する画像のセット内の1つ以上の他の画像内の1つ以上の参照領域と比較し、該検査領域を置換した場合に、該画像の外観が現在の画像に近くなるような、該検査領域に最も近い参照領域を特定するステップと
    を有する画像処理方法。
  2. 上記類似性を検出するステップは、
    上記検査する画像のセットからn個の画像からなる検査用のサブセットを抽出するステップと、
    上記検査用のサブセット内のn個の画像間で、相互の類似性を検出するステップと、
    上記検査する画像のセット内の他の画像のそれぞれについて、
    上記他の画像と、上記サブセット内のn個の画像との間の類似性の度合いを検出するステップと、
    上記他の画像と上記検査用のサブセット内のn個の画像との間の類似性が、上記サブセット内の1つの画像と上記検査用のサブセットの残りの画像との間の類似性より低い場合、該サブセット内の類似性が最も高い画像を他の画像と置換するステップとを有する請求項記載の画像処理方法。
  3. 上記検査する画像のセットがn個より少ない画像しか含まない場合、上記検査する画像のセットを代表する画像のサブセットを選択しないことを特徴とする請求項1記載の画像処理方法。
  4. ビデオシーケンスの連続したピクチャ内に存在するオブジェクトを検出するステップと、
    上記検出されたオブジェクトを含むピクチャの部分のシーケンスを導出するステップとを有し、
    上記ピクチャの部分のシーケンスは、上記検査する画像のセットを構成することを特徴とする請求項1記載の画像処理方法。
  5. 上記検査する画像のセットを構成するピクチャの部分のシーケンスは、上記ビデオシーケンス内の時間的に連続するピクチャのグループから導出されることを特徴とする請求項記載の画像処理方法。
  6. 上記オブジェクトを検出するステップは、
    上記ピクチャを処理して、上記オブジェクトの存在を示すピクチャ特徴を検出する第1の検出ステップと、
    上記オブジェクトが検出される尤度が上記第1の検出ステップより高い1又は複数の第2の検出ステップとを有し、
    上記オブジェクトを含むと検出されたピクチャの部分のシーケンスは、上記第1の検出ステップの結果から導出され、0個以上のピクチャの部分は、上記第2の検出ステップ又は各検出ステップの結果を用いて導出された上記シーケンス内のピクチャの部分の分布に関する制約に基づいて上記第2の検出ステップの結果から導出されることを特徴とする請求項記載の画像処理方法。
  7. 上記第2の検出ステップは、上記オブジェクトの存在を示すピクチャの色特性を検出するステップを有することを特徴とする請求項記載の画像処理方法。
  8. 上記第2の検出ステップは、上記オブジェクトについて検出された他の1つ以上のピクチャ内の位置に基づいて、該オブジェクトのピクチャ内の位置を予測するステップを有することを特徴とする請求項記載の画像処理方法。
  9. 上記検査する画像のセットから、上記第2の検出ステップを用いて導出された全てのピクチャの部分を除外するステップを更に有する請求項記載の画像処理方法。
  10. 上記オブジェクトは顔であることを特徴とする請求項記載の画像処理方法。
  11. コンピュータに、請求項1記載の画像処理方法の各ステップを実行させるためのプログラム。
  12. 請求項11記載のプログラムを記録した記録媒体。
  13. nを2以上の数として、検査する画像のセットを代表するn個の画像のサブセットを選択する画像処理装置において、
    上記検査する画像のセット内の画像間の類似性の度合いを検出し、上記画像のサブセットが該検査する画像のセット内の他の画像との間で最も低い類似性を有するn個の画像を含むようにする検出器を備え、
    上記検出器は、
    上記検査する画像のセットについて、該画像を1つ以上の検査領域に分割し、
    上記各検査領域について、該検査領域を上記検査する画像のセット内の1つ以上の他の画像内の1つ以上の参照領域と比較し、該検査領域を置換した場合に、該画像の外観が現在の画像に近くなるような、該検査領域に最も近い参照領域を特定する
    画像処理装置。
  14. 請求項13記載の画像処理装置を備えるビデオ会議装置。
  15. 請求項13記載の画像処理装置を備える監視装置。
JP2005158090A 2004-05-28 2005-05-30 画像処理 Expired - Fee Related JP4616702B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0412025A GB2414614A (en) 2004-05-28 2004-05-28 Image processing to determine most dissimilar images

Publications (2)

Publication Number Publication Date
JP2006031678A JP2006031678A (ja) 2006-02-02
JP4616702B2 true JP4616702B2 (ja) 2011-01-19

Family

ID=32671278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005158090A Expired - Fee Related JP4616702B2 (ja) 2004-05-28 2005-05-30 画像処理

Country Status (4)

Country Link
US (1) US7630561B2 (ja)
EP (1) EP1600882A1 (ja)
JP (1) JP4616702B2 (ja)
GB (1) GB2414614A (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US8494286B2 (en) * 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US7844076B2 (en) * 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
JP2006293732A (ja) * 2005-04-12 2006-10-26 Hitachi Ltd 情報処理装置およびイメージセンサおよび生体認識システムならびに情報処理装置の生体認識プログラム
US8218080B2 (en) * 2005-12-05 2012-07-10 Samsung Electronics Co., Ltd. Personal settings, parental control, and energy saving control of television with digital video camera
US8848057B2 (en) * 2005-12-05 2014-09-30 Samsung Electronics Co., Ltd. Home security applications for television with digital video cameras
CA2531296C (en) * 2005-12-22 2015-11-24 Bce Inc. Delivering a supplemented cctv signal to one or more subscribers
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
JP4706535B2 (ja) * 2006-03-30 2011-06-22 株式会社日立製作所 複数カメラを用いた移動物体監視装置
JP4797761B2 (ja) * 2006-04-12 2011-10-19 オムロン株式会社 動画表示装置
AU2007324337B8 (en) * 2006-11-20 2011-11-10 SenSen Networks Limited Network surveillance system
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
JP5035035B2 (ja) * 2007-03-08 2012-09-26 オムロン株式会社 対象物追跡方法、対象物追跡装置および対象物追跡プログラム
US7756296B2 (en) * 2007-03-27 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using forward and backward tracking
US8331674B2 (en) * 2007-04-06 2012-12-11 International Business Machines Corporation Rule-based combination of a hierarchy of classifiers for occlusion detection
WO2009006931A1 (en) * 2007-07-11 2009-01-15 Cairos Technologies Ag Video tracking method and apparatus arrangement for performing the method
US9639740B2 (en) 2007-12-31 2017-05-02 Applied Recognition Inc. Face detection and recognition
US9721148B2 (en) 2007-12-31 2017-08-01 Applied Recognition Inc. Face detection and recognition
US8750574B2 (en) * 2007-12-31 2014-06-10 Applied Recognition Inc. Method, system, and computer program for identification and sharing of digital images with face signatures
JP5217044B2 (ja) * 2008-01-10 2013-06-19 株式会社日立メディコ 医用画像管理装置および医用画像診断装置
US8306262B2 (en) * 2008-05-15 2012-11-06 Arcsoft, Inc. Face tracking method for electronic camera device
US8433106B2 (en) 2008-07-08 2013-04-30 Hewlett-Packard Development Company, L.P. Increasing face detection speed
US8548257B2 (en) * 2009-01-05 2013-10-01 Apple Inc. Distinguishing between faces and non-faces
US8385638B2 (en) 2009-01-05 2013-02-26 Apple Inc. Detecting skin tone in images
JP5552946B2 (ja) * 2010-07-30 2014-07-16 株式会社リコー 顔画像サンプル採取装置、顔画像サンプル採取方法、プログラム
JP2012137861A (ja) * 2010-12-24 2012-07-19 Jvc Kenwood Corp 映像処理装置および映像処理方法
JP5801601B2 (ja) * 2011-05-10 2015-10-28 キヤノン株式会社 画像認識装置、画像認識装置の制御方法、およびプログラム
US9020207B2 (en) 2011-06-07 2015-04-28 Accenture Global Services Limited Biometric authentication technology
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
US8548207B2 (en) 2011-08-15 2013-10-01 Daon Holdings Limited Method of host-directed illumination and system for conducting host-directed illumination
JP6049333B2 (ja) * 2011-10-14 2016-12-21 キヤノン株式会社 焦点検出装置及び焦点検出装置の制御方法
KR101289087B1 (ko) * 2011-11-03 2013-08-07 인텔 코오퍼레이션 얼굴 검출 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
US9202105B1 (en) 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication
AU2013200450B2 (en) 2012-01-30 2014-10-02 Accenture Global Services Limited System and method for face capture and matching
US8948465B2 (en) 2012-04-09 2015-02-03 Accenture Global Services Limited Biometric matching technology
JP5963525B2 (ja) * 2012-04-27 2016-08-03 キヤノン株式会社 認識装置、その制御方法、および制御プログラム、並びに撮像装置および表示装置
AU2013205535B2 (en) 2012-05-02 2018-03-15 Samsung Electronics Co., Ltd. Apparatus and method of controlling mobile terminal based on analysis of user's face
WO2014001095A1 (en) * 2012-06-26 2014-01-03 Thomson Licensing Method for audiovisual content dubbing
WO2014012662A1 (en) * 2012-07-20 2014-01-23 Eth Zurich Selecting a set of representative images
TWI571828B (zh) * 2013-01-02 2017-02-21 奇高電子股份有限公司 光學導航方法以及相關裝置
US10803160B2 (en) 2014-08-28 2020-10-13 Facetec, Inc. Method to verify and identify blockchain with user question data
US10915618B2 (en) 2014-08-28 2021-02-09 Facetec, Inc. Method to add remotely collected biometric images / templates to a database record of personal information
US10614204B2 (en) 2014-08-28 2020-04-07 Facetec, Inc. Facial recognition authentication system including path parameters
US10698995B2 (en) 2014-08-28 2020-06-30 Facetec, Inc. Method to verify identity using a previously collected biometric image/data
US11256792B2 (en) 2014-08-28 2022-02-22 Facetec, Inc. Method and apparatus for creation and use of digital identification
CA3186147A1 (en) 2014-08-28 2016-02-28 Kevin Alan Tussy Facial recognition authentication system including path parameters
US10146797B2 (en) 2015-05-29 2018-12-04 Accenture Global Services Limited Face recognition image data cache
USD987653S1 (en) 2016-04-26 2023-05-30 Facetec, Inc. Display screen or portion thereof with graphical user interface
US11068721B2 (en) * 2017-03-30 2021-07-20 The Boeing Company Automated object tracking in a video feed using machine learning
US11200683B2 (en) * 2017-08-22 2021-12-14 Mitsubishi Electric Corporation Image processing device and image processing method
US11468679B2 (en) * 2018-11-11 2022-10-11 Netspark Ltd. On-line video filtering
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
CN116485788B (zh) * 2023-06-16 2023-08-29 东莞市华驰高分子材料有限公司 图像处理方法及手机pet保护膜底涂工艺质量检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000232638A (ja) * 1999-02-09 2000-08-22 Toshiba Corp 画像情報を評価する人物監視システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3315766B2 (ja) * 1992-09-07 2002-08-19 富士通株式会社 画像データ符号化方法、その方法を用いた画像データ符号化装置、画像データ復元方法、その方法を用いた画像データ復元装置、シーン変化検出方法、その方法を用いたシーン変化検出装置、シーン変化記録装置、及び画像データのシーン変化記録・再生装置
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
US6081606A (en) * 1996-06-17 2000-06-27 Sarnoff Corporation Apparatus and a method for detecting motion within an image sequence
US6111517A (en) * 1996-12-30 2000-08-29 Visionics Corporation Continuous video monitoring using face recognition for access control
TR199700058A2 (xx) * 1997-01-29 1998-08-21 Onural Levent Kurallara dayalı hareketli nesne bölütlemesi.
US5894309A (en) * 1997-02-27 1999-04-13 Mitsubishi Electric Information Technology Center America, Inc. System for modifying lighting in photographs
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
JPH11282956A (ja) * 1998-03-26 1999-10-15 Ricoh Co Ltd 帳票識別方法、装置および記録媒体
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
GB2341231A (en) * 1998-09-05 2000-03-08 Sharp Kk Face detection in an image
EP1239405A3 (en) * 2001-03-09 2004-05-19 Kabushiki Kaisha Toshiba Face image recognition apparatus
EP1359536A3 (en) * 2002-04-27 2005-03-23 Samsung Electronics Co., Ltd. Face recognition method and apparatus using component-based face descriptor
GB2395264A (en) * 2002-11-29 2004-05-19 Sony Uk Ltd Face detection in images
GB2395779A (en) 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
EP1742169B1 (en) * 2005-07-05 2012-02-22 Omron Corporation Tracking apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000232638A (ja) * 1999-02-09 2000-08-22 Toshiba Corp 画像情報を評価する人物監視システム

Also Published As

Publication number Publication date
JP2006031678A (ja) 2006-02-02
US20050265603A1 (en) 2005-12-01
GB2414614A (en) 2005-11-30
EP1600882A1 (en) 2005-11-30
GB0412025D0 (en) 2004-06-30
US7630561B2 (en) 2009-12-08

Similar Documents

Publication Publication Date Title
JP4616702B2 (ja) 画像処理
US7636453B2 (en) Object detection
JP2008501172A (ja) 画像比較方法
JP4381310B2 (ja) メディア処理システム
JP2006508461A (ja) 顔検出及び顔追跡
JP2006508601A (ja) ビデオカメラ
KR101615254B1 (ko) 디지털 이미지들에서 얼굴 표정들을 검출
JP2006508463A (ja) 顔検出
JP2006508601A5 (ja)
US8270806B2 (en) Information processing apparatus and method of controlling same
JP4939968B2 (ja) 監視画像処理方法、監視システム及び監視画像処理プログラム
JP2006508462A (ja) 顔検出
US7522772B2 (en) Object detection
EP1542155A1 (en) Object detection
JP2004192637A (ja) 顔検出
JP2004199669A (ja) 顔検出
US8866900B2 (en) Information processing apparatus and method of controlling same
JPWO2006025185A1 (ja) 監視記録装置およびその方法
JP2012088787A (ja) 画像処理装置、画像処理方法
EP1542152A1 (en) Object detection
EP1542154A2 (en) Object detection
GB2414613A (en) Modifying pixels in dependence on surrounding test region
CN117037271A (zh) 一种会议摄像头的发言人追踪方法、系统及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080325

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101022

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees