JP2004192637A - 顔検出 - Google Patents
顔検出 Download PDFInfo
- Publication number
- JP2004192637A JP2004192637A JP2003402162A JP2003402162A JP2004192637A JP 2004192637 A JP2004192637 A JP 2004192637A JP 2003402162 A JP2003402162 A JP 2003402162A JP 2003402162 A JP2003402162 A JP 2003402162A JP 2004192637 A JP2004192637 A JP 2004192637A
- Authority
- JP
- Japan
- Prior art keywords
- face
- image
- mask
- detection
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
- H04N5/77—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
- H04N5/772—Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】顔検出アルゴリズムにおいて、誤検出を避ける。
【解決手段】ビデオシーケンスからの検定画像と、ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置は、その領域に関して導き出された画像プロパティモデルに最も近くマッチングする、先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、検定画像内の2以上の画像位置に対して適用された画素マスクによって定義された検定画像内の画素と、画像プロパティモデルとを比較し、画像プロパティモデルと、マスク位置においてマスクによって定義された画素との間の最も小さい平均誤差に対応する検定画像のマスク位置において、顔を検出する比較手段とを備える顔映像検出装置。
【選択図】 図2
【解決手段】ビデオシーケンスからの検定画像と、ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置は、その領域に関して導き出された画像プロパティモデルに最も近くマッチングする、先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、検定画像内の2以上の画像位置に対して適用された画素マスクによって定義された検定画像内の画素と、画像プロパティモデルとを比較し、画像プロパティモデルと、マスク位置においてマスクによって定義された画素との間の最も小さい平均誤差に対応する検定画像のマスク位置において、顔を検出する比較手段とを備える顔映像検出装置。
【選択図】 図2
Description
本発明は、顔検出に関する。
人間の顔を検出する顔検出アルゴリズムは、様々な文献で提案されており、これらには、所謂固有顔(eigenfaces)法、顔テンプレートマッチング法、変形可能なテンプレートマッチング(deformable template matching)法又はニューラルネットワーク分類法を使用する手法等がある。これらのいずれの手法も完全ではなく、通常、付随した利点及び欠点を有する。いずれの手法も、画像が顔を含むことを確実な信頼性を持って示すことはなく、全て確率論的な判断(probabilistic assessment)に基づいており、すなわち画像が少なくとも顔を含むある可能性(likelihood)があるという画像の数学的解析に基づいている。それらの用途に従い、アルゴリズムは、通常、顔の誤検出を避けようとするために極めて高く設定された尤度の閾値(threshold likelihood value)を有する。
可能な顔に関するあらゆる種類のブロックベースの解析、又は可能な顔と顔の存在を示す予め派生されたデータとの比較を包む解析において、おそらく顔らしく見えないが、比較テストをパスするある画像属性を有する画像領域によって、アルゴリズムが間違えるという可能性がある。そして、このような領域は、顔を含む確率(probability)が高いとされ、顔の誤検出が生じる。
誤検出が起こることを減らすことを含む顔検出の信頼性を向上させることは、この技術分野における不変の目標である。
本発明に係る顔映像検出装置は、ビデオシーケンスからの検定画像と、ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置において、(1)その領域に関して導き出された画像プロパティモデルに最も近くマッチングする、先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、(2)検定画像内の2以上の画像位置に対して適用された画素マスクによって定義された検定画像内の画素と、画像プロパティモデルとを比較し、画像プロパティモデルと、マスク位置においてマスクによって定義された画素との間の最も小さい平均誤差に対応する検定画像のマスク位置において、顔を検出する比較手段とを備える。
本発明は、顔検出処理において、画像プロパティモデルに最も近くマッチする画素の部分である最も適切な画素の部分を用いる手法を提供する。これにより、より信頼性が高い結果を得ることができる。
なお、「先行する画像」という用語及びこれに類する用語は、画像の検査の順序に関するものであり、ビデオシーケンスにおける時間的な方向に必ずしも関係するものではない。
本発明の更なる側面及び特徴については、添付の請求の範囲において定義されている。
図1は、顔検出システム及び/又は非線形編集システムとして用いる汎用コンピュータ装置のブロック図である。コンピュータ装置は、処理ユニット10を備え、処理ユニット10は、中央処理装置(CPU)20と、ランダムアクセスメモリ(RAM)のようなメモリ30と、ディスクドライブ40のような不揮発性記憶装置と、他の通常の構成要素とを備える。コンピュータ装置は、ローカルエリアネットワーク又はインターネット(あるいは両方)のようなネットワーク50に接続している。また、コンピュータシステムは、キーボード60と、マウス又は他のユーザ入力デバイス70と、表示画面80とを備える。当業者には、汎用コンピュータ装置がここで記載していない多くの他の従来の部品を含むことは、明らかである。
図2は、顔検出に用いるビデオカメラレコーダ(カムコーダ)のブロック図である。カムコーダ100は、画像を電荷結合素子(CCD)からなる画像捕捉素子120上に合焦点するレンズ110を備える。電子的な形式で得られる画像は、テープカセットのような記録媒体140に記録するために画像処理回路130によって処理される。また、画像捕捉素子120によって捕捉された画像は、アイピース160を介して見られるユーザ表示画面150上に表示される。
画像と関連している音を捕捉するために、1つ以上のマイクロホンが用いられる。これらのマイクロホンは、フレキシブルケーブルによってカムコーダ100に接続され、あるいはカムコーダ100の本体に搭載されるという意味で、外部マイクロホンであるとも言える。1台以上のマイクロホンからのアナログオーディオ信号は、記録媒体140に記録するための適切なオーディオ信号を生成するために、オーディオ処理回路170によって処理される。
なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式のいずれか、あるいは両方の形式で記録媒体140に記録することができる。したがって、画像処理回路130及びオーディオ処理回路170は、アナログ/デジタル変換器を備えていてもよい。 カムコーダ100のユーザは、レンズ110に電気的制御信号200を送るようにレンズ制御回路190に作用するユーザ制御180によって、レンズ110の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。
更に、2個のユーザ操作子を説明する。記録媒体140への記録を開始し、中止するために押しボタン210が設けられている。例えば、押しボタン210を1回押したときに記録を開始し、もう1回押したときに記録を中止することができる。あるいは、押した状態を維持することにより記録を行い、又はある時間、例えば5秒間押すことにより記録を開始するようにしてもよい。これらのいかなる構成においても、始めと終わりがある各「撮影(shot)」(連続した記録期間)に対するカムコーダ100の記録操作の確認は、技術的に非常に簡単である。
なお、ビデオ及びオーディオ信号は、デジタル形式又はアナログ形式のいずれか、あるいは両方の形式で記録媒体140に記録することができる。したがって、画像処理回路130及びオーディオ処理回路170は、アナログ/デジタル変換器を備えていてもよい。 カムコーダ100のユーザは、レンズ110に電気的制御信号200を送るようにレンズ制御回路190に作用するユーザ制御180によって、レンズ110の性能における画角を制御することができる。一般的に、フォーカス及びズームのような属性はこのように制御されるが、レンズの絞り又は他の属性は、ユーザによって操作される。
更に、2個のユーザ操作子を説明する。記録媒体140への記録を開始し、中止するために押しボタン210が設けられている。例えば、押しボタン210を1回押したときに記録を開始し、もう1回押したときに記録を中止することができる。あるいは、押した状態を維持することにより記録を行い、又はある時間、例えば5秒間押すことにより記録を開始するようにしてもよい。これらのいかなる構成においても、始めと終わりがある各「撮影(shot)」(連続した記録期間)に対するカムコーダ100の記録操作の確認は、技術的に非常に簡単である。
図2に示す「素晴らしい撮影マーカ(good shot marker:以下、GSMという。)」220は、ユーザによって操作され、これにより、ビデオ及びオーディオマテリアルに関連した「メタデータ」(関連データ)が記録媒体140に格納される。この特別の撮影は、ある観点で「素晴らしい(good)」と操作者によって主観的にみなされたこと(例えば、俳優が特によく演じた、ニュースリポータが各言葉を正しく発音した等)を示している。
メタデータは、記録媒体140上の予備領域(例えば「ユーザデータ」領域)に、用いられている特定のフォーマット及び規格に依存して、記録される。あるいは、メタデータはリムーバブルメモリスティック(登録商標)のメモリ(図示せず)のような別個の記録媒体に格納することができ、あるいはメタデータは、例えば無線リンク(図示せず)によって通信する外部データベース(図示せず)に格納することもできる。メタデータには、GSMの情報だけでなく、撮影条件(shot boundaries)、レンズの属性、ユーザ(例えばキーボード(図示せず))による文字情報入力、全地球測位システム受信機(図示せず)からの地理的位置情報等が含まれてもよい。
以上、メタデータを記録可能なカムコーダについて説明した。次に、このようなカムコーダに顔検出を適用する方法について説明する。
カムコーダ100は、顔検出器構成230を備える。適切な構成のより詳細は、後で説明するが、顔検出器230は、画像処理回路130から画像が供給され、このような画像が1つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器230は、顔検出データを、「yes/no」フラグの形式で、あるいは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。
カムコーダ100は、顔検出器構成230を備える。適切な構成のより詳細は、後で説明するが、顔検出器230は、画像処理回路130から画像が供給され、このような画像が1つ以上の顔を含むか否かを検出、又は検出することを試みる。顔検出器230は、顔検出データを、「yes/no」フラグの形式で、あるいは、各検出された顔内の目の位置のような顔の画像座標を含むより詳細な形式で出力することができる。この情報は、メタデータの他の形として処理し、上述したフォーマットとは異なるフォーマットで格納することができる。
後述するように、顔検出は、検出処理における他の種類のメタデータを用いることにより、助けられる。例えば、顔検出器230は、レンズ110の現在のフォーカス及びズーミング設定を示すレンズ制御回路190からの制御信号が供給される。これらは、画像のフォアグラウンドで表示されるあらゆる顔の予想される画像サイズの初期の表示を与えることによって、顔検出器2130を補佐することができる。なお、この観点では、フォーカス及びズーミングの設定は、カムコーダ100と撮影されている個人との予想される距離、更にはレンズ110の倍率を表している。これらの2つの属性からの顔の大きさの平均に基づいて、得られる画像データ内における顔の予想される大きさ(画素)を算出することができる。
従来の(既知の)音声検出器240は、オーディオ処理回路170からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標(indicator)で示すことができる。
最終的に、撮影境界(shot boundaries)及びユーザによって最も有益であるとみなされるそれらの撮影を示すGSM情報220及び撮影情報(制御210から)は、顔検出器230に供給される。
従来の(既知の)音声検出器240は、オーディオ処理回路170からオーディオ情報が供給され、このようなオーディオ情報内の音声の存在を検出する。音声の存在は、対応する画像に顔がある可能性を、音声を検出しないときに比して、より高い指標(indicator)で示すことができる。
最終的に、撮影境界(shot boundaries)及びユーザによって最も有益であるとみなされるそれらの撮影を示すGSM情報220及び撮影情報(制御210から)は、顔検出器230に供給される。
もちろん、カムコーダがアナログ記録技術に基づく場合、画像及びオーディオ情報を処理するために、更なるアナログ/デジタル変換器(以下、A/D変換器という。)が必要とされる。
この実施例では、2段階の顔検出技術を用いる。図3は、トレーニング段階を具体的に説明する図であり、図4は、検出段階を具体的に説明する図である。
以前に提案された顔検出方法(以下に示す参照4及び5を参照)と異なり、この方法は、全体としてではなく顔の一部のモデリングに基づいている。顔の一部は、顔の特徴(所謂「選択サンプリング(selective sampling)」)の推定位置上の中心のブロック、又は顔の通常間隔でサンプリング(所謂「標準サンプリング(regular sampling)」)されたブロックである。ここでは、主に、経験的検定で良い結果が得られた標準サンプリングについて説明する。
トレーニング段階では、解析処理を、顔を含むことが知られている一組の画像に、及び(オプションとして)顔を含まないことが知られている画像(「顔でない画像(nonface images)」)の別のセットに適用する。解析処理は、検定画像を後で(検出段階で)比較することができる顔及び顔でない特徴の数学的モデルを構築する。
したがって、数学的モデル(図3のトレーニング処理310)を構築するための基本的な手順は次の通りである。
1.同じ目位置を有するように正規化された顔の画像のセット300の各顔を、小さいブロックに一様にサンプリングする。
2.後で説明する各ブロックの属性を算出する。
3.属性を、異なる値の処理しやすい数に量子化する。
4.次に、量子化属性を、そのブロック位置に関して1つの量子化値を生成するために組み合わせる。
5.そして、1つの量子化値を、エントリとしてヒストグラム、例えば図5に示すヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報320は、顔の特徴の数学的モデルの基礎を形成する。
1.同じ目位置を有するように正規化された顔の画像のセット300の各顔を、小さいブロックに一様にサンプリングする。
2.後で説明する各ブロックの属性を算出する。
3.属性を、異なる値の処理しやすい数に量子化する。
4.次に、量子化属性を、そのブロック位置に関して1つの量子化値を生成するために組み合わせる。
5.そして、1つの量子化値を、エントリとしてヒストグラム、例えば図5に示すヒストグラムに記録する。全てのトレーニング画像の全てのブロック位置に関する累積されたヒストグラム情報320は、顔の特徴の数学的モデルの基礎を形成する。
上述のステップを多数の検定顔画像について繰り返すことによって、1つのそのようなヒストグラムを、各可能なブロック位置に対して作成する。テストデータについては、更に後述する付録Aで説明する。そこで、8×8ブロックの配列を用いる方式では、64個のヒストグラムを準備する。処理の後半部において、検定する量子化属性を、ヒストグラムのデータと比較する。データをモデル化するために全部のヒストグラムを用いるという事実は、例えばガウス分布又は他の分布を後でパラメータ化するか否かと仮定する必要はないことを意味する。データ記憶空間(必要ならば)を節約するために、同じヒストグラムが異なるブロック位置に対して再生利用できるように、類似しているヒストグラムを併合することができる。
検出段階で、検定画像350を顔検出器340で処理するために、検定画像340内の連続したウィンドウを、以下のように処理する。
6.ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ1〜4のように量子化する。
7.各ブロック位置の量子化属性値の対応する「確率(probability)」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラムと比較する。ヒストグラムが「確率」データを高める方法については後述する。
8.得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出(所謂誤検出(false positive))してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出(所謂見逃し検出(false negative))してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。
6.ウィンドウを、一連のブロックのように一様にサンプリングし、そして、各ブロックに関する属性を算出して、上述のステップ1〜4のように量子化する。
7.各ブロック位置の量子化属性値の対応する「確率(probability)」を、対応するヒストグラムから調べる。すなわち、各ブロック位置のそれぞれの量子化属性を生成し、そのブロック位置に関して予め生成されたヒストグラムと比較する。ヒストグラムが「確率」データを高める方法については後述する。
8.得られる全ての確率を互いに乗算して、ウィンドウを「顔」又は「顔でない」に分類するために、閾値と比較する最終の確率を形成する。「顔」又は「顔でない」の検出結果は絶対検出よりもむしろ確率ベースの方法であることは、言うまでもない。顔を含んでいない画像を間違って「顔」として検出(所謂誤検出(false positive))してしまうことがある。また、顔を含んでいる画像を間違って「顔でない」として検出(所謂見逃し検出(false negative))してしまうこともある。あらゆる顔検出システムの目標は、誤検出の割合及び見逃し検出の割合を減らすことであるが、現在の技術では、これらの割合をゼロに減らすことは、不可能ではないとしても困難である。
上述のように、トレーニング段階において、一組の「顔でない」画像は、「顔でない」ヒストグラムの対応するセットを生成するために用いることができる。そして、顔の検出を達成するために、顔でないヒストグラムから生成される「確率」を、個々の閾値と比較し、検定ウィンドウが顔を含むためには、確率が閾値以下でなければならない。代わりに、顔でない確率に対する顔確率の比を、閾値と比較することができる。
元のトレーニングセットを例えば位置、方向、大きさ、アスペクト比、背景の風景、照明の明るさ及び周波数成分(frequency content)の変化等の「合成変化(synthetic variations)」330で処理することによって、特別な(extra)トレーニングデータを生成することができる。
ここで、属性及びそれらの量子化の導き方について説明する。従来の技術において、属性は、ウィンドウに表示された画像内に存在する異なる種類のブロックを表すコアブロック(又は固有ベクトル)である所謂固有ブロックに関して評価される。まず、固有ブロックの生成について、図6を参照して説明する。
固有ブロックの生成
この実施例の属性は、所謂固有ブロックに基づいている。固有ブロックを、トレーニングセットのブロックの有効な具象的な才能(good representational ability)を有するように設計した。したがって、固有ブロックは、トレーニングセットからのブロックの大きなセットに対して重要な構成要素の解析を実行することによって生成された。この処理を、図6に示すとともに、付録Bにおいてより詳細に説明する。
システムのトレーニング
実験を、トレーニングブロックの2の異なるセットによって行った。
固有ブロックセットI
まず最初に、トレーニングセットの25個の顔画像から得られる一組のブロックを用いた。16×16ブロックを、重ならないように、16画素毎にサンプリングした。このサンプリングを、図6に示す。図6から明らかなように、16×16ブロックは、個々の64×64トレーニング画像から生成される。これにより、全体的に合計400個のトレーニングブロックが生成される。
固有ブロックの生成
この実施例の属性は、所謂固有ブロックに基づいている。固有ブロックを、トレーニングセットのブロックの有効な具象的な才能(good representational ability)を有するように設計した。したがって、固有ブロックは、トレーニングセットからのブロックの大きなセットに対して重要な構成要素の解析を実行することによって生成された。この処理を、図6に示すとともに、付録Bにおいてより詳細に説明する。
システムのトレーニング
実験を、トレーニングブロックの2の異なるセットによって行った。
固有ブロックセットI
まず最初に、トレーニングセットの25個の顔画像から得られる一組のブロックを用いた。16×16ブロックを、重ならないように、16画素毎にサンプリングした。このサンプリングを、図6に示す。図6から明らかなように、16×16ブロックは、個々の64×64トレーニング画像から生成される。これにより、全体的に合計400個のトレーニングブロックが生成される。
これらのトレーニングブロックから生成される第1の10個の固有ブロックを、図7に示す。
固有ブロックセットII
固有ブロックの第2のセットを、トレーニングブロックのより大きなセットから生成した。これらのブロックは、トレーニングセット内の500個の顔画像から得られた。この場合、16×16ブロックを、8画素が重なるように、8画素毎にサンプリングした。各64×64個のトレーニング画像から、49個のブロックが生成され、これを合計24,500個のトレーニングブロックに適用した。
固有ブロックセットII
固有ブロックの第2のセットを、トレーニングブロックのより大きなセットから生成した。これらのブロックは、トレーニングセット内の500個の顔画像から得られた。この場合、16×16ブロックを、8画素が重なるように、8画素毎にサンプリングした。各64×64個のトレーニング画像から、49個のブロックが生成され、これを合計24,500個のトレーニングブロックに適用した。
これらのトレーニングブロックから生成される第1の12の固有ブロックを、図8に示す。
実験に基づく結果により、固有ブロックセットIIが固有ブロックセットIよりわずかに有効な結果を与えることが分かった。
このことは、固有ブロックセットIIが、顔画像から取られたトレーニングブロックのより大きなセットから算出され、顔の変化をより良く表すと認められるからである。しかしながら、性能の向上は、大きくない。
ヒストグラムの作成
64×64顔画像内の各サンプリングされたブロック位置に対してヒストグラムを作成した。ヒストグラムの数は、ブロック間隔に依存する。例えば、16画素のブロック間隔の場合、16の可能なブロック位置があり、したがって、16個のヒストグラムが用いられる。
ヒストグラムの作成
64×64顔画像内の各サンプリングされたブロック位置に対してヒストグラムを作成した。ヒストグラムの数は、ブロック間隔に依存する。例えば、16画素のブロック間隔の場合、16の可能なブロック位置があり、したがって、16個のヒストグラムが用いられる。
図9は、単一のブロック位置を表すヒストグラムを作成するための処理を示す。ヒストグラムを、M個の顔画像の大きなトレーニングセット400を用いて作成する。各顔画像に対する処理は、以下の処理を含んでいる。
・顔画像の位置(i,j)から関連したブロックを抽出する処理410。
・ブロックの固有ブロックベースの属性を算出して、これらの属性から関連したビン数420を判定する処理。
・ヒストグラム430内の関連したビン数を増加させる処理。
・顔画像の位置(i,j)から関連したブロックを抽出する処理410。
・ブロックの固有ブロックベースの属性を算出して、これらの属性から関連したビン数420を判定する処理。
・ヒストグラム430内の関連したビン数を増加させる処理。
属性の出現度数の分布の有効な表現を与えるヒストグラムを作成するために、この処理は、トレーニングセット内のM個の画像のそれぞれに対して繰り返される。理想的には、Mの値は、非常に大きく、例えば数千である。この処理は、一組の元の顔と各元の顔の数百個の合成変化とからなるトレーニングセットを用いることにより、容易に達成することができる。
ヒストグラムビン数の生成
ヒストグラムビン数は、図10で示すように、以下の処理を用いて、所定のブロックから生成される。64×64ウィンドウ又は顔画像から16×16ブロック440を抽出する。ブロックは、一組の「固有ブロック重み(eigenblock weight)」を生成するためにA固有ブロックのセット450上で推定される。これらの固有ブロック重みは、この実行で用いられる「属性」である。固有ブロック重みは、−1〜+1の範囲を有する。この処理については、付録Bでより詳細に説明する。各重みを、一組の量子化属性470(wi,j=1,・・・,A)を生成するために、レベルLの固定量に量子化する。量子化重みを、以下のように、単一の値に結合する。
ヒストグラムビン数の生成
ヒストグラムビン数は、図10で示すように、以下の処理を用いて、所定のブロックから生成される。64×64ウィンドウ又は顔画像から16×16ブロック440を抽出する。ブロックは、一組の「固有ブロック重み(eigenblock weight)」を生成するためにA固有ブロックのセット450上で推定される。これらの固有ブロック重みは、この実行で用いられる「属性」である。固有ブロック重みは、−1〜+1の範囲を有する。この処理については、付録Bでより詳細に説明する。各重みを、一組の量子化属性470(wi,j=1,・・・,A)を生成するために、レベルLの固定量に量子化する。量子化重みを、以下のように、単一の値に結合する。
ここで、生成される値hは、ヒストグラムビン数480である。なお、ヒストグラムのビンの全数は、LAで与えられる。
ビン「成分(contents)」、すなわちそのビン数を増加する属性のセットの出現度数は、トレーニング画像の数Mで割ると、確率値であるとみなすことができる。しかしながら、確率を閾値と比較するので、実際にはMによる除算をする必要がなく、この値を、計算から除外する。したがって、以下の説明では、ビン「成分」は正確な意味では出現度数であるが、ビン「成分」を「確率値(probability values)」と称し、確率値であるかのように取り扱う。
上述の処理は、トレーニング段階と検出段階の両方で用いられる。
顔検出段階
顔検出処理は、検定画像を64×64の移動ウィンドウ(moving 64x64 window)によってサンプリングして、各ウィンドウ位置における顔確率を算出する処理を包む。
顔検出段階
顔検出処理は、検定画像を64×64の移動ウィンドウ(moving 64x64 window)によってサンプリングして、各ウィンドウ位置における顔確率を算出する処理を包む。
図11に、顔確率の計算を示す。ウィンドウ内の各ブロック位置において、前の章で説明したように、ブロックのビン数490を算出する。ブロックの位置に対する適切なヒストグラム500を用いて、各ビン数を調べ、そのビン数の確率510を決定する。そして、これらの確率の対数(log)の和520を全てのブロックに亘って算出し、顔確率値Pface(あるいは対数尤度値(log likelihood value))を生成する。
この処理は、全体の検定画像の確率「マップ(map)」を生成する。換言すれば、確率値は、画像の全体に亘る各可能なウィンドウ中心位置に関して導かれる。そして、これらの確率値の全ての長方(あるいは他)形状の配列への結合は、その画像に対応した確率「マップ」であると認められる。
そして、このマップを反転し、これにより、顔を検出する処理は、反転マップ内の最小値を見つけ出すことを含む。所謂距離ベースの技術(distance-based technique)を用いる。この技術は、次のように要約することができる。反転確率マップ内の最も小さい値を有するマップ(画素)位置を選択する。この値が閾値(TD)より大きいときは、それ以上は顔を選択しない。これは、終了基準(termination criterion)である。一方、選択された中心画素位置に対応している顔の大きさのブロックを無効にし(すなわち、後続の計算から除外し)、終了基準に達するまで、候補顔位置検出処理を画像の残りの部分に対して繰り返し行う。
顔でない方法
顔でないモデルは、顔を含まない画像の属性の確率分布を示すヒストグラムの更なるセットを含む。このヒストグラムは、トレーニング画像が顔の代わりに顔でない画像を含む以外は、顔モデルと全く同じ方法で生成される。
顔でない方法
顔でないモデルは、顔を含まない画像の属性の確率分布を示すヒストグラムの更なるセットを含む。このヒストグラムは、トレーニング画像が顔の代わりに顔でない画像を含む以外は、顔モデルと全く同じ方法で生成される。
検出を通じて、顔モデルと顔でないモデルを用いた2つの対数確率値を計算する。そして、これらを、単に顔確率から顔でない確率を減算ことによって結合する。
そして、Pcombinedを、(極性反転前の)確率マップを生成するために用いる。
なお、PfaceからPnonfaceを減算する理由は、それらが対数確率値であるからである。
ヒストグラムの具体例
図12a〜12fは、上述したトレーニング処理によって生成されるヒストグラムの具体例を示す図である。
ヒストグラムの具体例
図12a〜12fは、上述したトレーニング処理によって生成されるヒストグラムの具体例を示す図である。
図12a、12b、12cは、顔画像のトレーニングセットから導かれ、図、12d、12e、12fは、顔を含まない画像のトレーニングセットから導かれたものである。特に:
ピークが顔ヒストグラムと顔でないヒストグラムとでは異なる位置にあることが明らかに見られる。
多尺度(multiscale)顔検出
検定画像における異なる大きさの顔を検出するために、検定画像を係数の範囲(range of factors)によって拡大縮尺し(scale)、距離(distance、すなわち確率)マップを各尺度(scale)に対して生成する。図13a〜13cに、画像及びこれらの対応する距離マップを、3つの異なる尺度で示す。この手法は、最も小さい尺度(図13a)で大きな(中心の)対象に対して最良の応答(最高の確率又は最小の距離)を示し、大きな尺度でより小さい対象(主人物の左側)に対してより良い応答を示す。(マップ上のより暗い色は、反転マップにおけるより低い値、すなわちそこが顔であるというより高い確率を示す)。全ての尺度に対して最良の応答を示す位置を最初に検出ことによって、候補顔位置を異なる尺度に亘って抽出する。すなわち、最も高い確率(最も短い距離)を、全ての尺度で全ての確率マップ中で確定する。この候補位置は、顔としてラベルが付けられる第1の位置である。そして、その顔位置の中心におかれるウィンドウは、各尺度の確率マップから削除される。削除されるウィンドウの大きさは、確率マップの尺度に比例する。
多尺度(multiscale)顔検出
検定画像における異なる大きさの顔を検出するために、検定画像を係数の範囲(range of factors)によって拡大縮尺し(scale)、距離(distance、すなわち確率)マップを各尺度(scale)に対して生成する。図13a〜13cに、画像及びこれらの対応する距離マップを、3つの異なる尺度で示す。この手法は、最も小さい尺度(図13a)で大きな(中心の)対象に対して最良の応答(最高の確率又は最小の距離)を示し、大きな尺度でより小さい対象(主人物の左側)に対してより良い応答を示す。(マップ上のより暗い色は、反転マップにおけるより低い値、すなわちそこが顔であるというより高い確率を示す)。全ての尺度に対して最良の応答を示す位置を最初に検出ことによって、候補顔位置を異なる尺度に亘って抽出する。すなわち、最も高い確率(最も短い距離)を、全ての尺度で全ての確率マップ中で確定する。この候補位置は、顔としてラベルが付けられる第1の位置である。そして、その顔位置の中心におかれるウィンドウは、各尺度の確率マップから削除される。削除されるウィンドウの大きさは、確率マップの尺度に比例する。
この拡大縮小削除処理(scaled blanking out process)の具体例を、図13a〜13cに示す。特に、全てのマップに亘って最高の確率は、最大尺度マップ(図13c)の左側で検出される。図13cにおいて、顔の推定された大きさに対応する領域530を削除する。より小さいマップにおいて、対応する縮小された領域532、534を削除する。
重複検出を避けるために、マップの検定ウィンドウより大きな領域を削除する。特に、そのような重複検出を避けるのに適した領域の大きさは、検定ウィンドウの幅/長さに、それぞれの半分を加えた大きさである。
次に良い応答を検索し、対応するウィンドウを次々に削除にすることによって、新たな顔を検出する。
処理される尺度間で許容される間隔は、大きさの変化に対する処理の感度(sensitivity)に影響される。尺度に対して不変であるという(scale invariance)この予備的な研究において、多くの場合、ある尺度で良い応答を示した顔が同様に隣の尺度で良い応答を示すように、この処理が大きさの変化に極端に敏感でないことが分かった。
上述の説明では、画像における顔の大きさが検出処理の初めでは分かっていないときの顔検出について言及している。多数の尺度顔検出(multiple scale face detection)の別の態様は、検出処理を確証するために、異なる尺度での2つ以上の並列検出に用いることである。例えば、検出される顔が部分的に覆い隠され、あるいは人が帽子等をかぶっている場合に、この方法は、利点を有する。
図13d〜13gは、この処理を示す図である。トレーニング段階の間、装置を、「フルフェース(full face)」ヒストグラムデータを生成するために、検定顔全体を囲むウィンドウ(図13d、上述したようにそれぞれのブロックに分割されている)上でトレーニングし、更に、「ズームイン(zoomed in)」ヒストグラムデータを生成するために、検定顔の中心領域だけが含まれるように拡大した尺度のウィンドウ(図13e)上でトレーニングする。これにより、2セットのヒストグラムデータを生成する。1つのセットは、図13dの「フルフェース」ウィンドウに関し、他のセットは、図13eの「中心顔領域(central face area)」ウィンドウに関する。
検出段階の間、あらゆる与えられた検定ウィンドウ536において、検定ウィンドウが顔の予想される大きさの全部を囲み(図13f)、また、他の検定ウィンドウがその予想される大きさで顔の主要な領域を含む(図13g)ように、ウィンドウを、検定画像の2つの異なる尺度に対して適用する。これらは、それぞれ、上述したように処理し、ウィンドウの種類に適したヒストグラムデータの各セットと比較する。各並列処理からの対数確率を加えた後、閾値と比較する。
これらの多尺度顔検出の態様を一緒にすることにより、特に、格納しなければならないデータ量を著しく節約することができる。
特に、これらの実施例において、図13a〜13cの配置に対する複数の尺度は、等比数列的に配列されている。この具体例においては、等比数列の項として並べられた各尺度における隣り合う尺度は、次項が前項の4√2倍となるように配列されている。そして、図13d〜13gによって説明した並列検出のために、より大きな尺度、中央領域、検出は、この数列において3段階高い尺度、すなわち「フルフェース」尺度よりも23/4倍大きな尺度で、数列において3段階高い尺度に関する属性データを用いて実行する。したがって、複数の尺度範囲の両端は別として、等比数列(geometric progression)は、図13d〜13gの並列検出が、順番で3段階高い他の多尺度に関して生成される属性データを用いて、常に実行できることを意味している。
2つの処理(多尺度検出と並列尺度検出)は、様々な方法で組み合わせることができる。例えば、図13a〜13cの多尺度検出処理を最初に適用し、それから、図13d〜13gの並列尺度検出処理を、多尺度検出処理の間に識別された領域(及び尺度)で適用することができる。しかしながら、属性データの便利で効率的な使用は、以下のようにして達成することができる。
・各尺度で検定ウィンドウに関する属性を導く(図13a〜13cに示すように)。
・それらの属性を「フルフェース」ヒストグラムデータと比較して、「フルフェース」の距離マップのセットを生成する。
・属性を「ズームイン」ヒストグラムデータと比較して、「ズームイン」の距離マップのセットを生成する。
・各尺度nについて、尺度n+3の「ズームイン」距離マップを、尺度nの「フルフェース」距離マップに組み合わせる。
・図13a〜13cによって上述したように、組み合わせた距離マップから顔位置を導く。
・各尺度で検定ウィンドウに関する属性を導く(図13a〜13cに示すように)。
・それらの属性を「フルフェース」ヒストグラムデータと比較して、「フルフェース」の距離マップのセットを生成する。
・属性を「ズームイン」ヒストグラムデータと比較して、「ズームイン」の距離マップのセットを生成する。
・各尺度nについて、尺度n+3の「ズームイン」距離マップを、尺度nの「フルフェース」距離マップに組み合わせる。
・図13a〜13cによって上述したように、組み合わせた距離マップから顔位置を導く。
更に、例えば正面、部分的に上、下、左、右等を見た様々なポーズを検出するために、並列検定を、実行することができる。ここで、ヒストグラムデータのそれぞれのセットが必要とされるとともに、結果が、「最大」関数を用いて好ましくは組み合わせられ、すなわち、最も高い確率を与えるポーズは閾値処理に送られ、他は破棄される。
顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。
顔追跡
顔追跡アルゴリズムについて説明する。追跡アルゴリズムは、画像シーケンスにおいて顔検出性能を向上させることを意図している。
追跡アルゴリズムの初期の目標は、画像シーケンスの全てのフレームにおける全ての顔を検出することである。しかしながら、時々、シーケンス内の顔が検出できないことが認められる。これらの環境で、追跡アルゴリズムは、見逃した顔検出全体で補間するように補佐することができる。
最終的に、顔追跡の目標は、画像シーケンスにおいて同じシーンに属しているフレームの各セットから有効なメタデータを出力できることである。このメタデータには、以下のものが含まれる。
・顔の数。
・各顔の「顔写真(Mugshot)」(個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている)。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別(前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの)−顔の識別には、顔の認識も必要とされる。
・顔の数。
・各顔の「顔写真(Mugshot)」(個人の顔の画像を表す口語的な言葉、警察にファイルされている写真を照会する用語からきている)。
・各顔が最初に出現するフレーム番号。
・各顔が最後に出現するフレーム番号。
・各顔の識別(前のシーンで見られた顔に一致するか、顔のデータベースに一致したもの)−顔の識別には、顔の認識も必要とされる。
追跡アルゴリズムは、顔検出アルゴリズムの結果を用い、画像シーケンスの各フレーム上で、その開始位置として独立して実行される。顔検出アルゴリズムは時々顔を逃がす(検出しない)こともあるので、見逃した顔を内挿する(interpolating)方法は有効である。このために、顔の次の位置を予測するためにカルマンフィルタ(Kalman filter)を用い、顔追跡を助けるために、肌色マッチングアルゴリズム(skin color matching algorithm)を用いた。更に、顔検出アルゴリズムが頻繁に誤った採用の原因となるので、また、これらを排除する方法は有効である。
このアルゴリズムを、図14に示す。
このアルゴリズムについては以下に詳細に説明するが、要約すると、入力ビデオデータ545(画像シーケンスを表す)がこの出願で説明される種類の検出器540及び肌色マッチング検出器550に供給される。顔検出器540は、各画像内で1つ以上の顔を検出することを試みる。顔が検出されると、カルマンフィルタ560が起動され、その顔の位置を追跡する。カルマンフィルタ560は、画像シーケンスにおける次の画像内で同じ顔の予測される位置を生成する。目の位置比較器570、580は、顔検出器540が次の画像内のその位置(あるいは、その位置からある閾値距離の範囲内)で顔を検出したかを、検出する。顔が検出された場合、その検出された顔位置は、カルマンフィルタを更新するために用いられ、処理が続けられる。
顔が予測された位置で、あるいは近くで検出されない場合、肌色マッチング回路550を用いる。肌色マッチング回路550は、厳密でない顔検出技術であり、その検出の閾値は顔検出器540よりも低く設定され、顔検出器540がその位置で顔があると検出することができないときでさえ、顔を検出する(顔があるとみなす)ことができる。肌色マッチング回路550によって「顔」が検出されると、その位置がカルマンフィルタ560に更新された位置として供給され、処理が続けられる。
顔検出器450又は肌色マッチング回路550によって一致が検出されないときは、カルマンフィルタを更新するために予測された位置を用いる。
これらの結果の全ては、判定基準(下記参照)に対する対象である。したがって、例えば、1つの正しい検出に基づきシーケンスを通して追跡される顔、及び予測の残り又は肌色検出の残りは、破棄する。
独立したカルマンフィルタは、追跡アルゴリズムにおいて各顔を追跡するために用いられる。
顔を追跡するためにカルマンフィルタを用いるためには、顔を表す状態モデルを、生成しなければならない。状態モデルにおいて、各顔の位置は、左右の目の座標を含む4次元のベクトルによって表し、左右の目の座標は、ウィンドウの中央位置に対する所定の関係によって順番に導かれる。そして、以下の尺度を用いる。
ここで、kはフレーム番号である。
顔の現在の状態は、12次元のベクトルにおける、その位置、速度及び加速度によって表される。
検出された最初の顔
追跡アルゴリズムは、顔の存在を示す顔検出結果とともにフレームが供給されるまで、何もしない。
追跡アルゴリズムは、顔の存在を示す顔検出結果とともにフレームが供給されるまで、何もしない。
そして、カルマンフィルタ560は、このフレームで検出された各顔毎に初期化される。その状態は、顔の位置によって、及び速度及び加速度をゼロとして初期化される。
また、カルマンフィルタ560は、他の属性状態、すなわちモデル誤差共分散(state model error covariance)Qと、観測誤差共分散(observation error covariance)Rとが割り当てられる。また、カルマンフィルタの誤差共分散Pも、初期化される。これらのパラメータについては、後により詳細に説明する。次のフレーム及び全ての後続のフレームの初めに、カルマンフィルタの予測処理が実行される。
カルマンフィルタの予測処理
各既存のカルマンフィルタに対して、顔の次の位置が、以下の標準カルマンフィルタ予測方程式を用いて予測される。カルマンフィルタは、前状態(フレームk−1)、及びフィルタの現状態(フレームk)を推定する他の内部及び外部変数を用いる。
状態予測式:
カルマンフィルタの予測処理
各既存のカルマンフィルタに対して、顔の次の位置が、以下の標準カルマンフィルタ予測方程式を用いて予測される。カルマンフィルタは、前状態(フレームk−1)、及びフィルタの現状態(フレームk)を推定する他の内部及び外部変数を用いる。
状態予測式:
共分散予測方程式:
ここで、Zb^(k)(「Zb^」は、ハットZbを表すもとのする。以下同様)は、フレームkに対するフィルタを更新する前の状態を示し、Za^(k−1)はフレームk−1に対するフィルタを更新した後の状態(あるいは、それが新規のフィルタであるときは、初期化状態)を示し、φ(k,k−1)は状態推移行列である。様々な状態推移行列を、後述するように試した。同様に、Pb(k)は、フレームkに対するフィルタを更新する前のフィルタの誤差共分散を示し、Pa(k―1)は、前フレームに対するフィルタを更新した後のフィルタの誤差共分散(あるいは、それが新規のフィルタであるときは、初期化された値)を示す。Pb(k)は、その精度をモデル化するフィルタの内部変数として考えることができる。
Q(K)は、状態モデルの誤差共分散である。Q(k)の高い値は、フィルタの状態の予測値(すなわち顔の位置)が高いレベルの誤差を有するとみなされることを意味する。このパラメータを調整することによって、フィルタの動作を変更することができ、顔検出に対して潜在的に向上させることができる。
状態推移行列
状態推移行列(φ(k,k―1))は、次の状態の予測をどのようにして行うかを決定する。運動方程式を用い、φ(k,k―1)に対して次の行列を導くことができる。
状態推移行列
状態推移行列(φ(k,k―1))は、次の状態の予測をどのようにして行うかを決定する。運動方程式を用い、φ(k,k―1)に対して次の行列を導くことができる。
ここで、Q4は4×4零行列であり、I4は4×4単位行列である。Δtは、簡単に1(すなわち、tの単位はフレーム周期である)に設定することができる。
この状態推移行列は、位置、速度及び加速度をモデル化する。しかしながら、予測状態を補正するために顔検出が利用できなかったときには、加速度を使用すると、顔の予測が画像の端の方に加速される傾向があることが、分かった。したがって、加速度を用いないより単純な状態推移行列が好ましい。
各カルマンフィルタの予測された目位置Zb^(k)を、現フレームにおける全ての顔検出結果(存在する場合)と比較する。目位置間の距離が所定の閾値以下であるときは、顔検出は、カルマンフィルタによってモデル化される顔と同じ顔に属するとみなすことができる。そして、顔検出結果を、顔の現在の状態の観測y(k)として扱う。
ここで、p(k)は顔検出結果の目の位置である。この観測は、予測を補正するのを助けるために、カルマンフィルタ更新過程の間、用いられる。
肌色マッチング
肌色マッチングは、顔検出結果と良く一致する顔に対しては用いられない。肌色マッチングは、カルマンフィルタによって位置が予測された顔に対して実行されるだけであり、現フレーム内の顔検出結果に一致しない、したがってカルマンフィルタの更新に役立つ観測データがない顔に対しては実行されない。
肌色マッチング
肌色マッチングは、顔検出結果と良く一致する顔に対しては用いられない。肌色マッチングは、カルマンフィルタによって位置が予測された顔に対して実行されるだけであり、現フレーム内の顔検出結果に一致しない、したがってカルマンフィルタの更新に役立つ観測データがない顔に対しては実行されない。
第1の手法において、各顔に対して、顔の前の位置を中心とした楕円状の領域が前フレームから抽出される。このような領域の具体例は、図16に示すように、顔ウィンドウ610内の領域600である。ガウス分布モデルに基づいて、Cr値及びCb値の平均値及び共分散の推定値を生成するために、この領域の色差データを用いる色モデルを、シードする。
そして、現フレームの予測された顔位置の周辺の領域を検索し、楕円状の領域で再び平均した色モデルと最も一致する位置を選択する。色一致が所定の類似基準を満たすときは、この位置を、前の章で説明した顔検出結果と同様の方法で、顔の現在の状態の観測y(k)として用いる。
図15a及び図15bは、探索領域の生成を具体的に説明する図である。特に、図15aは、次の画像630内の顔の予測された位置620を具体的に説明するための図である。肌色マッチング回路540において、次の画像で予測された位置620を囲んでいる探索領域640が、顔を検出するために検索される。
色の一致が類似基準を満たさないときは、現フレームに対する信頼性が高い観測データは利用できない。代わりに、予測状態Zb^(k)を観測データとして用いる。
上述した肌色マッチング方法は、単純なガウス分布の肌色モデルを用いる。モデルは、前フレームで顔の中央に置かれる楕円状の領域の上でシードされて、現フレームで最も一致している楕円状の領域を検出したものである。しかしながら、潜在的により有効な性能を得るために、更なる2つの方法、すなわち色ヒストグラム法(color histogram method)及び色マスク法(color mask method)を開発した。これらを次に説明する。
色ヒストグラム法
この方法においては、追跡された顔で色の分布をモデル化するガウス分布を用いる代わりに、色ヒストグラムを用いる。
色ヒストグラム法
この方法においては、追跡された顔で色の分布をモデル化するガウス分布を用いる代わりに、色ヒストグラムを用いる。
前フレームの各追跡された顔に対して、顔の周りの正方形のウィンドウ内のCr値及びCb値のヒストグラムを計算する。ヒストグラムを計算するために、各画素に関するCr値とCb値を、まず、単一の値に組み合わせる。次に、全部のウィンドウ内のこれらの値の出現度数を評価するヒストグラムを計算する。組み合わせるCr値とCb値の数が大きい(256×256の可能な組合せ)ので、ヒストグラムを算出する前に、値を量子化する。
前フレームの追跡された顔に対するヒストグラムを算出し、このヒストグラムを現フレームに対して用いて、最も類似した色分布を有する画像の領域を検出することによって、顔の最も有望な新たな位置を推定することを試みる。図15a、15bに示すように、この推定は、現フレームの探索領域内のウィンドウ位置の範囲に対して正確に同じ方法でヒストグラムを算出することによって、行う。この探索領域は、予測された顔位置の周辺の所定の領域を含む。そして、前フレームの追跡された顔に関する元のヒストグラムと現フレームの各ヒストグラム間の二乗平均誤差(MSE)を算出することによって、これらのヒストグラムを比較する。現フレームの顔の推定される位置は、最小のMSEの位置によって与えられる。
この色ヒストグラム法のアルゴリズムは、様々に変更することができ、以下のものが含まれる。
・2チャンネル(Cr、Cb)の代わりに3チャンネル(Y、Cr、Cb)を用いる。
・量子化レベルの数を変える。
・ウィンドウをブロックに分割して、各ブロックのヒストグラムを算出する。この方法では、色ヒストグラム法は、位置的に依存するようになる。この方法では、ヒストグラムの各対間のMSEを合計する。
・ウィンドウを分割するブロックの数を変える。
・実際に使用するブロックを変える。例えば、単に部分的に顔の画素を含む外側のブロックを省略する。
・2チャンネル(Cr、Cb)の代わりに3チャンネル(Y、Cr、Cb)を用いる。
・量子化レベルの数を変える。
・ウィンドウをブロックに分割して、各ブロックのヒストグラムを算出する。この方法では、色ヒストグラム法は、位置的に依存するようになる。この方法では、ヒストグラムの各対間のMSEを合計する。
・ウィンドウを分割するブロックの数を変える。
・実際に使用するブロックを変える。例えば、単に部分的に顔の画素を含む外側のブロックを省略する。
これらの技術の実証的な試験で用いられる試験データに対して、最良の結果は次の条件を用いて達成された。しかしながら、他の条件により、異なる試験データを用いて、同様に良好な又はより良い結果が得られることもある。
・3チャンネル(Y、Cr及びCb)。
・各チャンネルに対して8つの量子化レベル(すなわち、ヒストグラムは8×8×8=512ビン(bins)を含む)。
ウィンドウを16ブロックに分割する。
16個の全てのブロックを使用する。
色マスク法
この方法は、上述した第1の方法に基づいている。色マスク法は、顔の画素分布を記述するのに、ガウス分布肌色モデルを用いる。
・3チャンネル(Y、Cr及びCb)。
・各チャンネルに対して8つの量子化レベル(すなわち、ヒストグラムは8×8×8=512ビン(bins)を含む)。
ウィンドウを16ブロックに分割する。
16個の全てのブロックを使用する。
色マスク法
この方法は、上述した第1の方法に基づいている。色マスク法は、顔の画素分布を記述するのに、ガウス分布肌色モデルを用いる。
上述した第1の方法における顔の中央に置かれた楕円状の領域を、色一致顔に用いる。この領域は、モデルを劣化する可能性がある背景画素の数を減らし、又は最小にすると認められる。
存在色マスクモデルにおいて、類似した楕円状の領域を、例えばガウス分布モデルのパラメータを設定するためにRGB又はYCrCbの平均値及び共分散を適用することによって、前フレームで元の追跡された顔に色モデルをシードするために、更に用いる(あるいは、代わりに、ガウス分布モデルのようなデフォルトの色モデルを、以下に示すように、用いることができる)。しかしながら、現フレームにおいて最良の一致を検索するときは、それは用いられない。代わりに、マスク領域を、前フレームからの元の顔のウィンドウにおける画素の分布に基づいて算出する。マスクは、最も色モデルと一致するウィンドウ内の50%の画素を検出することによって算出される。具体例を、図17a〜17cに示す。詳細には、図17aは、検定における初期のウィンドウを具体的に示している。図17bは、色モデルをシードするために使用される楕円状のウィンドウを具体的に示している。図17cは、最も色モデルと一致する50%の画素によって定義されるマスクを具体的に示している。
現フレームにおいて顔の位置を推定するために、予測された顔位置の周りの探索領域を検索し(前と同じ)、色モデルからの「距離」を各画素に対して算出する。「距離」は、その次元の分散によって各次元で正規化された平均値からの差を表している。得られる距離画像の具体例を図18に示す。この距離マップの各位置に対して(あるいは、計算時間を減らすためにサンプリングされた位置の少ないセットに対して)、距離画像の画素は、マスクの形をした領域上で平均されている。そして、最低の平均距離を有する位置を、このフレームにおける顔の位置の最良の推定値として、選択する。
したがって、この方法は、楕円状の領域の代わりに、マスクの形をした領域を距離画像において用いるという点で、元の方法と異なる。これにより、色マッチング法は、色と形状の両方の情報を使用することができる。
2つの変形例を提案し、技術の実証的な試験において実行した。
(a) ガウス分布肌色モデルは、前フレームにおいて追跡された顔の中央に置かれた楕円状の領域のCr及びCbの平均値及び共分散を用いてシードされる。
(b)デフォルトのガウス分布肌色モデルは、前フレームのマスクを算出するために、及び現フレームにおいて距離画像を算出するための両方に、用いられる。
(a) ガウス分布肌色モデルは、前フレームにおいて追跡された顔の中央に置かれた楕円状の領域のCr及びCbの平均値及び共分散を用いてシードされる。
(b)デフォルトのガウス分布肌色モデルは、前フレームのマスクを算出するために、及び現フレームにおいて距離画像を算出するための両方に、用いられる。
ここで、ガウス分布肌色モデルの使用について説明する。肌色クラスのガウス分布モデルは、YCbCr色空間の色差成分を用いて作成される。肌色クラスへの検定画素の類似は、そして、評価されることができる。この方法は、したがって各画素(独立して固有顔に拠点を置く方法の)に関する、肌色尤度推定値を提供する。
検定画素のCbCr値のベクトルをwとする。肌色クラスSにwが属している確率は、二次元のガウス分布によってモデル化される:
ここで、分布の平均値μs及び共分散行列Σ3は、肌色値のトレーニングセットから予め推定される。肌色検出は、単独で用いた場合、効果的な顔検出法とはならない。これは、画像内には、肌色に類似する多くの領域が存在する可能性があり、これらの領域は、例えば顔以外の体の一部等、必ずしも顔ではないことが多いからである。しかしながら、この肌色検出を顔追跡システムについて説明した手法と組み合わせて用いることにより、固有顔法の性能を向上させることができる。顔検出された目位置及びカルマンフィルタによる観測として色マッチングした目位置のいずれを認めるか、又はいずれの観測も認めないかに関する決定を保存する。この決定に関する情報は、各カルマンフィルタによってモデル化された顔に関する継続中の有効性を評価するために後に用いられる。
カルマンフィルタ更新ステップ
更新ステップは、状態予測及び観測データに基づいて、現在のフレームに対するフィルタの出力を適切なものにするために用いられる。更新ステップでは、予測された状態と観測された状態との間の誤差に基づいて、フィルタの内部変数も更新される。
カルマンフィルタ更新ステップ
更新ステップは、状態予測及び観測データに基づいて、現在のフレームに対するフィルタの出力を適切なものにするために用いられる。更新ステップでは、予測された状態と観測された状態との間の誤差に基づいて、フィルタの内部変数も更新される。
更新ステップでは、以下の式が用いられる。
カルマン利得式
状態更新式
共分散更新式
ここで、K(k)は、カルマンフィルタの他の内部変数であるカルマン利得を表す。カルマン利得は、観測された状態に基づいて、予測された状態y(k)をどれ程調整するかを決定するために用いられる。
H(k)は、観測行列を表す。これは、状態のどの部分が観測可能であるかを決定する。ここでは、顔の位置のみが観測可能であり、速度又は加速度は観測可能でないため、H(k)として以下の行列を用いる。
R(k)は、観測データの誤差共分散を表す。Q(k)と同様に、R(k)の値が大きいことは、フィルタ状態の観測された値(すなわち、顔検出結果又は色マッチング)の誤差が大きいことを意味する。このパラメータを調整することにより、フィルタの振る舞いを変更し、顔検出の精度を潜在的に向上させることができる。本願発明者らによる実験では、Q(k)に対して大きな値のR(k)は、適当であることが見出された(これは、予測された顔位置が観測より信頼性が高いものとして取り扱われていることを意味する)。なお、これらのパラメータはフレーム毎に変更してもよい。したがって、観測が顔検出結果(より信頼できる)に基づいているか、色マッチング(信頼性が低い)に基づいているかに基づいて、将来検討すべき領域について、R(k)とQ(k)の相対的な値を調整してもよい。
各カルマンフィルタについて、更新状態Za^(k)を顔の位置に関する最終決定として用いる。このデータはファイルに出力し、保存する。
マッチングされた顔検出結果は、新たな顔として取り扱う。これらの新たな顔については、新たなカルマンフィルタを初期化する。以下の顔は削除される。
・ピクチャのエッジから外れた顔及び/又は
・これらの顔をサポートする継続中の証拠がない顔(顔検出結果又は色マッチングより、カルマンフィルタ予測に基づく観測の割合が高い場合)
これらの顔については、関連するカルマンフィルタを除去し、ファイルにはデータを出力しない。
・ピクチャのエッジから外れた顔及び/又は
・これらの顔をサポートする継続中の証拠がない顔(顔検出結果又は色マッチングより、カルマンフィルタ予測に基づく観測の割合が高い場合)
これらの顔については、関連するカルマンフィルタを除去し、ファイルにはデータを出力しない。
この手法からの任意の変形例として、顔がピクチャから外れたことが検出された場合、その顔がピクチャから外れる前のフレームまでの追跡結果を保存し、有効な顔追跡結果として取り扱ってもよい(この結果が追跡結果に適用される他の判断基準に適合していることを前提とする)。これらの結果は、次のような更なる変数を用いることによって定式化及び構築することができる。
prediction_acceptance_ratio_threshold(予測許容率閾値)
所定の顔の追跡の間に、許容されたカルマン予測顔位置の割合が、この閾値を超えた場合、追跡された顔は拒否される。この閾値は、現在0.8に設定している。
detection_acceptance_ratio_threshold(検出許容率閾値)
全てのフレームに亘る最後のパスの間に、所定の顔について、許容された顔検出割合がこの閾値を下回った場合、追跡された顔は拒否される。この閾値は、現在0.08に設定している。
min_ frames(最少フレーム)
全てのフレームに亘る最後のパスの間に、所定の顔について、発生回数がmin_ framesより少ない場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。min_ framesは、現在5に設定している。
final_prediction_acceptance_ratio_threshold及びmin_frames2(最終予測許容率閾値及び最少フレーム2)
全てのフレームに亘る最後のパスの間に、追跡されている所定の顔の発生回数がmin_frames2であり、許容されたカルマン予測顔位置の割合がfinal_prediction_acceptance_ratio_thresholdを超えた場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。final_prediction_acceptance_ratio_thresholdは、現在0.5に設定してあり、min_frames2は、現在10に設定してある。
min_eye_spacing(最小目間隔)
更に、追跡された顔の目の間隔が所定の最小距離を下回る場合、その顔を除外する。このような状況は、カルマンフィルタが目の間隔が狭くなっていると誤って判断し、例えば顔検出結果等、この判断を訂正する他の証拠がない場合に生じる。これを訂正しなければ、目の感覚は最終的に0になってしまう可能性がある。任意の変形例として、目の間隔に関する最小値又は下限を強制的に設定し、検出された目間隔が最小目間隔より小さい場合、検出処理はその目間隔を有する顔の探索を継続し、これより小さい目間隔を有する顔の探索は行わないようにしてもよい。
prediction_acceptance_ratio_threshold(予測許容率閾値)
所定の顔の追跡の間に、許容されたカルマン予測顔位置の割合が、この閾値を超えた場合、追跡された顔は拒否される。この閾値は、現在0.8に設定している。
detection_acceptance_ratio_threshold(検出許容率閾値)
全てのフレームに亘る最後のパスの間に、所定の顔について、許容された顔検出割合がこの閾値を下回った場合、追跡された顔は拒否される。この閾値は、現在0.08に設定している。
min_ frames(最少フレーム)
全てのフレームに亘る最後のパスの間に、所定の顔について、発生回数がmin_ framesより少ない場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。min_ framesは、現在5に設定している。
final_prediction_acceptance_ratio_threshold及びmin_frames2(最終予測許容率閾値及び最少フレーム2)
全てのフレームに亘る最後のパスの間に、追跡されている所定の顔の発生回数がmin_frames2であり、許容されたカルマン予測顔位置の割合がfinal_prediction_acceptance_ratio_thresholdを超えた場合、その顔は拒否される。このような場合が生じる可能性があるのは、シーケンスの最後の近くのみである。final_prediction_acceptance_ratio_thresholdは、現在0.5に設定してあり、min_frames2は、現在10に設定してある。
min_eye_spacing(最小目間隔)
更に、追跡された顔の目の間隔が所定の最小距離を下回る場合、その顔を除外する。このような状況は、カルマンフィルタが目の間隔が狭くなっていると誤って判断し、例えば顔検出結果等、この判断を訂正する他の証拠がない場合に生じる。これを訂正しなければ、目の感覚は最終的に0になってしまう可能性がある。任意の変形例として、目の間隔に関する最小値又は下限を強制的に設定し、検出された目間隔が最小目間隔より小さい場合、検出処理はその目間隔を有する顔の探索を継続し、これより小さい目間隔を有する顔の探索は行わないようにしてもよい。
なお、追跡処理は、必ずしもビデオシーケンスを時間的に順方向に追跡する必要はない。画像データにアクセス可能であれば(すなわち、処理が実時間ではなく、又は画像データが時間的に継続する用途のためにバッファリングされている場合)、追跡処理を時間的に逆方向に行うこともできる。または、第1の顔が検出された場合(多くの場合ビデオシーケンスの途中で検出される)、追跡処理は、時間的に順方向及び逆方向の両方について開始してもよい。更なる任意の処理として、追跡処理は、ビデオシーケンス全体に亘って、時間的に順方向及び逆方向の両方について実行し、これらの追跡の結果を組み合わせて(例えば)許容基準に適合する追跡された顔が、追跡が実行されたいずれの方向についても有効な結果として含ませてもよい。
図14に示す追跡システムは、3つの更なる特徴を有している。
ショット境界データ(shot boundary data)560(検査中の画像シーケンスに関連するメタデータから抽出され、又は図2に示すカメラ内で生成されたメタデータから抽出される)は、画像シーケンス内の連続する「ショット」の境界を定義する。カルマンフィルタは、ショットの境界においてリセットされ、後続するショットに関する予測は行わない。このような予測は無意味である可能性があるためである。
顔検出器540には、ユーザメタデータ542及びカメラ設定メタデータ544を供給する。これらのデータは、非追跡システム(non-tracking system)においても使用することができる。カメラ設定メタデータ544の具体例については、上述した通りである。ユーザメタデータ542は、以下のような情報を含んでいてもよい。
・番組の種類(ニュース、インタビュー、ドラマ等)
・例えば「遠くからのショット」、「カメラが接近する」(特定の種類のカメラショットに基づいて、顔のサイズのサブレンジが予測される)、各ショットに何人の人が含まれるか(これによっても、顔のサイズのサブレンジが予測される)等、ショットの詳細に関する脚本情報。
・スポーツ関連情報。スポーツは、多くの場合、固定されたカメラ位置から標準的なビュー及びショットを用いて撮影される。これらのメタデータにおいて特定することによって、顔のサイズのサブレンジを導き出すことができる。
・番組の種類(ニュース、インタビュー、ドラマ等)
・例えば「遠くからのショット」、「カメラが接近する」(特定の種類のカメラショットに基づいて、顔のサイズのサブレンジが予測される)、各ショットに何人の人が含まれるか(これによっても、顔のサイズのサブレンジが予測される)等、ショットの詳細に関する脚本情報。
・スポーツ関連情報。スポーツは、多くの場合、固定されたカメラ位置から標準的なビュー及びショットを用いて撮影される。これらのメタデータにおいて特定することによって、顔のサイズのサブレンジを導き出すことができる。
番組の種類は、画像又は画像シーケンス内に存在すると予想される顔の種類に関連する。例えば、ニュース番組では、画像シーケンスの大部分において、画面の(例えば)10%を占める単一の顔が登場することが予想される。スケールが異なる顔の検出は、このデータに応じて、このサイズに近い顔の可能性を高めるように重み付けすることができる。これに代えて、又はこれに加えて、検索範囲を削減し、全ての可能なスケールを探索するのではなく、所定のスケールのサブセットのみを探索するようにしてもよい。これにより、顔検出処理の処理負担を軽減することができる。したがって、ソフトウェアに基づくシステムでは、ソフトウェアをより速やかに実行でき及び/又はよりパワーが小さいプロセッサで実行できる。また、ハードウェアに基づくシステム(例えば、特定用途向け集積回路(application-specific integrated circuit:ASIC)を含む。)では、ハードウェアに対する要求を軽減できる。
上述した他の種類のユーザメタデータを同様に適用してもよい。「予想される顔のサイズ」のサブレンジは、例えば、メモリ30内に格納されたルックアップテーブルに登録してもよい。
例えばレンズ110のフォーカス及びズームに関するカメラメタデータについて、画像の前景に存在する可能性がある任意の顔の予想される画像サイズに関する初期的な指標を与えることにより、顔検出器を補助することができる。これに関して、フォーカス及びズームの間の設定は、カムコーダ100と、撮像されている個人との間の予想される距離、及びレンズ110の拡大率を定義する。これら2つの属性から、平均顔サイズに基づき、結果として得られる画像データにおける顔の予想されるサイズ(画素数)を算出することができ、これに基づいて探索すべきサイズのサブレンジを決定し、又は予想される顔サイズの重み付けを行うことができる。
追跡アルゴリズムの利点
顔追跡法は、以下のような3つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める(fill in)ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。
追跡アルゴリズムの利点
顔追跡法は、以下のような3つの主な利点を有する。
・顔検出結果が得られないフレームにおいて、カルマンフィルタリング及び肌色追跡を用いることにより、見逃された顔を埋める(fill in)ことができる。これにより、画像シーケンス間に亘って、真の許容率を高めることができる。
・顔を連続的に追跡することにより、顔のリンクを提供できる。アルゴリズムは、将来のフレームにおいて検出された顔が同じ個人の顔であるか、他の個人の顔であるかを自動的に知ることができる。したがって、このアルゴリズムから、シーン内の顔の数やこれらの顔が存在するフレームに関する情報を含むシーンメタデータを容易に作成することができ、各顔の代表的な顔写真を作成することもできる。
・顔の誤検出は、画像間で連続することは希であるため、顔の誤検出率を低くすることができる。
図19a〜図19cは、ビデオシーケンスに適用される顔追跡を説明する図である。具体的には、図19aは、連続するビデオ画像(例えば、フィールド又はフレーム)810から構成されるビデオシーン800を図式的に示している。この具体例では、画像810は、1又は複数の顔を含んでいる。詳しくは、このシーン内の全ての画像810は、画像810の図式的表現内における左上に示す顔Aを含んでいる。更に、一部の画像810は、画像810の図式的表現内における右下に示す顔Bを含んでいる。
この図19aに示すシーンに顔追跡処理を適用したとする。顔Aは、当然、シーン全体に亘って追跡される。1つの画像820においては、直接検出によっては顔は追跡されていないが、上述した色マッチング法及びカルマンフィルタリング法により、「見逃された(missing)」画像820の前後の両側について、検出が連続していることを示唆する。図19bは、検出された、各画像内に顔が存在する可能性を示している。図19bに示すように、この可能性は、画像830において最も高く、したがって、顔Aを含むと判定された画像の部分840を顔Aに関する「ピクチャスタンプ」として用いる。ピクチャスタンプについては、後により詳細に説明する。同様に、顔Bは、異なるレベルの信頼度で検出され、特に画像850は、顔Bが存在する可能性が最も高いと判定されている。したがって、顔Bを含むと判定された対応する画像の一部(部分860)をこのシーンにおける顔Bのピクチャスタンプとして使用する。(もちろん、これに代えて、画像のより広い部分又は画像全体をピクチャスタンプとして用いてもよい。)
非線形編集装置の表示画面を図20に示す。非線型編集装置は、広く用いられているものであり、例えば図1に示すような汎用コンピュータ装置上で実行されるソフトウェアプログラムとして実現される場合も多い。これらの編集システムにより、ビデオ、オーディオ及びその他のマテリアルを編集し、各媒体アイテム(例えば、ビデオショット)が捕捉された順序から独立したメディア作品を制作することができる。
非線形編集装置の表示画面を図20に示す。非線型編集装置は、広く用いられているものであり、例えば図1に示すような汎用コンピュータ装置上で実行されるソフトウェアプログラムとして実現される場合も多い。これらの編集システムにより、ビデオ、オーディオ及びその他のマテリアルを編集し、各媒体アイテム(例えば、ビデオショット)が捕捉された順序から独立したメディア作品を制作することができる。
図20に示す表示画面には、ビデオクリップを見ることができるビューワ領域900と、後に説明する一組のクリップアイコン910と、タイムライン920とが表示され、タイムライン920は、編集されたビデオショット930の表現が含まれ、各ショットは、任意項目として、そのショットのコンテンツを示すピクチャスタンプ940を含んでいる。
あるレベルにおいて、図19a〜図19cを用いて説明したように導き出されたピクチャスタンプを各編集されたショットのピクチャスタンプ940として用い、これにより、捕捉された元のショットより短くなる場合もある編集された長さのショット内において、最も高い確率値を有する顔検出を表すピクチャスタンプをタイムラインに挿入し、ショットからの代表画像を示すことができる。この確率値を、基本的な顔検出閾値より高く設定することもできる閾値と比較し、信頼性が高い顔検出のみに基づいてピクチャスタンプを作成するようにしてもよい。編集されたショット内で2以上の顔が検出された場合、最も確率が高い顔を表示するようにしてもよく、タイムライン上に2以上の顔のピクチャスタンプを表示するようにしてもよい。
非線型編集装置は、多くの場合、スケーリング機能を有し、表示画面の全幅に対応する長さは、出力されるメディア作品について、様々な異なる時間を表すことができる。したがって、例えば、隣接する2つのショットの特定の境界をフレームの精度で編集する場合、タイムラインのスケールを「拡大」し、表示画面が、出力メディア作品について比較的短い時間を表すようにすることができる。一方、出力メディア作品の概観を視覚化するといった目的では、タイムラインのスケールを縮小し、表示画面の幅に亘って、より長い時間を表示できるようにするとよい。このように、タイムラインのスケールの拡大又は縮小に応じて、出力メディア作品を構成する編集された各ショットを表示するために用いることができる表示領域を広くしたり、狭くしたりしてもよい。
拡張されたタイムラインのスケールでは、出力メディア作品を構成する編集された各ショットについて、1つのピクチャスタンプ(図19a〜図19cに関連して説明したように導き出された)を表示するため以上に十分な余地がある。しかしながら、タイムラインのスケールを縮小すると、ピクチャスタンプを表示できなくなる場合がある。このような場合、ショットを「シーケンス」としてグループ化し、各シーケンスが、フェーズピクチャスタンプ(phase picture stamp)を表示するのに十分大きな表示サイズを有するようにする。シーケンス内には、最も確率が高い顔のピクチャスタンプを選択し、表示する。シーケンス内に顔が検出されない場合、任意の画像をタイムライン上に表示してもよく、画像を表示しなくてもよい。
図20は、更に、2個の「顔タイムライン(face timelines)」925、935を示している。この顔タイムライン925、935は、「メイン」のタイムライン920と同じスケールで表示される。各顔タイムライン925、935は、追跡された単一の顔に対応し、この追跡された顔を含む編集されたシーケンスの部分を示している。ここで、複数の顔が同じ個人のものであることがユーザには判るが、これらの顔が追跡アルゴリズムでは関連付けられていないといった場合がある。この場合、ユーザは、顔タイムライン925、935上の関連する部分を選択し(例えば、複数のアイテムを選択するための標準的なウィンドウズ(登録商標)の選択機能を用いて行う)、画面上の「リンク」ボタン(図示せず)をクリックすることにより、これらの顔を関連付けることができる。これにより、顔タイムライン925、935は、検出された顔のグループの関連付けを反映し、1つのより長く追跡された顔として表示する。図21a及び図21bは、クリップアイコン910’、910”の2つの表示例を示している。クリップアイコン910’、910”は、図20に示す表示画面に表示され、これによりユーザは、個別のクリップを選択して、タイムラインに含め、及びこれらのクリップの開始位置及び終了位置(イン点及びアウト点)を編集することができる。このように、各クリップアイコン910’、910”は、装置内に保存されている各クリップの全体を代表している。
図21aにおいて、クリップアイコン910’は、単一の顔ピクチャスタンプ912と、テキストラベル領域914とによって表現されている。テキストラベル領域914は、例えば、クリップの位置及び長さを定義するタイムコード情報を含んでいる。また、図21bに示すように、マルチパートクリップアイコンを用いて、2以上の顔ピクチャスタンプ916をクリップアイコン910”に表示してもよい。
クリップアイコン910の他の表示例として、「顔の要約(face summary)」を提供し、検出された全ての顔をクリップアイコン910の組として、それらの顔が登場する順序(ソースマテリアルにおける順序であっても、編集された出力シーケンスにおける順序であってもよい)で表示してもよい。ここでも、同じ個人の顔でありながら、追跡アルゴリズムでは関連付けられていない複数の顔について、ユーザがこれらの顔が同一の顔であると主観的に判断する場合がある。この場合、ユーザは、関連する顔クリップアイコン910を選択し(例えば、複数のアイテムを選択するための標準的なウィンドウズ(登録商標)の選択機能を用いて行う)、画面上の「リンク」ボタン(図示せず)をクリックすることにより、これらの顔を関連付けることができる。これにより、顔タイムラインは、検出された顔のグループの関連付けを反映し、1つのより長く追跡された顔として表示する。
図22a〜図22cは、傾斜前処理法(gradient pre-processing technique)を図式的に説明する図である。
画素の変化が殆どない画像ウィンドウは、固有顔又は固有ブロックに基づく顔検出構成によって、顔として検出される傾向がある。したがって、前処理ステップにおいて、顔検出処理の対象から、画素の変化が殆どない領域を除外するとよい。多数の尺度を有する方式(上述参照)では、前処理ステップを各尺度において実行してもよい。基本的な処理として、画像全体に亘る可能なウィンドウ位置について、「傾斜検査(gradient test)」を適用する。各ウィンドウ位置について所定の画素位置、例えばウィンドウ位置の中心の又は中心に近い画素に対して、このウィンドウに適用された検査の結果に応じてフラグを立て又はラベルを付す。この検査により、このウィンドウにおいては画素の変化が殆どないと判定された場合、このウィンドウ位置は、顔検出処理から除外する。
第1のステップ図22aに示す。図22aは、画像における任意のウィンドウ位置を示している。上述のように、前処理は、可能な各ウィンドウ位置に対して繰り返し行う。傾斜前処理は、ウィンドウ全体に対して行ってもよいが、本願発明者らは、図22aに示すように、前処理を検査ウィンドウ1010の中心領域1000に適用した方が良好な結果が得られることを見出した。
図22bに示すように、傾斜に基づく測定値は、ウィンドウ(又は図22aに示すようなウィンドウの中心領域)から得られ、この値は、ウィンドウから得られた水平方向及び垂直方向の両方における隣接する画素1011間の絶対距離の平均値である。各ウィンドウの中止領域には、この傾斜に基づく測定値のラベルを付し、これにより画像の傾斜「マップ」を作成する。次に、作成された傾斜マップを傾斜閾値と比較する。そして、傾斜に基づく測定値が傾斜閾値を下回る全てのウィンドウ位置をその画像に関する顔検出処理から除外する。
また、画素の変化又は平均画素値からの画素の絶対平均偏差等の他の傾斜に基づく測定を用いてもよい。
傾斜に基づく測定は、画素の輝度値に関して行うことが好ましいが、カラー画像の他の画像成分について行ってもよいことは言うまでもない。
図22cは、例示的な画像から導出された傾斜マップの具体例を示している。ここで、傾斜が緩い領域1070(ハッチングで示す)は、顔検出から除外し、より傾斜が急峻な領域1080のみを顔検出に用いる。
上述の具体例は、顔検出(トレーニング及び検出段階を含む)、及びカメラレコーダ及び編集装置におけるこの顔検出の可能な用途に関する具体例を説明するものである。なお、この技術は、この他の多数の用途で利用することができ、例えば、以下に限定されるものではないが、安全監視システム、包括的なメディア処理(例えば、ビデオテープレコーダのコントローラ)、ビデオ会議システム等に利用することもできる。
また、上述した本発明の具体例の少なくとも一部は、ソフトウェアにより制御される処理装置によって実現できる。例えば、上述した1又は複数の要素は、ソフトウェアにより制御される汎用データ処理装置、又は特定用途向け集積回路やフィールドプログラマブルゲートアレー等の専用プログラムにより制御されるデータ処理装置によって実現してもよい。このようなソフトウェア又はプログラム制御を提供するコンピュータプログラム、及びこのようなコンピュータプログラムを保存、伝送又は提供する保存、伝送又は伝送媒体も本発明の側面とみなすことができる。
参考文献のリスト及び付録を以下に示す。なお、疑いの余地をなくすために言及すれば、これらのリスト及び付録は、本願の一部を構成する。これらの文献は、引用により本願に援用されるものとする。
参考文献
1.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「顔及び車に適用される3Dオブジェクト検出のための統計モデル(A statistical model for 3D object detection applied to faces and cars)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス2000(IEEE Conference on Computer Vision and Pattern Detection, 2000)
2.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング(Probabilistic modelling of local appearance and spatial relationships for object detection)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス1998(IEEE Conference on Computer Vision and Pattern Detection, 1998)
3.エイチ・シュナイダーマン(H. Schneiderman)著、「顔及び車に適用される3Dオブジェクト検出のための統計的手法」、カーネギーメロン大学(Carnegie Mellon University)ロボティクス研究科(Robotics Institute)博士論文、2000年
4.イー・ヘルマス(E. Hjelmas)及びビー・ケー・ロウ(B.K. Low)著、「顔検出:概観(Face Detection: A Survey)」、コンピュータビジョン及び画像理解(Computer Vision and Image Understanding)第83号、pp.236〜274、2001年
5.エム−エイチ・ヤング(M.-H.Yang)、ディー・クレイグマン(D.Kriegman)及びエヌ・アフジャ(N.Ahuja)著、「画像における顔の検出:概観(Detecting Faces in Images: A Survey)」、パターン分析及びマシン知能に関するIEEEトランザクション(IEEE Trans. on Pattern Analysis and Machine Intelligence)、第24巻1号pp.34〜58、2002年1月
付録A:トレーニング顔セット
1個のデータベースは、屋内の背景の前に立つ数千個の題材(subject)の画像を格納している。上述の手法の実験に用いられる他のトレーニングデータベースは、正面から左右までの様々な範囲の角度から見た人間の頭の8ビットのグレースケール画像を一万個以上格納している。当業者にとっては明らかであるが、これらとは異なる様々なトレーニングセットを用いてもよく、任意として、ローカルの母集団の顔の特徴を反映するようプロファイルされたトレーニングセットを用いてもよい。
付録B:固有ブロック
顔検出及び認識のための固有顔法(図4及び図5参照)において、各m×n顔画像は、それぞれ長さmnのベクトルによって表現されるようにが記録される。これにより、各画像は、mn次元空間内の点とみなすことができる。画像の組は、この大きな空間内の点の集合にマッピングされる。
参考文献
1.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「顔及び車に適用される3Dオブジェクト検出のための統計モデル(A statistical model for 3D object detection applied to faces and cars)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス2000(IEEE Conference on Computer Vision and Pattern Detection, 2000)
2.エイチ・シュナイダーマン(H. Schneiderman)及びティー・カナデ(T. Kanade)著、「オブジェクト検出のための局所的外観及び空間的関係の確率的モデリング(Probabilistic modelling of local appearance and spatial relationships for object detection)」、コンピュータビジョン及びパーターン検出に関するIEEEコンファレンス1998(IEEE Conference on Computer Vision and Pattern Detection, 1998)
3.エイチ・シュナイダーマン(H. Schneiderman)著、「顔及び車に適用される3Dオブジェクト検出のための統計的手法」、カーネギーメロン大学(Carnegie Mellon University)ロボティクス研究科(Robotics Institute)博士論文、2000年
4.イー・ヘルマス(E. Hjelmas)及びビー・ケー・ロウ(B.K. Low)著、「顔検出:概観(Face Detection: A Survey)」、コンピュータビジョン及び画像理解(Computer Vision and Image Understanding)第83号、pp.236〜274、2001年
5.エム−エイチ・ヤング(M.-H.Yang)、ディー・クレイグマン(D.Kriegman)及びエヌ・アフジャ(N.Ahuja)著、「画像における顔の検出:概観(Detecting Faces in Images: A Survey)」、パターン分析及びマシン知能に関するIEEEトランザクション(IEEE Trans. on Pattern Analysis and Machine Intelligence)、第24巻1号pp.34〜58、2002年1月
付録A:トレーニング顔セット
1個のデータベースは、屋内の背景の前に立つ数千個の題材(subject)の画像を格納している。上述の手法の実験に用いられる他のトレーニングデータベースは、正面から左右までの様々な範囲の角度から見た人間の頭の8ビットのグレースケール画像を一万個以上格納している。当業者にとっては明らかであるが、これらとは異なる様々なトレーニングセットを用いてもよく、任意として、ローカルの母集団の顔の特徴を反映するようプロファイルされたトレーニングセットを用いてもよい。
付録B:固有ブロック
顔検出及び認識のための固有顔法(図4及び図5参照)において、各m×n顔画像は、それぞれ長さmnのベクトルによって表現されるようにが記録される。これにより、各画像は、mn次元空間内の点とみなすことができる。画像の組は、この大きな空間内の点の集合にマッピングされる。
顔画像は、全体的な構成が類似しており、このmn次元画像空間においてランダムには分布せず、すなわち、顔画像は比較的低い次元のサブ空間によって記述できる。主成分分析(principal component analysis:以下、PCAという。)を用いて、画像空間内における顔画像の分布を最もよく説明するベクトルを見出すことができる。PCAでは、元の顔画像に対応する共分散行列の主固有ベクトル(principal eigenvectors)を判定する。これらのベクトルは、多くの場合顔空間とも呼ばれる、顔画像のサブ空間を定義する。各ベクトルは、m×n画像を表し、元の顔画像の一次結合である。これらのベクトルは、元の顔画像に対応する共分散行列の固有ベクトルであるため、及びこれらは顔に似た外観を有するため、これらのベクトルは、固有顔とも呼ばれる[4]。
未知の画像が存在する場合、この画像は顔空間に射影される。これにより、この画像は、固有顔の重み付けされた和として表現される。
この具体例では、近接相関法(closely related approach)を用いて、顔画像のブロックに関連する所謂「固有ブロック(eigenblock)」又は固有ベクトルを生成及び適用する。ブロックのグリッドは、(トレーニングセット内の)顔画像又は(検出段階の間に)検査ウィンドウに適用され、固有顔処理に非常に類似した固有ベクトルに基づく処理を各ブロック位置に適用する(又は、データ処理の負荷を軽減する他の具体例においては、この処理は、まず、ブロック位置のグループに対して行い、全てのブロック位置において使用される固有ブロックの1つの組を生成する)。当業者には明らかであるが、中央のブロック等の幾つかのブロックは、画像の鼻の部分を表している場合が多く、顔が存在するか否かを判定するためのより重要な部分となる。
固有ブロックの算出
固有ブロックは、以下のような手順で算出される。
(1)画像のトレーニングセットを用いる。これらを、それぞれm×nのサイズを有する画像ブロックに分割する。各ブロック位置について、それぞれが各画像におけるそのブロック位置から抽出された、次のような画像ブロックの組が得られる。
固有ブロックの算出
固有ブロックは、以下のような手順で算出される。
(1)画像のトレーニングセットを用いる。これらを、それぞれm×nのサイズを有する画像ブロックに分割する。各ブロック位置について、それぞれが各画像におけるそのブロック位置から抽出された、次のような画像ブロックの組が得られる。
(2)正規化されたブロックのトレーニングセット
を以下のようにして算出する。
元のトレーニングセットからの各画像ブロックI0 tを0と、1のL2ノルムとの平均値を有するように正規化し、各正規化された画像ブロックItを生成する。
各画像ブロックI0 t,t=1,・・・,NT:
(すなわち、(I0 t−mean_I0 t)のL2ノルム)
(3)ベクトルのトレーニングセット
(3)ベクトルのトレーニングセット
を各画像ブロックItの画素要素を辞書順に並べ替えることによって生成する。すなわち、各m×n画像ブロックItを長さN=mnのベクトルxtに並べ替える。
(4)偏差ベクトルの組
(4)偏差ベクトルの組
を算出する。Dは、N個の列とNT個の行とを有する。
(5)共分散行列Σを算出する。
(5)共分散行列Σを算出する。
Σは、N×Nのサイズを有する対称行列である。
(7)以下の式を解くことにより、全ての固有ベクトルからなる組P及び共分散行列Σの固有値λi,i=1,・・・,Nを求める。
(7)以下の式を解くことにより、全ての固有ベクトルからなる組P及び共分散行列Σの固有値λi,i=1,・・・,Nを求める。
ここで、Λは、その対角に沿って(大きさの順に)固有値λiを有するN×N対角行列であり、Pは、それぞれ長さNを有するN個の固有ベクトルの組を含むN×N行列である。この分解は、カルーネン・レーベ変換(Karhunen-Loeve Transform:KLT)としても知られている。
固有ベクトルは、顔画像のブロック間の変化を互いに特徴付ける特徴の組であるとみなすことができる。固有ベクトルは直交基底を形成し、これにより画像ブロックを表現することができ、すなわち、原理的には、いかなる画像も固有ベクトルの重み付けされた和によって、誤差を生じることなく表現することができる。
画像空間内のデータ点の数(トレーニング画像の数)が空間の次元より少ない(NT<N)場合、意味がある固有ベクトルの数はNT個のみとなる。残りの固有ベクトルは、0の固有値に関連付けられた値を有する。そこで、多くの場合、NT<Nであるため、i>NTである全ての固有値は0となる。
更に、トレーニングセット内の画像ブロックは、全体の構成において類似する(全てが顔の画像に由来する)ため、残りの固有ベクトルのうちのいくつかのみが、画像ブロック間の相異を強く特徴付ける。これらは、関連する固有値が最も大きい固有ベクトルである。関連する固有値が小さいこの他の固有ベクトルは、このような大きな相異を特徴付けることなく、したがって、顔を検出し、又は顔間の区別を行う目的では有用ではない。
したがって、PCAにおいては、M<NTとして、固有値が大きいM個の主固有ベクトルのみを考慮し、すなわち、部分的KLTを実行する。すなわち、PCAでは、最も大きい固有値に対応するKLT基底の、より低次元のサブ空間を抽出する。
主成分は顔画像間の大きな相異を記述するため、外観上、これらの主成分は顔ブロックの部分に類似し、ここでは、これらを固有ブロックと呼ぶ。なお、固有ベクトルという用語も同様に用いる。
固有ブロックを用いた顔検出
未知の画像の顔への類似性、すなわち顔類似性(faceness)は、その画像が顔空間によってどれ程適切に表現できるかによって測定される。この処理は、トレーニング処理において用いたものと同じブロックのグリッドを用いて、ブロック毎に行う。
固有ブロックを用いた顔検出
未知の画像の顔への類似性、すなわち顔類似性(faceness)は、その画像が顔空間によってどれ程適切に表現できるかによって測定される。この処理は、トレーニング処理において用いたものと同じブロックのグリッドを用いて、ブロック毎に行う。
この処理の第1段階では、画像を顔空間に射影する。
画像の顔空間への射影
画像を顔空間に射影する前に、トレーニングセットに対して行った前処理と略同様の前処理をこの画像に対して行う。
(1)m×nのサイズの検定画像ブロックI0を得る。
(2)元の検定画像ブロックI0を0と、1のL2ノルムとの平均値を有するように正規化し、正規化された検定画像ブロックIを生成する。
画像の顔空間への射影
画像を顔空間に射影する前に、トレーニングセットに対して行った前処理と略同様の前処理をこの画像に対して行う。
(1)m×nのサイズの検定画像ブロックI0を得る。
(2)元の検定画像ブロックI0を0と、1のL2ノルムとの平均値を有するように正規化し、正規化された検定画像ブロックIを生成する。
(すなわち、(I0−mean_I0)のL2ノルム)
(3)画像の画素要素を辞書順に並べ替えることによって、偏差ベクトルを生成する。画像を長さN=mnの偏差ベクトルxに並べ替える。
(3)画像の画素要素を辞書順に並べ替えることによって、偏差ベクトルを生成する。画像を長さN=mnの偏差ベクトルxに並べ替える。
これらの前処理の後、以下のような単純な処理により、偏差ベクトルxを顔空間に射影する。
(4)顔空間への射影は、偏差ベクトルxをその固有ブロック成分に変換する処理を含む。この処理は、M個の主固有ベクトル(固有ブロック)Pi,i=1,・・・,Mによる単純な乗算を含む。各重みyiは、以下のようにして求めることができる。
ここでPiは、i番目の固有ベクトルを表す。
(4)顔空間への射影は、偏差ベクトルxをその固有ブロック成分に変換する処理を含む。この処理は、M個の主固有ベクトル(固有ブロック)Pi,i=1,・・・,Mによる単純な乗算を含む。各重みyiは、以下のようにして求めることができる。
ここでPiは、i番目の固有ベクトルを表す。
これらの重みyi,i=1,・・・,Mは、入力顔ブロックの表現における各固有ブロックの貢献を表す。
外観が類似するブロックは、類似する重みの組を有し、外観が相異するブロックは、相異する重みの組を有する。すなわち、ここでは、重みは、顔検出において顔ブロックを分類する特徴ベクトルとして用いている。
Claims (16)
- ビデオシーケンスからの検定画像と、該ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出装置において、
(1)その領域に関して導き出された上記画像プロパティモデルに最も近くマッチングする、上記先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出す選択手段と、
(2)上記検定画像内の2以上の画像位置に対して適用された上記画素マスクによって定義された検定画像内の画素と、上記画像プロパティモデルとを比較し、上記画像プロパティモデルと、該マスク位置において上記マスクによって定義された画素との間の最も小さい平均誤差に対応する該検定画像のマスク位置において、顔を検出する比較手段とを備える顔映像検出装置。 - 上記画像プロパティモデルは、色モデルであることを特徴とする請求項1記載の顔映像検出装置。
- 上記色モデルは、色分布のガウス分布モデルであることを特徴とする請求項1又は2記載の顔映像検出装置。
- 上記色モデルは、上記ビデオシーケンスにおける少なくとも1つの画像の少なくとも一部における色分布を表していることを特徴とする請求項1又は2記載の顔映像検出装置。
- 上記マスクは、上記検定画像に対して、上記先行する画像の検出された顔の画像位置の周囲の検査領域内の位置において適用されることを特徴とする請求項1乃至4いずれか1項に記載の顔映像検出装置。
- 上記検査領域は、矩形の領域であることを特徴とする請求項5記載の顔映像検出装置。
- 上記所定の割合は、上記画素の50%であることを特徴とする請求項1乃至6いずれか1項に記載の顔映像検出装置。
- 請求項1乃至7いずれか1項に記載の顔映像検出装置を備えるビデオ会議装置。
- 請求項1乃至7いずれか1項に記載の顔映像検出装置を備える監視装置。
- 図面に示し、明細書において説明する顔映像検出装置。
- ビデオシーケンスからの検定画像と、該ビデオシーケンスにおいて先行する画像において顔が含まれると判定された領域の画像プロパティから導き出された画像プロパティモデルを比較する顔映像検出方法において、
(1)その領域に関して導き出された上記画像プロパティモデルに最も近くマッチングする、上記先行する画像において顔が含まれると判定された領域の所定の画素の部分を選択し、画素マスクを導き出すステップと、
(2)上記検定画像内の2以上の画像位置に対して適用された上記画素マスクによって定義された検定画像内の画素と、上記画像プロパティモデルとを比較し、
上記画像プロパティモデルと、該マスク位置において上記マスクによって定義された画素との間の最も小さい平均誤差に対応する該検定画像のマスク位置において、顔を検出するステップとを有する顔映像検出方法。 - 図面に示し、明細書に説明する顔映像検出方法。
- 請求項11又は12記載の顔映像検出方法を実行するプログラムコードを有するコンピュータソフトウェア。
- 請求項13記載のプログラムコードを提供する提供媒体。
- 当該提供媒体は、記録媒体であることを特徴とする請求項14記載の提供媒体。
- 当該提供媒体は、伝送媒体であることを特徴とする請求項14記載の提供媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0227893A GB2395778A (en) | 2002-11-29 | 2002-11-29 | Face detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004192637A true JP2004192637A (ja) | 2004-07-08 |
Family
ID=9948783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003402162A Withdrawn JP2004192637A (ja) | 2002-11-29 | 2003-12-01 | 顔検出 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7336830B2 (ja) |
JP (1) | JP2004192637A (ja) |
GB (1) | GB2395778A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103062B2 (en) | 2005-09-02 | 2012-01-24 | Sony Corporation | Video processing apparatus |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742525B1 (en) | 2002-07-14 | 2010-06-22 | Apple Inc. | Adaptive motion estimation |
GB2395781A (en) * | 2002-11-29 | 2004-06-02 | Sony Uk Ltd | Face detection |
US7792970B2 (en) | 2005-06-17 | 2010-09-07 | Fotonation Vision Limited | Method for establishing a paired connection between media devices |
US7620218B2 (en) * | 2006-08-11 | 2009-11-17 | Fotonation Ireland Limited | Real-time face tracking with reference images |
US7440593B1 (en) | 2003-06-26 | 2008-10-21 | Fotonation Vision Limited | Method of improving orientation and color balance of digital images using face detection information |
US8593542B2 (en) * | 2005-12-27 | 2013-11-26 | DigitalOptics Corporation Europe Limited | Foreground/background separation using reference images |
US8155397B2 (en) * | 2007-09-26 | 2012-04-10 | DigitalOptics Corporation Europe Limited | Face tracking in a camera processor |
US7269292B2 (en) * | 2003-06-26 | 2007-09-11 | Fotonation Vision Limited | Digital image adjustable compression and resolution using face detection information |
US8498452B2 (en) * | 2003-06-26 | 2013-07-30 | DigitalOptics Corporation Europe Limited | Digital image processing using face detection information |
US7844076B2 (en) * | 2003-06-26 | 2010-11-30 | Fotonation Vision Limited | Digital image processing using face detection and skin tone information |
US8948468B2 (en) * | 2003-06-26 | 2015-02-03 | Fotonation Limited | Modification of viewing parameters for digital images using face detection information |
US8682097B2 (en) * | 2006-02-14 | 2014-03-25 | DigitalOptics Corporation Europe Limited | Digital image enhancement with reference images |
US7565030B2 (en) | 2003-06-26 | 2009-07-21 | Fotonation Vision Limited | Detecting orientation of digital images using face detection information |
US7362368B2 (en) * | 2003-06-26 | 2008-04-22 | Fotonation Vision Limited | Perfecting the optics within a digital image acquisition device using face detection |
US9129381B2 (en) * | 2003-06-26 | 2015-09-08 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
US8330831B2 (en) * | 2003-08-05 | 2012-12-11 | DigitalOptics Corporation Europe Limited | Method of gathering visual meta data using a reference image |
US8896725B2 (en) | 2007-06-21 | 2014-11-25 | Fotonation Limited | Image capture device with contemporaneous reference image capture mechanism |
US7574016B2 (en) | 2003-06-26 | 2009-08-11 | Fotonation Vision Limited | Digital image processing using face detection information |
US9692964B2 (en) | 2003-06-26 | 2017-06-27 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
US7471846B2 (en) * | 2003-06-26 | 2008-12-30 | Fotonation Vision Limited | Perfecting the effect of flash within an image acquisition devices using face detection |
US8989453B2 (en) * | 2003-06-26 | 2015-03-24 | Fotonation Limited | Digital image processing using face detection information |
US7920725B2 (en) * | 2003-09-09 | 2011-04-05 | Fujifilm Corporation | Apparatus, method, and program for discriminating subjects |
GB2409030A (en) * | 2003-12-11 | 2005-06-15 | Sony Uk Ltd | Face detection |
JP4847685B2 (ja) * | 2004-04-16 | 2011-12-28 | 株式会社日立ハイテクノロジーズ | パターンサーチ方法 |
JP2005346806A (ja) * | 2004-06-02 | 2005-12-15 | Funai Electric Co Ltd | Dvdレコーダおよび記録再生装置 |
US20050286777A1 (en) * | 2004-06-27 | 2005-12-29 | Roger Kumar | Encoding and decoding images |
US8111752B2 (en) | 2004-06-27 | 2012-02-07 | Apple Inc. | Encoding mode pruning during video encoding |
US7792188B2 (en) | 2004-06-27 | 2010-09-07 | Apple Inc. | Selecting encoding types and predictive modes for encoding video data |
US8320641B2 (en) | 2004-10-28 | 2012-11-27 | DigitalOptics Corporation Europe Limited | Method and apparatus for red-eye detection using preview or other reference images |
US7315631B1 (en) * | 2006-08-11 | 2008-01-01 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US7512269B2 (en) * | 2005-08-04 | 2009-03-31 | Asaf Golan | Method of adaptive image contrast enhancement |
GB2432659A (en) * | 2005-11-28 | 2007-05-30 | Pixology Software Ltd | Face detection in digital images |
JP4618153B2 (ja) * | 2006-02-10 | 2011-01-26 | セイコーエプソン株式会社 | 画像処理装置、デジタルカメラ、画像データ構造、自動色補正機能付き印刷装置、顔オブジェクト情報付き撮影画像の生成方法および色補正方法 |
JP4765732B2 (ja) * | 2006-04-06 | 2011-09-07 | オムロン株式会社 | 動画編集装置 |
ATE497218T1 (de) | 2006-06-12 | 2011-02-15 | Tessera Tech Ireland Ltd | Fortschritte bei der erweiterung der aam- techniken aus grauskalen- zu farbbildern |
JP4218711B2 (ja) * | 2006-08-04 | 2009-02-04 | ソニー株式会社 | 顔検出装置、撮像装置および顔検出方法 |
US7916897B2 (en) | 2006-08-11 | 2011-03-29 | Tessera Technologies Ireland Limited | Face tracking for controlling imaging parameters |
US7403643B2 (en) * | 2006-08-11 | 2008-07-22 | Fotonation Vision Limited | Real-time face tracking in a digital image acquisition device |
US8055067B2 (en) | 2007-01-18 | 2011-11-08 | DigitalOptics Corporation Europe Limited | Color segmentation |
GB2446190B (en) | 2007-01-30 | 2011-09-07 | Hewlett Packard Development Co | Pre-filter for object detection |
EP2291796A1 (en) * | 2008-07-02 | 2011-03-09 | C-True Ltd. | Networked face recognition system |
US8131063B2 (en) * | 2008-07-16 | 2012-03-06 | Seiko Epson Corporation | Model-based object image processing |
CN106919911A (zh) * | 2008-07-30 | 2017-07-04 | 快图有限公司 | 使用脸部检测的自动脸部和皮肤修饰 |
KR101271098B1 (ko) * | 2008-09-24 | 2013-06-04 | 삼성테크윈 주식회사 | 디지털 촬영장치, 추적방법 및 추적방법을 실행시키기 위한프로그램을 저장한 기록매체 |
JP5237037B2 (ja) * | 2008-10-01 | 2013-07-17 | キヤノン株式会社 | 画像処理装置および画像処理方法、プログラム |
NO329897B1 (no) * | 2008-12-19 | 2011-01-24 | Tandberg Telecom As | Fremgangsmate for raskere ansiktsdeteksjon |
WO2010075430A1 (en) | 2008-12-24 | 2010-07-01 | Strands, Inc. | Sporting event image capture, processing and publication |
US8208717B2 (en) * | 2009-02-25 | 2012-06-26 | Seiko Epson Corporation | Combining subcomponent models for object image modeling |
US8260039B2 (en) * | 2009-02-25 | 2012-09-04 | Seiko Epson Corporation | Object model fitting using manifold constraints |
US8260038B2 (en) * | 2009-02-25 | 2012-09-04 | Seiko Epson Corporation | Subdivision weighting for robust object model fitting |
US8204301B2 (en) * | 2009-02-25 | 2012-06-19 | Seiko Epson Corporation | Iterative data reweighting for balanced model learning |
US8731238B2 (en) * | 2009-06-10 | 2014-05-20 | Honeywell International Inc. | Multiple view face tracking |
US8379917B2 (en) * | 2009-10-02 | 2013-02-19 | DigitalOptics Corporation Europe Limited | Face recognition performance using additional image features |
US8675926B2 (en) | 2010-06-08 | 2014-03-18 | Microsoft Corporation | Distinguishing live faces from flat surfaces |
US8726161B2 (en) * | 2010-10-19 | 2014-05-13 | Apple Inc. | Visual presentation composition |
US8873840B2 (en) | 2010-12-03 | 2014-10-28 | Microsoft Corporation | Reducing false detection rate using local pattern based post-filter |
CN102194110B (zh) * | 2011-06-10 | 2013-03-13 | 淮海工学院 | 基于k-l变换和核相关系数的人脸图像中眼睛定位方法 |
FR2989198A1 (fr) * | 2012-04-06 | 2013-10-11 | St Microelectronics Grenoble 2 | Procede et dispositif de detection d'un objet dans une image |
JP2014187551A (ja) * | 2013-03-22 | 2014-10-02 | Casio Comput Co Ltd | 画像取得装置、画像取得方法及びプログラム |
GB2516512B (en) * | 2013-10-23 | 2015-10-14 | Imagination Tech Ltd | Face detection |
CN108510077A (zh) * | 2017-02-27 | 2018-09-07 | 顾泽苍 | 另一种采用人工智能的手机大众识别真伪方法 |
US10796452B2 (en) * | 2017-12-03 | 2020-10-06 | Facebook, Inc. | Optimizations for structure mapping and up-sampling |
CN111291240B (zh) * | 2018-12-06 | 2023-12-08 | 华为技术有限公司 | 处理数据的方法和数据处理装置 |
CN111161225B (zh) * | 2019-12-19 | 2023-05-12 | 浙江大华技术股份有限公司 | 一种图像差异检测方法、装置、电子设备和存储介质 |
KR20230018214A (ko) * | 2021-07-29 | 2023-02-07 | 삼성전자주식회사 | 포즈를 추정하는 방법 및 장치 |
CN113553984B (zh) * | 2021-08-02 | 2023-10-13 | 中再云图技术有限公司 | 一种基于上下文辅助的视频口罩检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5689575A (en) * | 1993-11-22 | 1997-11-18 | Hitachi, Ltd. | Method and apparatus for processing images of facial expressions |
US5715325A (en) * | 1995-08-30 | 1998-02-03 | Siemens Corporate Research, Inc. | Apparatus and method for detecting a face in a video image |
US5774591A (en) * | 1995-12-15 | 1998-06-30 | Xerox Corporation | Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images |
US5802220A (en) * | 1995-12-15 | 1998-09-01 | Xerox Corporation | Apparatus and method for tracking facial motion through a sequence of images |
AUPP400998A0 (en) * | 1998-06-10 | 1998-07-02 | Canon Kabushiki Kaisha | Face detection in digital images |
US6463163B1 (en) * | 1999-01-11 | 2002-10-08 | Hewlett-Packard Company | System and method for face detection using candidate image region selection |
-
2002
- 2002-11-29 GB GB0227893A patent/GB2395778A/en not_active Withdrawn
-
2003
- 2003-11-25 US US10/723,093 patent/US7336830B2/en not_active Expired - Fee Related
- 2003-12-01 JP JP2003402162A patent/JP2004192637A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103062B2 (en) | 2005-09-02 | 2012-01-24 | Sony Corporation | Video processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US7336830B2 (en) | 2008-02-26 |
GB0227893D0 (en) | 2003-01-08 |
GB2395778A (en) | 2004-06-02 |
US20040151381A1 (en) | 2004-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004192637A (ja) | 顔検出 | |
JP4381310B2 (ja) | メディア処理システム | |
JP2004199669A (ja) | 顔検出 | |
US7489803B2 (en) | Object detection | |
JP2006508463A (ja) | 顔検出 | |
JP2006508461A (ja) | 顔検出及び顔追跡 | |
US7421149B2 (en) | Object detection | |
US7522772B2 (en) | Object detection | |
JP2006508601A5 (ja) | ||
JP2006508601A (ja) | ビデオカメラ | |
JP2006508462A (ja) | 顔検出 | |
US20080013837A1 (en) | Image Comparison | |
JP2005174353A (ja) | オブジェクト検出 | |
US20050128306A1 (en) | Object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070206 |