JP4933186B2 - 画像処理装置、画像処理方法、プログラム及び記憶媒体 - Google Patents

画像処理装置、画像処理方法、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP4933186B2
JP4933186B2 JP2006203374A JP2006203374A JP4933186B2 JP 4933186 B2 JP4933186 B2 JP 4933186B2 JP 2006203374 A JP2006203374 A JP 2006203374A JP 2006203374 A JP2006203374 A JP 2006203374A JP 4933186 B2 JP4933186 B2 JP 4933186B2
Authority
JP
Japan
Prior art keywords
image
pattern
local
face
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006203374A
Other languages
English (en)
Other versions
JP2008033424A (ja
Inventor
哲 八代
光太郎 矢野
由美 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006203374A priority Critical patent/JP4933186B2/ja
Priority to US11/781,795 priority patent/US8144943B2/en
Publication of JP2008033424A publication Critical patent/JP2008033424A/ja
Application granted granted Critical
Publication of JP4933186B2 publication Critical patent/JP4933186B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、画像処理装置、画像処理方法、記憶媒体、及びプログラムに関し、特に、デジタルカメラ、デジタルビデオカメラなどのデジタル画像機器、及び画像処理ソフトウェアに関する。また特に、画像や動画像から、この画像中に含まれる人物や動物や物体などの特定の被写体又は被写体の一部を検出する装置や方法などに適用されて有効な技術に関するものである。
画像から特定の被写体パターンを自動的に検出する画像処理方法は非常に有用であり、例えば人間の顔の判定に利用することができる。このような方法は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡するためのモニタ・システム、画像圧縮などの多くの分野で使用することができる。
このような画像中から顔を検出する技術としては、例えば、非特許文献1に各種方式が挙げられている。
その中では、いくつかの顕著な特徴(2つの目、口、鼻など)とその特徴間の固有の幾何学的位置関係とを利用する。または人間の顔の対称的特徴、人間の顔色の特徴、テンプレート・マッチング、ニューラル・ネットワークなどを利用する。これにより、人間の顔を検出する方式が示されている。
また、非特許文献2には、ニューラル・ネットワークにより画像中の顔パターンを検出する方法が提案されている。以下、非特許文献2による顔検出の方法について簡単に説明する。
まず、顔の検出対象とする画像データをメモリに読み込み、読み込んだ画像中から顔と照合する領域を切り出す。そして、切り出した領域の画素値の分布を入力としてニューラル・ネットワークによる演算で一つの出力を得る。このとき、ニューラル・ネットワークの重み、閾値が膨大な顔画像パターンと非顔画像パターンによりあらかじめ学習されており、例えば、ニューラル・ネットワークの出力が0以上なら顔、それ以外は非顔であると判別する。
そして、ニューラル・ネットワークの入力である顔と照合する画像パターンの切り出し位置を、例えば、図6に示すように画像全域から縦横順次に走査していくことにより、画像中から顔を検出する。また、様々な大きさの顔の検出に対応するため、図6に示すように読み込んだ画像を所定の割合で順次縮小し、それに対して前述した顔検出の走査を行うようにしている。
また、処理の高速化に着目した例としては、非特許文献3がある。この文献では、AdaBoostを使って多くの弱判別器を有効に組合せて、顔判別の精度を向上させている。その一方で、夫々の弱判別器をHaarタイプの矩形特徴量で構成し、しかも矩形特徴量の算出を、積分画像を利用して高速に行っている。また、AdaBoost学習によって得た判別器を直列に繋ぎ、カスケード型の顔検出器を構成するようにしている。
このカスケード型の顔検出器は、まず前段の単純な(すなわち計算量のより少ない)判別器を使って明らかに顔でないパターンの候補をその場で除去する。そして、それ以外の候補に対してのみ、より高い識別性能を持つ後段の複雑な(すなわち計算量のより多い)判別器を使って顔かどうかの判定を行っている。このため、すべての候補に対して複雑な判定を行う必要がないので高速である。
また、Haarタイプのフィルタを使った矩形特徴量であれば、積分画像を利用することで、その面積に関わらず一定の計算コストで計算できるため、弱判別器を選択する際の処理コストは考える必要がなかった。
"Detecting Faces in Images: A Survey"IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.24,NO.1,JANUARY 2002 "Neural network−based face detection"IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.20,NO.1,JANUARY 1998 "Rapid Object Detection using Boosted Cascade of Simple Features"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR'01)
しかしながら、非特許文献2による方法では、ニューラル・ネットワークにより、一枚の画像に対して膨大な回数の顔判別の処理を行う必要があり、処理速度に問題があった。
また、非特許文献3による方法では、精度の良い顔判別器を構成するには、最終的に6000個以上もの矩形特徴量を計算する必要があった。また、矩形特徴量として上下または左右の輝度コントラストを検出するものを用いているので、判別対象の物体が斜め方向の特徴を多く含むような場合にはそのままでは対応できない。そのため、例えば、斜め方向の輝度コントラストを検出するような特徴量を弱判別器として用意する必要がある。
また、弱判別器をHaarタイプ以外または矩形以外のフィルタ特徴量で構成した場合は、自由度が高い分、弱判別器単体としての精度向上の余地がある。しかしながら、先の積分画像を利用することはできず、フィルタの面積による計算コストがかかってしまい、計算コストに見合う精度の向上が得られなかった。
本発明は、上述した点に鑑みなされたものであり、高精度かつ処理効率の良い被写体検出器を提供することを目的とする。
上記課題を解決するために、本発明によれば、画像処理装置に、識別対象の画像の入力を受け付ける画像入力手段と、前記画像入力手段より入力された画像を異なる複数サイズの画像に変倍する変倍手段と、前記異なる複数サイズの画像のそれぞれから照合パターンとして特定のサイズのパターンを抽出するパターン抽出手段と、前記照合パターンのそれぞれを異なる複数の解像度のパターンに変換する解像度変換手段と、前記複数の解像度のパターンにおける所定の複数の局所領域における局所特徴量に基づいて領域毎の被写体信頼度を算出する被写体信頼度算出手段と、前記領域毎の被写体信頼度の統合結果に基づいて前記照合パターンが特定の被写体か否かを判別する判別手段とを備え、前記所定の複 数の局所領域は、前記照合パターンにおける複数の局所領域の中から、該局所領域の局所特徴量を用いた既知のサンプル画像群の識別結果の分布と、当該局所領域の面積とに基づいて選択された領域であることを特徴とする。
また、本発明の他の態様によれば、画像処理方法に、識別対象の画像の入力を受け付ける画像入力ステップと、前記画像入力手段より入力された画像を異なる複数サイズの画像に変倍する変倍ステップと、前記異なる複数サイズの画像のそれぞれから照合パターンとして特定のサイズのパターンを抽出するパターン抽出ステップと、前記照合パターンのそれぞれを異なる複数の解像度のパターンに変換する解像度変換ステップと、前記複数の解像度のパターンにおける所定の複数の局所領域における局所特徴量に基づいて領域毎の被写体信頼度を算出する被写体信頼度算出ステップと、前記被写体信頼度の統合結果に基づいて前記照合パターンが特定の被写体か否かを判別する判別ステップとを備え、前記所 定の複数の局所領域は、前記照合パターンにおける複数の局所領域の中から、該局所領域の局所特徴量を用いた既知のサンプル画像群の識別結果の分布と、当該局所領域の面積とに基づいて選択された領域であることを特徴とする。
本発明によれば、与えられた画像から高精度かつ効率よく被写体を検出することが可能となる。特に、判別性能の良い特徴量を用いることにより、少ない組み合わせで高精度の判別が行える効果がある。また、複数段で判断を行う態様では、前段に計算コストが低い特徴量を用いるので高速な判別ができる効果がある。
以下、添付図面を参照しながら、本発明の実施形態を説明する。
(第1の実施の形態)
図1は、第1の実施形態における画像処理装置の機能構成を示すブロック図である。
画像入力部10は、例えば、デジタルカメラなど、画像を撮影して入力する装置である。また、デジタル画像データを保持する記憶媒体から画像データを読み込むようなコンピュータ・システムのインターフェース機器であってもよい。
画像メモリ20は、RAMで構成され、画像入力部10から出力された画像データを一時的に記憶する。
画像縮小部30は、画像メモリ20に記憶されている画像データを所定の倍率にしたがって縮小し、出力する。
照合パターン抽出部40は、画像縮小部30で縮小された画像データから所定の領域を照合対象のパターンとして抽出する。
輝度補正部50は、照合パターン抽出部40で抽出された照合パターンの輝度分布を補正する。
顔判別部60は、照合パターン抽出部40で抽出され、輝度補正部50で補正された照合パターンが顔パターンか非顔パターンかを判別する。
判別情報格納部70は、被写体信頼度を算出する局所領域やフィルタ、被写体信頼度の重みや閾値などの情報が格納される。
顔領域出力部80は、顔判別部60で顔と判別されたパターンの領域を出力する。また、以上の各ブロックは不図示の制御部により動作を制御される。
図2は、第1の実施形態における画像処理装置のハードウェア構成を示すブロック図である。
CPU201は、ROM202やRAM203に格納されたプログラムに従って命令を実行し、装置各部を制御する。
ROM202は、制御に必要なプログラムや固定的なデータを記憶する。RAM203は、ワークエリアとして利用され、一時的なデータを格納する。
ドライブI/F204は、IDEやSCSIなどの外部記憶装置とのインターフェースを実現する。HDD205は、ドライブI/F204に接続され、画像やパターン抽出などのプログラムや、顔、非顔のサンプルパターンなどを記憶する。
画像入力装置206は、デジタルカメラやスキャナなどの装置から画像を入力する。入力装置208は、キーボードやマウスなどで構成され、オペレータからの入力を行う。
表示装置209は、ブラウン管や液晶ディスプレイなどで構成され、被写体を含む画像を表示したり、画像中の顔領域の識別表示などを行う。
ネットワークI/F210は、モデムやLANなどで構成され、インターネットやイントラネットなどのネットワークと接続を行う。装置各部は、これらを接続するバス211を介して相互にデータの入出力を行う。
本画像処理装置の機能は、オペレーティングシステムがインストールされたコンピュータ上で動作するアプリケーション・プログラムとして実装されている。フローチャートにつき後述するプログラムは、HDD205に格納されており、RAM203に読み出されて実行されるものとする。
次に、判別情報格納部70で記録される判別器情報について図3を用いて詳細に説明する。図3は、第1の実施形態における判別器情報のデータ構造を示す図である。
顔パタンの抽出は、強判別器302と呼ばれる判別器を直列に接続したもので行われる。すなわちすべての強判別器302が顔であると判定した場合にのみ最終的に顔パターンであると識別される。強判別器数301には強判別器302の個数が格納される。
それぞれの強判別器302は、弱判別器数303に格納される個数の弱判別器304と、1つの閾値305とによって構成される。
それぞれの弱判別器304は、局所領域の画素数306と、局所領域の画素番号を列挙した画素番号リスト307と、画素数306に等しい行数*1列の行列である特徴抽出フィルタ308と、被写体の信頼度への変換テーブルである、被写体信頼度変換ルックアップテーブル309から構成される。
図4は、第1の実施形態における判別器情報のデータ構造を補足する図である。図4に示すように、本実施形態では顔パターンは目、口を含む20画素*20画素のパターンとしており、これをさらに1/2に縮小し10画素*10画素にしたパターンと1/4に縮小して5画素*5画素にしたパターンとを作る。そして、それぞれの画素に対して1から525までの画素番号を付与している。
図5は、第1の実施形態における顔検出処理の流れを示すフローチャートである。同図を用いて本実施形態の処理を説明する。
まず、ステップS501にて、画像入力部10は所望の画像データを画像メモリ20に読み込む。
ここで読み込まれた画像データは、例えば8ビットの画素により構成される2次元配列のデータであり、R、G、B、3つの面により構成される。このとき、画像データがJPEG等の方式により圧縮されている場合は、画像データを所定の解凍方式にしたがって解凍し、RGB各画素により構成される画像データとする。さらに、本実施形態では、RGBデータを輝度データに変換し、輝度画像データを以後の処理に適用するものとし、画像メモリ20に格納する。画像データとしてYCrCbのデータを入力する場合は、Y成分をそのまま輝度データとしてもよい。
次に、ステップS502にて、画像縮小部30は輝度画像データを画像メモリ20から読み込み、所定の倍率に縮小した輝度画像データを生成する。これは、本実施形態では、非特許文献2のように様々な大きさの顔の検出に対応するため、複数のサイズの画像データに対して順次検出を行うようにしたからである。例えば、倍率が1.2倍程度異なる複数の画像への縮小処理が、後段の検出処理のために順次適用される。
次に、ステップS503にて、照合パターン抽出部40は、縮小された輝度画像データから所定の大きさの部分領域を照合パターンとして抽出する。この様子を図6に示す。図6のAの列は画像縮小部30で縮小されたそれぞれの縮小画像を示しており、ここでは、それぞれの縮小画像に対して所定の大きさの矩形領域を切り出すものとする。
図6のBは、それぞれの縮小画像から縦横順次に走査を繰り返していく途中の切り出しの様子を示すものである。図6から分かるように、縮小率の大きな画像から照合パターンを切り出して顔の判別を行う場合には、画像に対して大きな顔の検出を行うことになる。
次に、ステップS504にて、輝度補正部50は照合パターン抽出部40で切り出された部分領域の輝度をその分布をもとに正規化する。例えば、ヒストグラム平滑化などの輝度補正を行う。これは、撮像される被写体パターンはその照明条件によって輝度分布が変わるので、被写体照合の精度が劣化するのを抑制するためである。
ヒストグラム平滑化のほかに平均と分散を所定の値にすることで輝度補正を行ってもよい。
次に、ステップS505にて、顔判別部60は照合パターン抽出部40で抽出され、輝度補正部50で補正された照合パターンが顔パターンか非顔パターンかを判別する。
以上、S503からS505までの処理が、画像縮小部30の出力である縮小輝度画像に対して図6に示すように所定のステップにおいて縦横順次に走査が繰り返される。また、倍率が異なる縮小処理が順次適用され、S502からS505までの処理が繰り返される。
そして、ステップS506にて、顔判別部60で顔と判別されたパターンに対して、顔領域出力部80は照合パターン抽出部40で抽出した矩形を顔領域として出力する。
図14は、表示装置209に表示する画面の一例で、入力画像1001に顔の検出結果を重畳して出力した画面表示の一例である。1002,1003はパターン抽出部によって抽出された顔パターンで、その位置と大きさが示された枠である。また、ボタン1004は顔領域出力部の終了ボタンである。
次に、顔判別部60における顔判別の方法について詳細を説明する。
図11に顔判別部60の機能構成を示す。非特許文献3のように学習によって得た強判別器を直列に繋ぎ、カスケード型の顔検出器を構成するのが処理速度の点では現実的である。すなわち、強判別器61、強判別器62、...、強判別器6NのN個の強判別器の直列接続により構成される。
また、図12に各強判別器の詳細構成を示す。また、図13に各弱判別器の詳細構成を示す。
図9は顔判別部60の処理手順を示すフローチャートである。この図を用いて顔判別処理の詳細を説明する。
まずステップS901において、解像度変換部6010によりパターンの1/2と1/4の縮小画像を生成する。本実施形態では解像度は1/2(nは整数)としているが、これに限ったものではない。画像縮小部30によって1/1.2倍程度の刻みで複数の解像度の画像が得られているので、それを利用してさらに多くの解像度でのパターンを用いてもよく、この場合でも処理コストが増加することはほとんどない。多重解像度にすることによって以下の2つのメリットを併せ持つことができる。すなわち、低解像度側では顔を構成する器官同士の位置関係を効率良く照合でき、高解像度側では顔を構成する器官の部分的特徴を精度良く照合できる。
次にステップS902において、強判別器ループカウンタNを初期化し、ステップS903において、弱判別器ループカウンタtを初期化する。
次にステップS904において、特徴量算出部6013によって局所特徴量を算出する。局所特徴量uは式(1)によって求める。
t,N =φt,N t,N ・・・(1)
ここで添え字t,NはN番目の強判別器のt番目の弱判別器を示す。Ut,Nは局所特徴量を示す数値であり、φt,Nは特徴抽出フィルタ308である。zt,Nは局所領域抽出部6011によって得られる画素番号リスト307で示されるパターンまたは縮小パターン上の画素の輝度を要素とする画素数に等しい行数で1列の行列である。
次にステップS905において、被写体信頼度変換部6015によって、式(2)のように局所特徴量Ut,Nを被写体信頼度Ht,Nに変換する。
t,N = ft,N (Ut,N) ・・・(2)
t,Nは、被写体信頼度変換ルックアップテーブル309を使って、局所特徴量Ut,Nをテーブル変換によって被写体信頼度Ht,Nに変換し、弱判別器の出力としている。
ここで、局所特徴量Ut,Nがテーブル309の上限または下限を超えている場合はそれぞれ、上限値、下限値にしたうえで、テーブル309を参照し、被写体信頼度Ht,Nを得る。
次にステップS906において最後の弱判別器になるまで、ステップS911で弱判別器番号tをインクリメントしながらステップS904〜ステップS906の処理を繰り返す。
最後の弱判別器まで被写体信頼度を求めたらステップS907に進み、加算器6001によって式(3)により被写体信頼度Ht,Nの総和Hを求める。
H = Σt,N ・・・(3)
次にステップS908にて閾値処理部6002によって、ステップS907で求めた総和Hを閾値Thと比較し、総和Hが閾値Th以上であれば被写体が顔であると判定し、そうでなければ顔でないと判定する。
H≧Th ・・・(4)
顔でないと判定された場合は、顔でないとして終了する。顔であると判定された場合は、ステップS909に進み最後の強判別器の判定を終わるまでステップS912で強判別器番号NをインクリメントしながらステップS903〜S909の処理を繰り返す。
最後の強判別器まですべて顔と判定された場合にのみ、最終的に顔であると判定されてステップS910に進み、パターンの位置を記憶して終了する。
次に判別情報の生成方法について説明する。各強判別器は学習に用いるサンプルパターンが異なるだけであるので、1つの強判別器の判別情報の生成方法について説明する。
本実施形態では、局所特徴量として、照合パターンのうち所定解像度、所定サイズ、形状の局所領域における線形識別特徴を用いる。
局所領域としては、例えば、図7に示すように照合パターンFが20×20画素からなる輝度パターンであるとすると、その一部である5×5画素の正方形の局所領域Pなどである。この場合、照合パターン内の全ての位置において同様の局所領域Pを設定すれば256の局所領域が考えられる。
なお、図8のP1、P2、P3に示すように横長の矩形、縦長の矩形、楕円など様々な形状、およびサイズの局所領域から得られたものを組合せて用いてもよい。また、元の照合パターンを縮小して様々な低解像度の照合パターンを作成し、各解像度の照合パターン中の局所領域を組合せて用いてもよい。また複数の乖離した領域・画素であってもよい。
また、各画素の輝度値の他に彩度、色相、RGB色空間のR成分,G成分,B成分を1つまたは複数組み合わせて用いてもよい。
そして、局所特徴量としては、照合パターンのうち、顔であるパターンと非顔(顔でない)パターンの多くのサンプルを用い、各局所領域について線形識別に基づく特徴抽出フィルタを求める。最も広く知られている線形識別の方法はフィッシャーの線形識別関数である。局所領域における顔サンプルの平均と分散を(μ,σ )、非顔サンプルの平均と分散を(μ,σ )としたとき、以下の式(5)により、特徴抽出フィルタφを求めることになる。なお、argmaxは括弧内の値を最大とするパラメータを求めるという意味であり、固有方程式を解くことによって特徴抽出フィルタφが得られる。
φ=argmax{(μ−μ/(σ +σ )} ・・・(5)
また、特徴抽出フィルタとしてフィッシャーの線形識別関数から導出されたものを用いたが、その他、線形サポートベクターマシンにより線形識別関数を求めても良い。また、Pattern Recognition Letters 23(2002),“Rejection based classifier for face detection”と題するEladらの提案するMRCを用いてもよい。また、線形識別関数に限定されるものではなく、例えばニューラル・ネットワークにより構成される非線形識別関数を用いてもよい。
1つの局所領域は、1つの弱判別器の画素数306および画素情報309(1〜Ni)の画素番号309として格納され、特徴抽出フィルタは対応する画素情報309(1〜Ni)の画素ウェイト310として格納される。
次に、以上の局所特徴量の中から被写体の判別に有効な特徴を組合せる方法について説明する。なお、本手法は、識別特徴量の中から最初に最も識別性能の良い特徴を抽出し、その性能を補完するように別の特徴を追加していくことで性能向上を図るもので、ブースティング学習の考え方に基づくアルゴリズムである。図10にそのアルゴリズムを示す。
まず、ステップS1001にて、学習に必要なサンプルを入力する。本実施形態では、サンプルとして顔および非顔の照合パターンを用いる。すなわち、サンプルの特徴ベクトルをxとすると、xは照合パターンが20×20画素の輝度パターンの場合、400の輝度データからなる400次元の特徴ベクトルということになる。また、サンプルの属するクラスをyとし、yは顔であるかどうかを表し、顔ならば1、非顔ならば−1の値をとるようにする。ここでiはサンプルの番号を表し、全サンプル数をNとするとき、i=1, ..., Nである。
次にステップS1002にて、サンプルの重みを均等になるように初期化する。すなわち、サンプル重みをdとし、d=1/Nに初期化する。
次にステップS1003にて、サンプルおよびその重みから局所特徴の抽出を行う。なお、ここで求める局所特徴は、前述したように照合パターンの所定の各局所領域について線形識別により得られる特徴抽出フィルタφである。ただし、局所特徴の領域の定義により、複数の特徴抽出フィルタφ(j=1, ..., M。Mは局所領域の定義領域の数)を抽出しておく。また、特徴抽出フィルタを求める際に用いる顔、非顔サンプルの平均および分散はサンプル重みを考慮して重み付けられた値を用いる。
次にステップS1004にて、各局所特徴の識別性能を、サンプルを用いて評価し、最も識別性能の良い特徴を弱判別器として抽出する。即ち、まず、各局所特徴の特徴抽出フィルタφを用いて、サンプルxの各局所領域に対応した画素の輝度値(zとする)から局所特徴量uijを以下の式(6)のように算出する。(Tは転置を表す)
ij=φ ・・・(6)
そして、特徴量の確率分布を所定のサイズのビンを持つヒストグラムから推定する。そして、顔サンプルから求めたk番目のビンのヒストグラムの値をW 、非顔サンプルから求めたk番目のビンのヒストグラムの値をW とする。以下の式(7)の{ }内の値を最小とする局所特徴φをM個の局所特徴の中から抽出する。なお、ここで求めるヒストグラムの値は特徴量uijが相当するビンの範囲に入るサンプル重みdの総和である。
Figure 0004933186
ここで、Cは特徴量の処理コスト関数であり、たとえば次の式のように表せる。
Figure 0004933186
ただし、mは局所領域の面積すなわち画素数である。lは直列に接続された強判別器の前段から数えた番号である。
各段での強判別器の起動回数の統計を実験的に求めて、起動回数と処理コストの積によりコスト関数を決定してもよい。
これにより、より少ない面積の局所特徴が選ばれやすくなる。また、lが小さいほど、すなわち、パターン抽出処理において最初に起動する強判別器ほど処理コスト関数の影響が強くなり、少ない計算コストの特徴量での判別を可能にしている。lが大きいところでは、強判別器の起動頻度が少ないため、十分な処理コストをかけてもパターン抽出全体への影響は小さい。
φはt=1番目の弱判別器の特徴抽出フィルタであり、弱判別器の出力は判別する被写体の信頼度を表すもので特徴量の各値に対応する顔である確率密度(頻度)と非顔である確率密度(頻度)との対数比とする。すなわち、以下の式(9)の値を各ビンについて求め、局所特徴量から被写体の信頼度へ変換するテーブルとする。但し、εは発散を避けるための適当な小さな定数である。
Figure 0004933186
なお、式(7)に代え、第11回画像センシングシンポジウム講演論文集(2005),”矩形特徴による弱識別器のブースティングによる対象検出手法の汎化性能向上のための工夫と車載カメラの映像中の車の検出への応用”をもとに以下の式(10)の値を出力してもよい。
Figure 0004933186
次にステップS1005にて、抽出した弱判別器での各サンプル出力値htiの値をもとにサンプルの重みを更新する。更新式は以下の式(11)にしたがう。
=d×exp{−y・hti} ・・・式(11)
なお、式(5)によって抽出した弱判別器で誤判別するサンプルの重みは大きく、正判別するサンプルの重みは小さく更新される。
以上、ステップS1003〜S1005の処理を繰り返すことで複数の弱判別器を得る。
繰り返しの終了条件は、閾値は顔のパターンを顔でないと判定するエラーが1/1000であり、かつ、顔でないパターンを顔であると判定するエラーが1/2である閾値が存在するか否かによって判定される。
閾値が存在する場合、その範囲の中心を強判別器の閾値305とする。また、繰り返し回数に上限を設けてもよい。繰り返しが終了したらステップS1006に進み、判別情報を記録して終了する。
以上説明した本実施形態による判別情報生成方法によって構成した顔判別器には以下のような特徴がある。
(1)線形識別関数により弱判別器を構成したので弱判別器の性能が良い。また、学習サンプルの重みの更新に伴い、最適な線形識別関数を再計算しているので識別効率が良い。以上により、より少ない弱判別器の組合せ数で性能の良い判別器が構成できる。
(2)線形識別関数により弱判別器を構成したので縦横のコントラスト以外の特徴(例えば斜めエッジなど)も被写体サンプルに応じて構成できる。したがって、判別する被写体ごとに弱判別器として利用する特徴量の算出アルゴリズムを工夫する必要がない。
[第2の実施形態]
第1の実施形態では、局所特徴量を被写体信頼度へ変換するテーブルを、特徴量の各値に対応する顔である確率密度(頻度)と非顔である確率密度(頻度)との対数比によって得ていた。以下では、局所特徴量を被写体信頼度へ変換する他の実施形態について説明する。被写体信頼度への変換方法が異なるだけで、その他の構成は第1の実施形態と同じである。
第2の実施形態の判別情報格納部70で記録される判別器情報は、図15に示すようになる。被写体信頼度変換LUT309の代わりに被写体信頼度変換定数310となっている点が第1の実施形態とは異なる。
本実施形態では被写体信頼度への変換式を次のように定義する。
t,N(U)=αt,Nt,N (U) ・・・(12)
ただし
Figure 0004933186
ここでPは符号を表わすための1または−1の定数である。p,αおよびThが各弱判別器の被写体信頼度変換定数310に格納される。
次に判別情報の生成方法について説明する。ここでの第1実施形態との差異はステップS1004内の処理であり、その他は同じである。そこで、ステップS1004の弱判別器の抽出方法と被写体信頼度変換定数310の求め方について説明する。
局所特徴量uijから以下の式(14)のτの値を最小とする局所特徴フィルタφおよびP,ThをM個の局所特徴の中から抽出する。
Figure 0004933186
ここでCは式(8)と同じ処理コスト関数である。
また、αは次の式によって求める。
Figure 0004933186
これは非特許文献3に対して、処理コスト関数が追加されている点が異なっている。これによって、少ない処理コストで性能のよい局所特徴を得られる効果がある。
[他の実施形態]
図16は、画像処理装置の他のハードウェア構成を示すブロック図である。図2と共通する部分には同じ番号を付与している。
図2とは、DVDまたはCDのような光ディスク212からプログラムを読み出すCD/DVDドライブなどの外部記憶読書装置213が、ドライブインターフェース204に接続されているところが異なる。光ディスク212には、上述した実施形態を実現するプログラムが記録されている。
光ディスク212を外部記憶読書装置213に挿入すると、CPU201は、光ディスク212からプログラムを読み取ってRAM203に展開することで、上述した実施形態と同様の処理を実現することができる。
上述した実施形態は、顔抽出を行うシステムであったが、本発明は顔以外の任意の物体に対して適用可能である。たとえば、人体全身、生物、自動車などがある。工業、流通分野などでは生産物、部品、流通物品などの同定や検査などに適用できる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク,ハードディスク,光ディスク,光磁気ディスク,CD、DVD,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれる。
さらに、記憶媒体から読出され、機能拡張ボードや機能拡張ユニットに備わるメモリに書込まれたプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUの処理によって前述した実施形態の機能が実現される場合も含まれる。
さらに、画像入力装置、情報蓄積機器、またこれらが複合または接続された装置において、両方またはいずれかの装置に備わるCPUなどが実際の処理の一部または全部を行なうことで前述した実施形態の機能が実現される場合も含まれる。
上記画像入力装置としては、ビデオカメラ、デジタルカメラ、監視カメラなど各種CCDを利用したカメラやスキャナ、アナログ画像入力装置からAD変換によりデジタル画像に変換された画像入力装置が利用できる。上記情報蓄積機器としては、外部ハードディスク、ビデオレコーダなどが利用できる。
第1の実施形態における画像処理装置の機能構成を示すブロック図である。 第1の実施形態における画像処理装置のハードウェア構成を示す図である。 第1の実施形態における判別器情報のデータ構造を示す図である。 第1の実施形態における判別器情報のデータ構造を補足する図である。 第1の実施形態における顔検出処理の流れを示すフローチャートである。 第1の実施形態における照合パターンを抽出する様子を示す図である。 第1の実施形態における顔の局所領域を説明する図である。 第1の実施形態における顔の局所領域を説明する図である。 第1の実施形態における顔判別処理の流れを示すフローチャートである。 第1の実施形態における判別情報の生成手順を示すフローチャートである。 第1の実施形態における顔判別部の機能構成を示すブロック図である。 第1の実施形態における強判別器の詳細構成を示すブロック図である。 第1の実施形態における弱判別器の詳細構成を示すブロック図である。 第1の実施形態におけるユーザーインターフェース部の画面表示の例を示す図である。 第2の実施形態における判別器情報のデータ構造を示す図である。 他の実施形態における画像処理装置のハードウェア構成を示す図である。
符号の説明
10 画像入力部
20 画像メモリ
30 画像縮小部
40 照合パターン抽出部
50 輝度補正部
60 顔判別部
70 判別情報格納部
80 顔領域出力部
61 強判別器
601 弱判別器
6001 加算器
6002 閾値処理部
6010 解像度変換部
6011 局所領域抽出部
6013 特徴量算出部
6015 被写体信頼度変換部

Claims (9)

  1. 識別対象の画像の入力を受け付ける画像入力手段と、
    前記画像入力手段より入力された画像を異なる複数サイズの画像に変倍する変倍手段と、
    前記異なる複数サイズの画像のそれぞれから照合パターンとして特定のサイズのパターンを抽出するパターン抽出手段と、
    前記照合パターンのそれぞれを異なる複数の解像度のパターンに変換する解像度変換手段と、
    前記複数の解像度のパターンにおける所定の複数の局所領域における局所特徴量に基づいて領域毎の被写体信頼度を算出する被写体信頼度算出手段と、
    前記領域毎の被写体信頼度の統合結果に基づいて前記照合パターンが特定の被写体か否かを判別する判別手段とを有し、
    前記所定の複数の局所領域は、前記照合パターンにおける複数の局所領域の中から、該局所領域の局所特徴量を用いた既知のサンプル画像群の識別結果の分布と、当該局所領域の面積とに基づいて選択された領域であることを特徴とする画像処理装置。
  2. 前記被写体信頼度算出手段は、前記局所領域の大きさ、形状、位置、パターンの解像度の少なくとも1つが異なる、複数の被写体信頼度を算出することを特徴とする請求項1に記載の画像処理装置。
  3. 前記被写体信頼度算出手段は、前記複数の解像度のパターンの複数の局所領域における輝度値、彩度、色相、RGB色空間のR成分、G成分、B成分の少なくとも1つに対するフィルタ演算結果に基づいて領域毎に被写体信頼度を算出することを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記変倍手段が、前記入力された画像を輝度画像に変換し、該輝度画像を前記異なる複数サイズの輝度画像に変倍することを特徴とする請求項1に記載の画像処理装置。
  5. 前記異なる複数サイズの輝度画像から抽出された照合パターンの輝度を輝度分布に基づいて正規化する輝度補正手段を有することを特徴とする請求項4に記載の画像処理装置。
  6. 前記解像度変換手段が、前記変倍手段により変倍された画像を利用することを特徴とする請求項1に記載の画像処理装置。
  7. 識別対象の画像の入力を受け付ける画像入力ステップと、
    前記画像入力手段より入力された画像を異なる複数サイズの画像に変倍する変倍ステップと、
    前記異なる複数サイズの画像のそれぞれから照合パターンとして特定のサイズのパターンを抽出するパターン抽出ステップと、
    前記照合パターンのそれぞれを異なる複数の解像度のパターンに変換する解像度変換ステップと、
    前記複数の解像度のパターンにおける所定の複数の局所領域における局所特徴量に基づいて領域毎の被写体信頼度を算出する被写体信頼度算出ステップと、
    前記被写体信頼度の統合結果に基づいて前記照合パターンが特定の被写体か否かを判別する判別ステップとを有し、
    前記所定の複数の局所領域は、前記照合パターンにおける複数の局所領域の中から、該局所領域の局所特徴量を用いた既知のサンプル画像群の識別結果の分布と、当該局所領域の面積とに基づいて選択された領域であることを特徴とする画像処理方法。
  8. 請求項7に記載の画像処理方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能な画像処理プログラム。
  9. 請求項8に記載の画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006203374A 2006-07-26 2006-07-26 画像処理装置、画像処理方法、プログラム及び記憶媒体 Expired - Fee Related JP4933186B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006203374A JP4933186B2 (ja) 2006-07-26 2006-07-26 画像処理装置、画像処理方法、プログラム及び記憶媒体
US11/781,795 US8144943B2 (en) 2006-07-26 2007-07-23 Apparatus and method for detecting specific subject in image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006203374A JP4933186B2 (ja) 2006-07-26 2006-07-26 画像処理装置、画像処理方法、プログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2008033424A JP2008033424A (ja) 2008-02-14
JP4933186B2 true JP4933186B2 (ja) 2012-05-16

Family

ID=38986368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006203374A Expired - Fee Related JP4933186B2 (ja) 2006-07-26 2006-07-26 画像処理装置、画像処理方法、プログラム及び記憶媒体

Country Status (2)

Country Link
US (1) US8144943B2 (ja)
JP (1) JP4933186B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4891197B2 (ja) * 2007-11-01 2012-03-07 キヤノン株式会社 画像処理装置および画像処理方法
JP5027030B2 (ja) * 2008-03-25 2012-09-19 富士フイルム株式会社 オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP5227629B2 (ja) * 2008-03-25 2013-07-03 富士フイルム株式会社 オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP5189913B2 (ja) * 2008-07-14 2013-04-24 イーストマン コダック カンパニー 画像処理装置
US8024152B2 (en) * 2008-09-23 2011-09-20 Microsoft Corporation Tensor linear laplacian discrimination for feature extraction
US8249349B2 (en) * 2008-11-25 2012-08-21 Microsoft Corporation Labeling image elements
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
JP5257274B2 (ja) * 2009-06-30 2013-08-07 住友電気工業株式会社 移動体検出装置、移動体検出方法及びコンピュータプログラム
JP5483961B2 (ja) * 2009-09-02 2014-05-07 キヤノン株式会社 画像処理装置、被写体判別方法、プログラム及び記憶媒体
JP5517555B2 (ja) * 2009-10-19 2014-06-11 キヤノン株式会社 画像処理装置、物体検出方法及びプログラム
JP5448758B2 (ja) * 2009-11-30 2014-03-19 キヤノン株式会社 情報処理装置、情報処理方法、情報処理システム、プログラム及びデータ構造
KR101268520B1 (ko) * 2009-12-14 2013-06-04 한국전자통신연구원 영상 인식 장치 및 방법
JP5702960B2 (ja) * 2010-07-12 2015-04-15 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2012058845A (ja) * 2010-09-06 2012-03-22 Sony Corp 画像処理装置および方法、並びにプログラム
JP2012113621A (ja) * 2010-11-26 2012-06-14 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
KR101175597B1 (ko) * 2011-09-27 2012-08-21 (주)올라웍스 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
US9355303B2 (en) * 2011-12-04 2016-05-31 King Saud University Face recognition using multilayered discriminant analysis
EP2936383A4 (en) * 2012-12-20 2016-08-24 Intel Corp ACCELERATED OBJECT DETECTION FILTER USING VIDEO MOTION ESTIMATION MODULE
JP5693670B2 (ja) * 2013-07-09 2015-04-01 キヤノン株式会社 画像処理装置及び画像処理方法
JP2016151805A (ja) * 2015-02-16 2016-08-22 大日本印刷株式会社 オブジェクト検出装置、オブジェクト検出方法、及びプログラム
JP6438549B1 (ja) * 2017-08-24 2018-12-12 日本分光株式会社 機械学習を用いた未知化合物の分類方法
US10599951B2 (en) * 2018-03-28 2020-03-24 Kla-Tencor Corp. Training a neural network for defect detection in low resolution images

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944319B1 (en) * 1999-09-13 2005-09-13 Microsoft Corporation Pose-invariant face recognition system and process
US7050607B2 (en) * 2001-12-08 2006-05-23 Microsoft Corp. System and method for multi-view face detection
KR100438841B1 (ko) * 2002-04-23 2004-07-05 삼성전자주식회사 이용자 검증 및 데이터 베이스 자동 갱신 방법, 및 이를이용한 얼굴 인식 시스템
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
JP5025893B2 (ja) * 2004-03-29 2012-09-12 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP2006129152A (ja) * 2004-10-29 2006-05-18 Konica Minolta Holdings Inc 撮像装置および画像配信システム
US7835549B2 (en) * 2005-03-07 2010-11-16 Fujifilm Corporation Learning method of face classification apparatus, face classification method, apparatus and program
JP2006244385A (ja) * 2005-03-07 2006-09-14 Fuji Photo Film Co Ltd 顔判別装置およびプログラム並びに顔判別装置の学習方法
US20060222217A1 (en) * 2005-03-31 2006-10-05 Fuji Photo Film Co., Ltd. Method, apparatus, and program for discriminating faces

Also Published As

Publication number Publication date
US20080025609A1 (en) 2008-01-31
JP2008033424A (ja) 2008-02-14
US8144943B2 (en) 2012-03-27

Similar Documents

Publication Publication Date Title
JP4933186B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
JP5121506B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP5361530B2 (ja) 画像認識装置、撮像装置及び画像認識方法
US9934446B2 (en) Object detecting apparatus and method
US20110091113A1 (en) Image processing apparatus and method, and computer-readable storage medium
JP4588575B2 (ja) デジタル画像の複数対象物検出方法および装置並びにプログラム
JP4877374B2 (ja) 画像処理装置及びプログラム
JP2010026603A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
US8913782B2 (en) Object detection apparatus and method therefor
WO2011092865A1 (ja) 物体検出装置及び物体検出方法
JP2008102611A (ja) 画像処理装置
US8873839B2 (en) Apparatus of learning recognition dictionary, and method of learning recognition dictionary
JP2012083938A (ja) 学習装置、学習方法、識別装置、識別方法、およびプログラム
JP5777390B2 (ja) 情報処理方法及び装置、パターン識別方法及び装置
Sharma et al. Analyzing impact of image scaling algorithms on viola-jones face detection framework
JPWO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
US20220414827A1 (en) Training apparatus, training method, and medium
JP5100688B2 (ja) 対象物検出装置及びプログラム
JP5335554B2 (ja) 画像処理装置及び画像処理方法
JP5625196B2 (ja) 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体
KR20110057595A (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체
JP5702960B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP4789526B2 (ja) 画像処理装置、画像処理方法
CN113705430B (zh) 基于检测模型的表格检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090727

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120216

R151 Written notification of patent or utility model registration

Ref document number: 4933186

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees