JP4540661B2 - 物体検出装置 - Google Patents

物体検出装置 Download PDF

Info

Publication number
JP4540661B2
JP4540661B2 JP2006354005A JP2006354005A JP4540661B2 JP 4540661 B2 JP4540661 B2 JP 4540661B2 JP 2006354005 A JP2006354005 A JP 2006354005A JP 2006354005 A JP2006354005 A JP 2006354005A JP 4540661 B2 JP4540661 B2 JP 4540661B2
Authority
JP
Japan
Prior art keywords
image
specific object
determination
object detection
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006354005A
Other languages
English (en)
Other versions
JP2007265390A (ja
Inventor
晶彦 山田
仁志 本郷
洋平 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2006354005A priority Critical patent/JP4540661B2/ja
Priority to US11/710,559 priority patent/US7974441B2/en
Publication of JP2007265390A publication Critical patent/JP2007265390A/ja
Application granted granted Critical
Publication of JP4540661B2 publication Critical patent/JP4540661B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

この発明は、入力画像から顔等の特定の物体を検出するために用いられる物体検出装置に関する。
入力画像から顔等の特定の物体を検出する方法として、入力画像に対して階層的に作成した縮小画像にテンプレートマッチングを適用する方法(PP.203,デジタル画像処理、CG-ARTS 協会)や、入力画像をIntegral Imageと呼ばれる画像に変換し、矩形型の特徴量の大きさに対応する重みを積算する方法(Pub,No:US 2002/0102024 A1)などがある。また、処理時間を削減する方法として、階層画像に動き情報や色情報で物体候補を絞り込む方法(特開2000−134638号公報参照)がある。
これらの従来技術は、入力画像上において判定領域を少しずつ動かしながら、判定領域内に特定の物体が存在するか否かを判定していくものである。テンプレートマッチングを適用する方法では、マッチングに相関値や差分自乗和値を用いることが多く、その計算に時間がかかる。また、Integral Imageを用いる方法では、PC上で比較的高速に動作することが確認されているが、Integral Imageへの変換と矩形特徴量の計算を行なうためには、メモリ資源が大きくなるとともにCPUへの負荷も大きくなるため、組み込み機器に実装するには不向きである。
また、動き情報や色情報で物体候補を絞り込む方法では、特定の物体に動きがない場合には適用が難しく、また色情報は光源色などで大きく変化するため、安定な検出は難しい。
特開2000−134638号公報
この発明は、メモリ資源やCPU負荷を低減でき、かつ高精度化および高速処理化が可能な物体検出装置を提供することを目的とする。
請求項1に記載の発明は、入力画像中の特定物体を検出する物体検出装置において、入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの回転角度位置に対して所定角度回転した特定物体を、検出できるようにしたことを特徴とする。
請求項2に記載の発明は、入力画像中の特定物体を検出する物体検出装置において、入力画像から複数の縮小画像を生成する縮小画像生成手段、入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの回転角度位置に対して所定角度回転した特定物体を、検出できるようにしたことを特徴とする。
請求項3に記載の発明は、入力画像中の特定物体を検出する物体検出装置において、入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの姿勢を左右反転させた特定物体または上下反転させた特定物体を、検出できるようにしたことを特徴とする。
請求項4に記載の発明は、入力画像中の特定物体を検出する物体検出装置において、入力画像から複数の縮小画像を生成する縮小画像生成手段、入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの姿勢を左右反転させた特定物体または上下反転させた特定物体を、検出できるようにしたことを特徴とする。
請求項5に記載の入力画像中の特定物体を検出する物体検出装置において、入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応する対象画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、特定物体検出用テーブルは、判定領域の大きさの画像の所定の特徴画素毎に、その特徴画素において取り得るエッジ特徴量と物体らしさを表す重みを表す多項式の係数を記憶していることを特徴とする。
請求項6に記載の発明は、入力画像中の特定物体を検出する物体検出装置において、入力画像から複数の縮小画像を生成する縮小画像生成手段、入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、特定物体検出手段は、判定領域に対応する対象画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、特定物体検出用テーブルは、判定領域の大きさの画像の所定の特徴画素毎に、その特徴画素において取り得るエッジ特徴量と物体らしさを表す重みを表す多項式の係数を記憶していることを特徴とする。
この発明によれば、メモリ資源やCPU負荷を低減でき、かつ高精度化および高速処理化が可能な物体検出装置が得られる。
以下、図面を参照して、この発明を顔検出装置に適用した場合の実施例について説明する。
〔1〕顔検出装置の構成
図1は、顔検出装置の構成を示している。
顔検出装置は、入力画像信号をデジタルデータに変換するAD変換手段11、AD変換手段11によって得られた画像データに基づいて1または複数の縮小画像を生成する縮小画像生成手段12、入力画像および縮小画像から構成される各階層画像毎に、4方向別のエッジ特徴画像を生成する4方向エッジ特徴画像生成手段13、大量の教師サンプル(顔および非顔のサンプル画像)から求められた顔検出用の重みテーブルを記憶したメモリ14、4方向エッジ特徴画像生成手段13によって生成された4方向別のエッジ特徴画像と重みテーブルとを用いて、入力画像に顔が存在するか否かを判定する顔判定手段15および顔判定手段15の検出結果を出力する検出結果出力手段16を備えている。検出結果出力手段16は、顔が検出された場合には、入力画像を基準として、検出された顔の大きさと位置とを出力する。
〔2〕顔検出装置の動作
図2は、顔検出装置の動作を示している。
まず、入力画像を取得し(ステップS1)、入力画像から所定の縮小率を用いて1または複数の縮小画像を生成する(ステップS2)。入力画像および縮小画像から構成される各階層画像毎に、4方向別のエッジ特徴画像を生成し(ステップS3)、各エッジ特徴画像と重みテーブルとを用いて顔検出処理を行なう(ステップS4)。そして、検出結果を出力する(ステップS5)。顔検出の終了指令が入力されていなければ(ステップS6)、ステップS1に戻る。ステップS6において、顔検出の終了指令が入力されていれば、終了する。
〔3〕階層画像
図3は、図2のステップS2の処理によって得られる階層画像の一例を示している。
この例では、縮小率Rを0.8に設定した場合に、生成される複数の階層画像を示している。図3において、30は入力画像を、31〜35は縮小画像を示している。41は判定領域を示している。この例では、判定領域は24×24の大きさに設定されている。判定領域の大きさは、入力画像および各縮小画像においても同じである。また、この例では、矢印で示すように、判定領域を左から右に水平方向に走査するといった動作を、上方から下方に向かって行なうようにしている。ただし、走査順はこれに限られるものではない。入力画像の他に、複数の縮小画像を生成しているのは、1種類の重みテーブルを用いて大きさが異なる顔を検出するためである。
〔4〕図2のステップS3の4方向別のエッジ特徴画像の生成処理
図4は、図2のステップS3で行なわれる4方向別のエッジ特徴画像の生成処理の手順を示している。
処理対象の階層画像を入力し(ステップS11)、入力した階層画像に対し、例えば、図5(a)〜(d)に示すような、水平方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応するPrewitt 型の微分フィルタを用いて、エッジ強調処理を行なうことにより、4方向それぞれに対応する第1エッジ強調画像を生成する(ステップS12)。次に、得られた4方向それぞれに対応する第1エッジ強調画像の各対応する画素毎に、画素値が最大のものを残し、その他の画素値を0とすることにより、4方向それぞれに対応する第2エッジ強調画像を生成する(ステップS13)。生成された4方向それぞれに対応する第2エッジ強調画像に対して平滑処理を行なうことにより、4方向それぞれに対応するエッジ特徴画像を生成する(ステップS14)。そして、生成した4方向それぞれに対応するエッジ特徴画像を出力する(ステップS15)。
〔5〕図2のステップS4の顔検出処理
〔5−1〕重みテーブル
図6は、図2のステップS4の顔検出処理を説明するための図である。
図2のステップS4の顔検出処理は、各階層画像毎に行なわれるが、処理方法は同様なので、ここでは入力画像30に対して行なわれる顔検出処理についてのみ説明する。図6において、30は入力画像を示し、41は入力画像内に設定された判定領域を示している。なお、顔の検出には、正面顔、横顔、斜め方向からみた顔のそれぞれについて、正面顔、横顔、斜め顔が画像内に存在するか否かを判別するが、ここでは、説明の便宜上、正面顔が存在するか否かのみを検出する場合について説明する。
図7は、入力画像内の判定領域に対応する4方向のエッジ特徴画像を示している。上述したように、判定領域41の大きさは24×24であるが、説明の便宜上、図7においては判定領域41の大きさを8×8の大きさとしている。図8は、判定領域41の大きさを8×8の大きさとした場合の、重みテーブルの内容例を示している。
判定領域41の大きさの各エッジ特徴画像の画素位置を、エッジ特徴画像の種類q(エッジ番号:0〜3)と行番号y(0〜7)と列番号x(0〜7)で表すことにする。重みテーブルには、各エッジ特徴画像内の画素のうち、顔検出に用いられる特徴画素毎に、その画素における特徴量(画素値)に対応して顔らしさを表す重みwが格納されている。
図8の例では、水平方向のエッジ特徴画像のエッジ番号を”0”、垂直方向のエッジ特徴画像のエッジ番号を”1”、右斜上方向のエッジ特徴画像のエッジ番号を”2”、左斜上方向水平エッジのエッジ特徴画像のエッジ番号を”3”に設定している。
このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20,1995.)。
なお、Adaboostは、適応的なブースティング学習方法の1つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。
各階層画像毎に行なわれる顔検出処理は、画像内に設定された判定領域に対応する4方向のエッジ特徴画像と重みテーブルとを用いて行なわれる。
〔5−2〕顔検出処理手順
図9は、入力画像内に設定された判定領域に対して行なわれる顔検出処理手順を示している。
顔検出処理は、第1の判定ステップ(ステップS21)から第6の判定ステップ(ステップS26)までの判定ステップを備えている。各判定ステップは、判定に用いる特徴画素数Nに違いがある。第1の判定ステップ(ステップS21)〜第6の判定ステップ(ステップS26)では、それぞれ判定に用いる特徴画素数NはN1〜N6となっている。N1<N2<N3<N4<N5<N6である。
ある判定ステップにおいて、顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域には顔は存在しないと判定する。全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域に顔が存在すると判定する。
〔5−3〕各判定ステップでの判定処理手順
図10は、図9の各判定ステップで実行される判定処理手順を示している。
以下、N個の特徴画素数を用いて1つの判定領域に対して判定を行なう場合について説明する。まず、判定領域を設定し(ステップS31)、スコアを表す変数Sを0に設定するとともに、重みを取得した特徴画素の数を表す変数nを0に設定する(ステップS32)。
そして、特徴画素F(n)を選択する(ステップS33)。F(n)は、上述したように、エッジ番号q、行番号yおよび列番号xで表される。なお、この例では、重みテーブルに重みが格納されている特徴画素のうち、顔検出に重要なものから順番に、F(0)、F(1)、F(2)、…として、特徴画素が選択されるようになっているものとする。
選択した特徴画素F(n)に対応する画素値i(n)を、当該判定領域に対応するエッジ特徴画像から取得する(ステップS34)。重みテーブルから、特徴画素F(n)の画素値i(n)に対応する重みw(n)を取得する(ステップS35)。取得した重みw(n)をスコアSに加算する(ステップS36)。
次に、nを1だけインクリメントする(ステップS37)。そして、n=Nであるか否かを判別する(ステップS38)。n=Nでなければ、ステップS33に戻り、更新されたnを用いて、ステップS33〜S38の処理を行なう。
N個の特徴画素に対して、ステップS33〜S36の処理が行なわれると、ステップS38において、n=Nとなるため、ステップS39に移行する。ステップS39では、特徴画素数がN個である場合に予め定められた閾値ThよりスコアSが大きいか否かを判別する。S>Thであれば、当該判定領域に顔が存在すると判定する(ステップS40)。一方、S≦Thであれば、当該判定領域に顔が存在しないと判定する(ステップS41)。
〔6〕顔検出処理手順の変形例
図9で説明したように、顔検出処理は、複数段階の判定ステップを備えているため、全ての判定ステップを実行した場合には、処理時間が長くなる。そこで、処理時間の短縮化を図るために、ある判定ステップでのスコアが既定値以上である場合には、次の判定ステップをスキップさせるようにする。
図11は、顔検出処理が3段階の判定ステップからなる場合における顔検出処理手順を示している。
顔検出処理は、第1の判定ステップ(ステップS121)、第2判定ステップ(ステップS123)および第3の判定ステップ(ステップS124)を備えている。各判定ステップは、判定に用いる特徴画素数Nに違いがある。第1の判定ステップ〜第3の判定ステップでは、それぞれ判定に用いる特徴画素数NはN1〜N3となっている。N1<N2<N3である。各判定ステップでは、図10で示した処理と同様な処理が行なわれる。
第1の判定ステップ(ステップS121)において、顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域には顔は存在しないと判定する。第1の判定ステップ(ステップS121)において、顔が検出された場合には、第1の判定ステップで算出されたスコアSが既定値以上であるか否かを判別する(ステップS122)。既定値は、第1の判定ステップにおいて、顔が非顔かを判別するための閾値Thより大きな値に設定されている。
スコアSが既定値未満であれば、第2判定ステップ(ステップS123)に移行する。この場合には、図9と同様に、第2判定ステップによる処理が実行される。上記ステップS122において、スコアSが既定値以上であると判別した場合には、第2判定ステップをスキップして、第3判定ステップ(ステップS124)に移行する。この場合には、処理時間の短縮化が図れる。
〔7〕重みテーブルの変形例
上記実施例においては、重みテーブルを用いて顔検出処理が行なわれている。重みテーブルでは、図8に示すように、顔検出に用いられる特徴画素毎に、取り得る画素値(0〜M)それぞれに対応して、顔らしさを表す重みwが格納されている。したがって、重みテーブルでは、データ量が多く、大きなメモリ容量が必要となる。
この変形例では、重みテーブルの代わりに、顔検出に用いられる特徴画素毎に多項式の係数を記憶した係数テーブルを用いる。係数テーブルは、重みテーブルと同じデータから作成される。ある1つの特徴画素に対する係数テーブルの作成方法について説明する。
図12の折れ線は、横軸にある特徴画素の画素値をとり、縦軸に重みwをとった場合の重みテーブルの値(以下、テーブル値という)を示している。この変形例では、特徴画素の画素値毎のテーブル値を近似化する関数(フィッテング関数)を求める。言い換えれば、画素値に対して顔らしさを表す重みwを求めるための関数を求める。図12中の滑らかな曲線がフィッテング関数(多項式曲線)である。この例では、フィッテング関数としては、3次元の多項式が用いられる。なお、フィッテング関数の次数は任意に決定することができる。
テーブル値に対する多項式曲線へのフィッテングには、一般に最小2乗法が用いられる。つまり、各画素値毎の、テーブル値とそれを近似した関数との差、の2乗が最小となるように関数の係数を決定する。特徴画素F(n)の重みをw(n)とし、特徴画素F(n)の画素値をi(n)とすると、3次元のフィッテング関数は、次式(1)で表される。
w(n)=a3 ・i(n)3 +a2 ・i(n)2 +a1 ・i(n)+a0 …(1)
特徴画素毎に、各画素値毎の、テーブル値と関数との差、の2乗が最小となるように係数値a0 、a1 、a2 、a3 を決定することにより、各特徴画素毎の係数値を求める。
図13は、判定領域の大きさを8×8の大きさとした場合の、係数テーブルの内容例を示している。係数テーブルの左側の3桁の数字は、左から、エッジ番号q、行番号y、列番号xを表している。係数テーブルには、各エッジ特徴画像内の画素のうち、顔検出に用いられる特徴画素毎に、係数a0 、a1 、a2 、a3 の値が格納されている。
重みテーブルの代わりに係数テーブルを用いた場合には、図10の判定処理の代わりに、図14に示す判定処理が用いられる。
N個の特徴画素数を用いて判定を行なう場合について説明する。まず、判定領域を設定し(ステップS131)、スコアを表す変数Sを0に設定するとともに、重みを取得した特徴画素の数を表す変数nを0に設定する(ステップS132)。
そして、特徴画素F(n)を選択する(ステップS133)。F(n)は、エッジ番号q、行番号yおよび列番号xで表される。なお、この例では、係数テーブルに係数が格納されている特徴画素のうち、顔検出に重要なものから順番に、F(0)、F(1)、F(2)、…として、特徴画素が選択されるようになっているものとする。
選択した特徴画素F(n)に対応する画素値i(n)を、当該判定領域に対応するエッジ特徴画像から取得する(ステップS134)。係数テーブルから、特徴画素F(n)に対応する多項式の係数a0 、a1 、a2 、a3 を取得する(ステップS135)。取得した画素値i(n)と係数a0 、a1 、a2 、a3 とを用いて、上記式(1)の多項式から重みw(n)を算出する(ステップS136)。そして、得られた重みw(n)をスコアSに加算する(ステップS137)。
次に、nを1だけインクリメントする(ステップS138)。そして、n=Nであるか否かを判別する(ステップS139)。n=Nでなければ、ステップS133に戻り、更新されたnを用いて、ステップS133〜S139の処理を行なう。
N個の特徴画素に対して、ステップS133〜S138の処理が行なわれると、ステップS139において、n=Nとなるため、ステップS140に移行する。ステップS140では、特徴画素数がN個である場合に予め定められた閾値ThよりスコアSが大きいか否かを判別する。S>Thであれば、当該判定領域に顔が存在すると判定する(ステップS141)。一方、S≦Thであれば、当該判定領域に顔が存在しないと判定する(ステップS142)。
図8の重みテーブルと図13の係数テーブルとのデータ量を比較する。フィッテング関数として3次元の多項式が用いられており、特徴画素の画素値の取り得る範囲を0〜Mとすると、係数テーブルのデータ量は重みテーブルのデータ量の4/Mとなる。M=255とすると、データ削減率は、4/254=0.016となる。
図15は、係数テーブル(多項式)を用いた場合の検出率と誤検出率との関係(折れ線A)と、重みテーブルを用いた場合の検出率と誤検出率との関係(折れ線B)とを示している。
縦軸に示す検出率とは、評価画像中に含まれる顔の総数に対して、検出に成功した顔の数の割合を表している。横軸に示す誤検出率とは、評価画像の枚数に対して、顔でない部分を誤って顔として検出した回数の割合を表している。検出率と誤検出率との関係は、検出感度の設定値(閾値Th)を変更することによって1つの曲線を描く。図15の折れ線グラフ上の各点(丸点または四角点)は、実際に閾値Thを変更させることにより得られたデータを示している。
検出率は高い方が好ましく、検出率と誤検出率との関係を表すデータは図15において上側に位置する方が好ましいい。一方、誤検出率は低い方が好ましく、検出率と誤検出率との関係を表すデータは図15において左側に位置する方が好ましい。図15に示すように、係数テーブル(多項式)を用いた場合の検出率と誤検出率との関係(折れ線A)は、重みテーブルを用いた場合の検出率と誤検出率との関係(折れ線B)より左上に位置しており、係数テーブル(多項式)を用いた場合の方が重みテーブルを用いた場合より、顔検出の精度が高いことがわかる。
この理由について考察する。重みテーブルの重みwは大量の学習データ(画像データ)に基づいて算出される。図12の折れ線で示すように、画素値毎の重みwのテーブル値を繋ぐ折れ線には、画素値によって振幅が大きくなる部分がある。これは、学習データが大量であるとはいえ有限個であるため、学習データに多く含まれている画素値については正確な重みが算出されるが、学習データに少量しか含まれていない画素値については重みがばらつくことに起因していると考えられる。
一方、多項式を用いる場合には、各画素値に対する重みは図12の曲線で表されるようになり、学習データに少量しか含まれていない画素値に対しても、全体的な傾向に応じた重みが与えられる。この結果、係数テーブル(多項式)を用いた場合の方が、重みテーブルを用いた場合より、顔検出の精度が高くなると考えられる。
なお、上記変形例では、特徴画素の画素値毎のテーブル値を近似化する関数(フィッテング関数)として多項式を用いるが、フィッテング関数として混合ガウス分布を用いるようにしてもよい。つまり、複数のガウス分布を重ねることにより、特徴画素の画素値毎のテーブル値を近似化する。
特徴画素F(n)の重みをw(n)とし、特徴画素F(n)の画素値をi(n)とすると、混合ガウス分布を用いたフィッテング関数は、次式(2)で表される。
w(n)=Σam exp{(i(n)−bm )/cm } …(2)
Mを混合するガウス分布の数とすると、am (m=1,2,…,M)は合成係数、bm (m=1,2,…,M)は平均、cm (m=1,2,…,M)は分散であり、これらのパラメータが係数テーブルに格納される。
実施例2以降の実施例では、重みテーブルおよび係数テーブルのうち、重みテーブルを用いた場合の実施例について説明するが、係数テーブルを用いてもよい。
実施例2は、検出可能な顔のサイズの種類は実施例1と同じであるが、生成する縮小画像の種類を実施例1に比べて少なくできることを特徴とするものである。
図16は、顔検出装置の動作を示している。
まず、入力画像を取得し(ステップS51)、入力画像から1または複数の縮小画像を生成する(ステップS52)。入力画像および縮小画像から構成される各階層画像毎に、4方向別のエッジ特徴画像を生成し(ステップS53)、各エッジ特徴画像と重みテーブルとを用いて顔検出処理を行なう(ステップS54)。そして、検出結果を出力する(ステップS55)。顔検出の終了指令が入力されていなければ(ステップS56)、ステップS51に戻る。ステップS56において、顔検出の終了指令が入力されていれば、終了する。
ステップS52の縮小画像の生成処理においては、図17に示すように、例えば、実施例1の縮小率Rの3回分の縮小率RM =R3 を用いて、入力画像30から縮小画像33を生成する。実施例でR=0.8に設定されている場合には、RM =0.512≒0.5となる。階層画像数は実施例1では6枚であるが、実施例2では2枚となる。ステップS53では、実施例1と同様に、各階層画像毎に、4方向別のエッジ特徴画像を生成する。
実施例2では、検出可能な顔のサイズの種類を実施例1と同じにするために、3種類の大きさの判定領域51、52、53を用いて顔判定を行なう。各判定領域51、52、53の大きさを、それぞれT1×T1、T2×T2、T3×T3とし、実施例1で用いた縮小率をRとすると、次の関係式(3)が成り立つようにT1、T2、T3が設定される。
T1=R×T2
T2=R×T3
T1=R2 ×T3 …(3)
ここで、R=0.8、T1=24とすると、T2=30、T3=37.5となる。計算上の利便性から、T3=36に設定される。重みテーブルも、3種類の判定領域それぞれに対応して予め3種類作成されて、メモリに保持されている。
ステップS54で行なわれる顔検出処理は、実施例1と同様に、各階層画像毎に行なわれる。ただし、各階層画像に対して、3種類の判定領域51、52、53それぞれを用いた顔検出処理が行なわれる。
図18は、入力画像中の3種類の判定領域に対して行なわれる顔検出処理手順を示している。
実施例2では、3種類の判定領域51、52、53それぞれに対して、顔検出処理が行なわれる。
入力画像中のT1×T1の判定領域51に対して行なわれる顔検出処理は、第1の判定ステップ(ステップS61)から第5の判定ステップ(ステップS65)までの判定ステップを備えている。各判定ステップは、判定に用いる特徴画素数Nの違いがある。第1の判定ステップ(ステップS61)〜第5の判定ステップ(ステップS65)では、それぞれ判定に用いる特徴画素数NはN1〜N5となっている。N1<N2<N3<N4<N5である。ある判定ステップにおいて、顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域には顔は存在しないと判定する。全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域51に顔が存在すると判定する。各判定ステップで実行される判定処理は、図10で説明した判定処理と同様である。
入力画像中のT2×T2の判定領域52に対して行なわれる顔検出処理も、判定領域51に対して行なわれる顔検出処理と同様に、第1の判定ステップ(ステップS71)から第5の判定ステップ(ステップS75)までの判定ステップからなる。また、入力画像中のT3×T3の判定領域53に対して行なわれる顔検出処理も、判定領域51に対して行なわれる顔検出処理と同様に、第1の判定ステップ(ステップS81)から第5の判定ステップ(ステップS85)までの判定ステップからなる。
実施例2では、縮小画像の数が実施例1より少なくなるので、縮小処理と4方向別のエッジ特徴画像の生成処理とにおける処理量が大幅に削減される。一方、大きさが異なる複数種類の判定領域毎に、顔検出処理を行なう必要があるので、全判定ステップを処理するとした場合には、1枚の画像に対する顔検出処理の回数は増加する。しかしながら、顔が存在しない判定領域においては、少ない特徴画素数を用いる前半の判定ステップにおいて非顔と判定される場合が多いため、比較的高速に処理できると考えられる。この結果、実施例1に比べて、全体的な処理量が低減され、処理速度の高速化が図れる。
〔1〕検出対象の顔の回転角度が異なる場合の顔検出方法
〔1−1〕回転角度が−90°、+90°、180°の場合
図19は、検出対象の顔の回転角度が異なる場合の入力画像の例を示している。
図19(a)の画像61は、一般にデジタルカメラなどで良く使用される横長の画像において、顔が直立した状態(デフォルトの回転角度位置(0°))で存在している場合を示している。図19(b)の画像62は顔がデフォルトの回転角度位置から時計方向を基準として+90°回転した状態で存在している場合を、図19(c)の画像63は顔がデフォルトの回転角度位置から時計方向を基準として−90°回転した状態で存在している場合を、図19(d)の画像64は顔がデフォルトの回転角度位置から180°回転した状態で存在している場合を、それぞれ示している。
このような回転角度位置が異なる顔を、デフォルトの回転位置用に作成した1種類の重みテーブルを用いて検出するためには、入力画像を回転させて、回転後の画像に対して4方向のエッジ特徴画像を生成すればよい。しかしながら、このようにすると、回転処理が必要となるとともに、回転後の各画像毎にエッジ特徴画像を生成する必要があるので、処理量が増大する。
また、デフォルトの回転位置用に作成した重みテーブルの他に、他の回転角度位置(+90°、−90°、180°)それぞれのための重みテーブルを用意しておき、任意位置の判定領域に対して、各回転角度位置毎に、対応する重みテーブルを用いて、顔検出を行なうことも考えられる。この方法では、画像を回転させる必要はないが、各回転角度位置用に重みテーブルを作成して保持しておく必要がある。
実施例3では、入力画像を回転させることなく、かつデフォルトの回転位置用に作成した1種類の重みテーブルを用いて、回転角度位置の異なる顔を検出できるようにすることに特徴がある。
図20は、重みテーブルにおいて指定されている特徴点(特徴画素)と直立状態の顔画像上における特徴点との対応関係と、重みテーブルにおいて指定されている特徴点(特徴画素)と+90°回転した状態の顔画像上における特徴点との対応関係とを示している。
図20の上段に示す図は、重みテーブルにおいて指定されている特徴点(q,y,xで表されている)を、エッジ番号(エッジ方向)別に表した図である。図20の中段の図は、直立した顔画像に対応する4方向のエッジ特徴画像における特徴点を表した図である。図20の下段の図は、+90°回転した状態の顔画像に対応する4方向のエッジ特徴画像における特徴点を表した図である。
重みテーブルにおいて指定されている特徴点a〜fは、+90°の顔画像に対応する4方向のエッジ特徴画像においては、図20の下段に示すように現れる。つまり、重みテーブルで指定されている水平方向のエッジ方向に対応する特徴点a、bは、+90°の顔画像に対応するエッジ特徴画像においては垂直方向のエッジ特徴画像に現れる。また、重みテーブルで指定されている垂直方向のエッジ方向に対応する特徴点c、dは、+90°の顔画像に対応するエッジ特徴画像においては水平方向のエッジ特徴画像に現れる。
また、重みテーブルで指定されている右斜上方向のエッジ方向に対応する特徴点eは、+90°の顔画像に対応するエッジ特徴画像においては左斜上方向のエッジ特徴画像に現れる。また、重みテーブルで指定されている左斜上方向のエッジ方向に対応する特徴点fは、+90°の顔画像に対応するエッジ特徴画像においては右斜上方向のエッジ特徴画像に現れる。
そして、重みテーブルで指定されている特徴点のxy座標をx,yとし、+90°の顔画像に対応するエッジ特徴画像における特徴点のxy座標をX,Yで表すとすると、対応する特徴点どうしの間においては、xy座標の関係は図21の点Pと点P2との関係となる。したがって、次式(4)で示すような関係式が成り立つ。
X=Tx−y
Y=x …(4)
図21に示すように、Txは判定領域の水平方向の長さであり、Tyは判定領域の垂直方向の長さである。
つまり、重みテーブルで指定されている特徴点の位置(q,y,x)と、+90°の顔画像(エッジ特徴画像)上の対応する特徴点の位置(Q,Y,X)との間には、表1に示すような関係がある。同様に、重みテーブルで指定されている特徴点の位置(q,y,x)と、−90°または180°の顔画像(エッジ特徴画像)上の対応する特徴点の位置(Q,Y,X)との間には、表1に示すような関係がある。さらに、横顔、斜め顔等のモデルを用いた顔検出においては、検出対象の顔画像が左右反転している場合や上下反転している場合もある。重みテーブルで指定されている特徴点の位置(q,y,x)と、左右反転または上下反転の顔画像(エッジ特徴画像)上の対応する特徴点の位置(Q,Y,X)との間には、表1に示すような関係がある。
Figure 0004540661
なお、重みテーブルで指定されている特徴点のxy座標と、−90°の顔画像(エッジ特徴画像)上の対応する特徴点のxy座標との関係は、図21の点Pと点P1との関係となる。重みテーブルで指定されている特徴点のxy座標と、180°の顔画像(エッジ特徴画像)上の対応する特徴点のxy座標との関係は、図21の点Pと点P3との関係となる。
表1の関係を利用することにより、デフォルトの回転位置用に作成された重みテーブルを用いて、デフォルトの顔画像を+90°、−90°または180°回転した状態の顔画像ならびにデフォルトの顔画像を左右反転または上下反転した状態の顔画像を検出することが可能である。
具体的には、たとえば、+90°の顔を検出したい場合には、図10のステップS33で特徴画素F(n)を選択すると、選択した特徴画素F(n)を、表1の関係に基づいて、+90°の顔画像(エッジ特徴画像)上の対応する特徴画素F’(n)に変換する。ステップS34では、エッジ特徴画像から、変換後の特徴画素F’(n)の画素値i(n)を取り込む。ステップS35では、重みテーブルから、特徴画素F(n)の画素値i(n)に対応する重みw(n)を取得する。それ以降の処理は実施例1、2と同じである。
〔1−2〕回転角度が+45°、−45°、+135°、−135°の場合
図22は、検出対象の顔の回転角度が異なる場合の入力画像の例を示している。
図22(a)の画像71は、顔がデフォルトの回転角度位置から時計方向を基準として+45°回転した状態で存在している場合を、図22(b)の画像72は顔がデフォルトの回転角度位置から時計方向を基準として−45°回転した状態で存在している場合を、図22(c)の画像73は顔がデフォルトの回転角度位置から時計方向を基準として+135°回転した状態で存在している場合を、図22(d)の画像74は顔がデフォルトの回転角度位置から−135°回転した状態で存在している場合を、それぞれ示している。
図23は、重みテーブルにおいて指定されている特徴点(特徴画素)と直立状態の顔画像上における特徴点との対応関係と、重みテーブルにおいて指定されている特徴点(特徴画素)と+45°回転した状態の顔画像上における特徴点との対応関係とを示している。
図23の上段に示す図は、重みテーブルにおいて指定されている特徴点(q,y,xで表されている)を、エッジ番号(エッジ方向)別に表した図である。図23の中段の図は、直立した顔画像に対応する4方向のエッジ特徴画像における特徴点を表した図である。図23の下段の図は、+45°回転した状態の顔画像に対応する4方向のエッジ特徴画像における特徴点を表した図である。
重みテーブルにおいて指定されている特徴点a〜fは、+45°の顔画像に対応する4方向のエッジ特徴画像においては、図23の下段に示すように現れる。つまり、重みテーブルで指定されている水平方向のエッジ方向に対応する特徴点a、bは、+45°の顔画像に対応するエッジ特徴画像においては左斜上方向のエッジ特徴画像に現れる。また、重みテーブルで指定されている垂直方向のエッジ方向に対応する特徴点c、dは、+45°の顔画像に対応するエッジ特徴画像においては右斜上方向のエッジ特徴画像に現れる。
また、重みテーブルで指定されている右斜上方向のエッジ方向に対応する特徴点eは、+45°の顔画像に対応するエッジ特徴画像においては水平方向のエッジ特徴画像に現れる。また、重みテーブルで指定されている左斜上方向のエッジ方向に対応する特徴点fは、+45°の顔画像に対応するエッジ特徴画像においては垂直方向のエッジ特徴画像に現れる。
そして、重みテーブルで指定されている特徴点のxy座標をx,yとし、+45°の顔画像に対応するエッジ特徴画像における特徴点のxy座標をX,Yで表すとすると、対応する特徴点どうしの間においては、xy座標の関係は図24の点Pと点P1との関係となる。したがって、次式(5)で示すような関係式が成り立つ。
X=(Ty+x−y)/√2
Y=(x+y)/√2 …(5)
図24に示すように、Txは判定領域の水平方向の長さであり、Tyは判定領域の垂直方向の長さである。
つまり、重みテーブルで指定されている特徴点の位置(q,y,x)と、+45°の顔画像(エッジ特徴画像)上の対応する特徴点の位置(Q,Y,X)との間には、表2に示すような関係がある。同様に、重みテーブルで指定されている特徴点の位置(q,y,x)と、−45°、+135°または−135°の顔画像(エッジ特徴画像)上の対応する特徴点の位置(Q,Y,X)との間には、表2に示すような関係がある。
Figure 0004540661
なお、重みテーブルで指定されている特徴点のxy座標と、−45°の顔画像(エッジ特徴画像)上の対応する特徴点のxy座標との関係は、図24の点Pと点P2との関係となる。重みテーブルで指定されている特徴点のxy座標と、+135°の顔画像(エッジ特徴画像)上の対応する特徴点のxy座標との関係は、図24の点Pと点P3との関係となる。重みテーブルで指定されている特徴点のxy座標と、−135°の顔画像(エッジ特徴画像)上の対応する特徴点のxy座標との関係は、図24の点Pと点P4との関係となる。
表2の関係を利用することにより、デフォルトの回転位置用に作成された重みテーブルを用いて、デフォルトの顔画像を+45°、−45°、+135°または−135°回転した状態の顔画像を検出することが可能である。
具体的には、たとえば、+45°の顔を検出したい場合には、図10のステップS33で特徴画素F(n)を選択すると、選択した特徴画素F(n)を、表2の関係に基づいて、+45°の顔画像(エッジ特徴画像)上の対応する特徴画素F’(n)に変換する。ステップS34では、エッジ特徴画像から、変換後の特徴画素F’(n)の画素値i(n)を取り込む。ステップS35では、重みテーブルから、特徴画素F(n)の画素値i(n)に対応する重みw(n)を取得する。それ以降の処理は実施例1、2と同じである。
実施例4は、図16〜図18を用いて説明した実施例2を改良したものである。
実施例4と実施例2との違いは、図16のステップ51〜S56のうち、ステップS54の顔検出処理の内容が異なっている点にある。
実施例2で説明したように、ステップS52の縮小画像の生成処理においては、図25に示すように、例えば、実施例1の縮小率Rの3回分の縮小率RM =R3 を用いて、入力画像30から縮小画像33を生成する。R=0.8に設定されている場合には、RM =0.512≒0.5となる。ここでは、サイズの小さい画像33を階層画像pと呼び、サイズの大きい画像30を階層画像p+1と呼ぶことにする。ステップS53(図16参照)では、階層画像p+1,p毎に、4方向別のエッジ特徴画像を生成する。
以下、ステップS54で行なわれる顔検出処理について説明する。図25において、51、52、53は、階層画像p+1に対して用いられる大きさの異なる判定領域である。各判定領域51、52、53の大きさは、実施例2で説明したように、それぞれT1×T1、T2×T2、T3×T3である。
また、図25において、54、55、56は、階層画像pに対して用いられる大きさの異なる判定領域である。各判定領域54、55、56の大きさを、Tp1×Tp1、Tp2×Tp2、Tp3×Tp3とすると、Tp1、Tp2、Tp3は、次式(6)で示すような大きさに設定されている。
Tp1=R3 ×T1≒0.5T1
Tp2=R3 ×T2≒0.5T2
Tp3=R3 ×T3≒0.5T3 …(6)
このように、Tp1、Tp2、Tp3を設定すると、階層画像p+1に対して判定領域51を用いて検出できる顔サイズと、階層画像pに対して判定領域54を用いて検出できる顔サイズとが同じになる。また、階層画像p+1に対して判定領域52を用いて検出できる顔サイズと、階層画像pに対して判定領域55を用いて検出できる顔サイズとが同じになる。また、階層画像p+1に対して判定領域53を用いて検出できる顔サイズと、階層画像pに対して判定領域56を用いて検出できる顔サイズとが同じになる。
重みテーブルは、6種類の判定領域51〜56それぞれに対応して予め6種類作成されて、メモリに保持されている。
ステップS54(図16参照)で行なわれる顔検出処理は、階層画像p+1,p毎に行なわれるが、実施例4では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、それより全体の画素数が少ない下位の階層画像pを用いて粗検出を行なう。
図26は、階層画像p+1に対する顔検出処理手順を示している。
前処理として、階層画像pを用いて粗検出を行なう点が実施例2と異なっている。
図26において、ステップS61〜S65は、階層画像p+1中のT1×T1の判定領域51に対して行なわれる顔検出処理を示しており、図18のステップS61〜S65と同じ処理である。また、ステップS71〜S75は、階層画像p+1中のT2×T2の判定領域52に対して行なわれる顔検出処理を示しており、図18のステップS71〜S75と同じ処理である。また、ステップS81〜S85は、階層画像p+1中のT3×T3の判定領域53に対して行なわれる顔検出処理を示しており、図18のステップS81〜S85と同じ処理である。
ステップS91は、ステップS61の前に行なわれる粗検出処理である。ステップS91においては、階層画像p中のTp1×Tp1の判定領域54に対して、予め定められた特徴画素数Naを用いて、顔検出処理を行なう。処理手順は、図10で説明した手順となる。この粗検出処理において、顔が検出された場合にのみステップS61に移行する。
ステップS92は、ステップS71の前に行なわれる粗検出処理である。ステップS92においては、階層画像p中のTp2×Tp2の判定領域55に対して、予め定められた特徴画素数Nbを用いて、顔検出処理を行なう。処理手順は、図10で説明した手順となる。この粗検出処理において、顔が検出された場合にのみステップS71に移行する。
ステップS93は、ステップS81の前に行なわれる粗検出処理である。ステップS93においては、階層画像p中のTp3×Tp3の判定領域56に対して、予め定められた特徴画素数Ncを用いて、顔検出処理を行なう。処理手順は、図10で説明した手順となる。この粗検出処理において、顔が検出された場合にのみステップS81に移行する。
なお、階層画像pに対する顔検出処理は、判定領域の大きさが実施例2とは異なるが、実施例2と同様な処理によって行なわれる。
実施例4では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、それより全体の画素数が少ない下位の階層画像pを用いて粗検出を行なっているので、粗検出において顔が検出されない場合に、階層画像p+1に対する処理を省略できるため、処理の高速化が図れる。
実施例5は、図16〜図18を用いて説明した実施例2を改良したものである。
実施例5と実施例2との違いは、図16のステップS51〜S56のうち、ステップS54の顔検出処理の内容が異なっている点にある。
実施例2で説明したように、ステップS52の縮小画像の生成処理においては、図27に示すように、例えば、実施例1の縮小率Rの3回分の縮小率RM =R3 を用いて、入力画像30から縮小画像33を生成する。R=0.8に設定されている場合には、RM =0.512≒0.5となる。ここでは、サイズの小さい画像33を階層画像pと呼び、サイズの大きい画像30を階層画像p+1と呼ぶことにする。図27において、51、52、53は、大きさの異なる判定領域である。各判定領域51、52、53の大きさは、実施例2で説明したように、それぞれT1×T1、T2×T2、T3×T3である。
図27において、57は粗検出用の判定領域を示している。粗検出用の判定領域の大きさをTc×Tcとすると、Tc=T3となる。ステップS53(図16参照)では、階層画像p+1,p毎に、4方向別のエッジ特徴画像を生成する。
以下、ステップS54(図16参照)で行なわれる顔検出処理について説明する。
実施例5においても、実施例2と同様に、各判定領域51、52、53の大きさに応じた3種類の重みテーブルがメモリに保持されている。実施例5においては、さらに、粗検出に用いられる共通重みテーブルが予め作成されて保持されている。共通重みテーブルは、概念的には、図28に示すように、判定領域51、52、53の大きさに対応した3つの顔画像を重ね合わせた画像に基づいて作成される。つまり、共通重みテーブルは、3種類の大きさの異なる顔画像を含む画像に基づいて作成される。したがって、共通重みテーブルを用いて顔検出を行なった場合には、3種類の大きさの異なる顔のうちのいずれかの顔が存在するか否かを、大まかに判定することが可能である。
ステップS54(図16参照)で行なわれる顔検出処理は、階層画像p+1,p毎に行なわれるが、実施例5では、各階層画像p+1,pに対する顔検出処理を行なう際には、前処理として、共通重みテーブルを用いて粗検出を行なう。
図29は、ある階層画像に対する顔検出処理手順を示している。
図29において、ステップS61〜S65は、階層画像中のT1×T1の判定領域51に対して行なわれる顔検出処理を示しており、図18のステップS61〜S65と同じ処理である。また、ステップS71〜S75は、階層画像中のT2×T2の判定領域52に対して行なわれる顔検出処理を示しており、図18のステップS71〜S75と同じ処理である。また、ステップS81〜S85は、階層画像中のT3×T3の判定領域53に対して行なわれる顔検出処理を示しており、図18のステップS81〜S85と同じ処理である。
顔検出処理においては、まず、階層画像中のTc×Tcの判定領域57に対して、共通重みテーブルを用いて粗検出を行なう(ステップS101)。この際に用いられる特徴画素数は予め定められている。粗検出において、顔が検出されなかった場合には、当該判定領域内には顔は存在しないと判別し、当該判定領域内における通常の判定処理を省略する。粗検出において、顔が検出された場合にのみ、実施例2と同様な処理(ステップS61以降の処理、ステップS71以降の処理、ステップS81以降の処理)を行なう。
実施例5では、各階層画像に対する顔検出処理を行なう際には、前処理として、共通重みテーブルを用いて粗検出を行なっているので、粗検出において顔が検出されない場合に、通常の判定処理を省略できるため、処理の高速化が図れる。
実施例6は、図16〜図18を用いて説明した実施例2を改良したものである。
実施例6と実施例2との違いは、図16のステップ51〜S56のうち、ステップS54の顔検出処理の内容が異なっている点にある。
実施例2で説明したように、ステップS52の縮小画像の生成処理においては、図30に示すように、例えば、実施例1の縮小率Rの3回分の縮小率RM =R3 を用いて、入力画像30から縮小画像33を生成する。R=0.8に設定されている場合には、RM =0.512≒0.5となる。ここでは、サイズの小さい画像33を階層画像pと呼び、サイズの大きい画像30を階層画像p+1と呼ぶことにする。ステップS53(図16参照)では、階層画像p+1,p毎に、4方向別のエッジ特徴画像を生成する。
以下、ステップS54(図16参照)で行なわれる顔検出処理について説明する。
図30において、51、52、53は、大きさの異なる判定領域である。各判定領域51、52、53の大きさは、実施例2で説明したように、それぞれT1×T1、T2×T2、T3×T3である。また、図30において、58は、粗検出に用いる判定領域である。この粗検出は、階層画像p+1より下位の階層画像pを用いて行なわれる。
判定領域58の大きさを、Tpc×Tpcとすると、Tpcは、次式(7)で示すような大きさに設定されている。
Tpc=R3 ×T3≒0.5T3…(7)
実施例6においても、実施例2と同様に、各判定領域51、52、53の大きさに応じた3種類の重みテーブルがメモリに保持されている。実施例6においては、さらに、階層画像p上の判定領域58に対応した粗検出用の共通重みテーブルが予め作成されて保持されている。共通重みテーブルは、実施例5で説明したようにして生成される。したがって、共通重みテーブルを用いて顔検出を行なった場合には、3種類の大きさの異なる顔のうちのいずれか1つの顔が存在するか否かを、大まかに判定することが可能である。
ステップS54(図16参照)で行なわれる顔検出処理は、階層画像p+1,p毎に行なわれるが、実施例6では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、それより全体の画素数が少ない下位の階層画像pを用いて粗検出を行なう。
図31は、階層画像p+1に対する顔検出処理手順を示している。
図31において、ステップS61〜S65は、階層画像p+1中のT1×T1の判定領域51に対して行なわれる顔検出処理を示しており、図18のステップS61〜S65と同じ処理である。また、ステップS71〜S75は、階層画像p+1中のT2×T2の判定領域52に対して行なわれる顔検出処理を示しており、図18のステップS71〜S75と同じ処理である。また、ステップS81〜S85は、階層画像p+1中のT3×T3の判定領域53に対して行なわれる顔検出処理を示しており、図18のステップS81〜S85と同じ処理である。
顔検出処理においては、まず、階層画像p中のTpc×Tpcの判定領域58に対して、共通重みテーブルを用いて粗検出を行なう(ステップS102)。この際に用いられる特徴画素数は予め定められている。粗検出において、顔が検出されなかった場合には、当該判定領域内には顔は存在しないと判別し、当該判定領域内における通常の判定処理を省略する。粗検出において、顔が検出された場合にのみ、実施例2と同様な処理(ステップS61以降の処理、ステップS71以降の処理、ステップS81以降の処理)を行なう。
なお、階層画像pに対する顔検出処理は、実施例2と同様な処理によって行なわれる。実施例6では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、それより全体の画素数が少ない下位の階層画像pに対して共通重みテーブルを用いて粗検出を行なっているので、粗検出において顔が検出されない場合に、階層画像p+1に対する処理を省略できるため、処理の高速化が図れる。
実施例7は、図16〜図18を用いて説明した実施例2を改良したものである。
実施例7と実施例2との違いは、図13のステップ51〜S56のうち、ステップS54の顔検出処理の内容が異なっている点にある。
実施例2で説明したように、ステップS52の縮小画像の生成処理においては、図32に示すように、例えば、実施例1の縮小率Rの3回分の縮小率RM =R3 を用いて、入力画像30から縮小画像33を生成する。R=0.8に設定されている場合には、RM =0.512≒0.5となる。ここでは、サイズの小さい画像33を階層画像pと呼び、サイズの大きい画像30を階層画像p+1と呼ぶことにする。
図32において、51、52、53は、大きさの異なる判定領域である。各判定領域51、52、53の大きさは、実施例2で説明したように、それぞれT1×T1、T2×T2、T3×T3である。図32において、57は実施例5で説明したように、階層画像p+1に対して用いられる粗検出用の判定領域(以下、第2の粗検出用の判定領域という)を示している。第2の粗検出用の判定領域の大きさをTc×Tcとすると、Tc=T3となる。第2の粗検出用の判定領域57を用いた第2の粗検出は、階層画像p+1を用いて行なわれる。
また、図32において、58は、実施例6で説明したように、階層画像pに対して用いられる粗検出用の判定領域(以下、第1の粗検出用の判定領域という)である。第1の粗検出用の判定領域58を用いた第1の粗検出は、階層画像p+1より下位の階層画像pを用いて行なわれる。
判定領域58の大きさを、Tpc×Tpcとすると、Tpcは、次式(8)で示すような大きさに設定されている。
Tpc=R3 ×T3≒0.5T3…(8)
ステップS53(図16参照)では、階層画像p+1,p毎に、4方向別のエッジ特徴画像を生成する。
以下、ステップS54(図16参照)で行なわれる顔検出処理について説明する。
実施例7においても、実施例2と同様に、各判定領域51、52、53の大きさに応じた3種類の重みテーブルがメモリに保持されている。実施例7においては、さらに、第2の粗検出用の判定領域57に対応した第2の共通重みテーブルが予め作成されて保持されているとともに、第1の粗検出用の判定領域58に対応した第1の共通重みテーブルが予め作成されて保持されている。これらの共通重みテーブルは、実施例5で説明したようにして生成される。
ステップS54(図16参照)で行なわれる顔検出処理は、階層画像p+1,p毎に行なわれるが、実施例7では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、まず、それより全体の画素数が少ない下位の階層画像pを用いた第1の粗検出処理を行なった後に、階層画像p+1を用いた第2の粗検出処理を行なう。
図33は、階層画像p+1に対する顔検出処理手順を示している。
図33において、ステップS61〜S65は、階層画像p+1中のT1×T1の判定領域51に対して行なわれる顔検出処理を示しており、図18のステップS61〜S65と同じ処理である。また、ステップS71〜S75は、階層画像p+1中のT2×T2の判定領域52に対して行なわれる顔検出処理を示しており、図18のステップS71〜S75と同じ処理である。また、ステップS81〜S85は、階層画像p+1中のT3×T3の判定領域53に対して行なわれる顔検出処理を示しており、図18のステップS81〜S85と同じ処理である。
顔検出処理においては、まず、階層画像p中のTpc×Tpcの第1の粗検出用の判定領域58に対して、第1の粗検出用の共通重みテーブルを用いて第1の粗検出を行なう(ステップS201)。この際に用いられる特徴画素数は予め定められている。第1の粗検出において、顔が検出されなかった場合には、当該判定領域内には顔は存在しないと判別し、当該判定領域内における通常の判定処理を省略する。
第1の粗検出において、顔が検出された場合には、階層画像p+1中のTc×Tcの第2の粗検出用の判定領域57に対して、第2の粗検出用の共通重みテーブルを用いて第2の粗検出を行なう(ステップS202)。この際に用いられる特徴画素数は予め定められている。第2の粗検出において、顔が検出されなかった場合には、当該判定領域内には顔は存在しないと判別し、当該判定領域内における通常の判定処理を省略する。第2の粗検出において、顔が検出された場合にのみ、実施例2と同様な処理(ステップS61以降の処理、ステップS71以降の処理、ステップS81以降の処理)を行なう。
なお、階層画像pに対する顔検出処理は、実施例2と同様な処理によって行なわれる。実施例7では、サイズの大きい階層画像p+1に対する顔検出処理を行なう際には、前処理として、それより全体の画素数が少ない下位の階層画像pに対して第1の共通重みテーブルを用いて第1の粗検出を行なうとともに、階層画像p+1に対して第2の共通重みテーブルを用いて第2の粗検出を行なっているので、粗検出において顔が検出されない場合に、階層画像p+1に対する通常の判定処理を省略できるため、処理の高速化が図れる。
上記実施例では、説明の便宜上、正面顔に対する重みテーブル(または係数テーブル)を用いて顔を検出する場合について説明した。
顔検出の精度を高めるためには、正面顔に対する重みテーブル(または係数テーブル)を用いた第1の顔検出処理と、横顔に対する重みテーブル(または係数テーブル)を用いた第2の顔検出処理と、斜め顔に対する重みテーブル(または係数テーブル)を用いた第2の顔検出処理とをそれぞれ行ない、いずれかの顔検出処理において顔が検出された場合に、顔が存在すると判定する。
第1の顔検出処理、第2の顔検出処理および第3の顔検出処理のそれぞれは、図9で示すように、複数段階の判定ステップを備えており、これら全ての判定ステップを処理するためには時間がかかる。そこで、実施例8では、処理時間の短縮化を図る。
図34は、顔検出処理手順を示している。
ここでは、説明の便宜上、正面顔に対する重みテーブル(または係数テーブル)を用いた第1の顔検出処理は、2段階の判定ステップ(ステップS301、ステップS302)からなるものとする。第1段階の判定ステップ(ステップS301)と第2段階の判定ステップ(ステップS302)とでは、判定に用いられる特徴画素数が異なる。つまり、第2段階の判定ステップ(ステップS302)で用いられる特徴画素数は、第1段階の判定ステップ(ステップS301)で用いられる特徴画素数より多い。
同様に、横顔に対する重みテーブル(または係数テーブル)を用いた第2の顔検出処理も、2段階の判定ステップ(ステップS401、ステップS402)からなり、斜め顔に対する重みテーブル(または係数テーブル)を用いた第3の顔検出処理も、2段階の判定ステップ(ステップS501、ステップS502)からなるものとする。
まず、第1の顔検出処理の第1段階の判定ステップ(ステップS301)、第2の顔検出処理の第1段階の判定ステップ(ステップS401)および第3の顔検出処理の第1段階の判定ステップ(ステップS501)を行なう。
ステップS301、S401およびS501の全てにおいて、顔が検出されなかった場合には、顔が存在しないと判別される。ステップS301、S401およびS501のいずれかにおいて、顔が検出された場合には、ステップS600に移行する。
ステップS600では、ステップS301、S401およびS501のうち、顔が検出されたステップで算出されたスコアSに基づいて、続行する処理を判定する。つまり、顔が検出された第1段階の判定ステップで算出されたスコアのうち、最もスコアSの大きい判定ステップに対応する顔検出処理の種類(第1〜第3の顔検出処理)を特定する。そして、特定した顔検出処理の種類の第2段階の判定ステップに移行する。
例えば、ステップS301、S401およびS501の全てにおいて、顔が検出された場合において、それらのステップで算出されたスコアSのうち、ステップS301で算出されたスコアが最も大きい場合には、第1の顔検出処理の第2段階の判定ステップであるステップS302に移行する。この場合、第2の顔検出処理および第3の顔検出処理の第2段階移行の判定ステップは行なわれない。
顔検出装置の構成を示すブロック図である。 顔検出装置の動作を示すフローチャートである。 1266562383827_0のステップS2によって得られる複数の階層画像を示す模式図である。 1266562383827_1のステップS3で行なわれる4方向のエッジ特徴画像の生成処理の手順を示すフローチャートである。 水平方向エッジ、垂直方向エッジ、右斜上方向エッジおよび左斜上方向エッジの4方向それぞれに対応する微分フィルタの一例を示す模式図である。 1266562383827_2のステップS4の顔検出処理を説明するための模式図である。 入力画像内の判定領域に対応する4方向のエッジ特徴画像を示す模式図である。 重みテーブルの内容例を示す模式図である。 入力画像内に設定された判定領域に対して行なわれる顔検出処理手順を示すフローチャートである。 1266562383827_3の各判定ステップで実行される判定処理手順を示すフローチャートである。 顔検出処理の変形例を示すフローチャートである。 横軸にある特徴画素の画素値をとり、縦軸に重みwをとった場合の重みテーブルの値(以下、テーブル値という)と、特徴画素の画素値毎のテーブル値を近似化する多項式曲線とを示すグラフである。 係数テーブルの内容例を示す模式図である。 係数テーブルを用いた場合の判定処理手順を示すフローチャートである。 係数テーブル(多項式)を用いた場合の検出率と誤検出率との関係(折れ線A)と、重みテーブルを用いた場合の検出率と誤検出率との関係(折れ線B)とを示すグラフである。 顔検出装置の動作を示すフローチャートである。 1266562383827_4のステップS52によって得られる2つの階層画像と、複数種類の判定領域とを示す模式図である。 入力画像中の3種類の判定領域に対して行なわれる顔検出処理手順を示すフローチャートである。 検出対象の顔の回転角度が異なる場合の入力画像の例を示す模式図である。 重みテーブルにおいて指定されている特徴点(特徴画素)と直立状態の顔画像上における特徴点との対応関係と、重みテーブルにおいて指定されている特徴点(特徴画素)と+90°回転した状態の顔画像上における特徴点との対応関係とを示す模式図である。 重みテーブルで指定されている特徴点のxy座標と、−90°、+90°および180°の顔画像(エッジ特徴画像)上の対応する特徴点とのxy座標の関係を示す模式図である。 検出対象の顔の回転角度が異なる場合の入力画像の例を示す模式図である。 重みテーブルにおいて指定されている特徴点(特徴画素)と直立状態の顔画像上における特徴点との対応関係と、重みテーブルにおいて指定されている特徴点(特徴画素)と+45°回転した状態の顔画像上における特徴点との対応関係とを示す模式図である。 重みテーブルで指定されている特徴点のxy座標と、+45°、−45°、+135°および−135°の顔画像(エッジ特徴画像)上の対応する特徴点とのxy座標の関係を示す模式図である。 2つの階層画像と、各階層画像に対して用いられる判定領域とを示す模式図である。 顔検出処理手順を示すフローチャートである。 2つの階層画像と、判定領域と、粗検出用の判定領域とを示す模式図である。 共通重みテーブルの生成方法を概念的に説明するための模式図である。 ある階層画像に対する顔検出処理手順を示すフローチャートである。 2つの階層画像と、判定領域と粗検出用の判定領域とを示す模式図である。 顔検出処理手順を示すフローチャートである。 2つの階層画像と判定領域と粗検出用の判定領域とを示す模式図である。 顔検出処理手順を示すフローチャートである。 顔検出処理手順を示すフローチャートである。
符号の説明
11 AD変換手段
12 縮小画像生成手段
13 4方向エッジ特徴画像生成手段
14 重みテーブルを記憶したメモリ
15 顔判定手段
16 検出結果出力手段

Claims (6)

  1. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、
    当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの回転角度位置に対して所定角度回転した特定物体を、検出できるようにしたことを特徴とする物体検出装置。
  2. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像から複数の縮小画像を生成する縮小画像生成手段、
    入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、
    当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの回転角度位置に対して所定角度回転した特定物体を、検出できるようにしたことを特徴とする物体検出装置。
  3. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、
    当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの姿勢を左右反転させた特定物体または上下反転させた特定物体を、検出できるようにしたことを特徴とする物体検出装置。
  4. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像から複数の縮小画像を生成する縮小画像生成手段、
    入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像のエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、
    当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    エッジ特徴画像が、横方向、垂直方向、右斜上方向および左斜上方向の4方向それぞれに対応したエッジ特徴画像であり、特定物体検出用テーブルの特徴画素がエッジ方向を表すエッジ番号とxy座標とで表されており、特定物体検出用テーブルの任意の特徴画素に対応するエッジ特徴画像上の位置として、当該特徴画素のエッジ番号および/またはxy座標を予め定められた規則によって変換した後の位置を用いることにより、特定物体のデフォルトの姿勢を左右反転させた特定物体または上下反転させた特定物体を、検出できるようにしたことを特徴とする物体検出装置。
  5. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像またはその縮小画像を対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応する対象画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    特定物体検出用テーブルは、判定領域の大きさの画像の所定の特徴画素毎に、その特徴画素において取り得るエッジ特徴量と物体らしさを表す重みを表す多項式の係数を記憶していることを特徴とする物体検出装置。
  6. 入力画像中の特定物体を検出する物体検出装置において、
    入力画像から複数の縮小画像を生成する縮小画像生成手段、
    入力画像と縮小画像とから構成される複数の階層画像それぞれを対象画像として、対象画像またはそのエッジ特徴画像内において、判定領域を走査しながら、判定領域内に特定物体が存在するか否かを判別するための特定物体検出処理を行なう特定物体検出手段を備えており、
    特定物体検出手段は、判定領域に対応する対象画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴画像のエッジ特徴量と、判定領域の大きさの画像の横方向、垂直方向、右斜上方向及び左斜上方向の4方向それぞれについてのエッジ特徴量の大きさと物体らしさを表す重みとの関係とに基づいて、当該判定領域内に特定物体が存在するか否かを判定する判定手段、
    特定物体を含む複数のサンプル画像から予め作成されかつ判定領域の大きさの画像の所定の特徴画素毎にエッジ特徴量の大きさと物体らしさを表す重みとの関係を記憶した特定物体検出用テーブルを備え、
    判定手段は、判定領域に対応するエッジ特徴画像のエッジ特徴量と、特定物体検出用テーブルとに基づいて、当該判定領域内に特定物体が存在するか否かを判定するものであり、
    特定物体検出用テーブルは、判定領域の大きさの画像の所定の特徴画素毎に、その特徴画素において取り得るエッジ特徴量と物体らしさを表す重みを表す多項式の係数を記憶していることを特徴とする物体検出装置。
JP2006354005A 2006-02-28 2006-12-28 物体検出装置 Expired - Fee Related JP4540661B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006354005A JP4540661B2 (ja) 2006-02-28 2006-12-28 物体検出装置
US11/710,559 US7974441B2 (en) 2006-02-28 2007-02-26 Object detection apparatus for detecting a specific object in an input image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006053304 2006-02-28
JP2006354005A JP4540661B2 (ja) 2006-02-28 2006-12-28 物体検出装置

Publications (2)

Publication Number Publication Date
JP2007265390A JP2007265390A (ja) 2007-10-11
JP4540661B2 true JP4540661B2 (ja) 2010-09-08

Family

ID=38444057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006354005A Expired - Fee Related JP4540661B2 (ja) 2006-02-28 2006-12-28 物体検出装置

Country Status (2)

Country Link
US (1) US7974441B2 (ja)
JP (1) JP4540661B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4902562B2 (ja) * 2007-02-07 2012-03-21 パナソニック株式会社 撮像装置、画像処理装置、制御方法およびプログラム
JP4804398B2 (ja) 2007-03-30 2011-11-02 三洋電機株式会社 撮像装置及び撮影方法
DE102007050568A1 (de) * 2007-08-04 2009-02-05 Continental Teves Ag & Co. Ohg Verfahren und Einrichtung zur Objekterkennung in einem Bild
JP2009110486A (ja) * 2007-11-01 2009-05-21 Sony Corp 画像処理装置、画像処理方法および画像処理プログラム、並びに、撮像装置および撮像装置の制御方法
KR101362768B1 (ko) * 2007-11-23 2014-02-14 삼성전자주식회사 객체 검출 방법 및 장치
JP5067282B2 (ja) 2008-06-27 2012-11-07 ソニー株式会社 物体検出制御装置、物体検出システム、物体検出制御方法およびプログラム
US8396263B2 (en) * 2008-12-30 2013-03-12 Nokia Corporation Method, apparatus and computer program product for providing face pose estimation
JP2011053915A (ja) * 2009-09-02 2011-03-17 Sony Corp 画像処理装置、画像処理方法、プログラム及び電子機器
JP5317934B2 (ja) * 2009-11-25 2013-10-16 富士フイルム株式会社 オブジェクト検出装置および方法並びにプログラム
JP2011130169A (ja) 2009-12-17 2011-06-30 Sanyo Electric Co Ltd 画像処理装置及び撮影装置
EP2717219B1 (en) 2011-06-02 2018-05-30 Panasonic Intellectual Property Management Co., Ltd. Object detection device, object detection method, and object detection program
WO2012168538A1 (en) * 2011-06-07 2012-12-13 Nokia Corporation Method, apparatus and computer program product for object detection
JP5743742B2 (ja) * 2011-06-23 2015-07-01 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9111346B2 (en) * 2011-09-13 2015-08-18 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and recording medium
JP5685665B1 (ja) * 2014-04-28 2015-03-18 ヴィスコ・テクノロジーズ株式会社 画像認識装置
JP6235414B2 (ja) * 2014-06-06 2017-11-22 株式会社デンソーアイティーラボラトリ 特徴量演算装置、特徴量演算方法、及び特徴量演算プログラム
WO2015188359A1 (zh) * 2014-06-12 2015-12-17 深圳市大疆创新科技有限公司 一种图片处理方法、装置
US9986155B2 (en) * 2014-09-05 2018-05-29 Htc Corporation Image capturing method, panorama image generating method and electronic apparatus
CN104537355B (zh) * 2015-01-12 2017-11-24 中南大学 一种利用图像边界信息和区域连通性的显著对象检测方法
JP6664163B2 (ja) * 2015-08-05 2020-03-13 キヤノン株式会社 画像識別方法、画像識別装置及びプログラム
JP6772786B2 (ja) * 2016-11-25 2020-10-21 アイシン精機株式会社 乗員検知装置および乗員検知プログラム
US10121072B1 (en) 2016-12-30 2018-11-06 Intuit Inc. Unsupervised removal of text from form images
JP7208713B2 (ja) * 2018-02-13 2023-01-19 キヤノン株式会社 画像解析装置および画像解析方法
JP6971894B2 (ja) * 2018-03-09 2021-11-24 株式会社東芝 画像処理装置
CN109697460B (zh) 2018-12-05 2021-06-29 华中科技大学 对象检测模型训练方法、目标对象检测方法
CN110599503B (zh) * 2019-06-18 2021-05-28 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质
CN111444976A (zh) * 2020-04-02 2020-07-24 Oppo广东移动通信有限公司 目标检测方法、装置、电子设备和可读存储介质
CN113763402A (zh) * 2020-06-04 2021-12-07 Oppo(重庆)智能科技有限公司 一种检测方法、检测装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134638A (ja) * 1998-10-22 2000-05-12 Matsushita Electric Ind Co Ltd 画像処理装置
JP2002304627A (ja) * 2001-02-01 2002-10-18 Matsushita Electric Ind Co Ltd 画像処理方法及びその装置
JP2004334836A (ja) * 2003-04-14 2004-11-25 Fuji Photo Film Co Ltd 画像の特徴部分抽出方法及び特徴部分抽出プログラム並びに撮像装置と画像処理装置
JP2005025568A (ja) * 2003-07-03 2005-01-27 Secom Co Ltd 頭部領域抽出装置
JP2005056124A (ja) * 2003-08-04 2005-03-03 Softopia Japan Foundation 顔部品位置検出方法及び顔部品位置検出装置
JP2005157679A (ja) * 2003-11-25 2005-06-16 Sony Corp 対象物検出装置及び方法、並びに集団学習装置及び方法
JP2005235089A (ja) * 2004-02-23 2005-09-02 Japan Science & Technology Agency 画像認識装置、画像認識方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3684606B2 (ja) * 1995-03-11 2005-08-17 日産自動車株式会社 パターン認識方法
US5870502A (en) * 1996-04-08 1999-02-09 The Trustees Of Columbia University In The City Of New York System and method for a multiresolution transform of digital image information
US6453069B1 (en) * 1996-11-20 2002-09-17 Canon Kabushiki Kaisha Method of extracting image from input image using reference image
US6421463B1 (en) * 1998-04-01 2002-07-16 Massachusetts Institute Of Technology Trainable system to search for objects in images
US6711279B1 (en) * 2000-11-17 2004-03-23 Honeywell International Inc. Object detection
US7099510B2 (en) * 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US20040228505A1 (en) * 2003-04-14 2004-11-18 Fuji Photo Film Co., Ltd. Image characteristic portion extraction method, computer readable medium, and data collection and processing device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000134638A (ja) * 1998-10-22 2000-05-12 Matsushita Electric Ind Co Ltd 画像処理装置
JP2002304627A (ja) * 2001-02-01 2002-10-18 Matsushita Electric Ind Co Ltd 画像処理方法及びその装置
JP2004334836A (ja) * 2003-04-14 2004-11-25 Fuji Photo Film Co Ltd 画像の特徴部分抽出方法及び特徴部分抽出プログラム並びに撮像装置と画像処理装置
JP2005025568A (ja) * 2003-07-03 2005-01-27 Secom Co Ltd 頭部領域抽出装置
JP2005056124A (ja) * 2003-08-04 2005-03-03 Softopia Japan Foundation 顔部品位置検出方法及び顔部品位置検出装置
JP2005157679A (ja) * 2003-11-25 2005-06-16 Sony Corp 対象物検出装置及び方法、並びに集団学習装置及び方法
JP2005235089A (ja) * 2004-02-23 2005-09-02 Japan Science & Technology Agency 画像認識装置、画像認識方法及びプログラム

Also Published As

Publication number Publication date
US20070201747A1 (en) 2007-08-30
US7974441B2 (en) 2011-07-05
JP2007265390A (ja) 2007-10-11

Similar Documents

Publication Publication Date Title
JP4540661B2 (ja) 物体検出装置
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
CN110288657B (zh) 一种基于Kinect的增强现实三维注册方法
JP5336995B2 (ja) 特徴点位置決め装置、画像認識装置、その処理方法及びプログラム
KR102016082B1 (ko) 딥러닝 기반의 포즈 변화에 강인한 얼굴 인식 방법 및 장치
US20200074682A1 (en) Neural network-based camera calibration
US8811744B2 (en) Method for determining frontal face pose
JP6406900B2 (ja) 画像処理方法、画像処理装置、プログラム、記録媒体、生産装置、及び組立部品の製造方法
JP2004362569A (ja) 頭部姿勢の査定方法およびシステム
JP6648925B2 (ja) 画像処理方法、画像処理装置、画像処理システム、生産装置、プログラム及び記録媒体
WO2008056660A1 (fr) Système de détection de point de fuite, procédé de détection de point de fuite et programme de détection de point de fuite
CN109919971B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20050139782A1 (en) Face image detecting method, face image detecting system and face image detecting program
US8126275B2 (en) Interest point detection
JP2012243285A (ja) 特徴点位置決定装置、特徴点位置決定方法及びプログラム
CN112839172A (zh) 基于手部识别的拍摄主体识别方法和系统
US20070242876A1 (en) Image Processing Apparatus, Image Processing Method, and Program
JP5486403B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP2007257358A (ja) 物体検出装置
JP2010044586A (ja) 2次元コード読取装置とそのプログラム
JP4798018B2 (ja) 画像照合装置
JP2015170205A (ja) 特徴量生成装置、特徴量生成方法、およびプログラム
JP2008040959A (ja) 受動式及びインタラクティブ式の即時影像認識方法
JP4217954B2 (ja) 画像探索装置
KR102436197B1 (ko) 이미지 객체 검출 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100622

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees