JP4791598B2 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
JP4791598B2
JP4791598B2 JP2010529529A JP2010529529A JP4791598B2 JP 4791598 B2 JP4791598 B2 JP 4791598B2 JP 2010529529 A JP2010529529 A JP 2010529529A JP 2010529529 A JP2010529529 A JP 2010529529A JP 4791598 B2 JP4791598 B2 JP 4791598B2
Authority
JP
Japan
Prior art keywords
data
hierarchy
image
face
conversion coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010529529A
Other languages
English (en)
Other versions
JPWO2010032297A1 (ja
Inventor
珊珊 于
雅芳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP4791598B2 publication Critical patent/JP4791598B2/ja
Publication of JPWO2010032297A1 publication Critical patent/JPWO2010032297A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、画像データを量子化する画像処理装置および画像処理方法に関するものである。
近年、カメラ等によって撮影された画像中から、各種の物体(例えば、人物の顔、車等)を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。
また、画像データそのものの情報量は膨大であり、物体検出の技術では、画像中に検索対象となる物体が存在しているか否かを判定できればよいので、情報の量子化技術を利用して画像データを削減し、メモリ資源を節約する必要がある。
情報の量子化技術には、画像データを周波数変換(ウェーブレット<Wavelet>変換)し、変換結果となる変換係数の大小(または、隣り合う画素同士の画素値の差分の大小)から量子化処理を行う技術がある(例えば、非特許文献1参照)。かかる量子化処理では、変換係数と、量子化閾値とを比較することにより、画像データを3段階に量子化するので、物体検出に用いられる画像データ、学習データの記憶領域を削減することが可能となる。
また、画像データ中に、検出対象となる物体が存在するケースは全体的には小確率であるため、画像データの全領域と学習データの全領域とを詳細に比較すると、比較する必要のない領域まで画像データと学習データとを比較してしまい、物体検出処理に無駄が生じてしまう。
そこで、物体検出処理にかかる無駄を省くため、画像データ中の検索領域に対して大まかに物体検出を行い、画像データ中に検出対象の物体が含まれている可能性があると判定した場合のみ、詳細に物体検出を行うという技術が知られている(例えば、特許文献1参照)。かかる技術では、大まかに物体検出を行い、画像データ中に検出対象となる物体が含まれていないと判定した場合には、次の領域に処理を進めるので、物体検出処理を高速化することができる。
特開2004−246618号公報 H.Schneiderman and T. Kanade, Object Detection Using the Statistics of Parts To appear in International Journal of Computer Vision,2002.
しかしながら、上述した従来の技術では、物体検出を精度よく行なえず、物体検出処理を高速化することができないという問題があった。
すなわち、従来の技術では、物体検出処理を高速化するために、画像データ中の検索領域に対して大まかに物体検出を行っているので、検索対象の物体に類似する異なる物体も誤って検出対象の物体であると判定してしまうことが多くなる。そして、誤って検出対象の物体であると判定したために、検出対象となる物体が存在していないにも関わらず、詳細な物体検出処理に移行してしまうので、結果として、物体検出処理が遅れてしまうことになる。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体検出を精度よく行い、物体検出処理を高速化することができる画像処理装置および画像処理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、この画像処理装置は、被写体の特徴が現れている領域を示す特徴領域の情報を含んだ辞書データを記憶する記憶手段と、入力画像を取得した場合に、前記辞書データの特徴領域と、当該辞書データの特徴領域に対応する入力画像の領域とを比較することで、前記入力画像に前記被写体が含まれているか否かを判定する判定手段と、を有することを要件とする。
この画像処理装置によれば、無駄な物体検出処理を省略して処理を高速化し、画像データ中に含まれる被写体を精度よく検出することができる。
図1は、階層化した学習データの一例を示す図である。 図2は、本実施例にかかる画像処理装置の構成を示す機能ブロック図である。 図3は、顔学習データのデータ構造の一例を示す図である。 図4は、階層データのデータ構造の一例を示す図である。 図5は、非顔学習データのデータ構造の一例を示す図である。 図6は、比較対象データのデータ構造の一例を示す図である。 図7は、比較結果テーブルのデータ構造の一例を示す図である。 図8は、本実施例にかかる画像処理装置の処理手順を示すフローチャートである。 図9は、階層データを作成する処理手順を示すフローチャートである。 図10は、平滑化処理の一例を説明するための図である。 図11は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。
符号の説明
30 コンピュータ
31 入力装置
32 モニタ
33 RAM
33a,39a 各種データ
34 ROM
35 通信制御装置
36 媒体読取装置
37 カメラ
38 CPU
38a 画像処理プロセス
39 HDD
39b 画像処理プログラム
40 バス
100 画像処理装置
110a,110b 変換処理部
120a,120b 分析処理部
130 記憶部
130a 顔学習データ
130b 階層データ
130c 非顔学習データ
130d 比較対象データ
140 顔検出処理部
以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
まず、本実施例にかかる画像処理装置の概要および特徴について説明する。本実施例にかかる画像処理装置は、画像データ(物体の検出対象となる画像データ)と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較することで、物体検出処理を高速化する。ここで、被写体を人物の顔とすると、顔の目や鼻、口の位置は、どの人物であっても略一致しているため、目や鼻、口の位置に対応する領域が重要度の高い階層となる。一方、髪の毛の位置などは人それぞれであるため、髪の毛の位置に対応する領域は重要度の低い階層となる。
図1は、階層化した学習データの一例を示す図である。図1では一例として、被写体を人物の顔とし、顔を正面から、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔をフレーム全面に写した画像とする。図1の(a)は、顔画像を周波数変換(ウェーブレット変換)した結果得られる縦方向の学習データであり、図1の(b)は、顔画像を周波数変換した結果得られる横方向の学習データである。また、図1において、階層1の重要度が最も高く、階層2,3,4の順に重要度が低くなる(階層4が最も重要度が低い)。
図1の(a)に示す例では、鼻の位置に対応する画像上の領域(画像のほぼ中央部)が階層1になっており、図1の(b)に示す例では、目(画像の上部の左と右)、口(画像の下部の中央部)に対応する画像上の領域が階層1になっている。本実施例にかかる画像処理装置は、物体検出を行う場合に、まず階層1に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層2〜4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
一方、被写体が含まれると判断した場合には、階層2に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層3,4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
一方、被写体が含まれると判断した場合には、階層3に対応する学習データの領域と画像データの領域とを比較する。そして、被写体が含まれないと判定した場合には、残りの階層4に対応する領域について物体検出を省略し、画像データに被写体が存在しないという判定結果を出力する。
一方、被写体が含まれると判断した場合には、階層4に対応する学習データの領域と画像データの領域とを比較する。そして、階層4においても、被写体が含まれていると判定した場合に、画像データに被写体が存在するという判定結果を出力する。
このように、本実施例にかかる画像処理装置は、学習データを階層化し、階層毎の比較結果に応じて残りの階層に対する物体検出を省略するので、物体検出にかかる処理を高速化することができる。また、被写体の重要度に応じて、各階層を設定しているので、被写体の誤検出を防止することができる。
次に、本実施例1にかかる画像処理装置の構成について説明する。図2は、本実施例にかかる画像処理装置100の構成を示す機能ブロック図である。図2に示すように、この画像処理装置100は、変換処理部110a,110bと、分析処理部120a,120bと、記憶部130と、顔検出処理部140とを有する。
変換処理部110aは、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。
なお、顔画像集データは、様々な人物の顔画像を集めた画像データであり、非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。また、顔画像集データのサイズおよび非顔画像集データのサイズは統一されているものとする。
変換処理部110aは、入力装置、記憶装置(図示略)等から顔画像集データおよび非顔画像集データを取得する。変換処理部110aは、周波数変換した顔画像集データおよび非顔画像集データを分析処理部120aに出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。
変換処理部110bは、入力画像データを取得し、取得した入力画像データに対して周波数変換処理(例えば、ウェーブレット変換)を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。なお、入力画像データは、物体検出対象となる画像データである。変換処理部110aは、入力装置、記憶装置(図示略)等から入力画像データを取得する。変換処理部110bは、周波数変換した入力画像データを分析処理部120bに出力する。
分析処理部120aは、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換顔画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。また、分析処理部120aは、顔学習データの分散を算出し、算出した分散に基づいて顔学習データを複数の階層に分類(階層化)する。
まず、分析処理部120aが、顔学習データを作成する処理について具体的に説明する。分析処理部120aは、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。ここで、変換顔画像集データに含まれる画像データはそれぞれ、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。そして、分割処理部120aは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
同様に、分析処理部120aは、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120aは、量子化した各画像データの各変換係数値(各画像データの同一位置に対応する変換係数値)を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の係数値について、各画像データを比較したところ、係数値「0」、「1」の頻度よりも、係数値「2」の頻度のほうが大きい場合には、顔学習データ中の位置(x1、y1)の係数値を「2」に設定する。なお,この係数頻度計数に合わせて,係数値の分散を算出しておく。係数値が0,1,2のいずれかの値に集中していれば,分散値は小さくなる。
図3は、顔学習データのデータ構造の一例を示す図である。図3に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図3に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値を対応付けて記憶させても良い。また、位置情報と対応付けて変換係数値だけではなく分散値も記憶させてもよい。
次に、分析処理部120aが、顔学習データを複数の階層に分類する処理について説明する。分析処理部120aは、算出しておいた分散と比較値1,2,3(ただし、比較値1<比較値2<比較値3)とを比較して、顔学習データを各階層1〜4に分類する。
例えば、分析処理部120aは、顔画像データ上の領域において、
分散<比較値1となる領域を階層1に設定し、
比較値1≦分散<比較値2となる領域を階層2に設定し、
比較値2≦分散<比較値3となる領域を階層3に設定し、
比較値3≦分散となる領域を階層4に設定することで、階層データを作成する。
図1で説明したように、顔学習データの縦方向では、鼻などの周囲で分散(分散の値)が小さく、横方向では、目や口周辺で分散が小さくなる。顔の特徴をあらわす部位においては、データが集中するため、このような傾向が得られる。
図4は、階層データのデータ構造の一例を示す図である。図4に示すように、この階層データは、位置情報と階層とを対応付けて記憶している。なお、ここでは一例として、位置情報と、階層とを対応付ける構成となっているが、これに限定されるものではなく、顔学習データ上の領域と、階層とを対応付けて記憶させても良い。
次に、分析処理部120aが、非顔学習データを作成する処理について説明する。分割処理部120bは、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。なお、非顔画像集データに含まれる画像データは、顔が写っていない画像である。そして、分割処理部120aは、各画像データを周波数変換した結果である変換係数と、各量子化閾値とを比較することで、該当変換係数を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
同様に、分析処理部120aは、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部120aは、量子化した各画像データの各変換係数値(各画像データの同一位置に対応する変換係数値)を比較し、変換係数値の頻度に基づいて、非顔学習データを作成する。例えば、画像データ中の位置(x1、y1)の変換係数値について、各画像データを比較したところ、変換係数値「0」、「1」の頻度よりも、変換係数値「2」の頻度のほうが大きい場合には、非顔学習データ中の位置(x1、y1)の変換係数値を「2」に設定する。
図5は、非顔学習データのデータ構造の一例を示す図である。図5に示すように、この非顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図5に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値に対応付けて記憶させても良い。
分析処理部120bは、周波数変換された入力画像データを取得した場合に、取得した入力画像データを量子化する処理部である。分析処理部120bは、量子化した入力画像データを記憶部130に出力する。以下の説明において、量子化した入力画像データを比較対象データと表記する。
具体的に、分析処理部120bは、変換係数と各量子化閾値とを比較することにより、該当ブロックの画素値を量子化(3値あるいは4値に量子化)する。なお、各量子化閾値は、予め、管理者が設定しておく。
図6は、比較対象データのデータ構造の一例を示す図である。図6に示すように、この比較対象データは、位置情報と変換係数値とを対応付けて記憶している。なお、比較対象データのデータ構造は、図6に示したものに限らず、例えば、物体検出時に比較する変換係数の塊(例えば、8変換係数)毎に変換係数値と対応付けて記憶させても良い。
記憶部130は、分析処理部120aから出力される顔学習データ、階層データ、非顔学習データ、分析処理部120bから出力される比較対象データを記憶する記憶部である。
顔検出処理部140は、検出範囲を設定し、検出範囲内の階層1〜4の順に、顔学習データ130aと、非顔学習データ130cと、比較対象データ130dとを比較して、入力画像データに顔画像が含まれているか否かを判定する処理部である。顔検出処理部140は、ある階層で入力画像に顔が含まれていないと判定した時点で、残りの階層の物体検出を省略し、次の検出範囲に対する物体検出処理に移行する。なお、以下の説明において、入力画像データとは,顔検出処理対象(入力されるフレームそのもの)から切り出した画像を意味し,これが比較対象データに相当する。顔検出対象のフレーム全体の中に,どのような大きさの顔が含まれているかはわからないので、比較対象データを複数種類の大きさに変化させて、また、入力画像データ内で切り出し位置をずらしながら切り出して、比較対象データの領域を設定することになる。
顔検出処理部140は、まず、顔学習データの検出範囲内の階層1に対応する領域(以下、第1の領域と表記する)の変換係数値と、第1の領域に対応する非顔学習データ130c上の変換係数値と、第1の領域に対応する比較対象データ130d上の変換係数値とを比較する。
顔検出処理部140は、階層1について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層2に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合、すなわち、処理対象としている比較対象データ130dは顔である可能性がない場合には、階層2〜4の処理を省略し、入力画像データに対する処理を終了する。
階層1において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データ130aの検出範囲内の階層2に対応する領域(以下、第2の領域と表記する)の変換係数値と、第2の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
顔検出処理部140は、階層2について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層3に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合には、階層3、4の処理を省略し、入力画像データに対する処理を終了する。
階層2において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データの検出範囲内の階層3に対応する領域(以下、第3の領域と表記する)の変換係数値と、第3の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
顔検出処理部140は、階層3について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、階層4に処理を移行する。なお、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きくない場合には、階層4の処理を省略し、入力画像データ処理を終了する。
階層3において、入力画像データに顔が含まれていると判定した場合には、顔検出処理部140は、顔学習データの検出範囲内の階層4に対応する領域(以下、第4の領域と表記する)の変換係数値と、第4の領域に対応する非顔学習データ130c上の変換係数値と、第2の領域に対応する比較対象データ130d上の変換係数値とを比較する。
顔検出処理部140は、階層4について、比較対象データ130dと顔学習データ130aとの変換係数値の一致率が、比較対象データ130dと非顔学習データ130cとの変換係数値の一致率よりも大きい場合には、該当する検出範囲に顔の特徴が含まれていると判定する。その他の場合には、該当する検出範囲に顔の特徴が含まれていないと判定する。
顔検出処理部140による判定結果は、比較結果テーブルに登録される。図7は、比較結果テーブルのデータ構造の一例を示す図である。図7に示すように、この比較結果テーブルは、検出範囲を識別する検出範囲識別情報と、比較結果とを対応付けて記憶している。顔検出処理部140は、顔学習データ130a、非顔学習データ130c、比較対象データ130dの検出範囲を比較した結果、顔の特徴が含まれていると判定した場合には、比較結果に「マル」を登録し、顔の特徴が含まれていないと判定した場合には、比較結果に「バツ」を登録する。
なお、図7に示すように、必ずしも検出範囲毎に比較結果を保存する必要はなく、例えば、「マル」の数および「バツ」の数を集計し、集計結果のみを比較結果テーブルに保存しても良い。かかる比較結果テーブルは、顔検出処理部140が保持しているものとする。
次に、本実施例にかかる画像処理装置100の処理手順について説明する。図8は、本実施例にかかる画像処理装置100の処理手順を示すフローチャートである。図8に示すように、画像処理装置100は、入力画像データを取得し(ステップS101)、量子化処理を実行する(ステップS102)。
画像処理装置100は、ステップS103において、はじめに画像処理装置100は、階層1を選択する。
画像処理装置100は、選択した階層に対応する顔学習データ130a、非顔学習データ130c、比較対象データ130dの領域をそれぞれ比較し、物体(検出対象となる物体)が存在するか否かを判定する(ステップS104)。
画像処理装置100は、物体が存在する可能性がない場合には(ステップS105,No)、処理を終了する。一方、物体が存在する可能性がある場合には(ステップS105,Yes)、次の階層が存在するか否かを判定する(ステップS106)。
画像処理装置100は、次の階層が存在する場合には(ステップS107,Yes)、次の階層を選択し(ステップS108)、ステップS104に移行する。ステップS108において、例えば、画像処理装置100が、現在、階層1を選択している場合には、階層2を選択する。
一方、次の階層が存在しない場合には(ステップS107,No)、画像処理装置100は、検出結果を判定する(ステップS109)。
次に、本実施例にかかる画像処理装置が階層データ130bを作成する処理手順について説明する。図9は、階層データ130bを作成する処理手順を示すフローチャートである。
図9に示すように、画像処理装置100は、顔学習データ130aを取得し(ステップS201)、顔学習データの各領域の分散を算出する(ステップS202)。そして、画像処理装置100は、顔学習データの分散に基づいて階層化し、階層データ130bを作成する(ステップS203)。
上述してきたように、本実施例にかかる画像処理装置100は、画像データ(物体の検出対象となる画像データ)と学習データとを比較して物体検出を行う場合に、被写体の各領域における重要度に応じて学習データの各領域を階層化し、重要度が高い階層から順に画像データと学習データとを比較し、不要な階層における物体検出処理を省略するので、物体検出を精度よく行い、物体検出処理を高速化することができる。
ところで、本実施例にかかる画像処理装置100は、顔学習データ130aの分散を算出し、階層データ130bを作成していたが、階層データを算出する方法はこれに限定されるものではない。例えば、画像処理装置100は、画像データを周波数変換した場合の、変換係数と頻度とのヒストグラムから、画像データの各領域における重要度を判定し、各領域を複数の階層に分類しても良い。
また、画像処理装置100は、階層データ130bを作成した後に、周辺の階層との関係を考慮して、階層を修正する平滑化処理を実行しても良い。図10は、平滑化処理の一例を説明するための図である。図10では一例として、階層データ130bが、9つのブロックa〜iで構成されている場合を示しており、平滑化処理対象となるブロックを「e」とする。
画像処理装置100は、修正対象となるブロックの階層を
修正後の階層=(右隣の階層+左隣の階層+上隣の階層+下隣の階層+修正対象の階層×2)÷6
によって算出する(小数点以下は、四捨五入)。
例えば、図10において、ブロックeに対して平滑化処理を行うと、平滑化処理後のブロックeの階層は、階層2となる。このように、画像処理装置100が、平滑化処理を階層データ130bに対して実行することにより、ノイズの影響などを抑止することができる。
また、本実施例にて述べた階層化方法を、公知の顔検出技術と組み合わせて実施することも有効である。たとえば、[非特許文献1]と組み合わせることが可能である。この場合は、[非特許文献1]の顔辞書の分散を基準にして、階層構造を定めればよい。ローカルオペレータの変換係数内の位置ごとにヒストグラム態様の辞書を保有しており、このヒストグラムの分散を基準にすれば、ローカルオペレータの変換係数内の位置ごとに階層を定めることができる。階層の決定は、前記のように辞書の分散を基準としても良いが、管理者によって予め定めておく等の方法でもかまわない。
なお、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図2に示した画像処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
図11は、本実施例にかかる画像処理装置100を構成するコンピュータのハードウェア構成を示す図である。図11に示すように、このコンピュータ(画像処理装置)30は、入力装置31、モニタ32、RAM(Random Access Memory)33、ROM(Read Only Memory)34、ネットワークを介して他の装置と通信を行う通信制御装置35、記憶媒体からデータを読み出す媒体読取装置36、カメラ37、CPU(Central Processing Unit)38、HDD(Hard Disk Drive)39をバス40で接続している。
そして、HDD39には、上述した画像処理装置100の機能と同様の機能を発揮する画像処理プログラム39bが記憶されている。CPU38が、画像処理プログラム39bを読み出して実行することにより、画像処理プロセス38aが起動される。
ここで、画像処理プロセス38aは、図2の変換処理部110a,110b、分析処理部120a,120b、顔検出処理部140に対応する。また、HDD39は、画像処理装置100の記憶部130に記憶される情報に対応する各種データ39aを記憶する。CPU38は、HDD39に格納された各種データ39aを読み出して、RAM33に格納し、RAM33に格納された各種データ33aを利用して、画像データの量子化、物体検出を実行する。
ところで、図11に示した画像処理プログラム39bは、必ずしも最初からHDD39に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータに接続される「他のコンピュータ(またはサーバ)」などに画像処理プログラム39bを記憶しておき、コンピュータがこれらから画像処理プログラム39bを読み出して実行するようにしてもよい。

Claims (4)

  1. 画像上の位置と該位置における変換係数値とを対応付けた辞書データ、および、画像上の位置と該位置における変換係数値のばらつき具合を示す階層とを対応付けた階層データを記憶する記憶手段と、
    入力画像を取得した場合に、前記辞書データと前記階層データとを参照し、前記階層に対応する位置の前記辞書データの変換係数値と前記入力画像データの変換係数値との比較結果と、該比較結果に対応する前記階層を基にして、前記入力画像に被写体が含まれているか否かを判定する判定手段と、
    を有することを特徴とする画像処理装置。
  2. 入力画像を複数の周波数成分に変換した結果に基づいて、前記入力画像を構成する位置ごとに変換係数値を抽出する特徴抽出手段と、
    前記特徴抽出手段の抽出結果に基づいて、前記入力画像上の位置と該位置における変換係数値とを対応付けた辞書データ、および、前記入力画像上の位置と該位置における変換係数値のばらつき具合を示す階層とを対応付けた階層データを作成する作成手段と、
    被写体の検出対象となる検出対象画像を取得した場合に、前記辞書データと前記階層データとを参照し、前記階層に対応する位置の前記辞書データの変換係数値と前記入力画像データとの比較結果と、該比較結果に対応する前記階層とを基にして、前記検出対象画像に前記被写体が含まれているか否かを判定する判定手段と、
    を有することを特徴とする画像処理装置。
  3. 前記判定手段は、前記辞書データに含まれる位置のうち、ばらつき具合の小さい階層に対応する位置の前記辞書データの変換係数値および前記入力画像データの変換係数値から順に比較することを特徴とする請求項に記載の画像処理装置。
  4. 前記判定手段は、第1階層の位置について前記被写体が含まれていると判断した場合には、前記第1階層よりもばらつき具合の大きい第2階層の位置について前記被写体が含まれているか否かを判定することを特徴とする請求項3に記載の画像処理装置。
JP2010529529A 2008-09-17 2008-09-17 画像処理装置および画像処理方法 Expired - Fee Related JP4791598B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/066790 WO2010032297A1 (ja) 2008-09-17 2008-09-17 画像処理装置、画像処理方法および画像処理プログラム

Publications (2)

Publication Number Publication Date
JP4791598B2 true JP4791598B2 (ja) 2011-10-12
JPWO2010032297A1 JPWO2010032297A1 (ja) 2012-02-02

Family

ID=42039151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010529529A Expired - Fee Related JP4791598B2 (ja) 2008-09-17 2008-09-17 画像処理装置および画像処理方法

Country Status (3)

Country Link
US (2) US8509539B2 (ja)
JP (1) JP4791598B2 (ja)
WO (1) WO2010032297A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102947850B (zh) * 2010-05-28 2016-07-06 乐天株式会社 内容输出装置、内容输出方法
US8326001B2 (en) * 2010-06-29 2012-12-04 Apple Inc. Low threshold face recognition
KR101675785B1 (ko) * 2010-11-15 2016-11-14 삼성전자주식회사 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치
US9202108B2 (en) * 2012-04-13 2015-12-01 Nokia Technologies Oy Methods and apparatuses for facilitating face image analysis
US10049273B2 (en) * 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
CN105574157B (zh) * 2015-12-16 2019-03-22 Oppo广东移动通信有限公司 一种照片存储方法及设备
CN107066943B (zh) * 2017-03-06 2019-10-25 中国科学院信息工程研究所 一种人脸检测方法及装置
USD837914S1 (en) 2017-09-15 2019-01-08 Karsten Manufacturing Corporation Golf club head

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162143A (ja) * 1996-12-04 1998-06-19 Omron Corp 類似度算出装置
JP2004246618A (ja) * 2003-02-13 2004-09-02 Toshiba Corp パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62217390A (ja) * 1986-03-18 1987-09-24 Fujitsu Ltd 順変換テ−ブルを用いたパタ−ン整合方式
US6829384B2 (en) * 2001-02-28 2004-12-07 Carnegie Mellon University Object finder for photographic images
US7263220B2 (en) * 2003-02-28 2007-08-28 Eastman Kodak Company Method for detecting color objects in digital images
JP4507679B2 (ja) * 2004-04-21 2010-07-21 富士ゼロックス株式会社 画像認識装置、画像抽出装置、画像抽出方法及びプログラム
US7848566B2 (en) * 2004-10-22 2010-12-07 Carnegie Mellon University Object recognizer and detector for two-dimensional images using bayesian network based classifier
US8503800B2 (en) * 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
JP2007072620A (ja) * 2005-09-05 2007-03-22 Toshiba Corp 画像認識装置及びその方法
JP5202148B2 (ja) * 2008-07-15 2013-06-05 キヤノン株式会社 画像処理装置、画像処理方法、及びコンピュータプログラム
US8189866B1 (en) * 2008-08-26 2012-05-29 Adobe Systems Incorporated Human-action recognition in images and videos
JP4720880B2 (ja) * 2008-09-04 2011-07-13 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP5384273B2 (ja) * 2009-09-30 2014-01-08 富士フイルム株式会社 カメラ及びカメラの記録方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162143A (ja) * 1996-12-04 1998-06-19 Omron Corp 類似度算出装置
JP2004246618A (ja) * 2003-02-13 2004-09-02 Toshiba Corp パターン認識における照合に用いられる画像の生成ならびに同画像を用いたパターン認識のための方法、装置、およびプログラム

Also Published As

Publication number Publication date
US8509539B2 (en) 2013-08-13
WO2010032297A1 (ja) 2010-03-25
US20110216977A1 (en) 2011-09-08
US20130294699A1 (en) 2013-11-07
JPWO2010032297A1 (ja) 2012-02-02
US8818104B2 (en) 2014-08-26

Similar Documents

Publication Publication Date Title
JP4791598B2 (ja) 画像処理装置および画像処理方法
US8358837B2 (en) Apparatus and methods for detecting adult videos
EP2605169B1 (en) User detecting apparatus, user detecting method, and a user detecting program
US20120114177A1 (en) Image processing system, image capture apparatus, image processing apparatus, control method therefor, and program
US8842889B1 (en) System and method for automatic face recognition
JP5900208B2 (ja) 画像処理装置及び画像処理方法
US20110019927A1 (en) Image processing method, apparatus and program
US8300939B2 (en) Image processing method, image processing apparatus, and program
JP4719825B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
CN110232331B (zh) 一种在线人脸聚类的方法及系统
JP4947216B2 (ja) 画像処理装置および画像処理方法
JP2007013480A (ja) 監視システム、監視方法、及び監視プログラム
JP2006164133A (ja) 画像処理方法および装置並びにプログラム
US8879804B1 (en) System and method for automatic detection and recognition of facial features
JP4802297B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP4779057B2 (ja) 画像処理装置および画像処理方法
CN112818728B (zh) 年龄识别的方法及相关产品
CN113887427A (zh) 一种人脸识别方法和装置
KR20120051441A (ko) 잡초 이미지에 포함된 잡초 분류 방법 및 그 장치
JP5283267B2 (ja) コンテンツ識別方法及び装置
CN110334643B (zh) 一种基于人脸识别的特征评估方法及装置
Abboud et al. Quality based approach for adaptive face recognition
CN113642503B (zh) 基于图像和语音识别的窗口服务评分方法及系统
CN109583262B (zh) 对象侦测的适应系统与方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees