JP4517633B2 - 対象物検出装置及び方法 - Google Patents

対象物検出装置及び方法 Download PDF

Info

Publication number
JP4517633B2
JP4517633B2 JP2003394556A JP2003394556A JP4517633B2 JP 4517633 B2 JP4517633 B2 JP 4517633B2 JP 2003394556 A JP2003394556 A JP 2003394556A JP 2003394556 A JP2003394556 A JP 2003394556A JP 4517633 B2 JP4517633 B2 JP 4517633B2
Authority
JP
Japan
Prior art keywords
weak
image
value
learning
estimated value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003394556A
Other languages
English (en)
Other versions
JP2005157679A5 (ja
JP2005157679A (ja
Inventor
健一 日台
浩太郎 佐部
献太 河本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2003394556A priority Critical patent/JP4517633B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to EP04257229A priority patent/EP1536369B1/en
Priority to DE602004004048T priority patent/DE602004004048T2/de
Priority to US10/994,942 priority patent/US7574037B2/en
Publication of JP2005157679A publication Critical patent/JP2005157679A/ja
Publication of JP2005157679A5 publication Critical patent/JP2005157679A5/ja
Application granted granted Critical
Publication of JP4517633B2 publication Critical patent/JP4517633B2/ja
Priority to US13/208,123 priority patent/USRE43873E1/en
Priority to US13/669,820 priority patent/USRE44703E1/en
Priority to US14/091,410 priority patent/USRE45595E1/en
Priority to US14/743,538 priority patent/USRE47434E1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Description

本発明は、リアルタイムで顔画像などの対象物を検出する対象物検出装置及び方法関する。
従来、複雑な画像シーンの中から動きを使わないで画像信号の濃淡パターンのみを使った顔検出手法は数多く提案されている。例えば下記特許文献1に記載の顔検出器は、ハール(Haar)基底のようなフィルタを弱判別器(弱学習機)(weak learner)に用いたアダブースト(AdaBoost)を使用したもので、後述する積分画像(インテグラルイメージ:Integral image)とよばれる画像と矩形特徴(rectangle feature)とを使用することで、高速に弱仮説(weak hypothesis)を計算することができる。
図15は、特許文献1に記載の矩形特徴を示す模式図である。図15に示すように、特許文献1に記載の技術においては、入力画像142A〜142Dにおいて、同一サイズの隣り合う矩形領域の輝度値の総和を求め、一方の矩形領域の輝度値の総和と他方の矩形領域の輝度値の総和との差を出力するようなフィルタ(弱仮説)を複数用意する。例えば、入力画像142Aにおいては、矩形領域154A−1の輝度値の総和から、影を付けて示す矩形領域(rectangular box)154A−2の輝度値の総和を減算するフィルタ154Aを示す。このような2つの矩形領域からなるフィルタを2矩形特徴(2 rectangle feature)という。また、入力画像142Cにおいては、1つの矩形領域が3分割された3つの矩形領域154C−1〜154C−3からなり、矩形領域154C−1、154C−3の輝度値の総和から影を付けて示す中央の矩形領域154C−2の輝度値の総和を減算するフィルタ154Cを示す。このような3つの矩形領域からなるフィルタを3矩形特徴(3 rectangle feature)という。更に、入力画像142Dにおいては、1つの矩形領域が上下左右に分割された4つの矩形領域154D−1〜154D−4からなり、矩形領域154D−1、154D−3の輝度値の総和から影を付けて示す矩形領域154D−2、154D−4の輝度値の総和を減算するフィルタ154Dを示す。このような4つの矩形領域からなるフィルタを4矩形特徴(4 rectangle feature)という。
例えば、図16に示す顔画像を、図15に示す例えば矩形特徴154Bを使用して顔であることを判定する場合について説明する。2矩形特徴154Bは、1つの矩形領域が上下(垂直方向)に2分割された2つの矩形領域154B−1、154B−2からなり、矩形領域154B−2の輝度値の総和から影を付けて示す矩形領域154B−1の輝度値の総和を減算する。人間の顔(対象物)138は、頬の領域より眼の領域の方が輝度値が低いことを利用すると、矩形特徴154Bの出力値から入力画像が顔か否か(正解または不正解)をある程度の確率で推定することができる。これをアダブーストにおける弱判別器の1つとして利用する。
ここで、検出時において、入力画像には含まれる様々な大きさの顔領域を検出するため、様々なサイズの領域(以下、探索ウィンドウという。)を切り出して顔か否かを判定する必要がある。しかしながら例えば320×240画素からなる入力画像には、およそ50000種類のサイズの顔領域(探索ウィンドウ)が含まれており、これら全てのウィンドウサイズについての演算を行うと極めて時間がかかる。そこで、特許文献1においては、積分画像とよばれる画像を使用する。積分画像とは、図17に示すように、入力画像144において、(x、y)番目の画素162が、下記式(1)に示すように、その画素162より左上の画素の輝度値の総和になっている画像である。即ち、画素162の値は、画素162の左上の矩形領域160に含まれる画素の輝度値の総和となっている。以下、各画素値が下記式(1)に示す値の画像を積分画像という。
Figure 0004517633
この積分画像を使用すると、任意の大きさの矩形領域の演算を高速に行うことができる。すなわち、図18に示すように、左上の矩形領域170、矩形領域170の右横、下、右下のそれぞれ矩形領域172、174、176としたとき、矩形領域176の4頂点を左上から時計周りにP1、P2、P3、P4とする。ここで、P1は矩形領域170の輝度値の総和A(P1=A)、P2はA+矩形領域172の輝度値の総和B(P2=A+B)、P3はA+矩形領174の輝度値の総和C(P3=A+C)、P4はA+B+C+矩形領176の輝度値の総和D(P4=A+B+C+D)となっている。このとき、矩形領域Dの輝度値の総和Dは、P4−(P2+P3)−P1として算出することができ、矩形領域の四隅の画素値を加減算することで矩形領域の輝度値の総和を高速に算出することができる。通常、入力画像をスケール変換し、スケール変換された各画像から、学習に使用する学習サンプルと同一サイズのウィンドウ(探索ウィンドウ)を切り出すことで、異なるサイズの探索ウィンドウを探索することを可能にする。しかしながら上述したように、全てのサイズの探索ウィンドウを設定可能なように入力画像をスケール変換すると極めて演算量が膨大になってしまう。そこで、特許文献1に記載の技術においては、矩形領域の輝度値の総和の演算を高速に行うことができる積分画像を用い、矩形特徴を使用することにより演算量を低減するものである。
米国特許出願公開第2002/0102024号明細書
しかしながら、上記特許文献1に記載の顔検出器は、学習時に使用した学習サンプルのサイズの整数倍の大きさの対象物体しか検出することができない。これは、上記特許文献1が入力画像をスケール変換することで探索ウィンドウの大きさを変更するのではなく、入力画像を積分画像に変換し、これを利用して異なる探索ウィンドウの顔領域を検出するためである。すなわち、積分画像はピクセル単位に離散化されているため、例えば20×20のウィンドウサイズを使用する場合、30×30のサイズを探索ウィンドウに設定することができず、従ってこのサイズの顔検出を行うことができない。
また、上記矩形特徴として、演算の高速化のため隣り合った矩形領域間の輝度値の差分のみを利用している。そのため、離れた矩形領域間の輝度変化をとらえることができず、物体検出の性能に制限がある。
なお、例えば積分画像をスケール変換すれば任意のサイズのウィンドウの探索が可能になり、また離れた位置の矩形領域間の輝度値の差分を利用することも可能ではあるが、積分画像をスケール変換すると演算量が増大し、積分画像を使用して処理を高速化する効果を相殺することになり、また離れた矩形領域間の輝度値の差分をも含めようとするとフィルタの種類が膨大になり、同じく処理量が増大してしまう。
本発明は、このような従来の実情に鑑みて提案されたものであり、集団学習により対象とする物体を検出する際に、学習時及び検出時の演算処理を高速化すると共に、任意の大きさの対象物体を検出でき且つ極めて判別能力が高い対象物検出装置及び方法提供することを目的とする。
上述した目的を達成するために、本発明に係る対象物検出装置は、与えられた濃淡画像が対象物であるか否かを検出する対象物検出装置において、上記与えられた濃淡画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を算出する複数の弱判別手段と、上記複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別手段とを有する。
本発明においては、弱判定手段が2つの位置の画素の輝度値の差という極めて簡単な特徴量を使用し、与えられる濃淡画像が、検出対象とする対象物であるか、非対象物であるかの弱判定を行うため、検出処理を高速化することができる。
また、上記判別手段は、上記推定値に対して各弱判別手段に対する信頼度を乗算して加算した重み付き多数決の値を算出し、当該多数決の値に基づき上記濃淡画像が対象物か否かを判別することができ、複数の弱判別手段の推定値を組み合わせた多数決の結果を用いて対象物か否かの判定を行うことができる。
更に、上記複数の弱判別手段は、逐次上記推定値を算出し、上記判別手段は、上記推定値が算出される毎に上記重み付き多数決の値を逐次更新し、該更新された重み付き多数決の値に基づき上記推定値の算出を打ち切るか否かを制御することができ、弱判別器による推定値の算出を逐次行い、重み付き多数決の値を評価することで、全ての弱判定手段による算出を待たずに処理を中断することで、更に検出の高速化を図ることができる。
更にまた、上記判別手段は、上記重み付き多数決の値が打ち切り閾値より小さいか否かにより上記推定値の算出を打ち切るものであって、上記各弱判別手段は、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習により逐次生成されたものであり、上記打ち切り閾値は、上記学習時において、弱判別手段が生成される毎に、該生成された弱判別手段により算出された上記対象物である学習サンプルに対する推定値に上記信頼度を重み付けした値を加算して更新される重み付き多数決の値の最小値とすることができ、正解付けされた対象物濃淡画像が取りえる最小の値を打ち切り閾値として学習しておくことで、正確かつ効率よく弱判別手段の処理を打ち切ることができる。
また、上記学習時における重み付き多数決の値の最小値が正の場合、0を上記打ち切り閾値に設定することができ、AdaBoostのように弱判別手段の出力が正か負かで判定するような集団学習アルゴリズムにより学習する場合は0以上の最小値を打ち切り閾値として設定することができる。
更に、上記弱判別手段は、上記濃淡画像の上記特徴量が所定の閾値以上であるか否かに応じて対象物であるか否かを示す2値の上記推定値を算出することにより、推定値を確定的に出力してもよく、また、上記特徴量に基づき上記濃淡画像が対象物である確率を上記推定値として算出することにより、推定値を確率的に出力してもよい。
本発明に係る対象物検出方法は、与えられた濃淡画像が対象物であるか否かを検出する対象物検出方法において、上記与えられた濃淡画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を複数の弱判別器により算出する弱判別工程と、複数の弱判別器の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別工程とを有する。
本発明に係る集団学習装置は、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習する集団学習装置において、上記学習サンプルを使用し、任意の位置の2つの画素の輝度値の差を特徴量とし入力として与えられる濃淡画像が対象物か否かを示す推定値を出力する複数の弱判別器を集団学習する学習手段を有することを特徴とする。
本発明においては、学習サンプルにおける任意の位置の2つの画素の輝度値の差という極めて単純な特徴量を用いた弱判別器を集団学習により生成することで、生成した弱判別器の判別結果を多数利用して対象物を検出する検出装置を構成した場合、検出処理を極めて高速化させることができる。
また、上記学習手段は、上記各学習サンプルの上記特徴量を算出し、各特徴量に基づき上記弱判別器を生成する弱判別器生成手段と、上記弱判別器生成手段が生成した弱判別器について、各学習サンプルに設定されたデータ重みに基づき上記学習サンプルを判別した誤り率を算出する誤り率算出手段と、上記誤り率に基づき上記弱判別器に対する信頼度を算出する信頼度算出手段と、上記弱判別器が不正解とした学習サンプルの重みが相対的に増すよう上記データ重みを更新するデータ重み算出手段とを有し、弱判別器生成手段は、上記データ重みが更新されると新たな弱判別器を生成することができ、弱判別器を生成してその誤り率及び信頼度を算出し、データ重みを更新して再び弱判別器を生成するという一連の処理を繰り返すことで学習を行うことができる。
更に、上記弱判別器生成手段は、上記特徴量を算出する処理を複数回繰り返して複数種の特徴量を算出し、該特徴量毎に弱判別器候補を生成し、生成された複数の各弱判別器候補について、各学習サンプルに設定された上記データ重みに基づき上記学習サンプルを判別した誤り率を算出し、該誤り率が最小のものを上記弱判別器とすることができ、データ重みが更新される毎に、多数の弱判別器候補を生成し、これらの中から最も誤り率が小さいものを選択して弱判別器を1つ生成(学習)することができる。
更に、上記弱判別器生成手段が上記弱判別器を生成する毎に、当該弱判別器により上記対象物である各学習サンプルに対する上記推定値を算出し該推定値に上記信頼度を重み付けして加算した重み付き多数決の値を算出し、その最小値を記憶する打ち切り閾値記憶手段を有することができ、この最小値を打ち切り閾値として学習しておくことで、生成された複数の弱判別器からなる検出装置における検出処理を更に高速化することができる。
本発明に係る集団学習方法は、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習する集団学習方法において、上記学習サンプルを使用し、任意の位置の2つの画素の輝度値の差を特徴量とし入力として与えられる濃淡画像が対象物か否かを示す推定値を出力する複数の弱判別器を集団学習する学習工程を有することを特徴とする。
本発明に係る対象物検出装置は、濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを検出する対象物検出装置において、入力される濃淡画像のサイズを拡大又は縮小したスケール画像を生成するスケール変換手段と、上記スケール画像から上記固定サイズのウィンドウを走査し、上記ウィンドウ画像を切り出すウィンドウ画像走査手段と、与えられるウィンドウ画像が対象物か否かを検出する対象物検出手段とを有し、上記対象物検出手段は、上記固定サイズのウィンドウ画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記ウィンドウ画像が対象物か否かを推定する推定値を算出する複数の弱判別手段と、複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記ウィンドウ画像が対象物であるか否かを判別する判別手段とを有する。
本発明においては、濃淡画像をスケール変換し、ウィンドウ画像を切り出すことで、任意の大きさの対象物を検出することができると共に、弱判別手段が2つの画素の輝度値の差という極めて簡単な特徴量によりウィンドウ画像が対象物か否かを示す推定値を算出するため極めて高速に検出処理を行うことができる。
本発明に係る対象物検出方法は、濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを検出する対象物検出方法において、入力される濃淡画像のサイズを拡大又は縮小したスケール画像を生成するスケール変換工程と、上記スケール画像から上記固定サイズのウィンドウを走査し、上記ウィンドウ画像を切り出すウィンドウ画像走査工程と、与えられるウィンドウ画像が対象物か否かを検出する対象物検出工程とを有し、上記対象物検出工程は、上記固定サイズのウィンドウ画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を複数の弱判別器により算出する弱判別工程と、複数の弱判別器の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別工程と有する。
本発明に係る対象物検出装置によれば、与えられた濃淡画像が対象物であるか否かを検出する対象物検出装置において、2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を算出する複数の弱判別手段と、上記複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別手段とを有するので、濃淡画像が対象物であるか否かの弱判定が極めて簡単であり、検出処理を極めて高速化し、リアルタイムで顔検出することができる。
また、本発明に係る対象物検出方法によれば、与えられた濃淡画像が対象物であるか否かを高速に検出することができる。
本発明に係る集団学習装置によれば、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習する集団学習装置において、上記学習サンプルを使用し、任意の位置の2つの画素の輝度値の差を特徴量とし入力として与えられる濃淡画像が対象物か否かを示す推定値を出力する複数の弱判別器を集団学習する学習手段を有するので、集団学習により任意の位置の2つの画素の輝度値の差という極めて単純な特徴量を用いた弱判別器を生成することができ、これにより学習時の特徴量の算出を高速化でき、かつ生成した多数の弱判別器を有する対象物検出装置を構成した場合の検出処理を極めて高速化させることができる。
また、本発明に係る手段学習方法によれば、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習することで、高速に対象物を検出可能な対象物検出装置を構成する弱判別器を学習することができる。
本発明に係る対象物検出装置によれば、濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを検出する対象物検出装置において、入力される濃淡画像のサイズを拡大又は縮小したスケール画像を生成するスケール変換手段と、上記スケール画像から上記固定サイズのウィンドウを走査し、上記ウィンドウ画像を切り出すウィンドウ画像走査手段と、与えられるウィンドウ画像が対象物か否かを検出する対象物検出手段とを有し、上記対象物検出手段は、2つの位置の画素の輝度値の差からなる特徴量に基づき上記ウィンドウ画像が対象物か否かを推定する推定値を算出する複数の弱判別手段と、複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記ウィンドウ画像が対象物であるか否かを判別する判別手段とを有するので、入力画像の濃淡画像をスケール変換してウィンドウ画像を切り出すことで、任意の大きさの対象物を検出することができると共に、弱判別手段が2つの画素の輝度値の差という極めて簡単な特徴量を使用してウィンドウ画像が対象物かを検出するため極めて高速に検出処理を行うことができる。
また、本発明に係る対象物検出方法によれば、濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを高速に検出することができる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、アンサンブル学習(集団学習)を利用して画像から対象物を検出する対象物検出装置に適用したものである。
集団学習によって得られる学習機械は、多数の弱仮説と、これらを組み合わせる結合機(combiner)とからなる。ここで、入力によらず、固定した重みで弱仮説の出力を統合する結合機の一例としてブースティングがある。ブースティングは、前に生成した弱仮説の学習結果を使用して間違いを苦手とする学習サンプル(例題)の重みを増すように、学習サンプルが従う分布を加工し、この分布に基づき新たな弱仮説の学習を行う。これにより不正解が多く対象物として判別が難しい学習サンプルの重みが相対的に上昇し、結果的に重みが大きい、即ち判別が難しい学習サンプルを正解させるような弱判別器が逐次選択される。すなわち、学習における弱仮説の生成は逐次的に行われるものであり、後から生成された弱仮説はその前に生成された弱仮説に依存することになる。
対象物を検出する際には、上述のようにして学習により逐次生成された多数の弱仮説の判別結果を使用する。例えばAdaBoostの場合は、この学習により生成された弱仮説(以下、弱判別器という。)全ての判別結果(対象物であれば1、非対象物であれば−1)が結合機に供給され、結合機は、全判別結果に対して、対応する弱判別器毎に学習時に算出された信頼度を重み付け加算し、その重み付き多数決の結果を出力し、結合機の出力値を評価することで入力された画像が対象物か否かを選択するものである。
弱判別器は、なんらかの特徴量を使用して、対象物か又は非対象物であるかの判定を行うものである。なお、後述するように、弱判別器の出力は対象物か否かを確定的に出力してもよく、対象物らしさを確率密度などで確率的に出力してもよい。ここで、本実施の形態においては、2つのピクセル間の輝度値の差という極めて簡単な特徴量(以下、ピクセル間差分特徴という。)を使用して対象物か否かを判別する弱判別器を使用した集団学習装置を利用することで、対象物の検出処理を高速化するものである。
(1)対象物検出装置
図1は、本実施の形態における対象物検出装置の処理機能を示す機能ブロック図である。図1に示すように、対象物検出装置1は、入力画像として濃淡画像(輝度画像)を出力する画像出力部2と、入力画像を拡大又は縮小してスケーリングを行うスケーリング部3と、スケーリングされた入力画像において、所定サイズのウィンドウ画像の大きさで例えば左上から順次スキャンする走査部4と、走査部4にて順次スキャンされた各ウィンドウ画像が対象物か非対象物かを判別する判別器5とを有し、与えられる画像(入力画像)の中から対象物体の領域を示す対象物の位置及び大きさを出力する。すなわち、スケーリング部3は、入力画像を指定された全てのスケールに拡大又は縮小しスケーリング画像を出力する。走査部3は、各スケーリング画像について、検出したい対象物の大きさとなるウィンドウを順次スキャンしてウィンドウ画像を切り出し、判別器5は、各ウィンドウ画像が顔か否かを判別する。
ここで、判別器5は、集団学習により判別器5を構成する複数の弱判別器の集団学習を実行する集団学習機6の学習結果を参照して、現在のウィンドウ画像が例えば顔画像などの対象物であるか、又は非対象物であるかを判別する。
また、対象物検出装置1は、入力画像から複数の対象物が検出された場合は、複数の領域情報を出力する。更に、複数の領域情報のうち領域が重なりあっている領域が存在する場合は、後述する方法で最も対象物とされる評価が高い領域を選択する処理も行うことができる。
画像出力部2から出力された画像(濃淡画像)は、先ずスケーリング部3に入る。スケーリング部3では、バイリニア補完を用いた画像の縮小が行われる。本実施の形態においては、最初に複数の縮小画像を生成するのではなく、必要とされる画像を走査部4に対して出力し、その画像の処理を終えた後で、次の更に小さな縮小画像を生成するという処理を繰り返す。
すなわち、先ず図2に示すように、入力画像10Aをそのまま走査部4へ出力する。そして、入力画像10Aについて走査部4及び判別器5の処理が終了するのを待った後、入力画像10Aのサイズを縮小した入力画像10Bを生成する。そして、この入力画像10Bにおける走査部4及び判別器5の処理が終了するのを待って、入力画像10Bのサイズを更に縮小した入力画像10Cを走査部4に出力するというように、順次縮小画像10D、10Eなどを生成していき、縮小画像の画像サイズが、走査部4にて走査するウィンドウサイズより小さくなった時点で処理を終了する。この処理の終了をまって、画像入力部2は、次の入力画像をスケーリング部3に出力する。
走査部4では、図3に示すように、与えられた例えば画像10Aに対して、後段の判別器5が受け付けるウィンドウサイズSの大きさのウィンドウ11を画像(画面)の全体に対して順次当てはめていき、各位置における画像(以下、切り取り画像)を判別器5に出力する。ここで、ウィンドウサイズSは一定である一方、上述したように、スケーリング部3により順次入力画像が縮小され、入力画像の画像サイズが様々なスケールに変換されるため、任意の大きさの対象物体を検出することが可能となる。
判別器5は、前段から与えられた切り取り画像が、例えば顔などの対象物体であるか否かを判定する。判別器5は、図4に示すように、アンサンブル学習(Ensemble learning)により得られた複数の弱判別器21(21〜21)と、これらの出力にそれぞれ重みW(W〜W)を乗算し、重み付き多数決を求める加算器22とを有する。判別器6は、入力されるウィンドウ画像に対し、各弱判別器21(21〜21)が対象物である否かの推定値を逐次出力し、加算器22が重み付き多数決を算出して出力する。この重み付き多数決の値に応じ、図示せぬ判定手段が対象物か否かを判定する。
集団学習機6は、後述する方法にて、予め弱判別器21と、それらの出力(推定値)に乗算する重みを集団学習により学習するものである。集団学習としては、複数の判別器の結果を多数決にて求めることができるものであれば具体的にはどんな手法でも適用可能である。例えば、データの重み付けを行って重み付き多数決行うアダブースト(AdaBoost)などのブースティングを用いた集団学習を適用することができる。
判別器5を構成する各弱判別器21は、判別のための特徴量として、2つの画素間の輝度値の差分(ピクセル間差分特徴)を使用する。そして、判別には、予め学習された、対象物か非対象物であるかのラベリングがされた複数の濃淡画像からなる学習サンプルにより予め学習された特徴量と、ウィンドウ画像の特徴量とを比較し、ウィンドウ画像が対象物であるか否かを推定するための推定値を確定的又は確率的に出力する。
ここで、加算器22は、弱判別器21の推定値に、各弱判別器21に対する信頼度となる重みを乗算し、これを加算した値(重み付き多数決の値)を出力する。ここで、AdaBoostでは、複数の弱判別器21は、順次推定値を算出し、これに伴い重み付き多数決の値が逐次更新されていく。これら複数の弱判別器は、集団学習機6により後述するアルゴリズムに従い、上述の学習サンプルを使用して集団学習により逐次的に生成されたものであり、例えばその生成順に上記推定値を算出する。また、重み付き多数決の重み(信頼度)は、弱判別器を生成する後述する学習工程にて学習されるものである。
弱判別器21は、例えばAdaBoostのように弱判別器が2値出力を行うべき場合は、ピクセル間差分特徴を閾値で二分することで、対象物体であるかどうかの判別をおこなう。また、閾値による判別方法は、複数の閾値を用いてもよい。また、弱判別器は、例えばReal-AdaBoostのようにピクセル間差分特徴から対象物体かどうかを表す度合いの連続値を確率的に出力してもよい。これら弱判別器21が必要とする判別のための特徴量(閾値)なども学習時に上記アルゴリズムに従って学習されるものである。
更に、重み付き多数決の際、全ての弱判別器の計算結果を待たず、計算途中であってもその値によっては対象物体でないと判断して計算を打ち切りするため、打ち切りの閾値を学習時に学習する。この打ち切り処理によって、検出処理における演算量を大幅に削減することが可能となる。これにより、全ての弱判別器の計算結果を待たず、計算途中で次のウィンドウ画像の判別処理に移ることができる。
このように、判別器5は、ウィンドウ画像が対象物か否かを判定するための評価値として重み付き多数決を算出し、その評価値に基づきウィンドウ画像が対象物か否かを判定する判定手段として機能する。更に判別器5は、予め学習により生成された複数の弱判別器が推定値を順次算出して出力し、推定値が算出される毎にその推定値に対して学習により得られた各弱判別器に対する重みを乗算して加算した重み付き多数決の値を更新し、この重み付き多数決の値(評価値)が更新される毎に、上記打ち切り閾値を利用して推定値の算出を打ち切るか否かをも制御することができるものである。
この判別器5は、集団学習機6において、学習サンプルを使用し、所定のアルゴリズムに従って集団学習することにより生成される。ここでは先ず、集団学習機6における集団学習方法について説明し、次に、その集団学習により学習された得られた判別器5を使用し、入力画像から対象物を判別する方法について説明する。
(2)集団学習機
ブースティングアルゴリズムを用いて集団学習する集団学習機6は、上述したように複数の弱判別器を複数個組み合わせ、結果的に強い判定結果が得られるよう学習するものである。弱判別器は、1つ1つは、極めて簡単な構成とし、1つでは顔か顔でないかの判別能力も低いものであるが、これを例えば数百〜数千個組み合わせることで、高い判別能力を持たせることができる。この集団学習機6は、例えば数千の学習サンプルといわれる予め正解付け(ラベリング)された対象物と非対象物、例えば顔画像と、非顔画像とからならなるサンプル画像を使用し、多数の学習モデル(仮説の組み合わせ)から所定の学習アルゴリズムに従って1つの仮説を選択(学習)することで弱判別器を生成し、この弱判別器の組み合わせ方を決定していく。弱判別器はそれ自体では判別性能が低いものであるが、これらの選別、組み合わせ方により結果的に判別能力が高い判別器を得ることができるため、集団学習機6では、弱判別器の組み合わせ方、即ち弱判別器の選別及びそれらの出力値を重み付き多数決する際の重みなどの学習をする。
次に、適切な弱判別器を学習アルゴリズムに従って多数組み合わせた判別器を得るための集団学習機6の学習方法について説明するが、集団学習機6の学習方法の説明に先立ち、集団学習にて学習する学習データのうちで、本実施の形態において特徴となる学習データ、具体的には弱判別器を構成するためのピクセル間差分特徴、及びに判別工程(検出工程)において検出を途中で打ち切るための打ち切り閾値について説明しておく。
(3)弱判別器の構成
本実施の形態における判別器5は、これを構成する弱判別器が弱判別器に入力される画像に含まれる全画素において選択された2つの画素の輝度値の差分(ピクセル間差分特徴)により顔か否かを判別する極めて簡単な構成とすることで、判別工程において弱判別器の判別結果の算出を高速化するものである。弱判別器に入力される画像は、学習工程では、学習サンプルであり、判別工程では、スケーリング画像から切り出されたウィンドウ画像である。
図5は、ピクセル間差分特徴を説明するための画像を示す模式図である。画像30において、本実施の形態においては、任意の2つの画素の輝度値の差、例えば画素31の輝度値Iと、画素32の輝度値Iとの差、即ち下記式(2)をピクセル間差分特徴と定義する。
Figure 0004517633
ここで、どのピクセル間差分特徴を顔検出に使用するかが弱判別器の能力となる。従って、切り出し画像に含まれる任意の2画素の組み合わせ(フィルタ又は弱仮説ともいう。)から、弱判別器に使用するピクセル位置の組を選択する必要がある。
例えばAdaBoostでは、弱判別器に、+1(対象物体である)か−1(非対象物体)であるかの確定的な出力を要求する。そこで、AdaBoostにおいては、ある任意のピクセル位置において、そのピクセル間差分特徴を、1又は複数の閾値を利用して二分割(+1又は−1)することをもって弱判別器とすることができる。
また、このような2値出力ではなく、学習サンプルの確率分布を示す連続値(実数値)を確率的に出力するような例えばReal-AdaBoost又はGentle Boostなどのブースティングアルゴリズムの場合、弱判別器は、入力された画像が対象物である確からしさ(確率)を出力する。弱判別器の出力は、このように確定的であっても確率的であってもよい。先ず、これら2種類の弱判別器について説明する。
(3−1)2値出力の弱判別器
確定的な出力をする弱判別器は、ピクセル間差分特徴の値に応じて、対象物か否かの2クラス判別をおこなう。対象画像領域中のある2つのピクセルの輝度値をI1、とし、ピクセル間差分特徴により対象物か否かを判別するための閾値をThとすると、下記式(3)を満たすか否かで、いずれのクラスに属するかを決定することができる。
Figure 0004517633
ここで、弱判別器を構成するには、2つのピクセル位置と、その閾値を決定する必要があるがその決定方法については後述する。上記式(3)の閾値判定は最も単純な場合である。また、閾値判定には、次の下記式(4)又は式(5)に示す2つの閾値を用いることもできる。
Figure 0004517633
Figure 0004517633
図6(a)乃至図6(c)は、縦軸に頻度をとり、横軸にピクセル間差分特徴をとって、それぞれ上記式(3)〜(5)に示す3つの判別方法を、データの頻度分布の特徴的なケースに合わせて示す模式図である。ここで、図6(a)乃至図6(c)においては、yは弱判別器の出力を示し、破線で示すデータがy=−1(非対象物)である全学習サンプルの出力値を示し、実線で示すデータがy=1(対象物)である全学習サンプルの出力値を示す。多数の顔画像、非顔画像からなる学習サンプルに対し、同一のピクセル間差分特徴に対する頻度を取ると図6(a)乃至図6(c)に示すヒストグラムが得られる。
図6(a)に示すように、ヒストグラムが、例えば、非対象物を示す破線のデータと、対象物を示す実線のデータとが同様な正規曲線のような分布を取り、そのピーク位置がずれるような場合は、その境を閾値Thとし、上記式(3)にて対象物か否かを判別することができる。例えばAdaBoostにおいては、弱判別器の出力をf(x)としたとき、出力f(x)=1(対象物)又は−1(非対象物)となる。図6(a)では、ピクセル間差分特徴が閾値Thより大きい場合に対象物であると判定され、弱判別器の出力がf(x)=1となる例を示している。
また、ピーク位置が同じような位置にあって、その分布の幅が異なるような場合、分布が狭い方のピクセル間差分特徴の上限値近傍及び下限値近傍を閾値として上記式(4)又は式(5)により対象物か否かを判別することができる。図6(b)では、分布が狭い方を対象物と判定される例、図6(c)では、分布の幅が広い方から分布の幅が狭い方を除いたものが対象物と判定され、弱判別器の出力がf(x)=1となる例を示している。
弱判別器は、あるピクセル間差分特徴とその閾値とを決定することにより構成されるが、その判定によって誤り率ができるだけ小さくなるような、即ち判別率が高いピクセル間差分特徴を選択する必要がある。例えば、閾値は、2つの画素位置を決め、正解付けされた学習サンプルに対して図6に示すヒストグラムを求め、最も正解率が高く、非正解率(誤り率)が最も小さくなるような閾値を検索することで求めることができる。また、2つの画素位置は、閾値と共に得られる誤り率が最も小さいものを選択するなどすればよい。但し、AdaBoostにおいては、判別の難易度を反映した重み(データ重み)が各学習サンプルに付けられており、適切なピクセル間差分特徴(どの位置の2つのピクセルの輝度値を特徴値とするか)が後述する重み付き誤り率を最小にするように学習される。
(3−2)連続値出力の弱判別器
確率的な出力をする弱判別器としては、上述した如く、例えばReal-AdaBoost又はGentle Boostなどのように弱判別器が連続値を出力するものがある。この場合は、ある決められた一定値(閾値)により判別問題を解き、2値出力(f(x)=1又は−1)する上述の場合と異なり、入力された画像が対象物である度合いを例えば確率密度関数として出力する。
このような、対象物体である度合い(確率)を示す確率的な出力は、ピクセル間差分特徴dを入力としたとき、P(x)を学習サンプルの対象物の確率密度関数、P(x)を学習サンプルの非対象物の確率密度関数とすると、下記式(6)に示す関数f(x)とすることができる。
Figure 0004517633
図7(a)は、縦軸に確率密度をとり、横軸にピクセル間差分特徴をとって、データの頻度分布の特徴的なケースを示す図、図7(b)は、縦軸に関数f(x)の値をとり、横軸にピクセル間差分特徴をとって、図7(a)に示すデータ分布における関数f(x)を示すグラフ図である。図7(a)において、破線が非対象物体であることを示す確率密度、実線が対象物体であることを示す確率密度を示す。上記式(6)から関数f(x)を求めると図7(b)に示すグラフが得られる。弱判別器は、判別工程において、入力されるウィンドウ画像から得られた上記式(2)に示すピクセル間差分特徴dに対応する関数f(x)を出力する。この関数f(x)は、対象物らしさの度合いを示すものであって、例えば非対象物を−1、対象物を1としたとき、−1乃至1までの連続値を取るものとすることができる。例えばピクセル間差分特徴dとそれに対応するf(x)とからなるテーブルを記憶し、入力に応じてテーブルからf(x)を読出し出力する。従って、一定値である閾値Th又はTh、Thより若干記憶量が大きくなるが判別性能が向上する。
これら複数の推定方法(判別方法)は、アンサンブル学習中に組み合わせて使用することで、判別性能が向上することが期待できる。また、いずれか単一の判別方法のみを利用すれば、実行速度性能を引き出すことができる。
本実施の形態において使用する弱判別器は、使用する特徴量(ピクセル間差分特徴)が非常に単純であるために、上述したように極めて高速に対象物の判別をおこなうことができる点が特長である。このように対象物として顔検出する場合には、ピクセル間差分特徴を上述の判別方法のうち最も単純な式(3)に示す閾値判定によっても極めてよい判別結果が得られるが、どのような判別方法により弱判別器が有効に機能するかは、対象とする問題によって異なり、その閾値設定方法などを適宜選択すればよい。また、問題によっては、2つの画素の輝度値の差ではなく、複数個の画素の輝度値の差を特徴量としたり、それらを組み合わせた特徴量を使用したりしてもよい。
(4)打ち切り閾値
次に、打ち切り閾値について説明する。ブースティングを用いた集団学習機においては、通常は、上述したように判別器5を構成する全弱判別器の出力の重み付き多数決によりウィンドウ画像が対象物か否かを判別する。重み付き多数決は、弱判別器の判別結果(推定値)を逐次足し合わせていくことで算出される。例えば、弱判別器の個数をt(=1,・・・,K)、各弱判別器に対応する多数決の重み(信頼度)をα、各弱判別器の出力をf(x)としたとき、AdaBoostにおける重み付き多数決の値F(x)は、下記式(7)により求めることができる。
Figure 0004517633
図8は、横軸に弱判別器の数をとり、縦軸に上記式(7)に示す重み付き多数決の値F(x)をとって、入力される画像が対象物か否かに応じた重み付き多数決の値F(x)の変化を示すグラフ図である。図8において、実線で示すデータD1〜D4は、対象物としてラベリングされている画像(学習サンプル)を入力として弱判別器により算出した推定値f(x)を逐次算出し、その重み付き多数決の値F(x)を逐次求めたものである。このデータD1〜D4に示すように、対象物を入力画像とするとある程度の個数の弱判別器の判別によりその重み付き多数決の値F(x)はプラスになる。
ここで、本実施の形態においては、通常のブースティングアルゴリズムとは異なる手法を導入する。すなわち、弱判別器の判別結果を逐次足し合わせていく過程において、全ての弱判別器の結果を得る前であっても、明らかに対象物ではないと判別できるウィンドウ画像についてはその判別を中止するものである。この際、判別を中止するか否かを決定する閾値を学習工程にて学習しておく。以下、判別を中止するか否かの判定に用いる閾値を打ち切り閾値という。
この打ち切り閾値により、全てのウィンドウ画像について、全弱判別器の出力結果を用いなくとも、非対象物であることが確実に推定できる場合、弱判別器の推定値f(x)の演算を途中で中止することができ、これにより、全ての弱判別器を使用した重み付き多数決を行うのに比して格段に演算量を低減することができる。
この打ち切り閾値としては、ラベリングされている学習サンプルのうち、検出対象物を示す学習サンプルの判別結果の重み付き多数決の値が取りえる最小値とすることができる。判別工程において、ウィンドウ画像の弱判別器による結果が逐次重み付きされて出力される、即ち、重み付き多数決の値が逐次更新されていくが、この更新されていく値と、上記打ち切り閾値とを更新の度、即ち1つの弱判別器が判別結果を出力する毎に比較し、更新された重み付き多数決の値が打ち切り閾値を下回る場合には当該ウィンドウ画像は対象物ではないとし、計算を打ち切ることができ、これにより無駄な演算を省いて更に判別処理を高速化することができる。
すなわち、K番目の弱判別器の出力f(x)の打ち切り閾値Rは、学習サンプルx(=x〜x)のうち、対象物である学習サンプルx(=x〜x)を使用したときの重み付き多数決の値の最小値とされ、下記式(8)のように定義される。
Figure 0004517633
この式(8)に示すように、対象物である学習サンプルx〜xの重み付き多数決の値の最小値が0を上回る場合には打ち切り閾値Rには0が設定される。なお、0を上回らないようにするのは、0を閾値にして判別を行うAdaBoostの場合であり、ここは集団学習の手法により異なる場合がありうる。AdaBoostの場合においては、打ち切り閾値は図8の太線で示すように、入力画像として対象物を入力した場合の全データD1〜D4のうち取りうる最小値に設定され、全てのデータD1〜D4の最小値が0を超えた場合は、打ち切り閾値が0に設定される。
本実施の形態においては、弱判別器が生成される毎の打ち切り閾値R(R1〜R)を学習しておくことで、後述する判別工程において、例えばデータD5のように、複数の弱判別器により推定値が逐次出力され重み付き多数決の値が逐次更新されていくが、この値が上記打ち切り閾値を下回った時点で、後段の弱判別器による判別を行う処理を終了する。すなわち、この打ち切り閾値Rを学習しておくことにより、弱判別器の推定値を計算する毎に次の弱判別器の計算を行うか否かを決定でき、明らかに対象物ではないとされる場合には全ての弱判別器の判別結果を待たずに非対象物であることが判定でき、演算を途中で打ち切りことで検出処理を高速化することができる。
(5)学習方法
次に、集団学習機6の学習方法について説明する。与えられたデータが、例えば顔か否かを判別する問題など、一般的な2クラス判別のパターン認識問題の前提として、予め人手によりラベリング(正解付け)された学習サンプルとなる画像(訓練データ)を用意する。学習サンプルは、検出したい対象物体の領域を切り出した画像群と、全く関係のない例えば風景画などを切り出したランダムな画像群とからなる。
これらの学習サンプルを基に学習アルゴリズムを適用し、判別時に用いる学習データを生成する。判別時に用いる学習データとは、本実施の形態においては、上述した学習データを含む以下の4つの学習データである。すなわち、
(A)2つのピクセル位置の組(K個)
(B)弱判別器の閾値(K個)
(C)重み付き多数決の重み(弱判別器の信頼度)(K個)
(D)打ち切り閾値(K個)
(5−1)判別器の生成
以下に、上述したような多数の学習サンプルから、上記(A)乃至(D)に示す4種類の学習データを学習するアルゴリズムを説明する。図9は、集団学習機6の学習方法を示すフローチャートである。なお、ここでは、学習アルゴリズムとして、弱判別の際の閾値として一定の値を使用するアルゴリズム(AdaBoost)に従った学習について説明するが、閾値として正解の確からしさ(確率)を示す連続値を使用する例えばReal-AdaBoostなど、弱判別器を複数結合するために集団学習するものであれば、学習アルゴリズムはAdaBoostに限らない。
(ステップS0) 学習サンプルのラベリング
上述のように、予め対象物又は非対象物であることがラベリングされた学習サンプル(x,y)を用意する。
ここで、
学習サンプル(x,y):(x,y),・・・,(x,y
∈X,y∈{−1,1}
X:学習サンプルのデータ
Y:学習サンプルのラベル(正解)
N:学習サンプル数
を示す。即ち、xは、学習サンプル画像の全輝度値からなる特徴ベクトルを示す。また、y=−1は、学習サンプルが非対象物としてラベリングされている場合を示し、y=1は、学習サンプルが対象物としてラベリングされていることを示す。
(ステップS1) データ重みの初期化
ブースティングにおいては、各学習サンプルの重み(データ重み)を異ならせ、判別が難しい学習サンプルに対するデータ重みを相対的に大きくしていく。判別結果は、弱判別器を評価する誤り率(エラー)の算出に使用されるが、判別結果にデータ重みを乗算することで、より難しい学習サンプルの判別を誤った弱判別器の評価が実際の判別率より下まわることになる。後述する方法にてデータ重みは逐次更新されるが、先ず最初にこの学習サンプルのデータ重みの初期化を行う。学習サンプルのデータ重みの初期化は、全学習サンプルの重みを一定にすることにより行われ、下記式(9)のように定義される。
Figure 0004517633
ここで、学習サンプルのデータ重みD1,iは、繰り返し回数t=1回目の学習サンプルx(=x1〜x)のデータ重みを示す。Nは学習サンプル数である。
(ステップS2〜S7) 繰り返し処理
次に、以下に示すステップS2〜ステップS7の処理を繰り返すことで判別器5を生成する。ここで、繰り返し処理回数をt=1,2,・・・,Kとする。1回の繰り返し処理を行う毎に1つの弱判別器、即ち1組の画素と、その位置でのピクセル間差分特徴が学習され、従って繰り返し処理回数(K回)分、弱判別器が生成されて、K個の弱判別器からなる判別器5が生成されることになる。なお、通常、数百〜数千個の繰り返し処理により、数百〜数千個の弱判別器が生成されるが、繰り返し処理回数(弱判別器の個数)tは、要求される判別性能、判別する問題(対象物)に応じて適宜設定すればよい。
(ステップS2) 弱判別器の学習
ステップS2では弱判別器の学習(生成)を行うが、この学習方法については後述する。本実施の形態においては、1回の繰り返し処理毎に1つの弱判別器を後述する方法に従って生成する。
(ステップS3) 重み付き誤り率eの算出
次に、ステップS2にて生成された弱判別器の重み付き誤り率を下記式(10)により算出する。
Figure 0004517633
上記式(10)に示すように、重み付き誤り率eは、学習サンプルのうち、弱判別器の判別結果が誤っているもの(f(x)≠y)である学習サンプルのデータ重みのみを加算したものとなり、上述したように、データ重みDt,iが大きい(判別が難しい)学習サンプルの判別を間違えると重み付き誤り率eが大きくなるよう算出される。なお、重み付き誤り率eは0.5未満となるが、この理由は後述する。
(ステップS4) 重み付き多数決の重み(弱判別器の信頼度)の算出
次に、上述の式(10)に示す重み付き誤り率eに基づき、重み付き多数決の重み(以下、信頼度という。)信頼度αを下記式(11)により算出する。この、重み付き多数決の重みは、繰り返し回数t回目に生成された弱判別器の信頼度αを示す。
Figure 0004517633
上記式(10)に示すように、重み付き誤り率eが小さいものほどその弱判別器の信頼度αが大きくなる。
(ステップS5) 学習サンプルのデータ重み更新
次に、上記式(11)にて得られた信頼度αを使用して、下記式(12)により学習サンプルのデータ重みDt,iを更新する。データ重みDt,iは、通常全部足し合わせると1になるよう正規化されており、下記式(13)はデータ重みDt,iを正規化するためのものである。
Figure 0004517633
(ステップS6) 打ち切り閾値Rの算出
次に、上述したように、判別工程にて判別を打ち切るための打ち切り閾値Rを算出する。打ち切り閾値Rは、上述の式(8)に従って、対象物である学習サンプル(ポジディブな学習サンプル)x〜xの重み付き多数決の値又は0のうち最も小さい値が選択される。なお、上述したように、最小値又は0を打ち切り閾値に設定するのは、0を閾値にして判別を行うAdaBoostの場合である。いずれにせよ、打ち切り閾値Rは、少なくとも全てのポジティブな学習サンプルが通過できる最大の値となるよう設定する。
そして、ステップS7において、所定回数(=K回)のブースティングが行われたか否かを判定し、行われていない場合は、ステップS2〜ステップS7の処理を繰り返す。所定回数の学習が終了した場合は学習処理を終了する。この繰り返し処理は、学習サンプルなどの与えられる画像から検出対象とする対象物を十分判別できる数の弱判別器を学習すると終了するものとする。
(5−2)弱判別器の生成
次に、上述したステップS2における弱判別器の学習方法(生成方法)について説明する。弱判別器の生成は、弱判別器が2値出力の場合と、上記式(6)に示す関数f(x)として連続値を出力する場合とで異なる。また、2値出力の場合においても、上記式(2)に示すように1つの閾値Thで判別する場合と、2つの閾値Th、Thで判別する場合とで処理が若干異なる。ここでは、1つの閾値Thで2値出力する弱判別器の学習方法(生成方法)を説明する。図10は、1つの閾値Thで2値出力する弱判別器の学習方法(生成方法)を示すフローチャートである。
(ステップS11) 画素の選択
ここでは、学習サンプルにおける全画素から任意の2つを選択する。例えば20×20画素の学習サンプルを使用する場合、2つの画素の選択方法は、400×399通りあるがそのうちの1つを選択する。ここで、2つの画素の位置をS、S、その輝度値をそれぞれI、Iとする。
(ステップS12) 頻度分布作成
次に、全ての学習サンプルに対して、ステップS11にて選択した2つの画素の輝度値の差(I−I)であるピクセル間差分特徴dを求め、図6(a)に示したようなヒストグラム(頻度分布)を求める。
(ステップS13) 閾値Thminの算出
そして、ステップS12にて求めた頻度分布から、上記式(10)に示す重み付き誤り率eを最小(emin)にする閾値Thminを求める。
(ステップS14) 閾値Thmaxの算出
更に、上記式(10)に示す重み付き誤り率eを最大(emax)にする閾値Thmaxを求め、下記(14)に示す方法にて閾値を反転する。即ち、弱判別器は1つの閾値Thより大きいか否かで正解か不正解かの2つの値を出力するものであり、従って重み付き誤り率eが0.5未満である場合は、反転することで誤り率を0.5以上にすることができる。
Figure 0004517633
(ステップS15) パラメータ決定
最後に、上述のeminとemax’とから、弱判別器を構成する各パラメータ、即ち2つの画素の位置S、Sと、その閾値Thとを決定する。すなわち、
min<emax’の場合:S、S、Thmin
min>emax’の場合:S’(=S)、S’(=S)、Thmin
そして、ステップS16において、所定回数M回繰り返したか否かを判定し、所定回数繰り返した場合はステップS17に進み、M回の繰り返し処理にて生成された弱判別器のうち最も誤り率eが小さいものを弱判別器とし、図9に示すステップS3に進む。一方、ステップS16にて所定回数に達していない場合は、ステップS11〜ステップS16の処理を繰り返す。このように、1つの弱判別器の生成にあたって、m(=1,2,・・・,M)回の繰り返し処理が行われる。なお、説明の都合上、図9に示すステップS3において重み付き誤り率eを算出するものとして説明したが、ステップS17において、最も誤り率eが小さい弱判別器を選択した時点でステップS3に示す誤り率eが自動的に得られる。
なお、本実施の形態においては、前回の繰り返し処理においてステップS5にて求めたデータ重みDt,iを使用し、複数の弱判別器の特徴量を学習し、これらの弱判別器(弱判別器候補)の中から上記式(10)に示す誤り率が最も小さいものを選択することで、1つの弱判別器を生成する場合について説明したが、上述のステップS2において、例えば予め用意又は学習した複数の画素位置から任意の画素位置を選択して弱判別器を生成するようにしてもよい。また、上述のステップS2〜ステップS7までの繰り返し処理に使用する学習サンプルとは異なる学習サンプルを使用して弱判別器を生成してもよい。また、cross-validation(交差検定)法又はjack-knife法などの評価などのように、学習サンプルとは別のサンプルを用意して生成された弱判別器や判別器の評価を行うようにしてもよい。ここで、交差検定とは、学習サンプルを均等にI個に分割し、その中から1つ以外を使用して学習を行い、当該1つを使用して学習結果を評価する作業をI回繰り返して学習結果の評価を行う手法である。
一方、上記式(4)または式(5)に示すように、弱判別器が2つの閾値Th、Thを有するような場合、図10に示すステップS13〜ステップS15の処理が若干異なる。上記式(3)に示すように、閾値Thが1つの場合は、反転することにより、誤り率が0.5より大きい場合にその誤り率を反転させることができたが、式(4)に示すように、ピクセル間差分特徴が閾値Thより大きく閾値Thより小さい場合が正解の判別結果である場合、これを反転すると、式(5)に示すように、閾値Thより小さいか、閾値Thより大きい場合が正解の判別結果になる。即ち、式(4)の反転は式(5)となり、式(5)の反転は式(4)となる。
弱判別器が2つの閾値Th、Thを有して判別結果を出力するような場合は、図10に示すステップS12において、ピクセル間差分特徴における頻度分布を求め、誤り率eを最小にする閾値Th、Thを求める。そして、ステップS16と同様に所定回数繰り返したか否かを判定し、所定回数繰り返し後、生成された弱判別器の中で最も誤り率が小さい弱判別器を採用する。
また、上記式(6)に示すように、連続値を出力する弱判別器の場合、図10に示すステップS11と同様、先ず2つの画素をランダムに選択する。そして、ステップS12と同様、全学習サンプルにおける頻度分布を求める。そして、得られた頻度分布に基づき上記式(6)に示す関数f(x)を求める。そして、弱判別器の出力として対象物である度合い(正解である度合い)を出力するような所定の学習アルゴリズムに従って誤り率を算出するという一連の処理を所定回数繰り返し、最も誤り率が小さい(正答率が高い)パラメータを選択することで弱判別器生成する。
ここで、いずれの弱判別器の生成においても、例えば20×20画素の学習サンプルを使用する場合、2つの画素の選択方法は、159000通りあり、最大M=159000回、上記繰り返し処理を行った中で最も誤り率が小さいものを弱判別器として採用することができる。このように、繰り返し回数の最大数繰り返す、即ち生成し得る最大数の弱判別器を生成し、それらの中から最も誤り率が小さいものを弱判別器として採用すると性能が高い弱判別器を生成することができるが、最大回数未満の例えば数百回繰り返し処理を行って、その中から最も誤り率が小さいものを採用してもよい。
(6)対象物検出方法
次に、図1に示す対象物検出装置の対象物検出方法について説明する。図11は、対象物検出方法を示すフローチャートである。検出時(判別工程)においては、上述のようにして生成された弱判別器群を利用した判別器5を使用し、所定のアルゴリズムに従って画像中から対象物体を検出する。
(ステップS21) スケーリング画像生成
先ず、図1に示すスケーリング部3は、画像出力部2から与えられた濃淡画像を一定の割合で縮小スケーリングする。なお、画像出力部2には、入力画像として濃淡画像が入力されてもよく、画像出力部2にて入力画像を濃淡画像に変換してもよい。スケーリング部3に画像出力部2から与えられる画像をスケール変換せずに出力し、次のタイミング以降で縮小スケーリングしたスケーリング画像を出力するが、スケーリング部3から出力する画像をまとめてスケーリング画像という。ここで、スケーリング画像を生成するタイミングは、前に出力したスケーリング画像全領域の顔検出が終了した時点とし、スケーリング画像がウィンドウ画像より小さくなった時点で次のフレームの入力画像の処理に移る。
(ステップS22)
スケーリングされた画像に対し、図1に示す走査部4が探索ウィンドウの位置を縦横に走査し、ウィンドウ画像を出力する。
(ステップS23、24) 評価値sの算出
そして、走査部4により出力されるウィンドウ画像が対象物であるか否かを判定する。判別器5は、ウィンドウ画像に対して上述した複数の弱判別器の推定値f(x)を逐次重み付き加算した値(重み付き多数決の値の更新値)を評価値sとして算出する。そして、この評価値sに基づきウィンドウ画像が対象物か否か、及び判別を打ち切るか否かを判定する。
先ず、ウィンドウ画像を入力されると、その評価値s=0に初期化する。判別器5の初段の弱判別器21はピクセル間差分特徴dを算出する(ステップS23)。そしてこの弱判別器21が出力する推定値を上記評価値sに反映させる(ステップS24)。
ここで、上述した式(3)乃至(5)により、2値の推定値を出力する弱判別器と、式(6)に示す関数f(x)を推定値として出力する弱判別器とでは、その推定値の評価値sへの反映の仕方が異なる。
先ず、上記式(2)を弱判別器に利用し、2値の値を推定値として出力する場合、評価値sは下記(15)のようになる。
Figure 0004517633
また、上記式(3)を弱判別器に利用し、2値の値を推定値として出力する場合、評価値sは下記式(16)のようになる。
Figure 0004517633
また、上記式(4)を弱判別器に利用し、2値の値を推定値として出力する場合、評価値sは下記式(17)のようになる。
Figure 0004517633
また、上記式(5)を弱判別器に利用し、関数fを推定値として出力する場合、評価値sは下記式(18)のようになる。
Figure 0004517633
(ステップS25、S26) 打ち切り判定
そして、判別器5は、上述に示す例えば4つの方法の何れかにより得られた(更新された)評価値sが打ち切り閾値Rより大きいか否かを判定する。評価値sが打ち切り閾値Rより大きい場合は、所定回数(=K回)繰り返したか否かを判定し(ステップS26)、繰り返していない場合はステップS23からの処理を繰り返す。
一方、所定回数(=K回)繰り返している場合、及び評価値sが打ち切り閾値Rより小さい場合はステップS27に進み、得られている評価値sが0より大きいか否かにより、対象物であるか否かの判定をする。そして、対象物である場合は、現在のウィンドウ位置を記憶し、次の探索ウィンドウがあるか否かを判別し(ステップS27)、次の探索ウィンドウがある場合はステップS22からの処理を繰り返す。また、次の全ての領域について探索ウィンドウを走査した場合はステップS28に進み、次のスケーリング画像があるか否かを判定し、なければステップS29に進んで重なり領域の削除処理を実行する。スケーリング画像がある場合は、ステップS21からの処理をくり返す。ステップS21のスケーリング処理は、ウィンドウ画像よりスケーリング画像が小さくなった時点で終了する。
(ステップS29〜S31) 重なり領域の削除
1枚の入力画像に対して、全てのスケーリング画像の処理が終了すると、ステップS29の処理に移る。ステップS29以降の処理においては、1枚の入力画像において、対象物体であると判定された領域が重複している場合に、互いに重なっている領域を取り除く。先ず、互いに重なっている領域が在るか否かを判定し、ステップS26にて記憶した領域が複数あり、かつ重複している場合は、ステップS30に進む。そして、互いに重なっている2つの領域を取り出し、この2つの領域のうち、評価値sが小さい領域は信頼度が低いとみなし削除し、評価値sの大きい領域を選択する(ステップS29)。そして、再びステップS29からの処理を繰り返す。これにより、複数回重複して抽出されている領域のうち、最も評価値sが高い領域1枚のみが選択される。なお、2以上の対象物領域が重複しない場合及び対象物領域が存在しない場合は1枚の入力画像についての処理を終了し、次のフレーム処理に移る。
このように、本実施の形態における対象物検出方法によれば、ピクセル間差分特徴により弱判別する弱判別器を集団学習により学習した判別器を使用して対象物を検出するため、ウィンドウ画像において、対応する2つの画素の輝度値を読出し、その差を算出するのみで、上記ステップS23における対象物の特徴量の算出工程が終了し、極めて高速に顔検出処理することができるため、リアルタイムな顔検出が可能である。また、その特徴量から判別した判別結果(推定値)と判別に使用した弱判別器に対する信頼度とを乗算した値を加算して評価値sを逐次更新する毎に打ち切り閾値Rと比較し、弱判別器の推定値の演算を続けるか否かを判定する。そして、打ち切り閾値Rを評価値sが下回った場合に弱判別器の演算を打ち切り、次のウィンドウ画像の処理に移ることにより、無駄な演算を飛躍的に提言して更に高速に顔検出が可能となる。すなわち、入力画像及びそれを縮小スケーリングしたまたスケーリング画像の全ての領域を走査してウィンドウ画像を切り出した場合、それらのウィンドウ画像のうち対象物である確率は小さく、ほとんどが非対象物である。この非対象物であるウィンドウ画像の判別を途中で打ち切ることで、判別工程を極めて高効率化することができる。なお、逆に検出すべき対象物が多数含まれるような場合、上述した打ち切り閾値と同様の手法にて、対象物であると明らかなウィンドウ画像の演算を途中で打ち切るような閾値も設けてもよい。更に、入力画像をスケーリング部にてスケーリングすることで、任意の大きさの探索ウィンドウを設定し、任意の大きさの対象物を検出することができる。
(7)実施例
次に、対象物として実際に顔を検出した本発明の実施例について説明する。なお、対象物は顔に限らず、例えばロゴタイプや模様又は人間の顔以外の対象物画像など、2次元的な平面での特徴を有するものであって、上記ピクセル間差分特徴によりある程度の判別ができる(弱判別器を構成できる)ものであれば、どのような対象物でも検出できることはいうまでもない。
図12(a)及び図12(b)は、本実施例の学習サンプルの一部を示す図である。学習サンプルは、対象物としてラベリングされた図12(a)に示す顔画像群と、非対象物としてラベリングされた図12(b)に示す非顔画像群を使用する。図12(a)及び(b)には、学習サンプルとして使用した画像の一部を示すものであるが、学習サンプルとしては、例えば数千枚の顔画像と、数万枚の非顔画像とを用いる。画像サイズは例えば20×20ピクセルなどとする。
本実施例では、これら学習サンプルから、図9及び図10に示すアルゴリズムに従って上述の式(3)のみを利用した顔判別問題を学習する。このような学習により、最初に生成された1〜6番目までの弱判別器をそれぞれ図13(a)乃至(f)に示す。これらは顔の特徴をよく表していると考えられる。定性的には、図13(a)の弱判別器fは、額(S)は目(S)より明るい(閾値:18.5)ことを示し、図13(b)の弱判別器fは、頬(S)は目(S)より明るい(閾値:17.5)ことを示す。また、図13(c)の弱判別器fは、額(S)は髪の毛(S)より明るい(閾値:26.5)ことを示し、図13(d)の弱判別器fは、鼻の下(S)は鼻腔(S)より明るい(閾値:5.5)ことを示す。更に、図13(e)の弱判別器fは、頬(S)は髪の毛(S)より明るい(閾値:22.5)ことを示し、図13(F)の弱判別器fは、顎(S)は唇(S)より明るい(閾値:4.5)ことを示している。
本実施例においては、最初の1つの弱判別器fにより70%の正答率(学習サンプルに対する性能)を得ることができ、弱判別器f〜fを全て利用することで80%の正答率に達する。そして、40個の弱判別器を組み合わせることで90%の正答率に達し、765個の弱判別器を組み合わせることにより99%の正答率に達することができた。
図14は、1枚の入力画像から検出された顔検出結果を示す図であって、(a)及び(b)は、それぞれ重なり領域を取り除く前後を示す図である。図14(a)に示す複数の枠が、検出された顔(対象物)であり、1枚の画像から図11に示すステップS21〜ステップS28までの処理にて複数の顔(領域)が検出される。これをステップS29〜ステップS31に示す重なり領域除去処理を行うことで、1つの顔として検出することができる。なお、画像内に複数の顔が存在する場合には、複数の顔を同時に検出することができる。上述したように、本実施例の顔検出処理は、極めて高速に処理可能であって、通常のPC等を利用しても1秒間に30枚程度の入力画像から顔検出することができ、従って動画から顔検出することも可能である。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本発明の実施の形態における対象物検出装置の処理機能を示す機能ブロック図である。 上記対象物検出装置におけるスケーリング部にてスケール変換された画像を示す模式図である。 上記対象物検出装置における走査部が探索ウィンドウを走査する様子を示す図である。 上記対象物検出装置における判別器の構成を示す模式図である。 ピクセル間差分特徴を説明するための画像を示す模式図である (a)乃至(c)は、縦軸に頻度をとり、横軸にピクセル間差分特徴をとって、それぞれ上記式(3)〜(5)に示す3つの判別方法を、データの頻度分布の特徴的なケースに合わせて示す模式図である。 (a)は、縦軸に確率密度をとり、横軸にピクセル間差分特徴をとって、データの頻度分布の特徴的なケースを示す図、(b)は、縦軸に関数f(x)の値をとり、横軸にピクセル間差分特徴をとって、(a)に示すデータ分布における関数f(x)を示すグラフ図である 横軸に弱判別器の数をとり、縦軸に重み付き多数決の値F(x)をとって、入力される画像が対象物か否かに応じた重み付き多数決の値F(x)の変化を示すグラフ図である。 上記対象物検出装置における判別器をえるための集団学習機の学習方法を示すフローチャートである。 1つの閾値Thで2値出力する弱判別器の学習方法(生成方法)を示すフローチャートである。 上記対象物検出装置における対象物検出方法を示すフローチャートである。 (a)及び(b)は、本発明の実施例に使用した学習サンプルの一部を示す図であってそれぞれ対象物としてラベリングされた顔画像群及び非対象物としてラベリングされた非顔画像群を示す図である。 (a)乃至(f)は、上記集団学習機における学習により、最初に生成されたそれぞれ1〜6番目までの弱判別器を説明する図である。 1枚の入力画像から検出された顔検出結果を示す図であって、(a)及び(b)は、それぞれ重なり領域を取り除く前後を示す図である。 特許文献1に記載の矩形特徴(rectangle feauture)を示す模式図である。 特許文献1に記載の矩形特徴を使用して顔画像に判別する方法を説明する図である。 特許文献1に記載の積分画像(integral image)を示す模式図である。 特許文献1に記載の積分画像を使用して矩形領域の輝度値の総和を算出する方法を説明する図である。
符号の説明
1 対象物検出装置、2 画像入力部、3 スケーリング部、4 走査部、5 判別器、6 集団学習機、21 弱判別器、22 加算器、f〜f 弱判別器

Claims (16)

  1. 与えられた濃淡画像が対象物であるか否かを検出する対象物検出装置において、
    上記与えられた濃淡画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を算出する複数の弱判別手段と、
    上記複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別手段と
    を有する対象物検出装置。
  2. 上記判別手段は、上記推定値に対して各弱判別手段に対する信頼度を乗算して加算した重み付き多数決の値を算出し、当該多数決の値に基づき上記濃淡画像が対象物か否かを判別する
    請求項1記載の対象物検出装置。
  3. 上記複数の弱判別手段は、逐次上記推定値を算出し、
    上記判別手段は、上記推定値が算出される毎に上記重み付き多数決の値を逐次更新し、該更新された重み付き多数決の値に基づき上記推定値の算出を打ち切るか否かを制御する
    請求項2記載の対象物検出装置。
  4. 上記判別手段は、上記重み付き多数決の値が打ち切り閾値より小さいか否かにより上記推定値の算出を打ち切るものであって、
    上記各弱判別手段は、対象物であるか非対象物であるかの正解付けがされた複数の濃淡画像からなる学習サンプルを使用して集団学習により逐次生成されたものであり、
    上記打ち切り閾値は、上記学習時において、弱判別手段が生成される毎に、該生成された弱判別手段により算出された上記対象物である学習サンプルに対する推定値に上記信頼度を重み付けした値を加算して更新される重み付き多数決の値の最小値からなる
    請求項3記載の対象物検出装置。
  5. 上記学習時における重み付き多数決の値の最小値が正の場合、0を上記打ち切り閾値に設定する
    請求項4記載の対象物検出装置。
  6. 上記弱判別手段は、上記濃淡画像の上記特徴量が所定の閾値以上であるか否かに応じて対象物であるか否かを示す2値の上記推定値を算出する
    請求項1記載の対象物検出装置。
  7. 上記弱判別手段は、上記特徴量に基づき上記濃淡画像が対象物である確率を上記推定値として算出する
    請求項1記載の対象物検出装置。
  8. 与えられた濃淡画像が対象物であるか否かを検出する対象物検出方法において、
    上記与えられた濃淡画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を複数の弱判別器により算出する弱判別工程と、
    複数の弱判別器の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別工程と
    を有する対象物検出方法。
  9. 上記判別工程では、上記推定値に対して各弱判別器に対する信頼度を乗算して加算した重み付き多数決の値を算出し、当該多数決の値に基づき上記濃淡画像が対象物か否かを判別する
    請求項8記載の対象物検出方法。
  10. 上記弱判別工程では、上記複数の弱判別器により逐次上記推定値を算出し、
    上記判別工程では、上記推定値が算出される毎に上記重み付き多数決の値を逐次更新し、
    上記判別工程にて上記更新された重み付き多数決の値に基づき上記推定値の算出を打ち切るか否かを制御する打ち切り制御工程を有する
    請求項9記載の対象物検出方法。
  11. 濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを検出する対象物検出装置において、
    入力される濃淡画像のサイズを拡大又は縮小したスケール画像を生成するスケール変換手段と、
    上記スケール画像から上記固定サイズのウィンドウを走査し、上記ウィンドウ画像を切り出すウィンドウ画像走査手段と、
    与えられるウィンドウ画像が対象物か否かを検出する対象物検出手段とを有し、
    上記対象物検出手段は、上記固定サイズのウィンドウ画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記ウィンドウ画像が対象物か否かを推定する推定値を算出する複数の弱判別手段と、複数の弱判別手段の少なくとも1以上により算出された上記推定値に基づき上記ウィンドウ画像が対象物であるか否かを判別する判別手段とを有する
    対象物検出装置。
  12. 上記判別手段は、上記推定値に対して各弱判別手段に対する信頼度を乗算して加算した重み付き多数決の値を算出し、当該多数決の値に基づき上記濃淡画像が対象物か否かを判別する
    請求項11記載の対象物検出装置。
  13. 上記複数の弱判別手段は、逐次上記推定値を算出し、
    上記判別手段は、上記推定値が算出される毎に上記重み付き多数決の値を逐次更新し、該更新された重み付き多数決の値に基づき上記推定値の算出を打ち切るか否かを制御する
    請求項12記載の対象物検出装置。
  14. 濃淡画像から固定サイズのウィンドウ画像を切り出し、該ウィンドウ画像が対象物か否かを検出する対象物検出方法において、
    入力される濃淡画像のサイズを拡大又は縮小したスケール画像を生成するスケール変換工程と、
    上記スケール画像から上記固定サイズのウィンドウを走査し、上記ウィンドウ画像を切り出すウィンドウ画像走査工程と、
    与えられるウィンドウ画像が対象物か否かを検出する対象物検出工程とを有し、
    上記対象物検出工程は、
    上記固定サイズのウィンドウ画像を構成する画素中の任意の2画素の組み合わせから学習により選択された2つの位置の画素の輝度値の差からなる特徴量に基づき上記濃淡画像が対象物か否かを示す推定値を複数の弱判別器により算出する弱判別工程と、
    複数の弱判別器の少なくとも1以上により算出された上記推定値に基づき上記濃淡画像が対象物であるか否かを判別する判別工程と有する
    対象物検出方法。
  15. 上記判別工程では、上記推定値に対して各弱判別器に対する信頼度を乗算して加算した重み付き多数決の値を算出し、当該多数決の値に基づき上記濃淡画像が対象物か否かを判別する
    請求項14記載の対象物検出方法。
  16. 上記弱判別工程では、上記複数の弱判別器により逐次上記推定値を算出し、
    上記判別工程では、上記推定値が算出される毎に上記重み付き多数決の値を逐次更新し、
    上記判別工程にて上記更新された重み付き多数決の値に基づき上記推定値の算出を打ち切るか否かを制御する打ち切り制御工程を有する
    請求項15記載の対象物検出方法。
JP2003394556A 2003-11-25 2003-11-25 対象物検出装置及び方法 Expired - Fee Related JP4517633B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2003394556A JP4517633B2 (ja) 2003-11-25 2003-11-25 対象物検出装置及び方法
EP04257229A EP1536369B1 (en) 2003-11-25 2004-11-22 Device and method for detecting object and device and method for group learning
DE602004004048T DE602004004048T2 (de) 2003-11-25 2004-11-22 Anordnung und Verfahren zur Objekterkennung sowie Anordnung und Verfahren zum Gruppenlernen
US10/994,942 US7574037B2 (en) 2003-11-25 2004-11-22 Device and method for detecting object and device and method for group learning
US13/208,123 USRE43873E1 (en) 2003-11-25 2011-08-11 Device and method for detecting object and device and method for group learning
US13/669,820 USRE44703E1 (en) 2003-11-25 2012-11-06 Device and method for detecting object and device and method for group learning
US14/091,410 USRE45595E1 (en) 2003-11-25 2013-11-27 Device and method for detecting object and device and method for group learning
US14/743,538 USRE47434E1 (en) 2003-11-25 2015-06-18 Device and method for detecting object and device and method for group learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003394556A JP4517633B2 (ja) 2003-11-25 2003-11-25 対象物検出装置及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008248698A Division JP4553044B2 (ja) 2008-09-26 2008-09-26 集団学習装置及び方法

Publications (3)

Publication Number Publication Date
JP2005157679A JP2005157679A (ja) 2005-06-16
JP2005157679A5 JP2005157679A5 (ja) 2008-12-25
JP4517633B2 true JP4517633B2 (ja) 2010-08-04

Family

ID=34463785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003394556A Expired - Fee Related JP4517633B2 (ja) 2003-11-25 2003-11-25 対象物検出装置及び方法

Country Status (4)

Country Link
US (5) US7574037B2 (ja)
EP (1) EP1536369B1 (ja)
JP (1) JP4517633B2 (ja)
DE (1) DE602004004048T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571315B2 (en) 2010-11-26 2013-10-29 Sony Corporation Information processing apparatus, information processing method, and program
US9259159B2 (en) 2012-03-29 2016-02-16 Sony Corporation Information processing apparatus, information processing method, and computer program for measuring eardrum temperature
WO2018163790A1 (ja) 2017-03-06 2018-09-13 ソニー株式会社 情報処理装置

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4767595B2 (ja) * 2005-06-15 2011-09-07 パナソニック株式会社 対象物検出装置及びその学習装置
JP4789526B2 (ja) * 2005-07-13 2011-10-12 キヤノン株式会社 画像処理装置、画像処理方法
JP2007058751A (ja) * 2005-08-26 2007-03-08 Fujitsu Ten Ltd 物体判別装置、物体判別方法および物体判別プログラム
JP4540661B2 (ja) 2006-02-28 2010-09-08 三洋電機株式会社 物体検出装置
JP4556891B2 (ja) * 2006-03-17 2010-10-06 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4757116B2 (ja) * 2006-06-30 2011-08-24 キヤノン株式会社 パラメータ学習方法及びその装置、パターン識別方法及びその装置、プログラム
JP4197019B2 (ja) 2006-08-02 2008-12-17 ソニー株式会社 撮像装置および表情評価装置
US7949173B2 (en) * 2006-10-06 2011-05-24 Siemens Corporation Method and system for regression-based object detection in medical images
US8184915B2 (en) 2006-12-04 2012-05-22 Lockheed Martin Corporation Device and method for fast computation of region based image features
DE102007014413B4 (de) * 2007-03-17 2016-02-04 DüRR DENTAL AG Verfahren zum Auswerten von Fluoreszenzbildsätzen und Vorrichtung zu seiner Durchführung
JP4775306B2 (ja) 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
JP4434236B2 (ja) 2007-06-11 2010-03-17 ソニー株式会社 画像処理装置、画像表示装置、撮像装置、これらの処理方法およびプログラム
US7908231B2 (en) * 2007-06-12 2011-03-15 Miller James R Selecting a conclusion using an ordered sequence of discriminators
JP4375448B2 (ja) 2007-06-26 2009-12-02 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP4479756B2 (ja) 2007-07-05 2010-06-09 ソニー株式会社 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
JP2009037141A (ja) 2007-08-03 2009-02-19 Ricoh Co Ltd 画像形成装置の管理装置及び管理システム
US8339637B2 (en) 2007-08-03 2012-12-25 Ricoh Company, Ltd. Management apparatus, management system, operation status determination method, and image forming apparatus
JP5122254B2 (ja) * 2007-11-22 2013-01-16 株式会社リコー 稼働状態判別方法および画像形成装置
JP4853425B2 (ja) 2007-08-14 2012-01-11 ソニー株式会社 撮像装置、撮像方法およびプログラム
JP4946730B2 (ja) 2007-08-27 2012-06-06 ソニー株式会社 顔画像処理装置及び顔画像処理方法、並びにコンピュータ・プログラム
JP4424396B2 (ja) 2007-09-03 2010-03-03 ソニー株式会社 データ処理装置および方法、並びにデータ処理プログラムおよびデータ処理プログラムが記録された記録媒体
JP4891197B2 (ja) * 2007-11-01 2012-03-07 キヤノン株式会社 画像処理装置および画像処理方法
JP2009110486A (ja) 2007-11-01 2009-05-21 Sony Corp 画像処理装置、画像処理方法および画像処理プログラム、並びに、撮像装置および撮像装置の制御方法
JP2009140369A (ja) * 2007-12-07 2009-06-25 Sony Corp 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
JP5040734B2 (ja) 2008-03-05 2012-10-03 ソニー株式会社 画像処理装置、画像記録方法およびプログラム
JP5018587B2 (ja) * 2008-03-25 2012-09-05 セイコーエプソン株式会社 オブジェクト検出方法、オブジェクト検出装置、オブジェクト検出プログラムおよびオブジェクト検出プログラムを記録したコンピュータ読取可能な記録媒体
JP4582174B2 (ja) * 2008-03-28 2010-11-17 ソニー株式会社 追跡処理装置、追跡処理方法、プログラム
KR20100134085A (ko) * 2008-04-01 2010-12-22 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 디지털 이미지에서 객체 검출 속도 향상을 위한 시스템 및 방법
JP5124361B2 (ja) * 2008-06-25 2013-01-23 株式会社リコー 状態判別方法及び画像形成装置
US8433106B2 (en) * 2008-07-08 2013-04-30 Hewlett-Packard Development Company, L.P. Increasing face detection speed
JP2010092199A (ja) 2008-10-07 2010-04-22 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP5106356B2 (ja) * 2008-11-17 2012-12-26 セコム株式会社 画像監視装置
JP5264457B2 (ja) * 2008-12-12 2013-08-14 セコム株式会社 物体検出装置
JP4710979B2 (ja) 2009-01-09 2011-06-29 ソニー株式会社 対象物検出装置、学習装置、対象物検出方法およびプログラム
JP5538967B2 (ja) * 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP5257274B2 (ja) * 2009-06-30 2013-08-07 住友電気工業株式会社 移動体検出装置、移動体検出方法及びコンピュータプログラム
JP2011013732A (ja) 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP4743312B2 (ja) * 2009-07-29 2011-08-10 株式会社デンソー 画像識別装置
JP5503921B2 (ja) 2009-08-21 2014-05-28 ソニーモバイルコミュニケーションズ, エービー 情報端末、情報端末の情報制御方法及び情報制御プログラム
JP5423379B2 (ja) 2009-08-31 2014-02-19 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP2011053915A (ja) * 2009-09-02 2011-03-17 Sony Corp 画像処理装置、画像処理方法、プログラム及び電子機器
JP5523053B2 (ja) * 2009-10-19 2014-06-18 キヤノン株式会社 物体識別装置及び物体識別方法
JP2011090466A (ja) 2009-10-21 2011-05-06 Sony Corp 情報処理装置及び方法、並びにプログラム
JP2011090569A (ja) * 2009-10-23 2011-05-06 Sony Corp 画像処理装置および画像処理方法
TWI405143B (zh) * 2009-11-27 2013-08-11 Altek Corp 用於辨識的物件影像校正裝置與其方法
JP5434569B2 (ja) 2009-12-22 2014-03-05 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5465594B2 (ja) * 2010-05-06 2014-04-09 株式会社野村総合研究所 対象物検出サイズ算出システムおよび対象物検出サイズ算出プログラム
US8750573B2 (en) * 2010-08-02 2014-06-10 Sony Corporation Hand gesture detection
US8792722B2 (en) * 2010-08-02 2014-07-29 Sony Corporation Hand gesture detection
JP5706647B2 (ja) * 2010-09-03 2015-04-22 キヤノン株式会社 情報処理装置、およびその処理方法
JP2012243179A (ja) * 2011-05-23 2012-12-10 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
KR20130098675A (ko) * 2012-02-28 2013-09-05 삼성전자주식회사 얼굴 검출 처리 회로 및 이를 포함하는 촬상 장치
JP2013186512A (ja) 2012-03-06 2013-09-19 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013205983A (ja) 2012-03-27 2013-10-07 Sony Corp 情報入力装置及び情報入力方法、並びにコンピューター・プログラム
JP5935118B2 (ja) * 2012-05-30 2016-06-15 株式会社日立製作所 物体検出装置および物体検出方法
JP6075973B2 (ja) * 2012-06-04 2017-02-08 富士通株式会社 健康状態判定装置およびその作動方法
CN103634589B (zh) * 2012-08-22 2016-08-03 原相科技股份有限公司 影像判断方法以及对象坐标计算装置
CN105409211B (zh) * 2013-08-26 2018-07-10 英特尔公司 用于图像处理的带皮肤色调校正的自动白平衡
JP6350018B2 (ja) * 2014-06-25 2018-07-04 株式会社デンソー 対象物検出装置及び要素選択装置
EP3311329A4 (en) * 2015-06-19 2019-03-06 Palmer Family Trust SYSTEMS AND METHODS FOR IMAGE ANALYSIS
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
WO2019102072A1 (en) * 2017-11-24 2019-05-31 Heyday Oy Method and system for identifying authenticity of an object
JP7215131B2 (ja) 2018-12-12 2023-01-31 株式会社オートネットワーク技術研究所 判定装置、判定プログラム、判定方法及びニューラルネットワークモデルの生成方法
JP7299041B2 (ja) * 2019-03-13 2023-06-27 株式会社明電舎 架線金具検出装置および架線金具検出方法
JP7164008B2 (ja) * 2019-03-13 2022-11-01 日本電気株式会社 データ生成方法、データ生成装置及びプログラム
WO2020194662A1 (ja) * 2019-03-28 2020-10-01 オリンパス株式会社 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体、情報処理方法及び学習済みモデルの製造方法
JP2022096379A (ja) * 2020-12-17 2022-06-29 富士通株式会社 画像出力プログラム,画像出力方法および画像出力装置
JPWO2022196310A1 (ja) * 2021-03-15 2022-09-22
CN112883918B (zh) * 2021-03-22 2024-03-19 深圳市百富智能新技术有限公司 人脸检测方法、装置、终端设备及计算机可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3046326B2 (ja) * 1990-06-15 2000-05-29 株式会社東芝 画像処理装置及び画像処理方法
JP2849256B2 (ja) * 1991-12-26 1999-01-20 日本電信電話株式会社 画像認識装置
JP3053512B2 (ja) * 1993-09-22 2000-06-19 三菱電機株式会社 画像処理装置
US5874966A (en) * 1995-10-30 1999-02-23 International Business Machines Corporation Customizable graphical user interface that automatically identifies major objects in a user-selected digitized color image and permits data to be associated with the major objects
EP1080444A4 (en) * 1998-05-18 2002-02-13 Datacube Inc IMAGE CORRELATION AND RECOGNITION SYSTEM
US6487304B1 (en) * 1999-06-16 2002-11-26 Microsoft Corporation Multi-view approach to motion and stereo
EP1089214A3 (en) * 1999-09-30 2005-01-26 Matsushita Electric Industrial Co., Ltd. Apparatus and method for image recognition
US6711279B1 (en) * 2000-11-17 2004-03-23 Honeywell International Inc. Object detection
US7099510B2 (en) * 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US7050607B2 (en) * 2001-12-08 2006-05-23 Microsoft Corp. System and method for multi-view face detection
US7024033B2 (en) * 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US7343028B2 (en) * 2003-05-19 2008-03-11 Fujifilm Corporation Method and apparatus for red-eye detection
US7689033B2 (en) * 2003-07-16 2010-03-30 Microsoft Corporation Robust multi-view face detection methods and apparatuses
US7536044B2 (en) * 2003-11-19 2009-05-19 Siemens Medical Solutions Usa, Inc. System and method for detecting and matching anatomical structures using appearance and shape
US20060193520A1 (en) * 2005-02-28 2006-08-31 Takeshi Mita Object detection apparatus, learning apparatus, object detection system, object detection method and object detection program
JP4708948B2 (ja) * 2005-10-03 2011-06-22 富士フイルム株式会社 顔向き特定方法、顔判別方法および装置並びにプログラム
CN100472556C (zh) * 2005-10-09 2009-03-25 欧姆龙株式会社 特定被摄体检测装置及方法
US7953253B2 (en) * 2005-12-31 2011-05-31 Arcsoft, Inc. Face detection on mobile devices
CN101470802B (zh) * 2007-12-28 2012-05-09 清华大学 物体检测装置和方法
JP2011090569A (ja) * 2009-10-23 2011-05-06 Sony Corp 画像処理装置および画像処理方法
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
US9224106B2 (en) * 2012-12-21 2015-12-29 Nec Laboratories America, Inc. Computationally efficient whole tissue classifier for histology slides

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571315B2 (en) 2010-11-26 2013-10-29 Sony Corporation Information processing apparatus, information processing method, and program
US9259159B2 (en) 2012-03-29 2016-02-16 Sony Corporation Information processing apparatus, information processing method, and computer program for measuring eardrum temperature
WO2018163790A1 (ja) 2017-03-06 2018-09-13 ソニー株式会社 情報処理装置

Also Published As

Publication number Publication date
USRE45595E1 (en) 2015-06-30
USRE44703E1 (en) 2014-01-14
US20050280809A1 (en) 2005-12-22
JP2005157679A (ja) 2005-06-16
EP1536369A1 (en) 2005-06-01
US7574037B2 (en) 2009-08-11
DE602004004048D1 (de) 2007-02-15
DE602004004048T2 (de) 2007-07-12
EP1536369B1 (en) 2007-01-03
USRE47434E1 (en) 2019-06-11
USRE43873E1 (en) 2012-12-25

Similar Documents

Publication Publication Date Title
JP4517633B2 (ja) 対象物検出装置及び方法
JP4482796B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4553044B2 (ja) 集団学習装置及び方法
JP5025893B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4556891B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4708909B2 (ja) デジタル画像の対象物検出方法および装置並びにプログラム
JP2006318341A (ja) 検知対象画像判定装置、検知対象画像判定方法および検知対象画像判定プログラム
JP4624889B2 (ja) 顔検出方法および装置並びにプログラム
JP4757598B2 (ja) 顔検出方法および装置並びにプログラム
JP4795864B2 (ja) 特徴点検出装置および方法並びにプログラム
JP2009140369A (ja) 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
JP4795737B2 (ja) 顔検出方法および装置並びにプログラム
JP2011170890A (ja) 顔検出方法および装置並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4517633

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees