JP2010002960A

JP2010002960A - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP2010002960A
Application number: JP2008158860A
Authority: JP
Inventors: Fumiyuki Shiratani; 文行白谷
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2008-06-18
Filing date: 2008-06-18
Publication date: 2010-01-07

Abstract

【課題】画像から対象物を検出する画像処理において検出精度を向上させる。
【解決手段】画像から対象物を検出する画像処理装置は、前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器（２１）と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器（２２）を有する対象物検出部（２）を備える。前記対象物検出部（２）は、前記対象物のうち特定の対象物のコントラストに基づき前記第１の判別器（２１）及び前記第２の判別器（２２）のうち前記前記特定の対象物の検出に適した判別器を選択し、選択した判別器を用いて前記画像から前記対象物を検出する。
【選択図】図１

Description

本発明は画像から顔等の対象物を検出する画像処理技術に関する。

画像から人物の顔を検出する技術は、デジタルカメラのＡＦ（自動焦点）やＡＥ（自動露出）や、複数の画像から検索用インデキシングを自動生成するのに用いられている。

画像から人物の顔を検出する方法としては、Viola-Jonesの方法（非特許文献１）が有力であり、この方法によれば、予め機械学習させておいた複数の識別器を画像に対して適用することで、画像から人物の顔等を高速に検出することが可能である。
P. Viola and M. Jones. "Rapid Object Detection Using a Boosted Cascade of Simple Features," in Proc. of CVPR, vol.1, ppp.511-518, December, 2001

人物の顔に限らず、ペットの顔を検出したいという要求も少なからずあり、ペットの顔の検出に上記人物の顔を検出する方法を応用することが考えられる。

しかしながら、上記人物の顔を検出する方法をペットの顔の検出にそのまま適用しても所望の検出精度が得られない。これは、ペットは種別が多く、顔の輪郭、耳の位置・大きさのバラツキが人物に比べて大きいためであると考えられる。

顔の輪郭等のバラツキの影響を抑えるためには、これらを除いた顔の中心領域を検出するようにすればよい。しかしながら、この方法では、検出したいペットの毛が黒く、かつ、目、鼻も黒い場合のように、ペットの顔のコントラストが低いと検出精度が低下する。

本発明は、このような技術的課題に鑑みてなされたもので、画像から対象物を検出する画像処理において検出精度を向上させることを目的とする。

本発明の第１の態様によれば、画像から対象物を検出する画像処理装置であって、前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、前記対象物検出部は、前記対象物のうち特定の対象物のコントラストに基づき、前記第１の判別器及び前記第２の判別器のうち前記特定の対象物の検出に適した判別器を選択し、選択した判別器を用いて前記画像から前記対象物を検出する、ことを特徴とする画像処理装置が提供される。

また、上記画像処理装置による画像処理方法、同方法をコンピュータに実行させるためのプログラムが提供される。

第１の態様によれば、特定の対象物のコントラストに基づき特定の対象物の検出に適した判別器を選択し、これを用いて対象物の検出を行うので、特定の対象物の検出精度が向上する。

例えば、画像から特定の対象物として飼い犬・飼い猫の顔（ペットの顔）を検出する場合、ペットの顔のコントラストが高い場合は、その様な顔の検出に適した顔中心領域を判別する第１の判別器を用いて顔検出を行い、毛が黒くコントラストが低い場合は、その様な顔の検出に適した顔の輪郭も含めた顔全体領域を判別する第２の判別器を用いて顔検出を行う。これにより、例えば、犬・猫の顔の中でも特にペットの顔検出に適した判別器を用いて顔検出が行われることになり、ペットの顔検出の精度が向上する。

また、本発明の第２の態様によれば、画像から対象物を検出する画像処理装置であって、前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、前記対象物検出部は、前記画像の全部ないし一部を探索領域として抽出し、前記探索領域のコントラストに基づき、前記第１の判別器及び前記第２の判別器のうち前記探索領域に含まれている可能性のある前記対象物の検出に適した判別器を選択し、選択した判別器を用いて前記探索領域から前記対象物を検出する、ことを特徴とする画像処理装置が提供される。

第２の態様によれば、画像から対象物を検出するにあたり、探索領域のコントラストに基づき、探索領域に含まれている可能性のある対象物の検出に適した判別器を選択し、これを用いて対象物の検出を行うので、対象物の検出精度が向上する。

例えば、画像から対象物として犬・猫の顔を検出する場合、コントラストが高い探索領域にはコントラストが高い犬・猫の顔が含まれている可能性が高いので、その様な顔の検出に適した顔中心領域を判別する第１の判別器を用いて顔検出を行う。これに対し、コントラストが低い探索領域にはコントラストが低い犬・猫の顔（例えば、毛が黒い犬・猫）が含まれている可能性が高いので、その様な顔の検出に適した顔の輪郭も含めた顔全体領域を判別する第２の判別器を用いて顔検出を行う。これにより、探索領域に含まれている可能性のある対象物の検出に適した判別器を用いて対象物の検出が行われることになり、犬・猫の顔等の対象物の検出精度が向上する。

また、本発明の第３の態様によれば、画像から対象物を検出する画像処理装置であって、前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、前記対象物検出部は、前記対象物のうち特定の対象物の前記第１の領域のコントラストが前記第２の領域のコントラストよりも高いときは、前記第１の判別器を用いて前記画像から前記対象物を検出し、低いときは前記第２の判別器を用いて前記画像から前記対象物を検出する、ことを特徴とする画像処理装置が提供される。

第３の態様によれば、特定の対象物の第１の領域と第２の領域のコントラストを比較し、より高いコントラストを有する領域を写した画像を教師画像として学習させた判別器を用いて画像から対象物を検出する。これにより、特定の対象物のコントラストの高い領域を手がかりに対象物の検出が行われるので、特定の対象物の検出精度が向上する。

例えば、画像から特定の対象物として飼い犬・飼い猫の顔（ペットの顔）を検出する場合、ペットの顔中心領域のコントラストが高い場合は、その領域を写した画像を教師画像として学習された第１の判別器を用いて顔検出を行い、顔全体領域のコントラストが高い場合は、その領域を写した画像を教師画像として学習された第２の判別器を用いて顔検出を行う。これにより、例えば、犬・猫の顔等の対象物の中でも特にペットの顔検出に適した判別器を用いて顔検出が行われることになり、ペットの顔検出の精度が向上する。

本発明によれば、画像から対象物を検出する画像処理において検出精度を向上させることができる。

以下、添付図面を参照しながら本発明の実施形態について説明する。なお、ここでは画像処理装置が犬・猫の顔（本明細書中では、例えば、「対象物」に対応する。）を検出し、犬・猫の中でも飼い犬・飼い猫といった特定の犬・猫の顔（本明細書中では、例えば、「特定の対象物」に対応する。この「特定の対象物」とは、前記「対象物」の概念に含まれる二以上のもののなかで、周波数特性などの検出特性が既知のものを指し、例えば、ユーザーにより選択されるものである。以下、一例として、「ペットの顔」という。）をユーザーが検出したい、すなわち、その検出精度を向上させたい場合について説明する。

また、顔のうち、目、鼻、口（本明細書中では、例えば、「感覚器官」に対応する。）を含むが顔の輪郭（顔の外縁を指す。顔全体の外縁でもよいし、顎から頬にかけての外縁等、顔の部分的な外縁でもよい。）を含まない領域を「顔中心領域」と称し、顔中心領域だけでなく顔の輪郭も含む領域を「顔全体領域」と称する（本明細書中では、例えば、「顔中心領域」、「顔全体領域」がそれぞれ「第１の領域」、「第２の領域」に対応する。）。なお、「顔中心領域」は理想的には顔の輪郭を含まない領域であるが、顔の形状、目、鼻、口の配置によっては、顔の輪郭を全く含まないように目、鼻、口を含む領域を考えることが難しい場合もあるので、このような場合は顔中心領域が顔の輪郭の一部を含んでいてもよい。

（第１実施形態）
第１実施形態に係る画像処理装置は、ＣＰＵ、ＲＡＭ、ＲＯＭ、入出力インターフェース等で構成され、機能ブロックで表すと、図１に示すように、入力部１と、顔検出部２（本明細書中では、例えば、「対象物検出部」に対応する。）と、出力部３と、画像登録部４と、コントラスト解析部５とを有している。入力部１は顔検出部２に接続し、顔検出部２は出力部３に接続する。また、画像登録部４はコントラスト解析部５に接続し、コントラスト解析部５は顔検出部２に接続する。

入力部１は、ペットの顔の検出を行う画像（以下、「入力画像」という。）を外部より入手する。例えば、この画像処理装置をデジタルカメラのＡＦ、ＡＥに利用する場合は、入力画像は撮像部により撮像されたスルー画像である。また、この画像処理装置を画像の検索用インデキシングの自動作成に利用する場合は、検索用インデキシングを作成する複数の画像である。

画像登録部４は、検出したいペットの顔の画像を格納する（以下、この画像を「登録画像」という。）。登録画像にはペットの顔がなるべく大きく含まれるようにし、かつ、ペットの顔以外は極力含まれないようにする。例えば、本画像処理装置をデジタルカメラに適用する場合は、本撮影の前に先立ちユーザーが所定の枠内一杯にペットの顔が含まれるように撮像しておき、この枠内の画像を登録画像として用いるようにする。あるいは、ペットの顔が含まれるよう本撮像を行い、後述する第１の顔判別器２１あるいは第２の顔判別器２２と同様の処理により撮像画像から犬・猫の顔を検出する。そして、検出された犬・猫の顔からペットの顔をユーザーが選択し、これを登録画像として用いるようにしてもよい。

登録画像は、撮像した画像から生成するのではなく、画像登録部４に予め登録しておくことも可能である。登録する画像は、例えば、ユーザーが予め用意したペットの顔の画像である。あるいは、複数種類の犬・猫の顔の画像を画像登録部４に格納しておき、この中からペットと同種の犬・猫の顔ないしペットの顔に最も類似する顔をユーザーが選択し、これを登録画像として用いるようにしてもよい。

コントラスト解析部５は、画像登録部４に格納されている登録画像を読み込み、登録画像における黒色の面積占有率B1を算出する。コントラスト解析部５における処理の詳細は後述する。

顔検出部２は、第１の顔判別器２１（本明細書中では、例えば、「第１の判別器」に対応する。）と第２の顔判別器２２（本明細書中では、例えば、「第２の判別器」に対応する。）を備える。顔判別器２１、２２は、いずれも任意の領域が犬・猫の顔であるか否かを判定する判別器で、入力画像から犬・猫の顔を検出するのに用いられる。ただし、後述するように顔判別器２１、２２は学習に用いる教師画像が相違し、これにより、第１の顔判別器２１はコントラストの高い顔の検出に適し、第２の顔判別器２２はコントラストの低い顔の検出に適しているという検出特性を有する。

顔検出部２は、入力画像から矩形の探索領域を抽出し、登録画像のコントラストに応じて第１の顔判別器２１あるいは第２の顔判別器２２を探索領域に対して適用し、探索領域が犬・猫の顔であるか否かを判定する。探索領域の抽出は、大きさ、座標を変えながら入力画像の全領域から行われ、これによって入力画像の全領域から犬・猫の顔の検出が行われる。顔検出部２はある探索領域を犬・猫の顔と判定すると、その位置、大きさを出力部３に出力する。

出力部３は、顔検出部２から受け取った犬・猫の顔の位置、大きさを外部に出力する。例えば、この画像処理装置をデジタルカメラのＡＦ、ＡＥに用いる場合は、出力部３は検出された顔を背面液晶に矩形枠で囲んで表示するとともに、デジタルカメラのＡＦ制御部、ＡＥ制御部に顔の位置、大きさを出力する。また、この画像処理装置を画像の検索用インデキシングの作成に利用する場合は、入力画像のデータに対し、犬・猫の顔が含まれていることを示すラベルを付加し、他の処理部や記憶装置に出力する。

続いて、顔判別器２１、２２について詳しく説明する。

第１の顔判別器２１は、図２に示すように、非特許文献１に開示されるAdaboostアルゴリズムによって生成される複数の識別器H_k(k=1〜S)をカスケード接続した構成である。複数の識別器H_k(k=1〜S)はいずれも探索領域が犬・猫の顔であるか否かを判定する識別器である。第１の顔判別器２１は、探索領域に対して複数の識別器H_k(k=1〜S)を適用し、全ての識別器H_k(k=1〜S)で犬・猫の顔であるとの判定がなされたとき、当該探索領域が犬・猫の顔であると判定する。

前段の識別器で探索領域が犬・猫の顔であるという判定がなされた場合にのみ後段の識別器に進み、途中の識別器で探索領域が犬・猫の顔でないとの判定がなされると直ちに処理を終了するので、高速な処理が可能である。

識別器H_kは、それぞれ複数の弱識別器を線形結合することによって構成される。弱識別器は図３に示すような黒矩形と白矩形からなる矩形フィルタと閾値の組である。弱識別器は、矩形フィルタを探索領域に重ね合わせ、黒矩形に対応する領域内の輝度値の和と白矩形に対応する領域内の輝度値の和との差が閾値よりも大きいか判定する。そして、閾値よりも大きいときは犬・猫の顔であることを示す1、小さいときは犬・猫の顔でないことを示す0を出力する。

ある探索領域が識別器H_kに入力されると、識別器H_kは、識別器H_kを構成する各弱識別器の出力にその弱識別器の信頼度αを掛けた値の総和を算出し、その総和から所定の閾値Th_Tを減じて確信度C(k)を算出する（後述する式(6)）。確信度C(k)はその領域が犬・猫の顔であることの確かさを表す値である。そして、識別器H_kは、確信度C(k)の符号を判定し、符号が正の場合は当該領域が犬・猫の顔であると判定する。

図４は識別器H_kを生成する学習処理の詳細を示したフローチャートである。識別器H_kを構成する弱識別器の選出はAdaboostアルゴリズムにより行われ、識別器H_kが予め用意されている複数の教師画像に対して所望の精度で犬・猫の顔か否かの判定ができるようになるまで繰り返される。第１の顔判別器２１の学習には、犬・猫に含まれる顔中心領域を写した複数枚の画像（図５）と犬・猫に含まれる顔中心領域が写っていない複数枚の画像（図示せず）からなる画像セットが用いられる。なお、以下の説明で、添え字tは識別器H_kの更新回数（弱識別器を識別器H_kに追加した回数）であり、初期値は１である。

まず、次式(1)により、各教師画像の重みを初期値W₁(i)に設定する（Ｓ１）。Nは教師画像の総数である。iは各画像に割り当てられる通し番号であり、1〜Nの値をとる。

次に、様々な弱識別器を全教師画像に対して適用し、次式(2)により誤り率ε_tを算出する（Ｓ２）。

次に、誤り率ε_tが最小になる弱識別器を、識別器H_kを構成する弱識別器h_tとして選出する（Ｓ３）。そして、選出された弱識別器h_tを識別器H_kに追加し、識別器H_kを更新する。

次に、選出された弱識別器h_tの誤り率ε_tに基づき、次式(3)により選出された弱識別器h_tの信頼度α_tを算出する（Ｓ４）。

次に、選出された弱識別器h_tの信頼度α_tに基づき、弱識別器h_tが判定を誤った教師画像の重みW_t(i)を次式(4)により増加させ、逆に、判定が正しかった教師画像の重みW_t(i)を次式(5)によって減少させる。さらに、更新後の重みW_t(i)をそれらの総和で割って重みW_t(i)を正規化する（Ｓ５）。

次に、次式(6)により、弱識別器h_tを全教師画像に適用し、その結果に対応する信頼度α_tを掛けた値の総和から閾値Th_Tを引いて、確信度C(k)を算出する（Ｓ６）。xは画像の輝度情報である。

次に、全教師画像について確信度C(k)の正負に応じて犬・猫の顔か否かを判定する。そして、判定が正しく行われた画像の数を教師画像の総数Nで割って、検出精度を算出する（Ｓ７）。

次に、所望の検出精度が得られているか判定する（Ｓ８）。所望の検出精度が得られている場合は、選出された弱識別器h_tを線形結合して識別器H_kを構成する（Ｓ９）。

一方、所望の検出精度が得られていないと判定された場合は、更新回数ｔに１が加算され、Ｓ２に戻って新たな弱識別器の選出及び選出した弱識別器の識別器H_kへの追加が行われる。弱識別器の追加は所望の検出精度が得られるまで繰り返し行われる。

なお、通常、カスケード処理では前段の情報を持ち越さない場合が多いが、識別器H_kにおいて１段目からk段目の確信度C(k)の総和Cs(k)を次式(7)により算出し、Cs(k)の正負によって犬・猫の顔か否かを判定するようにしてもよい。このように、前段で算出した確信度も反映させたほうが、経験上、高い検出精度を得ることができることがわかっている。

第２の顔判別器２２も第１の顔判別器２１と同様に、複数の識別器H_kをカスケード接続した構成であり、複数の識別器H_kはそれぞれ図４に示した学習処理により生成される。ただし、第２の顔判別器２２の学習には、第１の顔判別器２１の学習とは異なり、犬・猫に含まれる顔全体領域を写した複数枚の画像（図６）と犬・猫に含まれる顔全体領域が写っていない複数枚の画像（図示せず）からなる画像セットが用いられる。

続いて、各処理部の処理の詳細について説明する。

図７は、コントラスト解析部５の処理内容の詳細を示したフローチャートである。この処理は顔検出部２により入力画像から顔検出を行う前に行われる。

これによると、まず、コントラスト解析部５は入力部１から登録画像を読み込む（Ｓ１１）。図８は登録画像の一例であり、登録画像には検出したいペットの顔が含まれている。

次に、コントラスト解析部５は、登録画像中の各画素について黒色か否かを判定し、登録画像における黒色の面積占有率B1を算出する（Ｓ１２)。黒色か否かの判定では、例えば、明度を黒を0、白を10とする10段階で表現した場合、明度が2以下の画素を黒色であると判定する。

したがって、この処理によれば、登録画像のコントラストの解析値として登録画像における黒色の面積占有率B1が算出される。

図９は顔検出部２の処理内容の詳細を示したフローチャートである。

これによると、まず、顔検出部２は入力部１から入力画像を読み込む（Ｓ２１）。

次に、顔検出部２は入力画像から矩形の探索領域を抽出する（Ｓ２２）。探索領域の抽出は、大きさ、座標を変えながら入力画像の全領域から行われる。

次に、顔検出部２はコントラスト解析部５で算出された登録画像における黒色の面積占有率B1が所定値よりも大きいか否かを判定する（Ｓ２３）。所定値は例えば0.8に設定される。黒色の面積占有率B1が所定値よりも大きいときは、ペットの顔のコントラストが低いので、この場合は、顔検出部２は探索領域に対して第２の顔判別器２２を適用し、犬・猫の顔の検出を行う（Ｓ２４）。そうでない場合は、探索領域に対して第１の顔判別器２１を適用し、犬・猫の顔の検出を行う（Ｓ２５）。

顔検出部２は入力画像の全領域から探索が完了するまで上記Ｓ２２〜Ｓ２５の処理を繰り返す（Ｓ２６）。そして、顔検出部２は、第１の顔判別器２１あるいは第２の顔判別器２２により犬・猫の顔と判定された探索領域の大きさ、座標を出力部３に出力する（Ｓ２７）。

したがって、この処理によれば、登録画像のコントラストに基づき、第１の顔判別器２１あるいは第２の顔判別器２２が選択され、選択された顔判別器を用いて入力画像から犬・猫の顔が検出される。

続いて、第１実施形態に係る画像処理装置による作用効果について説明する。

上記画像処理装置によれば、検出したいペットの顔のコントラストが高い場合は、犬・猫に含まれる顔中心領域を写した画像を教師画像として学習させた第１の顔判別器２１を用いて犬・猫の顔検出が行われる。逆に、コントラストが低い場合は、犬・猫に含まれる顔全体領域を写した画像を教師画像として学習させた第２の顔判別器２２を用いて犬・猫の顔検出が行われる。

検出したいペットの顔のコントラストが高い場合は、種別によるバラツキの大きい顔の輪郭を含まない顔中心領域を判別する第１の顔判別器２１を用いて犬・猫の顔検出が行われるので、ペットの顔を高い精度で検出することができる。

一方、検出したいペットの毛が黒く、その顔のコントラストが低い場合は、第１の顔判別器２１では目、鼻といった特徴を判別できず、ペットの顔の検出精度が低下する。このため、この場合は、顔の輪郭も含む顔全体領域を判別する第２の顔判別器２２を用いて犬・猫の顔検出が行われる。顔のコントラストが低くてもその輪郭を識別できる場合が多く、このように第２の顔判別器２２を用いれば、コントラストの低いペットの顔の検出精度を向上させることができる。

したがって、上記画像処理装置によれば、検出したいペットの顔のコントラストに基づき、第１の顔判別器２１及び第２の顔判別器２２のうちペットの顔の検出に適した顔判別器を選択し、選択した顔判別器を用いてペットの顔の検出が行われるので、ペットの顔の検出精度を向上させることができる。

（第２実施形態）
続いて本発明の第２実施形態について説明する。

図１１は第２実施形態に係る画像処理装置の機能ブロック図を示す。第１実施形態と略同じ構成であるが、第２実施形態に係る画像処理装置は画像登録部４を備えていない。

さらに、顔検出部２、コントラスト解析部５における処理が第１実施形態と相違する。すなわち、第２実施形態に係る画像処理装置では、コントラスト解析部５は画像登録部４からではなく顔検出部２で抽出された探索領域の情報を受け取り、その探索領域のコントラストを解析し、解析結果を顔検出部２に返す。さらに、顔検出部２はその解析結果に基づき顔検出に用いる顔判別器２１、２２を選択する。

図１２は顔検出部２の処理内容の詳細を示したフローチャートである。

これによると、まず、顔検出部２は入力部１から入力画像を読み込む（Ｓ３１）。

次に、顔検出部２は入力画像から矩形の探索領域を抽出する（Ｓ３２）。探索領域の抽出は、大きさ、座標を変えながら入力画像の全領域から行われる。

次に、顔検出部２は、探索領域の情報をコントラスト解析部５に送り、コントラスト解析部５で算出される探索領域における黒色の面積占有率B2を入手する。

次に、顔検出部２は、黒色の面積占有率B2が所定値よりも大きいか判定する（Ｓ３４）。所定値は例えば0.8に設定される。

黒色の面積占有率B2が所定値よりも大きいときは、コントラストの高い顔が探索領域に含まれている可能性は低く、含まれているとすれば黒犬・黒猫等のコントラストの低い顔である。したがって、この場合は、顔検出部２はコントラストの低い顔の検出に適した第２の顔判別器２２を用いて顔検出を行う（Ｓ３５）。

一方、黒色の面積占有率B2が所定値よりも小さいときは、黒犬・黒猫等のコントラストの低い顔が探索領域に含まれている可能性は低く、含まれているとすればコントラストの高い顔である。したがって、この場合は、顔検出部２はコントラストの高い顔の検出に適した第１の顔判別器２１を用いて顔検出を行う（Ｓ３６）。

顔検出部２は入力画像の全領域から探索が完了するまで上記Ｓ３４〜Ｓ３６の処理を繰り返す（Ｓ３７）。そして、顔検出部２は、第１の顔判別器２１あるいは第２の顔判別器２２により犬・猫の顔であると判定された探索領域の大きさ、座標を出力部３に出力する（Ｓ３８）。

したがって、第２実施形態に係る画像処理装置によれば、探索領域のコントラストに基づき、探索領域に含まれている可能性のある犬・猫の顔の検出に適した顔判別器を選択し、選択した顔判別器を用いて顔検出が行われるので、犬・猫の顔検出の精度を向上させることができる。また、結果として、ペットの顔の検出精度も向上する。

（第３実施形態）
続いて本発明の第３実施形態について説明する。

第３実施形態に係る画像処理装置の機能ブロック図は図１に示した第１実施形態のものと同じである。ただし、顔検出部２、コントラスト解析部５における処理が第１実施形態と相違する。なお、第３実施形態は、第１実施形態と同様に、検出したいペットの顔の検出精度を直接的に向上させるものである。

図１２はコントラスト解析部５の処理の詳細を示したフローチャートである。

これによると、まず、コントラスト解析部５は入力部１から登録画像を読み込む（Ｓ４１）。

次に、コントラスト解析部５は、第１の顔判別器２１と同じ処理を登録画像に対して行い、登録画像から顔中心領域を検出する（Ｓ４２）。また、コントラスト解析部５は、第２の顔判別器２２と同じ処理を登録画像に対して行い、登録画像から顔全体領域を検出する（Ｓ４３)。図１３は登録画像から検出された顔中心領域、顔全体領域の例を示している。なお、図１３に示す例では登録画像として第１実施形態と同じものを用いているが、第３実施形態では登録画像そのものではなく顔中心領域、顔全体領域を検出してそれらの領域のコントラストを解析するので、第１実施形態のように登録画像にペットの顔がなるべく大きく含まれるようにする必要はない。

そして、コントラスト解析部５は、登録画像から検出された顔中心領域、顔全体領域それぞれについて黒色の面積占有率Ba、Bbを算出する（Ｓ４４）。顔中心領域、顔全体領域が検出されない場合は、検出されない領域における黒色の面積占有率を100%とすればよい。

したがって、この処理によれば、登録画像から検出された顔中心領域、顔全体領域それぞれにおける黒色の面積占有率Ba、Bbが各領域のコントラストの解析値として算出される。

図１４は顔検出部２の処理の詳細を示したフローチャートである。

これによると、まず、顔検出部２は入力部１から入力画像を読み込む（Ｓ５１）。

次に、顔検出部２は入力画像から矩形の探索領域を抽出する（Ｓ５２）。探索領域の抽出は、大きさ、座標を変えながら入力画像の全領域から行われる。

次に、顔検出部２は登録画像から検出された顔中心領域における黒色の面積占有率Baが登録画像から検出された顔全体領域における黒色の面積占有率Bbよりも大きいか判定する（Ｓ５３）。

BaがBbよりも大きいときは、検出したいペットの顔中心領域のコントラストが低い。この場合は、輪郭を含む顔全体領域を判別する第２の顔判別器２２を適用した方がペットの顔の検出精度が高くなるので、第２の顔判別器２２を用いて顔検出を行う（Ｓ５４）。

逆に、BaがBbよりも小さいときは、検出したいペットの顔中心領域のコントラストが高い。この場合は、顔中心領域を判別する第１の顔判別器２１を適用した方がペットの検出精度が高くなるので、第１の顔判別器２１を用いて顔検出を行う（Ｓ５５）。

顔検出部２は入力画像の全領域から探索が完了するまで上記Ｓ５２〜Ｓ５５の処理を繰り返す（Ｓ５６）。そして、顔検出部２は、第１の顔判別器２１あるいは第２の顔判別器２２により犬・猫の顔であると判定された探索領域の大きさ、座標を出力部３に出力する（Ｓ５７）。

したがって、第３実施形態に係る画像処理装置によれば、検出したいペットの顔の顔中心領域、顔全体領域のコントラストを比較し、コントラストのより高い領域を写した画像を教師画像として学習させた顔判別器、すなわち、ペットの顔の検出に適した判別器を用いて顔検出が行われるので、ペットの顔の検出精度を向上させることができる。

以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。上記実施形態は本発明の趣旨を逸脱しない範囲で様々な変更が可能であり、そのような変更例も本発明の技術的範囲に含まれる。

例えば、上記実施形態に係る画像処理装置の検出対象は犬・猫の顔であるが、検出対象はこれに限定されず、様々な動植物、工業製品等の様々な部位（全体含む）の検出に利用することが可能である。

また、上記実施形態では、登録画像あるいは探索領域のコントラストに基づき第１の顔判別器２１、第２の顔判別器２２のいずれを用いるかを決定しているが、ユーザーが適宜、いずれの判別器を用いるかを選択できるようにしてもよい。

また、上記実施形態では、コントラストの解析値として黒色の面積占有率を算出しているが、登録画像あるいは探索領域における輝度値の最大値と最小値に基づき、コントラストを直接算出するようにしてもよい。これにより、毛が黒いことによりコントラストが低い場合だけでなく、毛と目、鼻の色が近いことによりコントラストが低い場合（例えば毛、目、鼻がいずれもグレーの場合）にも上記顔判別器２１、２２の使い分けが可能になり、検出精度をさらに向上させることができる。

また、上記実施形態では、第２の顔判別器２２の学習に用いる教師画像の領域（顔全体領域）が第１の顔判別器２１の学習に用いる教師画像の領域（顔中心領域）を包含する関係にあるが、２つの領域は必ずしも包含する関係にある必要はない。例えば、第２の顔判別器２２の学習に用いる教師画像を顔の下半分領域を写した画像（口及び顎部の輪郭の画像）としてもよく、この場合、２つの顔判別器２１、２２の学習に用いる教師画像の領域は部分的に重なる関係となる。さらに、２つの顔判別器２１、２２の学習に用いる教師画像の領域が重なっていなくてもよく、２つの領域の大小関係が逆転しても構わない。

また、別の判別処理を追加することで、検出精度をさらに向上させることが可能である。この場合、顔判別器２１、２２を、顔の未検出を抑え、顔でない領域の過検出をある程度許容するようにし、過検出された顔でない領域を別の判別処理により除外するようにする。

顔判別器２１、２２をそのような検出特性とするには、顔判別器２１、２２を構成する識別器H_kの数を減らしたり（例えば２０個から１５個に変更）、識別器H_kの確信度C(k)を算出する際に用いる閾値Th_Tを小さな値に変更すればよい。

また、追加する別の判別処理としては、顔判別器２１、２２により顔と判定された領域の上部領域から耳を探索する処理を追加することができる。犬・猫の顔の場合、顔の上部領域に耳を有することが多いので、当該領域から耳が検出されたか否かにより、顔か否かをさらに絞り込むことができる。

この処理では、例えば、顔判別器２１、２２で顔と判定された領域の上部領域からHarrisの方法、SIFTによる特徴点の検出方法等を用いてコーナーを検出し、検出されたコーナーの角度が所定範囲（例えば20°〜80°）にあるときに耳の先端と判定する。そして、上部領域から耳の先端が検出されたか否かにより、顔判別器２１、２２で顔と判定された領域が顔であるか否かを再度判定する。

あるいは、別の判別処理としてコーナー特徴に基づき顔らしさのスコアを算出する処理を追加してもよい。この処理では、まず、顔判別器２１、２２で顔と判定された領域に含まれるコーナーを探索する。次に、眼、鼻に対応する領域（例えば、顔中央のＴ字型の領域）にコーナーが集中しやすいので、この領域に存在するコーナーの特徴量を重み付けし、コーナーの特徴量を合計することで顔らしさのスコアを算出する。そして、この顔らしさのスコアがしきい値よりも高いか否かにより、顔判別器２１、２２で顔と判定された領域が顔であるか否かを再度判定する。

また、上記画像処理装置は、デジタルカメラの他、デジタルビデオカメラ、電子内視鏡など、正しく作動するために電流または電磁界に依存する機器である電子機器に搭載することが可能である。

また、上記実施形態の説明では、画像処理装置が行う処理としてハードウェアによる処理を前提としていたが、このような構成に限定される必要はない。例えば、別途ソフトウェアにて処理する構成も可能である。

この場合、画像処理装置は、ＣＰＵ、ＲＡＭ等の主記憶装置、上記処理の全て或いは一部を実現させるためのプログラムが記憶されたコンピュータ読取り可能な記憶媒体を備える。ここでは、このプログラムを画像処理プログラムと呼ぶ。そして、ＣＰＵが上記記憶媒体に記憶されている画像処理プログラムを読み出して、情報の加工・演算処理を実行することにより、上記画像処理装置と同様の処理を実現させる。

ここで、コンピュータ読取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、この画像処理プログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該画像処理プログラムを実行するようにしても良い。

第１実施形態に係る画像処理装置の機能ブロック図である。第１の顔判別器２１の構成及びその処理内容を示した図である。矩形フィルタの例を示した図である。識別器H_kを生成する学習処理の詳細を示したフローチャートである。第１の顔判別器２１の学習に用いる教師画像の例を示した図である。第２の顔判別器２２の学習に用いる教師画像の例を示した図である。コントラスト解析部５の処理内容の詳細を示したフローチャートである。登録画像の一例を示した図である。顔検出部２の処理内容の詳細を示したフローチャートである。第２実施形態に係る画像処理装置の機能ブロック図である。顔検出部２の処理内容の詳細を示したフローチャートである。コントラスト解析部５の処理内容の詳細を示したフローチャートである。登録画像から検出された顔中心領域、顔全体領域の例を示した図である。顔検出部２の処理内容の詳細を示したフローチャートである。

符号の説明

２顔検出部（対象物検出部）
４画像登録部
５コントラスト解析部
２１第１の顔判別器（第１の判別器）
２２第２の顔判別器（第２の判別器）

Claims

画像から対象物を検出する画像処理装置であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、
前記対象物検出部は、
前記対象物のうち特定の対象物のコントラストに基づき、前記第１の判別器及び前記第２の判別器のうち前記特定の対象物の検出に適した判別器を選択し、
選択した判別器を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理装置。
前記特定の対象物の画像を登録する画像登録部と、
前記画像登録部に登録された画像に基づき前記特定の対象物のコントラストを解析するコントラスト解析部と、
を備えたことを特徴とする請求項１に記載の画像処理装置。
画像から対象物を検出する画像処理装置であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、
前記対象物検出部は、
前記画像の全部ないし一部を探索領域として抽出し、
前記探索領域のコントラストに基づき、前記第１の判別器及び前記第２の判別器のうち前記探索領域に含まれている可能性のある前記対象物の検出に適した判別器を選択し、
選択した判別器を用いて前記探索領域から前記対象物を検出する、
ことを特徴とする画像処理装置。
画像から対象物を検出する画像処理装置であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別器と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別器を有する対象物検出部を備え、
前記対象物検出部は、
前記対象物のうち特定の対象物の前記第１の領域のコントラストが前記第２の領域のコントラストよりも高いときは、前記第１の判別器を用いて前記画像から前記対象物を検出し、低いときは前記第２の判別器を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理装置。
前記特定の対象物の画像を登録する画像登録部と、
前記画像登録部に登録された画像に基づき前記特定の対象物の前記第１の領域及び前記第２の領域のコントラストを解析するコントラスト解析部と、
を備えたことを特徴とする請求項４に記載の画像処理装置。
前記第２の領域は前記第１の領域に含まれない前記対象物の特徴を含む領域であることを特徴とする請求項１から５のいずれか一つに記載の画像処理装置。
前記対象物は生物の顔であり、
前記第１の領域は前記顔にある感覚器官を含むが前記顔の輪郭を含まない領域であり、
前記第２の領域は前記顔の輪郭を含む領域である、
ことを特徴とする請求項６に記載の画像処理装置。
請求項１から７のいずれか一つに記載の画像処理装置を備えたことを特徴とする電子機器。
画像から対象物を検出する画像処理方法であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記対象物のうち特定の対象物のコントラストに基づき、前記第１の判別手順及び前記第２の判別手順のうち前記特定の対象物の検出に適した判別手順を選択し、
選択した判別手順を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理方法。
画像から対象物を検出する画像処理方法であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記画像の全部ないし一部を探索領域として抽出し、
前記探索領域のコントラストに基づき、前記第１の判別手順及び前記第２の判別手順のうち前記探索領域に含まれている可能性のある前記対象物の検出に適した判別手順を選択し、
選択した判別手順を用いて前記探索領域から前記対象物を検出する、
ことを特徴とする画像処理方法。
画像から対象物を検出する画像処理方法であって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記対象物のうち特定の対象物の前記第１の領域のコントラストが前記第２の領域のコントラストよりも高いときは、前記第１の判別手順を用いて前記画像から前記対象物を検出し、低いときは前記第２の判別手順を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理方法。
画像から対象物を検出する画像処理をコンピュータに実行させる画像処理プログラムであって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記対象物のうち特定の対象物のコントラストに基づき、前記第１の判別手順及び前記第２の判別手順のうち前記特定の対象物の検出に適した判別手順を選択し、
選択した判別手順を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理プログラム。
画像から対象物を検出する画像処理をコンピュータに実行させる画像処理プログラムであって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記画像の全部ないし一部を探索領域として抽出し、
前記探索領域のコントラストに基づき、前記第１の判別手順及び前記第２の判別手順のうち前記探索領域に含まれている可能性のある前記対象物の検出に適した判別手順を選択し、
選択した判別手順を用いて前記探索領域から前記対象物を検出する、
ことを特徴とする画像処理プログラム。
画像から対象物を検出する画像処理をコンピュータに実行させる画像処理プログラムであって、
前記対象物に含まれる第１の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第１の判別手順と、前記対象物に含まれる前記第１の領域と異なる第２の領域を写した複数枚の画像を教師画像として学習してその学習結果を用いて前記対象物の判別を行う第２の判別手順を有する対象物検出手順を備え、
前記対象物検出手順は、
前記対象物のうち特定の対象物の前記第１の領域のコントラストが前記第２の領域のコントラストよりも高いときは、前記第１の判別手順を用いて前記画像から前記対象物を検出し、低いときは前記第２の判別手順を用いて前記画像から前記対象物を検出する、
ことを特徴とする画像処理プログラム。