JP2010146395A

JP2010146395A - 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器

Info

Publication number: JP2010146395A
Application number: JP2008324407A
Authority: JP
Inventors: Shinichi Fukue; 信一福榮
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2008-12-19
Filing date: 2008-12-19
Publication date: 2010-07-01

Abstract

【課題】特殊な状況下でも画像中の注目対象を認識又は抽出できるようにする。
【解決手段】画像処理装置は、カスケード接続され、それぞれが画像の領域中に注目対象が含まれるか否かの評価を行う複数の識別器であって、ある一つの識別器が、前記領域中に前記注目対象が含まれると判定する場合に、次の識別器が前記評価を行う複数の識別器（H_k）と、注目対象を含む可能性がある候補領域に前記注目対象が含まれると判定する識別器の最大数を算出する計数部（１１）と、前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出部（１２）と、前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出部（１４）と、を備える。
【選択図】図１

Description

本発明は、画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器に関する。

従来、矩形情報を基にした複数の弱識別器の総和をAdaBoostにより統合して強識別器を作成し、強識別器をカスケード接続させて、画像中の注目対象として顔を認識する技術が提案されている（非特許文献１参照）。
P. Viola and M. Jones. "Rapid Object Detection Using a Boosted Cascade of Simple Features," in Proc. of CVPR, vol.1, ppp.511-518, December, 2001

しかし、この従来技術では、特殊な状況下では、画像中の顔（注目対象）を認識・抽出するのは難しい。例えば、顔の一部が隠れている場合や、顔が正面を向いていない場合に顔を認識して抽出することは難しい。又、人間以外の被写体（ペット等）の顔を認識して抽出するのは難しい。

本発明は、特殊な状況下でも、画像中の注目対象を認識又は抽出することを目的とする。

本発明のある態様に係る画像処理装置は、画像中から注目対象を含む注目対象領域を抽出する画像処理装置であって、カスケード接続され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別器であって、ある一つの識別器が、前記領域中に前記注目対象が含まれると判定する場合に、次の識別器が前記評価を行う複数の識別器と、前記複数の識別器のうち所定数以上の識別器において前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出部と、前記複数の識別器のうち前記候補領域に前記注目対象が含まれると判定する識別器の最大数を算出する計数部と、前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出部と、前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出部と、を備えることを特徴とする。

本発明の別の態様に係る画像処理方法は、画像中から注目対象を含む注目対象領域を抽出する画像処理方法であって、逐次的に実行され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別ステップであって、ある一つの識別ステップが、前記領域中に前記注目対象が含まれると判定する場合に、次の識別ステップが前記評価を行う複数の識別ステップと、前記複数の識別ステップのうち所定数以上の識別ステップにおいて前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出ステップと、前記複数の識別ステップのうち前記候補領域に前記注目対象が含まれると判定する識別ステップの最大数を算出する計数ステップと、前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出ステップと、前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出ステップと、を備えることを特徴とする。

本発明のさらに別の態様に係る画像処理プログラムは、画像中から注目対象を含む注目対象領域を抽出する画像処理プログラムであって、コンピュータに、逐次的に実行され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別手順であって、ある一つの識別手順が、前記領域中に前記注目対象が含まれると判定する場合に、次の識別手順が前記評価を行う複数の識別手順と、前記複数の識別手順のうち所定数以上の識別手順において前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出手順と、前記複数の識別手順のうち前記候補領域に前記注目対象が含まれると判定する識別手順の最大数を算出する計数手順と、前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出手順と、前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出手順と、を実行させることを特徴とする。

これら態様によれば、注目対象の一部が隠れている場合や注目対象が正面を向いていない場合でも、少なくとも上記の最大数と特徴量の２種類の基準により、注目対象に対応する画像領域を抽出することができる。さらに、例えば、部位の特徴に基づいて特徴量を計算するため、人間以外の被写体の顔に対応する領域も抽出することができる。

本発明によれば、特殊な状況下でも、画像中の注目対象を認識又は抽出することができる。

［第一実施形態］
図１を参照して、第一実施形態に係る画像処理装置について説明する。なお、画像処理装置は、電子機器に搭載される。特にデジタルカメラやデジタルビデオカメラ等の撮像装置（撮像用電子機器）に搭載されるものとして第一実施形態を説明する。しかし、本発明はこれに限定されることなく、適用可能である。

図１は、第一実施形態に係る画像処理装置を示す。画像取得部１、画像メモリ２、識別部３、候補領域抽出部１０、計数部１１、特徴量算出部１２、判定部１３、対象領域抽出部１４を備える。上記の各部（又はこれら全体）を、論理回路から構成してよい。或いは、上記の各部（又はこれら全体）を、データを格納するメモリ、演算プログラムを格納するメモリ、この演算プログラムを実行するＣＰＵ（中央演算処理装置）、入出力インターフェース等から構成してもよい。

画像取得部１は、画像を外部から取得する。撮像装置の場合、画像取得部１は、レンズからなる光学系、光学系を通過し結像する光を電気信号に変換する撮像素子（例えばＣＣＤ）、撮像素子で撮影した画像データをデジタル信号に変換する輝度信号生成部等からなる。画像メモリ（バッファメモリ）２は、画像取得部１からの画像データを一時的に記憶する。

識別部３は、画像メモリ２から入力した入力画像中における注目対象を識別又は検出する。ここで、注目対象とは、画像処理装置のユーザが着目する対象（オブジェクト）又は特徴部であり、例えば画像中に表わされた物体の全部又は部分であってよい。例えば、物体は生体であり、注目対象は、例えば顔、手などであるが、これに限定されるものではない。なお、本実施形態では、注目対象は人間の顔として説明するが、これに限定されるものではない。

識別部３は、複数の互いに異なる識別器H_k(k=1〜L)をカスケード接続（逐次的に接続）したものである。複数の識別器H_k(k=1〜L)はいずれも検出用画像が顔を含むか否かを判定する識別器である。例えば、複数の識別器の全個数Lは２５であるが(L=25)、これに限定されるものではない。検出する注目対象（オブジェクト）としての顔は、基本的には正面向きのものであるが、これに限定されず、特定の方向を向いた顔を検出する構成でもよい。

全体画像としての入力画像中における顔のサイズと位置は不明である。そのため、識別部３は、検出枠設定部４と、拡大縮小部５を有する。検出枠設定部４は、画像メモリ２から入力した入力画像における座標を順次ずらしながら入力画像全体から検出枠を切り出す。拡大縮小部５は、切り出した検出枠内の画像（ウィンドウ画像）を拡大又は縮小して検出用画像とする。各識別器H_k(k=1〜L)は検出用画像が顔画像に相当するか否か、即ち検出枠が顔を含むか否かを判定する。これにより、入力画像中で、種々の位置にある、種々のサイズの顔を識別することができる。なお、識別部３は、拡大又は縮小した入力画像から検出枠を切り出して検出用画像としてもよい。

ある一つの識別器が、検出用画像に顔が含まれると判定する場合に、次の識別器が検出用画像に顔が含まれるか否かの評価を順次行う。識別部３は、前段の識別器で検出用画像が顔を含むと判断されると、後段の識別器に検出用画像を入力する。途中の識別器で検出用画像が顔を含まないとの判定がなされると、直ちに処理を終了する。検出用画像が顔を含むと判定した識別器の数が多い方が、検出用画像が実際に顔を含む可能性が高くなる。各識別器H_kは、顔の特徴を表現する所定の特徴に基づいて、検出枠が顔を含むか否かを判定する。この所定の特徴は、Haar-like特徴に基づくものであるが、これに限定されるものではない。

本発明は、識別器H_kの構成によらず適用可能であり、識別器H_kをどのように構成にしてもよい。例えば、後述のように、識別器H_kは、それぞれ、AdaBoostを用いて複数の弱識別器を線形結合することによって構成してよい（非特許文献１参照）。また、例えば、識別器H_kは、顔画像のパターン認識（固有顔法など）により、検出用画像が顔を含むか否か判定するように構成にしてもよい。

候補領域抽出部１０は、複数の識別器H_k(k=1〜L)のうち一部の識別器H_k(k=1〜N)の全てが顔を含むと判定した検出用画像とその領域情報を識別部３から取得する。これにより、検出用画像の入力画像における領域が、顔を含む可能性がある顔候補領域（単に候補領域とも呼ぶ）として抽出される。領域情報は、例えば、検出枠設定部４から取得できる。

なお、一部の識別器H_kの数である所定数N は識別器の全個数Lより小さく（N<L)、例えば１５であるが（N=15）、これに限定されるものではない。識別器の所定数Nは、顔を含む可能性がある領域が可能な限り多く顔候補領域として抽出できる程度に、小さく設定される。且つ、顔が実際には含まれない領域が顔候補領域として抽出されることによる計算負荷が大きくならないように、所定数Nはある程度大きく設定される。

検出用画像は、前段の識別器で顔を含むと判定される場合に後段の識別器に送られるため、N番目の識別器H_Nで顔を含むと判定された検出用画像は、所定数Nの識別器H_k(k=1〜N)の全てで顔を含むと判定されている。このため、候補領域抽出部１０は、N番目の識別器H_Nで顔を含むと判定された検出用画像を検出して取得する。

識別器H_k(k=1〜N) で顔を含むと判定された検出用画像の領域情報は、例えば、画像メモリ２から入力した入力画像（全体画像）中におけるこの検出用画像の位置（例えば中心位置）とサイズである。検出枠が矩形の場合、検出用画像の領域情報としては、四隅の座標であってもよい。この位置とサイズから入力画像中において、所定数Nの識別器の全てで顔を含むと判定された検出用画像の領域範囲が特定でき、検出用画像の領域を顔候補領域として抽出できる。候補領域抽出部１０は、所定数の識別器H_k(k=1〜N) の全てで顔を含むと判定された検出用画像が複数ある場合、即ち入力画像から複数の顔候補の画像が検出された場合は、複数の検出用画像とその領域情報を識別部３から取得する。

計数部１１は、各顔候補領域Rj（j=1,2,・・・）に対して最大数Mを算出して、メモリに保存しておく。ここで、最大数Mは、顔候補領域に顔が含まれると判定する識別器の最大個数である。最大数Mと、候補領域抽出のための識別器数Nと、識別器の全個数Lとの間には、N≦M≦Lの関係が成立する。計数部１１は、顔候補領域に対応する検出用画像を識別器H_k(k=1〜L)の列に入力し、顔候補領域に顔が含まれると判定した識別器の個数を最大数Mとして算出することができる。また、計数部１１は、顔候補領域に対応する検出用画像を識別器H_k(k=1〜L)の列に再入力するよう、識別部３に指令して、最大数Mを求めることもできる。

このように、計数部１１は、全ての検出枠に対してではなく、抽出された顔候補領域に対してのみ最大数Mを算出してメモリに保存しておくので、最大数Mを保存するメモリの効率を向上できる。例えば、米国特許公報７０２０３３７や特開２００７−４７９７５のような技術では、全ての検出枠に対して何らかのスコアをメモリに保持しなければならず、計算コストが高くなる可能性がある。

特徴量算出部１２は、候補領域抽出部１０によって抽出された各顔候補領域Rjに対して、顔と異なる特徴（又は特徴部）に基づいて特徴量を算出する。特徴量算出部１２は、各識別器H_kが用いた所定の特徴のいずれとも異なる特徴に基づいて、スコアリング（得点付け）により特徴量を算出する。本実施形態において、この異なる特徴は、顔の器官等の顔の部位に関する形状又は模様の特徴であるが、他の特徴も使用できる。例えば、他の特徴として、顔に付随する物（眼鏡、頭髪等）の特徴などが挙げられる。特徴量算出部１２は、テンプレートマッチング等の検出手段により、顔候補領域及びその近傍に位置する近傍領域において、顔の部位（目、鼻、口、耳など）に関する特徴を検出する。テンプレートマッチングの場合、顔の部位の形状又は模様の特徴を示すテンプレートに対する類似性が強い画像領域を顔候補領域及び近傍領域において探索して検出する。

なお、顔候補領域と近傍領域を足したものを拡大領域と呼ぶ。特徴量算出部１２は、拡大領域の画像を画像メモリ２から読み込み、拡大領域において顔の部位に関する特徴を検出する。拡大領域は、例えば、顔候補領域を縦倍率a倍（例えば、２倍）、横倍率b倍（例えば、２倍）で拡大した領域である。顔候補領域のサイズが小さい場合に拡大領域が広くなるように、縦倍率a倍、横倍率b倍は、顔候補領域ごとに顔候補領域のサイズ（面積）に応じて設定してもよい。

ある顔の部位に関する幾何学的特徴が拡大領域で検出された場合に、特徴量算出部１２は、参照テーブル等からその顔の部位に対応する所定の数値を得点として取得する。参照テーブル等は、メモリに記憶されており、顔の部位ごとに所定の数値が予め定められている。特徴量算出部１２は、存在した全ての部位の得点を合計したものを顔候補の特徴量Fとして算出する。従って、特徴量Fは、顔の部位の特徴が含まれる程度を数値化した量となる。

ここで、顔候補領域の外部の近傍領域で検出されると予想される部位（例えば、耳）の得点は、顔候補領域の内部で検出されると予想される部位（例えば、目、鼻、口）の得点より小さくなるように、参照テーブルを作成してよい。或いは、近傍領域で検出された部位の得点が顔候補領域内で検出された部位の得点より小さくなるように、近傍領域に位置する部位に対して参照テーブルから取得した数値を減算又は除算して得点を求めてもよい。これにより、顔候補領域に存在するより重要な部位の影響を大きくして、顔候補領域が顔を含むか最終的に判定できる。

なお、検出手段がテンプレートマッチングの場合において、特徴量算出部１２は、検出した部位に対応する得点を、検出した部位の画像とテンプレートとの類似度に応じて与えることもできる。これにより、類似度が高いほど高得点化することができる。

対象領域抽出部１４は、判定部１３を備える。判定部１３は、計数部１１によって算出された最大数Mと、特徴量算出部１２によって算出された特徴量Fの両方を用いて、閾値処理等によって、各顔候補領域Rjが顔画像に対応するか最終的に判定する。即ち、判定部１３は、各顔候補領域Rjが顔（注目対象）を含むか否か最終的に判定することになる。簡単には、最大数Mと特徴量Fの合計SUを計算し（SU=M+F）、合計SUが閾値Tr以上である場合（SU≧Trの場合）に、顔候補領域が顔画像に対応すると判定する。サンプルの顔画像（一部が隠れた顔の画像など）に対して顔候補領域が顔画像に対応すると正しく判定できるよう、閾値Trは実験的に定められてよい。

対象領域抽出部１４は、候補領域抽出部１０で抽出された顔候補領域のうち、判定部１３で顔画像であると判定された全ての顔候補領域を、注目対象を含む注目対象領域として抽出する。これにより、対象領域抽出部１４は、最大数と特徴量に応じて、候補領域を注目対象領域として抽出する。さらに、対象領域抽出部１４は、注目対象領域の情報（入力画像全体における位置やサイズ等）を取得する。また、対象領域抽出部１４は、必要に応じて、判定部１３で顔画像であると判定された全ての顔候補領域に対する検出枠（顔候補領域の境界）を入力画像とともに図示しないモニターに表示することもできる。

図２は、第１実施形態に係る画像処理装置が実行する画像処理の流れを示すフローチャートである。

ステップＳ１において、画像メモリ２から入力した入力画像中における顔候補領域を抽出して、顔候補領域の画像データを取得する。また、顔候補領域の領域情報として、入力画像中における顔候補領域の位置（例えば、中心位置）とサイズ（面積）等が取得される。

ステップＳ２において、複数の識別器H_k(k=1〜L)のうちで顔候補領域に顔が含まれると判定する識別器の最大個数を最大数Mとして算出する。

ステップＳ３において、顔候補領域に対して、識別器H_kが用いた特徴と異なる特徴（注目対象と異なる特徴）に基づいて特徴量Fを算出する。

ステップＳ４において、最大数Mと特徴量Fに基づいて、顔候補領域が顔画像に相当するか判定する。

ステップＳ５において、顔候補領域のうち、ステップＳ４で顔画像に相当すると判定された全ての領域を注目対象領域（顔の領域）として抽出する。

図３のフローチャートは、ステップＳ１（顔候補領域抽出）のサブルーチンの一例を示す。

ステップＳ１１において、取得した画像が入力される。

ステップＳ１２において、入力画像に対して検出枠が操作される。

ステップＳ１３において、検出枠を拡大又は縮小して、検出用画像を作成する。

ステップＳ１４において、複数の識別器H_k(k=1〜L)のうちの第一段目の識別器H₁に検出用画像を入力する。所定数N以上の識別器で顔を含むと判定された検出用画像の入力画像中における範囲を顔候補領域として抽出する。

図４のフローチャートは、ステップＳ３（特徴量算出）のサブルーチンの一例を示す。

ステップＳ２１において、顔候補領域とその近傍領域からなる拡大領域の画像を画像メモリ２から読み込む。

ステップＳ２２において、拡大領域の画像から顔の器官（目、鼻、口、耳など）を検出する。

ステップＳ２３において、検出した顔の器官に応じてスコアリング（得点付け）する。検出した顔の器官に応じた得点を合計することにより、特徴量Fを算出する。

図５−図１５の具体例を用いて、第一実施形態を説明する。

図５は、画像メモリ２から入力した入力画像を示す。入力画像において、右側の三つの顔は一部が隠れている。非特許文献１の従来技術の識別装置（例えば、２５個の識別器からなる）をこの入力画像に対してそのまま適用すると、図６のように、右側の三つの顔は認識・抽出できない。従来技術では、最も左側の隠れていない顔だけが認識・抽出され、特殊な状況下ですべての顔を適切に抽出することは困難な場合がある。

図７のように、本実施形態では、候補領域抽出部１０は、２５個の識別器H_k(k=1〜25)のうち１５個の識別器H_k(k=1〜15)で顔を含むと判定した画像領域を顔候補領域として抽出する。抽出に用いる識別器の数が１５個に低下しているため、図６よりも多く顔候補領域が抽出されている。図７では、実際に顔に対応する領域がすべて顔候補領域Rjとして抽出されている他、実際には顔の領域ではない背景の一部も顔候補領域として抽出されている。顔候補領域Rj（j=1,2,・・,7）のうち、実際に顔に対応する顔候補領域は、下部に位置する４つ（R1,R2,R3,R4）であり、実際には顔の領域ではない顔候補領域は上部に位置する３つ（R5,R6,R7）である。

図８において、計数部１１は、第ｊ番目の顔候補領域Rjが顔を含むと判定した識別器の全数を、顔候補領域Rjに関する最大数Mjとして算出している。最大数M1は２５、最大数M2は１７、最大数M3は１９、最大数M4は１８、最大数M5は１７、最大数M6は１５、最大数M7は２１である。

図９は、特徴量算出部１２が、顔候補領域Rjを拡大して拡大領域Rj'を設定する様子を示す。図９の左図のように、入力画像中で、顔候補領域Rjの幅はｘピクセル、長さはｙピクセルとする。図９の右図のように、顔候補領域を横にａ倍、縦にｂ倍だけ拡大して拡大領域Rj'を設定する。入力画像中で、拡大領域の幅はaｘピクセル、長さはbｙピクセルとなる。なお、耳は顔候補領域の内部に存在しないが、近傍領域には存在しているので、耳が含まれるように拡大領域を設定している。拡大領域Rj'からそれぞれ顔候補領域Rjを除いたものが、近傍領域（周辺領域）Rj"となる。

図１０は、それぞれの顔候補領域Rj（j=1,2,・・,7）を拡大して作成した拡大領域Rj'（j=1,2,・・,7）を示す。

図１１は、テンプレートマッチングで検出された顔の部位に対応する得点を例示する。図１１では、検出された右目、左目、鼻、口が顔候補領域の内部に位置し、それぞれに対して、５点、５点、４点、５点の得点が付与されている。一方、検出された右耳と左耳は、近傍領域に位置し、それぞれに対して、３点の得点が付与されている。なお、顔候補領域に位置する部位の得点は、近傍領域に位置する部位の得点より高く設定している。

図１２は、各顔候補領域で、顔の部位がどのように検出されているかを示す。図１２において、顔候補領域R1で、右目、左目、鼻、口が正しく検出されている。顔候補領域R2で、鼻と口が正しく検出されている。顔候補領域R3で、鼻と口が正しく検出されている。顔候補領域R4で、右目と左目が正しく検出されている。顔候補領域R5では、鼻が誤って検出されている。顔候補領域R6では、口が誤って検出されている。顔候補領域R7では何も検出されていない。

図１３は、各近傍領域で、顔の部位がどのように検出されているかを示す。図１３において、近傍領域R1"で、右耳と左耳が正しく検出されている。近傍領域R2"では、何も検出されていない。近傍領域R3"で、右耳と左耳が正しく検出されている。近傍領域R4"で、右耳と左耳が正しく検出されている。近傍領域R5"で、何も検出されていない。近傍領域R6"では、何も検出されていない。近傍領域R7"では、左耳が誤って検出されている。

図１４は、各顔候補領域に関する得点の合計を示す。顔候補領域R1とその近傍領域R1"で、右目、左目、鼻、口、右耳、左耳が検出されているので、顔候補領域R1に関する特徴量F1は、２５（=5+5+4+5+3+3）となる。顔候補領域R2とその近傍領域R2"で、鼻と口が検出されているので、顔候補領域R2に関する特徴量F2は、９（=4+5）となる。顔候補領域R3とその近傍領域R3"で、鼻、口、右耳、左耳が検出されているので、顔候補領域R3に関する特徴量F3は、１５（=4+5+3+3）となる。顔候補領域R4とその近傍領域R4"で、右目、左目、右耳、左耳が検出されているので、顔候補領域R4に関する特徴量F4は、１６（=5+5+3+3）となる。顔候補領域R5とその近傍領域R5"で、鼻が誤って検出されているので、顔候補領域R5に関する特徴量F5は、４となる。顔候補領域R6とその近傍領域R6"で、口が誤って検出されているので、顔候補領域R6に関する特徴量F6は、５となる。顔候補領域R7とその近傍領域R7"で、左耳が誤って検出されているので、顔候補領域R7に関する特徴量F7は、３となる。

図１５は、各顔候補領域で、最大数Mと特徴量Fとの和SUを示す。顔候補領域R1、R2、R3、R4、R5、R6、R7に関して和SUは、それぞれ５０、２６、３４、３４、２１、２０、２４である。仮に閾値Trが２５に設定されていれば、和SU（=M+F）が閾値Tr以上である顔候補領域R1、R2、R3、R4が顔画像に相当すると最終的に正しく判定され抽出される。

なお、第一実施形態において、拡大領域内の部位に対して得点を与えその得点を合計して特徴量Fを求めたが、顔候補領域内の部位に対してのみ得点を与えて、この得点を合計して特徴量Fを求めてもよい。

次に、第一実施形態の作用、効果を説明する。

第一実施形態において、注目対象（顔）を含む可能性がある候補領域が抽出され、候補領域に注目対象が含まれると判定する識別器の最大数が算出される。候補領域に対して、注目対象とは異なる画像の特徴に基づく特徴量が算出される。このような最大数と特徴量に応じて、候補領域が注目対象領域として抽出される。これにより、注目対象の一部が隠れている場合でも、最大数と特徴量の２種類の基準により、注目対象に対応する画像領域を抽出することができる。

少なくとも候補領域の内部の部位ごとに得点が計算され、この得点を用いて特徴量が計算される。部位ごとに得点を付与するため、注目対象（顔）の一部が隠れている場合でも、隠れていない部位について得点が計算される。従って、隠れていない部位の特徴に基づいて特徴量が計算されるので、注目対象の一部が隠れている場合でも、注目対象に対応する画像領域を正確に検出することができる。

また、人間以外の被写体（ペット等）の顔の部位の特徴に基づいて特徴量を計算すれば、人間以外の被写体の顔に対応する画像領域も検出することができる。

また、候補領域を拡大した拡大領域において部位ごとに得点を付与するため、候補領域の近傍領域に位置する部位も考慮して、特徴量が計算できる。さらに、候補領域の内部で得点を高く設定し、候補領域の外部で得点を低く設定するため、候補領域に存在するより重要な部位の影響を大きくして特徴量が計算でき、注目対象に対応する画像領域を正確に検出することができる。

［第二実施形態］
図１６を参照して、第二実施形態を説明する。第二実施形態では、複数の弱識別器を線形結合することにより各識別器H_kを構成する例を説明する。各識別器H_kは、複数の弱識別器h_tを有し、複数の弱識別器の重み付き多数決によって識別を行う強識別器である。

弱識別器h_t(t=1〜T)は、黒矩形と白矩形からなる矩形フィルタ（Haar-like特徴を表すフィルタ）と閾値の組である。弱識別器は、矩形フィルタを検出用画像に重ね合わせ、黒矩形に対応する領域内の輝度値の和と白矩形に対応する領域内の輝度値の和との差分が閾値よりも大きいか判定する。そして、弱識別器は、差分が閾値よりも大きいときは検出用画像が顔候補であることを示す1、差分が閾値よりも小さいときは検出用画像が顔候補でないことを示す0を出力する。弱識別器h_tは、検出用画像Ｘに対して値h_t(X)(=0または１）を出力する関数である。なお、各識別器内の弱識別器h_tは、学習用画像（注目対象を含む画像と含まない画像）を用いたAdaBoostの学習手法により予め選定されている。また、K番目の識別器H_kでは、前段までの識別器H₁・・・H_k-1で顔を含むと判定された画像を新たな学習用画像にするなどして、弱識別器を選定して作成してよい。

識別器H_kは、ある検出用画像Ｘに対して、各弱識別器h_tの出力にその弱識別器の信頼度α_tを掛けた値の総和を算出し、その総和から所定の閾値Th_Tを減じて判定値C(k)を算出する（式（１））。

ここで、判定値C(k)は検出用画像が顔候補であるか判定するために用いる値である。そして、識別器H_kは、判定値C(k)の符号を判定し、符号が正の場合は検出用画像が顔を含むと判定し、符号が負の場合は検出用画像が顔を含まないと判定する。

次に、第二実施形態の作用、効果を説明する。

識別器のうちの少なくとも一つは、複数の弱識別器からなり複数の弱識別器の重み付き多数決によって識別を行うような強識別器を含む。このため、学習により弱識別器を選択し、識別器を、複数の弱識別器の重み付き多数決によって識別を行う強識別器として作成できる。これにより、識別器の識別演算が高速かつ正確に行える。

［第三実施形態］
図１７を参照して、第三実施形態を説明する。第三実施形態では、第一実施形態と異なる判定部１３を用いる。他の構成は、第一実施形態と同じである。

判定部１３は、計数部１１によって算出された最大数Mに基づいて第一スコアSC1を算出する第一スコア算出部１３ａを備える。判定部１３は、また、特徴量算出部１２によって算出された特徴量Fに基づいて第二スコアSC2を算出する第二スコア算出部１３ｂを備える。さらに、判定部１３は、第一スコアSC1と第二スコアSC2を用いて、識別スコアSCを算出する識別スコア算出部１３ｃを備える。判定部１３は、識別スコアSCと閾値Thrを比較する比較部１３ｄも備える。

第1スコアSC1は、全識別器数L、最大数M、重みαとして、α(M/L)で与えられる（SC1=αM/L)。識別スコアSCを小数ベースにする場合、αの値は0.5や1.0などの値であり、識別スコアSCを整数ベースにする場合、αの値は全識別器数Lの倍数である。第2スコアSC2は、特徴量F、重みβとして、βFで与えられる（SC2=βF）。βの値は、Fの決め方や、SC1の最大値に依存する。SC1とSC2の重みを等しくしたい場合には、SC1とSC2の最大値が等しくなるように、βの値は設定される。また、抽出すべき注目対象の種類に応じて、最大数と特徴量の重みを変えることもできる。全体より部位に特徴がある注目対象であれば、特徴量Fの重みβを増加すればよい。

識別スコア算出部１３ｃは、第一スコアSC1と第二スコアSC2を足し合わせることによって、識別スコアSCを算出する（SC=SC1+SC2=αM/L+βF）。比較部１３ｄは、識別スコアSCと閾値Thrを比較し、識別スコアSCが閾値以上である場合（SC≧Thrの場合）に、顔候補領域が顔画像に相当すると判定する。識別スコアSCが閾値未満である場合（SC＜Thrの場合）に、顔候補領域が顔画像に相当しないと判定する。

なお、αをLに、βを１に設定すると、識別スコアSCは最大数Mと特徴量Fとの和SUに等しくなり、識別スコアSCを求める演算が簡単になる。

図１８のフローチャートは、第三実施形態に係るステップＳ４（注目対象判定）のサブルーチンの一例を示す。

ステップＳ３１において、ｊを初期値の１に設定する。

ステップＳ３２において、第ｊ番目の候補領域Rjに対して、最大数Mと特徴量Fを読み込む。

ステップＳ３３において、最大数Mから第一スコアSC1を計算する。特徴量Fから第二スコアSC2を計算する。

ステップＳ３４において、第一スコアSC1と第二スコアSC2に基づいて識別スコアSCを計算する。

ステップＳ３５において、識別スコアSCを閾値Thrと比較する。識別スコアSCが閾値以上である場合（SC≧Thrの場合）に、ステップＳ３６において、第ｊ番目の候補領域Rjが顔画像に相当すると判定する。識別スコアSCが閾値未満である場合（SC<Thrの場合）に、ステップＳ３７において、第ｊ番目の候補領域Rjが顔画像に相当しないと判定する。

ステップＳ３８において、すべての候補領域に対して判定が終了したか否か判断する。すべての候補領域に対して判定が終了していない場合、ステップＳ３９において、ｊを１だけ増加し、ステップＳ３２で次の候補領域について、最大数Mと特徴量Fを読み込む。

次に、第三実施形態の作用、効果を説明する。

最大数に応じた第一スコアが算出され、特徴量に応じた第二スコアが算出され、第一スコアと第二スコアに基づいて、識別スコアが算出される。このため、抽出すべき注目対象の種類に応じて、最大数と特徴量の重みを変えて、候補領域が注目対象を含むか否か適切に判定できる。また、最大数と特徴量の重みを等しくして、識別スコアを求めることもできる。

［第四実施形態］
図１９を用いて、第四実施形態を説明する。以下、第一実施形態と異なる点についてのみ説明する。

第四実施形態では、横顔を検出できるように、識別部３は、顔の各角度用の識別器の列（H₁(θ)〜H_L(θ))を有する。画像は、画像メモリから各識別器列（H₁(θ)〜H_L(θ))に並列的に入力される。例えば、顔の角度θは10°ごとに定められる。顔が正面を向いている場合、θは0°である。図１９は、θ=-90°（左横顔）、θ=0°（正面）、θ=90°（右横顔）の場合を図示する。

候補領域抽出部１０は、各識別器列に対して、一部の識別器H_k(θ) (k=1〜N)の全てで顔を含むと判定された検出用画像とその領域情報を識別部３から取得することにより、顔候補領域を抽出する。

計数部１１は、各識別器列に対して、顔候補領域の最大数Mを算出する。

特徴量算出部１２は、抽出された顔候補領域に対して特徴量を算出する。特徴量は、顔の角度θごとの顔の部位に関する形状又は模様の特徴から算出される。

第四実施形態の作用、効果を説明すると、顔の向きごとに識別器を設けたため、特定の方向を向いている場合だけでなく、様々な方向を向いている場合でも顔（注目対象）を検出できる。

［その他の実施形態］
上述した各実施形態の説明では、画像処理装置が行う処理としてハードウェアによる処理を前提としていたが、このような構成に限定される必要はない。例えば、別途ソフトウェアにて処理する構成も可能である。この場合、画像処理装置は、ＣＰＵ、ＲＡＭ等の主記憶装置、上記処理の全て或いは一部を実現させるためのプログラムが記憶されたコンピュータ読み取り可能な記憶媒体を備えている。ここでは、このプログラムを画像処理プログラムと呼ぶ。そして、ＣＰＵが上記記憶媒体に記憶されている画像処理プログラムを読み出して、情報の加工・演算処理を実行することにより、上述の処理を実現させる。

ここで、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、この画像処理プログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該画像処理プログラムを実行するようにしても良い。

本発明は上記の実施形態に限定されずに、その技術的な思想の範囲内において種々の変更がなしうることは明白である。

第一実施形態に係る画像処理装置を示す概略構成図である。第一実施形態に係る画像処理装置が実行する画像処理の流れを示すフローチャートである。顔候補領域抽出のサブルーチンを例示するフローチャートである。特徴量算出のサブルーチンを例示するフローチャートである。入力画像を例示する図である。従来技術の顔認識を示す図である。顔候補領域の抽出を例示する図である。顔候補領域に注目対象が含まれると判定する識別器の最大数を例示する図である。顔候補領域を拡大した拡大領域を作成する方法の一例を示す図である。顔候補領域を拡大した拡大領域を例示する図である。検出された顔の部位に対応する得点を例示する図である。各顔候補領域の内部で、顔の部位がどのように検出されているかを示す図である。顔候補領域の近傍領域で、顔の部位がどのように検出されているかを示す図である。各顔候補領域に関する合計得点を例示する図である。各顔候補領域に関する特徴量を例示する図である。第二実施形態に係る識別器を示す概略構成図である。第三実施形態に係る判定部を示す概略構成図である。第三実施形態に係る注目対象判定を示すフローチャートである。第四実施形態に係る画像処理装置を示す概略構成図である。

符号の説明

１画像取得部
２画像メモリ
３識別部
４検出枠設定部
５拡大縮小部
１０候補領域抽出部
１１計数部
１２特徴量算出部
１３判定部
１４対象領域抽出部
Ｈｋ識別器

Claims

画像中から注目対象を含む注目対象領域を抽出する画像処理装置であって、
カスケード接続され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別器であって、ある一つの識別器が、前記領域中に前記注目対象が含まれると判定する場合に、次の識別器が前記評価を行う複数の識別器と、
前記複数の識別器のうち所定数以上の識別器において前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出部と、
前記複数の識別器のうち前記候補領域に前記注目対象が含まれると判定する識別器の最大数を算出する計数部と、
前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出部と、
前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出部と、
を備えることを特徴とする画像処理装置。
前記対象領域抽出部が、前記最大数と前記特徴量に応じて、前記候補領域が前記注目対象を含むか否かを最終的に判定する判定部を備え、
前記対象領域抽出部が、前記判定部によって最終的に前記注目対象を含むと判定された前記候補領域を、前記注目対象領域として抽出することを特徴とする、請求項１に記載の画像処理装置。
前記判定部が、
前記最大数に応じた第一スコアを算出する第一スコア算出部と、
前記特徴量に応じた第二スコアを算出する第二スコア算出部と、
前記第一スコアと前記第二スコアに基づいて、識別スコアを算出する識別スコア算出部と、
前記識別スコアが閾値以上である場合に、前記候補領域が前記注目対象を含むと判定する比較部と、
を備えることを特徴とする、請求項２に記載の画像処理装置。
前記識別スコア算出部が、前記第一スコアと前記第二スコアの合計を、前記識別スコアとして算出することを特徴とする、請求項３に記載の画像処理装置。
前記特徴量算出部は、前記異なる画像の特徴に基づいて少なくとも前記候補領域の内部の部位ごとに得点を付与し、前記得点を用いて前記特徴量を計算することを特徴とする、請求項１に記載の画像処理装置。
前記特徴量算出部は、前記異なる画像の特徴に基づいて前記候補領域を拡大した拡大領域における部位ごとに得点を付与し、前記得点を用いて前記特徴量を計算することを特徴とする、請求項１に記載の画像処理装置。
前記特徴量算出部は、前記候補領域の内部で得点を高く設定し、前記候補領域の外部で得点を低く設定することを特徴とする、請求項６に記載の画像処理装置。
前記識別器のうちの少なくとも一つは、複数の弱識別器からなり前記複数の弱識別器の重み付き多数決によって識別を行う強識別器を含むことを特徴とする、請求項１に記載の画像処理装置。
請求項１から請求項８のいずれか一つに記載の画像処理装置を備えることを特徴とする電子機器。
画像中から注目対象を含む注目対象領域を抽出する画像処理方法であって、
逐次的に実行され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別ステップであって、ある一つの識別ステップが、前記領域中に前記注目対象が含まれると判定する場合に、次の識別ステップが前記評価を行う複数の識別ステップと、
前記複数の識別ステップのうち所定数以上の識別ステップにおいて前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出ステップと、
前記複数の識別ステップのうち前記候補領域に前記注目対象が含まれると判定する識別ステップの最大数を算出する計数ステップと、
前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出ステップと、
前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出ステップと、
を備えることを特徴とする画像処理方法。
画像中から注目対象を含む注目対象領域を抽出する画像処理プログラムであって、
コンピュータに、
逐次的に実行され、それぞれが前記画像の領域中に前記注目対象が含まれるか否かの評価を行う複数の識別手順であって、ある一つの識別手順が、前記領域中に前記注目対象が含まれると判定する場合に、次の識別手順が前記評価を行う複数の識別手順と、
前記複数の識別手順のうち所定数以上の識別手順において前記注目対象が含まれると判定された前記領域を、前記注目対象を含む可能性がある候補領域として抽出する候補領域抽出手順と、
前記複数の識別手順のうち前記候補領域に前記注目対象が含まれると判定する識別手順の最大数を算出する計数手順と、
前記候補領域に対して、前記注目対象と異なる前記画像の特徴に基づく特徴量を算出する特徴量算出手順と、
前記最大数と前記特徴量に応じて、前記候補領域を前記注目対象領域として抽出する対象領域抽出手順と、
を実行させることを特徴とする画像処理プログラム。