JP2005115544A

JP2005115544A - 動作識別装置、及び対象物の姿勢識別装置

Info

Publication number: JP2005115544A
Application number: JP2003347146A
Authority: JP
Inventors: Masahiro Maeda; 正浩前田; Sukeji Kato; 典司加藤; Hitoshi Ikeda; 仁池田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-10-06
Filing date: 2003-10-06
Publication date: 2005-04-28
Anticipated expiration: 2023-10-06
Also published as: US7813533B2; JP4470434B2; US20050074167A1

Abstract

【課題】処理負荷の増大を抑えながら認識精度を向上できる認識装置を提供する。
【解決手段】人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識装置であって、これら一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定し、この特定した画像領域に基づいて定められる領域内での対象固有の色、又は動領域の検出処理の結果がさらに顔部分を含む画像領域を特定する処理に供される。
【選択図】図１

Description

本発明は、人物の顔等、対象物の所定部分に関する情報を出力する認識装置に関する。

画像データ中から、人物の顔など対象物の所定部分を認識する処理が、従来からさまざまに考えられている。例えば、特許文献１に開示されている装置では、動領域検出と、肌色検出とを組み合せた顔部分の検出処理の例が開示されている。
特開２０００-１０５８１９公報

しかしながら、肌色部分を用いた顔の検出を行う場合には、肌の色の個体差や、照明条件による変動、背景に肌色と略同色の領域があることなど、さまざまな要因による影響に配慮しなければならない。具体的には、個体差による肌色の相違を考えれば、肌色とみなす色の範囲を広くする必要があるが、これを広くすると、今度は背景内から同色の領域が誤って見いだされる確率が高くなってしまうなど、単に肌色等、対象物の色を利用するだけでは、認識精度の向上が困難であるという問題点があった。

また動領域検出は、負荷の大きい処理であり、画像データの全体に対してこれを行う場合は、処理負荷が大きくなってしまう。

本発明は、上記実情に鑑みて為されたもので、処理負荷の増大を抑えながら認識精度を向上できる認識装置を提供することを、その目的の一つとする。

上記従来例の問題点を解決するための本発明は、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識装置であって、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定手段と、前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する手段と、前記取得した肌色情報を記憶する記憶手段と、を含み、前記顔部分特定手段が、前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴としている。

また、上記従来例の問題点を解決するための本発明は、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識装置であって、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定手段と、過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手段と、前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する顔部分領域推定手段と、を含むことを特徴としている。

ここで、さらに、前記顔部分特定手段によって特定された画像領域内の画素値から、当該人物に固有の肌色情報を取得する手段と、前記取得した肌色情報を記憶する記憶手段と、を含み、前記顔部分特定手段が、前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することとしてもよい。

さらに、前記顔部分特定手段は、肌色情報を用いない第１の認識方法によって、前記顔部分を含む画像領域を特定できないときに、前記肌色情報を用いた第２の認識方法によって、前記顔部分を含む画像領域を特定することとしてもよい。

上記従来例の問題点を解決するための本発明は、一連の画像データを取得し、各画像データに撮像された対象物を認識する認識装置であって、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、前記対象物を含む画像領域を特定する対象物部分特定手段と、前記特定した画像領域内の画素値から、当該対象物に固有の色情報を取得する手段と、前記取得した色情報を記憶する記憶手段と、を含み、前記対象物部分特定手段が、前記記憶されている、過去に注目画像データとなった画像データに係る色情報を、現在の注目画像データにおける、前記対象物の部分を含む画像領域の特定の処理に供することを特徴としている。

また、上記従来例の問題点を解決するための本発明は、一連の画像データを取得し、各画像データに撮像された対象物を認識する認識装置であって、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、前記対象物を含む画像領域を特定する対象物部分特定手段と、過去に注目画像データとなった画像データにおいて、前記特定された対象物の部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手段と、前記検出された移動状態に基づき、現在の注目画像データ内での前記対象物の部分を含む画像領域を推定する対象物部分領域推定手段と、を含むことを特徴としている。

さらに、本発明の一態様に係る方法は、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識方法であって、コンピュータを用い、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する工程と、前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する工程と、前記取得した肌色情報を、記憶手段に格納する工程と、を処理し、前記顔部分を特定する工程にて、前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴としている。

また、本発明の一態様に係る方法は、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識方法であって、コンピュータを用い、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定工程と、過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する工程と、前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する工程と、を実行することを特徴としている。

さらに、本発明の別の態様に係るプログラムは、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識プログラムであって、コンピュータに、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する手順と、前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する手順と、前記取得した肌色情報を、記憶手段に格納する手順と、を実行させ、前記顔部分を特定する手順にて、前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴としている。

さらに、本発明の別の態様に係るプログラムは、人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識プログラムであって、コンピュータに、前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する手順と、過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手順と、前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する手順と、を実行させることを特徴としている。

［第１実施形態］
本発明の第１の実施の形態について図面を参照しながら説明する。本実施の形態に係る動作識別装置は、図１に示すように、制御部１１と、記憶部１２と、入出力インタフェース１３と、表示部１４と、を含んで構成されている。

制御部１１は、記憶部１２に格納されているプログラムに従って動作しており、外部から取得した画像データから顔の部分の画像を特定する処理（顔特定処理）を基本的に実行している。これらの処理の具体的内容については、後に述べる。

記憶部１２は、制御部１１によって実行されるプログラムを格納する、コンピュータ可読な記録媒体である。またこの記憶部１２は、制御部１１の処理の過程で必要となる種々のデータを記憶するワークメモリとしても動作する。入出力インタフェース１３は、例えばカメラ装置などの外部装置に接続され、当該外部装置から画像データを連続的に取得して制御部１１に出力する。またこの入出力インタフェース１３は、制御部１１から入力される指示に従って、種々のデータを外部装置に出力する。表示部１４は、例えばディスプレイ等であり、制御部１１から入力される指示に従って情報の表示を行う。

制御部１１によって実行されるプログラムは、機能的には図２に示すように、画像変換部２１と、第１顔特定処理部２２と、肌色抽出部２３と、記憶処理部２４と、第２顔特定処理部２５とを含んで構成される。画像変換部２１は、入出力インタフェース１３を介して取得され、処理対象となる一連の画像データを、それぞれグレイスケールの画像データ（グレイスケールデータ）に変換して、第１顔特定処理部２２に出力する。またこの画像変換部２１は、上記処理対象となる画像データのそれぞれを、肌色抽出部２３と第２顔特定処理部２５とに出力する。

第１顔特定処理部２２は、肌色情報など、色に関する情報を用いない第１の認識方法によって、顔部分を含む画像領域を特定する処理を行うものであり、ここでは具体的に画像変換部２１から入力されるグレイスケールデータから、顔の部分を特定する処理を行う。この第１顔特定処理部２２は後に説明するように、予め学習獲得されたデータに基づいて画像データ中の顔部分を認識することとすればよい。また、この第１顔特定処理部２２は、顔の位置だけでなく、顔の向き（３次元的向き）や大きさを特定可能なものであってもよい（このような顔特定処理についても後に述べる）。

肌色抽出部２３は、画像変換部２１から入力される画像データのうち、第１顔特定処理部２２が特定した顔の部分に対応する領域の部分画像を取り出し、当該部分画像の平均色情報を演算して肌色情報として出力する。具体的には、第１顔特定処理部２２が出力する領域情報によって画定される領域に含まれる画素について、当該画素値のヒストグラムを肌色情報として出力する。この肌色情報は、第１顔特定処理部２２によって特定された顔部分の色（すなわち顔の肌の色）のヒストグラムとなるものであり、いわば当該人物に固有の肌色の情報である。本実施の形態の装置は、この対象に固有の肌色を抽出し、それを利用して顔部分をさらに特定する。記憶処理部２４は、肌色抽出部２３が出力する肌色情報を、記憶部１２に格納する。

第２顔特定処理部２５は、記憶部１２に格納された肌色情報を用いて、別途指定された探索領域を起点（初期値）として肌色の部分を探索する。本実施の形態では、この第２顔特定処理部２５は、探索領域の起点として、直前に入力された画像データ内で特定された顔部分を含む画像領域を用いてもよい。

具体的に、この第２顔特定処理部２５は、当該探索領域内の各画素の画素値と、記憶部１２に格納されている肌色情報とを用いて、画像データのうちの探索領域に含まれる部分から、当該記憶部１２に格納されている肌色情報によって特定される色（以下、対象固有色と呼ぶ）の部分の重心を求め、当該重心を中心として、新たな探索領域を画定する。この探索領域は、探索開始領域と同じサイズ、形状の領域とすればよい。

以下、同様にして新たに画定した探索領域内で、対象固有色の部分の重心を求める処理と探索領域を移動する処理とを、新たに求めた重心と前回求めた重心との距離が所定値以下になるまで（探索領域が収束するまで）繰り返し行う。なお、予め定めた繰り返し回数内に収束しない場合には、顔部分が検出されなかったと判断して処理の繰り返しを終了してもよい。

探索領域が収束すると、第２顔特定処理部２５は当該収束後の探索領域を顔部分を含む画像領域として特定する。

なお色の重心は、例えば次のように演算できる。すなわち、探索領域内の各画素値と対象固有色との差（画素値が３つの成分を有している場合は、各成分の差の二乗和の平方根などを用いればよい）を演算しておき、所定の位置（例えば探索領域の中心）から各画素までのベクトルと、当該画素の値と上記対象固有色との差との積を演算し、この積の結果としてられるベクトルの総和をさらに演算する。この総和によって得られたベクトルが表す、上記所定の位置からの変位を色の重心とする。

ここで、第１顔特定処理部２２の動作について説明する。第１顔特定処理部２２は、例えば人物の顔を学習した第１学習データベースを用い、画像データ中から人物の顔に相当する部分を抽出するものであればよい。この際、正立かつ正面向きの顔の画像（正規画像）と、当該正規画像から、顔を右向き及び左向きにそれぞれ所定角度だけ回転させた複数の顔画像を用意して、これらを学習処理した第２学習データベースを予め生成しておき、顔部分の候補となる領域を、当該領域内の画素値に基づく特徴量（例えばエントロピーなど）を用いる等の所定の方法で特定し、第２学習データベースを用いて、当該顔部分の候補となる領域内の画像を正規画像に近接するよう変換し（正規化）、第１学習データベース内の情報を用いて、当該正規化後の領域内の画像のデータが、人物の顔を表す画像であるか否かを判断するようにしてもよい。これによると、正規化の処理の過程で回転角が判別できることになるので、正規化の処理により迅速に顔であるか否かが判別できるようになるとともに、当該過程で得られた回転角を出力することで、上述のように顔の向きを利用した処理に供することができるようになる。

本実施の形態の認識装置は、上記のような構成を有してなり、次のように動作する。カメラ等の外部装置が撮像した一連の画像データが時系列順に、入出力インタフェース１３を介して本実施の形態の認識装置に入力されると、制御部１１が、記憶部１２に格納されているプログラムに従って、まず画像変換部２１の処理を行って、各画像データを記憶部１２に保持するとともに、当該各画像データを順次注目画像データとしながら、グレイスケールデータに変換し、このグレイスケールデータを記憶部１２に保持する。

そして制御部１１は、第１顔特定処理部２２の処理を開始し、記憶部１２から注目画像データのグレイスケールデータを取り出して、上述のように、顔部分の候補を例えばエントロピー等の画素ブロックの特徴量を用いて特定した後、第２学習データベースを用いて、当該顔部分候補の画像を変換して正規化し、顔の画像を学習処理させて得た第１学習データベース内の情報とを用いて、当該正規化後の顔部分の候補となった領域内の画像が顔の画像か否かを判断し、顔の画像であれば、当該候補となっている領域を顔部分を含む画像領域として特定する。また、上記判断の結果、顔の画像でなければ、他の顔部分の候補について正規化の処理から繰返して行う。なお、グレイスケールデータから得られたすべての顔部分の候補について、顔部分の画像が認識できない場合は、顔部分の認識に失敗した旨の情報を出力することになる。

制御部１１は、記憶部１２から第１顔特定処理部２２が処理したグレイスケールデータに対応する画像データ（注目画像データ）を取り出し、この画像データ上で、第１顔特定処理部２２が特定した領域に相当する領域内の平均色情報を演算して、当該認識された人物に固有の肌色情報（対象固有色）とし、この対象固有色の情報を記憶処理部２４の処理により記憶部１２に格納する。

制御部１１は、また、予め定められている所定の条件が満足される場合に、第２顔特定処理部２５の処理により、顔部分を特定する。ここで所定の条件としては、第１顔特定処理部２２が顔部分の認識に失敗したことなどの条件などがある。

制御部１１は、第２顔特定処理部２５の処理を行う場合は、第１顔特定処理部２２が、過去に処理した画像データ（すなわち過去に注目画像データとなった画像データ）内で認識した顔部分を含む画像領域を探索領域の初期値として、最初は、この初期値となった探索領域内の各画素の画素値と、記憶部１２に格納されている対象固有色とを用いて、画像データのうちの探索領域に含まれる部分から対象固有色の部分の重心を求め、当該重心を中心として、新たな探索領域を画定する。

以下、画像データのうちの新たな探索領域内の対象固有色の部分の重心を求め、当該重心を中心として、さらに新たな探索領域を画定する処理を、当該新たに求めた重心と前回求めた重心との距離が所定値以下になるまで（探索領域が収束するまで）繰り返し行い、探索領域が収束したときに、当該収束の結果得られた探索領域を、顔部分を含む画像領域として特定する。

制御部１１は、このように時系列順に入力される各画像データの各々から、第１顔特定処理部２２又は第２顔特定処理部２５によって、顔部分を含む画像領域を特定していく。

また、ここでは第２顔特定処理部２５による顔部分の画像領域を特定する際の条件として、第１顔特定処理部２２により顔部分が認識できなかったこととしているが、この条件に限られるものではなく、例えば入力される一連の画像データのうち、所定の回数ごとの画像データについては、第１顔特定処理部２２による処理を行い、他の画像データについては、第２顔特定処理部２５による処理を行うとの条件であってもよい。

［第２実施形態］
以上説明した第１の実施の形態に係る認識装置は、所定の条件が満足される場合に、肌色の情報など、対象に固有な色を用いて対象物を認識する処理を行うものとしていたが、動きのある対象物（人物の顔部分などはその典型である）については、肌色等の色の情報ではなく、一連の画像データ間での動きに基づいて対象物を認識することもできる。

以下、このような動きに基づく対象物の認識処理を用いる第２の実施の形態に係る認識装置の例について説明する。本実施の形態に係る認識装置は、基本的には第１の実施の形態に係る認識装置と同様の構成を採るが、制御部１１によって実行されるプログラムの内容が若干異なる。そこで以下、制御部１１によって実行されるプログラムの内容について説明する。なお、以下の説明では、時刻Ｔｉ（ｉ＝１，２…ｎ；Ｔ１＜Ｔ２＜…＜Ｔｎ）における画像データをＰ（Ｔｉ）と記す。

本実施の形態の制御部１１によって実行されるプログラムは、機能的には図３に示すように、画像変換部２１と、第１顔特定処理部２２と、記憶処理部３１と、顔領域追跡部３２と、第３顔特定処理部３３とを含んで構成される。なお、第１の実施の形態と略同様の処理を行うものについては、第１の実施の形態と同一の符号を付して、その詳細な説明を省略する。

記憶処理部３１は、第１顔特定処理部２２が特定した顔部分を含む画像領域を表す情報（例えば当該画像領域を表す座標情報）を記憶部１２に格納する。顔領域追跡部３２は、記憶部１２に格納されている、過去に処理した画像データについての顔部分の認識結果（顔部分の画像領域を表す情報や、顔の向き、傾きなどの情報）に基づいて、注目画像データにおいて顔部分が含まれると推定される候補領域を決定する。具体的に画像領域を表す情報を用いる場合、現在注目画像データとなっている画像データがＰ（Ｔｉ）であるとすると、この顔領域追跡部３２は、Ｐ（Ｔｉ−１）における顔部分の画像領域を表す情報をそのまま、Ｐ（Ｔｉ）において顔部分を含むと推定される候補領域としてもよい（０次近似）。また、Ｐ（Ｔｉ−２）とＰ（Ｔｉ−１）とにおける顔部分の画像領域の移動量を用い、Ｐ（Ｔｉ−１）からこの移動量だけ変化させた画像領域を、Ｐ（Ｔｉ）における候補領域としてもよい（１次近似）。以下同様に、過去のｋ個の画像データＰ（Ｔｉ−ｋ），…Ｐ（Ｔｉ−１）を用いた所定の外挿演算によって得られる画像領域を、Ｐ（Ｔｉ）における候補領域とする。

第３顔特定処理部３３は、時系列に入力される画像データのうち、Ｐ（Ｔｉ）とそれに隣接する画像データＰ（Ｔｉ−１）間（又はそれらを変換して得られたグレイスケールデータ間）で、各画素値の輝度情報の差を演算するなどの方法で、各画素の移動を表すベクトル情報（移動履歴画像；Motion History Image）を生成する。そして、顔領域追跡部３２が出力する候補領域内に含まれる各画素の平均移動量（各画素に対応する部分が何画素分だけ移動したかの平均値）を求め、この平均移動量が予め定めたしきい値を越えたか否かを判断する。ここで予め定めたしきい値を越えていれば、移動が検出され、顔が当該候補領域内にあるとして、当該候補領域を顔部分を含む画像領域として特定する。

また、上記判断において、予め定めたしきい値を越えていなければ、顔部分を含む画像領域の特定に失敗した（未検出）ことを表す情報を出力する。

本実施の形態の認識装置は、上記のような構成を有してなり、次のように動作する。カメラ等の外部装置が撮像した一連の画像データが時系列順に、入出力インタフェース１３を介して本実施の形態の認識装置に入力されると、制御部１１が、記憶部１２に格納されているプログラムに従って、まず画像変換部２１の処理を行って、各画像データを記憶部１２に保持するとともに、当該各画像データをグレイスケールデータに変換し、このグレイスケールデータを記憶部１２に保持する。

そして制御部１１は、第１顔特定処理部２２の処理を開始し、記憶部１２からグレイスケールデータを取り出して、上述のように、顔部分の候補を例えばエントロピー等の画素ブロックの特徴量を用いて特定した後、第２学習データベースを用いて、当該顔部分候補の画像を変換して正規化し、顔の画像を学習処理させて得た第１学習データベース内の情報とを用いて、当該正規化後の顔部分の候補となった領域内の画像が顔の画像か否かを判断し、顔の画像であれば、当該候補となっている領域を顔部分を含む画像領域として特定する。また、上記判断の結果、顔の画像でなければ、他の顔部分の候補について正規化の処理から繰返して行う。なお、グレイスケールデータから得られたすべての顔部分の候補について、顔部分の画像が認識できない場合は、顔部分の認識に失敗した旨の情報を出力することになる。

制御部１１は、記憶処理部３１の処理によって、当該特定された画像領域を表す情報を記憶部１２に格納する。制御部１１は、また、予め定められている所定の条件が満足される場合に、第３顔特定処理部３３の処理により、顔部分を特定する。ここで所定の条件としては、第１顔特定処理部２２が顔部分の認識に失敗したことなどの条件などがある。

制御部１１は、第３顔特定処理部３３の処理を行う場合は、顔領域追跡部３２により、記憶部１２に格納されている、過去に処理した画像データについての顔部分の画像領域を表す情報等に基づいて、注目画像データにおいて顔部分が含まれると推定される候補領域を決定する。

そして第３顔特定処理部３３は、注目画像データとそれに隣接する一つ前の画像データ間での、各画素の移動を表すベクトル情報を生成し、顔領域追跡部３２が出力する候補領域内に含まれる各画素の平均移動量（各画素に対応する部分が何画素分だけ移動したかの平均値）を求める。そしてこの平均移動量が予め定めたしきい値を越えた場合に、当該候補領域を、顔部分を含む画像領域として特定する。

このように、本実施の形態では、対象人物が後ろを向いてしまって顔の肌色が検出できなくなっても、動領域検出結果で補完することにより、より精度の高い顔領域検出もしくは頭部検出が可能になる。また、過去の顔部分の画像領域の近傍で動領域の検出のための処理を行うので、計算量の増加を抑えることができるようになっている。

なお、ここでは第３顔特定処理部３３による顔部分の画像領域を特定する際の条件として、第１顔特定処理部２２により顔部分が認識できなかったこととしているが、この条件に限られるものではなく、例えば入力される一連の画像データのうち、所定の回数ごとの画像データについては、第１顔特定処理部２２による処理を行い、他の画像データについては、第３顔特定処理部３３による処理を行うとの条件であってもよい。

さらに、第３顔特定処理部３３による動領域を検出する処理は、ここで説明した例に限られるものではなく、例えば注目画像データと、この注目画像データに時系列上で隣接する直前の画像データの各画素の輝度成分の差に基づいて、これらの画像データ間で変化した画素（動画素）の数を用いるなどの処理であってもよい。

［第３実施形態］
また第１実施形態における肌色（対象固有色）を利用した処理と、第２実施形態における動領域検出とを、第１顔特定処理部２２の処理に組み合せてもよい。すなわち、制御部１１は、所定の条件に基づいて、第１、第２、第３の顔特定処理部による処理を組み合せて用いてもよい。

例えば、通常は第１顔特定処理部２２によって、時系列順に入力される各画像データから顔部分の画像領域を特定し、第１顔特定処理部２２によって特定できない場合に、第２顔特定処理部２５により顔部分の画像領域が特定できるか否かを調べ、それでも特定できない場合に、第３の顔特定処理部３３による顔特定処理を行うこととしてもよい。この場合、第３の顔特定処理部３３によっても顔部分を含む画像領域を特定できない場合は、人物がいない旨の判定（不在判定）をした旨の情報を出力してもよい。

［利用例］
これらの処理によって特定された顔部分を含む画像領域の情報は、他の処理、例えばカメラの雲台を制御して当該画像領域が画像データの中心となるようにカメラの視線方向を制御する処理等に供される。

また、顔部分を含む画像領域が、画像データ上でどの位置にあり、どの程度の大きさを占めるか等の情報に基づいて、人物がどのような動作を行っているかを推定する動作推定処理を行うこともできる。この場合は、図４に示すように、識別子（例えば連番）をキーとして、画像データ上の画像領域を画定する座標情報と、識別対象となっている動作を表す動作情報（「ＰＣ操作中」などの文字列情報でよい）とを関連づけて記憶部１２に保持しておき、制御部１１が、図４に示したテーブルから例えば識別子である連番の順序で座標情報を取り出し、上述の処理によって特定された、顔部分を含む画像領域の情報と比較して、それらの差が所定の範囲内にある場合は、当該比較の対象となった座標情報に関連づけられている動作情報を出力する。

また、今回特定した顔部分を含む画像領域の情報と、どの座標情報との差も、上記所定の範囲内になかった場合は、識別不能な動作状態である旨を報知してもよいし、当該画像領域の情報を、新たな識別の候補として記憶部１２に格納してもよい。

［変形例］
第１（及び第３）の実施形態の説明における第２顔特定処理部２５においては、その探索領域の起点として、直前に入力された画像データ内で特定された顔部分を含む画像領域を用いる例を示したが、第２の実施の形態における顔領域追跡部３２の処理を制御部１１に行わせ、上記探索領域の起点、すなわち初期値となる画像領域として、顔領域追跡部３２によって得られる候補領域を用いてもよい。

また、第２顔特定処理部２５に入力する画像データは、画像データそのものではなく、その色相成分のデータ（色相データ）に変換されたものでもよい。これにより、照明による明度差などの影響を軽減できる。

また、ここまでの説明では、認識の対象が人物の顔である場合を例として述べてきたが、本発明の範囲はこれに限られるものではなく、いかなる対象物であっても同様の処理を適用することができる。

さらに、上記動作推定処理を行う場合において、前回第１顔特定処理部２２によって顔の向きや傾きなどの情報が得られているときには、図４に示したテーブルにさらに、これらの情報を関連づけておくことで、例えば略同じ座標情報に関連づけられた複数の動作がある場合に、この顔の向きの情報等に基づいて、上記複数の動作のいずれかを区別することとしてもよい。

上記第１及び第３の実施形態に係る認識装置を、動作推定処理に用いた場合の実験結果について次に説明する。ここでは、（１）特定の動作Ａを行っていないのに、当該動作Ａを行っているとして誤認識する確率と、（２）特定の動作Ａを行っている人物が撮影されているのに、人物が不在である（第１から第３の顔特定処理のいずれも顔部分を含む画像領域を特定できなかった）と誤検出する確率と、（３）特定の動作Ａを行っていないときに、人物が不在であると誤検出する確率とを、（ａ）第１顔特定処理部２２のみを用いた認識装置の場合、（ｂ）第２顔特定処理部２５を組み合わせた（上記第１の実施の形態の装置に相当する）場合、（ｃ）さらに第３顔特定処理部３３を組み合わせた（上記第３の実施の形態の装置に相当する）場合、の３×３＝９例について実験し、図５に示す結果を得た。

ここで動作Ａは、特定の顔位置で特定の方向を向いての作業である。ここで（１）動作Ａ以外の動作については、対応する動作が図４に示したテーブル上に含まれていないときに誤認識する確率が大きいため、（ａ）から（ｃ）のどの装置においても略等確率で誤検出となっている。

しかしながら、（２）や（３）の誤認識の確率は、いずれも１／６程度に改善される。

本発明の第１の実施の形態に係る認識装置の構成ブロック図である。本発明の第１の実施の形態に係る認識装置の処理の例を表す機能ブロック図である。本発明の第２の実施の形態に係る認識装置の処理の例を表す機能ブロック図である。本発明の認識装置を動作推定処理に適用する場合に用いられるテーブルの一例を表す説明図である。動作推定処理において、本発明の認識装置を用いることによる誤検出の低減性能の実験結果例を表す説明図である。

符号の説明

１１制御部、１２記憶部、１３入出力インタフェース、１４表示部、２１画像変換部、２２第１顔特定処理部、２３肌色抽出部、２４，３１記憶処理部、２５第２顔特定処理部、３２顔領域追跡部、３３第３顔特定処理部。

Claims

人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識装置であって、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定手段と、
前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する手段と、
前記取得した肌色情報を記憶する記憶手段と、
を含み、
前記顔部分特定手段が、
前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴とする認識装置。
人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識装置であって、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定手段と、
過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手段と、
前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する顔部分領域推定手段と、
を含むことを特徴とする認識装置。
請求項２に記載の認識装置において、さらに、
前記顔部分特定手段によって特定された画像領域内の画素値から、当該人物に固有の肌色情報を取得する手段と、
前記取得した肌色情報を記憶する記憶手段と、
を含み、
前記顔部分特定手段が、
前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴とする認識装置。
請求項１または３に記載の認識装置において、
前記顔部分特定手段は、肌色情報を用いない第１の認識方法によって、前記顔部分を含む画像領域を特定できないときに、前記肌色情報を用いた第２の認識方法によって、前記顔部分を含む画像領域を特定することを特徴とする認識装置。
一連の画像データを取得し、各画像データに撮像された対象物を認識する認識装置であって、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、前記対象物を含む画像領域を特定する対象物部分特定手段と、
前記特定した画像領域内の画素値から、当該対象物に固有の色情報を取得する手段と、
前記取得した色情報を記憶する記憶手段と、
を含み、
前記対象物部分特定手段が、
前記記憶されている、過去に注目画像データとなった画像データに係る色情報を、現在の注目画像データにおける、前記対象物の部分を含む画像領域の特定の処理に供することを特徴とする認識装置。
一連の画像データを取得し、各画像データに撮像された対象物を認識する認識装置であって、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、前記対象物を含む画像領域を特定する対象物部分特定手段と、
過去に注目画像データとなった画像データにおいて、前記特定された対象物の部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手段と、
前記検出された移動状態に基づき、現在の注目画像データ内での前記対象物の部分を含む画像領域を推定する対象物部分領域推定手段と、
を含むことを特徴とする認識装置。
人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識方法であって、コンピュータを用い、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する工程と、
前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する工程と、
前記取得した肌色情報を、記憶手段に格納する工程と、
を処理し、
前記顔部分を特定する工程にて、
前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴とする認識方法。
人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識方法であって、コンピュータを用い、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する顔部分特定工程と、
過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する工程と、
前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する工程と、
を実行することを特徴とする認識方法。
人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識プログラムであって、コンピュータに、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する手順と、
前記特定した画像領域内の画素値から、当該人物に固有の肌色情報を取得する手順と、
前記取得した肌色情報を、記憶手段に格納する手順と、
を実行させ、
前記顔部分を特定する手順にて、
前記記憶されている、過去に注目画像データとなった画像データに係る肌色情報を、現在の注目画像データにおける、前記顔部分を含む画像領域の特定の処理に供することを特徴とする認識プログラム。
人物の顔を含む少なくとも一部を撮像して生成された一連の画像データを取得し、各画像データに撮像された人物の顔部分を認識する認識プログラムであって、コンピュータに、
前記一連の画像データの各々を順次注目画像データとして、当該注目画像データから、人物の顔部分を含む画像領域を特定する手順と、
過去に注目画像データとなった画像データにおいて、前記特定された顔部分を含む画像領域を表す情報に基づいて決定される候補領域の画像データ内での移動状態を検出する手順と、
前記検出された移動状態に基づき、現在の注目画像データ内での顔部分を含む画像領域を推定する手順と、
を実行させることを特徴とする認識プログラム。