JP2017162409A

JP2017162409A - 顔の表情と動作の認識装置及び方法

Info

Publication number: JP2017162409A
Application number: JP2016048920A
Authority: JP
Inventors: 群石; Qun Shi; 浮田　宗伯; Munenori Ukita; 宗伯浮田
Original assignee: Yanmar Co Ltd
Current assignee: Yanmar Co Ltd
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2017-09-14

Abstract

【課題】自然な会話状態での顔の表情と動作を認識可能な顔表情動作認識方法及び装置を提供する。【解決手段】測定対象の映像中の各フレームから顔の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識する。【選択図】図５

Description

本発明は、映像を用いて、測定対象となる顔の表情を解析する技術に関するものである。

近年、人とロボットがコミュニケーションをとる等のために、顔の表情を認識するシステムの開発に対するニーズが高まっている。これを受けて、様々な方法で、表情認識システムが開発されている。
その１つとして、ＦＡＣＳ（Facial Action Cording System：顔面動作符号化システム）による方法がある。これは、顔面筋肉の解剖学的知見を基礎として、表情に伴う顔の動きをアクションユニットと呼ばれる最小単位に分解し、アクションユニットの組み合わせによって、人間のあらゆる表情を記述可能としたものである。
しかしながら、アクションユニットは人間によって定義されたものであることから、その数が限定されており、表情に微妙な変化が多くある自然な会話の中では判断が困難であるという問題がある。また、ＦＡＣＳによる方法は、ある状態について判断するものに過ぎず、時間的な変化は定義されていない。

２つ目の方法として、ダイナミックモデルによる方法がある。
これは例えば、「笑い」について判断する場合、ニュートラルな状態、笑い始め、笑いの頂点および笑い終わりを定義し判断ポイントとし、あるインプットデータ中に笑いのループが検出されれば笑いと認識するというものである。
しかしながら、かかる方法においても、自然な会話では必ずしも上記のようなループが形成されないという問題がある。また、笑いながら喋るといった複合的な表情には対応することが困難である。

そこで、撮影環境の変動に対しても頑健に撮影画像から顔表情の変化度を測定する顔表情変化度測定装置が知られている（特許文献１を参照）。
上記特許文献１に開示された顔表情変化度測定装置は、被写体の撮影画像において顔領域検出手段によって検出された顔領域からＳＵＲＦを特徴点として抽出する画像特徴量抽出手段と、被写体の標準顔から抽出されたＳＵＲＦをクラスタに分類すると共に、当該被写体の入力顔から抽出されたＳＵＲＦを、標準顔のＳＵＲＦを分類したときの各クラスタのうち特微量に関して最も距離の近いクラスタに分類するクラスタリング手段と、標準顔に対して分類された各クラスタと、入力顔に対して分類された各クラスタの双方について、クラスタ毎にクラスタ中のＳＵＲＦの個数を頻度とするヒストグラムをそれぞれ作成するヒストグラム作成手段と、標準顔ヒストグラムと入力顔ヒストグラムとの差分を被写体の顔表情変化度として算出する差分算出手段とを備える。
しかしながら、特徴点についての変化度のみを測定するため、精度の高い計測が困難であるという問題がある。

従来の方法においては、顔のパーツの動きを連続的な特徴として表現しているため、瞬間的な笑顔やむっとした顔のように、その時系列変化がほとんど変化しないような場合には十分な性能を発揮する。しかし、その時系列性が崩れるような一般的な表情や状態の変化、例えば、数秒間喋り続けたり、頷いたりしている場合には、パーツの動きの順序が変化してしまうため、これらを認識対象とすると正しく認識されないという問題があった。

特開２０１１−２３７９７０号公報

Y.L. Tian, T. Kanade and J.F. Cohn, "Recognizing action units for facial expression analysis," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.23, no.2, pp.97--115, Feb 2001. G. Sandbach, S. Zafeiriou, M. Pantic and D. Rueckert, "A dynamic approach to the recognition of 3D facial expressions and their temporal models," in IEEE International Conference on Automatic Face & Gesture Recognition, pp.406--413, 2011.

上記状況に鑑みて、本発明は、自然な会話状態での顔の表情と動作を認識可能な顔表情動作認識方法及び装置を提供することを目的とする。

上記課題を解決すべく、本発明の対象物状態動作認識方法は、測定対象の映像中の各フレームから対象物の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の対象物の状態と動作を認識する。

そして、本発明の顔表情動作認識方法は、上記の本発明の対象物状態動作認識方法において、対象物を顔とし、対象物の状態を顔の表情とする認識方法であって、測定対象の映像中の各フレームから顔の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識する。

本発明の対象物状態動作認識方法によれば、対象物をカメラで撮影した映像から、対象物の状態や動作を認識することができる。
また、本発明の顔表情動作認識方法によれば、人の顔をカメラで撮影した映像から、その人の表情、対話中や頷き中などの動作状態を認識することができる。

すなわち、従来の方法のように、時系列データの変化の順序が一定であることを仮定して、標準顔とのマッチングを行うのではなく、対象物や顔の動きの特徴に着目し、時系列データ中の各変化の発生頻度をヒストグラムとして特徴量化し、この特徴量のマッチングで認識を実現する。
本発明の方法において、測定対象の映像の撮影の際は、好ましくは、シングルビューの２Ｄカメラを用い、対象物や顔を正面から撮影する。

本発明の顔表情動作認識方法において、映像中の各フレームから抽出する顔の特徴領域は、目、鼻、口など表情や動作状態の変化が表れやすい部位を取り囲む領域であることが好ましいが、顔全体の領域であっても構わない。抽出された特徴領域において、画素単位で動き成分を計算し、その動き成分を方位ごとにヒストグラム化する。ここで、動き成分とは、動き方向と動き量であり、ヒストグラムは、動き方向を階級とし同一方向の動き量の積算を頻度とするものである。そして、時系列の複数フレームにおけるヒストグラムの推移が、動き特徴量と見做される。
本発明では、この動き特徴を、映像中の全フレームでクラスタリングし、各クラスタが観測された頻度を計算する。そして、算出した頻度情報を、対象物の状態や顔の表情と動作の認識に利用する特徴量とし、汎用的な識別機械学習器を用いて、映像中に写っている対象物や人の顔の状態を認識する。

本発明の顔表情動作認識方法は、具体的には、以下のステップ１）〜８）を備える。
１）測定対象の映像を取り込む映像取込ステップ
２）映像中の各フレームから顔領域を検出する顔領域検出ステップ
３）顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップ
４）特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップ
５）動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップ
６）時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップ
７）映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップ
８）各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ

ここで、本発明の顔表情動作認識方法の動き成分算出ステップは、具体的には、オプティカルフローの動きモデルを用いて、映像中の隣り合うフレームの間で、特徴領域の全ての画素毎の２次元移動度ベクトルを算出し、画素単位で動き方向および動き量を算出する。

また、本発明の顔表情動作認識方法のヒストグラム作成ステップにおいて、ヒストグラムは、動き方向および動き量に基づくＨＯＯＦ（Histograms of Oriented Optical Flow）で算出され、動き方向における左右対称のものは同じ方向の階級とされることが好ましい。
人の顔の特徴部分の動きは、一般的に左右対称の動きとなることから、動き方向における左右対称のものは同じ方向として扱うことにする。

次に、本発明の対象物状態動作認識プログラム、並びに、顔表情動作認識プログラムについて説明する。
本発明の対象物状態動作認識プログラムは、コンピュータに、以下のステップＳ１）〜Ｓ５）を実行させる。
Ｓ１）測定対象の映像中の各フレームから対象物の特徴領域を抽出するステップ
Ｓ２）特徴領域の画素単位で動き方向および動き量を算出するステップ
Ｓ３）動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするステップ
Ｓ４）基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出するステップ
Ｓ５）測定対象の対象物の状態と動作を認識するステップ

また、本発明の顔表情動作認識プログラムは、本発明の対象物状態動作認識プログラムにおいて、対象物を顔とし、対象物の状態を顔の表情とする認識プログラムであって、コンピュータに、以下のステップＳ１１）〜Ｓ１５）を実行させる。
Ｓ１１）測定対象の映像中の各フレームから顔の特徴領域を抽出するステップ
Ｓ１２）特徴領域の画素単位で動き方向および動き量を算出ステップ
Ｓ１３）動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングステップ
Ｓ１４）基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出ステップ
Ｓ１５）測定対象の顔の表情と動作を認識するステップ

本発明の顔表情動作認識プログラムは、具体的には以下の通りである。
本発明の顔表情動作認識プログラムは、測定対象の映像を取り込み、映像中の各フレームから顔領域を検出して、測定対象の顔の表情と動作を認識するプログラムであって、コンピュータに以下のステップＳ２１）〜Ｓ２６）を実行させる。
Ｓ２１）顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップ
Ｓ２２）特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップ
Ｓ２３）動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップ
Ｓ２４）時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップ
Ｓ２５）映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップ
Ｓ２６）各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ

本発明の顔表情動作認識装置は、上記の本発明の対象物状態動作認識プログラム、或は、本発明の顔表情動作認識プログラムを搭載するコンピュータである。

次に、本発明の対象物状態動作認識装置、並びに、本発明の顔表情動作認識装置について説明する。
本発明の対象物状態動作認識装置は、測定対象の映像を取り込む映像取込手段と、映像中の各フレームから対象物領域を検出する対象物領域検出手段とを備え、測定対象の対象物の状態と動作を認識する装置であり、下記の手段Ａ）〜Ｆ）を備える。
Ａ）対象物領域から対象物の特徴領域を抽出する特徴領域抽出手段
Ｂ）特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段
Ｃ）動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
Ｄ）時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段
Ｅ）基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段
Ｆ）計測対象の対象物の状態又は動きを認識する認識手段
上記の認識手段は、各クラスタが観測された頻度情報を用いて、計測対象の対象物の状態又は動きを認識する。

本発明の顔表情動作認識装置は、上記の本発明の対象物状態動作認識装置において、対象物を顔とし、対象物の状態を顔の表情とし、測定対象の顔の表情と動作を認識する装置であって、下記の手段ａ）〜ｆ）を備える。
ａ）測定対象の映像中の各フレームから顔の特徴領域を抽出する特徴領域抽出手段
ｂ）特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段
ｃ）動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
ｄ）時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段
ｅ）基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段
ｆ）計測対象の顔の表情又は動きを認識する認識手段

本発明の顔表情動作認識装置は、具体的には以下の構成を備える。
・測定対象の映像を取り込む映像取込手段
・映像中の各フレームから顔領域を検出する顔領域検出手段
・顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出手段
・特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出手段
・動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
・時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリング手段
・映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出手段
・各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識手段

本発明の対象物状態動作認識装置及び方法によれば、対象物の瞬間的な状態変化だけでなく、対象物の個々の特徴部分の多様な動きや状態の変化を正しく認識できるようになるといった効果がある。すなわち、対象物のグローバルな動きではなく、対象物の局所的な変化を捉え、正しく認識できる。

本発明の顔表情動作認識装置及び方法によれば、「話している際には、その話している時間の長さに関係なく口が上下に動いている」や、「頷いている際には、その頷きの回数に関係なく頭部全体の上下運動が繰り返される」というような顔の動きの特徴を捉えることにより、瞬間的な表情変化だけでなく、顔や頭部の多様な動きや状態の変化を伴う表情を正しく認識できるようになり、日常会話における自然な行動から、顔の表情を認識することが可能になるといった効果がある。

顔の特徴領域の動きの説明図画素の動きベクトル成分のヒストグラム化の説明図内部状態シーケンスの説明図ヒストグラムの推移の説明図本発明の顔表情動作認識方法の説明図本発明の顔表情動作認識方法のフロー図顔表情動作認識装置の機能ブロック図

以下、本発明の実施形態の一例を、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
なお、以下の実施例では、本発明の顔表情動作認識装置及び方法について説明を行うが、本発明の対象物状態動作認識装置及び方法において、対象物を顔とし、対象物の状態を顔の表情としていることから、実質的に、本発明の対象物状態動作認識装置及び方法を説明するのと同じであろう。

図１〜６を参照して、本発明の顔表情動作認識方法について説明する。
（１）映像取込ステップ（Ｓ０１）
測定対象の人の顔が映った映像データを取り込む。映像データはメモリに記録された映像ファイルでも、ストリーミングデータとして送られてくるリアルタイムな映像でもよい。

（２）顔領域検出ステップ（Ｓ０３）
映像中の各フレームから顔の特徴点を検出して顔領域を自動検出する（図１（１）を参照）。検出アルゴリズムは公知のものを利用する。例えば、アクティブ形状モデル（ＡＳＭ）が顔の特徴点を検出するために使用される。具体的には、７７の特徴点を用いて顔のパーツの輪郭を記述し、フォームに各フレームを抽出する。

（３）特徴領域抽出ステップ（Ｓ０５）
顔領域から少なくとも目、鼻および口の特徴領域を抽出する（図１（２）を参照）。顔のＲＯＩ（Region Of Interest）セグメンテーションを行い、目、鼻、口など表情や動作状態の変化が表れやすい部位を取り囲む領域を抽出する。上記（２）のステップにおいて検出された特徴点の位置に基づいて、目、鼻、口の顔のパーツの小領域を、矩形ウィンドウとしてセグメント化する。矩形ウィンドウの長さと幅は、動きの範囲を加味して、各ＲＯＩ（目、鼻、口など）の長さと幅の２倍に設定する。

（４）動き成分算出ステップ（Ｓ０７）
特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する（図１（３）を参照）。すなわち、抽出されたＲＯＩ内の高密度オプティカルフローの計算を行う。顔の動きに関して、可能な限り多くの情報をキャプチャするために、セグメント化された矩形ウィンドウ内の全ての画素で計算する。すなわち、効果的に顔の筋肉の微妙な動きのダイナミクスを検出するために、各ＲＯＩ内の密なオプティカルフローの特徴を画素毎に分ける。そして、時系列に並ぶ時間幅ｔに存在する複数のフレームに対してそれぞれ計算する。セグメント化された矩形ウィンドウのサイズが長さｍで幅ｎとするとｍ×ｎの画素に分割できる。また、フローシーケンスは、ｔ×ｍ×ｎの３次元ブロック毎に分割される。ｔ×ｍ×ｎは、各３次元ブロックのサイズであり、入力データの解像度に応じて調節されることが必要である。映像データの解像度をＲ、映像データの時間長をＬとすると、｛Ｒ／（ｍ×ｎ）｝×｛Ｌ／ｔ｝が、３次元ブロックの個数になる。

各ブロックに、そのブロック内の動きを表現するために、高密度オプティカルフローの方向と長さに基づいて、ＨＯＯＦの特徴を計算する（図２を参照）。ＨＯＯＦの機能を選択した理由は、動くオブジェクトのスケールや動き方向とは無関係であり、かつ、自然な顔の動作の認識に非常によくマッチするオプティカルフローが有する多くの小さなノイズに対してロバストであるからである。ここで、ＨＯＯＦの特徴の計算は、各ブロック内で、先ず各画素のオプティカルフローをｋ方向に量子化し、次にｋ方向毎をビンとしてヒストグラム化する。ヒストグラム化の際には、各フローをヒストグラムに加算するときは、フローの長さに応じて重み付けを行う。

上記（２）〜（４）の３つのステップが、顔の動き特徴の抽出プロセスになる。
なお、動き成分を算出する際、グローバルな動作を減算する処理を行うことが好ましい。これは、顔のパーツの動きが、パーツ自身の動き（ローカルな動作）ではなく、身体や頭の動き（グローバルな動作）によってパーツが動くことが想定されることから、グローバルな動作を減算することで、グローバルな動きを多く含んでいる自然な行動のデータによりロバストにするためである。ここで、グローバルな動作を減算する処理について補足説明する。グローバルな動作を減算する処理は、先ず、オプティカルフローのパラメータを調整し、強いスムージング制約をかける。これによって計算されたオプティカルフローは、局所的な変化（例えば、目と口などのパーツの動き）が除去され、全体的な動き情報（例えば、顔全体の上下/左右移動など）だけが残る。ここで計算されたものをグローバルな動作として、強いスムージング制約のないオプティカルフロー（グローバルな動作と局所的な動作両方を含むフローデータ）に減算することにより、グローバルな動作を除去する。

（５）ヒストグラム作成ステップ（Ｓ０９）
動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成する。ここで、ヒストグラムのビンの数は、選択可能なパラメータである。このステップの後、サンプリングされた各々の３次元ブロックは、ＨＯＯＦのヒストグラムの時系列の推移の特徴記述子が含まれる。

（６）クラスタリングステップ（Ｓ１１）
このステップは、時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングする。すなわち、動作プリミティブの辞書にブロックベースの特徴記述子をクラスタ化する。この考えは、複雑な顔の動きが多くの動作プリミティブから構成されていることに基づいている。顔の動きの異なるインスタンスは、それらの全体的な外観と動作の点で大きく異なる可能性があるが、それらが引き起こす動作プリミティブの多くは類似している。この前提の下で、可能な動作プリミティブの数は、事実上無制限であっても、動作プリミティブの種類の数は比較的少ないと言える。動作プリミティブのセットが決定されると、複雑な動作が動作プリミティブによって特徴付けられ、各々の動作が時間的なモーションセグメントに分割できる。動作認識の観点では、各々の動作プリミティブの正確な形は重要でなく、動作のタイプの判別が重要になる。

このクラスタリングステップでは、例えば、インターバルベースのハイブリッド力学系（ＩＨＤＳ：Interval based Hybrid Dynamical System）を用いることができる。ＩＨＤＳにより、ブロックベースのＨＯＯＦのヒストグラムの推移をモデル化する。ＩＨＤＳは、離散事象システムと微分方程式によって記述される動的システムから構成される。インターバルで操作することにより、ＩＨＤＳは、線形動的システムの階層的クラスタリングを含む効率的な学習技術を提供する。また、ＩＨＤＳでは学習したパラメータを用いて高精度でダイナミックモードのシーケンスに新たに観測されたデータをモデル化することが可能である。図４は、２つの線形動的システム（Ｄ_１，Ｄ_２）における時間的なシーケンスから、３つの離散状態（ｑ_１，ｑ_２，ｑ_３）にモデル化する様子を示している。図３に示すように、ＩＨＤＳは２層構造を有している。第１層は、インターバルの確率的遷移をモデル化する有限状態オートマトンを有している。第２層は、複数の線形動的システムＤ＝{Ｄ_１，・・・，Ｄ_Ｎ}のセットで構成される。これらの２つの層を統合するために、インターバルが使用されている。各インターバルの区間は（ｑ_ｉ，τ）で記述されている。ここで、ｑ_ｉは自動的に離散状態を示し、τはインターバルの物理的な持続時間の長さを示す。これは、ユニークな線形動的システムＤ_ｉに対応するオートマトンの各状態ｑ_ｉを想定している。

動的システムの状態遷移は、下記の式（１）によってモデル化される。

ここで、ｘ_t（上バーは省略）は時刻tにおける区間状態ベクトルである。F^（i）は遷移行列、ｇ^（i）（上バーは省略）はバイアスベクトルである。ω_t ^（i）（上バーは省略）は、ガウス分布によってモデル化されるプロセスノイズである。なお、各々の動的システムは、独自のF^（i）、ｇ^（i）、ω_t ^（i）を有し、全ての力学系が同じ内部状態空間を共有する。
ＩＨＤＳの学習の目的は、線形動的システムの数（Ｎ）と、全ての線形動的システムＤ_ｉのパラメータセットを推定することである。ここで、推定する両者は、相互に影響、依存していることから、一つの変量を求めるためには、もう一つの変量を固定しなければならない。

そのため、パラメータセットの推定プロセスは、下記の２つのステップに分けられる。
（１）ステップ１：典型的なトレーニングデータセットを使用して動的システムをクラスタリングするプロセス
ステップ１では、固有値制約に基づく線形システムの階層的クラスタリングにより、線形動的システムの個数およびパラメータ概値を推定する。

（２）ステップ２：全てのトレーニングデータを用いて期待値最大化（ＥＭ）アルゴリズムに基づいて、全てのパラメータを精錬するプロセス
ステップ２ではステップ１で推定されたパラメータ概値により、線形システムの個数を固定して、近似的なＥＭアルゴリズムを行ってパラメータを調整する。ＥＭアルゴリズムの詳細は、公知文献の「H. Kawashima and T. Matsuyama: “Multiphase learning for an interval-based hybrid dynamical system”, IEICE transactions on fundamentals of electronics, communications and computer sciences, 88, 11, pp. 3022−3035 (2005) 」に詳細に記載されている。

また同時に、時間間隔のシーケンスにおいて、全てのトレーニングデータをモデル化することができる。学習アルゴリズムの詳細は公知文献の「H. Kawashima and T. Matsuyama. Interval-based linear hybrid dynamical system for modeling cross-media timing structures in multimedia signals. In International Conference on Image Analysis and Processing, pages 789−794, 2007.」に詳細に記載されている。

全ての可能な動的なプリミティブのパラメータを学習するためには、大量の映像データが学習段階で必要である。学習段階の後、学習したＩＨＤＳを使用して、新たに観測された信号のデータをモデル化することができる。観察シーケンスが与えられると、ＩＨＤＳは、例えば、公知のビタビ・アルゴリズムに基づいて尤度計算方法を用いて、観測されたデータを記述するための最良の最適な間隔シーケンスを見つけることができる。本発明では、ＩＨＤＳを使用して、間隔の配列へ新たに観測されたデータ系列（特徴ベクトル系列）をモデル化することができる。

ＩＨＤＳを使用して、各ブロック内蹄機能のダイナミクスは線形動的システムによってモデル化される。ＥＭアルゴリズムに基づいて、ＬＤＳのパラメータをクラスタ化した後、ＬＤＳのＫ個のクラスタとして動作プリミティブの辞書を取得する。ここで、Ｋは事前に定義することができるパラメータである。

（７）クラスタ観測頻度算出ステップ（Ｓ１３）
映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出する。

（８）認識ステップ（Ｓ１５）
各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する。
認識ステップは、学習データを使用して、新しい映像シーケンスを分類することである。笑いながら話す行為や、話しながら頷く行為のような、複合された顔の動きを認識するため、異なる仮定に基づいて設定された２つの戦略Ａ、Ｂを考える。

戦略Ａは、シンプルな動きに等しい独立した顔の動きを考慮したものであり、複合的な表情（例えば、笑いながら喋る）は、その表情を構成する単純な表情（笑いや喋り）とは関係なく、全く独立的な特徴をもっていると仮定し、実際に表情を認識するときは、複合的な表情を完全に独立なクラスとして認識するといった戦略である。

一方、戦略Ｂは、単純な顔の動きの組み合わせのような複合された顔の動きを考慮したものであり、複合的な表情は、その表情を構成する単純な表情の動きの特徴を持っていると仮定し、実際に表情を認識するときは、１つのインプットデータが２つの単一な表情クラスの特徴を持っているならば、このインプットデータをその２つの表情クラスで合成された複合的な表情として認識するといった戦略である。すなわち、戦略Ｂでは、複合的な表情は複数の単純な表情の組み合わせとして考える。なお、顔の動きの分類のため、サポートベクターマシン（ＳＶＭ）を用いる。

実験システムのセットアップは、日常の会話における顔の表情と動きを分析するための自然な環境を意識した。実験に用いる会話シナリオは、２人がスカイプ（登録商標）を使用して互いにラップトップコンピュータに話すテレコミュニケーションのシーンとした。会話シナリオの映像は、1280×720、25 ＦＰＳのフレームレートの解像度の下で、ビデオレコーディングソフトウェアによって記録されたものを使用した。

上記のシステムを用いて、別の人によって行われたテレコミュニケーション対話の複数のビデオシーケンスをキャプチャした。データ収集のために、スカイプを通じてペアでお互いに話しをする１４人に依頼し、それぞれの会話中に２人の参加者の挙動が捕捉され、それぞれ記録された。各ビデオが生じる顔の動作量を確保するために少なくとも１０分間会話を持続させた。参加者は、異なる年齢、異なる性別、異なる人種をカバーしている。そして、会話中、中立顔（Neutral）、話している顔、笑っている顔、頷いている顔、話しながら頷く顔、笑いながら頷く顔、笑いながら話す顔の７つのカテゴリが含まれるように、会話シナリオを設定した。前の４つの顔の動作は単純な顔の動作に帰属し、後の３つの顔の動作は複合された顔の動作に帰属する。

実施例１の顔表情動作認識方法の前処理として、テレコミュニケーション対話の長いビデオシーケンスから、顔動作変化を含む短いビデオセグメントを抽出する。具体的には、７つのカテゴリの内の１つのタイプの顔の動作を行った短いビデオセグメントを準備し、合計５０００フレームをＩＨＤＳのパラメータの学習に使用した。顔の動作変化を含む短いビデオセグメントは１５０個抽出し、半分ずつ、学習データとテストデータとして使用した。ここで、前処理について補足説明する。テレコミュニケーション対話のビデオデータは、連続的な日常会話の長いビデオデータであり、認識を行う前に、先ずスボッティングという処理をする。具体的には、長いビデオデータから、７つのカテゴリの内の１つのタイプの顔の動作を行った短いビデオセグメントを抽出する処理である。この処理が前処理である。この前処理は手動で行っても自動で行ってもよい。

実施例１の顔表情動作認識方法に関して、７種類の自然な会話シナリオにおける実験結果を説明する。実施例１の顔表情動作認識方法を、実際の映像で評価した結果、従来法でも正しく認識しやすい瞬間的な表情変化のみを含んだデータセットにおいても、定量的に優位な性能を示し、特に、自然対話中の喋っている状態、頷いている状態、笑いながらしゃべっている状態など、自然な状態における表情と動作の認識において優位性が顕著であった。以下に性能評価データを示しながら詳細に説明する。

下記表１は認識精度の実験結果を示している。なお、実験の分類には、公知のオープンソースの機械学習ライブラリであるLib SVMを使用している。ここで、Lib SVMについては、公知文献の「C. C. Chang and C. Lin. Libsvm: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2(3):27, 2011.」に詳細に記載されている。なお、認識精度を向上させるために、自由に設定できる２つのパラメータに対して、データの数量、解像度や複雑度などに応じて適当な数値を与えることにした。２つのパラメータとは、辞書サイズとＨＯＯＦあたりビン数である。ＨＯＯＦあたりビン数は、経験的に２０となるように設定しているが、データの解像度に応じて調整できる。また、辞書サイズとして、Ｋ＝３０を適当な概値として用いた。

表１について説明する。表１では、７種類の自然な会話シナリオとして、中立顔（Neutral）、話している顔（Speaking）、笑っている顔（Smiling）、頷いている顔（Nodding）、N.+Sp.（話しながら頷く顔）、N.＋Sm. （笑いながら頷く顔）、Sm.+Sp.（笑いながら話す顔）のカテゴリに分類している。表１の中立顔（Neutral）の列の数字は、中立顔（Neutral）を中立顔（Neutral）と認識する割合、中立顔（Neutral）を話している顔（Speaking）と認識する割合、中立顔（Neutral）を笑っている顔（Smiling）と認識する割合などを示している。

ここで、表中の数字は、顔の動作の分類のために使用したサポートベクタマシンの用い方の２つの戦略（戦略Ａまたは戦略Ｂ）のそれぞれの割合を併記しており、戦略Ａは括弧の外側の数字であり、戦略Ｂは括弧の内側の数字である。
表１に示すように、戦略Ａの場合、カテゴリ内の顔の動作の７種類を認識する性能値として、81.7％（＝{96 + 78.7 + 80 + 81.3 + 76 + 82.7 + 77.3}÷７）の平均精度を達成し、戦略Ｂの場合、同性能値として、85.1％（＝{97.3 + 86.7 + 84 + 92 + 85.3 + 88 + 62.7}÷７）の平均精度を達していた。

一般的に、戦略Ｂは、殆どの顔の動作で戦略Ａよりも性能が優れていた。このことは、表情や動きが複合した顔は、単純な顔の表情の組み合わせとして考えることができることを示している。例えば、“笑顔ながら話す”（Sm.+Sp.）では、戦略Ｂは戦略Ａと比較して低い認識率を示すが、“笑顔ながら話す”の顔の動作は、顔の側面の唇の動きがデータ全体にわたって継続的に検出することができるからである。また、笑顔の側面に関して対応する動きは、主に多くの場合、その表情の始めに検出されるため、表情が終わるまでの間の多くの入力データに含まれていない。すなわち、全データの内で、笑顔に対応する動きがあるのは非常に小さい割合である。各瞬間に顔の部品の特定の形状を気にせず、顔の動き特徴を捉えていることから、戦略Ｂの下では、“笑顔ながら話す”（Sm.+Sp.）は、“笑っている顔”（Smiling）よりも、“話している顔”（Speaking）と高い類似性を有する。

（本発明の性能評価）
ベンチマークテスト用のオープンデータベースを用いて性能評価した結果を説明する。
性能評価に用いたデータベースは、Oulu-CASIA VIS、MMIおよびAFEW（Acted Facial Expression in Wild）の３つである。

先ず、“Oulu-CASIA VIS”のデータベースを用いて性能評価を行った結果を示す。“Oulu-CASIA VIS”のデータベースには、２３〜５８歳の８０人の被験者の６つの基本的表情（怒り、嫌悪、恐怖、喜び、悲しみ、驚き）が備えられている。各ビデオはニュートラルな顔（中立顔）で始まり、それぞれの基本的表現のピークで終了する。実施例１と比較例１〜３のそれぞれの方法を用いて、このデータベースの４８０シーケンスについて、人に依存しない１０分割交差検定を行った。その結果を下記表２に示す。

なお、表２に示す比較例１の方法のSTM-ExpLetは、公知文献の「M. Liu, S. Shan, R. Wang, and X. Chen. Learning expres-sionlets on spatio-temporal manifold for dynamic facial ex-pression recognition. In CVPR, pages 1749−1756, 2014.」に詳細に記載されている。また、比較例２の方法のAtlasesは、公知文献の「Y. Guo, G. Zhao, and M. Pietikainen. Dynamic facial expression recognition using longitudinal facial expression atlases. In ECCV, pages 631−644. Springer, 2012.」に詳細に記載されている。比較例３の方法のAdaLBPは、公知文献の「G. Zhao, X. Huang, M. Taini, S. Z. Li, and M. Pietikainen. Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9):607−619, 2011.」に詳細に記載されている。

上記表２に示すように、“Oulu-CASIA VIS”のデータベースを用いて、実施例１の方法を用いた場合に、正確に表情を認識できた割合は７７．５１％であった。比較例１の方法を用いた場合は７４．５９％、比較例２の方法を用いた場合は７５．５２％、比較例３の方法を用いた場合は７３．５４％であり、検証の結果、実施例１の方法が、比較例１〜３のいずれの方法よりも精度が高いことが分かった。

次に、“MMI”のデータベースを用いて性能評価を行った結果を示す。“MMI”のデータベースには、１９〜６２歳の男女３０人の被験者の表情が備えられており、２３６のシーケンスは６つの基本的表情で標識され、その内の２０５のシーケンスは顔の正面（正面ビュー）がキャプチャされたものである。各シーケンスは、単一の表情タイプの開始（onset）、ピーク（apex）、終了（offset）の顔をキャプチャしている。実施例１と比較例１，４〜８のそれぞれの方法を用いて、このデータベースの正面ビューのすべてのデータを使用して、人に依存しない１０分割交差検定を行った。その結果を下記表３に示す。

なお、表３に示す比較例４の方法のCSPLおよび比較例５の方法のCPLは、公知文献の「L. Zhong, Q. Liu, P. Yang, B. Liu, J. Huang, and D. N. Metaxas. Learning active facial patches for expression analysis. In CVPR, pages 2562−2569, 2012.」に詳細に記載されている。比較例６の方法のITBNおよび比較例７の方法のHMMは、公知文献の「Z. Wang, S. Wang, and Q. Ji. Capturing complex spatiotemporal relations among facial muscles for facial expression recognition. In CVPR, pages 3422−3429, 2013.」に詳細に記載されている。比較例８の方法のADLは、公知文献の「C. Shan, S. Gong, and P. W. McOwan. Facial expression recognition based on local binary patterns: A comprehensive study. Image and Vision Computing, 27(6):803−816, 2009.」に詳細に記載されている。

上記表３に示すように、“MMI”のデータベースを利用して、実施例１の方法を用いた場合に、正確に表情を認識できた割合は７８．８３％である。これに対して、比較例１の方法の場合は７５．１２％、比較例４の方法の場合は７３．５３％、比較例５の方法の場合は４９．３６％、比較例６の方法の場合は５９．７％、比較例７の方法の場合は５１．５％、比較例８の方法の場合は４７．７８％であり、検証の結果、実施例１の方法が比較例１，４〜８のいずれの方法よりも精度が高いことが分かった。

また、“AFEW”のデータベースを用いて性能評価を行った結果を示す。“AFEW”のデータベースは、制御されていない環境での自発的な表現を描写またはシミュレートし、現実世界に近い条件である映画から収集されたものである。このデータベースは、トレーニング、検証およびテストの３セットで構成され、６つの基本的表情と基準顔の計７種類の表情が備えられている。テストセットのグランドトゥルースは、未リリースのため、ここでは比較のための検証セットの結果のみを下記表４に示す。
なお、表４に示す比較例９の手法のEmotiWは、公知文献の「A. Dhall, R. Goecke, J. Joshi, M. Wagner, and T. Gedeon. Emotion recognition in the wild challenge 2013. In Proceedings of the ACM International Conference on Multimodal Interaction, pages 509−516, 2013.」に詳細に記載されている。

上記表４に示すように、“AFEW”のデータベースを利用して、実施例１の方法を用いた場合に、正確に表情を認識できた割合は３４．３２％である。これに対して、比較例１の方法の場合は３１．７３％、比較例９の方法の場合は２７．２７％であり、検証の結果、実施例１が、比較例１および比較例９のいずれよりも精度が高いことが分かった。

次に、顔表情動作認識装置について説明する。図７は、顔表情動作認識装置の機能ブロック図を示している。
顔表情動作認識装置１は、映像取込手段３、顔領域検出手段４、特徴領域抽出手段５、動き成分算出手段６、ヒストグラム作成手段７、クラスタリング手段８、クラスタ観測頻度算出手段９および認識手段１０から構成される。
映像取込手段３は、測定対象の人の顔が映った映像データ２を取り込む。映像データ２は、例えば、ビデオカメラ等により撮像されたディジタルデータである。顔領域検出手段４は、映像取込手段３によって取り込まれた映像中の各フレームから顔の特徴点を検出して顔領域を自動検出する。特徴領域抽出手段５は、顔領域検出手段４によって検出された顔領域から少なくとも目、鼻および口の特徴領域を抽出する。動き成分算出手段６は、特徴領域抽出手段５によって抽出された特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する。ヒストグラム作成手段７は、動き成分算出手段６によって算出された動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成する。クラスタリング手段８は、ヒストグラム作成手段７によって作成されたヒストグラムを用いて、時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングする。クラスタ観測頻度算出手段９は、クラスタリング手段８によって得られたデータと基準顔データベース（Ｄ／Ｂ）１１から読み込んだデータを比較して、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出する。認識手段１０は、クラスタ観測頻度算出手段９によって算出されたクラスタ観測頻度情報を用いて計測対象の顔の表情又は動きを認識する。

本発明の顔表情動作認識方法および顔表情動作認識装置は、高齢者の精神疾患の早期発見、テレコミュニケーション支援或は人とコミュニケーションをとるロボットの開発等、人の表情認識を利用するシステムに有用である。
本発明の顔表情動作認識方法および顔表情動作認識装置によれば、顔の表情や動作を認識することができるため、表情から、その人のさまざまな感情（楽しい、悲しいなど）や内部状態（疲労など）を推定可能である。こうした感情や内部状態がわかると、車両のドライバー支援、オフィス作業支援、人の人や人とシステムの間のインタラクション支援、ライフログなど、多様な応用を実現できる。

１顔表情動作認識装置
２映像データ
３映像取込手段
４顔領域検出手段
５特徴領域抽出手段
６動き成分算出手段
７ヒストグラム作成手段
８クラスタリング手段
９クラスタ観測頻度算出手段
１０認識手段
１１基準顔データベース

Claims

測定対象の映像中の各フレームから対象物の特徴領域を抽出し、前記特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の対象物の状態と動作を認識することを特徴とする対象物状態動作認識方法。
請求項１の対象物状態動作認識方法において、前記対象物を顔とし、前記対象物の状態を顔の表情とする認識方法であって、
測定対象の映像中の各フレームから顔の特徴領域を抽出し、前記特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識することを特徴とする顔表情動作認識方法。
１）測定対象の映像を取り込む映像取込ステップと、
２）前記映像中の各フレームから顔領域を検出する顔領域検出ステップと、
３）顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップと、
４）前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップと、
５）前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップと、
６）時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップと、
７）映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップと、
８）各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ、
を備えたことを特徴とする請求項２に記載の顔表情動作認識方法。
前記動き成分算出ステップにおいて、
オプティカルフローの動きモデルを用いて、映像中の隣り合うフレームの間で、前記特徴領域の全ての画素毎の２次元移動度ベクトルを算出し、画素単位で動き方向および動き量を算出することを特徴とする請求項３に記載の顔表情動作認識方法。
前記ヒストグラム作成ステップにおいて、
前記ヒストグラムは、前記動き方向および前記動き量に基づくＨＯＯＦ（Histograms of Oriented Optical Flow）で算出され、
前記動き方向における左右対称のものは同じ方向の階級とされることを特徴とする請求項４に記載の顔表情動作認識方法。
コンピュータに、
測定対象の映像中の各フレームから対象物の特徴領域を抽出するステップと、
前記特徴領域の画素単位で動き方向および動き量を算出するステップと、
動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするステップと、
基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するステップと、
測定対象の対象物の状態と動作を認識するステップ、
を実行させるための対象物状態動作認識プログラム。
請求項１の対象物状態動作認識プログラムにおいて、前記対象物を顔とし、前記対象物の状態を顔の表情とする認識プログラムであって、
コンピュータに、
測定対象の映像中の各フレームから顔の特徴領域を抽出するステップと、
前記特徴領域の画素単位で動き方向および動き量を算出ステップと、
動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングステップと、
基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出ステップと、
測定対象の顔の表情と動作を認識するステップ、
を実行させるための顔表情動作認識プログラム。
測定対象の映像を取り込み、前記映像中の各フレームから顔領域を検出して、測定対象の顔の表情と動作を認識するプログラムであって、
コンピュータに、
１）前記顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップと、
２）前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップと、
３）前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップと、
４）時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップと、
５）映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップと、
６）各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ、
を実行させるための請求項７に記載の顔表情動作認識プログラム。
請求項６の対象物状態動作認識プログラム、或は、請求項７又は８の顔表情動作認識プログラムを搭載した顔表情動作認識装置。
測定対象の映像を取り込む映像取込手段と、前記映像中の各フレームから対象物領域を検出する対象物領域検出手段とを備え、測定対象の対象物の状態と動作を認識する装置であって、
対象物領域から対象物の特徴領域を抽出する特徴領域抽出手段と、
前記特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段と、
前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段と、
基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
計測対象の対象物の状態又は動きを認識する認識手段、
を備えたことを特徴とする対象物状態動作認識装置。
請求項１０の対象物状態動作認識装置において、前記対象物を顔とし、前記対象物の状態を顔の表情とし、測定対象の顔の表情と動作を認識する装置であって、
測定対象の映像中の各フレームから顔の特徴領域を抽出する特徴領域抽出手段と、
前記特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段と、
前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段と、
基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
計測対象の顔の表情又は動きを認識する認識手段、
を備えたことを特徴とする顔表情動作認識装置。
測定対象の映像を取り込む映像取込手段と、
前記映像中の各フレームから顔領域を検出する顔領域検出手段と、
顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出手段と、
前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出手段と、
前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリング手段と、
映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識手段、
を備えたことを特徴とする請求項１１に記載の顔表情動作認識装置。