JP2017162409A - 顔の表情と動作の認識装置及び方法 - Google Patents

顔の表情と動作の認識装置及び方法 Download PDF

Info

Publication number
JP2017162409A
JP2017162409A JP2016048920A JP2016048920A JP2017162409A JP 2017162409 A JP2017162409 A JP 2017162409A JP 2016048920 A JP2016048920 A JP 2016048920A JP 2016048920 A JP2016048920 A JP 2016048920A JP 2017162409 A JP2017162409 A JP 2017162409A
Authority
JP
Japan
Prior art keywords
motion
movement
feature
face
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016048920A
Other languages
English (en)
Inventor
群 石
Qun Shi
群 石
浮田 宗伯
Munenori Ukita
宗伯 浮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanmar Co Ltd
Original Assignee
Yanmar Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanmar Co Ltd filed Critical Yanmar Co Ltd
Priority to JP2016048920A priority Critical patent/JP2017162409A/ja
Publication of JP2017162409A publication Critical patent/JP2017162409A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】自然な会話状態での顔の表情と動作を認識可能な顔表情動作認識方法及び装置を提供する。【解決手段】測定対象の映像中の各フレームから顔の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識する。【選択図】図5

Description

本発明は、映像を用いて、測定対象となる顔の表情を解析する技術に関するものである。
近年、人とロボットがコミュニケーションをとる等のために、顔の表情を認識するシステムの開発に対するニーズが高まっている。これを受けて、様々な方法で、表情認識システムが開発されている。
その1つとして、FACS(Facial Action Cording System:顔面動作符号化システム)による方法がある。これは、顔面筋肉の解剖学的知見を基礎として、表情に伴う顔の動きをアクションユニットと呼ばれる最小単位に分解し、アクションユニットの組み合わせによって、人間のあらゆる表情を記述可能としたものである。
しかしながら、アクションユニットは人間によって定義されたものであることから、その数が限定されており、表情に微妙な変化が多くある自然な会話の中では判断が困難であるという問題がある。また、FACSによる方法は、ある状態について判断するものに過ぎず、時間的な変化は定義されていない。
2つ目の方法として、ダイナミックモデルによる方法がある。
これは例えば、「笑い」について判断する場合、ニュートラルな状態、笑い始め、笑いの頂点および笑い終わりを定義し判断ポイントとし、あるインプットデータ中に笑いのループが検出されれば笑いと認識するというものである。
しかしながら、かかる方法においても、自然な会話では必ずしも上記のようなループが形成されないという問題がある。また、笑いながら喋るといった複合的な表情には対応することが困難である。
そこで、撮影環境の変動に対しても頑健に撮影画像から顔表情の変化度を測定する顔表情変化度測定装置が知られている(特許文献1を参照)。
上記特許文献1に開示された顔表情変化度測定装置は、被写体の撮影画像において顔領域検出手段によって検出された顔領域からSURFを特徴点として抽出する画像特徴量抽出手段と、被写体の標準顔から抽出されたSURFをクラスタに分類すると共に、当該被写体の入力顔から抽出されたSURFを、標準顔のSURFを分類したときの各クラスタのうち特微量に関して最も距離の近いクラスタに分類するクラスタリング手段と、標準顔に対して分類された各クラスタと、入力顔に対して分類された各クラスタの双方について、クラスタ毎にクラスタ中のSURFの個数を頻度とするヒストグラムをそれぞれ作成するヒストグラム作成手段と、標準顔ヒストグラムと入力顔ヒストグラムとの差分を被写体の顔表情変化度として算出する差分算出手段とを備える。
しかしながら、特徴点についての変化度のみを測定するため、精度の高い計測が困難であるという問題がある。
従来の方法においては、顔のパーツの動きを連続的な特徴として表現しているため、瞬間的な笑顔やむっとした顔のように、その時系列変化がほとんど変化しないような場合には十分な性能を発揮する。しかし、その時系列性が崩れるような一般的な表情や状態の変化、例えば、数秒間喋り続けたり、頷いたりしている場合には、パーツの動きの順序が変化してしまうため、これらを認識対象とすると正しく認識されないという問題があった。
特開2011−237970号公報
Y.L. Tian, T. Kanade and J.F. Cohn, "Recognizing action units for facial expression analysis," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.23, no.2, pp.97--115, Feb 2001. G. Sandbach, S. Zafeiriou, M. Pantic and D. Rueckert, "A dynamic approach to the recognition of 3D facial expressions and their temporal models," in IEEE International Conference on Automatic Face & Gesture Recognition, pp.406--413, 2011.
上記状況に鑑みて、本発明は、自然な会話状態での顔の表情と動作を認識可能な顔表情動作認識方法及び装置を提供することを目的とする。
上記課題を解決すべく、本発明の対象物状態動作認識方法は、測定対象の映像中の各フレームから対象物の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の対象物の状態と動作を認識する。
そして、本発明の顔表情動作認識方法は、上記の本発明の対象物状態動作認識方法において、対象物を顔とし、対象物の状態を顔の表情とする認識方法であって、測定対象の映像中の各フレームから顔の特徴領域を抽出し、特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおけるヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識する。
本発明の対象物状態動作認識方法によれば、対象物をカメラで撮影した映像から、対象物の状態や動作を認識することができる。
また、本発明の顔表情動作認識方法によれば、人の顔をカメラで撮影した映像から、その人の表情、対話中や頷き中などの動作状態を認識することができる。
すなわち、従来の方法のように、時系列データの変化の順序が一定であることを仮定して、標準顔とのマッチングを行うのではなく、対象物や顔の動きの特徴に着目し、時系列データ中の各変化の発生頻度をヒストグラムとして特徴量化し、この特徴量のマッチングで認識を実現する。
本発明の方法において、測定対象の映像の撮影の際は、好ましくは、シングルビューの2Dカメラを用い、対象物や顔を正面から撮影する。
本発明の顔表情動作認識方法において、映像中の各フレームから抽出する顔の特徴領域は、目、鼻、口など表情や動作状態の変化が表れやすい部位を取り囲む領域であることが好ましいが、顔全体の領域であっても構わない。抽出された特徴領域において、画素単位で動き成分を計算し、その動き成分を方位ごとにヒストグラム化する。ここで、動き成分とは、動き方向と動き量であり、ヒストグラムは、動き方向を階級とし同一方向の動き量の積算を頻度とするものである。そして、時系列の複数フレームにおけるヒストグラムの推移が、動き特徴量と見做される。
本発明では、この動き特徴を、映像中の全フレームでクラスタリングし、各クラスタが観測された頻度を計算する。そして、算出した頻度情報を、対象物の状態や顔の表情と動作の認識に利用する特徴量とし、汎用的な識別機械学習器を用いて、映像中に写っている対象物や人の顔の状態を認識する。
本発明の顔表情動作認識方法は、具体的には、以下のステップ1)〜8)を備える。
1)測定対象の映像を取り込む映像取込ステップ
2)映像中の各フレームから顔領域を検出する顔領域検出ステップ
3)顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップ
4)特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップ
5)動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップ
6)時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップ
7)映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップ
8)各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ
ここで、本発明の顔表情動作認識方法の動き成分算出ステップは、具体的には、オプティカルフローの動きモデルを用いて、映像中の隣り合うフレームの間で、特徴領域の全ての画素毎の2次元移動度ベクトルを算出し、画素単位で動き方向および動き量を算出する。
また、本発明の顔表情動作認識方法のヒストグラム作成ステップにおいて、ヒストグラムは、動き方向および動き量に基づくHOOF(Histograms of Oriented Optical Flow)で算出され、動き方向における左右対称のものは同じ方向の階級とされることが好ましい。
人の顔の特徴部分の動きは、一般的に左右対称の動きとなることから、動き方向における左右対称のものは同じ方向として扱うことにする。
次に、本発明の対象物状態動作認識プログラム、並びに、顔表情動作認識プログラムについて説明する。
本発明の対象物状態動作認識プログラムは、コンピュータに、以下のステップS1)〜S5)を実行させる。
S1)測定対象の映像中の各フレームから対象物の特徴領域を抽出するステップ
S2)特徴領域の画素単位で動き方向および動き量を算出するステップ
S3)動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするステップ
S4)基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出するステップ
S5)測定対象の対象物の状態と動作を認識するステップ
また、本発明の顔表情動作認識プログラムは、本発明の対象物状態動作認識プログラムにおいて、対象物を顔とし、対象物の状態を顔の表情とする認識プログラムであって、コンピュータに、以下のステップS11)〜S15)を実行させる。
S11)測定対象の映像中の各フレームから顔の特徴領域を抽出するステップ
S12)特徴領域の画素単位で動き方向および動き量を算出ステップ
S13)動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングステップ
S14)基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出ステップ
S15)測定対象の顔の表情と動作を認識するステップ
本発明の顔表情動作認識プログラムは、具体的には以下の通りである。
本発明の顔表情動作認識プログラムは、測定対象の映像を取り込み、映像中の各フレームから顔領域を検出して、測定対象の顔の表情と動作を認識するプログラムであって、コンピュータに以下のステップS21)〜S26)を実行させる。
S21)顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップ
S22)特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップ
S23)動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップ
S24)時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップ
S25)映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップ
S26)各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ
本発明の顔表情動作認識装置は、上記の本発明の対象物状態動作認識プログラム、或は、本発明の顔表情動作認識プログラムを搭載するコンピュータである。
次に、本発明の対象物状態動作認識装置、並びに、本発明の顔表情動作認識装置について説明する。
本発明の対象物状態動作認識装置は、測定対象の映像を取り込む映像取込手段と、映像中の各フレームから対象物領域を検出する対象物領域検出手段とを備え、測定対象の対象物の状態と動作を認識する装置であり、下記の手段A)〜F)を備える。
A)対象物領域から対象物の特徴領域を抽出する特徴領域抽出手段
B)特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段
C)動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
D)時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段
E)基準とする対象物の状態と動きを示す基準対象物の映像における動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段
F)計測対象の対象物の状態又は動きを認識する認識手段
上記の認識手段は、各クラスタが観測された頻度情報を用いて、計測対象の対象物の状態又は動きを認識する。
本発明の顔表情動作認識装置は、上記の本発明の対象物状態動作認識装置において、対象物を顔とし、対象物の状態を顔の表情とし、測定対象の顔の表情と動作を認識する装置であって、下記の手段a)〜f)を備える。
a)測定対象の映像中の各フレームから顔の特徴領域を抽出する特徴領域抽出手段
b)特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段
c)動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
d)時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段
e)基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段
f)計測対象の顔の表情又は動きを認識する認識手段
本発明の顔表情動作認識装置は、具体的には以下の構成を備える。
・測定対象の映像を取り込む映像取込手段
・映像中の各フレームから顔領域を検出する顔領域検出手段
・顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出手段
・特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出手段
・動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段
・時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリング手段
・映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出手段
・各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識手段
本発明の対象物状態動作認識装置及び方法によれば、対象物の瞬間的な状態変化だけでなく、対象物の個々の特徴部分の多様な動きや状態の変化を正しく認識できるようになるといった効果がある。すなわち、対象物のグローバルな動きではなく、対象物の局所的な変化を捉え、正しく認識できる。
本発明の顔表情動作認識装置及び方法によれば、「話している際には、その話している時間の長さに関係なく口が上下に動いている」や、「頷いている際には、その頷きの回数に関係なく頭部全体の上下運動が繰り返される」というような顔の動きの特徴を捉えることにより、瞬間的な表情変化だけでなく、顔や頭部の多様な動きや状態の変化を伴う表情を正しく認識できるようになり、日常会話における自然な行動から、顔の表情を認識することが可能になるといった効果がある。
顔の特徴領域の動きの説明図 画素の動きベクトル成分のヒストグラム化の説明図 内部状態シーケンスの説明図 ヒストグラムの推移の説明図 本発明の顔表情動作認識方法の説明図 本発明の顔表情動作認識方法のフロー図 顔表情動作認識装置の機能ブロック図
以下、本発明の実施形態の一例を、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
なお、以下の実施例では、本発明の顔表情動作認識装置及び方法について説明を行うが、本発明の対象物状態動作認識装置及び方法において、対象物を顔とし、対象物の状態を顔の表情としていることから、実質的に、本発明の対象物状態動作認識装置及び方法を説明するのと同じであろう。
図1〜6を参照して、本発明の顔表情動作認識方法について説明する。
(1)映像取込ステップ(S01)
測定対象の人の顔が映った映像データを取り込む。映像データはメモリに記録された映像ファイルでも、ストリーミングデータとして送られてくるリアルタイムな映像でもよい。
(2)顔領域検出ステップ(S03)
映像中の各フレームから顔の特徴点を検出して顔領域を自動検出する(図1(1)を参照)。検出アルゴリズムは公知のものを利用する。例えば、アクティブ形状モデル(ASM)が顔の特徴点を検出するために使用される。具体的には、77の特徴点を用いて顔のパーツの輪郭を記述し、フォームに各フレームを抽出する。
(3)特徴領域抽出ステップ(S05)
顔領域から少なくとも目、鼻および口の特徴領域を抽出する(図1(2)を参照)。顔のROI(Region Of Interest)セグメンテーションを行い、目、鼻、口など表情や動作状態の変化が表れやすい部位を取り囲む領域を抽出する。上記(2)のステップにおいて検出された特徴点の位置に基づいて、目、鼻、口の顔のパーツの小領域を、矩形ウィンドウとしてセグメント化する。矩形ウィンドウの長さと幅は、動きの範囲を加味して、各ROI(目、鼻、口など)の長さと幅の2倍に設定する。
(4)動き成分算出ステップ(S07)
特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する(図1(3)を参照)。すなわち、抽出されたROI内の高密度オプティカルフローの計算を行う。顔の動きに関して、可能な限り多くの情報をキャプチャするために、セグメント化された矩形ウィンドウ内の全ての画素で計算する。すなわち、効果的に顔の筋肉の微妙な動きのダイナミクスを検出するために、各ROI内の密なオプティカルフローの特徴を画素毎に分ける。そして、時系列に並ぶ時間幅tに存在する複数のフレームに対してそれぞれ計算する。セグメント化された矩形ウィンドウのサイズが長さmで幅nとするとm×nの画素に分割できる。また、フローシーケンスは、t×m×nの3次元ブロック毎に分割される。t×m×nは、各3次元ブロックのサイズであり、入力データの解像度に応じて調節されることが必要である。映像データの解像度をR、映像データの時間長をLとすると、{R/(m×n)}×{L/t}が、3次元ブロックの個数になる。
各ブロックに、そのブロック内の動きを表現するために、高密度オプティカルフローの方向と長さに基づいて、HOOFの特徴を計算する(図2を参照)。HOOFの機能を選択した理由は、動くオブジェクトのスケールや動き方向とは無関係であり、かつ、自然な顔の動作の認識に非常によくマッチするオプティカルフローが有する多くの小さなノイズに対してロバストであるからである。ここで、HOOFの特徴の計算は、各ブロック内で、先ず各画素のオプティカルフローをk方向に量子化し、次にk方向毎をビンとしてヒストグラム化する。ヒストグラム化の際には、各フローをヒストグラムに加算するときは、フローの長さに応じて重み付けを行う。
上記(2)〜(4)の3つのステップが、顔の動き特徴の抽出プロセスになる。
なお、動き成分を算出する際、グローバルな動作を減算する処理を行うことが好ましい。これは、顔のパーツの動きが、パーツ自身の動き(ローカルな動作)ではなく、身体や頭の動き(グローバルな動作)によってパーツが動くことが想定されることから、グローバルな動作を減算することで、グローバルな動きを多く含んでいる自然な行動のデータによりロバストにするためである。ここで、グローバルな動作を減算する処理について補足説明する。グローバルな動作を減算する処理は、先ず、オプティカルフローのパラメータを調整し、強いスムージング制約をかける。これによって計算されたオプティカルフローは、局所的な変化(例えば、目と口などのパーツの動き)が除去され、全体的な動き情報(例えば、顔全体の上下/左右移動など)だけが残る。ここで計算されたものをグローバルな動作として、強いスムージング制約のないオプティカルフロー(グローバルな動作と局所的な動作両方を含むフローデータ)に減算することにより、グローバルな動作を除去する。
(5)ヒストグラム作成ステップ(S09)
動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成する。ここで、ヒストグラムのビンの数は、選択可能なパラメータである。このステップの後、サンプリングされた各々の3次元ブロックは、HOOFのヒストグラムの時系列の推移の特徴記述子が含まれる。
(6)クラスタリングステップ(S11)
このステップは、時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングする。すなわち、動作プリミティブの辞書にブロックベースの特徴記述子をクラスタ化する。この考えは、複雑な顔の動きが多くの動作プリミティブから構成されていることに基づいている。顔の動きの異なるインスタンスは、それらの全体的な外観と動作の点で大きく異なる可能性があるが、それらが引き起こす動作プリミティブの多くは類似している。この前提の下で、可能な動作プリミティブの数は、事実上無制限であっても、動作プリミティブの種類の数は比較的少ないと言える。動作プリミティブのセットが決定されると、複雑な動作が動作プリミティブによって特徴付けられ、各々の動作が時間的なモーションセグメントに分割できる。動作認識の観点では、各々の動作プリミティブの正確な形は重要でなく、動作のタイプの判別が重要になる。
このクラスタリングステップでは、例えば、インターバルベースのハイブリッド力学系(IHDS:Interval based Hybrid Dynamical System)を用いることができる。IHDSにより、ブロックベースのHOOFのヒストグラムの推移をモデル化する。IHDSは、離散事象システムと微分方程式によって記述される動的システムから構成される。インターバルで操作することにより、IHDSは、線形動的システムの階層的クラスタリングを含む効率的な学習技術を提供する。また、IHDSでは学習したパラメータを用いて高精度でダイナミックモードのシーケンスに新たに観測されたデータをモデル化することが可能である。図4は、2つの線形動的システム(D,D)における時間的なシーケンスから、3つの離散状態(q,q,q)にモデル化する様子を示している。図3に示すように、IHDSは2層構造を有している。第1層は、インターバルの確率的遷移をモデル化する有限状態オートマトンを有している。第2層は、複数の線形動的システムD={D,・・・,D}のセットで構成される。これらの2つの層を統合するために、インターバルが使用されている。各インターバルの区間は(q,τ)で記述されている。ここで、qは自動的に離散状態を示し、τはインターバルの物理的な持続時間の長さを示す。これは、ユニークな線形動的システムDに対応するオートマトンの各状態qを想定している。
動的システムの状態遷移は、下記の式(1)によってモデル化される。
ここで、xt(上バーは省略)は時刻tにおける区間状態ベクトルである。F(i)は遷移行列、g(i)(上バーは省略)はバイアスベクトルである。ωt (i)(上バーは省略)は、ガウス分布によってモデル化されるプロセスノイズである。なお、各々の動的システムは、独自のF(i)、g(i)、ωt (i)を有し、全ての力学系が同じ内部状態空間を共有する。
IHDSの学習の目的は、線形動的システムの数(N)と、全ての線形動的システムDのパラメータセットを推定することである。ここで、推定する両者は、相互に影響、依存していることから、一つの変量を求めるためには、もう一つの変量を固定しなければならない。
そのため、パラメータセットの推定プロセスは、下記の2つのステップに分けられる。
(1)ステップ1:典型的なトレーニングデータセットを使用して動的システムをクラスタリングするプロセス
ステップ1では、固有値制約に基づく線形システムの階層的クラスタリングにより、線形動的システムの個数およびパラメータ概値を推定する。
(2)ステップ2:全てのトレーニングデータを用いて期待値最大化(EM)アルゴリズムに基づいて、全てのパラメータを精錬するプロセス
ステップ2ではステップ1で推定されたパラメータ概値により、線形システムの個数を固定して、近似的なEMアルゴリズムを行ってパラメータを調整する。EMアルゴリズムの詳細は、公知文献の「H. Kawashima and T. Matsuyama: “Multiphase learning for an interval-based hybrid dynamical system”, IEICE transactions on fundamentals of electronics, communications and computer sciences, 88, 11, pp. 3022−3035 (2005) 」に詳細に記載されている。
また同時に、時間間隔のシーケンスにおいて、全てのトレーニングデータをモデル化することができる。学習アルゴリズムの詳細は公知文献の「H. Kawashima and T. Matsuyama. Interval-based linear hybrid dynamical system for modeling cross-media timing structures in multimedia signals. In International Conference on Image Analysis and Processing, pages 789−794, 2007.」に詳細に記載されている。
全ての可能な動的なプリミティブのパラメータを学習するためには、大量の映像データが学習段階で必要である。学習段階の後、学習したIHDSを使用して、新たに観測された信号のデータをモデル化することができる。観察シーケンスが与えられると、IHDSは、例えば、公知のビタビ・アルゴリズムに基づいて尤度計算方法を用いて、観測されたデータを記述するための最良の最適な間隔シーケンスを見つけることができる。本発明では、IHDSを使用して、間隔の配列へ新たに観測されたデータ系列(特徴ベクトル系列)をモデル化することができる。
IHDSを使用して、各ブロック内蹄機能のダイナミクスは線形動的システムによってモデル化される。EMアルゴリズムに基づいて、LDSのパラメータをクラスタ化した後、LDSのK個のクラスタとして動作プリミティブの辞書を取得する。ここで、Kは事前に定義することができるパラメータである。
(7)クラスタ観測頻度算出ステップ(S13)
映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出する。
(8)認識ステップ(S15)
各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する。
認識ステップは、学習データを使用して、新しい映像シーケンスを分類することである。笑いながら話す行為や、話しながら頷く行為のような、複合された顔の動きを認識するため、異なる仮定に基づいて設定された2つの戦略A、Bを考える。
戦略Aは、シンプルな動きに等しい独立した顔の動きを考慮したものであり、複合的な表情(例えば、笑いながら喋る)は、その表情を構成する単純な表情(笑いや喋り)とは関係なく、全く独立的な特徴をもっていると仮定し、実際に表情を認識するときは、複合的な表情を完全に独立なクラスとして認識するといった戦略である。
一方、戦略Bは、単純な顔の動きの組み合わせのような複合された顔の動きを考慮したものであり、複合的な表情は、その表情を構成する単純な表情の動きの特徴を持っていると仮定し、実際に表情を認識するときは、1つのインプットデータが2つの単一な表情クラスの特徴を持っているならば、このインプットデータをその2つの表情クラスで合成された複合的な表情として認識するといった戦略である。すなわち、戦略Bでは、複合的な表情は複数の単純な表情の組み合わせとして考える。なお、顔の動きの分類のため、サポートベクターマシン(SVM)を用いる。
実験システムのセットアップは、日常の会話における顔の表情と動きを分析するための自然な環境を意識した。実験に用いる会話シナリオは、2人がスカイプ(登録商標)を使用して互いにラップトップコンピュータに話すテレコミュニケーションのシーンとした。会話シナリオの映像は、1280×720、25 FPSのフレームレートの解像度の下で、ビデオレコーディングソフトウェアによって記録されたものを使用した。
上記のシステムを用いて、別の人によって行われたテレコミュニケーション対話の複数のビデオシーケンスをキャプチャした。データ収集のために、スカイプを通じてペアでお互いに話しをする14人に依頼し、それぞれの会話中に2人の参加者の挙動が捕捉され、それぞれ記録された。各ビデオが生じる顔の動作量を確保するために少なくとも10分間会話を持続させた。参加者は、異なる年齢、異なる性別、異なる人種をカバーしている。そして、会話中、中立顔(Neutral)、話している顔、笑っている顔、頷いている顔、話しながら頷く顔、笑いながら頷く顔、笑いながら話す顔の7つのカテゴリが含まれるように、会話シナリオを設定した。前の4つの顔の動作は単純な顔の動作に帰属し、後の3つの顔の動作は複合された顔の動作に帰属する。
実施例1の顔表情動作認識方法の前処理として、テレコミュニケーション対話の長いビデオシーケンスから、顔動作変化を含む短いビデオセグメントを抽出する。具体的には、7つのカテゴリの内の1つのタイプの顔の動作を行った短いビデオセグメントを準備し、合計5000フレームをIHDSのパラメータの学習に使用した。顔の動作変化を含む短いビデオセグメントは150個抽出し、半分ずつ、学習データとテストデータとして使用した。ここで、前処理について補足説明する。テレコミュニケーション対話のビデオデータは、連続的な日常会話の長いビデオデータであり、認識を行う前に、先ずスボッティングという処理をする。具体的には、長いビデオデータから、7つのカテゴリの内の1つのタイプの顔の動作を行った短いビデオセグメントを抽出する処理である。この処理が前処理である。この前処理は手動で行っても自動で行ってもよい。
実施例1の顔表情動作認識方法に関して、7種類の自然な会話シナリオにおける実験結果を説明する。実施例1の顔表情動作認識方法を、実際の映像で評価した結果、従来法でも正しく認識しやすい瞬間的な表情変化のみを含んだデータセットにおいても、定量的に優位な性能を示し、特に、自然対話中の喋っている状態、頷いている状態、笑いながらしゃべっている状態など、自然な状態における表情と動作の認識において優位性が顕著であった。以下に性能評価データを示しながら詳細に説明する。
下記表1は認識精度の実験結果を示している。なお、実験の分類には、公知のオープンソースの機械学習ライブラリであるLib SVMを使用している。ここで、Lib SVMについては、公知文献の「C. C. Chang and C. Lin. Libsvm: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2(3):27, 2011.」に詳細に記載されている。なお、認識精度を向上させるために、自由に設定できる2つのパラメータに対して、データの数量、解像度や複雑度などに応じて適当な数値を与えることにした。2つのパラメータとは、辞書サイズとHOOFあたりビン数である。HOOFあたりビン数は、経験的に20となるように設定しているが、データの解像度に応じて調整できる。また、辞書サイズとして、K=30を適当な概値として用いた。
表1について説明する。表1では、7種類の自然な会話シナリオとして、中立顔(Neutral)、話している顔(Speaking)、笑っている顔(Smiling)、頷いている顔(Nodding)、N.+Sp.(話しながら頷く顔)、N.+Sm. (笑いながら頷く顔)、Sm.+Sp.(笑いながら話す顔)のカテゴリに分類している。表1の中立顔(Neutral)の列の数字は、中立顔(Neutral)を中立顔(Neutral)と認識する割合、中立顔(Neutral)を話している顔(Speaking)と認識する割合、中立顔(Neutral)を笑っている顔(Smiling)と認識する割合などを示している。
ここで、表中の数字は、顔の動作の分類のために使用したサポートベクタマシンの用い方の2つの戦略(戦略Aまたは戦略B)のそれぞれの割合を併記しており、戦略Aは括弧の外側の数字であり、戦略Bは括弧の内側の数字である。
表1に示すように、戦略Aの場合、カテゴリ内の顔の動作の7種類を認識する性能値として、81.7%(={96 + 78.7 + 80 + 81.3 + 76 + 82.7 + 77.3}÷7)の平均精度を達成し、戦略Bの場合、同性能値として、85.1%(={97.3 + 86.7 + 84 + 92 + 85.3 + 88 + 62.7}÷7)の平均精度を達していた。
一般的に、戦略Bは、殆どの顔の動作で戦略Aよりも性能が優れていた。このことは、表情や動きが複合した顔は、単純な顔の表情の組み合わせとして考えることができることを示している。例えば、“笑顔ながら話す”(Sm.+Sp.)では、戦略Bは戦略Aと比較して低い認識率を示すが、“笑顔ながら話す”の顔の動作は、顔の側面の唇の動きがデータ全体にわたって継続的に検出することができるからである。また、笑顔の側面に関して対応する動きは、主に多くの場合、その表情の始めに検出されるため、表情が終わるまでの間の多くの入力データに含まれていない。すなわち、全データの内で、笑顔に対応する動きがあるのは非常に小さい割合である。各瞬間に顔の部品の特定の形状を気にせず、顔の動き特徴を捉えていることから、戦略Bの下では、“笑顔ながら話す”(Sm.+Sp.)は、“笑っている顔”(Smiling)よりも、“話している顔”(Speaking)と高い類似性を有する。
(本発明の性能評価)
ベンチマークテスト用のオープンデータベースを用いて性能評価した結果を説明する。
性能評価に用いたデータベースは、Oulu-CASIA VIS、MMIおよびAFEW(Acted Facial Expression in Wild)の3つである。
先ず、“Oulu-CASIA VIS”のデータベースを用いて性能評価を行った結果を示す。“Oulu-CASIA VIS”のデータベースには、23〜58歳の80人の被験者の6つの基本的表情(怒り、嫌悪、恐怖、喜び、悲しみ、驚き)が備えられている。各ビデオはニュートラルな顔(中立顔)で始まり、それぞれの基本的表現のピークで終了する。実施例1と比較例1〜3のそれぞれの方法を用いて、このデータベースの480シーケンスについて、人に依存しない10分割交差検定を行った。その結果を下記表2に示す。
なお、表2に示す比較例1の方法のSTM-ExpLetは、公知文献の「M. Liu, S. Shan, R. Wang, and X. Chen. Learning expres-sionlets on spatio-temporal manifold for dynamic facial ex-pression recognition. In CVPR, pages 1749−1756, 2014.」に詳細に記載されている。また、比較例2の方法のAtlasesは、公知文献の「Y. Guo, G. Zhao, and M. Pietikainen. Dynamic facial expression recognition using longitudinal facial expression atlases. In ECCV, pages 631−644. Springer, 2012.」に詳細に記載されている。比較例3の方法のAdaLBPは、公知文献の「G. Zhao, X. Huang, M. Taini, S. Z. Li, and M. Pietikainen. Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9):607−619, 2011.」に詳細に記載されている。
上記表2に示すように、“Oulu-CASIA VIS”のデータベースを用いて、実施例1の方法を用いた場合に、正確に表情を認識できた割合は77.51%であった。比較例1の方法を用いた場合は74.59%、比較例2の方法を用いた場合は75.52%、比較例3の方法を用いた場合は73.54%であり、検証の結果、実施例1の方法が、比較例1〜3のいずれの方法よりも精度が高いことが分かった。
次に、“MMI”のデータベースを用いて性能評価を行った結果を示す。“MMI”のデータベースには、19〜62歳の男女30人の被験者の表情が備えられており、236のシーケンスは6つの基本的表情で標識され、その内の205のシーケンスは顔の正面(正面ビュー)がキャプチャされたものである。各シーケンスは、単一の表情タイプの開始(onset)、ピーク(apex)、終了(offset)の顔をキャプチャしている。実施例1と比較例1,4〜8のそれぞれの方法を用いて、このデータベースの正面ビューのすべてのデータを使用して、人に依存しない10分割交差検定を行った。その結果を下記表3に示す。
なお、表3に示す比較例4の方法のCSPLおよび比較例5の方法のCPLは、公知文献の「L. Zhong, Q. Liu, P. Yang, B. Liu, J. Huang, and D. N. Metaxas. Learning active facial patches for expression analysis. In CVPR, pages 2562−2569, 2012.」に詳細に記載されている。比較例6の方法のITBNおよび比較例7の方法のHMMは、公知文献の「Z. Wang, S. Wang, and Q. Ji. Capturing complex spatiotemporal relations among facial muscles for facial expression recognition. In CVPR, pages 3422−3429, 2013.」に詳細に記載されている。比較例8の方法のADLは、公知文献の「C. Shan, S. Gong, and P. W. McOwan. Facial expression recognition based on local binary patterns: A comprehensive study. Image and Vision Computing, 27(6):803−816, 2009.」に詳細に記載されている。
上記表3に示すように、“MMI”のデータベースを利用して、実施例1の方法を用いた場合に、正確に表情を認識できた割合は78.83%である。これに対して、比較例1の方法の場合は75.12%、比較例4の方法の場合は73.53%、比較例5の方法の場合は49.36%、比較例6の方法の場合は59.7%、比較例7の方法の場合は51.5%、比較例8の方法の場合は47.78%であり、検証の結果、実施例1の方法が比較例1,4〜8のいずれの方法よりも精度が高いことが分かった。
また、“AFEW”のデータベースを用いて性能評価を行った結果を示す。“AFEW”のデータベースは、制御されていない環境での自発的な表現を描写またはシミュレートし、現実世界に近い条件である映画から収集されたものである。このデータベースは、トレーニング、検証およびテストの3セットで構成され、6つの基本的表情と基準顔の計7種類の表情が備えられている。テストセットのグランドトゥルースは、未リリースのため、ここでは比較のための検証セットの結果のみを下記表4に示す。
なお、表4に示す比較例9の手法のEmotiWは、公知文献の「A. Dhall, R. Goecke, J. Joshi, M. Wagner, and T. Gedeon. Emotion recognition in the wild challenge 2013. In Proceedings of the ACM International Conference on Multimodal Interaction, pages 509−516, 2013.」に詳細に記載されている。
上記表4に示すように、“AFEW”のデータベースを利用して、実施例1の方法を用いた場合に、正確に表情を認識できた割合は34.32%である。これに対して、比較例1の方法の場合は31.73%、比較例9の方法の場合は27.27%であり、検証の結果、実施例1が、比較例1および比較例9のいずれよりも精度が高いことが分かった。
次に、顔表情動作認識装置について説明する。図7は、顔表情動作認識装置の機能ブロック図を示している。
顔表情動作認識装置1は、映像取込手段3、顔領域検出手段4、特徴領域抽出手段5、動き成分算出手段6、ヒストグラム作成手段7、クラスタリング手段8、クラスタ観測頻度算出手段9および認識手段10から構成される。
映像取込手段3は、測定対象の人の顔が映った映像データ2を取り込む。映像データ2は、例えば、ビデオカメラ等により撮像されたディジタルデータである。顔領域検出手段4は、映像取込手段3によって取り込まれた映像中の各フレームから顔の特徴点を検出して顔領域を自動検出する。特徴領域抽出手段5は、顔領域検出手段4によって検出された顔領域から少なくとも目、鼻および口の特徴領域を抽出する。動き成分算出手段6は、特徴領域抽出手段5によって抽出された特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する。ヒストグラム作成手段7は、動き成分算出手段6によって算出された動き方向を階級とし、同一方向の動き量の積算を頻度としてヒストグラムを作成する。クラスタリング手段8は、ヒストグラム作成手段7によって作成されたヒストグラムを用いて、時系列の複数フレームにおけるヒストグラムの推移を、動き特徴量としてクラスタリングする。クラスタ観測頻度算出手段9は、クラスタリング手段8によって得られたデータと基準顔データベース(D/B)11から読み込んだデータを比較して、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出する。認識手段10は、クラスタ観測頻度算出手段9によって算出されたクラスタ観測頻度情報を用いて計測対象の顔の表情又は動きを認識する。
本発明の顔表情動作認識方法および顔表情動作認識装置は、高齢者の精神疾患の早期発見、テレコミュニケーション支援或は人とコミュニケーションをとるロボットの開発等、人の表情認識を利用するシステムに有用である。
本発明の顔表情動作認識方法および顔表情動作認識装置によれば、顔の表情や動作を認識することができるため、表情から、その人のさまざまな感情(楽しい、悲しいなど)や内部状態(疲労など)を推定可能である。こうした感情や内部状態がわかると、車両のドライバー支援、オフィス作業支援、人の人や人とシステムの間のインタラクション支援、ライフログなど、多様な応用を実現できる。
1 顔表情動作認識装置
2 映像データ
3 映像取込手段
4 顔領域検出手段
5 特徴領域抽出手段
6 動き成分算出手段
7 ヒストグラム作成手段
8 クラスタリング手段
9 クラスタ観測頻度算出手段
10 認識手段
11 基準顔データベース

Claims (12)

  1. 測定対象の映像中の各フレームから対象物の特徴領域を抽出し、前記特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の対象物の状態と動作を認識することを特徴とする対象物状態動作認識方法。
  2. 請求項1の対象物状態動作認識方法において、前記対象物を顔とし、前記対象物の状態を顔の表情とする認識方法であって、
    測定対象の映像中の各フレームから顔の特徴領域を抽出し、前記特徴領域の画素単位で動き方向および動き量を算出し、動き方向を階級とし同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を動き特徴量として映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出し、測定対象の顔の表情と動作を認識することを特徴とする顔表情動作認識方法。
  3. 1)測定対象の映像を取り込む映像取込ステップと、
    2)前記映像中の各フレームから顔領域を検出する顔領域検出ステップと、
    3)顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップと、
    4)前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップと、
    5)前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップと、
    6)時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップと、
    7)映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップと、
    8)各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ、
    を備えたことを特徴とする請求項2に記載の顔表情動作認識方法。
  4. 前記動き成分算出ステップにおいて、
    オプティカルフローの動きモデルを用いて、映像中の隣り合うフレームの間で、前記特徴領域の全ての画素毎の2次元移動度ベクトルを算出し、画素単位で動き方向および動き量を算出することを特徴とする請求項3に記載の顔表情動作認識方法。
  5. 前記ヒストグラム作成ステップにおいて、
    前記ヒストグラムは、前記動き方向および前記動き量に基づくHOOF(Histograms of Oriented Optical Flow)で算出され、
    前記動き方向における左右対称のものは同じ方向の階級とされることを特徴とする請求項4に記載の顔表情動作認識方法。
  6. コンピュータに、
    測定対象の映像中の各フレームから対象物の特徴領域を抽出するステップと、
    前記特徴領域の画素単位で動き方向および動き量を算出するステップと、
    動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするステップと、
    基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するステップと、
    測定対象の対象物の状態と動作を認識するステップ、
    を実行させるための対象物状態動作認識プログラム。
  7. 請求項1の対象物状態動作認識プログラムにおいて、前記対象物を顔とし、前記対象物の状態を顔の表情とする認識プログラムであって、
    コンピュータに、
    測定対象の映像中の各フレームから顔の特徴領域を抽出するステップと、
    前記特徴領域の画素単位で動き方向および動き量を算出ステップと、
    動き方向を階級とし、同一方向の動き量の積算を頻度とするヒストグラム化を行い、時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングステップと、
    基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出ステップと、
    測定対象の顔の表情と動作を認識するステップ、
    を実行させるための顔表情動作認識プログラム。
  8. 測定対象の映像を取り込み、前記映像中の各フレームから顔領域を検出して、測定対象の顔の表情と動作を認識するプログラムであって、
    コンピュータに、
    1)前記顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出ステップと、
    2)前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出ステップと、
    3)前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成ステップと、
    4)時系列の複数フレームにおける前記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリングステップと、
    5)映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出ステップと、
    6)各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識ステップ、
    を実行させるための請求項7に記載の顔表情動作認識プログラム。
  9. 請求項6の対象物状態動作認識プログラム、或は、請求項7又は8の顔表情動作認識プログラムを搭載した顔表情動作認識装置。
  10. 測定対象の映像を取り込む映像取込手段と、前記映像中の各フレームから対象物領域を検出する対象物領域検出手段とを備え、測定対象の対象物の状態と動作を認識する装置であって、
    対象物領域から対象物の特徴領域を抽出する特徴領域抽出手段と、
    前記特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段と、
    前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
    時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段と、
    基準とする対象物の状態と動きを示す基準対象物の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
    計測対象の対象物の状態又は動きを認識する認識手段、
    を備えたことを特徴とする対象物状態動作認識装置。
  11. 請求項10の対象物状態動作認識装置において、前記対象物を顔とし、前記対象物の状態を顔の表情とし、測定対象の顔の表情と動作を認識する装置であって、
    測定対象の映像中の各フレームから顔の特徴領域を抽出する特徴領域抽出手段と、
    前記特徴領域の画素単位で動き方向および動き量を算出する動き成分算出手段と、
    前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
    時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量として、映像中の全フレームでクラスタリングするクラスタリング手段と、
    基準とする顔の表情と動きを示す基準顔の映像における前記動き特徴量と類似するクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
    計測対象の顔の表情又は動きを認識する認識手段、
    を備えたことを特徴とする顔表情動作認識装置。
  12. 測定対象の映像を取り込む映像取込手段と、
    前記映像中の各フレームから顔領域を検出する顔領域検出手段と、
    顔領域から少なくとも目、鼻および口の特徴領域を抽出する特徴領域抽出手段と、
    前記特徴領域内の全ての画素に対し、画素単位で動き方向および動き量を算出する動き成分算出手段と、
    前記動き方向を階級とし、同一方向の前記動き量の積算を頻度としてヒストグラムを作成するヒストグラム作成手段と、
    時系列の複数フレームにおける上記ヒストグラムの推移を、動き特徴量としてクラスタリングするクラスタリング手段と、
    映像中の全フレームでクラスタリングし、基準とする顔の表情と動きを示す基準顔の映像における基準顔クラスタの前記動き特徴量に関して最も近い距離尺度のクラスタの観測頻度を算出するクラスタ観測頻度算出手段と、
    各クラスタが観測された頻度情報を用いて計測対象の顔の表情又は動きを認識する認識手段、
    を備えたことを特徴とする請求項11に記載の顔表情動作認識装置。

JP2016048920A 2016-03-11 2016-03-11 顔の表情と動作の認識装置及び方法 Pending JP2017162409A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016048920A JP2017162409A (ja) 2016-03-11 2016-03-11 顔の表情と動作の認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016048920A JP2017162409A (ja) 2016-03-11 2016-03-11 顔の表情と動作の認識装置及び方法

Publications (1)

Publication Number Publication Date
JP2017162409A true JP2017162409A (ja) 2017-09-14

Family

ID=59857120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016048920A Pending JP2017162409A (ja) 2016-03-11 2016-03-11 顔の表情と動作の認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2017162409A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190130190A (ko) 2018-04-18 2019-11-22 한국생산기술연구원 로봇의 인간 얼굴 표정 학습 및 표정 구현 방법
CN110717414A (zh) * 2019-09-24 2020-01-21 青岛海信网络科技股份有限公司 一种目标检测追踪方法、装置及设备
CN110728604A (zh) * 2019-12-18 2020-01-24 恒信东方文化股份有限公司 一种分析方法及装置
WO2020121425A1 (ja) * 2018-12-12 2020-06-18 三菱電機株式会社 状態判定装置、状態判定方法、及び状態判定プログラム
CN111462190A (zh) * 2020-04-20 2020-07-28 海信集团有限公司 一种智能冰箱及食材录入方法
CN113255621A (zh) * 2021-07-13 2021-08-13 浙江大华技术股份有限公司 人脸图像过滤方法、电子设备和计算机可读存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11185990B2 (en) 2018-04-18 2021-11-30 Korea Institute Of Industrial Technology Method for learning and embodying human facial expression by robot
KR20190130190A (ko) 2018-04-18 2019-11-22 한국생산기술연구원 로봇의 인간 얼굴 표정 학습 및 표정 구현 방법
DE112018008131B4 (de) 2018-12-12 2022-10-27 Mitsubishi Electric Corporation Zustandsbestimmungseinrichtung, zustandsbestimmungsverfahren und zustandsbestimmungsprogramm
WO2020121425A1 (ja) * 2018-12-12 2020-06-18 三菱電機株式会社 状態判定装置、状態判定方法、及び状態判定プログラム
JPWO2020121425A1 (ja) * 2018-12-12 2021-05-20 三菱電機株式会社 状態判定装置、状態判定方法、及び状態判定プログラム
US11963759B2 (en) 2018-12-12 2024-04-23 Mitsubishi Electric Corporation State determination device, state determination method, and recording medium
CN110717414A (zh) * 2019-09-24 2020-01-21 青岛海信网络科技股份有限公司 一种目标检测追踪方法、装置及设备
CN110717414B (zh) * 2019-09-24 2023-01-03 青岛海信网络科技股份有限公司 一种目标检测追踪方法、装置及设备
CN110728604B (zh) * 2019-12-18 2020-03-31 恒信东方文化股份有限公司 一种分析方法及装置
CN110728604A (zh) * 2019-12-18 2020-01-24 恒信东方文化股份有限公司 一种分析方法及装置
CN111462190A (zh) * 2020-04-20 2020-07-28 海信集团有限公司 一种智能冰箱及食材录入方法
CN111462190B (zh) * 2020-04-20 2023-11-17 海信集团有限公司 一种智能冰箱及食材录入方法
CN113255621A (zh) * 2021-07-13 2021-08-13 浙江大华技术股份有限公司 人脸图像过滤方法、电子设备和计算机可读存储介质
WO2023284181A1 (en) * 2021-07-13 2023-01-19 Zhejiang Dahua Technology Co., Ltd. Method for filtering face images, electronic device, and computer-readable non-transitory storage medium

Similar Documents

Publication Publication Date Title
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
Pan et al. Video generation from single semantic label map
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Li et al. In ictu oculi: Exposing ai created fake videos by detecting eye blinking
JP2017162409A (ja) 顔の表情と動作の認識装置及び方法
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
Chhetri et al. Deep learning for vision‐based fall detection system: Enhanced optical dynamic flow
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN109063626B (zh) 动态人脸识别方法和装置
US20220138472A1 (en) System and Method for Detecting Fabricated Videos
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
Haber et al. A practical approach to real-time neutral feature subtraction for facial expression recognition
Wu et al. Convolutional LSTM networks for video-based person re-identification
Balasubramanian et al. Analysis of facial emotion recognition
Huang et al. Deepfake mnist+: a deepfake facial animation dataset
Thuseethan et al. Complex emotion profiling: An incremental active learning based approach with sparse annotations
Gupta et al. Gait recognition in the presence of co-variate conditions
Tautkutė et al. Classifying and visualizing emotions with emotional DAN
Song et al. Self-supervised learning of dynamic representations for static images
Kavyasree et al. Deep network-based hand gesture recognition using optical flow guided trajectory images
Krithika et al. MAFONN-EP: A minimal angular feature oriented neural network based emotion prediction system in image processing
Reddy et al. Human action recognition using difference of gaussian and difference of wavelet
Yang et al. Capturing spatial and temporal patterns for distinguishing between posed and spontaneous expressions
Alletto et al. Head pose estimation in first-person camera views
KR101956166B1 (ko) 비주얼 큐를 이용하여 비디오 시퀀스에서 토킹 세그먼트를 검출하는 방법 및 장치