JP5300795B2 - 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム - Google Patents

顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム Download PDF

Info

Publication number
JP5300795B2
JP5300795B2 JP2010146531A JP2010146531A JP5300795B2 JP 5300795 B2 JP5300795 B2 JP 5300795B2 JP 2010146531 A JP2010146531 A JP 2010146531A JP 2010146531 A JP2010146531 A JP 2010146531A JP 5300795 B2 JP5300795 B2 JP 5300795B2
Authority
JP
Japan
Prior art keywords
expression
facial expression
category
amplification
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010146531A
Other languages
English (en)
Other versions
JP2012008949A (ja
Inventor
史朗 熊野
和弘 大塚
弾 三上
淳司 大和
英作 前田
洋一 佐藤
鷺梅 蘇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010146531A priority Critical patent/JP5300795B2/ja
Publication of JP2012008949A publication Critical patent/JP2012008949A/ja
Application granted granted Critical
Publication of JP5300795B2 publication Critical patent/JP5300795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、動画像中の人物の顔から、その表情(怒り、笑い、驚きなど)を認識する顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラムに関する。
表情は、他者と感情を伝達し合う手段として、最も基本的な非言語行動であると言われている。そのため、画像に基づく表情認識に関する研究が、これまでコンピュータビジョン分野を中心として盛んに行われてきた。しかし、これまでの表情認識手法の多くは、表情のカテゴリを認識することに主眼が置かれ、大げさに表出した表情を用いて表情カテゴリの識別器を学習している。このため、学習用に事前に準備した表情と同程度の表出強度の大げさな表情については正しく認識できるものの、微細な(表出強度の小さな)表情については、正しく認識することが困難であった。
大げさな表情データを用いて学習した表情カテゴリの識別器をベースとして微細な表情を正しく推定する試みの1つとして、これまでに、認識対象の表情のデータの表出強度を増幅した後に、識別器にかける方法が提案されている(例えば、非特許文献1参照)。この方法では、画像における動き情報を元に、その表情変化による顔画像の変形を線形に増幅する。
Sungsoo Park, Daijin Kim: "Subtle facial expression recognition using motion magnification", Pattern Recognition Letters 30 (2009) 708−716.
上述した非特許文献1による従来技術では、入力データが増幅される方向を決定する際に、そのデータがどのような表情カテゴリであるのかが考慮されていない。しかし、表情による顔の時間的・空間的な変形は、複雑であるため、その表情のカテゴリを考慮することなく、動き情報のみから単純に表情情報を線形に増幅したのでは、結果として誤ったカテゴリの表情に類似したデータが生成される恐れがある。
さらに、従来技術では、決定した増幅の方向に対して、どれだけ増幅すればよいのかについても、経験的に決定した一意の値が使用されている。このため、様々な強度で表出された表情のカテゴリを正しく認識できるとは言い難い。また、その表出強度についても推定していない。
本発明は、このような事情を考慮してなされたものであり、その目的は、微細な表情であっても正しく認識することができ、また、表情の表出強度についても推定することができる顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラムを提供することにある。
上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段とを備えることを特徴とする顔表情増幅装置である。
本発明は、上記の発明において、前記表情増幅手段は、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段とを備えることを特徴とする。
また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と、前記表情増幅手段によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識手段とを備えることを特徴とする表情認識装置である。
本発明は、上記の発明において、前記表情増幅手段は、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段とを備えることを特徴とする。
また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップとを含むことを特徴とする顔表情増幅方法である。
本発明は、上記の発明において、前記表情増幅ステップは、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップとを含むことを特徴とする。
また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと、前記表情増幅ステップによって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識ステップとを含むことを特徴とする表情認識方法である。
本発明は、上記の発明において、前記表情増幅ステップは、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップとを含むことを特徴とする。
また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習機能、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅機能、を実行させることを特徴とするプログラムである。
本発明は、上記の発明において、前記表情増幅機能によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識機能を更に実行させることを特徴とする。
この発明によれば、微細な表情であっても正しく認識することができ、また、表情の表出強度についても推定することができる。
本発明の実施形態による表情認識装置の全体構成を示すブロック図である。 本実施形態での対象人物の顔面上に配置された複数の特徴点の座標値(位置情報)を示す模式図である。 本実施形態において、それぞれのカテゴリについて表出強度を変化させた場合の特徴ベクトルの軌跡を示す概念図である。 本実施形態において、増幅ベクトル及び増幅スケールを示す概念図である。 本実施形態において、増幅スケールと表出強度との間の関係を示す概念図である。 本実施形態において、入力データに対する、様々なカテゴリ及び表出強度の仮説に対する増幅結果を示す概念図である。
以下、本発明の一実施形態を、図面を参照して説明する。
本発明の特徴は、入力される微細な表情のデータに対して、そのカテゴリの表情の表出強度を最大限まで高めるという表情の増幅を行うことで、微細な表情であっても、そのカテゴリを推定することができる点にある。特に、その表情の増幅を行う際に、入力された表情のカテゴリと表出強度とを考慮することに特徴がある。
これにより、表情の表出強度に対して頑健にカテゴリを認識可能となると共に、そのときの表出強度も推定可能となる。具体的には、カテゴリと表出強度とについて様々な状態を仮定して増幅を行い、それぞれの増幅結果と、それら対象カテゴリについて最大限に表出された表情のデータそれぞれとの類似の度合に基づいて、入力された表情のカテゴリと表出強度とを推定する。
図1は、本発明の実施形態による表情認識装置の全体構成を示すブロック図である。また、図2は、本実施形態での対象人物の顔面上に配置された複数の特徴点(M=26点)の座標値(位置情報)を示す模式図である。図1において、入力部1は、図2に示すような対象人物の顔面上に配置された複数の特徴点の座標値(位置情報)の無表情時からの変位を時系列に出力する。表情増幅パラメータ学習部2は、入力部1から出力される学習データセットを受け、それぞれの表情カテゴリについて、最大表出強度でない、それぞれの表出強度における表情データを、その最大表出強度に対する表情データに増幅するためのパラメータを学習する。
表情増幅部3は、表情のカテゴリ、及び表出強度の値の組についての仮説を複数生成し、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。
表情認識部4は、入力部1から出力される入力データzを受け、それを様々な強さで増幅したときに、それが学習した最大表出強度の表情にどれだけ類似しているのかに基づいて、カテゴリの認識結果を決定する。そのとき、さらに、それぞれ増幅の強さに対応する入力データの表情の表出強度を算出することで表出強度の推定結果(^)iとする。
本実施形態では、表情のカテゴリcとして、6基本表情、すなわち、幸福、怒り、驚き、恐れ、嫌悪、及び悲しみを対象とする。すなわち、c={1,…,6}であり、対象カテゴリ数は、N=6である。ここでは、6基本表情を対象としているが、その他にも、思考中や、憂鬱など、どのようなカテゴリを認識の対象としても構わない。一方、表情の表出強度iは、連続値であり、無表情時を「0」、そのカテゴリの表情を最大限に表出したときを「1」であるとする。以下、各構成部について詳細に説明する。
(入力部)
入力部1は、目や、口といった顔部品周辺に配置されたJ個の特徴点のD次元(ここでは、D=3とする)の座標値が、表情変化に伴う無表情時からの変位を並べたベクトル(特徴ベクトルと呼ぶ、数式(1)参照)を時系列に出力する。
Figure 0005300795
ここで、次式(2)に示す値は、j番目の特徴点についての無表情時における座標(数式(3)参照)からの変位(数式(4)参照)を表す。以下でも、いずれのベクトルの下付きの添え字jも、そのベクトルのj番目の特徴点についての値、あるいはベクトルを表すこととする。
Figure 0005300795
Figure 0005300795
Figure 0005300795
この座標値xは、顔に固定された顔座標系上に定義されているものとする。ここでは、図2のように、顔の中心を原点として、鉛直方向、水平方向、及び紙面垂直方向を、それぞれの座標軸とする。あるいは、特徴点の位置情報を2次元(D=2)として、水平方向、及び垂直方向に対する座標値を用いても構わない。
本実施形態では、特徴点の3次元(D=3)の座標値を高速に計測する手段として、30〜100frame/secで動作するモーションキャプチャシステムを想定する。すなわち、対象物表面に小さなマーカを貼り付けた状態で、その人物を複数台のカメラにて撮影し、その画像中でのマーカの位置からそれらマーカの3次元座標を算出する。
このマーカの位置の検出方法としては、緑色の塗料を顔面上に小さく塗ったものをマーカとして、カラー映像から検出する方法がある。あるいは、赤外光をよく反射する素材をマーカとして、赤外光を照射しながら赤外以外の波長の光をフィルタでカットし、撮影した画像から検出する方法もある。または、そのようなマーカを使用せずとも、顔のテクスチャ情報のみから特徴点を検出できるのであればそうして構わない。なお、各人物に対する顔面上での特徴点の数、及び配置は、同一であるものとする。
また、これらの方法により、まず、得られるのは、特徴点の世界座標系上での座標であるが、ここでは、何らかの方法で既に顔座標系に変換されているものとする。その方法としては、例えば、頭など表情変化に依存しない部位にも3つ以上のマーカを取り付けておき、ある一時刻のデータ中で、それらを用いて顔座標系を定義しておく。そして、他の全ての時刻のデータに対して、それらのマーカ同士が顔座標系を定義したデータ上で重なるように、マーカ全体に対して3次元の並進、及び回転を施すことで、世界座標系から顔座標系への変換が可能である。
この特徴ベクトルxは、入力部1において、人物毎に無表情時を基準として正規化される、すなわち、任意の人物の無表情時のベクトルxNeutralがなるべく等しくなるよう変換される。そのような正規化は、次のようにして行われる。
まず、次で述べる学習データセット中からある1人の人物の無表情時の特徴ベクトルxNeutralを選択する。その人物の任意の表情の特徴ベクトルについては、そのまま出力する。一方、他の人物については、全ての特徴ベクトルxに対して、射影gを施したベクトルg(x)を出力する。この射影gについては、その人物の無表情時の特徴ベクトルがなるべくxNeutralに近くなるようなパラメータを求める。この射影gとしては、例えば、最も簡単なものの1つとして、特徴点座標空間の各座標軸に対して、スケーリングを施す方法がある。D=3であれば、パラメータは3つであり、対角行列を用いて、次式(5)と表される。
Figure 0005300795
この3つのパラメータs,s,sについては、基準とした人物の無表情時の特徴ベクトルxNeutralに対する、それぞれの人物の無表情時の特徴ベクトルの射影後のベクトルg(x)の誤差の二乗の和が最小になる値、すなわち、最小二乗誤差基準に従って算出する。なお、この他にも、AAM(Active Appearance Models)のように、個人毎の特徴ベクトルのばらつきについての基底を求め、その上位(主要な)いくつかの基底の線形和がなるべくxNeutralに近くなるようなパラメータを算出するという方法でも構わない。
(学習データ)
1人、あるいは複数人の人物についての様々なカテゴリに対する表情の表出を複数回分用意する。1回の表出は、無表情から開始して対象の表情を最大限に表出するまでとする。また、それぞれの表出データ中の個々のフレームに対して、そのとき表出されている表情のカテゴリc、及び、その表出強度iが人手などにより事前に付与されているものとする。
図3は、本実施形態において、それぞれのカテゴリcについて表出強度iを変化させていった場合の特徴ベクトルzc,iの軌跡を示す概念図である。そのような時系列のデータ中の個々のフレームを独立したデータとみなして、1つの学習データとする。この学習データのセットのうち、表出強度が最大のものの集合をZAPEX、そうでないものの集合をZnon−APEXと表す。なお、学習データの数とその中でのデータのばらつきは認識精度に影響を及ぼすが、学習データ中には、認識対象のカテゴリそれぞれについて少なくとも1回分の表出データが含まれている必要がある。
なお、ここでは、各学習データに対して表情の表出強度が事前に与えられていることを仮定した。もし、表出強度について事前に与えられていなければ、何らかの方法で自動的に表出強度を推定した結果を用いても構わない。例えば、各表情カテゴリに対して1つの特徴点を選び、その特徴点の移動量から表出強度を決定してもよい。この選択する特徴点としては、幸福表情であれば口の端部、驚き表情であれば眉毛の中央部などが考えられる。そして、その特徴点が無表情時から移動した距離を表出強度とすることが考えられる。なお、このとき、対象表情の最大表出強度時には表出強度が1になるように距離の正規化を行うこととする。
(入力データ)
入力データは、1人の人物があるカテゴリの表情を表出している間の時刻tにおいて計測された特徴ベクトルzである。
(表情増幅パラメータ学習部)
表情増幅パラメータ学習部2は、様々なカテゴリcに対して、様々な表出強度i(<1.0)における特徴ベクトルzc,iと、対応するカテゴリを最大限に表出した(i=1.0)際の特徴ベクトルzc,APEXとの間の違いを学習する。これにより、最大限でない表出強度の特徴ベクトルzとその表情のカテゴリcとが与えられた際に、そのカテゴリcの最大表出時の特徴ベクトル(^)zc,APEXへと増幅できるようになる。
以下では、学習データが各カテゴリに対して1回分の表出データのみが用意されていると仮定して説明する。
ここでは、カテゴリcの表出強度iにおける特徴ベクトルzc,iを、そのカテゴリcの最大表出強度まで増幅する処理を、j番目の特徴点に対して、次式(6)にて行う。
Figure 0005300795
ここで、数式(6)の左辺の変数L1は、増幅後の特徴ベクトルを表し、数式(6)の右辺の変数R3(∈R)は、カテゴリcの表出強度iにおける特徴点jの増幅方向を示すベクトル(増幅ベクトルと呼ぶ)を表し、数式(6)の右辺の変数R2は、その増幅ベクトル(R3)に対するスケーリング係数(増幅スケールと呼ぶ)をそれぞれ表す。
図4は、増幅ベクトル(R3)及び増幅スケール(R2)を示す概念図である。本実施形態では、この増幅ベクトルΔzc,iについて、カテゴリ依存、かつ表出強度非依存(表出強度に関わらずカテゴリのみによって変化する)とする場合(正確に記述するとΔzとなる)、及び、カテゴリ依存、かつ表出強度依存(カテゴリ毎、さらにその表出強度に応じて変化する)とする場合の2つの場合について説明する。
前者の場合が有用なのは、それぞれの表情カテゴリを表出した際に、各特徴点が表情変化に伴い移動していく方向が、表出強度に関わらずほぼ一定であるような表情を推定対象とする場合である。すなわち、図4において、表出強度が変化したときに特徴ベクトルが線形(直線的)に変化する場合である。
一方、後者の場合が有用なのは、それぞれの表情カテゴリを表出した際に、各特徴点が表情変化に伴い移動していく方向が、そのときの表出強度に応じて変化するような表情を推定対象とする場合である。すなわち、図4において、表出強度が変化したときに特徴ベクトルが非線形(曲線的)に変化する場合である。
なお、増幅スケール(数式(6)のR2)については、ここでは、カテゴリ依存、かつ表出強度依存とするが、次式(7)で表されるカテゴリ非依存としても構わない。但し、増幅スケールは、基本的に表出強度と負の関係があるため(すなわち、入力表情の表出強度が小さければ増幅スケールが大きくなる)、表出強度については依存させる必要がある。
Figure 0005300795
(カテゴリ依存かつ表出強度非依存の増幅ベクトルΔzc,iを使用する場合)
増幅ベクトルを、次式(8)と定義する。
Figure 0005300795
増幅スケール(数式(6)のR2)については、増幅ベクトルの方向に増幅した結果が最大表出強度のデータ(数式(8)の右辺を参照)に最も近づく値とする。すなわち、数式(9)とする。
Figure 0005300795
ここで、||a||は、ベクトルaのL2ノルムを表す。このとき、数式(9)の右辺は、次式(10)として算出可能である。
Figure 0005300795
として算出可能である。ここで、<a,b>は、ベクトルaとベクトルbの内積を表す。図5は、増幅スケール(数式(10))と表出強度iとの間の関係を示す概念図である。図5には、1番目から5番目までの特徴点の例を示している。
(カテゴリ依存かつ表出強度依存の増幅ベクトルΔzc,iを使用する場合)
増幅ベクトル、及び増幅スケールが共にカテゴリ依存かつ表出強度依存であるため、それらは、次式(11)と次式(12)と次式(13)とが結合した形で得られる。
Figure 0005300795
Figure 0005300795
Figure 0005300795
両者を分離するために、ここでは、全ての増幅スケール(数式(13))を、「1」と仮定して、数式(12)を次式(14)とする。
Figure 0005300795
なお、それぞれのカテゴリにおいて、学習データ中に含まれていない表出強度(すなわち、数式(14)の右辺の変数R1が存在しない表出強度)に対しては、学習データ中に含まれる表出強度に対する学習結果を用いて算出することとする。どのような方法を用いても構わないが、例えば、その1つの方法として、線形補間を用いる方法がある。このとき、対象の表出強度iを挟む学習データ中に含まれる2つの表出強度(数式(15)参照)に対する学習結果を、それぞれ、数式(16)で表されるとすると、次式(17)、(18)などとすればよい。
Figure 0005300795
Figure 0005300795
Figure 0005300795
Figure 0005300795
この他の方法としては、2次以上の多項式や、Spline曲線を当てはめるという方法など考えられる。
また、ここでは、学習データが各カテゴリに対して1回分の表出データのみが用意されていると仮定して説明した。学習データ中に、同一の{c,i}の組み合わせのデータが複数存在する場合には、まず、それぞれのデータに対して独立に増幅ベクトル(数式(17)参照)と増幅スケール(数式(13)参照)とをそれぞれ学習し、その後にそれらの平均をとったものを学習結果とすればよい。
(表情増幅部)
表情増幅部3は、仮説生成部3−1と表情データ増幅部3−2とからなる。まず、仮説生成部3−1は、表情のカテゴリ、及び表出強度の値の組{c,i}についての仮説を複数生成する。次いで、表情データ増幅部3−2は、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。
(仮説生成部)
仮説生成部3−1は、それぞれが推定対象である表情のカテゴリ及び表出強度についての様々な値の組(数式(19)参照)を持つ仮説を複数出力する。
Figure 0005300795
ここで、Nは、仮説の数である。ここでは、これらの仮説の集合をHと表す。本実施形態では、表情のカテゴリ、及び表出強度について全探索を行うこととする。但し、表出強度については、一定のサンプリング間隔で、0から1までの表出強度を、N−1分割したときの値のみを探索対象とする。すなわち、このときの仮説の数は、N=N×Nである。
なお、その他の方法として、対象データの直前の時刻における、数式(20)に示す推定結果を用いて、その近傍のみに仮説を生成するという方法を用いても構わない。
Figure 0005300795
(表情データ増幅部)
表情データ増幅部3−2は、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。表情データ増幅部3−2は、テストデータz、及び、カテゴリと表出強度とについての仮説集合{c,i}を入力として、それぞれの仮説に対して、そのカテゴリcについての最大表出強度の表情のデータへと増幅した結果(数式(21)参照)を出力する。
Figure 0005300795
増幅は、次式(22)に従って行われる。
Figure 0005300795
(表情認識部)
表情認識部4は、カテゴリと表出強度についての仮説集合と、それぞれの仮説に応じて増幅された入力データの集合を入力として、入力データのカテゴリ、及び表出強度の推定結果を出力する。この表情認識部4は、それぞれの仮説毎に、その増幅された結果がどの程度尤もらしいのかを評価する表情評価部4−1、及び、それら評価された仮説集合に基づき推定結果を算出する推定結果算出部4−2とからなる。
(表情評価部)
表情評価部4−1は、様々な仮説を元に増幅されたデータ(数式(23)参照)を入力として、それぞれに対して、仮説の保持するカテゴリに対する最大表出強度を持つ学習データzc,APEXに対する類似度に基づくスコア(数式(24)参照)を出力する。
Figure 0005300795
Figure 0005300795
このスコアの計算方法としては、様々なものが考えられる。ここでは、スコアを、簡単な指標として、数式(25)と定義する。
Figure 0005300795
ここで、d(a,b)は、ベクトルaとベクトルbとの距離であり、ここでは、d(a,b)=||a−b||とする。
図6は、入力データzに対して様々なカテゴリ、及び表出強度の仮説を用いて増幅結果した結果に対する距離を示す概念図である。仮説が保持するカテゴリ及び表出強度が入力データの真の値に一致するときに、各カテゴリについての増幅結果(数式(23)参照)と学習データ中の最大表出時の表情におけるデータzc,APEXとの間の距離(数式(26)参照)が最小になる。
Figure 0005300795
なお、この表情評価部としては、対象とする表情データを入力とすると、評価したいカテゴリに対する類似度を返す識別器であれば、任意の識別器を適用することが可能である。例えば、既存の表情認識でも使用されることの多いSVM(Support Vector Machines)であれば、識別境界面からの距離をシグモイド関数に入れた結果(0〜1)を出力とすることで適用可能となる。
(推定結果算出部)
推定結果算出部4−2は、仮説集合Hに含まれる、それぞれの仮説に対するスコア(数式(24)参照)に基づいて、最終的なカテゴリと表出強度とについての一意の推定値(数式(27))を出力する。
Figure 0005300795
この最終的な推定値のシンプルな算出方法には、様々考えられるが、ここでは、スコアが最大になる仮説(数式(28参照))を推定値とすることとする。
Figure 0005300795
他の方法としては、スコアを重みとみなした重み付け平均に基づく方法が考えられる。まず、それぞれのスコアを、仮説全体についてスコアの和が1となるように正規化する。そして、その正規化されたスコアを重みとした重み付き平均を、カテゴリ毎に算出する。その重み付け平均が最も大きなカテゴリをカテゴリの推定値とする。そして、そのカテゴリを持つ仮説に対する、正規化されたスコアを重みとした表出強度の重み付き平均を表出強度の推定値とする。
上述した実施形態によれば、顔面上の目や口といった特徴点の移動の情報に基づいて、前処理として、入力データ中の表情の表出強度を増幅することで、微細な表情であっても正しく認識することができる。また、そのときにどれだけ増幅したのかに基づいて、表情の表出強度についても推定することができる。
1 入力部
2 表情増幅パラメータ学習部
3 表情増幅部
3−1 仮説生成部
3−2 表情データ増幅部
4 表情認識部
4−1 表情評価部
4−2 推定結果算出部

Claims (10)

  1. 人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、
    入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と
    を備えることを特徴とする顔表情増幅装置。
  2. 前記表情増幅手段は、
    入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、
    前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段と
    を備えることを特徴とする請求項1に記載の顔表情増幅装置。
  3. 人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、
    入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と、
    前記表情増幅手段によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識手段と
    を備えることを特徴とする表情認識装置。
  4. 前記表情増幅手段は、
    入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、
    前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段と
    を備えることを特徴とする請求項3に記載の表情認識装置。
  5. 人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、
    入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと
    を含むことを特徴とする顔表情増幅方法。
  6. 前記表情増幅ステップは、
    入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、
    前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップと
    を含むことを特徴とする請求項5に記載の顔表情増幅方法。
  7. 人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、
    入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと、
    前記表情増幅ステップによって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識ステップと
    を含むことを特徴とする表情認識方法。
  8. 前記表情増幅ステップは、
    入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、
    前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップと
    を含むことを特徴とする請求項7に記載の表情認識方法。
  9. 人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習機能、
    入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅機能、
    を実行させることを特徴とするプログラム。
  10. 前記表情増幅機能によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識機能
    を更に実行させることを特徴とする請求項9に記載のプログラム。
JP2010146531A 2010-06-28 2010-06-28 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム Active JP5300795B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010146531A JP5300795B2 (ja) 2010-06-28 2010-06-28 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010146531A JP5300795B2 (ja) 2010-06-28 2010-06-28 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012008949A JP2012008949A (ja) 2012-01-12
JP5300795B2 true JP5300795B2 (ja) 2013-09-25

Family

ID=45539380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010146531A Active JP5300795B2 (ja) 2010-06-28 2010-06-28 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5300795B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4163867A4 (en) * 2020-06-09 2023-04-26 Fujitsu Limited DECISION PROGRAM, DECISION DEVICE AND DECISION PROCESS

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170031814A (ko) * 2015-09-11 2017-03-22 한국과학기술원 얼굴의 미세 표정 인식 방법 및 장치
JP7037159B2 (ja) * 2019-11-08 2022-03-16 国立大学法人大阪大学 被験者の顎運動を測定するためのシステム、プログラム、および方法
US11935329B2 (en) 2021-03-24 2024-03-19 I'mbesideyou Inc. Video analysis program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043345A (ja) * 1999-07-28 2001-02-16 Mitsubishi Electric Corp 表情認識装置、およびそれを用いた投薬制御システム、覚醒レベル評価システム、回復評価システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4163867A4 (en) * 2020-06-09 2023-04-26 Fujitsu Limited DECISION PROGRAM, DECISION DEVICE AND DECISION PROCESS

Also Published As

Publication number Publication date
JP2012008949A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
EP3324333A2 (en) Method and apparatus to perform facial expression recognition and training
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Littlewort et al. Dynamics of facial expression extracted automatically from video
JP4950787B2 (ja) 画像処理装置及びその方法
KR102462818B1 (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
US8849017B2 (en) Image processing apparatus, image processing method, program, and recording medium for learning from moving images
Geetha et al. A vision based dynamic gesture recognition of indian sign language on kinect based depth images
Murtaza et al. Analysis of face recognition under varying facial expression: a survey.
Zeng et al. View-invariant gait recognition via deterministic learning
JP6207210B2 (ja) 情報処理装置およびその方法
JP2007538318A5 (ja)
JP2018514036A (ja) 次元データ低減を有するマシンビジョン
Li et al. Efficient 3D face recognition handling facial expression and hair occlusion
Akakın et al. Robust classification of face and head gestures in video
JP6465027B2 (ja) 特徴点位置推定装置、特徴点位置推定方法および特徴点位置推定プログラム
KR100988323B1 (ko) 표정 증폭을 이용한 미세 표정인식 방법 및 장치
Wilhelm Towards facial expression analysis in a driver assistance system
JP5300795B2 (ja) 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム
JP2013003706A (ja) 表情認識装置、方法、及びプログラム
Zheng et al. Facial expression recognition based on texture and shape
WO2015176502A1 (zh) 一种图像特征的估计方法和设备
JP2013003706A5 (ja)
Amara et al. Emotion recognition via facial expressions
Sun et al. Using backpropagation neural network for face recognition with 2D+ 3D hybrid information
KR20210054349A (ko) 환자의 상지 동작에 의해 도출되는 특징값을 이용한 임상평가척도 예측 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

TRDD Decision of grant or rejection written
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130618

R150 Certificate of patent or registration of utility model

Ref document number: 5300795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350