JP5485044B2 - 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム - Google Patents

表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム Download PDF

Info

Publication number
JP5485044B2
JP5485044B2 JP2010143751A JP2010143751A JP5485044B2 JP 5485044 B2 JP5485044 B2 JP 5485044B2 JP 2010143751 A JP2010143751 A JP 2010143751A JP 2010143751 A JP2010143751 A JP 2010143751A JP 5485044 B2 JP5485044 B2 JP 5485044B2
Authority
JP
Japan
Prior art keywords
facial expression
category
dynamic property
expression
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010143751A
Other languages
English (en)
Other versions
JP2012008779A (ja
Inventor
史朗 熊野
和弘 大塚
弾 三上
淳司 大和
英作 前田
洋一 佐藤
鷺梅 蘇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010143751A priority Critical patent/JP5485044B2/ja
Publication of JP2012008779A publication Critical patent/JP2012008779A/ja
Application granted granted Critical
Publication of JP5485044B2 publication Critical patent/JP5485044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Processing (AREA)

Description

本発明は、人物の顔の表情を認識するための表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラムに関する。
顔の表情は他者と感情を伝達しあう手段として最も基本的な非言語行動であると言われている。そのため、画像に基づく表情認識に関する研究がこれまでコンピュータビジョン分野を中心として盛んに行われてきた。しかし、これまでの表情認識手法は、表情カテゴリは認識できるものの、その表情の動的性質、すなわち、表出の速度や強度といった表情の時間変化に関する性質については、複雑な性質を認識できるレベルに至っているとは言い難い。
例えば、非特許文献1では、Supervised Locality Preserving Projectionsを用いて学習した多様体中で、表情がどのように時間的に遷移するのかを確率的にモデル化し、入力動画像からベイズ推定の枠組みにて表情カテゴリを推定する手法が提案されている。また、非特許文献2では、顔の3次元形状が表情変化に伴いどのように変形するのかをモデル化しておき、入力の顔の3次元形状から2次元HMMを用いて表情カテゴリを推定する手法が提案されている。
Caifeng Shan, Shaogang Gong, and Peter W. McOwan: "Dynamic facial expression recognition using a Bayesian temporal manifold model", In Proc. of the British Machine Vision Conf, Vol.1, pp. 297-306, 2006. Yi Sun and Lijun Yin: "Facial expression recognition based on 3D dynamic range model sequences", In Proc. of the Tenth European Conference on Computer Vision, pp. 58-71, 2008.
しかしながら、非特許文献1、2の2つの手法をはじめとしてこれまでの表情認識手法は、表情カテゴリは認識できるものの、その表情の動的性質については複雑な性質を認識できるレベルに至っていないという問題がある。
本発明は、このような事情に鑑みてなされたもので、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能とする表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラムを提供することを目的とする。
本発明は、時系列の画像データから顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成するカテゴリ埋め込み手段と、前記カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成する動的性質埋め込み手段と、前記動的性質多様体情報を記憶する動的性質多様体情報記憶手段とを備え、前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、前記表情の動的性質空間は、前記表情の動的性質を表す固有空間であることを特徴とする。
また、本発明は、上記に記載の発明において、前記動的性質埋め込み手段は、前記学習データのカテゴリ空間上での座標y ∈R Nc を入力として、前記座標y からそれぞれの表情のカテゴリcの表出強度に相当する成分y’ c,t を抽出し、抽出した成分y’ c,t を一定時間長h分まとめた、段落0033の[数5]に記載の式で表されるベクトルy (c) を生成し、前記ベクトルy (c) に対して埋め込み法を用いて得られた動的性質空間上での座標z (c) を前記カテゴリ多様体情報として生成することを特徴とする。
本発明は、表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込み手段と、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込み手段と、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識手段とを備え、前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、前記表情の動的性質空間は、前記表情の動的性質を表す固有空間であることを特徴とする。
また、本発明は、前記動的性質埋め込み手段は、前記複数の特徴点の位置情報のカテゴリ空間上での座標y∈RNcを入力として、前記座標yからそれぞれの表情のカテゴリcの表出強度に相当する成分y’c,tを抽出し、抽出した成分y’c,tを一定時間長h分まとめた、段落0033の[数5]に記載の式で表されるベクトルy (c)を生成し、前記ベクトルy (c)に対して埋め込み法を用いて得られた動的性質空間上での座標z (c)を前記動的性質空間座標として生成することを特徴とする。
また、本発明は、前記表情認識手段は、前記カテゴリ空間座標及び前記動的性質空間座
標を入力データxとしたときに、表情のカテゴリc及び表情の動的性質mの同時事後確
率を最大化する表情のカテゴリ及び動的性質の組[^c,^m]を段落0036の[
数12]に記載の式により算出し、前記表情のカテゴリ及び動的性質の組[^c,^m
]における^mを前記表情認識対象人物の表情の動的性質とすることを特徴とする。
本発明は、時系列の画像データから各画像に含まれる顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段とを備える表情学習装置における表情学習方法であって、前記カテゴリ埋め込み手段が、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体情報記憶手段に記憶するカテゴリ埋め込みステップと、前記動的性質埋め込み手段が、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップと、を有し、前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、前記表情の動的性質空間は、前記表情の動的性質を表す固有空間であることを特徴とする。
本発明は、表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段と、表情認識手段とを備える表情認識装置における表情認識方法であって、前記カテゴリ埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、前記動的性質埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、前記表情認識手段が、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップとを有し、前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、前記表情の動的性質空間は、前記表情の動的性質を表す固有空間であることを特徴とする。
本発明は、コンピュータを表情学習装置として機能させるための表情学習プログラムである。
本発明は、コンピュータを表情認識装置として機能させるための表情学習プログラムである。
本発明によれば、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能になるという効果が得られる。また、表情が表出され始めた直後の表出強度が小さい、すなわち、無表情からそれほど大きく変化していない表情についても正しく認識できるようになる。例えば、一瞬表出された後、直ちに別の表情によって隠蔽された表情を認識することも可能となる。この表情の隠蔽が生じるのは、怒りや嫌悪といった感情を起因として不随意的、瞬間的かつ微細に表出される、社会的な場面においてはあまり望ましくない否定的な表情が、直ちに笑顔など他の肯定的あるいは中立的な表情によって隠されるといった場合である。このような隠蔽された表情を認識することは、対象人物の感情を正確に推定する上で重要である。
本発明の一実施形態の構成を示すブロックである。 対象人物の顔面上に配置された複数の特徴点一例を示す図である。 表情の運動のタイプの一例を示す図である。 3つの表情カテゴリ(幸福、驚き、怒り)についての3L次元の学習データを3次元へと埋め込みを行った結果の一例を示す図である。 3つの動的性質(通常、微細、大げさ)についてのh次元の学習データを3次元へと埋め込みを行った結果の一例を示す図である。 ベクトルyの概念を示す図である。 ベクトルyにおける異なる時間窓サイズの概念を示す図である。
以下、図面を参照して、本発明の一実施形態による表情学習装置及び表情認識装置を説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、時系列の画像データ(以下、時系列画像データと呼ぶ)から、図2に示すような対象人物の顔面上に配置された複数の特徴点の座標値(位置情報)を学習データあるいは入力データ(テストデータ)として出力する入力部である。符号2は、入力部1から出力され、学習データ(X)セット記憶部4に記憶された学習データのセットを入力し、表情のカテゴリ及び動的性質についての多様体を生成して、カテゴリ多様体(Y)記憶部5、動的性質多様体(Z)記憶部6に記憶する表情学習部である。表情学習部2は、カテゴリ埋め込み部21と動的性質埋め込み部22とからなるコンピュータ装置で構成する。
符号3は、入力部1から出力される入力データ(テストデータ)x7を入力し、カテゴリ空間座標y8,動的性質空間座標z9を求め、これらから入力データx7が表情学習部2より生成された表情のカテゴリ及び動的性質についての多様体のどれに類似しているかに基づき、入力データについて表情のカテゴリcと動的性質mの推定値
Figure 0005485044
からなる認識結果情報10を出力する表情認識部である。表情認識部3は、カテゴリ埋め込み部31と動的性質埋め込み部32とカテゴリ及び動的性質認識部33とからなるコンピュータ装置で構成する。なお、図1に示す表情学習部2、表情認識部3はそれぞれ異なるコンピュータ装置で構成してもよいし、表情学習部2、表情認識部3をまとめて1台のコンピュータ装置で構成してもよい。
ここでは、基本表情のカテゴリとして、幸福、怒り、驚き、恐れ、嫌悪、及び、悲しみの6つの表情を対象とする。すなわち、c∈{1,…,6}であり、対象カテゴリ数はN=6である。動的性質については、図3に示すような、通常、微細、大げさ、高速及び低速の5つを対象とする。すなわち、m∈{1,…,5}であり、対象動的性質の数はN=5である。表情のカテゴリ及び動的性質のいずれについても、どのような状態を認識の対象としても構わない。例えば、動的性質については、微細かつ高速といった組み合わせの状態を認識対象の1つとしてもよい。
次に、学習データについて説明する。1人あるいは複数人の人物についての様々なカテゴリc及び動的性質mに対する表情の表出を複数回分予め用意しておく。1回の表出は、無表情から開始して対象の表情を表出してから無表情に戻るまでとする。そのような時系列のデータ中の個々のフレームを独立したデータとみなして、1つの学習データとする。この学習データのセットをX={x,c,mi=1,…,Nと表す。ここで、iはデータの番号(ID)を、Nは学習データの総フレーム数をそれぞれ表す。なお、学習データの数とその中でのデータのばらつきは認識精度に影響を及ぼすが、学習データ中には、認識対象のカテゴリc及び動的性質mについての表情が、それぞれ少なくとも1回分含まれているように用意しておく必要がある。
次に、表情認識を行うべき対象の入力データについて説明する。入力データは、1人の人物がある動的性質のあるカテゴリの表情を表出している間の特徴点座標の時系列データである。時刻tにおいて計測された特徴ベクトルをxと表す。
次に、図1に示す入力部について説明する。入力部1は、目や口といった顔部品周辺に配置されたL個の特徴点のD次元の座標値を並べたベクトルx=[x1,1,…,x1,D,x2,1,…,x2,D,…,xL,1,…,xL,D∈RDLを高い時間分解能で時系列に出力する。このベクトルxを特徴ベクトルと呼ぶ。ここで、xi,dはi番目の特徴点のd番目の次元の成分を表す。高い時間分解であることは表情の複雑な動的性質を識別するために必要である。ここでは、特徴点の3次元(D=3)の座標値を高速に計測する手段として、例えば100frame/secで動作するモーションキャプチャシステムを用いる。すなわち、対象物表面に小さなマーカーを貼り付けた状態で、その人物を複数台のカメラにて撮影し、これを入力部に入力される時系列画像データとし、各画像中でのマーカーの位置からそれらマーカーの3次元座標を算出する。
このマーカーの位置の検出方法としては、緑色の塗料を顔面上に小さく塗ったものをマーカーとして、カラー映像から検出する方法を用いることができる。あるいは、赤外光をよく反射する素材をマーカーとして、赤外光を照射しながら赤外以外の波長の光をフィルタでカットしながら撮影した画像から検出する方法も用いることができる。または、そのようなマーカーを使用せずとも顔のテクスチャ情報のみから特徴点を検出できるのであればそうして構わない。あるいは、特徴点の位置情報として単に単眼カメラ画像中の特徴点の画像座標(D=2)を用いても構わない。なお、各人物に対する顔面上での特徴点の数及び配置は同一であるものとする。これらの座標値を高速に計測する手段は、公知の方法を用いるため、ここでは詳細な説明を省略する。
この特徴ベクトルxは、入力部1において、人物毎に無表情時を基準として正規化される。すなわち、任意の人物の無表情時の特徴ベクトルxが等しくなるよう変換される。そのような正規化は次のようにして行われる。まず、前述した学習データセット中からある一人の人物の無表情時の特徴ベクトルxBASEを選択する。その人物の任意の表情の特徴ベクトルについてはそのまま出力する。一方、他の人物については、全ての特徴ベクトルxに対して射影gを施したベクトルg(x)を出力する。この射影gについては、その人物の無表情時の特徴ベクトルがなるべくxBASEに近くなるようなパラメータを求める。この射影gとしては、例えば、最も簡単なものの1つとして、特徴点座標空間の各座標軸に対してスケーリングを施す方法を用いる。
例えば、D=3であれば、パラメータは3つであり、対角行列を用いて、
Figure 0005485044
と表される。この3つのパラメータs,s,sについては、基準とした人物の無表情時の特徴ベクトルxBASEに対する、それぞれの人物の無表情時の特徴ベクトルの射影後のベクトルg(x)の誤差の二乗の和が最小になる値、すなわち、最小二乗誤差基準に従って算出する。なお、この他にも、AAM(Active Appearance Models)のように、個人毎の特徴ベクトルのばらつきについての基底を求め、その上位(主要な)いくつかの基底の線形和がなるべく特徴ベクトルxBASEに近くなるようなパラメータを算出するという方法でも構わない。
次に、図1に示すカテゴリ埋め込み部21、31について説明する。カテゴリ埋め込み部は、入力されるデータxを、各軸が認識対象のカテゴリのうちの1つに対応したN次元の空間(カテゴリ空間と呼ぶ)へと埋め込み、そのカテゴリ空間上での座標y∈RNcを出力する。学習データをこの低次元のカテゴリ空間に埋め込んだ際に形成される多様体(カテゴリ多様対Yとよぶ)の一例を図4に示す。図4において、各点は1つのフレームを表している。このカテゴリ空間では、表情カテゴリ毎に分離された多様体が形成されるため、表情カテゴリを認識することがもともとの入力データの空間上よりも認識が容易となる。ここでは、表情変化、すなわち、特徴ベクトルxの状態が、動的性質に関わらずそのときの表出強度のみに依存することを仮定する。このとき、このカテゴリ空間は表情の動的性質とは独立となる。すなわち、カテゴリ空間上に形成される図4のような多様体は、表情のカテゴリのみに依存して分離されており、同じカテゴリで動的性質の違う表情はそのカテゴリの多様体上での移動の仕方の違いとして現れる。
次に、表情学習部2のカテゴリ埋め込み部21の処理動作を説明する。まず、距離行列M∈RN×Nを作成する。この距離行列Mは、成分(i,j)がi番目の学習データとj番目の学習データとの間の距離となっている。このときの距離尺度としては測地線距離を用いる。測地線距離については次のように計算する。まず、各学習データを1つのノードとするグラフを構築する。このとき、あるi番目の学習データからみて他のj番目の学習データがそれに隣接していると判断される場合に、i番目の学習データからj番目の学習データに対してリンクを設ける。そのリンクには、両ノード間のユークリッド距離を値として持たせる。
隣接しているか否かの判断基準としては、k−最近傍、すなわち、それぞれのデータに対して、そこからユークリッド距離の小さい他のデータを順にk個選択することとする。最後に、距離行列Mの(i,j)成分Mi,jを、i番目の学習データからj番目の学習データまでの間の単一あるいは複数のリンクで繋がれたパスのうち、通過するリンクの持つ値の和の最小値とする。なお、隣接の判断基準には、k−最近傍以外にも、例えば、2つのデータの間のユークリッド距離が閾値以下であるようなデータ同士を全てリンクさせる方法を用いても構わない。
次いで、その距離行列Mに基づき、リップシッツ埋め込み(Lipschitz embedding)を用いてN次元空間へと埋め込む。i番目の学習データxをカテゴリ空間へと埋め込んだときの座標軸cについての成分をyi,cとすると、
Figure 0005485044
である。ここで、Jは学習データXの中で表情カテゴリがであるデータの番号の集合を表す。以上の方法で形成させる学習データセットXのカテゴリ空間上でのカテゴリ多様体をY={yi=1,…,Nと表す。
続いて、表情認識部3のカテゴリ埋め込み部31の処理動作を説明する。まず、入力データxから全ての学習データまでの測地線距離を計算する。ここでは、入力データxからj番目の学習データまでの距離をMt,jと表す。入力データに対してk−最近傍となる学習データについては、入力データとそれらの学習データとの間のユークリッド距離をMt,jとする。それ以外の学習データについては、入力データxに対するk−最近傍のそれぞれの点に対し、入力データxとその最近傍点との間のユークリッド距離に、その最近傍点kから対象としているj番目の学習データまでの距離Mk,jを加えたもののうち、最小の値をMt,jとする。
次いで、入力データxをその距離行列Mに基づきリップシッツ埋め込みを用いてN次元空間へと埋め込む。入力データxをカテゴリ空間へと埋め込んだときの座標軸cについての成分をyt,cとして、式(1)において、yi,c及びMi,jの代わりにyt,c及びMt,jを用いてyt,cを計算する。
次に、図1に示す動的性質埋め込み部22、32について説明する。動的性質埋め込み部22、32は、対象とする表情データがカテゴリ空間上でどのように移動するのかの情報を、それぞれの軸が認識対象の動的性質の1つに対応したN次元の空間(これを動的性質空間と呼ぶ)へと埋め込み、その動的性質空間上での座標z∈RNmを出力する。学習データセットXをこのような低次元の動的性質空間に埋め込んだ際に形成される多様体(以下、動的性質多様体Zと呼び、Z={zi=1,…,Nとする)の一例を図5に示す。図5において、各点は1つのフレームを表している。
この動的性質空間は表情のカテゴリに依存しない、すなわち、図3に示すような動的性質は、カテゴリに関わらず共通であるとする。このように、カテゴリとは独立した動的性質空間を作成することで、全ての表情のカテゴリ及び動的性質の組み合わせに対して学習データを準備しなくとも、認識対象のそれぞれの動的性質についてカテゴリに関わらず少なくとも1回の表出分ずつの学習データを準備すれば、同じ動的性質を持つ全てのカテゴリの表情を認識できるようになる。ただし、認識の精度は学習データの数、及び、その中でのデータのばらつきに依存する。また、カテゴリと動的性質が混合したN×N次元の空間へ入力データを直接1回で埋め込むよりも、形成される多様体のばらつきを小さくすることができ、より少ないデータから学習した場合でも正しくそれらを認識できることが期待できる。
このような動的性質空間を作成するために、ここでは、カテゴリ空間へと埋め込まれた入力データyから特定の表情カテゴリに関する表出の強度に相当する成分を抽出し、それをさらに対象とする動的性質の数と同じ次元数の空間へと埋め込む。このときの動的性質空間上での座標を
Figure 0005485044
と表す。
動的性質埋め込み部22、32は、まず、入力データxのカテゴリ空間上での座標y∈RNcを入力として、そのyからそれぞれの表情カテゴリcの表出の強度に相当する成分y'c,tを抽出し、それを一定時間長(時間窓サイズ)h分まとめたベクトル
Figure 0005485044
を作成する。ベクトルyの概念図を図6に示す。ここでは、この時間窓サイズhを、0.1〜0.5秒分、すなわち、入力データのフレームレートが100frame/secであればh=10〜50程度とする。図7に異なる時間窓サイズhについての概念図を示す。ただし、この時間窓サイズhの値については、認識したい動的性質に応じて適切な値に設定すればよい。大きな時間窓サイズhは低速に表出される表情の検出に適しており、逆に、小さな時間窓サイズhは高速に表出される表情の検出に適している。
成分y'c,tについては式(2)により算出する。
Figure 0005485044
ここで、Yは学習データXの中で表情カテゴリcがであるデータをそれぞれカテゴリ空間へと埋め込んだベクトルの集合を、
Figure 0005485044
はYの中でyからの測地線距離がj番目に小さなベクトルを、‖・‖はL2ノルムをそれぞれ表す。
このように、埋め込みを行う際の入力となるベクトル
Figure 0005485044
に時間的に連続したデータを含めることで、表情の動的性質を表現する。そして、このベクトル
Figure 0005485044
に対してリップシッツ埋め込みを行い、動的性質空間上での座標
Figure 0005485044
を出力する。このリップシッツ埋め込みについては、カテゴリ埋め込み部と同様の処理とする。表情学習部2と表情認識部3で処理が多少異なる点についても同様である。ただし、入力としてxの代わりにy(c)を用い、yの代わりにz(c)を出力する点が異なる。
次に、図1に示すカテゴリ及び動的性質認識部33について説明する。カテゴリ及び動的性質認識部33は、入力データxに対して表情のカテゴリ及び動的性質の認識を行い、それらの認識結果情報
Figure 0005485044
を出力する。ここでは、表情のカテゴリ及び動的性質の推定値を、入力データが与えられたもとでの、表情のカテゴリ及び動的性質の同時事後確率を最大化するカテゴリ及び動的性質とする。
Figure 0005485044
ここで、p(c|x)は入力データxが与えられたもとでの表情のカテゴリcの事後確率、p(m|c,x)は入力データx及び表情カテゴリcが与えられたもとでの動的性質mの事後確率である。ここでは、式(3)を厳密に解く、すわなち、カテゴリと動的性質に対して総当りで調べることとする。ただし、近似的な方法を用いても構わない。例えば、まず、p(c|x)を最大化するカテゴリを推定値
Figure 0005485044
として決定し、次いで、そのカテゴリ
Figure 0005485044
についての
Figure 0005485044
を最大化する動的性質mを推定値
Figure 0005485044
としても構わない。
なお、ここでは、表情のカテゴリ及び動的性質の時間遷移については考慮していないが、マルコフ過程などを仮定して時系列フィルタリングを適用することも可能である。
次に、カテゴリについての事後確率を計算する処理動作について説明する。本実施形態では、入力データの対象の表情カテゴリ毎の事後確率p(c|x)を、入力データxをカテゴリ空間へと埋め込んだ際のカテゴリに関する多様体までの距離に基づき計算する。ベイズ則を用いるとp(c|x)は次のように展開される。
Figure 0005485044
ここで、p(y|c)は入力データのカテゴリ空間での座標yの表情カテゴリcに対する尤度である。p(c)は表情カテゴリcの事前確率であり、学習データセット中に含まれるカテゴリcのデータの割合とする。
本実施形態では、尤度p(y|c)を、学習データ中での対象データのカテゴリ空間での座標yのk−最近傍に占めるデータのうちカテゴリのデータの占める割合に基づき次のように定義する。
Figure 0005485044
ここで、τ は0<τ≪1の定数であり、βはスケール係数である。これら2つのパラメータについては、
Figure 0005485044
を成立させるものとして経験的に設定する。
(y)については、カテゴリ空間上での座標に対するk−最近傍
Figure 0005485044
を用いて、
Figure 0005485044
と定義する。ここで、Yは学習データ集合Xの要素をそれぞれカテゴリ空間へと埋め込んだベクトルの集合を、I(y,c)はyに対応する学習データの表情のカテゴリがcであれば1、そうでなければ0を返す関数である。
次に、動的性質についての事後確率を計算する処理動作について説明する。
Figure 0005485044
は入力データxのカテゴリcについての動的性質空間での座標
Figure 0005485044
が与えられたもとでの動的性質mの事後確率である。ベイズ則を用いるとp(m|c,x)は次のように展開される。
Figure 0005485044
ここで、p(z|m)は入力データxの埋め込み空間上での座標zの動的性質mに対する尤度である。尤度p(m)は表情の動的性質mの事前確率であり、学習サンプル中に含まれる動的性質mのデータの占める割合とする。このp(z|m)の定義については、カテゴリについての事後確率の計算において、yをzに、cをmに置き換えて計算することとする。
なお、この動的性質の尤度については、この
Figure 0005485044
を計算する際に時間窓サイズhの分のデータが必要となる。そこで、まだデータxが入力され始めてからの経過時間がh未満である場合には、動的性質については考慮せず、p(y|c)を最大化するカテゴリをカテゴリの推定値とし、これのみを出力することとする。
以上説明したように、2段階での埋め込み、すなわち、カテゴリ埋め込み処理と動的性質埋め込み処理を続けて行い、入力データは2段階の埋め込みのそれぞれの段階において、カテゴリに関する空間と動的性質に関する空間という2つの別の性質を持つ空間へと射影するようにした。これにより、1段階目の空間的な埋め込みでは、表情のカテゴリのみに依存して分離された多様体が形成され、2段階目の時間的な埋め込みでは、表情の動的性質のみに依存して分離された多様体が形成されることになる。結果的に、1段階目で埋め込まれるカテゴリに関する空間上ではカテゴリの種類を、2段階目で埋め込まれる動的性質に関する空間上では動的性質の種類をそれぞれ認識しやすくなる。
例えば、表情が表出され始めた直後でまだ表出強度が小さい段階では、表情のカテゴリのみを考えたのではその識別が困難である。本発明によれば、動的性質を同時に扱い、尤もらしいカテゴリと動的性質の組み合わせを探索することで、結果としてその表情のカテゴリを正しく認識することが可能となる。すなわち、ここでのカテゴリ空間への埋め込みとは空間方向の埋め込みであり、動的性質空間への埋め込みとは時間方向の埋め込みである。ここで、空間的とは、対象としている瞬間の表情が無表情時からどれだけ変化しているのか、すなわち、表情のカテゴリに関する情報を意味する。一方、時間的とは、表情変化の度合いが対象としている瞬間までどのように時間的に変化したのかを意味する。
入力データとしては、高い時間分解能で得た、目や口といった顔部品の周辺に配置された特徴点の座標値の時系列データとした。このとき、表情が変化した際に、顔部品が移動や変形することで特徴点の座標値が変化する。時間分解能の高いデータを扱うことで表情の動的性質に関する詳細を表現し、さらにそれを認識することができる。処理の第一段階では、入力データを、リップシッツ埋め込み法を用いて表情カテゴリの空間へと埋め込む。次いで、それらのデータがカテゴリの空間上を時間的にどのように移動するかの情報を、さらにリップシッツ埋め込み法を用いて動的性質の空間へと埋め込む。最後に、入力データ中の表情が、学習データから事前に形成されたそれぞれの空間中のカテゴリと動的性質に関するどの多様体に近いのかに基づき、カテゴリと動的性質を認識して出力する。
これにより、顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識可能となる。また、表情が表出され始めた直後の表出強度が小さい、すなわち、無表情からそれほど大きく変化していない表情についても正しく認識できるようになる。例えば、一瞬表出された後、直ちに別の表情によって隠蔽された表情を認識することも可能となる。
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより表情学習処理及び表情認識処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
顔面上の目や口といった特徴点の移動の情報に基づき、表情のカテゴリの認識のみならず、表情の表出の速度や強度に関する複雑な動的性質についても認識することが不可欠な用途に適用できる。
1・・・入力部、2・・・表情学習部、3・・・表情認識部、4・・・学習データセット記憶部、5・・・カテゴリ多様体記憶部、6・・・動的性質多様体記憶部

Claims (9)

  1. 時系列の画像データから顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、
    前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成するカテゴリ埋め込み手段と、
    前記カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、
    前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成する動的性質埋め込み手段と、
    前記動的性質多様体情報を記憶する動的性質多様体情報記憶手段と
    を備え
    前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、
    前記表情の動的性質空間は、前記表情の動的性質を表す固有空間である
    ことを特徴とする表情学習装置。
  2. 前記動的性質埋め込み手段は、
    前記学習データのカテゴリ空間上での座標y ∈R Nc を入力として、前記座標y からそれぞれの表情のカテゴリcの表出強度に相当する成分y’ c,t を抽出し、抽出した成分y’ c,t を一定時間長h分まとめた次式(A)で表されるベクトルy (c) を生成し、
    Figure 0005485044
    前記ベクトルy (c) に対して埋め込み法を用いて得られた動的性質空間上での座標z (c) を前記カテゴリ多様体情報として生成する
    ことを特徴とする請求項1に記載の表情学習装置。
  3. 表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、
    前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、
    時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、
    前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込み手段と、
    前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込み手段と、
    前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識手段と
    を備え
    前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、
    前記表情の動的性質空間は、前記表情の動的性質を表す固有空間である
    ことを特徴とする表情認識装置。
  4. 記動的性質埋め込み手段は、
    前記複数の特徴点の位置情報のカテゴリ空間上での座標yt∈RNcを入力として、前記座標ytからそれぞれの表情のカテゴリcの表出強度に相当する成分y’c,tを抽出し、抽出した成分y’c,tを一定時間長h分まとめた次式(B)で表されるベクトルyt(c)を生成し、
    Figure 0005485044
    前記ベクトルyt(c)に対して埋め込み法を用いて得られた動的性質空間上での座標zt(c)を前記動的性質空間座標として生成する
    ことを特徴とする請求項3に記載の表情認識装置。
  5. 前記表情認識手段は、
    前記カテゴリ空間座標及び前記動的性質空間座標を入力データx としたときに、表情のカテゴリc及び表情の動的性質mの同時事後確率を最大化する表情のカテゴリ及び動的性質の組[^c ,^m ]を次式(C)により算出し、
    Figure 0005485044
    前記表情のカテゴリ及び動的性質の組[^c ,^m ]における^m を前記表情認識対象人物の表情の動的性質とする
    ことを特徴とする請求項3又は請求項4のいずれかに記載の表情認識装置。
  6. 時系列の画像データから各画像に含まれる顔面上の複数の特徴点の位置情報からなる学習データを出力する入力手段と、カテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段とを備える表情学習装置における表情学習方法であって、
    前記カテゴリ埋め込み手段が、前記入力手段から出力される前記学習データを、表情のカテゴリ空間に射影することにより表情のカテゴリのみに依存して分離されたカテゴリ多様体情報を生成して、前記カテゴリ多様体情報記憶手段に記憶するカテゴリ埋め込みステップと、
    前記動的性質埋め込み手段が、前記入力手段から出力される前記学習データを、表情の動的性質空間に射影することにより表情の動的性質のみに依存して分離された動的性質多様体情報を生成して、前記動的性質多様体情報記憶手段に記憶する動的性質埋め込みステップと、
    を有し、
    前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、
    前記表情の動的性質空間は、前記表情の動的性質を表す固有空間である
    ことを特徴とする表情学習方法。
  7. 表情認識を行うための学習データを表情のカテゴリ空間に射影したカテゴリ多様体情報を記憶するカテゴリ多様体情報記憶手段と、前記学習データを表情の動的性質空間に射影した動的性質多様体情報を記憶する動的性質多様体情報記憶手段と、時系列の画像データから表情認識対象人物の顔面上の複数の特徴点の位置情報を出力する入力手段と、カテゴリ埋め込み手段と、動的性質埋め込み手段と、表情認識手段とを備える表情認識装置における表情認識方法であって、
    前記カテゴリ埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情のカテゴリ空間に射影することにより、カテゴリ空間座標を求めるカテゴリ埋め込みステップと、
    前記動的性質埋め込み手段が、前記入力手段から出力される前記複数の特徴点の位置情報を、前記表情の動的性質空間に射影することにより、動的性質空間座標を求める動的性質埋め込みステップと、
    前記表情認識手段が、前記カテゴリ多様体情報記憶手段に記憶されている前記カテゴリ多様体情報を参照して、前記カテゴリ空間座標が属する前記カテゴリ多様体情報を特定することにより前記表情認識対象人物の表情のカテゴリを推定するとともに、前記動的性質多様体情報記憶手段に記憶されている前記動的性質多様体情報を参照して、前記動的性質空間座標が属する前記動的性質多様体情報を特定することにより前記表情認識対象人物の表情の動的性質を推定する表情認識ステップと
    を有し、
    前記表情の動的性質は、カテゴリに関わらない表情の表出強度の時間変化であり、
    前記表情の動的性質空間は、前記表情の動的性質を表す固有空間である
    ことを特徴とする表情認識方法。
  8. コンピュータを請求項1又は請求項2のいずれか一項に記載の表情学習装置として機能させるための表情学習プログラム。
  9. コンピュータを請求項3から請求項5のいずれか一項に記載の表情認識装置として機能させるための表情認識プログラム。
JP2010143751A 2010-06-24 2010-06-24 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム Active JP5485044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010143751A JP5485044B2 (ja) 2010-06-24 2010-06-24 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010143751A JP5485044B2 (ja) 2010-06-24 2010-06-24 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム

Publications (2)

Publication Number Publication Date
JP2012008779A JP2012008779A (ja) 2012-01-12
JP5485044B2 true JP5485044B2 (ja) 2014-05-07

Family

ID=45539248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010143751A Active JP5485044B2 (ja) 2010-06-24 2010-06-24 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム

Country Status (1)

Country Link
JP (1) JP5485044B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017164478A1 (ko) * 2016-03-25 2017-09-28 한국과학기술원 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
JP6863563B2 (ja) * 2016-03-31 2021-04-21 株式会社Triart ストレス評価システム
KR102147052B1 (ko) * 2018-11-16 2020-08-21 광운대학교 산학협력단 얼굴 영상 기반의 감정 인식 시스템 및 방법

Also Published As

Publication number Publication date
JP2012008779A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
Joo et al. Towards social artificial intelligence: Nonverbal social signal prediction in a triadic interaction
Murtaza et al. Analysis of face recognition under varying facial expression: a survey.
US20180144185A1 (en) Method and apparatus to perform facial expression recognition and training
Wechsler Reliable Face Recognition Methods: System Design, Impementation and Evaluation
JP4950787B2 (ja) 画像処理装置及びその方法
JP6517681B2 (ja) 映像パターン学習装置、方法、及びプログラム
JP2019121374A (ja) 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法
JP6207210B2 (ja) 情報処理装置およびその方法
Li et al. A data-driven approach for facial expression retargeting in video
Weber et al. High-level geometry-based features of video modality for emotion prediction
JP2013003706A (ja) 表情認識装置、方法、及びプログラム
JP2007213528A (ja) 行動認識システム
JP5485044B2 (ja) 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム
Rius et al. Action-specific motion prior for efficient Bayesian 3D human body tracking
Zeng et al. Video‐driven state‐aware facial animation
Malekmohamadi et al. Low-cost automatic ambient assisted living system
JP5300795B2 (ja) 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム
Lee et al. Robust emotion recognition algorithm for ambiguous facial expression using optimized AAM and k-NN
JP5061808B2 (ja) 感情判定方法
Pei et al. Transferring of speech movements from video to 3D face space
KR20230081378A (ko) 3차원 휴먼 자세 추정을 위한 단시점 모델의 다시점 준지도 학습 시스템
JP6282121B2 (ja) 画像認識装置、画像認識方法およびプログラム
WO2023189104A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Xu et al. Bi-modal Emotion Recognition via Broad Learning System
Yao Model based coding: initialization, parameter extraction and evaluation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140219

R150 Certificate of patent or registration of utility model

Ref document number: 5485044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150