JP5300795B2

JP5300795B2 - 顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラム

Info

Publication number: JP5300795B2
Application number: JP2010146531A
Authority: JP
Inventors: 史朗熊野; 和弘大塚; 弾三上; 淳司大和; 英作前田; 洋一佐藤; 鷺梅蘇
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2013-09-25
Anticipated expiration: 2030-06-28
Also published as: JP2012008949A

Description

本発明は、動画像中の人物の顔から、その表情（怒り、笑い、驚きなど）を認識する顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラムに関する。

表情は、他者と感情を伝達し合う手段として、最も基本的な非言語行動であると言われている。そのため、画像に基づく表情認識に関する研究が、これまでコンピュータビジョン分野を中心として盛んに行われてきた。しかし、これまでの表情認識手法の多くは、表情のカテゴリを認識することに主眼が置かれ、大げさに表出した表情を用いて表情カテゴリの識別器を学習している。このため、学習用に事前に準備した表情と同程度の表出強度の大げさな表情については正しく認識できるものの、微細な（表出強度の小さな）表情については、正しく認識することが困難であった。

大げさな表情データを用いて学習した表情カテゴリの識別器をベースとして微細な表情を正しく推定する試みの１つとして、これまでに、認識対象の表情のデータの表出強度を増幅した後に、識別器にかける方法が提案されている（例えば、非特許文献１参照）。この方法では、画像における動き情報を元に、その表情変化による顔画像の変形を線形に増幅する。

Sungsoo Park, Daijin Kim: "Subtle facial expression recognition using motion magnification", Pattern Recognition Letters 30 (2009) 708−716.

上述した非特許文献１による従来技術では、入力データが増幅される方向を決定する際に、そのデータがどのような表情カテゴリであるのかが考慮されていない。しかし、表情による顔の時間的・空間的な変形は、複雑であるため、その表情のカテゴリを考慮することなく、動き情報のみから単純に表情情報を線形に増幅したのでは、結果として誤ったカテゴリの表情に類似したデータが生成される恐れがある。

さらに、従来技術では、決定した増幅の方向に対して、どれだけ増幅すればよいのかについても、経験的に決定した一意の値が使用されている。このため、様々な強度で表出された表情のカテゴリを正しく認識できるとは言い難い。また、その表出強度についても推定していない。

本発明は、このような事情を考慮してなされたものであり、その目的は、微細な表情であっても正しく認識することができ、また、表情の表出強度についても推定することができる顔表情増幅装置、表情認識装置、顔表情増幅方法、表情認識方法、及びプログラムを提供することにある。

上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段とを備えることを特徴とする顔表情増幅装置である。

本発明は、上記の発明において、前記表情増幅手段は、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段とを備えることを特徴とする。

また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と、前記表情増幅手段によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識手段とを備えることを特徴とする表情認識装置である。

また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップとを含むことを特徴とする顔表情増幅方法である。

本発明は、上記の発明において、前記表情増幅ステップは、入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップとを含むことを特徴とする。

また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと、前記表情増幅ステップによって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識ステップとを含むことを特徴とする表情認識方法である。

また、上述した課題を解決するために、本発明は、人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習機能、入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅機能、を実行させることを特徴とするプログラムである。

本発明は、上記の発明において、前記表情増幅機能によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識機能を更に実行させることを特徴とする。

この発明によれば、微細な表情であっても正しく認識することができ、また、表情の表出強度についても推定することができる。

本発明の実施形態による表情認識装置の全体構成を示すブロック図である。本実施形態での対象人物の顔面上に配置された複数の特徴点の座標値（位置情報）を示す模式図である。本実施形態において、それぞれのカテゴリについて表出強度を変化させた場合の特徴ベクトルの軌跡を示す概念図である。本実施形態において、増幅ベクトル及び増幅スケールを示す概念図である。本実施形態において、増幅スケールと表出強度との間の関係を示す概念図である。本実施形態において、入力データに対する、様々なカテゴリ及び表出強度の仮説に対する増幅結果を示す概念図である。

以下、本発明の一実施形態を、図面を参照して説明する。

本発明の特徴は、入力される微細な表情のデータに対して、そのカテゴリの表情の表出強度を最大限まで高めるという表情の増幅を行うことで、微細な表情であっても、そのカテゴリを推定することができる点にある。特に、その表情の増幅を行う際に、入力された表情のカテゴリと表出強度とを考慮することに特徴がある。

これにより、表情の表出強度に対して頑健にカテゴリを認識可能となると共に、そのときの表出強度も推定可能となる。具体的には、カテゴリと表出強度とについて様々な状態を仮定して増幅を行い、それぞれの増幅結果と、それら対象カテゴリについて最大限に表出された表情のデータそれぞれとの類似の度合に基づいて、入力された表情のカテゴリと表出強度とを推定する。

図１は、本発明の実施形態による表情認識装置の全体構成を示すブロック図である。また、図２は、本実施形態での対象人物の顔面上に配置された複数の特徴点（Ｍ＝２６点）の座標値（位置情報）を示す模式図である。図１において、入力部１は、図２に示すような対象人物の顔面上に配置された複数の特徴点の座標値（位置情報）の無表情時からの変位を時系列に出力する。表情増幅パラメータ学習部２は、入力部１から出力される学習データセットを受け、それぞれの表情カテゴリについて、最大表出強度でない、それぞれの表出強度における表情データを、その最大表出強度に対する表情データに増幅するためのパラメータを学習する。

表情増幅部３は、表情のカテゴリ、及び表出強度の値の組についての仮説を複数生成し、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。

表情認識部４は、入力部１から出力される入力データｚ_ｔを受け、それを様々な強さで増幅したときに、それが学習した最大表出強度の表情にどれだけ類似しているのかに基づいて、カテゴリの認識結果を決定する。そのとき、さらに、それぞれ増幅の強さに対応する入力データの表情の表出強度を算出することで表出強度の推定結果（＾）ｉ_ｔとする。

本実施形態では、表情のカテゴリｃとして、６基本表情、すなわち、幸福、怒り、驚き、恐れ、嫌悪、及び悲しみを対象とする。すなわち、ｃ＝｛１，…，６｝であり、対象カテゴリ数は、Ｎ_ｃ＝６である。ここでは、６基本表情を対象としているが、その他にも、思考中や、憂鬱など、どのようなカテゴリを認識の対象としても構わない。一方、表情の表出強度ｉは、連続値であり、無表情時を「０」、そのカテゴリの表情を最大限に表出したときを「１」であるとする。以下、各構成部について詳細に説明する。

（入力部）
入力部１は、目や、口といった顔部品周辺に配置されたＪ個の特徴点のＤ次元（ここでは、Ｄ＝３とする）の座標値が、表情変化に伴う無表情時からの変位を並べたベクトル（特徴ベクトルと呼ぶ、数式（１）参照）を時系列に出力する。

ここで、次式（２）に示す値は、ｊ番目の特徴点についての無表情時における座標（数式（３）参照）からの変位（数式（４）参照）を表す。以下でも、いずれのベクトルの下付きの添え字ｊも、そのベクトルのｊ番目の特徴点についての値、あるいはベクトルを表すこととする。

この座標値ｘ_ｊは、顔に固定された顔座標系上に定義されているものとする。ここでは、図２のように、顔の中心を原点として、鉛直方向、水平方向、及び紙面垂直方向を、それぞれの座標軸とする。あるいは、特徴点の位置情報を２次元（Ｄ＝２）として、水平方向、及び垂直方向に対する座標値を用いても構わない。

本実施形態では、特徴点の３次元(Ｄ＝３)の座標値を高速に計測する手段として、３０〜１００ｆｒａｍｅ／ｓｅｃで動作するモーションキャプチャシステムを想定する。すなわち、対象物表面に小さなマーカを貼り付けた状態で、その人物を複数台のカメラにて撮影し、その画像中でのマーカの位置からそれらマーカの３次元座標を算出する。

このマーカの位置の検出方法としては、緑色の塗料を顔面上に小さく塗ったものをマーカとして、カラー映像から検出する方法がある。あるいは、赤外光をよく反射する素材をマーカとして、赤外光を照射しながら赤外以外の波長の光をフィルタでカットし、撮影した画像から検出する方法もある。または、そのようなマーカを使用せずとも、顔のテクスチャ情報のみから特徴点を検出できるのであればそうして構わない。なお、各人物に対する顔面上での特徴点の数、及び配置は、同一であるものとする。

また、これらの方法により、まず、得られるのは、特徴点の世界座標系上での座標であるが、ここでは、何らかの方法で既に顔座標系に変換されているものとする。その方法としては、例えば、頭など表情変化に依存しない部位にも３つ以上のマーカを取り付けておき、ある一時刻のデータ中で、それらを用いて顔座標系を定義しておく。そして、他の全ての時刻のデータに対して、それらのマーカ同士が顔座標系を定義したデータ上で重なるように、マーカ全体に対して３次元の並進、及び回転を施すことで、世界座標系から顔座標系への変換が可能である。

この特徴ベクトルｘは、入力部１において、人物毎に無表情時を基準として正規化される、すなわち、任意の人物の無表情時のベクトルｘ^{Ｎｅｕｔｒａｌ}がなるべく等しくなるよう変換される。そのような正規化は、次のようにして行われる。

まず、次で述べる学習データセット中からある１人の人物の無表情時の特徴ベクトルｘ^{Ｎｅｕｔｒａｌ}を選択する。その人物の任意の表情の特徴ベクトルについては、そのまま出力する。一方、他の人物については、全ての特徴ベクトルｘに対して、射影ｇを施したベクトルｇ（ｘ）を出力する。この射影ｇについては、その人物の無表情時の特徴ベクトルがなるべくｘ^{Ｎｅｕｔｒａｌ}に近くなるようなパラメータを求める。この射影ｇとしては、例えば、最も簡単なものの１つとして、特徴点座標空間の各座標軸に対して、スケーリングを施す方法がある。Ｄ＝３であれば、パラメータは３つであり、対角行列を用いて、次式（５）と表される。

この３つのパラメータｓ_１，ｓ_２，ｓ_３については、基準とした人物の無表情時の特徴ベクトルｘ^{Ｎｅｕｔｒａｌ}に対する、それぞれの人物の無表情時の特徴ベクトルの射影後のベクトルｇ（ｘ）の誤差の二乗の和が最小になる値、すなわち、最小二乗誤差基準に従って算出する。なお、この他にも、ＡＡＭ（Active Appearance Models）のように、個人毎の特徴ベクトルのばらつきについての基底を求め、その上位（主要な）いくつかの基底の線形和がなるべくｘ^{Ｎｅｕｔｒａｌ}に近くなるようなパラメータを算出するという方法でも構わない。

（学習データ）
１人、あるいは複数人の人物についての様々なカテゴリに対する表情の表出を複数回分用意する。１回の表出は、無表情から開始して対象の表情を最大限に表出するまでとする。また、それぞれの表出データ中の個々のフレームに対して、そのとき表出されている表情のカテゴリｃ、及び、その表出強度ｉが人手などにより事前に付与されているものとする。

図３は、本実施形態において、それぞれのカテゴリｃについて表出強度ｉを変化させていった場合の特徴ベクトルｚ^ｃ，ｉの軌跡を示す概念図である。そのような時系列のデータ中の個々のフレームを独立したデータとみなして、１つの学習データとする。この学習データのセットのうち、表出強度が最大のものの集合をＺ^ＡＰＥＸ、そうでないものの集合をＺ^{ｎｏｎ−ＡＰＥＸ}と表す。なお、学習データの数とその中でのデータのばらつきは認識精度に影響を及ぼすが、学習データ中には、認識対象のカテゴリそれぞれについて少なくとも１回分の表出データが含まれている必要がある。

なお、ここでは、各学習データに対して表情の表出強度が事前に与えられていることを仮定した。もし、表出強度について事前に与えられていなければ、何らかの方法で自動的に表出強度を推定した結果を用いても構わない。例えば、各表情カテゴリに対して１つの特徴点を選び、その特徴点の移動量から表出強度を決定してもよい。この選択する特徴点としては、幸福表情であれば口の端部、驚き表情であれば眉毛の中央部などが考えられる。そして、その特徴点が無表情時から移動した距離を表出強度とすることが考えられる。なお、このとき、対象表情の最大表出強度時には表出強度が１になるように距離の正規化を行うこととする。

（入力データ）
入力データは、１人の人物があるカテゴリの表情を表出している間の時刻ｔにおいて計測された特徴ベクトルｚ_ｔである。

（表情増幅パラメータ学習部）
表情増幅パラメータ学習部２は、様々なカテゴリｃに対して、様々な表出強度ｉ（＜１．０）における特徴ベクトルｚ^ｃ，ｉと、対応するカテゴリを最大限に表出した（ｉ＝１．０）際の特徴ベクトルｚ^{ｃ，ＡＰＥＸ}との間の違いを学習する。これにより、最大限でない表出強度の特徴ベクトルｚとその表情のカテゴリｃとが与えられた際に、そのカテゴリｃの最大表出時の特徴ベクトル（＾）ｚ^{ｃ，ＡＰＥＸ}へと増幅できるようになる。

以下では、学習データが各カテゴリに対して１回分の表出データのみが用意されていると仮定して説明する。

ここでは、カテゴリｃの表出強度ｉにおける特徴ベクトルｚ^ｃ，ｉを、そのカテゴリｃの最大表出強度まで増幅する処理を、ｊ番目の特徴点に対して、次式（６）にて行う。

ここで、数式（６）の左辺の変数Ｌ１は、増幅後の特徴ベクトルを表し、数式（６）の右辺の変数Ｒ３（∈Ｒ^Ｄ）は、カテゴリｃの表出強度ｉにおける特徴点ｊの増幅方向を示すベクトル（増幅ベクトルと呼ぶ）を表し、数式（６）の右辺の変数Ｒ２は、その増幅ベクトル（Ｒ３）に対するスケーリング係数（増幅スケールと呼ぶ）をそれぞれ表す。

図４は、増幅ベクトル（Ｒ３）及び増幅スケール（Ｒ２）を示す概念図である。本実施形態では、この増幅ベクトルΔｚ^ｃ，ｉについて、カテゴリ依存、かつ表出強度非依存（表出強度に関わらずカテゴリのみによって変化する）とする場合（正確に記述するとΔｚ^ｃとなる）、及び、カテゴリ依存、かつ表出強度依存（カテゴリ毎、さらにその表出強度に応じて変化する）とする場合の２つの場合について説明する。

前者の場合が有用なのは、それぞれの表情カテゴリを表出した際に、各特徴点が表情変化に伴い移動していく方向が、表出強度に関わらずほぼ一定であるような表情を推定対象とする場合である。すなわち、図４において、表出強度が変化したときに特徴ベクトルが線形（直線的）に変化する場合である。

一方、後者の場合が有用なのは、それぞれの表情カテゴリを表出した際に、各特徴点が表情変化に伴い移動していく方向が、そのときの表出強度に応じて変化するような表情を推定対象とする場合である。すなわち、図４において、表出強度が変化したときに特徴ベクトルが非線形（曲線的）に変化する場合である。

なお、増幅スケール（数式（６）のＲ２）については、ここでは、カテゴリ依存、かつ表出強度依存とするが、次式（７）で表されるカテゴリ非依存としても構わない。但し、増幅スケールは、基本的に表出強度と負の関係があるため（すなわち、入力表情の表出強度が小さければ増幅スケールが大きくなる）、表出強度については依存させる必要がある。

（カテゴリ依存かつ表出強度非依存の増幅ベクトルΔｚ^ｃ，ｉを使用する場合）
増幅ベクトルを、次式（８）と定義する。

増幅スケール（数式（６）のＲ２）については、増幅ベクトルの方向に増幅した結果が最大表出強度のデータ（数式（８）の右辺を参照）に最も近づく値とする。すなわち、数式（９）とする。

ここで、||ａ||は、ベクトルａのＬ２ノルムを表す。このとき、数式（９）の右辺は、次式（１０）として算出可能である。

として算出可能である。ここで、＜ａ，ｂ＞は、ベクトルａとベクトルｂの内積を表す。図５は、増幅スケール（数式（１０））と表出強度ｉとの間の関係を示す概念図である。図５には、１番目から５番目までの特徴点の例を示している。

（カテゴリ依存かつ表出強度依存の増幅ベクトルΔｚ^ｃ，ｉを使用する場合）
増幅ベクトル、及び増幅スケールが共にカテゴリ依存かつ表出強度依存であるため、それらは、次式（１１）と次式（１２）と次式（１３）とが結合した形で得られる。

両者を分離するために、ここでは、全ての増幅スケール（数式（１３））を、「１」と仮定して、数式（１２）を次式（１４）とする。

なお、それぞれのカテゴリにおいて、学習データ中に含まれていない表出強度（すなわち、数式（１４）の右辺の変数Ｒ１が存在しない表出強度）に対しては、学習データ中に含まれる表出強度に対する学習結果を用いて算出することとする。どのような方法を用いても構わないが、例えば、その1つの方法として、線形補間を用いる方法がある。このとき、対象の表出強度ｉを挟む学習データ中に含まれる２つの表出強度（数式（１５）参照）に対する学習結果を、それぞれ、数式（１６）で表されるとすると、次式（１７）、（１８）などとすればよい。

この他の方法としては、２次以上の多項式や、Ｓｐｌｉｎｅ曲線を当てはめるという方法など考えられる。

また、ここでは、学習データが各カテゴリに対して１回分の表出データのみが用意されていると仮定して説明した。学習データ中に、同一の｛ｃ，ｉ｝の組み合わせのデータが複数存在する場合には、まず、それぞれのデータに対して独立に増幅ベクトル（数式（１７）参照）と増幅スケール（数式（１３）参照）とをそれぞれ学習し、その後にそれらの平均をとったものを学習結果とすればよい。

（表情増幅部）
表情増幅部３は、仮説生成部３−１と表情データ増幅部３−２とからなる。まず、仮説生成部３−１は、表情のカテゴリ、及び表出強度の値の組｛ｃ_ｊ，ｉ_ｊ｝についての仮説を複数生成する。次いで、表情データ増幅部３−２は、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。

（仮説生成部）
仮説生成部３−１は、それぞれが推定対象である表情のカテゴリ及び表出強度についての様々な値の組（数式（１９）参照）を持つ仮説を複数出力する。

ここで、Ｎ_ｈは、仮説の数である。ここでは、これらの仮説の集合をＨと表す。本実施形態では、表情のカテゴリ、及び表出強度について全探索を行うこととする。但し、表出強度については、一定のサンプリング間隔で、０から１までの表出強度を、Ｎ_ｉ−１分割したときの値のみを探索対象とする。すなわち、このときの仮説の数は、Ｎ_ｈ＝Ｎ_ｃ×Ｎ_ｉである。

なお、その他の方法として、対象データの直前の時刻における、数式（２０）に示す推定結果を用いて、その近傍のみに仮説を生成するという方法を用いても構わない。

（表情データ増幅部）
表情データ増幅部３−２は、それぞれの仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、入力データを、そのカテゴリが最大限表出されたデータへと増幅する。表情データ増幅部３−２は、テストデータｚ_ｔ、及び、カテゴリと表出強度とについての仮説集合｛ｃ_ｊ，ｉ_ｊ｝を入力として、それぞれの仮説に対して、そのカテゴリｃ_ｊについての最大表出強度の表情のデータへと増幅した結果（数式（２１）参照）を出力する。

増幅は、次式（２２）に従って行われる。

（表情認識部）
表情認識部４は、カテゴリと表出強度についての仮説集合と、それぞれの仮説に応じて増幅された入力データの集合を入力として、入力データのカテゴリ、及び表出強度の推定結果を出力する。この表情認識部４は、それぞれの仮説毎に、その増幅された結果がどの程度尤もらしいのかを評価する表情評価部４−１、及び、それら評価された仮説集合に基づき推定結果を算出する推定結果算出部４−２とからなる。

（表情評価部）
表情評価部４−１は、様々な仮説を元に増幅されたデータ（数式（２３）参照）を入力として、それぞれに対して、仮説の保持するカテゴリに対する最大表出強度を持つ学習データｚ^{ｃ，ＡＰＥＸ}に対する類似度に基づくスコア（数式（２４）参照）を出力する。

このスコアの計算方法としては、様々なものが考えられる。ここでは、スコアを、簡単な指標として、数式（２５）と定義する。

ここで、ｄ（ａ，ｂ）は、ベクトルａとベクトルｂとの距離であり、ここでは、ｄ（ａ，ｂ）＝||ａ−ｂ||とする。

図６は、入力データｚ_ｔに対して様々なカテゴリ、及び表出強度の仮説を用いて増幅結果した結果に対する距離を示す概念図である。仮説が保持するカテゴリ及び表出強度が入力データの真の値に一致するときに、各カテゴリについての増幅結果（数式（２３）参照）と学習データ中の最大表出時の表情におけるデータｚ^{ｃ，ＡＰＥＸ}との間の距離（数式（２６）参照）が最小になる。

なお、この表情評価部としては、対象とする表情データを入力とすると、評価したいカテゴリに対する類似度を返す識別器であれば、任意の識別器を適用することが可能である。例えば、既存の表情認識でも使用されることの多いＳＶＭ（Support Vector Machines）であれば、識別境界面からの距離をシグモイド関数に入れた結果（０〜１）を出力とすることで適用可能となる。

（推定結果算出部）
推定結果算出部４−２は、仮説集合Ｈに含まれる、それぞれの仮説に対するスコア（数式（２４）参照）に基づいて、最終的なカテゴリと表出強度とについての一意の推定値（数式（２７））を出力する。

この最終的な推定値のシンプルな算出方法には、様々考えられるが、ここでは、スコアが最大になる仮説（数式（２８参照））を推定値とすることとする。

他の方法としては、スコアを重みとみなした重み付け平均に基づく方法が考えられる。まず、それぞれのスコアを、仮説全体についてスコアの和が１となるように正規化する。そして、その正規化されたスコアを重みとした重み付き平均を、カテゴリ毎に算出する。その重み付け平均が最も大きなカテゴリをカテゴリの推定値とする。そして、そのカテゴリを持つ仮説に対する、正規化されたスコアを重みとした表出強度の重み付き平均を表出強度の推定値とする。

上述した実施形態によれば、顔面上の目や口といった特徴点の移動の情報に基づいて、前処理として、入力データ中の表情の表出強度を増幅することで、微細な表情であっても正しく認識することができる。また、そのときにどれだけ増幅したのかに基づいて、表情の表出強度についても推定することができる。

１入力部
２表情増幅パラメータ学習部
３表情増幅部
３−１仮説生成部
３−２表情データ増幅部
４表情認識部
４−１表情評価部
４−２推定結果算出部

Claims

人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、
入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と
を備えることを特徴とする顔表情増幅装置。
前記表情増幅手段は、
入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、
前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段と
を備えることを特徴とする請求項１に記載の顔表情増幅装置。
人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習手段と、
入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習手段によって学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅手段と、
前記表情増幅手段によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識手段と
を備えることを特徴とする表情認識装置。
前記表情増幅手段は、
入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成手段と、
前記仮説生成手段によって生成される複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅手段と
を備えることを特徴とする請求項３に記載の表情認識装置。
人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、
入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと
を含むことを特徴とする顔表情増幅方法。
前記表情増幅ステップは、
入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、
前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップと
を含むことを特徴とする請求項５に記載の顔表情増幅方法。
人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習ステップと、
入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅ステップと、
前記表情増幅ステップによって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識ステップと
を含むことを特徴とする表情認識方法。
前記表情増幅ステップは、
入力される人物の顔表情に対するカテゴリと表出強度との組み合わせについて、複数の仮説を生成する仮説生成ステップと、
前記仮説生成ステップで生成された複数の仮説に対して、その仮説が持つカテゴリ、及び表出強度が正しいことを仮定して、前記入力データを、そのカテゴリが最大限表出されたデータへと増幅する表情データ増幅ステップと
を含むことを特徴とする請求項７に記載の表情認識方法。
人物の顔表情を示すカテゴリに対して、様々な表出強度と該カテゴリを最大限に表出した際の最大表出強度との違いを、表情増幅パラメータとして学習する表情増幅パラメータ学習機能、
入力される人物の顔表情を示す入力データに対して、そのカテゴリと表出強度とについて様々な状態を仮定し、それぞれの仮定に対して、前記表情増幅パラメータ学習ステップで学習された表情増幅パラメータに基づいて、前記入力データを増幅する表情増幅機能、
を実行させることを特徴とするプログラム。
前記表情増幅機能によって増幅された入力データの、様々なカテゴリに対する最大表出強度の顔表情への類似程度に基づいて、前記入力データのカテゴリと表出強度とを推定する表情認識機能
を更に実行させることを特徴とする請求項９に記載のプログラム。