JP2962549B2

JP2962549B2 - 顔動画像からの表情認識方法

Info

Publication number: JP2962549B2
Application number: JP9055886A
Authority: JP
Inventors: 尚宏大塚; 淳大谷
Original assignee: EI TEI AARU CHINO EIZO TSUSHIN KENKYUSHO KK
Current assignee: EI TEI AARU CHINO EIZO TSUSHIN KENKYUSHO KK
Priority date: 1997-03-11
Filing date: 1997-03-11
Publication date: 1999-10-12
Anticipated expiration: 2017-03-11
Also published as: JPH10255043A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理方法に関
し、さらに詳しくは、顔動画像から表情を認識する方法
に関するものである。

【０００２】

【従来の技術】表情認識は、顔動画像の知的符号化や画
像通信システムにおける知的なマンマシンインタフェー
スを実現するためには重要な技術である。画像通信にお
いて送り手の表情が認識できれば、表情のカテゴリを符
号化した少量のデータを送ることにより送り手の表情が
合成できるため伝送量の削減が可能となる。また、表情
認識の精度が高く、合成の再現性が高ければ、あたかも
受け手と送り手が同一の場所にいるかのようなモデルベ
ースの画像通信ができるものと期待できる。

【０００３】コンピュータビジョン研究では、多くの表
情認識の方法が従来より提案されている。

【０００４】図３は、従来の表情認識方法の一例を示す
フローチャートである。図３に示されるように、この従
来の表情認識方法は、ステップＳ１で、入力された顔動
画像のフレーム毎にウェーブレット変換を施し、その各
帯域内平均電力を要素とする特徴ベクトルを抽出する。

【０００５】続いてステップＳ２では、隠れマルコフモ
デル（ＨＭＭ：Hidden Markov Model ）に入力するシン
ボルへ変換するためのベクトル量子化を行なう。このベ
クトル量子化は、認識対象表情毎に用意されたコードブ
ックで行なわれる。そして、それぞれの表情別コードブ
ックでベクトル量子化された１次元のシンボル系列は、
各表情のＨＭＭに入力される。

【０００６】ステップＳ３では、時間軸方向の伸縮に対
しても頑健であり、予め各々の表情の学習データによっ
て学習されたＨＭＭにより、入力されたシンボル系列と
学習データとのゆう度（確率）を算出する。

【０００７】次に、ステップＳ４で、算出されたゆう度
（確率）が最大となる表情を認識結果とする。

【０００８】上記において、ステップＳ２では、量子化
誤差を低減するために表情毎に異なったコードブックが
用意され、さらに、量子化誤差が大きい場合にはペナル
ティ関数を導入して確率を補正することにより誤った認
識を防ぐこととしている。

【０００９】

【発明が解決しようとする課題】しかしながら、図３に
示される従来の表情認識方法では、高次元の特徴ベクト
ル空間の関数を有限個の代表点で近似することは困難で
あり、認識率の向上には限界があった。また、このた
め、高い認識率で認識することのできる対象が特定の人
物に限定されていたという問題があった。

【００１０】本発明は、このような問題を解消するため
になされたもので、不特定多数人物の表情に対し高い認
識率を得ることのできる顔動画像からの表情認識方法を
提供することを目的とする。

【００１１】

【課題を解決するための手段】請求項１に係る顔動画像
からの表情認識方法は、顔動画像中の連続する画像から
顔要素の各位置の速度ベクトルを算出するステップと、
速度ベクトルの各成分にフーリエ変換を施し、そのフー
リエ変換係数の中から、顔要素の変形または移動に対応
するフーリエ変換係数を特徴ベクトル列として抽出する
ステップと、予め各表情毎に、連続した出力確率を正規
分布を用いて近似した複数の隠れマルコフモデルを作成
するステップと、特徴ベクトル列が生成される生成確率
を、複数の隠れマルコフモデルによってそれぞれ算出す
るステップと、複数の隠れマルコフモデルのうち最大の
生成確率を算出した隠れマルコフモデルに対応する表情
を認識結果と判断するステップとを備えるものである。

【００１２】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳しく説明する。

【００１３】図１は、本発明の実施の形態に係る顔動画
像からの表情認識方法を示すフローチャートである。

【００１４】図１に示されるように、この顔動画像から
の表情認識方法は、画像処理を行なうステップＳ１と、
認識処理を行なうステップＳ２と、認識結果を得るステ
ップＳ３とを備える。

【００１５】ここで、画像処理を行なうステップＳ１
は、入力された顔動画像から速度ベクトルを算出するス
テップＳ１０と、速度ベクトルの各成分にフーリエ変換
を施すステップＳ１１と、そのフーリエ変換係数の中か
ら、表情の動きに応じた特徴ベクトル列を抽出するステ
ップＳ１２とを含む。

【００１６】また、認識処理を行なうステップＳ２は、
予め認識対象の表情カテゴリ毎にＨＭＭを学習により作
成しておくステップＳ２０と、ステップＳ１で抽出され
た特徴ベクトル列を生成する確率を各ＨＭＭを用いて算
出するステップＳ２１とを含む。

【００１７】そして、ステップＳ３では、算出された確
率が最大となるＨＭＭに対応する表情カテゴリを認識結
果とする。

【００１８】なお、以下においては表情カテゴリとし
て、怒り、嫌悪、恐れ、悲しみ、幸福、驚きの合計６種
類の基本表情を考え、無表情から各基本表情への時系列
画像の処理について説明することとする。

【００１９】以下、上記各ステップを具体的に説明す
る。ステップＳ１０では、動画像中の連続する２枚の画
像からオプティカルフローアルゴリズムを用いて速度ベ
クトルを得る。

【００２０】ここで、たとえば、顔の位置として、右目
と口をそれぞれ含む２つの領域が考えられる。これは、
これらの領域が人間が相手の表情を読取るときに最も注
目している領域に対応しているからである。なお、領域
の位置合せは、被験者毎に目と口の画像内での位置を求
めそれぞれが領域の中心になるように手動で行なう。

【００２１】次に、ステップＳ１１では、ステップＳ１
０で得られた速度ベクトルの各成分に離散フーリエ変換
を施す。

【００２２】そして、ステップＳ１２では、フーリエ変
換係数の低周波成分（右目・口領域から７，８個、合計
１５個）を特徴ベクトルとして抽出する。これらの特徴
ベクトルの成分は、表情変化の開始時および終了時に値
が０となり２つの時刻での区別がつかないため、右目お
よび口領域の速度ベクトルの自乗和を時間積分した値を
特徴ベクトルの成分として加える。

【００２３】このように、ステップＳ１２では、ステッ
プＳ１０で得られた速度ベクトル毎に、対応する特徴ベ
クトルを抽出するため、画像処理を行なうステップＳ１
からはこれら複数の特徴ベクトルからなる特徴ベクトル
列を出力することとなる。

【００２４】次に、認識処理を行なうステップＳ２で
は、ＨＭＭを用いて特徴ベクトルの生成確率を算出する
が、ステップＳ２０では、連続出力確率分布を持つＨＭ
Ｍを作成する。

【００２５】ここで、このＨＭＭの構成は、図２に示す
ようなLeft-to-right 型とし、状態を状態数Ｎに対して
左から順にＳ₁，Ｓ₂，…，Ｓ_Nと名付ける。また、Ｓ
₁を初期状態、Ｓ₂，…，Ｓ_N-1を中間状態、Ｓ_Nを最
終状態と呼ぶ。これらの各状態は以下のように表情の変
化を引起こす筋肉の状態に対応付けることができる。す
なわち、初期状態は無表情、中間状態は表情筋が収縮し
ている途中の状態、最終状態は表情筋の収縮が完了した
状態である。

【００２６】ＨＭＭでは、出力値（特徴ベクトルに対
応）に応じて各状態の確率を更新して出力列の終了時ｔ
＝Ｔにおける最終状態の確率を出力列の生成確率と定義
する。ここで、出力列の開始時刻ｔ＝０における初期状
態の確率は１でその他の状態の確率は０とする。状態Ｓ
_j（ｊ＝１，…，Ｎ）の確率の更新値を求めるために以
下の確率を定義する。なお、以下の遷移確率はステップ
Ｓ２１でのＨＭＭによる時間パターン認識処理において
用いられるものであり、出力確率は、ステップＳ２１で
のＨＭＭによる空間パターン認識処理に用いられるもの
である。

【００２７】１）遷移確率ａ_jiは、状態Ｓ_jから次の
時刻に状態Ｓ_iに遷移する確率を表わす。Left-to-righ
t 型ＨＭＭでは、自己および右側の状態への遷移のみが
可能なので以下の拘束条件が成り立つ。

【００２８】

【数１】

【００２９】

【数２】

【００３０】２）出力確率ｂ_j（Ｏ）は、状態Ｓ_jへ
の遷移に伴って特徴ベクトルＯを出力する確率を表わ
す。ここで出力確率ｂ_j（Ｏ）は、Ｄ次元空間上の連続
分布とし、式（２）のようにＭ個の多次元正規分布Ｎの
荷重平均により近似する。複数の正規分布を用いること
により、同一表情における個人差、同一人物の表情表出
の変動などに起因する異なったパターンを精度よく近似
することができると考えられる。ここで、Ｍを混合数
（number of mixture ）と呼ぶ。

【００３１】

【数３】

【００３２】ここで、ｃ_jk，μ_jk，Ｕ_jkはそれぞれ状態
Ｓ_jでのｋ番目の混合要素における荷重、平均値ベクト
ル、共分散行列である。また、荷重ｃ_jkは以下の拘束条
件を満たす。

【００３３】

【数４】

【００３４】出力確率の表現法として、離散的なシンボ
ルに確率を割付ける離散分布を用いる方法は、実装が連
続分布に比べて容易であるので音声認識ではよく用いら
れている。しかし、画像処理のように特徴ベクトルの次
元数が大きい場合には量子化誤差が問題となる。

【００３５】一方、連続分布を出力確率に用いた場合に
は精度よく出力確率をモデル化することができる。

【００３６】ステップＳ２１におけるＨＭＭによる時間
パターン認識処理においては、遷移確率と出力確率を用
いて各状態の確率を更新するため、フォーワードアルゴ
リズムが使われる。出力される特徴ベクトル列Ｏ₁，Ｏ
₂，…，Ｏ_Tに対して、時刻ｔにおいて状態Ｓ_iである
確率をα_t（ｉ）とすると、α_t（ｉ）は以下の漸化式
により求められる。

【００３７】

【数５】

【００３８】ここで、ＨＭＭのパラメータａ_jiとｂ
_i（Ｏ）の学習には通常Baum-Welchアルゴリズムが使わ
れる。Baum-Welchアルゴリズムは、期待値最大化（Esti
mation Maximization ）アルゴリズムとして導かれる。
すなわち、出力される特徴ベクトル列Ｏ₁，Ｏ₂，…，
Ｏ_Tに対する期待値、

【００３９】

【数６】

【００４０】が最大になる確率を求めればよい。ここ
で、β_t（ｉ）はα_t（ｉ）の双対であり、以下のバッ
クワードアルゴリズムにより時刻ｔ＝Ｔから逆方向に求
められる。

【００４１】

【数７】

【００４２】ここで、時刻ｔ＝Ｔにおけるβ_t（ｉ）は
状態Ｓ_Nにのみ１が割付けられるように初期化する。

【００４３】Baum-WelchアルゴリズムによるＨＭＭのパ
ラメータの再推定式は以下のように書ける。

【００４４】

【数８】

【００４５】

【数９】

【００４６】

【数１０】

【００４７】

【数１１】

【００４８】ここで、γ_t（ｊ，ｋ）は時刻ｔに状態Ｓ
_jのうちｋ番目の混合要素にある確率であり以下のよう
に定義される。

【００４９】

【数１２】

【００５０】測定される特徴ベクトルに含まれるノイズ
の影響を低減してパラメータの精度を上げるためには多
数の学習データからの推定が必要となる。この場合に
は、式（７）〜（１１）を複数の学習データに関して総
和をとるように書換えればよい。

【００５１】Baum-Welchアルゴリズムは期待値を極大化
するアルゴリズムであるので、期待値を最大化するため
には適切な初期値を選ばなければならない。そこで、以
下の手法でＨＭＭのパラメータの初期値を求め、Baum-W
elchアルゴリズムを実行してパラメータの再推定を行な
う。すなわち、荷重ｃ_jk、平均ベクトルμ_jk、共分散行
列Ｕ_jkは、以下のアルゴリズムにより初期値を求め、遷
移確率ａ_ijは式（１）の条件の下でランダムに設定す
る。

【００５２】１）特徴ベクトル列Ｏ⁽ⁱ⁾＝Ｏ₁，
Ｏ₂，…，Ｏ_T（ｉ＝１，…，Ｌ）の要素をｋ−means
法により状態数Ｎ個のクラスタＳ_j ⁽ⁱ⁾（ｊ＝１，…，
Ｎ）に類別する。それらのクラスタの要素数をＮ_ijとす
る。ここで、クラスタは時間順に並んでいるものとす
る。

【００５３】２）各特徴ベクトル列からのクラスタの和
集合∪_iＳ_j ⁽ⁱ⁾の要素をｋ−means 法により混合数Ｍ
個のクラスタＳ_j ⁽ⁱ⁾′（ｉ＝１，…，Ｍ）に類別す
る。それらのクラスタの要素数、平均、共分散行列を
Ｎ′_ji、μ′_ji、Ｕ′_ji（ｊ＝１，…，Ｎ、ｉ＝１，
…，Ｍ）とする。

【００５４】３）出力確率のパラメータを以下の式に
より求める。

【００５５】

【数１３】

【００５６】

【数１４】

【００５７】

【数１５】

【００５８】この手法は、パラメータの推定にｋ−mean
s 法を用いる点でセグメンタルｋ−means 法と類似して
いる。

【００５９】しかし、セグメンタルｋ−means 法ではス
テップ１）でViterbi アライメントを用いてセグメント
する点と、上記のステップ１）〜３）を繰返す点が異な
る。

【００６０】なお、以上の説明は、人間の顔の動画像か
らの表情認識方法に関するものであるが、人間の顔以
外、たとえば、手の動きや物体の状態などを認識する方
法に関しても同様に説明することができる。

【００６１】

【発明の効果】請求項１に係る顔動画像からの表情認識
方法によれば、不特定多数の人物の顔動画像から、その
表情を認識することができ、また、速い表情変化を伴う
表情も認識することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態に係る顔動画像からの表情
認識方法を示すフローチャートである。

【図２】状態数が３の場合のLeft-to-right 型ＨＭＭの
構成を示す図である。

【図３】従来の顔動画像からの表情認識方法の一例を示
すフローチャートである。

フロントページの続き (56)参考文献大塚外、「連続出力確立密度分布を用いたＨＭＭによる動画像からの複数人物の表情認識」、電子情報通信学会論文誌Ｄ−２、1997年、Ｖｏｌ．Ｊ−80−Ｄ− ２、Ｎｏ．８、ｐ．2129−2137 大塚外、「時系列表情画像の解析処理に基づく表情変換法の検討」、電子情報通信学会技術研究報告、1997年３月19 日、Ｖｏｌ．96，Ｎｏ．599（ＰＲＭＵ 96 192−213）ｐ．75−80 Ｌｕｅｔｔｉｎ，Ｊ．ｅｔ．ａｌ．，ＳｐｅａｋｅｒｉｎｄｅｔｉｆｉｃａｔｉｏｎｂｙＩｉｐｒｅａｄｉｎｇ，1996，ＰｒｏｃｅｅｄｉｎｇｓＩＣＳＬＰ 96．ＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｖｏｌ．１，ｐ．62−５ (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06T 7/00 G06T 1/00 G06T 7/20 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】顔動画像中の連続する画像から顔要素の
各位置の速度ベクトルを算出するステップと、前記速度ベクトルの各成分にフーリエ変換を施し、その
フーリエ変換係数の中から、前記顔要素の変形または移
動に対応する前記フーリエ変換係数を特徴ベクトル列と
して抽出するステップと、予め各表情毎に、連続した出力確率を正規分布を用いて
近似した複数の隠れマルコフモデルを作成するステップ
と、前記特徴ベクトル列が生成される生成確率を、前記複数
の隠れマルコフモデルによってそれぞれ算出するステッ
プと、前記複数の隠れマルコフモデルのうち最大の生成確率を
算出した隠れマルコフモデルに対応する表情を認識結果
と判断するステップとを備える、顔動画像からの表情認
識方法。