JP2009037410A - 感情表現抽出処理装置及びプログラム - Google Patents

感情表現抽出処理装置及びプログラム Download PDF

Info

Publication number
JP2009037410A
JP2009037410A JP2007201006A JP2007201006A JP2009037410A JP 2009037410 A JP2009037410 A JP 2009037410A JP 2007201006 A JP2007201006 A JP 2007201006A JP 2007201006 A JP2007201006 A JP 2007201006A JP 2009037410 A JP2009037410 A JP 2009037410A
Authority
JP
Japan
Prior art keywords
emotion
series signal
time series
feature amount
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007201006A
Other languages
English (en)
Other versions
JP4922095B2 (ja
Inventor
Masahide Naemura
昌秀 苗村
Toshihiko Misu
俊彦 三須
Masaki Takahashi
正樹 高橋
Masato Fujii
真人 藤井
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007201006A priority Critical patent/JP4922095B2/ja
Publication of JP2009037410A publication Critical patent/JP2009037410A/ja
Application granted granted Critical
Publication of JP4922095B2 publication Critical patent/JP4922095B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ジェスチャの特徴量に基づく感情認識の精度の向上。
【解決手段】感情表現抽出処理装置10において、人間の各関節の動きの特徴を示す特徴量を取得する特徴量取得部11と、上記人間の感情を示す感情情報を取得する感情情報取得部14と、上記感情情報と上記特徴量とに基づいて学習結果データを生成し、生成した学習結果データをデータベースに記憶させる学習処理部15と、を含むことを特徴とする。
【選択図】図1

Description

本発明は、感情表現抽出処理装置及びプログラムに関する。
音声や顔表情の特徴量を用いて感情を認識する感情認識技術が知られているが、人間の感情は、音声や顔表情以外に、体を使った動作(ジェスチャ)にも現れるものである。そこで、近年、ジェスチャの特徴量に基づいて感情を認識する技術が注目されるようになってきた(例えば、特許文献1及び2参照。)。
特開2001−83984号公報 特開2007−41988号公報
しかしながら、上記従来の技術には、ジェスチャの特徴量に基づく感情認識の精度が悪いという問題があった。
例えば、上記特許文献1に開示される技術では、センサによって取得される電気信号から特徴量を抽出している(特許文献1の第0020段落等)が、この方法で取得される特徴量は、同文献の図6にもあるように、「手の動き」が「動」「通常」「静」のいずれであるかを示す情報のみであり、精度よく感情を認識することはできない。そこで、この技術では、「体温」「発汗量」「音声」「目の角度」「眉毛の角度」「瞬き」等、ジェスチャの特徴量ではない各種の特徴量を用いて感情の認識精度を確保している。
従って、本発明の課題の一つは、ジェスチャの特徴量に基づく感情認識の精度を向上できる感情表現抽出処理装置及びプログラムを提供することにある。
(1)上記課題を解決するための本発明の一態様にかかる感情表現抽出処理装置は、人間の動きの特徴を示す特徴量を取得する特徴量取得手段と、前記特徴量取得手段により取得される特徴量に関連付けて、前記人間の感情を示す感情情報を取得する感情情報取得手段と、前記感情情報と前記特徴量とに基づいて感情を特徴付ける感情モデルパラメータを生成し、生成した感情モデルパラメータをデータベースに記憶させる学習処理手段と、を含むことを特徴とする。
これによれば、人間の動きの特徴を示す特徴量を取得しているので、上記特許文献1に開示される技術に比べ、ジェスチャの特徴をより詳細に反映させた学習結果データを生成することができる。従って、ジェスチャの特徴量に基づく感情認識の精度が向上する。
ここで、次元変換処理の代表例は、主成分分析処理である。この主成分分析処理は、統計的な処理により、特徴空間における次元を圧縮するものである。次元変換処理としては、他にも、ICA(Independent Component Analysis、独立成分解析)、高次SVD(Singular Value Decomposition、特異値分解)、ISOMAPなどの方法による処理を用いることも可能である。
(2)また、上記感情表現抽出処理装置において、前記特徴量取得手段は、前記人間の関節ごとに、その動きを表す時系列信号を取得する時系列信号取得手段と、前記人間の各関節を体の部位ごとに分類してなる部位グループごとに、前記各時系列信号に次元変換処理を施し、次元圧縮した時系列信号を取得する次元変換処理手段と、前記次元変換処理手段により取得される前記各時系列信号それぞれをサブバンド分解することにより、前記部位グループ、次元圧縮後の成分、及びサブバンドグループの組み合わせごとの時系列信号により構成される3次元時系列信号を取得するサブバンド分解処理手段と、前記3次元時系列信号を構成する時系列信号のうちの一部を選択し、選択された時系列信号により構成される部分3次元時系列信号を取得する部分3次元時系列信号取得手段と、を含み、前記部分3次元時系列信号を前記特徴量として取得する、こととしてもよい。
このように部分3次元時系列信号をジェスチャの特徴量として用いれば、ジェスチャの特徴量に基づく感情認識の精度が向上する。
ここで、サブバンド分解処理の代表例はウェーブレット(Wavelet)分解処理である。また、上記のサブバンドグループは、どのサブバンド領域に属しているかを示すものである。
(3)また、上記各感情表現抽出処理装置において、前記次元変換処理手段により取得される前記各時系列信号のうちのひとつに基づいて、該時系列信号の時間区間を複数の区間に分割する区間分割手段、を含み、前記サブバンド分解処理手段は、前記区間ごとに前記各時系列信号それぞれをサブバンド分解して、前記区間ごとに前記3次元時系列信号を取得する、こととしてもよい。
これによれば、上記区間ごとに特徴量を取得することができる。
(4)また、上記各感情表現抽出処理装置において、前記特徴量取得手段により取得された前記特徴量と、前記学習処理手段により前記データベースに記憶された前記感情モデルパラメータと、に基づいて、人間の感情を示す感情情報を出力する認識処理手段、を含むこととしてもよい。
これによれば、ジェスチャから、人間の感情を取得することができる。
(5)また、上記感情表現抽出処理装置において、前記特徴量取得手段は、前記人間の関節ごとに、その動きを表す時系列信号を取得する時系列信号取得手段と、前記各時系列信号に次元変換処理を施し、次元圧縮した時系列信号を取得する次元変換処理手段と、前記次元変換処理手段により取得される前記各時系列信号それぞれをサブバンド分解することにより、次元圧縮後の成分及びサブバンドグループの組み合わせごとの時系列信号により構成される2次元時系列信号を取得するサブバンド分解処理手段と、前記2次元時系列信号を構成する時系列信号のうちの一部を選択し、選択された時系列信号により構成される部分2次元時系列信号を取得する部分2次元時系列信号取得手段と、を含み、前記部分2次元時系列信号を前記特徴量として取得する、こととしてもよい。
このようにしても、平均的に見れば、部位グループを用いる場合と同等の精度が得られる。
(6)また、本発明の他の一態様にかかる感情表現抽出処理装置は、人間の動きの特徴を示す特徴量と、前記人間の感情を示す感情情報と、に基づいて生成された感情を特徴付ける感情モデルパラメータを記憶するデータベースと、人間の動きの特徴を示す特徴量を取得する特徴量取得手段と、前記特徴量取得手段により取得された前記特徴量と、前記データベースに記憶される前記感情モデルパラメータと、に基づいて、人間の感情を示す感情情報を出力する認識処理手段と、を含むことを特徴とする。
(7)また、本発明にかかるプログラムは、人間の動きの特徴を示す特徴量を取得する特徴量取得手段、前記特徴量取得手段により取得される特徴量に関連付けて、前記人間の感情を示す感情情報を取得する感情情報取得手段、及び前記感情情報と前記特徴量とに基づいて感情を特徴付ける感情モデルパラメータを生成し、生成した感情モデルパラメータをデータベースに記憶させる学習処理手段、としてコンピュータを機能させるためのプログラムである。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は、本実施の形態にかかる感情表現抽出処理装置10のシステム構成及び機能ブロックを示す図である。同図に示すように、感情表現抽出処理装置10は、特徴量取得部11、操作部13、感情情報取得部14、学習処理部15、データベース16、認識処理部17、表示部18を含んで構成される。なお、感情表現抽出処理装置10には、例えばパーソナルコンピュータなどのコンピュータを用いることができる。
感情表現抽出処理装置10は、ジェスチャの特徴量を取得して人間の感情と紐付ける学習処理と、その学習結果を用いて、取得したジェスチャの特徴量から人間の感情を判定する認識処理と、を行う。以下では、まずジェスチャの特徴量を取得する処理について説明し、その後、学習処理と認識処理について順次説明する。
[特徴量取得処理]
まず、ジェスチャの特徴量を取得する処理について説明する。特徴量取得部11は、人間の各関節の動きの特徴を示す特徴量を取得する機能(特徴量取得手段)を有しており、具体的には、図1に示すように、モーションキャプチャ110、グループ化処理部111、主成分分析処理部112(次元変換処理手段)、感情区間抽出処理部113、サブバンド分解処理部115、部分3次元時系列信号取得部116を含んで構成される。
モーションキャプチャ110は、人間の関節ごとに、その動きを表す時系列信号を取得する(時系列信号取得手段)。この時系列信号取得の具体的な方式としては光学式、機械式、磁気式等があり、本実施の形態ではいずれを用いてもよい。なお、光学式には、1台又は複数台のカメラを用いて人間を撮影し、撮影結果から時系列信号を取得するものも含まれる。
図2は、人間の模式図であり、同図中の各四角形は人間の関節を示している。モーションキャプチャ110は、図2に示す人間の関節ごとに、関節の角度情報により基づいて4次元の時系列信号(クオータニオン)を取得するとともに、クオータニオンを時間微分した時系列信号を取得する。その結果、モーションキャプチャ110は、図2に示す人間の関節ごとに、8次元の時系列信号を取得する。本実施の形態において時系列信号取得対象の関節は図2にも示すように22個(腰、背骨、背骨1、背骨2、首、頭、右肩、右腕、右前腕、右手、左肩、左腕、左前腕、左手、右腿、右脚、右足、右爪先、左腿、左脚、左足、左爪先)あり、モーションキャプチャ110は、結果として176次元の時系列信号を取得して出力する。なお、本実施の形態では以上のような時系列信号を用いるが、例えばクオータニオンに代えて関節ごとの角度情報などの3次元の時系列信号を用いることとしてもよい。
式(1)は、上記176次元の時系列信号を示している。ここで、信号m(J)[n]は、J(x=1〜176)番目の次元について、時刻n(n=1〜nmax)においてモーションキャプチャ110が取得するデジタル信号の振幅値を示している。
Figure 2009037410
グループ化処理部111は、モーションキャプチャ110が取得した各時系列信号を、人間の各関節を体の部位ごとに分類してなる部位グループごとにグループ化する。本実施の形態では、図2に示すように、上記各関節を5つの部位グループ(胴体部(BB)、右腕部(RA)、左腕部(LA)、右脚部(RL)、左脚部(LL))に分けており、グループ化処理部111は、この5つの部位グループごとに、各時系列信号をグループ化する。
式(2)は、ある1つの部位グループGについて、グループ化された時系列信号M(G)[n]を示している。ここで、iは1〜5の数値で、それぞれ胴体部、右腕部、左腕部、右脚部、左脚部の各部位に対応している。Ji,yは部位グループG内の次元を表している。Mは部位グループGに含まれる次元の数であり、M+M+M+M+M=176である。
Figure 2009037410
主成分分析処理部112は、部位グループごとに、上記各時系列信号に主成分分析を施し、1又は複数の主成分についての時系列信号、つまり次元圧縮後の時系列信号を取得する(次元変換処理手段)。以下、部位グループGの例を用いて、主成分分析処理部112の処理について具体的に説明する。
主成分分析処理部112は、まず、時系列信号M(G)[n]の分散共分散行列S(式(3))を求める。ここで、sα,αはm(Ji,α)[n]の分散であり、sα,βはm(Ji,α)[n]とm(Ji,β)[n]の共分散である。具体的には、それぞれ式(4)で示される。なお、式(4)中のE[ ]は[ ]内の変数の平均値である。
Figure 2009037410
Figure 2009037410
次に、主成分分析処理部112は、分散共分散行列Sの固有値及び固有ベクトルを求める。具体的には、式(5)の固有値問題を解く。ここで、aは固有ベクトル、λは固有値である。
Figure 2009037410
式(5)の固有値問題を解くことによって、固有ベクトルa及び固有値λの組み合わせがM個得られる。以下では、各組み合わせを(az,λz)(z=1〜M)とする。ただし、λzはzの単調非減少関数であるとする。次に、主成分分析処理部112は、λzの総和に対する各λzの比(寄与率という。)を算出するとともに、変数TMの記憶領域を確保する。そして、z=1から順に上記寄与率を足していき、所定閾値を上回ったところのzの値を取得し、変数TMに代入する。
次に、主成分分析処理部112は、z=1〜TMについて、式(2)に示した各M(G)[n]の固有ベクトルaへの射影(tm(Ki,z)[n]とする。)を求める。その結果、主成分分析処理部112は、最終的に式(6)に示す時系列信号TM(G)[n]を取得する。この時系列信号TM(G)[n]は、TM個の主成分(z=1〜TM)についての時系列信号となっている。
Figure 2009037410
さて、次に感情区間抽出処理部113について説明する。人間が感情に応じた動作を行うとき、その動作は、ある程度の時間的なまとまりをもって感情の特徴を表している。感情区間抽出処理部113は、このような時間的まとまり(感情区間という。)を、部位グループGに属する各時系列信号tm(K1,z)[n]のうち、第1主成分の時系列信号tm(K1,1)[n]から抽出する。
具体的には、感情区間抽出処理部113は、時系列信号tm(K1,1)[1]〜tm(K1,1)[nmax]に基づいて、その時間区間(1〜nmax)を複数の区間に分割し(区間分割手段)、各区間を感情区間とする。以下、感情区間抽出処理部113の処理フローを参照しながら、感情区間抽出処理部113の処理についてより詳しく説明する。
図3は感情区間抽出処理部113の処理フローを示す図である。同図に示すように、感情区間抽出処理部113は、まずtm(K1,1)[1]〜tm(K1,1)[nmax]を取得する(ステップS1)。以下では、こうして取得した時系列信号tm(K1,1)[1]〜tm(K1,1)[nmax]を、簡単のためにss[n]と記す。
感情区間抽出処理部113は、ss[n]にFFT(Fast Fourier Transform)を施す。このFFTによってss[n]の周波数成分ごとの振幅値が得られ、感情区間抽出処理部113は、振幅値が最も大きい周波数を取得し、その逆数を基本周期Tとして取得する(ステップS2)。さらに、取得したTに所定値を乗算し、変数searchTに代入する(ステップS3)。
次に、感情区間抽出処理部113は、nを1からnmaxまで1ずつ増加させる。そして、各nの値について、nの最小近傍区間(n−Tからn+T)から最大近傍区間(n−searchTからn+searchT)まで段階的に区間を広げつつ、各区間内においてss[n]が最大となるnの値を取得する(ステップS4)。ステップS4の処理により、通常多くのnの値が得られることになるので、感情区間抽出処理部113は、これらのnの値を配列変数Extreme[t]に代入する(ステップS5)。ただし、t=1〜KK(取得されたnの値の数)である。
そして、感情区間抽出処理部113は、tの値を1からKKまで1ずつ増加させつつ(ステップS6〜ステップS9)、Extreme[t+1]−Extreme[t]の値が所定閾値を下回っているか否かを判定する(ステップS7)。その結果、下回っていた場合にのみ、Extreme[t]を削除する(ステップS8)。
ステップS6〜ステップS9の処理によっても、いくつかのtについては、Extreme[t]が削除されずに残ることになる。感情区間抽出処理部113は、削除されずに残っているExtreme[t]について、隣接Extreme[t]間の区間を、上記感情区間として取得する(ステップS10)。
図4は、感情区間の具体的な例を示す図である。図4横軸はn、縦軸はss[n]である。また、図4中の黒丸は、ステップS6〜ステップS9の処理後に残ったExtreme[t]に対応するss[n]の位置を示している。図4に示す例では、例えばn=100付近にss[n]が極大となるnの値が2つあるが、ステップS6〜ステップS9の処理により、小さいほうのnの値は配列変数Extreme[t]から削除されている。感情区間抽出処理部113は、隣接黒丸間の区間を感情区間として取得する。
さて、サブバンド分解処理部115は、上記感情区間ごとに、主成分分析処理部112により取得される各時系列信号それぞれをサブバンド分解する。そして、その結果から、上記感情区間ごとに、部位グループG、主成分z、及びサブバンドレベルlの組み合わせごとの時系列信号により構成される3次元時系列信号を取得する。以下、具体的に説明する。
サブバンド分解では、時系列信号tm(Ki,z)[n]を、サブバンドレベル1〜Lに階層付けられた複数のサブバンド(帯域)グループに分解する。サブバンドレベルlの時系列信号(ウェーブレット係数と呼ばれる。)をW(Ki,z)[l][n]とすると、W(Ki,z)[l][n]は式(7)の漸化式により表される。ただし、w(Ki,z)[l][n]は式(8)の漸化式で表される時系列信号であり、スケーリング係数と呼ばれるものである。なお、w(Ki,z)[0][n]=tm(Ki,z)[n]である。
Figure 2009037410
Figure 2009037410
式(7)及び式(8)に示されるように、サブバンドレベルl+1の時系列信号のデータ数は、サブバンドレベルlの時系列信号のデータ数の半分になっている。
サブバンド分解処理部115は、式(7)及び式(8)の計算を繰り返すことによってL個の時系列信号W(Ki,z)[l][n](l=1〜L)を取得する。
図5は、サブバンド分解処理部115の具体的な回路構成の説明図である。同図に示すように、サブバンド分解処理部115はハイパスフィルタとローパスフィルタを含んで構成される。ハイパスフィルタは式(7)の処理を行うものであり、ローパスフィルタは式(8)の処理を行うものである。サブバンド分解処理部115は、時系列信号tm(Ki,z)[n]を受け付け、各ハイパスフィルタ及び各ローパスフィルタを用いて上記式(7)及び式(8)の処理を繰り返し行い、その結果としてL個の時系列信号W(Ki,z)[l][n](l=1〜L)を取得する。
サブバンド分解処理部115は、上記同様の処理を、各主成分、各部位グループについて、感情区間ごとに行う。そして、その結果から、感情区間ごとに、3次元時系列信号DecompMotionData[i][l][j][n]を取得する。この3次元時系列信号は、具体的には式(9)により表される。
Figure 2009037410
図6は、上記3次元時系列信号を模式的に示したものである。図6には、i軸(部位グループ)、l軸(サブバンドレベル)、z軸(主成分)からなる3次元空間を示している。また、図6に示す「第max(TM)成分」は、TM〜TMのうちの最大のものを示している。図6に示す個々の小立方体は、部位グループG、主成分z、及びサブバンドレベルlの組み合わせに対応しており、それぞれ時系列信号W(Ki,z)[l][n]に対応している。
以上のようにして3次元時系列信号が取得されると、次に、部分3次元時系列信号取得部116は、取得された3次元時系列信号を構成する時系列信号のうちの一部(図6に示す小立方体のうちのいくつか)を選択し、選択された時系列信号により構成される部分3次元時系列信号を取得する(部分3次元時系列信号取得手段)。具体的な例では、取得された3次元時系列信号を構成する時系列信号のうち、その平均振幅値が所定値以上であるものを選択する。
特徴量取得部11は、部分3次元時系列信号取得部116が取得した上記部分3次元時系列信号を特徴量として取得し、学習処理部15及び認識処理部17のうちの少なくとも一方に出力する。より特定的には、学習時には学習処理部15へ、認識時には認識処理部17へ出力する。
[学習処理]
次に、学習処理について説明する。操作部13は、キーボード、マウス等の操作手段であり、ユーザ指示の入力を受け付ける。ユーザは、モーションキャプチャ110が人間の動作から時系列信号を取得する際、操作部13を用いて、該動作を行っている該人間の感情を示す感情情報を入力するための操作を行う。感情情報の例としては、怒り(アングリー)を表す情報、楽しみ(ハッピー)を表す情報、特段の感情がないこと(ニュートラル)を示す情報、哀しみ(サッド)を表す情報、が挙げられる。感情情報取得部14は、ユーザの操作内容から感情情報を取得し(感情情報取得手段)、学習処理部15に出力する。
学習処理部15は、感情情報取得部14から入力される感情情報と、特徴量取得部11から入力される特徴量(感情区間ごとの部分3次元時系列信号)と、に基づいて学習結果データを生成し、生成した学習結果データをデータベース16に記憶させる(学習処理手段)。ここで、学習結果データは、感情を特徴付ける感情モデルパラメータである。以下、学習結果データの詳細について説明するが、学習処理部15が用いる学習モデルには隠れマルコフモデル(Hidden Markov Model;HMM)を用いることが好適であるので、ここでは、このHMMを用いる場合について説明する。
HMMでは、学習結果データは、それぞれの感情を特徴付けるHMMモデルパラメータ(感情モデルパラメータ)と3次元時系列信号から部分3次元時系列信号への変換パラメータである。HMMモデルパラメータは、文献[Rabiner]にも記載されているようにHMMの状態構造を決定する2値のトポロジー行列要素と初期状態確率、状態遷移確率や状態ごとの観測確率を含む統計的要素からなる。3次元時系列信号から部分3次元時系列信号への変換パラメータは、具体的には、部分3次元時系列信号が元の3次元時系列信号のどの部分に相当するのかを示すインデクス番号の集合である。
学習処理部15では、ある感情情報についての3次元時系列信号が入力されると、あらかじめ決められた変換パラメータを用いて部分3次元時系列信号に変換される。そして、その部分3次元時系列信号を最も高い確率で出力するHMMモデルパラメータを決定する。これを同感情情報についての多数の部分3次元時系列信号について繰り返し、同感情情報について最も尤もらしいHMMモデルパラメータ(以下では、HMMということにする。ただし、kは感情情報のインデクス番号である。)を決定する。このHMMと変換パラメータで感情ごとに学習結果データを生成し、データベース16に記憶させる。
[認識処理]
次に、認識処理について説明する。認識処理部17は、特徴量取得部11から特徴量(部分3次元時系列信号)が入力されると、該特徴量と、データベース16に記憶される学習結果データ(感情を特徴付ける感情モデルパラメータ)と、に基づいて感情情報を出力する(認識処理手段)。具体的には、感情ごとに変換パラメータで入力の3次元時系列信号から変換された部分3次元時系列信号を最も高い確率で出力する状態遷移系列を決定する。そして、該状態遷移系列と、データベース16に記憶される各HMMと、の尤度(類似度)λを算出する。そして、算出した複数の尤度λの中で最も大きいものに対応する最尤状態遷移系列HMMを示す情報と対応付けて記憶される感情情報を取得して表示部18に出力する。式(10)は、この処理を数式により表したものである。ただし、emotionIDは感情情報を表している。
Figure 2009037410
表示部18は、液晶ディスプレイ等の表示手段である。表示部18は、認識処理部17から入力された感情情報を表示する。
以上説明した認識処理の認識精度について、実験結果を提示しつつ説明する。表1は、本実施の形態にかかる感情表現抽出処理装置10を用いて認識実験を行った結果を示す表である。ただし、この実験では、簡便のため、部位グループとして左右脚部のみを用い、サブバンドレベルも5,6のみを用いている。なお、主成分の次元(TM)はいずれの脚部についても2としている。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.632となっている。なお、0.632という数値は、1000回に632回の割合で正しく認識できる程度の認識精度を有していることを示しており、以下でも同様である。
Figure 2009037410
次に、表2は、式(1)に示した176次元の時系列信号のうち、32次元分の時系列信号(右脚、右足、左脚、左足に対応するクオータニオン及びその微分信号)を特徴量として用いて認識実験を行った結果を示している。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.406となっている。
Figure 2009037410
次に、表3は、左右脚部について、式(6)に示した時系列信号を特徴量として用いて認識実験を行った結果を示している。なお、主成分の次元(TM)はいずれの脚部についても2としている。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.437となっている。
Figure 2009037410
以上説明したように、感情表現抽出処理装置10によれば、人間の各関節の動きの特徴を示す特徴量を取得しているので、背景技術に比べ、ジェスチャの特徴をより詳細に反映させた学習結果データを生成することができる。従って、ジェスチャの特徴量に基づく感情認識の精度が向上する。
また、部分3次元時系列信号をジェスチャの特徴量として用いたことにより、ジェスチャの特徴量に基づく感情認識の精度が向上している。
以上本発明の実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、本発明は、その要旨を逸脱しない範囲において、種々なる態様で実施され得ることは勿論である。
例えば、上記実施の形態では部位グループごとに主成分分析を行ったが、部位グループを用いなくても、ある程度の効果を得ることが可能である。この場合、式(2)に代えて式(11)を用い、時系列信号M[n]を用いて、上記実施の形態同様、主成分分析、サブバンド分解等を行う。その結果得られる特徴量は3次元時系列信号ではなく、2次元時系列信号となる。式(12)は、この2次元時系列信号の例を示している。
Figure 2009037410
Figure 2009037410
部位グループを用いない場合の認識処理の認識精度について、実験結果を提示しつつ説明する。表4は、上記実施の形態にかかる感情表現抽出処理装置10を用いて認識実験を行った結果を示す表である。ただし、この実験では、部位グループとして胴体部及び左右脚部を用い、サブバンドレベルは5,6のみを用いている。なお、主成分の次元(TM)はいずれの脚部についても2としている。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.632となっている。
Figure 2009037410
次に、表5は、式(1)に示した176次元の時系列信号のうち、112次元分の時系列信号(腰、背骨、背骨1、背骨2、首、頭、右肩、右腕、右前腕、右手、左肩、左腕、左前腕、左手に対応するクオータニオン及びその微分信号)に直接主成分分析を加えて次元圧縮した12次元分の時系列信号を特徴量として用いて認識実験を行った結果を示している。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.535となっている。
Figure 2009037410
次に、表6は、表5の実験で用いた12次元分の時系列信号を上記同様にサブバンド分解して得られるL個の時系列信号のうち、サブバンドレベル5,6にかかる時系列信号を用いて得られる3次元時系列信号を特徴量として用いて認識実験を行った結果を示している。この場合、同表に示すように、各種の感情について実験を行った結果得られたトータル認識精度は0.715となっており、表4の結果と等しくなっている。この結果は、部位グループを用いなくても、ある程度の効果を得ることが可能であることを示している。
Figure 2009037410
また、上記実施の形態では、データベース16に記憶される学習結果データを認識処理のために用いる例について説明したが、同学習結果データは、例えばCG(computer graphics)合成の用途にも用いることができる。この場合、学習処理部15及び認識処理部17の他に、時系列信号出力部を用いる。時系列信号出力部は、感情情報を入力すると、その感情情報に対応するHMMをデータベース16から取得し、取得したHMMに基づいて部分3次元時系列信号を取得する。そして、上記サブバンド分解、上記主成分分析、上記部位グループ化、の各逆処理を行い、最終的に式(1)に示した176次元の時系列信号を出力する。この時系列信号は人間の各関節の動きを示すものであるので、この時系列信号に従って人間のCGを合成することにより、自然なジェスチャにより人間の感情を表現するCGを合成できる。
また、上記実施の形態では、感情表現抽出処理装置10の内部に特徴量取得部11や操作部13を設ける構成について説明したが、これらを感情表現抽出処理装置10の外部に設けることとしてもよい。この場合、感情表現抽出処理装置10は、これらをセットにしたデータを外部装置から受信して、学習処理を行う。
また、感情表現抽出処理装置10の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上記感情表現抽出処理装置10の各処理を行ってもよい。
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、この「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに、「コンピュータ読み取り可能な記録媒体」には、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
さらに、上記プログラムは、上述した各機能の一部を実現するためのものであってもよい。さらに、上述した各機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明の実施の形態にかかる感情表現抽出処理装置のシステム構成及び機能ブロックを示す図である。 人間の模式図であり、同図中の各四角形は人間の関節を示している。 本発明の実施の形態にかかる感情区間抽出処理部の処理フローを示す図である。 本発明の実施の形態にかかる感情区間の具体的な例を示す図である。 本発明の実施の形態にかかるサブバンド分解処理部の具体的な回路構成の説明図である。 本発明の実施の形態にかかる3次元時系列信号を模式的に示した図である。
符号の説明
10 感情表現抽出処理装置、
11 特徴量取得部、
13 操作部、
14 感情情報取得部、
15 学習処理部、
16 データベース、
17 認識処理部、
18 表示部、
110 モーションキャプチャ、
111 グループ化処理部、
112 主成分分析処理部、
113 感情区間抽出処理部、
115 サブバンド分解処理部、
116 部分3次元時系列信号取得部。

Claims (7)

  1. 人間の動きの特徴を示す特徴量を取得する特徴量取得手段と、
    前記特徴量取得手段により取得される特徴量に関連付けて、前記人間の感情を示す感情情報を取得する感情情報取得手段と、
    前記感情情報と前記特徴量とに基づいて感情を特徴付ける感情モデルパラメータを生成し、生成した感情モデルパラメータをデータベースに記憶させる学習処理手段と、
    を含むことを特徴とする感情表現抽出処理装置。
  2. 請求項1に記載の感情表現抽出処理装置において、
    前記特徴量取得手段は、
    前記人間の関節ごとに、その動きを表す時系列信号を取得する時系列信号取得手段と、
    前記人間の各関節を体の部位ごとに分類してなる部位グループごとに、前記各時系列信号に次元変換処理を施し、次元圧縮した時系列信号を取得する次元変換処理手段と、
    前記次元変換処理手段により取得される前記各時系列信号それぞれをサブバンド分解することにより、前記部位グループ、次元圧縮後の成分、及びサブバンドグループの組み合わせごとの時系列信号により構成される3次元時系列信号を取得するサブバンド分解処理手段と、
    前記3次元時系列信号を構成する時系列信号のうちの一部を選択し、選択された時系列信号により構成される部分3次元時系列信号を取得する部分3次元時系列信号取得手段と、
    を含み、前記部分3次元時系列信号を前記特徴量として取得する、
    ことを特徴とする感情表現抽出処理装置。
  3. 請求項1又は2に記載の感情表現抽出処理装置において、
    前記次元変換処理手段により取得される前記各時系列信号のうちのひとつに基づいて、該時系列信号の時間区間を複数の区間に分割する区間分割手段、
    を含み、
    前記サブバンド分解処理手段は、前記区間ごとに前記各時系列信号それぞれをサブバンド分解して、前記区間ごとに前記3次元時系列信号を取得する、
    ことを特徴とする感情表現抽出処理装置。
  4. 請求項1から3までのいずれか1項に記載の感情表現抽出処理装置において、
    前記特徴量取得手段により取得された前記特徴量と、前記学習処理手段により前記データベースに記憶された前記感情モデルパラメータと、に基づいて、人間の感情を示す感情情報を出力する認識処理手段、
    を含むことを特徴とする感情表現抽出処理装置。
  5. 請求項1に記載の感情表現抽出処理装置において、
    前記特徴量取得手段は、
    前記人間の関節ごとに、その動きを表す時系列信号を取得する時系列信号取得手段と、
    前記各時系列信号に次元変換処理を施し、次元圧縮した時系列信号を取得する次元変換処理手段と、
    前記次元変換処理手段により取得される前記各時系列信号それぞれをサブバンド分解することにより、次元圧縮後の成分及びサブバンドグループの組み合わせごとの時系列信号により構成される2次元時系列信号を取得するサブバンド分解処理手段と、
    前記2次元時系列信号を構成する時系列信号のうちの一部を選択し、選択された時系列信号により構成される部分2次元時系列信号を取得する部分2次元時系列信号取得手段と、
    を含み、前記部分2次元時系列信号を前記特徴量として取得する、
    ことを特徴とする感情表現抽出処理装置。
  6. 人間の動きの特徴を示す特徴量と、前記人間の感情を示す感情情報と、に基づいて生成された感情を特徴付ける感情モデルパラメータを記憶するデータベースと、
    人間の動きの特徴を示す特徴量を取得する特徴量取得手段と、
    前記特徴量取得手段により取得された前記特徴量と、前記データベースに記憶される前記感情モデルパラメータと、に基づいて、人間の感情を示す感情情報を出力する認識処理手段と、
    を含むことを特徴とする感情表現抽出処理装置。
  7. 人間の動きの特徴を示す特徴量を取得する特徴量取得手段、
    前記特徴量取得手段により取得される特徴量に関連付けて、前記人間の感情を示す感情情報を取得する感情情報取得手段、及び
    前記感情情報と前記特徴量とに基づいて感情を特徴付ける感情モデルパラメータを生成し、生成した感情モデルパラメータをデータベースに記憶させる学習処理手段、
    としてコンピュータを機能させるためのプログラム。
JP2007201006A 2007-08-01 2007-08-01 感情表現抽出処理装置及びプログラム Expired - Fee Related JP4922095B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007201006A JP4922095B2 (ja) 2007-08-01 2007-08-01 感情表現抽出処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007201006A JP4922095B2 (ja) 2007-08-01 2007-08-01 感情表現抽出処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2009037410A true JP2009037410A (ja) 2009-02-19
JP4922095B2 JP4922095B2 (ja) 2012-04-25

Family

ID=40439256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007201006A Expired - Fee Related JP4922095B2 (ja) 2007-08-01 2007-08-01 感情表現抽出処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4922095B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231452A (ja) * 2009-03-26 2010-10-14 Kddi Corp 多次元時系列データ分析装置及び多次元時系列データ分析プログラム
WO2010122173A1 (fr) * 2009-04-24 2010-10-28 Commissariat A L'energie Atomique Et Aux Energies Alternatives Systeme et procede de determination de l'activite d'une personne allongee
JP2015191471A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 感情情報推定装置、方法及びプログラム
JP2018173763A (ja) * 2017-03-31 2018-11-08 積水化学工業株式会社 行動支援システム、行動支援方法
JP2021518965A (ja) * 2018-09-19 2021-08-05 ブイタッチ・カンパニー・リミテッド 客体の制御を支援するための方法、システムおよび非一過性のコンピュータ読み取り可能記録媒体
JPWO2022172384A1 (ja) * 2021-02-12 2022-08-18

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339446A (ja) * 1995-06-09 1996-12-24 Sharp Corp 対話装置
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP2004310606A (ja) * 2003-04-09 2004-11-04 Toyota Motor Corp 変化情報認識装置および変化情報認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339446A (ja) * 1995-06-09 1996-12-24 Sharp Corp 対話装置
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP2004310606A (ja) * 2003-04-09 2004-11-04 Toyota Motor Corp 変化情報認識装置および変化情報認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
加賀谷 拓: "人間の動作系列からの感情・情動推定手法", 情報処理学会第68回全国大会, JPN6011031179, 7 March 2006 (2006-03-07), JP, pages 2 - 77, ISSN: 0002106461 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231452A (ja) * 2009-03-26 2010-10-14 Kddi Corp 多次元時系列データ分析装置及び多次元時系列データ分析プログラム
WO2010122173A1 (fr) * 2009-04-24 2010-10-28 Commissariat A L'energie Atomique Et Aux Energies Alternatives Systeme et procede de determination de l'activite d'une personne allongee
US8898041B2 (en) 2009-04-24 2014-11-25 Commissariat A L'energie Atomique Et Aux Energies Alternatives System and method for determining the activity of a person lying down
JP2015191471A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 感情情報推定装置、方法及びプログラム
JP2018173763A (ja) * 2017-03-31 2018-11-08 積水化学工業株式会社 行動支援システム、行動支援方法
JP2021518965A (ja) * 2018-09-19 2021-08-05 ブイタッチ・カンパニー・リミテッド 客体の制御を支援するための方法、システムおよび非一過性のコンピュータ読み取り可能記録媒体
JP7062833B2 (ja) 2018-09-19 2022-05-06 ブイタッチ・カンパニー・リミテッド 客体の制御を支援するための方法、システムおよび非一過性のコンピュータ読み取り可能記録媒体
JPWO2022172384A1 (ja) * 2021-02-12 2022-08-18
WO2022172384A1 (ja) * 2021-02-12 2022-08-18 三菱電機株式会社 情報処理装置、推定方法、及び推定プログラム
JP7224569B2 (ja) 2021-02-12 2023-02-17 三菱電機株式会社 情報処理装置、推定方法、及び推定プログラム

Also Published As

Publication number Publication date
JP4922095B2 (ja) 2012-04-25

Similar Documents

Publication Publication Date Title
Olszewski et al. High-fidelity facial and speech animation for VR HMDs
Ji et al. Updating the silent speech challenge benchmark with deep learning
JP2022505498A (ja) 画像処理方法、装置、電子機器及びコンピュータ読取可能記憶媒体
JP4922095B2 (ja) 感情表現抽出処理装置及びプログラム
Wu et al. Speaking effect removal on emotion recognition from facial expressions based on eigenface conversion
CN109684969B (zh) 凝视位置估计方法、计算机设备及存储介质
US10713471B2 (en) System and method for simulating facial expression of virtual facial model
JP5051746B2 (ja) 特徴抽出装置及び方法並びにプログラム
Kumar et al. Indian sign language recognition using graph matching on 3D motion captured signs
Ali et al. Object recognition for dental instruments using SSD-MobileNet
CN114463827A (zh) 一种基于ds证据理论的多模态实时情绪识别方法及系统
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
JP3998628B2 (ja) パターン認識装置及びその方法
Meng et al. Listen to your face: Inferring facial action units from audio channel
Morade et al. Comparison of classifiers for lip reading with CUAVE and TULIPS database
CN113873297A (zh) 一种数字人物视频的生成方法及相关装置
Zheng et al. Speech Emotion Recognition based on Multi-Level Residual Convolutional Neural Networks.
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
JP4090969B2 (ja) 信号分離方法、信号分離プログラム及びそのプログラムを記録した記録媒体
Chen et al. A GAN-Based Data Augmentation Approach for Sensor-Based Human Activity Recognition
CN112651363A (zh) 基于多特征点的微表情拟合方法和系统
CN113076918A (zh) 基于视频的人脸表情克隆方法
JP2020135424A (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023152832A1 (ja) 識別装置、識別方法、及び非一時的なコンピュータ可読媒体
Mizna et al. Blue eyes technology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees