JP4546767B2

JP4546767B2 - 感情推定装置及び感情推定プログラム

Info

Publication number: JP4546767B2
Application number: JP2004171288A
Authority: JP
Inventors: 康仁澤畠
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-06-09
Filing date: 2004-06-09
Publication date: 2010-09-15
Anticipated expiration: 2024-06-09
Also published as: JP2005348872A

Description

本発明は、感情推定装置及び感情推定プログラムに係り、特に高精度に被験者の感情を推定するための感情推定装置及び感情推定プログラムに関する。

従来より映像や音声等のコンテンツや物理的なオブジェクト等を用いて被験者に何かしらの感情表現のきっかけを与え、その結果被験者から得られる情報により被験者の感情を推定する技術が様々な分野で用いられる。

ここで、一般に被験者の感情を推定する場合、被験者の情報をカメラやマイク等から得られる映像や音声、生体情報等に基づいて感情の推定を行っている（例えば、特許文献１参照。）。

特許文献１では、被験者の感情を検出するための感情検出方法として、音声信号を入力し、入力した音声信号から音声の強度、音声のテンポ及び音声の各単語内の強度変化パターンを表す抑揚をそれぞれ検出し、またそれぞれの変化量を算出して、算出された変化量に基づいて「怒り」や「悲しみ」、及び「喜び」のそれぞれの感情状態を表す信号を生成している。
特開２００２−９１４８２号

しかしながら、従来の方法では、表情や音声、あるいは生体情報と、予め収集していた統計データとの差異を調べることにより、対応する感情の推定を行っていた。

そのため、例えば、目を細めて肩を上下に揺らしている被験者は、「笑っている」と推定される場合や、「泣いている」と推定される場合があった。このように、被験者から得られる情報のみでは、高精度に感情の推定を行うことができない。

本発明は、上述した問題点に鑑みなされたものであり、高精度に感情の推定を行うための感情推定装置及び感情推定プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、被験者に情報を提示することにより前記被験者が得る感情を推定するための感情推定装置において、前記被験者に提示情報を提示する情報提示手段と、前記情報提示手段により提示された提示情報に含まれる映像及び音声から特徴量を生成し、生成された特徴量と予め学習された第１のニューラルネットワークとに基づいて、前記提示情報の状況を分析する分析手段と、前記分析手段により得られる分析結果と前記提示情報の詳細情報とから得られる文脈から前記被験者の感情状態の候補を推定する文脈推定手段と、前記情報提示手段により提示された提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報に基づいて前記被験者の感情状態の尤度を推定する状況推定手段と、前記文脈推定手段により得られる前記被験者の感情状態の候補と、予め設定される感情状態に対する調整値とに基づいて、前記状況推定手段により得られる前記被験者の感情状態の尤度を調整し、調整された尤度が最大となる感情状態を前記被験者の感情であると推定する感情推定手段とを有することを特徴とする。

請求項１記載の発明によれば、高精度に感情の推定を行うことができる。具体的には、提示情報や詳細情報からなる文脈により、文脈として不正確な感情表現を削除することができるため、高精度に感情の推定を行うことができる。また、ニューラルネットワークの学習情報を用いて効率よく高精度に分析を行うことができる。また、調整値により尤度を調整することにより、高精度に感情の推定を行うことができる。更に、尤度が最大となる感情状態を被験者の感情であると推定することで容易に被験者の感情状態を推定することができる。

請求項２に記載された発明は、前記文脈推定手段は、前記分析手段により得られる分析結果及び前記提示情報の詳細情報と、予め学習された第２のニューラルネットワークとに基づいて、前記被験者の感情状態の候補を推定することを特徴とする。

請求項２記載の発明によれば、ニューラルネットワークの学習情報を用いて効率よく高精度に感情状態の頻度を推定することができる。これにより、高精度に感情の推定を行うことができる。

請求項３に記載された発明は、前記状況推定手段は、前記提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報から特徴量を生成し、生成された特徴量と、予め学習された第３のニューラルネットワークとに基づいて、前記感情状態に対する尤度を出力することを特徴とする。

請求項３記載の発明によれば、ニューラルネットワークの学習情報を用いて効率よく高精度に感情状態に対する尤度を出力することができる。これにより、高精度に感情の推定を行うことができる。

請求項４に記載された発明は、被験者に情報を提示することにより前記被験者が得る感情を推定するための感情推定プログラムにおいて、コンピュータを、前記被験者に提示情報を提示する情報提示手段、前記情報提示手段により提示された提示情報に含まれる映像及び音声から特徴量を生成し、生成された特徴量と予め学習された第１のニューラルネットワークとに基づいて、前記提示情報の状況を分析する分析手段、前記分析手段により得られる分析結果と前記提示情報の詳細情報とから得られる文脈から前記被験者の感情状態の候補を推定する文脈推定手段、前記情報提示手段により提示された提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報に基づいて前記被験者の感情状態の尤度を推定する状況推定手段、及び、前記文脈推定手段により得られる前記被験者の感情状態の候補と、予め設定される感情状態に対する調整値とに基づいて、前記状況推定手段により得られる前記被験者の感情状態の尤度を調整し、調整された尤度が最大となる感情状態を前記被験者の感情であると推定する感情推定手段として機能させる。

請求項４記載の発明によれば、高精度に感情の推定を行うことができる。また、ニューラルネットワークの学習情報を用いて効率よく高精度に分析を行うことができる。また、調整値により尤度を調整することにより、高精度に感情の推定を行うことができる。また、尤度が最大となる感情状態を被験者の感情であると推定することで容易に被験者の感情状態を推定することができる。更に、実行プログラムをコンピュータにインストールすることにより、安価な構成で容易に被験者の感情の推定を行うことができる。

本発明によれば、高精度に被験者の感情の推定を行うことができる。

＜本発明の概要＞
本発明は、被験者の感情を推定する際、被験者の状況をカメラやマイク、生体情報等の情報を処理するだけでなく、被験者に提示している映像や音声等のコンテンツ、又は被験者と対話を行うインターフェースロボット等の表情や動作、触覚ディスプレイ等の物理的なオブジェクト等の情報を利用することにより、カメラやマイク、生体情報等だけでは判断が難しい感情を高精度に推定することを可能とする。

具体的には、情報提示手段により被験者に提示されている提示情報（映像、音声、字幕や音声認識から得られる言語情報、物理的なオブジェクトの動き等）を分析することにより得られる特徴と提示情報の詳細情報、及び被験者の状況をカメラ、マイク、その他のセンサ等によって被験者をモニタリングし、そのモニタリング結果から得られる感情状態に基づいて被験者がどのような感情になっているかを高精度に推定する。

＜実施形態＞
以下に、本発明における感情推定装置及び感情推定プログラムを好適に実施した形態について、図面を用いて説明する。

図１は、本発明における感情推定装置の一構成例を示す図である。図１に示す感情推定装置１０は、情報提示手段１１と、提示情報分析手段１２と、文脈推定手段１３と、撮像手段１４と、音声入力手段１５と、計測手段１６と、被験者状況推定手段１７と、感情推定手段１８とを有するよう構成されている。また、感情推定手段１８は、文脈・被験者状況対応データベース（ＤＢ：ＤａｔａＢａｓｅ）１９から必要に応じて情報を取得することができる。

情報提示手段１１は、被験者（視聴者）２１に映像や音声等の情報を提示する。具体的には、ディスプレイ等の表示手段や、スピーカ等の音声出力手段を有する。また、情報提示手段１１は、出力された映像や音声からなるＡＶ（ＡｕｄｉｏＶｉｓｕａｌ）ソースやオブジェクトに関する基本情報を提示情報分析手段１２に出力する。

提示情報分析手段１２は、映像や音声、物理的なオブジェクトの動き等の提示情報について、映像の色情報、エッジ情報、顔の存在等の特徴、音声のＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ：帯域毎のエネルギー）、音量、韻律（ピッチ、抑揚等）等の特徴量を生成する。

また、提示情報分析手段１２は、予め学習されたニューラルネットワーク（第１のニューラルネットワーク）に上述した少なくとも１つの特徴量を入力し、提示情報がどのようなもの（映像、音声）であるかを分析する。また、提示情報分析手段１１は、分析結果を文脈推定手段１３に出力する。なお、提示情報分析手段１２における第１のニューラルネットワークの構成例については後述する。

文脈推定手段１３は、提示情報分析手段１２により得られる分析結果及び提示情報に対応した詳細情報２０等からなる物事の背景（文脈）と、予め学習されたニューラルネットワーク（第２のニューラルネットワーク）とに基づいて、提示情報が被験者２１に引き起こす感情状態が何である確率が高いかを推定する。提示情報における文脈の推定を行うことで、文脈として不正確な感情を削除することができる。

ここで、提示情報の詳細情報２０は、放送波やインターネット等から取得した字幕情報、番組詳細情報、現在提示している状態等であり、提示情報に対応して放送局等から取得することができるものである。なお、詳細情報には、ドラマ、ニュース、音楽等の提示している番組のジャンルや、提示情報の属性を示すメタデータ、言語情報、「喜」、「怒」、「哀」、「楽」等の予め設定される感情に対応する言葉の数等の情報も含まれる。

文脈推定手段１３は、上述した情報を入力し、予め学習された第２のニューラルネットワークにより被験者の感情の候補を推定し、推定結果として感情推定手段１８に出力する。ここで、感情の候補としては、例えば、「喜び」、「悲しみ」、「怒り」、「驚き」、「恐れ」、「緊張」、「疲労」、等である。なお、文脈推定手段１３における第２のニューラルネットワークの構成例については後述する。

また、感情推定装置１０は、被験者２１における提示情報の視聴状況についてモニタリングを行う。撮像手段１４はカメラ等からなり、被験者２１の顔画像等を撮影する。また、撮像手段１４は、撮影された映像を被験者状況推定手段１７に出力する。

また、音声入力手段１５はマイク等からなり、被験者２１からの音声を入力する。また、音声入力手段１５は入力した音声を被験者状況推定手段１７に出力する。

また、計測手段１６は、被験者２１の血圧計や心拍計等を用いて被験者の生体情報を取得する。また、計測手段１６は、計測した生体情報を被験者状況推定手段１７に出力する。

被験者状況推定手段１７は、撮像手段１４、音声入力手段１５、計測手段１６により得られる映像情報、音声情報、生体情報から特徴量を生成する。また、被験者状況推定手段１７は、予め学習されたニューラルネットワーク（第３のニューラルネットワーク）に上述した少なくとも１つの特徴量を入力し、被験者２１が提示情報の視聴時に複数の感情状態に対してどの程度の尤度を有しているのかを推定する。なお、被験者状況推定手段１７における第３のニューラルネットワークの構成例については後述する。

なお、被験者状況推定手段１７の入力は、被験者２１の顔の特徴（例えば、シワ、眉毛、目、口等）、発話内容の属性（例えば、「喜び」「怒り」等）、生体情報（例えば、心拍数、α波（覚醒状態）、血圧等）、韻律（例えば、ピッチ、音量、ＭＦＣＣ等）等である。ここで、上述した顔の特徴を抽出する手法としては、例えば顔の濃淡画像にエッジ抽出フィルタ等を行い、エッジ画像とエッジにより得られる顔部品のテンプレートとのマッチングによって、顔の特徴を抽出する手法等を用いることができる。

また、被験者状況推定手段１７の出力は、文脈推定手段１３と同様に、「喜び」、「悲しみ」、「怒り」、「驚き」、「恐れ」、「緊張」、「疲労」等である。被験者状況推定手段１７は、推定された被験者状況の推定結果を感情推定手段１８に出力する。

感情推定手段１８は、文脈・被験者状況対応ＤＢ１９の情報を参照することで、文脈推定手段１３及び被験者状況推定手段１７により得られるそれぞれの感情状態から尤度を重み付けにより調整し、最終的に被験者２１がどのような感情状態にいるかを推定する。

ここで、文脈・被験者状況対応ＤＢ１９には、文脈推定手段１３により得られる感情状態の候補と、被験者状況推定手段１７により得られる感情状態との各組み合わせに対応する尤度の調整値（重み付け）が蓄積されている。なお、文脈・被験者状況対応ＤＢ１９の具体的なデータ例については後述する。

感情推定手段１８は、尤度の調整を行った後、例えば、尤度が最大の感情をその時点での被験者２１の感情と推定する。

このように、被験者の状況だけでなく、被験者の感情変化のきっかけを与える提示情報の特徴を用いることにより、文脈に適した感情表現を認識することができる。これにより、判断が困難であった感情表現も文脈に合わない感情表現を削除することで、高精度に感情の推定を行うことができる。

＜提示情報分析手段１２における第１のニューラルネットワークの構成例＞
次に、提示情報分析手段１２における第１のニューラルネットワークの構成例について説明する。図２は、提示情報分析手段における入出力について説明するための一例を示す図である。図２に示すように情報提示手段１１により得られる提示情報から特徴量を生成し、生成した特徴量を入力として第１のニューラルネットワークにより提示情報の分析を行う。

具体的には、第１のニューラルネットワークに入力される情報としては、映像の色やエッジ量、顔の存在の有無、ＭＦＣＣ、音量、韻律等がある。また、第１のニューラルネットワークからの出力としては、映像が屋内であるか、屋外であるか、映像の天気の様子、映像が対話中であるか否か、ＢＧＭのジャンル（ポップ、ロック、ジャズ等）、音声の種類（泣き声、笑い声、叫び声等）等がある。

次に、提示情報の分析内容についての具体的な内容について説明する。例えば、提示情報として映像及び音声情報を有する場合には、映像と音声とのそれぞれにおける特徴量を生成し、生成した特徴量を結合してｎ次元（ｎ：１以上の整数）の特徴量を取得する。また、取得した特徴量に基づいて提示情報の分析を行う。

ここで、一例として、音声特徴量としてケプストラム分析により６次元の特徴量を生成する手法を説明する。ある時間ｔに入力される音声信号ｓ（ｔ）から予め設定される時間Ｔまでの音声信号ｓ（ｔ〜ｔ＋Ｔ）の区間についてフーリエ変換を行う（Ｆ［ｓ（ｔ）］＝Ｓ（ω））。

次に、フーリエ変換された値のケプストラムを計算し（Ｆ^−１［ｌｏｇ（｜｜Ｓ（ω）｜｜）、パラメータ（Ｃ_０〜Ｃ_Ｔ−１）を取得する。このとき、取得したパラメータから低次のパラメータを音声特徴量とする。つまり、６次元の音声特徴量は、［Ｃ_０，Ｃ_１，Ｃ_２，Ｃ_３，Ｃ_４，Ｃ_５］となる。

次に、映像特徴量としてカラーヒストグラムにより９次元（３×３次元）の特徴量を生成する手法を説明する。まず、映像中のある座標（ｘ，ｙ）におけるＲ，Ｇ，Ｂ値をＲ（ｘ，ｙ）、Ｇ（ｘ，ｙ）、Ｂ（ｘ，ｙ）とする。また、特徴量を削減するためにＲＧＢそれぞれを３階調にする。次に、３階調にされたデータを用いてヒストグラムを作成し、３×３の特徴量を取得する。この取得した特徴量を映像特徴量［Ｒ_０，Ｒ_１，Ｒ_２，Ｇ_０，Ｇ_１，Ｇ_２，Ｂ_０，Ｂ_１，Ｂ_２］とする。

ここで、上述した音声特徴量と映像特徴量とを結合し、１５次元特徴量を取得する。なお、本実施形態において、音声特徴量及び映像特徴量の次元数や取得方法についてはこの限りではない。

次に、上述した１５次元特徴量とニューラルネットワークを適用した分析内容について図を用いて説明する。図３は、特徴量から提示内容を分析するためのニューラルネットワークの一構成例を示す図である。なお、図３に示すネットワークは、入力層、中間層、出力層の３層を有するよう構成されており、入力層、中間層、出力層の任意の素子に対する出力を、それぞれｘ_ｉ、ｙ_ｉ、ｚ_ｉとする。

入力層には、上述した１５個（次元）の素子ｘ_０〜ｘ_１４を有し、中間層には７個の素子ｙ_０〜ｙ_６を有し、出力層には１１個の素子ｚ_０〜ｚ_１０を有している。なお、本実施形態においては、それぞれの層における素子の数は限定されるものではない。

また、ｉは、各層の素子数に対応する変数である。更に、入力層から中間層、中間層から出力層の間では、前の層の全素子から、次の層の全素子へ接続されているものとする。

まず、ニューラルネットワークの入力層には、上述した音声及び映像の特徴量［Ｃ_０，Ｃ_１，Ｃ_２，Ｃ_３，Ｃ_４，Ｃ_５，Ｒ_０，Ｒ_１，Ｒ_２，Ｇ_０，Ｇ_１，Ｇ_２，Ｂ_０，Ｂ_１，Ｂ_２］を入力する。

ここで、ｘ_ｉは、入力層における特徴量の一例を示している。また、ｗは、入力層から中間層において、ある感情ｊを出力する層に入力される特徴ｉに対する重み関数を示し、ｗ’は、中間層から出力層において、ある感情ｊを出力する層に入力される特徴ｉに対する重み関数を示している。

また、図３では入力層と出力層の間に７個の素子からなる中間層ｙ_０〜ｙ_６を設けている。中間層における素子の入出力の関係は、以下に示す（１）式となる。

ここで、上述の（１）式において、σは一種の閾値関数であるシグモイド関数（ＳｉｇｍｏｉｄＦｕｎｃｔｉｏｎ）を示し、σ（ｙ）は以下に示す（２）式となる。

次に、上述と同様な手法により、出力層におけるニューラルネットワークに基づく入出力の関係は、例えば以下に示す（３）式、（４）式等となる。

ここで、上述の（３）式は、図３において、提示情報の状況が「屋内」であると分析された出力を示すものである。同様に（４）式は、図３において、提示情報の状況が野球等の「打席シーン」と分析された出力を示すものである。提示情報分析手段は、このようにニューラルネットワークを用いて入力情報から分析した分析結果を文脈推定手段１３に出力する。

＜文脈推定手段１３における第２のニューラルネットワークの構成例＞
次に、文脈推定手段１３における第２のニューラルネットワークの構成例について説明する。文脈推定手段１３は、提示情報分析手段１２の分析結果と、提示情報の詳細情報２０とを入力し、予め学習された第２のニューラルネットワークを用いて、被験者が提示情報を視聴することにより感情状態が何である確率が高くなるかを求め、その候補を推定して出力する。なお、第２のニューラルネットワークからの出力は、「喜び」、「悲しみ」、「怒り」、「驚き」、「恐れ」、「緊張」、「疲労」等となる。

次に、ニューラルネットワークを適用した分析内容から感情状態の候補の推定内容について図を用いて説明する。図４は、分析内容から感情状態の候補を推定するためのニューラルネットワークの一構成例を示す図である。なお、図４に示すネットワークは、図３と同様に入力層、中間層、出力層の３層を有するよう構成されている。ここで、図４におけるｘ_ｉ、ｙ_ｉ、ｚ_ｉ、ｗ、σ等は上述と同様である。また、入力層には、上述した１５個（次元）の素子ｘ_０〜ｘ_１４を有し、中間層には７個の素子ｙ_０〜ｙ_６を有し、出力層には８個の素子ｚ_０〜ｚ_７を有している。なお、本実施形態においては、それぞれの層における素子の数は限定されるものではない。

また、ニューラルネットワークの入力層には、上述した提示情報分析手段１２にて得られた分析情報と、提示情報の詳細情報２０とに基づいて設定された提示情報の特徴が付与されている。つまり、提示情報の分析結果もしくは詳細情報から、提示される状況に該当する特徴には「１」、該当しない特徴には「０」が設定される。なお、本実施形態においては、特に値の限定はなく、その他の値が設定されてもよい。

例えば、情報提示手段１１により、屋根のない球場での野球中継の番組を被験者に提示しているものとすると、図４では、「屋外」、「晴れ」、「歓声」、「悲鳴」、「怒号」、「ホームラン」、「得点シーン」、「野球」、「ホームラン発言」に分析結果として「１」が設定される。

また、図４は入力層と出力層の間に７個の素子からなる中間層ｙ_０〜ｙ_６を設けている。中間層における素子の入出力の関係は、上述した（１）式に示すようになる。また、出力層における素子の入出力の関係は、例えば、以下に示す（５）式、（６）式等となる。

また、出力層には予め感情状態が設定されている。設定された感情状態に対し、文脈推定を行い、被験者２１の感情状態である確率の高い感情状態に「１」を設定する。例えば、図４においては、「なし」、「喜び」、「悲しみ」、「怒り」、「驚き」、「恐れ」、「緊張」、「疲労」に対して、推定される感情状態に「１」が設定されている。このように、第２のニューラルネットワークを用いて被験者の感情状態の候補を推定し、推定した結果を感情推定手段１８に出力する。

＜被験者状況推定手段１７における第３のニューラルネットワークの構成例＞
次に、被験者状況推定手段１７における第３のニューラルネットワークの構成例について説明する。被験者状況推定手段１７は、撮像手段１４からの映像、音声入力手段１５からの音声、計測手段１６からの生体情報に基づいて、予め学習されたニューラルネットワーク（第３のニューラルネットワーク）を用いて被験者の状況の推定を行う。

ここで、被験者の状況を把握するために、例えば、映像から顔の特徴を検出したり、上述したように音声に関する特徴を取得したり、言語に関する特徴を取得することにより特徴量を生成する。

ここで、顔の特徴としては、例えば、「眉の角度」、「口が開いているか」、「目は開いているか」、「眉間にシワがあるか」等がある。また、音声特徴量としては、上述としては、例えば、ケプストラム分析により６次元の特徴量（Ｃ_０〜Ｃ_５）を取得する。

また、言語の特徴としては、被験者２１が「うまい！」と発言したか、「やった！」と発言したか等を検出することにより特徴量を生成し、予め設定された感情状態に対する尤度（確率）を推定し感情推定手段１８に出力する。

次に、ニューラルネットワークを適用した被験者状況推定内容について図を用いて説明する。図５は、被験者状況推定するためのニューラルネットワークの一構成例を示す図である。

なお、図５に示すネットワークは、図３、図４と同様に入力層、中間層、出力層の３層を有するよう構成されている。ここで、図５におけるｘ_ｉ、ｙ_ｉ、ｚ_ｉ、ｗ、σ等は上述と同様である。また、入力層には、上述した１５個（次元）の素子ｘ_０〜ｘ_１４を有し、中間層には７個の素子ｙ_０〜ｙ_６を有し、出力層には８個の素子ｚ_０〜ｚ_７を有している。なお、本実施形態においては、それぞれの層における素子の数は限定されるものではない。

まず、ニューラルネットワークの入力層には、上述した音声の特徴量と、所定の角度からの「眉の角度」、「口が開いている」、「左目を開いている」、「右目を開いている」、「眉間にシワ」か、発言「やった」、発言「ガンバレ」、発言「うまい」、発言「下手」等に対する特徴量が設定されている。

ここで、眉の角度等は予め設定された位置からの角度を設定し、図５では、被験者の視聴状況に該当する特徴には「１」、該当しない特徴には「−１」が設定される。なお、本実施形態においては、特に値の限定はなく、その他の値が設定されてもよい。

また、図５は入力層と出力層の間に７個の素子からなる中間層ｙ_０〜ｙ_６を設けている。中間層における素子の入出力の関係は、上述した（１）式に示すようになる。また、出力層における素子の入出力の関係は、例えば、以下に示す（７）式、（８）式等となる。

ここで、上述の（７）式は、図５においては、被験者の感情状態が「なし」と推定される場合の尤度を示すものである。同様に（８）式は、図５においては、被験者の感情状態が「疲労」と推定される場合の尤度を示すものである。なお、被験者状況推定手段１７では正規化処理を行う。具体的には、以下に示す（９）式により、Ｚ’ｋを算出する。

ここで、上述の（９）式において、ｌは出力層の全素子数からの出力の合計を算出するための変数を示し、ｋは各素子毎の出力を算出するための変数を示している。このように、第３のニューラルネットワークを用いて推定された結果（尤度）を感情推定手段１８に出力する。

＜感情推定手段１８＞
次に、感情推定手段１８における感情推定内容について説明する。感情推定手段１８は、文脈・被験者状況対応ＤＢ１９の情報を参照することで、被験者状況推定手段１７が出力する尤度を増減することで、最終的に被験者がどのような感情状態にいるかを推定する。ここで、文脈・被験者状況対応ＤＢ１９の例について図を用いて説明する。

図６は、本実施形態における文脈・被験者状況対応ＤＢの一例を示す図である。図６に示すように、文脈・被験者状況対応ＤＢ１９は、「文脈推定感情」と、「被験者状況推定感情」と、「尤度の調整値」とを有する。

つまり、図６により、文脈推定手段１２により推定された感情状態の候補と、被験者状況推定手段１７により推定される感情状態とに基づいて尤度の調整値を参照する。例えば、図６において、文脈推定感情が「喜び」であったとする。このとき、被験者状況推定手段１７により得られるそれぞれの感情に対して、「喜び」の場合は「＋０．３」の増加を行い、「怒り」の場合は「−０．１」の減少を行う。つまり、文脈・被験者状況対応ＤＢ１９に蓄積される調整値に基づいて、それぞれの感情状態に対する尤度を増減させる。なお、図６に示すデータ例では、調整値として尤度の増減値が設定されているが、本発明においては、この限りではなく、例えば、被験者状況推定手段１７により得られる尤度に対して増減させる割合（％）等を調整値として設定することができる。

次に、感情推定手段１８における感情推定内容について図を用いて説明する。図７は、本実施形態における感情推定内容を説明するための図である。図７において、被験者状況推定手段１７により尤度が入力される。また、上述の図４に示すように、文脈推定手段１３により「喜び」と「怒り」の２つの感情状態が推定がされているため、感情推定手段１８は文脈・被験者状況対応ＤＢ１９を参照し、対応する尤度の増減値をそれぞれ設定して、図７に示すようにそれらを加算することにより尤度を出力する。

また、感情推定手段１８は、この尤度に基づいて被験者の感情の推定を行う。感情の推定については、例えば調整された尤度の中から最大のものを選択して被験者の感情を特定したり、最大の尤度から上位の数個の感情を候補として出力したりすることができる。これにより、高精度に感情の推定を実現することができる。

なお、上述した実施の形態では、提示情報分析、文脈推定、被験者状況推定において、それぞれにニューラルネットワークを構成したが、本発明においては、この限りではなく、例えば、図８に示す他のニューラルネットワーク構成例のように、ニューラルネットワークを１つに統合することもできる。なお、このとき上述した文脈・被験者状況対応ＤＢ１９に示す尤度の増減値の設定は、図８に示すニューラルネットワークのパラメータとして付与されることになる。

＜ハードウェア構成＞
ここで、上述した感情推定装置１０は、専用の装置構成により本発明における感情の推定を行うこともできるが、上述した各構成における感情推定処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にプログラムをインストールすることにより、本発明における感情推定を実現することができる。

次に、本発明における実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図９は、本発明における感情推定処理が実現可能なハードウェア構成の一例を示す図である。

図９におけるコンピュータ本体には、入力装置３１と、出力装置３２と、ドライブ装置３３と、補助記憶装置３４と、メモリ装置３５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３６と、ネットワーク接続装置３７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置３１は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置３２は、本発明における感情推定処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ３６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

ここで、本発明においてコンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体３８等により提供される。プログラムを記録した記録媒体３８は、ドライブ装置３３にセット可能であり、記録媒体３８に含まれる実行プログラムが、記録媒体３８からドライブ装置３３を介して補助記憶装置３４にインストールされる。

補助記憶装置３４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ３６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置３５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、感情推定における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置３４から取得することができ、また格納することもできる。

ネットワーク接続装置３７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで感情推定を実現することができる。また、本発明の実行プログラムをコンピュータにインストールすることにより、安価な構成で容易に被験者の感情の推定を行うことができる。

＜処理手順＞
次に、本発明における感情推定処理手順についてフローチャートを用いて説明する。図１０は、感情推定処理手順の一例を示すフローチャートである。

まず、被験者に対して映像や音声等の情報の提示を行う（Ｓ０１）。次に、提示された情報の分析を行う（Ｓ０２）。また、Ｓ０２により得られる分析結果に基づいて文脈推定を行う（Ｓ０３）。このとき、上述したように、提示された情報に対応する詳細情報も入力して、文脈推定を行うことができる。

一方、Ｓ０１により被験者に情報を提示し、提示された情報を見ている被験者を撮影した映像情報、被験者の発声（音声情報）、生体情報等を取得し、提示情報を視聴している被験者の状況を推定する（Ｓ０４）。具体的には、被験者の状況に対応する尤度を設定する。

次に、Ｓ０３により得られた文脈推定結果と、Ｓ０４により得られた尤度から予め設定される尤度の増減値や割合等の調整値（重み付け）に基づいて尤度の調整を行う（Ｓ０５）。更に、調整された尤度から現在の被験者の感情の推定を行う（Ｓ０６）。

上述したような感情推定処理により、高精度に感情の推定を実現することができる。また、本発明における実行プログラムをコンピュータにインストールすることにより、容易に高精度な感情の推定を実現することができる。

上述したように本発明によれば、高精度な感情の推定を実現することができる。具体的には、提示されている被験者の状態だけを用いて感情の推定を行う従来の方法では判断が難しかった感情表現でも、文脈推定により文脈として不正確な感情表現を削除するため、高精度に感情の推定を行うことができる。

なお、本発明における感情推定は、被験者の心理状態を把握して治療を行う等の医療分野に適用することができ、また、感情を推定し、その推定情報をコンピュータが利用することにより、マン・マシンインタフェースとして様々なコンピュータの操作が実現できる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における感情推定装置の一構成例を示す図である。提示情報分析手段における入出力について説明するための一例を示す図である。特徴量から提示内容を分析するためのニューラルネットワークの一構成例を示す図である。分析内容から感情状態の候補を推定するためのニューラルネットワークの一構成例を示す図である。被験者状況推定するためのニューラルネットワークの一構成例を示す図である。本実施形態における文脈・被験者状況対応ＤＢの一例を示す図である。本実施形態における感情推定内容を説明するための図である。他のニューラルネットワーク構成例を示す図である。本発明における感情推定処理が実現可能なハードウェア構成の一例を示す図である。感情推定処理手順の一例を示すフローチャートである。

符号の説明

１０感情推定装置
１１情報提示手段
１２提示情報分析手段
１３文脈推定手段
１４撮像手段
１５音声入力手段
１６計測手段
１７被験者状況推定手段
１８感情推定手段
１９文脈・被験者状況対応データベース
２０提示情報の詳細情報
２１被験者
３１入力装置
３２出力装置
３３ドライブ装置
３４補助記憶装置
３５メモリ装置
３６ＣＰＵ
３７ネットワーク接続装置
３８記録媒体

Claims

被験者に情報を提示することにより前記被験者が得る感情を推定するための感情推定装置において、
前記被験者に提示情報を提示する情報提示手段と、
前記情報提示手段により提示された提示情報に含まれる映像及び音声から特徴量を生成し、生成された特徴量と予め学習された第１のニューラルネットワークとに基づいて、前記提示情報の状況を分析する分析手段と、
前記分析手段により得られる分析結果と前記提示情報の詳細情報とから得られる文脈から前記被験者の感情状態の候補を推定する文脈推定手段と、
前記情報提示手段により提示された提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報に基づいて前記被験者の感情状態の尤度を推定する状況推定手段と、
前記文脈推定手段により得られる前記被験者の感情状態の候補と、予め設定される感情状態に対する調整値とに基づいて、前記状況推定手段により得られる前記被験者の感情状態の尤度を調整し、調整された尤度が最大となる感情状態を前記被験者の感情であると推定する感情推定手段とを有することを特徴とする感情推定装置。
前記文脈推定手段は、
前記分析手段により得られる分析結果及び前記提示情報の詳細情報と、予め学習された第２のニューラルネットワークとに基づいて、前記被験者の感情状態の候補を推定することを特徴とする請求項１に記載の感情推定装置。
前記状況推定手段は、
前記提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報から特徴量を生成し、生成された特徴量と、予め学習された第３のニューラルネットワークとに基づいて、前記感情状態に対する尤度を出力することを特徴とする請求項１又は２に記載の感情推定装置。
被験者に情報を提示することにより前記被験者が得る感情を推定するための感情推定プログラムにおいて、
コンピュータを、
前記被験者に提示情報を提示する情報提示手段、
前記情報提示手段により提示された提示情報に含まれる映像及び音声から特徴量を生成し、生成された特徴量と予め学習された第１のニューラルネットワークとに基づいて、前記提示情報の状況を分析する分析手段、
前記分析手段により得られる分析結果と前記提示情報の詳細情報とから得られる文脈から前記被験者の感情状態の候補を推定する文脈推定手段、
前記情報提示手段により提示された提示情報を視聴する被験者の映像、音声、及び前記被験者の生体情報に基づいて前記被験者の感情状態の尤度を推定する状況推定手段、及び、
前記文脈推定手段により得られる前記被験者の感情状態の候補と、予め設定される感情状態に対する調整値とに基づいて、前記状況推定手段により得られる前記被験者の感情状態の尤度を調整し、調整された尤度が最大となる感情状態を前記被験者の感情であると推定する感情推定手段として機能させるための感情推定プログラム。