JP2019133447A

JP2019133447A - 感情推定装置、コンピュータプログラム及び感情推定方法

Info

Publication number: JP2019133447A
Application number: JP2018015604A
Authority: JP
Inventors: 卓矢岡野; takuya Okano
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-08

Abstract

【課題】種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる感情推定装置、コンピュータプログラム及び感情推定方法を提供する。【解決手段】感情推定装置は、入力データに基づいて複数の感情候補を推定する第１推定部と、種類の異なる感情それぞれを表現値で示す感情表現モデルと、感情表現モデルに基づいて第１推定部が推定した複数の感情候補に対応する推定表現値を特定する特定部と、特定部が特定した推定表現値及び感情表現モデルの表現値に基づいて複数の感情候補を統合した感情を推定する第２推定部とを備える。【選択図】図１

Description

本発明は、感情推定装置、コンピュータプログラム及び感情推定方法に関する。

近年の情報技術の進歩により人間とのコミュニケーションを行うことができるコンピュータシステムが実現化されている。このようなコンピュータシステムが人間に適切に働きかけるためには、人間の状況を適切に認識し、状況に応じたインタラクションを行う必要があり、人間の感情を推定する技術が増々重要になっている。

推定する感情の種類には様々なものが考えられる。例えば、非特許文献１には、２４クラスの感情をValence（感情のポジティブとネガティブの度合い）とArousal（感情の興奮度合い）の２次元で定義される感情空間の例が開示されている。このような感情空間において、顔画像、発話音声、テキストメッセージ等を解析して人間の感情を推定することができる。

Johnny R.J. Fontaine, Klaus R. Schere, Etienne B. Roesch, and Phoebe C. Ellsworth, "The World of Emotions Is Not Two-Dimensional", 2007, Psychological Science 18(12), SAGE Publications: 1050-57

例えば、インタビュー映像から話者の感情を推定する場合に、画像データのみに基づく感情推定では、ジェスチャ等で顔が隠れたときは感情を推定することができない。また、音声データのみに基づく感情推定では、発話していないとき、あるいは周囲の雑音が混ざったときは感情を推定することができない。従って、複数の推定結果を組み合わせることができれば感情推定の精度を向上させることができる。しかし、それぞれの推定結果に含まれる感情が異なる場合、単純に足し合わせることができない。

本発明は、斯かる事情に鑑みてなされたものであり、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる感情推定装置、コンピュータプログラム及び感情推定方法を提供する。

本発明に係る感情推定装置は、複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第１推定部と、前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第２推定部とを備える。

本発明に係るコンピュータプログラムは、コンピュータに、入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理とを実行させる。

本発明に係る感情推定方法は、複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、第１推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、第２推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する。

本発明によれば、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。

本実施の形態の感情推定装置の構成の一例を示すブロック図である。感情表現モデルで表される感情空間の一例を示す模式図である。第１推定部が算出する確率の一例を示す模式図である。推定表現特定部が特定する感情空間ベクトルの一例を示す模式図である。推定表現特定部による感情空間ベクトルの重み付けの一例を示す模式図である。推定表現特定部により統合された統合感情空間ベクトルの一例を示す模式図である。本実施の形態の感情推定装置の感情推定処理の手順の一例を示すフローチャートである。

以下、本発明をその実施の形態を示す図面に基づいて説明する。図１は本実施の形態の感情推定装置５０の構成の一例を示すブロック図である。本実施の形態の感情推定装置５０は、入力部１０、推定処理部２０、出力部３０を備える。推定処理部２０は、第１推定部２１、推定表現特定部２２、第２推定部２３、感情表現モデル２４を備える。

入力部１０は、入力データを取得する。入力データは、感情推定の対象者（人間であるが動物でもよい）についての情報に関するデータである。入力データは、画像データ、音声データ、言語データなどを含む。なお、入力データは、画像データ、音声データ及び言語データの少なくとも一つを含む。動物の場合には、画像データ又は音声データ（鳴き声のデータ）を取得することができる。画像データは、例えば、対象者の顔、姿勢、動きなどをカメラ又はビデオ（不図示）で撮影して得られたデータである。音声データは、対象者の発話をマイク（不図示）で録音して得られたデータである。言語データは、対象者の発話をマイクで録音し、録音内容を音声認識によって文字列に変換したデータ、あるいはテキストチャット、ＳＮＳ又はブログ等における文章（文字データ）などを含む。入力部１０は、取得した入力データを推定処理部２０へ出力する。

感情表現モデル２４は、種類の異なる感情それぞれを数値で示す。感情表現モデル２４は、例えば、種類が複数の感情を、Valence（感情のポジティブとネガティブの度合い）とArousal（感情の興奮度合い）の２次元で定義される感情空間上にマッピングしたものであり、感情がこの感情空間上に投影される。それぞれの感情は、Valenceに対応する数値と、Arousalに対応する数値との組、すなわち２次元ベクトルで表すことができる。この場合、２次元ベクトルが数値に相当し、感情ベクトルとも称する。

図２は感情表現モデル２４で表される感情空間の一例を示す模式図である。図２において、横軸はＶ（Valence：感情のポジティブとネガティブの度合い）であり、縦軸はＡ（Arousal：感情の興奮度合い）を示す。以下の説明では、便宜上、種類の異なる感情をｅ１からｅ１０で示す。ｅ１〜ｅ１０は、例えば、怒り、喜び、悲しみ、驚き、興味、楽しみ、恥ずかしい等の感情を示す（ただし、順不同とする）。また、感情空間の原点（Ｖ＝Ａ＝０）から各感情を特定する（Ｖ座標、Ａ座標）へのベクトルを感情ベクトルと称する。感情ｅ１の感情ベクトルをＶ（ｅ１）で表し、感情ｅ２の感情ベクトルをＶ（ｅ２）で表し、感情ｅ３の感情ベクトルをＶ（ｅ３）で表し、感情ｅ４の感情ベクトルをＶ（ｅ４）で表すことができる。なお、便宜上図示していないが、他の感情ｅ５〜ｅ１０の感情ベクトルも同様に表すことができる。なお、図面では、便宜上、ベクトルの表記を変えている。また、感情空間の次元の種類はValence及びArousalに限定されるものではなく、また感情空間の次元の数も２に限定されるものではなく、３次元以上であってもよい。

第１推定部２１は、画像データを取得すると、例えば、顔検出を行い、特徴点を抽出し、感情を特徴付ける特徴量を計算することにより、対象者の複数の感情候補を推定する。また、第１推定部２１は、音声データを取得すると、例えば、音声データから音声の周波数成分等の分析を行うことにより、対象者の複数の感情候補を推定する。また、第１推定部２１は、言語データを取得すると、例えば、文字列から感情を表す単語を抽出し、抽出した単語に基づいて感情属性を特定して、対象者の複数の感情候補を推定する。ここで、複数の感情候補は、例えば、種類が異なる複数の感情を含む。

すなわち、第１推定部２１は、複数の種別毎の入力データに基づいて種別毎の複数の感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現することができる。種別は、モダリティとも称し、複数の種別の入力データは、前述のように、画像データ、音声データ、言語データなどを含む。

より具体的には、第１推定部２１は、感情候補の確率を算出する。

図３は第１推定部２１が算出する確率の一例を示す模式図である。図２、図３に示す感情ｅ１からｅ１０のうち、例えば、後述のモダリティｍ１に基づく感情推定に含まれる感情推定候補Ｅｍ１を、例えば、感情ｅ１、ｅ４、ｅ５とする。すなわち、Ｅｍ１＝{ｅ１，ｅ４，ｅ５}とする。また、後述のモダリティｍ２に基づく感情推定に含まれる感情推定候補Ｅｍ２を、例えば、感情ｅ７、ｅ９、ｅ１０とする。すなわち、Ｅｍ２＝{ｅ７，ｅ９，ｅ１０}とする。また、後述のモダリティｍ３に基づく感情推定に含まれる感情推定候補Ｅｍ３を、例えば、感情ｅ３、ｅ４、ｅ７とする。すなわち、Ｅｍ３＝{ｅ３，ｅ４，ｅ７}とする。なお、各感情推定候補は一例であって、これらに限定されるものではなく、状況に応じて適宜決定することができる。また、モダリティの集合をＭとし、画像をモダリティｍ１とし、音声をモダリティｍ２とし、言語をモダリティｍ３とする。すなわち、Ｍ＝｛ｍ１，ｍ２，ｍ３｝と表すことができる。図３中、実線は画像データに基づく推定を示し、破線は音声データに基づく推定を示し、一点鎖線は言語データに基づく推定を示す。上述のように、各モダリティの推定結果に含まれる複数の感情は同じ集合でなくてもよい。

図３に示すように、第１推定部２１は、画像データ（モダリティｍ１）に基づいて、感情ｅ１についての確率Ｐｍ１（ｅ１）を算出し、感情ｅ４についての確率Ｐｍ１（ｅ４）を算出したとする。なお、以下では、説明を簡便にするため、第１推定部２１が算出する確率のうち、確率が大きい上位二つだけを取り上げることにする。また、確率Ｐｍ１（ｅ１）の記載において、「ｍ１」はモダリティを示し、「ｅ１」は感情候補を示す。他の確率の表記も同様である。図３では、確率Ｐｍ１（ｅ１）＝０．５とし、確率Ｐｍ１（ｅ４）＝０．２としている。

また、第１推定部２１は、音声データ（モダリティｍ２）に基づいて、感情ｅ９についての確率Ｐｍ２（ｅ９）を算出し、感情ｅ１０についての確率Ｐｍ２（ｅ１０）を算出したとする。図３では、確率Ｐｍ２（ｅ９）＝０．２とし、確率Ｐｍ２（ｅ１０）＝０．６としている。

また、第１推定部２１は、言語データ（モダリティｍ３）に基づいて、感情ｅ３についての確率Ｐｍ３（ｅ３）を算出し、感情ｅ７についての確率Ｐｍ３（ｅ７）を算出したとする。図３では、確率Ｐｍ３（ｅ３）＝０．６とし、確率Ｐｍ３（ｅ７）＝０．４としている。

推定表現特定部２２は、特定部としての機能を有し、感情表現モデル２４を用いて第１推定部２１に表現された複数の感情を感情表現モデル２４上の数値に変換して推定表現値を特定する。また、推定表現特定部２２は、第１推定部２１が種別（モダリティ）毎の複数の感情候補を推定した場合、種別（モダリティ）毎に推定表現値を特定することができる。ここで、推定表現値は、感情空間上で感情ベクトルそれぞれに第１推定部２１が算出した確率を用いて重み付けをしたベクトルであり、感情空間ベクトルとも称する。

感情空間ベクトルＵｋは、式（１）によって求めることができる。式（１）において、Ｐｋ（ｌ）は確率分布を現し、Ｖｌは感情ベクトルを表し、Ｅｋは第１推定部２１が推定する感情候補の集合を表す。また、ｋはモダリティを表し、式（２）で定義される。なお、便宜上、ベクトルの表記を変えている。

図４は推定表現特定部２２が特定する感情空間ベクトルの一例を示す模式図である。図４において、Ｕｍ１、Ｕｍ２、Ｕｍ３が、モダリティｍ１、ｍ２、ｍ３それぞれの感情空間ベクトルを表す。例えば、モダリティｍ１の感情空間ベクトルＵｍ１は、式（３）により求めることができる。

式（３）は、式（１）に基づくものである。すなわち、図３で示したように、モダリティｍ１については、第１推定部２１は、感情ｅ１についての確率Ｐｍ１（ｅ１）を算出し、感情ｅ４についての確率Ｐｍ１（ｅ４）を算出した。そこで、推定表現特定部２２は、感情ベクトルＶ（ｅ１）を確率Ｐｍ１（ｅ１）で重み付けし、感情ベクトルＶ（ｅ４）を確率Ｐｍ１（ｅ４）で重み付けしたものを足すことにより、モダリティｍ１の感情空間ベクトルＵｍ１を算出する。

同様に、モダリティｍ２の感情空間ベクトルＵｍ２は、式（４）により求めることができ、モダリティｍ３の感情空間ベクトルＵｍ３は、式（５）により求めることができる。

上述のように、推定表現特定部２２は、第１推定部２１が推定した複数の感情候補に対応する一つの推定表現値を特定する。また、複数のモダリティについて第１推定部２１が感情候補を推定する場合、推定表現特定部２２は、モダリティ毎に、第１推定部２１が推定した複数の感情候補に対応する一つの推定表現値を特定する。これにより、一つの感情へ統合させることが容易になる。

推定表現特定部２２は、統合特定部としての機能を有し、特定したモダリティ毎の感情空間ベクトルに所定の重み付けを付与して統合推定表現値を特定する。統合推定表現値を統合感情空間ベクトルとも称する。

統合感情空間ベクトルをＵとすると、統合感情空間ベクトルＵは、式（６）により求めることができる。式（６）において、Ｕｋは、各モダリティの感情空間ベクトルである。式（６）において、ｗｋは重み付け係数である。

図５は推定表現特定部２２による感情空間ベクトルの重み付けの一例を示す模式図である。モダリティｍ１、ｍ２、ｍ３に対する重み係数を、ｗｍ１、ｗｍ２、ｗｍ３と表す。図５に示すように、モダリティｍ１についての感情空間ベクトルＵｍ１は、ｗｍ１・Ｕｍ１のように重み付けられる。モダリティｍ２についての感情空間ベクトルＵｍ２は、ｗｍ２・Ｕｍ２のように重み付けられる。また、モダリティｍ３についての感情空間ベクトルＵｍ３は、ｗｍ３・Ｕｍ３のように重み付けられる。

これにより、画像データ、音声データ、言語データそれぞれの取得時の精度、状況等に応じて各モダリティの感情推定に対する寄与度を適宜変更することができ、適切な感情推定を行うことが可能となる。

図６は推定表現特定部２２により統合された統合感情空間ベクトルの一例を示す模式図である。統合感情空間ベクトルＵは、式（７）により求めることができる。式（７）は、式（３）〜（６）に基づいて、導き出すことができる。重み係数ｗｍ１、ｗｍ２、ｗｍ３については、式（８）を充足する。また、０≦ｗｍ１、ｗｍ２、ｗｍ３≦１という関係を充足する。

重み係数については、ｗｍ１＝１、ｗｍ２＝ｗｍ３＝０としてもよく、ｗｍ１＝ｗｍ２＝０、ｗｍ３＝１としてもよく、あるいはｗｍ１＝ｗｍ３＝０、ｗｍ２＝１としてもよい。

また、重み係数ｗに、経過時間Ｔ及び減衰率γを導入し、重み係数ｗ′＝γ^T・ｗを用いてもよい。ここで、経過時間Ｔは、各モダリティの確率分布を取得してから統合感情空間ベクトルＵを算出するまでの時間である。減衰率γを大きい値に設定すると、直近に取得したデータほど重視することになり、減衰率γを小さい値にすると、過去に取得したデータも考慮することができる。例えば、音声データに基づいて感情を推定する場合に、所定期間（例えば、５秒など）毎に１回だけ音声データを取得することができるときは、減衰率γを調整して、できるだけ最近のデータだけを抽出して感情推定することが可能となる。

第２推定部２３は、感情表現モデル２４上の類似度に基づいて推定表現特定部２２が特定した統合推定表現値を感情表現モデル２４に含まれる感情を用いて表現する。より具体的には、第２推定部２３は、推定表現特定部２２が特定した感情空間ベクトルと感情表現モデル２４の感情ベクトルとの類似度に基づいて複数の感情候補を統合した感情を推定する。類似度は、例えば、感情空間ベクトルと、各感情ベクトルとのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、複数の感情候補を統合した最終的な感情として特定することができる。これにより、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。

より具体的には、第２推定部２３は、ある感情（すなわち、求めたい感情）ｅの生起確率Ｐ（ｅ）を式（９）により算出する。感情ｅは、式（１０）を充足する。すなわち、感情ｅは感情推定候補の集合Ｅに含まれる。ここで、感情推定候補の集合Ｅには、前述のモデリティｍ１、ｍ２、ｍ３それぞれの感情推定候補の集合Ｅｍ１、Ｅｍ２、Ｅｍ３が含まれる。

式（９）は、統合感情空間ベクトルＵと、各感情ｅに対する感情ベクトルＶ（ｅ）とのコサイン類似度に基づくものである。コサイン類似度は、−１から１までの数値を取りうる。コサイン類似度が１に近づくほど２つのベクトルが同じ向きに近いことを意味し、０に近づくほど相関がなく、−１に近づくほど逆向きに近いことを意味する。すなわち、コサイン類似度が１に近づくほど式（９）の分子は無限大に近づき、１から遠ざかるほど式（９）の分子は０に近づく。これにより、統合感情空間ベクトルＵと感情ベクトルとが類似するほど（近い感情ほど）、生起確率Ｐ（ｅ）を高い確率となるようにすることができる。

図６の例では、感情ｅは感情推定候補の集合Ｅは、式（１１）で表すことができる。

感情ｅ１の生起確率Ｐ（ｅ１）は、式（１２）で求めることができ、感情ｅ３の生起確率Ｐ（ｅ３）は、式（１３）で求めることができ、感情ｅ４の生起確率Ｐ（ｅ４）は、式（１４）で求めることができ、感情ｅ７の生起確率Ｐ（ｅ７）は、式（１５）で求めることができ、感情ｅ１０の生起確率Ｐ（ｅ１０）は、式（１６）で求めることができる。また、式（１１）〜（１６）の分母Ｓは、式（１７）で求めることができる。

上述のように、第１推定部２１が推定する感情が複数の異なる種類であって、各感情を単純に足し合わせることができない場合でも、求めたい感情を設定すれば、当該求めたい感情の生起確率を求めることができる。生起確率が高い場合には、複数の異なる感情を統合した感情推定（統合感情推定値の算出）を行うことができる。

また、予め分類したい感情を複数設定しておき、算出した生起確率が、予め設定した感情のうち、いずれの感情に近いかを判定して、感情を分類した分類結果を得ることもできる。

出力部３０は、第２推定部２３が推定した感情に係る推定値（例えば、統合感情推定値、分類結果など）を出力する。これにより、統合した感情推定値を外部の装置へ提供することができる。

図７は本実施の形態の感情推定装置５０の感情推定処理の手順の一例を示すフローチャートである。以下では、便宜上、処理の主体を推定処理部２０として説明する。推定処理部２０は、入力データを取得し（Ｓ１１）、すべてのモダリティについて、第１推定部２１による感情推定処理を行う（Ｓ１２）。推定処理部２０は、モダリティ毎に感情候補の確率を特定する（Ｓ１３）。感情候補の確率は、図３に示すようなものである。

推定処理部２０は、モダリティ毎に感情空間ベクトルを算出する（Ｓ１４）。感情空間ベクトルは、図４に示すようなものである。推定処理部２０は、各モダリティの感情空間ベクトルに重み付けを行って、統合感情空間ベクトルを算出する（Ｓ１５）。統合感情空間ベクトルは、図６に示すようなものである。

推定処理部２０は、求めたい感情の生起確率を算出する（Ｓ１６）。推定処理部２０は、算出結果を出力し（Ｓ１７）、処理を終了する。

実施形態の感情推定装置５０は、ＣＰＵ（プロセッサ）、ＲＡＭなどを備えた汎用コンピュータを用いて実現することもできる。すなわち、図７に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたＲＡＭにロードし、コンピュータプログラムをＣＰＵ（プロセッサ）で実行することにより、コンピュータ上で感情推定装置５０を実現することができる。

本実施の形態の感情推定装置５０の推定処理部２０は、機械学習モジュールで構成することもできる。機械学習モジュールは、例えば、ナイーブベイズ分類器、ＳＶＭ（サポートベクトルマシン）、ニューラルネットワークなどのアルゴリズム（学習モデル）を使用することができる。

上述の実施の形態では、入力部１０は、画像データ、音声データ及び言語データを取得する構成であるが、これに限定されるものではなく、例えば、画像データのみを取得してもよく、音声データのみを取得してもよく、あるいは言語データのみを取得するようにしてもよい。これにより、複数のモダリティそれぞれにおける、種類が異なる複数の感情が含まれる感情推定を統合するだけでなく、単一のモダリティおける、種類が異なる複数の感情が含まれる感情推定を統合することができる。

また、入力部１０が画像データのみを取得する構成の場合、複数の画像（例えば、撮像領域が異なる複数の画像）の画像データを取得するようにしてもよい。

本実施の形態においては、推定処理部２０が第１推定部２１を備える構成であるが、これに限定されるものではなく、第１推定部２１を感情推定装置５０とは別個の装置に組み込み、当該別個の装置と感情推定装置５０とを接続するような構成であってもよい。

本実施の形態の感情推定装置は、複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第１推定部と、前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第２推定部とを備える。

本実施の形態のコンピュータプログラムは、コンピュータに、入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理とを実行させる。

本実施の形態の感情推定方法は、複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、第１推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、第２推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する。

第１推定部は、入力データに基づいて感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現する。複数の感情候補は、例えば、種類が異なる複数の感情を含む。例えば、複数の感情を、ｅ１、ｅ２、ｅ３とする。ｅ１、ｅ２、ｅ３は、例えば、怒り、喜び、悲しみ等を含む。第１推定部は、感情ｅ１についての確率Ｐ（ｅ１）を算出し、感情ｅ２についての確率Ｐ（ｅ２）を算出し、感情ｅ３についての確率Ｐ（ｅ３）を算出する。

感情表現モデルは、種類の異なる感情それぞれを数値で示す。感情表現モデルは、例えば、種類が複数の感情を、Valence（感情のポジティブとネガティブの度合い）とArousal（感情の興奮度合い）の２次元で定義される感情空間上にマッピングしたものであり、感情がこの感情空間上に投影される。それぞれの感情は、Valenceに対応する数値と、Arousalに対応する数値との組、すなわち２次元ベクトルで表すことができる。この場合、２次元ベクトルが数値に相当し、感情ベクトルとも称する。感情空間上の感情をｅ１、ｅ２、ｅ３とすると、感情ｅ１の感情ベクトルをＶ（ｅ１）で表し、感情ｅ２の感情ベクトルをＶ（ｅ２）で表し、感情ｅ３の感情ベクトルをＶ（ｅ３）で表すことができる。なお、感情空間の次元の種類はValence及びArousalに限定されるものではなく、また感情空間の次元の数も２に限定されるものではなく、３次元以上であってもよい。

特定部は、感情表現モデルを用いて第１推定部に表現された複数の感情を感情表現モデル上の数値に変換して推定表現値を特定する。第１推定部が算出した確率を、前述のように、Ｐ（ｅ１）、Ｐ（ｅ２）、Ｐ（ｅ３）とする。特定部は、ｕ＝Ｐ（ｅ１）・Ｖ（ｅ１）＋Ｐ（ｅ２）・Ｖ（ｅ２）＋Ｐ（ｅ３）・Ｖ（ｅ３）という式で推定表現値ｕを算出する。Ｖ（ｅ１）、Ｖ（ｅ２）、Ｖ（ｅ３）は感情ベクトルである。すなわち、推定表現値は、感情空間上で感情ベクトルＶ（ｅ１）、Ｖ（ｅ２）、Ｖ（ｅ３）それぞれに確率の重み付けをしたベクトルであり、感情空間ベクトルｕとも称する。

第２推定部は、特定部が特定した各推定表現値を統合して、統合された数値を感情表現モデルに含まれる感情を用いて表現する。より具体的には、第２推定部は、特定部が特定した推定表現値（感情空間ベクトルｕ）と感情表現モデルの数値（感情ベクトルＶ（ｅ１）、Ｖ（ｅ２）、Ｖ（ｅ３））との類似度に基づいて複数の感情候補を統合した感情を推定する。類似度は、例えば、感情空間ベクトルｕと、各感情ベクトルＶ（ｅ１）、Ｖ（ｅ２）、Ｖ（ｅ３）とのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、複数の感情候補を統合した最終的な感情として特定することができる。これにより、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。

本実施の形態の感情推定装置において、前記第１推定部は、複数の種別毎の入力データに基づいて前記種別毎の複数の感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記特定部は、前記種別毎に前記推定表現値を特定し、さらに、前記特定部が特定した前記種別毎の前記推定表現値を統合した統合推定表現値を特定する統合特定部を備え、前記第２推定部は、前記感情表現モデル上の類似度に基づいて前記統合特定部が特定した統合推定表現値を前記感情表現モデルに含まれる感情を用いて表現する。

第１推定部は、複数の種別毎の入力データに基づいて種別毎の複数の感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現する。種別は、モダリティとも称し、複数の種別の入力データは、例えば、画像データ、音声データ、言語データなどを含む。この場合、モダリティは、画像、音声、言語ということができる。モダリティの集合をＭとし、画像をモダリティｍ１とし、音声をモダリティｍ２とし、言語をモダリティｍ３とする。すなわち、Ｍ＝｛ｍ１，ｍ２，ｍ３｝と表すことができる。

例えば、第１推定部は、画像データに基づいて、感情ｅ１についての確率Ｐｍ１（ｅ１）を算出し、感情ｅ４についての確率Ｐｍ１（ｅ４）を算出したとする。また、第１推定部は、音声データに基づいて、感情ｅ９についての確率Ｐｍ２（ｅ９）を算出し、感情ｅ１０についての確率Ｐｍ２（ｅ１０）を算出したとする。また、第１推定部は、言語データに基づいて、感情ｅ３についての確率Ｐｍ３（ｅ３）を算出し、感情ｅ７についての確率Ｐｍ３（ｅ７）を算出したとする。

特定部は、種別毎に推定表現値を特定する。より具体的には、特定部は、画像データに基づく推定表現値Ｕｍ１、音声データに基づく推定表現値Ｕｍ２、言語データに基づく推定表現値Ｕｍ３を特定する。推定表現値Ｕｍ１は、Ｕｍ１＝Ｐｍ１（ｅ１）・Ｖ（ｅ１）＋Ｐｍ１（ｅ４）・Ｖ（ｅ４）という式で求めることができ、推定表現値Ｕｍ２は、Ｕｍ２＝Ｐｍ２（ｅ９）・Ｖ（ｅ９）＋Ｐｍ２（ｅ１０）・Ｖ（ｅ１０）という式で求めることができ、推定表現値Ｕｍ３は、Ｕｍ３＝Ｐｍ３（ｅ３）・Ｖ（ｅ３）＋Ｐｍ３（ｅ７）・Ｖ（ｅ７）という式で求めることができる。

統合特定部は、特定部が特定した種別毎の推定表現値を統合した統合推定表現値を特定する。統合推定表現値Ｕは、Ｕ＝ｋ・（Ｕｍ１＋Ｕｍ２＋Ｕｍ３）という式で求めることができ、統合感情空間ベクトルとも称する。ここで、ｋは、統合感情空間ベクトルＵが感情空間内に投影できるようにするための定数である。

第２推定部は、感情表現モデル上の類似度に基づいて統合特定部が特定した統合推定表現値を感情表現モデルに含まれる感情を用いて表現する。類似度は、例えば、統合感情空間ベクトルＵと、各感情ベクトルＶ（ｅ１）、Ｖ（ｅ２）、Ｖ（ｅ３）とのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、種別毎の推定表現値（Ｕｍ１、Ｕｍ２、Ｕｍ３）を統合した最終的な感情として特定することができる。これにより、複数のモダリティを統合した感情を推定することができる。

本実施の形態の感情推定装置において、前記統合特定部は、前記特定部が特定した前記種別毎の前記推定表現値に所定の重み付けを付与して前記統合推定表現値を特定する。

統合特定部は、特定部が特定した種別毎の推定表現値に所定の重み付けを付与して統合推定表現値を特定する。例えば、モダリティｍ１（画像）に対する重み付け係数をｗ１とし、モダリティｍ２（音声）に対する重み付け係数をｗ２とし、モダリティｍ３（言語）に対する重み付け係数をｗ３とする。統合推定表現値、すなわち、統合感情空間ベクトルＵは、Ｕ＝ｗ１・Ｕｍ１＋ｗ２・Ｕｍ２＋ｗ３・Ｕｍ３という式で求めることができる。なお、０≦ｗ１、ｗ２、ｗ３≦１、かつ、ｗ１＋ｗ２＋ｗ３＝１である。これにより、画像データ、音声データ、言語データそれぞれの取得時の精度、状況等に応じて各モダリティの感情推定に対する寄与度を適宜変更することができ、適切な感情推定を行うことが可能となる。

本実施の形態の感情推定装置において、前記特定部は、前記第１推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する。

特定部は、第１推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する。例えば、特定部は、ｕ＝Ｐ（ｅ１）・Ｖ（ｅ１）＋Ｐ（ｅ２）・Ｖ（ｅ２）＋Ｐ（ｅ３）・Ｖ（ｅ３）という式で推定表現値ｕを算出する。また、特定部は、種別（モダリティ）毎に、例えば、モダリティｍ１についての推定表現値Ｕｍ１は、Ｕｍ１＝Ｐｍ１（ｅ１）・Ｖ（ｅ１）＋Ｐｍ１（ｅ４）・Ｖ（ｅ４）という式で求めることができる。これにより、一つの感情へ統合させることが容易になる。

本実施の形態の感情推定装置は、前記第２推定部が推定した感情を出力する出力部を備える。

出力部は、第２推定部が推定した感情を出力する。これにより、統合された感情推定値を外部の装置へ提供することができる。

本実施の形態の感情推定装置において、前記第１推定部は、画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する。

第１推定部は、画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する。これにより、単一のモダリティに限定されず、複数のモダリティを統合した感情を推定することができる。

１０入力部
２０推定処理部
２１第１推定部
２２推定表現特定部
２３第２推定部
２４感情表現モデル
３０出力部

Claims

複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、
入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第１推定部と、
前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、
該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第２推定部と
を備える感情推定装置。
前記第１推定部は、
複数の種別毎の入力データに基づいて前記種別毎の複数の感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、
前記特定部は、
前記種別毎に前記推定表現値を特定し、
さらに、
前記特定部が特定した前記種別毎の前記推定表現値を統合した統合推定表現値を特定する統合特定部を備え、
前記第２推定部は、
前記感情表現モデル上の類似度に基づいて前記統合特定部が特定した統合推定表現値を前記感情表現モデルに含まれる感情を用いて表現する請求項１に記載の感情推定装置。
前記統合特定部は、
前記特定部が特定した前記種別毎の前記推定表現値に所定の重み付けを付与して前記統合推定表現値を特定する請求項２に記載の感情推定装置。
前記特定部は、
前記第１推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する請求項１から請求項３のいずれか一項に記載の感情推定装置。
前記第２推定部が推定した感情を出力する出力部を備える請求項１から請求項４のいずれか一項に記載の感情推定装置。
前記第１推定部は、
画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する請求項１から請求項５のいずれか一項に記載の感情推定装置。
コンピュータに、
入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、
表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、
特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理と
を実行させるコンピュータプログラム。
複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、
第１推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、
前記感情表現モデルを用いて前記第１推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、
第２推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する感情推定方法。