JP2019133447A - 感情推定装置、コンピュータプログラム及び感情推定方法 - Google Patents
感情推定装置、コンピュータプログラム及び感情推定方法 Download PDFInfo
- Publication number
- JP2019133447A JP2019133447A JP2018015604A JP2018015604A JP2019133447A JP 2019133447 A JP2019133447 A JP 2019133447A JP 2018015604 A JP2018015604 A JP 2018015604A JP 2018015604 A JP2018015604 A JP 2018015604A JP 2019133447 A JP2019133447 A JP 2019133447A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- estimation
- estimated
- expression
- emotions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
【課題】種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる感情推定装置、コンピュータプログラム及び感情推定方法を提供する。【解決手段】感情推定装置は、入力データに基づいて複数の感情候補を推定する第1推定部と、種類の異なる感情それぞれを表現値で示す感情表現モデルと、感情表現モデルに基づいて第1推定部が推定した複数の感情候補に対応する推定表現値を特定する特定部と、特定部が特定した推定表現値及び感情表現モデルの表現値に基づいて複数の感情候補を統合した感情を推定する第2推定部とを備える。【選択図】図1
Description
本発明は、感情推定装置、コンピュータプログラム及び感情推定方法に関する。
近年の情報技術の進歩により人間とのコミュニケーションを行うことができるコンピュータシステムが実現化されている。このようなコンピュータシステムが人間に適切に働きかけるためには、人間の状況を適切に認識し、状況に応じたインタラクションを行う必要があり、人間の感情を推定する技術が増々重要になっている。
推定する感情の種類には様々なものが考えられる。例えば、非特許文献1には、24クラスの感情をValence(感情のポジティブとネガティブの度合い)とArousal(感情の興奮度合い)の2次元で定義される感情空間の例が開示されている。このような感情空間において、顔画像、発話音声、テキストメッセージ等を解析して人間の感情を推定することができる。
Johnny R.J. Fontaine, Klaus R. Schere, Etienne B. Roesch, and Phoebe C. Ellsworth, "The World of Emotions Is Not Two-Dimensional", 2007, Psychological Science 18(12), SAGE Publications: 1050-57
例えば、インタビュー映像から話者の感情を推定する場合に、画像データのみに基づく感情推定では、ジェスチャ等で顔が隠れたときは感情を推定することができない。また、音声データのみに基づく感情推定では、発話していないとき、あるいは周囲の雑音が混ざったときは感情を推定することができない。従って、複数の推定結果を組み合わせることができれば感情推定の精度を向上させることができる。しかし、それぞれの推定結果に含まれる感情が異なる場合、単純に足し合わせることができない。
本発明は、斯かる事情に鑑みてなされたものであり、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる感情推定装置、コンピュータプログラム及び感情推定方法を提供する。
本発明に係る感情推定装置は、複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第1推定部と、前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第2推定部とを備える。
本発明に係るコンピュータプログラムは、コンピュータに、入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理とを実行させる。
本発明に係る感情推定方法は、複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、第1推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、第2推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する。
本発明によれば、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。
以下、本発明をその実施の形態を示す図面に基づいて説明する。図1は本実施の形態の感情推定装置50の構成の一例を示すブロック図である。本実施の形態の感情推定装置50は、入力部10、推定処理部20、出力部30を備える。推定処理部20は、第1推定部21、推定表現特定部22、第2推定部23、感情表現モデル24を備える。
入力部10は、入力データを取得する。入力データは、感情推定の対象者(人間であるが動物でもよい)についての情報に関するデータである。入力データは、画像データ、音声データ、言語データなどを含む。なお、入力データは、画像データ、音声データ及び言語データの少なくとも一つを含む。動物の場合には、画像データ又は音声データ(鳴き声のデータ)を取得することができる。画像データは、例えば、対象者の顔、姿勢、動きなどをカメラ又はビデオ(不図示)で撮影して得られたデータである。音声データは、対象者の発話をマイク(不図示)で録音して得られたデータである。言語データは、対象者の発話をマイクで録音し、録音内容を音声認識によって文字列に変換したデータ、あるいはテキストチャット、SNS又はブログ等における文章(文字データ)などを含む。入力部10は、取得した入力データを推定処理部20へ出力する。
感情表現モデル24は、種類の異なる感情それぞれを数値で示す。感情表現モデル24は、例えば、種類が複数の感情を、Valence(感情のポジティブとネガティブの度合い)とArousal(感情の興奮度合い)の2次元で定義される感情空間上にマッピングしたものであり、感情がこの感情空間上に投影される。それぞれの感情は、Valenceに対応する数値と、Arousalに対応する数値との組、すなわち2次元ベクトルで表すことができる。この場合、2次元ベクトルが数値に相当し、感情ベクトルとも称する。
図2は感情表現モデル24で表される感情空間の一例を示す模式図である。図2において、横軸はV(Valence:感情のポジティブとネガティブの度合い)であり、縦軸はA(Arousal:感情の興奮度合い)を示す。以下の説明では、便宜上、種類の異なる感情をe1からe10で示す。e1〜e10は、例えば、怒り、喜び、悲しみ、驚き、興味、楽しみ、恥ずかしい等の感情を示す(ただし、順不同とする)。また、感情空間の原点(V=A=0)から各感情を特定する(V座標、A座標)へのベクトルを感情ベクトルと称する。感情e1の感情ベクトルをV(e1)で表し、感情e2の感情ベクトルをV(e2)で表し、感情e3の感情ベクトルをV(e3)で表し、感情e4の感情ベクトルをV(e4)で表すことができる。なお、便宜上図示していないが、他の感情e5〜e10の感情ベクトルも同様に表すことができる。なお、図面では、便宜上、ベクトルの表記を変えている。また、感情空間の次元の種類はValence及びArousalに限定されるものではなく、また感情空間の次元の数も2に限定されるものではなく、3次元以上であってもよい。
第1推定部21は、画像データを取得すると、例えば、顔検出を行い、特徴点を抽出し、感情を特徴付ける特徴量を計算することにより、対象者の複数の感情候補を推定する。また、第1推定部21は、音声データを取得すると、例えば、音声データから音声の周波数成分等の分析を行うことにより、対象者の複数の感情候補を推定する。また、第1推定部21は、言語データを取得すると、例えば、文字列から感情を表す単語を抽出し、抽出した単語に基づいて感情属性を特定して、対象者の複数の感情候補を推定する。ここで、複数の感情候補は、例えば、種類が異なる複数の感情を含む。
すなわち、第1推定部21は、複数の種別毎の入力データに基づいて種別毎の複数の感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現することができる。種別は、モダリティとも称し、複数の種別の入力データは、前述のように、画像データ、音声データ、言語データなどを含む。
より具体的には、第1推定部21は、感情候補の確率を算出する。
図3は第1推定部21が算出する確率の一例を示す模式図である。図2、図3に示す感情e1からe10のうち、例えば、後述のモダリティm1に基づく感情推定に含まれる感情推定候補Em1を、例えば、感情e1、e4、e5とする。すなわち、Em1={e1,e4,e5}とする。また、後述のモダリティm2に基づく感情推定に含まれる感情推定候補Em2を、例えば、感情e7、e9、e10とする。すなわち、Em2={e7,e9,e10}とする。また、後述のモダリティm3に基づく感情推定に含まれる感情推定候補Em3を、例えば、感情e3、e4、e7とする。すなわち、Em3={e3,e4,e7}とする。なお、各感情推定候補は一例であって、これらに限定されるものではなく、状況に応じて適宜決定することができる。また、モダリティの集合をMとし、画像をモダリティm1とし、音声をモダリティm2とし、言語をモダリティm3とする。すなわち、M={m1,m2,m3}と表すことができる。図3中、実線は画像データに基づく推定を示し、破線は音声データに基づく推定を示し、一点鎖線は言語データに基づく推定を示す。上述のように、各モダリティの推定結果に含まれる複数の感情は同じ集合でなくてもよい。
図3に示すように、第1推定部21は、画像データ(モダリティm1)に基づいて、感情e1についての確率Pm1(e1)を算出し、感情e4についての確率Pm1(e4)を算出したとする。なお、以下では、説明を簡便にするため、第1推定部21が算出する確率のうち、確率が大きい上位二つだけを取り上げることにする。また、確率Pm1(e1)の記載において、「m1」はモダリティを示し、「e1」は感情候補を示す。他の確率の表記も同様である。図3では、確率Pm1(e1)=0.5とし、確率Pm1(e4)=0.2としている。
また、第1推定部21は、音声データ(モダリティm2)に基づいて、感情e9についての確率Pm2(e9)を算出し、感情e10についての確率Pm2(e10)を算出したとする。図3では、確率Pm2(e9)=0.2とし、確率Pm2(e10)=0.6としている。
また、第1推定部21は、言語データ(モダリティm3)に基づいて、感情e3についての確率Pm3(e3)を算出し、感情e7についての確率Pm3(e7)を算出したとする。図3では、確率Pm3(e3)=0.6とし、確率Pm3(e7)=0.4としている。
推定表現特定部22は、特定部としての機能を有し、感情表現モデル24を用いて第1推定部21に表現された複数の感情を感情表現モデル24上の数値に変換して推定表現値を特定する。また、推定表現特定部22は、第1推定部21が種別(モダリティ)毎の複数の感情候補を推定した場合、種別(モダリティ)毎に推定表現値を特定することができる。ここで、推定表現値は、感情空間上で感情ベクトルそれぞれに第1推定部21が算出した確率を用いて重み付けをしたベクトルであり、感情空間ベクトルとも称する。
感情空間ベクトルUkは、式(1)によって求めることができる。式(1)において、Pk(l)は確率分布を現し、Vlは感情ベクトルを表し、Ekは第1推定部21が推定する感情候補の集合を表す。また、kはモダリティを表し、式(2)で定義される。なお、便宜上、ベクトルの表記を変えている。
図4は推定表現特定部22が特定する感情空間ベクトルの一例を示す模式図である。図4において、Um1、Um2、Um3が、モダリティm1、m2、m3それぞれの感情空間ベクトルを表す。例えば、モダリティm1の感情空間ベクトルUm1は、式(3)により求めることができる。
式(3)は、式(1)に基づくものである。すなわち、図3で示したように、モダリティm1については、第1推定部21は、感情e1についての確率Pm1(e1)を算出し、感情e4についての確率Pm1(e4)を算出した。そこで、推定表現特定部22は、感情ベクトルV(e1)を確率Pm1(e1)で重み付けし、感情ベクトルV(e4)を確率Pm1(e4)で重み付けしたものを足すことにより、モダリティm1の感情空間ベクトルUm1を算出する。
同様に、モダリティm2の感情空間ベクトルUm2は、式(4)により求めることができ、モダリティm3の感情空間ベクトルUm3は、式(5)により求めることができる。
上述のように、推定表現特定部22は、第1推定部21が推定した複数の感情候補に対応する一つの推定表現値を特定する。また、複数のモダリティについて第1推定部21が感情候補を推定する場合、推定表現特定部22は、モダリティ毎に、第1推定部21が推定した複数の感情候補に対応する一つの推定表現値を特定する。これにより、一つの感情へ統合させることが容易になる。
推定表現特定部22は、統合特定部としての機能を有し、特定したモダリティ毎の感情空間ベクトルに所定の重み付けを付与して統合推定表現値を特定する。統合推定表現値を統合感情空間ベクトルとも称する。
統合感情空間ベクトルをUとすると、統合感情空間ベクトルUは、式(6)により求めることができる。式(6)において、Ukは、各モダリティの感情空間ベクトルである。式(6)において、wkは重み付け係数である。
図5は推定表現特定部22による感情空間ベクトルの重み付けの一例を示す模式図である。モダリティm1、m2、m3に対する重み係数を、wm1、wm2、wm3と表す。図5に示すように、モダリティm1についての感情空間ベクトルUm1は、wm1・Um1のように重み付けられる。モダリティm2についての感情空間ベクトルUm2は、wm2・Um2のように重み付けられる。また、モダリティm3についての感情空間ベクトルUm3は、wm3・Um3のように重み付けられる。
これにより、画像データ、音声データ、言語データそれぞれの取得時の精度、状況等に応じて各モダリティの感情推定に対する寄与度を適宜変更することができ、適切な感情推定を行うことが可能となる。
図6は推定表現特定部22により統合された統合感情空間ベクトルの一例を示す模式図である。統合感情空間ベクトルUは、式(7)により求めることができる。式(7)は、式(3)〜(6)に基づいて、導き出すことができる。重み係数wm1、wm2、wm3については、式(8)を充足する。また、0≦wm1、wm2、wm3≦1という関係を充足する。
重み係数については、wm1=1、wm2=wm3=0としてもよく、wm1=wm2=0、wm3=1としてもよく、あるいはwm1=wm3=0、wm2=1としてもよい。
また、重み係数wに、経過時間T及び減衰率γを導入し、重み係数w′=γT ・wを用いてもよい。ここで、経過時間Tは、各モダリティの確率分布を取得してから統合感情空間ベクトルUを算出するまでの時間である。減衰率γを大きい値に設定すると、直近に取得したデータほど重視することになり、減衰率γを小さい値にすると、過去に取得したデータも考慮することができる。例えば、音声データに基づいて感情を推定する場合に、所定期間(例えば、5秒など)毎に1回だけ音声データを取得することができるときは、減衰率γを調整して、できるだけ最近のデータだけを抽出して感情推定することが可能となる。
第2推定部23は、感情表現モデル24上の類似度に基づいて推定表現特定部22が特定した統合推定表現値を感情表現モデル24に含まれる感情を用いて表現する。より具体的には、第2推定部23は、推定表現特定部22が特定した感情空間ベクトルと感情表現モデル24の感情ベクトルとの類似度に基づいて複数の感情候補を統合した感情を推定する。類似度は、例えば、感情空間ベクトルと、各感情ベクトルとのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、複数の感情候補を統合した最終的な感情として特定することができる。これにより、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。
より具体的には、第2推定部23は、ある感情(すなわち、求めたい感情)eの生起確率P(e)を式(9)により算出する。感情eは、式(10)を充足する。すなわち、感情eは感情推定候補の集合Eに含まれる。ここで、感情推定候補の集合Eには、前述のモデリティm1、m2、m3それぞれの感情推定候補の集合Em1、Em2、Em3が含まれる。
式(9)は、統合感情空間ベクトルUと、各感情eに対する感情ベクトルV(e)とのコサイン類似度に基づくものである。コサイン類似度は、−1から1までの数値を取りうる。コサイン類似度が1に近づくほど2つのベクトルが同じ向きに近いことを意味し、0に近づくほど相関がなく、−1に近づくほど逆向きに近いことを意味する。すなわち、コサイン類似度が1に近づくほど式(9)の分子は無限大に近づき、1から遠ざかるほど式(9)の分子は0に近づく。これにより、統合感情空間ベクトルUと感情ベクトルとが類似するほど(近い感情ほど)、生起確率P(e)を高い確率となるようにすることができる。
図6の例では、感情eは感情推定候補の集合Eは、式(11)で表すことができる。
感情e1の生起確率P(e1)は、式(12)で求めることができ、感情e3の生起確率P(e3)は、式(13)で求めることができ、感情e4の生起確率P(e4)は、式(14)で求めることができ、感情e7の生起確率P(e7)は、式(15)で求めることができ、感情e10の生起確率P(e10)は、式(16)で求めることができる。また、式(11)〜(16)の分母Sは、式(17)で求めることができる。
上述のように、第1推定部21が推定する感情が複数の異なる種類であって、各感情を単純に足し合わせることができない場合でも、求めたい感情を設定すれば、当該求めたい感情の生起確率を求めることができる。生起確率が高い場合には、複数の異なる感情を統合した感情推定(統合感情推定値の算出)を行うことができる。
また、予め分類したい感情を複数設定しておき、算出した生起確率が、予め設定した感情のうち、いずれの感情に近いかを判定して、感情を分類した分類結果を得ることもできる。
出力部30は、第2推定部23が推定した感情に係る推定値(例えば、統合感情推定値、分類結果など)を出力する。これにより、統合した感情推定値を外部の装置へ提供することができる。
図7は本実施の形態の感情推定装置50の感情推定処理の手順の一例を示すフローチャートである。以下では、便宜上、処理の主体を推定処理部20として説明する。推定処理部20は、入力データを取得し(S11)、すべてのモダリティについて、第1推定部21による感情推定処理を行う(S12)。推定処理部20は、モダリティ毎に感情候補の確率を特定する(S13)。感情候補の確率は、図3に示すようなものである。
推定処理部20は、モダリティ毎に感情空間ベクトルを算出する(S14)。感情空間ベクトルは、図4に示すようなものである。推定処理部20は、各モダリティの感情空間ベクトルに重み付けを行って、統合感情空間ベクトルを算出する(S15)。統合感情空間ベクトルは、図6に示すようなものである。
推定処理部20は、求めたい感情の生起確率を算出する(S16)。推定処理部20は、算出結果を出力し(S17)、処理を終了する。
実施形態の感情推定装置50は、CPU(プロセッサ)、RAMなどを備えた汎用コンピュータを用いて実現することもできる。すなわち、図7に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたRAMにロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で感情推定装置50を実現することができる。
本実施の形態の感情推定装置50の推定処理部20は、機械学習モジュールで構成することもできる。機械学習モジュールは、例えば、ナイーブベイズ分類器、SVM(サポートベクトルマシン)、ニューラルネットワークなどのアルゴリズム(学習モデル)を使用することができる。
上述の実施の形態では、入力部10は、画像データ、音声データ及び言語データを取得する構成であるが、これに限定されるものではなく、例えば、画像データのみを取得してもよく、音声データのみを取得してもよく、あるいは言語データのみを取得するようにしてもよい。これにより、複数のモダリティそれぞれにおける、種類が異なる複数の感情が含まれる感情推定を統合するだけでなく、単一のモダリティおける、種類が異なる複数の感情が含まれる感情推定を統合することができる。
また、入力部10が画像データのみを取得する構成の場合、複数の画像(例えば、撮像領域が異なる複数の画像)の画像データを取得するようにしてもよい。
本実施の形態においては、推定処理部20が第1推定部21を備える構成であるが、これに限定されるものではなく、第1推定部21を感情推定装置50とは別個の装置に組み込み、当該別個の装置と感情推定装置50とを接続するような構成であってもよい。
本実施の形態の感情推定装置は、複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第1推定部と、前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第2推定部とを備える。
本実施の形態のコンピュータプログラムは、コンピュータに、入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理とを実行させる。
本実施の形態の感情推定方法は、複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、第1推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、第2推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する。
第1推定部は、入力データに基づいて感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現する。複数の感情候補は、例えば、種類が異なる複数の感情を含む。例えば、複数の感情を、e1、e2、e3とする。e1、e2、e3は、例えば、怒り、喜び、悲しみ等を含む。第1推定部は、感情e1についての確率P(e1)を算出し、感情e2についての確率P(e2)を算出し、感情e3についての確率P(e3)を算出する。
感情表現モデルは、種類の異なる感情それぞれを数値で示す。感情表現モデルは、例えば、種類が複数の感情を、Valence(感情のポジティブとネガティブの度合い)とArousal(感情の興奮度合い)の2次元で定義される感情空間上にマッピングしたものであり、感情がこの感情空間上に投影される。それぞれの感情は、Valenceに対応する数値と、Arousalに対応する数値との組、すなわち2次元ベクトルで表すことができる。この場合、2次元ベクトルが数値に相当し、感情ベクトルとも称する。感情空間上の感情をe1、e2、e3とすると、感情e1の感情ベクトルをV(e1)で表し、感情e2の感情ベクトルをV(e2)で表し、感情e3の感情ベクトルをV(e3)で表すことができる。なお、感情空間の次元の種類はValence及びArousalに限定されるものではなく、また感情空間の次元の数も2に限定されるものではなく、3次元以上であってもよい。
特定部は、感情表現モデルを用いて第1推定部に表現された複数の感情を感情表現モデル上の数値に変換して推定表現値を特定する。第1推定部が算出した確率を、前述のように、P(e1)、P(e2)、P(e3)とする。特定部は、u=P(e1)・V(e1)+P(e2)・V(e2)+P(e3)・V(e3)という式で推定表現値uを算出する。V(e1)、V(e2)、V(e3)は感情ベクトルである。すなわち、推定表現値は、感情空間上で感情ベクトルV(e1)、V(e2)、V(e3)それぞれに確率の重み付けをしたベクトルであり、感情空間ベクトルuとも称する。
第2推定部は、特定部が特定した各推定表現値を統合して、統合された数値を感情表現モデルに含まれる感情を用いて表現する。より具体的には、第2推定部は、特定部が特定した推定表現値(感情空間ベクトルu)と感情表現モデルの数値(感情ベクトルV(e1)、V(e2)、V(e3))との類似度に基づいて複数の感情候補を統合した感情を推定する。類似度は、例えば、感情空間ベクトルuと、各感情ベクトルV(e1)、V(e2)、V(e3)とのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、複数の感情候補を統合した最終的な感情として特定することができる。これにより、種類が異なる複数の感情が含まれる感情推定を統合して感情推定の精度を向上することができる。
本実施の形態の感情推定装置において、前記第1推定部は、複数の種別毎の入力データに基づいて前記種別毎の複数の感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、前記特定部は、前記種別毎に前記推定表現値を特定し、さらに、前記特定部が特定した前記種別毎の前記推定表現値を統合した統合推定表現値を特定する統合特定部を備え、前記第2推定部は、前記感情表現モデル上の類似度に基づいて前記統合特定部が特定した統合推定表現値を前記感情表現モデルに含まれる感情を用いて表現する。
第1推定部は、複数の種別毎の入力データに基づいて種別毎の複数の感情候補を推定し、感情表現モデルに含まれる複数の感情を用いて表現する。種別は、モダリティとも称し、複数の種別の入力データは、例えば、画像データ、音声データ、言語データなどを含む。この場合、モダリティは、画像、音声、言語ということができる。モダリティの集合をMとし、画像をモダリティm1とし、音声をモダリティm2とし、言語をモダリティm3とする。すなわち、M={m1,m2,m3}と表すことができる。
例えば、第1推定部は、画像データに基づいて、感情e1についての確率Pm1(e1)を算出し、感情e4についての確率Pm1(e4)を算出したとする。また、第1推定部は、音声データに基づいて、感情e9についての確率Pm2(e9)を算出し、感情e10についての確率Pm2(e10)を算出したとする。また、第1推定部は、言語データに基づいて、感情e3についての確率Pm3(e3)を算出し、感情e7についての確率Pm3(e7)を算出したとする。
特定部は、種別毎に推定表現値を特定する。より具体的には、特定部は、画像データに基づく推定表現値Um1、音声データに基づく推定表現値Um2、言語データに基づく推定表現値Um3を特定する。推定表現値Um1は、Um1=Pm1(e1)・V(e1)+Pm1(e4)・V(e4)という式で求めることができ、推定表現値Um2は、Um2=Pm2(e9)・V(e9)+Pm2(e10)・V(e10)という式で求めることができ、推定表現値Um3は、Um3=Pm3(e3)・V(e3)+Pm3(e7)・V(e7)という式で求めることができる。
統合特定部は、特定部が特定した種別毎の推定表現値を統合した統合推定表現値を特定する。統合推定表現値Uは、U=k・(Um1+Um2+Um3)という式で求めることができ、統合感情空間ベクトルとも称する。ここで、kは、統合感情空間ベクトルUが感情空間内に投影できるようにするための定数である。
第2推定部は、感情表現モデル上の類似度に基づいて統合特定部が特定した統合推定表現値を感情表現モデルに含まれる感情を用いて表現する。類似度は、例えば、統合感情空間ベクトルUと、各感情ベクトルV(e1)、V(e2)、V(e3)とのコサイン類似度を用いて算出することができる。類似度が最も近い感情を、種別毎の推定表現値(Um1、Um2、Um3)を統合した最終的な感情として特定することができる。これにより、複数のモダリティを統合した感情を推定することができる。
本実施の形態の感情推定装置において、前記統合特定部は、前記特定部が特定した前記種別毎の前記推定表現値に所定の重み付けを付与して前記統合推定表現値を特定する。
統合特定部は、特定部が特定した種別毎の推定表現値に所定の重み付けを付与して統合推定表現値を特定する。例えば、モダリティm1(画像)に対する重み付け係数をw1とし、モダリティm2(音声)に対する重み付け係数をw2とし、モダリティm3(言語)に対する重み付け係数をw3とする。統合推定表現値、すなわち、統合感情空間ベクトルUは、U=w1・Um1+w2・Um2+w3・Um3という式で求めることができる。なお、0≦w1、w2、w3≦1、かつ、w1+w2+w3=1である。これにより、画像データ、音声データ、言語データそれぞれの取得時の精度、状況等に応じて各モダリティの感情推定に対する寄与度を適宜変更することができ、適切な感情推定を行うことが可能となる。
本実施の形態の感情推定装置において、前記特定部は、前記第1推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する。
特定部は、第1推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する。例えば、特定部は、u=P(e1)・V(e1)+P(e2)・V(e2)+P(e3)・V(e3)という式で推定表現値uを算出する。また、特定部は、種別(モダリティ)毎に、例えば、モダリティm1についての推定表現値Um1は、Um1=Pm1(e1)・V(e1)+Pm1(e4)・V(e4)という式で求めることができる。これにより、一つの感情へ統合させることが容易になる。
本実施の形態の感情推定装置は、前記第2推定部が推定した感情を出力する出力部を備える。
出力部は、第2推定部が推定した感情を出力する。これにより、統合された感情推定値を外部の装置へ提供することができる。
本実施の形態の感情推定装置において、前記第1推定部は、画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する。
第1推定部は、画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する。これにより、単一のモダリティに限定されず、複数のモダリティを統合した感情を推定することができる。
10 入力部
20 推定処理部
21 第1推定部
22 推定表現特定部
23 第2推定部
24 感情表現モデル
30 出力部
20 推定処理部
21 第1推定部
22 推定表現特定部
23 第2推定部
24 感情表現モデル
30 出力部
Claims (8)
- 複数の感情を数値で表現した感情表現モデルを記憶する記憶部と、
入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現する第1推定部と、
前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する特定部と、
該特定部が特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する第2推定部と
を備える感情推定装置。 - 前記第1推定部は、
複数の種別毎の入力データに基づいて前記種別毎の複数の感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、
前記特定部は、
前記種別毎に前記推定表現値を特定し、
さらに、
前記特定部が特定した前記種別毎の前記推定表現値を統合した統合推定表現値を特定する統合特定部を備え、
前記第2推定部は、
前記感情表現モデル上の類似度に基づいて前記統合特定部が特定した統合推定表現値を前記感情表現モデルに含まれる感情を用いて表現する請求項1に記載の感情推定装置。 - 前記統合特定部は、
前記特定部が特定した前記種別毎の前記推定表現値に所定の重み付けを付与して前記統合推定表現値を特定する請求項2に記載の感情推定装置。 - 前記特定部は、
前記第1推定部が推定した複数の感情候補に対応する一つの推定表現値を特定する請求項1から請求項3のいずれか一項に記載の感情推定装置。 - 前記第2推定部が推定した感情を出力する出力部を備える請求項1から請求項4のいずれか一項に記載の感情推定装置。
- 前記第1推定部は、
画像データ、音声データ及び言語データの少なくとも一つの種別の入力データに基づいて複数の感情候補を推定する請求項1から請求項5のいずれか一項に記載の感情推定装置。 - コンピュータに、
入力データに基づいて感情候補を推定し、複数の感情を数値で表現した感情表現モデルに含まれる複数の感情を用いて表現する処理と、
表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定する処理と、
特定した各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する処理と
を実行させるコンピュータプログラム。 - 複数の感情を数値で表現した感情表現モデルを記憶部に記憶し、
第1推定部が、入力データに基づいて感情候補を推定し、前記感情表現モデルに含まれる複数の感情を用いて表現し、
前記感情表現モデルを用いて前記第1推定部に表現された複数の感情を前記感情表現モデル上の数値に変換して推定表現値を特定部が特定し、
第2推定部が、特定された各推定表現値を統合して、統合された数値を前記感情表現モデルに含まれる感情を用いて表現する感情推定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018015604A JP2019133447A (ja) | 2018-01-31 | 2018-01-31 | 感情推定装置、コンピュータプログラム及び感情推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018015604A JP2019133447A (ja) | 2018-01-31 | 2018-01-31 | 感情推定装置、コンピュータプログラム及び感情推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019133447A true JP2019133447A (ja) | 2019-08-08 |
Family
ID=67544985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018015604A Pending JP2019133447A (ja) | 2018-01-31 | 2018-01-31 | 感情推定装置、コンピュータプログラム及び感情推定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019133447A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220063816A (ko) * | 2020-11-09 | 2022-05-18 | 주식회사 스피랩 | 멀티모달 감성 분석 시스템 및 방법 |
-
2018
- 2018-01-31 JP JP2018015604A patent/JP2019133447A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220063816A (ko) * | 2020-11-09 | 2022-05-18 | 주식회사 스피랩 | 멀티모달 감성 분석 시스템 및 방법 |
KR102564570B1 (ko) | 2020-11-09 | 2023-08-07 | 주식회사 스피랩 | 멀티모달 감성 분석 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12073305B2 (en) | Deep multi-task representation learning | |
KR102601848B1 (ko) | 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치 | |
US9875445B2 (en) | Dynamic hybrid models for multimodal analysis | |
Nakamura et al. | Grounding of word meanings in multimodal concepts using LDA | |
JP4546767B2 (ja) | 感情推定装置及び感情推定プログラム | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
JP7166784B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2021032062A1 (zh) | 图像处理模型生成方法、图像处理方法、装置及电子设备 | |
JP2019101391A (ja) | 系列データ変換装置、学習装置、及びプログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
KR20210070029A (ko) | 반복적 생성을 통해 출력 콘텐트를 향상시키기 위한 디바이스, 방법, 및 프로그램 | |
CN113987269A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN113886644A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
US20230052442A1 (en) | Analyzing Objects Data to Generate a Textual Content Reporting Events | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
US10997972B2 (en) | Object authentication device and object authentication method | |
US20180285643A1 (en) | Object recognition device and object recognition method | |
CN111522937B (zh) | 话术推荐方法、装置和电子设备 | |
JP2019133447A (ja) | 感情推定装置、コンピュータプログラム及び感情推定方法 | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Chaudhari et al. | Emotion recognition system via facial expressions and speech using machine learning and deep learning techniques | |
CN114756662A (zh) | 基于多模态输入的任务特定文本生成 | |
JP6565084B2 (ja) | 物体認証装置および物体認証方法 | |
WO2023152832A1 (ja) | 識別装置、識別方法、及び非一時的なコンピュータ可読媒体 | |
JP2020038432A (ja) | 画像解析装置、画像解析方法、およびプログラム |