JP2020091302A

JP2020091302A - 感情推定装置、感情推定方法、およびプログラム

Info

Publication number: JP2020091302A
Application number: JP2018226236A
Authority: JP
Inventors: 遠超李; Yuanchao Li
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-06-11
Also published as: CN111341349B; US11107464B2; CN111341349A; US20200175970A1

Abstract

【課題】ユーザの感情の推定精度を向上させること。【解決手段】感情推定装置は、ユーザが発話した音声データを取得する第１取得部と、前記第１取得部により取得された音声データをテキスト化したテキストデータを取得する第２取得部と、前記第１取得部により取得された音声データに基づく指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第１推定部と、前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第２推定部と、を備える。【選択図】図９

Description

本発明は、感情推定装置、感情推定方法、およびプログラムに関する。

自動車などの移動体の乗員が発話した音声データや、発話内容を表すテキストデータを用いて、乗員の感情を推定する技術が研究されている。一方で、複数の識別器を用いて、画像から人物の服装を識別したり、人物の輪郭を識別したりする際に、アーリーフュージョンやレイトフュージョンを用いて、各識別器の出力結果を統合する技術が知られている（例えば、特許文献１参照）。

特開２００９−１４０２８３号公報

しかしながら、従来の技術では、ユーザの周囲の騒音や他のユーザの声によって、音声の認識精度が低下する場合があった。この結果、ユーザの感情の推定精度が低下する場合があった。

本発明の態様は、このような事情を考慮してなされたものであり、ユーザの感情の推定精度を向上させることができる感情推定装置、感情推定方法、およびプログラムを提供することを目的の一つとする。

本発明に係る感情推定装置、感情推定方法、およびプログラムは、以下の構成を採用した。
（１）本発明の一態様は、ユーザが発話した音声データを取得する第１取得部と、前記第１取得部により取得された音声データをテキスト化したテキストデータを取得する第２取得部と、前記第１取得部により取得された音声データに基づく指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第１推定部と、前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第２推定部と、を備える感情推定装置である。

（２）の態様は、上記（１）の態様の感情推定装置において、情報を出力する出力部と、前記第２推定部によって推定された前記ユーザの感情に基づく情報を、前記出力部に出力させる出力制御部とを更に備えるものである。

（３）の態様は、上記（１）または（２）の態様の感情推定装置において、前記第２推定部は、前記第２フュージョンの結果に基づいて、前記ユーザの感情が、ポジティブな第１感情であるのか、ネガティブな第２感情であるのか、または前記第１感情および前記第２感情のいずれでもないニュートラルな第３感情であるのかを推定するものである。

（４）の態様は、上記（３）の態様の感情推定装置において、前記第２推定部は、前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、第１閾値以上である場合、前記ユーザの感情が前記第１感情であると推定し、前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、前記第１閾値よりも小さい第２閾値以下である場合、前記ユーザの感情が前記第２感情であると推定し、前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、前記第１閾値未満であり、且つ前記第２閾値を超える場合、前記ユーザの感情が前記第３感情であると推定するものである。

（５）の態様は、上記（１）から（４）のうちいずれか一つの態様の感情推定装置において、前記第１取得部により取得された音声データから一以上の特徴量を抽出する抽出部を更に備え、前記第２取得部は、前記テキストデータが示すテキストの全体的な感情を数値化した第１指標値と、前記テキストに含まれる感情的なコンテンツの量を示す第２指標値とを導出し、前記第１推定部は、前記第２取得部により導出された前記第１指標値および前記第２指標値と、前記抽出部により抽出された一以上の前記特徴量とを、前記第１フュージョンによって統合するものである。

（６）の態様は、上記（５）の態様の感情推定装置において、前記第１推定部は、前記第１フュージョンとして、前記抽出部により抽出された一以上の前記特徴量のそれぞれを要素とする多次元データに、前記導出部により導出された前記第１指標値および前記第２指標値を要素として追加するものである。

（７）の態様は、上記（１）から（６）のうちいずれか一つの態様の感情推定装置において、前記第１取得部は、更に、前記ユーザが運転する車両の運転操作履歴を示す運転操作履歴データと、前記ユーザを撮像した画像データとを取得し、前記第１推定部は、前記第１取得部により取得された音声データに基づく指標値と、前記第２取得部により取得されたテキストデータに基づく指標値と、前記第１取得部により取得された運転操作履歴データに基づく指標値と、前記第１取得部により取得された画像データに基づく指標値とを、前記第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定するものである。

（８）本発明の他の態様は、コンピュータが、ユーザが発話した音声データを取得し、前記取得した音声データをテキスト化したテキストデータを取得し、前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定し、前記第１フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する感情推定方法である。

（９）本発明の他の態様は、コンピュータに、ユーザが発話した音声データを取得する処理と、前記取得した音声データをテキスト化したテキストデータを取得する処理と、前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、前記第１フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、を実行させるためのプログラムである。

（１）〜（９）の態様によれば、ユーザの感情の推定精度を向上させることができる。

第１実施形態に係るエージェントシステム１の構成の一例を示す図である。第１実施形態に係るエージェントシステム１の一連の処理の流れを示すシーケンス図である。第１実施形態に係るエージェント装置１００の構成の一例を示す図である。運転席から見た車両Ｍの車室内の一例を示す図である。上から見た車両Ｍの車室内の一例を示す図である。第１実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。表示部１０８に表示される画像の一例を示す図である。表示部１０８に表示される画像の一例を示す図である。第１実施形態に係るサーバ装置２００の構成の一例を示す図である。第１実施形態に係るアーリーフュージョンを説明するための図である。第１実施形態に係るレイトフュージョンを説明するための図である。第１実施形態に係るサーバ装置２００の一連の処理の流れを示すフローチャートである。第１実施形態に係るエージェント装置１００の他の例を示す図である。第２実施形態に係るエージェント装置１００の構成の一例を示す図である。第２実施形態に係るアーリーフュージョンを説明するための図である。第３実施形態に係るエージェントシステム１の構成の一例を示す図である。端末装置３００の構成の一例を示す図である。端末側制御部３２０の機能構成の一例を示す図である。

以下、図面を参照し、本発明の感情推定装置、感情推定方法、およびプログラムの実施形態について説明する。

＜第１実施形態＞
［システム構成］
図１は、第１実施形態に係るエージェントシステム１の構成の一例を示す図である。第１実施形態に係るエージェントシステム１は、例えば、複数のエージェント装置１００と、サーバ装置２００とを備える。図示の例のように、各エージェント装置１００は、車両Ｍに搭載される。車両Ｍは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。

エージェント装置１００とサーバ装置２００とは、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などが含まれる。ネットワークＮＷには、例えば、Ｗｉ−ＦｉやＢｌｕｅｔｏｏｔｈ（登録商標、以下省略）など無線通信を利用したネットワークが含まれてよい。

エージェント装置１００は、車両Ｍの乗員と音声対話を行ったり、乗員同士の対話を支援したりする機能（以下、エージェント機能と称する）を有する装置である。エージェント機能は、ある種の人工知能的機能を持つソフトウェアエージェント（インテリジェントエージェント）によって実現される。

サーバ装置２００は、各車両Ｍに搭載されたエージェント装置１００と通信し、エージェント装置１００から各種データを収集する。サーバ装置２００は、収集したデータを解析することで、各車両Ｍの乗員の感情を推定し、その推定結果を、エージェント装置１００に送信する。サーバ装置２００は、「感情推定装置」の一例である。

なお、エージェント装置１００が搭載される移動体は、車両Ｍに限られず、例えば、旅客機や飛行船、ヘリコプターなどの航空機や、旅客船などの船舶といった他の移動体であってもよい。

［エージェントシステムのシーケンス］
図２は、第１実施形態に係るエージェントシステム１の一連の処理の流れを示すシーケンス図である。まず、エージェント装置１００は、乗員が発話した音声がマイクロフォン１０４によって収音された場合、その収音された音声のデータ（以下、音声データ）をマイクロフォン１０４から取得する（ステップＳ１００）。

次に、エージェント装置１００は、取得した音声データをサーバ装置２００に送信する（ステップＳ１０２）。

サーバ装置２００は、エージェント装置１００から音声データを受信すると、受信した音声データに基づいて、エージェント装置１００が搭載された車両Ｍの乗員の感情を推定する（ステップＳ１０４）。

次に、サーバ装置２００は、乗員の感情を推定した推定結果をエージェント装置１００に送信する（ステップＳ１０６）。

次に、エージェント装置１００は、サーバ装置２００から推定結果を受信すると、その推定結果に基づいて、対話の支援態様を決定する（ステップＳ１０８）。例えば、エージェント装置１００は、乗員の感情の推定結果に応じて、対話音声の音圧レベルや抑揚などを変更したり、車室内にかける音楽の選曲を変更したり、車室内に表示する映像や画像を変更したりする。

［エージェント装置の構成］
図３は、第１実施形態に係るエージェント装置１００の構成の一例を示す図である。第１実施形態に係るエージェント装置１００は、例えば、エージェント側通信部１０２と、マイクロフォン１０４と、スピーカ１０６と、表示部１０８と、入力部１１０と、エージェント側記憶部１２０と、エージェント側制御部１３０とを備える。

これらの装置や機器は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図３に示すエージェント装置１００の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

エージェント側通信部１０２は、ＮＩＣ（Network Interface Card）などの通信インターフェースを含む。エージェント側通信部１０２は、ネットワークＮＷを介してサーバ装置２００などと通信する。

マイクロフォン１０４は、車室内の音声を収音する音声入力装置である。マイクロフォン１０４は、収音した音声データをエージェント側制御部１３０に出力する。例えば、マイクロフォン１０４は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイクロフォン１０４は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置されてよい。また、マイクロフォン１０４は、車室内に複数設置されてよい。

スピーカ１０６は、例えば、車室内のシート付近または表示部１０８付近に設置される。スピーカ１０６は、エージェント側制御部１３０により出力される情報に基づいて音声を出力する。

表示部１０８は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイなどの表示装置を含む。表示部１０８は、エージェント側制御部１３０により出力される情報に基づいて画像を表示する。

入力部１１０は、例えば、ボタン、キーボードやマウス等のユーザインターフェースである。入力部１１０は、乗員の操作を受け付けて、受け付けた操作に応じた信号をエージェント側制御部１３０に出力する。入力部１１０は、表示部１０８と一体として構成されるタッチパネルであってもよい。

図４は、運転席から見た車両Ｍの車室内の一例を示す図である。または、図５は、上から見た車両Ｍの車室内の一例を示す図である。図示の例の車室内には、マイクロフォン１０４と、スピーカ１０６と、表示部１０８Ａ〜１１０Ｃとが設置されている。マイクロフォン１０４は、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。スピーカ１０６は、例えば、表示部１０８Ｃの付近、つまり、インストルメントパネルＩＰの中央付近に設置される。

表示部１０８Ａは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるＨＵＤ（Head-Up Display）装置である。ＨＵＤ装置は、例えば、車両Ｍのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。

表示部１０８Ｂは、運転席（ステアリングホイールに最も近い座席）の正面付近のインストルメントパネルＩＰに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部１０８Ｂは、例えば、ＬＣＤや有機ＥＬ表示装置等である。表示部１０８Ｂには、例えば、車両Ｍの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。

表示部１０８Ｃは、インストルメントパネルＩＰの中央付近に設置される。表示部１０８Ｃは、例えば、表示部１０８Ｂと同様に、ＬＣＤや有機ＥＬ表示装置等である。表示部１０８Ｃは、テレビ番組や映画等のコンテンツを表示する。

図３の説明に戻り、エージェント側記憶部１２０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。エージェント側記憶部１２０には、例えば、プロセッサによって参照されるプログラムなどが格納される。

エージェント側制御部１３０は、例えば、第１取得部１３２と、音声合成部１３４と、出力制御部１３６と、通信制御部１３８とを備える。

これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めエージェント側記憶部１２０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでエージェント側記憶部１２０にインストールされてもよい。

第１取得部１３２は、マイクロフォン１０４から音声データを取得する。

音声合成部１３４は、エージェント側通信部１０２がサーバ装置２００から受信したデータに基づいて、人工的な合成音声（以下、エージェント音声と称する）を生成する。

出力制御部１３６は、音声合成部１３４によってエージェント音声が生成されるか、当該エージェント音声が外部装置から取得されると、そのエージェント音声をスピーカ１０６に出力させる。また、出力制御部１３６は、エージェント音声の元となったフレーズ（テキストデータ）を画像として表示部１０８に表示させてもよい。

通信制御部１３８は、エージェント側通信部１０２を介して、第１取得部１３２によって取得された音声データをサーバ装置２００に送信する。

［エージェント装置の処理フロー］
以下、第１実施形態に係るエージェント装置１００の一連の処理の流れについてフローチャートを用いて説明する。図６は、第１実施形態に係るエージェント装置１００の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。

まず、第１取得部１３２は、エージェント側通信部１０２によって、乗員の感情の推定結果と、この感情推定に利用された乗員の音声の発話内容を示すテキストデータとを含む感情推定データが受信されたか否かを判定し（ステップＳ２００）、エージェント側通信部１０２によって感情推定データが受信されたと判定した場合、エージェント側通信部１０２から感情推定データを取得する。

音声合成部１３４は、第１取得部１３２によって感情推定データが取得されると、その感情推定データに含まれるテキストデータと感情推定結果とに基づいて、エージェント音声を生成する（ステップＳ２０２）。

例えば、音声合成部１３４は、波形接続型音声合成（Concatenative synthesis）と、フォルマント合成（Formant synthesis）とを行って、テキストデータに含まれる発音記号を読み上げるエージェント音声を生成する。また、音声合成部１３４は、テキストデータに発音記号が含まれず、フレーズを表す文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げるエージェント音声を生成してよい。エージェント音声を生成する際、音声合成部１３４は、感情推定結果に応じて、エージェント音声の音程や抑揚、音圧レベル、読み上げ速度などを変更する。例えば、乗員の感情が「怒り」などのネガティブな感情であると推定された場合、音声合成部１３４は、乗員の気分を落ち着かせるために、エージェント音声の音圧レベルを小さくしたり、読み上げ速度を遅くしたりしてよい。

次に、出力制御部１３６は、音声合成部１３４によって生成されたエージェント音声をスピーカ１０６に出力させる（ステップＳ２０４）。この際、出力制御部１３６は、感情推定結果に応じた画像や映像を表示部１０８に表示させてもよいし、車室内にかける音楽として、感情推定結果に応じた楽曲を選曲してもよい。

図７および図８は、表示部１０８に表示される画像の一例を示す図である。例えば、出力制御部１３６は、乗員の感情の推定結果に応じた背景画像に、乗員が発話した発話内容（図示の例では「目的地まであと何キロメートルなの」という文字列）を重ねて表示させてよい。乗員の感情が「怒り」などのネガティブな感情であると推定された場合、出力制御部１３６は、図７に例示するように、天候が荒天であることを表す背景画像に、乗員の発話内容を重ねて表示させる。一方で、乗員の感情が「喜び」などのポジティブな感情であると推定された場合、出力制御部１３６は、図８に例示するように、天候が快晴であることを表す背景画像に、乗員の発話内容を重ねて表示させる。また、出力制御部１３６は、乗員の感情の推定結果に応じて、乗員の発話内容を示す文字列の色や大きさ、フォントなどを変更してもよい。

一方、第１取得部１３２は、Ｓ２００の処理で、エージェント側通信部１０２によって感情推定データが受信されなかったと判定した場合、マイクロフォン１０４によって乗員が発話した音声が収音されたか否か、すなわち、乗員が発話したか否かを判定する（ステップＳ２０６）。

乗員が発話したと判定された場合、通信制御部１３８は、エージェント側通信部１０２を介して、マイクロフォン１０４によって収音された音声データをサーバ装置２００に送信する（ステップＳ２０８）。これによって本フローチャートの処理が終了する。

［サーバ装置の構成］
図９は、第１実施形態に係るサーバ装置２００の構成の一例を示す図である。第１実施形態に係るサーバ装置２００は、例えば、サーバ側通信部２０２と、サーバ側記憶部２１０と、サーバ側制御部２３０とを備える。

サーバ側通信部２０２は、ＮＩＣなどの通信インターフェースを含む。サーバ側通信部２０２は、ネットワークＮＷを介して各車両Ｍに搭載されたエージェント装置１００などと通信する。サーバ側通信部２０２は、「出力部」の一例である。

サーバ側記憶部２１０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。サーバ側記憶部２１０には、例えば、プロセッサによって参照されるプログラムのほかに、感情識別モデル情報２１２などが格納される。

感情識別モデル情報２１２は、ユーザの感情を識別するための感情識別モデルＭＤＬを定義した情報（プログラムまたはデータ構造）である。感情識別モデルＭＤＬは、ユーザの声の特徴量を少なくとも含むデータが入力されると、ユーザが発話した時点の感情を識別するように学習されたモデルである。

感情識別モデルＭＤＬは、例えば、ＤＮＮ（Deep Neural Network(s)）を利用して実現されてよい。また、感情識別モデルＭＤＬは、ＤＮＮに限られず、ロジスティック回帰やＳＶＭ（Support Vector Machine）、ｋ−ＮＮ（k-Nearest Neighbor algorithm）、決定木、単純ベイズ分類器、ランダムフォレストといった他のモデルによって実現されてよい。

感情識別モデルＭＤＬがＤＮＮによって実現される場合、感情識別モデル情報２１２には、例えば、感情識別モデルＭＤＬに含まれる各ＤＮＮを構成する入力層、一以上の隠れ層（中間層）、出力層の其々に含まれるニューロン（ユニットあるいはノード）が互いにどのように結合されるのかという結合情報や、結合されたニューロン間で入出力されるデータに付与される結合係数がいくつであるのかという重み情報などが含まれる。結合情報は、例えば、各層に含まれるニューロン数や、各ニューロンの結合先のニューロンの種類を指定する情報、各ニューロンを実現する活性化関数、隠れ層のニューロン間に設けられたゲートなどの情報を含む。ニューロンを実現する活性化関数は、例えば、入力符号に応じて動作を切り替える関数（ＲｅＬＵ（Rectified Linear Unit）関数やＥＬＵ（Exponential Linear Units）関数など）であってもよいし、シグモイド関数や、ステップ関数、ハイパポリックタンジェント関数であってもよいし、恒等関数であってもよい。ゲートは、例えば、活性化関数によって返される値（例えば１または０）に応じて、ニューロン間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、活性化関数のパラメータであり、例えば、ニューラルネットワークの隠れ層において、ある層のニューロンから、より深い層のニューロンにデータが出力される際に、出力データに対して付与される重みを含む。また、結合係数は、各層の固有のバイアス成分などを含んでもよい。

サーバ側制御部２３０は、例えば、第１取得部２３２と、発話期間抽出部２３４と、音声認識部２３６と、特徴量抽出部２３８と、第１推定部２４０と、第２推定部２４２と、通信制御部２４４と、学習部２４６とを備える。音声認識部２３６は、「第２取得部」の一例であり、通信制御部２４４は、「ユーザの感情に基づく情報を出力部に出力させる出力制御部」の一例である。

これらの構成要素は、例えば、ＣＰＵやＧＰＵ等のプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めサーバ側記憶部２１０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置（ディスクドライブ）に装着されることでサーバ側記憶部２１０にインストールされてもよい。

第１取得部２３２は、サーバ側通信部２０２を介して、エージェント装置１００から音声データを取得する。

発話期間抽出部２３４は、第１取得部１３２によって取得された音声データから、乗員が発話している期間（以下、発話期間と称する）を抽出する。例えば、発話期間抽出部２３４は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話期間を抽出してよい。また、発話期間抽出部２３４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づいて、音声データから発話期間を抽出してもよいし、発話期間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話期間を抽出してもよい。

音声認識部２３６は、発話期間抽出部２３４によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する。

例えば、音声認識部２３６は、発話期間の音声信号を、ＢｉＬＳＴＭ（Bi-directional Long short-term memory）やアテンション機構などを含むリカレントニューラルネットワークに入力することで、音声信号が低周波数や高周波数などの複数の周波数帯に分離され、その各周波数帯の音声信号がフーリエ変換されたスペクトログラム（メルスペクトログラム）を得る。リカレントニューラルネットワークは、例えば、学習用の音声から生成されたスペクトログラムに対して、その学習用の音声信号が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。

そして、音声認識部２３６は、スペクトログラムを、複数の隠れ層を含む畳み込みニューラルネットワークに入力することで、スペクトログラムから文字列を得る。畳み込みニューラルネットワークは、例えば、学習用のスペクトログラムに対して、その学習用のスペクトログラムを生成するのに使われた音声信号に対応する文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。音声認識部２３６は、畳み込みニューラルネットワークから得た文字列のデータを、テキストデータとして生成する。

音声認識部２３６は、音声データからテキストデータを生成すると、その生成したテキストデータを、乗員の感情を分析するように予め学習されたＤＮＮに入力することで、乗員の感情が数値化された指数（以下、センチメント分析指数ＩＮ_Ｓと称する）を導出する。センチメント分析指数ＩＮ_Ｓは、「テキストデータに基づく指標値」の一例である。

センチメント分析指数ＩＮ_Ｓには、例えば、分析対象であるテキストの全体的な感情を示すスコアＳと、テキストの全体的な感情の深度（大きさまたは振れ幅）を示すマグニチュードＭとが含まれる。例えば、スコアＳは、テキスト全体が、「楽しい」や「うれしい」のようなポジティブな言動が多いほど、＋１．０に近い値を取り、「悲しい」や「苛立たしい」のようなネガティブな言動が多いほど、−１．０に近い値を取り、ニュートラルな言動が多いほど、０．０に近い数値を取る。マグニチュードＭは、テキストの中で感情的な意見を述べている文字列（ストリングス）の数量を、−１．０から＋１．０までの数値範囲によって表している。スコアＳが０．０に近い場合、そのテキストは、ニュートラルな言動であるか、またはポジティブな言動とネガティブな言動とが同程度であり、互いに極性をキャンセルしていることを表している。テキストの中で感情的な意見を述べている文字列は、「コンテンツ」の一例である。

一般的に、真にニュートラルなテキストでは、マグニチュードＭが小さく、ポジティブな言動とネガティブな言動とが混在したテキストでは、マグニチュードＭが大きいことが知られている。従って、スコアＳが０．０に近い値であっても、マグニチュードＭの値に応じて、分析対象のテキストが真にニュートラルなテキストであるのか、それともポジティブな言動とネガティブな言動とが混在したテキストであるのかを区別することができる。スコアＳは、「第１指標値」の一例であり、マグニチュードＭは、「第２指標値」の一例である。

特徴量抽出部２３８は、発話期間抽出部２３４によって抽出された各発話期間の音声から、乗員の声の特徴量（以下、音声特徴量Ｆと称する）を抽出する。音声特徴量Ｆは、「音声データに基づく指標値」の一例である。

音声特徴量Ｆは、例えば、ＺＣＲ（Zero-Crossing Rate）、ＲＭＳ（Root Mean Square）、声のピッチの基本周波数Ｆ０、ＨＮＲ（Harmonics-to-Noise Ratio）、メル周波数ケプストラム係数ＭＦＣＣである。また、音声特徴量Ｆには、これらの各種指標値の最小値、最大値、標準偏差、平均値、尖度、歪度、相対位置、範囲、線形回帰係数、平均二乗誤差などの統計値が含まれてよい。音声特徴量Ｆは、これらの特徴量のそれぞれを要素とする多次元ベクトルによって表されてよい。音声特徴量Ｆを表す多次元ベクトルは、「多次元データ」の一例である。

第１推定部２４０は、特徴量抽出部２３８によって抽出された音声特徴量Ｆと、音声認識部２３６によって導出されたセンチメント分析指数ＩＮ_Ｓとを一つにフュージョンし、そのフュージョン結果を、感情識別モデルＭＤＬに入力することで、暫定的に乗員の感情を推定する。以下、感情識別モデルＭＤＬの入力データとする音声特徴量Ｆおよびセンチメント分析指数ＩＮ_Ｓを一つにフュージョンすることを「アーリーフュージョン」と称して説明する。アーリーフュージョンは、「第１フュージョン」の一例である。

図１０は、第１実施形態に係るアーリーフュージョンを説明するための図である。例えば、第１推定部２４０は、アーリーフュージョンとして、ＺＣＲやＲＭＳ、Ｆ０といった音声特徴量Ｆを表す多次元ベクトルに、センチメント分析指数ＩＮ_ＳのスコアＳとマグニチュードＭとを新たな要素として追加する。これによって、感情識別モデルＭＤＬに入力する入力データの次元数が拡張される。

そして、第１推定部２４０は、音声特徴量Ｆに含まれる各特徴量と、スコアＳと、マグニチュードＭとをそれぞれ要素として含む多次元ベクトル（次元数が増えた多次元ベクトル）を、ロジスティック回帰やＤＮＮなどによって実現される感情識別モデルＭＤＬに入力する。

感情識別モデルＭＤＬは、例えば、ベクトルが入力されると、ユーザの感情が、ポジティブな感情（第１感情の一例）であるのか、ネガティブな感情（第２感情の一例）であるのか、或いはニュートラルな感情（第３感情の一例）であるのかを識別した値（以下、一次感情識別値Ｅと称する）を出力する。例えば、一次感情識別値Ｅは、ユーザの感情がポジティブな感情であると、＋１．０に近い値となり、ユーザの感情がネガティブな感情であると、−１．０に近い値となり、ユーザの感情がニュートラルな感情であると、０．０に近い値となる。

例えば、第１推定部２４０は、感情識別モデルＭＤＬによって出力された一次感情識別値Ｅに対応した感情が、音声特徴量Ｆの抽出元である音声を発話した乗員の感情であると暫定的に推定する。

第２推定部２４２は、第１推定部２４０の推定結果である一次感情識別値Ｅと、音声認識部２３６によって導出されたセンチメント分析指数ＩＮ_Ｓとを一つにフュージョンし、そのフュージョン結果に基づいて、乗員の感情を推定する。以下、一次感情識別値Ｅとセンチメント分析指数ＩＮ_Ｓとをフュージョンすることを「レイトフュージョン」と称して説明する。レイトフュージョンは、「第２フュージョン」の一例である。

図１１は、第１実施形態に係るレイトフュージョンを説明するための図である。例えば、第２推定部２４２は、一次感情識別値Ｅとセンチメント分析指数ＩＮ_Ｓとの合計値を求め、その合計値に応じて、乗員の感情が、ポジティブな感情であるのか、ネガティブな感情であるのか、或いはニュートラルな感情であるのかを識別した値（以下、二次感情識別値Ｃと称する）を、乗員の感情の推定結果として導出する。具体的には、第２推定部２４２は、数式（１）に基づいて、二次感情識別値Ｃを導出する。

例えば、第２推定部２４２は、数式（１）に従って、一次感情識別値Ｅと、センチメント分析指数ＩＮ_Ｓに含まれるスコアＳとを足し合わせたときに（統合したときに）、その合計値（Ｅ＋Ｓ）が＋１．０以上である場合、二次感情識別値Ｃを、ポジティブな感情であることを示す＋１．０とし、合計値（Ｅ＋Ｓ）が−１．０以下である場合、二次感情識別値Ｃを、ネガティブな感情であることを示す−１．０とし、合計値（Ｅ＋Ｓ）が＋１．０未満であり、且つ−１．０を超える場合、二次感情識別値Ｃを、ニュートラルな感情であることを示す０．０とする。＋１．０は、「第１閾値」の一例であり、−１．０は、「第２閾値」の一例である。

通信制御部２４４は、第２推定部２４２の推定結果である二次感情識別値Ｃと、音声認識部２３６によって生成されたテキストデータとを含む感情推定データを、サーバ側通信部２０２を介してエージェント装置１００に送信する。感情推定データは、「ユーザの感情に基づく情報」の一例である。

学習部２４６は、予め用意された教師データに基づいて、感情識別モデルＭＤＬを学習する。教師データは、ある学習用の音声データから抽出された音声特徴量Ｆと、同じ学習用の音声データから生成されたテキストデータから得られるセンチメント分析指数ＩＮ_Ｓとに対して、正解となる一次感情識別値Ｅが教師ラベルとして対応付けられたデータである。例えば、怒っているユーザに発話させたときの音声データの音声特徴量Ｆおよびセンチメント分析指数ＩＮ_Ｓに対しては、−１．０の値の一次感情識別値Ｅが対応付けられている。

例えば、学習部２４６は、教師データの音声特徴量Ｆおよびセンチメント分析指数ＩＮ_Ｓをアーリーフュージョンし、そのフュージョン結果を感情識別モデルＭＤＬに入力する。そして、学習部２４６は、感情識別モデルＭＤＬの出力結果である一次感情識別値Ｅが、感情識別モデルＭＤＬに入力した音声特徴量Ｆおよびセンチメント分析指数ＩＮ_Ｓに対して教師ラベルとして対応付けられた正解の一次感情識別値Ｅに近づくように、感情識別モデルＭＤＬを学習する。

例えば、感情識別モデルＭＤＬがニューラルネットワークである場合、学習部２４６は、感情識別モデルＭＤＬによって出力された一次感情識別値Ｅと、教師ラベルの一次感情識別値Ｅとの差分が小さくなるように、感情識別モデルＭＤＬのパラメータを、ＳＧＤ(Stochastic Gradient Descent）、Momentum ＳＧＤ、AdaGrad、RMSprop、AdaDelta、Ａｄａｍ(Adaptive moment estimation)などの確率的勾配法を利用して学習する。

［サーバ装置の処理フロー］
以下、第１実施形態に係るサーバ装置２００の処理についてフローチャートを用いて説明する。図１２は、第１実施形態に係るサーバ装置２００の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。

まず、第１取得部２３２は、サーバ側通信部２０２を介して、エージェント装置１００から音声データを取得する（ステップＳ３００）。

次に、発話期間抽出部２３４は、第１取得部１３２によって取得された音声データから、乗員が発話している発話期間を抽出する（ステップＳ３０２）。

次に、音声認識部２３６は、発話期間抽出部２３４によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する（ステップＳ３０４）。

次に、音声認識部２３６は、生成したテキストデータを、乗員の感情を分析するように予め学習されたＤＮＮに入力することで、センチメント分析指数ＩＮ_Ｓを導出する（ステップＳ３０６）。

次に、特徴量抽出部２３８は、発話期間抽出部２３４によって抽出された各発話期間の音声から、音声特徴量Ｆを抽出する（ステップＳ３０８）。

次に、第１推定部２４０は、特徴量抽出部２３８によって抽出された音声特徴量Ｆと、音声認識部２３６によって導出されたセンチメント分析指数ＩＮ_Ｓとをアーリーフュージョンによって一つに統合する（ステップＳ３１０）。

次に、第１推定部２４０は、アーリーフュージョンの結果を、感情識別モデルＭＤＬに入力することで、暫定的に乗員の感情を推定する（ステップＳ３１２）。

次に、第２推定部２４２は、第１推定部２４０の推定結果である一次感情識別値Ｅと、音声認識部２３６によって導出されたセンチメント分析指数ＩＮ_Ｓとをレイトフュージョンによって一つに統合する（ステップＳ３１４）。

次に、第２推定部２４２は、レイトフュージョンの結果に基づいて二次感情識別値Ｃを導出し、乗員の感情を推定する（ステップＳ３１６）。

次に、通信制御部２４４は、第２推定部２４２の推定結果である二次感情識別値Ｃと、音声認識部２３６によって生成されたテキストデータとを含む感情推定データを、サーバ側通信部２０２を介してエージェント装置１００に送信する（ステップＳ３１８）。この際、テキストデータには、発話内容を表す文字列の各文字の一つ一つに対応した発音記号（音声字母または音標文字とも呼ばれる）が含まれていてよい。これによって、エージェント装置１００は、二次感情識別値Ｃの値が＋１．０であるのか、−１．０であるのか、０．０であるのかに応じて、対話の支援態様を変更する。これによって、本フローチャートの処理が終了する。

以上説明した第１実施形態によれば、サーバ装置２００が、エージェント装置１００が搭載された車両Ｍの乗員が発話した音声データを取得する第１取得部２３２と、第１取得部２３２により取得された音声データをテキスト化したテキストデータを生成する音声認識部２３６と、音声データに基づく音声特徴量Ｆと、テキストデータに基づくセンチメント分析指数ＩＮ_Ｓとをアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果に基づいて、乗員の感情を推定する第１推定部２４０と、第１推定部２４０の推定結果である一次感情識別値Ｅと、センチメント分析指数ＩＮ_Ｓとをレイトフュージョンによって一つに統合し、そのレイトフュージョンの統合結果に基づいて、乗員の感情を推定する第２推定部２４２とを備えることによって、例えば、音声データに基づく感情推定と、テキストデータに基づく感情推定との結果が、「ポジティブ」と「ポジティブ」、或いは「ネガティブ」と「ネガティブ」のように、互いに同じ推定結果である場合に、それらの推定結果を維持し、「ポジティブ」と「ネガティブ」、或いは「ネガティブ」と「ポジティブ」のように、双方の感情推定の結果が互いに異なる推定結果である場合、推定誤りが生じている蓋然性が高いことから、ニュートラルの推定結果に変更する、といったことを行うことができる。この結果、気分が落ち込んでいる乗員の感情を「ポジティブな感情」であると誤って推定したり、気分が高揚している乗員の感情を「ネガティブな感情」であると誤って推定したりすることを抑制することができ、乗員（ユーザの一例）の感情の推定精度を向上させることができる。

＜第１実施形態の変形例＞
以下、第１実施形態の変形例について説明する。上述した第１実施形態では、各車両Ｍに搭載されたエージェント装置１００と、サーバ装置２００とが互いに異なる装置であるものとして説明したがこれに限られない。例えば、サーバ装置２００は、エージェント装置１００のエージェント側制御部１３０によって仮想的に実現される仮想マシンであってもよい。この場合、エージェント装置１００は、「感情推定装置」の他の例である。

図１３は、第１実施形態に係るエージェント装置１００の他の例を示す図である。図１３に示すように、エージェント装置１００のエージェント側制御部１３０は、上述した第１取得部１３２、音声合成部１３４、出力制御部１３６、および通信制御部１３８に加えて、更に、発話期間抽出部２３４と、音声認識部２３６と、特徴量抽出部２３８と、第１推定部２４０と、第２推定部２４２と、学習部２４６とを備えてよい。この場合、エージェント装置１００のスピーカ１０６や表示部１０８は、「出力部」の他の例であり、エージェント装置１００の出力制御部１３６は、「ユーザの感情に基づく情報を出力部に出力させる出力制御部」の他の例である。

また、エージェント装置１００のエージェント側記憶部１２０には、感情識別モデル情報２１２が格納されてよい。

このような構成によって、エージェント装置１００単体で、乗員が発話した音声から、その乗員の感情を推定することができるため、感情の推定誤りを減少させて、乗員の感情の推定精度を向上させることができる。

また、上述した第１実施形態では、エージェント装置１００が、サーバ装置２００によって推定された乗員の感情に基づいて、エージェント音声の音圧レベルや抑揚などを変更したり、車室内にかける音楽の選曲を変更したり、車室内に表示する映像や画像を変更したりするものとして説明したがこれに限られない。例えば、エージェント装置１００は、乗員の感情の推定結果に基づいて、速度や加速度、旋回角といった車両Ｍの挙動を変更してもよい。

また、上述した第１実施形態では、サーバ装置２００が音声認識部２３６を備え、その音声認識部２３６が、発話期間抽出部２３４によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成するものとして説明したがこれに限られない。例えば、サーバ装置２００の通信制御部２４４は、発話期間抽出部２３４によって抽出された発話期間の音声データを、サーバ側通信部２０２を介して、ある特定の外部装置に送信し、その外部装置に、音声データからテキストデータを生成するように依頼してもよい。外部装置は、音声認識部２３６と同様の構成を有しており、他の装置から音声データを受信すると、その受信した音声データからテキストデータを生成する。そして、外部装置は、依頼元の装置に、生成したテキストデータを送信する。サーバ側通信部２０２によって外部装置からテキストデータが受信されると、サーバ装置２００の音声認識部２３６は、サーバ側通信部２０２によって受信されたテキストデータから、センチメント分析指数ＩＮ_Ｓを導出する。この場合、サーバ側通信部２０２または音声認識部２３６は、「第２取得部」の他の例である。

＜第２実施形態＞
以下、第２実施形態について説明する。上述した第１実施形態では、アーリーフュージョンとして、ＺＣＲやＲＭＳ、Ｆ０といった音声特徴量Ｆを表す多次元ベクトルに、センチメント分析指数ＩＮ_ＳのスコアＳとマグニチュードＭとを新たな要素として追加するものとして説明した。

これに対して、第２実施形態では、アーリーフュージョンとして、音声特徴量Ｆを表す多次元ベクトルに対して、センチメント分析指数ＩＮ_ＳのスコアＳとマグニチュードＭとを新たな要素として追加するとともに、乗員の運転操作の傾向を示す特徴量や、乗員の外見の特徴量、車両Ｍの状態を示す特徴量などを新たな要素として追加する点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図１４は、第２実施形態に係るエージェント装置１００の構成の一例を示す図である。第２実施形態に係るエージェント装置１００は、上述した構成に加えて、更に、運転操作検出部１１２と、ドライバーモニタカメラ１１４と、車両センサ１１６とを備える。

運転操作検出部１１２は、ステアリングホイールやアクセルペダル、ブレーキペダルなどの運転操作子が、乗員によってどの程度操作されたのかということを示す操作量を検出したり、運転操作子に対する操作の有無を検出したりする。すなわち、運転操作検出部１１２は、運転操作子に対する乗員の運転操作を検出する。例えば、運転操作検出部１１２は、検出した操作量、或いは検出した操作の有無を示す情報（以下、ユーザ運転操作データと称する）を、エージェント側制御部１３０に出力する。

ドライバーモニタカメラ１１４は、例えば、エージェント装置１００が搭載された車両Ｍの車室内に設置され、車室内のシートに着座する各乗員の顔などを撮像する。ドライバーモニタカメラ１１４は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の固体撮像素子を利用したデジタルカメラである。ドライバーモニタカメラ１１４は、例えば、所定のタイミングで各乗員を繰り返し撮像する。ドライバーモニタカメラ１１４は、乗員を撮像した画像のデータ（以下、画像データ）を生成し、生成した画像データをエージェント側制御部１３０に出力する。

車両センサ１１６は、車両Ｍの向きを検出する方位センサや、車両Ｍの速度を検出する車速センサ、車両Ｍの加速度を検出する加速度センサ、車両Ｍの鉛直軸回りの角速度を検出するヨーレートセンサ、操舵トルクを検出するトルクセンサなどを含む。車両センサ１１６は、検出した方位や速度、加速度などを含むデータ（以下、車両状態データと称する）をエージェント側制御部１３０に出力する。

第２実施形態における通信制御部１３８は、エージェント側通信部１０２を介して、音声データと、ユーザ運転操作データと、画像データと、車両状態データとをサーバ装置２００に送信する。

第２実施形態に係るサーバ装置２００の特徴量抽出部２３８は、サーバ側通信部２０２によって画像データが受信されると、その画像データから、目や口、鼻といった顔の部位の特徴点を乗員の顔の特徴量として抽出する。

第２実施形態に係るサーバ装置２００の第１推定部２４０は、下記の（Ｉ）から（ＩＩＩ）をアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果を、感情識別モデルＭＤＬに入力することで、暫定的に乗員の感情を推定する。

（Ｉ）：特徴量抽出部２３８によって抽出された音声特徴量Ｆ。
（ＩＩ）：音声認識部２３６によって導出されたセンチメント分析指数ＩＮ_Ｓ。
（ＩＩＩ）：ユーザ運転操作データが示す運転操作子に対する操作量、画像データから抽出された乗員の顔の特徴量、および車両状態データが示す車両Ｍの状態量のうち一部または全部。

図１５は、第２実施形態に係るアーリーフュージョンを説明するための図である。例えば、第１推定部２４０は、アーリーフュージョンとして、ＺＣＲやＲＭＳ、Ｆ０といった音声特徴量Ｆを表す多次元ベクトルに対して、センチメント分析指数ＩＮ_ＳのスコアＳおよびマグニチュードＭ、ステアリングホイールの操作量（例えば操舵トルクや操舵角）、アクセルペダルやブレーキペダルの操作量（例えば踏み込み量）、乗員の顔の特徴量、車両Ｍの速度、加速度、角速度などの状態量を新たな要素として追加する。

そして、第１推定部２４０は、次元数を拡張した多次元ベクトルを、ロジスティック回帰やＤＮＮなどによって実現される感情識別モデルＭＤＬに入力する。これによって、現在の乗員の感情により近い一次感情識別値Ｅを導出することができる。

第２実施形態に係る学習部２４６は、学習用の音声データから抽出された音声特徴量Ｆと、同じ学習用の音声データから生成されたテキストデータのセンチメント分析指数ＩＮ_Ｓと、運転操作子の操作量と、乗員の顔の特徴量と、車両Ｍの状態量との組み合わせに対して、正解となる一次感情識別値Ｅが教師ラベルとして対応付けられた教師データを用いて、感情識別モデルＭＤＬを学習する。

以上説明した第２実施形態によれば、（Ｉ）音声特徴量Ｆと、（ＩＩ）センチメント分析指数ＩＮ_Ｓと、（ＩＩＩ）運転操作子に対する操作量、乗員の顔の特徴量、および車両Ｍの状態量のうち一部または全部と、をアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果に基づいて一次感情識別値Ｅを導出するため、第１実施形態に比して、更に感情の推定誤りを減少せることができる。この結果、より乗員の感情の推定精度を向上させることができる。

＜第３実施形態＞
以下、第３実施形態について説明する。上述した第１実施形態および第２実施形態では、エージェント装置１００が車両Ｍに搭載されるものとして説明した。これに対して、第３実施形態では、エージェント装置１００の機能をスマートフォンや携帯電話などの端末装置が備えている点で上述した第１または第２実施形態と相違する。以下、第１または第２実施形態との相違点を中心に説明し、第１または第２実施形態と共通する点については説明を省略する。なお、第３実施形態の説明において、第１または第２実施形態と同じ部分については同一符号を付して説明する。

図１６は、第３実施形態に係るエージェントシステム１の構成の一例を示す図である。第３実施形態に係るエージェントシステム１は、例えば、複数の端末装置３００と、サーバ装置２００とを備える。

端末装置３００は、ユーザが利用可能な装置であり、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣなどのネットワークカード、無線通信モジュールなどを含む。端末装置３００では、ウェブブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が起動し、ユーザから各種入力操作を受け付ける。

［端末装置の構成］
図１７は、端末装置３００の構成の一例を示す図である。図示のように、端末装置３００は、例えば、端末側通信インターフェース３０２と、端末側スピーカ３０４と、端末側マイクロフォン３０６と、端末側表示部３０８と、端末側入力部３１０と、端末側制御部３２０と、端末側記憶部３３０とを備える。

端末側通信インターフェース３０２は、ネットワークＮＷに接続するためのハードウェアを含む。例えば、端末側通信インターフェース３０２は、アンテナおよび送受信装置、またはＮＩＣ等を含んでよい。例えば、端末側通信インターフェース３０２は、ネットワークＮＷを介してサーバ装置２００と通信し、サーバ装置２００から感情推定データを受信する。

端末側スピーカ３０４は、端末側制御部３２０により出力された情報に基づいて音声を出力する。

端末側マイクロフォン３０６は、周囲の音声を収音する音声入力装置である。端末側マイクロフォン３０６は、収音した音声データを端末側制御部３２０に出力する。

端末側表示部３０８は、例えば、ＬＣＤや有機ＥＬディスプレイなどの表示装置を含む。端末側表示部３０８は、端末側制御部３２０により出力される情報に基づいて画像を表示する。

端末側入力部３１０は、例えば、ボタン、キーボードやマウス等のユーザインターフェースを含む。端末側入力部３１０は、乗員の操作を受け付けて、受け付けた操作に応じた信号を端末側制御部３２０に出力する。端末側入力部３１０は、端末側表示部３０８と一体として構成されるタッチパネルであってもよい。

端末側制御部３２０は、例えば、ＣＰＵなどのプロセッサが端末側記憶部３３０に格納されたプログラムやアプリケーションを実行することにより実現される。また、端末側制御部３２０は、ＬＳＩ、ＡＳＩＣ、またはＦＰＧＡなどのハードウェアにより実現されてもよい。プログラムやアプリケーションは、予め端末側記憶部３３０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭ等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで端末側記憶部３３０にインストールされてもよい。

端末側記憶部３３０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。端末側記憶部３３０には、例えば、端末側制御部３２０を実現するプロセッサが参照するプログラムやアプリケーションが格納される。アプリケーションには、例えば、ユーザが発話した音声を解析または分析し、そのユーザの感情を推定するためのアプリケーション（以下、音声認識アプリケーション３３２と称する）が含まれる。

以下、端末側制御部３２０を実現するプロセッサが音声認識アプリケーション３３２を実行したときの端末側制御部３２０の機能について説明する。図１８は、端末側制御部３２０の機能構成の一例を示す図である。例えば、端末側制御部３２０は、第１取得部３２２と、音声合成部３２４と、出力制御部３２６と、通信制御部３２８とを備える。

第１取得部３２２は、端末側マイクロフォン３０６から音声データを取得する。

音声合成部３２４は、端末側通信インターフェース３０２がサーバ装置２００から受信した感情推定データに基づいて、エージェント音声を生成する。例えば、音声合成部３２４は、感情推定データに含まれるユーザの感情の推定結果とテキストデータとに基づいて、エージェント音声を生成する。

出力制御部３２６は、音声合成部３２４によってエージェント音声が生成されると、そのエージェント音声を端末側スピーカ３０４に出力させる。この際、出力制御部３２６は、感情推定結果に応じた画像を端末側表示部３０８に表示させてよい。

通信制御部３２８は、端末側通信インターフェース３０２を介して、第１取得部３２２によって取得された音声データをサーバ装置２００に送信する。これによって、サーバ装置２００では、端末装置３００から受信した音声データに基づいて、その端末装置３００を利用するユーザの感情推定が行われる。

以上説明した第３実施形態によれば、スマートフォンなどの端末装置３００が、エージェント装置１００の機能を備えているため、移動体に搭乗した乗員のみならず、端末装置３００を利用するユーザの感情の推定精度を向上させることができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、１００…エージェント装置、１０２…エージェント側通信部、１０４…マイクロフォン、１０６…スピーカ、１０８…表示部、１１０…入力部、１１２…運転操作検出部、１１４…ドライバーモニタカメラ、１１６…車両センサ、１２０…エージェント側記憶部、１３０…エージェント側制御部、１３２…第１取得部、１３４…音声合成部、１３６…出力制御部、１３８…通信制御部、２００…サーバ装置、２０２…サーバ側通信部、２１０…サーバ側記憶部、２３０…サーバ側制御部、２３２…第１取得部、２３４…発話期間抽出部、２３６…音声認識部、２３８…特徴量抽出部、２４０…第１推定部、２４２…第２推定部、２４４…通信制御部、２４６…学習部、３００…端末装置、３０２…端末側通信インターフェース、３０４…端末側スピーカ、３０６…端末側マイクロフォン、３０８…端末側表示部、３１０…端末側入力部、３２０…端末側制御部、３３０…端末側記憶部

Claims

ユーザが発話した音声データを取得する第１取得部と、
前記第１取得部により取得された音声データをテキスト化したテキストデータを取得する第２取得部と、
前記第１取得部により取得された音声データに基づく指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第１推定部と、
前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第２推定部と、
を備える感情推定装置。
情報を出力する出力部と、
前記第２推定部によって推定された前記ユーザの感情に基づく情報を、前記出力部に出力させる出力制御部と、を更に備える、
請求項１に記載の感情推定装置。
前記第２推定部は、前記第２フュージョンの結果に基づいて、前記ユーザの感情が、ポジティブな第１感情であるのか、ネガティブな第２感情であるのか、または前記第１感情および前記第２感情のいずれでもないニュートラルな第３感情であるのかを推定する、
請求項１または２に記載の感情推定装置。
前記第２推定部は、
前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、第１閾値以上である場合、前記ユーザの感情が前記第１感情であると推定し、
前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、前記第１閾値よりも小さい第２閾値以下である場合、前記ユーザの感情が前記第２感情であると推定し、
前記第１推定部の推定結果を示す指標値と、前記第２取得部により取得されたテキストデータに基づく指標値との和が、前記第１閾値未満であり、且つ前記第２閾値を超える場合、前記ユーザの感情が前記第３感情であると推定する、
請求項３に記載の感情推定装置。
前記第１取得部により取得された音声データから一以上の特徴量を抽出する抽出部を更に備え、
前記第２取得部は、前記テキストデータが示すテキストの全体的な感情を数値化した第１指標値と、前記テキストに含まれる感情的なコンテンツの量を示す第２指標値とを導出し、
前記第１推定部は、前記第２取得部により導出された前記第１指標値および前記第２指標値と、前記抽出部により抽出された一以上の前記特徴量とを、前記第１フュージョンによって統合する、
請求項１から４のうちいずれか一項に記載の感情推定装置。
前記第１推定部は、前記第１フュージョンとして、前記抽出部により抽出された一以上の前記特徴量のそれぞれを要素とする多次元データに、前記第２取得部により導出された前記第１指標値および前記第２指標値を要素として追加する、
請求項５に記載の感情推定装置。
前記第１取得部は、更に、前記ユーザが乗車する車両の運転操作を示す運転操作データと、前記ユーザを撮像した画像データとを取得し、
前記第１推定部は、前記第１取得部により取得された音声データに基づく指標値と、前記第２取得部により取得されたテキストデータに基づく指標値と、前記第１取得部により取得された運転操作データに基づく指標値と、前記第１取得部により取得された画像データに基づく指標値とを、前記第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する、
請求項１から６のうちいずれか一項に記載の感情推定装置。
コンピュータが、
ユーザが発話した音声データを取得し、
前記取得した音声データをテキスト化したテキストデータを取得し、
前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定し、
前記第１フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する、
感情推定方法。
コンピュータに、
ユーザが発話した音声データを取得する処理と、
前記取得した音声データをテキスト化したテキストデータを取得する処理と、
前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第１フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、
前記第１フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第２フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、
を実行させるためのプログラム。