JP2020091302A - 感情推定装置、感情推定方法、およびプログラム - Google Patents

感情推定装置、感情推定方法、およびプログラム Download PDF

Info

Publication number
JP2020091302A
JP2020091302A JP2018226236A JP2018226236A JP2020091302A JP 2020091302 A JP2020091302 A JP 2020091302A JP 2018226236 A JP2018226236 A JP 2018226236A JP 2018226236 A JP2018226236 A JP 2018226236A JP 2020091302 A JP2020091302 A JP 2020091302A
Authority
JP
Japan
Prior art keywords
emotion
index value
unit
estimation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018226236A
Other languages
English (en)
Inventor
遠超 李
Yuanchao Li
遠超 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018226236A priority Critical patent/JP2020091302A/ja
Priority to CN201911156270.0A priority patent/CN111341349B/zh
Priority to US16/693,447 priority patent/US11107464B2/en
Publication of JP2020091302A publication Critical patent/JP2020091302A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/089Driver voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】ユーザの感情の推定精度を向上させること。【解決手段】感情推定装置は、ユーザが発話した音声データを取得する第1取得部と、前記第1取得部により取得された音声データをテキスト化したテキストデータを取得する第2取得部と、前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第1推定部と、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第2推定部と、を備える。【選択図】図9

Description

本発明は、感情推定装置、感情推定方法、およびプログラムに関する。
自動車などの移動体の乗員が発話した音声データや、発話内容を表すテキストデータを用いて、乗員の感情を推定する技術が研究されている。一方で、複数の識別器を用いて、画像から人物の服装を識別したり、人物の輪郭を識別したりする際に、アーリーフュージョンやレイトフュージョンを用いて、各識別器の出力結果を統合する技術が知られている(例えば、特許文献1参照)。
特開2009−140283号公報
しかしながら、従来の技術では、ユーザの周囲の騒音や他のユーザの声によって、音声の認識精度が低下する場合があった。この結果、ユーザの感情の推定精度が低下する場合があった。
本発明の態様は、このような事情を考慮してなされたものであり、ユーザの感情の推定精度を向上させることができる感情推定装置、感情推定方法、およびプログラムを提供することを目的の一つとする。
本発明に係る感情推定装置、感情推定方法、およびプログラムは、以下の構成を採用した。
(1)本発明の一態様は、ユーザが発話した音声データを取得する第1取得部と、前記第1取得部により取得された音声データをテキスト化したテキストデータを取得する第2取得部と、前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第1推定部と、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第2推定部と、を備える感情推定装置である。
(2)の態様は、上記(1)の態様の感情推定装置において、情報を出力する出力部と、前記第2推定部によって推定された前記ユーザの感情に基づく情報を、前記出力部に出力させる出力制御部とを更に備えるものである。
(3)の態様は、上記(1)または(2)の態様の感情推定装置において、前記第2推定部は、前記第2フュージョンの結果に基づいて、前記ユーザの感情が、ポジティブな第1感情であるのか、ネガティブな第2感情であるのか、または前記第1感情および前記第2感情のいずれでもないニュートラルな第3感情であるのかを推定するものである。
(4)の態様は、上記(3)の態様の感情推定装置において、前記第2推定部は、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、第1閾値以上である場合、前記ユーザの感情が前記第1感情であると推定し、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、前記第1閾値よりも小さい第2閾値以下である場合、前記ユーザの感情が前記第2感情であると推定し、前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、前記第1閾値未満であり、且つ前記第2閾値を超える場合、前記ユーザの感情が前記第3感情であると推定するものである。
(5)の態様は、上記(1)から(4)のうちいずれか一つの態様の感情推定装置において、前記第1取得部により取得された音声データから一以上の特徴量を抽出する抽出部を更に備え、前記第2取得部は、前記テキストデータが示すテキストの全体的な感情を数値化した第1指標値と、前記テキストに含まれる感情的なコンテンツの量を示す第2指標値とを導出し、前記第1推定部は、前記第2取得部により導出された前記第1指標値および前記第2指標値と、前記抽出部により抽出された一以上の前記特徴量とを、前記第1フュージョンによって統合するものである。
(6)の態様は、上記(5)の態様の感情推定装置において、前記第1推定部は、前記第1フュージョンとして、前記抽出部により抽出された一以上の前記特徴量のそれぞれを要素とする多次元データに、前記導出部により導出された前記第1指標値および前記第2指標値を要素として追加するものである。
(7)の態様は、上記(1)から(6)のうちいずれか一つの態様の感情推定装置において、前記第1取得部は、更に、前記ユーザが運転する車両の運転操作履歴を示す運転操作履歴データと、前記ユーザを撮像した画像データとを取得し、前記第1推定部は、前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値と、前記第1取得部により取得された運転操作履歴データに基づく指標値と、前記第1取得部により取得された画像データに基づく指標値とを、前記第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定するものである。
(8)本発明の他の態様は、コンピュータが、ユーザが発話した音声データを取得し、前記取得した音声データをテキスト化したテキストデータを取得し、前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定し、前記第1フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する感情推定方法である。
(9)本発明の他の態様は、コンピュータに、ユーザが発話した音声データを取得する処理と、前記取得した音声データをテキスト化したテキストデータを取得する処理と、前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、前記第1フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、を実行させるためのプログラムである。
(1)〜(9)の態様によれば、ユーザの感情の推定精度を向上させることができる。
第1実施形態に係るエージェントシステム1の構成の一例を示す図である。 第1実施形態に係るエージェントシステム1の一連の処理の流れを示すシーケンス図である。 第1実施形態に係るエージェント装置100の構成の一例を示す図である。 運転席から見た車両Mの車室内の一例を示す図である。 上から見た車両Mの車室内の一例を示す図である。 第1実施形態に係るエージェント装置100の一連の処理の流れを示すフローチャートである。 表示部108に表示される画像の一例を示す図である。 表示部108に表示される画像の一例を示す図である。 第1実施形態に係るサーバ装置200の構成の一例を示す図である。 第1実施形態に係るアーリーフュージョンを説明するための図である。 第1実施形態に係るレイトフュージョンを説明するための図である。 第1実施形態に係るサーバ装置200の一連の処理の流れを示すフローチャートである。 第1実施形態に係るエージェント装置100の他の例を示す図である。 第2実施形態に係るエージェント装置100の構成の一例を示す図である。 第2実施形態に係るアーリーフュージョンを説明するための図である。 第3実施形態に係るエージェントシステム1の構成の一例を示す図である。 端末装置300の構成の一例を示す図である。 端末側制御部320の機能構成の一例を示す図である。
以下、図面を参照し、本発明の感情推定装置、感情推定方法、およびプログラムの実施形態について説明する。
<第1実施形態>
[システム構成]
図1は、第1実施形態に係るエージェントシステム1の構成の一例を示す図である。第1実施形態に係るエージェントシステム1は、例えば、複数のエージェント装置100と、サーバ装置200とを備える。図示の例のように、各エージェント装置100は、車両Mに搭載される。車両Mは、例えば、二輪や三輪、四輪等の車両である。これらの車両の駆動源は、ディーゼルエンジンやガソリンエンジン等の内燃機関、電動機、或いはこれらの組み合わせであってよい。電動機は、内燃機関に連結された発電機による発電電力、或いは二次電池や燃料電池の放電電力を使用して動作する。
エージェント装置100とサーバ装置200とは、ネットワークNWを介して通信可能に接続される。ネットワークNWは、LAN(Local Area Network)やWAN(Wide Area Network)などが含まれる。ネットワークNWには、例えば、Wi−FiやBluetooth(登録商標、以下省略)など無線通信を利用したネットワークが含まれてよい。
エージェント装置100は、車両Mの乗員と音声対話を行ったり、乗員同士の対話を支援したりする機能(以下、エージェント機能と称する)を有する装置である。エージェント機能は、ある種の人工知能的機能を持つソフトウェアエージェント(インテリジェントエージェント)によって実現される。
サーバ装置200は、各車両Mに搭載されたエージェント装置100と通信し、エージェント装置100から各種データを収集する。サーバ装置200は、収集したデータを解析することで、各車両Mの乗員の感情を推定し、その推定結果を、エージェント装置100に送信する。サーバ装置200は、「感情推定装置」の一例である。
なお、エージェント装置100が搭載される移動体は、車両Mに限られず、例えば、旅客機や飛行船、ヘリコプターなどの航空機や、旅客船などの船舶といった他の移動体であってもよい。
[エージェントシステムのシーケンス]
図2は、第1実施形態に係るエージェントシステム1の一連の処理の流れを示すシーケンス図である。まず、エージェント装置100は、乗員が発話した音声がマイクロフォン104によって収音された場合、その収音された音声のデータ(以下、音声データ)をマイクロフォン104から取得する(ステップS100)。
次に、エージェント装置100は、取得した音声データをサーバ装置200に送信する(ステップS102)。
サーバ装置200は、エージェント装置100から音声データを受信すると、受信した音声データに基づいて、エージェント装置100が搭載された車両Mの乗員の感情を推定する(ステップS104)。
次に、サーバ装置200は、乗員の感情を推定した推定結果をエージェント装置100に送信する(ステップS106)。
次に、エージェント装置100は、サーバ装置200から推定結果を受信すると、その推定結果に基づいて、対話の支援態様を決定する(ステップS108)。例えば、エージェント装置100は、乗員の感情の推定結果に応じて、対話音声の音圧レベルや抑揚などを変更したり、車室内にかける音楽の選曲を変更したり、車室内に表示する映像や画像を変更したりする。
[エージェント装置の構成]
図3は、第1実施形態に係るエージェント装置100の構成の一例を示す図である。第1実施形態に係るエージェント装置100は、例えば、エージェント側通信部102と、マイクロフォン104と、スピーカ106と、表示部108と、入力部110と、エージェント側記憶部120と、エージェント側制御部130とを備える。
これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続されてよい。なお、図3に示すエージェント装置100の構成はあくまでも一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
エージェント側通信部102は、NIC(Network Interface Card)などの通信インターフェースを含む。エージェント側通信部102は、ネットワークNWを介してサーバ装置200などと通信する。
マイクロフォン104は、車室内の音声を収音する音声入力装置である。マイクロフォン104は、収音した音声データをエージェント側制御部130に出力する。例えば、マイクロフォン104は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイクロフォン104は、マットランプ、ステアリングホイール、インストルメントパネル、またはシートの付近に設置されてよい。また、マイクロフォン104は、車室内に複数設置されてよい。
スピーカ106は、例えば、車室内のシート付近または表示部108付近に設置される。スピーカ106は、エージェント側制御部130により出力される情報に基づいて音声を出力する。
表示部108は、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどの表示装置を含む。表示部108は、エージェント側制御部130により出力される情報に基づいて画像を表示する。
入力部110は、例えば、ボタン、キーボードやマウス等のユーザインターフェースである。入力部110は、乗員の操作を受け付けて、受け付けた操作に応じた信号をエージェント側制御部130に出力する。入力部110は、表示部108と一体として構成されるタッチパネルであってもよい。
図4は、運転席から見た車両Mの車室内の一例を示す図である。または、図5は、上から見た車両Mの車室内の一例を示す図である。図示の例の車室内には、マイクロフォン104と、スピーカ106と、表示部108A〜110Cとが設置されている。マイクロフォン104は、例えば、ステアリングホイールに設けられ、主に運転者が発話した音声を収音する。スピーカ106は、例えば、表示部108Cの付近、つまり、インストルメントパネルIPの中央付近に設置される。
表示部108Aは、例えば運転者が車外を視認する際の視線の先に虚像を表示させるHUD(Head-Up Display)装置である。HUD装置は、例えば、車両Mのフロントウインドシールド、或いはコンバイナーと呼ばれる光の透過性を有する透明な部材に光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。
表示部108Bは、運転席(ステアリングホイールに最も近い座席)の正面付近のインストルメントパネルIPに設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部108Bは、例えば、LCDや有機EL表示装置等である。表示部108Bには、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。
表示部108Cは、インストルメントパネルIPの中央付近に設置される。表示部108Cは、例えば、表示部108Bと同様に、LCDや有機EL表示装置等である。表示部108Cは、テレビ番組や映画等のコンテンツを表示する。
図3の説明に戻り、エージェント側記憶部120は、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。エージェント側記憶部120には、例えば、プロセッサによって参照されるプログラムなどが格納される。
エージェント側制御部130は、例えば、第1取得部132と、音声合成部134と、出力制御部136と、通信制御部138とを備える。
これらの構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めエージェント側記憶部120に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでエージェント側記憶部120にインストールされてもよい。
第1取得部132は、マイクロフォン104から音声データを取得する。
音声合成部134は、エージェント側通信部102がサーバ装置200から受信したデータに基づいて、人工的な合成音声(以下、エージェント音声と称する)を生成する。
出力制御部136は、音声合成部134によってエージェント音声が生成されるか、当該エージェント音声が外部装置から取得されると、そのエージェント音声をスピーカ106に出力させる。また、出力制御部136は、エージェント音声の元となったフレーズ(テキストデータ)を画像として表示部108に表示させてもよい。
通信制御部138は、エージェント側通信部102を介して、第1取得部132によって取得された音声データをサーバ装置200に送信する。
[エージェント装置の処理フロー]
以下、第1実施形態に係るエージェント装置100の一連の処理の流れについてフローチャートを用いて説明する。図6は、第1実施形態に係るエージェント装置100の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
まず、第1取得部132は、エージェント側通信部102によって、乗員の感情の推定結果と、この感情推定に利用された乗員の音声の発話内容を示すテキストデータとを含む感情推定データが受信されたか否かを判定し(ステップS200)、エージェント側通信部102によって感情推定データが受信されたと判定した場合、エージェント側通信部102から感情推定データを取得する。
音声合成部134は、第1取得部132によって感情推定データが取得されると、その感情推定データに含まれるテキストデータと感情推定結果とに基づいて、エージェント音声を生成する(ステップS202)。
例えば、音声合成部134は、波形接続型音声合成(Concatenative synthesis)と、フォルマント合成(Formant synthesis)とを行って、テキストデータに含まれる発音記号を読み上げるエージェント音声を生成する。また、音声合成部134は、テキストデータに発音記号が含まれず、フレーズを表す文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げるエージェント音声を生成してよい。エージェント音声を生成する際、音声合成部134は、感情推定結果に応じて、エージェント音声の音程や抑揚、音圧レベル、読み上げ速度などを変更する。例えば、乗員の感情が「怒り」などのネガティブな感情であると推定された場合、音声合成部134は、乗員の気分を落ち着かせるために、エージェント音声の音圧レベルを小さくしたり、読み上げ速度を遅くしたりしてよい。
次に、出力制御部136は、音声合成部134によって生成されたエージェント音声をスピーカ106に出力させる(ステップS204)。この際、出力制御部136は、感情推定結果に応じた画像や映像を表示部108に表示させてもよいし、車室内にかける音楽として、感情推定結果に応じた楽曲を選曲してもよい。
図7および図8は、表示部108に表示される画像の一例を示す図である。例えば、出力制御部136は、乗員の感情の推定結果に応じた背景画像に、乗員が発話した発話内容(図示の例では「目的地まであと何キロメートルなの」という文字列)を重ねて表示させてよい。乗員の感情が「怒り」などのネガティブな感情であると推定された場合、出力制御部136は、図7に例示するように、天候が荒天であることを表す背景画像に、乗員の発話内容を重ねて表示させる。一方で、乗員の感情が「喜び」などのポジティブな感情であると推定された場合、出力制御部136は、図8に例示するように、天候が快晴であることを表す背景画像に、乗員の発話内容を重ねて表示させる。また、出力制御部136は、乗員の感情の推定結果に応じて、乗員の発話内容を示す文字列の色や大きさ、フォントなどを変更してもよい。
一方、第1取得部132は、S200の処理で、エージェント側通信部102によって感情推定データが受信されなかったと判定した場合、マイクロフォン104によって乗員が発話した音声が収音されたか否か、すなわち、乗員が発話したか否かを判定する(ステップS206)。
乗員が発話したと判定された場合、通信制御部138は、エージェント側通信部102を介して、マイクロフォン104によって収音された音声データをサーバ装置200に送信する(ステップS208)。これによって本フローチャートの処理が終了する。
[サーバ装置の構成]
図9は、第1実施形態に係るサーバ装置200の構成の一例を示す図である。第1実施形態に係るサーバ装置200は、例えば、サーバ側通信部202と、サーバ側記憶部210と、サーバ側制御部230とを備える。
サーバ側通信部202は、NICなどの通信インターフェースを含む。サーバ側通信部202は、ネットワークNWを介して各車両Mに搭載されたエージェント装置100などと通信する。サーバ側通信部202は、「出力部」の一例である。
サーバ側記憶部210は、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。サーバ側記憶部210には、例えば、プロセッサによって参照されるプログラムのほかに、感情識別モデル情報212などが格納される。
感情識別モデル情報212は、ユーザの感情を識別するための感情識別モデルMDLを定義した情報(プログラムまたはデータ構造)である。感情識別モデルMDLは、ユーザの声の特徴量を少なくとも含むデータが入力されると、ユーザが発話した時点の感情を識別するように学習されたモデルである。
感情識別モデルMDLは、例えば、DNN(Deep Neural Network(s))を利用して実現されてよい。また、感情識別モデルMDLは、DNNに限られず、ロジスティック回帰やSVM(Support Vector Machine)、k−NN(k-Nearest Neighbor algorithm)、決定木、単純ベイズ分類器、ランダムフォレストといった他のモデルによって実現されてよい。
感情識別モデルMDLがDNNによって実現される場合、感情識別モデル情報212には、例えば、感情識別モデルMDLに含まれる各DNNを構成する入力層、一以上の隠れ層(中間層)、出力層の其々に含まれるニューロン(ユニットあるいはノード)が互いにどのように結合されるのかという結合情報や、結合されたニューロン間で入出力されるデータに付与される結合係数がいくつであるのかという重み情報などが含まれる。結合情報は、例えば、各層に含まれるニューロン数や、各ニューロンの結合先のニューロンの種類を指定する情報、各ニューロンを実現する活性化関数、隠れ層のニューロン間に設けられたゲートなどの情報を含む。ニューロンを実現する活性化関数は、例えば、入力符号に応じて動作を切り替える関数(ReLU(Rectified Linear Unit)関数やELU(Exponential Linear Units)関数など)であってもよいし、シグモイド関数や、ステップ関数、ハイパポリックタンジェント関数であってもよいし、恒等関数であってもよい。ゲートは、例えば、活性化関数によって返される値(例えば1または0)に応じて、ニューロン間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、活性化関数のパラメータであり、例えば、ニューラルネットワークの隠れ層において、ある層のニューロンから、より深い層のニューロンにデータが出力される際に、出力データに対して付与される重みを含む。また、結合係数は、各層の固有のバイアス成分などを含んでもよい。
サーバ側制御部230は、例えば、第1取得部232と、発話期間抽出部234と、音声認識部236と、特徴量抽出部238と、第1推定部240と、第2推定部242と、通信制御部244と、学習部246とを備える。音声認識部236は、「第2取得部」の一例であり、通信制御部244は、「ユーザの感情に基づく情報を出力部に出力させる出力制御部」の一例である。
これらの構成要素は、例えば、CPUやGPU等のプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めサーバ側記憶部210に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置(ディスクドライブ)に装着されることでサーバ側記憶部210にインストールされてもよい。
第1取得部232は、サーバ側通信部202を介して、エージェント装置100から音声データを取得する。
発話期間抽出部234は、第1取得部132によって取得された音声データから、乗員が発話している期間(以下、発話期間と称する)を抽出する。例えば、発話期間抽出部234は、零交差法を利用して、音声データに含まれる音声信号の振幅に基づいて発話期間を抽出してよい。また、発話期間抽出部234は、混合ガウス分布モデル(GMM;Gaussian mixture model)に基づいて、音声データから発話期間を抽出してもよいし、発話期間特有の音声信号をテンプレート化したデータベースとテンプレートマッチング処理を行うことで、音声データから発話期間を抽出してもよい。
音声認識部236は、発話期間抽出部234によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する。
例えば、音声認識部236は、発話期間の音声信号を、BiLSTM(Bi-directional Long short-term memory)やアテンション機構などを含むリカレントニューラルネットワークに入力することで、音声信号が低周波数や高周波数などの複数の周波数帯に分離され、その各周波数帯の音声信号がフーリエ変換されたスペクトログラム(メルスペクトログラム)を得る。リカレントニューラルネットワークは、例えば、学習用の音声から生成されたスペクトログラムに対して、その学習用の音声信号が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。
そして、音声認識部236は、スペクトログラムを、複数の隠れ層を含む畳み込みニューラルネットワークに入力することで、スペクトログラムから文字列を得る。畳み込みニューラルネットワークは、例えば、学習用のスペクトログラムに対して、その学習用のスペクトログラムを生成するのに使われた音声信号に対応する文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。音声認識部236は、畳み込みニューラルネットワークから得た文字列のデータを、テキストデータとして生成する。
音声認識部236は、音声データからテキストデータを生成すると、その生成したテキストデータを、乗員の感情を分析するように予め学習されたDNNに入力することで、乗員の感情が数値化された指数(以下、センチメント分析指数INと称する)を導出する。センチメント分析指数INは、「テキストデータに基づく指標値」の一例である。
センチメント分析指数INには、例えば、分析対象であるテキストの全体的な感情を示すスコアSと、テキストの全体的な感情の深度(大きさまたは振れ幅)を示すマグニチュードMとが含まれる。例えば、スコアSは、テキスト全体が、「楽しい」や「うれしい」のようなポジティブな言動が多いほど、+1.0に近い値を取り、「悲しい」や「苛立たしい」のようなネガティブな言動が多いほど、−1.0に近い値を取り、ニュートラルな言動が多いほど、0.0に近い数値を取る。マグニチュードMは、テキストの中で感情的な意見を述べている文字列(ストリングス)の数量を、−1.0から+1.0までの数値範囲によって表している。スコアSが0.0に近い場合、そのテキストは、ニュートラルな言動であるか、またはポジティブな言動とネガティブな言動とが同程度であり、互いに極性をキャンセルしていることを表している。テキストの中で感情的な意見を述べている文字列は、「コンテンツ」の一例である。
一般的に、真にニュートラルなテキストでは、マグニチュードMが小さく、ポジティブな言動とネガティブな言動とが混在したテキストでは、マグニチュードMが大きいことが知られている。従って、スコアSが0.0に近い値であっても、マグニチュードMの値に応じて、分析対象のテキストが真にニュートラルなテキストであるのか、それともポジティブな言動とネガティブな言動とが混在したテキストであるのかを区別することができる。スコアSは、「第1指標値」の一例であり、マグニチュードMは、「第2指標値」の一例である。
特徴量抽出部238は、発話期間抽出部234によって抽出された各発話期間の音声から、乗員の声の特徴量(以下、音声特徴量Fと称する)を抽出する。音声特徴量Fは、「音声データに基づく指標値」の一例である。
音声特徴量Fは、例えば、ZCR(Zero-Crossing Rate)、RMS(Root Mean Square)、声のピッチの基本周波数F0、HNR(Harmonics-to-Noise Ratio)、メル周波数ケプストラム係数MFCCである。また、音声特徴量Fには、これらの各種指標値の最小値、最大値、標準偏差、平均値、尖度、歪度、相対位置、範囲、線形回帰係数、平均二乗誤差などの統計値が含まれてよい。音声特徴量Fは、これらの特徴量のそれぞれを要素とする多次元ベクトルによって表されてよい。音声特徴量Fを表す多次元ベクトルは、「多次元データ」の一例である。
第1推定部240は、特徴量抽出部238によって抽出された音声特徴量Fと、音声認識部236によって導出されたセンチメント分析指数INとを一つにフュージョンし、そのフュージョン結果を、感情識別モデルMDLに入力することで、暫定的に乗員の感情を推定する。以下、感情識別モデルMDLの入力データとする音声特徴量Fおよびセンチメント分析指数INを一つにフュージョンすることを「アーリーフュージョン」と称して説明する。アーリーフュージョンは、「第1フュージョン」の一例である。
図10は、第1実施形態に係るアーリーフュージョンを説明するための図である。例えば、第1推定部240は、アーリーフュージョンとして、ZCRやRMS、F0といった音声特徴量Fを表す多次元ベクトルに、センチメント分析指数INのスコアSとマグニチュードMとを新たな要素として追加する。これによって、感情識別モデルMDLに入力する入力データの次元数が拡張される。
そして、第1推定部240は、音声特徴量Fに含まれる各特徴量と、スコアSと、マグニチュードMとをそれぞれ要素として含む多次元ベクトル(次元数が増えた多次元ベクトル)を、ロジスティック回帰やDNNなどによって実現される感情識別モデルMDLに入力する。
感情識別モデルMDLは、例えば、ベクトルが入力されると、ユーザの感情が、ポジティブな感情(第1感情の一例)であるのか、ネガティブな感情(第2感情の一例)であるのか、或いはニュートラルな感情(第3感情の一例)であるのかを識別した値(以下、一次感情識別値Eと称する)を出力する。例えば、一次感情識別値Eは、ユーザの感情がポジティブな感情であると、+1.0に近い値となり、ユーザの感情がネガティブな感情であると、−1.0に近い値となり、ユーザの感情がニュートラルな感情であると、0.0に近い値となる。
例えば、第1推定部240は、感情識別モデルMDLによって出力された一次感情識別値Eに対応した感情が、音声特徴量Fの抽出元である音声を発話した乗員の感情であると暫定的に推定する。
第2推定部242は、第1推定部240の推定結果である一次感情識別値Eと、音声認識部236によって導出されたセンチメント分析指数INとを一つにフュージョンし、そのフュージョン結果に基づいて、乗員の感情を推定する。以下、一次感情識別値Eとセンチメント分析指数INとをフュージョンすることを「レイトフュージョン」と称して説明する。レイトフュージョンは、「第2フュージョン」の一例である。
図11は、第1実施形態に係るレイトフュージョンを説明するための図である。例えば、第2推定部242は、一次感情識別値Eとセンチメント分析指数INとの合計値を求め、その合計値に応じて、乗員の感情が、ポジティブな感情であるのか、ネガティブな感情であるのか、或いはニュートラルな感情であるのかを識別した値(以下、二次感情識別値Cと称する)を、乗員の感情の推定結果として導出する。具体的には、第2推定部242は、数式(1)に基づいて、二次感情識別値Cを導出する。
Figure 2020091302
例えば、第2推定部242は、数式(1)に従って、一次感情識別値Eと、センチメント分析指数INに含まれるスコアSとを足し合わせたときに(統合したときに)、その合計値(E+S)が+1.0以上である場合、二次感情識別値Cを、ポジティブな感情であることを示す+1.0とし、合計値(E+S)が−1.0以下である場合、二次感情識別値Cを、ネガティブな感情であることを示す−1.0とし、合計値(E+S)が+1.0未満であり、且つ−1.0を超える場合、二次感情識別値Cを、ニュートラルな感情であることを示す0.0とする。+1.0は、「第1閾値」の一例であり、−1.0は、「第2閾値」の一例である。
通信制御部244は、第2推定部242の推定結果である二次感情識別値Cと、音声認識部236によって生成されたテキストデータとを含む感情推定データを、サーバ側通信部202を介してエージェント装置100に送信する。感情推定データは、「ユーザの感情に基づく情報」の一例である。
学習部246は、予め用意された教師データに基づいて、感情識別モデルMDLを学習する。教師データは、ある学習用の音声データから抽出された音声特徴量Fと、同じ学習用の音声データから生成されたテキストデータから得られるセンチメント分析指数INとに対して、正解となる一次感情識別値Eが教師ラベルとして対応付けられたデータである。例えば、怒っているユーザに発話させたときの音声データの音声特徴量Fおよびセンチメント分析指数INに対しては、−1.0の値の一次感情識別値Eが対応付けられている。
例えば、学習部246は、教師データの音声特徴量Fおよびセンチメント分析指数INをアーリーフュージョンし、そのフュージョン結果を感情識別モデルMDLに入力する。そして、学習部246は、感情識別モデルMDLの出力結果である一次感情識別値Eが、感情識別モデルMDLに入力した音声特徴量Fおよびセンチメント分析指数INに対して教師ラベルとして対応付けられた正解の一次感情識別値Eに近づくように、感情識別モデルMDLを学習する。
例えば、感情識別モデルMDLがニューラルネットワークである場合、学習部246は、感情識別モデルMDLによって出力された一次感情識別値Eと、教師ラベルの一次感情識別値Eとの差分が小さくなるように、感情識別モデルMDLのパラメータを、SGD(Stochastic Gradient Descent)、Momentum SGD、AdaGrad、RMSprop、AdaDelta、Adam(Adaptive moment estimation)などの確率的勾配法を利用して学習する。
[サーバ装置の処理フロー]
以下、第1実施形態に係るサーバ装置200の処理についてフローチャートを用いて説明する。図12は、第1実施形態に係るサーバ装置200の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。
まず、第1取得部232は、サーバ側通信部202を介して、エージェント装置100から音声データを取得する(ステップS300)。
次に、発話期間抽出部234は、第1取得部132によって取得された音声データから、乗員が発話している発話期間を抽出する(ステップS302)。
次に、音声認識部236は、発話期間抽出部234によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成する(ステップS304)。
次に、音声認識部236は、生成したテキストデータを、乗員の感情を分析するように予め学習されたDNNに入力することで、センチメント分析指数INを導出する(ステップS306)。
次に、特徴量抽出部238は、発話期間抽出部234によって抽出された各発話期間の音声から、音声特徴量Fを抽出する(ステップS308)。
次に、第1推定部240は、特徴量抽出部238によって抽出された音声特徴量Fと、音声認識部236によって導出されたセンチメント分析指数INとをアーリーフュージョンによって一つに統合する(ステップS310)。
次に、第1推定部240は、アーリーフュージョンの結果を、感情識別モデルMDLに入力することで、暫定的に乗員の感情を推定する(ステップS312)。
次に、第2推定部242は、第1推定部240の推定結果である一次感情識別値Eと、音声認識部236によって導出されたセンチメント分析指数INとをレイトフュージョンによって一つに統合する(ステップS314)。
次に、第2推定部242は、レイトフュージョンの結果に基づいて二次感情識別値Cを導出し、乗員の感情を推定する(ステップS316)。
次に、通信制御部244は、第2推定部242の推定結果である二次感情識別値Cと、音声認識部236によって生成されたテキストデータとを含む感情推定データを、サーバ側通信部202を介してエージェント装置100に送信する(ステップS318)。この際、テキストデータには、発話内容を表す文字列の各文字の一つ一つに対応した発音記号(音声字母または音標文字とも呼ばれる)が含まれていてよい。これによって、エージェント装置100は、二次感情識別値Cの値が+1.0であるのか、−1.0であるのか、0.0であるのかに応じて、対話の支援態様を変更する。これによって、本フローチャートの処理が終了する。
以上説明した第1実施形態によれば、サーバ装置200が、エージェント装置100が搭載された車両Mの乗員が発話した音声データを取得する第1取得部232と、第1取得部232により取得された音声データをテキスト化したテキストデータを生成する音声認識部236と、音声データに基づく音声特徴量Fと、テキストデータに基づくセンチメント分析指数INとをアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果に基づいて、乗員の感情を推定する第1推定部240と、第1推定部240の推定結果である一次感情識別値Eと、センチメント分析指数INとをレイトフュージョンによって一つに統合し、そのレイトフュージョンの統合結果に基づいて、乗員の感情を推定する第2推定部242とを備えることによって、例えば、音声データに基づく感情推定と、テキストデータに基づく感情推定との結果が、「ポジティブ」と「ポジティブ」、或いは「ネガティブ」と「ネガティブ」のように、互いに同じ推定結果である場合に、それらの推定結果を維持し、「ポジティブ」と「ネガティブ」、或いは「ネガティブ」と「ポジティブ」のように、双方の感情推定の結果が互いに異なる推定結果である場合、推定誤りが生じている蓋然性が高いことから、ニュートラルの推定結果に変更する、といったことを行うことができる。この結果、気分が落ち込んでいる乗員の感情を「ポジティブな感情」であると誤って推定したり、気分が高揚している乗員の感情を「ネガティブな感情」であると誤って推定したりすることを抑制することができ、乗員(ユーザの一例)の感情の推定精度を向上させることができる。
<第1実施形態の変形例>
以下、第1実施形態の変形例について説明する。上述した第1実施形態では、各車両Mに搭載されたエージェント装置100と、サーバ装置200とが互いに異なる装置であるものとして説明したがこれに限られない。例えば、サーバ装置200は、エージェント装置100のエージェント側制御部130によって仮想的に実現される仮想マシンであってもよい。この場合、エージェント装置100は、「感情推定装置」の他の例である。
図13は、第1実施形態に係るエージェント装置100の他の例を示す図である。図13に示すように、エージェント装置100のエージェント側制御部130は、上述した第1取得部132、音声合成部134、出力制御部136、および通信制御部138に加えて、更に、発話期間抽出部234と、音声認識部236と、特徴量抽出部238と、第1推定部240と、第2推定部242と、学習部246とを備えてよい。この場合、エージェント装置100のスピーカ106や表示部108は、「出力部」の他の例であり、エージェント装置100の出力制御部136は、「ユーザの感情に基づく情報を出力部に出力させる出力制御部」の他の例である。
また、エージェント装置100のエージェント側記憶部120には、感情識別モデル情報212が格納されてよい。
このような構成によって、エージェント装置100単体で、乗員が発話した音声から、その乗員の感情を推定することができるため、感情の推定誤りを減少させて、乗員の感情の推定精度を向上させることができる。
また、上述した第1実施形態では、エージェント装置100が、サーバ装置200によって推定された乗員の感情に基づいて、エージェント音声の音圧レベルや抑揚などを変更したり、車室内にかける音楽の選曲を変更したり、車室内に表示する映像や画像を変更したりするものとして説明したがこれに限られない。例えば、エージェント装置100は、乗員の感情の推定結果に基づいて、速度や加速度、旋回角といった車両Mの挙動を変更してもよい。
また、上述した第1実施形態では、サーバ装置200が音声認識部236を備え、その音声認識部236が、発話期間抽出部234によって抽出された発話期間ごとに音声を認識し、認識した音声をテキスト化することで、発話の内容を表すテキストデータを生成するものとして説明したがこれに限られない。例えば、サーバ装置200の通信制御部244は、発話期間抽出部234によって抽出された発話期間の音声データを、サーバ側通信部202を介して、ある特定の外部装置に送信し、その外部装置に、音声データからテキストデータを生成するように依頼してもよい。外部装置は、音声認識部236と同様の構成を有しており、他の装置から音声データを受信すると、その受信した音声データからテキストデータを生成する。そして、外部装置は、依頼元の装置に、生成したテキストデータを送信する。サーバ側通信部202によって外部装置からテキストデータが受信されると、サーバ装置200の音声認識部236は、サーバ側通信部202によって受信されたテキストデータから、センチメント分析指数INを導出する。この場合、サーバ側通信部202または音声認識部236は、「第2取得部」の他の例である。
<第2実施形態>
以下、第2実施形態について説明する。上述した第1実施形態では、アーリーフュージョンとして、ZCRやRMS、F0といった音声特徴量Fを表す多次元ベクトルに、センチメント分析指数INのスコアSとマグニチュードMとを新たな要素として追加するものとして説明した。
これに対して、第2実施形態では、アーリーフュージョンとして、音声特徴量Fを表す多次元ベクトルに対して、センチメント分析指数INのスコアSとマグニチュードMとを新たな要素として追加するとともに、乗員の運転操作の傾向を示す特徴量や、乗員の外見の特徴量、車両Mの状態を示す特徴量などを新たな要素として追加する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
図14は、第2実施形態に係るエージェント装置100の構成の一例を示す図である。第2実施形態に係るエージェント装置100は、上述した構成に加えて、更に、運転操作検出部112と、ドライバーモニタカメラ114と、車両センサ116とを備える。
運転操作検出部112は、ステアリングホイールやアクセルペダル、ブレーキペダルなどの運転操作子が、乗員によってどの程度操作されたのかということを示す操作量を検出したり、運転操作子に対する操作の有無を検出したりする。すなわち、運転操作検出部112は、運転操作子に対する乗員の運転操作を検出する。例えば、運転操作検出部112は、検出した操作量、或いは検出した操作の有無を示す情報(以下、ユーザ運転操作データと称する)を、エージェント側制御部130に出力する。
ドライバーモニタカメラ114は、例えば、エージェント装置100が搭載された車両Mの車室内に設置され、車室内のシートに着座する各乗員の顔などを撮像する。ドライバーモニタカメラ114は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。ドライバーモニタカメラ114は、例えば、所定のタイミングで各乗員を繰り返し撮像する。ドライバーモニタカメラ114は、乗員を撮像した画像のデータ(以下、画像データ)を生成し、生成した画像データをエージェント側制御部130に出力する。
車両センサ116は、車両Mの向きを検出する方位センサや、車両Mの速度を検出する車速センサ、車両Mの加速度を検出する加速度センサ、車両Mの鉛直軸回りの角速度を検出するヨーレートセンサ、操舵トルクを検出するトルクセンサなどを含む。車両センサ116は、検出した方位や速度、加速度などを含むデータ(以下、車両状態データと称する)をエージェント側制御部130に出力する。
第2実施形態における通信制御部138は、エージェント側通信部102を介して、音声データと、ユーザ運転操作データと、画像データと、車両状態データとをサーバ装置200に送信する。
第2実施形態に係るサーバ装置200の特徴量抽出部238は、サーバ側通信部202によって画像データが受信されると、その画像データから、目や口、鼻といった顔の部位の特徴点を乗員の顔の特徴量として抽出する。
第2実施形態に係るサーバ装置200の第1推定部240は、下記の(I)から(III)をアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果を、感情識別モデルMDLに入力することで、暫定的に乗員の感情を推定する。
(I):特徴量抽出部238によって抽出された音声特徴量F。
(II):音声認識部236によって導出されたセンチメント分析指数IN
(III):ユーザ運転操作データが示す運転操作子に対する操作量、画像データから抽出された乗員の顔の特徴量、および車両状態データが示す車両Mの状態量のうち一部または全部。
図15は、第2実施形態に係るアーリーフュージョンを説明するための図である。例えば、第1推定部240は、アーリーフュージョンとして、ZCRやRMS、F0といった音声特徴量Fを表す多次元ベクトルに対して、センチメント分析指数INのスコアSおよびマグニチュードM、ステアリングホイールの操作量(例えば操舵トルクや操舵角)、アクセルペダルやブレーキペダルの操作量(例えば踏み込み量)、乗員の顔の特徴量、車両Mの速度、加速度、角速度などの状態量を新たな要素として追加する。
そして、第1推定部240は、次元数を拡張した多次元ベクトルを、ロジスティック回帰やDNNなどによって実現される感情識別モデルMDLに入力する。これによって、現在の乗員の感情により近い一次感情識別値Eを導出することができる。
第2実施形態に係る学習部246は、学習用の音声データから抽出された音声特徴量Fと、同じ学習用の音声データから生成されたテキストデータのセンチメント分析指数INと、運転操作子の操作量と、乗員の顔の特徴量と、車両Mの状態量との組み合わせに対して、正解となる一次感情識別値Eが教師ラベルとして対応付けられた教師データを用いて、感情識別モデルMDLを学習する。
以上説明した第2実施形態によれば、(I)音声特徴量Fと、(II)センチメント分析指数INと、(III)運転操作子に対する操作量、乗員の顔の特徴量、および車両Mの状態量のうち一部または全部と、をアーリーフュージョンによって一つに統合し、そのアーリーフュージョンの統合結果に基づいて一次感情識別値Eを導出するため、第1実施形態に比して、更に感情の推定誤りを減少せることができる。この結果、より乗員の感情の推定精度を向上させることができる。
<第3実施形態>
以下、第3実施形態について説明する。上述した第1実施形態および第2実施形態では、エージェント装置100が車両Mに搭載されるものとして説明した。これに対して、第3実施形態では、エージェント装置100の機能をスマートフォンや携帯電話などの端末装置が備えている点で上述した第1または第2実施形態と相違する。以下、第1または第2実施形態との相違点を中心に説明し、第1または第2実施形態と共通する点については説明を省略する。なお、第3実施形態の説明において、第1または第2実施形態と同じ部分については同一符号を付して説明する。
図16は、第3実施形態に係るエージェントシステム1の構成の一例を示す図である。第3実施形態に係るエージェントシステム1は、例えば、複数の端末装置300と、サーバ装置200とを備える。
端末装置300は、ユーザが利用可能な装置であり、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、NICなどのネットワークカード、無線通信モジュールなどを含む。端末装置300では、ウェブブラウザやアプリケーションプログラムなどのUA(User Agent)が起動し、ユーザから各種入力操作を受け付ける。
[端末装置の構成]
図17は、端末装置300の構成の一例を示す図である。図示のように、端末装置300は、例えば、端末側通信インターフェース302と、端末側スピーカ304と、端末側マイクロフォン306と、端末側表示部308と、端末側入力部310と、端末側制御部320と、端末側記憶部330とを備える。
端末側通信インターフェース302は、ネットワークNWに接続するためのハードウェアを含む。例えば、端末側通信インターフェース302は、アンテナおよび送受信装置、またはNIC等を含んでよい。例えば、端末側通信インターフェース302は、ネットワークNWを介してサーバ装置200と通信し、サーバ装置200から感情推定データを受信する。
端末側スピーカ304は、端末側制御部320により出力された情報に基づいて音声を出力する。
端末側マイクロフォン306は、周囲の音声を収音する音声入力装置である。端末側マイクロフォン306は、収音した音声データを端末側制御部320に出力する。
端末側表示部308は、例えば、LCDや有機ELディスプレイなどの表示装置を含む。端末側表示部308は、端末側制御部320により出力される情報に基づいて画像を表示する。
端末側入力部310は、例えば、ボタン、キーボードやマウス等のユーザインターフェースを含む。端末側入力部310は、乗員の操作を受け付けて、受け付けた操作に応じた信号を端末側制御部320に出力する。端末側入力部310は、端末側表示部308と一体として構成されるタッチパネルであってもよい。
端末側制御部320は、例えば、CPUなどのプロセッサが端末側記憶部330に格納されたプログラムやアプリケーションを実行することにより実現される。また、端末側制御部320は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよい。プログラムやアプリケーションは、予め端末側記憶部330に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで端末側記憶部330にインストールされてもよい。
端末側記憶部330は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。端末側記憶部330には、例えば、端末側制御部320を実現するプロセッサが参照するプログラムやアプリケーションが格納される。アプリケーションには、例えば、ユーザが発話した音声を解析または分析し、そのユーザの感情を推定するためのアプリケーション(以下、音声認識アプリケーション332と称する)が含まれる。
以下、端末側制御部320を実現するプロセッサが音声認識アプリケーション332を実行したときの端末側制御部320の機能について説明する。図18は、端末側制御部320の機能構成の一例を示す図である。例えば、端末側制御部320は、第1取得部322と、音声合成部324と、出力制御部326と、通信制御部328とを備える。
第1取得部322は、端末側マイクロフォン306から音声データを取得する。
音声合成部324は、端末側通信インターフェース302がサーバ装置200から受信した感情推定データに基づいて、エージェント音声を生成する。例えば、音声合成部324は、感情推定データに含まれるユーザの感情の推定結果とテキストデータとに基づいて、エージェント音声を生成する。
出力制御部326は、音声合成部324によってエージェント音声が生成されると、そのエージェント音声を端末側スピーカ304に出力させる。この際、出力制御部326は、感情推定結果に応じた画像を端末側表示部308に表示させてよい。
通信制御部328は、端末側通信インターフェース302を介して、第1取得部322によって取得された音声データをサーバ装置200に送信する。これによって、サーバ装置200では、端末装置300から受信した音声データに基づいて、その端末装置300を利用するユーザの感情推定が行われる。
以上説明した第3実施形態によれば、スマートフォンなどの端末装置300が、エージェント装置100の機能を備えているため、移動体に搭乗した乗員のみならず、端末装置300を利用するユーザの感情の推定精度を向上させることができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…エージェントシステム、100…エージェント装置、102…エージェント側通信部、104…マイクロフォン、106…スピーカ、108…表示部、110…入力部、112…運転操作検出部、114…ドライバーモニタカメラ、116…車両センサ、120…エージェント側記憶部、130…エージェント側制御部、132…第1取得部、134…音声合成部、136…出力制御部、138…通信制御部、200…サーバ装置、202…サーバ側通信部、210…サーバ側記憶部、230…サーバ側制御部、232…第1取得部、234…発話期間抽出部、236…音声認識部、238…特徴量抽出部、240…第1推定部、242…第2推定部、244…通信制御部、246…学習部、300…端末装置、302…端末側通信インターフェース、304…端末側スピーカ、306…端末側マイクロフォン、308…端末側表示部、310…端末側入力部、320…端末側制御部、330…端末側記憶部

Claims (9)

  1. ユーザが発話した音声データを取得する第1取得部と、
    前記第1取得部により取得された音声データをテキスト化したテキストデータを取得する第2取得部と、
    前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第1推定部と、
    前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する第2推定部と、
    を備える感情推定装置。
  2. 情報を出力する出力部と、
    前記第2推定部によって推定された前記ユーザの感情に基づく情報を、前記出力部に出力させる出力制御部と、を更に備える、
    請求項1に記載の感情推定装置。
  3. 前記第2推定部は、前記第2フュージョンの結果に基づいて、前記ユーザの感情が、ポジティブな第1感情であるのか、ネガティブな第2感情であるのか、または前記第1感情および前記第2感情のいずれでもないニュートラルな第3感情であるのかを推定する、
    請求項1または2に記載の感情推定装置。
  4. 前記第2推定部は、
    前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、第1閾値以上である場合、前記ユーザの感情が前記第1感情であると推定し、
    前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、前記第1閾値よりも小さい第2閾値以下である場合、前記ユーザの感情が前記第2感情であると推定し、
    前記第1推定部の推定結果を示す指標値と、前記第2取得部により取得されたテキストデータに基づく指標値との和が、前記第1閾値未満であり、且つ前記第2閾値を超える場合、前記ユーザの感情が前記第3感情であると推定する、
    請求項3に記載の感情推定装置。
  5. 前記第1取得部により取得された音声データから一以上の特徴量を抽出する抽出部を更に備え、
    前記第2取得部は、前記テキストデータが示すテキストの全体的な感情を数値化した第1指標値と、前記テキストに含まれる感情的なコンテンツの量を示す第2指標値とを導出し、
    前記第1推定部は、前記第2取得部により導出された前記第1指標値および前記第2指標値と、前記抽出部により抽出された一以上の前記特徴量とを、前記第1フュージョンによって統合する、
    請求項1から4のうちいずれか一項に記載の感情推定装置。
  6. 前記第1推定部は、前記第1フュージョンとして、前記抽出部により抽出された一以上の前記特徴量のそれぞれを要素とする多次元データに、前記第2取得部により導出された前記第1指標値および前記第2指標値を要素として追加する、
    請求項5に記載の感情推定装置。
  7. 前記第1取得部は、更に、前記ユーザが乗車する車両の運転操作を示す運転操作データと、前記ユーザを撮像した画像データとを取得し、
    前記第1推定部は、前記第1取得部により取得された音声データに基づく指標値と、前記第2取得部により取得されたテキストデータに基づく指標値と、前記第1取得部により取得された運転操作データに基づく指標値と、前記第1取得部により取得された画像データに基づく指標値とを、前記第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する、
    請求項1から6のうちいずれか一項に記載の感情推定装置。
  8. コンピュータが、
    ユーザが発話した音声データを取得し、
    前記取得した音声データをテキスト化したテキストデータを取得し、
    前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定し、
    前記第1フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する、
    感情推定方法。
  9. コンピュータに、
    ユーザが発話した音声データを取得する処理と、
    前記取得した音声データをテキスト化したテキストデータを取得する処理と、
    前記音声データに基づく指標値と、前記テキストデータに基づく指標値とを第1フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、
    前記第1フュージョンによって統合した指標値に基づく前記ユーザの感情の推定結果を示す指標値と、前記テキストデータに基づく指標値とを第2フュージョンによって統合し、前記統合した指標値に基づいて、前記ユーザの感情を推定する処理と、
    を実行させるためのプログラム。
JP2018226236A 2018-12-03 2018-12-03 感情推定装置、感情推定方法、およびプログラム Pending JP2020091302A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018226236A JP2020091302A (ja) 2018-12-03 2018-12-03 感情推定装置、感情推定方法、およびプログラム
CN201911156270.0A CN111341349B (zh) 2018-12-03 2019-11-22 情绪推断装置、情绪推断方法、及存储介质
US16/693,447 US11107464B2 (en) 2018-12-03 2019-11-25 Feeling estimation device, feeling estimation method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018226236A JP2020091302A (ja) 2018-12-03 2018-12-03 感情推定装置、感情推定方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2020091302A true JP2020091302A (ja) 2020-06-11

Family

ID=70848968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018226236A Pending JP2020091302A (ja) 2018-12-03 2018-12-03 感情推定装置、感情推定方法、およびプログラム

Country Status (3)

Country Link
US (1) US11107464B2 (ja)
JP (1) JP2020091302A (ja)
CN (1) CN111341349B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치
WO2022180861A1 (ja) * 2021-02-26 2022-09-01 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7384558B2 (ja) * 2019-01-31 2023-11-21 株式会社日立システムズ 有害行為検出システムおよび方法
US11072344B2 (en) * 2019-03-18 2021-07-27 The Regents Of The University Of Michigan Exploiting acoustic and lexical properties of phonemes to recognize valence from speech
JP2022095024A (ja) * 2020-12-16 2022-06-28 キヤノン株式会社 学習データ生成装置、学習データ生成方法及びコンピュータプログラム
CN113159201B (zh) * 2021-04-28 2023-04-25 上海德衡数据科技有限公司 基于云边缘计算智能融合信息的方法、装置及云端服务器
CN113317791B (zh) * 2021-05-28 2023-03-14 温州康宁医院股份有限公司 一种基于被测者的音频确定抑郁症严重程度的方法及装置
CN113436649B (zh) * 2021-06-25 2023-03-21 武汉大晟极科技有限公司 一种语音情感标定辅助方法及系统
CN115096325A (zh) * 2022-05-26 2022-09-23 北京百度网讯科技有限公司 路线导航方法、装置、电子设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP5041229B2 (ja) 2007-12-07 2012-10-03 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
JP5326843B2 (ja) * 2009-06-11 2013-10-30 日産自動車株式会社 感情推定装置及び感情推定方法
CN103811009A (zh) * 2014-03-13 2014-05-21 华东理工大学 一种基于语音分析的智能电话客服系统
CN104102627B (zh) * 2014-07-11 2016-10-26 合肥工业大学 一种多模态的非接触情感分析记录系统
JP6477199B2 (ja) * 2015-04-23 2019-03-06 沖電気工業株式会社 振動状態推定装置、振動状態推定方法、およびプログラム
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
CN106683688B (zh) * 2015-11-05 2020-10-13 中国移动通信集团公司 一种情绪检测方法及装置
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
JP6703420B2 (ja) * 2016-03-09 2020-06-03 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
CN105760852B (zh) * 2016-03-14 2019-03-05 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
JP6465077B2 (ja) * 2016-05-31 2019-02-06 トヨタ自動車株式会社 音声対話装置および音声対話方法
CN106782615B (zh) * 2016-12-20 2020-06-12 科大讯飞股份有限公司 语音数据情感检测方法和装置及系统
CN106658129B (zh) * 2016-12-27 2020-09-01 上海智臻智能网络科技股份有限公司 基于情绪的终端控制方法、装置及终端
CN107452385A (zh) * 2017-08-16 2017-12-08 北京世纪好未来教育科技有限公司 一种基于语音的数据评价方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치
WO2022180861A1 (ja) * 2021-02-26 2022-09-01 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Also Published As

Publication number Publication date
CN111341349B (zh) 2023-07-25
US11107464B2 (en) 2021-08-31
CN111341349A (zh) 2020-06-26
US20200175970A1 (en) 2020-06-04

Similar Documents

Publication Publication Date Title
CN111341349B (zh) 情绪推断装置、情绪推断方法、及存储介质
US11282522B2 (en) Artificial intelligence apparatus and method for recognizing speech of user
US11715485B2 (en) Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
CN109941231B (zh) 车载终端设备、车载交互系统和交互方法
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
US20200058290A1 (en) Artificial intelligence apparatus for correcting synthesized speech and method thereof
US11355101B2 (en) Artificial intelligence apparatus for training acoustic model
US11810575B2 (en) Artificial intelligence robot for providing voice recognition function and method of operating the same
US20200051566A1 (en) Artificial intelligence device for providing notification to user using audio data and method for the same
US11508358B2 (en) Artificial intelligence apparatus and method for recognizing speech in consideration of utterance style
US11769508B2 (en) Artificial intelligence apparatus
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
CN115205729A (zh) 基于多模态特征融合的行为识别方法、系统
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
JP2009064186A (ja) 車両用対話システム
CN115227246A (zh) 面向智能驾驶的驾驶人声音情感识别方法
US11348585B2 (en) Artificial intelligence apparatus
CN115113739A (zh) 用于生成表情符号的装置、车辆和用于生成表情符号的方法
US20230290342A1 (en) Dialogue system and control method thereof
CN114927142A (zh) 基于语音和上下文的驾驶员情绪识别方法和系统
JP2020166073A (ja) 音声インタフェイスシステム、制御方法及びプログラム
US20220208213A1 (en) Information processing device, information processing method, and storage medium
US20230178080A1 (en) Artificial intelligence device for recognizing speech and method thereof
Abut et al. Vehicle Systems and Driver Modelling: DSP, human-to-vehicle interfaces, driver behavior, and safety