JP6465077B2 - 音声対話装置および音声対話方法 - Google Patents

音声対話装置および音声対話方法 Download PDF

Info

Publication number
JP6465077B2
JP6465077B2 JP2016109314A JP2016109314A JP6465077B2 JP 6465077 B2 JP6465077 B2 JP 6465077B2 JP 2016109314 A JP2016109314 A JP 2016109314A JP 2016109314 A JP2016109314 A JP 2016109314A JP 6465077 B2 JP6465077 B2 JP 6465077B2
Authority
JP
Japan
Prior art keywords
estimation
user
emotion
voice
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016109314A
Other languages
English (en)
Other versions
JP2017215468A (ja
Inventor
池野 篤司
篤司 池野
宗明 島田
宗明 島田
浩太 畠中
浩太 畠中
西島 敏文
敏文 西島
史憲 片岡
史憲 片岡
刀根川 浩巳
浩巳 刀根川
倫秀 梅山
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016109314A priority Critical patent/JP6465077B2/ja
Priority to US15/598,478 priority patent/US10438586B2/en
Publication of JP2017215468A publication Critical patent/JP2017215468A/ja
Application granted granted Critical
Publication of JP6465077B2 publication Critical patent/JP6465077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、音声によってユーザと対話する装置に関する。
近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。
また、音声によって人と対話するシステムにおいて、ユーザの感情を読み取り、当該感情に基づいて応答を生成する技術が公知となっている。例えば、特許文献2には、ユーザが発した語句、ユーザの顔画像、ユーザの生理的情報などを取得し、感情を推定したうえで応答文を生成する対話処理装置が開示されている。
特開2015−013351号公報 特開2001−215993号公報 特開2010−217502号公報
特許文献2に記載の装置のように、複数の要素に基づいて感情の推定を行った場合、それぞれが異なる結果を出力する場合がある。例えば、ユーザの顔画像からは「悲しみ」という感情が推定され、ユーザの発話内容からは「喜び」という感情が推定された場合などである。このような場合、適切な応答をどのように決定すればよいかという課題がある。
本発明は上記の課題を考慮してなされたものであり、複数の要素に基づいてユーザの感情を推定する音声対話装置において、推定精度を向上させることを目的とする。
本発明に係る音声対話装置は、
ユーザが発した音声と、当該音声を認識した結果を取得する音声処理手段と、それぞれ異なる方法によって前記ユーザの感情を推定する複数の推定手段と、前記推定したユーザの感情に基づいて応答文を生成し、前記ユーザに提供する応答手段と、を有し、前記応答手段は、前記複数の推定手段がそれぞれ推定したユーザの感情が一致しない場合に、前記ユーザに対して問い掛けを行い、得られた応答の内容に基づいて、いずれの推定結果を採用するかを決定することを特徴とする。
本発明に係る音声対話装置は、ユーザが発話した音声を認識し、当該ユーザの感情を推定したうえで応答文を生成および提供する装置である。
推定手段は、ユーザの感情を推定する手段である。ユーザの感情は、例えば、表情、声のピッチやトーン、発話内容などに基づいて推定することができるが、これらに限られない。本発明に係る音声対話装置は、それぞれ異なる方法によってユーザの感情を推定する複数の推定手段を有している。
また、応答手段は、複数の推定手段が推定した感情に基づいて応答文を生成する手段である。応答文は、例えば、ユーザが行った発話の内容と、推定したユーザの感情に基づい
て生成することができる。
ここで問題となるのが、複数の推定手段のうち一部が、他と異なる結果を出力した場合の扱いである。例えば、推定手段のうちの一部が「喜び」という感情を推定し、一部が「悲しみ」という感情を推定した場合、どの感情に基づいて応答文を生成すればよいかが問題となる。
これに対し、本発明に係る音声対話装置は、応答手段がユーザに対して問い掛けを行い、得られた応答に基づいて、どの推定結果を採用するかを決定する。問い掛けとは、特定の推定結果が正しいか否かを確認するためのものである。問い掛けは、例えば、推定した感情が正しいか否かを直接確認するものであってもよいし、会話を進めることで、推定した感情が正しいか否かを間接的に確認するものであってもよい。
かかる構成によると、不確かな推定結果に基づいて応答を生成することがなくなるため、ユーザに対してより自然な応答を返すことができる。
また、前記複数の推定手段は、前記ユーザの発話内容に基づいて前記ユーザの感情を推定する第一の推定手段と、前記第一の推定手段と異なる方法によって前記ユーザの感情を推定する第二の推定手段と、を含み、前記応答手段は、前記第一の推定手段が推定したユーザの感情と、前記第二の推定手段が推定したユーザの感情が一致しない場合に、前記ユーザに対する問い掛けを行うことを特徴としてもよい。
このように、ユーザの発話内容に基づいて判定した感情と、それ以外(例えば、ユーザを観察した結果など)に基づいて判定した感情とが矛盾している場合に問い掛けを行ってもよい。かかる構成によると、発話に現れにくい感情を判定することができる。
また、前記問い掛けは、前記第一の推定手段が推定したユーザの感情と、前記第二の推定手段が推定したユーザの感情が異なっていることを示したうえで、実際の感情を確認するものであることを特徴としてもよい。
例えば、発話内容に基づいて推定した感情が、表情に基づいて推定した感情と異なっていた場合、「楽しいって言ってるけど、悲しそうに見えるよ?」といったように、何に基づいて感情を推定したかという情報をユーザに与えるようにしてもよい。かかる構成によると、ユーザからより正確な情報を引き出すことができる。
また、前記第一の推定手段と異なる方法とは、前記ユーザの顔を撮影した画像、あるいは、前記ユーザから取得した音声に基づいて前記ユーザの感情を推定する方法であることを特徴としてもよい。
このように、ユーザの表情や声をセンシングすることで、発話に現れにくい感情を判定することができる。
また、前記複数の推定手段は、前記ユーザの顔を撮影した画像、前記ユーザから取得した音声、前記ユーザの発話内容の少なくともいずれかに基づいて前記ユーザの感情を推定することを特徴としてもよい。
推定手段は、例えば、ユーザの顔を撮影した画像や取得した音声を特徴量に変換し、当該特徴量に基づいて感情の推定を行ってもよい。また、ユーザの発話を認識し、内容を解析することで感情の推定を行ってもよい。もちろん、他の方法を用いてもよい。これらの異なる手法を併用することで、感情の推定精度を向上させることができる。
また、前記問い掛けは、感情の推定方法についての情報を含むことを特徴としてもよい
かかる構成によると、装置がどのような判断を行ったかという情報をユーザに与えることができ、ユーザからより正確な情報を引き出すことができる。
また、本発明の第二の形態に係る音声対話装置は、
ユーザが発した音声と、当該音声を認識した結果を取得する音声処理手段と、それぞれ異なる方法によって前記ユーザの感情を推定する複数の推定手段と、前記推定したユーザの感情に基づいて応答文を生成し、前記ユーザに提供する応答手段と、を有し、前記応答手段は、前記複数の推定手段がそれぞれ出力した感情推定結果に不一致が発生した場合に、過去に感情の推定を行った結果である推定履歴を取得し、前記推定履歴に基づいて前記不一致を解消することを特徴とする。
複数の推定手段がそれぞれ出力した感情推定結果間に不一致が発生した場合、過去の推定履歴に基づいて不一致を解消してもよい。例えば、過去の傾向から大きく外れた推定結果を出力した推定手段がある場合、信頼度が低いと判定し、当該推定手段が推定した結果を修正ないし破棄してもよい。また、これ以外の方法によって、特定の推定手段の信頼度が低いことを判定し、当該推定手段が推定した結果を修正ないし破棄してもよい。
また、前記推定履歴は、前記推定手段のそれぞれが過去に感情の推定を行った結果、正しい結果が得られたかに関する情報である正誤情報を含み、前記応答手段は、感情を推定する際に、前記正誤情報に基づいて前記推定手段ごとに重み付けを行うことを特徴としてもよい。
複数の推定手段は、例えば、表情や声、発話内容など、異なる方法によって感情の推定を行うが、感情がどこに表れやすいかは対象者によって異なる場合がある。そこで、過去に感情推定を行った際の正誤に関する情報を推定履歴として残しておき、当該推定履歴に基づいて、推定手段ごとに重み付けを行う。これにより、より正確に感情が推定できる推定手段についてはより大きい重みを与え、正確性が高くない推定手段についてはより小さい重みを与えるといったことが可能になる。すなわち、対象者にあわせて最適な方法で感情の推定が行えるようになる。
なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、複数の要素に基づいてユーザの感情を推定する音声対話装置において、推定精度を向上させることができる。
実施形態に係る音声対話システムのシステム構成図である。 実施形態に係る音声対話システムの処理フロー図である。 実施形態に係る音声対話システムの処理フロー図である。 ユーザの感情を確認するための質問の例である。 実施形態に係る音声対話システムの処理フロー図である。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(第一の実施形態)
<システム構成>
図1は、本実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状であってもよい。
また、制御装置20は、ロボット10に対して制御命令を発行する装置である。本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、その他の処理など、システム全体を制御する処理は制御装置20が行う。
また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を生成する装置である。
まず、ロボット10について説明する。
ロボット10は、画像取得部11、音声入力部12、音声出力部13、近距離通信部14から構成される。
画像取得部11は、不図示のカメラを用いて、ユーザの顔が含まれた画像(以下、顔画像)を取得する手段である。本実施形態では、ロボットの正面に取り付けられたカメラを用いて、ユーザの顔を撮像する。カメラは、RGB画像を取得するカメラであってもよいし、グレースケール画像や、赤外線画像を取得するカメラであってもよい。画像取得部11が取得した顔画像は、後述する近距離通信部14を介して制御装置20に送信される。
音声入力部12は、ユーザが発した音声を取得する手段である。具体的には、不図示のマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、顔画像と同様に近距離通信部14を介して制御装置20へ送信される。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、不図示のスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
近距離通信部14は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部14は、Bluetooth(登録商標)接続を利用した通信を行う。近距離通信部14は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な操作で接続を行うことができる。
次に、制御装置20について説明する。制御装置20は、ロボット10の制御を行う装置であって、典型的にはパーソナルコンピュータ、携帯電話、スマートフォンなどである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、音声認識部22、制御部23、通信部24から構成される。
近距離通信部21が有する機能は、前述した近距離通信部14と同様であるため、詳細な説明は省略する。
音声認識部22は、ロボットが有する音声入力部12が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部22には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、制御部23へ送信される。
制御部23は、音声認識部22が音声認識を行った結果に基づいて、サーバ装置30と通信を行い、応答を取得する手段である。具体的には、音声認識を行った結果得られたテキストを、通信部24を介してサーバ装置30(いずれも後述)に送信し、対応する応答をサーバ装置30から受信する。また、音声合成機能によって、応答を音声データに変換し、音声出力部13を介してユーザに提供する。これにより、ユーザは、自然言語による会話を行うことができる。
また、制御部23は、ロボット10から取得した情報に基づいて、ユーザの感情を推定する機能を有している。推定した感情はサーバ装置30に送信され、応答文生成の用に供される。具体的な処理内容については後述する。
通信部24は、通信回線(例えば携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
サーバ装置30は、ユーザに提供する応答文を生成するサーバ装置であり、通信部31および応答生成部32からなる。
通信部31が有する機能は、前述した通信部24と同様であるため、詳細な説明は省略する。
応答生成部32は、制御装置20から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。また、応答生成部32は、制御装置20から取得したユーザの感情を加味して応答文を生成する。詳細な処理内容については後述する。
応答生成部32が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
質問生成部33は、制御装置20から取得した指示に基づいて、ユーザの感情を特定するための質問を生成する手段である。例えば、制御装置20が、ユーザの感情が一意に特定できないと判断した場合、質問生成部33が、当該ユーザの感情を特定するための質問を生成する。また、これに対するユーザの回答によって、制御装置20がユーザの感情を一意に特定する。詳細な処理内容については後述する。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<処理フローチャート>
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図2を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部12が、マイクを通してユ
ーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置20が有する音声認識部22へ送信される。
次に、ステップS12で、ロボット10が有する画像取得部11が、カメラを通してユーザの顔画像を取得する。取得した顔画像は、通信部を介して制御装置20が有する制御部23へ送信される。
次に、音声認識部22が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS13)。音声認識の結果得られたテキストは、制御部23へ送信される。また、制御部23は、取得したテキストを一時的に記憶するとともに、サーバ装置30が有する応答生成部32および質問生成部33へ送信する。また、応答生成部32および質問生成部33は、取得したテキストを一時的に記憶する。
次に、ステップS14で、制御部23が、取得した顔画像に基づいてユーザの感情を推定する。本ステップでは、顔画像を特徴量に変換し、当該特徴量に基づいて感情の推定を行う。ここで用いる特徴量として、例えば、ガボールフィルタの出力結果などが挙げられるが、これ以外であってもよい。感情の推定は、例えば、学習データに基づいて構築されたモデルと特徴量とを比較することで行ってもよい。なお、本実施形態では、ユーザの感情を、「ポジティブ」および「ネガティブ」の二つの属性(以下、感情極性)に分類するものとする。
次に、ステップS15で、制御部23が、音声に基づく感情推定を実行する。本ステップでは、音声を特徴量に変換し、当該特徴量に基づいて感情の推定を行う。特徴量とは、例えば、音声のスペクトル、強度、ピッチ、抑揚、テンポなどが挙げられるが、これ以外であってもよい。なお、特徴量を取得する際は、個人差を吸収するために正規化を行ってもよい。また、感情の推定においては、例えば、特徴量や、特徴量の変化に基づいて、各感情極性にどの程度適合するかを算出し、決定するようにしてもよい。
次に、ステップS16で、制御部23が、ユーザの発話内容に基づく感情推定を実行する。例えば、ステップS13において取得した発話内容に対して形態素解析を行い、結果に基づいて感情極性を推定する。感情の推定は、例えば、学習データに基づいて構築されたモデルと解析結果とを比較することで行ってもよい。
感情の推定結果は、サーバ装置30が有する応答生成部32および質問生成部33へ送信され、一時的に記憶される。
ここで、ステップS14,S15,S16で行った感情の推定結果が、それぞれ一致しなかった場合を考える。例えば、顔画像に基づく推定結果が「ネガティブ」、音声に基づく推定結果が「ネガティブ」であり、発話内容に基づく推定結果が「ポジティブ」であった場合を考える。このように、異なる複数の基準による推定結果がそれぞれ食い違う場合、ユーザの感情に基づいた応答文が精度よく生成できなくなる。そこで、本実施形態では、三つの推定結果のうちいずれかが他と異なる場合、図3に示した処理によって、どの推定結果を採用するかを決定する。
なお、三つの推定結果がすべて同じであった場合、図3の処理は省略し、図5に示した処理に移行する(後述)。
図3の処理について説明する。
ステップS16の終了後、サーバ装置30に送信された推定結果のうち、他と異なるものがあった場合、応答生成部32は、応答文の生成を一旦停止し、質問生成部33が、ユーザの感情を確定させるための質問を生成する。
ステップS21では、質問生成部33が、直前に取得した三つの感情推定結果と、ユー
ザの発話内容に基づいて、ユーザの感情を確認するための質問文を生成する。
図4は、三つの感情推定結果の組み合わせを示した図である。例示したように、三種類の推定結果のうち、少なくともいずれかが異なるパターンは6通りある。なお、図4に示したPはポジティブを、Nはネガティブを意味する。
質問生成部33は、図4に示した情報を予め有しており、制御装置20から取得した推定結果に基づいて、ユーザに問い掛けるための質問文を生成する。
例えば、顔画像に基づく推定結果が「ネガティブ」であり、音声に基づく推定結果が「ポジティブ」であり、発話内容に基づく推定結果が「ポジティブ」であった場合、「元気がないように見えるけど、本当に(ユーザの発話内容)?」といった質問を生成する。なお、(ユーザの発話内容)は、直前にユーザが発したセリフである。
ステップS21で生成された質問文は、制御装置20へ送信され、制御部23によって音声合成が行われる(ステップS22)。そして、音声データが、ロボット10が有する音声出力部13へ送信され、ユーザに提供される(ステップS23)。
一方、質問を受け取ったユーザが音声による回答を行うと、ステップS24で当該音声が取得され、ステップS25でテキストへの変換が行われる。この動作は、ステップS11およびS13と同様であるため、説明は省略する。ステップS25得られたテキストは、応答生成部32へ送信される。
ステップS26では、ステップS14〜16で推定した感情と、ユーザから取得した回答内容に基づいて、ユーザの感情を一意に確定させる。
例えば、ユーザが「楽しかった!」とロボットに話しかけた場合であって、「顔画像:ネガティブ」「音声:ポジティブ」「発話内容:ポジティブ」という判定を行った場合を考える。システムは、「元気がないように見えるけど、本当に楽しかった?」とユーザに問いかけ、これに対してユーザが、「疲れただけ。とても楽しかったよ」と回答したとする。この場合、ユーザが「ネガティブ」という感情極性を否定する発言をしているため、システムは、ユーザの感情が「ポジティブ」であると確定させる。この結果は、制御部23から応答生成部32へ送信される。
次に、図5を参照して説明する。図5は、ユーザの感情が一意に確定したあとのフロー図である。応答生成部32は、確定したユーザの感情と、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS31)。なお、ユーザから得られた発話とは、ステップS13で取得した内容であってもよいし、図3の処理を行っている場合、ステップS25で取得した内容であってもよい。
なお、図2の処理が終わった時点で、ユーザの感情が一意に確定している場合、図3の処理はスキップし、図5の処理が開始される。
前述したように、応答文は、自装置が有する対話辞書(対話シナリオ)を用いて生成してもよいし、外部にある情報ソース(データベースサーバやウェブサーバ)を用いて生成してもよい。また、当該対話辞書(対話シナリオ)は、予め感情別に分類されたものであってもよい。
生成された応答文は、制御装置20へ送信され、音声データに変換(ステップS32)されたのち、ロボット10を介してユーザに提供される(ステップS33)。この処理は、ステップS22およびS23と同様であるため、説明は省略する。
例えば、前述した例のように、ユーザが「疲れただけ。とても楽しかったよ」と回答した場合、「それは良かったね!」といったようなポジティブな回答がロボットから発せられる。
一方で、ユーザが「そう見える?本当は疲れてるんだよね」とネガティブな回答をした
場合、システムは、ユーザの感情が「ネガティブ」であると判断する。この結果、例えば、「そうなんだ。今日はお疲れさま」といったように、ネガティブないしはユーザを労う回答がロボットから発せられる。
以上説明したように、本実施形態に係る音声対話システムは、複数の異なる方法によってユーザの感情を推定し、不一致が発生した場合に、ユーザに問い合わせることで当該不一致を解消する。このようにして取得したユーザの感情に基づいて応答文を生成することで、感情を誤って認識したまま応答を生成することがなくなり、対話の精度を向上させることができる。
(第二の実施形態)
第二の実施形態は、ステップS13〜S16の処理にて、過去に行った感情推定の結果を加味して感情を推定する実施形態である。
第二の実施形態では、ステップS13〜S16の処理において、推定した感情を時系列データとして記録する。また、複数の方法によって推定した感情に不一致が発生した場合に、当該時系列データ(すなわち過去の感情推定結果)に基づいて、推定した感情に対する信頼度を算出する。
信頼度の算出は、例えば、感情の変化量に基づいて行ってもよい。例えば、急激な感情の変化が発生したと判定した場合、信頼度を低くしてもよい。
そして、当該信頼度に基づいて推定結果を確定させる。例えば、信頼度が所定の値以下である場合、推定結果を破棄し、直前における推定結果を採用するようにしてもよい。
このような処理は、感情推定方法ごとに実行される。例えば、「顔画像:ネガティブ」「音声:ポジティブ」「発話内容:ポジティブ」という推定結果が得られたとする。ここで、顔画像についての過去の推定結果を参照した結果、低い信頼度が算出された場合、顔画像についての推定結果を破棄し、音声と発話内容のみに基づいて感情の推定を行ってもよい。
以上説明したように、第二の実施形態によると、異なる方法によって感情の推定を行った結果の間で不一致が発生した場合に、過去の感情推定結果に基づいて、推定結果を修正ないし破棄することで、当該不一致を解消する。これにより、対話の途中で一時的に推定精度の低下が発生した場合であっても、これに対応することができる。
なお、第二の実施形態では、図3に示した処理は必須ではない。例えば、ユーザへの問い掛けを行わず、前述した処理を行うことでユーザの感情を確定させてもよい。
(第三の実施形態)
第一の実施形態では、推定した感情に不一致が発生した場合、ユーザに問い掛けることで当該不一致を解消した。第三の実施形態は、これらの処理結果に基づいて、感情推定方法ごとの重みを算出し、当該重みを用いて感情の推定を行う実施形態である。
第三の実施形態では、ステップS26でユーザの感情を確定する際に、「どの推定方法による感情推定が正しかったか」を判定する。例えば、「顔画像:ネガティブ」「音声:ポジティブ」「発話内容:ポジティブ」という結果が得られ、問い掛けを行った結果、「顔画像:ネガティブ」という推定が誤っていたことがわかったとする。この場合、顔画像に基づく推定が結果的に誤りであり、音声と発話内容に基づく推定が結果的に正しかったことがわかる。よって、制御部23は、「顔画像」に対する重み係数を小さくする。または、「音声」と「発話内容」に対する重み係数を大きくする。推定方法ごとの重み係数は蓄積され、以降の感情推定において利用される。
なお、重み係数は、ユーザと関連付けて記憶されることが好ましい。例えば、取得した
顔画像や音声に基づいてユーザを識別し、関連付けを行ってもよい。
第三の実施形態によると、例えば、感情が表情に出にくいユーザについては、顔画像に基づく推定結果に対して小さい重みを与え、感情が声に表れやすいユーザについては、音声に基づく推定結果に対して大きい重みを与えるといったことが可能になる。すなわち、ユーザの傾向に合った感情の推定を行うことができるようになり、感情の推定精度が向上する。
なお、第三の実施形態では、ユーザに問い掛けた結果に基づいて、「どの推定方法による感情推定が正しかったか」という情報を生成および蓄積したが、当該情報は、ユーザへの問い掛け以外によって生成してもよい。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、音声認識部22が音声認識を行ったが、音声認識をサーバ装置30で行うようにしてもよい。この場合、制御装置20が、音声データをサーバ装置に転送するようにしてもよい。
また、実施形態の説明では、三種類の感情推定方法を用いたが、二種類、あるいは四種類以上の感情推定方法を併用してもよい。
また、実施形態の説明では、ユーザの感情を「ポジティブ」と「ネガティブ」の二種類であるものとしたが、感情の種別は三種類以上であってもよい。この場合、異なる方法によって感情の推定を行うと、三種類以上の推定結果が同時に得られる場合がある。この場合、任意の方法によって絞り込みを行うようにしてもよい。また、一回の質問で絞り込むことができない場合、複数回の質問を行うことで、ユーザの感情を一意に確定させてもよい。また、ユーザの感情が一意に確定できない場合であっても、ユーザがある感情を持っている確率が高い場合、当該感情を持っているものとして処理を進めてもよい。
また、実施形態の説明では、「本当に楽しい?」など、ユーザに対して感情を直接確認するための質問を提示したが、ユーザの感情は間接的に確認してもよい。例えば、さらなる対話を行い、追加で得られた情報に基づいて、正解である感情を推定してもよい。
10・・・ロボット
11・・・画像取得部
12・・・音声入力部
13・・・音声出力部
14,21・・・近距離通信部
20・・・制御装置
22・・・音声認識部
23・・・制御部
24,31・・・通信部
30・・・サーバ装置
32・・・応答生成部
33・・・質問生成部

Claims (5)

  1. ユーザが発した音声と、当該音声を認識した結果を取得する音声処理手段と、
    それぞれ異なる方法によって前記ユーザの感情を推定する複数の推定手段と、
    前記推定したユーザの感情に基づいて応答文を生成し、前記ユーザに提供する応答手段と、を有し、
    前記応答手段は、前記複数の推定手段がそれぞれ出力した感情推定結果に不一致が発生した場合に、過去に感情の推定を行った結果である推定履歴を取得し、前記推定履歴に基づいて前記不一致を解消する、
    音声対話装置。
  2. 前記推定履歴は、前記推定手段のそれぞれが過去に感情の推定を行った結果、正しい結果が得られたかに関する情報である正誤情報を含み、
    前記応答手段は、前記正誤情報に基づいて前記推定手段ごとに重み付けを行う、
    請求項1に記載の音声対話装置。
  3. 音声対話装置が、
    ユーザが発した音声と、当該音声を認識した結果を取得する音声処理ステップと、
    それぞれ異なる方法によって前記ユーザの感情を推定する複数の推定ステップと、
    前記推定したユーザの感情に基づいて応答文を生成し、前記ユーザに提供する応答ステップと、を実行し、
    前記応答ステップでは、前記複数の推定ステップでそれぞれ推定した感情推定結果に不一致が発生した場合に、過去に感情の推定を行った結果である推定履歴を取得し、前記推定履歴に基づいて前記不一致を解消する、
    音声対話方法。
  4. 前記推定履歴は、前記推定ステップのそれぞれにおいて過去に感情の推定を行った結果、正しい結果が得られたかに関する情報である正誤情報を含み、
    前記応答ステップでは、前記正誤情報に基づいて、複数の前記推定ステップにおいて推定した結果に重み付けを行う、
    請求項3に記載の音声対話方法。
  5. 請求項3または4に記載の音声対話方法をコンピュータに実行させるためのプログラム。
JP2016109314A 2016-05-31 2016-05-31 音声対話装置および音声対話方法 Active JP6465077B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016109314A JP6465077B2 (ja) 2016-05-31 2016-05-31 音声対話装置および音声対話方法
US15/598,478 US10438586B2 (en) 2016-05-31 2017-05-18 Voice dialog device and voice dialog method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016109314A JP6465077B2 (ja) 2016-05-31 2016-05-31 音声対話装置および音声対話方法

Publications (2)

Publication Number Publication Date
JP2017215468A JP2017215468A (ja) 2017-12-07
JP6465077B2 true JP6465077B2 (ja) 2019-02-06

Family

ID=60418945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016109314A Active JP6465077B2 (ja) 2016-05-31 2016-05-31 音声対話装置および音声対話方法

Country Status (2)

Country Link
US (1) US10438586B2 (ja)
JP (1) JP6465077B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107464B2 (en) * 2018-12-03 2021-08-31 Honda Motor Co., Ltd. Feeling estimation device, feeling estimation method, and storage medium

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6465077B2 (ja) * 2016-05-31 2019-02-06 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP7077603B2 (ja) * 2017-12-19 2022-05-31 富士通株式会社 判定プログラム、判定方法及び画像生成装置
KR102051384B1 (ko) * 2017-12-27 2019-12-03 한국항공대학교산학협력단 대화형 인공지능을 위한 다중 에이전트 시스템
CN111655149A (zh) 2018-03-15 2020-09-11 松下知识产权经营株式会社 用于推断用户的心理状态的系统、记录介质以及方法
KR20190142219A (ko) * 2018-06-15 2019-12-26 삼성전자주식회사 사용자의 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
US11257500B2 (en) * 2018-09-04 2022-02-22 Newton Howard Emotion-based voice controlled device
KR102252195B1 (ko) * 2018-09-14 2021-05-13 엘지전자 주식회사 감성 인식기 및 이를 포함하는 로봇, 서버
CN109542216B (zh) * 2018-10-11 2022-11-22 平安科技(深圳)有限公司 人机交互方法、系统、计算机设备及存储介质
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
KR20200113105A (ko) 2019-03-22 2020-10-06 삼성전자주식회사 응답을 제공하는 전자 장치와 이의 동작 방법
JP7279494B2 (ja) * 2019-04-23 2023-05-23 コニカミノルタ株式会社 会議支援装置、および会議支援システム
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
CN110459210A (zh) * 2019-07-30 2019-11-15 平安科技(深圳)有限公司 基于语音分析的问答方法、装置、设备及存储介质
US11250853B2 (en) 2020-04-30 2022-02-15 Robert Bosch Gmbh Sarcasm-sensitive spoken dialog system
WO2021230100A1 (ja) * 2020-05-13 2021-11-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
JP7423490B2 (ja) * 2020-09-25 2024-01-29 Kddi株式会社 ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法
JPWO2022145038A1 (ja) * 2020-12-31 2022-07-07
WO2022145042A1 (ja) * 2020-12-31 2022-07-07 株式会社I’mbesideyou ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
JPWO2022168183A1 (ja) * 2021-02-02 2022-08-11
JPWO2022168181A1 (ja) * 2021-02-02 2022-08-11
WO2022168177A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
CN112579745B (zh) * 2021-02-22 2021-06-08 中国科学院自动化研究所 基于图神经网络的对话情感纠错系统
JP7012295B1 (ja) 2021-05-13 2022-01-28 株式会社ディーエスブランド 情報処理装置、プログラム及び情報処理方法
JP7462995B1 (ja) 2023-10-26 2024-04-08 Starley株式会社 情報処理システム、情報処理方法及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP4590555B2 (ja) * 2004-09-02 2010-12-01 国立大学法人長岡技術科学大学 感性状態判別方法及び装置
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
GB2434628B (en) * 2005-01-14 2010-02-03 Shell Int Research System and method to install subsea pipelines
US7584497B2 (en) * 2005-05-24 2009-09-01 Microsoft Corporation Strategies for scheduling bandwidth-consuming media events
ES2350514T3 (es) * 2008-04-07 2011-01-24 Ntt Docomo, Inc. Sistema de mensajes con reconocimiento de emoción y servidor de almacenamiento de mensajes para el mismo.
US20110093272A1 (en) * 2008-04-08 2011-04-21 Ntt Docomo, Inc Media process server apparatus and media process method therefor
JP5382780B2 (ja) 2009-03-17 2014-01-08 株式会社国際電気通信基礎技術研究所 発話意図情報検出装置及びコンピュータプログラム
WO2013088307A1 (en) * 2011-12-16 2013-06-20 Koninklijke Philips Electronics N.V. History log of user's activities and associated emotional states
JP5975947B2 (ja) 2013-07-08 2016-08-23 ユニロボット株式会社 ロボットを制御するためのプログラム、及びロボットシステム
JP5735592B2 (ja) * 2013-08-28 2015-06-17 ヤフー株式会社 情報処理装置、制御方法および制御プログラム
US10038786B2 (en) * 2014-03-05 2018-07-31 [24]7.ai, Inc. Method and apparatus for improving goal-directed textual conversations between agents and customers
KR102155521B1 (ko) * 2014-05-23 2020-09-14 삼성전자 주식회사 카메라를 구비하는 전자 장치의 부가 정보 획득 방법 및 장치
US9336268B1 (en) * 2015-04-08 2016-05-10 Pearson Education, Inc. Relativistic sentiment analyzer
US10092232B2 (en) * 2015-06-14 2018-10-09 Facense Ltd. User state selection based on the shape of the exhale stream
US10130261B2 (en) * 2015-06-14 2018-11-20 Facense Ltd. Detecting physiological responses while taking into account consumption of confounding substances
US20170046496A1 (en) * 2015-08-10 2017-02-16 Social Health Innovations, Inc. Methods for tracking and responding to mental health changes in a user
US20170143246A1 (en) * 2015-11-20 2017-05-25 Gregory C Flickinger Systems and methods for estimating and predicting emotional states and affects and providing real time feedback
JP6465077B2 (ja) * 2016-05-31 2019-02-06 トヨタ自動車株式会社 音声対話装置および音声対話方法
US11314792B2 (en) * 2016-12-06 2022-04-26 Sap Se Digital assistant query intent recommendation generation
US10311454B2 (en) * 2017-06-22 2019-06-04 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11107464B2 (en) * 2018-12-03 2021-08-31 Honda Motor Co., Ltd. Feeling estimation device, feeling estimation method, and storage medium

Also Published As

Publication number Publication date
JP2017215468A (ja) 2017-12-07
US20170345424A1 (en) 2017-11-30
US10438586B2 (en) 2019-10-08

Similar Documents

Publication Publication Date Title
JP6465077B2 (ja) 音声対話装置および音声対話方法
JP6654611B2 (ja) 成長型対話装置
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
JP3945356B2 (ja) 音声対話装置及びプログラム
US20020111794A1 (en) Method for processing information
WO2017112813A1 (en) Multi-lingual virtual personal assistant
CN110570853A (zh) 基于语音数据的意图识别方法和装置
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
KR20180121831A (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
JP2019020684A (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
US10269349B2 (en) Voice interactive device and voice interaction method
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
US11615787B2 (en) Dialogue system and method of controlling the same
JP2004021121A (ja) 音声対話制御装置
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP2020024293A (ja) 音声対話システム
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
KR20190140803A (ko) 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법
JP2016143050A (ja) 音声認識装置および音声認識方法
JP2018132623A (ja) 音声対話装置
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
KR20200111595A (ko) 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법
JP2019211689A (ja) 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181224

R151 Written notification of patent or utility model registration

Ref document number: 6465077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151