JP2015148712A - 音声対話装置、音声対話システム及びプログラム - Google Patents

音声対話装置、音声対話システム及びプログラム Download PDF

Info

Publication number
JP2015148712A
JP2015148712A JP2014021348A JP2014021348A JP2015148712A JP 2015148712 A JP2015148712 A JP 2015148712A JP 2014021348 A JP2014021348 A JP 2014021348A JP 2014021348 A JP2014021348 A JP 2014021348A JP 2015148712 A JP2015148712 A JP 2015148712A
Authority
JP
Japan
Prior art keywords
conversation partner
response
topic
unit
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014021348A
Other languages
English (en)
Other versions
JP6176137B2 (ja
Inventor
達朗 堀
Tatsuro Hori
達朗 堀
生聖 渡部
Seisho Watabe
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2014021348A priority Critical patent/JP6176137B2/ja
Publication of JP2015148712A publication Critical patent/JP2015148712A/ja
Application granted granted Critical
Publication of JP6176137B2 publication Critical patent/JP6176137B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供する。
【解決手段】音声対話装置100は、ユーザ、話題及び話題におけるポイントを対応づけて記憶する記憶部160と、対話相手に対応する記憶した話題を選択する選択部170と、選択した話題に対応する記憶したポイントから対話相手の発話についての条件を生成する条件生成部180と、選択した話題に基づいて質問を生成する質問生成部140と、対話相手の発話を解析した結果が条件を満足するか否かを判定する判定部190と、質問を発話した後に判定部が満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部200とを備える。
【選択図】図1

Description

本発明は音声対話装置、音声対話システム及びプログラムに関する。
対話相手の発話に対応する適切な応答を生成して発話し、自然な対話を行う音声対話装置が従来から提案されている。特許文献1には、対話相手の発話を音声認識し、形態素解析し、対話相手の発話に「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語などが含まれている否かを判別し、事態が含まれている場合に、対話相手の感情を推定して適切な応答をする音声対話装置が開示されている。
特開2010−157081号公報
背景技術に係る音声対話装置は、あらかじめ作成した感情推定モデルをもとに対話相手の感情を推定し、推定した感情に応じた応答生成を可能にしている。しかしながら、この音声対話装置は認識する言葉毎または文章毎に感情を推定するものであり、対話を継続していくときに、対話相手のどの発話にポイントがあるのかを理解したり、対話相手がある話題に対してどのような価値観・想いを持っているのかを理解したりして応答を生成することをしておらず、対話の中で対話を盛り上げて促進するような抑揚をつけた応答を行うことができていなかった。
本発明は、このような問題を解決するためになされたものであり、対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供することを目的とする。
本発明に係る音声対話装置は、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、対話相手に対応する前記記憶した話題を選択する選択部と、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、前記選択した話題に基づいて質問を生成する質問生成部と、前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えるものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。
本発明に係る音声対話システムは、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話システムであって、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、対話相手に対応する前記記憶した話題を選択する選択部と、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、前記選択した話題に基づいて質問を生成する質問生成部と、前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えるものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。
また、本発明に係る音声対話プログラムは、コンピュータに、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する手順、前記ユーザである対話相手に対応する前記記憶した話題を選択する手順、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する手順、前記選択した話題に基づいて前記対話相手への質問を生成して発話する手順、前記質問を発話した後の前記対話相手の発話を音声認識して形態素解析する手順、前記解析の結果に基づいて、前記対話相手の発話が前記条件を満足するか否かを判定する手順、前記満足を判定したときに、前記対話相手の発話に対する抑揚をつけた応答を生成して発話する手順を実行させるためのものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。
本発明により、対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供することができる。
実施の形態1に係る音声対話装置100の概略構成を示すブロック図である。 実施の形態1に係る記憶部160が記憶するユーザプロファイル5の例を示す図である。 実施の形態1に係る音声対話装置100の処理手順を示すフロチャートである。 実施の形態1に係る音声対話装置100のカテゴリ選択から期待語抽出までの処理の具体例を示した図である。 実施の形態1に係る音声対話装置100を備えるロボット「X」と、対話相手であるユーザ「Aさん」との対話例を示す図である。 実施の形態1に係る音声対話装置100の形態素解析から応答生成までの処理の具体例を示した図である。 実施の形態1に係る音声対話装置100の形態素解析から応答生成までの処理の別の具体例を示した図である。 実施の形態2に係る音声対話装置300の概略構成を示すブロック図である。 実施の形態2に係る音声対話装置300の処理手順を示すフロチャートである。 実施の形態2に係る音声対話装置300のカテゴリ選択から期待感情抽出までの処理の具体例を示した図である。 実施の形態2に係る音声対話装置300を備えるロボット「X」と、対話相手であるユーザ「Aさん」との対話例を示す図である。 実施の形態2に係る音声対話装置300の形態素解析から応答生成までの処理の具体例を示した図である。
(発明の実施の形態1)
以下、図面を参照して本実施の形態1の音声対話装置について説明する。
本実施の形態1の音声対話装置は、ユーザである対話相手の発話のなかに、ユーザの感情が特に表れる語として抽出する期待語が含まれていたときに、当該発話に対する応答に抑揚をつけて発話するものである。なお、本発明において、抑揚をつけた応答とは、笑いや驚きなどの感情表現を伴う応答のことであって、通常の応答とは少なくとも抑揚の程度が異なるものである。
まず、本実施の形態1に係る音声対話装置の構成について説明する。
図1は、本実施の形態1に係る音声対話装置100の概略構成を示すブロック図である。音声対話装置100は、音声認識部110、形態素解析部120、感情推定部130、質問応答生成部140、発話部150、記憶部160、話題選択部170、条件生成部180、判定部190、抑揚応答生成部200などを備えている。
音声対話装置100は、ロボット(図示せず)に組み込まれて、対話相手の発話1を当該ロボットが備えるマイク10を介して入力し、対話相手への質問または応答2を当該ロボットが備えるスピーカ20を介して音声出力する。
なお、音声対話装置100が実現する各構成要素は、例えば、コンピュータである音声対話装置100が備える演算装置(図示せず)の制御によって、プログラムを実行させることによって実現できる。より具体的には、音声対話装置100は、記憶部(図示せず)に格納されたプログラムを主記憶装置(図示せず)にロードし、演算装置の制御によってプログラムを実行して実現する。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア及びソフトウェアのうちのいずれかの組み合わせなどにより実現しても良い
上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、または無線通信路を介して、プログラムをコンピュータに供給できる。
次に、音声対話装置100の各構成についてその詳細を説明する。
音声認識部110は、マイク10が「対話相手の発話1」を集音して生成した音声信号を入力し、認識用辞書データベース(図示せず)に登録された単語を参照して音声認識し、認識結果である文字列情報を形態素解析部120に出力する。
形態素解析部120は、音声認識結果である文字列情報を入力し、形態素解析を行い、解析結果である形態素を感情推定部130及び質問応答生成部140に出力する。また、形態素解析部120は、話題選択部170が選択したカテゴリに対応するポイントを条件生成部180から入力し、形態素解析を行い、形態素を条件生成部180に出力して返す。
感情推定部130は、解析結果である形態素を入力し、「ポジティブ」、「ネガティブ」などの感情極性を抽出して感情を推定し、推定結果を質問応答生成部140に出力する。感情推定部130は、感情極性が既知の学習データをSVM(Support Vecter Machine)の手法を用いて学習して感情極性モデルをあらかじめ構築し、構築した感情極性モデルと対話相手の発話1の解析結果とを比較することにより感情極性を抽出する。
質問応答生成部140は、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて、対話相手の発話1に対する応答文を生成する。また、質問応答生成部140は、判定部190から対話相手の発話1に基づく形態素と期待語とが略一致しなかった旨の判定結果を入力したときに、生成した応答文を傾聴応答文として発話部150に出力する。また、質問応答生成部140は、話題選択部170が選択した話題に基づいて、対話相手への質問文を生成して発話部150に出力する。
発話部150は、質問応答生成部140が生成した質問文または応答文を入力し、また、抑揚応答生成部200が生成した抑揚をつけた応答文を入力し、音声信号に変換して「対話相手への質問または応答2」としてスピーカ20を介して出力する。
記憶部160は、対話相手であるユーザがふだん自発的に話す内容を記述したユーザプロファイル5を記憶するデータベースである。ユーザプロファイルは、医師のカルテと同様に、医師、カウンセラー、家族などがユーザとふだんの対話をする中で少しずつ記入してデータを蓄積し作成していくものである。
図2は、本実施の形態1に係る記憶部160が記憶するユーザプロファイル5の例を示す図である。ユーザプロファイル5は、対話相手であるユーザと、ユーザがふだん自発的に話す話題であるカテゴリと、当該話題におけるポイントとを対応づけて記載したもので、例えば、ユーザの名前「Aさん」と、カテゴリ「ご主人」と、ポイント「・家族に優しくない」「・よく怒る」とを対応づけて記載している。なお、話題におけるポイントとは、話題における要点または勘所であって、当該話題において、はずすことのできない大事なところまたは急所のことである。
話題選択部170は、対話相手であるユーザに応じて、記憶部160に記憶したユーザプロファイルの中から当該ユーザに対応するカテゴリを選択して、選択結果を条件生成部180及び質問応答生成部140に出力する。選択するカテゴリは前回の対話時間などでパラメータ値を更新し、パラメータ値の大きいものを用いるなどして適宜決定する。また、話題選択部170は、抑揚応答生成部200が抑揚をつけた応答文を生成し、発話部150が当該抑揚をつけた応答を発話したときに、そのときまでの話題とは異なる「次の話題」となる別のカテゴリを選択して、選択結果を条件生成部180及び質問応答生成部140に出力する。
条件生成部180は、話題選択部170が選択したカテゴリについて、記憶部160が記憶するユーザプロファイル5中の対応するポイントを形態素解析部120に出力し、形態素解析部120で当該ポイントを解析させる。そして、条件生成部180は、形態素解析部120から解析結果である名詞・形容詞などを入力し、これらの名詞・形容詞などからユーザの感情が特に表れる語として期待語を抽出する。そして、条件生成部180はこの期待語をユーザの発話に現れることを期待する、ユーザの発話についての条件として判定部190に出力する。
判定部190は、条件生成部180が生成した期待語を入力して保持する。そして、判定部190は、対話相手の発話1を形態素解析部120が解析した結果である形態素を入力し、形態素の中に、保持した期待語と略一致するものがあるか否かを判定する。判定部190は、形態素と期待語とが略一致したときに、抑揚応答生成部200に略一致した旨の判定結果を出力する。また、判定部190は、形態素と期待語とが略一致しなかったときに、質問応答生成部140に略一致しなかった旨の判定結果を出力する。
なお、形態素と期待語とが略一致する場合には、形態素と期待語とが完全一致する場合と、形態素または期待語の語尾変換を許容する範囲において一致する場合とが含まれ、例えば、形態素「怒っ」と期待語「怒る」とは後者の場合において略一致しているものとする。
判定部190は、条件生成部180が生成した期待語を入力するときに、保持していた前のカテゴリの期待語を削除する。また、判定部190は、期待語を保持するための期待語データベースを備えていても良い。
抑揚応答生成部200は、判定部190が対話相手の発話1の解析結果の中に期待語が含まれると判定したときに、当該発話に対する抑揚をつけた応答文を生成して、発話部150に出力する。
次に、本実施の形態1に係る音声対話装置100の動作について説明する。
図3は、本実施の形態1に係る音声対話装置100の処理手順を示すフロチャートである。
音声対話装置100はあらかじめ図2に示したようなユーザプロファイル5を記憶部160に記憶しておく。
音声対話装置100が動作を開始または再開すると、話題選択部170がユーザプロファイル5の中から対話相手であるユーザに対応するカテゴリを選択する(ステップS10)。話題選択部170は、以前の対話の結果などを参照してカテゴリを選択する。
また、条件生成部180が、話題選択部170が選択したカテゴリに基づいて、期待語を抽出する(ステップS20)。このとき、条件生成部180は、当該カテゴリの対応するポイントを形態素解析部120で解析させる。
図4は、本実施の形態1に係る音声対話装置100のカテゴリ選択から期待語抽出までの処理の具体例を示した図である。
話題選択部170が対話相手「Aさん」についてユーザプロファイルに記載されているカテゴリ「ご主人」「リハビリ」の中からカテゴリ「ご主人」を選択すると、条件生成部180が、カテゴリ「ご主人」に対応するポイントの各文章「家族に優しくない」「よく怒る」を形態素解析部120に出力する。
形態素解析部120は、ポイントの各文章を形態素解析して、形態素「家族」「に」「優しく」「ない」及び「よく」「怒る」を出力する。
条件生成部180は、ポイントの各文章から形態素である名詞・形容詞・動詞のうち1つを期待語として抽出する。このとき、条件生成部180は、形容詞・動調の後ろに助動詞がついていれば形容調・動詞と助動詞とを組みにして抜き出す。例えば、ポイントの文章「家族に優しくない」について、形容詞「優しく」と助動詞「ない」とを組みにして期待語「優しくない」を抜き出す。条件生成部180は、抽出した期待語を判定部190に出力し、判定部190で保持させる。図4に示した例では、判定部190はポイントの2つの文章からそれぞれ抽出した期待語の「優しくない」「怒る」を登録する。
次に、質問応答生成部140が、話題選択部170が選択したカテゴリ「ご主人」に基づいて、質問文「ご主人は今日何してますか?」を生成し、発話部150がスピーカ20を介して当該質問を発話する(ステップS30)。
図5は、本実施の形態1に係る音声対話装置100を備えるロボット「X」と、対話相手であるユーザ「Aさん」との対話例を示す図である。以下、この対話例に沿って、音声対話装置100の動作を説明する。
次に、音声認識部110が上記質問に対する対話相手の発話「今日は散歩に行ってます」を音声認識する(ステップS40)。
形態素解析部120が音声認識結果を形態素解析し、解析結果「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力する(ステップS50)。
感情推定部130が、形態素解析結果を用いて、対話相手が「今日は散歩に行ってます」と発話したときの感情を推定をする(ステップS60)。
質問応答生成部140が、形態素解析結果及び感情推定結果を用いて対話相手の発話「今日は散歩に行ってます」に対する応答文を生成する(ステップS70)。
図6は、本実施の形態1に係る音声対話装置100の形態素解析から応答生成までの処理の具体例を示した図である。
形態素解析部120が形態素解析結果である形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力すると、感情推定部130が「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語である「散歩」を検出して、感情極性を「ニュートラル」であると推定する。そして、質問応答生成部140が感情推定結果に基づいて、感情を確認する応答文「散歩だね」を生成する。
また、形態素解析部120が形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力すると、質問応答生成部140が「動詞」または「格要素+格」があるか否かを判定して動詞「行く」を検出し、「動詞」または「格要素+格」が信頼できるか否かを判定して「動詞」が信頼できるとする。そして、質問応答生成部140は、「動詞」を確認する応答文「行ったんだね」を生成する。
そして、質問応答生成部140は、生成した応答文「散歩だね」「行ったんだね」の中からランダムに、または、優先度などのあらかじめ定めたルールに基づいて、応答文「散歩だね」を選択し、いったん保持する。
なお、感情推定処理(ステップS60)または応答文生成処理(ステップS70)には、特許文献1または特開2010−002726号公報に記載された処理方法を用いることができる。
一方、判定部190は、感情推定部130、質問応答生成部140による感情推定処理、応答文生成処理と並列して、形態素解析結果である形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」の中に期待語「優しくない」「怒る」と略一致するものがあるか否かを判定する(ステップS80)。この例では形態素解析結果に期待語と略一致するものがないと判定する。
判定部190が形態素の中に期待語と略一致するものがないと判定する(ステップS80のNo)と、質問応答生成部140は保持している応答文「散歩だね」をユーザの発話を促すような曖昧な応答である傾聴応答の応答文として発話部150に出力し、発話部150が音声信号に変換してスピーカ20を介して出力し発話する(ステップS90)。
この後は、ステップS40〜ステップS90の処理が繰り返され、対話相手の発話「最近は毎日のように行っていて」、ロボットの応答「毎日ね」、対話相手の発話「昨日も夕方出ていったんですけど」、ロボットの応答「夕方ね」という対話が進行する。
次に、対話相手が「急に雨が降ってきて怒ってました」と発話すると、音声認識(ステップS40)し、形態素解析して形態素「急に」「雨」「が」「降っ」「て」「き」「て」「怒っ」「て」「まし」「た」を出力する(ステップS50)。
図7は、本実施の形態1に係る音声対話装置100の形態素解析から応答生成までの処理の別の具体例を示した図である。
図7に示すように、これらの形態素について、感情推定(ステップS60)し、応答文生成(ステップS70)し、応答文「怒ってたんだ」を生成する。
一方、形態素について感情推定及び応答文生成を行うのと並行して、判定部190が、形態素解析結果である形態素「急に」「雨」「が」「降っ」「て」「き」「て」「怒っ」「て」「まし」「た」の中に期待語「優しくない」「怒る」と略一致するものがあるか否かを判定する(ステップS80)。この例では形態素「怒っ」と期待語「怒る」とが略一致すると判定する。
判定部190は形態素と期待語とが略一致すると判定する(ステップS80のYes)と、判定結果を抑揚応答生成部200に出力し、判定結果を受けた抑揚応答生成部200は質問応答生成部140が保持している応答文「怒ってたんだ」から抑揚をつけた応答文「<laugh>怒ってたんだ」を生成して発話部150に出力し、発話部150が音声信号に変換してスピーカ20を介して出力し、笑いながら「怒ってたんだ」と発話する(ステップS100)。
そして、別のカテゴリ「リハビリ」を選択(ステップS10)し、期待語「コーヒー」を抽出(ステップS20)し、質問文「リハビリには最近行ってるの」を生成・発話(ステップS30)して、対話を継続する。
なお、本実施の形態1では、話題選択部170がユーザプロファイルに記載されているカテゴリを選択したときに、条件生成部180が当該カテゴリに対応するポイントの各文章から期待語を抽出したが、記憶部160にユーザプロファイル5を記憶するときや、ユーザプロファイル5を更新するときに、当該ユーザプロファイルのポイントの各文章から期待語を抽出して、記憶部160にユーザプロファイルと対応させてあらかじめ記憶させおいても良い。つまり、ユーザプロファイルは、対話相手であるユーザと、話題であるカテゴリと、当該話題におけるポイントと、当該ポイントから抽出した期待語とを対応づけて記載したものであっても良い。この場合には、話題選択部170がカテゴリを選択したときに、条件生成部180はユーザプロファイルに記載された当該カテゴリに対応する期待語を判定部190に出力すれば良い。
また、本実施の形態1では、抑揚応答生成部200は、判定部190が形態素と期待語とが略一致すると判定すると、質問応答生成部140が保持している応答文から抑揚をつけた応答文を生成して出力したが、抑揚応答生成部200が、質問応答生成部140が保持している応答文や対話内容とは直接関係のない、抑揚をつけた応答文「<laugh>そうなんだー」、または、「<surprise>ほんとにー」を生成して出力したり、これらの応答文をあらかじめ保持しておき、ランダムに選択して出力したりしても良い。
また、本実施の形態1では、抑揚応答生成部200が、抑揚をつけた応答文を生成するときに、笑い<laugh>や驚き<surprise>などにより感情を表現するが、抑揚応答生成部200が表現する感情は笑い、驚きに限るものではなく、抑揚応答生成部200があらかじめ多くの感情表現を保持しておき、抑揚をつけた応答文を生成するときにこれらの感情表現の中からランダムに、または、ルールに基づいて一つまたは複数を選択して応答文を生成するようにしても良い。
また、本実施の形態1では、質問応答生成部140が、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて、対話相手の発話1に対する応答文を生成するようにしたが、質問応答生成部140が、形態素解析結果である形態素を入力し、当該形態素に基づいて対話相手の発話1に対する応答文を生成するようにしても良い。すなわち、本実施の形態1に係る音声対話装置100は、感情推定部130が省略された構成を備えていても良い。
また、本実施の形態1では、ロボットが音声対話装置100の各構成を備えて音声対話処理を実行するようにしたが、ロボットを含む複数の装置、または、ロボットを含まない複数の装置が音声対話装置100の各構成を分担して備えて、音声対話システムとして音声対話処理を実行するようにしても良い。例えば、ロボットが発話部150だけを備え、パソコンなどの外部装置が音声対話装置100のその他の構成を備えて音声対話処理を実行するようにしても良い。
上述したように、本実施の形態1に係る音声対話装置100は、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、ユーザ、話題及び話題におけるポイントを対応づけて記憶する記憶部160と、対話相手に対応する記憶した話題を選択する選択部170と、選択した話題に対応する記憶したポイントから対話相手の発話についての条件を生成する条件生成部180と、選択した話題に基づいて質問を生成する質問生成部140と、対話相手の発話を解析した結果が条件を満足するか否かを判定する判定部190と、質問を発話した後に判定部190が満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部200とを備えたものである。このような構成により、対話の山場を推定し、対話の中で抑揚をつけた応答を行うことができることができる。抑揚をつけた応答を行うことにより、対話相手の発話をいっそう促し、対話を盛り上げ、対話継続時間を向上させることができる。
また、本実施の形態1に係る音声対話装置100は、条件生成部180が条件として期待語を生成し、判定部190が、解析結果と期待語との略一致を満足として判定するものである。
また、本実施の形態1に係る音声対話装置100は、解析結果に基づいて対話相手の感情を推定する推定部130を更に備え、解析結果または推定結果に基づいて対話相手に対する応答を生成し、判定部190が満足を判定しないときに、解析結果または推定結果に基づく応答を発話するものである。
また、本実施の形態1に係る音声対話装置100は、発話部150が抑揚をつけた応答を発話した後に、選択部170が選択した話題とは異なる話題を選択するものである。
(発明の実施の形態2)
以下、図面を参照して本実施の形態2の音声対話装置について説明する。
本実施の形態2の音声対話装置は、ユーザである対話相手の発話のなかに、ユーザが持つ特定の感情として抽出する期待感情が含まれていたときに、当該発話に対する応答を抑揚をつけて発話するものである。
まず、本実施の形態2に係る音声対話装置の構成について説明する。
図8は、本実施の形態2に係る音声対話装置300の概略構成を示すブロック図である。音声対話装置300は、音声認識部110、形態素解析部310、感情推定部320、質問応答生成部330、発話部150、記憶部160、話題選択部170、条件生成部340、判定部350、抑揚応答生成部360などを備える。
音声対話装置300は、ロボット(図示せず)に組み込まれて、対話相手の発話1を当該ロボットが備えるマイク10を介して入力し、対話相手への質問または応答2を当該ロボットが備えるスピーカ20を介して音声出力する。
次に、音声対話装置300の各構成についてその詳細を説明する。
音声対話装置300の音声認識部110、発話部150、記憶部160、話題選択部170の構成及び動作は実施の形態1に係る音声対話装置100のものと同様であり、説明を省略する。
形態素解析部310は、音声認識結果である文字列情報を入力し、形態素解析を行い、解析結果である形態素を感情推定部320及び質問応答生成部330に出力する。また、形態素解析部310は、話題選択部170が選択したカテゴリに対応するポイントを条件生成部340から入力し、形態素解析を行い、形態素を感情推定部320に出力する。
感情推定部320は、対話相手の発話1についての形態素解析結果である形態素を入力し、感情極性を抽出して感情を推定し、推定結果を質問応答生成部330に出力する。また、感情推定部320は、話題選択部170が選択したカテゴリに対応するポイントについての形態素解析結果を入力して感情を推定し、推定結果を条件生成部340に出力する。感情推定部320が推定する感情は、「ポジティブ・ニュートラル・ネガティブ」の3種類に大きく分類され、さらにポジティブは「嬉しい・楽しい・安心」の3種類、ネガティブは「恐い・悲しい・残念・嫌・寂しい・心配・腹立たしい」の7種類に細分類される。
質問応答生成部330は、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて対話相手の発話1に対する応答文を生成する。また、質問応答生成部330は、判定部350から推定感情と期待感情とが一致しなかった旨の判定結果を入力したときに、生成した応答文を傾聴応答文として発話部150に出力する。また、質問応答生成部330は、話題選択部170が選択した話題に基づいて、質問文を生成して発話部150に出力する。
条件生成部340は、話題選択部170が選択したカテゴリについて、記憶部160が記憶するユーザプロファイル5中の対応するポイントを形態素解析部310に出力し、形態素解析部310で当該ポイントを解析させて解析結果を感情推定部320に出力させ、感情推定部320で当該解析結果から感情を推定させて、感情推定部320から当該推定結果を入力する。この推定した感情はユーザの特定の感情として抽出する期待感情であって、条件生成部340はこの期待感情をユーザの発話に現れることを期待する、ユーザの発話についての条件として判定部350に出力する。
判定部350は、条件生成部340が生成した期待感情を入力して保持する。また、判定部350は、対話相手の発話1について感情推定部320が推定した結果である感情を入力し、保持した期待感情と一致するものがあるか否かを判定する。そして、判定部350は、対話相手の発話1についての推定結果である感情と期待感情とが一致したときに、抑揚応答生成部360に一致した旨の判定結果を出力する。また、判定部350は、推定結果である感情と期待感情とが一致しなかったときに、質問応答生成部330に一致しなかった旨の判定結果を出力する。
抑揚応答生成部360は、判定部350が対話相手の発話1の解析結果の中に期待語が含まれると判定したときに、当該発話に対する抑揚をつけた応答文を生成して、発話部150に出力する。
次に、本実施の形態2に係る音声対話装置300の動作について説明する。
図9は、本実施の形態2に係る音声対話装置300の処理手順を示すフロチャートである。
音声対話装置300が動作を開始または再開すると、話題選択部170がユーザプロファイル5の中から対話相手であるユーザに対応するカテゴリを選択する(ステップS310)。
また、条件生成部340が、話題選択部170が選択したカテゴリに基づいて、期待感情を抽出する(ステップS320)。
図10は、本実施の形態2に係る音声対話装置300のカテゴリ選択から期待感情抽出までの処理の具体例を示した図である。
話題選択部170が対話相手「Aさん」についてユーザプロファイルに記載されているカテゴリ「ご主人」「リハビリ」の中からカテゴリ「ご主人」を選択すると、条件生成部340が、カテゴリ「ご主人」に対応するポイントの各文章「家族に優しくない」「よく怒る」を形態素解析部310に出力する。
形態素解析部310は、ポイントの各文章を形態素解析して、形態素「家族」「に」「優しく」「ない」及び「よく」「怒る」を感情推定部320に出力する。
感情推定部320は、入力した形態素の中から「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語である「家族」「優しく/ない」及び「怒る」を検出して、感情極性を「嫌」「怒り」であると推定する。そして、感情推定部320は、推定した感情「嫌」「怒り」を条件生成部340に出力して返す。
条件生成部340は、入力した感情「嫌」「怒り」をそのまま期待感情として抽出し、判定部190に出力して保持させる。図10に示した例では、判定部350はポイントの2つの文章からそれぞれ抽出した期待感情「嫌」「怒り」を登録する。
次に、質問応答生成部140が、話題選択部170が選択したカテゴリ「ご主人」に基づいて、質問文「ご主人は今日何してますか?」を生成し、発話部150がスピーカ20を介して当該質問を発話する(ステップS330)。
図11は、本実施の形態2に係る音声対話装置300を備えるロボット「X」と、対話相手であるユーザ「Aさん」との対話例を示す図である。以下、この対話例に沿って、音声対話装置300の動作を説明する。
音声認識部110が上記質問に対する対話相手の発話「今日は散歩に行ってます」を音声認識する処理(ステップS340)から、質問応答生成部140が形態素解析(ステップS350)結果及び感情推定(ステップS360)結果である感情「ニュートラル」を用いて対話相手の発話「今日は散歩に行ってます」に対する応答文「散歩だね」を生成する処理(ステップS370)までの動作は、実施の形態1のステップS40〜ステップS70の動作と同様なので説明を省略する。
次に、判定部350は、質問応答生成部330による応答文生成処理(ステップS370)と並列して、感情推定結果である感情の中に期待感情と一致するものがあるか否か、この例では、感情推定結果である感情「ニュートラル」と期待感情「嫌」「怒り」とが一致するか否かを判定し、感情推定結果に期待感情と一致するものがないと判定する(ステップS380)。
判定部350が形態素の中に期待語と一致するものがないと判定する(ステップS380のNo)と、質問応答生成部140は保持している応答文「散歩だね」を傾聴応答の応答文として発話部150に出力し、発話部150が音声信号に変換してスピーカ20を介して出力し発話する(ステップS390)。
この後は、ステップS340〜ステップS390の処理が繰り返され、対話相手の発話「昨日も夕方出ていったんですけど」、ロボットの応答「夕方ね」という対話が進行する。
次に、対話相手が「急に雨が降ってきて大変でした」と発話すると、音声認識(ステップS340)し、形態素解析して形態素「急に」「雨」「が」「降っ」「て」「き」「て」「大変」「でし」「た」を出力する(ステップS350)。
図12は、本実施の形態2に係る音声対話装置300の形態素解析から応答生成までの処理の具体例を示した図である。
図12に示すように、これらの形態素に基づいて事態「大変」を検出し、感情「嫌」を推定(ステップS360)し、応答文を生成(ステップS370)して、応答文「雨降ったね」を生成する。
一方、応答文生成(ステップS370)を行うのと並行して、判定部350が、感情推定結果である推定感情「嫌」と期待感情「嫌」「怖い」とが一致するか否かを判定する(ステップS380)。この例では推定感情「嫌」と期待感情「嫌」とが一致すると判定する。
判定部350が推定感情と期待感情とが一致すると判定する(ステップS380のYes)と、判定結果を抑揚応答生成部360に出力し、判定結果を受けた抑揚応答生成部360は質問応答生成部330が保持している応答文「雨降ったね」から抑揚をつけた応答文「<laugh>雨降ったね」を生成して発話部150に出力し、発話部150が音声信号に変換してスピーカ20を介して出力し、笑いながら「雨降ったね」と発話する(ステップS400)。
そして、別のカテゴリを選択(ステップS310)し、期待語を抽出(ステップS320)し、質問文を生成・発話(ステップS330)して、対話を継続する。
上述したように、本実施の形態2に係る音声対話装置300は、形態素解析結果に基づいて、対話相手の感情を推定する推定部320を更に備え、条件生成部340は条件として期待感情を生成し、判定部350は、推定結果と期待感情との一致を満足として判定するものである。このような構成により、対話の山場を推定し、対話の中で抑揚をつけた応答を行うことができることができる。
また、本実施の形態2に係る音声対話装置300は、解析結果または推定結果に基づいて対話相手に対する応答を生成し、判定部190が満足を判定しないときに、解析結果または推定結果に基づく応答を発話するものである。
5 ユーザプロファイル
100、300 音声対話装置
110 音声認識部
120、310 形態素解析部
130、320 感情推定部
140、330 質問応答生成部
150 発話部
160 記憶部
170 話題選択部
180、340 条件生成部
190、350 判定部
200、360 抑揚応答生成部

Claims (8)

  1. ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、
    ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、
    対話相手に対応する前記記憶した話題を選択する選択部と、
    前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、
    前記選択した話題に基づいて質問を生成する質問生成部と、
    前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、
    前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えた
    音声対話装置。
  2. 前記条件生成部は前記条件として期待語を生成し、
    前記判定部は、前記解析結果と前記期待語との略一致を前記満足として判定する
    請求項1記載の音声対話装置。
  3. 前記解析結果に基づいて前記対話相手の感情を推定する推定部を更に備え、
    前記解析結果または前記推定結果に基づいて前記対話相手に対する応答を生成し、
    前記判定部が前記満足を判定しないときに、前記解析結果または前記推定結果に基づく前記応答を発話する
    請求項1または請求項2記載の音声対話装置。
  4. 前記解析結果に基づいて前記対話相手の感情を推定する推定部を更に備え、
    前記条件生成部は前記条件として期待感情を生成し、
    前記判定部は、前記推定結果と前記期待感情との一致を前記満足として判定する
    請求項1記載の音声対話装置。
  5. 前記解析結果または前記推定結果に基づいて前記対話相手に対する応答を生成し、
    前記判定部が前記満足を判定しないときに、前記解析結果または前記推定結果に基づく前記応答を発話する
    請求項4記載の音声対話装置。
  6. 前記抑揚をつけた応答を発話した後に、前記選択部は前記選択した話題とは異なる話題を選択する
    請求項1乃至請求項5のいずれか1項に音声対話装置。
  7. ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話システムであって、
    ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、
    対話相手に対応する前記記憶した話題を選択する選択部と、
    前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、
    前記選択した話題に基づいて質問を生成する質問生成部と、
    前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、
    前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えた
    音声対話システム。
  8. コンピュータに、
    ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する手順、
    前記ユーザである対話相手に対応する前記記憶した話題を選択する手順、
    前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する手順、
    前記選択した話題に基づいて前記対話相手への質問を生成して発話する手順、
    前記質問を発話した後の前記対話相手の発話を音声認識して形態素解析する手順、
    前記解析の結果に基づいて、前記対話相手の発話が前記条件を満足するか否かを判定する手順、
    前記満足を判定したときに、前記対話相手の発話に対する抑揚をつけた応答を生成して発話する手順
    を実行させるための音声対話プログラム。
JP2014021348A 2014-02-06 2014-02-06 音声対話装置、音声対話システム及びプログラム Active JP6176137B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014021348A JP6176137B2 (ja) 2014-02-06 2014-02-06 音声対話装置、音声対話システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014021348A JP6176137B2 (ja) 2014-02-06 2014-02-06 音声対話装置、音声対話システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2015148712A true JP2015148712A (ja) 2015-08-20
JP6176137B2 JP6176137B2 (ja) 2017-08-09

Family

ID=53892111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014021348A Active JP6176137B2 (ja) 2014-02-06 2014-02-06 音声対話装置、音声対話システム及びプログラム

Country Status (1)

Country Link
JP (1) JP6176137B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453169B2 (ja) 2021-02-24 2024-03-19 Kddi株式会社 感情種別グループの識別を介して感情推定を行うモデル、装置及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7347794B2 (ja) 2019-11-29 2023-09-20 Necソリューションイノベータ株式会社 対話型情報取得装置、対話型情報取得方法、及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188787A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2007322757A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd 音声対話装置
JP2008158697A (ja) * 2006-12-21 2008-07-10 Nec Corp ロボット制御装置
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010157081A (ja) * 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188787A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置
JP2007322757A (ja) * 2006-06-01 2007-12-13 Nissan Motor Co Ltd 音声対話装置
JP2008158697A (ja) * 2006-12-21 2008-07-10 Nec Corp ロボット制御装置
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP2010157081A (ja) * 2008-12-26 2010-07-15 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453169B2 (ja) 2021-02-24 2024-03-19 Kddi株式会社 感情種別グループの識別を介して感情推定を行うモデル、装置及び方法

Also Published As

Publication number Publication date
JP6176137B2 (ja) 2017-08-09

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US10861458B2 (en) Response sentence generation apparatus, method and program, and voice interaction system
JP6696923B2 (ja) 音声対話装置、その処理方法及びプログラム
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
JP2018124425A (ja) 音声対話装置及び音声対話方法
JP5195414B2 (ja) 応答生成装置及びプログラム
JP2018072650A (ja) 音声対話装置及び音声対話方法
KR20200056261A (ko) 전자 장치 및 이의 제어 방법
JP6390264B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP2018197924A (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
JP6828667B2 (ja) 音声対話装置、音声対話方法及びプログラム
JP6176137B2 (ja) 音声対話装置、音声対話システム及びプログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP6709558B2 (ja) 会話処理装置
JP6295869B2 (ja) 応答生成装置、応答生成方法及びプログラム
JP2016080981A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
JP2009198871A (ja) 音声対話装置
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6773074B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP6179509B2 (ja) 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体
CN113763921A (zh) 用于纠正文本的方法和装置
JP2010191321A (ja) 音声認識システム、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R151 Written notification of patent or utility model registration

Ref document number: 6176137

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151