JP2015148712A

JP2015148712A - 音声対話装置、音声対話システム及びプログラム

Info

Publication number: JP2015148712A
Application number: JP2014021348A
Authority: JP
Inventors: 達朗堀; Tatsuro Hori; 生聖渡部; Seisho Watabe
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2014-02-06
Filing date: 2014-02-06
Publication date: 2015-08-20
Anticipated expiration: 2034-02-06
Also published as: JP6176137B2

Abstract

【課題】対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供する。
【解決手段】音声対話装置１００は、ユーザ、話題及び話題におけるポイントを対応づけて記憶する記憶部１６０と、対話相手に対応する記憶した話題を選択する選択部１７０と、選択した話題に対応する記憶したポイントから対話相手の発話についての条件を生成する条件生成部１８０と、選択した話題に基づいて質問を生成する質問生成部１４０と、対話相手の発話を解析した結果が条件を満足するか否かを判定する判定部１９０と、質問を発話した後に判定部が満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部２００とを備える。
【選択図】図１

Description

本発明は音声対話装置、音声対話システム及びプログラムに関する。

対話相手の発話に対応する適切な応答を生成して発話し、自然な対話を行う音声対話装置が従来から提案されている。特許文献１には、対話相手の発話を音声認識し、形態素解析し、対話相手の発話に「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語などが含まれている否かを判別し、事態が含まれている場合に、対話相手の感情を推定して適切な応答をする音声対話装置が開示されている。

特開２０１０−１５７０８１号公報

背景技術に係る音声対話装置は、あらかじめ作成した感情推定モデルをもとに対話相手の感情を推定し、推定した感情に応じた応答生成を可能にしている。しかしながら、この音声対話装置は認識する言葉毎または文章毎に感情を推定するものであり、対話を継続していくときに、対話相手のどの発話にポイントがあるのかを理解したり、対話相手がある話題に対してどのような価値観・想いを持っているのかを理解したりして応答を生成することをしておらず、対話の中で対話を盛り上げて促進するような抑揚をつけた応答を行うことができていなかった。

本発明は、このような問題を解決するためになされたものであり、対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供することを目的とする。

本発明に係る音声対話装置は、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、対話相手に対応する前記記憶した話題を選択する選択部と、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、前記選択した話題に基づいて質問を生成する質問生成部と、前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えるものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。

本発明に係る音声対話システムは、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話システムであって、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、対話相手に対応する前記記憶した話題を選択する選択部と、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、前記選択した話題に基づいて質問を生成する質問生成部と、前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えるものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。

また、本発明に係る音声対話プログラムは、コンピュータに、ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する手順、前記ユーザである対話相手に対応する前記記憶した話題を選択する手順、前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する手順、前記選択した話題に基づいて前記対話相手への質問を生成して発話する手順、前記質問を発話した後の前記対話相手の発話を音声認識して形態素解析する手順、前記解析の結果に基づいて、前記対話相手の発話が前記条件を満足するか否かを判定する手順、前記満足を判定したときに、前記対話相手の発話に対する抑揚をつけた応答を生成して発話する手順を実行させるためのものである。このような構成により、対話の中で抑揚をつけた応答を行うことができる。

本発明により、対話の中で抑揚をつけた応答を行うことができる音声対話装置、音声対話システム及びプログラムを提供することができる。

実施の形態１に係る音声対話装置１００の概略構成を示すブロック図である。実施の形態１に係る記憶部１６０が記憶するユーザプロファイル５の例を示す図である。実施の形態１に係る音声対話装置１００の処理手順を示すフロチャートである。実施の形態１に係る音声対話装置１００のカテゴリ選択から期待語抽出までの処理の具体例を示した図である。実施の形態１に係る音声対話装置１００を備えるロボット「Ｘ」と、対話相手であるユーザ「Ａさん」との対話例を示す図である。実施の形態１に係る音声対話装置１００の形態素解析から応答生成までの処理の具体例を示した図である。実施の形態１に係る音声対話装置１００の形態素解析から応答生成までの処理の別の具体例を示した図である。実施の形態２に係る音声対話装置３００の概略構成を示すブロック図である。実施の形態２に係る音声対話装置３００の処理手順を示すフロチャートである。実施の形態２に係る音声対話装置３００のカテゴリ選択から期待感情抽出までの処理の具体例を示した図である。実施の形態２に係る音声対話装置３００を備えるロボット「Ｘ」と、対話相手であるユーザ「Ａさん」との対話例を示す図である。実施の形態２に係る音声対話装置３００の形態素解析から応答生成までの処理の具体例を示した図である。

（発明の実施の形態１）
以下、図面を参照して本実施の形態１の音声対話装置について説明する。
本実施の形態１の音声対話装置は、ユーザである対話相手の発話のなかに、ユーザの感情が特に表れる語として抽出する期待語が含まれていたときに、当該発話に対する応答に抑揚をつけて発話するものである。なお、本発明において、抑揚をつけた応答とは、笑いや驚きなどの感情表現を伴う応答のことであって、通常の応答とは少なくとも抑揚の程度が異なるものである。

まず、本実施の形態１に係る音声対話装置の構成について説明する。
図１は、本実施の形態１に係る音声対話装置１００の概略構成を示すブロック図である。音声対話装置１００は、音声認識部１１０、形態素解析部１２０、感情推定部１３０、質問応答生成部１４０、発話部１５０、記憶部１６０、話題選択部１７０、条件生成部１８０、判定部１９０、抑揚応答生成部２００などを備えている。
音声対話装置１００は、ロボット（図示せず）に組み込まれて、対話相手の発話１を当該ロボットが備えるマイク１０を介して入力し、対話相手への質問または応答２を当該ロボットが備えるスピーカ２０を介して音声出力する。

なお、音声対話装置１００が実現する各構成要素は、例えば、コンピュータである音声対話装置１００が備える演算装置（図示せず）の制御によって、プログラムを実行させることによって実現できる。より具体的には、音声対話装置１００は、記憶部（図示せず）に格納されたプログラムを主記憶装置（図示せず）にロードし、演算装置の制御によってプログラムを実行して実現する。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア及びソフトウェアのうちのいずれかの組み合わせなどにより実現しても良い

上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、または無線通信路を介して、プログラムをコンピュータに供給できる。

次に、音声対話装置１００の各構成についてその詳細を説明する。
音声認識部１１０は、マイク１０が「対話相手の発話１」を集音して生成した音声信号を入力し、認識用辞書データベース（図示せず）に登録された単語を参照して音声認識し、認識結果である文字列情報を形態素解析部１２０に出力する。
形態素解析部１２０は、音声認識結果である文字列情報を入力し、形態素解析を行い、解析結果である形態素を感情推定部１３０及び質問応答生成部１４０に出力する。また、形態素解析部１２０は、話題選択部１７０が選択したカテゴリに対応するポイントを条件生成部１８０から入力し、形態素解析を行い、形態素を条件生成部１８０に出力して返す。

感情推定部１３０は、解析結果である形態素を入力し、「ポジティブ」、「ネガティブ」などの感情極性を抽出して感情を推定し、推定結果を質問応答生成部１４０に出力する。感情推定部１３０は、感情極性が既知の学習データをＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｅｒＭａｃｈｉｎｅ）の手法を用いて学習して感情極性モデルをあらかじめ構築し、構築した感情極性モデルと対話相手の発話１の解析結果とを比較することにより感情極性を抽出する。

質問応答生成部１４０は、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて、対話相手の発話１に対する応答文を生成する。また、質問応答生成部１４０は、判定部１９０から対話相手の発話１に基づく形態素と期待語とが略一致しなかった旨の判定結果を入力したときに、生成した応答文を傾聴応答文として発話部１５０に出力する。また、質問応答生成部１４０は、話題選択部１７０が選択した話題に基づいて、対話相手への質問文を生成して発話部１５０に出力する。
発話部１５０は、質問応答生成部１４０が生成した質問文または応答文を入力し、また、抑揚応答生成部２００が生成した抑揚をつけた応答文を入力し、音声信号に変換して「対話相手への質問または応答２」としてスピーカ２０を介して出力する。

記憶部１６０は、対話相手であるユーザがふだん自発的に話す内容を記述したユーザプロファイル５を記憶するデータベースである。ユーザプロファイルは、医師のカルテと同様に、医師、カウンセラー、家族などがユーザとふだんの対話をする中で少しずつ記入してデータを蓄積し作成していくものである。
図２は、本実施の形態１に係る記憶部１６０が記憶するユーザプロファイル５の例を示す図である。ユーザプロファイル５は、対話相手であるユーザと、ユーザがふだん自発的に話す話題であるカテゴリと、当該話題におけるポイントとを対応づけて記載したもので、例えば、ユーザの名前「Ａさん」と、カテゴリ「ご主人」と、ポイント「・家族に優しくない」「・よく怒る」とを対応づけて記載している。なお、話題におけるポイントとは、話題における要点または勘所であって、当該話題において、はずすことのできない大事なところまたは急所のことである。

話題選択部１７０は、対話相手であるユーザに応じて、記憶部１６０に記憶したユーザプロファイルの中から当該ユーザに対応するカテゴリを選択して、選択結果を条件生成部１８０及び質問応答生成部１４０に出力する。選択するカテゴリは前回の対話時間などでパラメータ値を更新し、パラメータ値の大きいものを用いるなどして適宜決定する。また、話題選択部１７０は、抑揚応答生成部２００が抑揚をつけた応答文を生成し、発話部１５０が当該抑揚をつけた応答を発話したときに、そのときまでの話題とは異なる「次の話題」となる別のカテゴリを選択して、選択結果を条件生成部１８０及び質問応答生成部１４０に出力する。

条件生成部１８０は、話題選択部１７０が選択したカテゴリについて、記憶部１６０が記憶するユーザプロファイル５中の対応するポイントを形態素解析部１２０に出力し、形態素解析部１２０で当該ポイントを解析させる。そして、条件生成部１８０は、形態素解析部１２０から解析結果である名詞・形容詞などを入力し、これらの名詞・形容詞などからユーザの感情が特に表れる語として期待語を抽出する。そして、条件生成部１８０はこの期待語をユーザの発話に現れることを期待する、ユーザの発話についての条件として判定部１９０に出力する。

判定部１９０は、条件生成部１８０が生成した期待語を入力して保持する。そして、判定部１９０は、対話相手の発話１を形態素解析部１２０が解析した結果である形態素を入力し、形態素の中に、保持した期待語と略一致するものがあるか否かを判定する。判定部１９０は、形態素と期待語とが略一致したときに、抑揚応答生成部２００に略一致した旨の判定結果を出力する。また、判定部１９０は、形態素と期待語とが略一致しなかったときに、質問応答生成部１４０に略一致しなかった旨の判定結果を出力する。

なお、形態素と期待語とが略一致する場合には、形態素と期待語とが完全一致する場合と、形態素または期待語の語尾変換を許容する範囲において一致する場合とが含まれ、例えば、形態素「怒っ」と期待語「怒る」とは後者の場合において略一致しているものとする。
判定部１９０は、条件生成部１８０が生成した期待語を入力するときに、保持していた前のカテゴリの期待語を削除する。また、判定部１９０は、期待語を保持するための期待語データベースを備えていても良い。
抑揚応答生成部２００は、判定部１９０が対話相手の発話１の解析結果の中に期待語が含まれると判定したときに、当該発話に対する抑揚をつけた応答文を生成して、発話部１５０に出力する。

次に、本実施の形態１に係る音声対話装置１００の動作について説明する。
図３は、本実施の形態１に係る音声対話装置１００の処理手順を示すフロチャートである。
音声対話装置１００はあらかじめ図２に示したようなユーザプロファイル５を記憶部１６０に記憶しておく。
音声対話装置１００が動作を開始または再開すると、話題選択部１７０がユーザプロファイル５の中から対話相手であるユーザに対応するカテゴリを選択する（ステップＳ１０）。話題選択部１７０は、以前の対話の結果などを参照してカテゴリを選択する。

また、条件生成部１８０が、話題選択部１７０が選択したカテゴリに基づいて、期待語を抽出する（ステップＳ２０）。このとき、条件生成部１８０は、当該カテゴリの対応するポイントを形態素解析部１２０で解析させる。
図４は、本実施の形態１に係る音声対話装置１００のカテゴリ選択から期待語抽出までの処理の具体例を示した図である。

話題選択部１７０が対話相手「Ａさん」についてユーザプロファイルに記載されているカテゴリ「ご主人」「リハビリ」の中からカテゴリ「ご主人」を選択すると、条件生成部１８０が、カテゴリ「ご主人」に対応するポイントの各文章「家族に優しくない」「よく怒る」を形態素解析部１２０に出力する。
形態素解析部１２０は、ポイントの各文章を形態素解析して、形態素「家族」「に」「優しく」「ない」及び「よく」「怒る」を出力する。

条件生成部１８０は、ポイントの各文章から形態素である名詞・形容詞・動詞のうち1つを期待語として抽出する。このとき、条件生成部１８０は、形容詞・動調の後ろに助動詞がついていれば形容調・動詞と助動詞とを組みにして抜き出す。例えば、ポイントの文章「家族に優しくない」について、形容詞「優しく」と助動詞「ない」とを組みにして期待語「優しくない」を抜き出す。条件生成部１８０は、抽出した期待語を判定部１９０に出力し、判定部１９０で保持させる。図４に示した例では、判定部１９０はポイントの２つの文章からそれぞれ抽出した期待語の「優しくない」「怒る」を登録する。

次に、質問応答生成部１４０が、話題選択部１７０が選択したカテゴリ「ご主人」に基づいて、質問文「ご主人は今日何してますか？」を生成し、発話部１５０がスピーカ２０を介して当該質問を発話する（ステップＳ３０）。
図５は、本実施の形態１に係る音声対話装置１００を備えるロボット「Ｘ」と、対話相手であるユーザ「Ａさん」との対話例を示す図である。以下、この対話例に沿って、音声対話装置１００の動作を説明する。

次に、音声認識部１１０が上記質問に対する対話相手の発話「今日は散歩に行ってます」を音声認識する（ステップＳ４０）。
形態素解析部１２０が音声認識結果を形態素解析し、解析結果「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力する（ステップＳ５０）。
感情推定部１３０が、形態素解析結果を用いて、対話相手が「今日は散歩に行ってます」と発話したときの感情を推定をする（ステップＳ６０）。
質問応答生成部１４０が、形態素解析結果及び感情推定結果を用いて対話相手の発話「今日は散歩に行ってます」に対する応答文を生成する（ステップＳ７０）。

図６は、本実施の形態１に係る音声対話装置１００の形態素解析から応答生成までの処理の具体例を示した図である。
形態素解析部１２０が形態素解析結果である形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力すると、感情推定部１３０が「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語である「散歩」を検出して、感情極性を「ニュートラル」であると推定する。そして、質問応答生成部１４０が感情推定結果に基づいて、感情を確認する応答文「散歩だね」を生成する。

また、形態素解析部１２０が形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」を出力すると、質問応答生成部１４０が「動詞」または「格要素＋格」があるか否かを判定して動詞「行く」を検出し、「動詞」または「格要素＋格」が信頼できるか否かを判定して「動詞」が信頼できるとする。そして、質問応答生成部１４０は、「動詞」を確認する応答文「行ったんだね」を生成する。

そして、質問応答生成部１４０は、生成した応答文「散歩だね」「行ったんだね」の中からランダムに、または、優先度などのあらかじめ定めたルールに基づいて、応答文「散歩だね」を選択し、いったん保持する。
なお、感情推定処理（ステップＳ６０）または応答文生成処理（ステップＳ７０）には、特許文献１または特開２０１０−００２７２６号公報に記載された処理方法を用いることができる。

一方、判定部１９０は、感情推定部１３０、質問応答生成部１４０による感情推定処理、応答文生成処理と並列して、形態素解析結果である形態素「今日」「は」「散歩」「に」「行っ」「て」「ます」の中に期待語「優しくない」「怒る」と略一致するものがあるか否かを判定する（ステップＳ８０）。この例では形態素解析結果に期待語と略一致するものがないと判定する。

判定部１９０が形態素の中に期待語と略一致するものがないと判定する（ステップＳ８０のＮｏ）と、質問応答生成部１４０は保持している応答文「散歩だね」をユーザの発話を促すような曖昧な応答である傾聴応答の応答文として発話部１５０に出力し、発話部１５０が音声信号に変換してスピーカ２０を介して出力し発話する（ステップＳ９０）。
この後は、ステップＳ４０〜ステップＳ９０の処理が繰り返され、対話相手の発話「最近は毎日のように行っていて」、ロボットの応答「毎日ね」、対話相手の発話「昨日も夕方出ていったんですけど」、ロボットの応答「夕方ね」という対話が進行する。

次に、対話相手が「急に雨が降ってきて怒ってました」と発話すると、音声認識（ステップＳ４０）し、形態素解析して形態素「急に」「雨」「が」「降っ」「て」「き」「て」「怒っ」「て」「まし」「た」を出力する（ステップＳ５０）。
図７は、本実施の形態１に係る音声対話装置１００の形態素解析から応答生成までの処理の別の具体例を示した図である。
図７に示すように、これらの形態素について、感情推定（ステップＳ６０）し、応答文生成（ステップＳ７０）し、応答文「怒ってたんだ」を生成する。

一方、形態素について感情推定及び応答文生成を行うのと並行して、判定部１９０が、形態素解析結果である形態素「急に」「雨」「が」「降っ」「て」「き」「て」「怒っ」「て」「まし」「た」の中に期待語「優しくない」「怒る」と略一致するものがあるか否かを判定する（ステップＳ８０）。この例では形態素「怒っ」と期待語「怒る」とが略一致すると判定する。

判定部１９０は形態素と期待語とが略一致すると判定する（ステップＳ８０のＹｅｓ）と、判定結果を抑揚応答生成部２００に出力し、判定結果を受けた抑揚応答生成部２００は質問応答生成部１４０が保持している応答文「怒ってたんだ」から抑揚をつけた応答文「＜laugh＞怒ってたんだ」を生成して発話部１５０に出力し、発話部１５０が音声信号に変換してスピーカ２０を介して出力し、笑いながら「怒ってたんだ」と発話する（ステップＳ１００）。
そして、別のカテゴリ「リハビリ」を選択（ステップＳ１０）し、期待語「コーヒー」を抽出（ステップＳ２０）し、質問文「リハビリには最近行ってるの」を生成・発話（ステップＳ３０）して、対話を継続する。

なお、本実施の形態１では、話題選択部１７０がユーザプロファイルに記載されているカテゴリを選択したときに、条件生成部１８０が当該カテゴリに対応するポイントの各文章から期待語を抽出したが、記憶部１６０にユーザプロファイル５を記憶するときや、ユーザプロファイル５を更新するときに、当該ユーザプロファイルのポイントの各文章から期待語を抽出して、記憶部１６０にユーザプロファイルと対応させてあらかじめ記憶させおいても良い。つまり、ユーザプロファイルは、対話相手であるユーザと、話題であるカテゴリと、当該話題におけるポイントと、当該ポイントから抽出した期待語とを対応づけて記載したものであっても良い。この場合には、話題選択部１７０がカテゴリを選択したときに、条件生成部１８０はユーザプロファイルに記載された当該カテゴリに対応する期待語を判定部１９０に出力すれば良い。

また、本実施の形態１では、抑揚応答生成部２００は、判定部１９０が形態素と期待語とが略一致すると判定すると、質問応答生成部１４０が保持している応答文から抑揚をつけた応答文を生成して出力したが、抑揚応答生成部２００が、質問応答生成部１４０が保持している応答文や対話内容とは直接関係のない、抑揚をつけた応答文「＜laugh＞そうなんだー」、または、「＜surprise＞ほんとにー」を生成して出力したり、これらの応答文をあらかじめ保持しておき、ランダムに選択して出力したりしても良い。

また、本実施の形態１では、抑揚応答生成部２００が、抑揚をつけた応答文を生成するときに、笑い＜laugh＞や驚き＜surprise＞などにより感情を表現するが、抑揚応答生成部２００が表現する感情は笑い、驚きに限るものではなく、抑揚応答生成部２００があらかじめ多くの感情表現を保持しておき、抑揚をつけた応答文を生成するときにこれらの感情表現の中からランダムに、または、ルールに基づいて一つまたは複数を選択して応答文を生成するようにしても良い。

また、本実施の形態１では、質問応答生成部１４０が、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて、対話相手の発話１に対する応答文を生成するようにしたが、質問応答生成部１４０が、形態素解析結果である形態素を入力し、当該形態素に基づいて対話相手の発話１に対する応答文を生成するようにしても良い。すなわち、本実施の形態１に係る音声対話装置１００は、感情推定部１３０が省略された構成を備えていても良い。

また、本実施の形態１では、ロボットが音声対話装置１００の各構成を備えて音声対話処理を実行するようにしたが、ロボットを含む複数の装置、または、ロボットを含まない複数の装置が音声対話装置１００の各構成を分担して備えて、音声対話システムとして音声対話処理を実行するようにしても良い。例えば、ロボットが発話部１５０だけを備え、パソコンなどの外部装置が音声対話装置１００のその他の構成を備えて音声対話処理を実行するようにしても良い。

上述したように、本実施の形態１に係る音声対話装置１００は、ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、ユーザ、話題及び話題におけるポイントを対応づけて記憶する記憶部１６０と、対話相手に対応する記憶した話題を選択する選択部１７０と、選択した話題に対応する記憶したポイントから対話相手の発話についての条件を生成する条件生成部１８０と、選択した話題に基づいて質問を生成する質問生成部１４０と、対話相手の発話を解析した結果が条件を満足するか否かを判定する判定部１９０と、質問を発話した後に判定部１９０が満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部２００とを備えたものである。このような構成により、対話の山場を推定し、対話の中で抑揚をつけた応答を行うことができることができる。抑揚をつけた応答を行うことにより、対話相手の発話をいっそう促し、対話を盛り上げ、対話継続時間を向上させることができる。

また、本実施の形態１に係る音声対話装置１００は、条件生成部１８０が条件として期待語を生成し、判定部１９０が、解析結果と期待語との略一致を満足として判定するものである。
また、本実施の形態１に係る音声対話装置１００は、解析結果に基づいて対話相手の感情を推定する推定部１３０を更に備え、解析結果または推定結果に基づいて対話相手に対する応答を生成し、判定部１９０が満足を判定しないときに、解析結果または推定結果に基づく応答を発話するものである。
また、本実施の形態１に係る音声対話装置１００は、発話部１５０が抑揚をつけた応答を発話した後に、選択部１７０が選択した話題とは異なる話題を選択するものである。

（発明の実施の形態２）
以下、図面を参照して本実施の形態２の音声対話装置について説明する。
本実施の形態２の音声対話装置は、ユーザである対話相手の発話のなかに、ユーザが持つ特定の感情として抽出する期待感情が含まれていたときに、当該発話に対する応答を抑揚をつけて発話するものである。

まず、本実施の形態２に係る音声対話装置の構成について説明する。
図８は、本実施の形態２に係る音声対話装置３００の概略構成を示すブロック図である。音声対話装置３００は、音声認識部１１０、形態素解析部３１０、感情推定部３２０、質問応答生成部３３０、発話部１５０、記憶部１６０、話題選択部１７０、条件生成部３４０、判定部３５０、抑揚応答生成部３６０などを備える。
音声対話装置３００は、ロボット（図示せず）に組み込まれて、対話相手の発話１を当該ロボットが備えるマイク１０を介して入力し、対話相手への質問または応答２を当該ロボットが備えるスピーカ２０を介して音声出力する。

次に、音声対話装置３００の各構成についてその詳細を説明する。
音声対話装置３００の音声認識部１１０、発話部１５０、記憶部１６０、話題選択部１７０の構成及び動作は実施の形態１に係る音声対話装置１００のものと同様であり、説明を省略する。
形態素解析部３１０は、音声認識結果である文字列情報を入力し、形態素解析を行い、解析結果である形態素を感情推定部３２０及び質問応答生成部３３０に出力する。また、形態素解析部３１０は、話題選択部１７０が選択したカテゴリに対応するポイントを条件生成部３４０から入力し、形態素解析を行い、形態素を感情推定部３２０に出力する。

感情推定部３２０は、対話相手の発話１についての形態素解析結果である形態素を入力し、感情極性を抽出して感情を推定し、推定結果を質問応答生成部３３０に出力する。また、感情推定部３２０は、話題選択部１７０が選択したカテゴリに対応するポイントについての形態素解析結果を入力して感情を推定し、推定結果を条件生成部３４０に出力する。感情推定部３２０が推定する感情は、「ポジティブ・ニュートラル・ネガティブ」の３種類に大きく分類され、さらにポジティブは「嬉しい・楽しい・安心」の３種類、ネガティブは「恐い・悲しい・残念・嫌・寂しい・心配・腹立たしい」の７種類に細分類される。

質問応答生成部３３０は、形態素解析結果である形態素、または、感情推定結果である推定感情を入力し、形態素または推定感情に基づいて対話相手の発話１に対する応答文を生成する。また、質問応答生成部３３０は、判定部３５０から推定感情と期待感情とが一致しなかった旨の判定結果を入力したときに、生成した応答文を傾聴応答文として発話部１５０に出力する。また、質問応答生成部３３０は、話題選択部１７０が選択した話題に基づいて、質問文を生成して発話部１５０に出力する。

条件生成部３４０は、話題選択部１７０が選択したカテゴリについて、記憶部１６０が記憶するユーザプロファイル５中の対応するポイントを形態素解析部３１０に出力し、形態素解析部３１０で当該ポイントを解析させて解析結果を感情推定部３２０に出力させ、感情推定部３２０で当該解析結果から感情を推定させて、感情推定部３２０から当該推定結果を入力する。この推定した感情はユーザの特定の感情として抽出する期待感情であって、条件生成部３４０はこの期待感情をユーザの発話に現れることを期待する、ユーザの発話についての条件として判定部３５０に出力する。

判定部３５０は、条件生成部３４０が生成した期待感情を入力して保持する。また、判定部３５０は、対話相手の発話１について感情推定部３２０が推定した結果である感情を入力し、保持した期待感情と一致するものがあるか否かを判定する。そして、判定部３５０は、対話相手の発話１についての推定結果である感情と期待感情とが一致したときに、抑揚応答生成部３６０に一致した旨の判定結果を出力する。また、判定部３５０は、推定結果である感情と期待感情とが一致しなかったときに、質問応答生成部３３０に一致しなかった旨の判定結果を出力する。
抑揚応答生成部３６０は、判定部３５０が対話相手の発話１の解析結果の中に期待語が含まれると判定したときに、当該発話に対する抑揚をつけた応答文を生成して、発話部１５０に出力する。

次に、本実施の形態２に係る音声対話装置３００の動作について説明する。
図９は、本実施の形態２に係る音声対話装置３００の処理手順を示すフロチャートである。
音声対話装置３００が動作を開始または再開すると、話題選択部１７０がユーザプロファイル５の中から対話相手であるユーザに対応するカテゴリを選択する（ステップＳ３１０）。

また、条件生成部３４０が、話題選択部１７０が選択したカテゴリに基づいて、期待感情を抽出する（ステップＳ３２０）。
図１０は、本実施の形態２に係る音声対話装置３００のカテゴリ選択から期待感情抽出までの処理の具体例を示した図である。
話題選択部１７０が対話相手「Ａさん」についてユーザプロファイルに記載されているカテゴリ「ご主人」「リハビリ」の中からカテゴリ「ご主人」を選択すると、条件生成部３４０が、カテゴリ「ご主人」に対応するポイントの各文章「家族に優しくない」「よく怒る」を形態素解析部３１０に出力する。

形態素解析部３１０は、ポイントの各文章を形態素解析して、形態素「家族」「に」「優しく」「ない」及び「よく」「怒る」を感情推定部３２０に出力する。
感情推定部３２０は、入力した形態素の中から「何らかの感情が対応づけられる行動、事象、出来事」である事態を表す単語である「家族」「優しく／ない」及び「怒る」を検出して、感情極性を「嫌」「怒り」であると推定する。そして、感情推定部３２０は、推定した感情「嫌」「怒り」を条件生成部３４０に出力して返す。

条件生成部３４０は、入力した感情「嫌」「怒り」をそのまま期待感情として抽出し、判定部１９０に出力して保持させる。図１０に示した例では、判定部３５０はポイントの２つの文章からそれぞれ抽出した期待感情「嫌」「怒り」を登録する。
次に、質問応答生成部１４０が、話題選択部１７０が選択したカテゴリ「ご主人」に基づいて、質問文「ご主人は今日何してますか？」を生成し、発話部１５０がスピーカ２０を介して当該質問を発話する（ステップＳ３３０）。
図１１は、本実施の形態２に係る音声対話装置３００を備えるロボット「Ｘ」と、対話相手であるユーザ「Ａさん」との対話例を示す図である。以下、この対話例に沿って、音声対話装置３００の動作を説明する。

音声認識部１１０が上記質問に対する対話相手の発話「今日は散歩に行ってます」を音声認識する処理（ステップＳ３４０）から、質問応答生成部１４０が形態素解析（ステップＳ３５０）結果及び感情推定（ステップＳ３６０）結果である感情「ニュートラル」を用いて対話相手の発話「今日は散歩に行ってます」に対する応答文「散歩だね」を生成する処理（ステップＳ３７０）までの動作は、実施の形態１のステップＳ４０〜ステップＳ７０の動作と同様なので説明を省略する。

次に、判定部３５０は、質問応答生成部３３０による応答文生成処理（ステップＳ３７０）と並列して、感情推定結果である感情の中に期待感情と一致するものがあるか否か、この例では、感情推定結果である感情「ニュートラル」と期待感情「嫌」「怒り」とが一致するか否かを判定し、感情推定結果に期待感情と一致するものがないと判定する（ステップＳ３８０）。

判定部３５０が形態素の中に期待語と一致するものがないと判定する（ステップＳ３８０のＮｏ）と、質問応答生成部１４０は保持している応答文「散歩だね」を傾聴応答の応答文として発話部１５０に出力し、発話部１５０が音声信号に変換してスピーカ２０を介して出力し発話する（ステップＳ３９０）。
この後は、ステップＳ３４０〜ステップＳ３９０の処理が繰り返され、対話相手の発話「昨日も夕方出ていったんですけど」、ロボットの応答「夕方ね」という対話が進行する。

次に、対話相手が「急に雨が降ってきて大変でした」と発話すると、音声認識（ステップＳ３４０）し、形態素解析して形態素「急に」「雨」「が」「降っ」「て」「き」「て」「大変」「でし」「た」を出力する（ステップＳ３５０）。
図１２は、本実施の形態２に係る音声対話装置３００の形態素解析から応答生成までの処理の具体例を示した図である。

図１２に示すように、これらの形態素に基づいて事態「大変」を検出し、感情「嫌」を推定（ステップＳ３６０）し、応答文を生成（ステップＳ３７０）して、応答文「雨降ったね」を生成する。
一方、応答文生成（ステップＳ３７０）を行うのと並行して、判定部３５０が、感情推定結果である推定感情「嫌」と期待感情「嫌」「怖い」とが一致するか否かを判定する（ステップＳ３８０）。この例では推定感情「嫌」と期待感情「嫌」とが一致すると判定する。

判定部３５０が推定感情と期待感情とが一致すると判定する（ステップＳ３８０のＹｅｓ）と、判定結果を抑揚応答生成部３６０に出力し、判定結果を受けた抑揚応答生成部３６０は質問応答生成部３３０が保持している応答文「雨降ったね」から抑揚をつけた応答文「＜laugh＞雨降ったね」を生成して発話部１５０に出力し、発話部１５０が音声信号に変換してスピーカ２０を介して出力し、笑いながら「雨降ったね」と発話する（ステップＳ４００）。
そして、別のカテゴリを選択（ステップＳ３１０）し、期待語を抽出（ステップＳ３２０）し、質問文を生成・発話（ステップＳ３３０）して、対話を継続する。

上述したように、本実施の形態２に係る音声対話装置３００は、形態素解析結果に基づいて、対話相手の感情を推定する推定部３２０を更に備え、条件生成部３４０は条件として期待感情を生成し、判定部３５０は、推定結果と期待感情との一致を満足として判定するものである。このような構成により、対話の山場を推定し、対話の中で抑揚をつけた応答を行うことができることができる。
また、本実施の形態２に係る音声対話装置３００は、解析結果または推定結果に基づいて対話相手に対する応答を生成し、判定部１９０が満足を判定しないときに、解析結果または推定結果に基づく応答を発話するものである。

５ユーザプロファイル
１００、３００音声対話装置
１１０音声認識部
１２０、３１０形態素解析部
１３０、３２０感情推定部
１４０、３３０質問応答生成部
１５０発話部
１６０記憶部
１７０話題選択部
１８０、３４０条件生成部
１９０、３５０判定部
２００、３６０抑揚応答生成部

Claims

ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話装置であって、
ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、
対話相手に対応する前記記憶した話題を選択する選択部と、
前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、
前記選択した話題に基づいて質問を生成する質問生成部と、
前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、
前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えた
音声対話装置。
前記条件生成部は前記条件として期待語を生成し、
前記判定部は、前記解析結果と前記期待語との略一致を前記満足として判定する
請求項１記載の音声対話装置。
前記解析結果に基づいて前記対話相手の感情を推定する推定部を更に備え、
前記解析結果または前記推定結果に基づいて前記対話相手に対する応答を生成し、
前記判定部が前記満足を判定しないときに、前記解析結果または前記推定結果に基づく前記応答を発話する
請求項１または請求項２記載の音声対話装置。
前記解析結果に基づいて前記対話相手の感情を推定する推定部を更に備え、
前記条件生成部は前記条件として期待感情を生成し、
前記判定部は、前記推定結果と前記期待感情との一致を前記満足として判定する
請求項１記載の音声対話装置。
前記解析結果または前記推定結果に基づいて前記対話相手に対する応答を生成し、
前記判定部が前記満足を判定しないときに、前記解析結果または前記推定結果に基づく前記応答を発話する
請求項４記載の音声対話装置。
前記抑揚をつけた応答を発話した後に、前記選択部は前記選択した話題とは異なる話題を選択する
請求項１乃至請求項５のいずれか１項に音声対話装置。
ユーザである対話相手に対して質問を発話するとともに、当該対話相手の発話を音声認識して形態素解析することにより得られた結果に基づいて、当該対話相手に対する応答を生成して発話する音声対話システムであって、
ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する記憶部と、
対話相手に対応する前記記憶した話題を選択する選択部と、
前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する条件生成部と、
前記選択した話題に基づいて質問を生成する質問生成部と、
前記対話相手の発話を解析した結果が前記条件を満足するか否かを判定する判定部と、
前記質問を発話した後に前記判定部が前記満足を判定したときに、抑揚をつけた応答を生成する抑揚応答生成部とを備えた
音声対話システム。
コンピュータに、
ユーザ、話題及び前記話題におけるポイントを対応づけて記憶する手順、
前記ユーザである対話相手に対応する前記記憶した話題を選択する手順、
前記選択した話題に対応する前記記憶したポイントから前記対話相手の発話についての条件を生成する手順、
前記選択した話題に基づいて前記対話相手への質問を生成して発話する手順、
前記質問を発話した後の前記対話相手の発話を音声認識して形態素解析する手順、
前記解析の結果に基づいて、前記対話相手の発話が前記条件を満足するか否かを判定する手順、
前記満足を判定したときに、前記対話相手の発話に対する抑揚をつけた応答を生成して発話する手順
を実行させるための音声対話プログラム。