JP6842095B2

JP6842095B2 - 対話方法、対話システム、対話装置、およびプログラム

Info

Publication number: JP6842095B2
Application number: JP2019504381A
Authority: JP
Inventors: 弘晃杉山; 宏美成松; 雄一郎吉川; 尊優飯尾; 庸浩有本; 石黒　浩; 浩石黒
Original assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Priority date: 2017-03-10
Filing date: 2018-01-26
Publication date: 2021-03-17
Anticipated expiration: 2038-01-26
Also published as: JPWO2018163647A1; US11222634B2; US20200013404A1; WO2018163647A1

Description

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。

近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育（例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など）など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。

本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。

これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。

上記のエージェントの一例として、例えば、非特許文献１に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。

また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献２に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。

また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献３に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献３には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献４に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。

河原達也，"話し言葉による音声対話システム"，情報処理，vol.45，no. 10，pp. 1027-1031，2004年10月有本庸浩，吉川雄一郎，石黒浩，"複数体のロボットによる音声認識なし対話の印象評価"，日本ロボット学会学術講演会，2016年杉山弘晃，目黒豊美，東中竜一郎，南泰浩，"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成"，人工知能学会論文誌，vol.30(1)，pp. 183-194，2015年目黒豊美，杉山弘晃，東中竜一郎，南泰浩，"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築"，人工知能学会全国大会論文集，vol. 28，pp. 1-4，2014年

ユーザ発話の音声認識に失敗すると、対話システムが不自然な応答をしてしまい、対話が破綻する原因となる。確実に音声認識が可能な発話や単語をあらかじめ定めておく方法も考えられるが、その後の対話が不自然なものになりやすく、ユーザの発話を聞いていない印象を与えるおそれもある。

また、ユーザはしばしばエージェントが発話している途中に割り込んで発話することがある。このような発話はインタラプトと呼ばれる。ユーザがインタラプトしたときにエージェントの発話をいきなり停止すると、違和感が生じる。また、インタラプトがエージェントへの質問である場合、それに答えられないおそれもある。

さらに、インタラプトではない通常のユーザ発話であっても、応答しにくい発話がなされる場合はある。特に、話題を遷移させたいときにはユーザの発話内容を反映して遷移させることが望ましいが、必ずしもユーザの発話内容に合致した応答を対話システムが決定できるわけではない。

この発明の目的は、上述のような点に鑑みて、対話システムが提示したい話題へ対話を誘導し、対話を長く続けることができる対話システム、対話装置を実現することである。

上記の課題を解決するために、この発明の第一の態様の対話方法は、ある発話である第一発話と第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、提示部が、第一発話を提示する第一提示ステップと、入力部が、第一発話後にユーザのユーザ発話を受け付ける発話受付ステップと、提示部が、ユーザ発話の認識結果と目的発話の発話文とに基づいて目的発話へ話題を誘導するための少なくとも一つの話題誘導発話をユーザ発話後に提示する第二提示ステップと、提示部が、目的発話を話題誘導発話後に提示する第三提示ステップと、を含む。

この発明の第二の態様の対話方法は、ユーザのユーザ発話に関連する目的発話をユーザへ提示する対話システムが実行する対話方法であって、入力部が、ユーザ発話を受け付ける発話受付ステップと、提示部が、ユーザ発話の認識結果に基づいて目的発話へ話題を誘導するための少なくとも一つの話題誘導発話をユーザ発話後に提示する第一提示ステップと、提示部が、目的発話を話題誘導発話後に提示する第二提示ステップと、を含む。

この発明によれば、対話システムからの発話に対するユーザ発話の音声認識結果を少なくとも含むユーザの行動認識結果に基づいて、対話システムが提示したい話題に誘導するための発話を提示するため、自然な流れでその話題へ対話を誘導することができる。これにより、対話を長く続けることができる対話システム、対話装置を実現することが可能となる。

図１は、第一実施形態の対話システムの機能構成を例示する図である。図２は、第一実施形態の対話方法の処理手続きを例示する図である。図３は、第二実施形態の対話方法の処理手続きを例示する図である。図４は、変形例の対話システムの機能構成を例示する図である。

この発明では、対話システムがユーザへ質問を行う第一発話を提示し、その第一発話に対するユーザの発話に応じて、第一発話に関連して対話システムが提示したい発話へ話題を誘導するための話題誘導発話を提示する。音声認識により得られたユーザ発話の内容が質問から想定される範囲内であった場合、そのユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。ユーザ発話の行動認識に失敗した場合、第一発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。肯定的な内容か否定的な内容かは認識できたがそれ以外の情報は音声認識では得られなかった場合、ユーザ発話に対して同調する発話を提示した後に、第一発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。

音声認識により得られたユーザ発話の内容が質問から想定される範囲外であった場合、そのユーザ発話はインタラプトであると判定できる。この場合、ユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。この際、事前に決定していた目的発話の内容を、ユーザ発話の内容に応じて変更することもできる。

ユーザ発話が対話システムからの質問に答えるものではなく、直前までの対話と関係なく独立にされる場合であっても、この発明は適用することができる。例えば、対話システムにあらかじめ記憶されているシナリオの中に、ユーザ発話の内容に近いものがなかったとき、選択したシナリオに含まれる発話を目的発話として、ユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示すればよい。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の対話システムは、複数台の人型ロボットが協調してユーザとの対話を行うシステムである。すなわち、第一実施形態の対話システムは、エージェントが人型ロボットである場合の一例である。対話システム１００は、図１に示すように、例えば、対話装置１と、少なくともマイクロホン１１を備える入力部１０と、少なくともスピーカ５１を備える提示部５０とを含む。入力部１０は、マイクロホン１１に加えて、カメラ１２を備えていてもよい。対話装置１は、例えば、行動認識部２０、発話決定部３０、および音声合成部４０を備える。行動認識部２０は、少なくとも音声認識部２１を備え、動作認識部２２を備えていてもよい。この対話システム１００が後述する各ステップの処理を行うことにより第一実施形態の対話方法が実現される。

対話装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置１の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

［入力部１０］
入力部１０は提示部５０と一体もしくは部分的に一体として構成してもよい。図１の例では、入力部１０の一部であるマイクロホン１１−１、１１−２が、提示部５０である人型ロボット５０−１、５０−２の頭部（耳の位置）に搭載されている。また、図１の例では入力部１０の一部であるカメラ１２が独立して設置されているが、例えば、人型ロボット５０−１、５０−２の頭部（目の位置）に搭載されていてもよい。図１の例では、提示部５０は二台の人型ロボット５０−１、５０−２から構成されているが、人型ロボットは複数台あればよく、三台以上の人型ロボットから構成されていてもよい。

入力部１０は、ユーザの発話を対話システム１００が取得するためのインターフェースである。言い換えれば、入力部１０は、ユーザの発話の発話音声や身体的な動作を対話システム１００へ入力するためのインターフェースである。例えば、入力部１０はユーザの発話音声を収音して音声信号に変換するマイクロホン１１である。マイクロホン１１は、ユーザ１０１が発話した発話音声を収音可能とすればよい。つまり、図１は一例であって、マイクロホン１１−１，１１−２の何れか一方を備えないでもよい。また、ユーザ１０１の近傍などの人型ロボット５０−１，５０−２とは異なる場所に設置された１個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、マイクロホン１１−１，１１−２の双方を備えない構成としてもよい。マイクロホン１１は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン１１が出力した音声信号は、行動認識部２０の音声認識部２１へ入力される。また、例えば、入力部１０は、マイクロホン１１に加えて、ユーザの身体的な動作を収録して映像信号に変換するカメラ１２も備えてもよい。カメラ１２はユーザ１０１の身体動作を収録可能とすればよい。つまり、図１は一例であって、カメラ１２は１個のカメラでもよいし複数のカメラでもよい。カメラ１２が、変換により得たユーザの身体動作の映像信号を出力する。カメラ１２が出力した映像信号は、行動認識部２０の動作認識部２２へ入力される。

［行動認識部２０］
行動認識部２０は、マイクロホン１１が収音したユーザの発話音声の音声信号を少なくとも入力として、音声認識部２１を少なくとも用いて、音声認識部２１が得た音声認識結果を少なくとも含むユーザの行動認識結果を得て、発話決定部３０に対して出力する。なお、行動認識部２０は、カメラ１２が収録したユーザの身体動作の映像信号も入力として、動作認識部２２も用いて、動作認識部２２が得たユーザの発話の動作認識結果も含むユーザの行動認識結果を得て、発話決定部３０に対して出力してもよい。

［音声認識部２１］
音声認識部２１は、マイクロホン１１から入力されたユーザの発話音声の音声信号を音声認識してユーザ発話の音声認識結果を得て出力する。音声認識部２１が出力したユーザの発話の音声認識結果は行動認識部２０がユーザの行動認識結果に含めて出力する。音声認識の方法や音声認識結果の詳細については後述する。

［動作認識部２２］
動作認識部２２は、カメラ１２から入力されたユーザの身体動作の映像信号から、ユーザの動作認識結果を得て出力する。動作認識部２２が出力したユーザの発話の動作認識結果は行動認識部２０がユーザの行動認識結果に含めて出力する。動作認識の方法や動作認識結果の詳細については後述する。

［発話決定部３０］
発話決定部３０は、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。行動認識部２０からユーザの行動認識結果が入力された場合には、入力されたユーザの行動認識結果に含まれるユーザの発話の音声認識結果に少なくとも基づいて、対話システム１００からの発話内容を表すテキストを決定し、音声合成部４０に対して出力する。なお、対話システム１００の提示部５０が複数の人型ロボットで構成される場合には、発話決定部３０は、当該発話をいずれの人型ロボットが提示するかを決定してもよい。この場合には、当該発話を提示する人型ロボットを表す情報も併せて音声合成部４０へ出力する。また、この場合には、発話決定部３０は、当該発話を提示する相手、すなわち、当該発話をユーザに対して提示するのか、何れかの人型ロボットに対して提示するのか、を決定してもよい。この場合には、当該発話を提示する相手を表す情報も併せて音声合成部４０へ出力する。

［音声合成部４０］
音声合成部４０は、発話決定部３０から入力された発話内容を表すテキストを、発話内容を表す音声信号に変換し、提示部５０に対して出力する。音声合成部４０が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、発話決定部３０から発話内容を表すテキストと共に当該発話を提示する人型ロボットを表す情報が入力された場合には、音声合成部４０は、当該情報に対応する人型ロボットへ発話内容を表す音声信号を出力する。また、発話決定部３０から発話内容を表すテキストと当該発話を提示する人型ロボットを表す情報に併せて発話を提示する相手を表す情報も入力された場合には、音声合成部４０は、当該情報に対応する人型ロボットへ発話内容を表す音声信号と発話を提示する相手を表す情報を出力する。

［提示部５０］
提示部５０は、発話決定部３０が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部５０は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ５１から発音する、すなわち、発話を提示する。スピーカ５１は、音声合成部４０から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図１は一例であって、スピーカ５１−１，５１−２の何れか一方を備えないでもよい。また、ユーザ１０１の近傍などの人型ロボット５０−１，５０−２とは異なる場所に１個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、スピーカ５１−１，５１−２の双方を備えない構成としてもよい。また、人型ロボットは、顔の表情や、身体の動作等の非言語的な行動により発話決定部３０が決定した発話内容をユーザへ提示してもよい。例えば、直前の発話に対して同意する旨を提示する際には、首を縦に振り、同意しない旨を提示する際には、首を横に振るなどの非言語的な行動を提示することが挙げられる。また、人型ロボットは、発話を提示する際に、顔や体全体をユーザまたは他の人型ロボットの方へ向けることで、顔や身体を向いた方にいるユーザまたは他の人型ロボットに対して発話を提示していることを表現することができる。提示部５０を人型ロボットとした場合には、対話に参加する人格（エージェント）ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット５０−１および５０−２が存在するものとする。なお、発話決定部３０が当該発話をいずれの人型ロボットから提示するかを決定していた場合には、音声合成部４０が出力した発話内容を表す音声信号を受け取った人型ロボット５０−１または５０−２が当該発話を提示する。また、発話決定部３０が決定した発話を提示する相手を表す情報が入力された場合には、人型ロボット５０−１または５０−２は、発話を提示する相手を表す情報に対応する人型ロボットまたはユーザの方向へ顔や視線を向けた状態で、発話を提示する。

以下、図２を参照して、第一実施形態の対話方法の処理手続きを説明する。

ステップＳ１１において、対話システム１００は、第一発話の内容を表す音声を、人型ロボット５０−１が備えるスピーカ５１−１から出力する、すなわち、第一発話を提示する。第一発話の内容を表す音声は、発話決定部３０が決定した第一発話の内容を表すテキストを音声合成部４０が音声信号に変換したものである。第一発話の内容を表すテキストは、発話決定部３０が、例えば、あらかじめ定められ発話決定部３０内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献２に記載されたシナリオ対話システムや非特許文献３または４に記載された雑談対話システムなどを用いることができる。発話決定部３０がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部３０は、直前の５発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部３０内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより第一発話の内容を表すテキストを決定する。発話決定部３０が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部３０は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部３０内の図示しない記憶部に記憶しておいたルールに従って第一発話の内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って第一発話の内容を表すテキストを決定してもよい。

発話決定部３０は、第一発話の内容を表すテキストと、目的発話の内容を表すテキストと、を決定する。目的発話の内容は、第一発話の内容に関連するものであり、対話システムが対話することを所望する話題に関する発話である。発話決定部３０は、さらに、目的発話に続く発話を決定しておいてもよい。発話決定部３０がシナリオ対話システムによりあらかじめ記憶されたシナリオを選択する場合には、第一発話および目的発話は、一つのシナリオに含まれる発話としてあらかじめ用意された発話である。発話決定部３０が雑談対話システムにより発話を決定する場合には、第一発話の内容を表すテキストを雑談対話システムに入力して目的発話を決定する。さらに、決定された目的発話を再帰的に雑談対話システムへ入力していくことで、目的発話に続く発話も決定することができる。

ステップＳ１２において、マイクロホン１１は、ユーザ１０１が発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。マイクロホン１１が取得したユーザの発話内容を表す音声信号は音声認識部２１へ入力される。音声認識部２１は、マイクロホン１１が取得したユーザの発話内容を表す音声信号を音声認識する。

音声認識部２１が行う音声認識の方法としては、第一発話の内容によって、例えば、Ａ．ｘ択認識、Ｂ．ポジネガ認識、Ｃ．妥当性認識などを適宜用いる。

Ａ．ｘ択認識とは、対話の流れからあらかじめ想定される範囲の単語に限定して認識することで、誤認識を抑制する音声認識の手法である。想定される範囲としては、想定単語そのもの、店名など単語のカテゴリが一致するもの、否定形の有無などが考えられる。例えば、あらかじめ想定される範囲にある単語数がｘ個（ｘは自然数）であることから、本明細書ではｘ択認識と呼んでいる。すなわち、あらかじめ想定される範囲にある単語数が２個であれば二択の音声認識、あらかじめ想定される範囲にある単語数が３個であれば三択の音声認識、ということである。音声認識部２１がｘ択認識を行う場合には、音声認識部２１内であらかじめ想定される範囲のｘ個の単語を得るために、音声認識部２１にはマイクロホン１１で取得したユーザの発話内容を表す音声信号に加えて発話決定部３０が決定した第一発話の内容を表すテキストも入力される。音声認識部２１は、ｘ択認識を行う場合には、あらかじめ想定される範囲のｘ個の単語のうちの何れの単語にユーザの発話内容を表す音声信号が対応するかを認識する。そして、音声認識部２１は、認識できた場合には、ユーザの発話内容を表す音声信号が対応する単語を表す情報を、認識できなかった場合には、認識失敗を表す情報を、ｘ択認識の結果としてユーザ発話の音声認識結果に含めて出力する。

また、音声認識部２１は、まず、マイクロホン１１で取得したユーザの発話内容を表す音声信号を音声認識して認識結果のテキストを得て、次に、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語であるか何れの単語でもないかをチェックして、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語である場合には、ユーザの発話内容を表す音声信号が対応する単語を表す情報を、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語でもない場合には、認識失敗を表す情報を、ｘ択認識の結果としてもよい。

以上説明したように、音声認識部２１がＡ．ｘ択認識を行う場合には、音声認識部２１にはマイクロホン１１で取得したユーザの発話内容を表す音声信号と発話決定部３０が決定した第一発話の内容を表すテキストとが少なくとも入力され、音声認識部２１は、ユーザの発話内容を表す音声信号が対応する単語を表す情報、または、認識失敗を表す情報、をｘ択認識の結果としてユーザ発話の音声認識結果に含めて出力する。

なお、単語ではなくカテゴリについてのｘ択認識を行ってもよい。この場合には、例えば、音声認識部２１にはマイクロホン１１で取得したユーザの発話内容を表す音声信号と発話決定部３０が決定した第一発話の内容を表すテキストとが少なくとも入力され、音声認識部２１は、ユーザの発話内容を表す音声信号が対応するカテゴリを表す情報、または、認識失敗を表す情報、をｘ択認識の結果としてユーザ発話の音声認識結果に含めて出力する。この場合は、対話システム１００は、以降の処理においても、単語に代えてカテゴリを用いる。

また、ｘ択認識の単語やカテゴリを第一発話の内容を表すテキストに基づかずに予め決められる場合には、音声認識部２１には第一発話の内容を表すテキストを入力せず、例えば、予め定めて図示しない記憶部に記憶した単語を用いてｘ択認識をしてもよい。また、例えば、第一発話以前のユーザと対話システム１００による対話に基づいて、予め定めて図示しない記憶部に記憶した単語のうちの一部の単語を選択し、選択した単語を用いてｘ択認識をしてもよい。

Ｂ．ポジネガ認識とは、対話の流れからユーザの発話がポジティブな内容か、ネガティブな内容かだけ認識できれば十分な場合に用いられる手法である。例えば、対話システムがYes/Noで答えられる質問を提示した後であれば、発話の一部を誤認識していても、発話が否定形で終わっている場合には、ユーザが全体としてNoを意図して発話している可能性が高い。音声認識部２１がＢ．ポジネガ認識を行う場合には、例えば、音声認識部２１にはマイクロホン１１で取得したユーザの発話内容を表す音声信号と発話決定部３０が決定した第一発話の内容を表すテキストとが入力され、音声認識部２１は、ユーザの発話内容を表す音声信号が第一発話に対してポジティブな内容であるかネガティブな内容であるかを認識する。そして、音声認識部２１は、認識できた場合には、ユーザの発話内容を表す音声信号が第一発話に対してポジティブな内容であることを表す情報、または、ユーザの発話内容を表す音声信号が第一発話に対してネガティブな内容であることを表す情報を、認識できなかった場合には、認識失敗を表す情報を、ポジネガ認識の結果としてユーザの発話の音声認識結果に含めて出力する。

Ｃ．妥当性認識とは、マイクロホン１１で取得したユーザの発話内容を表す音声信号を音声認識して認識結果として得たテキストが構文や意味的に発話として妥当なテキストであるか否かを得る手法である。音声認識部２１がＣ．妥当性認識を行う場合には、音声認識部２１にはマイクロホン１１で取得したユーザの発話内容を表す音声信号が少なくとも入力され、音声認識部２１は、ユーザの発話内容を表す音声信号を音声認識して認識結果のテキストを得て、得たテキストが構文や意味的に発話として妥当なテキストであるか否かを判定する。そして、音声認識部２１は、得たテキストが構文や意味的に発話として妥当なテキストである場合には、妥当発話であることを表す情報と認識結果のテキストとを、得たテキストが構文や意味的に発話として妥当なテキストでない場合には、非妥当発話であることを表す情報を、妥当性認識の結果としてユーザの発話の音声認識結果に含めて出力する。

ステップＳ１３において、カメラ１２は、ユーザ１０１の身体動作を受け付けてもよい。この場合には、カメラ１２が取得したユーザの身体動作の映像信号は動作認識部２２へ入力される。動作認識部２２は、カメラ１２が取得したユーザの身体動作の映像信号に基づいて、ユーザの発話の動作認識結果を得て出力する。動作認識部２２がユーザのYes/Noの意図を認識する場合には、動作認識部２２は、例えば、カメラ１２が取得したユーザの身体動作の映像信号に含まれるユーザの表情や首をかしげたり振ったりした動作などから、Yes/Noの意図、すなわち、ユーザの発話の動作が第一発話に対してポジティブな内容であるかネガティブな内容であるかを認識する。そして、動作認識部２２は、認識できた場合には、ユーザの発話の動作が第一発話に対してポジティブな内容であることを表す情報、または、ネガティブな内容であることを表す情報を、認識できなかった場合には、認識失敗を表す情報を、ポジネガ認識の結果としてユーザの発話の動作認識結果に含めて出力する。

動作認識部２２が行う動作認識の方法は、例えば、ユーザの表情の変化やユーザの頭部の動きなどを利用する方法である。この方法では、動作認識部２２は、入力された映像信号からユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴（例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等）の変化であるユーザの動作内容を取得する。動作認識部２２は、取得したユーザの動作内容に、動作認識部２２内の図示しない記憶部に記憶されたあらかじめ定めた動作が含まれる場合に、ユーザの発話の動作が第一発話に対してポジティブな内容である、もしくは、ネガティブな内容であることを認識する。例えば、ユーザが頷きながら発話した場合には、ポジティブ(Yes)を意図しているとみなすことができ、ユーザが首を傾げたり振ったりしながら発話した場合には、ネガティブ(No)を意図しているとみなすことができることから、動作認識部２２内の図示しない記憶部には、あらかじめ定めた動作としてこれらの動作を記憶しておく。

ステップＳ１４において、発話決定部３０は、行動認識部２０が出力したユーザの行動認識結果を受け取り、すなわち、少なくとも音声認識部２１が出力したユーザ発話の音声認識結果を受け取り、ユーザ発話の音声認識結果、および、目的発話の内容を表すテキストに少なくとも基づいて、目的発話へ話題を誘導するための話題誘導発話の内容を表すテキストを決定する。話題誘導発話は、一つの発話であってもよいし、複数の発話であってもよい。発話決定部３０は話題誘導発話を提示する人型ロボットを決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報を出力する。また、発話決定部３０は話題誘導発話を提示する相手を決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報を出力する。

発話決定部３０は、ユーザ発話の音声認識結果に少なくとも基づいて、下記の分類に応じた話題誘導発話を決定する。分類は、具体的には、１．音声認識により得られたユーザ発話の内容が想定範囲内であった場合（以下、「１．想定内の発話」と呼ぶ）、２．行動認識に失敗した場合（以下、「２．行動認識失敗」と呼ぶ）、３．行動認識により肯定的か否定的かは認識できたが、それ以外の情報は音声認識では得られなかった場合（以下、「３．認識一部成功」と呼ぶ）、４．音声認識により得られたユーザ発話の内容が想定範囲外であった場合、すなわち、ユーザが第一発話の内容や意図を無視して勝手な発話をした場合（以下、「４．想定外の発話」と呼ぶ）、である。

発話決定部３０が、行動認識部２０から入力されたユーザの行動認識結果がどのような場合に、上記の「１．想定内の発話」「２．行動認識失敗」「３．認識一部成功」「４．想定外の発話」の何れの分類であると判定するかは、第一発話の内容と、行動認識部２０内の音声認識部２１が行った音声認識の手法や行動認識部２０内の動作認識部２２が行った動作認識の手法に基づく。以下では、５つの例を説明する。

［ケース１：第一発話が、ｘ択の何れかであるかと、Yes/Noと、を尋ねる質問である場合］
このケースでは、行動認識部２０ではｘ択認識とポジネガ認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部３０に入力される。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が単語を表す情報である場合には「１．想定内の発話」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「２．行動認識失敗」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果がポジティブな内容であることを表す情報またはネガティブな内容であることを表す情報である場合には、「３．認識一部成功」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「４．想定外の発話」であると判定する。

［ケース２：第一発話を提示しているときにユーザが発話した場合］
このケースでは、行動認識部２０では妥当性認識が行われ、妥当性認識の結果がユーザの行動認識結果として発話決定部３０に入力される。

発話決定部３０は、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「４．想定外の発話」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「２．行動認識失敗」であると判定する。

［ケース３：第一発話がYes/Noを尋ねる質問である場合］
このケースでは、行動認識部２０ではポジネガ認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部３０に入力される。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果がポジティブな内容であることを表す情報またはネガティブな内容であることを表す情報である場合には、「１．想定内の発話」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「２．行動認識失敗」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「４．想定外の発話」であると判定する。

［ケース４：第一発話がｘ択の何れかであるかを尋ねる質問である場合］
このケースでは、行動認識部２０ではｘ択認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部３０に入力される。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「２．行動認識失敗」であると判定する。

発話決定部３０は、入力されたユーザの行動認識結果に含まれるｘ択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「４．想定外の発話」であると判定する。

［ケース５：第一発話がオープン質問である場合］
このケースでは、行動認識部２０ではｘ択認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部３０に入力される。また、行動認識部２０では、ｘ択認識が行われる。

次に、発話決定部３０が、「１．想定内の発話」「２．行動認識失敗」「３．認識一部成功」「４．想定外の発話」の何れの分類であると判定した場合に、どのような話題誘導発話を決定するかを説明する。なお、発話決定部３０は、後述する［第一実施形態の具体例］で説明するような話題誘導発話を決定してもよい。

「１．想定内の発話」の場合、発話決定部３０は、ユーザ発話に含まれるいずれかの単語から容易に連想され、かつ目的発話の焦点語のいずれかを連想させる話題誘導発話を決定する。発話決定部３０は、まず、ユーザ発話に含まれる各単語から連想される単語と、目的発話の各焦点語を連想させる単語と、をそれぞれ連想語として抽出する。連想語の抽出方法としては、あらかじめ大規模なテキストコーパス中の単語の係り受け関係や共起関係を記憶しておき、ある単語と関係のある単語を出力する方法、同義語・類似語辞書を利用して同義語・類義語を出力する方法、word2vecなどの単語を意味ベクトルに変換する方法を利用して距離の近い意味ベクトルを持つ単語を出力する方法などが考えられる。これらの方法では、単語が複数出力される場合があるが、その場合には、複数の単語による集合から、ランダムに選択して１つの単語を出力する方法や、目的発話の焦点語と連想単語の距離が近いものを優先して出力する方法などを採用すればよい。そして、発話決定部３０は、発話決定部３０の図示しない記憶部に記憶された発話文のうち、ユーザ発話の連想語と目的発話の連想語の両方を含む発話文から文脈に沿ったものを選択することで、話題誘導発話を決定する。決定する話題誘導発話は、複数の発話を含み、複数段階の連想を経てユーザ発話に含まれる単語のいずれかから目的発話の焦点語のいずれかを連想させる発話であってもよい。

「２．行動認識失敗」の場合、第一発話に関連する一つ以上の発話と、目的発話の焦点語のいずれかを連想させる話題誘導発話と、を決定する。第一発話に関連する一つ以上の発話は、様々なパターンが考えられる。例えば、第一発話を提示した人型ロボット５０−１が他の人型ロボット５０−２に対して提示するための、第一発話と同様の内容の発話と、これに対して人型ロボット５０−２が提示するための、第一発話の内容から想定される応答を内容とする発話とが挙げられる。また例えば、第一発話を提示した人型ロボット５０−１以外の人型ロボット５０−２が第一発話を提示した人型ロボット５０−１に対して提示するための、第一発話の意図に直接答えないが第一発話の内容に関連する発話が挙げられる。また例えば、第一発話を提示した人型ロボット５０−１以外の人型ロボット５０−２が第一発話を提示した人型ロボット５０−１に対して提示するための、第一発話の意図に沿った応答を内容とする発話と、さらにその理由付けなどの付加情報を含む発話とが挙げられる。

「３．認識一部成功」の場合、ユーザ発話が肯定的な内容であると判定されたときは、第一発話を提示した人型ロボット５０−１が提示するための、ユーザに対して同意できる旨の発話と、その発話と矛盾なく目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。ユーザ発話が否定的な内容であると判定されたときは、第一発話を提示した人型ロボット５０−１が提示するための、ユーザに対して同意できない旨の発話と、他の人型ロボット５０−２がユーザに対して提示するための、同意できる旨もしくは同意できない旨の発話と、それらの発話と矛盾なく目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。

「４．想定外の発話」の場合、ユーザ発話に関連する複数の発話と、目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。ユーザ発話に関連する複数の発話は、複数の人型ロボットが分担して提示するように、各発話を提示する人型ロボットを決定してもよい。目的発話が複数の発話からなるとき、ユーザ発話の話題が目的発話の二番目以降の発話に繋げた方がより自然な流れになる場合は、目的発話の一部を省略してもよい。また、ユーザ発話の話題が目的発話のいずれの発話にも繋げるのが難しい場合には、決定していた目的発話を破棄して、他の発話を新たな目的発話として再選択してもよい。

ステップＳ１５において、音声合成部４０は、話題誘導発話の内容を表すテキストを話題誘導発話の内容を表す音声信号に変換し、提示部５０は、発話内容を表す音声信号に対応する音声を、人型ロボット５０−１が備えるスピーカ５１−１または人型ロボット５０−２が備えるスピーカ５１−２から出力する。発話決定部３０から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報が入力された場合、提示部５０は、当該情報に対応する人型ロボット５０が備えるスピーカ５１から当該話題誘導発話の内容を表す音声を出力する。発話決定部３０から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報が入力された場合、提示部５０は、当該情報に対応する相手のいる方向へ人型ロボット５０の顔もしくは体全体を向けて当該話題誘導発話の内容を表す音声を出力する。

ステップＳ１６において、音声合成部４０は、目的発話の内容を表すテキストを目的発話の内容を表す音声信号に変換し、提示部５０は、目的発話の発話内容を表す音声信号に対応する音声を、人型ロボット５０−１が備えるスピーカ５１−１または人型ロボット５０−２が備えるスピーカ５１−２から出力する。発話決定部３０から目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報が入力された場合、提示部５０は、当該情報に対応する人型ロボット５０が備えるスピーカ５１から当該目的発話の内容を表す音声を出力する。発話決定部３０から目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報が入力された場合、提示部５０は、当該情報に対応する相手のいる方向へ人型ロボット５０の顔もしくは体全体を向けて当該目的発話の内容を表す音声を出力する。

以降、対話システムは目的発話の内容を話題とした発話を行うことで、ユーザとの対話を続行する。例えば、目的発話をシナリオ対話システムにおいて用いられている技術により生成した場合には、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システムとの間で実行されるように、対話システムはシナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、目的発話を雑談対話システムにおいて用いられている技術により生成した場合には、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を提示する人型ロボットは、何れか一台の人型ロボットであってもよいし、複数台の人型ロボットであってもよい。

［第一実施形態の具体例］
以下、第一実施形態による対話内容の具体例を示す。以降の具体例の記載では、Ｒはロボットを表し、Ｈはユーザを表す。Ｒの後の数字は人型ロボットの識別子である。t(i)（i=0, 1, 2, …）は対話中の発話または行動を表し、特に、t(1)は第一発話、t(2)は第一発話に対するユーザ発話、t(3)は話題誘導発話、t(4)は目的発話を表す。各発話または行動の記載順は、その発話または行動を提示または表出する順番を表す。各発話が複数の発話からなる場合、t(i-j)と表す。例えば、話題誘導発話が３つの発話を含む場合、話題誘導発話はt(3-1), t(3-2), t(3-3)で表す。

（具体例１−１：想定内の発話、連想による話題の誘導）
具体例１−１は、ユーザ発話の音声認識結果が第一発話の内容から想定される範囲内であったときに、連想による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：いや、そばかな
t(3) Ｒ２：だよね。そばってヘルシーな感じ。
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、対話システムが提示したい目的発話t(4)の焦点語の一つである「健康」を連想によって導くために、第一発話t(1)に対して発せられ第一発話t(1)の内容から想定される範囲内であったユーザ発話t(2)の後に、第一発話t(1)を発した人型ロボットＲ１とは異なる人型ロボットＲ２が「ヘルシー」を含む話題誘導発話t(3)を発話している。これにより、現在の対話が「健康」を話題としていることを認めている参加者が多数派である状態となり、話題を誘導することができる。一方で、第一発話t(1)に対するユーザ発話であるユーザの回答t(2)に対しては賛同を示す（「だよね。」の部分）ことで、ユーザが完全に少数派となり疎外感を与えないように配慮している。このとき、賛同を示す発話を行うのは、話題誘導発話t(3)を発話する人型ロボットＲ２であってもよいし、他の人型ロボットＲ１であってもよい。

（具体例１−２：想定内の発話、連想による話題の誘導、複数発話）
具体例１−２は、ユーザ発話の音声認識結果が第一発話の内容から想定される範囲内であったときに、複数段階の連想による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：うどんかな
t(3-1) Ｒ２：うどんと言えば香川だね
t(3-2) Ｒ１：うん、あ、でもこの間、和歌山で食べたうどんもおいしかったよ
t(3-3) Ｒ２：そうなの？和歌山はラーメンだけかと思ってた
t(3-4) Ｒ１：うどんも有名だよ。でも確かに和歌山はどっちかっていえばラーメンかなあ。
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられ第一発話t(1)の内容から想定される範囲内であったユーザ発話t(2)に含まれる単語「うどん」から、複数の話題誘導発話t(3-1)〜t(3-4)によって「うどん」→「香川」→「和歌山」→「ラーメン」のように複数段階の連想を経て、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を導いている。これらの話題誘導発話t(3-1)〜t(3-4)を複数の人型ロボットが分担して発話することで、現在の対話が「ラーメン」を話題としている参加者が多数派である状態となり、話題を誘導することができる。

（具体例２−１：行動認識失敗、他のロボットへ同じ発話）
具体例２−１は、ユーザ発話の行動認識に失敗したときに、他のロボットへ同じ内容の発話を提示して、他のロボットがこれに回答することで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＊＊＊（行動認識失敗）
t(3-1) Ｒ１：そっか、君は？
t(3-2) Ｒ２：ラーメン
t(3-3) Ｒ１：だよね
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、第一発話t(1)を提示した人型ロボットＲ１が他の人型ロボットＲ２に第一発話t(1)と同様の発話t(3-1)をユーザ発話t(2)の後に提示し、これに対して対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を回答する話題誘導発話t(3-2)を提示し、さらに人型ロボットＲ１が賛同する発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。このとき、一般的に同意される可能性が高い回答をする発話t(3-2)を提示しておくと、ユーザの意図を汲むものとなりやすい。

（具体例２−２：行動認識失敗、話題を脱線）
具体例２−２は、ユーザ発話の行動認識に失敗したときに、一旦話題を脱線させてから元の話題に戻すことで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＊＊＊（行動認識失敗）
t(3-1) Ｒ２：何々派って、人間性でるよね
t(3-2) Ｒ１：そんなつもりじゃないよ
t(3-3) Ｒ２：僕はラーメン派だなぁ
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、第一発話t(1)の内容に関連するが本題ではない発話t(3-1)をユーザ発話t(2)の後に提示して一旦話題を脱線させた後に、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を含む話題誘導発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。第一発話t(1)自体から連想される発話で脱線することで、ユーザの発話が無視される状態を作らず、ユーザが完全に少数派とならないように配慮している。

（具体例２−３：行動認識失敗、付加情報を含む発話）
具体例２−３は、ユーザ発話の行動認識に失敗したとき、第一発話に関係する付加情報を含む発話を提示して、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＊＊＊（行動認識失敗）
t(3-1) Ｒ２：僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-2) Ｒ１：お、和歌山
t(3-3) Ｒ２：うん、味噌ラーメン
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、ユーザ発話t(2)の後に、付加的な情報（「和歌山に行っておいしいのを食べてから」）を追加して、一旦それに関する話題の発話t(3-1), t(3-2)を提示した後に、対話システムが提示したい発話t(4)の焦点語の一つである「ラーメン」を含む話題誘導発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。付加情報に関するやり取りt(3-1)〜t(3-2)を付加して話題の遷移に時間やターンをかけることで、話題を強引に誘導している印象（またはユーザを無視している印象）を低減することができる。

（具体例３−１：認識一部成功（その１））
具体例３−１は、ユーザ発話のｘ択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＜肯定的＞＊＊（ｘ択認識に失敗したが、肯定的であることは判定できた）
t(3-1) Ｒ２：だよねぇ
t(3-2) Ｒ１：僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-3) Ｒ２：お、和歌山
t(3-4) Ｒ１：うん、味噌ラーメン
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のｘ択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることは判定できたため、「ユーザが第一発話に対して肯定的である」という情報に対して、肯定的な応答を表す発話t(3-1)を提示することで、一旦ユーザの意図する話題が多数派である状態とする。これにより、話題誘導発話t(3-2)〜t(3-4)により導かれた話題がユーザの意図に反しており、ユーザが少数派となったとしても不満感を与えないようにできる。話題誘導発話t(3-2)〜t(3-4)は音声認識に失敗した例と同様であるが、肯定的な応答と整合性が保たれるように決定する必要がある。

（具体例３−２：認識一部成功（その２））
具体例３−２は、ユーザ発話のｘ択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＜否定的＞＊＊（ｘ択認識に失敗したが、否定的であることは判定できた）
t(3-1) Ｒ１：えー、そっか。君は？
t(3-2) Ｒ２：僕もラーメン派ではないかなぁ
t(3-3) Ｒ１：そっか。でも、誰が何と言おうと、僕はラーメン派。
t(3-4) Ｒ２：好きなんだね。人それぞれだからいいけど。
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のｘ択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることは判定できたため、「ユーザが第一発話t(1)に対して否定的である」という情報に対して、否定された第一発話t(1)を発話した人型ロボットＲ１が驚きを示す発話t(3-1)をユーザ発話t(2)の後に提示する。発話t(3-1)を提示した後に、他の人型ロボットＲ２がユーザ発話t(2)に同調して否定的な発話t(3-2)を提示することで、ユーザが多数派である印象を与える。その上で、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を導く発話t(3-3)と、これに歩み寄る姿勢を見せる発話t(3-4)を提示することで、話題誘導発話t(3-1)〜t(3-4)で示した話題の遷移が多数派である状態とする。

すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が否定的な発話である場合に、第一発話を提示した人型ロボットＲ１がユーザ発話t(2)に同調しない発話t(3-1), t(3-3)を提示し、人型ロボットＲ１とは別の人型ロボットＲ２がユーザ発話t(2)に同調する発話t(3-2)を提示する構成を含んでいる。

また、このとき、ユーザの発話に同調して見せた人型ロボットＲ２が歩み寄る姿勢を見せる発話t(3-4)を提示することで、ユーザも歩み寄る姿勢を誘発することが期待できる。

なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が肯定的な発話である場合に、第一発話を提示した人型ロボットＲ１がユーザ発話t(2)に同調しない発話を提示し、人型ロボットＲ１とは別の人型ロボットＲ２がユーザ発話t(2)に同調する発話を提示する構成を含めばよい。

（具体例３−３：認識一部成功（その３））
具体例３−３は、ユーザ発話のｘ択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＜肯定的＞＊＊（ｘ択認識に失敗したが、肯定的であることは判定できた）
t(3-1) Ｒ２：えー、そうなの？
t(3-2) Ｒ１：僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-3) Ｒ２：お、和歌山
t(3-4) Ｒ１：うん、味噌ラーメン
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のｘ択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることは判定できたため、「ユーザが第一発話に対して肯定的である」という情報に対して、肯定的な応答を表す発話t(3-2)を提示することで、一旦ユーザの意図する話題が多数派である状態とする。その際、否定的な応答を表す発話t(3-1)も提示する。

すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が肯定的な発話である場合に、あるロボットである人型ロボットＲ２がユーザ発話t(2)に同調しない発話t(3-1）を提示し、人型ロボットＲ２とは別の人型ロボットＲ１がユーザ発話t(2)に同調する発話t(3-2)を提示する構成を含んでいる。

また、発話t(3-2)を提示した後に、目的発話t(4)と整合性が保たれるような発話である話題誘導発話t(3-3)〜t(3-4)を提示し、その後に目的発話t(4)を提示する。

この例では、否定的な応答を表す発話t(3-1)と肯定的な応答を表す発話t(3-2)の両方を提示することで、ロボット間でも意見の相違が生じることがあることを示し、その後にt(3-3)〜t(4)を提示することで、意見の相違からロボットが復帰できることを示すことで、ロボットが個性を持った知的な存在であるという印象をユーザに与えることができる。

なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が否定的な発話である場合に、あるロボットである人型ロボットＲ２がユーザ発話t(2)に同調しない発話を提示し、人型ロボットＲ２とは別の人型ロボットＲ１がユーザ発話t(2)に同調する発話を提示する構成を含めばよい。

（具体例３−４：認識一部成功（その４））
具体例３−４は、ユーザ発話のｘ択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：＊＊＜否定的＞＊＊（ｘ択認識に失敗したが、否定的であることは判定できた）
t(3-1) Ｒ１：えー、そっか。残念。
t(3-2) Ｒ２：ラーメンいいよねえ。
t(3-3) Ｒ１：だよね。僕は外で食べるときはラーメンが多いかなあ。
t(3-4) Ｒ２：まあ、食べすぎるとお腹回りに来るんだけど。
t(4) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のｘ択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることは判定できたため、「ユーザが第一発話に対して否定的である」という情報に対して、複数ロボットによって肯定的な応答を表す発話t(3-1), t(3-2)を提示することで、第一発話t(1)に対して肯定的であるのが多数派である状態とする。

すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が否定的な発話である場合に、あるロボットである人型ロボットＲ１によるユーザ発話に同調しない発話t(3-1)と、人型ロボットＲ１とは別の人型ロボットＲ２によるユーザ発話に同調しない発話t(3-2)と、を提示する構成を含んでいる。

なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が肯定的な発話である場合に、あるロボットである人型ロボットＲ１によるユーザ発話に同調しない発話t(3-1)と、人型ロボットＲ１とは別の人型ロボットＲ２によるユーザ発話に同調しない発話t(3-2)と、を提示する構成を含めばよい。

（具体例４−１：想定外の発話、ＦＡＱ対話）
具体例４−１は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、ユーザ発話に類似した発話を提示することで、話題の誘導を行う例である。

t(1) Ｒ１：ぼく温泉だと湯布院が好きなんだけど・・・
t(2) Ｈ：え？ロボットなのに温泉入れるの？
t(3-1) Ｒ２：きみは温泉は好き？
t(3-2) Ｒ１：うん、好きだよ
t(4) Ｒ１：湯布院は風情があっていいよね

この例では、第一発話t(1)を提示している途中で、ユーザが質問t(2)でインタラプトしている。このユーザ発話t(2)は第一発話t(1)の内容から想定される範囲外となっているため、ユーザ発話t(2)に類似する内容の質問を、第一発話t(1)を提示した人型ロボットＲ１とは異なる人型ロボットＲ２がユーザ発話t(2)の後に提示している。これに対して人型ロボットＲ１が応答することで、自然な流れで対話システムが提示したい目的発話t(4)を導いている。

（具体例４−２：想定外の発話、追加質問）
具体例４−２は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、ユーザ発話に関連する質問を提示することで、話題の誘導を行う例である。

t(1) Ｒ１：ぼく温泉だと湯布院が好きなんだけど・・・
t(2) Ｈ：湯布院いいよね！
t(3-1) Ｒ２：だよね！湯布院のどこが好きなの？
t(3-2) Ｒ１：風情があるところが好きだよ
t(4) Ｒ２：湯布院は風情があっていいよね

この例では、第一発話t(1)を提示している途中で、ユーザが質問ではない通常の発話t(2)でインタラプトしている。このユーザ発話t(2)は第一発話t(1)の内容から想定される範囲外となっているため、第一発話t(1)を提示した人型ロボットＲ１とは異なる人型ロボットＲ２が、ユーザ発話t(2)をいったん相槌で受け止め、その後ユーザ発話t(2)に関連する内容の質問を、ユーザ発話t(2)の後に提示している。これに対して人型ロボットＲ１が応答することで、ユーザ発話を対話の流れに反映しつつ、自然な流れで対話システムが提示したい目的発話t(4)を導いている。

（具体例４−３：想定外の発話、シナリオ一部省略）
具体例４−３は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示したい発話文の一部を省略することで、話題の誘導を行う例である。

以下は、第一発話t(1)に対して発せられたユーザ発話t(2)が第一発話t(1)の内容から想定される範囲内にある場合に、話題誘導発話を用いずに、対話システムが提示したい目的発話t(4-1)〜t(4-3)をユーザ発話t(2)の後に提示する対話の例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：おそばかな
t(4-1) Ｒ２：だよね。そばってヘルシーな感じ。
t(4-2) Ｒ１：お酒の後のラーメンって健康的にはＮＧだけど、やばいよね
t(4-3) Ｒ２：健康に一番効いてくるのは、やっぱり普段の運動だよね。

以下は、第一発話t(1)に対して発せられたユーザ発話t(2)が第一発話t(1)の内容から想定される範囲外であった場合に、対話システムが提示したい目的発話の一部t(4-1)〜t(4-2)を省略し、ユーザ発話t(2)と対話システムが提示したい発話t(4-3)との間を繋ぐ話題誘導発話t(3)をユーザ発話t(2)の後に提示する例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：あー、お腹空いたね
t(3) Ｒ２：最近、食べてばっかりで、健康診断やばいかも
t(4-3) Ｒ２：健康に一番効いてくるのは、やっぱり普段の運動だよね。

（具体例４−４：想定外の発話、シナリオ一部省略、複数発話）
具体例４−４は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示したい目的発話の一部を省略し、複数の発話により話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：あー、お腹空いたね
t(3-1) Ｒ２：最近、食べてばっかりで、健康診断やばいかも
t(3-2) Ｒ１：ぼく、健康診断のときは、１か月前からジョギングするんだ
t(4-3) Ｒ２：健康に一番効いてくるのは、やっぱり普段の運動だよね。

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の内容が第一発話t(1)の内容から想定される範囲外であったため、対話システムが提示したい目的発話の一部t(4-1)〜t(4-2)を省略し、ユーザ発話t(2)と対話システムが提示したい発話t(4-3)との間を繋ぐ複数の話題誘導発話t(3-1), t(3-2)をユーザ発話t(2)の後に人型ロボットＲ１、Ｒ２が分担して提示している。これにより、対話システムが提示したい目的発話t(4-3)への話題の遷移が多数派である状態とする。

（具体例４−５：想定外の発話、シナリオ再選択）
具体例４−５は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示しようとしていた目的発話を再選択して、新しい目的発話へ話題の誘導を行う例である。

t(1) Ｒ１：ラーメン、そば、うどんなら、やっぱりラーメン派？
t(2) Ｈ：そういう心理テストみたいなの好きだね
t(3-1) Ｒ２：ぼく、人を分析するのは好きじゃないな
t(3-2) Ｒ１：どうして？
t(4') Ｒ２：疑って人を傷つけるよりは、信じて裏切られる方がいいじゃん

この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の内容が第一発話t(1)の内容から想定される範囲から大きく外れており、対話システムが提示したい目的発話t(4-1)〜t(4-3)に話題を遷移させることが困難となっている。そこで、対話システムが提示したい発話t(4-1)〜t(4-3)を取り止め、ユーザ発話t(2)に関連する他の発話t(4')を選択し、ユーザ発話t(2)と再選択された発話t(4')との間を繋ぐ話題誘導発話t(3-1)〜t(3-2)をユーザ発話t(2)の後に提示して、話題を誘導している。

［第二実施形態］
第一実施形態では、対話システムから提示した第一発話に対するユーザ発話の音声認識結果を少なくとも含むユーザの行動認識結果に基づいて、対話システムが提示したい目的発話の話題へ誘導する構成を説明した。しかしながら、ユーザが自発的に発話したユーザ発話に基づいて、対話システムが提示したい目的発話の話題へ誘導する構成としてもよい。第二実施形態は、ユーザ発話に基づいて対話システムが提示したい目的発話を決定したときに、ユーザ発話の話題と目的発話の話題とが遠い場合に、話題を誘導する発話をユーザ発話と目的発話の間に挿入する構成である。

以下、図３を参照して、第二実施形態の対話方法の処理手続きを説明する。

ステップＳ２１において、マイクロホン１１は、ユーザ１０１が発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。マイクロホン１１が取得したユーザの発話内容を表す音声信号は音声認識部２１へ入力される。音声認識部２１は、マイクロホン１１が取得したユーザの発話内容を表す音声信号を音声認識する。この実施形態では、行動認識部２０内の音声認識部２１はＣ．妥当性認識のみを行う。音声認識部２１は、マイクロホン１１が取得したユーザの発話内容を表す音声信号を妥当性認識し、ユーザ発話の音声認識結果を出力する。

ステップＳ２２において、発話決定部３０は、行動認識部２０が出力したユーザの行動認識結果を受け取り、すなわち、音声認識部２１が出力したユーザ発話の音声認識結果を受け取り、ユーザ発話の音声認識結果に基づいて、目的発話の内容を表すテキストと目的発話へ話題を誘導するための話題誘導発話の内容を表すテキストとを決定する。話題誘導発話および目的発話はいずれも、一つの発話であってもよいし、複数の発話であってもよい。発話決定部３０は話題誘導発話および目的発話を提示する人型ロボットを決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報を出力し、目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報を出力する。また、発話決定部３０は話題誘導発話および目的発話を提示する相手を決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報を出力し、目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報を出力する。

発話決定部３０は、ユーザ発話を含む直前までの発話内容に基づいて目的発話の内容を決定する。発話決定部３０がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部３０は、ユーザ発話を含む直前の５発話程度を含む対話について、すなわち、ユーザ発話の音声認識結果に含まれる認識結果のテキスト（ユーザ発話の内容を表すテキスト）とユーザ発話の直前の５発話程度の各発話の内容を表すテキストについて、各発話の内容を表すテキストに含まれる単語や各発話を構成する焦点語と発話決定部３０内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより目的発話の内容を表すテキストを決定する。

発話決定部３０は、ユーザ発話の内容を表すテキストに含まれるいずれかの単語から目的発話の焦点語のいずれかを連想させる話題誘導発話を決定する。発話決定部３０は、まず、ユーザ発話の内容を表すテキストに含まれる各単語から連想される単語と、目的発話の各焦点語を連想させる単語と、を連想語として抽出する。そして、発話決定部３０は、発話決定部３０の図示しない記憶部に記憶された発話文のうち、ユーザ発話の連想語と目的発話の連想語の両方を含む発話文から文脈に沿ったものを選択することで、話題誘導発話を決定する。決定する話題誘導発話は、複数の発話を含み、複数段階の連想を経てユーザ発話に含まれる単語のいずれかから目的発話の焦点語のいずれかを連想させる発話であってもよい。

ステップＳ２３において、音声合成部４０は、話題誘導発話の内容を表すテキストを話題誘導発話の内容を表す音声信号に変換し、提示部５０は、話題誘導発話の内容を表す音声を、人型ロボット５０−１が備えるスピーカ５１−１または人型ロボット５０−２が備えるスピーカ５１−２から出力する。発話決定部３０から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報が入力された場合、提示部５０は、当該情報に対応する人型ロボット５０が備えるスピーカ５１から当該話題誘導発話の内容を表す音声を出力する。発話決定部３０から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報が入力された場合、提示部５０は、当該情報に対応する相手のいる方向へ人型ロボット５０の顔もしくは体全体を向けて当該話題誘導発話の内容を表す音声を出力する。

ステップＳ２４において、音声合成部４０は、目的発話の内容を表すテキストを目的発話の内容を表す音声を信号に変換し、提示部５０は、目的発話の内容を表す音声信号に対応する音声を、人型ロボット５０−１が備えるスピーカ５１−１または人型ロボット５０−２が備えるスピーカ５１−２から出力する。発話決定部３０から目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報が入力された場合、提示部５０は、当該情報に対応する人型ロボット５０が備えるスピーカ５１から当該発話の内容を表す音声を出力する。発話決定部３０から目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報が入力された場合、提示部５０は、当該情報に対応する相手のいる方向へ人型ロボット５０の顔もしくは体全体を向けて当該目的発話の内容を表す音声を出力する。

［第二実施形態の具体例］
以下、第二実施形態による対話内容の具体例を示す。以降の具体例の記載では、t(2)はユーザ発話、t(3)は話題誘導発話、t(4)は目的発話を表す。

（具体例５−１：連想による話題の誘導）
具体例５−１は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがあるときに、目的発話の話題を連想する発話を挿入することで、話題の誘導を行う例である。

以下は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と近いため、話題誘導発話を用いずにそのまま続けて発話しても違和感を生じない場合の例である。

t(2) Ｈ：ロボットって泳げるの？
t(4-1) Ｒ２：きみは泳げる？
t(4-2) Ｒ１：泳げるよ

以下は、ユーザ発話の内容に基づいて選択した目的発話の話題がユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがある場合の例である。

t(2) Ｈ：ロボットって泳げるの？
t(3-1) Ｒ２：あ、泳ぐ・・
t(3-2) Ｒ１：ん？どうしたの？
t(3-3) Ｒ２：いや、プール行きたいなーって
t(4-1) Ｒ１：あ！そういえば箱根に温泉とプールが付いてる施設があるの知ってる？
t(4-2) Ｒ２：知ってる！○○○でしょ？
t(4-3) Ｒ１：そうそう、いいよね

この例では、ユーザ発話t(2)に含まれる単語「泳げる」から「温泉とプール」が含まれる対話t(4-1)〜t(4-3)が選択されたが、話題間の距離が離れていると判断し、「泳ぐ」と「プール」を繋ぐ話題誘導発話t(3-1)〜t(3-3)をユーザ発話t(2)の後に挿入することで、自然な流れで話題が遷移した印象を与える。また、ユーザ発話に含まれる「泳ぐ」に言及しているため、ユーザは発話を無視されていないように感じる。

（具体例５−２：連想による話題の誘導）
具体例５−２は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがあるときに、目的発話の話題を連想する発話を挿入することで、話題の誘導を行う例である。

t(2) Ｈ：ロボットって泳げるの？
t(3) Ｒ２：おっきいお風呂だと泳げていいよね
t(4-1) Ｒ１：お風呂はいつ入る？
t(4-2) Ｒ２：うーん、夕方かな。ごはん後が多いよ。
t(4-3) Ｒ１：その時間がいいね

この例では、ユーザ発話t(2)に含まれる単語「泳げる」から「お風呂」に関する対話t(4-1)〜t(4-3)が選択されたが、話題間の距離が離れていると判断し、「泳ぐ」と「お風呂」を繋ぐ話題誘導発話t(3)をユーザ発話t(2)の後に挿入することで、自然な流れで話題が遷移した印象を与える。また、ユーザ発話に含まれる「泳ぐ」に言及しているため、ユーザは発話を無視されていないように感じる。

［変形例］
上述した実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、上述した実施形態の提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」（登録商標）や「２ちゃんねる」（登録商標）のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。

変形例の対話システム２００は、図４に示すように、例えば、一台の対話装置２からなる。変形例の対話装置２は、例えば、入力部１０、行動認識部２０、発話決定部３０、および提示部５０を備える。対話装置２は、例えば、マイクロホン１１、スピーカ５１を備えていてもよい。

変形例の対話装置２は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置２がスマートフォンであるものとして説明する。提示部５０はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置２が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてグループチャットのウィンドウ内に設けられた入力エリアである入力部１０へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部３０はユーザのアカウントからの投稿に基づいて対話装置２からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン１１と音声認識機能を用い、ユーザが発声により入力部１０へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ５１と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ５１から出力する構成としてもよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、提示部が提示する発話順を除いて、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記第二提示ステップは、
上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して、上記第一発話と同じ意味の発話である第一話題誘導発話を提示し、
上記第一話題誘導発話後に、上記第二人格によって、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話を提示する
ことを含む
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記第二提示ステップは、
上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話を提示し、
上記第一話題誘導発話後に、複数の人格による複数の話題誘導発話を提示する
ことを含む
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記第二提示ステップは、
上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話に応答する発話である話題誘導発話を提示する
ことを含む
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
上記話題誘導発話は、
ある人格である人格Ａによる上記ユーザ発話に同調する発話と、
上記人格Ａ以外の人格である人格Ｂによる上記ユーザ発話に同調しない発話と、
を含むものである、
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
上記話題誘導発話は、
ある人格である人格Ａによる上記ユーザ発話に同調しない発話と、
上記人格Ａ以外の人格である人格Ｂによる上記ユーザ発話に同調しない発話と、
を含むものである、
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
上記話題誘導発話は、
上記第一発話を提示した人格である第一人格による上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格による上記ユーザ発話に同調する発話と、
を含むものである、
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含み、
上記目的発話は、上記第一発話に関連する複数の発話を含み、
上記話題誘導発話は、上記目的発話のn（≧2）番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
上記第三提示ステップは、1番目からn-1番目までの発話を削除した上記目的発話を提示する、
対話方法。
予め用意された発話文である第一発話と、上記第一発話に関連する発話文として予め用意された発話文である目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
提示部が、上記第一発話を提示する第一提示ステップと、
入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
上記提示部が、上記ユーザ発話の発話文に含まれる単語と、上記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を上記ユーザ発話の直後に提示することを含んで、少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
を含む対話方法。
請求項８に記載の対話方法であって、
上記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合、
上記第二提示ステップでは、
上記提示部が、
上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって、上記ユーザ発話に関連する質問をする第一の話題誘導発話を提示し、
上記第一の話題誘導発話の直後に、上記第一人格によって、上記第一の話題誘導発話に応答する第二の話題誘導発話を提示し、
上記第三提示ステップでは、
上記提示部が、
上記第二の話題誘導発話の直後に、上記第一発話とは異なる話題の発話を提示する、
対話方法。
請求項８に記載の対話方法であって、
上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含むものである、
対話方法。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記提示部は、
上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して、上記第一発話と同じ意味の発話である第一話題誘導発話を提示し、
上記第一話題誘導発話後に、上記第二人格によって、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話を提示する
ことを含む対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記提示部は、
上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話を提示し、
上記第一話題誘導発話後に、複数の人格による複数の話題誘導発話を提示する
ことを含む対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記ユーザ発話の認識に失敗した場合には、
上記提示部は、
上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話に応答する発話である話題誘導発話を提示する
ことを含む対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
上記話題誘導発話は、
ある人格である人格Ａによる上記ユーザ発話に同調する発話と、
上記人格Ａ以外の人格である人格Ｂによる上記ユーザ発話に同調しない発話と、
を含むものである、
対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
上記話題誘導発話は、
ある人格である人格Ａによる上記ユーザ発話に同調しない発話と、
上記人格Ａ以外の人格である人格Ｂによる上記ユーザ発話に同調しない発話と、
を含むものである、
対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
上記話題誘導発話は、
上記第一発話を提示した人格である第一人格による上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格による上記ユーザ発話に同調する発話と、
を含むものである、
対話システム。
ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含み、
上記発話決定部が決定する上記目的発話は、上記第一発話に関連する複数の発話を含み、
上記発話決定部が決定する上記話題誘導発話は、上記発話決定部が決定した上記目的発話のn（≧2）番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
上記提示部は、上記発話決定部が決定した上記目的発話から1番目からn-1番目までの発話を削除した発話を上記目的発話として提示する、
対話システム。
予め用意された発話文である第一発話と、上記第一発話に関連する発話文として予め用意された発話文である目的発話とをユーザへ提示する対話システムであって、
上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
上記ユーザ発話の直後に提示される、上記ユーザ発話の発話文に含まれる単語と、上記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を含む、少なくとも一つの話題誘導発話を決定する発話決定部と、
上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
を含む対話システム。
請求項１８に記載の対話システムであって、
上記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合、
上記提示部は、
上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって、上記ユーザ発話に関連する質問をする第一の話題誘導発話を提示し、
上記第一の話題誘導発話の直後に、上記第一人格によって、上記第一の話題誘導発話に応答する第二の話題誘導発話を提示し、
上記第二の話題誘導発話の直後に、上記第一発話とは異なる話題の発話を提示する、
対話システム。
請求項１８に記載の対話システムであって、
上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含むものである、
対話システム。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、
上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して上記提示部が提示する、上記第一発話と同じ意味の発話である第一話題誘導発話と、上記第一話題誘導発話後に、上記第二人格によって上記提示部が提示する、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話と、
を含む
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって上記提示部が提示する、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話と、
上記第一話題誘導発話後に、複数の人格により上記提示部が提示する、複数の話題誘導発話と
を含む
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、
上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって上記提示部が提示する、上記第一発話に応答する発話である話題誘導発話
を含む
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
に上記発話決定部が決定する上記話題誘導発話は、
ある人格である人格Ａにより上記提示部が提示する上記ユーザ発話に同調する発話と、
上記人格Ａ以外の人格である人格Ｂにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
を含む、
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
に上記発話決定部が決定する上記話題誘導発話は、
ある人格である人格Ａにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
上記人格Ａ以外の人格である人格Ｂにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
を含む、
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記第一発話に関連する目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
に上記発話決定部が決定する上記話題誘導発話は、
上記第一発話を提示した人格である第一人格により上記提示部が提示する上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格により上記提示部が提示する上記ユーザ発話に同調する発話と、
を含む、
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
を含み、
上記発話決定部が決定する上記目的発話は、上記第一発話に関連する複数の発話を含み、
上記発話決定部が決定する上記話題誘導発話は、上記発話決定部が決定した上記目的発話のn（≧2）番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
上記発話決定部は、上記発話決定部が決定した上記目的発話から1番目からn-1番目までの発話を削除した発話を、上記提示部が提示する上記目的発話として決定する、
対話装置。
ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
ある発話文である第一発話と、
話題誘導発話後に上記提示部が提示する、上記第一発話に関連する発話文である目的発話と、
が予め用意されており
上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の直後に上記提示部が提示する、上記ユーザ発話の発話文に含まれる単語と、上記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を含み、上記ユーザ発話を受け付けた後に上記提示部が提示する、少なくとも一つの上記話題誘導発話を決定する発話決定部
を含む対話装置。
請求項２８に記載の対話装置であって、
上記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合に上記発話決定部が決定する上記話題誘導発話は、
上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって上記提示部が提示する、上記ユーザ発話に関連する質問をする第一の話題誘導発話と、
上記第一の話題誘導発話の直後に、上記第一人格によって上記提示部が提示する、上記第一の話題誘導発話に応答する第二の話題誘導発話と、
を含み、
上記発話決定部は、
上記第二の話題誘導発話の直後に上記提示部が提示する、上記第一発話とは異なる話題の発話を、さらに決定する、
対話装置。
請求項２８に記載の対話装置であって、
上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含む、
対話装置。
請求項１から１０のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
請求項２１から３０のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。