JP6842095B2 - 対話方法、対話システム、対話装置、およびプログラム - Google Patents

対話方法、対話システム、対話装置、およびプログラム Download PDF

Info

Publication number
JP6842095B2
JP6842095B2 JP2019504381A JP2019504381A JP6842095B2 JP 6842095 B2 JP6842095 B2 JP 6842095B2 JP 2019504381 A JP2019504381 A JP 2019504381A JP 2019504381 A JP2019504381 A JP 2019504381A JP 6842095 B2 JP6842095 B2 JP 6842095B2
Authority
JP
Japan
Prior art keywords
utterance
user
topic
guided
personality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019504381A
Other languages
English (en)
Other versions
JPWO2018163647A1 (ja
Inventor
弘晃 杉山
弘晃 杉山
宏美 成松
宏美 成松
雄一郎 吉川
雄一郎 吉川
尊優 飯尾
尊優 飯尾
庸浩 有本
庸浩 有本
石黒 浩
浩 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018163647A1 publication Critical patent/JPWO2018163647A1/ja
Application granted granted Critical
Publication of JP6842095B2 publication Critical patent/JP6842095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Manipulator (AREA)

Description

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育(例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。
本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。
これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。
上記のエージェントの一例として、例えば、非特許文献1に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。
また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献2に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。
また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献3に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献3には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献4に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。
河原達也,"話し言葉による音声対話システム",情報処理,vol.45,no. 10,pp. 1027-1031,2004年10月 有本庸浩,吉川雄一郎,石黒浩,"複数体のロボットによる音声認識なし対話の印象評価",日本ロボット学会学術講演会,2016年 杉山弘晃,目黒豊美,東中竜一郎,南泰浩,"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成",人工知能学会論文誌,vol.30(1),pp. 183-194,2015年 目黒豊美,杉山弘晃,東中竜一郎,南泰浩,"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築",人工知能学会全国大会論文集,vol. 28,pp. 1-4,2014年
ユーザ発話の音声認識に失敗すると、対話システムが不自然な応答をしてしまい、対話が破綻する原因となる。確実に音声認識が可能な発話や単語をあらかじめ定めておく方法も考えられるが、その後の対話が不自然なものになりやすく、ユーザの発話を聞いていない印象を与えるおそれもある。
また、ユーザはしばしばエージェントが発話している途中に割り込んで発話することがある。このような発話はインタラプトと呼ばれる。ユーザがインタラプトしたときにエージェントの発話をいきなり停止すると、違和感が生じる。また、インタラプトがエージェントへの質問である場合、それに答えられないおそれもある。
さらに、インタラプトではない通常のユーザ発話であっても、応答しにくい発話がなされる場合はある。特に、話題を遷移させたいときにはユーザの発話内容を反映して遷移させることが望ましいが、必ずしもユーザの発話内容に合致した応答を対話システムが決定できるわけではない。
この発明の目的は、上述のような点に鑑みて、対話システムが提示したい話題へ対話を誘導し、対話を長く続けることができる対話システム、対話装置を実現することである。
上記の課題を解決するために、この発明の第一の態様の対話方法は、ある発話である第一発話と第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、提示部が、第一発話を提示する第一提示ステップと、入力部が、第一発話後にユーザのユーザ発話を受け付ける発話受付ステップと、提示部が、ユーザ発話の認識結果と目的発話の発話文とに基づいて目的発話へ話題を誘導するための少なくとも一つの話題誘導発話をユーザ発話後に提示する第二提示ステップと、提示部が、目的発話を話題誘導発話後に提示する第三提示ステップと、を含む。
この発明の第二の態様の対話方法は、ユーザのユーザ発話に関連する目的発話をユーザへ提示する対話システムが実行する対話方法であって、入力部が、ユーザ発話を受け付ける発話受付ステップと、提示部が、ユーザ発話の認識結果に基づいて目的発話へ話題を誘導するための少なくとも一つの話題誘導発話をユーザ発話後に提示する第一提示ステップと、提示部が、目的発話を話題誘導発話後に提示する第二提示ステップと、を含む。
この発明によれば、対話システムからの発話に対するユーザ発話の音声認識結果を少なくとも含むユーザの行動認識結果に基づいて、対話システムが提示したい話題に誘導するための発話を提示するため、自然な流れでその話題へ対話を誘導することができる。これにより、対話を長く続けることができる対話システム、対話装置を実現することが可能となる。
図1は、第一実施形態の対話システムの機能構成を例示する図である。 図2は、第一実施形態の対話方法の処理手続きを例示する図である。 図3は、第二実施形態の対話方法の処理手続きを例示する図である。 図4は、変形例の対話システムの機能構成を例示する図である。
この発明では、対話システムがユーザへ質問を行う第一発話を提示し、その第一発話に対するユーザの発話に応じて、第一発話に関連して対話システムが提示したい発話へ話題を誘導するための話題誘導発話を提示する。音声認識により得られたユーザ発話の内容が質問から想定される範囲内であった場合、そのユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。ユーザ発話の行動認識に失敗した場合、第一発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。肯定的な内容か否定的な内容かは認識できたがそれ以外の情報は音声認識では得られなかった場合、ユーザ発話に対して同調する発話を提示した後に、第一発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。
音声認識により得られたユーザ発話の内容が質問から想定される範囲外であった場合、そのユーザ発話はインタラプトであると判定できる。この場合、ユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示する。この際、事前に決定していた目的発話の内容を、ユーザ発話の内容に応じて変更することもできる。
ユーザ発話が対話システムからの質問に答えるものではなく、直前までの対話と関係なく独立にされる場合であっても、この発明は適用することができる。例えば、対話システムにあらかじめ記憶されているシナリオの中に、ユーザ発話の内容に近いものがなかったとき、選択したシナリオに含まれる発話を目的発話として、ユーザ発話と目的発話とに基づいて話題誘導発話を決定し、目的発話の前に提示すればよい。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の対話システムは、複数台の人型ロボットが協調してユーザとの対話を行うシステムである。すなわち、第一実施形態の対話システムは、エージェントが人型ロボットである場合の一例である。対話システム100は、図1に示すように、例えば、対話装置1と、少なくともマイクロホン11を備える入力部10と、少なくともスピーカ51を備える提示部50とを含む。入力部10は、マイクロホン11に加えて、カメラ12を備えていてもよい。対話装置1は、例えば、行動認識部20、発話決定部30、および音声合成部40を備える。行動認識部20は、少なくとも音声認識部21を備え、動作認識部22を備えていてもよい。この対話システム100が後述する各ステップの処理を行うことにより第一実施形態の対話方法が実現される。
対話装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
[入力部10]
入力部10は提示部50と一体もしくは部分的に一体として構成してもよい。図1の例では、入力部10の一部であるマイクロホン11−1、11−2が、提示部50である人型ロボット50−1、50−2の頭部(耳の位置)に搭載されている。また、図1の例では入力部10の一部であるカメラ12が独立して設置されているが、例えば、人型ロボット50−1、50−2の頭部(目の位置)に搭載されていてもよい。図1の例では、提示部50は二台の人型ロボット50−1、50−2から構成されているが、人型ロボットは複数台あればよく、三台以上の人型ロボットから構成されていてもよい。
入力部10は、ユーザの発話を対話システム100が取得するためのインターフェースである。言い換えれば、入力部10は、ユーザの発話の発話音声や身体的な動作を対話システム100へ入力するためのインターフェースである。例えば、入力部10はユーザの発話音声を収音して音声信号に変換するマイクロホン11である。マイクロホン11は、ユーザ101が発話した発話音声を収音可能とすればよい。つまり、図1は一例であって、マイクロホン11−1,11−2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50−1,50−2とは異なる場所に設置された1個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、マイクロホン11−1,11−2の双方を備えない構成としてもよい。マイクロホン11は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン11が出力した音声信号は、行動認識部20の音声認識部21へ入力される。また、例えば、入力部10は、マイクロホン11に加えて、ユーザの身体的な動作を収録して映像信号に変換するカメラ12も備えてもよい。カメラ12はユーザ101の身体動作を収録可能とすればよい。つまり、図1は一例であって、カメラ12は1個のカメラでもよいし複数のカメラでもよい。カメラ12が、変換により得たユーザの身体動作の映像信号を出力する。カメラ12が出力した映像信号は、行動認識部20の動作認識部22へ入力される。
[行動認識部20]
行動認識部20は、マイクロホン11が収音したユーザの発話音声の音声信号を少なくとも入力として、音声認識部21を少なくとも用いて、音声認識部21が得た音声認識結果を少なくとも含むユーザの行動認識結果を得て、発話決定部30に対して出力する。なお、行動認識部20は、カメラ12が収録したユーザの身体動作の映像信号も入力として、動作認識部22も用いて、動作認識部22が得たユーザの発話の動作認識結果も含むユーザの行動認識結果を得て、発話決定部30に対して出力してもよい。
[音声認識部21]
音声認識部21は、マイクロホン11から入力されたユーザの発話音声の音声信号を音声認識してユーザ発話の音声認識結果を得て出力する。音声認識部21が出力したユーザの発話の音声認識結果は行動認識部20がユーザの行動認識結果に含めて出力する。音声認識の方法や音声認識結果の詳細については後述する。
[動作認識部22]
動作認識部22は、カメラ12から入力されたユーザの身体動作の映像信号から、ユーザの動作認識結果を得て出力する。動作認識部22が出力したユーザの発話の動作認識結果は行動認識部20がユーザの行動認識結果に含めて出力する。動作認識の方法や動作認識結果の詳細については後述する。
[発話決定部30]
発話決定部30は、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。行動認識部20からユーザの行動認識結果が入力された場合には、入力されたユーザの行動認識結果に含まれるユーザの発話の音声認識結果に少なくとも基づいて、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。なお、対話システム100の提示部50が複数の人型ロボットで構成される場合には、発話決定部30は、当該発話をいずれの人型ロボットが提示するかを決定してもよい。この場合には、当該発話を提示する人型ロボットを表す情報も併せて音声合成部40へ出力する。また、この場合には、発話決定部30は、当該発話を提示する相手、すなわち、当該発話をユーザに対して提示するのか、何れかの人型ロボットに対して提示するのか、を決定してもよい。この場合には、当該発話を提示する相手を表す情報も併せて音声合成部40へ出力する。
[音声合成部40]
音声合成部40は、発話決定部30から入力された発話内容を表すテキストを、発話内容を表す音声信号に変換し、提示部50に対して出力する。音声合成部40が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、発話決定部30から発話内容を表すテキストと共に当該発話を提示する人型ロボットを表す情報が入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号を出力する。また、発話決定部30から発話内容を表すテキストと当該発話を提示する人型ロボットを表す情報に併せて発話を提示する相手を表す情報も入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号と発話を提示する相手を表す情報を出力する。
[提示部50]
提示部50は、発話決定部30が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部50は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部40から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ51から発音する、すなわち、発話を提示する。スピーカ51は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図1は一例であって、スピーカ51−1,51−2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50−1,50−2とは異なる場所に1個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、スピーカ51−1,51−2の双方を備えない構成としてもよい。また、人型ロボットは、顔の表情や、身体の動作等の非言語的な行動により発話決定部30が決定した発話内容をユーザへ提示してもよい。例えば、直前の発話に対して同意する旨を提示する際には、首を縦に振り、同意しない旨を提示する際には、首を横に振るなどの非言語的な行動を提示することが挙げられる。また、人型ロボットは、発話を提示する際に、顔や体全体をユーザまたは他の人型ロボットの方へ向けることで、顔や身体を向いた方にいるユーザまたは他の人型ロボットに対して発話を提示していることを表現することができる。提示部50を人型ロボットとした場合には、対話に参加する人格(エージェント)ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット50−1および50−2が存在するものとする。なお、発話決定部30が当該発話をいずれの人型ロボットから提示するかを決定していた場合には、音声合成部40が出力した発話内容を表す音声信号を受け取った人型ロボット50−1または50−2が当該発話を提示する。また、発話決定部30が決定した発話を提示する相手を表す情報が入力された場合には、人型ロボット50−1または50−2は、発話を提示する相手を表す情報に対応する人型ロボットまたはユーザの方向へ顔や視線を向けた状態で、発話を提示する。
以下、図2を参照して、第一実施形態の対話方法の処理手続きを説明する。
ステップS11において、対話システム100は、第一発話の内容を表す音声を、人型ロボット50−1が備えるスピーカ51−1から出力する、すなわち、第一発話を提示する。第一発話の内容を表す音声は、発話決定部30が決定した第一発話の内容を表すテキストを音声合成部40が音声信号に変換したものである。第一発話の内容を表すテキストは、発話決定部30が、例えば、あらかじめ定められ発話決定部30内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献2に記載されたシナリオ対話システムや非特許文献3または4に記載された雑談対話システムなどを用いることができる。発話決定部30がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部30は、直前の5発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部30内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより第一発話の内容を表すテキストを決定する。発話決定部30が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部30は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部30内の図示しない記憶部に記憶しておいたルールに従って第一発話の内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って第一発話の内容を表すテキストを決定してもよい。
発話決定部30は、第一発話の内容を表すテキストと、目的発話の内容を表すテキストと、を決定する。目的発話の内容は、第一発話の内容に関連するものであり、対話システムが対話することを所望する話題に関する発話である。発話決定部30は、さらに、目的発話に続く発話を決定しておいてもよい。発話決定部30がシナリオ対話システムによりあらかじめ記憶されたシナリオを選択する場合には、第一発話および目的発話は、一つのシナリオに含まれる発話としてあらかじめ用意された発話である。発話決定部30が雑談対話システムにより発話を決定する場合には、第一発話の内容を表すテキストを雑談対話システムに入力して目的発話を決定する。さらに、決定された目的発話を再帰的に雑談対話システムへ入力していくことで、目的発話に続く発話も決定することができる。
ステップS12において、マイクロホン11は、ユーザ101が発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。マイクロホン11が取得したユーザの発話内容を表す音声信号は音声認識部21へ入力される。音声認識部21は、マイクロホン11が取得したユーザの発話内容を表す音声信号を音声認識する。
音声認識部21が行う音声認識の方法としては、第一発話の内容によって、例えば、A.x択認識、B.ポジネガ認識、C.妥当性認識などを適宜用いる。
A.x択認識とは、対話の流れからあらかじめ想定される範囲の単語に限定して認識することで、誤認識を抑制する音声認識の手法である。想定される範囲としては、想定単語そのもの、店名など単語のカテゴリが一致するもの、否定形の有無などが考えられる。例えば、あらかじめ想定される範囲にある単語数がx個(xは自然数)であることから、本明細書ではx択認識と呼んでいる。すなわち、あらかじめ想定される範囲にある単語数が2個であれば二択の音声認識、あらかじめ想定される範囲にある単語数が3個であれば三択の音声認識、ということである。音声認識部21がx択認識を行う場合には、音声認識部21内であらかじめ想定される範囲のx個の単語を得るために、音声認識部21にはマイクロホン11で取得したユーザの発話内容を表す音声信号に加えて発話決定部30が決定した第一発話の内容を表すテキストも入力される。音声認識部21は、x択認識を行う場合には、あらかじめ想定される範囲のx個の単語のうちの何れの単語にユーザの発話内容を表す音声信号が対応するかを認識する。そして、音声認識部21は、認識できた場合には、ユーザの発話内容を表す音声信号が対応する単語を表す情報を、認識できなかった場合には、認識失敗を表す情報を、x択認識の結果としてユーザ発話の音声認識結果に含めて出力する。
また、音声認識部21は、まず、マイクロホン11で取得したユーザの発話内容を表す音声信号を音声認識して認識結果のテキストを得て、次に、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語であるか何れの単語でもないかをチェックして、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語である場合には、ユーザの発話内容を表す音声信号が対応する単語を表す情報を、認識結果として得たテキストが第一発話の内容を表すテキストから想定される範囲にある何れの単語でもない場合には、認識失敗を表す情報を、x択認識の結果としてもよい。
以上説明したように、音声認識部21がA.x択認識を行う場合には、音声認識部21にはマイクロホン11で取得したユーザの発話内容を表す音声信号と発話決定部30が決定した第一発話の内容を表すテキストとが少なくとも入力され、音声認識部21は、ユーザの発話内容を表す音声信号が対応する単語を表す情報、または、認識失敗を表す情報、をx択認識の結果としてユーザ発話の音声認識結果に含めて出力する。
なお、単語ではなくカテゴリについてのx択認識を行ってもよい。この場合には、例えば、音声認識部21にはマイクロホン11で取得したユーザの発話内容を表す音声信号と発話決定部30が決定した第一発話の内容を表すテキストとが少なくとも入力され、音声認識部21は、ユーザの発話内容を表す音声信号が対応するカテゴリを表す情報、または、認識失敗を表す情報、をx択認識の結果としてユーザ発話の音声認識結果に含めて出力する。この場合は、対話システム100は、以降の処理においても、単語に代えてカテゴリを用いる。
また、x択認識の単語やカテゴリを第一発話の内容を表すテキストに基づかずに予め決められる場合には、音声認識部21には第一発話の内容を表すテキストを入力せず、例えば、予め定めて図示しない記憶部に記憶した単語を用いてx択認識をしてもよい。また、例えば、第一発話以前のユーザと対話システム100による対話に基づいて、予め定めて図示しない記憶部に記憶した単語のうちの一部の単語を選択し、選択した単語を用いてx択認識をしてもよい。
B.ポジネガ認識とは、対話の流れからユーザの発話がポジティブな内容か、ネガティブな内容かだけ認識できれば十分な場合に用いられる手法である。例えば、対話システムがYes/Noで答えられる質問を提示した後であれば、発話の一部を誤認識していても、発話が否定形で終わっている場合には、ユーザが全体としてNoを意図して発話している可能性が高い。音声認識部21がB.ポジネガ認識を行う場合には、例えば、音声認識部21にはマイクロホン11で取得したユーザの発話内容を表す音声信号と発話決定部30が決定した第一発話の内容を表すテキストとが入力され、音声認識部21は、ユーザの発話内容を表す音声信号が第一発話に対してポジティブな内容であるかネガティブな内容であるかを認識する。そして、音声認識部21は、認識できた場合には、ユーザの発話内容を表す音声信号が第一発話に対してポジティブな内容であることを表す情報、または、ユーザの発話内容を表す音声信号が第一発話に対してネガティブな内容であることを表す情報を、認識できなかった場合には、認識失敗を表す情報を、ポジネガ認識の結果としてユーザの発話の音声認識結果に含めて出力する。
C.妥当性認識とは、マイクロホン11で取得したユーザの発話内容を表す音声信号を音声認識して認識結果として得たテキストが構文や意味的に発話として妥当なテキストであるか否かを得る手法である。音声認識部21がC.妥当性認識を行う場合には、音声認識部21にはマイクロホン11で取得したユーザの発話内容を表す音声信号が少なくとも入力され、音声認識部21は、ユーザの発話内容を表す音声信号を音声認識して認識結果のテキストを得て、得たテキストが構文や意味的に発話として妥当なテキストであるか否かを判定する。そして、音声認識部21は、得たテキストが構文や意味的に発話として妥当なテキストである場合には、妥当発話であることを表す情報と認識結果のテキストとを、得たテキストが構文や意味的に発話として妥当なテキストでない場合には、非妥当発話であることを表す情報を、妥当性認識の結果としてユーザの発話の音声認識結果に含めて出力する。
ステップS13において、カメラ12は、ユーザ101の身体動作を受け付けてもよい。この場合には、カメラ12が取得したユーザの身体動作の映像信号は動作認識部22へ入力される。動作認識部22は、カメラ12が取得したユーザの身体動作の映像信号に基づいて、ユーザの発話の動作認識結果を得て出力する。動作認識部22がユーザのYes/Noの意図を認識する場合には、動作認識部22は、例えば、カメラ12が取得したユーザの身体動作の映像信号に含まれるユーザの表情や首をかしげたり振ったりした動作などから、Yes/Noの意図、すなわち、ユーザの発話の動作が第一発話に対してポジティブな内容であるかネガティブな内容であるかを認識する。そして、動作認識部22は、認識できた場合には、ユーザの発話の動作が第一発話に対してポジティブな内容であることを表す情報、または、ネガティブな内容であることを表す情報を、認識できなかった場合には、認識失敗を表す情報を、ポジネガ認識の結果としてユーザの発話の動作認識結果に含めて出力する。
動作認識部22が行う動作認識の方法は、例えば、ユーザの表情の変化やユーザの頭部の動きなどを利用する方法である。この方法では、動作認識部22は、入力された映像信号からユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴(例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等)の変化であるユーザの動作内容を取得する。動作認識部22は、取得したユーザの動作内容に、動作認識部22内の図示しない記憶部に記憶されたあらかじめ定めた動作が含まれる場合に、ユーザの発話の動作が第一発話に対してポジティブな内容である、もしくは、ネガティブな内容であることを認識する。例えば、ユーザが頷きながら発話した場合には、ポジティブ(Yes)を意図しているとみなすことができ、ユーザが首を傾げたり振ったりしながら発話した場合には、ネガティブ(No)を意図しているとみなすことができることから、動作認識部22内の図示しない記憶部には、あらかじめ定めた動作としてこれらの動作を記憶しておく。
ステップS14において、発話決定部30は、行動認識部20が出力したユーザの行動認識結果を受け取り、すなわち、少なくとも音声認識部21が出力したユーザ発話の音声認識結果を受け取り、ユーザ発話の音声認識結果、および、目的発話の内容を表すテキストに少なくとも基づいて、目的発話へ話題を誘導するための話題誘導発話の内容を表すテキストを決定する。話題誘導発話は、一つの発話であってもよいし、複数の発話であってもよい。発話決定部30は話題誘導発話を提示する人型ロボットを決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報を出力する。また、発話決定部30は話題誘導発話を提示する相手を決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報を出力する。
発話決定部30は、ユーザ発話の音声認識結果に少なくとも基づいて、下記の分類に応じた話題誘導発話を決定する。分類は、具体的には、1.音声認識により得られたユーザ発話の内容が想定範囲内であった場合(以下、「1.想定内の発話」と呼ぶ)、2.行動認識に失敗した場合(以下、「2.行動認識失敗」と呼ぶ)、3.行動認識により肯定的か否定的かは認識できたが、それ以外の情報は音声認識では得られなかった場合(以下、「3.認識一部成功」と呼ぶ)、4.音声認識により得られたユーザ発話の内容が想定範囲外であった場合、すなわち、ユーザが第一発話の内容や意図を無視して勝手な発話をした場合(以下、「4.想定外の発話」と呼ぶ)、である。
発話決定部30が、行動認識部20から入力されたユーザの行動認識結果がどのような場合に、上記の「1.想定内の発話」「2.行動認識失敗」「3.認識一部成功」「4.想定外の発話」の何れの分類であると判定するかは、第一発話の内容と、行動認識部20内の音声認識部21が行った音声認識の手法や行動認識部20内の動作認識部22が行った動作認識の手法に基づく。以下では、5つの例を説明する。
[ケース1:第一発話が、x択の何れかであるかと、Yes/Noと、を尋ねる質問である場合]
このケースでは、行動認識部20ではx択認識とポジネガ認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部30に入力される。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が単語を表す情報である場合には「1.想定内の発話」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「2.行動認識失敗」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果がポジティブな内容であることを表す情報またはネガティブな内容であることを表す情報である場合には、「3.認識一部成功」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「4.想定外の発話」であると判定する。
[ケース2:第一発話を提示しているときにユーザが発話した場合]
このケースでは、行動認識部20では妥当性認識が行われ、妥当性認識の結果がユーザの行動認識結果として発話決定部30に入力される。
発話決定部30は、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「4.想定外の発話」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「2.行動認識失敗」であると判定する。
[ケース3:第一発話がYes/Noを尋ねる質問である場合]
このケースでは、行動認識部20ではポジネガ認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部30に入力される。
発話決定部30は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果がポジティブな内容であることを表す情報またはネガティブな内容であることを表す情報である場合には、「1.想定内の発話」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「2.行動認識失敗」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるポジネガ認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「4.想定外の発話」であると判定する。
[ケース4:第一発話がx択の何れかであるかを尋ねる質問である場合]
このケースでは、行動認識部20ではx択認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部30に入力される。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が単語を表す情報である場合には「1.想定内の発話」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「2.行動認識失敗」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「4.想定外の発話」であると判定する。
[ケース5:第一発話がオープン質問である場合]
このケースでは、行動認識部20ではx択認識と妥当性認識とが行われ、これらの認識の結果がユーザの行動認識結果として発話決定部30に入力される。また、行動認識部20では、x択認識が行われる。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が単語を表す情報である場合には「1.想定内の発話」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が非妥当発話を表す情報である場合には、「2.行動認識失敗」であると判定する。
発話決定部30は、入力されたユーザの行動認識結果に含まれるx択認識の結果が認識失敗を表す情報である場合であって、入力されたユーザの行動認識結果に含まれる妥当性認識の結果が妥当発話を表す情報である場合には、「4.想定外の発話」であると判定する。
次に、発話決定部30が、「1.想定内の発話」「2.行動認識失敗」「3.認識一部成功」「4.想定外の発話」の何れの分類であると判定した場合に、どのような話題誘導発話を決定するかを説明する。なお、発話決定部30は、後述する[第一実施形態の具体例]で説明するような話題誘導発話を決定してもよい。
「1.想定内の発話」の場合、発話決定部30は、ユーザ発話に含まれるいずれかの単語から容易に連想され、かつ目的発話の焦点語のいずれかを連想させる話題誘導発話を決定する。発話決定部30は、まず、ユーザ発話に含まれる各単語から連想される単語と、目的発話の各焦点語を連想させる単語と、をそれぞれ連想語として抽出する。連想語の抽出方法としては、あらかじめ大規模なテキストコーパス中の単語の係り受け関係や共起関係を記憶しておき、ある単語と関係のある単語を出力する方法、同義語・類似語辞書を利用して同義語・類義語を出力する方法、word2vecなどの単語を意味ベクトルに変換する方法を利用して距離の近い意味ベクトルを持つ単語を出力する方法などが考えられる。これらの方法では、単語が複数出力される場合があるが、その場合には、複数の単語による集合から、ランダムに選択して1つの単語を出力する方法や、目的発話の焦点語と連想単語の距離が近いものを優先して出力する方法などを採用すればよい。そして、発話決定部30は、発話決定部30の図示しない記憶部に記憶された発話文のうち、ユーザ発話の連想語と目的発話の連想語の両方を含む発話文から文脈に沿ったものを選択することで、話題誘導発話を決定する。決定する話題誘導発話は、複数の発話を含み、複数段階の連想を経てユーザ発話に含まれる単語のいずれかから目的発話の焦点語のいずれかを連想させる発話であってもよい。
「2.行動認識失敗」の場合、第一発話に関連する一つ以上の発話と、目的発話の焦点語のいずれかを連想させる話題誘導発話と、を決定する。第一発話に関連する一つ以上の発話は、様々なパターンが考えられる。例えば、第一発話を提示した人型ロボット50−1が他の人型ロボット50−2に対して提示するための、第一発話と同様の内容の発話と、これに対して人型ロボット50−2が提示するための、第一発話の内容から想定される応答を内容とする発話とが挙げられる。また例えば、第一発話を提示した人型ロボット50−1以外の人型ロボット50−2が第一発話を提示した人型ロボット50−1に対して提示するための、第一発話の意図に直接答えないが第一発話の内容に関連する発話が挙げられる。また例えば、第一発話を提示した人型ロボット50−1以外の人型ロボット50−2が第一発話を提示した人型ロボット50−1に対して提示するための、第一発話の意図に沿った応答を内容とする発話と、さらにその理由付けなどの付加情報を含む発話とが挙げられる。
「3.認識一部成功」の場合、ユーザ発話が肯定的な内容であると判定されたときは、第一発話を提示した人型ロボット50−1が提示するための、ユーザに対して同意できる旨の発話と、その発話と矛盾なく目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。ユーザ発話が否定的な内容であると判定されたときは、第一発話を提示した人型ロボット50−1が提示するための、ユーザに対して同意できない旨の発話と、他の人型ロボット50−2がユーザに対して提示するための、同意できる旨もしくは同意できない旨の発話と、それらの発話と矛盾なく目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。
「4.想定外の発話」の場合、ユーザ発話に関連する複数の発話と、目的発話の焦点語のいずれかを連想させる話題誘導発話とを決定する。ユーザ発話に関連する複数の発話は、複数の人型ロボットが分担して提示するように、各発話を提示する人型ロボットを決定してもよい。目的発話が複数の発話からなるとき、ユーザ発話の話題が目的発話の二番目以降の発話に繋げた方がより自然な流れになる場合は、目的発話の一部を省略してもよい。また、ユーザ発話の話題が目的発話のいずれの発話にも繋げるのが難しい場合には、決定していた目的発話を破棄して、他の発話を新たな目的発話として再選択してもよい。
ステップS15において、音声合成部40は、話題誘導発話の内容を表すテキストを話題誘導発話の内容を表す音声信号に変換し、提示部50は、発話内容を表す音声信号に対応する音声を、人型ロボット50−1が備えるスピーカ51−1または人型ロボット50−2が備えるスピーカ51−2から出力する。発話決定部30から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報が入力された場合、提示部50は、当該情報に対応する人型ロボット50が備えるスピーカ51から当該話題誘導発話の内容を表す音声を出力する。発話決定部30から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報が入力された場合、提示部50は、当該情報に対応する相手のいる方向へ人型ロボット50の顔もしくは体全体を向けて当該話題誘導発話の内容を表す音声を出力する。
ステップS16において、音声合成部40は、目的発話の内容を表すテキストを目的発話の内容を表す音声信号に変換し、提示部50は、目的発話の発話内容を表す音声信号に対応する音声を、人型ロボット50−1が備えるスピーカ51−1または人型ロボット50−2が備えるスピーカ51−2から出力する。発話決定部30から目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報が入力された場合、提示部50は、当該情報に対応する人型ロボット50が備えるスピーカ51から当該目的発話の内容を表す音声を出力する。発話決定部30から目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報が入力された場合、提示部50は、当該情報に対応する相手のいる方向へ人型ロボット50の顔もしくは体全体を向けて当該目的発話の内容を表す音声を出力する。
以降、対話システムは目的発話の内容を話題とした発話を行うことで、ユーザとの対話を続行する。例えば、目的発話をシナリオ対話システムにおいて用いられている技術により生成した場合には、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システムとの間で実行されるように、対話システムはシナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、目的発話を雑談対話システムにおいて用いられている技術により生成した場合には、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を提示する人型ロボットは、何れか一台の人型ロボットであってもよいし、複数台の人型ロボットであってもよい。
[第一実施形態の具体例]
以下、第一実施形態による対話内容の具体例を示す。以降の具体例の記載では、Rはロボットを表し、Hはユーザを表す。Rの後の数字は人型ロボットの識別子である。t(i)(i=0, 1, 2, …)は対話中の発話または行動を表し、特に、t(1)は第一発話、t(2)は第一発話に対するユーザ発話、t(3)は話題誘導発話、t(4)は目的発話を表す。各発話または行動の記載順は、その発話または行動を提示または表出する順番を表す。各発話が複数の発話からなる場合、t(i-j)と表す。例えば、話題誘導発話が3つの発話を含む場合、話題誘導発話はt(3-1), t(3-2), t(3-3)で表す。
(具体例1−1:想定内の発話、連想による話題の誘導)
具体例1−1は、ユーザ発話の音声認識結果が第一発話の内容から想定される範囲内であったときに、連想による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:いや、そばかな
t(3) R2:だよね。そばってヘルシーな感じ。
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、対話システムが提示したい目的発話t(4)の焦点語の一つである「健康」を連想によって導くために、第一発話t(1)に対して発せられ第一発話t(1)の内容から想定される範囲内であったユーザ発話t(2)の後に、第一発話t(1)を発した人型ロボットR1とは異なる人型ロボットR2が「ヘルシー」を含む話題誘導発話t(3)を発話している。これにより、現在の対話が「健康」を話題としていることを認めている参加者が多数派である状態となり、話題を誘導することができる。一方で、第一発話t(1)に対するユーザ発話であるユーザの回答t(2)に対しては賛同を示す(「だよね。」の部分)ことで、ユーザが完全に少数派となり疎外感を与えないように配慮している。このとき、賛同を示す発話を行うのは、話題誘導発話t(3)を発話する人型ロボットR2であってもよいし、他の人型ロボットR1であってもよい。
(具体例1−2:想定内の発話、連想による話題の誘導、複数発話)
具体例1−2は、ユーザ発話の音声認識結果が第一発話の内容から想定される範囲内であったときに、複数段階の連想による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:うどんかな
t(3-1) R2:うどんと言えば香川だね
t(3-2) R1:うん、あ、でもこの間、和歌山で食べたうどんもおいしかったよ
t(3-3) R2:そうなの?和歌山はラーメンだけかと思ってた
t(3-4) R1:うどんも有名だよ。でも確かに和歌山はどっちかっていえばラーメンかなあ。
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられ第一発話t(1)の内容から想定される範囲内であったユーザ発話t(2)に含まれる単語「うどん」から、複数の話題誘導発話t(3-1)〜t(3-4)によって「うどん」→「香川」→「和歌山」→「ラーメン」のように複数段階の連想を経て、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を導いている。これらの話題誘導発話t(3-1)〜t(3-4)を複数の人型ロボットが分担して発話することで、現在の対話が「ラーメン」を話題としている参加者が多数派である状態となり、話題を誘導することができる。
(具体例2−1:行動認識失敗、他のロボットへ同じ発話)
具体例2−1は、ユーザ発話の行動認識に失敗したときに、他のロボットへ同じ内容の発話を提示して、他のロボットがこれに回答することで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:*****(行動認識失敗)
t(3-1) R1:そっか、君は?
t(3-2) R2:ラーメン
t(3-3) R1:だよね
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、第一発話t(1)を提示した人型ロボットR1が他の人型ロボットR2に第一発話t(1)と同様の発話t(3-1)をユーザ発話t(2)の後に提示し、これに対して対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を回答する話題誘導発話t(3-2)を提示し、さらに人型ロボットR1が賛同する発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。このとき、一般的に同意される可能性が高い回答をする発話t(3-2)を提示しておくと、ユーザの意図を汲むものとなりやすい。
(具体例2−2:行動認識失敗、話題を脱線)
具体例2−2は、ユーザ発話の行動認識に失敗したときに、一旦話題を脱線させてから元の話題に戻すことで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:*****(行動認識失敗)
t(3-1) R2:何々派って、人間性でるよね
t(3-2) R1:そんなつもりじゃないよ
t(3-3) R2:僕はラーメン派だなぁ
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、第一発話t(1)の内容に関連するが本題ではない発話t(3-1)をユーザ発話t(2)の後に提示して一旦話題を脱線させた後に、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を含む話題誘導発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。第一発話t(1)自体から連想される発話で脱線することで、ユーザの発話が無視される状態を作らず、ユーザが完全に少数派とならないように配慮している。
(具体例2−3:行動認識失敗、付加情報を含む発話)
具体例2−3は、ユーザ発話の行動認識に失敗したとき、第一発話に関係する付加情報を含む発話を提示して、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:*****(行動認識失敗)
t(3-1) R2:僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-2) R1:お、和歌山
t(3-3) R2:うん、味噌ラーメン
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の行動認識に失敗したため、ユーザ発話t(2)の後に、付加的な情報(「和歌山に行っておいしいのを食べてから」)を追加して、一旦それに関する話題の発話t(3-1), t(3-2)を提示した後に、対話システムが提示したい発話t(4)の焦点語の一つである「ラーメン」を含む話題誘導発話t(3-3)を提示することで、対話システムが提示したい目的発話t(4)を導いている。付加情報に関するやり取りt(3-1)〜t(3-2)を付加して話題の遷移に時間やターンをかけることで、話題を強引に誘導している印象(またはユーザを無視している印象)を低減することができる。
(具体例3−1:認識一部成功(その1))
具体例3−1は、ユーザ発話のx択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:**<肯定的>**(x択認識に失敗したが、肯定的であることは判定できた)
t(3-1) R2:だよねぇ
t(3-2) R1:僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-3) R2:お、和歌山
t(3-4) R1:うん、味噌ラーメン
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のx択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることは判定できたため、「ユーザが第一発話に対して肯定的である」という情報に対して、肯定的な応答を表す発話t(3-1)を提示することで、一旦ユーザの意図する話題が多数派である状態とする。これにより、話題誘導発話t(3-2)〜t(3-4)により導かれた話題がユーザの意図に反しており、ユーザが少数派となったとしても不満感を与えないようにできる。話題誘導発話t(3-2)〜t(3-4)は音声認識に失敗した例と同様であるが、肯定的な応答と整合性が保たれるように決定する必要がある。
(具体例3−2:認識一部成功(その2))
具体例3−2は、ユーザ発話のx択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:**<否定的>**(x択認識に失敗したが、否定的であることは判定できた)
t(3-1) R1:えー、そっか。君は?
t(3-2) R2:僕もラーメン派ではないかなぁ
t(3-3) R1:そっか。でも、誰が何と言おうと、僕はラーメン派。
t(3-4) R2:好きなんだね。人それぞれだからいいけど。
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のx択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることは判定できたため、「ユーザが第一発話t(1)に対して否定的である」という情報に対して、否定された第一発話t(1)を発話した人型ロボットR1が驚きを示す発話t(3-1)をユーザ発話t(2)の後に提示する。発話t(3-1)を提示した後に、他の人型ロボットR2がユーザ発話t(2)に同調して否定的な発話t(3-2)を提示することで、ユーザが多数派である印象を与える。その上で、対話システムが提示したい目的発話t(4)の焦点語の一つである「ラーメン」を導く発話t(3-3)と、これに歩み寄る姿勢を見せる発話t(3-4)を提示することで、話題誘導発話t(3-1)〜t(3-4)で示した話題の遷移が多数派である状態とする。
すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が否定的な発話である場合に、第一発話を提示した人型ロボットR1がユーザ発話t(2)に同調しない発話t(3-1), t(3-3)を提示し、人型ロボットR1とは別の人型ロボットR2がユーザ発話t(2)に同調する発話t(3-2)を提示する構成を含んでいる。
また、このとき、ユーザの発話に同調して見せた人型ロボットR2が歩み寄る姿勢を見せる発話t(3-4)を提示することで、ユーザも歩み寄る姿勢を誘発することが期待できる。
なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が肯定的な発話である場合に、第一発話を提示した人型ロボットR1がユーザ発話t(2)に同調しない発話を提示し、人型ロボットR1とは別の人型ロボットR2がユーザ発話t(2)に同調する発話を提示する構成を含めばよい。
(具体例3−3:認識一部成功(その3))
具体例3−3は、ユーザ発話のx択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:**<肯定的>**(x択認識に失敗したが、肯定的であることは判定できた)
t(3-1) R2:えー、そうなの?
t(3-2) R1:僕はこの間、和歌山に行っておいしいのを食べてから、ラーメン派だよ
t(3-3) R2:お、和歌山
t(3-4) R1:うん、味噌ラーメン
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のx択認識には失敗したが、ポジネガ認識や動作認識により肯定的な内容であることは判定できたため、「ユーザが第一発話に対して肯定的である」という情報に対して、肯定的な応答を表す発話t(3-2)を提示することで、一旦ユーザの意図する話題が多数派である状態とする。その際、否定的な応答を表す発話t(3-1)も提示する。
すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が肯定的な発話である場合に、あるロボットである人型ロボットR2がユーザ発話t(2)に同調しない発話t(3-1)を提示し、人型ロボットR2とは別の人型ロボットR1がユーザ発話t(2)に同調する発話t(3-2)を提示する構成を含んでいる。
また、発話t(3-2)を提示した後に、目的発話t(4)と整合性が保たれるような発話である話題誘導発話t(3-3)〜t(3-4)を提示し、その後に目的発話t(4)を提示する。
この例では、否定的な応答を表す発話t(3-1)と肯定的な応答を表す発話t(3-2)の両方を提示することで、ロボット間でも意見の相違が生じることがあることを示し、その後にt(3-3)〜t(4)を提示することで、意見の相違からロボットが復帰できることを示すことで、ロボットが個性を持った知的な存在であるという印象をユーザに与えることができる。
なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が否定的な発話である場合に、あるロボットである人型ロボットR2がユーザ発話t(2)に同調しない発話を提示し、人型ロボットR2とは別の人型ロボットR1がユーザ発話t(2)に同調する発話を提示する構成を含めばよい。
(具体例3−4:認識一部成功(その4))
具体例3−4は、ユーザ発話のx択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることが判定できたときに、人型ロボット同士の対話を提示することで、自然な多数決による話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:**<否定的>**(x択認識に失敗したが、否定的であることは判定できた)
t(3-1) R1:えー、そっか。残念。
t(3-2) R2:ラーメンいいよねえ。
t(3-3) R1:だよね。僕は外で食べるときはラーメンが多いかなあ。
t(3-4) R2:まあ、食べすぎるとお腹回りに来るんだけど。
t(4) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)のx択認識には失敗したが、ポジネガ認識や動作認識により否定的な内容であることは判定できたため、「ユーザが第一発話に対して否定的である」という情報に対して、複数ロボットによって肯定的な応答を表す発話t(3-1), t(3-2)を提示することで、第一発話t(1)に対して肯定的であるのが多数派である状態とする。
すなわち、この例は、目的発話t(4)が第一発話t(1)に対する肯定的な発話を受けた発話として違和感がないものであるケースにおいて、ユーザ発話t(2)が否定的な発話である場合に、あるロボットである人型ロボットR1によるユーザ発話に同調しない発話t(3-1)と、人型ロボットR1とは別の人型ロボットR2によるユーザ発話に同調しない発話t(3-2)と、を提示する構成を含んでいる。
また、発話t(3-2)を提示した後に、目的発話t(4)と整合性が保たれるような発話である話題誘導発話t(3-3)〜t(3-4)を提示し、その後に目的発話t(4)を提示する。
なお、この例とは逆のケース、すなわち、目的発話t(4)が第一発話t(1)に対する否定的な発話を受けた発話として違和感がないものであるケースにおいては、ユーザ発話t(2)が肯定的な発話である場合に、あるロボットである人型ロボットR1によるユーザ発話に同調しない発話t(3-1)と、人型ロボットR1とは別の人型ロボットR2によるユーザ発話に同調しない発話t(3-2)と、を提示する構成を含めばよい。
(具体例4−1:想定外の発話、FAQ対話)
具体例4−1は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、ユーザ発話に類似した発話を提示することで、話題の誘導を行う例である。
t(1) R1:ぼく温泉だと湯布院が好きなんだけど・・・
t(2) H:え?ロボットなのに温泉入れるの?
t(3-1) R2:きみは温泉は好き?
t(3-2) R1:うん、好きだよ
t(4) R1:湯布院は風情があっていいよね
この例では、第一発話t(1)を提示している途中で、ユーザが質問t(2)でインタラプトしている。このユーザ発話t(2)は第一発話t(1)の内容から想定される範囲外となっているため、ユーザ発話t(2)に類似する内容の質問を、第一発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2がユーザ発話t(2)の後に提示している。これに対して人型ロボットR1が応答することで、自然な流れで対話システムが提示したい目的発話t(4)を導いている。
(具体例4−2:想定外の発話、追加質問)
具体例4−2は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、ユーザ発話に関連する質問を提示することで、話題の誘導を行う例である。
t(1) R1:ぼく温泉だと湯布院が好きなんだけど・・・
t(2) H:湯布院いいよね!
t(3-1) R2:だよね!湯布院のどこが好きなの?
t(3-2) R1:風情があるところが好きだよ
t(4) R2:湯布院は風情があっていいよね
この例では、第一発話t(1)を提示している途中で、ユーザが質問ではない通常の発話t(2)でインタラプトしている。このユーザ発話t(2)は第一発話t(1)の内容から想定される範囲外となっているため、第一発話t(1)を提示した人型ロボットR1とは異なる人型ロボットR2が、ユーザ発話t(2)をいったん相槌で受け止め、その後ユーザ発話t(2)に関連する内容の質問を、ユーザ発話t(2)の後に提示している。これに対して人型ロボットR1が応答することで、ユーザ発話を対話の流れに反映しつつ、自然な流れで対話システムが提示したい目的発話t(4)を導いている。
(具体例4−3:想定外の発話、シナリオ一部省略)
具体例4−3は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示したい発話文の一部を省略することで、話題の誘導を行う例である。
以下は、第一発話t(1)に対して発せられたユーザ発話t(2)が第一発話t(1)の内容から想定される範囲内にある場合に、話題誘導発話を用いずに、対話システムが提示したい目的発話t(4-1)〜t(4-3)をユーザ発話t(2)の後に提示する対話の例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:おそばかな
t(4-1) R2:だよね。そばってヘルシーな感じ。
t(4-2) R1:お酒の後のラーメンって健康的にはNGだけど、やばいよね
t(4-3) R2:健康に一番効いてくるのは、やっぱり普段の運動だよね。
以下は、第一発話t(1)に対して発せられたユーザ発話t(2)が第一発話t(1)の内容から想定される範囲外であった場合に、対話システムが提示したい目的発話の一部t(4-1)〜t(4-2)を省略し、ユーザ発話t(2)と対話システムが提示したい発話t(4-3)との間を繋ぐ話題誘導発話t(3)をユーザ発話t(2)の後に提示する例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:あー、お腹空いたね
t(3) R2:最近、食べてばっかりで、健康診断やばいかも
t(4-3) R2:健康に一番効いてくるのは、やっぱり普段の運動だよね。
(具体例4−4:想定外の発話、シナリオ一部省略、複数発話)
具体例4−4は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示したい目的発話の一部を省略し、複数の発話により話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:あー、お腹空いたね
t(3-1) R2:最近、食べてばっかりで、健康診断やばいかも
t(3-2) R1:ぼく、健康診断のときは、1か月前からジョギングするんだ
t(4-3) R2:健康に一番効いてくるのは、やっぱり普段の運動だよね。
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の内容が第一発話t(1)の内容から想定される範囲外であったため、対話システムが提示したい目的発話の一部t(4-1)〜t(4-2)を省略し、ユーザ発話t(2)と対話システムが提示したい発話t(4-3)との間を繋ぐ複数の話題誘導発話t(3-1), t(3-2)をユーザ発話t(2)の後に人型ロボットR1、R2が分担して提示している。これにより、対話システムが提示したい目的発話t(4-3)への話題の遷移が多数派である状態とする。
(具体例4−5:想定外の発話、シナリオ再選択)
具体例4−5は、音声認識により得られたユーザ発話の内容が第一発話の内容から想定される範囲外であったときに、対話システムが提示しようとしていた目的発話を再選択して、新しい目的発話へ話題の誘導を行う例である。
t(1) R1:ラーメン、そば、うどんなら、やっぱりラーメン派?
t(2) H:そういう心理テストみたいなの好きだね
t(3-1) R2:ぼく、人を分析するのは好きじゃないな
t(3-2) R1:どうして?
t(4') R2:疑って人を傷つけるよりは、信じて裏切られる方がいいじゃん
この例では、第一発話t(1)に対して発せられたユーザ発話t(2)の内容が第一発話t(1)の内容から想定される範囲から大きく外れており、対話システムが提示したい目的発話t(4-1)〜t(4-3)に話題を遷移させることが困難となっている。そこで、対話システムが提示したい発話t(4-1)〜t(4-3)を取り止め、ユーザ発話t(2)に関連する他の発話t(4')を選択し、ユーザ発話t(2)と再選択された発話t(4')との間を繋ぐ話題誘導発話t(3-1)〜t(3-2)をユーザ発話t(2)の後に提示して、話題を誘導している。
[第二実施形態]
第一実施形態では、対話システムから提示した第一発話に対するユーザ発話の音声認識結果を少なくとも含むユーザの行動認識結果に基づいて、対話システムが提示したい目的発話の話題へ誘導する構成を説明した。しかしながら、ユーザが自発的に発話したユーザ発話に基づいて、対話システムが提示したい目的発話の話題へ誘導する構成としてもよい。第二実施形態は、ユーザ発話に基づいて対話システムが提示したい目的発話を決定したときに、ユーザ発話の話題と目的発話の話題とが遠い場合に、話題を誘導する発話をユーザ発話と目的発話の間に挿入する構成である。
以下、図3を参照して、第二実施形態の対話方法の処理手続きを説明する。
ステップS21において、マイクロホン11は、ユーザ101が発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。マイクロホン11が取得したユーザの発話内容を表す音声信号は音声認識部21へ入力される。音声認識部21は、マイクロホン11が取得したユーザの発話内容を表す音声信号を音声認識する。この実施形態では、行動認識部20内の音声認識部21はC.妥当性認識のみを行う。音声認識部21は、マイクロホン11が取得したユーザの発話内容を表す音声信号を妥当性認識し、ユーザ発話の音声認識結果を出力する。
ステップS22において、発話決定部30は、行動認識部20が出力したユーザの行動認識結果を受け取り、すなわち、音声認識部21が出力したユーザ発話の音声認識結果を受け取り、ユーザ発話の音声認識結果に基づいて、目的発話の内容を表すテキストと目的発話へ話題を誘導するための話題誘導発話の内容を表すテキストとを決定する。話題誘導発話および目的発話はいずれも、一つの発話であってもよいし、複数の発話であってもよい。発話決定部30は話題誘導発話および目的発話を提示する人型ロボットを決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報を出力し、目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報を出力する。また、発話決定部30は話題誘導発話および目的発話を提示する相手を決定してもよく、その場合、話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報を出力し、目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報を出力する。
発話決定部30は、ユーザ発話を含む直前までの発話内容に基づいて目的発話の内容を決定する。発話決定部30がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部30は、ユーザ発話を含む直前の5発話程度を含む対話について、すなわち、ユーザ発話の音声認識結果に含まれる認識結果のテキスト(ユーザ発話の内容を表すテキスト)とユーザ発話の直前の5発話程度の各発話の内容を表すテキストについて、各発話の内容を表すテキストに含まれる単語や各発話を構成する焦点語と発話決定部30内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより目的発話の内容を表すテキストを決定する。
発話決定部30は、ユーザ発話の内容を表すテキストに含まれるいずれかの単語から目的発話の焦点語のいずれかを連想させる話題誘導発話を決定する。発話決定部30は、まず、ユーザ発話の内容を表すテキストに含まれる各単語から連想される単語と、目的発話の各焦点語を連想させる単語と、を連想語として抽出する。そして、発話決定部30は、発話決定部30の図示しない記憶部に記憶された発話文のうち、ユーザ発話の連想語と目的発話の連想語の両方を含む発話文から文脈に沿ったものを選択することで、話題誘導発話を決定する。決定する話題誘導発話は、複数の発話を含み、複数段階の連想を経てユーザ発話に含まれる単語のいずれかから目的発話の焦点語のいずれかを連想させる発話であってもよい。
ステップS23において、音声合成部40は、話題誘導発話の内容を表すテキストを話題誘導発話の内容を表す音声信号に変換し、提示部50は、話題誘導発話の内容を表す音声を、人型ロボット50−1が備えるスピーカ51−1または人型ロボット50−2が備えるスピーカ51−2から出力する。発話決定部30から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する人型ロボットを表す情報が入力された場合、提示部50は、当該情報に対応する人型ロボット50が備えるスピーカ51から当該話題誘導発話の内容を表す音声を出力する。発話決定部30から話題誘導発話の内容を表すテキストと共に話題誘導発話を提示する相手を表す情報が入力された場合、提示部50は、当該情報に対応する相手のいる方向へ人型ロボット50の顔もしくは体全体を向けて当該話題誘導発話の内容を表す音声を出力する。
ステップS24において、音声合成部40は、目的発話の内容を表すテキストを目的発話の内容を表す音声を信号に変換し、提示部50は、目的発話の内容を表す音声信号に対応する音声を、人型ロボット50−1が備えるスピーカ51−1または人型ロボット50−2が備えるスピーカ51−2から出力する。発話決定部30から目的発話の内容を表すテキストと共に目的発話を提示する人型ロボットを表す情報が入力された場合、提示部50は、当該情報に対応する人型ロボット50が備えるスピーカ51から当該発話の内容を表す音声を出力する。発話決定部30から目的発話の内容を表すテキストと共に目的発話を提示する相手を表す情報が入力された場合、提示部50は、当該情報に対応する相手のいる方向へ人型ロボット50の顔もしくは体全体を向けて当該目的発話の内容を表す音声を出力する。
[第二実施形態の具体例]
以下、第二実施形態による対話内容の具体例を示す。以降の具体例の記載では、t(2)はユーザ発話、t(3)は話題誘導発話、t(4)は目的発話を表す。
(具体例5−1:連想による話題の誘導)
具体例5−1は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがあるときに、目的発話の話題を連想する発話を挿入することで、話題の誘導を行う例である。
以下は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と近いため、話題誘導発話を用いずにそのまま続けて発話しても違和感を生じない場合の例である。
t(2) H:ロボットって泳げるの?
t(4-1) R2:きみは泳げる?
t(4-2) R1:泳げるよ
以下は、ユーザ発話の内容に基づいて選択した目的発話の話題がユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがある場合の例である。
t(2) H:ロボットって泳げるの?
t(3-1) R2:あ、泳ぐ・・
t(3-2) R1:ん?どうしたの?
t(3-3) R2:いや、プール行きたいなーって
t(4-1) R1:あ!そういえば箱根に温泉とプールが付いてる施設があるの知ってる?
t(4-2) R2:知ってる!○○○でしょ?
t(4-3) R1:そうそう、いいよね
この例では、ユーザ発話t(2)に含まれる単語「泳げる」から「温泉とプール」が含まれる対話t(4-1)〜t(4-3)が選択されたが、話題間の距離が離れていると判断し、「泳ぐ」と「プール」を繋ぐ話題誘導発話t(3-1)〜t(3-3)をユーザ発話t(2)の後に挿入することで、自然な流れで話題が遷移した印象を与える。また、ユーザ発話に含まれる「泳ぐ」に言及しているため、ユーザは発話を無視されていないように感じる。
(具体例5−2:連想による話題の誘導)
具体例5−2は、ユーザ発話の内容に基づいて選択した目的発話の話題が、ユーザ発話の話題と離れており、そのまま続けて発話すると違和感を生じるおそれがあるときに、目的発話の話題を連想する発話を挿入することで、話題の誘導を行う例である。
t(2) H:ロボットって泳げるの?
t(3) R2:おっきいお風呂だと泳げていいよね
t(4-1) R1:お風呂はいつ入る?
t(4-2) R2:うーん、夕方かな。ごはん後が多いよ。
t(4-3) R1:その時間がいいね
この例では、ユーザ発話t(2)に含まれる単語「泳げる」から「お風呂」に関する対話t(4-1)〜t(4-3)が選択されたが、話題間の距離が離れていると判断し、「泳ぐ」と「お風呂」を繋ぐ話題誘導発話t(3)をユーザ発話t(2)の後に挿入することで、自然な流れで話題が遷移した印象を与える。また、ユーザ発話に含まれる「泳ぐ」に言及しているため、ユーザは発話を無視されていないように感じる。
[変形例]
上述した実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、上述した実施形態の提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」(登録商標)や「2ちゃんねる」(登録商標)のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
変形例の対話システム200は、図4に示すように、例えば、一台の対話装置2からなる。変形例の対話装置2は、例えば、入力部10、行動認識部20、発話決定部30、および提示部50を備える。対話装置2は、例えば、マイクロホン11、スピーカ51を備えていてもよい。
変形例の対話装置2は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置2がスマートフォンであるものとして説明する。提示部50はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置2が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてグループチャットのウィンドウ内に設けられた入力エリアである入力部10へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部30はユーザのアカウントからの投稿に基づいて対話装置2からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン11と音声認識機能を用い、ユーザが発声により入力部10へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ51と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ51から出力する構成としてもよい。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、提示部が提示する発話順を除いて、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (32)

  1. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記第二提示ステップは、
    上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して、上記第一発話と同じ意味の発話である第一話題誘導発話を提示し、
    上記第一話題誘導発話後に、上記第二人格によって、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話を提示する
    ことを含む
    対話方法。
  2. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記第二提示ステップは、
    上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話を提示し、
    上記第一話題誘導発話後に、複数の人格による複数の話題誘導発話を提示する
    ことを含む
    対話方法。
  3. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記第二提示ステップは、
    上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話に応答する発話である話題誘導発話を提示する
    ことを含む
    対話方法。
  4. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
    上記話題誘導発話は、
    ある人格である人格Aによる上記ユーザ発話に同調する発話と、
    上記人格A以外の人格である人格Bによる上記ユーザ発話に同調しない発話と、
    を含むものである、
    対話方法。
  5. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    上記話題誘導発話は、
    ある人格である人格Aによる上記ユーザ発話に同調しない発話と、
    上記人格A以外の人格である人格Bによる上記ユーザ発話に同調しない発話と、
    を含むものである、
    対話方法。
  6. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    上記話題誘導発話は、
    上記第一発話を提示した人格である第一人格による上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格による上記ユーザ発話に同調する発話と、
    を含むものである、
    対話方法。
  7. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含み、
    上記目的発話は、上記第一発話に関連する複数の発話を含み、
    上記話題誘導発話は、上記目的発話のn(≧2)番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
    上記第三提示ステップは、1番目からn-1番目までの発話を削除した上記目的発話を提示する、
    対話方法。
  8. 予め用意された発話である第一発話と上記第一発話に関連する発話文として予め用意された発話文である目的発話とをユーザへ提示する対話システムが実行する対話方法であって、
    提示部が、上記第一発話を提示する第一提示ステップと、
    入力部が、上記第一発話後に上記ユーザのユーザ発話を受け付ける発話受付ステップと、
    上記提示部が、上記ユーザ発話の発話文に含まれる単語と、上記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を上記ユーザ発話の直後に提示することを含んで、少なくとも一つの話題誘導発話を上記ユーザ発話後に提示する第二提示ステップと、
    上記提示部が、上記目的発話を上記話題誘導発話後に提示する第三提示ステップと、
    を含む対話方法。
  9. 請求項に記載の対話方法であって、
    記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合、
    上記第二提示ステップでは、
    上記提示部が、
    上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって、上記ユーザ発話に関連する質問をする第一の話題誘導発話を提示し、
    上記第一の話題誘導発話の直後に、上記第一人格によって、上記第一の話題誘導発話に応答する第二の話題誘導発話を提示し、
    上記第三提示ステップは、
    上記提示部が、
    上記第二の話題誘導発話の直後に、上記第一発話とは異なる話題の発話を提示する、
    対話方法。
  10. 請求項に記載の対話方法であって、
    上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含むものである、
    対話方法。
  11. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記提示部は、
    上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して、上記第一発話と同じ意味の発話である第一話題誘導発話を提示し、
    上記第一話題誘導発話後に、上記第二人格によって、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話を提示する
    ことを含む対話システム。
  12. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記提示部は、
    上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話を提示し、
    上記第一話題誘導発話後に、複数の人格による複数の話題誘導発話を提示する
    ことを含む対話システム。
  13. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記ユーザ発話の認識に失敗した場合には、
    上記提示部は、
    上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって、上記第一発話に応答する発話である話題誘導発話を提示する
    ことを含む対話システム。
  14. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
    上記話題誘導発話は、
    ある人格である人格Aによる上記ユーザ発話に同調する発話と、
    上記人格A以外の人格である人格Bによる上記ユーザ発話に同調しない発話と、
    を含むものである、
    対話システム。
  15. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    上記話題誘導発話は、
    ある人格である人格Aによる上記ユーザ発話に同調しない発話と、
    上記人格A以外の人格である人格Bによる上記ユーザ発話に同調しない発話と、
    を含むものである、
    対話システム。
  16. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    上記話題誘導発話は、
    上記第一発話を提示した人格である第一人格による上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格による上記ユーザ発話に同調する発話と、
    を含むものである、
    対話システム。
  17. ある発話である第一発話と上記第一発話に関連する目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記第一発話と、上記目的発話と、上記ユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの話題誘導発話と、を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含み、
    上記発話決定部が決定する上記目的発話は、上記第一発話に関連する複数の発話を含み、
    上記発話決定部が決定する上記話題誘導発話は、上記発話決定部が決定した上記目的発話のn(≧2)番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
    上記提示部は、上記発話決定部が決定した上記目的発話から1番目からn-1番目までの発話を削除した発話を上記目的発話として提示する、
    対話システム。
  18. 予め用意された発話である第一発話と上記第一発話に関連する発話文として予め用意された発話文である目的発話とをユーザへ提示する対話システムであって、
    上記第一発話後に上記ユーザのユーザ発話を受け付ける入力部と、
    上記ユーザ発話の直後に提示される、上記ユーザ発話の発話文に含まれる単語と、上記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を含む、少なくとも一つの話題誘導発話を決定する発話決定部と、
    上記第一発話を提示し、上記ユーザ発話を受け付けた後に上記話題誘導発話を提示し、上記話題誘導発話を提示した後に上記目的発話を提示する提示部と、
    を含む対話システム。
  19. 請求項18に記載の対話システムであって、
    上記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合、
    上記提示部は、
    上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって、上記ユーザ発話に関連する質問をする第一の話題誘導発話を提示し、
    上記第一の話題誘導発話の直後に、上記第一人格によって、上記第一の話題誘導発話に応答する第二の話題誘導発話を提示し、
    上記第二の話題誘導発話の直後に、上記第一発話とは異なる話題の発話を提示する、
    対話システム。
  20. 請求項18に記載の対話システムであって、
    上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含むものである、
    対話システム。
  21. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、
    上記ユーザ発話後に、上記第一発話を提示した人格である第一人格によって、上記第一人格以外の人格である第二人格に対して上記提示部が提示する、上記第一発話と同じ意味の発話である第一話題誘導発話と、上記第一話題誘導発話後に、上記第二人格によって上記提示部が提示する、上記第一話題誘導発話と上記目的発話の発話文とに基づく発話である第二話題誘導発話と、
    を含む
    対話装置。
  22. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって上記提示部が提示する、上記第一発話と関連するが上記第一発話とは異なる内容の発話である第一話題誘導発話と、
    上記第一話題誘導発話後に、複数の人格により上記提示部が提示する、複数の話題誘導発話と
    を含む
    対話装置。
  23. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記ユーザ発話の認識に失敗した場合に上記発話決定部が決定する上記話題誘導発話は、
    上記ユーザ発話後に、上記第一発話を提示した人格以外の人格である第二人格によって上記提示部が提示する、上記第一発話に応答する発話である話題誘導発話
    を含む
    対話装置。
  24. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、
    に上記発話決定部が決定する上記話題誘導発話は、
    ある人格である人格Aにより上記提示部が提示する上記ユーザ発話に同調する発話と、
    上記人格A以外の人格である人格Bにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
    を含む、
    対話装置。
  25. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    に上記発話決定部が決定する上記話題誘導発話は、
    ある人格である人格Aにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
    上記人格A以外の人格である人格Bにより上記提示部が提示する上記ユーザ発話に同調しない発話と、
    を含む、
    対話装置。
  26. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記第一発話に関連する目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記目的発話が、上記第一発話に対する肯定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から否定的な意図を検知した場合、または、
    上記目的発話が、上記第一発話に対する否定的な発話を受けた発話として違和感がないもの、である場合であって、上記ユーザ発話の認識結果から肯定的な意図を検知した場合、
    に上記発話決定部が決定する上記話題誘導発話は、
    上記第一発話を提示した人格である第一人格により上記提示部が提示する上記ユーザ発話に同調しない発話と、上記第一人格以外の人格である第二人格により上記提示部が提示する上記ユーザ発話に同調する発話と、
    を含む、
    対話装置。
  27. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する目的発話と、
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の認識結果と上記目的発話の発話文とに基づいて上記目的発話へ話題を誘導するための少なくとも一つの上記話題誘導発話と、を決定する発話決定部
    を含み、
    上記発話決定部が決定する上記目的発話は、上記第一発話に関連する複数の発話を含み、
    上記発話決定部が決定する上記話題誘導発話は、上記発話決定部が決定した上記目的発話のn(≧2)番目の発話に含まれる焦点語のいずれかを連想させる単語を含む少なくとも一つの発話を含み、
    上記発話決定部は、上記発話決定部が決定した上記目的発話から1番目からn-1番目までの発話を削除した発話を、上記提示部が提示する上記目的発話として決定する、
    対話装置。
  28. ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、
    ある発話である第一発話と、
    話題誘導発話後に上記提示部が提示する、上記第一発話に関連する発話文である目的発話と、
    が予め用意されており
    上記提示部による第一発話の提示後に上記入力部が受け付けたユーザ発話の直後に上記提示部が提示する、上記ユーザ発話の発話文に含まれる単語と、記目的発話の単語または上記目的発話の話題に誘導するための話題の単語と、を含む発話を含み、上記ユーザ発話を受け付けた後に上記提示部が提示する、少なくとも一つの上記話題誘導発話を決定する発話決定部
    を含む対話装置。
  29. 請求項28に記載の対話装置であって、
    上記ユーザ発話の認識結果が上記第一発話に関連しない内容である場合に上記発話決定部が決定する上記話題誘導発話は、
    上記ユーザ発話の直後に、上記第一発話を提示した第一人格以外の人格である第二人格によって上記提示部が提示する、上記ユーザ発話に関連する質問をする第一の話題誘導発話と、
    上記第一の話題誘導発話の直後に、上記第一人格によって上記提示部が提示する、上記第一の話題誘導発話に応答する第二の話題誘導発話と、
    を含み、
    上記発話決定部は、
    上記第二の話題誘導発話の直後に上記提示部が提示する、上記第一発話とは異なる話題の発話を、さらに決定する、
    対話装置。
  30. 請求項28に記載の対話装置であって、
    上記話題誘導発話は、上記ユーザ発話の発話文に含まれる単語のいずれかから連想される単語と上記目的発話の発話文に含まれる焦点語のいずれかを連想させる単語とを含む、
    対話装置
  31. 請求項1から10のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
  32. 請求項21から30のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。
JP2019504381A 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム Active JP6842095B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017046366 2017-03-10
JP2017046366 2017-03-10
PCT/JP2018/002509 WO2018163647A1 (ja) 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018163647A1 JPWO2018163647A1 (ja) 2020-01-09
JP6842095B2 true JP6842095B2 (ja) 2021-03-17

Family

ID=63448591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019504381A Active JP6842095B2 (ja) 2017-03-10 2018-01-26 対話方法、対話システム、対話装置、およびプログラム

Country Status (3)

Country Link
US (1) US11222634B2 (ja)
JP (1) JP6842095B2 (ja)
WO (1) WO2018163647A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232789B2 (en) * 2016-05-20 2022-01-25 Nippon Telegraph And Telephone Corporation Dialogue establishing utterances without content words
JP6842095B2 (ja) * 2017-03-10 2021-03-17 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US12118991B2 (en) * 2018-07-20 2024-10-15 Sony Corporation Information processing device, information processing system, and information processing method
WO2020070923A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 対話装置、その方法、およびプログラム
JP7310907B2 (ja) * 2019-10-03 2023-07-19 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US20220351727A1 (en) * 2019-10-03 2022-11-03 Nippon Telegraph And Telephone Corporation Conversaton method, conversation system, conversation apparatus, and program
JP2021131472A (ja) * 2020-02-20 2021-09-09 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム
CN111368046B (zh) * 2020-02-24 2021-07-16 北京百度网讯科技有限公司 人机对话方法、装置、电子设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
JP4353212B2 (ja) * 2006-07-20 2009-10-28 株式会社デンソー 単語列認識装置
US9634855B2 (en) * 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications
JP6225012B2 (ja) * 2013-07-31 2017-11-01 日本電信電話株式会社 発話文生成装置とその方法とプログラム
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9375845B1 (en) * 2014-09-30 2016-06-28 Sprint Communications Company, L.P. Synchronizing robot motion with social interaction
JP6583765B2 (ja) * 2015-01-16 2019-10-02 国立大学法人大阪大学 エージェント対話システムおよびプログラム
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
US11232789B2 (en) * 2016-05-20 2022-01-25 Nippon Telegraph And Telephone Corporation Dialogue establishing utterances without content words
JP6842095B2 (ja) * 2017-03-10 2021-03-17 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Also Published As

Publication number Publication date
JPWO2018163647A1 (ja) 2020-01-09
US11222634B2 (en) 2022-01-11
US20200013404A1 (en) 2020-01-09
WO2018163647A1 (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
JP6842095B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
US11222633B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719740B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6699010B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11354517B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6601625B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6610965B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
Siebenaler Voice Recognition Technology: Adaptive Studies for Success

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210203

R150 Certificate of patent or registration of utility model

Ref document number: 6842095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250