JP2018165805A

JP2018165805A - 対話装置、対話装置の制御方法およびプログラム

Info

Publication number: JP2018165805A
Application number: JP2017063689A
Authority: JP
Inventors: 喜昭野田; Yoshiaki Noda; 節夫山田; Setsuo Yamada; 杉崎　正之; Masayuki Sugizaki; 正之杉崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2018-10-25
Anticipated expiration: 2037-03-28
Also published as: JP6736225B2

Abstract

【課題】発話者に対してより適切な応答を行う。【解決手段】本発明に係る話し終わり対話装置１０は、発話者が話し終わったか否かを判定する話し終わり判定部１１と、話し終わり判定部１１により発話者が話し終わったと判定されると、発話者の話し終わりまでの発話内容に応じた応答を応答部１２に行わせ、話し終わり判定部１１により発話者が話し終わっていないと判定されると、発話者の話を傾聴していることを示す応答を応答部１２に行わせる応答制御部１５と、を備える。【選択図】図１

Description

本発明は、発話者に対する応答を行う対話装置、対話装置の制御方法およびプログラムに関する。

発話者の発した音声に対する音声認識の結果を発話内容として取得し、取得した発話内容を解析して、解析結果に応じた応答を発話者に対して行う対話システムが検討されている。このような対話システムによれば、例えば、顧客がコールセンタに電話し、不明点などの質問を話すことで質問に対する回答を自動的に顧客に提示することができる。また、非特許文献１には、上述したような対話システムにおいて、対話システム側が相槌を行うことで、ユーザが話しやすく感じるという効果を得られることが記載されている。

中野幹生他「自然言語処理シリーズ７対話システム」、コロナ社、２０１５年２月１３日（Ｐ２１２−Ｐ２１８）

上述したような対話システムでは、あたかも人と話しているような自然な応答を発話者に返すことが重要である。

ここで、人間は常に伝えたい内容を整理してよどみなく話せるわけではなく、話の途中で考えたり、言い淀んだりする。そのため、発話者が話している途中に、音声が途切れることがある。

従来の対話システムにおいては、発話者が実際には話し終わっていないにも関わらず、発話者の音声が途切れた時点までの音声認識により得られた中途半端な発話内容の解析結果に応じた応答が行われることがある。このような応答は不適切な応答であり、発話者が不自然さを感じる原因となる。

また、通常、人と人との対話では、発話者の話が途切れたタイミングなどで、受話者が相槌や頷きを行うことで、発話者は受話者が発話者の話を傾聴していることを感じることができる。上述したように、発話者に対して、対話システム側から相槌や頷きなどの発話者の話を傾聴していることを示す応答を行うことは、発話者が不自然さを感じないようにするために重要である。しかしながら、従来の対話システムにおいては、発話者の話を傾聴していることを示す応答を行うことについて十分な検討がなされていなかった。

このように従来の対話システムでは、発話者に対してより適切な応答を行うことができないという問題がある。

上記のような問題点に鑑みてなされた本発明の目的は、発話者に対してより適切な応答を行うことができる対話装置、対話装置の制御方法およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る対話装置は、発話者に対する応答を行う応答部を備えた対話装置であって、前記発話者が話し終わったか否かを判定する話し終わり判定部と、前記話し終わり判定部により前記発話者が話し終わったと判定されると、前記発話者の話し終わりまでの発話内容に応じた応答を前記応答部に行わせ、前記話し終わり判定部により前記発話者が話し終わっていないと判定されると、前記発話者の話を傾聴していることを示す応答を前記応答部に行わせる応答制御部と、を備える。

また、上記課題を解決するため、本発明に係る話し終わり対話装置の制御方法は、発話者に対する応答を行う応答部を備えた対話装置の制御方法であって、前記発話者が話し終わったか否かを判定するステップと、前記発話者が話し終わったと判定されると、前記発話者の話し終わりまでの発話内容に応じた応答を前記応答部に行わせ、前記発話者が話し終わっていないと判定されると、前記発話者の話を傾聴していることを示す応答を前記応答部に行わせるステップと、を含む。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の対話装置として機能させる。

本発明に係る対話装置、対話装置の制御方法およびプログラムによれば、発話者に対してより適切な応答を行うことができる。

本発明の第１の実施形態に係る対話装置の構成例を示すブロック図である。図１に示す対話装置の動作を概念的に示す図である。本発明の第２の実施形態に係る対話装置の構成例を示すブロック図である。

以下、本発明を実施するための形態について、図面を参照しながら説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る対話装置１０の構成例を示すブロック図である。本実施形態に係る対話装置１０は、発話者が発した音声が入力され、入力された音声に応じて、発話者に対して応答を行うものである。なお、以下では、本実施形態に係る対話装置１０は、例えば、人型のロボット装置などに搭載され、あるいは、ロボット装置と一体的に構成され、ロボット装置を制御して、音声出力およびロボット装置を動作させることで、ロボット装置に発話する発話者に対して応答を行うものであるとする。

図１に示す対話装置１０は、話し終わり判定部１１と、応答部１２と、応答制御部１５とを備える。

話し終わり判定部１１は、発話者が発した音声が入力されると、入力音声に対して音声認識を行い、入力音声のテキスト化を行う。そして、話し終わり判定部１１は、音声認識により得られた入力音声をテキスト化した単位メッセージ（認識結果メッセージ）毎に、発話者が話し終わったか否かを判定し、判定結果を応答制御部１５に出力する。話し終わり判定部１１は、例えば、発話者が音声を発しない無音期間が所定時間以上続くことを示す認識結果メッセージが得られると、発話者が対話装置１０からの応答を待っている、すなわち、発話者が話し終えたと判定する。また、話し終わり判定部１１は、例えば、話し終わりに用いられることが多い語句（例えば、「〜でしょうか」、「〜ですが」など）が検出された場合に、発話者が話し終えたと判定する。音声認識の結果に基づく、発話者が話し終わったか否かの判定方法は、これらに限られるものではなく、種々の方法を用いることができる。

応答部１２は、応答制御部１５の制御に従い、音声出力およびロボット装置の動作などにより発話者に対する応答を行う。応答部１２は、音声合成部１３と、動作部１４とを備える。

音声合成部１３は、発話者に対する応答として音声出力を行うために、ロボット装置の音声出力部（図示せず）から出力する音声の音声合成を行う。そして、音声合成部１３は、合成音声を音声出力部から出力させる。

動作部１４は、発話者に対する応答としてロボット装置を動作させるために、ロボット装置の動作を制御する動作指令を生成し、ロボット装置を動作させる動作機構に出力する。なお、発話者に対する応答は、上述した音声出力部からの音声出力、ロボット装置の動作だけに限られない。例えば、ロボット装置に表示部を設け、発話者に対する応答をロボット装置の表示部に表示するようにしてもよい。

応答制御部１５は、話し終わり判定部１１の判定結果に応じて、応答部１２による発話者への応答を制御する。

具体的には、応答制御部１５は、話し終わり判定部１１により、発話者が話し終わったと判定されるまで、認識結果メッセージ（部分発話内容）を順次蓄積していき、発話者が話し終わったと判定されると、それまでに蓄積した認識結果メッセージと現在の認識結果メッセージ（話し終わりであると判定された認識結果メッセージ）とをまとめて発話内容として取得する。そして、応答制御部１５は、取得した発話内容を予め定められた対話ルールに基づき評価し、対話ルールで記述された条件に応じた応答を応答部１２に行わせる。

また、応答制御部１５は、話し終わり判定部１１により、認識結果メッセージに対して話し終わりでないと判定された場合には、相槌や頷きといった発話者の話を傾聴していることを示す応答を応答部１２に行わせる。

図２は、本実施形態に係る対話装置１０の動作を概念的に示す図である。図２においては、無音期間、発話者による「えーっと」という発話、無音期間、「昨日引っ越したので、住所変更をしたいのですが」という発話からなる入力音声が対話装置１０に入力されたとする。

上述した入力音声に対する音声認識により、「無音」、「えーっと」、「無音」、「昨日、引越しをしたので、」および「住所変更をしたいのですが」という認識結果メッセージが得られたとする。従来の対話システムでは、「えーっと」、「昨日、引越しをしたので、」、「住所変更をしたいのですが」といった発話の区切り（認識結果メッセージ単位）で発話者の発話内容の解析が行われ、その解析結果に応じた応答が行われていた。そのため、例えば、「えーっと」、「昨日、引越しをしたので、」などの、発話者が用件を話し終わる前の認識結果メッセージに対して、「質問内容が不明です」などの発話者の意図に合致しない不適切な応答が行われることがあった。また、従来の対話システムでは、発話者の話の合間に相槌や頷きなどの、発話者の話を傾聴していることを示す応答が行われることが無く、発話者は自分の話が認識されているのか、不安を感じることがあった。

本実施形態においては、対話装置１０は、発話者が話し終わっていないと判定した場合には、発話者の話を傾聴していることを示す応答（相槌や頷き）を行う。そして、対話装置１０は、発話者が話し終わったと判定すると、それまでの認識結果メッセージを纏めて発話内容を解析し、その解析結果に応じた応答を行う。

図２に示す例では、例えば、対話装置１０は、「えーっと」という認識結果メッセージに対して話し終わりでないと判定すると、例えば、発話者の話を傾聴していることを示す相槌（例えば、「はい」）を音声出力する。さらに、対話装置１０は、「昨日、引越しをしたので、」という認識結果メッセージに対して話し終わりでないと判定すると、例えば、発話者の話を傾聴していることを示すロボット装置の動作（例えば、頷き）を行う。また、対話装置１０は、話し終わりではないと判定した認識結果メッセージ（「えーっと」および「昨日、引越しをしたので、」）を順次蓄積する。

さらに、対話装置１０は、「住所変更をしたいのですが」という認識結果メッセージに対して話し終わりであると判定すると、これまでに蓄積した認識結果メッセージ（「えーっと」および「昨日、引越しをしたので、」）と、現在の認識結果メッセージ「住所変更をしたいのですが」とを纏めて発話内容として取得する。そして、対話装置１０は、取得した発話内容を解析し、発話内容に対する回答（例えば、住所変更の方法）を音声出力する。

このように本実施形態においては、対話装置１０は、発話者が話し終わったか否かを判定する話し終わり判定部１１と、話し終わり判定部１１により発話者が話し終わったと判定されると、発話者の話し終わりまでの発話内容に応じた応答を応答部１２に行わせ、話し終わり判定部１１により発話者が話し終わっていないと判定されると、発話者の話を傾聴していることを示す応答を応答部１２に行わせる応答制御部１５と、を備える。

発話者が話し終わったと判定すると、それまでの発話内容に応じた応答を行い、発話者が話し終わっていないと判定すると、発話者の話を傾聴していることを示す応答を行うことで、話し終わる前の中途半端な発話内容の解析結果に応じた応答が行われる可能性が低減し、また、発話者に対して話を傾聴していることを示すことができるので、発話者に対してより適切な応答を行うことができる。

（第２の実施形態）
図３は、本発明の第２の実施形態に係る対話装置１０Ａの構成例を示す図である。図３において、図１と同様の構成には同じ符号を付し、説明を省略する。

図３に示す対話装置１０Ａは、図１に示す対話装置１０と比較して、話し終わり判定部１１を話し終わり判定部１１Ａに変更した点が異なる。

話し終わり判定部１１Ａは、発話時の発話者の音声および発話者を撮影した映像が入力され、入力された音声および映像に基づき、発話者が話し終わったか否かを判定する。例えば、話し終わり判定部１１Ａは、入力音声から発話者が音声を発しない無音期間が所定時間以上続いたことを検出し、かつ、発話時の発話者の映像から、発話者が口を閉じている期間が所定時間以上続いたことを検出すると、発話者が話し終えたと判定する。なお、話し終わり判定部１１Ａは、発話時の発話者の音声および発話者を撮影した映像のいずれか一方から、発話者が話し終えたか否かを判定してもよい。

第１の実施形態においては、話し終わり判定部１１は、発話者の音声に対する音声認識の結果に基づき、発話者が話し終わったか否かを判定する。一方、本実施形態においては、話し終わり判定部１１Ａは、音声認識を行うことなく、発話者の発話時の音声的情報および視覚的情報の少なくとも一方に基づいて、発話者が話し終わったか否かを判定する。

応答制御部１５は、第１の実施形態と同様に、発話者の音声に対する音声認識により得られる認識結果メッセージから発話内容を取得し、取得した発話内容を解析し、解析結果に応じた応答を応答部１２に行わせる。

なお、上述した第１および第２の実施形態においては、発話者に対する応答として音声出力およびロボット装置の動作を行う例を用いて説明したが、これに限られるものではなく、例えば、音声出力のみであってもよい。この場合、コールセンタにおける顧客との対話などに本発明を適用することができる。

また、発話者が発した音声に対する音声認識には、誤りが発生することがある。そこで、単語の音声認識による認識結果として複数の候補を用意するＮ−ｂｅｓｔ法を用いた処理を行ってもよい。

実施形態では特に触れていないが、対話装置１０，１０Ａとして機能するコンピュータが行う各処理を実行するためのプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０，１０Ａ対話装置
１１，１１Ａ話し終わり判定部
１２応答部
１３音声合成部
１４動作部
１５応答制御部

Claims

発話者に対する応答を行う応答部を備えた対話装置であって、
前記発話者が話し終わったか否かを判定する話し終わり判定部と、
前記話し終わり判定部により前記発話者が話し終わったと判定されると、前記発話者の話し終わりまでの発話内容に応じた応答を前記応答部に行わせ、前記話し終わり判定部により前記発話者が話し終わっていないと判定されると、前記発話者の話を傾聴していることを示す応答を前記応答部に行わせる応答制御部と、を備えることを特徴とする対話装置。
請求項１に記載の対話装置において、
前記話し終わり判定部は、前記発話者の発話の区切りで、前記発話者が話し終わったか否かを判定することを特徴とする対話装置。
請求項１または２に記載の対話装置において、
前記話し終わり判定部は、前記発話者が発した音声に対する音声認識の結果に基づいて、前記発話者が話し終わったか否かを判定することを特徴とする対話装置。
請求項１または２に記載の対話装置において、
前記話し終わり判定部は、前記発話者の発話時の音声的情報および視覚的情報の少なくとも一方に基づいて、前記発話者が話し終わったか否かを判定することを特徴とする対話装置。
発話者に対する応答を行う応答部を備えた対話装置の制御方法であって、
前記発話者が話し終わったか否かを判定するステップと、
前記発話者が話し終わったと判定されると、前記発話者の話し終わりまでの発話内容に応じた応答を前記応答部に行わせ、前記発話者が話し終わっていないと判定されると、前記発話者の話を傾聴していることを示す応答を前記応答部に行わせるステップと、を含むことを特徴とする制御方法。
コンピュータを請求項１から４のいずれか一項に記載の対話装置として機能させるためのプログラム。