JP2018045202A

JP2018045202A - 音声対話システムおよび音声対話方法

Info

Publication number: JP2018045202A
Application number: JP2016182077A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 宗明島田; Muneaki Shimada; 浩太畠中; Kota HATANAKA; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山; Norihide Umeyama
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2018-03-22

Abstract

【課題】音声対話システムにおいて、応答までの間が不自然に長くなることを防止する。【解決手段】音声入力手段と、前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段とを備え、前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する。【選択図】図３

Description

本発明は、音声対話システムに関する。

音声対話システムでは、音声の入力装置および出力装置を備える端末（ローカル）で音声認識を行う手法と、専用の音声認識サーバで音声認識を行う手法がある。ローカルで音声認識を行う場合には、応答が速いという利点があるが、認識精度が低かったり認識可能が語彙が少なかったりという欠点がある。逆に、サーバで音声認識を行う場合には認識精度が高く認識可能な語彙が多いという利点があるが、通信が必要となるので応答が遅いという欠点がある。

このようなローカルとサーバの互いの欠点を補うために、ローカルとサーバの両方で音声認識を行うハイブリッド型の音声対話システムが提案されている（特許文献１）。特許文献１に開示される音声認識端末装置は、ユーザが発話した音声コマンドを取得し、取得した音声コマンドを音声認識サーバへ送信して音声認識処理を要求する。その際、音声認識端末装置は、音声認識サーバから音声認識結果が得られるまでの応答遅延時間を予測し、予測された応答遅延時間を埋め合わせるための「つなぎ発話」を決定して発話する。これにより、応答までの間が長く空いてしまうような事態を避けることができる。

特開２０１５−１３５４２０号公報

特許文献１の手法は、応答遅延時間を埋め合わせるような長さのつなぎ発話を決定することとしているが、応答遅延時間をちょうど埋め合わせられるようなつなぎ発話を決定することは必ずしも容易ではない。

また、特許文献１の手法における応答遅延時間として、端末とサーバのあいだの通信遅延時間とサーバにおける応答処理時間が考慮されているが、特許文献１での通信遅延時間は端末とサーバのあいだの距離の差による時間のみが考慮されている。すなわち、端末とサーバのあいだの通信環境が良好な場合とそうでない場合の相違が考慮されておらず、通信環境が悪い場合には応答までの間が空いてしまい対話の自然さが損なわれてしまうおそれがある。

本発明は、音声対話システムにおいて、応答までの間が不自然に長くなることを防止することを目的とする。

本発明の第一の態様は、
音声入力手段と、
前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する、
ことを特徴とする音声対話装置である。

このように、音声認識結果に基づく応答を取得するために要する時間が長いほど、暫定的な応答の出力開始タイミングを遅らせるので、暫定的な応答の発話から音声認識結果に基づく発話までの間が不自然に空いてしまうことを抑制できる。さらに、暫定的な応答の出力開始タイミングを遅らせるだけなので、処理が容易であり、音声認識結果に基づく応答を取得するために要する時間の長さによらず適用可能である。

本発明において、音声認識手段は、前記音声入力手段に入力された音声を音声認識サーバに送信し、音声認識サーバから前記音声認識結果を取得するように構成できる。ただし、音声認識手段は、音声対話装置に組み込まれて実装されてもよい。

本発明において、前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバとの間の通信状況を取得し、通信状況が悪いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、ことができる。通信状況を取得するために、例えば、一定間隔毎に音声認識サーバに対して通信状況を確認するための信号を発信し、返信を受信するまでの時間を計測することが考えられる。

本発明において、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバにかかっているサーバ負荷を取得し、サーバ負荷が高いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、ことができる。サーバ負荷は、例えば、演算負荷や使用メモリ量によって計測できる。

本発明において、前記状況取得手段は、前記音声入力手段に入力された音声を解析して、前記音声認識結果に基づく応答を取得するために要する時間を算出する、ことができる。例えば、入力音声に対して簡易的な認識処理を施したり、入力音声の長さを計測したりすることによって、前記音声認識結果に基づく応答を取得するために要する時間を算出することができる。

本発明における制御手段は、暫定的な応答の出力開始タイミングを遅らせるだけでなく、暫定的な応答の長さを変えたり、暫定的な応答の出力速度を変えたりして、暫定的な応答の終了タイミングを遅らせることも好ましい。例えば、音声認識結果に基づく応答を取得するために要する時間が長いほど、長さの長い暫定的な応答を出力したり、前記暫定的な応答を遅い速度で出力したりすることが考えられる。

なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明はまた、音声対話システムを構成する音声対話装置あるいは音声認識サーバとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、音声対話システムにおいて、応答までの間が不自然に長くなることを防止可能となる。

図１は、実施形態に係る音声対話システムの構成を示す図である。図２は、変形例に係る音声対話システムの構成を示す図である。図３は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。図４は、実施形態に通信状況に応じたつなぎ発話の出力制御を説明する図である。

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。

＜システム構成＞
図１は、本実施形態に係る音声対話システムの構成を示す図である。本実施形態に係る音声対話システムは、音声対話ロボット（音声対話端末装置）１００、音声認識サーバ２００、対話サーバ３００から構成される。

音声対話ロボット１００は、マイク１０１、スピーカー１０２、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット１００は、音声認識要求部１０３、対話文要求部１０４、音声合成部１０５、通信状況確認部１０６、つなぎ発話生成部１０７、発話タイミング制御部１０８として機能する。図示はしていないが、音声対話ロボット１００は、画像取得装置（カメラ）や可動関節部や移動手段などを備えていてもよい。

音声認識要求部１０３は、マイク１０１に入力されたユーザの発話内容を、音声認識サーバ２００へ送って認識結果を取得する。なお、音声認識要求部１０３は、マイク１０１に入力された音声データを音声認識サーバに送ってもよいし、前処理の一部を行った後のデータを音声認識サーバに送ってもよい。

音声対話ロボット１００と音声認識サーバ２００のあいだの通信方式は特に限定されず、無線ＬＡＮやＬＴＥなどの任意の通信方式を採用可能である。

対話文要求部１０４は、音声認識要求部１０３が音声認識サーバ２００から取得した音声認識結果を対話サーバ３００に送信して、ユーザ発話に対応する応答文を取得する。対話文要求部１０４によって取得された応答文テキストは、音声合成部１０５に送られる。

音声合成部１０５は、発話内容のテキストを受け取り、音声合成を行って応答音声データを生成する。音声合成部１０５によって生成された応答音声データは、スピーカー１０２から再生される。

通信状況確認部１０６は、音声対話ロボット１００と音声認識サーバ２００および／または対話サーバ３００とのあいだの通信状況を定期的に取得する。本実施形態においては、通信状況確認部１０６は、定期的に、ＩＣＭＰ（Internet Control Message Protocol
）のエコー要求（Echo Request）を音声認識サーバ２００および／または対話サーバ３００に送信し、エコー応答（Echo Reply）を受信する。

エコー応答が得られるまでに要する時間により、音声対話ロボット１００と音声認識サーバ２００および／または対話サーバ３００のあいだの通信状況を取得可能である。

なお、通信状況を取得するために必ずしもＩＣＭＰのエコーコマンドを利用する必要はない。通信状況を確認するための簡単な信号をサーバに送信し、返信を受信するまでの時間を計測する任意の手法を採用可能である。

つなぎ発話生成部１０７は、ユーザの発話に対する暫定的な応答であるつなぎ発話の内容（つなぎ言葉）を決定する機能部である。つなぎ言葉は、「うん」や「えっとねぇ」といったような簡易的な返事あるいは相づちが該当する。つなぎ発話生成部１０７は、あらかじめ定型的な複数のつなぎ言葉を格納した辞書を有しており、この辞書の中から適当なつなぎ言葉を選択することができる。つなぎ発話生成部１０７は、ユーザ発話に対して簡易的な認識処理あるいは解析処理を施して、その処理結果に応じてつなぎ言葉を決定してもよい。あるいは、つなぎ言葉は、ユーザ発話と同じ内容を繰り返すものであってもよい。

発話タイミング制御部１０８は、つなぎ発話の発話タイミングを、通信状況確認部１０６から得られる通信状況に応じて決定する。発話タイミング制御部１０８は、典型的には、音声対話ロボット１００と音声認識サーバ２００や対話サーバ３００とのあいだの通信状況が悪いほど、つなぎ発話の発話開始タイミングをより遅いタイミングとして決定する。通信状況の良好／不良は、通信状況確認部１０６が取得するエコー応答を取得するまでにかかる時間（送受信時間）によって判定可能である。

発話タイミング制御部１０８は、送受信時間を閾値によって複数（２以上）のレベルに分け、レベルに応じて固定のタイミングでつなぎ発話を出力するように決定することができる。例えば、送受信時間が閾値以下の場合（通信状況が良い場合）は、ユーザ発話の終了から２００ミリ秒後につなぎ発話を出力するが、送受信時間が閾値より大きい場合（通信状況が悪い場合）は、ユーザ発話の終了から７００ミリ秒待ってからつなぎ発話を出力する。この例では、２段階に分けているが、３段階以上に分けても良い。また、つなぎ発話までの待ち時間を、送受信時間を変数とする関数によって決定してもよい。

なお、音声対話ロボット１００は、１つの装置として構成される必要はない。例えば図２に示すように、マイク１０１、スピーカー１０２、カメラ、可動関節部などを含むロボット１０９（フロントエンド装置）と、各種の処理を実行するスマートフォン１１０（あるいはその他のコンピュータ）の２つの装置から構成することができる。この場合、ロボット装置とコンピュータは、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。

音声認識サーバ２００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、音声認識部を備える。音声認識サーバ２００は、豊富な資源（高速な演算部や、大容量の語彙辞書など）を有しており、したがって音声対話ロボット１００による音声認識よりも高精度な音声認識が可能である。

対話サーバ３００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、対話生成部を備える。対話サーバ３００は、豊富な資源（高速な演算部や、大容量の対話シナリオＤＢなど）を有しており、したがって音声対話ロボット１００による対話文生成よりも高度な応答を生成可能である。

＜処理例＞
図３を参照して、本実施形態に係る音声対話システムにおける処理の流れを説明する。図３は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。

まず、ステップＳ１１において、通信状況確認部１０６による、音声対話ロボット１００と音声認識サーバ２００や対話サーバ３００とのあいだの定期的な通信状況の確認処理が開始される。具体的には、通信状況確認部１０６は、エコー要求のような簡単な信号を音声認識サーバ２００や対話サーバ３００に送信し、それに対する応答が受信できるまでの時間を計測する。

ステップＳ１２において、音声対話ロボット１００がマイク１０１からユーザの発話を取得する。ユーザ発話を取得した後は、音声対話ロボット１００において、つなぎ発話の出力と、音声認識結果に基づく応答の出力とが並行的に処理される。

先に、音声認識結果に基づく応答の出力処理（Ｓ１３−Ｓ１７）について説明する。ステップＳ１３において、音声認識要求部１０３は、マイク１０１に入力された音声データを音声認識サーバ２００へ送信し、その音声認識結果を要求する。音声認識サーバ２００は、送信された音声データに対して音声認識処理を施し、音声認識結果（テキスト）を音声対話ロボット１００（音声認識要求部１０３）に送信する。ステップＳ１４において、音声認識要求部１０３が音声認識サーバ２００から音声認識結果のテキストを受信する。

音声認識要求部１０３が取得した音声認識結果のテキストは、ステップＳ１５において、対話文要求部１０４を介して対話サーバ３００へ送信される。対話サーバ３００は、受信したテキストに基づいて、記憶部に記憶されている対話シナリオの中から適切なシナリオを選択し、応答文のテキストを生成する。ステップＳ１６において、対話文要求部１０４は、対話サーバ３００から応答文のテキストを受信する。

ステップＳ１７において、音声合成部１０５は、対話文要求部１０４が対話サーバ３００から取得した応答文のテキストを音声データに変換してスピーカー１０２から出力する。

次に、つなぎ発話の出力処理（Ｓ１８−Ｓ２０）について説明する。ユーザからの発話が取得されると、ステップＳ１８において、つなぎ発話生成部１０７がつなぎ発話の内容を決定する。つなぎ発話生成部１０７は、相づちや返事などのつなぎ発話を格納した辞書から、適切なつなぎ発話を選択する。

ステップＳ１９において、発話タイミング制御部１０８は、つなぎ発話の発話タイミングを、通信状況確認部１０６から得られる通信状況に応じて決定する。典型的には、通信状況が悪いほど、つなぎ発話の開始タイミングが遅くなるように決定される。なお、通信状況は、通信状況確認部１０６が取得した最新の送受信時間に基づいて決定されてもよいし、直近の所定数個の送受信時間の平均や最大値などに基づいて決定されてもよい。

ステップＳ２０において、音声合成部１０５は、決定されたつなぎ発話の発話タイミングが到来した時点で、つなぎ応答のテキストを音声データに変換してスピーカー１０２から出力する。

なお、一般に音声認識サーバ２００から音声認識結果に基づく応答文の生成・出力には時間がかかるので、音声認識結果に基づく応答文の出力（Ｓ１７）は、つなぎ発話の出力（Ｓ２０）よりも遅くなる。しかしながら、つなぎ発話の出力中に、音声認識結果に基づく応答文が出力可能になる場合も考えられる。この場合、つなぎ発話の完了（および適切な間）を待ってから音声認識結果に基づく応答を出力してもよいし、つなぎ発話を中断し
て音声認識結果に基づく応答を出力してもよい。

図４は、各発話のタイミングを説明する図である。図４（Ａ）は通信状況が良好な場合を示し、図４（Ｂ）は通信状況が悪い場合を示している。図４（Ａ）は通信状況が良好なので、ユーザ発話に対する音声認識処理および対話文生成処理が早く完了し、したがってシステム応答が可能になるタイミングが、図４（Ｂ）の通信状況が不良な場合と比較して早い。本実施形態に係る音声対話システムでは、通信状況が不良な場合はユーザ発話の完了からつなぎ発話開始までの時間を、通信状況が良好な場合よりも長くしている。したがって、ユーザ発話終了からつなぎ発話開始までの時間とつなぎ発話終了からシステム応答開始までの時間を均等に長くでき、つなぎ発話が終了してから無応答の期間が長くなりすぎることを防止できる。

＜効果＞
本実施形態によれば、通信状況に応じてつなぎ発話の開始タイミングを遅らせることができるので、通信状況が悪くサーバからの応答文取得に時間がかかる場合であっても、システム発話までの間が空きすぎて対話の自然さが損なわれるという事態を抑制できる。さらに、発話タイミングを遅らせるだけなので、システムを簡易に実現することが可能である。

＜変形例１＞
上記の説明では、音声対話ロボット１００からエコー要求などの送信を行うことで、音声対話ロボット１００と音声認識サーバ２００や対話サーバ３００とのあいだの通信状況を取得している。しかしながら、音声認識サーバ２００や対話サーバ３００から音声対話ロボット１００に対して定期的に通信を行うことで、音声対話ロボット１００（通信状況確認部１０６）が通信状況を取得できるようにしても良い。

＜変形例２＞
上記の説明では、通信状況の良し悪しに応じてつなぎ発話の発話タイミングを決定している。しかしながら、通信状況の良し悪しに応じて、つなぎ発話の内容（テキストの長さ）や、つなぎ発話の発話速度を変えるようにしても良い。

例えば、通信状況が少し悪い程度の場合には、つなぎ発話の発話タイミングを遅らせる処理を施し、通信状況がさらに悪くなった場合には、つなぎ発話の発話タイミングを遅らせ、さらに、より長いつなぎ発話を選択したり発話速度を遅くしたりすることも好ましい。

図４（Ｃ）は、通信状況が良好な場合よりも、つなぎ発話の開始タイミングを遅くし、かつ、つなぎ発話の発話時間の長さを長くした場合の処理例を示す。

＜変形例３＞
上記の説明では、音声対話ロボット１００と音声認識サーバ２００や対話サーバ３００とのあいだの通信状況のみを考慮している。しかしながら、音声対話ロボット１００が音声認識サーバ２００や対話サーバ３００から処理結果を取得するのにかかる時間は、通信状況だけでなく、サーバでの処理負荷やユーザ発話の内容にも依存する。

サーバの処理負荷は、例えばプロセッサの利用率やメモリの空き容量によって評価できる。通信状況確認部１０６が通信状況を確認するための信号に対して、音声認識サーバ２００や対話サーバ３００は、サーバの処理負荷に関する情報を含む応答を送信してもよい。あるいは、音声認識サーバ２００や対話サーバ３００が、定期的にサーバ処理負荷に関する情報を音声対話ロボット１００に送信することで、通信状況とサーバ負荷の両方を確
認してもよい。

音声対話ロボット１００は、簡易的な音声認識処理を行う機能を有し、当該音声認識処理の結果に応じて音声認識サーバ２００や対話サーバ３００での処理時間を推定するようにしてもよい。あるいはより単純に、ユーザ発話の長さなどから音声認識サーバ２００や対話サーバ３００での処理時間を推定するようにしてもよい。

＜変形例４＞
上記の実施形態の説明では、音声認識や対話文生成を異なるサーバで実施しているが、同一のサーバで実施してもよいし、いずれか一方の処理を音声対話ロボット１００において実施しても構わない。

あるいは、音声認識および対話文生成の両方の処理を音声対話ロボットで実施しても構わない。この場合でもユーザ発話に対する応答文を生成するためにかかる時間は、音声対話ロボットにおける処理負荷やユーザ発話の内容に基づいて変化する。したがって、これらの情報に基づいて応答文生成に要する時間を推定し、推定された応答文生成時間に応じてつなぎ発話の発話タイミングを遅らせたり、つなぎ発話の長さを長くしたりすることは有用である。

＜その他＞
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。

１００：音声対話ロボット
１０１：マイク
１０２：スピーカー
１０３：音声認識要求部
１０４：対話文要求部
１０５：音声合成部
１０６：通信状況確認部
１０７：つなぎ発話生成部
１０８：発話タイミング制御部
２００：音声認識サーバ
３００：対話サーバ

Claims

音声入力手段と、
前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する、
音声対話装置。
前記音声認識手段は、前記音声入力手段に入力された音声を音声認識サーバに送信し、音声認識サーバから前記音声認識結果を取得する、
請求項１に記載の音声対話装置。
前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバとの間の通信状況を取得し、通信状況が悪いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、
請求項２に記載の音声対話装置。
前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバにかかっているサーバ負荷を取得し、サーバ負荷が高いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、
請求項２または３に記載の音声対話装置。
前記状況取得手段は、前記音声入力手段に入力された音声を解析して、前記音声認識結果に基づく応答を取得するために要する時間を算出する、
請求項１から４のいずれか１項に記載の音声対話装置。
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、長さの長い暫定的な応答を出力する、
請求項１から５のいずれか１項に記載の音声対話装置。
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答を遅い速度で出力する、
請求項１から６のいずれか１項に記載の音声対話装置。
音声入力手段と、
前記音声入力手段に入力された音声を音声認識サーバに送信し、前記音声認識サーバから音声認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識サーバとのあいだの通信状況を定期的に取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識サーバとの通信状況が悪いほど、前記暫定的な応答の出力開始タイミングを遅らせる、
音声対話装置。
音声対話装置における音声対話方法であって、
音声を取得する音声入力ステップと、
前記音声入力ステップにおいて入力された音声の認識結果を取得する音声認識ステップと、
前記音声入力ステップにおいて音声を取得した際に、暫定的な応答を出力した後、前記音声認識ステップにおいて取得される音声認識結果に基づく応答を出力するように応答ステップと、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得ステップと、
を含む、
前記応答ステップでは、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力が完了するタイミングを遅くなるようにする、
音声対話方法。
請求項９に記載の方法の各ステップをコンピュータに実行させるためのプログラム。