JP2018045202A - 音声対話システムおよび音声対話方法 - Google Patents
音声対話システムおよび音声対話方法 Download PDFInfo
- Publication number
- JP2018045202A JP2018045202A JP2016182077A JP2016182077A JP2018045202A JP 2018045202 A JP2018045202 A JP 2018045202A JP 2016182077 A JP2016182077 A JP 2016182077A JP 2016182077 A JP2016182077 A JP 2016182077A JP 2018045202 A JP2018045202 A JP 2018045202A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- response
- recognition result
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】音声対話システムにおいて、応答までの間が不自然に長くなることを防止する。【解決手段】音声入力手段と、前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段とを備え、前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する。【選択図】図3
Description
本発明は、音声対話システムに関する。
音声対話システムでは、音声の入力装置および出力装置を備える端末(ローカル)で音声認識を行う手法と、専用の音声認識サーバで音声認識を行う手法がある。ローカルで音声認識を行う場合には、応答が速いという利点があるが、認識精度が低かったり認識可能が語彙が少なかったりという欠点がある。逆に、サーバで音声認識を行う場合には認識精度が高く認識可能な語彙が多いという利点があるが、通信が必要となるので応答が遅いという欠点がある。
このようなローカルとサーバの互いの欠点を補うために、ローカルとサーバの両方で音声認識を行うハイブリッド型の音声対話システムが提案されている(特許文献1)。特許文献1に開示される音声認識端末装置は、ユーザが発話した音声コマンドを取得し、取得した音声コマンドを音声認識サーバへ送信して音声認識処理を要求する。その際、音声認識端末装置は、音声認識サーバから音声認識結果が得られるまでの応答遅延時間を予測し、予測された応答遅延時間を埋め合わせるための「つなぎ発話」を決定して発話する。これにより、応答までの間が長く空いてしまうような事態を避けることができる。
特許文献1の手法は、応答遅延時間を埋め合わせるような長さのつなぎ発話を決定することとしているが、応答遅延時間をちょうど埋め合わせられるようなつなぎ発話を決定することは必ずしも容易ではない。
また、特許文献1の手法における応答遅延時間として、端末とサーバのあいだの通信遅延時間とサーバにおける応答処理時間が考慮されているが、特許文献1での通信遅延時間は端末とサーバのあいだの距離の差による時間のみが考慮されている。すなわち、端末とサーバのあいだの通信環境が良好な場合とそうでない場合の相違が考慮されておらず、通信環境が悪い場合には応答までの間が空いてしまい対話の自然さが損なわれてしまうおそれがある。
本発明は、音声対話システムにおいて、応答までの間が不自然に長くなることを防止することを目的とする。
本発明の第一の態様は、
音声入力手段と、
前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する、
ことを特徴とする音声対話装置である。
音声入力手段と、
前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する、
ことを特徴とする音声対話装置である。
このように、音声認識結果に基づく応答を取得するために要する時間が長いほど、暫定的な応答の出力開始タイミングを遅らせるので、暫定的な応答の発話から音声認識結果に基づく発話までの間が不自然に空いてしまうことを抑制できる。さらに、暫定的な応答の出力開始タイミングを遅らせるだけなので、処理が容易であり、音声認識結果に基づく応答を取得するために要する時間の長さによらず適用可能である。
本発明において、音声認識手段は、前記音声入力手段に入力された音声を音声認識サーバに送信し、音声認識サーバから前記音声認識結果を取得するように構成できる。ただし、音声認識手段は、音声対話装置に組み込まれて実装されてもよい。
本発明において、前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバとの間の通信状況を取得し、通信状況が悪いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、ことができる。通信状況を取得するために、例えば、一定間隔毎に音声認識サーバに対して通信状況を確認するための信号を発信し、返信を受信するまでの時間を計測することが考えられる。
本発明において、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバにかかっているサーバ負荷を取得し、サーバ負荷が高いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、ことができる。サーバ負荷は、例えば、演算負荷や使用メモリ量によって計測できる。
本発明において、前記状況取得手段は、前記音声入力手段に入力された音声を解析して、前記音声認識結果に基づく応答を取得するために要する時間を算出する、ことができる。例えば、入力音声に対して簡易的な認識処理を施したり、入力音声の長さを計測したりすることによって、前記音声認識結果に基づく応答を取得するために要する時間を算出することができる。
本発明における制御手段は、暫定的な応答の出力開始タイミングを遅らせるだけでなく、暫定的な応答の長さを変えたり、暫定的な応答の出力速度を変えたりして、暫定的な応答の終了タイミングを遅らせることも好ましい。例えば、音声認識結果に基づく応答を取得するために要する時間が長いほど、長さの長い暫定的な応答を出力したり、前記暫定的な応答を遅い速度で出力したりすることが考えられる。
なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明はまた、音声対話システムを構成する音声対話装置あるいは音声認識サーバとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、音声対話システムにおいて、応答までの間が不自然に長くなることを防止可能となる。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。
<システム構成>
図1は、本実施形態に係る音声対話システムの構成を示す図である。本実施形態に係る音声対話システムは、音声対話ロボット(音声対話端末装置)100、音声認識サーバ200、対話サーバ300から構成される。
図1は、本実施形態に係る音声対話システムの構成を示す図である。本実施形態に係る音声対話システムは、音声対話ロボット(音声対話端末装置)100、音声認識サーバ200、対話サーバ300から構成される。
音声対話ロボット100は、マイク101、スピーカー102、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット100は、音声認識要求部103、対話文要求部104、音声合成部105、通信状況確認部106、つなぎ発話生成部107、発話タイミング制御部108として機能する。図示はしていないが、音声対話ロボット100は、画像取得装置(カメラ)や可動関節部や移動手段などを備えていてもよい。
音声認識要求部103は、マイク101に入力されたユーザの発話内容を、音声認識サーバ200へ送って認識結果を取得する。なお、音声認識要求部103は、マイク101に入力された音声データを音声認識サーバに送ってもよいし、前処理の一部を行った後のデータを音声認識サーバに送ってもよい。
音声対話ロボット100と音声認識サーバ200のあいだの通信方式は特に限定されず、無線LANやLTEなどの任意の通信方式を採用可能である。
対話文要求部104は、音声認識要求部103が音声認識サーバ200から取得した音声認識結果を対話サーバ300に送信して、ユーザ発話に対応する応答文を取得する。対話文要求部104によって取得された応答文テキストは、音声合成部105に送られる。
音声合成部105は、発話内容のテキストを受け取り、音声合成を行って応答音声データを生成する。音声合成部105によって生成された応答音声データは、スピーカー102から再生される。
通信状況確認部106は、音声対話ロボット100と音声認識サーバ200および/または対話サーバ300とのあいだの通信状況を定期的に取得する。本実施形態においては、通信状況確認部106は、定期的に、ICMP(Internet Control Message Protocol
)のエコー要求(Echo Request)を音声認識サーバ200および/または対話サーバ300に送信し、エコー応答(Echo Reply)を受信する。
)のエコー要求(Echo Request)を音声認識サーバ200および/または対話サーバ300に送信し、エコー応答(Echo Reply)を受信する。
エコー応答が得られるまでに要する時間により、音声対話ロボット100と音声認識サーバ200および/または対話サーバ300のあいだの通信状況を取得可能である。
なお、通信状況を取得するために必ずしもICMPのエコーコマンドを利用する必要はない。通信状況を確認するための簡単な信号をサーバに送信し、返信を受信するまでの時間を計測する任意の手法を採用可能である。
つなぎ発話生成部107は、ユーザの発話に対する暫定的な応答であるつなぎ発話の内容(つなぎ言葉)を決定する機能部である。つなぎ言葉は、「うん」や「えっとねぇ」といったような簡易的な返事あるいは相づちが該当する。つなぎ発話生成部107は、あらかじめ定型的な複数のつなぎ言葉を格納した辞書を有しており、この辞書の中から適当なつなぎ言葉を選択することができる。つなぎ発話生成部107は、ユーザ発話に対して簡易的な認識処理あるいは解析処理を施して、その処理結果に応じてつなぎ言葉を決定してもよい。あるいは、つなぎ言葉は、ユーザ発話と同じ内容を繰り返すものであってもよい。
発話タイミング制御部108は、つなぎ発話の発話タイミングを、通信状況確認部106から得られる通信状況に応じて決定する。発話タイミング制御部108は、典型的には、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの通信状況が悪いほど、つなぎ発話の発話開始タイミングをより遅いタイミングとして決定する。通信状況の良好/不良は、通信状況確認部106が取得するエコー応答を取得するまでにかかる時間(送受信時間)によって判定可能である。
発話タイミング制御部108は、送受信時間を閾値によって複数(2以上)のレベルに分け、レベルに応じて固定のタイミングでつなぎ発話を出力するように決定することができる。例えば、送受信時間が閾値以下の場合(通信状況が良い場合)は、ユーザ発話の終了から200ミリ秒後につなぎ発話を出力するが、送受信時間が閾値より大きい場合(通信状況が悪い場合)は、ユーザ発話の終了から700ミリ秒待ってからつなぎ発話を出力する。この例では、2段階に分けているが、3段階以上に分けても良い。また、つなぎ発話までの待ち時間を、送受信時間を変数とする関数によって決定してもよい。
なお、音声対話ロボット100は、1つの装置として構成される必要はない。例えば図2に示すように、マイク101、スピーカー102、カメラ、可動関節部などを含むロボット109(フロントエンド装置)と、各種の処理を実行するスマートフォン110(あるいはその他のコンピュータ)の2つの装置から構成することができる。この場合、ロボット装置とコンピュータは、Bluetooth(登録商標)などの無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。
音声認識サーバ200は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、音声認識部を備える。音声認識サーバ200は、豊富な資源(高速な演算部や、大容量の語彙辞書など)を有しており、したがって音声対話ロボット100による音声認識よりも高精度な音声認識が可能である。
対話サーバ300は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、対話生成部を備える。対話サーバ300は、豊富な資源(高速な演算部や、大容量の対話シナリオDBなど)を有しており、したがって音声対話ロボット100による対話文生成よりも高度な応答を生成可能である。
<処理例>
図3を参照して、本実施形態に係る音声対話システムにおける処理の流れを説明する。図3は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。
図3を参照して、本実施形態に係る音声対話システムにおける処理の流れを説明する。図3は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。
まず、ステップS11において、通信状況確認部106による、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの定期的な通信状況の確認処理が開始される。具体的には、通信状況確認部106は、エコー要求のような簡単な信号を音声認識サーバ200や対話サーバ300に送信し、それに対する応答が受信できるまでの時間を計測する。
ステップS12において、音声対話ロボット100がマイク101からユーザの発話を取得する。ユーザ発話を取得した後は、音声対話ロボット100において、つなぎ発話の出力と、音声認識結果に基づく応答の出力とが並行的に処理される。
先に、音声認識結果に基づく応答の出力処理(S13−S17)について説明する。ステップS13において、音声認識要求部103は、マイク101に入力された音声データを音声認識サーバ200へ送信し、その音声認識結果を要求する。音声認識サーバ200は、送信された音声データに対して音声認識処理を施し、音声認識結果(テキスト)を音声対話ロボット100(音声認識要求部103)に送信する。ステップS14において、音声認識要求部103が音声認識サーバ200から音声認識結果のテキストを受信する。
音声認識要求部103が取得した音声認識結果のテキストは、ステップS15において、対話文要求部104を介して対話サーバ300へ送信される。対話サーバ300は、受信したテキストに基づいて、記憶部に記憶されている対話シナリオの中から適切なシナリオを選択し、応答文のテキストを生成する。ステップS16において、対話文要求部104は、対話サーバ300から応答文のテキストを受信する。
ステップS17において、音声合成部105は、対話文要求部104が対話サーバ300から取得した応答文のテキストを音声データに変換してスピーカー102から出力する。
次に、つなぎ発話の出力処理(S18−S20)について説明する。ユーザからの発話が取得されると、ステップS18において、つなぎ発話生成部107がつなぎ発話の内容を決定する。つなぎ発話生成部107は、相づちや返事などのつなぎ発話を格納した辞書から、適切なつなぎ発話を選択する。
ステップS19において、発話タイミング制御部108は、つなぎ発話の発話タイミングを、通信状況確認部106から得られる通信状況に応じて決定する。典型的には、通信状況が悪いほど、つなぎ発話の開始タイミングが遅くなるように決定される。なお、通信状況は、通信状況確認部106が取得した最新の送受信時間に基づいて決定されてもよいし、直近の所定数個の送受信時間の平均や最大値などに基づいて決定されてもよい。
ステップS20において、音声合成部105は、決定されたつなぎ発話の発話タイミングが到来した時点で、つなぎ応答のテキストを音声データに変換してスピーカー102から出力する。
なお、一般に音声認識サーバ200から音声認識結果に基づく応答文の生成・出力には時間がかかるので、音声認識結果に基づく応答文の出力(S17)は、つなぎ発話の出力(S20)よりも遅くなる。しかしながら、つなぎ発話の出力中に、音声認識結果に基づく応答文が出力可能になる場合も考えられる。この場合、つなぎ発話の完了(および適切な間)を待ってから音声認識結果に基づく応答を出力してもよいし、つなぎ発話を中断し
て音声認識結果に基づく応答を出力してもよい。
て音声認識結果に基づく応答を出力してもよい。
図4は、各発話のタイミングを説明する図である。図4(A)は通信状況が良好な場合を示し、図4(B)は通信状況が悪い場合を示している。図4(A)は通信状況が良好なので、ユーザ発話に対する音声認識処理および対話文生成処理が早く完了し、したがってシステム応答が可能になるタイミングが、図4(B)の通信状況が不良な場合と比較して早い。本実施形態に係る音声対話システムでは、通信状況が不良な場合はユーザ発話の完了からつなぎ発話開始までの時間を、通信状況が良好な場合よりも長くしている。したがって、ユーザ発話終了からつなぎ発話開始までの時間とつなぎ発話終了からシステム応答開始までの時間を均等に長くでき、つなぎ発話が終了してから無応答の期間が長くなりすぎることを防止できる。
<効果>
本実施形態によれば、通信状況に応じてつなぎ発話の開始タイミングを遅らせることができるので、通信状況が悪くサーバからの応答文取得に時間がかかる場合であっても、システム発話までの間が空きすぎて対話の自然さが損なわれるという事態を抑制できる。さらに、発話タイミングを遅らせるだけなので、システムを簡易に実現することが可能である。
本実施形態によれば、通信状況に応じてつなぎ発話の開始タイミングを遅らせることができるので、通信状況が悪くサーバからの応答文取得に時間がかかる場合であっても、システム発話までの間が空きすぎて対話の自然さが損なわれるという事態を抑制できる。さらに、発話タイミングを遅らせるだけなので、システムを簡易に実現することが可能である。
<変形例1>
上記の説明では、音声対話ロボット100からエコー要求などの送信を行うことで、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの通信状況を取得している。しかしながら、音声認識サーバ200や対話サーバ300から音声対話ロボット100に対して定期的に通信を行うことで、音声対話ロボット100(通信状況確認部106)が通信状況を取得できるようにしても良い。
上記の説明では、音声対話ロボット100からエコー要求などの送信を行うことで、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの通信状況を取得している。しかしながら、音声認識サーバ200や対話サーバ300から音声対話ロボット100に対して定期的に通信を行うことで、音声対話ロボット100(通信状況確認部106)が通信状況を取得できるようにしても良い。
<変形例2>
上記の説明では、通信状況の良し悪しに応じてつなぎ発話の発話タイミングを決定している。しかしながら、通信状況の良し悪しに応じて、つなぎ発話の内容(テキストの長さ)や、つなぎ発話の発話速度を変えるようにしても良い。
上記の説明では、通信状況の良し悪しに応じてつなぎ発話の発話タイミングを決定している。しかしながら、通信状況の良し悪しに応じて、つなぎ発話の内容(テキストの長さ)や、つなぎ発話の発話速度を変えるようにしても良い。
例えば、通信状況が少し悪い程度の場合には、つなぎ発話の発話タイミングを遅らせる処理を施し、通信状況がさらに悪くなった場合には、つなぎ発話の発話タイミングを遅らせ、さらに、より長いつなぎ発話を選択したり発話速度を遅くしたりすることも好ましい。
図4(C)は、通信状況が良好な場合よりも、つなぎ発話の開始タイミングを遅くし、かつ、つなぎ発話の発話時間の長さを長くした場合の処理例を示す。
<変形例3>
上記の説明では、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの通信状況のみを考慮している。しかしながら、音声対話ロボット100が音声認識サーバ200や対話サーバ300から処理結果を取得するのにかかる時間は、通信状況だけでなく、サーバでの処理負荷やユーザ発話の内容にも依存する。
上記の説明では、音声対話ロボット100と音声認識サーバ200や対話サーバ300とのあいだの通信状況のみを考慮している。しかしながら、音声対話ロボット100が音声認識サーバ200や対話サーバ300から処理結果を取得するのにかかる時間は、通信状況だけでなく、サーバでの処理負荷やユーザ発話の内容にも依存する。
サーバの処理負荷は、例えばプロセッサの利用率やメモリの空き容量によって評価できる。通信状況確認部106が通信状況を確認するための信号に対して、音声認識サーバ200や対話サーバ300は、サーバの処理負荷に関する情報を含む応答を送信してもよい。あるいは、音声認識サーバ200や対話サーバ300が、定期的にサーバ処理負荷に関する情報を音声対話ロボット100に送信することで、通信状況とサーバ負荷の両方を確
認してもよい。
認してもよい。
音声対話ロボット100は、簡易的な音声認識処理を行う機能を有し、当該音声認識処理の結果に応じて音声認識サーバ200や対話サーバ300での処理時間を推定するようにしてもよい。あるいはより単純に、ユーザ発話の長さなどから音声認識サーバ200や対話サーバ300での処理時間を推定するようにしてもよい。
<変形例4>
上記の実施形態の説明では、音声認識や対話文生成を異なるサーバで実施しているが、同一のサーバで実施してもよいし、いずれか一方の処理を音声対話ロボット100において実施しても構わない。
上記の実施形態の説明では、音声認識や対話文生成を異なるサーバで実施しているが、同一のサーバで実施してもよいし、いずれか一方の処理を音声対話ロボット100において実施しても構わない。
あるいは、音声認識および対話文生成の両方の処理を音声対話ロボットで実施しても構わない。この場合でもユーザ発話に対する応答文を生成するためにかかる時間は、音声対話ロボットにおける処理負荷やユーザ発話の内容に基づいて変化する。したがって、これらの情報に基づいて応答文生成に要する時間を推定し、推定された応答文生成時間に応じてつなぎ発話の発話タイミングを遅らせたり、つなぎ発話の長さを長くしたりすることは有用である。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
100:音声対話ロボット
101:マイク
102:スピーカー
103:音声認識要求部
104:対話文要求部
105:音声合成部
106:通信状況確認部
107:つなぎ発話生成部
108:発話タイミング制御部
200:音声認識サーバ
300:対話サーバ
101:マイク
102:スピーカー
103:音声認識要求部
104:対話文要求部
105:音声合成部
106:通信状況確認部
107:つなぎ発話生成部
108:発話タイミング制御部
200:音声認識サーバ
300:対話サーバ
Claims (10)
- 音声入力手段と、
前記音声入力手段に入力された音声の認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力開始タイミングが遅くなるように制御する、
音声対話装置。 - 前記音声認識手段は、前記音声入力手段に入力された音声を音声認識サーバに送信し、音声認識サーバから前記音声認識結果を取得する、
請求項1に記載の音声対話装置。 - 前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバとの間の通信状況を取得し、通信状況が悪いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、
請求項2に記載の音声対話装置。 - 前記状況取得手段は、前記音声認識結果に基づく応答を取得するために要する時間に関連する情報として前記音声認識サーバにかかっているサーバ負荷を取得し、サーバ負荷が高いほど前記音声認識結果に基づく応答を取得するために要する時間が長いと判断する、
請求項2または3に記載の音声対話装置。 - 前記状況取得手段は、前記音声入力手段に入力された音声を解析して、前記音声認識結果に基づく応答を取得するために要する時間を算出する、
請求項1から4のいずれか1項に記載の音声対話装置。 - 前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、長さの長い暫定的な応答を出力する、
請求項1から5のいずれか1項に記載の音声対話装置。 - 前記制御手段は、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答を遅い速度で出力する、
請求項1から6のいずれか1項に記載の音声対話装置。 - 音声入力手段と、
前記音声入力手段に入力された音声を音声認識サーバに送信し、前記音声認識サーバから音声認識結果を取得する音声認識手段と、
前記音声入力手段に音声の入力があった際に、暫定的な応答を出力した後、前記音声認識手段が取得する音声認識結果に基づく応答を出力するように制御する制御手段と、
前記音声認識サーバとのあいだの通信状況を定期的に取得する状況取得手段と、
を備え、
前記制御手段は、前記音声認識サーバとの通信状況が悪いほど、前記暫定的な応答の出力開始タイミングを遅らせる、
音声対話装置。 - 音声対話装置における音声対話方法であって、
音声を取得する音声入力ステップと、
前記音声入力ステップにおいて入力された音声の認識結果を取得する音声認識ステップと、
前記音声入力ステップにおいて音声を取得した際に、暫定的な応答を出力した後、前記音声認識ステップにおいて取得される音声認識結果に基づく応答を出力するように応答ステップと、
前記音声認識結果に基づく応答を取得するために要する時間に関連する情報を取得する状況取得ステップと、
を含む、
前記応答ステップでは、前記音声認識結果に基づく応答を取得するために要する時間が長いほど、前記暫定的な応答の出力が完了するタイミングを遅くなるようにする、
音声対話方法。 - 請求項9に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016182077A JP2018045202A (ja) | 2016-09-16 | 2016-09-16 | 音声対話システムおよび音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016182077A JP2018045202A (ja) | 2016-09-16 | 2016-09-16 | 音声対話システムおよび音声対話方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018045202A true JP2018045202A (ja) | 2018-03-22 |
Family
ID=61694909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016182077A Pending JP2018045202A (ja) | 2016-09-16 | 2016-09-16 | 音声対話システムおよび音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018045202A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124425A (ja) * | 2017-02-01 | 2018-08-09 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
WO2020026850A1 (ja) * | 2018-08-03 | 2020-02-06 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2020245912A1 (ja) * | 2019-06-04 | 2020-12-10 | ||
CN112767916A (zh) * | 2021-02-05 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN113096657A (zh) * | 2021-03-30 | 2021-07-09 | 西安云湾科技有限公司 | 一种基于物联网产品的智能交互系统和方法 |
CN115565535A (zh) * | 2022-09-21 | 2023-01-03 | 深圳琪乐科技有限公司 | 一种智能语音客服系统 |
-
2016
- 2016-09-16 JP JP2016182077A patent/JP2018045202A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124425A (ja) * | 2017-02-01 | 2018-08-09 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
WO2020026850A1 (ja) * | 2018-08-03 | 2020-02-06 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2020245912A1 (ja) * | 2019-06-04 | 2020-12-10 | ||
JP7168080B2 (ja) | 2019-06-04 | 2022-11-09 | 日本電信電話株式会社 | 音声認識制御装置、音声認識制御方法、およびプログラム |
CN112767916A (zh) * | 2021-02-05 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN112767916B (zh) * | 2021-02-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN113096657A (zh) * | 2021-03-30 | 2021-07-09 | 西安云湾科技有限公司 | 一种基于物联网产品的智能交互系统和方法 |
CN115565535A (zh) * | 2022-09-21 | 2023-01-03 | 深圳琪乐科技有限公司 | 一种智能语音客服系统 |
CN115565535B (zh) * | 2022-09-21 | 2024-04-12 | 南京浮点智算数字科技有限公司 | 一种智能语音客服系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018045202A (ja) | 音声対話システムおよび音声対話方法 | |
JP5753869B2 (ja) | 音声認識端末およびコンピュータ端末を用いる音声認識方法 | |
JP5958475B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
US11869487B1 (en) | Allocation of local and remote resources for speech processing | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
US9349370B2 (en) | Speech recognition terminal device, speech recognition system, and speech recognition method | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
JP6614080B2 (ja) | 音声対話システムおよび音声対話方法 | |
JP2012501480A (ja) | ハイブリッド型音声認識 | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
WO2014208231A1 (ja) | ローカルな音声認識を行なう音声認識クライアント装置 | |
US11043222B1 (en) | Audio encryption | |
US10896677B2 (en) | Voice interaction system that generates interjection words | |
JP2018021953A (ja) | 音声対話装置および音声対話方法 | |
JP2018045192A (ja) | 音声対話装置および発話音量調整方法 | |
JP2018124484A (ja) | 音声認識装置 | |
CN113678195A (zh) | 语言识别装置以及用于此的计算机程序以及语音处理装置 | |
JP2015064450A (ja) | 情報処理装置、サーバ、および、制御プログラム | |
WO2024098279A1 (en) | Automated echo control | |
KR102364935B1 (ko) | 5g 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치 | |
JP7303091B2 (ja) | 制御装置、電子機器、制御装置の制御方法および制御プログラム | |
CN115699167B (zh) | 当确定是否从某些客户端设备卸载助理相关处理任务时补偿硬件差异 | |
JP2019028604A (ja) | 対話装置及びプログラム | |
EP4113509A1 (en) | Voice communication between a speaker and a recipient over a communication network | |
JP6680125B2 (ja) | ロボットおよび音声対話方法 |