JP2021179642A

JP2021179642A - 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム

Info

Publication number: JP2021179642A
Application number: JP2021134212A
Authority: JP
Inventors: 錦峰白; Jinfeng Bai; 知践王; Zhijian Wang; 聡高; Cong Gao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-10
Filing date: 2021-08-19
Publication date: 2021-11-18
Anticipated expiration: 2041-08-19
Also published as: JP7262532B2; KR20210088464A; US12112746B2; US20220005474A1; CN112466296A

Abstract

【課題】音声インタラクティブの処理方法を提供する。【解決手段】音声インタラクティブ処理方法は、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測することと、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することと、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む。【選択図】図１

Description

本願は、コンピュータ技術分野に関し、特に、知能音声と深度学習などの人工知能技術分野に関し、特に、音声インタラクティブの処理方法、装置、電子機器及び記憶媒体に関する。

現在、市場での音声インタラクティブに基づく製品の多くは、１回のウェイクアップで１回のインタラクティブに基づく方式である。このインタラクティブ方式は、ウェイクアップワード検出技術と製品戦略との組み合わせによるものであり、その特徴は、主に、ユーザが当該音声インタラクティブ機器を起動するウェイクアップワードを発話するたびに、内蔵されるウェイクアップワード検出モジュールが、当該ウェイクアップワード信号を検出し、識別および聴取を開始し、音声の終了を検出しまたは予め設定された時間に達した場合、聴取を終了することである。そして、聴取過程で収音された音声を認識し、音声認識の結果に基づいてユーザの要求に応答し、ユーザの要求に応答する処理を実現する。

以上のことから、従来技術における製品戦略には、ウェイクアップワードが終了したから数秒から十数秒までが聴取過程であると考えられ、当該過程において、ユーザは、音声インタラクティブ機器にウェイクアップワード後の音声命令を発話し、音声インタラクティブ機器は、当該音声命令に基づいて、今回のウェイクアップ後のユーザ需要に応答することがわかる。

本開示の課題は、音声インタラクティブの処理方法、装置、電子機器及び記憶媒体を提供することにある。

本開示の一態様によれば、音声インタラクティブの処理方法が提供され、
前記方法は、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第１の完全度を予測することと、
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む。

本開示の別の態様によれば、音声インタラクティブの処理方法が提供され、
前記方法は、
ユーザの音声命令を受信することと、
クラウドサーバに前記ユーザの音声命令をアップロードすることと、
前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む。

本開示のさらなる態様によれば、クラウドサーバが提供され、
前記クラウドサーバは、
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第１の完全度を予測する予測モジュールと、
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む。

本開示の別のさらなる態様によれば、音声インタラクティブ機器が提供され、
前記機器は、
ユーザの音声命令を受信する受信モジュールと、
クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む。

本開示のさらに別の態様によれば、音声インタラクティブシステムが提供され、
前記システムは、
音声インタラクティブ機器と、クラウドサーバとを含み、
前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
前記クラウドサーバは、上述のクラウドサーバを採用し、前記音声インタラクティブ機器は、上述の音声インタラクティブ機器を採用している。

本開示のさらに別の態様によれば、電子機器が提供され、
前記機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが上述の方法のうちのいずれか一つの方法を実行するように、前記少なくとも１つのプロセッサによって実行される。

本開示のさらに別の態様では、コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体が提供され、
前記記録媒体は、
コンピュータに上述の方法のうちのいずれか一つの方法を実行させる。

本願のさらに別の態様では、コンピュータプログラムが提供され、前記コンピュータプログラムは、プロセッサによって実行される際に、請求項１〜７のいずれか一項、または請求項８に記載の方法を実現する。

本発明の技術によれば、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。

このセクションに記載された内容は、本開示の実施例の主要な特徴または重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。

図面は、本技術案をよりよく理解するためのものであり、本発明を限定するものではない。
本願の第１の実施例に係る概略図である。本願の実施例の音声インタラクティブの処理方法の応用場面模式図である。本願の第２の実施例に係る概略図である。本願の第３の実施例に係る概略図である。本願の第４の実施例に係る概略図である。本願の第５の実施例に係る概略図である。本願の第６の実施例に係る概略図である。本願の第７の実施例に係る概略図である。本願の第８の実施例に係る概略図である。本願の実施例の音声インタラクティブの処理方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて、本願の例示的な実施例を説明し、理解を容易にするために本願実施例の様々な詳細を含むが、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本開示の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識するであろう。同様に、明確化および簡潔化のため、以下の説明では、周知の機能及び構成についての記載は省略される。

図１は、本願の第１の実施例に係る概略図であり、図１に示すように、本実施例は、音声インタラクティブの処理方法を提供し、具体的には、以下のステップを含むことができる。

Ｓ１０１では、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測する。

Ｓ１０２では、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定する。

Ｓ１０３では、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御する。

本実施例の音声インタラクティブの処理方法の実行主体はクラウドサーバであり、すなわち、本実施例は、クラウドサーバ側で音声インタラクティブに対する処理を実現する。音声インタラクティブ機器側では、通常の処理方式に従って、クラウドサーバと連携して音声インタラクティブ処理を実現すればよい。

図２は、本実施例の音声インタラクティブの処理方法の応用場面概略図である。図２に示すように、音声インタラクティブでは、ユーザは、音声インタラクティブ機器にウェイクアップワードの音声およびユーザの音声命令を開始し得る。音声インタラクティブ機器は、ウェイクアップワードを検出した後、ウェイクアップされる。かつ、ウェイクアップワードの後のユーザの音声命令を視聴し、クラウドサーバにアップロードすることができる。クラウドサーバによって、受信したユーザの音声命令に基づいて、音声インタラクティブ処理を行う。

本実施例の技術案は、音声インタラクティブ機器がユーザによるウェイクアップワードを検出してウェイクアップした後に、ユーザの音声命令に基づいて実現する音声インタラクティブ方案に適用される。

具体的には、クラウドサーバは、音声インタラクティブ機器が送信したユーザの音声命令を受信した後に、まず、当該ユーザの音声命令が高頻度命令であるか否かを検出する必要がある。例えば、本実施例では、すべての高頻度命令が収集される高頻度命令ライブラリを予め設定することができ、具体的な高頻度命令の内容は、音声インタラクティブ機器の応用場面に関連し、例えば、音声インタラクティブ機器がスマートボックスである場合、当該の高頻度命令は、スタート、一時停止、ターンオフ、前の曲、次の曲、音を大きくすること、音を小さくすることなどを含むことができる。音声インタラクティブ機器がスマート家庭用機器である場合、当該の高頻度命令は、ライトをターンオンすること、ライトをターンオフすること、エアコンをターンオンすること、エアコンをターンオフすること、温度を高くすること、温度を低くすることなどを含むことができる。音声インタラクティブ機器がスマート車載装置である場合、該当する高頻度命令は、窓を開けること、窓を閉めること、音楽をターンオンすること、音楽をターンオフすること、ナビゲーションをターンオンすること、ナビゲーションをターンオフすることなどを含み得る。各場面において、高頻度命令ライブラリにおける高頻度命令は、音声命令であってもよく、音声命令を音声認識した文字命令であってもよい。音声インタラクティブ機器は、高頻度命令ライブラリに基づいて、ユーザの音声命令が高頻度命令であるか否かを検出する検出過程において、高頻度命令が音声命令である場合、直接、ユーザの音声命令を高頻度命令ライブラリにおける各高頻度命令とそれぞれ比較し、同一である場合、当該ユーザの音声命令が高頻度命令であると決定し、そうでない場合、ユーザの音声命令が高頻度命令ライブラリにおける全ての高頻度命令と異なる場合、当該ユーザの音声命令が非高頻度命令である。同様に、高頻度命令ライブラリにおける高頻度命令が文字形式である場合、まず、ユーザの音声命令を音声認識して相応的な文字形式のユーザ命令を取得し、そして、文字形式のユーザ命令を高頻度命令ライブラリにおける各高頻度命令とそれぞれ比較して、当該文字形式のユーザ命令が高頻度命令であるか否かを検出し、比較原理が同じであるため、ここでは贅言しない。

ユーザの音声命令が高頻度命令でないことが検出された場合、本実施例では、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測することができる。具体的には、ユーザの音声命令又はユーザの音声命令の文字形式を当該完全性検出モデルに入力することができ、当該完全性検出モデルは、当該ユーザの音声命令の語意の完全度を予測して、第１の完全度を取得することができる。例えば、当該第１の完全度は、必要に応じて０〜１に設定されることができ、数値が大きいほど、ユーザの音声命令の語意完全性がよくなることを示し、逆に、数値が小さいほど、ユーザの音声命令の語意完全性が悪くなることを示す。

本実施例の完全性検出モデルは、１つのニューラルネットワークモデルであることができ、トレーニングの前に、複数のトレーニングサンプルを予め収集することができ、各トレーニングサンプルには、トレーニングユーザの音声命令と人工的にマークされた当該トレーニングユーザの音声命令の完全度とが含まれることができる。例えば、完全度の良い幾つかのトレーニングユーザの音声命令を収集し、それらの完全度を１として、トレーニングポジティブサンプルとすることができる。そして、完全度が非常に悪いいくつかのトレーニングユーザの音声命令を収集し、それらの完全度を０として、トレーニングネガティブサンプルとすることができる。トレーニングする際に、各トレーニングサンプルを完全性検出モデルに入力し、該完全性検出モデルは、入力されたトレーニングサンプルにおけるトレーニングユーザの音声命令に基づいて、該トレーニングユーザの音声命令の完全度を予測することができる。次いで、予測されたトレーニングユーザの音声命令の完全度と、マークされたトレーニングユーザの音声命令の完全度とが一致するか否かを比較し、一致しない場合、予測されたトレーニングユーザの音声命令の完全度がマークされたトレーニングユーザの音声命令の完全度に近づくように、完全度検出モデルのパラメータを調整する。連続的な所定の回数のトレーニングにおいて、予測されたトレーニングユーザの音声命令の完全度と、マークされたトレーニングユーザの音声命令の完全度とが常に一致するまでに、複数のトレーニングサンプルを用いて、上記のように完全度検出モデルをトレーニングする。この場合、トレーニングが終了し、完全度検出モデルのパラメータを確定し、さらに完全度検出モデルを確定する。

本実施例では、ユーザの音声命令の第１の完全度を取得した後、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することができる。つまり、本実施例では、第１の完全度と予め設定された完全度閾値との異なる大小関係は、異なる待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御することができる。ユーザの音声命令が終了してすぐに応答し、ユーザが音声インタラクティブ過程で短く停止しても応答し、音声インタラクティブ機器が「プリエンプション」現象を起こし、ユーザの音声命令に応答する操作を正確に行うことができないという従来技術とは異なる。

本実施例の音声インタラクティブの処理方法では、ユーザの音声命令が高頻度命令でないと検出した場合、予めトレーニングされた完全性検出モデルを用いることにより、ユーザの音声命令の第１の完全度を予測し、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。

図３は、本願の第２の実施例に係る概略図であり、図３に示すように、本実施例における音声インタラクティブの処理方法は、上記図１に示す実施例の技術案に加えて、さらに、本願の技術案をより詳細に紹介する。図３に示すように、本実施例の音声インタラクティブの処理方法は、具体的には、以下のステップを含むことができる。

Ｓ３０１では、音声インタラクティブ機器からアップロードされたユーザの音声命令を受信する。

音声インタラクティブ機器側では、当該ユーザの音声命令は、音声インタラクティブ機器がユーザの開始を視聴したものである。

Ｓ３０２では、予め設定された高頻度命令ライブラリに基づいて、ユーザの音声命令が高頻度命令であるか否かを検出し、高頻度命令でなければ、ステップＳ３０３を実行し、高頻度命令である場合、ステップＳ３０７を実行する。

Ｓ３０３では、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測し、ステップＳ３０４を実行する。

当該第１の完全度は、ユーザの音声命令の完全度を表す。

Ｓ３０４では、第１の完全度が予め設定された完全度閾値以上であるか否かを判断し、完全度閾値以上である場合、ステップＳ３０５を実行し、完全度閾値以上でなければ、ステップＳ３０６を実行する。

本実施例における予め設定された完全度閾値は、実際の経験により設定すればよく、具体的な数値は限定されない。

Ｓ３０５では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を第１の待機時間に設定し、ステップＳ３０８を実行する。

例えば、本実施例の第１の待機時間は、実際の経験に基づいて、例えば、３００ｍｓ、３２０ｍｓ、又はその他の時間などのあまり長くも短くもない合理的な時間に設定することができるが、ここでは限定されない。

Ｓ３０６では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第１の待機時間より大きい第２の待機時間に設定し、ステップＳ３１５を実行する。

同様に、本実施例の第２の待機時間も実際の経験に基づいて、例えば、８００ｍｓ、７８００ｍｓでは、又はその他の時間などに設定することができ、第１の待機時間より長ければよく、具体的な時間はここでは限定されない。

本実施例では、第１の完全度と予め設定された完全度閾値との異なる大小関係に基づいて、異なる待機時間を合理的に設定し、音声インタラクティブの知能性を効果的に高める。

Ｓ３０７では、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第１の待機時間より小さい第３の待機時間に設定し、ステップＳ３２２を実行する。

同様に、本実施例の第３の待機時間も実際の経験に基づいて、例えば、１６０ｍｓ、１８０ｍｓ又はその他の時間に設定されてもよく、第１の待機時間より小さければよく、具体的な時間はここでは限定されない。

Ｓ３０８では、ユーザの音声命令を受信した後の待機時間が第１の待機時間に達したか否かを検出し、達すれば、第１の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３０９を実行する。

Ｓ３０９では、ユーザの補充音声命令を受信したか否かを検出し、受信していなければ、ステップＳ３０８に戻って引き続き検出し、受信すれば、ステップＳ３１０を実行する。

なお、受信した当該ユーザの補充音声命令も、音声インタラクティブ機器に視聴されてクラウドサーバにアップロードされるものである。

Ｓ３１０では、予め設定された高頻度命令ライブラリに基づいて、ユーザの補充音声命令が高頻度命令であるか否かを検出し、そうでなければ、ステップＳ３１１を実行し、そうであれば、ステップＳ３２３を実行する。

Ｓ３１１では、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第２の完全度を予測し、ステップＳ３１２を実行する。

このプロセスは、上述の実施例における完全性検出モデルを用いてユーザの音声命令の第１の完全度を予測するという実現プロセスと同じであり、ここでは贅言しない。

Ｓ３１２では、第２の完全度が第１の完全度よりも大きいか否かを判断し、そうであれば、ステップＳ３１３を実行し、そうでなければ、いかなる操作も行わずに、ステップＳ３０５で設定された第１の待機時間を保持し、ステップＳ３０８に戻って引き続き検出する。

Ｓ３１３では、第２の完全度及び予め設定された完全度閾値に基づいて、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定し、ステップＳ３１４を実行する。

具体的には、この分岐において、上記ステップＳ３０４〜Ｓ３０５で、第１の完全度が既に予め設定された完全度閾値より大きく、第２の完全度が再び第１の完全度より大きいため、この分岐における第２の完全度は、必ず予め設定された完全度閾値より大きく、そのため、当該の更新設定は、具体的には、以下の（ａ１），（ｂ１）のステップを含むことができる。

（ａ１）ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、即ち、上記第１の待機時間の設定を削除する。

（ｂ１）第２の完全度が予め設定された完全度閾値よりも大きいことに基づいて、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を、第１の待機時間に設定する。

すなわち、待機時間も第１の待機時間であり、以前、ユーザの音声命令の後に計時し、更新後、ユーザの補充音声命令の終了後に計時する。

実際の応用におけるユーザの「快速」質問とは、音声インタラクティブにおいて、ユーザが正確かつ快速に質問を説明し、応答を快速に取得することを望むことを意味する。「躊躇」質問とは、音声インタラクティブにおいて、ユーザが質問を躊躇にセグメントごとに説明し、質問を完全に説明し、応答をより正確に取得することを望むことを意味する。本実施例の当該技術方案は、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定することで、ユーザによる「快速」質問に基づく応答を実現することができ、設定情報を更新することで、ユーザの「躊躇」質問の少なくとも２つのセグメントの質問を完全な質問として応答させ、「快速」質問と「躊躇」質問とのバランスをとり、音声インタラクティブの知能性を効果的に高めることができる。

Ｓ３１４では、ユーザの補充音声命令を受信した後の待機時間が第１の待機時間に達したか否かを検出し、達すれば、第１の待機時間に基づいて結合命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３１４に戻って引き続き検出する。

なお、ステップＳ３１４では、ユーザが補充音声命令を１回だけ補充することを例とする。実際の応用では、ユーザの補充音声命令後の待機時間が第１の待機時間に達しない過程で、ユーザの次の補充音声命令を受けることがあり、このように順次に類推し、このロジックに従って音声命令を複数回補充し、即ち、一回のウェイクアップ後の複数回のインタラクティブ操作を実現することができる。詳細には、上記ステップＳ３０８〜Ｓ３１３に関連する操作を追加すればよく、ここでは贅言しない。

Ｓ３１５では、ユーザの音声命令を受信した後の待機時間が第２の待機時間に達したか否かを検出し、達すれば、第２の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３１６を実行する。

Ｓ３１６では、ユーザの補充音声命令を受信したか否かを検出し、受信していなければ、ステップＳ３１５に戻って引き続き検出し、受信すれば、ステップＳ３１７を実行する。

Ｓ３１７では、予め設定された高頻度命令ライブラリに基づいて、ユーザの補充音声命令が高頻度命令であるか否かを検出し、そうでなければ、ステップＳ３１８を実行し、そうであれば、ステップＳ３２３を実行する。

Ｓ３１８では、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第２の完全度を予測し、ステップＳ３１９を実行する。

Ｓ３１９では、第２の完全度が第１の完全度より大きいか否かを判断し、そうであれば、ステップＳ３２０を実行し、そうでなければ、いかなる操作も行わずに、ステップＳ３０６で設定された第２の待機時間を保持し、ステップＳ３１５に戻って引き続き検出する。

Ｓ３２０では、第２の完全度及び予め設定された完全度閾値に基づいて、ユーザの補充音声命令の終了後に応答する操作の待機時間を更新して設定し、ステップＳ３２１を実行する。

具体的には、この分岐において、上記ステップＳ３０４及びＳ３０６で第１の完全度が予め設定された完全度閾値より小さく、第２の完全度が第１の完全度より大きいため、第２の完全度が第１の完全度閾値より大きいか否かは不明である。したがって、この分岐では、第２の完全度が予め設定された完全度閾値よりも大きいか否かを判定して設定を更新する必要があり、具体的には、以下の（ａ２），（ｂ２）のステップを含むことができる。

（ａ２）ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、すなわち、上記第２の待機時間の設定を削除する。

（ｂ２）第２の完全度が予め設定された完全度閾値よりも大きいか否かを判定し、そうであれば、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第１の待機時間に設定し、そうではなければ、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第２の待機時間に設定する。

Ｓ３２１では、ユーザの補充音声命令を受信した後の待機時間が、設定された待機時間に達したか否かを検出し、達すれば、設定された待機時間に基づいて結合命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３２１に戻って引き続き検出する。

Ｓ３２２では、ユーザの音声命令を受信した後の待機時間が第３の待機時間に達したか否かを検出し、達すれば、第３の待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３２２に戻って引き続き検出する。

このときのユーザの音声命令が高頻度命令であり、第３の待機時間が短いため、この過程ではユーザの補充音声命令を検出しない。

あるいは、このステップＳ３２２の後、ユーザの音声命令後の待機時間が第３の待機時間に達しない場合に、次の高頻度命令を受信したか否かを検出し、受信した場合に、同じ方式に従って次の高頻度命令の応答の待機時間を第３の待機時間に設定し、実現原理が上記のようなものであり、この場合、前の高頻度命令に対応する応答操作がまだ実行されていない場合に、新たな高頻度命令を受信した場合に、前の高頻度命令の応答操作を実行せず、新たな高頻度命令の応答操作を実行することに相当する。

Ｓ３２３では、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定し、ステップＳ３２４を実行する。

この時点で受信したユーザの補充音声命令が高頻度命令であるので、対応する更新設定は、具体的に以下の（ａ３），（ｂ３）のステップを含むことができる。

（ａ３）ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間の設定、即ち、上記第１待機時間の設定を削除する。

（ｂ３）ユーザの補充音声命令が終了した後にユーザの補充音声命令に応答する操作の待機時間を第３の待機時間に設定する。

すなわち、この時点ではユーザの音声命令の操作に応答しなく、ユーザの補充音声命令に応答する操作の待機時間を直接に設定して、ユーザの補充音声命令に正確に応答する。同様に、この技術案は、「快速」質問と「躊躇」質問の応答をバランスし、音声インタラクティブの知能性を効果的に高めることができる。

Ｓ３２４では、ユーザの補充音声命令を受信した後の待機時間が第３の待機時間に達したか否かを検出し、達すれば、第３の待機時間に基づいてユーザの補充音声命令に応答するように音声インタラクティブ機器を制御して終了し、達していなければ、ステップＳ３２４に戻って引き続き検出する。

上記ステップＳ３０５では、ステップＳ３０６、及びステップＳ３０７を比較して分かるように、ユーザの音声命令が高頻度命令である場合、高頻度命令が非常に明確な命令であり、完全性が非常に高いため、例えば第３の待機時間のような最も短い待機時間を設定することができ、最も短い待機時間を設定して、最も速い応答を行うことができる。ユーザの音声命令の第１の完全度がよく、即ち、予め設定された完全度閾値より大きい場合、当該ユーザの音声命令の完全性がよく、完全であると考えられ、ユーザの音声命令に応答するように、例えば第１の待機時間という少し短い待機時間を設定することができる。ユーザの音声命令の第１の完全度が悪く、即ち、予め設定された完全度閾値より小さい場合、当該ユーザの音声命令の完全性は悪く、あまり完全ではないと考えられ、ユーザが音声命令を更に補充するか否かを検出し、音声命令の完全性を補充し、ユーザの音声命令にさらに効果的に応答するように、例えば第２の待機時間のようなわずかに長い待機時間を設定し、ユーザの音声命令に応答することができる。例えば、ユーザの質問説明過程において躊躇する場合があり、躊躇過程にユーザの音声命令の一時停止があるため、音声インタラクティブ機器がユーザの音声命令と補充音声命令をセグメントに収集することができ、かつ本実施例の技術案を採用することによって、一回のウェイクアップで複数回のインタラクティブを実現して、ユーザの音声命令に正確に応答し、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、場合によって、異なる待機時間を設定し、適切に応答し、音声インタラクティブ機器の知能性を高めることができる。

本実施例の処理過程において、高頻度命令の検出と完全度予測には一定の優先順位があり、いずれのユーザの音声命令に対しても、まず、当該ユーザの音声命令が高頻度命令であるか否かを検出し、そうでなければ、さらに、当該ユーザの音声命令の完全度を予測する。

本実施例では、完全度を２つのセグメントに分けて処理し、例えば、第１の完全度が完全度閾値に基づいてセグメント化される。実際の応用では、実際な需要に応じて、完成度をより細かく分類処理し、例えば、第１の完全度閾値と第２の完全度閾値のような２つの異なる完全度閾値を設定し、第１の完全度閾値が第２の完全度閾値よりも大きい。第１の完全度が第１の完全度閾値以上である場合、ユーザの音声命令に応答する操作の待機時間を第４の待機時間に設定し、第１の完全度が第１の完全度閾値未満であり、かつ、第２の完全度閾値以上である場合、ユーザの音声命令に応答する操作の待機時間を第５の待機時間に設定し、第１の完全度が第２の完全度閾値未満である場合、ユーザの音声命令に応答する操作の待機時間を第５の待機時間に設定する。このように順次に類推し、さらに細かい分類を行い、異なる分類でのより多い待機時間を設定することができ、ここでは贅言しない。

本実施例の音声インタラクティブの処理方法は、上記技術案を採用することにより、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。

図４は、本願の第３の実施例に係る概略図であり、図４に示すように、本実施例は、音声インタラクティブの処理方法を提供し、具体的には、以下のステップを含むことができる。

Ｓ４０１では、ユーザの音声命令を受信する。

Ｓ４０２では、クラウドサーバにユーザの音声命令をアップロードする。

Ｓ４０３では、クラウドサーバがユーザの音声命令に基づいて生成した制御命令を受信し、前記制御命令は、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持つ。

Ｓ４０４では、制御命令における待機時間に応じて、ユーザの音声命令に応答する。

本実施例の語意インタラクティブの処理方法の実行主体は、音声インタラクティブ機器であり、当該音声インタラクティブ機器は、端末側に位置する機器である。例えば、当該音声インタラクティブ機器は、スマートキャビネット、スマート家庭用機器、スマート車載装置などであってもよい。

音声インタラクティブの場面では、ユーザが音声命令を発した後、まず、音声インタラクティブ機器によってユーザの音声命令を収集して受信した。しかし、本実施例の場面では、音声インタラクティブ機器は、当該ユーザの音声命令を直接処理せず、ユーザの音声命令をクラウドサーバに直接にアップロードすることができる。対応的には、クラウドサーバがユーザの音声命令を受信した後、上記図１に示す実施例の方式を採用して、ユーザの音声命令に基づいて処理し、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測し、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、あるいは、図３に示す実施例に従って、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定し、音声インタラクティブ機器に発行される制御命令中に、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持ちでもよい。待機時間の設定の具体的な過程について、詳細に、上記図１又は図３に示す実施例の記載を参照してもよく、ここでは贅言しない。

本実施例の音声インタラクティブの処理方法は、ユーザの音声命令を受信し、ユーザの音声命令をクラウドサーバにアップロードし、クラウドサーバがユーザの音声命令に基づいて生成した制御命令を受信し、当該制御命令には、クラウドに設定された、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を持ち、制御命令における待機時間に基づいて、ユーザの音声命令に応答する。本実施例の技術案は、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、クラウドサーバに設定されたユーザの音声命令に応答する操作の待機時間に基づいて、ユーザの音声命令に応答することができ、音声インタラクティブ機器の知能性を効果的に高めることができる。

図５は、本願の第４の実施例に係る概略図であり、図５に示すように、本実施例では、音声インタラクティブの処理方法の一例を具体的に説明し、ユーザの音声入力が順に、聞きたい／Ａ歌手／Ｘ曲／次の曲ということである。

以下、本願の実施例の技術案を用いて、当該例示の音声インタラクティブ過程を説明する。

図５に示すように、まず、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの「聞きたい」という第１の音声命令を受信する。クラウドサーバは、まず、当該第１のセグメントの音声命令が高頻度命令であるか否かを検出し、そうでなければ、完全性検出モデルを用いて当該第１のセグメントの音声命令の完全度を予測し、例えば第１の完全度と記載する。次に、第１の完全度が予め設定された完全度閾値以上であるか否かを判断し、例えば、本実施例では、該第１の完全度が予め設定された完全度閾値未満であることを検出し、この場合、対応的には、ユーザの第１のセグメントの音声命令が終了した後にユーザの第１のセグメントの音声命令に応答する操作の待機時間を第２の待機時間に設定することができる。

さらに、図５に示すように、第１の音声命令の終了後、待機時間が第２の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第２のセグメントの音声命令である「Ａ歌手」を再び受信する。この場合、クラウドサーバは、まず、当該「Ａ歌手」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令ではない。そして、当該第２のセグメントの音声命令が第１のセグメントの音声命令の補充命令であると考えることができ、この場合、第１のセグメントの音声命令と第２のセグメントの音声命令とを合わせて「Ａ歌手を聞きたい」という結合命令を構成することができる。かつ、完全性検出モデルを用いて、当該結合命令の完全度を予測し、例えば、第２の完全度と記載する。次に、第２の完全度が第１の完全度よりも大きいか否かを判断し、検出の結果、第２の完全度が第１の完全度よりも大きい。さらに、当該第２の完全度が予め設定された完全度閾値以上であるか否かを判断し、例えば、本実施例では、判断の結果、当該第２の完全度が予め設定された完全度閾値以上であると確定する。このとき、元の設定、すなわち、ユーザの第１のセグメントの音声命令が終了した後にユーザの第１のセグメントの音声命令に応答する操作の待機時間を第２の待機時間に設定するということを削除し、ユーザの第２のセグメントの音声命令が終了した後に第１のセグメントの音声命令と第２のセグメントの音声命令との結合指令に応答する操作の待機時間を第１の待機時間に設定するように更新する。

また、図５に示すように、第２のセグメントの音声命令が終了した後、待機時間が第１の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第３のセグメントの音声命令である「曲Ｘ」を再び受信する。この場合、クラウドサーバは、まず、当該「Ｘ曲」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令ではない。そして、当該第３のセグメントの音声命令が第１のセグメントの音声命令および第２のセグメントの音声命令の後の補充命令であると考えることができ、この場合、第１のセグメントの音声命令、第２のセグメントの音声命令および第３のセグメントの音声命令を合わせて「Ａ歌手Ｘ曲を聞きたい」という結合命令を構成することができ、すなわち、Ｘ曲がＡ歌手の曲であることを示す。かつ、完全性検出モデルを用いて、当該結合命令の完全度を予測し、例えば、第３の完全度と記載する。次に、第３の完全度が第２の完全度よりも大きいか否かを判断し、検出の結果、第３の完全度が第２の完全度よりも大きい。第２の完全度が予め設定された完全度閾値より大きく、当該第３の完全度が第２の完全度より大きいため、当該第３の完全度が必ず予め設定された完全度閾値より大きい。このとき、元の設定、すなわち、ユーザの第２のセグメントの音声命令が終了した後にユーザの第１のセグメントの音声命令と第２のセグメントの音声命令との結合命令に応答する操作の待機時間を第１の待機時間に設定するということを削除し、ユーザの第３のセグメントの音声命令が終了した後に第１のセグメントの音声命令、第２のセグメントの音声命令および第３のセグメントの音声命令の結合指令に応答する操作の待機時間を第１の待機時間に設定するように更新する。

さらに、図５に示すように、第３のセグメントの音声命令が終了した後、待機時間が第１の待機時間に達していない過程に、クラウドサーバは、音声インタラクティブ機器によってアップロードされたユーザの第４のセグメントの音声命令である「次の曲」を再び受信する。この場合、クラウドサーバは、まず、当該「次の曲」が高頻度命令であるか否かを検出し、検出の結果、それが高頻度命令である。すなわち、当該高頻度命令が独立な命令であり、その前の音声命令と結合して結合命令を構成しない。この場合、完全度予測を行う必要がない。このとき、元の設定、すなわち、ユーザの第３のセグメントの音声命令が終了した後に第１のセグメントの音声命令、第２のセグメントの音声命令および第３のセグメントの音声命令の結合指令に応答する操作の待機時間を第１の待機時間に設定するということを削除し、ユーザの第４のセグメントの音声命令が終了した後に第４のセグメントの音声命令に応答する操作の待機時間を第３の待機時間に設定するように更新する。

本実施例の音声インタラクティブの処理方法は、上記実現方式を採用することにより、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。

図６は、本願の第５の実施例に係る概略図であり、図６に示すように、本実施例は、クラウドサーバ６００を提供し、
クラウドサーバ６００は、ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、ユーザの音声命令の第１の完全度を予測する予測モジュール６０１と、第１の完全度及び予め設定された完全度閾値に基づいて、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を設定する設定モジュール６０２と、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュール６０３とを含む。

本実施例のクラウドサーバ６００は、上記モジュールを採用することにより音声インタラクティブの処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細について上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。

図７は、本願の第６の実施例に係る概略図であり、図７に示すように、本実施例のクラウドサーバ７００は、上記図６に示す実施例の技術案に加えて、本願の技術案をさらに詳細に説明する。本実施のクラウドサーバ７００における予測モジュール７０１、設定モジュール７０２及び制御モジュール７０３は、それぞれ、上記図６に示す実施例のクラウドサーバ６００における予測モジュール６０１、設定モジュール６０２及び制御モジュール６０３と同様の機能を有する。

さらに、本実施例のクラウドサーバ７００において、設定モジュール７０２は、具体的に、
第１の完全度が予め設定された完全度閾値以上である場合、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を第１の待機時間に設定する。

さらに選択的には、本実施例のクラウドサーバ７００において、設定モジュール７０２は、さらに、第１の完全度が予め設定された完全度閾値より小さい場合、ユーザの音声命令が終了した後にユーザの音声命令に応答する操作の待機時間を、第１の待機時間より大きい第２の待機時間に設定する。

さらに選択的には、図７に示すように、本実施例のクラウドサーバ７００は、前記ユーザの音声命令が終了した後の待機時間内、ユーザの補充音声命令を受信する受信モジュール７０４をさらに含む。

予測モジュール７０１は、さらに、ユーザの補充音声命令が高頻度命令でない場合、完全性検出モデルを用いて、ユーザの音声命令とユーザの補充音声命令とからなる結合命令の第２の完全度を予測する。

設定モジュール７０２は、さらに、第２の完全度が第１の完全度よりも大きい場合、第２の完全度と予め設定された完全度閾値に基づいて、ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新する。

さらに選択的には、本実施例のクラウドサーバ７００において、設定モジュール７０２は、ユーザの音声命令が終了した後、ユーザの音声命令に応答する操作の待機時間を設定することを削除し、第２の完全度及び予め設定された完全度閾値に基づいて、ユーザの補足音声命令が終了した後に結合命令に応答する操作の待機時間を設定する。

さらに選択的には、本実施例のクラウドサーバ７００において、設定モジュール７０２は、第２の完全度が予め設定された完全度閾値以上である場合、ユーザの補充音声命令が終了した後に結合命令に応答する操作の待機時間を第１の待機時間に設定し、第２の完全度が予め設定された完全度閾値より小さい場合、ユーザの補充音声命令が終了した後、結合命令に応答する操作の待機時間を、第１の待機時間よりも長い第２の待機時間に設定する。

さらに選択的には、本実施例のクラウドサーバ７００において、設定モジュール７０２は、さらに、ユーザの音声命令またはユーザの補充音声命令が高頻度命令であると検出された場合、ユーザの音声命令またはユーザの補充音声命令が終了した後にユーザの音声命令またはユーザの補充音声命令に応答する操作の待機時間を、第１の待機時間より短い第３の待機時間に設定する。

制御モジュール７０３は、第３の待機時間に基づいて、ユーザの音声命令またはユーザの補充音声命令に応答するように音声インタラクティブ機器を制御する。

本実施例のクラウドサーバ７００は、上記モジュールを採用することにより音声インタラクティブ処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細は上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。

図８は、本願の第７の実施例による概略図であり、図８に示すように、本実施例は、音声インタラクティブ機器８００を提供する。

音声インタラクティブ機器８００は、ユーザの音声命令を受信する受信モジュール８０１と、クラウドサーバにユーザの音声命令をアップロードするアップロードモジュール８０２と、を含む。

受信モジュール８０１は、さらに、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信する。

受信モジュール８０１は、さらに、制御命令における待機時間に基づいて、ユーザの音声命令に応答する応答モジュール８０３をさらに含む。

本実施例の音声インタラクティブ機器８００は、上記モジュールを用いて音声インタラクティブ処理の実現原理及び技術効果を実現し、上記関連方法の実施例の実現と同様であり、詳細は上記関連方法の実施例の記載を参考することができ、ここでは贅言しない。

図９は、本願の第８の実施例による概略図であり、図９に示すように、本実施例は、音声インタラクティブ機器９０１と、音声インタラクティブ機器９０１と通信可能に接続されるクラウドサーバ９０２とを含む音声インタラクティブシステム９００を提供している。

クラウドサーバ９０２は、図６または図７に示されるクラウドサーバを採用し、音声インタラクティブ機器９０１は、上記図８に示す実施例の音声インタラクティブ機器を採用している。また、具体的には、上記図１〜図５に示す実施例の音声インタラクティブの処理方法を用いて音声インタラクティブ処理を実現することができ、詳細は、上記関連実施例の記載を参考することができ、ここでは贅言しない。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供している。

図１０に示すように、本願の実施例の音声インタラクティブ処理方法を実現する電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータである。電子機器は、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似なコンピューティングデバイス等、様々な形態のモバイルデバイスであってもよい。本明細書に示される部品、それらの接続及び関係、並びにそれらの機能は、単なる例示であり、本明細書に記載及び／又は請求される本願の実施を限定しない。

図１０に示すように、当該電子機器は、１つまたは複数のプロセッサ１００１と、メモリ１００２と、高速インターフェースと低速インターフェースとを含む、各部品を接続するためのインターフェースとを備える。各部品は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器で実行される命令を処理してもよく、外部入出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩのグラフィック情報を表示するようにメモリ中またはメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを、複数のメモリおよび複数のメモリと共に使用し得る。同様に、複数の電子機器を接続し、各機器が必要な操作の一部（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）を提供するようにしてもよい。図１０では、１つのプロセッサ１００１を例に挙げている。

メモリ１００２は、本願に提供される非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサに、本願に提供される音声インタラクティブ処理方法を実行させるように、少なくとも１つのプロセッサによって実行可能な命令を記憶する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、コンピュータに本願に提供される音声インタラクティブ処理方法を実行させるためのコンピュータ命令を記憶する。

メモリ１００２は、非一時的コンピュータ読み取り可能な記憶媒体として、例えば、本願の実施例における音声インタラクティブ処理方法に対応するプログラム命令／モジュール（例えば、図８及び図９に示す関連モジュール）のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶する。

プロセッサ１００１は、メモリ１００２に記憶された非一時的ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上記方法の実施例における音声インタラクティブ処理方法を実現する。

メモリ１００２は、記憶プログラム領域および記憶データ領域を含み、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶し、記憶データ領域は、音声インタラクティブ処理方法を実現する電子機器の使用により作成されたデータ等を記憶する。また、メモリ１００２は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも１つのディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの非一時的メモリを含んでもよい。

いくつかの実施例では、メモリ１００２は、プロセッサ１００１から遠隔に配置されたメモリを選択することができ、それらの遠隔メモリは、ネットワークを介して、音声インタラクティブ処理方法を実現する電子機器に接続され得る。上記ネットワークの例示は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。

音声インタラクティブ処理方法を実現する電子機器は、入力装置１００３と、出力装置１００４とをさらに含んでもよい。プロセッサ１００１、メモリ１００２、入力装置１００３、及び出力装置１００４は、バス又は他の方式で接続されてもよく、図１０では、バスで接続することを例に挙げている。

入力装置１００３は、入力された数字または文字情報を受信し、音声インタラクティブ処理方法を実現する電子機器のユーザ設定および機能制御に関するキー信号入力を発生させることができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングバー、一つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１００４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むが、これらに限らない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内で実施されることを含み、当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈され、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても言われる）は、プログラマブルプロセッサの機械命令を含み、高級プロセス、および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語でこれらの計算プログラムを実施することができる。本明細書で使用される場合、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサのいずれかのコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））に提供することであり、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号である。

ユーザとのインタラクティブを提供するために、コンピュータで本明細書に記載されるシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供し得るキーボードおよびポインティングデバイス（たとえば、マウスまたはトラックボール）とを有する。他の種類の装置は、ユーザとのインタラクティブを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（例えば、音声入力、発話入力または触覚入力）でユーザからの入力を受信することができる。

本明細書で説明されるシステムおよび技術を、バックエンド部品を含むコンピューティングシステム（例えば、データサーバとして）、またはミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド部品を含むコンピューティングシステム（例えば、ユーザが本明細書で説明されるシステムおよび技術の実施形態とインタラクティブすることができるグラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）、またはそのようなバックエンド部品、ミドルウェア部品、もしくはフロントエンド部品の任意の組合せを含むコンピューティングシステムにおいて実施され得る。任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を互いに接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットおよびブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介してインタラクティブしている。相応的なコンピュータで運行し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバの関係を生成する。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも称され、クラウドコンピューティングサービス体系におけるホスト製品の１つであり、従来の物理ホストおよびＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または「ＶＰＳ」と簡略する）に存在する管理が困難でありサービス拡張性が弱いという欠点を解決する。

本願の実施例の技術案によれば、ユーザの音声命令が終了してすぐに応答する必要がなく、音声インタラクティブ機器の「プリエンプション」現象を回避することができ、ユーザの音声命令に応答する操作の待機時間を設定し、待機時間に基づいてユーザの音声命令に応答するように音声インタラクティブ機器を制御し、音声インタラクティブ機器の知能性を効果的に高めることができる。

本願の実施例の技術案によれば、ユーザの「快速」質問と「躊躇」質問を効果的にバランスし、ユーザと音声インタラクティブ機器との間の一回のウェイクアップで複数回のインタラクティブというインタラクティブ方式を実現し、音声インタラクティブの知能性を効果的に向上させ、ユーザの使用体験を向上させることができる。

なお、上記に示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよく、本願において開示された技術案の所望の結果を達成することができる限り、ここで制限されない。

上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計の要求及び他の要因に応じて、各種の補正、組合、サブ組合および切り替えを行うことができることは明らかであろう。本願の思想及び原則における任意の補正、均等物及び改善は、本願の保護範囲に含まれるべきである。

６００，７００クラウドサーバ
６０１，７０１予測モジュール
６０２，７０２設定モジュール
６０３，７０３制御モジュール
７０４，８０１受信モジュール
８００，９０１音声インタラクティブ機器
８０２アップロードモジュール
８０３応答モジュール
９００音声インタラクティブシステム
９０２クラウドサーバ
１００１プロセッサ
１００２メモリ
１００３入力装置
１００４出力装置

Claims

ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第１の完全度を予測することと、
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御することと、を含む
音声インタラクティブ処理方法。
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
前記第１の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第１の待機時間に設定することを含む
請求項１に記載の方法。
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定することは、
前記第１の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第１の待機時間よりも長い第２の待機時間に設定することを、さらに含む
請求項２に記載の方法。
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定した後、前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する前に、前記方法は、
前記ユーザの音声命令が終了した後の前記待機時間内にユーザの補充音声命令を受信することと、
前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第２の完全度を予測することと、
前記第２の完全度が前記第１の完全度より大きい場合、第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することと、をさらに含む
請求項１〜３のいずれか一項に記載の方法。
前記第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定することは、
前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除することと、
前記第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することと、を含む
請求項４に記載の方法。
前記第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定することは、
前記第２の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第１の待機時間に設定すること、あるいは、
前記第２の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第１の待機時間より長い第２の待機時間に設定すること、を含む
請求項５に記載の方法。
前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第１の待機時間より小さい第３の待機時間に設定することと、
前記第３の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御することと、をさらに含む
請求項２または３に記載の方法。
ユーザの音声命令を受信することと、
クラウドサーバに前記ユーザの音声命令をアップロードすることと、
前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信することと、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答することと、を含む
音声インタラクティブ処理方法。
ユーザの音声命令が高頻度命令でないことを検出した場合、予めトレーニングされた完全性検出モデルを用いて、前記ユーザの音声命令の第１の完全度を予測する予測モジュールと、
前記第１の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を設定する設定モジュールと、
前記待機時間に基づいて前記ユーザの音声命令に応答するように音声インタラクティブ機器を制御する制御モジュールと、を含む
クラウドサーバ。
前記設定モジュールは、
前記第１の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を第１の待機時間に設定する
請求項９に記載のクラウドサーバ。
前記設定モジュールは、
前記第１の完全度が予め設定された完全度閾値未満であれば、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を、前記第１の待機時間よりも長い第２の待機時間に設定する
請求項１０に記載のクラウドサーバ。
受信モジュールをさらに含み、
前記受信モジュールは、前記ユーザの音声命令が終了した後の前記待機時間内に、ユーザの補充音声命令を受信し、
前記予測モジュールは、前記ユーザの補充音声命令が高頻度命令でないと検出した場合、前記完全性検出モデルを用いて、前記ユーザの音声命令と前記ユーザの補充音声命令とからなる結合命令の第２の完全度を予測し、
前記設定モジュールは、前記第２の完全度が前記第１の完全度より大きい場合、第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に応答する操作の待機時間を更新して設定する
請求項９〜１１のいずれか一項に記載のクラウドサーバ。
前記設定モジュールは、
前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間の設定を削除し、
前記第２の完全度及び予め設定された完全度閾値に基づいて、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を設定する
請求項１２に記載のクラウドサーバ。
前記設定モジュールは、
前記第２の完全度が前記予め設定された完全度閾値以上であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を第１の待機時間に設定し、あるいは、
前記第２の完全度が予め設定された完全度閾値未満であれば、前記ユーザの補充音声命令が終了した後に前記結合命令に応答する操作の待機時間を、前記第１の待機時間より長い第２の待機時間に設定する
請求項１３に記載のクラウドサーバ。
前記設定モジュールは、前記ユーザの音声命令または前記ユーザの補充音声命令が高頻度命令であると検出した場合、前記ユーザの音声命令または前記ユーザの補充音声命令が終了した後に前記ユーザの音声命令または前記ユーザの補充音声命令に応答する操作の待機時間を、前記第１の待機時間より小さい第３の待機時間に設定し、
前記制御モジュールは、前記第３の待機時間に基づいて前記ユーザの音声命令または前記ユーザの補充音声命令に応答するように前記音声インタラクティブ機器を制御する
請求項１０または１１に記載のクラウドサーバ。
ユーザの音声命令を受信する受信モジュールと、
クラウドサーバに前記ユーザの音声命令をアップロードするアップロードモジュールと、を含み、
前記受信モジュールは、前記クラウドサーバが前記ユーザの音声命令に基づいて生成した、前記クラウドに設定された、前記ユーザの音声命令が終了した後に前記ユーザの音声命令に応答する操作の待機時間を持つ制御命令を受信し、
前記制御命令における前記待機時間に基づいて、前記ユーザの音声命令に応答する応答モジュール、を含む
音声インタラクティブ機器。
音声インタラクティブ機器と、クラウドサーバとを含み、
前記クラウドサーバは、前記音声インタラクティブ機器と通信可能に接続され、
前記クラウドサーバは、上記請求項９〜１５のいずれか一項に記載のクラウドサーバを採用し、前記音声インタラクティブ機器は、上記請求項１６に記載の音声インタラクティブ機器を採用している
音声インタラクティブシステム。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが請求項１〜７のいずれか一項、または請求項８に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される
電子機器。
コンピュータに請求項１〜７のいずれか一項、または請求項８に記載の方法を実行させる
コンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される際に、請求項１〜７のいずれか一項、または請求項８に記載の方法を実現する
コンピュータプログラム。