JP2022013610A

JP2022013610A - 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム

Info

Publication number: JP2022013610A
Application number: JP2021002323A
Authority: JP
Inventors: ツンガオ; Cong Gao; サイサイゾウ; Saisai Zou; ジンフォンバイ; Jinfeng Bai; レイジャ; Lei Jia
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-01-08
Publication date: 2022-01-18
Anticipated expiration: 2041-01-08
Also published as: US20210407494A1; CN111768783B; KR20210088467A; CN111768783A; US11615784B2; US20210407496A1; EP3933831A1; JP7328265B2; US11823662B2

Abstract

【課題】インタラクションフローを簡素化する音声インタラクション制御方法を提供する。【解決手段】音声インタラクション制御方法は、オーディオ信号を収集し、オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行する。【選択図】図１

Description

本願は、コンピュータ技術の分野に関し、特に音声認識、ヒューマンコンピュータインタラクション、及び深層学習技術の分野に関する。

音声技術やヒューマンコンピュータインタラクション技術の発展に伴い、スマートスピーカ、スマートホーム及びスマートウォッチなど、ユーザと音声インタラクションが可能なスマート端末機器（音声インタラクション端末と略称する）が登場している。

従来の音声インタラクション端末を使用する際には、「シャオドゥ、シャオドゥ」などの４つの音節を有するウェイクワードを採用するのが一般的である。音声インタラクション端末は、ウェイクワードを認識した後、ユーザに音声コマンドを送信し続けることができるように提示するための提示音を発する。その後、音声インタラクション端末は、ユーザから送信された音声コマンドに応答する。通常、１つのコマンドに応答するには２回のインタラクションが必要である。このように、従来のウェイクワードは比較的長くかつインタラクションフローが煩雑であることが分かる。

本願は音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステムを提供する。

本願の一態様に係る音声インタラクション制御方法は、
オーディオ信号を収集するステップと、
前記オーディオ信号におけるウェイクワードを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
ウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行するステップと、を含む。

本発明の他の態様に係る音声インタラクション制御方法は、
オーディオ信号を取得するステップと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御するステップと、を含む。

本発明の他の態様に係る音声インタラクション制御装置は、
オーディオ信号を収集することに用いられる収集モジュールと、
前記オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュールと、
検出されたウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行することに用いられる実行モジュールと、を含む。

本発明の他の態様に係る音声インタラクション制御装置は、
オーディオ信号を取得することに用いられる取得モジュールと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュールと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュールと、を含む。

本発明の他の態様に係る電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサがいずれかの実施例に記載の音声インタラクション制御方法を実行できる。

本発明の他の態様に係る他の電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサがいずれかの実施例に記載の音声インタラクション制御方法を実行できる。

本発明の他の態様は、コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータコマンドはいずれかの実施例に記載の音声インタラクション制御方法を前記コンピュータに実行させることに用いられる。

本発明の他の態様に係る音声インタラクション制御システムは、音声インタラクション端末及びサーバを含み、
前記音声インタラクション端末は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信する及び／または提示音を再生し、前記サーバから返された音声コマンド及び／または提示音再生コマンドを受信して実行することに用いられ、
前記サーバは、前記音声インタラクション端末から送信されたオーディオ信号を受信し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出し、検出されたウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に音声コマンド及び／または提示音再生コマンドを発行することに用いられる。

本願の実施例に係る技術はインタラクションフローを簡素化する。

このセクションに記載されている内容は本開示の実施例のキー特徴または重要な特徴を特定することや、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。

図面は本案をよりよく理解することに用いられ、本願を限定するものではない。
本願の実施例における第１の音声インタラクション制御方法のフローチャートである。本願の実施例における第２の音声インタラクション制御方法のフローチャートである。本願の実施例における第３の音声インタラクション制御方法のフローチャートである。本願の実施例におけるオーディオ信号の概略図である。本願の実施例における第４の音声インタラクション制御方法のフローチャートである。本願の実施例に係るスマートスピーカとクラウドサーバのインタラクション概略図である。本願の実施例における第５の音声インタラクション制御方法のフローチャートである。本願の実施例における第６の音声インタラクション制御方法のフローチャートである。本願の実施例における第７の音声インタラクション制御方法のフローチャートである。本願の実施例における第１の音声インタラクション制御装置の構造図である。本願の実施例における第２の音声インタラクション制御装置の構造図である。本願の実施例における音声インタラクション制御方法を実現することに用いられる電子機器のブロック図である。本願の実施例における音声インタラクション制御システムの概略構造図である。

理解を容易にするために、以下は添付図面を参照しながら、本願の実施例のさまざまな詳細を含む本発明の好適な実施例について説明し、単なる例示と見なされるべきである。したがって、当業者が理解できるように、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。同様に、明確さと簡潔さのために、よく知られている機能と構造の説明は、以下の説明では省略される。

本願の実施例によれば、図１は本願の実施例における第１の音声インタラクション制御方法のフローチャートであり、本願の実施例はオーディオ信号からウェイクワードを検出する状況に適する。該方法は音声インタラクション制御装置によって実行され、該装置はソフトウェア及び／またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置され、電子機器は音声インタラクション端末、サーバ及び他のスマート機器を含むが、これらに制限されず、音声インタラクション端末はスマートスピーカ、スマートホーム及びスマートウォッチなどを含むが、これらに制限されない。

図１に示される音声インタラクション制御方法はＳ１１０～Ｓ１３０を含む。

Ｓ１１０、オーディオ信号を収集する。

電子機器には、機器周辺のオーディオ信号をリアルタイムで収集するためのマイクが配置されている。多くの状況を考慮して、機器は、ユーザが音声インタラクション端末とインタラクションを行う音声コマンド（ｑｕｅｒｙ）、ユーザと他の人や物との間で交わされる音声信号、または雨やテレビに由来する声などの非音声信号を収集する可能性があり、これらをまとめてオーディオ信号と呼ばれる。

機器がオーディオ信号からユーザが機器とインタラクションを行う音声コマンドを検出することを容易にし、音声コマンドを他の信号と区別するために、業界では、音声コマンドの前にウェイクワードを追加し、ウェイクワードが検出されると、ウェイクワード後のオーディオ信号を音声コマンドと見なすことが一般的である。

１つの応用シナリオでは、ユーザは「シャオドゥ、ライトをオフにしなさい」という音声を機器に一度に発し、ただし、「シャオドゥ」はウェイクワードであり、「ライトをオフにしなさい」は音声コマンドである。「シャオドゥ、ライトをオフにしなさい」ことに対応するオーディオ信号は機器によって収集される。

Ｓ１２０、オーディオ信号におけるウェイクワードを検出する。

機器には、少なくとも１つのウェイクワードが予め設定されている。本実施例は、ウェイクワードの内容及び音節数について制限しない。いくつかの実施例では、ユーザは、ウェイクワードの内容及び音節数を独立して設定することができる。

ここでの音節（Ｓｙｌｌａｂｌｅ）は、エピフォンティック語族で単一の母音音符と子音音符を組み合わせた発音の最小の音声単位である。音節は中国語の音節や英語の音節であってもよい。中国語の音節（中国語の文字の発音の音節であってもよい）は通常、イニシャルとファイナルを組み合わせた中国語ピンインであり、２つのファイナルを組み合わせた中国語ピンインもあり、さらに１つのファイナルの中国語ピンインもあり、エピフォンティック語族の子音音符を借りて、中国語のイニシャル音符をマークし、母音音符と子音音符の組み合わせで中国語のファイナル音符をマークする。英語の母音は特に大声であり、１つの母音音符は１つの音節を構成することができ、１つの母音音符と１つ以上の子音音符との組み合わせも１つの音節を構成することができる。例として、ウェイクワードの音節数は、中国語の文字の数または母音音符の数として簡単に理解されてもよい。

本実施例は音声認識技術を用いて収集されたオーディオ信号におけるウェイクワードを検出し、具体的にオーディオ信号における音響特徴を抽出し、かつ複数種類のウェイクワードに対応するオーディオ信号をトレーニングして得られた、予めトレーニングされたウェイクワード検出モデルに入力し、オーディオ信号にウェイクワード、検出されたウェイクワードの内容及び音節数が含まれるか否かを検出する。

上記の応用シナリオに従って、オーディオ信号が「シャオドゥ、ライトをオフにしなさい」である場合、該オーディオ信号から「シャオドゥ」であるウェイクワードを検出し、オーディオ信号が「シャオドゥ、シャオドゥ、ライトをオフにしなさい」である場合、該オーディオ信号から「シャオドゥ、シャオドゥ」であるウェイクワードを検出する。

Ｓ１３０、検出されたウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行する。

ウェイクワードの結果は、オーディオ信号にウェイクワードが含まれるか否か及び含まれたウェイクワードの内容を含み、異なるウェイクワードの結果は、実行する必要のある操作と対応する関係を持ち、異なるウェイクワードの結果に応じて提示音の再生と音声コマンドの実行の少なくとも１つの操作を実行できる。

本実施例における提示音は、機器がウェイクアップされたことをユーザに提示するように、機器がウェイクワードに応答してユーザに発した応答音声であり、「はい」、「どうした」、及び「どうぞ」などの音声コマンドを発声することができる。音声コマンドはオーディオ信号に由来し、音声コマンドの種類には、機器自体の機能実行コマンドと外部スマート機器への制御コマンドが含まれるが、これらに制限されず、例えば、機器がスマートスピーカである場合、ウェイクワードの結果に「シャオドゥ」が含まれる場合、音声コマンドしか実行しなくてもよく、ウェイクワードに「シャオドゥ、シャオドゥ」が含まれる場合、提示音しか再生しなくてもよく、提示音を再生しながら音声コマンドを実行してもよく、ウェイクワードの結果にいずれかのウェイクワードが含まれていない場合、何も操作しなくてもよい。なお、提示音の再生と音声コマンドの両方も実行される場合、提示音の再生終了後に音声コマンドを実行してもよい。

本実施例に係る音声インタラクション制御方法はユーザがウェイクワード＋音声コマンドを発話するのを許可し、オーディオ信号におけるウェイクワードを検出し、また検出されたウェイクワードの結果に基づいて提示音を再生する及び／または音声コマンドを実行することによって、１回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、音声コマンドがすばやく到着し、すばやく応答することができる。

さらに、本実施例は、次の技術的効果も達成し、新規ユーザの使用コストを削減し、音声インタラクション端末に不慣れなすべてのユーザが、慣れ親しんだ練習を経ることなく機器を自由に体験できるようにする。

本願の実施例によれば、図２は本願の実施例における第２の音声インタラクション制御方法のフローチャートであり、本実施例は上記の実施例に基づいて最適化される。

好ましくは、「検出されたウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行する」という操作を「第１の信頼度が第１の信頼度閾値要件を満たす場合、音声コマンドを実行し、第１の信頼度が第１の信頼度閾値要件を満たさない場合、提示音を再生する」ことに特定する。

「検出されたウェイクワードの結果に基づいて音声コマンドを実行する」という操作のときまたはその前に、「提示音を再生しない」という操作を追加する。

図２に示される音声インタラクション制御方法はＳ２１０～Ｓ２６０を含む。

Ｓ２１０、オーディオ信号を収集する。

Ｓ２２０、オーディオ信号におけるウェイクワードを検出する。

本実施例では、検出されたウェイクワードの結果は第１の信頼度を含み、第１の信頼度は、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられる。ただし、ターゲットウェイクワードは、設定されたウェイクワードであり、説明と区別を容易にするために、ターゲットウェイクワードを含むオーディオ信号を表現する確実度は、第１の信頼度と呼ばれる。好ましくは、ウェイクワード検出モデルを使用して検出し、第１の信頼度を得、具体的には以下の実施例で詳しく紹介する。

Ｓ２３０、第１の信頼度が第１の信頼度閾値要件を満たすか否かを判断し、そうである場合、即ちターゲットウェイクワードを検出した場合、Ｓ２４０及びＳ２５０にジャンプし、そうではない場合、即ちターゲットウェイクワードを検出しなかった場合、Ｓ２６０にジャンプする。

第１の信頼度閾値要件は１つの信頼度閾値や１つの信頼度区間であってもよく、ターゲットウェイクワードを含むオーディオ信号の確実度の臨界点を表現する。第１の信頼度が第１の信頼度閾値要件を満たす場合、例えば、第１の信頼度閾値を超える場合、ターゲットウェイクワードが検出されたと見なされ、第１の信頼度が第１の信頼度閾値要件を満たさない場合、例えば、第１の信頼度閾値を超えない場合、ターゲットウェイクワードが検出されなかったと見なされる。

Ｓ２４０、提示音を再生しない。

機器がターゲットウェイクワードを検出すると、音声コマンドが続く可能性が高いため、提示音を再生せず、ユーザに著しく迷惑をかけるのを回避するとともに、後続の音声コマンドと提示音との重ねによる「グラブトーク」状態を回避し、また音声コマンドが干渉されて検出精度に影響を与えるのを回避する。

Ｓ２５０、オーディオ信号における音声コマンドを実行する。

なお、Ｓ２４０とＳ２５０の実行順序は制限されず、並行して実行してもよく、Ｓ２４０を実行してからＳ２５０を実行してもよく、Ｓ２５０を実行してからＳ２４０を実行してもよい。

Ｓ２６０、提示音を再生する。

ターゲットウェイクワードが検出されなかった場合、ユーザが他のウェイクワードを話したかまたはウェイクワードを話さなかった可能性があり、従って提示音を再生する。提示音を聞いた後、ユーザは音声コマンドを話し、さらに音声コマンドを実行する。本ステップでは、基本的に２回のインタラクションを実現する。

本実施例は、独特な提示音応答メカニズムを設計し、ターゲットウェイクワードが検出された後、提示音を発せず、また、従来の通常のウェイクワードの提示音応答フロー及び音声インタラクションフロー、ならびにターゲットウェイクワードの非提示音フローをサポートし、フォールトトレランスを向上させ、ユーザの多様な使用習慣に対応する。

本願の実施例によれば、図３は本願の実施例における第３の音声インタラクション制御方法のフローチャートであり、本実施例は上記の実施例に基づいて最適化される。

好ましくは、「検出されたウェイクワードの結果に基づいて提示音を再生する」という操作を「第２の信頼度が第２の信頼度閾値要件を満たしかつ第１の信頼度が第１の信頼度閾値要件を満たさない場合、提示音を再生する」ことに特定する。

図３に示される音声インタラクション制御方法はＳ３１０～Ｓ３６０を含む。

Ｓ３１０、オーディオ信号を収集する。

Ｓ３２０、オーディオ信号におけるウェイクワードを検出する。

好ましくは、ウェイクワード検出モデルを使用してウェイクワードを検出し、ウェイクワード検出モデルは、混合ガウスモデル、マルコフ連鎖、及び隠れマルコフモデルを含むが、これらに制限されない。具体的には、オーディオ信号をウェイクワード検出モデルに入力し、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられる第１の信頼度、及び通常のウェイクワードを含むオーディオ信号の確実度を表現することに用いられる第２の信頼度を含む、ウェイクワードの結果を出力する。説明と区別を容易にするために、通常のウェイクワードを含むオーディオ信号を表現する確実度は、第２の信頼度と呼ばれる。好ましくは、ウェイクワード検出モデルを使用して検出し、第２の信頼度を得る。

Ｓ３３０、第１の信頼度が第１の信頼度閾値要件を満たすか否か、及び第２の信頼度が第２の信頼度閾値要件を満たすか否かを判断し、第１の信頼度が第１の信頼度閾値要件を満たす場合、Ｓ３４０及びＳ３５０にジャンプし、第１の信頼度が第１の信頼度閾値要件に満たずかつ第２の信頼度が第２の信頼度閾値要件を満たす場合、Ｓ３６０にジャンプする。

好ましくは、本操作は、ウェイクワード検出モデルを使用して実行されてもよく、ウェイクワード検出モデルの最後のレイヤーは分類レイヤーとして設定され、前記分類レイヤーは、第１の信頼度と第２の信頼度を入力し、それぞれの信頼度閾値要件と比較することにより、信頼度閾値要件を満たすか否かの分類結果を出力することに用いられる。

第１の信頼度閾値要件と同様に、第２の信頼度閾値要件は１つの信頼度閾値や１つの信頼度区間であってもよく、通常のウェイクワードを含むオーディオ信号の確実度の臨界点を表現する。第２の信頼度が第２の信頼度閾値要件を満たす場合、例えば、第２の信頼度閾値を超える場合、通常のウェイクワードが検出されたと見なされ、第２の信頼度が第２の信頼度閾値要件を満たさない場合、例えば、第２の信頼度閾値を超えない場合、通常のウェイクワードが検出されなかったと見なされる。

上記のように、ウェイクワード検出モデルが解決する必要のある問題は、１）ターゲットウェイクワードを検出することと、２）通常のウェイクワードを検出することと、３）ターゲットウェイクワードと通常のウェイクワードを区別することと、を含む。これに基づいて、実際の応用シナリオでは、１つ、２つ、またはそれ以上のウェイクワード検出モデルを使用して、上記の問題を解決することができる。

１つのウェイクワード検出モデルを使用する場合、該ウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードを検出し、第１の信頼度及び第２の信頼度を同時に得、さらに第１の信頼度と第２の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。

２つのウェイクワード検出モデルを使用する場合、１つのウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードを検出して第１の信頼度を得、もう１つのウェイクワード検出モデルはオーディオ信号における通常のウェイクワードを検出して第２の信頼度を得る。次に第１の信頼度と第２の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。

３つのウェイクワード検出モデルを使用する場合、１つのウェイクワード検出モデルはオーディオ信号におけるターゲットウェイクワードを検出して第１の信頼度を得、もう１つのウェイクワード検出モデルはオーディオ信号における通常のウェイクワードを検出して第２の信頼度を得る。さらに１つのウェイクワード検出モデルは第１の信頼度と第２の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。

Ｓ３４０、提示音を再生しない。

Ｓ３５０、オーディオ信号における音声コマンドを実行する。

なお、Ｓ３４０とＳ３５０の実行順序は制限されず、並行して実行してもよく、Ｓ３４０を実行してからＳ３５０を実行してもよく、Ｓ３５０を実行してからＳ３４０を実行してもよい。

Ｓ３６０、提示音を再生する。

本実施例はウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを同時に検出し、また信頼度によってウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定することで、ターゲットウェイクワードと通常のウェイクワードのある程度の検出精度を保証し、ウェイクワードの誤検知によって提示音でユーザに迷惑をかけるのを回避する。

上記の実施例及び以下の実施例では、ターゲットウェイクワードと通常のウェイクワードの内容と音節数を設定してもよく、それに対応して、異なる内容と音節数を設定するとき、ウェイクワードの検出方法も異なる。次に、ターゲットウェイクワードと通常のウェイクワードが同じであるかまたは異なるいくつかの状況に基づいて、いくつかのウェイクワード及び好ましい検出方法を詳しく紹介する。

状況１、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。

本状況では、ターゲットウェイクワードと通常のウェイクワードは音節数が同じであるが内容が違い、例えば、ターゲットウェイクワードが「１、２、３」であり、通常のウェイクワードが「４、５、６」である。音節に関する説明は上記の実施例を参照されたく、ここでは詳しく説明しない。検出するとき、１つのウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードを同時に検出し、かつ第１の信頼度と第２の信頼度を提供し、或いは、２つのウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードと通常のウェイクワードをそれぞれ検出し、かつ第１の信頼度と第２の信頼度をそれぞれ提供する。さらに、他のウェイクワード検出モデルを使用して第１の信頼度と第２の信頼度に基づいてウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードと通常のウェイクワードのいずれかであるのを決定する。

状況２、通常のウェイクワードは１つのターゲットウェイクワードを含む。

ターゲットウェイクワードが通常のウェイクワードの一部であり、ターゲットウェイクワードの音節数が通常のウェイクワードの音節数より少ない。例えば、ターゲットウェイクワードが「ショウゴ」で、通常のウェイクワードが「ショウゴ様」である。この場合、状況１に係る方法で検出することができる。ターゲットウェイクワードと通常のウェイクワードの間の包括的関係を考慮すると、通常のウェイクワードにあるターゲットウェイクワードの位置に基づいて１つのウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを連続して検出できる。好ましくは、ターゲットウェイクワードが通常のウェイクワードの先頭にあり、例えば、「ショウゴ」と「ショウゴ様」であれば、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、初期検出した後の設定期間内においてターゲットウェイクワードを除いた通常のウェイクワードの残りの部分（例えば、「様」）を再検出し、再検出結果を得、初期検出結果と再検出結果に基づいて第１の信頼度と第２の信頼度を決定する。設定期間を０．５秒とすると、ターゲットウェイクワードを検出した後の０．５秒以内に残りの部分を検出した場合、第２の信頼度が高く、ターゲットウェイクワードを検出した後の０．５秒以内に残りの部分を検出しなかった場合、第１の信頼度が高く、初期検出するときターゲットウェイクワードを検出しなかった場合、通常のウェイクワードも検出できず、第１の信頼度と第２の信頼度は両方とも低い。

ターゲットウェイクワードが通常のウェイクワードのテール部にあり、例えば、「様」と「ショウゴ様」であれば、ウェイクワード検出モデルを使用してターゲットウェイクワードを除いた通常のウェイクワードの残りの部分（例えば、「ショウゴ」）を初期検出し、初期検出結果を得、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、再検出結果を得、初期検出結果と再検出結果に基づいて第１の信頼度と第２の信頼度を決定する。設定期間を０．５秒とすると、残りの部分を検出した後の０．５秒以内にターゲットウェイクワードを検出した場合、第２の信頼度が高く、残りの部分を検出した後の０．５秒以内にターゲットウェイクワードを検出しなかった場合、第１の信頼度と第２の信頼度は両方とも低く、初期検出するときに残りの部分を検出しなかったが、０．５秒の後にターゲットウェイクワードを検出した場合、第１の信頼度が高い。

状況３、通常のウェイクワードは少なくとも２つのターゲットウェイクワードを含む。

ターゲットウェイクワードが通常のウェイクワードの一部であり、ターゲットウェイクワードの音節数が通常のウェイクワードの音節数より少ない。状況２との異なる点は、通常のウェイクワードが２つ以上のターゲットウェイクワードを含むことである。この場合、状況１に係る方法で検出することができる。ターゲットウェイクワードと通常のウェイクワードの間の包括的関係を考慮すると、１つのウェイクワード検出モデルを使用してターゲットウェイクワードと通常のウェイクワードを連続して検出できる。１つの応用シナリオでは、通常のウェイクワードは２つのターゲットウェイクワードしか含まず、例えば、通常のウェイクワードは「ショウＡ、ショウＡ」であり、ターゲットウェイクワードは「ショウＡ」であり、また例えば、通常のウェイクワードは「ハンサムガイ、ハンサムガイ」であり、ターゲットウェイクワードは「ハンサムガイ」である。通常のウェイクワードとターゲットウェイクワードのこのような数設定に基づいてウェイクワードの検出プロセスは次のように制限される。具体的には、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、初期検出結果と再検出結果に基づいて第１の信頼度と第２の信頼度を決定する。設定期間を０．５秒とすると、ターゲットウェイクワードを検出した後の０．５秒以内にターゲットウェイクワードを再検出した場合、第２の信頼度が高く、ターゲットウェイクワードを検出した後の０．５秒以内にターゲットウェイクワードを検出しなかった場合、第１の信頼度が高く、初期検出するときターゲットウェイクワードを検出しなかった場合、通常のウェイクワードも検出できず、第１の信頼度と第２の信頼度は両方とも低い。本実施例では、ユーザが受信しやすいために通常のウェイクワードは２つのターゲットウェイクワードを含み、またターゲットウェイクワードを再検出することによってターゲットウェイクワードと通常のウェイクワードを正確に区別することができる。

状況４、通常のウェイクワードは４つ以上の音節を有する単語であり、ターゲットウェイクワードは４つ未満の音節を有する単語である。

本状況は通常のウェイクワードとターゲットウェイクワードの内容について制限せず、状況２及び状況３を参照されたく、ターゲットウェイクワードが通常のウェイクワード内に含まれる。さらに、ターゲットウェイクワードと通常のウェイクワードの内容は完全に異なってもよく、例えば、ターゲットウェイクワードが「シャオドゥ」であり、通常のウェイクワードが「ショウゴ様」である。この場合、状況１に係る方法で検出してもよい。

本実施例におけるターゲットウェイクワードの音節数が少なくなり、特に４つの音節からダブル音節になり、これは、２つの漢字を発するという使用習慣など、実生活におけるユーザの使用習慣に合致し、直感的な体験がより人間的になり、機器とのコミュニケーションがより自然になり、人間の自然なコミュニケーションの仕方により合致する。

なお、上記の検出プロセスにおいて、第１の信頼度閾値要件と第２の信頼度閾値要件の両方を同時に満たす状況がある可能性があることを考慮すると、混乱を避けるために、通常のウェイクワードとターゲットウェイクワードを明確に区別する必要があり、また、現在の音声検出技術の限界により、４つの音節未満のターゲットウェイクワードの誤検出率が比較的高いため、通常のウェイクワードであると疑われると提示音を発することはいけず、そうしないと、ユーザに著しく迷惑をかけてしまう。これ以外にも、提示音がユーザに迷惑をかけるのをさらに回避するために、また、「ターゲットウェイクワード＋音声コマンド」の方式が機器に対するユーザの操作を最大限にしやすいようにするために、実際にはターゲットウェイクワードである場合は、通常のウェイクワードとして検出することはいけず、実際には通常のウェイクワードである場合、少ない部分がターゲットウェイクワードとして検出することを許可する。これに基づいて、第１の信頼度が第１の信頼度閾値要件を満たす場合、第２の信頼度が第２の信頼度閾値要件を満たすか否かに関係なく、ターゲットウェイクワードとして検出し、第１の信頼度が第１の信頼度閾値要件に満たずかつ第２の信頼度が第２の信頼度閾値要件を満たす場合、通常のウェイクワードが検出されたと決定し、第１の信頼度が第１の信頼度閾値要件に満たずかつ第２の信頼度も第２の信頼度閾値要件を満たさない場合、いずれのウェイクワードが検出されなかったと決定する。

上記の実施例及び以下の実施例では、音声コマンドは、オーディオ信号におけるウェイクワードに続く部分を検出することによって得られる。図４ａは本願の実施例におけるオーディオ信号の概略図である。ウェイクワードの前後にもオーディオ信号があり、ウェイクワードに対応するオーディオ信号はＬ１であり、ウェイクワードの後にあるオーディオ信号はＬ２であり、オーディオ信号が消えるまで続く。音声コマンドは、Ｌ２を検出することによって得られる。好ましくは、音声アクティビティ検出（Ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）技術を使用して、オーディオ信号が消えたか否かを検出する。

本実施例は、ユーザが停止することなく一度にウェイクワード＋音声コマンドを話すのを許可し、音声コマンドの応答を完了するために１回のインタラクションのみが必要であり、インタラクションプロセスを簡素化する。なお、ここでのウェイクワードは、ターゲットウェイクワードと通常のウェイクワードに制限されない。

図４ｂは本願の実施例における第４の音声インタラクション制御方法のフローチャートであり、好ましくは、実行主体は音声インタラクション端末に制限され、「第１の信頼度が第１の信頼度閾値要件を満たす場合、音声コマンドを実行する」という操作を「第１の信頼度が第１の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信すること、及びサーバから音声コマンドを取得して実行すること」ことに特定する。

図４ｂに示される音声インタラクション制御方法はＳ４１０～Ｓ４６０を含む。

Ｓ４１０、オーディオ信号を収集する。

Ｓ４２０、オーディオ信号におけるウェイクワードを検出する。

音声インタラクション端末はオーディオ信号をリアルタイムで収集し、また収集されたオーディオ信号を検出する。検出方法は上記実施例の説明を参照されたく、ここでは詳しく説明しない。音声インタラクション端末の検出能力が限られているため、４つの音節未満のターゲットウェイクワードの誤検出率は比較的高く、サーバはウェイクワードをさらに検出する必要がある。

Ｓ４３０、第１の信頼度が第１の信頼度閾値要件を満たすか否かを判断し、そうである場合、即ちターゲットウェイクワードを検出した場合、Ｓ４４０にジャンプし、そうではない場合、即ちターゲットウェイクワードを検出しなかった場合、Ｓ４６０にジャンプする。

Ｓ４４０、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信する。Ｓ４５０を実行し続ける。

ターゲットウェイクワードを検出した後、提示音を再生せず、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を提示音なく透過伝送するのを実現する。

図４ｃは本願の実施例に係るスマートスピーカとクラウドサーバのインタラクション概略図である。スマートスピーカはターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をクラウドサーバに送信し、クラウドサーバは、受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。ターゲットウェイクワードは音節数が少ないため、端末の誤判定率が高く（通常のウェイクワードやノイズがある可能性がある）、クラウドサーバは、オーディオ信号の先頭にウェイクワードとウェイクワードに続く音声コマンドが含まれているか否かを再検出する必要がある。オーディオ信号の先頭にあるウェイクワードの再検出について以下の実施例で説明する。

Ｓ４５０、サーバから音声コマンドを取得して実行する。

１つの応用シナリオでは、ユーザは、音声インタラクション端末に「シャオドゥ、ライトをオフにしなさい」という音声を一度に発し、端末は、ターゲットウェイクワード「シャオドゥ」を検出すると、提示音を発せず、「シャオドゥ、ライトをオフにしなさい」というオーディオ信号をサーバに直接送信する。サーバは、ターゲットウェイクワードを再検出するとともに、ターゲットウェイクワードに続くライトオフコマンドを検出し、ライトをオフにするように音声インタラクション端末を制御する。好ましい実施形態では、ライトに赤外線スイッチがあり、スマートスピーカに赤外線放射装置があると、この場合、クラウドサーバはライトオフコマンドを検出し、次いでライトオフの赤外線コードをスマートスピーカにフィードバックし、スマートスピーカは赤外線コードを送信してライトをオフにし、ライトオフを制御する。もう１つの好ましい実施形態では、ライトはローカルエリアネットワークを介してスマートスピーカのネットワークに接続され、クラウドサーバはライトオフコマンドを検出してスマートスピーカにライトオフコマンドを発行し、スマートスピーカはローカルエリアネットワークを介してライトオフコマンドをライトに送信し、ライトオフを制御する。

Ｓ４６０、提示音を再生する。

本実施例では、ターゲットウェイクワード及び音声コマンドに対応するオーディオ信号をサーバに送信することで、サーバはオーディオ信号の先頭にあるウェイクワード＋音声コマンドを検出し、音声インタラクション端末から送信された「ターゲットウェイクワード＋音声コマンド」と疑われるオーディオ信号は、オーディオ信号全体（すなわち、ターゲットウェイクワード＋音声コマンド）として検出され、音声コマンドを検出することによって、先頭にあるウェイクワードの検出を効果的に支援し、音声コマンドが検出されなかった場合、ターゲットウェイクワードの検出が間違っていることを間接的に示し、誤検出率を下げる。

本願の実施例によれば、図５は本願の実施例における第５の音声インタラクション制御方法のフローチャートであり、本願の実施例はオーディオ信号全体を検出する状況に適する。該方法は音声インタラクション制御装置によって実行され、該装置はソフトウェア及び／またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置され、電子機器は音声インタラクション端末、サーバ及び他のスマート機器を含むが、これらに制限されず、音声インタラクション端末はスマートスピーカ、スマートホーム及びスマートウォッチなどを含むが、これらに制限されず、サーバはクラウドに実装されることが好ましい。

図５に示される音声インタラクション制御方法はＳ５１０～Ｓ５３０を含む。

Ｓ５１０、オーディオ信号を取得する。

本実施例におけるオーディオ信号は、収集されたオーディオ信号であってもよく、音声インタラクション端末から送信されたオーディオ信号であってもよい。上記の実施例の説明によれば、本実施例がサーバによって実行されるとき、音声インタラクション端末から送信されたオーディオ信号は、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を含む。これにより音声インタラクション端末とインタラクションを行うことによってコマンド応答を完了し、オーディオ信号を再検出するための高精度で、複雑かつ膨大なアルゴリズムをサーバに実装し、サーバの膨大な記憶容量と計算効率を利用することにより、再検出の精度を向上させるのに寄与し、さらにコマンド応答の精度を向上させる。

Ｓ５２０、オーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。

上記の実施例のように、ウェイクワードのみを簡単で検出した場合、ウェイクワード、特にターゲットウェイクワードは音節数が少ないため、誤検出率が高く、誤検出率を下げるために、本実施例は、オーディオ信号全体を検出する。

好ましくは、オーディオ信号の先頭にウェイクワードが含まれるか否かを先に検出し、そうである場合、ウェイクワードがターゲットウェイクワードであるか通常のウェイクワードであるかを検出し続ける必要がある。ターゲットウェイクワードと通常のウェイクワードに対する説明は上記の各実施例を参照されたく、ここでは詳しく説明しない。

ただし、オーディオ信号の先頭は、２秒または３秒の長さの信号など、所定期間の信号であってもよい。

先頭にあるウェイクワードの検出結果に応じて３つの状況を分けて後続のオーディオに対して音声コマンドの検出を行う。選択可能として、首部のターゲットウェイクワードが検出されたことをウェイクワードの検出結果が示す場合、オーディオ信号からターゲットウェイクワードに対応する部分を取り除き、残りのオーディオ信号を検出して音声コマンドまたは非インタラクション音声信号（即ち非音声信号またはユーザと他の人や物との間で交わされる信号）を得ることができる。通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示す場合、オーディオ信号から通常のウェイクワードに対応する部分を取り除き、残りのオーディオ信号を検出して音声コマンドまたは非インタラクション音声信号を得ることができる。いずれのウェイクワードが検出されなかったがノイズであることを首部のウェイクワードの検出結果が示す場合、後続のオーディオ信号を検出しない。

Ｓ５３０、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御する。

ウェイクワードが検出されたか否かは、ユーザが機器の応答を期待しているか否かを示し、ターゲットウェイクワードと通常のウェイクワードは、ユーザが１回のインタラクションまたは２回のインタラクションのようなどのような方法でインタラクションしているかを示す。これに基づいて、提示音を再生すること、及び音声コマンドを実行することの少なくとも１つの操作を実行する。

選択可能として、首部のターゲットウェイクワードが検出されたことをウェイクワードの検出結果が示し、かつ音声コマンドが検出されたことを音声コマンドの結果が示す場合、音声コマンドを実行するように音声インタラクション端末を制御する。通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示し、かつ音声コマンドが検出されたことを音声コマンドの結果とする場合、提示音を再生するように音声インタラクション端末を制御する。ターゲットウェイクワードまたは通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果が示すが、非インタラクション音声信号が検出されたことを音声コマンドの結果とする場合、提示音を再生するように音声インタラクション端末を制御し、「もう一度話してください」という追加の問い合わせ音声を応答として発するなど、音声インタラクション端末への所望のコマンドを明確にするようにユーザをガイドする。選択可能として、いずれのウェイクワードが検出されなかったがノイズであることを首部のウェイクワードの検出結果とする場合、音声インタラクション端末にヌルコマンドを直接送信し、端末はヌルコマンドに応答しないので、ウェイクワードの誤検知によるシステムへの干渉を正常に解決する。

いくつかの状況では、通常のウェイクワードが検出されたことを首部のウェイクワードの検出結果とする場合、残りのオーディオ信号を検出せずに提示音を再生するように音声インタラクション端末を直接制御してもよく、提示音を再生するように音声インタラクション端末を制御するとともに音声コマンドを実行するように音声インタラクション端末を制御してもよい。

選択可能として、本実施例の実行主体がサーバである場合、音声コマンド及び／または提示音再生コマンドを音声インタラクション端末に発行してもよく、それにより提示音を再生すること、及び音声コマンドを実行することの少なくとも１つを実行するように音声インタラクション端末を制御する。

本実施例では、オーディオ信号を全体として検出し、音声コマンドを検出することによって、先頭にあるウェイクワードの検出を効果的に支援し、音声コマンドが検出されなかった場合、ターゲットウェイクワードの検出が間違っていることを間接的に示し、誤検出率を下げる。

本願の実施例によれば、図６は本願の実施例における第６の音声インタラクション制御方法のフローチャートであり、本実施例は、上記の実施例に基づいて音声インタラクション端末の制御プロセスを最適化する。

選択可能として、「ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御する」という操作を「第３の信頼度が第３の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御し、第３の信頼度が第３の信頼度閾値要件を満たさない場合、提示音を再生するように音声インタラクション端末を制御する」ことに特定する。

選択可能として、「ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御する」という操作を「第４の信頼度が第４の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御するかまたは提示音を再生するように音声インタラクション端末を制御し、第４の信頼度が第４の信頼度閾値要件に満たずかつ第３の信頼度が第３の信頼度閾値要件を満たさない場合、音声インタラクション端末にヌルコマンドを送信する」ことに特定する。

図６に示される音声インタラクション制御方法はＳ６１０～Ｓ６６０を含む。

Ｓ６１０、オーディオ信号を取得する。

Ｓ６２０、オーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得する。

Ｓ６３０、第３の信頼度が第３の信頼度閾値要件を満たすか否か、及び第４の信頼度が第４の信頼度閾値要件を満たすか否かを判断する。第３の信頼度が第３の信頼度閾値要件を満たす場合、Ｓ６４０にジャンプし、第３の信頼度が第３の信頼度閾値要件を満たさない場合、Ｓ６５０にジャンプし、第４の信頼度が第４の信頼度閾値要件を満たす場合、Ｓ６４０及び／またはＳ６５０にジャンプし、第４の信頼度が第４の信頼度閾値要件に満たずかつ第３の信頼度が第３の信頼度閾値要件を満たさない場合、Ｓ６６０にジャンプする。

ウェイクワードの結果は第３の信頼度及び第４の信頼度を含む。第３の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、第４の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられる。

第３（または第４）の信頼度要件は１つの信頼度閾値や１つの信頼度区間であってもよく、オーディオ信号の先頭がターゲットウェイクワード（または通常のウェイクワード）を含む確実度の臨界点を表現する。第３（または第４）の信頼度が第３（または第４）の信頼度閾値要件を満たす場合、例えば、第３（または第４）の信頼度閾値を超える場合、ターゲットウェイクワード（または通常のウェイクワード）が検出されたと見なされ、第３（または第４）の信頼度が第３（または第４）の信頼度閾値要件を満たさない場合、例えば、第３（または第４）の信頼度閾値を超えない場合、ターゲットウェイクワード（または通常のウェイクワード）が検出されなかったと見なされる。

Ｓ６４０、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御する。

Ｓ６５０、提示音を再生するように音声インタラクション端末を制御する。

Ｓ６６０、音声インタラクション端末にヌルコマンドを送信する。

ノイズによる誤検知と判別される場合、ウェイクアップが発生せずに音声インタラクション端末にヌルコマンドを直接送信し、端末はヌルコマンドに応答しないので、ウェイクワードの誤検知によるシステムへの干渉を正常に解決する。

ウェイクワードの結果及び音声コマンドの結果の検出については以下の実施例において詳しく紹介する。

本実施例は、信頼度の判断によりウェイクワードが検出されたか否か、及びウェイクワードがターゲットウェイクワードであるか通常のウェイクワードであるかを明確にすることができ、音声コマンドの結果と合わせて端末への制御方式を決定することにより、ウェイクワード及び音声コマンドの検出精度を向上させる。

本願の実施例によれば、図７は本願の実施例における第７の音声インタラクション制御方法のフローチャートであり、本実施例は、上記の実施例に基づいてウェイクワード及び音声コマンドの検出プロセスを最適化する。

図７に示される音声インタラクション制御方法はＳ７１０～Ｓ７６０を含む。

Ｓ７１０、オーディオ信号を取得する。

Ｓ７２０、オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得する。

機器に認識テキストと呼ばれるオーディオ信号に対応するテキストを認識するためのデコーダが実装されている。ウェイクワードがオーディオ信号の先頭に位置するため、ウェイクワードも認識テキストの先頭に位置する。したがって、認識テキストの先頭からその中のターゲットウェイクワードまたは通常のウェイクワードを検出する。

Ｓ７３０、オーディオ信号の音響特徴表現とオーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、オーディオ信号のインタラクション信頼度を決定し、インタラクション信頼度は、端末とのインタラクションに使用される音声コマンドとしてのオーディオ信号の信頼性を示す。

音声インタラクション制御のプロセスでは、ユーザの真の音声コマンドにタイムリーで正確に応答することが期待されており、オーディオ信号の信頼度を判断する必要がある。具体的には、オーディオ信号及び／または認識テキストの全体角度からインタラクション信頼度を決定してもよく、該インタラクション信頼度は、該オーディオ信号が実際の音声であり、かつ該オーディオ信号はインタラクション用の音声コマンドであることを示す。オーディオ信号が実際の音声に属するか否かを判断することは、前の処理で音声のないサウンド（さまざまなアンビエントサウンドなど）が音声として検出されたり、サウンドからテキストが認識されたりするのを防ぐことができる。オーディオ信号がインタラクションのことに用いられるか否かを判断することは、ユーザが音声インタラクション端末とインタラクションを行うか、周囲の他の人とインタラクションを行うかを区別することに用いられる。

全体的なインタラクション信頼度の決定は、オーディオ信号の音響特徴表現に基づくか、及び／または認識テキストのテキスト特徴表現に基づくことができる。音響特徴表現は、音声と非音声の違いを捉えるのに役立ち、インタラクションに使用される音声とインタラクションに使用されない音声を区別することもできる。非音声のサウンド信号から認識されたテキストは通常無意味であり、人と音声インタラクション端末の間のインタラクションが意味的に区別することもできるため、認識テキストのテキスト特徴表現はセマンティックレベルから判断することができる。いくつかの実施例では、機械学習モデルを使用して、オーディオ信号と認識テキストに対する分析を実現することができる。

Ｓ７４０、認識テキストとオーディオ信号とのマッチングステータスを決定し、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示す。

認識テキストとサウンド信号とのマッチングステータスを決定し、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示す。インタラクション信頼度は、オーディオ信号が音声インタラクション端末とインタラクションを行うための音声コマンドであるか否かを確率的で判断するため、音声コマンドへの応答方法を決定するときは、通常、認識テキストに基づいてユーザの意図を理解する必要がある。

認識テキストは、異なる粒度で１つ以上のユニットのシーケンスとして表すことができ、各ユニットは、単語、音節、画像要素、フォン、サブフォン、またはこれらの組み合わせにしてもよい。認識テキストとオーディオ信号とのマッチングステータスは、認識テキストのユニットレベルにおいてオーディオ信号と認識テキストが１つずつマッチングするか否かを認識することができる。これにより、応答方法も決定する。いくつかの実施例では、機械学習モデルを使用して、認識テキストとオーディオ信号とのマッチングステータスを決定することもできる。

Ｓ７５０、インタラクション信頼度、マッチングステータス及び首部のウェイクワードの検出結果に基づいてウェイクワードの結果と音声コマンドの結果を得る。

選択可能として、Ｓ７１０～Ｓ７５０の操作は深層学習に基づく複数のニューラルネットワークモデルを使用して実現することができる。

Ｓ７６０、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御する。

選択可能として、認識テキストの先頭からターゲットウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きく、かつ認識テキストとオーディオ信号が１つずつマッチングするのを決定した場合、ターゲットウェイクワードに対応する第３の信頼度が高く、かつ音声コマンドが検出される。認識テキストの先頭からターゲットウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きい場合、ターゲットウェイクワードに対応する第３の信頼度が高いが、認識テキストとオーディオ信号がマッチングしていないとき、認識テキストから依然としてユーザの意図を正確に決定できる場合、依然として直ちに応答してもよく、認識テキストからユーザの意図を正確に決定できない場合、マッチングステータスに応じてユーザへのガイダンスフィードバックを決定し、応答として音声インタラクション端末への所望のコマンドを明確にするようにユーザをガイドする。認識テキストの先頭からターゲットウェイクワードが検出されたが、オーディオ信号のインタラクション信頼度が設定閾値以下である場合、第３の信頼度が低く、提示音を再生するように音声インタラクション端末を制御することができる。

選択可能として、認識テキストの先頭から通常のウェイクワードが検出され、オーディオ信号のインタラクション信頼度が設定閾値より大きく、かつ認識テキストとオーディオ信号が１つずつマッチングするのを決定した場合、ターゲットウェイクワードに対応する第４の信頼度が高く、音声コマンドが検出された場合、通常のウェイクワードに続く音声コマンドに応答し、及び／または提示音を再生するように音声インタラクション端末を制御することができる。認識テキストの先頭から通常のウェイクワードが検出されたが、オーディオ信号のインタラクション信頼度が設定閾値以下である場合、または認識テキストとオーディオ信号がマッチングしていないのを決定した場合、第４の信頼度が低く、音声インタラクション端末にヌルコマンドを送信する。

認識テキストの先頭からいずれのウェイクワードが検出されなかった場合、第３の信頼度と第４の信頼度が低く、音声インタラクション端末にヌルコマンドを送信する。

本実施例では、通常のウェイクワードが検出された場合、提示音を再生するように音声インタラクション端末を制御し、またはオーディオ信号における通常のウェイクワードに続く音声コマンドに応答し、それにより、通常のウェイクワードの提示音応答フロー及び音声インタラクションフローを両立させ、かつ通常のウェイクワード＋音声コマンドの音声インタラクションフローを提供し、フォールトトレランスを向上させ、ユーザの多様な使用習慣に対応する。

さらに、インタラクション信頼度とマッチングステータスは、それぞれインタラクション音声の判断と認識テキストの詳細な評価の２つの側面から測定されるため、音声インタラクションを制御して正確かつ迅速に応答するのに役立ち、非音声信号には応答せず、音声コマンに属するがその中からテキストを正確に認識できない状況について、マッチングステータスに応じて応答方法をさらに決定することができる。具体的な例として、ユーザが「シャオドゥ、ジェイチョウのダオシャンを聴きたい」と言ったが、認識テキストが「シャオドゥ、ジェイチョウのターシャを聴きたい」とすると、一方では、テキストの先頭にあるターゲットウェイクワード「シャオドゥ」が認識され、他方では、インタラクション信頼度は、サウンド信号及び／または認識テキストに基づいてユーザが音声インタラクション端末とインタラクションを行っていることを決定したが、認識テキストにおける「ジェイチョウの…を聴きたい」のマッチング信頼度が高いが、「ターシャ」のマッチング信頼度が低い。この状況に応じて、認識テキストとオーディオ信号のマッチングステータスに基づいて、応答として、意図をさらに明確にするようにユーザをガイドすることができる。

本願の実施例によれば、図８は本願の実施例における第１の音声インタラクション制御装置の構造図であり、本願の実施例はオーディオ信号からウェイクワードを検出する状況に適し、該装置はソフトウェア及び／またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置される。

図８に示される音声インタラクション制御装置８００は、
オーディオ信号を収集することに用いられる収集モジュール８０１と、
オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュール８０２と、
検出されたウェイクワードの結果に基づいて提示音を再生する及び／またはオーディオ信号における音声コマンドを実行することに用いられる実行モジュール８０３と、を含む。

本実施例に係る音声インタラクション制御方法はユーザがウェイクワード＋音声コマンドを発するのを許可し、オーディオ信号におけるウェイクワードを検出し、また検出されたウェイクワードの結果に基づいて提示音を再生する及び／または音声コマンドを実行することによって、１回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、それにより音声コマンドがすばやく到着し、すばやく応答することができる。

さらに、ウェイクワードの結果は第１の信頼度を含み、第１の信頼度は、ターゲットウェイクワードを含むオーディオ信号の確実度を表現することに用いられ、実行モジュール８０３は、第１の信頼度が第１の信頼度閾値要件を満たす場合、オーディオ信号における音声コマンドを実行することに用いられるコマンド実行ユニットと、第１の信頼度が第１の信頼度閾値要件を満たさない場合、提示音を再生することに用いられる再生ユニットと、を含む。

さらに、該装置８００は、検出されたウェイクワードの結果に基づいてオーディオ信号における音声コマンドを実行するときまたはその前、提示音を再生しないことに用いられる非再生モジュールを含む。

さらに、ウェイクワードの結果は第２の信頼度を含み、第２の信頼度は、通常のウェイクワードを含むオーディオ信号の確実度を表現することに用いられ、実行モジュール８０３は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、第２の信頼度が第２の信頼度閾値要件を満たしかつ第１の信頼度が第１の信頼度閾値要件を満たさない場合、提示音を再生することに用いられる。

さらに、通常のウェイクワードは少なくとも１つのターゲットウェイクワードを含み、検出モジュール８０２は、ウェイクワード検出モデルを使用してオーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得ることに用いられる初期検出モジュールと、初期検出した後の設定期間内においてターゲットウェイクワードを再検出し、再検出結果を得ることに用いられる再検出モジュールと、初期検出結果と再検出結果に基づいて第１の信頼度と第２の信頼度を決定することに用いられる決定モジュールと、を含む。

さらに、音声コマンドは、オーディオ信号におけるウェイクワードに続く部分を検出することによって得られる。

さらに、該装置８００は音声インタラクション端末に配置され、コマンド実行ユニットは、第１の信頼度が第１の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及びウェイクワードに続く音声コマンドを検出するように、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバに送信することに用いられる送信サブユニットと、サーバから音声コマンドを取得して実行することに用いられる取得サブユニットと、を含む。

さらに、ターゲットウェイクワードは４つ未満の音節を有する単語であり、通常のウェイクワードは４つ以上の音節を有する単語である。

さらに、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。

上記の音声インタラクション制御装置は本願のいずれかの実施例に係る音声インタラクション制御方法を実行することができ、音声インタラクション制御方法を実行するための機能モジュールと有益な効果を有する。

本願の実施例によれば、図９は本願の実施例における第２の音声インタラクション制御装置の構造図であり、本願の実施例はオーディオ信号全体を検出する状況に適し、該装置はソフトウェア及び／またはハードウェアによって実現され、かつ具体的に特定のデータ演算能力を備えた電子機器に配置される。

図９に示される音声インタラクション制御装置９００は、
オーディオ信号を取得することに用いられる取得モジュール９０１と、
オーディオ信号の先頭にあるウェイクワード、及びウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュール９０２と、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュール９０３と、を含む。

さらに、ウェイクワードの結果は第３の信頼度を含み、第３の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、制御モジュール９０３は、第３の信頼度が第３の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御することに用いられる第１の実行ユニットと、第３の信頼度が第３の信頼度閾値要件を満たさない場合、提示音を再生するように音声インタラクション端末を制御する制御ユニットと、を含む。

さらに、ウェイクワードの結果は第４の信頼度を含み、第４の信頼度は、通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、制御モジュール９０３は、第４の信頼度が第４の信頼度閾値要件を満たす場合、音声コマンドの結果に基づいて音声コマンドを実行するように音声インタラクション端末を制御する及び／または提示音を再生するように音声インタラクション端末を制御することに用いられる第２の実行ユニットと、第４の信頼度が第４の信頼度閾値要件に満たずかつ第３の信頼度が第３の信頼度閾値要件を満たさない場合、音声インタラクション端末にヌルコマンドを送信することに用いられる送信ユニットと、を含む。

さらに、検出モジュール９０２は、オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得することに用いられる検出ユニットと、インタラクション信頼度決定ユニットであって、オーディオ信号の音響特徴表現とオーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、オーディオ信号のインタラクション信頼度を決定することに用いられ、インタラクション信頼度は、端末とのインタラクションに使用される音声コマンドとしてのオーディオ信号の信頼性を示すインタラクション信頼度決定ユニットと、マッチングステータス決定ユニットであって、認識テキストとオーディオ信号とのマッチングステータスを決定することに用いられ、マッチングステータスは認識テキストがオーディオ信号に含まれる情報を正しく反映している度合いを示すマッチングステータス決定ユニットと、インタラクション信頼度、マッチングステータス及び首部のウェイクワードの検出結果に基づいてウェイクワードの結果と音声コマンドの結果を得ることに用いられる結果取得ユニットと、を含む。

さらに、該装置９００はサーバに配置され、取得モジュール９０１は具体的には、音声インタラクション端末から送信されたオーディオ信号を受信することに用いられる。

本願の実施例によれば、本願は２つの電子機器及び１つの読み取り可能な記憶媒体をさらに提供する。

図１０に示されるのは本願の実施例に係る音声インタラクション制御方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、さらに、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表すことができる。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書に記載及び／または要求される本願の実現を制限することを意図していない。

図１０に示すように、当該電子機器は、１つ以上のプロセッサ１００１と、メモリ１００２と、各部材を接続するための、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各部材は、異なるバスを介して互いに接続し、共通のマザーボード上に取り付けられてもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、外部入力／出力装置（インタフェースに結合された表示機器）上にＧＵＩのグラフィック情報を表示するために、メモリ内またはメモリ上に記憶されているコマンドを含む、電子機器内で実行されるコマンドを処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／または複数のバスを複数のメモリ及び複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続してもよく、各機器により一部の必要な操作（例えば、サーバアレイ、ブレードサーバセット、またはマルチプロセッサシステムなど）が提供される。図１０では１つのプロセッサ１００１を例に挙げている。

メモリ１００２は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、メモリには、少なくとも１つのプロセッサに本願に係る音声インタラクション制御方法を実行させるために、少なくとも１つのプロセッサによって実行可能なコマンドが記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係る音声インタラクション制御方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。

非一時的なコンピュータ読み取り可能な記憶媒体として、メモリ１００２は、本願の実施例における音声インタラクション制御方法に対応するプログラムコマンド／モジュールなどの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール（例えば、図８に示される収集モジュール８０１、検出モジュール８０２及び実行モジュール８０３であり、また例えば、図９に示される取得モジュール９０１、検出モジュール９０２及び制御モジュール９０３である）を記憶するために用いられてもよい。プロセッサ１００１は、メモリ１００２に記憶されている非一時的なソフトウェアプログラム、コマンド、及びモジュールを実行することにより、電子機器の様々な機能適用及びデータ処理を実行し、すなわち、上記の方法の実施例における音声インタラクション制御方法を実現する。

メモリ１００２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声インタラクション制御の電子機器の使用に応じて作成されたデータなどを記憶することができる。また、メモリ１００２は、高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステート記憶デバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ１００２は選択可能として、プロセッサ１００１に対して遠隔に設定されたメモリを含んでもよく、これらの遠隔メモリは、ネットワーク経由で音声インタラクション制御の電子機器に接続されることができる。上記のネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに制限されるものではない。

音声インタラクション制御方法の電子機器は、入力装置１００３及び出力装置１００４をさらに含んでもよい。プロセッサ１００１、メモリ１００２、入力装置１００３及び出力装置１００４は、バスまたは他の方法を介して接続されてもよいが、図１０ではバスを介して接続されることを例に挙げている。

入力装置１００３は入力された数字または文字情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、小型キーボード、マウス、トラックパッド、タッチパネル、指示レバー、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１００４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含んでもよいが、これらに制限されるものではない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

本願の実施例によれば、図１１は本願の実施例における音声インタラクション制御システムの概略構造図であり、本実施例に係る音声インタラクション制御システム１００は、通信接続された音声インタラクション端末１０及びサーバ２０を含み、サーバ２０はクラウドに実装され、音声インタラクション端末１０はスマートスピーカ、スマートホーム及びスマートウォッチを含むが、これらに制限されるものではない。図１１を参照して音声インタラクション端末１０及びサーバ２０を詳細に説明する。

図１１に示すように、音声インタラクション端末１０は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号と後続のオーディオ信号をサーバ２０に送信し、及び／または提示音を再生し、サーバ２０から返された音声コマンド及び／または提示音再生コマンドを受信して実行することに用いられる。

選択可能として、ここでのウェイクワードはターゲットウェイクワードや通常のウェイクワードであってもよい。ターゲットウェイクワードと通常のウェイクワードに対する説明は上記の実施例の記載を参照されたく、ここでは詳しく説明しない。

音声インタラクション端末１０は提示音再生コマンドを実行することで提示音を再生する。

サーバ２０は、前記音声インタラクション端末１０から送信されたオーディオ信号を取得し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得し、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末１０に音声コマンド及び／または提示音再生コマンドを発行することに用いられる。

本実施例に係る音声インタラクション制御システムはユーザがウェイクワード＋音声コマンドを発するのを許可し、１回のインタラクションで音声コマンドの応答を完了し、ユーザのニーズを満たし、インタラクションの長さを短くし、それにより音声コマンドがすばやく到着し、すばやく応答することができる。端末１０はオーディオ信号におけるウェイクワードに対して初期検出し、ウェイクワードに対応するオーディオ信号及び後続のオーディオ信号をサーバ２０に送信し、それによりサーバ２０は、受信されたオーディオ信号全体を再検出して、ウェイクワード及び音声コマンドの認識精度を向上させる。

選択可能として、ウェイクワードの結果は第１の信頼度を含み、前記第１の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、それに対応して、音声インタラクション端末１０は、ウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバ２０に送信するとき、具体的には、前記第１の信頼度が第１の信頼度閾値要件を満たす場合、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバ２０に送信することに用いられ、音声インタラクション端末１０は、ウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる。

選択可能として、音声インタラクション端末１０は、前記サーバ２０から返された音声コマンドを実行する前にまたはそのとき、前記提示音を再生しないことに用いられる。

選択可能として、ウェイクワードの結果は第２の信頼度を含み、前記第２の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、それに対応して、音声インタラクション端末１０は、ウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第２の信頼度が第２の信頼度閾値要件を満たしかつ前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる。

選択可能として、通常のウェイクワードは少なくとも１つの前記ターゲットウェイクワードを含み、音声インタラクション端末１０は、前記オーディオ信号におけるウェイクワードを検出するとき、具体的には、ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得、前記初期検出結果と前記再検出結果に基づいて前記第１の信頼度と前記第２の信頼度を決定することに用いられる。

選択可能として、音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる。

選択可能として、ターゲットウェイクワードは４つ未満の音節を有する単語であり、通常のウェイクワードは４つ以上の音節を有する単語である。

選択可能として、ターゲットウェイクワードと通常のウェイクワードは音節数が同じである。

選択可能として、ウェイクワードの結果は第３の信頼度を含み、前記第３の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、サーバ２０は、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末１０に前記音声コマンド及び／または前記提示音再生コマンドを発行するとき、具体的には、前記第３の信頼度が第３の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末１０に前記音声コマンドを発行し、前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末１０に提示音再生コマンドを発行することに用いられる。

選択可能として、ウェイクワードの結果は第４の信頼度を含み、前記第４の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、サーバ２０は、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末１０に前記音声コマンド及び／または前記提示音再生コマンドを発行するとき、具体的には、前記第４の信頼度が第４の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末１０に前記音声コマンド及び／または前記提示音再生コマンドを発行し、前記第４の信頼度が前記第４の信頼度閾値要件に満たずかつ前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末１０にヌルコマンドを発行することに用いられる。

選択可能として、サーバ２０は、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出するとき、具体的には、前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得し、前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示し、前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示し、前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる。

本実施例に係るシステムにおける音声インタラクション端末１０及びサーバ２０の詳細については、上記実施例の記載を参照し、上記実施例の技術的効果を有するため、ここでは詳しく説明しない。

ここで説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組み合わせによって実現されることができる。これらの様々な実施形態は、以下のようであってもよい。１つ以上のコンピュータプログラムに実行され、当該１つ以上のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／または解釈されてもよく、当該プログラマブルプロセッサは専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、かつデータ及びコマンドを当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信する。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械コマンドを含み、ハイレベルのプロセス及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械語でこれらのコンピュータプログラムを実行してもよい。本明細書で使用される用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械コマンド及び／またはデータを提供するための任意のコンピュータプログラム製品、機器、及び／または装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理機器（ＰＬＤ））を指し、機械読み取り可能な信号として機械コマンドを受け取る機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械コマンド及び／またはデータをプログラマブルプロセッサに提供することに用いられる任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステムと技術は、コンピュータで実行されてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置（例えばＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードやポインティング装置（例えばマウスやトラックボール）を有し、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置はユーザとのインタラクションを提供することに用いられることもでき、例えば、ユーザに提供するフィードバックは、任意の形態の感知フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形態（サウンド入力、音声入力または触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムと技術は、バックエンド部材を含むコンピューティングシステム（例えば、データサーバとして）、またはミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド部材を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはインターネットブラウザを備えたユーザコンピュータであり、ユーザが当該グラフィカルユーザインタフェースまたは当該インターネットブラウザを介してここで説明するシステムと技術の実施形態とインタラクションを行うことができる）、またはこのようなバックエンド部材、ミドルウェア部材、またはフロントエンド部材の任意の組み合わせを含むコンピューティングシステム内で実施されてもよい。システムの部材は、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続されてもよい。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク及びインターネットなどが挙げられる。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであり、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービスにおいて、管理の難易度が大きく、業務拡張性が弱いという欠点を解決する。

上記に示された様々な形態のフローは、ステップに対して順序変更、追加、または削除して使用できることが理解されたい。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できればよく、本明細書はここで制限しない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の趣旨と原則の範囲内で行われた変更、同等の置換、及び改善などは、本願の保護範囲に含まれるべきである。

Claims

音声インタラクション制御方法であって、
オーディオ信号を収集するステップと、
前記オーディオ信号におけるウェイクワードを検出するステップと、
検出されたウェイクワードの結果に基づいて提示音を再生する及び／または前記オーディオ信号における音声コマンドを実行するステップと、を含む、
音声インタラクション制御方法。
前記ウェイクワードの結果は第１の信頼度を含み、前記第１の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
検出されたウェイクワードの結果に基づいて提示音を再生する及び／または前記オーディオ信号における音声コマンドを実行するステップは、
前記第１の信頼度が第１の信頼度閾値要件を満たす場合、前記音声コマンドを実行するステップと、
前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
検出されたウェイクワードの結果に基づいて前記オーディオ信号における音声コマンドを実行するステップのときまたはその前に、
前記提示音を再生しないステップをさらに含む、
ことを特徴とする請求項１または２に記載の方法。
前記ウェイクワードの結果は第２の信頼度を含み、前記第２の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
検出されたウェイクワードの結果に基づいて提示音を再生するステップは、
前記第２の信頼度が第２の信頼度閾値要件を満たし、かつ前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生するステップを含む、
ことを特徴とする請求項２に記載の方法。
前記通常のウェイクワードは少なくとも１つの前記ターゲットウェイクワードを含み、
前記オーディオ信号におけるウェイクワードを検出するステップは、
ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得るステップと、
前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得るステップと、
前記初期検出結果と前記再検出結果に基づいて前記第１の信頼度と前記第２の信頼度を決定するステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
ことを特徴とする請求項１または２に記載の方法。
前記方法は音声インタラクション端末によって実行され、
前記第１の信頼度が第１の信頼度閾値要件を満たす場合、前記音声コマンドを実行するステップは、
前記第１の信頼度が第１の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及び前記ウェイクワードに続く音声コマンドを検出するように、前記ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信するステップと、
前記サーバから前記音声コマンドを取得して実行するステップと、を含む、
ことを特徴とする請求項２に記載の方法。
前記ターゲットウェイクワードは４つ未満の音節を有する単語であり、
前記通常のウェイクワードは４つ以上の音節を有する単語である、
ことを特徴とする請求項２、４、５または７に記載の方法。
前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
ことを特徴とする請求項２、４、５または７に記載の方法。
音声インタラクション制御方法であって、
オーディオ信号を取得するステップと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御するステップと、を含む、
音声インタラクション制御方法。
前記ウェイクワードの結果は第３の信頼度を含み、前記第３の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御するステップは、
前記第３の信頼度が第３の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行するように前記音声インタラクション端末を制御するステップと、
前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記提示音を再生するように前記音声インタラクション端末を制御するステップと、を含む、
ことを特徴とする請求項１０に記載の方法。
前記ウェイクワードの結果は第４の信頼度を含み、前記第４の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御するステップは、
前記第４の信頼度が第４の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行する及び／または前記提示音を再生するように前記音声インタラクション端末を制御するステップと、
前記第４の信頼度が前記第４の信頼度閾値要件に満たず、かつ前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを送信するステップと、を含む、
ことを特徴とする請求項１１に記載の方法。
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得するステップは、
前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、先頭のウェイクワードの検出結果を取得するステップと、
前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示すステップと、
前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示すステップと、
前記インタラクション信頼度、前記マッチングステータス及び先頭のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得るステップと、を含む、
ことを特徴とする請求項１０に記載の方法。
前記方法はサーバによって実行され、
オーディオ信号を取得するステップは、
音声インタラクション端末から送信された前記オーディオ信号を受信するステップを含む、
ことを特徴とする請求項１０～１３のいずれかに記載の方法。
音声インタラクション制御装置であって、
オーディオ信号を収集することに用いられる収集モジュールと、
前記オーディオ信号におけるウェイクワードを検出することに用いられる検出モジュールと、
検出されたウェイクワードの結果に基づいて提示音を再生する及び／または前記オーディオ信号における音声コマンドを実行することに用いられる実行モジュールと、を含む、
音声インタラクション制御装置。
前記ウェイクワードの結果は第１の信頼度を含み、前記第１の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
前記実行モジュールは、
前記第１の信頼度が第１の信頼度閾値要件を満たす場合、前記音声コマンドを実行することに用いられるコマンド実行ユニットと、
前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる再生ユニットと、を含む、
ことを特徴とする請求項１５に記載の装置。
検出されたウェイクワードの結果に基づいて前記オーディオ信号における音声コマンドを実行するときまたはその前に、前記提示音を再生しないことに用いられる非再生モジュールをさらに含む、
ことを特徴とする請求項１５または１６に記載の装置。
前記ウェイクワードの結果は第２の信頼度を含み、前記第２の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
前記実行モジュールは、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第２の信頼度が第２の信頼度閾値要件を満たし、かつ前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
ことを特徴とする請求項１６に記載の装置。
前記通常のウェイクワードは少なくとも１つの前記ターゲットウェイクワードを含み、
前記検出モジュールは、
ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得ることに用いられる初期検出モジュールと、
前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得ることに用いられる再検出モジュールと、
前記初期検出結果と前記再検出結果に基づいて前記第１の信頼度と前記第２の信頼度を決定することに用いられる決定モジュールと、を含む、
ことを特徴とする請求項１８に記載の装置。
前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
ことを特徴とする請求項１５または１６に記載の装置。
前記装置は音声インタラクション端末に配置され、
前記コマンド実行ユニットは、
前記第１の信頼度が第１の信頼度閾値要件を満たす場合、サーバが受信されたオーディオ信号の先頭にあるウェイクワード及び前記ウェイクワードに続く音声コマンドを検出するように、前記ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信することに用いられる送信サブユニットと、
前記サーバから前記音声コマンドを取得して実行することに用いられる取得サブユニットと、を含む、
ことを特徴とする請求項１６に記載の装置。
前記ターゲットウェイクワードは４つ未満の音節を有する単語であり、
前記通常のウェイクワードは４つ以上の音節を有する単語である、
ことを特徴とする請求項１６、１８、１９または２１に記載の装置。
前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
ことを特徴とする請求項１６、１８、１９または２１に記載の装置。
音声インタラクション制御装置であって、
オーディオ信号を取得することに用いられる取得モジュールと、
前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得することに用いられる検出モジュールと、
ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて提示音を再生する及び／または音声コマンドを実行するように音声インタラクション端末を制御することに用いられる制御モジュールと、を含む、
音声インタラクション制御装置。
前記ウェイクワードの結果は第３の信頼度を含み、前記第３の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
前記制御モジュールは、
前記第３の信頼度が第３の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行するように前記音声インタラクション端末を制御することに用いられる第１の実行ユニットと、
前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記提示音を再生するように前記音声インタラクション端末を制御することに用いられる制御ユニットと、を含む、
ことを特徴とする請求項２４に記載の装置。
前記ウェイクワードの結果は第４の信頼度を含み、前記第４の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
前記制御モジュールは、
前記第４の信頼度が第４の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声コマンドを実行する及び／または前記提示音を再生するように前記音声インタラクション端末を制御することに用いられる第２の実行ユニットと、
前記第４の信頼度が前記第４の信頼度閾値要件に満たず、かつ前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを送信することに用いられる送信ユニットと、を含む、
ことを特徴とする請求項２５に記載の装置。
前記検出モジュールは、
前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得することに用いられる検出ユニットと、
前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定することに用いられるインタラクション信頼度決定ユニットであって、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示すインタラクション信頼度決定ユニットと、
前記認識テキストと前記オーディオ信号とのマッチングステータスを決定することに用いられるマッチングステータス決定ユニットであって、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示すマッチングステータス決定ユニットと、
前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる結果取得ユニットと、を含む、
ことを特徴とする請求項２４に記載の装置。
前記装置はサーバに配置され、
前記取得モジュールは、音声インタラクション端末から送信された前記オーディオ信号を受信することに用いられる、
ことを特徴とする請求項２４～２７のいずれかに記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１～９のいずれかに記載の音声インタラクション制御方法を実行できる、
電子機器。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドは、前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１０～１４のいずれかに記載の音声インタラクション制御方法を実行できる、
電子機器。
コンピュータコマンドが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドは請求項１～１４のいずれかに記載の音声インタラクション制御方法を前記コンピュータに実行させることに用いられる、
非一時的なコンピュータ読み取り可能な記憶媒体。
音声インタラクション制御システムであって、
音声インタラクション端末及びサーバを含み、
前記音声インタラクション端末は、オーディオ信号を収集し、前記オーディオ信号におけるウェイクワードを検出し、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信する及び／または提示音を再生し、前記サーバから返された音声コマンド及び／または提示音再生コマンドを受信して実行することに用いられ、
前記サーバは、前記音声インタラクション端末から送信されたオーディオ信号を受信し、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出して、ウェイクワードの結果と音声コマンドの結果を取得しウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び／または前記提示音再生コマンドを発行することに用いられる、
音声インタラクション制御システム。
前記ウェイクワードの結果は第１の信頼度を含み、前記第１の信頼度は、ターゲットウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいてウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信するとき、具体的には、前記第１の信頼度が第１の信頼度閾値要件を満たす場合、ターゲットウェイクワードに対応するオーディオ信号及び後続のオーディオ信号を前記サーバに送信することに用いられ、
前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
ことを特徴とする請求項３２に記載のシステム。
前記音声インタラクション端末は、前記サーバから返された音声コマンドを実行するときまたはその前に、前記提示音を再生しないことに用いられる、
ことを特徴とする請求項３２または３３に記載のシステム。
前記ウェイクワードの結果は第２の信頼度を含み、前記第２の信頼度は、通常のウェイクワードを含む前記オーディオ信号の確実度を表現することに用いられ、
前記音声インタラクション端末は、検出されたウェイクワードの結果に基づいて提示音を再生するとき、具体的には、前記第２の信頼度が第２の信頼度閾値要件を満たし、かつ前記第１の信頼度が前記第１の信頼度閾値要件を満たさない場合、前記提示音を再生することに用いられる、
ことを特徴とする請求項３３に記載のシステム。
前記通常のウェイクワードは少なくとも１つの前記ターゲットウェイクワードを含み、
前記音声インタラクション端末は、前記オーディオ信号におけるウェイクワードを検出するとき、具体的には、
ウェイクワード検出モデルを使用して前記オーディオ信号におけるターゲットウェイクワードを初期検出し、初期検出結果を得、
前記初期検出した後の設定期間内において前記ターゲットウェイクワードを再検出し、再検出結果を得、
前記初期検出結果と前記再検出結果に基づいて前記第１の信頼度と前記第２の信頼度を決定することに用いられる、
ことを特徴とする請求項３５に記載のシステム。
前記音声コマンドは、前記オーディオ信号における前記ウェイクワードに続く部分を検出することによって得られる、
ことを特徴とする請求項３２または３３に記載のシステム。
前記ターゲットウェイクワードは４つ未満の音節を有する単語であり、
前記通常のウェイクワードは４つ以上の音節を有する単語である、
ことを特徴とする請求項３３、３５または３６に記載のシステム。
前記ターゲットウェイクワードと前記通常のウェイクワードは音節数が同じである、
ことを特徴とする請求項３３、３５または３６に記載のシステム。
前記ウェイクワードの結果は第３の信頼度を含み、前記第３の信頼度はターゲットウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
前記サーバは、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び／または前記提示音再生コマンドを発行するとき、具体的には、
前記第３の信頼度が第３の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末に前記音声コマンドを発行し、
前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末に提示音再生コマンドを発行することに用いられる、
ことを特徴とする請求項３２に記載のシステム。
前記ウェイクワードの結果は第４の信頼度を含み、前記第４の信頼度は通常のウェイクワードを含む前記オーディオ信号の先頭の確実度を表現することに用いられ、
前記サーバは、ウェイクワードの結果と音声コマンドの結果のうちの少なくとも一つに基づいて前記音声インタラクション端末に前記音声コマンド及び／または前記提示音再生コマンドを発行するとき、具体的には、
前記第４の信頼度が第４の信頼度閾値要件を満たす場合、前記音声コマンドの結果に基づいて前記音声インタラクション端末に前記音声コマンド及び／または前記提示音再生コマンドを発行し、
前記第４の信頼度が前記第４の信頼度閾値要件に満たずかつ前記第３の信頼度が前記第３の信頼度閾値要件を満たさない場合、前記音声インタラクション端末にヌルコマンドを発行することに用いられる、
ことを特徴とする請求項４０に記載のシステム。
前記サーバは、受信された前記オーディオ信号の先頭にあるウェイクワード、及び前記ウェイクワードに続く音声コマンドを検出するとき、具体的には、
前記オーディオ信号の認識テキストの先頭に対してウェイクワード検出を行い、首部のウェイクワードの検出結果を取得し、
前記オーディオ信号の音響特徴表現と前記オーディオ信号の認識テキストに関連付けられたテキスト特徴表現のうちの少なくとも一つに基づいて、前記オーディオ信号のインタラクション信頼度を決定し、前記インタラクション信頼度は、前記端末とのインタラクションに使用される音声コマンドとしての前記オーディオ信号の信頼性を示し、
前記認識テキストと前記オーディオ信号とのマッチングステータスを決定し、前記マッチングステータスは前記認識テキストが前記オーディオ信号に含まれる情報を正しく反映している度合いを示し、
前記インタラクション信頼度、前記マッチングステータス及び首部のウェイクワードの検出結果に基づいて前記ウェイクワードの結果と前記音声コマンドの結果を得ることに用いられる、
ことを特徴とする請求項３２に記載のシステム。
コンピュータ上に実行される場合、前記コンピュータに請求項１～１４のいずれかに記載の音声インタラクション制御方法を実行させる、
コンピュータプログラム。