JP7146869B2

JP7146869B2 - 音声インタラクション制御のための方法、装置、機器及び媒体

Info

Publication number: JP7146869B2
Application number: JP2020170837A
Authority: JP
Inventors: ジンフェンバイ，; チュァンレイツァイ，; シュウチェン，; タオチェン，; シャオコンマ，; セーチャン，; チェンウー，; シンユァンペン，; ツィジャンワン，; シェンキアン，; グイビンワン，; レイジア，
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-10-28
Filing date: 2020-10-09
Publication date: 2022-10-04
Anticipated expiration: 2040-10-09
Also published as: JP2021067939A; US20210127003A1; US11503155B2; CN110718223B; CN110718223A

Description

本開示の実施例は、主に人工知能の分野に関し、より具体的には、音声技術に関する。

音声インタラクション技術は、人間（ヒューマン）と機械（マシン）とが音声でインタラクションする技術であり、自然な対話と類似した音声インタラクション体験を実現する。ヒューマン・マシンインタラクションは、コンピュータ時代のマウス及びキーボードをスクリーンと合わせたインタラクションから、スマートフォン時代のタッチスクリーンとの直接インタラクションまで、ヒューマン・マシンインタラクションする方式は、ますます簡単になり、インタラクションのハードルがますます低くなっている。人工知能及びモバイルインターネットの活発な発展に伴い、人間と人間との間の対話と類似した自然音声インタラクションは、ヒューマン・マシンインタラクションの新しい方式になりつつある。音声インタラクションは、入力帯域幅が大きく、精度が高く、移動性がよく、使用ハードルが低いなどの利点を兼ね備えるため、ヒューマン・マシンインタラクションの最優先インタラクション方式の一つである。

音声インタラクションは、一回のウェイクアップで一回のインタラクションを行うシーンと、一回のウェイクアップで連続的なインタラクションを行う（一回のウェイクアップで複数回のインタラクションを行うこととも呼ばれる）シーンという二つのシーンに分けることができる。音声インタラクションを実現する間に、通常、収集された音声信号に対して音声認識を実行することにより、その中から対応する情報が認識されて、インタラクション制御の実現に使用される。

本開示の実施例によれば、音声インタラクション制御のための技術案が提供される。

本開示の第１の態様では、音声インタラクション制御の方法が提供される。当該方法は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するステップと、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現のうちの少なくとも一つに基づいて音信号のインタラクション信頼度を決定するステップと、認識情報と音信号とのマッチング状況を決定するステップと、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するステップと、を含む。

本開示の第２の態様では、音声インタラクション制御のための装置が提供される。当該装置は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するように構成される取得モジュールと、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュールと、認識情報と音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュールと、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するように構成される提供モジュールと、を備える。

本開示の第３の態様では、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサが本開示の第１の態様に係る方法を実現する電子機器が提供される。

本開示の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の第１の態様に係る方法が実現されるコンピュータ読み取り可能な記憶媒体が提供される。

本開示の第５の態様では、コンピュータプログラムが提供され、前記コンピュータプログラムが実行される場合、コンピュータに本開示の第１の態様に係る方法を実行させる。

なお、発明の概要に説明された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。

本開示の各実施例の上記及び他の特徴、利点及び態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一又は類似した符号は、同一又は類似した要素を表す。
本開示の複数の実施例が実現され得る環境の概略図を示す。本開示のいくつかの実施例に係る音声インタラクション制御のためのプロセスのフローチャートを示す。本開示のいくつかの実施例に係るインタラクション制御装置の例示的なブロック図を示す。本開示のいくつかの実施例に係る音響信頼度モデルの例示的なブロック図である。本開示のいくつかの実施例に係るセマンティック信頼度モデルの例示的なブロック図である。本開示のいくつかの実施例に係るローカル情報音信頼度モデルの例示的なブロック図である。本開示のいくつかの実施例に係るグローバル情報音信頼度モデルの例示的なブロック図である。本開示のいくつかの実施例に係るタグシーケンス生成の例の概略図である。本開示の別の実施例に係るインタラクション制御装置の例示的なブロック図を示す。本開示のいくつかの実施例に係る音声インタラクション制御のための装置のブロック図である。本開示の複数の実施例を実施可能な機器のブロック図を示す。

本開示の実施例を、図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面及び実施例は例示するものに過ぎず、本開示の保護範囲を限定するものではないと理解されたい。

本開示の実施例の説明において、「含む」という用語及びその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「第１」、「第２」などの用語は、異なる対象または同一対象を指すことができる。他の明示的及び暗黙的な定義も以下に含まれ得る。

上記のように、音声インタラクションのプロセスでは、収集された音声信号に対して音声認識を実行することにより、その中から対応する情報が認識されて、インタラクション制御の実現に使用される。しかしながら、いくつかの場合には、収集された音信号は、ヒューマン・マシンインタラクションのための音声命令ではないため、このような音信号に基づいて認識された情報も、誤って機器の制御に使用されることがある。

このような問題は、一回のウェイクアップで連続的なインタラクションを行うプロセスでは特に注意する必要がある。これは、一回のウェイクアップで一回のインタラクションを行うインタラクションの技術案では、ユーザが音声インタラクション機器とインタラクションするたびにまずウェイクアップワードを言う必要があるからである。したがって、ウェイクアップワードが認識されて機器がウェイクアップされた後に収集された音信号は、ヒューマン・マシンインタラクションの信号である確率が高い。しかしながら、一回のウェイクアップで連続的なインタラクションを行うシーンでは、ユーザは、ウェイクアップワードによって音声インタラクション機器をウェイクアップした後、インタラクションのための音声を複数回発する可能性があるため、インタラクション中に他の無関係な環境音を収集する可能性がある。ヒューマン・マシンインタラクションの音と非ヒューマン・マシンインタラクションの音とを正確に判別することができ、音声インタラクション制御の精度及びインテリジェンスを向上させ、ヒューマン・マシンインタラクションのユーザ体験を向上させることができることが期待される。

基本的な動作原理及び例示的な環境
本開示の実施例によれば、音声インタラクション制御を改良した技術案が提供される。当該技術案では、音信号及び／又は音信号から取得された認識情報に基づいて、音響又はセマンティックの全体から、音信号が音声インタラクション機器とインタラクションするための音であるインタラクション信頼度を決定する。また、認識情報と音信号とのマッチング状況も決定する。インタラクション信頼度とマッチング状況とは、音信号に対する音声インタラクション機器の応答を決定するのに提供される。このようにすることで、複数の次元から、音声インタラクション機器が取得された音信号に応答するべきか否か、及びどのように音信号に応答するかを決定することができ、より正確且つインテリジェントな音声インタラクション制御を実現し、ユーザ体験を向上させることができる。

以下、図面を参照して本開示のいくつかの実施例を説明する。
図１は、本開示の複数の実施例が実現され得る環境１００の概略図を示す。当該例示的な環境１００では、ユーザ１１０は、音声インタラクション機器１２０に音声命令を出して音声インタラクション機器１２０の動作を制御することができる。例えば、音声インタラクション機器１２０がスマートスピーカーである場合、音声命令は、「…歌手の…歌を再生して」などであってもよく、音声インタラクション機器１２０は、音声信号が正しく認識された後、対応する歌を検索し、ユーザ１１０に再生することができる。

音声インタラクション機器１２０は、ユーザ１１０の音声命令を収集するための、関連付けられたサウンドコレクタ１２２（例えば、一つ又は複数のマイクロフォン）を有することができる。音声インタラクション機器１２０は、音を再生するための、関連付けられたサウンドプレーヤ１２４（例えば、一つ又は複数のスピーカ）を有することもできる。

音声インタラクション機器１２０は、音声信号によって制御及び／又はインタラクションすることができる任意の電子機器であってもよい。音声インタラクション機器１２０のいくつかの例としては、スマートスピーカー、音声インタラクション型テレビボックス、スマート家電、音声家庭教師、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイスなどを含むことができるが、これらに限定されない。音声インタラクション機器１２０は、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオおよびビデオ再生アプリケーション、インテリジェントアシスタントアプリケーションなどの音声インタラクションアプリケーションがインストールされた任意の他の電子機器であってもよい。このような音声インタラクションアプリケーションをインストールできる電子機器の例としては、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーションデバイス、携帯情報端末（ＰＤＡ）、オーディオ／ビデオプレーヤー、デジタルカメラ／ビデオカメラ、測位デバイス、電子書籍デバイス、ゲームデバイス、又はこれら的任意の組み合わせであってもよいが、これらに限定されない。

音声インタラクション機器１２０とのインタラクション中に、通常、ウェイクアップワードによって音声インタラクション機器１２０をウェイクアップしてインタラクション状態に入らせる必要がある。音声インタラクション機器１２０は、一回のウェイクアップで一回のインタラクションを行うこと、又は一回のウェイクアップで連続的なインタラクションを行うことをサポートすることができる。一回のウェイクアップで一回のインタラクションを行うシーンでは、ユーザ１１０は、ウェイクアップワードによって音声インタラクション機器１２０をウェイクアップした後、音声インタラクション機器１２０と一回のインタラクションを行い、すなわち一回の音声命令を出すことができる。一回のウェイクアップで連続的なインタラクションを行うシーンでは、音声インタラクション機器１２０をウェイクアップした後、音を出しているなど、機器が動作状態にある限り、ユーザ１１０は、再度にウェイクアップワードを出す必要がなく、音声インタラクション機器１２０と直接にインタラクションすることができ、これは、インタラクションのハードルを低くし、ユーザのインタラクション意欲を高めることができる。いくつかの場合には、インタラクションが天気を聞くなどのクエリカテゴリに属している場合、音声インタラクション機器１２０が回答を完了してからの一定の期間（例えば５分以内）に、ユーザ１１０は、機器を再度ウェイクアップする必要もなく、インタラクションを継続することができる。いくつかの場合には、一回にウェイクアップした後の所定の期間（例えば、５分）と音声インタラクション機器１２０の動作時間との二者から大きいほうの値を取って、ユーザの連続的なインタラクション時間を制限することができる。

音声インタラクション機器１２０のサウンドコレクタ１２２によって収集された音信号は、その中からユーザの意図が認識できる前に処理される必要がある。音信号の処理及び／又はユーザ意図の判断は、音声インタラクション機器１２０のローカル側で行われるか、又は音声インタラクション機器１２０のリモート側で行われる。例えば、音声インタラクション機器１２０は、ローカル側で音信号の関連処理の一つ又は複数の態様を実現し、音声インタラクション機器１２０とユーザ１１０とのインタラクションを制御するためのインタラクション制御装置１４０－１を含むことができる。音声インタラクション機器１２０は、クラウド１３０に配置されたインタラクション制御装置１４０－２と通信するなど、リモート側処理機器と通信することもできる。インタラクション制御装置１４０－２は、音声インタラクション機器１２０によって収集された音信号の処理及び音声インタラクション機器１２０のインタラクション制御を独立して実現することができ、又は音信号の処理及び音声インタラクション機器１２０のインタラクション制御をインタラクション制御装置１４０－１とともに実現することができる。以下では、インタラクション制御装置１４０－１とインタラクション制御装置１４０－２とを、インタラクション制御装置１４０と総称するか又は個別に言う。

なお、図１に示される環境は、単なる例である。いくつかの実現では、リモート側のインタラクション制御装置１４０－２は、存在しないか、又はクラウドに配置されなくてもよいことを理解されたい。

例示的なプロセス
図２は、本開示のいくつかの実施例に係る音声インタラクション制御のためのプロセス２００のフローチャートを示す。プロセス２００は、インタラクション制御装置１４０によって実現することができる。検討を容易にするために、図１を参照してプロセス２００を説明する。

ブロック２１０では、インタラクション制御装置１４０が、音声インタラクション機器１２０における音信号と、音信号から認識された認識情報とを取得する。認識情報は、音声認識技術によって音信号から認識されたものである。需要に応じて、認識情報は、任意の形式で表すことができる。いくつかの実施例では、認識情報はテキスト情報であってもよい。例えば、認識情報は、ある自然言語（例えば、中国語、英語、日本語など）で表されるテキストシーケンスを含むことができる。別のいくつかの実施例では、認識情報は、任意の他の情報表現で表すこともできる。例えば、認識情報は、機械言語で表すこともできる。

音声インタラクション機器１２０によって収集された元の音は、一定の処理を経て、音声認識に利用可能な音信号として取得することができる。元の音信号の処理、及び／又は音信号からの情報認識は、インタラクション制御装置１４０によって実行されてもよいし、又はインタラクション制御装置１４０以外の装置／機器によって実行されて、インタラクション制御装置１４０に提供されてもよい。例えば、インタラクション制御装置１４０が音声インタラクション機器１２０のリモート側（例えば、クラウド）に位置する実施例では、音声インタラクション機器１２０のローカル側の装置（例えば、インタラクション制御装置１４０－１）がサウンドコレクタ１２２によって収集された元の音に対して一定の処理を行った後にリモート側のインタラクション制御装置１４０－２に提供することができる。以下では音信号及び認識情報を取得するいくつかの例示的な実施例を詳細に説明する。

ブロック２２０では、インタラクション制御装置１４０が、少なくとも音響特徴表現及びセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定する。インタラクション信頼度は、音信号が音声インタラクション機器１２０とインタラクションするために使用された、又は部分的に使用された音声である信頼度を示す。

音声インタラクション制御のプロセスでは、音声インタラクション機器１２０がユーザ１１０の実際の音声命令にタイムリー且つ正確に応答することが望ましい。しかしながら、音声インタラクション機器１２０は、いくつかのノイズ信号、又は音声インタラクション機器１２０とのインタラクションに使用されない信号（例えば、人と人の会話など）を収集した可能性がある。例えば、一回のウェイクアップで連続的なインタラクションを行うプロセスでは、音声インタラクション機器１２０がウェイクアップされた後にユーザ１１０の音声命令を常に注目して収集するため、干渉する音信号を収集する確率が高い。音声インタラクション機器１２０とのインタラクションに使用されない音に応答すると、インタラクションのインテリジェンスが低くなり、ユーザ体験が悪くなりやすい。一回のウェイクアップで一回のインタラクションを行うプロセスでは、ほとんどの場合、ユーザ１１０が音声インタラクション機器１２０をウェイクアップするたびに音声命令を出すと簡単に仮定することができるが、このような仮定によって、音声インタラクション機器１２０は、ユーザ１１０が音声インタラクション機器１２０に音声命令を出したか否かにも関わらず、音声インタラクション機器１２０が応答する必要があるように制御され、音声インタラクション機器１２０のインタラクションが充分にインテリジェントでなくなり、ユーザ体験が低下する。

したがって、本開示の実施例によれば、音信号の信頼度の判断を実行することが提案される。具体的には、音信号及び／又は認識情報の全体的な視点からインタラクション信頼度を決定することができ、当該インタラクション信頼度は、当該音信号が実際の音声であり、当該音信号がインタラクションのためのものであることを示すことができる。音信号が実際の音声であるか否かを判断することによって、前の処理中に音声が入っていない音（例えば、様々な環境音）を音声として検出され、その中から情報が認識される（例えば、認識テキスト）ことを防止することができる。音信号がインタラクションのためのものであるか否かを判断することは、ユーザ１１０が音声インタラクション機器１２０とインタラクションしているか、それとも周囲の他の人とインタラクションしているかを区別するためである。

全体的なインタラクション信頼度は、少なくとも音信号の音響特徴表現及び／又は認識情報のセマンティック特徴表現に基づいて決定することができる。音響特徴表現は、音声と非音声との区別を捉えるのに役立つとともに、インタラクションのための音声と非インタラクションのための音声とを区分することもできる。認識情報のセマンティック特徴表現は、セマンティックの面から判断することができ、これは、非音声の音信号から認識された情報が、通常、実際の意味がなく、人と音声インタラクション機器１２０とのインタラクションが、セマンティック上で区分することができるからである。いくつかの実施例では、機械学習モデルによって音信号及び認識情報の分析を実現することができ、これは以下で詳細に説明する。

ブロック２３０では、インタラクション制御装置１４０が、認識情報と音信号とのマッチング状況を決定する。マッチング状況は、認識情報が、音信号に実際に含まれる情報を正確に反映する度合いを示す。インタラクション信頼度は、音信号が音声機器１２０とインタラクションするための音声であるか否かを確率上で決定するものであるが、音声インタラクション機器１２０がどのように音信号に応答するかを決定する時に、通常、認識情報に基づいてユーザの意図を理解する必要がある。

認識情報は、異なる粒度で一つ又は複数のユニットのシーケンスとして表すことができ、各ユニットは、単語、音節、ピクセル、音素、サブ音素、又はこれらの組み合わせであってもよい。認識情報と音信号とのマッチング状況は、音信号と認識情報とが認識情報の単位レベルで一対一にマッチングするか否かを認識することができる。これは、音声インタラクション機器１２０をどのように制御して応答させるかを决定する。いくつかの実施例では、機械学習モデルによって認識情報と音信号とのマッチング状況の決定を実現することもでき、これは以下で詳細に説明する。

例えば、認識情報と音信号とが一対一にマッチングすると決定された場合、直ちに応答するように、すなわち、音信号に直接フィードバックするように音声インタラクション機器１２０を制御することができる。一対一にマッチングしないと決定された場合、ポリシーに従って、どのように応答するかを決定する必要がある。例えば、依然として認識情報からユーザの意図を正確に決定することができる場合、直ちに応答するように、すなわち音信号に直接フィードバックするように音声インタラクション機器１２０を制御することができる。認識情報からユーザの意図を正確に判断できない場合、マッチング状況に基づいて、ユーザ１１０に対するガイドフィードバックを決定して、音声インタラクション機器１２０に対する所望の命令を明確にするようにユーザ１１０をガイドすることができる。

ブロック２４０では、インタラクション制御装置１４０が、音信号に対する音声インタラクション機器１２０の応答を制御するように、インタラクション信頼度とマッチング状況とを提供する。音声インタラクション機器１２０に対する応答の制御は、インタラクション制御装置１４０によってローカルで実現されるか、又は他のインタラクション制御装置によって実現されてもよい。インタラクション信頼度及びマッチング状況は、それぞれインタラクション音声の判断及び認識情報の緻密な評価の両方から評価されるため、これは、音声インタラクション機器１２０のインタラクション制御を改善するのに役立ち、これにより、音声インタラクション機器１２０が正確なインタラクション音声信号に迅速に応答し、非インタラクション音声信号に応答せず、インタラクション音声信号であるがその中から情報を正確に認識することができない場合には、マッチング状況に基づいて、音声インタラクション機器１２０がどのように応答するかを決定することもできる。

具体的な一例として、ユーザ１１０が「私はジェイ・チョウ（周杰倫）の稲の香りが聴きたい」と言ったが、認識情報が「私はジェイ・チョウの塔の下が聴きたい」を示した場合、インタラクション信頼度は、音信号及び／又は認識情報によって、現在ユーザが音声インタラクション機器１２０とインタラクションしていると決定したが、認識情報の中では、「私はジェイ・チョウの…が聴きたい」というマッチング信頼度が高く、「塔の下」のマッチング信頼度が低い。このような場合には、認識情報と音信号とのマッチング状況に基づいて、その意図をさらに明確にするようにユーザ１１０をガイドすることができる。例えば、「先ほどはよく聴き取れなかったので、主人様はジェイ・チョウのどの曲がお聴きしたいですか」という音を出すように音声インタラクション機器１２０を制御することができる。

例示的な機器アーキテクチャ
上記のように、インタラクション制御装置１４０は、機械学習モデルを用いてインタラクション信頼度及び／又は認識情報と音信号とのマッチング状況を決定することができる。
本明細書では、「機械学習モデル」という用語は、「学習モデル」、「学習ネットワーク」、「ネットワークモデル」、又は「モデル」と呼ぶこともできる。「ニューラルネットワーク」又は「ニューラルネットワークモデル」は、深層機械学習モデルである。一般的には、機械学習モデルは、入力情報を受信し、入力情報に基づいて予測を実行する。

機械学習は、主に、トレーニング段階、テスト段階、及びアプリケーション段階という三つの段階に分けることができる。トレーニング段階では、予定の機械学習モデルがトレーニングサンプルから一貫した、人間の知恵が行うことができる推論と同様の推論を取得することができるまで、機械学習モデルを大量のトレーニングサンプルを用いて繰り返しトレーニングすることができる。機械学習モデルは、トレーニングによって、トレーニングデータから入力から出力までのマッピング又は関連関係を学習できると考えられる。トレーニング後に、機械学習モデルのパラメータセットが決定される。テスト段階では、テストサンプルを用いてトレーニング済の機械学習モデルをテストして、機械学習モデルの性能を決定することができる。アプリケーション段階では、機械学習モデルは、トレーニングによって取得されたパラメータセットに基づいて、実際の入力情報を処理して、対応する出力を出力することができる。異なるタスクに基づいて機械学習モデルを選択及び構成し、対応するトレーニングデータを用いて機械学習モデルをトレーニングして対応するタスクを実現することができる。

次に、図３を参照して機械学習モデルに基づく例示的な実施例を説明する。図３は、インタラクション制御装置１４０の例示的なアーキテクチャを示す。図３に示すように、インタラクション制御装置１４０は、音声認識エンジン３１０と音声信頼度エンジン３２０とを備える。

音声認識エンジン３１０は、音信号３０２を取得し、音信号３０２から対応する認識情報３１２を決定するように構成される。音声認識エンジン３１０は、様々な音声認識技術を利用して音信号３０２から認識情報３１２を取得することができる。本開示の実施例は、この点で限定されない。

音声信頼度エンジン３２０は、音信号３０２及び／又は認識情報３１２に基づいてインタラクション信頼度を決定するように構成され、及び／又は認識情報３１２と音信号３０２とのマッチング状況を決定するように構成される。図３の例示的な実施例では、音声信頼度エンジン３２０は、音響信頼度モデル３３０を用いて音信号３０２を処理して、インタラクション信頼度を決定するか、又は決定することを支援することができる。代替可能又は追加可能に、音声信頼度エンジン３２０は、セマンティック信頼度モデル３４０を用いて、認識情報３１２を処理して、インタラクション信頼度を決定するか、又は決定することを支援することもできる。

マッチング状況の決定に関して、音声信頼度エンジン３２０は、ローカル情報音信頼度モデル３５０を用いて、音信号３０２と認識情報３１２とを処理して、音信号３０２の各音セグメントから、認識情報と音信号とのマッチング状況を決定するか、又は決定することを支援することができる。代替可能又は追加可能に、音声信頼度エンジン３２０は、グローバル情報音信頼度モデル３６０を用いて、音信号３０２と認識情報３１２とを処理して、音信号３０２の全体から、認識情報と音信号とのマッチング状況を決定するか、又は決定することを支援することもできる。

上記の四つのモデルは、それぞれ異なる面から音信号３０２及び／又は認識情報３１２を処理することが分かる。いくつかの実施例では、音響信頼度モデル３３０及び／又はセマンティック信頼度モデル３４０は、音信号３０２に基づいて決定された音響信頼度及び／又は認識情報３１２に基づいて決定されたセマンティック信頼度を出力して、音信号３０２が音声インタラクション機器１２０とインタラクションするための音声であるインタラクション信頼度を個別に又は組み合わせて示すことができる。いくつかの実施例では、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０は、音セグメントから決定されたマッチング状況及び／又は音信号３０２の全体から決定されたマッチング状況を出力して、認識情報３１２に含まれる単語が音信号３０２に実際に含まれる情報を正確に反映する度合いを個別に又は組み合わせて示すことができる。いくつかの実施例では、音響信頼度モデル３３０、セマンティック信頼度モデル３４０、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０は、モデル処理の中間結果及び／又は最終出力３３２、３４２、３５２、及び３６２を融合モデル３７０に提供することができる。この四つのモデル３３０、３４０、３５０、及び３６０は、それぞれのタスクに応じて、異なる面から音信号３０２及び／又は認識情報３１２を解析するため、融合モデル３７０は、これらの情報をまとめることにより、インタラクション信頼度３７２及び／又はマッチング状況３７４をより正確に決定することができる。

以下では、音声信頼度エンジン３２０に含まれるこれらのモデルをより詳細に説明する。

音響信頼度モデルの例示的な実施例
音響信頼度モデル３３０は、音信号がヒューマン・マシンインタラクションのための音声である確率（音響信頼度と呼ばれる）を決定するように構成され、すなわち、音信号が実際の音声である確率、又は人と音声インタラクション機器とがインタラクションする時の音声である確率を決定する。音響信頼度モデル３３０の入力は音信号である。音響信頼度モデル３３０は、音信号の音響特徴表現を抽出し、音響特徴表現に基づいて、音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定するように構成することができる。

音響信頼度モデル３３０は、音信号を処理するのに適した任意の機械学習モデルを用いて実現することができ、特に、時間シーケンス上の情報を処理するのに適した機械学習モデルを用いて実現することができる。いくつかの実施例では、音響信頼度モデル３３０は、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（単純なＲＮＮ、ＬＳＴＭネットワーク、ＧＲＵネットワークなど）、変換器ネットワークなど一つ又は複数のタイプのモデル構造に基づいて実現することができる。

図４は、音響信頼度モデル３３０の一つの例示的なモデル構造を示す。当該例では、音響信頼度モデル３３０は、複数のネットワーク層を含み可能なディープニューラルネットワークモデルとして構成される。図４に示すように、音響信頼度モデル３３０は、畳み込み層４１０、バッチ正規化（ＢＮ）層４２０、Ｎ個の変換層４３０（Ｎは１以上の整数である）、完全接続（ＦＣ）層４４０、及び出力層４５０を含む。各変換層４３０は、一つ又は複数のＬＳＴＭサブネットワーク４３２とバッチ正規化層４３４とを含むことができる。音響信頼度モデル３３０では、完全接続層４４０及び出力層４５０より前のネットワーク層は、入力された音信号の音響特徴表現を探索するためのネットワーク層として見なされてもよい。ＬＳＴＭサブネットワーク４３２は、一定の時間ウィンドウごとに音信号上で平行移動し、時間ウィンドウごとに入力情報を処理することができる。出力層４５０は、変換関数を用いて、一つ前の層によって提供される音響特徴表現に基づいてモデル出力、すなわち音響信頼度を生成する。いくつかの例では、音響信頼度は、０～１の範囲における連続値であってもよい。したがって、出力層４５０で利用される関数は、例えば、出力値を０～１の範囲内にマッピングするｓｉｇｍｏｉｄ関数であってもよい。

図４は、音響信頼度モデル３３０の一例のみを示すことを理解されたい。音響信頼度モデル３３０は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設計されてもよく、又はその中の一つ又は複数のネットワーク層は、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。

音響信頼度モデル３３０のトレーニングは、教師あり機械学習方法に基づくことができる。音響信頼度モデル３３０の実現すべきタスクを考慮して、トレーニング段階では、音響信頼度モデル３３０をトレーニングするためのトレーニングデータは、音信号と音信号に対応する音響信頼度タグとを含み、当該タグは、対応する音信号がヒューマン・マシンインタラクションのための音声であるか否かを示す。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。音響信頼度モデル３３０のタスクでは、正の例のサンプル（本明細書では、区別を容易にするために第１の正の例のサンプルと言う場合もある）は、ヒューマン・マシンインタラクションのための音信号を含み、負の例のサンプル（本明細書では、区別を容易にするために第１の負の例のサンプルと言う場合もある）は、非ヒューマン・マシンインタラクションの音信号（ノイズ、人と人がコミュニケーションする音声、動物声など）を含む。正の例のサンプルに対応する音響信頼度タグは、対応する音信号がヒューマン・マシンインタラクションのための音声であることを示し、負の例のサンプルに対応する音響信頼度タグは、対応する音信号がヒューマン・マシンインタラクションのための音声ではないことを示す。

トレーニングサンプルを収集する時、音声インタラクション機器（例えば、セマンティックインタラクション機器１２０及び／又は他の音声インタラクション機器であってもよい）がウェイクアップワードを検出した前及び検出した後に収集された音信号をそれぞれ負の例のサンプル及び正の例のサンプルとして使用することができる。いくつかの実施例では、一回のウェイクアップで一回のインタラクションを行うシーンにおける音声インタラクション機器がウェイクアップワードを検出した前及び検出した後に収集された音信号を負の例のサンプル及び正の例のサンプルとして使用することができる。もちろん、任意の他の方式でのサンプル収集も可能である。

トレーニング中に、サンプルの音信号における各フレームを、正の例又は負の例（すなわち、正の例のサンプルに対応する音響信頼度タグと負の例のサンプルに対応する音響信頼度タグとを有する）としてラベル付けすることができる。したがって、モデルのトレーニング時に、入力されたサンプルの音信号の各フレームについて、いずれも対応する音響信頼度タグと比較し、比較された誤差に基づいてモデルのパラメータを最適化することができる。例えば、トレーニング時に、入力されたサンプル音信号の各フレームの、Ｎ個の変換層４３０によって処理された後の音響特徴表現は、いずれも後続の完全接続層４４０に提供される。

音響信頼度モデル３３０をトレーニングするための正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号を含み、負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号であるため、音響信頼度モデル３３０は、ヒューマン・マシンインタラクションのための音信号と非ヒューマン・マシンインタラクションの音信号を正確に区分できるようにトレーニングされる。トレーニング後に、音響信頼度モデル３３０は、音声インタラクション機器１０２の音信号３０２の処理に適用することができる。アプリケーション段階では、Ｎ個の変換層４３０の後に、音信号３０２の最後のフレームに対して抽出された音響特徴表現が後続の完全接続層４４０に提供される。

上記のように、音信号３０２を処理する時、音響信頼度モデル３３０によって出力される音響信頼度は、インタラクション信頼度の決定に直接に使用されるか、又はセマンティック信頼度モデル３４０によって出力されるセマンティック信頼度と共にインタラクション信頼度の決定に使用されてもよい。代替可能的に、音響信頼度モデル３３０によって出力される音響信頼度及び／又は音信号３０２から抽出された音響特徴表現は、いずれも出力３３２として音声信頼度エンジン３２０内の融合モデル３７０に提供することができ、融合モデル３７０によって、他のモデルからのモデル出力及び／又は特徴表現と組み合わせて、最後のインタラクション信頼度３７２の決定に使用される。音響特徴表現を提供する時、音響信頼度モデル３３０のＮ個の変換層４３０が処理した後の音響特徴表現を融合モデル３７０に提供することができる。融合モデル３７０に最後の音響信頼度を提供してインタラクション信頼度３７２を決定する必要がない実施例において、トレーニング後のアプリケーション段階では、音響信頼度モデル３３０の完全接続層４４０と出力層４５０は、音信号３０２の音響特徴表現を処理しなくてもよい。

セマンティック信頼度モデルの例示的な実施例
セマンティック信頼度モデル３４０は、セマンティックから、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報である確率（セマンティック信頼度と言う）を決定するように構成され、すなわち、認識情報が人と音声インタラクション機器とがインタラクションする時の実際の音声から認識された情報である確率、又は非ヒューマン・マシンインタラクションの音から認識された情報である確率を決定する。セマンティック信頼度モデル３４０の入力は、認識情報である。セマンティック信頼度モデル３４０は、認識情報に関連付けられたセマンティック特徴表現を取得し、セマンティック特徴表現に基づいて、認識情報がヒューマン・マシンインタラクションのための音声であるセマンティック信頼度を決定するように構成することができる。

セマンティック信頼度モデル３４０は、セマンティックを処理するのに適する任意の機械学習モデルを用いて実現することができる。認識情報が自然言語で表されるテキストシーケンスなどのテキスト情報として表される場合、セマンティック信頼度モデル３４０は、自然言語処理（ＮＬＰ）に適した機械学習モデルを用いて実現することができる。いくつかの実施例では、セマンティック信頼度モデル３４０は、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（単純なＲＮＮ、ＬＳＴＭネットワーク、ＧＲＵネットワークなど）、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。いくつかの実施例では、セマンティック信頼度モデル３４０は、インタラクションコンテキスト、復号単語マップ情報、ユーザ行動フィードバック、認識結果セマンティック情報などの様々なセマンティック特徴表現を用いて、全体から、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるか否かを直接に判断することができる。

図５は、セマンティック信頼度モデル３４０の一つの例示的なモデル構造を示す。当該例では、セマンティック信頼度モデル３４０は、ディープニューラルネットワークモデルとして構成され、双方向ＬＳＴＭ（ＢｉＬＳＴＭ）に基づくモデル構造である。いくつかの実施例では、まず、認識情報の特徴変換を埋め込み（ｅｍｂｅｄｄｉｎｇ）表現と呼ぶことができる。このような変換機能は、セマンティック信頼度モデル３４０に統合されるか、又は外部モデルによって実行された後にセマンティックに提供することができる。いくつかの実施例では、テキストで表される場合、認識情報を単語分割（例えば、中国語、日本語、韓国語などの言語のテキスト）した後の単語分割された埋め込み表現をモデル入力とすることができる。もちろん、いくつかの実施例では、認識情報の単語分割を行わなくてもよい。

図５に示すように、認識情報にそれぞれ対応する埋め込み表現５１０－１、５１０－２、……５１０－Ｎ（埋め込み表現５１０と総称し、Ｎは１以上の正整数である）は、それぞれ一つ又は複数のＬＳＴＭによって処理される。図５の例では、２層のＬＳＴＭを示し、例えば、ＬＳＴＭ５２０－１、５２０－２、……５２０－Ｎ（ＬＳＴＭ５２０と総称する）によって構成される一つの層、及びＬＳＴＭ５３０－１、５３０－２、……５３０－Ｎ（ＬＳＴＭ５３０と総称する）によって構成される一つの層である。より多くのＬＳＴＭ層、又は一つの層のみでも可能であることを理解されたい。最後の層の各ＬＳＴＭの出力は、それぞれＳｏｆｔｍａｘ層５４０－１、５４０－２、……５４０－Ｎ（Ｓｏｆｔｍａｘ層５４０と総称する）に提供される。Ｓｏｆｔｍａｘ層５４０は、Ｓｏｆｔｍａｘ関数に基づいて当該層の入力を処理することができる。セマンティック信頼度モデル３４０の最後の出力層５５０は、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を出力することができる。

図５は、セマンティック信頼度モデル３４０の一例のみを示すことを理解されたい。セマンティック信頼度モデル３４０は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設定されてもよく、又はその中の一つ又は複数のネットワーク層が、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。

図５には、双方向に基づくセマンティック信頼度モデル３４０（例えば、Ｂｉ－ＬＳＴＭを利用した）が示されているが、セマンティック特徴表現に基づく機械学習モデルは、通常、小型であるので、当該モデルは、実際には一方向モデルであってもよいし、双方向モデルであってもよい。

上記の説明において、セマンティック信頼度モデル３４０のセマンティック信頼度決定に考慮できるセマンティック特徴表現が言及された。いくつかの実施例では、セマンティック信頼度モデル３４０のセマンティック特徴表現は、インタラクションコンテキストを含むことができる。ここでのインタラクションコンテキストは、人と音声インタラクション機器とのインタラクション中に、人が提供する情報（例えば、音声によって入力されたテキスト）と音声インタラクション機器の応答に対応する情報（例えば、音声によって出力されたテキスト）とを指すことができ、当該回のウェイクアップから現在インタラクションされている認識情報までのすべてのインタラクション情報を含む。セマンティック特徴表現は、復号単語マップ情報を考慮することもできる。現在入力されている認識情報は、単語マップから復号されたものであってもよく、セマンティック信頼度モデル３４０は、単語マップ内の音響点数、言語点数、及び総点数を使用することができ、同時に認識情報内の各単語の候補単語リストなどを含むことができる。

代替可能又は追加可能に、セマンティック信頼度モデル３４０は、認識情報のセマンティック特徴も考慮することができ、当該セマンティック特徴は、主に、ドメイン解析、意図判断、及び完全性判断などの複数の次元情報をカバーする。代替可能又は追加可能に、セマンティック信頼度モデル３４０は、年齢、性別、高頻度のオンデマンドリソース名リスト、関心のある分野リストなどを含む、ユーザ登録及び多くの履歴インタラクションで蓄積されたユーザ固有の情報を特徴付けるユーザ個人化情報も考慮することができる。代替可能又は追加可能に、セマンティック信頼度モデル３４０は、ユーザと音声インタラクション機器とのインタラクション中の行動フィードバック情報を考慮することもでき、当該情報は、リソースの切り替え、命令情報、リスニング時間などユーザの行動を含むことができる。

セマンティック信頼度モデル３４０のトレーニングは、教師あり機械学習方法に基づくことができる。セマンティック信頼度モデル３４０が実現すべきタスクを考慮して、トレーニング段階では、セマンティック信頼度モデル３４０をトレーニングするためのトレーニングデータは、認識情報と認識情報に対応するセマンティック信頼度タグとを含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。セマンティック信頼度モデル３４０のタスクにおいて、正の例のサンプル（本明細書では区別を容易にするために第２の正の例のサンプルと言う場合もある）は、ヒューマン・マシンインタラクションのための音信号からラベル付けられた正しい情報（例えば、ラベル付けられた正確テキストであってもよい）を含み、負の例のサンプル（本明細書では区別を容易にするために第２の負の例のサンプルと言う場合もある）は、非ヒューマン・マシンインタラクションの情報を含む。正の例のサンプルに対応するセマンティック信頼度タグは、対応する情報がヒューマン・マシンインタラクションのための音声から認識された情報であることを示し、負の例のサンプルに対応するセマンティック信頼度タグは、対応する情報がヒューマン・マシンインタラクションのための音声から認識された情報ではないことを示す。セマンティック信頼度モデル３４０をトレーニングするための正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号に関連し、負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号に関連するので、セマンティック信頼度モデル３４０は、ヒューマン・マシンインタラクションのための音信号及び非ヒューマン・マシンインタラクションの音信号に対応する情報を正確に区分できるようにトレーニングされる。

トレーニングサンプルを収集する時、音響信頼度モデル３３０をトレーニングするための正の例のサンプル及び負の例のサンプルから対応する情報をラベル付け、それぞれセマンティック信頼度モデル３４０の正の例のサンプル及び負の例のサンプルとして使用することができる。負の例のサンプルは、他の情報キャリア（例えば、ウェブページ、記事など）からヒューマン・マシンインタラクションに使用されない情報も取得することができる。もちろん、任意の他の方式でのサンプル収集も可能である。

上記のように、認識情報３１２を処理する時、音響信頼度モデル３３０によって出力される音響信頼度は、インタラクション信頼度の決定に直接に使用されるか、又はセマンティック信頼度モデル３４０によって出力されるセマンティック信頼度と共にインタラクション信頼度の決定に使用することができる。代替可能に、セマンティック信頼度モデル３４０によって出力されるセマンティック信頼度及び／又は認識情報３１２に関連付けられたセマンティック特徴表現は、いずれも出力３４２として音声信頼度エンジン３２０内の融合モデル３７０に提供することができ、融合モデル３７０によって、他のモデルからのモデル出力及び／又は特徴表現を組み合わせて最後のインタラクション信頼度３７２の決定に使用される。セマンティック特徴表現を提供する時、セマンティック信頼度モデル３４０が過剰な処理を実行する必要がなく、特徴ステップによって取得された特徴表現を直接に使用することができる。

ローカル情報音信頼度モデルの例示的な実施例
上記のように、認識情報は、一つ又は複数のユニットを含むユニットシーケンスとして表すことができる。各ユニットは、単語、音節、ピクセル（例えば、中国語では単一の文字を指し、英語では単語を構成するアルファベットなど、これに基づいて類推する）、音素、サブ音素、マルチ音素の組み合わせセグメント、又はマルチピクセルの組み合わせセグメントのいずれかを含むことができる。いくつかの実施例では、認識情報によって変換されるユニットシーケンス内の一つ又は複数のユニットは、コンテキスト関連ユニットをさらに含むことができ、当該コンテキスト関連ユニットは、認識情報によって直接に変換されるユニット（例えば、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント）のコンテキストに関連する。これは、各ユニットのコンテキストを区分するのに役立つ。例えば、認識テキスト「私の祖国」について、音素シーケンスに変換した後に「ｗｏｄｅｚｕｇｕｏ」として表すことができる。次に、コンテキストに関連する組み合わせを音素シーケンスに追加することにより、音素シーケンスは、「＾＿ｗ＋ｏ，ｗ＿ｏ＋ｄ，ｏ＿ｄ＋ｅ……」などに変換することができる。ここでは、コンテキストの組み合わせは、異なるコンテキスト内の同じ音素を区別するために使用される。

ローカル情報音信頼度モデル３５０は、音信号の音響セグメントに基づいて、認識情報を構成する各ユニットが正確に認識された確率（マッチング信頼度とも言う）を判断するように構成される。

具体的には、認識情報をユニットシーケンス表現に変換した後、音信号を、ユニットシーケンス内のユニットにそれぞれ対応する一つ又は複数の音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成することができる。音信号を分割する時、まず音信号内の無音部分を削除し、その後、他の部分を統合した後に分割することができ、分割された音響セグメントの数は、ユニットシーケンス内のユニットの数と同じである。

各ユニット音響セグメントペアは、ローカル情報音信頼度モデル３５０の入力として使用される。ローカル情報音信頼度モデル３５０は、各ユニット音響セグメントペアのユニット音響セグメント特徴表現を抽出し、抽出したユニット音響セグメント特徴表現に基づいて、対応するユニットと音響セグメントとのマッチング信頼度を決定するように構成することができる。マッチング信頼度の値は、０又は１などの離散値であってもよく、０は、ユニットが音響セグメントとマッチングしないことを示し、１は、ユニットが音響セグメントとマッチングすることを示す。別のいくつかの例では、マッチング信頼度の値は、マッチングする又はマッチングしない確率を示す、０と１の間などの連続値であってもよい。

いくつかの実施例では、音響セグメントとユニットとの整列は、整列モデルを用いて実現することができ、整列モデルは、隠れマルコフモデル（ＨＭＭ）に基づく３状態整列モデルであってもよく、整列に使用される音響モデルは、畳み込みニューラルネットワークと完全接続ニューラルネットワークとによって構成される。ローカル情報音信頼度モデル３５０は、音信号と情報セマンティックとを処理するのに適した任意の機械学習モデルを用いて実現することができる。いくつかの実施例では、ローカル情報音信頼度モデル３５０は、多層ＣＮＮモデル構造に基づいて実現することができ、典型的なモデル構造の例としては、例えば、コンピュータビジュアルジオメトリグループ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ，ＶＧＧ）、Ｉｎｃｅｐｔｉｏｎネットワーク、残差ネットワークなどを含むことができる。

図６は、ローカル情報音信頼度モデル３５０の例示的な構造を示す。図６の例では、ローカル情報音信頼度モデル３５０は、共有隠れ層ＶＧＧに基づくＭｉｘＬＲ（ＭｉｘｔｕｒｅｏｆＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ，混合ロジスティック回帰）モデルである。図に示すように、ローカル情報音信頼度モデル３５０は、一つ又は複数のカスケードのＣＮＮ構造６０２を含み、各ＣＮＮ構造６０２は、一つ又は複数のＣＮＮネットワーク層６１０とプーリング層６２０とを含む。複数のＣＮＮ構造６０２を有する場合、異なるＣＮＮ構造６０２は直列に接続され、その中のプーリング層６２０は、一つ前のＣＮＮ構造６０２から当該ＣＮＮ構造６０２に伝達する中間特徴表現のサイズを絶えずに小さくすることができる。すべてのＣＮＮ構造６０２の処理を経て、ローカル情報音信頼度モデル３５０は、完全接続層６３０、Ｓｉｇｍｏｉｄ層６４０、及びＭｉｘＬＲモデル６５０を含む。ＭｉｘＬＲモデル６５０は、ローカル情報音信頼度モデル３５０の出力を与える。

図６はローカル情報音信頼度モデル３５０の一例のみを示すことを理解されたい。ローカル情報音信頼度モデル３５０は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設計することもでき、又はその中の一つ又は複数のネットワーク層は、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。

ローカル情報音信頼度モデル３５０のトレーニングは、教師あり機械学習方法に基づくことができる。ローカル情報音信頼度モデル３５０が実現すべきタスクを考慮して、トレーニング段階では、ローカル情報音信頼度モデル３５０をトレーニングするためのトレーニングデータは、音信号内の音響セグメント、ユニット、音響セグメントとユニットとの対応するタグ（ユニットと音響セグメントとのマッチング度合いを示す）を含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。正の例のサンプル（本明細書では、区別を容易にするために第３の正の例のサンプルと言う場合もある）は、ヒューマン・マシンインタラクションのための音信号内の音響セグメント（区別を容易にするために第１の音響セグメントと言う場合もある）、第１の音響セグメントからラベル付けられたユニット（区別を容易にするために第１のユニットと言う場合もある）、第１の音響セグメントと第１のユニットとの対応するタグ（ユニットと音響セグメントとのマッチング度合いを示す）を含む。負の例のサンプル（本明細書では区別を容易にするために第３の負の例のサンプルと言う場合もある）は、ある音響セグメント（区別を容易にするために第２の音響セグメントと言う場合もある）、及び第２の音響セグメントに出現するユニットとは異なるユニット（区別を容易にするために第２のユニットと言う場合もある）を含む。いくつかの実施例では、第３の負の例のサンプルは、ヒューマン・マシンインタラクションの音信号及び／又は非ヒューマン・マシンインタラクションの音信号内の音響セグメントと、音響セグメントにマッチングしないユニットと、をさらに含むことができる。

ローカル情報音信頼度モデル３５０の正の例のサンプルと負の例のサンプルを決定する時に、混同行列に基づく正と負の例の定義方法を使用することもできる。ローカル情報音信頼度モデル３５０の二つのタイプの確認問題において、正と負の例の定義が非常に重要である。いくつかの実施例では、正と負の例を定義するプロセスは、損失関数に基づく最適化方法を組み合わせる必要がある場合もある。いくつかの実施例では、正と負の例の参照としてビタビアライメントによって形成された混同行列を使用し、混同行列内の非常に類似した最初の数個（例えば、最初のＫ個、Ｋは１以上である）を、当該音響セグメントの負の例とし、残りをすべて当該音響セグメントの負の例とすることができる。このプロセスでは、焦点損失（ｆｏｃａｌｌｏｓｓ）に基づく損失関数が使用される。

トレーニングサンプルを収集する時、セマンティック信頼度モデル３４０をトレーニングするための正の例のサンプルと負の例のサンプルから、対応する認識情報内のユニット及びユニットに対応する音響セグメントを認識し、それぞれローカル情報音信頼度モデル３５０の正の例のサンプルと負の例のサンプルとして使用することができる。音響セグメントに対応するユニットを他のユニットにランダムに修正して、別の負の例のサンプルとすることができる。もちろん、任意の他の方式でのサンプル収集も可能である。

上記のように、認識情報３１２と音信号３０２とを処理する時、ローカル情報音信頼度モデル３５０によって出力される各ユニットに対応するマッチング信頼度は、情報と音とのマッチング状況として使用されるか、又はグローバル情報音信頼度モデル３６０の出力と共にマッチング状況を決定するのに使用することができる。代替可能に、ローカル情報音信頼度モデル３５０によって出力される認識情報のユニットレベルのマッチング信頼度及び／又は各ユニット音響セグメント特徴表現は、いずれも音声信頼度エンジン３２０内の融合モデル３７０に提供することができ、融合モデル３７０は、他のモデルからのモデル出力及び／特徴表現を組み合わせて最後のマッチング状況３７４を決定するのに使用される。

グローバル情報音信頼度モデルの例示的な実施例
ローカル情報音信頼度モデル３５０と比較して、グローバル情報音信頼度モデル３６０は、音信号の全体から、認識情報における各ユニットが正確に認識された状況、認識情報の全体が正確に認識されていない時の具体的なエラーのタイプ及びエラーが発生可能な位置を判断するように構成される。

グローバル情報音信頼度モデル３６０は、一つのタグシーケンスを出力するように構成することができ、当該タグシーケンスは、ユニットシーケンス内の各ユニットに対応する複数のマッチングタグ、開始タグ、及び終了タグを含む。各マッチングタグは、複数のユニット内の一つのユニットが音信号内の対応する音響セグメントにマッチングするか否かを示し、開始タグは、複数のユニット内の開始ユニットが音信号の開始位置に出現したか否かを示し、終了タグは、複数のユニット内の最後のユニットが音信号の終了位置に出現したか否かを示す。認識情報に対応するユニットシーケンスが複数のユニットを含む場合、シーケンスタグは、複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する隣接指示タグをさらに含むことができる。各隣接指示タグは、隣接する二つのユニットが音信号内の隣接する位置に出現したか否かを示す。

いくつかの実施例では、グローバル情報音信頼度モデル３６０は、ニューラルネットワーク構造における典型的なエンコーダ・デコーダアーキテクチャを使用することができ、エンコーダアーキテクチャは、音響信頼度モデル３３０と共有することができる。もちろん、グローバル情報音信頼度モデル３６０は、完全に独立したエンコーダデ・コーダアーキテクチャも使用することができる。エンコーダ・デコーダアーキテクチャでは、注意力アーキテクチャなどを使用することができる。いくつかの実施例では、エンコーダアーキテクチャは、ＣＮＮ、リカレントニューラルネットワーク（単純なＲＮＮ、ＬＳＴＭ、ＧＲＵなど）、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。アテンションアーキテクチャは、和式アテンションメカニズム、セルフアテンションメカニズム、ドッド乗算アテンションメカニズム、ローカルセンシティブアテンションメカニズムなどを含むことができる。デコーダアーキテクチャは、エンコーダに類似し、ＣＮＮ、リカレントニューラルネットワーク（単純なＲＮＮ、ＬＳＴＭ、ＧＲＵなど）、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。

図７は、グローバル情報音信頼度モデル３６０の一つの例示的なモデル構造を示す。当該例では、グローバル情報音信頼度モデル３６０のエンコーダアーキテクチャは、音響信頼度モデル３３０と共有する。すなわち、音響信頼度モデル３３０によって音信号を処理して、音響特徴表現を提供する（例えば、音響信頼度モデル３３０の最後の変換層４３０から提供する）。グローバル情報音信頼度モデル３６０の埋め込み層７１０は、認識情報のセマンティック特徴表現を抽出する。グローバル情報音信頼度モデル３６０は、セルフアテンション部分７２２、ドット乗算アテンション部分７２４、及びフィードフォワード層７２６を含むアテンションアーキテクチャ７２０をさらに含む。グローバル情報音信頼度モデル３６０は、最終的なタグシーケンスを提供するための完全接続層７３０と出力層７４０とをさらに含む。グローバル情報音信頼度モデル３６０は、認識情報における各ユニットの順序に従ってタグシーケンスを予測するように構成される。ユニットごとの処理のプロセスでは、グローバル情報音信頼度モデル３６０は、音響特徴表現とセマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出し、最後にタグシーケンスを生成することができる。

このようなタグシーケンスをよりよく理解するために、タグシーケンスが、単一のユニットの認識精度の判断だけでなく、認識情報がユニットごとにマッチングしていない場合にどのようなエラーが出現したかを決定するのにどのように役立つかについて、図８のいくつかの例を参照して詳細に説明する。通常、よく見られる認識エラーは、削除エラー、挿入エラー、及び置き換えエラーに分類することができ、削除エラーは、一つ又は複数のユニットが無くされたことであり、挿入エラーは、認識情報に一つ又は複数の余分のユニットが挿入されたことであり、置き換えエラーは、認識情報内の一つ又は複数のユニットが他のユニットに置き換えられたことである。特定の認識情報には、上記の一つ又は複数のタイプのエラーが発生する可能性がある。

図８の例（ａ）では、音信号内の正しい情報が「ＡＢＣＤ」であり、認識情報が「ＡＣＤ」として認識されたと仮定する。グローバル情報音信頼度モデル３６０は、認識情報に基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。グローバル情報音信頼度モデル３６０は、各タグビット及び各ユニットに対応するマッチングタグの値を決定するように構成される。例えば、順序に従って、グローバル情報音信頼度モデル３６０は、音信号の全体から、認識情報内のユニット「Ａ」が音信号の開始位置に出現し、且つユニット「Ａ」が音信号内の音セグメントにもマッチングしていることを決定したため、タグシーケンス内の開始タグは「１」として表記されて、開始位置であることを示し、ユニット「Ａ」に対応するマッチングタグも「１」と表記されて、ユニットがマッチングしていることを示す。

さらに、グローバル情報音信頼度モデル３６０は、認識情報内の隣接する二つのユニット「Ａ」と「Ｃ」が音信号内で隣接していないことを発見し、これは、音信号でこの二つのユニット間に他のユニット、すなわちユニット「Ｂ」があることが示されているからである。したがって、隣接する二つのユニット「Ａ」と「Ｃ」の間の隣接タグは、「０」として表記されて、この隣接する二つのユニットが音信号内の隣接する位置に出現していないことを示す。グローバル情報音信頼度モデル３６０は、ユニット「Ｃ」と「Ｄ」のマッチングと隣接状況を判断し続け、終了ユニット「Ｄ」の後の終了タグも判断する。グローバル情報音信頼度モデル３６０は、認識情報「ＡＣＤ」に対してタグシーケンス１１０１１１１を生成することができる。当該タグシーケンスによって、ユニット「Ａ」と「Ｃ」の間に一つ又は複数のユニットが無くされたことを決定することができ、認識情報に「削除エラー」が発生したと判断することができる。

図８の例（ｂ）では、音信号内の正しい情報が「ＡＢＣＤ」であるが、認識情報が「ＡＥＢＣＤ」として認識されたと仮定する。グローバル情報音信頼度モデル３６０は、認識情報基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。各タグビットの値を順序に従って決定することによって、グローバル情報音信頼度モデル３６０は、認識情報「ＡＥＢＣＤ」に対してタグシーケンス１１０００１１１１１１を生成することができる。当該タグシーケンスによって、認識情報「ＡＥＢＣＤ」内のユニット「Ａ」とユニット「Ｂ」の間のユニット「Ｅ」が誤って挿入されたものであると決定することができ、認識情報に「挿入エラー」が発生したと判断することができる。

図８の例（ｃ）では、音信号内の正しい情報が「ＡＢＣＤ」であるが、認識情報が「ＡＥＣＤ」として認識されたと仮定する。グローバル情報音信頼度モデル３６０は、認識情報に基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。各タグビットの値を順序に従って決定することによって、グローバル情報音信頼度モデル３６０は、認識情報「ＡＥＣＤ」に対してタグシーケンス１１１０１１１１１を生成することができる。当該タグシーケンスによって、ユニット「Ａ」と「Ｃ」の間のユニット「Ｅ」が誤って認識されたものであると決定することができ、そこに別のユニットがあるはずであるので、認識情報に「置き換えエラー」が発生したと判断することができる。

グローバル情報音信頼度モデル３６０のトレーニングは、教師あり機械学習方法に基づくことができる。グローバル情報音信頼度モデル３６０の実現すべきタスクを考慮して、トレーニング段階では、グローバル情報音信頼度モデル３６０をトレーニングするためのトレーニングデータは、音信号、認識情報、及び当該音信号と認識情報に対して生成されたタグシーケンスを含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。

グローバル情報音信頼度モデル３６０のタスクでは、正の例のサンプル（本明細書では区別を容易にするために第４の正の例のサンプルと言う場合もある）は、ヒューマン・マシンインタラクションのための第１の音信号と、第１の音信号からラベル付けられた第１の情報と、第１の情報及び第１の音信号に対して生成された正しいタグシーケンスとを含む。負の例のサンプル（本明細書では区別を容易にするために第４の負の例のサンプルと言う場合もある）は、第４の正の例のサンプル以外のトレーニングサンプル（すなわち、他の音信号、情報、及びタグシーケンスの組み合わせ）であってもよい。負の例のサンプルは、第２の音信号、第２の情報、及び第２の情報又は第２の音信号に対して生成されたエラータグシーケンスを含むことができる。具体的には、第２の音信号は、ヒューマン・マシンインタラクションのための音声及び／又はヒューマン・マシンインタラクションに使用されない音であってもよい。第２の情報は、第２の音信号に対して認識されたエラー情報であってもよく、これにより、エラータグシーケンスが生成される。又は第２の情報は、第２の音信号に対して認識された正しい情報であってもよいが、生成されたタグシーケンスはエラータグシーケンスである。

トレーニングサンプルを収集する時、音響信頼度モデル３３０をトレーニングするための正の例のサンプルと負の例のサンプル、及びその中から認識された情報を用いて、グローバル情報音信頼度モデル３６０の正の例のサンプルと負の例のサンプルを構成することができる。もちろん、任意の他の方式でのサンプル収集も可能である。

上記のように、認識情報３１２と音信号３０２を処理する時、グローバル情報音信頼度モデル３６０によって出力されるタグシーケンスは、マッチング状況又はローカル情報音信頼度モデル３５０の出力と共にマッチング状況の決定に使用することができる。代替可能に、グローバル情報音信頼度モデル３６０によって出力されるタグシーケンス及び／又は複数のユニット内の終了ユニットに対して抽出されたグローバル音響セマンティック特徴表現は、いずれも音声信頼度エンジン３２０内の融合モデル３７０に提供することができ、融合モデル３７０によって、他のモデルからのモデル出力及び／特徴表現と組み合わせられて、最後のマッチング状況３７４の決定に使用することができる。

融合モデルの例示的な実施例
融合モデル３７０は、音響信頼度モデル３３０、セマンティック信頼度モデル３４０、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０によって提供されるモデルの最終出力又は特徴表現から最終のインタラクション信頼度３７２及びマッチング状況３７４を決定するように構成される。四つのモデル３３０、３４０、３５０、及び３６０は、それぞれ独自の焦点があるので、融合モデル３７０は、各モデルの情報を融合することにより、より正確な判断をし、性能をさらに向上させることができる。

融合モデル３７０は、融合モデル３７０の入力に基づいて最終出力を決定するために、畳み込み層、ＲＮＮ層、完全接続層、出力層などの対応する一つ又は複数のネットワーク層を含むディープニューラルネットワークとして構成することができる。

いくつかの実施例では、まず、音響信頼度モデル３３０、セマンティック信頼度モデル３４０、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０を個別にトレーニングし、その後、融合モデル３７０をトレーニングに追加することができる。いくつかの実施例では、音響信頼度モデル３３０、セマンティック信頼度モデル３４０、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０、及び融合モデル３７０をエンドツーエンドでトレーニングすることができる。本開示の実施例は、この点で限定されない。

いくつかの実施例では、インタラクション信頼度について、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０によって与えられた認識情報３１２のユニット粒度のマッチング状況を考慮することによって、全体から、音信号３０２が音声インタラクション機器１２０とインタラクションするための音声である信頼の度合いを決定することに加えて、音信号３０２の一部が音声インタラクション機器１２０とインタラクションするための音声である信頼度も決定することができる。

具体的には、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０は、認識情報３１２の各ユニットが音信号３０２内の各音セグメントに正しくマッチングしているか否か、及び各ユニット間に全体的に現れたエラーを出力することができるほか、ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０は、さらに、音信号内の各音響セグメントがヒューマン・マシンインタラクションのためのものである信頼度を決定するように構成することができる。ここでの音響セグメントは、認識情報を表す各ユニットと整列されてもよい。ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０のトレーニングの正の例のサンプルは、ヒューマン・マシンインタラクションの音信号及び情報に関連しているので、このような信頼度を決定することができる。ローカル情報音信頼度モデル３５０及び／又はグローバル情報音信頼度モデル３６０の出力は、融合モデル３７０がインタラクション信頼度３７２をより緻密的に決定するために使用されて、音信号３０２の全体又は一部が、音声インタラクション機器１２０とインタラクションするための音声である信頼度を示すことができる。

音信号３０２は、その一部が音声インタラクション機器１２０とインタラクションするための音声である信頼度が決定されることによって、音声インタラクション機器１２０の応答を制御するインテリジェンス及び精度のさらなる向上に役立つ。例えば、音声インタラクション機器１２０が、ユーザ１１０によって発された音声命令「私は……聴きたい」及びユーザ１１０が位置する環境で他の人とコミュニケーションした音声「……すぐ服を取り込んで」を収集した場合、音信号３０２及び対応する認識情報には、「私は聴きたいすぐ服を取り込んで」がすべて含まれる可能性がある。音信号の音響セグメントが音声インタラクションに使用される信頼度をユニットレベルで判断することによって、音信号３０２内の前半の部分「私は聴きたい」は、ヒューマン・マシンインタラクションのためのものであり、後半の部分「すぐ服を取り込んで」は、ヒューマン・マシンインタラクションのものではなく、応答する必要がないと決定することができる。このようなインタラクション信頼度は、音声インタラクション機器１２０を制御して後半部分の音声を無視させ、前半部分の音のみに応答させるようにすることができ、例えば、「何お聴きしたいですか」という音声を出して再度にユーザに質問する。

音声開始終了点検出の例示的な実施例
通常、従来の音声終了点検出技術は、ユーザの沈黙に基づいて音声命令の終了を決定するが、これは、ユーザが質問をためらっている時（この時、音声命令がまだ完了していない）に音の収集を終了させる可能性があり、これにより、後続の音声信頼度の頻繁な判断をもたらし、非音声インタラクションの音を頻繁に判断するようになる。これにより、良くないユーザ体験をもたらすだけでなく、インタラクション制御装置１４０のリソースの無駄ももたらす。

本開示のいくつかの実施例では、インタラクション制御装置１４０は、音声インタラクション機器１２０のサウンドコレクタによって音声を収集する間にユーザ１１０の音声の終了を検出するように構成されてもよい。図９は、インタラクション制御装置１４０の一例を示す。図９に示すように、インタラクション制御装置１４０は、信号ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ，音声活性化検出）モジュール９１０とセマンティックＶＡＤモジュール９２０とを含む。

音声インタラクション機器１２０のサウンドコレクタ１２２が音声を検出しない場合、エンド信号ＶＡＤモジュール９１０は、非音声データを部分的にフィルタリングすることができる。この時、音声認識エンジン３１０に送信される音信号はない。サウンドコレクタ１２２が音声に類似した音信号を検出した場合、エンド信号ＶＡＤモジュール９１０は、音の開始点を検出し、収集された元の音９０２を連続的に送信し、音信号３０２の少なくとも一部として音声認識エンジン３１０に提供する。音声認識エンジン３１０が、現在取得した処理対象音から情報を検出した場合、現在認識された処理対象情報をセマンティックＶＡＤモジュール９２０に提供して、セマンティックＶＡＤモジュール９２０によって処理対象情報のセマンティックが完全であるか否かを決定することができる。

エンド信号ＶＡＤモジュール９１０がサウンドコレクタ１２２によって収集された処理対象音信号の終了を検出し、且つセマンティックＶＡＤモジュール９２０が処理対象情報のセマンティックが完全であると決定した場合、現在の音信号３０２と音信号３０２から認識された情報３１２とは、音声インタラクション機器１２０をできるだけ早く制御して応答させるように音声信頼度エンジン３２０に提供される。これは、機器の迅速なインタラクション応答を実現し、ユーザの疑問を低減することができる。また、音声終了点が検出され、且つセマンティックが完全であると検出された場合に限って、音声信頼度の決定及び応答の制御を実行することにより、ユーザが質問をためらうシーンを解決することができる。例えば、ユーザが音声を一時停止（例えば、ユーザが「私は……聴きたい」という音声を出した時）した時、セマンティックが不完全であるため、音声終了点が検出されたが、ユーザの音声命令に応答できないと直接に判断せず、依然としてユーザの後続の音信号を待ち、ユーザの完全な表現を待ち続ける。

いくつかの実施例では、信号ＶＡＤモジュール９１０及び／又はセマンティックＶＡＤモジュール９２０は、ＣＮＮ、リカレントニューラルネットワーク（例えばＬＳＴＭ）、完全接続ネットワーク層などの機械学習モデルに基づいて実現することもできる。信号ＶＡＤモジュール９１０は、分類モデルとして構成することができ、モデル入力は音信号であり、出力は音信号の分類である。音信号の分類は、例えば、音声なし、音声開始点、持続的音声、及び音声終了点の４種類を含むことができる。音信号の分類は、音声の一時停止などの他のカテゴリをさらに含むことができる場合がある。信号ＶＡＤモジュール９１０が入力に対して抽出した特徴表現は、例えば、音信号のメル周波数ケプストラム係数（ＭＦＣＣ）、知覚線形予測（ＰＬＰ）を含むことができ、また、信号ＶＡＤモジュール９１０は、フィルタバンクを用いて音響特徴を抽出することもできる。セマンティックＶＡＤモジュール９２０の入力は、認識情報であり、出力は、認識情報のセマンティック完全性の判断であり、０又は１で構成された分類問題（セマンティックが完全である又はセマンティックが不完全である）であってもよいし、０から１までの連続値（セマンティックが完全である又は不完全である確率）であってもよい。

いくつかの実施例では、特に、一回のウェイクアップで連続的なインタラクションを行うシーンでは、ユーザが音声命令を出す可能性がある時間内に、音声インタラクション機器１２０も音声を出している可能性があるため、音声インタラクション機器１２０がサウンドコレクタ１２２によって収集された元の信号に対してエコーキャンセルを実行した後、エコーキャンセルされた音信号を処理のためにローカル又はリモート側のインタラクション制御装置１４０に提供することが求められている。例えば、音声インタラクション機器１２０のローカル側のインタラクション制御装置１４０によってこのようなエコーキャンセルを実行することができる。

装置の例示的な実施例
図１０は、本開示のいくつかの実施例に係る音声インタラクション制御のための装置１０００の概略ブロックを示す。装置１０００は、図１のインタラクション制御装置１４０－１、１４０－２、又は音声インタラクション機器１２０に含むことができる。

図１０に示すように、装置１０００は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するように構成される取得モジュール１０１０と、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュール１０２０と、認識情報と音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュール１０３０と、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するように構成される提供モジュール１０４０と、備える。

いくつかの実施例では、インタラクション信頼度決定モジュールは、音響信頼度モデルを用いて、音信号の音響特徴表現を抽出することと、音響特徴表現に基づいて音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するように構成される第１のモデル実行モジュールと、融合モデルを用いて、少なくとも音響特徴表現及び音響信頼度の少なくとも一つに基づいてインタラクション信頼度を決定するように構成される第１の融合決定モジュールと、を備える。

いくつかの実施例では、音響信頼度モデルのトレーニングは、第１の正の例のサンプルと第１の負の例のサンプルとに基づいており、第１の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号を含み、第１の負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号を含む。

いくつかの実施例では、インタラクション信頼度モジュールは、認識情報に関連付けられたセマンティック特徴表現を抽出するように構成される情報特徴抽出モジュールと、セマンティック信頼度モデルを用いて、セマンティック特徴表現に基づいて認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するように構成される第２のモデル実行モジュールと、融合モデルを用いて、少なくともセマンティック特徴表現及びセマンティック信頼度の少なくとも一つに基づいてインタラクション信頼度を決定するように構成される第２の融合決定モジュールと、を備える。

いくつかの実施例では、セマンティック信頼度モデルのトレーニングは、第２の正の例のサンプルと第２の負の例のサンプルとに基づいており、第２の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、第２の負の例のサンプルは、非ヒューマン・マシンインタラクションの情報を含む。

いくつかの実施例では、認識情報は、ユニットシーケンスとして表され、ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットは、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、マッチング状況決定モジュールは、音分割モジュールと、第３のモデル実行モジュール、第３の融合決定モジュールと、を備える。前記音分割モジュールは、音信号を、ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して少なくとも一つのユニット音響セグメントペアを構成するように構成される。前記第３のモデル実行モジュールは、ローカルユニット音響信頼度モデルを用いて、少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、少なくとも一つのユニット音響セグメント特徴表現に基づいて、少なくとも一つのユニットと少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することとのうちの一つ又は複数を実行するように構成される。前記第３の融合決定モジュールは、融合モデルを用いて、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つに基づいてマッチング状況を決定するように構成される。

いくつかの実施例では、インタラクション信頼度決定モジュールは、第４の融合決定モジュールを備え、前記第４の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つとに基づいて、インタラクション音信号の全体が音声インタラクション機器とインタラクションするための音声である信頼度と、音信号の一部が音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示すインタラクション信頼度を決定するように構成される。

いくつかの実施例では、第４の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つとに基づいて、マッチング状況を決定するように構成される。

いくつかの実施例では、ローカル情報音信頼度モデルのトレーニングは、第３の正の例のサンプルと第３の負の例のサンプルとに基づいており、第３の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号内の第１の音響セグメントと、第１の音響セグメントからラベル付けられた第１のユニットとを含み、第３の負の例のサンプルは、第２の音響セグメントと、第２の音響セグメントに出現したユニットとは異なる第２のユニットとを含む。

いくつかの実施例では、認識情報は、ユニットシーケンスとして表され、ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットは、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される。マッチング状況決定モジュールは、第４のモデル実行モジュールと、第５の融合決定モジュールと、を備える。前記第４のモデル実行モジュールは、グローバル情報音信頼度モデルを用いて、音響特徴表現とセマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、のうちの一つ又は複数を実行するように構成され、前記タグシーケンスは、ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、前記各マッチングタグは、ユニットシーケンスにおける各ユニットが音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグは、ユニットシーケンスにおける開始ユニットが音信号の開始位置に出現したか否かを示し、前記終了タグは、ユニットシーケンスにおける最後のユニットが音信号の終了位置に出現したか否かを示す。前記第５の融合決定モジュールは、融合モデルを用いて、少なくともグローバル音響セマンティック特徴表現及びタグシーケンスの少なくとも一つに基づいて、マッチング状況を決定するように構成される。

いくつかの実施例では、ユニットシーケンスは、複数のユニットを含み、第４のモデル実行モジュールは、さらに、複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含むタグシーケンスを生成するように構成され、各隣接指示タグは、複数のユニット内の隣接する二つのユニットが音信号内の隣接する位置に出現したか否かを示す。

いくつかの実施例では、インタラクション信頼度決定モジュールは、第６の融合決定モジュールを備え、前記第６の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、グローバル音響セマンティック特徴表現及びタグシーケンスの少なくとも一つとに基づいて、インタラクション音信号の全体が音声インタラクション機器とインタラクションするための音声である信頼度と、音信号の一部が音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示すインタラクション信頼度を決定するように構成される。

いくつかの実施例では、グローバル情報音信頼度モデルのトレーニングは、第４の正の例のサンプルと第４の負の例のサンプルとに基づいており、第４の正の例のサンプルは、ヒューマン・マシンインタラクションのための第１の音信号と、第１の音信号からラベル付けられた第１の情報と、第１の情報及び第１の音信号に対して生成された正しいタグシーケンスとを含み、第４の負の例のサンプルは、第４の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む。

いくつかの実施例では、取得モジュールは、音声インタラクション機器のサウンドコレクタによって音声を収集する間に、サウンドコレクタによって収集された処理対象音信号の終了を決定するように構成される終了決定モジュールと、処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するように構成されるセマンティック完全性検出モジュールと、処理対象情報のセマンティックが完全であると決定されたことに応じて、処理対象音信号を音信号として決定し、処理対象情報を認識情報として決定するように構成される音及び情報決定モジュールと、を備える。

いくつかの実施例では、装置１０００は、処理対象情報のセマンティックが完全ではないと決定されたことに応じて、サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するように構成される待機取得モジュールをさらに備える。

いくつかの実施例では、処理対象音信号は、音声インタラクション機器がサウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される。

いくつかの実施例では、認識情報は、テキスト情報を含む。

いくつかの実施例では、装置１０００は、応答決定モジュールをさらに備え、前記応答決定モジュールは、インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、インタラクション音信号に応答しないように音声インタラクション機器を制御し、インタラクション信頼度が所定の信頼度閾値以上であると決定されたことに応じて、マッチング状況に基づいて、音声インタラクション機器によって提供される、音信号に対する応答を決定するように構成され、前記応答は、音信号に対する直接フィードバック又は音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックは、音声インタラクション機器に対する所望の命令を明確にするようにユーザをガイドする。

機器の例示的な実施例
図１１は、本開示の実施例を実施できる示例的な機器１１００の概略ブロックを示す。機器１１００は、図１のインタラクション制御装置１４０－１、１４０－２、又は音声インタラクション機器１２０を実現するために使用することができる。

図に示すように、機器１１００は、リードオンリーメモリ（ＲＯＭ）１１０２に記憶されたコンピュータプログラム命令、又は記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット１１０１を含む。ＲＡＭ１１０３には、機器１１００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット１１０１と、ＲＯＭ１１０２と、ＲＡＭ１１０３とは、バス１１０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース１１０５もバス１１０４に接続されている。

機器１１００における複数のコンポーネントは、Ｉ／Ｏインタフェース１１０５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット１１０６と、種々なディスプレイやスピーカなどの出力ユニット１１０７と、磁気ディスクや光学ディスクなどの記憶ユニット１１０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット１１０９と、を備える。通信ユニット１１０９は、機器１１００がインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニット１１０１は、処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット１１０１のいくつかの例としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット１１０１は、プロセス２００などの上記で説明された各方法及び処理を実行する。例えば、いくつかの実施例では、プロセス２００は、記憶ユニット１１０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ＲＯＭ１１０２及び／又は通信ユニット１１０９を介して、機器１１００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ１１０３にロードされて計算ユニット１１０１によって実行される場合に、前述したプロセス２００の一つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット１１０１は、他の任意の適当な方式（例えば、ファームウェア）によりプロセス２００を実行するように構成することができる。

本明細書では、前述した機能は、少なくとも部分的に一つ又は複数のハードウェアロジックコンポーネントによって実行することができる。例えば、限定ではないが、使用可能なハードウェアロジックコンポーネントとしては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などが挙げられる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び／又はブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよいし、部分的にマシンで実行されてもよいし、独立したソフトパッケージとして部分的にマシンで実行されるとともに部分的にリモートマシンで実行されてもよし、又は完全にリモートマシン又はサーバで実行されてもよい。

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、１つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。

また、特定の順番で各動作を説明したが、このような動作を、示される特定の順番又は順次実行することが求められ、又は図示した動作の全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスク及び並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、一つの実施形態で組み合わせて実現することができる。逆に、一つの実施形態に説明された種々な特徴は、個別又は任意の適切なサブ組み合わせの方式で複数の実施形態で実現することができる。

構成の特徴及び／又は方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定されるテーマは、上記の特定の特徴又は動作に限定されない。逆に、上記の特定の特徴と動作は、特許請求の範囲を実現する例に過ぎない。

Claims

音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するステップと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するステップと、
前記認識情報と前記音信号とのマッチング状況を決定するステップと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するステップと、
を含み、
前記マッチング状況を決定するステップが、
前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するステップと、
ローカル情報音信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するステップと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップと、
を含む音声インタラクション制御のための方法。
前記インタラクション信頼度を決定するステップが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、
前記音響特徴表現に基づいて、前記音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するステップと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度のうちの少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項１に記載の方法。
前記音響信頼度モデルのトレーニングが、第１の正の例のサンプルと第１の負の例のサンプルとに基づいており、前記第１の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第１の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項２に記載の方法。
前記インタラクション信頼度を決定するステップが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するステップと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するステップと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項１に記載の方法。
前記セマンティック信頼度モデルのトレーニングが、第２の正の例のサンプルと第２の負の例のサンプルとに基づいており、前記第２の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第２の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項４に記載の方法。
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される請求項１に記載の方法。
前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項６に記載の方法。
前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するステップ含む請求項６に記載の方法。
前記ローカルユニット音響信頼度モデルのトレーニングが、第３の正の例のサンプルと第３の負の例のサンプルとに基づいており、前記第３の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第１の音響セグメントと、前記第１の音響セグメントからラベル付けられた第１のユニットとを含み、前記第３の負の例のサンプルが、第２の音響セグメントと、前記第２の音響セグメントに出現したユニットとは異なる第２のユニットとを含む請求項６に記載の方法。
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況を決定するステップが、
グローバル情報音信頼度モデルを用いて、前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、のうちの一つ又は複数を実行するステップであって、前記タグシーケンスは、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグは、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグは、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグは、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示すステップと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて、前記マッチング状況を決定するステップと、
を含む請求項１に記載の方法。
前記ユニットシーケンスが、複数のユニットを含み、前記タグシーケンスを生成するステップが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するステップであって、各隣接指示タグが、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示すステップを含む請求項１０に記載の方法。
前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号全体が前記音声インタラクション機器とインタラクションするための音声である信頼度とと、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項１０に記載の方法。
前記グローバル情報音信頼度モデルのトレーニングが、第４の正の例のサンプルと第４の負の例のサンプルとに基づいており、前記第４の正の例のサンプルが、ヒューマン・マシンインタラクションのための第１の音信号と、前記第１の音信号からラベル付けられた第１の情報と、前記第１の情報及び前記第１の音信号に対して生成された正しいタグシーケンスとを含み、前記第４の負の例のサンプルが、前記第４の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項１０に記載の方法。
前記音信号と前記認識情報とを取得するステップが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するステップと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するステップと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するステップと、を含む請求項１から１３のいずれか一項に記載の方法。
前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するステップを含む請求項１４に記載のインタラクション方法。
前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項１４に記載の方法。
前記認識情報が、テキスト情報を含む請求項１から１３のいずれか一項に記載のインタラクション方法。
前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御するステップと、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するステップであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックは、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドするステップと、
を含む請求項１から１３のいずれか一項に記載の方法。
音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するように構成される取得モジュールと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュールと、
前記認識情報と前記音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュールと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するように構成される提供モジュールと、
を備え、
前記マッチング状況決定モジュールが、前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するように構成される音分割モジュールと、
ローカルユニット音響信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて、前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するように構成される第３のモデル実行モジュールと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するように構成される第３の融合決定モジュールと、
を備える、音声インタラクション制御のための装置。
前記インタラクション信頼度決定モジュールが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、前記音響特徴表現に基づいて、前記音信号のヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するように構成される第１のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第１の融合決定モジュールと、
を備える請求項１９に記載の装置。
前記音響信頼度モデルのトレーニングが、第１の正の例のサンプルと第１の負の例のサンプルとに基づいており、前記第１の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第１の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項２０に記載の装置。
前記インタラクション信頼度モジュールが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するように構成される情報特徴抽出モジュールと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するように構成される第２のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第２の融合決定モジュールと、
を備える請求項１９に記載の装置。
前記セマンティック信頼度モデルのトレーニングが、第２の正の例のサンプルと第２の負の例のサンプルとに基づいており、前記第２の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第２の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項２２に記載の装置。
前記ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される請求項１９に記載の装置。
前記インタラクション信頼度決定モジュールが、前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第４の融合決定モジュールを備える請求項２４に記載の装置。
前記第４の融合決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するように構成される請求項２５に記載の装置。
前記ローカルユニット音響信頼度モデルのトレーニングが、第３の正の例のサンプルと第３の負の例のサンプルとに基づいており、前記第３の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第１の音響セグメントと、前記第１の音響セグメントからラベル付けられた第１のユニットとを含み、前記第３の負の例のサンプルが、第２の音響セグメントと、前記第２の音響セグメントに出現したユニットとは異なる第２のユニットとを備える請求項２４に記載の装置。
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況決定モジュールが、グローバル情報音信頼度モデルを用いて、
前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、うちの一つ又は複数を実行するように構成され第４のモデル実行モジュールであって、前記タグシーケンスが、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグが、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグが、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグが、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示す第４のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて前記マッチング状況を決定するように構成される第５の融合決定モジュールと、
を備える請求項１９に記載の装置。
前記ユニットシーケンスが、複数のユニットを含み、前記第４のモデル実行モジュールが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するように構成され、各隣接指示タグは、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示す請求項２８に記載の装置。
前記インタラクション信頼度決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第６の融合決定モジュールを備える請求項２８に記載の装置。
前記グローバル情報音信頼度モデルのトレーニングが、第４の正の例のサンプルと第４の負の例のサンプルとに基づいており、前記第４の正の例のサンプルが、ヒューマン・マシンインタラクションのための第１の音信号と、前記第１の音信号からラベル付けられた第１の情報と、前記第１の情報及び前記第１の音信号に対して生成された正しいタグシーケンスとを含み、前記第４の負の例のサンプルが、前記第４の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項２８に記載の装置。
前記取得モジュールが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するように構成される終了決定モジュールと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するように構成されるセマンティック完全性検出モジュールと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するように構成される音及び情報決定モジュールと、
を備える請求項１９から３１のいずれか一項に記載の装置。
前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するように構成される待機取得モジュールを備える請求項３２に記載の装置。
前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項３２に記載の装置。
前記認識情報が、テキスト情報を含む請求項１９から３１のいずれか一項に記載の装置。
前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御し、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するように構成される応答決定モジュールであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックが、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドする応答決定モジュールを備える請求項１９から３１のいずれか一項に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサが請求項１から１８のいずれか一項に記載の方法を実現する電子機器。
コンピュータプログラムに記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項１から１８のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムが実行される場合、コンピュータに請求項１から１８のいずれか一項に記載の方法を実行させるコンピュータプログラム。