JP7485858B2

JP7485858B2 - 実世界ノイズを使用した音声個性化および連合訓練

Info

Publication number: JP7485858B2
Application number: JP2023531073A
Authority: JP
Inventors: マシュー・シャリフィ; ヴィクター・カルブネ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-11-24
Filing date: 2021-11-15
Publication date: 2024-05-16
Anticipated expiration: 2041-11-15
Also published as: US20220165253A1; KR20230107860A; EP4233046A1; JP2023549975A; WO2022115267A1; CN116472577A; US20230360639A1; US11741944B2

Description

本開示は、実世界ノイズを使用した音声個性化および連合訓練に関する。

自動音声認識(ASR)は、モバイルデバイスおよび他のデバイスにおいて使用される重要な技術である。一般に、自動音声認識は、人が発言したことの正確なトランスクリプションを提供しようと試みる。また、ASRを実装するデバイスは、所与の発話が、環境に存在する別の個人に向けられた発話と対照的に、システムに向けられている場合を判別するのに役立つホットワードまたはウェイクワードを使用することも可能である。

ASRシステムが直面する1つの大きな課題は、単一のモデルが、様々なユーザにわたってアクセント、語彙、および背景ノイズの種類に非常に大きなばらつきの存在する単一のロケールにおける、すべてのユーザからの音声入力を扱うことができる必要があることである。音声認識モデルを個性化することの別の課題は、オーディオデータにラベルを付けるために正確なトランスクリプションが必要とされ、それにより何もない状態からユーザのデバイス上で音声認識モデル全体を訓練することが実現不可能になることである。

本開示の一態様は、音声モデルを訓練する方法を提供する。方法は、音声対応デバイスのデータ処理ハードウェアにおいて、固定セットの訓練発話を受け取ることを含み、固定セットの訓練発話の中の各訓練発話が、対応する訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションを含む。また、方法は、データ処理ハードウェアにより、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることも含む。固定セットの訓練発話の中の各訓練発話に関して、方法は、データ処理ハードウェアにより、音声対応デバイスの環境からサンプリングされたノイズのあるオーディオデータを使用して、1つまたは複数の対応するノイズのあるオーディオサンプルを生成すべく対応する訓練発話の対応する音声表現を増強すること、および、データ処理ハードウェアにより、1つまたは複数の対応するノイズのあるオーディオサンプルのそれぞれを対応する訓練発話の対応するトランスクリプションとペアリングすることを含む。方法は、データ処理ハードウェアにより、固定セットの訓練発話における各音声表現に関して生成された1つまたは複数の対応するノイズのあるオーディオサンプルで音声モデルを訓練することをさらに含む。

一部の実施例において、方法は、対応する訓練発話の対応する音声表現を増強するのに先立って、データ処理ハードウェアにより、既存のノイズを除去すべく対応する音声表現をノイズ除去することも含む。一部の実装形態において、方法は、1つまたは複数の対応するノイズのあるオーディオサンプルのそれぞれを対応する訓練発話の対応するトランスクリプションとペアリングした後、データ処理ハードウェアにより、データ処理ハードウェアと通信するメモリハードウェア上に、1つまたは複数の対応するノイズのあるサンプルのそれぞれと対応する訓練発話の対応するトランスクリプションとのペアリングを記憶することをさらに含む。

一部の構成において、音声モデルが音声認識モデルを含む場合、方法は、固定セットの訓練発話における各音声表現と、対応する音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルの各ノイズのあるオーディオサンプルとに関して、データ処理ハードウェアにより、音声モデルによる出力のために、対応する音声表現または対応するノイズのあるオーディオサンプルに関する可能な音声認識仮説にわたる対応する確率分布を決定すること、および、データ処理ハードウェアにより、対応する音声表現または対応するノイズのあるオーディオサンプルに関する可能な音声認識仮説にわたる対応する確率分布に基づいて損失項(loss term)を生成することをさらに含む。これらの構成において、音声モデルを訓練することは、固定セットの訓練発話における各音声表現に関して生成された損失項、および固定セットの訓練発話における対応する各音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルのそれぞれのノイズのあるオーディオサンプルを使用して、音声認識モデルのパラメータを更新することを含んでよい。音声モデルを訓練することは、中央サーバに、固定セットの訓練発話における各音声表現に関して生成された損失項、および固定セットの訓練発話における対応する各音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルのそれぞれのノイズのあるオーディオサンプルを送信することをさらに、または代替で含んでよい。中央サーバは、音声対応デバイスのデータ処理ハードウェアから受信される損失項と、他の音声対応デバイスから受信される他の損失項とに基づいて、連合学習を使用してサーバ側の音声認識モデルのパラメータを更新するように構成されてよく、それぞれの他の音声対応デバイスから受信される他の損失項は、対応する他の音声対応デバイスによってサンプリングされた様々なノイズのあるオーディオデータに基づく。

一部の実施例において、固定セットの訓練発話の中の少なくとも1つの訓練発話に関して、方法は、データ処理ハードウェアにより、対応する訓練発話の対応する音声表現に音声学的に類似し、かつ少なくとも1つの訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションとは異なるそれぞれのトランスクリプションとペアリングされている、音声対応デバイスの環境からサンプリングされた対応する口頭の発話を獲得することも含む。これらの実施例において、固定セットの訓練発話、および1つまたは複数の対応するノイズのあるオーディオサンプルで音声モデルを訓練することは、固定セットの訓練発話の中の少なくとも1つの訓練発話に関して獲得された対応する口頭の発話にさらに基づく。固定セットの訓練発話の中の少なくとも1つの訓練発話に関して対応する口頭の発話を獲得することは、音声対応デバイスの環境から対応する口頭の発話をサンプリングすること、環境からサンプリングされた対応する口頭の発話が、少なくとも1つの対応する訓練発話の対応する音声表現に音声学的に類似することを、対応する口頭の発話に関して生成されたそれぞれの埋め込みと少なくとも1つの訓練発話の対応する音声表現に関して生成されたそれぞれの埋め込みとの比較に基づいて、と判定すること、音声対応デバイスの環境からサンプリングされた対応する口頭の発話のそれぞれのトランスクリプションを獲得すること、および対応する口頭の発話のそれぞれのトランスクリプションが少なくとも1つの訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションとは異なることを判定することを含んでよい。埋め込みモデル、または音声モデルの一部分が、対応する口頭の発話、および少なくとも1つの訓練発話の対応する音声表現のそれぞれに関してそれぞれの埋め込みを生成してよい。これらの実施例において、少なくとも1つの訓練発話の対応する音声表現は、特定の固定項の口頭の表現を表す。音声モデルは、特定の固定項を検出すべく訓練されたホットワード検出モデルを含んでよい。ホットワード検出モデルに関して、特定の固定項を検出すべくホットワード検出モデルを訓練することは、少なくとも1つの訓練発話に関して獲得された対応する口頭の発話を否定的な訓練サンプルとして使用することを含む。

本開示の別の態様は、音声モデルを訓練するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、音声対応デバイスにおいて、固定セットの訓練発話を受け取ることを含み、固定セットの訓練発話の中の各訓練発話が、対応する訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションを含む。また、動作は、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることも含む。固定セットの訓練発話の中の各訓練発話に関して、動作は、音声対応デバイスの環境からサンプリングされたノイズのあるオーディオデータを使用して、1つまたは複数の対応するノイズのあるオーディオサンプルを生成すべく対応する訓練発話の対応する音声表現を増強すること、および1つまたは複数の対応するノイズのあるオーディオサンプルのそれぞれを対応する訓練発話の対応するトランスクリプションとペアリングすることを含む。動作は、固定セットの訓練発話における各音声表現に関して生成された1つまたは複数の対応するノイズのあるオーディオサンプルで音声モデルを訓練することをさらに含む。この態様は、以下のオプションの特徴のうちの1つまたは複数を含んでよい。

一部の実施例において、動作は、対応する訓練発話の対応する音声表現を増強するのに先立って、既存のノイズを除去すべく対応する音声表現をノイズ除去することも含む。一部の実装形態において、動作は、1つまたは複数の対応するノイズのあるオーディオサンプルのそれぞれを対応する訓練発話の対応するトランスクリプションとペアリングした後、データ処理ハードウェアと通信するメモリハードウェア上に、1つまたは複数の対応するノイズのあるサンプルのそれぞれと対応する訓練発話の対応するトランスクリプションとのペアリングを記憶することをさらに含む。

一部の構成において、音声モデルが音声認識モデルを含む場合、動作は、固定セットの訓練発話における各音声表現と、対応する音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルのそれぞれのノイズのあるオーディオサンプルとに関して、音声モデルによる出力のために、対応する音声表現または対応するノイズのあるオーディオサンプルに関する可能な音声認識仮説にわたる対応する確率分布を決定すること、および対応する音声表現または対応するノイズのあるオーディオサンプルに関する可能な音声認識仮説にわたる対応する確率分布に基づいて損失項を生成することをさらに含む。これらの構成において、音声モデルを訓練することは、固定セットの訓練発話における各音声表現に関して生成された損失項、および固定セットの訓練発話における対応する各音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルのそれぞれのノイズのあるオーディオサンプルを使用して、音声認識モデルのパラメータを更新することを含んでよい。音声モデルを訓練することは、中央サーバに、固定セットの訓練発話における各音声表現に関して生成された損失項、および固定セットの訓練発話における対応する各音声表現に関して生成された1つまたは複数のノイズのあるオーディオサンプルのそれぞれのノイズのあるオーディオサンプルを送信することをさらに、または代替として含んでよい。中央サーバは、音声対応デバイスのデータ処理ハードウェアから受信される損失項、および他の音声対応デバイスから受信される他の損失項に基づいて連合学習を使用して、サーバ側の音声認識モデルのパラメータを更新するように構成されてよく、それぞれの他の音声対応デバイスから受信される他の損失項は、対応する他の音声対応デバイスによってサンプリングされた様々なノイズのあるオーディオデータに基づく。

一部の実施例において、固定セットの訓練発話の中の少なくとも1つの訓練発話に関して、動作は、対応する訓練発話の対応する音声表現に音声学的に類似し、かつ少なくとも1つの訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションとは異なるそれぞれのトランスクリプションとペアリングされている、音声対応デバイスの環境からサンプリングされた対応する口頭の発話を獲得することも含む。これらの実施例において、固定セットの訓練発話、および1つまたは複数の対応するノイズのあるオーディオサンプルで音声モデルを訓練することは、固定セットの訓練発話の中の少なくとも1つの訓練発話に関して獲得された対応する口頭の発話にさらに基づく。固定セットの訓練発話の中の少なくとも1つの訓練発話に関して対応する口頭の発話を獲得することは、音声対応デバイスの環境から対応する口頭の発話をサンプリングすること、環境からサンプリングされた対応する口頭の発話が、少なくとも1つの対応する訓練発話の対応する音声表現に音声学的に類似することを、対応する口頭の発話に関して生成されたそれぞれの埋め込みと少なくとも1つの訓練発話の対応する音声表現に関して生成されたそれぞれの埋め込みとの比較に基づいて判定すること、音声対応デバイスの環境からサンプリングされた対応する口頭の発話のそれぞれのトランスクリプションを獲得すること、および対応する口頭の発話のそれぞれのトランスクリプションが少なくとも1つの訓練発話の対応する音声表現とペアリングされた対応するトランスクリプションとは異なると判定することを含んでよい。埋め込みモデル、または音声モデルの一部分が、対応する口頭の発話、および少なくとも1つの訓練発話の対応する音声表現のそれぞれに関してそれぞれの埋め込みを生成してよい。これらの実施例において、少なくとも1つの訓練発話の対応する音声表現は、特定の固定項の口頭の表現を表す。音声モデルは、特定の固定項を検出すべく訓練されたホットワード検出モデルを含んでよい。ホットワード検出モデルに関して、特定の固定項を検出すべくホットワード検出モデルを訓練することは、少なくとも1つの訓練発話に関して獲得された対応する口頭の発話を否定的な訓練サンプルとして使用することを含む。

本システムまたは本方法の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含んでよい。一部の実装形態において、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることは、音声対応デバイスと、音声対応デバイスに関連付けられたユーザとの間の音声対話の直前、最中、または直後のうちの少なくとも1つにおいて、音声対応デバイスの環境からノイズをランダムにサンプリングすることを含む。他の実装形態において、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることは、音声対応デバイスのユーザが音声対応デバイスと頻繁に対話するときのコンテクストおよび/または時間枠を獲得すること、および音声対応デバイスのユーザが音声対応デバイスと頻繁に対話するときの獲得されたコンテクストおよび/または時間枠の最中に音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることを含む。さらに他の実装形態において、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングすることは、音声対応デバイスの環境から一日中ずっとノイズのあるオーディオデータをランダムにサンプリングすること、および音声対応デバイスのユーザが音声対応デバイスと頻繁に対話するときのコンテクストおよび/または時間枠の最中に環境からサンプリングされたノイズのあるオーディオデータのいずれかに大きい重みを付加することを含む。データ処理ハードウェアのデジタルシグナルプロセッサ(DSP)が、音声対応デバイスの環境からノイズのあるオーディオデータをサンプリングしてよい。一部の実施例において、少なくとも1つの訓練発話に関する対応する音声表現は、対応する訓練発話の生のオーディオ波形を含む。他の実施例において、少なくとも1つの訓練発話に関する対応する音声表現は、対応する訓練発話のオーディオ特徴表現を含む。

本開示の1つまたは複数の実装形態の詳細は、添付の図面、および後段の説明において提示される。他の態様、特徴、および利点が、説明および図面、ならびに特許請求の範囲から明白となろう。

ノイズのあるオーディオデータを用いて音声モデルを訓練するための例示的な音声環境を示す概略図である。ノイズのあるオーディオデータとともに連合学習を使用して音声モデルを訓練するための例示的な音声環境を示す概略図である。音声環境に関する例示的な増強システムを示す概略図である。音声環境に関する例示的な増強システムを示す概略図である。音声モデルを訓練する方法に関する動作の例示的な構成を示すフローチャートである。本明細書において説明されるシステムおよび方法を実装するのに使用されてよい例示的なコンピューティングデバイスを示す概略図である。

様々な図面における同様の参照符号は、同様の要素を示す。

コンピューティングデバイスが日常のタスクに関して至る所で利用されるようになるにつれ、これらのコンピューティングデバイスにコンピューティングデバイスのユーザとコンピューティングデバイス自体との間で対話をやり取りする、または促進する技術が装備されることも一般的になっている。1つまたは複数の一般的なアプローチが、ユーザが、ユーザの音声を使用してコンピューティングデバイスとやり取りするアプローチである。この意味で、様々なコンピューティングデバイス(音声対応デバイスとも呼ばれる)が、音声ベースの入力を処理し、音声ベースの入力に基づいて動作またはタスクを実行するように構成される。例えば、ユーザは、デバイスが、口頭の要求(クエリもしくはコマンドとも呼ばれる)から応答として合成音声を生成すること、またはタスクを実行することを予期して音声対応デバイスと対話することが可能である。例示すると、ユーザが、「私の朝のジャズ再生リストを再生しなさい」と発言することによって音声対応デバイスにクエリをサブミットして、デバイスがユーザの朝のジャズ再生リストからの歌を再生することを予期することが可能である。音声は、人のコミュニケーションの主要な形態であるので、音声ベースの入力は、ほとんどあらゆるコンテクスト(例えば、完全にハンズフリーの)において実行され得るデバイスとコミュニケーションをとる自然で便利な方法である。

音声ベースの入力を処理するために、コンピューティングデバイスが、音声認識能力を有するように構成される。これらの音声認識システムに関する1つの課題は、好ましいユーザ体験をもたらす可能性が高くなるように音声を正確に認識するために、音声認識システムは、多種多様な口頭のばらつきからの、しばしば、ある程度の背景ノイズを伴った音声入力を扱うことができることを必要とすることである。言い換えると、堅牢な音声認識システムは、特定のユーザからの音声が、同じく同一の音声認識技術を使用する別のユーザと比較された場合に、例えば、方言差(例えば、アクセント、口調(diction)、語の強調(word stress emphasis)、語彙のばらつき、その他)を含む場合でも、そのユーザによって発話された音声のコンテクストを正確に抽出することができる。

さらに、音声対応デバイスは、ある程度の音声ベースの個性化を含むことが可能である。例示すると、単一の音声対応デバイスが、同一の環境にある多数のユーザによって使用されることが可能である。例えば、音声対応デバイスが、父親と、母親と、十代の息子とを含む3人家族に属する。この場合、十代の息子は、少しいたずら好きで、デバイスをスリープ状態から音声処理を実行する状態に活性化する(すなわち、音声コマンドまたは音声クエリをリッスンするようデバイスを起動する)、デバイスに関連付けられたデフォルトのホットワードを変更しようと試み得る。例えば、息子は、デバイスが父親の言うことを聞かないときに父親が苛立つのが面白いと思って、「やあ、Google」というデフォルトのホットワードを「やあ、マイク」という句に変更する。息子には知られずに、デバイスは、デバイスの各ユーザ、または登録されたユーザがデバイスに関連付けられた発話者プロファイルを有するように構成されていることが可能である。この実施例において、デバイスは、息子に特有である音声モデル(例えば、音声認識モデルまたはホットワードモデル)を有することが可能である。そうであるとした場合、息子は、息子がホットワードを変更したとき、デバイスが息子の声を認識したことに気づかないことがあり得、したがって、デバイスは、実際には、父親のプロファイルに関連付けられたホットワードを変更する代わりに、息子のプロファイルのホットワード構成を変更している。したがって、息子は、父親が「やあ、Google」というデフォルトのホットワードを使用して苛立たしさのない様態でデバイスと対話するとき、戸惑う。すると、いたずらは、息子が「やあ、マイク」というホットワード句を忘れて、息子が「やあ、Google」という句を繰り返しながら、デバイスが息子を無視することに苛立つ場合、完全に裏目に出る可能性がある。

残念ながら、他のユーザの中の特定のユーザの音声を理解する音声モデルを得るのに、音声モデルは、ユーザの音声に対応するオーディオ訓練データ(例えば、記録された音声データ)で訓練される必要がある。さらに、特定のユーザに関するモデルの堅牢性は、一般に、そのユーザの音声を含むオーディオ訓練データの量に基づく。言い換えると、ユーザの音声の特性および/または特徴を学習する音声モデルは、それら特性を識別して、ユーザが音声対応デバイスに話しかけるときにそれら特性が繰り返し、かつ/または信頼できるように識別され得ることを確実にすべく、ユーザの音声のサンプルを必要とする。

1つのアプローチにおいて、標準の音声モデルは、人間の音声に対応する訓練サンプルの大きいコーパスを一般的に使用して発話者を認識することを学習してよい。標準の音声モデルが音声で一般的に訓練された後、二次プロセスが、ユーザ特有のオーディオサンプルで標準の音声モデルを訓練することによって特定のユーザに関する標準の音声モデルをさらに改良してよい。この二次プロセスは、プロセスが、粗く訓練されたモデル(すなわち、標準の音声モデル)を取り込み、ユーザ特有の音声に関する音声処理をより正確に実行すべくこの粗く訓練されたモデルを調整するため、ときとして、微調整と呼ばれる。

微調整のプロセスは、ローカルで、すなわち、音声対応デバイス自体において行われても、または遠隔で、すなわち、音声対応デバイスから遠隔の場所(例えば、遠隔サーバ)において行われてもよい。ユーザは、ユーザ特有のオーディオサンプルが、遠隔ストレージに存在するのではなく、ローカルにオンデバイスに(すなわち、音声対応デバイス上に)存在する場合、ローカル微調整プロセスを利用してよい。ユーザ特有のオーディオサンプルがローカルに存在する場合、オンデバイスの微調整プロセスが、微調整プロセスを実行するためにユーザ特有のオーディオサンプルが遠隔システムに通信される必要がないという点で、効率的である。このことは、ユーザ特有のオーディオサンプルを遠隔システムに通信するローカルリソース消費を避けることになり得る。さらに、ユーザが、自分のユーザ特有のオーディオサンプルの所有権を、微調整を実行すべく遠隔サービスに明け渡すのではなく、保持する(例えば、プライバシー上の懸念に基づいて)ことを選好することが可能であり、潜在的なプライバシー上の懸念または潜在的なユーザデータ濫用が軽減される。

微調整に対するローカルアプローチの一実施例が、連合学習である。連合学習とは、集中型のソース(例えば、遠隔サーバまたは何らかの協調デバイス)が存在するが、各ユーザ特有のデバイスがそのデバイス独自の学習自律性を保持し、それゆえ、ユーザデータ自律性を保持するプロセスを指す。連合学習の場合、音声対応デバイスは、そのデバイス独自の訓練データのすべてをオンデバイスに保持しながら、共有される予測モデルを協調的に学習する。言い換えると、微調整を使用する機械学習プロセスが、遠隔で記憶されたデータの必要性から切り離される。一部の実施例において、連合学習のプロセスは、音声対応デバイスが、現行の音声モデル(例えば、粗く訓練された、標準の音声モデル)をダウンロードすること、およびデバイス上のオーディオデータから学習することによってそのモデルを改良することを伴う。この場合、デバイス上のオーディオデータは、ユーザ特有のオーディオサンプルである。一部の実施例において、連合学習の微調整プロセスがオンデバイスで行われると、デバイスが、現行の音声モデル(例えば、粗く訓練された、標準の音声モデル)に行われた更新を集中型ソースに通信する。例えば、デバイスが、プライバシーを保護する最適化方法を通して(例えば、暗号化された通信を介して)集中型ソースにモデル勾配更新を送信する。各デバイスが音声モデルを展開すると、各デバイスが、微調整プロセスからの現行の音声モデルに関する更新を集中型ソースに提供することが可能であり、更新されたモデルをすべてのデバイスに関する共有されるモデルとして維持しながら、集中型ソースが、現行のモデルを改良すべくすべてのデバイスにわたる更新のすべてを集約することができるようになる。また、連合学習プロセスは、1つのデバイスからの更新を別のデバイスからの更新と即時に組み合わせて(例えば、更新を一緒に平均化して)、いずれの単一のデバイスからの潜在的に固有の更新も不明瞭にすることによって、集中型サーバに通信された更新に関するプライバシーを保つことも可能である。

微調整は音声個性化のさらなる層をもたらすものの、微調整プロセスは本質的に、プロセスの精度を確実にするためにユーザごとに大量の音声データを必要とする。例えば、一部のニューラルネットワークベースのモデルは、単一のユーザに特有の高忠実度のモデルをもたらすために十数時間分の記録された音声を必要とする。それでも、大量の記録された音声データが音声モデルを訓練するために利用可能でも、一般的にアクセス可能でもない不可避の状況が存在する。このことは、各ユーザに関してモデルを微調整することを困難にする。別の難題は、一部のユーザが音声対応デバイスと稀にしか対話しない可能性があることである。対話が稀である場合、オンデバイス学習技術でさえ、特定のユーザに関して正確なモデルを訓練すべく十分に大量のデータを収集することができない可能性がある。さらに、ユーザの音声対応デバイスがユーザ特有のオーディオサンプルを収集するときでも、これらのユーザ特有のオーディオサンプルは、ユーザの声以外の背景ノイズ(例えば、他のユーザからの音声)が存在するノイズのあるデータを含む可能性がある。一部のアプローチは、さらなる処理リソースを費やすことと引き換えに、オーディオデータにおいて特定のユーザに関する音声を分離する戦略として背景ノイズを消去すること、またはフィルタリングすることを試みることが可能である。

音声モデルを個性化するユーザの声を包含する音声サンプルの量が限られることを克服すべく、微調整プロセスは、ユーザの環境に対して音声モデルをよりよく個性化するように音声対応デバイスに利用可能なノイズのあるデータを活用してよい。音声対応デバイスに利用可能なノイズのあるデータを利用することによって、音声モデルは、何らかの形態のノイズのあるデータを用いて訓練して、音声モデルがユーザの音声対応デバイスが典型的に遭遇する種類のノイズに対してより堅牢であることを可能にしてよい。さらに、オーディオサンプルに含まれるノイズのあるデータを除去しようと試みるのではなく、訓練プロセスは、このノイズをユーザおよび/またはユーザの環境に関する識別のさらなる手段として使用してよい。言い換えると、このノイズのあるデータ訓練アプローチは、ラベル付けされたデータも、頻繁なユーザ対話も必要とすることなく、音声認識精度を向上させることが可能である。このアプローチの別の利点は、ノイズのあるデータを用いて訓練することが、オンデバイス音声個性化および/または連合学習などの微調整プロセスに容易に組み込まれることが可能であることである。

図1Aおよび図1Bを参照すると、一部の実装形態において、音声システム100が、音声対応デバイス110(デバイス110またはユーザデバイス110とも呼ばれる)に口頭の発話12を伝えるユーザ10を含む。ユーザ10(すなわち、発話12の発話者)は、デバイス110から応答を求めるべく、または発話12の内容に基づいてデバイス110にタスクを実行させるべく、発話12をクエリとして、またはコマンドとして発話してよい。デバイス110は、音声システム100内の1名または複数名のユーザ10から可聴のサウンドをキャプチャするように構成される。可聴のサウンドとは、デバイス110に対する可聴のクエリ、コマンドとして機能するユーザ10による口頭の発話12、またはデバイス110によってキャプチャされる可聴の通信を指すことが可能である。可聴のサウンドは、デバイス110のオーディオキャプチャ感度に基づいてデバイス110においてキャプチャされる環境ノイズ14をさらに含んでよい。音声対応インターフェース(例えば、デジタルアシスタント)が、クエリに回答すること、および/またはコマンドが実行されるようにすることによって、クエリまたはコマンドに対処してよい。

ここで、デバイス110は、デバイス110の周囲の環境内の発話12および/またはノイズ14に対応するオーディオデータをキャプチャするように構成される。ここで、オーディオデータは、口頭の発話12、環境ノイズ14、または口頭の発話12と環境ノイズ14の何らかの組合せを特徴づけることが可能である。デバイス110は、ユーザ10に関連付けられ、オーディオ信号を受け取ることができる任意のコンピューティングデバイスに対応することが可能である。ユーザデバイス110の一部の実施例は、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップ、電子ブックリーダ、その他)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチ)、音楽プレーヤ、キャスティングデバイス、スマート機器(例えば、スマートテレビ)およびモノのインターネット(IoT)デバイス、リモートコントロール、スマートスピーカ、その他を含むが、これらには限定されない。デバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信し、命令を記憶するメモリハードウェア114とを含み、命令は、データ処理ハードウェア112によって実行されると、データ処理ハードウェア112に、音声処理と関係する1つまたは複数の動作を実行させる。

デバイス110は、音声環境内のオーディオデータ12、14をキャプチャして、電気信号に変換するためのオーディオキャプチャデバイス(例えば、1つまたは複数のマイクロフォンのアレイ)116を有するオーディオサブシステムをさらに含む。デバイス110は、図示される実施例においてオーディオキャプチャデバイス116を実装するが、オーディオキャプチャデバイス116は、デバイス110上に物理的に存在するのではなく、オーディオサブシステム(例えば、デバイス110の周辺機器)と通信してよい。例えば、デバイス110は、車両全体にわたって配置されたマイクロフォンのアレイを活用する車両インフォテインメント(infotainment)システムに対応してよい。

さらに、デバイス110は、ネットワーク120を介して遠隔システム130と通信するように構成される。遠隔システム130は、遠隔データ処理ハードウェア134(例えば、遠隔サーバもしくは遠隔CPU)および/または遠隔メモリハードウェア136(例えば、遠隔データベースもしくは他のストレージハードウェア)などの遠隔リソース132を含んでよい。デバイス110は、音声処理と関係する様々な機能を実行すべく遠隔リソース132を利用してよい。例えば、デバイス110は、デバイス110のユーザに関して個性化されるように音声モデル146を訓練すべく訓練プロセス200を実行するように構成される。これらのシステム140、200は、デバイス110上に存在してよく(オンデバイスシステムと呼ばれる)、遠隔で存在する(例えば、遠隔システム130上に存在する)が、デバイス110と通信してよく、またはこれらの何らかの組合せであってよい。例えば、図1Bが、音声システム140を実装する集中型サーバとして機能する遠隔システム130を例示し、音声システム140に関連付けられた音声モデル146が、多数のデバイス110、110a～n(例えば、デバイス110、110a～cとして示される)の間で共有されてよい。一部の実装形態において、音声システム140が音声モデル146を遠隔システム130がアクセス可能である(例えば、遠隔メモリハードウェア136に記憶された)訓練データ(例えば、訓練音声発話)の大きいコーパスで初期に訓練することを可能にすべく、音声システム140が遠隔システム130上に存在することが有利である。このことは、モデル146の初期訓練が、音声対応デバイス110において利用可能でないことがあり得る、遠隔サーバにおいて利用可能である、より強力なコンピューティングリソースを活用することを可能にする。しかし、音声システム140は、遠隔システム130を要求することなしにデバイス102上で音声モデル146を初期に訓練すべくデバイス102上でローカルで実行されてよい。

対照的に、訓練プロセス200は、各ユーザデバイス110上でローカルに実行され、それぞれのユーザ10ごとにオーディオのユーザ特有の訓練サンプルを生成するように構成される。それぞれのユーザ10に関してユーザ特有のノイズのあるオーディオサンプルを生成するのに、訓練プロセス200は、デバイス110の環境内でキャプチャされたオーディオデータ12、14を使用して、音声システム140から受け取られた固定セットの訓練発話144、144a～nを増強する。訓練プロセス200をローカルで実行してユーザ特有のノイズのあるオーディオサンプルを生成することによって、ユーザ10の環境からキャプチャされたオーディオデータ12、14が、音声対応デバイス110上に保たれ、遠隔システム130と共有されることがない。

初期固定セットの訓練発話144、144a～nとは、何人かの異なる発話者(すなわち、発話者の取り合わせ)からサンプリングされたトランスクリプションされた音声表現を指す。音声表現は、特徴表現(例えば、メルフィルタバンクエネルギーもしくはマイクロフィーチャ)に対応する形態である、生のオーディオ形態であってよく、またはそれぞれの音声モデルに関する何らかの種類の中間特徴であってよい。一部の実施例において、訓練発話144は、何らかの一般に利用可能なデータセットからのものである。各訓練発話144が、発話144の対応する音声表現144r(図2Aおよび図2B)とペアリングされた発話144において発話された語のトランスクリプション144t(図2Aおよび図2B)を含む。発話144の音声表現144rとは、発話144に包含される音声特性または音声特徴を表す任意の様態を指すことが可能である。例えば、音声表現144rは、埋め込みの各次元が1つまたは複数の音声特性を表す埋め込みまたはベクトルストリングを含んでよい。一部の実施例において、各訓練発話144のトランスクリプション144tは、音声モデル146に関する精度のレベルを確実にするのに役立つように手作業で生成される(例えば、手で文字起こしされた発話)。

音声システム140は、ユーザデバイス110において実行されるべき音声処理に依存して、様々な種類の音声モデル146を生成するように構成されてよい。音声モデル146のいくつかの例は、ホットワードモデル、音声認識モデル、および/またはエンドポインティングモデルを含む。ホットワードモデルは、オーディオデータに対して音声認識を実行することなしに、口頭の発話12を特徴づけるオーディオデータに特定の語または特定の句が存在するかどうかを検出すべく訓練されるモデルである。特定の語または特定の句が存在する場合、ホットワードモデルは、様々な音声処理システムを起動するように構成される。言い換えると、「ホットワード」とは、ホットワードモデルによって検出されたとき、ホットワード、および/または口頭の発話12においてホットワードの後に続く他の1つまたは複数の項を処理すべく1つまたは複数の音声処理システムの起動をトリガする特定の語、または特定の句を指す。音声システム140がホットワードモデル146を訓練する場合、訓練発話144は、ホットワードが特定の訓練発話144(例えば、肯定的な訓練発話144)に存在するか否か(例えば、否定的な訓練発話144)を示すラベルを含む。ここで、それぞれの肯定的な訓練発話144は、ホットワードを特徴づける対応する音声表現144rを含む一方で、それぞれの否定的な訓練発話144は、ホットワードを特徴づけない対応する音声表現144rを含む。音声表現144rは、対応するトランスクリプション144rとペアリングされても、ペアリングされなくてもよい。

他方、音声認識モデルとは、口頭の発話によって伝えられるコマンドもしくはクエリを識別するように表示されること、および/または解釈されることが可能な発話12のトランスクリプションを生成すべく口頭の発話12を特徴づける入力オーディオデータにおける項を認識するように訓練される音声モデル146を指す。例えば、音声対応デバイス110が、ユーザ10によって発話された「今日の気象はどうですか」という発話12をキャプチャする場合、音声認識モデルは、ユーザ10が現行の気象のレポートを要求していると判定するために項を解釈すべく発話12を特徴づけるオーディオデータを処理するように構成される。

一部の実施例において、音声認識モデルを訓練することは、損失関数/損失項を最小限に抑えるようにモデルパラメータ(例えば、モデル重み)を更新する反復プロセスにおいて勾配降下最適化アルゴリズムを損失関数または損失項と一緒に使用することを含む。より具体的には、訓練プロセス200は、モデルに関するニューラルネットワークの現行のパラメータを調整すべく損失関数の勾配の推定値を逆伝播させてよい。モデルパラメータが損失関数を小さくするにつれ、モデルは、モデル146が音声表現144rを受け取り、所与の訓練発話144の対応するトランスクリプション144tと合致する音声認識結果を予測する最適状態に近づくことが可能である。一部の実施例において、訓練プロセス200は、訓練発話144の対応するトランスクリプション144tと比較される、予測された音声認識結果(例えば、可能な音声認識仮説にわたる確率分布)に基づく損失項を生成する。

図1Aおよび図1Bを引き続き参照すると、ユーザデバイス110が、音声システム140から訓練されていない音声モデル146、または前もって訓練された音声モデル146を受け取る。音声システム140は、前もって訓練された音声モデル146、または訓練されていない音声モデル146をデバイス110にプッシュしてよく、あるいは前もって訓練された音声モデル146、または訓練されていない音声モデル146は、ユーザデバイス110に前もってロードされてよい。また、音声システム140は、固定セットの訓練発話144、144a～nをデバイス110に伝えることもする。固定セットの訓練発話144の中の訓練発話144の量は、様々であってよいが、例として、固定セットの訓練発話144は、約1000の発話を含んでよい。ここで、固定セットの訓練発話144の中の各訓練発話144は、対応する音声表現144rとペアリングされた対応するトランスクリプション144tを含む。デバイス110は、モデル146を微調整すべく音声対応デバイス110の環境からサンプリングされたノイズのあるオーディオデータ202で固定セットの訓練発話144を増強することによって、デバイス110の特定のユーザ10に関してモデル146を個性化するように訓練プロセス200をさらに実行してよい。一部の実施例において、訓練プロセス200は、固定セットの訓練発話144のサブセットをフィルタリングする、または使用する。ここで、固定セットの訓練発話144のサブセットは、デバイス110のユーザ10に対して特定のレベルの関連性を有するいくつかの数の固定セットの訓練発話144に対応してよい(例えば、サブセットが、デバイス110のユーザ10に対して類似する音声埋め込みなどの、ユーザ10に対して類似する特性を有する発話者からの発話144に対応する)。訓練プロセス200は、音声対応デバイス102の環境からノイズのあるオーディオデータ202をサンプリングし、固定セットの訓練発話の中の各訓練発話144に関して、訓練プロセス200は、ノイズのあるオーディオデータ202を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル204を生成すべく対応する音声表現144rを増強する。ここで、対応する訓練発話144に関して生成された1つまたは複数の対応するノイズのあるオーディオサンプル204のそれぞれは、対応する訓練発話144の同一の対応するトランスクリプション144tとペアリングされてよい。したがって、訓練プロセス200は、固定セットの訓練発話144の中の各音声表現144rに関して多数のノイズのあるオーディオサンプル202を生成することができ、それにより、ノイズのあるオーディオサンプル204のそれぞれが、音声対応デバイス110の環境に固有のノイズのあるオーディオデータ202を組み込むようになる。最後に、音声モデル146を個性化すべく、訓練プロセス200は、訓練されていない音声モデル146、または前もって訓練された音声モデル146を固定セットの訓練発話144における各音声表現144rから生成された1つまたは複数の対応するノイズのあるオーディオサンプル204で訓練する。

訓練プロセス200は、固定セットの訓練発話144の中の訓練発話144のいずれもユーザ10によって発話されておらず、訓練発話144の数は、堅牢なモデル訓練のために十分ではないものの、これらの訓練発話144の数が、音声モデル146を堅牢に訓練するために十分な数の個性化された訓練発話144をもたらすようにユーザデバイス110の環境から収集されたノイズのあるオーディオデータ202を使用して各音声表現144rを1回または複数回、増強することによって増やされることが可能であるという前提で動作する。訓練プロセス200は、デバイス110におけるオーディオキャプチャデバイス116によって検出可能な可聴のサウンドをサンプリングすることによってノイズのあるオーディオデータ202を収集してよい。ここで、ノイズのあるオーディオデータ202は、ユーザ10の声を含まないことが可能であるが、それでも、ノイズのあるオーディオデータ202は、ノイズのあるオーディオデータ202が、ユーザ10の環境に固有であることが可能であり、したがって、ユーザ10が発話しているときにユーザデバイス102が典型的に遭遇するノイズに関連付けられることが可能な可聴のノイズに対応するため、ユーザ特有であると見做される。図1Aに示されるとおり、ユーザ10は、ユーザ10がデバイス110と対話するときの背景ノイズ14として固有のサウンドを生成する犬を有し得る。例えば、犬は、ユーザ10がデバイス110に音声コマンドを伝えるとき、遠吠えする、吠える、または鳴くことがあり得る。ユーザの犬が出すノイズを含む背景ノイズ14を収集することによって、訓練プロセス200は、ユーザ特有のノイズのあるオーディオサンプル204を形成することが可能である。さらに、ユーザ10は、鉄道の踏切近くに住んでおり、訓練プロセス200が、列車の警笛、鉄道の警告、および鉄道線路上を走る列車が生じるサウンドに関連付けられたノイズのあるオーディオデータ202を収集することが可能である。

ノイズのあるオーディオデータ202を集めたものを用いて、訓練プロセス200は、ノイズのあるオーディオサンプル204がユーザ10の環境に特有のノイズのあるオーディオデータ202を包含するため、元の訓練発話144をノイズのあるオーディオデータ202で増強して、ユーザ特有である1つまたは複数のノイズのあるオーディオサンプル204を生成することが可能である。複数の訓練発話144をノイズのあるオーディオデータ202で増強することによって、訓練プロセス200は、音声モデル146を訓練する際に使用するのに十分な数のノイズのあるオーディオサンプル204を生成することが可能である。この増強プロセスに基づいて、訓練プロセス200は、限られた決まった数の元の訓練発話144から、ノイズのあるオーディオサンプル204が、固定セットの訓練発話144からの1つまたは複数の訓練発話144と組み合わされたノイズのあるオーディオデータ202の1つまたは複数のサンプルの置換(permutations)となるように、多数のノイズのあるオーディオサンプル204を生成することができる。訓練プロセス200は、ユーザデバイス110(例えば、図1Aに示される)において個性化された音声モデル146を生成する、または中央の場所において利用可能な共有される音声モデル146を多数のデバイス110(例えば、図1Bに示される)に提供する微調整プロセスとして展開されることが可能である。

図1Bを特に参照すると、連合学習アプローチが、ユーザデバイス110のポピュレーション上で実行される訓練プロセス200を使用する場合、デバイス110が、前もって訓練されたモデル146を受け取り、微調整プロセスが、訓練プロセス200を使用してモデル146に対する更新208を生成し、更新208は、次に、中央の場所に再び伝えられて、共有されるモデル146、146sが形成される。ここで、更新208は、ユーザ特有のノイズのあるオーディオサンプル204でモデル146を訓練する訓練プロセス200に応答して生成される。したがって、各デバイス110は、遠隔システム130が、連合学習を使用してすべてのユーザ特有の更新208を共有されるモデル146sに組み込むことが可能であるように、それぞれのユーザ特有のノイズのあるオーディオサンプル204に基づく異なるユーザ特有の更新208を提供する。共有される音声モデル146sが音声認識モデルを含む実施例において、音声認識モデルは、多種多様なノイズのある環境にわたって音声を認識することができる。図1Bは、各デバイス110がそれぞれのユーザ10、10a～cに属する3つのデバイス110a～cを例示する。各デバイス110が、訓練されていないモデル146、または前もって訓練されたモデル146をユーザ特有のノイズのあるオーディオサンプル204で訓練することによって、それぞれのデバイス特有の更新208を生成すべく訓練プロセス200を別々に実行することが可能である。図示される実施例において、各デバイス110a、110b、110cの上で実行される訓練プロセス200が、音声システム140に送り返されて、連合学習を介して適用されて、共有される音声モデル146sを生成するようにそれぞれのデバイス特有の更新208a、208b、208cを生成する。一部の実施例において、更新208は、音声モデル146をユーザ特有のノイズのあるオーディオサンプル204で訓練した後のモデルパラメータ(例えば、モデル重み)および/または損失項の何らかの表現を含む。音声システム140が受け取る更新208のすべてに基づいて、音声システム140は、更新208をある程度、組み込む共有されるモデル146sを生成する。

図示されないものの、訓練プロセス200は、ユーザ10によって所有される、またはアクセス可能である多数のデバイス110に共有される単一のモデル146を訓練してよい。例えば、ユーザ10が、ユーザ10に関連付けられた合計で3つのデバイス110としてスマートウォッチ、スマートフォン、およびスマートスピーカを所有する。ここで、訓練プロセス200が、ユーザ10に関連付けられた各デバイス110からノイズのあるオーディオデータ202のサンプルを収集することが可能である。各デバイス110からのノイズのあるオーディオデータ202のこれらのサンプルを用いて、訓練プロセス200は、ユーザ10の音声を理解すべくこれらのデバイス110の間で共有されるモデル146を訓練してよい。具体的には、訓練プロセス200は、固定セットの訓練発話144からの1つまたは複数の訓練発話144をノイズのあるオーディオデータ202の1つまたは複数のサンプルで増強して、ユーザ10のデバイス110の間で共有されるモデル146を訓練するノイズのあるオーディオサンプル204を形成する。言い換えると、このアプローチは、ユーザ10に関連付けられたデバイス110に関して行われる連合学習アプローチに類似する。

図2Aおよび図2Bを参照すると、訓練プロセス200が、収集段210と、増強段220と、訓練段230とを含む。収集段210は、ノイズのあるオーディオデータ202のサンプルを生成すべく環境ノイズ14を収集するように構成される。一部の実施例において、デバイス110のデータ処理ハードウェア112のデジタルシグナルプロセッサが、訓練プロセス200のために収集段210として機能する。収集段210は、オーディオキャプチャデバイス116の検出可能範囲内の環境における可聴のノイズを収集してよい。収集段210は、様々な様態で環境ノイズ14を収集するように構成されてよい。1つのアプローチにおいて、収集段210は、訓練プロセス200を使用して微調整されているモデル146の種類に基づいて環境ノイズ14を収集する。例示すると、訓練プロセス200が、ホットワードモデルを実装するデバイス110の環境に対してホットワードモデルをよりうまく個性化すべく前もって訓練されたホットワードモデルを微調整している場合、収集段210は、ユーザ10がデバイス110と対話する時間(例えば、時間枠)中にノイズ14をサンプリングすることによって、環境ノイズ14を収集するように構成されてよい。例えば、収集段210は、ユーザ10とデバイス110との間の音声対話の直前、最中、または直後の期間中にノイズのあるオーディオデータ202のサンプルを収集する。特にホットワードモデルの場合、ホットワードがユーザ10によって発話12において発話された直前または直後の時間が、ノイズのあるオーディオデータ202を生成すべく背景ノイズ14をサンプリングするのに有益な時間であり得る。図2Aは、収集段210が、ノイズのあるオーディオデータ202、202aの第1のサンプルを生成すべく口頭の発話12の直前の背景ノイズ14、14aを収集すること、およびノイズのあるオーディオデータ202、202bの第2のサンプルを生成すべく口頭の発話12の直後の背景ノイズ14、14bを収集することを例示する。対照的に、モデル146が音声認識モデルである場合、収集段210は、ユーザ10とデバイス110との間の口頭の対話中に背景ノイズ14をサンプリングしようと試みることが可能である。

一部の実装形態において、収集段210は、音声システム140から受け取られる固定セットの訓練発話144の中の特定の訓練発話144に類似するオーディオサンプルを収集するようにさらに構成される。特定の訓練発話144に類似するオーディオサンプルを収集するのに、収集段210は、デバイス110において口頭の発話12をサンプリングして、口頭の発話12が特定の訓練発話144に対して音声学的類似性を有するかどうかを判定してよい。この判定を行うべく、収集段210は、口頭の発話12に関する埋め込みを、訓練発話144に関する埋め込み(例えば、音声表現144r)と比較することが可能である(例えば、埋め込みモデルを使用して)。一部の実施例において、収集段210は、音声学的類似性に関してこの埋め込み比較を実行すべく、音声モデル146に関連付けられた埋め込みモデル(例えば、音声モデル146に関連付けられた音響モデル(AM))と連携して働く。一部の構成において、収集段210は、音声学的に類似すると見做されるための訓練発話144と収集されたオーディオサンプルとの間の最小限の距離を識別する音声学的類似性しきい値(例えば、調整可能な音声学的類似性しきい値)を含む。音声学的類似性しきい値を有することによって、収集段210は、否定的な訓練サンプルが、音声学的類似性のため、認識するのが困難な肯定的なサンプルとして実際に指定されることになる潜在的な難題を回避することが可能である。実施例として、「やあ、Google」というホットワードを検出するように訓練されているホットワードモデルが、ホットワードモデルによって誤って検出される可能性がある「やあ、コンピュータ」という否定的な訓練例を有する。この実施例において、収集段210は、「やあ、Google」と「やあ、コンピュータ」との間にある程度の音声学的類似性を識別することが可能であるが、これらの句の間の距離は、音声学的類似性しきい値を満たさない。この実施例において、音声学的類似性しきい値を満たすことができないことは、これら2つの句が「やあ、コンピュータ」が「やあ、Google」の認識するのが困難な肯定的な例として識別されるべきであるとするには十分に類似していないことを意味する。

一部の構成において、収集段210は、収集段210がデバイス110のユーザ10がデバイス110と頻繁に対話するときの何らかのコンテクストおよび/または時間枠を判別するときのノイズのあるオーディオデータ202を形成すべく背景ノイズ14の1つまたは複数のサンプルを収集する。例えば、デバイス110が、第1のユーザ10の自宅に配置される。平日中(例えば、月曜日から金曜日まで)、ユーザ10が、平日の一日が始まる前(例えば、午前6時から午前8時までの間)、および、次いで、平日の一日が終わった後(例えば、午後6時から午後10時までの間)にデバイス110と頻繁に対話する傾向がある。ここで、月曜日から金曜日まで、収集段210は、午前6時～午前8時、および午後6時～午後10時の時間枠に関して、午前8時～午後6時の時間枠と比べて、背景ノイズのより多くの数のサンプルを収集してよい。異なる実施例として、第2のユーザ10が、様々な顧客のところまで行くべく、または売り込みの電話をかけるべく、ユーザのデバイス110上のアシスタントアプリケーションを使用する傾向がある販売外交員であってよい。このことは、ユーザ10が、平日の一日の間の午前9時から午後5時までの時間帯にユーザの声を使用してデバイス110と最も頻繁に対話することを意味する。収集段210が、対話行動のこれらの時間(例えば、時間枠)および/またはコンテクストパターンを判別したとき、収集段210は、頻繁な対話のこれらの期間中、背景ノイズ14のサンプルを収集するように構成されてよい。

さらに、または代替として、収集段210は、デバイス110の環境内の背景ノイズ14をランダムにサンプリングするように構成されてよい。一部の実施例において、収集段210が、環境におけるノイズのあるオーディオデータ202をランダムにサンプリングするとき、収集段210は、サンプルがデバイス110とのユーザ10の対話と一致する場合、ノイズのあるオーディオデータ202の1つまたは複数のサンプルに重み212を付加してよい。例えば、図2Aおよび図2Bが、第1の重み212、212aが、ノイズのあるオーディオデータ202aの第1のサンプルに関連付けられてよい一方で、第2の重み212、212bが、ノイズのあるオーディオデータ202bの第2のサンプルに関連付けてよいことを例示する。収集段210が重み212を付加する場合の例として、収集段210が、ユーザ10がデバイス110と頻繁に対話する時点でサンプルが生じた場合にノイズのあるオーディオデータ202のサンプルに重みを付加する。例えば、収集段210が、前述される第1のユーザ10に関して午前6時から午前8時までの時間中にノイズのあるオーディオデータ202のランダムなサンプルを収集する場合、収集段210は、そのサンプルがモデル146を訓練している際に関連性がある見込みがより高いことを識別すべくノイズのあるオーディオデータ202のそのランダムなサンプルに重み212を付加する。

増強段220は、固定セットの訓練発話144における各音声表現144rに関して1つまたは複数のノイズのあるオーディオサンプル204を生成するように構成される。増強段220は、収集段210によってサンプリングされたノイズのあるオーディオデータ202を対応する訓練発話144の音声表現144rと組み合わせることによってそれぞれのノイズのあるオーディオサンプル204を生成する。ここで、ノイズのあるオーディオサンプル204は、ノイズのあるオーディオデータ202の単一のサンプルから形成されてよく、または収集段210において収集されたノイズのあるオーディオデータ202の多数のサンプルから形成されてよく、単一のノイズのあるオーディオサンプル204が、一度に一緒に混合されたノイズのあるオーディオデータ202の任意の数のサンプルから構築されてよい。例えば、犬が吠えていることに対応するノイズのあるオーディオデータ202の第1のサンプルが、幼児が泣いていることに対応するノイズのあるオーディオデータ202の第2のサンプルと混合されることが可能であり、次に、固定セットの訓練発話144からの訓練発話144と組み合わされて、単一のノイズのあるオーディオサンプル204を形成することが可能である。増強段220は、ノイズのあるオーディオデータ202を訓練発話144とランダムに混合してよく、またはノイズのあるオーディオデータ202を訓練発話144と体系的な様態で混合してよい。前段で簡単に説明したとおり、増強段220は、ノイズのあるオーディオサンプル204を形成する際、固定セットの訓練発話144からの訓練発話144をフィルタリングしてよく、または変更してよい。このことは、訓練発話144をノイズのあるオーディオデータ202の1つまたは複数のサンプルと組み合わせる際、訓練発話144をスライスすること、または切り詰めることを含んでよい。

増強段220がノイズのあるオーディオサンプル204を生成すると、増強段220は、ノイズのあるオーディオサンプル204を、ノイズのあるオーディオデータ202によって増強された音声表現144rとペアリングされた訓練発話144の対応するトランスクリプション144tとペアリングしてよい。言い換えると、新たに形成されたノイズのあるオーディオサンプル204は、基礎にある訓練発話144のラベルを想定してよい。例示すると、訓練発話144に、ホットワードモデルを訓練するための肯定的な訓練例というラベルが付けられる場合、その訓練発話144に関する対応する音声表現144rが、ノイズのあるオーディオサンプル204を形成すべくノイズのあるオーディオデータ202によって増強されるとき、ノイズのあるオーディオサンプル204もまた、ユーザ10のデバイス110に特有の背景ノイズ14をさらに組み込む肯定的な訓練例となる。ホットワードの肯定的な訓練例の実質は、変わらないままであるので、訓練発話144に関するラベルは、ノイズのあるオーディオサンプル204に関して存続する。同一の概念が、訓練発話144に対応するトランスクリプション144tに同様に当てはまる。例えば、音声表現144rに関して生成された1つまたは複数のノイズのあるオーディオサンプル204のそれぞれが、音声認識モデルを訓練するためのグラウンドトゥルース(ground-truth)ラベルとしてその音声表現144rとペアリングされた対応するトランスクリプション144tを想定してよい。

訓練段230が、個性化された音声モデル146Pを生成するのに使用するために増強段220からノイズのあるオーディオサンプル204、204a～nを受け取る。一部の実施例において、訓練段230は、ノイズのあるオーディオサンプル204、およびデバイス110上の訓練されていない音声モデル146または前もって訓練された音声モデル146をローカルで(例えば、デバイス110のメモリハードウェア114に)キャッシュする。訓練段230は、個性化された音声モデル146Pを形成すべく音声モデル146の微調整を実行する。訓練段230は、訓練段230が損失項を反復的に生成し、個性化された音声モデル146Pをもたらすべくパラメータを更新する勾配降下法などの技術の使用を通じて、ノイズのあるオーディオサンプル204を使用して音声モデル146を微調整してよい。

図2Bなどの一部の構成において、訓練プロセス200は、音声システム140からの固定セットの訓練発話144の中の訓練発話144をノイズ除去するように構成されたノイズ除去段240も含む。ノイズ除去とは、既存のノイズを除去するプロセスを指す。既存のノイズを除去することによって、ノイズ除去段240は、増強段220がノイズのあるオーディオサンプル204を生成するのに使用する背景ノイズ14が、1つまたは複数の訓練発話144に関連付けられたノイズと混同されないことを確実にするのを助けることが可能である。言い換えると、ノイズ除去段240が1つまたは複数の訓練発話144内の既存のノイズを除去しない場合、既存のノイズは、訓練段230中、個性化された音声モデル146Pを生成することに関するノイズのあるオーディオサンプル204の訓練有効性を潜在的に危うくする可能性がある誤りを伝播させる可能性がある。さらに、訓練発話144は、デバイス110のユーザ10によって発話された発話12である見込みが低いので、既存のノイズが、ユーザ特有であるものと誤って解釈される、または重みを付けられる可能性がある。既存のノイズを除去する際、ノイズ除去段240によるこの除去は、増強段220が訓練発話114をノイズのあるオーディオデータ202と組み合わせてノイズのあるオーディオサンプル204を形成する前に、発生器220が訓練発話144をノイズ除去するように、増強段220に先立って行われてよい。さもなければ、発生器230は、ノイズのあるオーディオデータ202とともに背景ノイズ14も導入されている場合、訓練発話144からノイズを分離するのに困難を有する可能性がある。

一部の実装形態において、訓練プロセス200は、収集段210によって収集されたノイズのあるオーディオデータ202に基づいて、特定の訓練発話144に関してどのようにノイズを生成するのが最善であるかを学習する機械学習モデルをさらに実装する。これらの実装形態において、機械学習モデルは、増強段220と連携してノイズ発生器として動作して、個性化された音声モデル146Pを生成するための訓練例として使用されるように最適化されたノイズのあるオーディオサンプル204を生成する。ノイズのあるオーディオサンプルを生成する学習のこの機能は、特定の種類の背景ノイズ14が、他のものと比べてユーザの環境により固有であり得るという事実に依拠する。

図3は、音声モデル146を訓練する方法300に関する動作の例示的な構成を示すフローチャートである。動作302において、方法300は、音声対応デバイス110において、固定セットの訓練発話144、144a～nを受け取り、固定セットの訓練発話144、144a～nの中の各訓練発話144は、対応する訓練発話144の対応する音声表現144rとペアリングされた対応するトランスクリプション144tを含む。動作304において、方法300は、音声対応デバイス110の環境からノイズのあるオーディオデータ202をサンプリングする。固定セットの訓練発話144、144a～nの中の各訓練発話144に関して、方法300は、動作306、306a～bを実行する。動作306aにおいて、方法300は、音声対応デバイス110の環境からサンプリングされたノイズのあるオーディオデータ202を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル204を生成すべく対応する訓練発話144の対応する音声表現144rを増強する。動作306bにおいて、方法300は、1つまたは複数の対応するノイズのあるオーディオサンプル204のそれぞれを対応する訓練発話144の対応するトランスクリプション144tとペアリングする。動作308において、方法300は、音声モデル146を固定セットの訓練発話144、144a～nにおける各音声表現144rに関して生成された1つまたは複数の対応するノイズのあるオーディオサンプル204で訓練する。

図4は、本明細書において説明されるシステム(例えば、音声システム140)および方法(例えば、訓練プロセス200および/または方法300)を実装するのに使用されてよい例示的なコンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図する。本明細書において示される構成要素、構成要素の接続および関係、ならびに構成要素の機能は、単に例示的であることが意図され、本明細書において説明され、かつ/または主張される本発明の実装形態を限定することは意図していない。

コンピューティングデバイス400は、プロセッサ410と、メモリ420と、ストレージデバイス430と、メモリ420に接続された高速インターフェース/コントローラ440と、高速拡張ポート450と、低速バス470およびストレージデバイス430に接続された低速インターフェース/コントローラ460とを含む。構成要素410、420、430、440、450、および460のそれぞれは、様々なバスを使用して互いに接続され、共通のマザーボード上に、または適宜、他の様態で実装されてよい。プロセッサ410は、高速インターフェース440に結合されたディスプレイ480などの外部入出力デバイス上のグラフィカルユーザインターフェース(GUI)のためにグラフィカル情報を表示すべく、メモリ420に、またはストレージデバイス430に記憶された命令を含む、コンピューティングデバイス400内で実行するための命令を処理することが可能である。他の実装形態において、多数のプロセッサおよび/または多数のバスが、多数のメモリ、および多数の種類のメモリと一緒に、適宜、使用されてよい。また、多数のコンピューティングデバイス400が、各デバイスが必要な動作の一部を提供して、接続されてよい(例えば、サーババンクとして、ブレードサーバのグループとして、またはマルチプロセッサシステムとして)。

メモリ420は、コンピューティングデバイス400内で情報を一時的にではなく記憶する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的なメモリ420は、コンピューティングデバイス400による使用のために一時的にまたは恒久的にプログラム(例えば、命令のシークエンス)またはデータ(例えば、プログラム状態情報)を記憶するのに使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電気的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(例えば、通常、ブートプログラムなどのファームウェアのために使用される)を含むが、これらには限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含むが、これらには限定されない。

ストレージデバイス430は、コンピューティングデバイス400のための大容量ストレージを提供することができる。一部の実装形態において、ストレージデバイス430は、コンピュータ可読媒体である。様々な異なる実装形態において、ストレージデバイス430は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の類似したソリッドステートメモリデバイス、あるいはストレージエリアネットワーク構成もしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。さらなる実装形態において、コンピュータプログラム製品が、情報キャリアとして有形に実体化される。コンピュータプログラム製品は、実行されると、前述した方法などの1つまたは複数の方法を実行する命令を包含する。情報キャリアは、メモリ420、ストレージデバイス430、またはプロセッサ410上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ440は、コンピューティングデバイス400のための帯域幅を多く使用する動作を管理する一方で、低速コントローラ460は、帯域幅をそれほど多く使用しない動作を管理する。デューティのそのような割当ては、単に例示的である。一部の実装形態において、高速コントローラ440は、メモリ420、ディスプレイ480(例えば、グラフィックスプロセッサまたはグラフィックスアクセラレータを介して)に結合され、様々な拡張カード(図示せず)を受け付けることが可能な高速拡張ポート450にも結合される。一部の実装形態において、低速のコントローラ460が、ストレージデバイス430および低速拡張ポート490に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含んでよい低速拡張ポート490が、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに結合されてよい。

コンピューティングデバイス400は、図に示されるとおり、いくつかの異なる形態で実装されてよい。例えば、標準のサーバ400aとして、複数回そのようなサーバ400aのグループとして、ラップトップコンピュータ400bとして、またはラックサーバシステム400cの一部として実装されてよい。

本明細書において説明されるシステムおよび技術の様々な実装形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/あるいはこれらの組み合わせにおいて実現されることが可能である。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間でデータおよび命令を受信し、データおよび命令を送信するべく結合された、専用であっても、汎用であってもよい、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能であり、かつ/または解釈可能である1つまたは複数のコンピュータプログラムとしての実装を含むことが可能である。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型プログラミング言語および/またはオブジェクト指向プログラミング言語、ならびに/あるいはアセンブリ/機械言語として実装されることが可能である。本明細書において使用される「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを与えるのに使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、コンピュータ可読装置および/またはコンピュータ可読デバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを与えるのに使用される任意の信号を指す。

本明細書において説明されるプロセスおよび論理フローは、入力データを操作すること、および出力を生成することによって機能を実行すべく1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる、1つまたは複数のプログラマブルプロセッサによって実行されることが可能である。また、プロセスおよび論理フローは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されることも可能である。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取り専用メモリから、またはランダムアクセスメモリから、あるいはその両方から命令およびデータを受け取る。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量ストレージデバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクも含む、あるいはそのようなストレージデバイスからデータを受信するように、またはそのようなストレージデバイスにデータを転送するように、あるいはその両方を行うように動作上、結合されもする。しかし、コンピュータは、そのようなデバイスを有さなくてもよい。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクもしくはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補足されること、または専用論理回路に組み込まれることが可能である。

ユーザとの対話を可能にすべく、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンを有し、オプションとして、ユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールを有するコンピュータ上に実装されることが可能である。他の種類のデバイスが、ユーザとの対話をもたらすのに使用されることも可能であり、例えば、ユーザに与えられるフィードバックが、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることが可能であり、ユーザからの入力が、音響入力、音声入力、または触覚入力を含む任意の形態で受け取られることが可能である。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送信すること、およびユーザによって使用されるデバイスから文書を受信することによって、例えば、ユーザのクライアントデバイス上のウェブブラウザに、そのウェブブラウザから受信された要求に応答してウェブページを送信することによって、ユーザと対話することが可能である。

いくつかの実装形態が、説明されてきた。それでも、本開示の趣旨および範囲を逸脱することなく、様々な変形形態が作成されてよいことが理解されよう。したがって、他の実装形態が、添付の特許請求の範囲に含まれる。

10、10a、10b、10c ユーザ
12 発話
14 環境ノイズ
14a、14b 背景ノイズ
100 音声システム
110、110a、110b、110c 音声対応デバイス
112、134 データ処理ハードウェア
114、136 メモリハードウェア
116 オーディオキャプチャデバイス
120 ネットワーク
130 遠隔システム
132 遠隔リソース
140 音声システム
144、144a～n 訓練発話
144r 音声表現
144t トランスクリプション
146、146s、146P モデル
200 訓練プロセス
202、202a、202b オーディオデータ
204、204a～n オーディオサンプル
212、212a、212b 重み
208、208a、208b、208c 更新
210 収集段
220 増強段
230 訓練段
240 発生段
300 方法
400 コンピューティングデバイス
400a 標準のサーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
410 プロセッサ
420 メモリ
430 ストレージデバイス
440、460 コントローラ
450 拡張ポート
470 バス
480 ディスプレイ

Claims

音声対応デバイス(110)のデータ処理ハードウェア(112)において、固定セットの訓練発話(144)を受け取るステップであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する前記訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ステップと、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングするステップであって、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠を獲得するステップと、
前記音声対応デバイス(110)の前記ユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときの前記獲得されたコンテクストおよび/または時間枠の最中に前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングするステップと
を含む、ステップと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するステップと、
前記データ処理ハードウェア(112)により、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングするステップと
を含む、ステップと、
前記データ処理ハードウェア(112)により、前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練するステップと
を含む、方法(300)。
音声対応デバイス(110)のデータ処理ハードウェア(112)において、固定セットの訓練発話(144)を受け取るステップであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する前記訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ステップと、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングするステップであって、
前記音声対応デバイス(110)の前記環境から一日中ずっとノイズのあるオーディオデータ(202)をランダムにサンプリングするステップと、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠の最中に前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)のいずれかに重み(212)を付加するステップと
を含む、ステップと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するステップと、
前記データ処理ハードウェア(112)により、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングするステップと
を含む、ステップと、
前記データ処理ハードウェア(112)により、前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練するステップと
を含む、方法(300)。
前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングするステップは、前記音声対応デバイス(110)と前記音声対応デバイス(110)に関連付けられたユーザ(10)との間の音声対話の直前、最中、または直後のうちの少なくとも1つにおいて、前記音声対応デバイス(110)の前記環境からノイズ(14)をランダムにサンプリングするステップを含む、請求項1または2に記載の方法(300)。
前記データ処理ハードウェア(112)のデジタルシグナルプロセッサ(DSP)は、前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングする、請求項1から3のいずれか一項に記載の方法(300)。
前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するのに先立って、前記データ処理ハードウェア(112)により、既存のノイズを除去すべく前記対応する音声表現(144r)をノイズ除去するステップをさらに含む、請求項1から4のいずれか一項に記載の方法(300)。
前記音声モデル(146)が音声認識モデルを含む場合、前記固定セットの訓練発話(144)における各音声表現(144r)と、前記対応する音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)の各ノイズのあるオーディオサンプル(204)とに関して、
前記データ処理ハードウェア(112)により、前記音声モデル(146)による出力のために、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる対応する確率分布を決定するステップと、
前記データ処理ハードウェア(112)により、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる前記対応する確率分布に基づいて損失項を生成するステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法(300)。
前記音声モデル(146)を訓練するステップは、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を使用して、前記音声認識モデルのパラメータを更新するステップを含む、請求項6に記載の方法(300)。
前記音声モデル(146)を訓練するステップは、
中央サーバ(130)に、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を送信するステップを含み、
前記中央サーバ(130)は、
前記音声対応デバイス(110)の前記データ処理ハードウェア(112)から受信された前記損失項と、
他の対応する音声対応デバイス(110)によってサンプリングされた様々なノイズのあるオーディオデータ(202)に基づく、それぞれの他の音声対応デバイス(110)から受信される他の損失項と
に基づいて、連合学習を使用してサーバ側の音声認識モデルのパラメータを更新するように構成される、請求項6または7に記載の方法(300)。
少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)の生のオーディオ波形を含む、請求項1から8のいずれか一項に記載の方法(300)。
少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)のオーディオ特徴表現を含む、請求項1から9のいずれか一項に記載の方法(300)。
前記固定セットの訓練発話(144)の中の少なくとも1つの訓練発話(144)に関して、
前記データ処理ハードウェア(112)により、
前記対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似し、かつ
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なるそれぞれのトランスクリプションとペアリングされている、
前記音声対応デバイス(110)の前記環境からサンプリングされた対応する口頭の発話を獲得するステップをさらに含み、
前記固定セットの訓練発話(144)および前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で前記音声モデル(146)を訓練するステップは、前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話にさらに基づく、請求項1から10のいずれか一項に記載の方法(300)。
前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して前記対応する口頭の発話を獲得するステップは、
前記音声対応デバイス(110)の前記環境から前記対応する口頭の発話をサンプリングするステップと、
前記環境からサンプリングされた前記対応する口頭の発話が、前記少なくとも1つの対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似することを、前記対応する口頭の発話に関して生成されたそれぞれの埋め込みと前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)に関して生成されたそれぞれの埋め込みとの比較に基づいて判定するステップと、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記対応する口頭の発話の前記それぞれのトランスクリプションを獲得するステップと、
前記対応する口頭の発話の前記それぞれのトランスクリプションが、前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なることを判定するステップと
を含む、請求項11に記載の方法(300)。
埋め込みモデル、または前記音声モデル(146)の一部分が、前記対応する口頭の発話、および前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)のそれぞれに関してそれぞれの埋め込みを生成する、請求項12に記載の方法(300)。
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)は、特定の固定項の口頭の表現を表し、
前記音声モデル(146)は、特定の固定項を検出すべく訓練されたホットワード検出モデルを含み、
前記特定の固定項を検出すべく前記ホットワード検出モデルを訓練することは、前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話を否定的な訓練サンプルとして使用することを含む、請求項11から13のいずれか一項に記載の方法(300)。
前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングした後、前記データ処理ハードウェア(112)により、前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)に、前記1つまたは複数の対応するノイズのあるサンプルのそれぞれと前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)との前記ペアリングを記憶するステップをさらに含む、請求項1から14のいずれか一項に記載の方法(300)。
システム(100)であって、
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)であって、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声対応デバイス(110)において、固定セットの訓練発話(144)を受け取ることであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ことと、
前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングすることであって、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠を獲得することと、
前記音声対応デバイス(110)の前記ユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときの前記獲得されたコンテクストおよび/または時間枠の最中に前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングすることと
を含む、ことと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強することと、
前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングすることと
を行う、ことと、
前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練することと
を含む動作を実行させる命令を記憶している、メモリハードウェアと
を備える、システム(100)。
システム(100)であって、
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)であって、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
音声対応デバイス(110)において、固定セットの訓練発話(144)を受け取ることであって、前記固定セットの訓練発話(144)の中の各訓練発話(144)は、対応する訓練発話(144)の対応する音声表現(144r)とペアリングされた対応するトランスクリプション(144t)を含む、ことと、
前記音声対応デバイス(110)の環境からノイズのあるオーディオデータ(202)をサンプリングすることであって、
前記音声対応デバイス(110)の前記環境から一日中ずっとノイズのあるオーディオデータ(202)をランダムにサンプリングすることと、
前記音声対応デバイス(110)のユーザ(10)が前記音声対応デバイス(110)と頻繁に対話するときのコンテクストおよび/または時間枠の最中に前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)のいずれかに重み(212)を付加することと
を含む、ことと、
前記固定セットの訓練発話(144)の中の各訓練発話(144)に関して、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記ノイズのあるオーディオデータ(202)を使用して、1つまたは複数の対応するノイズのあるオーディオサンプル(204)を生成すべく前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強することと、
前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングすることと
を行う、ことと
前記固定セットの訓練発話(144)における各音声表現(144r)に関して生成された前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で音声モデル(146)を訓練することと
を含む動作を実行させる命令を記憶している、メモリハードウェアと
を備える、システム(100)。
前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングすることは、前記音声対応デバイス(110)と前記音声対応デバイス(110)に関連付けられたユーザ(10)との間の音声対話の直前、最中、または直後のうちの少なくとも1つにおいて、前記音声対応デバイス(110)の前記環境からノイズ(14)をランダムにサンプリングすることを含む、請求項16または17に記載のシステム(100)。
前記データ処理ハードウェア(112)のデジタルシグナルプロセッサ(DSP)は、前記音声対応デバイス(110)の前記環境から前記ノイズのあるオーディオデータ(202)をサンプリングする、請求項16から18のいずれか一項に記載のシステム(100)。
前記動作は、前記対応する訓練発話(144)の前記対応する音声表現(144r)を増強するのに先立って、既存のノイズを除去すべく前記対応する音声表現(144r)をノイズ除去することをさらに含む、請求項16から19のいずれか一項に記載のシステム(100)。
前記動作は、前記音声モデル(146)が音声認識モデルを含む場合、前記固定セットの訓練発話(144)における各音声表現(144r)と、前記対応する音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)の各ノイズのあるオーディオサンプル(204)とに関して、
前記音声モデル(146)による出力のために、前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる対応する確率分布を決定すること、および
前記対応する音声表現(144r)または前記対応するノイズのあるオーディオサンプル(204)に関する可能な音声認識仮説にわたる前記対応する確率分布に基づいて損失項を生成することをさらに含む、請求項16から20のいずれか一項に記載のシステム(100)。
前記音声モデル(146)を訓練することは、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を使用して、前記音声認識モデルのパラメータを更新することを含む、請求項21に記載のシステム(100)。
前記音声モデル(146)を訓練することは、中央サーバ(130)に、
(i)前記固定セットの訓練発話(144)における各音声表現(144r)、および
(ii)前記固定セットの訓練発話(144)における対応する各音声表現(144r)に関して生成された前記1つまたは複数のノイズのあるオーディオサンプル(204)のそれぞれのノイズのあるオーディオサンプル(204)
に関して生成された前記損失項を送信することを含み、
前記中央サーバ(130)は、
前記音声対応デバイス(110)の前記データ処理ハードウェア(112)から受信される前記損失項と、
他の対応する音声対応デバイス(110)によってサンプリングされた様々なノイズのあるオーディオデータ(202)に基づく、それぞれの他の音声対応デバイス(110)から受信される他の損失項と
に基づいて、連合学習を使用してサーバ側の音声認識モデルのパラメータを更新するように構成される、請求項21または22に記載のシステム(100)。
少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)の生のオーディオ波形を含む、請求項16から23のいずれか一項に記載のシステム(100)。
少なくとも1つの訓練発話(144)に関する前記対応する音声表現(144r)は、前記対応する訓練発話(144)のオーディオ特徴表現を含む、請求項16から24のいずれか一項に記載のシステム(100)。
前記動作は、前記固定セットの訓練発話(144)の中の少なくとも1つの訓練発話(144)に関して、
前記対応する訓練発話(144)の前記対応する音声表現(144r)に音声学的に類似し、かつ
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なるそれぞれのトランスクリプションとペアリングされている、
前記音声対応デバイス(110)の前記環境からサンプリングされた対応する口頭の発話を獲得することをさらに含み、
前記固定セットの訓練発話(144)および前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)で前記音声モデル(146)を訓練することは、前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話にさらに基づく、請求項16から25のいずれか一項に記載のシステム(100)。
前記固定セットの訓練発話(144)の中の前記少なくとも1つの訓練発話(144)に関して前記対応する口頭の発話を獲得することは、
前記音声対応デバイス(110)の前記環境から前記対応する口頭の発話をサンプリングすること、
前記環境からサンプリングされた対応する口頭の発話が、前記少なくとも1つの対応する訓練発話(144)の対応する音声表現(144r)に音声学的に類似することを、対応する口頭の発話に関して生成されたそれぞれの埋め込みと前記少なくとも1つの訓練発話(144)の対応する音声表現(144r)に関して生成されたそれぞれの埋め込みとの比較に基づいて判定すること、
前記音声対応デバイス(110)の前記環境からサンプリングされた前記対応する口頭の発話の前記それぞれのトランスクリプションを獲得すること、および
前記対応する口頭の発話の前記それぞれのトランスクリプションが、前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)とペアリングされた前記対応するトランスクリプション(144t)とは異なることを判定すること
を含む、請求項26に記載のシステム(100)。
埋め込みモデル、または前記音声モデルの一部分が、前記対応する口頭の発話、および前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)のそれぞれに関してそれぞれの埋め込みを生成する、請求項27に記載のシステム(100)。
前記少なくとも1つの訓練発話(144)の前記対応する音声表現(144r)は、特定の固定項の口頭の表現を表し、
前記音声モデルは、特定の固定項を検出すべく訓練されたホットワード検出モデルを含み、
前記特定の固定項を検出すべく前記ホットワード検出モデルを訓練することは、前記少なくとも1つの訓練発話(144)に関して獲得された前記対応する口頭の発話を否定的な訓練サンプルとして使用することを含む、請求項26から28のいずれか一項に記載のシステム(100)。
前記動作は、前記1つまたは複数の対応するノイズのあるオーディオサンプル(204)のそれぞれを前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)とペアリングした後、前記データ処理ハードウェア(112)により、前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)に、前記1つまたは複数の対応するノイズのあるサンプルのそれぞれと前記対応する訓練発話(144)の前記対応するトランスクリプション(144t)との前記ペアリングを記憶することをさらに含む、請求項16から29のいずれか一項に記載のシステム(100)。