JP7335460B2

JP7335460B2 - テキストエコー消去

Info

Publication number: JP7335460B2
Application number: JP2022576155A
Authority: JP
Inventors: チュアン・ワン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-06-10
Filing date: 2021-03-11
Publication date: 2023-08-29
Anticipated expiration: 2041-03-11
Also published as: KR20230020508A; US20210390975A1; JP2023529699A; US11482244B2; WO2021252039A1; US20230114386A1; EP4139920A1; EP4139920B1; CN115699170A; JP2023162265A; US11776563B2

Description

本開示は、テキストエコー消去に関する。

オーディオシステムがオーディオを取り込み送信するとき、これらの周辺デバイスはエコーを受けることがある。エコーは一般的に、オーディオ再生デバイス(例えば、スピーカ)から生成される可聴信号が可聴環境(例えば、空気)を通じて可聴波の形態において伝搬し、その波の変更されたバージョンが反射してマイクロフォンに戻るときに生じる。エコーの別の形態は電気的エコーであり、これは、オーディオ再生デバイス(例えば、スピーカ)とマイクロフォンとの間での望ましくない電気的結合効果のために起こる。このようなエコー経路によって生成された信号はその後、オーディオエコーとして送信されることになる。エコーは、例えば、周辺機器の近接または周辺機器の品質などのさまざまな要因によって起こることがある。エコーは1つまたは複数のデバイスが音声処理を実行している音声対応環境内で起こるので、エコーは音声処理の精度に悪影響を有することがあるため、デバイスおよび/または音声システムにおいてのユーザの体験に影響を及ぼす。ますます多くの人々がエコーを受けるシステムを使用して通信するにつれて、エコー消去のシステムおよび方法が、エコーによって影響される音声処理の品質を改善するために実装されてもよい。

本開示の一態様は、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供し、動作は、合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信する動作と、合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化する動作とを含む。動作はまた、キャラクタのシーケンス内の各キャラクタについて、テキスト埋め込み表現を使用して、それぞれの消去確率を生成する動作と、重複オーディオ信号とキャラクタのシーケンス内の各キャラクタについて生成されたそれぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、合成再生オーディオのセグメントを重複オーディオ信号から除去することによって改善オーディオ信号を生成する動作とを含む。各それぞれの消去確率は、対応するキャラクタが、重複オーディオ信号内で話者によって発話されたオーディオに重複する合成再生オーディオのセグメントに関連する尤度を示す。

本開示の実装形態は、以下の任意選択的な特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態において、キャラクタのシーケンスを符号化する動作は、キャラクタ埋め込み列を生成するためにキャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化する動作を含む。これらの実装形態において、その重複オーディオ信号はフレームのシーケンスを含むことができ、キャラクタのシーケンス内の各キャラクタについてそれぞれの消去確率を生成する動作は、対応するキャラクタ埋め込みが重複オーディオ信号のフレームのシーケンス内のフレームのうちの1つに対応するときに対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用する動作を含むことができる。フレームのシーケンス内の各フレームは、合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオの一部に対応する。

テキスト/音声変換(TTS)システムが、キャラクタのシーケンスを、合成再生オーディオを含む合成音声に変換してもよい。任意選択的に、テキスト埋め込み表現は、単一の、固定次元のテキスト埋め込みベクトルを含んでもよい。いくつかの例において、テキスト符号化ニューラルネットワークのテキストエンコーダが、合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化する。これらの例において、テキストエンコーダは、キャラクタのシーケンスから合成再生オーディオを生成するように構成されるTTSシステムによって共有されてもよい。

いくつかの実装形態において、動作は、複数のトレーニング例を用いて消去ニューラルネットワークをトレーニングする動作をさらに含み、各トレーニング例は、非合成音声に対応するグランドトゥルースオーディオ信号と、合成オーディオ信号に重複するグランドトゥルースオーディオ信号を含むトレーニング用重複オーディオ信号と、合成オーディオ信号のそれぞれのテキスト表現とを含む。ここで、テキスト表現はキャラクタのシーケンスを含む。

消去ニューラルネットワークは、複数のLSTM層を有する長短期記憶(LSTM)ネットワークを含んでもよい。動作は、合成再生オーディオのテキスト表現が利用可能であることの指示を受信する動作をさらに含んでもよい。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含むシステムを提供する。メモリハードウェアは、データ処理ハードウェアによって実行されるとデータ処理ハードウェアに動作を実行させる命令を記憶し、動作は、合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信する動作と、合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化する動作とを含む。動作はまた、キャラクタのシーケンス内の各キャラクタについて、テキスト埋め込み表現を使用して、それぞれの消去確率を生成する動作と、重複オーディオ信号とキャラクタのシーケンス内の各キャラクタについて生成されたそれぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、合成再生オーディオのセグメントを重複オーディオ信号から除去することによって改善オーディオ信号を生成する動作とを含む。各それぞれの消去確率は、対応するキャラクタが、重複オーディオ信号内で話者によって発話されたオーディオに重複する合成再生オーディオのセグメントに関連する尤度を示す。

この態様は、以下の任意選択的な特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態において、キャラクタのシーケンスを符号化する動作は、キャラクタ埋め込み列を生成するためにキャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化する動作を含む。これらの実装形態において、その重複オーディオ信号はフレームのシーケンスを含むことができ、キャラクタのシーケンス内の各キャラクタについてそれぞれの消去確率を生成する動作は、対応するキャラクタ埋め込みが重複オーディオ信号のフレームのシーケンス内のフレームのうちの1つに対応するときに対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用する動作を含むことができる。フレームのシーケンス内の各フレームは、合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオの一部に対応する。

本開示の1つまたは複数の実装形態の詳細が、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、明細書および図面から、ならびに特許請求の範囲から明らかであろう。

例示的な音声環境の概略図である。図1の音声環境の例示的なテキストエコー消去システムの概略図である。図1の音声環境の例示的なテキストエコー消去システムの概略図である。図1の音声環境の例示的なテキストエコー消去システムの概略図である。テキストエンコーダをテキスト/音声変換システムと共有する例示的なテキストエコー消去システムの概略図である。注意メカニズムのない例示的なテキストエコー消去システムの概略図である。図1のテキストエコー消去システムをトレーニングするための例示的なトレーニングプロセスの概略図である。エコーを消去するために改善オーディオ信号を生成する方法の動作の例示的な構成のフローチャートである。本明細書に記載されるシステムおよび方法を実装するために使用されてもよい例示的なコンピューティングデバイスの概略図である。

さまざまな図面内の同様の参照符号は同様の要素を示す。

音声対応デバイスは、合成再生オーディオを生成し、音声環境内の1人または複数人のユーザに合成再生オーディオを伝達することが可能である。ここで、合成再生オーディオとは、人間または音声対応デバイスの外部の他の可聴音源ではなく、音声対応デバイス自体または音声対応デバイスに関連する機械処理システムに由来する、音声対応デバイスによって生成されるオーディオを指す。一般的に言えば、音声対応デバイスは、テキスト/音声変換(TTS)システムを使用して合成再生オーディオを生成する。TTSシステムは、テキストをテキストのオーディオ表現に変換し、テキストのオーディオ表現は、人間の言語を使用して発話発声のオーディオ表現と同様であるようにモデル化される。

音声対応デバイスのオーディオ出力コンポーネント(例えば、スピーカ)が合成再生オーディオを出力する間に、音声対応デバイスのオーディオ取り込みコンポーネント(例えば、マイクロフォン)は、音声環境内で可聴音を依然としてアクティブに取り込んで(すなわち、聴取して)いる可能性がある。これは、スピーカから出力される合成再生オーディオの一部が、ある形態のエコーとしてオーディオ取り込みコンポーネントにおいて受信されることを意味する。残念ながら、合成再生オーディオからのこの形態のエコーがあると、音声対応デバイスにおいて実装される、または音声対応デバイスと通信するリモートシステムにおいて実装される音声認識器が、合成再生オーディオからのエコーの期間中に生じる発話発声を理解することが困難となることがある。換言すれば、音声対応デバイスは、音声対応デバイスのユーザからの問合せまたはコマンドへの応答として、合成再生オーディオを生成することが多い。例えば、ユーザは、「what will the weather be like today?(今日の天気はどのようになりますか?)」と音声対応デバイスに尋ねることができる。音声対応デバイスがユーザからのこの問合せまたは質問を受信すると、音声対応デバイスまたは音声対応デバイスと通信するリモートシステムは最初に、ユーザからの発話発声を判定または処理しなければならない。発話発声を処理することによって、音声対応デバイスは、発話発声がユーザからの(例えば、天気に関する)問合せに対応すること、および問合せとして、ユーザが音声対応デバイスから応答を予想していることを認識することができる。

典型的には、音声対応デバイスは、発話発声の文脈を判定するために音声認識システム(例えば、自動音声認識(ASR)システム)を使用する。音声認識システムは、オーディオ信号またはオーディオデータを受信し、オーディオ信号内で発話されたキャラクタ、単語、および/または文を表すテキストのトランスクリプトを生成する。しかし、音声認識は、ユーザによって音声対応デバイスに対して発話された1つまたは複数の発声の全部または一部と同時にエコーおよび/または歪みを音声対応デバイスの音声取り込みコンポーネントが受信するときに、より複雑になることがある。例えば、音声対応デバイスの1つまたは複数のマイクロフォンに、合成再生オーディオ信号の一部がエコーまたは音響フィードバックとして供給される。合成再生オーディオからのエコーが1つまたは複数の発話発声と組み合わされる結果として、音声対応デバイスは重複音声を有するオーディオ信号を受信する。ここで、重複音声とは、オーディオ信号において合成再生オーディオからのエコー信号が1つまたは複数の発話発声と同時に(すなわち、同時刻に、または同時並行して)生じる事例を指す。この重複音声が生じると、音声認識システムは、音声対応デバイスにおいて受信されたオーディオ信号の処理が困難なときがあることがある。すなわち、重複音声は、1つまたは複数の発話発声に対する正確なトランスクリプトを生成するための音声認識システムの能力を損なう可能性がある。音声認識システムからの正確なトランスクリプトがなければ、音声対応デバイスは、ユーザによる発話発声からの問合せまたはコマンドに対して正確に応答することができないか、または全く応答することができない可能性がある。代替的に、音声対応デバイスは、その処理リソースを使用して、実際には合成再生オーディオ信号から、および/または周囲からのエコーである可聴音を解釈しようとすることを回避したほうがよい可能性がある。

音声対応デバイスのオーディオ取り込みコンポーネントによって取り込まれる歪みまたはエコーに対処するための1つの手法は、音響エコー消去(AEC)システムを使用することである。AECシステムにおいて、AECシステムは合成再生オーディオ信号に関連するエコーを消去するためにオーディオ信号を使用する。例えば、いくつかの構成において、AECシステムは、合成再生オーディオ信号からエコーをどのように消去するかをオーディオ信号例(例えば、合成再生オーディオ信号の例)から学習するニューラルネットワークを含む。この手法はエコーを消去することに一般的に成功しているが、AECシステムは、最もリソース効率の良い手法ではない可能性がある。換言すれば、合成再生オーディオ信号に対するエコーを消去するために、AECシステムには、音声対応デバイスのオーディオ出力コンポーネントによって出力される合成再生オーディオ信号が送信される。残念ながら、合成再生オーディオ信号は、オーディオファイルとして、比較的大きいファイルサイズであることが多い。比較的大きいファイルサイズのため、音声対応デバイスのシステム間で合成再生オーディオ信号を通信することはレイテンシなどの潜在的な性能上の問題を招く。さらに、比較的大きいファイルサイズを通信および処理することは、音声対応デバイスの処理リソースに負担をかける可能性がある。これらの潜在的な問題を悪化させることとして、AECシステムは、オンデバイスの代わりにネットワークサーバ上にリモートに所在する場合がある。例えば、音声認識がサービスとして実行されるとき、音響エコー消去は、音声認識システムを収容しているサーバへの補助入力としてTTSシステムから合成再生オーディオを送信することを必要とする。AECシステムおよび/またはTTSシステムがリモートシステム上に所在すると、オーディオファイルは音声対応デバイスとリモートシステムとの間で1回または複数回転送されることが必要となることがあるため、プロセスはレイテンシまたは他の送信の問題の可能性を被る。

不要なエコーを除去するために音声対応デバイスによって使用されてもよい別の手法はフィルタリングシステムである。フィルタリングシステムにおいて、フィルタリングシステムは、話者の音声に関連しないオーディオ信号の成分をフィルタリングシステムがフィルタ除去することができるような話者の音声特性を学習する。ここで、フィルタリングシステムは、ターゲット話者の音声特性を学習するためにターゲット話者に対して発話発声のオーディオサンプルを要求する。例えば、フィルタリングシステムは、ターゲットユーザの音声特性を表すターゲット話者の埋め込みベクトルを生成する。その後、埋め込みベクトルは、ターゲット話者に属さない取り込まれたオーディオ信号を除去するための補助入力として使用されてもよい。しかし、フィルタリング手法の場合、フィルタリングシステムは、埋め込みベクトルの追加的な補助入力の生成と、埋め込みベクトルを構築するための学習プロセスとを必要とする。さらに、この手法は、オーディオサンプルを提供するためのターゲット話者と、ターゲット話者に対する音声特性を正確に学習するための十分な数のオーディオサンプルとに依拠する。おそらく効果的ではあるが、これらの追加的な入力は、追加的なコストにより音声対応デバイスまたは音声対応デバイスのシステムに負担をかける可能性がある。

エコー消去に関するこれらの懸念のうちのいくつかを解決するため、音声対応デバイスは代わりにテキストエコー消去(TEC)システムを使用してもよい。TECシステムにおいては、エコーを生成する合成再生オーディオ信号を使用してエコーが消去される代わりに、TECシステムはテキストを使用してエコーを消去する。合成再生オーディオ信号は入力テキスト(例えば、TTSシステムのテキスト)に由来するため、合成再生オーディオ信号を生成するために使用される入力テキストは、合成再生オーディオ信号から結果として生じるエコーを消去するためにTECシステムによって使用されてもよい。ここで、テキストを使用することによって、TECはオーディオ信号に対するファイル(例えば、合成再生オーディオ信号に対するオーディオファイル)よりもサイズが小さいテキストファイルを受信する。例えば、オーディオファイルが(例えば、信号品質に応じて)数キロバイト、数メガバイトまたはさらに大きい程度であるのに対して、テキストファイルはデータのバイト数程度であることがある。オーディオ信号よりもサイズが小さいテキストファイルを使用することによって、この手法は、オーディオ信号がネットワークを通じて通信される必要がないためにレイテンシを低減することができると同時に、テキストファイルを通信するための処理時間および/またはリソースを費やすことを回避する。さらに、TECシステムは合成再生オーディオ信号を生成するためにTTSシステムなどのシステムが既に生成しているテキストを利用することができるため、TECは処理リソースの効率的利用を促進してもよい。したがって、テキストを使用することによって、TEC手法は、AECシステムから生じるレイテンシなどの問題、またはフィルタリングシステムから生じる追加的な入力をトレーニングし要求するなどの問題を回避してもよい。

図1を参照すると、いくつかの実装形態において、音声環境100は、音声対応デバイス110(デバイス110またはユーザデバイス110とも称する)に発話発声12を伝達するユーザ10を含む。ユーザ10(すなわち、発声12の話者)は、デバイス110に対して応答を要請するために問合せまたはコマンドとして発声12を発話してもよい。デバイス110は、音声環境100内の1人または複数人のユーザ10からの音を取り込むように構成される。ここで、オーディオ音とは、デバイス110に対する可聴問合せ、コマンド、またはデバイス110によって取り込まれる可聴通信として機能する、ユーザ10による発話発声12を指してもよい。デバイス110の、またはデバイス110に関連する音声対応システムは、問合せに回答すること、および/またはコマンドを実行させることによって、コマンドに対する問合せを処理してもよい。

ここで、デバイス110は、ユーザ10による発話発声12のオーディオ信号202(オーディオデータとも称する)を取り込む。デバイス110は、ユーザ10に関連しオーディオ信号202を受信することが可能な任意のコンピューティングデバイスに対応してもよい。ユーザデバイス110のいくつかの例は、以下のものに限定されないが、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップなど)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチ)、スマート機器、およびモノのインターネット(IoT)デバイス、スマートスピーカなどを含む。デバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信し、データ処理ハードウェア112によって実行されるとデータ処理ハードウェア112に1つまたは複数の動作を実行させる命令を記憶するメモリハードウェア114とを含む。いくつかの例において、デバイス110は1つまたは複数のアプリケーション(すなわち、ソフトウェアアプリケーション)を含み、各アプリケーションは、そのアプリケーション内でさまざまな機能を実行するためにデバイス110に関連する1つまたは複数の音声処理システム140、150、160、200を利用してもよい。例えば、デバイス110は、さまざまなタスクにおいてユーザ10を支援するためにユーザ10に合成再生オーディオ154を伝達するように構成される支援アプリケーションを含む。

デバイス110は、音声環境100内の発話発声12を取り込み電気信号に変換するためのオーディオ取り込みデバイス(例えば、マイクロフォン)116と、可聴オーディオ信号(例えば、デバイス110からの合成再生オーディオ154)を伝達するための音声出力デバイス(例えば、スピーカ)118とを有するオーディオサブシステムをさらに含む。図示された例においてデバイス110は単一のオーディオ取り込みデバイス116を実装しているが、本開示の範囲から逸脱することなく、デバイス110はオーディオ取り込みデバイス116のアレイを実装してもよく、それにより、アレイ内の1つまたは複数のオーディオ取り込みデバイス116は、デバイス110上に物理的に所在していなくてもよく、オーディオサブシステム(例えば、デバイス110の周辺機器)と通信してもよい。例えば、デバイス110は、車両全体に配置されたマイクロフォンのアレイを活用する車両インフォテインメントシステムに対応してもよい。

さらに、デバイス110は、ネットワーク120を介してリモートシステム130と通信するように構成される。リモートシステム130は、リモートデータ処理ハードウェア134(例えば、リモートサーバまたはCPU)および/またはリモートメモリハードウェア136(例えば、リモートデータベースまたは他の記憶ハードウェア)などのリモートリソース132を含んでもよい。デバイス110は、音声処理および/または合成再生通信に関連するさまざまな機能を実行するためにリモートリソース132を利用してもよい。例えば、デバイス110は、音声認識システム140を使用した音声認識、TTSシステム150を使用したテキストから音声への変換、AECシステム160を使用した音響エコー消去、および/またはTECシステム200を使用したテキストエコー消去を実行するように構成される。これらのシステム140、150、160、200は、デバイス110上に所在してもよく(オンデバイスシステムと称する)、またはリモートに所在(例えば、リモートシステム130上に所在)するがデバイス110と通信してもよい。いくつかの例において、これらのシステム140、150、160、200のうちのいくつかがローカルに、またはオンデバイスにおいて所在する一方、他はリモートに所在する。換言すれば、これらのシステム140、150、160、200のうちの任意のシステムは、任意の組合せにおいてローカルまたはリモートであることがある。例えば、システム140、150、160、200がサイズまたは処理要求においてかなり大きいとき、システム140、150、160、200はリモートシステム130に所在してもよい。しかし、デバイス110が1つまたは複数のシステム140、150、160、200のサイズまたは処理要求をサポートすることがあるとき、その1つまたは複数のシステム140、150、160、200は、データ処理ハードウェア112および/またはメモリハードウェア114を使用するデバイス110上に所在してもよい。任意選択的に、その1つまたは複数のシステム140、150、160、200は、ローカル/オンデバイスおよびリモートの両方において所在してもよい。例えば、デバイス110とリモートシステム130との間のネットワーク120への接続が利用可能であるとき、システム140、150、160、200のうちの1つまたは複数がデフォルトでリモートシステム130上で実行されてもよいが、接続が失われたとき、またはネットワーク120が利用可能でないとき、システム140、150、160、200は代わりにデバイス110上でローカルに実行される。

音声認識システム140は、オーディオ信号202を入力として受信し、そのオーディオ信号をトランスクリプション142に出力として転写する。一般的に言えば、オーディオ信号202をトランスクリプション142に変換することによって、音声認識システム140は、ユーザ10からの発話発声12が問合せ、コマンド、または何らかの他の形態のオーディオ伝達に対応するときをデバイス110が認識することを可能にする。トランスクリプション142とは、デバイス110がその場合に問合せまたはコマンドへの応答を生成するために使用してもよいテキスト列を指す。例えば、ユーザ10が「what will the weather be like today」という質問をデバイス110に尋ねた場合、デバイス110は、質問「what will the weather be like today」に対応するオーディオ信号を音声認識システム140に渡す。音声認識システム140は、オーディオ信号を、「what will the weather be like today?」というテキストを含むトランスクリプトに変換する。その後、デバイス110は、テキストまたはテキストの部分を使用して問合せへの応答を決定してもよい。例えば、当日(すなわち、今日)の天気を判定するために、デバイス110はテキスト(例えば、「what will the weather be like today?」)またはテキストの識別部分(例えば、「weather(天気)」および「today(今日)」)を検索エンジンに渡す。その後、検索エンジンは、デバイス110がユーザ10に対する応答を生成するために解釈する1つまたは複数の検索結果を返すことができる。

いくつかの実装形態において、デバイス110またはデバイス110に関連するシステムは、デバイス110が発話発声12の問合せへの応答としてユーザ10に伝達するテキスト152を識別する。その場合、デバイス110は、デバイス110が発話発声12の問合せへの応答としてユーザ10に伝達する(例えば、ユーザ10に可聴音において伝達する)ための対応する合成再生オーディオ154にテキスト152を変換するためにTTSシステム150を使用してもよい。換言すれば、TTSシステム150はテキスト152を入力として受信し、テキスト152を合成再生オーディオ154の出力に変換し、合成再生オーディオ154はテキスト152の可聴表現を規定するオーディオ信号である。いくつかの例において、TTSシステム150は、テキスト152を符号化フォーマット(例えば、テキスト埋め込み)へと処理するテキストエンコーダ(例えば、図2A～図2Eのテキストエンコーダ210)を含む。ここで、TTSシステム150は、テキスト152の符号化フォーマットから合成再生オーディオ154を生成するために、トレーニングされたテキスト/音声変換モデルを使用してもよい。生成後、TTSシステム150は、デバイス110が合成再生オーディオ154を出力することを可能にするためにデバイス110に合成再生オーディオ154を通信する。例えば、デバイス110は、デバイス110のスピーカ118において「today is sunny(今日は晴れです)」という合成再生オーディオ154を出力する。

引き続き図1を参照して、デバイス110が合成再生オーディオ154を出力すると、合成再生オーディオ154は、オーディオ取り込みデバイス116によって取り込まれるエコー156を生成する。残念ながら、エコー156に加えて、オーディオ取り込みデバイス116はまた、ユーザ10からの別の発話発声12を同時に取り込んでいる可能性がある。例えば、図1は、デバイス110が合成再生オーディオ154を出力するとき、ユーザ10は「what about tomorrow?(明日はどうですか?)」と言うことによって、デバイス110への発話発声12において天気についてさらに照会していることを示している。ここで、オーディオ信号202を形成するために、発話発声12およびエコー156は両方とも同時にオーディオ取り込みデバイス116において取り込まれる。換言すれば、オーディオ信号202は、ユーザ12によって発話された発声12の一部がデバイス110のスピーカ118から出力される合成再生オーディオ154の一部と重複するような重複オーディオ信号を含む。図1において、取り込まれるオーディオ信号202において互いに重複する発声12の部分と合成再生オーディオ154の部分は重複領域204として示されている。重複オーディオ信号202があると、デバイス110において(例えば、オーディオ取り込みデバイス116において)受信されるオーディオ信号202を形成するために発声12が合成再生オーディオ154のエコー156と混合されるため、音声認識システム140は、オーディオ信号202内の天気照会「what about tomorrow」に対応する発声12を認識する際に問題があることがある。

このような問題を防ぐため、デバイス110は、音声認識システム140がオーディオ信号202を処理する前にTECシステム200にオーディオ信号202を通信してもよい。音声認識システム140の前にTECシステム200にオーディオ信号202を通信することによって、TECシステム200は、合成再生オーディオ154またはその一部のエコー156を除去し、効果的にエコー156を消去する改善オーディオ信号206を生成するように構成される。すなわち、改善オーディオ信号206とは、音声認識システム140がオーディオ信号202に含まれる発話発声12を識別することを可能にするオーディオ信号202の変更バージョンを指す。ここで、改善オーディオ信号206を生成するために、TECシステム200は、重複オーディオ信号202と、合成再生オーディオ154に対応するテキスト152とを受信する。

いくつかの例において、デバイス110は、TECシステム200とともにAECシステム160を含む。両方のシステム160、200を含むことによって、デバイス110は、テキストが消去プロセスのために利用可能であるときであるか、それとも利用可能でないときであるかにかかわらず、エコーを消去する能力を有する。実装形態のうちのいくつかにおいて、デバイス110は、オーディオ信号202に寄与するオーディオの少なくとも一部についてテキスト表現が利用可能であることの指示に基づいて、AECシステム160を使用するかどうかを決定する。例えば、デバイス110は、ユーザ10がデバイス110に対して発声12を発話しているときに、同時にオーディオ取り込みデバイス116においてエコーを生成する音楽を再生している。このシナリオにおいて、デバイス110によって出力されている音楽に対して利用可能なテキストはないため、デバイス110は、利用可能なテキストがないと識別し、オーディオ取り込みデバイス116において存在するエコーを消去するためにAECシステム160を使用する。これに対して、図1は、デバイス110またはデバイス110に関連する何らかのシステムが、合成再生オーディオ154に対応するテキスト152を既に生成している場合に、合成再生オーディオ154を出力するデバイス110を示している。この例において、デバイス110は、オーディオ取り込みデバイス116におけるエコー156を消去するためにAECシステム160よりもTECシステム200を使用する。ここで、デバイス110がAECシステム160よりもTECシステム200を選択するのは、AECシステム160における消去プロセスに関与するより大きいオーディオファイルサイズと比較して、TECシステム200における消去プロセスに関与するより小さいテキストファイルサイズに基づいて、TECシステム200はより迅速にエコー156を消去/除去する可能性が高いからである。

図2A～図2Dを参照すると、TECシステム200は、重複領域204を含むオーディオ信号202と、合成再生オーディオ154を生成するために使用されるテキスト152(テキスト表現とも称する)とを入力として受信するように構成される。これらの入力を用いて、TECシステム200は、重複領域204内のオーディオ信号202から合成再生オーディオ154の少なくとも1つのセグメントを除去することによって改善オーディオ信号206を生成するように構成される。これらの動作を実行するために、TECシステム200は、テキストエンコーダ210、注意メカニズム220、および消去ニューラルネットワーク230(ネットワーク230とも称する)の何らかの組合せを含む。テキストエンコーダ210は、テキストエンコーダニューラルネットワークを含んでもよい。

テキストエンコーダ210は、合成再生オーディオ154に対応するテキスト152を受信するように、およびテキスト152をテキスト埋め込み表現212(または単にテキスト埋め込み212)と称する符号化テキストに符号化するように構成される。TECシステム200は、(例えば、図2Aに示すように)自己のテキストエンコーダ210を含んでもよく、またはテキストエンコーダ210が(例えば、図2Dに示すように)TEC200とTTSシステム150との間で共有されてもよい。テキストエンコーダ210によって生成される埋め込みとは、テキスト152を表すn次元の数学的ベクトルを指し、各次元はテキストの特徴または特性(例えば、カテゴリ変数)に対応してもよい。いくつかの実装形態において、テキストエンコーダ210は、合成再生オーディオ154を表す単一の、固定次元のテキスト埋め込み212にテキスト152全体を符号化する。他の実装形態において、テキストエンコーダ210は、テキスト埋め込み列にテキスト152を符号化し、その場合に埋め込みは固定長ではなく、テキスト152内のキャラクタ数に対応する長さを有する。例えば、テキスト埋め込み212は、キャラクタ埋め込み214、214_A-Nの列である。単語、またはより詳細には英語の単語について、各単語は文字と称するキャラクタの単位に分割される。したがって、各キャラクタ埋め込み214は、テキスト埋め込み列の各キャラクタ埋め込み214が26文字の英語アルファベットのうちの1文字に対応するようなテキスト152の文字を表してもよい。テキスト埋め込み212は英語アルファベットに対する26次元ベクトルに関して説明されるが、テキストエンコーダ210によって生成されるテキスト埋め込み212は、改善オーディオ206を生成するために消去ニューラルネットワーク230とともに機能する任意の形態の埋め込みであってもよい。

図2Bを参照すると、テキスト埋め込み212はキャラクタ埋め込み214の列であり、テキスト152の各文字は26次元ベクトルによって表される。換言すれば、ここで、ベクトルの各次元は英語アルファベットの文字に割り当てられる。この例において、テキスト152の「today is sunny」は(空白を含む)14キャラクタであり、これに基づいて、テキストエンコーダ210は14個のキャラクタ埋め込み214の列であるテキスト埋め込み212を生成する。例示するため、テキスト152内の各文字に対するキャラクタ埋め込み214は、アルファベット内のその位置に値を含む。例えば、文字「T」は英語アルファベット内の20番目の文字であり、合成再生オーディオ154の「today is sunny」のテキスト152の文字「T」に対するキャラクタ埋め込み214Tは、ベクトル内の20番目の次元がキャラクタが「T」であることを示す値(例えば、「1」として示される)を含むベクトルである。文字「O」はアルファベットの15番目の文字であり、文字「O」に対するキャラクタ埋め込みの15番目の次元に1の値を含む。文字「D」はアルファベットの4番目の文字であり、文字「D」に対するキャラクタ埋め込みの4番目の次元に1の値を含む。文字「A」はアルファベットの1番目の文字であり、文字「A」に対するキャラクタ埋め込みの1番目の次元に1の値を含む。文字「Y」はアルファベットの25番目の文字であり、文字「Y」に対するキャラクタ埋め込みの25番目の次元に1の値を含む。文字「I」はアルファベットの9番目の文字であり、文字「I」に対するキャラクタ埋め込みの9番目の次元に1の値を含む。文字「S」はアルファベットの19番目の文字であり、文字「S」に対するキャラクタ埋め込みの19番目の次元に1の値を含む。文字「U」はアルファベットの21番目の文字であり、文字「U」に対するキャラクタ埋め込みの21番目の次元に1の値を含む。文字「N」はアルファベットの14番目の文字であり、文字「N」に対するキャラクタ埋め込みの14番目の次元に1の値を含む。

注意メカニズム220は、テキスト埋め込み212(例えば、キャラクタ埋め込み214の列)を受信し、合成再生オーディオ154に対応するテキスト152に関連するキャラクタが重複領域204内にある尤度を示す消去確率222を決定するように構成される。換言すれば、注意メカニズム220は、テキストエンコーダ210から出力されたキャラクタ埋め込み214の列内の各キャラクタ埋め込み214について対応する消去確率222を決定してもよい。この消去確率222を用いて、ネットワーク230は、改善オーディオ信号206を生成するために合成再生オーディオ154の除去部分に注目することができる。別言すれば、注意メカニズム(例えば、注意メカニズム220)は、ニューラルネットワーク(例えば、ネットワーク230)がニューラルネットワーク(例えば、ネットワーク230)への入力(例えば、オーディオ信号202)の特定の成分に注目することを可能にするように構成されるアラインメントモデル(例えば、位置敏感型モデル)に対応してもよい。ここで、注意メカニズム220は、エコー消去を必要とするオーディオ信号202内の位置(すなわち、重複領域204)にネットワーク230を向ける。注意メカニズム220を使用することによって、TECシステム200は、合成再生オーディオ154のテキスト152がオーディオ信号202内のどこで生じているかのアラインメントを理解してもよい。換言すれば、TECシステム200が合成再生オーディオ154に対応するテキスト152およびオーディオ信号202のみを受信するとき、TECシステム200(特に消去ニューラルネットワーク230)は、テキスト152のどの部分がオーディオ信号202の重複領域204内に生じている合成再生オーディオ154に対応するかの知識を得られない。したがって、合成再生オーディオ154からのエコー156がオーディオ信号202内の発話発声12とどこで混合しているかを理解するため、TECシステム200は注意メカニズム220を使用することができる。

いくつかの例において、注意メカニズム220は、オーディオ信号202の各フレームFをたどることによって消去確率222を決定する。ここで、図2Cに示すように、オーディオ信号202は、オーディオ信号202をセグメントに分割する複数のフレームF、F_1-nを含む。各フレームFについて、注意メカニズム220は、そのフレームFにおいて合成再生オーディオ154からのエコー156が発声12と重複しているかどうかを判定する。図2Cに示すように、注意メカニズムは、合成再生オーディオ154からのエコー156が発声12と重複している重複領域204に対応する3個のフレームFを識別する。いくつかの構成において、注意メカニズム220が重複領域204の1つまたは複数のフレームFを識別するとき、注意メカニズム220は、重複領域204内の各フレームFについて合成再生オーディオ154に対応するテキスト152の1つまたは複数のキャラクタ(例えば、単語「sunny」のキャラクタ「nny」として示す)を識別/判定する。テキスト152の特定のキャラクタに対して、注意メカニズム220は、それぞれのキャラクタに対する値(例えば、キャラクタ埋め込みベクトルによって表される1つまたは複数の値)を識別するためにテキスト埋め込み212を問い合わせる、各識別されたキャラクタについて対応する問合せQ(例えば、3個の問合せQ、Q_N、Q_N、Q_Yとして示す)を生成する。換言すれば、注意メカニズム220の関数は、消去確率222を生成するために、問合せQをキー・値(K,V)のペアのセットにマッピングするように動作する。ここで、(例えば、図2Bに示すような)キー・値のペアは、テキスト152内のキャラクタに対するキーと、テキスト152のその特定のキャラクタに対するキャラクタ埋め込み214のベクトル表現であるそのキーの値とに対応する。問合せQが特定のフレームFからのテキスト152のキャラクタに対応するキャラクタ埋め込み214を識別すると、注意メカニズム220は、キャラクタ埋め込み214の1つまたは複数の値に重み224を割り当てる。重複領域204の各フレームFに基づいてこれらの注意重み224を割り当てることによって、注意メカニズム220は、テキスト152のキャラクタに対する消去確率222を規定するコンテキストベクトルを形成する。ここで、この機能を実行するため、注意メカニズム220は、スケーリングされたドット積注意またはマルチヘッド注意を実行してもよい。例えば、いくつかの例において、消去確率222を表すために重み224を割り当てる注意メカニズム220の注意関数は、次式によって表される。
ここで、d_kはキー・値のペアに対するキーの次元に対応する。

ネットワーク230は、注意メカニズム220とともに、改善オーディオ206を生成するように動作する。いくつかの実装形態において、ネットワーク230は、注意メカニズム220からオーディオ信号202、テキスト152、および/または消去確率222を入力として受信する。消去確率222を用いて、ネットワーク230は、オーディオ信号202内のどこでオーディオ信号202を変更して改善オーディオ信号206を形成するために合成再生オーディオ154からのエコー156が消去または除去されるべきかを識別することができる。いくつかの例において、ネットワーク230は、複数のLSTM層を有する長短期記憶(LSTM)ネットワークである。例えば、注意メカニズム220は、これらのLSTM層のうちの1つまたは複数に所在してもよい。

図2Eは、注意メカニズム220のないTECシステム200の一例である。換言すれば、TECシステム200は、テキストエンコーダ210およびネットワーク230を含む。ここで、テキストエンコーダ210は、合成再生オーディオ154に対応するテキスト152全体を表す単一の固定次元のテキスト埋め込みベクトルであるテキスト埋め込み212を生成する。ここで、TECシステム200は、ネットワーク230においてオーディオ信号202の各フレームFに対するオーディオ信号202と固定次元のテキスト埋め込み212を繰り返し連結する。固定次元のテキスト埋め込み212を繰り返し連結することによって、TECシステム200は、オーディオ信号202の1つまたは複数のフレームFが固定次元のテキスト埋め込み212に類似するときに固定次元のテキスト埋め込み212をどこでフィルタ除去するかを識別することによって、フィルタリングシステムと同様に機能する。このプロセスの結果として改善オーディオ信号206が得られるが、このプロセスは注意メカニズム220によって識別されるアラインメントを欠き、ネットワーク230において連結を実行するための連続的な処理リソースを必要とする。

図3を参照すると、いくつかの構成において、TECシステム200の実施の前に(すなわち、推論の前に)、トレーニングプロセス300がTECシステム200(例えば、注意メカニズム220および/またはネットワーク230)をトレーニングする。トレーニングプロセス300は、複数のトレーニング例302、302a-nを使用してTECシステム200をトレーニングする。トレーニング例302の各例は、非合成音声(例えば、人間のユーザによって発話された実際の音声サンプル)に対応するグランドトゥルースオーディオ信号310と、トレーニング用重複オーディオ信号320と、トレーニング用テキスト330とを含む。ここで、トレーニング用重複オーディオ信号320は、合成再生オーディオ154と(例えば、少なくとも一部において)重複するグランドトゥルースオーディオ信号310を含み、トレーニング用テキスト330は、グランドトゥルースオーディオ信号310と重複する合成再生オーディオ154のテキスト表現に対応する。複数のトレーニング例302を使用することによって、トレーニングプロセス300は、推論中にTECシステム200によって出力される改善オーディオ信号206をどのように生成するかを学習するようにTECシステム200(例えば、注意メカニズム220および/またはネットワーク230)に教示する。換言すれば、トレーニングプロセス300は、トレーニング用重複オーディオ信号320およびトレーニング用テキスト330に基づいて、改善オーディオ信号206としてグランドトゥルースオーディオ信号310を生成するようにTECシステム200に教示する。

図4は、エコー156を消去するために改善オーディオ信号206を生成する方法400の動作の例示的な構成のフローチャートである。動作402において、方法400は、合成再生オーディオ154のセグメントに重複する、話者10によって発話されたオーディオ(例えば、発声12)を含む重複オーディオ信号202を受信する。動作404において、方法400は、合成再生オーディオ154に対応するキャラクタのシーケンスをテキスト埋め込み表現212(区別なく「テキスト埋め込み」212と称する)に符号化する。キャラクタのシーケンス内の各キャラクタについて、動作406において、方法400は、テキスト埋め込み表現212を使用して、対応するキャラクタが、重複オーディオ信号202内で話者10によって発話されたオーディオ(例えば、発声12)に重複している合成再生オーディオ154のセグメント156(すなわち、エコーを表すセグメント156)に関連している尤度を示すそれぞれの消去確率222を生成する。動作408において、方法400は、重複オーディオ信号202およびキャラクタのシーケンス内の各キャラクタについて生成されたそれぞれの消去確率222を入力として受信するように構成される消去ネットワーク230を使用して改善オーディオ信号206を生成する。消去ネットワーク230は、重複オーディオ信号202から合成再生オーディオ154のセグメントを除去することによって改善オーディオ信号206を生成する。

図5は、本明細書に記載されるシステム(例えば、システム130、140、150、160、200)および方法(例えば、方法400)を実装するために使用されてもよい例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表すことが意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は、単なる例示のみであることを意図しており、本明細書に記載され、および/または特許請求される発明の実装形態を限定することを意図していない。

コンピューティングデバイス500は、プロセッサ510(例えば、データ処理ハードウェア510)、メモリ520(例えば、メモリハードウェア520)、記憶デバイス530、メモリ520および高速拡張ポート550に接続された高速インタフェース/コントローラ540、ならびに低速バス570および記憶デバイス530に接続された低速インタフェース/コントローラ560を含む。コンポーネント510、520、530、540、550、および560の各々はさまざまなバスを使用して相互接続され、共通のマザーボード上に、または適宜他の方法で取り付けられてもよい。プロセッサ510は、高速インタフェース540に結合されたディスプレイ580などの外部入出力デバイス上のグラフィカルユーザインタフェース(GUI)に対するグラフィカル情報を表示するために、メモリ520内に、または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実装形態において、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数種類のメモリとともに適宜使用されてもよい。また、複数のコンピューティングデバイス500が接続され、各デバイスが必要な動作の部分を(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供してもよい。

メモリ520は、コンピューティングデバイス500内に非一時的に情報を記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ520は、コンピューティングデバイス500による使用のために一時的または永続的にプログラム(例えば、命令の列)またはデータ(プログラム状態情報)を記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例は、以下のものに限定されないが、フラッシュメモリおよび読み出し専用メモリ(ROM)/プログラマブル読み出し専用メモリ(PROM)/消去可能プログラマブル読み出し専用メモリ(EPROM)/電子的消去可能プログラマブル読み出し専用メモリ(EEPROM)(例えば、典型的にはブートプログラムなどのファームウェアのために使用される)を含む。揮発性メモリの例は、以下のものに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープを含む。

記憶デバイス530は、コンピューティングデバイス500のための大容量ストレージを提供することが可能である。いくつかの実装形態において、記憶デバイス530はコンピュータ可読媒体である。さまざまな異なる実装形態において、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の類似の固体メモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加的な実装形態において、コンピュータプログラム製品が情報キャリア内に有形的に具現化される。コンピュータプログラム製品は、実行されると上記の方法などの1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどのコンピュータ可読または機械可読媒体である。

高速コントローラ540はコンピューティングデバイス500のための帯域幅集約的な動作を管理する一方、低速コントローラ560はより低い帯域幅集約性の動作を管理する。役目のこのような割当ては単なる例示である。いくつかの実装形態において、高速コントローラ540は、メモリ520、ディスプレイ580(例えば、グラフィクスプロセッサまたはアクセラレータを通じて)、および高速拡張ポート550に結合され、高速拡張ポート550はさまざまな拡張カード(図示せず)を受け入れることができる。いくつかの実装形態において、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。低速拡張ポート590は、さまざまな通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができ、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプタを通じてスイッチもしくはルータなどのネットワーキングデバイスなどの1つまたは複数の入出力デバイスに結合されてもよい。

コンピューティングデバイス500は、図に示すようにいくつかの異なる形態において実装されてもよい。例えば、コンピューティングデバイス500は、標準的なサーバ500aとして、または複数の場合にそのようなサーバ500aのグループにおいて、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装されてもよい。

本明細書に記載されるシステムおよび技術のさまざまな実装形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはその組合せにおいて実現されてもよい。これらのさまざまな実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用でも汎用でもよい少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含んでもよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサのための機械命令を含み、高水準手続き型および/またはオブジェクト指向プログラミング言語において、および/またはアセンブリ/機械語において実装されてもよい。本明細書において使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含むプログラム可能プロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。

本明細書に記載されるプロセスおよび論理フローは、入力データに作用し出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能プロセッサによって実行されてもよい。プロセスおよび論理フローはまた、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよい。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般的に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。一般的に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクを含み、またはそれからデータを受信し、もしくはそれにデータを転送し、またはその両方を行うように動作可能に結合される。しかし、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補足され、またはそれに組み込まれることが可能である。

ユーザとの対話を提供するため、本開示の1つまたは複数の態様は、ディスプレイデバイス、例えば、ユーザに対して情報を表示するためのCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーン、および任意選択的に、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールを有するコンピュータ上に実装されてもよい。他の種類のデバイスも同様にユーザとの対話を提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることが可能であり、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態において受信されてもよい。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、およびそれから文書を受信することによって、例えば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態について説明した。しかし、理解されるように、本開示の思想および範囲から逸脱することなくさまざまな変更がなされてもよい。したがって、他の実装形態は以下の特許請求の範囲内にある。

10 ユーザ
12 発声
100 音声環境
110 音声対応デバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオ取り込みデバイス
118 音声出力デバイス
120 ネットワーク
130 リモートシステム
132 リモートリソース
134 リモートデータ処理ハードウェア
136 リモートメモリハードウェア
140 音声認識システム
142 トランスクリプション
150 TTSシステム
152 テキスト
154 合成再生オーディオ
156 エコー
160 AECシステム
200 TECシステム
202 オーディオ信号
204 重複領域
206 改善オーディオ信号
210 テキストエンコーダ
212 テキスト埋め込み表現
214 キャラクタ埋め込み
220 注意メカニズム
222 消去確率
224 注意重み
230 消去ニューラルネットワーク
300 トレーニングプロセス
302 トレーニング例
310 グランドトゥルースオーディオ信号
320 トレーニング用重複オーディオ信号
330 トレーニング用テキスト
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 記憶デバイス
540 高速インタフェース/コントローラ
550 高速拡張ポート
560 低速インタフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート

Claims

コンピュータ実装方法であって、データ処理ハードウェア上で実行されると前記データ処理ハードウェアに、
合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信するステップと、
前記合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化するステップと、
前記キャラクタのシーケンス内の各キャラクタについて、前記テキスト埋め込み表現を使用して、前記対応するキャラクタが、前記重複オーディオ信号内で前記話者によって発話された前記オーディオに重複する前記合成再生オーディオの前記セグメントに関連する尤度を示すそれぞれの消去確率を生成するステップと、
前記重複オーディオ信号と前記キャラクタのシーケンス内の各キャラクタについて生成された前記それぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、前記合成再生オーディオの前記セグメントを前記重複オーディオ信号から除去することによって改善オーディオ信号を生成するステップと
を含む動作を実行させる、コンピュータ実装方法。
テキスト/音声変換(TTS)システムが、前記キャラクタのシーケンスを前記合成再生オーディオを含む合成音声に変換する、請求項1に記載のコンピュータ実装方法。
前記テキスト埋め込み表現は、単一の、固定次元のテキスト埋め込みベクトルを含む、請求項1に記載のコンピュータ実装方法。
前記キャラクタのシーケンスを符号化するステップは、キャラクタ埋め込み列を生成するために前記キャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化するステップを含む、請求項1に記載のコンピュータ実装方法。
前記重複オーディオ信号はフレームのシーケンスを含み、前記フレームのシーケンス内の各フレームは、合成再生オーディオの前記セグメントに重複する、前記話者によって発話された前記オーディオの一部に対応し、
前記キャラクタのシーケンス内の各キャラクタについて前記それぞれの消去確率を生成するステップは、前記対応するキャラクタ埋め込みが前記重複オーディオ信号の前記フレームのシーケンス内の前記フレームのうちの1つに対応するときに前記対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用するステップを含む、
請求項4に記載のコンピュータ実装方法。
前記動作は、複数のトレーニング例を用いて前記消去ニューラルネットワークをトレーニングするステップをさらに含み、各トレーニング例は、
非合成音声に対応するグランドトゥルースオーディオ信号と、
合成オーディオ信号に重複する前記グランドトゥルースオーディオ信号を含むトレーニング用重複オーディオ信号と、
前記合成オーディオ信号のそれぞれのテキスト表現であって、前記テキスト表現はキャラクタのシーケンスを含む、テキスト表現と
を含む、請求項1に記載のコンピュータ実装方法。
テキスト符号化ニューラルネットワークのテキストエンコーダが、前記合成再生オーディオに対応する前記キャラクタのシーケンスを前記テキスト埋め込み表現に符号化する、請求項1に記載のコンピュータ実装方法。
前記テキストエンコーダはテキスト/音声変換(TTS)システムによって共有され、前記TTSシステムは、前記キャラクタのシーケンスから前記合成再生オーディオを生成するように構成される、請求項7に記載のコンピュータ実装方法。
前記消去ニューラルネットワークは、複数の長短期記憶(LSTM)層を有するLSTMネットワークを含む、請求項1に記載のコンピュータ実装方法。
前記動作は、前記合成再生オーディオのテキスト表現が利用可能であることの指示を受信するステップをさらに含む、請求項1に記載のコンピュータ実装方法。
システムであって
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアであって、前記データ処理ハードウェア上で実行されると前記データ処理ハードウェアに、
合成再生オーディオのセグメントに重複する、話者によって発話されたオーディオを含む重複オーディオ信号を受信することと、
前記合成再生オーディオに対応するキャラクタのシーケンスをテキスト埋め込み表現に符号化することと、
前記キャラクタのシーケンス内の各キャラクタについて、前記テキスト埋め込み表現を使用して、前記対応するキャラクタが、前記重複オーディオ信号内で前記話者によって発話された前記オーディオに重複する前記合成再生オーディオの前記セグメントに関連する尤度を示すそれぞれの消去確率を生成することと、
前記重複オーディオ信号と前記キャラクタのシーケンス内の各キャラクタについて生成された前記それぞれの消去確率とを入力として受信するように構成される消去ニューラルネットワークを使用して、前記合成再生オーディオの前記セグメントを前記重複オーディオ信号から除去することによって改善オーディオ信号を生成することと
を備える動作を実行させる命令を記憶する、メモリハードウェアと
を備える、システム。
テキスト/音声変換(TTS)システムが、前記キャラクタのシーケンスを前記合成再生オーディオを含む合成音声に変換する、請求項11に記載のシステム。
前記テキスト埋め込み表現は、単一の、固定次元のテキスト埋め込みベクトルを含む、請求項11に記載のシステム。
前記キャラクタのシーケンスを符号化する動作は、キャラクタ埋め込み列を生成するために前記キャラクタのシーケンス内の各キャラクタを対応するキャラクタ埋め込みに符号化することを含む、請求項11に記載のシステム。
前記重複オーディオ信号はフレームのシーケンスを含み、前記フレームのシーケンス内の各フレームは、合成再生オーディオの前記セグメントに重複する、前記話者によって発話された前記オーディオの一部に対応し、
前記キャラクタのシーケンス内の各キャラクタについて前記それぞれの消去確率を生成することは、前記対応するキャラクタ埋め込みが前記重複オーディオ信号の前記フレームのシーケンス内の前記フレームのうちの1つに対応するときに前記対応するキャラクタ埋め込みに重みを適用するために注意メカニズムを使用することを含む、請求項14に記載のシステム。
前記動作は、複数のトレーニング例を用いて前記消去ニューラルネットワークをトレーニングすることをさらに含み、各トレーニング例は、
非合成音声に対応するグランドトゥルースオーディオ信号と、
合成オーディオ信号に重複する前記グランドトゥルースオーディオ信号を含むトレーニング用重複オーディオ信号と、
前記合成オーディオ信号のそれぞれのテキスト表現であって、前記テキスト表現はキャラクタのシーケンスを含む、テキスト表現と
を含む、請求項11に記載のシステム。
テキスト符号化ニューラルネットワークのテキストエンコーダが、前記合成再生オーディオに対応する前記キャラクタのシーケンスを前記テキスト埋め込み表現に符号化する、請求項11に記載のシステム。
前記テキストエンコーダはテキスト/音声変換(TTS)システムによって共有され、前記TTSシステムは、前記キャラクタのシーケンスから前記合成再生オーディオを生成するように構成される、請求項17に記載のシステム。
前記消去ニューラルネットワークは、複数のLSTM層を有する長短期記憶(LSTM)ネットワークを含む、請求項11に記載のシステム。
前記動作は、前記合成再生オーディオのテキスト表現が利用可能であることの指示を受信することをさらに含む、請求項11に記載のシステム。