JP7843855B2

JP7843855B2 - 動的モデルサイズのための統合されたカスケードエンコーダａｓｒモデル

Info

Publication number: JP7843855B2
Application number: JP2024556056A
Authority: JP
Inventors: ディン、シャオジン; ホー、ヤンチャン; ワン、シン; ワン、ウェイラン; ストローマン、トレバー; エヌサイナス、ターラ; プラバーバルカル、ロヒット; ロバート、デイビッド; パニグラヒ、リナ; ボトロス、ラミ; リャン、チャオ; マグロウ、イアン; チャオ、ディン; ファン、ドンソン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2022-03-21
Filing date: 2023-03-13
Publication date: 2026-04-10
Anticipated expiration: 2043-03-13
Also published as: US20230326461A1; EP4476720A1; WO2023183730A1; US12417770B2; JP2025509923A

Description

特許法第３０条第２項適用令和４年４月１３日にウェブサイトのアドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２２０４．０６１６４にて発表

本開示は、簡略化されたストリーミング及び非ストリーミング自動音声認識（ＡＳＲ）のためのオンデバイスエンドツーエンドモデルに関する。

自動音声認識（ＡＳＲ）システムは、各モデルが専用の目的を有する複数のモデルから、単一のニューラルネットワークを使用して音声波形（すなわち、入力シーケンス）を出力文（すなわち、出力シーケンス）に直接マッピングする統合モデルに進化した。この統合により、音声特徴のシーケンスが与えられると、ワード（または書記素）のシーケンスが生成される、シーケンスツーシーケンス手法がもたらされた。統合された構造を用いると、モデルの全ての構成要素は、単一のエンドツーエンド（Ｅ２Ｅ）ニューラルネットワークとして共同でトレーニングされ得る。ここで、Ｅ２Ｅモデルとは、そのアーキテクチャが完全にニューラルネットワークで構築されたモデルを指す。完全なニューラルネットワークは、外部及び／または手動で設計された構成要素（例えば、有限状態トランスデューサ、レキシコン、またはテキスト正規化モジュール）なしで機能する。さらに、Ｅ２Ｅモデルをトレーニングする場合、これらのモデルは一般に、決定木からのブートストラップ、または別個のシステムからの時間アラインメントを必要としない。これらＥ２Ｅ自動音声認識（ＡＳＲ）システムは大きな進歩を遂げており、単語誤り率（ＷＥＲ）を含むいくつかの一般的な基準で従来のＡＳＲシステムを上回っている。Ｅ２ＥＡＳＲモデルのアーキテクチャは、大部分がアプリケーションに依存している。例えば、音声検索またはデバイス上の音声入力など、ユーザインタラクションを伴う多くのアプリケーションでは、モデルがストリーミング方式で認識を実行する必要がある。オフラインのビデオキャプションなどの他のアプリケーションでは、モデルをストリーミングする必要がなく、将来のコンテキストを利用して性能を向上させることができる。さらに、オンデバイスＡＳＲシステムのモデルサイズは、デバイスのハードウェアの制約に大きく依存する。例えば、より大きな計算出力を持つ処理ハードウェアを備えた車両デバイスは、より大きなＡＳＲモデルサイズをサポートし得るが、限られた処理ハードウェアを備えるモバイルデバイスは、より小さなＡＳＲモデルサイズの恩恵を受けることができる場合がある。既存のＥ２Ｅアプローチは通常、ストリーミングアプリケーション用及び非ストリーミングアプリケーション用の別個のＡＳＲモデルを含む。異なる用途に対して複数のモデルを管理すると、独特の課題があり、ＡＳＲシステムの実行時間が遅くなる可能性がある。

本開示の一態様は、第１のエンコーダ、第１のデコーダ、第２のエンコーダ、及び第２のデコーダを含む自動音声認識（ＡＳＲ）モデルを提供する。第１のエンコーダは、音響フレームのシーケンスを入力として受信し、複数の出力ステップのそれぞれで、音響フレームのシーケンス内の対応する音響フレームの第１の高次特徴表現を生成する。第１のデコーダは、複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第１の確率分布を生成する。第２のエンコーダは、複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、対応する第１の高次特徴フレームの第２の高次特徴表現を生成する。第２のデコーダは、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第２の確率分布を生成する。

本開示の実施態様は、以下の任意選択の特徴のうちの１つ以上を含み得る。いくつかの実施態様では、第１のデコーダは、可能性のある音声認識仮説に対する第１の確率分布に基づいて、部分的な音声認識結果を生成する。いくつかの例では、第１のエンコーダは、複数の単方向長短期記憶（ＬＳＴＭ）層、複数のコンフォーマ層、または複数のトランスフォーマ層のうちの１つを含む因果エンコーダを含む。追加的または代替的に、第２のエンコーダは、複数の単方向長短期記憶（ＬＳＴＭ）層、複数のコンフォーマ層、または複数のトランスフォーマ層のうちの１つを含む非因果エンコーダを含む。

いくつかの例では、第１のデコーダは、予測ネットワーク及び結合ネットワークを含む。予測ネットワークは、最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、複数の出力ステップのそれぞれで密な表現を生成する。結合ネットワークは、複数の出力ステップのそれぞれで予測ネットワークによって生成された密な表現と、複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第１の確率分布を生成する。これらの例では、予測ネットワークは、長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク、またはＶ２埋め込みルックアップテーブルを含む。

いくつかの実施態様では、第２のデコーダは、予測ネットワーク及び結合ネットワークを含む。予測ネットワークは、最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、複数の出力ステップのそれぞれで密な表現を生成する。結合ネットワークは、複数の出力ステップのそれぞれで予測ネットワークによって生成された密な表現と、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第２の確率分布を生成する。これらの実施態様では、予測ネットワークは、長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク、またはＶ２埋め込みルックアップテーブルを含む。

いくつかの例では、第１のエンコーダは、第２のエンコーダよりも多い数のパラメータを含む。いくつかの実施態様では、ＡＳＲモデルは、第３のエンコーダ及び第３のデコーダをさらに含む。第３のエンコーダは、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、対応する第２の高次特徴フレームの第３の高次特徴表現を生成する。第３のデコーダは、複数の出力ステップのそれぞれで第３のエンコーダによって生成された第３の高次特徴表現を入力として受信し、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第３の確率分布を生成する。

本開示の別の態様は、データ処理ハードウェア上で実行されると、自動音声認識（ＡＳＲ）モデルへの入力として、音響フレームのシーケンスを受信することと、音響フレームのシーケンスに対してＡＳＲモデルを使用して、ストリーミング音声認識及び非ストリーミング音声認識を実行することとを含む動作をデータ処理ハードウェアに実行させるコンピュータ実装方法を提供する。動作はまた、第１のエンコーダによって、複数の出力ステップのそれぞれで、音響フレームのシーケンス内の対応する音響フレームの第１の高次特徴表現を生成することと、複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を、第１のデコーダと第２のエンコーダの両方への入力として受信することとを含む。動作はまた、第２のエンコーダによって、複数の出力ステップのそれぞれで、対応する第１の高次特徴表現に対する第２の高次特徴表現を生成することと、第１のデコーダによって、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対する第１の確率分布を生成することを含む。動作はさらに、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を第２のデコーダへの入力として受信することと、第２のデコーダによって、複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第２の確率分布を生成することとを含む。

この態様は、以下の任意選択の特徴のうちの１つ以上を含んでもよい。いくつかの実施態様では、動作はさらに、可能性のある音声認識仮説に対する第１の確率分布に基づいて、部分的な音声認識結果を生成することを含む。いくつかの例では、第１のエンコーダは、複数の単方向長短期記憶（ＬＳＴＭ）層、複数のコンフォーマ層、または複数のトランスフォーマ層のうちの１つを含む因果エンコーダを含む。追加的または代替的に、第２のエンコーダは、複数の単方向長短期記憶（ＬＳＴＭ）層、複数のコンフォーマ層、または複数のトランスフォーマ層のうちの１つを含む非因果エンコーダを含む。

いくつかの実施態様では、ＡＳＲモデルがストリーミングモードで動作しているとき、動作はさらに、第１のデコーダの予測ネットワークへの入力として、最終ソフトマックス層によって出力される非空白記号のシーケンスを受信することと、第１のデコーダの予測ネットワークによって、複数の出力ステップのそれぞれで、密な表現を生成することとを含む。ここでは、動作はさらに、第１のデコーダの結合ネットワークへの入力として、複数のステップのそれぞれで予測ネットワークによって生成される密な表現、及び複数の出力ステップのそれぞれで第１のエンコーダによって生成される第１の高次特徴表現を受信することと、複数の出力ステップのそれぞれで第１のデコーダの結合ネットワークによって、可能性のある音声認識仮説に対して第１の確率分布を生成することとを含む。これらの実施態様では、第１のデコーダの予測ネットワークは、長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク、またはＶ２埋め込みルックアップテーブルを含む。

いくつかの実施例では、ＡＳＲモデルが非ストリーミングモードで動作しているとき、動作はまた、第２のデコーダの予測ネットワークへの入力として、最終ソフトマックス層によって出力される非空白記号のシーケンスを受信することと、第２のデコーダの予測ネットワークによって、複数の出力ステップのそれぞれで、密な表現を生成することとを含む。ここでは、動作はさらに、第２のデコーダの結合ネットワークへの入力として、複数の出力ステップのそれぞれで予測ネットワークによって生成された密な表現、及び複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を受信することと、複数の出力ステップのそれぞれで、第２のデコーダの結合ネットワークによって可能性のある音声認識仮説に対して第２の確率分布を生成することとを含む。これらの例では、第２のデコーダの予測ネットワークは、長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク、またはＶ２埋め込みルックアップテーブルを含む。

いくつかの実施態様では、第１のエンコーダは、第２のエンコーダよりも多い数のパラメータを含む。いくつかの例では、動作はまた、音響フレームのシーケンス上でストリーミング音声認識及び非ストリーミング音声認識を実行している間、第３のエンコーダへの入力として、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を受信することを含む。これらの実施態様では、動作はさらに、複数の出力ステップのそれぞれで第３のエンコーダによって、対応する第２の高次特徴表現のための第３の高次特徴表現を生成することと、第３のデコーダへの入力として、複数の出力ステップのそれぞれで第３のエンコーダによって生成される第３の高次特徴表現を受信することと、複数の出力ステップのそれぞれで第３のデコーダによって、可能性のある音声認識仮説に対して第３の確率分布を生成することとを含む。

本開示の１つ以上の実施態様の詳細は、添付の図面及び以下の説明に記載される。他の態様、特徴、及び利点は、説明及び図面、ならびに特許請求の範囲から明らかになる。

自動音声認識のためのカスケードエンコーダモデルアーキテクチャを使用するシステムの概略図である。自動音声認識のためのカスケードエンコーダモデルアーキテクチャを使用するシステムの概略図である。カスケードエンコーダモデルアーキテクチャの概略図である。カスケードエンコーダモデルアーキテクチャの概略図である。カスケードエンコーダモデルアーキテクチャの概略図である。カスケードエンコーダモデルアーキテクチャの概略図である。カスケードエンコーダモデルを促進して、ストリーミング自動音声認識及び非ストリーミング自動音声認識の両方に関して一貫した予測を学習するための例示的なトレーニングプロセスの概略図である。カスケードエンコーダモデルを促進して、ストリーミング自動音声認識及び非ストリーミング自動音声認識の両方に関して一貫した予測を学習するための例示的なトレーニングプロセスの概略図である。ストリーミング自動音声認識及び非ストリーミング自動音声認識の両方のためのカスケードエンコーダモデルを実施する方法についての例示的な動作手順のフローチャートである。本明細書に記載のシステム及び方法を実装するために使用できる例示的な計算装置の概略図である。

種々の図面における同様の参照記号は、同様の要素を指す。
エンドツーエンド（Ｅ２Ｅ）自動音声認識（ＡＳＲ）モデルは、従来、ストリーミングモードまたは非ストリーミングモードのいずれかで動作するように構造化される。従来、Ｅ２ＥＡＳＲモデルは、主要な構成要素としてエンコーダ及びデコーダを含む。音声検索またはオンデバイスの音声入力など、エンドユーザとのインタラクションを伴うアプリケーションでは、モデルがストリーミング方式で認識を実行する必要があり得、レイテンシを最小限に抑えて、言葉が話されると同時に出力されることが期待される。これにより、双方向ＬＳＴＭなど、精度を向上させるために将来のコンテキストを用いるモデルを使用することが妨げられる。対照的に、オフラインのビデオキャプションなどのアプリケーションは、ストリーミング認識を必要とせず、利用可能なあらゆる将来のコンテキストを十分に利用して、性能を向上させることができる。さらに、オンデバイスＡＳＲシステムのモデルサイズは、デバイスのハードウェアの制約に大きく依存する。例えば、より大きな計算出力を持つ処理ハードウェアを備えた車両デバイスは、より大きなＡＳＲモデルサイズをサポートし得るが、限られた処理ハードウェアを備えるモバイルデバイスは、より小さなＡＳＲモデルサイズの恩恵を受けることができる場合がある。同じデバイス上でも、大きいＡＳＲモデルサイズは、音声検索などの短い形式のアプリケーションに使用される場合があるが、ディクテーションまたはビデオキャプションなどの長時間実行されるアプリケーションには、中程度のＡＳＲモデルサイズまたは小さいＡＳＲモデルサイズの方が、低消費電力を維持するためにより適している場合がある。

本明細書の実施態様は、カスケードエンコーダと２つの別々のデコーダとを使用して、様々なモデルパラメータを用いたストリーミングモード及び非ストリーミングモードの両方での動作を可能にする単一のＥ２ＥＡＳＲモデルを対象とする。カスケードエンコーダは、ストリーミングエンコーダ及び非ストリーミングエンコーダを含み、２つの別々のデコーダは、それぞれのストリーミングエンコーダからの出力、またはそれぞれの非ストリーミングエンコーダからの出力をデコードすることを学習するように構成されるストリーミングデコーダ及び非ストリーミングデコーダを含む。ＡＳＲモデルに加えて、アーキテクチャは、ストリーミングモードと非ストリーミングモードの両方を実装する機械翻訳などの他のモデルに適用され得る。

図１Ａ及び図１Ｂを参照すると、いくつかの実施態様において、システム１００、１００ａ～ｂは、音声環境内で、ユーザ１０４が音声対応ユーザ装置１０（デバイス１０またはユーザ装置１０とも呼ばれる）とインタラクションすることを含む。システム１００では、ユーザ１０４がユーザ装置１０とインタラクションする方法は、音声入力を通じて行われるものであってもよい。ユーザ装置１０は、音声環境内で１人以上のユーザ１０４から音（例えば、ストリーミング音声データ）を取得するように構成される。ここで、ストリーミング音声データは、可聴クエリ、デバイス１０に対するコマンド、またはデバイス１０によって取得された可聴通信として機能する、ユーザ１０４による発話１０６を指し得る。デバイス１０の音声対応システムは、クエリに応答することによって、及び／またはコマンドを１つ以上の下流のアプリケーションによって実行／遂行させることによって、クエリまたはコマンドに対処し得る。

ユーザ装置１０は、ユーザ１０４に関連付けられており、音声データを受信することができる任意の計算装置に対応し得る。ユーザ装置１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、車載インフォテインメントシステム、スマートディスプレイ、スマートスピーカなどを含むが、これらに限定されない。ユーザ装置１０は、データ処理ハードウェア１２及びデータ処理ハードウェア１２と通信するメモリハードウェア１４を含み、データ処理ハードウェア１２によって実行されるとき、データ処理ハードウェア１２に１つまたは複数の動作を実行させる命令を格納する。ユーザ装置１０はさらに、音声環境内での発話１０６を取得し電気信号に変換するための音声取得装置（例えば、マイクロフォン）１６、１６ａと、（例えば、装置１０からの出力音声データとして）可聴音声信号を通信するための音声出力装置（例えば、スピーカ）１６、１６ｂとを備えた音声システム１６を含む。図示の例では、ユーザ装置１０は単一の音声取得装置１６ａを実装しているが、ユーザ装置１０は、本開示の範囲から逸脱することなく、音声取得装置１６ａのアレイを実装し得、この場合、アレイの１つ以上の取得装置１６ａは、ユーザ装置１０に物理的に常駐せずに、音声システム１６と通信し得る。

システム１００では、ＡＳＲモデル２００（モデル２００とも呼ばれる）を実装する自動音声認識（ＡＳＲ）システム１０９が、ユーザ１０４のユーザ装置１０、及び／またはネットワーク４０を介してユーザ装置１０と通信する遠隔計算装置６０（例えば、クラウドコンピューティング環境で実行する分散システムの１つまたは複数の遠隔サーバ）に常駐する。遠隔計算装置６０は、遠隔データ処理ハードウェア６２（例えば、遠隔サーバまたはＣＰＵ）及び／または遠隔メモリハードウェア６４（例えば、遠隔データベースまたは他のストレージハードウェア）を含み得る。ユーザ装置１０及び／または遠隔計算装置６０はまた、ユーザ１０４が発し、音声取得装置１６ａによって取得された発話１０６を受信し、発話１０６をＡＳＲシステム１０９で処理可能な入力音響フレーム１１０に関連付けられた対応するデジタル形式に変換するように構成された音声サブシステム１０８を含む。図１Ａに示されている実施例では、ユーザ１０４はそれぞれの発話１０６を行い、音声サブシステム１０８は、ＡＳＲシステム１０９への入力用に、発話１０６を対応する音声データ（例えば、音響フレーム）１１０に変換する。その後、モデル２００は、発話１０６に対応する音声データ１１０を入力として受信し、発話１０６の対応するトランスクリプション１２０（例えば、認識結果／仮説１２０とも呼ばれる）を出力として生成／予測する。以下（例えば、図３Ａ及び２Ｂ）でより詳細に説明するように、モデル２００は、モデル２００をトレーニングするプロセスを簡素化するために２段階のトレーニングでトレーニングされて、ストリーミングモードと非ストリーミングモードで動作し得る。モデル２００はまた、第１のデコーダ２０４（ストリーミングデコーダ２０４とも呼ばれる）及び第２のデコーダ２０６（非ストリーミングデコーダ２０６とも呼ばれる）を含み、これによって、（例えば、ストリーミングモード又は非ストリーミング専用の２つの別々のモデルとは対照的に）モデル２００がストリーミングモード及び非ストリーミングモードで動作することが可能になる。

例えば、１Ａに示すように、ユーザ装置１０上で実行されるデジタルアシスタントアプリケーション５０は、音声認識をストリーミングすることを必要とする場合があり、これにより言葉、言葉の一部、及び／または個々の文字が発話されるとすぐに画面上に現れる。さらに、ユーザ装置１０のユーザ１０４は、デジタルアシスタントアプリケーション５０が実行するためのクエリを発行するとき、レイテンシに対する許容度が低いことも考えられる。アプリケーションが最小限のレイテンシを要求し、小さなモデルサイズの恩恵を受けるこれらのシナリオでは、モデル２００はストリーミングモードで動作し、ユーザ１０４が発話１０６をすると同時にリアルタイムでストリーミングトランスクリプション機能を提供し得る。他方、ユーザ１０４が音声認識レイテンシに対してより高い許容度を有する場合、及び／または認識される発話１０６が、長尺の音声（すなわち、完全な段落または複数の文からなる音声を参照する）及びより大きいモデルの容量に関連付けられる場合、同じモデル２００は、非ストリーミングモードで動作し得、予測ネットワークを活用して正確なトランスクリプション１２０を提供し得るが、レイテンシが増加する可能性がある。さらに、ユーザ１０４が音声認識レイテンシに対してさらに高い許容度を有するシナリオ、及び／または精度が最も重要であるシナリオでは、モデル２００は、追加のコンテキストを使用して精度を向上させる非ストリーミングモードで動作することができるが、その分音声認識のレイテンシが増加することになる。したがって、ＡＳＲシステム１０９は、ＡＳＲモデル２００をさまざまな音声認識タスクに実装し、ストリーミングと非ストリーミングの両方のトランスクリプション機能を提供することができ、タスクごとに別々にトレーニングされたＡＳＲモデルを使用する必要がない。さらに、様々な音声認識タスクに対して単一のＡＳＲモデル２００を使用することで、別々のＡＳＲモデルを動作させるための計算要件が削減される。

いくつかの実施態様では、モデル２００は、最初に音声データ１１０に対してストリーミング音声認識を実行し、次にストリーミングエンコーダの出力に対して非ストリーミング音声認識を実行する。例えば、示される例では、モデル２００は、第１のエンコーダ（すなわち、低レイテンシエンコーダ（図２Ｂ））を使用して音声データ１１０に対してストリーミング音声認識を実行して、部分音声認識結果１２０、１２０ａを生成し、第２のエンコーダ（すなわち、高レイテンシエンコーダ（図２Ｃ））を使用して、エンコードされた音声データ１１０に対して非ストリーミング音声認識を実行し、最終音声認識結果１２０、１２０ｂを生成する。特に、モデル２００は、音声データ１１０が受信されると同時に部分音声認識結果１２０ａを出力し、ユーザ１０４が発話１０６を終えた後にすべての音声データ１１０が受信された時点で最終音声認識結果１２０ｂを出力する。したがって、入力発話１０６に対する最終音声認識結果１２０ｂの出力は、部分音声認識結果１２０ａから遅延する場合がある。

ユーザ装置１０及び／または遠隔計算装置６０はまた、発話１０６のトランスクリプション１２０の表現をユーザ装置１０のユーザ１０４に提示するように構成されたユーザインタフェース生成器１０７も実行する。以下でより詳細に説明するように、ユーザインタフェース生成器１０７は、時間１中にストリーミング方式で部分音声認識結果１２０ａを表示し得、その後、時間２中に最終音声認識結果１２０ｂを表示する。いくつかの構成では、ＡＳＲシステム１０９から出力されたトランスクリプション１２０は、例えば、ユーザ装置１０または遠隔計算装置６０で実行される自然言語理解（ＮＬＵ）モジュールによって処理され、発話１０６によって指定されたユーザコマンド／クエリが実行される。追加的にまたは代替的に、テキスト読み上げシステム（図示せず）（例えば、ユーザ装置１０または遠隔計算装置６０の任意の組み合わせで実行される）は、トランスクリプション１２０を合成音声に変換し、ユーザ装置１０及び／または他の装置で可聴出力することができる。

図１Ａの例示的なシステム１００ａでは、音声環境内のユーザ１０４は、ＡＳＲシステム１０９を使用する、ユーザ装置１０のプログラムまたはアプリケーション５０（例えば、デジタルアシスタントアプリケーション５０ａ）とインタラクションする。例えば、図１Ａでは、ユーザー１０４がデジタルアシスタントアプリケーション５０ａとコミュニケーションをとっている様子が描かれており、デジタルアシスタントアプリケーション５０ａがユーザーデバイス１０の画面にデジタルアシスタントインターフェース１８を表示し、ユーザー１０４とデジタルアシスタントアプリケーション５０ａのデジタルアシスタントとの会話を表している。この例では、ユーザ１０４は、デジタルアシスタントアプリケーション５０ａに、「今、どの曲をプレイしているの？」と質問する。ユーザ１０４からのこの質問は発話１０６であり、音声取得装置１６ａによって取得され、ユーザ装置１０の音声システム１６によって処理される。この実施例では、音声システム１６は発話１０６を受信し、それを、ＡＳＲシステム１０９へ入力するための音響フレーム１１０に変換する。

実施例を続けると、モデル２００は、ユーザ１０４が発話１０６すると同時に発話に対応する音響フレーム１１０を受信し、第１のエンコーダ２１０（すなわち、図２Ａ及び２Ｂ）を使用して音響フレーム１１０をエンコードし、その後、第１のデコーダ２０４（図２Ａおよび２Ｂ）を使用して音響フレーム１１０のエンコードされた表現を部分音声認識結果１２０ａにデコードする。時間１中に、ユーザインタフェース生成器１０７は、デジタルアシスタントインタフェース１８を介して、発話１０６の部分音声認識結果１２０ａの表現をユーザ装置１０のユーザ１０４にストリーミング方式で提示し、これにより、言葉、言葉の一部、及び／または個々の文字が発話されると同時に画面上に表示される。

発話１０６に対応する全て（またはいくらか）の音響フレーム１１０が受信され、第１のエンコーダ２１０がこれらの音響フレーム１１０をエンコードした後、第２のエンコーダ２２０（すなわち、図２Ａ及び図２Ｃ）は、第１のエンコーダ２１０からのエンコード出力をエンコードして、すでに第１のエンコーダ２１０によってエンコードされた発話１０６に対応する音響フレーム１１０のセットに対するエンコードを生成する。第２のデコーダ２０６（すなわち、図２Ａ及び２Ｃ）は、次に、第２のエンコーダ２２０によって最終音声認識結果１２０ｂにエンコードされた音響フレーム１１０をデコードする。例えば、第１のエンコーダ２１０が、発話１０６に対応するすべての音響フレーム１１０をエンコードするとき（例えば、音響フレーム１１０が受信されると同時に）、第２のエンコーダ２２０は、第１のエンコーダ２１０によってエンコードされたすべての音響フレーム１１０をエンコードする。この点において、複数のエンコードされた音響フレーム１１０をエンコードすることによって、第２のエンコーダ２２０は、非ストリーミング方式でより高いコンテキスト認識を提供することができ（例えば、発話１０６に対するすべての音響フレーム１１０の表現を受信することによって）、これにより、第１のエンコーダ２１０のストリーミング特性によって欠落したまたは誤解釈された発話１０６の態様（複数可）を調整または訂正することが潜在的に可能となる。いくつかの例では、ユーザ１０４が発話１０６を終了したことを示す表示、例えばエンドポイントが、モデル２００の第２のエンコーダ２２０をトリガし、すべての音響フレーム１１０をエンコードする。

時間２中に、ユーザインタフェース生成器１０７は、デジタルアシスタントインタフェース１８を介して、発話１０６の最終音声認識結果１２０ｂの表現をユーザ装置１０のユーザ１０４に提示する。いくつかの実施態様では、ユーザインタフェース生成器１０７は、部分音声認識結果１２０ａの表現を、最終音声認識結果１２０ｂの表現に置き換える（または変更する）。例えば、最終音声認識結果１２０ｂは、部分音声認識結果１２０ａよりもより正確であると考えられ、部分音声認識結果１２０ａで誤認識された可能性のある用語を修正するために、最終音声認識結果１２０ｂは、最終的にトランスクリプション１２０として表示される。この実施例では、モデル２００（すなわち、第１のエンコーダ２１０及び第１のデコーダ２０４）によって出力され、時間１においてユーザ装置１０の画面に表示された部分音声認識結果１２０ａは、低レイテンシと関連付けられ、ユーザ１０４に対して、そのユーザのクエリが処理されていることを示す応答性を提供する。したがって、部分音声認識結果１２０ａは、ユーザ１０４の発話１０６を「今、どの曲をプレイしているの？」であると誤って予測する可能性がある。モデル２００（すなわち、カスケードエンコーダ２０２及び第２のデコーダ２０６）によって出力され、レイテンシが増加することで、時間２で画面に表示された最終音声認識結果１２０ｂは、ユーザ１０４が「プレイしている」と述べたことを識別して、正確さの観点から音声認識品質を向上させる。しかし、ユーザインタフェース生成器１０７はユーザが発話１０６を行っている間に部分音声認識結果を表示するため、最終認識結果１２０ｂを生成し最終的に表示することに関連するレイテンシが高くても、ユーザ１０４にはあまり気付かれない。

図１Ａに示す例では、デジタルアシスタントアプリケーション５０ａは、自然言語処理を使用して、ユーザ１０４が提起する質問に応答することができる。自然言語処理は、一般に、書かれた言語（例えば、部分音声認識結果１２０ａ及び／または最終音声認識結果１２０ｂ）を解釈し、その書かれた言語が何らかのアクションを促すかどうかを判断するプロセスを指す。この例では、デジタルアシスタントアプリケーション５０ａは、自然言語処理を使用して、ユーザ１０４からの質問が、ユーザの環境、より具体的にはユーザの近くで再生されている曲に関するものであることを認識する。自然言語処理を用いてこれらの詳細を認識することにより、自動アシスタントはユーザのクエリに対して応答１９を返し、応答１９は「クラウドプレイが現在再生中です」と示す。いくつかの構成では、自然言語処理は、ユーザ装置１０のデータ処理ハードウェア１２と通信する遠隔計算装置６０上で行われる。

図１Ｂは、音声環境１００ｂのＡＳＲシステム１０９を用いた音声認識の別の例である。この実施例に示されるように、ユーザ１０４は、ユーザ装置１０の画面上にボイスメールアプリケーションインタフェース１８、１８ｂを表示するボイスメールアプリケーション５０、５０ｂとインタラクションし、ジェーン・ドウがユーザ１０４に残したボイスメールをトランスクリプトする。この実施例では、レイテンシは重要ではない。レイテンシを考慮せずに、ＡＳＲシステム１０９のモデル２００は、ボイスメールに対応するすべての音響フレーム１１０が生成されるまで待機することにより、音声の完全なコンテキストを活用することができる。このボイスメールシナリオはまた、モデル２００がどのようにして長尺の音声を処理することができるのかを示し、なぜならば、ボイスメールは複数の文やさらには数段落にわたることが多いためである。長尺の音声を処理する能力は、ＬＡＳデコーダを備えたマルチパスモデルなどの他のＡＳＲモデルに対して特に有利であり、これは、これらのモデルが、長尺の音声を認識するときに性能の低下（例えば、長尺の音声に対する単語削除率が高い）を被ることが多いためである。例えば、カスケードエンコーダ２０２（例えば、第１のエンコーダ２１０及び第２のエンコーダ２２０）と組み合わせて、第２のエンコーダ２２０の特徴でトレーニングされた専用の第２のデコーダ２０６を使用することで、モデル２００は、性能の低下を招くことなく、長尺の音声に対して音声認識を実行するときに、入力音声の完全なコンテキストを活用することができる。以下でさらに詳細に説明するように、モデル２００のカスケードエンコーダ２０２は、第１のエンコーダ２１０及び第２のエンコーダ２２０とカスケード接続された第３のエンコーダ２３０と、第３のエンコーダ２３０によって最終音声認識結果１２０ｂにエンコードされた音響フレーム１１０をデコードする専用の第３のデコーダ２０８とを任意で含み得る。

図１Ｂを引き続き参照すると、図１Ａに関して説明したように、モデル２００は、音響フレーム１１０を受信しながら、第１のエンコーダ２１０を使用して音響フレーム１１０をエンコードする。モデル２００がすべての音響フレーム１１０を受信し、それらを第１のエンコーダ２１０でエンコードした後、モデル２００は、第１のエンコーダ出力を第２のエンコーダ２２０に入力として提供する。第２のエンコーダ２２０は、第２のデコーダ２０６が最終音声認識結果１２０ｂを生成する前に、第１のエンコーダ出力をエンコードする。その後、ユーザインタフェース生成器１０７は、デジタルアシスタントインタフェース１８ｂを介して、部分音声認識結果１２０ａを最初に表示することなく、最終音声認識結果１２０ｂの表現を提示する。例えば、最終音声認識結果１２０ｂは、ジェーン・ドウからの長尺のボイスメールのトランスクリプションであり、「これを受け取ったら折り返し電話してね。新年の計画を考えようとしているところよ。」となる。

図２Ａ～図２Ｄは、ストリーミングモード及び非ストリーミングモードの様々な組み合わせで動作する例示的なモデル２００ａ～ｄを含む。具体的には、モデル２００ａ～ｄはそれぞれ、カスケードエンコーダ２０２、第１のデコーダ２０４、及び第２のデコーダ２０６を含む。カスケードエンコーダ２０２は、エンコーディング経路がカスケード接続されるエンコーダ２１０及び２２０を含むモデル構造を指し、これにより１つのエンコーダ２１０の出力がデコード前の第２のエンコーダ２２０の入力に供給される。ここでは、各エンコーダの基盤となるアーキテクチャに関係なく、エンコーダ２１０及び２２０をカスケード接続することができる。図２Ｄに示され、以下でより詳細に説明されるように、モデル２００は、３パスモデル２００（すなわち、大きなモデル）に一般化することができ、ここで、カスケードエンコーダ２０２は、エンコーダ２１０、２２０とカスケード接続され、専用の第３のデコーダ２０８に接続される、第３のエンコーダ２３０を含む。ここで、第２のエンコーダ２２０の出力は、第３のデコーダ２０８によるデコードの前に、第３のエンコーダ２３０の入力に供給される。

いくつかの例では、エンコーダ２１０、２２０、２３０は、５１２次元のコンフォーマ層のスタックを含む。他の例では、第１のエンコーダ２１０（すなわち、第１のパス）は、２５６次元の因果コンフォーマ層のスタック（例えば、６層）を含み、第２のエンコーダ２２０（すなわち、第２のパス）は、５１２次元の非因果コンフォーマ層のスタック（例えば、６層）を含み、第３のエンコーダ２３０（すなわち、第３のパス）は、６４０次元の非因果コンフォーマ層のスタック（例えば、６層）を含む。因果的畳み込み層及び左側のコンテキスト注意層を各コンフォーマ層に使用して、将来の入力を使用しないようにモデルを厳密に制限することができる。マルチヘッド（例えば、８つのヘッド）の注意機構は、自己注意層で使用され得る。

エンコーダ２１０は、モデル２００が第１のパスモデルとして動作するとき、約２０００万のパラメータを有する６つのコンフォーマ層を含む。カスケードエンコーダ２１０、２２０は、モデル２００が第２のパスモデルとして動作するとき、約５０００万のパラメータを有する１２個のコンフォーマ層を含み得る。ここで、第１のエンコーダ２１０は、約２０００万のパラメータを有する６つのコンフォーマ層を含んでよく、最初の３つの層は自己注意を有さず（例えば、９２フレームの左コンテキストと右コンテキストがない）、モデル２００が将来の入力を使用することを防ぎ、一方、第２のエンコーダ２２０は、約３０００万のパラメータを有し追加の右コンテキスト（例えば、５．０４秒）を取り込む６つのコンフォーマ層を含み得る。カスケードエンコーダ２１０、２２０、２３０は、モデル２００が第３のパスモデルとして動作するとき、約１億１０００万のパラメータを有する１８個の層を含み、ここで、第３のエンコーダ２３０は、追加の右コンテキスト（例えば、約６０００万のパラメータを有する９００ミリ秒（ｍｓ）の３０フレームの右コンテキスト）を有する６つの非因果コンフォーマ層を含む。任意選択で、コンフォーマ層の代わりに、トランスフォーマー層などの自己注意機構を組み込んだ他のタイプの層を使用することができる。第１のエンコーダ２１０は、因果エンコーダと呼ばれることがあり、第２のエンコーダ２２０及び第３のエンコーダ２３０は、それぞれ、非因果エンコーダと呼ばれることがある。

他の実施態様では、一方のエンコーダはＬＳＴＭ構造を用いて構築され、他方のエンコーダは双方向ＬＳＴＭ層またはコンフォーマ層（例えば、コンフォーマ－トランスデューサ）を使用して構築される。言い換えれば、エンコーダ２１０、２２０、２３０は、異なるアーキテクチャまたは類似のアーキテクチャを有してもよい。例えば、カスケードエンコーダ２０２は、従来のＡＳＲシステムの音響モデル（ＡＭ）におおむね類似し得、積層された長短期記憶（ＬＳＴＭ）層の再帰型ネットワークを含み得る。ここで、第１のエンコーダ２１０は、単方向長短期記憶（ＬＳＴＭ）層を含むストリーミングエンコーダである一方、第２のエンコーダ２２０は、双方向ＬＳＴＭ層またはコンフォーマ層を含む非ストリーミングエンコーダである。カスケードエンコーダ２０２において、エンコーダ２１０、２２０、２３０がＬＳＴＭ層を含み、第１のエンコーダ２１０の出力を受信する第２のエンコーダ２２０は、第１のエンコーダ２１０のＬＳＴＭ層を利用することができるため、第２のエンコーダ２２０が第１のエンコーダ２１０より少ないＬＳＴＭ層（及び完全な非ストリーミングモデルより少ないＬＳＴＭ層）を含む。より少ないＬＳＴＭ層を有することにより、カスケードエンコーダ２０２は、より計算負荷の高い双方向層の数を減らすことができ、従来のストリーミングモデルを従来の非ストリーミングモデルと単に組み合わせるよりも、モデル２００をより合理化することができる。

図２Ａを参照すると、第１のエンコーダ２１０は、ｄ次元特徴ベクトルのシーケンス（例えば、図１Ａ及び１Ｂに示される音響フレーム１１０）を読み出す。ｘ＝_（ｘ１，ｘ_２，・・・，ｘ_Ｔ）式中、ｘｔ∈Ｒｄ）は_、各出力ステップで、第１の高次特徴表現を生成する。この第１の高次特徴表現は、ｅ^ｓとして表される。同様に、第２のエンコーダ２２０は、第１のエンコーダ２１０にカスケード接続され、第１の高次の特徴ｅ^ｓを入力として受信し、第２の高次特徴表現を出力するようにトレーニングされる。この第２の高次特徴表現は、ｅ^ａとして表される。任意選択で、第３のエンコーダ２３０は、第２のエンコーダ２２０にカスケード接続され、第２の高次特徴表現ｅ^ａを入力として受信し、第３の高次特徴表現を出力するようにトレーニングされる。この第３の高次特徴表現は、ｅ^ｒとして表される。第１のエンコーダ２１０、第２のエンコーダ２２０、及び第３のエンコーダ２３０は、それぞれ専用のより小さいデコーダ２０４、２０６、２０８に直接接続される。具体的には、第１のエンコーダ２１０は第１のデコーダ２０４に接続され、第２のエンコーダ２２０は第２のデコーダ２０６に接続され、第３のエンコーダ２３０は第３のデコーダ２０８に接続される。したがって、第１のデコーダ２０４は、第１の高次特徴表現ｅ^ｓの入力を受信し、第２のデコーダ２０６は、第２の高次特徴表現ｅ^ａを入力として受信し、第３のデコーダ２０８は、３次の高次特徴表現ｅ^ｒを入力として受け取る。

第１のデコーダ２０４、第２のデコーダ２０６、及び第３のデコーダ２０８はそれぞれ、３８４次元の全結合ジョイント層２４０、２４０ａ～ｃに基づいて４４０万のパラメータを有する再帰型ニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）アーキテクチャと、それぞれ３２０次元の埋め込み予測ネットワーク２５０、２５０ａ～ｃとを含んでもよい。モデル２００がストリーミングモード（すなわち、図２Ｂ）で動作するとき、第１のデコーダ２０４のジョイント層２４０ａは、予測ネットワーク２５０ａから埋め込み出力（以前の予測ｙ_ｒ－１）を受信し、第１のエンコーダ２１０から出力された第１の高次特徴表現ｅ^ｓと組み合わせて、第１デコーダ２０４の出力を生成する。モデル２００が２パス非ストリーミングモード（図２Ｃ）で動作するとき、第２のデコーダ２０６は、ジョイント層２４０ｂを使用して、カスケードエンコーダ２０２によって出力された第２の高次特徴表現ｅ^ａと予測ネットワーク２５０ｂからの埋め込み出力（以前の予測ｙ_ｒ－１）を組み合わせて、第２のデコーダ２０６の出力を生成する。同様に、モデル２００が３パス非ストリーミングモード（図２Ｄ）で動作するとき、第３のデコーダ２０８は、ジョイント層２４０ｃを使用して、カスケードエンコーダ２０２によって出力された第３の高次特徴表現ｅ^ｒと予測ネットワーク２５０ｃからの埋め込み出力（以前の予測ｙ_ｒ－１）を組み合わせて、第３のデコーダ２０８の出力を生成する。

デコーダ２０４、２０６、２０８のそれぞれの出力は、現在のサブワードユニットｙ_ｉに対する確率分布Ｐ（ｙ_ｉ｜ｙ_ｉ－１，．．．，ｙ_０，ｘ）であり得、これはＮ個の前の非空白記号の前のユニットのシーケンス｛ｙ_ｉ－１，．．．，ｙ_ｉ－Ｎ｝と入力ｘに基づいている。図示されていないが、モデル２００は、デコーダ２０４、２０６、２０８の出力を受信するソフトマックス層を含み得る。いくつかの実施態様では、ソフトマックス層は、デコーダ２０４、２０６、２０８とは別に存在し、デコーダ２０４、２０６、２０８からの出力ｙ_ｒを処理する。次に、ソフトマックス層の出力は、正字要素を選択するためにビーム探索プロセスで使用される。いくつかの実施態様では、ソフトマックス層は、デコーダ２０４、２０６、２０８のそれぞれの内部に統合され、それぞれのデコーダ２０４、２０６、２０８の出力ｙ_ｒは、ソフトマックス層の出力を表す。

デコーダ２０４、２０６、２０８は、出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して確率分布を生成するよう構成されている。別の言い方をすれば、デコーダ２０４、２０６、２０８のそれぞれについて、それぞれのジョイント層２４０は、各出力ステップ（例えば、時間ステップ）において、可能性のある音声認識仮説に対して確率分布を生成する。ここで、「可能性のある音声認識仮説」は、それぞれが特定の自然言語の書記素（例えば、記号／文字）または言葉の一部を表す出力ラベル／記号のセット（「音声ユニット」とも呼ばれる）に対応する。例えば、自然言語が英語の場合、出力ラベルのセットには２７個の記号、例えば、英語のアルファベットの２６文字それぞれに１つのラベルと、スペースを表す１つのラベルとが含まれ得る。したがって、各ジョイント層２４０は、所定の出力ラベルセットの各々の発生可能性を示す値のセットを出力し得る。この値のセットはベクトルであり得（例えば、１－ホットベクトル）、出力ラベルのセットの確率分布を示し得る。場合によっては、出力ラベルは書記素（例えば、個々の文字、潜在的な句読点やその他の記号）であるが、出力ラベルのセットはそれらに限定されない。例えば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、言葉の一部及び／または言葉全体を含むことができる。出力ラベルはまた、音素または副音素など、他のタイプの音声ユニットであり得る。ジョイント層２４０の出力分布は、異なる出力ラベルのそれぞれに対する事後確率値を含み得る。したがって、異なる書記素または他の記号を表す１００個の異なる出力ラベルがある場合、ジョイント層２４０の出力は、出力ラベルごとに１つずつ、１００個の異なる確率値を含むことができる。次に、確率分布を使用して、（例えば、ソフトマックス層による）ビーム検索プロセスで候補の正字要素（例えば、書記素、言葉の一部、及び／または言葉）を選択し、スコアを割り当てて、トランスクリプション１２０を決定することができる。

デコーダ２０４、２０６、２０８のそれぞれの内部で、それぞれの予測ネットワーク２５０は、２つの２０４８次元のＬＳＴＭ層を有してよく、各ＬＳＴＭ層には６４０次元の投影層が続くため、ＬＳＴＭベースの予測ネットワークは、約２３４０万のパラメータを有し得る。言い換えると、各予測ネットワーク２５０は、ＬＳＴＭ層を含み得る。他の構成では、予測ネットワーク２５０は、ＬＳＴＭ層の代わりにコンフォーマ層またはトランスフォーマ層を含み得る。さらに他の構成では、予測ネットワーク２５０は、埋め込み予測ネットワークを含むＶ２埋め込みルックアップテーブルを含む。各時間ステップにおいて、Ｖ２埋め込みルックアップテーブルは、予測ネットワーク２５０によって出力された以前の２つの予測（例えば、１－ホットベクトル）を入力として受信し、以前の２つの予測のそれぞれについて、それぞれの埋め込みｄ_１、ｄ_２を計算し、連結出力［ｄ_１，ｄ_２］をジョイント層２４０に提供する。比較すると、Ｖ２埋め込みルックアップテーブルは、約２００万のパラメータしか有さない場合があるが、ＬＳＴＭベースの予測ネットワークは、約２３４０万のパラメータを含み得る。最後に、予測ネットワーク２５０はまた、６４０個の隠れユニットを有する１層のニューラルネットワークであってもよい。ソフトマックス層は、複数のトレーニング発話１３２、１３２ａ～ｎ（図３Ａ～３Ｂ）の中のすべての固有の言葉の一部または書記素を使用して生成される統合された言葉の一部または書記素セットから構成されてもよい。いくつかの実施態様では、ＡＳＲモデル２００が見る将来のコンテキストの量を制限するために、第２のエンコーダ２２０は、特定の量の右コンテキスト（例えば、５秒の右コンテキスト）といくつかのコンフォーマ層（例えば、２層）を使用する一方、第１のエンコーダ２１０は、ＬＳＴＭ層を使用し続ける。これらの実施態様では、第２のエンコーダ２２０内の各コンフォーマ層は、ＬＳＴＭ層と一致する６４０個のユニットを有し得、約１０００万の追加パラメータを追加する。

いくつかの実施態様では、モデル２００はストリーミングモード（すなわち、１パスモデル）で動作し、ファネルプーリングは入力音響フレーム１１０をダウンサンプリングするために使用され、これにより、モデル２００の性能を維持しながら、モデル２００のパラメータの数を削減する。例えば、第１のエンコーダ２１０の自己注意層は、入力として特徴マップｘ∈Ｒ^Ｔ×Ｄを受信するが、ここで、Ｔは元のシーケンスの長さであり、Ｄは特徴次元である。その後、ダウンサンプリングされたシーケンスｘ’∈Ｒ^Ｔ×Ｄが平均プーリングによって生成され、これは次のように表される。
ｘ’＝Ａｖｇプール（ｘ）（１）
式中、Ｔ’＝Ｔ／２である。ｘ’を自己注意層への入力として提供するのではなく、クエリベクトルｑとして使用する。ここで、鍵ベクトルｋ及び値ベクトルｖは、入力特徴マップｘに基づき、ｙ∈Ｒ^ＴＤ次のような自己注意層の出力特徴としてマッピングされる。
ｙ＝自己注意（ｑ＝ｘ’，ｋｖ＝ｘ）（２）
図２Ａの例を続けると、いくつかの実施態様では、モデル２００ａはストリーミングモードと非ストリーミングモードの両方で並行して動作する。ストリーミングモード及び非ストリーミングモードの両方で同時に動作する場合、モデル２００ａは最初に、第１のエンコーダ２１０を使用して音声データ１１０に対してストリーミング音声認識を実行し、第２のエンコーダ２２０及び第１のデコーダ２０４の両方に対する第１の高次特徴表現ｅ^ｓを生成する。次に、第１のデコーダ２０４は、第１の高次特徴表現ｅ^ｓに基づいて、部分音声認識結果１２０、１２０ａを生成する。モデル２００ｂも、エンコードされた音声データ１１０に対して非ストリーミング音声認識を実行し、第２のエンコーダ２２０は、第１のエンコーダ２１０から受信した第１の高次特徴表現ｅ^ｓを使用して第２の高次特徴表現ｅ^ａを生成する。次に第２のデコーダ２０６は、第２の高次特徴表現ｅ^ａに基づいて、最終音声認識結果１２０、１２０ｂを生成する。「時間」によって示されるように、第１のデコーダ２０４は、第１のエンコーダ２１０からの出力を使用してストリーミング方式で部分音声認識結果１２０ａを出力し、その後モデル２００ａ発話が完了するのを待って、非ストリーミングモードで動作し、第２のデコーダ２０６は、第２のエンコーダ２２０からの出力を使用して、最終音声認識結果１２０ｂを生成する。したがって、入力発話１０６に対する最終音声認識結果１２０ｂは、部分音声認識結果１２０ａから遅延する場合がある。

図２Ｂを参照すると、いくつかの実施態様では、モデル２００ｂはストリーミングモード（すなわち、シングルパスモード）でのみ動作する。これは、例えば、ユーザ１０４が、音声検索またはデバイス上でのディクテーションなど、レイテンシを最小限に抑える必要があるアプリケーションを使用しているときに発生し得る。ここで、モデル２００ｂは、第１のエンコーダ２１０のみを使用して、音声データ１１０のストリーミング音声認識を実行して、第１のデコーダ２０４に対する第１の高次特徴表現ｅ^ｓを生成する。第１のデコーダ２０４は、次に、部分音声認識結果１２０、１２０ａを生成する。モデル２００ｂのストリーミングモードは、部分音声認識結果１２０、１２０ａを迅速に生成するため、用語「再生」の不正確さは、ユーザ１０４に一般に許容される。

図２Ｃを参照すると、いくつかの実施態様では、モデル２００ｃは、非ストリーミングモード（すなわち、２パスモデル）でのみ動作する。非ストリーミングモードは、例えば、ユーザ１０４が自分の電話に残されたボイスメールのトランスクリプションを閲覧している（例えば、図１Ｂ）などの非レイテンシ集約型アプリケーションで発生してもよい。上記のように、このタイプのアプリケーションは、将来のコンテキストを使用することで性能を向上させ、処理時間の増加と引き換えに恩恵を受ける。ここで、モデル２００ｃは、第１のエンコーダ２１０を使用して、第２のエンコーダ２２０への入力のために各時間ステップで第１の高次特徴表現ｅ^ｓを生成するが、第１のデコーダ２０４は、第１の高次特徴表現ｅ^ｓのいずれもデコードしない。その後、モデル２００ｃは、すべての音声データ１１０に対して非ストリーミング音声認識を実行し、第２のエンコーダ２２０は、第１のエンコーダ２１０から受信した第１の高次特徴表現ｅ^ｓを使用して、第２の高次特徴表現ｅ^ａを生成する。次に、第２のデコーダ２０６は、最終音声認識結果１２０、１２０ｂを生成する。ストリーミング音声認識をリアルタイムで生成することは、ユーザにとってほとんど価値がなく、レイテンシは要因ではないため、モデル２００ｃは単に非ストリーミングモードのみで動作し、最終的な音声認識結果１２０，１２０ｂを生成する場合がある。

２Ｄを参照すると、モデル２００は、非ストリーミングモードでのみ動作する３パスモデル２００ｄ（すなわち、大きいモデル）に一般化することができる。この非ストリーミングモードは、例えば、ユーザ１０４がモデル２００から音声認識においてより高い精度を期待する非レイテンシ集約型アプリケーションで発生し得る。上記のように、このタイプのアプリケーションは、最終音声認識結果１２０、１２０ｂに対するレイテンシの増加と引き換えに、将来のコンテキストの量を増やすことで利益を得る。ここで、モデル２００ｄは、第１のエンコーダ２１０を使用して、第２のエンコーダ２２０への入力のために各時間ステップで第１の高次特徴表現ｅ^ｓを生成するが、第１のデコーダ２０４は、第１の高次特徴表現ｅ^ｓのいずれもデコードしない。モデル２００ｄは次に、すべての音声データ１１０に対して非ストリーミング音声認識を実行し、第２のエンコーダ２２０は、第１のエンコーダ２１０から受信した第１の高次特徴表現ｅ^ｓを使用して、第２の高次特徴表現ｅ^ａを生成する。モデル２００ｃとは異なり、第２のデコーダ２０６は、第２の高次特徴表現ｅ^ａのいずれもデコードしない。それどころか、モデル２００ｄも、すべての音声データ１１０に対して非ストリーミング音声認識を実行し、第３のエンコーダ２３０は、第２のエンコーダ２２０から受信した第２の高次特徴表現ｅ^ａを使用して、第３の高次特徴表現ｅ^ｒを生成する。次に、第３のデコーダ２０８は、最終音声認識結果１２０、１２０ｂを生成する。

図３Ａ及び図３Ｂは、様々なモデルサイズのストリーミングモード及び／または非ストリーミングモードの間で動的に動作するようにモデル２００をトレーニングするための２段階トレーニングプロセス３００、３００ａ～ｂの例を示す。いくつかの構成では、トレーニングプロセス３００は、図１Ａ及び図１Ｂの遠隔計算装置６０上で実行される。トレーニングプロセス３００は、サンプルデータベース１３０に保存された複数のトレーニング発話１３２、１３２ａ～ｎを取得し、２段階のプロセスを使用してモデル２００をトレーニング発話１３２でトレーニングする。サンプルデータベース１３０は、遠隔計算装置６０のメモリハードウェア上に常駐してもよい。図２Ａに関して上述した通り、第１のエンコーダ２１０、第２のエンコーダ２２０、及び第３のエンコーダ２３０は、共同でまたは一緒にトレーニングすることができ、トレーニングプロセス３００を簡素化する。エンコーダ２１０、２２０、２３０を共同でトレーニングするということは、非ストリーミングエンコーダ２２０が、入力音響特徴（例えば、入力音響フレーム１１０）の代わりに、ストリーミングエンコーダ２１０の出力で直接トレーニングされ得る（例えば、第１の高次特徴表現ｅ^ｓ）一方で、非ストリーミングエンコーダ２３０は、入力音響特徴（例えば、入力音響フレーム１１０）の代わりに非ストリーミングエンコーダ２２０（例えば、第２の高次特徴表現ｅ^ａ）の出力で直接トレーニングされ得ることを意味する。有利なことに、これにより、モデル２００が推論中にストリーミングモードまたは非ストリーミングモードのいずれかで動作することを学習することが保証される。

図３Ａ及び図３Ｂに示すように、モデル２００には３つの処理パスがあり、１つはモデル２００ｂのストリーミングモード（図２Ｂに示す）、１つはモデル２００ｃの非ストリーミングモード（図２Ｃに示す）、もう１つはモデル２００ｄの非ストリーミングモード（図２Ｄに示す）である。図３Ａを参照すると、トレーニングプロセス３００は、第１段階のトレーニングプロセス３００ａを採用している。第１段階では、トレーニングプロセス３００ａは、トレーニング発話１３２の同じミニバッチを、カスケードエンコーダモデル２００ｂ、２００ｃ、２００ｄのそれぞれを介して転送することにより交差エントロピートレーニングを使用し、各カスケードエンコーダモデル２００ｂ、２００ｃ、２００ｄの損失を、合計が１になる重みで線結合する。トレーニングプロセス３００ａの第１段階において、カスケードエンコーダ２１０、２２０、２３０を共同でトレーニングすることは、入力処理パス間の損失の重み付き合計を最小にすることを含む。

トレーニングプロセス３００内には３つの入力処理パスがあるため、モデルの損失には３つの損失関数が含まれる。具体的には、モデル２００ｂのストリーミングモードにおける損失は、入力トレーニング発話１３２に基づく、可能性のある音声認識仮説に対する確率分布に対応する負の対数確率の合計として一般に定義される。すなわち、第１のエンコーダ２１０からデコーダ２０４への接続のモデル損失は、

として定義される。非ストリーミングモード（例えば、モデル２００ｃ）におけるモデル損失はまた、入力トレーニング発話１３２に基づく、可能性のある音声認識仮説に対する確率分布に対応する負の対数確率の合計として一般に定義される。したがって、第２のエンコーダ２２０からデコーダ２０４への接続のモデル損失は

として定義される。非ストリーミングモード（例えば、モデル２００ｂ）におけるモデル損失はまた、入力トレーニング発話１３２に基づく、可能性のある音声認識仮説に対する確率分布に対応する負の対数確率の合計として一般に定義される。したがって、第３のエンコーダ２３０から第３のデコーダ２０６へ接続するモデル損失は

として定義される。いくつかの実施態様では、モデル２００がエンコーダ２１０、２２０及びデコーダ２０４、２０６のみを含む場合、第１のデコーダ２０４及び第２のデコーダ２０６の２つの入力パスの間の総損失

は、各入力パスの加重和として計算され、λは重み付け項である。
第２段階では、交差エントロピートレーニングを使用して、第１段階のトレーニング３００ａ中に初期化されたモデル２００を微調整するために、トレーニングプロセス３００ｂが識別トレーニングを実行する。ここで、識別トレーニングは、最小単語誤り率（ＭＷＥＲ）基準を使用して、モデル２００を微調整することを含む。トレーニングプロセス３００ｂの第２段階の間、各トレーニング発話１３２に対して、トレーニングはストリーミングまたは非ストリーミング経路／パスのいずれかで行われ得る。言い換えると、入力処理パスは、モデル２００ｂ、またはモデル２００ｃ、またはモデル２００ｄのいずれかをトレーニングするように確率的に選択され、トレーニングプロセス３００ｂはその損失重みと等しい確率で、各モデル２００ｂ、２００ｃ、２００ｄをランダムにサンプリングする。ここで、モデル２００ｂの損失重みは０．８、モデル２００ｃの損失重みは０．１５、モデル２００ｄの損失重みは０．０５であってよい。モデル２００ｂの経路のトレーニングに最も多くの時間を費やすことにより、後の経路２００ｃ、２００ｄでの性能を犠牲にすることなく、モデルの精度が向上する。その後、サンプリングされた経路のそれぞれのデコーダ２０４、２０６、２０８は、トレーニング発話１３２に対してビーム検索を実行して、仮説のｎ－ベストリストを生成し、すべての仮説について負の対数尤度が計算され、ｎ－ベスト空間で再正規化されて、モデル２００での損失の最小化のために単語誤り損失が近似される。したがって、対応するトレーニング発話に対してそれぞれのデコーダによって生成されたｎベストリスト内の各仮説について、対応するトレーニング発話の正解トランスクリプションに対するそれぞれの数の単語誤りが識別され、トレーニングプロセスは対応するトレーニング発話１３２のｎベストリスト内の各仮説について識別されたそれぞれの単語誤り数に基づいて単語誤り率を最小化するためにＭＷＥＲ基準を使用する。本明細書で使用される場合、ｎ―ベストリストは、ｎ個の最も高いランクの仮説を含み、ｎ―ベストリスト内の各仮説は、同じ対応するトレーニング発話１３２に対する候補トランスクリプションを含む。いくつかの実施態様では、ｎは４に等しいので、サンプリングされた経路のそれぞれのデコーダ２０４、２０６、２０８は、トレーニング発話１３２に対してビーム検索を実行して、上位４つの仮説を生成し、全ての仮説（４より多い）に対して負の対数尤度が計算され、上位４つの空間で再正規化される。さらに、トレーニング発話１３２をサンプリングすることにより、トレーニングプロセスは、各パス／経路でトレーニング発話１３２ごとに損失を一度計算するだけ必要とするだけでよく、これにより、トレーニングプロセス３００ｂの第２段階が大幅に高速化される。いくつかの実施態様では、より長いトレーニング時間が許容される場合、代替のトレーニングプロセスが採用され、各トレーニング発話を用いて各入力処理経路／パスをトレーニングし、各トレーニング発話１３２に対してモデル２００ｂ及びモデル２００ｃの両方の損失を計算する。

図３Ａに示す例では、トレーニング発話１３２ｂ、１３２ｃは、トレーニングプロセス３００ａの第１段階でカスケードエンコーダモデル２００ｂ、２００ｃ、２００ｄによって表される処理経路のそれぞれをトレーニングするように選択される。カスケードエンコーダモデル２００ｂは、トレーニング発話１３２ｂ、１３２ｃを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ｂ、１３２ｃを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。次に、第１のデコーダ２０４は、トレーニング発話１３２ｂ、１３２ｃの第１の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。同様に、トレーニング発話１３２ｂ、１３２ｃが選択されて、カスケードエンコーダモデル２００ｃによって表される第２の処理経路をトレーニングする。カスケードエンコーダモデル２００ｃは、トレーニング発話１３２ｂ、１３２ｃを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ｂ、１３２ｃを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。第２のエンコーダ２２０は、トレーニング発話１３２ｂ、１３２ｃの第１の高次特徴表現を入力として受信し、トレーニング発話１３２ｂ、１３２ｃの第２の高次特徴表現を出力として生成する。次に、第２のデコーダ２０６は、トレーニング発話１３２ｂ、１３２ｃの第２の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。同様に、カスケードエンコーダモデル２００ｄは、トレーニング発話１３２ｂ、１３２ｃを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ｂ、１３２ｃを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。第２のエンコーダ２２０は、トレーニング発話１３２ｂ、１３２ｃの第１の高次特徴表現を入力として受信し、トレーニング発話１３２ｂ、１３２ｃの第２の高次特徴表現を出力として生成する。第３のエンコーダ２３０は、トレーニング発話１３２ｂ、１３２ｃの第２の高次特徴表現を入力として受信し、トレーニング発話１３２ｂ、１３２ｃの第３の高次特徴表現を出力として生成する。次に、第３のデコーダ２０８は、トレーニング発話１３２ｂ、１３２ｃの第３の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。

図３Ｂに示すように、トレーニングプロセス３００ｂの第２段階では、トレーニングプロセス３００ｂによって使用されるトレーニング発話１３２がランダムに選択され、モデル２００の各パスは、モデル２００の各経路に割り当てられる損失重みと等しい確率でランダムに選択される。その損失重みに基づいて、カスケードエンコーダモデル２００ｂは、トレーニング発話１３２ａ、１３２ｂ、１３２ｃを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ａ、１３２ｂ、１３２ｃを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。次に、第１のデコーダ２０４は、トレーニング発話１３２ａ、１３２ｂ、１３２ｃの第１の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。その損失重みに基づいて、カスケードエンコーダモデル２００ｃは、トレーニング発話１３２ｂ、１３２ｄを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ｂ、１３２ｄを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。第２のエンコーダ２２０は、トレーニング発話１３２ｂ、１３２ｄの第１の高次特徴表現を入力として受信し、トレーニング発話１３２ｂ、１３２ｄの第２の高次特徴表現を出力として生成する。次に、第２のデコーダ２０６は、トレーニング発話１３２ｂ、１３２ｄの第２の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。その損失重みに基づいて、カスケードエンコーダモデル２００ｄは、トレーニング発話１３２ｃを受信し、第１のエンコーダ２１０は、トレーニング発話１３２ｃを出力として第１の高次特徴表現（例えば、音声埋め込み）に変換する。第２のエンコーダ２２０は、トレーニング発話１３２ｃの第１の高次特徴表現を入力として受信し、トレーニング発話１３２ｃの第２の高次特徴表現を出力として生成する。第３のエンコーダ２３０は、トレーニング発話１３２ｃの第２の高次特徴表現を入力として受信し、トレーニング発話１３２ｃの第３の高次特徴表現を出力として生成する。次に、第３のデコーダ２０８は、トレーニング発話１３２ｃの第３の高次特徴表現を入力として受信し、その精度についてテストされた出力を生成する。

図４は、ＡＳＲモデル２００を使用してストリーミング及び非ストリーミング音声認識を実行する方法４００の例示的な動作手順のフローチャートを含む。動作４０２において、方法４００は、ＡＳＲモデル２００への入力として、音響フレーム１１０のシーケンスを受信することを含む。動作４０４では、方法４００はまた、第１のエンコーダ２１０によって、複数の出力ステップのそれぞれで、音響フレーム１１０のシーケンス内の対応する音響フレーム１１０の第１の高次特徴表現を生成することを含む。動作４０６では、方法４００は、第１のデコーダ２０４及び第２のエンコーダ２２０の両方への入力として、複数の出力ステップそれぞれで、第１のエンコーダ２１０によって生成された第１の高次特徴表現を受信することを含む。

方法４００はまた、動作４０８において、複数の出力ステップのそれぞれで第２のエンコーダ２２０によって、対応する第１の高次特徴表現に対して第２の高次特徴表現を生成することを含む。動作４１０では、方法４００は、複数の出力ステップのそれぞれで第１のデコーダ２０４によって、可能性のある音声認識仮説に対する第１の確率分布を生成することを含む。方法４００は、動作４１２で、第２のデコーダ２０６への入力として、複数の出力ステップのそれぞれで第２のエンコーダ２２０によって生成された第２の高次特徴表現を受信することをさらに含む。動作４１４では、方法４００はまた、複数の出力ステップのそれぞれで第２のデコーダ２０６によって、可能性のある音声認識仮説に対する第２の確率分布を生成することを含む。

図５は、本明細書で説明されるシステム（例えば、音声サブシステム１０８、ＡＳＲシステム１０９、ユーザインタフェース生成器１０７、及び／またはモデル２００）及び方法（例えば、方法４００）を実装するために使用され得る例示的な計算装置５００の概略図である。計算装置５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、この文書で説明及び／または特許請求されている本発明の実施態様を制限することを意図してはいない。

計算装置５００には、プロセッサ５１０（例えば、データ処理ハードウェア）、メモリ５２０（例えば、メモリハードウェア）、記憶装置５３０、メモリ５２０及び高速拡張ポート５５０に接続する高速インターフェイス／コントローラ５４０、ならびに低速バス５７０及び記憶装置５３０に接続する低速インターフェイス／コントローラ５６０が含まれる。各構成要素５１０、５２０、５３０、５４０、５５０、及び５６０は、様々なバスを使用して相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在することもできる。プロセッサ５１０（例えば、図１Ａ～図１Ｂのデータ処理ハードウェア１２、６２）は、メモリ５２０または記憶装置５３０に記憶された命令を含む、計算装置５００内で実行するための命令を処理して、高速インターフェイス５４０に接続されたディスプレイ５８０などの外部入出力デバイスにグラフィカルユーザインターフェイス（ＧＵＩ）のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリ及び複数のメモリタイプと共に、必要に応じて複数のプロセッサ及び／または複数のバスが使用されてもよい。また、複数の計算装置５００が接続され、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）各デバイスが必要な動作の一部を行う場合もある。

メモリ５２０（すなわち、図１Ａ～図１Ｂのメモリハードウェア１４、６４）は、計算装置５００内に非一時的に情報を記憶する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的なメモリ５２０は、計算装置５００による使用のために一時的または永続的にプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリ及び読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスクまたはテープを含むが、これらに限定されない。

記憶装置５３０は、計算装置５００に大容量ストレージを設けることができる。いくつかの実施態様では、記憶装置５３０は、コンピュータ可読媒体である。様々な異なる実施態様では、記憶装置５３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他の構成のデバイスを含む、デバイスアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上記のような１つ以上の方法を実行する命令を含む。情報キャリアは、メモリ５２０、記憶装置５３０、またはプロセッサ５１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

高速コントローラ５４０は、計算装置５００の帯域幅集約動作をより管理する一方、低速コントローラ５６０は、低帯域幅集約動作を管理する。このような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ５４０は、メモリ５２０、ディスプレイ５８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）、及び様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート５５０に結合される。いくつかの実施態様では、低速コントローラ５６０は、記憶装置５３０及び低速拡張ポート５９０に結合される。低速拡張ポート５９０には、様々な通信ポート（ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネットなど）が含まれる場合があり、ネットワークアダプタなどを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの１つ以上の入出力デバイスに接続できる。

計算装置５００は、図に示すように、多くの様々な形式で実装できる。例えば、それは、標準サーバ５００ａとして、またはそれらのようなサーバ５００ａの群内の複数回、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として実装されてよい。

本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子及び／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組み合わせで実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータ及び命令を受信し、ストレージシステムにデータ及び命令を送信するように結合された、少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスを含むプログラム可能なシステムで実行可能及び／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施態様を含むことができる。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、計算装置にタスクを実行させるコンピュータソフトウェアを指してもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションを含むが、これらに限定されない。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、かつ高水準手続型及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語で実装されることができる。本明細書で使用する場合、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／またはデータを提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置及び／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令及び／またはデータをプログラマブルプロセッサに提供するために用いられるあらゆる信号を指す。

本明細書に説明するプロセス及び論理フローは、１つ以上のプログラマブルプロセッサがまた、データ処理ハードウェアとして言及され、１つ以上のコンピュータプログラムを実行して、入力データに作用し、出力を生成することにより機能を実行することによって実行できる。プロセス及び論理フローはまた、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）により実行され得る。コンピュータプログラムの実行に適切なプロセッサは、例えば、汎用及び特殊目的のプロセッサの両方、並びにいずれかの種類のデジタルコンピュータのいずれか１つまたは複数のプロセッサを含む。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令及びデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令及びデータを格納するための１つ以上のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを含む、またはそれらからデータを受信するもしくはそれらにデータを送信する、あるいはその両方を行うよう動作可能に接続される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読み取り可能なメディアには、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイスが含まれ、たとえば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、及びＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサ及びメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。

ユーザとのインタラクションを行うために、本発明の１つ以上の態様は、ユーザに情報を表示するためのディスプレイ装置（例えばＣＲＴ（ブラウン管）またはＬＣＤ（液晶画面）モニタ、またはタッチスクリーン）を有するコンピュータに、ユーザがそれによってコンピュータへの入力を行うことができる、任意でキーボード及びポインティングデバイス（例えばマウスまたはトラックボール）を実装することができる。他の種類のデバイスもまた、ユーザとのインタラクションを提供するために用いられ得る。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声言語、または触覚入力を含む、任意の形式で受け取られ得る。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。

いくつかの実施態様が説明されてきた。それにも関わらず、本開示の趣旨及び範囲から逸脱することなく、様々な修正を行い得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

Claims

ストリーミングモード及び非ストリーミングモードの両方での動作を実行させるための、コンピュータを機能させる自動音声認識（ＡＳＲ）モデル（２００）であって、
第１のエンコーダ（２１０）であって、
複数の音響フレーム（１１０）からなるシーケンスを入力として受信し、
複数の出力ステップのそれぞれにおいて、前記複数の音響フレーム（１１０）からなるシーケンスにおける対応する音響フレーム（１１０）に対して第１の高次特徴表現を生成するよう構成されている、前記第１のエンコーダ（２１０）と、
第１のデコーダ（２０４）であって、
前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第１の確率分布を生成するよう構成されている、前記第１のデコーダ（２０４）と、
第２のエンコーダ（２２０）であって、
前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれで、対応する第１の高次特徴フレームに対して第２の高次特徴表現を生成するように構成されている、前記第２のエンコーダ（２２０）と、
第２のデコーダ（２０６）であって、
前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第２の確率分布を生成するよう構成されている、前記第２のデコーダ（２０６）とを含み、
前記ＡＳＲモデル（２００）は、２段階トレーニングプロセスを使用してトレーニングされ、前記２段階トレーニングプロセスは、
トレーニング発話の同じミニバッチを、（ｉ）前記第１のエンコーダ（２１０）と前記第１のデコーダ（２０４）とからなるカスケードエンコーダモデル（２００ｂ）と、（ｉｉ）前記第１のエンコーダ（２１０）と前記第２のエンコーダ（２２０）と前記第２のデコーダ（２０６）とからなるカスケードエンコーダモデル（２００ｃ）と、のそれぞれを介して転送することにより交差エントロピートレーニングを使用し、各カスケードエンコーダモデル（２００ｂ、２００ｃ）の損失を、合計が１になる重みで線結合する、第１段階と、
交差エントロピートレーニングを使用して前記第１段階のトレーニング中に初期化された前記ＡＳＲモデル（２００）を微調整するために、識別トレーニングを実行する、第２段階と、を含む、自動音声認識（ＡＳＲ）モデル（２００）。
前記第１のデコーダ（２０４）が、可能性のある音声認識仮説に対する前記第１の確率分布に基づいて、部分音声認識結果（１２０）を生成するようにさらに構成される、請求項１に記載のＡＳＲモデル（２００）。
前記第１のエンコーダ（２１０）が、
複数の単方向長短期記憶（ＬＳＴＭ）層と、
複数のコンフォーマ層と、
複数のトランスフォーマ層とのうちの１つを含む因果エンコーダを含む、請求項１または２に記載のＡＳＲモデル（２００）。
前記第２のエンコーダ（２２０）が、
複数の単方向長短期記憶（ＬＳＴＭ）層と、
複数のコンフォーマ層と、
複数のトランスフォーマ層とのうちの１つを含む非因果エンコーダを含む、請求項１または２に記載のＡＳＲモデル（２００）。
前記第１のデコーダ（２０４）が、
予測ネットワーク（２５０）であって、
最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、
前記複数の出力ステップのそれぞれで密な表現を生成するよう構成されている、前記予測ネットワーク（２５０）と、
結合ネットワーク（２４０）であって、
前記複数の出力ステップのそれぞれで前記予測ネットワーク（２５０）によって生成された前記密な表現と、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現とを入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第１の確率分布を生成するよう構成されている、前記結合ネットワーク（２４０）とを含む、請求項１または２に記載のＡＳＲモデル（２００）。
前記予測ネットワーク（２５０）が、
長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク（２５０）、または
Ｖ２埋め込みルックアップテーブルを含む、請求項５に記載のＡＳＲモデル（２００）。
前記第２のデコーダ（２０６）が、
予測ネットワーク（２５０）であって、
最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信し、
前記複数の出力ステップのそれぞれで密な表現を生成するよう構成されている、前記予測ネットワーク（２５０）と、
結合ネットワーク（２４０）であって、
前記複数の出力ステップのそれぞれで前記予測ネットワーク（２５０）によって生成された前記密な表現と、前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現とを入力として受信し、
前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第２の確率分布を生成するよう構成されている、前記結合ネットワーク（２４０）とを含む、請求項１または２に記載のＡＳＲモデル（２００）。
前記予測ネットワーク（２５０）が、
長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク（２５０）、または
Ｖ２埋め込みルックアップテーブルを含む、請求項７に記載のＡＳＲモデル（２００）。
前記第１のエンコーダ（２１０）が、前記第２のエンコーダ（２２０）より多くのパラメータを含む、請求項１または２に記載のＡＳＲモデル（２００）。
第３のエンコーダ（２３０）であって、
前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれで、対応する第２の高次特徴表現に対して第３の高次特徴表現を生成するように構成されている、前記第３のエンコーダ（２３０）と、
第３のデコーダ（２０８）であって、
前記複数の出力ステップのそれぞれで前記第３のエンコーダ（２３０）によって生成された前記第３の高次特徴表現を入力として受信し、
前記複数の出力ステップのそれぞれにおいて、可能性のある音声認識仮説に対して第３の確率分布を生成するよう構成されている、前記第３のデコーダ（２０８）とをさらに含む、請求項１または２に記載のＡＳＲモデル（２００）。
コンピュータ実装方法（４００）であって、データ処理ハードウェア（６１０）によって実行されるとき、前記データ処理ハードウェア（６１０）に、
複数の音響フレーム（１１０）からなるシーケンスを受信することと、
ストリーミングモード及び非ストリーミングモードの両方での動作を実行させるための、コンピュータを機能させる自動音声認識（ＡＳＲ）モデル（２００）に含まれる第１のエンコーダ（２１０）によって、複数の出力ステップのそれぞれで、前記複数の音響フレーム（１１０）からなるシーケンスにおける対応する音響フレーム（１１０）に対して第１の高次特徴表現を生成することと、
前記ＡＳＲモデル（２００）に含まれる第２のエンコーダ（２２０）によって、前記複数の出力ステップのそれぞれで、対応する第１の高次特徴表現に対して第２の高次特徴表現を生成することと、
前記ＡＳＲモデル（２００）に含まれる第１のデコーダ（２０４）によって、前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第１の確率分布を生成することと、
前記ＡＳＲモデル（２００）に含まれる第２のデコーダ（２０６）によって、前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説に対して第２の確率分布を生成することとを含む動作を実行させ、
前記ＡＳＲモデル（２００）は、２段階トレーニングプロセスを使用してトレーニングされ、前記２段階トレーニングプロセスは、
トレーニング発話の同じミニバッチを、（ｉ）前記第１のエンコーダ（２１０）と前記第１のデコーダ（２０４）とからなるカスケードエンコーダモデル（２００ｂ）と、（ｉｉ）前記第１のエンコーダ（２１０）と前記第２のエンコーダ（２２０）と前記第２のデコーダ（２０６）とからなるカスケードエンコーダモデル（２００ｃ）と、のそれぞれを介して転送することにより交差エントロピートレーニングを使用し、各カスケードエンコーダモデル（２００ｂ、２００ｃ）の損失を、合計が１になる重みで線結合する、第１段階と、
交差エントロピートレーニングを使用して前記第１段階のトレーニング中に初期化された前記ＡＳＲモデル（２００）を微調整するために、識別トレーニングを実行する、第２段階と、を含む、コンピュータ実装方法（４００）。
前記動作は、可能性のある音声認識仮説に対する前記第１の確率分布に基づいて、部分音声認識結果（１２０）を生成することをさらに含む、請求項１１に記載のコンピュータ実装方法（４００）。
前記第１のエンコーダ（２１０）が因果エンコーダを含み、前記因果エンコーダが、
複数の単方向長短期記憶（ＬＳＴＭ）層、
複数のコンフォーマ層、または
複数のトランスフォーマ層のうちの１つを含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。
前記第２のエンコーダ（２２０）が非因果エンコーダを含み、前記非因果エンコーダが、
複数の単方向長短期記憶（ＬＳＴＭ）層、
複数のコンフォーマ層、または
複数のトランスフォーマ層のうちの１つを含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。
前記動作が、前記複数の出力ステップのそれぞれで、
最終ソフトマックス層によって出力される非空白記号のシーケンスに基づいて、前記第１のデコーダ（２０４）の予測ネットワーク（２５０）によって、密な表現を生成することと、
前記第１のデコーダ（２０４）の結合ネットワーク（２４０）によって、前記予測ネットワーク（２５０）によって生成された前記密な表現に基づいて、可能性のある音声認識仮説に対して前記第１の確率分布を生成することとをさらに含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。
前記第１のデコーダ（２０４）の前記予測ネットワーク（２５０）が、
長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク（２５０）、または
Ｖ２埋め込みルックアップテーブルを含む、請求項１５に記載のコンピュータ実装方法（４００）。
前記動作が、前記複数の出力ステップのそれぞれで、
前記第２のデコーダ（２０６）の予測ネットワーク（２５０）によって、前記複数の出力ステップのそれぞれで密な表現を生成することと、
前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現、及び前記複数の出力ステップのそれぞれで前記予測ネットワーク（２５０）によって生成された密な表現を、前記第２のデコーダ（２０６）の結合ネットワーク（２４０）への入力として受信し、
前記複数の出力ステップのそれぞれで前記第２のデコーダ（２０６）の前記結合ネットワークによって、可能性のある音声認識仮説に対して、前記第２の確率分布を生成することをさらに含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。
前記第２のデコーダ（２０６）の前記予測ネットワーク（２５０）が、
長短期記憶（ＬＳＴＭ）ベースの予測ネットワーク（２５０）、または
Ｖ２埋め込みルックアップテーブルを含む、請求項１７に記載のコンピュータ実装方法（４００）。
前記第１のエンコーダ（２１０）が、前記第２のエンコーダ（２２０）より多い数のパラメータを含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。
前記動作は、前記複数の音響フレーム（１１０）からなるシーケンスでストリーミング音声認識及び非ストリーミング音声認識を実行しながら、
前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現を、第３のエンコーダ（２３０）への入力として受信することと、
前記複数の出力ステップのそれぞれで前記第３のエンコーダ（２３０）によって、対応する第２の高次特徴表現に対して第３の高次特徴表現を生成することと、
前記複数の出力ステップのそれぞれで前記第３のエンコーダ（２３０）によって生成された前記第３の高次特徴表現を、第３のデコーダ（２０８）への入力として受信することと、
前記複数の出力ステップのそれぞれで前記第３のデコーダ（２０８）によって、可能性のある音声認識仮説に対して第３の確率分布を生成することをさらに含む、請求項１１または１２に記載のコンピュータ実装方法（４００）。