JP2023175029A

JP2023175029A - アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル

Info

Publication number: JP2023175029A
Application number: JP2023183357A
Authority: JP
Inventors: エヌ．サイナス、ターラ; N Sainath Tara; パン、ルオミン; Ruoming Pang; ワイス、ロン; Weiss Ron; ホー、ヤンチャン; Yanzhang He; チウ、チャン－チョン; Chung-Cheng Chui; ストローマン、トレバー; Strohman Trevor
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-22
Filing date: 2023-10-25
Publication date: 2023-12-08
Also published as: JP7375211B2; US20210225362A1; WO2021150791A1; KR20220128401A; EP4078573A1; JP2023511390A; US20230186901A1; CN114981884A; US11594212B2

Abstract

【課題】アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデルを提供する。【解決手段】方法（３００）は、２パスストリーミングニューラルネットワークモデル（２００）のリッスン・アテンド・スペル（ＬＡＳ）デコーダ（２３０）用のトレーニング例（２０３）を受信すること、およびトレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定することを含む。方法は、トレーニング例が非ペアのテキストシーケンスに対応している場合、トレーニング例の言語コンテキストベクトル（２４６）に関連付けられた対数確率に基づいてクロスエントロピー損失を決定することも含む。方法は、決定されたクロスエントロピー損失に基づいて、ＬＡＳデコーダおよび言語コンテキストベクトルを更新することも含む。【選択図】図１Ａ

Description

本開示は、２パスのエンド・ツー・エンドの音声認識に関する。

最新の自動音声認識（ＡＳＲ：ａｕｔｏｍａｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）システムは、高品質（例えば、低い単語誤り率（ＷＥＲ：ｗｏｒｄｅｒｒｏｒｒａｔｅ））のみならず、低遅延（例えば、ユーザが話してから文字起こし（ｔｒａｎｓｃｒｉｐｔｉｏｎ）が表示されるまでの短い遅延）を提供することに重点を置いている。さらに、現在ＡＳＲシステムを使用する場合、ＡＳＲシステムは、リアルタイムに対応するか、またはリアルタイムよりもさらに高速に対応するストリーミング方式で発話をデコードすることが要求されている。例えば、ユーザとの直接対話を行う携帯電話にＡＳＲシステムが搭載されている場合、ＡＳＲシステムを使用する携帯電話上のアプリケーションは、単語が話されるとすぐに画面上に表示されるように音声認識がストリーミングされることを必要とする場合がある。ここで、携帯電話のユーザは、遅延に対する許容度が低い可能性もある。この低い許容度により、音声認識は、ユーザエクスペリエンスに悪影響を与える可能性のある遅延および不正確性による影響を最小限に抑えるようにモバイルデバイス上で動作することを目指している。

本開示の一態様は、データ処理ハードウェア上での実行時に、データ処理ハードウェアに動作を実行させるコンピュータが実施する方法を提供し、動作は、２パスストリーミングニューラルネットワークモデルのリッスン・アテンド・スペル（ＬＡＳ：ｌｉｓｔｅｎ－ａｔｔｅｎｄ－ｓｐｅｌｌ）デコーダのトレーニング例を受信すること、およびトレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定することを含む。動作は、トレーニング例が非ペアのテキストシーケンスに対応している場合、トレーニング例のコンテキストベクトルに関連付けられた対数確率（ｌｏｇｐｒｏｂａｂｉｌｉｔｙ）に基づいてクロスエントロピー損失（ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓ）を決定すること、および決定されたクロスエントロピー損失に基づいてＬＡＳデコーダおよびコンテキストベクトルを更新することも含む。

本開示の実施形態は、以下の任意の機能のうちの１つまたは複数を含み得る。いくつかの実施形態では、動作は、２パスストリーミングニューラルネットワークのＬＡＳデコーダに関する第２のトレーニング例を受信すること、第２のトレーニング例が教師付き音声・テキストペアに対応していると決定すること、および音響コンテキストベクトルに関する対数確率に基づいて、ＬＡＳデコーダおよび音響コンテキストベクトルに関連付けられた音響コンテキストベクトルパラメータを更新することも含む。いくつかの例では、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定することは、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを示すドメイン識別子を識別することを含む。

追加の実施形態では、ＬＡＳデコーダを更新することにより、ロングテールエンティティに関する２パスストリーミングニューラルネットワークモデルの単語誤り率（ＷＥＲ）を低減させる。対数確率は、音響コンテキストベクトルから生成された第１の個々の対数確率およびテキストコンテキストベクトルから生成された第２の個々の対数確率の補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）によって定義することができる。さらに、ＬＡＳデコーダは、２パスストリーミングニューラルネットワークモデルの第１のパスを通じてリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｔｒａｎｓｄｕｃｅｒ）デコーダによって生成された仮説に基づいてビームサーチモードで動作し得る。いくつかの例では、動作は、エンコードされた音響フレームからエンコーダの特徴を要約する（ｓｕｍｍａｒｉｚｅ）ように構成されたアテンション機構を用いて、トレーニング例のコンテキストベクトルを生成することも含む。

本開示の別の態様は、データ処理ハードウェア上での実行時に、データ処理ハードウェアに動作を実行させるコンピュータが実施する方法を提供し、動作は、２パスストリーミングニューラルネットワークモデルのリッスン・アテンド・スペル（ＬＡＳ）デコーダのトレーニング例を受信すること、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのトレーニングデータに対応しているかを決定すること、トレーニング例が非ペアのトレーニングデータに対応している場合、非ペアのトレーニングデータの欠落部分を生成して、生成音声・テキストペアを形成すること、生成音声・テキストペアに基づいて、ＬＡＳデコーダおよび非ペアのデータに関連付けられたコンテキストベクトルを更新することを含む。

この態様は、以下の任意の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、動作は、生成音声・テキストペアに基づいて音響コンテキストベクトルを決定すること、および音響コンテキストベクトルから生成された第１の個々の対数確率およびテキストコンテキストベクトルから生成された第２の個々の対数確率の補間を決定することも含む。これらの実施形態では、ＬＡＳデコーダを更新することは、第１の個々の対数確率および第２の個々の対数確率の補間にさらに基づく。

いくつかの例では、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのトレーニングデータに対応しているかを決定することは、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのトレーニングデータに対応しているかを示すドメイン識別子を識別することを含む。さらに、ＬＡＳデコーダを更新することにより、ロングテールエンティティに関する２パスストリーミングニューラルネットワークモデルの単語誤り率（ＷＥＲ）を低減させ得る。いくつかの実施形態では、動作は、エンコードされた音響フレームからエンコーダの特徴を要約するように構成されたアテンション機構を用いて、トレーニング例のコンテキストベクトルを生成することも含む。

本開示のさらに別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信し、かつ命令を格納するメモリハードウェアとを備えるシステムを開示し、命令は、データ処理ハードウェアによる実行時に、データ処理ハードウェアに動作を実行させ、動作は、２パスストリーミングニューラルネットワークモデルのリッスン・アテンド・スペル（ＬＡＳ）デコーダに関するトレーニング例を受信すること、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定することを含む。動作は、トレーニング例が非ペアのテキストシーケンスに対応している場合、トレーニング例のコンテキストベクトルに関連付けられた対数確率に基づいてクロスエントロピー損失を決定すること、および決定されたクロスエントロピー損失に基づいてＬＡＳデコーダおよびコンテキストベクトルを更新することも含む。

この態様は、以下の任意の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、動作は、２パスストリーミングニューラルネットワークのＬＡＳデコーダの第２のトレーニング例を受信すること、第２のトレーニング例が教師付き音声・テキストペアに対応することを決定すること、および音響コンテキストベクトルの対数確率に基づいてＬＡＳデコーダおよび音響コンテキストベクトルに関連付けられた音響コンテキストベクトルパラメータを更新することも含む。いくつかの例では、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定することは、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを示すドメイン識別子を識別することを含む。

追加の実施形態では、ＬＡＳデコーダを更新することにより、ロングテールエンティティに関する２パスストリーミングニューラルネットワークモデルの単語誤り率（ＷＥＲ）を低減させる。対数確率は、音響コンテキストベクトルから生成された第１の個々の対数確率およびテキストコンテキストベクトルから生成された第２の個々の対数確率の補間によって定義することができる。さらに、ＬＡＳデコーダは、２パスストリーミングニューラルネットワークモデルの第１のパスを通じてリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）デコーダによって生成された仮説に基づいてビームサーチモードで動作し得る。いくつかの例では、動作は、エンコードされた音響フレームからエンコーダの特徴を要約するように構成されたアテンション機構を用いて、トレーニング例のコンテキストベクトルを生成することも含む。

本開示のさらに別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信し、かつ命令を格納するメモリハードウェアとを備えるシステムを提供し、命令は、データ処理ハードウェアによる実行時に、データ処理ハードウェアに動作を実行させ、動作は、２パスストリーミングニューラルネットワークモデルのリッスン・アテンド・スペル（ＬＡＳ）デコーダ用のトレーニング例の受信すること、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのトレーニングデータに対応しているかを決定すること、トレーニング例が非ペアのトレーニングデータに対応している場合、非ペアのトレーニングデータの欠落部分を生成して、生成音声・テキストペア形成すること、および生成音声・テキストペアに基づいてＬＡＳデコーダおよび非ペアのデータに関連付けられたコンテキストベクトルを更新することを含む。

本開示の１つまたは複数の実施の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。

ジョイント音響およびテキストモデルを備えた２パスアーキテクチャを使用した例示的な発話環境の概略図である。ジョイント音響およびテキストモデルを備えた２パスアーキテクチャを使用した例示的な発話環境の概略図である。音声認識用の従来の例示的な２パスアーキテクチャの概略図である。音声認識のために図２Ａの２パスアーキテクチャに組み込まれた例示的なジョイント音響およびテキストモデルの概略図である。ジョイント音響およびテキストモデルを組み込んだ図２Ｂの２パスアーキテクチャを実施する方法の動作のための例示的な構成のフローチャートである。ジョイント音響およびテキストモデルを組み込んだ図２Ｂの２パスアーキテクチャを実施する方法の動作のための例示的な構成のフローチャートである。本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面の同様の参照記号は、同様の構成要素を示す。
音声認識は、モバイル環境の非拘束性および機敏性の要求を満たすために進化し続けている。自動音声認識システム（ＡＳＲ）の品質を向上させるために、新たな音声認識アーキテクチャまたは既存のアーキテクチャの改良が引き続き開発されている。例えば、音声認識は、当初、各モデルが専用の目的を持つ複数のモデルを採用していた。例えば、ＡＳＲシステムは、音響モデル（ＡＭ）、発音モデル（ＰＭ）、および言語モデル（ＬＭ）を含んでいた。音響モデルは、音声のセグメント（即ち、音声のフレーム）を音素（ｐｈｏｎｅｍｅｓ）にマッピングした。発音モデルは、これらの音素をつなぎ合わせて単語を形成し、言語モデルは、所与のフレーズの可能性（即ち、単語のシーケンスの確率）を表現するために使用された。これらの個々のモデルは連携して機能したが、各モデルは個別にトレーニングされ、多くの場合、異なるデータセットに対して手動で設計された。

個別のモデルのアプローチにより、特に所与のモデルに対するトレーニングコーパス（即ち、トレーニングデータの集合体）がモデルの有効性に対応している場合に、音声認識システムの精度をかなり向上させることが可能になったが、個別のモデルを個別にトレーニングする必要性により、それ自体が複雑になるため、統合モデルを備えたアーキテクチャが採用された。これらの統合モデルは、単一のニューラルネットワークを使用して、音声波形（即ち、入力シーケンス）を出力センテンス（即ち、出力シーケンス）に直接マッピングしようとするものである。これにより、任意の音声特徴のシーケンスが与えられると、単語（または書記素（ｇｒａｐｈｅｍｅｓ））のシーケンスが生成されるシーケンス・ツー・シーケンスのアプローチが実現された。シーケンス・ツー・シーケンスモデルの例には、「アテンションベース」モデルおよび「リッスン・アテンド・スペル」（ＬＡＳ）モデルが含まれる。ＬＡＳモデルは、リスナー（ｌｉｓｔｅｎｅｒ）コンポーネント、アテンダ（ａｔｔｅｎｄｅｒ）コンポーネント、およびスペラー（ｓｐｅｌｌｅｒ）コンポーネントを使用して、音声の発話を文字に変換する。ここで、リスナーは、音声入力（例えば、音声入力の時間周波数表現）を受信し、音声入力をより高レベルの特徴表現にマッピングするリカレントニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）エンコーダである。アテンダは、より高レベルの特徴にアテンションを向けて、入力特徴と予測されるサブワード単位（例えば、書記素または単語ピース）との間のアラインメントを学習する。スペラーは、アテンションベースのＲＮＮデコーダであり、仮説単語のセットに対して確率分布を生成することによって、入力から文字シーケンスを生成する。統合化された構造により、モデルの全てのコンポーネントを単一のエンド・ツー・エンド（Ｅ２Ｅ：ｅｎｄ－ｔｏ－ｅｎｄ）ニューラルネットワークとしてジョイントでトレーニングさせることができる。ここで、Ｅ２Ｅモデルとは、アーキテクチャが全てニューラルネットワークで構成されているモデルを指す。完全なニューラルネットワークは、外部コンポーネントおよび／または手動で設計したコンポーネント（例えば、有限状態トランスデューサ、辞書（ｌｅｘｉｃｏｎ）、またはテキスト正規化モジュール）なしで機能する。さらに、Ｅ２Ｅモデルをトレーニングする場合、これらのモデルは通常、決定木からのブートストラップ、または別のシステムからの時間調整を必要としない。

初期のＥ２Ｅモデルは正確であり、個別にトレーニングされたモデルよりもトレーニングが改善されたが、ＬＡＳモデルなどのこれらのＥ２Ｅモデルは、出力テキストを生成する前に入力シーケンス全体を確認することによって機能していたため、入力が受信されたときに出力をストリーミングすることはできなかった。ストリーミング機能がないと、ＬＡＳモデルは、リアルタイムの音声文字起こし（ｖｏｉｃｅｔｒａｎｓｃｒｉｐｔｉｏｎ）を実行することができない。この欠陥のため、遅延に敏感な、かつ／またはリアルタイムの音声文字起こしを必要とする音声アプリケーションに対してＬＡＳモデルを搭載すると、問題が発生する可能性がある。このため、リアルタイムアプリケーション（例えば、リアルタイム通信アプリケーション）に依存することが多いモバイル技術（例えば、携帯電話）にとって、ＬＡＳモデルだけでは、理想的なモデルではない。

さらに、音響モデル、発音モデル、および言語モデル、またはそれらが共に構成されているモデルを有する音声認識システムは、これらのモデルに関連する比較的大規模のサーチグラフをサーチする必要があるデコーダに依存し得る。大規模のサーチグラフでは、この種の音声認識システムを完全オンデバイスでホストするのに有利ではない。ここで、音声認識システムが「オンデバイス（ｏｎ－ｄｅｖｉｃｅ）」でホストされている場合、音声入力を受信するデバイスは、そのプロセッサ（単数または複数）を使用して音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされている場合、デバイスのプロセッサは、音声認識システムの機能を実行するために、デバイス外のコンピューティングリソースと連携する必要はない。完全にオンデバイスではない音声認識を実行するデバイスは、音声認識システムの少なくとも一部の機能を実行するために、リモートコンピューティング（例えば、リモートコンピューティングシステムまたはクラウドコンピューティング）、従ってオンライン接続に依存している。例えば、音声認識システムは、サーバベースのモデルとのネットワーク接続を使用して、大規模なサーチグラフによりデコーディングを実行する。

残念ながら、リモート接続に依存している状態では、音声認識システムは、遅延の問題および／または通信ネットワークに固有の信頼性の低さに対して脆弱になる。これらの問題を回避することによって音声認識の有用性を向上させるために、音声認識システムは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）として知られるシーケンス・ツー・シーケンス（ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅ）モデルの形態に再び進化した。ＲＮＮ－Ｔはアテンション機構を採用しておらず、かつ出力（例えば、センテンス）を生成するためにシーケンス全体（例えば、音声波形）を処理する必要がある他のシーケンス・ツー・シーケンスモデルとは異なり、ＲＮＮ－Ｔは、入力サンプルを連続的に処理して、出力シンボルをストリーミングするという、リアルタイム通信にとって特に魅力的な特徴を有している。例えば、ＲＮＮ－Ｔを使用した音声認識では、話した通りに文字が１つずつ出力され得る。ここで、ＲＮＮ－Ｔは、モデルによって予測されたシンボルを自身にフィードバックするフィードバックループを使用して、次のシンボルを予測する。ＲＮＮ－Ｔのデコーディングは、大規模なデコーダグラフではなく、単一のニューラルネットワークを介したビームサーチを含むため、ＲＮＮ－Ｔは、サーバベースの音声認識モデルの数分の１のサイズにスケーリングすることができる。サイズの縮小により、ＲＮＮ－Ｔは完全にオンデバイスで搭載され、オフラインで（即ち、ネットワーク接続なしで）動作させることができるため、通信ネットワークの信頼性の問題を回避することができる。

音声認識システムが低遅延で動作することに加えて、音声認識システムには、音声を正確に認識することが求められる。音声認識を実行するモデルの場合、モデルの精度を定義するメトリックとして、単語誤り率（ＷＥＲ）が用いられることが多い。ＷＥＲは、実際に話された単語の数と比較して、どれだけ単語が変更されたかを示す尺度である。一般に、これらの単語の変更は、置換（即ち、単語が置き換えられる場合）、挿入（即ち、単語が追加される場合）、および／または削除（即ち、単語が省略される場合）を指す。例えば、話者は「カー（ｃａｒ）」と言っているが、ＡＳＲシステムは、「カー（ｃａｒ）」という単語を「バー（ｂａｒ）」と文字起こしする。これは、音素（ｐｈｏｎｅｔｉｃ）の類似性による置換の例である。他のＡＳＲシステムと比較してＡＳＲシステムの能力を測定する場合、ＷＥＲは、別のシステムまたはあるベースラインと比較して、改善または品質保証能力の尺度を示すことができる。

ＲＮＮ－Ｔモデルは、オンデバイスの音声認識に関する有力な候補モデルとして有望であることを示したが、ＲＮＮ－Ｔモデルのみでは、品質（例えば、音声認識精度）の観点で、大規模な最先端の従来モデル（例えば、別個のＡＭ、ＰＭ、およびＬＭを備えたサーバベースのモデル）に遅れをとっている。しかし、非ストリーミングＥ２Ｅ，ＬＡＳモデルは、大規模な最先端の従来モデルに匹敵する音声認識品質を備えている。非ストリーミングＥ２ＥＬＡＳモデルの品質を活用するために、ＲＮＮ－Ｔネットワークの第１のパスのコンポーネントと、それに続くＬＡＳネットワークの第２のパスのコンポーネントとを含む２パス音声認識システム（例えば、図２Ａに示す）が開発された。この設計により、２パスモデルは、低遅延のＲＮＮ－Ｔモデルのストリーミング特性の恩恵を受け、ＬＡＳネットワークを組み込んだ第２のパスを通じてＲＮＮ－Ｔモデルの精度を向上させている。ＬＡＳネットワークは、ＲＮＮ－Ｔモデルのみと比較して遅延を増加させるが、遅延の増加は、適度にわずかであり、かつオンデバイス動作に関する遅延制約に適合している。精度に関しては、２パスモデルは、ＲＮＮ－Ｔ単独と比較した場合に１７～２２％のＷＥＲ低減を達成し、大規模な従来モデルと比較した場合に同程度のＷＥＲを有している。

残念ながら、ＲＮＮ－Ｔネットワークの第１のパスとＬＡＳネットワークの第２のパスとを備えたこの２パスモデルには、いくつかの欠点がある。例えば、この種の２パスモデルは、教師付き音声・テキストペアでのみトレーニングされるという問題がある。教師付き音声・テキストペアのみでトレーニングを行うと、２パスモデルは、稀少な単語（ｒａｒｅｗｏｒｄｓ）またはロングテールエンティティ（ｌｏｎｇｔａｉｌｅｎｔｉｔｉｅｓ）に対してパフォーマンスが低下する。ロングテールエンティティとは、テキストコーパスにおいて比較的少ない（即ち、周波数が低い）インスタンスを有する多数のエンティティを指す。言い換えれば、一般的ではない稀少な単語は、それゆえ、小規模なトレーニングデータセットでも本質的に一般的ではない。２パスモデルなどのストリーミングＥ２Ｅモデルをトレーニングする場合、トレーニングは、従来の言語モデル（ＬＭ）のトレーニングに使用されるテキストデータのサイズのごく一部である従来の音響モデル（ＡＭ）用のトレーニングセットを使用して行われる。稀少な単語に対する２パスモデルのパフォーマンスを向上させるために提案された技術があるが、提案された技術の多くは、モデルサイズ（例えば、リカレントニューラルネットワーク言語モデル（ＲＮＮ－ＬＭ）を音声認識システムに組み込む）、トレーニング時間（例えば、教師なし音声・テキストペアを使用したトレーニング）、および／または推論コストを大幅に増加させる。

稀少な単語に対する２パスモデルの有効性を高めるために、本明細書の実施形態は、２パスモデルアーキテクチャにジョイント音響・テキストデコーダ（ＪＡＴＤ：ｊｏｉｎｔａｃｏｕｓｔｉｃａｎｄｔｅｘｔｄｅｃｏｄｅｒ）を組み込むことに向けられている。ＪＡＴＤ機能は、トレーニング例が教師付き音声・テキストペアに対応しているか、非ペアのデータ（例えば、テキストのみのサンプルまたは音声のみのサンプル）から生成された音声・テキスト例に対応しているかを示すドメイン識別子（ＩＤ）を提供する。非ペアのデータの場合、ペアの欠落している半分は、テキスト読み上げ（ＴＴＳ：ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈ）システムを使用して欠落している音声部分を生成するか、ＡＳＲシステムを使用して欠落しているテキスト部分を生成することで合成され得る。トレーニング中、エンコーダは、エンコーダがペアの例を受信したときに、デコーダに供給される音響コンテキストベクトルを生成する。ここで、音響コンテキストベクトルの生成の成功によって、ペアのデータを示すドメインＩＤが表されるか、または形成される。一方、デコーダが非ペアの例を受ける場合、エンコーダネットワークを迂回させるために、固定ではあるが学習可能なコンテキストベクトルドメインＩＤが使用される。これらの例は両方とも、デコーダでのトレーニングに使用されるため、モデルサイズを大きくすることなく、ペアのデータと非ペアのデータの両方に対してデコーダを同時にトレーニングさせることができる。さらに、入力ソースに基づいてエンコーダへの入力のパラメータのみを変更する、全てのモードにわたってアテンションおよびデコーダのパラメータを共有するアプローチの代わりに、このＪＡＴＤアプローチは、デコーダのパラメータのみを共有し、かつ異なるアテンションコンテキストパラメータを使用する。様々な固有名詞および稀少な単語のテストセットにおいて、ＪＡＴＤモデルは、ペアのデータのみでトレーニングされた２パスアーキテクチャと比較して、ＷＥＲを３～１０％相対的に削減することを達成した。

図１Ａおよび図１Ｂは、発話環境１００の例である。発話環境１００において、ユーザデバイス１１０などのコンピューティングデバイスと対話するユーザの１０の方法は、音声入力を介するものであり得る。ユーザデバイス１１０（一般にデバイス１１０とも呼ばれる）は、発話対応環境１００内の１人または複数人のユーザ１０からの音（例えば、ストリーミング音声データ）をキャプチャするように構成されている。ここで、ストリーミング音声データ１２は、デバイス１１０によってキャプチャされる可聴の問い合わせ（クエリ）、デバイス１１０に対する命令（コマンド）、または可聴の会話（コミュニケーション）としての役割を持つ、ユーザ１０によって話された発話を指すことができる。デバイス１１０の発話対応システムは、問い合わせに応答することによって、かつ／またはコマンドを実行させることによって、問い合わせまたは命令を処理し得る。

ユーザデバイス１１０は、ユーザ１０に関連付けられ、かつ音声データ１２を受信することが可能な任意のコンピューティングデバイスに対応し得る。ユーザデバイス１１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマート家電、モノのインターネット（ＩｏＴ）デバイス、スマートスピーカなどを含むが、これらに限定されない。ユーザデバイス１１０は、データ処理ハードウェア１１２と、データ処理ハードウェア１１２と通信し、かつ命令を格納するメモリハードウェア１１４とを含み、命令は、データ処理ハードウェア１１２による実行時に、データ処理ハードウェア１１２に１つまたは複数の動作を実行させる。ユーザデバイス１１０は、発話対応システム１００内で話された発話１２をキャプチャして電気信号に変換するための音声キャプチャデバイス（例えば、マイクロフォン）１１６、１１６ａと、可聴音声信号を（例えば、デバイス１１０からの出力音声データとして）伝達するための発話出力デバイス（例えばスピーカの）１１６、１１６ｂとを有する音声サブシステムをさらに含む。図示される例では、ユーザデバイス１１０は単一の音声キャプチャデバイス１１６ａを実装しているが、ユーザデバイス１１０は、本開示の範囲から逸脱することなく、音声キャプチャデバイス１１６ａのアレイを実装してもよく、それにより、アレイ内の１つまたは複数のキャプチャデバイス１１６ａは、ユーザデバイス１１０上に物理的に存在していないが、音声サブシステム１１６と通信状態になり得る。（例えば、ハードウェア１１２、１１４を使用する）ユーザデバイス１１０は、音声認識器２００を使用して、ストリーミング音声データ１２に対して音声認識処理を実行するようにさらに構成される。いくつかの例では、音声キャプチャデバイス１１６ａを含むユーザデバイス１１０の音声サブシステム１１６は、音声データ１２（例えば、話された発話）を受信し、音声データ１２を音声認識器２００と互換性のあるデジタル形式に変換するように構成される。デジタル形式は、メルフレーム（ｍｅｌｆｒａｍｅｓ）などの音響フレーム（例えば、パラメータ化された音響フレーム）に対応し得る。例えば、パラメータ化された音響フレームは、ログメルフィルタバンク（ｌｏｇ－ｍｅｌｆｉｌｔｅｒｂａｎｋ）のエネルギーに対応する。

図１Ａなどのいくつかの例では、ユーザ１０は、音声認識器２００を使用するユーザデバイス１１０のプログラムまたはアプリケーション１１８と対話する。例えば、図１Ａは、ユーザ１０が自動アシスタントアプリケーションと通信している状態を示している。この例では、ユーザ１０が自動アシスタントに「今夜のコンサートは何時から？（Ｗｈａｔｔｉｍｅｉｓｔｈｅｃｏｎｃｅｒｔｔｏｎｉｇｈｔ？）」と尋ねている。ユーザ１０からのこの質問は、音声キャプチャデバイス１１６ａによってキャプチャされ、ユーザデバイス１１０の音声サブシステム１１６によって処理される話された発話１２である。この例では、ユーザデバイス１１０の音声認識器２００は、「今夜のコンサートは何時から」という音声入力２０２を（例えば、音響フレームとして）受信し、音声入力２０２を文字起こし２０４（例えば、「今夜のコンサートは何時から？」というテキスト表現）に転写する。ここで、アプリケーション１１８の自動アシスタントは、自然言語処理を使用して、ユーザ１０によって投げかけられた質問に対して回答し得る。自然言語処理とは、一般に、書き言葉（例えば、文字起こし２０４）を解釈し、書き言葉が何らかのアクションを促しているかどうかを判断するプロセスを指す。この例では、自動アシスタントは、自然言語処理を使用して、ユーザ１０からの質問がユーザのスケジュール、より具体的にはユーザのスケジュールでのコンサートに関するものであることを認識する。自動アシスタントは、自然言語処理でこれらの詳細を認識することによって、ユーザの問い合わせに対して、「今夜のコンサートは午後８時３０分に開場です（Ｄｏｏｒｓｏｐｅｎａｔ８：３０ｐｍｆｏｒｔｈｅｃｏｎｃｅｒｔｔｏｎｉｇｈｔ）」という回答を返す。いくつかの構成では、自然言語処理は、ユーザデバイス１１０のデータ処理ハードウェア１１２と通信するリモートシステム上で行われ得る。

図１Ｂは、音声認識器２００を用いた音声認識の別の例である。この例では、ユーザデバイス１１０に関連付けられたユーザ１０は、通信アプリケーション１１８を用いてジェーン・ドゥという名前の友人と通信している。ここで、テッドという名前のユーザ１０は、音声認識器２００に自身の音声入力を文字起こしさせることによって、ジェーンと通信する。音声キャプチャデバイス１１６は、これらの音声入力をキャプチャし、それらを音声認識器２００にデジタル形式（例えば、音響フレーム）で伝達する。音声認識器２００は、これらの音響フレームを、通信アプリケーション１１８を介してジェーンに送信されるテキストに文字起こしする。この種類のアプリケーション１１８はテキストを介して通信するため、音声認識器２００からの文字起こし２０４は、さらなる処理（例えば、自然言語処理）なしでジェーンに送信され得る。

図２Ａおよび図２Ｂなどのいくつかの例では、音声認識器２００は２パスアーキテクチャで構成されている。一般的に、音声認識器２００の２パスアーキテクチャは、少なくとも１つの共有エンコーダ２１０、ＲＮＮ－Ｔデコーダ２２０、およびＬＡＳデコーダ２３０を含む。ここで、図２Ａは従来の２パスアーキテクチャを示し、図２ＢはＪＡＴＤモデル２４０を組み込んだ拡張２パスアーキテクチャを示す。これらの図からわかるように、図２Ｂの拡張２パスアーキテクチャは、図２Ａの基本的な２パス構造に基づいている。２パスデコーディングにおいて、第２のパス２０８（例えば、ＬＡＳデコーダ２３０として示される）は、第１のパス２０６（例えば、ＲＮＮ－Ｔデコーダ２２０として示される）からの初期出力を格子再スコアリング（ｌａｔｔｉｃｅｒｅｓｃｏｒｉｎｇ）またはｎベスト再ランク付け（ｎ－ｂｅｓｔｒｅ－ｒａｎｋｉｎｇ）などの技術を用いて改善し得る。言い換えれば、ＲＮＮ－Ｔデコーダ２２０はストリーミング予測を生成し、ＬＡＳデコーダ２３０は予測を確定する。ここで、具体的には、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からのストリーミングされた仮説ｙ_Ｒ２２２を再スコアリングする。一般に、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からストリーミングされた仮説ｙ_Ｒ２２２を再スコアリングする再スコアリングモードで機能すると説明されているが、ＬＡＳデコーダ２３０は、設計またはその他の要因（例えば、発話の長さ）に応じてビームサーチモード（ｂｅａｍｓｅａｒｃｈｍｏｄｅ）などの異なるモードで動作することも可能である。

少なくとも１つのエンコーダ２１０は、ストリーミング音声データ１２に対応する音響フレームを音声入力２０２として受信するように構成される。音響フレームは、音声サブシステム１１６によってパラメータ化された音響フレーム（例えば、メルフレームおよび／またはスペクトルフレーム）に事前に処理され得る。いくつかの実施形態では、パラメータ化された音響フレームは、ログメル特徴（ｌｏｇ－ｍｅｌｆｅａｔｕｒｅｓ）を有するログメルフィルタバンクエネルギーに対応する。例えば、音声サブシステム１１６によって出力され、エンコーダ２１０に入力されるパラメータ化された入力音響フレームは、ｘ＝（ｘ_１，．．．，ｘ_Ｔ）として表すことができ、ここで、

は、ログメルフィルタバンクエネルギーであり、Ｔはｘのフレーム数を示し、ｄはログメル特徴の数を表す。いくつかの例では、各パラメータ化された音響フレームは、短いシフトウィンドウ（例えば、３２ミリ秒、１０ミリ秒ごとにシフト）内で計算された１２８次元のログメル特徴を含む。各特徴は、前のフレーム（例えば、３つ前のフレーム）と重ねられて、より高次元のベクトル（例えば、３つ前のフレームを使用した５１２次元のベクトル）が形成されてもよい。次に、ベクトルを形成する特徴は、（例えば、３０ミリ秒のフレームレートに）ダウンサンプリングされ得る。エンコーダ２１０は、音声入力２０２に基づいて、エンコーディングｅを生成するように構成される。例えば、エンコーダ２１０は、エンコードされた音響フレーム（例えば、エンコードされたメルフレームまたは音響埋め込み（ａｃｏｕｓｔｉｃｅｍｂｅｄｄｉｎｇｓ））を生成する。

エンコーダ２１０の構造は、異なる方法で実施することができるが、いくつかの実施形態では、エンコーダ２１０は、長・短期記憶（ＬＳＴＭ：ｌｏｎｇ－ｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）ニューラルネットワークである。例えば、エンコーダ２１０は、８個のＬＳＴＭ層を含む。ここで、各層は、２０４８個の隠れユニットと、それに続く６４０次元の射影層（ｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）とを含む。いくつかの例では、エンコーダ２１０の第２のＬＳＴＭ層の後に、短縮係数（ｒｅｄｕｃｔｉｏｎｆａｃｔｏｒ）Ｎ＝２を有する時間短縮層（ｔｉｍｅ－ｒｅｄｕｃｔｉｏｎｌａｙｅｒ）が挿入される。

いくつかの構成では、エンコーダ２１０は共有エンコーダネットワークである。言い換えれば、各パスネットワーク２０６、２０８がそれ自体の別個のエンコーダを有する代わりに、各パス２０６、２０８は単一のエンコーダ２１０を共有する。エンコーダを共有することによって、２パスアーキテクチャを使用するＡＳＲ音声認識器２００は、そのモデルサイズおよび／またはその計算コストを削減することができる。ここで、モデルサイズの縮小は、音声認識器２００が完全にオンデバイス（ｏｎ－ｄｅｖｉｃｅ）で良好に機能することを可能にするのに役立ち得る。

いくつかの例では、図２Ａの音声認識器２００はまた、ＬＡＳデコーダ２３０の第２のパス２０８に適したものとなるようにエンコーダ２１０の出力２１２を適応させるための音響エンコーダ２５０などの追加のエンコーダを含む。音響エンコーダ２５０は、出力２１２をエンコードされた出力２５２にさらにエンコードするように構成される。いくつかの実施形態では、音響エンコーダ２５０は、エンコーダ２１０からの出力２１２をさらにエンコードするＬＳＴＭエンコーダ（例えば、２層ＬＳＴＭエンコーダ）である。追加のエンコーダを含むことによって、エンコーダ２１０は、パス２０６、２０８の間の共有エンコーダとして依然として保持され得る。

第１のパス２０６を通じて、エンコーダ２１０は、音声入力２０２の各音響フレームを受信して、出力２１２（例えば、音響フレームのエンコーディングｅとして示される）を生成する。ＲＮＮ－Ｔデコーダ２２０は、各フレームの出力２１２を受信して、仮説ｙ_Ｒとして示される出力２２２を各タイムステップにおいてストリーミング方式で生成する。いくつかの実施形態では、ＲＮＮ－Ｔデコーダ２２０は、予測ネットワークおよび結合ネットワークを含む。ここで、予測ネットワークは、２０４８個の隠れユニットおよび６４０次元の射影（層ごと）の２つのＬＳＴＭ層、並びに１２８ユニットの埋め込み層を有し得る。エンコーダ２１０および予測ネットワークの出力２１２は、ソフトマックス予測層を含む結合ネットワークに供給され得る。いくつかの例では、ＲＮＮ－Ｔデコーダ２２０の結合ネットワークは、６４０個の隠れユニットと、それに続く４０９６個の大文字と小文字が混在する単語ピースを予測するソフトマックス層とを含む。

図２Ａの２パスモデルにおいて、第２のパス２０８を通じて、ＬＡＳデコーダ２３０は、各フレームに関してエンコーダ２１０からの出力２１２（またはエンコードされた出力２５２）を受信し、仮説ｙ_Ｌとして指定された出力２３２を生成する。ＬＡＳデコーダ２３０がビームサーチモードで動作する場合、ＬＡＳデコーダ２３０は、出力２１２（または出力２５２）のみから出力２３２を生成し、ＲＮＮ－Ｔデコーダ２２０の出力２２２を無視する。ＬＡＳデコーダ２３０が再スコアリングモードで動作する場合、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からトップＫ仮説を取得し、次いで、ＬＡＳデコーダ２３０は、出力２１２（または出力２５２）にアテンション（ａｔｔｅｎｔｉｏｎ）しつつ、教師強制モードで各シーケンスに対して動作して、スコアを計算する。例えば、スコアは、シーケンスの対数確率とアテンションカバレッジペナルティ（ａｔｔｅｎｔｉｏｎｃｏｖｅｒａｇｅｐｅｎａｌｔｙ）とを組み合わせたものである。ＬＡＳデコーダ２３０は、最も高いスコアを有するシーケンスを出力２３２として選択する。ここで、再スコアリングモードでは、ＬＡＳデコーダ２３０は、出力２１２（または出力２５２）にアテンションを向けるために、（例えば、４つのヘッドを有する）マルチヘッデドアテンション（ｍｕｌｔｉ－ｈｅａｄｅｄａｔｔｅｎｔｉｏｎ）を含み得る。さらに、ＬＡＳデコーダ２３０は、予測のためのソフトマックス層を備えた２層ＬＡＳデコーダ２３０であり得る。例えば、ＬＡＳデコーダ２３０の各層は、２０４８個の隠れユニットと、それに続く６４０次元の射影とを有する。ソフトマックス層は、ＲＮＮ－Ｔデコーダ２２０のソフトマックス層から同じ大文字と小文字が混在する単語ピースを予測するために、４，０９６次元を含み得る。

いくつかの実施形態では、図２Ａの２パスモデルのトレーニングは２段階で行われる。第１段階の間に、エンコーダ２１０およびＲＮＮ－Ｔデコーダ２２０は、

を最大化するようにトレーニングされる。第２段階では、エンコーダ２１０が固定され、ＬＡＳデコーダ２３０が

を最大化するようにトレーニングされる。２パスモデルが追加のエンコーダ２５０を含む場合、追加のエンコーダ２５０は、エンコーダ２１０が固定されている間に、第２段階で

を最大化するようにトレーニングされる。

図２Ｂを参照すると、第１のパス２０６は同じままであるが、第２のパス２０８は、ＬＡＳデコーダ２３０でデコーディングする前に、アテンション機構２４２を含むＪＡＴＤモデル２４０を使用する。ここで、アテンション機構２４２は、エンコードされた出力２１２（または出力２５２）を受信して、各出力ステップに対するエンコードされた特徴を要約するコンテキストベクトルｃ、ｃ_Ａ、ｃ_Ｌを決定する。アテンション機構２４２は、入力トレーニングデータの種類に応じて、ＬＡＳデコーダ２３０に渡されるコンテキストベクトルｃを変更するように構成される。言い換えれば、アテンション機構２４２は、入力トレーニングデータ（即ち、特定のトレーニング例）が教師付き音声・テキストペアである場合に音響コンテキストベクトル（ａｃｏｕｓｔｉｃｃｏｎｔｅｘｔｖｅｃｔｏｒ）２４４、ｃ_Ａを生成し、入力トレーニングデータ（例えば、トレーニング例２０３）が非ペアのテキストシーケンスである場合に固定言語コンテキストベクトル（ｆｉｘｅｄｌｉｎｇｕｉｓｔｉｃｃｏｎｔｅｘｔｖｅｃｔｏｒ）２４６、ｃ_Ｌを生成する。ＪＡＴＤモデル２４０がＬＡＳデコーダ２３０と統合されている場合、ＪＡＴＤモデル２４０は、ペアのデータおよび／または非ペアのデータを利用するようにＬＡＳデコーダ２３０の推論およびトレーニングの両方を変更する。

推論の間に、ＬＡＳデコーダ２３０は、以下の式に基づいて対数確率（ｌｏｇｐｒｏｂａｂｉｌｉｔｉｅｓ）を計算する。例えば、音響入力を用いて、音響コンテキストベクトルｃ_ａは、各デコーダステップｕにおけるＬＡＳデコーダ２３０に関する対数確率を決定する。ここで、

は、推論の間に以前にデコードされた単一の仮説のラベルを示す。同様に、テキストベースの入力を用いて、言語コンテキストベクトルｃ_Ｌは、各デコーダステップにおけるＬＡＳデコーダ２３０に関する対数確率を決定する。これらの両方の状況では、対数確率は、音声機能が完全に無視されるように、以前のラベルのみに基づいてラベルを予測する。言い換えれば、音響コンテキストベクトルまたは言語コンテキストベクトルｃのいずれかから対数確率を生成することにより、確率は、一般に音響スコアおよび／または言語スコアを示す。従って、各デコーダの時間ステップは、混合重みλ（例えば、混合重みは、音響サンプルと言語サンプルの比率に対応する）を使用した音響ベースの対数確率および言語ベースの対数確率の補間として表すことができる。いくつかの例では、この推論は、ＬＡＳデコーダ２３０が再スコアモードまたはビームサーチモードで動作するときに適用される。様々なデータソースとテストセットを使用した反復に基づいて、０．０５前後の混合重みが推論に最適であり得る。

トレーニング中、ＲＮＮ－Ｔデコーダ２２０は、従来の２パスアーキテクチャと同じ方法でトレーニングする。言い換えれば、ＲＮＮ－Ｔデコーダ２２０は、教師付き音声・テキストペアデータでトレーニングする。しかし、ＬＡＳデコーダ２３０をトレーニングする際、複数のトレーニング戦略が使用され得る。例えば、第１のトレーニング戦略は個別のトレーニング戦略であり、第２のトレーニング戦略はジョイントトレーニング戦略である。個別のトレーニング戦略において、音声・テキストペアが使用される場合、ＬＡＳデコーダ２３０は、音響コンテキストベクトルｃ_ａ、２４４を使用して式（２ａ）の決定に基づいて更新する。ここで、ＬＡＳデコーダ２３０の更新に加えて、式（２ａ）の解は、音響コンテキストベクトルパラメータを更新する。一方、非ペアのデータが使用される場合、トレーニング損失は式（２ｂ）から計算されたクロスエントロピー損失に減少する。ここで、ｃ_Ｌは、トレーニング可能なコンテキストベクトルである。この状況では、ＬＡＳデコーダ２３０およびコンテキストベクトルのみが更新される。

ジョイントトレーニング戦略を使用して、いくつかの実施形態では、音響および言語コンテキストベクトル２４４、２４６から生成された対数確率の補間は、推論と同様の方法でトレーニング損失を定義する。ここでは、教師付き音声データはｘ^ａとして表される。教師付き音声・テキストペアを含む例では、ＬＡＳデコーダ２３０および音響アテンションパラメータは、

の補間に基づいて更新される。非ペアのデータの場合、適切な対数確率を決定するための音響コンテキストベクトルｃ_ａが不足している。これが発生した場合、２つの潜在的な選択肢がある。第一に、従来のモデルは、実際の音声を取得した後、仮説テキスト（例えば、テキストの文字起こし）を生成し得る。ここで、文字起こしされた音声の使用は、モデルの蒸留（ｍｏｄｅｌｄｉｓｔｉｌｌａｔｉｏｎ）に似ている。第２のアプローチでは、第１のアプローチを逆にして、ＴＴＳのようなシステムが実際のテキストから音響信号を合成するようにする。これらのアプローチを使用すると、非ペアのデータは、音響コンテキストベクトルが不足することはなくなる。従って、解決された音響コンテキストベクトルｃ_ａを用いて、音声認識器２００は、非ペアのデータに対する対数確率を補間することができる。この補間に基づいて、音声認識器２００は、ＬＡＳデコーダ２３０および固定コンテキストベクトルパラメータを更新する。いくつかの実施形態では、音声認識器２００は、アテンション機構２４２の音響アテンションパラメータが偏らないように混合重みλを調整する。

図３は、自動音声認識（例えば、ＡＳＲ）を実行する方法３００のための例示的な動作の構成のフローチャートである。動作３０２において、方法３００は、２パスストリーミングニューラルネットワークモデルのＬＡＳデコーダ２３０用のトレーニング例を受信する。動作３０４において、方法３００は、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのテキストシーケンスに対応しているかを決定する。トレーニング例が非ペアのテキストシーケンスに対応している場合、動作３０６において、方法３００は、トレーニング例のコンテキストベクトルｃに関連付けられた対数確率に基づいてクロスエントロピー損失を決定する。動作３０８において、方法３００は、決定されたクロスエントロピー損失に基づいて、ＬＡＳデコーダ２３０およびコンテキストベクトルｃを更新する。

図４は、自動音声認識（例えば、ＡＳＲ）を実行する方法４００のための例示的な動作の構成の別のフローチャートである。動作４０２において、方法４００は、２パスストリーミングニューラルネットワークモデルのＬＡＳデコーダ２３０用のトレーニング例を受信する。ここで、トレーニング例は、ＬＡＳデコーダ２３０をトレーニングするように構成されている。動作４０４において、方法４００は、トレーニング例が教師付き音声・テキストペアに対応しているか、または非ペアのトレーニングデータに対応しているかを決定する。トレーニング例が非ペアのトレーニングデータに対応している場合、動作４０６において、方法４００は、非ペアのトレーニングデータの欠落部分を生成して、生成音声・テキストペアを形成する。動作４０８において、方法４００は、生成音声・テキストペアに基づいて、ＬＡＳデコーダ２３０および非ペアのデータに関連付けられたコンテキストベクトルｃを更新する。

図５は、本明細書で説明されるシステム（例えば、音声認識器２００）および方法（例えば、方法３００、４００）を実施するために使用され得る例示的なコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および／または特許請求の範囲に記載される本発明の実施形態を限定するものではない。

コンピューティングデバイス５００は、プロセッサ５１０（例えば、データ処理ハードウェア）、メモリ５２０（例えば、メモリハードウェア）、ストレージデバイス５３０、メモリ５２０および高速拡張ポート５４０に接続する高速インタフェース／コントローラ５４０、および低速バス５７０およびストレージデバイス５３０に接続する低速インタフェース／コントローラ５６０を含む。構成要素５１０、５２０、５３０、５４０、５５０、および５６０の各々は、様々なバスを使用して相互接続され、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ５１０は、メモリ５２０またはストレージデバイス５３０に格納された命令を含むコンピューティングデバイス５００内での実行のための命令を処理して、高速インタフェース５４０に接続されたディスプレイ５８０などの外部入力／出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）用のグラフィカル情報を表示する。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス５００が接続され、各デバイスが（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な処理の一部を提供してもよい。

メモリ５２０は、コンピューティングデバイス５００内に非一時的に情報を記憶する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ５２０は、コンピューティングデバイス５００による使用のための一時的または永久的な基準でプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理的デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラム可能読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）／電子消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープが含まれる。

ストレージデバイス５３０は、コンピューティングデバイス５００の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス５３０は、コンピュータ可読媒体である。種々の異なる実施形態では、ストレージデバイス５３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような１つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ５２０、ストレージデバイス５３０、またはプロセッサ５１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ５４０は、コンピューティングデバイス５００の帯域幅を大量に使用する処理を管理し、低速コントローラ５６０は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ５４０は、メモリ５２０、ディスプレイ５８０（例えば、グラフィックプロセッサまたはアクセラレータを介する）、および各種拡張カード（図示せず）を受け入れる高速拡張ポート５５０に接続される。いくつかの実施形態では、低速コントローラ５６０は、ストレージデバイス５３０および低速拡張ポート５９０に接続される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含む低速拡張ポート５９０は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに接続され得る。

コンピューティングデバイス５００は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、標準サーバ５００ａとして、またはそのようなサーバ５００ａのグループ内で複数回、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として実施することができる。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための１つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つまたは複数の大容量ストレージデバイス（例えば、磁気ディスク、光磁気ディスク、または光ディスク）からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。

ユーザとのインタラクションを提供するために、本開示の１つまたは複数の態様は、例えば、ＣＲＴ（陰極線管）、ＬＤＣ（液晶ディスプレイ）モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイスと、任意選択でユーザがコンピュータに入力を提供するキーボードおよびポインティングデバイス（例えば、マウスやトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得るユーザに提供されるフィードバックとともにユーザとのインタラクションを提供することもでき、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって（例えば、ウェブブラウザから受信した要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって）、ユーザとインタラクションすることができる。

いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。

Claims

データ処理ハードウェア上での実行時に、前記データ処理ハードウェアに動作を実行させるコンピュータが実施する方法であって、前記動作は、
発話を特徴付ける音響フレームのシーケンスを受信するステップと、
共有エンコーダを使用して、前記音響フレームのシーケンスにおける各音響フレームをエンコードして、対応するエンコードされた音響フレームを生成するステップと、
第２のパスのデコーダに関する複数の出力ステップの各出力ステップにおいて、
アテンション機構を使用して、前記エンコードされた音響フレームを要約する音響コンテキストベクトルを決定するステップと、
前記音響コンテキストベクトルを使用して、可能性のある出力ラベルに対する音響ベースの確率分布を決定するステップと、
前記アテンション機構を使用して、前記第２のパスのデコーダによって以前に出力されたデコードされたラベルのシーケンスに基づいて言語コンテキストベクトルを決定するステップと、
前記言語コンテキストベクトルを使用して、可能性のある出力ラベルに対するテキストベースの確率分布を決定するステップと、
可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布を補間するステップと、
前記複数の出力ステップの各々における可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布の前記補間に基づいて、前記発話の文字起こしを決定するステップと、を含む、方法。
前記第２のパスのデコーダによって以前に出力された前記デコードされたラベルのシーケンスに基づいて前記言語コンテキストベクトルを決定するステップは、前記エンコードされた音響フレームを無視する、請求項１に記載の方法。
前記音響コンテキストベクトルを使用して可能性のある出力ラベルに対する前記音響ベースの確率分布を決定するステップは、前記第２のパスのデコーダによって以前に出力された前記デコードされたラベルのシーケンスにさらに基づく、請求項１に記載の方法。
前記第２のパスのデコーダは、第１のパスを通じてリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）デコーダによって生成された仮説に基づいてビームサーチモードで動作する、請求項１に記載の方法。
前記動作は、
第１のパスのデコーダを使用して、前記エンコードされた音響フレームを処理して、前記発話に関する音声認識仮説のトップのＫ個のリストを生成するステップと、前記音声認識仮説のトップのＫ個のリストにおける各音声認識仮説は、前記発話の候補文字起こしに対応しており、
前記第２のパスのデコーダは、再スコア付けモードで動作して、前記音声認識仮説のトップのＫ個のリストにおける各音声認識仮説を再スコア付けするステップと、をさらに含む、請求項１に記載の方法。
可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布における前記出力ラベルが、単語ピースを含む、請求項１に記載の方法。
前記第２のパスのデコーダは、ＬＡＳ（リッスン・アテンド・スペル）デコーダを含む、請求項１に記載の方法。
可能性のある出力ラベルに対する前記音響ベースの確率分布と可能性のある出力ラベルに対する前記テキストベースの確率分布では、可能性のある出力ラベルに対する前記音響ベースの確率分布は、可能性のある出力ラベルに対する前記テキストベースの確率分布とは異なる重み付けがされる、請求項１に記載の方法。
前記音響フレームのシーケンスによって特徴付けられる前記発話が、ユーザデバイスによってストリーミングオーディオにおいてキャプチャされ、
前記データ処理ハードウェアは、前記ユーザデバイス上に存在している、請求項１に記載の方法。
前記動作は、前記文字起こしに対して自然言語処理を実行して、デジタルアシスタントアプリケーションが実行すべきアクションを識別することをさらに含む、請求項９に記載の方法。
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信し、かつ命令を格納するメモリハードウェアと、を備え、前記命令は、前記データ処理ハードウェア上での実行時に、前記データ処理ハードウェアに
発話を特徴付ける音響フレームのシーケンスを受信することと、
共有エンコーダを使用して、前記音響フレームのシーケンスにおける各音響フレームをエンコードして、対応するエンコードされた音響フレームを生成することと、
第２のパスのデコーダに関する複数の出力ステップの各出力ステップにおいて、
アテンション機構を使用して、前記エンコードされた音響フレームを要約する音響コンテキストベクトルを決定することと、
前記音響コンテキストベクトルを使用して、可能性のある出力ラベルに対する音響ベースの確率分布を決定することと、
前記アテンション機構を使用して、前記第２のパスのデコーダによって以前に出力されたデコードされたラベルのシーケンスに基づいて言語コンテキストベクトルを決定することと、
前記言語コンテキストベクトルを使用して、可能性のある出力ラベルに対するテキストベースの確率分布を決定することと、
可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布を補間することと、
前記複数の出力ステップの各々における可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布の前記補間に基づいて、前記発話の文字起こしを決定することと、を含む動作を実行させる、システム。
前記第２のパスのデコーダによって以前に出力された前記デコードされたラベルのシーケンスに基づいて前記言語コンテキストベクトルを決定することは、前記エンコードされた音響フレームを無視する、請求項１１に記載のシステム。
前記音響コンテキストベクトルを使用して、可能性のある出力ラベルに対する前記音響ベースの確率分布を決定することは、前記第２のパスのデコーダによって以前に出力された前記デコードされたラベルのシーケンスにさらに基づく、請求項１１に記載のシステム。
前記第２のパスのデコーダは、第１のパスを通じてリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）デコーダによって生成された仮説に基づいてビームサーチモードで動作する、請求項１１に記載のシステム。
前記動作は、
第１のパスのデコーダを使用して、前記エンコードされた音響フレームを処理して、前記発話に関する音声認識仮説のトップのＫ個のリストを生成することと、前記音声認識仮説のトップのＫ個のリストにおける各音声認識仮説は、前記発話の候補文字起こしに対応しており、
前記第２のパスのデコーダは、再スコア付けモードで動作して、前記音声認識仮説のトップのＫ個のリストにおける各音声認識仮説を再スコア付けすることと、をさらに含む、請求項１１に記載のシステム。
可能性のある出力ラベルに対する前記音響ベースの確率分布および可能性のある出力ラベルに対する前記テキストベースの確率分布における前記出力ラベルが、単語ピースを含む、請求項１１に記載のシステム。
前記第２のパスのデコーダは、ＬＡＳ（リッスン・アテンド・スペル）デコーダを含む、請求項１１に記載のシステム。
可能性のある出力ラベルに対する前記音響ベースの確率分布と可能性のある出力ラベルに対する前記テキストベースの確率分布では、可能性のある出力ラベルに対する前記音響ベースの確率分布は、可能性のある出力ラベルに対する前記テキストベースの確率分布とは異なる重み付けがされる、請求項１１に記載のシステム。
前記音響フレームのシーケンスによって特徴付けられる前記発話が、ユーザデバイスによってストリーミングオーディオにおいてキャプチャされ、
前記データ処理ハードウェアは、前記ユーザデバイス上に存在している、請求項１１に記載のシステム。
前記動作は、前記文字起こしに対して自然言語処理を実行して、デジタルアシスタントアプリケーションが実行すべきアクションを識別することをさらに含む、請求項１９に記載のシステム。