JP7222153B1

JP7222153B1 - デリバレーションモデルベースの２パスのエンド・ツー・エンド音声認識

Info

Publication number: JP7222153B1
Application number: JP2022544204A
Authority: JP
Inventors: フー、キー; エヌ．サイナス、ターラ; パン、ルオミン; プラカーシュプラバーバルカル、ロヒット
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-21
Filing date: 2021-01-14
Publication date: 2023-02-14
Anticipated expiration: 2041-01-14
Also published as: US20230186907A1; EP4414896A3; US11908461B2; US20210225369A1; JP7488381B2; EP4062400A1; EP4414896A2; JP2023041867A; CN115004296A; US12027158B2; KR20220130699A; EP4062400B1; JP2023513430A; WO2021150424A1

Abstract

２パスのデリバレーションアーキテクチャを使用して音声認識を実行する方法は、第１のパスの仮説およびエンコードされた音響フレームを受信すること、および仮説エンコーダにおいて、第１のパスの仮説をエンコードすることを含む。第１のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク（ＲＮＮ）デコーダモデルによって生成されたものである。方法は、エンコードされた音響フレームをアテンションする第１のアテンション機構を使用して、第１のコンテキストベクトルを生成すること、エンコードされた第１のパスの仮説をアテンションする第２のアテンション機構を使用して、第２のコンテキストベクトルを生成することを含む。方法は、コンテキストベクトルデコーダにおいて、第１のコンテキストベクトルおよび第２のコンテキストベクトルをデコードして、第２のパスの仮説を形成することを含む。

Description

特許法第３０条第２項適用令和２年３月１７日にウェブサイトのアドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００３．０７９６２にて発表令和２年４月９日にウェブサイトのアドレスｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／９０５３６０６にて発表

本開示は、２パスのエンド・ツー・エンドの音声認識に関する。

最新の自動音声認識（ＡＳＲ：ａｕｔｏｍａｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）システムは、高品質（例えば、低い単語誤り率（ＷＥＲ：ｗｏｒｄｅｒｒｏｒｒａｔｅ））のみならず、低遅延（例えば、ユーザが話してから文字起こし（ｔｒａｎｓｃｒｉｐｔｉｏｎ）が表示されるまでの短い遅延）を提供することに重点を置いている。さらに、現在ＡＳＲシステムを使用する場合、ＡＳＲシステムは、リアルタイムに対応するか、またはリアルタイムよりもさらに高速に対応するストリーミング方式で発話をデコードすることが要求されている。例えば、ユーザとの直接対話を行う携帯電話にＡＳＲシステムが搭載されている場合、ＡＳＲシステムを使用する携帯電話上のアプリケーションは、単語が話されるとすぐに画面上に表示されるように音声認識がストリーミングされることを必要とする場合がある。ここで、携帯電話のユーザは、遅延に対する許容度が低い可能性もある。この低い許容度により、音声認識は、ユーザエクスペリエンスに悪影響を与える可能性のある遅延および不正確性による影響を最小限に抑えるようにモバイルデバイス上で動作することを目指している。

本開示の一態様は、データ処理ハードウェア上での実行時に、データ処理ハードウェアに動作を実行させ、動作は、第１のパスの仮説およびエンコードされた音響フレームを受信すること、仮説エンコーダにおいて、第１のパスの仮説をエンコードすることを含む。第１のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク（ＲＮＮ）デコーダモデルによって生成されたものである。動作は、エンコードされた音響フレームをアテンション（注目）する第１のアテンション機構を使用して、第１のコンテキストベクトルを生成すること、およびエンコードされた第１のパスの仮説をアテンションする第２のアテンション機構を使用して、第２のコンテキストベクトルを生成することを含む。動作は、コンテキストベクトルデコーダにおいて、第１のコンテキストベクトルおよび第２のコンテキストベクトルをデコードして、第２のパスの仮説を形成することを含む。

本開示の実施形態は、以下の任意の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、第１のコンテキストベクトルおよび第２のコンテキストベクトルをデコードすることは、第１のコンテキストベクトルと第２のコンテキストベクトルとの連結をデコードすることを含む。第１のパスの仮説をエンコードすることは、仮説エンコーダにおいて、第１のパスの仮説を双方向にエンコードして、第１のパスの仮説からコンテキスト情報を生成することを含み得る。ここで、仮説エンコーダは、長短期記憶（ＬＳＴＭ）ネットワークを含み得る。

いくつかの例では、動作は、共有エンコーダにおいて、音響フレームをエンコードすること、ＲＮＮデコーダモデルにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、第１のパスの仮説を生成することをさらに含む。これらの例では、動作は、単方向音声エンコーダにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、音響埋め込みを生成することをさらに含み得る。ここで、単方向音声エンコーダは、少なくとも２つの層を有し得る長短期記憶（ＬＳＴＭ）ネットワークを含み得る。

いくつかの実施形態では、動作は、ＲＮＮデコーダモデルをトレーニングすること、トレーニングされたＲＮＮデコーダモデルのパラメータが固定された状態でデリバレーションデコーダ（ｄｅｌｉｂｅｒａｔｉｏｎｄｅｃｏｄｅｒ）をトレーニングすることも含む。デリバレーションデコーダは、仮説エンコーダ、第１のアテンション機構、第２のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、ＲＮＮデコーダモデルおよびデリバレーションデコーダモデルのトレーニング中に単語誤り率を最小化することも含み得る。

他の実施形態では、動作は、ＲＮＮデコーダモデルおよびデリバレーションデコーダを共同でトレーニングすることを含み、デリバレーションデコーダは、仮説エンコーダ、第１のアテンション機構、第２のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、ＲＮＮデコーダモデルおよびデリバレーションデコーダモデルの共同トレーニング中に単語誤り率を最小化することをさらに含み得る。データ処理ハードウェアは、ユーザデバイス上に存在し得る。

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを備えるシステムを提供し、メモリハードウェアは、命令を格納しており、命令は、データ処理ハードウェアによる実行時に、データ処理ハードウェアに動作を実行させ、動作は、第１のパスの仮説およびエンコードされた音響フレームを受信すること、仮説エンコードにおいて、第１のパスの仮説のエンコードすることを含む。第１のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク（ＲＮＮ）デコーダモデルによって生成されたものである。動作は、エンコードされた音響フレームをアテンション（注目）する第１のアテンション機構を使用して、第１のコンテキストベクトルを生成すること、およびエンコードされた第１のパスの仮説をアテンションする第２のアテンション機構を使用して、第２のコンテキストベクトルを生成することを含む。動作は、コンテキストベクトルデコーダにおいて、第１のコンテキストベクトルおよび第２のコンテキストベクトルをデコードして、第２のパスの仮説を形成することを含む。

この態様は、以下の任意の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、第１のコンテキストベクトルおよび第２のコンテキストベクトルをデコードすることは、第１のコンテキストベクトルと第２のコンテキストベクトルとの連結をデコードすることを含む。第１のパスの仮説をエンコードすることは、仮説エンコーダにおいて、第１のパスの仮説を双方向にエンコードして、第１のパスの仮説からコンテキスト情報を生成することを含み得る。ここで、仮説エンコーダは、長短期記憶（ＬＳＴＭ）ネットワークを含み得る。

いくつかの実施形態では、動作は、ＲＮＮデコーダモデルをトレーニングすること、トレーニングされたＲＮＮデコーダモデルのパラメータが固定された状態でデリバレーションデコーダをトレーニングすることも含む。デリバレーションデコーダは、仮説エンコーダ、第１のアテンション機構、第２のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、ＲＮＮデコーダモデルおよびデリバレーションデコーダモデルのトレーニング中に単語誤り率を最小化することも含み得る。

本開示の１つまたは複数の実施の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。

デリバレーション２パスアーキテクチャを使用する例示的な発話環境の概略図である。デリバレーション２パスアーキテクチャを使用する例示的な発話環境の概略図である。音声認識用の従来の例示的な２パスアーキテクチャの概略図である。音声認識のための図１Ａのデリバレーション２パスアーキテクチャの例の概略図である。図２Ｂのデリバレーション２パスアーキテクチャを使用して音声認識を実行する方法のための動作の例示的な構成のフローチャートである。本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面の同様の参照記号は、同様の構成要素を示す。
音声認識は、モバイル環境の非拘束性および機敏性の要求を満たすために進化し続けている。自動音声認識システム（ＡＳＲ）の品質を向上させるために、新たな音声認識アーキテクチャまたは既存のアーキテクチャの改良が引き続き開発されている。例えば、音声認識は、当初、各モデルが専用の目的を持つ複数のモデルを採用していた。例えば、ＡＳＲシステムは、音響モデル（ＡＭ）、発音モデル（ＰＭ）、および言語モデル（ＬＭ）を含んでいた。音響モデルは、音声のセグメント（即ち、音声のフレーム）を音素（ｐｈｏｎｅｍｅｓ）にマッピングした。発音モデルは、これらの音素をつなぎ合わせて単語を形成し、言語モデルは、所与のフレーズの可能性（即ち、単語のシーケンスの確率）を表現するために使用された。これらの個々のモデルは連携して機能したが、各モデルは個別にトレーニングされ、多くの場合、異なるデータセットで手動で設計された。

個別のモデルの手法により、特に所与のモデルに対するトレーニングコーパス（即ち、トレーニングデータの集合体）がモデルの有効性に対応している場合に、音声認識システムの精度をかなり向上させることが可能になった。しかしながら、個別のモデルを個別にトレーニングする必要があることから、それ自体が複雑になるため、統合モデルを備えたアーキテクチャが採用された。これらの統合モデルは、単一のニューラルネットワークを使用して、音声波形（即ち、入力シーケンス）を出力センテンス（即ち、出力シーケンス）に直接マッピングしようとするものである。これにより、任意の音声特徴のシーケンスが与えられると、単語（または書記素（ｇｒａｐｈｅｍｅｓ））のシーケンスが生成されるシーケンス・ツー・シーケンスの手法が実現された。シーケンス・ツー・シーケンスモデルの例には、「アテンションベース」モデルおよび「リッスン・アテンド・スペル」（ＬＡＳ）モデルが含まれる。ＬＡＳモデルは、リスナー（ｌｉｓｔｅｎｅｒ）コンポーネント、アテンダ（ａｔｔｅｎｄｅｒ）コンポーネント、およびスペラー（ｓｐｅｌｌｅｒ）コンポーネントを使用して、音声の発話を文字に変換する。ここで、リスナーは、音声入力（例えば、音声入力の時間周波数表現）を受信し、音声入力をより高レベルの特徴表現にマッピングするリカレントニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）エンコーダである。アテンダは、より高レベルの特徴をアテンションして、入力特徴と予測されるサブワード単位（例えば、書記素または単語ピース）との間のアラインメントを学習する。スペラーは、アテンションベースのＲＮＮデコーダであり、仮定単語のセットに対して確率分布を生成することによって、入力から文字シーケンスを生成する。統合化された構造により、モデルの全てのコンポーネントを単一のエンド・ツー・エンド（Ｅ２Ｅ：ｅｎｄ－ｔｏ－ｅｎｄ）ニューラルネットワークとして共同でトレーニングさせることができる。ここで、Ｅ２Ｅモデルとは、アーキテクチャが全てニューラルネットワークで構成されているモデルを指す。完全なニューラルネットワークは、外部コンポーネントおよび／または手動で設計したコンポーネント（例えば、有限状態トランスデューサ、辞書（ｌｅｘｉｃｏｎ）、またはテキスト正規化モジュール）なしで機能する。さらに、Ｅ２Ｅモデルをトレーニングする場合、これらのモデルは通常、決定木からのブートストラップ、または別のシステムからの時間調整を必要としない。

初期のＥ２Ｅモデルは正確であり、個別にトレーニングされたモデルよりもトレーニングが改善されたが、ＬＡＳモデルなどのこれらのＥ２Ｅモデルは、出力テキストを生成する前に入力シーケンス全体を確認することによって機能していたため、入力が受信されたときに出力をストリーミングすることはできなかった。ストリーミング機能がないと、ＬＡＳモデルは、リアルタイムの音声文字起こし（ｖｏｉｃｅｔｒａｎｓｃｒｉｐｔｉｏｎ）を実行することができない。この欠陥のため、遅延に敏感な、かつ／またはリアルタイムの音声文字起こしを必要とする音声アプリケーションに対してＬＡＳモデルを搭載すると、問題が発生する可能性がある。このため、リアルタイムアプリケーション（例えば、リアルタイム通信アプリケーション）に依存することが多いモバイル技術（例えば、携帯電話）にとって、ＬＡＳモデルだけでは、理想的なモデルではない。

さらに、音響モデル、発音モデル、および言語モデル、またはそれらが共に構成されているモデルを有する音声認識システムは、これらのモデルに関連する比較的大規模のサーチグラフをサーチする必要があるデコーダに依存し得る。大規模のサーチグラフでは、この種の音声認識システムを完全オンデバイスでホストするのに有利ではない。ここで、音声認識システムが「オンデバイス（ｏｎ－ｄｅｖｉｃｅ）」でホストされている場合、音声入力を受信するデバイスは、そのプロセッサ（単数または複数）を使用して音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされている場合、デバイスのプロセッサは、音声認識システムの機能を実行するために、デバイス外のコンピューティングリソースと連携する必要はない。完全にオンデバイスではない音声認識を実行するデバイスは、音声認識システムの少なくとも一部の機能を実行するために、リモートコンピューティング（例えば、リモートコンピューティングシステムまたはクラウドコンピューティング）、従ってオンライン接続に依存している。例えば、音声認識システムは、サーバベースのモデルとのネットワーク接続を使用して、大規模なサーチグラフによりデコーディングを実行する。

残念ながら、リモート接続に依存している状態では、音声認識システムは、遅延の問題および／または通信ネットワークに固有の信頼性の低さに対して脆弱になる。これらの問題を回避することによって音声認識の有用性を向上させるために、音声認識システムは、リカレントニューラルネットワークトランスデューサー（ＲＮＮ－Ｔ）として知られるシーケンス・ツー・シーケンスモデルの形態に再び進化した。ＲＮＮ－Ｔはアテンション機構を採用しておらず、かつ出力（例えば、センテンス）を生成するためにシーケンス全体（例えば、音声波形）を処理する必要がある他のシーケンス・ツー・シーケンスモデルとは異なり、ＲＮＮ－Ｔは、入力サンプルを連続的に処理して、出力シンボルをストリーミングするという、リアルタイム通信にとって特に魅力的な特徴を有している。例えば、ＲＮＮ－Ｔを使用した音声認識では、話した通りに文字が１つずつ出力され得る。ここで、ＲＮＮ－Ｔは、モデルによって予測されたシンボルを自身にフィードバックするフィードバックループを使用して、次のシンボルを予測する。ＲＮＮ－Ｔのデコーディングは、大規模なデコーダグラフではなく、単一のニューラルネットワークを介したビームサーチを含むため、ＲＮＮ－Ｔは、サーバベースの音声認識モデルの数分の１のサイズにスケーリングすることができる。サイズの縮小により、ＲＮＮ－Ｔは完全にオンデバイスで搭載され、オフラインで（即ち、ネットワーク接続なしで）動作させることができるため、通信ネットワークの信頼性の問題を回避することができる。

音声認識システムが低遅延で動作することに加えて、音声認識システムには、音声を正確に認識することが求められる。音声認識を実行するモデルの場合、モデルの精度を定義するメトリックとして、単語誤り率（ＷＥＲ）が用いられることが多い。ＷＥＲは、実際に話された単語の数と比較して、どれだけ単語が変更されたかを示す尺度である。一般に、これらの単語の変更は、置換（即ち、単語が置き換えられる場合）、挿入（即ち、単語が追加される場合）、および／または削除（即ち、単語が省略される場合）を指す。例えば、話者は「カー（ｃａｒ）」と言っているが、ＡＳＲシステムは、「カー（ｃａｒ）」という単語を「バー（ｂａｒ）」と文字起こしする。これは、音素（ｐｈｏｎｅｔｉｃ）の類似性による置換の例である。他のＡＳＲシステムと比較してＡＳＲシステムの能力を測定する場合、ＷＥＲは、別のシステムまたはあるベースラインと比較して、改善または品質保証能力の尺度を示すことができる。

ＲＮＮ－Ｔモデルは、オンデバイスの音声認識に関する有力な候補モデルとして有望であることを示したが、ＲＮＮ－Ｔモデルのみでは、品質（例えば、音声認識精度）の観点で、大規模な最先端の従来モデル（例えば、別個のＡＭ、ＰＭ、およびＬＭを備えたサーバベースのモデル）に遅れをとっている。しかし、非ストリーミングＥ２Ｅ、ＬＡＳモデルは、大規模な最先端の従来モデルに匹敵する音声認識品質を備えている。非ストリーミングＥ２ＥＬＡＳモデルの品質を利用するために、本明細書の実施形態は、ＲＮＮ－Ｔネットワークの第１のパスのコンポーネントと、それに続くＬＡＳネットワークの第２のパスのコンポーネントとを含む２パス音声認識システム（例えば、図２Ａに示す）に関する。この設計により、２パスモデルは、低遅延のＲＮＮ－Ｔモデルのストリーミング特性の恩恵を受け、ＬＡＳネットワークを組み込んだ第２のパスを通じてＲＮＮ－Ｔモデルの精度を向上させている。ＬＡＳネットワークは、ＲＮＮ－Ｔモデルのみと比較して遅延を増加させるが、遅延の増加は、適度にわずかであり、かつオンデバイス動作に関する遅延制約に適合している。精度に関しては、２パスモデルは、ＲＮＮ－Ｔ単独と比較した場合に１７～２２％のＷＥＲ低減を達成し、大規模な従来モデルと比較した場合に同程度のＷＥＲを有している。

２パスモデルでは、非ストリーミングＬＡＳモデルは、例えば、第１のパスからストリーミングされた仮説を再スコアリングする。この第２のパスのＬＡＳモデル手法では、仮説を再スコアリングするために音響をアテンションする。対照的に、ニューラル補正モデルのクラスとして知られている別の方法は、音響の代わりにテキストを使用して仮説を生成する。言い換えれば、第２のパスで仮説を精緻化するために、異なる変数をアテンションすることができる。そのため、本明細書で提案するモデルは、ＲＮＮ－Ｔ／ＬＡＳの２パスモデルのバリエーションである。このバリエーションは、２パスモデルの第２のパスに対して、音響と第１のパスのテキスト仮説とを組み合わせたデリバレーションネットワークを使用する。デリバレーションネットワークを使用することによって、２パスモデル（例えば、図２Ｂに示すに）は、デリバレーションネットワークを使用しない２パスモデル（例えば、図２Ａに示す）と比較して、より正確になり、かつ従来の大規模な音声認識モデルよりもより正確になる。例えば、いくつかのテストにおいて、デリバレーションネットワークなしの２パスモデルと比較した場合、デリバレーション２パスモデルは１２％の相対的なＷＥＲ低減を達成し、大規模な従来の音声認識モデルと比較した場合、ほぼ２１％の相対的なＷＥＲ低減を達成した。

図１Ａおよび図１Ｂは、発話環境１００の例である。発話環境１００において、ユーザデバイス１１０などのコンピューティングデバイスと対話するユーザの１０の方法は、音声入力を介するものであり得る。ユーザデバイス１１０（一般にデバイス１１０とも呼ばれる）は、発話対応環境１００内の１人または複数人のユーザ１０からの音（例えば、ストリーミング音声データ）をキャプチャするように構成されている。ここで、ストリーミング音声データ１２は、デバイス１１０によってキャプチャされる可聴の問い合わせ（クエリ）、デバイス１１０に対する命令（コマンド）、または可聴の会話（コミュニケーション）としての役割を持つ、ユーザ１０によって話された発話を指すことができる。デバイス１１０の発話対応システムは、問い合わせに応答することによって、かつ／またはコマンドを実行させることによって、問い合わせまたは命令を処理し得る。

ユーザデバイス１１０は、ユーザ１０に関連付けられ、かつ音声データ１２を受信することが可能な任意のコンピューティングデバイスに対応し得る。ユーザデバイス１１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマート家電、モノのインターネット（ＩｏＴ）デバイス、スマートスピーカなどを含むが、これらに限定されない。ユーザデバイス１１０は、データ処理ハードウェア１１２と、データ処理ハードウェア１１２と通信するメモリハードウェア１１４とを含み、メモリハードウェア１１４は、命令を格納しており、命令は、データ処理ハードウェア１１２による実行時に、データ処理ハードウェア１１２に１つまたは複数の動作を実行させる。ユーザデバイス１１０は、発話対応システム１００内で話された発話１２をキャプチャして電気信号に変換するための音声キャプチャデバイス（例えば、マイクロフォン）１１６、１１６ａと、可聴音声信号を（例えば、デバイス１１０からの出力音声データとして）伝達するための発話出力デバイス（例えばスピーカ）１１６、１１６ｂとを有する音声サブシステム１１６をさらに含む。図示される例では、ユーザデバイス１１０は単一の音声キャプチャデバイス１１６ａを実装しているが、ユーザデバイス１１０は、本開示の範囲から逸脱することなく、音声キャプチャデバイス１１６ａのアレイを実装してもよく、それにより、アレイ内の１つまたは複数のキャプチャデバイス１１６ａは、ユーザデバイス１１０上に物理的に存在していないが、音声サブシステム１１６と通信状態になり得る。（例えば、ハードウェア１１２、１１４を使用する）ユーザデバイス１１０は、音声認識器２００を使用して、ストリーミング音声データ１２に対して音声認識処理を実行するようにさらに構成される。いくつかの例では、音声キャプチャデバイス１１６ａを含むユーザデバイス１１０の音声サブシステム１１６は、音声データ１２（例えば、話された発話）を受信し、音声データ１２を音声認識器２００と互換性のあるデジタル形式に変換するように構成される。デジタル形式は、メルフレーム（ｍｅｌｆｒａｍｅｓ）などの音響フレーム（例えば、パラメータ化された音響フレーム）に対応し得る。例えば、パラメータ化された音響フレームは、ログメルフィルタバンク（ｌｏｇ－ｍｅｌｆｉｌｔｅｒｂａｎｋ）エネルギーに対応する。

図１Ａなどのいくつかの例では、ユーザ１０は、音声認識器２００を使用するユーザデバイス１１０のプログラムまたはアプリケーション１１８と対話する。例えば、図１Ａは、ユーザ１０が自動アシスタントアプリケーションと通信している状態を示している。この例では、ユーザ１０が自動アシスタントに「今夜のコンサートは何時から？（Ｗｈａｔｔｉｍｅｉｓｔｈｅｃｏｎｃｅｒｔｔｏｎｉｇｈｔ？）」と尋ねている。ユーザ１０からのこの質問は、音声キャプチャデバイス１１６ａによってキャプチャされ、ユーザデバイス１１０の音声サブシステム１１６によって処理される話された発話１２である。この例では、ユーザデバイス１１０の音声認識器２００は、「今夜のコンサートは何時から」という音声入力２０２を（例えば、音響フレームとして）受信し、音声入力２０２を文字起こし２０４（例えば、「今夜のコンサートは何時から？」というテキスト表現）に転写する。ここで、アプリケーション１１８の自動アシスタントは、自然言語処理を使用して、ユーザ１０によって投げかけられた質問に対して回答し得る。自然言語処理とは、一般に、書き言葉（例えば、文字起こし２０４）を解釈し、書き言葉が何らかのアクションを促しているかどうかを判断するプロセスを指す。この例では、自動アシスタントは、自然言語処理を使用して、ユーザ１０からの質問がユーザのスケジュール、より具体的にはユーザのスケジュールでのコンサートに関するものであることを認識する。自動アシスタントは、自然言語処理でこれらの詳細を認識することによって、ユーザの問い合わせに対して、「今夜のコンサートは午後８時３０分に開場します（Ｄｏｏｒｓｏｐｅｎａｔ８：３０ｐｍｆｏｒｔｈｅｃｏｎｃｅｒｔｔｏｎｉｇｈｔ）」という回答を返す。いくつかの構成では、自然言語処理は、ユーザデバイス１１０のデータ処理ハードウェア１１２と通信するリモートシステム上で行われ得る。

図１Ｂは、音声認識器２００を用いた音声認識の別の例である。この例では、ユーザデバイス１１０に関連付けられたユーザ１０は、通信アプリケーション１１８を用いてジェーン・ドゥという名前の友人と通信している。ここで、テッドという名前のユーザ１０は、音声認識器２００に自身の音声入力を文字起こしさせることによって、ジェーンと通信する。音声キャプチャデバイス１１６は、これらの音声入力をキャプチャし、それらを音声認識器２００にデジタル形式（例えば、音響フレーム）で伝達する。音声認識器２００は、これらの音響フレームを、通信アプリケーション１１８を介してジェーンに送信されるテキストに文字起こしする。この種類のアプリケーション１１８はテキストを介して通信するため、音声認識器２００からの文字起こし２０４は、さらなる処理（例えば、自然言語処理）なしでジェーンに送信され得る。

図２Ａおよび図２Ｂなどのいくつかの例では、音声認識器２００は２パスアーキテクチャで構成されている。一般的に、音声認識器２００の２パスアーキテクチャは、少なくとも１つのエンコーダ２１０、ＲＮＮ－Ｔデコーダ２２０、およびＬＡＳデコーダ２３０を含む。ここで、図２Ａは、従来の２パスアーキテクチャを示し、図２Ｂは、デリバレーションネットワーク２４０を有する拡張２パスアーキテクチャを示す。これらの図からわかるように、図２Ｂの拡張２パスアーキテクチャは、図２Ａの基本的な２パス構造に基づいている。２パスデコーディングにおいて、第２のパス２０８（例えば、ＬＡＳデコーダ２３０として示される）は、第１のパス２０６（例えば、ＲＮＮ－Ｔデコーダ２２０として示される）からの初期出力を格子再スコアリング（ｌａｔｔｉｃｅｒｅｓｃｏｒｉｎｇ）またはｎベスト再ランク付け（ｎ－ｂｅｓｔｒｅ－ｒａｎｋｉｎｇ）などの技術を用いて改善し得る。言い換えれば、ＲＮＮ－Ｔデコーダ２２０はストリーミング予測を生成し、ＬＡＳデコーダ２３０は予測を確定する。ここで、具体的には、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からストリーミングされた仮説２２２ｙ_Ｒを再スコアリングする。一般に、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からストリーミングされた仮説２２２ｙ_Ｒを再スコアリングする再スコアリングモードで機能すると説明されているが、ＬＡＳデコーダ２３０は、設計またはその他の要因（例えば、発話の長さ）に応じてビームサーチモード（ｂｅａｍｓｅａｒｃｈｍｏｄｅ）などの異なるモードで動作することも可能である。

少なくとも１つのエンコーダ２１０は、ストリーミング音声データ１２に対応する音響フレームを音声入力２０２として受信するように構成される。音響フレームは、音声サブシステム１１６によってパラメータ化された音響フレーム（例えば、メルフレームおよび／またはスペクトルフレーム）に事前に処理され得る。いくつかの実施形態では、パラメータ化された音響フレームは、ログメル特徴（ｌｏｇ－ｍｅｌｆｅａｔｕｒｅｓ）を有するログメルフィルタバンクエネルギーに対応する。例えば、音声サブシステム１１６によって出力され、エンコーダ２１０に入力されるパラメータ化された入力音響フレームは、ｘ＝（ｘ_１，．．．，ｘ_Ｔ）として表すことができ、ここで、

は、ログメルフィルタバンクエネルギーであり、Ｔはｘのフレーム数を示し、ｄはログメル特徴の数を表す。いくつかの例では、各パラメータ化された音響フレームは、短いシフトウィンドウ（例えば、３２ミリ秒、１０ミリ秒ごとにシフト）内で計算された１２８次元のログメル特徴を含む。各特徴は、前のフレーム（例えば、３つ前のフレーム）と重ねられて、より高次元のベクトル（例えば、３つ前のフレームを使用した５１２次元のベクトル）が形成されてもよい。次に、ベクトルを形成する特徴は、（例えば、３０ミリ秒のフレームレートに）ダウンサンプリングされ得る。エンコーダ２１０は、音声入力２０２に基づいて、エンコーディングｅを生成するように構成される。例えば、エンコーダ２１０は、エンコードされた音響フレーム（例えば、エンコードされたメルフレームまたは音響埋め込み（ａｃｏｕｓｔｉｃｅｍｂｅｄｄｉｎｇｓ））を生成する。

エンコーダ２１０の構造は、異なる方法で実施することができるが、いくつかの実施形態では、エンコーダ２１０は、長短期記憶（ＬＳＴＭ：ｌｏｎｇ－ｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）ニューラルネットワークである。例えば、エンコーダ２１０は、８個のＬＳＴＭ層を含む。ここで、各層は、２，０４８個の隠れユニットと、それに続く６４０次元の射影層（ｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）とを含む。いくつかの例では、エンコーダ２１０の第２のＬＳＴＭ層の後に、短縮係数（ｒｅｄｕｃｔｉｏｎｆａｃｔｏｒ）Ｎ＝２を有する時間短縮層（ｔｉｍｅ－ｒｅｄｕｃｔｉｏｎｌａｙｅｒ）が挿入される。

いくつかの構成では、エンコーダ２１０は共有エンコーダネットワークである。言い換えれば、各パスネットワーク２０６、２０８がそれ自体の別個のエンコーダを有する代わりに、各パス２０６、２０８は単一のエンコーダ２１０を共有する。エンコーダを共有することによって、２パスアーキテクチャを使用するＡＳＲ音声認識器２００は、そのモデルサイズおよび／またはその計算コストを削減することができる。ここで、モデルサイズの縮小は、音声認識器２００が完全にオンデバイス（ｏｎ－ｄｅｖｉｃｅ）で良好に機能することを可能にするのに役立ち得る。

第１のパス２０６を通じて、エンコーダ２１０は、音声入力２０２の各音響フレームを受信して、出力２１２（例えば、音響フレームのエンコーディングｅとして示される）を生成する。ＲＮＮ－Ｔデコーダ２２０は、各フレームの出力２１２を受信して、仮説ｙ_Ｒとして示される出力２２２を各タイムステップにおいてストリーミング方式で生成する。いくつかの実施形態では、ＲＮＮ－Ｔデコーダ２２０は、予測ネットワークおよび結合ネットワークを含む。ここで、予測ネットワークは、２，０４８個の隠れユニットおよび６４０次元の射影（層ごと）の２つのＬＳＴＭ層、並びに１２８ユニットの埋め込み層を有し得る。エンコーダ２１０および予測ネットワークの出力２１２は、ソフトマックス予測層を含む結合ネットワークに供給され得る。いくつかの例では、ＲＮＮ－Ｔデコーダ２２０の結合ネットワークは、６４０個の隠れユニットと、それに続く４，０９６個の大文字と小文字が混在する単語ピースを予測するソフトマックス層とを含む。

図２Ａの２パスモデルにおいて、第２のパス２０８を通じて、ＬＡＳデコーダ２３０は、各フレームに関してエンコーダ２１０からの出力２１２を受信し、仮説ｙ_Ｌとして指定された出力２３２を生成する。ＬＡＳデコーダ２３０がビームサーチモードで動作する場合、ＬＡＳデコーダ２３０は、出力２１２のみから出力２３２を生成し、ＲＮＮ－Ｔデコーダ２２０の出力２２２を無視する。ＬＡＳデコーダ２３０が再スコアリングモードで動作する場合、ＬＡＳデコーダ２３０は、ＲＮＮ－Ｔデコーダ２２０からトップのＫ個の仮説を取得し、次いで、ＬＡＳデコーダ２３０は、出力２１２をアテンション（ａｔｔｅｎｔｉｏｎ）しつつ、教師強制モードで各シーケンスに対して動作して、スコアを計算する。例えば、スコアは、シーケンスの対数確率とアテンションカバレッジペナルティ（ａｔｔｅｎｔｉｏｎｃｏｖｅｒａｇｅｐｅｎａｌｔｙ）とを組み合わせたものである。ＬＡＳデコーダ２３０は、最も高いスコアを有するシーケンスを出力２３２として選択する。ここで、再スコアリングモードでは、ＬＡＳデコーダ２３０は、出力２１２をアテンションするために、（例えば、４つのヘッドを有する）マルチヘッドアテンション（ｍｕｌｔｉ－ｈｅａｄｅｄａｔｔｅｎｔｉｏｎ）を含み得る。さらに、ＬＡＳデコーダ２３０は、予測のためのソフトマックス層を備えた２層ＬＡＳデコーダ２３０であり得る。例えば、ＬＡＳデコーダ２３０の各層は、２，０４８個の隠れユニットと、それに続く６４０次元の射影とを有する。ソフトマックス層は、ＲＮＮ－Ｔデコーダ２２０のソフトマックス層から同じ大文字と小文字が混在する単語ピースを予測するために、４，０９６次元を含み得る。

図２Ｂを参照すると、第１のパス２０６は同じままであるが、第２のパス２０８は、ＬＡＳデコーダ２３０に加えて、デリバレーションエンコーダ２４２と、２つのアテンション機構２４４、２４６（仮説アテンション機構２４４および音響アテンション機構２４６）とを含むデリバレーションデコーダ２４０を使用する。ここで、図２Ａの音声認識器２００と比較して、図２Ｂの音声認識器２００は、音響アテンション機構２４６においてエンコーダ２１０の出力２１２をアテンションすることによって音響をアテンションするとともに、仮説アテンション機構２４４においてＲＮＮ－Ｔデコーダ２２０の出力２２２をアテンションすることによって第１のパスの仮説をアテンションする。対照的に、図２Ａの音声認識器２００は、ＬＡＳデコーダ自体でエンコーダ２１０の出力２１２をアテンションすることによって音響に対してのみアテンションする。音響（例えば、ｅとして表される出力２１２）と第１のパスの仮説との両方をアテンションすることによって、デリバレーションデコーダ２４０は、出力２４８（例えば、予測シーケンス）を生成する。ここで、各アテンション機構２４４、２４６は、デリバレーションデコーダ２４０のＬＡＳデコーダ２３０に入力されるコンテキストベクトル２４５、２４７（例えば、音響コンテキストベクトル２４７および仮説コンテキストベクトル２４５）を形成する。これらのコンテキストベクトル２４５、２４７は、ＬＡＳデコーダ２３０への入力として連結され得る。上記のＬＡＳデコーダ２３０に固有のアテンション機構と同様に、アテンション機構２４４、２４６は、各アテンション機構２４４、２４６がマルチヘッドアテンション（例えば、４つのヘッド）を含むように同様の構造を有してもよい。

デリバレーションエンコーダ２４２は、ＲＮＮ－Ｔデコーダ２２０の出力２２２（即ち、第１のパス２０６の出力２２２）をさらにエンコードして、エンコードされた仮説２４３（例えば、ｈ_Ｂとして示される）を形成する。出力２２２をさらにエンコードするとき、デリバレーションエンコーダ２４２は、有用なコンテキスト情報がエンコードされた仮説２４３に含まれるように出力２２２をエンコードすることもできる。例えば、デリバレーションエンコーダ２４２は、コンテキスト情報を含むことが可能な双方向エンコーダである。デリバレーションエンコーダ２４２は、複数の仮説２２２をエンコードするように構成することもできる。例えば、デリバレーションエンコーダ２４２は、各仮説２２２を別々にエンコードし、次いで、エンコードされた各仮説を共に連結する。構造的に、デリバレーションエンコーダ２４２は、ＬＳＴＭエンコーダ（例えば、２層双方向ＬＳＴＭエンコーダ）であり得る。ＬＳＴＭエンコーダとして、デリバレーションエンコーダ２４２の各層は、２，０４８個の隠れユニットと、それに続く３２０次元の射影とを含み得る。

第２のパス２０８を通して、図２Ｂの音声認識器２００は、ビームサーチモードまたは再スコアリングモードを実行して出力２４８を生成し得る。再スコアリングモードでは、デリバレーションデコーダ２４０は、教師強制モードで出力２２２に対して動作することができる。追加的または代替的に、再スコアリングモードにおいて、双方向デリバレーションエンコーダ２４２を使用することは、デリバレーションデコーダの２パスアーキテクチャの相対ＷＥＲを改善するのに役立ち得る。

いくつかの例では、図２Ｂの音声認識器２００は、音響エンコーダ２５０をも含む。例えば、デリバレーションエンコーダ２４２およびＬＡＳデコーダ２３０は、ある程度の非互換性を有し得るが、これは、音響エンコーダ２５０を使用することによって克服され得る。言い換えれば、音響エンコーダ２５０は、出力２１２をさらにエンコードし得る。いくつかの実施形態では、音響エンコーダ２５０は、エンコーダ２１０からの出力２１２をさらにエンコードするＬＳＴＭエンコーダ（例えば、２層ＬＳＴＭエンコーダ）である。追加のエンコーダを含むことによって、エンコーダ２１０は、パス２０６、２０８の間の共有エンコーダとして依然として保持され得る。追加的または代替的に、音響エンコーダ２５０は、拡張２パスアーキテクチャ内の潜在的な遅延を低減するために単方向エンコーダであり得る。

ニューラルネットワークは、通常、損失関数（例えば、クロスエントロピー損失関数）を定義するバックプロパゲーションによってトレーニングされる。例えば、損失関数は、ネットワークの実際の出力とネットワークの所望の出力との差として定義される。ここで、音声認識器２００は、クロスエントロピー損失手法または共同トレーニング手法のいずれかを使用してトレーニングすることができる。クロスエントロピー損失手法では、デリバレーションデコーダ２４０を備えた音声認識器２００（即ち、デリバレーションベースの認識装置２００）などのデリバレーションモデルは、２段階のトレーニングプロセスでトレーニングされる。トレーニングプロセスの最初のステップでは、ＲＮＮ－Ｔデコーダ２２０がトレーニングされる。ＲＮＮ－Ｔデコーダ２２０がトレーニングされた後、ＲＮＮ－Ｔデコーダ２２０に関するパラメータが固定され、デリバレーションデコーダ２４０および追加のエンコーダ層（例えば、デリバレーションエンコーダ２４２および音響エンコーダ２５０）のみがトレーニングされる。

対照的に、ＲＮＮ－Ｔデコーダ２２０のパラメータを固定しながらデリバレーションデコーダ２４０をトレーニングすることは、デリバレーションベースの認識器２００のコンポーネントが共に更新されないため、最適ではない場合がある。代替のトレーニング手法として、デリバレーションベースの認識器２００は、以下の式によって表される複合損失手法を使用して共同でトレーニングすることができる。

Ｌ_{ｊｏｉｎｔ}（θ_ｅ，θ_１，θ_２）＝Ｌ_ＲＮＮＴ（θ_ｅ，θ_１）＋λＬ_ＣＥ（θ_ｅ，θ_２）（１）
ここで、Ｌ_ＲＮＮＴ（－）はＲＮＮ－Ｔ損失であり、λＬ_ＣＥ（－）はデリバレーションデコーダ２４０に関するクロスエントロピー損失であり、θ_ｅ、θ_１、およびθ_２は、それぞれエンコーダ２１０、ＲＮＮ－Ｔデコーダ２２０、およびデリバレーションデコーダ２３０のパラメータを示す。ここで、共同トレーニングは、「ディープファインチューニング（ｄｅｅｐｆｉｎｅｔｕｎｉｎｇ）」の概念に似ているが、事前トレーニング済みのデコーダを用いていない。

これらの手法のいずれかに続いて、音声認識器２００は、ｎベスト仮説を使用することによって、予測単語誤り率を最適化するために、最小ＷＥＲ（ＭＷＥＲ）損失を使用してさらにトレーニングされ得る。このＭＷＥＲ損失トレーニングは、次の式で表すことができる。

ここで、

は、デリバレーションデコーダ２４０からのｉ番目の仮説２４８であり、

は、グラウンドトゥルースターゲットｙ^＊に関する

に対する単語誤りの数である。

は、他の全ての仮説にわたって合計が１になるように正規化されたｉ番目の仮説の確率である。Ｂはビームサイズである。クロスエントロピー損失をＭＷＥＲ損失と組み合わせた場合、次の式を使用してトレーニングを安定させることができる。ここで、α＝０．０１である。

Ｌ’_ＭＷＥＲ（ｘ，ｙ^＊）＝Ｌ_ＭＷＥＲ（ｘ，ｙ^＊）＋αＬ_ＣＥ（ｘ，ｙ^＊）（３）
図３は、デリバレーション２パスアーキテクチャを使用して自動音声認識（例えば、ＡＳＲ）を実行する方法３００のための動作の例示的な構成のフローチャートである。動作３０２において、方法３００は、第１のパスの仮説２２２およびエンコードされた音響フレーム２１２を受信する。ここで、第１のパスの仮説２２２は、エンコードされた音響フレーム２１２に対してＲＮＮデコーダ２２０によって生成されたものである。動作３０４において、方法３００は、仮説エンコーダ２４２において第１のパスの仮説２２２をエンコードすることを含む。動作３０６において、方法３００は、第１のアテンション機構２４６を使用して第１のコンテキストベクトル２４７を生成し、第２のアテンション機構２４４を使用して第２のコンテキストベクトル２４５を生成することを含む。第１のアテンション機構２４６は、エンコードされた音響フレーム２１２に対してアテンションする。第２のアテンション機構２４４は、エンコードされた第１のパスの仮説２４３に対してアテンションする。動作３０８において、方法３００は、コンテキストベクトルデコーダ２３０において第１のコンテキストベクトル２４７および第２のコンテキストベクトル２４５をデコードして、第２のパスの仮説２４８を形成することを含む。

図４は、本明細書で説明されるシステム（例えば、音声認識器２００）および方法（例えば、方法３００）を実施するために使用され得る例示的なコンピューティングデバイス４００（例えば、システム４００）の概略図である。コンピューティングデバイス４００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および／または特許請求の範囲に記載される本発明の実施形態を限定するものではない。

コンピューティングデバイス４００は、プロセッサ４１０（例えば、データ処理ハードウェア４１０）、メモリ４２０（例えば、メモリハードウェア５２０）、ストレージデバイス４３０、メモリ４２０および高速拡張ポート４４０に接続する高速インタフェース／コントローラ４４０、および低速バス４７０およびストレージデバイス４３０に接続する低速インタフェース／コントローラ４６０を含む。構成要素４１０、４２０、４３０、４４０、４５０、および４６０の各々は、様々なバスを使用して相互接続されており、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ４１０は、メモリ４２０またはストレージデバイス４３０に格納された命令を含む、コンピューティングデバイス４００内で実行するための命令を処理して、高速インタフェース４４０に接続されたディスプレイ４８０などの外部入力／出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）用のグラフィカル情報を表示することができる。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス４００が接続され、各デバイスが（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な処理の一部を提供してもよい。

メモリ４２０は、コンピューティングデバイス４００内に非一時的に情報を格納する。メモリ４２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的メモリ４２０は、コンピューティングデバイス４００によって使用するための一時的または永久的な基準でプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラム可能読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）／電子消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープが含まれる。

ストレージデバイス４３０は、コンピューティングデバイス４００の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス４３０は、コンピュータ可読媒体である。様々な異なる実施形態では、ストレージデバイス４３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような１つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ４２０、ストレージデバイス４３０、またはプロセッサ４１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ４４０は、コンピューティングデバイス４００の帯域幅を大量に使用する処理を管理し、低速コントローラ４６０は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ４４０は、メモリ４２０、ディスプレイ４８０（例えば、グラフィックプロセッサまたはアクセラレータを介する）、および各種拡張カード（図示せず）を受け入れる高速拡張ポート４５０に接続される。いくつかの実施形態では、低速コントローラ４６０は、ストレージデバイス４３０および低速拡張ポート４９０に接続される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含む低速拡張ポート４９０は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに接続され得る。

コンピューティングデバイス４００は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、それは、標準サーバ４００ａとして、またはそのようなサーバ４００ａのグループ内で複数回、ラップトップコンピュータ４００ｂとして、またはラックサーバシステム４００ｃの一部として実施することができる。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための１つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つまたは複数の大容量ストレージデバイス（例えば、磁気ディスク、光磁気ディスク、または光ディスク）からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。

ユーザとのインタラクションを提供するために、本開示の１つまたは複数の態様は、例えば、ＣＲＴ（陰極線管）、ＬＤＣ（液晶ディスプレイ）モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイスと、任意選択でユーザがコンピュータに入力を提供するキーボードおよびポインティングデバイス（例えば、マウスやトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得るユーザに提供されるフィードバックとともにユーザとのインタラクションを提供することもでき、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって（例えば、ウェブブラウザから受信した要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって）、ユーザとインタラクションすることができる。

いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。

Claims

データ処理ハードウェア（１１２）上での実行時に、前記データ処理ハードウェア（１１２）に動作を実行させるコンピュータが実施する方法（３００）であって、前記動作は、
第１のパスの仮説（２２２）およびエンコードされた音響フレーム（２１２）を受信すること、前記第１のパスの仮説（２２２）は、前記エンコードされた音響フレーム（２１２）に対してリカレントニューラルネットワーク（以下、ＲＮＮとする）デコーダモデル（２２０）によって生成されたものであり、
仮説エンコーダ（２４２）において、前記第１のパスの仮説（２２２）をエンコードすること、
前記エンコードされた音響フレーム（２１２）に対してアテンションする第１のアテンション機構（２４６）を使用して、第１のコンテキストベクトル（２４７）を生成すること、
エンコードされた前記第１のパスの仮説（２２２）に対してアテンションする第２のアテンション機構（２４４）を使用して、第２のコンテキストベクトル（２４５）を生成すること、
コンテキストベクトルデコーダ（２３０）において、前記第１のコンテキストベクトル（２４７）および前記第２のコンテキストベクトル（２４５）をデコードして、第２のパスの仮説（２２２）を形成すること、を含むコンピュータが実施する方法（３００）。
前記第１のコンテキストベクトル（２４７）および前記第２のコンテキストベクトル（２４５）をデコードすることは、前記第１のコンテキストベクトル（２４７）と前記第２のコンテキストベクトル（２４５）との連結をデコードすることを含む、請求項１に記載のコンピュータが実施する方法（３００）。
前記第１のパスの仮説（２２２）をエンコードすることは、前記仮説エンコーダ（２４２）において、前記第１のパスの仮説（２２２）を双方向エンコードして、前記第１のパスの仮説（２２２）からコンテキスト情報を生成することを含む、請求項１または２に記載のコンピュータが実施する方法（３００）。
前記仮説エンコーダ（２４２）は、長短期記憶（ＬＳＴＭ）ネットワークを含む、請求項３に記載のコンピュータが実施する方法（３００）。
前記動作は、
共有エンコーダ（２１０）において、音響フレーム（２１２）をエンコードすること、
前記ＲＮＮデコーダモデル（２２０）において、前記共有エンコーダ（２１０）から伝達された前記エンコードされた音響フレーム（２１２）に基づいて、前記第１のパスの仮説（２２２）を生成すること、を含む、請求項１乃至４のいずれか一項に記載のコンピュータが実施する方法（３００）。
前記動作は、単方向音声エンコーダ（２５０）において、前記共有エンコーダ（２１０）から伝達された前記エンコードされた音響フレーム（２１２）に基づいて、音響埋め込み（２３２）を生成することをさらに含む、請求項５に記載のコンピュータが実施する方法（３００）。
前記単方向音声エンコーダ（２５０）は、長短期記憶（以下、ＬＳＴＭとする）ネットワークを含む、請求項６に記載のコンピュータが実施する方法（３００）。
前記ＬＳＴＭネットワークが少なくとも２つの層を含む、請求項７に記載のコンピュータが実施する方法（３００）。
前記動作は、
前記ＲＮＮデコーダモデル（２２０）をトレーニングすること、
トレーニングされた前記ＲＮＮデコーダモデル（２２０）のパラメータが固定された状態で、デリバレーションデコーダ（２４０）をトレーニングすること、を含み、前記デリバレーションデコーダ（２４０）は、前記仮説エンコーダ（２４２）、前記第１のアテンション機構（２４６）、前記第２のアテンション機構（２４４）、および前記コンテキストベクトルデコーダ（２３０）を含む、請求項１乃至８のいずれか一項に記載のコンピュータが実施する方法（３００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）および前記デリバレーションデコーダ（２４０）のトレーニング中に単語誤り率を最小化することをさらに含む、請求項９に記載のコンピュータが実施する方法（３００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）およびデリバレーションデコーダ（２４０）を共同でトレーニングすることをさらに含み、前記デリバレーションデコーダ（２４０）は、前記仮説エンコーダ（２４２）、前記第１のアテンション機構（２４６）、前記第２のアテンション機構（２４４）、および前記コンテキストベクトルデコーダ（２３０）を含む、請求項１乃至１０のいずれか一項に記載のコンピュータが実施する方法（３００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）および前記デリバレーションデコーダ（２４０）の共同トレーニング中に単語誤り率を最小化することをさらに含む、請求項１１に記載のコンピュータが実施する方法（３００）。
前記データ処理ハードウェア（１１２）がユーザデバイス（１１０）上に存在する、請求項１乃至１２のいずれか一項に記載のコンピュータが実施する方法（３００）。
システム（４００）であって、
データ処理ハードウェア（１１２）と、
前記データ処理ハードウェア（１１２）と通信するメモリハードウェア（１１４）と、を備え、前記メモリハードウェア（１１４）は、命令を格納しており、前記命令は、前記データ処理ハードウェア（１１２）上で実行されるときに、前記データ処理ハードウェア（１１２）に動作を実行させ、前記動作は、
第１のパスの仮説（２２２）およびエンコードされた音響フレーム（２１２）を受信すること、前記第１のパスの仮説（２２２）は、前記エンコードされた音響フレーム（２１２）に対してリカレントニューラルネットワーク（以下、ＲＮＮとする）デコーダモデル（２２０）によって生成されたものであり、
仮説エンコーダ（２４２）において、前記第１のパスの仮説（２２２）をエンコードすること、
前記エンコードされた音響フレーム（２１２）に対してアテンションする第１のアテンション機構（２４６）を使用して、第１のコンテキストベクトル（２４７）を生成すること、
エンコードされた前記第１のパスの仮説（２２２）に対してアテンションする第２のアテンション機構（２４４）を使用して、第２のコンテキストベクトル（２４５）を生成すること、
コンテキストベクトルデコーダ（２３０）において、前記第１のコンテキストベクトル（２４７）および前記第２のコンテキストベクトル（２４５）をデコードして、第２のパスの仮説（２２２）を形成すること、を含む、システム（４００）。
前記第１のコンテキストベクトル（２４７）および前記第２のコンテキストベクトル（２４５）をデコードすることは、前記第１のコンテキストベクトル（２４７）と前記第２のコンテキストベクトル（２４５）との連結をデコードすることを含む、請求項１４に記載のシステム（４００）。
前記第１のパスの仮説（２２２）をエンコードすることは、前記仮説エンコーダ（２４２）において、前記第１のパスの仮説（２２２）を双方向エンコードして、前記第１のパスの仮説（２２２）からコンテキスト情報を生成することを含む、請求項１４または１５に記載のシステム（４００）。
前記仮説エンコーダ（２４２）は、長短期記憶（ＬＳＴＭ）ネットワークを含む、請求項１６に記載のシステム（４００）。
前記動作は、
共有エンコーダ（２１０）において、音響フレーム（２１２）をエンコードすること、
前記ＲＮＮデコーダモデル（２２０）において、前記共有エンコーダ（２１０）から伝達された前記エンコードされた音響フレーム（２１２）に基づいて、前記第１のパスの仮説（２２２）を生成すること、を含む、請求項１４乃至１７のいずれか一項に記載のシステム（４００）。
前記動作は、単方向音声エンコーダ（２５０）において、前記共有エンコーダ（２１０）から伝達された前記エンコードされた音響フレーム（２１２）に基づいて、音響埋め込み（２３２）を生成することをさらに含む、請求項１８に記載のシステム（４００）。
前記単方向音声エンコーダ（２５０）は、長短期記憶（以下、ＬＳＴＭとする）ネットワークを含む、請求項１９に記載のシステム（４００）。
前記ＬＳＴＭネットワークが少なくとも２つの層を含む、請求項２０に記載のシステム（４００）。
前記動作は、
前記ＲＮＮデコーダモデル（２２０）をトレーニングすること、
トレーニングされた前記ＲＮＮデコーダモデル（２２０）のパラメータが固定された状態で、デリバレーションデコーダ（２４０）をトレーニングすること、を含み、前記デリバレーションデコーダ（２４０）は、前記仮説エンコーダ（２４２）、前記第１のアテンション機構（２４６）、前記第２のアテンション機構（２４４）、および前記コンテキストベクトルデコーダ（２３０）を含む、請求項１４乃至２１のいずれか一項に記載のシステム（４００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）および前記デリバレーションデコーダ（２４０）のトレーニング中に単語誤り率を最小化することをさらに含む、請求項２２に記載のシステム（４００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）およびデリバレーションデコーダ（２４０）を共同でトレーニングすることをさらに含み、前記デリバレーションデコーダ（２４０）は、前記仮説エンコーダ（２４２）、前記第１のアテンション機構（２４６）、前記第２のアテンション機構（２４４）、および前記コンテキストベクトルデコーダ（２３０）を含む、請求項１４乃至２３のいずれか一項に記載のシステム（４００）。
前記動作は、前記ＲＮＮデコーダモデル（２２０）および前記デリバレーションデコーダ（２４０）の共同トレーニング中に単語誤り率を最小化することをさらに含む、請求項２４に記載のシステム（４００）。
前記データ処理ハードウェア（１１２）がユーザ装置（１１０）上に存在する、請求項１４乃至２５のいずれか一項に記載のシステム（４００）。