JP7490804B2

JP7490804B2 - 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法

Info

Publication number: JP7490804B2
Application number: JP2022558824A
Authority: JP
Inventors: モーリッツ，ニコ; 貴明堀; ル・ルー，ジョナタン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-12-12
Filing date: 2020-12-04
Publication date: 2024-05-27
Anticipated expiration: 2040-12-04
Also published as: JP2023504219A; US11373639B2; EP4073787A1; WO2021117844A1; EP4073787B1; CN114787914A; US20210183373A1

Description

本発明は、概して、音声認識のためのシステムに関し、より特定的には、低遅延要件での自動音声認識アプリケーションのためにジョイント型フレーム同期復号（frame-synchronous decoding：ＦＳＤ）およびラベル同期復号（label-synchronous decoding：ＬＳＤ）でエンド・ツー・エンド音声認識をストリーミングするための方法およびシステムに関する。

自動音声認識（ＡＳＲ：automatic speech recognition）システムは、音声ベースでの検索などのさまざまなインターフェイスアプリケーション向けに広く展開されている。近年、エンド・ツー・エンドニューラルネットワークモデルおよびシーケンス・ツー・シーケンスニューラルネットワークモデルはＡＳＲコミュニティにおいて高い関心および人気を集めてきた。エンド・ツー・エンドＡＳＲシステムの出力は、通常、単一の文字またはより大きな単位、たとえば単語の断片、単語全体、もしくは文の断片などであり得る書記素シーケンスである。エンド・ツー・エンドＡＳＲの魅力は、このエンド・ツー・エンドＡＳＲが主にニューラルネットワーク構成要素で構成されているとともにＡＳＲシステムを構築するための言語専門知識を必要としないため、従来のＡＳＲシステムと比較して簡略化されたシステムアーキテクチャを可能にすることである。このようなエンド・ツー・エンドＡＳＲシステムは、発音モデル、音響モデルおよび言語モデルを含む音声認識装置の全ての構成要素を直接学習することができ、これにより、言語特有の言語学情報およびトークン化が不要になる。

エンド・ツー・エンドＡＳＲシステムに用いられるシーケンス・ツー・シーケンスモデルは、フレーム同期復号（ＦＳＤ）に適したフレーム単位の決定を伴うニューラルネットワークと、代わりにラベル同期復号（ＬＳＤ）を用いるラベル単位の決定を伴うニューラルネットワークといった主に２つのタイプのニューラルネットワーク出力パラダイムに基づいている。ＦＳＤを伴うエンド・ツー・エンドＡＳＲシステムは、ストリーミング／オンラインＡＳＲアプリケーションにより適しており、この場合、ＡＳＲ出力は、各発話語の直後にわずかな遅延だけで生成することができる。しかしながら、音声認識において優れた結果を示すことが多いＬＳＤベースのＡＳＲシステムは、オンライン／ストリーミングＡＳＲアプリケーションにはそれほど適していない。なぜなら、通常、復号前のアラインメント情報が欠けているせいで、すなわち、入力シーケンスが次の出力トークンを生成するのに充分な情報を含むかどうかに関する情報が欠けているせいで、音声発話全体が入力として必要になるからである。

したがって、ＦＳＤおよびＬＳＤは非同期デコーダである。場合によっては、エンド・ツー・エンド音声認識のストリーミングが必要条件とはならない用途では、ＦＳＤニューラルネットワークとＬＳＤニューラルネットワークとの組合わせは、各々の単一ニューラルネットワークモデルと比較して、より低いワード誤り率を達成することができる。しかしながら、これらのＡＳＲシステムは、「リアルタイム」での音声認識のためにＡＳＲシステムを実現することを可能にするために、ＦＳＤニューラルネットワークとＬＳＤニューラルネットワークとの間の同期を必要とする。

したがって、「リアルタイム」／オンライン／ストリーミングのアプリケーション用の複合型ＦＳＤ－ＬＳＤベースのＡＳＲを実現するために、ＦＳＤニューラルネットワークとＬＳＤニューラルネットワークとを有効に同期させる必要がある。

自動音声認識（ＡＳＲ）システムは、オーディオサンプルの入力シーケンスまたはオーディオフレームから抽出された音響特徴のシーケンスが文字の出力シーケンスにマッピングされるといったシーケンス・ツー・シーケンスモデリング問題に直面する。このようなシーケンス・ツー・シーケンスマッピングに用いられるいくつかの方法は、音声発話全体が認識プロセスに利用可能となるオフラインＡＳＲアプリケーションに限定される。このような方法は、待ち時間の制約が少ないオンライン／ストリーミングＡＳＲシステムにおいては適用することができない。いくつかの実施形態の目的は、フレーム同期デコーダ（ＦＳＤ）モジュールとラベル同期デコーダ（ＬＳＤ）モジュールとを同期させることによって、「リアルタイム」での適用のためにＡＳＲシステムを実現することである。ストリーミングアプリケーションは、「リアルタイム」での音声信号のトランスクリプション、たとえば、進行中の通話、進行中の講義、進行中の会話における音声発話のトランスクリプション、または音声コマンドの検出および認識を必要とする任意のアプリケーションであり得る。さらに、いくつかの実施形態の目的は、ＬＳＤモジュールによって導入される出力遅延を低減するとともにＦＳＤモジュールおよびＬＳＤモジュールによって生成される発話のトランスクリプションの精度を高めることによって、ＬＳＤモジュールの性能を向上させることである。

いくつかの実施形態は、ＬＳＤベースのＡＳＲシステムが、出力シーケンスの各出力ラベルを認識するために入力シーケンスの各要素に重みを割当てるように、典型的には発話中断によってセグメント化された音声発話全体である入力シーケンス全体を観察する必要があるという認識に基づいている。たとえば、出力ラベルは、単一のアルファベット文字、または単語の断片もしくは文の断片などの文字のシーケンスを含み得る。次の出力ラベルを認識するために入力シーケンスのうちどの部分が関連しているかについての予備知識がなく、入力シーケンスの各要素に重みを割当てる必要があるので、ＬＳＤベースのモジュールは、通常、大きな入力シーケンスを処理する必要がある。このような処理は、発話のうちさまざま部分にアテンションを配することを活用することを可能にするが、出力遅延も増大させるので、ストリーミング方式／オンライン方式での音声認識には実用的ではない。

本明細書で用いられる場合、ＬＳＤベースのＡＳＲの出力遅延は、音声発話から抽出された音響特徴フレームを受取る時間と、受取った音響フレーム内の１つ以上の出力ラベルを認識する時間との間の差である。たとえば、ＬＳＤベースのＡＳＲシステムが音声発話全体に対して動作すると、発話の最後の単語が受取られるまで発話内の１つ以上のラベルの認識が遅延する。このような認識の遅延により出力遅延が増大する。

いくつかの実施形態は、次の出力ラベルの認識用の入力シーケンスのさまざまな部分の関連性についての予備知識が、入力シーケンスから認識されるべきラベルに対応する音響フレームの位置を示すものであるという認識に基づいている。実際には、関連するラベル情報を含む音響フレームの位置が分かっている場合、入力シーケンスを制限することによって、起こり得る全ての位置ではなくこれら音響フレームの位置にのみアテンションを向けるようにＬＳＤベースのモデルを誘導することができる。このようにして、各出力ラベルごとに、ＬＳＤベースのモデルは、入力シーケンス内のそのラベルの位置の周りにそのアテンションを集中させることができる。このようにアテンションを誘導することにより、大きな入力シーケンスを処理する必要を減じ、引いては出力遅延を低減させることにより、ストリーミング方式／オンライン方式での音声発話の認識のためにＬＳＤベースのモデルを実用化できるようにする。

いくつかの実施形態は、フレーム同期デコーダ（ＦＳＤ）モジュールを用いて、入力シーケンス内の文字に対応する音響フレームの位置をＬＳＤモジュールに示すことができるという認識に基づいている。これにより、ＬＳＤモジュールは、出力ラベルを認識するために、入力シーケンスの関連部分へのアテンションを制限することが可能となる。ＦＳＤベースのモジュールは、入力シーケンスの各フレームごとに出力を生成する。すなわち、入力シーケンスおよび出力シーケンスは同じ長さである。ＬＳＤベースのＡＳＲシステムの性能は、ＦＳＤベースのＡＳＲシステムよりも優れている可能性もある。しかしながら、いくつかの実施形態は、上述の１つ以上の問題に対処するために、ＦＳＤベースのＡＳＲシステムの中間動作によって用いられる入力シーケンスと出力シーケンスとのアラインメントをＬＳＤベースのＡＳＲシステムが使用可能であるという認識に基づいている。

実施形態のいくつかは、ストリーミング（または「リアルタイム」）アプリケーションのための音声認識を向上させるために、トリガ型アテンション（ＴＡ：triggered attention）ニューラルネットワークにおいてＦＳＤモジュールおよびＬＳＤモジュールが共同でトレーニングされ得るという認識に基づいている。ＴＡニューラルネットワークは、エンコーダニューラルネットワーク、ＦＳＤニューラルネットワーク、ＬＳＤニューラルネットワーク、および同期モジュールを含み得る。エンコーダニューラルネットワークは、音響特徴フレームに含まれる音響情報をエンコーダ状態のシーケンスに符号化するように構成される。ＦＳＤモジュールは、各エンコーダ状態を一度に連続的に処理し、ＦＳＤモジュールによって維持されるプレフィックスのリストとＦＳＤスコアの関連リストとを更新するエンコーダ状態を識別するように構成される。ＦＳＤモジュールは、前のエンコーダ状態を処理した結果得られるプレフィックスのリストとＦＳＤスコアの関連リストとを保存し得る。プレフィックスのリストおよびＦＳＤスコアのリストは、後続のエンコーダ状態が復号されると更新される。たとえば、ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態の識別に応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤモジュールによって維持されるＦＳＤプレフィックスの候補リストと対応するＦＳＤスコアとを生成する。

同期モジュールは、ＦＳＤモジュールによって生成されたプレフィックスのリストをＬＳＤモジュールに与えるために用いられる。これにより、ＬＳＤモジュールが、ＦＳＤモジュールによって生成された同じプレフィックスのリストについて処理することが可能となる。これにより、プレフィックスドメインにおいてＦＳＤモジュールとＬＳＤモジュールとを同期させる。さらに、同期モジュールはまた、エンコーダ状態の選択済み部分をＬＳＤモジュールに与える。選択済み部分は、ＦＳＤプレフィックスの現在のリストを拡張させた、ＦＳＤモジュールによって識別されるエンコーダ状態に依存するものである。これにより、ＬＳＤモジュールが、音声発話全体に対応するエンコーダ状態シーケンス全体にではなく、エンコーダ状態シーケンスのうち当該選択済み部分にアテンションを配することが可能となる。これにより、ＬＳＤモジュールの出力遅延を小さくするとともに、ＦＳＤモジュールとＬＳＤモジュールとのタイミングを同期させる。このようにして、ＦＳＤモジュールとＬＳＤモジュールとを時間ドメインおよびプレフィックスドメインにおいて同期させて、同じエンコーダ状態のシーケンスについての発話のトランスクリプションを生成する。

実施形態のいくつかは、ジョイントスコアリングモジュールが、ＦＳＤモジュールおよびＬＳＤモジュールによって復号されたトランスクリプション出力のジョイントリストを生成することができるとともに、ジョイントスコアの関連リストをさらに計算することができるという認識に基づいている。ジョイントスコアリングモジュールは、ジョイント型ＦＳＤスコアおよびＬＳＤスコアに基づいてプレフィックスの候補リストをプルーニングすることができる。付加的または代替的には、ジョイントスコアリングモジュールは、ジョイントスコアが最も高いプレフィックスを、音声発話の現在の部分についてのトランスクリプション出力として出力し得る。

したがって、一実施形態は、コンピュータベースの自動音声認識システムを開示する。当該システムは、システムのモジュールを実現する格納された命令と連結されたプロセッサを用いる。当該命令を実行する当該プロセッサは、音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するとともに、終了条件が満たされるまで、フレーム同期デコーダ（ＦＳＤ）モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理するように構成される。当該ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成する。当該候補リスト内の各ＦＳＤプレフィックスは、当該ＦＳＤモジュールによって処理された当該エンコーダ状態における復号済みトランスクリプション出力についての、当該ＦＳＤモジュールによる推定である。ＦＳＤプレフィックスが当該復号済みトランスクリプション出力である確率は当該対応するＦＳＤスコアによって定義される。当該ＦＳＤプレフィックスの候補リストを生成することに応答して、当該プロセッサは、当該エンコーダ状態のうち、当該ＦＳＤモジュールによって識別されたエンコーダ状態を含む部分を選択し、エンコーダ状態のうち選択済み部分を処理するようにラベル同期デコーダ（ＬＳＤ）モジュールをトリガして、当該ＬＳＤモジュールに従って、当該ＦＳＤプレフィックスの候補リスト内の当該ＦＳＤプレフィックスが、エンコーダ状態のうち選択済み部分における当該復号済みトランスクリプション出力である確率を定義するＬＳＤスコアを決定するとともに、対応するＦＳＤスコアとＬＳＤスコアとの組合わせによって定義されるジョイントスコアに従って当該ＦＳＤプレフィックスの候補リストをプルーニングするとともに、当該ＦＳＤプレフィックスの現在のリストを当該ＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成されている。

別の実施形態は、自動音声認識を実行するためにプロセッサによって実行可能なモジュールを含むプログラムが組込まれた非一時的なコンピュータ可読記憶媒体を開示する。当該モジュールは、音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するように構成されたエンコーダと、フレーム同期デコーダ（ＦＳＤ）モジュールとを備え、当該ＦＳＤモジュールは、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理して、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成するように構成され、当該候補リスト内の各ＦＳＤプレフィックスは、当該ＦＳＤモジュールによって処理された当該エンコーダ状態における復号済みトランスクリプション出力についての、当該ＦＳＤモジュールによる推定であり、ＦＳＤプレフィックスが当該復号済みトランスクリプション出力である確率は、当該対応するＦＳＤスコアによって定義されるものであり、当該モジュールはさらに、当該エンコーダ状態のうち、当該ＦＳＤモジュールによって識別された当該エンコーダ状態を含む部分を選択するように構成される同期モジュールと、ラベル同期デコーダ（ＬＳＤ）モジュールとを備え、当該ＬＳＤモジュールは、エンコーダ状態の選択済み部分を処理して、当該ＦＳＤプレフィックスの当該ＦＳＤスコアを対応するＬＳＤスコアと連結するように構成されており、当該対応するＬＳＤスコアは、当該ＬＳＤモジュールに従って、当該ＦＳＤプレフィックスが当該復号済みトランスクリプション出力である確率を定義するものであり、当該モジュールはさらに、ジョイントスコアリングモジュールを備え、当該ジョイントスコアリングモジュールは、ジョイント型ＦＳＤスコアおよびＬＳＤスコアに従って当該ＦＳＤプレフィックスをプルーニングし、当該ＦＳＤプレフィックスの現在のリストをＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成され、当該モジュールはさらに、出力インターフェイスを備え、当該出力インターフェイスは、ジョイントスコアが最も高い当該ＦＳＤプレフィックスを、当該ＦＳＤモジュールによって処理された当該エンコーダ状態についての音響フレームの当該入来ストリームの当該復号済みトランスクリプション出力として出力するように構成されている。

さらに別の実施形態は、自動音声認識のための方法を開示する。当該方法は、当該方法を実現する格納された命令と連結されたプロセッサを用いる。当該命令は、当該プロセッサによって実行されると、当該方法のステップを実行する。当該方法のステップは、音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するステップと、終了条件が満たされるまで、フレーム同期デコーダ（ＦＳＤ）モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理するステップとを備え、当該ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成する。当該候補リスト内の各ＦＳＤプレフィックスは、当該ＦＳＤモジュールによって処理された当該エンコーダ状態における復号済みトランスクリプション出力についての、当該ＦＳＤモジュールによる推定であり、ＦＳＤプレフィックスが当該復号済みトランスクリプション出力である確率は、当該対応するＦＳＤスコアによって定義されるものである。当該方法のステップはさらに、当該エンコーダ状態のうち、当該ＦＳＤモジュールによって識別される当該エンコーダ状態を含む部分を選択するステップと、エンコーダ状態のうち選択済み部分を処理するようにラベル同期デコーダ（ＬＳＤ）モジュールをトリガして、当該ＬＳＤモジュールに従って、ＦＳＤプレフィックスの当該候補リストにおける当該ＦＳＤプレフィックスが、エンコーダ状態の当該選択済み部分における当該復号済みトランスクリプション出力である確率を定義するＬＳＤスコアを決定するステップと、対応するＦＳＤスコアとＬＳＤスコアとの組合わせによって定義されるジョイントスコアに従って当該ＦＳＤプレフィックスの候補リストをプルーニングするステップと、当該ＦＳＤプレフィックスの現在のリストをＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するステップとを備える。

いくつかの実施形態に従った、エンド・ツー・エンド音声認識のために構成された自動音声認識（ＡＳＲ）システムを示す概略図である。フレーム同期デコーダ（ＦＳＤ）モジュール、ラベル同期デコーダ（ＬＳＤ）モジュール、およびジョイントスコアリングモジュールによって生成されるプレフィックスの例示的なリストおよび関連スコアを示す図である。いくつかの実施形態に従った自動音声認識方法を示すブロック図である。いくつかの実施形態に従ったＦＳＤモジュールの例示的な動作を示す図である。いくつかの実施形態に従った、エンコーダ状態のシーケンスの将来のコンテキストを制限するパーティショニング例を示す図である。いくつかの実施形態に従った、エンコーダ状態のシーケンスの将来のコンテキストを制限するパーティショニング例を示す図である。一実施形態に従った、エンド・ツー・エンド音声認識システムのトリガ型アテンションニューラルネットワークを示すブロック図である。例示的な実施形態に従った、深層時間遅延アーキテクチャを用いるエンコーダの実現例を示す図である。例示的な実施形態に従った、ＬＳＤモジュールおよびエンコーダニューラルネットワークを実現するためのトランスフォーマアーキテクチャを示す図である。リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ：recurrent neural network-transducer）アーキテクチャを用いたＦＳＤモジュールの実現例を示す図である。いくつかの実施形態に従った、前の時間ステップの隠れデコーダ状態を伴ったアテンションベースのデコーダとしてＬＳＤモジュールを実現するための例示的なアーキテクチャを示す図である。いくつかの実施形態に従った、前の時間ステップの隠れデコーダ状態を伴わないアテンションベースのデコーダとしてＬＳＤモジュールを実現するための例示的なアーキテクチャを示す図である。いくつかの実施形態に従った、コンピュータベースの自動音声認識システムを示すブロック図である。いくつかの実施形態に従った、提案されるＡＳＲシステムのデータフロー図である。いくつかの実施形態に従った、プレフィックスビームサーチモジュールを用いたＦＳＤモジュールの実現例を示す概略図である。いくつかの実施形態に従った、ＡＳＲシステムを実現するためのさまざまな構成で用いることができるいくつかの構成要素を示すブロック図である。

以下の記載では、本開示の完全な理解を得るために説明を目的として多くの具体的な詳細が述べられる。しかしながら、当業者にとって、本開示がこれらの具体的な詳細なしに実施され得ることは明らかであるだろう。他の例では、本開示を不明瞭にすることを避けるために、装置および方法がブロック図の形式でのみ示されている。

本明細書および請求項で使用される「たとえば」、「例として」および「などの」という語ならびに「備える」、「有する」、「含む」およびこれらのその他の動詞形の各々は、１つ以上の構成要素またはその他の要素の列挙とともに使用される場合、オープンエンドと解釈されねばならない。これは、そのような列挙がさらに他の構成要素または要素を除外するとみなされるべきではないことを意味する。「～に基づく」という語は、少なくとも部分的に基づいていることを意味する。さらに、本明細書で使用される文体および専門語は、説明を目的としたものであって限定するものとみなされるべきではないことが理解されるはずである。本明細書で使用されているいかなる見出しも、便宜的なものにすぎず、法的または限定効果を持つものではない。

図１Ａは、いくつかの実施形態に従った、エンド・ツー・エンド音声認識のために構成された自動音声認識（ＡＳＲ）システムの概略図を示す。音声認識システム１００は、音声発話の特徴を表わす音響フレームの入来ストリームを取得するとともに、音響フレームのストリームを処理して、トランスクリプション出力シーケンスを生成する。各トランスクリプション出力シーケンスは、対応する入力音響信号によって表わされる発話または発話の一部のトランスクリプションである。たとえば、ＡＳＲシステム１００は、音響フレーム１０１の入来ストリームを取得するとともに、音響フレーム１０１の入来ストリームによって表わされる発話のトランスクリプションである対応するトランスクリプション出力１２５を生成することができる。

音響特徴フレーム１０１の入来ストリームは、発話のデジタル表現であるオーディオサンプルのシーケンス（たとえば、データの連続ストリーム）を含み得る。オーディオデータから抽出された各特徴フレームは、時間ステップのシーケンスに対応し得る。この場合、たとえば、オーディオデータの各フレームは、オーディオデータの前のフレームからさらに１０ミリ秒の時間がシフトされた２５ミリ秒のオーディオサンプルに関連付けられる。オーディオデータの特徴フレームのシーケンスにおけるオーディオデータの各フレームは、対応する時間ステップにおける発話の部分を特徴付ける音響情報を含み得る。たとえば、オーディオデータの特徴フレームのシーケンスは、フィルタバンクスペクトルエネルギベクトルを含み得る。

トランスクリプション出力またはラベル出力１２５は、音響フレーム１０１の入来ストリームによって表わされる発話のトランスクリプション部分のシーケンスを含み得る。トランスクリプション出力１２５は１つ以上の文字を含み得る。たとえば、トランスクリプション出力１２５は、ユニコード文字集合からの文字または文字のシーケンスであり得る。たとえば、文字セットは、英語のアルファベット、アジア言語、キリル言語、およびアラビア語を含み得る。文字セットはまた、アラビア数字、スペース文字、および句読点を含み得る。付加的または代替的には、トランスクリプション出力は、バイト符号化、単語、および他の言語構造を含み得る。

ＡＳＲシステム１００は、エンコーダ１０３、フレーム同期デコーダ（ＦＳＤ）モジュール１０７、同期モジュール１０９、ラベル同期デコーダ（ＬＳＤ）モジュール１１１、ジョイントスコアリングモジュール１１５、および、外部言語モデル１２２を含む。本開示は、「リアルタイム」の音声認識に適したＡＳＲシステム１００を構築するために、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１を組合わせて実現するためのシステムを提供する。ＦＳＤを備えたエンド・ツー・エンドＡＳＲシステムは、ストリーミング／オンラインＡＳＲアプリケーションのために容易に適用することができる。この場合、ＡＳＲ出力は、わずかな出力遅延だけで各々の発話語の直後に生成されなければならない。しかしながら、音声認識の際に優れた結果を示すことが多いＬＳＤベースのＡＳＲシステムは、オンライン／ストリーミングＡＳＲにはさほど適していない。なぜなら、復号前にアライメント情報が欠けているせいで、すなわち、入力シーケンスが次の出力トークンを生成するのに充分な情報を含むか否かに関する情報が不足しているせいで、通常、音声発話全体が入力として必要となるからである。それにもかかわらず、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１は、ストリーミングＡＳＲアプリケーションのために用いられ得る高速で効率的なＡＳＲを達成するために、１つのシステム１００において一緒に実現され得る。

そのために、ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７によって復号されたトランスクリプション出力とＬＳＤモジュール１１１によって復号されたトランスクリプション出力とのジョイントスコアリングを提供する。しかしながら、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１は、２つの異なる動作原理に基づいて作用する。ＦＳＤモジュール１０７とＬＳＤモジュール１１１とを一緒に実現するために、これらを同期させる必要がある。この同期により、ジョイントスコアリングモジュール１１５が、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１によって復号された対応するプレフィックスのリストのためにジョイントスコアリングを与えることを可能にする。これらのモジュール１０７、１１１が同期されていない場合、ＦＳＤモジュール１０７によって生成されるプレフィックスのリストはＬＳＤモジュール１１１によって生成されるプレフィックスのリストとは異なり得る。さらに、モジュール１０７によるプレフィックスのリストの生成の時間と、モジュール１１１によるプレフィックスのリストの生成の時間とは異なり得る。なぜなら、ＦＳＤモジュール１０７がフレームごとにまたはエンコーダの状態ごとに動作する一方で、ＬＳＤモジュール１１１はラベルごとに動作して、入力フレームまたはエンコーダ状態のシーケンスを消費するからである。したがって、時間ドメインおよびプレフィックスドメインにおけるモジュール１０７とモジュール１１１との同期がなされていない場合、ジョイントスコアリングモジュール１１５は、両方のトランスクリプション仮説を組合わせることができず、低遅延で中間出力を生成することができない。

たとえば、ＡＳＲシステム１００は、単語「ｄｏｇ」の音声信号に対応する音響特徴フレームの入来ストリームを受取り得る。さらに、時間インスタンスｎにおいて、ＦＳＤモジュール１０７が、ＦＳＤスコア０．３の「ｄｏｇ」、ＦＳＤスコア０．２の「ｄａｈ」、およびＦＳＤスコア０．１の「ｄａｇ」を含むプレフィックスのリストを生成するとともに、別の時間インスタンス、たとえばｎ＋４において、ＬＳＤモジュール１１１が、ＬＳＤスコア０．３の「ｄｕｇ」、ＬＳＤスコア０．２の「ｄａｈ」、およびＬＳＤスコア０．５の「ｄａｇ」を含むプレフィックスのリストを生成する場合、時間ドメインおよびプレフィックスドメインにおけるモジュール同士の同期がなされていなければ、ジョイントスコアリングモジュール１１５は、プレフィックスのリストが異なっているのでジョイントスコアリングを実行することができず、さらに、ＬＳＤモジュールを待たなければならないので各発話語の後に低遅延でジョイント出力を生成することができない。

ＬＳＤモジュール１１１は、ＬＳＤモジュールの出力遅延を減らすために、時間ドメインにおいてＦＳＤモジュール１０７と同期される。出力遅延は、ＬＳＤベースのＡＳＲシステムにおいて引起こされる。なぜなら、典型的には、ＬＳＤベースのＡＳＲシステムが、各トランスクリプション出力１２５を認識するために、発話中断によってセグメント化された音声発話全体を観察して各入力フレームに重みを割当てることが必要になるかもしれないからである。次のトランスクリプション出力を認識するために入力音響信号のどの部分が関連しているかについての予備知識がなく、各エンコーダ状態に重みを割当てる必要があるため、ＬＳＤモジュール１１１は、通常、大きな入力シーケンスを処理する必要がある。このような処理は、発話のさまざまな部分にアテンションを配することを活用することを可能にするが、出力遅延も増大させるので、ストリーミング方式／オンライン方式での音声認識のためには実用的でない。

本明細書で用いられる場合、ＡＳＲシステムの出力遅延は、音声信号のフレームを受取った時と受取った音響情報を認識した時との間の時間差である。たとえば、ＬＳＤベースのＡＳＲシステムが音声発話全体に対して機能する場合、発話の最後の単語が受取られるまで発話内の単語の認識が遅延する。このような認識の遅延は出力遅延を増大させる。

次のトランスクリプション出力の認識に対する入力シーケンスのさまざまな部分の関連性についての予備知識は、入力シーケンスにおいて認識されるべきトランスクリプション出力に対応するフレームの位置を示すものである。実際には、トランスクリプション出力に関する関連情報を符号化するフレームの位置が分かっている場合、ＬＳＤモジュール１１１のアテンションメカニズムは、これらの位置に制限され得るとともに、構成可能な数の過去および将来のエンコーダフレームまたは状態に制限され得る。このようにして、各トランスクリプション出力ごとに、ＬＳＤモジュール１１１は、そのアテンションを入力シーケンスにおけるこのような位置の周りに集中させることができる。このようにアテンションを誘導することにより、大きな入力シーケンスを処理する必要を減じ、引いては出力遅延を減じることにより、ストリーミング方式／オンライン方式での音声認識のためにＬＳＤモジュール１１１を実用化できるようにする。

そのために、ＡＳＲ１００は、アライメントデコーダおよびトランスクリプション出力デコーダの両方として機能するＦＳＤモジュール１０７を用いる。ＦＳＤモジュール１０７は、文字、バイト符号化、単語などのトランスクリプション出力１２５を符号化する、シーケンス１０５内のエンコーダ状態の位置１１９を決定するようにトレーニングされる。いくつかの実施形態では、ＦＳＤモジュール１０７は、コネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）ニューラルネットワークの方針を用いて実現され得る。さらに、いくつかの実施形態では、ＬＳＤモジュール１１１は、アテンションベースのデコーダを用いて実現され得る。ＣＴＣは、タイミングが変動するといったシーケンス問題に対処するように長・短期メモリ（ＬＳＴＭ：long short-term memory）ニューラルネットワークなどのニューラルネットワークをトレーニングするための、一種の目的関数および関連ニューラルネットワーク出力である。ＦＳＤベースのＡＳＲシステムは、ＬＳＤベースのＡＳＲシステムの代替例である。ＦＳＤは、入力シーケンスの各フレームごとに出力を生成し、すなわち、入力と出力とを同期させ、ビームサーチアルゴリズムを用いて最適な出力シーケンスを見つけてから、ニューラルネットワーク出力を折り畳んでプレフィックスおよび出力トランスクリプションとする。ＬＳＤベースのＡＳＲシステムの性能は、ＦＳＤベースのＡＳＲシステムよりも優れている場合もある。しかしながら、いくつかの実施形態は、ＦＳＤベースＡＳＲシステムの中間動作によって用いられる入力フレームと出力フレームとのアライメントをＬＳＤベースのＡＳＲシステムが用いることで、先に述べたその出力遅延という欠点に対処することができるという認識に基づいている。

ＦＳＤモジュール１０７によって提供されるアライメント情報１１９を活用するために、ＡＳＲシステム１００は、エンコーダ状態のシーケンス１０５をパーティション１２１のセットに分割するように構成された同期モジュール１０９を含む。たとえば、同期モジュール１０９は、識別済みエンコーダ状態の各位置１１９ごとにエンコーダ状態のシーケンスを分割することができ、これにより、パーティション１２１の数が、トランスクリプション出力１２５を符号化する識別済みエンコーダ状態１１９の数（たとえば、等しいこと）によって定義されることとなる。

同期モジュールはさらに、ＦＳＤモジュール１０７によって生成された現在のプレフィックスのリストとエンコーダ状態のシーケンスのうち選択済み部分とをＬＳＤモジュール１１１にサブミットする。これにより、ＬＳＤモジュール１１１が、ＬＳＤモジュールのトランスクリプション出力尤度を推定するために、ＦＳＤモジュール１０７と同じプレフィックスのリストについて処理することを確実にする。このため、プレフィックスドメインにおけるＦＳＤモジュール１０７とＬＳＤモジュール１１１との同期が達成される。さらに、ＦＳＤモジュール１０７がＦＳＤスコアのリストを出力するのとほぼ同時にＬＳＤモジュール１１１がプレフィックスのリストに関するＬＳＤスコアのリストを出力することを確実にするために、エンコーダ状態のシーケンスのうち選択済み部分だけが同期モジュール１０９によってＬＳＤモジュール１１１に与えられる。これにより、ＬＳＤモジュール１１１が、エンコーダ状態シーケンス１０５全体にではなく、エンコーダ状態シーケンス１０５のうち選択済み部分にアテンションを配することが可能となり、これにより、ＬＳＤモジュール１１１の出力遅延を低減させる。こうして、時間ドメインにおけるＦＳＤモジュール１０７とＬＳＤモジュール１１１との同期が達成される。

ＡＳＲシステム１００はエンコーダ１０３を含む。エンコーダ１０３は、音響特徴フレーム１０１の入来ストリームを処理し、エンコーダ状態のシーケンス１０５を生成することで、入力音響信号１０１のための代替的な（たとえばより高度な）表現を提供する。エンコーダ状態のシーケンス１０５は、時間ステップの第２のセットに対応するオーディオデータの特徴フレームの代替シーケンスを含み得る。いくつかの実現例では、入力音響シーケンスの代替表現は、より低いフレームレートにサブサンプリングされる。すなわち、代替表現における時間ステップの第２のセットは、入力音響シーケンス１０１における時間ステップの第１のセットよりも小さい。

さらに、ＦＳＤモジュール１０７は、エンコーダ状態１０５を連続的に処理するとともに、ＦＳＤモジュール１０７によって維持されるプレフィックスのリストおよびＦＳＤスコアの関連リストを更新するように構成（たとえば、トレーニング）される。ＦＳＤモジュール１０７は、符号化された特徴の各エンコーダ状態を連続的に処理して、ＦＳＤモジュールによって維持されるＦＳＤプレフィックスのリストを更新するエンコーダ状態を識別するように構成される。このようにして、ＦＳＤモジュールは、ＦＳＤプレフィックスの候補リストを生成するために新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張する。各ＦＳＤプレフィックスは、その対応するＦＳＤスコアによって定義される確率での、復号済みトランスクリプション出力についての、ＦＳＤモジュールによる候補推定である。すなわち、ＦＳＤスコアは、ＦＳＤプレフィックスが復号済みトランスクリプション出力である確率を定義する。ＦＳＤプレフィックスのリストおよびＦＳＤスコアのリストは、後続のエンコーダ状態の復号時に更新される。たとえば、前の繰返し中に決定されたＦＳＤプレフィックスの現在のリストは、現在の繰返しについてのプレフィックスの候補リストに拡張される。ＦＳＤモジュール１０７は、ＦＳＤプレフィックスの候補リストおよびＦＳＤスコアの関連リストをジョイントスコアリングモジュール１１５に与える（１１７）。ジョイントスコアリングモジュール１１５は、ＬＳＤスコアおよびＦＳＤスコアに基づいてＦＳＤプレフィックスの候補リストをプルーニングして、次の繰返しのためにＦＳＤプレフィックスの現在のリストを形成する。このようにして、復号の品質を犠牲にすることなく、ＦＳＤモジュールの計算効率が維持される。

この結果を達成するために、いくつかの実施形態では、同期モジュール１０９は、エンコーダ状態のシーケンスの一部を選択するように構成される。この一部は、ＦＳＤモジュール１０７によって維持されるプレフィックスのリストの更新に応答してＦＳＤモジュール１０７によって識別されるエンコーダ状態を含む。同期モジュール１０７は、エンコーダ状態のシーケンスのうち選択済み部分および対応するプレフィックスをＬＳＤモジュール１１１に与える。ＬＳＤモジュール１１１は、エンコーダ状態のシーケンスのうち選択済み部分を処理して、ＬＳＤモジュール１１１によって維持されるＬＳＤプレフィックスのリストおよび対応するＬＳＤスコアを更新するように構成（たとえばトレーニング）される。ＦＳＤモジュールと同様に、各ＬＳＤプレフィックスは、その対応するＬＳＤスコアによって定義される確率での、復号済みトランスクリプション出力についての、ＬＳＤモジュールによる候補推定である。いくつかの実施形態では、同期モジュール１０９がＦＳＤプレフィックスをＬＳＤモジュールに渡し、当該ＬＳＤモジュールがＦＳＤプレフィックスについてのみＬＳＤスコアを決定する。このようにして、ＦＳＤモジュールとＬＳＤモジュールとがプレフィックスドメインにおいて同期される。

エンコーダ状態のシーケンスのうち選択済み部分のみを復号することにより、ＬＳＤモジュール１１１がシーケンス１０５全体にではなく、シーケンス１０５の選択済み部分のみにアテンションを配することが可能となり、これにより、ＬＳＤモジュール１１１の出力遅延を低減させる。このようにして、時間ドメインおよびプレフィックスドメインにおけるＦＳＤモジュール１０７とＬＳＤモジュール１１１との同期を達成することができる。したがって、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１は、エンコーダ状態の同じシーケンスをほぼ同時に復号する。

さらに、トランスクリプション出力の精度を高めるために、ＡＳＲシステム１００はジョイントスコアリングモジュール１１５を含む。ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１によって維持されるプレフィックスの更新済みリスト内の対応するプレフィックスのＦＳＤスコアとＬＳＤスコアとを組合わせることで、プレフィックスのジョイントリストおよびジョイントスコアの関連リストを生成する。ジョイントスコアのリストにおける各ジョイントスコアは、ＦＳＤモジュール１０７におけるプレフィックスの更新済みリストおよびＬＳＤモジュール１１１におけるプレフィックスの更新済みリストにおける対応するプレフィックスのＦＳＤスコアとＬＳＤスコアとの重み付けされた組合わせである。加えて、外部言語モデル１２２によって与えられるスコアは、認識精度をさらに向上させるために、重み付けされてジョイント型ＦＳＤスコアおよびＬＳＤスコアに追加され得る。

さらに、ジョイントスコアリングモジュール１１５は、プレフィックスのプルーニング済みジョイントリストをＦＳＤモジュール１０７にフィードバック（１１７）する。この場合、プルーニング段階は、対応するジョイントスコアに基づいて、可能性の低いプレフィックスをプレフィックスのリストから削除する。したがって、ジョイントスコアリングモジュール１１５は、対応するＦＳＤスコアとＬＳＤスコアとの組合せによって定義されるジョイントスコアに従って、ＦＳＤプレフィックスの候補リストをプルーニングする。ジョイントスコアリングモジュール１１５からのプルーニングにより、後に続く時間ステップにわたってエンコーダ状態を後で復号するために、ＦＳＤモジュール１０７の最適なプレフィックスとＬＳＤモジュール１１１の最適なプレフィックスとの選択が同期される。これにより、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１が後続のエンコーダ状態からトランスクリプション出力１２５を復号する精度がさらに高められる。さらに、ジョイントスコアリングモジュール１１５は、ジョイントスコアが最も高いプレフィックスを、現在の時間ステップについての音響フレーム１０１の入来ストリームのトランスクリプションの現在の部分として出力することができる。

いくつかの実施形態では、ＦＳＤモジュールは、認識精度を向上させるために、かつ、事前プルーニングに起因してＬＳＤモジュールによって生成される計算負荷を減らすために、同期モジュールと通信する前およびＬＳＤモジュールをトリガする前に、生成済みＦＳＤプレフィックスのリストを更新および事前プルーニングするために外部言語モデルを用いることができる。

いくつかの実現例では、エンコーダ１０３とＦＳＤモジュール１０７と同期モジュール１０９とＬＳＤモジュール１１１との組合せは、トリガ型アテンション（ＴＡ）モデルまたはＴＡニューラルネットワークと称される。実際には、ＴＡモデルは、発話の部分が受取られると、この発話の部分を処理することができ、これにより、ストリーミング方式／オンライン方式での認識のためにＡＳＲシステム１００を実用化できるようにする。さらに、プレフィックスの例示的なリストを用いたＦＳＤモジュール１０７、ＬＳＤモジュール１１１、およびジョイントスコアリングモジュール１１５の動作を図１Ａとともに図１Ｂにおいて以下で説明する。

図１Ｂは、ＦＳＤモジュール、ＬＳＤモジュール、およびジョイントスコアリングモジュールによって生成されるプレフィックスの例示的なリストおよび関連スコアを示す。テーブル１９１は、ＦＳＤモジュールによって生成されるプレフィックスのリストを示し、テーブル１９２は、ＬＳＤモジュールによって生成されるプレフィックスのリストを示し、テーブル１９３は、ジョイントスコアリングモジュールによって生成されるプレフィックスのリストを示す。

ジョイントスコアリングモジュール１１５は、一致するＦＳＤプレフィックスおよびＬＳＤプレフィックスならびにそれらの対応するＦＳＤスコア１９１およびＬＳＤスコア１９２を合成して、プレフィックスのジョイントリストおよびジョイントスコアの対応するリスト１９３を生成する。たとえば、一実施形態では、ジョイントスコアリングモジュール１１５は、アテンションデコーダトランスクリプション出力スコア１１２（ＬＳＤスコア）およびＦＳＤモジュール出力スコア１１７（ＦＳＤスコア）を処理して、両方のトランスクリプション出力を共同でスコアリングするとともに、発話の最適なジョイントトランスクリプション出力シーケンスを発見する。たとえば、各時間ステップごとに、ジョイントスコアリングモジュール１１５は、０．５の重み係数の場合、例に示されるように両方のトランスクリプション出力スコアの加重和によって計算することができる最適なジョイントスコアのトランスクリプションを出力し得る。ジョイント型ＦＳＤスコアおよびＬＳＤスコアを計算することに加えて、外部言語モデルのスコアも重み付けおよび加算され得る。

次に、ジョイントスコアリングモジュール１１５は、ＦＳＤモジュールによって維持されるＦＳＤプレフィックスのリストを、最適なジョイントプレフィックスの短縮リストであるプレフィックスのプルーニング済みジョイントリストと置換える（１９４）。このような置換１９４により、さらなる処理のために最適なジョイントプレフィックス仮説を選択するとともにジョイントスコアに基づいて可能性の低いプレフィックス候補を削除することによって、プレフィックスドメインにおいてＦＳＤモジュールとＬＳＤモジュールとを同期させる。アクティブなプレフィックスの現在のリストは、同期モジュール１０９を通じてＦＳＤモジュール１０７からＬＳＤモジュール１１１によって受取られる。

たとえば、入力音響特徴フレームは単語「ｄｏｇ」に対応し得る。ＦＳＤモジュール１０７は、符号化済み音響特徴フレーム１０１のエンコーダ状態のシーケンス１０５を受取る。ＦＳＤモジュール１０７は、テーブル１９１に示されるように、対応するＦＳＤスコアとともにＦＳＤプレフィックスのリストを生成する。プレフィックスのリスト内の各プレフィックスは、受取った音響フレームに対応するトランスクリプション出力１２５の候補を推定するものである。ＦＳＤモジュール１０７は、最高（すなわちＦＳＤスコア０．３）ではトランスクリプション出力が「ｄｏｇ」および「ｄａｈ」であると予測し、最低確率０．１ではトランスクリプション出力が「ｄｕｈ」であると予測する。さらに、ＦＳＤモジュール１０７は、ＦＳＤプレフィックスのリストおよびトランスクリプション出力１２５を符号化するエンコーダ状態の位置を同期モジュール１０９に与える。

同期モジュール１０９は、エンコーダ状態のシーケンスの部分を選択する。選択済み部分は、ＦＳＤモジュール１０７によって識別されたエンコーダ状態を含む。同期モジュール１０７は、エンコーダ状態のシーケンスのうち選択済み部分および対応するプレフィックスをＬＳＤモジュール１１１に与える。

さらに、ＬＳＤモジュール１１１は、エンコーダ状態のシーケンスの部分を復号して、ＬＳＤプレフィックスのリストおよび確率の関連リスト、すなわちテーブル１９２に示されるＬＳＤスコア、を生成する。ＦＳＤモジュール１０７とは異なり、ＬＳＤモジュール１１１は、最高確率０．４ではトランスクリプション出力が「ｄｏｇ」であると予測し、より低い確率ではトランスクリプション出力が「ｄｕｈ」および「ｄａｈ」であると予測する。ＦＳＤモジュール１０７およびＬＳＤモジュール１１１の両方によって生成される確率スコアを組合わせることで、トランスクリプション出力「ｄｏｇ」を正確に予測することができる。

そのために、ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７およびＬＳＤモジュール１１１の両方からプレフィックスのリストおよび関連スコアを取得する。最も正確な出力を決定するために、ジョイントスコアリングモジュール１１５は、対応するプレフィックスのＦＳＤスコアとＬＳＤスコアとを組合わせてもよい。スコアの組合せは重み付け平均に対応し得る。しかしながら、スコアの組合わせは、他の任意の数学的演算／数式を用いて実現されてもよい。したがって、テーブル１９３に示されるように、ジョイントスコアリングモジュール１１５は、プレフィックスのジョイントリストおよび関連するジョイント確率を生成する。この場合、プレフィックス「ｄｏｇ」は最高のジョイント確率に対応している。したがって、ジョイントスコアリングモジュール１１５は、現在の時間ステップにおける入力音響フレームに関するトランスクリプション出力として「ｄｏｇ」を出力する。

図１Ｃは、いくつかの実施形態に従った自動音声認識方法のブロック図を示す。当該実施形態では、音声発話の特徴を表わす音響フレームの入来ストリームを符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化し（１８０）、終了条件が満たされるまで、たとえば音声発話の終了まで、ＦＳＤモジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理する（１８１）。ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態の識別に応答して、ＦＳＤプレフィックスの現在のリスト１８９を拡張して、ＦＳＤプレフィックスの候補リスト１８６とＦＳＤプレフィックスの候補リスト１８６の対応するＦＳＤスコア１８５とを生成する。

図１Ｂを例として用いて、ＦＳＤプレフィックスの現在のリスト１８９を「ｄｏ」、「ｄｕ」および「ｄａ」のプレフィックスを含むものとする。新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤモジュールは、「ｄｏ」、「ｄｕ」、および「ｄａ」といったＦＳＤプレフィックスの現在のリストを拡張して、「ｄｏｇ」、「ｄｕｈ」、および「ｄａｈ」といったＦＳＤプレフィックスの候補リスト１８６を生成する。実際には、ＦＳＤプレフィックスの候補リストは、計算効率を維持するためにプルーニングされる必要があるより多くのプレフィックスを含む。たとえば、いくつかの実現例では、ＦＳＤプレフィックスの現在のリストのサイズは固定されており、ＦＳＤプレフィックスの候補リストのサイズよりも小さいので、このようなプルーニングにより、ジョイントスコアが最も高いＦＳＤプレフィックスの候補リスト内にｎ個の最適なＦＳＤプレフィックスが保存されることとなる。ここで、ｎはＦＳＤプレフィックスの現在のリストのサイズである。そのために、ジョイントスコアリングモジュールは、ＦＳＤスコアに基づいてＦＳＤプレフィックスの候補リストをプルーニングする必要がある。この例では、「ｄｕｈ」のＦＳＤプレフィックスは、最低のＦＳＤスコアを有するものとしてプルーニングされる必要がある。しかしながら、いくつかの実施形態は、ＦＳＤスコアのみに基づくのではなくジョイントスコアに基づいてＦＳＤプレフィックスの候補リストをプルーニングするために、ＦＳＤスコアおよびＬＳＤスコアを用いることで、プルーニングの精度を向上させる。

そのために、いくつかの実施形態では、ＦＳＤモジュールによって処理されたエンコーダ状態のシーケンスの部分を処理するようにラベル同期デコーダ（ＬＳＤ）モジュールをトリガして（１８２）、ＬＳＤモジュールに従って、ＦＳＤプレフィックスの候補リストにおけるＦＳＤプレフィックスがエンコーダ状態のシーケンスの部分における復号済みトランスクリプション出力である確率を定義するＬＳＤスコア１８８を決定する。たとえば、同期モジュールを用いて実現されるこのようなトリガにより、時間ドメインおよびプレフィックスドメインにおいてＦＳＤモジュールとＬＳＤモジュールとを同期させる。なぜなら、ＬＳＤモジュールは、エンコーダ状態のうちＦＳＤモジュールによって識別された新しいトランスクリプション出力を含む部分を処理し、ＦＳＤプレフィックス１８６についてのＬＳＤスコア１８８を推定するからである。

ＦＳＤプレフィックス１８６についてのＬＳＤスコアおよびＦＳＤスコアの場合、いくつかの実施形態では、対応するＦＳＤスコアとＬＳＤスコアとの組合わせによって定義されるジョイントスコアに従ってＦＳＤプレフィックスの候補リストをプルーニングし（１８３）、次のトランスクリプション出力を復号するためにＦＳＤプレフィックスの現在のリスト１８９をＦＳＤプレフィックスのプルーニング済みリスト１８７と置換える（１８４）。たとえば、ＦＳＤプレフィックス「ｄｕｈ」は、最小ジョイントスコアが０．２であるのでプルーニングして除去することができる。

一実施形態では、置換されたＦＳＤプレフィックスの現在のリスト内のＦＳＤスコアを置換えることなく、ＦＳＤプレフィックスのみを置換える。たとえば、ＦＳＤプレフィックス「ｄｕｈ」のプルーニングの後、現在のリストは、０．３および０．３の元のＦＳＤスコアをそれぞれ有するプレフィックス「ｄｏｇ」および「ｄａｈ」を有することとなるだろう。このような態様で、ＦＳＤ復号の連続性が維持される。

さまざまな実施形態では、復号プロセスは繰返し実行されるので、別々の繰返しごとに、「ｄ」、「ｏ」、「ａ」、「ｇ」、および／または「ｈ」についてのトランスクリプション出力の別々の位置が識別される。いくつかの実現例では、ＦＳＤモジュール、ＬＳＤモジュール、およびジョイントスコアリングモジュールは、音響フレームの入来ストリームのトランスクリプションを繰返し復号するので、各繰返しごとに、ＦＳＤプレフィックスおよび／またはＬＳＤプレフィックスのリスト内のプレフィックスが新しいトランスクリプション出力トークンで更新されることとなる。

図１ＤはＦＳＤモジュールの例示的な動作を示す。ＦＳＤモジュール１０７の目的のうちの１つは、エンコーダ１０３によって生成されたエンコーダ状態のシーケンス１０５を復号することである。そのために、ＦＳＤモジュール１０７は、シーケンス１０５を復号してトランスクリプション出力１２５のシーケンスを生成するようにトレーニングされる。ＦＳＤモジュール１０７は、フレームごとにエンコーダ状態のシーケンス１０５を処理するとともに、中間トランスクリプション出力に対応するプレフィックスのシーケンスまたはプレフィックスのリストを計算する。さらに、プレフィックスのリストに関連付けられたＦＳＤスコアのリストがＦＳＤモジュール１０７によって生成される。ＦＳＤスコアのリストは、ＦＳＤニューラルネットワークのうち、同じプレフィックスおよび中間トランスクリプション出力につながる全ての経路の確率を除外することによって生成され得る。新たに認識された文字を付加することによってプレフィックスシーケンスが拡張される時間およびフレーム位置がアライメント情報を提供する。いくつかの実施形態では、ＦＳＤモジュール１０７によって生成されたアライメント情報を用いて、エンコーダ状態シーケンスを分割するとともに、ＬＳＤモジュール１１１を用いて実現されるアテンションベースの復号プロセスをトリガする。このアプローチの背後には、ＬＳＤモジュール１１１のプレフィックススコアがＦＳＤモジュール１０７のプレフィックススコアよりも優れているとともにより信頼性が高い可能性があるという理論的根拠がある。そのために、ＦＳＤモジュール１１１によって生成される中間アライメント情報を用いることで、アライメント情報がない場合にＬＳＤモジュール１１１によってもたらされる出力遅延を減らすことによってＬＳＤモジュール１１１の処理をさらに向上させる。

いくつかの実施形態では、ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７によって復号されたトランスクリプション出力とＬＳＤモジュール１１１によって復号されたトランスクリプション出力とのジョイントスコアリングを生成するように実現される。これにより、ＡＳＲシステムの音声認識の精度が向上する。いくつかの実施形態では、ＦＳＤモジュール１０７は２回利用される。すなわち、第一に、ＬＳＤモジュール１１１のためにエンコーダ状態のシーケンスの分割を支援するために、第二に、ＬＳＤ１１１によって復号されるトランスクリプション出力の精度をさらに向上させるために、利用される。

さらに、指示されているシーケンスの要素を取囲んでいるボックスは、エンコーダ状態のシーケンス１０５におけるトランスクリプション出力１２５を符号化するエンコーダ状態の位置１１９を識別する。たとえば、エンコーダ１０３は、対数メル（log-mel）スペクトルエネルギなどの音響特徴の入力音響シーケンスＸを、長さＮのエンコーダ状態シーケンスＸ_Ｅに変換する。

Ｘ_Ｅ＝Ｅｎｃｏｄｅｒ（Ｘ）
たとえば、一実現例では、エンコーダ出力は、サンプリングレートが１００Ｈｚである特徴行列Ｘと比べて４分の１のフレームレートにサブサンプリングされる。Ｚ＝（ｚ_１,…，ｚ_Ｎ）が長さＮのフレーム単位のラベルシーケンスを表わすものとすると、

であり、この場合、

は、たとえば、単一文字、単語の断片または複数の単語であり得る別個のトランスクリプション出力のセットを示しており、

は空白記号である。Ｃ＝（ｃ_１，…，ｃ_Ｌ）とすると、

となり、長さＬのラベルシーケンスを示すものであり、このため、繰返されたラベルを１回の出現にまとめて空白記号を削除すると、シーケンスＺがＣに減じられることとなる。

いくつかの実施形態では、ＦＳＤモジュール１０７は、以下のように導出される確率を用いて、エンコーダ状態のシーケンス１０５を確率的に復号する。

ここで、ｐ（Ｚ｜Ｃ）は推移モデルを示し、ｐ（Ｚ｜Ｘ_Ｅ）は音響モデルを示す。

いくつかの実施形態では、確率が最高であるラベルシーケンスまたはＣＴＣ経路であるラベルシーケンスＺ^＊が強制アライメントプロセスを用いたトレーニング中に決定される。エンコーダ状態シーケンスのサブシーケンスに対してＬＳＤモジュールを調整するためのアライメントは、Ｚ^＊における同じラベルに対応するフレームの各サブシーケンス内における最高確率を有するフレームによって識別済みエンコーダ状態として識別される。たとえば、シーケンスＺ^＊がＺ^＊におけるｌ番目のラベルｃ_ｌの発生の始まりと終わりについてインデックスｉ_ｌおよびｊ_ｌを用いて書き込まれることを考慮すると、

ＴＡアラインメントは、シーケンスＺ^＊から、同じ長さＮの最高確率

を有するトランスクリプション出力を符号化する識別済みエンコーダ状態のサブセットを含むシーケンスへのマッピングを実行する。ここで、^＊はゼロ回以上の繰返しを示し、各Ｃ_ｌは、以下のとおり、Ｃ_ｌに対応するもののうち確率が最も高いフレームで厳密に１回だけ発生するものである。

代替的には、ＦＳＤモジュール１０７は、Ｚ^＊における同じ書記素に対応するフレームの各サブシーケンス内の最初のフレームまたは最後のフレームを、識別済みエンコーダ状態として識別してもよい。

図１Ｅおよび図１Ｆは、いくつかの実施形態に従ったエンコーダ状態のシーケンスを分割する例を示す。さまざまな実施形態では、この分割は、ＦＳＤモジュール１０７、ＬＳＤモジュール１１１およびエンコーダ１０３に動作可能に接続された同期モジュール１０９によって実行される。同期モジュール１０９は、ＦＳＤモジュール１０７のアライメント情報１１９にアクセスし、エンコーダ１０３によって生成されたエンコーダ状態のシーケンス１０５を分割し、エンコーダ状態のシーケンスの部分１２１をＬＳＤモジュール１１１に順次サブミットするように構成される。

たとえば、図１Ｅの一実施形態では、各パーティション１２１ａは、エンコーダ状態のシーケンス１０５の最初から、識別済みエンコーダ状態の位置を順方向に固定シフトだけシフトすることによって決定されるルックアヘッドエンコーダ状態までのエンコーダ状態を含む。ルックアヘッドエンコーダ状態１２３の例を図１Ａに示す。たとえば、固定シフトの値が５であり、識別済み状態エンコーダの位置がエンコーダ状態のシーケンス１０５において８番目である場合、パーティション１２１ａは、最初の１３個のエンコーダ状態を含む。次の識別済みエンコーダ状態の位置が１１である場合、パーティション１２１ａは、最初の１６個のエンコーダ状態を含む。実際には、各パーティションは、新しいトランスクリプション出力についてのエンコーダ状態を含む一方で、パーティションを長くすることでＬＳＤモジュール１１１がその長さを活用することを可能にする。

図１Ｆの代替的な実施形態では、識別済みエンコーダ状態の位置に対応するパーティション１２１ｂは、識別済みエンコーダ状態の位置に対する予め定められた数のルックアヘッドエンコーダ状態およびルックバックエンコーダ状態を含む。たとえば、識別済みエンコーダ状態の位置がエンコーダ状態のシーケンスにおいて１５番目であり、固定されたルックアヘッド値および固定されたルックバック値がそれぞれ４および８となる場合、パーティション１２１ｂは、エンコーダ状態のシーケンス１０５において７番目と１９番目との間のエンコーダ状態を含む。実際には、各パーティションは、新しいトランスクリプション出力についてのエンコーダ状態を含む一方で、ＬＳＤモジュール１１１に対する計算負荷を軽減するために固定長のパーティションを有する。

図２Ａは、一実施形態に従ったエンド・ツー・エンド音声認識システムのトリガ型アテンションニューラルネットワーク２００のブロック図を示す。この実施形態では、エンコーダ１０３、ＦＳＤモジュール１０７、およびＬＳＤモジュール１１１はニューラルネットワークとして実現される。さらに、ＦＳＤモジュール１０７は、コネクショニスト時系列分類ベース（ＣＴＣベース）のニューラルネットワークまたはＣＴＣモジュールを用いて実現され、ＬＳＤモジュール１１１は、アテンションベースのデコーダニューラルネットワークを用いて実現される。トリガ型アテンションモデル２００は、エンコーダネットワークモジュール２０３と、エンコーダネットワークパラメータ２０５と、アテンションデコーダネットワークモジュール２０６と、デコーダネットワークパラメータ２０７と、同期モジュール２０９と、ＣＴＣモジュール２１１と、ＣＴＣネットワークパラメータ２１３とを含む。エンコーダネットワークパラメータ２０５、デコーダネットワークパラメータ２０７、およびＣＴＣネットワークパラメータ２１３は、対応するモジュール２０３、２０６、および２１１にパラメータを与えるためにストレージデバイスに格納される。音響特徴シーケンス２０１は、オーディオ波形データから抽出されるとともに、ストレージデバイスに格納されてエンコーダネットワークモジュール２０３に提供され得る。オーディオ波形データは、オーディオデータ中の発話音を受取って処理するデジタル信号処理モジュール（図示せず）を用いて、入力デバイスを介して取得され得る。

エンコーダネットワークモジュール２０３は、エンコーダネットワークパラメータ２０３からのエンコーダネットワーク読出パラメータを用いて音響特徴シーケンス２０１をエンコーダ特徴ベクトルシーケンスに変換するエンコーダネットワークを含む。ＣＴＣモジュール２１１は、エンコーダネットワークモジュール２０３から埋込みベクトルシーケンスを受取るとともに、ＣＴＣネットワークパラメータ２１３および動的プログラミング技術を用いてラベルシーケンスのＣＴＣベースの事後確率分布を計算する。計算後、ＣＴＣモジュール２１１は、フレーム位置を含む最も確度が高いラベルシーケンスまたはプレフィックスを同期モジュール２０９に与える。

アテンションデコーダネットワークモジュール２０６はデコーダネットワークを含む。アテンションデコーダネットワークモジュール２０６は、同期モジュール２０９からパーティションを受取る。各パーティションは、エンコーダ状態シーケンスの一部を含む。アテンションデコーダネットワークモジュール２０６は、次いで、デコーダネットワークパラメータ２０５からのデコーダネットワーク読出パラメータを用いてラベルのアテンションベースの事後確率分布を計算する。

エンド・ツー・エンド音声認識は、一般に、入力音響特徴シーケンスＸを前提として、最も確度の高いラベルシーケンス

を発見する問題として、以下のとおり定義される。

エンド・ツー・エンド音声認識では、ｐ（Ｙ｜Ｘ）は、発音辞書なしで、かつ重い重み付き有限状態トランスデューサ（ＷＦＳＴ：weighted finite state transducer）ベースのグラフサーチなしで、事前にトレーニングされたニューラルネットワークによって計算される。関連技術のアテンションベースのエンド・ツー・エンド音声認識では、ニューラルネットワークはエンコーダネットワークおよびデコーダネットワークからなる。

エンコーダの例
エンコーダネットワークモジュール２０３は、音響特徴シーケンスＸ＝ｘ_１，…，ｘ_Ｔを、
Ｘ_Ｅ＝Ｅｎｃｏｄｅｒ（Ｘ）（２）
として埋込みベクトルシーケンス

に変換するために用いられるエンコーダネットワークを含む。

ここで、関数Ｅｎｃｏｄｅｒ（Ｘ）は、深層アーキテクチャに積層される、１つ以上のリカレントニューラルネットワーク（ＲＮＮ：recurrent neural network）、畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）、フィードフォワードニューラルネットワーク、または自己アテンションニューラルネットワークを含み得る。ＲＮＮは、各々の隠れユニットに入力ゲートと忘却ゲートと出力ゲートとメモリセルとを有する長・短期メモリ（ＬＳＴＭ）として実現され得る。別のＲＮＮは、双方向ＲＮＮ（ＢＲＮＮ）または双方向ＬＳＴＭ（ＢＬＳＴＭ）であり得る。ＢＬＳＴＭは、ＬＳＴＭＲＮＮの対であり、一方は順方向ＬＳＴＭであり、他方は逆方向ＬＳＴＭである。ＢＬＳＴＭの埋込みベクトルは、順方向ＬＳＴＭおよび逆方向ＬＳＴＭの隠れベクトルを連結したものとして得られる。

ＢＬＳＴＭの隠れベクトルは、次のように順方向隠れベクトルおよび逆方向隠れベクトルを連結することで得られる。

より好適な隠れベクトルを得るために、いくつかの実現例は、第１のＢＬＳＴＭの隠れベクトルを第２のＢＬＳＴＭに与え、次に、第２のＢＬＳＴＭの隠れベクトルを第３のＢＬＳＴＭに与えることなどによって、複数のＢＬＳＴＭを積層する。仮に、ｈ_ｔ′が１つのＢＬＳＴＭによって得られた隠れベクトルである場合、これを別のＢＬＳＴＭに与えると、ｘ_ｔ＝ｈ_ｔ′となる。計算を減らすために、いくつかの実施形態は、１つのＢＬＳＴＭのあらゆる第２の隠れベクトルだけを別のＢＬＳＴＭに与えてもよい。この場合、出力される隠れベクトルシーケンスの長さは、入力される音響特徴シーケンスの長さの半分になる。

例示的な実施形態では、エンコーダモジュールは、深層時間遅延アーキテクチャを用いてともに構成される、時間遅延型長・短期メモリ（ＴＤＬＳＴＭ：time-delayed long short-term memory）ニューラルネットワークおよび並列時間型遅延ＬＳＴＭ（ＰＴＤＬＳＴＭ：parallel time-delayed LSTM）ニューラルネットワークを用いて実現される。図２Ｂは、深層時間遅延アーキテクチャを用いるエンコーダモジュールの実現例を示す。図２Ｂでは、深層時間遅延構造を用いるエンコーダアーキテクチャが左側に示され、ニューラルネットワーク構築ブロックが右側に示されている。深層時間遅延構造の矩形ボックスは各々、層１におけるＴＤＬＳＴＭ構築ブロックまたは層２～層５におけるＰＴＤＬＳＴＭ構築ブロックのいずれかを表わす。角括弧内の数字は、各層へのフレーム遅延型入力を示す。黒い実線および影付き矩形は、単一のエンコーダ出力フレームの経路を強調している。破線および黒く塗りつぶした矩形は、過去および将来のエンコーダ出力フレームを生成するための接続ブロックおよび構築ブロックを示す。

この例では、深層時間遅延アーキテクチャは、２５０ｍｓに対応する合計２５個の入力音響フレームの遅延を生成する。第１のニューラルネットワーク層（層１）は、３つの連続した音響フレームを入力として取込むＴＤＬＳＴＭ構築ブロックを含んでおり、これにより、３分の１のフレームレートで出力が生成され、すなわち、３倍のサブサンプリングが適用される。残りのエンコーダニューラルネットワーク層（すなわち、層２～層５）はＰＴＤＬＳＴＭに基づいている。ＴＤＬＳＴＭニューラルネットワークアーキテクチャおよびＰＴＤＬＳＴＭニューラルネットワークアーキテクチャの各々は、ニューラルネットワークブロックの複数の層を備える。さらに、複数の層の各層は、さまざまなニューラルネットワーク構築ブロックから構成され得る。ＴＤＬＳＴＭおよびＰＴＤＬＳＴＭのアーキテクチャを以下に説明する。

ＴＤＬＳＴＭに含まれるさまざまなニューラルネットワーク構築ブロックは、入力連結（ｃａｔ）ブロック２１５、ＬＳＴＭ層（ＬＳＴＭ）ブロック２１７、ボトルネック（ＢＮ）フィードフォワードニューラルネットワークブロック２１９、および、正規化線形ユニット活性化関数（ＲｅＬＵ：rectified linear unit activation function）ブロック２２１である。入力連結ブロック２１５は、まず、全ての入力音響フレームを連結し、連結された入力音響フレームをＬＳＴＭブロック２１７に与える。ＬＳＴＭブロック２１７は、ボトルネックフィードフォワードニューラルネットワーク２１９の前に、時間遅延されて連結された入力を処理する。ボトルネックフィードフォワードニューラルネットワークブロック２１９は、次の層、すなわちＲｅＬＵブロック２２１、への音響フレームの入力サイズを低減させる。ＲｅＬＵは、ボトルネックフィードフォワードニューラルネットワークブロック２１９から受取った入力音響フレームのためのトランスクリプション出力を符号化する最終エンコーダ状態を生成する活性化関数である。

さらに、ＰＴＤＬＳＴＭネットワークアーキテクチャは、ＬＳＴＭ層２２３と、連結ブロック２２５と、ボトルネックフィードフォワードニューラルネットワークブロック２２７と、正規化線形ユニット活性化関数（ＲｅＬＵ）ブロック２２９とを備える。ＰＴＤＬＳＴＭネットワークでは、時間遅延された入力音響フレームは各々、ＬＳＴＭ層２２３における別々のＬＳＴＭによって処理され、ＬＳＴＭ出力が連結ブロック２２５に与えられる。連結ブロック２２５は、入力音響フレームのためのトランスクリプション出力を符号化する最終エンコーダ状態を生成するために、連結されたＬＳＴＭ出力をボトルネックフィードフォワードニューラルネットワークブロック２２７および正規化線形ユニット（ＲｅＬＵ）活性化関数２２９に転送する前にＬＳＴＭ出力を連結する。

ＴＤＬＳＴＭエンコーダアーキテクチャおよびＰＴＤＬＳＴＭアーキテクチャは、ブロック処理を適用するとともに逆方向ＬＳＴＭを有限の将来のコンテキストに制限する待ち時間制御型ＢＬＳＴＭなどの他のＲＮＮベースのストリーミングエンコーダアーキテクチャと比較して、ＡＳＲシステムの誤り率および推論速度を向上させる。たとえば、これらのアーキテクチャは、処理待ち時間を一定量に制限して、ストリーミングＡＳＲの使用を可能にする。加えて、ＰＴＤＬＳＴＭアーキテクチャは、待ち時間制御型ＢＬＳＴＭアーキテクチャなどの他のＲＮＮベースのストリーミングアーキテクチャと比較して、ワード誤り率の点で有利であることを示している。

ＬＳＤモジュールの例
いくつかの実施形態では、ＬＳＤモジュールは、アテンションベースのデコーダを用いて実現される。アテンションベースのデコーダネットワークモジュール２０６は、埋込みベクトルシーケンスＸ_Ｅを用いてラベルシーケンス確率ｐ（Ｙ｜Ｘ）を計算するために用いられるデコーダネットワークを含む。Ｙを長さＬのラベルシーケンスｙ_１，ｙ_２，…ｙ_Ｌとする。ｐ（Ｙ｜Ｘ）を効率的に計算するために、以下のように確率を確率連鎖律によって因数分解することができる。

各ラベル確率ｐ（ｙ_ｌ｜ｙ_１，…，ｙ_ｌ－１，Ｘ）は、ラベルに対する確率分布から得られ、これは、以下のようにデコーダネットワークを用いて推定される。

アテンションベースの音声認識において、正しいラベルを予測するためには適切なアテンション重みを推定することが極めて重要である。なぜなら、式（１７）に示されるように、コンテンツベクトルｒ_ｌはアライメント分布ａ_ｌに深く依存しているからである。音声認識において、コンテンツベクトルは、アライメント分布のピークの周りのエンコーダの隠れベクトルにおける音響情報を表わしており、音響情報は、ラベルｙ_ｌを予測するための最も重要な手掛かりである。それでもやはり、明確な制約がないので、アテンションメカニズムは不規則なアライメント分布をもたらすことが多く、そのため、ｙ_ｌのインクリメンタル予測を行うときに分布のピークは時間とともに単調に進行する。音声認識において、入力シーケンスと出力シーケンスとの間のアライメントは全般的に単調でなければならない。畳み込み特徴ｆ_ｌｔは不規則なアライメントの生成を減らすものの、その回避を保証することはできない。

別の実施形態では、ＬＳＤモジュールおよびエンコーダモジュールは、トランスフォーマアーキテクチャを用いて実現される。図２Ｃは、ＬＳＤモジュールおよびエンコーダニューラルネットワークを実現するためのトランスフォーマアーキテクチャを示す。図２Ｃに示すトランスフォーマアーキテクチャは、ＲＮＮベースのエンコーダおよびＬＳＤアーキテクチャの代替例である。エンコーダ２０３は、入力フレームのシーケンスを受取る。この場合、シーケンスの各フレームは音声入力に関連付けられた特徴を含む。これらの特徴は、特徴抽出モジュール２３１によって抽出することができる。エンコーダ２０３のニューラルネットワークは、同じ構造を有するＥ個の積み重ねられた層を含む。ここで、各層は２つのサブ層を有する。第１の層はマルチヘッド自己アテンションメカニズム２３５であり、第２の層はフィードフォワードニューラルネットワーク層２３９である。より適切に最適化するために、エンコーダ２０３は、後に層正規化２３７、２４１が続く残りの接続を各サブ層ごとに用いる。加えて、位置符号化２３３がエンコーダ２０３の入力に追加され、これにより、マルチヘッド自己アテンション２３５が複数フレームのシーケンス内におけるフレームの位置を確実に識別できるようにする。いくつかの実施形態では、マルチヘッド自己アテンションメカニズムは、エンコーダニューラルネットワークの待ち時間を制御するとともにストリーミングアプリケーションを可能にするために、制限された自己アテンションを用いる。

さらに、デコーダ２０５はまた、Ｄ個の積み重ねられた層を含む。この場合、各層は、出力埋込み２４３によって与えられる前のデコーダブロックの出力を処理するために（ここでは、第１のデコーダブロックは、前の処理ステップからの最後のデコーダブロックの出力を確認する）マルチヘッド自己アテンション層２４７を有する。さらに、前の復号ステップから計算された出力埋込みのシーケンスにおける相対的または絶対的なフレーム位置情報は、デコーダ２０５の入力において位置符号化２４５を用いてデコーダに与えられる。デコーダ２０５は、マルチヘッド自己アテンション層２４７によって生成されたクエリベクトルを用いてエンコーダニューラルネットワーク２０３の出力を処理するためにマルチヘッドエンコーダ・デコーダアテンション層２５１を含む。エンコーダ・デコーダアテンション層２５１の出力は、フィードフォワードニューラルネットワーク層２５５に供給される。さらに、エンコーダ２０３と同様に、デコーダ２０５は、一般化および正則化を向上させるために、各サブ層ごとに、層正規化２４９、２５３、２５７が後に続く残りの接続を用いる。学習された線形変換２５９およびｓｏｆｔｍａｘ関数２６１を用いて、デコーダ出力を予測済みラベル出力確率に変換する。

ＦＳＤモジュールの例
一実施形態では、ＦＳＤモジュールは、上述のようにＣＴＣニューラルネットワークを用いて実現される。ＣＴＣモジュール２１１は、埋込みベクトルシーケンスＸ_Ｅを前提としてラベルシーケンスＹのＣＴＣ順方向確率を計算する。

初期化のために以下を設定する。

フレーム単位のラベルシーケンスＺは、入力音響特徴シーケンスＸと出力ラベルシーケンスＹとの間のアライメントを表わす。順方向確率を計算する場合、式（３３）の繰返しは、Ｚを強制的に単調にするとともに、アライメントＺにおけるｓのループまたは大きなジャンプを不可能にする。なぜなら、α_ｔ（ｓ）を得るための繰返しは、せいぜいα_ｔ－１（ｓ）、α_ｔ－１（ｓ－１）、α_ｔ－１（ｓ－２）を考慮したものに過ぎないからである。このことは、時間フレームが１フレーム進んだときに、ラベルが前のラベルもしくは空白から変化すること、または同じラベルのままであることを意味する。この制約は、アライメントを強制的に単調にする遷移確率ｐ（ｚ_ｔ｜ｚ_ｔ－１，Ｙ）の役割を果たす。このため、ｐ（Ｙ｜Ｘ）は、不規則な（非単調な）アライメントに基づいて計算された場合、０または非常に小さな値となり得る。入力音響特徴シーケンスＸと出力ラベルシーケンスＹとの間のアライメントは、アテンションベースのニューラルネットワーク２０６の動作を制御するために同期モジュール２０９によって用いられる。

ある実施形態では、ＦＳＤモジュールは、リカレントニューラルネットワーク（ＲＮＮ）トランスデューサアーキテクチャを用いて実現され得る。図２Ｄは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）アーキテクチャに基づいたＦＳＤモジュールの実現例を示す。ＲＮＮ－Ｔは、コネクショニスト時系列分類（ＣＴＣ）を拡張したものである。ＲＮＮ－Ｔは、エンコーダ２６３、予測ネットワーク２６５、ジョイントネットワーク２６７、および、ｓｏｆｔｍａｘ関数２６９を備える。

予測ネットワークは、ＣＴＣアーキテクチャにおけるフレーム独立仮定の制限を削除することができる。予測ネットワークは、モデルコンテキスト情報に対する長・短期メモリ（ＬＳＴＭ）ニューラルネットワークを採用することで、元のベクトルｙ＝（ｙ_ｌ，…，ｙ_ｌー１）を高レベル表現ｈ_ｕ ^ｐｒｅｄへと変換することができる。予測ネットワークの出力は、前のコンテキスト情報によって決定される。なお、予測ネットワークの第１の入力はオールゼロのテンソルであり、ｙは非空白単位であることに留意されたい。式（３７）および式（３８）は、ラベルステップｌにおいて予測ネットがどのように機能するかを記述するものである。ジョイントネットワークは、通常、フィードフォワードネットワークであって、

最後に、各出力トークンｋごとの事後値は、ｓｏｆｔｍａｘ演算を適用することによって計算される。

ネットワーク全体は、順方向・逆方向アルゴリズムによって計算されるＲＮＮ－Ｔ損失関数

を最適化することによってトレーニングされる。

ＲＮＮ－Ｔ復号の場合、最も可能性の高い文字のシーケンスがビームサーチアルゴリズムによって生成される。推論中、予測ネットワークへの入力は最後の非空白記号となる。最終出力シーケンスは、最も可能性の高いシーケンス経路内の全ての空白記号を削除することによって得られる。

いくつかの実施形態は、認識の精度が、ＣＴＣおよびアテンションベースのデコーダからのデコーダ出力を組合わせることでさらに改善できるという理解に基づいている。たとえば、エンド・ツー・エンド音声認識の一実現例において、式（３４）のＣＴＣ順方向確率を式（１４）のアテンションベースの確率と組合わせることで、より正確なラベルシーケンス確率を得る。トランスデューサアーキテクチャは、予測ネットワーク２５１と、エンコーダ２５３と、ジョイントネットワーク２５５と、ｓｏｆｔｍａｘ関数２５７とを備える。ここで、エンコーダネットワークは、共同でトレーニングおよび認識を行なうためにアテンションベースのデコーダネットワークと共有され得る。

図３Ａは、いくつかの実施形態に従った、ＲＮＮベースのデコーダとともにアテンションベースのデコーダとしてＬＳＤモジュールを実現するための例示的なアーキテクチャを示す。アテンションベースのデコーダ１１１は、コンテキストベクトル生成器３０１とデコーダニューラルネットワーク３０３とを備える。コンテキストベクトル生成器３０１は、前の時間ステップからのデコーダニューラルネットワーク３０３の隠れデコーダ状態３０９と、前の時間ステップからのコンテキストベクトル生成器３０１のアテンション重み分布３０７と、代替表現１２１、すなわち図１Ａを参照して上述した音響フレーム１０１のストリームの代替表現とを入力として受取る。コンテキストベクトル生成器３０１は、デコーダニューラルネットワーク３０３の前の隠れデコーダ状態と、前のアテンション重み分布３０７と、代替表現１２１とを処理することにより、代替表現１２１の時間フレームにわたるアテンション重み分布を計算するとともに、現在の時間ステップに関するコンテキストベクトル３１１を出力として生成する。コンテキストベクトル生成器３０１は、現在の時間ステップに関するコンテキストベクトル３１１をデコーダニューラルネットワーク３０３に与える。

さまざまな繰返しにおいて、アテンションベースのデコーダ１１１は、さまざまなパーティション３１５、３１７、および３１９を受取る。たとえば、これらパーティションのセットは、最初のパーティション３１５と後続のパーティション３１７および３１９とを含む。アテンションベースのデコーダ１１１は、最初のパーティション３１５を処理して最初のトランスクリプション出力を生成する。アテンションベースのニューラルネットワークが、アテンションベースのネットワークをその内部状態に配する最初のパーティションの処理を終了した後、アテンションベースのデコーダ１１１は、アテンションベースのネットワークの内部状態をリセットすることなく、アテンションベースのネットワークを用いて後続のパーティション３１７、３１９を処理することにより、後続のパーティションのためのトランスクリプション出力を次々に生成する。

実際には、アテンションベースのデコーダ１１１は、前に復号された情報を活用するために、アテンションベースのネットワークの内部状態をリセットすることなくさまざまなパーティションを処理する。アテンションベースのデコーダ１１１は、音声発話の終了を判断すると、その内部状態をリセットするように構成されている。

別の実施形態では、アテンションベースのデコーダ１１１が後続のパーティション３１７、３１９を受取ると、アテンションベースのデコーダ１１１の内部状態は、後続のパーティション３１７、３１９の各々によってリセットされて、後続のパーティション３１７、３１９のためのトランスクリプション出力を次々に生成する。

デコーダニューラルネットワーク３０３は、時間ステップについてのコンテキストベクトル３１１と、前の時間ステップのトランスクリプション出力３１３および隠れデコーダ状態３０９とを入力として受取る。デコーダニューラルネットワーク３０３は、当該時間ステップについてのコンテキストベクトル３１１および前の時間ステップからのトランスクリプション出力３１３を処理する前に、その内部隠れ状態を前の隠れデコーダ状態３０９で初期化することにより、当該時間ステップについてのトランスクリプション出力スコア３１３のセットを出力として生成する。いくつかの実現例においては、デコーダニューラルネットワーク３０３は、ｓｏｆｔｍａｘ出力層を備えたリカレントニューラルネットワーク（ＲＮＮ）である。各トランスクリプション出力スコアは、トランスクリプション出力のセットからのそれぞれのトランスクリプション出力に対応する。たとえば、図１Ａを参照して上述したように、トランスクリプション出力のセットは、１つ以上の自然言語、たとえば英語のアルファベット、アジア言語、キリル言語、およびアラビア言語等の文字を書くために使用されるユニコード文字集合からの文字または一連の文字であってもよい。また、トランスクリプション出力セットは、アラビア数字、スペース文字、および句読点を含み得る。所定のトランスクリプション出力についてのスコアが表わしている尤度は、対応するトランスクリプション出力が発話のトランスクリプションである出力シーケンス内の当該時間ステップにおける現在のトランスクリプション部分である尤度である。

ＡＳＲシステムは、各時間ステップごとにトランスクリプション出力スコア３１３を処理して、発話のトランスクリプションを表わすトランスクリプション出力シーケンスを決定する。たとえば、各時間ステップごとに、音声認識システムは、スコアが最も高いトランスクリプション出力をトランスクリプション出力スコアのセットから選択することにより、トランスクリプション出力シーケンスを求めてもよい。

図３Ｂは、いくつかの実施形態に従った、前の時間ステップの隠れデコーダ状態なしでアテンションベースのデコーダとしてＬＳＤモジュールを実現するための例示的なアーキテクチャを示す。図３Ｂに示すアーキテクチャは、図３Ａに示すアーキテクチャの代替例であり、アテンションベースのデコーダ１１１は、前の時間ステップの隠れデコーダ状態を必要としない別のデコーダニューラルネットワーク構築ブロック３０３に基づき得る。構築ブロック３０３は、代わりに、図３Ｂに示すように、前のトランスクリプション出力３２５を必要とする。いくつかの実現例では、デコーダニューラルネットワーク３２３は、後処理ニューラルネットワーク３２７に供給される前に入力エンコーダ状態シーケンスパーティションにアテンションを向けるために、エンコーダ・デコーダニューラルネットワーク３２１によって用いられるデコーダ状態を生成するために自己アテンションニューラルネットワークを基にしている。後処理ニューラルネットワーク３２７はトランスクリプション出力を生成する。このようなアテンションベースのデコーダニューラルネットワーク構築ブロック１１１は、Ｄ回、繰返すことができ、この場合、トランスクリプション出力は次のデコーダ構築ブロックに入力される。

例示的実現例
図４は、いくつかの実施形態に従ったコンピュータベースの自動音声認識システム４００のブロック図を示す。コンピュータベースの音声認識システム４００は、システム４００を他のシステムおよびデバイスに接続するいくつかのインターフェイスを含む。システム４００は、入力デバイス４０３からの音声発話の特徴を表わす音響フレームのストリームを受けるように構成された入力インターフェイス４０１を含む。入力デバイス４０３はマイクロフォンであり得る。付加的または代替的には、コンピュータベースの音声認識システム４００は、他のさまざまなタイプの入力インターフェイスから音響信号を受取ることができる。いくつかの実施形態では、システム４００は、音響入力デバイス４０３からの音響フレームのストリームに対して構成されたオーディオインターフェイスを含む。いくつかの他の実施形態では、入力インターフェイスは、有線ネットワークおよび無線ネットワークのうちの１つまたはこれらの組合わせであり得るネットワーク４０７を介して、音響フレーム４０９をストリーミングするように構成されたネットワークインターフェイスコントローラ（ＮＩＣ：network interface controller）４０５を含む。

ネットワークインターフェイスコントローラ（ＮＩＣ）４０５は、バス４２３を介してシステム４００をネットワーク４０７に接続することで、システム４００を感知デバイス、たとえば、マイクロホンなどの入力デバイス４０３に接続するように適合される。付加的または代替的には、システム４００はヒューマンマシンインターフェイス（ＨＭＩ：human machine interface）４１１を含み得る。システム４００内のヒューマンマシンインターフェイス４１１は、システム４００をキーボード４１３およびポインティングデバイス４１５に接続する。ここで、ポインティングデバイス４１５は、特に、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含み得る。

システム４００は、格納された命令４１７を実行するように構成されたプロセッサ４２１と、プロセッサによって実行可能な命令を格納するメモリ４１９とを含む。プロセッサ４２１は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ４１９は、ランダムアクセスメモリ（ＲＡＭ：random access memory）、読出専用メモリ（ＲＯＭ：read only memory）、フラッシュメモリ、または他の任意の好適なメモリシステムを含み得る。プロセッサ４２１は、バス４２３を介して１つ以上の入力デバイスおよび出力デバイスに接続することができる。

命令４１７は、いくつかの実施形態に従った、エンド・ツー・エンド音声認識のための方法を実現することができる。そのために、コンピュータメモリ４１９は、エンコーダ１０３と、フレーム同期デコーダ（ＦＳＤ）モジュール１０７と、同期モジュール１０９と、ラベル同期デコーダ（ＬＳＤ）モジュール４３１と、ジョイントスコアリングモジュール１１５と、ゲート４３５と、発話終了モジュール４３７とを格納する。いくつかの実施形態では、自動音声認識システム（ＡＳＲ）４００は、ストリーミング方式／オンライン方式で認識するように構成される。たとえば、ゲート４３５は、音声発話を音響シーケンスのセットに分割するように構成される。たとえば、いくつかの実施形態では、ゲートは、その変換中に音声を分割する入力インターフェイス４０１の一部として実現される。セット内の各音響シーケンスの長さは、同じであってもよく、または、発せられた音声の特徴に基づいて異なっていてもよい。このようにして、ＡＳＲシステム４００は、入力音響シーケンスのトランスクリプションをストリームライン方式で実行する。いくつかの実施形態では、ゲート４３５は、音声発話を音響信号のブロックに分割し、これにより、入力インターフェイスがその時点で１ブロックの音響信号を受取るようにする。たとえば、ゲート４３５は、非音声音響入力を削除する音声活動検出モジュールであってもよい。

エンコーダ１０３は、音声発話の特徴を表わす音響フレームのストリーム４０９を、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに変換するようにトレーニングされる。いくつかの実施形態では、プロセッサ４２１は、エンコーダ状態のシーケンスをフレームごとにＦＳＤモジュール１０７にサブミットするためにエンコーダ状態のシーケンスをサブミットするように構成される。いくつかの実施形態に従うと、ＦＳＤモジュール１０７は、トランスクリプション出力を符号化するエンコーダ状態のシーケンスにおけるエンコーダ状態の位置を決定するようにトレーニングされたコネクショニスト時系列分類（ＣＴＣ）であり得る。いくつかの実施形態では、ＦＳＤモジュール１０７は、符号化済み音響特徴の各エンコーダ状態を連続的に処理して、ＦＳＤモジュール１０７によって維持されるプレフィックスのリストおよび関連スコアを更新するエンコーダ状態を識別するように構成される。各プレフィックスは、復号済みトランスクリプション出力の候補推定に対応する。さらに、いくつかの実施形態では、関連スコアは、プレフィックスのトランスクリプション出力の確率に対応する。いくつかの他の実施形態では、関連スコアは、同じプレフィックスをもたらす全てのトランスクリプション出力確率の合計に対応する。

同期モジュール１０９は、ＦＳＤモジュール１０７によって維持されるプレフィックスのリストの更新に応答して、エンコーダ状態のシーケンスのうち、ＦＳＤモジュール１０７によって識別されたエンコーダ状態を含む部分を選択するように構成される。いくつかの実施形態では、同期モジュール１０９は、識別済みエンコーダ状態の位置に基づいてエンコーダ状態のシーケンスをパーティションのセットに分割し、当該パーティションのセットをＬＳＤモジュール１１１に順次サブミットするように構成される。いくつかの実施形態では、ＬＳＤモジュール１１１はアテンションベースのデコーダであってもよい。

いくつかの実施形態では、ＬＳＤモジュール１１１は、エンコーダ状態のシーケンスのうち選択済み部分を処理して、ＬＳＤモジュール１１１によって維持されるプレフィックスのリストを、トランスクリプション出力についての有望な少なくとも１つの推定で更新するように構成される。ＬＳＤモジュール１１１およびＦＳＤモジュール１０７がプレフィックスの同じリストを処理すると、ＬＳＤモジュールデコーダ１１１とＦＳＤモジュール１０７との間で同期が達成される。さらに、エンコーダ状態のシーケンスのうち選択済み部分を復号することにより、ＦＳＤモジュール１０７による復号の時間とＬＳＤモジュール１１１による復号の時間とを同期させる。

ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７によって維持されるプレフィックスの更新済みリストおよびＬＳＤモジュール１１１によって維持されるプレフィックスの更新済みリストにおける対応するプレフィックスの確率を組合わせて、最適な最高連結確率を有するプレフィックスのジョイントリストを生成するように構成される。さらに、いくつかの実施形態では、ジョイントスコアリングモジュール１１５は、ＦＳＤモジュール１０７によって維持されるプレフィックスのリストをプレフィックスのジョイントリストと置換えて、後続の時間ステップにわたる後続の復号のためにＦＳＤモジュール１０７のプレフィックスとＬＳＤモジュール１１１のプレフィックスとを同期させるように構成される。さらに、いくつかの実施形態では、ジョイントスコアリングモジュール１１５は、最も高いジョイントスコアに対応するプレフィックスを、現在の時間ステップに関する入来ストリームのトランスクリプションの現在の部分として出力するように構成される。

いくつかの実施形態では、メモリ４１９はまた、音声発話の終了を検出するように構成された発話終了モジュール４３７を格納する。発話終了モジュール４３７を実現するために、さまざまな実施形態でさまざまな技術を用いる。たとえば、いくつかの実施形態は、音声アクティビティ検出（ＳＡＤ：speech activity detection）モジュール、または、ＳＡＤと補助エンドポイント検出システムとの組合わせを用いることにより、発話の終了を検出する。

自動音声認識システム４００は、システム４００のトランスクリプション出力を出力するように構成された出力インターフェイス４３９を含む。たとえば、トランスクリプション出力が文字を表わす場合、出力インターフェイス４３９は文字ごとに出力する。同様に、トランスクリプション出力が単語を表わす場合、出力インターフェイス４３９は単語ごとに出力する。付加的または代替的には、一実施形態では、出力インターフェイス４３９は、トランスクリプション出力のセットを蓄積して単語を形成し、音声発話内の各単語を個別に出力するように構成される。さらに、一実施形態では、出力インターフェイスは、各トランスクリプション出力を個々に、または他の出力とともに出力するように構成される。

いくつかの実施形態では、出力インターフェイス４３９は、ディスプレイデバイス４４１上にトランスクリプション出力を表示し、トランスクリプション出力を記憶媒体に格納し、および／または、ネットワーク４０７を介してトランスクリプション出力を送信することができる。ディスプレイデバイス４４１の例は、特に、コンピュータモニタ、テレビ、プロジェクタ、またはモバイルデバイスを含む。システム４００はまた、さまざまなタスクを実行するためにシステム４００を外部デバイス４４５に接続するように適合されたアプリケーションインターフェイス４４３に接続することもできる。

図５は、いくつかの実施形態に従ったＡＳＲシステム１００のデータフロー図を示す。ブロック５０１において、ＡＳＲシステムは、音声発話の一部を受取る。プロセッサはさらに、当該音声発話の一部を、音声発話の音響特徴を表わすフレームのストリームに変換し、音響特徴フレームのストリームをエンコーダモジュールにサブミットするように構成される。エンコーダモジュールは、符号化済み音響特徴フレームのエンコーダ状態のシーケンスを生成する。ブロック５０３において、フレーム同期デコーダ（ＦＳＤ）モジュールは、エンコーダ状態のシーケンスを処理または復号して、ＦＳＤモジュールによって維持されるＦＳＤスコアの関連リストとともにプレフィックスのリストを拡張するエンコーダ状態を識別する。プレフィックスのリストの各プレフィックスは、復号済みトランスクリプション出力の候補推定である。さらに、ＦＳＤスコアのリストの各ＦＳＤスコアは、対応するプレフィックスのトランスクリプション出力の確率に対応する。いくつかの実施形態では、ＦＳＤスコアのリストの各ＦＳＤスコアは、同じプレフィックスをもたらす全てのトランスクリプション出力確率の合計に対応する。したがって、ＦＳＤモジュールは、文字、ビット、単語などのトランスクリプション出力を符号化するエンコーダ状態のシーケンスにおけるエンコーダ状態の位置に関する情報を与える。

ブロック５０５において、ＦＳＤモジュールによって識別されたエンコーダ状態の位置情報は、エンコーダ状態のシーケンスのうち、ＦＳＤモジュールによって識別されたエンコーダ状態を含む部分を選択するために同期モジュールによって用いられる。同期モジュールはさらに、ＦＳＤモジュールによって生成された現在のプレフィックスのリストとエンコーダ状態のシーケンスのうち選択済み部分とをラベル同期デコーダ（ＬＳＤ）モジュールにサブミットする。これにより、トランスクリプション出力の尤度を推定するために、ＬＳＤモジュールがＦＳＤモジュールと同じプレフィックスのリストについて処理することを確実にする。したがって、プレフィックスドメインにおけるＦＳＤモジュールとＬＳＤモジュールとの同期が達成される。さらに、ＬＳＤがＦＳＤモジュールとほぼ同時にプレフィックスのリストに関するＬＳＤスコアのリストを出力することを確実にするために、ブロック５０７において、エンコーダ状態のシーケンスのうち選択済み部分のみがＬＳＤモジュールによって復号される。これにより、ＬＳＤモジュールが、音声発話全体ではなく、音声発話の選択済み部分のみにアテンションを配することが可能となり、これにより、ＬＳＤモジュールの出力遅延を低減させる。したがって、時間ドメインにおけるＦＳＤモジュールとＬＳＤモジュールとの同期が達成される。

さらに、ブロック５０９において、ジョイントスコアリングモジュールは、ＦＳＤモジュールおよびＬＳＤモジュールの両方からプレフィックスのリストならびに関連するＦＳＤスコアおよびＬＳＤスコアを受取る。ジョイントスコアリングモジュールは、ＦＳＤモジュールによって維持されるプレフィックスのリストとＬＳＤモジュールによって維持されるプレフィックスのリストとにおける対応するプレフィックスのＦＳＤスコアとＬＳＤスコアとを組合わせて、プレフィックスのジョイントリストおよびジョイントスコアの関連リストを生成する。加えて、外部言語モデル１２２によって生成されるプレフィックス確率推定値は、プレフィックス候補推定値をさらに改善するために、重み付けされ得るとともに対応するジョイントスコアに追加され得る。ブロック５１１において、ジョイントスコアリングモジュールは、ＦＳＤモジュールによって維持されるプレフィックスのリストを、可能性の低いプレフィックス候補を削除して復号プロセスを加速させるためにプルーニングされるプレフィックスのジョイントリストと置換える。これにより、さらに、後続の時間ステップにわたってエンコーダ状態を後で復号するために、ＦＳＤモジュールおよびＬＳＤモジュールについて可能性の高いプレフィックス候補のリストを同期させる。さらに、ブロック５１３において、ジョイントスコアリングモジュールは、ジョイントスコアが最も高いプレフィックスを、音響フレームの入来ストリームのトランスクリプションの現在の部分として出力する。

図６は、いくつかの実施形態に従ったプレフィックスビームサーチモジュールを用いたＦＳＤモジュールの実現例の概略図を示す。この例では、ＦＳＤモジュールは、各エンコーダ状態ごとにトランスクリプション出力確率６１０を出力するＣＴＣニューラルネットワーク２１３を含む。プレフィックスビームサーチモジュール６２０は、ＣＴＣニューラルネットワークの出力６１０をサーチして、閾値を上回るＦＳＤスコアとともにＦＳＤプレフィックスの候補リスト６３０を生成するように構成される。この実現例では、各ＦＳＤスコアは、繰返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計である。

この例では、ＣＴＣネットワークは、オーディオ入力からおよび／またはエンコーダ状態から直接トランスクリプトを予測することができる。ＣＴＣネットワークはＣＴＣ行列６１０を生成することができる。ここで、列は時間ステップに対応し、各行はアルファベットの文字に対応する。各列は合計すると１となり、ＣＴＣ行列における全てのエントリはゼロよりも大きいので、ＣＴＣ行列は各時間ステップごとのアルファベットにわたる分布であり、本質的には文字予測である。この例では、アルファベットは、少なくとも文字Ａ～Ｚ、スペース（＿）、および空白トークン（－）を含み、後者はＣＴＣネットワークによって必要とされるものである。いくつかの実現例では、判読性のために低い確率をゼロに丸める。

これを復号する最も容易な方法は、単に、各時間ステップごとに最高確率を有する文字を採用することであり、これは最大復号またはグリーディ復号と呼ばれる方法である。しかしながら、各時間ステップごとに最高確率を有する文字を採用することは単純である。なぜなら、短縮ルールに基づき、全てが同じラベルをもたらす複数の経路をＣＴＣ行列を通じてトレースすることができるからである。

そのために、いくつかの実施形態では、プレフィックスビームサーチモジュール６２０を用いて、最高確率だけでなく、繰り返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計も、考慮に入れる。このようにして、プレフィックスビームサーチモジュールは、ジョイントスコアに従ってプルーニングされたＦＳＤプレフィックスの現在のリストのＦＳＤスコアに基づいて、ＦＳＤプレフィックスの候補リストのＦＳＤスコアを計算する。いくつかの実現例では、プレフィックスビームサーチモジュール６２０はまた、１つ以上の外部言語モデル１２２によって生成されるスコアを用いる。

図７は、いくつかの実施形態に従った、システムを実現するために各種構成において使用することができるいくつかのコンポーネントを示すブロック図である。たとえば、コンポーネント７００は、環境７１１から音響信号７０９を含むデータを収集する、音響センサ等のセンサ７０３または複数のセンサと通信するハードウェアプロセッサ７０１を含み得る。さらに、センサ７０３は、音響入力を音響信号７０９に変換することができる。ハードウェアプロセッサ７０１は、コンピュータストレージメモリ、すなわちメモリ７１３と通信し、このため、メモリ７１３は、ハードウェアプロセッサ７０１によって実現可能な、アルゴリズム、命令、およびその他のデータを含む、格納データを含む。

任意には、ハードウェアプロセッサ７０１を、データソース７１７、コンピュータデバイス７１９、携帯電話デバイス７２１、およびストレージデバイス７２３と通信するネットワーク７１５に接続することができる。さらに、任意には、ハードウェアプロセッサ７０１を、クライアントデバイス７２７に接続されたネットワーク対応サーバ７２５に接続することができる。ハードウェアプロセッサ７０１を、任意には、外部メモリデバイス７２９および／または送信機７３１に接続することができる。さらに、スピーカのテキストは、特定のユーザが意図する用途７３３に応じて出力することができる。たとえば、いくつかのタイプのユーザの用途は、モニタまたはスクリーン等の１つ以上のディスプレイデバイスにテキストを表示すること、または、さらに分析するためにスピーカのテキストをコンピュータ関連デバイスに入力することなどを、含み得る。

ハードウェアプロセッサ７０１が特定用途の要件に応じて１以上のハードウェアプロセッサを含み得るものであり、当該プロセッサは内部プロセッサでも外部プロセッサでもよいということが、意図されている。当然ながら、他のデバイスの中でも特に出力インターフェイスおよびトランシーバを含むその他のコンポーネントをコンポーネント７００に組込んでもよい。

ネットワーク７３５は、非限定的な例として１つ以上のローカルエリアネットワーク（ＬＡＮ）および／またはワイドエリアネットワーク（ＷＡＮ）を含み得る可能性もある。ネットワーク環境は、企業規模のコンピュータネットワーク、イントラネット、およびインターネットと同様であってもよい。上述のコンポーネントのすべてについて、コンポーネント７００とともに使用されるクライアントデバイス、ストレージコンポーネント、およびデータソースの数は任意であり得ることが意図されている。各々は、単一のデバイス、または分散環境において協働する複数のデバイスを含み得る。さらに、コンポーネント７００は、１つ以上のデータソース７１７を含み得る。データソース７１７は、音声認識ネットワークをトレーニングするためのデータリソースを含む。データソース７１７が提供するデータは、トランスクライブされたデータおよびトランスクライブされていないデータなどの、ラベル付けされたデータおよびラベル付けされていないデータを含み得る。たとえば、ある実施形態において、データは、１つ以上の音を含むとともに、音声認識ネットワークを初期化するために使用され得る対応するトランスクリプション情報またはラベルも含み得る。

さらに、データソース７１７内のラベル付けされていないデータは、１つ以上のフィードバックループによって与えることができる。たとえば、検索エンジン上で実行される発話された検索クエリからの使用データは、トランスクライブされていないデータとして与えることができる。データソースの他の例は、限定ではなく例として、ストリーミングサウンドもしくはビデオ、ウェブクエリ、モバイルデバイスカメラもしくはオーディオ情報、ウェブカムフィード、スマートグラスおよびスマートウォッチフィード、顧客ケアシステム、セキュリティカメラフィード、ウェブ文書、カタログ、ユーザフィード、ＳＭＳログ、インスタントメッセージングログ、発話単語トランスクリプト、ボイスコマンドもしくは撮影画像（たとえば深度カメラ画像）等のゲーミングシステムユーザインタラクション、ツイート、チャットもしくはビデオコール記録、または、ソーシャルネットワーキング媒体を含む、各種発話言語の音声または画像ソースを含み得る。使用される特定のデータソース７１７は、データが本質的に特定クラスのデータ（たとえば、データは、例としてマシンシステム、エンターテイメントシステムを含む特定種類の音だけに関連する）であるかまたは一般的なもの（クラス固有のものではない）であるかを含めて、アプリケーションに基づいて決定されてもよい。

コンポーネント７００は、第三者デバイスを含むかまたはそれに接続することができる。第三者デバイスは、コンピューティングデバイス上に自動音声認識（ＡＳＲ）システムが備わっていることが重要である場合等に、任意のタイプのコンピューティングデバイスを含み得る。たとえば、第三者デバイスは、コンピュータデバイス７１９またはモバイルデバイス７２１を含み得る。ユーザデバイスは、携帯情報端末（ＰＤＡ）や、モバイルデバイス、たとえばスマートフォン、スマートウォッチ、スマートグラス（または他のウェアラブルスマートデバイス）、拡張現実ヘッドセット、仮想現実ヘッドセットなどとして実現され得るものであることが意図されている。さらに、ユーザデバイスは、タブレット等のラップトップ、リモートコントロール、エンターテイメントシステム、車両コンピュータシステム、埋込型システムコントローラ、電気器具、ホームコンピュータシステム、セキュリティシステム、家庭用電子機器、または他の同様の電子機器等であってもよい。一実施形態において、クライアントデバイス７２７は、デバイス上で動作している、本明細書に記載のＡＳＲシステムが使用可能なオーディオ情報および画像情報等の入力データを受取ることができる。たとえば、第三者デバイスは、オーディオ情報を受取るためのマイクもしくはライン入力端子、映像情報もしくは画像情報を受取るためのカメラ、または、そのような情報をインターネットもしくはデータソース７１７などの別のソースから受取るための通信コンポーネント（たとえばＷｉ－Ｆｉ機能）を、有し得る。

音声認識ネットワークを使用するＡＳＲモデルは、入力されたデータを処理することにより、コンピュータで使用可能な情報を決定することができる。たとえば、ユーザがマイクに向かって話したクエリを処理することにより、たとえば質問が出された場合のクエリの内容を判断することができる。例としての第三者デバイス７１９、７２１は、任意には、コンポーネント７００に含まれることで、ディープニューラルネットワークモデルを展開し得る環境を示すことができる。さらに、本開示のいくつかの実施形態は、第三者デバイス７３７、７３９を含まない場合もある。たとえば、ディープニューラルネットワークモデルは、サーバ上にあっても、クラウドネットワーク、システム、または同様の構成内にあってもよい。

ストレージ７２３に関して、ストレージ７２３は、データ、コンピュータ命令（たとえばソフトウェアプログラム命令、ルーチン、もしくはサービス）、および／または本明細書に記載の技術の実施形態で使用されるモデルを含む情報を格納することができる。たとえば、ストレージ７２３は、１つ以上のデータソース７１７からのデータ、１つ以上のディープニューラルネットワークモデル、ディープニューラルネットワークモデルを生成しトレーニングするための情報、および１つ以上のディープニューラルネットワークモデルから出力されたコンピュータ使用可能情報を格納することができる。

実施形態
本明細書は、具体例としての実施形態のみを提供し、開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、具体例としての実施形態の以下の説明は、具体例としての１つ以上の実施形態を実現すること可能にする説明を、当業者に提供するであろう。添付の請求項に記載されている開示された主題の精神および範囲から逸脱することなく、要素の機能および構成に対してなされ得る各種変更が意図されている。

具体的な詳細事項は、以下の記載において、実施形態の十分な理解のために与えられる。しかしながら、これらの具体的な詳細事項がなくても実施形態を実行できることを、当業者は理解できる。たとえば、開示された主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態で構成要素として示される場合もある。他の例では、実施形態を不明瞭にしないよう、周知のプロセス、構造、および技術は、不必要な詳細事項なしに示されることがある。さらに、各種図面における同様の参照番号および名称は同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される場合がある。フローチャートは動作を逐次プロセスとして説明し得るが、動作の多くは並列にまたは同時に実行することができる。加えて、動作の順序は入れ替え可能である。プロセスは、その動作が完了したときに終了してもよいが、論じられていないかまたは図に含まれていない追加のステップを有する場合がある。さらに、具体的に記載されているいずれかのプロセスにおけるすべての動作がすべての実施形態に起こり得る訳ではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数に関数を戻すことに対応し得る。

さらに、開示された主題の実施形態は、少なくとも部分的に手動または自動のいずれかで実現され得る。手動または自動による実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合わせを用いることによって行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサは必要なタスクを実行し得る。

さらに、本開示の実施形態および本明細書に記載の機能的動作は、デジタル電子回路において、有形で実装されるコンピュータソフトウェアもしくはファームウェアにおいて、本明細書に開示される構造およびそれらの構造的均等物を含むコンピュータハードウェアにおいて、または、それらのうちの１つ以上の組合わせにおいて、実現することができる。さらに、本開示のいくつかの実施形態は、１つ以上のコンピュータプログラムとして、すなわちデータ処理装置が実行するためにまたはデータ処理装置の動作を制御するために、有形の非一時的なプログラムキャリア上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして、実現することができる。またさらに、プログラム命令は、人為的に生成された伝搬信号上に、たとえば、マシンによって生成された電気信号、光学信号または電磁信号上に、符号化することができる。伝播信号は、データ処理装置が実行するために適切な受信装置に送信される情報を符号化するために生成される。コンピュータ記憶媒体は、マシン読取可能なストレージデバイス、マシン読取可能なストレージ基板、ランダムアクセスメモリデバイスもしくはシリアルアクセスメモリデバイス、またはそれらの１つ以上の組合わせであってもよい。

本開示の実施形態に従うと、「データ処理装置」という語は、例として、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するすべての種類の装置、デバイス、およびマシンを包含し得る。装置は、専用論理回路、たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含み得る。この装置はまた、ハードウェアに加えて、当該コンピュータプログラムの実行環境を生成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つ以上の組合わせを構成するコード、を含み得る。

（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれ得るかまたは説明され得る）コンピュータプログラムは、コンパイルされた言語もしくは解釈された言語、または宣言的言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとして、任意の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応し得るが、対応していなくてもよい。プログラムは、他のプログラムまたはデータを保持するファイルの一部に、たとえばマークアップ言語文書に格納された１つ以上のスクリプト、対象プログラム専用の単一ファイル、またはコーディネートした複数のファイル、たとえば１つ以上のモジュール、サブプログラム、またはコードの一部を格納するファイルに、格納することができる。コンピュータプログラムは、１つのコンピュータ上で、または１つの場所に位置するかもしくは複数の場所に分散され通信ネットワークで相互に接続された複数のコンピュータ上で実行されるように展開することができる。コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理装置に基づいていてもよい。一般的に、中央処理装置は、読出専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受取るだろう。コンピュータの必須要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般的に、コンピュータはまた、データを格納するための１つ以上の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、または、それからデータを受取るかまたはそれにデータを転送するかまたはその両方を行なうように、上記ディスクに作動的に結合される。しかしながら、コンピュータはそのようなデバイスを有していなくてもよい。さらに、コンピュータは、別のデバイスに埋め込むことができる。たとえば数例を挙げると、携帯電話、携帯情報端末（ＰＤＡ）、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）受信機、または携帯型ストレージデバイス、たとえばユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに、埋め込むことができる。

ユーザとやり取りできるようにするために、ユーザに情報を表示するためのディスプレイデバイス、たとえばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタと、ユーザがコンピュータに入力を提供できるようにするキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で、本明細書に記載の主題の実施形態が実現されてもよい。他の種類のデバイスを用いてユーザとやり取りできるようにしてもよい。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受けることができる。加えて、コンピュータは、ユーザが使用するデバイスに文書を送信し当該デバイスから文書を受取ることによって、たとえばユーザのクライアントデバイス上のウェブブラウザに、ウェブブラウザから受取った要求に応じてウェブページを送信することによって、ユーザとのやり取りを実現することができる。

本明細書に記載の主題の実施形態は、たとえばデータサーバとしてバックエンドコンポーネントを含むか、または、ミドルウェアコンポーネント、たとえばアプリケーションサーバを含むか、または、フロントエンドコンポーネント、たとえば本明細書に記載の主題の実装形態とユーザがやり取りできるようにするグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含むか、または、１つ以上のそのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組合わせを含む、コンピューティングシステムにおいて実現することができる。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば通信ネットワークにより、相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、たとえばインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含み得る。クライアントおよびサーバは、一般的には互いから離れており、典型的には通信ネットワークを通してやり取りする。クライアントとサーバとの関係は、各コンピュータ上で実行されるとともにクライアントとサーバとの相互の関係を有するコンピュータプログラムにより生じるものである。

本開示をいくつかの好ましい実施形態を用いて説明してきたが、他のさまざまな適合および修正が本開示の精神および範囲の中で実施可能であることが理解されねばならない。したがって、そのようなすべての変形および変更を本開示の真の精神および範囲内に収めるように網羅することが、添付の特許請求の範囲の局面である。

Claims

コンピュータベースの自動音声認識システムであって、前記システムは、前記システムのモジュールを実現する格納された命令と連結されたプロセッサを用い、前記命令を実行する前記プロセッサは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化し、
終了条件が満たされるまで、フレーム同期デコーダ（ＦＳＤ：frame-synchronous decoder）モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理す
るように構成され、前記ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成し、前記候補リスト内の各ＦＳＤプレフィックスは、前記ＦＳＤモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記ＦＳＤモジュールによる推定であり、ＦＳＤプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するＦＳＤスコアによって定義され、前記ＦＳＤプレフィックスの候補リストを生成することに応答して、前記プロセッサは、
前記エンコーダ状態のうち、前記ＦＳＤモジュールによって識別されたエンコーダ状態を含む部分を選択し、前記エンコーダ状態の選択済み部分を処理するようにラベル同期デコーダ（ＬＳＤ：label-synchronous decoder）モジュールをトリガして、前記ＬＳＤモ
ジュールに従って、前記ＦＳＤプレフィックスの候補リスト内の前記ＦＳＤプレフィックスが、前記エンコーダ状態の選択済み部分における前記復号済みトランスクリプション出力である確率を定義するＬＳＤスコアを決定し、
対応するＦＳＤスコアとＬＳＤスコアとの組合わせによって定義されるジョイントスコアに従って前記ＦＳＤプレフィックスの候補リストをプルーニングし、
前記ＦＳＤプレフィックスの現在のリストを前記ＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成される、システム。
プルーニングするステップにより、最高ジョイントスコアを有する前記ＦＳＤプレフィックスの候補リストにおいてｎ個の最適なＦＳＤプレフィックスが保存されるように、前
記ＦＳＤプレフィックスの現在のリストのサイズは固定されており、前記ＦＳＤプレフィックスの候補リストのサイズよりも小さく、ｎは、前記ＦＳＤプレフィックスの現在のリストのサイズである、請求項１に記載のシステム。
前記プロセッサは、置換えられた前記ＦＳＤプレフィックスの現在のリストにおけるＦＳＤスコアを置換えることなく、ＦＳＤプレフィックスのみを置換える、請求項１に記載のシステム。
前記プロセッサは、最高ジョイントスコアを有する前記ＦＳＤプレフィックスを、音響フレームの前記入来ストリームのうち前記エンコーダ状態のシーケンスの部分に対応する部分についての前記復号済みトランスクリプション出力として出力するように構成される、請求項１に記載のシステム。
前記ＦＳＤモジュールは、
各エンコーダ状態ごとにトランスクリプション出力確率を出力するコネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）ニューラルネットワーク
と、
閾値を上回るＦＳＤスコアを有する前記ＦＳＤプレフィックスの候補リストを生成するために前記ＣＴＣニューラルネットワークの出力をサーチするように構成されたプレフィックスビームサーチモジュールとを備え、各ＦＳＤスコアは、繰返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計であり、前記プレフィックスビームサーチモジュールは、前記ジョイントスコアに従ってプルーニングされた前記ＦＳＤプレフィックスの現在のリストの前記ＦＳＤスコアに基づいて、前記ＦＳＤプレフィックスの候補リストの前記ＦＳＤスコアを計算する、請求項１に記載のシステム。
前記ＦＳＤモジュールは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ：recurrent neural network-transducer）アーキテクチャを有するニューラルネ
ットワークを含む、請求項１に記載のシステム。
前記ＬＳＤモジュールは、アテンションベースのデコーダニューラルネットワークを含む、請求項１に記載のシステム。
前記ＬＳＤモジュールは、入力としてサブミットされたエンコーダ状態の各パーティションごとにＬＳＤプレフィックスのリストおよび対応するＬＳＤスコアを決定し、前記ＦＳＤプレフィックスと一致する前記ＬＳＤプレフィックスについてのみＬＳＤスコアを出力する、請求項７に記載のシステム。
前記システムのモジュールは同期モジュールを含み、前記同期モジュールは、前記エンコーダ状態のうち、前記ＦＳＤモジュールによって識別された前記新しいトランスクリプション出力を含む部分を処理するように前記ＬＳＤモジュールをトリガすることによって、および、前記ＦＳＤモジュールによって生成された前記ＦＳＤプレフィックスについての前記ＬＳＤスコアを前記ＬＳＤモジュールが推定することを可能にすることによって、時間ドメインおよびプレフィックスドメインにおいて前記ＦＳＤモジュールと前記ＬＳＤモジュールとを同期させるように構成される、請求項１に記載のシステム。
前記同期モジュールは、前記エンコーダ状態のシーケンスのうち前記シーケンスの先頭からルックアヘッドエンコーダ状態までの部分を選択し、前記ルックアヘッドエンコーダ状態は、前記ＦＳＤモジュールによって識別された前記エンコーダ状態の位置を順方向に固定シフトだけシフトすることによって決定される、請求項９に記載のシステム。
前記同期モジュールは、前記エンコーダ状態のシーケンスのうち、前記ＦＳＤモジュールによって識別された前記エンコーダ状態の位置に対して予め定められた数のルックアヘッドエンコーダ状態およびルックバックエンコーダ状態を含む部分を選択する、請求項９に記載のシステム。
前記システムのモジュールは、トリガ型アテンション（ＴＡ：triggered attention）
ニューラルネットワークを形成するために前記ＦＳＤモジュールおよび前記ＬＳＤモジュールと共同でトレーニングされるエンコーダニューラルネットワークを含む、請求項１に記載のシステム。
前記エンコーダは、並列時間遅延型長・短期メモリ（ＰＴＤＬＳＴＭ：parallel time-delayed long short-term memory）ストリームに基づく単方向エンコーダニューラルネットワークを含む、請求項１２に記載のシステム。
前記エンコーダおよび前記ＬＳＤモジュールはトランスフォーマアーキテクチャを用いて実現される、請求項１２に記載のシステム。
自動音声認識を実行するためにプロセッサによって実行可能なモジュールを含むプログラムが組込まれた非一時的なコンピュータ可読記憶媒体であって、前記モジュールは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するように構成されたエンコーダと、
フレーム同期デコーダ（ＦＳＤ）モジュールとを備え、前記ＦＳＤモジュールは、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理して、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成するように構成され、前記候補リスト内の各ＦＳＤプレフィックスは、前記ＦＳＤモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記ＦＳＤモジュールによる推定であり、ＦＳＤプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するＦＳＤスコアによって定義されるものであり、前記モジュールはさらに、
前記エンコーダ状態のうち、前記ＦＳＤモジュールによって識別された前記エンコーダ状態を含む部分を選択するように構成される同期モジュールと、
ラベル同期デコーダ（ＬＳＤ）モジュールと、
ジョイントスコアリングモジュールとを備え、前記ＬＳＤモジュールは、前記エンコーダ状態の選択済み部分を処理し、前記ジョイントスコアリングモジュールは、前記ＦＳＤプレフィックスの前記ＦＳＤスコアを対応するＬＳＤスコアと連結するように構成されており、前記対応するＬＳＤスコアは、前記ＬＳＤモジュールに従って、前記ＦＳＤプレフィックスが前記復号済みトランスクリプション出力である確率を定義するものであり、
前記ジョイントスコアリングモジュールは、ジョイント型ＦＳＤスコアおよびＬＳＤスコアに従って前記ＦＳＤプレフィックスをプルーニングし、前記ＦＳＤプレフィックスの現在のリストを前記ＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するように構成され、前記モジュールはさらに、
出力インターフェイスを備え、前記出力インターフェイスは、最高ジョイントスコアを有する前記ＦＳＤプレフィックスを、前記ＦＳＤモジュールによって処理された前記エンコーダ状態についての音響フレームの前記入来ストリームの前記復号済みトランスクリプション出力として出力するように構成される、媒体。
前記同期モジュールは、前記エンコーダ状態のうち、前記ＦＳＤモジュールによって識
別された前記新しいトランスクリプション出力を含む部分を処理するように前記ＬＳＤモジュールをトリガすることによって、および、前記ＦＳＤプレフィックスを前記ＬＳＤモジュールに渡すことで前記ＬＳＤモジュールが前記ＦＳＤプレフィックスについての前記ＬＳＤスコアを推定することを可能にすることによって、時間ドメインおよびプレフィックスドメインにおいて前記ＦＳＤモジュールと前記ＬＳＤモジュールとを同期させるように構成される、請求項１５に記載の媒体。
前記ＦＳＤモジュールは、
各エンコーダ状態ごとにトランスクリプション出力確率を出力するコネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）ニューラルネットワーク
と、
閾値を上回るＦＳＤスコアを有する前記ＦＳＤプレフィックスの候補リストを生成するために前記ＣＴＣニューラルネットワークの出力をサーチするように構成されたプレフィックスビームサーチモジュールとを備え、各ＦＳＤスコアは、繰返されたラベルを折り畳んで空白記号を削除した後に同じプレフィックスをもたらす全てのトランスクリプション出力シーケンスの全確率に関する合計であり、前記プレフィックスビームサーチモジュールは、前記ジョイント型ＦＳＤスコアおよびＬＳＤスコアに従ってプルーニングされた前記ＦＳＤプレフィックスの現在のリストの前記ＦＳＤスコアに基づいて、前記ＦＳＤプレフィックスの候補リストの前記ＦＳＤスコアを計算し、
前記ＬＳＤモジュールは、アテンションベースのデコーダニューラルネットワークを含む、請求項１５に記載の媒体。
前記モジュールはさらに、
前記ＦＳＤプレフィックスの候補リストをスコアリングするように構成された外部言語モデルを含み、前記ジョイントスコアリングモジュールは、前記外部言語モデルによって決定されたスコアで前記ジョイント型ＦＳＤスコアおよびＬＳＤスコアを更新し、更新された前記ジョイント型ＦＳＤスコアおよびＬＳＤスコアに基づいて前記ＦＳＤプレフィックスの候補リストをプルーニングする、請求項１５に記載の媒体。
自動音声認識のための方法であって、前記方法は、前記方法を実現する格納された命令と連結されたプロセッサを用い、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記方法のステップは、
音声発話の特徴を表わす音響フレームの入来ストリームを、符号化済み音響特徴フレームのエンコーダ状態のシーケンスに符号化するステップと、
終了条件が満たされるまで、フレーム同期デコーダ（ＦＳＤ）モジュールで、符号化済み音響特徴フレームの各エンコーダ状態を連続的に処理するステップとを備え、前記ＦＳＤモジュールは、新しいトランスクリプション出力に関する情報を搬送するエンコーダ状態を識別することに応答して、ＦＳＤプレフィックスの現在のリストを拡張して、ＦＳＤプレフィックスの候補リストおよび対応するＦＳＤスコアを生成し、前記候補リスト内の各ＦＳＤプレフィックスは、前記ＦＳＤモジュールによって処理された前記エンコーダ状態における復号済みトランスクリプション出力についての、前記ＦＳＤモジュールによる推定であり、ＦＳＤプレフィックスが前記復号済みトランスクリプション出力である確率は、前記対応するＦＳＤスコアによって定義されるものであり、前記方法のステップはさらに、
前記エンコーダ状態のうち、前記ＦＳＤモジュールによって識別される前記エンコーダ状態を含む部分を選択するステップと、
エンコーダ状態の選択済み部分を処理するようにラベル同期デコーダ（ＬＳＤ）モジュールをトリガして、前記ＬＳＤモジュールに従って、前記ＦＳＤプレフィックスの候補リストにおける前記ＦＳＤプレフィックスが、前記エンコーダ状態の選択済み部分における前記復号済みトランスクリプション出力である確率を定義するＬＳＤスコアを決定するス
テップと、
対応するＦＳＤスコアとＬＳＤスコアとの組合わせによって定義されるジョイントスコアに従って前記ＦＳＤプレフィックスの候補リストをプルーニングするステップと、
前記ＦＳＤプレフィックスの現在のリストを前記ＦＳＤプレフィックスのプルーニング済みリストと置換えて、次のトランスクリプション出力のための復号を継続するステップとを備える、方法。
最高ジョイントスコアを有する前記ＦＳＤプレフィックスを、音響フレームの前記入来ストリームのうち前記エンコーダ状態のシーケンスの部分に対応する部分についての前記復号済みトランスクリプション出力として出力するステップをさらに含む、請求項１９に記載の方法。