JP2023544336A

JP2023544336A - 多言語発話認識フレームワークのためのシステム及び方法

Info

Publication number: JP2023544336A
Application number: JP2023519865A
Authority: JP
Inventors: ワン，グワーンセン; ホンホイ，チュウ; インドラウィナータ，ジェンタ
Original assignee: セールスフォースインコーポレイテッド
Priority date: 2020-10-02
Filing date: 2021-10-01
Publication date: 2023-10-23
Also published as: EP4193356A1; WO2022072782A1; US20220108688A1; US11798534B2; CN116324972A

Abstract

本明細書に記載される実施形態は、モデルの一般化を改善し、ロングテール問題を緩和するために、統合されたエンド・ツー・エンド訓練として、適応及び調整の両方の方法を組み合わせる多言語発話認識モデルに対するＡ２（Ａｄａｐｔ－ａｎｄ－Ａｄｊｕｓｔ）メカニズムを提供する。具体的には、多言語言語モデルｍＢＥＲＴが利用され、自己回帰型トランスフォーマデコーダに変換される。追加的に、クロスアテンションモジュールが、テキスト空間に加えて音響空間を探索するために、ｍＢＥＲＴのセルフアテンション層の上でエンコーダに追加される。エンコーダとｍＢＥＲＴデコーダの連動した訓練が、発話とテキストの間の意味的ギャップを埋めることができる。

Description

本開示は、２０２１年１月２９日に出願された米国特許出願第１７／１６２，６２４号に対する優先権を主張し、同出願は、２０２０年１０月２日に出願された米国仮出願第６３／０８６，７２０号に対する優先権主張し、両方とも、それらの全体が参照により本明細書に明示的に組み込まれる。

関連技術

本開示は、一般に、機械学習モデル及びニューラルネットワークに関し、より具体的には、多言語発話認識のためのエンド・ツー・エンドのトランスフォーマベースのマルチタスク学習フレームワークに関する。

エンド・ツー・エンド（Ｅ２Ｅ）発話（ｓｐｅｅｃｈ）認識システムは、多言語発話認識タスクを扱うために適用されてきた。Ｅ２Ｅシステムは、言語依存の語彙、音素単位、及び言語モデルの必要性を排除する。Ｅ２Ｅベースの多言語システムの場合、単一のネットワークは、全ての標的言語でプールされたデータセットから訓練され得る。単言語システムと比較して、多言語モデルは、言語間のパラメータ共有と知識トランスファーを可能にし、これは、すべての言語、特に低リソース言語に有益であることが示されている。しかし、Ｅ２Ｅベースの多言語発話認識訓練において、１つの課題は、ロングテールデータ分散問題としても知られているデータ不均衡問題である。具体的には、現実世界の多言語データの場合、英語のようないくつかの主要な支配言語では、低リソース言語よりも多くの訓練サンプルが存在し、多言語モデルが支配言語に偏ることになる。

したがって、実世界のアンバランス訓練データを用いた多言語モデルを改善する必要性がある。

本明細書に記載される実施形態による、エンド・ツー・エンドの多言語発話認識のための適応及び調整フレームワークのアーキテクチャの簡略化された図を示す。

本明細書に記載されるいくつかの実施形態による、図１に示すエンコーダの構造を示す簡略化された図を提供する。

本明細書に記載されるいくつかの実施形態による、図１に示すデコーダの構造を示す簡略化された図を提供する。

本明細書に記載される実施形態による、予備訓練された多言語モデルｍＢＥＲＴからトランスフォーマデコーダへのパラメータトランスファーを示す簡略化された図である。

本明細書に記載される実施形態による、言語アダプタ内のワークフローを示す例示的な図を示す。本明細書に記載される実施形態による、図１及び図２Ａ～図２Ｂに示す言語アダプタの例示的な構造を示す。

本明細書に記載される実施形態による、図１に示す調整モジュールの例示的な動作を示す例示的な図を提供する。

いくつかの実施形態による、多言語発話認識のためのエンド・ツー・エンドトランスフォーマフレームワークを実装するための計算デバイスの簡略図である。

本明細書に記載される実施形態による、図１に示す多言語フレームワークによって実装されるプロセスフローを示す例示的な疑似コードセグメントを提供する。本明細書に記載される実施形態による、例示的な疑似コード・グメントに対応する例示的な論理フロー図を提供する。本明細書に記載される実施形態による、例示的な疑似コード・グメントに対応する例示的な論理フロー図を提供する。

本明細書に記載される一実施形態による、訓練データセットに対する文字誤り率（ＣＥＲ）に関する例示的なテスト結果の表を提供する。

本明細書に記載される一実施形態による、ｍＢＥＲＴの有効性を示すｍＢＥＲＴに対するアブレーション研究結果の表を提供する。

本明細書に記載される一実施形態による、言語アダプタの例示的なアブレーション研究の表を提供する。

本明細書に記載される一実施形態による、共通言語アダプタの有効性を示す言語アダプタの例示的なアブレーション研究結果の表を提供する。

本明細書に記載される一実施形態による、異なるモデルによる訓練及び推論位相ロジット調整を示す例示的な性能の表を提供する。

図及び付録では、同一の呼称を有する要素は、同じ又は同様の機能を有する。

多言語自動発話認識（ＡＳＲ）モデルは、しばしば多言語を認識するために使用され得る。実際のアプリケーションでは、多言語ＡＳＲモデルはしばしば訓練データの不均衡問題に遭遇し、これは、例えば、英語のようなリソースの豊富な言語は豊富な訓練データを有する一方、大部分の低リソース言語は様々な量の訓練データを有するというロングテール分布課題として知られている。このような不均衡なデータ設定は、訓練データの分布がしばしばかなり歪んでいる可能性があるため、マルチタスク訓練についての多数のオープンな課題を提起する。したがって、このような不均衡な訓練データセットは、少なくとも２つの現実世界のシナリオによって引き起こされることがある。すなわち、第１に、キルギス語、スウェーデン語、トルコ語のようなリソースの乏しい言語では、非常に限られた音声サンプルしか利用できないが、同時に、英語、フランス語、スペイン語のようなリソースの豊富な言語からは、膨大な量のデータが存在し、第２に、いくつかのラベルは、単言語の設定であっても、有意により頻繁に現れるため、書記素又はサブワードラベルは、多言語ＡＳＲにおいてロングテール分布に従う。さらに、多言語システムは、中国語又はキリル語のような、ラテン語アルファベット以外の書字スクリプトを有する言語を含む可能性があり、これは、歪みをさらに悪化させる。

偏った訓練データ配分問題に対処するために、主要な課題のうちの１つはクラスの不均衡問題であり、例えば、支配言語に対する多言語モデルの偏りである。もう１つの課題は、限られた訓練データを持つ言語をロバストにモデル化する方法である。具体的には、「ロングテール問題」は、１）歪んだ多言語データから生じるロングテールクラス分布と文章ピース分布、２）限られた訓練データを有する言語、すなわちテール言語のロバストなモデリング、の２要素とすることができる。

多言語発話認識におけるロングテール問題を考慮して、本明細書に記載される実施形態は、エンコーダ及びデコーダの両方における言語アダプタと組み合わされた発話トランスフォーマ、及びデコーダに続くロジット調整を採用する。Ａ２（Ａｄａｐｔ－ａｎｄ－Ａｄｊｕｓｔ）フレームワークと呼ばれるトランスフォーマフレームワークは、モデルの一般化を改善し、ロングテール問題を緩和するために、統合されたエンド・ツー・エンド訓練として、適応及び調整の両方の方法を組み合わせる。

具体的には、蒸留ｍＢＥＲＴモデルを自己回帰型トランスフォーマデコーダに変換し、多言語音響とテキスト空間を共同で探索し、低リソース言語の性能を改善した。例えば、予備訓練されたｍＢＥＲＴのパラメータは、トランスフォーマデコーダによって採用される。クロスアテンションモジュールは、テキスト空間に加えて音響空間を探索するために、ｍＢＥＲＴのセルフアテンション層の上でエンコーダに追加される。エンコーダとｍＢＥＲＴデコーダの連動した訓練は、発話とテキストの間の意味的ギャップを埋めることができる。このように、訓練のための十分なデータを有さない低リソース言語の言語生成能力を大幅に改善することができる。

加えて、最小の追加パラメータで特定の言語に多言語ネットワークを適応させるために、言語特有アダプタと言語非依存アダプタを並列に採用して、各エンコーダとデコーダ層を拡張した。言語特有アダプタは、共有ネットワークの重みを特定の言語に適応させることに焦点を当てているが、言語間のより良好な知識トランスファーを改善するために、いくつかの共有及び言語非依存知識を学習するために、言語非依存（共通）アダプタが提案されている。

一実施形態では、希少言語対支配言語のロジット間の相対的マージンを増加させるために、クラス不均衡調整が、多言語モデル訓練又はロジット調整に基づく推論の間に実行される。具体的には、クラス不均衡調整は、ソフトマックス入力のロジットをクラスプライヤー（ｃｌａｓｓｐｒｉｏｒ）で調整することによって適用される。このアプローチは、支配言語と希少言語の間の相対的マージンを均衡させるものであり、これは、エンド・ツー・エンドの学習と共に、又はポスト訓練中に、プラグ・アンド・プレイ法として適用され得る。

本明細書で使用される場合、用語「ネットワーク」は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び／又はそこで実装されるか、又はそれと共に実装される任意の訓練又は学習モデルを含む任意のハードウェア又はソフトウェアベースのフレームワークを含んでもよい。

本明細書で使用される場合、用語「モジュール」は、１つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含んでもよい。いくつかの実施形態では、モジュールは、１つ以上のニューラルネットワーク上で実装されてもよい。Ａ２フレームワークの概要

図１は、本明細書に記載される実施形態による、エンド・ツー・エンドの多言語ＡＳＲのためのＡ２フレームワーク１００のアーキテクチャの簡略化された図を示す。具体的には、Ａ２フレームワーク１００は、ベースモデルとして、トランスフォーマベースのシーケンス・ツー・シーケンスモデルに基づいて構築される。例えば、ハイブリッド・コネクショニスト時間的分類（ＣＴＣ、ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）アテンションネットワークに基づくシーケンス・ツー・シーケンス発話トランスフォーマモデルが音響モデリングに使用される。このようなトランスフォーマモデルは、Ａｎｏ－ｒｅｃｕｒｒｅｎｃｅｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌｆｏｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐｐ．５８８４－５８８８，２０１８；Ｋｉｍｅｔａｌ．，Ｊｏｉｎｔｃｔｃ－ａｔｔｅｎｔｉｏｎｂａｓｅｄｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｍｕｌｔｉ－ｔａｓｋｌｅａｒｎｉｎｇ，ＣｏＲＲ，ａｂｓ／１６０９．０６７７３，２０１６；Ｋａｒｉｔａｅｔａｌ．，Ｉｍｐｒｏｖｉｎｇｔｒａｎｓｆｏｒｍｅｒ－ｂａｓｅｄｅｎｄ－ｔｏ－ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｌａｎｇｕａｇｅｍｏｄｅｌｉｎｔｅｇｒａｔｉｏｎ，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｓｐｅｅｃｈ２０１９，ｐｐ．１４０８－１４１２，２０１９に記載されているものと類似していてもよく、これらは全てそれらの全体が参照により本明細書に明示的に組み込まれる。

トランスフォーマベースモデルはエンコーダ１１０及びデコーダ１１５を含む。エンコーダ１１０は、音声特徴シーケンスの入力
を受信し、音声潜在表現ｙ＝ｆ_ｅｎｃ（ｘ）を出力する。ここで、Ｔ及びＦは、シーケンスの長さ及び特徴次元を示す。

エンコーダ１１０は、多数のエンコーダ層を含む。各エンコーダ層は、二次元畳み込み層１０２と、それに続くセルフアテンション層１０６とを含む。畳み込み層１０２は、セルフアテンション層１０６に送信される前に、よりロバストな特徴を抽出するために使用される。例えば、図２Ａは、本明細書に記載されるいくつかの実施形態による、エンコーダ１１０の構造を示す簡略化された図を提供する。図２Ａに示すように、アダプタ層１０８が、２つの層ノルム１０４ａ～１０４ｂ（図１には図示せず）及びセルフアテンション層１０６の後に追加される。セルフアテンション層１０６は、入力の特徴にアテンションを行う。アダプタ層１０８は、セルフアテンションされた特徴から言語固有の知識を捕捉するアダプタ出力にセルフアテンション出力を適応させる言語特有アダプタと、図３に関連してさらに記載されるように、セルフアテンションされた特徴から言語非依存知識を捕捉するアダプタ出力にセルフアテンション出力を適応させる共通アダプタと、を含む。フィードフォワードサブ層１０９は、第１のアダプタ出力と第２のアダプタ出力の組み合わせに基づいて、入力のエンコード表現（エンコーダ隠れ状態）を生成する。

セルフアテンション層１０６及びアダプタ層１０８の両方の後に、２つの残差接続２０２及び２０４が適用される。フィードフォワード層１０９は、ｌ番目のエンコーダ層のエンコーダ層出力
を出力する。すなわち、
である。ここで、
は、前の層（ｌ－１）のエンコーダ隠れ状態であり、
は、エンコーダ層ｌの出力である。

図１を参照すると、デコーダ１１５は、２つのアテンションメカニズムを有し、一方はセルフアテンション１１２のためのものであり、他方はエンコーダ出力のためのクロスアテンション層１１４のためのものである。例えば、図２Ｂは、本明細書に記載されるいくつかの実施形態による、デコーダ１１５の構造を示す簡略化された図を提供する。図２Ｂに示すように、アダプタ層１１８は、層ノルム１１７ｃ、クロスアテンション層１１４、層ノルム１１７ｂ、セルフアテンション層１１２、及び層ノルム１１７ａの後に配置される。セルフアテンション層１１２は、前のトークンに対応する埋め込みにアテンションを行う。クロスアテンション層１１４は、エンコーダ隠れ状態及び正規化されたセルフアテンション出力にアテンションを行う。アダプタ１１８は、デコーダ層内のクロスアテンション出力を適応させる言語特有アダプタ及び共通アダプタを含む。フィードフォワードサブ層１１９は、第２の言語特有アダプタと第２の共通アダプタからの出力の組み合わせに基づいてロジット出力を生成する。

したがって、層ｌのデコーダ隠れ状態は、以下のように計算される。
である。ここで、
は、前の層のデコーダ隠れ状態であり、
は、現在の層の出力である。

デコーダ１１５は、センテンスピースを予測するためにビーム探索を採用する。デコーディングスコアは、デコーディングパラメータとしてβを使用して、ＣＴＣ確率とアテンションネットワーク確率の両方の加重和として計算され、それらを均衡させる。すなわち、
である。ここで、ｙ’はこれまでにデコードされたシーケンスである。

図１に戻って参照すると、一実施形態では、ＣＴＣ層がエンコーダ出力に追加されて、アテンションモデルの正則化器として役割を果たしてもよい。ＣＴＣ層のさらなる詳細は、Ｇｒａｖｅｓｅｔａｌ．，Ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｌａｂｅｌｌｉｎｇｕｎｓｅｇｍｅｎｔｅｄｓｅｑｕｅｎｃｅｄａｔａｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅｌｅａｒｎｉｎｇ，ｐｐ．３６９－３７６，２００６に見出されてもよく、これは、その全体が参照により本明細書に明示的に組み込まれる。したがって、エンコーダｆ_ｅｎｃ（ｘ）の出力は、ＣＴＣ出力ｐ_ｃｔｃを生成するために、ソフトマックスモジュール１２５に渡されてもよい。

デコーダ分岐では、デコーダ出力ｙ_ｔ＝ｆ（ｙ_ｔ－１，ｈ_ｅｎｃ）が調整モジュール１２０に渡される。調整モジュール１２０は、ロングテールデータに対して訓練されたモデル上のロジットを較正するための正規化方法を採用する。例えば、不均衡データ設定では、モデルによって生成されたロジットは非常に歪んでおり、稀なクラスに対して非常に低いスコアを与える。したがって、これらのスコアは、リソースの乏しいクラスを誤って予測するときに、より高いペナルティを与えるために、ラベルの出現の分布に従って調整されなければならない。調整モジュール１２０は、既存のシステムがそのように選択し得るのと同じように最も高く推定されたクラス確率に調整を適用する代わりに、全てのクラスのロジットを調整する。したがって、調整プロセスは、シーケンス・ツー・シーケンスのような生成モデルに適用され得、このアプローチはタスク非依存である。ロジック調整モジュール１２０のさらなる詳細は、図５に関連して以下に記載される。

言語調整モジュール１２０の出力ｐ_ａｔｔｎは、ｐ_ｃｔｃと共に、次いで、エンコーダ１１０及びデコーダ１１５を連動して訓練するために、損失目的を計算するために使用され得る。

フレームワーク１００は、現在の出力が与えられた次のトークンを予測することによって自己回帰的方式で訓練される。エンコーダ１１０及びデコーダ１１５は、ＣＴＣ出力ｐ_ｃｔｃから計算されたＣＴＣ損失と、デコーダ出力ｐ_ａｔｔｎから計算されたアテンション損失Ｌ_ＡＴＴＮとを組み合わせたマルチタスク損失Ｌ_ＭＴＬによって連動して訓練されてもよい。マルチタスク損失Ｌ_ＭＴＬは、ハイパーパラメータλ（０≦λ≦１）でＣＴＣ損失とアテンション損失の補間として計算されてもよい。すなわち、
である。ここで、ｐ_Ｙは、モデルが自信過剰な予測を行わないように、ラベル平滑化した後のラベル分布である。Ｋｕｌｌｂａｃｋ‐Ｌｅｉｂｌｅｒ発散損失（ＫＬ）が、アテンション損失のために使用される。

一実施形態では、トランスフォーマデコーダ１１５は、特に低リソース言語に対して、より良好な言語モデリングのために、予備訓練されたｍＢＥＲＴ１０５に置き換えられてもよい。例えば、予備訓練されたｍＢＥＲＴのパラメータは、図３に関連して以下に記載のように、トランスフォーマデコーダ１１５にトランスファーされてもよい。

図３は、本明細書に記載される実施形態による、予備訓練された多言語モデルｍＢＥＲＴ１０５から発話認識デコーダ１１５へのパラメータトランスファーを示す簡略化された図である。図３に示すように、ｍＢＥＲＴ１０５は、ｍＢＥＲＴ埋め込み層３０３からの埋め込みと、ｍＢＥＲＴのセルフアテンション層３０４からのセルフアテンションパラメータとが、デコーダ１１５のデコーダ層の埋め込み層３１３とセルフアテンション層１１２にそれぞれトランスファーされるという方式で、自己回帰型トランスフォーマデコーダ１１５として採用されてもよい。

ｍＢＥＲＴ１０５は、テキストデータのみについて元々訓練されるが、音響空間とテキスト空間の両方を探索するために、デコーダ１１５においてクロスアテンション層１１４が追加されて、セルフアテンション層１１２に加えて、各ｍＢＥＲＴ層のエンコーダ出力に適用される。このようにして、クロスアテンション層１１４及びセルフアテンション層１１２は、発話認識のための音響及びテキスト空間を「整列」するように学習される。これは、テキスト空間がエンコーダ出力の音響空間と大きく異なる可能性があり得るためである。

具体的には、現在のデコードステップｔにおいて、自己回帰型デコーダ１１５は、次のトークンｙ_ｔ＋１を予測するために現在の入力トークンｙ_ｔをとる。埋め込み層３１３（ｍＢＥＲＴ埋め込み層３０３からの埋め込み下で動作する）は、入力トークンをベクトル表現に変換する。続いて、クロスアテンション層１１４は、エンコーダ出力ｈ_ｅｎｃをキー及び値、セルフアテンション出力をクエリとして、アテンション出力を計算する。

元のｍＢＥＲＴの語彙サイズは、エンド・ツー・エンド発話認識システムを訓練するには大きすぎる（１１９，５４７トークン）可能性があることに留意されたい。従って、語彙マッピングは、発話トランスフォーマのためのターゲットの数を減らすために実行される。例えば、センテンスピース（ＳＰ）が、ターゲットトークンとして使用される。ＳＰモデルは、プリセットされた語彙サイズを有するトランスクリプションに対して訓練される。例示的な実装として、多言語システムの語彙として、５，２３７個のトークンの共有セットが使用されてもよい。センテンスピースモデルのために設定されたトークンの最小数は、２，２６５トークンを有する中国語を除き、すべての単言語システムの場合１５０である。生成されたセンテンスピーストークンは、ｍＢＥＲＴトークンセットと照合される。訓練中、ｍＢＥＲＴ語彙のすべてのトークンの埋め込みは、ｍＢＥＲＴ埋め込みで初期化される。

図４Ａは、本明細書に記載される実施形態による、言語アダプタ１０８又は１１８内のワークフローを示す例示的な図４００を示し、図４Ｂは、本明細書に記載される実施形態による、図１及び図２Ａ～図２Ｂに示す言語アダプタ１０８又は１１８の例示的な構造を示す。例えば、言語アダプタ１０８又は１１８は、二重アダプタ構造を採用してもよい。すなわち、限られたリソースを有する言語に対するモデルロバスト性を向上させるために最小言語特有パラメータを用いるより良好な音響モデリングのための軽量残差言語アダプタ４０２があり、言語固有の知識を捕捉するための言語特有アダプタ４０２に加えて、多言語データにおける言語非依存情報を学習するための共有共通アダプタ４０４も訓練される。言語特有アダプタ４０２及び共通アダプタ４０４は、それぞれ、Ａ_ｌａｎｇ及びＡ_ｃｏｍとして示される。

一実施形態では、言語特有アダプタは、言語マスクによって識別される。例えば、図４Ａに示すように、言語特有アダプタ４０２はスペイン語に特有である。

図４Ｂに示すように、層ｌの各アダプタ１０８又は１１８は、層ノルム４１１、ダウンプロジェクション層４１２、Ｗ^ｌ _ｄ、続いてＲｅＬＵ活性化関数４１３、及びアッププロジェクション層４１４、Ｗ^ｌ _ｕを含む。具体的には、言語特有アダプタ４０２及び共通アダプタ４０２、４０４は、入力としてｈ^ｌを受信する。ここで、ｈ^ｌは、層ｌのセルフアテンション出力（例えば、言語アダプタがエンコーダ１１０に存在するかデコーダ１１５に存在するかに応じて、エンコーダ１１０のセルフアテンション層１０６からか、又はデコーダ１１５のセルフアテンション層１１２から）である。次いで、アダプタＡｄａｐｔｅｒ（ｈ^ｌ）の出力は、言語特有アダプタ４０２及び共通アダプタ４０４の両方に対して、それぞれ、言語固有アダプタ４０２及び共通アダプタ４０４に対して設定されたＷ^ｌ _ｄ、Ｗ^ｌ _ｕ及びＲｅＬＵパラメータを用いて、以下のように計算されてもよい。

例えば、アダプタ（ｈ^ｌ）は、それぞれ、言語特有アダプタ４０２の出力ｏ^ｌ _ｌａｎｇとして、及び共通アダプタ４０４の出力ｏ^ｌ _ｃｏｍとして計算されてもよい。その後、エンコーダ１１０内のフィードフォワード層１０９、又はデコーダ１１５内のフィードフォワード層１１９への入力として、アダプタ出力ｏ^ｌ _ｌａｎｇ及びｏ^ｌ _ｃｏｍ並びにｏ^ｌを加えることによって、最終アダプタ出力ｏ^ｌが計算される。訓練と推論の間に、言語固有と共通のアダプタの両方の出力が組み合わされる。

図５は、本明細書に記載される実施形態による、図１に示す調整モジュールの例示的な動作を示す例示的な図を提供する。前述のように、異なる言語における訓練データの利用可能性の違いのために、エンコーダ１１０及びデコーダ１１５のベースモデルは、センテンスピースクラス不均衡問題によって影響を受ける場合がある。ロジット調整モジュール１２０は、訓練中にクラスプライヤーを組み込むことによって、又はロジット調整を介して推論することによって、不均衡の問題に対処してもよい。

調整モジュールは、図１のデコーダ１１５からのデコーダ出力４０７、例えば、ｙ_ｔ＝ｆ（ｙ_ｔ－１，ｈ_ｅｎｃ）を、計算されたクラスプライヤー４０６を使用して調整してもよい。例えば、クラスプライヤーπ_ｙは、多言語訓練データから推定されたセンテンスピーストークンの自然頻度（ｎａｔｕｒａｌｆｒｅｑｕｅｎｃｙ）である。有効なプライヤー分布を形成するために、クラスプライヤー計算モジュール４０４は、ゼロ発生トークンの生カウントに平滑化を適用して、クラスプライヤー
を計算する。ここで、Ｃは、すべてのラベルの合計カウント数、ｎ_０は、ゼロ発生を有するラベル数、Ｎは、クラス数、ｃ_ｉは、クラスｉの生カウントである。

次いで、クラスプライヤー４０６がロジット調整４０８に出力され、このロジット調整は、デコーダ出力４０７も受信する。ロジット調整４０８は、調整されたロジット４０６を入力として用いて、ソフトマックス分類器４１０に出力してもよく、これは、全てのクラスにわたって均衡された誤差を最小限に抑える。ロジット調整４０８では、自然調整は、対応するクラスプライヤーπ_ｙの逆数によってロジットｆ_ｙ（ｘ）をスケーリングすることである。ログドメインにおいて、調整は以下のように実行され得る。
ここで、τ＞０はハイパーパラメータである。この調整は、クラスに依存したオフセットを適用して、そのクラスプライヤーに従った各ロジットの重み付けを再度行うものと見なされ得る。

訓練中にプライヤー組み込むために、デコーダ出力４０７は、以下に従ったソフトマック４１０の前に調整される最後のデコーダ層のロジット
を含む。

ソフトマックス分類器４１０からのシーケンスの調整されたソフトマック出力ベクトル
は、図１に関連して記載されるように、損失目的を計算するためにｐ_ａｔｔｎとして使用され、ベースモデルを更新するためにバックプロパゲーションを実行する。ｙ_ｔ－１は、訓練中のみ利用可能な前のラベルである。訓練と推論の矛盾を低減するために、スケジューリングされたサンプリングが、発話認識のような逐次的な分類タスクのために使用され得る。後の訓練反復中、ロジットを計算するために正解ラベルｙ_ｔ－１を使用する代わりに、近似ラベルｙ’_ｔ－１が代わりに使用されてもよく、これは、推論をシミュレートするために現在のモデルの最大予測出力から選択される。

一実施形態では、スケジューリングされたサンプリングが使用される場合、ステップｔでの調整されたロジット４０６は、現在のシーケンスにおける以下のトークンのすべてに影響を及ぼす。従来のラベル平滑化方法では、通常、プライヤーπ_ｙは、データに依存しない一様分布である。ロジット調整４０８は、クラスプライヤーに基づいたクラス特有「平滑化」を適用し、標準ラベル平滑化を用いるベースラインより優れていることが示されている。

代替的には、クラスプライヤー４０６は、ロジット調整を介して推論中に組み込まれ得る。デコーディングスコアは、以下のように計算される。
ビーム探索中、アテンションデコーディングスコア
は、調整されたロジット４０６からのスケジューリングされたサンプリングと同じ方法で計算される。

コンピュータ環境
図６は、いくつかの実施形態による、多言語発話認識のためのエンド・ツー・エンドトランスフォーマフレームワーク６００を実装するための計算デバイスの簡略図である。図６に示すように、計算デバイス６００は、メモリ６２０に結合されたプロセッサ６１０を含む。計算デバイス６００の動作は、プロセッサ６１０によって制御される。また、計算デバイス６００は、１つのプロセッサ６１０のみを有して示されているが、プロセッサ６１０は、計算デバイス６００内の１つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路、グラフィック処理ユニット（ＧＰＵ）などを代表するものであってもよいことが理解される。計算デバイス６００は、スタンドアロンのサブシステムとして、計算デバイスに追加されたボードとして、及び／又は仮想マシンとして実装されてもよい。

メモリ６２０は、計算デバイス６００によって実行されるソフトウェア及び／又は計算デバイス６００の動作中に使用される１つ以上のデータ構造を記憶するために使用されてもよい。メモリ６２０は、１つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体を含んでもよい。

プロセッサ６１０及び／又はメモリ６２０は、任意の好適な物理的配置に配置されてもよい。いくつかの実施形態では、プロセッサ６１０及び／又はメモリ６２０は、同じボード、同じパッケージ（例えば、システムインパッケージ）、同じチップ（例えば、システムオンチップ）などに実装されてもよい。いくつかの実施形態では、プロセッサ６１０及び／又はメモリ６２０は、分散、仮想化、及び／又はコンテナ化された計算リソースを含んでもよい。そのような実施形態と一致して、プロセッサ６１０及び／又はメモリ６２０は、１つ以上のデータセンター及び／又はクラウド計算施設に位置してもよい。

いくつかの例では、メモリ６２０は、１つ以上のプロセッサ（例えば、プロセッサ６１０）によって動作するときに、１つ以上のプロセッサに本明細書にさらに詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。例えば、図示のように、メモリ６２０は、システム及びモデルを実装及び／又はエミュレートするため、及び／又は本明細書にさらに記載される方法のうちのいずれかを実装するために使用され得る多言語発話認識モジュール６６０のための命令を含む。いくつかの例では、多言語発話認識モジュール６６０は、データインターフェース６１５を介して、例えば異なる言語の音声発話サンプルのような入力６４０を受信してもよい。データインターフェース６１５は、明瞭に発音された音声入力を受信するユーザインターフェース、又はデータベースから前に記憶された音声サンプルを受信又は取り出し得る通信インターフェースのいずれであってもよい。多言語発話認識モジュール６６０は、音声発話入力６４０に対応するトランスクリプトのような出力６５０を生成してもよい。

いくつかの実施形態では、多言語発話認識モジュール６６０は、図１に示すエンコーダ１１０及びデコーダ１１５を含むトランスフォーマベースのモデルを実装してもよい。図１に関連して記載されたものと同様に、エンコーダ１１０及びデコーダ１１５は各々、言語アダプタ１０８及び１１８を含む。多言語発話認識モジュール６６０は、図１に示すロジット調整器１２０をさらに含み得る。

いくつかの例では、多言語発話認識モジュール６６０、及びサブモジュール１１０、１１５、及び１２０は、ハードウェア、ソフトウェア、及び／又はハードウェアとソフトウェアの組み合わせを使用して実装されてもよい。

適応及び調整ワークフロー
図７Ａは、本明細書に記載される実施形態による、図１に示される多言語フレームワーク１００によって実装されるプロセスフローを示す例示的な疑似コードセグメントを提供し、図７Ｂ～図７Ｃは、本明細書に記載される実施形態による、例示的な疑似コードセグメントに対応する例示的な論理フロー図を提供する。方法７００のプロセス７０２～７２８のうちの１つ以上は、少なくとも部分的に、１つ以上のプロセッサによって実行されるときに、１つ以上のプロセッサにプロセス７０２～７２８のうちの１つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法７００は、モジュール６６０によって使用される方法に対応してもよい。

ステップ７０２では、多言語データの訓練データセットが、例えば、データインターフェース６１５で受信され得、エンコーダ１１０及びデコーダ１１５を含むトランスフォーマモデルが、ランダムで初期化されたパラメータで初期化されてもよい。例えば、トランスフォーマモデルは、メモリ６２０に記憶されてもよい。

ステップ７０４では、デコーダパラメータは、例えば、図３に関連して記載されるように、予備訓練された言語モデル（例えば、ｍＢＥＲＴ）からトランスフォーマデコーダへトランスファーされてもよい。

ステップ７０６では、クラスプライヤーは、例えば、図４のクラスプライヤーモジュール４０４で記載されたように、多言語訓練データから計算されてもよい。

ステップ７０８では、多言語発声（ｕｔｔｅｒａｎｃｅ）のバッチが訓練データセットからサンプリングされてもよい。

ステップ７１０では、言語アダプタマスクが、発声のバッチ内の言語タグを使用して生成されてもよい。例えば、言語アダプタマスクは、例えば、スペイン語、英語などの多言語発声の特定のタイプの言語を示してもよい。

ステップ７１２では、エンコーダ隠れ状態、例えば、ｈ_ｅｎｃは、入力発話ｘ及び言語マスクに基づいてエンコーダ１１０によって計算されてもよい。

ステップ７１４では、エンコーダ隠れ状態及び言語マスクに基づいてデコーダ１１５によってロジットが計算されてもよい。

ステップ７１６では、計算されたロジットが、例えば、図５に関連して記載されたように、言語調整によって調整されてもよい。

ステップ７１８では、エンコーダは、例えば、図１に示すＣＴＣポステリアー（ｐｏｓｔｅｒｉｏｒｓ）
を生成してもよい。

ステップ７２０では、アテンション損失は、調整されたロジット及びアテンション出力に基づいて計算され得る。

ステップ７２４では、マルチタスク損失は、アテンション損失、ＣＴＣ出力、及び補間パラメータλに基づいて計算されてもよい。

ステップ７２６では、トランスフォーマモデル、例えば、エンコーダ１１０及びデコーダ１１５は、次いで、バックプロパゲーションを介したマルチタスク損失に基づいて、連動して更新されてもよい。

ステップ７０８～７２６は、それ以上の訓練ステップがないまで（決定７２８において）繰り返されてもよい。プロセス７００は、それ以上の訓練ステップがないときに、決定７２８の後に終了してもよく、そうでなければ、ステップ７０８～７２６は、決定７２８から繰り返されてもよい。

例示的な性能
多言語訓練データセットには、ＣｏｍｍｏｎＶｏｉｃｅデータセット（Ａｒｄｉｌａｅｔａｌ．，Ｃｏｍｍｏｎｖｏｉｃｅ：Ａｍａｓｓｉｖｅｌｙ－ｍｕｌｔｉｌｉｎｇｕａｌｓｐｅｅｃｈｃｏｒｐｕｓ，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＬａｎｇｕａｇｅＲｅｓｏｕｒｃｅｓａｎｄＥｖａｌｕａｔｉｏｎＣｏｎｆｅｒｅｎｃｅ，ｐｐ．４２１８－４２２２，２０２０を参照）を含んでもよい。１１の言語、すなわち、英語（ｅｎ）、スペイン語（ｅｓ）、フランス語（ｆｒ）、イタリア語（ｉｔ）、キルギス語（ｋｙ）、オランダ語（ｎｌ）、ロシア語（ｒｕ）、スウェーデン語（ｓｖ）、トルコ語（ｔｒ）、タタール語（ｔｔ）、及び中国語（ｚｈ）が使用される。データセットは、ＥＳＰＮＥＴのレシピに従って、訓練セット、ｄｅｖセット、及びｅｖａｌセットにスプリットされる。トランスクリプションは、ユニグラムアルゴリズムを用いてＳｅｎｔｅｎｃｅＰｉｅｃｅモデルを使用してトークン化される。ＳｅｎｔｅｎｃｅＰｉｅｃｅモデルは、音声トランスクリプションを使用して訓練される。＜ｕｎｋ＞、＜ｓｏｓ＞、＜ｅｏｓ＞、ブランクトークンなどの特殊トークンがＣＴＣ目的に追加される。

２０４８ユニットの隠れたサイズと８つのアテンションヘッドを有する６つのトランスフォーマエンコーダ層が使用され、各々のアテンション次元は２５６である。デコーダに対して、ｄｉｓｔｉｌ－ｍＢＥＲＴ（Ｓａｎｈｅｔａｌ．，Ｄｉｓｔｉｌｂｅｒｔ，ａｄｉｓｔｉｌｌｅｄｖｅｒｓｉｏｎｏｆＢＥＲＴ：ｓｍａｌｌｅｒ，ｆａｓｔｅｒ，ｃｈｅａｐｅｒａｎｄｌｉｇｈｔｅｒ，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９１０．０１１０８，２０１９を参照）が使用される。ｍＢＥＲＴデコーダは、３０７２の隠れたサイズと７５６のアテンション次元を有する６つのトランスフォーマデコーダ層と４つのアテンションヘッドからなる。モデルは、３２のバッチサイズで訓練され、勾配を２ステップで累積し、単一のＧＰＵＮＶＩＤＩＡＶ１００１６ＧＢを使用してより大きなバッチサイズを有する。モデルは、２５０００のウォームアップステップでＡｄａｍオプティマイザで訓練される。特に、均衡されたサンプリングに対して、各言語について６つのサンプルが取られ、勾配を１１回累積することにより均衡されたバッチを構築する。

このモデルは、１０のビーム幅１０、λ＝０．３、及びβ＝０．５でビーム探索を使用して実装されてもよい。超パラメータτは、訓練及び推論位相クラスの不均衡調整の両方に対して０．３に設定される。多言語モデルは、１５０Ｋ反復で訓練される。最後の１０個のチェックポイントにわたる平均は、デコードモデルとして計算される。単一言語設定では、訓練は１００エポックの訓練後に停止する。モデルは、評価を単純化し、すべての言語に対して普遍的なメトリックを有するために、文字誤り率（ＣＥＲ）を使用して評価される。

ベースライン比較に対して、ベースラインモデルは、単言語（ｍｏｎｏｌｉｎｇｕａｌｍｏｄｅｌｓ）、データ分布からバッチをランダムにバッチをサンプリングするＳＭＴ（ＳｔａｎｄａｒｄＭｕｌｔｉｌｉｎｇｕａｌＴｒａｉｎｉｎｇ）、バッチ内の各言語について同数の発話をサンプリングし、訓練に対して概ね等しい寄与を有するようにするＢＳ（ＢａｌａｎｃｅｄＳａｍｐｌｉｎｇ）、Ｋａｎｎａｎｅｔａｌ．，Ｌａｒｇｅ－ｓｃａｌｅｍｕｌｔｉｌｉｎｇｕａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈａｓｔｒｅａｍｉｎｇｅｎｄ－ｔｏ－ｅｎｄｍｏｄｅｌ．Ｐｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１９，ｐｐ．２１３０－２１３４，２０１９によって提案された言語特有アダプタを有するＬＡＮ－ＳｐｅｃｉｆｉｃＡｄａｐｔｅｒｓ、及び
Ｌｉｅｔａｌ．，Ｍｕｌｔｉ－ｄｉａｌｅｃｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈａｓｉｎｇｌｅｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｍｏｄｅｌ，ｉｎ２０１８ＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎａｃｏｕｓｔｉｃｓ，ｓｐｅｅｃｈａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐｐ．４７４９－４７５３，２０１８によって提案されたワンホット言語ベクトルで条件付けするＬＩＤ（ｌａｎｇｕａｇｅＩＤ）を含む。

図８は、本明細書に記載される一実施形態による、訓練データセットに対するＣＥＲに関する例示的なテスト結果の例の表を提供する。図８の表１に示されるように、単言語モデルと比較して、ＳＭＴモデルでさえ、低リソース言語の性能を有意に改善する。言い換えれば、ＳＭＴは比較すべき適切な多言語ベースラインである。これは、多言語モデルが、異ｐｌｏ０なる言語で共有され、低リソース言語認識に有益である、共通のサブ音声学調音特徴を捉えることができるためである可能性がある。

追加的に、ＳＭＴと比較して、テール言語性能が有意にブーストされる。しかしながら、ヘッド言語の性能は、訓練中の発生回数が少ないことをこうむる。モデルは、アップサンプリングによりテール言語に対して明らかにオーバーフィッティングされ、例えば、「ｋｙ」と「ｓｖ」の訓練セットに対するＣＥＲは、評価データよりもかなり低い（訓練３．４％と４．２％対評価１３．４％と２２．８％）。結果として、全体的な性能はＳＭＴと同じである。実際、均衡されたサンプリングの後でも、センテンスピーストークンは依然としてロングテール分布を有する。

言語適応技術は、ＬＡＮ－ＳｐｅｃｉｆｉｃＡｄａｐｔｅｒｓ、ワンホット言語ベクトル及びＤｕａｌ－Ａｄａｐｔｅｒｓと比較される。すべてのアダプタは、ＢＳ＋ｍＢＥＲＴに基づいており、ＢＳのみのモデルよりも性能が良いことに留意する。共通アダプタなしで言語特有アダプタを追加すると、０．９％の絶対性能ゲインでＢＳベースラインよりも有意に優れる。形成時に言語を注入するもう１つの方法は、ワンホット言語ベクトルを拡張することである。興味深いことに、言語ベクトルにセンテンスピースクラス不均衡調整（ＬＩＤ＋Ａｄｊｕｓｔ－Ｔｒａｉｎ）を適用すると、ＣＥＲを有意に改善する。

訓練位相と推論位相の調整の両方が、１％の絶対ＣＥＲ低減でＬＡＮ－ＳｐｅｃｉｆｉｃＡｄａｐｔｅｒｓに対して有意の性能ゲインを提供する。ゲインは、主にヘッド言語の改善された性能によるものであるが、テール言語もロジット調整の恩恵を受ける。さらに重要なことは、ヘッド言語に対する単言語と多言語の性能のギャップが大幅に低減され、より良い「均衡されたエラー」性能をもたらすことである。このことは、クラス不均衡調整の重要性を強く正当化している。ＢＳと比較して、Ａ２はテール言語へのオーバーフィッティングも避けており、「ｋｙ」及び「ｓｖ」に対するＣＥＲは８．２％及び２３．６％であり、評価ＣＥＲにかなり近い。ランダムサンプリングによるＳＭＴと比較して、Ａ２は、２つのヘッド言語「ｆｒ」と「ｅｎ」に対して、適度なコストで、有意により良好な平均ＣＥＲを有する。

図９は、本明細書に記載される一実施形態による、ｍＢＥＲＴの有効性を示すｍＢＥＲＴに対するアブレーション研究結果の表を提供する。ｍＢＥＲＴの性能は音響モデルの品質に大きく依存する。アダプタ又はロジットの調整がなければ、ＢＳに対する改善は限界的であり、ｍＢＥＲＴ性能はＳＭＴではさらに悪い。これは、Ａ２のようなより良好な音響モデルでは、バニラｍＢＥＲＴのテキスト空間が音響空間とより良く整列していることを示している可能性があり、これは、全ての言語、特に低リソースのものにわたる性能の改善につながる。興味深いのは、アダプタがなくても、「ＳＭＴ＋ｍＢＥＲＴ＋Ａｄｊｕｓｔ－Ｔｒａｉｎ」は、最良のアダプタシステム（ＢＳ＋ｍＢＥＲＴ＋Ｄｕａｌ－Ａｄａｐｔｅｒｓ）と同じ全体のＣＥＲを生成することにも留意する。

いくつかの実装では、予備訓練された言語モデルの影響を研究するために、蒸留ｍＢＥＲＴの代わりに、より進歩したＸＬＭ－Ｒ予備訓練モデルが使用される。ＸＬＭ－ＲはｍＢＥＲＴよりも良好な多言語言語生成能力を有するが、多言語ＡＳＲタスクの最終的な性能ゲインには至らない。

図１０は、本明細書に記載される一実施形態による、言語アダプタの例示的なアブレーション研究の表を提供する。異なるアダプタの結果及びパラメータサイズが、図１０の表３に与えられる。例えば、デコーダ層アダプタは、エンコーダ層のように、効果的でなくてもよく、音響空間の適応は、テキスト空間よりもずっと効果的であることを示す。したがって、デコーダアダプタ（例えば、１１８）は、任意選択であってもよい。

図１１は、本明細書に記載される一実施形態による、共通言語アダプタの有効性を示す言語アダプタの例示的なアブレーション研究結果の表を提供する。Ｄｕａｌ－Ａｄａｐｔｅｒｓは、ＣＥＲの絶対値が０．５％低下し、有意に言語特有アダプタよりも優れ、これは、共通アダプタを用いた知識トランスファーが有効であることを示している。

個々の言語アダプタに加えて、同じグループ内のアダプタの共有を可能にするために、言語はグループに分割される。書かれたスクリプトによれば、１１の言語は、例えば、ラテン文字、漢字及びキリル文字の言語グループに分割されてもよい。それらは、言語ファミリ、例えば、ロマンス語、中国語、トルコ語、ドイツ語にグループ化され得る。このグループは、語彙、文法、発音の類似性により焦点を当てており、これらは通常、エンド・ツー・エンドの多言語アーキテクチャ下で包摂される。
１つのグループによれば、同じクラスタに属する言語は、必ずしも他のグループの同じクラスタに属するとは限らない。例えば、タタール語とトルコ語は両方ともチュルク語である。しかしながら、タタール語は、キリル文字を、トルコ語は、ラテン文字を使用する。同じグループ内のすべての言語が同じデュアルアダプタを共有し、アダプタはすべての言語メンバで訓練される。一般に、言語ファミリによってグループ化することは、表３のデコーダアダプタよりも効果的な音響空間を適応させるためのエンコーダアダプタにより調和するため、書かれたスクリプトによるグループ化よりも良好である。

個々の言語アダプタと比較して、言語ファミリによって言語アダプタを共有することは、低リソース言語、例えば、ドイツ語グループの「ｓｖ」、チュルク語グループの「ｋｙ」及び「ｔｒ」の性能を助ける。これは、より多くのデータがグループアダプタを訓練するために使用されるためである。しかし、これも「個別のデュアルアダプタ」と比較すると、リソースの豊富な言語にはコストがかかる。したがって、個々の言語アダプタは、アダプタのパラメータサイズがエンコーダ及びデコーダのアテンション重みよりもはるかに小さいことを考慮することが推奨される。

図１２は、本明細書に記載される一実施形態による、異なるモデルによる訓練及び推論位相ロジット調整を示す例示的な性能の表を提供する。図１２の表５に示すように、ＳＭＴシステムについては、訓練フェーズ調整は推論フェーズ調整よりも明らかな利点を示す。凸仮定の下では、２つの調整アプローチの解は同じである。しかしながら、ディープニューラルネットワーク最適化は非凸問題であるため、異なる局所最小値に収束してもよい。ＳＭＴの下では、このモデルはランダムサンプリングのためにヘッドクラスに大きく偏っている。訓練フェーズの不均衡の調整は、訓練がテールクラスに集中するのを助けることができ、はるかに良好に均衡され、エラーが少なくなる。より良好な音響モデル、例えば、言語アダプタにより、推論フェーズ調整は、生の分類スコアをより良好に較正し、訓練フェーズ調整と同様の性能をもたらすことができる。

計算デバイス１００のような計算デバイスのいくつかの例は、１つ以上のプロセッサ（例えば、プロセッサ１１０）によって動作するときに、１つ以上のプロセッサに方法６００のプロセスを実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。方法６００のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体である。

発明の態様、実施形態、実装、又は用途を例示するこの説明及び添付の図面は、限定的なものと解釈されるべきではない。様々な機械的、組成的、構造的、電気的、及び動作上の変更は、この説明及び特許請求の範囲の精神及び範囲から逸脱することなく行われてもよい。いくつかの例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技法が詳細に示されていないか、又は記載されていない。２つ以上の図の類似の数字は、同じ又は同様の要素を表す。

この説明では、本開示と矛盾しないいくつかの実施形態を記載する特定の詳細が明記されている。実施形態の完全な理解を提供するために、多数の詳細が明記されている。いくつかの実施形態は、これらの特定の詳細の一部又は全部がなくても実施され得ると当業者に明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを回避するために、１つの実施形態に関連して示され、記載される１つ以上の特徴は、他の方法で具体的に記載されないいか、又は１つ以上の特徴が一実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。

例示的な実施形態が示され記載されたが、広範囲の修正、変更及び置換が、前述の開示において企図され、いくつかの例では、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに用いられてもよい。当業者であれば、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。

Claims

多言語発話認識のためのシステムであって、
複数のエンコーダ層を含むエンコーダであって、エンコーダ層は、
入力の特徴にアテンションを行う第１のセルフアテンション層と、
セルフアテンションされた特徴から言語固有の知識を捕捉する第１のアダプタ出力に第１のセルフアテンション出力を適応させる第１の言語特有アダプタと、
前記セルフアテンションされた特徴から言語非依存知識を捕捉する第２のアダプタ出力に前記第１のセルフアテンション出力を適応させる第１の共通アダプタと、
前記第１のアダプタ出力と前記第２のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成する第１のフィードフォワードサブ層と、を含む、エンコーダと、
前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を生成するデコーダと、を含む、システム。
前記デコーダは、複数のデコーダ層を含み、前記複数のデコーダ層からのデコーダ層は、
前記前のトークンに対応する埋め込みにアテンションを行う第２のセルフアテンション層と、
前記エンコーダ隠れ状態及び、前記第２のセルフアテンション層からの第２のセルフアテンション出力にアテンションを行うクロスアテンション層と、
前記デコーダ層内でクロスアテンション出力を適応させる第２の言語特有アダプタ及び第２の共通アダプタと、
前記第２の言語特有アダプタと前記第２の共通アダプタからの出力の組み合わせに基づいてロジット出力を生成する第２のフィードフォワーサブ層と、を含む、請求項１に記載のシステム。
前記デコーダは、自己回帰型トランスフォーマデコーダであり、
前記第２のセルフアテンション層の前記埋め込み及びパラメータは、予備訓練された言語モデルの対応物から複製される、請求項２に記載のシステム。
前記クロスアテンション層は、前記エンコーダ隠れ状態をキー及び値として取り、前記第２のセルフアテンション出力をクエリとして取り、前記クロスアテンション出力を計算する、請求項２に記載のシステム。
前記第１の言語特有アダプタ及び前記共通アダプタの各々は、ダウンプロジェクション層、ＲｅＬＵ活性化モジュール、及びアッププロジェクション層を含む、請求項１に記載のシステム。
前記第１の言語特有アダプタは、言語マスクによって指定され、
前記第１のアダプタ出力は、前記言語マスクに少なくとも部分的に基づいて生成される、請求項１に記載のシステム。
クラス依存オフセットを対応するクラスプライヤーに従って各ロジットに適用することによって、デコーダからの論理出力を調整する言語調整モジュールをさらに含む、請求項１に記載のシステム。
前記クラスプライヤーは、多言語訓練データセットから推定されたセンテンスピーストークンの頻度によって計算される、請求項７に記載のシステム。
前記調整されたロジット出力は、前記現在のトークンの予測確率分布を計算するために使用される、請求項７に記載のシステム。
前記エンコーダと前記デコーダは、前記調整されたロジット出力、ラベル分布、及び前記エンコーダからのコネクショニスト一時分類出力に基づいて計算された損失目的によって、連動して訓練される、請求項１に記載のシステム。
多言語発話認識のための方法であって、
多言語発話を受信することと、
エンコーダによって、前記多言語発話の入力に基づいて、
第１のセルフアテンションモジュールによって、前記多言語発話の特徴にアテンションを行うことと、
第１の言語特有アダプタによって、セルフアテンションされた特徴から言語固有の知識を捕捉する第１のアダプタ出力に第１のセルフアテンション出力を適応させることと、
第１の共通アダプタによって、前記セルフアテンションされた特徴から言語非依存知識を捕捉する第２のアダプタ出力に前記第１のセルフアテンション出力を適応させることと、
第１のフィードフォワードサブ層によって、前記第１のアダプタ出力と前記第２のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成することと、を行うことによってエンコーダ隠れ状態を計算することと、
デコーダによって、前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を計算することと、を含む、方法。
第２のセルフアテンション層によって、前記前のトークンに対応する埋め込みにアテンションを行うことと、
クロスアテンション層によって、前記エンコーダ隠れ状態及び、前記第２のセルフアテンション層からの第２のセルフアテンション出力にアテンションを行うことと、
前記デコーダ内で第２の言語特有アダプタによるクロスアテンション出力及び第２の共通アダプタによるクロスアテンション出力を適応させることと、
前記第２の言語特有アダプタと前記第２の共通アダプタからの出力の組み合わせに基づいて前記ロジット出力を生成することと、
前記クロスアテンション層によって、前記エンコーダ隠れ状態をキー及び値として取り、前記第２のセルフアテンション出力をクエリとして取り、前記クロスアテンション出力を計算することと、をさらに含む、請求項１１に記載の方法。
クラス依存オフセットを対応するクラスプライヤーにしたがって各ロジットに適用することによって、デコーダからの論理出力を調整することをさらに含み、
前記クラスプライヤーは、多言語訓練データセットから推定されたセンテンスピーストークンの頻度によって計算される、請求項１１に記載の方法。
前記エンコーダ隠れ状態に基づいて前記エンコーダからコネクショニスト時間的分類出力を計算することと、
前記調整された論理出力から計算されるデコーダ出力確率分布に基づいてアテンション損失を計算することと、
前記コネクショニスト時間的分類出力と前記アテンション損失に基づいてマルチタスク損失を計算することと、
バックプロパゲーションを介したマルチタスク損失に基づいて、前記エンコーダと前記デコーダを連動して訓練することと、をさらに含む、請求項１３に記載の方法。
多言語発話認識のためのプロセッサ実行可能命令を記憶する非一時的なプロセッサ可読記憶媒体であって、前記命令は、前記命令がプロセッサによって実行されて、
多言語発話を受信することと、
エンコーダによって、前記多言語発話の入力に基づいて、
第１のセルフアテンションモジュールによって、前記多言語発話の特徴にアテンションを行うことと、
第１の言語特有アダプタによって、セルフアテンションされた特徴から言語固有の知識を捕捉する第１のアダプタ出力に第１のセルフアテンション出力を適応させることと、
第１の共通アダプタによって、前記セルフアテンションされた特徴から言語非依存知識を捕捉する第２のアダプタ出力に前記第１のセルフアテンション出力を適応させることと、
第１のフィードフォワードサブ層によって、前記第１のアダプタ出力と前記第２のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成することと、を行うことによってエンコーダ隠れ状態を計算することと、
デコーダによって、前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を計算することと、を行う、非一時的なプロセッサ可読記憶媒体。