JP2023544336A - 多言語発話認識フレームワークのためのシステム及び方法 - Google Patents
多言語発話認識フレームワークのためのシステム及び方法 Download PDFInfo
- Publication number
- JP2023544336A JP2023544336A JP2023519865A JP2023519865A JP2023544336A JP 2023544336 A JP2023544336 A JP 2023544336A JP 2023519865 A JP2023519865 A JP 2023519865A JP 2023519865 A JP2023519865 A JP 2023519865A JP 2023544336 A JP2023544336 A JP 2023544336A
- Authority
- JP
- Japan
- Prior art keywords
- output
- attention
- adapter
- language
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000009826 distribution Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 238000002679 ablation Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013093 comparative effectiveness research Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本明細書に記載される実施形態は、モデルの一般化を改善し、ロングテール問題を緩和するために、統合されたエンド・ツー・エンド訓練として、適応及び調整の両方の方法を組み合わせる多言語発話認識モデルに対するA2(Adapt-and-Adjust)メカニズムを提供する。具体的には、多言語言語モデルmBERTが利用され、自己回帰型トランスフォーマデコーダに変換される。追加的に、クロスアテンションモジュールが、テキスト空間に加えて音響空間を探索するために、mBERTのセルフアテンション層の上でエンコーダに追加される。エンコーダとmBERTデコーダの連動した訓練が、発話とテキストの間の意味的ギャップを埋めることができる。
Description
本開示は、2021年1月29日に出願された米国特許出願第17/162,624号に対する優先権を主張し、同出願は、2020年10月2日に出願された米国仮出願第63/086,720号に対する優先権主張し、両方とも、それらの全体が参照により本明細書に明示的に組み込まれる。
本開示は、一般に、機械学習モデル及びニューラルネットワークに関し、より具体的には、多言語発話認識のためのエンド・ツー・エンドのトランスフォーマベースのマルチタスク学習フレームワークに関する。
エンド・ツー・エンド(E2E)発話(speech)認識システムは、多言語発話認識タスクを扱うために適用されてきた。E2Eシステムは、言語依存の語彙、音素単位、及び言語モデルの必要性を排除する。E2Eベースの多言語システムの場合、単一のネットワークは、全ての標的言語でプールされたデータセットから訓練され得る。単言語システムと比較して、多言語モデルは、言語間のパラメータ共有と知識トランスファーを可能にし、これは、すべての言語、特に低リソース言語に有益であることが示されている。しかし、E2Eベースの多言語発話認識訓練において、1つの課題は、ロングテールデータ分散問題としても知られているデータ不均衡問題である。具体的には、現実世界の多言語データの場合、英語のようないくつかの主要な支配言語では、低リソース言語よりも多くの訓練サンプルが存在し、多言語モデルが支配言語に偏ることになる。
したがって、実世界のアンバランス訓練データを用いた多言語モデルを改善する必要性がある。
図及び付録では、同一の呼称を有する要素は、同じ又は同様の機能を有する。
多言語自動発話認識(ASR)モデルは、しばしば多言語を認識するために使用され得る。実際のアプリケーションでは、多言語ASRモデルはしばしば訓練データの不均衡問題に遭遇し、これは、例えば、英語のようなリソースの豊富な言語は豊富な訓練データを有する一方、大部分の低リソース言語は様々な量の訓練データを有するというロングテール分布課題として知られている。このような不均衡なデータ設定は、訓練データの分布がしばしばかなり歪んでいる可能性があるため、マルチタスク訓練についての多数のオープンな課題を提起する。したがって、このような不均衡な訓練データセットは、少なくとも2つの現実世界のシナリオによって引き起こされることがある。すなわち、第1に、キルギス語、スウェーデン語、トルコ語のようなリソースの乏しい言語では、非常に限られた音声サンプルしか利用できないが、同時に、英語、フランス語、スペイン語のようなリソースの豊富な言語からは、膨大な量のデータが存在し、第2に、いくつかのラベルは、単言語の設定であっても、有意により頻繁に現れるため、書記素又はサブワードラベルは、多言語ASRにおいてロングテール分布に従う。さらに、多言語システムは、中国語又はキリル語のような、ラテン語アルファベット以外の書字スクリプトを有する言語を含む可能性があり、これは、歪みをさらに悪化させる。
偏った訓練データ配分問題に対処するために、主要な課題のうちの1つはクラスの不均衡問題であり、例えば、支配言語に対する多言語モデルの偏りである。もう1つの課題は、限られた訓練データを持つ言語をロバストにモデル化する方法である。具体的には、「ロングテール問題」は、1)歪んだ多言語データから生じるロングテールクラス分布と文章ピース分布、2)限られた訓練データを有する言語、すなわちテール言語のロバストなモデリング、の2要素とすることができる。
多言語発話認識におけるロングテール問題を考慮して、本明細書に記載される実施形態は、エンコーダ及びデコーダの両方における言語アダプタと組み合わされた発話トランスフォーマ、及びデコーダに続くロジット調整を採用する。A2(Adapt-and-Adjust)フレームワークと呼ばれるトランスフォーマフレームワークは、モデルの一般化を改善し、ロングテール問題を緩和するために、統合されたエンド・ツー・エンド訓練として、適応及び調整の両方の方法を組み合わせる。
具体的には、蒸留mBERTモデルを自己回帰型トランスフォーマデコーダに変換し、多言語音響とテキスト空間を共同で探索し、低リソース言語の性能を改善した。例えば、予備訓練されたmBERTのパラメータは、トランスフォーマデコーダによって採用される。クロスアテンションモジュールは、テキスト空間に加えて音響空間を探索するために、mBERTのセルフアテンション層の上でエンコーダに追加される。エンコーダとmBERTデコーダの連動した訓練は、発話とテキストの間の意味的ギャップを埋めることができる。このように、訓練のための十分なデータを有さない低リソース言語の言語生成能力を大幅に改善することができる。
加えて、最小の追加パラメータで特定の言語に多言語ネットワークを適応させるために、言語特有アダプタと言語非依存アダプタを並列に採用して、各エンコーダとデコーダ層を拡張した。言語特有アダプタは、共有ネットワークの重みを特定の言語に適応させることに焦点を当てているが、言語間のより良好な知識トランスファーを改善するために、いくつかの共有及び言語非依存知識を学習するために、言語非依存(共通)アダプタが提案されている。
一実施形態では、希少言語対支配言語のロジット間の相対的マージンを増加させるために、クラス不均衡調整が、多言語モデル訓練又はロジット調整に基づく推論の間に実行される。具体的には、クラス不均衡調整は、ソフトマックス入力のロジットをクラスプライヤー(class prior)で調整することによって適用される。このアプローチは、支配言語と希少言語の間の相対的マージンを均衡させるものであり、これは、エンド・ツー・エンドの学習と共に、又はポスト訓練中に、プラグ・アンド・プレイ法として適用され得る。
本明細書で使用される場合、用語「ネットワーク」は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び/又はそこで実装されるか、又はそれと共に実装される任意の訓練又は学習モデルを含む任意のハードウェア又はソフトウェアベースのフレームワークを含んでもよい。
本明細書で使用される場合、用語「モジュール」は、1つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含んでもよい。いくつかの実施形態では、モジュールは、1つ以上のニューラルネットワーク上で実装されてもよい。A2フレームワークの概要
図1は、本明細書に記載される実施形態による、エンド・ツー・エンドの多言語ASRのためのA2フレームワーク100のアーキテクチャの簡略化された図を示す。具体的には、A2フレームワーク100は、ベースモデルとして、トランスフォーマベースのシーケンス・ツー・シーケンスモデルに基づいて構築される。例えば、ハイブリッド・コネクショニスト時間的分類(CTC、connectionist temporal classification)アテンションネットワークに基づくシーケンス・ツー・シーケンス発話トランスフォーマモデルが音響モデリングに使用される。このようなトランスフォーマモデルは、A no-recurrence sequence-to-sequence model for speech recognition, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5884-5888, 2018; Kim et al., Joint ctc-attention based end-to-end speech recognition using multi-task learning, CoRR, abs/1609.06773, 2016; Karita et al., Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration, in Proceedings of Interspeech 2019, pp. 1408-1412, 2019に記載されているものと類似していてもよく、これらは全てそれらの全体が参照により本明細書に明示的に組み込まれる。
トランスフォーマベースモデルはエンコーダ110及びデコーダ115を含む。エンコーダ110は、音声特徴シーケンスの入力
を受信し、音声潜在表現y=fenc(x)を出力する。ここで、T及びFは、シーケンスの長さ及び特徴次元を示す。
エンコーダ110は、多数のエンコーダ層を含む。各エンコーダ層は、二次元畳み込み層102と、それに続くセルフアテンション層106とを含む。畳み込み層102は、セルフアテンション層106に送信される前に、よりロバストな特徴を抽出するために使用される。例えば、図2Aは、本明細書に記載されるいくつかの実施形態による、エンコーダ110の構造を示す簡略化された図を提供する。図2Aに示すように、アダプタ層108が、2つの層ノルム104a~104b (図1には図示せず)及びセルフアテンション層106の後に追加される。セルフアテンション層106は、入力の特徴にアテンションを行う。アダプタ層108は、セルフアテンションされた特徴から言語固有の知識を捕捉するアダプタ出力にセルフアテンション出力を適応させる言語特有アダプタと、図3に関連してさらに記載されるように、セルフアテンションされた特徴から言語非依存知識を捕捉するアダプタ出力にセルフアテンション出力を適応させる共通アダプタと、を含む。フィードフォワードサブ層109は、第1のアダプタ出力と第2のアダプタ出力の組み合わせに基づいて、入力のエンコード表現(エンコーダ隠れ状態)を生成する。
セルフアテンション層106及びアダプタ層108の両方の後に、2つの残差接続202及び204が適用される。フィードフォワード層109は、l番目のエンコーダ層のエンコーダ層出力
を出力する。すなわち、
である。ここで、
は、前の層(l-1)のエンコーダ隠れ状態であり、
は、エンコーダ層lの出力である。
図1を参照すると、デコーダ115は、2つのアテンションメカニズムを有し、一方はセルフアテンション112のためのものであり、他方はエンコーダ出力のためのクロスアテンション層114のためのものである。例えば、図2Bは、本明細書に記載されるいくつかの実施形態による、デコーダ115の構造を示す簡略化された図を提供する。図2Bに示すように、アダプタ層118は、層ノルム117c、クロスアテンション層114、層ノルム117b、セルフアテンション層112、及び層ノルム117aの後に配置される。セルフアテンション層112は、前のトークンに対応する埋め込みにアテンションを行う。クロスアテンション層114は、エンコーダ隠れ状態及び正規化されたセルフアテンション出力にアテンションを行う。アダプタ118は、デコーダ層内のクロスアテンション出力を適応させる言語特有アダプタ及び共通アダプタを含む。フィードフォワードサブ層119は、第2の言語特有アダプタと第2の共通アダプタからの出力の組み合わせに基づいてロジット出力を生成する。
したがって、層lのデコーダ隠れ状態は、以下のように計算される。
である。ここで、
は、前の層のデコーダ隠れ状態であり、
は、現在の層の出力である。
デコーダ115は、センテンスピースを予測するためにビーム探索を採用する。デコーディングスコアは、デコーディングパラメータとしてβを使用して、CTC確率とアテンションネットワーク確率の両方の加重和として計算され、それらを均衡させる。すなわち、
である。ここで、y’はこれまでにデコードされたシーケンスである。
図1に戻って参照すると、一実施形態では、CTC層がエンコーダ出力に追加されて、アテンションモデルの正則化器として役割を果たしてもよい。CTC層のさらなる詳細は、Graves et al., Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks, in Proceedings of the 23rd international conference on Machine learning, pp. 369-376, 2006に見出されてもよく、これは、その全体が参照により本明細書に明示的に組み込まれる。したがって、エンコーダfenc(x)の出力は、CTC出力pctcを生成するために、ソフトマックスモジュール125に渡されてもよい。
デコーダ分岐では、デコーダ出力yt=f(yt-1,henc)が調整モジュール120に渡される。調整モジュール120は、ロングテールデータに対して訓練されたモデル上のロジットを較正するための正規化方法を採用する。例えば、不均衡データ設定では、モデルによって生成されたロジットは非常に歪んでおり、稀なクラスに対して非常に低いスコアを与える。したがって、これらのスコアは、リソースの乏しいクラスを誤って予測するときに、より高いペナルティを与えるために、ラベルの出現の分布に従って調整されなければならない。調整モジュール120は、既存のシステムがそのように選択し得るのと同じように最も高く推定されたクラス確率に調整を適用する代わりに、全てのクラスのロジットを調整する。したがって、調整プロセスは、シーケンス・ツー・シーケンスのような生成モデルに適用され得、このアプローチはタスク非依存である。ロジック調整モジュール120のさらなる詳細は、図5に関連して以下に記載される。
言語調整モジュール120の出力pattnは、pctcと共に、次いで、エンコーダ110及びデコーダ115を連動して訓練するために、損失目的を計算するために使用され得る。
フレームワーク100は、現在の出力が与えられた次のトークンを予測することによって自己回帰的方式で訓練される。エンコーダ110及びデコーダ115は、CTC出力pctcから計算されたCTC損失と、デコーダ出力pattnから計算されたアテンション損失LATTNとを組み合わせたマルチタスク損失LMTLによって連動して訓練されてもよい。マルチタスク損失LMTLは、ハイパーパラメータλ(0≦λ≦1)でCTC損失とアテンション損失の補間として計算されてもよい。すなわち、
である。ここで、pYは、モデルが自信過剰な予測を行わないように、ラベル平滑化した後のラベル分布である。Kullback‐Leibler発散損失(KL)が、アテンション損失のために使用される。
一実施形態では、トランスフォーマデコーダ115は、特に低リソース言語に対して、より良好な言語モデリングのために、予備訓練されたmBERT105に置き換えられてもよい。例えば、予備訓練されたmBERTのパラメータは、図3に関連して以下に記載のように、トランスフォーマデコーダ115にトランスファーされてもよい。
図3は、本明細書に記載される実施形態による、予備訓練された多言語モデルmBERT105から発話認識デコーダ115へのパラメータトランスファーを示す簡略化された図である。図3に示すように、mBERT105は、mBERT埋め込み層303からの埋め込みと、mBERTのセルフアテンション層304からのセルフアテンションパラメータとが、デコーダ115のデコーダ層の埋め込み層313とセルフアテンション層112にそれぞれトランスファーされるという方式で、自己回帰型トランスフォーマデコーダ115として採用されてもよい。
mBERT105は、テキストデータのみについて元々訓練されるが、音響空間とテキスト空間の両方を探索するために、デコーダ115においてクロスアテンション層114が追加されて、セルフアテンション層112に加えて、各mBERT層のエンコーダ出力に適用される。このようにして、クロスアテンション層114及びセルフアテンション層112は、発話認識のための音響及びテキスト空間を「整列」するように学習される。これは、テキスト空間がエンコーダ出力の音響空間と大きく異なる可能性があり得るためである。
具体的には、現在のデコードステップtにおいて、自己回帰型デコーダ115は、次のトークンyt+1を予測するために現在の入力トークンytをとる。埋め込み層313(mBERT埋め込み層303からの埋め込み下で動作する)は、入力トークンをベクトル表現に変換する。続いて、クロスアテンション層114は、エンコーダ出力hencをキー及び値、セルフアテンション出力をクエリとして、アテンション出力を計算する。
元のmBERTの語彙サイズは、エンド・ツー・エンド発話認識システムを訓練するには大きすぎる(119,547トークン)可能性があることに留意されたい。従って、語彙マッピングは、発話トランスフォーマのためのターゲットの数を減らすために実行される。例えば、センテンスピース(SP)が、ターゲットトークンとして使用される。SPモデルは、プリセットされた語彙サイズを有するトランスクリプションに対して訓練される。例示的な実装として、多言語システムの語彙として、5,237個のトークンの共有セットが使用されてもよい。センテンスピースモデルのために設定されたトークンの最小数は、2,265トークンを有する中国語を除き、すべての単言語システムの場合150である。生成されたセンテンスピーストークンは、mBERTトークンセットと照合される。訓練中、mBERT語彙のすべてのトークンの埋め込みは、mBERT埋め込みで初期化される。
図4Aは、本明細書に記載される実施形態による、言語アダプタ108又は118内のワークフローを示す例示的な図400を示し、図4Bは、本明細書に記載される実施形態による、図1及び図2A~図2Bに示す言語アダプタ108又は118の例示的な構造を示す。例えば、言語アダプタ108又は118は、二重アダプタ構造を採用してもよい。すなわち、限られたリソースを有する言語に対するモデルロバスト性を向上させるために最小言語特有パラメータを用いるより良好な音響モデリングのための軽量残差言語アダプタ402があり、言語固有の知識を捕捉するための言語特有アダプタ402に加えて、多言語データにおける言語非依存情報を学習するための共有共通アダプタ404も訓練される。言語特有アダプタ402及び共通アダプタ404は、それぞれ、Alang及びAcomとして示される。
一実施形態では、言語特有アダプタは、言語マスクによって識別される。例えば、図4Aに示すように、言語特有アダプタ402はスペイン語に特有である。
図4Bに示すように、層lの各アダプタ108又は118は、層ノルム411、ダウンプロジェクション層412、Wl
d、続いてReLU活性化関数413、及びアッププロジェクション層414、Wl
uを含む。具体的には、言語特有アダプタ402及び共通アダプタ402、404は、入力としてhlを受信する。ここで、hlは、層lのセルフアテンション出力(例えば、言語アダプタがエンコーダ110に存在するかデコーダ115に存在するかに応じて、エンコーダ110のセルフアテンション層106からか、又はデコーダ115のセルフアテンション層112から)である。次いで、アダプタAdapter(hl)の出力は、言語特有アダプタ402及び共通アダプタ404の両方に対して、それぞれ、言語固有アダプタ402及び共通アダプタ404に対して設定されたWl
d、Wl
u及びReLUパラメータを用いて、以下のように計算されてもよい。
例えば、アダプタ(hl)は、それぞれ、言語特有アダプタ402の出力ol
langとして、及び共通アダプタ404の出力ol
comとして計算されてもよい。その後、エンコーダ110内のフィードフォワード層109、又はデコーダ115内のフィードフォワード層119への入力として、アダプタ出力ol
lang及びol
com並びにolを加えることによって、最終アダプタ出力olが計算される。訓練と推論の間に、言語固有と共通のアダプタの両方の出力が組み合わされる。
図5は、本明細書に記載される実施形態による、図1に示す調整モジュールの例示的な動作を示す例示的な図を提供する。前述のように、異なる言語における訓練データの利用可能性の違いのために、エンコーダ110及びデコーダ115のベースモデルは、センテンスピースクラス不均衡問題によって影響を受ける場合がある。ロジット調整モジュール120は、訓練中にクラスプライヤーを組み込むことによって、又はロジット調整を介して推論することによって、不均衡の問題に対処してもよい。
調整モジュールは、図1のデコーダ115からのデコーダ出力407、例えば、yt=f(yt-1,henc)を、計算されたクラスプライヤー406を使用して調整してもよい。例えば、クラスプライヤーπyは、多言語訓練データから推定されたセンテンスピーストークンの自然頻度(natural frequency)である。有効なプライヤー分布を形成するために、クラスプライヤー計算モジュール404は、ゼロ発生トークンの生カウントに平滑化を適用して、クラスプライヤー
を計算する。ここで、Cは、すべてのラベルの合計カウント数、n0は、ゼロ発生を有するラベル数、Nは、クラス数、ciは、クラスiの生カウントである。
次いで、クラスプライヤー406がロジット調整408に出力され、このロジット調整は、デコーダ出力407も受信する。ロジット調整408は、調整されたロジット406を入力として用いて、ソフトマックス分類器410に出力してもよく、これは、全てのクラスにわたって均衡された誤差を最小限に抑える。ロジット調整408では、自然調整は、対応するクラスプライヤーπyの逆数によってロジットfy(x)をスケーリングすることである。ログドメインにおいて、調整は以下のように実行され得る。
ここで、τ>0はハイパーパラメータである。この調整は、クラスに依存したオフセットを適用して、そのクラスプライヤーに従った各ロジットの重み付けを再度行うものと見なされ得る。
訓練中にプライヤー組み込むために、デコーダ出力407は、以下に従ったソフトマック410の前に調整される最後のデコーダ層のロジット
を含む。
ソフトマックス分類器410からのシーケンスの調整されたソフトマック出力ベクトル
は、図1に関連して記載されるように、損失目的を計算するためにpattnとして使用され、ベースモデルを更新するためにバックプロパゲーションを実行する。yt-1は、訓練中のみ利用可能な前のラベルである。訓練と推論の矛盾を低減するために、スケジューリングされたサンプリングが、発話認識のような逐次的な分類タスクのために使用され得る。後の訓練反復中、ロジットを計算するために正解ラベルyt-1を使用する代わりに、近似ラベルy’t-1が代わりに使用されてもよく、これは、推論をシミュレートするために現在のモデルの最大予測出力から選択される。
一実施形態では、スケジューリングされたサンプリングが使用される場合、ステップtでの調整されたロジット406は、現在のシーケンスにおける以下のトークンのすべてに影響を及ぼす。従来のラベル平滑化方法では、通常、プライヤーπyは、データに依存しない一様分布である。ロジット調整408は、クラスプライヤーに基づいたクラス特有「平滑化」を適用し、標準ラベル平滑化を用いるベースラインより優れていることが示されている。
代替的には、クラスプライヤー406は、ロジット調整を介して推論中に組み込まれ得る。デコーディングスコアは、以下のように計算される。
ビーム探索中、アテンションデコーディングスコア
は、調整されたロジット406からのスケジューリングされたサンプリングと同じ方法で計算される。
コンピュータ環境
図6は、いくつかの実施形態による、多言語発話認識のためのエンド・ツー・エンドトランスフォーマフレームワーク600を実装するための計算デバイスの簡略図である。図6に示すように、計算デバイス600は、メモリ620に結合されたプロセッサ610を含む。計算デバイス600の動作は、プロセッサ610によって制御される。また、計算デバイス600は、1つのプロセッサ610のみを有して示されているが、プロセッサ610は、計算デバイス600内の1つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路、グラフィック処理ユニット(GPU)などを代表するものであってもよいことが理解される。計算デバイス600は、スタンドアロンのサブシステムとして、計算デバイスに追加されたボードとして、及び/又は仮想マシンとして実装されてもよい。
図6は、いくつかの実施形態による、多言語発話認識のためのエンド・ツー・エンドトランスフォーマフレームワーク600を実装するための計算デバイスの簡略図である。図6に示すように、計算デバイス600は、メモリ620に結合されたプロセッサ610を含む。計算デバイス600の動作は、プロセッサ610によって制御される。また、計算デバイス600は、1つのプロセッサ610のみを有して示されているが、プロセッサ610は、計算デバイス600内の1つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路、グラフィック処理ユニット(GPU)などを代表するものであってもよいことが理解される。計算デバイス600は、スタンドアロンのサブシステムとして、計算デバイスに追加されたボードとして、及び/又は仮想マシンとして実装されてもよい。
メモリ620は、計算デバイス600によって実行されるソフトウェア及び/又は計算デバイス600の動作中に使用される1つ以上のデータ構造を記憶するために使用されてもよい。メモリ620は、1つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体を含んでもよい。
プロセッサ610及び/又はメモリ620は、任意の好適な物理的配置に配置されてもよい。いくつかの実施形態では、プロセッサ610及び/又はメモリ620は、同じボード、同じパッケージ(例えば、システムインパッケージ)、同じチップ(例えば、システムオンチップ)などに実装されてもよい。いくつかの実施形態では、プロセッサ610及び/又はメモリ620は、分散、仮想化、及び/又はコンテナ化された計算リソースを含んでもよい。そのような実施形態と一致して、プロセッサ610及び/又はメモリ620は、1つ以上のデータセンター及び/又はクラウド計算施設に位置してもよい。
いくつかの例では、メモリ620は、1つ以上のプロセッサ(例えば、プロセッサ610)によって動作するときに、1つ以上のプロセッサに本明細書にさらに詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。例えば、図示のように、メモリ620は、システム及びモデルを実装及び/又はエミュレートするため、及び/又は本明細書にさらに記載される方法のうちのいずれかを実装するために使用され得る多言語発話認識モジュール660のための命令を含む。いくつかの例では、多言語発話認識モジュール660は、データインターフェース615を介して、例えば異なる言語の音声発話サンプルのような入力640を受信してもよい。データインターフェース615は、明瞭に発音された音声入力を受信するユーザインターフェース、又はデータベースから前に記憶された音声サンプルを受信又は取り出し得る通信インターフェースのいずれであってもよい。多言語発話認識モジュール660は、音声発話入力640に対応するトランスクリプトのような出力650を生成してもよい。
いくつかの実施形態では、多言語発話認識モジュール660は、図1に示すエンコーダ110及びデコーダ115を含むトランスフォーマベースのモデルを実装してもよい。図1に関連して記載されたものと同様に、エンコーダ110及びデコーダ115は各々、言語アダプタ108及び118を含む。多言語発話認識モジュール660は、図1に示すロジット調整器120をさらに含み得る。
いくつかの例では、多言語発話認識モジュール660、及びサブモジュール110、115、及び120は、ハードウェア、ソフトウェア、及び/又はハードウェアとソフトウェアの組み合わせを使用して実装されてもよい。
適応及び調整ワークフロー
図7Aは、本明細書に記載される実施形態による、図1に示される多言語フレームワーク100によって実装されるプロセスフローを示す例示的な疑似コードセグメントを提供し、図7B~図7Cは、本明細書に記載される実施形態による、例示的な疑似コードセグメントに対応する例示的な論理フロー図を提供する。方法700のプロセス702~728のうちの1つ以上は、少なくとも部分的に、1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサにプロセス702~728のうちの1つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法700は、モジュール660によって使用される方法に対応してもよい。
図7Aは、本明細書に記載される実施形態による、図1に示される多言語フレームワーク100によって実装されるプロセスフローを示す例示的な疑似コードセグメントを提供し、図7B~図7Cは、本明細書に記載される実施形態による、例示的な疑似コードセグメントに対応する例示的な論理フロー図を提供する。方法700のプロセス702~728のうちの1つ以上は、少なくとも部分的に、1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサにプロセス702~728のうちの1つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法700は、モジュール660によって使用される方法に対応してもよい。
ステップ702では、多言語データの訓練データセットが、例えば、データインターフェース615で受信され得、エンコーダ110及びデコーダ115を含むトランスフォーマモデルが、ランダムで初期化されたパラメータで初期化されてもよい。例えば、トランスフォーマモデルは、メモリ620に記憶されてもよい。
ステップ704では、デコーダパラメータは、例えば、図3に関連して記載されるように、予備訓練された言語モデル(例えば、mBERT)からトランスフォーマデコーダへトランスファーされてもよい。
ステップ706では、クラスプライヤーは、例えば、図4のクラスプライヤーモジュール404で記載されたように、多言語訓練データから計算されてもよい。
ステップ708では、多言語発声(utterance)のバッチが訓練データセットからサンプリングされてもよい。
ステップ710では、言語アダプタマスクが、発声のバッチ内の言語タグを使用して生成されてもよい。例えば、言語アダプタマスクは、例えば、スペイン語、英語などの多言語発声の特定のタイプの言語を示してもよい。
ステップ712では、エンコーダ隠れ状態、例えば、hencは、入力発話x及び言語マスクに基づいてエンコーダ110によって計算されてもよい。
ステップ714では、エンコーダ隠れ状態及び言語マスクに基づいてデコーダ115によってロジットが計算されてもよい。
ステップ716では、計算されたロジットが、例えば、図5に関連して記載されたように、言語調整によって調整されてもよい。
ステップ718では、エンコーダは、例えば、図1に示すCTCポステリアー(posteriors)
を生成してもよい。
ステップ720では、アテンション損失は、調整されたロジット及びアテンション出力に基づいて計算され得る。
ステップ724では、マルチタスク損失は、アテンション損失、CTC出力、及び補間パラメータλに基づいて計算されてもよい。
ステップ726では、トランスフォーマモデル、例えば、エンコーダ110及びデコーダ115は、次いで、バックプロパゲーションを介したマルチタスク損失に基づいて、連動して更新されてもよい。
ステップ708~726は、それ以上の訓練ステップがないまで(決定728において)繰り返されてもよい。プロセス700は、それ以上の訓練ステップがないときに、決定728の後に終了してもよく、そうでなければ、ステップ708~726は、決定728から繰り返されてもよい。
例示的な性能
多言語訓練データセットには、CommonVoiceデータセット(Ardila et al., Common voice: A massively-multilingual speech corpus, in Proceedings of the 12th Language Resources and Evaluation Conference, pp. 4218-4222, 2020を参照)を含んでもよい。11の言語、すなわち、英語(en)、スペイン語(es)、フランス語(fr)、イタリア語(it)、キルギス語(ky)、オランダ語(nl)、ロシア語(ru)、スウェーデン語(sv)、トルコ語(tr)、タタール語(tt)、及び中国語(zh)が使用される。データセットは、ESPNETのレシピに従って、訓練セット、devセット、及びevalセットにスプリットされる。トランスクリプションは、ユニグラムアルゴリズムを用いてSentencePieceモデルを使用してトークン化される。SentencePieceモデルは、音声トランスクリプションを使用して訓練される。<unk>、<sos>、<eos>、ブランクトークンなどの特殊トークンがCTC目的に追加される。
多言語訓練データセットには、CommonVoiceデータセット(Ardila et al., Common voice: A massively-multilingual speech corpus, in Proceedings of the 12th Language Resources and Evaluation Conference, pp. 4218-4222, 2020を参照)を含んでもよい。11の言語、すなわち、英語(en)、スペイン語(es)、フランス語(fr)、イタリア語(it)、キルギス語(ky)、オランダ語(nl)、ロシア語(ru)、スウェーデン語(sv)、トルコ語(tr)、タタール語(tt)、及び中国語(zh)が使用される。データセットは、ESPNETのレシピに従って、訓練セット、devセット、及びevalセットにスプリットされる。トランスクリプションは、ユニグラムアルゴリズムを用いてSentencePieceモデルを使用してトークン化される。SentencePieceモデルは、音声トランスクリプションを使用して訓練される。<unk>、<sos>、<eos>、ブランクトークンなどの特殊トークンがCTC目的に追加される。
2048ユニットの隠れたサイズと8つのアテンションヘッドを有する6つのトランスフォーマエンコーダ層が使用され、各々のアテンション次元は256である。デコーダに対して、distil-mBERT(Sanh et al., Distilbert, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv preprint arXiv:1910.01108, 2019を参照)が使用される。mBERTデコーダは、3072の隠れたサイズと756のアテンション次元を有する6つのトランスフォーマデコーダ層と4つのアテンションヘッドからなる。モデルは、32のバッチサイズで訓練され、勾配を2ステップで累積し、単一のGPU NVIDIA V100 16GBを使用してより大きなバッチサイズを有する。モデルは、25000のウォームアップステップでAdamオプティマイザで訓練される。特に、均衡されたサンプリングに対して、各言語について6つのサンプルが取られ、勾配を11回累積することにより均衡されたバッチを構築する。
このモデルは、10のビーム幅10、λ=0.3、及びβ=0.5でビーム探索を使用して実装されてもよい。超パラメータτは、訓練及び推論位相クラスの不均衡調整の両方に対して0.3に設定される。多言語モデルは、150K反復で訓練される。最後の10個のチェックポイントにわたる平均は、デコードモデルとして計算される。単一言語設定では、訓練は100エポックの訓練後に停止する。モデルは、評価を単純化し、すべての言語に対して普遍的なメトリックを有するために、文字誤り率(CER)を使用して評価される。
ベースライン比較に対して、ベースラインモデルは、単言語(monolingual models)、データ分布からバッチをランダムにバッチをサンプリングするSMT(Standard Multilingual Training)、バッチ内の各言語について同数の発話をサンプリングし、訓練に対して概ね等しい寄与を有するようにするBS(Balanced Sampling)、Kannan et al., Large-scale multilingual speech recognition with a streaming end-to-end model. Proc. Interspeech 2019, pp. 2130-2134, 2019によって提案された言語特有アダプタを有するLAN-Specific Adapters、及び
Li et al., Multi-dialect speech recognition with a single sequence-to-sequence model, in 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp. 4749-4753, 2018によって提案されたワンホット言語ベクトルで条件付けするLID(language ID)を含む。
Li et al., Multi-dialect speech recognition with a single sequence-to-sequence model, in 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp. 4749-4753, 2018によって提案されたワンホット言語ベクトルで条件付けするLID(language ID)を含む。
図8は、本明細書に記載される一実施形態による、訓練データセットに対するCERに関する例示的なテスト結果の例の表を提供する。図8の表1に示されるように、単言語モデルと比較して、SMTモデルでさえ、低リソース言語の性能を有意に改善する。言い換えれば、SMTは比較すべき適切な多言語ベースラインである。これは、多言語モデルが、異plo0なる言語で共有され、低リソース言語認識に有益である、共通のサブ音声学調音特徴を捉えることができるためである可能性がある。
追加的に、SMTと比較して、テール言語性能が有意にブーストされる。しかしながら、ヘッド言語の性能は、訓練中の発生回数が少ないことをこうむる。モデルは、アップサンプリングによりテール言語に対して明らかにオーバーフィッティングされ、例えば、「ky」と「sv」の訓練セットに対するCERは、評価データよりもかなり低い(訓練3.4%と4.2%対評価13.4%と22.8%)。結果として、全体的な性能はSMTと同じである。実際、均衡されたサンプリングの後でも、センテンスピーストークンは依然としてロングテール分布を有する。
言語適応技術は、LAN-Specific Adapters、ワンホット言語ベクトル及びDual-Adaptersと比較される。すべてのアダプタは、BS+mBERTに基づいており、BSのみのモデルよりも性能が良いことに留意する。共通アダプタなしで言語特有アダプタを追加すると、0.9%の絶対性能ゲインでBSベースラインよりも有意に優れる。形成時に言語を注入するもう1つの方法は、ワンホット言語ベクトルを拡張することである。興味深いことに、言語ベクトルにセンテンスピースクラス不均衡調整(LID+Adjust-Train)を適用すると、CERを有意に改善する。
訓練位相と推論位相の調整の両方が、1%の絶対CER低減でLAN-Specific Adaptersに対して有意の性能ゲインを提供する。ゲインは、主にヘッド言語の改善された性能によるものであるが、テール言語もロジット調整の恩恵を受ける。さらに重要なことは、ヘッド言語に対する単言語と多言語の性能のギャップが大幅に低減され、より良い「均衡されたエラー」性能をもたらすことである。このことは、クラス不均衡調整の重要性を強く正当化している。BSと比較して、A2はテール言語へのオーバーフィッティングも避けており、「ky」及び「sv」に対するCERは8.2%及び23.6%であり、評価CERにかなり近い。ランダムサンプリングによるSMTと比較して、A2は、2つのヘッド言語「fr」と「en」に対して、適度なコストで、有意により良好な平均CERを有する。
図9は、本明細書に記載される一実施形態による、mBERTの有効性を示すmBERTに対するアブレーション研究結果の表を提供する。mBERTの性能は音響モデルの品質に大きく依存する。アダプタ又はロジットの調整がなければ、BSに対する改善は限界的であり、mBERT性能はSMTではさらに悪い。これは、A2のようなより良好な音響モデルでは、バニラmBERTのテキスト空間が音響空間とより良く整列していることを示している可能性があり、これは、全ての言語、特に低リソースのものにわたる性能の改善につながる。興味深いのは、アダプタがなくても、「SMT+mBERT+Adjust-Train」は、最良のアダプタシステム(BS+mBERT+Dual-Adapters)と同じ全体のCERを生成することにも留意する。
いくつかの実装では、予備訓練された言語モデルの影響を研究するために、蒸留mBERTの代わりに、より進歩したXLM-R予備訓練モデルが使用される。XLM-RはmBERTよりも良好な多言語言語生成能力を有するが、多言語ASRタスクの最終的な性能ゲインには至らない。
図10は、本明細書に記載される一実施形態による、言語アダプタの例示的なアブレーション研究の表を提供する。異なるアダプタの結果及びパラメータサイズが、図10の表3に与えられる。例えば、デコーダ層アダプタは、エンコーダ層のように、効果的でなくてもよく、音響空間の適応は、テキスト空間よりもずっと効果的であることを示す。したがって、デコーダアダプタ(例えば、118)は、任意選択であってもよい。
図11は、本明細書に記載される一実施形態による、共通言語アダプタの有効性を示す言語アダプタの例示的なアブレーション研究結果の表を提供する。Dual-Adaptersは、CERの絶対値が0.5%低下し、有意に言語特有アダプタよりも優れ、これは、共通アダプタを用いた知識トランスファーが有効であることを示している。
個々の言語アダプタに加えて、同じグループ内のアダプタの共有を可能にするために、言語はグループに分割される。書かれたスクリプトによれば、11の言語は、例えば、ラテン文字、漢字及びキリル文字の言語グループに分割されてもよい。それらは、言語ファミリ、例えば、ロマンス語、中国語、トルコ語、ドイツ語にグループ化され得る。このグループは、語彙、文法、発音の類似性により焦点を当てており、これらは通常、エンド・ツー・エンドの多言語アーキテクチャ下で包摂される。
1つのグループによれば、同じクラスタに属する言語は、必ずしも他のグループの同じクラスタに属するとは限らない。例えば、タタール語とトルコ語は両方ともチュルク語である。しかしながら、タタール語は、キリル文字を、トルコ語は、ラテン文字を使用する。同じグループ内のすべての言語が同じデュアルアダプタを共有し、アダプタはすべての言語メンバで訓練される。一般に、言語ファミリによってグループ化することは、表3のデコーダアダプタよりも効果的な音響空間を適応させるためのエンコーダアダプタにより調和するため、書かれたスクリプトによるグループ化よりも良好である。
1つのグループによれば、同じクラスタに属する言語は、必ずしも他のグループの同じクラスタに属するとは限らない。例えば、タタール語とトルコ語は両方ともチュルク語である。しかしながら、タタール語は、キリル文字を、トルコ語は、ラテン文字を使用する。同じグループ内のすべての言語が同じデュアルアダプタを共有し、アダプタはすべての言語メンバで訓練される。一般に、言語ファミリによってグループ化することは、表3のデコーダアダプタよりも効果的な音響空間を適応させるためのエンコーダアダプタにより調和するため、書かれたスクリプトによるグループ化よりも良好である。
個々の言語アダプタと比較して、言語ファミリによって言語アダプタを共有することは、低リソース言語、例えば、ドイツ語グループの「sv」、チュルク語グループの「ky」及び「tr」の性能を助ける。これは、より多くのデータがグループアダプタを訓練するために使用されるためである。しかし、これも「個別のデュアルアダプタ」と比較すると、リソースの豊富な言語にはコストがかかる。したがって、個々の言語アダプタは、アダプタのパラメータサイズがエンコーダ及びデコーダのアテンション重みよりもはるかに小さいことを考慮することが推奨される。
図12は、本明細書に記載される一実施形態による、異なるモデルによる訓練及び推論位相ロジット調整を示す例示的な性能の表を提供する。図12の表5に示すように、SMTシステムについては、訓練フェーズ調整は推論フェーズ調整よりも明らかな利点を示す。凸仮定の下では、2つの調整アプローチの解は同じである。しかしながら、ディープニューラルネットワーク最適化は非凸問題であるため、異なる局所最小値に収束してもよい。SMTの下では、このモデルはランダムサンプリングのためにヘッドクラスに大きく偏っている。訓練フェーズの不均衡の調整は、訓練がテールクラスに集中するのを助けることができ、はるかに良好に均衡され、エラーが少なくなる。より良好な音響モデル、例えば、言語アダプタにより、推論フェーズ調整は、生の分類スコアをより良好に較正し、訓練フェーズ調整と同様の性能をもたらすことができる。
計算デバイス100のような計算デバイスのいくつかの例は、1つ以上のプロセッサ(例えば、プロセッサ110)によって動作するときに、1つ以上のプロセッサに方法600のプロセスを実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。方法600のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体である。
発明の態様、実施形態、実装、又は用途を例示するこの説明及び添付の図面は、限定的なものと解釈されるべきではない。様々な機械的、組成的、構造的、電気的、及び動作上の変更は、この説明及び特許請求の範囲の精神及び範囲から逸脱することなく行われてもよい。いくつかの例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技法が詳細に示されていないか、又は記載されていない。2つ以上の図の類似の数字は、同じ又は同様の要素を表す。
この説明では、本開示と矛盾しないいくつかの実施形態を記載する特定の詳細が明記されている。実施形態の完全な理解を提供するために、多数の詳細が明記されている。いくつかの実施形態は、これらの特定の詳細の一部又は全部がなくても実施され得ると当業者に明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを回避するために、1つの実施形態に関連して示され、記載される1つ以上の特徴は、他の方法で具体的に記載されないいか、又は1つ以上の特徴が一実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。
例示的な実施形態が示され記載されたが、広範囲の修正、変更及び置換が、前述の開示において企図され、いくつかの例では、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに用いられてもよい。当業者であれば、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。
Claims (15)
- 多言語発話認識のためのシステムであって、
複数のエンコーダ層を含むエンコーダであって、エンコーダ層は、
入力の特徴にアテンションを行う第1のセルフアテンション層と、
セルフアテンションされた特徴から言語固有の知識を捕捉する第1のアダプタ出力に第1のセルフアテンション出力を適応させる第1の言語特有アダプタと、
前記セルフアテンションされた特徴から言語非依存知識を捕捉する第2のアダプタ出力に前記第1のセルフアテンション出力を適応させる第1の共通アダプタと、
前記第1のアダプタ出力と前記第2のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成する第1のフィードフォワードサブ層と、を含む、エンコーダと、
前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を生成するデコーダと、を含む、システム。 - 前記デコーダは、複数のデコーダ層を含み、前記複数のデコーダ層からのデコーダ層は、
前記前のトークンに対応する埋め込みにアテンションを行う第2のセルフアテンション層と、
前記エンコーダ隠れ状態及び、前記第2のセルフアテンション層からの第2のセルフアテンション出力にアテンションを行うクロスアテンション層と、
前記デコーダ層内でクロスアテンション出力を適応させる第2の言語特有アダプタ及び第2の共通アダプタと、
前記第2の言語特有アダプタと前記第2の共通アダプタからの出力の組み合わせに基づいてロジット出力を生成する第2のフィードフォワーサブ層と、を含む、請求項1に記載のシステム。 - 前記デコーダは、自己回帰型トランスフォーマデコーダであり、
前記第2のセルフアテンション層の前記埋め込み及びパラメータは、予備訓練された言語モデルの対応物から複製される、請求項2に記載のシステム。 - 前記クロスアテンション層は、前記エンコーダ隠れ状態をキー及び値として取り、前記第2のセルフアテンション出力をクエリとして取り、前記クロスアテンション出力を計算する、請求項2に記載のシステム。
- 前記第1の言語特有アダプタ及び前記共通アダプタの各々は、ダウンプロジェクション層、ReLU活性化モジュール、及びアッププロジェクション層を含む、請求項1に記載のシステム。
- 前記第1の言語特有アダプタは、言語マスクによって指定され、
前記第1のアダプタ出力は、前記言語マスクに少なくとも部分的に基づいて生成される、請求項1に記載のシステム。 - クラス依存オフセットを対応するクラスプライヤーに従って各ロジットに適用することによって、デコーダからの論理出力を調整する言語調整モジュールをさらに含む、請求項1に記載のシステム。
- 前記クラスプライヤーは、多言語訓練データセットから推定されたセンテンスピーストークンの頻度によって計算される、請求項7に記載のシステム。
- 前記調整されたロジット出力は、前記現在のトークンの予測確率分布を計算するために使用される、請求項7に記載のシステム。
- 前記エンコーダと前記デコーダは、前記調整されたロジット出力、ラベル分布、及び前記エンコーダからのコネクショニスト一時分類出力に基づいて計算された損失目的によって、連動して訓練される、請求項1に記載のシステム。
- 多言語発話認識のための方法であって、
多言語発話を受信することと、
エンコーダによって、前記多言語発話の入力に基づいて、
第1のセルフアテンションモジュールによって、前記多言語発話の特徴にアテンションを行うことと、
第1の言語特有アダプタによって、セルフアテンションされた特徴から言語固有の知識を捕捉する第1のアダプタ出力に第1のセルフアテンション出力を適応させることと、
第1の共通アダプタによって、前記セルフアテンションされた特徴から言語非依存知識を捕捉する第2のアダプタ出力に前記第1のセルフアテンション出力を適応させることと、
第1のフィードフォワードサブ層によって、前記第1のアダプタ出力と前記第2のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成することと、を行うことによってエンコーダ隠れ状態を計算することと、
デコーダによって、前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を計算することと、を含む、方法。 - 第2のセルフアテンション層によって、前記前のトークンに対応する埋め込みにアテンションを行うことと、
クロスアテンション層によって、前記エンコーダ隠れ状態及び、前記第2のセルフアテンション層からの第2のセルフアテンション出力にアテンションを行うことと、
前記デコーダ内で第2の言語特有アダプタによるクロスアテンション出力及び第2の共通アダプタによるクロスアテンション出力を適応させることと、
前記第2の言語特有アダプタと前記第2の共通アダプタからの出力の組み合わせに基づいて前記ロジット出力を生成することと、
前記クロスアテンション層によって、前記エンコーダ隠れ状態をキー及び値として取り、前記第2のセルフアテンション出力をクエリとして取り、前記クロスアテンション出力を計算することと、をさらに含む、請求項11に記載の方法。 - クラス依存オフセットを対応するクラスプライヤーにしたがって各ロジットに適用することによって、デコーダからの論理出力を調整することをさらに含み、
前記クラスプライヤーは、多言語訓練データセットから推定されたセンテンスピーストークンの頻度によって計算される、請求項11に記載の方法。 - 前記エンコーダ隠れ状態に基づいて前記エンコーダからコネクショニスト時間的分類出力を計算することと、
前記調整された論理出力から計算されるデコーダ出力確率分布に基づいてアテンション損失を計算することと、
前記コネクショニスト時間的分類出力と前記アテンション損失に基づいてマルチタスク損失を計算することと、
バックプロパゲーションを介したマルチタスク損失に基づいて、前記エンコーダと前記デコーダを連動して訓練することと、をさらに含む、請求項13に記載の方法。 - 多言語発話認識のためのプロセッサ実行可能命令を記憶する非一時的なプロセッサ可読記憶媒体であって、前記命令は、前記命令がプロセッサによって実行されて、
多言語発話を受信することと、
エンコーダによって、前記多言語発話の入力に基づいて、
第1のセルフアテンションモジュールによって、前記多言語発話の特徴にアテンションを行うことと、
第1の言語特有アダプタによって、セルフアテンションされた特徴から言語固有の知識を捕捉する第1のアダプタ出力に第1のセルフアテンション出力を適応させることと、
第1の共通アダプタによって、前記セルフアテンションされた特徴から言語非依存知識を捕捉する第2のアダプタ出力に前記第1のセルフアテンション出力を適応させることと、
第1のフィードフォワードサブ層によって、前記第1のアダプタ出力と前記第2のアダプタ出力の組み合わせに基づいて前記入力のエンコード表現を生成することと、を行うことによってエンコーダ隠れ状態を計算することと、
デコーダによって、前記エンコーダからのエンコーダ隠れ状態及び前のトークンに基づいて現在のトークンのロジット出力を計算することと、を行う、非一時的なプロセッサ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063086720P | 2020-10-02 | 2020-10-02 | |
US63/086,720 | 2020-10-02 | ||
US17/162,624 US11798534B2 (en) | 2020-10-02 | 2021-01-29 | Systems and methods for a multilingual speech recognition framework |
US17/162,624 | 2021-01-29 | ||
PCT/US2021/053098 WO2022072782A1 (en) | 2020-10-02 | 2021-10-01 | Systems and methods for a multilingual speech recognition framework |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023544336A true JP2023544336A (ja) | 2023-10-23 |
Family
ID=80931615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023519865A Pending JP2023544336A (ja) | 2020-10-02 | 2021-10-01 | 多言語発話認識フレームワークのためのシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11798534B2 (ja) |
EP (1) | EP4193356A1 (ja) |
JP (1) | JP2023544336A (ja) |
CN (1) | CN116324972A (ja) |
WO (1) | WO2022072782A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11756551B2 (en) * | 2020-10-07 | 2023-09-12 | Mitsubishi Electric Research Laboratories, Inc. | System and method for producing metadata of an audio signal |
US20220308848A1 (en) * | 2021-03-25 | 2022-09-29 | Microsoft Technology Licensing, Llc. | Semi-supervised translation of source code programs using neural transformers |
US11862147B2 (en) * | 2021-08-13 | 2024-01-02 | Neosensory, Inc. | Method and system for enhancing the intelligibility of information for a user |
JP7411149B2 (ja) * | 2022-05-20 | 2024-01-11 | 株式会社Nttドコモ | 学習装置、推定装置、学習方法、推定方法及びプログラム |
CN116737894B (zh) * | 2023-06-02 | 2024-02-20 | 深圳市客一客信息科技有限公司 | 基于模型训练的智能机器人服务系统 |
CN117198331B (zh) * | 2023-11-08 | 2024-03-15 | 东南大学 | 一种基于对数比调整的水下目标智能识别方法及系统 |
CN117880566A (zh) * | 2024-03-12 | 2024-04-12 | 广州久零区块链技术有限公司 | 一种基于人工智能的数字人直播交互方法及系统 |
CN117931204A (zh) * | 2024-03-19 | 2024-04-26 | 英特尔(中国)研究中心有限公司 | 用于跨isa实现内建函数api转换的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
US11145293B2 (en) | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US10963644B2 (en) * | 2018-12-27 | 2021-03-30 | Microsoft Technology Licensing, Llc | Computer-implemented generation and utilization of a universal encoder component |
-
2021
- 2021-01-29 US US17/162,624 patent/US11798534B2/en active Active
- 2021-10-01 WO PCT/US2021/053098 patent/WO2022072782A1/en unknown
- 2021-10-01 CN CN202180067024.7A patent/CN116324972A/zh active Pending
- 2021-10-01 EP EP21802060.0A patent/EP4193356A1/en active Pending
- 2021-10-01 JP JP2023519865A patent/JP2023544336A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4193356A1 (en) | 2023-06-14 |
WO2022072782A1 (en) | 2022-04-07 |
US20220108688A1 (en) | 2022-04-07 |
US11798534B2 (en) | 2023-10-24 |
CN116324972A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798534B2 (en) | Systems and methods for a multilingual speech recognition framework | |
Weiss et al. | Sequence-to-sequence models can directly translate foreign speech | |
Renduchintala et al. | Multi-modal data augmentation for end-to-end ASR | |
Luo et al. | Towards end-to-end code-switching speech recognition | |
Winata et al. | Adapt-and-adjust: Overcoming the long-tail problem of multilingual speech recognition | |
Wu et al. | Self-supervised representations improve end-to-end speech translation | |
EP4085451B1 (en) | Language-agnostic multilingual modeling using effective script normalization | |
Pramanik et al. | Text normalization using memory augmented neural networks | |
Khare et al. | Low Resource ASR: The Surprising Effectiveness of High Resource Transliteration. | |
Drexler et al. | Combining end-to-end and adversarial training for low-resource speech recognition | |
US11551668B1 (en) | Generating representations of speech signals using self-supervised learning | |
Higuchi et al. | Hierarchical conditional end-to-end asr with ctc and multi-granular subword units | |
US20230104228A1 (en) | Joint Unsupervised and Supervised Training for Multilingual ASR | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
Ao et al. | Pre-training transformer decoder for end-to-end asr model with unpaired speech data | |
US11990117B2 (en) | Using speech recognition to improve cross-language speech synthesis | |
CN117378004A (zh) | 具有序列的对比损失的有监督和无监督的训练 | |
JP2022037862A (ja) | テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
CN112686060B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
JP2024512606A (ja) | 自己アライメントを用いたストリーミングasrモデル遅延の短縮 | |
Dey et al. | Acoustic modeling for hindi speech recognition in low-resource settings | |
Feng et al. | Application of Word2vec in Phoneme Recognition | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
US20240013777A1 (en) | Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |