JP6629872B2 - 配置されたエンドツーエンド音声認識 - Google Patents

配置されたエンドツーエンド音声認識 Download PDF

Info

Publication number
JP6629872B2
JP6629872B2 JP2017544352A JP2017544352A JP6629872B2 JP 6629872 B2 JP6629872 B2 JP 6629872B2 JP 2017544352 A JP2017544352 A JP 2017544352A JP 2017544352 A JP2017544352 A JP 2017544352A JP 6629872 B2 JP6629872 B2 JP 6629872B2
Authority
JP
Japan
Prior art keywords
utterance
training
model
computer
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017544352A
Other languages
English (en)
Other versions
JP2018513399A (ja
Inventor
カタンツァロ、ブライアン
チェン、チントン
シュルザノスキー、マイク
エルセン、エリック
エンゲル、ジェシー
フォーナー、クリストファー
ハン、シュイ
ハンヌン、アウニー
プレンガー、ライアン
サティーシュ、サンジェーヴ
セングプタ、シュバブラタ
ヨガタマ、ダニー
ワン、チョン
チャン、チュン
チュー、チェンヤオ
アモデイ、ダリオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2018513399A publication Critical patent/JP2018513399A/ja
Application granted granted Critical
Publication of JP6629872B2 publication Critical patent/JP6629872B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

(関連出願の相互参照)
本願は2015年11月25日に提出した、名称が「第2世代ディープ音声(deep speech):英語と標準中国語のエンドツーエンド音声認識」の共同所有の米国仮特許出願第62/260,206号(整理番号28888−1990P)の優先権を主張し、発明者として、Bryan Catanzaro、Jingdong Chen、Michael Chrzanowski、Erich Elsen、Jesse Engel、Christopher Fougner、Xu Han、Awni Hannun、Ryan Prenger、Sanjeev Satheesh、Shubhabrata Sengupta、Dani Yogatama、Chong Wang、Jun Zhan、Zhenyao Zhu及びDario Amodeiがリストされている。上記特許文献の全文を引用により本願に組み込む。
本願はさらに、2016年11月21日に提出した、名称が「配置されたエンドツーエンド音声認識」の美国特許出願第15/358,083号(整理番号28888−2078(BN151203USN1−1))と名称が「エンドツーエンド音声認識」の美国特許出願第15/358,102号(整理番号28888−1990(BN151203USN1)の優先権を主張し、発明者として、Bryan Catanzaro、Jingdong Chen、Michael Chrzanowski、Erich Elsen、Jesse Engel、 Christopher Fougner、Xu Han、Awni Hannun、Ryan Prenger、Sanjeev Satheesh、Shubhabrata Sengupta、Dani Yogatama、Chong Wang、Jun Zhan、Zhenyao Zhu及びDario Amodeiがリストされている。各上記特許文献の全文を引用により本願に組み込む。
本開示は音声認識に関する。より具体的には、本開示はエンドツーエンド音声認識用のシステム及び方法に関し、全く異なる言語に適用することができる。
自動音声認識(ASR)は計算言語学の学際的なサブ分野に属し、言語学、コンピュータサイエンス及び電気工学の分野の知識と研究を組み合わせて、コンピュータとコンピュータ化された装置によって発話言語を認識してテキストに翻訳できる方法及び技術を開発する(例えば、スマート技術及びロボットに分類される方法や技術)。
1980年代後半、ニューラルネットワークはASRでは注目度が高い音響モデリング方法となっていた。それ以降、ニューラルネットワークは、音素分類、孤立単語認識や話者適応のような音声認識の多くの側面に使用されている。音声認識の多くの側面は長期短期記憶(LSTM)及びリカレントニューラルネットワーク(RNN)に関するディープ学習(Deep Learning)方法により解決された。
音声認識における課題の一つは音声と音響学の幅広い変動性である。特に言語が全く異なる(例えば、英語と標準中国語)場合、許容可能な精度で多言語アプリケーションを適応的にサポートするように音声認識装置を構築して調整することは困難である。
従って、改善されたエンドツーエンド音声認識用のシステム及び方法が望まされている。
本発明の実施形態を参照し、その例が図面に示される。これらの図面は説明するためのものであって限定するものではない。これらの実施形態を参照して本発明を説明するが、本発明の範囲はこれら特定の実施形態に限定するものではないと理解すべきである。
本開示の実施形態に係るエンドツーエンドディープ学習モデルのアーキテクチャを示す。 本開示の実施形態に係るディープ学習モデルをトレーニングする方法を示す。 本開示の実施形態に係るシーケンスごとのバッチ正規化の方法を示す。 本開示の実施形態に係るバッチ正規化ありとバッチ正規化なしでトレーニングされた2つのモデルのトレーニング曲線をグラフで示す。 本開示の実施形態に係るカリキュラム学習戦略でRNNモデルをトレーニングする方法を示す。 本開示の実施形態に係る転写出力用の2書記素分割(bi-graphemes segmentation)でRNNモデルをトレーニングする方法を示す。 本開示の実施形態に係る将来のコンテキストサイズが2の行畳み込みアーキテクチャを示す。 本開示の実施形態に係る単方向RNNモデルを有するオーディオ転写の方法を示す。 本開示の実施形態に係る多言語に適応する音声転写モデルをトレーニングする方法を示す。 本開示の実施形態に係る2つのネットワークのスケーリング比較を示す。 本開示の実施形態に係るコネクショニスト時間的分類アルゴリズム(Connectionist Temporal Classification、CTC)用のGPU実装による順方向パス及び逆方向パスを示す。 本開示の実施形態に係るCTC損失関数に用いられるGPU実装方法を示す。 本開示の実施形態に係る音声転写トレーニングに用いられるデータ収集方法を示す。 本開示の実施形態に係る所定サイズのバッチで要求を処理する確率を示す。 本開示の実施形態に係るサーバ負荷の関数である中央値及び98パーセンタイルのレイテンシを示す。 本開示の実施形態に係るカーネルの比較を示す。 本開示の実施形態に係るトレーニングノードの概略図を示し、PLXはPCIスイッチを示し、点線ボックスは同じPCIルート複合体によって接続されるすべての装置を示す。 本開示の実施形態に係るコンピューティングシステムの概略ブロック図を示す。
以下、説明の目的のために、本発明を理解するように、詳細を説明する。なお、明らかなように、当業者はそれらの詳細がなくても本発明を実施することができる。また、当業者であれば、後述する本発明の実施形態は例えばプロセス、装置、システム、機器又は方法等の様々な方式で有形のコンピュータ可読媒体で実現できると理解すべきである。
図示する構成要素又はモジュールは本発明の例示的な実施形態についての説明であり、本発明を明瞭にするためのものである。なお、この議論の全体にわたって、構成要素はサブユニットを含む単独な機能ユニットとして記述されてもよいが、当業者であれば、種々の構成要素又はその一部は単独な構成要素に区画されてもよく、例えば単一システム又は構成要素の内部に集積されてもよいと認識すべきである。な本文に議論された機能又は操作が構成要素として実現されることができることを理解すべきである。構成要素はソフトウェア、ハードウェア、又はそれらの組み合わせにおいて実施されてもよい。
また、図中の構成要素又はシステム間の接続は直接接続に限定されない。その反面、これら構成要素間のデータは中間構成要素により変更されたり、再フォーマットされたりほかの方式で変更されたりしてもよい。また、加的接続又はより少ない接続を利用してもよい。また、用語「連結」、「接続」又は「通信連結」が直接接続、1つ又は複数の中間設備で実現される非直接接続及び無線接続を含むことを理解すべきである。
本明細書では、「一実施形態」、「好ましい実施形態」、「実施形態」又は「各実施形態」の引用について、当該実施形態を参照して説明する特定の特徴、構造、特性又は機能が本発明の少なくとも一実施形態に含まれてもよく、1つ以上の実施形態に含まれてもよいことを意味する。また、明細書の各箇所に出現する上記用語は必ずしも同じ1つ又は複数の実施形態を参照するとは言えない。また、明細書の各箇所におけるこれら用語の使用は例示のためであり、限定するものではない。本明細書に使用されるすべての見出しは構成上の目的のためであり、明細書又は特許請求の範囲を限定するものではない。
なお、(1)一部のステップが選択的に実施されてもよい、(2)ステップは本明細書で説明される特定順番に制限されなくてもよい、(3)一部のステップは異なる順番で実行されてもよい、及び(4)一部のステップは同時に実行されてもよいことを、当業者が理解すべきである。
なお、本明細書により提供されるすべての実験と結果は説明の方式によって提供され、特定の条件で具体的な実施形態を用いて行う。従って、これら実験及びその結果は本特許文献の開示範囲を限定するものではない。
1. 序論
数十年以来、ハンドエンジニアード分野(hand−engineered domain)の知識は現在最先端の自動音声認識パイプライン(ASR)に導入されている。簡単であるが効果的な代替案として、このようなASRモデルをエンドツーエンドでトレーニングし、ディープ学習を使用し、単一モデルで大部分のモジュールを代替する。本特許文献では、エンドツーエンド学習の主要な利点を例示する音声システムの実施形態が提案されている。これらシステム(通常、第2世代ディープ音声、第2世代ディープ音声ASR、第2世代ディープ音声ASRパイプライン又はDS2と呼称されてもよい)の実施形態はいくつかのベンチマークではアマゾンメカニカルターク(Amazon Mechanical Turk)作業者の正確率に近く又はそれを超え、非常に少ない変更だけで多国語で作業し生産設定(production setting)に配置可能である。これら実施形態は単一ASRシステムに向けて発展する重要な一歩を示し、単一ASRシステムは人間によって処理される音声認識コンテキストの全範囲を解決する。これらの実施形態はエンドツーエンドディープ学習(end−to−end deep learning)に基づいて構築されるため、一連のディープ学習技術を採用することができる。これらディープ学習技術は、大規模トレーニングセットの取得、高性能コンピューティングによる大規模モデルのトレーニング及びニューラルネットワークアーキテクチャの空間の系統的探索を含む。これらの技術によって、従来のエンドツーエンドシステムのエラー率が43%低下するだけでなく、高精度で標準中国語音声を認識することができることを示す。
音声認識の課題の1つは、音声と音響の幅広い変動性である。その結果、現代のASRパイプラインは、複雑な特徴抽出、音響学モデル、言語及び発音モデル、話者適応アルゴリズム等の多くの要素から構成される。特に新たな言語の場合、これら個々の要素を構築してデバッグすることで新たな音声認識モジュール(speech recognizer)を開発することは非常に困難である。実際、多くの部分は異なる環境又は言語で良好な結果を生じることができず、許容可能な正確性を図るには、通常、複数の特定のアプリケーションシステムをサポートする必要がある。これは、一般的なスキルを使用して言語を学び、幼児期にあらゆる言語を学ぶ先天的な能力を持つという人間の音声認識とは異なる。読みと書きを学んだ後に、大部分の人間は音声を転写(transcribe)し、外部環境、話者の発話やノイズの変動性に抵抗することができ、転写(transcription)タスクを別途トレーニングする必要がない。音声認識ユーザの期待に応えるために、単一エンジンは類似する能力を有するように学習しなければならない。わずかな変更だけで大部分のアプリケーションを処理することができ、且つ劇的な変更がない限り新たな言語を最初から学習することができる。本明細書に記述されたエンドツーエンドシステムの実施形態は目標に近く、2つの異なる言語(標準中国語と英語)のいくつかのテストでは人間作業者のパフォーマンスに近い又は人間作業者のパフォーマンスを超える。
第2世代ディープ音声(DS2)システムの実施形態はエンドツーエンドディープ学習システムであるため、モデルアーキテクチャ、大規模のラベル付きトレーニングセット、計算規模という3つの重要な部分に焦点を当てて性能向上を図ることができる。この方法はほかの応用分野(例えば、コンピュータビジョンや自然言語)にも大幅な進歩をもたらした。本特許文献では、これら3つの分野に対する音声認識の貢献を詳述しており、モデルアーキテクチャの広範な調査、データの影響及び認識性能に関するモデルサイズ(model size)を含む。特に、ニューラルネットワークによる多くの実験を説明し、これらニューラルネットワークはCTC(Connectionist Temporal Classification、コネクショニスト時間的分類アルゴリズム)損失関数によってトレーニングしてオーディオにおける音声転写を予測する。ネットワークは、反復接続(recurrent connections)、畳み込みフィルタ(convolutional filters)、非線形層(nonlinearities)の多くの層を含むが、さらにバッチ正規化(通常、BatchNormと呼称される)の具体例の影響を含む。これらネットワークの実施形態で生じる予測結果は従来の作業より優れるだけでなく、現在モデルの実施形態は生産設定に配置されることができるとともに正確率が大幅に低下しないことが分かる。
優れたモデルアーキテクチャの探索以外にも、ディープ学習システムは大量のトレーニングデータに大きく恵まれる。本明細書では、データキャプチャパイプライン(data capturing pipeline)の実施形態を説明し、従来音声認識システムをトレーニングするためのデータセットより大きいデータセットを構築することができる。実施形態では、英語音声認識システムは11,940時間の音声でトレーニングされ、標準中国語の場合、9,400時間の音声でトレーニングされる。実施形態では、データ合成を使用してさらにトレーニングにおいてデータを強化する。
大量のデータでトレーニングするには、通常、より大規模なモデルが必要である。実際、従来のシステムに比べて、本明細書に係る実施形態はより多いパラメータを有する。このような規模で単一モデルをトレーニングするには、数十個のexaFLOPが必要であり、ここで1個のexaFLOP=1018個の浮動小数点演算であり、シングルグラフィックスプロセシングユニット(GPU)で実行する場合、3〜6週間かかる。モデル探索は非常に時間がかかるプロセスになるため、高度に最適化された、8又は16個のGPUを用いたトレーニングシステムを構築して1つのモデルをトレーニングする。従来のパラメータサーバと非同期更新を用いた大規模トレーニング方法に比べて、本発明は、同期確率的勾配降下法(stochastic gradient descent、SGD)を採用し、新たなアイディアをテストする時にデバッグしやすくなり、同程度のデータ並列処理時により高速に収束することができる。システム全体をより効率的にするために、本明細書では、シングルGPUの最適化及びマルチGPUのスケーラビリティについての改善(実施形態にも使用されている)を説明する。実施形態では、高性能コンピューティング(HPC)で一般的に見出されてスケーラビリティを向上させるための最適化技術を採用している。これらの最適化はGPU及びカスタムメモリアロケータにおいてCTC損失関数の高速実装を含む。さらに、慎重に統合された計算ノード(carefully integrated compute nodes)とオールリデュースのカスタム実装(a custom implementation of all−reduce)を採用してGPU間の通信を加速する。16GPUでトレーニングされる時に、システム全体は約50テラフロップ/秒(teraFLOP/second)を維持する。それは、1GPUあたり3テラフロップ/秒に相当し、理論性能ピークの約50%である。このようなスケーラビリティと効率によってトレーニング時間を3〜5日に短縮させて、モデルとデータセットでの反復の高速化を実現することができる。
いくつかの公開の利用可能なテストデータセットに基づいて、当該システムの実施形態にベンチマークを行い、結果を従来のエンドツーエンドシステムと比較する。目標は特定のベンチマーク(これらベンチマークはそのデータセットに対するデバッグによって改善されることができる)だけでなく、一連の異なるシーンを反映するベンチマークの範囲で、最終的に人間レベルのパフォーマンスに到達することである。そのために、各ベンチマークについて、人間作業者のパフォーマンスを測定して比較を行う。第2世代ディープ音声システムの実施形態はいくつかの通常研究するベンチマークで人間より優れ、より難しいケースでは格差を大幅に縮める。公開のベンチマークに加えて、システムの標準中国語実施形態の、実際の製品シーンを反映する内部データセットにおけるパフォーマンスが示されている。
ディープ学習システムは規模配置でおいて挑戦的である。大規模ニューラルネットワークは各ユーザの発話を評価することが計算的に高価であり、且ついくつかのネットワークアーキテクチャがほかより配置されやすい。モデル探索によって、高精度の配置可能なネットワークアーキテクチャの実施形態を実現することは、本明細書では説明されている。実施形態では、さらにGPUハードウェアに適するバッチ処理手法(通常、バッチディスパッチ(Batch Dispatch)とも呼称される)を開発して採用し、生産サーバで標準中国語エンジンの実施形態を効率的かつリアルタイムに実現するようにリードする。実施される実施形態は67ミリ秒の第98パーセンタイル計算遅延を実現し、サーバに10個の同時オーディオストリームがロードされている。
本特許文献の当該セクションの残り内容は以下の通りである。第2セクションにおけるディープ学習、エンドツーエンド音声認識及びスケーラビリティに関するいくつかの基本的な背景情報から開始する。第3セクションはモデルの実施形態のアーキテクチャ改善及びアルゴリズム改善の実施形態を説明し、第4セクションは如何に効率的に計算するかの例を解釈する。本明細書の第5セクションでは、トレーニングデータとトレーニングセットのさらなる強化に必要なステップを検討する。第6セクションはDS2システムの実施形態の英語と標準中国語での分析結果を示す。第7セクションは実際のユーザにDS2の実施形態を配置する時に必要なステップを説明する。
2. 背景
フィードフォワードニューラルネットワークの音響学モデルについての探索は20年以上の前から始めた。リカレントニューラルネットワークと畳み込みネットワークも同時期に音声認識に用いられる。最近、ディープニューラルネットワーク(DNN)はASRパイプラインにおける固定装置となり、殆どすべての最先端の音声作業が特定の形態のディープニューラルネットワークを含む。畳み込みネットワークも音響学モデルに有利することが発見された。リカレントニューラルネットワーク(典型的に、LSTM)は最先端の認識装置に導入されたばかりであり、畳み込み層とともに特徴抽出に用いられる。双方向リカレントと単方向リカレントを有するモデルに対しても探索を行った。
エンドツーエンド音声認識は有効な研究分野であり、ディープニューラルネットワーク(DNN)−隠れマルコフモデル(HMM)(DNN−HMM)及びその単独モデルの出力を再スコアすることに用いられる場合、説得力のある結果を示している。現在、可変長オーディオシーケンスを可変長転写に直接マッピングするには、通常2つの方法が使用されている。RNNエンコーダ−デコーダパラダイムはエンコーダRNNを使用して入力を固定長ベクトルにマッピングし、且つデコーダネットワークを使用して固定長ベクトルを出力予測シーケンスに拡張する。デコーダに注意メカニズムを追加することで、システムの性能を大幅に向上させ、特に長い入力又は出力のシステムの場合である。音声では、注意力を持つRNNエンコーダ−デコーダは音素又は書体の予測においてうまく機能する。
可変長オーディオ入力を可変長出力にマッピングするための別の常用技術は、RNNと結合して時間情報をモデリングするCTC損失関数である。CTC−RNNモデルは書記素出力を有するエンドツーエンド音声認識ではうまく機能する。CTC−RNNモデルも音素予測面ではうまく機能することが証明されて、辞書が必要であるけれども。また、ガウス混合モデル(GMM)−隠れマルコフモデル(HMM)(GMM−HMM)システムからフレームごとにアライメントしたDNNクロスエントロピーネットワークを用いてCTC−RNNネットワークをプリトレーニングする必要がある。それに対して、本明細書で検討されるCTC−RNNネットワークの実施形態は最初からトレーニングされ、プリトレーニング用のフレームごとのアライメントが不要である。
現在、ディープ学習のエクスプロイト規模が当該分野の成功に非常に重要である。単一GPUでのトレーニングを行った結果、実質的に性能が向上し、続いて2つ以上のGPUに線形拡張する。低レベルのディープ学習プリミティブに対する単一GPUの効率を向上するために努力することは有利である。過去の作業に基づいて、モデル並列性、データ並列性又は両方の組合せを使用する時に、音声認識ではディープRNNをトレーニングするための高速で高度に拡張可能なシステムの実施形態を作成する。
データもエンドツーエンド音声認識を成功させるキーであり、従来方法では、7000時間より多い時間のラベル付き音声が使用されている。データ増加はコンピュータビジョンディープ学習のパフォーマンス向上では非常に有効である。音声システムを改善できることも証明された。音声のデータ増加用の技術的範囲は簡単なノイズ追加から、話者のチャネル長と発話速度の変化をシミュレートするような複雑な摂動(perturbation)までを含む。
実施形態では、従来の音声システムは、新たなデータ収集をブートストラップすることに用いられる。一方法では、1つの音声エンジンを使用して1000時間の朗読音声をアライメントしてフィルタリングする。別の方法では、大型オフライン音声認識装置によって数万時間の音声の転写を生成する。続いて、フィルタを通過させて認識装置の再トレーニングに用い、それにより性能を大幅に向上させる。より大規模なデータセットとデータ増加のブートストラップの面では、これらの方法からインスピレーションを受け、当該システム用のラベル付き音声の有効数量を増加させる。
3. モデルアーキテクチャの実施形態
単一リカレント層を有する簡単な多層モデルは数千時間のラベル付き音声をエクスプロイトすることができない。データセットからこの大規模なデータを学習するために、深さによってモデル容量を増加させる。実施形態では、多くの双方向リカレント層及び畳み込み層を含む11層のアーキテクチャを探索した。各データの例に対して、これらモデルの計算量は従来方法のモデルの計算量のほぼ8倍であり、高速最適化と計算に非常に重要である。
実施形態では、これらモデルの最適化を成功させるために、SortaGradと呼ばれるRNNのバッチ正規化と新規最適化カリキュラムを使用している。実施形態では、RNN入力間の長ストライドもエクスプロイトされ、それにより各例の計算を3倍減少させる。CTCとともに良好に動作するように多少の変更が必要であるにもかかわらず、トレーニングにも評価にも寄与している。最後に、多くの研究結果は双方向リカレント層を使用した実施形態に基づいたものであるが、単方向リカレント層のみを使用した優れたモデルが存在すると判明し、それはこれらのモデルを容易に配置できる特徴である。これらの特徴を合わせることが、ディープRNNの最適化を容易にし、いくつかの実施形態は小さいベースラインモデルにおいて英語エラー率と標準中国語エラー率の両方の性能が40%以上向上する。
3.1 概要
図1は本開示の実施形態に係るエンドツーエンドディープ学習システムの例示的なアーキテクチャを示す。図示された実施形態では、アーキテクチャ100はトレーニングされて音声スペクトログラム105を取得しテキスト転写を生成するリカレントニューラルネットワーク(RNN)モデルを含む。実施形態では、モデル100は、1つ以上の畳み込み層110、1つ以上のリカレント層(ゲートリカレントユニット(GRU)層であってもよい)115、1つ以上の完全接続層120を順に含むいくつかの層を含む。畳み込み層は不変畳み込み層であってもよい。例えば、畳み込み層は時間領域及び周波数領域の両方(2D不変性)にあってもよく、時間領域(又は周波数領域)のみ(1D不変性)にあってもよい。
実施形態では、図1に示されるDS2システムのアーキテクチャを使用して英語音声と標準中国語音声の両方をトレーニングする。実施形態では、当該アーキテクチャの変形を使用してもよい。例えば、実施形態では、畳み込み層の数量は1から3まで、リカレント又はGRU層の数量は1から7まで変化する。
実施形態では、1つ以上のコネクショニスト時間的分類アルゴリズム(Connectionist Temporal Classification、CTC)層125を使用してRNNモデルをトレーニングしてもよい。CTC層はsoftmax層を含んでもよい。実施形態では、バッチ正規化(BatchNorm)は畳み込み層110、リカレント層115及び/又は完全接続層120における1つ以上のミニバッチ発話に用いられ、それによりこのようなネットワークのトレーニングを加速し、それは最適化問題がしばしば発生するからである。ミニバッチは1つ以上の基準に従ってグループ化され発話セットであり、グループ又はバッチとして処理される。実施形態では、総パワーを1つ以上のミニバッチ間で一致させるように、入力オーディオは正規化され、それによりモデル又はモデルのセットのトレーニングを加速する。第3.2節では、バッチ正規化を詳細に説明する。
図2は本開示の実施形態に係るRNNモデルをトレーニングする方法を示す。トレーニングセットX={(x(1),y(1)),(x(2),y(2)),…}から単一発話x(i)とペアをなしたグラウンドトゥルース(ground truth)ラベルy(i)をサンプルとしてサンプリングする。各発話x(i)は長さがT(i)の時系列であり、各タイムスライスはオーディオ特徴ベクトルであり、x(i),t=0,…,T(i)−1である。パワー正規化されたオーディオクリップのスペクトログラムはシステムの特徴として用いられるため、x(i) t,pはオーディオフレームにおける時点tでの第p個の周波数ビンのパワーを示す。RNNの目標は入力シーケンスx(i)を最終転写y(i)に変換することである。記録の便宜上、上付き文字が除去され、xは選択した発話を示しyは対応するラベルである。
実施形態では、スペクトログラムフレームの時系列x(t)を含む発話xはリカレントニューラルネットワーク(RNN)モデルに入力(205)され、トレーニングセットから発話x及び関連するラベルyをサンプリングする。
RNNモデルは様々な言語の書記素を出力する。実施形態では、各出力時間ステップtにおいて、RNNは文字p(lt|x)を予測する(210)(ltはアルファベットにおける文字又は空白記号である)。英語では、l∈{a,b,c,...,z,スペース,アポストロフィ,空白}である、アポストロフィ及びスペース記号を追加して単語境界を示す。標準中国語システムの場合、ネットワークは中国語の簡体字を出力する。これについて、第3.9節ではより詳細に説明される。
l層の隠れ表現はhによって与えられ、規定に従って、hは入力xを示す。実施形態では、当該ネットワークの底部は入力の時間次元における1つ以上の畳み込みである。実施形態では、サイズcのコンテキストウィンドウについて、畳み込み層の時間ステップtの第i個の活性化は下式によって与えられる。
(式1)

ここで、oは第i個のフィルタとの以前の層の活性化のコンテキストウィンドウとの要素ごとの積を示し、fは単項非線形関数を示す。実施形態では、クリップされた正規化線形(ReLU)関数σ(x)=min{max{x,0},20}を非線形として使用する。実施形態では、いくつかの層では、通常、第1層は、sフレーム間の畳み込みによって二次サンプリングを行う。上記リカレント層の時間ステップの数量を減少させることを目的とする。
実施形態では、畳み込み層110に次いで、1つ以上の双方向リカレント層115であり、方向性リカレント層又はゲートリカレントユニット(GTU)であってもよい。順方向時間
と逆方向時間
のリカレント層の活性化の計算は以下の通りである。
(式2)
2組の活性化を加算して層
の出力活性化を形成する。実施形態では、関数
は標準的な再帰演算(recurrent operation)
(式3)

であってもよい。
ここで、
は入力隠れ重み行列、
はリカレント重み行列、
はバイアス項、
は予備活性化(pre-activation)を示す。実施形態では、リカレントの2つの方向について入力隠れ重みを共有する。実施形態では、関数
はより複雑な再帰演算、例えば長期短期記憶(LSTM)ユニットやゲートリカレントユニット(GRU)を示してもよい。
実施形態では、双方向リカレント層に次いで、下式によって1つ以上の完全接続層(120)を応用する。
(式4)
実施形態では、出力層Lはソフトマックス(softmax)層であり、
(式5)
によって文字の確率分布を計算する(215)。
ここで、kはアルファベット(空白記号を含む)における1つの文字を示す。
実施形態では、CTC損失関数(125)を使用して当該モデルをトレーニングする。入力出力ペア(x,y)及びネットワークθの現在のパラメータを付与し、当該ネットワークのパラメータに関する損失関数
(x,y;θ)
及びその導関数
を計算する(220)。続いて、当該導関数を利用して時間アルゴリズムを介して、逆伝播によって当該ネットワークパラメータを更新する(230)。
以下のサブセクションでは、アーキテクチャ及びアルゴリズムの改善を説明する。特に断らない限り、これらの改善は言語とは無関係である。報告の結果は、2048個の主要な朗読音声を含むデータセットである開発セットを提案する英語の話者に関わる。モデルの実施形態に対して、第5セクションに記載のデータセットのトレーニングを行う。英語システムのワードエラー率(Word Error Rate、WER)と標準中国語システムの文字エラー率(Character Error Rate、CER)が報告される。この2種類の場合、言語モデルは3.8節に記載のビーム探索復号ステップに集積される。
3.2 ディープRNN用のバッチ正規化
トレーニングセットがスケールされる時に、モデルの実施形態を効果的にスケーリングするために、各層の長さを増加するのではなく、より多くの隠れ層を追加することでネットワークの深さを増加させる。これまでの研究では、連続した双方向リカレント層の数量を増加させることでその挙動を検査する。実施形態では、バッチ正規化(通常、BatchNormと呼称されてもよい)をこのようなネットワークのトレーニングを加速する技術として探索し、それは最適化問題がしばしば発生するからである。
最近の研究から分かるように、BatchNormはリカレントネットワークの収束速度を高めるが、汎化特性につていの改善が一切示されていない。それに対して、本明細書のモデルの実施形態は、大規模データセットに簡単なRNNの非常に深いネットワークを応用する時に、バッチ正規化によって最終汎化誤差を大幅に改善するとともに、トレーニングを大幅に加速することが証明された。
実施形態では、非線形f(・)前のアフィン変換を含む典型的なフィードフォワード層では、f(Wh+b)ではなくf(B(Wh))を使用してBatchNorm変換を挿入し、
(式6)

ここで、xは予備活性化を示し、用語EとVarは1つのミニバッチにおける経験的平均と分散である。その影響が平均除去法によって解消されるため、当該層のバイアスbが除去される。学習可能なパラメータγとβは当該層が必要に応じて各隠れユニットをスケーリングしたり移動したりすることを可能にする。定数

は小さい正の値であり、数値安定性を確保するために含まれている。
実施形態では、畳み込み層では、ミニバッチ上の所定の畳み込みフィルタについて、すべての時間出力単位にわたって平均と分散を推定する。BatchNorm変換は所定層を層の入力の平均及び分散の潜在的に興味のない変更と隔離することで、内部共変量シフト(internal covariate shift)を減少させる。
BatchNormを双方向RNNに拡張する2種類の方法を探索した。第1種の方法では、各非線形の直前にBatchNorm変換を挿入する。この場合、式3は、
(式7)

となり、この場合、平均と分散統計量はミニバッチの単一時間ステップで累積する。時間ステップ間の順序依存性によって、すべての時間ステップでの平均を阻止する。実施形態では、当該技術は最適化についての改善をもたらさないことが分かった。
第2種の方法では、連続した時間ステップでの平均値を累積するため、すべての現在と以前の時間ステップで以降の時間ステップを正規化する。無効で非常に複雑な逆伝播であることが証明された。
図3は本発明の実施形態に係るシーケンスごとのバッチ正規化の方法を示し、上記探索の方法の上記問題を克服する。実施形態では、リカレント計算は下式によって与えられて、即ち、
(式8)
各隠れユニット(畳み込み層とリカレント層に用いられてもよい)に対して、発話シーケンスの長さにわたって(over the length of)ミニバッチにおける予備活性化の平均と分散統計を計算する(305)。実施形態では、バッチ正規化は、RNNにおいてバッチ正規化しようとする層セットにおける各層が予備活性化を正規化することを含む。
図4は本開示の実施形態に係る、ディープネットワークがシーケンスごとの正規化によってより高速に収束することを示す。表1に示すように、シーケンスごとの正規化の性能向上はネットワーク深さの増加につれて増加し、最も深いネットワークの場合、性能の差が12%となる。深さを比較する時に、モデルサイズを抑えるために、パラメータの総数を維持するが、強力な性能向上が依然として示されている。各層の活性化回数を維持し且つ層を追加すると、深さのさらなる改善が期待できる。さらに、BatchNormは最も浅いネットワークに対して汎化誤差を招き、浅いネットワークの収束が遅いようである。
表1:BatchNormありとBatchNormなしでのRNNのさまざまな深さのトレーニングセットと開発セットのWERの比較

深さの増加につれて、パラメータの数量を維持するため、各層の隠れユニットの数量が減少する。すべてのネットワークは3800万個のパラメータを有する。アーキテクチャ「M RNN、N total」とは、入力側の一次元畳み込みの1つの層、M個の連続した双方向RNN層で、残りが完全接続層で、ネットワークに計N個の層を有することを意味する。
BatchNorm方法の実施形態はトレーニングにおいてうまく機能するが、配置されたASR(自動音声認識)システムに対して実施し難い可能性があり、それは通常、バッチではなく、配置中の単一発話を評価する必要があるからである。当該シーケンスのみで各ニューロンをその平均と分散に正規化することによって、性能が低下する可能性がある。従って、実施形態では、トレーニング期間に収集したニューロンの平均と分散の移動平均(310)を格納し、配置過程で評価に用いる(315)。このような技術によれば、単一発話を一括評価でき、大規模バッチの評価より優れた結果を生成できる。
3.3 SortaGrad
様々な長さの例のトレーニングはいくつかのアルゴリズム上の課題を形成する。可能な解決案の1つとして、時間を通じて逆伝播を切断することで、すべての例がトレーニング期間に同一のシーケンス長さを有する。しかしながら、より長い語順依存関係を学習する能力を阻害する可能性がある。ある方法から分かるように、難易度順に例を表示することでオンライン学習を加速することができる。機械翻訳及び音声認識を含む多くのシーケンス学習問題の共通テーマは、例が長いほど挑戦的傾向があることである。
使用するCTCコスト関数は発話の長さに暗黙的に依存し、
(式9)

ここで、Align(x,y)はCTC演算子の下で転写yの文字と入力xのフレームのすべての可能なアライメントのセットである。式9では、内項は当該シーケンスの時間ステップの積であり、
であるため、シーケンスの長さにつれて小さくなる。カリキュラム学習戦略(ここで「SortaGrad」と呼称される)の実施形態の示唆を与える。SortaGradは発話の長さを難易度の探索として使用され、それは長い発話が短い発話より高いコストを有するからである。
図5は本発明の実施形態に係るカリキュラム学習戦略でRNNモデルをトレーニングする方法を示す。複数のミニバッチ(複数の発話を含む)を含むトレーニングセットに対して、(505)によって、トレーニングセットは第1トレーニングエポックにおいて各ミニバッチにおける最も長い発話の長さの昇順に反復される。第1トレーニングエポックの後に、トレーニングは(510)ミニバッチのランダム順序(例えば、1つ又は複数の後続エポックに対して確率的トレーニングを使用する)に戻る。
実施形態では、上記カリキュラム学習戦略は音声認識用の1つ又は複数のほかの戦略と組み合わせることで実現する。
表2:SortaGradありとSortaGradなし及びバッチ正規化ありとバッチ正規化なしでのトレーニングと開発セットのWERの比較
表2は7個の反復層を有する9層モデルにおけるSortaGradありとSortaGradなしでのトレーニングコストの比較を示す。BatchNormなしのネットワークの実施形態の場合、このような効果は非常に顕著であり、それは数値上で安定しないからである。ある意味では、SortaGradとBatchNormを同時に応用する時にゲインを求めるが、これら2種類の技術を依然として互いに置換することができる。BatchNormを使用しても、このカリキュラムはトレーニング過程における数値の安定性と微小な変化に対する感度を向上することが分かる。特にCTCコストを計算する際に、数値の不安定性はCPU及びGPUにおける異なる超越関数の実装に起因する可能性がある。SortaGradカリキュラムの実施形態は2種類の実装の比較可能な結果を与える。
主として発話が長いほど勾配が長くなる傾向があるが、実施形態では発話長さとは無関係の固定学習速度を使用するため、これらのメリットをもたらす可能性がある。また、より長い発話によって、RNNの内部状態にトレーニングの初期段階で爆発させる可能性がある。
3.4 簡単なRNNとGRUの比較
現在示されているモデルは簡単なRNNであり、双方向リカレント層を有し、式3でモデリングされた順方向時間と逆方向時間方向での再帰を有する。現在の言語及び言語処理につれての研究から分かるように、より複雑な再帰によって、ネットワークがより多くの時間ステップで状態を記憶できるとともに、トレーニング時の計算コストを増加する。ほかの多くの変形が存在するにもかかわらず、一般に使用される2つのリカレントアーキテクチャは長期短期記憶(LSTM)ユニット及びゲートリカレントユニット(GRU)である。最近、LSTM及びGRUアーキテクチャの数千種の変形を総合的に研究したところ、GRUは適宜初期化された忘却ゲートバイアスを有するLSTMに相当し、且つそれらの最適な変形が相互に競争していることが分かる。小規模なデータセットによる実験から分かるように、GRUとLSTMが同数のパラメータに対して類似の正確性に達するが、GRUのトレーニング速度が高く発散の可能性が低いため、GRUを検査した。
実施形態では、使用されたGRUは、下式により計算される。
(式10)
ここで、σ(・)はシグモイド関数であり、zとrはそれぞれ更新ゲートとリセットゲートを示し、簡単にするために、層の上付き文字が除去される。当該GRUの実施形態は、リセットゲートによってスケーリングを行う前、隠れ状態ht−1とUを乗算するという点で、標準GRUと異なる。これは、単一行列乗算ではht−1に関するすべての操作を計算することを可能にする。出力非線形f(・)は通常、双曲線正接関数tanhである。しかし、実施形態では、tanhとクリップされたReLU非線形に対して類似性能が発見された。実施形態では、ネットワークの残りの部分を利用してクリップされたReLUを選択することで、簡単性と均一性を実現する。
表3は、様々な深さでの簡単なRNN又はGRUを使用したネットワークの開発セットWERの比較を示す。すべてのモデルはバッチ正規化、一次元不変畳み込みの1個の層及び約3800万個のパラメータを有する。

表3:簡単なRNN又はGRUを使用したネットワークの開発セットWERの比較
GRUと簡単なRNNアーキテクチャはいずれもバッチ正規化に恵まれ、ディープネットワークによって強力な結果を示している。しかし、表3に示すように、固定数のパラメータに対して、GRUアーキテクチャはすべてのネットワークの深さでよりよいWERを達成する。個々の単語内及び単語間に存在する音声認識タスク固有の長期依存性が証明されたことが明らかになる。3.8節で記載したように、簡単なRNNの実施形態でも、大量のトレーニングデータによって言語モデルを暗黙的学習することができる。興味深く、5個以上のリカレント層のGRUネットワークの実施形態は性能を大幅に改善できない。それは、パラメータの総数を維持するように、1つのリカレント層の場合の1層あたり1728個の隠れユニットから7個のリカレント層の場合の1層あたり768個の隠れユニットに減少するからである。
表3では、GRUネットワークの実施形態は簡単なRNNの実施形態より優れる。しかし、後続結果(第6セクション)では、モデルサイズの増大につれて、固定の計算予算に対して、簡単なRNNネットワークのパフォーマンスがややよくなる。従って、残りの実験は殆ど、GRU層の実施形態ではなく、簡単なRNN層の実施形態を使用する。
3.5 周波数畳み込み
時間的な畳み込みは、通常、可変長発話用の時間翻訳不変性(temporal translation invariance)をモデリングするために音声認識に使用されている。このような畳み込みは最初、25年以上の前に音声ニューラルネットワークに使用すると提案された。多くのニューラルネットワーク音声モデルは特定のコンテキストウィンドウを有する入力フレームを処理する第1層を有する。それはストライドが1の時間的な畳み込みと見なしてもよい。
また、二次サンプリングは、高サンプリングレートのオーディオを有するリカレントニューラルネットワークを計算面で処理しやすくすることの役に立つ。全文が本明細書中に引用により本願に組み込まれる、2015年6月9日に提出した名称が「音声転写システム及び方法」の第14/735,002号(整理番号28888−1910)美国特許出願に記載されているように、従来のディープ音声システムは、時間ステップの数を減少するように、第1層(当該第1層がストライドパラメータを有する)において音声スペクトログラムを入力及び時間的畳み込みとすることにより実現する。上記特許文献の実施形態は本明細書では第1世代ディープ音声(Deep Speech 1)又はDS1と呼ばれてもよい。
ほかのいかなる処理を行う前にスペクトル入力特徴に適用される場合、周波数領域と時間領域における畳み込みによって、ASR性能をやや向上させることができる。スピーカの変動性が完全に接続された大規模なネットワークにおいてより簡潔になる可能性があるため、周波数領域における畳み込みはスペクトル分散をモデル化することを試みる。実施形態では、特徴のスペクトル並び替えが完全に接続されたリカレント層により除去されるため、周波数畳み込みはネットワークの第1層としてよりうまく機能する。
1層の畳み込みと3層の畳み込みの間の実施形態を研究した。これらの畳み込み層は時間と周波数領域(2D(二次元)不変性)にあってもよく、時間領域(1D(一次元)不変性)のみにあってもよい。すべての場合、同一の畳み込みを使用し、周波数と時間における入力特徴の数を残しておく。いくつかの実施形態では、出力のサイズを減少させるように、いずれかの次元を跨ぐストライドが指定される。実施形態では、畳み込み層がごく一部のパラメータをネットワークに追加するため、パラメータの数が明示的に抑えられていない。表4に示されるすべてのネットワークは約3500万個のパラメータを有する。
表4:畳み込み層の様々な配置のためのWERの比較
すべての場合、畳み込みに7個のリカレント層と1個の完全接続層が続く。2D不変畳み込みの場合、第1次元は周波数であり、第2次元は時間である。すべてのモデルはBatchNorm、SortaGrad及び3500万個のパラメータを有する。
2つのデータセット、即ち2048個の発話の開発データセット(「正規開発」)及びCHiME 2015開発データセットからランダムにサンプリングした2048個の発話(「ノイズ開発」)のノイズの多いデータセットについて、様々な実施形態の結果を報告した。複数の層の1D不変畳み込みの利点が非常に小さいことが分かった。2D不変畳み込みを有する実施形態はノイズデータ面の結果を大幅に改善するとともに、清潔なデータ面では利点が小さい。1層の1D不変畳み込みから3層の2D不変畳み込みへの変更によって、ノイズ開発セットのWERを23.9%向上する。
3.6 ストライディング
実施形態では、畳み込み層において、所定の発話をモデリングするには少ない時間ステップが必要であるため、より長いストライドとより広いコンテキストでトレーニングを加速する。入力音声をダウンサンプリング(高速フーリエ変換及び畳み込みストライディングを通じる)することにより、後続の層に必要とされる時間ステップと計算を減少させる反面、性能が低下してしまう。
図6は本発明の実施形態に係るデータストライディング用の方法を示す。図6に示すように、ステップ605では、元の入力でq個のタイムスライスのステップ(例えば、ステップ2)をストライディングすることにより、反復層の処理時間を短縮させ、展開したRNNが少ないステップを有するようにする。
標準中国語モデルの実施形態では、ストレートフォワードの方式でストライディングを行う。それに対して、英語モデルの実施形態では、ネットワークの出力について各出力文字が少なくとも1つの時間ステップであると、を求め、且つ各時間ステップの英語音声の文字数が極めて高くてストライディング時に問題を引き起こすため、ストライディングが簡単に正確性を低下させることができる。なお、漢字が英語文字より英語の音節に符合する。これはトレーニングデータに反映され、英語の場合、平均として14.1個の文字、標準中国語の場合、3.3個の文字である。一方、トレーニングセットにおける発生から計算したところ、小規模な文字セットのため、標準中国語の文字シャノンエントロピーが12.6ビット/文字ことに比べて、英語の文字シャノンエントロピーが低く、4.9ビット/文字である。口語の標準中国語の時間的エントロピー密度が〜58ビット/秒より低く、〜41ビット/秒であるため、文字情報を損失せずにより容易に時間的圧縮されることができる。これを克服するために、ステップ610では、代替ラベルを示す文字(例えば、全文字、音節又は非重複nグラム(n−gram))で英語アルファベットを豊かにする。実施形態では、非重複の二書記素又はバイグラム(bigram)を使用するのは、簡単で構築しやすく(音節と異なる)、且つ代替体(例えば全単語)に比べて、ごく少ないいくつかのみがあるからである。実施形態では、簡単な同型(isomorphism)によって、ユニグラム(unigram)ラベルがバイグラムラベルに変換される。
非重複バイグラムは出力転写の長さを短縮させることにより、展開したRNNの長さを減少させる。実施形態では、同型について、例えば、非重複バイグラムを有するセンテンス「the cat sat」を[th、e、スペース、ca、t、スペース、sa、t]に分割する。なお、実施形態では、奇数個の文字を有する単語について、最後の文字がユニグラムになり、且つスペースもユニグラムとしてみなされる。この同型性によって、同じ単語がいつも同じバイグラム及びユニグラムトークンから構成されることを確保する。バイグラムの出力セットはトレーニングセットに出現するすべてのバイグラムから構成される。
表5は言語モデルありと言語モデルなしの場合、様々なストライディングレベルに用いられるバイグラムシステムとユニグラムシステムの実施形態の結果を示す。観察したところ、バイグラムは単語のエラー率を犠牲することなく、より大きなストライドを可能にする。それにより、実施形態では、展開したRNNの時間ステップの数が減少し、さらに計算とメモリ使用に役に立つ。
表5:1D不変畳み込みの1個の層、7個のリカレント層及び1個の完全接続層を有するモデルでは、ユニグラム出力とバイグラム出力について、異なる数量のストライディングの単語エラー率(WER)の比較

すべてのモデルはBatchNorm、SortaGrad及び3500万個のパラメータを有する。5グラム言語モデルあり開発セットと5グラム言語モデルなし開発セットではモデルを比較する。
3.7 行畳み込み及び単方向モデル周波数
双方向RNNモデルは、サンプル全体で動作する構築されているため、ユーザからの発話ストリームとして転写過程を実行できないことによって、オンラインの低遅延設定環境に配置されることが困難である。ここで、双方向モデルを同様に実行する単方向アーキテクチャの実施形態を示す。配置システムの実施形態では単方向、順方向専用のRNN層を使用することを可能にする。
これを実現するために、実施形態では、特殊層(行畳み込み)を採用し、図7に示すように、本開示の実施形態に係る将来のコンテキストサイズが2の行畳み込みアーキテクチャを示す。図7に示すように、行畳み込み層710はすべてのリカレント層(例えば、720)の上に位置する。当該層についての直感的な解釈として、ごく一部の将来の情報だけで現在の時間ステップで正確に予測することができる。時間ステップtで、τステップの将来のコンテキストを使用すると仮定する。サイズd×(τ+1)の特徴行列ht:t+τ=[h,ht+1,...,ht+τ]を生成する。ht:t+τと同じサイズを有するパラメータ行列Wを定義する。時間ステップtでの新層に対する活性化rは、
(式11)
の場合に適用。
ここで、iは現在層におけるニューロンのインデックス、dは現在層におけるニューロンの数を示す。式(11)における畳み込み状演算がWとht:t+τの行指向であるため、この層は行畳み込みと呼ばれる。
図8は本発明の実施形態に係る単方向RNNモデルを使用したオーディオ転写の方法を示す。ステップ805では、行畳み込み層をRNNモデルのすべてのリカレント層の上に配置する。当該ステップは以下の2つの利点を有する。第1、非常に少ない将来のコンテキストが必要であると考慮し、より細かい粒度で行畳み込み層の下のすべての計算をストリーミングすることを可能にする。第2、標準中国語の最適双方向モードに比べて、より良い文字エラー率をもたらす。ステップ810では、現在の時間ステップ及び少なくとも1つの将来の時間ステップのリカレント層の情報を使用して行畳み込み層の活性化を取得する。リカレント層は良好な特徴表現を学習したように見えるため、行畳み込み層はステップ815では適切な情報を簡単に収集して分類器に送信する。行畳み込みを有する単方向標準中国語音声システムの実施形態及び双方向モデルとの比較結果は第7セクションの配置についての説明では記載される。
3.8 言語モデル
RNNモデルの実施形態は、数百万の独特な発話にわたってトレーニングされることで、ネットワークは強力な暗黙的言語モデルを学習することができる。いくつかの最適なモデルは、何の外部の言語制約もなく、スペルが非常に優れる。また、開発データセットでは、実施形態は同音異義語の曖昧さを暗黙的に解消することができ、例えば、「he expects the Japanese agent to sell it for two hundred seventy−five thousand dollars」が挙げられる。しかし、利用可能なラベルなしテキストコーパスのサイズに比べて、ラベル付きトレーニングデータが小さい。従って、外部テキストでトレーニングされた言語モデルを使用してシステムの実施形態を補充する場合、WERが改善される。
図9は本発明の実施形態に係る言語モデルを使用してモデル出力を制約する方法を示す。
ステップ905では、RNNモデルから発話x用の予測文字出力を取得する。
ステップ910では、1つ又は複数のRNNモデルの出力を付与し、RNN出力及びその転写を単語として解釈する言語モデルに従って、探索を実行して可能性が最も高い転写yを見つける。
実施形態では、当該言語モデルは外部言語モデルである。当該外部言語モデルは、大量のラベルなしテキストに良好に拡張できるため、nグラム言語モデルであってもよい。英語の場合、実施形態では、言語モデルはプルーニングされたKneser−Ney平滑化した5グラムモデルであり、KenLMツールキットを使用して共通クロールリポジトリ(Common Crawl Repository)からのクリーンテキストをトレーニングする。語彙テーブルは2.5億行のテキストから最も頻繁に使用される40万個の単語を含み、約8.5億個のnグラムの言語モデルが作成される。標準中国語の場合、言語モデルはプルーニングされたKneser−Ney平滑化した文字5グラムモデルであり、80億行のテキストの内部テキストコーパスでトレーニングされる。約20億個のnグラムの言語モデルが作成される。中国語の場合、文字が通常、テキストで区切りされることがないため、文字レベルの言語モデルが必要であり、詳しくは第3.9節を参照する。
実施形態では、転写yの探索は式12に示されるQ(y)を単語挿入項とともに最大化することであり、ここで、Q(y)はCTCトレーニングネットワークと言語モデルからの対数確率の線形組合せである。
(式12)
重みαは言語モデルとCTCネットワークの相対貢献を制御する。重みβは転写中のより多くの単語をサポートする。これらのパラメータは開発セットで調整される。実施形態では、ビーム探索により最適な転写を見つける。
表6は外部言語モデルが英語音声システムと標準中国語音声システムに寄与することを示す。1個のリカレント層を有する5層のモデルから7個のリカレント層を有する9層のモデルへ、言語モデルの相対向上は英語では48%から36%に低下し、標準中国語では27%から23%に低下する。ネットワークはより多くの反復層を有し、且つより強力な暗黙的言語モデルを構築すると仮定する。
表6:言語モデルありと言語モデルなしでの英語WERと標準中国語CERの比較

これらモデルは1つの1D不変畳み込み層のみを有する簡単なRNNモデルである。
言語モデルによる相対性能向上については、標準中国語より英語のほうが高い。それは、1つの漢字が英語文字より大きい情報ブロックを示すからである。例えば、英語の音節又は単語を直接出力すると、当該モデルのスペルミスを少なく発生し、且つ当該言語モデルは無用である可能性がある。
3.9 標準中国語への適応
本明細書で説明される技術は、漢字を直接出力するエンドツーエンド標準中国語音声認識システムを構築することに用いられることができる。通常音声システムをほかの言語に応用する非常に複雑な構成要素である発音モデルを構築する必要性を排除する。文字を直接出力することで、言語の特定の発音特徴を明示的にモデリングする必要性も排除する。例えば、標準中国語のトーンをモデリングするシステムが必ずあるため、標準中国語のトーンを明示的にモデリングする必要がない。
実施形態では、ネットワークに施される唯一のアーキテクチャ変更は、漢字文字セットの特徴によるものである。実施形態では、ハイブリッド中国語−英語転写が一般的であるため、ネットワークの出力層はローマ字を含む約6000個の文字を出力する。実施形態では、ある文字が当該セットに含まれていない場合、システムは評価時に語彙外エラーを指示する。語彙外文字がテストセットの0.74%のみを占めるため、大きな問題にならない。実施形態では、語彙外エラーを生じた文字を語彙テーブルに追加し、当該モデルを再トレーニングすることができる。
実施形態では、テキストでは通常文字を分割しないため、標準中国語に文字レベルの言語モデルを使用する。式12の単語挿入項は文字挿入項になる。また、復号期間、ビーム探索の性能は小さなビームサイズで安定する傾向があることが分かる。従って、実施形態では、使用するビームサイズ200では、無視できるCER劣化が生じる。第6.2節から分かるように、アーキテクチャ変化に対して、標準中国語音声モデルの実施形態の改善と英語音声モデルの実施形態の改善がほぼ同様である。
4. システムの最適化
ネットワークの実施形態は数千万個のパラメータを有し、トレーニングアルゴリズムの実施形態は収束するために、数十個の単精度エクサフロップスによる演算が必要である。データ及びモデルに関する仮定を評価する能力はモデルを高速にトレーニングする能力に依存するため、高度に最適化したトレーニングシステムが構築された。当該システムの実施形態は、ディープ学習ライブラリ(C++で書かれる)、及び高性能線形代数ライブラリ(CUDA及びC++で書かれる)の2つの主要な要素を有する。各ノードが8個のTitan X GPUを有する高密度計算ノード上で実行される最適化ソフトウェアを使用することで、1つのノード上で単一モデルをトレーニングする時に、24単精度テラフロップ/秒を維持することができる。これは、各ノードの理論ピーク計算スループットの45%でる。次のサブセクションで説明するように、複数のノードはスケーリングも可能である。
4.1 スケーラビリティ及びデータ並列性
データ並列性の標準技術を使用し、同期確率的勾配降下(SGD)で複数のGPUをトレーニングする。一般的な構成では、8GPUで512個のミニバッチが使用されている。ここで使用されるトレーニングパイプラインの実施形態は1つのプロセスを各GPUにバインディングする。続いて、これらプロセスが逆伝播期間にall−reduceを使用して勾配行列を交換し、all−reduceが複数のプロセス間で行列を交換して結果の和を求め、最終的に各プロセスはすべてのプロセスからのすべての行列の和のコピーを有する。
同期SGDは、その再現性と確定性を有するため、有用であることが判明された。システムの非確定性の出現は通常、重大なバグを示すことが多いため、再現性を目標とすることでデバッグを大幅に促進することがわかった。それに対して、非同期方法(例えば、特定のパラメータサーバを有する非同期SGD)は通常、再現性がないため、デバッグがより難しい。同期SGDは理解と実装が容易である。トレーニング過程で複数のノードを追加する時にスケーリングが可能である。
図10は各層に2560個の隠れユニットを含む3個のリカレント層を有する5層モデル(1005)と、各層に1760個の隠れユニットを含む7個のリカレント層を含む9層モデル(1010)との2つのネットワークのスケーリング比較を示す。示される時間は1エポックをトレーニングするために用いられる。当該5層モデルは、大きな行列を使用し且つ計算効率が高いためトレーニングが速く。
図10に示すように、トレーニング中のGPUの数が2倍になるため、1エポックのトレーニングにかかる時間が半分に減少し、それにより準線形弱スケーリングを実現する。この実験期間に、各GPUのミニバッチが64に維持されるため、GPUの数が倍増する場合、当該ミニバッチを効果的に倍増させる。大規模なミニバッチにスケーリングする能力があるが、通常、512又は1024のミニバッチでのトレーニング期間、最適な結果に収束するように、8GPU又は16GPUを使用する。
実施形態では、all−reduceがトレーニングのスケーラビリティに重要なものであるため、リングアルゴリズムが実装されて、より高い性能及びより良い安定性を図る。当該実装によって、CPUとGPU間の無関係のコピーを回避し、スケーラビリティの基本となる。実施形態では、OpenMPIは、GPUDirectを使用して2つの異なるGPUのメモリに存在するバッファを送受信できるsmcuda伝送が設定されている。2つのGPUが同一PCIルートコンプレックスにある場合、不要なCPUメモリコピーを回避することができる。隣接する装置間で当該リングを同時に実行する複数のセグメントによって、ツリー構造の相互接続を利用する。実施形態では、MPI送受信、及び要素ごとの(element-wise)操作用のCUDAカーネルによって当該実装を構築する。
表7はall−reduce実装の性能とOpenMPI 1.8.5バージョンの性能を比較した。すべての層に2560個の隠れユニットを含む5層、3個のリカレント層を有するアーキテクチャを使用し英語データセットでは1エポックに実行するフル・トレーニング・ランのためにall−reduceにかかる時間が報告された。この表では、各GPUが64のミニバッチを使用し、より多くのGPUにスケーリングする時に、アルゴリズムミニバッチが拡張される。ノード内(8GPU以下)内で通信する場合、当該実装はOpenMPIより遥かに高速である。GPUの数及びノード間の通信量の増加につれて、格差が小さくなるが、当該実装の速度は2〜4倍の高速である。
表7:2種の異なるall−reduce実装の比較
すべての時間は数秒内である。性能ゲインはOpenMPI all−reduce時間とall−reduce時間との比率である。
すべてのトレーニング実行では、8GPU又は16GPUが使用されており、この解決案では、OpenMPIを直接使用することに比べて、all−reduce実装の実施形態は、フル・トレーニング・ランのトレーニング速度を2.5倍まで向上させる。従って、all−reduceの最適化によって、実験に重要な生産性の利点をもたらし、簡単な同期SGD方法の実施形態にスケーラビリティを付与する。
4.2 CTC損失関数のGPU実装
CTC損失関数の計算は、RNNアーキテクチャでの順方向及び逆伝播の実行より複雑である。最初、GPUからの活性化がCPUに伝送され、CTCのOpenMP並列実装によって損失関数を計算する。しかし、このような実装はスケーラビリティを大幅に制限しており、その理由は2つある。第1、RNN自体の効率及びスケーラビリティが改善されるため、計算上において明らかになる。第2、CPUとGPUの間で大きな活性化行列を伝送するには、データ並列化によってより多くのプロセッサにスケーリングするように、勾配行列を伝送するのではなく、CTCの相互接続帯域幅がかかる。
これを克服するために、CTC損失関数のGPU実装を作成する。並列実装は軽微なリファクタリングによってCTC計算の依存性を簡素化し、Modern GPUからの最適化された並列ソート実装の使用を簡素化する。以下、この並列化を詳しく説明する。
モデルトレーニング用のCTC損失関数は、順方向及び逆方向の2つのパスを有し、勾配計算はそれぞれ順方向パスと逆方向パス期間に生じる2つの行列αとβの要素ごとの加算に関わる。最後に、発話ラベル中の文字をキーとして勾配の和を求め、各文字に1つの勾配を生成する。続いて、これら勾配はネットワークを介して逆伝播(back propagation)される。CTC損失関数の入力はsoftmax関数により計算された確率であり、当該確率は非常に小さい可能性があるため、より高い数値安定性を図るように対数確率空間で計算する。
CTCアルゴリズムの順方向パスはS行及びT列(S=2(L+1))を有するα行列を計算する。変数Lはラベル中の文字数であり、Tは発話中の時間ステップの数である。CTCアルゴリズムのCPUに基づく実装はミニバッチの各発話ラベルに1つのスレッドを割り当て、発話へのCTC計算を並列実行する。各スレッドは当該行列の関連エントリーを順に計算する。その効率が非常に低い理由として、2つある。
第1、GPUでネットワークの残数が計算されたので、実施形態では、softmax関数の出力をCPUにコピーしてCTC計算を行う。続いて、実施形態では、CTC関数からの勾配行列はGPUにコピーされて逆伝播に用いられる。大規模な文字セットを有する言語、例えば標準中国語については、これら行列が数億のエントリーを有するため、コピーのコストが高い。また、勾配更新とデータ並列を同期させるには、できるだけ多くの相互接続帯域幅が必要であるため、当該コピーは膨大な機会コストを招いてしまう。
第2、α行列の各列のエントリーを並列に計算することができるが、各列の計算しようとするエントリーの数が列及び発話ラベル中の重複文字の数の両方に依存する。この複雑さによって、CPU実装はSIMD並列性を最適に使用不能であり、計算効率の低下を招いてしまう。
一方、この2つの問題を克服するために、GPUベースCTC実装を行うことができる。図11はCTCのGPU実装の順方向パス及び逆方向パスを示す。灰色の円1105は有効値を含み、Iを有する円1110は−∞を含み、Gを有する円1115は有限のごみ値を含む。BはCTCアルゴリズムが入力発話ラベルに追加する空白文字を示す。最上部の列ラベルは1〜Tの異なる時間ステップを示す。
実装の後ろにある重要な示唆は、α行列の各列の有効エントリーだけでなく、すべての要素を計算することである。log空間に入力−∞を破棄する確率を追加する特殊の加算関数を使用する場合、図11では、無効な要素は有限のごみ値(G)又は−∞(I)を含む。当該加算は、図11に示すように、円に入射する矢印は入力であり、結果は円内に格納される。しかし、αとβに要素ごとの加算を行うことで最終勾配を計算する場合、すべての有限のごみ値と別の行列からの対応する−∞値を加算し、その結果、−∞では、ごみ値を効果的に無視して正確な結果を計算する。重要な発見として、αとβの当該要素ごとの加算は簡単な加算であり、加算関数を使用しない。
図12は本発明の実施形態に係るRNNモデルトレーニング用のCTC損失関数のGPU実装の方法を示す。
ステップ1205では、RNNモデルは入力発話に対応する予測文字の確率分布をコネクショニスト時間的分類アルゴリズム(CTC)層に出力する。
ステップ1210では、グラフィックスプロセシングユニット(GPU)に基づくCTC損失関数アルゴリズムを実装する。CTC損失関数は順方向及び逆方向パスを含む。勾配計算はそれぞれ順方向及び逆方向パス期間に生じる2つの行列α(順方向行列)とβ(逆方向行列)の要素ごとの加算に関わる。当該アルゴリズムは2つの行列の処理への並列計算を含む。
実施形態では、並列計算は以下の方法のうちの1つ以上を含む。
(a)ModernGPUライブラリを使用してαとβ行列の要素ごとの加算によって生成された行列の各列を取り(1215)、当該文字をキーとしてキー−値削減を行って、勾配を計算する。つまり、同一の文字に対応する列の要素がそれらの値を加算する。図11に示す例では、空白文字Bは唯一の重複文字であり、いくつかの列では、例えばt=1又はt=2の場合、有効要素(灰色)と−∞がいずれもそれに対応する。log空間における加算関数は−∞要素を効果的に無視するため、当該削減過程で有効要素のみを合併する。
実施形態では、ミニバッチの各発話を計算スレッドブロック(例えばCUDAスレッドブロック)にマッピングする。列の要素間に依存関係がないため、すべての要素はスレッドブロックにおけるスレッドによって並列計算できる。列間に依存関係があるため、時間ステップtに対応する列の前に時間ステップt+1に対応する列を計算することができない。β行列を計算する場合、時間ステップt+1に対応する列の前に時間ステップtに対応する列を計算できず、逆も同様である。従って、この2種の場合、列はスレッドブロックによって順に処理される。
(b)順方向及び逆方向パスを対応する計算カーネルにマッピングする(1220)。実施形態では、計算カーネルはGPUにより実行される計算カーネル、例えばCUDAカーネルである。これは、列の要素間にデータ依存関係がないため、ストレートフォワードである。逆方向パスを実行するカーネルはさらに当該勾配を計算する。しかし、勾配はラベル値に基づいて和を求めて、各文字をキーとするため、発話ラベル中の重複文字によってデータ依存関係を処理する必要がある。英語等の小さい文字セットを有する言語の場合、発生する確率が極めて高い。重複文字がないとしても、CTCアルゴリズムはL+1個の空白文字を発話ラベルに追加する。
実施形態では、当該タスクを実行する時に、高速共有メモリ及びレジスタによって高性能を実現する。順方向及び逆方向カーネルは当該α行列を共有メモリに記憶する。共有メモリは有限のリソースであるため、β行列全体を記憶することができない。しかし、時間の経過につれて、勾配を計算するとともにβ行列の1列を保持し、β行列の列とα行列の対応する列に要素ごとの加算を行うようにすればよい。オンチップメモリの空間の制約があるため、softmax関数の出力がオフチップグローバルメモリから直接読み取られる。
(c)キー−値ソート(key-value sort)(1225)を実行し、ここで、キーは発話ラベル中の文字であり、当該値は発話中の各文字のインデックスである。ソートの後に、連続したセグメントにおいて所定の文字のすべての出現を配列する。各発話を1回ソートすればよい。続いて当該ソートによって生成されるインデックスを使用して各文字の勾配を順に加算する。列ごとに1回加算し、当該発話中のすべての文字に対して並列して当該加算を行う。T列にキー−値ソートのコストを分担させることは勾配の高速計算を実現するための重要な示唆である。
浮動小数点演算の不正確性によって、特に超越関数において、GPU実装とCPU実装はビットごとに同一ではない。3.3節で述べた長さに応じて発話ソートを行う技術と組み合わせる場合、両方の実装はモデルを同様にトレーニングするため、実際に妨げにならない。
表8は2つのCTC実装の性能を比較する。GPU実装は英語ではエポックごとに95分、標準中国語では25分を節約する。それによって、トレーニングの全時間を10〜20%短縮させ、これは実験の重要な生産性の利点である。
表8:2つの異なる実装では1エポックのCTC損失関数と勾配を計算することにかかる秒単位の時間の比較
加速比はCPU CTC時間とGPU CTC時間との比率である。
4.3 メモリ割り当て
当該システムの実施形態は、主に可変長発話及び中間結果用の活性化データを記憶するために、GPUとCPUメモリに対して動的メモリ割り当てを頻繁に行う。個別の割り当ては非常に大きくなる可能性があり、例えば最長の発話の割り当てが1GB超える。これら非常に大きな割り当てについては、CUDAのメモリアロケータさらにstd::mallocはある場合に重大なオーバーヘッドをアプリケーションに導入してstd::mallocを使用する場合に比べて速度が2倍低下すると判明した。それは、cudaMallocとstd::mallocの両方がオペレーティングシステム又はGPUドライバに非常に大きな割り当てを転送してシステムページテーブルを更新するからである。それは複数のアプリケーション、すべての共有メモリリソースを実行するシステムへの良好な最適化であるが、ページテーブルの編集はあるシステムの実施形態の純粋なオーバーヘッドであり、ノードは単一モデルの実行について専用である。この制限を回避するために、CPUとGPUの割り当てに特定のメモリアロケータが作成された。当該実装はjemallocにおける最下層の共有アロケータの方法を採用し、つまりバディアルゴリズム(buddy algorithm)で連続したメモリブロックからすべての割り当てを切り出す。断片化を回避するために、トレーニング開始時に、予めすべてのGPUメモリを割り当て、当該ブロックから個々の割り当てを細分化する。同様に、mmapに転送されたCPUメモリブロックのサイズはstd::mallocより大きくように設置され、12GBとする。
ディープリカレントネットワークのトレーニングに必要な大部分のメモリは、ネットワークのパラメータを記憶することではなく、各層により活性化を記憶して逆伝播の使用に供することに用いられる。例えば、9層を有する70Mパラメータネットワークの重みを記憶するには約280MBのメモリが必要であるが、64ビット、7秒の発話のバッチ用の活性化を記憶するには、1.5GBのメモリが必要である。TitanX GPUは12GBのGDDR5 RAMを含み、非常に深いネットワークが長い発話を処理する時にGPUメモリの容量を超える可能性がある。特に発話長さの分布が異常値である時に、この現象は予測不能であり、これが発生する時に致命的な障害を避けることが望ましい。要求されるメモリ割り当てが可用GPUメモリを超える場合、代わりにcudaMallocHostを使用して、ページによりロックされたGPUメモリがマッピングしたCPUメモリを割り当てる。減少した帯域幅においてPCIe上で個々のメモリ処理を転送することで、当該メモリがGPU直接アクセス可能であり、異常値に遭遇してもモデルが処理を続行することができる。
高速メモリ割り当てと特殊の場合に可用GPUメモリをややオーバフローすることを許容するフォールバックメカニズムの組合せによって、システムの実施形態が大幅に簡単、ロバスト、効率的になる。
5. トレーニングデータ
大規模なディープ学習システムは、豊富なラベル付きトレーニングデータを必要とする。公知の可用データセットによってトレーニングを増加する以外、英語音声モデルと標準中国語音声モデル用の広範なトレーニングデータセットを収集する。英語では、表9にまとめられた800万個の発話を含む11,940時間のラベル付き音声データを使用する。標準中国語システムでは、1100万個の発話を含む9,400時間のラベルオーディオを使用する。標準中国語音声データは、標準標準中国語となまりのある標準中国語の朗読音声及び自発的音声のミックスを示す内部百度コーパスを含む。
表9:英語でDS2の実施形態をトレーニングするためのデータセットのまとめ

「ウォールストリートジャーナル」(WSJ)、Switchboard及びFisherコーパスはいずれも言語データコンソーシアムによって発行される。LibriSpeechデータセットは無料でオンラインで入手することができる。ほかのデータセットはいずれも内部百度コーパスである。
5.1 データセットの構造
いくつかの内部英語(3600時間)と標準中国語(1,400時間)データセットは、ノイズ転写を有する長いオーディオクリップとしてキャプチャされた生データから作成される。これらのクリップの長さは数分から数時間であるため、トレーニング期間にRNNにおいてそれをタイムリーに展開することが実際的でない。この問題を解決するために、アライメント、分割及びフィルタリングパイプラインを開発して、短い発話及び少ないエラー転写を含むトレーニングセットを生成する。図13は本開示の実施形態に係る音声転写トレーニング用のデータ収集の方法を示す。
パイプラインにおける第1ステップ1305では、CTCでトレーニングされた従来の双方向RNNモデルを使用して転写をオーディオフレームにアライメントする。所定のオーディオ−転写ペア(x,y)に対して、
(式13)
によってアライメントを最大化する。
これは、本質的に、CTCでトレーニングされたRNNモデルを使用して発見されるビタビアライメント(Viterbi alignment)である。式9はアライメント面で整合されたため、CTC損失関数が正確なアラインメントを生成することを明示的に求められていない。原則的に、CTCは一定の遅延後に転写のすべての文字を送信することを選択してもよく、単方向RNNによって実現可能である。しかし、双方向RNNでトレーニングする時に、CTCが正確なアライメントを生成することが発見された。
実施形態では、アライメントに続いて、分割ステップ1310であり、長い一連の連続した空白ラベルに遭遇する場合、通常、無音状態を示すため、オーディオと対応するアライメントされた転写を接合する。連続した空白の数を調整することで、生成した発話の長さを調整することができる。実施形態では、英語音声データの場合、単語境界上で分割するように、スペース記号が空白セグメント内にあることを必要とされる。分割を調整して平均長さが7秒の発話を生成する。
実施形態では、パイプライン中の次のステップ1315では、アライメント失敗によるエラー例を削除してトレーニングデータを取得する。実施形態では、数千個の例のグラウンドトゥルース転写は人間の集団からのものである。実施形態では、グラウンドトゥルースとアライメントされた転写との間の単語レベル編集距離を使用して「良好」又は「不良」ラベルを生成する。実施形態では、開発セットの良好部分の得られたWERが5%未満になるように、単語レベル編集距離用の閾値を選択する。実施形態では、音声認識装置から生成される所定の入力特徴の「不良」例を正確に予測するように、線形分類器をトレーニングする。
実施形態では、元のCTCコスト、シーケンス長さで正規化されたCTCコスト、転写物長さで正規化されたCTCコスト、シーケンス長さと転写物長さとの比率、転写中の単語数及び転写中の文字数という特徴は有用であることが判明された。英語データセットについて、フィルタリングパイプラインがWERを17%から5%に低下するとともに、50%以上の例を残しておく。
5.2 データ増加
実施形態では、ノイズを追加することでトレーニングデータを増加して、トレーニングデータの有効サイズを増加してノイズあり音声に対するロバスト性を改善する。トレーニングデータはいくつかの固有ノイズを含むが、データ増加によってノイズの数と種類を増加することができる。ノイズの増加が多すぎる場合、最適化が難しくなり、より悪い結果を招き、ノイズの増加が少なすぎる場合、低信号対雑音比の音声に対するシステムのロバスト性が低下してしまう。
実施形態では、ノイズをランダムに選択した発話の40%に追加することが良好なバランスとなることが分かる。ノイズ源は、数百時間のノイズを生成するように組み合わせられた数千時間のランダムに選択されたオーディオクリップを含む。
5.3 スケーリングデータ
本明細書に使用される英語と標準中国語コーパスは殆ど音声認識文献で一般的に報告されているものよりもかなり大きい。表10はラベル付きトレーニングデータ量の増加によるWERへの影響を示す。これは、トレーニング前、全データセットをランダムにサンプリングすることで実現される。各データセットに対して、通常、保持された開発セットのエラーによって早期に停止するが、当該モデルは最大20エポックまでトレーニングする。なお、WERは正規開発(regular development)セットとノイズあり開発セットの両方のべき乗則に従って低下する。トレーニングセットのサイズはそれぞれ10倍増加し、WERは〜40%低下する。正規データセットとノイズありデータセット間で一定のWER(相対〜60%)差が示され、つまりより多くのデータがこれら2種類の場合に同様に有利である。
音声システムはより多くのラベル付きトレーニングデータで改善し続けることを意味する。元の時間数の増加と同様に重要なのは実施形態のデータセットでキャプチャされた音声コンテキストの数を増加することであると仮定する。コンテキストは音声を独特させる任意の属性、例えば異なる話者、背景ノイズ、環境及びマイクロフォンハードウェアであってもよい。この要求を検証することに必要なラベルが利用不能であるが、データセット中の話者の関数であるWERを測定することは、単純無作為抽出(simple random sampling)の場合より大きい相対ゲインを引き起こすことができる。
表10:トレーニングデータのサイズを増加する場合における正規開発セットとノイズあり開発セットの英語WERの比較

当該アーキテクチャは9層のモデルであり、2個の2D不変畳み込み層及び7個のリカレント層を含み、68Mのパラメータを有する。
6. 結果
音声システムの実施形態の実用性をより良好に評価するために、様々なテストセットに対して評価を行った。いくつかの公知の可用基準及び内部で収集されたいくつかのテストセットを使用する。これらのテストセットは、一緒に低信号対雑音比(ノイズありと遠距離)音声、なまりのある音声、朗読音声、自発的音声及び会話音声を含む広範囲の挑戦的な音声環境を表す。
テストしたすべてのモデルは表9に記載の全英語データセット又は第5部分に記載の全標準中国語データセットにおいて20エポックトレーニングする。確率的勾配降下とNesterovモーメンタムは、512個の発話のミニバッチとともに使用される。勾配のノルム(norm)が閾値400を超える場合、400に再スケーリングする。トレーニング期間に保持された開発セットにおいてパフォーマンスが最適なモデルを選択して評価する。最も早く収束するように、学習率は[1×10−4,6×10−4]から選択され、各エポックの後に、1.2の定数因子によって強固(anneal)される。すべてのテストモデルはいずれも0.99のモーメンタムを使用する。
使用する言語モデルは第3.8節に記載の言語モデルである。式12の復号パラメータは保持された開発セットにおいて調整される。実施形態では、英語デコーダでは、500のビームサイズを使用し、標準中国語デコーダでは、200のビームサイズを使用する。
6.1 英語
最適なDS2モデル実施形態の一つとして、3個の2D畳み込み層、7個の双方向リカレント層、1個の完全に接続された出力層及びバッチ正規化を含む11層を有する。第1層は時間ストライド3でバイグラムに出力する。比較したところ、前のディープ音声モデルの実施形態は、単一双方向リカレント層を含む5層を有し、第1層において時間ステップ2でユニグラムに出力する。DS2モデルとDS1の両方に対して、いくつかのテストセットに基づいて結果を報告する。2つのモデルは、調整されたり変更されたりしてテストセットにおける任意の音声条件に適応することがない。言語モデルの復号パラメータは保持された開発セットにおいて1回設定される。
システムの性能をコンテキストに導入するために、音声認識が人間に得意なオーディオ知覚及び言語理解課題であるため、殆どの結果は人間の作業者に対してベンチマークされる。Amazon Mechanical Turkの従業員を雇ってすべてのテストセットを手動で転写させることで、人間レベルのパフォーマンスの尺度を取得することができる。2つの作業者は通常時間が約5秒の同一オーディオクリップを転写し、2つの転写のうちのより良好な一方が最終的なWER計算に用いられる。好きなだけ何度も音楽クリップを自由に聞くことができる。これらの作業者は主に美国からの者であり、転写するごとに平均して27秒がかかる。手動転写の結果と従来のグラウンドトゥルースを比較してWERを生成する。従来のグラウンドトゥルース転写は確かに何らかのラベルエラーがあるが、殆ど1%未満である。グラウンドトゥルース転写物と人間転写物との相違は人間レベルのパフォーマンスに対して優れた示唆を与えることを意味する。
6.1.1 モデルサイズ
英語音声トレーニングセットのサイズは一般的に使用される音声データセットより遥かに大きい。また、ノイズ合成によってデータを増加させる。最適な汎化誤差を図るために、データのモードを十分にエクスプロイトするようにモデルサイズを増加しなければならないことが予想される。第3.2節では、パラメータの数を決定するとともに、モデルの深さの影響を探索する。その一方、異なるサイズのモデルによる言語システムのパフォーマンスへの影響を示す。各層のサイズのみを変更し、負荷さやほかのアーキテクチャのパラメータを維持する。第3.5節に使用される同じ規則及びノイズあり開発セットをもとにこれらモデルを評価する。
表11のモデルは、ストライドが3に増加しバイグラムを出力するという点で表3のモデルと異なる。モデルのサイズが1億個のパラメータまで増加ずるため、ストライドの増加が高速計算とメモリ制約に必要であることが分かる。しかし、このような体制では、GRUネットワークの性能上の利点は簡単なRNNに比べて減少するように見える。実際、1億個のパラメータを有するネットワークでは、簡単なRNNはGRUネットワークのパフォーマンスより優れ、2個の余分な畳み込み層にも関わらずトレーニングが高速である。
表11:正規開発セットとノイズあり開発セットの両方でモデルのサイズによる英語音声システムのWERへの影響の比較

畳み込み層を除き、すべての層における隠れユニットの数量が変化する。GRUモデルは、1個の2D不変畳み込み層を含む3層の双方向GRUを有する。RNNモデルは、3個の2D不変畳み込み層を含む7層の双方向単純再帰を有する。これら2種類のモードはいずれも時間ストライド3でバイグラムを出力する。すべてのモデルは約3500万個のパラメータを含み、BatchNormとSortaGradを使用してトレーニングを行う。
表11はシステムの性能が1億個のパラメータまで向上することを示す。すべての英語DS2のさらなる結果は、汎化誤差が最も低くなるため、同じ1億個のパラメータを有するRNNモデルを報告した。

表12:3300個の例を含む内部テストセット上でDS1とDS2のWERの比較
テストセットは様々ななまりのある音声、低信号対雑音比の音声、自発的音声及び会話音声を含む。
表12から分かるように、様々な音声(挑戦的なアクセント、遠距離由来又は背景ノイズの低信号対雑音比、自発的音声及び会話音声を含む)を含む3300個の発音の内部百度データセットに基づいて、1個のリカレント層(DS1)を有する5層のモデルに比べて、1億個のパラメータを有するRNNモデル(DS2)が43.4%向上した。
6.1.2 朗読音声
高信号対雑音比の朗読音声は、連続音声認識タスク用の最も簡単な大規模語彙とみなすことができる。当該システムは朗読類ニュース「ウォールストリートジャーナル」(WSJ)からの2つのテストセットである。これらはLDCカタログにおいてLDC94S13BとLDC93S6Bの形式で提供されることができる。さらに最近開発したLibriVoxプロジェクトのオーディオブックで構築されたLibriSpeechコーパスを使用する。
表13から分かるように、4つのテストセットのうちの3つでは、DS2システムは人間より優れ、残りの1つのテストセットでも競争力がある。このような結果に基づいて、領域適応をせずに、一般的な音声システムによってクリーンな朗読音声の面で改善する余地が殆どないと考えられる。

表13:2つの音声システムと人間レベルのパフォーマンスの朗読音声面でのWER比較
表14:DS1システムとDS2システムのなまりのある音声面でのWER比較
表15:DS1とDS2システムのノイズあり音声面での比較

「CHiME eval clean」はノイズなしベースラインである。「CHiME eval real」データセットは実際のノイズの多い環境で収集され、「CHiME eval sim」データセットはクリーンな音声に合成された類似するノイズを有する。なお、6個のチャネルのうちの1つだけは各発話のテストに用いられる。
6.1.3 なまりのある音声
なまりのある音声源は公知の可用VoxForgeデータセットであり、多くの異なるなまりのある話者から読み取られるクリーンな音声を有する。これらのなまり4種類に分けられる。アメリカ−カナダ人とインド人は自明である。英連邦のなまりのある群体は英国、アイルランド、南アフリカ、オーストラリア及びニュージーランドアクセントのなまりのある人である。ヨーロピアンは英語を第1言語として用いていないヨーロッパ諸国からのなまりのある人を含む。1なまりグループあたり1024個例、計4096個の例を有するVoxForgeデータがテストセットを構成する。
これらテストセットに基づくパフォーマンスは、ある程度、トレーニングデータの幅と品質の尺度である。表14から分かるように、より多くのなまりのあるトレーニングデータを含み且つ当該データを効果的にトレーニングできるアーキテクチャを使用する時に、すべてのなまりの性能が改善される。しかし、インドなまりの場合以外、人間レベルのパフォーマンスはDS2認識システムより高い。
6.1.4 ノイズあり音声
最近完成した第三回のCHiMEチャレンジ由来の公知の可用テストセットを使用してノイズあり音声についての性能をテストする。当該データセットはWSJテストセット由来の様々なノイズの多い環境(バス、カフェ、通りや歩行領域を含む)で読み取られた1320個の発話を含む。ChiMEセットはさらに1320個の同一環境でのシミュレートノイズを含み、同一話者がノイズなし環境で生成する同一発話の制御セット(control set)を含む。制御セットとノイズセットの結果の違いはネットワークが様々な実際と合成ノイズ条件を処理する能力を計測することに用いられる。CHiMEオーディオは6個のチャネルを有し、すべてのこれらチャネルによって性能を大幅に向上させることができる。マルチチャネルオーディオが殆どの装置に普及されていないため、すべての結果は単一チャネルを使用する。表15から分かるように、DS2はDS1対して程度がかなり改善されたが、DS2はノイズデータ面では人間レベルのパフォーマンスより悪い。合成によりノイズをクリーンな音声に追加するのではなく、データが実際のノイズの多い環境由来である場合、DS2と人間レベルパフォーマンスとの相対的な差がより大きくなる。
6.2 標準中国語
表16は、標準中国語音声で、2000個の発話を含む開発セット及び1882個のノイズあり音声の例を含むテストセットをトレーニングするいくつかのアーキテクチャを比較する。当該開発セットは復号パラメータを調整することにも用いられる。表16から分かるように、2D不変畳み込み及びBatchNormを有する最も深いモデルは浅いRNNより48%向上するため、見られる英語システム(複数の双方向リカレント層)で性能を向上させる傾向が続いている。
最適な標準中国語音声システムは典型的な標準中国語を話す者に比べて、短い音声クエリ(例えば、発話)をより良好に転写することが分かる。人間にベンチマークを行うために、100個のランダムに選択された発話を使用してテストを行い、1グループにおける5人をすべてラベル付けする。エラー率が3.7%の音声システムに比べて、このグループの人のエラー率が4.0%である。さらに250個のランダムに選択された発話を使用して単一人間転写者と音声システムを比較する。この場合、音声システムのパフォーマンスがより優れ、人間のエラー率が9.7%であり、音声モデルのエラー率が5.7%である。
表16:Deep Speechの改善とアーキテクチャの改善の比較

開発セットとテストセットが百度内部コーパスである。表中のすべてのモデルがそれぞれ約8000万個のパラメータを有する。
7. 配置
現実世界のアプリケーションでは通常、音声システムがリアルタイムに又は低い遅延で転写する必要がある。第6.1節で使用されるシステムはこのタスクのためによく設定されていない理由として、いくつかがある。第1、RNNは複数の双方向層を有するため、発話の第1部分を転写するには、完全な発話をRNNに提供する必要がある。第2、言語モデルを使用して復号する時に、広いビームを使用するため、特に次の可能な文字の数が非常に大きい(約6000)標準中国語では、ビーム探索のコストが高い可能性がある。第3、第3部分に記載するように、発話全体のパワーが正規化されるため、再び発話全体が事前に利用可能であることを必要とされる。
トレーニングセットからのいくつかの統計量を使用してパワー正規化問題を解決して、オンライン転写期間に音声入力の適応正規化を実行する。ほかの問題はネットワークと復号手順を変更することで解決でき、それにより、ほぼ同時に大幅に減少した遅延で実行するモデルを生成する。標準中国語システムは、特定の側面での配置がより挑戦的であるために(例えば、大規模な文字セット)、注目が集まっているが、同様な技術は英語にも適用されてもよい。
当該部分では、遅延とは、発話終了から転写生成前まで測定した音声システムの計算遅延である。この遅延は、インターネットによるデータ伝送を含まず、発話開始から1回目の転写生成前までの遅延を測定しない。音声終了から転写までの遅延は、音声認識を使用するアプリケーションに対して非常に重要であるため、注目が集まっている。
7.1 バッチディスパッチ
相対的に大規模なディープニューラルネットワークを低遅延で配置するために、配置期間の効率に特別の注意が払われている。殆どのインターネットアプリケーションはデータセンタに到達する時に、要求を個別に処理する。それはストレートフォワード実装に寄与し、そのうち、各要求は1つのスレッドによって管理されることができる。しかし、主に2つの理由から、要求を個別に処理することが計算効率の低下につながる。第1、要求を個別に処理する時に、プロセッサは各要求にネットワークのすべての重みをロードする必要がある。その結果、負荷の算術強度が低下し、計算メモリ帯域幅が制限され、それは、要求を個別に提供する時にオンチップキャッシュを効果的に使用することが難しいからである。第2、1つの要求を分類できる並列処理の数が有限であるため、SIMD又はマルチコア並列処理を活用することが難しい。サンプルごとにRNNを評価することは帯域幅が制限され且つ並列処理が難しい連続行列ベクトル乗算に依存するため、RNNの配置は特に挑戦的なことである。
これらの問題を克服するために、バッチディスパッチと呼ばれるバッチスケジューラを作成し、まず、ユーザ要求からのデータストリームをバッチとして組み立て、続いてこれらのバッチを順方向に伝播する。この場合、増加したバッチサイズ間にトレードオフが存在して、効率を向上させ、遅延を増加する。大規模なバッチを組み立てるためにバッファされたユーザの要求が多いほど、ユーザがその結果を待つ時間が長い。その結果、実行可能なバッチ処理の量が制限される。
当時用意している負荷量にかかわらず、前のバッチが完了すると、直ちに各バッチを処理するという望ましいバッチ処理手法が使用される。実際の計算効率が低いにも関わらず、バッチサイズの最大化を図らないため、当該スケジューリングアルゴリズムは端末ユーザの遅延を低減する面では最適であることが証明された。
図14は、単一NVIDIA Quadro K1200 GPUで実行される生産システムが、10〜30個の同時に起こるユーザ要求を有し、所定サイズのバッチで要求を処理する確率を示す。予想通り、サーバの負荷が高過ぎる場合、バッチ処理の効果が最適であり、負荷の増加につれて、より大きなバッチの処理要求をサポートするように、割り当てがシフトする。しかし、軽負荷は10個の同時に起こるユーザ要求のみを有する場合でも、システムは少なくとも2つのサンプルでバッチごとに半分以上の負荷を実行する。
図15は本開示の実施形態に係るサーバ負荷関数としての中央値及び98パーセンタイル遅延を示す。図15から分かるように、10個の同時ストリーム(concurrent stream)がロードされる場合、システムは44 msの中央値遅延を実現し、98パーセンタイル遅延が70 msである。サーバの負荷の増加につれて、バッチスケジューラはより高効率のバッチにシフトして低遅延を維持する。バッチ処理スケジューリングによって高スループットと低遅延でこれらの大規模モデルを配置することを可能にすることが分かる。
以下、一般的なケース及び挑戦的なケースに用いられる例示的な実装を示し、固定長又は可変長のデータパケットの順序付けられたシーケンスを含むストリーミング入力を分類するとともに遅延制約を満たすことに関する。実施形態では、非ストリーミング入力は同様に各データパケットを(微小)ストリームの最後のデータパケットとして指定して処理する。
本明細書に使用される用語「要求」、「ユーザ要求」、「データ処理要求」、「ストリーム」、「ストリーミング入力」及び「データストリーム」は交換可能に使用される。各ストリームが単一ユーザに関連付けられているため、用語「ユーザ」が「ストリーム」に関連付けられている。用語「ブロック」とは、ニューラルネットワークの入力サイズに関連付けられるデータのサイズである。用語「データパケット」はネットワークを介して伝送される1組のデータとして理解すべきである。用語「データパケット」は、本発明の実施形態をイーサネット(登録商標)又は第3層のネットワークに限定するものではない。用語「データパケット」、「フレーム」、「データ」、「データグラム」、「セル」又は「データトラフィック」は交換可能に使用されてもよく、且つ1組のデータを示すほかの用語で置換されてもよい。
ニューラルネットワークモデルを使用してデータを処理すると仮定したが、当業者は、ほかの技術、モデルやネットワークによって本開示の実施形態に係るデータを処理してもよいと理解できる。
「データ」とは、様々なタイプの入力データのうちのいずれかである。例えば、音声環境で発話を転写する時に、各データパケットは数ミリ秒(例えば、80ms)のオーディオを示す。ビデオコンテキストでは、各データパケットは現在の画像と前の画像との違いを示す。画像認識では、各データパケットは完全な画像の1つのタイルを示すことができる。
実施形態では、遅延制約は、ストリームにおける最後のデータパケットの到達後の一定時間内に処理する1つの完全のストリームを指示する。これは、
全ストリーム処理<T最後のデータパケットの到達+Δ許容遅延
のように表してもよい。
ここで、T全ストリーム処理はストリーム全体の処理を完了すべき時刻、T最後のデータパケットの到達は最後のデータパケットの到達時刻、Δ許容遅延はアプリケーションに依存する許容遅延。オンライン設定では、遅延は通常、非常に重要であり、Δ許容遅延は1秒未満になる可能性がある。
実施形態では、1つの目標は、遅延制約(例えば、高スループットを維持する)を満たすとともに、できるだけ多くのストリームを同時に処理することである。これと比較して、従来方法は、低遅延を確保しながら柔軟性を維持するように、各ストリームを個別に単独で処理する。
本開示の実施形態では、複数の要求がパイプラインを介してニューラルネットワークを実現する計算エンジンに同時に伝送されるモデル/アーキテクチャが採用されている。実施形態では、ニューラルネットワークが単一ユーザ用のデータへの処理と類似する方式で複数の同時ユーザのデータを処理できるように、バッチ処理方法が使用される。実施形態では、バッチプロデューサーが複数のユーザに関連付けられたデータパケットを含むデータ処理要求を(例えば、非同期方式で)受信する時に、バッチ処理方法を開始する。データパケットはユーザに関連付けられたストリーム中に到達することができる。データパケットは、例えば、複数のユーザからのデータストリームを負荷分散するロードバランサを介して到達することができる。実施形態では、データパケットの到達時間は未知であり、且つアプリケーションレベル(例えば遅延制約、計算エンジンの性能特徴等)により制限される可能性がある。
実施形態では、バッチプロデューサーは要求からのデータを、アプリケーションレベル制約内で、1つ以上の要求(例えば、状態要求)からのデータを含むバッチに動的に組み立てる。
実施形態では、メモリに1回ロードし及び/又はメモリから1回ロードして計算遅延要求を減少させて、データストリームのスループットを増加する普通のニューラルネットワーク(例えば、オーディオストリームにおいて分類を実行するようにする)を使用して、バッチを処理する。
実施形態では、例えば分類結果等の結果を出力する。従って、メモリ帯域幅を節約し、計算効率を向上させる。
実施形態では、バッチプロデューサーは単一スレッドで実行され、以下のように動作する。
a)当該データを前処理する。
b)前処理したデータを多くのユーザに共有されるバッチ行列にパッキングする。
c)当該バッチ行列を計算エンジンに転送する。
実施形態では、バッチプロデューサーは3種類のデータ構造を保持する。 1)各ユーザの入力バッファ;
2)各ユーザの前処理バッファ;
3)バッチのリンクリスト(即ち、ニューラルネットワークへの行列入力)、バッチリストとして表されてもよい。例えば音声又はビデオ処理のアプリケーションでは、ニューラルネットワークは、計算エンジンが正確な出力を生成することを確保するように、所定の順序でバッチを処理する。実施形態では、バッチは2つ以上のユーザ間に共有される。実施形態では、前処理を実行しなくてもよい。
以下、本開示の実施形態に係る前処理を使用した例示的なバッチ処理方法を説明する。実施形態では、特定のユーザのデータパケットがバッチプロデューサーに到達すると、バッチ処理方法を開始する。実施形態では、データは当該ユーザの入力バッファにコピーされ、続いて、当該データパケットを破棄してもよい。実施形態では、当該入力バッファが前処理される。前処理の例として、オーディオ信号からスペクトログラムへの変換及びほかの処理が挙げられる。実施形態では、前処理を実行しなくてもよい。
実施形態では、前処理が完了すると、結果が当該ユーザの前処理バッファに格納される。いくつかのアプリケーションでは、前処理はデータブロックにおいて行われる可能性がある。例えば、音声システムは常に、固定サイズの音声入力ウィンドウのスペクトログラムを使用する。その結果、実施形態では、ユーザのデータパケットは将来のデータパケットからのデータなしで前処理されることを確保できないことがある。
実施形態では、前処理したバッファが少なくともニューラルネットワークに必要な入力と同じサイズである場合、1つのブロック(そのサイズがニューラルネットワークの入力サイズにより決定される)を、前処理したバッファからバッチリストにおける次の合格バッチに伝送する。実施形態では、合格とされる(to be eligible)バッチについては、現在ユーザが処理しているデータを含むべきではない。実施形態では、バッチのサイズを制限して全バッチも不合格とされる。画像又はビデオ認識アプリケーションでは、ブロックは完全な画像を示すことができ、音声認識アプリケーションでは、ブロックは固定長の入力スペクトログラムを示すことができ。
実施形態では、バッチプロデューサーは、すべてのアクティブユーザをループしてバッチを充填する。
実施形態では、続いて、バッチプロデューサーは1つ以上のバッチを計算エンジンに送信するか否かを決定する。実施形態では、いくつかの方式によって決定し、即ち、 1)簡単な方法の1つとして、計算エンジンがビジーでない場合のみ、1つのバッチを送信する。
2)別のより構造化された方法として、
a)当該バッチはユーザのデータを含み、当該ユーザの最後のデータパケットが既に到達し、計算エンジンの処理時間とバッチプロデューサーによる追加反復に必要な時間との和が遅延制約を超える、
b)バッチバッチリストが十分に完全であり、任意のアクティブユーザの最後のデータパケットが現在到達した場合、遅延制約を満たすことができない
という条件のいずれかを満たす場合、1つのバッチを送信する。
実施形態では、後者の方法を実施するために、システムの異なる部分の処理時間に合理的かつ正確な閾値を設定する必要がある。効率をより高めるために、実施形態では、バッチプロデューサーは、遅延制約を満たすように高い優先度及び低い計算効率で実行する遅延感度の高いバッチと、大部分の計算作業を処理する、より大きいがより効率的なスループット指向のバッチとを組み立てる。実施形態では、バッチプロデューサーはプロセスが終了するまでループを続ける。
バッチディスパッチを使用するバッチ処理のさらなる検討は、2016年7月13日に提出する名称が「効率的なニューラルネットワークを配置するためのシステム及び方法」の共通譲渡された米国特許出願第15/209,499号を参照し、当該願では、発明者として、Christopher Fougner及びBryan Catanzaroが記載されている。上記特許文献の全内容は引用によって本明細書に組み込まれている。
7.2 配置を最適化した行列乗算カーネル
半精度(16ビット)浮動小数点演算を使用してモデルを配置することは、認識精度を測定可能に変更することができないことが分かる。配置は、ネットワークの重みをあらためて更新する必要がないため、数値精度への感度がトレーニングより遥かに低い。半精度演算を使用することで、メモリ空間と帯域幅を節約し、配置に非常に有利である。RNN評価は加重行列をキャッシング及びストリーミングするコストに依存するからである。
第7.1節に示すように、配置期間のバッチサイズはトレーニング中のバッチサイズより遥かに小さい。標準BLASライブラリはこのバッチサイズでは非効率的であることが分かる。この問題を克服するために、半精度行列−行列乗算カーネルを作成する。10個の同期ストリームについて、90%超えのバッチがN≦4の場合に適用することができ、行列乗算が帯域幅により制限される。可能な限り最も広いベクトル負荷を使用して帯域幅を最大化するとともに、ロード後の転置を回避するように、行列Aが記憶されて転置される。各warpはすべてのN個の出力の列に対して4行の出力を計算する。なお、N≦4の場合、行列BはL1バッファに完全に適する。当該案によって、N≦4のピーク帯域幅の90%を実現したが、L1バッファへの行列Bのフィッティングが停止する場合、大きなNに対して効がなくなり始める。それにもかかわらず、N=10になるまで従来のライブラリより高い性能を継続的に提供する。
図14に示すように、配置に使用されるバッチサイズの全範囲にわたって、配置カーネルがK1200 GPU上のNervanaシステムより高い計算スループットを維持することを示す。カーネルはAx=b(Aはサイズが2560×2560の行列、xはサイズが2560×バッチサイズの行列であり、バッチサイズ∈[1,10]である)の計算に用いられる。すべての行列は半精度形式である。カーネルとNervanaカーネルはNVIDIA CUBLAS 7.0バージョンより大幅に高速であり、本明細書では詳細に説明する。
7.3 ビーム探索
ビーム探索の実行は、nグラム言語モデルにおける重複ルックアップに関し、その大部分はメモリからのキャッシュされていない読み取りに変換されることができる。ビーム探索の直接的な実装は、各ビームの各時間ステップに1つのルックアップテーブルを割り当てることを意味する。標準中国語では、ストライド40msあたりの音声データが1Mのルックアップテーブルを超えることになり、配置にとって遅すぎる。この問題を解決するために、ヒューリスティックを使用してビーム探索をさらにプルーニングする。すべての文字をビームの可能な追加とみなすのではなく、累積確率が少なくともpの文字の最小数のみを考慮する。実際には、p=0.99の効果が良好であることが分かる。また、当該数は40個の文字以下に制限される。標準中国語モデルのルックアップ時間を150倍短縮し、CERへの影響が殆どない(相対的に0.1〜0.3%)。
7.4 結果
当該システムは、大幅な精度を犠牲することなく、低遅延と高スループットで配置可能である。2000個の発話の保持セット(held-out set)では、研究システムの文字誤り率は5.81であるが、配置されたシステムの文字誤り率は6.10である。配置されたシステムの相対劣化はわずかな5%である。これを実現するために、配置遅延の低いニューラルネットワークアーキテクチャを採用し、ネットワークの精度を16ビットに低減させ、バッチスケジューラを構築してRNNを効率的に評価し、また、簡単なヒューリスティックによってビーム探索のコストを低減させることが分かる。当該モデルは2560個の隠れユニットを有する5個の順方向のみの(forward-only)リカレント層、1個のτ=19の行畳み込み層(第3.7節参照)、及び2560個の隠れユニットを有する1個の完全接続層を含む。これらの技術によって、低コストでDeep Speechを対話式アプリケーションに配置することを可能にする。
8. スケーラビリティの改善
8.1 ノード及びクラスタのアーキテクチャ
ソフトウェアスタックは2個のIntel CPU及び8個のNVIDIA Titan X GPUから構築された計算高密度ノードにおいて実行され、53 teraFLOP/秒の単精度計算スループットを有する。各ノードはさらに384GBのCPUメモリ、及びRAID−0配置における2つの4TBハードディスクから構築される8TB記憶容量を有する。CPUメモリは、回転ディスクの低帯域幅と高遅延に直接晒されないように、入力データをバッファする。英語と標準中国語データセットは各ノードのローカルハードディスクでコピーされる。ネットワークによる重み更新を可能にするとともに、集中型ファイルサーバに依存せざるをえないことを回避することができる。
図17はノードのうちの1つの概略図を示し、同一PCIルート複合体により接続されるすべての装置が点線ボックスに包まれる。GPUDirectは、GPU間の通信を加速するように、ルート複合体におけるGPUの数の最大化を試みた。それにより、効率的な通信メカニズムを使用して、GPU間で勾配行列を伝送することを可能にする。
クラスタ中のすべてのノードはFDR(Fourteen Data Rate、14データレート)Infinibandによって接続され、主に逆伝播中の勾配伝送に用いられる。
8.2 CTC損失関数のGPU実装
実施形態では、スケーラビリティの向上の一つは、CTC損失関数のGPU実装の実施形態を含む。これらの実施形態は上記の第4.2節で説明された。
9. 結論
エンドツーエンドディープ学習はデータ及び計算の増加につれて音声認識システムを継続的に改善するための興奮させるアイディアを提案する。実際、結果として、第2世代ディープ音声の実施形態はより多くのデータ及びより大規模なモデルを利用することで、人間の作業者との転写性能の差を著しく縮小したことが分かる。また、当該方法は汎用性が非常に高いため、新たな言語に迅速に応用できると表明された。2種類の異なる言語(英語と標準中国語)に高性能認識装置を構築し、関連言語の専門知識が殆ど要らない。最後に、実施形態では、GPUサーバ上でユーザ要求をバッチ処理することで当該方法を効率的に配置して、さらにユーザにエンドツーエンドのディープ学習技術を提供することが分かる。
実施形態では、これらの結果を実現するために、様々なネットワークアーキテクチャを検討し、いくつかの有効な技術を開発し、例による方式は、SortaGradとBatch正規化によって数値最適化を強化し、英語に対してより大きなストライドでバイグラム出力を使用してRNNを評価し、双方向モデルと単方向モデルの両方で探索を行うことを含む。この探索は、最適化された高性能コンピューティングインスピレーショントレーニングシステムによってサポートされ、当該システムは、数日間に大規模なデータセットで新たなフルスケールモデルをトレーニングすることを可能にする。
全体として、結果が音声認識用のエンドツーエンドディープ学習方法のいくつかの設定での価値を確認して例示した。主にアプリケーションと無関係なディープ学習技術であるため、システムは人間に匹敵していない場合、その差が迅速に低下した。これらの技術はスケーリングが継続するため、殆どの場面で単一音声システムのパフォーマンスが人間を超えることが間もなく実現される。
図18は本発明の実施形態に係るコンピューティングシステム1800のブロック図を示す。なお、コンピューティングシステムは異なって構成され異なる構成要素を備えると理解するが、システム1800に示される機能はコンピューティングシステムの様々な実施形態をサポートするように動作してもよい。図18に示すように、システム1800はコンピューティングリソースを提供しコンピュータを制御する1つ又は複数の中央処理装置(CPU)1801を備える。CPU1801はマイクロプロセッサ等によって実施されてもよく、数学的計算用の1つ以上のグラフィックスプロセシングユニット(GPU)1817及び/又は浮動小数点コプロセッサをさらに備えてもよい。システム1800は、システムメモリ1802をさらに備えてもよく、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)又はそれらの組合せであってもよい。
図18に示すように、複数のコントローラ及び周辺装置をさらに提供する。入力コントローラ1803は、例えばキーボード、マウス又はスタイラスの様々な入力装置1804に接続可能なインターフェースを表す。スキャナ1806と通信するスキャナコントローラ1805をさらに備えてもよい。システム1800は1つ以上の記憶装置1808にインターフェース接続される記憶コントローラ1807をさらに備えてもよく、各記憶装置は、例えば磁気テープや磁気ディスクの記憶媒体、又はシステム、ユーティリティ及びアプリケーションを実行するための命令のプログラムを記録するための光媒体を含み、システム、ユーティリティ及びアプリケーションを実行するための命令のプログラムは本発明の各態様を実現するプログラムの実施形態を含んでもよい。記憶装置1808はさらに本発明において既に処理されたデータ及び処理しようとするデータを記憶してもよい。システム1800は、陰極線管(CRT)、薄膜トランジスタ(TFT)ディスプレイ又はほかのタイプのディスプレイのような表示装置1811に接続されるインターフェースを提供する表示コントローラ1809をさらに備えてもよい。コンピューティングシステム1800は、プリンタ1813と通信するプリンタコントローラ1812をさらに備えてもよい。通信コントローラ1814は1つ以上の通信装置1815とインターフェース接続可能であり、それにより、システム1800がインターネット、イーサネット(登録商標)クラウド、ファイバーチャネル・オーバー・イーサネット(登録商標)(FCoE)/データセンタブリッジ(DCB)クラウド、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ストレージエリアネットワーク(SAN)等の様々なネットワークのうちのいずれか又は赤外線信号を含む任意の適切な電磁波キャリア信号によって遠隔装置に接続することを可能にする。
図示するシステムでは、すべての主なシステム構成要素は、バス1816に接続されてもよく、バス1816は1つ以上の物理バスを表してもよい。しかし、様々なシステム構成要素は互いに物理的に近接してもよく物理的に近接していなくてもよい。例えば、入力データ及び/又は出力データは1つの物理的位置から別の物理的位置に遠隔送信される。また、ネットワークによって、遠隔位置(例えば、サーバ)から本発明の各態様を実現するプログラムにアクセスするようにしてもよい。このようなデータ及び/又はプログラムは様々な機械可読媒体のうちのいずれかによって伝送されてもよく、機械可読媒体は、ハードディスク、フロッピーや磁気テープのような磁気媒体、CD−ROMやホログラフィック装置のような光媒体、光磁気媒体、及び特別にプログラムコードを記憶又は記憶して実行するように構成されるハードウェア装置(例えば特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリデバイス及びROMやRAMデバイス)を含むが、それらに限定されない。
本発明の実施形態は、1つ以上のプロセッサ又は処理ユニットにステップを実行させるように指示するための命令を含む1つ以上の非一時的コンピュータ可読媒体で符号化してもよい。なお、1つ以上の非一時的コンピュータ可読媒体は揮発性及び非揮発性メモリを含むべきである。なお、ハードウェア実装又はソフトウェア/ハードウェア実装を含む代替の実装が可能である。ハードウェア実装の機能はASIC、プログラマブルアレイ、デジタル信号処理回路等によって実現されてもよい。従って、請求項のいずれかに記載の用語「手段(means)」は、ソフトウェア及びハードウェア実装を含むことを意味する。同様に、本明細書に使用される用語「コンピュータ可読媒体」は、その上に具現化された命令のプログラムを有するソフトウェア及び/又はハードウェア又はそれらの組合せを含む。これらの代替的な実施形態を考慮すると、図面及び添付の明細書は、当業者がプログラムコード(即ち、ソフトウェア)を作成し及び/又は回路(即ち、ハードウェア)を製造して所要の処理を実行することに必要な機能情報を提供すると理解すべきである。
なお、本発明の実施形態は、様々なコンピュータ実装の操作を実行するためのコンピュータコードを有する非一時的な有形コンピュータ可読媒体を有するコンピュータ製品にさらに関してもよい。当該媒体とコンピュータコードは本発明の目的のために特別に設計され構築されるものであってもよく、当業者の公知のものや利用可能なものであってもよい。有形コンピュータ可読媒体の例は、ハードディスク、フロッピーや磁気テープのような磁気媒体、CD−ROMやホログラフィック装置のような光媒体、光磁気媒体、及び特別にプログラムコードを記憶又は記憶して実行するように構成される(特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリデバイス及びROMやRAMデバイス)ハードウェア装置を含むが、それらに限定されない。コンピュータコードの例は、コンパイラによって生成される機械コード、及びコンピュータがインタープリタで実行したより高水準コードを有するファイルを含む。本発明の実施形態は全体的又は部分的に機械実行可能命令として実現されてもよく、当該命令が処理装置により実行されるプログラムモジュール内にあってもよい。プログラムモジュールの例は、ライブラリ、プログラム、ルーチン、オブジェクト、要素及びデータ構造を含む。分散型コンピューティング環境では、プログラムモジュールはローカル、遠隔地又は両方の設定環境に物理的に配置されてもよい。
当業者であれば、コンピューティングシステム又はプログラミング言語は本発明の実施に極めて重要ではないと理解すべきである。また、上記複数の要素は物理的及び/又は機能的にサブモジュールに区画されてもよく一体に組み合わせられてもよいと理解すべきである。
当業者であれば、上記の例と実施形態は例示的であり、本発明の範囲を限定するものではないと理解すべきである。本明細書及び図面に基づいて当業者に明らかなすべての置換、強化、同等物、組合せや改良は本発明の趣旨及び範囲内に属する。
なお、ついている請求項の要素は、複数の依存関係、構成及び組合せを有するように、異なって配置されてもよい。例えば、実施形態では、各請求項の主題がほかの請求項と組み合わせられてもよい。

Claims (19)

  1. 音声転写用の転写モデルをトレーニングするためのコンピュータ実装方法であって、
    発話セットにおける各発話に対して、
    関連するグラウンドトゥルースラベルを有する各発話から1組のスペクトログラムフレームを取得し、前記発話と前記関連するグラウンドトゥルースラベルとが、複数のミニバッチを含むトレーニングセットからサンプリングされるステップと、
    1つ又は複数の畳み込み層及び1つ又は複数のリカレント層を含む転写モデルから、前記発話に対する予測文字又は文字確率を出力し、前記複数のミニバッチのうちの1つ又は複数のミニバッチにバッチ正規化を適用して前記1つ又は複数のリカレント層のうちの少なくとも1つにおける予備活性化を正規化するステップと、
    関連するグラウンドトゥルースラベルを与えることで損失を計算して、前記発話に対する文字予測の誤差を測定するステップと、
    前記転写モデルのパラメータに対して、前記損失の導関数を計算するステップと、
    前記導関数を利用して逆伝播によって前記転写モデルを更新するステップと、を含み、
    前記コンピュータ実装方法は、
    第1個のトレーニングエポックにおいて、各ミニバッチにおける最長発話の長さの昇順でトレーニングセットを反復するステップと、
    第1個のトレーニングエポックの後に、前記複数のミニバッチをランダムな順序に戻して追加の転写出力トレーニングを行うステップと、をさらに含む、ことを特徴とする音声転写用の転写モデルをトレーニングするためのコンピュータ実装方法。
  2. 前記バッチ正規化はさらに1つ又は複数の畳み込み層に実装されることを特徴とする請求項1に記載のコンピュータ実装方法。
  3. 前記バッチ正規化は、各バッチ正規化される層の各隠れユニットに対して、ミニバッチにおける発話シーケンスの長さにわたって前記予備活性化の平均値と分散を計算するステップを含むことを特徴とする請求項2に記載のコンピュータ実装方法。
  4. 前記1組のスペクトログラムフレームを取得する手順で、所定数のタイムスライスのステップをストライドとして前記発話の二次サンプリングを実行することを特徴とする請求項1に記載のコンピュータ実装方法。
  5. 前記転写モデルからの前記予測文字は、英語アルファベットから豊富化された代替ラベルを含むことを特徴とする請求項4に記載のコンピュータ実装方法。
  6. 前記代替ラベルは単語全体、音節及び非重複nグラムから選択されることを特徴とする請求項5に記載のコンピュータ実装方法。
  7. 前記非重複nグラムは単語レベルでは非重複バイグラムであることを特徴とする請求項6に記載のコンピュータ実装方法。
  8. 出力した予測文字におけるすべてのユニグラムラベルは同型によりバイグラムラベルに変換されることを特徴とする請求項7に記載のコンピュータ実装方法。
  9. 前記トレーニングセットはデータ収集パイプラインによって生オーディオクリップと生転写から生成されることを特徴とする請求項1に記載のコンピュータ実装方法。
  10. 前記トレーニングセットを生成することは、
    前記生オーディオクリップと前記生転写とをアライメントするステップと、
    オーディオに一連の連続した空白ラベルが出現するたびに、アライメントしたオーディオクリップと対応する転写とを分割するステップと、
    誤った例を削除することで、分割したオーディオクリップと対応する転写をフィルタリングするステップと、を含むことを特徴とする請求項に記載のコンピュータ実装方法。
  11. 音声転写用のリカレントニューラルネットワーク(RNN)モデルをトレーニングするためのコンピュータ実装方法であって、
    前記RNNモデルの第1層において、複数の発話における各発話の1組のスペクトログラムフレームを受信し、前記複数の発話と関連するグラウンドトゥルースラベルとがトレーニングセットからサンプリングされるステップと、
    前記RNNモデルの1つ又は複数の畳み込み層において、周波数領域と時間領域のうちの少なくとも一方において前記1組のスペクトログラムフレームに畳み込みを行うステップと、
    前記RNNモデルの1つ又は複数のリカレント層によって1つ又は複数の文字を予測し、バッチ正規化を実施して前記1つ又は複数のリカレント層のうちの少なくとも1つの予備活性化を正規化するステップと、
    前記RNNモデルの出力層において予測文字の確率分布を取得するステップと、
    関連するグラウンドトゥルースラベルを与え、コネクショニスト時間的分類アルゴリズム(CTC)損失関数を実行して、前記発話に対する文字予測の誤差を測定し、ここで、前記CTC損失関数の実現は順方向行列と逆方向行列の要素ごとの加算を含み、前記順方向行列と前記逆方向行列がそれぞれCTC損失関数の順方向パスと逆方向パスで生成され、前記順方向行列の各列におけるすべての要素が計算されてCTC損失関数の実行に用いられるステップと、
    前記RNNモデルのパラメータに対して、前記損失関数の導関数を計算するステップと、
    前記導関数を利用して逆伝播によって前記RNNモデルを更新するステップと、を含むことを特徴とするコンピュータ実装方法。
  12. 前記バッチ正規化は、前記1つ又は複数のリカレント層に対して各発話の長さにおいて前記予備活性化の平均値と分散を計算するステップを含むことを特徴とする請求項11に記載のコンピュータ実装方法。
  13. 前記CTC損失関数は対数確率空間において実装されることを特徴とする請求項11に記載のコンピュータ実装方法。
  14. 前記CTC損失関数はグラフィックスプロセシングユニット(GPU)によって実装されることを特徴とする請求項11に記載のコンピュータ実装方法。
  15. CTC損失関数アルゴリズムは、
    (a)勾配計算に対して、順方向行列と逆方向行列の要素ごとの加算によって生成された行列の各列を取り、前記予測文字をキーとしてキー−値削減演算を行う方法、
    (b)前記順方向パスと前記逆方向パスを対応する計算カーネルにマッピングする方法、
    (c)キー−値ソートを実行し、前記キーが前記発話における文字、前記値が前記発話における各文字のインデックスである方法のうちの1つ又は複数の方法を含むことを特徴とする請求項14に記載のコンピュータ実装方法。
  16. 1つ又は複数の命令シーケンスを含む非一時的コンピュータ可読媒体又はメディアであって、
    1つ又は複数のマイクロプロセッサにより実行される時に、前記命令シーケンスは、
    複数のバッチの発話シーケンスを受信し、各発話シーケンスと関連するグラウンドトゥルースラベルとがトレーニングセットからサンプリングされるステップと、
    前記発話シーケンスに対応する予測文字の確率分布をコネクショニスト時間的分類アルゴリズム(CTC)層に出力するステップと、
    音声転写トレーニング用のCTC損失関数アルゴリズムを実行し、当該実行は対数確率空間において順方向行列と逆方向行列の要素ごとの加算を行うことを含み、前記順方向行列と前記逆方向行列がそれぞれCTC損失関数の順方向パスと逆方向パスで生成され、前記順方向行列の各列におけるすべての要素が計算されてCTC損失関数の実行に用いられるステップと、を実行することを特徴とする非一時的コンピュータ可読媒体又はメディア。
  17. 前記複数のバッチの発話シーケンスのそれぞれを計算スレッドブロックにマッピングするステップをさらに含むことを特徴とする請求項16に記載の非一時的コンピュータ可読媒体又はメディア。
  18. 前記順方向行列と前記逆方向行列の行は前記計算スレッドブロックによって並列処理され、前記順方向行列と前記逆方向行列の列は前記計算スレッドブロックによって順次処理されることを特徴とする請求項17に記載の非一時的コンピュータ可読媒体又はメディア。
  19. 前記順方向パスと前記逆方向パスをそれぞれ順方向計算カーネルと逆方向計算カーネルにマッピングするステップをさらに含むことを特徴とする請求項16に記載の非一時的コンピュータ可読媒体又はメディア。
JP2017544352A 2015-11-25 2016-11-23 配置されたエンドツーエンド音声認識 Active JP6629872B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562260206P 2015-11-25 2015-11-25
US62/260,206 2015-11-25
US15/358,083 2016-11-21
US15/358,083 US10319374B2 (en) 2015-11-25 2016-11-21 Deployed end-to-end speech recognition
US15/358,102 US10332509B2 (en) 2015-11-25 2016-11-21 End-to-end speech recognition
US15/358,102 2016-11-21
PCT/US2016/063661 WO2017091763A1 (en) 2015-11-25 2016-11-23 End-to-end speech recognition

Publications (2)

Publication Number Publication Date
JP2018513399A JP2018513399A (ja) 2018-05-24
JP6629872B2 true JP6629872B2 (ja) 2020-01-15

Family

ID=58721011

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017544352A Active JP6629872B2 (ja) 2015-11-25 2016-11-23 配置されたエンドツーエンド音声認識
JP2017544340A Active JP6661654B2 (ja) 2015-11-25 2016-11-23 配置されたエンドツーエンド音声認識

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017544340A Active JP6661654B2 (ja) 2015-11-25 2016-11-23 配置されたエンドツーエンド音声認識

Country Status (6)

Country Link
US (2) US10319374B2 (ja)
EP (2) EP3245652B1 (ja)
JP (2) JP6629872B2 (ja)
KR (2) KR102008077B1 (ja)
CN (2) CN107408111B (ja)
WO (2) WO2017091763A1 (ja)

Families Citing this family (261)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
WO2017136070A1 (en) * 2016-02-03 2017-08-10 Google Inc. Compressed recurrent neural network models
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
EP3497629B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Generating audio using neural networks
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
EP3520036B1 (en) * 2016-10-03 2020-07-29 Google LLC Processing text sequences using neural networks
CN110023963B (zh) 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
US10529320B2 (en) * 2016-12-21 2020-01-07 Google Llc Complex evolution recurrent neural networks
KR101882906B1 (ko) * 2017-01-17 2018-07-27 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
US10049106B2 (en) * 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
US11907858B2 (en) * 2017-02-06 2024-02-20 Yahoo Assets Llc Entity disambiguation
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
US11853884B2 (en) * 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US10762417B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Efficient connectionist temporal classification for binary classification
US11080600B2 (en) * 2017-02-10 2021-08-03 Synaptics Incorporated Recurrent neural network based acoustic event classification using complement rule
US11087213B2 (en) * 2017-02-10 2021-08-10 Synaptics Incorporated Binary and multi-class classification systems and methods using one spike connectionist temporal classification
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10373610B2 (en) * 2017-02-24 2019-08-06 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling
US10657955B2 (en) * 2017-02-24 2020-05-19 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models
US10878837B1 (en) * 2017-03-01 2020-12-29 Snap Inc. Acoustic neural network scene detection
US10762427B2 (en) * 2017-03-01 2020-09-01 Synaptics Incorporated Connectionist temporal classification using segmented labeled sequence data
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
US11017291B2 (en) * 2017-04-28 2021-05-25 Intel Corporation Training with adaptive runtime and precision profiling
US11410024B2 (en) * 2017-04-28 2022-08-09 Intel Corporation Tool for facilitating efficiency in machine learning
US10467052B2 (en) * 2017-05-01 2019-11-05 Red Hat, Inc. Cluster topology aware container scheduling for efficient data transfer
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
KR20180124381A (ko) * 2017-05-11 2018-11-21 현대자동차주식회사 운전자의 상태 판단 시스템 및 그 방법
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107240396B (zh) * 2017-06-16 2023-01-17 百度在线网络技术(北京)有限公司 说话人自适应方法、装置、设备及存储介质
EP3422518B1 (en) * 2017-06-28 2020-06-17 Siemens Aktiengesellschaft A method for recognizing contingencies in a power supply network
KR102483643B1 (ko) * 2017-08-14 2023-01-02 삼성전자주식회사 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10706840B2 (en) * 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US11694066B2 (en) * 2017-10-17 2023-07-04 Xilinx, Inc. Machine learning runtime library for neural network acceleration
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
US11556775B2 (en) 2017-10-24 2023-01-17 Baidu Usa Llc Systems and methods for trace norm regularization and faster inference for embedded models
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11250314B2 (en) * 2017-10-27 2022-02-15 Cognizant Technology Solutions U.S. Corporation Beyond shared hierarchies: deep multitask learning through soft layer ordering
US10535001B2 (en) * 2017-11-06 2020-01-14 International Business Machines Corporation Reducing problem complexity when analyzing 3-D images
JP7213241B2 (ja) * 2017-11-14 2023-01-26 マジック リープ, インコーポレイテッド ニューラルネットワークに関するマルチタスク学習のためのメタ学習
US11977958B2 (en) 2017-11-22 2024-05-07 Amazon Technologies, Inc. Network-accessible machine learning model training and hosting system
CN108334889B (zh) * 2017-11-30 2020-04-03 腾讯科技(深圳)有限公司 摘要描述生成方法和装置、摘要描述模型训练方法和装置
CN108171117B (zh) * 2017-12-05 2019-05-21 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN107945791B (zh) * 2017-12-05 2021-07-20 华南理工大学 一种基于深度学习目标检测的语音识别方法
US10847137B1 (en) * 2017-12-12 2020-11-24 Amazon Technologies, Inc. Trigger word detection using neural network waveform processing
KR102462426B1 (ko) * 2017-12-14 2022-11-03 삼성전자주식회사 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
US11443178B2 (en) 2017-12-15 2022-09-13 Interntional Business Machines Corporation Deep neural network hardening framework
FR3076378B1 (fr) * 2017-12-29 2020-05-29 Bull Sas Procede de formation d'un reseau de neurones pour la reconnaissance d'une sequence de caracteres et procede de reconnaissance associe
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108364662B (zh) * 2017-12-29 2021-01-05 中国科学院自动化研究所 基于成对鉴别任务的语音情感识别方法与系统
CN108089958B (zh) * 2017-12-29 2021-06-08 珠海市君天电子科技有限公司 Gpu测试方法、终端设备和计算机可读存储介质
KR102089076B1 (ko) * 2018-01-11 2020-03-13 중앙대학교 산학협력단 Bcsc를 이용한 딥러닝 방법 및 그 장치
CN108256474A (zh) * 2018-01-17 2018-07-06 百度在线网络技术(北京)有限公司 用于识别菜品的方法和装置
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN108417201B (zh) * 2018-01-19 2020-11-06 苏州思必驰信息科技有限公司 单信道多说话人身份识别方法及系统
US10657426B2 (en) * 2018-01-25 2020-05-19 Samsung Electronics Co., Ltd. Accelerating long short-term memory networks via selective pruning
CN108491836B (zh) * 2018-01-25 2020-11-24 华南理工大学 一种自然场景图像中中文文本整体识别方法
US11182694B2 (en) 2018-02-02 2021-11-23 Samsung Electronics Co., Ltd. Data path for GPU machine learning training with key value SSD
US11527308B2 (en) 2018-02-06 2022-12-13 Cognizant Technology Solutions U.S. Corporation Enhanced optimization with composite objectives and novelty-diversity selection
US11501076B2 (en) * 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
CN108564954B (zh) * 2018-03-19 2020-01-10 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
KR102473447B1 (ko) 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US20190318229A1 (en) * 2018-04-12 2019-10-17 Advanced Micro Devices, Inc. Method and system for hardware mapping inference pipelines
CN108538311B (zh) * 2018-04-13 2020-09-15 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、装置及计算机可读存储介质
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN112805780A (zh) * 2018-04-23 2021-05-14 谷歌有限责任公司 使用端到端模型的讲话者分割
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
JP2021523461A (ja) * 2018-05-10 2021-09-02 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 原位置逆伝搬を通した光子ニューラルネットワークの訓練
US11460753B2 (en) 2018-05-10 2022-10-04 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for activation functions for photonic neural networks
US11086937B2 (en) * 2018-05-11 2021-08-10 The Regents Of The University Of California Speech based structured querying
KR102018346B1 (ko) * 2018-05-11 2019-10-14 국방과학연구소 음향 신호를 분류하는 방법 및 시스템
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US11138471B2 (en) * 2018-05-18 2021-10-05 Google Llc Augmentation of audiographic images for improved machine learning
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN112189217A (zh) * 2018-06-21 2021-01-05 国际商业机器公司 使用深区域生长来分割图像中的不规则形状
CN108984535B (zh) * 2018-06-25 2022-04-05 腾讯科技(深圳)有限公司 语句翻译的方法、翻译模型训练的方法、设备及存储介质
CN111066063B (zh) * 2018-06-29 2023-07-21 百度时代网络技术(北京)有限公司 利用卷积空间传播网络学习的亲和度进行深度估计的系统和方法
CN109147766B (zh) * 2018-07-06 2020-08-18 北京爱医声科技有限公司 基于端到端深度学习模型的语音识别方法及系统
US11335333B2 (en) 2018-07-20 2022-05-17 Google Llc Speech recognition with sequence-to-sequence models
CN110752973B (zh) * 2018-07-24 2020-12-25 Tcl科技集团股份有限公司 一种终端设备的控制方法、装置和终端设备
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN108962230B (zh) * 2018-07-27 2019-04-23 重庆因普乐科技有限公司 基于忆阻器的语音识别方法
JP7209330B2 (ja) * 2018-07-30 2023-01-20 国立研究開発法人情報通信研究機構 識別器、学習済モデル、学習方法
US11107463B2 (en) 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN110825665B (zh) * 2018-08-10 2021-11-05 昆仑芯(北京)科技有限公司 数据获取单元和应用于控制器的数据获取方法
US10650812B2 (en) * 2018-08-13 2020-05-12 Bank Of America Corporation Deterministic multi-length sliding window protocol for contiguous string entity
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
WO2020048358A1 (en) * 2018-09-04 2020-03-12 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method, system, and computer-readable medium for recognizing speech using depth information
US10963721B2 (en) 2018-09-10 2021-03-30 Sony Corporation License plate number recognition based on three dimensional beam search
CN109271926B (zh) * 2018-09-14 2021-09-10 西安电子科技大学 基于gru深度卷积网络的智能辐射源识别方法
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
JP7043373B2 (ja) * 2018-09-18 2022-03-29 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition
US10891951B2 (en) * 2018-10-17 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
EP3640856A1 (en) 2018-10-19 2020-04-22 Fujitsu Limited A method, apparatus and computer program to carry out a training procedure in a convolutional neural network
KR20200045128A (ko) * 2018-10-22 2020-05-04 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
CN109447253B (zh) * 2018-10-26 2021-04-27 杭州比智科技有限公司 显存分配的方法、装置、计算设备及计算机存储介质
WO2020089215A1 (en) 2018-10-29 2020-05-07 Dolby International Ab Methods and apparatus for rate quality scalable coding with generative models
US11494612B2 (en) 2018-10-31 2022-11-08 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using domain classifier
US11640519B2 (en) * 2018-10-31 2023-05-02 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US11526759B2 (en) * 2018-11-05 2022-12-13 International Business Machines Corporation Large model support in deep learning
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN109492233B (zh) * 2018-11-14 2023-10-17 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
US11250838B2 (en) * 2018-11-16 2022-02-15 Deepmind Technologies Limited Cross-modal sequence distillation
US11238845B2 (en) * 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
US11736363B2 (en) * 2018-11-30 2023-08-22 Disney Enterprises, Inc. Techniques for analyzing a network and increasing network availability
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
JP7462400B2 (ja) 2018-12-13 2024-04-05 現代自動車株式会社 問題騒音の発音源を識別するための騒音データの人工知能装置および前処理方法
JP7206898B2 (ja) * 2018-12-25 2023-01-18 富士通株式会社 学習装置、学習方法および学習プログラム
CN111369978B (zh) * 2018-12-26 2024-05-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
KR20200082227A (ko) 2018-12-28 2020-07-08 한국전자통신연구원 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치
CN111429889B (zh) * 2019-01-08 2023-04-28 百度在线网络技术(北京)有限公司 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
US11322136B2 (en) * 2019-01-09 2022-05-03 Samsung Electronics Co., Ltd. System and method for multi-spoken language detection
US10740571B1 (en) * 2019-01-23 2020-08-11 Google Llc Generating neural network outputs using insertion operations
CN109783822B (zh) * 2019-01-24 2023-04-18 中国—东盟信息港股份有限公司 一种基于验证码的数据样本识别系统及其方法
CN111489742B (zh) * 2019-01-28 2023-06-27 北京猎户星空科技有限公司 声学模型训练方法、语音识别方法、装置及电子设备
CN110517666B (zh) * 2019-01-29 2021-03-02 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
KR20200101496A (ko) 2019-01-29 2020-08-28 삼성전자주식회사 가속 컴퓨팅 환경을 제공하는 서버 및 제어 방법
KR102592585B1 (ko) * 2019-02-01 2023-10-23 한국전자통신연구원 번역 모델 구축 방법 및 장치
JP7028203B2 (ja) * 2019-02-07 2022-03-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP7218601B2 (ja) * 2019-02-12 2023-02-07 日本電信電話株式会社 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
CN110059813B (zh) * 2019-02-13 2021-04-06 创新先进技术有限公司 利用gpu集群更新卷积神经网络的方法、装置及设备
US10861441B2 (en) 2019-02-14 2020-12-08 Tencent America LLC Large margin training for attention-based end-to-end speech recognition
US11037547B2 (en) * 2019-02-14 2021-06-15 Tencent America LLC Token-wise training for attention based end-to-end speech recognition
US11481639B2 (en) 2019-02-26 2022-10-25 Cognizant Technology Solutions U.S. Corporation Enhanced optimization with composite objectives and novelty pulsation
CA3129731A1 (en) * 2019-03-13 2020-09-17 Elliot Meyerson System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains
CN111709513B (zh) * 2019-03-18 2023-06-09 百度在线网络技术(北京)有限公司 长短期记忆网络lstm的训练系统、方法及电子设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020198520A1 (en) 2019-03-27 2020-10-01 Cognizant Technology Solutions U.S. Corporation Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
US11182457B2 (en) 2019-03-28 2021-11-23 International Business Machines Corporation Matrix-factorization based gradient compression
US11011156B2 (en) 2019-04-11 2021-05-18 International Business Machines Corporation Training data modification for training model
CN109887497B (zh) * 2019-04-12 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760B (zh) 2019-04-15 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
US11676006B2 (en) 2019-04-16 2023-06-13 Microsoft Technology Licensing, Llc Universal acoustic modeling using neural mixture models
EP3948854B1 (en) * 2019-04-16 2024-01-31 Google LLC Joint endpointing and automatic speech recognition
US10997967B2 (en) 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
US11468879B2 (en) * 2019-04-29 2022-10-11 Tencent America LLC Duration informed attention network for text-to-speech analysis
US20200349425A1 (en) 2019-04-30 2020-11-05 Fujitsu Limited Training time reduction in automatic data augmentation
CN113811946A (zh) * 2019-05-03 2021-12-17 谷歌有限责任公司 数字序列的端到端自动语音识别
CN110211565B (zh) * 2019-05-06 2023-04-04 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
KR20210150497A (ko) * 2019-05-06 2021-12-10 구글 엘엘씨 음성 인식을 위한 컨텍스트 바이어싱
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
KR102460676B1 (ko) 2019-05-07 2022-10-31 한국전자통신연구원 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법
US20220215252A1 (en) * 2019-05-07 2022-07-07 Imagia Cybernetics Inc. Method and system for initializing a neural network
CN110222578B (zh) * 2019-05-08 2022-12-27 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和装置
CN110085249B (zh) * 2019-05-09 2021-03-16 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
JP7229847B2 (ja) * 2019-05-13 2023-02-28 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
KR20220007160A (ko) * 2019-05-28 2022-01-18 구글 엘엘씨 스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식
US11289073B2 (en) * 2019-05-31 2022-03-29 Apple Inc. Device text to speech
CN112017676A (zh) * 2019-05-31 2020-12-01 京东数字科技控股有限公司 音频处理方法、装置和计算机可读存储介质
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10716089B1 (en) * 2019-06-03 2020-07-14 Mapsted Corp. Deployment of trained neural network based RSS fingerprint dataset
CN110189766B (zh) * 2019-06-14 2021-04-06 西南科技大学 一种基于神经网络的语音风格转移方法
CN110299132B (zh) * 2019-06-26 2021-11-02 京东数字科技控股有限公司 一种语音数字识别方法和装置
CN110288682B (zh) * 2019-06-28 2023-09-26 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
KR20210008788A (ko) 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11244673B2 (en) 2019-07-19 2022-02-08 Microsoft Technologly Licensing, LLC Streaming contextual unidirectional models
KR20210014949A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
CN110473554B (zh) * 2019-08-08 2022-01-25 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
WO2021029642A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
EP3931826A4 (en) 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN110459209B (zh) * 2019-08-20 2021-05-28 深圳追一科技有限公司 语音识别方法、装置、设备及存储介质
US11151979B2 (en) 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
US11158303B2 (en) * 2019-08-27 2021-10-26 International Business Machines Corporation Soft-forgetting for connectionist temporal classification based automatic speech recognition
US11551675B2 (en) 2019-09-03 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
CN110459208B (zh) * 2019-09-09 2022-01-11 中科极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法
CN110600020B (zh) * 2019-09-12 2022-05-17 上海依图信息技术有限公司 一种梯度传输方法及装置
US11302309B2 (en) * 2019-09-13 2022-04-12 International Business Machines Corporation Aligning spike timing of models for maching learning
CN110807365B (zh) * 2019-09-29 2022-02-11 浙江大学 一种基于gru与一维cnn神经网络融合的水下目标识别方法
US11681911B2 (en) * 2019-10-15 2023-06-20 Naver Corporation Method and system for training neural sequence-to-sequence models by incorporating global features
CN110704197B (zh) 2019-10-17 2022-12-09 北京小米移动软件有限公司 处理内存访问开销的方法、装置及介质
CN110875035A (zh) * 2019-10-24 2020-03-10 广州多益网络股份有限公司 新型多任务联合的语音识别训练架构和方法
KR102203786B1 (ko) * 2019-11-14 2021-01-15 오로라월드 주식회사 스마트 토이를 이용한 인터렉션 서비스 제공방법 및 시스템
CN110930979B (zh) * 2019-11-29 2020-10-30 百度在线网络技术(北京)有限公司 一种语音识别模型训练方法、装置以及电子设备
CN111312228A (zh) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 一种基于端到端的应用于电力企业客服的语音导航方法
CN111048082B (zh) * 2019-12-12 2022-09-06 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN113077785B (zh) * 2019-12-17 2022-07-12 中国科学院声学研究所 一种端到端的多语言连续语音流语音内容识别方法及系统
CN111079945B (zh) 2019-12-18 2021-02-05 北京百度网讯科技有限公司 端到端模型的训练方法及装置
CN111145729B (zh) * 2019-12-23 2022-10-28 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111063336A (zh) * 2019-12-30 2020-04-24 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的端对端语音识别系统
US11183178B2 (en) 2020-01-13 2021-11-23 Microsoft Technology Licensing, Llc Adaptive batching to reduce recognition latency
CN111382581B (zh) * 2020-01-21 2023-05-19 沈阳雅译网络技术有限公司 一种机器翻译中的一次剪枝压缩方法
EP4361897A2 (en) * 2020-01-28 2024-05-01 Google Llc Language-agnostic multilingual modeling using effective script normalization
CN111292727B (zh) * 2020-02-03 2023-03-24 北京声智科技有限公司 一种语音识别方法及电子设备
CN111428750A (zh) * 2020-02-20 2020-07-17 商汤国际私人有限公司 一种文本识别模型训练及文本识别方法、装置及介质
CN111210807B (zh) * 2020-02-21 2023-03-31 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111397870B (zh) * 2020-03-08 2021-05-14 中国地质大学(武汉) 一种基于多样化集成卷积神经网络的机械故障预测方法
CN111246026A (zh) * 2020-03-11 2020-06-05 兰州飞天网景信息产业有限公司 一种基于卷积神经网络和连接性时序分类的录音处理方法
US11747902B2 (en) 2020-03-11 2023-09-05 Apple Inc. Machine learning configurations modeled using contextual categorical labels for biosignals
CN111415667B (zh) * 2020-03-25 2024-04-23 中科极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法
US20210312258A1 (en) * 2020-04-01 2021-10-07 Sony Corporation Computing temporal convolution networks in real time
US20210312297A1 (en) * 2020-04-07 2021-10-07 Cognizant Technology Solutions U.S. Corporation Framework For Interactive Exploration, Evaluation, and Improvement of AI-Generated Solutions
US12020693B2 (en) * 2020-04-29 2024-06-25 Samsung Electronics Co., Ltd. System and method for out-of-vocabulary phrase support in automatic speech recognition
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11796794B2 (en) 2020-05-12 2023-10-24 The Board Of Trustees Of The Leland Stanford Junior University Multi-objective, robust constraints enforced global topology optimizer for optical devices
US20210358490A1 (en) * 2020-05-18 2021-11-18 Nvidia Corporation End of speech detection using one or more neural networks
CN111798828B (zh) * 2020-05-29 2023-02-14 厦门快商通科技股份有限公司 合成音频检测方法、系统、移动终端及存储介质
US11775841B2 (en) 2020-06-15 2023-10-03 Cognizant Technology Solutions U.S. Corporation Process and system including explainable prescriptions through surrogate-assisted evolution
US11646009B1 (en) * 2020-06-16 2023-05-09 Amazon Technologies, Inc. Autonomously motile device with noise suppression
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11875797B2 (en) * 2020-07-23 2024-01-16 Pozotron Inc. Systems and methods for scripted audio production
CN111816169B (zh) * 2020-07-23 2022-05-13 思必驰科技股份有限公司 中英语种混杂语音识别模型训练方法和装置
KR102462932B1 (ko) * 2020-08-03 2022-11-04 주식회사 딥브레인에이아이 텍스트 전처리 장치 및 방법
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
KR102409873B1 (ko) * 2020-09-02 2022-06-16 네이버 주식회사 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN112233655A (zh) * 2020-09-28 2021-01-15 上海声瀚信息科技有限公司 一种提高语音命令词识别性能的神经网络训练方法
CN112188004B (zh) * 2020-09-28 2022-04-05 精灵科技有限公司 基于机器学习的障碍呼叫检测系统及其控制方法
WO2022076029A1 (en) * 2020-10-05 2022-04-14 Google Llc Transformer transducer: one model unifying streaming and non-streaming speech recognition
KR102429656B1 (ko) * 2020-10-08 2022-08-08 서울대학교산학협력단 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
CN112259080B (zh) * 2020-10-20 2021-06-22 北京讯众通信技术股份有限公司 一种基于神经网络模型的语音识别方法
US11593560B2 (en) * 2020-10-21 2023-02-28 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for relation extraction with adaptive thresholding and localized context pooling
CN112466282B (zh) * 2020-10-22 2023-11-28 北京仿真中心 一种面向航天专业领域的语音识别系统和方法
CN112420024B (zh) * 2020-10-23 2022-09-09 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质
CN112614484B (zh) * 2020-11-23 2022-05-20 北京百度网讯科技有限公司 特征信息挖掘方法、装置及电子设备
CN112669852B (zh) * 2020-12-15 2023-01-31 北京百度网讯科技有限公司 内存分配方法、装置及电子设备
CN112786017B (zh) * 2020-12-25 2024-04-09 北京猿力未来科技有限公司 语速检测模型的训练方法及装置、语速检测方法及装置
US11790906B2 (en) * 2021-01-25 2023-10-17 Google Llc Resolving unique personal identifiers during corresponding conversations between a voice bot and a human
CN113421574B (zh) * 2021-06-18 2024-05-24 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法、音频识别方法及相关设备
CN113535510B (zh) * 2021-06-24 2024-01-26 北京理工大学 一种大规模数据中心数据采集的自适应抽样模型优化方法
CN113327600A (zh) * 2021-06-30 2021-08-31 北京有竹居网络技术有限公司 一种语音识别模型的训练方法、装置及设备
CN118043885A (zh) 2021-09-30 2024-05-14 谷歌有限责任公司 用于半监督语音识别的对比孪生网络
US20230186525A1 (en) * 2021-12-13 2023-06-15 Tencent America LLC System, method, and computer program for content adaptive online training for multiple blocks in neural image compression
CN114548501B (zh) * 2022-01-14 2024-06-18 北京全路通信信号研究设计院集团有限公司 一种均衡性检查方法、系统及设备
US11978436B2 (en) 2022-06-03 2024-05-07 Apple Inc. Application vocabulary integration with a digital assistant
CN114743554A (zh) * 2022-06-09 2022-07-12 武汉工商学院 基于物联网的智能家居交互方法及装置
KR102547001B1 (ko) * 2022-06-28 2023-06-23 주식회사 액션파워 하향식 방식을 이용한 오류 검출 방법

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790754A (en) 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5749066A (en) 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
AUPQ439299A0 (en) * 1999-12-01 1999-12-23 Silverbrook Research Pty Ltd Interface system
US7035802B1 (en) * 2000-07-31 2006-04-25 Matsushita Electric Industrial Co., Ltd. Recognition system using lexical trees
US7219085B2 (en) * 2003-12-09 2007-05-15 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
US20060031069A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for performing a grapheme-to-phoneme conversion
GB0507036D0 (en) 2005-04-07 2005-05-11 Ibm Method and system for language identification
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
JP4869268B2 (ja) * 2008-03-04 2012-02-08 日本放送協会 音響モデル学習装置およびプログラム
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8781833B2 (en) 2008-07-17 2014-07-15 Nuance Communications, Inc. Speech recognition semantic classification training
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20130317755A1 (en) 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
CN102760436B (zh) * 2012-08-09 2014-06-11 河南省烟草公司开封市公司 一种语音词库筛选方法
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9418650B2 (en) 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
CN103591637B (zh) 2013-11-19 2015-12-02 长春工业大学 一种集中供热二次网运行调节方法
US9189708B2 (en) 2013-12-31 2015-11-17 Google Inc. Pruning and label selection in hidden markov model-based OCR
CN103870863B (zh) * 2014-03-14 2016-08-31 华中科技大学 制备隐藏二维码图像全息防伪标签的方法及其识别装置
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US20150309987A1 (en) 2014-04-29 2015-10-29 Google Inc. Classification of Offensive Words
CN104035751B (zh) * 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10733979B2 (en) * 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling

Also Published As

Publication number Publication date
US20170148433A1 (en) 2017-05-25
US10332509B2 (en) 2019-06-25
WO2017091751A1 (en) 2017-06-01
JP2018513398A (ja) 2018-05-24
US20170148431A1 (en) 2017-05-25
EP3245652B1 (en) 2019-07-10
JP2018513399A (ja) 2018-05-24
CN107408111A (zh) 2017-11-28
EP3245597A4 (en) 2018-05-30
EP3245652A1 (en) 2017-11-22
KR20170106445A (ko) 2017-09-20
EP3245597A1 (en) 2017-11-22
WO2017091763A1 (en) 2017-06-01
KR102008077B1 (ko) 2019-08-06
CN107408384B (zh) 2020-11-27
CN107408384A (zh) 2017-11-28
CN107408111B (zh) 2021-03-30
KR102033230B1 (ko) 2019-10-16
KR20170107015A (ko) 2017-09-22
US10319374B2 (en) 2019-06-11
EP3245652A4 (en) 2018-05-30
JP6661654B2 (ja) 2020-03-11
EP3245597B1 (en) 2020-08-26

Similar Documents

Publication Publication Date Title
JP6629872B2 (ja) 配置されたエンドツーエンド音声認識
Li et al. Improving RNN transducer modeling for end-to-end speech recognition
CN107077842B (zh) 用于语音转录的系统和方法
Sriram et al. Cold fusion: Training seq2seq models together with language models
Hannun et al. Deep speech: Scaling up end-to-end speech recognition
Sundermeyer et al. Comparison of feedforward and recurrent neural network language models
EP2893435B1 (en) Methods for hybrid gpu/cpu data processing
Huang et al. SNDCNN: Self-normalizing deep CNNs with scaled exponential linear units for speech recognition
Scanzio et al. Parallel implementation of artificial neural network training for speech recognition
Enarvi et al. Automatic speech recognition with very large conversational finnish and estonian vocabularies
Abdelhamid et al. End-to-end arabic speech recognition: A review
JP2021157145A (ja) 推論器および推論器の学習方法
Heymann et al. Improving CTC using stimulated learning for sequence modeling
You et al. Memory access optimized VLSI for 5000-word continuous speech recognition
Kanda et al. Training data pseudo-shuffling and direct decoding framework for recurrent neural network based acoustic modeling
Chen Cued rnnlm toolkit
Liu et al. Speech recognition systems on the Cell Broadband Engine processor
Ravishankar E cient algorithms for speech recognition
Chen CUED RNNLM Toolkit v1. 0
Zenkel Character Based Language Modeling and Applications in Speech Recognition
Chen et al. Boosted Hybrid DNN/HMM System Based on Correlation-Generated Targets

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170829

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191205

R150 Certificate of patent or registration of utility model

Ref document number: 6629872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250