JP2022545860A - コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却 - Google Patents

コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却 Download PDF

Info

Publication number
JP2022545860A
JP2022545860A JP2022504178A JP2022504178A JP2022545860A JP 2022545860 A JP2022545860 A JP 2022545860A JP 2022504178 A JP2022504178 A JP 2022504178A JP 2022504178 A JP2022504178 A JP 2022504178A JP 2022545860 A JP2022545860 A JP 2022545860A
Authority
JP
Japan
Prior art keywords
model
training
computer
program instructions
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022504178A
Other languages
English (en)
Inventor
アウドカシ、カーティク
サオン、ジョージ、アンドレイ
トゥエスク、ゾルタン
キングズベリー、ブライアン
ピチェニー、マイケル、アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022545860A publication Critical patent/JP2022545860A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

ソフト忘却訓練の手法において、1つ又は複数のコンピュータプロセッサは、1つ又は複数の訓練バッチを使用して第1のモデルを訓練し、1つ又は複数の訓練バッチの各訓練バッチは1つ又は複数の情報ブロックを含む。1つ又は複数のコンピュータプロセッサは、第1のモデルを訓練することの完了に応答して、1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始する。1つ又は複数のコンピュータプロセッサは、第2のモデルの1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングする。1つ又は複数のコンピュータプロセッサは、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第2のモデルを展開する。1つ又は複数のコンピュータプロセッサは、第2のモデルを展開することに応答して、双正則化を適用することによって第2のモデルの過剰適合を低減する。

Description

本発明は、一般に機械学習の分野に関し、より具体的には自動音声認識に関する。
エンドツーエンド(E2E)自動音声認識(ASR)システムは、重要な研究対象となっている。このようなシステムは、従来のハイブリッドASRシステムの複雑な訓練及び推論パイプラインを簡素化することを目的としている。ハイブリッドシステムは、ガウス混合モデル、隠れマルコフモデル(HMM)、及び様々なニューラルネットワークを組み合わせたものであり、一連の音声特徴とHMMコンテキスト依存状態との間に、モデル構築及びアライメントの複数の段階を含む。対照的に、E2Eシステムは、リカレントニューラルネットワークを使用し、コネクショニスト時系列分類(connectionist temporal classification)損失を通じてすべてのアライメントを合計するか、又はアテンション機構を通じて最適なアライメントを学習することによって、ワンショットで音響モデルを訓練する。
リカレントニューラルネットワーク(RNN)は、人工ニューラルネットワークの1つのクラスであり、ノード間の接続が、シーケンスに沿った有向グラフを形成し、ネットワークが時系列に対して時間的な動的挙動を示すことを可能にする。フィードフォワード型のニューラルネットワークとは異なり、RNNは内部状態(メモリ)を用いて一連の入力を処理することができるので、セグメント化されていない、つながった手書き文字認識又は音声認識などのタスクにRNNを適用することが可能になる。長・短期記憶(LSTM:Long Short-term Memory)ユニットは、リカレントニューラルネットワーク(RNN)の代替層ユニットである。LSTMユニットで構成されたRNNは、LSTMネットワークと呼ばれる。一般的なLSTMユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートで構成される。セルは任意の時間間隔にわたって値を記憶し、ゲートはセルに出入りする情報の流れを調整する。ゲート付きリカレントユニット(GRU)は、リカレントニューラルネットワークにおけるゲート機構である。多声音楽のモデリング及び音声信号のモデリングに対するGRUの性能は、LSTMと同様であることが分かっている。しかしながらGRUは、より小さいデータセットに対しては、より優れた性能を示す。LSTMは、2つのLSTMネットワークからなり、含まれる各層が時間的に順方向及び逆方向に展開される、双方向(BLSTM)とすることができる。E2E ASRシステムの場合、BLSTMを音声アタランス(speech utterance)の長さ全体にわたって展開することができるので、BLSTMは長期コンテキストをよりよく捉えることが可能になり、これはアライメントが欠如している場合に特に有用である。
コネクショニスト時系列分類(CTC:connectionist temporal classification)は、ニューラルネットワークの出力とそれに関連するスコアリング関数の1つのタイプであり、一般にLSTMネットワークなどのRNNの訓練に使用され、入力シーケンスと出力シーケンスとの間の時間的アライメントが事前にわからないシーケンス問題(例えば、オンライン手書き文字認識又はスピーチオージオ(speech audio)における音素認識など)に対処するものである。CTCは、基礎となるニューラルネットワーク構造に依存しない。CTCネットワークの出力ラベルには、出力シーケンスに対してアライメントしない入力シーケンスのポイントを消費する付加的な「ブランク」又はガーベッジ記号が含まれる。CTCネットワークは、連続的な出力(例えばソフトマックス)を有し、これは訓練を通じてフィッティングされ、ラベルの確率をモデル化する。CTCスコアを逆伝播法と共に用いてニューラルネットワークの重みを更新することができる。
本発明の実施形態は、ソフト忘却(soft-forgetting)訓練のためのコンピュータ実施方法、コンピュータ・プログラム製品、及びシステムを開示する。コンピュータ実施方法は、1つ又は複数の訓練バッチを使用して第1のモデルを訓練する1つ又は複数のコンピュータプロセッサを含み、1つ又は複数の訓練バッチの各訓練バッチは1つ又は複数の情報ブロックを含む。1つ又は複数のコンピュータプロセッサは、第1のモデルを訓練することの完了に応答して、1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始する。1つ又は複数のコンピュータプロセッサは、第2のモデルの1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングする。1つ又は複数のコンピュータプロセッサは、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第2のモデルを展開する。1つ又は複数のコンピュータプロセッサは、第2のモデルを展開することに応答して、双正則化(twin regularization)を適用することによって第2のモデルの過剰適合を低減する。
1つの態様によれば、コンピュータ実施方法が提供され、この方法は、1つ又は複数のコンピュータプロセッサによって、1つ又は複数の訓練バッチを使用して第1のモデルを訓練することであって、1つ又は複数の訓練バッチの各訓練バッチは、1つ又は複数の情報ブロックを含む、訓練することと、第1のモデルを訓練することの完了に応答して、1つ又は複数のコンピュータプロセッサによって、1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始することと、1つ又は複数のコンピュータプロセッサによって、第2のモデルの1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングすることと、1つ又は複数のコンピュータプロセッサによって、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第2のモデルを展開することと、第2のモデルを展開することに応答して、1つ又は複数のコンピュータプロセッサによって、双正則化を適用することによって第2のモデルの過剰適合を低減することとを含む。
別の態様によれば、1つ又は複数のコンピュータ可読ストレージ媒体と、1つ又は複数のコンピュータ可読ストレージ媒体上に格納されたプログラム命令とを含むコンピュータ・プログラム製品が提供され、格納されたプログラム命令は、1つ又は複数の訓練バッチを使用して第1のモデルを訓練するプログラム命令であって、1つ又は複数の訓練バッチの各訓練バッチが1つ又は複数の情報ブロックを含む、プログラム命令と、第1のモデルを訓練することの完了に応答して、1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始するプログラム命令と、第2のモデルの1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第2のモデルを展開するプログラム命令と、第2のモデルを展開することに応答して、双正則化を適用することによって第2のモデルの過剰適合を低減するプログラム命令とを含む。
別の態様によれば、1つ又は複数のコンピュータプロセッサと、1つ又は複数のコンピュータ可読ストレージ媒体と、1つ又は複数のプロセッサの少なくとも1つによる実行のためにコンピュータ可読ストレージ媒体上に格納されたプログラム命令とを含むコンピュータシステムが提供され、格納されたプログラム命令は、1つ又は複数の訓練バッチを使用して第1のモデルを訓練するプログラム命令であって、1つ又は複数の訓練バッチの各訓練バッチが1つ又は複数の情報ブロックを含む、プログラム命令と、第1のモデルを訓練することの完了に応答して、1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始するプログラム命令と、第2のモデルの1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第2のモデルを展開するプログラム命令と、第2のモデルを展開することに応答して、双正則化を適用することによって第2のモデルの過剰適合を低減するプログラム命令とを含む。
ここで、本発明の好ましい実施形態について、単なる例として、以下の図面を参照して説明する。
本発明の一実施形態による、計算環境を示す機能ブロック図である。 本発明の一実施形態による、図1の計算環境内のサーバコンピュータ上のソフト忘却訓練プログラムのオペレーションステップを示すフローチャートである。 本発明の一実施形態による、フローチャート200のステップの例示的な図である、例示的な図300を示す。 本発明の一実施形態による、ベースラインモデル及びソフト忘却モデルの単語誤り率を図示する例示的な表である、例示的な表320を示す。 本発明の一実施形態による、ベースラインモデル及びソフト忘却モデルの単語誤り率を図示する例示的な表である、例示的な表330を示す。 本発明の実施形態による、複数のモデルの単語誤り率を図示する例示的な表である、例示的な表340を示す。 本発明の一実施形態による、複数のモデルの単語誤り率を図示する例示的なグラフである、例示的なグラフ350を示す。 本発明の一実施形態による、全アタランスBLSTM及びソフト忘却BLSTMのCTC損失を図示する例示的なグラフである、例示的なグラフ360を示す。 本発明の一実施形態によるサーバコンピュータのコンポーネントのブロック図である。
コネクショニスト時系列分類(CTC)ベースの自動音声認識システム(ASR)は、音響シーケンスをそれぞれの音素に機械翻訳する際に一般に使用される。CTCベースの自動音声認識システムは、全音声アタランスにわたって展開される双方向長・短期記憶(BLSTM)ネットワークを用いた場合に良好な性能を発揮する。しかしながら、一方向長・短期記憶(ULSTM)ネットワークは、従来、BLSTMネットワークに比べて遅れをとっており、これは、ULSTMが時間的順方向のコンテキストのみを取り込むのに対し、BLSTMネットワークは時間的逆方向のコンテキストも取り込むためである。BLSTMネットワークは、一般に上記のタスクに対して良好に機能するが、厳密なBLSTMネットワークは著しい過剰適合問題と、それに続く、誤り率の増大及び汎化適用性(generalization applicability)の低下とをもたらす。
本発明の実施形態は、ソフト忘却(soft-forgetting)訓練を使用して、基礎となるネットワークに大きな変更を加えることなく、分類精度を有意に向上させ、単語誤り率を低減させることができる。本発明の一実施形態において、BLSTMは、入力されたアタランス又は音響シーケンスの小さな非重複の情報ブロック又はチャンク上でのみ展開され、過剰適合を低減する。本発明の別の実施形態において、各バッチのチャンクサイズは、固定のグローバルチャンク値の代わりにランダムに割り当てられ、汎化性能を向上させる。本発明のさらに別の実施形態において、訓練済み全アタランスBLSTMとソフト忘却BLSTMとの間の平均二乗誤差を使用して双正則化が適用され、アタランスレベルのコンテキスト情報を保持する。上記の実施形態は、CTC ASRシステムのオフライン/非ストリーミング単語誤り率及びストリーミング単語誤り率の両方を有意に改善する。本発明の実施形態の実装は、様々な形態をとることができ、例示的な実装の詳細については、図を参照して後述する。
ここで、好ましい実施形態による本発明を、図を参照して詳細に説明する。
図1は、本発明の一実施形態による、全体が100で示される計算環境を示す機能ブロック図である。本明細書で使用される「計算」という用語は、単一のコンピュータシステムとして互いに動作する複数の物理的に区別できるデバイスを含むコンピュータシステムを記述するものである。図1は、1つの実装の例示を提供するに過ぎず、異なる実施形態を実装することができる環境に関して、いかなる制限も意味するものではない。当業者であれば、特許請求の範囲に記載された本発明の範囲から逸脱することなく、図示される環境に多くの変更を加えることができる。
計算環境100は、ネットワーク102に接続されたサーバコンピュータ120を含む。ネットワーク102は、例えば、通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、インターネットなどの広域ネットワーク(WAN)、又はこれら3つの組み合わせとすることができ、有線、無線、又は光ファイバ接続を含むことができる。ネットワーク102は、声、データ、及び映像情報を含むマルチメディア信号を含む、データ、声、もしくは映像信号又はそれらの組み合わせの送受信が可能な1つ又は複数の有線もしくは無線又はその組み合わせのネットワークを含むことができる。一般に、ネットワーク102は、サーバコンピュータ120と計算環境100内のコンピューティングデバイス(図示せず)との間の通信をサポートする接続及びプロトコルの任意の組み合わせとすることができる。様々な実施形態において、ネットワーク102は、有線、無線、又は光接続を介してローカルに動作するものであり、接続とプロトコルとの任意の組み合わせ(例えば、パーソナルエリアネットワーク(PAN)、近距離無線通信(NFC)、レーザ、赤外線、超音波など)とすることができる。
サーバコンピュータ120は、独立型コンピューティングデバイス、管理サーバ、ウェブサーバ、モバイルコンピューティングデバイス、又はデータを受け取る、送る、及び処理することができる他のいずれかの電子デバイス又はコンピューティングシステムとすることができる。他の実施形態において、サーバコンピュータ120は、クラウドコンピューティング環境のように複数のコンピュータをサーバシステムとして使用するサーバコンピューティングシステムを表すことができる。別の実施形態において、サーバコンピュータ120は、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ(PC)、デスクトップコンピュータ、パーソナルデジタルアシスタント(PDA)、スマートフォン、又はネットワーク102を介して計算環境100内のコンピューティングデバイス(図示せず)と通信可能ないずれかのプログラム可能な電子デバイスとすることができる。別の実施形態において、サーバコンピュータ120は、計算環境100内でアクセスされたときにシームレスなリソースの単一プールとして機能する、クラスタ化されたコンピュータ及びコンポーネント(例えば、データベースサーバコンピュータ、アプリケーションサーバコンピュータなど)を使用するコンピューティングシステムを表す。図示される実施形態において、サーバコンピュータ120は、データベース122及びプログラム150を含む。他の実施形態において、サーバコンピュータ120は、計算環境100に図示されていない他のアプリケーション、データベース、プログラムなどを含むことができる。サーバコンピュータ120は、図4に関してさらに詳細に図示され説明されるように、内部及び外部のハードウェアコンポーネントを含むことができる。
データベース122は、プログラム150が使用するデータのリポジトリである。図示される実施形態において、データベース122は、サーバコンピュータ120上に常駐する。別の実施形態において、データベース122は、プログラム150がデータベース122にアクセスできることを条件に、コンピューティングデバイス110又は計算環境100内の他の場所に常駐してもよい。データベースは、データの組織化されたコレクションである。データベース122は、プログラム150がアクセスして使用することができるデータ及び構成ファイルを格納することができる、データベースサーバ、ハードディスクドライブ、又はフラッシュメモリなど、いずれかのタイプのストレージデバイスで実装することができる。一実施形態において、データベース122は、プログラム150によって用いられる、訓練セット、ラベル分布データ及びチャート、並びに履歴モデル精度及び性能統計量などのデータを格納する。図示される実施形態において、データベース122は、訓練コーパス124及び認知モデル126を含む。
訓練コーパス124は、以下、訓練文と呼ばれる、分類された(例えば、ラベル付きの)データの1つ又は複数のインスタンスの1つ又は複数のセットを含むことができる。一実施形態において、各訓練セットは、1つ又は複数のモデルを訓練するために使用することができる、ラベル(例えば、文字列、テキストシーケンス、文字など)と、関連付けられた訓練文のアレイ又はセットとを含む。さらなる実施形態において、訓練コーパス124は、ベクトル化された(すなわち、ワンホット符号化、単語埋め込み、次元縮小など)訓練セットと関連付けられた訓練文とを含む。様々な実施形態において、訓練コーパス124は、可聴形式又は記述形式の完全又は部分的アタランスを含む。この実施形態において、アタランスは、オーディオ特徴ベクトルの連続的なシーケンスである。
モデル126は、1つ又は複数の認知モデルを使用して、1つ又は複数の問題インスタンス(例えば、自然言語文、テスト文、アタランス、連続的な時間ステップデータなど)を分類する。一実施形態において、モデル126は、転送可能なニューラルネットワークアルゴリズム及びモデル(例えば、長・短期記憶(LSTM)、双方向長・短期記憶(BLSTM)、ディープスタッキングネットワーク(DSN)、ディープビリーフネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、複合階層型ディープモデルなど)を使用する。図示される実施形態において、モデル126は、1つ又は複数のBLSTMを使用する。さらなる実施形態において、上記BLSTMは、特徴データのベクトル化された訓練セットをモデル126に供給する、教師付き訓練方法を使用して訓練される。様々な実施形態において、特徴は関連するクラスでラベル付けされており、モデル126が、使用前に、どの特徴が特定のクラスに相関しているかを学習できるようになっている。モデル126は、ラベル又はクラス間の違いを認識するように訓練される。モデル126は、訓練セットを使用して、問題インスタンス(例えば、アタランスなど)が特定のラベル又はクラスに属する確率を示す、確率のセットを生成する。この実施形態において、モデル126は、構造化データ又は非構造化データとして利用可能な異なる特徴を考慮して、問題インスタンス(例えば、問題、訓練ベクトル又は文など)を分類(例えば、ラベル付け)する。一実施形態において、モデル126は、オーディオ特徴のシーケンス(例えば、ベクトル)を入力し、各シーケンスに対する音素ラベルを出力する。モデル126の訓練は、図2に関して図示され、さらに詳細に説明される。
プログラム150は、ソフト忘却を使用して1つ又は複数のモデルを訓練する。様々な実施形態において、プログラム150は、以下のステップを実装することができる。プログラム150は、1つ又は複数のモデルの訓練要求を受け取った後に開始する。一実施形態において、プログラム150は、1つ又は複数の訓練セットを受け取った又は取得した後に開始する。プログラム150は、訓練データのセットを取得する。プログラム150は、1つ又は複数の全アタランス双方向長・短期記憶ネットワークを訓練する。プログラム150は、1つ又は複数のソフト忘却双方向長・短期記憶ネットワークの訓練を始める。プログラム150は、1つ又は複数のソフト忘却双方向長・短期記憶ネットワークを展開することによって、訓練プロセスを続ける。プログラム150は、1つ又は複数のソフト忘却双方向長・短期記憶ネットワークのチャンクサイズをジッタリングする。プログラム150は、1つ又は複数のソフト忘却双方向長・短期記憶ネットワークの双正則化において、1つ又は複数の訓練済み全アタランス双方向長・短期記憶ネットワークを使用する。図示される実施形態において、プログラム150は、独立型ソフトウェアプログラムである。別の実施形態において、プログラム150の機能、又はそのプログラムのいずれかの組み合わせを、単一のソフトウェアプログラムに統合することができる。幾つかの実施形態において、プログラム150は、別々のコンピューティングデバイス(図示せず)に配置されていてもよいが、それでもなおネットワーク102を介して通信することができる。様々な実施形態において、クライアントバージョンのプログラム150は、計算環境100内のコンピューティングデバイス(図示せず)に常駐する。プログラム150は、図2に関して図示され、さらに詳細に説明される。
本発明は、好ましい実施形態によれば、個人的なデータ、コンテンツ、又はユーザが処理されないことを望む情報が含まれる可能性がある、データベース122などの様々なアクセス可能なデータソースを含むことがある。個人データには、個人識別情報又はセンシティブな個人情報、並びにトラッキング情報又はジオロケーション情報などのユーザ情報が含まれる。処理とは、個人データに対して行われる収集、記録、整理、構造化、格納、適応、変更、取得、相談、使用、送信による開示、普及、又はその他の方法で利用可能にすること、組み合わせ、制限、消去、又は破壊などの、あらゆる自動化された又は自動化されていないオペレーション又はオペレーションのセットを指す。プログラム150は、個人データの承認されたセキュアな処理を可能にする。プログラム150は、個人データの収集を通知する、説明に基づく同意(インフォームドコンセント)を提供し、ユーザが個人データの処理をオプトイン又はオプトアウトできるようにする。同意には幾つかの形態がある。オプトイン同意は、個人データが処理される前に、ユーザがアファーマティブアクションを取ることを課すことができる。代替的に、オプトアウト同意は、個人データが処理される前に、個人データの処理を妨げるためにユーザがアファーマティブアクションを取ることを課すことができる。プログラム150は、個人データ及び処理の性質(例えば、タイプ、範囲、目的、期間など)に関する情報を提供する。プログラム150は、格納された個人データのコピーをユーザに提供する。プログラム150は、不正確又は不完全な個人データの修正又は補完を可能にする。プログラム150は、個人データの即時削除を可能にする。
図2は、本発明の一実施形態による、モデルをソフト忘却訓練するプログラム150のオペレーションステップを示すフローチャートである。
プログラム150は、訓練データのセットを取得する(ステップ202)。一実施形態において、プログラム150は、訓練セットに関連付けられた複数のアタランス、音響シーケンス、もしくは文又はそれらの組み合わせを取得する。一例において、プログラム150は、300時間の英語Switchboard(SWB)データセットを訓練データのセットとして使用し、プログラム150は、上記訓練データを使用して、1つ又は複数の不特定話者(SI)モデル及び話者適応(SA)モデルを訓練する。この例示的な実施形態において、SIモデルは、話者ごとのケプストラム平均減算(CMS)を伴い、声道正規化(VTLN)を伴わない、40次元logMel特徴を用いた。SAモデルは、話者ごとのCMS及びVLTNを伴う40次元logMel特徴、40次元特徴空間最尤線形回帰(FMLLR)特徴、及び100次元iベクトルを用いた。別の実施形態において、プログラム150は、取得した訓練データのセット(例えば、アタランス、音響シーケンスなど)を処理して複数のサブセット(例えば、情報のチャンク、ブロック)にする。さらに別の実施形態において、プログラム150は、履歴アタランスを、同じアタランスの異なる処理バージョンを含む離散的なセットに区分する。様々な実施形態において、プログラム150は、所定のアタランス間隔を使用してアタランスの境界を定義する。この実施形態において、プログラム150は、アタランスを時間的制約によって定義される1つ又は複数のセットに区分する。一実施形態において、プログラム150は、訓練データのセットと区分されたアタランス/ラベルのセットとをベクトル化する。様々な実施形態において、プログラム150は、訓練データを、訓練データのサブセットを含む1つ又は複数の訓練バッチにセグメント化する。この実施形態において、プログラム150はバッチをランダムに作成することもでき、又はプログラム150はユーザからバッチサイズを取得することもできる。
プログラム150は、全アタランス双方向長・短期記憶ネットワークを訓練する(ステップ204)。プログラム150は、ステップ202で詳述された取得した訓練データのセットを使用して、1つ又は複数の全アタランスBLSTM(例えば、モデルの第1のセット)を訓練する。一実施形態において、プログラム150は、ラベル付きのベクトル化された訓練データを用いて、教師付き訓練を行う。例えば、プログラム150は、アタランス/ラベルの対をモデル126に供給して、プログラム150が訓練データ(例えば、アタランス)と分類データ(すなわち、ラベル)との間の推論を行うことを可能にする。一実施形態において、プログラム150は、テストセットを使用することによって、十分な精度が得られるかどうかを判断する。BLSTMは、モデルのパラメータを同じに保持したままで、一連のデータ(x、x...,x)を処理して、後続の隠れ状態を計算する。一例において、プログラム150は、順方向及び逆方向の各々に512個の隠れニューロンを有する6層BLSTMネットワークを訓練する。さらなる例において、6層BLSTMは、線形層及びソフトマックス層を通して44個の音素とブランク記号とを表す45次元事後確率ベクトルにマッピングされた、1024次元隠れベクトルを出力する。様々な実施形態において、教師付き訓練は、予測と目標との間の差(すなわち、誤り)を判定し、層を通してこの差を逆伝播して、モデル/ネットワークが「学習する」ようにする。一実施形態において、プログラム150は、逆伝播を実装するために、同期式(synchronous)確率的勾配降下法(SGD)などの確率的勾配アルゴリズムを使用する。一実施形態において、プログラム150は、損失関数として次式を使用する。

(1)Ltot(y|x,Θ,Θ)=LCTC-f(y|x,Θ)+LCTC-b(y|x,Θ)+λLtwin(h,h|Θ,Θ

式(1)に関して、双正則化損失は、LSTMの隠れ表現hとhとの間の平均二乗誤差である。Θ及びΘは、それぞれ順方向及び逆方向のULSTMネットワークのパラメータを表し、x及びyは入力音響シーケンス及び出力ラベルシーケンスであり、スケーリング因子としてλ>0である。
プログラム150は、CTC又は交差エントロピーコストを調整するために学習率を修正して、プログラム150が関連するセル及び層の適応性を増大又は低減させることを可能にすることができる。例えば、プログラム150は、学習率0.04、ネステロフ運動量0.9、及びバッチサイズ128を使用する。プログラム150は、最初の10エポック後、エポックごとに√0.05ずつ上記学習率を修正する。一実施形態において、プログラム150は、現在のアタランスのlogMel特徴シーケンスと、訓練コーパス124内に含まれる訓練データのセットからランダムにサンプリングされたアタランスとに対してlog-sum-expを実行する、シーケンスノイズ注入を追加する。別の実施形態において、プログラム150は、2つのハイパーパラメータである、ランダムにサンプリングされたアタランスの特徴に対する重みと、シーケンスノイズを注入する確率とを使用する。一例において、プログラム150は、計算されたホールドアウトCTC損失に基づいて、SIモデルのハイパーパラメータに0.4の値を使用し、SAモデルのハイパーパラメータに0.2/0.4の値を使用する。様々な実施形態において、プログラム150は、訓練中、全アタランスBLSTMの重みを固定して保持する。
プログラム150は、チャンクベースの双方向長・短期記憶ネットワークを展開する(ステップ206)。プログラム150は、1つ又は複数のチャンクベースBLSTMネットワーク(例えば、モデルの第2のセット)のソフト忘却訓練を開始する。プログラム150は、1つ又は複数のチャンクベースBLSTMを同時に訓練及び展開して、その時間ステップでの前の隠れ状態及び入力を取って、次の一連の時間ステップの入力を生成し、情報がネットワークを通じて流れることを可能にするので、最後のセルは、前のすべてのセルに由来する情報を含むことになる。プログラム150は、入力音響シーケンス(例えば、アタランス)のC個の連続した時間ステップの1つ又は複数の非重複ウィンドウを識別する。一実施形態において、プログラム150は、入力音響シーケンスのC個の連続した時間ステップの識別された非重複ウィンドウ上で、1つ又は複数のチャンクベースBLSTMを展開するのみである。従来、全アタランス(例えば、ソフト忘却なし)BLSTMは、特に訓練データが限られている場合に、訓練データを過剰適合する。別の実施形態において、プログラム150は、C時間ステップごとに隠れ状態及びセル状態をゼロに設定する。この実施形態において、Cは、ホールドアウト(例えば、テストアタランス)CTC損失から経験的に計算される。一例において、チャンクサイズは、5スタックフレームのステップで、5から50スタックフレーム(100ミリ秒から1秒)の範囲とすることができる。
プログラム150は、チャンクベース双方向長・短期記憶ネットワークのチャンクサイズをジッタリングする(ステップ208)。プログラム150は、ステップ202で説明したような訓練データのセット、及びステップ204で使用した訓練技術を利用して、ステップ206で参照したような1つ又は複数のチャンクベースBLSTMを訓練する。一実施形態において、プログラム150は、各訓練シーケンスを、コンテキスト的観測を付加した短いチャンク又はブロック(例えば、持続時間)に分割する。様々な実施形態において、プログラム150は、1つの訓練バッチから次の訓練バッチへとCを摂動させる。この摂動は、モデルの汎化性能を向上させる。一実施形態において、プログラム150は、訓練中の各バッチのチャンクサイズにジッタを加えることによって、Cを摂動させる。様々な実施形態において、プログラム150は、チャンクサイズをランダムに割り当てる(例えば、摂動させる、ジッタリングする)。この実施形態において、Cは、訓練中のバッチ間でランダムに割り当てられる。一例において、プログラム150は、各バッチのチャンクサイズCbatchを以下のようにジッタリングする:Cbatch=C+u、ここでu~U(-A,A)は、[-A,A]にわたって一様に離散した確率変数である。上記例から続けて、プログラム150は、訓練バッチにわたって区間U(-2,2)間でジッタリングする。この例において、プログラム150は、40スタックフレームのチャンクサイズを選択する。さらなる実施形態において、プログラム150は、ホールドアウト(例えば、アタランスのテスト又は検証セット)CTC損失からAを経験的に計算する。
プログラム150は、双正則化をチャンクベース双方向長・短期記憶ネットワークに適用する(ステップ210)。双正則化は、順方向の隠れ状態を、時間的に逆方向に進むツインネットワーク(例えば、全アタランスBLSTM)によって計算された共時的(にcotemporally)逆方向の状態に可能な限り近づける、正則化項を追加する。CTC損失に加えて、プログラム150は、双正則化損失を1つ又は複数のチャンクベースBLSTMの訓練に加える。一実施形態において、双正則化損失は、ステップ204で説明したような訓練済み全アタランスBLSTMネットワークの隠れ状態間の平均二乗誤差である。ソフト忘却の全損失関数は以下の通りである。

(2)Ltot(y|x,Θ)=LCTC(y|x,Θ)+λLtwin(h,hwhole|Θ)

式(2)に関して、Ltotは、CTC損失と、全アタランスBLSTMを使用した双正則化損失との和に相当する。λをゼロに設定すると、隠れ状態又はセル状態情報がチャンク間で転送されないハード忘却が得られる。一実施形態において、プログラム150は、λを非ゼロ値に設定し、λがゼロ値の場合(例えば、ハード忘却)と比べて単語誤り率(WER)を有意に改善する。この実施形態において、ソフト忘却は、双正則化を通じて、ある程度の全アタランスコンテキストを保持する。全アタランスBLSTMの重みは、訓練プロセス中、固定されたままとした。様々な実施形態において、チャンクベースBLSTMネットワークが訓練を完了すると、プログラム150は、全アタランスBLSTMネットワークを破棄(例えば、処分、排除、削除など)し、変更なしで干渉を行う。
様々な実施形態において、ソフト忘却BLSTMネットワークが訓練を完了すると、プログラム150は、全アタランスBLSTMネットワークを破棄し、変更なしで干渉を行う。一実施形態において、プログラム150は、1つ又は複数のソフト忘却BLSTMを実働環境又はサーバに送信もしくはインストールし又は送信及びインストールする。様々な実施形態において、プログラム150は、複数のソフト忘却BLSTMを選択し、モデルを同じ実働環境に配置するか、又はモデルを複数のそれぞれの実働環境、テスト環境、又は補助環境に配置することができる。一実施形態において、プログラム150は、1つ又は複数の訓練済みソフト忘却BLSTMをホストし(例えば、アクセス及び使用を可能にし)、アプリケーション及びプログラム(図示せず)がモデルにアクセスできるようにする。この実施形態において、上記アプリケーション及びプログラムは、入力を上記の訓練済みソフト忘却BLSTMに供給することができ、関連付けられた出力を受け取る又は要求することができる。
したがって、図2のオペレーションステップを実行することによって、プログラム150は、1つ又は複数のソフト忘却BLSTMを訓練する。プログラム150は、1つ又は複数の全アタランスBLSTMを訓練する(例えば、事前訓練する)。プログラム150は、1つ又は複数のチャンクベースBLSTMを初期化することによって、1つ又は複数のソフト忘却BLSTMの訓練を開始する。この実施形態において、ソフト忘却BLSTMは、全アタランスBLSTMに起因する過剰適合問題を低減する。プログラム150は、チャンクサイズにジッタ(例えば、ランダム性)を加え、モデルの汎化性能を向上させる。この実施形態において、チャンクサイズをジッタリングすることで、固定サイズのチャンクをモデルが記憶すること(memorization)を防止する。プログラム150は、訓練済み全アタランスBLSTMを使用して、双正則化及びCTC損失を適用し、アタランスレベルのコンテキスト情報の保持を可能にする。
図3Aは、ソフト忘却訓練プロセスの例示の図である、例示的な図300を示す。例示的な図300は、ソフト忘却なしで訓練された例示的なBLSTMである、事前訓練済み全アタランスBLSTMネットワーク302と、ソフト忘却を用いて訓練された例示的なBLSTMである、チャンクベースBLSTMネットワーク304と、スペクトログラムとして表現されたアタランスである音響特徴シーケンス306と、BLSTMネットワークの構成要素である順方向LSTMネットワーク308と、BLSTMネットワークの構成要素である逆方向LSTMネットワーク310と、前のネットワークの出力を含む層であるLSTM出力312と、入力と出力との間の変化に適合するように修正される適応層である線形層314と、ステップ210で説明した手順を例示する双正則化316と、音響特徴シーケンス306の記号的等価物である真の記号シーケンス318とを含む。
図3Bは、例示的な表320を示し、これは、Hub5-2000 Switchboard(SWB)及びCallHome(CH)訓練セットで訓練された1つ又は複数の全アタランス及びソフト忘却BLSTMの単語誤り率(WER)を示す表である。例示的な表320は、全アタランス訓練済みネットワークは過剰適合し、その一方、ソフト忘却訓練済み(例えば、チャンクベース)ネットワークは過剰適合しないことを実証する。
図3Cは、例示的な表330を示し、これは、不特定話者モデル及び話者適応モデルのセットについての単語誤り率(WER)を示す表であり、各々が、Hub5-2000 Switchboard(SWB)、CallHome(CH)、RT02、RT03、及びRT04訓練セットで訓練されたベースラインモデル(例えば、全アタランスBLSTM)及びソフト忘却モデル(例えば、チャンクベースBLSTM)を含む。例示的な表330では、ソフト忘却モデルがそれぞれのベースラインモデルに対して絶対値で0.9%及び1.6%の改善を示す。
図3Dは、例示的な表340を示し、これは、Hub5-2000 Switchboard(SWB)及びCallHome(CH)訓練セットで訓練された複数の従来型モデルの単語誤り率を示す例示的なチャートである。記号「*」で示されるモデルは速度摂動を使用し、記号「+」で示されるモデルはバイト対符号化を使用した。
図3Eは、例示的なグラフ350を示し、これは、チャンクベースBLSTM、ソフト忘却BLSTM、全アタランスBLSTM、及び双正則化を伴うULSTMを含む複数のモデルの単語誤り率を示すグラフである。
図3Fは、例示的なグラフ360を示し、これは、全アタランス訓練済みBLSTM及びソフト忘却を使用して訓練されたチャンクベースBLSTMのCTC損失を示すグラフである。例示的なグラフ360は、全アタランスBLSTMグラフ362及びソフト忘却BLSTMグラフ364を含む。
さらなるコメントもしくは実施形態又はその両方
本発明の幾つかの実施形態は、技術の現状に対する改善について、以下の事実、潜在的な問題もしくは潜在的な領域又はそれらの組み合わせを認識する。
CTCベースの自動音声認識システムは、全音声アタランスにわたって展開される双方向長・短期記憶(BLSTM)ネットワークを用いた場合に良好に機能する。本発明の幾つかの実施形態は、全アタランスBLSTMは長期コンテキストをよりよく捉えるが、過剰適合をもたらすことを認識する。本発明の実施形態は、解決策としてソフト忘却を提案する。訓練中、本発明の幾つかの実施形態は、入力アタランスの小さな非重複チャンク上でのみBLSTMを展開する。本発明の幾つかの実施形態は、固定されたグローバルチャンクサイズの代わりに、各バッチのチャンクサイズをランダムに選択する。ある程度のアタランスレベルの情報を保持するために、本発明の幾つかの実施形態は、BLSTMの隠れ状態が事前訓練済み全アタランスBLSTMのものを近似することを奨励する。本発明の幾つかの実施形態は、300時間の英語Switchboardデータセットを使用して、ソフト忘却が、競合する全アタランス・フォンCTC(phone CTC)BLSTMよりも単語誤り率(WER)を平均7-9%改善することを示す。本発明の幾つかの実施形態では、それぞれHub5-2000 Switchboard/CallHomeテストセットに対して、不特定話者モデルを用いて9.1%/17.4%、話者適応モデルを用いて8.7%/16.8%のWERがそれぞれ得られた。本発明の幾つかの実施形態は、ソフト忘却が、モデルがストリーミング認識のための限られた時間的コンテキストと共に用いられる場合にWERを改善することを認識する。最後に、本発明の幾つかの実施形態は、ソフト忘却の正則化及びデータ拡張効果に関して経験的な洞察を提示する。
本発明の幾つかの実施形態は、エンドツーエンド(E2E)自動音声認識(ASR)システムが最近の重要な研究対象となっていることを認識する。こうしたシステムは、従来のハイブリッドASRシステムの複雑な訓練及び推論パイプラインを簡素化することを目的としている。ハイブリッドシステムは、ガウス混合モデル、隠れマルコフモデル(HMM)、及び様々なニューラルネットワークを組み合わせたものであり、一連の音声特徴とHMMコンテキスト依存状態との間に、モデル構築及びアライメントの複数の段階を含む。対照的に、エンドツーエンドシステムは、リカレントニューラルネットワークを使用し、コネクショニスト時系列分類(CTC)損失を通じてすべてのアライメントを合計するか、又はアテンション機構を通じて最適なアライメントを学習することによって、ワンショットで音響モデルを訓練する。本発明の幾つかの実施形態は、E2EシステムとハイブリッドASRシステムとの間の単語誤り率(WER)のギャップが経時的に低減することを認識する。
本発明の幾つかの実施形態は、長・短期記憶(LSTM)隠れユニットを有するリカレントニューラルネットワークが、ASRシステム用に選択されるニューラルネットワークであると認識する。双方向LSTM(BLSTM)ネットワークは特に普及しており、時間的に順方向及び逆方向に展開される、各層の2つのLSTMネットワークから構成される。E2E ASRシステムの場合、BLSTMネットワークは音声アタランスの全長に渡って展開される。全アタランス展開は、BLSTMが長期コンテキストをよりよく捉えることを可能にし、このことはアライメントが欠如している場合に特に有用である。長期コンテキストを記憶するための制御は、LSTMセルの4つの訓練可能なゲート(入力、忘却、セル、出力)に委ねられる。本発明の幾つかの実施形態は、この情報処理動作を制御するために、LSTMセルの構造的変形を認識する。
本発明の幾つかの実施形態は、BLSTMの全アタランス展開は、ドロップアウトのような周知の正則化技術の存在下でも、過剰適合につながることを認識する。これは、例えば数百時間の音声といった限られた訓練データが与えられたE2E ASRシステムのWERに特に悪影響を与える。本発明の幾つかの実施形態は、この過剰適合を抑制するためにソフト忘却を使用する。最初に、本発明の幾つかの実施形態は、BLSTMを、全アタランスではなく、入力音響アタランスの小さい非重複チャンク上でのみ展開する。順方向LSTMネットワーク及び逆方向LSTMネットワークの隠れ状態及びセル状態は、チャンクの境界でゼロにリセットされる。固定サイズのチャンクの記憶を防止するために、本発明の幾つかの実施形態は、訓練中にバッチ間でチャンクサイズをランダムに摂動させる。最後に、本発明の幾つかの実施形態は、ある程度のアタランスレベルのコンテキストを保持するために、双正則化を用いる。双正則化は、チャンク化BLSTMモデルと事前訓練済み全アタランスBLSTMモデルとの隠れ状態間の平均二乗誤差を、CTC損失に加える。本発明の幾つかの実施形態は、双正則化が、チャンク間でコンテキストがある程度記憶されることを促進することを認識する。
本発明の幾つかの実施形態は、主にストリーミング推論のために、CTC ASRモデルのチャンク訓練を検討してきた。しかしながら、ソフト忘却は、付加的にチャンクジッタ及び双正則化を組み込み、CTC ASRシステムのオフライン/非ストリーミングWERとストリーミングWERとの両方を有意に改善する。本発明の幾つかの実施形態は、300時間の英語Switchboardデータセットを使用して、幾つかのテストセットにわたって、ソフト忘却が、競合するフォンCTCベースラインに対してWERを有意に7-9%改善することを示す。本発明の幾つかの実施形態は、ソフト忘却の正則化及びデータ拡張効果に関して経験的な証拠を提示する。
本発明の幾つかの実施形態は、ULSTMネットワークがASR WERの点でBLSTMネットワークに遅れることを認識しており、これは、ULSTMネットワークが時間的に順方向のコンテキストのみを取り込むのに対して、BLSTMネットワークは時間的に逆方向のコンテキストを付加的に取り込むためである。双正則化は、その本来の形において、時間的に順方向及び時間的に逆方向に独立して動作する2つのULSTMネットワークを共同で訓練する。全訓練損失は、

(1)Ltot(y|x,Θ,Θ)=LCTC-f(y|x,Θ)+LCTC-b(y|x,Θ)+λLtwin(h,h|Θ,Θ

であり、ここで双正則化損失は、LSTMの隠れ表現hとhとの間の平均二乗誤差

(3)Ltwin(h,h|Θ,Θ)=||h-h||

であり、ここでΘ及びΘはそれぞれ順方向及び逆方向のULSTMネットワークのパラメータを表し、x及びyは入力音響シーケンス及び出力ラベルシーケンスであり、λ>0はスケーリング因子である。
図3Aは、以下の要素を含むソフト忘却のブロック図を示す。
・チャンクベースBLSTMネットワーク:ソフト忘却は、入力音響シーケンスのC個の連続した時間ステップの非重複ウィンドウ上でのみ展開されるBLSTMを訓練する。この選択の背景にある直感は、全アタランスBLSTMは、特に訓練データが限られている場合に過剰適合する傾向があるということである。C時間ステップごとに隠れ状態及びセル状態を0に設定することで、この過剰適合が緩和される。本発明の幾つかの実施形態は、ホールドアウトCTC損失に基づいて経験的にCを選ぶ。
・チャンクサイズのジッタ:本発明の幾つかの実施形態は、あるバッチから次のバッチへとCを摂動させることで、モデルの汎化性能が向上することを認識する。本発明の幾つかの実施形態は、ジッタの付加がデータ拡張効果を有することを認識する。本発明の幾つかの実施形態は、各バッチのチャンクサイズCbatchをCbatch=C+uとなるようにジッタリングし、ここでu=U(A,A)は、[A,A]にわたって一様分布した離散ランダム変数である。本発明の幾つかの実施形態は、ホールドアウトCTC損失に基づいて経験的にAを選ぶ。
・双正則化:ある程度のアタランスレベルのコンテキストを組み込むために、本発明の幾つかの実施形態は、CTC損失に加えて双正則化損失を追加する。この損失は、事前訓練済み全アタランスBLSTMネットワークと現在訓練されているチャンクベースBLSTMネットワークとの隠れ状態間の平均二乗誤差である。本発明の幾つかの実施形態は、両方のモデルが共同で訓練される双正則化の本来の形とは対照的に、訓練中、全アタランスBLSTMの重みは固定したまま保持される。
したがって、ソフト忘却の全損失関数は

(2)Ltot(y|x,Θ)=LCTC(y|x,Θ)+λLtwin(h,hwhole|Θ)

であり、λ=0と設定すると、隠れ状態又はセル状態情報がチャンク間で転送されないハード忘却が得られる。本発明の幾つかの実施形態は、非ゼロ値のλが、λ=0と比べて有意に改善されたWERをもたらすことを認識しており、双正則化を通じてある程度の全アタランスコンテキストを保持することの価値を示している。
本発明の幾つかの実施形態は、BLSTMのチャンク化訓練は、チャンク単位のアライメントを必要とせず、BLSTMネットワークを通じて順方向パスにのみ影響を与えることを認識する。本発明の幾つかの実施形態は、各々がN個のチャンクを有するB個のアタランスのバッチをBN個の小さなアタランスのバッチとして認識する。本発明の幾つかの実施形態は、得られたチャンク単位の事後ベクトルを再形成して、元の全アタランスに対する事後シーケンスを構築し、これを用いてCTC損失を計算する。チャンクベースBLSTMネットワークがソフト忘却を用いて訓練されると、本発明の幾つかの実施形態は、全アタランスBLSTMネットワークを破棄し、修正なしで推論を行う。
本発明の幾つかの実施形態は、300時間の英語Switchboardタスクを使用して、不特定話者(SI)モデル及び話者適応(SA)モデルの両方を訓練した。SIモデルは、話者ごとのケプストラム平均減算(CMS)を用いた、声道長正規化(VTLN)を用いない40次元logMel特徴を使用する。SAモデルは、特徴融合システムと同様に、話者ごとのCMS及びVTLNを用いた40次元logMel特徴、40次元特徴空間最尤線形回帰(FMLLR)特徴、及び100次元i-ベクトルを使用する。
本発明の幾つかの実施形態は、順方向及び逆方向にそれぞれ512の隠れニューロンを有するPyTorchの複数の6層BLSTMネットワークを訓練する。出力の1024次元隠れベクトルは、線形層及びソフトマックスを通じて、44のフォン及びブランク記号を表す45次元の事後確率ベクトルにマッピングされる。本発明の幾つかの実施形態は、logMel特徴に対してデルタとダブルデルタを使用し、logMel及びFMLLR特徴に対してレート2でフレームスタッキング及びスキッピングを使用するモデルを含む。この結果、SIモデルで240次元入力音響特徴、SAモデルで420次元入力音響特徴が得られる。4-gm LMは、30k単語の語彙を有するSWB+Fisherコーパスからの全テキストに対して訓練を行う。
本発明の幾つかの実施形態は、4つのV100 GPU上で、学習率0.04、ネステロフ運動量0.9、及びバッチサイズ128で、同期式確率的勾配降下法(SGD)を用いてすべてのモデルを訓練する。学習率は、最初の10エポック後、エポックごとに0.5が乗じられる。本発明の幾つかの実施形態はまた、SIモデル及びSAモデルの両方について、logMel特徴に対するシーケンスノイズ注入を使用する。シーケンスノイズ注入は、現在のアタランス及び訓練セットからランダムにサンプリングされたアタランスのlogMel特徴シーケンスに対してlog-sum-expを実行し、これは、モデルを正則化し、また、新しい入力特徴シーケンスを作成するのでオンザフライのデータ補強と考えることもできる。2つのハイパーパラメータ、すなわち、ランダムにサンプリングされたアタランスの特徴に対する重みと、シーケンスノイズを注入する確率とが存在する。本発明の幾つかの実施形態は、ホールドアウトCTC損失に基づいて、すべてのSIモデルのハイパーパラメータに(0.4,0.4)の値を用い、すべてのSAモデルに(0.2,0.4)の値を用いた。
本発明の幾つかの実施形態は、ソフト忘却の様々な要素を段階的に描写し、上記要素がWERに与える影響を理解する。まず、本発明の幾つかの実施形態は、チャンクベースBLSTMモデルを固定チャンクサイズで訓練する。本発明の幾つかの実施形態は、チャンクサイズを5スタックフレームから50スタックフレーム(100ミリ秒から1秒)まで、5スタックフレームのステップで変化させる。本発明の幾つかの実施形態は、ホールドアウトCTC損失に基づいて、最適なチャンクサイズが40スタックフレームであることを実証し、これは図3Bに示すようにHub5-2000 SWB/CHテストセットに対して12.7%/22.5%のWERを示す。
次に、本発明の幾つかの実施形態は、訓練バッチ間にU(2,2)のチャンクサイズジッタを導入し、その結果、WERの絶対値がSWBで0.6%、CHで1.0%低減した。本発明の幾つかの実施形態は、ハード忘却を用いたチャンクベースBLSTMモデルが、シーケンスノイズ注入を用いない全アタランスBLSTMモデルに匹敵するWERを有することを認識する。本発明の幾つかの実施形態は、最後の3つのBLSTM層にわたって双正則化を導入し、λを0.001、0.01、0.1、1.0にわたって変化させる。本発明の幾つかの実施形態は、λ=0.01で最良のホールドアウトCTC損失が得られ、このときSWBで11.1%、CHで19.7%のWERが得られ、これはSWBではシーケンスノイズ注入のベースラインよりも0.2%だけ劣るに過ぎず、CHでは絶対値で1.6%優れることを認識する。最後に、本発明の幾つかの実施形態は、シーケンスノイズ注入を導入し、SWBで10.6%、CHで19.5%のWERが得られる。シーケンスノイズ注入の利点は、ソフト忘却の存在下では減少し、その理由は、どちらの技術も、モデルを正則化し、オンザフライでデータ拡張を行うという同じ効果を有するためである。
本発明の幾つかの実施形態は、双正則化及びシーケンスノイズを含む最良のモデル上で、チャンクサイズを5、10、・・・、50にわたって変化させるとともに、チャンクジッタを1、2、・・・、10にわたって変化させることによって、グリッドサーチを行う。本発明の幾つかの実施形態は、チャンクサイズ20及びチャンクジッタ6のほとんどの値が、ほぼ等しく低いホールドアウト損失をもたらすことを実証する。最適なチャンクサイズに40、チャンクジッタに10を選んだことに応答して、本発明の幾つかの実施形態は、CH WERが0.2%とわずかに改善されただけで、SWBは改善されなかったことを認識する。
次に、本発明の幾つかの実施形態は、ソフト忘却レシピをSAモデルに適用する。図3Cは、5つのテストセットに対する、ベースラインCTCモデル及びソフト忘却を用いたモデルの結果を示す。本発明の幾つかの実施形態は、SWB及びCHテストセットについて、ソフト忘却がベースラインSAモデルに比べて絶対値で0.9%及び1.6%の改善を得ることを認識する。参照のために、本発明の幾つかの実施形態は、図3BのSIモデルのWERも示す。ソフト忘却は、SIモデルの平均WERを絶対値で1.3%改善し、SAモデルを絶対値で1.4%改善する。本発明の幾つかの実施形態は、次に、これらのモデルの状態レベル最小ベイズリスク(sMBR:state-level minimum Bayes risk)シーケンス訓練を実行し、結果として得られたラティスの再スコアリングを、Fisher+SWBコーパスで訓練されたLSTM言語モデル(NNLM)で実行する。NNLMの埋め込み層は512ノードを有し、その後に各々が2048ノードを有する2つのLSTM層が続く。30k次元単語事後ベクトルのソフトマックスベースの推定の前に、線形ボトルネック層によって特徴空間が128に縮小される。本発明の幾つかの実施形態は、ドロップコネクト(DropConnect)とドロップアウト(Dropout)との組み合わせを用いてモデルを正則化する。本発明の幾つかの実施形態は、SGDを使用して、初期学習率0.01、ネステロフ運動量0.9で訓練を行う。20エポックの訓練後、15ステップで学習率は0.5倍にアニールされた。本発明の幾つかの実施形態は、ソフト忘却を用いて、SIモデルで9.6%/17.7%、SAフォンCTCモデルで8.7%/16.8%の最終WERが得られた。
ソフト忘却を用いたフォンCTCモデルの性能を評価するために、本発明の幾つかの実施形態は、Hub5-2000 SWB及びCHテストセットに関する文献から様々なモデルのWERを図3Dに示す。本発明の幾つかの実施形態は、データ拡張を用いる他のシステムと比較できるように、本発明者らのSIシステムに対して速度摂動(0.9x、1x、及び1.1x)を用いてデータ拡張を行う。速度摂動は、SIシステムをさらに9.1%/17.4%まで改善する。本発明の幾つかの実施形態は、上記モデルがすべてのエンドツーエンドシステムと比べても遜色がないことを認識する。WERの改善は、より困難なCHテストセットで特に大きい。また、ソフト忘却は、フォンCTCと、複雑な多段訓練パイプライン及び出力として32kのCD状態を用いる特徴融合(feature fusion)を伴うSAハイブリッドBLSTMモデルとの間のWERギャップを低減させるのに大いに貢献する。具体的には、本発明の幾つかの実施形態は、シーケンスノイズ注入のみを用いたモデルと比較して、SAハイブリッドBLSTMとフォンCTCとの間のWERギャップを、SWBで71%、CHで74%低減する。
本発明の幾つかの実施形態は、限られた待ち時間での復号のために、sMBR及びNNLMの再スコアリングの前にSI及びSAモデルを使用し、SAモデルを用いて同様に引き出すことができる。これらの実施形態は、推論中にBLSTMモデルを非重複チャンクにわたって展開する。順方向LSTMネットワークの隠れ状態及びセル状態は、WERを改善したので、1つのチャンクから次のチャンクへとコピーされる。逆方向LSTMの隠れ状態及びセル状態はゼロにリセットされる。
図3Eは、ソフト忘却を用いた場合及び用いない場合のチャンク化BLSTMのWERを復号チャンクサイズに対して示す。復号チャンクサイズの各選択について、本発明の幾つかの実施形態は、すべての訓練チャンクサイズにわたって最良のWERを報告する。参照のために、本発明の幾つかの実施形態は、全アタランスBLSTMと、全アタランスBLSTMを用いて双正則化損失で訓練された競合する全アタランスULSTMモデルのWERも示す。本発明の幾つかの実施形態は、ソフト忘却を用いて訓練されたチャンク化BLSTMが、すべての復号チャンクサイズにわたってチャンク化BLSTMを有意に改善することを認識する。
本発明の幾つかの実施形態は、全アタランスBLSTMモデルがデータを過剰適合する傾向があり、ソフト忘却はこれを軽減する方法であることを認識する。図3Fは、ベースラインの全アタランスSI BLSTM及びソフト忘却を用いたチャンク化SI BLSTMについて、訓練の進行に対する訓練CTC損失及びホールドアウトCTC損失を示す。本発明の幾つかの実施形態において、ソフト忘却を用いたチャンクベースBLSTMの収束した訓練損失及びホールドアウト損失は、全アタランスBLSTMと比べて有意に近接することを認識し、これはソフト忘却が実際にモデルを正則化することを示す。
本発明の幾つかの実施形態は、ランダムチャンクサイズ後にBLSTMの隠れ状態及びセルの状態をリセットすることが、データ拡張を効果的に作り出すことを認識する。このランダム忘却は、同じ入力音響特徴シーケンスに対してBLSTMが出力する異なる隠れ表現をもたらし、異なる訓練サンプルを作成する。本発明の幾つかの実施形態は、ソフト忘却を伴う最良のSA BLSTMモデルを使用し、Hub5-2000 SWBテストセットを順方向にパスする。各アタランスに対して、本発明の幾つかの実施形態は、全アタランスと、訓練で用いられるチャンクサイズを表すサイズ30、31、...、50のチャンクとに対して、BLSTMを展開する。本発明の幾つかの実施形態は、各チャンク後に隠れ状態及びセル状態をゼロにリセットする。本発明の幾つかの実施形態は、次に、最終BLSTM層の出力を平均化し、これをt分布型確率的近傍埋め込み法(t-SNE)を用いて2次元に投影することによって、1024次元表現を計算する。本発明の幾つかの実施形態は、埋め込みが、アタランス間での音響クラスタリングを示すこと、例えば口ごもりを伴うすべてのアタランスが空間の1つの領域にクラスタ形成することを認識する。より重要なことは、本発明の幾つかの実施形態は、異なるサイズのチャンク後に隠れ状態及びセル状態を忘却することが、訓練中に用いられた双正則化損失に起因して、各アタランスの局所的な近傍において埋め込みを摂動させることを認識する。この摂動の性質は、基礎となる表現の高度に非線形な性質に起因して、アタランスごとに異なり、単に独立した同一分布ノイズではない。本発明の幾つかの実施形態は、この摂動がデータ拡張の効果的な形態であることを認識する。
本実施形態は、ソフト忘却を使用して、以下の3つの要素から成る、より優れたCTC ASRモデルを訓練する。最初に、本発明の実施形態は、全シーケンスではなく、入力音響フレームの非重複チャンク上のみでBLSTMを展開する。したがって、隠れ状態及びセル状態は、1つのチャンクから次のチャンクで忘却される。次に、本発明の実施形態は、訓練バッチ間でチャンクの持続時間を摂動させる。最後に、本発明の実施形態は、BLSTMの隠れ表現を事前訓練済み全アタランスBLSTMモデルの隠れ表現に近づけることを助長することによって、CTC損失が正則化されることを認識する。本発明の幾つかの実施形態は、ソフト忘却が、競合するフォンCTCベースラインに比べてWERを7-9%改善し、また、最新技術のハイブリッドBLSTMとのWERギャップを約70%縮めるのに役立つことを実証する。
図4は、本発明の例示的な実施形態によるサーバコンピュータ120のコンポーネントのブロック図を示す。図4は、1つの実装の例示のみを提供するものであり、異なる実施形態を実装することができる環境に関して、いかなる制限も意味しないことを理解すべきである。図示される環境に対する多くの変更がなされてもよい。
サーバコンピュータ120の各々は、キャッシュ403と、メモリ402と、永続ストレージ405と、通信ユニット407と、入出力(I/O)インターフェース406との間の通信を提供する通信ファブリック404を含む。通信ファブリック404は、プロセッサ(マイクロプロセッサ、通信、及びネットワークプロセッサなど)、システムメモリ、周辺デバイス、及びシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報又はその両方を渡すために設計された任意のアーキテクチャで実装することができる。例えば、通信ファブリック404は、1つ又は複数のバス又はクロスバー・スイッチで実装することができる。
メモリ402及び永続ストレージ405は、コンピュータ可読ストレージ媒体である。本実施形態において、メモリ402は、ランダムアクセスメモリ(RAM)を含む。一般に、メモリ402は、任意の適切な揮発性又は不揮発性のコンピュータ可読ストレージ媒体を含むことができる。キャッシュ403は、最近アクセスされたデータ、及びアクセスされたデータに近いデータをメモリ402から保持することによって、コンピュータプロセッサ401の性能を向上させる高速メモリである。
プログラム150は、キャッシュ403を介したそれぞれのコンピュータプロセッサ401の1つ又は複数による実行のために、永続ストレージ405及びメモリ402内に格納することができる。一実施形態において、永続ストレージ405は、磁気ハードディスクドライブを含む。代替的に、又は磁気ハードディスクドライブに加えて、永続ストレージ405は、ソリッドステート・ハードドライブ、半導体ストレージデバイス、読出し専用メモリ(ROM)、消去可能プログラム可能読出し専用メモリ(EPROM)、フラッシュメモリ、又はプログラム命令もしくはデジタル情報を格納することが可能な任意の他のコンピュータ可読ストレージ媒体を含むことができる。
また、永続ストレージ405が用いる媒体は、取り外し可能であってもよい。例えば、取り外し可能なハードドライブを永続ストレージ405に用いることができる。他の例としては、永続ストレージ405の一部でもある別のコンピュータ可読ストレージ媒体に転送するためにドライブに挿入される、光ディスク及び磁気ディスク、サム・ドライブ、スマートカードがある。
通信ユニット407は、これらの例において、他のデータ処理システム又はデバイスとの通信を提供する。これらの例において、通信ユニット407は、1つ又は複数のネットワークインタフェースカードを含む。通信ユニット407は、物理的通信リンク及び無線通信リンクのいずれか又は両方を用いて通信を提供することができる。プログラム150は、通信ユニット407を用いて永続ストレージ405にダウンロードすることができる。
I/Oインターフェース406は、サーバコンピュータ120に接続することができる他のデバイスとの間でデータの入出力を可能にする。例えば、I/Oインターフェース406は、キーボード、キーパッド、タッチスクリーン、もしくは他の適切な入力デバイス又はそれらの組み合わせなどの外部デバイス408への接続を提供することができる。外部デバイス408は、例えば、サム・ドライブ、ポータブル光ディスク又は磁気ディスク、及びメモリカードなどのポータブル・コンピュータ可読ストレージ媒体も含むことができる。本発明の実施形態を実施するために用いられるソフトウェア及びデータ、例えば、プログラム150は、そのようなポータブル・コンピュータ可読ストレージ媒体に格納することができ、I/Oインターフェース406を介して永続ストレージ405にロードすることができる。I/Oインターフェース406は、ディスプレイ409にも接続される。
ディスプレイ409は、データをユーザに表示する機構を提供し、例えば、コンピュータのモニタであってもよい。
本明細書に記載されるプログラムは、本発明の特定の実施形態においてそのプログラムが実装されるアプリケーションに基づいて識別される。しかしながら、本明細書におけるあらゆる特定のプログラムの命名法は、単に便宜上用いられるものであり、したがって、本発明は、そのような命名法によって識別もしくは暗示される又は識別及び暗示されるいずれかの特定のアプリケーションにおける使用のみに限定されるべきではないことを理解すべきである。
本発明は、システム、方法、もしくはコンピュータ・プログラム製品又はそれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する1つ又は複数のコンピュータ可読ストレージ媒体を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁気ストレージデバイス、半導体ストレージデバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラム可能読出し専用メモリ(EPROM又はフラッシュメモリ)、スタティック・ランダムアクセスメモリ(SRAM)、ポータブル・コンパクト・ディスク読出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることもでき、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク又はその組み合わせなどのネットワークを介して外部コンピュータ又は外部ストレージデバイスにダウンロードすることもできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジサーバ又はその組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納するために転送する。
本発明のオペレーションを行うためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、「C」プログラミング言語又は類似のプログラミング言語などの通常の手続き型プログラミング言語、及び、「Q」プログラミング言語、Q#、量子コンピューテーション言語(QCL)又は類似のプログラミング言語などの量子プログラミング言語、アセンブリ言語又は類似のプログラミング言語などの低水準プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部がリモートコンピュータ上で実行される場合もあり、又は完全にリモートコンピュータもしくはサーバ上で実行される場合もある。後者のシナリオにおいて、リモートコンピュータは、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行することができる、
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ・プログラム可能データ処理装置、もしくは他のデバイス又はそれらの組合せを特定の方式で機能させるように指示することができるコンピュータ可読ストレージ媒体内に格納し、それにより、その中に格納された命令を有するコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連のオペレーションステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ、他のプログラム可能装置、又は他のデバイス上で実行される命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/動作を実施するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及びオペレーションを示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で行われることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
種々の実施形態の説明が例証のために提示されたが、網羅的であること又は開示される実施形態を制限することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの変更及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の用途、又は市場で見出される技術に優る技術の改善を最もよく説明するために、又は、当業者が本明細書で開示される実施形態を理解することができるように、選択された。

Claims (23)

  1. コンピュータ実施方法であって、
    1つ又は複数のコンピュータプロセッサによって、1つ又は複数の訓練バッチを使用して第1のモデルを訓練することであって、前記1つ又は複数の訓練バッチの各訓練バッチは、1つ又は複数の情報ブロックを含む、訓練することと、
    前記第1のモデルを訓練することの完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始することと、
    1つ又は複数のコンピュータプロセッサによって、前記第2のモデルの前記1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングすることと、
    1つ又は複数のコンピュータプロセッサによって、1つ又は複数の非重複の連続したジッタリングされた情報ブロック上で前記第2のモデルを展開することと、
    前記第2のモデルを展開することに応答して、1つ又は複数のコンピュータプロセッサによって、双正則化を適用することによって前記第2のモデルの過剰適合を低減することと
    を含む方法。
  2. 前記第1のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項1に記載の方法。
  3. 前記第2のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項1に記載の方法。
  4. 前記1つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項1に記載の方法。
  5. 前記情報ブロックが音響シーケンスである、請求項1に記載の方法。
  6. 前記訓練バッチが1つ又は複数の音響シーケンスを含み、各音響シーケンスは関連付けられたテキストラベルを有する、請求項1に記載の方法。
  7. 前記第2のモデルを訓練することの完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第1のモデルを処分するステップと、
    前記第2のモデルを訓練することの前記完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第2のモデルを1つ又は複数の実働環境に配備するステップと
    をさらに含む、請求項1に記載の方法。
  8. 双正則化が前記第2のモデルの損失値及びコネクショニスト時系列分類損失を含み、前記損失値は、前記第1のモデル及び第2のモデルと前記第1のモデルとの隠れ状態間の平均二乗誤差である、請求項1に記載の方法。
  9. コンピュータ・プログラム製品であって、
    1つ又は複数のコンピュータ可読ストレージ媒体と、前記1つ又は複数のコンピュータ可読ストレージ媒体上に格納されたプログラム命令と
    を含み、前記格納されたプログラム命令が、
    1つ又は複数の訓練バッチを使用して第1のモデルを訓練するプログラム命令であって、前記1つ又は複数の訓練バッチの各訓練バッチが1つ又は複数の情報ブロックを含む、プログラム命令と、
    前記第1のモデルを訓練することの完了に応答して、前記1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始するプログラム命令と、
    前記第2のモデルの前記1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、
    1つ又は複数の非重複の連続するジッタリングされた情報ブロック上で前記第2のモデルを展開するプログラム命令と、
    前記第2のモデルを展開することに応答して、双正則化を適用することによって前記第2のモデルの過剰適合を低減させるプログラム命令と
    を含むコンピュータ・プログラム製品。
  10. 前記第1のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項9に記載のコンピュータ・プログラム製品。
  11. 前記第2のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項9に記載のコンピュータ・プログラム製品。
  12. 前記1つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項9に記載のコンピュータ・プログラム製品。
  13. 前記1つ又は複数のコンピュータ可読ストレージ媒体上に格納された前記プログラム命令が、
    前記第2のモデルを訓練することの完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第1のモデルを処分するプログラム命令と、
    前記第2のモデルを訓練することの前記完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第2のモデルを1つ又は複数の実働環境に配置するプログラム命令と
    を含む、請求項9に記載のコンピュータ・プログラム製品。
  14. 双正則化が前記第2のモデルの損失値及びコネクショニスト時系列分類損失を含み、前記損失値は、前記第1のモデル及び第2のモデルと前記第1のモデルとの隠れ状態間の平均二乗誤差である、請求項9に記載のコンピュータ・プログラム製品。
  15. コンピュータシステムであって、
    1つ又は複数のコンピュータプロセッサと、
    1つ又は複数のコンピュータ可読ストレージ媒体と、
    前記1つ又は複数のプロセッサの少なくとも1つによる実行のために前記コンピュータ可読ストレージ媒体上に格納されたプログラム命令と
    を含み、前記格納されたプログラム命令が、
    1つ又は複数の訓練バッチを使用して第1のモデルを訓練するプログラム命令であって、前記1つ又は複数の訓練バッチの各訓練バッチが1つ又は複数の情報ブロックを含む、プログラム命令と、
    前記第1のモデルを訓練することの完了に応答して、前記1つ又は複数の訓練バッチを使用して第2のモデルの訓練を開始するプログラム命令と、
    前記第2のモデルの前記1つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、
    1つ又は複数の非重複の連続するジッタリングされた情報ブロック上で前記第2のモデルを展開するプログラム命令と、
    前記第2のモデルを展開することに応答して、双正則化を適用することによって前記第2のモデルの過剰適合を低減させるプログラム命令と
    を含むコンピュータシステム。
  16. 前記第1のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項15に記載のコンピュータシステム。
  17. 前記第2のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項15に記載のコンピュータシステム。
  18. 前記1つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項15に記載のコンピュータシステム。
  19. 前記情報ブロックが音響シーケンスである、請求項15に記載のコンピュータシステム。
  20. 前記訓練バッチが1つ又は複数の音響シーケンスを含み、各音響シーケンスは関連付けられたテキストラベルを有する、請求項15に記載のコンピュータシステム。
  21. 前記1つ又は複数のコンピュータ可読ストレージ媒体上に格納された前記プログラム命令が、
    前記第2のモデルを訓練することの完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第1のモデルを処分するプログラム命令と、
    前記第2のモデルを訓練することの前記完了に応答して、1つ又は複数のコンピュータプロセッサによって、前記第2のモデルを1つ又は複数の実働環境に配置するプログラム命令と
    を含む、請求項15に記載のコンピュータシステム。
  22. 双正則化が前記第2のモデルの損失値とコネクショニスト時系列分類損失とを含み、前記損失値は、前記第1のモデル及び第2のモデルと前記第1のモデルとの隠れ状態間の平均二乗誤差である、請求項15に記載のコンピュータシステム。
  23. プログラムがコンピュータ上で実行されたときに請求項1から請求項14までのいずれかの方法を行うように適合されたプログラムコード手段を含む、コンピュータ・プログラム。
JP2022504178A 2019-08-27 2020-08-17 コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却 Pending JP2022545860A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/551,915 US11158303B2 (en) 2019-08-27 2019-08-27 Soft-forgetting for connectionist temporal classification based automatic speech recognition
US16/551,915 2019-08-27
PCT/IB2020/057719 WO2021038364A1 (en) 2019-08-27 2020-08-17 Soft-forgetting for connectionist temporal classification based automatic speech recognition

Publications (1)

Publication Number Publication Date
JP2022545860A true JP2022545860A (ja) 2022-11-01

Family

ID=74681690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022504178A Pending JP2022545860A (ja) 2019-08-27 2020-08-17 コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却

Country Status (6)

Country Link
US (1) US11158303B2 (ja)
JP (1) JP2022545860A (ja)
CN (1) CN114450746A (ja)
DE (1) DE112020003449B4 (ja)
GB (1) GB2602227B (ja)
WO (1) WO2021038364A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11043208B1 (en) * 2020-02-20 2021-06-22 Clinc, Inc. Systems and methods for mixed setting training for slot filling machine learning tasks in a machine learning task-oriented dialogue system
US11443748B2 (en) * 2020-03-03 2022-09-13 International Business Machines Corporation Metric learning of speaker diarization
US11651767B2 (en) 2020-03-03 2023-05-16 International Business Machines Corporation Metric learning of speaker diarization
US11710479B1 (en) * 2021-03-31 2023-07-25 Amazon Technologies, Inc. Contextual biasing of neural language models using metadata from a natural language understanding component and embedded recent history
US11804212B2 (en) * 2021-04-23 2023-10-31 Google Llc Streaming automatic speech recognition with non-streaming model distillation
US11715462B2 (en) 2021-04-29 2023-08-01 Microsoft Technology Licensing, Llc Efficiency adjustable speech recognition system
WO2024036213A1 (en) * 2022-08-09 2024-02-15 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for decoding speech from neural activity

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
CN108610800A (zh) * 2016-12-21 2018-10-02 中国石化集团四川维尼纶厂 一种改性js防水涂料及其制备方法
CN108461080A (zh) * 2017-02-21 2018-08-28 中兴通讯股份有限公司 一种基于hlstm模型的声学建模方法和装置
US20180330718A1 (en) 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10984316B2 (en) 2017-06-19 2021-04-20 International Business Machines Corporation Context aware sensitive information detection
US10789942B2 (en) 2017-10-24 2020-09-29 Nec Corporation Word embedding system
US11651223B2 (en) 2017-10-27 2023-05-16 Baidu Usa Llc Systems and methods for block-sparse recurrent neural networks
US10964309B2 (en) * 2019-04-16 2021-03-30 Microsoft Technology Licensing, Llc Code-switching speech recognition with end-to-end connectionist temporal classification model

Also Published As

Publication number Publication date
CN114450746A (zh) 2022-05-06
WO2021038364A1 (en) 2021-03-04
GB202203320D0 (en) 2022-04-27
GB2602227B (en) 2023-09-06
DE112020003449T5 (de) 2022-04-07
US11158303B2 (en) 2021-10-26
DE112020003449B4 (de) 2024-04-18
GB2602227A (en) 2022-06-22
US20210065680A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
JP2022545860A (ja) コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却
Ravanelli et al. Light gated recurrent units for speech recognition
Zazo et al. Language identification in short utterances using long short-term memory (LSTM) recurrent neural networks
US10867597B2 (en) Assignment of semantic labels to a sequence of words using neural network architectures
US11798535B2 (en) On-device custom wake word detection
Dahl et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
US9177550B2 (en) Conservatively adapting a deep neural network in a recognition system
US20160078339A1 (en) Learning Student DNN Via Output Distribution
WO2018118442A1 (en) Acoustic-to-word neural network speech recognizer
US11521071B2 (en) Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration
US20230394245A1 (en) Adversarial Bootstrapping for Multi-Turn Dialogue Model Training
Albadr et al. Spoken language identification based on the enhanced self-adjusting extreme learning machine approach
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
Yu et al. Deep neural network-hidden markov model hybrid systems
US20220198320A1 (en) Minimizing processing machine learning pipelining
US20210312294A1 (en) Training of model for processing sequence data
US20230401382A1 (en) Dynamic Language Models for Continuously Evolving Content
Bataev et al. Exploring end-to-end techniques for low-resource speech recognition
Gumelar et al. Bilstm-cnn hyperparameter optimization for speech emotion and stress recognition
JP2015141368A (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Renshaw Representation learning for unsupervised speech processing
KR102515914B1 (ko) Stt 모델을 활용하는 발음 전사 방법
WO2023178659A1 (en) Multi-granularity meeting summarization models
JP2024006851A (ja) 外国語を含むオーディオの音声認識方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220325

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220302

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240401