JP2022545860A

JP2022545860A - コネクショニスト時系列分類に基づく自動音声認識のためのソフト忘却

Info

Publication number: JP2022545860A
Application number: JP2022504178A
Authority: JP
Inventors: アウドカシ、カーティク; サオン、ジョージ、アンドレイ; トゥエスク、ゾルタン; キングズベリー、ブライアン; ピチェニー、マイケル、アラン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-08-27
Filing date: 2020-08-17
Publication date: 2022-11-01
Also published as: CN114450746A; WO2021038364A1; GB202203320D0; GB2602227B; DE112020003449T5; US11158303B2; DE112020003449B4; GB2602227A; US20210065680A1

Abstract

ソフト忘却訓練の手法において、１つ又は複数のコンピュータプロセッサは、１つ又は複数の訓練バッチを使用して第１のモデルを訓練し、１つ又は複数の訓練バッチの各訓練バッチは１つ又は複数の情報ブロックを含む。１つ又は複数のコンピュータプロセッサは、第１のモデルを訓練することの完了に応答して、１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始する。１つ又は複数のコンピュータプロセッサは、第２のモデルの１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングする。１つ又は複数のコンピュータプロセッサは、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第２のモデルを展開する。１つ又は複数のコンピュータプロセッサは、第２のモデルを展開することに応答して、双正則化を適用することによって第２のモデルの過剰適合を低減する。

Description

本発明は、一般に機械学習の分野に関し、より具体的には自動音声認識に関する。

エンドツーエンド（Ｅ２Ｅ）自動音声認識（ＡＳＲ）システムは、重要な研究対象となっている。このようなシステムは、従来のハイブリッドＡＳＲシステムの複雑な訓練及び推論パイプラインを簡素化することを目的としている。ハイブリッドシステムは、ガウス混合モデル、隠れマルコフモデル（ＨＭＭ）、及び様々なニューラルネットワークを組み合わせたものであり、一連の音声特徴とＨＭＭコンテキスト依存状態との間に、モデル構築及びアライメントの複数の段階を含む。対照的に、Ｅ２Ｅシステムは、リカレントニューラルネットワークを使用し、コネクショニスト時系列分類（connectionist temporal classification）損失を通じてすべてのアライメントを合計するか、又はアテンション機構を通じて最適なアライメントを学習することによって、ワンショットで音響モデルを訓練する。

リカレントニューラルネットワーク（ＲＮＮ）は、人工ニューラルネットワークの１つのクラスであり、ノード間の接続が、シーケンスに沿った有向グラフを形成し、ネットワークが時系列に対して時間的な動的挙動を示すことを可能にする。フィードフォワード型のニューラルネットワークとは異なり、ＲＮＮは内部状態（メモリ）を用いて一連の入力を処理することができるので、セグメント化されていない、つながった手書き文字認識又は音声認識などのタスクにＲＮＮを適用することが可能になる。長・短期記憶（ＬＳＴＭ：Long Short-term Memory）ユニットは、リカレントニューラルネットワーク（ＲＮＮ）の代替層ユニットである。ＬＳＴＭユニットで構成されたＲＮＮは、ＬＳＴＭネットワークと呼ばれる。一般的なＬＳＴＭユニットは、セル、入力ゲート、出力ゲート、及び忘却ゲートで構成される。セルは任意の時間間隔にわたって値を記憶し、ゲートはセルに出入りする情報の流れを調整する。ゲート付きリカレントユニット（ＧＲＵ）は、リカレントニューラルネットワークにおけるゲート機構である。多声音楽のモデリング及び音声信号のモデリングに対するＧＲＵの性能は、ＬＳＴＭと同様であることが分かっている。しかしながらＧＲＵは、より小さいデータセットに対しては、より優れた性能を示す。ＬＳＴＭは、２つのＬＳＴＭネットワークからなり、含まれる各層が時間的に順方向及び逆方向に展開される、双方向（ＢＬＳＴＭ）とすることができる。Ｅ２ＥＡＳＲシステムの場合、ＢＬＳＴＭを音声アタランス（speech utterance）の長さ全体にわたって展開することができるので、ＢＬＳＴＭは長期コンテキストをよりよく捉えることが可能になり、これはアライメントが欠如している場合に特に有用である。

コネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）は、ニューラルネットワークの出力とそれに関連するスコアリング関数の１つのタイプであり、一般にＬＳＴＭネットワークなどのＲＮＮの訓練に使用され、入力シーケンスと出力シーケンスとの間の時間的アライメントが事前にわからないシーケンス問題（例えば、オンライン手書き文字認識又はスピーチオージオ（speech audio）における音素認識など）に対処するものである。ＣＴＣは、基礎となるニューラルネットワーク構造に依存しない。ＣＴＣネットワークの出力ラベルには、出力シーケンスに対してアライメントしない入力シーケンスのポイントを消費する付加的な「ブランク」又はガーベッジ記号が含まれる。ＣＴＣネットワークは、連続的な出力（例えばソフトマックス）を有し、これは訓練を通じてフィッティングされ、ラベルの確率をモデル化する。ＣＴＣスコアを逆伝播法と共に用いてニューラルネットワークの重みを更新することができる。

本発明の実施形態は、ソフト忘却（soft-forgetting）訓練のためのコンピュータ実施方法、コンピュータ・プログラム製品、及びシステムを開示する。コンピュータ実施方法は、１つ又は複数の訓練バッチを使用して第１のモデルを訓練する１つ又は複数のコンピュータプロセッサを含み、１つ又は複数の訓練バッチの各訓練バッチは１つ又は複数の情報ブロックを含む。１つ又は複数のコンピュータプロセッサは、第１のモデルを訓練することの完了に応答して、１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始する。１つ又は複数のコンピュータプロセッサは、第２のモデルの１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングする。１つ又は複数のコンピュータプロセッサは、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第２のモデルを展開する。１つ又は複数のコンピュータプロセッサは、第２のモデルを展開することに応答して、双正則化（twin regularization）を適用することによって第２のモデルの過剰適合を低減する。

１つの態様によれば、コンピュータ実施方法が提供され、この方法は、１つ又は複数のコンピュータプロセッサによって、１つ又は複数の訓練バッチを使用して第１のモデルを訓練することであって、１つ又は複数の訓練バッチの各訓練バッチは、１つ又は複数の情報ブロックを含む、訓練することと、第１のモデルを訓練することの完了に応答して、１つ又は複数のコンピュータプロセッサによって、１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始することと、１つ又は複数のコンピュータプロセッサによって、第２のモデルの１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングすることと、１つ又は複数のコンピュータプロセッサによって、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第２のモデルを展開することと、第２のモデルを展開することに応答して、１つ又は複数のコンピュータプロセッサによって、双正則化を適用することによって第２のモデルの過剰適合を低減することとを含む。

別の態様によれば、１つ又は複数のコンピュータ可読ストレージ媒体と、１つ又は複数のコンピュータ可読ストレージ媒体上に格納されたプログラム命令とを含むコンピュータ・プログラム製品が提供され、格納されたプログラム命令は、１つ又は複数の訓練バッチを使用して第１のモデルを訓練するプログラム命令であって、１つ又は複数の訓練バッチの各訓練バッチが１つ又は複数の情報ブロックを含む、プログラム命令と、第１のモデルを訓練することの完了に応答して、１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始するプログラム命令と、第２のモデルの１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第２のモデルを展開するプログラム命令と、第２のモデルを展開することに応答して、双正則化を適用することによって第２のモデルの過剰適合を低減するプログラム命令とを含む。

別の態様によれば、１つ又は複数のコンピュータプロセッサと、１つ又は複数のコンピュータ可読ストレージ媒体と、１つ又は複数のプロセッサの少なくとも１つによる実行のためにコンピュータ可読ストレージ媒体上に格納されたプログラム命令とを含むコンピュータシステムが提供され、格納されたプログラム命令は、１つ又は複数の訓練バッチを使用して第１のモデルを訓練するプログラム命令であって、１つ又は複数の訓練バッチの各訓練バッチが１つ又は複数の情報ブロックを含む、プログラム命令と、第１のモデルを訓練することの完了に応答して、１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始するプログラム命令と、第２のモデルの１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で第２のモデルを展開するプログラム命令と、第２のモデルを展開することに応答して、双正則化を適用することによって第２のモデルの過剰適合を低減するプログラム命令とを含む。

ここで、本発明の好ましい実施形態について、単なる例として、以下の図面を参照して説明する。
本発明の一実施形態による、計算環境を示す機能ブロック図である。本発明の一実施形態による、図１の計算環境内のサーバコンピュータ上のソフト忘却訓練プログラムのオペレーションステップを示すフローチャートである。本発明の一実施形態による、フローチャート２００のステップの例示的な図である、例示的な図３００を示す。本発明の一実施形態による、ベースラインモデル及びソフト忘却モデルの単語誤り率を図示する例示的な表である、例示的な表３２０を示す。本発明の一実施形態による、ベースラインモデル及びソフト忘却モデルの単語誤り率を図示する例示的な表である、例示的な表３３０を示す。本発明の実施形態による、複数のモデルの単語誤り率を図示する例示的な表である、例示的な表３４０を示す。本発明の一実施形態による、複数のモデルの単語誤り率を図示する例示的なグラフである、例示的なグラフ３５０を示す。本発明の一実施形態による、全アタランスＢＬＳＴＭ及びソフト忘却ＢＬＳＴＭのＣＴＣ損失を図示する例示的なグラフである、例示的なグラフ３６０を示す。本発明の一実施形態によるサーバコンピュータのコンポーネントのブロック図である。

コネクショニスト時系列分類（ＣＴＣ）ベースの自動音声認識システム（ＡＳＲ）は、音響シーケンスをそれぞれの音素に機械翻訳する際に一般に使用される。ＣＴＣベースの自動音声認識システムは、全音声アタランスにわたって展開される双方向長・短期記憶（ＢＬＳＴＭ）ネットワークを用いた場合に良好な性能を発揮する。しかしながら、一方向長・短期記憶（ＵＬＳＴＭ）ネットワークは、従来、ＢＬＳＴＭネットワークに比べて遅れをとっており、これは、ＵＬＳＴＭが時間的順方向のコンテキストのみを取り込むのに対し、ＢＬＳＴＭネットワークは時間的逆方向のコンテキストも取り込むためである。ＢＬＳＴＭネットワークは、一般に上記のタスクに対して良好に機能するが、厳密なＢＬＳＴＭネットワークは著しい過剰適合問題と、それに続く、誤り率の増大及び汎化適用性（generalization applicability）の低下とをもたらす。

本発明の実施形態は、ソフト忘却（soft-forgetting）訓練を使用して、基礎となるネットワークに大きな変更を加えることなく、分類精度を有意に向上させ、単語誤り率を低減させることができる。本発明の一実施形態において、ＢＬＳＴＭは、入力されたアタランス又は音響シーケンスの小さな非重複の情報ブロック又はチャンク上でのみ展開され、過剰適合を低減する。本発明の別の実施形態において、各バッチのチャンクサイズは、固定のグローバルチャンク値の代わりにランダムに割り当てられ、汎化性能を向上させる。本発明のさらに別の実施形態において、訓練済み全アタランスＢＬＳＴＭとソフト忘却ＢＬＳＴＭとの間の平均二乗誤差を使用して双正則化が適用され、アタランスレベルのコンテキスト情報を保持する。上記の実施形態は、ＣＴＣＡＳＲシステムのオフライン／非ストリーミング単語誤り率及びストリーミング単語誤り率の両方を有意に改善する。本発明の実施形態の実装は、様々な形態をとることができ、例示的な実装の詳細については、図を参照して後述する。

ここで、好ましい実施形態による本発明を、図を参照して詳細に説明する。

図１は、本発明の一実施形態による、全体が１００で示される計算環境を示す機能ブロック図である。本明細書で使用される「計算」という用語は、単一のコンピュータシステムとして互いに動作する複数の物理的に区別できるデバイスを含むコンピュータシステムを記述するものである。図１は、１つの実装の例示を提供するに過ぎず、異なる実施形態を実装することができる環境に関して、いかなる制限も意味するものではない。当業者であれば、特許請求の範囲に記載された本発明の範囲から逸脱することなく、図示される環境に多くの変更を加えることができる。

計算環境１００は、ネットワーク１０２に接続されたサーバコンピュータ１２０を含む。ネットワーク１０２は、例えば、通信ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネットなどの広域ネットワーク（ＷＡＮ）、又はこれら３つの組み合わせとすることができ、有線、無線、又は光ファイバ接続を含むことができる。ネットワーク１０２は、声、データ、及び映像情報を含むマルチメディア信号を含む、データ、声、もしくは映像信号又はそれらの組み合わせの送受信が可能な１つ又は複数の有線もしくは無線又はその組み合わせのネットワークを含むことができる。一般に、ネットワーク１０２は、サーバコンピュータ１２０と計算環境１００内のコンピューティングデバイス（図示せず）との間の通信をサポートする接続及びプロトコルの任意の組み合わせとすることができる。様々な実施形態において、ネットワーク１０２は、有線、無線、又は光接続を介してローカルに動作するものであり、接続とプロトコルとの任意の組み合わせ（例えば、パーソナルエリアネットワーク（ＰＡＮ）、近距離無線通信（ＮＦＣ）、レーザ、赤外線、超音波など）とすることができる。

サーバコンピュータ１２０は、独立型コンピューティングデバイス、管理サーバ、ウェブサーバ、モバイルコンピューティングデバイス、又はデータを受け取る、送る、及び処理することができる他のいずれかの電子デバイス又はコンピューティングシステムとすることができる。他の実施形態において、サーバコンピュータ１２０は、クラウドコンピューティング環境のように複数のコンピュータをサーバシステムとして使用するサーバコンピューティングシステムを表すことができる。別の実施形態において、サーバコンピュータ１２０は、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、スマートフォン、又はネットワーク１０２を介して計算環境１００内のコンピューティングデバイス（図示せず）と通信可能ないずれかのプログラム可能な電子デバイスとすることができる。別の実施形態において、サーバコンピュータ１２０は、計算環境１００内でアクセスされたときにシームレスなリソースの単一プールとして機能する、クラスタ化されたコンピュータ及びコンポーネント（例えば、データベースサーバコンピュータ、アプリケーションサーバコンピュータなど）を使用するコンピューティングシステムを表す。図示される実施形態において、サーバコンピュータ１２０は、データベース１２２及びプログラム１５０を含む。他の実施形態において、サーバコンピュータ１２０は、計算環境１００に図示されていない他のアプリケーション、データベース、プログラムなどを含むことができる。サーバコンピュータ１２０は、図４に関してさらに詳細に図示され説明されるように、内部及び外部のハードウェアコンポーネントを含むことができる。

データベース１２２は、プログラム１５０が使用するデータのリポジトリである。図示される実施形態において、データベース１２２は、サーバコンピュータ１２０上に常駐する。別の実施形態において、データベース１２２は、プログラム１５０がデータベース１２２にアクセスできることを条件に、コンピューティングデバイス１１０又は計算環境１００内の他の場所に常駐してもよい。データベースは、データの組織化されたコレクションである。データベース１２２は、プログラム１５０がアクセスして使用することができるデータ及び構成ファイルを格納することができる、データベースサーバ、ハードディスクドライブ、又はフラッシュメモリなど、いずれかのタイプのストレージデバイスで実装することができる。一実施形態において、データベース１２２は、プログラム１５０によって用いられる、訓練セット、ラベル分布データ及びチャート、並びに履歴モデル精度及び性能統計量などのデータを格納する。図示される実施形態において、データベース１２２は、訓練コーパス１２４及び認知モデル１２６を含む。

訓練コーパス１２４は、以下、訓練文と呼ばれる、分類された（例えば、ラベル付きの）データの１つ又は複数のインスタンスの１つ又は複数のセットを含むことができる。一実施形態において、各訓練セットは、１つ又は複数のモデルを訓練するために使用することができる、ラベル（例えば、文字列、テキストシーケンス、文字など）と、関連付けられた訓練文のアレイ又はセットとを含む。さらなる実施形態において、訓練コーパス１２４は、ベクトル化された（すなわち、ワンホット符号化、単語埋め込み、次元縮小など）訓練セットと関連付けられた訓練文とを含む。様々な実施形態において、訓練コーパス１２４は、可聴形式又は記述形式の完全又は部分的アタランスを含む。この実施形態において、アタランスは、オーディオ特徴ベクトルの連続的なシーケンスである。

モデル１２６は、１つ又は複数の認知モデルを使用して、１つ又は複数の問題インスタンス（例えば、自然言語文、テスト文、アタランス、連続的な時間ステップデータなど）を分類する。一実施形態において、モデル１２６は、転送可能なニューラルネットワークアルゴリズム及びモデル（例えば、長・短期記憶（ＬＳＴＭ）、双方向長・短期記憶（ＢＬＳＴＭ）、ディープスタッキングネットワーク（ＤＳＮ）、ディープビリーフネットワーク（ＤＢＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、複合階層型ディープモデルなど）を使用する。図示される実施形態において、モデル１２６は、１つ又は複数のＢＬＳＴＭを使用する。さらなる実施形態において、上記ＢＬＳＴＭは、特徴データのベクトル化された訓練セットをモデル１２６に供給する、教師付き訓練方法を使用して訓練される。様々な実施形態において、特徴は関連するクラスでラベル付けされており、モデル１２６が、使用前に、どの特徴が特定のクラスに相関しているかを学習できるようになっている。モデル１２６は、ラベル又はクラス間の違いを認識するように訓練される。モデル１２６は、訓練セットを使用して、問題インスタンス（例えば、アタランスなど）が特定のラベル又はクラスに属する確率を示す、確率のセットを生成する。この実施形態において、モデル１２６は、構造化データ又は非構造化データとして利用可能な異なる特徴を考慮して、問題インスタンス（例えば、問題、訓練ベクトル又は文など）を分類（例えば、ラベル付け）する。一実施形態において、モデル１２６は、オーディオ特徴のシーケンス（例えば、ベクトル）を入力し、各シーケンスに対する音素ラベルを出力する。モデル１２６の訓練は、図２に関して図示され、さらに詳細に説明される。

プログラム１５０は、ソフト忘却を使用して１つ又は複数のモデルを訓練する。様々な実施形態において、プログラム１５０は、以下のステップを実装することができる。プログラム１５０は、１つ又は複数のモデルの訓練要求を受け取った後に開始する。一実施形態において、プログラム１５０は、１つ又は複数の訓練セットを受け取った又は取得した後に開始する。プログラム１５０は、訓練データのセットを取得する。プログラム１５０は、１つ又は複数の全アタランス双方向長・短期記憶ネットワークを訓練する。プログラム１５０は、１つ又は複数のソフト忘却双方向長・短期記憶ネットワークの訓練を始める。プログラム１５０は、１つ又は複数のソフト忘却双方向長・短期記憶ネットワークを展開することによって、訓練プロセスを続ける。プログラム１５０は、１つ又は複数のソフト忘却双方向長・短期記憶ネットワークのチャンクサイズをジッタリングする。プログラム１５０は、１つ又は複数のソフト忘却双方向長・短期記憶ネットワークの双正則化において、１つ又は複数の訓練済み全アタランス双方向長・短期記憶ネットワークを使用する。図示される実施形態において、プログラム１５０は、独立型ソフトウェアプログラムである。別の実施形態において、プログラム１５０の機能、又はそのプログラムのいずれかの組み合わせを、単一のソフトウェアプログラムに統合することができる。幾つかの実施形態において、プログラム１５０は、別々のコンピューティングデバイス（図示せず）に配置されていてもよいが、それでもなおネットワーク１０２を介して通信することができる。様々な実施形態において、クライアントバージョンのプログラム１５０は、計算環境１００内のコンピューティングデバイス（図示せず）に常駐する。プログラム１５０は、図２に関して図示され、さらに詳細に説明される。

本発明は、好ましい実施形態によれば、個人的なデータ、コンテンツ、又はユーザが処理されないことを望む情報が含まれる可能性がある、データベース１２２などの様々なアクセス可能なデータソースを含むことがある。個人データには、個人識別情報又はセンシティブな個人情報、並びにトラッキング情報又はジオロケーション情報などのユーザ情報が含まれる。処理とは、個人データに対して行われる収集、記録、整理、構造化、格納、適応、変更、取得、相談、使用、送信による開示、普及、又はその他の方法で利用可能にすること、組み合わせ、制限、消去、又は破壊などの、あらゆる自動化された又は自動化されていないオペレーション又はオペレーションのセットを指す。プログラム１５０は、個人データの承認されたセキュアな処理を可能にする。プログラム１５０は、個人データの収集を通知する、説明に基づく同意（インフォームドコンセント）を提供し、ユーザが個人データの処理をオプトイン又はオプトアウトできるようにする。同意には幾つかの形態がある。オプトイン同意は、個人データが処理される前に、ユーザがアファーマティブアクションを取ることを課すことができる。代替的に、オプトアウト同意は、個人データが処理される前に、個人データの処理を妨げるためにユーザがアファーマティブアクションを取ることを課すことができる。プログラム１５０は、個人データ及び処理の性質（例えば、タイプ、範囲、目的、期間など）に関する情報を提供する。プログラム１５０は、格納された個人データのコピーをユーザに提供する。プログラム１５０は、不正確又は不完全な個人データの修正又は補完を可能にする。プログラム１５０は、個人データの即時削除を可能にする。

図２は、本発明の一実施形態による、モデルをソフト忘却訓練するプログラム１５０のオペレーションステップを示すフローチャートである。

プログラム１５０は、訓練データのセットを取得する（ステップ２０２）。一実施形態において、プログラム１５０は、訓練セットに関連付けられた複数のアタランス、音響シーケンス、もしくは文又はそれらの組み合わせを取得する。一例において、プログラム１５０は、３００時間の英語Ｓｗｉｔｃｈｂｏａｒｄ（ＳＷＢ）データセットを訓練データのセットとして使用し、プログラム１５０は、上記訓練データを使用して、１つ又は複数の不特定話者（ＳＩ）モデル及び話者適応（ＳＡ）モデルを訓練する。この例示的な実施形態において、ＳＩモデルは、話者ごとのケプストラム平均減算（ＣＭＳ）を伴い、声道正規化（ＶＴＬＮ）を伴わない、４０次元ｌｏｇＭｅｌ特徴を用いた。ＳＡモデルは、話者ごとのＣＭＳ及びＶＬＴＮを伴う４０次元ｌｏｇＭｅｌ特徴、４０次元特徴空間最尤線形回帰（ＦＭＬＬＲ）特徴、及び１００次元ｉベクトルを用いた。別の実施形態において、プログラム１５０は、取得した訓練データのセット（例えば、アタランス、音響シーケンスなど）を処理して複数のサブセット（例えば、情報のチャンク、ブロック）にする。さらに別の実施形態において、プログラム１５０は、履歴アタランスを、同じアタランスの異なる処理バージョンを含む離散的なセットに区分する。様々な実施形態において、プログラム１５０は、所定のアタランス間隔を使用してアタランスの境界を定義する。この実施形態において、プログラム１５０は、アタランスを時間的制約によって定義される１つ又は複数のセットに区分する。一実施形態において、プログラム１５０は、訓練データのセットと区分されたアタランス／ラベルのセットとをベクトル化する。様々な実施形態において、プログラム１５０は、訓練データを、訓練データのサブセットを含む１つ又は複数の訓練バッチにセグメント化する。この実施形態において、プログラム１５０はバッチをランダムに作成することもでき、又はプログラム１５０はユーザからバッチサイズを取得することもできる。

プログラム１５０は、全アタランス双方向長・短期記憶ネットワークを訓練する（ステップ２０４）。プログラム１５０は、ステップ２０２で詳述された取得した訓練データのセットを使用して、１つ又は複数の全アタランスＢＬＳＴＭ（例えば、モデルの第１のセット）を訓練する。一実施形態において、プログラム１５０は、ラベル付きのベクトル化された訓練データを用いて、教師付き訓練を行う。例えば、プログラム１５０は、アタランス／ラベルの対をモデル１２６に供給して、プログラム１５０が訓練データ（例えば、アタランス）と分類データ（すなわち、ラベル）との間の推論を行うことを可能にする。一実施形態において、プログラム１５０は、テストセットを使用することによって、十分な精度が得られるかどうかを判断する。ＢＬＳＴＭは、モデルのパラメータを同じに保持したままで、一連のデータ（ｘ_１、ｘ_２．．．，ｘ_ｔ）を処理して、後続の隠れ状態を計算する。一例において、プログラム１５０は、順方向及び逆方向の各々に５１２個の隠れニューロンを有する６層ＢＬＳＴＭネットワークを訓練する。さらなる例において、６層ＢＬＳＴＭは、線形層及びソフトマックス層を通して４４個の音素とブランク記号とを表す４５次元事後確率ベクトルにマッピングされた、１０２４次元隠れベクトルを出力する。様々な実施形態において、教師付き訓練は、予測と目標との間の差（すなわち、誤り）を判定し、層を通してこの差を逆伝播して、モデル／ネットワークが「学習する」ようにする。一実施形態において、プログラム１５０は、逆伝播を実装するために、同期式（synchronous）確率的勾配降下法（ＳＧＤ）などの確率的勾配アルゴリズムを使用する。一実施形態において、プログラム１５０は、損失関数として次式を使用する。

（１）Ｌ_ｔｏｔ（ｙ｜ｘ，Θ_ｆ，Θ_ｆ）＝Ｌ_{ＣＴＣ－ｆ}（ｙ｜ｘ，Θ_ｆ）＋Ｌ_{ＣＴＣ－ｂ}（ｙ｜ｘ，Θ_ｂ）＋λＬ_ｔｗｉｎ（ｈ_ｆ，ｈ_ｂ｜Θ_ｆ，Θ_ｂ）

式（１）に関して、双正則化損失は、ＬＳＴＭの隠れ表現ｈ_ｆとｈ_ｂとの間の平均二乗誤差である。Θ_ｆ及びΘ_ｂは、それぞれ順方向及び逆方向のＵＬＳＴＭネットワークのパラメータを表し、ｘ及びｙは入力音響シーケンス及び出力ラベルシーケンスであり、スケーリング因子としてλ＞０である。

プログラム１５０は、ＣＴＣ又は交差エントロピーコストを調整するために学習率を修正して、プログラム１５０が関連するセル及び層の適応性を増大又は低減させることを可能にすることができる。例えば、プログラム１５０は、学習率０．０４、ネステロフ運動量０．９、及びバッチサイズ１２８を使用する。プログラム１５０は、最初の１０エポック後、エポックごとに√０．０５ずつ上記学習率を修正する。一実施形態において、プログラム１５０は、現在のアタランスのｌｏｇＭｅｌ特徴シーケンスと、訓練コーパス１２４内に含まれる訓練データのセットからランダムにサンプリングされたアタランスとに対してｌｏｇ－ｓｕｍ－ｅｘｐを実行する、シーケンスノイズ注入を追加する。別の実施形態において、プログラム１５０は、２つのハイパーパラメータである、ランダムにサンプリングされたアタランスの特徴に対する重みと、シーケンスノイズを注入する確率とを使用する。一例において、プログラム１５０は、計算されたホールドアウトＣＴＣ損失に基づいて、ＳＩモデルのハイパーパラメータに０．４の値を使用し、ＳＡモデルのハイパーパラメータに０．２／０．４の値を使用する。様々な実施形態において、プログラム１５０は、訓練中、全アタランスＢＬＳＴＭの重みを固定して保持する。

プログラム１５０は、チャンクベースの双方向長・短期記憶ネットワークを展開する（ステップ２０６）。プログラム１５０は、１つ又は複数のチャンクベースＢＬＳＴＭネットワーク（例えば、モデルの第２のセット）のソフト忘却訓練を開始する。プログラム１５０は、１つ又は複数のチャンクベースＢＬＳＴＭを同時に訓練及び展開して、その時間ステップでの前の隠れ状態及び入力を取って、次の一連の時間ステップの入力を生成し、情報がネットワークを通じて流れることを可能にするので、最後のセルは、前のすべてのセルに由来する情報を含むことになる。プログラム１５０は、入力音響シーケンス（例えば、アタランス）のＣ個の連続した時間ステップの１つ又は複数の非重複ウィンドウを識別する。一実施形態において、プログラム１５０は、入力音響シーケンスのＣ個の連続した時間ステップの識別された非重複ウィンドウ上で、１つ又は複数のチャンクベースＢＬＳＴＭを展開するのみである。従来、全アタランス（例えば、ソフト忘却なし）ＢＬＳＴＭは、特に訓練データが限られている場合に、訓練データを過剰適合する。別の実施形態において、プログラム１５０は、Ｃ時間ステップごとに隠れ状態及びセル状態をゼロに設定する。この実施形態において、Ｃは、ホールドアウト（例えば、テストアタランス）ＣＴＣ損失から経験的に計算される。一例において、チャンクサイズは、５スタックフレームのステップで、５から５０スタックフレーム（１００ミリ秒から１秒）の範囲とすることができる。

プログラム１５０は、チャンクベース双方向長・短期記憶ネットワークのチャンクサイズをジッタリングする（ステップ２０８）。プログラム１５０は、ステップ２０２で説明したような訓練データのセット、及びステップ２０４で使用した訓練技術を利用して、ステップ２０６で参照したような１つ又は複数のチャンクベースＢＬＳＴＭを訓練する。一実施形態において、プログラム１５０は、各訓練シーケンスを、コンテキスト的観測を付加した短いチャンク又はブロック（例えば、持続時間）に分割する。様々な実施形態において、プログラム１５０は、１つの訓練バッチから次の訓練バッチへとＣを摂動させる。この摂動は、モデルの汎化性能を向上させる。一実施形態において、プログラム１５０は、訓練中の各バッチのチャンクサイズにジッタを加えることによって、Ｃを摂動させる。様々な実施形態において、プログラム１５０は、チャンクサイズをランダムに割り当てる（例えば、摂動させる、ジッタリングする）。この実施形態において、Ｃは、訓練中のバッチ間でランダムに割り当てられる。一例において、プログラム１５０は、各バッチのチャンクサイズＣ_{ｂａｔｃｈ}を以下のようにジッタリングする：Ｃ_{ｂａｔｃｈ}＝Ｃ＋ｕ、ここでｕ～Ｕ（－Ａ，Ａ）は、［－Ａ，Ａ］にわたって一様に離散した確率変数である。上記例から続けて、プログラム１５０は、訓練バッチにわたって区間Ｕ（－２，２）間でジッタリングする。この例において、プログラム１５０は、４０スタックフレームのチャンクサイズを選択する。さらなる実施形態において、プログラム１５０は、ホールドアウト（例えば、アタランスのテスト又は検証セット）ＣＴＣ損失からＡを経験的に計算する。

プログラム１５０は、双正則化をチャンクベース双方向長・短期記憶ネットワークに適用する（ステップ２１０）。双正則化は、順方向の隠れ状態を、時間的に逆方向に進むツインネットワーク（例えば、全アタランスＢＬＳＴＭ）によって計算された共時的（にcotemporally）逆方向の状態に可能な限り近づける、正則化項を追加する。ＣＴＣ損失に加えて、プログラム１５０は、双正則化損失を１つ又は複数のチャンクベースＢＬＳＴＭの訓練に加える。一実施形態において、双正則化損失は、ステップ２０４で説明したような訓練済み全アタランスＢＬＳＴＭネットワークの隠れ状態間の平均二乗誤差である。ソフト忘却の全損失関数は以下の通りである。

（２）Ｌ_ｔｏｔ（ｙ｜ｘ，Θ）＝Ｌ_ＣＴＣ（ｙ｜ｘ，Θ）＋λＬ_ｔｗｉｎ（ｈ，ｈ_{ｗｈｏｌｅ}｜Θ）

式（２）に関して、Ｌ_ｔｏｔは、ＣＴＣ損失と、全アタランスＢＬＳＴＭを使用した双正則化損失との和に相当する。λをゼロに設定すると、隠れ状態又はセル状態情報がチャンク間で転送されないハード忘却が得られる。一実施形態において、プログラム１５０は、λを非ゼロ値に設定し、λがゼロ値の場合（例えば、ハード忘却）と比べて単語誤り率（ＷＥＲ）を有意に改善する。この実施形態において、ソフト忘却は、双正則化を通じて、ある程度の全アタランスコンテキストを保持する。全アタランスＢＬＳＴＭの重みは、訓練プロセス中、固定されたままとした。様々な実施形態において、チャンクベースＢＬＳＴＭネットワークが訓練を完了すると、プログラム１５０は、全アタランスＢＬＳＴＭネットワークを破棄（例えば、処分、排除、削除など）し、変更なしで干渉を行う。

様々な実施形態において、ソフト忘却ＢＬＳＴＭネットワークが訓練を完了すると、プログラム１５０は、全アタランスＢＬＳＴＭネットワークを破棄し、変更なしで干渉を行う。一実施形態において、プログラム１５０は、１つ又は複数のソフト忘却ＢＬＳＴＭを実働環境又はサーバに送信もしくはインストールし又は送信及びインストールする。様々な実施形態において、プログラム１５０は、複数のソフト忘却ＢＬＳＴＭを選択し、モデルを同じ実働環境に配置するか、又はモデルを複数のそれぞれの実働環境、テスト環境、又は補助環境に配置することができる。一実施形態において、プログラム１５０は、１つ又は複数の訓練済みソフト忘却ＢＬＳＴＭをホストし（例えば、アクセス及び使用を可能にし）、アプリケーション及びプログラム（図示せず）がモデルにアクセスできるようにする。この実施形態において、上記アプリケーション及びプログラムは、入力を上記の訓練済みソフト忘却ＢＬＳＴＭに供給することができ、関連付けられた出力を受け取る又は要求することができる。

したがって、図２のオペレーションステップを実行することによって、プログラム１５０は、１つ又は複数のソフト忘却ＢＬＳＴＭを訓練する。プログラム１５０は、１つ又は複数の全アタランスＢＬＳＴＭを訓練する（例えば、事前訓練する）。プログラム１５０は、１つ又は複数のチャンクベースＢＬＳＴＭを初期化することによって、１つ又は複数のソフト忘却ＢＬＳＴＭの訓練を開始する。この実施形態において、ソフト忘却ＢＬＳＴＭは、全アタランスＢＬＳＴＭに起因する過剰適合問題を低減する。プログラム１５０は、チャンクサイズにジッタ（例えば、ランダム性）を加え、モデルの汎化性能を向上させる。この実施形態において、チャンクサイズをジッタリングすることで、固定サイズのチャンクをモデルが記憶すること（memorization）を防止する。プログラム１５０は、訓練済み全アタランスＢＬＳＴＭを使用して、双正則化及びＣＴＣ損失を適用し、アタランスレベルのコンテキスト情報の保持を可能にする。

図３Ａは、ソフト忘却訓練プロセスの例示の図である、例示的な図３００を示す。例示的な図３００は、ソフト忘却なしで訓練された例示的なＢＬＳＴＭである、事前訓練済み全アタランスＢＬＳＴＭネットワーク３０２と、ソフト忘却を用いて訓練された例示的なＢＬＳＴＭである、チャンクベースＢＬＳＴＭネットワーク３０４と、スペクトログラムとして表現されたアタランスである音響特徴シーケンス３０６と、ＢＬＳＴＭネットワークの構成要素である順方向ＬＳＴＭネットワーク３０８と、ＢＬＳＴＭネットワークの構成要素である逆方向ＬＳＴＭネットワーク３１０と、前のネットワークの出力を含む層であるＬＳＴＭ出力３１２と、入力と出力との間の変化に適合するように修正される適応層である線形層３１４と、ステップ２１０で説明した手順を例示する双正則化３１６と、音響特徴シーケンス３０６の記号的等価物である真の記号シーケンス３１８とを含む。

図３Ｂは、例示的な表３２０を示し、これは、Ｈｕｂ５－２０００Ｓｗｉｔｃｈｂｏａｒｄ（ＳＷＢ）及びＣａｌｌＨｏｍｅ（ＣＨ）訓練セットで訓練された１つ又は複数の全アタランス及びソフト忘却ＢＬＳＴＭの単語誤り率（ＷＥＲ）を示す表である。例示的な表３２０は、全アタランス訓練済みネットワークは過剰適合し、その一方、ソフト忘却訓練済み（例えば、チャンクベース）ネットワークは過剰適合しないことを実証する。

図３Ｃは、例示的な表３３０を示し、これは、不特定話者モデル及び話者適応モデルのセットについての単語誤り率（ＷＥＲ）を示す表であり、各々が、Ｈｕｂ５－２０００Ｓｗｉｔｃｈｂｏａｒｄ（ＳＷＢ）、ＣａｌｌＨｏｍｅ（ＣＨ）、ＲＴ０２、ＲＴ０３、及びＲＴ０４訓練セットで訓練されたベースラインモデル（例えば、全アタランスＢＬＳＴＭ）及びソフト忘却モデル（例えば、チャンクベースＢＬＳＴＭ）を含む。例示的な表３３０では、ソフト忘却モデルがそれぞれのベースラインモデルに対して絶対値で０．９％及び１．６％の改善を示す。

図３Ｄは、例示的な表３４０を示し、これは、Ｈｕｂ５－２０００Ｓｗｉｔｃｈｂｏａｒｄ（ＳＷＢ）及びＣａｌｌＨｏｍｅ（ＣＨ）訓練セットで訓練された複数の従来型モデルの単語誤り率を示す例示的なチャートである。記号「＊」で示されるモデルは速度摂動を使用し、記号「＋」で示されるモデルはバイト対符号化を使用した。

図３Ｅは、例示的なグラフ３５０を示し、これは、チャンクベースＢＬＳＴＭ、ソフト忘却ＢＬＳＴＭ、全アタランスＢＬＳＴＭ、及び双正則化を伴うＵＬＳＴＭを含む複数のモデルの単語誤り率を示すグラフである。

図３Ｆは、例示的なグラフ３６０を示し、これは、全アタランス訓練済みＢＬＳＴＭ及びソフト忘却を使用して訓練されたチャンクベースＢＬＳＴＭのＣＴＣ損失を示すグラフである。例示的なグラフ３６０は、全アタランスＢＬＳＴＭグラフ３６２及びソフト忘却ＢＬＳＴＭグラフ３６４を含む。

さらなるコメントもしくは実施形態又はその両方
本発明の幾つかの実施形態は、技術の現状に対する改善について、以下の事実、潜在的な問題もしくは潜在的な領域又はそれらの組み合わせを認識する。

ＣＴＣベースの自動音声認識システムは、全音声アタランスにわたって展開される双方向長・短期記憶（ＢＬＳＴＭ）ネットワークを用いた場合に良好に機能する。本発明の幾つかの実施形態は、全アタランスＢＬＳＴＭは長期コンテキストをよりよく捉えるが、過剰適合をもたらすことを認識する。本発明の実施形態は、解決策としてソフト忘却を提案する。訓練中、本発明の幾つかの実施形態は、入力アタランスの小さな非重複チャンク上でのみＢＬＳＴＭを展開する。本発明の幾つかの実施形態は、固定されたグローバルチャンクサイズの代わりに、各バッチのチャンクサイズをランダムに選択する。ある程度のアタランスレベルの情報を保持するために、本発明の幾つかの実施形態は、ＢＬＳＴＭの隠れ状態が事前訓練済み全アタランスＢＬＳＴＭのものを近似することを奨励する。本発明の幾つかの実施形態は、３００時間の英語Ｓｗｉｔｃｈｂｏａｒｄデータセットを使用して、ソフト忘却が、競合する全アタランス・フォンＣＴＣ（ｐｈｏｎｅＣＴＣ）ＢＬＳＴＭよりも単語誤り率（ＷＥＲ）を平均７－９％改善することを示す。本発明の幾つかの実施形態では、それぞれＨｕｂ５－２０００Ｓｗｉｔｃｈｂｏａｒｄ／ＣａｌｌＨｏｍｅテストセットに対して、不特定話者モデルを用いて９．１％／１７．４％、話者適応モデルを用いて８．７％／１６．８％のＷＥＲがそれぞれ得られた。本発明の幾つかの実施形態は、ソフト忘却が、モデルがストリーミング認識のための限られた時間的コンテキストと共に用いられる場合にＷＥＲを改善することを認識する。最後に、本発明の幾つかの実施形態は、ソフト忘却の正則化及びデータ拡張効果に関して経験的な洞察を提示する。

本発明の幾つかの実施形態は、エンドツーエンド（Ｅ２Ｅ）自動音声認識（ＡＳＲ）システムが最近の重要な研究対象となっていることを認識する。こうしたシステムは、従来のハイブリッドＡＳＲシステムの複雑な訓練及び推論パイプラインを簡素化することを目的としている。ハイブリッドシステムは、ガウス混合モデル、隠れマルコフモデル（ＨＭＭ）、及び様々なニューラルネットワークを組み合わせたものであり、一連の音声特徴とＨＭＭコンテキスト依存状態との間に、モデル構築及びアライメントの複数の段階を含む。対照的に、エンドツーエンドシステムは、リカレントニューラルネットワークを使用し、コネクショニスト時系列分類（ＣＴＣ）損失を通じてすべてのアライメントを合計するか、又はアテンション機構を通じて最適なアライメントを学習することによって、ワンショットで音響モデルを訓練する。本発明の幾つかの実施形態は、Ｅ２ＥシステムとハイブリッドＡＳＲシステムとの間の単語誤り率（ＷＥＲ）のギャップが経時的に低減することを認識する。

本発明の幾つかの実施形態は、長・短期記憶（ＬＳＴＭ）隠れユニットを有するリカレントニューラルネットワークが、ＡＳＲシステム用に選択されるニューラルネットワークであると認識する。双方向ＬＳＴＭ（ＢＬＳＴＭ）ネットワークは特に普及しており、時間的に順方向及び逆方向に展開される、各層の２つのＬＳＴＭネットワークから構成される。Ｅ２ＥＡＳＲシステムの場合、ＢＬＳＴＭネットワークは音声アタランスの全長に渡って展開される。全アタランス展開は、ＢＬＳＴＭが長期コンテキストをよりよく捉えることを可能にし、このことはアライメントが欠如している場合に特に有用である。長期コンテキストを記憶するための制御は、ＬＳＴＭセルの４つの訓練可能なゲート（入力、忘却、セル、出力）に委ねられる。本発明の幾つかの実施形態は、この情報処理動作を制御するために、ＬＳＴＭセルの構造的変形を認識する。

本発明の幾つかの実施形態は、ＢＬＳＴＭの全アタランス展開は、ドロップアウトのような周知の正則化技術の存在下でも、過剰適合につながることを認識する。これは、例えば数百時間の音声といった限られた訓練データが与えられたＥ２ＥＡＳＲシステムのＷＥＲに特に悪影響を与える。本発明の幾つかの実施形態は、この過剰適合を抑制するためにソフト忘却を使用する。最初に、本発明の幾つかの実施形態は、ＢＬＳＴＭを、全アタランスではなく、入力音響アタランスの小さい非重複チャンク上でのみ展開する。順方向ＬＳＴＭネットワーク及び逆方向ＬＳＴＭネットワークの隠れ状態及びセル状態は、チャンクの境界でゼロにリセットされる。固定サイズのチャンクの記憶を防止するために、本発明の幾つかの実施形態は、訓練中にバッチ間でチャンクサイズをランダムに摂動させる。最後に、本発明の幾つかの実施形態は、ある程度のアタランスレベルのコンテキストを保持するために、双正則化を用いる。双正則化は、チャンク化ＢＬＳＴＭモデルと事前訓練済み全アタランスＢＬＳＴＭモデルとの隠れ状態間の平均二乗誤差を、ＣＴＣ損失に加える。本発明の幾つかの実施形態は、双正則化が、チャンク間でコンテキストがある程度記憶されることを促進することを認識する。

本発明の幾つかの実施形態は、主にストリーミング推論のために、ＣＴＣＡＳＲモデルのチャンク訓練を検討してきた。しかしながら、ソフト忘却は、付加的にチャンクジッタ及び双正則化を組み込み、ＣＴＣＡＳＲシステムのオフライン／非ストリーミングＷＥＲとストリーミングＷＥＲとの両方を有意に改善する。本発明の幾つかの実施形態は、３００時間の英語Ｓｗｉｔｃｈｂｏａｒｄデータセットを使用して、幾つかのテストセットにわたって、ソフト忘却が、競合するフォンＣＴＣベースラインに対してＷＥＲを有意に７－９％改善することを示す。本発明の幾つかの実施形態は、ソフト忘却の正則化及びデータ拡張効果に関して経験的な証拠を提示する。

本発明の幾つかの実施形態は、ＵＬＳＴＭネットワークがＡＳＲＷＥＲの点でＢＬＳＴＭネットワークに遅れることを認識しており、これは、ＵＬＳＴＭネットワークが時間的に順方向のコンテキストのみを取り込むのに対して、ＢＬＳＴＭネットワークは時間的に逆方向のコンテキストを付加的に取り込むためである。双正則化は、その本来の形において、時間的に順方向及び時間的に逆方向に独立して動作する２つのＵＬＳＴＭネットワークを共同で訓練する。全訓練損失は、

（１）Ｌ_ｔｏｔ（ｙ｜ｘ，Θ_ｆ，Θ_ｆ）＝Ｌ_{ＣＴＣ－ｆ}（ｙ｜ｘ，Θ_ｆ）＋Ｌ_{ＣＴＣ－ｂ}（ｙ｜ｘ，Θ_ｂ）＋λＬ_ｔｗｉｎ（ｈ_ｆ，ｈ_ｂ｜Θ_ｆ，Θ_ｂ）

であり、ここで双正則化損失は、ＬＳＴＭの隠れ表現ｈ_ｆとｈ_ｂとの間の平均二乗誤差

（３）Ｌ_ｔｗｉｎ（ｈ_ｆ，ｈ_ｂ｜Θ_ｆ，Θ_ｂ）＝｜｜ｈ_ｆ－ｈ_ｂ｜｜^２ _２

であり、ここでΘ_ｆ及びΘ_ｂはそれぞれ順方向及び逆方向のＵＬＳＴＭネットワークのパラメータを表し、ｘ及びｙは入力音響シーケンス及び出力ラベルシーケンスであり、λ＞０はスケーリング因子である。

図３Ａは、以下の要素を含むソフト忘却のブロック図を示す。
・チャンクベースＢＬＳＴＭネットワーク：ソフト忘却は、入力音響シーケンスのＣ個の連続した時間ステップの非重複ウィンドウ上でのみ展開されるＢＬＳＴＭを訓練する。この選択の背景にある直感は、全アタランスＢＬＳＴＭは、特に訓練データが限られている場合に過剰適合する傾向があるということである。Ｃ時間ステップごとに隠れ状態及びセル状態を０に設定することで、この過剰適合が緩和される。本発明の幾つかの実施形態は、ホールドアウトＣＴＣ損失に基づいて経験的にＣを選ぶ。
・チャンクサイズのジッタ：本発明の幾つかの実施形態は、あるバッチから次のバッチへとＣを摂動させることで、モデルの汎化性能が向上することを認識する。本発明の幾つかの実施形態は、ジッタの付加がデータ拡張効果を有することを認識する。本発明の幾つかの実施形態は、各バッチのチャンクサイズＣ_{ｂａｔｃｈ}をＣ_{ｂａｔｃｈ}＝Ｃ＋ｕとなるようにジッタリングし、ここでｕ＝Ｕ（Ａ，Ａ）は、［Ａ，Ａ］にわたって一様分布した離散ランダム変数である。本発明の幾つかの実施形態は、ホールドアウトＣＴＣ損失に基づいて経験的にＡを選ぶ。
・双正則化：ある程度のアタランスレベルのコンテキストを組み込むために、本発明の幾つかの実施形態は、ＣＴＣ損失に加えて双正則化損失を追加する。この損失は、事前訓練済み全アタランスＢＬＳＴＭネットワークと現在訓練されているチャンクベースＢＬＳＴＭネットワークとの隠れ状態間の平均二乗誤差である。本発明の幾つかの実施形態は、両方のモデルが共同で訓練される双正則化の本来の形とは対照的に、訓練中、全アタランスＢＬＳＴＭの重みは固定したまま保持される。

したがって、ソフト忘却の全損失関数は

（２）Ｌ_ｔｏｔ（ｙ｜ｘ，Θ）＝Ｌ_ＣＴＣ（ｙ｜ｘ，Θ）＋λＬ_ｔｗｉｎ（ｈ，ｈ_{ｗｈｏｌｅ}｜Θ）

であり、λ＝０と設定すると、隠れ状態又はセル状態情報がチャンク間で転送されないハード忘却が得られる。本発明の幾つかの実施形態は、非ゼロ値のλが、λ＝０と比べて有意に改善されたＷＥＲをもたらすことを認識しており、双正則化を通じてある程度の全アタランスコンテキストを保持することの価値を示している。

本発明の幾つかの実施形態は、ＢＬＳＴＭのチャンク化訓練は、チャンク単位のアライメントを必要とせず、ＢＬＳＴＭネットワークを通じて順方向パスにのみ影響を与えることを認識する。本発明の幾つかの実施形態は、各々がＮ個のチャンクを有するＢ個のアタランスのバッチをＢＮ個の小さなアタランスのバッチとして認識する。本発明の幾つかの実施形態は、得られたチャンク単位の事後ベクトルを再形成して、元の全アタランスに対する事後シーケンスを構築し、これを用いてＣＴＣ損失を計算する。チャンクベースＢＬＳＴＭネットワークがソフト忘却を用いて訓練されると、本発明の幾つかの実施形態は、全アタランスＢＬＳＴＭネットワークを破棄し、修正なしで推論を行う。

本発明の幾つかの実施形態は、３００時間の英語Ｓｗｉｔｃｈｂｏａｒｄタスクを使用して、不特定話者（ＳＩ）モデル及び話者適応（ＳＡ）モデルの両方を訓練した。ＳＩモデルは、話者ごとのケプストラム平均減算（ＣＭＳ）を用いた、声道長正規化（ＶＴＬＮ）を用いない４０次元ｌｏｇＭｅｌ特徴を使用する。ＳＡモデルは、特徴融合システムと同様に、話者ごとのＣＭＳ及びＶＴＬＮを用いた４０次元ｌｏｇＭｅｌ特徴、４０次元特徴空間最尤線形回帰（ＦＭＬＬＲ）特徴、及び１００次元ｉ－ベクトルを使用する。

本発明の幾つかの実施形態は、順方向及び逆方向にそれぞれ５１２の隠れニューロンを有するＰｙＴｏｒｃｈの複数の６層ＢＬＳＴＭネットワークを訓練する。出力の１０２４次元隠れベクトルは、線形層及びソフトマックスを通じて、４４のフォン及びブランク記号を表す４５次元の事後確率ベクトルにマッピングされる。本発明の幾つかの実施形態は、ｌｏｇＭｅｌ特徴に対してデルタとダブルデルタを使用し、ｌｏｇＭｅｌ及びＦＭＬＬＲ特徴に対してレート２でフレームスタッキング及びスキッピングを使用するモデルを含む。この結果、ＳＩモデルで２４０次元入力音響特徴、ＳＡモデルで４２０次元入力音響特徴が得られる。４－ｇｍＬＭは、３０ｋ単語の語彙を有するＳＷＢ＋Ｆｉｓｈｅｒコーパスからの全テキストに対して訓練を行う。

本発明の幾つかの実施形態は、４つのＶ１００ＧＰＵ上で、学習率０．０４、ネステロフ運動量０．９、及びバッチサイズ１２８で、同期式確率的勾配降下法（ＳＧＤ）を用いてすべてのモデルを訓練する。学習率は、最初の１０エポック後、エポックごとに０．５が乗じられる。本発明の幾つかの実施形態はまた、ＳＩモデル及びＳＡモデルの両方について、ｌｏｇＭｅｌ特徴に対するシーケンスノイズ注入を使用する。シーケンスノイズ注入は、現在のアタランス及び訓練セットからランダムにサンプリングされたアタランスのｌｏｇＭｅｌ特徴シーケンスに対してｌｏｇ－ｓｕｍ－ｅｘｐを実行し、これは、モデルを正則化し、また、新しい入力特徴シーケンスを作成するのでオンザフライのデータ補強と考えることもできる。２つのハイパーパラメータ、すなわち、ランダムにサンプリングされたアタランスの特徴に対する重みと、シーケンスノイズを注入する確率とが存在する。本発明の幾つかの実施形態は、ホールドアウトＣＴＣ損失に基づいて、すべてのＳＩモデルのハイパーパラメータに（０．４，０．４）の値を用い、すべてのＳＡモデルに（０．２，０．４）の値を用いた。

本発明の幾つかの実施形態は、ソフト忘却の様々な要素を段階的に描写し、上記要素がＷＥＲに与える影響を理解する。まず、本発明の幾つかの実施形態は、チャンクベースＢＬＳＴＭモデルを固定チャンクサイズで訓練する。本発明の幾つかの実施形態は、チャンクサイズを５スタックフレームから５０スタックフレーム（１００ミリ秒から１秒）まで、５スタックフレームのステップで変化させる。本発明の幾つかの実施形態は、ホールドアウトＣＴＣ損失に基づいて、最適なチャンクサイズが４０スタックフレームであることを実証し、これは図３Ｂに示すようにＨｕｂ５－２０００ＳＷＢ／ＣＨテストセットに対して１２．７％／２２．５％のＷＥＲを示す。

次に、本発明の幾つかの実施形態は、訓練バッチ間にＵ（２，２）のチャンクサイズジッタを導入し、その結果、ＷＥＲの絶対値がＳＷＢで０．６％、ＣＨで１．０％低減した。本発明の幾つかの実施形態は、ハード忘却を用いたチャンクベースＢＬＳＴＭモデルが、シーケンスノイズ注入を用いない全アタランスＢＬＳＴＭモデルに匹敵するＷＥＲを有することを認識する。本発明の幾つかの実施形態は、最後の３つのＢＬＳＴＭ層にわたって双正則化を導入し、λを０．００１、０．０１、０．１、１．０にわたって変化させる。本発明の幾つかの実施形態は、λ＝０．０１で最良のホールドアウトＣＴＣ損失が得られ、このときＳＷＢで１１．１％、ＣＨで１９．７％のＷＥＲが得られ、これはＳＷＢではシーケンスノイズ注入のベースラインよりも０．２％だけ劣るに過ぎず、ＣＨでは絶対値で１．６％優れることを認識する。最後に、本発明の幾つかの実施形態は、シーケンスノイズ注入を導入し、ＳＷＢで１０．６％、ＣＨで１９．５％のＷＥＲが得られる。シーケンスノイズ注入の利点は、ソフト忘却の存在下では減少し、その理由は、どちらの技術も、モデルを正則化し、オンザフライでデータ拡張を行うという同じ効果を有するためである。

本発明の幾つかの実施形態は、双正則化及びシーケンスノイズを含む最良のモデル上で、チャンクサイズを５、１０、・・・、５０にわたって変化させるとともに、チャンクジッタを１、２、・・・、１０にわたって変化させることによって、グリッドサーチを行う。本発明の幾つかの実施形態は、チャンクサイズ２０及びチャンクジッタ６のほとんどの値が、ほぼ等しく低いホールドアウト損失をもたらすことを実証する。最適なチャンクサイズに４０、チャンクジッタに１０を選んだことに応答して、本発明の幾つかの実施形態は、ＣＨＷＥＲが０．２％とわずかに改善されただけで、ＳＷＢは改善されなかったことを認識する。

次に、本発明の幾つかの実施形態は、ソフト忘却レシピをＳＡモデルに適用する。図３Ｃは、５つのテストセットに対する、ベースラインＣＴＣモデル及びソフト忘却を用いたモデルの結果を示す。本発明の幾つかの実施形態は、ＳＷＢ及びＣＨテストセットについて、ソフト忘却がベースラインＳＡモデルに比べて絶対値で０．９％及び１．６％の改善を得ることを認識する。参照のために、本発明の幾つかの実施形態は、図３ＢのＳＩモデルのＷＥＲも示す。ソフト忘却は、ＳＩモデルの平均ＷＥＲを絶対値で１．３％改善し、ＳＡモデルを絶対値で１．４％改善する。本発明の幾つかの実施形態は、次に、これらのモデルの状態レベル最小ベイズリスク（ｓＭＢＲ：state-level minimum Bayes risk）シーケンス訓練を実行し、結果として得られたラティスの再スコアリングを、Ｆｉｓｈｅｒ＋ＳＷＢコーパスで訓練されたＬＳＴＭ言語モデル（ＮＮＬＭ）で実行する。ＮＮＬＭの埋め込み層は５１２ノードを有し、その後に各々が２０４８ノードを有する２つのＬＳＴＭ層が続く。３０ｋ次元単語事後ベクトルのソフトマックスベースの推定の前に、線形ボトルネック層によって特徴空間が１２８に縮小される。本発明の幾つかの実施形態は、ドロップコネクト（ＤｒｏｐＣｏｎｎｅｃｔ）とドロップアウト（Ｄｒｏｐｏｕｔ）との組み合わせを用いてモデルを正則化する。本発明の幾つかの実施形態は、ＳＧＤを使用して、初期学習率０．０１、ネステロフ運動量０．９で訓練を行う。２０エポックの訓練後、１５ステップで学習率は０．５倍にアニールされた。本発明の幾つかの実施形態は、ソフト忘却を用いて、ＳＩモデルで９．６％／１７．７％、ＳＡフォンＣＴＣモデルで８．７％／１６．８％の最終ＷＥＲが得られた。

ソフト忘却を用いたフォンＣＴＣモデルの性能を評価するために、本発明の幾つかの実施形態は、Ｈｕｂ５－２０００ＳＷＢ及びＣＨテストセットに関する文献から様々なモデルのＷＥＲを図３Ｄに示す。本発明の幾つかの実施形態は、データ拡張を用いる他のシステムと比較できるように、本発明者らのＳＩシステムに対して速度摂動（０．９ｘ、１ｘ、及び１．１ｘ）を用いてデータ拡張を行う。速度摂動は、ＳＩシステムをさらに９．１％／１７．４％まで改善する。本発明の幾つかの実施形態は、上記モデルがすべてのエンドツーエンドシステムと比べても遜色がないことを認識する。ＷＥＲの改善は、より困難なＣＨテストセットで特に大きい。また、ソフト忘却は、フォンＣＴＣと、複雑な多段訓練パイプライン及び出力として３２ｋのＣＤ状態を用いる特徴融合（feature fusion）を伴うＳＡハイブリッドＢＬＳＴＭモデルとの間のＷＥＲギャップを低減させるのに大いに貢献する。具体的には、本発明の幾つかの実施形態は、シーケンスノイズ注入のみを用いたモデルと比較して、ＳＡハイブリッドＢＬＳＴＭとフォンＣＴＣとの間のＷＥＲギャップを、ＳＷＢで７１％、ＣＨで７４％低減する。

本発明の幾つかの実施形態は、限られた待ち時間での復号のために、ｓＭＢＲ及びＮＮＬＭの再スコアリングの前にＳＩ及びＳＡモデルを使用し、ＳＡモデルを用いて同様に引き出すことができる。これらの実施形態は、推論中にＢＬＳＴＭモデルを非重複チャンクにわたって展開する。順方向ＬＳＴＭネットワークの隠れ状態及びセル状態は、ＷＥＲを改善したので、１つのチャンクから次のチャンクへとコピーされる。逆方向ＬＳＴＭの隠れ状態及びセル状態はゼロにリセットされる。

図３Ｅは、ソフト忘却を用いた場合及び用いない場合のチャンク化ＢＬＳＴＭのＷＥＲを復号チャンクサイズに対して示す。復号チャンクサイズの各選択について、本発明の幾つかの実施形態は、すべての訓練チャンクサイズにわたって最良のＷＥＲを報告する。参照のために、本発明の幾つかの実施形態は、全アタランスＢＬＳＴＭと、全アタランスＢＬＳＴＭを用いて双正則化損失で訓練された競合する全アタランスＵＬＳＴＭモデルのＷＥＲも示す。本発明の幾つかの実施形態は、ソフト忘却を用いて訓練されたチャンク化ＢＬＳＴＭが、すべての復号チャンクサイズにわたってチャンク化ＢＬＳＴＭを有意に改善することを認識する。

本発明の幾つかの実施形態は、全アタランスＢＬＳＴＭモデルがデータを過剰適合する傾向があり、ソフト忘却はこれを軽減する方法であることを認識する。図３Ｆは、ベースラインの全アタランスＳＩＢＬＳＴＭ及びソフト忘却を用いたチャンク化ＳＩＢＬＳＴＭについて、訓練の進行に対する訓練ＣＴＣ損失及びホールドアウトＣＴＣ損失を示す。本発明の幾つかの実施形態において、ソフト忘却を用いたチャンクベースＢＬＳＴＭの収束した訓練損失及びホールドアウト損失は、全アタランスＢＬＳＴＭと比べて有意に近接することを認識し、これはソフト忘却が実際にモデルを正則化することを示す。

本発明の幾つかの実施形態は、ランダムチャンクサイズ後にＢＬＳＴＭの隠れ状態及びセルの状態をリセットすることが、データ拡張を効果的に作り出すことを認識する。このランダム忘却は、同じ入力音響特徴シーケンスに対してＢＬＳＴＭが出力する異なる隠れ表現をもたらし、異なる訓練サンプルを作成する。本発明の幾つかの実施形態は、ソフト忘却を伴う最良のＳＡＢＬＳＴＭモデルを使用し、Ｈｕｂ５－２０００ＳＷＢテストセットを順方向にパスする。各アタランスに対して、本発明の幾つかの実施形態は、全アタランスと、訓練で用いられるチャンクサイズを表すサイズ３０、３１、．．．、５０のチャンクとに対して、ＢＬＳＴＭを展開する。本発明の幾つかの実施形態は、各チャンク後に隠れ状態及びセル状態をゼロにリセットする。本発明の幾つかの実施形態は、次に、最終ＢＬＳＴＭ層の出力を平均化し、これをｔ分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）を用いて２次元に投影することによって、１０２４次元表現を計算する。本発明の幾つかの実施形態は、埋め込みが、アタランス間での音響クラスタリングを示すこと、例えば口ごもりを伴うすべてのアタランスが空間の１つの領域にクラスタ形成することを認識する。より重要なことは、本発明の幾つかの実施形態は、異なるサイズのチャンク後に隠れ状態及びセル状態を忘却することが、訓練中に用いられた双正則化損失に起因して、各アタランスの局所的な近傍において埋め込みを摂動させることを認識する。この摂動の性質は、基礎となる表現の高度に非線形な性質に起因して、アタランスごとに異なり、単に独立した同一分布ノイズではない。本発明の幾つかの実施形態は、この摂動がデータ拡張の効果的な形態であることを認識する。

本実施形態は、ソフト忘却を使用して、以下の３つの要素から成る、より優れたＣＴＣＡＳＲモデルを訓練する。最初に、本発明の実施形態は、全シーケンスではなく、入力音響フレームの非重複チャンク上のみでＢＬＳＴＭを展開する。したがって、隠れ状態及びセル状態は、１つのチャンクから次のチャンクで忘却される。次に、本発明の実施形態は、訓練バッチ間でチャンクの持続時間を摂動させる。最後に、本発明の実施形態は、ＢＬＳＴＭの隠れ表現を事前訓練済み全アタランスＢＬＳＴＭモデルの隠れ表現に近づけることを助長することによって、ＣＴＣ損失が正則化されることを認識する。本発明の幾つかの実施形態は、ソフト忘却が、競合するフォンＣＴＣベースラインに比べてＷＥＲを７－９％改善し、また、最新技術のハイブリッドＢＬＳＴＭとのＷＥＲギャップを約７０％縮めるのに役立つことを実証する。

図４は、本発明の例示的な実施形態によるサーバコンピュータ１２０のコンポーネントのブロック図を示す。図４は、１つの実装の例示のみを提供するものであり、異なる実施形態を実装することができる環境に関して、いかなる制限も意味しないことを理解すべきである。図示される環境に対する多くの変更がなされてもよい。

サーバコンピュータ１２０の各々は、キャッシュ４０３と、メモリ４０２と、永続ストレージ４０５と、通信ユニット４０７と、入出力（Ｉ／Ｏ）インターフェース４０６との間の通信を提供する通信ファブリック４０４を含む。通信ファブリック４０４は、プロセッサ（マイクロプロセッサ、通信、及びネットワークプロセッサなど）、システムメモリ、周辺デバイス、及びシステム内の任意の他のハードウェアコンポーネントの間でデータもしくは制御情報又はその両方を渡すために設計された任意のアーキテクチャで実装することができる。例えば、通信ファブリック４０４は、１つ又は複数のバス又はクロスバー・スイッチで実装することができる。

メモリ４０２及び永続ストレージ４０５は、コンピュータ可読ストレージ媒体である。本実施形態において、メモリ４０２は、ランダムアクセスメモリ（ＲＡＭ）を含む。一般に、メモリ４０２は、任意の適切な揮発性又は不揮発性のコンピュータ可読ストレージ媒体を含むことができる。キャッシュ４０３は、最近アクセスされたデータ、及びアクセスされたデータに近いデータをメモリ４０２から保持することによって、コンピュータプロセッサ４０１の性能を向上させる高速メモリである。

プログラム１５０は、キャッシュ４０３を介したそれぞれのコンピュータプロセッサ４０１の１つ又は複数による実行のために、永続ストレージ４０５及びメモリ４０２内に格納することができる。一実施形態において、永続ストレージ４０５は、磁気ハードディスクドライブを含む。代替的に、又は磁気ハードディスクドライブに加えて、永続ストレージ４０５は、ソリッドステート・ハードドライブ、半導体ストレージデバイス、読出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読出し専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、又はプログラム命令もしくはデジタル情報を格納することが可能な任意の他のコンピュータ可読ストレージ媒体を含むことができる。

また、永続ストレージ４０５が用いる媒体は、取り外し可能であってもよい。例えば、取り外し可能なハードドライブを永続ストレージ４０５に用いることができる。他の例としては、永続ストレージ４０５の一部でもある別のコンピュータ可読ストレージ媒体に転送するためにドライブに挿入される、光ディスク及び磁気ディスク、サム・ドライブ、スマートカードがある。

通信ユニット４０７は、これらの例において、他のデータ処理システム又はデバイスとの通信を提供する。これらの例において、通信ユニット４０７は、１つ又は複数のネットワークインタフェースカードを含む。通信ユニット４０７は、物理的通信リンク及び無線通信リンクのいずれか又は両方を用いて通信を提供することができる。プログラム１５０は、通信ユニット４０７を用いて永続ストレージ４０５にダウンロードすることができる。

Ｉ／Ｏインターフェース４０６は、サーバコンピュータ１２０に接続することができる他のデバイスとの間でデータの入出力を可能にする。例えば、Ｉ／Ｏインターフェース４０６は、キーボード、キーパッド、タッチスクリーン、もしくは他の適切な入力デバイス又はそれらの組み合わせなどの外部デバイス４０８への接続を提供することができる。外部デバイス４０８は、例えば、サム・ドライブ、ポータブル光ディスク又は磁気ディスク、及びメモリカードなどのポータブル・コンピュータ可読ストレージ媒体も含むことができる。本発明の実施形態を実施するために用いられるソフトウェア及びデータ、例えば、プログラム１５０は、そのようなポータブル・コンピュータ可読ストレージ媒体に格納することができ、Ｉ／Ｏインターフェース４０６を介して永続ストレージ４０５にロードすることができる。Ｉ／Ｏインターフェース４０６は、ディスプレイ４０９にも接続される。

ディスプレイ４０９は、データをユーザに表示する機構を提供し、例えば、コンピュータのモニタであってもよい。

本明細書に記載されるプログラムは、本発明の特定の実施形態においてそのプログラムが実装されるアプリケーションに基づいて識別される。しかしながら、本明細書におけるあらゆる特定のプログラムの命名法は、単に便宜上用いられるものであり、したがって、本発明は、そのような命名法によって識別もしくは暗示される又は識別及び暗示されるいずれかの特定のアプリケーションにおける使用のみに限定されるべきではないことを理解すべきである。

本発明は、システム、方法、もしくはコンピュータ・プログラム製品又はそれらの組み合わせとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する１つ又は複数のコンピュータ可読ストレージ媒体を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁気ストレージデバイス、半導体ストレージデバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティック・ランダムアクセスメモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることもでき、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク又はその組み合わせなどのネットワークを介して外部コンピュータ又は外部ストレージデバイスにダウンロードすることもできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジサーバ又はその組み合わせを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体内に格納するために転送する。

本発明のオペレーションを行うためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語又は類似のプログラミング言語などの通常の手続き型プログラミング言語、及び、「Ｑ」プログラミング言語、Ｑ＃、量子コンピューテーション言語（ＱＣＬ）又は類似のプログラミング言語などの量子プログラミング言語、アセンブリ言語又は類似のプログラミング言語などの低水準プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部がリモートコンピュータ上で実行される場合もあり、又は完全にリモートコンピュータもしくはサーバ上で実行される場合もある。後者のシナリオにおいて、リモートコンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行することができる、

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロック内で指定された機能／動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ・プログラム可能データ処理装置、もしくは他のデバイス又はそれらの組合せを特定の方式で機能させるように指示することができるコンピュータ可読ストレージ媒体内に格納し、それにより、その中に格納された命令を有するコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロックにおいて指定された機能／動作の態様を実施する命令を含む製品を含むようにすることもできる。

コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連のオペレーションステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ、他のプログラム可能装置、又は他のデバイス上で実行される命令が、フローチャートもしくはブロック図又はその両方の１つ又は複数のブロックにおいて指定された機能／動作を実施するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及びオペレーションを示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で行われることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

種々の実施形態の説明が例証のために提示されたが、網羅的であること又は開示される実施形態を制限することを意図するものではない。当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの変更及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の用途、又は市場で見出される技術に優る技術の改善を最もよく説明するために、又は、当業者が本明細書で開示される実施形態を理解することができるように、選択された。

Claims

コンピュータ実施方法であって、
１つ又は複数のコンピュータプロセッサによって、１つ又は複数の訓練バッチを使用して第１のモデルを訓練することであって、前記１つ又は複数の訓練バッチの各訓練バッチは、１つ又は複数の情報ブロックを含む、訓練することと、
前記第１のモデルを訓練することの完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始することと、
１つ又は複数のコンピュータプロセッサによって、前記第２のモデルの前記１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングすることと、
１つ又は複数のコンピュータプロセッサによって、１つ又は複数の非重複の連続したジッタリングされた情報ブロック上で前記第２のモデルを展開することと、
前記第２のモデルを展開することに応答して、１つ又は複数のコンピュータプロセッサによって、双正則化を適用することによって前記第２のモデルの過剰適合を低減することと
を含む方法。
前記第１のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項１に記載の方法。
前記第２のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項１に記載の方法。
前記１つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項１に記載の方法。
前記情報ブロックが音響シーケンスである、請求項１に記載の方法。
前記訓練バッチが１つ又は複数の音響シーケンスを含み、各音響シーケンスは関連付けられたテキストラベルを有する、請求項１に記載の方法。
前記第２のモデルを訓練することの完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第１のモデルを処分するステップと、
前記第２のモデルを訓練することの前記完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第２のモデルを１つ又は複数の実働環境に配備するステップと
をさらに含む、請求項１に記載の方法。
双正則化が前記第２のモデルの損失値及びコネクショニスト時系列分類損失を含み、前記損失値は、前記第１のモデル及び第２のモデルと前記第１のモデルとの隠れ状態間の平均二乗誤差である、請求項１に記載の方法。
コンピュータ・プログラム製品であって、
１つ又は複数のコンピュータ可読ストレージ媒体と、前記１つ又は複数のコンピュータ可読ストレージ媒体上に格納されたプログラム命令と
を含み、前記格納されたプログラム命令が、
１つ又は複数の訓練バッチを使用して第１のモデルを訓練するプログラム命令であって、前記１つ又は複数の訓練バッチの各訓練バッチが１つ又は複数の情報ブロックを含む、プログラム命令と、
前記第１のモデルを訓練することの完了に応答して、前記１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始するプログラム命令と、
前記第２のモデルの前記１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、
１つ又は複数の非重複の連続するジッタリングされた情報ブロック上で前記第２のモデルを展開するプログラム命令と、
前記第２のモデルを展開することに応答して、双正則化を適用することによって前記第２のモデルの過剰適合を低減させるプログラム命令と
を含むコンピュータ・プログラム製品。
前記第１のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項９に記載のコンピュータ・プログラム製品。
前記第２のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項９に記載のコンピュータ・プログラム製品。
前記１つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項９に記載のコンピュータ・プログラム製品。
前記１つ又は複数のコンピュータ可読ストレージ媒体上に格納された前記プログラム命令が、
前記第２のモデルを訓練することの完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第１のモデルを処分するプログラム命令と、
前記第２のモデルを訓練することの前記完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第２のモデルを１つ又は複数の実働環境に配置するプログラム命令と
を含む、請求項９に記載のコンピュータ・プログラム製品。
双正則化が前記第２のモデルの損失値及びコネクショニスト時系列分類損失を含み、前記損失値は、前記第１のモデル及び第２のモデルと前記第１のモデルとの隠れ状態間の平均二乗誤差である、請求項９に記載のコンピュータ・プログラム製品。
コンピュータシステムであって、
１つ又は複数のコンピュータプロセッサと、
１つ又は複数のコンピュータ可読ストレージ媒体と、
前記１つ又は複数のプロセッサの少なくとも１つによる実行のために前記コンピュータ可読ストレージ媒体上に格納されたプログラム命令と
を含み、前記格納されたプログラム命令が、
１つ又は複数の訓練バッチを使用して第１のモデルを訓練するプログラム命令であって、前記１つ又は複数の訓練バッチの各訓練バッチが１つ又は複数の情報ブロックを含む、プログラム命令と、
前記第１のモデルを訓練することの完了に応答して、前記１つ又は複数の訓練バッチを使用して第２のモデルの訓練を開始するプログラム命令と、
前記第２のモデルの前記１つ又は複数の訓練バッチの各々の各情報ブロックのランダムなブロックサイズをジッタリングするプログラム命令と、
１つ又は複数の非重複の連続するジッタリングされた情報ブロック上で前記第２のモデルを展開するプログラム命令と、
前記第２のモデルを展開することに応答して、双正則化を適用することによって前記第２のモデルの過剰適合を低減させるプログラム命令と
を含むコンピュータシステム。
前記第１のモデルが全アタランス双方向長・短期記憶ネットワークである、請求項１５に記載のコンピュータシステム。
前記第２のモデルがチャンクベース双方向長・短期記憶ネットワークである、請求項１５に記載のコンピュータシステム。
前記１つ又は複数の非重複の連続したジッタリングされた情報ブロックが、コネクショニスト時系列分類損失から計算される、請求項１５に記載のコンピュータシステム。
前記情報ブロックが音響シーケンスである、請求項１５に記載のコンピュータシステム。
前記訓練バッチが１つ又は複数の音響シーケンスを含み、各音響シーケンスは関連付けられたテキストラベルを有する、請求項１５に記載のコンピュータシステム。
前記１つ又は複数のコンピュータ可読ストレージ媒体上に格納された前記プログラム命令が、
前記第２のモデルを訓練することの完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第１のモデルを処分するプログラム命令と、
前記第２のモデルを訓練することの前記完了に応答して、１つ又は複数のコンピュータプロセッサによって、前記第２のモデルを１つ又は複数の実働環境に配置するプログラム命令と
を含む、請求項１５に記載のコンピュータシステム。
双正則化が前記第２のモデルの損失値とコネクショニスト時系列分類損失とを含み、前記損失値は、前記第１のモデル及び第２のモデルと前記第１のモデルとの隠れ状態間の平均二乗誤差である、請求項１５に記載のコンピュータシステム。
プログラムがコンピュータ上で実行されたときに請求項１から請求項１４までのいずれかの方法を行うように適合されたプログラムコード手段を含む、コンピュータ・プログラム。