JP2022526876A

JP2022526876A - モデルをトレーニングするためのトレーニング・データ修正

Info

Publication number: JP2022526876A
Application number: JP2021541057A
Authority: JP
Inventors: 岳人倉田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-04-11
Filing date: 2020-03-23
Publication date: 2022-05-27
Anticipated expiration: 2040-03-23
Also published as: DE112020001853T5; JP7368479B2; US20200327881A1; US11011156B2; WO2020208449A1; CN113574545A

Abstract

モデルをトレーニングするためのコンピュータ実装方法が開示される。モデルは、１つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する。方法は、要素のトレーニング・シーケンスを取得することを含む。方法はまた、トレーニング・シーケンスを複数の部分に分割することを含む。方法は、モデルの方向に応じて複数の部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することをさらに含む。方法は、修正済みトレーニング・データを使用してモデルをトレーニングすることをさらに含む。

Description

本開示は、一般に、予測に使用されるモデルをトレーニングするための技法、およびモデルを使用して認識仮説を再スコアリングするための技法に関する。

音声認識において、リカレント型ニューラル・ネットワーク（ＲＮＮ）言語モデルが、ｎグラム・モデルなどの弱い（ｗｅａｋｅｒ）言語モデルによって生成されたラティスにＲＮＮ言語モデルを適用するデコーディングおよびラティス再スコアリングに利用される。ＲＮＮ言語モデルのモデリング機能を強化することにより、弱い言語モデルによって生成された元のラティスと比較して、再スコアリング済みラティスのエラー率が低下する。

ＲＮＮ言語モデルは、その強力なモデリング機能のソースである、先行の単語の無限の履歴を表す隠れ状態を有する。ＲＮＮ言語モデルは、通常、エラーがないと思われる書かれたテキストまたは書き起こされた発話あるいはその両方を使用してトレーニングされる。自動で書き起こされたテキストを、ドメイン適応の場合にトレーニング・データとして使用することもできる。しかしながら、自動で書き起こされたトレーニング・テキストのエラーの傾向は、通常、弱い言語モデルによって生成されたラティスに見られるエラーの傾向とは異なる。

認識エラーは、自動音声認識の一次結果として与えられる仮説の任意の単語位置に必然的に含まれる。しかしながら、ＲＮＮ言語モデルは、このようなエラーに対処するようにトレーニングされていないため、ＲＮＮの隠れ状態は、仮説のエラーに遭遇すると崩壊し、後続の単語の言語モデルの確率を計算する際に悪影響を及ぼす。仮説のエラーによる再スコアリング・プロセスに対するこのような悪影響は、ほんの数例を挙げれば、機械翻訳タスク、画像または映画キャプション・タスクなどの他の認識タスクでも発生するおそれがある。

したがって、仮説のエラーによる予測に対する悪影響を軽減できる技法が必要である。

本発明の実施形態によれば、モデルをトレーニングするためのコンピュータ実装方法が提供される。方法は、モデルに対し要素のトレーニング・シーケンスを取得することを含み、モデルは、１つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する。方法はまた、トレーニング・シーケンスを複数の部分に分割することを含む。方法はまた、予測の方向に応じて複数の部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することを含む。方法は、修正済みトレーニング・データを使用してモデルをトレーニングすることをさらに含む。

本発明の実施形態の方法によれば、モデルへの入力時に実際に発生する、シーケンスの途中から始まるまたは途中で終わる確率を推定するように、モデルをトレーニングすることができる。これにより、モデルの精度が向上する。

好ましい実施形態において、トレーニングされたモデルは、認識プロセスの仮説として取得された１つまたは複数の入力シーケンスを再スコアリングするために使用される。これにより、再スコアリングされた結果のエラー率は、認識プロセスの元の結果と比較して減少すると予想される。モデルは、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされているので、仮説にエラーが含まれていても、モデルは仮説の再スコアリングを適切に実行することができる。仮説のエラーによる悪影響を軽減することができる。

さらに好ましい実施形態において、モデルを使用して各入力シーケンスを再スコアリングする際に、入力シーケンス内の１つの入力要素についての認識プロセスの信頼度に関する条件が満たされていることに応答して、履歴の少なくとも一部が破棄される。これにより、再スコアリングされた結果のエラー率は、認識プロセスの信頼度に基づいて履歴を破棄することなく再スコアリングされた結果と比較してさらに低下する。

さらに好ましい実施形態において、モデルは、履歴を表す隠れ状態を有する。モデルの隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、履歴が破棄される。再スコアリングは、条件を満たした要素に応答して再開される。信頼度への懸念を有する要素が仮説に含まれる場合、リセットによって、このような要素がモデルの隠れ状態を崩壊させることを防ぐことができる。仮説のこのような不確実な要素は、後続の要素に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な要素の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。

特定の実施形態において、方法は、１つの部分の境界に所定の記号を追加することをさらに含む。修正済みトレーニング・データは、１つの部分と所定の記号とを含む。所定の記号は、予測の方向に応じてシーケンスの先頭またはシーケンスの末尾を表すことができる。あるいは、所定の記号は認識のエラーを表すことができ、モデルは所定の記号に対応する追加のトークンを有する。

特定の実施形態において、予測の方向は順方向であり、複数の部分のうちの後半部分が１つの部分として選択され、所定の記号が追加される境界が後半部分の先頭である。あるいは、予測の方向は逆方向であり、複数の部分のうちの前半部分が１つの部分として選択され、所定の記号が追加される境界が前半部分の末尾である。

好ましい実施形態において、モデルはリカレント型ニューラル・ネットワーク言語モデルであり、要素のトレーニング・シーケンスは複数の単語を含むトレーニング文であり、認識プロセスは音声認識であり、音声認識から出力された結果がモデルを使用して再スコアリングされる。これにより、音声認識のパフォーマンスを向上させることができる。

本発明の他の実施形態によれば、認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ実装方法が提供される。方法は、仮説を再スコアリングするためのモデルを準備することを含む。モデルは、１つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する。方法はまた、方向に従って入力シーケンスをモデルに送り込むことを含む。方法は、入力シーケンス内の１つの入力要素についての認識プロセスの信頼度に関する条件が満たされていることに応答して、履歴の少なくとも一部を破棄することをさらに含む。方法は、入力シーケンスを再スコアリングした結果を出力することをさらに含む。

本発明の他の実施形態の方法によれば、結果のエラー率は、認識プロセスの元の結果、ならびに認識プロセスの信頼度に基づいて履歴を破棄することなく再スコアリングされた結果と比較して、低下すると予想される。仮説のエラーによる悪影響を軽減することができるので、仮説にエラーが含まれていても、モデルは仮説の再スコアリングを適切に実行することができる。

好ましい実施形態において、モデルは、履歴を表す隠れ状態を有し、モデルの隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、履歴が破棄される。再スコアリングは、条件を満たしたことに応答して再開される。信頼度への懸念を有する要素が仮説に含まれる場合、リセットによって、このような要素がモデルの隠れ状態を崩壊させることを防ぐことができる。仮説のこのような不確実な要素は、後続の要素に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な要素の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。

好ましい実施形態において、モデルは、要素のトレーニング・シーケンスを取得することと、トレーニング・シーケンスを複数の部分に分割することと、再スコアリングの方向に応じて複数の部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することと、修正済みトレーニング・データを使用してモデルをトレーニングすることとによって構築される。モデルは、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされているので、仮説のエラーによる悪影響をさらに軽減することができる。仮説を再スコアリングするときに、モデルが仮説のエラーに対して耐性あるようにすることができる。

本発明の１つまたは複数の態様に関するコンピュータ・システムおよびコンピュータ・プログラム製品についても、本明細書に記載し特許請求する。

さらなる特徴および利点が、本発明の技法によって実現される。本発明の他の実施形態および態様が、本明細書に詳細に記載され、特許請求される発明の一部とみなされる。

本発明とみなされる主題は、本明細書の末尾の特許請求の範囲において詳細に示され、明確に特許請求されている。本発明の上記およびその他の特徴および利点は、以下の詳細な説明を添付図面と共に読めば明らかになる。

本発明の例示的な実施形態による、再スコアリング・モジュールとトレーニング・データ修正モジュールとを含む音声認識システムのブロック図である。本発明の例示的な実施形態による、リカレント型ニューラル・ネットワーク（ＲＮＮ）言語モデルをトレーニングするためのトレーニング・データ修正の概略図である。本発明の例示的な実施形態による、仮説の再スコアリングに使用されるＲＮＮ言語モデルをトレーニングためのプロセスを示すフローチャートである。本発明の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスの概略図である。本発明の例示的な実施形態による、所与の仮説に不確実な単語がないときの再スコアリング・プロセスにおける通常動作の概略図である。本発明の例示的な実施形態による、所与の仮説に不確実な単語があるときの再スコアリング・プロセスにおけるリセット動作の概略図である。本発明の他の例示的な実施形態による、仮説の再スコアリングに使用される逆方向ＲＮＮ言語モデルをトレーニングするためのプロセスを示すフローチャートである。本発明の他の例示的な実施形態による、逆方向ＲＮＮ言語モデルを使用した再スコアリング・プロセスにおけるリセット動作の概略図である。本発明の１つまたは複数の実施形態によるコンピュータ・システムを示す図である。

以下で、本発明を特定の実施形態に関して説明するが、以下で説明する実施形態は例としてのみ記載され、本発明の範囲を限定するものではないことを当業者は理解するだろう。

本発明による１つまたは複数の実施形態は、モデルをトレーニングするためのコンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品に関し、モデルは、シーケンス内の先行の要素の履歴を保持することができ、音声認識プロセスによって生成された一次仮説を再スコアリングするために使用され得る。本発明による１つまたは複数の他の実施形態は、モデルを使用して仮説を再スコアリングするためのコンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品に関し、仮説の再スコアリングに使用されるモデルは、シーケンス内の先行の要素の履歴を保持することができ、再スコアリングされる仮説は音声認識プロセスから取得される。

以下で、最初に図１を図２と共に参照して、本発明の例示的な実施形態による、リカレント型ニューラル・ネットワーク（ＲＮＮ）言語モデルをトレーニングするため、および音声認識プロセスによって生成される一次仮説を再スコアリングするためのコンピュータ・システムについて説明する。次に、図３を参照して、本発明の例示的な実施形態による、トレーニング・データ修正を使用してＲＮＮ言語モデルをトレーニングするためのコンピュータ実装方法について説明する。次に、図４を図５および図６と共に参照して、本発明の例示的な実施形態による、ＲＮＮ言語モデルを使用して一次仮説を再スコアリングするためのコンピュータ実装方法について説明する。次に、図７および図８をさらに参照して、トレーニングされるモデルが逆方向ＲＮＮ言語モデルである、本発明による他の例示的な実施形態について説明する。

さらに、本発明の例示的な実施形態による、新規のトレーニング・データ修正および再スコアリング機能を使用した音声認識に関する実験研究について説明する。最後に、図９を参照して、本発明の１つまたは複数の実施形態によるコンピュータ・システムのハードウェア構成について説明する。

図１を参照すると、本発明の例示的な実施形態による音声認識システム１００のブロック図が示されている。図１に示すように、音声認識システム１００は、入力１０２を受信し、かつラティス１０４の形の一次認識仮説を出力するデコーダ１１０と、デコーダ１１０によって使用される音響モデル１１２と、デコーダ１１０によって使用される弱い言語モデル１１４と、ラティス１０４を受信し、かつ再スコアリング済みラティス１０６を出力する再スコアリング・モジュール１２０と、再スコアリング・モジュール１２０によって使用されるＲＮＮ言語モデル１３０とを含む。

入力１０２は、所定のサンプリング周波数および所定のビット深度でアナログ・オーディオ入力をサンプリングすることによってデジタル化された音声信号であってよい。デコーダ１１０に入力される前に、音声信号は、任意の既知の音響特徴分析を含む適切なフロントエンドを介して音響特徴のシーケンスに変換されてもよい。

デコーダ１１０は、音響モデル１１２と弱い言語モデル１１４とを使用して、入力１０２に対する妥当な音声内容を予測し、一次認識仮説をラティス１０４として出力する。

弱い言語モデル１１４は、単語のシーケンスまたは文に対する確率分布を推定するためのモデルである。弱い言語モデル１１４は、文中で既に見られた先行の単語に基づいて、文中の後続の単語を予測することができる。弱い言語モデル１１４は、ユニグラム・モデル、ｎグラム・モデル、最大エントロピ言語モデル、またはスキップグラム言語モデルであってよいが、これらに限定されない。

リソースが制限なく利用可能であれば、任意の最先端の言語モデルが採用される。しかしながら、利用可能なリソースは実際には限られており、音声認識の初期段階でより強力な言語モデルを適用することは効率的でない。弱い言語モデル１１４は、ＲＮＮなどのより洗練された言語モデルよりも仮説を生成するための計算リソースが少なく、含まれる計算リソースに十分なモデリング機能を有するという意味で弱いモデルである。

音響モデル１１２は、単語のシーケンスが与えられたときに音響特徴のシーケンスを生成する確率を推定するためのモデルである。音響モデル１１２は、ガウス混合モデル（ＧＭＭ）／隠れマルコフ・モデル（ＨＭＭ）、またはＧＭＭ／ＨＭＭシステムでＧＭＭの代わりにＮＮを使用するニューラル・ネットワーク（ＮＮ）／ＨＭＭシステムに基づくことができ、ＨＭＭを使用して音声の時間的変化に対処し、ＧＭＭを使用して、各ＨＭＭの各状態がフレームまたは入力のフレームの短いウィンドウにどれだけ適合するかを判定する。ＮＮ／ＨＭＭシステムで採用されるニューラル・ネットワークは、ディープ・ニューラル・ネットワーク（ＤＮＮ）、畳み込みニューラル・ネットワーク（ＣＮＮ）、ＲＮＮベースのアーキテクチャであってよい。

デコーダ１１０は、一次認識仮説をラティス１０４として出力する。ラティス１０４は、複数のデコードされた文を表す。ラティス１０４は、ノードのリストとエッジのリストとを含むことができる。ラティス１０４内の各ノードは、ある時点を表すことができる。対の開始ノードと終了ノードとの間に接続された各エッジは、開始ノードの時点で始まり終了ノードの時点で終わるセグメントにまたがる単語を表す。記載された実施形態において、デコーダ１１０は、複数の仮説をラティスの形で出力するように構成される。しかしながら、他の実施形態において、デコーダ１１０は、プレフィクス・ツリー構造またはＮベスト仮説のリストの形で仮説を出力してもよい。仮説の表現の形は限定されない。

ラティス１０４は、一次認識仮説を生成する際に計算される信頼度情報を含むことができる。音響モデル１１２によれば、デコーダ１１０は、各単語に対応する複数のユニットにわたる音響スコアの平均値のようなフレームおよび統計などの音響スコアをユニットごとに計算することができる。弱い言語モデル１１４によれば、デコーダ１１０は単語ごとの言語スコアを計算することができる。さらに、デコーダ１１０は、音響スコアと言語スコアとを統合することによって総信頼度スコアを計算することができる。音響スコア、平均音響スコア、言語スコア、総信頼度スコア、またはこれらの組合せを含む信頼度スコアを、ラティス１０４内の各単語に与えることができ、各単語についての認識の信頼度が、これらの信頼度スコアによって表される。

再スコアリング・モジュール１２０は、ＲＮＮ言語モデル１３０を使用してラティス１０４内の各文を再スコアリングし、再スコアリング済みラティス１０６を出力するように構成される。リカレント型ニューラル・ネットワーク（ＲＮＮ）言語モデル１３０は、基本的なリカレント・ニューラル・ネットワーク、長・短期記憶（ＬＳＴＭ）、エルマン・ネットワーク、ジョーダン・ネットワーク、ホップフィールド・ネットワーク、ゲート付きリカレント・ユニット（ＧＲＵ）などを含む、隠れ状態を有する任意のリカレント型のアーキテクチャを有することができる。後続の層間の接続を含む順伝播型ネットワークと比較すると、ＲＮＮは層内の接続を含むニューラル・ネットワークの一種である。ＲＮＮ言語モデル１３０は、先行の単語の無限の履歴を表す隠れ状態を有し、先行の単語の履歴を隠れ状態に保持することができる。「先行」および「後続」という用語は、単語のシーケンスがＲＮＮ言語モデル１３０に送られる方向に従った先行および後継を意味することに留意されたい。

ＲＮＮ言語モデル１３０は、弱い言語モデル１１４よりも強力なモデリング機能を有する。一次音声認識から取得された仮説は、仮説の再スコアリングを受けるため、利用可能なリソースが実際には限られているにもかかわらず、より洗練されたリソース消費言語モデルを採用することができる。

再スコアリング・モジュール１２０は、元のラティス１０４を通る最良のパスを見つけるか、または元のラティス１０４内のパスを再ランク付けするために、ＲＮＮ言語モデル１３０を使用して元のラティス１０４の各仮説を再スコアリングする。ＲＮＮ言語モデル１３０に基づく新しい言語スコアを計算して、元のラティス１０４に与えられた音響スコアと組み合わせて最良のパスを見つけるか、またはパスを再ランク付けする。再スコアリング済みラティス１０６は、それぞれの新しいスコアを有する複数の文を表す。再スコアリング済みラティス１０６を使用して最良の仮説を選択するか、または仮説を再ランク付けすることは、任意であり、必要に応じて行うことができる。

記載された実施形態において、元のラティス１０４は、再スコアリング・モジュール１２０に直接入力される。しかしながら、１つまたは複数の実施形態において、元のラティス１０４は、拡張されたラティスを取得するために、再スコアリングの前または間にラティス拡張などの他の処理を受けてもよい。

図１に示すように、音声認識システム１００は、トレーニング・モジュール１４０と、トレーニング・データ修正モジュール１５０と、トレーニング・データ・ストア１６０とをさらに含む。

トレーニング・モジュール１４０は、ＲＮＮ言語モデル１３０を構築するために、所与のトレーニング・データを使用してトレーニング・プロセスを実行する。記載された実施形態において、トレーニング・データ・ストア１６０は、トランスクリプションの集合を提供する。トランスクリプションは、人間の専門家によって書き起こされたものである。自動で書き起こされたテキストは、ドメイン適応などの特定の場合にも考慮され得る。

ＲＮＮ言語モデル１３０を、適切なアルゴリズムを使用してトレーニングすることができる。ＲＮＮを、完全または切り捨てられた通時的誤差逆伝播（ＢＰＴＴ）および実時間リカレント学習（ＲＴＲＬ）アルゴリズムなどの勾配降下法によってトレーニングすることができる。

前述したように、トレーニング・データ・ストア１６０に格納されたトレーニング文は、通常、人間の専門家によって書き起こされる。人間が書き起こしたテキストにはほとんどエラーはない。一方、デコーダ１１０によって生成されたラティス１０４は、通常、様々な単語位置に１つまたは複数のエラーを含む。最先端のＡＳＲシステムであっても認識を間違える。仮説のこのようなエラーによって、再スコアリング・プロセス中にＲＮＮ言語モデル１３０の隠れ状態が崩壊する。自動で書き起こされたトレーニング・テキストにおけるエラーの傾向も、通常、ラティス１０４に見られるエラーの傾向とは異なる。したがって、仮説のこのようなエラーを考慮に入れてＲＮＮ言語モデル１３０をトレーニングする必要がある。

このために、例示的な実施形態によるトレーニング・データ修正モジュール１５０は、元のトレーニング・データを修正して修正済みトレーニング・データを生成するように構成され、修正済みトレーニング・データに基づいてトレーニングされたＲＮＮ言語モデル１３０がラティス１０４のそのようなエラーに対処できるようにする。

より具体的には、トレーニング・データ修正モジュール１５０は、トレーニング・データ・ストア１６０から各トレーニング文を取得し、トレーニング文を、それぞれが１つまたは複数の単語を含む複数の部分に分割するように構成される。

図２は、ＲＮＮ言語モデル１３０をトレーニングするためのトレーニング・データ修正の概略図である。図２に示すように、トレーニング文２００は、ランダムに決定され得る分割位置２０６で２つの部分２０２、２０４に分割される。

トレーニング・データ修正モジュール１５０は、ＲＮＮ言語モデル１３０の再スコアリングの方向に応じて複数の部分のうちの１つの部分を選択するようにさらに構成される。記載された実施形態において、ＲＮＮ言語モデル１３０は、文頭から与えられた前の単語に基づいて文中の次の単語を予測するようにトレーニングされる。したがって、ＲＮＮ言語モデル１３０の再スコアリングの方向は順方向である。この場合、後半部分２０４は複数の部分２０２、２０４の中から選択される。「次」および「前」という用語は、文の方向に従って次および前を意味することに留意されたい。

トレーニング・データ修正モジュール１５０は、選択された部分の境界（またはエッジ）に所定の記号を追加するようにさらに構成される。記載された実施形態において、所定の記号が追加される境界は後半部分２０４の先頭であり、所定の記号は、シーケンスの先頭（ＢＯＳ）または文頭（ＳＯＳ）を表す。したがって、修正済みトレーニング・データ２１０は、選択された後半部分２０４と、その先頭に追加された所定の記号２０８とを含む。選択されていない前半部分２０２を、トレーニング・データから破棄してよいことに留意されたい。

記載された実施形態において、ＲＮＮ言語モデル１３０の再スコアリングの方向は順方向である。しかしながら、他の実施形態において、ＲＮＮ言語モデル１３０を、文末から与えられた次の単語に基づいて文中の前の単語を予測するようにトレーニングしてもよい。この場合、ＲＮＮ言語モデル１３０の再スコアリングの方向は逆方向である。ＲＮＮ言語モデル１３０の再スコアリングの方向が逆方向である場合、前半部分２０２は複数の部分２０２、２０４の中から選択され、所定の記号が追加される境界は前半部分２０２の末尾である。また、この場合、所定の記号はシーケンスの末尾（ＥＯＳ）を表す。

適切な文頭と適切な文末とを表す記号と同じである文頭記号または文末記号を追加する代わりに、さらに他の実施形態において、所定の記号は音声認識のエラーの発生を表す特別な記号であってもよい（例えば、ＡＳＲ＿ＥＲＲＯＲ）。この実施形態において、ＲＮＮ言語モデル１３０は、特別な記号（ＡＳＲ＿ＥＲＲＯＲ）に対応する追加のトークンを有するようにトレーニングされ、自然な文頭または文末と、意図的に作成された文頭または文末とを区別して扱うことを可能にする。

前述したように、分割位置はランダムに決定される。しかしながら、他の実施形態において、分割位置は、トレーニング文が、認識エラーが発生しそうな位置で分割されるか、または認識エラーが発生しにくい位置で分割されないように、統計的に決定されてもよい。

トレーニング・データ修正モジュール１５０は、トレーニング・データ・ストア１６０に格納されているすべてのトレーニング文を修正するわけではないことに留意されたい。分割されるトレーニング文を、トレーニング・データ・ストア１６０内のトレーニング文の集合の中から所定の割合でランダムに決定することができる。例えば、所定数の文のうち１つの文のみ（約１０％～５０％の割合）がトレーニング・データ修正を受けることができる。

記載された実施形態において、１つのトレーニング文を取り上げて、１つの修正済みトレーニング文を生成するように説明されている。しかしながら、他の実施形態において、同じトレーニング文を複数回取り上げて、異なる分割位置を有する複数の修正済みトレーニング文を生成してもよい。この場合、トレーニング・データが増強されていると言える。さらに、修正済みトレーニング文２１０は、元の文の半分であり、前のトレーニング・データ修正によって取得されるものであり、さらにその後のトレーニング・データ修正を受けることができる。

トレーニング・モジュール１４０は、通常、データ修正なしにトレーニング・データ・ストア１６０に格納された元のトレーニング文と共に、修正済みトレーニング・データを使用してＲＮＮ言語モデル１３０をトレーニングするように構成される。記載された実施形態において、トレーニング・データ修正を受けた元のトレーニング・データは、これ以上トレーニングに使用されない。しかしながら、他の実施形態において、トレーニング・データ修正を受けた元のトレーニング・データは、トレーニング・データとしてまだ使用されてもよい。

前述したように、トレーニング・モジュール１４０によってトレーニングされたＲＮＮ言語モデル１３０を、再スコアリング・モジュール１２０によって実行される仮説の再スコアリングに使用することができる。トレーニング・データ修正により、ＲＮＮ言語モデル１３０を、文の途中から始まるまたは文の途中で終わる確率を推定するようにトレーニングすることができる。これは、予想外に、仮説に見られるエラーによる悪影響を軽減することに寄与した。また、他の実施形態において、トレーニング・モジュール１４０によってトレーニングされたＲＮＮ言語モデル１３０を、デコーダ１１０によって実行されるデコーディング・プロセスに使用することができる。

前述したトレーニング・データ修正は、音声認識システム１００のパフォーマンスの向上に寄与する。さらに、再スコアリング処理のロジックを変更することにより、音声認識システム１００のパフォーマンスのさらなる向上が期待できる。

再スコアリング・モジュール１２０は、元のラティス１０４内の各入力文を再スコアリングする。好ましい実施形態において、再スコアリング・モジュール１２０は、所定の条件が満たされたときに、ＲＮＮ言語モデル１３０に保持された履歴の少なくとも一部を破棄するようにさらに構成される。所定の条件は、入力文中の１つの単語についての音声認識の信頼度に関する条件であり、エラーがありそうな不確実な単語を見つけるために使用される。記載された実施形態において、所定の条件は、入力文中の単語に対して与えられる信頼度情報（例えば、平均音響スコア、言語スコア、総スコア）の閾値を含む。この閾値を経験的または統計的に決定することができる。他の実施形態において、より洗練された条件が考えられる。例えば、履歴を破棄するタイミングを判断するようにトレーニングされた他のニューラル・ネットワーク・モデルを使用して、所定の条件が満たされているか否かを判定することができる。

履歴はＲＮＮ言語モデル１３０の隠れ状態で表されるため、使用時に、モデルの方向が順方向であれば文頭（＜ＢＯＳ＞）であり、モデルの方向が逆方向であれば文末（＜ＥＯＳ＞）である所定の記号、または特別な記号（＜ＡＳＲ＿ＥＲＲＯＲ＞）を受け入れた状態に、ＲＮＮ言語モデル１３０の隠れ状態をリセットすることによって、履歴を破棄することができる。上記所定の条件を満たした単語の後で、再スコアリングを再開することができる。

特定の実施形態において、図１に示すモジュール１１０、１２０、１４０、１５０の各々を、プロセッサ、メモリなどのハードウェア・コンポーネント、電子回路を含むハードウェア・モジュール、またはその組合せと連動する命令またはデータ構造あるいはその両方を含むソフトウェア・モジュールとして実装することができるが、これに限定されない。図１に示すこれらのモジュール１１０、１２０、１４０、１５０を、パーソナル・コンピュータ、サーバ・マシンなどの単一のコンピュータ・システム上に、またはクライアント・サーバ・システム、エッジ・コンピューティング・システム、コンピュータ・クラスタなどの複数のデバイスにわたって分散して実装することができる。

以下で、図３に示すフローチャートを参照して、本発明の例示的な実施形態による、トレーニング・データ修正を使用してＲＮＮ言語モデルをトレーニングするプロセスについて説明する。

図３に示すプロセスは、トレーニング・データ修正モジュール１５０を用いるトレーニング・モジュール１４０によって、すなわち、図１に示すトレーニング・モジュール１４０とトレーニング・データ修正モジュール１５０とを実装する処理ユニットによって実行され得ることに留意されたい。また、図３に示すプロセスを使用して、ＲＮＮ言語モデル１３０を順方向に予測するようにトレーニングする。したがって、トレーニングされるＲＮＮ言語モデル１３０の再スコアリングの方向は順方向である。

図３に示すプロセスは、ＲＮＮ言語モデル１３０をトレーニングするための要求をオペレータから受信したことに応答して、ステップＳ１００で開始することができる。新しいＲＮＮモデル（例えば、ランダムに初期化された）または予めトレーニングされたモデルを与えることができることに留意されたい。

ステップＳ１０１で、処理ユニットは、トレーニング・データ・ストア１６０からトレーニング文を読み取ることができる。トレーニングに使用するトレーニング文の集合を、要求において指定することができる。

ステップＳ１０２で、処理ユニットは、トレーニング・データ・ストア１６０から読み取られたトレーニング文がトレーニング・データ修正を受けるか否かを判定することができる。例えば、いくつかの文のうち１つのみがトレーニング・データ修正を受けることができる。所定の割合を要求において指定してもよい。ステップＳ１０２で、処理ユニットが、現在のトレーニング文がトレーニング・データ修正を受けると判定した場合、プロセスはステップＳ１０３に進むことができる。

ステップＳ１０３で、処理ユニットは、トレーニング文中の分割位置をランダムに決定することができる。

ステップＳ１０４で、処理ユニットは、ステップＳ１０３で決定された分割位置でトレーニング・シーケンスを複数の部分に分割し、ＲＮＮ言語モデル１３０の方向に応じて複数の部分のうちの１つの部分を選択することができる。図３に示すプロセスにおいて、ＲＮＮ言語モデル１３０の方向は順方向であるため、後半部分が選択される。

ステップＳ１０５で、処理ユニットは、図２を参照して説明したように、後半部分２０４の先頭に文頭記号２０８を追加して、修正済みトレーニング・データ２１０を生成することができる。修正済みトレーニング・データ２１０は、選択された後半部分２０４と所定の記号２０８とを含む。

ステップＳ１０２で、処理ユニットが、現在のトレーニング文がトレーニング・データ修正を受けないと判定した場合、プロセスはステップＳ１０６に直接進むことができる。

ステップＳ１０６で、処理ユニットは、修正済みトレーニング・データまたは元のトレーニング・データを使用してＲＮＮ言語モデル１３０のトレーニングの反復を行うことができる。トレーニングの反復は、各トレーニング文（例えば、オンライン・トレーニング）または所定の一連のトレーニング文（例えば、バッチ・トレーニング、ミニバッチ・トレーニング）に対して実行できることに留意されたい。

ステップＳ１０７で、処理ユニットは、終了条件が満たされているか否かを判定することができる。例えば、所定数のエポックが完了した場合、終了条件は満たされていると判定される。ステップＳ１０７で、処理ユニットが、終了条件がまだ満たされていないと判定した場合、プロセスはステップＳ１０１にループバックして、さらなる反復を行うことができる。一方、ステップＳ１０７で、処理ユニットが、終了条件が既に満たされていると判定した場合、プロセスはステップＳ１０８に進み、プロセスはステップＳ１０８で終了することができる。

図３に示すトレーニング・データ修正を使用してＲＮＮ言語モデルをトレーニングするプロセスによれば、ＲＮＮ言語モデル１３０を、シーケンスの途中から始まる確率を推定するようにトレーニングすることができる。これは、予想外に、仮説に見られるエラーによる悪影響を軽減し、仮説を再スコアリングするときに、仮説のエラーに対するモデルの耐性を高めることに寄与した。したがって、再スコアリング済みラティス１０６のエラー率は、元のラティス１０４と比較して低下すると予想される。

以下で、図４を図５および図６と共に参照して、本発明の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスについてさらに説明する。一連の図４～図６を参照して説明する再スコアリング・プロセスは、ＲＮＮ言語モデル１３０を用いる再スコアリング・モジュール１２０によって、すなわち、図１に示す再スコアリング・モジュール１２０およびＲＮＮ言語モデル１３０を実装する処理ユニットによって実行され得ることに留意されたい。ＲＮＮ言語モデル１３０の再スコアリングの方向は順方向であることにも留意されたい。

最初に、再スコアリング・モジュール１２０は、仮説を再スコアリングするためのＲＮＮ言語モデル１３０を、例えばメモリ上に準備することができる。次に、ラティス１０４が再スコアリング・モジュール１２０によって読み取られる。図４に示すように、ラティス１０４は、複数のノード１０４ａと、対のノード間に接続された複数のエッジ１０４ｂ（図中、１つのノードと１つのエッジのみに符号が付されている）とを含む。ラティス１０４内の各ノード１０４ａは、ある時点を表すことができる。対の開始ノードと終了ノードとの間に接続された各エッジ１０４ｂは、開始ノードの時点で始まり終了ノードの時点で終わるセグメントにまたがる単語を表すことができる。ラティス１０４内に複数のパスを引くことができるが、ここでは再スコアリング・プロセスの動作を説明するために、１つの入力文１０４ｃに焦点を当てる。

再スコアリング・モジュール１２０は、入力文１０４ｃ中の各単語を、記載された実施形態において順方向である方向に従ってＲＮＮ言語モデル１３０に連続して送り込む。したがって、単語シーケンス｛＜ＢＯＳ＞、Ｖ、Ｗ、Ｘ、Ｙ、Ｚ、＜ＥＯＳ＞｝は、この順序でＲＮＮ言語モデル１３０に送り込まれる。再スコアリング・モジュール１２０は、ＲＮＮ言語モデル１３０から言語モデル確率を受信して、新しい言語スコアを取得する。

図５は、再スコアリング・プロセスにおける通常動作の概略図である。仮説に不確実な単語がない場合、単語がＲＮＮ言語モデル１３０に送り込まれるたびに、先行の（前の）単語の履歴がＲＮＮ言語モデル１３０の隠れ状態１３０ａに蓄積される。隠れ状態は、後続の（次の）単語の計算確率に影響を与えることがある。

図４に戻ると、入力文を再スコアリングする際に、例示的な実施形態による再スコアリング・モジュール１２０は、所定の条件が満たされていることに応答して、ＲＮＮ言語モデル１３０の隠れ状態１３０ａを、所定の記号（記載された実施形態における文頭）を受け入れた状態にリセットすることができる。所定の条件とは、入力文１０４ｃ中の１つの入力語についての認識の信頼度に関する条件である。所定の条件は、エラーがありそうな不確実な単語を見つけるために使用される。記載された実施形態において、所定の条件は、入力文中の単語に対して与えられる信頼度スコア（例えば、平均音響スコア、言語スコア、総スコア）の閾値を含む。信頼度スコアが閾値より低い単語が見つかると、再スコアリング・モジュール１２０は、ＲＮＮ言語モデル１３０の隠れ状態１３０ａをリセットする。

図６は、再スコアリング・プロセスにおけるリセット動作の概略図である。仮説に不確実な単語（Ｘ）がある場合、ＲＮＮ言語モデル１３０の隠れ状態に蓄積された先行の（前の）単語の履歴は、不確実な単語（Ｘ）が送り込まれた後のタイミングで破棄される。再スコアリングは、入力文の後半部分が不確実な単語（Ｘ）の位置から始まるかのように、所定の条件を満たした単語（Ｘ）の後で再開される。不確実な単語（Ｘ）を含む入力文の前半部分を保存することができる。したがって、入力シーケンス｛＜ＢＯＳ＞、Ｖ、Ｗ、Ｘ、Ｙ、Ｚ、＜ＥＯＳ＞｝のスコアは、前半部分｛＜ＢＯＳ＞、Ｖ、Ｗ、Ｘ｝と後半部分｛＜ＢＯＳ＞、Ｙ、Ｚ、＜ＥＯＳ＞｝のスコアの合計として計算される。その結果、バースト・エラーの発生を防ぐことができる。

図４～図６に示すリセット動作によって入力文を再スコアリングするプロセスによれば、再スコアリング済みラティス１０６のエラー率は、音声認識の元のラティス１０４および音声認識の信頼度に基づいて履歴を破棄することなく再スコアリングされたラティスと比較して、低下すると予想される。仮説のエラーによる悪影響を軽減することができるので、仮説にエラーが含まれていても、ＲＮＮ言語モデル１３０は仮説の再スコアリングを適切に実行することができる。

信頼度への懸念を有する単語が仮説に含まれる場合、リセットすると、そのような単語がＲＮＮ言語モデル１３０の隠れ状態を崩壊させなくなる。仮説のこのような不確実な要素は、後続の単語に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な単語の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。

さらに、トレーニング・データ修正モジュール１５０を使用してトレーニング・モジュール１４０によってトレーニングされたＲＮＮ言語モデル１３０を採用する場合、ＲＮＮ言語モデル１３０は、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされる。仮説のエラーによる悪影響をさらに軽減することができる。仮説を再スコアリングするときに、仮説のエラーに対するＲＮＮ言語モデル１３０の耐性を高めることができる。ＲＮＮ言語モデル１３０の特徴と組み合わせることにより、再スコアリング済みラティス１０６のエラー率をさらに低下させる。

前述した実施形態において、ＲＮＮ言語モデル１３０の方向が順方向であると説明されている。図７に示すフローチャートを参照して、本発明の他の例示的な実施形態による、トレーニング・データ修正を使用して逆方向ＲＮＮ言語モデルをトレーニングするプロセスについて説明する。

図７に示すプロセスは、トレーニング・データ修正モジュール１５０を用いるトレーニング・モジュール１４０によって、すなわち、図１に示すトレーニング・モジュール１４０とトレーニング・データ修正モジュール１５０とを実装する処理ユニットによって実行され得ることに留意されたい。図７に示すプロセスは、ＲＮＮ言語モデル１３０をトレーニングするための要求をオペレータから受信したことに応答して、ステップＳ２００で開始することができる。

ステップＳ２０１で、処理ユニットは、トレーニング・データ・ストア１６０からトレーニング文を読み取ることができる。ステップＳ２０２で、処理ユニットは、トレーニング文中の分割位置をランダムに決定することができる。ステップＳ２０３で、処理ユニットは、ステップＳ２０２で決定された分割位置でトレーニング・シーケンスを複数の部分に分割し、ＲＮＮ言語モデル１３０の方向に応じて複数の部分のうちの１つの部分を選択することができる。図７に示すプロセスにおいて、ＲＮＮ言語モデル１３０の方向は逆方向であるため、前半部分が選択される。

ステップＳ２０４で、処理ユニットは、前半部分の末尾に文末記号＜ＥＯＳ＞を追加して、修正済みトレーニング・データを生成することができる。修正済みトレーニング・データは、選択された前半部分と、その末尾に追加された所定の記号＜ＥＯＳ＞とを含む。選択されていない後半部分を、トレーニング・データから破棄してよいことに留意されたい。ステップＳ２０５で、処理ユニットは、所定の記号を含む前半部分を、修正済みトレーニング・データとしてトレーニング・データ・ストア１６０に格納することができる。

ステップＳ２０６で、処理ユニットは、終了条件が満たされているか否かを判定することができる。例えば、所定量のトレーニング・データが処理された場合、終了条件は満たされていると判定される。ステップＳ２０６で、処理ユニットが、終了条件が満たされていないと判定した場合、プロセスはステップＳ２０１にループバックして、さらなるトレーニング・データ修正を行うことができる。一方、ステップＳ２０６で、処理ユニットが、終了条件が既に満たされていると判定した場合、プロセスはステップＳ２０７に進むことができる。

ステップＳ２０７で、処理ユニットは、トレーニング・データ・ストア１６０に格納されている修正済みトレーニング・データおよび元のトレーニング・データを使用してＲＮＮ言語モデル１３０のトレーニングの反復を行うことができる。トレーニングの反復は、各トレーニング文または一連のトレーニング文に対して実行できることに留意されたい。例えば、所定数のエポックを繰り返し実行することができる。プロセスは、ステップＳ２０８で終了することができる。

以下で、図４を図８と共に参照して、本発明の他の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスについてさらに説明する。図４および図８を用いて説明する再スコアリング・プロセスは、図１に示す再スコアリング・モジュール１２０およびＲＮＮ言語モデル１３０を実装する処理ユニットによって実行され得ることに留意されたい。他の例示的な実施形態によるＲＮＮ言語モデル１３０の再スコアリングの方向は逆方向であることにも留意されたい。

最初に、再スコアリング・モジュール１２０は、逆方向ＲＮＮ言語モデル１３０を、例えばメモリ上に準備することができる。次に、ラティス１０４が再スコアリング・モジュール１２０によって読み取られる。再スコアリング・モジュール１２０は、入力文１０４ｃ中の各単語を、記載された実施形態において逆方向である方向に従って逆方向ＲＮＮ言語モデル１３０に連続して送り込む。したがって、単語シーケンス｛＜ＢＯＳ＞、Ｖ、Ｗ、Ｘ、Ｙ、Ｚ、＜ＥＯＳ＞｝は、逆の順序で、すなわち｛＜ＥＯＳ＞、Ｚ、Ｙ、Ｘ、Ｗ、Ｖ、＜ＢＯＳ＞｝でＲＮＮ言語モデル１３０に送り込まれる。

仮説に不確実な単語がない場合、単語が逆方向ＲＮＮ言語モデル１３０に送り込まれるたびに、先行の（次の）単語の履歴がＲＮＮ言語モデル１３０の隠れ状態１３０ａに蓄積される。隠れ状態は、後続の（前の）単語の計算確率に影響を与えることがある。

入力文を再スコアリングする際に、再スコアリング・モジュール１２０は、所定の条件が満たされていることに応答して、ＲＮＮ言語モデル１３０の隠れ状態１３０ａを、所定の記号（記載された実施形態における文末）を受け入れた状態にリセットすることができる。信頼度スコアが閾値より低い単語が見つかると、再スコアリング・モジュール１２０は、ＲＮＮ言語モデル１３０の隠れ状態１３０ａをリセットする。

図８は、逆方向ＲＮＮ言語モデルを使用した再スコアリング・プロセスにおけるリセット動作の概略図である。仮説に不確実な単語（Ｘ）がある場合、ＲＮＮ言語モデル１３０の隠れ状態に蓄積された先行の（次の）単語の履歴は、不確実な単語（Ｘ）が送り込まれた後のタイミングで破棄される。再スコアリングは、入力文の前半部分が不確実な単語（Ｘ）の位置で終わるかのように、所定の条件を満たした単語（Ｘ）の後で再開される。不確実な単語（Ｘ）の位置より前の入力文の後半部分を保存することができる。

前述した本発明の実施形態によれば、仮説のエラーによる悪影響を軽減した、仮説の再スコアリングに使用するモデルをトレーニングできる技法が提供される。また、前述した本発明の実施形態によれば、パフォーマンスを向上させた、仮説を再スコアリングできる技法が提供される。

新規のトレーニング・データ修正または新規の再スコアリング・プロセスあるいはその両方を適用可能な言語として、例えば、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語が挙げられるが、これらに決して限定されない。

さらに、前述した実施形態において、ＲＮＮ言語モデル１３０は、１つまたは複数の先行の要素または単語の履歴を保持することができるモデルとして、仮説の再スコアリングに使用される。ＲＮＮ言語モデルの隠れ状態が先行の要素または単語の無限の履歴を表すことができるため、ＲＮＮは好ましい。しかしながら、所定数の先行の要素の履歴を保持することもできるｎグラム言語モデルなどの他のモデルも考えられる。

さらに、前述した実施形態において、新規のトレーニング・データ修正および新規の再スコアリング・プロセスが音声認識に適用される。しかしながら、仮説のエラーによる仮説の再スコアリングに対するそのような悪影響は、音声認識以外の様々な認識タスクにおいても生じることがある。１つまたは複数の実施形態において、新規のトレーニング・データ修正または新規の再スコアリング・プロセスあるいはその両方が適用される認識プロセスは、機械翻訳、品詞タグ付け、構文解析、光学文字認識、手書き認識、画像キャプション、または動画キャプションを含むことができる。

実験研究

例示的な実施形態による、図１に示すシステム、図３に示すトレーニング・プロセス、および図４に示す再スコアリング・プロセスを実施するプログラムをコード化して実行した。

ＬＳＴＭ音響モデルおよび大規模ｎグラム言語モデルを、それぞれ一次デコーディングのための音響モデル１１２および弱い言語モデル１１４として使用した。ＬＳＴＭ音響モデルおよび大規模ｎグラム言語モデルを含むＡＳＲシステムを、ラティス再スコアリングなしで比較例１として使用した。

ＬＳＴＭ言語モデルを、仮説の再スコアリングのためのＲＮＮ言語モデル１３０として採用した。ミシシッピ州立大学が提供するトランスクリプト付きの２６２時間のＳｗｉｔｃｈｂｏａｒｄ１オーディオ、Ｆｉｓｈｅｒデータ・コレクションからの１６９８時間、および１５時間のＣａｌｌＨｏｍｅオーディオを含む、研究開発のための電話音声コーパスであるＳＷＩＴＣＨＢＯＡＲＤを使用した。ＬＳＴＭ言語モデルをトレーニングするために、約２０００時間のオーディオ・データのトランスクリプションを使用した。実施例１および実施例３について、ＬＳＴＭ言語モデルを、トレーニング・データ修正機能を使用してトレーニングした。トレーニング文の３０％のみがトレーニング・データ修正を受けた。一方、実施例２および比較例２について、ＬＳＴＭ言語モデルを、トレーニング・データ修正なしでトレーニングした。

実施例１および比較例２について、音声認識において、リセットなしの標準再スコアリングを行った。一方、実施例２および実施例３について、音声認識において、リセットを伴う新規の再スコアリングを行った。各単語に対応する期間で計算された平均音響スコアを信頼度スコアとして使用し、平均より下側の３つの標準偏差（平均－３σ（シグマ））を信頼度スコアの閾値として使用した。平均および標準偏差は、ラティス１０４ごとに１００の最良の仮説によって推定された。

次に、実施例１～３ならびに比較例１および２の構築された音声認識システムのＡＳＲ精度を、ＳＷＩＴＣＨＢＯＡＲＤデータセットの検証データを使用して評価した。単語エラー率（ＷＥＲ）をＡＳＲ精度メトリックとして利用した。参照ＡＳＲシステムのＷＥＲは７．２％であり、これは、参照ＡＳＲシステムがラティス再スコアリングの前でも強力なモデリング機能を有することを意味する（比較例１）。

実施例１～３ならびに比較例１および２の評価結果は、以下のようにまとめられる。

記号「＊」は、列で指定された機能が適用されることを表す。

比較例２の結果と比較すると、実施例１および３はパフォーマンスの向上を示した。実施例２でも標準再スコアリング（比較例２）に匹敵するパフォーマンスを示した。これは、リセット動作がパフォーマンスを損なうことはほとんどないことを意味する。実施例１～３のうち、トレーニング段階における新規のトレーニング修正と推論段階における新規のラティス再スコアリングとを組み合わせた実施例３は、最良のパフォーマンスを示した。実施例１および３は、ＬＳＴＭ標準再スコアリング（比較例２）の強力なベースラインを上回った。

コンピュータ・ハードウェア・コンポーネント

次に図９を参照すると、音声認識システム１００を実装するために使用できるコンピュータ・システム１０の例の概略図が示されている。図９に示すコンピュータ・システム１０は、コンピュータ・システムとして実装されている。コンピュータ・システム１０は、適切な処理デバイスの一例に過ぎず、本明細書に記載の発明の実施形態の使用範囲または機能に関するいかなる限定も示唆するものではない。それにもかかわらず、コンピュータ・システム１０は、前述した機能のいずれかを実装するまたは実行するあるいはその両方を行うことができる。

コンピュータ・システム１０は、多数の他の汎用もしくは専用コンピューティング・システム環境または構成と共に動作可能である。コンピュータ・システム１０と共に使用するのに適している可能性のある周知のコンピューティング・システム、環境、または構成、あるいはその組合せの例として、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスまたはラップトップ・デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家庭用電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのうちのいずれかを含む分散クラウド・コンピューティング環境などが挙げられるが、これらに限定されない。

コンピュータ・システム１０を、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。通常、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。

図９に示すように、コンピュータ・システム１０は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム１０のコンポーネントには、プロセッサ（または処理ユニット）１２、メモリ・バスもしくはメモリ・コントローラを含むバスによってプロセッサ１２に結合されたメモリ１６、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスが含まれるが、これらに限定されない。

コンピュータ・システム１０は、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム１０によってアクセスできる任意の使用可能な媒体であってよく、揮発性および不揮発性媒体、取外し可能および取外し不可の媒体を含む。

メモリ１６は、ランダム・アクセス・メモリ（ＲＡＭ）などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム１０は、他の取外し可能／取外し不可、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含むことができる。単に例として、取外し不可の不揮発性磁気媒体に対する読取りおよび書込みを行うために、ストレージ・システム１８を設けることができる。以下でさらに図示し説明するように、ストレージ・システム１８は、本発明の実施形態の機能を実行するように構成された一連の（例えば、少なくとも１つの）プログラム・モジュールを有する少なくとも１つのプログラム製品を含むことができる。一部の実施形態において、ＲＮＮ言語モデル２８をストレージ・システム１８に格納することができる。コンピュータ１０は、ストレージ・システム１８に格納されたＲＮＮ言語モデル２８をトレーニングすることができる。

一連の（少なくとも１つの）プログラム・モジュールを有するプログラム／ユーティリティを、例として、ストレージ・システム１８に格納することができるが、これに限定されず、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データも格納することができる。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはこれらの組合せは、それぞれネットワーク環境の実装を含むことができる。プログラム・モジュールは、通常、本明細書に記載された本発明の実施形態の機能または方法あるいはその両方を実行する。

コンピュータ・システム１０は、キーボード、ポインティング・デバイス、カー・ナビゲーション・システム、オーディオ・システムなどの１つまたは複数の周辺装置２４、ディスプレイ２６、ユーザがコンピュータ・システム１０と対話することを可能にする１つまたは複数のデバイス、またはコンピュータ・システム１０が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）、あるいはその組合せと通信することもできる。そのような通信は、入出力（Ｉ／Ｏ）インターフェース２２を介して行うことができる。さらに、コンピュータ・システム１０は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用ワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）、あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ２０は、バスを介してコンピュータ・システム１０の他のコンポーネントと通信する。図示しないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントあるいはその両方を、コンピュータ・システム１０と組み合わせて使用してもよいことを理解されたい。例として、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどが挙げられるが、これらに限定されない。一部の実施形態において、コンピュータ１０は、ネットワーク・アダプタ２０を使用してＲＮＮ言語モデル３０と通信することができる。コンピュータ１０は、ネットワーク・アダプタ２０を使用してＲＮＮ言語モデル３０をトレーニングすることができる。ＲＮＮ言語モデル３０は、１つまたは複数のノードとして具現化されてよい。

コンピュータ・プログラムの実装

本発明は、コンピュータ・システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持し格納することができる有形のデバイスであってよい。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下のもの、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、携帯型コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピ（Ｒ）・ディスク、パンチカードもしくは命令が記録されている溝内の隆起構造などの機械的に符号化されたデバイス、およびこれらの任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波（例えば光ファイバ・ケーブルを通過する光パルス）、または電線を介して伝送される電気信号などの、一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体的にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続することができる。一部の実施形態において、本発明の態様を実行するために、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。

本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら、本発明の態様について本明細書で説明する。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

これらのコンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含んだ製品を含むべく、コンピュータ可読記憶媒体に格納されて、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の方式で機能するように指示できるものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータによって実行されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表すことができる。一部の代替実装形態において、ブロックに示す機能を、図示する順序以外で行うことができる。例えば、連続して示す２つのブロックを、実際には略同時に実行することができ、または、関与する機能に応じて、それらのブロックを時として逆の順序で実行することができる。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令との組合せを実行する専用ハードウェア・ベースのシステムによって実装することができることにも留意されたい。

本明細書で使用されている用語は、特定の実施形態を説明することのみを目的としたものであり、本発明を限定することを意図したものではない。本明細書で使用されるとき、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が明確に他の解釈を示していない限り複数形も含むことを意図している。「含む（ｃｏｍｐｒｉｓｅｓ）」または「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」という用語あるいはその両方は、本明細書で使用されるとき、記載されている特徴、整数、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を明示するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはこれらのグループ、あるいはその組合せの存在も追加も排除しないことがさらに理解されよう。

以下の特許請求の範囲内のすべてのミーンズまたはステップ・プラス・ファンクション要素の対応する構造、材料、動作、および均等物は、存在する場合、具体的に特許請求されるように、他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、または動作を含むことが意図されている。本発明の１つまたは複数の態様の説明は、例示および説明の目的で提示されているが、網羅的であることも、開示された形態で本発明に限定することも意図していない。

記載された実施形態の範囲および思想から逸脱することなく、多くの変更および変形形態が当業者に明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の応用または技術的改善を最もよく説明するため、または当業者が本明細書に開示された実施形態を理解できるようにするために選択された。

Claims

モデルをトレーニングするためのコンピュータ実装方法であって、
前記モデルに対し要素のトレーニング・シーケンスを取得することであって、前記モデルが１つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記予測の前記方向に応じて前記複数の前記部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
を含む、方法。
前記モデルが、認識プロセスの仮説として取得された１つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項１に記載の方法。
前記モデルがリカレント型ニューラル・ネットワーク言語モデルを含み、前記要素の前記トレーニング・シーケンスが複数の単語を含むトレーニング文を含み、前記認識プロセスが音声認識を含み、前記音声認識から出力された結果が、前記モデルを使用して前記仮説として再スコアリングされる、請求項２に記載の方法。
前記認識プロセスが、音声認識、機械翻訳、品詞タグ付け、構文解析、光学文字認識、手書き認識、画像キャプション、および動画キャプションから成る群から選択される、請求項２に記載の方法。
前記モデルを使用して各入力シーケンスを再スコアリングする際に、前記入力シーケンス内の１つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部が破棄される、請求項２に記載の方法。
前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項５に記載の方法。
前記方法が、前記１つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記１つの部分と前記所定の記号とを含む、請求項１に記載の方法。
前記所定の記号が、前記予測の前記方向に応じてシーケンスの先頭またはシーケンスの末尾を表す、請求項７に記載の方法。
前記所定の記号が認識のエラーの発生を表し、前記モデルが前記所定の記号に対応する追加のトークンを有する、請求項７に記載の方法。
前記予測の前記方向が順方向であり、前記複数の前記部分のうちの後半部分が前記１つの部分として選択され、前記境界が前記後半部分の先頭である、請求項７に記載の方法。
前記予測の前記方向が逆方向であり、前記複数の前記部分のうちの前半部分が前記１つの部分として選択され、前記境界が前記前半部分の末尾である、請求項７に記載の方法。
前記トレーニング・シーケンスが、ランダムにまたは統計的に決定された位置で分割される、請求項１に記載の方法。
認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ実装方法であって、
前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが１つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することと、
前記方向に従って前記入力シーケンスを前記モデルに送り込むことと、
前記入力シーケンス内の１つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄することと、
前記入力シーケンスを再スコアリングした結果を出力することと
を含む、方法。
前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項１３に記載の方法。
前記モデルが、
要素のトレーニング・シーケンスを取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記再スコアリングの前記方向に応じて前記複数の前記部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
によって構築される、請求項１３に記載の方法。
前記モデルが、前記認識プロセスのエラーを表す追加のトークンを有する、請求項１３に記載の方法。
プログラム命令を実行することによってモデルをトレーニングするためのコンピュータ・システムであって、
前記プログラム命令を格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを備え、前記処理ユニットが、
前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが１つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することを行い、
前記トレーニング・シーケンスを複数の部分に分割し、
前記予測の前記方向に応じて前記複数の前記部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成し、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングするように構成される、
コンピュータ・システム。
前記モデルが、認識プロセスの仮説として取得された１つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項１７に記載のコンピュータ・システム。
前記処理ユニットが、前記１つの部分の境界に所定の記号を追加するように構成され、前記修正済みトレーニング・データが、前記１つの部分と前記所定の記号とを含む、請求項１７に記載のコンピュータ・システム。
プログラム命令を実行することによって、認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ・システムであって、
前記プログラム命令を格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを含み、前記処理ユニットが、
前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが１つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することを行い、
前記方向に従って前記入力シーケンスを前記モデルに送り込み、
前記入力シーケンス内の１つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄し、
前記入力シーケンスを再スコアリングした結果を出力するように構成される、
コンピュータ・システム。
前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項２０に記載のコンピュータ・システム。
モデルをトレーニングするためのコンピュータ・プログラム製品であって、
プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、
前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが１つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
前記トレーニング・シーケンスを複数の部分に分割することと、
前記予測の前記方向に応じて前記複数の前記部分のうちの１つの部分を選択して、修正済みトレーニング・データを生成することと、
前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
を含むコンピュータ実装方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
前記モデルが、認識プロセスの仮説として取得された１つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項２２に記載のコンピュータ・プログラム製品。
前記方法が、前記１つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記１つの部分と前記所定の記号とを含む、請求項２２に記載のコンピュータ・プログラム製品。
認識プロセスから取得された入力シーケンスを再スコアリングするためのコンピュータ・プログラム製品であって、
プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、請求項１３に記載の方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。