JP2022526876A - モデルをトレーニングするためのトレーニング・データ修正 - Google Patents

モデルをトレーニングするためのトレーニング・データ修正 Download PDF

Info

Publication number
JP2022526876A
JP2022526876A JP2021541057A JP2021541057A JP2022526876A JP 2022526876 A JP2022526876 A JP 2022526876A JP 2021541057 A JP2021541057 A JP 2021541057A JP 2021541057 A JP2021541057 A JP 2021541057A JP 2022526876 A JP2022526876 A JP 2022526876A
Authority
JP
Japan
Prior art keywords
model
rescoring
training
computer
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021541057A
Other languages
English (en)
Other versions
JP7368479B2 (ja
JPWO2020208449A5 (ja
Inventor
岳人 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022526876A publication Critical patent/JP2022526876A/ja
Publication of JPWO2020208449A5 publication Critical patent/JPWO2020208449A5/ja
Application granted granted Critical
Publication of JP7368479B2 publication Critical patent/JP7368479B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

モデルをトレーニングするためのコンピュータ実装方法が開示される。モデルは、1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する。方法は、要素のトレーニング・シーケンスを取得することを含む。方法はまた、トレーニング・シーケンスを複数の部分に分割することを含む。方法は、モデルの方向に応じて複数の部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することをさらに含む。方法は、修正済みトレーニング・データを使用してモデルをトレーニングすることをさらに含む。

Description

本開示は、一般に、予測に使用されるモデルをトレーニングするための技法、およびモデルを使用して認識仮説を再スコアリングするための技法に関する。
音声認識において、リカレント型ニューラル・ネットワーク(RNN)言語モデルが、nグラム・モデルなどの弱い(weaker)言語モデルによって生成されたラティスにRNN言語モデルを適用するデコーディングおよびラティス再スコアリングに利用される。RNN言語モデルのモデリング機能を強化することにより、弱い言語モデルによって生成された元のラティスと比較して、再スコアリング済みラティスのエラー率が低下する。
RNN言語モデルは、その強力なモデリング機能のソースである、先行の単語の無限の履歴を表す隠れ状態を有する。RNN言語モデルは、通常、エラーがないと思われる書かれたテキストまたは書き起こされた発話あるいはその両方を使用してトレーニングされる。自動で書き起こされたテキストを、ドメイン適応の場合にトレーニング・データとして使用することもできる。しかしながら、自動で書き起こされたトレーニング・テキストのエラーの傾向は、通常、弱い言語モデルによって生成されたラティスに見られるエラーの傾向とは異なる。
認識エラーは、自動音声認識の一次結果として与えられる仮説の任意の単語位置に必然的に含まれる。しかしながら、RNN言語モデルは、このようなエラーに対処するようにトレーニングされていないため、RNNの隠れ状態は、仮説のエラーに遭遇すると崩壊し、後続の単語の言語モデルの確率を計算する際に悪影響を及ぼす。仮説のエラーによる再スコアリング・プロセスに対するこのような悪影響は、ほんの数例を挙げれば、機械翻訳タスク、画像または映画キャプション・タスクなどの他の認識タスクでも発生するおそれがある。
したがって、仮説のエラーによる予測に対する悪影響を軽減できる技法が必要である。
本発明の実施形態によれば、モデルをトレーニングするためのコンピュータ実装方法が提供される。方法は、モデルに対し要素のトレーニング・シーケンスを取得することを含み、モデルは、1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する。方法はまた、トレーニング・シーケンスを複数の部分に分割することを含む。方法はまた、予測の方向に応じて複数の部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することを含む。方法は、修正済みトレーニング・データを使用してモデルをトレーニングすることをさらに含む。
本発明の実施形態の方法によれば、モデルへの入力時に実際に発生する、シーケンスの途中から始まるまたは途中で終わる確率を推定するように、モデルをトレーニングすることができる。これにより、モデルの精度が向上する。
好ましい実施形態において、トレーニングされたモデルは、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される。これにより、再スコアリングされた結果のエラー率は、認識プロセスの元の結果と比較して減少すると予想される。モデルは、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされているので、仮説にエラーが含まれていても、モデルは仮説の再スコアリングを適切に実行することができる。仮説のエラーによる悪影響を軽減することができる。
さらに好ましい実施形態において、モデルを使用して各入力シーケンスを再スコアリングする際に、入力シーケンス内の1つの入力要素についての認識プロセスの信頼度に関する条件が満たされていることに応答して、履歴の少なくとも一部が破棄される。これにより、再スコアリングされた結果のエラー率は、認識プロセスの信頼度に基づいて履歴を破棄することなく再スコアリングされた結果と比較してさらに低下する。
さらに好ましい実施形態において、モデルは、履歴を表す隠れ状態を有する。モデルの隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、履歴が破棄される。再スコアリングは、条件を満たした要素に応答して再開される。信頼度への懸念を有する要素が仮説に含まれる場合、リセットによって、このような要素がモデルの隠れ状態を崩壊させることを防ぐことができる。仮説のこのような不確実な要素は、後続の要素に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な要素の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。
特定の実施形態において、方法は、1つの部分の境界に所定の記号を追加することをさらに含む。修正済みトレーニング・データは、1つの部分と所定の記号とを含む。所定の記号は、予測の方向に応じてシーケンスの先頭またはシーケンスの末尾を表すことができる。あるいは、所定の記号は認識のエラーを表すことができ、モデルは所定の記号に対応する追加のトークンを有する。
特定の実施形態において、予測の方向は順方向であり、複数の部分のうちの後半部分が1つの部分として選択され、所定の記号が追加される境界が後半部分の先頭である。あるいは、予測の方向は逆方向であり、複数の部分のうちの前半部分が1つの部分として選択され、所定の記号が追加される境界が前半部分の末尾である。
好ましい実施形態において、モデルはリカレント型ニューラル・ネットワーク言語モデルであり、要素のトレーニング・シーケンスは複数の単語を含むトレーニング文であり、認識プロセスは音声認識であり、音声認識から出力された結果がモデルを使用して再スコアリングされる。これにより、音声認識のパフォーマンスを向上させることができる。
本発明の他の実施形態によれば、認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ実装方法が提供される。方法は、仮説を再スコアリングするためのモデルを準備することを含む。モデルは、1つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する。方法はまた、方向に従って入力シーケンスをモデルに送り込むことを含む。方法は、入力シーケンス内の1つの入力要素についての認識プロセスの信頼度に関する条件が満たされていることに応答して、履歴の少なくとも一部を破棄することをさらに含む。方法は、入力シーケンスを再スコアリングした結果を出力することをさらに含む。
本発明の他の実施形態の方法によれば、結果のエラー率は、認識プロセスの元の結果、ならびに認識プロセスの信頼度に基づいて履歴を破棄することなく再スコアリングされた結果と比較して、低下すると予想される。仮説のエラーによる悪影響を軽減することができるので、仮説にエラーが含まれていても、モデルは仮説の再スコアリングを適切に実行することができる。
好ましい実施形態において、モデルは、履歴を表す隠れ状態を有し、モデルの隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、履歴が破棄される。再スコアリングは、条件を満たしたことに応答して再開される。信頼度への懸念を有する要素が仮説に含まれる場合、リセットによって、このような要素がモデルの隠れ状態を崩壊させることを防ぐことができる。仮説のこのような不確実な要素は、後続の要素に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な要素の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。
好ましい実施形態において、モデルは、要素のトレーニング・シーケンスを取得することと、トレーニング・シーケンスを複数の部分に分割することと、再スコアリングの方向に応じて複数の部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、修正済みトレーニング・データを使用してモデルをトレーニングすることとによって構築される。モデルは、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされているので、仮説のエラーによる悪影響をさらに軽減することができる。仮説を再スコアリングするときに、モデルが仮説のエラーに対して耐性あるようにすることができる。
本発明の1つまたは複数の態様に関するコンピュータ・システムおよびコンピュータ・プログラム製品についても、本明細書に記載し特許請求する。
さらなる特徴および利点が、本発明の技法によって実現される。本発明の他の実施形態および態様が、本明細書に詳細に記載され、特許請求される発明の一部とみなされる。
本発明とみなされる主題は、本明細書の末尾の特許請求の範囲において詳細に示され、明確に特許請求されている。本発明の上記およびその他の特徴および利点は、以下の詳細な説明を添付図面と共に読めば明らかになる。
本発明の例示的な実施形態による、再スコアリング・モジュールとトレーニング・データ修正モジュールとを含む音声認識システムのブロック図である。 本発明の例示的な実施形態による、リカレント型ニューラル・ネットワーク(RNN)言語モデルをトレーニングするためのトレーニング・データ修正の概略図である。 本発明の例示的な実施形態による、仮説の再スコアリングに使用されるRNN言語モデルをトレーニングためのプロセスを示すフローチャートである。 本発明の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスの概略図である。 本発明の例示的な実施形態による、所与の仮説に不確実な単語がないときの再スコアリング・プロセスにおける通常動作の概略図である。 本発明の例示的な実施形態による、所与の仮説に不確実な単語があるときの再スコアリング・プロセスにおけるリセット動作の概略図である。 本発明の他の例示的な実施形態による、仮説の再スコアリングに使用される逆方向RNN言語モデルをトレーニングするためのプロセスを示すフローチャートである。 本発明の他の例示的な実施形態による、逆方向RNN言語モデルを使用した再スコアリング・プロセスにおけるリセット動作の概略図である。 本発明の1つまたは複数の実施形態によるコンピュータ・システムを示す図である。
以下で、本発明を特定の実施形態に関して説明するが、以下で説明する実施形態は例としてのみ記載され、本発明の範囲を限定するものではないことを当業者は理解するだろう。
本発明による1つまたは複数の実施形態は、モデルをトレーニングするためのコンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品に関し、モデルは、シーケンス内の先行の要素の履歴を保持することができ、音声認識プロセスによって生成された一次仮説を再スコアリングするために使用され得る。本発明による1つまたは複数の他の実施形態は、モデルを使用して仮説を再スコアリングするためのコンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品に関し、仮説の再スコアリングに使用されるモデルは、シーケンス内の先行の要素の履歴を保持することができ、再スコアリングされる仮説は音声認識プロセスから取得される。
以下で、最初に図1を図2と共に参照して、本発明の例示的な実施形態による、リカレント型ニューラル・ネットワーク(RNN)言語モデルをトレーニングするため、および音声認識プロセスによって生成される一次仮説を再スコアリングするためのコンピュータ・システムについて説明する。次に、図3を参照して、本発明の例示的な実施形態による、トレーニング・データ修正を使用してRNN言語モデルをトレーニングするためのコンピュータ実装方法について説明する。次に、図4を図5および図6と共に参照して、本発明の例示的な実施形態による、RNN言語モデルを使用して一次仮説を再スコアリングするためのコンピュータ実装方法について説明する。次に、図7および図8をさらに参照して、トレーニングされるモデルが逆方向RNN言語モデルである、本発明による他の例示的な実施形態について説明する。
さらに、本発明の例示的な実施形態による、新規のトレーニング・データ修正および再スコアリング機能を使用した音声認識に関する実験研究について説明する。最後に、図9を参照して、本発明の1つまたは複数の実施形態によるコンピュータ・システムのハードウェア構成について説明する。
図1を参照すると、本発明の例示的な実施形態による音声認識システム100のブロック図が示されている。図1に示すように、音声認識システム100は、入力102を受信し、かつラティス104の形の一次認識仮説を出力するデコーダ110と、デコーダ110によって使用される音響モデル112と、デコーダ110によって使用される弱い言語モデル114と、ラティス104を受信し、かつ再スコアリング済みラティス106を出力する再スコアリング・モジュール120と、再スコアリング・モジュール120によって使用されるRNN言語モデル130とを含む。
入力102は、所定のサンプリング周波数および所定のビット深度でアナログ・オーディオ入力をサンプリングすることによってデジタル化された音声信号であってよい。デコーダ110に入力される前に、音声信号は、任意の既知の音響特徴分析を含む適切なフロントエンドを介して音響特徴のシーケンスに変換されてもよい。
デコーダ110は、音響モデル112と弱い言語モデル114とを使用して、入力102に対する妥当な音声内容を予測し、一次認識仮説をラティス104として出力する。
弱い言語モデル114は、単語のシーケンスまたは文に対する確率分布を推定するためのモデルである。弱い言語モデル114は、文中で既に見られた先行の単語に基づいて、文中の後続の単語を予測することができる。弱い言語モデル114は、ユニグラム・モデル、nグラム・モデル、最大エントロピ言語モデル、またはスキップグラム言語モデルであってよいが、これらに限定されない。
リソースが制限なく利用可能であれば、任意の最先端の言語モデルが採用される。しかしながら、利用可能なリソースは実際には限られており、音声認識の初期段階でより強力な言語モデルを適用することは効率的でない。弱い言語モデル114は、RNNなどのより洗練された言語モデルよりも仮説を生成するための計算リソースが少なく、含まれる計算リソースに十分なモデリング機能を有するという意味で弱いモデルである。
音響モデル112は、単語のシーケンスが与えられたときに音響特徴のシーケンスを生成する確率を推定するためのモデルである。音響モデル112は、ガウス混合モデル(GMM)/隠れマルコフ・モデル(HMM)、またはGMM/HMMシステムでGMMの代わりにNNを使用するニューラル・ネットワーク(NN)/HMMシステムに基づくことができ、HMMを使用して音声の時間的変化に対処し、GMMを使用して、各HMMの各状態がフレームまたは入力のフレームの短いウィンドウにどれだけ適合するかを判定する。NN/HMMシステムで採用されるニューラル・ネットワークは、ディープ・ニューラル・ネットワーク(DNN)、畳み込みニューラル・ネットワーク(CNN)、RNNベースのアーキテクチャであってよい。
デコーダ110は、一次認識仮説をラティス104として出力する。ラティス104は、複数のデコードされた文を表す。ラティス104は、ノードのリストとエッジのリストとを含むことができる。ラティス104内の各ノードは、ある時点を表すことができる。対の開始ノードと終了ノードとの間に接続された各エッジは、開始ノードの時点で始まり終了ノードの時点で終わるセグメントにまたがる単語を表す。記載された実施形態において、デコーダ110は、複数の仮説をラティスの形で出力するように構成される。しかしながら、他の実施形態において、デコーダ110は、プレフィクス・ツリー構造またはNベスト仮説のリストの形で仮説を出力してもよい。仮説の表現の形は限定されない。
ラティス104は、一次認識仮説を生成する際に計算される信頼度情報を含むことができる。音響モデル112によれば、デコーダ110は、各単語に対応する複数のユニットにわたる音響スコアの平均値のようなフレームおよび統計などの音響スコアをユニットごとに計算することができる。弱い言語モデル114によれば、デコーダ110は単語ごとの言語スコアを計算することができる。さらに、デコーダ110は、音響スコアと言語スコアとを統合することによって総信頼度スコアを計算することができる。音響スコア、平均音響スコア、言語スコア、総信頼度スコア、またはこれらの組合せを含む信頼度スコアを、ラティス104内の各単語に与えることができ、各単語についての認識の信頼度が、これらの信頼度スコアによって表される。
再スコアリング・モジュール120は、RNN言語モデル130を使用してラティス104内の各文を再スコアリングし、再スコアリング済みラティス106を出力するように構成される。リカレント型ニューラル・ネットワーク(RNN)言語モデル130は、基本的なリカレント・ニューラル・ネットワーク、長・短期記憶(LSTM)、エルマン・ネットワーク、ジョーダン・ネットワーク、ホップフィールド・ネットワーク、ゲート付きリカレント・ユニット(GRU)などを含む、隠れ状態を有する任意のリカレント型のアーキテクチャを有することができる。後続の層間の接続を含む順伝播型ネットワークと比較すると、RNNは層内の接続を含むニューラル・ネットワークの一種である。RNN言語モデル130は、先行の単語の無限の履歴を表す隠れ状態を有し、先行の単語の履歴を隠れ状態に保持することができる。「先行」および「後続」という用語は、単語のシーケンスがRNN言語モデル130に送られる方向に従った先行および後継を意味することに留意されたい。
RNN言語モデル130は、弱い言語モデル114よりも強力なモデリング機能を有する。一次音声認識から取得された仮説は、仮説の再スコアリングを受けるため、利用可能なリソースが実際には限られているにもかかわらず、より洗練されたリソース消費言語モデルを採用することができる。
再スコアリング・モジュール120は、元のラティス104を通る最良のパスを見つけるか、または元のラティス104内のパスを再ランク付けするために、RNN言語モデル130を使用して元のラティス104の各仮説を再スコアリングする。RNN言語モデル130に基づく新しい言語スコアを計算して、元のラティス104に与えられた音響スコアと組み合わせて最良のパスを見つけるか、またはパスを再ランク付けする。再スコアリング済みラティス106は、それぞれの新しいスコアを有する複数の文を表す。再スコアリング済みラティス106を使用して最良の仮説を選択するか、または仮説を再ランク付けすることは、任意であり、必要に応じて行うことができる。
記載された実施形態において、元のラティス104は、再スコアリング・モジュール120に直接入力される。しかしながら、1つまたは複数の実施形態において、元のラティス104は、拡張されたラティスを取得するために、再スコアリングの前または間にラティス拡張などの他の処理を受けてもよい。
図1に示すように、音声認識システム100は、トレーニング・モジュール140と、トレーニング・データ修正モジュール150と、トレーニング・データ・ストア160とをさらに含む。
トレーニング・モジュール140は、RNN言語モデル130を構築するために、所与のトレーニング・データを使用してトレーニング・プロセスを実行する。記載された実施形態において、トレーニング・データ・ストア160は、トランスクリプションの集合を提供する。トランスクリプションは、人間の専門家によって書き起こされたものである。自動で書き起こされたテキストは、ドメイン適応などの特定の場合にも考慮され得る。
RNN言語モデル130を、適切なアルゴリズムを使用してトレーニングすることができる。RNNを、完全または切り捨てられた通時的誤差逆伝播(BPTT)および実時間リカレント学習(RTRL)アルゴリズムなどの勾配降下法によってトレーニングすることができる。
前述したように、トレーニング・データ・ストア160に格納されたトレーニング文は、通常、人間の専門家によって書き起こされる。人間が書き起こしたテキストにはほとんどエラーはない。一方、デコーダ110によって生成されたラティス104は、通常、様々な単語位置に1つまたは複数のエラーを含む。最先端のASRシステムであっても認識を間違える。仮説のこのようなエラーによって、再スコアリング・プロセス中にRNN言語モデル130の隠れ状態が崩壊する。自動で書き起こされたトレーニング・テキストにおけるエラーの傾向も、通常、ラティス104に見られるエラーの傾向とは異なる。したがって、仮説のこのようなエラーを考慮に入れてRNN言語モデル130をトレーニングする必要がある。
このために、例示的な実施形態によるトレーニング・データ修正モジュール150は、元のトレーニング・データを修正して修正済みトレーニング・データを生成するように構成され、修正済みトレーニング・データに基づいてトレーニングされたRNN言語モデル130がラティス104のそのようなエラーに対処できるようにする。
より具体的には、トレーニング・データ修正モジュール150は、トレーニング・データ・ストア160から各トレーニング文を取得し、トレーニング文を、それぞれが1つまたは複数の単語を含む複数の部分に分割するように構成される。
図2は、RNN言語モデル130をトレーニングするためのトレーニング・データ修正の概略図である。図2に示すように、トレーニング文200は、ランダムに決定され得る分割位置206で2つの部分202、204に分割される。
トレーニング・データ修正モジュール150は、RNN言語モデル130の再スコアリングの方向に応じて複数の部分のうちの1つの部分を選択するようにさらに構成される。記載された実施形態において、RNN言語モデル130は、文頭から与えられた前の単語に基づいて文中の次の単語を予測するようにトレーニングされる。したがって、RNN言語モデル130の再スコアリングの方向は順方向である。この場合、後半部分204は複数の部分202、204の中から選択される。「次」および「前」という用語は、文の方向に従って次および前を意味することに留意されたい。
トレーニング・データ修正モジュール150は、選択された部分の境界(またはエッジ)に所定の記号を追加するようにさらに構成される。記載された実施形態において、所定の記号が追加される境界は後半部分204の先頭であり、所定の記号は、シーケンスの先頭(BOS)または文頭(SOS)を表す。したがって、修正済みトレーニング・データ210は、選択された後半部分204と、その先頭に追加された所定の記号208とを含む。選択されていない前半部分202を、トレーニング・データから破棄してよいことに留意されたい。
記載された実施形態において、RNN言語モデル130の再スコアリングの方向は順方向である。しかしながら、他の実施形態において、RNN言語モデル130を、文末から与えられた次の単語に基づいて文中の前の単語を予測するようにトレーニングしてもよい。この場合、RNN言語モデル130の再スコアリングの方向は逆方向である。RNN言語モデル130の再スコアリングの方向が逆方向である場合、前半部分202は複数の部分202、204の中から選択され、所定の記号が追加される境界は前半部分202の末尾である。また、この場合、所定の記号はシーケンスの末尾(EOS)を表す。
適切な文頭と適切な文末とを表す記号と同じである文頭記号または文末記号を追加する代わりに、さらに他の実施形態において、所定の記号は音声認識のエラーの発生を表す特別な記号であってもよい(例えば、ASR_ERROR)。この実施形態において、RNN言語モデル130は、特別な記号(ASR_ERROR)に対応する追加のトークンを有するようにトレーニングされ、自然な文頭または文末と、意図的に作成された文頭または文末とを区別して扱うことを可能にする。
前述したように、分割位置はランダムに決定される。しかしながら、他の実施形態において、分割位置は、トレーニング文が、認識エラーが発生しそうな位置で分割されるか、または認識エラーが発生しにくい位置で分割されないように、統計的に決定されてもよい。
トレーニング・データ修正モジュール150は、トレーニング・データ・ストア160に格納されているすべてのトレーニング文を修正するわけではないことに留意されたい。分割されるトレーニング文を、トレーニング・データ・ストア160内のトレーニング文の集合の中から所定の割合でランダムに決定することができる。例えば、所定数の文のうち1つの文のみ(約10%~50%の割合)がトレーニング・データ修正を受けることができる。
記載された実施形態において、1つのトレーニング文を取り上げて、1つの修正済みトレーニング文を生成するように説明されている。しかしながら、他の実施形態において、同じトレーニング文を複数回取り上げて、異なる分割位置を有する複数の修正済みトレーニング文を生成してもよい。この場合、トレーニング・データが増強されていると言える。さらに、修正済みトレーニング文210は、元の文の半分であり、前のトレーニング・データ修正によって取得されるものであり、さらにその後のトレーニング・データ修正を受けることができる。
トレーニング・モジュール140は、通常、データ修正なしにトレーニング・データ・ストア160に格納された元のトレーニング文と共に、修正済みトレーニング・データを使用してRNN言語モデル130をトレーニングするように構成される。記載された実施形態において、トレーニング・データ修正を受けた元のトレーニング・データは、これ以上トレーニングに使用されない。しかしながら、他の実施形態において、トレーニング・データ修正を受けた元のトレーニング・データは、トレーニング・データとしてまだ使用されてもよい。
前述したように、トレーニング・モジュール140によってトレーニングされたRNN言語モデル130を、再スコアリング・モジュール120によって実行される仮説の再スコアリングに使用することができる。トレーニング・データ修正により、RNN言語モデル130を、文の途中から始まるまたは文の途中で終わる確率を推定するようにトレーニングすることができる。これは、予想外に、仮説に見られるエラーによる悪影響を軽減することに寄与した。また、他の実施形態において、トレーニング・モジュール140によってトレーニングされたRNN言語モデル130を、デコーダ110によって実行されるデコーディング・プロセスに使用することができる。
前述したトレーニング・データ修正は、音声認識システム100のパフォーマンスの向上に寄与する。さらに、再スコアリング処理のロジックを変更することにより、音声認識システム100のパフォーマンスのさらなる向上が期待できる。
再スコアリング・モジュール120は、元のラティス104内の各入力文を再スコアリングする。好ましい実施形態において、再スコアリング・モジュール120は、所定の条件が満たされたときに、RNN言語モデル130に保持された履歴の少なくとも一部を破棄するようにさらに構成される。所定の条件は、入力文中の1つの単語についての音声認識の信頼度に関する条件であり、エラーがありそうな不確実な単語を見つけるために使用される。記載された実施形態において、所定の条件は、入力文中の単語に対して与えられる信頼度情報(例えば、平均音響スコア、言語スコア、総スコア)の閾値を含む。この閾値を経験的または統計的に決定することができる。他の実施形態において、より洗練された条件が考えられる。例えば、履歴を破棄するタイミングを判断するようにトレーニングされた他のニューラル・ネットワーク・モデルを使用して、所定の条件が満たされているか否かを判定することができる。
履歴はRNN言語モデル130の隠れ状態で表されるため、使用時に、モデルの方向が順方向であれば文頭(<BOS>)であり、モデルの方向が逆方向であれば文末(<EOS>)である所定の記号、または特別な記号(<ASR_ERROR>)を受け入れた状態に、RNN言語モデル130の隠れ状態をリセットすることによって、履歴を破棄することができる。上記所定の条件を満たした単語の後で、再スコアリングを再開することができる。
特定の実施形態において、図1に示すモジュール110、120、140、150の各々を、プロセッサ、メモリなどのハードウェア・コンポーネント、電子回路を含むハードウェア・モジュール、またはその組合せと連動する命令またはデータ構造あるいはその両方を含むソフトウェア・モジュールとして実装することができるが、これに限定されない。図1に示すこれらのモジュール110、120、140、150を、パーソナル・コンピュータ、サーバ・マシンなどの単一のコンピュータ・システム上に、またはクライアント・サーバ・システム、エッジ・コンピューティング・システム、コンピュータ・クラスタなどの複数のデバイスにわたって分散して実装することができる。
以下で、図3に示すフローチャートを参照して、本発明の例示的な実施形態による、トレーニング・データ修正を使用してRNN言語モデルをトレーニングするプロセスについて説明する。
図3に示すプロセスは、トレーニング・データ修正モジュール150を用いるトレーニング・モジュール140によって、すなわち、図1に示すトレーニング・モジュール140とトレーニング・データ修正モジュール150とを実装する処理ユニットによって実行され得ることに留意されたい。また、図3に示すプロセスを使用して、RNN言語モデル130を順方向に予測するようにトレーニングする。したがって、トレーニングされるRNN言語モデル130の再スコアリングの方向は順方向である。
図3に示すプロセスは、RNN言語モデル130をトレーニングするための要求をオペレータから受信したことに応答して、ステップS100で開始することができる。新しいRNNモデル(例えば、ランダムに初期化された)または予めトレーニングされたモデルを与えることができることに留意されたい。
ステップS101で、処理ユニットは、トレーニング・データ・ストア160からトレーニング文を読み取ることができる。トレーニングに使用するトレーニング文の集合を、要求において指定することができる。
ステップS102で、処理ユニットは、トレーニング・データ・ストア160から読み取られたトレーニング文がトレーニング・データ修正を受けるか否かを判定することができる。例えば、いくつかの文のうち1つのみがトレーニング・データ修正を受けることができる。所定の割合を要求において指定してもよい。ステップS102で、処理ユニットが、現在のトレーニング文がトレーニング・データ修正を受けると判定した場合、プロセスはステップS103に進むことができる。
ステップS103で、処理ユニットは、トレーニング文中の分割位置をランダムに決定することができる。
ステップS104で、処理ユニットは、ステップS103で決定された分割位置でトレーニング・シーケンスを複数の部分に分割し、RNN言語モデル130の方向に応じて複数の部分のうちの1つの部分を選択することができる。図3に示すプロセスにおいて、RNN言語モデル130の方向は順方向であるため、後半部分が選択される。
ステップS105で、処理ユニットは、図2を参照して説明したように、後半部分204の先頭に文頭記号208を追加して、修正済みトレーニング・データ210を生成することができる。修正済みトレーニング・データ210は、選択された後半部分204と所定の記号208とを含む。
ステップS102で、処理ユニットが、現在のトレーニング文がトレーニング・データ修正を受けないと判定した場合、プロセスはステップS106に直接進むことができる。
ステップS106で、処理ユニットは、修正済みトレーニング・データまたは元のトレーニング・データを使用してRNN言語モデル130のトレーニングの反復を行うことができる。トレーニングの反復は、各トレーニング文(例えば、オンライン・トレーニング)または所定の一連のトレーニング文(例えば、バッチ・トレーニング、ミニバッチ・トレーニング)に対して実行できることに留意されたい。
ステップS107で、処理ユニットは、終了条件が満たされているか否かを判定することができる。例えば、所定数のエポックが完了した場合、終了条件は満たされていると判定される。ステップS107で、処理ユニットが、終了条件がまだ満たされていないと判定した場合、プロセスはステップS101にループバックして、さらなる反復を行うことができる。一方、ステップS107で、処理ユニットが、終了条件が既に満たされていると判定した場合、プロセスはステップS108に進み、プロセスはステップS108で終了することができる。
図3に示すトレーニング・データ修正を使用してRNN言語モデルをトレーニングするプロセスによれば、RNN言語モデル130を、シーケンスの途中から始まる確率を推定するようにトレーニングすることができる。これは、予想外に、仮説に見られるエラーによる悪影響を軽減し、仮説を再スコアリングするときに、仮説のエラーに対するモデルの耐性を高めることに寄与した。したがって、再スコアリング済みラティス106のエラー率は、元のラティス104と比較して低下すると予想される。
以下で、図4を図5および図6と共に参照して、本発明の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスについてさらに説明する。一連の図4~図6を参照して説明する再スコアリング・プロセスは、RNN言語モデル130を用いる再スコアリング・モジュール120によって、すなわち、図1に示す再スコアリング・モジュール120およびRNN言語モデル130を実装する処理ユニットによって実行され得ることに留意されたい。RNN言語モデル130の再スコアリングの方向は順方向であることにも留意されたい。
最初に、再スコアリング・モジュール120は、仮説を再スコアリングするためのRNN言語モデル130を、例えばメモリ上に準備することができる。次に、ラティス104が再スコアリング・モジュール120によって読み取られる。図4に示すように、ラティス104は、複数のノード104aと、対のノード間に接続された複数のエッジ104b(図中、1つのノードと1つのエッジのみに符号が付されている)とを含む。ラティス104内の各ノード104aは、ある時点を表すことができる。対の開始ノードと終了ノードとの間に接続された各エッジ104bは、開始ノードの時点で始まり終了ノードの時点で終わるセグメントにまたがる単語を表すことができる。ラティス104内に複数のパスを引くことができるが、ここでは再スコアリング・プロセスの動作を説明するために、1つの入力文104cに焦点を当てる。
再スコアリング・モジュール120は、入力文104c中の各単語を、記載された実施形態において順方向である方向に従ってRNN言語モデル130に連続して送り込む。したがって、単語シーケンス{<BOS>、V、W、X、Y、Z、<EOS>}は、この順序でRNN言語モデル130に送り込まれる。再スコアリング・モジュール120は、RNN言語モデル130から言語モデル確率を受信して、新しい言語スコアを取得する。
図5は、再スコアリング・プロセスにおける通常動作の概略図である。仮説に不確実な単語がない場合、単語がRNN言語モデル130に送り込まれるたびに、先行の(前の)単語の履歴がRNN言語モデル130の隠れ状態130aに蓄積される。隠れ状態は、後続の(次の)単語の計算確率に影響を与えることがある。
図4に戻ると、入力文を再スコアリングする際に、例示的な実施形態による再スコアリング・モジュール120は、所定の条件が満たされていることに応答して、RNN言語モデル130の隠れ状態130aを、所定の記号(記載された実施形態における文頭)を受け入れた状態にリセットすることができる。所定の条件とは、入力文104c中の1つの入力語についての認識の信頼度に関する条件である。所定の条件は、エラーがありそうな不確実な単語を見つけるために使用される。記載された実施形態において、所定の条件は、入力文中の単語に対して与えられる信頼度スコア(例えば、平均音響スコア、言語スコア、総スコア)の閾値を含む。信頼度スコアが閾値より低い単語が見つかると、再スコアリング・モジュール120は、RNN言語モデル130の隠れ状態130aをリセットする。
図6は、再スコアリング・プロセスにおけるリセット動作の概略図である。仮説に不確実な単語(X)がある場合、RNN言語モデル130の隠れ状態に蓄積された先行の(前の)単語の履歴は、不確実な単語(X)が送り込まれた後のタイミングで破棄される。再スコアリングは、入力文の後半部分が不確実な単語(X)の位置から始まるかのように、所定の条件を満たした単語(X)の後で再開される。不確実な単語(X)を含む入力文の前半部分を保存することができる。したがって、入力シーケンス{<BOS>、V、W、X、Y、Z、<EOS>}のスコアは、前半部分{<BOS>、V、W、X}と後半部分{<BOS>、Y、Z、<EOS>}のスコアの合計として計算される。その結果、バースト・エラーの発生を防ぐことができる。
図4~図6に示すリセット動作によって入力文を再スコアリングするプロセスによれば、再スコアリング済みラティス106のエラー率は、音声認識の元のラティス104および音声認識の信頼度に基づいて履歴を破棄することなく再スコアリングされたラティスと比較して、低下すると予想される。仮説のエラーによる悪影響を軽減することができるので、仮説にエラーが含まれていても、RNN言語モデル130は仮説の再スコアリングを適切に実行することができる。
信頼度への懸念を有する単語が仮説に含まれる場合、リセットすると、そのような単語がRNN言語モデル130の隠れ状態を崩壊させなくなる。仮説のこのような不確実な要素は、後続の単語に対してリーゾナブルな隠れ状態を伝えることができるため、仮説の不確実な単語の後にバースト・エラーの発生を抑制する。これにより、不確実な要素の後の仮説のスコアを、リーゾナブルな隠れ状態を使用して計算することができる。
さらに、トレーニング・データ修正モジュール150を使用してトレーニング・モジュール140によってトレーニングされたRNN言語モデル130を採用する場合、RNN言語モデル130は、シーケンスの途中から始まるまたは途中で終わる確率を推定するようにトレーニングされる。仮説のエラーによる悪影響をさらに軽減することができる。仮説を再スコアリングするときに、仮説のエラーに対するRNN言語モデル130の耐性を高めることができる。RNN言語モデル130の特徴と組み合わせることにより、再スコアリング済みラティス106のエラー率をさらに低下させる。
前述した実施形態において、RNN言語モデル130の方向が順方向であると説明されている。図7に示すフローチャートを参照して、本発明の他の例示的な実施形態による、トレーニング・データ修正を使用して逆方向RNN言語モデルをトレーニングするプロセスについて説明する。
図7に示すプロセスは、トレーニング・データ修正モジュール150を用いるトレーニング・モジュール140によって、すなわち、図1に示すトレーニング・モジュール140とトレーニング・データ修正モジュール150とを実装する処理ユニットによって実行され得ることに留意されたい。図7に示すプロセスは、RNN言語モデル130をトレーニングするための要求をオペレータから受信したことに応答して、ステップS200で開始することができる。
ステップS201で、処理ユニットは、トレーニング・データ・ストア160からトレーニング文を読み取ることができる。ステップS202で、処理ユニットは、トレーニング文中の分割位置をランダムに決定することができる。ステップS203で、処理ユニットは、ステップS202で決定された分割位置でトレーニング・シーケンスを複数の部分に分割し、RNN言語モデル130の方向に応じて複数の部分のうちの1つの部分を選択することができる。図7に示すプロセスにおいて、RNN言語モデル130の方向は逆方向であるため、前半部分が選択される。
ステップS204で、処理ユニットは、前半部分の末尾に文末記号<EOS>を追加して、修正済みトレーニング・データを生成することができる。修正済みトレーニング・データは、選択された前半部分と、その末尾に追加された所定の記号<EOS>とを含む。選択されていない後半部分を、トレーニング・データから破棄してよいことに留意されたい。ステップS205で、処理ユニットは、所定の記号を含む前半部分を、修正済みトレーニング・データとしてトレーニング・データ・ストア160に格納することができる。
ステップS206で、処理ユニットは、終了条件が満たされているか否かを判定することができる。例えば、所定量のトレーニング・データが処理された場合、終了条件は満たされていると判定される。ステップS206で、処理ユニットが、終了条件が満たされていないと判定した場合、プロセスはステップS201にループバックして、さらなるトレーニング・データ修正を行うことができる。一方、ステップS206で、処理ユニットが、終了条件が既に満たされていると判定した場合、プロセスはステップS207に進むことができる。
ステップS207で、処理ユニットは、トレーニング・データ・ストア160に格納されている修正済みトレーニング・データおよび元のトレーニング・データを使用してRNN言語モデル130のトレーニングの反復を行うことができる。トレーニングの反復は、各トレーニング文または一連のトレーニング文に対して実行できることに留意されたい。例えば、所定数のエポックを繰り返し実行することができる。プロセスは、ステップS208で終了することができる。
以下で、図4を図8と共に参照して、本発明の他の例示的な実施形態による、リセット動作を伴う再スコアリング・プロセスについてさらに説明する。図4および図8を用いて説明する再スコアリング・プロセスは、図1に示す再スコアリング・モジュール120およびRNN言語モデル130を実装する処理ユニットによって実行され得ることに留意されたい。他の例示的な実施形態によるRNN言語モデル130の再スコアリングの方向は逆方向であることにも留意されたい。
最初に、再スコアリング・モジュール120は、逆方向RNN言語モデル130を、例えばメモリ上に準備することができる。次に、ラティス104が再スコアリング・モジュール120によって読み取られる。再スコアリング・モジュール120は、入力文104c中の各単語を、記載された実施形態において逆方向である方向に従って逆方向RNN言語モデル130に連続して送り込む。したがって、単語シーケンス{<BOS>、V、W、X、Y、Z、<EOS>}は、逆の順序で、すなわち{<EOS>、Z、Y、X、W、V、<BOS>}でRNN言語モデル130に送り込まれる。
仮説に不確実な単語がない場合、単語が逆方向RNN言語モデル130に送り込まれるたびに、先行の(次の)単語の履歴がRNN言語モデル130の隠れ状態130aに蓄積される。隠れ状態は、後続の(前の)単語の計算確率に影響を与えることがある。
入力文を再スコアリングする際に、再スコアリング・モジュール120は、所定の条件が満たされていることに応答して、RNN言語モデル130の隠れ状態130aを、所定の記号(記載された実施形態における文末)を受け入れた状態にリセットすることができる。信頼度スコアが閾値より低い単語が見つかると、再スコアリング・モジュール120は、RNN言語モデル130の隠れ状態130aをリセットする。
図8は、逆方向RNN言語モデルを使用した再スコアリング・プロセスにおけるリセット動作の概略図である。仮説に不確実な単語(X)がある場合、RNN言語モデル130の隠れ状態に蓄積された先行の(次の)単語の履歴は、不確実な単語(X)が送り込まれた後のタイミングで破棄される。再スコアリングは、入力文の前半部分が不確実な単語(X)の位置で終わるかのように、所定の条件を満たした単語(X)の後で再開される。不確実な単語(X)の位置より前の入力文の後半部分を保存することができる。
前述した本発明の実施形態によれば、仮説のエラーによる悪影響を軽減した、仮説の再スコアリングに使用するモデルをトレーニングできる技法が提供される。また、前述した本発明の実施形態によれば、パフォーマンスを向上させた、仮説を再スコアリングできる技法が提供される。
新規のトレーニング・データ修正または新規の再スコアリング・プロセスあるいはその両方を適用可能な言語として、例えば、アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語が挙げられるが、これらに決して限定されない。
さらに、前述した実施形態において、RNN言語モデル130は、1つまたは複数の先行の要素または単語の履歴を保持することができるモデルとして、仮説の再スコアリングに使用される。RNN言語モデルの隠れ状態が先行の要素または単語の無限の履歴を表すことができるため、RNNは好ましい。しかしながら、所定数の先行の要素の履歴を保持することもできるnグラム言語モデルなどの他のモデルも考えられる。
さらに、前述した実施形態において、新規のトレーニング・データ修正および新規の再スコアリング・プロセスが音声認識に適用される。しかしながら、仮説のエラーによる仮説の再スコアリングに対するそのような悪影響は、音声認識以外の様々な認識タスクにおいても生じることがある。1つまたは複数の実施形態において、新規のトレーニング・データ修正または新規の再スコアリング・プロセスあるいはその両方が適用される認識プロセスは、機械翻訳、品詞タグ付け、構文解析、光学文字認識、手書き認識、画像キャプション、または動画キャプションを含むことができる。
実験研究
例示的な実施形態による、図1に示すシステム、図3に示すトレーニング・プロセス、および図4に示す再スコアリング・プロセスを実施するプログラムをコード化して実行した。
LSTM音響モデルおよび大規模nグラム言語モデルを、それぞれ一次デコーディングのための音響モデル112および弱い言語モデル114として使用した。LSTM音響モデルおよび大規模nグラム言語モデルを含むASRシステムを、ラティス再スコアリングなしで比較例1として使用した。
LSTM言語モデルを、仮説の再スコアリングのためのRNN言語モデル130として採用した。ミシシッピ州立大学が提供するトランスクリプト付きの262時間のSwitchboard 1オーディオ、Fisherデータ・コレクションからの1698時間、および15時間のCallHomeオーディオを含む、研究開発のための電話音声コーパスであるSWITCHBOARDを使用した。LSTM言語モデルをトレーニングするために、約2000時間のオーディオ・データのトランスクリプションを使用した。実施例1および実施例3について、LSTM言語モデルを、トレーニング・データ修正機能を使用してトレーニングした。トレーニング文の30%のみがトレーニング・データ修正を受けた。一方、実施例2および比較例2について、LSTM言語モデルを、トレーニング・データ修正なしでトレーニングした。
実施例1および比較例2について、音声認識において、リセットなしの標準再スコアリングを行った。一方、実施例2および実施例3について、音声認識において、リセットを伴う新規の再スコアリングを行った。各単語に対応する期間で計算された平均音響スコアを信頼度スコアとして使用し、平均より下側の3つの標準偏差(平均-3σ(シグマ))を信頼度スコアの閾値として使用した。平均および標準偏差は、ラティス104ごとに100の最良の仮説によって推定された。
次に、実施例1~3ならびに比較例1および2の構築された音声認識システムのASR精度を、SWITCHBOARDデータセットの検証データを使用して評価した。単語エラー率(WER)をASR精度メトリックとして利用した。参照ASRシステムのWERは7.2%であり、これは、参照ASRシステムがラティス再スコアリングの前でも強力なモデリング機能を有することを意味する(比較例1)。
実施例1~3ならびに比較例1および2の評価結果は、以下のようにまとめられる。
Figure 2022526876000002

記号「*」は、列で指定された機能が適用されることを表す。
比較例2の結果と比較すると、実施例1および3はパフォーマンスの向上を示した。実施例2でも標準再スコアリング(比較例2)に匹敵するパフォーマンスを示した。これは、リセット動作がパフォーマンスを損なうことはほとんどないことを意味する。実施例1~3のうち、トレーニング段階における新規のトレーニング修正と推論段階における新規のラティス再スコアリングとを組み合わせた実施例3は、最良のパフォーマンスを示した。実施例1および3は、LSTM標準再スコアリング(比較例2)の強力なベースラインを上回った。
コンピュータ・ハードウェア・コンポーネント
次に図9を参照すると、音声認識システム100を実装するために使用できるコンピュータ・システム10の例の概略図が示されている。図9に示すコンピュータ・システム10は、コンピュータ・システムとして実装されている。コンピュータ・システム10は、適切な処理デバイスの一例に過ぎず、本明細書に記載の発明の実施形態の使用範囲または機能に関するいかなる限定も示唆するものではない。それにもかかわらず、コンピュータ・システム10は、前述した機能のいずれかを実装するまたは実行するあるいはその両方を行うことができる。
コンピュータ・システム10は、多数の他の汎用もしくは専用コンピューティング・システム環境または構成と共に動作可能である。コンピュータ・システム10と共に使用するのに適している可能性のある周知のコンピューティング・システム、環境、または構成、あるいはその組合せの例として、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルド・デバイスまたはラップトップ・デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家庭用電子機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのうちのいずれかを含む分散クラウド・コンピューティング環境などが挙げられるが、これらに限定されない。
コンピュータ・システム10を、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。通常、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。
図9に示すように、コンピュータ・システム10は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム10のコンポーネントには、プロセッサ(または処理ユニット)12、メモリ・バスもしくはメモリ・コントローラを含むバスによってプロセッサ12に結合されたメモリ16、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスが含まれるが、これらに限定されない。
コンピュータ・システム10は、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム10によってアクセスできる任意の使用可能な媒体であってよく、揮発性および不揮発性媒体、取外し可能および取外し不可の媒体を含む。
メモリ16は、ランダム・アクセス・メモリ(RAM)などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム10は、他の取外し可能/取外し不可、揮発性/不揮発性のコンピュータ・システム記憶媒体をさらに含むことができる。単に例として、取外し不可の不揮発性磁気媒体に対する読取りおよび書込みを行うために、ストレージ・システム18を設けることができる。以下でさらに図示し説明するように、ストレージ・システム18は、本発明の実施形態の機能を実行するように構成された一連の(例えば、少なくとも1つの)プログラム・モジュールを有する少なくとも1つのプログラム製品を含むことができる。一部の実施形態において、RNN言語モデル28をストレージ・システム18に格納することができる。コンピュータ10は、ストレージ・システム18に格納されたRNN言語モデル28をトレーニングすることができる。
一連の(少なくとも1つの)プログラム・モジュールを有するプログラム/ユーティリティを、例として、ストレージ・システム18に格納することができるが、これに限定されず、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データも格納することができる。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはこれらの組合せは、それぞれネットワーク環境の実装を含むことができる。プログラム・モジュールは、通常、本明細書に記載された本発明の実施形態の機能または方法あるいはその両方を実行する。
コンピュータ・システム10は、キーボード、ポインティング・デバイス、カー・ナビゲーション・システム、オーディオ・システムなどの1つまたは複数の周辺装置24、ディスプレイ26、ユーザがコンピュータ・システム10と対話することを可能にする1つまたは複数のデバイス、またはコンピュータ・システム10が1つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデムなど)、あるいはその組合せと通信することもできる。そのような通信は、入出力(I/O)インターフェース22を介して行うことができる。さらに、コンピュータ・システム10は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用ワイド・エリア・ネットワーク(WAN)、またはパブリック・ネットワーク(例えば、インターネット)、あるいはその組合せなどの1つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ20は、バスを介してコンピュータ・システム10の他のコンポーネントと通信する。図示しないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントあるいはその両方を、コンピュータ・システム10と組み合わせて使用してもよいことを理解されたい。例として、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどが挙げられるが、これらに限定されない。一部の実施形態において、コンピュータ10は、ネットワーク・アダプタ20を使用してRNN言語モデル30と通信することができる。コンピュータ10は、ネットワーク・アダプタ20を使用してRNN言語モデル30をトレーニングすることができる。RNN言語モデル30は、1つまたは複数のノードとして具現化されてよい。
コンピュータ・プログラムの実装
本発明は、コンピュータ・システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持し格納することができる有形のデバイスであってよい。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組合せであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下のもの、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ(EPROMもしくはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、携帯型コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピ(R)・ディスク、パンチカードもしくは命令が記録されている溝内の隆起構造などの機械的に符号化されたデバイス、およびこれらの任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波(例えば光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝送される電気信号などの、一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることができ、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体的にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続することができる。一部の実施形態において、本発明の態様を実行するために、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら、本発明の態様について本明細書で説明する。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
これらのコンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作の態様を実施する命令を含んだ製品を含むべく、コンピュータ可読記憶媒体に格納されて、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の方式で機能するように指示できるものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施するように、コンピュータによって実行されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表すことができる。一部の代替実装形態において、ブロックに示す機能を、図示する順序以外で行うことができる。例えば、連続して示す2つのブロックを、実際には略同時に実行することができ、または、関与する機能に応じて、それらのブロックを時として逆の順序で実行することができる。また、ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェア命令とコンピュータ命令との組合せを実行する専用ハードウェア・ベースのシステムによって実装することができることにも留意されたい。
本明細書で使用されている用語は、特定の実施形態を説明することのみを目的としたものであり、本発明を限定することを意図したものではない。本明細書で使用されるとき、単数形「a」、「an」、および「the」は、文脈が明確に他の解釈を示していない限り複数形も含むことを意図している。「含む(comprises)」または「含んでいる(comprising)」という用語あるいはその両方は、本明細書で使用されるとき、記載されている特徴、整数、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を明示するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはこれらのグループ、あるいはその組合せの存在も追加も排除しないことがさらに理解されよう。
以下の特許請求の範囲内のすべてのミーンズまたはステップ・プラス・ファンクション要素の対応する構造、材料、動作、および均等物は、存在する場合、具体的に特許請求されるように、他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、または動作を含むことが意図されている。本発明の1つまたは複数の態様の説明は、例示および説明の目的で提示されているが、網羅的であることも、開示された形態で本発明に限定することも意図していない。
記載された実施形態の範囲および思想から逸脱することなく、多くの変更および変形形態が当業者に明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の応用または技術的改善を最もよく説明するため、または当業者が本明細書に開示された実施形態を理解できるようにするために選択された。

Claims (25)

  1. モデルをトレーニングするためのコンピュータ実装方法であって、
    前記モデルに対し要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
    前記トレーニング・シーケンスを複数の部分に分割することと、
    前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
    前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
    を含む、方法。
  2. 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項1に記載の方法。
  3. 前記モデルがリカレント型ニューラル・ネットワーク言語モデルを含み、前記要素の前記トレーニング・シーケンスが複数の単語を含むトレーニング文を含み、前記認識プロセスが音声認識を含み、前記音声認識から出力された結果が、前記モデルを使用して前記仮説として再スコアリングされる、請求項2に記載の方法。
  4. 前記認識プロセスが、音声認識、機械翻訳、品詞タグ付け、構文解析、光学文字認識、手書き認識、画像キャプション、および動画キャプションから成る群から選択される、請求項2に記載の方法。
  5. 前記モデルを使用して各入力シーケンスを再スコアリングする際に、前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部が破棄される、請求項2に記載の方法。
  6. 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項5に記載の方法。
  7. 前記方法が、前記1つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項1に記載の方法。
  8. 前記所定の記号が、前記予測の前記方向に応じてシーケンスの先頭またはシーケンスの末尾を表す、請求項7に記載の方法。
  9. 前記所定の記号が認識のエラーの発生を表し、前記モデルが前記所定の記号に対応する追加のトークンを有する、請求項7に記載の方法。
  10. 前記予測の前記方向が順方向であり、前記複数の前記部分のうちの後半部分が前記1つの部分として選択され、前記境界が前記後半部分の先頭である、請求項7に記載の方法。
  11. 前記予測の前記方向が逆方向であり、前記複数の前記部分のうちの前半部分が前記1つの部分として選択され、前記境界が前記前半部分の末尾である、請求項7に記載の方法。
  12. 前記トレーニング・シーケンスが、ランダムにまたは統計的に決定された位置で分割される、請求項1に記載の方法。
  13. 認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ実装方法であって、
    前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することと、
    前記方向に従って前記入力シーケンスを前記モデルに送り込むことと、
    前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄することと、
    前記入力シーケンスを再スコアリングした結果を出力することと
    を含む、方法。
  14. 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項13に記載の方法。
  15. 前記モデルが、
    要素のトレーニング・シーケンスを取得することと、
    前記トレーニング・シーケンスを複数の部分に分割することと、
    前記再スコアリングの前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
    前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
    によって構築される、請求項13に記載の方法。
  16. 前記モデルが、前記認識プロセスのエラーを表す追加のトークンを有する、請求項13に記載の方法。
  17. プログラム命令を実行することによってモデルをトレーニングするためのコンピュータ・システムであって、
    前記プログラム命令を格納するメモリと、
    前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを備え、前記処理ユニットが、
    前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することを行い、
    前記トレーニング・シーケンスを複数の部分に分割し、
    前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成し、
    前記修正済みトレーニング・データを使用して前記モデルをトレーニングするように構成される、
    コンピュータ・システム。
  18. 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項17に記載のコンピュータ・システム。
  19. 前記処理ユニットが、前記1つの部分の境界に所定の記号を追加するように構成され、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項17に記載のコンピュータ・システム。
  20. プログラム命令を実行することによって、認識プロセスの仮説として取得された入力シーケンスを再スコアリングするためのコンピュータ・システムであって、
    前記プログラム命令を格納するメモリと、
    前記プログラム命令を実行するために前記メモリと通信する処理ユニットとを含み、前記処理ユニットが、
    前記仮説を再スコアリングするためのモデルを準備することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、再スコアリングの方向を有する、前記準備することを行い、
    前記方向に従って前記入力シーケンスを前記モデルに送り込み、
    前記入力シーケンス内の1つの入力要素についての前記認識プロセスの信頼度に関する条件が満たされていることに応答して、前記履歴の少なくとも一部を破棄し、
    前記入力シーケンスを再スコアリングした結果を出力するように構成される、
    コンピュータ・システム。
  21. 前記モデルが、前記履歴を表す隠れ状態を有し、前記モデルの前記隠れ状態を、所定の記号を受け入れた状態にリセットすることによって、前記履歴が破棄され、前記再スコアリングが、前記条件を満たす前記入力要素に応答して再開される、請求項20に記載のコンピュータ・システム。
  22. モデルをトレーニングするためのコンピュータ・プログラム製品であって、
    プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、
    前記モデルの要素のトレーニング・シーケンスを取得することであって、前記モデルが1つまたは複数の先行の要素の履歴を保持することができ、予測の方向を有する、前記取得することと、
    前記トレーニング・シーケンスを複数の部分に分割することと、
    前記予測の前記方向に応じて前記複数の前記部分のうちの1つの部分を選択して、修正済みトレーニング・データを生成することと、
    前記修正済みトレーニング・データを使用して前記モデルをトレーニングすることと
    を含むコンピュータ実装方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
  23. 前記モデルが、認識プロセスの仮説として取得された1つまたは複数の入力シーケンスを再スコアリングするために使用される、請求項22に記載のコンピュータ・プログラム製品。
  24. 前記方法が、前記1つの部分の境界に所定の記号を追加することをさらに含み、前記修正済みトレーニング・データが、前記1つの部分と前記所定の記号とを含む、請求項22に記載のコンピュータ・プログラム製品。
  25. 認識プロセスから取得された入力シーケンスを再スコアリングするためのコンピュータ・プログラム製品であって、
    プログラム命令が具現化されたコンピュータ可読記憶媒体を含み、前記プログラム命令が、請求項13に記載の方法をコンピュータに実行させるように前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
JP2021541057A 2019-04-11 2020-03-23 モデルをトレーニングするためのトレーニング・データ修正 Active JP7368479B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/381,426 US11011156B2 (en) 2019-04-11 2019-04-11 Training data modification for training model
US16/381,426 2019-04-11
PCT/IB2020/052690 WO2020208449A1 (en) 2019-04-11 2020-03-23 Training data modification for training model

Publications (3)

Publication Number Publication Date
JP2022526876A true JP2022526876A (ja) 2022-05-27
JPWO2020208449A5 JPWO2020208449A5 (ja) 2022-08-17
JP7368479B2 JP7368479B2 (ja) 2023-10-24

Family

ID=72748448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541057A Active JP7368479B2 (ja) 2019-04-11 2020-03-23 モデルをトレーニングするためのトレーニング・データ修正

Country Status (5)

Country Link
US (1) US11011156B2 (ja)
JP (1) JP7368479B2 (ja)
CN (1) CN113574545A (ja)
DE (1) DE112020001853T5 (ja)
WO (1) WO2020208449A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466285B (zh) * 2020-12-23 2022-01-28 北京百度网讯科技有限公司 离线语音识别方法、装置、电子设备及存储介质
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition
US20230237989A1 (en) * 2022-01-21 2023-07-27 International Business Machines Corporation External language model information integrated into neural transducer model
TWI816500B (zh) * 2022-08-03 2023-09-21 和碩聯合科技股份有限公司 應用於模型再訓練之圖片選取方法
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259176A (ja) 1999-03-08 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
US20040186714A1 (en) 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US8644611B2 (en) 2009-06-03 2014-02-04 Raytheon Bbn Technologies Corp. Segmental rescoring in text recognition
US9280969B2 (en) 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US8494850B2 (en) * 2011-06-30 2013-07-23 Google Inc. Speech recognition using variable-length context
EP2893435B1 (en) 2012-09-07 2019-05-08 Carnegie Mellon University Methods for hybrid gpu/cpu data processing
GB201216099D0 (en) 2012-09-10 2012-10-24 Protean Electric Ltd Capacitor
US9484023B2 (en) 2013-02-22 2016-11-01 International Business Machines Corporation Conversion of non-back-off language models for efficient speech decoding
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6461308B2 (ja) 2015-04-16 2019-01-30 三菱電機株式会社 音声認識装置およびリスコアリング装置
US10332509B2 (en) 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US20170154258A1 (en) 2015-11-30 2017-06-01 National Institute Of Information And Communications Technology Joint estimation method and method of training sequence-to-sequence model therefor
KR102072235B1 (ko) 2016-12-08 2020-02-03 한국전자통신연구원 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템
US10762417B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Efficient connectionist temporal classification for binary classification
US11113599B2 (en) 2017-06-22 2021-09-07 Adobe Inc. Image captioning utilizing semantic text modeling and adversarial learning
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences

Also Published As

Publication number Publication date
DE112020001853T5 (de) 2022-01-13
JP7368479B2 (ja) 2023-10-24
US20200327881A1 (en) 2020-10-15
US11011156B2 (en) 2021-05-18
WO2020208449A1 (en) 2020-10-15
CN113574545A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
JP6818941B2 (ja) 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム
JP6827548B2 (ja) 音声認識システム及び音声認識の方法
JP7368479B2 (ja) モデルをトレーニングするためのトレーニング・データ修正
US10431210B1 (en) Implementing a whole sentence recurrent neural network language model for natural language processing
US9934778B2 (en) Conversion of non-back-off language models for efficient speech decoding
US10019438B2 (en) External word embedding neural network language models
US9292487B1 (en) Discriminative language model pruning
IE20170201A1 (en) Neural machine translation systems
JP2021501376A (ja) 音声認識システム
US10360904B2 (en) Methods and apparatus for speech recognition using a garbage model
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN117043859A (zh) 查找表循环语言模型
US20220310097A1 (en) Reducing Streaming ASR Model Delay With Self Alignment
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
KR102519618B1 (ko) 단대단 신경망 번역 시스템 및 그 방법
CN118076997A (zh) 用于罕见词语音辨识的大规模语言模型数据选择
US20230343332A1 (en) Joint Segmenting and Automatic Speech Recognition
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
Liu et al. Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR
WO2023205367A1 (en) Joint segmenting and automatic speech recognition
Zenkel Character Based Language Modeling and Applications in Speech Recognition
JP2014153458A (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
Abdelbaqy Robotic Speech Recognition System

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231012

R150 Certificate of patent or registration of utility model

Ref document number: 7368479

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150