JP2022151649A - 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 - Google Patents

音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 Download PDF

Info

Publication number
JP2022151649A
JP2022151649A JP2022025648A JP2022025648A JP2022151649A JP 2022151649 A JP2022151649 A JP 2022151649A JP 2022025648 A JP2022025648 A JP 2022025648A JP 2022025648 A JP2022025648 A JP 2022025648A JP 2022151649 A JP2022151649 A JP 2022151649A
Authority
JP
Japan
Prior art keywords
text
speech recognition
probability
recognition model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022025648A
Other languages
English (en)
Other versions
JP7346788B2 (ja
Inventor
シャオ、ジュンヤオ
Junyao Shao
フ、シャオイン
Xiaoyin Fu
ザン、チグアン
Qiguang Zang
チェン、ツィジエ
Zhijie Chen
リアン、ミンシン
Mingxin Liang
ゼン、フアンシン
Huanxin Zheng
チアン、シェン
Jiang Sheng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022151649A publication Critical patent/JP2022151649A/ja
Application granted granted Critical
Publication of JP7346788B2 publication Critical patent/JP7346788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声認識モデルの認識精度を向上させることができる音声認識モデルのトレーニング方法、装置、機器及び記憶媒体を提供する。【解決手段】音声認識モデルのトレーニング方法は、音響復号化モデルと言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、融合確率に基づいて、予め設定された数の候補テキストを選択し、予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、予測テキストと音声に対応する標準テキストに基づいて、損失関数を取得し、損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、音声認識、深層学習などの技術分野に関し、特に、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体に関する。
自動音声認識(Automatic SPeech Recognition、ASR)は音声をテキストに変換する技術である。音声認識タスクを複数のサブタスクに分割する従来のASR方式とは異なり、エンドツーエンドの音声認識モデルの入力は、音響的特徴であり、出力は、直接に自然言語テキストであるため、モデルトレーニングプロセスを簡略化する。
エンドツーエンドの音声認識モデルは、シーケンスツーシーケンス(Seq2Seq)モデルであってもよく、シーケンスツーシーケンスモデルはデコーダ(decoder)を含み、エンドツーエンドの音声認識モデルをトレーニングする時、デコーダは、ビームサーチ(beam search)方式を使用して、複数の復号化結果を取得することができる。
関連技術では、デコーダがビームサーチ(beam search)を実行する時、入力は、前の時刻の出力テキストおよび音響関連情報のみを含む。
本開示は、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体を提供する。
本開示の一態様によれば、音声認識モデルのトレーニング方法を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するステップであって、前記候補テキストは、音声に対応する候補テキストであるステップと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。
本開示の別の態様によれば、音声認識モデルのトレーニング装置を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するための処理モジュールであって、前記候補テキストは、音声に対応する候補テキストである処理モジュールと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするためのトレーニングモジュールと、を含む。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。
本開示の技術案によれば、音声認識モデルの認識精度を向上させることができる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の実施例の音声認識モデルのトレーニング方法のいずれか一つ方法を実現するための電子機器の概略図である。
以下、図面に基づいて、本開示の実施例を表現する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
図1は本開示の第1の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、前記音声認識モデル、音響デコーダと言語モデルを含み、当該方法は、以下のようなステップを含む。
101、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得する。
102、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定する。
103、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングする。
本開示の実施例では、音声認識モデルは、具体的には、エンドツーエンドの音声認識モデルであってもよく、エンドツーエンドの音声認識モデルは、具体的には、注意力(attention-based)に基づくシーケンスツーシーケンスモデルであってもよい。
図2に示すように、エンドツーエンドの音声認識モデルは、エンコーダ(encoder)201、注意力モデル(attention)202、およびデコーダ203を含むことができる。エンコーダ201の入力は、音響的特徴であり、ベクトルxで表示し、音響的特徴は、様々な関連技術を使用して音声に対して特徴を抽出した後に取得することができ、例えば、音声信号をフレーム化した後、フレームごとに抽出されたFilterbank特徴である。エンコーダ201は、音響的特徴を符号化して、符号化特徴を取得し、符号化特徴は、ベクトルhencで表示する。注意力モデル202は、異なる符号化特徴に異なる重みを割り当てて、注意力処理後の特徴を取得し、ベクトルcで表示し、uは、時間情報(steP)のインデックスである。デコーダ203は、テキストを出力し、テキスト出力時に文字ごとに出力することができ、すなわち、デコーダ203は、入力特徴に基づいて出力テキストシーケンスを取得し、入力特徴は、前の時刻の出力テキストyu-1と注意力モデル202によって出力されるcを含み、デコーダ203の出力は、現在の時刻の出力テキストyである。さらに、yは、開始文字[SOS]と終了文字[EOS]を含むことができる。例えば、音声が「今日の天気(今天天气)」である場合、開始文字[SOS]に基づいて「今」を予測し、「今」に基づいて「天」を予測し、終了文字[EOS]を出力するまで、これに類推することができる。
注意力モデルの出力は、従来のASR方式と類似する音響モデルの出力であることを理解することができ、したがって、注意力モデルの出力cは、音響関連情報であるのを理解することができ、関連技術では、デコーダの入力は、前の時刻の出力テキストyu-1と音響関連情報cのみを含み、これに応じて、関連技術におけるデコーダは、音響復号化モデルのみを含むのを理解することができる。
本開示の実施例では、図2を参照して、復号化時に、音響関連情報に依存するだけでなく、言語関連情報にも依存する。図2に示すように、デコーダは、音響復号化モデルを含むだけでなく、言語モデル(Language Model、LM)をさらに含み、LMは、前の時刻の出力テキストに基づいて現在の時刻の出力テキストを予測するために用いられる。音響復号化モデルの出力ノードの数は、候補テキストの総数と同じであり、言語モデルの出力ノードの数も、候補テキストの総数と同じであり、候補テキストの数は、一つまたは複数であってもよく、複数は少なくとも二つを指す。例えば、候補テキストがM個である場合、音響復号化モデルの出力ノードと言語モデルの出力ノードの数はいずれもMであり、音響復号化モデルの出力と言語モデルの出力は、それぞれsoftmax処理を経て、[0、1]との間の数値を取得することができ、候補テキストが一つである場合、当該数値は、すなわち当該一つの候補テキストが標準テキストである確率であり、一般的に、候補テキストが複数である場合、複数の候補テキストにおける各候補テキストに対応する確率を決定する必要があり、各候補テキストに対応する確率を決定することを例として説明し、すなわち当該数値は、各候補テキストが標準テキストである確率であり、標準テキストは、音声に対応する正しいテキストを指す。区別するために、softmax処理後の音響復号化モデルの出力は、第1の確率Pと呼ぶことができ、softmax処理後の言語モデルの出力は、第2の確率Pと呼ぶことができ、その後、第1の確率Pと第2の確率Pに基づいて、各候補テキストの融合確率Pを計算し、例えば、第1の確率Pと第2の確率Pを加重加算し、加重加算値を融合確率Pとする。加重加算時の加重係数は、実際のニーズに応じて設置することができる。融合確率を計算する時、各候補テキストに対応して計算を行い、例えば、候補テキスト「今」に対応して、音響復号化モデルを使用して「今」の第1の確率を決定し、言語モデルを使用して「今」の第2の確率を決定し、また「今」の第1の確率と「今」の第2の確率に基づいて、「今」の融合確率を計算することができる。
各候補テキストの融合確率を取得した後、beam searchの幅がNであると仮定すると、融合確率の大きい順にN個の候補テキストを選択することができる。例えば、「今日の天気(今天天气)」で、第1の時刻の出力文字を予測する時に、候補テキストは、「今」、「金」、および「斤」を含むことができ、「今」の融合確率が0.7であり、「金」の融合確率が0.2であり、「斤」の融合確率が0.1であると仮定し、N=2である場合、「今」、「金」を選択することができる。
N個の候補テキストを選択した後、N個の候補テキストに基づいて予測テキストを決定することができる。例えば、直接にN個の候補テキストを予測テキストとすることができる。例えば、第1の時刻に対応して、「今」と「金」を予測テキストとする。
予測テキストを取得した後、予測テキストと標準テキストに基づいて損失関数を計算することができる。標準テキストは音声の正しいテキストと指し、手動でラベリングする方式を使用して取得することができる、例えば、上記の例では、標準テキストが「今日の天気(今天天气)」である。損失関数は、区別度トレーニングアルゴリズムで使用される損失関数であってもよく、具体的な形式は、交差エントロピー関数など、実際のニーズに応じて選択することができ、本開示の実施例では、損失関数が単語エラー率(word error rate)関数であるのを例とする。以下の式で表示する。
Figure 2022151649000002
Figure 2022151649000003
Figure 2022151649000004
Figure 2022151649000005
Figure 2022151649000006
Figure 2022151649000007
数3は、損失関数であり、yは、i番目の予測テキストであり、N個の予測テキストを共有し、yは標準テキストであり、W(y,y)は、i番目の予測テキストのエラー数であり、すなわち、yは、yに対するエラー数であり、数4は、N個の予測テキストの平均エラー数であり、数5は、正規化後の値であり、数6は、出力文字yの分布確率であり、例えば、yの融合確率Pである。
損失関数を取得した後、損失関数に基づいて音声認識モデルをトレーニングすることができ、すなわち、音声認識モデルは、ランダム方式または予めトレーニングモデルをロードする方式を使用して初期化し、初期化後、損失関数が収束するまで、音声認識モデルのパラメータを調整し、損失関数が収束する時の音声認識モデルを最終的に取得された音声認識モデルとする。音声認識モデルは、エンコーダ、注意力モデル、およびデコーダを含み、デコーダは、音響復号化モデルおよび言語モデルを含み、エンコーダ、音響復号化モデル、および言語モデルは、いずれもディープニューラルネットワークモデルであってもよく、具体的なモデル構造は、実際のニーズに応じて選択することができ、例えば、エンコーダ、音響デコーダモデル、言語モデルは、いずれもリカレントニューラルネットワーク(Recurrent Neural Network、RNN)モデルであり、注意力モデルは、マルチヘディング注意力モデル(multi-headed attention)を使用する。
本実施例では、音響復号化モデルと言語モデルに基づいて候補テキストの融合確率を計算し、融合確率に基づいて候補テキストを選択し、候補テキストを選択する時に音響関連情報を参照するだけでなく、言語モデルの関連情報も参照することができ、音声認識モデルの認識精度を向上させることができる。
図3は、本開示の第3の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、本実施例は文字ごと出力を例として、図2に示す構造を組み合わせて、当該方法は、以下のようなステップを含み、
301、音声の音響的特徴を抽出する。
音声は、例えば、「今日の天気(今天天气)」に対応する音声である。
様々な関連技術を使用して音響的特徴を抽出することができ、音響的特徴は、例えば、Filterbank特徴である。
302、エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得する。
エンコーダは、長短期記憶ネットワーク(Long Short-Term Memory、LSTM)モデルのようなRNNモデルであってもよい。
303、注意力モデルを使用して、前記符号化特徴に対して注意力処理を行って、注意力処理後の特徴を取得する。
注意力モデルは、ルチヘディング注意力モデルのような様々な関連技術におけるモデルを使用することができる。
本実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。
304、音響復号化モデルを使用して、前の時刻の出力文字および前記注意力処理後の特徴を処理して、前記音声に対応する少なくとも一つの候補テキスト中の各候補テキストに対応する第1の確率を取得する。
音響復号化モデルは、長短期記憶ネットワーク(Long Short-Term Memory、LSTM)モデルのようなRNNモデルであってもよい。
例えば、音声は「今日の天気(今天天气)」に対応する音声であり、現在の時刻は「今」を予測する場合、音響復号化モデルを使用して、開始文字[SOS]および現在の時刻注意力処理後の特徴cに基づいて処理して、各候補テキストに対応する第1の確率を取得し、例えば、各候補テキストが今、金などを含む場合、今の第1の確率、金の第1の確率などを予測して取得することができる。
305、言語モデルを使用して、前の時刻の出力文字を処理して、前記各候補テキストに対応する第2の確率を取得する。
言語モデルは、RNNモデル、Transformerモデルなどのようなニューラルネットワークモデルであってもよい。
例えば、現在の時刻は「今」を予測する場合、言語モデルを使用して、開始文字[SOS] に基づいて処理して、各候補テキストに対応する第2の確率を取得することができ、例えば、各候補テキストが今、金などを含む場合、今の第2の確率、金の第2の確率などを予測して取得することができる。
306、前記第1の確率と前記第2の確率に基づいて、前記各候補テキストに対応する融合確率を取得する。
具体的には、前記各候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定することができる。
例えば、「今」に対応して、「今」の第1の確率と第2の確率に対して加重加算した後、「今」の融合確率を取得することができる。
本実施例では、第1の確率と第2の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。
307、前記融合確率に基づいて、予め設定された数の候補テキストを選択する。
具体的には、融合確率の大きい順に、数がbeam searchの幅の候補テキストを選択することができ、例えば、beam searchの幅は、Nで表示し、N=2であると仮定すると、第1の時刻に対応して、「今」と「金」の融合確率が比較的に高い二つであると仮定する場合、「今」と「金」を第1の時刻の候補テキストとして選択することができる。
308、前記予め設定された数の候補テキストに前記音声に対応する標準テキストが存在するか否かを判断し、そうである場合、309を実行し、そうでない場合、310を実行する。
音声に対応する標準テキストは、手動でラベリングする方式を使用して取得することができる、例えば、第1の時刻に対応して、標準テキストは「今」である。
309、前記予め設定された数の候補テキストを予測テキストとして決定する。
310、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えて、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定する。
例えば、第1の時刻に対応して、標準テキストは「今」であり、選択されたN個の候補テキストの中には「金」と「斤」であり、「今」が含まれない場合、強制的に予測テキストに標準テキスト「今」を含むことができる。具体的には、コードの方式を使用することができ、指定された出力パスまたはランダムに選択された出力パスにおいて、標準テキストを使用して前の候補テキストを置き換えることができ、例えば、「今」を使用して「斤」を置き換えると、予測テキストは「今」と「金」である。
関連技術では、区別度をトレーニングする時、一般的に、平均エラー率より高い候補テキストを抑制し、平均エラー率より低い候補テキストを推奨する。ただし、N個の候補テキストに完全に正しい結果がない場合、間違った結果を推奨する問題が発生する可能性がある。
本実施例では、標準テキストを使用して候補テキストを置き換える方式によって、強制的に予測テキストに標準テキストを含むことができ、音声認識モデルの認識効果を向上させることができる。
311、前記音声に対応する標準テキストと前記予測テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得する。
現在のエラー数は、現在の時刻の予測テキストが標準テキストに対するエラー数を指し、履歴エラー数は、現在の時刻の前の履歴時刻の予測テキストが標準テキストに対するエラー数を指す。
例えば、図4を参照すると、標準テキストは「今日の天気(今天天气)」であり、関連技術では、図4の上側に示すように、エラー数を計算する時、文全体に基づいて行い、3つの予測テキストの文全体エラー数(グローバルエラー数)はすべて1であるため、局部的なエラー調整を行うことができない。
本実施例では、図4の下側に示すように、各時刻に基づいてエラー数を計算し、例えば、第1の時刻に対して、「今」「金」のエラー数を計算し、第2の時刻に対して、「今」と「天」の累積エラー数、および「金」と「天」の累積エラー数を計算し、第3の時刻に対して、「今」、「天」、および「天」の累積エラー数と、「金」、「天」、および「天」の累積エラー数と、「今」、「天」、および「添」の累積エラー数とを計算し、文全体の終了まで、これに類推する。
本実施例では、累積エラー数を計算することによって、局部的なエラー調整を実現することができる。
312、前記予測テキストの累積エラー数に基づいて、損失関数を取得する。
313、前記損失関数に基づいて、音声認識モデルをトレーニングする。
本実施例では、音響復号化モデルを使用して第1の確率を計算し、言語モデルを使用して第2の確率を計算し、第1の確率と第2の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。
図5は、本開示の第5の実施例による概略図である。本実施例は、音声認識モデルのトレーニング装置を提供し、当該装置500は、処理モジュール501、決定モジュール502、およびトレーニングモジュール503を含む。処理モジュール501は、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するために用いられ、決定モジュール502は、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するために用いられ、トレーニングモジュール503は、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするために用いられる。
いくつかの実施例では、前記処理モジュール501は、具体的には、前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得し、前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得し、前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる。
いくつかの実施例では、前記処理モジュール501は、さらに、具体的には、前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる。
いくつかの実施例では、前記決定モジュール502は、具体的には、前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定することと、または、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる。
いくつかの実施例では、前記トレーニングモジュール503は、具体的には、前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる。
いくつかの実施例では、図6に示すように、音声認識モデルのトレーニング装置をさらに提供し、当該装置600は、処理モジュール601、決定モジュール602、トレーニングモジュール603を含み、抽出モジュール604、符号化モジュール605、および注意力処理モジュール606をさらに含む。
抽出モジュール604は、前記音声の音響的特徴を抽出するために用いられ、符号化モジュール605は、前記音響的特徴を符号化して、符号化特徴を取得するために用いられ、注意力処理モジュール606は、前記符号化特徴を処理して、前記注意力処理後の特徴を取得するために用いられる。
本開示の実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。音響復号化モデルを使用して第1の確率を計算し、言語モデルを使用して第2の確率を計算し、第1の確率と第2の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。第1の確率と第2の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。累積エラー数を計算することによって、局部的なエラー調整を実現することができる。
本開示の実施例では、異なる実施例における同一または類似の内容は、お互いに参照することができることを理解されたい。
本開示の実施例における「第1」、「第2」などは、区別のためにのみ使用され、重要度の高低、タイミングの前後などを示さないことを理解されたい。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図7に示すように、本開示の実施例の例を実現するための電子機器700のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図7に示すように、電子機器700は計算ユニット701を含み、計算ユニット701は、読み取り専用メモリ(ROM)702に記憶されているコンピュータプログラムまたは記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM703には、電子機器700が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット701、ROM702、およびRAM703は、バス704を介してお互いに接続される。入出力(I/O)インターフェース705もバス704に接続される。
電子機器700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカなどの出力ユニット707と、ディスク、光ディスクなどの記憶ユニット708と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、電子機器700が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット701は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、音声認識モデルのトレーニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声認識モデルのトレーニング方法は、記憶ユニット708などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して電子機器700にロードおよび/またはインストールされる。コンピュータプログラムがRAM703にロードされて計算ユニット701によって実行される場合、上記の音声認識モデルのトレーニング方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他の任意の適切な方式(例えば、ファームウェアによって)を介して音声認識モデルのトレーニング方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ(登録商標))、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上においてここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (15)

  1. コンピュータにより実行される、音声認識モデルのトレーニング方法であって、
    前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
    前記音声認識モデルのトレーニング方法は、
    前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、
    前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、
    前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするステップと、を備える、
    音声認識モデルのトレーニング方法。
  2. 前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップは、
    前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得するステップと、
    前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得するステップと、
    前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップと、を含む、
    請求項1に記載の音声認識モデルのトレーニング方法。
  3. 前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップは、
    前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するステップと、を含む、
    請求項2に記載の音声認識モデルのトレーニング方法。
  4. 前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
    前記音声認識モデルのトレーニング方法は、
    前記音声の音響的特徴を抽出するステップと、
    前記エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得するステップと、
    前記注意力モデルを使用して、前記符号化特徴を注意力処理して、前記注意力処理後の特徴を取得するステップと、をさらに含む、
    請求項2または3に記載の音声認識モデルのトレーニング方法。
  5. 予め設定された数の候補テキストに基づいて予測テキストを決定するステップは、
    前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定するステップと、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するステップと、を含む、
    請求項1から4のいずれか一項に記載の音声認識モデルのトレーニング方法。
  6. 前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得するステップは、
    前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得するステップであって、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得されるステップと、
    前記予測テキストの累積エラー数に基づいて、損失関数を取得するステップと、を含む、
    請求項1から5のいずれか一項に記載の音声認識モデルのトレーニング方法。
  7. 音声認識モデルのトレーニング装置であって、
    前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
    前記音声認識モデルのトレーニング装置は、
    前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するための処理モジュールと、
    前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、
    前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするためのトレーニングモジュールと、を備える、
    音声認識モデルのトレーニング装置。
  8. 前記処理モジュールは、
    前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得し、
    前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得し、
    前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる、
    請求項7に記載の音声認識モデルのトレーニング装置。
  9. 前記処理モジュールは、さらに、
    前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる、
    請求項8に記載の音声認識モデルのトレーニング装置。
  10. 前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
    前記音声認識モデルのトレーニング装置は、
    前記音声の音響的特徴を抽出するための抽出モジュールと、
    前記音響的特徴を符号化して、符号化特徴を取得するための符号化モジュールと、
    前記符号化特徴を処理して、前記注意力処理後の特徴を取得するための注意力処理モジュールと、をさらに含む、
    請求項8または9に記載の音声認識モデルのトレーニング装置。
  11. 前記決定モジュールは、
    前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定し、
    前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる、
    請求項7から10のいずれか一項に記載の音声認識モデルのトレーニング装置。
  12. 前記トレーニングモジュールは、
    前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、
    前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる、
    請求項7から11のいずれか一項に記載の音声認識モデルのトレーニング装置。
  13. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実行する、
    電子機器。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  15. プロセッサによって実行される時に請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実現する、
    コンピュータプログラム。
JP2022025648A 2021-03-23 2022-02-22 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 Active JP7346788B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110308608.0A CN113129870B (zh) 2021-03-23 2021-03-23 语音识别模型的训练方法、装置、设备和存储介质
CN202110308608.0 2021-03-23

Publications (2)

Publication Number Publication Date
JP2022151649A true JP2022151649A (ja) 2022-10-07
JP7346788B2 JP7346788B2 (ja) 2023-09-20

Family

ID=76773806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022025648A Active JP7346788B2 (ja) 2021-03-23 2022-02-22 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体

Country Status (5)

Country Link
US (1) US12033616B2 (ja)
EP (1) EP4064277B1 (ja)
JP (1) JP7346788B2 (ja)
KR (1) KR20220132414A (ja)
CN (1) CN113129870B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850291B (zh) * 2021-08-18 2023-11-24 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质
CN113611311A (zh) * 2021-08-20 2021-11-05 天津讯飞极智科技有限公司 语音转写方法、装置、录音设备和存储介质
CN113889088B (zh) * 2021-09-28 2022-07-15 北京百度网讯科技有限公司 训练语音识别模型的方法及装置、电子设备和存储介质
CN114842834A (zh) * 2022-03-31 2022-08-02 中国科学院自动化研究所 一种语音文本联合预训练方法及系统
CN115116437B (zh) * 2022-04-07 2024-02-09 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品
KR102478763B1 (ko) * 2022-06-28 2022-12-19 (주)액션파워 자소 정보를 이용한 음성 인식 방법
US20240013782A1 (en) * 2022-07-11 2024-01-11 Google Llc History-Based ASR Mistake Corrections
CN115132209B (zh) * 2022-09-01 2022-11-08 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN117116264B (zh) * 2023-02-20 2024-07-23 荣耀终端有限公司 一种语音识别方法、电子设备以及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133046A (ja) * 2018-02-01 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
US20200027444A1 (en) * 2018-07-20 2020-01-23 Google Llc Speech recognition with sequence-to-sequence models
US20200357388A1 (en) * 2019-05-10 2020-11-12 Google Llc Using Context Information With End-to-End Models for Speech Recognition
JP2021501376A (ja) * 2017-12-15 2021-01-14 三菱電機株式会社 音声認識システム
JP2021039220A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US8407041B2 (en) * 2010-12-01 2013-03-26 Microsoft Corporation Integrative and discriminative technique for spoken utterance translation
US10019985B2 (en) * 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
JP6188831B2 (ja) * 2014-02-06 2017-08-30 三菱電機株式会社 音声検索装置および音声検索方法
KR20160082150A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 불완전 사전을 이용한 자연어 음성 인식 방법
US11264044B2 (en) * 2016-02-02 2022-03-01 Nippon Telegraph And Telephone Corporation Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107578771B (zh) * 2017-07-25 2021-02-02 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN110444214B (zh) * 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109887494B (zh) * 2017-12-01 2022-08-16 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
KR102699827B1 (ko) * 2018-05-11 2024-08-29 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US10810996B2 (en) * 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN110364144B (zh) * 2018-10-25 2022-09-02 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
WO2020090651A1 (ja) * 2018-10-29 2020-05-07 日本電信電話株式会社 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
US11715012B2 (en) * 2018-11-16 2023-08-01 Uatc, Llc Feature compression and localization for autonomous devices
WO2020113031A1 (en) * 2018-11-28 2020-06-04 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN109754809B (zh) * 2019-01-29 2021-02-09 北京猎户星空科技有限公司 语音识别方法、装置、电子设备及存储介质
US11538463B2 (en) * 2019-04-12 2022-12-27 Adobe Inc. Customizable speech recognition system
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
JP7104247B2 (ja) * 2019-07-09 2022-07-20 グーグル エルエルシー オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110517693B (zh) * 2019-08-01 2022-03-04 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
EP3891728A1 (en) * 2019-09-03 2021-10-13 Google LLC Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model
US11263198B2 (en) * 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
KR20210044559A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
JP7418563B2 (ja) * 2019-11-08 2024-01-19 グーグル エルエルシー オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
US11749281B2 (en) * 2019-12-04 2023-09-05 Soundhound Ai Ip, Llc Neural speech-to-meaning
KR20210079666A (ko) * 2019-12-20 2021-06-30 엘지전자 주식회사 음향 모델을 학습시키기 위한 인공 지능 장치
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
US20210210109A1 (en) * 2020-01-03 2021-07-08 Knowles Electronics, Llc Adaptive decoder for highly compressed grapheme model
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN115039170A (zh) * 2020-01-28 2022-09-09 谷歌有限责任公司 端到端语音识别中的专有名词识别
WO2021178108A1 (en) * 2020-03-04 2021-09-10 Google Llc Consistency prediction on streaming sequence models
US11990134B2 (en) * 2020-03-18 2024-05-21 Sas Institute Inc. Method for configuring and using a numeric-to-alphabetic expression machine learning model
CN111128394B (zh) * 2020-03-26 2020-12-22 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质
CN113470662B (zh) * 2020-03-31 2024-08-27 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US11741943B2 (en) * 2020-04-27 2023-08-29 SoundHound, Inc Method and system for acoustic model conditioning on non-phoneme information features
US11521595B2 (en) * 2020-05-01 2022-12-06 Google Llc End-to-end multi-talker overlapping speech recognition
US11222620B2 (en) * 2020-05-07 2022-01-11 Google Llc Speech recognition using unspoken text and speech synthesis
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
US12067978B2 (en) * 2020-06-02 2024-08-20 Samsung Electronics Co., Ltd. Methods and systems for confusion reduction for compressed acoustic models
US11741941B2 (en) * 2020-06-12 2023-08-29 SoundHound, Inc Configurable neural speech synthesis
US11335324B2 (en) * 2020-08-31 2022-05-17 Google Llc Synthesized data augmentation using voice conversion and speech recognition models
US20220093088A1 (en) * 2020-09-24 2022-03-24 Apple Inc. Contextual sentence embeddings for natural language processing applications
CN112466318B (zh) * 2020-10-27 2024-01-19 北京百度网讯科技有限公司 语音处理方法、装置及语音处理模型的生成方法、装置
CN112509562B (zh) * 2020-11-09 2024-03-22 北京有竹居网络技术有限公司 用于文本后处理的方法、装置、电子设备和介质
CN112102815B (zh) * 2020-11-13 2021-07-13 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质
US11741944B2 (en) * 2020-11-24 2023-08-29 Google Llc Speech personalization and federated training using real world noise
KR20220118583A (ko) * 2021-02-18 2022-08-26 삼성전자주식회사 안면 인장 데이터를 사용한 음성 인식

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501376A (ja) * 2017-12-15 2021-01-14 三菱電機株式会社 音声認識システム
JP2019133046A (ja) * 2018-02-01 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
US20200027444A1 (en) * 2018-07-20 2020-01-23 Google Llc Speech recognition with sequence-to-sequence models
US20200357388A1 (en) * 2019-05-10 2020-11-12 Google Llc Using Context Information With End-to-End Models for Speech Recognition
JP2021039220A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム

Also Published As

Publication number Publication date
EP4064277B1 (en) 2023-11-29
EP4064277A1 (en) 2022-09-28
KR20220132414A (ko) 2022-09-30
US20220310064A1 (en) 2022-09-29
CN113129870B (zh) 2022-03-25
JP7346788B2 (ja) 2023-09-20
CN113129870A (zh) 2021-07-16
US12033616B2 (en) 2024-07-09

Similar Documents

Publication Publication Date Title
JP2022151649A (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN112466288B (zh) 语音识别方法、装置、电子设备及存储介质
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
CN112528655B (zh) 关键词生成方法、装置、设备及存储介质
CN110797005B (zh) 韵律预测方法、装置、设备和介质
CN113407698B (zh) 意图识别模型的训练与意图识别的方法、装置
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN115130470B (zh) 一种文本关键词的生成方法、装置、设备及介质
CN116502649A (zh) 文本生成模型的训练方法、装置、电子设备及存储介质
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN115270719A (zh) 基于多模态信息的文本摘要生成方法、训练方法及其装置
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN113553863B (zh) 文本生成方法、装置、电子设备和存储介质
CN114898754B (zh) 解码图生成、语音识别方法、装置、电子设备及存储介质
CN114282552B (zh) 非自回归翻译模型的训练方法及其装置
CN114267377A (zh) 语音评估方法、训练方法、装置、电子设备以及存储介质
CN115309888A (zh) 图表摘要的生成方法和生成模型的训练方法、装置
CN115600613A (zh) 机器翻译模型的训练方法、装置、电子设备及存储介质
CN115240639A (zh) 音译模型的训练方法、装置、设备以及存储介质
CN118643827A (zh) 实体抽取模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230815

R150 Certificate of patent or registration of utility model

Ref document number: 7346788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150