JP2022151649A

JP2022151649A - 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体

Info

Publication number: JP2022151649A
Application number: JP2022025648A
Authority: JP
Inventors: シャオ、ジュンヤオ; Junyao Shao; フ、シャオイン; Xiaoyin Fu; ザン、チグアン; Qiguang Zang; チェン、ツィジエ; Zhijie Chen; リアン、ミンシン; Mingxin Liang; ゼン、フアンシン; Huanxin Zheng; チアン、シェン; Jiang Sheng
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2022-02-22
Publication date: 2022-10-07
Anticipated expiration: 2042-02-22
Also published as: EP4064277B1; EP4064277A1; KR20220132414A; US20220310064A1; CN113129870B; JP7346788B2; CN113129870A; US12033616B2

Abstract

【課題】音声認識モデルの認識精度を向上させることができる音声認識モデルのトレーニング方法、装置、機器及び記憶媒体を提供する。【解決手段】音声認識モデルのトレーニング方法は、音響復号化モデルと言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、融合確率に基づいて、予め設定された数の候補テキストを選択し、予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、予測テキストと音声に対応する標準テキストに基づいて、損失関数を取得し、損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。【選択図】図１

Description

本開示は、コンピュータ技術の分野に関し、具体的には、音声認識、深層学習などの技術分野に関し、特に、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体に関する。

自動音声認識（ＡｕｔｏｍａｔｉｃＳＰｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）は音声をテキストに変換する技術である。音声認識タスクを複数のサブタスクに分割する従来のＡＳＲ方式とは異なり、エンドツーエンドの音声認識モデルの入力は、音響的特徴であり、出力は、直接に自然言語テキストであるため、モデルトレーニングプロセスを簡略化する。

エンドツーエンドの音声認識モデルは、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）モデルであってもよく、シーケンスツーシーケンスモデルはデコーダ（ｄｅｃｏｄｅｒ）を含み、エンドツーエンドの音声認識モデルをトレーニングする時、デコーダは、ビームサーチ（ｂｅａｍｓｅａｒｃｈ）方式を使用して、複数の復号化結果を取得することができる。
関連技術では、デコーダがビームサーチ（ｂｅａｍｓｅａｒｃｈ）を実行する時、入力は、前の時刻の出力テキストおよび音響関連情報のみを含む。

本開示は、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体を提供する。

本開示の一態様によれば、音声認識モデルのトレーニング方法を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するステップであって、前記候補テキストは、音声に対応する候補テキストであるステップと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。

本開示の別の態様によれば、音声認識モデルのトレーニング装置を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するための処理モジュールであって、前記候補テキストは、音声に対応する候補テキストである処理モジュールと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするためのトレーニングモジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。

本開示の技術案によれば、音声認識モデルの認識精度を向上させることができる。

本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の実施例の音声認識モデルのトレーニング方法のいずれか一つ方法を実現するための電子機器の概略図である。

以下、図面に基づいて、本開示の実施例を表現する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。

図１は本開示の第１の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、前記音声認識モデル、音響デコーダと言語モデルを含み、当該方法は、以下のようなステップを含む。
１０１、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得する。

１０２、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定する。

１０３、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングする。

本開示の実施例では、音声認識モデルは、具体的には、エンドツーエンドの音声認識モデルであってもよく、エンドツーエンドの音声認識モデルは、具体的には、注意力（ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄ）に基づくシーケンスツーシーケンスモデルであってもよい。

図２に示すように、エンドツーエンドの音声認識モデルは、エンコーダ（ｅｎｃｏｄｅｒ）２０１、注意力モデル（ａｔｔｅｎｔｉｏｎ）２０２、およびデコーダ２０３を含むことができる。エンコーダ２０１の入力は、音響的特徴であり、ベクトルｘで表示し、音響的特徴は、様々な関連技術を使用して音声に対して特徴を抽出した後に取得することができ、例えば、音声信号をフレーム化した後、フレームごとに抽出されたＦｉｌｔｅｒｂａｎｋ特徴である。エンコーダ２０１は、音響的特徴を符号化して、符号化特徴を取得し、符号化特徴は、ベクトルｈ^ｅｎｃで表示する。注意力モデル２０２は、異なる符号化特徴に異なる重みを割り当てて、注意力処理後の特徴を取得し、ベクトルｃ_ｕで表示し、ｕは、時間情報（ｓｔｅＰ）のインデックスである。デコーダ２０３は、テキストを出力し、テキスト出力時に文字ごとに出力することができ、すなわち、デコーダ２０３は、入力特徴に基づいて出力テキストシーケンスを取得し、入力特徴は、前の時刻の出力テキストｙ_ｕ－１と注意力モデル２０２によって出力されるｃ_ｕを含み、デコーダ２０３の出力は、現在の時刻の出力テキストｙ_ｕである。さらに、ｙ_ｕは、開始文字[ＳＯＳ]と終了文字[ＥＯＳ]を含むことができる。例えば、音声が「今日の天気（今天天气）」である場合、開始文字[ＳＯＳ]に基づいて「今」を予測し、「今」に基づいて「天」を予測し、終了文字[ＥＯＳ]を出力するまで、これに類推することができる。

注意力モデルの出力は、従来のＡＳＲ方式と類似する音響モデルの出力であることを理解することができ、したがって、注意力モデルの出力ｃ_ｕは、音響関連情報であるのを理解することができ、関連技術では、デコーダの入力は、前の時刻の出力テキストｙ_ｕ－１と音響関連情報ｃ_ｕのみを含み、これに応じて、関連技術におけるデコーダは、音響復号化モデルのみを含むのを理解することができる。

本開示の実施例では、図２を参照して、復号化時に、音響関連情報に依存するだけでなく、言語関連情報にも依存する。図２に示すように、デコーダは、音響復号化モデルを含むだけでなく、言語モデル（ＬａｎｇｕａｇｅＭｏｄｅｌ、ＬＭ）をさらに含み、ＬＭは、前の時刻の出力テキストに基づいて現在の時刻の出力テキストを予測するために用いられる。音響復号化モデルの出力ノードの数は、候補テキストの総数と同じであり、言語モデルの出力ノードの数も、候補テキストの総数と同じであり、候補テキストの数は、一つまたは複数であってもよく、複数は少なくとも二つを指す。例えば、候補テキストがＭ個である場合、音響復号化モデルの出力ノードと言語モデルの出力ノードの数はいずれもＭであり、音響復号化モデルの出力と言語モデルの出力は、それぞれｓｏｆｔｍａｘ処理を経て、[０、１]との間の数値を取得することができ、候補テキストが一つである場合、当該数値は、すなわち当該一つの候補テキストが標準テキストである確率であり、一般的に、候補テキストが複数である場合、複数の候補テキストにおける各候補テキストに対応する確率を決定する必要があり、各候補テキストに対応する確率を決定することを例として説明し、すなわち当該数値は、各候補テキストが標準テキストである確率であり、標準テキストは、音声に対応する正しいテキストを指す。区別するために、ｓｏｆｔｍａｘ処理後の音響復号化モデルの出力は、第１の確率Ｐ_１と呼ぶことができ、ｓｏｆｔｍａｘ処理後の言語モデルの出力は、第２の確率Ｐ_２と呼ぶことができ、その後、第１の確率Ｐ_１と第２の確率Ｐ_２に基づいて、各候補テキストの融合確率Ｐを計算し、例えば、第１の確率Ｐ_１と第２の確率Ｐ_２を加重加算し、加重加算値を融合確率Ｐとする。加重加算時の加重係数は、実際のニーズに応じて設置することができる。融合確率を計算する時、各候補テキストに対応して計算を行い、例えば、候補テキスト「今」に対応して、音響復号化モデルを使用して「今」の第１の確率を決定し、言語モデルを使用して「今」の第２の確率を決定し、また「今」の第１の確率と「今」の第２の確率に基づいて、「今」の融合確率を計算することができる。

各候補テキストの融合確率を取得した後、ｂｅａｍｓｅａｒｃｈの幅がＮであると仮定すると、融合確率の大きい順にＮ個の候補テキストを選択することができる。例えば、「今日の天気（今天天气）」で、第１の時刻の出力文字を予測する時に、候補テキストは、「今」、「金」、および「斤」を含むことができ、「今」の融合確率が０.７であり、「金」の融合確率が０.２であり、「斤」の融合確率が０.１であると仮定し、Ｎ=２である場合、「今」、「金」を選択することができる。

Ｎ個の候補テキストを選択した後、Ｎ個の候補テキストに基づいて予測テキストを決定することができる。例えば、直接にＮ個の候補テキストを予測テキストとすることができる。例えば、第１の時刻に対応して、「今」と「金」を予測テキストとする。

予測テキストを取得した後、予測テキストと標準テキストに基づいて損失関数を計算することができる。標準テキストは音声の正しいテキストと指し、手動でラベリングする方式を使用して取得することができる、例えば、上記の例では、標準テキストが「今日の天気（今天天气）」である。損失関数は、区別度トレーニングアルゴリズムで使用される損失関数であってもよく、具体的な形式は、交差エントロピー関数など、実際のニーズに応じて選択することができ、本開示の実施例では、損失関数が単語エラー率（ｗｏｒｄｅｒｒｏｒｒａｔｅ）関数であるのを例とする。以下の式で表示する。

数３は、損失関数であり、ｙ_ｉは、ｉ番目の予測テキストであり、Ｎ個の予測テキストを共有し、ｙ^＊は標準テキストであり、Ｗ（ｙ_ｉ，ｙ^＊）は、ｉ番目の予測テキストのエラー数であり、すなわち、ｙ_ｉは、ｙ^＊に対するエラー数であり、数４は、Ｎ個の予測テキストの平均エラー数であり、数５は、正規化後の値であり、数６は、出力文字ｙ_ｉの分布確率であり、例えば、ｙ_ｉの融合確率Ｐである。

損失関数を取得した後、損失関数に基づいて音声認識モデルをトレーニングすることができ、すなわち、音声認識モデルは、ランダム方式または予めトレーニングモデルをロードする方式を使用して初期化し、初期化後、損失関数が収束するまで、音声認識モデルのパラメータを調整し、損失関数が収束する時の音声認識モデルを最終的に取得された音声認識モデルとする。音声認識モデルは、エンコーダ、注意力モデル、およびデコーダを含み、デコーダは、音響復号化モデルおよび言語モデルを含み、エンコーダ、音響復号化モデル、および言語モデルは、いずれもディープニューラルネットワークモデルであってもよく、具体的なモデル構造は、実際のニーズに応じて選択することができ、例えば、エンコーダ、音響デコーダモデル、言語モデルは、いずれもリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）モデルであり、注意力モデルは、マルチヘディング注意力モデル（ｍｕｌｔｉ－ｈｅａｄｅｄａｔｔｅｎｔｉｏｎ）を使用する。

本実施例では、音響復号化モデルと言語モデルに基づいて候補テキストの融合確率を計算し、融合確率に基づいて候補テキストを選択し、候補テキストを選択する時に音響関連情報を参照するだけでなく、言語モデルの関連情報も参照することができ、音声認識モデルの認識精度を向上させることができる。

図３は、本開示の第３の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、本実施例は文字ごと出力を例として、図２に示す構造を組み合わせて、当該方法は、以下のようなステップを含み、
３０１、音声の音響的特徴を抽出する。

音声は、例えば、「今日の天気（今天天气）」に対応する音声である。

様々な関連技術を使用して音響的特徴を抽出することができ、音響的特徴は、例えば、Ｆｉｌｔｅｒｂａｎｋ特徴である。

３０２、エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得する。

エンコーダは、長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）モデルのようなＲＮＮモデルであってもよい。

３０３、注意力モデルを使用して、前記符号化特徴に対して注意力処理を行って、注意力処理後の特徴を取得する。

注意力モデルは、ルチヘディング注意力モデルのような様々な関連技術におけるモデルを使用することができる。

本実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。

３０４、音響復号化モデルを使用して、前の時刻の出力文字および前記注意力処理後の特徴を処理して、前記音声に対応する少なくとも一つの候補テキスト中の各候補テキストに対応する第１の確率を取得する。

音響復号化モデルは、長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）モデルのようなＲＮＮモデルであってもよい。

例えば、音声は「今日の天気（今天天气）」に対応する音声であり、現在の時刻は「今」を予測する場合、音響復号化モデルを使用して、開始文字[ＳＯＳ]および現在の時刻注意力処理後の特徴c_１に基づいて処理して、各候補テキストに対応する第１の確率を取得し、例えば、各候補テキストが今、金などを含む場合、今の第１の確率、金の第１の確率などを予測して取得することができる。

３０５、言語モデルを使用して、前の時刻の出力文字を処理して、前記各候補テキストに対応する第２の確率を取得する。

言語モデルは、ＲＮＮモデル、Ｔｒａｎｓｆｏｒｍｅｒモデルなどのようなニューラルネットワークモデルであってもよい。

例えば、現在の時刻は「今」を予測する場合、言語モデルを使用して、開始文字[ＳＯＳ] に基づいて処理して、各候補テキストに対応する第２の確率を取得することができ、例えば、各候補テキストが今、金などを含む場合、今の第２の確率、金の第２の確率などを予測して取得することができる。

３０６、前記第１の確率と前記第２の確率に基づいて、前記各候補テキストに対応する融合確率を取得する。

具体的には、前記各候補テキストに対応して、前記第１の確率と前記第２の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定することができる。

例えば、「今」に対応して、「今」の第１の確率と第２の確率に対して加重加算した後、「今」の融合確率を取得することができる。

本実施例では、第１の確率と第２の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。

３０７、前記融合確率に基づいて、予め設定された数の候補テキストを選択する。

具体的には、融合確率の大きい順に、数がｂｅａｍｓｅａｒｃｈの幅の候補テキストを選択することができ、例えば、ｂｅａｍｓｅａｒｃｈの幅は、Ｎで表示し、Ｎ=２であると仮定すると、第１の時刻に対応して、「今」と「金」の融合確率が比較的に高い二つであると仮定する場合、「今」と「金」を第１の時刻の候補テキストとして選択することができる。

３０８、前記予め設定された数の候補テキストに前記音声に対応する標準テキストが存在するか否かを判断し、そうである場合、３０９を実行し、そうでない場合、３１０を実行する。

音声に対応する標準テキストは、手動でラベリングする方式を使用して取得することができる、例えば、第１の時刻に対応して、標準テキストは「今」である。

３０９、前記予め設定された数の候補テキストを予測テキストとして決定する。

３１０、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えて、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定する。

例えば、第１の時刻に対応して、標準テキストは「今」であり、選択されたＮ個の候補テキストの中には「金」と「斤」であり、「今」が含まれない場合、強制的に予測テキストに標準テキスト「今」を含むことができる。具体的には、コードの方式を使用することができ、指定された出力パスまたはランダムに選択された出力パスにおいて、標準テキストを使用して前の候補テキストを置き換えることができ、例えば、「今」を使用して「斤」を置き換えると、予測テキストは「今」と「金」である。

関連技術では、区別度をトレーニングする時、一般的に、平均エラー率より高い候補テキストを抑制し、平均エラー率より低い候補テキストを推奨する。ただし、Ｎ個の候補テキストに完全に正しい結果がない場合、間違った結果を推奨する問題が発生する可能性がある。

本実施例では、標準テキストを使用して候補テキストを置き換える方式によって、強制的に予測テキストに標準テキストを含むことができ、音声認識モデルの認識効果を向上させることができる。

３１１、前記音声に対応する標準テキストと前記予測テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得する。

現在のエラー数は、現在の時刻の予測テキストが標準テキストに対するエラー数を指し、履歴エラー数は、現在の時刻の前の履歴時刻の予測テキストが標準テキストに対するエラー数を指す。

例えば、図４を参照すると、標準テキストは「今日の天気（今天天气）」であり、関連技術では、図４の上側に示すように、エラー数を計算する時、文全体に基づいて行い、３つの予測テキストの文全体エラー数（グローバルエラー数）はすべて１であるため、局部的なエラー調整を行うことができない。

本実施例では、図４の下側に示すように、各時刻に基づいてエラー数を計算し、例えば、第１の時刻に対して、「今」「金」のエラー数を計算し、第２の時刻に対して、「今」と「天」の累積エラー数、および「金」と「天」の累積エラー数を計算し、第３の時刻に対して、「今」、「天」、および「天」の累積エラー数と、「金」、「天」、および「天」の累積エラー数と、「今」、「天」、および「添」の累積エラー数とを計算し、文全体の終了まで、これに類推する。

本実施例では、累積エラー数を計算することによって、局部的なエラー調整を実現することができる。

３１２、前記予測テキストの累積エラー数に基づいて、損失関数を取得する。

３１３、前記損失関数に基づいて、音声認識モデルをトレーニングする。

本実施例では、音響復号化モデルを使用して第１の確率を計算し、言語モデルを使用して第２の確率を計算し、第１の確率と第２の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。

図５は、本開示の第５の実施例による概略図である。本実施例は、音声認識モデルのトレーニング装置を提供し、当該装置５００は、処理モジュール５０１、決定モジュール５０２、およびトレーニングモジュール５０３を含む。処理モジュール５０１は、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するために用いられ、決定モジュール５０２は、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するために用いられ、トレーニングモジュール５０３は、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするために用いられる。

いくつかの実施例では、前記処理モジュール５０１は、具体的には、前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第１の確率を取得し、前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第２の確率を取得し、前記第１の確率と前記第２の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる。

いくつかの実施例では、前記処理モジュール５０１は、さらに、具体的には、前記候補テキストに対応して、前記第１の確率と前記第２の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる。

いくつかの実施例では、前記決定モジュール５０２は、具体的には、前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定することと、または、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる。

いくつかの実施例では、前記トレーニングモジュール５０３は、具体的には、前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる。

いくつかの実施例では、図６に示すように、音声認識モデルのトレーニング装置をさらに提供し、当該装置６００は、処理モジュール６０１、決定モジュール６０２、トレーニングモジュール６０３を含み、抽出モジュール６０４、符号化モジュール６０５、および注意力処理モジュール６０６をさらに含む。

抽出モジュール６０４は、前記音声の音響的特徴を抽出するために用いられ、符号化モジュール６０５は、前記音響的特徴を符号化して、符号化特徴を取得するために用いられ、注意力処理モジュール６０６は、前記符号化特徴を処理して、前記注意力処理後の特徴を取得するために用いられる。

本開示の実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。音響復号化モデルを使用して第１の確率を計算し、言語モデルを使用して第２の確率を計算し、第１の確率と第２の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。第１の確率と第２の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。累積エラー数を計算することによって、局部的なエラー調整を実現することができる。

本開示の実施例では、異なる実施例における同一または類似の内容は、お互いに参照することができることを理解されたい。

本開示の実施例における「第１」、「第２」などは、区別のためにのみ使用され、重要度の高低、タイミングの前後などを示さないことを理解されたい。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。

図７に示すように、本開示の実施例の例を実現するための電子機器７００のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図７に示すように、電子機器７００は計算ユニット７０１を含み、計算ユニット７０１は、読み取り専用メモリ（ＲＯＭ）７０２に記憶されているコンピュータプログラムまたは記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ７０３には、電子機器７００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続される。

電子機器７００内の複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどの入力ユニット７０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット７０７と、ディスク、光ディスクなどの記憶ユニット７０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９と、を含む。通信ユニット７０９は、電子機器７００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット７０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット７０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、音声認識モデルのトレーニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声認識モデルのトレーニング方法は、記憶ユニット７０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介して電子機器７００にロードおよび／またはインストールされる。コンピュータプログラムがＲＡＭ７０３にロードされて計算ユニット７０１によって実行される場合、上記の音声認識モデルのトレーニング方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット７０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介して音声認識モデルのトレーニング方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ（登録商標））、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上においてここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または「ＶＰＳ」と略称する）に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

コンピュータにより実行される、音声認識モデルのトレーニング方法であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング方法は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするステップと、を備える、
音声認識モデルのトレーニング方法。
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第１の確率を取得するステップと、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第２の確率を取得するステップと、
前記第１の確率と前記第２の確率に基づいて、前記候補テキストの融合確率を取得するステップと、を含む、
請求項１に記載の音声認識モデルのトレーニング方法。
前記第１の確率と前記第２の確率に基づいて、前記候補テキストの融合確率を取得するステップは、
前記候補テキストに対応して、前記第１の確率と前記第２の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するステップと、を含む、
請求項２に記載の音声認識モデルのトレーニング方法。
前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング方法は、
前記音声の音響的特徴を抽出するステップと、
前記エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得するステップと、
前記注意力モデルを使用して、前記符号化特徴を注意力処理して、前記注意力処理後の特徴を取得するステップと、をさらに含む、
請求項２または３に記載の音声認識モデルのトレーニング方法。
予め設定された数の候補テキストに基づいて予測テキストを決定するステップは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定するステップと、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するステップと、を含む、
請求項１から４のいずれか一項に記載の音声認識モデルのトレーニング方法。
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得するステップは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得するステップであって、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得されるステップと、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するステップと、を含む、
請求項１から５のいずれか一項に記載の音声認識モデルのトレーニング方法。
音声認識モデルのトレーニング装置であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング装置は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するための処理モジュールと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするためのトレーニングモジュールと、を備える、
音声認識モデルのトレーニング装置。
前記処理モジュールは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第１の確率を取得し、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第２の確率を取得し、
前記第１の確率と前記第２の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる、
請求項７に記載の音声認識モデルのトレーニング装置。
前記処理モジュールは、さらに、
前記候補テキストに対応して、前記第１の確率と前記第２の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる、
請求項８に記載の音声認識モデルのトレーニング装置。
前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング装置は、
前記音声の音響的特徴を抽出するための抽出モジュールと、
前記音響的特徴を符号化して、符号化特徴を取得するための符号化モジュールと、
前記符号化特徴を処理して、前記注意力処理後の特徴を取得するための注意力処理モジュールと、をさらに含む、
請求項８または９に記載の音声認識モデルのトレーニング装置。
前記決定モジュールは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定し、
前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる、
請求項７から１０のいずれか一項に記載の音声認識モデルのトレーニング装置。
前記トレーニングモジュールは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる、
請求項７から１１のいずれか一項に記載の音声認識モデルのトレーニング装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１から６のいずれか一項に記載の音声認識モデルのトレーニング方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から６のいずれか一項に記載の音声認識モデルのトレーニング方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１から６のいずれか一項に記載の音声認識モデルのトレーニング方法を実現する、
コンピュータプログラム。