JP7335569B2 - 音声認識方法、装置及び電子機器 - Google Patents
音声認識方法、装置及び電子機器 Download PDFInfo
- Publication number
- JP7335569B2 JP7335569B2 JP2021577529A JP2021577529A JP7335569B2 JP 7335569 B2 JP7335569 B2 JP 7335569B2 JP 2021577529 A JP2021577529 A JP 2021577529A JP 2021577529 A JP2021577529 A JP 2021577529A JP 7335569 B2 JP7335569 B2 JP 7335569B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- acoustic
- data
- text data
- acoustic features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000012549 training Methods 0.000 claims description 60
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 3
- 241001521291 Morus bassanus Species 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声文書検索、口述データの録取など、多くの分野で応用することができる。
また、音声認識技術と他の自然言語処理技術(機械翻訳や音声合成技術など)とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
しかしながら、このエンドツーエンドのネットワークモデルのスキームは、オーディオ-テキストのサンプルを用いてトレーニングするが、現在のオーディオ-テキストのサンプルの数の規模は、一般的に、音響モデルのトレーニング要件を満たすだけであり、言語モデルのトレーニング要件を満たすことはできない。
その結果、当該モデルは、大語彙の連続音声認識の用途に広く適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、また、精度及び拡張性は、音響モデル+N-Gram言語モデルなどの従来のパイプラインスキームよりも劣る。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。
エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、デコーダーには、リカレントニューラルネットワーク構造が含まれる。
モデルの入出力関係に従って、前記3つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴-テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声テキスト検索、口述データ録取など、多くの分野で応用できる。
また、音声認識技術と他の自然言語処理技術(機械翻訳や音声合成など)とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン(pipeline)方式の音声認識システムでは、一般的には、音響モデルAM、言語モデルLM、及び、発音モデルPMがそれぞれ1つ含まれる。
ここで、音響モデルAMは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルAMは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率PDF付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルLMは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルPMは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン(pipeline)スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルAMは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット(subword unit)のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルLMは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記3つのモデルは、従来の隠れマルコフモデル(hidden markov model、HMM)やN-グラム(N-Gram)などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの2つを組み合わせて、モデルが2つ(発音モデルAMと言語モデルLM)しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン(pipeline)スキームの変更にかかわらず、発音モデルAMと言語モデルLMとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
発音モデルAMと言語モデルLMを別々のモジュールとしてトレーニングする従来のパイプラインスキームとは異なって、エンドツーエンドスキームでは、すべてのコンポーネントを単一のエンドツーエンドニューラルネットワークとして共同トレーニングするため、トレーニングがより簡単になり、音響特徴と言語的特徴(言語モデルLMの特徴)を十分に融合し、最適な認識結果を得るための理論的サポートを備える。
さらに、エンドツーエンドモデルは、完全にニューラルネットワークであるため、有限状態コンバーター、辞書、テキスト標準化モジュールなど、外部の手動で設計されたコンポーネントは、不要である。
最後に、従来のモデルとは異なって、エンドツーエンドのモデルをトレーニングすることは、別個のシステムから生成された決定木又は時間較正ガイダンスを必要とせず、所与のテキスト及び対応する音響特徴ペアでトレーニングすることができる。
ただし、このエンドツーエンドのモデルは、生成環境のデータ上での評価において十分なパフォーマンスを有せず、当該モデルが何万ものオーディオ-テキストサンプルペアで学習されるため、これらのサンプルは、音響モデルAMのトレーニング要件を満たすことはできるが、そのデータ規模は、従来の言語モデルのトレーニングに必要なテキストコンテンツ又は音声コンテンツの規模に対応すること、又は、それと同等であることができない。
そのため、当該モデルは、大語彙の連続音声認識システムには適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、その一般的な音声認識機能及び適用可能な場合は、従来のパイプラインスキームよりもはるかに少ない。
ここで、音響モデルのニューラルネットワーク部分は、長短期記憶ネットワーク(long short-term memory、LSTM)、リカレントニューラルネットワーク(recurrent neural network、RNN)、ゲートリカレントユニット(gate recurrent unit、GRU)、畳み込みニューラルネットワーク(convolutional neural networks、CNN)などであってもよく、本実施例では限定しない。
一方、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMMであってもよい。
どのような形式の音響モデルを採用するかは、本願では、特に限定しない。
ここで、a1は、第1の音声データを表し、T1は、第1の音声データに対応する第1のテキストデータを表す。
第1のトレーニングデータセットは、業界でよく見られるデータセットを採用してもよく、自分で収集して作成してもよく、本実施例は、これについて限定されず、一般的には、第1のトレーニングデータセットのデータ規模は、数千時間から数十万時間で異なってもよく、業界で現在の音声認識用の音声-テキストペアデータの中で規模の大きいものは、10万時間のオーダーであり、対応するテキストデータは、一般的に、200MBバイト未満であり、音響モデルのトレーニング規模を満たすことができるが、言語モデルのトレーニング規模にはるかに達しない。
音響モデルが隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMMである場合、音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含むことができる。
図2に示すように、当該音響モデルは、特徴フレーム層AM Ferture Framesと、前置ネットワーク層AMPreNetと、エンコーダー層AMEncoderと、後処理層AMPostNetとを含む。
ここで、特徴フレーム層AM Ferture Frameは、入力された音声の波形データに対してスペクトル変換を行い、音声の周波数領域特徴を得るために用いられる。
当該周波数領域特徴は、音響モデルと音声認識モデルの実際の入力データである。
周波数領域特徴は、例えば、メル周波数ケプストラム係数(mel-frequency cepstral coefficients、MFCC)、メル周波数ケプストラム(mel-frequency cepstrum、MFC)、又は線形スペクトルなどであってもよく、本願の実施例では限定しない。
前置ネットワーク層AMPreNetは、音声の周波数領域特徴に対して、計算処理のために高次元入力ベクトルに変換するなど、事前処理を行うために用いられる。
エンコーダー層AMEncoderは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNNなどであってもよく、本実施例では限定されず、音声の入力ベクトルを1つの特徴表示にマッピングするために用いられる。
後処理層AMPostNetは、多層の畳み込みニューラルネットワークCNNであってもよく、エンコーダー層の出力を畳み込んで次元削減処理を実現し、入力された音声フレームに対応する事後確率PDFの発音ユニットシーケンスグリッドを得るために用いられる。
また、当該音響モデルは、トレーニングプロセスで発音トークンシーケンスPronunciation Token Sequenceを目標として、接続タイミングモデルCTCを用いて損失Lossを計算してPDFの発音ユニットシーケンスグリッドの出力方向を監督(モニタリング)する。
ここで、発音トークンとは、テキストの発音状況を表すための情報を意味し、例えば、国際表音トークン、中国語ピンインなどであり、その単位は、音素、音節、単語、漢字であってもよく、テキストの発音状況を表す情報であれば、発音トークンとすることができ、本実施例は、これについて限定しない。
一般的に、テキストデータのデータ規模は、制限されないため、データジェネレーターモデルが得られれば、制限されずに音響特徴を生成することができ、言語モデルのトレーニングに十分使用できる。
例えば、データジェネレーターモデルは、図3に示すように、発音ユニット事後確率生成モデルText2Pdf GenModelであってもよく、当該モデルは、文字埋込層Char Embeddingと、GANNet層と、GAN後処理層GenPostNetとを含む。
ここで、文字埋込層Char Embeddingは、超大規模のテキストデータに対応する超大規模テキストトークンに対して単語埋め込みエンコーディングを実行し、編集計算のベクトル形式を得るために用いられる。
GANNet層は、テキストデータから音響特徴の表現を生成するために用いられ、GANNet層は、ディープニューラルネットワーク、又は他の生成関数及び判別関数から構成されてもよい。
GAN後処理層GenPostNetは、次元削減処理を実現するためにGANNet層を畳み込み、最終的な超大規模テキストデータに対応する超大規模音響特徴PDF By GenNetを得るために用いられる。
また、トレーニングプロセスでは、音響モデルから出力されたPDFと音響特徴PDF By GenNetとの間のクロスエントロピー損失関数CrossEntropyLoss、又は、他の損失関数を構成してトレーニング方向を互いに監督することができる。
図4に示すように、GANNetは、生成モデルGenerative Modelと判別モデルDiscriminative Modelからなり、生成モデル及び判別モデルは、相互ゲーミング且学習を通じてGANNetに良好な出力を発生させることができ、生成モデル及び判別モデルは、ニューラルネットワークであってもよく、対応する生成及び判別に適合可能な他の関数であってもよい。
発音ユニット事後確率生成モデルText2Pdf GenModelは、使用段階(連携して言語モデルLMをトレーニングするトレーニング段階を含む)において、生成モデルGenerative Model部分のみを使用する必要がある。
ここで、生成モデルと判別モデルは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNN及びTransformerなどのモデルのうちのいずれか1つ又は複数の組み合わせであってもよい。
例えば、第1のテキストデータが中国語文字列である場合、第1の発音トークンシーケンスは、中国語文字列に対応するピンイン列であってもよい。
言語モデルのトレーニング要件を満たす十分な第2の音響特徴を得るために、第2のテキストデータの規模は、第1のテキストデータの規模よりもかなり大きいであってもよい。
図7に示すように、当該言語モデルLMは、前置ネットワーク層LMPreNetと、コーデック層LMNetと、SoftMax層とを含む。
ここで、前置ネットワーク層LMPreNetは、計算を容易にするベクトル形式に変換するなど、入力された音響特徴に対して事前処理を行うために用いられる。
コーデック層LMNetは、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー-デコーダーのディープニューラルネットワークアルゴリズムを用いて構築されてもよい。
ここで、エンコーダーは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNNなどを用いて構築されてもよく、デコーダーは、リカレントニューラルネットワークRNNを用いて構築されてもよく、アテンションメカニズムは、位置に敏感なアテンションメカニズムであってもよい。
SoftMax層は、コーデック層LMNetから出力されたデータに対して正規化確率を計算し、正規化確率に基づいて確率最大結果を最終出力テキストシーケンスFinal Token Sequenceとして決定するために用いられる。
ここで、テキストシーケンスFinal Token Sequenceの生成方向を監督するために、最終出力するテキストシーケンスFinal Token SequenceとSoftMax層との間にクロスエントロピー損失関数Cross Entropy Lossを構成することができる。
あるいは、第1の音響特徴及び第2の音響特徴を言語モデルの入力とし、第1のテキストデータ及び第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングすることにより、言語モデルのトレーニングデータの規模を拡大させ、モデル品質を向上させることができる。
当該音声認識システムは、音響モデルAMと、言語モデルLMと、発音ユニット事後確率生成モデルText2Pdf GenModelとを含む。
ここで、言語モデルLMは、音響モデルAMから出力された音響特徴PDFと発音ユニット事後確率生成モデルから出力された音響特徴PDF By GenNetを入力として、最終結果であるテキストシーケンスを出力する。
モデルの入出力関係に従って、前記3つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴-テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。
音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するために用いられる第1のトレーニングユニット401と、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするために用いられる第2のトレーニングユニット402と、
データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するために用いられる第1の生成ユニット403であって、第2のテキストデータの規模が、第1のテキストデータより大きい第1の生成ユニット403と、
言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするために用いられる第3のトレーニングユニット404とを含むことができる。
また、発音ユニット事後確率生成モデルText2Pdf GenModelが音響特徴の規模を拡大するため、トレーニングにより得られた音声認識システムは、大語彙の連続音声認識の場合に適用でき、且つ高い精度を有する。
コンピュータプログラム命令は、プロセッサ501によって実行される場合、音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成し、第2のテキストデータの規模が、第1のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップとをプロセッサ501に実行させる。
また、発音ユニット事後確率生成モデルText2Pdf GenModelが音響特徴の規模を拡大するため、端末機器は、大語彙の連続音声認識の場合において音声認識を行う機能を持つことができ、且つ高い精度を有する。
Claims (8)
- 音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、
第1のテキストデータに対応する第1の発音トークンシーケンスを生成するステップと、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きいステップと、
言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするステップとを含み、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする音声認識方法。 - 前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成する前記ステップは、
前記第2のテキストデータに対応する第2の発音トークンシーケンスを生成するステップと、
前記第2の発音トークンシーケンスを前記データジェネレーターモデルに入力し、前記第2の音響特徴を生成するステップとを含む、
ことを特徴とする請求項1に記載の方法。 - 前記データジェネレーターモデルは、敵対的生成ネットワークGANNetを含む、
ことを特徴とする請求項1又は2に記載の方法。 - 前記第2のテキストデータ及び前記第2の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第2の音響特徴を前記言語モデルの入力とし、前記第2のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記第2のテキストデータ及び前記第2の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第1の音響特徴及び前記第2の音響特徴を前記言語モデルの入力とし、前記第1のテキストデータ及び前記第2のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
ことを特徴とする請求項1に記載の方法。 - 前記言語モデルには、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー及びデコーダーが含まれ、
前記エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、
前記デコーダーには、リカレントニューラルネットワーク構造が含まれる、
ことを特徴とする請求項1、4、5のいずれか一項に記載の方法。 - 音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するために用いられる第1のトレーニングユニットと、
第1のテキストデータに対応する第1の発音トークンシーケンスを生成するために用いられる第2のトレーニングユニットであって、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングする第2のトレーニングユニットと、
前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するために用いられる第1の生成ユニットであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きい第1の生成ユニットと、
言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするために用いられる第2の生成ユニットとを含み、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする音声認識装置。 - プロセッサと、コンピュータプログラム命令が記憶されているメモリとを含む電子機器であって、前記コンピュータプログラム命令は、前記プロセッサによって実行される場合、
音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、
第1のテキストデータに対応する第1の発音トークンシーケンスを生成するステップと、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きいステップと、
言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするステップと、を前記プロセッサに実行させ、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする電子機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294806.8 | 2020-11-18 | ||
CN202011294806.8A CN112420050B (zh) | 2020-11-18 | 2020-11-18 | 一种语音识别方法、装置和电子设备 |
PCT/CN2021/122961 WO2022105472A1 (zh) | 2020-11-18 | 2021-10-11 | 一种语音识别方法、装置和电子设备 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022551678A JP2022551678A (ja) | 2022-12-13 |
JPWO2022105472A5 JPWO2022105472A5 (ja) | 2023-08-02 |
JP7335569B2 true JP7335569B2 (ja) | 2023-08-30 |
Family
ID=74774269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021577529A Active JP7335569B2 (ja) | 2020-11-18 | 2021-10-11 | 音声認識方法、装置及び電子機器 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7335569B2 (ja) |
CN (1) | CN112420050B (ja) |
WO (1) | WO2022105472A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN113643694A (zh) * | 2021-08-17 | 2021-11-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN116013256B (zh) * | 2022-12-19 | 2024-01-30 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193977A1 (en) | 2018-12-12 | 2020-06-18 | Google Llc | Transliteration for speech recognition training and scoring |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3813491B2 (ja) * | 2001-10-30 | 2006-08-23 | 日本放送協会 | 連続音声認識装置およびそのプログラム |
KR20160098910A (ko) * | 2015-02-11 | 2016-08-19 | 한국전자통신연구원 | 음성 인식 데이터 베이스 확장 방법 및 장치 |
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
KR102423302B1 (ko) * | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
US11318373B2 (en) * | 2017-10-04 | 2022-05-03 | Ford Global Technologies, Llc | Natural speech data generation systems and methods |
CN110085215B (zh) * | 2018-01-23 | 2021-06-08 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
CN108922518B (zh) * | 2018-07-18 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109117484B (zh) * | 2018-08-13 | 2019-08-06 | 北京帝派智能科技有限公司 | 一种语音翻译方法和语音翻译设备 |
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
CN109739370B (zh) * | 2019-01-10 | 2019-09-03 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN111179917B (zh) * | 2020-01-17 | 2023-01-03 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
-
2020
- 2020-11-18 CN CN202011294806.8A patent/CN112420050B/zh active Active
-
2021
- 2021-10-11 JP JP2021577529A patent/JP7335569B2/ja active Active
- 2021-10-11 WO PCT/CN2021/122961 patent/WO2022105472A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193977A1 (en) | 2018-12-12 | 2020-06-18 | Google Llc | Transliteration for speech recognition training and scoring |
Non-Patent Citations (3)
Title |
---|
S. Ueno,Data Augmentation Approaches for Automatic Speech Recognition Using Text-to-Speech,博士論文,日本,京都大学,2022年03月23日 |
Z. Chen et al.,Improving Speech Recognition using GAN-based Speech Synthesis and Contrastive Unspoken Text Selection,INTERSPEECH 2020,2020年10月,556-560 |
上乃聖、外2名,End-to-End音声合成を用いた単語単位End-to-End音声認識の訓練データ拡張,日本音響学会2018年秋季研究発表会講演論文集CD-ROM,日本,日本音響学会,2018年09月,919-920 |
Also Published As
Publication number | Publication date |
---|---|
JP2022551678A (ja) | 2022-12-13 |
CN112420050B (zh) | 2021-06-18 |
WO2022105472A1 (zh) | 2022-05-27 |
CN112420050A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong | Fundamentals of speech recognition | |
JP7436709B2 (ja) | 非発話テキストおよび音声合成を使う音声認識 | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
JP7335569B2 (ja) | 音声認識方法、装置及び電子機器 | |
Matarneh et al. | Speech recognition systems: A comparative review | |
JP7436760B1 (ja) | サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス | |
JP7222153B1 (ja) | デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
KR20230086737A (ko) | 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들 | |
US20230096805A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition | |
JP2024514064A (ja) | ニューラルテキストトゥスピーチのための音素と書記素 | |
Garg et al. | Streaming On-Device End-to-End ASR System for Privacy-Sensitive Voice-Typing. | |
JP2023175029A (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
WO2020136948A1 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
CN117063228A (zh) | 用于灵活流式和非流式自动语音识别的混合模型注意力 | |
EP4295355A1 (en) | Efficient streaming non-recurrent on-device end-to-end model | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
Raheem et al. | Real-time speech recognition of arabic language | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
KR20240022598A (ko) | 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기 | |
Ahmed et al. | 8. Modern Approach of Speech Recognition | |
WO2024020154A1 (en) | Using aligned text and speech representations to train automatic speech recognition models without transcribed speech data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20230725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7335569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |