JP7164098B2 - 音声を認識する方法及び装置 - Google Patents
音声を認識する方法及び装置 Download PDFInfo
- Publication number
- JP7164098B2 JP7164098B2 JP2021561604A JP2021561604A JP7164098B2 JP 7164098 B2 JP7164098 B2 JP 7164098B2 JP 2021561604 A JP2021561604 A JP 2021561604A JP 2021561604 A JP2021561604 A JP 2021561604A JP 7164098 B2 JP7164098 B2 JP 7164098B2
- Authority
- JP
- Japan
- Prior art keywords
- pinyin
- chinese character
- mapping function
- sample
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 230000006870 function Effects 0.000 claims description 193
- 238000013507 mapping Methods 0.000 claims description 131
- 238000001228 spectrum Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000000306 recurrent effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
同音字、多音字を含む又は発音が曖昧な音声を認識する場合、漢字認識結果しか認識できない又はピンイン認識結果しか認識できなければ、認識精度は高くない。同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証するために、当業者は漢字認識方法及びピンイン認識方法を用いてそれぞれ音声を認識し、漢字認識結果及びピンイン認識結果を得ることを容易に想到する。しかし2種類の認識方法を用いてそれぞれ音声を認識すると、高い認識コストが生じる。
当該ステップにおいて、具体的に実施する時、図2に示されるように、漢字マッピング関数は三層の畳み込みニューラルネットワーク(ConvolutionalNeural Network、略称CNN)の演算関数、一層のゲート付き回帰型ユニットネットワーク(Gated Recurrent Unit、略称GRU)の演算関数及び二層の全結合型ネットワーク(Fully Connected、略称FC)の演算関数を含む。ピンインマッピング関数も三層の畳み込みニューラルネットワークの演算関数、一層のゲート付き回帰型ユニットネットワークの演算関数及び二層の全結合型ネットワークの演算関数を含む。漢字マッピング関数におけるCNN演算関数とピンインマッピング関数におけるCNN演算関数は同じであり、漢字マッピング関数におけるGRU演算関数とピンインマッピング関数におけるGRU演算関数は同じであるが、漢字マッピング関数におけるFC演算関数とピンインマッピング関数におけるFC演算関数は異なる。
l1 = c(x、P1、O1)
l2 = c(l1、P2、O2)
l3 = c(l2、P3、O3)
但し、c(x、P1、O1)は第一層畳み込みニューラルネットワークの演算関数を表し、c(l1、P2、O2)は第二層畳み込みニューラルネットワークの演算関数を表し、c(l2、P3、O3)は第三層畳み込みニューラルネットワークの演算関数を表し、l1は第一層畳み込みニューラルネットワークの演算結果を表し、 l2は第二層畳み込みニューラルネットワークの演算結果を表し、 l3は第三層畳み込みニューラルネットワークの演算結果を表し、x はスペクトル(xは引数)を表し、P1は第一層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、P2は第二層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、P3は第三層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、O1は第一層畳み込みニューラルネットワークのステップサイズパラメータを表し、O2は第二層畳み込みニューラルネットワークのステップサイズパラメータを表し、O3は第三層畳み込みニューラルネットワークのステップサイズパラメータを表す。c(x、P1、O1)、c(l1、P2、O2)及びc(l2、P3、O3)は従来の畳み込みニューラルネットワークの演算関数を用いればよい。
l4 = g(l3、 N1、 M1)
但し、g(l3、 N1、 M1)はゲート付き回帰型ユニットネットワークの演算関数を表し、l4はゲート付き回帰型ユニットネットワークの演算結果を表し、N1はゲート付き回帰型ユニットネットワークのパラメータを表し、M1表示ゲート付き回帰型ユニットネットワークの隠れ層数を表す。g(l3、 N1、 M1)は従来のゲート付き回帰型ユニットネットワークの演算関数を用いればよい。
l5_1 =W4_1*l4+b4_1
l5_2 =W4_2*l4+b4_2
但し、W4_1*l4+b4_1は漢字の第一層全結合型ネットワークの演算関数を表し、W4_2*l4+b4_2はピンインの第一層全結合型ネットワークの演算関数を表し、l5_1は漢字の第一層全結合型ネットワークの演算結果を表し、l5_2はピンインの第一層全結合型ネットワークの演算結果を表し、W4_1は漢字の第一層全結合型ネットワークの重み行列を表し、W4_2はピンインの第一層全結合型ネットワークの重み行列を表し、b4_1は漢字の第一層全結合型ネットワークのバイアスベクトルを表し、b4_2はピンインの第一層全結合型ネットワークのバイアスベクトルを表す。
l6_1 =W5_1*l5_1+b5_1
l6_2 =W5_2*l5_2+b5_2
但し、W5_1*l5_1+b5_1は漢字の第二層全結合型ネットワークの演算関数を表し、W5_2*l5_2+b5_2はピンインの第二層全結合型ネットワークの演算関数を表し、l6_1(l6_1は1つ目の従属変数である)は漢字の第二層全結合型ネットワークの演算結果を表し、l6_2(l6_2は2つ目の従属変数である)はピンインの第二層全結合型ネットワークの演算結果を表し、W5_1は漢字の第二層全結合型ネットワークの重み行列を表し、W5_2はピンインの第二層全結合型ネットワークの重み行列を表し、b5_1は漢字の第二層全結合型ネットワークのバイアスベクトルを表し、 b5_2はピンインの第二層全結合型ネットワークのバイアスベクトルを表す。
当該ステップにおいて、複数の学習サンプルは3000種の漢字、1200種のピンインを含むことができ、学習サンプルが多いほど、漢字及びピンインの種類は多い。ステップS102の発明を実施するための形態は図3に示される実施例を参照できる。
当該ステップにおいて、具体的に実施する時、被識別音声のセッションに対して短時間フーリエ変換を行い、被識別音声のスペクトルを得て、被識別音声のスペクトルをターゲットマッピング関数のパラメータとして計算し、被識別音声の漢字認識結果及びピンイン認識結果を得る。
当該ステップにおいて、ステップS301の発明を実施するための形態は図4に示される実施例を参照できる。
当該ステップにおいて、結合損失関数は従来のコネクショニスト時系列分類(Connectionist Temporal Classification、略称CTC)損失関数に似ているが、結合損失関数のパラメータは漢字損失値及びピンイン損失値を含むのに対し、従来のコネクショニスト時系列分類損失関数のパラメータは漢字損失値しか含まない、又はピンイン損失値しか含まない点で異なる。ステップS302の発明を実施するための形態は図5に示される実施例を参照できる。
当該ステップにおいて、具体的に実施する時、各々の学習サンプルの結合損失値に基づいて適応モーメント推定方法(Adaptive Moment Estimation、略称ADAM)を用いて計算し、漢字係数のターゲット値及びピンイン係数のターゲット値を得る。適応モーメント推定方法は、従来の確率的勾配降下法に代わることができる一次最適化アルゴリズムである。
当該ステップにおいて、学習サンプルは下記の方式により得ることができる:サンプル音声のセッションに対して短時間フーリエ変換を行えばサンプル音声のスペクトルを得ることができる。当該サンプル音声とマッチングする漢字(当該サンプル音声マッチングする漢字を人工注記した後、これに対してスクリーニングを行い、注記ミスを発見したらすぐに訂正しなければならない)及び当該サンプル音声とマッチングするピンイン(当該サンプル音声とマッチングするピンインはさらに漢字をピンインに変換するオープンソースツールを用いて当該サンプル音声とマッチングする漢字を変換して得ることもできる)を人工注記する。勿論、1セグメントのサンプル音声を用いて1つの学習サンプルしか得られない。
但し、i∈[1、s]、sは学習サンプルの数を表し、xiはサンプル音声のスペクトルを表し、yi hは当該サンプル音声とマッチングする漢字を表し、yi pは当該サンプル音声とマッチングするピンインを表す。
当該ステップにおいて、当該学習サンプル中の漢字とは当該学習サンプルに含まれる前記サンプル音声とマッチングする漢字である。
当該ステップにおいて、当該学習サンプル中のピンインとは当該学習サンプルに含まれる前記サンプル音声とマッチングするピンインである。
当該ステップにおいて、漢字重みの値域は[0、1]である。
当該ステップにおいて、ピンイン重みの値域は[0、1]である。漢字重み及びピンイン重みを変えることによりターゲットマッピング関数の用途を変えることができる。例えば、もし漢字重みが0で、ピンイン重みが1である場合、ターゲットマッピング関数に基づいて認識し、ピンイン認識結果しか認識できない。もし漢字重みが1で、ピンイン重みが0である場合、ターゲットマッピング関数に基づいて認識し、漢字認識結果しか認識できない。もし漢字重みが0.5で、ピンイン重みが0.5である場合、ターゲットマッピング関数に基づいて認識し、ピンイン認識結果及び漢字認識結果を同時に認識できる。
当該ステップにおいて、具体的に実施する時、正則化項係数を10-5とすることができる。正則化項係数の作用は漢字係数及びピンイン係数を抑制し、ターゲットマッピング関数が漢字係数及びピンイン係数が大きすぎることにより収束できないの防ぐことである。
但し、Lは学習サンプルの結合損失値を表し、αは漢字重みを表し、(1-α)はピンイン重みを表し、βは正則化項係数を表し、Lhは学習サンプルの漢字損失値を表し、Lpは学習サンプルのピンイン損失値を表し、wkは漢字係数の初期値及びピンイン係数の初期値を表す。
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得る。
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得る。
生成ユニット1001:漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成する。
処理ユニット1002:予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成する。
認識ユニット1003:前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得る。
前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得て、
各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得て、
各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するためのものである。
前記処理ユニット1002は、
予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得て、
当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とし、
当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするためのものである。
各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とするためのものである。
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るためのものである。
Claims (12)
- 音声を認識する方法であって、
漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するステップ、
予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するステップ、及び、
前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るステップ、
を含む、
方法。 - 前記予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するステップは、
前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得るステップ、
各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得るステップ、及び、
各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するステップ、
を含む、
請求項1に記載の方法。 - 前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、
前記の前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得るステップは、
予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得るステップ、
当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とするステップ、及び、
当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするステップ、
を含む、
請求項2に記載の方法。 - 前記各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得るステップは、
各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とすることを含む、
請求項2に記載の方法。 - 前記の前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るステップは、
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得ることを含む、
請求項1に記載の方法。 - 漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するための生成ユニット、
予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するための処理ユニット、及び、
前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るための認識ユニット、
を備える、
音声を認識する装置。 - 前記処理ユニットは、
前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得て、
各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得て、
各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するためのものである、
請求項6に記載の装置。 - 前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、
前記処理ユニットは、
予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得て、
当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とし、
当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするためのものである、
請求項7に記載の装置。 - 前記処理ユニットは、
各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とするためのものである、
請求項7に記載の装置。 - 前記認識ユニットは、
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るためのものである、
請求項6に記載の装置。 - 一つの又は複数のプロセッサ、及び
一つの又は複数のプログラムを記録するための記憶装置
を備え、
前記一つの又は複数のプログラムが前記一つの又は複数のプロセッサにより実行されるとき、前記一つの又は複数のプロセッサが請求項1~5のいずれか一項に記載の方法を実現する、
電子機器。 - プロセッサにより実行されるとき請求項1~5のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910354527.7A CN111862961A (zh) | 2019-04-29 | 2019-04-29 | 识别语音的方法和装置 |
CN201910354527.7 | 2019-04-29 | ||
PCT/CN2020/077590 WO2020220824A1 (zh) | 2019-04-29 | 2020-03-03 | 识别语音的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022529268A JP2022529268A (ja) | 2022-06-20 |
JP7164098B2 true JP7164098B2 (ja) | 2022-11-01 |
Family
ID=72966440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021561604A Active JP7164098B2 (ja) | 2019-04-29 | 2020-03-03 | 音声を認識する方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220238098A1 (ja) |
JP (1) | JP7164098B2 (ja) |
CN (1) | CN111862961A (ja) |
WO (1) | WO2020220824A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257486B2 (en) * | 2020-02-28 | 2022-02-22 | Intuit Inc. | Machine learning to propose actions in response to natural language questions |
CN112800748B (zh) * | 2021-03-30 | 2023-05-12 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
WO2023177063A1 (ko) * | 2022-03-16 | 2023-09-21 | 삼성전자주식회사 | 사운드를 인식하는 전자 장치 및 그 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247639A1 (en) | 2017-02-24 | 2018-08-30 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN108510976B (zh) * | 2017-02-24 | 2021-03-19 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
US10657955B2 (en) * | 2017-02-24 | 2020-05-19 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
-
2019
- 2019-04-29 CN CN201910354527.7A patent/CN111862961A/zh active Pending
-
2020
- 2020-03-03 US US17/603,690 patent/US20220238098A1/en active Pending
- 2020-03-03 WO PCT/CN2020/077590 patent/WO2020220824A1/zh active Application Filing
- 2020-03-03 JP JP2021561604A patent/JP7164098B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247639A1 (en) | 2017-02-24 | 2018-08-30 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
Non-Patent Citations (1)
Title |
---|
Chan et al.,On Online Attention-based Speech Recognition and Joint Mandarin Character-Pinyin Training,INTERSPEECH 2016,2016年09月12日 |
Also Published As
Publication number | Publication date |
---|---|
WO2020220824A1 (zh) | 2020-11-05 |
JP2022529268A (ja) | 2022-06-20 |
US20220238098A1 (en) | 2022-07-28 |
CN111862961A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164098B2 (ja) | 音声を認識する方法及び装置 | |
WO2020182153A1 (zh) | 基于自适应语种进行语音识别的方法及相关装置 | |
CN108475505B (zh) | 使用部分条件从输入序列生成目标序列 | |
CN108630190B (zh) | 用于生成语音合成模型的方法和装置 | |
CN107610709B (zh) | 一种训练声纹识别模型的方法及系统 | |
CN107481717B (zh) | 一种声学模型训练方法及系统 | |
US10832658B2 (en) | Quantized dialog language model for dialog systems | |
CN110600018A (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
US11282498B2 (en) | Speech synthesis method and speech synthesis apparatus | |
KR20200044388A (ko) | 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법 | |
EP4109324A2 (en) | Method and apparatus for identifying noise samples, electronic device, and storage medium | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
JP2020086436A (ja) | 人工神経網における復号化方法、音声認識装置及び音声認識システム | |
US20230237993A1 (en) | Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
CN114495956A (zh) | 语音处理方法、装置、设备及存储介质 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
CN113963679A (zh) | 一种语音风格迁移方法、装置、电子设备及存储介质 | |
CN113160820A (zh) | 语音识别的方法、语音识别模型的训练方法、装置及设备 | |
US20230005466A1 (en) | Speech synthesis method, and electronic device | |
EP4024393A2 (en) | Training a speech recognition model | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
KR20220133064A (ko) | 대화 요약 모델 학습 장치 및 방법 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20211018 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211013 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20211215 Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20211018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7164098 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |