JP7282442B2 - 音声認識方法、装置及びコンピュータプログラム - Google Patents
音声認識方法、装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7282442B2 JP7282442B2 JP2022520112A JP2022520112A JP7282442B2 JP 7282442 B2 JP7282442 B2 JP 7282442B2 JP 2022520112 A JP2022520112 A JP 2022520112A JP 2022520112 A JP2022520112 A JP 2022520112A JP 7282442 B2 JP7282442 B2 JP 7282442B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech
- loss function
- speech recognition
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 91
- 238000004590 computer program Methods 0.000 title claims description 6
- 230000006870 function Effects 0.000 claims description 148
- 238000000926 separation method Methods 0.000 claims description 142
- 238000003062 neural network model Methods 0.000 claims description 119
- 239000011159 matrix material Substances 0.000 claims description 116
- 238000012549 training Methods 0.000 claims description 100
- 238000012512 characterization method Methods 0.000 claims description 82
- 238000001228 spectrum Methods 0.000 claims description 79
- 239000013598 vector Substances 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 21
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 15
- 239000000284 extract Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0409—Adaptive resonance theory [ART] networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Complex Calculations (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
S202、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得する。
ここで、ターゲット損失関数は、第1の損失関数と第2の損失関数を組み合わせた総合損失関数である。関数融合とは、1つ又は複数の予め設定された論理演算によって、複数の関数を1つの関数に変換する手順である。予め設定された論理演算は、四則混合演算、加重和、又は機械学習アルゴリズムなどを含むが、これに限定されない。
S402、第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する。
なお、第1のニューラルネットワークモデル、及び以下に述べる第2のニューラルネットワークモデル、第3のニューラルネットワークモデルは、それぞれ、上記の人工ニューラルネットワークモデルのいずれかであってもよい。本実施例では、第1のニューラルネットワークモデルは、理想的な比率マスク(Ideal Ratio Mask,IRM)に基づく深度アトラクタネットワーク(Deep Attractor Net,DANet)、及び深度抽出ネットワーク(Deep Extractor Net,DENet)によって簡略化されたモデルである。DENetネットワークは、1つ又は複数の畳み込みニューラルネットワークを含む。本実施例では、畳み込みニューラルネットワークは、BiLSTMネットワークを採用できる。BiLSTMネットワークは、音声信号を低次元空間から高次元空間にマッピングする。DANetネットワークは、高次元空間にアトラクタ(Attractor)を埋め込んで、音声信号の時間周波数を結合して一緒にトレーニングに参加する。SGDのバックプロパゲーションに基づいてDENetとDANetネットワークを共同でトレーニングする手順では、DENetネットワークとDANetネットワークは、いずれかの時間の損失を導入していない。サンプル音声ストリームは、異なる複雑な音響環境では、車載システム、電話会議デバイス、スピーカーデバイス、又はオンライン放送デバイスなどのデバイスにおける音声アプリケーションに基づいて収集されたオーディオデータストリームである。音声アプリケーションは、システム電話アプリケーション、インスタントメッセージングアプリケーション、仮想音声アシスタント、又は機械翻訳アプリケーションなどであってもよい。各サンプルオーディオストリームは、複数のオーディオフレームを含んでもよい。サンプルオーディオストリームでオーディオフレームを収集するサンプリング周波数、及び各オーディオフレームのフレーム長とフレームシフトは、必要に応じて自由に設定できる。1つの具体的な実施例では、16kHzのサンプリング周波数、25msのフレーム長、及び10msのフレームシフトを採用してオーディオフレームを収集する。
なお、理想的なマスク行列は、音声信号におけるノイズエネルギー及び音声歪みエネルギーを制限するために確立された自己適応感知マスク行列であり、異なる音声周波数に対応するマスキング閾値を記録している。理想的なマスク行列は、音声信号の低次元の音声特徴と高次元の埋め込み特徴行列から予測できる。アトラクタは、各サンプル音声ストリームの埋め込み空間に存在する一般的な特徴を特徴づけることができる特徴ベクトルである。DANetネットワークに基づく音声分離強化モデルは、ターゲット音声トレーニングサンプルの埋め込み空間内のベクトルの加重平均値を計算し、ターゲット音声の「アトラクタ」として記憶する。従って、埋め込み空間で1つのアトラクタを計算すればよい。具体的に、コンピュータデバイスは、音声信号及び短時間フーリエ変換によって音声信号から抽出された音声スペクトルに基づいて、バッチサンプル音声ストリームに対応する理想的なマスク行列を予測する。理想的なマスク行列は、埋め込み特徴行列と同じ次元の埋め込み空間にある。コンピュータデバイスは、埋め込み特徴行列と理想的なマスク行列の積を計算し、この積結果に基づいて埋め込み空間のアトラクタを決定する。
具体的に、コンピュータデバイスは、音声特徴とアトラクタの類似性に基づいて、マスキング閾値を修正し、理想的なマスク行列を再構築して、ターゲットマスク行列を取得する。埋め込み特徴行列における各行列要素とアトラクタの間の類似性の測定方法は、具体的に、ユークリッド距離、マンハッタン距離、チェビシェフ距離、マハラノビス距離、コサイン距離又はハミング距離などを採用することができる。
なお、実際の音響シーンで収集される音声信号は、通常、ターゲット音声にノイズが混入された混合信号である。サンプル音声ストリームに対応する強化スペクトルは、音声信号におけるターゲット音声の強化スペクトルである。
具体的に、音声分離強化モデルの後にブリッジされたロバスト特徴付けモデルの計算量を減少するために、高次元の埋め込み特徴行列に対して次元削減処理を実行し、低次元の強化スペクトルに変換する。
具体的に、コンピュータデバイスは、バッチサンプル音声ストリームの強化スペクトルとターゲット音声の強化スペクトルとの間の平均二乗誤差損失MSE(mean-square error)を計算し、当該平均二乗誤差損失MSEによって次の第1のニューラルネットワークモデルを事前トレーニングする。
なお、実際の音響シーンで収集される音声信号は、通常、ノイズを混入した混合信号である。混合信号x(n)は、ターゲット音声信号sS(n)と干渉信号sI(n)との線形重ね合わせであるx(n)=sS(n)+sI(n)であると見なすことができ、その中で、nは、サンプル音声ストリームの数である。混合信号と参照ターゲット音声信号に対して短時間フーリエ変換(STFT)計算を行い、混合信号に対応する音声スペクトルと音声特徴を取得できる。音声特徴は、低次元の混合信号空間RTFにある特徴行列である。フーリエ変換によって抽出された音声特徴の特徴次元は、TxF次元である。ここで、Tは、フレーム数であり、Fは、メルフィルターバンクMFのメルフィルターバンドの数である。
なお、埋め込み空間のアトラクタの計算式は、次のとおりである。
S502、第2のニューラルネットワークモデルを取得する。
なお、第2のニューラルネットワークモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされるモデルである。本出願が直面する音響環境は、非常に複雑であり、入力されたスペクトログラムがスペクトル推定誤差と時間的歪みを含む欠陥スペクトルである場合、フロントエンドからの音声認識誤差の影響を最小限に抑える必要がある。また、フレームレベルのスペクトログラム抽出と音素レベルの音声認識タスクの間のコンテキストの違いにより、フロントエンドとバックエンドの音声処理タスクの融合の時間的で動的な複雑さも増す。換言すれば、本出願は、第2のニューラルネットワークモデルに基づくブリッジトレーニングによって得られた共同モデルを提供し、より多くの複雑な音響環境に適応できる。ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つために、本出願の実施例では、第2のニューラルネットワークモデルは、より複雑なRecurrentモデルアーキテクチャを使用する。典型的に、Recurrentモデルアーキテクチャは、入力スペクトログラムのコンテキストを使用して出力音響特徴空間におけるポイントを予測するモデル構造を含む。例えば、深層畳み込みニューラルネットワークCNN、又はBiLSTMなどである。ここで、BiLSTMモデルは、通常、汎用プログラム近似器と呼ばれ、その分布について明示的な仮定を行うことなく、完全なシーケンスの条件付き事後確率を効率的に推定することで中間特徴付けを学習できる。以下は、第2のニューラルネットワークモデルがBiLSTMモデル構造
なお、非負の制約処理は、第2のニューラルネットワークモデルが非負であることを保証できる処理ステップである。メルフィルターに基づいてフロントエンドモデルとバックエンドモデルをブリッジする場合、メルフィルターによって出力されるフィルターバンクFbanksは、非負であるが、標準のBiLSTMの出力には非負の制限がない。専門家によって定義された音響特徴に適合させるために、本出願の実施例は、第2のニューラルネットワークモデルに対して非負の制約処理を実行する。
具体的に、コンピュータデバイスは、Fbanksの非負性にマッチングするように、第2のニューラルネットワークモデルの出力に1つの二乗処理を追加する。評価によって、二乗処理は、計算ロジックが短いだけでなく、線形整流関数(Rectified Linear Unit, ReLU)などの活性化関数と比較して、第2のニューラルネットワークモデルに対する非線形変換の効果は優れることが分かる。
なお、聴覚適応とは、人間の耳の演算をシミュレートすることにより、音響特性を人間の聴覚習慣に適合させることを指す。微分モデルは、人間の耳の演算をシミュレートする演算式である。研究によると、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。例えば、振幅が1000と10の2つの音声信号について、人間の耳が知覚できる違いは、3と1などの違いだけである可能性がある。また、人間の耳は音声信号の変化に敏感である。
具体的に、コンピュータデバイスは、事前に構築された微分モデルを取得し、微分モデルを非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚マッチングする最適化処理ステップとして、非負のニューラルネットワークモデルの後にカスケードし、中間モデルを取得する。つまり、中間モデルは、非負のニューラルネットワークモデルと微分モデルを含む。このように、人間の耳の演算をシミュレートするロジックを、微分モデルの形で具体化することによって、トレーニングフェーズでは、第2のニューラルネットワークモデルは、人間の耳の演算をシミュレートするロジックを学習する必要がなく、第2のニューラルネットワークモデルの学習の複雑さが軽減され、中間モデルのトレーニング効率を向上させるのに役立つ。なお、別の実施例では、直接に第2のニューラルネットワークモデルを中間モデルとして、第2のニューラルネットワークモデルに対する非負の制約処理も、微分モデルのスプライスも必要としない。このとき、トレーニングフェーズでは、第2のニューラルネットワークモデルは、それ自体で人間の耳の演算ロジックを学習してシミュレートする必要がある。テストによって、専門家の経験に基づいて決定された非負の制約処理ロジック及び微分モデルと比較して、第2のニューラルネットワークモデルに基づく自己学習は、代わりに人間の耳の演算ロジックのより包括的なシミュレーションを学習し、より優れた聴覚マッチング効果を実現できる。テスト生産フェーズでトレーニングされた第2のニューラルネットワークモデル(即ち、ロバスト特徴付けモデル)は、より多くの複雑な音響環境に適応できる。本実施例では、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、人間の耳の演算をシミュレートするための微分モデルをスプライスすることで、モデルによって出力される音響特性に実際の人間の聴覚習慣により適合し、ひいては全体の音声認識パフォーマンスを向上させるのに役立つ。
S602、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
なお、サンプル音声ストリームにおける各オーディオフレームは、対応するラベリングデータを有する。ラベリングデータは、オーディオフレームにおけるターゲット音声の出力ユーザー又は音声内容に応じて決定されたオーディオフレームに対応する音素カテゴリを含む。
なお、本実施例では、第3のニューラルネットワークモデルは、CLDNN(CONVOLUTIONAL、LONG SHORT-TERM MEMORY、FULLY CONNECTED DEEP NEURAL NETWORKS、CNN、LSTM及びDNNを融合したネットワーク)に基づいて実現した音響モデルであってもよい。さらに、CNN層とLSTM層の出力は、いずれもバッチ正規化できるため、収束が速くなり、一般化が向上する。
なお、中心ベクトルは、ターゲットカテゴリにおける全ての深度特徴の中心を記述するために使用される。オーディオフレームのクラス間混同測度指数とは、サンプル音声ストリームがターゲットカテゴリに属する可能性を特徴づけるためのパラメータを指し、異なるターゲットカテゴリ間の区別性を反映できる。クラス間混同測度指数が小さいほど、クラス間の区別性が強くなることを表す。クラス間混同測度指数は、ユークリッド距離によって計算でき、角距離などの他の距離タイプのアルゴリズムを使用して計算することもできる。クラス内距離ペナルティ指数とは、サンプル音声ストリームのクラス内分布のコンパクトさを特徴づけるためのパラメータを指す。クラス内距離のペナルティによって、第3のニューラルネットワークモデルの分類パフォーマンスを強化でき、即ち、クラス内のコンパクトな分布によってクラス内の識別パフォーマンスを満たす。クラス内距離ペナルティ指数が小さいほど、クラス内分布のコンパクトさが強くなることを表し、ひいてはクラス内識別性能の向上が得られる。クラス内距離ペナルティ指数は、センターロス行の数によって実現されるが、これに限定されず、例えば、角度距離のContrastive損失関数、Triplet損失関数、Sphere face損失関数、及びCosFace損失関数などを採用して実現してもよい。
LCL=Lce+λCLLct
ここで、LCLは、融合損失であり、Lceは、クラス間混同測度指数であり、Lctは、クラス内距離ペナルティ指数であり、λCLは、重み係数である。
具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに従って、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。ターゲット損失関数によって生成されたグローバル下降勾配は、音声認識モデルからロバスト特徴付けモデル及び音声分離強化モデルのネットワーク各層に順次にバックプロパゲーションする。
LCL=Lce+λCLLct
その中で、LCLは、第2の損失関数であり、λCLは、第2の損失関数における中心損失関数の重みを制御するハイパーパラメーターである。それに対応して、クラス間混同測度指数とクラス内距離ペナルティ指数を融合する方式は、予め設定された重み係数λCLに従って、クラス間混同測度指数とクラス内距離ペナルティ指数に対して加重計算を実行することである。
S702、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得する。
S704、第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得する。
S706、第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得する。
S708、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定する。
S710、予め設定されたバイナリ閾値行列に基づいて、理想的なマスク行列におけるノイズ要素をフィルタリングする。
S712、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
S714、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームのターゲットマスク行列を取得する。
S716、ターゲットマスク行列に基づいてサンプル音声ストリームに対応する強化スペクトルを決定する。
S718、第1の損失関数に基づいてサンプル音声ストリームに対応する推定スペクトルと強化スペクトルとの間の平均二乗誤差損失を計算する。
S720、平均二乗誤差損失に基づいて、第1のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得する。
S722、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
S724、第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。
S726、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定する。
S728、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算する。
S730、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算する。
S732、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、第2の損失関数に基づく融合損失を取得する。
S734、融合損失に基づいて、第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
S736、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得する。
S738、第2のニューラルネットワークモデルを取得する。
S740、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、非負のニューラルネットワークモデルを取得する。
S742、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する。
S744、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
S746、第2の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
S748、第1の損失関数と第2の損失関数を融合して、ターゲット損失関数を取得する。
S750、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。
S752、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新する。
S802、ターゲット音声ストリームを取得する。
なお、音声分離強化モデルは、ニューラルネットワークモデルである。具体的に、理想的な比率マスク(Ideal Ratio Mask,IRM)の深度アトラクタネットワーク(Deep Attractor Net,DANet)、及び深度抽出ネットワーク(Deep Extractor Net,DENet)に基づいて簡略化されたモデルである。1つの具体的な実施例では、音声分離強化モデルは、のぞき穴接続された4層BiLSTMを採用でき、各層に600個の隠れノードがあり、最後のBiLSTM層の後に1つの完全接続層を接続する。具体的に、コンピュータデバイスは、バッチで複数のターゲット音声ストリームに対して短時間フーリエ変換を実行し、各ターゲット音声ストリームにおける音声特徴と音声スペクトルを取得することができる。コンピュータデバイスは、音声分離強化モデルに基づいて、バッチターゲット音声ストリームの音声特徴をより高次元の埋め込み空間にマッピングし、埋め込み空間で音声スペクトルに対して音声の分離と強化を実行し、埋め込み特徴行列を取得する。コンピュータデバイスは、事前に記憶されたグローバルアトラクタを取得する。音声分離強化モデルトのレーニングフェーズでは、コンピュータデバイスは、各回のバッチサンプル音声ストリームに基づいて計算されたアトラクタを記憶し、これらのアトラクタの平均値を計算し、当該平均値をテスト生産フェーズのグローバルアトラクタとして使用する。コンピュータデバイスは、グローバルアトラクタとターゲット音声ストリームに対応する埋め込み特徴行列における各行列要素との間の類似性を計算することによって、ターゲット音声ストリームのターゲットマスク行列を取得する。ターゲットマスク行列と埋め込み特徴行列に基づいて、ターゲット音声ストリームの強化スペクトルを抽出することができる。
なお、ロバスト特徴付けモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされたニューラルネットワークモデルである。具体的には、Recurrentモデルアーキテクチャに基づくCNN、BiLSTMなどであってもよく、ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つ。1つの具体的な実施例では、ロバスト特徴付けモデルは、各層に600個の隠れノードを有するのぞき穴接続された2層のBiLSTMである。ロバスト特徴は、フロントエンドの音声分離強化モデルによって出力された強化スペクトルを変換して、中間遷移特徴を取得するために使用され、当該中間遷移特徴をバックエンドの音声認識モデルの入力とする。
なお、音声認識モデル、及び上記に言及された音声分離強化モデル、ロバスト特徴付けモデルは、予め共同トレーニングによって取得される。フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルは、事前にトレーニングされたものであってもよい。コンピュータデバイスは、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、第2の損失関数に基づいて損失値を計算することで、損失値に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。コンピュータデバイスは、さらに、第1の損失関数と第2の損失関数を融合し、融合して得られたターゲット損失関数に基づいて音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。具体的に、コンピュータデバイスは、ロバスト特徴を音声認識モデルに入力し、ターゲット音声ストリームに対応する音素を取得する。本出願の実施例では、音声認識モデルは、約20,000の音素カテゴリを認識できる。音声認識モデルは、入力されたバッチターゲット音声ストリームのロバスト特徴を処理して、1つの約20,000次元の音素ベクトルを出力する。ロバスト特徴ベクトル要素と音素ベクトル要素の間に対応関係がある。音素ベクトルは、ロバスト特徴ベクトル要素が各音素カテゴリに属する確率を記録している。このように、各ロバスト特徴ベクトル要素に対応する最大確率音素カテゴリに対応する音素文字列を決定することができ、それにより、音素レベルからターゲット音声ストリームに対して音声認識を実行することを実現できる。
S1002、ターゲット音声ストリームを取得する。
S1004、音声分離強化モデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出する。
S1006、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定する。
S1008、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、ターゲット音声ストリームのターゲットマスク行列を取得する。
S1010、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定する。
S1012、ロバスト特徴付けモデルを取得し、ロバスト特徴付けモデルは第2のニューラルネットワークモデルと微分モデルを含む。
S1014、第2のニューラルネットワークモデルに基づいて、強化スペクトルから音響特徴を抽出する。
S1016、音響特徴に対して非負の制約処理を実行して非負の音響特徴を取得する。
S1018、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得する。
S1020、音声認識モデルに基づいてロバスト特徴を認識し、各オーディオフレームに対応する音素を取得する。音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。
損失融合モジュール1104は、第1の損失関数と第2の損失関数を融合して、ターゲット損失関数を取得する。
共同トレーニングモジュール1106は、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。
120 サーバー
1100 音声認識モデルトレーニング装置
1102 中間特徴付け学習モジュール
1104 損失融合モジュール
1106 共同トレーニングモジュール
1108 音声分離強化モデル事前トレーニングモジュール
1110 中間モデル構築モジュール
1112 音声認識モデル事前トレーニングモジュール
1300 音声認識装置
1302 音声分離強化モジュール
1304 中間特徴付け遷移モジュール
1306 音声認識モジュール
Claims (12)
- コンピュータデバイスが実行する音声認識方法であって、
音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得するステップと、
前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するステップと、
前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するステップと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するステップと、を含み、
前記ターゲット損失関数は、L=L CL +λ SS L MSE によって取得され、ここで、Lがターゲット損失関数であり、L MSE が音声分離強化モデルの第1の損失関数であり、L CL が音声認識モデルの第2の損失関数であり、λ SS が重み係数である、ことを特徴とする方法。 - 第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトルと埋め込み特徴行列を抽出するステップと、
埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、
前記埋め込み特徴行列における各行列要素と前記アトラクタとの類似性を計算することにより、前記サンプル音声ストリームのターゲットマスク行列を取得するステップと、
前記ターゲットマスク行列に基づいて、前記サンプル音声ストリームに対応する強化スペクトルを決定するステップと、
前記サンプル音声ストリームに対応する推定スペクトルと前記強化スペクトルとの間の平均二乗誤差損失に基づいて、前記第1のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。 - 第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する前記ステップは、
サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得するステップと、
第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得するステップと、
第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングして、埋め込み特徴行列を取得するステップと、を含むことを特徴とする請求項2に記載の方法。 - 埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームのアトラクタを決定する前記ステップは、
前記音声スペクトルと音声特徴に基づいて、理想的なマスク行列を決定するステップと、
予め設定されたバイナリ閾値行列に基づいて、前記理想的なマスク行列におけるノイズ要素をフィルタリングするステップと、
埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、を含むことを特徴とする請求項3に記載の方法。 - 第2のニューラルネットワークモデルを取得するステップと、
前記第2のニューラルネットワークモデルに対して非負の制約処理を実行して、非負のニューラルネットワークモデルを取得するステップと、
非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得するステップと、
前記微分モデルと前記非負のニューラルネットワークモデルをカスケードして、中間モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。 - 非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する前記ステップは、
音響特徴に対応する特徴ベクトルに対して対数演算を実行するための対数モデルを取得するステップと、
音響特徴に対応する特徴ベクトルに対して差分演算を実行するための差分モデルを取得するステップと、
前記対数モデルと前記差分モデルに基づいて、微分モデルを構築するステップと、を含むことを特徴とする請求項5に記載の方法。 - サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得するステップと、
第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出するステップと、
全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定するステップと、
前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定するステップと、
前記融合損失に基づいて、前記第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。 - 前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定する前記ステップは、
前記深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算するステップと、
前記深度特徴と前記中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算するステップと、
前記クラス間混同測度指数と前記クラス内距離ペナルティ指数を融合演算して、融合損失を取得するステップと、を含むことを特徴とする請求項7に記載の方法。 - 前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングする前記ステップは、
前記ターゲット損失関数によって生成されるグローバル下降勾配を決定するステップと、
前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルのそれぞれに対応するモデルパラメータを、前記ターゲット損失関数の最小化損失値が得られるまで、前記グローバル下降勾配に基づいて繰り返して更新するステップと、を含むことを特徴とする請求項1に記載の方法。 - 音声認識装置であって、
音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するための中間特徴付け学習モジュールと、
前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するための損失融合モジュールと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するための共同トレーニングモジュールと、を含み、
前記ターゲット損失関数は、L=L CL +λ SS L MSE によって取得され、ここで、Lがターゲット損失関数であり、L MSE が音声分離強化モデルの第1の損失関数であり、L CL が音声認識モデルの第2の損失関数であり、λ SS が重み係数である、ことを特徴とする音声認識装置。 - コンピュータによって実行されるとき、前記コンピュータに請求項1から9のいずれか一項に記載の方法のステップを実行させるコンピュータプログラム。
- メモリとプロセッサーを含むコンピュータデバイスであって、前記メモリは、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令が前記プロセッサーによって実行されるとき、前記プロセッサーに請求項1から9のいずれか一項に記載の方法のステップを実行させるコンピュータデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048780.2 | 2020-01-16 | ||
CN202010048780.2A CN111261146B (zh) | 2020-01-16 | 2020-01-16 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
PCT/CN2020/128392 WO2021143327A1 (zh) | 2020-01-16 | 2020-11-12 | 语音识别方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022551068A JP2022551068A (ja) | 2022-12-07 |
JP7282442B2 true JP7282442B2 (ja) | 2023-05-29 |
Family
ID=70950716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022520112A Active JP7282442B2 (ja) | 2020-01-16 | 2020-11-12 | 音声認識方法、装置及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220148571A1 (ja) |
EP (1) | EP4006898A4 (ja) |
JP (1) | JP7282442B2 (ja) |
CN (1) | CN111261146B (ja) |
WO (1) | WO2021143327A1 (ja) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111798866B (zh) * | 2020-07-13 | 2024-07-19 | 商汤集团有限公司 | 音频处理网络的训练及立体声重构方法和装置 |
CN111896808B (zh) * | 2020-07-31 | 2023-02-03 | 中国电子科技集团公司第四十一研究所 | 将频谱轨迹处理和自适应门限生成进行一体化设计的方法 |
CN111933172B (zh) * | 2020-08-10 | 2024-09-06 | 广州九四智能科技有限公司 | 人声分离提取方法、装置、计算机设备及存储介质 |
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
CN111816171B (zh) * | 2020-08-31 | 2020-12-11 | 北京世纪好未来教育科技有限公司 | 语音识别模型的训练方法、语音识别方法及装置 |
CN112185374A (zh) * | 2020-09-07 | 2021-01-05 | 北京如影智能科技有限公司 | 一种确定语音意图的方法及装置 |
CN112312540A (zh) * | 2020-09-30 | 2021-02-02 | 音数汇元(上海)智能科技有限公司 | 服务人员定位方法、装置、电子设备和存储介质 |
CN112309374B (zh) * | 2020-09-30 | 2024-08-06 | 音数汇元(上海)智能科技有限公司 | 服务报告生成方法、装置和计算机设备 |
CN112309398B (zh) * | 2020-09-30 | 2024-07-05 | 音数汇元(上海)智能科技有限公司 | 工作时长监控方法、装置、电子设备和存储介质 |
CN112331207B (zh) * | 2020-09-30 | 2024-08-30 | 音数汇元(上海)智能科技有限公司 | 服务内容监控方法、装置、电子设备和存储介质 |
CN112331208B (zh) * | 2020-09-30 | 2024-07-05 | 音数汇元(上海)智能科技有限公司 | 人身安全监控方法、装置、电子设备和存储介质 |
CN111933114B (zh) * | 2020-10-09 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
CN113571063B (zh) * | 2021-02-02 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 语音信号的识别方法、装置、电子设备及存储介质 |
US11810588B2 (en) * | 2021-02-19 | 2023-11-07 | Apple Inc. | Audio source separation for audio devices |
CN112949711B (zh) * | 2021-02-26 | 2023-10-27 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN113129870B (zh) * | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113178192B (zh) * | 2021-04-30 | 2024-05-24 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
US11922963B2 (en) * | 2021-05-26 | 2024-03-05 | Microsoft Technology Licensing, Llc | Systems and methods for human listening and live captioning |
CN113327586B (zh) * | 2021-06-01 | 2023-11-28 | 深圳市北科瑞声科技股份有限公司 | 一种语音识别方法、装置、电子设备以及存储介质 |
CN113256592B (zh) * | 2021-06-07 | 2021-10-08 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
CN113327596B (zh) * | 2021-06-17 | 2023-01-24 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
CN113436643B (zh) * | 2021-06-25 | 2024-05-24 | 平安科技(深圳)有限公司 | 语音增强模型的训练及应用方法、装置、设备及存储介质 |
CN113284508B (zh) * | 2021-07-21 | 2021-11-09 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
US20230038982A1 (en) * | 2021-08-09 | 2023-02-09 | Google Llc | Joint Acoustic Echo Cancelation, Speech Enhancement, and Voice Separation for Automatic Speech Recognition |
CN113539293B (zh) * | 2021-08-10 | 2023-12-26 | 南京邮电大学 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
CN113707134B (zh) * | 2021-08-17 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN113593594B (zh) * | 2021-09-01 | 2024-03-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和设备及语音增强方法和设备 |
CN113724727A (zh) * | 2021-09-02 | 2021-11-30 | 哈尔滨理工大学 | 基于波束形成的长短时记忆网络语音分离算法 |
CN113724713B (zh) * | 2021-09-07 | 2024-07-05 | 中国科学技术大学 | 一种语音识别方法、装置、设备及存储介质 |
CN113870888B (zh) * | 2021-09-24 | 2024-09-13 | 武汉大学 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
CN113936647B (zh) * | 2021-12-17 | 2022-04-01 | 中国科学院自动化研究所 | 语音识别模型的训练方法、语音识别方法和系统 |
CN114594158B (zh) * | 2021-12-27 | 2024-08-20 | 中南大学 | 一种基于长短时记忆神经网络的隧道衬砌空洞声学识别方法 |
JPWO2023132018A1 (ja) * | 2022-01-05 | 2023-07-13 | ||
CN114446316B (zh) * | 2022-01-27 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
CN114464168A (zh) * | 2022-03-07 | 2022-05-10 | 云知声智能科技股份有限公司 | 语音处理模型的训练方法、语音数据的降噪方法及装置 |
CN114512136B (zh) * | 2022-03-18 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
GB2617613A (en) | 2022-04-14 | 2023-10-18 | Toshiba Kk | An audio processing method and apparatus |
CN114663965B (zh) * | 2022-05-24 | 2022-10-21 | 之江实验室 | 一种基于双阶段交替学习的人证比对方法和装置 |
CN114722884B (zh) * | 2022-06-08 | 2022-09-30 | 深圳市润东来科技有限公司 | 基于环境音的音频控制方法、装置、设备及存储介质 |
CN115424630B (zh) * | 2022-06-14 | 2024-09-10 | 青岛信芯微电子科技股份有限公司 | 一种目标端到端模型的训练方法、混合音频信号处理方法 |
CN115116446A (zh) * | 2022-06-21 | 2022-09-27 | 成都理工大学 | 一种噪声环境下说话人识别模型构建方法 |
CN115261963A (zh) * | 2022-09-27 | 2022-11-01 | 南通如东依航电子研发有限公司 | 一种用于pcb板深镀能力提高的方法 |
CN115600084A (zh) * | 2022-10-18 | 2023-01-13 | 浙江大学(Cn) | 声非视距信号识别方法及装置、电子设备、存储介质 |
CN116013256B (zh) * | 2022-12-19 | 2024-01-30 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
WO2024136883A1 (en) * | 2022-12-23 | 2024-06-27 | Innopeak Technology, Inc. | Hard example mining (hem) for speech enhancement |
JP7489502B1 (ja) | 2023-02-09 | 2024-05-23 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 予測装置、予測方法、および予測プログラム |
CN116051859B (zh) * | 2023-02-21 | 2023-09-08 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
CN117235665B (zh) * | 2023-09-18 | 2024-06-25 | 北京大学 | 自适应隐私数据合成方法、装置、计算机设备和存储介质 |
CN117708601B (zh) * | 2024-02-06 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种相似度计算模型训练方法、装置、设备及存储介质 |
CN117727298B (zh) * | 2024-02-09 | 2024-04-19 | 广州紫麦科技有限公司 | 基于深度学习的手提电脑语音识别方法及系统 |
CN117746871B (zh) * | 2024-02-21 | 2024-07-16 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于云端检测鸟类鸣声的方法及系统 |
CN118395996B (zh) * | 2024-07-01 | 2024-08-30 | 江西师范大学 | 一种基于深度交叉网络的机器译文自动评价方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053087A1 (en) | 2016-08-18 | 2018-02-22 | International Business Machines Corporation | Training of front-end and back-end neural networks |
US20190043516A1 (en) | 2018-06-22 | 2019-02-07 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
JP2019078857A (ja) | 2017-10-24 | 2019-05-23 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習方法及びコンピュータプログラム |
WO2019198265A1 (en) | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Corporation | Speech recognition system and method using speech recognition system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147442B1 (en) * | 2015-09-29 | 2018-12-04 | Amazon Technologies, Inc. | Robust neural network acoustic model with side task prediction of reference signals |
CN110070855B (zh) * | 2018-01-23 | 2021-07-23 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109637526A (zh) * | 2019-01-08 | 2019-04-16 | 西安电子科技大学 | 基于个人身份特征的dnn声学模型的自适应方法 |
CN110517666B (zh) * | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
CN110120227B (zh) * | 2019-04-26 | 2021-03-19 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
CN110570845B (zh) * | 2019-08-15 | 2021-10-22 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
CN110600017B (zh) * | 2019-09-12 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
-
2020
- 2020-01-16 CN CN202010048780.2A patent/CN111261146B/zh active Active
- 2020-11-12 JP JP2022520112A patent/JP7282442B2/ja active Active
- 2020-11-12 WO PCT/CN2020/128392 patent/WO2021143327A1/zh unknown
- 2020-11-12 EP EP20913796.7A patent/EP4006898A4/en active Pending
-
2022
- 2022-01-25 US US17/583,512 patent/US20220148571A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053087A1 (en) | 2016-08-18 | 2018-02-22 | International Business Machines Corporation | Training of front-end and back-end neural networks |
JP2019078857A (ja) | 2017-10-24 | 2019-05-23 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習方法及びコンピュータプログラム |
WO2019198265A1 (en) | 2018-04-13 | 2019-10-17 | Mitsubishi Electric Corporation | Speech recognition system and method using speech recognition system |
US20190043516A1 (en) | 2018-06-22 | 2019-02-07 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
Non-Patent Citations (1)
Title |
---|
Max W.Y.Lam et. al.,Extract, Adapt and Recognize: an End-to-end Neural Network for Corrupted Monaural Speech Recognition,INTERSPEECH 2019,2019年09月15日,pp.2778-2782 |
Also Published As
Publication number | Publication date |
---|---|
CN111261146B (zh) | 2022-09-09 |
JP2022551068A (ja) | 2022-12-07 |
EP4006898A1 (en) | 2022-06-01 |
EP4006898A4 (en) | 2022-11-09 |
WO2021143327A1 (zh) | 2021-07-22 |
CN111261146A (zh) | 2020-06-09 |
US20220148571A1 (en) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7282442B2 (ja) | 音声認識方法、装置及びコンピュータプログラム | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
WO2021143326A1 (zh) | 语音识别方法、装置、设备和存储介质 | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
WO2021139294A1 (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
Takeuchi et al. | Real-time speech enhancement using equilibriated RNN | |
Wali et al. | Generative adversarial networks for speech processing: A review | |
Ravanelli et al. | A network of deep neural networks for distant speech recognition | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Ravanelli | Deep learning for distant speech recognition | |
Kim et al. | Streaming end-to-end speech recognition with jointly trained neural feature enhancement | |
Li et al. | Robust voice activity detection using an auditory-inspired masked modulation encoder based convolutional attention network | |
Samui et al. | Tensor-train long short-term memory for monaural speech enhancement | |
WO2024018429A1 (en) | Audio signal processing method, audio signal processing apparatus, computer device and storage medium | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Ali et al. | Spatio-temporal features representation using recurrent capsules for monaural speech enhancement | |
Nayem et al. | Incorporating Embedding Vectors from a Human Mean-Opinion Score Prediction Model for Monaural Speech Enhancement. | |
Li et al. | Non-intrusive signal analysis for room adaptation of ASR models | |
Razani et al. | A reduced complexity MFCC-based deep neural network approach for speech enhancement | |
Daneshvar et al. | Persian phoneme recognition using long short-term memory neural network | |
Agrawal et al. | Comparison of Unsupervised Modulation Filter Learning Methods for ASR. | |
Fang et al. | Uncertainty-Driven Hybrid Fusion for Audio-Visual Phoneme Recognition | |
Lin et al. | Unsupervised speech enhancement with deep dynamical generative speech and noise models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7282442 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |