JP6979028B2 - 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 - Google Patents
雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP6979028B2 JP6979028B2 JP2018549245A JP2018549245A JP6979028B2 JP 6979028 B2 JP6979028 B2 JP 6979028B2 JP 2018549245 A JP2018549245 A JP 2018549245A JP 2018549245 A JP2018549245 A JP 2018549245A JP 6979028 B2 JP6979028 B2 JP 6979028B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- acoustic
- deep neural
- deep
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000013528 artificial neural network Methods 0.000 claims description 93
- 238000012360 testing method Methods 0.000 claims description 83
- 239000013598 vector Substances 0.000 claims description 56
- 238000013527 convolutional neural network Methods 0.000 claims description 39
- 230000006978 adaptation Effects 0.000 claims description 32
- 230000005236 sound signal Effects 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 19
- 230000001186 cumulative effect Effects 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 43
- 230000004913 activation Effects 0.000 description 25
- 238000001994 activation Methods 0.000 description 25
- 238000002474 experimental method Methods 0.000 description 19
- 210000002569 neuron Anatomy 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000000844 transformation Methods 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000007620 mathematical function Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 241000700159 Rattus Species 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 238000009739 binding Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Complex Calculations (AREA)
Description
本発明は、アメリカ国防高等研究計画局(DARPA)によって支援される契約第HR0011−15−C−0037号の下でアメリカ合衆国連邦政府の支援を受けて行われたものである。アメリカ合衆国連邦政府は本発明に特定の権利を有する。
V=[V1,V2,...Vf,....VF] …(3)
U=[U1,U2,...Ut,....UT]T …(4)
式中、Vfは周波数帯域fにおける特徴ベクトルを表し、Utは時間フレームtにおける特徴ベクトルを表す。なお、簡潔のために、これらの特徴ベクトルはスペクトルエネルギーのみを表し、それらの動的な情報(ΔおよびΔΔ)は用いない。周波数畳み込みについては、周波数畳み込み層は、N個の活性化を有するK個の帯域を有する。非線形活性化関数演算の後の畳み込み層の活性化は、
ここで、以下の実験を参照し、これらは、上記の説明と共に、本発明を限定せずに示すものである。以下の実験では、特徴空間変換されたおよび特徴空間変換されていない様々な音響特徴を用いて、様々なDNN、CNN、TCNN、TFCNN、およびfCNN音響モデルをトレーニングした。システム性能は単語誤り率(WER)に関して報告される。
以下の実験で用いた音声データセットは、DARPA(アメリカ国防高等研究計画局)のRATSプログラムの下でLinguistic Data Consortium(LDC)によって収集されたものであり、雑音の多いまたは非常に歪んだチャネルにおけるレバント・アラビア語(LAR)およびペルシャ語の2つの言語の音声に焦点を当てたものである。これらのデータは、電話音声(ソースチャネルとして示されている)を、それぞれに或る範囲の歪みが関連づけられた8つの通信チャネル(A、B、C、D、E、F、G、およびHとして示されている)を介して再送信することによって収集された。DARPAのRATSデータセットは、雑音およびチャネルの劣化が、クリーンな音声信号に対して数学的演算を行うことによって人工的に導入されたものではなく、その代わりに、信号が、チャネル劣化および雑音劣化を有する環境を介して再同報されてから、再記録されたものであるという点で、独特である。その結果、これらのデータは、例えば、非線形性、周波数シフト、変調された雑音、および断続的なバースト等の幾つかの独特なアーチファクトを含んでおり、これらの条件下では、付加雑音の文脈で開発された雑音に対してロバストな従来の手法は良好に働いていない。
LDCのEARS(Effective, Affordable, Reusable Speech-to-Text)データコレクションから1.3Mワード(LDC2006S29、LDC2006T07)、
Levantine Fisherから437Kワード(LDC2011E111およびLDC2011E93)、
RATSデータコレクションから53Kワード(LDC2011E111)、
GALE(Global Autonomous Language Exploitation)のレバント語放送番組から342Kワード(LDC2012E79)、および、
アラビア語方言のウェブデータから942Kワード(LDC2010E17)。
未知のチャネル条件に起因する性能劣化を評価するために、(a)トレーニングデータにターゲットチャネル(A、B)を含む、および(b)トレーニングデータからターゲットチャネル(A、B)を除外した、2つのDNN音響モデルをトレーニングした。表1は、dev−1評価セットからチャネルA、B、CおよびEがデコードされたときの、これらの2つのシステムからのWERを示す。
次に、異なるチャネル条件について、異なる特徴についての認識率がどのように変化するかを研究した。表2は、2048個のニューロンを有する5つの隠れた層を有するDNNと共に用いたときの、MFCC、MFB、およびNMC特徴についてのWERを示している。表2は、ロバストな特徴が、DNNが不一致のチャネル条件下で失敗するのを防止できなかったことを示しており、これは、妥当な認識精度を達成するために適応メカニズムが必要であることを示している。
次に、DNNをトレーニングおよびテストするためにfMLLR変換されたMFCCおよびMFB特徴表現を用いることについて研究した。表3は、fMLLR変換されたMFCCおよびMFB特徴表現についてのWERを示しており、これは、fMLLR変換が顕著な性能改善を生じたことを示している。
畳み込みニューラルネットワーク(CNN)は、典型的には、雑音およびチャネルの歪みに対してロバストであることが認められており、従って、上記で示した特徴と共に用いるためのCNN音響モデルについて研究した。具体的には、fMLLR変換されたMFB、NMC、およびDAE−BN特徴に対してCNNモデルを用いることについて研究した。なお、特徴の次元にわたる畳み込みは、DAE−BN特徴については、近傍の特徴の次元がスペクトル特徴ほど相関していない場合があるので、有意義ではない。よって、畳み込みは、時間(時間畳み込みニューラルネットワーク(TCNN))のみにわたって行われ、8の帯域サイズと5の窓サイズにわたる最大値プーリングとを有する75個のフィルタを用いた。他のスペクトル特徴(NMCおよびMFB)については、8の帯域サイズと3つのフレームにわたる最大値プーリングとを有する200個の畳み込みフィルタを有する従来のCNNを研究した。畳み込み層は、各層が2048個のニューロンを有する4つの隠れた層を有する完全に接続されたニューラルネットワークと接続された。このCNNモデルからの結果が表4に示されており、DAE−BN特徴を除く全ての特徴について、既知のチャネル条件および未知のチャネル条件の両方について、DNNモデルと比較してWERの更なる低減が観察されたことがわかる。
次に、fMLLR変換されたNMCおよびMFB特徴に対する時間周波数CNN(TFCNN)について研究した。TFCNNは、常に、それらに対応するCNNよりも良好な性能を示しており、ここでは、CNN音響モデルを用いた場合と比較して、WERの低減も観察された。表5は、TFCNN音響モデルからのWERを示している。更に、fMLLR変換されたMFBおよびNMC特徴を組み合わせて、融合CNNモデル(fCNN)をトレーニングした。この場合、2つの個々の特徴のそれぞれについて、2つの並列畳み込み層がトレーニングされる。
次に、DAE−BNネットワークからのBN特徴について研究し、これらを用いて、信頼性の尺度を生成した。DAE−BN特徴の各次元について、21フレーム(即ち、約230msの時間的情報)のデータの実行窓にわたるエントロピーを推定し、次に、各次元についての最大エントロピーを計算した。全ての次元にわたる上位30%パーセンタイル最大エントロピーからの累積エントロピーを信頼性の尺度として用いた。なお、図8Bに示されているように、未知のデータは、典型的には、複数のニューロンにわたって誤った活性化をより多く生じており、それにより、既知のデータ条件と比較して、より高いエントロピーを生じた。エントロピーに基づく信頼性の尺度を用いて、各チャネル条件についての全体的な30パーセンタイル累積エントロピーが最も低かった各チャネル条件について、上位1Kのテストセグメントを選択し、これらのテストセグメントを用いて、音響モデルを適応または再トレーニングした。具体的には、これらのテストセグメントを用いて、0.02のL2正則化を用いて、以前にトレーニングしたTFCNNおよびfCNNモデルを再トレーニングした。
本明細書において開示された技術の事例を以下に示す。本技術の実施形態は、以下に記載する例のいずれか1以上、および任意の組合せを含み得る。
102 入力
104 プロセッサ
106 メモリ
110 聴覚システム
112 ストレージサーバ
114 データベース
116 非一過性のコンピュータ可読媒体
200 ASRシステム
201 発話
202 特徴抽出モジュール
203 特徴ベクトル
204 ニューラルネットワークモジュール
206 音響モデル
208 辞書
210 言語モデル
211 仮説
400 深層ニューラルネットワーク(DNN)
500 深層オートエンコーダ(DAE)
600 ニューラルネットワーク(NN)システム
900 時間周波数畳み込みニューラルネットワーク(TFCNN)
Claims (19)
- 音声認識のための方法であって、
入力を用いて音声信号を受信する工程と、
前記音声信号を複数の聴覚テストセグメントに分割する工程と、
各前記聴覚テストセグメントから1組の音響特徴を抽出する工程と、
前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程と、
前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程と
を含み、前記深層ニューラルネットワークの間接的適応を行う前記工程が、
各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを含むことを特徴とする方法。 - 前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程を更に含む、請求項1記載の方法。
- 前記特徴空間変換が特徴空間最尤線形回帰変換である、請求項2記載の方法。
- 前記1組の音響特徴が、対応する前記聴覚テストセグメントの音響特性の定量的尺度を各特徴ベクトルが含む1組の特徴ベクトルを含む、請求項1記載の方法。
- 前記音響特性の定量的尺度が、ガンマトーンフィルタバンクエネルギー、正規化された変調係数、メルフィルタバンクエネルギー、およびメル周波数ケプストラム係数のうちの少なくとも1つを含む、請求項4記載の方法。
- 前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる、請求項1記載の方法。
- 前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程
を更に含む、請求項6記載の方法。 - 前記1組の深層オートエンコーダボトルネック特徴が、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる、請求項7記載の方法。
- 前記深層ニューラルネットワークの直接的適応を行う前記工程が、
前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、
前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程と
を含む、請求項8記載の方法。 - 前記深層オートエンコーダが、音声表記された音声信号を用いて、平均二乗誤差逆伝搬を用いて事前トレーニングされる、請求項7記載の方法。
- 前記深層ニューラルネットワークが、畳み込みニューラルネットワーク、時間畳み込みニューラルネットワーク、および時間周波数畳み込みニューラルネットワークのうちの1つである、請求項1記載の方法。
- 音声認識システムにおいて、
音声信号を受信するよう構成された入力と、
プロセッサと、
前記プロセッサによって実行可能な指示を有するメモリであって、前記プロセッサに、
前記入力を用いて前記音声信号を受信する工程と、
前記音声信号を複数の聴覚テストセグメントに分割する工程と、
各前記聴覚テストセグメントから1組の音響特徴を抽出する工程と、
前記1組の音響特徴を深層ニューラルネットワークに適用して、対応する前記聴覚テストセグメントについての仮説を生成する工程と、
前記深層ニューラルネットワークの間接的適応および前記深層ニューラルネットワークの直接的適応のうちの1以上を選択的に行う工程と
を行わせる指示を有するメモリと、
前記仮説を送信するよう構成された出力と
を含み、前記深層ニューラルネットワークの間接的適応を行う前記工程が、
各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程とを含むことを特徴とする音声認識システム。 - 前記深層ニューラルネットワークが、音声表記された音声信号を用いて事前トレーニングされる、請求項12記載の音声認識システム。
- 前記深層ニューラルネットワークの間接的適応を行うときに、前記プロセッサが、
各前記聴覚テストセグメントから、別個の2組の音響特徴を抽出する工程と、
前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する工程と
を行うよう構成される、請求項13記載の音声認識システム。 - 前記プロセッサが、
前記別個の2組の音響特徴を前記深層ニューラルネットワークに同時に適用する前記工程の前に、前記別個の2組の音響特徴の各々に対して特徴空間変換を行う工程
を行うよう更に構成される、請求項14記載の音声認識システム。 - 前記特徴空間変換が特徴空間最尤線形回帰変換である、請求項15記載の音声認識システム。
- 前記プロセッサが、
前記1組の音響特徴を深層オートエンコーダに適用して、(i)1組の深層オートエンコーダボトルネック特徴、および(ii)前記1組の深層オートエンコーダボトルネック特徴に対する前記深層オートエンコーダによる逆演算に基づく1組の回復された音響特徴を生成する工程
を行うよう更に構成される、請求項13記載の音声認識システム。 - 前記1組の深層オートエンコーダボトルネック特徴が、前記プロセッサによって、対応する前記聴覚テストセグメントについてのエントロピーに基づく信頼性の尺度を抽出するために用いられる、請求項17記載の音声認識システム。
- 前記深層ニューラルネットワークの直接的適応を行う前記工程が、
前記エントロピーに基づく信頼性の尺度を用いて、閾値パーセンタイル累積エントロピーより低いパーセンタイル累積エントロピーを有する前記聴覚テストセグメントを選択する工程と、
前記選択された聴覚テストセグメントを用いて前記深層ニューラルネットワークを再トレーニングする工程と
を含む、請求項18記載の音声認識システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662311717P | 2016-03-22 | 2016-03-22 | |
US62/311,717 | 2016-03-22 | ||
PCT/US2017/023638 WO2017165551A1 (en) | 2016-03-22 | 2017-03-22 | Systems and methods for speech recognition in unseen and noisy channel conditions |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019514046A JP2019514046A (ja) | 2019-05-30 |
JP6979028B2 true JP6979028B2 (ja) | 2021-12-08 |
Family
ID=59900853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018549245A Active JP6979028B2 (ja) | 2016-03-22 | 2017-03-22 | 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11217228B2 (ja) |
JP (1) | JP6979028B2 (ja) |
WO (1) | WO2017165551A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11217228B2 (en) | 2016-03-22 | 2022-01-04 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
JP6966803B2 (ja) * | 2017-11-28 | 2021-11-17 | 国立研究開発法人産業技術総合研究所 | モニタリング対象機器の異常発生予兆検知方法及びシステム |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
US20210073645A1 (en) * | 2018-01-10 | 2021-03-11 | Sony Corporation | Learning apparatus and method, and program |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
EP3528432B1 (en) * | 2018-02-16 | 2020-09-02 | Nokia Solutions and Networks Oy | Method and apparatus for monitoring a telecommunication network |
JP7059695B2 (ja) * | 2018-03-01 | 2022-04-26 | コニカミノルタ株式会社 | 学習方法および学習装置 |
JP7109771B2 (ja) * | 2018-03-12 | 2022-08-01 | 国立研究開発法人情報通信研究機構 | 音声認識システム、音声認識方法、学習済モデル |
CN108922560B (zh) * | 2018-05-02 | 2022-12-02 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
US20200042825A1 (en) * | 2018-08-02 | 2020-02-06 | Veritone, Inc. | Neural network orchestration |
US11645467B2 (en) * | 2018-08-06 | 2023-05-09 | Functionize, Inc. | Training a system to perform a task with multiple specific steps given a general natural language command |
US11276413B2 (en) * | 2018-10-26 | 2022-03-15 | Electronics And Telecommunications Research Institute | Audio signal encoding method and audio signal decoding method, and encoder and decoder performing the same |
KR20200051278A (ko) | 2018-11-05 | 2020-05-13 | 삼성전자주식회사 | 인공 신경망에서의 작업 관리 방법 및 이를 포함하는 시스템 |
KR102316537B1 (ko) | 2019-06-21 | 2021-10-22 | 한양대학교 산학협력단 | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 |
KR102688685B1 (ko) * | 2019-07-30 | 2024-07-25 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
JP7290507B2 (ja) * | 2019-08-06 | 2023-06-13 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、認識モデルならびにプログラム |
US11341945B2 (en) * | 2019-08-15 | 2022-05-24 | Samsung Electronics Co., Ltd. | Techniques for learning effective musical features for generative and retrieval-based applications |
CN110867181B (zh) * | 2019-09-29 | 2022-05-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
EP3876054A1 (en) * | 2020-03-05 | 2021-09-08 | Siemens Aktiengesellschaft | Methods and systems for workpiece quality control |
CN112016038B (zh) * | 2020-08-03 | 2023-07-28 | 广西大学 | 一种超超临界燃煤锅炉高温再热器炉外壁温预测方法 |
CN111968635B (zh) * | 2020-08-07 | 2024-03-05 | 北京小米松果电子有限公司 | 语音识别的方法、装置及存储介质 |
CN116997962A (zh) * | 2020-11-30 | 2023-11-03 | 杜比国际公司 | 基于卷积神经网络的鲁棒侵入式感知音频质量评估 |
CN112562716A (zh) * | 2020-12-03 | 2021-03-26 | 兰州交通大学 | 基于神经网络的语音增强方法、装置、终端和介质 |
CN114550706B (zh) * | 2022-02-21 | 2024-06-18 | 苏州市职业大学 | 基于深度学习的智慧校园语音识别方法 |
FR3135890A1 (fr) * | 2022-05-25 | 2023-12-01 | My Medical Assistant | Procédé de test d’audiométrie vocale mettant en œuvre une reconnaissance vocale et dispositif électronique associé |
US20240055012A1 (en) * | 2022-08-15 | 2024-02-15 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Reverberation Modeling of Speech Signals |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185184A (ja) | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JP4543644B2 (ja) * | 2003-09-16 | 2010-09-15 | 富士ゼロックス株式会社 | データ認識装置 |
US8103646B2 (en) * | 2007-03-13 | 2012-01-24 | Microsoft Corporation | Automatic tagging of content based on a corpus of previously tagged and untagged content |
US9524730B2 (en) | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
US9190053B2 (en) | 2013-03-25 | 2015-11-17 | The Governing Council Of The Univeristy Of Toronto | System and method for applying a convolutional neural network to speech recognition |
JP5777178B2 (ja) | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US9373324B2 (en) * | 2013-12-06 | 2016-06-21 | International Business Machines Corporation | Applying speaker adaption techniques to correlated features |
US10360901B2 (en) | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US10552730B2 (en) * | 2015-06-30 | 2020-02-04 | Adobe Inc. | Procedural modeling using autoencoder neural networks |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US11217228B2 (en) | 2016-03-22 | 2022-01-04 | Sri International | Systems and methods for speech recognition in unseen and noisy channel conditions |
US9984682B1 (en) * | 2016-03-30 | 2018-05-29 | Educational Testing Service | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items |
US10204621B2 (en) * | 2016-09-07 | 2019-02-12 | International Business Machines Corporation | Adjusting a deep neural network acoustic model |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
-
2017
- 2017-03-22 US US16/085,262 patent/US11217228B2/en active Active
- 2017-03-22 JP JP2018549245A patent/JP6979028B2/ja active Active
- 2017-03-22 WO PCT/US2017/023638 patent/WO2017165551A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2019514046A (ja) | 2019-05-30 |
US11217228B2 (en) | 2022-01-04 |
US20200168208A1 (en) | 2020-05-28 |
WO2017165551A1 (en) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6979028B2 (ja) | 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 | |
Malik et al. | Automatic speech recognition: a survey | |
US11132992B2 (en) | On-device custom wake word detection | |
Li et al. | An overview of noise-robust automatic speech recognition | |
US11158305B2 (en) | Online verification of custom wake word | |
US9640186B2 (en) | Deep scattering spectrum in acoustic modeling for speech recognition | |
US9466292B1 (en) | Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition | |
Toledano et al. | Multi-resolution speech analysis for automatic speech recognition using deep neural networks: Experiments on TIMIT | |
Wazir et al. | Spoken Arabic digits recognition using deep learning | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
WO2019240228A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
US20230186905A1 (en) | System and method for tone recognition in spoken languages | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
Nivetha | A survey on speech feature extraction and classification techniques | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
Mitra et al. | Speech recognition in unseen and noisy channel conditions | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
Jannu et al. | An Overview of Speech Enhancement Based on Deep Learning Techniques | |
Saha | Development of a bangla speech to text conversion system using deep learning | |
US11670292B2 (en) | Electronic device, method and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210414 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6979028 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |