JP6808069B2 - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP6808069B2 JP6808069B2 JP2019556085A JP2019556085A JP6808069B2 JP 6808069 B2 JP6808069 B2 JP 6808069B2 JP 2019556085 A JP2019556085 A JP 2019556085A JP 2019556085 A JP2019556085 A JP 2019556085A JP 6808069 B2 JP6808069 B2 JP 6808069B2
- Authority
- JP
- Japan
- Prior art keywords
- network
- channel
- mask
- speech recognition
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 26
- 238000012549 training Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000001537 neural effect Effects 0.000 description 18
- 230000015654 memory Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 239000010410 layer Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 12
- 238000005457 optimization Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 5
- 230000003936 working memory Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
いくつかの実施形態では、音声特徴otは、入力時間ステップtにおけるDo次元特徴ベクトル(例えば、対数メルフィルタバンク)であり、ynは、ラベルセットVにおける出力時間ステップnにおけるラベルシンボル(例えば、文字)である。
その後、アテンション(attention)デコーダネットワーク240は、以下のように、隠れ状態snを増分的に更新し、出力ラベルyn 245を生成する。
ここで、これらの手順を以下のように要約することができる。
ニューラルビームフォーマが以下において詳細に記述される。また、ニューラルビームフォーマは、ビームフォーマネットワークと称される場合がある。ビームフォーミングは、複数のマイクロフォンの信号から、参照マイクロフォン信号を選択する手順である。
図3Aは、本発明のいくつかの実施形態による、フィルタ推定ネットワーク300を用いたビームフォーミングを示すブロック図である。この場合、フィルタ推定ネットワーク300は、いくつかの実施形態に従って、フィルタ係数を直接推定する。例えば、1つの実施形態は、ネットワークの出力として、時変フィルタ係数
図3Bは、本発明のいくつかの実施形態による、BLSTMマスク360及びMVDR形式化モジュール370を含むマスク推定ネットワーク350を用いたビームフォーミングを示すブロック図である。この場合、マスク推定ネットワーク350は、BLSTM360を用いて時間周波数マスクを推定し、最小分散無歪応答(MVDR)形式化に基づいて、MVDRモジュール370を用いてフィルタ係数を求める。マスク推定ネットワークは、根拠が確かであるアレイ信号処理原理に基づいて、推定されたフィルタを制約することが有利である。
図4は、本発明の一実施形態による、図3Bのビームフォーミングにおいてフィルタ係数を計算する全体手順を示すブロック図である。
アテンション(attention)ベースエンコーダ−デコーダニューラルネットワークは、エンコーダニューラルネットワークとアテンション(attention)ベースデコーダニューラルネットワークとを含むことができ、このネットワークにおいて、エンコーダニューラルネットワーク及びデコーダニューラルネットワークは、再帰型ニューラルネットワーク(RNN)である。いくつかの場合、エンコーダニューラルネットワークは、エンコーダネットワークと称される場合があり、デコーダニューラルネットワークは、デコーダネットワークと称される場合がある。この場合、入力シーケンス長を削減するためにネットワーク内のいくつかの層にサブサンプリング技法が適用され、入力シーケンス長は、入力(入力データ)の数に関連する。エンコーダネットワークは、双方向長期短期記憶再帰型ネットワークを含むことができる。さらに、デコーダネットワークは、LSTMベース再帰型ネットワークをフィードフォワードネットワークとして含むことができる。
マルチチャネルエンドツーエンド音声認識システムは、単一のニューラルアーキテクチャ内で異なる微分コンポーネントを統合する。例えば、マルチチャネルエンドツーエンド自動音声認識(ASR)システムの1つの実施態様は、音声強調部分としてニューラルビームフォーマを含むとともに、音声認識部分としてアテンション(attention)ベースエンコーダ−デコーダを含む。
いくつかの実施形態では、ニューラルネットワーク108は、エンドツーエンド方式においてトレーニングされることで、雑音混入マルチチャネル音声信号の認識と、雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減する。
いくつかの実施形態は、雑音混入音声信号及び強調された音声信号の双方のための入力特徴ベクトルとして、40次元対数メルフィルタバンク係数を用いる(DO=40)。1つの実施形態は、エンコーダにおいて320個のセルを有する4層BLSTMを用いるとともに(DH=320)、デコーダにおいて320個のセルを有する1層LSTMを用いる(DS=320)。エンコーダにおいて、この実施形態は、第1の層及び第2の層の隠れ状態をサブサンプリングし、後続層の入力のために1つおきの隠れ状態を用いる。したがって、エンコーダの出力層における隠れ状態の数は、L=T/4に低減される。全てのBLSTM層の後、この実施形態は、320個のユニットを有する線形射影層を用いて、前方LSTM出力及び後方LSTM出力を組み合わせる。アテンション(attention)メカニズムの場合、幅100(Df=100)の10個の中心畳み込みフィルタ(DF=10)が用いられて、畳み込み特徴が抽出される。いくつかの実施態様は、アテンション(attention)内積次元を320として設定し(DW=320)、シャープニング係数α=2を用いる。雑音混入環境において最適化をブーストするために、1つの実施形態は、共同コネクショニスト時系列分類(CTC:Connectionist Temporal Classification)アテンション(attention)マルチタスク損失関数を使用し、CTC損失重みを0.1として設定する。
いくつかの構成において、全てのパラメーターは、最適化のために勾配クリッピング(gradient clipping)を用いて、AdaDelta法を用いた一様分布の範囲[−0.1,0.1]で初期化される。いくつかの実施態様は、AdaDeltaハイパーパラメーターρ=0.95及びε=1−8を初期化する。バリデーションセットにわたる損失が劣化すると、これらの実施態様は、各後続のエポックにおいて、AdaDeltaハイパーパラメーターεに0.01を乗算することによって、このAdaDeltaハイパーパラメーターεを減少させる。例えば、トレーニング手順は、15個のエポックの後に停止することができる。トレーニング中、いくつかの実施形態は、複数条件トレーニング戦略を採用した。すなわち、ニューラルビームフォーマを通して強調された特徴を用いた最適化に加えて、これらの実施形態は、ニューラルビームフォーマを通すことなくエンコーダ−デコーダネットワークの入力として、雑音混入マルチチャネル音声データも用いた。ネットワーク全体は、事前トレーニング手順を何ら用いることなく、スクラッチからトレーニングされる。ニューラルネットワークは、Chainerを用いることによって実施することができる。
図5は、本発明の実施形態による、CHiME−4コーパスについての文字誤り率を示す実験結果を示している。この図は、5つのシステム、すなわち、NOISY、BEAMFORMIT、FILTER NET、MASK_NET(REF)、及びMASK_NET(ATT)を用いたCHiME−4の認識性能を示している。NOISY及びBEAMFORMITは、基準の単一チャネルエンドツーエンドシステムであり、これらは、それらのフレームワークにおいて音声強調部分を含まなかった。それらのエンドツーエンドネットワークは、従来的な複数条件トレーニング戦略に従うことによって雑音混入音声データのみを用いてトレーニングされた。復号中、NOISYは、入力としてCHiME−4において「隔離された1チャネルトラック」からの単一チャネル雑音混入音声データを用いた一方、BEAMFORMITは、入力として、遅延和ビームフォーマとして当業者に既知のBeamformItを用いて5チャネル信号から得られた強調された音声データを用いた。
本発明者らは、本発明の実施形態による、ニューラルビームフォーマ(ビームフォーマネットワーク)を用いる、本発明者らによって展開された音声強調成分の挙動を解析する。
さらに、本発明は、雑音混入音声認識の計算コストを削減することができ、したがって、本発明は、中央処理装置(CPU)使用量、又は画像処理装置(GPU)使用量、電力消費、及び/又はネットワーク帯域幅使用量を低減する。
Claims (15)
- 音声信号を含む音響信号を受信する複数のマイクロフォンと、
前記音響信号からマルチチャネル入力を生成する入力インターフェースと、
マルチチャネル音声認識ネットワークを記憶する1つ以上のストレージであって、前記マルチチャネル音声認識ネットワークは、
前記マルチチャネル入力から時間周波数マスクを生成するマスク推定ネットワークと、
前記時間周波数マスクを用いて前記マルチチャネル入力から参照チャネル入力を選択して、前記参照チャネル入力に基づいて強調された音声データセットを生成するようにトレーニングされたビームフォーマネットワークと、
前記強調された音声データセットをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークと、
を含む、1つ以上のストレージと、
前記1つ以上のストレージと関連して前記マルチチャネル音声認識ネットワークを用いて、前記マルチチャネル入力から前記テキストを生成する1つ以上のプロセッサと、
前記テキストをレンダリングする出力インターフェースと、
を備え、
前記マスク推定ネットワーク、前記ビームフォーマネットワーク、及び前記エンコーダ−デコーダネットワークは、共同でトレーニングされる
音声認識システム。 - 前記マスク推定ネットワークは、第1のマスクネットワーク及び第2のマスクネットワークを含み、前記第1のマスクネットワークは、前記マルチチャネル入力の音声マスクを生成するようにトレーニングされ、前記第2のマスクネットワークは、前記マルチチャネル入力の雑音マスクを生成するようにトレーニングされる、請求項1に記載の音声認識システム。
- 前記第1のマスクネットワーク及び前記第2のマスクネットワークは、前記ビームフォーマネットワークと統合される、請求項2に記載の音声認識システム。
- 前記エンコーダ−デコーダネットワークは、アテンション(attention)ベースエンコーダ−デコーダネットワークである、請求項1に記載の音声認識システム。
- 前記ビームフォーマネットワークは、周波数領域データセットを用いる、請求項1に記載の音声認識システム。
- 前記マルチチャネル音声認識ネットワークは、短期フーリエ変換アルゴリズムに基づいて前記マルチチャネル入力から信号特徴を抽出する第1の特徴抽出器を含む、請求項1に記載の音声認識システム。
- 前記第1の特徴抽出器は、前記信号特徴のために、対数メルフィルタバンク係数を用いた、請求項6に記載の音声認識システム。
- 前記ビームフォーマネットワーク及び前記エンコーダ−デコーダネットワークは、共同で最適化される、請求項1に記載のシステム。
- 前記ビームフォーマネットワークは、音声パワースペクトル密度(PSD)行列を用いる、請求項1に記載のシステム。
- 前記マスク推定ネットワークは、双方向長期短期記憶再帰型ニューラルネットワークである、請求項1に記載のシステム。
- 前記マルチチャネル音声認識ネットワークは、前記マスク推定ネットワークに接続された第1の特徴抽出器を更に含み、前記第1の特徴抽出器は、微分可能関数である、請求項1に記載のシステム。
- 前記微分可能関数は、チャネル信号の振幅のbark関数である、請求項11に記載のシステム。
- 前記入力インターフェースは、マイクロフォンのアレイであり、前記出力インターフェースは、ディスプレイデバイスを含む、請求項1に記載のシステム。
- 前記双方向長期短期記憶再帰型ニューラルネットワークは、雑音混入マルチチャネル音声信号の認識と、前記雑音混入マルチチャネル音声信号に対応するグラウンドトゥルーステキストとの間の誤差を低減するように、エンドツーエンド方式においてトレーニングされる、請求項10に記載のシステム。
- 方法を実行するプロセッサによって実行可能であるプログラムが記憶された非一時的コンピューター可読記憶媒体であって、前記方法は、
入力インターフェースからマルチチャネル音声信号を受信することと、
前記マルチチャネル音声信号から単一チャネル信号を選択し、選択した前記単一チャネル信号に基づいて強調された第1のマイクロフォンデータを生成するようにトレーニングされたビームフォーマネットワークと、前記第1のマイクロフォンデータをテキストに変換するようにトレーニングされたエンコーダ−デコーダネットワークとを含むマルチチャネル音声認識ニューラルネットワークを用いた音声認識を実行することであって、前記ビームフォーマネットワーク及び前記エンコーダ−デコーダネットワークは、共同でトレーニングされることと、
前記テキストを出力インターフェースに提供することと、
を含む、非一時的コンピューター可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762470511P | 2017-03-13 | 2017-03-13 | |
US62/470,511 | 2017-03-13 | ||
US15/723,672 US11133011B2 (en) | 2017-03-13 | 2017-10-03 | System and method for multichannel end-to-end speech recognition |
US15/723,672 | 2017-10-03 | ||
PCT/JP2018/007914 WO2018168509A1 (en) | 2017-03-13 | 2018-02-23 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020503570A JP2020503570A (ja) | 2020-01-30 |
JP6808069B2 true JP6808069B2 (ja) | 2021-01-06 |
Family
ID=63444962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019556085A Active JP6808069B2 (ja) | 2017-03-13 | 2018-02-23 | 音声認識システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11133011B2 (ja) |
EP (1) | EP3596730B1 (ja) |
JP (1) | JP6808069B2 (ja) |
CN (1) | CN110383377B (ja) |
WO (1) | WO2018168509A1 (ja) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10249305B2 (en) | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10902205B2 (en) | 2017-10-25 | 2021-01-26 | International Business Machines Corporation | Facilitating automatic detection of relationships between sentences in conversations |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
US10957337B2 (en) * | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
CN111445905B (zh) * | 2018-05-24 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
US11107463B2 (en) | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN109215662B (zh) * | 2018-09-18 | 2023-06-20 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
KR20200056001A (ko) * | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | 인공신경망에서의 디코딩 방법 및 그 장치 |
CN111261179A (zh) * | 2018-11-30 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 回声消除方法及装置和智能设备 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
WO2020146873A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
CN109846477B (zh) * | 2019-01-29 | 2021-08-06 | 北京工业大学 | 一种基于频带注意力残差网络的脑电分类方法 |
JP7222277B2 (ja) * | 2019-03-13 | 2023-02-15 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、およびプログラム |
US11100920B2 (en) * | 2019-03-25 | 2021-08-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for end-to-end speech recognition with triggered attention |
US10803881B1 (en) | 2019-03-28 | 2020-10-13 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancelation using deep multitask recurrent neural networks |
US11393487B2 (en) * | 2019-03-28 | 2022-07-19 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancelation using deep multitask recurrent neural networks |
US11501761B2 (en) | 2019-04-05 | 2022-11-15 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN110111803B (zh) * | 2019-05-09 | 2021-02-19 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110085249B (zh) * | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
KR20200132613A (ko) * | 2019-05-16 | 2020-11-25 | 삼성전자주식회사 | 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치 |
KR20210014949A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치 |
JP2021039216A (ja) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
IT201900015506A1 (it) | 2019-09-03 | 2021-03-03 | St Microelectronics Srl | Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti |
CN110600050B (zh) * | 2019-09-12 | 2022-04-15 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
CN110675891B (zh) * | 2019-09-25 | 2020-09-18 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN110739003B (zh) * | 2019-10-23 | 2022-10-28 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111179920B (zh) * | 2019-12-31 | 2023-01-24 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及系统 |
CN113192496A (zh) * | 2020-01-10 | 2021-07-30 | 普天信息技术有限公司 | 语音识别方法及装置 |
US11594212B2 (en) * | 2020-01-22 | 2023-02-28 | Google Llc | Attention-based joint acoustic and text on-device end-to-end model |
CN111276131B (zh) * | 2020-01-22 | 2021-01-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
WO2021161543A1 (ja) * | 2020-02-14 | 2021-08-19 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、および、信号処理プログラム |
CN111246469B (zh) * | 2020-03-05 | 2020-10-16 | 北京花兰德科技咨询服务有限公司 | 人工智能保密通信系统及通信方法 |
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
CN112151059A (zh) * | 2020-09-25 | 2020-12-29 | 南京工程学院 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
CN114333811A (zh) * | 2020-09-30 | 2022-04-12 | 中国移动通信有限公司研究院 | 一种语音识别方法、系统及设备 |
US11380307B2 (en) * | 2020-09-30 | 2022-07-05 | Tencent America LLC | All deep learning minimum variance distortionless response beamformer for speech separation and enhancement |
CN114937449B (zh) * | 2021-02-05 | 2024-07-05 | 清华大学 | 一种语音关键词识别方法及系统 |
KR20220121631A (ko) * | 2021-02-25 | 2022-09-01 | 삼성전자주식회사 | 음성 인증 방법 및 이를 이용한 장치 |
CN113113000B (zh) * | 2021-04-06 | 2022-05-13 | 重庆邮电大学 | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 |
CN113127622B (zh) * | 2021-04-29 | 2023-06-09 | 西北师范大学 | 一种从语音到图像的生成方法及系统 |
CN113611323B (zh) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113205818B (zh) * | 2021-05-24 | 2023-04-18 | 网易有道信息技术(北京)有限公司 | 用于优化语音识别过程的方法、设备和存储介质 |
CN113284485B (zh) * | 2021-07-09 | 2021-11-09 | 中国科学院自动化研究所 | 统一中英混合文本生成和语音识别的端到端系统 |
CN113724713B (zh) * | 2021-09-07 | 2024-07-05 | 中国科学技术大学 | 一种语音识别方法、装置、设备及存储介质 |
CN113644947A (zh) * | 2021-10-14 | 2021-11-12 | 西南交通大学 | 一种自适应波束形成方法、装置、设备及可读存储介质 |
CN115452392B (zh) * | 2021-11-30 | 2023-08-08 | 广州汽车集团股份有限公司 | 一种车辆发动机故障声学诊断方法及系统 |
WO2023192327A1 (en) * | 2022-03-29 | 2023-10-05 | Dolby Laboratories Licensing Corporation | Representation learning using informed masking for speech and other audio applications |
CN114842864B (zh) * | 2022-04-19 | 2023-05-23 | 电子科技大学 | 一种基于神经网络的短波信道信号分集合并方法 |
CN114863916A (zh) * | 2022-04-26 | 2022-08-05 | 北京小米移动软件有限公司 | 语音识别模型训练方法、语音识别方法、装置及存储介质 |
CN115295002B (zh) * | 2022-07-26 | 2024-05-14 | 中国科学技术大学 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305008A (en) * | 1991-08-12 | 1994-04-19 | Integrated Silicon Design Pty. Ltd. | Transponder system |
US6304618B1 (en) * | 1998-08-31 | 2001-10-16 | Ericsson Inc. | Methods and systems for reducing co-channel interference using multiple timings for a received signal |
US6937980B2 (en) | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
DK1509065T3 (da) * | 2003-08-21 | 2006-08-07 | Bernafon Ag | Fremgangsmåde til behandling af audiosignaler |
US9094645B2 (en) * | 2009-07-17 | 2015-07-28 | Lg Electronics Inc. | Method for processing sound source in terminal and terminal using the same |
CH702399B1 (fr) * | 2009-12-02 | 2018-05-15 | Veovox Sa | Appareil et procédé pour la saisie et le traitement de la voix. |
US9215527B1 (en) * | 2009-12-14 | 2015-12-15 | Cirrus Logic, Inc. | Multi-band integrated speech separating microphone array processor with adaptive beamforming |
US9201871B2 (en) * | 2010-06-11 | 2015-12-01 | Microsoft Technology Licensing, Llc | Joint optimization for machine translation system combination |
US9291697B2 (en) * | 2012-04-13 | 2016-03-22 | Qualcomm Incorporated | Systems, methods, and apparatus for spatially directive filtering |
CN102969000B (zh) * | 2012-12-04 | 2014-10-22 | 中国科学院自动化研究所 | 一种多通道语音增强方法 |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
GB2519379B (en) * | 2013-10-21 | 2020-08-26 | Nokia Technologies Oy | Noise reduction in multi-microphone systems |
US9747922B2 (en) * | 2014-09-19 | 2017-08-29 | Hyundai Motor Company | Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus |
CN105845127B (zh) * | 2015-01-13 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
CN105469785B (zh) * | 2015-11-25 | 2019-01-18 | 南京师范大学 | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 |
US10347271B2 (en) | 2015-12-04 | 2019-07-09 | Synaptics Incorporated | Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network |
US9747920B2 (en) * | 2015-12-17 | 2017-08-29 | Amazon Technologies, Inc. | Adaptive beamforming to create reference channels |
WO2017143095A1 (en) * | 2016-02-16 | 2017-08-24 | Red Pill VR, Inc. | Real-time adaptive audio source separation |
EP4235646A3 (en) * | 2016-03-23 | 2023-09-06 | Google LLC | Adaptive audio enhancement for multichannel speech recognition |
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
-
2017
- 2017-10-03 US US15/723,672 patent/US11133011B2/en active Active
-
2018
- 2018-02-23 CN CN201880015644.4A patent/CN110383377B/zh active Active
- 2018-02-23 EP EP18715140.2A patent/EP3596730B1/en active Active
- 2018-02-23 WO PCT/JP2018/007914 patent/WO2018168509A1/en unknown
- 2018-02-23 JP JP2019556085A patent/JP6808069B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018168509A1 (en) | 2018-09-20 |
JP2020503570A (ja) | 2020-01-30 |
EP3596730B1 (en) | 2024-02-21 |
CN110383377B (zh) | 2023-10-13 |
CN110383377A (zh) | 2019-10-25 |
EP3596730A1 (en) | 2020-01-22 |
US20180261225A1 (en) | 2018-09-13 |
US11133011B2 (en) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6808069B2 (ja) | 音声認識システム | |
Ochiai et al. | Multichannel end-to-end speech recognition | |
Li et al. | Robust automatic speech recognition: a bridge to practical applications | |
Hosseini-Asl et al. | A multi-discriminator cyclegan for unsupervised non-parallel speech domain adaptation | |
CN106575379B (zh) | 用于神经网络的改进的定点整型实现方式 | |
Tu et al. | An iterative mask estimation approach to deep learning based multi-channel speech recognition | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
Tu et al. | On Design of Robust Deep Models for CHiME-4 Multi-Channel Speech Recognition with Multiple Configurations of Array Microphones. | |
Manjunath et al. | Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion. | |
Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
Shi et al. | Train from scratch: Single-stage joint training of speech separation and recognition | |
Zhang et al. | Cacnet: Cube attentional cnn for automatic speech recognition | |
Plantinga et al. | An exploration of mimic architectures for residual network based spectral mapping | |
Yu et al. | A novel target decoupling framework based on waveform-spectrum fusion network for monaural speech enhancement | |
Zhou et al. | Speech denoising using Bayesian NMF with online base update | |
CN112542176A (zh) | 信号增强方法、装置及存储介质 | |
Noda et al. | Sound source separation for robot audition using deep learning | |
Jannu et al. | An Overview of Speech Enhancement Based on Deep Learning Techniques | |
Xu et al. | Channel and temporal-frequency attention UNet for monaural speech enhancement | |
Kaur et al. | Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement | |
Bořil et al. | GAN-based augmentation for gender classification from speech spectrograms | |
Wang et al. | Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment | |
Zhao et al. | Online noise estimation using stochastic-gain HMM for speech enhancement | |
CN114360500A (zh) | 语音识别方法和装置、电子设备及存储介质 | |
Al-Rababah et al. | Automatic detection technique for speech recognition based on neural networks inter-disciplinary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190626 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6808069 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |