JP6480644B1 - マルチチャネル音声認識のための適応的オーディオ強化 - Google Patents
マルチチャネル音声認識のための適応的オーディオ強化 Download PDFInfo
- Publication number
- JP6480644B1 JP6480644B1 JP2018536452A JP2018536452A JP6480644B1 JP 6480644 B1 JP6480644 B1 JP 6480644B1 JP 2018536452 A JP2018536452 A JP 2018536452A JP 2018536452 A JP2018536452 A JP 2018536452A JP 6480644 B1 JP6480644 B1 JP 6480644B1
- Authority
- JP
- Japan
- Prior art keywords
- channel
- audio data
- filter
- neural network
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000003860 storage Methods 0.000 claims abstract description 44
- 238000013518 transcription Methods 0.000 claims abstract description 11
- 230000035897 transcription Effects 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 42
- 238000001914 filtration Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 abstract description 6
- 239000010410 layer Substances 0.000 description 122
- 238000004891 communication Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000002592 echocardiography Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008713 feedback mechanism Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
Description
本出願は、その内容が参照により組み込まれている、2016年3月23日に出願した米国出願第62/312,053号の優先権を主張するものである。
103 オーディオデータ
106 オーディオデータ
109 フィルタ予測段階、フィルタ予測層
112 フィルタおよび加算段階
115 音響モデル段階、音響モデル層
118 マルチタスク学習段階、マルチタスク学習層
124 LSTM層
127 LSTM層
130 フィルタ
133 フィルタ
136 加算器
139 加算器出力、音響モデル
142 時間畳み込み層
145 後処理層、ポストプロセッサ
148 LSTM層、第1のLSTM層
151 LSTM層
154 LSTM層
157 ディープニューラルネットワーク、DNN
160 出力、出力ターゲット
163 ゲートフィードバック機構
166 DNN層
169 DNN層
300 システム
302 ユーザ
310 クライアントデバイス、ユーザデバイス
312 オーディオデータ、オーディオ信号
320 コンピューティングシステム
321 オーディオ波形サンプル、サンプル
322 オーディオ波形サンプル
323 ニューラルネットワーク
325 フィルタおよび加算モジュール
327 ニューラルネットワーク
329 ニューラルネットワーク出力
330 ネットワーク、トランスクリプション
400 プロセス
500 コンピューティングデバイス
502 プロセッサ
504 メモリ
506 記憶デバイス
508 高速インターフェース
510 高速強化ポート
512 低速インターフェース
514 低速強化ポート
516 ディスプレイ
520 標準サーバ
522 ラップトップコンピュータ
524 ラックサーバシステム
550 モバイルコンピューティングデバイス
552 プロセッサ
554 入出力デバイス、ディスプレイ
556 ディスプレイインターフェース
558 制御インターフェース
560 オーディオコーデック
562 外部インターフェース
564 メモリ
566 通信インターフェース
568 トランシーバ
572 強化インターフェース
574 強化メモリ
580 セルラー電話
582 スマートフォン
Claims (20)
- コンピュータ実装方法であって、
発話に対応するオーディオデータの第1のチャネルおよび前記発話に対応するオーディオデータの第2のチャネルを受信するステップと、
トレーニングされたリカレントニューラルネットワークを使用して、(i)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第1のフィルタに関するフィルタパラメータの第1のセット、および(ii)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第2のフィルタに関するフィルタパラメータの第2のセットを生成するステップと、
(i)前記第1のフィルタを使用してフィルタリングされている前記第1のチャネルのオーディオデータと(ii)前記第2のフィルタを使用してフィルタリングされている前記第2のチャネルのオーディオデータとを結合することによって、オーディオデータの単一の結合チャネルを生成するステップと、
前記単一の結合チャネルに関する前記オーディオデータを音響モデルとしてトレーニングされたニューラルネットワークに入力するステップと、
前記単一の結合チャネルに関する前記オーディオデータの受信に応答して前記ニューラルネットワークが提供する出力に少なくとも基づいて判定される前記発話に関するトランスクリプションを提供するステップと
を含む、コンピュータ実装方法。 - 前記リカレントニューラルネットワークが1つまたは複数の長・短期記憶層を備える、請求項1に記載の方法。
- 前記リカレントニューラルネットワークが、
オーディオの第1のチャネルと第2のチャネルの両方を受信する第1の長・短期記憶層と、
前記第1のチャネルに対応する第2の長・短期記憶層および前記第2のチャネルに対応する第3の長・短期記憶層と備え、前記第2の長・短期記憶層および前記第3の長・短期記憶層が各々、前記第1の長・短期記憶層の前記出力を受信して、前記対応するチャネルに関するフィルタパラメータのセットを提供する、請求項1に記載の方法。 - 前記長・短期記憶層が、前記長・短期記憶層と音響モデルとしてトレーニングされた前記ニューラルネットワークとを一緒にトレーニングするトレーニングプロセス中に学習されているパラメータを有する、請求項3に記載の方法。
- オーディオデータの各入力フレームに関する新しいフィルタパラメータを変更または生成するステップ
を含む、請求項1に記載の方法。 - 前記発話のオーディオフレームのシーケンス内の各オーディオフレームに関して、フィルタパラメータの新しいセットを生成して、前記フレームに関するオーディオデータをフィルタパラメータの前記新しいセットを備えるフィルタで畳み込むステップ
を含む、請求項1に記載の方法。 - 前記第1のフィルタおよび前記第2のフィルタが有限インパルス応答フィルタである、請求項1に記載の方法。
- 前記第1のフィルタおよび前記第2のフィルタが異なるパラメータを有する、請求項1に記載の方法。
- 異なるマイクロフォン出力が異なるフィルタで畳み込まれる、請求項1に記載の方法。
- オーディオデータの前記第1のチャネルおよび前記第2のチャネルが、前記発話に関するオーディオ波形の第1のチャネルおよび第2のチャネルであり、
オーディオ波形の前記第1のチャネルおよび前記第2のチャネルが、互いに間隔が置かれた異なるマイクロフォンによる前記発話の記録である、請求項1に記載の方法。 - 音響モデルとしてトレーニングされた前記ニューラルネットワークが、畳み込み層と、1つまたは複数の長・短期記憶層と、複数の隠れ層とを備える、請求項1に記載の方法。
- 音響モデルとしてトレーニングされた前記ニューラルネットワークの前記畳み込み層が、時間領域畳み込みを実行するように構成される、請求項11に記載の方法。
- 音響モデルとしてトレーニングされた前記ニューラルネットワークが、プール値のセットを生成するために前記畳み込み層の出力がプールされるように構成される、請求項11に記載の方法。
- 音響モデルとしてトレーニングされた前記ニューラルネットワークが、前記プール値を音響モデルとしてトレーニングされた前記ニューラルネットワーク内の1つまたは複数の長・短期記憶層に入力するように構成される、請求項13に記載の方法。
- 前記第1のフィルタおよび前記第2のフィルタが空間フィルタリングとスペクトルフィルタリングの両方を実行するように構成される、請求項1に記載の方法。
- 第1の畳み込み出力を生成するために、前記第1のチャネルに関する前記オーディオデータをフィルタパラメータの前記第1のセットを有する第1のフィルタで畳み込むステップと、
第2の畳み込み出力を生成するために、前記第2のチャネルに関する前記オーディオデータをフィルタパラメータの前記第2のセットを有する第2のフィルタで畳み込むステップと、
前記第1の畳み込み出力と前記第2の畳み込み出力とを結合するステップと
を含む、請求項1に記載の方法。 - システムであって、
1つまたは複数のコンピュータおよび命令を記憶した1つまたは複数の記憶デバイスを備え、前記命令が、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
発話に対応するオーディオデータの第1のチャネルおよび前記発話に対応するオーディオデータの第2のチャネルを受信することと、
トレーニングされたリカレントニューラルネットワークを使用して、(i)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第1のフィルタに関するフィルタパラメータの第1のセット、および(ii)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第2のフィルタに関するフィルタパラメータの第2のセットを生成することと、
(i)前記第1のフィルタを使用してフィルタリングされている前記第1のチャネルのオーディオデータと(ii)前記第2のフィルタを使用してフィルタリングされている前記第2のチャネルのオーディオデータとを結合することによって、オーディオデータの単一の結合チャネルを生成することと、
前記単一の結合チャネルに関する前記オーディオデータを音響モデルとしてトレーニングされたニューラルネットワークに入力することと、
前記単一の結合チャネルに関する前記オーディオデータの受信に応答して前記ニューラルネットワークが提供する出力に少なくとも基づいて判定される前記発話に関するトランスクリプションを提供することと
を含む動作を実行させるように動作可能である、システム。 - 前記リカレントニューラルネットワークが、
オーディオの第1のチャネルと第2のチャネルの両方を受信する第1の長・短期記憶層と、
前記第1のチャネルに対応する第2の長・短期記憶層および前記第2のチャネルに対応する第3の長・短期記憶層とを備え、前記第2の長・短期記憶層および前記第3の長・短期記憶層が各々、前記第1の長・短期記憶層の前記出力を受信して、前記対応するチャネルに関するフィルタパラメータのセットを提供する、請求項17に記載のシステム。 - 前記動作が、
第1の畳み込み出力を生成するために、前記第1のチャネルに関する前記オーディオデータをフィルタパラメータの前記第1のセットを有する第1のフィルタで畳み込むことと、
第2の畳み込み出力を生成するために、前記第2のチャネルに関する前記オーディオデータをフィルタパラメータの前記第2のセットを有する第2のフィルタで畳み込むことと、
前記第1の畳み込み出力と前記第2の畳み込み出力とを結合することと
をさらに含む、請求項17に記載のシステム。 - 1つまたは複数のコンピュータによって実行可能な命令を含むソフトウェアを記憶するコンピュータ可読記憶媒体であって、前記命令が、実行されると、前記1つまたは複数のコンピュータに、
発話に対応するオーディオデータの第1のチャネルおよび前記発話に対応するオーディオデータの第2のチャネルを受信することと、
トレーニングされたリカレントニューラルネットワークを使用して、(i)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第1のフィルタに関するフィルタパラメータの第1のセット、および(ii)オーディオデータの前記第1のチャネルおよびオーディオデータの前記第2のチャネルに基づいて第2のフィルタに関するフィルタパラメータの第2のセットを生成することと、
(i)前記第1のフィルタを使用してフィルタリングされている前記第1のチャネルのオーディオデータと(ii)前記第2のフィルタを使用してフィルタリングされている前記第2のチャネルのオーディオデータとを結合することによって、オーディオデータの単一の結合チャネルを生成することと、
前記単一の結合チャネルに関する前記オーディオデータを音響モデルとしてトレーニングされたニューラルネットワークに入力することと、
前記単一の結合チャネルに関する前記オーディオデータの受信に応答して前記ニューラルネットワークが提供する出力に少なくとも基づいて判定される前記発話に関するトランスクリプションを提供することと
を含む動作を行わせる、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662312053P | 2016-03-23 | 2016-03-23 | |
US62/312,053 | 2016-03-23 | ||
PCT/US2016/068800 WO2017164954A1 (en) | 2016-03-23 | 2016-12-28 | Adaptive audio enhancement for multichannel speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6480644B1 true JP6480644B1 (ja) | 2019-03-13 |
JP2019508730A JP2019508730A (ja) | 2019-03-28 |
Family
ID=57799910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018536452A Active JP6480644B1 (ja) | 2016-03-23 | 2016-12-28 | マルチチャネル音声認識のための適応的オーディオ強化 |
Country Status (7)
Country | Link |
---|---|
US (4) | US9886949B2 (ja) |
EP (3) | EP3381033B1 (ja) |
JP (1) | JP6480644B1 (ja) |
KR (1) | KR102151682B1 (ja) |
CN (2) | CN108463848B (ja) |
RU (1) | RU2698153C1 (ja) |
WO (1) | WO2017164954A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021500593A (ja) * | 2017-10-23 | 2021-01-07 | アイフライテック カンパニー,リミテッド | 対象音声検出方法及び装置 |
Families Citing this family (115)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9721562B2 (en) * | 2013-12-17 | 2017-08-01 | Google Inc. | Generating representations of acoustic sequences |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10403269B2 (en) * | 2015-03-27 | 2019-09-03 | Google Llc | Processing audio waveforms |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
NL2015087B1 (en) * | 2015-06-05 | 2016-09-09 | Univ Amsterdam | Deep receptive field networks. |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10339921B2 (en) | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US9886949B2 (en) * | 2016-03-23 | 2018-02-06 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US10224058B2 (en) | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10546575B2 (en) * | 2016-12-14 | 2020-01-28 | International Business Machines Corporation | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier |
US10540961B2 (en) * | 2017-03-13 | 2020-01-21 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
CN106920545B (zh) * | 2017-03-21 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
CN107068161B (zh) * | 2017-04-14 | 2020-07-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US11934935B2 (en) * | 2017-05-20 | 2024-03-19 | Deepmind Technologies Limited | Feedforward generative neural networks |
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
CN107240395B (zh) * | 2017-06-16 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法和装置、计算机设备、存储介质 |
US11011155B2 (en) * | 2017-08-01 | 2021-05-18 | Texas Instruments Incorporated | Multi-phrase difference confidence scoring |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN110444214B (zh) * | 2017-11-24 | 2021-08-17 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN108154229B (zh) * | 2018-01-10 | 2022-04-08 | 西安电子科技大学 | 基于fpga加速卷积神经网络框架的图片处理方法 |
CN108108357B (zh) * | 2018-01-12 | 2022-08-09 | 京东方科技集团股份有限公司 | 口音转换方法及装置、电子设备 |
JP6925995B2 (ja) * | 2018-01-23 | 2021-08-25 | 株式会社東芝 | 信号処理装置、音声強調装置、信号処理方法およびプログラム |
EP3680895B1 (en) | 2018-01-23 | 2021-08-11 | Google LLC | Selective adaptation and utilization of noise reduction technique in invocation phrase detection |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
KR102235568B1 (ko) | 2018-03-21 | 2021-04-05 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
EP3785179A4 (en) * | 2018-04-27 | 2021-12-29 | Alibaba Group Holding Limited | Method and system for performing machine learning |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US20190348062A1 (en) * | 2018-05-08 | 2019-11-14 | Gyrfalcon Technology Inc. | System and method for encoding data using time shift in an audio/image recognition integrated circuit solution |
JP7352291B2 (ja) * | 2018-05-11 | 2023-09-28 | クレプシードラ株式会社 | 音響装置 |
US10872602B2 (en) * | 2018-05-24 | 2020-12-22 | Dolby Laboratories Licensing Corporation | Training of acoustic models for far-field vocalization processing systems |
WO2019231516A1 (en) * | 2018-05-29 | 2019-12-05 | The Trustees Of Princeton University | System and method for compact, fast, and accurate lstms |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US10433086B1 (en) * | 2018-06-25 | 2019-10-01 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
US10210882B1 (en) | 2018-06-25 | 2019-02-19 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
US11929085B2 (en) | 2018-08-30 | 2024-03-12 | Dolby International Ab | Method and apparatus for controlling enhancement of low-bitrate coded audio |
KR20200028168A (ko) * | 2018-09-06 | 2020-03-16 | 삼성전자주식회사 | 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109171774B (zh) * | 2018-09-30 | 2021-07-06 | 合肥工业大学 | 基于多通道数据的人格分析方法和系统 |
WO2020062217A1 (en) * | 2018-09-30 | 2020-04-02 | Microsoft Technology Licensing, Llc | Speech waveform generation |
CN112912758A (zh) * | 2018-10-25 | 2021-06-04 | 皇家飞利浦有限公司 | 用于对超声信号进行自适应波束形成的方法和系统 |
US11475898B2 (en) * | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
US10887467B2 (en) | 2018-11-20 | 2021-01-05 | Shure Acquisition Holdings, Inc. | System and method for distributed call processing and audio reinforcement in conferencing environments |
KR102418887B1 (ko) * | 2018-11-20 | 2022-07-11 | 한국전자통신연구원 | 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법 |
JP7407580B2 (ja) * | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN111476257A (zh) * | 2019-01-24 | 2020-07-31 | 富士通株式会社 | 信息处理方法和信息处理装置 |
CN111627425B (zh) * | 2019-02-12 | 2023-11-28 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及系统 |
US10971168B2 (en) * | 2019-02-21 | 2021-04-06 | International Business Machines Corporation | Dynamic communication session filtering |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11670292B2 (en) * | 2019-03-29 | 2023-06-06 | Sony Corporation | Electronic device, method and computer program |
EP3726529A1 (en) * | 2019-04-16 | 2020-10-21 | Fraunhofer Gesellschaft zur Förderung der Angewand | Method and apparatus for determining a deep filter |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11551671B2 (en) * | 2019-05-16 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
KR20200132613A (ko) * | 2019-05-16 | 2020-11-25 | 삼성전자주식회사 | 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치 |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110288981B (zh) * | 2019-07-03 | 2020-11-06 | 百度在线网络技术(北京)有限公司 | 用于处理音频数据的方法和装置 |
CN110610715B (zh) * | 2019-07-29 | 2022-02-22 | 西安工程大学 | 一种基于cnn-dnn混合神经网络的降噪方法 |
US11659332B2 (en) | 2019-07-30 | 2023-05-23 | Dolby Laboratories Licensing Corporation | Estimating user location in a system including smart audio devices |
AU2020323929A1 (en) | 2019-07-30 | 2022-03-10 | Dolby International Ab | Acoustic echo cancellation control for distributed audio devices |
JP7290507B2 (ja) * | 2019-08-06 | 2023-06-13 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、認識モデルならびにプログラム |
CN110517703B (zh) * | 2019-08-15 | 2021-12-07 | 北京小米移动软件有限公司 | 一种声音采集方法、装置及介质 |
JP7191793B2 (ja) * | 2019-08-30 | 2022-12-19 | 株式会社東芝 | 信号処理装置、信号処理方法、及びプログラム |
CN110600017B (zh) * | 2019-09-12 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN112598107A (zh) * | 2019-10-01 | 2021-04-02 | 创鑫智慧股份有限公司 | 数据处理系统及其数据处理方法 |
CN111446997B (zh) * | 2019-10-21 | 2021-09-14 | 清华大学 | 基于深度学习的自适应数字波束合成方法 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
KR102680097B1 (ko) * | 2019-11-01 | 2024-07-02 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
US11508388B1 (en) * | 2019-11-22 | 2022-11-22 | Apple Inc. | Microphone array based deep learning for time-domain speech signal extraction |
CN110992974B (zh) | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111178398B (zh) * | 2019-12-13 | 2023-08-22 | 天翼商业保理有限公司 | 检测身份证图像信息篡改的方法、系统、存储介质及装置 |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
JP7444243B2 (ja) * | 2020-04-06 | 2024-03-06 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
US11740268B2 (en) * | 2020-05-01 | 2023-08-29 | University Of South Carolina | Predictive zero phase filtering |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
KR102366939B1 (ko) * | 2020-06-02 | 2022-02-24 | 주식회사 다온아시아 | 언어변환 기능을 갖는 플랫폼 제공방법 |
US11410652B2 (en) * | 2020-07-06 | 2022-08-09 | Tencent America LLC | Multi-look enhancement modeling and application for keyword spotting |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
RU2754920C1 (ru) * | 2020-08-17 | 2021-09-08 | Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" | Способ синтеза речи с передачей достоверного интонирования клонируемого образца |
US20220060887A1 (en) * | 2020-08-18 | 2022-02-24 | Qualcomm Incorporated | Encoding a data set using a neural network for uplink communication |
CN112435652A (zh) * | 2020-09-29 | 2021-03-02 | 江苏清微智能科技有限公司 | 一种基于图卷积神经网络的语音关键词识别系统及方法 |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
CN112491442B (zh) * | 2020-11-17 | 2021-12-28 | 中山大学 | 一种自干扰消除方法及装置 |
US12067972B2 (en) | 2020-12-16 | 2024-08-20 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
US11900902B2 (en) * | 2021-04-12 | 2024-02-13 | Adobe Inc. | Deep encoder for performing audio processing |
US11514927B2 (en) * | 2021-04-16 | 2022-11-29 | Ubtech North America Research And Development Center Corp | System and method for multichannel speech detection |
US11805360B2 (en) * | 2021-07-21 | 2023-10-31 | Qualcomm Incorporated | Noise suppression using tandem networks |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
CN113823311B (zh) * | 2021-08-19 | 2023-11-21 | 广州市盛为电子有限公司 | 基于音频增强的语音识别方法及装置 |
CN113724733B (zh) * | 2021-08-31 | 2023-08-01 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
CN113724713B (zh) * | 2021-09-07 | 2024-07-05 | 中国科学技术大学 | 一种语音识别方法、装置、设备及存储介质 |
US11785409B1 (en) * | 2021-11-18 | 2023-10-10 | Amazon Technologies, Inc. | Multi-stage solver for acoustic wave decomposition |
CN114374912B (zh) * | 2021-12-10 | 2023-01-06 | 北京百度网讯科技有限公司 | 语音输入的方法、装置、电子设备和介质 |
EP4207812A1 (en) * | 2021-12-29 | 2023-07-05 | Sonova AG | Method for audio signal processing on a hearing system, hearing system and neural network for audio signal processing |
US12057138B2 (en) | 2022-01-10 | 2024-08-06 | Synaptics Incorporated | Cascade audio spotting system |
CN114464168A (zh) * | 2022-03-07 | 2022-05-10 | 云知声智能科技股份有限公司 | 语音处理模型的训练方法、语音数据的降噪方法及装置 |
CN117809694B (zh) * | 2024-01-08 | 2024-08-09 | 哈尔滨理工大学 | 基于时序多尺度特征表示学习的伪造语音检测方法及系统 |
CN117690435A (zh) * | 2024-02-04 | 2024-03-12 | 深圳市索迪新创科技有限公司 | 用于窗帘控制的智能语音识别电开关 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10274994A (ja) * | 1997-01-30 | 1998-10-13 | Seiko Epson Corp | 類似単語識別方法およびその装置 |
JP2996926B2 (ja) * | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP4532576B2 (ja) * | 2008-05-08 | 2010-08-25 | トヨタ自動車株式会社 | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム |
CA2790956C (en) * | 2010-02-24 | 2017-01-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
US9984675B2 (en) * | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
US9269350B2 (en) * | 2013-05-24 | 2016-02-23 | Google Technology Holdings LLC | Voice controlled audio recording or transmission apparatus with keyword filtering |
US9159317B2 (en) | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
US9196246B2 (en) | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US9286883B1 (en) * | 2013-09-26 | 2016-03-15 | Amazon Technologies, Inc. | Acoustic echo cancellation and automatic speech recognition with random noise |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US9239828B2 (en) * | 2013-12-05 | 2016-01-19 | Microsoft Technology Licensing, Llc | Recurrent conditional random fields |
US9721562B2 (en) * | 2013-12-17 | 2017-08-01 | Google Inc. | Generating representations of acoustic sequences |
US20150228277A1 (en) * | 2014-02-11 | 2015-08-13 | Malaspina Labs (Barbados), Inc. | Voiced Sound Pattern Detection |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US9477895B2 (en) | 2014-03-31 | 2016-10-25 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting events in an acoustic signal subject to cyclo-stationary noise |
US10181098B2 (en) * | 2014-06-06 | 2019-01-15 | Google Llc | Generating representations of input sequences using neural networks |
WO2016013685A1 (en) | 2014-07-22 | 2016-01-28 | Mitsubishi Electric Corporation | Method and system for recognizing speech including sequence of words |
US9582753B2 (en) | 2014-07-30 | 2017-02-28 | Mitsubishi Electric Research Laboratories, Inc. | Neural networks for transforming signals |
US20160111107A1 (en) | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
CN104700828B (zh) * | 2015-03-19 | 2018-01-12 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
US9865265B2 (en) * | 2015-06-06 | 2018-01-09 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9368110B1 (en) | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
US9842106B2 (en) | 2015-12-04 | 2017-12-12 | Mitsubishi Electric Research Laboratories, Inc | Method and system for role dependent context sensitive spoken and textual language understanding with neural networks |
US10176799B2 (en) | 2016-02-02 | 2019-01-08 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for training language models to reduce recognition errors |
US9886949B2 (en) * | 2016-03-23 | 2018-02-06 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
-
2016
- 2016-12-28 US US15/392,122 patent/US9886949B2/en active Active
- 2016-12-28 JP JP2018536452A patent/JP6480644B1/ja active Active
- 2016-12-28 RU RU2018125957A patent/RU2698153C1/ru active
- 2016-12-28 CN CN201680079040.7A patent/CN108463848B/zh active Active
- 2016-12-28 EP EP16826635.1A patent/EP3381033B1/en active Active
- 2016-12-28 CN CN201911174845.1A patent/CN111081231B/zh active Active
- 2016-12-28 WO PCT/US2016/068800 patent/WO2017164954A1/en active Application Filing
- 2016-12-28 EP EP23179642.6A patent/EP4235646A3/en active Pending
- 2016-12-28 EP EP20184871.0A patent/EP3739574B1/en active Active
- 2016-12-28 KR KR1020187020390A patent/KR102151682B1/ko active IP Right Grant
-
2017
- 2017-12-20 US US15/848,829 patent/US10515626B2/en active Active
-
2019
- 2019-12-10 US US16/708,930 patent/US11257485B2/en active Active
-
2022
- 2022-01-26 US US17/649,058 patent/US11756534B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021500593A (ja) * | 2017-10-23 | 2021-01-07 | アイフライテック カンパニー,リミテッド | 対象音声検出方法及び装置 |
JP7186769B2 (ja) | 2017-10-23 | 2022-12-09 | アイフライテック カンパニー,リミテッド | 対象音声検出方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
US20180197534A1 (en) | 2018-07-12 |
CN108463848A (zh) | 2018-08-28 |
RU2698153C1 (ru) | 2019-08-22 |
CN111081231B (zh) | 2023-09-05 |
JP2019508730A (ja) | 2019-03-28 |
US20220148582A1 (en) | 2022-05-12 |
US10515626B2 (en) | 2019-12-24 |
EP3739574A1 (en) | 2020-11-18 |
US11257485B2 (en) | 2022-02-22 |
US20200118553A1 (en) | 2020-04-16 |
CN108463848B (zh) | 2019-12-20 |
KR102151682B1 (ko) | 2020-09-04 |
KR20180095886A (ko) | 2018-08-28 |
US9886949B2 (en) | 2018-02-06 |
EP4235646A2 (en) | 2023-08-30 |
EP4235646A3 (en) | 2023-09-06 |
US11756534B2 (en) | 2023-09-12 |
US20170278513A1 (en) | 2017-09-28 |
EP3739574B1 (en) | 2023-09-13 |
WO2017164954A1 (en) | 2017-09-28 |
EP3381033A1 (en) | 2018-10-03 |
CN111081231A (zh) | 2020-04-28 |
EP3381033B1 (en) | 2020-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6480644B1 (ja) | マルチチャネル音声認識のための適応的オーディオ強化 | |
US9697826B2 (en) | Processing multi-channel audio waveforms | |
US11783849B2 (en) | Enhanced multi-channel acoustic models | |
US10930270B2 (en) | Processing audio waveforms | |
Qian et al. | Speech Enhancement Using Bayesian Wavenet. | |
Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
JP2011191759A (ja) | 音声認識装置及び音声認識方法 | |
US11699453B2 (en) | Adaptive multichannel dereverberation for automatic speech recognition | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
Sainath et al. | Raw multichannel processing using deep neural networks | |
Chhetri et al. | Speech Enhancement: A Survey of Approaches and Applications | |
CN112687284B (zh) | 混响语音的混响抑制方法及装置 | |
Himawan et al. | Feature mapping using far-field microphones for distant speech recognition | |
Krueger et al. | Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data. | |
Martín Doñas | Online multichannel speech enhancement combining statistical signal processing and deep neural networks | |
US20240249741A1 (en) | Guided Speech Enhancement Network | |
Takahashi et al. | Soft missing-feature mask generation for simultaneous speech recognition system in robots. | |
Kleinschmidt et al. | A likelihood-maximizing framework for enhanced in-car speech recognition based on speech dialog system interaction | |
Kouhi-Jelehkaran et al. | Phone-based filter parameter optimization of filter and sum robust speech recognition using likelihood maximization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6480644 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |