JP2016517023A - 音響信号を処理する方法 - Google Patents
音響信号を処理する方法 Download PDFInfo
- Publication number
- JP2016517023A JP2016517023A JP2015555307A JP2015555307A JP2016517023A JP 2016517023 A JP2016517023 A JP 2016517023A JP 2015555307 A JP2015555307 A JP 2015555307A JP 2015555307 A JP2015555307 A JP 2015555307A JP 2016517023 A JP2016517023 A JP 2016517023A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- acoustic signal
- mask
- time
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 238000012545 processing Methods 0.000 title claims description 9
- 239000000203 mixture Substances 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 230000000873 masking effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000007636 ensemble learning method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Respiratory Apparatuses And Protective Means (AREA)
Abstract
Description
音声強調方法は、一つには、音声認識を改善する目的で、雑音または他の干渉プロセスによって劣化した音声の品質および明瞭度を改善することを試みる。多くのタイプの干渉が存在するため、これは困難な問題である。通常、音声は、音響クラッター環境からの複数の競合する音源の雑音の多い背景と混合される。さらに厄介なことには、リアルタイム用途における計算リソースおよびレイテンシに対する動作制約によって、多くの場合に、多くの異なる干渉を表し、それらに適合し得た複雑なモデルの使用が不可能になる。単純な方法が様々な条件に対応することは困難であるため、基礎を成す音声および干渉の統計的特性に関する何らかの仮定が、通常、行われる。
アンサンブル学習方法は、通常、代替モデルの有限集合を組み合わせ、各モデルによって成された誤りの独立性を利用して推定分散を低減させ、これにより誤り率を低減させる。これらの方法は、各モデルによって推測される量が平均化される単純な投票手順から、トレーニングデータに適応可能であるよう組み合わせを行うように二次モデルがトレーニングされたスタッキングへと多岐にわたる。利点として、投票方法は、リアルタイム条件を考慮することなく適用され得る。一方、スタッキング方法は、より複雑な組み合わせ機能を学習することができ、潜在的に、より良好な性能をもたらす。
図1は、本発明の実施の形態による音響信号101を処理する方法を示す。好ましい実施の形態では、音響信号y[t]101は、音声信号x[t]と、音響的に複雑で雑音の多い環境104から取得された多岐にわたる干渉信号nとの混合101である。本方法は、他のタイプの音響信号、例えば、ソーナー信号または超音波信号を処理するのに用いることができることが理解される。
上記の方法において、音声強調手順のアンサンブルは、組み合わせ200中に初期強調信号のみを用いるという意味で、ブラックボックスとして扱われる。本発明の目標は、任意のモデルを用いることができるようにし、異種の特徴の使用を回避することである。
本発明によるアンサンブルの各強調手順によって生成される初期強調信号112〜113について、時間フレームnおよび周波数fの対応する重み付きマスク
本方法のためのターゲット音声信号は、最終的な強調信号、すなわち「クリーン」信号x[t]である。雑音の多い混合表現Yn,fに時間−周波数マスクが適用され、音声強調が行われる。時間−周波数マスクは、音響入力の時間−周波数表現における各要素に重みwを適用する。表現は、ターゲット信号によって支配される領域を重要視し、干渉源によって支配される領域を抑制する、コクレオグラム、STFT、波形変換等とすることができる。重みは、バイナリまたは連続とすることができる。連続値は、ウィナーフィルターにおけるように、ターゲット信号と音響信号との間の比とみなすこともできるし、対応する時間−周波数要素がターゲット信号に関連付けられる確率とみなすこともできる。
上記で説明したように、各強調手順は、様々なフィルターバンク設定を用いて、時間領域において直接、またはSTFT、ガンマトーンベースの変換等の何らかの時間−周波数表現において、異なる領域で入力信号を処理する。内部表現を直接組み合わせる代わりに、本発明では強調された時間領域ターゲット信号の推定値に焦点を当てる。
推測のために、入力信号またはそれらのマスクに対する投票または平均化手順を用いることができる。組み合わせがトレーニングデータから学習されるスタッキングベースのアンサンブル学習方法も用いることができる。スタッキングの文脈において、アンサンブル学習方法の入力特徴において推定される各マスキング値の近傍において、時間コンテキストおよび周波数コンテキストを含めることも検討することができる。組み合わされたマスクが生成された後、マスクは、雑音の多い信号スペクトルに適用され、ターゲット信号141が生成される。
投票または平均化は、出力の組み合わせを平均化するアンサンブル組み合わせ戦略である。分類221の場合、出力は、通常、クラスにわたる分散のモードである。回帰方法222を用いると、出力は、出力値の平均または何らかの他の算術平均である。各モデルにおける不確実性も考慮することができる。
スタッキングは、データに関し、トレーニングされた方法への入力として、同じタスクのための複数の推定方法が用いられ、結果が組み合わされるアンサンブル学習技法である。スタッキングは、アンサンブルの出力が相関するときであっても、バイアスを低減することができる。しかしながら、学習は、トレーニングデータに過剰適合する可能性がある。バイナリマスクによって、単純なバイナリ分類器を用いてターゲット信号の推定値を生成することが可能になる。また、様々な形態の回帰を用いて重み付きマスク推定値を生成することもできる。主に、分類ベースの手法に焦点を当てる。決定木(DT)、サポートベクターマシン(SVM)、単純ベイズ(NB)およびランダムフォレスト(RF)に基づく分類器等の、複数の分類器を用いることができる。
Claims (15)
- 音響信号を処理する方法であって、該音響信号は、ターゲット信号と干渉信号との混合であり、該方法は、
1組の強調手順によって前記音響信号を強調して、1組の初期強調信号を生成するステップと、
前記音響信号および前記1組の初期強調信号にアンサンブル学習手順を適用して、前記音響信号の特徴を生成するステップと、
を含み、前記ステップは、プロセッサにおいて実行される、音響信号を処理する方法。 - 前記特徴を用いて、前記音響信号から前記ターゲット信号を合成するステップ
をさらに含む、請求項1に記載の方法。 - 前記1組の強調手順は、ベクトルテイラー級数(VTS)、間接VTS、改良型最小制御再帰平均化を用いた最適修正された最小平均二乗誤差対数スペクトル振幅、最小平均二乗誤差(MMSE)、対数MMSE手順、およびそれらの組み合わせからなる群から選択される、請求項1に記載の方法。
- 前記特徴は、連続マスクであり、前記アンサンブル学習手順は、回帰方法である、請求項1に記載の方法。
- 前記特徴は、バイナリマスクであり、前記アンサンブル学習手順は、分類方法である、請求項1に記載の方法。
- 前記ターゲット信号は、音声であり、前記方法は、
自動音声認識を前記ターゲット信号に適用するステップ
をさらに含む、請求項1に記載の方法。 - 前記アンサンブル学習手順のパラメーターは、トレーニングデータから学習される、請求項1に記載の方法。
- 前記特徴は、前記音響信号の雑音の多いスペクトルを前記ターゲット信号のクリーンなスペクトルに変換するターゲットマスクを含む、請求項1に記載の方法。
- 前記特徴は、時間−周波数表現におけるマスクであり、前記音響信号の時間−周波数表現が利用可能であり、
前記時間−周波数表現において前記マスクを前記音響信号に適用するステップ
をさらに備える請求項1に記載の方法。 - 前記音響信号の前記時間−周波数表現は、離散時間−周波数要素を含み、前記マスクは、重みを含み、前記方法は、
前記重みを前記時間−周波数要素に適用するステップ
をさらに含む、請求項9に記載の方法。 - 前記時間−周波数表現は、コクレオグラム、短時間フーリエ変換およびウェーブレットからなる群から選択される、請求項10に記載の方法。
- 前記特徴は、前記ターゲット信号と前記音響信号との間のエネルギー比を表す連続値を有する重み付きマスクである、請求項1に記載の方法。
- 前記アンサンブル学習手順は、時間−周波数表現における前記初期強調信号を解析する、請求項1に記載の方法。
- 前記アンサンブル学習手順は、前記初期強化信号の前記時間−周波数表現をマスクに変換する、請求項13に記載の方法。
- 前記アンサンブル学習手順は、投票、平均化またはスタッキングを用いる、請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/945,469 US9601130B2 (en) | 2013-07-18 | 2013-07-18 | Method for processing speech signals using an ensemble of speech enhancement procedures |
US13/945,469 | 2013-07-18 | ||
PCT/JP2014/068522 WO2015008699A1 (en) | 2013-07-18 | 2014-07-04 | Method for processing acoustic signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016517023A true JP2016517023A (ja) | 2016-06-09 |
JP6153142B2 JP6153142B2 (ja) | 2017-06-28 |
Family
ID=51224985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015555307A Active JP6153142B2 (ja) | 2013-07-18 | 2014-07-04 | 音響信号を処理する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9601130B2 (ja) |
JP (1) | JP6153142B2 (ja) |
CN (1) | CN105393305B (ja) |
DE (1) | DE112014003305B4 (ja) |
WO (1) | WO2015008699A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020109498A (ja) * | 2018-12-06 | 2020-07-16 | シナプティクス インコーポレイテッド | システム、及び、方法 |
JP2021086572A (ja) * | 2019-11-29 | 2021-06-03 | 東京エレクトロン株式会社 | 予測装置、予測方法及び予測プログラム |
JP2021086571A (ja) * | 2019-11-29 | 2021-06-03 | 東京エレクトロン株式会社 | 異常検知装置、異常検知方法及び異常検知プログラム |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9601130B2 (en) * | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
US10528147B2 (en) | 2017-03-06 | 2020-01-07 | Microsoft Technology Licensing, Llc | Ultrasonic based gesture recognition |
US10276179B2 (en) | 2017-03-06 | 2019-04-30 | Microsoft Technology Licensing, Llc | Speech enhancement with low-order non-negative matrix factorization |
CN106895890B (zh) * | 2017-04-25 | 2019-04-16 | 浙江大学 | 一种多声道超声波气体流量计声道权系数计算方法 |
US10984315B2 (en) | 2017-04-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person |
DE102017209262A1 (de) | 2017-06-01 | 2018-12-06 | Audi Ag | Verfahren und Vorrichtung zur automatischen Gestenerkennung |
CN108091345B (zh) * | 2017-12-27 | 2020-11-20 | 东南大学 | 一种基于支持向量机的双耳语音分离方法 |
US11741398B2 (en) | 2018-08-03 | 2023-08-29 | Samsung Electronics Co., Ltd. | Multi-layered machine learning system to support ensemble learning |
KR102137151B1 (ko) * | 2018-12-27 | 2020-07-24 | 엘지전자 주식회사 | 노이즈 캔슬링 장치 및 그 방법 |
US11862141B2 (en) * | 2019-03-27 | 2024-01-02 | Sony Group Corporation | Signal processing device and signal processing method |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US10942204B1 (en) * | 2020-10-27 | 2021-03-09 | North China Electric Power University | Taylor weighted least squares method for estimating synchrophasor |
CN113903352A (zh) * | 2021-09-28 | 2022-01-07 | 阿里云计算有限公司 | 一种单通道语音增强方法及装置 |
US12057138B2 (en) | 2022-01-10 | 2024-08-06 | Synaptics Incorporated | Cascade audio spotting system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JPH09282418A (ja) * | 1996-04-16 | 1997-10-31 | Hitachi Ltd | 認識方式複合化装置および方法 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2012508903A (ja) * | 2008-11-12 | 2012-04-12 | エスシーティアイ ホールディングス、インク | 自動音声テキスト変換のためのシステムと方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
CN1162838C (zh) * | 2002-07-12 | 2004-08-18 | 清华大学 | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 |
US7383179B2 (en) * | 2004-09-28 | 2008-06-03 | Clarity Technologies, Inc. | Method of cascading noise reduction algorithms to avoid speech distortion |
KR101456866B1 (ko) * | 2007-10-12 | 2014-11-03 | 삼성전자주식회사 | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 |
US8737641B2 (en) * | 2008-11-04 | 2014-05-27 | Mitsubishi Electric Corporation | Noise suppressor |
JP5641186B2 (ja) * | 2010-01-13 | 2014-12-17 | ヤマハ株式会社 | 雑音抑圧装置およびプログラム |
KR101670313B1 (ko) * | 2010-01-28 | 2016-10-28 | 삼성전자주식회사 | 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법 |
WO2012083552A1 (en) | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
US9966067B2 (en) * | 2012-06-08 | 2018-05-08 | Apple Inc. | Audio noise estimation and audio noise reduction using multiple microphones |
US9601130B2 (en) * | 2013-07-18 | 2017-03-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for processing speech signals using an ensemble of speech enhancement procedures |
-
2013
- 2013-07-18 US US13/945,469 patent/US9601130B2/en active Active
-
2014
- 2014-07-04 JP JP2015555307A patent/JP6153142B2/ja active Active
- 2014-07-04 WO PCT/JP2014/068522 patent/WO2015008699A1/en active Application Filing
- 2014-07-04 CN CN201480040398.XA patent/CN105393305B/zh active Active
- 2014-07-04 DE DE112014003305.7T patent/DE112014003305B4/de active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683388A (ja) * | 1992-09-04 | 1994-03-25 | Fujitsu Ten Ltd | 音声認識装置 |
JPH09282418A (ja) * | 1996-04-16 | 1997-10-31 | Hitachi Ltd | 認識方式複合化装置および方法 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2012508903A (ja) * | 2008-11-12 | 2012-04-12 | エスシーティアイ ホールディングス、インク | 自動音声テキスト変換のためのシステムと方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020109498A (ja) * | 2018-12-06 | 2020-07-16 | シナプティクス インコーポレイテッド | システム、及び、方法 |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
JP2021086572A (ja) * | 2019-11-29 | 2021-06-03 | 東京エレクトロン株式会社 | 予測装置、予測方法及び予測プログラム |
JP2021086571A (ja) * | 2019-11-29 | 2021-06-03 | 東京エレクトロン株式会社 | 異常検知装置、異常検知方法及び異常検知プログラム |
JP7452990B2 (ja) | 2019-11-29 | 2024-03-19 | 東京エレクトロン株式会社 | 異常検知装置、異常検知方法及び異常検知プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6153142B2 (ja) | 2017-06-28 |
CN105393305B (zh) | 2019-04-23 |
US9601130B2 (en) | 2017-03-21 |
WO2015008699A1 (en) | 2015-01-22 |
DE112014003305T5 (de) | 2016-05-12 |
CN105393305A (zh) | 2016-03-09 |
DE112014003305B4 (de) | 2020-08-20 |
US20150025880A1 (en) | 2015-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6153142B2 (ja) | 音響信号を処理する方法 | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
JP5186510B2 (ja) | スピーチ明瞭度強化方法と装置 | |
Shivakumar et al. | Perception optimized deep denoising autoencoders for speech enhancement. | |
CN109643554A (zh) | 自适应语音增强方法和电子设备 | |
Kim et al. | End-to-end multi-task denoising for joint SDR and PESQ optimization | |
Le Roux et al. | Ensemble learning for speech enhancement | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
US10297272B2 (en) | Signal processor | |
Lemercier et al. | Diffusion posterior sampling for informed single-channel dereverberation | |
Li et al. | Single channel speech enhancement using temporal convolutional recurrent neural networks | |
Xie et al. | Speech enhancement using group complementary joint sparse representations in modulation domain | |
Krishnamoorthy et al. | Temporal and spectral processing methods for processing of degraded speech: a review | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Rana et al. | A study on speech enhancement using deep temporal convolutional neural network | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
Sanam et al. | Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Ravi | Performance analysis of adaptive wavelet denosing by speech discrimination and thresholding | |
Salvati et al. | Improvement of acoustic localization using a short time spectral attenuation with a novel suppression rule | |
Jan et al. | Joint blind dereverberation and separation of speech mixtures | |
Ayllón et al. | A computationally-efficient single-channel speech enhancement algorithm for monaural hearing aids | |
Chang et al. | Plug-and-Play MVDR Beamforming for Speech Separation | |
Abdelaziz et al. | General hybrid framework for uncertainty-decoding-based automatic speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6153142 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |