JP2017520803A - ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 - Google Patents
ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 Download PDFInfo
- Publication number
- JP2017520803A JP2017520803A JP2017515359A JP2017515359A JP2017520803A JP 2017520803 A JP2017520803 A JP 2017520803A JP 2017515359 A JP2017515359 A JP 2017515359A JP 2017515359 A JP2017515359 A JP 2017515359A JP 2017520803 A JP2017520803 A JP 2017520803A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- speech
- signal
- noisy
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000000926 separation method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Machine Translation (AREA)
- Complex Calculations (AREA)
Abstract
Description
いわゆる位相敏感信号近似(PSA:phase-sensitive signal approximation)技法において、ターゲットとなる大きさのみを予測しながら、目的関数において位相情報を用いることと、
大きさ及び位相の双方のより良好な予測を可能にする適切な目的関数を利用して、深層リカレントニューラルネットワークを用いて、エンハンスド信号の大きさ及び位相の双方を予測することと、
入力の位相を、大きさ及び位相を予測するシステムへの追加の入力として用いることと、
深層リカレントニューラルネットワークにおいて、マイクロフォンアレイ等のマルチチャネルオーディオ信号の全ての大きさ及び位相を用いることと、
を含む。
モデルベースの音声分離システムに言語モデルが統合された。フィードフォワードニューラルネットワークは、確率モデルと対照的に、入力から出力への1つの方向においてのみ情報フロー(information flow)をサポートする。
BLSTM−DRNN450によって用いられる目的関数に対する改善を説明する。通常、従来技術において、ネットワークは、ノイズを有するオーディオスペクトルに適用されるフィルタ又は周波数領域マスクを推定し、クリーンな音声スペクトルの推定値を生成する。目的関数は、オーディオ推定値とクリーンなオーディオターゲットとの間の振幅スペクトル領域における誤差を求める。再構成されたオーディオ推定は、ノイズを有するオーディオ信号の位相を保持する。
時間周波数フィルタリング方法は、ノイズを有するオーディオの周波数領域特徴表現を乗算するフィルタ又はマスキング機能を推定して、クリーンなオーディオ信号の推定値を形成する。本発明では、時間領域信号のウィンドウ付きフレームの離散フーリエ変換により得られたノイズを有するオーディオの複素短時間スペクトルyf,t、ノイズnf,t及びオーディオsf,tを定義する。以後、f、tによるインデックス付けを省いて、単一の時間周波数ビンについて検討する。
ここで、オーディオソース分離及びオーディオソース強調の用途において位相を大きさと共に予測する方法を説明する。このセットアップは、ニューラルネットワークWを、ターゲット信号の大きさ及び位相の予測を行うために用いることを含む。(1組の)混合した(又はノイズを有する)信号y(τ)を仮定する。信号y(τ)は、異なるソースからのターゲット信号(又はソース)s*(τ)及び他の背景信号の和である。本発明では、y(τ)からs*(τ)を復元する。yt,f及び
単純な手法において、
多くの場合、ノイズを有するオーディオ信号を適用するフィルタを推定した方がよい可能性がある。なぜなら、信号がクリーンである場合、フィルタは1(unity)になることができ、それによって、入力信号が出力信号の推定値
複素フィルタ手法は、信号がクリーンに近いときに最も良好に機能するが、信号のノイズが多いとき、システムは、ノイズを有する信号とクリーンな信号との間の差を推定しなくてはならない。この場合、クリーンな信号を直接推定した方がよい場合がある。これに動機付けられて、本発明では、ソフトゲートαt,fによって、ネットワークにどの方法を用いるか決定させることができる。ソフトゲートαt,fは、ネットワークの別の出力であり、ゼロと1との間の値をとり、時間−周波数出力
結合手法は過度に多くのパラメーターを有する可能性があり、これは望ましくない場合がある。本発明では、結合手法を以下のように単純化することができる。αt,f=1であるとき、ネットワークは入力を出力に直接渡し、それによって、マスクを推定する必要がなくなる。このため、αt,f=1であるとき、マスクを1(unity)に設定し、マスクパラメーター
Claims (5)
- ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法であって、
環境から前記ノイズを有するオーディオ信号を取得するステップと、
ネットワークパラメーターを有するエンハンスメントネットワークによって前記ノイズを有するオーディオ信号を処理して、大きさマスク及び位相推定値を共同で生成するステップと、
前記大きさマスク及び前記位相推定値を用いて、前記エンハンスドオーディオ信号を得るステップと
を含み、前記ステップはプロセッサが実行する、方法。 - 前記エンハンスメントネットワークは、双方向長期短期記憶(BLSTM)深層リカレントニューラルネットワーク(DRNN)である、請求項1に記載の方法。
- 前記エンハンスメントネットワークは、前記ノイズを有するオーディオ信号の振幅及び位相における誤差を含む複素スペクトルにおける誤差に基づく位相敏感目的関数を用いる、請求項1に記載の方法。
- 前記位相推定値は、前記エンハンスメントネットワークを通じて直接得られる、請求項1に記載の方法。
- 前記位相推定値は、複素値マスクを用いて前記ノイズを有するオーディオ信号の振幅と共同で得られる、請求項1に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462066451P | 2014-10-21 | 2014-10-21 | |
US62/066451 | 2014-10-21 | ||
US14/620,526 US9881631B2 (en) | 2014-10-21 | 2015-02-12 | Method for enhancing audio signal using phase information |
US14/620526 | 2015-02-12 | ||
PCT/JP2015/079241 WO2016063794A1 (en) | 2014-10-21 | 2015-10-08 | Method for transforming a noisy audio signal to an enhanced audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017520803A true JP2017520803A (ja) | 2017-07-27 |
JP6415705B2 JP6415705B2 (ja) | 2018-10-31 |
Family
ID=55749541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017515359A Active JP6415705B2 (ja) | 2014-10-21 | 2015-10-08 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20160111107A1 (ja) |
JP (1) | JP6415705B2 (ja) |
CN (1) | CN107077860B (ja) |
DE (1) | DE112015004785B4 (ja) |
WO (2) | WO2016063794A1 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146610A (ja) * | 2017-03-01 | 2018-09-20 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
JP2019090930A (ja) * | 2017-11-15 | 2019-06-13 | 日本電信電話株式会社 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
JP2019139102A (ja) * | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
JP2020060612A (ja) * | 2018-10-05 | 2020-04-16 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
JP2020095224A (ja) * | 2018-12-14 | 2020-06-18 | 富士通株式会社 | 音声補正装置および音声補正方法 |
JP2021086154A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
JP2022528720A (ja) * | 2019-04-11 | 2022-06-15 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
JP2022529912A (ja) * | 2019-04-16 | 2022-06-27 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 深層フィルタを決定するための方法および装置 |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9620108B2 (en) | 2013-12-10 | 2017-04-11 | Google Inc. | Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers |
US9818431B2 (en) * | 2015-12-21 | 2017-11-14 | Microsoft Technoloogy Licensing, LLC | Multi-speaker speech separation |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
WO2017130089A1 (en) * | 2016-01-26 | 2017-08-03 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
JP6480644B1 (ja) | 2016-03-23 | 2019-03-13 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
US10249305B2 (en) | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
US10387769B2 (en) | 2016-06-30 | 2019-08-20 | Samsung Electronics Co., Ltd. | Hybrid memory cell unit and recurrent neural network including hybrid memory cell units |
KR20180003123A (ko) | 2016-06-30 | 2018-01-09 | 삼성전자주식회사 | 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망 |
US10810482B2 (en) | 2016-08-30 | 2020-10-20 | Samsung Electronics Co., Ltd | System and method for residual long short term memories (LSTM) network |
US10224058B2 (en) | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
US9978392B2 (en) * | 2016-09-09 | 2018-05-22 | Tata Consultancy Services Limited | Noisy signal identification from non-stationary audio signals |
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
KR20180080446A (ko) | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10709390B2 (en) | 2017-03-02 | 2020-07-14 | Logos Care, Inc. | Deep learning algorithms for heartbeats detection |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US10528147B2 (en) | 2017-03-06 | 2020-01-07 | Microsoft Technology Licensing, Llc | Ultrasonic based gesture recognition |
US10276179B2 (en) | 2017-03-06 | 2019-04-30 | Microsoft Technology Licensing, Llc | Speech enhancement with low-order non-negative matrix factorization |
US10984315B2 (en) | 2017-04-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person |
EP3625791A4 (en) * | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE |
KR20200027475A (ko) | 2017-05-24 | 2020-03-12 | 모듈레이트, 인크 | 음성 대 음성 변환을 위한 시스템 및 방법 |
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
WO2019014890A1 (zh) * | 2017-07-20 | 2019-01-24 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
EP3714452B1 (en) * | 2017-11-23 | 2023-02-15 | Harman International Industries, Incorporated | Method and system for speech enhancement |
US10546593B2 (en) | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
KR102420567B1 (ko) * | 2017-12-19 | 2022-07-13 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
WO2019166296A1 (en) | 2018-02-28 | 2019-09-06 | Robert Bosch Gmbh | System and method for audio event detection in surveillance systems |
US10699697B2 (en) * | 2018-03-29 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition |
US10699698B2 (en) * | 2018-03-29 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition |
US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
WO2019198306A1 (ja) * | 2018-04-12 | 2019-10-17 | 日本電信電話株式会社 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
EP3807878B1 (en) * | 2018-06-14 | 2023-12-13 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
US11252517B2 (en) | 2018-07-17 | 2022-02-15 | Marcos Antonio Cantu | Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility |
WO2020018568A1 (en) * | 2018-07-17 | 2020-01-23 | Cantu Marcos A | Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN110767244B (zh) * | 2018-07-25 | 2024-03-29 | 中国科学技术大学 | 语音增强方法 |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN109215674A (zh) * | 2018-08-10 | 2019-01-15 | 上海大学 | 实时语音增强方法 |
US10726856B2 (en) * | 2018-08-16 | 2020-07-28 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for enhancing audio signals corrupted by noise |
CN108899047B (zh) * | 2018-08-20 | 2019-09-10 | 百度在线网络技术(北京)有限公司 | 音频信号的掩蔽阈值估计方法、装置及存储介质 |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
WO2020039571A1 (ja) * | 2018-08-24 | 2020-02-27 | 三菱電機株式会社 | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム |
JP7167554B2 (ja) * | 2018-08-29 | 2022-11-09 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109841226B (zh) * | 2018-08-31 | 2020-10-16 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
FR3085784A1 (fr) | 2018-09-07 | 2020-03-13 | Urgotech | Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel |
CN109119093A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 语音降噪方法、装置、存储介质及移动终端 |
CN109522445A (zh) * | 2018-11-15 | 2019-03-26 | 辽宁工程技术大学 | 一种融合CNNs与相位算法的音频分类检索方法 |
CN109256144B (zh) * | 2018-11-20 | 2022-09-06 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
WO2020126028A1 (en) * | 2018-12-21 | 2020-06-25 | Huawei Technologies Co., Ltd. | An audio processing apparatus and method for audio scene classification |
US11322156B2 (en) * | 2018-12-28 | 2022-05-03 | Tata Consultancy Services Limited | Features search and selection techniques for speaker and speech recognition |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN109448751B (zh) * | 2018-12-29 | 2021-03-23 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN111696571A (zh) * | 2019-03-15 | 2020-09-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110534123B (zh) * | 2019-07-22 | 2022-04-01 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN114175152A (zh) | 2019-08-01 | 2022-03-11 | 杜比实验室特许公司 | 用于增强劣化音频信号的系统和方法 |
WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
CN110503972B (zh) * | 2019-08-26 | 2022-04-19 | 北京大学深圳研究生院 | 语音增强方法、系统、计算机设备及存储介质 |
CN110491406B (zh) * | 2019-09-25 | 2020-07-31 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
CN110728989B (zh) * | 2019-09-29 | 2020-07-14 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
CN111243612A (zh) * | 2020-01-08 | 2020-06-05 | 厦门亿联网络技术股份有限公司 | 一种生成混响衰减参数模型的方法及计算系统 |
CN111429931B (zh) * | 2020-03-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种基于数据增强的降噪模型压缩方法及装置 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
CN111583948B (zh) * | 2020-05-09 | 2022-09-27 | 南京工程学院 | 一种改进的多通道语音增强系统和方法 |
CN111833896B (zh) * | 2020-07-24 | 2023-08-01 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112133277B (zh) * | 2020-11-20 | 2021-02-26 | 北京猿力未来科技有限公司 | 样本生成方法及装置 |
CN112309411B (zh) * | 2020-11-24 | 2024-06-11 | 深圳信息职业技术学院 | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 |
CN112669870B (zh) * | 2020-12-24 | 2024-05-03 | 北京声智科技有限公司 | 语音增强模型的训练方法、装置和电子设备 |
WO2022182850A1 (en) * | 2021-02-25 | 2022-09-01 | Shure Acquisition Holdings, Inc. | Deep neural network denoiser mask generation system for audio processing |
CN113241083B (zh) * | 2021-04-26 | 2022-04-22 | 华南理工大学 | 一种基于多目标异质网络的集成语音增强系统 |
CN113470685B (zh) * | 2021-07-13 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113450822B (zh) * | 2021-07-23 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
WO2023018905A1 (en) * | 2021-08-12 | 2023-02-16 | Avail Medsystems, Inc. | Systems and methods for enhancing audio communications |
CN113707168A (zh) * | 2021-09-03 | 2021-11-26 | 合肥讯飞数码科技有限公司 | 一种语音增强方法、装置、设备及存储介质 |
US11849286B1 (en) | 2021-10-25 | 2023-12-19 | Chromatic Inc. | Ear-worn device configured for over-the-counter and prescription use |
CN114093379B (zh) * | 2021-12-15 | 2022-06-21 | 北京荣耀终端有限公司 | 噪声消除方法及装置 |
US20230306982A1 (en) | 2022-01-14 | 2023-09-28 | Chromatic Inc. | System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures |
US11950056B2 (en) | 2022-01-14 | 2024-04-02 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11818547B2 (en) * | 2022-01-14 | 2023-11-14 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
US11832061B2 (en) * | 2022-01-14 | 2023-11-28 | Chromatic Inc. | Method, apparatus and system for neural network hearing aid |
CN114067820B (zh) * | 2022-01-18 | 2022-06-28 | 深圳市友杰智新科技有限公司 | 语音降噪模型的训练方法、语音降噪方法和相关设备 |
CN115424628B (zh) * | 2022-07-20 | 2023-06-27 | 荣耀终端有限公司 | 一种语音处理方法及电子设备 |
CN115295001B (zh) * | 2022-07-26 | 2024-05-10 | 中国科学技术大学 | 一种基于渐进式融合校正网络的单通道语音增强方法 |
US11902747B1 (en) | 2022-08-09 | 2024-02-13 | Chromatic Inc. | Hearing loss amplification that amplifies speech and noise subsignals differently |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02160298A (ja) * | 1988-12-14 | 1990-06-20 | Hitachi Ltd | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
JPH09160590A (ja) * | 1995-12-13 | 1997-06-20 | Denso Corp | 信号抽出装置 |
JPH1049197A (ja) * | 1996-08-06 | 1998-02-20 | Denso Corp | 音声復元装置及び音声復元方法 |
JP2009545914A (ja) * | 2006-08-01 | 2009-12-24 | ディーティーエス・インコーポレイテッド | 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術 |
JP2010521012A (ja) * | 2007-03-09 | 2010-06-17 | スカイプ・リミテッド | 音声符号化システム及び方法 |
JP2011530091A (ja) * | 2008-08-05 | 2011-12-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5878389A (en) | 1995-06-28 | 1999-03-02 | Oregon Graduate Institute Of Science & Technology | Method and system for generating an estimated clean speech signal from a noisy speech signal |
KR100341197B1 (ko) * | 1998-09-29 | 2002-06-20 | 포만 제프리 엘 | 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템 |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6732073B1 (en) | 1999-09-10 | 2004-05-04 | Wisconsin Alumni Research Foundation | Spectral enhancement of acoustic signals to provide improved recognition of speech |
DE19948308C2 (de) | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
US7243060B2 (en) * | 2002-04-02 | 2007-07-10 | University Of Washington | Single channel sound separation |
TWI223792B (en) * | 2003-04-04 | 2004-11-11 | Penpower Technology Ltd | Speech model training method applied in speech recognition |
US7660713B2 (en) * | 2003-10-23 | 2010-02-09 | Microsoft Corporation | Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR) |
JP2005249816A (ja) | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
GB0414711D0 (en) | 2004-07-01 | 2004-08-04 | Ibm | Method and arrangment for speech recognition |
US8117032B2 (en) | 2005-11-09 | 2012-02-14 | Nuance Communications, Inc. | Noise playback enhancement of prerecorded audio for speech recognition operations |
US8615393B2 (en) | 2006-11-15 | 2013-12-24 | Microsoft Corporation | Noise suppressor for speech recognition |
JP5156260B2 (ja) | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
US8645132B2 (en) | 2011-08-24 | 2014-02-04 | Sensory, Inc. | Truly handsfree speech recognition in high noise environments |
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US9728184B2 (en) * | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
CN103489454B (zh) * | 2013-09-22 | 2016-01-20 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN103531204B (zh) * | 2013-10-11 | 2017-06-20 | 深港产学研基地 | 语音增强方法 |
-
2015
- 2015-02-12 US US14/620,514 patent/US20160111107A1/en not_active Abandoned
- 2015-02-12 US US14/620,526 patent/US9881631B2/en active Active
- 2015-10-08 JP JP2017515359A patent/JP6415705B2/ja active Active
- 2015-10-08 DE DE112015004785.9T patent/DE112015004785B4/de active Active
- 2015-10-08 CN CN201580056485.9A patent/CN107077860B/zh active Active
- 2015-10-08 WO PCT/JP2015/079241 patent/WO2016063794A1/en active Application Filing
- 2015-10-08 WO PCT/JP2015/079242 patent/WO2016063795A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02160298A (ja) * | 1988-12-14 | 1990-06-20 | Hitachi Ltd | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
JPH09160590A (ja) * | 1995-12-13 | 1997-06-20 | Denso Corp | 信号抽出装置 |
JPH1049197A (ja) * | 1996-08-06 | 1998-02-20 | Denso Corp | 音声復元装置及び音声復元方法 |
JP2009545914A (ja) * | 2006-08-01 | 2009-12-24 | ディーティーエス・インコーポレイテッド | 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術 |
JP2010521012A (ja) * | 2007-03-09 | 2010-06-17 | スカイプ・リミテッド | 音声符号化システム及び方法 |
JP2011530091A (ja) * | 2008-08-05 | 2011-12-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146610A (ja) * | 2017-03-01 | 2018-09-20 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
JP2019090930A (ja) * | 2017-11-15 | 2019-06-13 | 日本電信電話株式会社 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
JP2019139102A (ja) * | 2018-02-13 | 2019-08-22 | 日本電信電話株式会社 | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム |
JP7159767B2 (ja) | 2018-10-05 | 2022-10-25 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
JP2020060612A (ja) * | 2018-10-05 | 2020-04-16 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
JP2020095224A (ja) * | 2018-12-14 | 2020-06-18 | 富士通株式会社 | 音声補正装置および音声補正方法 |
JP7095586B2 (ja) | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
JP2022528720A (ja) * | 2019-04-11 | 2022-06-15 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
JP7383725B2 (ja) | 2019-04-11 | 2023-11-20 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
JP2022529912A (ja) * | 2019-04-16 | 2022-06-27 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 深層フィルタを決定するための方法および装置 |
JP7486266B2 (ja) | 2019-04-16 | 2024-05-17 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 深層フィルタを決定するための方法および装置 |
JP2021086154A (ja) * | 2019-11-25 | 2021-06-03 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
US11620983B2 (en) | 2019-11-25 | 2023-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd | Speech recognition method, device, and computer-readable storage medium |
JP7434137B2 (ja) | 2019-11-25 | 2024-02-20 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2016063795A1 (en) | 2016-04-28 |
CN107077860B (zh) | 2021-02-09 |
CN107077860A (zh) | 2017-08-18 |
DE112015004785B4 (de) | 2021-07-08 |
DE112015004785T5 (de) | 2017-07-20 |
US20160111108A1 (en) | 2016-04-21 |
US20160111107A1 (en) | 2016-04-21 |
WO2016063794A1 (en) | 2016-04-28 |
JP6415705B2 (ja) | 2018-10-31 |
US9881631B2 (en) | 2018-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6415705B2 (ja) | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
Haeb-Umbach et al. | Far-field automatic speech recognition | |
Erdogan et al. | Multi-channel speech recognition: LSTMs all the way through | |
Han et al. | Learning spectral mapping for speech dereverberation and denoising | |
Narayanan et al. | Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training | |
Srinivasan et al. | Codebook-based Bayesian speech enhancement for nonstationary environments | |
Watanabe et al. | New Era for Robust Speech Recognition | |
Kwon et al. | NMF-based speech enhancement using bases update | |
Sehr et al. | Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
Lee et al. | A joint learning algorithm for complex-valued tf masks in deep learning-based single-channel speech enhancement systems | |
Mohammadiha et al. | Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling | |
Kim et al. | End-to-end multi-task denoising for joint SDR and PESQ optimization | |
Yu et al. | Audio-visual multi-channel integration and recognition of overlapped speech | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Wang et al. | Enhanced Spectral Features for Distortion-Independent Acoustic Modeling. | |
Martín-Doñas et al. | Dual-channel DNN-based speech enhancement for smartphones | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
Nguyen et al. | Feature adaptation using linear spectro-temporal transform for robust speech recognition | |
Seltzer | Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays | |
Nathwani et al. | DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR | |
Li et al. | Single channel speech enhancement using temporal convolutional recurrent neural networks | |
Saleem et al. | Variance based time-frequency mask estimation for unsupervised speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6415705 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |