JP2021167977A - 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 - Google Patents
音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2021167977A JP2021167977A JP2021120083A JP2021120083A JP2021167977A JP 2021167977 A JP2021167977 A JP 2021167977A JP 2021120083 A JP2021120083 A JP 2021120083A JP 2021120083 A JP2021120083 A JP 2021120083A JP 2021167977 A JP2021167977 A JP 2021167977A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- frequency domain
- target
- signal
- processing target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 212
- 238000003672 processing method Methods 0.000 title claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000005236 sound signal Effects 0.000 claims description 391
- 238000000034 method Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000004891 communication Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000005316 response function Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
【解決手段】音声信号処理方法は、処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいてターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。
【選択図】図1
Description
処理対象音声信号及び参照音声信号を取得し、処理対象音声信号及び参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得し、処理対象周波数領域音声信号及び参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、処理対象音声信号におけるターゲット音声信号と処理対象音声信号との周波数領域音声信号比を取得し、周波数領域音声信号比及び処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、ターゲット周波数領域音声信号を処理してターゲット音声信号を取得する。これにより、音声信号処理の効率及び効果を向上させ、後続の音声認識の精度を向上させる。
Claims (17)
- 処理対象音声信号及び参照音声信号を取得するステップと、
前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理して、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するステップと、
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップと、
前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップと、
を含む音声信号処理方法。 - 前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力するステップの前に、
複数の処理対象音声信号サンプル、複数の参照音声信号サンプル、及び複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するステップと、
前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するステップと、
予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するステップと、
を含む請求項1に記載の音声信号処理方法。 - 前記複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するステップが、
複数のインパルス応答を取得するステップと、
近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得するステップと、
異なるオーディオデバイスの複数の処理対象音声信号を収集して、予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算して、前記複数の処理対象音声信号サンプルを取得するステップと、
前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得するステップと、
を含む請求項2に記載の音声信号処理方法。 - 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
前記予め設定された周波数分割規則に従って、前記参照周波数領域音声信号を複数の独立したサブ音声信号に分割して、複数グループの参照振幅及び位相を取得するステップと、
を含む請求項1に記載の音声信号処理方法。 - 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
時間スライディングウィンドウアルゴリズムによって、前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するステップと、
前記時間スライディングウィンドウアルゴリズムによって、前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するステップと、
を含む請求項1に記載の音声信号処理方法。 - 前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記ターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するステップが、
前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得するステップと、
前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するステップと、
を含む請求項4または5に記載の音声信号処理方法。 - 前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップが、
各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するステップを含む請求項1に記載の音声信号処理方法。 - 処理対象音声信号及び参照音声信号を取得するように構成される第1の取得モジュールと、
前記処理対象音声信号及び前記参照音声信号をそれぞれ前処理してから、処理対象周波数領域音声信号及び参照周波数領域音声信号を取得するように構成される第1の前処理モジュールと、
前記処理対象周波数領域音声信号及び前記参照周波数領域音声信号を複素ニューラルネットワークモデルに入力して、前記処理対象音声信号におけるターゲット音声信号と前記処理対象音声信号との周波数領域音声信号比を取得するように構成される第2の取得モジュールと、
前記周波数領域音声信号比及び前記処理対象周波数領域音声信号に基づいて、ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される処理モジュールと、
を備える音声信号処理装置。 - 複数の処理対象音声信号サンプル及び複数の参照音声信号サンプルを取得するように構成される第3の取得モジュールと、
複数のターゲット音声信号と処理対象音声信号との周波数領域音声信号の理想的な比を取得するように構成される第4の取得モジュールと、
前記複数の処理対象音声信号サンプル及び前記複数の参照音声信号サンプルを前処理してから、複素ニューラルネットワークに入力してトレーニングし、周波数領域音声信号トレーニング比を取得するように構成される第2の前処理モジュールと、
予め設定された損失関数によって前記周波数領域音声信号の理想的な比及び前記周波数領域音声信号トレーニング比を算出し、前記複素ニューラルネットワークのネットワークパラメータが予め設定された要件を満たすまで、前記複素ニューラルネットワークのネットワークパラメータを算出結果に基づいて調整し、前記複素ニューラルネットワークモデルを取得するように構成されるトレーニングモジュールと、
を備える請求項8に記載の音声信号処理装置。 - 前記第3の取得モジュールが、
複数のインパルス応答を取得し、
近接場ノイズ信号をランダムに選択し、近接場音声信号をランダムに選択し、前記近接場ノイズ信号及び前記近接場音声信号をそれぞれ前記複数のインパルス応答に畳み込んでから、予め設定された信号対ノイズ比に基づいて加算し、複数のシミュレート外部音声信号を取得し、
異なるオーディオデバイスの複数の処理対象音声信号を収集して、前記予め設定された信号対ノイズ比に基づいて前記複数のシミュレート外部音声信号と加算し、前記複数の処理対象音声信号サンプルを取得し、
前記異なるオーディオデバイスの複数のスピーカー音声信号を前記複数の参照音声信号サンプルとして取得する請求項9に記載の音声信号処理装置。 - 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
予め設定された周波数分割規則に従って前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第1の分割モジュールと、
前記予め設定された周波数分割規則に従って前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第2の分割モジュールと、
を備える請求項8に記載の音声信号処理装置。 - 前記周波数領域音声信号が、連続するN個の時刻における各周波数の振幅及び位相であり、Nが、1よりも大きい正の整数であり、
時間スライディングウィンドウアルゴリズムによって前記処理対象周波数領域音声信号を分割して、複数グループの処理対象振幅及び位相を取得するように構成される第3の分割モジュールと、
前記時間スライディングウィンドウアルゴリズムによって前記参照周波数領域音声信号を分割して、複数グループの参照振幅及び位相を取得するように構成される第4の分割モジュールと、
を備える請求項8に記載の音声信号処理装置。 - 前記第2の取得モジュールが、
前記複数グループの処理対象振幅及び位相、前記複数グループの参照振幅及び位相をそれぞれ同じまたは異なる複素ニューラルネットワークモデルに入力して、複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を取得し、
前記複数グループのターゲット音声信号と処理対象音声信号との振幅及び位相比を組み合わせて、前記ターゲット音声信号と前記処理対象音声信号との振幅及び位相比を取得するように構成される請求項11または12に記載の音声信号処理装置。 - 前記処理モジュールが、
各同じ時刻における同じ周波数の前記処理対象周波数領域音声信号と対応する周波数領域音声信号比とを乗算処理して、前記ターゲット周波数領域音声信号を取得し、前記ターゲット周波数領域音声信号を処理して前記ターゲット音声信号を取得するように構成される請求項8に記載の音声信号処理装置。 - 少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から7のいずれか一項に記載の音声信号処理方法を実行できる電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から7のいずれか一項に記載の音声信号処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータに請求項1から7のいずれか一項に記載の音声信号処理方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011086047.6A CN112420073B (zh) | 2020-10-12 | 2020-10-12 | 语音信号处理方法、装置、电子设备和存储介质 |
CN202011086047.6 | 2020-10-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021167977A true JP2021167977A (ja) | 2021-10-21 |
JP7214798B2 JP7214798B2 (ja) | 2023-01-30 |
Family
ID=74854413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021120083A Active JP7214798B2 (ja) | 2020-10-12 | 2021-07-21 | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210319802A1 (ja) |
JP (1) | JP7214798B2 (ja) |
CN (1) | CN112420073B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112998B (zh) * | 2021-05-11 | 2024-03-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 模型训练方法、混响效果复现方法、设备及可读存储介质 |
CN113689878A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 回声消除方法、回声消除装置及计算机可读存储介质 |
CN113823314B (zh) * | 2021-08-12 | 2022-10-28 | 北京荣耀终端有限公司 | 语音处理方法和电子设备 |
CN114141224B (zh) * | 2021-11-30 | 2023-06-09 | 北京百度网讯科技有限公司 | 信号处理方法和装置、电子设备、计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028618A (ja) * | 2016-08-18 | 2018-02-22 | 日本電信電話株式会社 | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム |
JP2020148909A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
WO2021171829A1 (ja) * | 2020-02-26 | 2021-09-02 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
JP2021184587A (ja) * | 2019-11-12 | 2021-12-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100758206B1 (ko) * | 2006-09-14 | 2007-09-12 | 주식회사 쏠리테크 | 반향성분 제거 시스템 및 반향성분 제거방법 |
EP2673778B1 (en) * | 2011-02-10 | 2018-10-10 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
JP6260504B2 (ja) * | 2014-02-27 | 2018-01-17 | 株式会社Jvcケンウッド | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US11456005B2 (en) * | 2017-11-22 | 2022-09-27 | Google Llc | Audio-visual speech separation |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
WO2019143759A1 (en) * | 2018-01-18 | 2019-07-25 | Knowles Electronics, Llc | Data driven echo cancellation and suppression |
US10957337B2 (en) * | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
US10573301B2 (en) * | 2018-05-18 | 2020-02-25 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN108766454A (zh) * | 2018-06-28 | 2018-11-06 | 浙江飞歌电子科技有限公司 | 一种语音噪声抑制方法及装置 |
CN109841206B (zh) * | 2018-08-31 | 2022-08-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN111261179A (zh) * | 2018-11-30 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 回声消除方法及装置和智能设备 |
US10803881B1 (en) * | 2019-03-28 | 2020-10-13 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancelation using deep multitask recurrent neural networks |
US11393487B2 (en) * | 2019-03-28 | 2022-07-19 | Samsung Electronics Co., Ltd. | System and method for acoustic echo cancelation using deep multitask recurrent neural networks |
EP3716270B1 (en) * | 2019-03-29 | 2022-04-06 | Goodix Technology (HK) Company Limited | Speech processing system and method therefor |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111048061B (zh) * | 2019-12-27 | 2022-12-27 | 西安讯飞超脑信息科技有限公司 | 回声消除滤波器的步长获取方法、装置及设备 |
CN111223493B (zh) * | 2020-01-08 | 2022-08-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111292759B (zh) * | 2020-05-11 | 2020-07-31 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及系统 |
-
2020
- 2020-10-12 CN CN202011086047.6A patent/CN112420073B/zh active Active
-
2021
- 2021-06-08 US US17/342,078 patent/US20210319802A1/en not_active Abandoned
- 2021-07-21 JP JP2021120083A patent/JP7214798B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028618A (ja) * | 2016-08-18 | 2018-02-22 | 日本電信電話株式会社 | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム |
JP2020148909A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
JP2021184587A (ja) * | 2019-11-12 | 2021-12-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
WO2021171829A1 (ja) * | 2020-02-26 | 2021-09-02 | ソニーグループ株式会社 | 信号処理装置、信号処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN112420073A (zh) | 2021-02-26 |
CN112420073B (zh) | 2024-04-16 |
JP7214798B2 (ja) | 2023-01-30 |
US20210319802A1 (en) | 2021-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JP2021167977A (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
CN103426435B (zh) | 具有移动约束的通过独立分量分析的源分离 | |
CN113436643B (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
KR102577513B1 (ko) | 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치 | |
US20190198036A1 (en) | Information processing apparatus, information processing method, and recording medium | |
CN103426434A (zh) | 结合源方向信息通过独立分量分析的源分离 | |
CN103426437A (zh) | 使用利用混合多元概率密度函数的独立分量分析的源分离 | |
CN113921022B (zh) | 音频信号分离方法、装置、存储介质和电子设备 | |
Barker et al. | The CHiME challenges: Robust speech recognition in everyday environments | |
CN113643714B (zh) | 音频处理方法、装置、存储介质及计算机程序 | |
Chen et al. | Sound localization by self-supervised time delay estimation | |
US20240244390A1 (en) | Audio signal processing method and apparatus, and computer device | |
CN112542176B (zh) | 信号增强方法、装置及存储介质 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN112466327B (zh) | 语音处理方法、装置和电子设备 | |
WO2024018429A1 (en) | Audio signal processing method, audio signal processing apparatus, computer device and storage medium | |
Li et al. | A fast convolutional self-attention based speech dereverberation method for robust speech recognition | |
CN117373468A (zh) | 远场语音增强处理方法、装置、计算机设备和存储介质 | |
JP2022020062A (ja) | 特徴情報のマイニング方法、装置及び電子機器 | |
Li | RETRACTED ARTICLE: Speech-assisted intelligent software architecture based on deep game neural network | |
Yang et al. | RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization | |
CN114446316B (zh) | 音频分离方法、音频分离模型的训练方法、装置及设备 | |
Zhou et al. | MetaRL-SE: a few-shot speech enhancement method based on meta-reinforcement learning | |
Shalev et al. | Indoors audio classification with structure image method for simulating multi-room acoustics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7214798 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |