CN111863007A - 一种基于深度学习的语音增强方法及系统 - Google Patents
一种基于深度学习的语音增强方法及系统 Download PDFInfo
- Publication number
- CN111863007A CN111863007A CN202010554629.6A CN202010554629A CN111863007A CN 111863007 A CN111863007 A CN 111863007A CN 202010554629 A CN202010554629 A CN 202010554629A CN 111863007 A CN111863007 A CN 111863007A
- Authority
- CN
- China
- Prior art keywords
- irm
- speech
- dnn
- boosting
- speech enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000000873 masking effect Effects 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 238000012549 training Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及一种基于深度学习的语音增强方法及系统,属于语音处理技术领域。
背景技术
传统语音增强需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳;此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性;总的来说,其对平稳噪声的抑制效果较好,且运行效率高。但是其对于非平稳噪声效果较差,且易有较大程度的失真。而基于深度神经网络的语音增强方法,由于具备强大的非线性拟合能力,对非平稳噪声表现出了更好的效果,且语音失真情况较少。
近几年基于语音识别的输入法和语义理解被大幅应用于智能手机,车载设备,可穿戴设备以及智能家居的各个电器设备中,这些设备通常都在比较复杂的声学环境中被用户所用。而复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,这就会大幅降低用户的体验。因此,前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
发明内容
本发明的目的在于,克服现有技术存在的技术缺陷,解决上述技术问题,提出一种基于深度学习的语音增强方法及系统。
本发明具体采用如下技术方案:一种基于深度学习的语音增强方法,其特征在于,包括如下步骤:
步骤SS1:获得带噪语音的多个IRM预测值的解的集合;
作为一种较佳的实施例,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
本发明还提出一种基于深度学习的语音增强系统,其特征在于,包括:
Boosting-DNN语音增强模型,用于:获得噪声语音的多个IRM预测值的解的集合;
所述Boosting-DNN语音增强模型的输入端接带噪语音,所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。
作为一种较佳的实施例,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
本发明所达到的有益效果:本发明针对如何解决复杂的噪声环境通常让语音的识别率显著下降,识别率的下降意味着这些设备无法准确理解用户的指令,导致大幅降低用户的体验的技术问题,通过设计一种基于深度学习的语音增强方法及系统,将Boosting-DNN语音增强模型和Ensemble-DNN集成语音增强模型这两个DNN串接起来的方式,有效的解决了一个神经网络由于层次太深训练不稳定的现象,构建一种非常深的网络结构,从实际的实验效果来看,也明显优于只采用一个神经网络的方法,彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
附图说明
图1是本发明的Boosting-DNN语音增强模型的拓扑图。
图2是本发明的一种基于深度学习的语音增强方法的原理拓扑图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1和图2所示,本发明提出一种基于深度学习的语音增强方法,其特征在于,包括如下步骤:
步骤SS1:获得带噪语音的多个IRM预测值的解的集合;
作为一种较佳的实施例,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
实施例2:本发明还提出一种基于深度学习的语音增强系统,其特征在于,包括:
Boosting-DNN语音增强模型,用于:获得噪声语音的多个IRM预测值的解的集合;
所述Boosting-DNN语音增强模型的输入端接带噪语音,所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。
作为一种较佳的实施例,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
作为一种较佳的实施例,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
Ensemble-DNN利用集成学习的理念,可以被看作干净语音的强预测器,它将许多较弱的回归函数(Boosting-DNN的输出)组合成一个强的回归函数。
需要说明的是:两个DNN串接起来的方式,有效解决一个网络由于层次太深训练不稳定的现象,可以认为是一种非常深的网络结构;从实际的实验效果来看,也明显优于只采用一个神经网络的方法。
在神经网络训练过程中,Dropout是一种训练深度神经网络时常用的算法,能有效地防止神经网络的过拟合、增强神经网络的泛化能力。当前对Dropout的解释包括集成学习、正则化策略、朴素贝叶斯理论等等。我们合理地利用Dropout策略,也可以一定程度上地提升语音增强模型的泛化能力。
目前常用的基于深度学习的语音增强算法主要从输入特征、优化目标、模型结构这三方面展开的。如基于深度神经网络(DNN)的语音增强算法,利用DNN建立噪声和干净语音之间的映射函数,采用全局均衡方差和噪声感知训练的方法来估计干净语音的对数功率谱。通过训练长短(Long Short-Term Memory Recurrent Neural Network,LSTMRNN)来估计带噪语音中的干净语音和噪声特征,最后通过掩蔽的方法将噪声部分从带噪频谱中去除掉的语音增强算法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
2.根据权利要求1所述的一种基于深度学习的语音增强方法,其特征在于,所述步骤SS1具体包括:在输入端,带噪语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
3.根据权利要求1所述的一种基于深度学习的语音增强方法,其特征在于,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
5.根据权利要求1所述的一种基于深度学习的语音增强系统,其特征在于,所述获得噪声语音的多个IRM预测值的解的集合具体包括:在输入端,噪声语音在当前帧左右两边各扩D帧,即[xn-D,xn-D+1,…,xn,…,xn+D-1,xn+D],为获得对当前帧时频掩蔽的多个预测值,boosting-DNN语音增强模型,在输出端进行扩帧,目标变为[yn-D,yn-D+1,…,yn,…,yn+D-1,yn+D],在预测当前帧的时频掩蔽yn时,也预测邻域帧的时频掩蔽IRM;对每一帧得到对当前帧时频掩蔽的2D+1个预测值,即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计;所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]。
6.根据权利要求1所述的一种基于深度学习的语音增强系统,其特征在于,所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[yt-D,yt-D+1,…,yt,…,yt+D-1,yt+D]拼接带噪语音对数功率谱特征LPS[xt-D,xt-D+1,…,xt,…,xt+D-1,xt+D]作为输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554629.6A CN111863007A (zh) | 2020-06-17 | 2020-06-17 | 一种基于深度学习的语音增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554629.6A CN111863007A (zh) | 2020-06-17 | 2020-06-17 | 一种基于深度学习的语音增强方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111863007A true CN111863007A (zh) | 2020-10-30 |
Family
ID=72986759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010554629.6A Pending CN111863007A (zh) | 2020-06-17 | 2020-06-17 | 一种基于深度学习的语音增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863007A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700786A (zh) * | 2020-12-29 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629412A (zh) * | 2017-03-15 | 2018-10-09 | 中国科学院声学研究所 | 一种基于无网格最大互信息准则的神经网络训练加速方法 |
CN109256144A (zh) * | 2018-11-20 | 2019-01-22 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
US20190318755A1 (en) * | 2018-04-13 | 2019-10-17 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
-
2020
- 2020-06-17 CN CN202010554629.6A patent/CN111863007A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629412A (zh) * | 2017-03-15 | 2018-10-09 | 中国科学院声学研究所 | 一种基于无网格最大互信息准则的神经网络训练加速方法 |
US20190318755A1 (en) * | 2018-04-13 | 2019-10-17 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
CN109256144A (zh) * | 2018-11-20 | 2019-01-22 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN110060704A (zh) * | 2019-03-26 | 2019-07-26 | 天津大学 | 一种改进的多目标准则学习的语音增强方法 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
Non-Patent Citations (3)
Title |
---|
QING WANG: "A Multiobjective Learning and Ensembling Approach to High-Performance Speech Enhancement With Compact Neural Network Architectures", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
任相赢: "基于深层神经网络的语音增强算法研究", 《中国优秀博士学位论文全文数据库信息科技辑》 * |
王青: "基于深层神经网络的多目标学习和融合的语音增强研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700786A (zh) * | 2020-12-29 | 2021-04-23 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
CN112700786B (zh) * | 2020-12-29 | 2024-03-12 | 西安讯飞超脑信息科技有限公司 | 语音增强方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107241106B (zh) | 基于深度学习的极化码译码算法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
US10403299B2 (en) | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition | |
CN110619885A (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
EP3866165B1 (en) | Method for enhancing telephone speech signals based on convolutional neural networks | |
Mahmmod et al. | Speech enhancement algorithm based on super-Gaussian modeling and orthogonal polynomials | |
CN111968658B (zh) | 语音信号的增强方法、装置、电子设备和存储介质 | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
CN111508519B (zh) | 一种音频信号人声增强的方法及装置 | |
US20240071402A1 (en) | Method and apparatus for processing audio data, device, storage medium | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN112435652A (zh) | 一种基于图卷积神经网络的语音关键词识别系统及方法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
Fu et al. | Boosting objective scores of a speech enhancement model by metricgan post-processing | |
CN111863007A (zh) | 一种基于深度学习的语音增强方法及系统 | |
CN115574922A (zh) | 一种基于交叉熵的水电机组振动信号降噪方法及系统 | |
Le et al. | Inference skipping for more efficient real-time speech enhancement with parallel RNNs | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN114283829A (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN111555994B (zh) | 一种基于最大箕舌线准则算法的簇稀疏信道估计方法 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
Zhou et al. | Speech Enhancement via Residual Dense Generative Adversarial Network. | |
CN111144347A (zh) | 一种数据处理方法、装置、平台及存储介质 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201030 |