CN111583951A - 一种基于深度特征损失的语音降噪方法及系统 - Google Patents
一种基于深度特征损失的语音降噪方法及系统 Download PDFInfo
- Publication number
- CN111583951A CN111583951A CN202010354660.5A CN202010354660A CN111583951A CN 111583951 A CN111583951 A CN 111583951A CN 202010354660 A CN202010354660 A CN 202010354660A CN 111583951 A CN111583951 A CN 111583951A
- Authority
- CN
- China
- Prior art keywords
- network
- audio
- layer
- noise reduction
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000004913 activation Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000010339 dilation Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 25
- 238000001994 activation Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于深度特征损失的语音降噪方法及系统,包括:确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;结合预设的音频分类任务对所述音频分类网络进行预训练;使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪。本发明将训练好的分类网络的作为增强网络的损失函数,其中损失函数由原始音频和去噪音频在分类网络中的前六层的激活特征做差,将每一层的差值求和得出。通过比较去噪信号和干净信号在预训练的深度网络中的激活差异作为损失,更好的实现语音去噪的效果。
Description
技术领域
本发明属于语音信号处理技术领域,更具体地,涉及一种基于深度特征损失的语音降噪方法及系统。
背景技术
在深度神经网络普及之前,降噪系统依赖于对于频谱图统计信号的处理方法,随后又采用基于频谱图分解的方法。当前的去噪管道则是通过深层网络来获得更好的性能,但是大多数的去噪管道仍然在频谱图上运行。这样,当使用短时逆傅里叶变换来产生时域增强信号时,会造成时域的混叠而产生信号伪像。最近,人们在降噪管道上直接对原始波形进行处理,这种方法旨在充分利用深层网络的表达能力,减少了时频转换和相位信息的丢失,但是在使用简单或者高级的损失函数时,在不匹配的条件下表现出有限的效果。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有语音降噪方法直接对原始波形进行处理,在损失函数不匹配的条件下表现出有限的效果的技术问题。
为实现上述目的,第一方面,本发明提供基于深度特征损失的语音降噪方法,包括如下步骤:
S1、确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
S2、结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层差值求和得出。
需要说明的是,本发明提供的语音降噪网络包括损失网络和增强网络其中损失网络就是音频分类网络,用于帮助增强网络来降噪。
可选地,所述声学场景分类任务包括对多种不同的生活场景进行分类,以使得所述损失函数中包含各种生活场景信息。
可选地,所述音频标记任务包括对童声、女声以及男声进行分类,以使得所述损失函数获取各类人声信息内容信息。
可选地,所述音频分类网络由15个卷积层和3×1卷积核,批量归一化,LReLU单元和零填充单元组成;与上一层相比,下一层的长度减少2倍;通道数每5层增加一倍,起始层有32个通道;最后一个特征层中的每个通道均被平均池化以产生输出特征向量,最后通过线性层映射,将映射的输出向量作为特征提供给的分类器进行分类,损失函数使用交叉熵。
可选地,所述增强网络由16个卷积层组成,第一层和最后一层是维数N×1的一维张量,N是输入信号长度,第一层卷积核为3×1,最后一层卷积核为1×1;每个中间层是维数N×W的二维张量,其中W是每个卷积层中的特征映射数;通过具有3×1卷积核的膨胀卷积,然后进行自适应归一化和渗漏校正线性单元(LReLU)进行激活,由于归一化,中间层没有使用任何偏置项;对所有层进行零填充,以使它们的“有效”长度恒定为N。
第二方面,本发明提供一种基于深度特征损失的语音降噪系统,包括:
分类网络确定单元,用于确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
网络训练单元,用于结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
语音降噪单元,用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层的差值求和得出。
可选地,所述声学场景分类任务包括对多种不同的生活场景进行分类,以使得所述损失函数中包含各种生活场景信息。
可选地,所述音频标记任务包括对童声、女声以及男声进行分类,以使得所述损失函数获取各类人声信息内容信息。
可选地,所述音频分类网络由15个卷积层和3×1卷积核,批量归一化,LReLU单元和零填充单元组成;与上一层相比,下一层的长度减少2倍;通道数每5层增加一倍,起始层有32个通道;最后一个特征层中的每个通道均被平均池化以产生输出特征向量,最后通过线性层映射,将映射的输出向量作为特征提供给的分类器进行分类,损失函数使用交叉熵。
可选地,所述增强网络由16个卷积层组成,第一层和最后一层是维数N×1的一维张量,N是输入信号长度,第一层卷积核为3×1,最后一层卷积核为1×1;每个中间层是维数N×W的二维张量,其中W是每个卷积层中的特征映射数;通过具有3×1卷积核的膨胀卷积,然后进行自适应归一化和渗漏校正线性单元(LReLU)进行激活,由于归一化,中间层没有使用任何偏置项;对所有层进行零填充,以使它们的“有效”长度恒定为N。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种基于深度特征损失的语音降噪方法及系统,相比于对频谱进行降噪处理的方式,该方法直接对原始信号进行处理,减少了时频转换和相位信息的丢失;该方法使用全卷积网络,并使用针对一些音频分类任务进行预训练的损失网络来进行训练,使得降噪系统可以捕获各种规模的语音结构并实现更好的降噪性能。
附图说明
图1为本发明提供的基于深度特征损失的语音降噪方法流程图;
图2为本发明提供的语音降噪网络的简单结构图;
图3为本发明提供的音频分类网络的简单结构图;
图4为本发明提供的语音增强网络的简单结构图;
图5为本发明提供的基于深度特征损失的语音降噪系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1为本发明提供的基于深度特征损失的语音降噪方法流程图;如图1所示,该方法包括如下步骤:
S1、确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
S2、结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层的差值求和得出。
本发明提供的语音降噪网络的简单结构如图2所示,将训练好的分类网络的作为增强网络的损失函数,其中损失函数由原始音频和去噪音频在分类网络中的前六层的激活特征做差,将每一层的差值求和得出。通过比较去噪信号和干净信号在预训练的深度网络中的激活差异作为损失,更好的实现语音去噪的效果。
图3为本发明提供的音频分类网络,即损失网络的网络结构图,共15层每五层通道数增加一倍,开始的通道数为64层,最终输出为128通道数,再将最后将128通道中每个通道特征被平均池化以产生特征向量,最后通过线性层映射成分类的个数。
图4为本发明提供的语音增强网络的网络结构,共14层中间层均为膨胀卷积层,膨胀系数按照每层为2^layer的指数次增长,每层输出最终长度还是保持输入长度N不变。
本发明提出一种端到端的直接通过处理原始波形来对语音信号进行降噪的深度学习方法。而这种方法中我们提出使用深度特征损失来训练的全卷积上下聚合网络,这种损失是基于对不同网络中内部特征激活的比较,这些网络针对声学环境检测和家庭音频标签进行了训练。这种损失会被用于比较信号在经过训练的深度网络内部激活的差异。通过分层网络,损耗网络中不同深度处的特征激活对应于信号中的不同时间尺度。因此,这些激活的差异性会比较不同音频尺度下的许多特性。本发明提供训练网络的基本步骤:
第1步:设计一个简单的音频分类网络,该网络由15个卷积层和3×1卷积核,批量归一化,LReLU单元和零填充单元组成。与上一层相比,下一层的长度减少2倍。通道数每5层增加一倍,起始层有32个通道。最后一个特征层中的每个通道均被平均池化以产生输出特征向量,最后通过线性层映射,将映射的输出向量作为特征提供给的分类器进行分类,损失函数使用交叉熵。
第2步:训练阶段:联合多个音频分类任务对损失网络进行训练,其中采用了声学场景分类和家庭音频标记任务。第一项任务目标在获得各种场景,确定每个文件的场景类型;第二个任务在于包含感兴趣的事件,目的在于确定每个文件中发生哪些事件。
第3步:设计一个语音去噪网络,网络由16个卷积层组成,第一层和最后一层(分别是输入信号和增强的输出信号)是维数N×1的一维张量。每个中间层是维数N×W的二维张量,其中W是每个卷积层中的特征映射数。(将W设置为64)。通过具有3×1卷积核的膨胀卷积,然后进行自适应归一化和LReLU进行激活,由于归一化,中间层没有使用任何偏置项。我们对所有层进行零填充,以使它们的“有效”长度恒定为N。然后训练我们的网络以处理音频文件的开头和结尾,即使语音内容在序列边缘附近也是如此。然后训练此网络,训练结束之后,此网络具备语音去噪的功能。
具体地,本申请首先对充当损失函数的分类网络进行预训练,其中联合多个分类任务对损失网络进行预训练,任务包括了声学场景分类和家庭音频标记任务。其中声学场景分类中包括15个不同的生活场景进行了分类,目的在于损失函数中包含各种的场景;第二个家庭音频标记任务则是在童声、女声、男声进行分类,目的在于使得损失函数获取内容信息。随后使用这个深层网络前六层特征激活差异作为增强网络的损失函数直接对原有音频进行降噪的训练,使得增强网络具有降噪的能力。
图5为本发明提供的基于深度特征损失的语音降噪系统架构图,如图3所示,包括:
分类网络确定单元510,用于确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
网络训练单元520,用于结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
语音降噪单元530,用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层的差值求和得出。
具体地,上述各个单元的功能可参见前述方法实施例,在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度特征损失的语音降噪方法,其特征在于,包括如下步骤:
S1、确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
S2、结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层的差值求和得出。
2.根据权利要求1所述的语音降噪方法,其特征在于,所述声学场景分类任务包括对多种不同的生活场景进行分类,以使得所述损失函数中包含各种生活场景信息。
3.根据权利要求1所述的语音降噪方法,其特征在于,所述音频标记任务包括对童声、女声以及男声进行分类,以使得所述损失函数获取各类人声信息内容信息。
4.根据权利要求1至3任一项所述的语音降噪方法,其特征在于,所述音频分类网络由15个卷积层和3×1卷积核,批量归一化,LReLU单元和零填充单元组成;与上一层相比,下一层的长度减少2倍;通道数每5层增加一倍,起始层有32个通道;最后一个特征层中的每个通道均被平均池化以产生输出特征向量,最后通过线性层映射,将映射的输出向量作为特征提供给的分类器进行分类,损失函数使用交叉熵。
5.根据权利要求1至3任一项所述的语音降噪方法,其特征在于,所述增强网络由16个卷积层组成,第一层和最后一层是维数N×1的一维张量,N是输入信号长度,第一层卷积核为3×1,最后一层卷积核为1×1;每个中间层是维数N×W的二维张量,其中W是每个卷积层中的特征图数;通过具有3×1卷积核的膨胀卷积,然后进行自适应归一化和LReLU进行激活,由于归一化,中间层没有使用任何偏置项;对所有层进行零填充,以使它们的“有效”长度恒定为N。
6.一种基于深度特征损失的语音降噪系统,其特征在于,包括:
分类网络确定单元,用于确定音频分类网络,所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成;
网络训练单元,用于结合预设的音频分类任务对所述音频分类网络进行预训练,所述预设的音频分类任务包括:声学场景分类任务和音频标记任务;
语音降噪单元,用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练,使得所述增强网络具有降噪的能力,以基于训练后的增强网络对待降噪语音进行降噪;所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差,将每一层的差值求和得出。
7.根据权利要求6所述的语音降噪系统,其特征在于,所述声学场景分类任务包括对多种不同的生活场景进行分类,以使得所述损失函数中包含各种生活场景信息。
8.根据权利要求6所述的语音降噪系统,其特征在于,所述音频标记任务包括对童声、女声以及男声进行分类,以使得所述损失函数获取各类人声信息内容信息。
9.根据权利要求6至8任一项所述的语音降噪系统,其特征在于,所述音频分类网络由15个卷积层和3×1卷积核,批量归一化,LReLU单元和零填充单元组成;与上一层相比,下一层的长度减少2倍;通道数每5层增加一倍,起始层有32个通道;最后一个特征层中的每个通道均被平均池化以产生输出特征向量,最后通过线性层映射,将映射的输出向量作为特征提供给的分类器进行分类,损失函数使用交叉熵。
10.根据权利要求6至8任一项所述的语音降噪系统,其特征在于,所述增强网络由16个卷积层组成,第一层和最后一层是维数N×1的一维张量,N是输入信号长度,第一层卷积核为3×1,最后一层卷积核为1×1;每个中间层是维数N×W的二维张量,其中W是每个卷积层中的特征映射数;通过具有3×1卷积核的膨胀卷积,然后进行自适应归一化和LReLU进行激活,由于归一化,中间层没有使用任何偏置项;对所有层进行零填充,以使它们的“有效”长度恒定为N。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010354660.5A CN111583951A (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度特征损失的语音降噪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010354660.5A CN111583951A (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度特征损失的语音降噪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583951A true CN111583951A (zh) | 2020-08-25 |
Family
ID=72111860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010354660.5A Pending CN111583951A (zh) | 2020-04-29 | 2020-04-29 | 一种基于深度特征损失的语音降噪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583951A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992168A (zh) * | 2021-02-26 | 2021-06-18 | 平安科技(深圳)有限公司 | 语音降噪器训练方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110634499A (zh) * | 2018-06-22 | 2019-12-31 | 英特尔公司 | 用深特征损失训练的用于语音去噪的神经网络 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
-
2020
- 2020-04-29 CN CN202010354660.5A patent/CN111583951A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634499A (zh) * | 2018-06-22 | 2019-12-31 | 英特尔公司 | 用深特征损失训练的用于语音去噪的神经网络 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Non-Patent Citations (1)
Title |
---|
双锴: "《计算机视觉》", 北京邮电大学出版社, pages: 90 - 94 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992168A (zh) * | 2021-02-26 | 2021-06-18 | 平安科技(深圳)有限公司 | 语音降噪器训练方法、装置、计算机设备和存储介质 |
CN112992168B (zh) * | 2021-02-26 | 2024-04-19 | 平安科技(深圳)有限公司 | 语音降噪器训练方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN109065072B (zh) | 一种基于深度神经网络的语音质量客观评价方法 | |
Yen et al. | Cold diffusion for speech enhancement | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
Li et al. | Signal denoising with random refined orthogonal matching pursuit | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
CN111583951A (zh) | 一种基于深度特征损失的语音降噪方法及系统 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Zhou et al. | Speech Enhancement via Residual Dense Generative Adversarial Network. | |
CN115588437B (zh) | 语音增强方法、装置、设备和存储介质 | |
Krishnakumar et al. | A comparison of boosted deep neural networks for voice activity detection | |
CN116667920A (zh) | 结合主成分分析与希尔伯特-黄变换的瞬态信号检测方法 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
You et al. | A speech enhancement method based on multi-task Bayesian compressive sensing | |
Kim et al. | Dual Stage Learning Based Dynamic Time-Frequency Mask Generation for Audio Event Classification. | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN110992966B (zh) | 一种人声分离方法及系统 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
WO2020250220A1 (en) | Sound analysis for determination of sound sources and sound isolation | |
CN114898767B (zh) | 基于U-Net的机载语音噪音分离方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |