CN112331224A - 轻量级时域卷积网络语音增强方法与系统 - Google Patents
轻量级时域卷积网络语音增强方法与系统 Download PDFInfo
- Publication number
- CN112331224A CN112331224A CN202011329491.6A CN202011329491A CN112331224A CN 112331224 A CN112331224 A CN 112331224A CN 202011329491 A CN202011329491 A CN 202011329491A CN 112331224 A CN112331224 A CN 112331224A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- convolution
- noise ratio
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001228 spectrum Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000005315 distribution function Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013179 statistical model Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种轻量级时域卷积网络语音增强方法,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构。本发明还提供了一种轻量级时域卷积网络语音增强系统。本发明的有益效果是:算法的神经网络部分只进行先验信噪比的估计,减小了任务难度,实现了更轻量级的神经网络架构,内存占用量小,运算复杂度低,使其可以较好的在一些低运算量平台的嵌入式设备上使用。
Description
技术领域
本发明涉及语音增强方法,尤其涉及一种轻量级时域卷积网络语音增强方法与系统。
背景技术
目前,市面上的语音交互产品,如智能手机、服务机器人、录音笔、翻译机等,都会内置语音增强算法,用来消除环境中的背景噪声,从而达到提高噪声环境中用户使用体验的目的。最新的研究表明,深度神经网络在语音增强方面表现出了十分优秀的效果。但是,基于深度神经网络的降噪方法也存在着内存占用量大,运算复杂度高等缺点,使其难以在一些低运算量平台的嵌入式设备上使用。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法与系统。
本发明提供了一种轻量级时域卷积网络语音增强方法,首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构。
语音信号的重构包括反傅里叶变换和重叠相加。
作为本发明的进一步改进,所述时域卷积网络模型的构建过程如下:
首先,根据先验信噪比的定义,其取值范围为大于零的任意数,如式子 (1)所示:
其中,|Xclean(n,k)|和|Nnoise(n,k)|分别代表纯净语音和噪声信号的幅度谱,n 和k分别为帧索引和频率索引,为了降低时域卷积网络模型的学习难度,对其进行值域范围进行压缩,通过对先验信噪比的统计研究发现,其对数变换形式,如式(2)所示,是服从高斯分布的,因此利用一种累积分布函数,对其进行压缩,如式子(3)所示:
ξdB(n,k)=10·log10(ξ(n,k)) (2)
其中,ξdB(n,k)为对数压缩后的先验信噪比,而则是通过累积分布函数压缩后的先验信噪比,其取值范围为[0,1],erf(·)代表的是累积分布函数,μk和σk分别为在不同频点上,通过统计分析得到的ξdB(n,k)所对应的均值和方差;
作为本发明的进一步改进,对进行降噪滤波的增益函数进行估计,采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式,如下式子(5)所示:
其中,G(n,k)为估计的增益函数,ξ(n,k)为先验信噪比的估计值,也是积分的下限,但是由于时间卷积网络输出的先验信噪比是压缩变换后的值,因此,还需要对其进行反变换,才能得到式子(5)中所需要的先验信噪比,而反变换的过程如式子(6)和(7)所示:
将反变换后的先验信噪比代入到式子(5)中的增益函数表达式中,便可以得到每一帧带噪语音幅度谱在每个频点上的增益值,与每个频点进行点乘就得到了增强后的语音幅度值,最后利用带噪语音的相位谱便可以合成最终的增强语音信号。
作为本发明的进一步改进,所述时域卷积网络模型由两层全连接层和N个残差模块构成,输入的特征为带噪语音的幅度谱特征。
作为本发明的进一步改进,对输入的特征进行归一化处理,然后重塑成[句子数,句子长度,1,257]的张量形式进行模型的训练或推断,其中,张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征,随后,经过一层256-维的全连接层得到了变换后的输入特征,为了更好地对输入特征进行表示,这里采用非线性整流单元(ReLU)进行非线性激活,接下来,考虑到语音信号之间的时序依赖关系,通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息,利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计,在残差模块的设计方面,每个残差模块由三层卷积层构成,为了降低其参数量和运算量,采用了瓶颈结构的设计方式,三层卷积层的输出通道维度分别为128,128,256维,其对应的张量尺寸分别为[句子数,句子长度,1,128]、[句子数,句子长度,1,128]和[句子数,句子长度,1,256],为了进一步降低模型的参数量和运算复杂度,对第一层和第三层卷积层自左至右进行分组,这里分组数量设置为8,通过分组操作之后,每个组的通道维数为16,然后利用1×1的卷积来串联每组中的各通道信息,为了保证组与组之间的信息交互,对第一层分组卷积的输出进行通道混合,每个组中将同一索引所对应的通道自左至右排列在一起,然后再在每个通道上进行卷积核为1×3的空洞卷积操作,空洞率以1, 2,4,8,16的循环方式对不同的残差模块进行配置,而最后一层卷积层则执行与第一层卷积相同的分组卷积操作,然后通过跳连的方式将残差模块的输入和输出特征相加,整个时域卷积网络模型的最后采用了一层257-维的全连接层实现对先验信噪比的估计,当然为了保证其输出的范围在[0,1] 之间,采用了sigmoid函数作为全连接层的激活函数。
本发明还提供了一种轻量级时域卷积网络语音增强系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
本发明的有益效果是:算法的神经网络部分只进行先验信噪比的估计,减小了任务难度,实现了更轻量级的神经网络架构,内存占用量小,运算复杂度低,使其可以较好的在一些低运算量平台的嵌入式设备上使用。
附图说明
图1是本发明一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法的流程框图。
图2是本发明一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法的轻量级时间卷积神经网络模型结构图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法,旨在将深度神经网络和基于统计模型的最小均方误差语音估计器相结合,既利用了神经网络的大数据学习能力,又结合了最小均方误差估计器的统计思路,可以更好地应对不同的噪声场景,提高算法的泛化性能。
整个算法框架主要由两部分构成,一个是基于最小均方误差准则的语音增强部分,另一个是先验信噪比的估计部分,如图1所示。
图1是本发明所设计的语音增强系统的整体框图,主要有两个关键技术,一个是先验信噪比的估计,另一个是用于频域滤波的增益函数估计。带噪语音信号首先进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音相位作为增强后的相位,进行语音信号的重构。
整个算法系统的核心部分在于时域卷积网络的设计和增益函数的估计两个部分,下面将分别进行详细的介绍。
首先,根据先验信噪比的定义,其取值范围为大于零的任意数,如式子(1)所示。
其中,|Xclean(n,k)|和|Nnoise(n,k)|分别代表纯净语音和噪声信号的幅度谱,n和k分别为帧索引和频率索引。为了降低神经网络模型的学习难度,这里对其进行值域范围进行压缩。我们通过对先验信噪比的统计研究发现,其对数变换形式,如式(2)所示,是服从高斯分布的,因此这里利用一种累积分布函数,对其进行压缩,如式子(3)所示。
ξdB(n,k)=10·log10(ξ(n,k)) (2)
其中,ξdB(n,k)为对数压缩后的先验信噪比,而则是通过累积分布函数压缩后的先验信噪比,其取值范围为[0,1]。erf(·)代表的是累积分布函数,μk和σk分别为在不同频点上,通过统计分析得到的ξdB(n,k)所对应的均值和方差。
本发明所设计的轻量级时间卷积网络结构如图2所示,整个网络结构是由两层全连接层和N个残差模块构成,输入的特征为带噪语音的幅度谱特征,为了保证更稳定地收敛过程,对输入特征进行归一化处理,然后重塑成[句子数,句子长度,1,257]的张量形式进行模型的训练或推断,其中,张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征。随后,经过一层256-维的全连接层得到了变换后的输入特征,为了更好地对输入特征进行表示,这里采用非线性整流单元(ReLU)进行非线性激活。接下来,考虑到语音信号之间的时序依赖关系,本发明通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息,利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计。在残差模块的设计方面,每个残差模块由三层卷积层构成,为了降低其参数量和运算量,本发明采用了瓶颈结构的设计方式,三层卷积层的输出通道维度分别为128,128,256维,其对应的张量尺寸分别为[句子数,句子长度,1,128]、[句子数,句子长度,1,128]和[句子数,句子长度,1,256]。为了进一步降低模型的参数量和运算复杂度,本发明对第一层和第三层卷积层自左至右进行分组,这里分组数量设置为8,通过分组操作之后,每个组的通道维数为16,然后利用1×1的卷积来串联每组中的各通道信息。为了保证组与组之间的信息交互,我们对第一层分组卷积的输出进行通道混合,每个组中将同一索引所对应的通道自左至右排列在一起,然后再在每个通道上进行卷积核为 1×3的空洞卷积操作,空洞率以1,2,4,8,16的循环方式对不同的残差模块进行配置。而最后一层卷积层则执行与第一层卷积相同的分组卷积操作,然后通过跳连的方式将残差模块的输入和输出特征相加。整个神经网络架构的最后采用了一层257-维的全连接层实现对先验信噪比的估计,当然为了保证其输出的范围在[0,1]之间,采用了sigmoid函数作为全连接层的激活函数。我们通过实验发现,当残差模块的数量N为20时,所设计的时间卷积网络就具备了优秀的降噪能力,而整个神经网络模型的参数只有332K,浮点运算次数为670K,完全可以满足大多数嵌入式平台的算力限制。
另外,时间卷积神经网络模型构建完成后,还需要对其进行大量数据的训练,才能使其具备映射先验信噪比的能力。
要训练模型,首先需要准备足够多对的带噪语音幅度值和理想的先验信噪比作为训练数据集,所以我们挑选了TIMIT数据集[1]中4620句话作为训练集的纯净语音数据,然后利用NOISEX-92[2]噪声库中的12种噪声,包括了餐厅噪声、2种战斗机噪声、2种驱逐舰噪声、工厂噪声、坦克噪声、 Volvo汽车噪声、高频信道噪声、白噪声、豹式战车噪声和机枪噪声,作为噪声数据与纯净语音进行随机混合,混合的信噪比在[-5,15]之间,服从均匀分布,总共获得时长约为38个小时的带噪训练数据。为了对模型的参数进行调优,需要设置验证集,同样从TMIT数据集中另外挑选出280句话作为验证集纯净语音数据,并与训练集中的12种噪声进行信噪比为-5到15dB 的均匀混合。
为了改善模型的过拟合问题,每层神经网络都采用20%的神经元随机失活率和批归一化的正则化方法,训练时,利用Adam优化算法进行反向传播,以0.001的学习率迭代40次,然后再以0.0001的学习率迭代10次,便可以得到一个具备映射先验信噪比能力的时间卷积网络模型。
通过神经网络模块得到先验信噪比以后,接下来需要对进行降噪滤波的增益函数进行估计。这部分,主要采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式[3],如下式子(5)所示。
其中,G(n,k)为估计的增益函数,ξ(n,k)为先验信噪比的估计值,也是积分的下限,但是由于时间卷积网络输出的先验信噪比是压缩变换后的值,因此,还需要对其进行反变换,才能得到式子(5)中所需要的先验信噪比,而反变换的过程如式子(6)和(7)所示。
将反变换后的先验信噪比代入到式子(5)中的增益函数表达式中,便可以得到每一帧带噪语音幅度谱在每个频点上的增益值,与每个频点进行点乘就得到了增强后的语音幅度值,最后利用带噪语音的相位谱便可以合成最终的增强语音信号。
我们也通过实验验证了本发明所提出方法的降噪效果,为了评价降噪后语音的质量、可懂度以及失真情况,我们采用了PESQ(Perceptual evaluation of speechquality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal to DistortionRatio)指标来评测降噪后的语音。如表1所示,所有的降噪效果和指标都是在测试集上测得,指标越高代表性能越好。所用的测试集是从TIMIT数据集中挑选出的与训练集和验证集不重复的另外320句话,并分别与NOISEX-92中12种训练过的噪声和3种未训练过的噪声(未训练过的战斗机噪声、未训练过的工厂噪声以及粉红噪声)混合成-5dB,0dB, 5dB,10dB和15dB五种噪声污染程度。
表一的实验结果表明,本发明所提出的方法不仅可以在训练过的噪声场景中具备很好的降噪效果,而且可以良好地泛化到未训练过的噪声场景中,具备了不错的降噪鲁棒性。另外,我们进行主观听音时发现,该方法处理过的语音可懂度和质量都很好,听起来也十分舒适,并且工厂里的机器敲打声、机枪声等瞬时噪声也都被抑制地很好,甚至在一些低信噪比的噪声环境下,残留的噪声也很少。
表1不同噪声环境下的PESQ、STOI和SDR指标评测结果
本发明提供的一种基于贝叶斯统计模型的轻量级时域卷积网络语音增强方法,利用深层神经网络强大的数据建模能力,从大量语音数据中学习出更精确的语音先验信噪比估计模型,将其与基于贝叶斯理论的最小均方误差语音估计器相结合,实现一种轻量级的高性能降噪算法。该算法的主要优点如下:
(1)算法实现了神经网络和统计模型的优势互补,提高了算法在不同噪声环境下的鲁棒性;
(2)算法的神经网络部分只进行先验信噪比的估计,减小了任务难度,实现了更轻量级的神经网络架构;
(3)算法可以有效地抑制瞬时噪声;
(4)算法可以在低信噪比环境下实现更好的降噪效果。
参考文献:
[1]J.S.Garofolo,“Getting started with the DARPA TIMIT CD ROM:Anacoustic phonetic continuous speech database NIST Tech Report,”1988。
[2]Andrew Varga,Herman J.M.,Steeneken,“Assessment for automaticspeech recognition:II.NOISEX-92:A database and an experiment to study theeffect of additive noise on speech recognition systems,”Speech Communication,vol.12, no.3,1993。
[3]Y.Ephraim and D.Malah,“Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,”IEEE/ACM Transactions onAudio,Speech and Language Processing,vol.33,no.2,pp.443–445,1985。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种轻量级时域卷积网络语音增强方法,其特征在于:首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构。
2.根据权利要求1所述的轻量级时域卷积网络语音增强方法,其特征在于:语音信号的重构包括反傅里叶变换和重叠相加。
3.根据权利要求1所述的轻量级时域卷积网络语音增强方法,其特征在于:所述时域卷积网络模型的构建过程如下:
1),根据先验信噪比的定义,其取值范围为大于零的任意数,如式子(1)所示:
其中,|Xclean(n,k)|和|Nnoise(n,k)|分别代表纯净语音和噪声信号的幅度谱,n和k分别为帧索引和频率索引,为了降低时域卷积网络模型的学习难度,对其进行值域范围进行压缩,通过对先验信噪比的统计研究发现,其对数变换形式,如式(2)所示,是服从高斯分布的,因此利用一种累积分布函数,对其进行压缩,如式子(3)所示:
ξdB(n,k)=10·log10(ξ(n,k)) (2)
其中,ξdB(n,k)为对数压缩后的先验信噪比,而则是通过累积分布函数压缩后的先验信噪比,其取值范围为[0,1],erf(·)代表的是累积分布函数,μk和σk分别为在不同频点上,通过统计分析得到的ξdB(n,k)所对应的均值和方差;
5.根据权利要求4所述的轻量级时域卷积网络语音增强方法,其特征在于:对进行降噪滤波的增益函数进行估计,采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式,如下式子(5)所示:
其中,G(n,k)为估计的增益函数,ξ(n,k)为先验信噪比的估计值,也是积分的下限,但是由于时间卷积网络输出的先验信噪比是压缩变换后的值,因此,还需要对其进行反变换,才能得到式子(5)中所需要的先验信噪比,而反变换的过程如式子(6)和(7)所示:
将反变换后的先验信噪比代入到式子(5)中的增益函数表达式中,便可以得到每一帧带噪语音幅度谱在每个频点上的增益值,与每个频点进行点乘就得到了增强后的语音幅度值,最后利用带噪语音的相位谱便可以合成最终的增强语音信号。
6.根据权利要求1所述的轻量级时域卷积网络语音增强方法,其特征在于:所述时域卷积网络模型由两层全连接层和N个残差模块构成,输入的特征为带噪语音的幅度谱特征。
7.根据权利要求6所述的轻量级时域卷积网络语音增强方法,其特征在于:对输入的特征进行归一化处理,然后重塑成[句子数,句子长度,1,257]的张量形式进行模型的训练或推断,其中,张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征,随后,经过一层256-维的全连接层得到了变换后的输入特征,为了更好地对输入特征进行表示,这里采用非线性整流单元(ReLU)进行非线性激活,接下来,考虑到语音信号之间的时序依赖关系,通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息,利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计,在残差模块的设计方面,每个残差模块由三层卷积层构成,为了降低其参数量和运算量,采用了瓶颈结构的设计方式,三层卷积层的输出通道维度分别为128,128,256维,其对应的张量尺寸分别为[句子数,句子长度,1,128]、[句子数,句子长度,1,128]和[句子数,句子长度,1,256],为了进一步降低模型的参数量和运算复杂度,对第一层和第三层卷积层自左至右进行分组,这里分组数量设置为8,通过分组操作之后,每个组的通道维数为16,然后利用1×1的卷积来串联每组中的各通道信息,为了保证组与组之间的信息交互,对第一层分组卷积的输出进行通道混合,每个组中将同一索引所对应的通道自左至右排列在一起,然后再在每个通道上进行卷积核为1×3的空洞卷积操作,空洞率以1,2,4,8,16的循环方式对不同的残差模块进行配置,而最后一层卷积层则执行与第一层卷积相同的分组卷积操作,然后通过跳连的方式将残差模块的输入和输出特征相加,整个时域卷积网络模型的最后采用了一层257-维的全连接层实现对先验信噪比的估计,当然为了保证其输出的范围在[0,1]之间,采用了sigmoid函数作为全连接层的激活函数。
8.一种轻量级时域卷积网络语音增强系统,其特征在于:包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329491.6A CN112331224A (zh) | 2020-11-24 | 2020-11-24 | 轻量级时域卷积网络语音增强方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329491.6A CN112331224A (zh) | 2020-11-24 | 2020-11-24 | 轻量级时域卷积网络语音增强方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112331224A true CN112331224A (zh) | 2021-02-05 |
Family
ID=74322296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011329491.6A Pending CN112331224A (zh) | 2020-11-24 | 2020-11-24 | 轻量级时域卷积网络语音增强方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331224A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113744754A (zh) * | 2021-03-23 | 2021-12-03 | 京东数字科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN114093379A (zh) * | 2021-12-15 | 2022-02-25 | 荣耀终端有限公司 | 噪声消除方法及装置 |
WO2022213825A1 (zh) * | 2021-04-06 | 2022-10-13 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN117198290A (zh) * | 2023-11-06 | 2023-12-08 | 深圳市金鼎胜照明有限公司 | 一种基于声控的多模式led智能控制的方法及装置 |
CN117894306B (zh) * | 2024-03-18 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种语音处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-24 CN CN202011329491.6A patent/CN112331224A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
WO2022183806A1 (zh) * | 2021-03-05 | 2022-09-09 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113744754A (zh) * | 2021-03-23 | 2021-12-03 | 京东数字科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113744754B (zh) * | 2021-03-23 | 2024-04-05 | 京东科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN115188389B (zh) * | 2021-04-06 | 2024-04-05 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
WO2022213825A1 (zh) * | 2021-04-06 | 2022-10-13 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN115188389A (zh) * | 2021-04-06 | 2022-10-14 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN113611323B (zh) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN114093379A (zh) * | 2021-12-15 | 2022-02-25 | 荣耀终端有限公司 | 噪声消除方法及装置 |
CN114093379B (zh) * | 2021-12-15 | 2022-06-21 | 北京荣耀终端有限公司 | 噪声消除方法及装置 |
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN117198290A (zh) * | 2023-11-06 | 2023-12-08 | 深圳市金鼎胜照明有限公司 | 一种基于声控的多模式led智能控制的方法及装置 |
CN117894306B (zh) * | 2024-03-18 | 2024-06-07 | 深圳市龙芯威半导体科技有限公司 | 一种语音处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN112309411A (zh) | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
Li et al. | A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN | |
Zhang et al. | Personalized acoustic echo cancellation for full-duplex communications | |
Ye et al. | Subjective feedback-based neural network pruning for speech enhancement | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
Liu et al. | A mask free neural network for monaural speech enhancement | |
Kim et al. | iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement. | |
Fingscheidt et al. | Data-driven speech enhancement | |
Chiluveru et al. | A real-world noise removal with wavelet speech feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |