CN114360567A - 一种基于深度复卷积网络的单通道语音增强方法 - Google Patents
一种基于深度复卷积网络的单通道语音增强方法 Download PDFInfo
- Publication number
- CN114360567A CN114360567A CN202210142181.6A CN202210142181A CN114360567A CN 114360567 A CN114360567 A CN 114360567A CN 202210142181 A CN202210142181 A CN 202210142181A CN 114360567 A CN114360567 A CN 114360567A
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- deep
- complex
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001228 spectrum Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 74
- 238000000926 separation method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 241000288105 Grus Species 0.000 claims description 7
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于深度复卷积网络的单通道语音增强方法,方法首先构造带噪语音,计算带噪语音复数域上的频谱特征,并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签,构造训练集;然后构建深层复卷积网络模型,并通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值,构造加权源失真比损失函数;接着将训练集中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对模型进行训练;最后利用训练好的深度复卷积网络模型对带噪语音信号进行降噪处理。本发明通过深度复卷积网络训练低信噪比场景下单麦克风语音信号的复掩膜特征,增加估计语音的信噪比,提升单通道语音增强方法的语音质量和可懂度。
Description
技术领域
本发明涉及语音信号增强技术领域,尤其涉及一种基于深度复卷积网络的单通道语音增强方法。
背景技术
语音是日常生活中人际交往最重要的媒介,但是,实际环境中背景噪声和其他语音的干扰严重影响语音质量和可懂度。语音增强是一种常用的抑制噪声、分离纯净语音的技术,尤其是以低信噪比为应用背景的单通道语音增强近年来受到广泛关注。
目前的单通道语音增强方法包括:传统的语音增强和有监督的语音增强。传统的单通道语音增强方法可以细分为:谱减法、维纳滤波法和基于统计模型的方法等。但是,这些方法大多建立在准确估计噪声谱信号的基础上,因此,增强效果与噪声估计的准确性紧密相关,容易引入额外的音乐噪声或者出现语音失真问题。尽管有学者提出了基于自适应滤波的单通道语音增强方法,但是该方法的前提条件是预先已知噪声或者纯净语音信号。但是在大多数实际环境下,噪声或者纯净语音等先验知识是无法获得的,因此大大限制了自适应滤波方法的应用。此外,近年来基于子空间的增强方法也备受关注,但运算量大,应用并不广泛。
有监督的语音增强指的是利用神经网络的非线性映射能力,学习带噪语音到纯净语音的映射关系,目前较新的一种方法是CRN,即:采用二维CNN提升噪声与语音的特征提取效果。但是,当前的基于监督学习的语音增强技术只对语谱中的幅度谱估计,不考虑相位谱的增强,因此,在低信噪比条件下,模型的性能有限。尽管最近许多方法都提出了相位重构的理论,但是它们所使用的网络结构仍然是语谱中的实值,无法进一步提高单通道的语音增强算法的性能。
发明内容
针对上述现有技术的不足,本发明提供一种基于深度复卷积网络的单通道语音增强方法
为解决上述技术问题,本发明所采取的技术方案是:一种基于深度复卷积网络的单通道语音增强方法,包括如下步骤:
步骤1:构造带噪语音,计算带噪语音复数域上的频谱特征,并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签,将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集,具体过程如下:
步骤1.1:将纯净语音信号x(t)和噪声信号n(t)合并,得到带噪语音信号y(t):
y(t)=x(t)+n(t) (1)
步骤1.2:将公式(1)的带噪语音通过短时傅里叶变换得到频谱:
Y(t,f)=X(t,f)+N(t,f) (2)
其中X(t,f)、N(t,f)、Y(t,f)分别表示纯净语音信号频谱、噪声信号频谱和带噪语音信号频谱;
步骤1.3:将带噪语音信号频谱Y(t,f)用实部Yr(t,f)和虚部Yi(t,f)具体表示:
Y(t,f)=Yr(t,f)+Yi(t,f) (3)
步骤1.4:计算掩膜特征CRM作为网络训练使用的标签,具体如下:
其中,Xr、Xi分别为纯净语音频谱的实部和虚部,Yr、Yi分别为带噪语音频谱的实部和虚部,j为虚数单位;
步骤1.5:将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集。
步骤2:构建深层复卷积网络模型;
所述深层复卷积网络模型的具体结构包括:卷积傅里叶变换模块、编码器、解码器和反卷积模块,在编码器和解码器之间有两个用于建模时间依赖关系的GRU层,所述GRU层用来分离语音和噪声成分;深层复卷积网络模型还通过跳转,连接整合编码器和解码器的信息,有利于梯度的流动,在没有先验知识的情况下学习实部和虚部。
进一步的,所述编码器由五个Conv2d块组成,从输入特征提取高维特征,降低分辨率;所述解码器将低分辨率特征重构为输入的原始大小,对称的设计编码器-解码器结构;所述编码器或解码器中的Conv2d块由卷积或反卷积层组成,用来提取高维特征,再经过批量归一化为标准正态分布,经过激活层将特征值集中在激活函数的线性范围。
所述步骤2具体的构建过程如下:
步骤2.1:设置编码器中的复数卷积滤波器为:
W=Wr+jWi (5)
其中,Wr和Wi分别代表卷积滤波器的实部和虚部;
步骤2.2:将带噪语音信号频谱Y(t,f)与复数卷积滤波器相乘,得到卷积后的特征图Fout,表示为:
Fout=(Yr×Wr-Yi×Wi)+j(Yr×Wi-Yi×Wr) (6)
步骤2.3:将Fout经过复数批归一化层和PReLU激活函数层,得到第一个编码器的输出特征F1:
F1=PReLu(BN(Fout)) (7)
其中,BN()为批归一化层函数,PReLU()为激活函数;
步骤2.4:深层复卷积网络结构中包含六个编码模块,重复6次步骤2.1至步骤2.3中的处理,得到从训练集数据中提取输入语谱的高维特征F6,F6的复数表示为:
F6=Fr6+Fi6 (8)
其中,Fr6为最后一个编码器输出的高维特征的实部,Fi6为最后一个编码器输出的高维特征的虚部;
步骤2.5:设分离模块复数GRU层的实部和虚部分别为:GRUr和GRUi,将高维特征F6输入分离模块复数GRU中,得到增强后的特征F^:
其中,Frr为编码器输出的高维特征的实部经过复数分离模块GRU的实部得到的输出特征向量,Fir为编码器输出的高维特征的虚部经过复数分离模块GRU的实部得到的输出特征向量,Fri为编码器输出的高维特征的实部经过复数分离模块GRU的虚部得到的输出特征向量,Fii为编码器输出的高维特征的虚部经过复数分离模块GRU的虚部得到的输出特征向量;
步骤2.6:将增强后的特征输入到解码器中,将特征图的大小恢复到与原始输入一致,网络按照以上步骤计算,通过步骤1.4的掩膜计算方法得到估计掩膜FCRM,并将估计掩膜FCRM与公式(4)得到的原始频谱Y(t,f)相乘,得到估计语谱Y^(t,f)=Y(t,f)×FCRM;
步骤2.7:经过短时傅里叶逆变换得到估计语音的时序序列y^(t):
y^(t)=iSTFT(Y^(t,f)) (10)
其中,iSTFT()为短时傅里叶逆变换函数。
步骤3:优化损失函数:提出一种改进的加权源失真比wSDR作为损失函数,通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值,将两个投影值通过比例系数加和,构造加权源失真比损失函数,具体过程如下:
步骤3.1:使用估计语音的时序序列y^(t)和纯净语音信号x(t)计算源失真比原始的损失函数:
其中,SDR为源失真比原始的损失函数;
步骤3.2:对公式(11)取负倒数,具体公式定义为:
其中,lossV en为取负倒数后的源失真比的值;
步骤3.3:将损失函数的值限定在[-1,1]的范围内,增加相位敏感性,得到损失函数为:
其中,lossSDR为将损失函数限定在[-1,1]内的损失函数;
步骤3.4:为了补偿只有噪声存在的片段的样本在反向传播过程中的计算误差,添加噪声估计损失函数项,构造加权源失真比损失函数,过程如下:
步骤3.4.1:估计噪声表示为:
n^(t)=y(t)-y^(t) (14)
其中,n^(t)为时域上的估计噪声;
步骤3.4.2:在损失函数中增加噪声估计项,此时的噪声估计损失函数项为:lossSDR(n(t),n^(t));
步骤3.4.3:为了合理平衡各损失项的贡献程度,增加损失函数对尺度变换的敏感性,将各损失项与每个信号的能量成比例加权,得到加权源失真比损失函数的最终形式,如下:
losswSDR(y(t),x(t),y^(t))=αlossSDR(x(t),y^(t))+(1-α)lossSDR(n(t),n^(t)) (15)
其中,a=||y||2/(||y||2+||n^(t)||2)表示纯净语音信号与带噪语音信号之间的能量比,当噪声能量||n^(t)||2趋于0,代表语音能量在带噪信号中占据主导地位,此时的能量比a则趋于1;构造损失函数后,计算损失函数的值,再进行反向传播更新梯度值。
步骤4:将网络训练所需的训练集数据中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对深层复卷积网络模型进行训练;
步骤5:利用训练好的确定参数的深层复卷积网络对带噪语音信号进行降噪处理。
采用上述技术方案所产生的有益效果在于:
1、本发明提供的基于深度复卷积网络的单通道语音增强方法采用深度复卷积网络中的编解码和分离模块对复数频谱进行特征提取、将噪声与语音分离和信号恢复阶段均模拟复数运算,使得频谱的幅度谱和相位谱之间一直满足复数运算关系。训练低信噪比场景下单麦克风语音信号的复掩膜特征,增加估计语音的信噪比,提升单通道语音增强方法的语音质量和可懂度。
2、本发明的方法更改网络结构中的分离模块,改进为GRU单元,在保证信噪比的情况下,降低模型占用内存;
3、本发明的方法目标函数的计算改为加权源失真比损失函数wSDR,增加噪声估计项,增加损失函数对尺度变换的敏感性,将各损失项与每个信号的能量成比例加权,补偿语音信号的预测,弥补只有噪声存在的片段的样本在反向传播过程中的计算误差。
4、本发明的方法编码器采用多层卷积来提取重要的上下文信息,更好的重构语音。
附图说明
图1为本发明实施例中基于深度复卷积网络的单通道语音增强方法的流程图;
图2为本发明实施例中深度复卷积网络模型的结构示意图;
图3为本发明实施例中复编码器的工作原理图;
图4为本发明实施例中模拟复数运算法则示意图;
图5为本发明实施例中分离模块为LSTM时测试集数据信噪比分布情况示意图;
图6为本发明实施例中分离模块为GRU时测试集数据信噪比分布情况示意图;
图7为本发明实施例中学习率为0.0001的-sisnr曲线;
图8为本发明实施例中学习率为0.001的-sisnr曲线。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例的实验环境为:在pytorch框架下进行试验。实验设备采用处理器Intel(R)Xeon(R)CPU E5-2697 v4,内存256G,操作系统为64位Windows10,GPU型号GEFORCE RTX3060,实验在GPU模式下运行。
如图1所示,本实施例中基于深度复卷积网络的单通道语音增强方法如下所述。
步骤1:构造带噪语音,计算带噪语音复数域上的频谱特征,并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签,将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集,具体过程如下:
步骤1.1:将纯净语音信号x(t)和噪声信号n(t)合并,得到带噪语音信号y(t):
y(t)=x(t)+n(t) (1)
步骤1.2:将公式(1)的带噪语音通过短时傅里叶变换得到频谱:
Y(t,f)=X(t,f)+N(t,f) (2)
其中X(t,f)、N(t,f)、Y(t,f)分别表示纯净语音信号频谱、噪声信号频谱和带噪语音信号频谱;
步骤1.3:将带噪语音信号频谱Y(t,f)用实部Yr(t,f)和虚部Yi(t,f)具体表示:
Y(t,f)=Yr(t,f)+Yi(t,f) (3)
步骤1.4:计算掩膜特征CRM作为网络训练使用的标签,具体如下:
其中,Xr、Xi分别为纯净语音频谱的实部和虚部,Yr、Yi分别为带噪语音频谱的实部和虚部,j为虚数单位;
步骤1.5:将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集。
本实施例中,纯净语音数据集采用深度抑制噪声大赛的纯净语音数据,包含4600条语音,每条语音的时长为30秒钟,总时长为40小时。噪声库选用TUT的15种声学场景噪音,每个噪声片段同为30秒钟,总时长10小时。采样频率都为16KHz。在训练数据集生成阶段,将语音库和噪声库交叉混合,生成带噪语音数据集,共4600条,涵盖的每种噪声的比例大致相同,并将数据集按照8:1:1的比例分为训练集、验证集和测试集。
步骤2:构建深层复卷积网络模型;
所述深层复卷积网络模型的具体结构如图2所示,包括:卷积傅里叶变换模块、编码器、解码器和反卷积模块,在编码器和解码器之间有两个用于建模时间依赖关系的GRU层,所述GRU层用来分离语音和噪声成分;深层复卷积网络模型还通过跳转,连接整合编码器和解码器的信息,有利于梯度的流动,在没有先验知识的情况下学习实部和虚部。
进一步的,所述编码器由五个Conv2d块组成,从输入特征提取高维特征,降低分辨率;所述解码器将低分辨率特征重构为输入的原始大小,对称的设计编码器-解码器结构;所述编码器或解码器中的Conv2d块由卷积或反卷积层组成,用来提取高维特征,再经过批量归一化为标准正态分布,经过激活层将特征值集中在激活函数的线性范围。
本实施例中,模型参数的设置为:初始学习率设置为0.001,每当验证集损失函数上升时,将学习率衰减0.5。编码器的二维卷积模块通道数分别设为16、32、64、128、256、256,卷积核的大小为5*2,步长为2*1。每个编码器的输出都通过跳转连接输出到对应的解码器输入中,保证信息流在网络中的传输,因此网络中的六个解码器中的二维反卷积模块的通道数分别设为256、256、128、64、32、1,反卷积核的大小为5*2,步长为2×1。本实施例中使用pytorch框架训练网络模型,优化器使用SGD。
所述步骤2具体的构建过程如下:
步骤2.1:设置编码器中的复数卷积滤波器为:
W=Wr+jWi (5)
其中,Wr和Wi分别代表卷积滤波器的实部和虚部;
步骤2.2:将带噪语音信号频谱Y(t,f)与复数卷积滤波器相乘,过程如图4所示,得到卷积后的特征图Fout,表示为:
Fout=(Yr×Wr-Yi×Wi)+j(Yr×Wi-Yi×Wr) (6)
步骤2.3:将Fout经过复数批归一化层和PReLU激活函数层,得到第一个编码器的输出特征F1:
F1=PReLu(BN(Fout)) (7)
其中,BN()为批归一化层函数,PReLU()为激活函数;
本实施例中,复编码器的工作原理如图3所示。
步骤2.4:深层复卷积网络结构中包含六个编码模块,重复6次步骤2.1至步骤2.3中的处理,得到从训练集数据中提取输入语谱的高维特征F6,F6的复数表示为:
F6=Fr6+Fi6 (8)
其中,Fr6为最后一个编码器输出的高维特征的实部,Fi6为最后一个编码器输出的高维特征的虚部;
步骤2.5:设分离模块复数GRU层的实部和虚部分别为:GRUr和GRUi,将高维特征F6输入分离模块复数GRU中,得到增强后的特征F^:
其中,Frr为编码器输出的高维特征的实部经过复数分离模块GRU的实部得到的输出特征向量,Fir为编码器输出的高维特征的虚部经过复数分离模块GRU的实部得到的输出特征向量,Fri为编码器输出的高维特征的实部经过复数分离模块GRU的虚部得到的输出特征向量,Fii为编码器输出的高维特征的虚部经过复数分离模块GRU的虚部得到的输出特征向量;
步骤2.6:将增强后的特征输入到解码器中,将特征图的大小恢复到与原始输入一致,网络按照以上步骤计算,通过步骤1.4的掩膜计算方法得到估计掩膜FCRM,并将估计掩膜FCRM与公式(4)得到的原始频谱Y(t,f)相乘,得到估计语谱Y^(t,f)=Y(t,f)×FCRM;
步骤2.7:经过短时傅里叶逆变换得到估计语音的时序序列y^(t):
y^(t)=iSTFT(Y^(t,f)) (10)
其中,iSTFT()为短时傅里叶逆变换函数。
步骤3:优化损失函数:提出一种改进的加权源失真比wSDR作为损失函数,通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值,将两个投影值通过比例系数加和,构造加权源失真比损失函数,具体过程如下:
步骤3.1:使用估计语音的时序序列y^(t)和纯净语音信号x(t)计算源失真比原始的损失函数:
其中,SDR为源失真比原始的损失函数;
步骤3.2:对公式(11)取负倒数,具体公式定义为:
其中,lossV en为取负倒数后的源失真比的值;
步骤3.3:将损失函数的值限定在[-1,1]的范围内,增加相位敏感性,得到损失函数为:
其中,lossSDR为将损失函数限定在[-1,1]内的损失函数;
步骤3.4:为了补偿只有噪声存在的片段的样本在反向传播过程中的计算误差,添加噪声估计损失函数项,构造加权源失真比损失函数,过程如下:
步骤3.4.1:估计噪声表示为:
n^(t)=y(t)-y^(t) (14)
其中,n^(t)为时域上的估计噪声;
步骤3.4.2:在损失函数中增加噪声估计项,此时的噪声估计损失函数项为:lossSDR(n(t),n^(t));
步骤3.4.3:为了合理平衡各损失项的贡献程度,增加损失函数对尺度变换的敏感性,将各损失项与每个信号的能量成比例加权,得到加权源失真比损失函数的最终形式,如下:
losswSDR(y(t),x(t),y^(t))=αlossSDR(x(t),y^(t))+(1-α)lossSDR(n(t),n^(t)) (15)
其中,a=||y||2/(||y||2+||n^(t)||2)表示纯净语音信号与带噪语音信号之间的能量比,当噪声能量||n^(t)||2趋于0,代表语音能量在带噪信号中占据主导地位,此时的能量比a则趋于1;构造损失函数后,计算损失函数的值,再进行反向传播更新梯度值。
步骤4:将网络训练所需的训练集数据中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对深层复卷积网络模型进行训练;
步骤5:利用训练好的确定参数的深层复卷积网络对带噪语音信号进行降噪处理。
为了体现本发明在单通道语音增强方面的效果,本实施例中另外还采用LSTM层作为模型的分离模块进行对比实验,实验得到当分离模块分别为GRU和LSTM时,深度复卷积网络的训练集信噪比如表1所示,当分离模块分别为GRU和LSTM时,深度复卷积网络的测试集损失函数如表2所示。
表1分离模块为GRU和LSTM的深度复卷积网络的训练集信噪比
表2分离模块为GRU和LSTM的深度复卷积网络的测试集损失函数
LSTM | GRU | |
总体均值 | 15.7569 | 15.9623 |
总体方差 | 28.7046 | 26.3062 |
模型大小 | 16645KB | 15745KB |
由表1可知,分离模块为GRU的网络比分离模块为LSTM的网络训练集信噪比提升0.16dB。由表2可知,分离模块为GRU的网络比分离模块为LSTM的网络在测试集的信噪比均值提升了0.21dB,测试集的信噪比方差降低了2.4,这一点也可以从图5和图6中看出,数据分布更加集中。其次,分离模块选用含有更少的门控单元的GRU,通过将编码后的复频谱的实部和虚部均送入GRU层的实部和虚部,计算输出部分的实部和虚部,进行向量拼接得到估计的CRM掩膜的复数形式,利用GRU对时间的建模能力实现性能提升,GRU的参数量少,可以在增强模块上降低模型规模和占用内存大小,通过表2可以看出分离模块为GRU的网络比分离模块为LSTM的网络少占用900K内存,可以减少模型复杂度。最后,在训练过程中使用优化后的加权源失真比作为损失函数,在原有的计算纯净语音和估计语音的失真比的基础上,考虑原始混合语音中添加的噪声和估计的噪声信号的失真比,通过设置权重系数ɑ为纯净语音能量与纯净语音和噪声信号的能量和的比值,补偿语音信号的预测,弥补只有噪声存在的片段的样本在反响传播过程中的计算误差。
采用上述对比实验在TUT的15种声学场景噪音上进行结果对比,如表3所示。
表3 15种噪声下不同分离模块实验结果对比
从表3的结果中可以看出,分离模块为GRU的网络比分离模块为LSTM的网络在测试集的信噪比均值提升了0.21dB,测试集的信噪比方差降低了2.4。在绝大多数噪声种类上,信噪比的均值和方差表现均提升。
此外,本实施例中还将深层复卷积网络模型的学习率设置为0.0001,其余参数与上述实验相同进行对比实验。得到结果如图7和图8所示,损失函数在这种情况下曲线震荡幅度大,收敛速度慢,容易在局部最优解周围震荡。因此,实验中学习率参数设置为0.001更为合适,此时训练得到的网络模型在训练集和验证集上更稳定,面对未知的测试集也有更优的性能表现。
Claims (7)
1.一种基于深度复卷积网络的单通道语音增强方法,其特征在于,包括如下步骤:
步骤1:构造带噪语音,计算带噪语音复数域上的频谱特征,并通过纯净语音时域序列数据计算掩膜特征CRM作为相应带噪语音的标签,将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集;
步骤2:构建深层复卷积网络模型;
步骤3:优化损失函数:提出一种改进的加权源失真比wSDR作为损失函数,通过计算估计语音在纯净语音上的投影值和估计噪音在噪声信号上的投影值,将两个投影值通过比例系数加和,构造加权源失真比损失函数;
步骤4:将网络训练所需的训练集数据中的带噪语音复数域上的频谱特征作为深层复卷积网络模型的输入数据对深层复卷积网络模型进行训练;
步骤5:利用训练好的确定参数的深层复卷积网络对带噪语音信号进行降噪处理。
2.根据权利要求1所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述步骤1的过程如下:
步骤1.1:将纯净语音信号x(t)和噪声信号n(t)合并,得到带噪语音信号y(t):
y(t)=x(t)+n(t) (1)
步骤1.2:将公式(1)的带噪语音通过短时傅里叶变换得到频谱:
Y(t,f)=X(t,f)+N(t,f) (2)
其中X(t,f)、N(t,f)、Y(t,f)分别表示纯净语音信号频谱、噪声信号频谱和带噪语音信号频谱;
步骤1.3:将带噪语音信号频谱Y(t,f)用实部Yr(t,f)和虚部Yi(t,f)具体表示:
Y(t,f)=Yr(t,f)+Yi(t,f) (3)
步骤1.4:计算掩膜特征CRM作为网络训练使用的标签,具体如下:
其中,Xr、Xi分别为纯净语音频谱的实部和虚部,Yr、Yi分别为带噪语音频谱的实部和虚部,j为虚数单位;
步骤1.5:将多个带标签的带噪语音复数域上的频谱特征数据构成网络训练所需的训练集。
3.根据权利要求1所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述深层复卷积网络模型的具体结构包括:卷积傅里叶变换模块、编码器、解码器和反卷积模块,在编码器和解码器之间有两个用于建模时间依赖关系的GRU层,所述GRU层用来分离语音和噪声成分;深层复卷积网络模型还通过跳转,连接整合编码器和解码器的信息,有利于梯度的流动,在没有先验知识的情况下学习实部和虚部。
4.根据权利要求3所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述编码器由五个Conv2d块组成,从输入特征提取高维特征,降低分辨率;所述解码器将低分辨率特征重构为输入的原始大小,对称的设计编码器-解码器结构;所述编码器或解码器中的Conv2d块由卷积或反卷积层组成,用来提取高维特征,再经过批量归一化为标准正态分布,经过激活层将特征值集中在激活函数的线性范围。
5.根据权利要求2所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述步骤2的过程如下:
步骤2.1:设置编码器中的复数卷积滤波器为:
W=Wr+jWi (5)
其中,Wr和Wi分别代表卷积滤波器的实部和虚部;
步骤2.2:将带噪语音信号频谱Y(t,f)与复数卷积滤波器相乘,得到卷积后的特征图Fout,表示为:
Fout=(Yr×Wr-Yi×Wi)+j(Yr×Wi-Yi×Wr) (6)
步骤2.3:将Fout经过复数批归一化层和PReLU激活函数层,得到第一个编码器的输出特征F1:
F1=PReLu(BN(Fout)) (7)
其中,BN()为批归一化层函数,PReLU()为激活函数;
步骤2.4:深层复卷积网络结构中包含六个编码模块,重复6次步骤2.1至步骤2.3中的处理,得到从训练集数据中提取输入语谱的高维特征F6,F6的复数表示为:
F6=Fr6+Fi6 (8)
其中,Fr6为最后一个编码器输出的高维特征的实部,Fi6为最后一个编码器输出的高维特征的虚部;
步骤2.5:设分离模块复数GRU层的实部和虚部分别为:GRUr和GRUi,将高维特征F6输入分离模块复数GRU中,得到增强后的特征F^:
其中,Frr为编码器输出的高维特征的实部经过复数分离模块GRU的实部得到的输出特征向量,Fir为编码器输出的高维特征的虚部经过复数分离模块GRU的实部得到的输出特征向量,Fri为编码器输出的高维特征的实部经过复数分离模块GRU的虚部得到的输出特征向量,Fii为编码器输出的高维特征的虚部经过复数分离模块GRU的虚部得到的输出特征向量;
步骤2.6:将增强后的特征输入到解码器中,将特征图的大小恢复到与原始输入一致,网络按照以上步骤计算,通过步骤1.4的掩膜计算方法得到估计掩膜FCRM,并将估计掩膜FCRM与公式(4)得到的原始频谱Y(t,f)相乘,得到估计语谱Y^(t,f)=Y(t,f)×FCRM;
步骤2.7:经过短时傅里叶逆变换得到估计语音的时序序列y^(t):
y^(t)=iSTFT(Y^(t,f)) (10)
其中,iSTFT()为短时傅里叶逆变换函数。
6.根据权利要求1所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述步骤3的过程如下:
步骤3.1:使用估计语音的时序序列y^(t)和纯净语音信号x(t)计算源失真比原始的损失函数:
其中,SDR为源失真比原始的损失函数;
步骤3.2:对公式(11)取负倒数,具体公式定义为:
其中,lossVen为取负倒数后的源失真比的值;
步骤3.3:将损失函数的值限定在[-1,1]的范围内,增加相位敏感性,得到损失函数为:
其中,lossSDR为将损失函数限定在[-1,1]内的损失函数;
步骤3.4:为了补偿只有噪声存在的片段的样本在反向传播过程中的计算误差,添加噪声估计损失函数项,构造加权源失真比损失函数。
7.根据权利要求6所述的基于深度复卷积网络的单通道语音增强方法,其特征在于,所述步骤3.4的具体过程如下:
步骤3.4.1:估计噪声表示为:
n^(t)=y(t)-y^(t) (14)
其中,n^(t)为时域上的估计噪声;
步骤3.4.2:在损失函数中增加噪声估计项,此时的噪声估计损失函数项为:lossSDR(n(t),n^(t));
步骤3.4.3:为了合理平衡各损失项的贡献程度,增加损失函数对尺度变换的敏感性,将各损失项与每个信号的能量成比例加权,得到加权源失真比损失函数的最终形式,如下:
losswSDR(y(t),x(t),y^(t))=αlossSDR(x(t),y^(t))+(1-α)lossSDR(n(t),n^(t)) (15)
其中,a=||y||2/(||y||2+||n^(t)||2)表示纯净语音信号与带噪语音信号之间的能量比,当噪声能量||n^(t)||2趋于0,代表语音能量在带噪信号中占据主导地位,此时的能量比a则趋于1;构造损失函数后,计算损失函数的值,再进行反向传播更新梯度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142181.6A CN114360567A (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度复卷积网络的单通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142181.6A CN114360567A (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度复卷积网络的单通道语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360567A true CN114360567A (zh) | 2022-04-15 |
Family
ID=81093221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210142181.6A Pending CN114360567A (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度复卷积网络的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114360567A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881148A (zh) * | 2022-11-15 | 2023-03-31 | 中国科学院声学研究所 | 一种基于深度学习的声反馈抵消方法 |
CN116741151A (zh) * | 2023-08-14 | 2023-09-12 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN117133303A (zh) * | 2023-10-26 | 2023-11-28 | 荣耀终端有限公司 | 一种语音降噪方法、电子设备及介质 |
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
CN117894306A (zh) * | 2024-03-18 | 2024-04-16 | 深圳市龙芯威半导体科技有限公司 | 一种语音处理方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
-
2022
- 2022-02-16 CN CN202210142181.6A patent/CN114360567A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Non-Patent Citations (4)
Title |
---|
CLEMENT S.J.DOIRE: "《Online Singing Voice Separation Using a Recurrent One-dimensional U-NET Trained with Deep Feature Losses》", 《ICASSP 2019》, 17 May 2019 (2019-05-17), pages 3752 - 3756 * |
HYEONG-SEOK CHOI ET AL.: "《Phase-Aware Speech Enhancement with Deep Complex U-Net》", 《ICLR2019》, 28 April 2019 (2019-04-28), pages 1 - 20 * |
YANXIN HU ET AL.: "《DCCRN:Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement》", 《ARXIV:2008.00264V4》, 23 September 2020 (2020-09-23), pages 1 - 5 * |
耿闯: "《语音增强技术的研究及应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, 15 January 2022 (2022-01-15) * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881148A (zh) * | 2022-11-15 | 2023-03-31 | 中国科学院声学研究所 | 一种基于深度学习的声反馈抵消方法 |
CN115881148B (zh) * | 2022-11-15 | 2024-01-26 | 中国科学院声学研究所 | 一种基于深度学习的声反馈抵消方法 |
CN116741151A (zh) * | 2023-08-14 | 2023-09-12 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN116741151B (zh) * | 2023-08-14 | 2023-11-07 | 成都筑猎科技有限公司 | 一种基于呼叫中心的用户呼叫实时监测系统 |
CN117133303A (zh) * | 2023-10-26 | 2023-11-28 | 荣耀终端有限公司 | 一种语音降噪方法、电子设备及介质 |
CN117133303B (zh) * | 2023-10-26 | 2024-03-29 | 荣耀终端有限公司 | 一种语音降噪方法、电子设备及介质 |
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
CN117894306A (zh) * | 2024-03-18 | 2024-04-16 | 深圳市龙芯威半导体科技有限公司 | 一种语音处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN114360567A (zh) | 一种基于深度复卷积网络的单通道语音增强方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Kim et al. | SE-Conformer: Time-Domain Speech Enhancement Using Conformer. | |
CN111564160B (zh) | 一种基于aewgan的语音降噪的方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110751957B (zh) | 一种使用堆叠多尺度模块的语音增强方法 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
Wang et al. | LSTM-convolutional-BLSTM encoder-decoder network for minimum mean-square error approach to speech enhancement | |
CN108682418A (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
CN110867181A (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN104505100B (zh) | 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
Sun et al. | A model compression method with matrix product operators for speech enhancement | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
CN114283829A (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
CN109741733B (zh) | 基于一致性路由网络的语音音素识别方法 | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |