CN114360571A - 基于参考的语音增强方法 - Google Patents

基于参考的语音增强方法 Download PDF

Info

Publication number
CN114360571A
CN114360571A CN202210042390.3A CN202210042390A CN114360571A CN 114360571 A CN114360571 A CN 114360571A CN 202210042390 A CN202210042390 A CN 202210042390A CN 114360571 A CN114360571 A CN 114360571A
Authority
CN
China
Prior art keywords
speech
voice
noise
convolution
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210042390.3A
Other languages
English (en)
Inventor
岳焕景
多文昕
杨敬钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210042390.3A priority Critical patent/CN114360571A/zh
Publication of CN114360571A publication Critical patent/CN114360571A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于参考的语音增强方法,包括下列步骤:分析真实环境中的带噪语音,建立加性噪声模型;定义基于参考的语音增强模型;得到带噪语音频谱X与参考语音频谱R;MFCC组匹配获取帧间对应关系;编码器提取深度特征;参考语音特征重组;二段式的特征融合;深度特征解码,得到一个乘性复数掩膜;使用乘性复数掩膜对带噪语音频谱X进行滤波,获得增强语音频谱;通过短时傅里叶变换反变换获得最后的增强语音。

Description

基于参考的语音增强方法
技术领域
本发明属于语音信号处理领域,涉及语音增强算法。
背景技术
真实环境中采集到的语音信号通常含有背景噪声。这些噪声的形式是多种多样的,其存在严重降低了语音的听觉感知质量和可懂度。语音增强的目的便是从被各种各样的噪声干扰、甚至淹没的信号中提取有用的语音信号,同时抑制、降低噪声的干扰。
现有的单通道语音增强方法可以分为两类,一类是传统方法,例如谱减法、维纳滤波法、基于隐马尔可夫模型的方法、基于非负矩阵的方法等。另一类是基于深度学习的方法。
基于深度学习的单通道语音增强方法主要分为时域和频域方法。时域方法通常利用深度神经网络来学习带噪语音和干净语音的一维波形之间的映射关系。由于一维语音信号缺乏明显的几何结构,从其中提取有用的信息较为困难。频域方法对带噪语音信号的二维频谱进行处理,通常有两种方式,一是直接通过深度神经网络重建出干净的语音频谱,二是预测一个时频掩膜以对带噪频谱进行滤波从而生成增强的频谱。虽然以上方法的出现均极大地提高了基于深度学习的单通道语音增强方法的效果,但恢复出的增强语音仍然有部分信息丢失。为了进一步提升语音增强算法的效果,许多借助外部参考的或语音自身固有的先验信息来帮助重建怎强语音的方法被提了出来,例如外部参考的说话人视频中的口部动作先验、表情先验,语音自身固有的或外部干净参考语音含有的说话人身份先验、情绪先验、音素发声特征先验等。其中,由于外部参考语音与目标语音具有相同的说话人(说话内容不同),且其帧级别的音素信息是部分共享的,所以通过引入外部参考语音来辅助进行带噪语音的增强(基于参考的语音增强)能够取得更好的效果。
发明内容
为了进一步提升现有语音增强算法的效果,本发明旨在提供一套基于参考的语音增强算法,本发明所涉及到的语音均为单通道语音。技术方案如下
一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
Figure BDA0003470792220000011
其中g为基于参考的语音增强模型;r为带噪语音x所对应的参考语音,即与带噪语音x具有相同说话人但说话可能内容不同的干净语音;
Figure BDA0003470792220000012
为模型输出的增强语音,即对干净语音y的估计;
3)通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域,得到带噪语音频谱
Figure BDA0003470792220000013
与参考语音频谱
Figure BDA0003470792220000014
其中Tx和Tr分别是X和R的帧数,F为频域点数;
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系
Figure BDA0003470792220000021
重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
编码器由3个级联的卷积层构成,每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样,使用同一个编码器对X和R分别进行处理,得到3 对不同深度的带噪特征
Figure BDA0003470792220000022
和参考特征
Figure BDA0003470792220000023
6)参考语音特征重组,方法如下:
对于每一个
Figure BDA0003470792220000024
基于相应的帧间对应关系
Figure BDA0003470792220000025
Figure BDA0003470792220000026
进行重组,构成5个与
Figure BDA0003470792220000027
维度相同的重组参考特征
Figure BDA0003470792220000028
7)二段式的特征融合,方法如下:
第一阶段,通过softmax函数对
Figure BDA0003470792220000029
Figure BDA00034707922200000210
的幅度值的帧间余弦相似度进行归一化生成权重系数
Figure BDA00034707922200000211
随后基于权重系数
Figure BDA00034707922200000212
对5个
Figure BDA00034707922200000213
进行卷积融合,得到
Figure BDA00034707922200000214
第二阶段,使用通道注意力将
Figure BDA00034707922200000215
Figure BDA00034707922200000216
进行融合,得到
Figure BDA00034707922200000217
8)深度特征解码,方法如下:
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、 ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作;解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样;解码器首先将
Figure BDA00034707922200000218
送入4个残差块得到
Figure BDA00034707922200000219
随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的
Figure BDA00034707922200000220
合并在一起:
Figure BDA00034707922200000221
其中,decodei指第i个转置卷积层;
最后使用tanh激活函数对解码器输出的
Figure BDA00034707922200000222
的幅度谱进行处理,得到一个乘性复数掩膜M:
Figure BDA00034707922200000223
9)使用乘性复数掩膜M对带噪语音频谱X进行滤波,获得增强语音频谱
Figure BDA00034707922200000224
10)通过短时傅里叶变换反变换将
Figure BDA00034707922200000225
从频域转换至时域获得最后的增强语音
Figure BDA00034707922200000226
本发明的技术特点及效果:针对基于参考的语音增强,本发明使用基于MFCC组匹配获得的帧间对应关系来进行参考特征重组。重组参考特征和噪声特征通过特征融合模块融合在一起经过解码器,最终获得增强语音频谱。本发明具有以下特点:
1.本发明利用了带噪语音和参考语音之间的局部相关性,进行了基于参考的语音增强。本发明首先使用MFCC组进行匹配,然后根据匹配所得的帧间对应关系重组参考特征。
2.由于参考特征与带噪特征具有不同的相似性,并且它们对最终增强语音的贡献不同,本发明使用特征融合模块来将参考和带噪特征自适应融合在一起。
3.本发明首个进行了基于参考的单通道语音增强,希望本发明能够启发更多基于参考的语音处理方法的研究。
附图说明
图1是算法流程框图。
图2是模型结构图。
图3是融合模块结构图。
图4是不同时长的参考语音对增强结果的影响对比图。
具体实施方式
本发明采用如下技术方案:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音。
2)定义基于参考的语音增强模型及其输入输出:
Figure BDA0003470792220000031
其中g为基于参考的语音增强模型;r为x所对应的参考语音,即与x具有相同说话人但说话内容不同的干净语音;
Figure BDA0003470792220000032
为模型输出的增强语音,即对干净语音y的估计。
3)针对加性噪声模型设计算法流程。
本发明提供的基于参考的语音增强算法包含以下8个步骤:
第1步:通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域,得到带噪语音频谱
Figure BDA0003470792220000033
与参考语音频谱
Figure BDA0003470792220000034
其中Tx和Tr分别是X和R的帧数,F为频域点数。
第2步:MFCC组匹配获取帧间对应关系。
为了获取帧间对应关系,本发明首先从频谱中提取MFCC(Mel FrequencyCepstrum Coefficient)并将连续3帧(前一帧、当前帧、后一帧)的MFCC组合在一起构成一个MFCC组。对于带噪语音的某一个 MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度(Cosine Similarity),挑选出余弦相似度最高的5个MFCC组的中间帧与带噪MFCC组的中间帧构成一个帧间对应关系
Figure BDA0003470792220000035
重复这个过程便可以对带噪语音的每一帧得到一个帧间对应关系。
第3步:编码器提取深度特征。
编码器由3个级联的卷积层构成。每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样。使用同一个编码器对X和R分别进行处理可以得到3 对不同深度的特征
Figure BDA0003470792220000036
Figure BDA0003470792220000037
称之为带噪特征和参考特征。编码过程如下:
Figure BDA0003470792220000038
Figure BDA0003470792220000039
其中,encodei为第i个卷积层。
第4步:参考语音特征重组。
对于每一个
Figure BDA0003470792220000041
基于相应的帧间对应关系
Figure BDA0003470792220000042
Figure BDA0003470792220000043
进行重组,构成5个与
Figure BDA0003470792220000044
Figure BDA0003470792220000045
维度相同的重组参考特征
Figure BDA0003470792220000046
第5步:特征融合。
为了将
Figure BDA0003470792220000047
Figure BDA0003470792220000048
融合在一起,本发明设计了二段式的特征融合模块:
·第一阶段,首先通过softmax函数对
Figure BDA0003470792220000049
Figure BDA00034707922200000410
的幅度值的帧间余弦相似度进行归一化生成权重系数
Figure BDA00034707922200000411
Figure BDA00034707922200000412
Figure BDA00034707922200000413
Figure BDA00034707922200000414
其中,
Figure BDA00034707922200000415
Figure BDA00034707922200000416
分别是
Figure BDA00034707922200000417
Figure BDA00034707922200000418
的第t帧,|·|是计算复数的幅度,αt
Figure BDA00034707922200000419
构成的向量。
随后基于权重系数
Figure BDA00034707922200000420
对5个
Figure BDA00034707922200000421
进行卷积融合,得到
Figure BDA00034707922200000422
Figure BDA00034707922200000423
Figure BDA00034707922200000424
其中,complexConv为复数卷积。
·第二阶段,使用通道注意力(channel attention)将
Figure BDA00034707922200000425
Figure BDA00034707922200000426
进行融合,通道注意力具有多种形式,本发明采用如下形式的通道注意力:
Figure BDA00034707922200000427
Figure BDA00034707922200000428
Figure BDA00034707922200000429
Figure BDA00034707922200000430
Figure BDA00034707922200000431
其中,[·]是将
Figure BDA00034707922200000432
Figure BDA00034707922200000433
在通道维度上合并起来,GlobalPooling是全局池化层。
第6步:深度特征解码。
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作。解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样。解码器首先将
Figure BDA00034707922200000434
送入4个残差块得到
Figure BDA00034707922200000435
随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的
Figure BDA00034707922200000436
合并在一起:
Figure BDA00034707922200000437
其中,decodei指第i个转置卷积层。
最后使用tanh激活函数对解码器输出的
Figure BDA00034707922200000438
的幅度谱进行处理,得到一个乘性复数掩膜M:
Figure BDA00034707922200000439
第7步:使用乘性复数掩膜M对带噪语音频谱X进行滤波,获得增强语音频谱
Figure BDA0003470792220000051
第8步:通过短时傅里叶变换反变换将
Figure BDA0003470792220000052
从频域转换至时域获得最后的增强语音
Figure BDA0003470792220000053
4)数据集获取及其预处理。
本发明使用Voice Bank+DEMAND开源数据集对模型进行训练与测试。Voice Bank+DEMAND开源数据集的训练集包含28个说话人的多条内容不同的带噪-干净语音数据对,共计11572对。测试集包含2个说话人的多条内容不同的带噪-干净语音数据对,共计824对。对于每一条带噪语音,从其说话人的其他内容不同的干净语音中随机挑选出15秒构成对应的参考语音。
5)训练。
本发明中,训练模型所使用的损失函数为L1-Loss和感知损失的加权和,优化器使用Adam优化器,初始学习率设置为0.0001。本发明利用深度学习框架Pytorch平台训练模型,在整个数据集上迭代80次,随后减小学习率至0.00001,迭代20次,使得损失收敛,得到最终模型。
6)测试。
将测试集中的带噪语音与其相应的参考语音输入到模型中,得到相应的增强语音。
Figure BDA0003470792220000054
表1
表1是本发明所提算法与其他语音增强算法在Voice Bank+DEMAND测试集上的结果对比表。表中各个方法的参考文献如下:
[1]Pascual S,Bonafonte A,Serra J.SEGAN:Speech enhancement generativeadversarial network[J].arXiv preprint arXiv:1703.09452,2017.
[2]Germain F G,Chen Q,Koltun V.Speech denoising with deep featurelosses[J].arXiv preprint arXiv:1806.10522,2018.
[3]Fu S W,Liao C F,Tsao Y,et al.Metricgan:Generative adversarialnetworks based black-box metric scores optimization for speech enhancement[C]//International Conference on Machine Learning.PMLR,2019: 2031-2041.
[4]Yin D,Luo C,Xiong Z,et al.PHASEN:A phase-and-harmonics-awarespeech enhancement network[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2020,34(05):9458-9465.
[5]Kim J,El-Khamy M,Lee J.T-gsa:Transformer with gaussian-weightedself-attention for speech enhancement[C]//ICASSP 2020-2020IEEE InternationalConference on Acoustics,Speech and Signal Processing (ICASSP).IEEE,2020:6649-6653.
[6]Defossez A,Synnaeve G,Adi Y.Real time speech enhancement in thewaveform domain[J].arXiv preprint arXiv:2006.12847,2020.
[7]Fu S W,Yu C,Hsieh T A,et al.MetricGAN+:An Improved Version ofMetricGAN for Speech Enhancement[J].arXiv preprint arXiv:2104.03538,2021.
[8]Hsieh T A,Yu C,Fu S W,et al.Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement[J].arXiv preprint arXiv:2010.15174,2020.
凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
Figure FDA0003470792210000011
其中g为基于参考的语音增强模型;r为带噪语音x所对应的参考语音,即与带噪语音x具有相同说话人但说话可能内容不同的干净语音;
Figure FDA0003470792210000012
为模型输出的增强语音,即对干净语音y的估计;
3)通过短时傅里叶变换将带噪语音x和参考语音r从时域转至频域,得到带噪语音频谱
Figure FDA0003470792210000013
与参考语音频谱
Figure FDA0003470792210000014
其中Tx和Tr分别是X和R的帧数,F为频域点数;
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系
Figure FDA0003470792210000015
重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
编码器由3个级联的卷积层构成,每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样,使用同一个编码器对X和R分别进行处理,得到3对不同深度的带噪特征
Figure FDA0003470792210000016
和参考特征
Figure FDA0003470792210000017
6)参考语音特征重组,方法如下:
对于每一个
Figure FDA0003470792210000018
基于相应的帧间对应关系
Figure FDA0003470792210000019
Figure FDA00034707922100000110
进行重组,构成5个与
Figure FDA00034707922100000111
维度相同的重组参考特征
Figure FDA00034707922100000112
7)二段式的特征融合,方法如下:
第一阶段,通过softmax函数对
Figure FDA00034707922100000113
Figure FDA00034707922100000114
的幅度值的帧间余弦相似度进行归一化生成权重系数
Figure FDA00034707922100000115
随后基于权重系数
Figure FDA00034707922100000116
对5个
Figure FDA00034707922100000117
进行卷积融合,得到
Figure FDA00034707922100000118
第二阶段,使用通道注意力将
Figure FDA00034707922100000119
Figure FDA00034707922100000120
进行融合,得到
Figure FDA00034707922100000121
8)深度特征解码,方法如下:
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作;解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样;解码器首先将
Figure FDA00034707922100000122
送入4个残差块得到
Figure FDA00034707922100000123
随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的
Figure FDA00034707922100000124
合并在一起:
Figure FDA00034707922100000125
其中,decodei指第i个转置卷积层;
最后使用tanh激活函数对解码器输出的
Figure FDA0003470792210000021
的幅度谱进行处理,得到一个乘性复数掩膜M:
Figure FDA0003470792210000022
9)使用乘性复数掩膜M对带噪语音频谱X进行滤波,获得增强语音频谱
Figure FDA0003470792210000023
10)通过短时傅里叶变换反变换将
Figure FDA0003470792210000024
从频域转换至时域获得最后的增强语音
Figure FDA0003470792210000025
CN202210042390.3A 2022-01-14 2022-01-14 基于参考的语音增强方法 Pending CN114360571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210042390.3A CN114360571A (zh) 2022-01-14 2022-01-14 基于参考的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210042390.3A CN114360571A (zh) 2022-01-14 2022-01-14 基于参考的语音增强方法

Publications (1)

Publication Number Publication Date
CN114360571A true CN114360571A (zh) 2022-04-15

Family

ID=81091303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210042390.3A Pending CN114360571A (zh) 2022-01-14 2022-01-14 基于参考的语音增强方法

Country Status (1)

Country Link
CN (1) CN114360571A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
WO2023226839A1 (zh) * 2022-05-23 2023-11-30 维沃移动通信有限公司 音频增强方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226839A1 (zh) * 2022-05-23 2023-11-30 维沃移动通信有限公司 音频增强方法、装置、电子设备及可读存储介质
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Similar Documents

Publication Publication Date Title
Pandey et al. A new framework for CNN-based speech enhancement in the time domain
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
CN114360571A (zh) 基于参考的语音增强方法
Zezario et al. Self-supervised denoising autoencoder with linear regression decoder for speech enhancement
Yuliani et al. Speech enhancement using deep learning methods: A review
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
Mun et al. The sound of my voice: Speaker representation loss for target voice separation
Geng et al. End-to-end speech enhancement based on discrete cosine transform
CN114495969A (zh) 一种融合语音增强的语音识别方法
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
Hussain et al. A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
He et al. Local-global speaker representation for target speaker extraction
Kashani et al. Speech Enhancement via Deep Spectrum Image Translation Network
Baby et al. Speech dereverberation using variational autoencoders
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Nossier et al. Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains
CN113035217A (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法
Skariah et al. Review of speech enhancement methods using generative adversarial networks
CN112967722A (zh) 一种基于盲源分离的文本无关型多源说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination