CN114360571A - 基于参考的语音增强方法 - Google Patents
基于参考的语音增强方法 Download PDFInfo
- Publication number
- CN114360571A CN114360571A CN202210042390.3A CN202210042390A CN114360571A CN 114360571 A CN114360571 A CN 114360571A CN 202210042390 A CN202210042390 A CN 202210042390A CN 114360571 A CN114360571 A CN 114360571A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- noise
- convolution
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于参考的语音增强方法,包括下列步骤:分析真实环境中的带噪语音,建立加性噪声模型;定义基于参考的语音增强模型;得到带噪语音频谱X与参考语音频谱R;MFCC组匹配获取帧间对应关系;编码器提取深度特征;参考语音特征重组;二段式的特征融合;深度特征解码,得到一个乘性复数掩膜;使用乘性复数掩膜对带噪语音频谱X进行滤波,获得增强语音频谱;通过短时傅里叶变换反变换获得最后的增强语音。
Description
技术领域
本发明属于语音信号处理领域,涉及语音增强算法。
背景技术
真实环境中采集到的语音信号通常含有背景噪声。这些噪声的形式是多种多样的,其存在严重降低了语音的听觉感知质量和可懂度。语音增强的目的便是从被各种各样的噪声干扰、甚至淹没的信号中提取有用的语音信号,同时抑制、降低噪声的干扰。
现有的单通道语音增强方法可以分为两类,一类是传统方法,例如谱减法、维纳滤波法、基于隐马尔可夫模型的方法、基于非负矩阵的方法等。另一类是基于深度学习的方法。
基于深度学习的单通道语音增强方法主要分为时域和频域方法。时域方法通常利用深度神经网络来学习带噪语音和干净语音的一维波形之间的映射关系。由于一维语音信号缺乏明显的几何结构,从其中提取有用的信息较为困难。频域方法对带噪语音信号的二维频谱进行处理,通常有两种方式,一是直接通过深度神经网络重建出干净的语音频谱,二是预测一个时频掩膜以对带噪频谱进行滤波从而生成增强的频谱。虽然以上方法的出现均极大地提高了基于深度学习的单通道语音增强方法的效果,但恢复出的增强语音仍然有部分信息丢失。为了进一步提升语音增强算法的效果,许多借助外部参考的或语音自身固有的先验信息来帮助重建怎强语音的方法被提了出来,例如外部参考的说话人视频中的口部动作先验、表情先验,语音自身固有的或外部干净参考语音含有的说话人身份先验、情绪先验、音素发声特征先验等。其中,由于外部参考语音与目标语音具有相同的说话人(说话内容不同),且其帧级别的音素信息是部分共享的,所以通过引入外部参考语音来辅助进行带噪语音的增强(基于参考的语音增强)能够取得更好的效果。
发明内容
为了进一步提升现有语音增强算法的效果,本发明旨在提供一套基于参考的语音增强算法,本发明所涉及到的语音均为单通道语音。技术方案如下
一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
编码器由3个级联的卷积层构成,每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样,使用同一个编码器对X和R分别进行处理,得到3 对不同深度的带噪特征和参考特征
6)参考语音特征重组,方法如下:
7)二段式的特征融合,方法如下:
8)深度特征解码,方法如下:
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、 ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作;解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样;解码器首先将送入4个残差块得到随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的合并在一起:
其中,decodei指第i个转置卷积层;
本发明的技术特点及效果:针对基于参考的语音增强,本发明使用基于MFCC组匹配获得的帧间对应关系来进行参考特征重组。重组参考特征和噪声特征通过特征融合模块融合在一起经过解码器,最终获得增强语音频谱。本发明具有以下特点:
1.本发明利用了带噪语音和参考语音之间的局部相关性,进行了基于参考的语音增强。本发明首先使用MFCC组进行匹配,然后根据匹配所得的帧间对应关系重组参考特征。
2.由于参考特征与带噪特征具有不同的相似性,并且它们对最终增强语音的贡献不同,本发明使用特征融合模块来将参考和带噪特征自适应融合在一起。
3.本发明首个进行了基于参考的单通道语音增强,希望本发明能够启发更多基于参考的语音处理方法的研究。
附图说明
图1是算法流程框图。
图2是模型结构图。
图3是融合模块结构图。
图4是不同时长的参考语音对增强结果的影响对比图。
具体实施方式
本发明采用如下技术方案:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音。
2)定义基于参考的语音增强模型及其输入输出:
3)针对加性噪声模型设计算法流程。
本发明提供的基于参考的语音增强算法包含以下8个步骤:
第2步:MFCC组匹配获取帧间对应关系。
为了获取帧间对应关系,本发明首先从频谱中提取MFCC(Mel FrequencyCepstrum Coefficient)并将连续3帧(前一帧、当前帧、后一帧)的MFCC组合在一起构成一个MFCC组。对于带噪语音的某一个 MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度(Cosine Similarity),挑选出余弦相似度最高的5个MFCC组的中间帧与带噪MFCC组的中间帧构成一个帧间对应关系重复这个过程便可以对带噪语音的每一帧得到一个帧间对应关系。
第3步:编码器提取深度特征。
编码器由3个级联的卷积层构成。每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样。使用同一个编码器对X和R分别进行处理可以得到3 对不同深度的特征和称之为带噪特征和参考特征。编码过程如下:
其中,encodei为第i个卷积层。
第4步:参考语音特征重组。
第5步:特征融合。
其中,complexConv为复数卷积。
第6步:深度特征解码。
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作。解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样。解码器首先将送入4个残差块得到随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的合并在一起:
其中,decodei指第i个转置卷积层。
4)数据集获取及其预处理。
本发明使用Voice Bank+DEMAND开源数据集对模型进行训练与测试。Voice Bank+DEMAND开源数据集的训练集包含28个说话人的多条内容不同的带噪-干净语音数据对,共计11572对。测试集包含2个说话人的多条内容不同的带噪-干净语音数据对,共计824对。对于每一条带噪语音,从其说话人的其他内容不同的干净语音中随机挑选出15秒构成对应的参考语音。
5)训练。
本发明中,训练模型所使用的损失函数为L1-Loss和感知损失的加权和,优化器使用Adam优化器,初始学习率设置为0.0001。本发明利用深度学习框架Pytorch平台训练模型,在整个数据集上迭代80次,随后减小学习率至0.00001,迭代20次,使得损失收敛,得到最终模型。
6)测试。
将测试集中的带噪语音与其相应的参考语音输入到模型中,得到相应的增强语音。
表1
表1是本发明所提算法与其他语音增强算法在Voice Bank+DEMAND测试集上的结果对比表。表中各个方法的参考文献如下:
[1]Pascual S,Bonafonte A,Serra J.SEGAN:Speech enhancement generativeadversarial network[J].arXiv preprint arXiv:1703.09452,2017.
[2]Germain F G,Chen Q,Koltun V.Speech denoising with deep featurelosses[J].arXiv preprint arXiv:1806.10522,2018.
[3]Fu S W,Liao C F,Tsao Y,et al.Metricgan:Generative adversarialnetworks based black-box metric scores optimization for speech enhancement[C]//International Conference on Machine Learning.PMLR,2019: 2031-2041.
[4]Yin D,Luo C,Xiong Z,et al.PHASEN:A phase-and-harmonics-awarespeech enhancement network[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2020,34(05):9458-9465.
[5]Kim J,El-Khamy M,Lee J.T-gsa:Transformer with gaussian-weightedself-attention for speech enhancement[C]//ICASSP 2020-2020IEEE InternationalConference on Acoustics,Speech and Signal Processing (ICASSP).IEEE,2020:6649-6653.
[6]Defossez A,Synnaeve G,Adi Y.Real time speech enhancement in thewaveform domain[J].arXiv preprint arXiv:2006.12847,2020.
[7]Fu S W,Yu C,Hsieh T A,et al.MetricGAN+:An Improved Version ofMetricGAN for Speech Enhancement[J].arXiv preprint arXiv:2104.03538,2021.
[8]Hsieh T A,Yu C,Fu S W,et al.Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement[J].arXiv preprint arXiv:2010.15174,2020.
凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于参考的语音增强方法,包括下列步骤:
1)分析真实环境中的带噪语音,建立加性噪声模型:
x=y+n
其中,y为干净语音,n为环境噪声,x为带噪语音;
2)定义基于参考的语音增强模型:
4)MFCC组匹配获取帧间对应关系,方法如下:
从分别从带噪语音频谱X和参考语音频谱R提取MFCC,并将连续3帧的MFCC组合在一起构成一个带噪语音频谱X的MFCC组和一个参考语音频谱R的MFCC组;对于带噪语音的某个MFCC组,通过计算所有参考语音的MFCC组与其的余弦相似度,挑选出余弦相似度最高的5个MFCC组的中间帧与带噪语音的所述MFCC组的中间组构成一个帧间对应关系重复此过程便可以对带噪语音的每一帧得到一个帧间对应关系;
5)编码器提取深度特征,方法如下
编码器由3个级联的卷积层构成,每个卷积层都包含复数卷积、批标准化、LeakyReLu激活3个部分,其中复数卷积通过控制步长来对输入进行频域下采样,使用同一个编码器对X和R分别进行处理,得到3对不同深度的带噪特征和参考特征
6)参考语音特征重组,方法如下:
7)二段式的特征融合,方法如下:
8)深度特征解码,方法如下:
解码器由4个残差块和3个级联的转置卷积层构成,每个残差块由复数卷积、ReLu激活、复数卷积、ReLu激活构成,前两个转置卷积层包含复数转置卷积、批标准化、LeakyReLu激活3个部分,最后一个转置卷积层只有复数转置卷积操作;解码器中的每一个转置卷积操作都可以通过控制步长来对输入进行频域上采样;解码器首先将送入4个残差块得到随后使用3个转置卷积层对其逐级进行上采样,并在每次进入转置卷积层之前与相应的合并在一起:
其中,decodei指第i个转置卷积层;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042390.3A CN114360571A (zh) | 2022-01-14 | 2022-01-14 | 基于参考的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042390.3A CN114360571A (zh) | 2022-01-14 | 2022-01-14 | 基于参考的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360571A true CN114360571A (zh) | 2022-04-15 |
Family
ID=81091303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210042390.3A Pending CN114360571A (zh) | 2022-01-14 | 2022-01-14 | 基于参考的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114360571A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
WO2023226839A1 (zh) * | 2022-05-23 | 2023-11-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-01-14 CN CN202210042390.3A patent/CN114360571A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226839A1 (zh) * | 2022-05-23 | 2023-11-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
CN114999508B (zh) * | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pandey et al. | A new framework for CNN-based speech enhancement in the time domain | |
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
Zezario et al. | Self-supervised denoising autoencoder with linear regression decoder for speech enhancement | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Li et al. | Deeplabv3+ vision transformer for visual bird sound denoising | |
Hussain et al. | A Novel Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Park et al. | Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
He et al. | Local-global speaker representation for target speaker extraction | |
Kashani et al. | Speech Enhancement via Deep Spectrum Image Translation Network | |
Baby et al. | Speech dereverberation using variational autoencoders | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Nossier et al. | Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains | |
CN113035217A (zh) | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 | |
Skariah et al. | Review of speech enhancement methods using generative adversarial networks | |
CN112967722A (zh) | 一种基于盲源分离的文本无关型多源说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |