CN113035217A

CN113035217A - 一种基于声纹嵌入的低信噪比条件下的语音增强方法

Info

Publication number: CN113035217A
Application number: CN202110226118.6A
Authority: CN
Inventors: 高戈; 曾邦; 陈怡�; 杨玉红; 尹文兵; 王霄
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-25
Anticipated expiration: 2041-03-01
Also published as: CN113035217B

Abstract

本发明提出了一种基于声纹嵌入的低信噪比条件下的语音增强方法。本发明将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声，得到带噪语音数据集；提取中文语音数据集的梅尔倒谱系数；构建优化通用高斯混合背景模型；根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型，提取干净中文语音数据集的声纹特征；提取带噪语音数据集的幅度谱和相位谱；生成带噪语音中说话用户的相关频谱特征；构建增强神经网络；波形重构得到增强后的带噪语音。本发明将用户语音的声纹特征进行嵌入，提升低信噪比条件下语音增强系统的性能，改善智能语音设备在嘈杂环境下的性能表现。

Description

一种基于声纹嵌入的低信噪比条件下的语音增强方法

技术领域

本发明涉及语音增强领域，具体涉及一种基于声纹嵌入的低信噪比条件下的语音增强方法。

背景技术

近年来，人工智能技术的热度居高不下，语音增强技术也得到了飞速的发展，各种语音增强技术层出不穷。这些语音增强方案主要分为：传统语音增强方案和基于深度学习的语音增强方案。

传统语音增强方案主要包括：谱减法、基于统计模型的增强算法和子空间增强算法。谱减法假设噪声为加性噪声，然后从带噪语音的语音谱中减去对噪声谱的估计，最后的到干净语音。维纳滤波算法和最小均方误差算法是基于统计模型增强算法的代表，相对于谱减法，维纳滤波法算法处理后的语音信号中的残留噪声类似白噪声，听觉上让人更加舒适。最小均方误差算法利用语音信号的短时频谱振幅在感知中的重要作用，并利用最小均方误差的短时频谱振幅估计器来增强带噪语音。子空间增强算法主要源自于线性代数理论，其原理是在欧式空间中，纯净信号的分布局限在带走按信号的子空间中。所以只要将带噪信号的向量空间分解到两个子空间就可以完成语音增强的任务。

传统的语音增强算法大多假设语音信号是平稳的。但是，在现实生活中，这种假设条件根本无法满足。基于深度学习的语音增强算法以其强大的非线性拟合能力能有效解决这个问题。根据训练目标的不同，基于深度学习的语音增强算法可以分为两类：一是基于掩模的增强网络，二是基于映射的增强网络。基于掩模的增强网络是将理想比例掩模或者相位掩模等作为神经网络的训练目标。基于映射的增强网络利用神经网络的拟合能力，将带噪语音的对数谱或者功率谱直接映射到干净语音的功率谱。根据网络模型的不同，基于深度学习的语音增强网络可以分为DNN增强网络、CNN增强网络、RNN增强网络和GAN增强网络。

其中，对语谱图的特征处理是基于深度学习语音增强网络的关键。所以，CNN网络较其他网络模型更契合语音增强任务。

本申请发明人在实施本发明过程中，发现现有技术方法至少存在以下和技术问题：

虽然基于CNN网络的语音增强算法在高信噪比条件性能表现良好，但是在低信噪比条件下性能会急速下降，性能表现不尽人意。语音增强算法作为语音信号处理的一项基本研究，常被用作语音前端处理模块。目前，智能语音技术发展迅速，在安静环境下，各语音系统都能达到很好的性能。但是，现实生活中，安静的语音条件几乎不存在，嘈杂、喧闹等低信噪比环境随处可见，这也是智能语音技术落地困难的重要原因。

由此可见，现有技术的方法中，低信噪比条件下的语音增强还存在难点，对低信噪比条件下语音增强技术的研究具有重要的实际意义。

发明内容

本发明提出基于声纹嵌入的CNN语音增强算法，用于解决低信噪比条件下语音增强效果不佳的问题，推动智能语音技术更快更好的落地。

为解决上述问题，本发明提供了一种基于声纹嵌入的低信噪比条件下的语音增强方法，包括：

步骤1：将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声，得到带噪语音数据集；

步骤2：提取中文语音数据集的梅尔倒谱系数；

步骤3：构建优化通用高斯混合背景模型；

步骤4：根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型，提取干净中文语音数据集的声纹特征；

步骤5：提取带噪语音数据集的幅度谱和相位谱；

步骤6：将干净语音数据集的声纹特征与带噪语音数据集的频谱特征通过拼接生成带噪语音中说话用户的相关频谱特征；

步骤7：构建增强神经网络，将第s个说话用户第h段语音第k帧语音信号的相关谱特征输入至增强神经网络，通过增强神经网络预测得到增强后的第s个说话用户第h段语音第k帧语音信号，以干净语音集的频谱作为标签构建增强神经网络的损失函数，通过Adam优化算法进一步优化训练得到优化后增强神经网络；

步骤8：将带噪语音数据集中带噪语音经过特征提取之后得到带噪语音的说话用户相关频谱特征，将带噪语音的说话用户相关频谱特征输入到优化后的增强神经网络中得到增强后说话用户相关频谱；将增强后的说话用户相关频谱和步骤5中的相位谱通过傅里叶反变换，进一步进行波形重构得到增强之后的待检测用户语音。

作为优选，步骤1所述干净中文语音数据集为：

CleanData_s，h

s∈{1，2....，S}，h∈{1，2....，H}

其中，CleanData_s，h表示第s个说话用户第h段语音，S为说话用户的数量，H为每个说话用户的音频数量；

步骤1所述带噪语音数据集为：

NoiseData_s，h

s∈{1，2....，S}，h∈{1，2....，H}

其中，NoiseData_s，h表示第s个说话用户第h段带噪语音，S为说话用户的数量，H为每个说话用户的音频数量；

作为优选，步骤2具体如下：

步骤2.1，将步骤1中的干净中文语音数据集通过高通滤波器滤波，得到预加重之后的干净语音信号；

步骤2.2，对经过预加重之后的干净语音信号进行分帧加窗得到中文语音数据集的多帧语音信号；

所述中文语音数据集的多帧语音信号为：

CleanDataFrame_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，CleanDataFrame_s，h表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤2.3，对中文语音数据集的每帧语音信号即CleanDataFrame_s，h，k进行快速傅里叶变换，得到中文语音数据集的每帧语音信号的频谱、中文语音数据集的每帧语音信号能量谱；

步骤2.4，将中文语音数据集的每帧语音信号能量谱通过梅尔尺度的三角形滤波器组，进一步经过离散余弦变换得到干净中文语音的梅尔倒谱系数；

所述干净中文语音的梅尔倒谱系数为：

CleanMFCC_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，CleanMFCC_s，h，k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

作为优选，步骤3具体如下：

步骤3.1，随机初始化高斯分量均值向量、方差向量；

所述初始化的均值向量的定义为：μ，μ＝{μ₁，...，μ_i，...，μ_M}；

所述初始化的方差向量的定义为：θ，θ＝{θ₁，...，θ_i，...，θ_M}；

其中，M表示混合高斯模型的高斯分量个数，μ_i表示第i个高斯分量的均值，θ_i表示第i个高斯分量的方差；

步骤3.2，结合均值向量、方差向量构建通用高斯混合背景概率密度模型；

通用高斯混合背景概率密度模型如下：

其中，λ是高斯混合模型参数集合{λ₁，...，λ_i，...，λ_M}，λ_i＝(w_i，μ_i，θ_i)，i∈(1，...，M)，w_i是第i个高斯分量的混合权重分量，g(CleanMFCC_s，h，k|μ_i，θ_i)是第i个高斯分量的概率密度函数；

步骤3.3，将通用高斯混合背景概率密度模型作为最大期望算法目标优化模型，进一步通过最大期望算法依次迭代计算均值向量和方差向量，直至p(CleanMFCC_s，h，k|λ)的期望达到最大值，得到优化均值向量即μ*和优化方向量差即θ*；

通过μ*、θ*构建优化后的高斯混合模型的概率密度；

所述优化后的高斯混合模型的概率密度为：

其中，μ*为优化后的均值向量，μ*＝{μ*₁，...，μ*_i，...，μ*_M}，θ*为优化后的方差向量，θ*＝{θ*₁，...，θ*_i，...，θ*_M}，μ*_i表示第i个优化后高斯分量的均值，θ*_i表示第i个优化后高斯分量的方差；

作为优选，步骤4具体如下：

步骤4.1，根据干净语音集的梅尔倒谱系数、优化高斯混合背景概率密度模型，计算干净语音数据集的Baum-Welch统计量；

所述干净语音数据集的Baum-Welch统计量包括：

第s个说话用户第h段语音的权值Baum-Welch统计量、干净语音数据集的均值矢量Baum-Welch统计量、干净语音数据集的一阶中心Baum-Welch统计量；

所述第s个说话用户第h段语音的权值Baum-Welch统计量为：

μ*＝{μ*₁，…，μ*_i，...，μ*_M}

θ*＝{θ*₁，...，θ*_i，...，θ*_M}

w*＝{w*₁，...，w*_i，...，w*_M}

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，P*优化后的高斯混合模型的概率密度模型，μ*为优化后的均值向量，θ*为优化后的方差向量，μ*_i表示第i个优化后高斯分量的均值，θ*_i表示第i个优化后高斯分量的方差，w*_i表示优化后第i个高斯分量的混合权重，g(CleanMFCC_s，h，k|μ*_i，θ*_i)是优化后第i个高斯分量的概率密度函数，p(c|CleanMFCC_s，h，k，p*)表示CleanMFCC_s，h，k对于第c个高斯分量的状态占有率；

其中，N_c(s，h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量混合权值对应的Baum-Welch统计量；

所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为：

其中，F_c(s，h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量，均值矢量对应的Baum-Welch统计量；

所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为：

其中，

表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量，协方差矩阵对应的Baum-Welch统计量；

步骤4.2，根据干净语音数据集的Baum-Welch统计量，分别计算每个说话用户每段语音的声纹特征的方差、每个说话用户每段语音的声纹特征的均值；

所述每个说话用户每段语音的声纹特征的方差为：

l_τ(s，h)＝I+τ^T(θ*)^-1N_c(s，h)Matrix

其中，l_τ(s，h)表示第s个说话用户第h段语音的声纹特征的方差，I表示单位矩阵；

所述每个说话用户每段语音的声纹特征的均值为：

其中，

表示第s个说话用户第h段语音的声纹特征的均值，Matrix表示全局差异空间矩阵，反映不同说话用户之间的差异；

步骤4.3，通过期望最大化算法对全局差异空间矩阵进行更新；

所述全局差异空间矩阵进行更新的具体公式为：

c∈[1,M]

其中，Matrix为全局差异空间矩阵，反映不同说话用户之间的差异,N_c表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量的和，A_c表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量与声纹特征方差的乘积，C表示一阶中心Baum-Welch统计量与声纹特征均值的乘积；

步骤4.4，循重复执行步骤4.2、4.3，直到每个说话用户每段语音的声纹特征的期望达到最大值，得到优化后全局差异空间矩阵，优化后全局差异空间矩阵的定义为：Matrix*

步骤4.5，根据优化后全局差异空间矩阵估计每个说话用户每段语音的声纹特征；

s∈{0，1，2....，S}，h∈{0，1，2....，H}

其中，w_s，h表示第s个说话用户第h段语音的声纹特征，S为说话用户的数量，H为每个说话用户的音频数量；

作为优选，步骤5具体如下：

步骤5.1，对带噪语音数据集NoiseData_s，h进行分帧加窗得到带噪语音数据集的多帧语音信号；

所述带噪语数据集的多帧语音信号为：

NoiseDataFream_s，h，k

s∈{0，1，2....，S}，h∈{0，1，2....，H}，k∈{0，1，2....，K_h，s}

其中，noiseDataFream_s，h，k表示带噪语音数据集第s个说话用户第h段语音的第k帧语音信号，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤5.2，对带噪语音数据集的每帧语音信号即noiseDataFrame_s，h，k进行快速傅里叶变换，得到带噪语音数据集的每帧语音信号的频谱特征、带噪语音数据集的每帧语音信号的相位谱；

所述频谱特征为：

noiseMag_s，h，k

其中noiseMag_s，h，k表示带噪语音中说话用户s的第h段语音第k帧语音信号的频谱特征，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

所述相位谱为：

noisePha_s，h，k

其中noisePha_s，h，k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

作为优选，步骤6所述带噪语音中说话用户的相关频谱特征为：

Speaker_Mag_s，h，k＝{noiseMag_s，h，k,w_s，h}

其中，Speaker_Mag_s，h，k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征，w_s，h表示第s个说话用户第h段语音的声纹特征，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

作为优选，步骤7所述增强网络模型由编码器、解码器级联构成；

所述编码器，由X层编码卷积模块依次级联构成；

所述第1层编码卷积模块至第X-1层编码卷积模块均由卷积层、LeakyReLu函数激活层、Maxpooling池化层依次级联构成

所述第X层编码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成；

所述解码器，由Y层解码卷积模块依次级联构成；

所述第1层解码卷积模块至第Y-1层解码卷积模块均由卷积层、LeakyReLu函数激活层和Maxpooling池化层依次级联构成

所述第Y层解码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成

步骤7所述干净语音的频谱定义为：

干净语音的频谱由干净中文语音数据集即CleanData_s，h进过傅里叶变换得到：

CleanMag_s，h，k

其中，CleanMag_s，h，k表示干净语音数据集中说话用户s的第h段语音第k帧语音信号的频谱特征，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤7所述增强神经网络的损失函数为：

其中，loss_MSE表示神经网络损失函数，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤7所述优化训练得到优化后增强神经网络为：

通过Adam算法控制学习率的变化，再由学习率控制卷积层中待估参数的优化，最终使得loss_MSE达到预期值或最小值，得到优化后增强神经网络；

作为优选，步骤8所述特征提取包括如下步骤：

首先带噪语音数据集中带噪语音经过傅里叶变换得到带噪语音的频谱；然后通过步骤4提取干净语音的声纹特征；最后将带噪语音的频谱和干净语音的声纹特征进行拼接得到说话用户相关的频谱。

与现有语音增强技术相比，本发明具有以下优点和有益效果：将用户语音的声纹特征进行嵌入，提升低信噪比条件下语音增强系统的性能，改善智能语音设备在嘈杂环境下的性能表现。

附图说明

图1：为本发明方法流图；

图2：为本发明中CNN语音增强网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

下面结合图1以及图2介绍本发明的具体实施方式为一种基于声纹嵌入的低信噪比条件下的语音增强方法，具体如下：

本实例干净中文语音数据集选取Aishell干净语音数据集和中文语音噪声数据集选取Musan噪声数据集进行训练与测试。

步骤1所述干净中文语音数据集为：

CleanData_s，h

s∈{1，2....，S}，h∈{1，2...·，H}

其中，CleanData_s，h表示第s个说话用户第h段语音，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量；

步骤1所述带噪语音数据集为：

NoiseData_s，h

s∈{1，2....，S}，h∈{1，2....，H}

其中，NoiseData_s，h表示第s个说话用户第h段带噪语音，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量；

步骤2：提取中文语音数据集的梅尔倒谱系数；

实施步骤2具体如下：

所述中文语音数据集的多帧语音信号为：

CleanDataFrame_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，CleanDataFrame_s，h表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量；，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

所述分帧加窗的窗口尺寸设为20ms，窗口重叠率为50％，若语音信号采样率为16k，则步长为160；

所述干净中文语音的梅尔倒谱系数为：

CleanMFCC_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，CleanMFCC_s，h，k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤3：构建优化通用高斯混合背景模型；

步骤3.1，随机初始化高斯分量均值向量、方差向量；

其中，M＝1024表示混合高斯模型的高斯分量个数，μ_i表示第i个高斯分量的均值，θ_i表示第i个高斯分量的方差；

通用高斯混合背景概率密度模型如下：

通过μ*、θ*构建优化后的高斯混合模型的概率密度；

所述优化后的高斯混合模型的概率密度为：

步骤4：根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型，提取干净中文语音数据集的声纹特征。

所述干净语音数据集的Baum-Welch统计量包括：

所述第s个说话用户第h段语音的权值Baum-Welch统计量为：

μ*＝{μ*₁，...，μ*_i，...，μ*_M}

θ*＝{θ*₁，...，θ*_i，...，θ*_M}

w*＝{w*₁，...，w*_i，...，w*_M}

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为：

所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为：

其中，

所述每个说话用户每段语音的声纹特征的方差为：

l_τ(s，h)＝I+τ^T(θ*)^-1N_c(s，h)Matrix

所述每个说话用户每段语音的声纹特征的均值为：

其中，

所述全局差异空间矩阵进行更新的具体公式为：

c∈[1,M]

s∈{0，1，2....，S}，h∈{0，1，2....，H}

其中，w_s，h表示第s个说话用户第h段语音的声纹特征，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量；

步骤5：提取带噪语音数据集的幅度谱和相位谱；

进一步的，提取带噪语音幅度谱信息的具体实施方案如下：

步骤5.1，对带噪语音数据集NoiseData_s，h进行分帧加窗得到带噪语音数据集的多帧语音信号。

所述分帧加窗处理的窗口尺寸设为20ms，窗口重叠率为50％，若语音信号采样率为16k，则步长为160。

所述带噪语数据集的多帧语音信号为：

NoiseDataFream_s，h，k

其中，noiseDataFream_s，h，k表示带噪语音数据集第s个说话用户第h段语音的第k帧语音信号，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

所述频谱特征为：

noiseMag_s，h，k

其中noiseMag_s，h，k表示带噪语音中说话用户s的第h段语音第k帧语音信号的频谱特征，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

所述相位谱为：

noisePha_s，h，k

其中noisePha_s，h，k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤6所述带噪语音中说话用户的相关频谱特征为：

Speaker_Mag_s，h，k＝{noiseMag_s，h，k,w_s，h}

其中，Speaker_Mag_s，h，k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征，w_s，h表示第s个说话用户第h段语音的声纹特征，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤7所述增强网络模型由编码器、解码器级联构成；

所述编码器，由X层编码卷积模块依次级联构成；

所述解码器，由Y层解码卷积模块依次级联构成；

步骤7所述干净语音的频谱定义为：

CleanMag_s，h，k

其中，CleanMag_s，h，k表示干净语音数据集中说话用户s的第h段语音第k帧语音信号的频谱特征，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤7所述增强神经网络的损失函数为：

其中，loss_MSE表示神经网络损失函数，S＝400为说话用户的数量，H＝360为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数；

步骤7所述优化训练得到优化后增强神经网络为：

步骤8所述特征提取包括如下步骤：

如图1所示，本实施例基于CNN语音增强网络模型，和现有算法的结果进行比较，具体包括以下步骤：

步骤(1)，数据仿真。下载干净语音数据集Aishell作为干净语音数据集，Musan作为噪声集；利用Kaldi工具wav-reverberate进行噪声语音数据的仿真用于语音增强网络的训练；

步骤(2)，提取干净语音的声纹特征I-Vector；

步骤(3)，提取带噪语音的语音幅度谱和相位谱；

步骤(4)，将干净语音的声纹特征嵌入到对应带噪语音的幅度谱特征中得到说话用户相关的频谱特征；

步骤(5)，搭建预训练的CNN语音增强网络，如图2所示；

步骤(6)，网络训练。将步骤(4)中得到的融合特征输入到步骤(5)搭建的预训练模型中，训练语音增强网络。

步骤(7)，波形重构。结合步骤(6)中经过模型增强的频谱特征和步骤(3)中的相位谱波形重构得到增强之后的语音。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，包括以下步骤：

步骤2：提取中文语音数据集的梅尔倒谱系数；

步骤3：构建优化通用高斯混合背景模型；

步骤5：提取带噪语音数据集的幅度谱和相位谱；

2.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

步骤1所述干净中文语音数据集为：

CleanData_s，h

s∈{1，2....，S}，h∈{1，2....，H}

步骤1所述带噪语音数据集为：

NoiseData_s，h

s∈{1，2....，S}，h∈{1，2....，H}

其中，NoiseData_s，h表示第s个说话用户第h段带噪语音，S为说话用户的数量，H为每个说话用户的音频数量。

3.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

所述步骤2具体如下：

所述中文语音数据集的多帧语音信号为：

CleanDataFrame_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

所述干净中文语音的梅尔倒谱系数为：

CleanMFCC_s，h，k

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

其中，CleanMFCC_s，h，k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。

4.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

所述步骤3具体如下：

步骤3.1，随机初始化高斯分量均值向量、方差向量；

通用高斯混合背景概率密度模型如下：

通过μ*、θ*构建优化后的高斯混合模型的概率密度；

所述优化后的高斯混合模型的概率密度为：

其中，μ*为优化后的均值向量，μ*＝{μ*₁，...，μ*_i，...，μ*_M}，θ*为优化后的方差向量，θ*＝{θ*₁，...，θ*_i，...，θ*_M}，μ*_i表示第i个优化后高斯分量的均值，θ*_i表示第i个优化后高斯分量的方差。

5.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

所述步骤4具体如下：

所述干净语音数据集的Baum-Welch统计量包括：

所述第s个说话用户第h段语音的权值Baum-Welch统计量为：

μ*＝{μ*₁，…，μ*_i，…，μ*_M}

θ*＝{θ*₁，...，θ*_i，...，θ*_M}

w*＝{w*₁，...，w*_i，...，w*_M}

s∈{1，2....，S}，h∈{1，2....，H}，k∈{1，2....，K_h，s}

所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为：

所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为：

其中，

所述每个说话用户每段语音的声纹特征的方差为：

l_τ(s，h)＝I+τ^T(θ*)^-1N_c(s，h)Matrix

所述每个说话用户每段语音的声纹特征的均值为：

其中，

所述全局差异空间矩阵进行更新的具体公式为：

c∈[1，M]

其中，Matrix为全局差异空间矩阵，反映不同说话用户之间的差异，N_c表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量的和，A_c表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量与声纹特征方差的乘积，C表示一阶中心Baum-Welch统计量与声纹特征均值的乘积；

其中，w_s，h表示第s个说话用户第h段语音的声纹特征，S为说话用户的数量，H为每个说话用户的音频数量。

6.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

步骤5具体如下：

所述带噪语数据集的多帧语音信号为：

NoiseDataFream_s，h，k

所述频谱特征为：

noiseMag_s，h，k

所述相位谱为：

noisePha_s，h，k

其中，noisePha_s，h，k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。

7.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

步骤6所述带噪语音中说话用户的相关频谱特征为：

Speaker_Mag_s，h，k＝{noiseMag_s，h，k，w_s，h}

其中，Speaker_Mag_s，h，k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征，w_s，h表示第s个说话用户第h段语音的声纹特征，S为说话用户的数量，H为每个说话用户的音频数量，k表示每段语音的语音帧数，K_h，s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。

8.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

步骤7所述增强网络模型由编码器、解码器级联构成；

所述编码器，由X层编码卷积模块依次级联构成；

所述解码器，由Y层解码卷积模块依次级联构成；

步骤7所述干净语音的频谱定义为：

CleanMag_s，h，k

步骤7所述增强神经网络的损失函数为：

步骤7所述优化训练得到优化后增强神经网络为：

通过Adam算法控制学习率的变化，再由学习率控制卷积层中待估参数的优化，最终使得loss_MSE达到预期值或最小值，得到优化后增强神经网络。

9.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法，其特征在于，

步骤8所述特征提取包括如下步骤：