CN113744725A

CN113744725A - 一种语音端点检测模型的训练方法及语音降噪方法

Info

Publication number: CN113744725A
Application number: CN202110952262.8A
Authority: CN
Inventors: 姜彦吉; 张胜; 赵雨萌; 彭博; 范佳亮
Original assignee: Huayan Huisheng Suzhou Electronic Technology Co ltd; Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Huayan Huisheng Suzhou Electronic Technology Co ltd; Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-03

Abstract

本发明公开了一种语音端点检测模型的训练方法及语音降噪方法，训练方法包括以下步骤：对纯净语音信号进行预处理和端点检测，以得到语音帧和静音帧的真实标签值；加入噪声信号，得到带噪语音信号；提取带噪语音信号的特征值；隐层依据特征值对带噪语音信号进行分类，以得到语音帧和纯噪声帧的估计标签值；对估计标签值与真实标签值进行损失函数计算，根据计算结果以优化语音端点检测模型的模型参数。本发明提供的语音端点检测模型的训练方法及语音降噪方法融合了深度学习思想，构建循环神经网络模型，基于数据驱动，计算算法中需要的估计参数值，得到更准确的噪声统计分布规律，进而达到较为理想的降噪效果。

Description

一种语音端点检测模型的训练方法及语音降噪方法

技术领域

本发明涉及语音降噪技术领域，特别涉及一种语音端点检测模型的训练方法及语音降噪方法。

背景技术

随着汽车智能化程度的快速发展，语音识别及操控系统逐渐成为汽车标配。行车场景中不同工况的噪声，包括路噪、胎噪、发动机噪声、风噪、空调噪声等，这些噪声能量高，频率范围与语音的频率范围重叠度高，对语音的掩蔽效应强烈，严重影响语音识别系统的识别能力。语音端点检测是语音识别过程中的一个必要环节，对信号中语音部分起始点的准确检测与判断，可以大幅度提升语音识别系统的识别率。传统检测方法中对人工声学特征的提取难以描述行车场景中的带噪语音，影响车载语音系统中语音信号的端点检测能力。

在dsp芯片上进行语音降噪时，采用的都是信号处理的方法，保证算法的复杂度和实时性，比如谱减算法，基于加性噪声场景，利用对噪声的频谱估计，在经验意义上对语音做降噪处理。这种降噪方式算法流程简单、原理易懂，但从数学推导角度却不够严格和完备。不具有理论上的最优性能。而对于维纳滤波算法，基于最优均方误差准则进行带噪语音信号的降噪处理，可证明性能更优且易于处理。

维纳滤波算法的思想是设计一个降噪系统，使得输出的降噪语音信号尽可能逼近期望的纯净语音信号，通过最小化系统输出信号与期望信号之间的误差，使降噪性能达到最优。但算法要对参数进行统计估计，目前对先验信噪比的估计方法不理想，实际的应用环境中的端点检测的精度难以提升，且基于信号帧的更新算法鲁棒性不足。基于信号处理的降噪算法中的参数估计问题影响算法的降噪性能，因无法获取实际场景中噪声的统计分布规律，现有技术中都是基于经验给出估计值，因此降噪效果也就完全依赖于对应参数估计值的准确性。

发明内容

为了克服现有技术存在的不足，本发明提供了一种语音端点检测模型的训练方法及语音降噪方法，所述技术方案如下：

一方面，本发明提供了一种语音端点检测模型的训练方法，所述语音端点检测模型基于神经网络模型，其用于对带噪语音进行端点检测，所述语音端点检测模型包括输入层、多个隐层以及输出层，至少有一个隐层包括GRU层和/或LSTM层；

所述训练方法包括以下步骤：

S1、对纯净语音信号进行预处理和端点检测，以得到语音帧和静音帧的真实标签值；

S2、在带有标签值的纯净语音信号中加入噪声信号，得到带噪语音信号，其包含对应纯净语音信号端点检测后的真实标签值；

S3、提取所述带噪语音信号的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征中的一种或多种，以得到所述语音端点检测模型输入的特征值；

S4、将所述特征值输入至所述输入层，所述隐层依据所述特征值对所述带噪语音信号进行分类，以得到语音帧和纯噪声帧的估计标签值，并通过所述输出层进行输出；

S5、对所述估计标签值与所述真实标签值进行损失函数计算，根据计算结果以优化所述语音端点检测模型的模型参数。

进一步地，所述隐层包括第一隐层、第二隐层和第三隐层，所述第一隐层包括全连接层和tanh激活函数层，所述第二隐层包括ReLU激活函数层，第三隐层包括全连接层和sigmoid激活函数层，

所述第二隐层还包括GRU层，所述特征值依次经过全连接层、tanh激活函数层、GRU层、ReLU激活函数层、全连接层、sigmoid激活函数层处理，以得到语音帧和纯噪声帧的估计标签值；

和/或，

所述第二隐层还包括LSTM层，所述特征值依次经过全连接层、tanh激活函数层、LSTM层、ReLU激活函数层、全连接层、sigmoid激活函数层处理，以得到语音帧和纯噪声帧的估计标签值。

进一步地，所述隐层还包括优化隐层，所述优化隐层位于所述第一隐层和第二隐层之间。

进一步地，所述优化隐层包括GRU层和tanh激活函数层，所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层；

和/或，

所述优化隐层包括全连接层和ReLU激活函数层，所述第一隐层的输出依次经全连接层和ReLU激活函数层处理至所述第二隐层。

进一步地，所述优化隐层包括全连接层层和tanh激活函数层，所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。

进一步地，所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。

进一步地，步骤S1中对纯净语音进行预处理包括以下步骤：

S101、对输入的语音信号进行升采样或者降采样；

S102、消除采样得到的语音信号的直流分量，并进行幅值归一化处理；

S103、对步骤S102处理后语音信号进行分帧加窗处理；

S104、利用傅里叶变换，将分帧加窗后的语音信号从时域转换到频域进行输出。

进一步地，在步骤S4中还包括，根据所述估计标签值，得到语音帧数目和纯噪声帧数目。

另一方面，本发明还提供了一种语音降噪方法，包括以下步骤：

P1、将带噪语音进行信号预处理后输入所述的语音端点检测模型，得到语音帧和纯噪声帧的估计标签值，从而得到纯噪声帧数目，以计算噪声帧能量；

P2、根据得到语音帧和纯噪声帧的估计标签值，计算先验信噪比的初始值，以及各语音帧对应的后验信噪比和先验信噪比；

P3、计算维纳滤波的增益函数并利用其对语音帧信号进行降噪；

P4、利用逆傅里叶变换，将降噪后的语音帧信号从频域转换到时域；

P5、将转换后的语音帧信号合并，以得到降噪后的语音信号。

进一步地，在步骤P3后还包括以下步骤：

P400、根据步骤P3降噪后的语音帧信号更新当前语音帧先验信噪比的初始值，以重新计算当前语音帧的先验信噪比，并执行步骤P3；

执行一次或者循环执行多次步骤P400后，执行P4-P5。

进一步地，在步骤P5中，需要先对所述转换后的语音帧信号进行去除加窗操作之后，再进行合并操作。

本发明提供的技术方案带来的有益效果如下：

(1)利用神经网络模型进行深度学习，得到降噪计算中需要的估计参数值，使得估计参数值更加接近真实情况；

(2)使得信噪比估计更为准确，提高了降噪效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音端点检测模型结构示意图；

图2是本发明实施例提供的语音降噪方法流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，更清楚地了解本发明的目的、技术方案及其优点，以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。除此，本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中，提供了一种语音端点检测模型的训练方法，所述语音端点检测模型基于神经网络模型，即NNWAP网络模型，其用于对带噪语音进行端点检测，所述语音端点检测模型包括输入层、多个隐层以及输出层；

其中，所述隐层包括第一隐层、第二隐层和第三隐层，所述第一隐层包括全连接层和tanh激活函数层，所述第二隐层包括ReLU激活函数层，第三隐层包括全连接层和sigmoid激活函数层。

在此基础上语音端点检测模型至少有以下几种架构：

架构1

所述第二隐层还包括GRU层，所述特征值依次经过全连接层、tanh激活函数层、GRU层、ReLU激活函数层、全连接层、sigmoid激活函数层处理，以实现对带噪语音的分类标记。

架构2

所述第二隐层还包括LSTM层，所述特征值依次经过全连接层、tanh激活函数层、LSTM层、ReLU激活函数层、全连接层、sigmoid激活函数层处理，以实现对带噪语音的分类标记。

架构3

架构1和架构2的方案可同时存在进行，使得第二隐层形成两个分支，此时第一隐层的输出分别经过第二隐层的两个分支处理后，合并输出至第三隐层，使得模型的运算更加稳定。

架构4

在架构1的基础上，所述隐层还包括优化隐层，所述优化隐层位于所述第一隐层和第二隐层之间，所述优化隐层包括GRU层和tanh激活函数层，所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层；

架构5

与架构4不同在于优化隐层的内容不同，所述优化隐层包括全连接层和ReLU激活函数层，所述第一隐层的输出依次经全连接层和ReLU激活函数层处理至所述第二隐层。

架构6

架构4和架构5的方案可同时存在进行，使得优化隐层形成两个分支，此时第一隐层的输出分别经过优化隐层的两个分支处理后，合并输出至第二隐层，使得模型的运算更加稳定。

架构7

在架构2的基础上，所述隐层还包括优化隐层，所述优化隐层位于所述第一隐层和第二隐层之间，所述优化隐层包括全连接层层和tanh激活函数层，所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。

在架构7中，所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。

架构8

架构6和架构7的方案可同时存在进行，参见图1，所述优化隐层形成三个分支，对应地，第一分支包括GRU层和tanh激活函数层，第二分支包括全连接层和ReLU激活函数层，第三分支包括全连接层层和tanh激活函数层；所述第二隐层形成两个分支，对应地，第四分支包括GRU层和ReLU激活函数层，第五分支包括LSTM层和ReLU激活函数层；第一隐层的输出分别通过第一分支和第二分支处理并汇总至第四分支，同时，第一隐层的输出通过第三分支处理后输出至第五分支，第四分支的输出和第五分支的输出汇总至第三隐层处理后输出。其中需要注意的是，可以通过设置第一隐层的参数输出，使得第一隐层可以输出相同或不同的参数数量及数值至下一分支层。

针对语音端点检测模型，其训练方法包括以下步骤：

其中，在步骤S1中，对纯净语音进行预处理包括以下步骤：

S101、对输入的语音信号进行升采样或者降采样，以保证语音数据采样率的一致性；

S102、消除采样得到的语音信号的直流分量，

其中，x1(i)是指语音信号采样点对应的信号，消除直流分量即为语音信号的各个分量减去语音信号平均值的过程，x2(i)是指相应消除直流分量的语音信号，l表示语音数据长度；

并x2(i)进行幅值归一化处理，

其中，max是指语音信号中的分量最大值，x3(i)表示相应归一化处理后的语音信号。

S103、对步骤S102处理后语音信号进行分帧加窗处理；

其中，处理过程中汉明窗的表达形式如下：

其中，α在0.4-0.6范围内取值，n表示语音帧的索引。

S104、利用傅里叶变换，将分帧加窗后的语音信号从时域转换到频域进行输出，得到可应用的语音信号，可记作x(i)，

相应傅里叶变换公式如下：

其中，w是频率，t是时间，e^-iwt是复变函数。

下面以具体实例进行说明：

步骤1

对输入的纯净语音实施上个实施例中的语音预处理操作。

步骤2

对步骤1中预处理后的语音信号进行基于对数频谱距离的端点检测，得到语音帧和静音帧的标签值，

其中，x_i(m)是分帧处理后的第i帧语音信号，L是帧长，X_i(k)是x_i(m)进行DFT后的离散频谱，k为离散频谱值的索引，j为虚数单位。

其中，

是DFT后的频谱X_i(k)取模值再取对数值。

其中，

和

是x₀(n)和x₁(n)两个不同语音信号第i帧的对数频谱，上标0和1是不同的信号x₀(n)和x₁(n)，d_spec(i)是两个信号的对数频谱距离，L2是只取频率为正的部分，帧长是L时，L2＝L/2+1。

步骤3

在纯净语音信号中加入噪声，得到带噪语音，其包含对应纯净语音端点检测后的标签值。

步骤4

提取带噪语音的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征。

(1)fbank特征提取过程

H(z)＝1-az^-1

其中，a是常数，z是极点，H(z)是所设置的预加重的滤波器。

X(i,k)＝FFT[x_i(m)]

其中，X(i,k)是语音信号x_i(m)进行傅里叶变换后的频域表达。

E(i,k)＝[X(i,k)]²

其中，E(i,k)是第i帧语音信号的能量谱。

其中，H_m(k)是Mel滤波器的频率响应，m是第m个Mel滤波器(共M个)，S(i,m)是第i帧语音信号的Mel滤波器能量值。

(2)MFCC特征特征提取过程

MFFC特征的提取过程和fbank一样，区别在于比MFCC特征多了一个DCT计算过程。

其中，S(i,m)是第i帧语音信号的Mel滤波器能量值，m是第m个Mel滤波器(共M个)，i是第i帧，n是DCT后的谱线。

(3)谱熵特征

其中，p_i(k)是第i帧第k个频率分量f_k对应的概率密度，N是FFT长度。

其中，H_i是第i帧语音信号的短时谱熵。

(4)倒谱距离特征

其中，w是频率，e^-jnw是复变函数，cⁱ(n)是第i帧语音信号x_i(m)的倒谱系数，并且

其中，

和

是谱密度函数X_1,i(w)和X_2,i(w)的倒谱系数，

是对数谱的均方距离。

(5)LPC特征

其中，a_k是预测器系数，p是预测器阶数，n是语音信号采样点，由于语音样点之间存在着相关性，那么当前点/未来点可以用过去的p个样本点进行预测通过使真实语音信号和预测值之间差值的平方和达到最小值，能够确定唯一一组的预测器系数。

其中e(n)是预测误差。

x_m(n)＝x(m+n)

其中，x_m(n)是m个语音信号的周期延拓。

其中，E_m是短时预测误差。

步骤5

重复执行步骤1至步骤4若干次，得到大量所述语音端点检测模型的输入特征值。

步骤6

将得到的带噪语音的20个fbank特征、20个MFCC特征、1个谱熵特征、1个倒谱距离特征、8个LPC特征，共计50个特征输入全连接层，设置初始权重为0.4～0.5，偏置为1，选择tanh激活函数，设置输出50个参数。

全连接层的计算公式：

zⁱ＝w^Txⁱ+b

其中，w^T是权重，b是偏置。

tanh激活函数：

步骤7

将得到的带噪语音的20个fbank特征、20个MFCC特征、1个谱熵特征、1个倒谱距离特征、8个LPC特征，共计50个特征输入全连接层，设置初始权重为0.4～0.5，偏置为1，选择tanh激活函数，设置输出20个参数。

步骤8

将步骤6的输出参数输入GRU层，设置初始权重为0.4～0.5，偏置为1，选择tanh激活函数，输出20个参数。

步骤9

将步骤6的输出参数输入全连接层，设置初始权重为0.4～0.5，偏置为1，选择ReLU激活函数，输出20个参数。

ReLU激活函数：

relu＝max(0,x)

步骤10

将步骤8和步骤9的输出参数输入GRU层，设置初始权重为0.4～0.5，偏置为1，选择ReLU激活函数，输出20个参数。

GRU层的计算过程：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

步骤11

将步骤7的输出参数输入全连接层，设置初始权重为0.4～0.5，偏置为1，选择tanh激活函数，输出20个参数。

步骤12

将步骤7和步骤11的输出参数输入LSTM层，设置初始权重为0.4～0.5，偏置为1，选择ReLU激活函数，输出20个参数。

LSTM层的计算过程：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

其中，x_t是t时刻输入，h_t-1是t-1时刻神经元信息，σ是Sigmoid激活函数。

Sigmoid激活函数：

其中，σ(z)输出0～1之间的数值。

i_t＝σ(W_i[h_t-1,x_t]+b_i)

其中，i_t是即将更新的值，tanh激活函数层创建一个新的候选值向量

加入到状态中。

其中，C_t是更新后的向量值，

是新的候选值。

o_t＝σ(W_o[h_t-1,x_t]+b₀)

h_t＝o_t*tanh(C_t)

其中，σ决定输出神经元的哪个部分，h_t是最终输出。

步骤13

将步骤10和步骤12的输出参数输入全连接层，设置初始权重为0.4～0.5，偏置为1，选择sigmoid激活函数，该层的输出即为对应语音帧或纯噪声帧的标签值。

步骤14

统计语音帧和纯噪声帧数目。

步骤15

对步骤13得到的标签值和真实标签值进行平方损失函数的计算，根据计算结果不断对参数进行优化。

平方损失函数：

其中，Y-f(X)是残差，n是样本数，目标是最小化这个目标函数值。

步骤16

保存优化好参数的网络模型。

在本发明的一个实施例中，提供了一种语音降噪方法，包括以下步骤：

P5、先对所述转换后的语音帧信号进行去除加窗操作之后，再进行合并操作，以得到降噪后的语音信号。

上述实施例中对单个语音帧只进行了一次降噪处理，优选地，还可以对其单个语音帧进行多次降噪，以实现更优的降噪效果。

对其单个语音帧进行多次降噪，需要在上述实施例的基础上，进行以下优化步骤：在步骤P3后还包括以下步骤：

执行一次或者循环执行多次步骤P400后，执行P4-P5。

参见图2，下面以具体实例进行说明该语音降噪方法：

步骤A

将带噪语音输入到所述语音端点检测模型中，根据所得到的纯噪声帧数目计算噪声帧能量noise，

其中，NIS是噪声帧数。

步骤B

根据步骤A得到的语音帧和纯噪声帧标签值，计算先验信噪比的初始值，

其中，N是帧数，voice是带噪语音帧的能量。

其中，snr是先验信噪比的初始值。

步骤C

计算当前语音帧的后验信噪比

步骤D

计算当前语音帧的先验信噪比

snr_x＝∝snr+(1-∝)max(snr_h-1,0)

其中，∝是平滑参数，在范围0.3-0.5内取值。

步骤E

计算维纳滤波的增益函数

步骤F

计算降噪后的语音信号

x_finished(i)＝x(i)·Hw

步骤G

根据步骤F中得到的语音信号更新当前语音帧的先验信噪比的初始值

步骤H

对带噪语音的各帧重复执行步骤D-F，利用更新后的先验信噪比，进行再次降噪。

步骤I

应用逆傅里叶变换，将降噪后的语音信号从频域转换到时域。

逆傅里叶变换公式：

其中，e^iwt是复变函数。

步骤J

先对各帧语音信号去除加窗，然后将处理后的语音信号合成输出。

去除加窗计算函数：

其中，x(i)是第i帧语音信号，w(n)的窗函数。

本发明提供的语音降噪方法，基于信号处理的降噪思想，保留算法在dsp芯片上的运算实时性优势，通过采用深度学习网络模型来提升算法中参数估计值的准确性，从而改善带噪语音的降噪效果。在数据准备阶段，对纯净语音信号运用基于对数频谱距离的端点检测计算方法，得到纯净语音帧和静音帧的标签值。加入噪声，得到对应带噪语音的语音帧和无话帧的标签值。在模型训练阶段，将准备好的带噪语音及其标签值输入到网络模型中。该网络模型运用全连接层、长短期记忆网络LSTM、GRU层对带噪语音进行特征提取和分类。经过训练，该网络结构能够对语音帧和噪声帧作出区分，进而统计出语音帧数和噪声帧数。在此基础上，计算得到先验信噪比和后验信噪比，进而在降噪计算阶段，实现语音降噪过程。

本发明提供的语音端点检测模型的训练方法及语音降噪方法针对现有方法中前导无话段长度、先验信噪比、后验信噪比、噪声能量值估计值的不准确性问题，本发明融合深度学习思想，构建循环神经网络模型，基于数据驱动，计算算法中需要的估计参数值，得到更准确的噪声统计分布规律，进而达到较为理想的降噪效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音端点检测模型的训练方法，其特征在于，所述语音端点检测模型基于神经网络模型，其用于对带噪语音进行端点检测，所述语音端点检测模型包括输入层、多个隐层以及输出层，至少有一个隐层包括GRU层和/或LSTM层；

所述训练方法包括以下步骤：

2.根据权利要求1所述的语音端点检测模型的训练方法，其特征在于，所述隐层包括第一隐层、第二隐层和第三隐层，所述第一隐层包括全连接层和tanh激活函数层，所述第二隐层包括ReLU激活函数层，第三隐层包括全连接层和sigmoid激活函数层，

和/或，

3.根据权利要求2所述的语音端点检测模型的训练方法，其特征在于，所述隐层还包括优化隐层，所述优化隐层位于所述第一隐层和第二隐层之间。

4.根据权利要求3所述的语音端点检测模型的训练方法，其特征在于，

所述优化隐层包括GRU层和tanh激活函数层，所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层；

和/或，

5.根据权利要求3或4所述的语音端点检测模型的训练方法，其特征在于，所述优化隐层包括全连接层层和tanh激活函数层，所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。

6.根据权利要求5所述的语音端点检测模型的训练方法，其特征在于，所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。

7.根据权利要求1所述的语音端点检测模型的训练方法，其特征在于，步骤S1中对纯净语音进行预处理包括以下步骤：

S101、对输入的语音信号进行升采样或者降采样；

S103、对步骤S102处理后语音信号进行分帧加窗处理；

8.一种语音降噪方法，其特征在于，包括以下步骤：

P1、将带噪语音进行信号预处理后输入权利要求1-7中任一项所述的语音端点检测模型，得到语音帧和纯噪声帧的估计标签值，从而得到纯噪声帧数目，以计算噪声帧能量；

9.根据权利要求8所述的语音降噪方法，其特征在于，在步骤P3后还包括以下步骤：

执行一次或者循环执行多次步骤P400后，执行P4-P5。

10.根据权利要求8所述的语音降噪方法，其特征在于，在步骤P5中，需要先对所述转换后的语音帧信号进行去除加窗操作之后，再进行合并操作。