CN114495958A

CN114495958A - 一种基于时间建模生成对抗网络的语音增强系统

Info

Publication number: CN114495958A
Application number: CN202210387623.3A
Authority: CN
Inventors: 董安明; 张德辉; 禹继国; 韩玉冰; 李素芳; 张丽; 邱静; 刘洋; 张滕; 刘宗银
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-05-13
Anticipated expiration: 2042-04-14
Also published as: CN114495958B

Abstract

本发明提供一种基于时间建模生成对抗网络的语音增强系统，属于语音信号处理技术领域，包括：数据获取单元，用于获取带噪语音信号，并对所述带噪语音信号进行降采样；信号增强单元，用于将所述带噪语音信号输入基于时间建模的生成对抗网络，压缩并提取语音信号的全局时域特征，将所述时域特征与随机噪声链接为一个特征向量，对所述特征向量进行解码，得到增强的语音信号。本发明解决了语音时域特征的时间依赖性和全局性考虑不足的问题，降低语音信号中的噪声影响，从而提高了增强后语音的听觉质量。

Description

一种基于时间建模生成对抗网络的语音增强系统

技术领域

本发明属于语音信号处理技术领域，具体涉及一种基于时间建模生成对抗网络的语音增强系统。

背景技术

语音增强是一种提高语音质量与可懂度的关键技术，即利用音频信号处理技术从一段含有噪声的观测信号中，消除噪声并提取纯净语音信号的技术，目前不降低语音可懂度或者不引入明显语音失真仍然是一个艰巨的挑战。

近年来，随着人工智能技术以及计算机处理能力的快速发展，深度学习成为了诸多研究领域的热点技术并且取得了很多显著的研究成果。因为维纳滤波，谱减法等传统的语音增强算法性能有限，深度学习技术被引入语音增强领域。如今，基于深度学习的有监督学习方法已经成为当今语音增强的主流方法。这类方法在实现语音增强时，一般分为两个阶段。第一阶段，运用有监督学习的训练方式，得到观测信号和纯净语音特征的映射关系。之后，第二阶段运用该映射关系进行语音增强。生成对抗网络因其在学习映射关系方面的优良性能，在语音增强领域取得了显著的成果，语音增强生成对抗网络利用生成对抗网络对语音在时域进行端到端的增强映射，均优于传统的语音增强算法，但是对于语音时域特征的时间依赖性和全局方面考虑不足。

发明内容

针对现有技术的上述不足，本发明提供一种基于时间建模生成对抗网络的语音增强系统，以解决生成对抗网络语音时域特征的时间依赖性和全局方面考虑不足问题。

第一方面，本发明提供一种基于时间建模生成对抗网络的语音增强系统，包括：

数据获取单元，用于获取带噪语音信号，并对所述带噪语音信号进行降采样；

信号增强单元，用于将所述带噪语音信号输入基于时间建模的生成对抗网络，压缩并提取语音信号的全局时域特征，将所述时域特征与随机噪声链接为一个特征向量，对所述特征向量进行解码，得到增强的语音信号；

所述生成对抗网络包括生成器，所述生成器包括编码器和解码器；

所述编码器包括第一卷积层和第一时间建模模块，所述第一卷积层用于提取语音信号局部特征，所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征；

所述解码器包括反卷积层和第二时间建模模块，反卷积层用于根据编码器提取的语音特征恢复语音信号，第二时间建模模块用于在恢复语音信号过程中进行时间建模。

进一步的，所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层；所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征；所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。

进一步的，所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层；

所述第二卷积层用于对所述时间相关性特征进行卷积操作，得到查询矩阵；

所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量，得到键矩阵和值矩阵；

所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。

进一步的，所述第一卷积层为一维的，所述第一时间建模模块嵌入在相邻两个第一卷积层中间，且与所述第一卷积层相互耦合；

所述反卷积层为一维的，且层数与所述第一卷积层相同，所述第二时间建模模块嵌入在相邻两个反卷积层中间；

所述第一卷积层与所述反卷积层之间采用残差链接连接。

进一步的，所述生成对抗网络还包括鉴别器，所述鉴别器包括：第二卷积层、第三时间建模模块、全连接层和第二softmax层，所述第二卷积层用于提取局部特征，第三时间建模模块用于提取特征的时间相关性和全局相关性，全连接层用于利用线性变换降低特征的数量，第二softmax层将特征转换为判断真假的概率，1为真，0为假。

进一步的，还包括：

训练集获取单元，用于获取带噪语音信号的训练集，并进行降采样；

网络构建获取单元，用于构建基于时间建模的生成对抗网络；

网络训练单元，用于利用训练集对构建的生成对抗网络进行训练，得到增强的语音信号；

语音鉴定单元，用于将纯净语音信号和增强的语音信号分别联合带噪语音，通过鉴别器对联合后的语音信号判定真假；

损失计算单元，用于通过反向传播对生成器和鉴别器同时进行训练，计算损失函数，通过损失函数更新所述生成对抗网络的参数。

本发明的有益效果在于，本发明提供的基于时间建模生成对抗网络的语音增强系统，针对高噪声环境中的低信噪比语音进行增强时，将带噪语音信号输入预先完成训练的生成对抗网络的生成器，通过生成器的第一卷积层和第一时间建模模块提取综合高语义特征，时间相关性特征和全局信息特征的语音时域特征，通过生成器的解码器将时域特征解码得到增强后的语音信号。本发明提供的融合时间建模的生成对抗网络能够更深层次的提取到目标语音特征，更准确的带噪语音信号与纯净语音信号之间映射关系，解决了生成对抗网络提取的语音时域特征缺少时间依赖性和全局性的问题，降低语音信号中的噪声影响，从而提高了增强后语音的听觉质量。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的系统的结构示意图。

图2为本发明一个实施例的生成对抗网络的生成器示意图。

图3为本发明一个实施例的生成器的第一时间建模模块示意图。

图4为本发明一个实施例的门控循环单元示意图。

图5为本发明一个实施例的自注意力机制示意图。

图6为本发明一个实施例的鉴别器的结构示意图。

图7为本发明一个实施例的生成对抗网络训练流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

GRU：Gated Recurrent Unit，门控循环单元，用门控机制控制输入、记忆等信息，而在当前时间做出预测。

图1示出为本申请实施例提供的一种基于时间建模生成对抗网络的语音增强系统，该系统包括：

通常语音数据集内包括纯净语音信号和带噪语音信号，语音数据集内信号的采样率通常为48kHz，以16kHz的目标采样率降低带噪语音信号的采样率。

信号增强单元，用于将所述带噪语音信号输入基于时间建模的生成对抗网络，压缩并提取语音信号的全局时域特征，将所述时域特征与随机噪声链接为一个特征向量，对所述特征向量进行解码，得到增强的语音信号。

如图2所示，将带噪语音信号输入预先完成训练的生成对抗网络提取具有高语义、时间相关性和全局性的语音时域特征，并将时域特征解码得到增强后的纯净语音信号。

所述生成对抗网络包括生成器，所述生成器包括编码器和解码器；所述编码器包括第一卷积层和第一时间建模模块，所述第一卷积层用于提取语音信号局部特征，所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征；所述解码器包括反卷积层和第二时间建模模块，反卷积层用于根据编码器提取的语音特征恢复语音信号，第二时间建模模块用于在恢复语音信号过程中进行时间建模。

向编码器的第一卷积层输入带噪语音信号，第一卷积层从带噪语音信号中提取局部特征，送入第一时间建模模块，在局部特征进一步提取出时域特征，输入解码器，反卷积层用于将语音时域特征恢复语音信号，在恢复过程中第二时间建模模块考虑时间建模。

本实施例提供的融合时间建模的生成对抗网络能够更深层次地提取到语音特征，解决了生成对抗网络对于语音时域特征的时间相关性、全局特征考虑不周全的问题，能够将提取的带噪语音特征表示恢复为更好的增强纯净语音，找到带噪语音与纯净语音之间的映射关系，从而提高了增强后语音的听觉质量，进而有效降低语音信号中的噪声影响。

可选地，作为本发明一个实施例，所述第一卷积层为一维的，所述第一时间建模模块嵌入在相邻两个第一卷积层中间，且与所述第一卷积层相互耦合；所述反卷积层为一维的，且层数与所述第一卷积层相同，所述第二时间建模模块嵌入在相邻两个反卷积层中间；所述第一卷积层与所述反卷积层之间采用残差链接连接。

本实施例中，编码器的特征提取网络结构为11个一维跨步的第一卷积层依次相连，且每两个第一卷积层中间嵌入一个第一时间建模模块。编码层输入的带噪语音信号的维度为16384×1，11个第一卷积层的输出维度分别为8192×16，4096×32,2048×32，1024×64，512×64，256×128，128×128，64×256，32×256，16×512，8×1024。每个第一卷积层采用的激活函数为参数修正线性单元PReLU(Parametric Rectified Linear Unit)，每个第一卷积层提取并压缩语音的时域特征输入到下一个第一卷积层，第一时间建模模块接收上一个第一卷积层的输出为输入，输出作为下一个第一卷积层的输入，其中，第一时间建模模块输入维度与输出维度相同。在本实施例中，第一时间建模模块可以与任意数量甚至所有的第一卷积层组合使用。

解码器结构与编码器相似，反卷积层也是11层，将编码器的输出C∈R^8×1024与随机噪声Z∈R^8×1024的链接为一个特征向量F∈R^8×2048，作为解码器的输入。11个反卷积层的输出维度分别为：16×1024，32×512，64×512，8×256，256×256，512×128，1024×128，2048×64，4096×64，8192×32，16384×1。所述解码器的多个反卷积层将输入的F∈R^8×2048进行多次反卷积，且在每次反卷积前输入都需要利用残差链接和编码器对应第一卷积层的输出进行特征融合，以防止信息的丢失，并避免梯度消失的问题，最终输出增强语音信号的时域信息。

本实施例中，所述第一卷积层的卷积核大小为k=31，卷积步长为s=2，采用的PReLU激活函数的公式为：

；其中，x_i为第i个神经元的值，a_i为参数。所述反卷积层的结构与所述第一卷积层相同，可参考前述，此处不再赘述。

可选地，作为本发明一个实施例，所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层；所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征；所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。

如图3所示，时间建模模块输入的局部特征为F∈R^L×C，该局部特征F∈R^L×C为第一卷积层卷积激活之后的输出，其中，L表示时间维度，C表示特征的通道数。GRU层接收局部特征F∈R^L×C提取特征的时间相关性特征，GRU层的输出维度也为C，所述门控循环单元GRU层的输出G∈R^L×C为。所述自注意力机制层接收GRU层的输出G∈R^L×C作为输入，提取特征的全局相关性特征，所述自注意力机制层的输出为S∈R^L×C。

GRU层内包括多个单元，t为序列时间长度，第t单元在时序建模时t，时刻的输入特征x_t和t-1时刻的单元状态特征h_t-1通过门控结构更新本单元的状态特征h_t，因此门控循环单元GRU层能够通过迭代来捕获时间序列特征的时间依赖性。

如图4所示，GRU层包括重置门r_t和更新门z_t，两个门控机制的计算过程为：

r_t=σ(W_r*[ h_t-1, x_t]+ b_t)；

z_t=σ(W_z*[ h_t-1, x_t]+ b_r)；

其中，“σ”是激活函数Sigmoid,“[]”为张量拼接操作，W_#为权重，b_#为偏置。

利用计算得到的重置门r_t和更新门z_t，同时结合输入特征x_t和单元状态特征h_t-1来更新本单元状态，单元状态更新过程为：

；

；

其中，“tanh()”为tanh激活函数，W_h为权重，b_h为偏置，

为包含时间相关性特征的记忆项。

可选地，作为本发明一个实施例，所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层；所述第二卷积层用于对所述时间相关性特征进行卷积操作，得到查询矩阵；所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量，得到键矩阵和值矩阵；所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。

在本实施例中，所述自注意力机制层包括四个1×1的第二卷积层、两个最大池化层和一个第一softmax层GRU层的输出G∈R^L×C进行1×1卷积操作得到自注意力机制的查询矩阵

，其中L为时间维度，

为降低K倍的通道数。

考虑到运行内存的减少，自注意力机制的键矩阵K和值矩阵V由GRU层的输出G∈R^L ^×C进行1×1卷积操作后送入最大池化层降低特征数量，得到自注意力机制的键矩阵

和值矩阵

,其中

为降低P倍的时间维度，

为降低K倍的通道数。本实施例P设置为4，K设置为8。

如图5所示，将查询矩阵Q和键矩阵K进行矩阵相乘，得到特征向量之间的相似度权重，然后利用softmax操作对相似度权重归一化得到注意力机制的权重矩阵A，权重矩阵A与值矩阵V相乘得到注意力矩阵AV。此外，对注意力矩阵AV应用由C个卷积核实现的1×1卷积操作，得到和原来特征形状相同的注意力矩阵O。为防止特征丢失，对注意力矩阵O加权并融合原来的特征矩阵G∈R^L×C，得到最终的自注意力机制层的输出S∈R^L×C。计算流程公式表示如下：

A=softmax(QK^T)；

O=(AV)WO；

S=β*O+G；

其中K^T为K矩阵的转置，β为一种可学习的参数。

可选地，作为本发明一个实施例，还包括：

所述生成对抗网络还包括鉴别器，所述鉴别器包括：第二卷积层、第三时间建模模块、全连接层和第二softmax层，所述第二卷积层用于提取局部特征，第三时间建模模块用于提取特征的时间相关性和全局相关性，全连接层用于利用线性变换降低特征的数量，第二softmax层将特征转换为判断真假的概率，1为真，0为假。

如图6所示，所述鉴别器的结构与生成器的编码器类似。不同的是，除了11层第三卷积层和第三时间建模模块，最后还有一层卷积核大小为1，数量为1的一维卷积层以及一个全连接层和第二softmax层来进行判别真假。第12层卷积层用于降低提取的语音特征向量大小，将尺寸为8×1024的语音特征映射到尺寸为8×1大小，全连接层将8×1的特征向量线性变化为1×1，最终第二softmax层将全连接层的输出转化为取值为0~1的概率，用于判断输入语音的真假。第三卷积层的卷积核大小为k=31，卷积步长均为s=2,每一层第三卷积层采用的LeakyReLU激活函数：

；

其中，x_i为第i个神经元的值，a_i为负斜率，设置为0.3。

可选地，作为本发明一个实施例，如图7所示，还包括：训练集获取单元，用于获取带噪语音信号的训练集，并进行降采样；网络构建获取单元，用于构建基于时间建模的生成对抗网络；网络训练单元，用于利用训练集对构建的生成对抗网络进行训练，得到增强的语音信号；语音鉴定单元，用于将纯净语音信号和增强的语音信号分别联合带噪语音，通过鉴别器对联合后的语音信号判定真假；损失计算单元，用于通过反向传播对生成器和鉴别器同时进行训练，计算损失函数，通过损失函数更新所述生成对抗网络的参数。

训练集的采样率，同样降低到16kHz；构建的生成对抗网络如前述，通过生成器的编码器中的第一卷积层、GRU层、自注意力机制层将语音的时域波形编码为具有高语义特征、时间依赖性特征、全局相关性特征的语音时域特征；将语音时域特征与随机噪声链接为一个特征向量；通过带有时间建模模块的解码器将特征向量解码，得到增强后的语音时域信息；将纯净语音信号和增强语音时域信号分别联合带噪语音信号后，输入给鉴别器，通过鉴别器判定真假。

本实施例，损失函数采用最小二乘损失函数，并用RMSProp优化器来训练网络模型。生成器损失L(G)和鉴别器损失L(D)如以下公式所示：

；

其中，Z为随机噪声，

为带噪语音信号，X为纯净语音信号，

为增强语音信号；

为增强语音信号和带噪语音信号共同送入鉴别器的输出；λ为范数系数，设置为100。

；

其中， Z为随机噪声，

为带噪语音信号，X为纯净语音信号，

为增强语音信号；

为纯净语音信号和带噪语音信号共同送入鉴别器的输出；

为增强语音信号和带噪语音信号共同送入鉴别器的输出。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于时间建模生成对抗网络的语音增强系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层；所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征；所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。

3.根据权利要求2所述的系统，其特征在于，所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层；

4.根据权利要求1所述的系统，其特征在于，所述第一卷积层为一维的，所述第一时间建模模块嵌入在相邻两个第一卷积层中间，且与所述第一卷积层相互耦合；

所述第一卷积层与所述反卷积层之间采用残差链接连接。

5.根据权利要求1所述的系统，其特征在于，所述生成对抗网络还包括鉴别器，所述鉴别器包括：第二卷积层、第三时间建模模块、全连接层和第二softmax层，所述第二卷积层用于提取局部特征，第三时间建模模块用于提取特征的时间相关性和全局相关性，全连接层用于利用线性变换降低特征的数量，第二softmax层将特征转换为判断真假的概率，1为真，0为假。

6.根据权利要求5所述的系统，其特征在于，还包括：