CN113823301A

CN113823301A - 语音增强模型的训练方法和装置及语音增强方法和装置

Info

Publication number: CN113823301A
Application number: CN202110967786.4A
Authority: CN
Inventors: 张雪; 宋广伟
Original assignee: Shanghai Wingtech Information Technology Co Ltd
Current assignee: Shanghai Wingtech Information Technology Co Ltd; Shanghai Wentai Information Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-21

Abstract

本申请涉及语音处理技术领域，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

Description

语音增强模型的训练方法和装置及语音增强方法和装置

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音增强模型的训练方法和装置及语音增强方法和装置。

背景技术

语音作为人类沟通与感知的媒介之一，不论是人与人之间的交流，还是人与机器之间的交互应用都起着不可忽视的作用。然而，实际中用户所感知的大多数语音信号通常是包含有背景噪声和干扰声源的，如在喧嚣的舞会上，用户的交流过程中接收到的声音不仅包括对方说话人的目标语音，还包含舞会现场的背景噪声以及其他说话人的干扰声源，即典型的“鸡尾酒舞会”问题，人耳凭借着其特有的听觉机制，可以清晰地判断出对方说话人的目标语音的内容。

然而，随着智能语音技术的不断发展，比如智能音箱等人机语音交互设备，需要进行语音增强后进行语音播放或者处理，语音增强通常也称为语音降噪，即从含噪语音中消除噪声信号而不使目标语音信号失真，是一项提升语音质量和可懂度的任务，在语音、音频、声学应用中起着重要的作用。

相关技术中，传统语音增强方法如谱减法、维纳滤波器法等大多数是通过对噪声进行估计或构建噪声模型来进行语音增强。在常用的谱减法中，通过将含噪信号的功率谱减去估计的噪声信号的功率谱，得到目标语音信号的功率谱，开方后得到目标语音信号的幅度谱估计，将其相位恢复后再采用逆傅里叶变换恢复出目标语音信号的时域波形。

然而，采用相关技术的方法，由于大多数是对噪声信号进行建模，因此假设背景噪声环境相对目标语音存在区域具有近似平稳性，借此来利用无语音段的噪声谱估计有语音段的噪声谱，此外，还假设了噪声信号与目标语音信号是互不相关的，且在频域上为加性关系。然而在实际应用中，背景噪声信号并不满足这两点假设，因此增强后的语音信号通常具有背景噪声的干扰。

发明内容

基于此，有必要针对上述技术问题，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。

本申请实施例提供了一种语音增强模型的训练方法，所述方法包括：

获取语音训练集；其中，所述语音训练集中包括含噪语音样本和纯净语音样本；

获取所述含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；

获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络，获取判别结果；

根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数，生成语音增强模型。

在一个实施例中，所述方法还包括：

按照预设时长和采样频率在多个场景下采集第一数量的背景噪声，构建原始背景噪声数据集；

按照所述时长和所述采样频率在所述多个场景下采集第二数量的用户语音数据，构建真实含噪语音数据集；

按照所述时长和所述采样频率在无噪声环境下采集第三数量的用户语音数据，构建纯净语音数据集；

将所述原始背景噪声数据集和所述纯净语音数据进行加性混合，获取生成含噪语音数据集；

根据所述真实含噪语音数据集、所述纯净语音数据集和所述生成含噪语音数据集，构建语音增强数据集，并按照预设比例将所述语音增强数据集划分为所述语音训练集和语音测试集。

在一个实施例中，所述获取所述含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱，包括：

对所述含噪语音样本进行预加重和归一化处理后，获取待训练含噪语音样本；

通过短时傅里叶变换公式对所述待训练含噪语音样本进行短时傅里叶变换，获取所述含噪语音样本对应的幅度谱；

将所述含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图，对所述幅度谱特征图进行预设次数的卷积处理，获取所述增强语音幅度谱。

在一个实施例中，所述获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络，获取判别结果，包括：

对所述纯净语音样本进行预加重和归一化处理后，获取待训练纯净语音样本；

通过短时傅里叶变换公式对所述待训练纯净语音样本进行短时傅里叶变换，获取所述纯净语音样本对应的幅度谱；

根据预设帧长的所述纯净语音样本对应的幅度谱、以及所述增强语音幅度谱构建二维幅度谱特征图；

对所述二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理，获取目标幅度谱特征图；

将所述目标幅度谱特征图输入分类函数，得到所述判别结果。

在一个实施例中，所述根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数，生成语音增强模型，包括：

获取所述优化目标对应的目标函数；

基于所述目标函数对所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果进行计算损失函数值；

根据损失函数值和预设阈值更新所述生成网络的网络参数和所述判别网络的网络参数，直到所述损失函数值小于所述预设阈值时，获取更新参数后的所述生成网络和所述判别网络作为所述语音增强模型。

本申请实施例提供了一种语音增强方法，所述方法包括：

接收任一场景下的语音信号；

对所述语音信号进行语音活性检测，获取待处理语音信号；

将所述待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱；

将所述待处理幅度谱输入所述语音增强模型获取估计幅度谱；

根据所述估计幅度谱和所述待处理相位谱进行短时傅里叶逆变换，获取所述增强语音信号并播放。

本申请实施例提供了一种语音增强模型的训练装置，所述装置包括：

接收信号模块，用于接收任一场景下的语音信号；

检测获取模块，用于对所述语音信号进行语音活性检测，获取待处理语音信号；

变换获取模块，用于将所述待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱；

输入获取模块，用于将所述待处理幅度谱输入所述语音增强模型获取估计幅度谱；

获取播放模块，用于根据所述估计幅度谱和所述待处理相位谱进行短时傅里叶逆变换，获取所述增强语音信号并播放。

本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意实施例所提供的一种语音增强模型的训练方法的步骤，以及本申请任意实施例所提供的一种语音增强方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意实施例所提供的一种语音增强模型的训练方法的步骤，以及本申请任意实施例所提供的一种语音增强方法的步骤。

本申请实施例所提供的语音增强模型的训练方法和装置及语音增强方法和装置，获取语音训练集，其中，语音训练集中包括含噪语音样本和纯净语音样本，获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱，获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果，根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型，从而能够提高语音增强模型的性能，进而提升语音增强的效果。

附图说明

图1为一个实施例中语音增强模型的训练、语音增强方法的应用场景图；

图2为一个实施例中语音增强模型的训练方法流程图；

图3为另一个实施例中语音增强模型的训练方法流程图；

图4为又一个实施例中语音增强模型的训练方法流程图；

图5A为一个实施例中生成网络结构示例图；

图5B为一个实施例中判别网络结构示例图；

图6为再一个实施例中语音增强模型的训练方法流程图；

图7为一个实施例中语音增强方法流程图；

图8为一个实施例中语音处理方法的示例图；

图9为一个实施例中语音增强模型的训练装置示意图；

图10为一个实施例中语音增强装置示意图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音增强模型的训练方法，可以应用于如图1所示的应用环境中。语音增强模型的训练方法应用于语音增强系统中。该语音增强系统包括终端设备101与声音采集设备102。其中，终端设备102与声音采集设备102通过网络进行通信。通过获取语音训练集，其中，语音训练集中包括含噪语音样本和纯净语音样本，获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱，获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果，根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。

本申请提供的语音增强方法，也可以应用于如图1所示的应用环境中。语音增强方法应用于语音增强系统中。该语音增强系统包括终端设备101与声音采集设备102。其中，终端设备101与声音采集设备102通过网络进行通信。通过接收任一场景下的语音信号，对语音信号进行语音活性检测，获取待处理语音信号，将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱，将待处理幅度谱输入语音增强模型获取估计幅度谱，根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。

其中，终端设备101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，声音采集设备102可以但不限于是各种话筒、麦克风、终端设备101上的麦克风阵列，声音采集设备102可以设置在终端设备101上，也可以为独立的具有声音采集功能的设备。

需要说明的是，上述描述的应用环境中语音增强模型的训练方法在终端设备执行，获取到语音增强模型存储在终端设备以使续终端设备执行语音增强方法，可以理解的是，语音增强模型的训练方法还可以在服务器执行，服务器将训练好的语音增强模型发送到终端设备以执行语音增强方法，具体根据应用场景选择设置，此处不作限制。

在一个实施例中，如图2所示，图2为一个实施例中语音增强模型的训练方法流程图，本实施例主要以该方法应用于图1中的终端设备101来举例说明。本实施例中，该方法包括以下步骤：

S201：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本。

其中，语音训练集为预先构建的待训练语音数据集，包括含噪语音样本和纯净语音样本，其中，含噪语音样本指的是包括说话人的语音以及噪声(比如环境噪声、其他人的语音等)的语音样本，纯净语音样本指的是仅仅包括说话人语音的语音样本。

具体地，终端设备101如手机通过麦克风阵列采集多个场景的用户语音数据作为含噪语音样本、同样在无噪声环境下采集用户语音数据作为纯净语音样本，进一步将含噪语音样本和纯净语音样本作为语音训练集。其中，多个场景可以根据应用需要选择设置，比如办公室、家庭、地铁、酒吧、餐厅等现实生活中的场景。

在其中一个实施例中，获取多个场景下采集的背景噪声，在无噪声环境下采集用户语音数据作为纯净语音样本，将无噪声环境下采集用户语音数据和背景噪声进行混合，获取含噪语音样本，进一步将含噪语音样本和纯净语音样本作为语音训练集。

S202：获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱。

其中，生成网络由多个卷积层构成，比如包含三个卷积层，使用的卷积操作为微步卷积，也称转置卷积。含噪语音样本对应的幅度谱可以理解为将含噪语音样本进行频域变换，得到幅度谱和相位谱。增强语音幅度谱可以理解为估计的语音幅度谱，随着生成网络不断训练调整，增强语音幅度谱逐渐与纯净语音样本对应的幅度谱相同。

具体地，终端设备101如手机获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱。

示例性的，对含噪语音样本进行傅里叶变换后，获取含噪语音样本对应的幅度谱进行一次或者多次的卷积处理，得到增强语音幅度谱。但不限于此，本公开不具体限制。

S203：获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果。

其中，生成网络由多个卷积层和池化层、全连接层和分类函数构成，比如三个卷积层和池化层、一个全连接层和一个分类函数，比如sigmoid函数。判别结果可以理解为增强语音幅度谱为纯净语音样本对应的幅度谱的一种概率，数值在大于等于0小于等于1之间。

具体地，终端设备101如手机获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果。

示例性的，对纯净语音样本进行傅里叶变换后，获取纯净语音样本对应的幅度谱，将纯净语音样本对应的幅度谱和增强语音幅度谱构成二维幅度谱特征图，对二维幅度谱特征图进行一次或者多次的卷积处理后输入全连接层通过分类函数进行判别，获取判别结果。

S204：根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。

其中，优化目标为生成网络生成的增强语音幅度谱与纯净语音样本对应的幅度谱相同，判别网络判别增强语音幅度谱与纯净语音样本对应的幅度谱是否相同的判别结果为真，具体地，可以通过设置损失函数来实现，损失函数值满足对应的阈值则确定为满足优化目标。

具体的，终端设备101如手机根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型，并保存该语音增强模型，以接收任一场景下的语音信号，通过语音增强模型进行处理，获取增强语音信号并播放。

示例性的，通过生成网络的目标函数对增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果进行计算得到损失函数值，根据损失函数值和预设阈值更新生成网络和判别网络的网络参数，获取更新参数后的生成网络作为语音增强模型。

综上，本实施例通过获取语音训练集，其中，语音训练集中包括含噪语音样本和纯净语音样本，获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱，获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果，根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型，从而能够提高语音增强模型的性能，进而提升语音增强的效果。

图3为另一个实施例中语音增强模型的训练方法流程图，图3是在图2所示实施例的基础上，进一步地，在S201之前还包括：

S2011：按照预设时长和采样频率在多个场景下采集第一数量的背景噪声，构建原始背景噪声数据集。

预设时长指的是采集用户语音数据的时间，采样频率也称为采样速度或者采样率，定义了单位时间内从连续信号中提取并组成离散信号的采样个数，可以用赫兹(Hz)来表示，其中，预设时长、采样频率和第一数量具体可以根据需要设置，对此不作限制。示例性的，预设时长例如可以是2秒，采样频率例如可以是40000Hz，第一数量例如可以是200个，但不限于此。

具体地，终端设备101如手机响应于声音采集指令，按照预设时长和采样频率在不同的场景下采集一定数量的背景噪声，构建原始背景噪声数据集。

示例性的，在办公室、家庭、地铁、酒吧、餐厅5个场景下采集背景噪声各200个，预设时长为2s，采样频率为44100Hz，构建原始背景噪声数据集，共10000个。

S2012：按照时长和采样频率在多个场景下采集第二数量的用户语音数据，构建真实含噪语音数据集。

其中，时长、采样频率和场景与步骤2011中设置的数据保持一致，用户语音数据指的是用户正常说话语音。

具体地，终端设备101例如手机响应于声音采集指令，按照时长和采样频率在多个场景下采集第二数量的用户语音数据，构建真实含噪语音数据集，其中，第二数量具体可以根据需要设置，对此不作限制。示例性的，第二数量例如可以是400个，但不限于此。例如在办公室、家庭、地铁、酒吧、餐厅5个场景下，每个场景下分别获取男女声正常说话语音各200个，构建原始语音数据集，共2000个。

S2013：按照时长和采样频率在无噪声环境下采集第三数量的用户语音数据，构建纯净语音数据集。

具体地，终端设备101如手机响应于声音采集指令，按照时长和采样频率在无噪声环境下采集第三数量的用户语音数据，构建纯净语音数据集，其中，第三数量具体可以根据需要设置，对此不作限制。示例性的，第三数量例如可以是400个，但不限于此。例如在无噪声环境下，分别获取男女声正常说话语音各200个，构建纯净语音数据集，共400个。

S2014：将原始背景噪声数据集和纯净语音数据进行加性混合，获取生成含噪语音数据集。

其中，生成含噪语音数据集指的是人工合成的包括说话人的语音以及噪声(比如环境噪声、其他人的语音等)的语音。

具体地，终端设备101如手机通过语音混合公式对原始背景噪声数据集和纯净语音数据进行加性混合，获取生成含噪语音数据集。

示例性的，通过公式(1)分别将前述440个纯净语音数据集与10000个原始背景噪声数据集进行加性混合，得到生成含噪语音数据集，共40000个，其中，公式(1)表示如下：

其中，x(t)为生成含噪语音信号，s(t)为纯净语音信号，e(t)为原始背景噪声信号，i为第i个纯净语音信号，h(t)为含噪语音信号与传声器之间的传递函数，t为时间，T为生成含噪语音信号时间长度。

其中，还可以对公式(1)进行简化处理，将信道传递函数为增益为单位常数，得到公式(2)表示如下：

对公式(2)的生成含噪语音信号进行语音增强可以通过公式(3)进行计算，公式(3)表示如下：

其中，F为语音增强逆函数，

为第i个目标语音信号的估计。

S2015：根据真实含噪语音数据集、纯净语音数据集和生成含噪语音数据集，构建语音增强数据集，并按照预设比例将语音增强数据集划分为语音训练集和语音测试集。

其中，语音增强数据集包括真实含噪语音数据集、纯净语音数据集和生成含噪语音数据集，为了进一步保证训练获取的语音增强模型的性能，可以按照预设比例将语音增强数据集划分为语音训练集和语音测试集。其中，语音训练集和语音测试集都包括含噪语音样本和纯净语音样本，语音训练集用于模型训练，语音测试集用于模型测试。

其中，预设比例具体可以根据需要设置，对此不作限制。示例性的，预设比例例如可以是4比1，但不限于此。例如语音增强数据集为20000个数据，并按照4比1的比例将语音增强数据集划分为语音训练集16000个，语音测试集4000个。

这样，本实施例通过对从实际环境中采集的背景噪声和构造的含噪语音信号进行建模，并利用真实语音信号作为判别网络的判别依据，由于没有假设噪声为平稳性噪声，且对背景噪声和真实语音信号同时建模，提高语音增强模型的性能，进而提升语音增强的效果。

图4为又一个实施例中语音增强模型的训练方法流程图，图4是在图2所示实施例的基础上，进一步地，对S202与S203的一种可能的实现方式的描述，

S202a：对含噪语音样本进行预加重和归一化处理后，获取待训练含噪语音样本，通过短时傅里叶变换公式对待训练含噪语音样本进行短时傅里叶变换，获取含噪语音样本对应的幅度谱，将含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图，对幅度谱特征图进行预设次数的卷积处理，获取增强语音幅度谱。

具体的，对含噪语音样本进行预加重的目的是增加含噪语音样本的高频分辨率，比如通过一阶高通滤波器对含噪语音样本进行预加重处理。对含噪语音样本进行归一化的目的是方便后续对含噪语音样本的数据处理，比如将含噪语音信号除以含噪语音信号绝对值的最大值，获取归一化后的含噪语音信号。

具体地，通过短时傅里叶变换公式对待训练含噪语音样本进行短时傅里叶变换，获取含噪语音样本对应的幅度谱，比如将公式(2)获取的含噪语音样本进行短时傅里叶变换，获取含噪语音样本对应的幅度谱如公式(4)所示：

其中，x(t，f)为生成含噪语音信号，s(t，f)为纯净语音信号的幅度谱，e(t，f)为原始背景噪声信号，i为第i个纯净语音信号，f为时间，F为语音信号频域宽度。

具体地，将含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图，对幅度谱特征图进行预设次数的卷积处理，获取增强语音幅度谱，其中，预设帧长和预设次数具体可以根据需要设置，对此不作限制。示例性的，预设次数例如可以是3次，预设帧长例如可以是64，但不限于此。

示例性，如图5A所示，将含噪语音样本的幅度谱分割为预设帧长为128点的幅度谱特征图，以批量大小为32的批量训练的方式输入到生成网络过程，生成网络过程包含三个卷积层，使用的卷积操作为微步卷积，也称转置卷积。

基于以上的三次卷积操作，每次卷积操作后卷积核个数会增加，大小会随层数减小，从而获取幅度谱特征图中的细节信息，如图5所示，每层采样数×特征图为：128×1，10×3×32，36×5×32，115×7×32和128×11×1。由此得到增强语音幅度谱，并将增强语音幅度谱与对应种类的纯净语音样本作为判别网络的输入。

S203a：对纯净语音样本进行预加重和归一化处理后，获取待训练纯净语音样本，通过短时傅里叶变换公式对待训练纯净语音样本进行短时傅里叶变换，获取纯净语音样本对应的幅度谱，根据预设帧长的纯净语音样本对应的幅度谱、以及增强语音幅度谱构建二维幅度谱特征图，对二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理，获取目标幅度谱特征图，将目标幅度谱特征图输入分类函数，得到判别结果。

对纯净语音样本进行预加重的目的是增加纯净语音样本的高频分辨率，比如通过一阶高通滤波器对纯净语音样本进行预加重处理。对纯净语音样本进行归一化的目的是方便后续对纯净语音样本的数据处理，比如将纯净语音信号除以纯净语音信号绝对值的最大值，获取归一化后的纯净语音信号。

具体地，通过短时傅里叶变换公式对待训练纯净语音样本进行短时傅里叶变换，获取纯净语音样本对应的幅度谱，比如将公式(2)获取的纯净语音样本进行短时傅里叶变换，获取的纯净语音样本对应的幅度谱，如公式(4)所示。

具体地，根据预设帧长的纯净语音样本对应的幅度谱、以及增强语音幅度谱构建二维幅度谱特征图，对二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理，获取目标幅度谱特征图，将目标幅度谱特征图输入分类函数，得到判别结果，其中，预设帧长和预设次数具体可以根据需要设置，对此不作限制。示例性的，预设次数例如可以是3次，预设帧长例如可以是64，但不限于此。

示例性，如图5B所示，将11帧纯净语音样本对应的幅度谱与生成网络过程分离的增强语音幅度谱构成二维幅度谱特征图，比如图6所示：第一层卷积层是5×15的卷积核，共有32个卷积核，经过第一层卷积后，输出的是32个7×155的特征图，卷积之后便是池化层，池化层的大小为1×3，经过第一次池化后，输出仍为32张特征图，只是每张特征图的大小变为了7×38，这相当于进行了特征的二次提取过程；然后进行第二次卷积，卷积核仍旧是32个，每个卷积核的大小为3×3，卷积后输出为32个5×36的特征图，之后进行第二次池化操作，池化层的权重矩阵仍旧是1×3，进行池化后输出的特征图变成了5×12。

接下来是第三层卷积，与前面相同，卷积核为32个，每个卷积核大小为3×3，经过卷积之后输出32个大小是3×10的特征图；接下来进入全连接层，需要注意的是在进行全连接层之前，会将所有特征图上的声信号数据展开成为完整的一维语音信号数据，即32×3×10个特征分量展开为一个960大小的列向量，类似于普通神经网络的输入向量，全连接层只有一层，有1024个神经元节点，全连接运算结束后，最后输出为128维目标幅度谱特征图，恰好是分离出来的增强语音幅度谱的特征维数，最后将目标幅度谱特征图输入分类函数，得到判别结果。

综上，本实施例中的预加重可以一定程度上弥补语音信号在高频部分的损耗，保护声道信息，以及归一化可以保证与应用端的数据幅度保持一致，从而避免因为量纲不同导致的误差，利用真实语音信号作为判别网络的判别依据，由于没有假设噪声为平稳性噪声，且对背景噪声和真实语音信号同时建模，提高语音增强模型的性能，进而提升语音增强的效果。

图6为再一个实施例中语音增强模型的训练方法流程图，图6是在图4所示实施例的基础上，进一步地，对S204的一种可能的实现方式的描述，如图6所示：

S204a：获取优化目标对应的目标函数，基于目标函数对增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果进行计算损失函数值，根据损失函数值和预设阈值更新生成网络的网络参数和判别网络的网络参数，直到损失函数值小于预设阈值时，获取更新参数后的生成网络和判别网络作为语音增强模型。

具体的，优化目标为生成网络生成的增强语音幅度谱与纯净语音样本对应的幅度谱相同，判别网络判别增强语音幅度谱与纯净语音样本对应的幅度谱是否相同的判别结果为真，示例性，优化目标如公式(5)所示：

其中，G为生成网络，D为判别网络，s(t，f)为纯净语音信号的幅度谱，p(s(t，f))为纯净语音信号的真实分布，q(s(t，f))为增强语音信号满足的分布，

为期望运算，D(s(t，f))为判别网络的输出。

具体地，判别网络的优化目标是使得(5)式的值更大，从而能够正确区分生成网络增强语音信号和真实语音信号。生成网络的优化目标是使得(5)式的值更小，即让判别网络有更大概率地将增强语音信号判别为真实语音信号。

因此，基于优化目标，通过公式(5)计算损失函数值和预设阈值的比较不断更新生成网络的网络参数和判别网络的网络参数，直到损失函数值小于预设阈值时，表示网络收敛，获取更新参数后的生成网络作为语音增强模型。

综上，本实施例基于优化目标设计的损失函数，对整个网络进行约束，最终得到语音增强模型，能够提高语音增强模型的性能，进而提升语音增强的效果。

图7为一个实施例中语音增强方法流程图，如图7所示：

S301：接收任一场景下的语音信号。

其中，任一场景可以包括但不限于办公室、家庭、地铁、酒吧、餐厅等现实生活中的场景，用以满足用户使用的生活环境。

具体地，终端设备101例如手机响应语音采集指令，接收任一场景下的语音信号。

S302：对语音信号进行语音活性检测，获取待处理语音信号。

具体地，为了进一步提高语音处理的准确性，对接收到语音信号进行语音活性检测，获取待处理语音信号，其中，语音活性检测是一项用于语音处理的技术，目的是检测语音信号是否存在，具体地，首先对接收到语音信号进行降噪，然后降噪后的语音信号提取特征，最后使用一个分类器对特征进行分类，确定是或不是语音信号。其中，分类过程是将计算的值与一个阈值进行比较。

S303：将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱。

S304：将待处理幅度谱输入语音增强模型获取估计幅度谱。

S305：根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。

具体地，与前述训练方式一样，将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱，将待处理幅度谱输入语音增强模型，语音增强模型的生成网络进行处理，获取估计幅度谱，判别网络基于训练记忆的纯净语音的幅度谱与估计幅度谱进行判别，得到结果为真时，输出估计幅度谱，根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。

其中，预处理包括预加重和归一化处理，预加重可以一定程度上弥补语音信号在高频部分的损耗，保护声道信息，以及归一化处理是为了保证与训练时的数据幅度保持一致，从而避免因为量纲不同导致的误差。

综上，本实施例通过接收任一场景下的语音信号，对语音信号进行语音活性检测，获取待处理语音信号，将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱，将待处理幅度谱输入语音增强模型获取估计幅度谱，根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。由此，提高增强语音信号的质量。

基于上述实施例描述，作为一种场景举例，如图8所示，训练场景中，含噪语音信号经过短时傅里叶变换，得到含噪语音信号幅度谱和含噪语音信号相位谱，将含噪语音信号幅度谱输入生成网络，得到增强语音幅度谱，将增强语音幅度谱输入判别网络，同时获取纯净语音信号，经过短时傅里叶变换，得到纯净语音信号幅度谱和纯净语音相位谱，将纯净语音信号幅度谱输入判别网络，判别网络根据增强语音幅度谱和纯净语音信号幅度谱生成判别结果反馈给生成网络，可以不断调整网络参数直到网络收敛，比如判别网络判断结果为否，则将增强语音幅度谱再次输入到生成网络，反复迭代，直至判别网络判别增强语音幅度谱为纯净语音信号幅度谱；在应用场景中，上述判别结果为真时，将增强语音幅度谱和含噪语音信号相位谱进行短时傅里叶逆变换，获取增强语音信号。由此，能够提高语音增强模型的性能，进而提升语音增强的效果。

应该理解的是，虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种语音增强模型的训练装置，包括：获取训练集模块110、获取幅度谱模块120、获取判别结果模块130、生成模型模块140。

其中，获取训练集模块110，用于获取语音训练集；其中，所述语音训练集中包括含噪语音样本和纯净语音样本。

获取幅度谱模块120，用于获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱。

获取判别结果模块130，用于获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果。

生成模型模块140，用于根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。

在本申请实施例一实施方式中，还包括：采集构建模块，用于按照预设时长和采样频率在多个场景下采集第一数量的背景噪声，构建原始背景噪声数据集；按照时长和采样频率在多个场景下采集第二数量的用户语音数据，构建真实含噪语音数据集；按照时长和采样频率在无噪声环境下采集第三数量的用户语音数据，构建纯净语音数据集；将原始背景噪声数据集和纯净语音数据进行加性混合，获取生成含噪语音数据集；根据真实含噪语音数据集、纯净语音数据集和生成含噪语音数据集，构建语音增强数据集，并按照预设比例将语音增强数据集划分为语音训练集和语音测试集。

在本申请实施例一实施方式中，获取幅度谱模块120，具体用于对含噪语音样本进行预加重和归一化处理后，获取待训练含噪语音样本；通过短时傅里叶变换公式对待训练含噪语音样本进行短时傅里叶变换，获取含噪语音样本对应的幅度谱；将含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图，对幅度谱特征图进行预设次数的卷积处理，获取增强语音幅度谱。

在本申请实施例一实施方式中，获取判别结果模块130，具体用于对纯净语音样本进行预加重和归一化处理后，获取待训练纯净语音样本；通过短时傅里叶变换公式对待训练纯净语音样本进行短时傅里叶变换，获取纯净语音样本对应的幅度谱；根据预设帧长的纯净语音样本对应的幅度谱、以及增强语音幅度谱构建二维幅度谱特征图；对二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理，获取目标幅度谱特征图；将目标幅度谱特征图输入分类函数，得到判别结果。

在本申请实施例一实施方式中，生成模型模块140具体用于获取优化目标对应的目标函数；基于目标函数对增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果进行计算损失函数值；根据损失函数值和预设阈值更新生成网络的网络参数和判别网络的网络参数，直到损失函数值小于所述预设阈值时，获取更新参数后的生成网络和所述判别网络作为语音增强模型。

在上述实施例中，获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

在一个实施例中，如图10所示，提供了一种语音增强装置，包括：接收信号模块210、检测获取模块220、变换获取模块230、输入获取模块240和获取播放模块250。

其中，接收信号模块210，用于接收任一场景下的语音信号。

检测获取模块220，用于对所述语音信号进行语音活性检测，获取待处理语音信号。

变换获取模块230，用于将所述待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱。

输入获取模块240，用于将所述待处理幅度谱输入所述语音增强模型获取估计幅度谱。

获取播放模块250，用于根据所述估计幅度谱和所述待处理相位谱进行短时傅里叶逆变换，获取所述增强语音信号并播放。

在上述实施例中，通过接收任一场景下的语音信号，对语音信号进行语音活性检测，获取待处理语音信号，将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱，将待处理幅度谱输入语音增强模型获取估计幅度谱，根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。由此，提高增强语音信号的质量。

关于语音增强模型的训练装置和语音增强装置的具体限定可以参见上文中对于语音增强模型的训练方法和语音增强方法的限定，在此不再赘述。上述语音增强模型的训练装置和语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WiFi、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种语音增强模型的训练、语音增强方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音增强模型的训练、语音增强装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音增强模型的训练、语音增强装置的各个程序模块，比如，图9所示的获取训练集模块110、获取幅度谱模块120、获取判别结果模块130、生成模型模块140或图10所示的接收信号模块210、检测获取模块220、变换获取模块230、输入获取模块240和获取播放模块250，各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音增强模型的训练、语音增强方法中的步骤。

例如，图11所示的计算机设备可以通过如图9所示的语音增强模型的训练装置中的获取训练集模块110执行S201、获取幅度谱模块120执行S202、获取判别结果模块130执行S203、生成模型模块140执行S204，再比如语音增强装置中的接收信号模块210执行S301、检测获取模块220执行S302、变换获取模块230执行S303、输入获取模块240执行S304、获取播放模块250执行S305。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照预设时长和采样频率在多个场景下采集第一数量的背景噪声，构建原始背景噪声数据集；按照时长和采样频率在多个场景下采集第二数量的用户语音数据，构建真实含噪语音数据集；按照时长和采样频率在无噪声环境下采集第三数量的用户语音数据，构建纯净语音数据集；将原始背景噪声数据集和纯净语音数据进行加性混合，获取生成含噪语音数据集；根据真实含噪语音数据集、纯净语音数据集和生成含噪语音数据集，构建语音增强数据集，并按照预设比例将语音增强数据集划分为语音训练集和语音测试集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对含噪语音样本进行预加重和归一化处理后，获取待训练含噪语音样本；通过短时傅里叶变换公式对待训练含噪语音样本进行短时傅里叶变换，获取含噪语音样本对应的幅度谱；将含噪语音样本对应的幅度谱分割为预设帧长的幅度谱特征图，对幅度谱特征图进行预设次数的卷积处理，获取增强语音幅度谱。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对纯净语音样本进行预加重和归一化处理后，获取待训练纯净语音样本；通过短时傅里叶变换公式对待训练纯净语音样本进行短时傅里叶变换，获取纯净语音样本对应的幅度谱；根据预设帧长的纯净语音样本对应的幅度谱、以及增强语音幅度谱构建二维幅度谱特征图；对二维幅度谱特征图进行预设次数反卷积处理后进入全连接处理，获取目标幅度谱特征图；将目标幅度谱特征图输入分类函数，得到判别结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取优化目标对应的目标函数；基于目标函数对增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果进行计算损失函数值；根据损失函数值和预设阈值更新生成网络的网络参数和判别网络的网络参数，直到损失函数值小于所述预设阈值时，获取更新参数后的生成网络和所述判别网络作为语音增强模型。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收任一场景下的语音信号，对语音信号进行语音活性检测，获取待处理语音信号，将待处理语音信号预处理后进行短时傅里叶变换，获取待处理幅度谱和待处理相位谱，将待处理幅度谱输入语音增强模型获取估计幅度谱，根据估计幅度谱和待处理相位谱进行短时傅里叶逆变换，获取增强语音信号并播放。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，比如静态随机存取存储器(Static Random Access Memory，SRAM)和动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音增强模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络，获取判别结果，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数，生成语音增强模型，包括：

获取所述优化目标对应的目标函数；

根据所述损失函数值和预设阈值更新所述生成网络的网络参数和所述判别网络的网络参数，直到所述损失函数值小于所述预设阈值时，获取更新参数后的所述生成网络和所述判别网络作为所述语音增强模型。

6.一种语音增强方法，其特征在于，所述方法包括：

接收任一场景下的语音信号；

对所述语音信号进行语音活性检测，获取待处理语音信号；

7.一种语音增强模型的训练装置，其特征在于，所述装置包括：

获取训练集模块，用于获取语音训练集；其中，所述语音训练集中包括含噪语音样本和纯净语音样本；

获取幅度谱模块，用于获取所述含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；

获取判别结果模块，用于获取所述纯净语音样本对应的幅度谱和所述增强语音幅度谱输入判别网络，获取判别结果；

生成模型模块，用于根据所述增强语音幅度谱、所述纯净语音样本对应的幅度谱、所述判别结果与优化目标调整所述生成网络和所述判别网络的网络参数，生成语音增强模型。

8.一种语音增强装置，其特征在于，所述装置包括：

接收信号模块，用于接收任一场景下的语音信号；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述语音增强模型的训练方法的步骤，以及6或7所述的语音增强方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述语音增强模型的训练方法的步骤，以及6或7所述的语音增强方法的步骤。