CN113393852A

CN113393852A - 语音增强模型的构建方法及系统、语音增强方法及系统

Info

Publication number: CN113393852A
Application number: CN202110949898.7A
Authority: CN
Inventors: 高旭博
Original assignee: Hangzhou Xiongmai Integrated Circuit Technology Co Ltd
Current assignee: Zhejiang Xinmai Microelectronics Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14
Anticipated expiration: 2041-08-18
Also published as: CN113393852B

Abstract

本发明公开一种语音增强模型的构建方法及系统，还公开一种利用所构建的语音增强模型实现的语音增强方法及系统，其中构建方法包括基于相对应的纯净语音和带噪语音迭代训练语音增强网络的迭代训练步骤，具体为：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。本申请基于所述语音清晰度对模型参数进行更新，使训练所得的模型降噪结果更清晰可懂。

Description

语音增强模型的构建方法及系统、语音增强方法及系统

技术领域

本发明涉及声学技术领域，尤其涉及一种基于人类感知的语音增强技术。

背景技术

随着深度学习技术的快速发展，神经网络模型广泛应用于语音降噪场景，如语音增强生成对抗网络SEGAN以及著名的音频处理网络wavenet；

但现有基于神经网络的降噪算法对复杂场景下的带噪语音进行降噪时，所得去噪语音的语音可懂度和清晰度较差，尤其在非稳定噪声的情况下，易出现严重的消声现象和非稳定噪声残留，严重影响去噪语音的质量。

发明内容

本发明针对现有基于神经网络的降噪算法降噪所得的去噪语音清晰度和可懂度差的缺点，提出一种语音增强模型的构建技术，还提出一种基于所构建的语音增强模型实现的语音增强技术。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种语音增强模型的构建方法，基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音，迭代训练包括以下步骤：

将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；

计算相对应的纯净语音和估计语音之间的幅度平方相干度；

计算所述估计语音的能量谱密度数据；

获取预设的听觉滤波器，例如可采用现有已公开的ro-ex filter听觉滤波器。

基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；

基于所述语音清晰度更新所述语音增强网络。

本申请基于纯净语音与估计语音之间的幅度平方一致性MSC，同时结合人类听觉滤波器和估计语音的能量谱密度，最终得出估计语音的语音清晰度，以指示估计语音的失真程度；

本申请基于所述语音清晰度对模型参数进行更新，使训练所得的模型降噪结果具有较高的清晰度和可懂度，更能符合人类的听觉感知。

作为一种可实施方式：

所述估计语音包括若干估计语音帧；

所述听觉滤波器设有若干个临界频带；

基于所述幅度平方相干度、所述听觉滤波器和能量谱密度数据计算估计语音帧在各临界频带上的信噪比失真率；

基于所述信噪比失真率计算各估计语音帧的语音清晰度，获得相应的帧清晰度；

基于各帧清晰度生成对应估计语音的语音清晰度。

作为一种可实施方式，所述信噪比失真率的计算公式为：

其中，SDR表示M个估计语音帧分别在j个临界频带上的信噪比失真率，M表示估计语音帧的总帧数，W_j表示听觉滤波器，

表示幅度平方相干度，S_yy（k）表示估计语音所对应的能量谱密度数据，K表示频点的总个数，即，512，k表示频点下标。

作为一种可实施方式：

所述纯净语音包括若干纯净语音帧；

基于声音分贝值对纯净语音帧进行分组，获得若干个纯净语音帧集，并构建与所述纯净语音帧集相对应的估计语音帧集；

基于估计语音帧集中各估计语音帧的帧清晰度，计算所述估计语音帧集所对应的语音清晰度，获得相应的段清晰度；

对各段清晰度进行加权计算，获得对应估计语音的语音清晰度。

不同信号段所对应的发音内容和性质各不相同，例如元音段的语音能量较大，幅值较高，辅音段及无声段的语音能量相对较少，振幅较低，但辅音段和无声段往往对降噪所得音频的质量影响更大。

故本申请提出一种声音分贝值对纯净语音帧进行分组，基于分组结果对估计语音帧进行分组，利用段清晰度指示对应各估计语音帧集所对应的语音清晰度，在根据各估计语音帧集所对应的贡献大小对段清晰度进行加权求和，从而使所得估计语音的语音清晰度更贴合实际人类感知，进一步提升训练所得的语音增强模型的增强效果。

进一步地：

计算各纯净语音帧的短时平均幅度，获得相应的帧幅度数据；

基于所述帧幅度数据，计算各纯净语音帧集所对应的整体短时平均幅度，获得段幅度数据；

基于所述段幅度数据计算各纯净语音帧集所对应的清晰度权重，基于所述段清晰度和所述清晰度权重进行加权计算，获得相应估计语音的语音清晰度。

本领域技术人员可根据实际需要自行设定各段清晰度所对应的权重，但此方案由于权重为固定值，无法准确表征各估计语音帧集对估计语音的语音清晰度的贡献，故本申请使用平均幅度来映射元音，辅音和静音段做出的贡献大小，以计算各估计语音帧集对应的权重系数，从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度。

作为一种可实施方式：

基于声音分贝值对纯净语音帧进行分组，获得第一纯净语音帧集、第二纯净语音帧集和第三纯净语音帧集；

所述第一纯净语音帧集包括声音分贝值大于0db的纯净语音帧，与元音段相对应；

所述第二纯净语音帧集包括声音分贝值小于等于0db，且大于等于-10db的纯净语音帧，其对应元音段与辅音段和无声段之间的过渡；

所述第三纯净语音帧集中包括声音分贝值小于-10db的纯净语音帧，与辅音段和无声段相对应。

进一步地：

语音增强网络采用全卷积神经网络，本申请采用端到端的网络框架，网络训练过程中收敛较快，运算复杂度较低，且训练所得的语音增强模型较小（6.6MB）。

本发明还提出一种语音增强模型的构建系统，包括训练装置，所述训练装置用于基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音；

所述训练装置包括：

估计模块，用于将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；

第一计算模块，用于计算相对应的纯净语音和估计语音之间的幅度平方相干度；

第二计算模块，用于计算所述估计语音的能量谱密度数据；

第三计算模块，用于获取预设的听觉滤波器；还用于基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；

更新单元，用于基于所述语音清晰度更新所述语音增强网络。

本发明还提出一种语音增强方法，包括以下步骤：

获取待处理语音；将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音，所述语音增强模型为上述任意一种构建方法构建获得语音增强模型。

本发明还提出一种语音增强系统，包括：

获取模块，用于获取待处理语音；

增强模块，用于将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音，所述语音增强模型为上述任意一种构建方法构建获得语音增强模型。

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明结合幅度平方一致性、听觉滤波器和估计语音的能量谱密度，计算能够指示估计语音的失真程度的语音清晰度，并基于所得语音清晰度对模型参数进行更新，使训练所得的模型降噪结果具有较高的清晰度和可懂度，更能符合人类的听觉感知。

本发明基于声音分贝值对纯净语音帧进行分组，并基于分组结果对估计语音帧进行分组，获得若干个估计语音帧集；计算各估计语音帧集对应的段清晰度，并基于各估计语音帧集对语音清晰度的贡献对段清晰度进行加权计算，使得计算所得的语音清晰度更加准确，从而提升训练所得的语音增强模型的增强效果。

本发明使用平均幅度来映射计算各估计语音帧集贡献的大小，以计算各估计语音帧集对应的权重系数，从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种语音增强模型的构建方法中迭代训练的流程示意图；

图2是基于幅度平方相干度、能量谱密度数据和听觉滤波器计算语音清晰度的流程示意图；

图3是基于帧清晰度计算语音清晰度的流程示意图；

图4是基于段清晰度加权计算语音清晰度的流程示意图；

图5是本发明一种语音增强模型的构建系统中训练装置的模块连接示意图；

图6是图5中第三计算单元400的一种模块连接示意图；

图7是图5中第三计算单元400的另一种模块连接示意图；

图8是图7中条清晰度计算单元430的模块连接示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种语音增强模型的构建方法，包括以下步骤：

S100、获取训练样本对，训练样本对包括相对应的纯净语音和带噪语音；

本实施例中纯净语音、带噪语音和估计语音均指对应音频的时域采样点数据。

所述带噪语音包括真实待噪语音和合成待噪语音；

S110、构建合成待噪语音：

获取纯净语音，基于语音信噪比计算公式手动调节噪声能量以获得不同信噪比的合成带噪语音，语音信噪比计算公式如下：

其中，t为时域下标，

为纯净语音能量，

为噪声能量，合成带噪语音为y(t)，y(t) = s(t)+ n(t)。

S120、构建真实待噪语音：

将高保真纯净语音音频存放到播放设备，之后在各种真实场景中播放，同时使用其它设备进行录取，获得相应的真实带噪语音；

注：在低于20分贝的室内封闭环境内进行录制，将所得语音作为真实带噪语音相对应的纯净语音。

S200、构建语音增强网络；

所述语音增强网络例如可采用全卷积神经网络，本实施例中语音增强网络全部使用一维卷积来模拟时序信号的回归运算，总包含10层卷积操作，一维卷积核尺寸均设置为25，除最后一层网络外，每一层卷积运算之后都会进行BatchNormalization和激活操作，激活函数均用PRelu，对于最后一层网络，卷积运算后仅进行Tanh函数激活。

网络配置具体如下表所示：

表1

上表中，k表示一维卷积核尺寸，n表示卷积核个数，BN表示BatchNormalization操作，Audio_Samples是输入音频的时域采样点数据，即原始波形，Len()表示音频采样点的个数，conv10为网络的最终输出，维度为Len(Audio_Samples)；

由表1可知，本实施例所构建的语音增强模型的输入为带噪语音，输出为去噪之后的音频时域采样点数据，即估计语音。

注，本领域技术人员可根据实际需要自行设定迭代终止条件，如迭代训练的次数达到预设的迭代终止次数时，或损失收敛时完成训练，此为现有技术，本说明书中不对其进行详细介绍。

S300、基于训练样本对迭代训练语音增强网络，获得语音增强模型；

本实施例中使用Rprop优化算法，初始的学习率设置为0.001，batch_size设为8或16；

注：受cpu性能的限制，本实施例中纯净语音和带噪语音的长度不超过10s，且纯净语音和带噪语音的长度一致，本领域技术人员可根据实际需要自行设置音频采样率，例如8Khz或16Khz。

参照图1，迭代训练包括以下步骤：

S310、将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；

S320、计算相对应的纯净语音和估计语音之间的幅度平方相干度；

具体步骤如下：

S321、预先对纯净语音和估计语音进行分帧加窗及DFT计算（离散傅里叶计算）；

对纯净信号进行信号加窗后分帧，获得若干纯净语音帧，本实施例中窗函数采用汉明窗，并设置单位帧长为25ms，帧移10ms，本领域技术人员可根据实际情况自行设置；

分别对各纯净语音帧进行DFT计算，获得相应的纯净频谱数据；

将估计信号代替上述纯净信号进行预处理，获得与纯净语音帧一一对应的估计语音帧，还获得各估计语音帧相对应的估计频谱数据；

S321、计算幅度平方相干度MSC，计算公式如下：

其中，

表示幅度平方相干度，M为估计语音帧或纯净语音帧的总帧数，m指示帧下标，X表示纯净频谱数据，X_m表示帧下标为m的纯净语音帧所对应的频谱数据，Y表示估计频谱数据，Y_m表示帧下标为m的估计语音帧所对应的频谱数据，“*”表示复数的共轭操作；

注：

为矩阵，其维度为512，与频点相对应。

S330、计算所述估计语音的能量谱密度数据；

对所述估计语音进行傅里叶变换，并对所得计算结果求取平方，获得能量谱密度数据；

注：能量谱密度数据为矩阵，维度为（M，K），M为总帧数，K为频点总数。

S340、获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；

听觉滤波器采用ro-ex filter，本实施例中选取16个临界频带，临界频带的权重为FW，临界频带的划分及对应权重的选取可参照《ANSI S3.5-1997 清晰度指数的计算方法标准》，本说明书不对其进行详细介绍。

注，听觉滤波器为矩阵，维度为（J，K），其中J为临界频带的数量，即16。

参照图2，计算语音清晰度的具体步骤如下：

S341、基于所述幅度平方相干度、所述听觉滤波器和能量谱密度数据计算估计语音帧在各临界频带上的信噪比失真率；

计算公式为：

表示幅度平方相干度，S_yy（k）表示估计语音所对应的能量谱密度数据，K表示频点的总个数，k表示频点下标；

注：信噪比失真率SDR为矩阵，维度为（J,M），J为临界频带临界频带的数量，M为对应估计语音的总帧数。

S342、基于所述信噪比失真率计算各估计语音帧的语音清晰度，获得相应的帧清晰度；

计算公式如下：

其中，

为体现各帧清晰度的矩阵，包含各估计信号帧对应的帧清晰度，FW为临界频带的权重。

上式中的SDR’可采用步骤S341计算所得的SDR，还可采用基于步骤S341所得SDR计算获得的SDR’；

本实施例中对步骤S341所得SDR进行处理的公式如下：

当所得SDR’小于-15时，令SDR’取值-15，当所得SDR’大于等于15时，令SDR’取值15：

。

本实施例通过对SDR’的设计能够有效避免梯度爆炸的情况出现。

S343、基于各帧清晰度生成对应估计语音的语音清晰度：

本实施例中基于步骤S342中计算所得的

，获取各估计信号帧所对应的帧清晰度，计算帧清晰度的平均值，将所得平均值作为语音清晰度。

S350、基于所述语音清晰度更新所述语音增强网络。

损失函数为：

其中，REC_CSII(x_u(t),y_u(t))表示第u对训练样本对所对应的感知损失，其为对应语音清晰度的负值，U表示训练样本对的总数，x_u(t)表示第u对训练样本对中的纯净语音，y_u(t) 表示第u对训练样本对中的估计语音；

由于语音清晰度越高，代表对应估计语音的清晰度越高，故本实施例将清晰度负值作为感知损失进行反馈更新。

本实施例中，网络在训练阶段权重通过梯度下降更新，公式如下所示：

其中a为网络层的下标，b为卷积核的下标，c为卷积核系数的下标、n为迭代次数，

为学习率大小，初始为0.001，S为batch size， CSII(x_u(t),y_u(t))表示REC_CSII(x_u(t),y_u(t))，即相对应的感知损失。

现今基于神经网络的降噪算法都是以纯净语音帧和带噪语音帧之间的均方误差（MSE或L1,L2损失）作为目标损失函数，如著名的SEGAN和wavenet，但MSE较小并不代表所得去噪语音可懂度和清晰度较高，特别是在低信噪比和非稳定噪声情况下MSE和L1-L2损失很难收敛且易出现严重的消声现象和大量的非稳定噪声残留，严重影响降噪语音的可理解度和质量；

本实施例中将语音清晰度的负值作为感知损失进行模型训练，使训练所得的模型降噪结果具有较高的清晰度和可懂度，更能符合人类的听觉感知；

现今已经存在评价语音质量的相关算法，例如感知语音质量评估(PESQ)，短时目标清晰度（STOI）等，但如采用现有语音质量评估算法所生成的评估值生成感知损失进行模型训练，存在以下问题：

部分算法无法用于损失计算，如语音质量评估(PESQ)，其不可导，无法量化成损失值；

部分算法计算量极大，如短时目标清晰度（STOI），导致模型训练效率低，时间成本高；

部分算法所得的评估值准确率低，导致训练所得的语音增强模型的增强效果差。

故本实施例通过基于纯净语音与估计语音之间的幅度平方一致性MSC，同时结合人类听觉滤波器和估计语音的能量谱密度进行语音清晰度计算，在确保语音清晰度准确性的同时，大大减少计算量，提高模型的训练效率和语音增强效果。

实施例2、对实施例1计算估计语音的语音清晰度的方案进行改进，其余均等同于实施例1；

参照图3，步骤S343基于各帧清晰度生成对应估计语音的语音清晰度的具体步骤如下：

S410、基于声音分贝值对纯净语音帧进行分组，获得若干个纯净语音帧集，并构建与所述纯净语音帧集相对应的估计语音帧集；

由于纯净语音帧和估计语音帧一一对应，故可通过提取与纯净语音帧集中各纯净语音帧一一对应的估计语音帧集，构建与所述纯净语音帧集相对应的估计语音帧集。

具体为：

S411、对纯净语音帧进行分组：

所述第一纯净语音帧集包括声音分贝值大于0db的纯净语音帧，记为x_high(m)；

所述第二纯净语音帧集包括声音分贝值小于等于0db，且大于等于-10db的纯净语音帧，记为x_middle(m)；

所述第三纯净语音帧集中包括声音分贝值小于-10db的纯净语音帧，记为x_low(m)。

计算纯净语音帧对应声音分贝值的步骤为：

计算纯净语音帧的能量均方根RMS，即，平均响度，计算公式为：

其中，I为当前纯净语音帧的长度(采样点个数)，i为当前纯净语音帧的时域采样点下标，x(i)为当前纯净语音帧的时域采样点数据，即，幅度值；

基于能量均方根计算当前纯净语音帧的声音分贝值RMS_DB，计算公式如下：

其中，RMS为当前纯净语音帧的能量均方根，RMS_sum为各纯净语音对应的能量均方根之和。

S412、对估计语音帧进行分组：

基于纯净语音帧集中各帧的帧下标，提取与其相对应的估计语音帧，以对所述估计语音帧进行分组，获得与纯净语音帧集一一对应的估计语音帧集。

S420、基于估计语音帧集中各估计语音帧的帧清晰度，计算所述估计语音帧集所对应的语音清晰度，获得相应的段清晰度；

基于估计语音帧集对应的各帧清晰度，求取平均值，将所得平均值作为所述估计语音帧集对应的段清晰度；

本实施例将段清晰度记为CSII_high、CSII_middle和CSII_low。

S430、对各段清晰度进行加权计算，获得对应估计语音的语音清晰度。

本实施例中基于预设的权重进行加权计算，即，权重为固定常数，所得语音清晰度即为SEG_CSII，计算公式如下：

C1，C2，C3为固定常数。

将所得语音清晰度SEG_CSII代替实施例1中语音清晰度进行反馈更新。

第一纯净语音帧集对应的信号段主要包含元音段，语音能量较大，幅值较高，第三纯净语音帧集对应的信号段主要包含辅音段和无声段，语音能量相对较小，振幅较低，而第二纯净语音帧集则对应着两者之间的过度；

在进行语音降噪客观评估时，往往辅音段和无声段起到的作用要大于元音段，例如在计算感知语音质量评估测度PESQ和短时目标清晰度度量STOI时，辅音段和无声段对最终得分的贡献更明显；

且在进行语音降噪过程中，能量较小的信号段容易被切除，而语音间隙的无声段噪声残留更多，故第二纯净语音帧集和第三纯净语音帧集对应的估计语音信号帧集更容易发生噪声失真和语音失真，而在进行语音降噪的主观质量评估时，如平均意见得分（MOS），去噪之后的语音的噪声失真和语音失真程度为重要评价指标；

本实施例中通过对估计语音帧进行分组，按照各组估计语音帧对语音清晰度的贡献为段清晰度分配权重，使最终所得的语音清晰度更加准确，从而提升训练所得的语音增强模型的增强效果。

实施例3、将实施例2中段清晰度的权重由固定权重改为自适应权重，其余均等同于实施例2；

本实施例中对各段清晰度进行加权计算，获得对应估计语音的语音清晰度的计算公式为：

W_high、W_middle、W_low为自适应权重，计算均相同，故本实施例中以计算W_high的步骤进行举例说明，参照图4，具体计算步骤如下：

①、计算各纯净语音帧的短时平均幅度，获得相应的帧幅度数据M_m，计算公式如下：

其中，i为当前帧的时域采样点下标，I为一帧的长度(采样点个数)，x_m(i)为当前帧的时域采样点数据，即，幅度值。

②、基于所述帧幅度数据M_m，计算第一纯净语音帧集所对应的整体短时平均幅度，获得段幅度数据M_high，计算公式如下：

其中，H表示第一纯净信号帧集中纯净信号帧的数量，M_m(t)表示第一纯净信号帧集中第t个纯净信号帧的帧幅度数据，符号“*”表示乘运算。

③、基于所述段幅度数据M_high计算第一纯净语音帧集所对应的清晰度权重W_high，计算公式如下：

其中，M_high为第一纯净信号帧集所对应的段幅度数据，M_middle为第二纯净信号帧集所对应的段幅度数据，M_low为第三纯净信号帧集所对应的段幅度数据，M_middle和M_low的计算方法可参照上述步骤①和步骤②，本实施例中不进行重复阐述。

此处的对数运算是为了防止各段幅度数据数值过大，而取负值是为了在计算Ada_CSII时让语音信号的辅音段和过渡段占更大的权重从而达到自适应计算分段语音清晰度指数的目的。

本实施例中使用平均幅度来映射元音，辅音和静音段做出的贡献大小，以计算各估计语音帧集对应的权重系数，从而使加权所得的语音清晰度能够充分反映语音降噪之后的噪声失真和语音失真程度，使训练所得的语音增强模型所输出的估计信号（即降噪信号）具有较高的清晰度和可懂度，更能符合人类的听觉感知。

通过以下对比实验对实施例1至实施例3所构建的语音增强模型的增强效果进行说明：

A、基于合成带噪语音进行测试：

构建信噪比为-10db，-5db，0db，5db，10db，15db，20db的合成带噪语音，每类各10条，利用所构建的70条合成带噪语音进行测试，所构建的合成带噪语音中既包含了稳定噪声，又包含了非稳定噪声，本实施例中稳定噪声与非稳定噪声的比例约为6:4；

基于实施例1所公开的语音增强网络和训练方法进行模型训练，仅所采用的损失函数不同，获得相对应的语音增强模型，本实验中采用REC_CSII（实施例1所对应的损失函数），Ada_CSII（实施例3所对应的损失函数），MMSE，L1-L2损失以及频域幅度损失（STFTLoss）损失函数。

将所构建的合成带噪语音分别输入和语音增强模型，获得相应的去噪语音，并利用感知语音质量评估(PESQ)对所得去噪语音进行评估，并对评估结果进行统计并求取平均值，结果如下表所示：

表2

	MMSE	L1-L2	STFT	REC_CSII	Ada_CSII
						SNR(dB)
20	3.162	3.218	3.275	3.196	3.262
						15	2.892	2.943	2.855	2.903	2.915
10	2.401	2.394	2.426	2.442	2.434
						5	2.102	2.136	2.194	2.244	2.213
0	1.924	1.836	1.947	2.067	2.158
						-5	1.487	1.523	1.514	1.795	1.821
-10	1.127	1.207	1.263	1.536	1.558

由上表可知，在合成带噪语音的信噪比大于5dB时，各语音增强模型的降噪性能差距较小，当信噪比小于等于5dB时，随着信噪比的降低，实施例1和实施例3所构建的语音增强模型性能更佳（5dB为分界线）。

B、基于真实带噪语音进行测试：

随机选取5个真实场景下录取的真实带噪语音对实验A中所构建的语音增强模型进行测试，每个场景10条。

对各语音增强模型输出的去噪语音进行MOS评估，MOS为主观评估，即人为试听并进行打分，本次测试选取了20名志愿者进行试听并打分，最后取平均值，结果如下表所示：

表3

	MMSE	L1-L2	STFT	REC_CSII	Ada_CSII
						真实场景音频
场景1	3	3	2	3	4
						场景2	2	3	3	4	4
场景3	2	2	4	4	5
						场景4	1	1	2	3	3
场景5	4	3	4	5	4

上表中分数1代表语音质量很差，失真程度严重；2代表了质量较差，失真程度较重，3代表了质量一般，失真程度一般；4代表了质量较好，失真较小；5代表了质量非常好，失真程度不可察觉。

由表3可知：实施例1和实施例3所构建的语音增强模型在真实场景下对语音的降噪性能明显优于传统语音增强模型，且 MOS评估一定程度上反映了语音的噪声失真（音乐噪声残留）和人声失真（人声消除），由此可证明实施例1和实施例3所构建的语音增强模型的降噪结果具有较高的清晰度和可懂度，更能符合人类的听觉感知。

实验3、对清晰度计算时长进行测试：测试数据：60s的增强语音和纯净语音，采样频率为8Khz；

统计时间：从输入测试数据到输出得分整个过程耗费的时间，包含了系统的数据读取时间以及算法在CPU上的处理时间，本实验中采用Python环境下的%time方法进行运行时间的统计；

令现有已公开的COMP、STOI两种算法，以及实施例3中所公开的计算Ada_CSII的算法运行在相同的环境和设备下，基于上述测试数据和统计时间的方式对各算法的运行时间进行统计，结果如下表所示：

表4

	COMP	STOI	Ada_CSII
				运行时间（ms）	1880	1700	798

由上表可知，COMP，STOI两种现有清晰度算法的复杂度是实施例3中Ada_CSII算法的两倍还要多，计算用时长，如将计算所得的COMP或STOI对模型的参数进行优化，需要大量的计算资源，且优化效率低。

综上，实施例1至实施例3所构建的语音增强模型采用端到端的网络框架，不需要额外的操作，并且训练获得的模型较小，如实施例3对应的语音增强模型的大小为6.6MB，网络训练过程中收敛较快，运算复杂度较低，模型降噪结果更符合人类听觉感知，提高了增强语音的可懂度和清晰度。

实施例4、一种语音增强方法，其利用实施例1至实施例3中任意一种构建方法构建获得语音增强模型进行语音增强，包括以下步骤：

获取待处理语音；

将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音。

实施例5、一种语音增强模型的构建系统，包括：

数据获取装置，用于获取训练样本对，训练样本对包括相对应的纯净语音和带噪语音；

网络构建装置，用于构建语音增强网络；

训练装置，用于基于所述训练样本对迭代训练所述语音增强网络，获得语音增强模型；

如图5所示，所述训练装置包括：

估计模块100，用于将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；

第一计算模块200，用于计算相对应的纯净语音和估计语音之间的幅度平方相干度；

第二计算模块300，用于计算所述估计语音的能量谱密度数据；

第三计算模块400，用于获取预设的听觉滤波器；还用于基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；

更新单元500，用于基于所述语音清晰度更新所述语音增强网络。

进一步地，参照图6，所述第三计算模块400包括：

失真率计算单元410，用于基于所述幅度平方相干度、所述能量谱密度数据和预设的听觉滤波器计算估计语音中估计语音帧在各临界频带上的信噪比失真率，所述临界频带为听觉滤波器所对应的临界频带；

帧清晰度计算单元420，用于基于所述信噪比失真率计算各估计语音帧的语音清晰度，获得相应的帧清晰度；

条清晰度计算单元430，用于基于各帧清晰度生成对应估计语音的语音清晰度。

进一步地：

所述训练装置还包括预处理模块，所述预处理模块用于对所述纯净语音和所述估计语音进行分帧加窗，获得相应的纯净语音帧及估计语音帧；

本实施例为实施例1所对应的装置实施例而言，由于其与实施例1基本相似，所以描述的比较简单，相关之处参见实施例1的部分说明即可。

实施例6、参照图7，于实施例5的训练装置中增加分组模块600，并对第三计算模块400进行相应改进，其余均等同于实施例5；

分组模块600，用于基于声音分贝值对纯净语音中各纯净语音帧进行分组，获得若干个纯净语音帧集，并构建与所述纯净语音帧集相对应的估计语音帧集；

第三计算模块400还包括段清晰度计算单元440，所述段清晰度计算单元440，用于基于估计语音帧集中各估计语音帧的帧清晰度，计算所述估计语音帧集所对应的语音清晰度，获得相应的段清晰度；

第三计算模块400的条清晰度计算单元430，用于对各段清晰度进行加权计算，获得对应估计语音的语音清晰度。

本实施例为实施例2所对应的装置实施例而言，由于其与实施例2基本相似，所以描述的比较简单，相关之处参见实施例2的部分说明即可。

实施例7、对实施例6中条清晰度计算单元进行改进，其余均等同于实施例6；

参照图8，条清晰度计算单元430包括：

帧幅度计算子单元431，用于计算各纯净语音帧的短时平均幅度，获得相应的帧幅度数据；

段幅度计算子单元432，用于基于所述帧幅度数据，计算各纯净语音帧集所对应的整体短时平均幅度，获得段幅度数据；

权重计算子单元433，用于基于所述段幅度数据计算各纯净语音帧集所对应的清晰度权重；

加权计算子单元434，用于基于所述段清晰度和所述清晰度权重进行加权计算，获得相应估计语音的语音清晰度。

本实施例为实施例3所对应的装置实施例而言，由于其与实施例3基本相似，所以描述的比较简单，相关之处参见实施例3的部分说明即可。

实施例8、一种语音增强系统，包括：

获取模块，用于获取待处理语音；

增强模块，用于将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音，所述语音增强模型为实施例1至实施例3任意一种构建方法构建获得语音增强模型。

本实施例为实施例4所对应的装置实施例而言，由于其与实施例4基本相似，所以描述的比较简单，相关之处参见实施例4的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种语音增强模型的构建方法，其特征在于，基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音，迭代训练包括以下步骤：

计算相对应的纯净语音和估计语音之间的幅度平方相干度；

计算所述估计语音的能量谱密度数据；

获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；

基于所述语音清晰度更新所述语音增强网络。

2.根据权利要求1所述的语音增强模型的构建方法，其特征在于：

所述估计语音包括若干估计语音帧；

所述听觉滤波器设有若干个临界频带；

基于各帧清晰度生成对应估计语音的语音清晰度。

3.根据权利要求2所述的语音增强模型的构建方法，其特征在于，所述信噪比失真率的计算公式为：

表示幅度平方相干度，S_yy（k）表示能量谱密度数据，K表示频点的总数，k表示频点下标。

4.根据权利要求2或3所述的语音增强模型的构建方法，其特征在于：

所述纯净语音包括若干纯净语音帧；

5.根据权利要求4所述的语音增强模型的构建方法，其特征在于：

6.根据权利要求5所述的语音增强模型的构建方法，其特征在于：

所述第一纯净语音帧集包括声音分贝值大于0db的纯净语音帧；

所述第二纯净语音帧集包括声音分贝值小于等于0db，且大于等于-10db的纯净语音帧；

所述第三纯净语音帧集中包括声音分贝值小于-10db的纯净语音帧。

7.根据权利要求1至3任一所述的语音增强模型的构建方法，其特征在于：

语音增强网络采用全卷积神经网络。

8.一种语音增强模型的构建系统，其特征在于，包括训练装置，所述训练装置用于基于训练样本对迭代训练语音增强网络，获得语音增强模型，所述训练样本对包括相对应的纯净语音和带噪语音；

所述训练装置包括：

第二计算模块，用于计算所述估计语音的能量谱密度数据；

9.一种语音增强方法，其特征在于，包括以下步骤：

获取待处理语音；将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音，所述语音增强模型为权利要求1至7任意一种构建方法构建获得语音增强模型。

10.一种语音增强系统，其特征在于，包括：

获取模块，用于获取待处理语音；

增强模块，用于将所述待处理语音输入语音增强模型，由所述语音增强模型输出相应的降噪语音，所述语音增强模型为权利要求1至7任意一种构建方法构建获得语音增强模型。