CN107358966A

CN107358966A - 基于深度学习语音增强的无参考语音质量客观评估方法

Info

Publication number: CN107358966A
Application number: CN201710498188.0A
Authority: CN
Inventors: 王晶; 单亚慧; 孟柳晨; 谢湘; 费泽松
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-11-17
Anticipated expiration: 2037-06-27
Also published as: CN107358966B

Abstract

本发明公开了基于深度学习语音增强的无参考语音质量客观评估方法，属于语音质量评价技术领域。本方法分为三个步骤：首先将待测语音经过已经训练好的基于深度信念网络的语音增强模型，得到增强后的语音信号；然后，分别提取出增强前后信号的梅尔倒谱系数，做两个系数的差；最后将这个参数作为输入，通过第二层的BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评价。与以往的无参考语音质量评价模型相比，本发明方法与主观质量评分的相关度更好，均方误差也更小。

Description

基于深度学习语音增强的无参考语音质量客观评估方法

技术领域

本发明涉及基于深度信念网络的语音增强技术以及人工神经网络客观评估指标映射技术，尤其涉及基于深度学习语音增强的无参考语音质量客观评估方法，属于语音质量评价技术领域。

背景技术

随着科技的发展，语音通信已经成为通信学必不可少的一部分了。从电话通信到VoIP，语音通信渗透到了我们生活的很多方面。由于在语音通信的传输过程中，信道对于语音的压缩，调制解调以及噪声干扰都会大大降低语音质量，从而降低人的听觉感受。为了能够设计出传输性能良好的通信系统，判断语音通信系统的性能就成为了很关键的环节。

语音质量评价方法根据评价主体的不同分为客观评价和主观评价方法。主观评价方法是人为判断一段语音的优劣并对其评分。一般的，我们将主观评价方法分为以下几种，ITU-TP.800和P.830建议书中给出的平均意见分方法(MOS)，ANSI S3.2-1989标准判别音韵测试方法(DRT)，以及Dynastat公司推出的判别满意度测试方法(DAM)。语音质量主观评价方法在很多场合都有应用，尤其是语音编码以及语音合成。虽然主观评价往往可以提供准确的结果，但是实现主观评价需要大量的实验人员，并对他们进行培训，操作复杂，耗时耗力。

由于语音主观评价遇到的种种困难，研究人员将研究重心放在了只利用机器就可以进行语音评价的客观评价方法。客观评价方法主要分为有参考的基于输入-输出的评价模型，以及无参考的基于输出的评价模型。近几十年来，研究者一直集中研究有参考的评价算法上并获得了飞速的进展。

PESQ算法是由英国电信(BT)和KPN共同开发的，2001年是被认定为ITU-TP.862规范，是一种评价网络语音传输质量的比较好的标准。通过模拟人耳听觉特性，将输入输出信号转换成感知上的形式，比较贴合听众的听觉感受。2010年ITU-T颁布的P.863标准，即POLQA算法，对PESQ进行了改进，成为下一代宽带网络的语音质量客观评价的主流标准。POLQA与主观分数之间的相关系数是目前最高的，但是由于其是基于输入-输出的评价方法，且运算复杂度较高，在使用时不具备灵活性和实时性。

近年来，研究者们开始着重研究能够不依赖于输出信号的无参考评价算法，目前受到广泛使用的无参考语音质量评价模型是基于窄带电话网络的P.563协议，P.563协议是第一个经过ITU认可的基于输出的语音客观评价标准。P.563将失真类型分为不同级别，利用逻辑分类器逐级对失真信号进行分类，直到符合其中一级的失真标准，再依据不同的失真种类建立映射模型，对提取出的特征进行线性加权组合最终得到客观话音质量结果。这种方法相对于有参考评价方法具有更高的灵活性，但是相关度较低。

我国授权公开号为CN 102881289 A(公开日：2013年1月15日)的专利“一种基于听觉感知特性的语音质量客观评价算法”，公开了一种简单有效的基于听觉感知特性的语音质量客观评价算法，根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC特征参数提取过程，有效提高了客观评价结果和主观评价算法之间的相关度。但是这种方法是基于输入-输出信号的评价方法，不适用于无参考信号的情况。目前无参考的语音质量客观评估方法，相比有参考的方法由于没有输入纯净信号作参考，准确度还不高，亟待进一步研究。

发明内容

本发明的目的是为了解决现有的无参考语音客观评价算法结果与主观评价得分相关性过低的问题，提供基于深度学习语音增强的无参考语音质量客观评估方法，提高了客观评价方法的准确性。

为了实现上述目的，本发明方法的基本思路是：首先，将待测的失真语音信号，即增强前信号经过训练好的基于深度信念网络的语音增强模型，得到增强后信号；然后，计算出增强前信号和增强后信号的MFCC系数，即梅尔倒谱系数，再做两个系数的差；最后将两个系数的差作为输入，通过BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评价。深度信念网络模型利用失真语音与纯净语音数据库训练得到，BP神经网络利用主观测试数据训练得到，主观测试分数使用的是MOS分数。

本发明方法的具体实施步骤如下：

步骤一、提取待测失真语音信号的特征，再输入训练好的基于深度信念网络的语音增强模型，得到增强后信号；

其中，待测失真语音信号又称为增强前信号；

步骤一具体为：

步骤1.1通过数学变换提取待测失真语音信号特征；

步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练，输出训练好的模型，又称为语音增强模型；

其中，进行训练的深度信念网络模型含有两个隐含层，训练过程主要分为两个阶段：预训练和微调；

步骤1.2A预训练阶段，将纯净语音和失真语音的特征作为训练集，模型初始化过程使用贪婪无监督逐层训练算法训练；

步骤1.2B微调阶段是有监督训练，采用传统的反向传播BP算法来学习模型的参数；

步骤1.3经过步骤1.2得到训练好的模型各项参数后，将失真语音的特征输入语音增强模型即可得到增强后语音的对应特征；

步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数，即梅尔倒谱系数，将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入；

步骤二具体为：

步骤2.1对增强前信号和增强后信号进行分帧处理；

步骤2.2将经过步骤2.1分帧处理后的每一帧信号的频率通过如下公式(1)

将每一帧信号的频率映射到梅尔频率mel(f)上来；

其中，步骤2.2操作的原因是人对频率的听觉感应是非线性的；

步骤2.3将增强前信号和增强后信号分别经过带通滤波器分别得到滤波器后输出信号的能量；

其中，带通滤波器是一组自低频至高频由密到疏的滤波器；经滤波器输出的信号能量是梅尔特征的基本形式；

步骤2.4再对步骤2.3输出信号的能量求取倒数得到MFCC系数，即梅尔倒谱系数；

其中，MFCC系数是一个K维的向量，优选的K取值为39；也可以是其他整数值；

其中，梅尔倒谱系数完全基于听觉模型，不依赖于信号本身的特性，具有很好的鲁棒性，符合人耳的听觉感受；

步骤2.5对增强前信号及增强后信号中的每条语音所有帧的MFCC系数做均值，得到一组MFCC系数；

其中，一组MFCC系数中包含两个均值，即增强前信号及增强后信号中的每条语音所有帧的MFCC系数均值；

步骤2.6再将步骤2.5输出的一组MFCC系数中的增强后信号MFCC系数减去增强前信号MFCC系数，将这个值作为后续映射阶段输入参数步骤三、将步骤2.6中得到的增强前后信号MFCC系数的差值作为输入，通过BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评价；

其中，BP神经网络为模型中的映射网络，含有输入层，隐含层，输出层共三层，隐层节点的激励函数为sigmoid函数，输出层节点激励函数为线性函数；

至此，从步骤一到步骤三，完成了基于深度学习语音增强的无参考语音质量客观评估方法。

有益效果

本发明基于深度学习语音增强的无参考的语音质量客观评估方法，对比现有的技术，有如下的有益效果：

1.本发明所述的方法提出了基于深度学习语音增强的无参考语音质量客观评估方法，利用深度学习语音增强技术将失真语音进行增强后，再与待测失真信号进行参数比较，模拟有参考评价方法中纯净语音与测试语音之间的失真量，与其他的无参考模型相比，具有与主观评价更高的相关性以及更小的均方根误差，甚至达到了有参考评价方法的性能；

2.本发明所述方法虽然模拟了有参考评价方法中失真量的概念，但是只需向模型输入语音通信系统的输出信号即可，不需要原始纯净语音作参考，与其他有参考评价方法相比具有更高的适应性，实时性以及灵活性。

附图说明

图1为本发明基于深度学习语音增强的无参考语音质量客观评估方法的流程框图；

图2为本发明基于深度学习语音增强的无参考语音质量客观评估方法使用的深度信念网络流程图；

图3为本发明基于深度学习语音增强的无参考语音质量客观评估方法深度学习语音增强的流程图；

图4为基于深度学习语音增强的无参考语音质量客观评估方法步骤二MFCC系数提取流程图；

图5为本发明基于深度学习语音增强的无参考语音质量客观评估方法实施例中的得分结果散点图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

实施例

本实例中采用是窄带纯净语音信号以及它们在20种失真条件下的失真信号作为语音增强模型的训练数据。对这些失真语音用MOS方法进行主观测试评分，作为最终映射环节的训练集和测试集。

本发明方法步骤如图1所示，具体如下：

步骤a、将待测的失真语音信号经过训练好的基于深度信念网络(DBN)的语音增强模型，得到增强后的信号，对应图1中的(1)；

在这一步中，分为两个阶段，训练阶段和增强阶段。在训练阶段，首先对纯净语音信号和失真语音信号提取对数功率谱信息和相位信息，然后将失真信号参数输入深度信念网络中，深度信念网络含有两个隐含层，每层对应一个RBM。模型用贪婪无监督逐层训练算法进行预训练，传统的反向传播BP算法进行微调，结构如图2所示。RBM是一种特殊的马尔可夫随机场，包含一个由随机的隐单元构成的隐层和一个由随机可见单元构成的可见层。对于一个RBM，v表示所有可见单元，h表示所有隐单元，假设模型参数为θ，可见单元和隐单元的联合概率分布p(v,h；θ)可以用能量函数E(v,h；θ)定义为式中，是归一化因子，其中exp为指数运算；RBM关于可见向量v的边缘分布为本发明中提出的深度信念网络模型模型中第一层RBM是高斯-伯努利分布，可见层为实值，隐藏层为(0,1)二值分布；第二层为伯努利-伯努利分布，隐藏层可见层均为(0,1)二值分布；

对于高斯分布-伯努利分布RBM，它的能量函数为 w_ij表示可见单元v_i和隐单元h_j之间的对称连接权值，b_i和a_j分别为表示偏置项，I和J分别是可见单元和隐单元的数目。条件概率的计算公式可用下式表示：式中，v_i取实值，服从均值为方差为1的高斯分布；

对于伯努利分布-伯努利分布的RBM，能量函数定义为条件概率的计算公式可用下式表示:

训练过程中使用对比散度算法近似计算对数似然logp(v；θ)的梯度，更新RBM层与层之间的权重以及节点的阈值。将可见层设置为训练样本，并利用上面的条件概率公式计算隐藏层单元的二值状态，在所有隐藏单元状态确定了之后，再确定每个可见单元取值为1的概率，进而得到可见层的一个重构。然后将重构的可见层作为真实的模型代入RBM中，就可以进行梯度下降算法了；

RBM训练结束后，仅是进行了网络的预训练，然后需要利用反向BP神经网络算法联合纯净语音对数功率谱和增强语音的对数功率谱特征的最小均方差函数来精调网络的权值。均方根误差的公式为其中分别表示样本指数为n，第d个增强语音和纯净语音的对数功率谱特征。N是“迷你批量”的大小，D是对数功率谱特征向量的大小。L为隐藏层的总数量，L+1层代表的为输出层，(W^l,b^l)是l层的权重和偏置。如果学习率为λ的话，权重W和偏置b按公式更新；

在增强阶段，将待测语音信号提取出的对数功率谱信息通过训练好的深度信念网络，得到增强信号对数功率谱信息，然后需要对增强信号波形进行重建，进行傅里叶逆变换即可，重建过程中所需的相位信息即为增强前失真语音提取的相位信息。整个语音增强部分如图3所示；

步骤b、计算出增强前后信号的MFCC系数(梅尔倒谱系数)，做两个系数的差，对应于图1中的(2)；

在这一步中，对失真信号和增强信号进行特征参数提取，这里选择的参数是反映了人耳对频率听觉感受的MFCC系数，提取过程如图4所示。首先进行语音信号的预加重滤去低频分量，再对信号进行分帧加窗，在实例中选择25ms作为帧长，15ms作为帧移，利用快速傅里叶变换将语音信号变换在频域后，经过一组从低频至高频由密到疏的梅尔滤波器组，最终进行对数运算和离散余弦变换后得到每一帧的MFCC系数，求取平均值即为这条语音信号的MFCC系数。然后增强前后语音的MFCC系数对应相减即可获得映射步骤的输入参数；

步骤c、将增强前后信号MFCC系数差值作为输入，通过BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评估；

在这一步中，将上述环节中得到的MFCC系数差值作为输入训练BP神经网络映射模型，神经网络为3层结构，隐藏层激励函数为sigmoid函数，输出层为线性函数，输入特征参数拟合主观评价分数，如图1中的(3)。在测试和实际使用中，将三个环节连接在一起即可得到整体模型，输入待测语音最终得到语音客观质量评价分数；

图5为模型在本实例中的测试结果散点图。图中横坐标表示待测语音的主观评价分数，纵坐标表示模型预测分数，图中的趋势线为y＝x线(主客观分数完全相等)。由图中可以看出，图中散点分布的趋势线较接近于y＝x线，与主观分数相关系数达0.92，均方根误差为0.35；而P.563的相关系数为0.6，均方根误差1.27。反映出本实例算法所得到的客观分数与主观评分的相关性比较高，且均方根误差更小。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度学习语音增强的无参考语音质量客观评估方法，其特征在于：基本思路是：首先，将待测的失真语音信号，即增强前信号经过训练好的基于深度信念网络的语音增强模型，得到增强后信号；然后，计算出增强前信号和增强后信号的MFCC系数，即梅尔倒谱系数，再做两个系数的差；最后将两个系数的差作为输入，通过BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评价；深度信念网络模型利用失真语音与纯净语音数据库训练得到，BP神经网络利用主观测试数据训练得到，主观测试分数使用的是MOS分数；具体实施步骤如下：

其中，待测失真语音信号又称为增强前信号；待测失真语音信号，即增强前信号中包含很多条语音信号；相应的增强后信号中也包含多条语音信号；

步骤一到步骤三均以单条语音为处理单位进行整体处理；

步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为输入，通过BP神经网络模型，映射为最终的客观分数，由此实现无参考的语音质量客观评价；

至此，就完成了基于深度学习语音增强的无参考语音质量客观评估方法。

2.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法，其特征在于：步骤一具体为：

步骤1.1通过数学变换提取待测失真语音信号特征；

步骤1.3经过步骤1.2得到训练好的模型各项参数后，将失真语音的特征输入语音增强模型即可得到增强后语音的对应特征。

3.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法，其特征在于：步骤二具体为：

步骤2.1对增强前信号和增强后信号进行分帧处理；

步骤2.2将经过步骤2.1分帧处理后的每一帧信号的频率通过如下公式(1)将每一帧信号的频率映射到梅尔频率mel(f)上来；

步骤2.6再将步骤2.5输出的一组MFCC系数中的增强后信号MFCC系数减去增强前信号MFCC系数，将这个值作为后续映射阶段输入参数。