CN101609686A

CN101609686A - 基于语音增强算法主观评估的客观评估方法

Info

Publication number: CN101609686A
Application number: CNA2009101815418A
Authority: CN
Inventors: 周璐; 邱小军; 林志斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2009-07-28
Filing date: 2009-07-28
Publication date: 2009-12-23
Anticipated expiration: 2029-07-28
Also published as: CN101609686B

Abstract

本发明公开了一种基于语音增强算法主观评估的客观评估方法，该方法是在现有的5种语音增强客观评估方法PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar基础上利用多元线性回归分析提出的一种新的客观组合方法。通过不同权重系数和5种客观方法的组合，得到本发明中评价语音信号质量的客观评分、评价背景噪声质量的客观评分和评价整体质量的客观评分。本发明的主客观相关系数优于很多其他传统客观算法，误差的标准差更低，更易评估语音增强算法性能的优劣，具有极大的实用价值。

Description

基于语音增强算法主观评估的客观评估方法

一、技术领域

本发明涉及一种测量语音增强的客观评估方法，尤其是涉及一种利用多元线性回归分析提出的客观组合方法。该方法主客观相关系数较高、误差的标准差更低，能更准确评估语音增强算法性能优劣。

二、背景技术

语音增强是从噪声背景中提取有用的语音信号，抑制或降低噪声干扰的技术。由于人是语音的最终接受者，所以主观评价才是语音质量的真实反映，也是最可靠的评价语音增强效果的方法。但在低信噪比的情况下，语音增强算法在抑制背景噪声的过程中可能对语音信号产生劣化作用。ITU-T P.835引导试听者单独对语音信号评分(SIG)、单独对背景噪声评分(BAK)和整体效果评分(OVL)，三方面共同作为语音增强效果的主观评估。但主观评测方法耗费大量人力、物力和时间，因此采用客观测试方法来评价语音增强效果。通常采用主客观相关系数和主客观评分误差的标准差两个统计参数评估客观方法的性能。

现有的几种常用客观测试方法为：感知评估通话质量(PESQ)，ITU-T P.862中详细描述了PESQ这种窄带电话网络和语音编解码器端到端语音质量客观评价方法，用数字信号处理的方式比较参考信号和劣化信号，估算得到的语音质量评分范围为[-0.5，4.5]。对数似然率(LLR)是一种增益归一化的度量参考语音和劣化语音之间距离的方法，度量所得两种谱之间的失真大小只与谱的形状有关，而与其能量大小无关，估算得到的LLR值范围为[0，2]。倒谱(CEP)是语音信号的又一特征，这里采用基于线性预测分析的倒谱系数作为语音的特征参数，语音信号所携带的语义信息主要体现在声道传输函数上，通过参考语音和劣化语音的倒谱距离可以估算语音质量，CEP值为[0，10]。分段信噪比(SNRseg)建立在度量均方误差基础上，SNRseg是基于帧的信噪比，是每一帧语音信号信噪比的均值。频率分段信噪比(fwSNRseg)是将SNRseg扩展到频域上得到的，取值范围为[-10dB，35dB]。通过回归分析得到每个频段的权重确保主客观相关系数最大，组成了变频率分段信噪比(fwSNRsegVar)方法，取值范围[-10dB，35dB]。

这些常用客观测试方法的主客观相关系数和误差的标准差见表1，表中括号内的数为误差的标准差(P.C.Loizou，Speech Enhancement：Theory and Practice，CRC Press，2007)。从表1可以看出，目前传统的客观测试方法在单独对背景噪声评分方面主客观相关系数普遍较低，误差的标准差在单独对语音信号评分、单独对背景噪声评分和整体效果评分三方面都过高，同时并没有给出如何使用客观测试方法对各语音增强算法性能优劣的评估。

表1几种客观测量方法主客观相关系数和误差的标准差(括号内的数)

	PESQ	LLR	CEP	SNRseg	fwSNRseg	fwSNRsegVar
	PESQ	LLR	CEP	SNRseg	fwSNRseg	fwSNRsegVar	SIG	0.57(0.65)	0.66(0.59)	0.65(0.60)	0.19(0.78)	0.67(0.56)	0.73(0.54)
BAK	0.48(0.51)	0.26(0.56)	0.22(0.57)	0.42(0.53)	0.27(0.59)	0.51(0.50)	SIG	0.57(0.65)	0.66(0.59)	0.65(0.60)	0.19(0.78)	0.67(0.56)	0.73(0.54)
BAK	0.48(0.51)	0.26(0.56)	0.22(0.57)	0.42(0.53)	0.27(0.59)	0.51(0.50)	OVL	0.65(0.46)	0.63(0.47)	0.60(0.49)	0.31(0.58)	0.64(0.47)	0.70(0.43)

中国专利公开CN03156510.7一种测试语音质量的方法及装置(华为技术有限公司)，提供了一种测试语音质量的方法，该方法在IP网络被测试网段的主叫端利用包括本端和被叫端IP地址的参数向被叫端发送参考语音文件，被叫端利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后形成的降级语音文件，最后，利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。所述语音质量的评估计算为语音质量的感知评估(PESQ)计算或感知的语音质量测试(PSQM)计算或感知分析测量系统(PAMS)计算。

CN200680024568.0语音质量评估方法和系统(朗讯科技公司)，在一个实施例中，通过使用基于主观质量评估数据被训练的至少一个模型来评估在接收的语音信号中的失真。然后，根据估计的失真来确定接收的语音信号的语音质量评估。通过使用基于所述主观质量评估数据被训练的第一模型来评估在所述接收的语音信号中的语音失真和背景噪声失真，把估计的失真映射到主观质量评估度量值。

目前尚未见到类似本发明的，采用PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar组合的针对语音增强算法的客观评估方法。

三、发明内容

1、发明目的：本发明的目的在于利用现有的语音增强客观评估方法提出的一种新的客观评估方法。该方法性能好，能准确地评价语音增强算法性能的优劣。

2、技术方案：为实现上述发明目的，本发明所述的基于语音增强算法主观评估的客观组合方法是通过以下技术方案来实现的：

(1)计算以下5种客观测量方法的分值：感知评估通话质量(PESQ)，对数似然率(LLR)，倒谱(CEP)分段信噪比(SNRseg)，频率分段信噪比(fwSNRseg)，变频率分段信噪比(fwSNRsegVar)。具体计算方法参见P.C.Loizou，Speech Enhancement：Theory and Practice，CRCPress，2007，pp 589-597。

(2)计算以下本发明提出的分值

C_S＝1.856+0.135·PESQ_S-1.569·LLR_S+0.338·CEP_S+0.044·fwSNRseg_S+0.224·fwSNRsegVar_S (1)

C_N＝-0.343+0.484·PESQ_N-2.548·LLR_N+0.646·CEP_N-0.049·fwSNRseg_N+0.520·fwSNRsegVar_N (2)

C_O＝-0.835+0.610·PESQ_O-3.229·LLR_O+0.804·CEP_O+0.313·fwSNRseg_O-0.008·fwSNRsegVar_O (3)

式中，C_S表示本发明中评价语音信号质量的客观评分，C_N表示本发明中评价背景噪声质量的客观评分，C_O表示本发明中评价整体质量的客观评分。其中的PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar分别表示5种客观测量方法得到的评分，下标S表示单独对语音信号评分，下标N表示单独对背景噪声评分，下标O表示对整体效果评分。

式中的权重系数是由5组客观测试评分(每组120个)分别与单独评价语音信号的主观评分、单独评价背景噪声的主观评分和整体评分使用EXCEL中LINEST函数进行多元线性回归分析得到的。具体如下：

选取标准语音库NOISEUS中信噪比为10dB的babble和train噪声各30组语音，分别使用logMMSE和RDC算法对语音进行降噪处理，请14位主观试听者对处理后的共120组语音分别从语音信号质量、背景噪声质量和整体质量三方面进行评分。评分标准由P.835规定。

表2P.835定义的主观评分标准

分值	语音信号等级(SIG)对应描述(语音信号)	背景噪声等级(BAK)对应描述(背景噪声)	整体音质等级(OVL)对应描述(整体音质)
分值	语音信号等级(SIG)对应描述(语音信号)	背景噪声等级(BAK)对应描述(背景噪声)	整体音质等级(OVL)对应描述(整体音质)	5	没有失真	不可被察觉	极好
4	轻微失真	轻微可察觉	好	5	没有失真	不可被察觉	极好
4	轻微失真	轻微可察觉	好	3	有些失真	可察觉但不讨厌	中等
2	较大失真	有点讨厌	差	3	有些失真	可察觉但不讨厌	中等
2	较大失真	有点讨厌	差	1	完全失真	很讨厌	很差

本发明的主客观相关系数和误差的标准差见表3，表中括号内的数为误差的标准差。

表3本发明的主客观相关系数和误差的标准差

3、有益效果：本发明与现有技术相比，其显著优点是在于：(1)利用多元线性回归分析在PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar基础上提出。(2)单独对背景噪声评分的主客观相关系数达到0.609，误差的标准差最低达到0.253，性能更好。

四、附图说明

图1是本发明的测试流程图

图2是Wiener_as算法在10dB轿车噪声条件下本发明评分C_bak的归一化直方图

五、具体实施方式

下面以最小均方误差短时谱幅值估计法(MMSE)、谱减法(Specsub)、基于先验信噪比估计的维纳滤波法(Wiener_as)、子空间法(KLT)、最小均方误差对数短时谱幅值估计法(logMMSE)和基于先验信噪比估计的最小均方误差对数短时谱幅值法(logMMSE_ne)算法和标准语音库NOISEUS中信噪比为10dB和5dB轿车噪声的60组语音为例，对本发明的实施作详细说明。

将标准语音库NOISEUS中信噪比为10dB和5dB轿车噪声的60组语音分别经过MMSE，Specsub，Wiener_as，logMMSE，KLT，logMMSE_ne算法进行降噪处理，对每组降噪语音和纯净语音根据MATLAB程序分别计算PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar5种客观测量值(具体参见P.C.Loizou，Speech Enhancement：Theory and Practice，CRC Press，2007，pp 589-597)，将5个值代入不同权重系数的式(1)(2)(3)，就可以得到本发明对每一组纯净语音和降噪语音单独对语音质量的评分、单独对背景噪声的评分和整体效果的评分。

下面利用统计分析，说明本发明计算结果的可靠性。本发明得到的信噪比为10dB轿车噪声条件下测量值的归一化直方图见附图2，χ²拟合检验显示数据来自正态分布总体，对其他语音增强算法也可以得到类似的结论。计算本发明得到的不同语音增强算法评估值的置信区间和置信下限见表4，对6组数据进行z-检验-双样本均值分析，结果显示，logMMSE性能最优，MMSE高于logMMSE_ne和Wiener_as且均显著高于Specsub和KLT，Specsub显著高于KLT，这一结论与各算法95％置信下限的评分顺序相一致，同时也与表中主观MOS分的评分顺序完全一致。

表4本发明对不同语音增强算法客观测量值得置信区间(10dB)

算法	95％置信区间	误差幅度	95％置信下限	主观MOS(OVL)
算法	95％置信区间	误差幅度	95％置信下限	主观MOS(OVL)	MMSE	(3.127，3.259)	0.0662	3.138	3.25
Specsub	(2.949，3.088)	0.0694	2.961	2.56	MMSE	(3.127，3.259)	0.0662	3.138	3.25

Wiener_as	(3.041，3.158)	0.0590	3.050	2.81
Wiener_as	(3.041，3.158)	0.0590	3.050	2.81	KLT	(2.860，3.013)	0.0762	2.873	2.49
logMMSE	(3.169，3.304)	0.0672	3.181	3.37	KLT	(2.860，3.013)	0.0762	2.873	2.49
logMMSE	(3.169，3.304)	0.0672	3.181	3.37	logMMSE_ne	(3.091，3.234)	0.0716	3.103	3.13

结果分析：

采用本发明提供的客观组合方法，单独对背景噪声评分的主客观相关系数达到0.609，误差的标准差最低达到0.253，得到的语音增强算法性能优劣的结论与主观评分完全一致。因此，采用本发明提供的方法提高主客观相关系数，降低误差的标准差，实现语音增强算法性能优劣的评估是完全可行的。

Claims

1、一种基于语音增强算法主观评估的客观评估方法，其特征在于：在现有的5种语音增强客观评估方法PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar基础上利用下式计算得出。

C_N＝-0.343+0.484PESQ_N-2.548·LLR_N+0.646·CEP_N-0.049·fwSNRseg_N+0.520·fwSNRsegVar_N (2)

其中下标S表示单独对语音信号评分，下标N表示单独对背景噪声评分，下标O表示对整体效果评分。

2、根据权利要求1所述的客观评估方法计算公式，其特征在于：由PESQ，LLR，CEP，fwSNRseg和fwSNRsegVar这5种现有的语音增强客观评估方法，根据特定的权重系数组合而成。

权重系数

x₀ PESQ LLR CEP fwSNRseg fwSNRsegVar C_S 1.856 0.135 -1.569 0.338 0.044 0.224 C_N -0.343 0.484 -2.548 0.646 -0.049 0.520 C_O -0.835 0.610 -3.229 0.804 0.313 -0.008