CN102881289A

CN102881289A - 一种基于听觉感知特性的语音质量客观评价方法

Info

Publication number: CN102881289A
Application number: CN2012103322883A
Authority: CN
Inventors: 谭晓衡; 秦基伟; 周帅; 裴婧; 黄振林; 唐永刚; 马旭东
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2012-09-11
Filing date: 2012-09-11
Publication date: 2013-01-16
Anticipated expiration: 2032-09-11
Also published as: CN102881289B

Abstract

本发明公开了一种简单有效的基于听觉感知特性的语音质量客观评价方法，根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC（Mel频率倒谱系数）特征参数的提取过程。本发明使用Gammatone滤波器组对耳蜗基底膜进行仿真，在幅值非线性变换过程中用立方根非线性压缩变换来模拟语音的强度-响度感知特性。使用新的特征参数，提出了一种更加符合人耳听觉感知特性的语音质量评价方法。与其它方法相比，本发明有效地提高了客观评价结果与主观评价结果的相关度，运行时间较短且复杂度低，具有较强的适应性，可靠性和实用性。本发明通过模拟人耳的听觉感知特性来进行语音质量评价的方法可为改善语音质量客观评价提供新的解决思路。

Description

一种基于听觉感知特性的语音质量客观评价方法

技术领域

本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术，更具体地，涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中，通过计算特征参数的失真程度来实现语音质量客观评价的方法。

背景技术

语音质量评价是衡量语音通信系统性能优劣的根本标准之一，从评价主体上讲可分为两大类：主观评价和客观评价。ITU-T建议P.830提出的MOS（Mean Opinion Score）方法是一种广泛使用的主观评价方法，用测试者的平均意见分来直观地反映人对语音质量的感觉，但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量，使客观评价结果能够准确预测出语音质量的主观评价结果，具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏，是一种误差度量。目前，比较成熟的算法基本上都是基于输入-输出方式的，包括：PESQ、Mel-CD等。

ITU-T建议P.862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法，能够较好地识别通信时延、环境噪声和错误，但其是基于Bark谱的感知模型，运算复杂度较高，不利于实时评价语音质量。

Mel-CD失真测度以MFCC作为语音特征参数，运算复杂度较低，是一种简便有效的语音质量评价方法，但其评价性能与PESQ相差较大。分析表明，虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性，但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程，并不能充分地反映人耳的听觉感知特性。

Gammatone滤波器具有尖锐的频率选择特性，滤波器边沿的衰减很缓慢，有效地避免了相邻频带间的能量泄露，这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的，也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响；同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据，便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换，能使特征参数的提取过程更好地符合听觉生理模型。

发明内容

本发明的目的是针对MFCC特征参数提取过程中存在的问题，提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术，使用Gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型，得到一种新的特征参数来进行语音质量客观评价。说明书附图1示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。

基于听觉感知特性的语音质量客观评价方法是这样实现的：

1．采集原始语音和通过被测系统的失真语音，对两路语音信号进行电平调整、带通滤波和时间对齐等预处理，以便于分别提取两路信号的特征参数；

2．加汉宁窗对预处理后的语音信号进行分帧，提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先，使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波，能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征；接着，对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性，这不仅符合了人耳的听觉感知特性，而且计算过程简单；然后，立方根能量经过RASTA滤波，抑制了信号频谱中的常量或变化缓慢的非语音部分，同时增强了动态成分；最后，经过DCT变换（离散余弦变换）到倒谱域，即可实现特征参数的提取；

3．计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D，用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观（预测）MOS值，MOS值的大小说明了被测系统语音质量的好坏。

与其它的技术相比，本发明具有以下的优点：

1．使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型，有效地提高了客观评价结果与主观评价结果的相关度；

2．Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据，立方根变换避免了复杂的计算模型，使得算法复杂度低且运行时间较短，适合于语音质量实时评价和嵌入式系统实现；

3．适用于评价CS-ACELP、ADPCM、LD-CELP、GSM、

-PCM/A-PCM和VSELP等编码算法下的语音信号，算法通用性强；

4．本发明保留了Mel-CD方法运行时间较短和算法复杂度低的优点，评价准确性较Mel-CD方法有很大的提高；与PESQ算法相比，评价准确性相差较小，但运行时间和算法复杂度减小明显，借助于各种语音信号处理方法可将其应用于语音编解码器和通信网络的语音质量客观评价。

附图说明

结合附图阅读本发明的以下详细描述，可以更好地理解本发明及其优点和其他特征，其中：

图1示出了基于输入-输出方式的语音质量客观评价方法结构图；

图2示出了语音信号特征参数的提取流程；

图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组。

具体实施方式

为了更好地理解本发明，下面将详细描述本发明的具体实施方式：

1．原始语音和经过被测系统的失真语音首先经过电平调整，将其强度统一到相当于

Figure 2012103322883100002DEST_PATH_IMAGE002

的能量水平；然后经过理想带通滤波器，对两路信号进行输入滤波；最后通过时间对齐来补偿由被测系统产生的时延，完成预处理过程；

2．对预处理后的语音信号和

Figure 2012103322883100002DEST_PATH_IMAGE004

分别进行特征参数的提取；

附图2示出了语音信号特征参数的具体提取流程：

3．对语音信号进行加汉宁窗的FFT变换，得到信号频谱

；

4．人耳所听到的声音的高低与声音的频率并不呈线性正比关系，采用更符合人耳的听觉特性的Mel频率尺度来进行频率划分。 Mel频率与实际频率的具体关系为

Figure 2012103322883100002DEST_PATH_IMAGE006

（1）

其中：实际频率

的单位是Hz；

5． Gammatone滤波器组的时域表达式为：

Figure 2012103322883100002DEST_PATH_IMAGE008

（2）

其中：

滤波器阶数，

Figure 2012103322883100002DEST_PATH_IMAGE010

为等效矩形带宽，

为滤波器的中心频率，

Figure 2012103322883100002DEST_PATH_IMAGE012

为初始相位，

为阶跃函数，

Figure 2012103322883100002DEST_PATH_IMAGE014

为滤波器个数；

附图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组：

在Mel频率轴上配置具有个通道的Gammatone滤波器组，每个滤波器

Figure 2012103322883100002DEST_PATH_IMAGE016

的中心频率

在Mel频率轴上等间隔分布，中心频率

两侧斜率较大，表明Gammatone滤波器具有尖锐的频率选择特性；滤波器边沿的衰减很缓慢，有效地避免了相邻频带间的能量泄露。这些幅频响应特性与基底膜的滤波特性是一致的，同时也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响。

通过一组Mel尺度的Gammatone滤波器组，在频域对能量谱进行滤波，得到每个Gammatone滤波器的输出能量：

Figure 2012103322883100002DEST_PATH_IMAGE018

（3）

6．非线性压缩运算基于强度-响度感知变换，将其用在特征参数的提取过程能更好地符合了人耳的听觉感知特性，而且计算过程简单；

立方根非线性压缩变换的计算公式为

（4）

7．RASTA滤波处理用一个低端截止频率很低的带通滤波器对语音信号进行滤波，能有效的抑制信号频谱中的常量或变化缓慢的非语音部分，增强动态成分。带通滤波器

Figure 2012103322883100002DEST_PATH_IMAGE020

的表达式为

（5）

8．立方根能量经过RASTA滤波和DCT变换到倒谱域，即可得到改进的MFCC参数。

（6）

其中：

为参数的阶数，本文取；

至此完成了两路语音信号特征参数的提取，此过程更加符合人耳的生理模型和听觉感知特性，有利于提高语音质量客观评价方法的性能；

9．采用平均欧氏距离来计算失真语音相对于原始语音信号的失真大小。定义原始语音信号为

，失真语音信号为，提取的

阶特征参数为：

，

，则原始信号与失真信号第k帧的Mel倒谱距离可定义为：

（7）

平均动态Mel倒谱距离D为：

（8）

其中：为信号总帧数，权重为第

帧的能量；

10．采用若干对已知MOS值的语音样本进行测试，计算的倒谱距离D按最小二乘法准则进行二次多项式拟合，以对应相应语音质量的客观MOS值或称为预测MOS值。

综上所示，根据人耳的听觉生理模型，将Gammatone滤波器组和立方根非线性压缩变换引入特征参数的提取过程，更好地符合了人耳的听觉感知特性，能有效地提高语音质量主观评价结果和客观评价结果的相关度，同时具有较强的可靠性、适应性和实用性。

Claims

1.一种简单有效的基于听觉感知特性的语音质量客观评价技术，根据心理声学原理将人耳听觉模型和非线性压缩变换引入特征参数的提取过程来进行语音质量的客观评价，其特征在于采用以下步骤：

A、将原始语音和通过被测系统的失真语音进行预处理，以便于提取各自的特征参数；

B、对经过预处理的语音信号进行加汉宁窗的FFT变换，得到第k帧信号频谱

；

C、采用Mel频率尺度来模拟人耳对声音频率的感知特性，Mel频率与实际频率的具体关系为：

Figure 2012103322883100001DEST_PATH_IMAGE002

；

D、通过一组Mel尺度的Gammatone滤波器组，在频域对能量谱进行滤波，得到每个Gammatone滤波器的输出能量，计算过程由式给出：；

E、采用立方根变换来模拟强度-响度的非线性压缩关系：

Figure 2012103322883100001DEST_PATH_IMAGE004

；

F、用RASTA滤波器对语音信号进行滤波，抑制信号频谱中的常量或变化缓慢的非语音部分，增强动态成分，RASTA滤波器

的表达式为：

Figure 2012103322883100001DEST_PATH_IMAGE006

；

G、立方根能量经过RASTA滤波和DCT变换到倒谱域，即可得到新的特征参数，计算过程由式给出：

；

H、计算两路信号特征参数的平均动态Mel倒谱距离D，将D值进行二次多项式变换来预测主观MOS分，通过预测值的大小来判断被测系统语音质量的好坏。