CN104485114A

CN104485114A - 一种基于听觉感知特性的语音质量客观评估的方法

Info

Publication number: CN104485114A
Application number: CN201410696773.8A
Authority: CN
Inventors: 李庆生; 刘良江; 卞昕; 柏文琦; 周鑫; 彭正梁; 徐昱
Original assignee: HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE; National Institute of Metrology
Current assignee: HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE; National Institute of Metrology; Hunan Institute of Metrology and Test
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2015-04-01
Anticipated expiration: 2034-11-27
Also published as: CN104485114B

Abstract

一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，具体步骤为：1)通过POLQA处理参考信号和劣化信号，然后所述参考信号和劣化信号进入核心模型；2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，再进行听觉变换，使提取的听觉频谱更接近人耳听觉感受；3)通过听觉变换后，再进行干扰分析，分析所述劣化信号相对所述参考信号的失真，得出客观评价MOS分。与其它方法相比，本发明有效地提高了客观评价结果与主观评价结果的相关度。

Description

一种基于听觉感知特性的语音质量客观评估的方法

技术领域

本发明涉及语音信号处理技术领域，具体为一种基于听觉感知特性的语音质量客观评估的方法。

背景技术

语音质量评价从评价主体上讲可分为两大类：主观评价和客观评价。

主观评价是以人为主体来评价语音的质量，该方式虽较为繁杂，但由于人是语音的最终接受者，因此这种评价是语音质量的真实反映。1996年ITU组织提出的平均意见得分(MOS)是一种广泛使用的主观评价方法，用测试者的平均意见分来直观地反映人对语音质量的感觉。主观评价的优点是符合人对语音质量的感觉，缺点是费时费力费钱，且灵活性不够，重复性和稳定性较差，受人的主观影响较大等。

为了克服主观评价的缺点，人们开始研究语音质量客观评价方法。研究语音质量客观评价的目的不是要用客观评价来完全替代主观评价，而是使客观评价成为一种既方便快捷又能够准确预测出主观评价值的语音质量评价手段。语音质量客观评价从评价方法上可分为侵入式(intrusive)和非侵入式(non-intrusive)。侵入式的评价通常也被称为双端或基于输入-输出的评价，它是以语音系统的输入信号和输出信号之间的误差大小来判断语音质量的好坏，通过提取两端语音信号的特征参量来建立评价模型。非侵入式的评价也被称为单端或基于输出的评价，它仅根据语音系统的输出信号来进行质量评价。

ITU-T在2001年发布的P.862感知评估通话质量测量PESQ(PerceptualEvaluationofSpeechQualityAnalysis)是当前性能很高的语音质量客观评价方法，能够较好地识别通信时延、环境噪声和错误，但其是基于Bark谱的感知模型，运算复杂度较高，不利于实时评价语音质量。由于PESQ测试标准的局限性，ITU-T于2011年提出了P.863POLQA(PerceptualObjectiveListeningQualityAnalysis)作为下一代语音质量测试技术，是对P.862的改进。可用于固定电话网络包括LTE在内的移动网络及IP电话网络。

人耳生理学研究表明，人耳听觉系统主要由外耳、中耳和内耳构成。语音信号在听觉系统中，依次通过外耳、中耳和内耳，在经过耳蜗基底膜的频带分解作用后，沿听觉通路进入听觉中枢系统。在整个听觉系统中，耳蜗是非常重要的核心部件。当外界的语音信号传入到耳蜗基底膜之后，基底膜将产生以行波传递形式的振动，且基底膜振动的听觉响应与受刺激的语音信号频率有关；基底膜的这种频率分解作用是人耳听觉系统进行声音信号处理的重要环节。在语音识别中，通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用，本发明采用Gammatone滤波器组实现耳蜗模型。

Gammatone滤波器具有尖锐的频率选择特性，滤波器边沿的衰减很缓慢，有效地避免了相邻频带间的能量泄露，这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的，也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响；同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据，便于进行滤波器性能分析和听觉模型的实现。

发明内容

本申请的目的在于克服现有技术的不足，提供一种使用Gammatone滤波器组对耳蜗基底膜进行仿真，通过引入ITU-T P.863POLQA，提出一种基于听觉感知特性的语音质量客观评估的方法。

为了达到上述目的，本发明采用以下技术方案：

一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，具体步骤为：

1)通过POLQA处理参考信号和劣化信号，然后所述参考信号和劣化信号进入核心模型；

2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，再进行听觉变换，使提取的听觉频谱更接近人耳听觉感受；

3)通过听觉变换后，再进行干扰分析，分析所述劣化信号相对所述参考信号的失真，得出客观评价MOS分。

进一步，所述Gammatone滤波器是一个标准的耳蜗听觉滤波器，滤波器的时域脉冲响应为：

g(t)＝Bⁿt^n-1e^-2πBt cos(2πf₀t+φ)u(t) (1)

其中：t＜0时u(t)＝0，t＞0时u(t)＝1；参数B＝b₁ERB(f₀)，ERB(f₀)为Gammatone滤波器的等价矩形带宽，所述等价矩形带宽(ERB)：对于同样的白噪声输入，和指定的滤波器通过一样能量的矩形滤波器的宽度，所述等价矩形带宽同Gammatone滤波器中心频率f₀的关系是ERB(f₀)＝24.7+0.108f₀。

进一步，所述参数优先b₁＝1.019，n＝4。

进一步，所述将Gammatone滤波器的时域脉冲响应进行Fourier变换，可得到Gammatone滤波器的时域脉冲响应的频率响应特性，所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形；中心频率越高，达到最大振幅所需要的时间τ也越短。

进一步，所述最大幅度出现在中心频率位置的带通滤波器，不同中心频率的Gammatone滤波器具有不同的带宽，带通滤波器中心频率两侧都具有较陡的边沿。

进一步，所述POLQA处理的步骤如下：

1)将参考信号和劣化信号的时间对齐，以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较；

2)在进行时间对齐之后，如果检测到两个信号的采样率不同，则减小较高采样率的信号的采样率，直到达到允许的采样率差；

3)在信号对齐步骤后，所述参考信号和劣化信号进入POLQA的核心模型，所述参考信号和劣化信号被转换成接近人耳听觉特性的语音内部表现形式，在此基础上分析所述参考信号和劣化信号的差异。

进一步，所述POLQA的核心模型处理流程如下：

1)电平调整与IRS滤波，将所述参考信号和劣化信号调整到恒定、统一的电平上，使用IRS滤波器来对原始语音信号及输出语音信号进行滤波，所述滤波的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减，话音通带为300Hz～3.4kHz；

2)听觉变换，所述听觉变换是一个生理声学模型，把信号变换到时频可感知的响

度表达，包括以下步骤：

(a)巴克谱，对语音信号汉明加窗后，用FFT计算每帧的瞬时功率谱，再将功率谱变换为Bark尺度上的能量谱；

(b)频率均衡，计算有效话音帧的平均巴克谱值，通过参考话音和失真话音间的比率就给出传输函数估计，参考话音使用传输函数估计值补偿到和失真话音相当，补偿最多不超过正负20dB；

(c)增益变化均衡，参考信号和失真信号的可听功率之间的比值用于标识增益变化，此比值通过一阶低通滤波器滤波，失真信号乘以这个功率比，补偿到和参考信号相当；

(d)响度映射。通过一个与频率相关的听觉门限和指数变换，将巴克谱映射到响度级。在每一时频单元给出感受到的响度；

3)扰动处理和认知模型,基于音调响度时间表达式，计算出两个指示参考信号与劣化信号差别的参数，一个是扰动密度，由参考信号与劣化信号音调响度时间函数的差别得到；另一个是增加的扰动密度，当劣化信号的功率密度大于参考信号的功率密度时，参考信号与劣化信号音调响度时间函数被优化。

进一步，所述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带，一个临界带的单位用巴克(Bark)表示。

本发明具有以下优点：

1)通过使用Gammatone滤波器组对耳蜗基底膜进行仿真，提出了一种更加符合人耳听觉感知特性的语音质量评价方法，与其它方法相比，本发明有效地提高了客观评价结果与主观评价结果的相关度；

2)利用Gammatone滤波器具有尖锐的频率选择特性，滤波器边沿的衰减很缓慢，有效地避免了相邻频带间的能量泄露，这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的，也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响；同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据，便于进行滤波器性能分析和听觉模型的实现；

3)通过POLQA的核心模型中的频谱映射为巴克谱模块对语音进行临界频带分析处理，有效的将语音频谱转换成听觉频谱。

附图说明

图1a不同中心频率下的Gammatone滤波器的脉冲响应时域波形

图1b不同中心频率下的Gammatone滤波器的幅频响应曲线

图2为POLQA的示意图。

图3为POLQA的核心模型框图。

图4为IRS滤波器的频响特性曲线。

图5为基于Gammatone滤波器组的POLQA语音质量评估方法原理框图。

具体实施方式

1、Gammatone滤波器

Gammatone滤波器是一个标准的耳蜗听觉滤波器，滤波器的时域脉冲响应为：

g(t)＝Bⁿt^n-1e^-2πBt cos(2πf₀t+φ)u(t) (1)

其中：t＜0时u(t)＝0，t＞0时u(t)＝1；参数B＝b₁ERB(f₀)，ERB(f₀)为Gammatone滤波器的等价矩形带宽(等价矩形带宽：对于同样的白噪声输入，和指定的滤波器通过一样能量的矩形滤波器的宽度，简称ERB)，它同Gammatone滤波器中心频率f₀的关系是ERB(f₀)＝24.7+0.108f₀，参数b₁＝1.019是为了让函数更好地与生理数据相符而引入的参数；n为滤波器的阶数，通过研究表明n＝4的Gammatone滤波器就能很好地模拟基底膜的滤波特性；参数φ为滤波器的初始相位。

将Gammatone滤波器的时域脉冲响应进行Fourier变换，即可得到Gammatone滤波器的时域脉冲响应的频率响应特性。不同中心频率f₀下的4阶Gammatone滤波器的脉冲响应时域波形如图1a所示，对应的幅频响应曲线如图1b所示。其中图1a的虚线表示Gammatone滤波器的脉冲响应时域波形的包络，τ的值表示t＝0到振动包络达到最大值所需要的时间；图1b的幅频响应曲线采用的是对数频率横坐标。

观察图1a可发现Gammatone滤波器的脉冲响应时域波形具有以下特征：时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形；中心频率越高，达到最大振幅(即最大包络)所需要的时间τ也越短。这些时域波形特征与听神经的生理学冲激响应数据的特性是非常一致的。观察图1b可发现幅频响应曲线具有以下特征：最大幅度出现在中心频率位置的带通滤波器，不同中心频率的Gammatone滤波器具有不同的带宽；带通滤波器中心频率两侧都具有较陡的边沿，表明Gammatone滤波器具有尖锐的频率选择特性。这些幅频响应特征与基底膜的滤波特性是一致的。

2、POLQA

POLQA(Perceptual Objective Listening Quality Analysis)是ITU-T于2011年提出的P.863标准，在P.862的基础上，POLQA计算模型完成了时域同步、幅值同步、频率规整、响度压缩等步骤，并考虑了人耳响度感受对评估结果的影响。通过频率指标、噪声指标、室内混响指标，以及时间、响度和声调在听觉中的差别指标综合评估得出MOS分值，其示意图如图2所示。

POLQA处理的第一步是参考信号和劣化信号的时间对齐，以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较。

在进行时间对齐之后，如果检测到两个信号的采样率不同，则减小较高采样率的信号的采样率，直到达到允许的采样率差。

在信号对齐步骤后，参考信号和劣化信号进入POLQA的核心模型。这两个信号被转换成接近人耳听觉特性的语音内部表现形式，在此基础上分析两个信号的差异。POLQA的核心模型框图如图3所示。

(1)电平调整与IRS滤波

不同语音系统的增益差别是很大的，当原始语音参考信号通过通信系统后，信号电平发生了变化。为了便于语音信号的比较，要将它们调整到恒定、统一的电平上。感知模型必须考虑人听到的实际声音，所以使用IRS滤波器，起到一个模拟电话手柄的作用。

IRS滤波器的频响特性曲线如图4所示。使用IRS滤波器来对原始语音信号及输出语音信号进行滤波，较好地模拟了通用电话手柄的听筒的频响特性。它的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减，话音通带为300Hz～3.4kHz。

(2)听觉变换

听觉变换是一个生理声学模型，它把信号变换到时频可感知的响度表达，包括以下步骤：

(a)巴克谱。对语音信号汉明加窗后，用FFT计算每帧的瞬时功率谱，再将功率谱变换为Bark尺度上的能量谱。

(b)频率均衡。计算有效话音帧的平均巴克谱值。通过参考话音和失真话音间的比率就给出传输函数估计。参考话音使用传输函数估计值补偿到和失真话音相当，补偿最多不超过正负20dB。

(c)增益变化均衡。参考信号和失真信号的可听功率之间的比值用于标识增益变化。此比值通过一阶低通滤波器滤波，失真信号乘以这个功率比，补偿到和参考信号相当。

(d)响度映射。通过一个与频率相关的听觉门限和指数变换，将巴克谱映射到响度级。在每一时频单元给出感受到的响度。

(3)扰动处理和认知模型

基于音调响度时间表达式，可以计算出两个指示参考信号与劣化信号差别的参数，一个是扰动密度，由参考信号与劣化信号音调响度时间函数的差别得到；另一个是增加的扰动密度，当劣化信号的功率密度大于参考信号的功率密度时，参考信号与劣化信号音调响度时间函数被优化。

认知模型中会计算六个质量指标，分别为：FREQ、NOISE、REVERB和在音调响度时间域描述内部差异的三个指标。这六个指标联合得到客观质量MOS分。

POLQA的核心模型中的频谱映射为巴克谱模块对语音进行临界频带分析处理，是将语音频谱转换成听觉频谱的重要环节之一。

当两个响度不同的声音作用于人耳时，由于频率不同人耳的感知会产生一种现象，即响度较高的频率成分的存在会影响对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。为了描述这种掩蔽效应引入了临界频带的概念。临界频带是一个描述听觉感受特性的重要概念。

耳蜗基底膜的一个重要功能就是频率分解，不同的频率在沿基底膜的不同位置集中响应，临界频带也可定义为：一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。在20—16000Hz范围内的频率可以划分为24个临界带，一个临界带的单位用巴克(Bark)表示。

3、基于听觉感知特性的语音质量客观评估的方法

人耳听觉系统对声音信号的感知具有掩蔽效应，为使评价结果更接近人耳主观感受，在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，则基于Gammatone滤波器组的POLQA语音质量评估方法原理框图如图5所示。具体步骤为：

1)参考信号和劣化信号进行时间对齐，然后进入核心模型进行听觉变换。

2)在核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，使提取的听觉频谱更接近人耳听觉感受。

3)听觉变换后，进行干扰分析，分析劣化信号相对参考信号的失真，得出客观评价MOS分。

其中，Gammatone滤波器是一个标准的耳蜗听觉滤波器，滤波器的时域脉冲响应为：

g(t)＝Bⁿt^n-1e^-2πBt cos(2πf₀t+φ)u(t) (1)

其中：t＜0时u(t)＝0，t＞0时u(t)＝1；参数B＝b₁ERB(f₀)，ERB(f₀)为Gammatone滤波器的等价矩形带宽，所述等价矩形带宽(ERB)：对于同样的白噪声输入，和指定的滤波器通过一样能量的矩形滤波器的宽度，所述等价矩形带宽同Gammatone滤波器中心频率f₀的关系是ERB(f₀)＝24.7+0.108f₀。所述参数优先b₁＝1.019，n＝4。

将Gammatone滤波器的时域脉冲响应进行Fourier变换，可得到Gammatone滤波器的时域脉冲响应的频率响应特性，所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形；中心频率越高，达到最大振幅所需要的时间τ也越短。

最大幅度出现在中心频率位置的带通滤波器，不同中心频率的Gammatone滤波器具有不同的带宽，带通滤波器中心频率两侧都具有较陡的边沿。

POLQA处理的步骤如下：

POLQA的核心模型处理流程如下：

2)听觉变换，所述听觉变换是一个生理声学模型，把信号变换到时频可感知的响度表达，包括以下步骤：

上述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带，一个临界带的单位用巴克(Bark)表示。

虽然上面的举例了一些特定实施例来说明和描述本发明，但并不意味着本发明仅局限于其中的各种细节。相反地，在等价于权利要求书的范畴和范围内可以不偏离本发明精神地在各种细节上做出各种修改。

Claims

1.一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，具体步骤为：

2.根据权利要求1所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述Gammatone滤波器是一个标准的耳蜗听觉滤波器，滤波器的时域脉冲响应为：

g(t)＝Bⁿt^n-1e^-2πBt cos(2πf₀t+φ)u(t) (1)

3.根据权利要求2所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述参数优先b₁＝1.019，n＝4。

4.根据权利要求3所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述将Gammatone滤波器的时域脉冲响应进行Fourier变换，可得到Gammatone滤波器的时域脉冲响应的频率响应特性，所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形；中心频率越高，达到最大振幅所需要的时间τ也越短。

5.根据权利要求4所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述最大幅度出现在中心频率位置的带通滤波器，不同中心频率的Gammatone滤波器具有不同的带宽，带通滤波器中心频率两侧都具有较陡的边沿。

6.根据权利要求1所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述POLQA处理的步骤如下：

7.根据权利要求6所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述POLQA的核心模型处理流程如下：

8.根据权利要求7所述的一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带，一个临界带的单位用巴克(Bark)表示。