CN103050128B

CN103050128B - 基于抖动失真的语音频客观质量评价方法及系统

Info

Publication number: CN103050128B
Application number: CN201310033963.7A
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 余洪江; 谢松波; 董少龙; 张聪; 高丽; 李登实; 涂卫平; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2014-11-05
Anticipated expiration: 2033-01-29
Also published as: CN103050128A

Abstract

本发明公开了一种基于抖动失真的语音频客观质量评价方法及系统，包括感知模型和认知模块，感知模型进一步包括时频分析模块、音色感知模块、质量抖动模块和能量均衡模块，感知模型的输出为模型输出参数，经由认知模型拟合得到用户体验得分。本发明提出了一种考虑了质量抖动影响的语音频的客观质量评价方法及系统，适用于中低码率语音频的移动语音频，且评价结果更接近真实主观听觉感受。

Description

基于抖动失真的语音频客观质量评价方法及系统

技术领域

本发明涉及语音频质量客观评价领域，尤其涉及一种基于抖动失真的语音频客观质量评价方法及系统。

背景技术

随着移动通信设备的不断发展和广泛普及，移动语音频的应用变得更加方便和频繁。在移动通信中，语音频编解码器要求采用计算复杂度低、码率低并且高质量的语音频编码算法，而传统的语音频客观质量评价方法并不适用于测试中低码率语音频序列。同时移动通信网络具有不稳定性等干扰因素，传统语音频客观质量评价方法未考虑通信网络参数对语音频质量造成的影响。基于以上两点不足，传统语音频客观质量评价方法应用于移动语音频序列时，其评价结果与真实主观听觉感受存在较大差异。

发明内容

本发明的目的是提供一种基于抖动失真的语音频质量评价方法及系统，可对移动语音频客观质量进行更精确的评价。

为达到上述目的，本发明提供一种基于抖动失真的语音频客观质量评价方法。

在移动通信环境中，语音频信号经发送端编码，通过传输网络传送至接收端，发送端和接收端的语音频信号分别记为原始信号与测试信号。本发明方法包括以下步骤：

步骤1，将原始信号和测试信号的时域信号转换为频域信号；可采用短傅里叶法进行时频转换；

步骤2，根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值；

步骤3，根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数；

步骤4，根据原始信号和测试信号的频域信号获取信号的能量均衡参数；

步骤5，融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，得到测试信号的语音频客观质量评价分数。

步骤1中采用短傅里叶法进行时频转换。

上述底层声学特征参数失真测度值其中，D_p为测试信号第i个底层声学特征参数的失真测度值，x_p、y_p分别为原始信号和测试信号的第p个底层声学特征参数值，p为底层声学特征参数编号。

步骤3进一步包括子步骤：

步骤301，对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号：其中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，X_t[k]为加窗后测试信号的第k帧频域信号，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；

步骤302，获取原始信号和测试信号的窗信号的均方差：σ²[k]＝(X_eror ^T[k]·X_eror[k])/M，其中，σ²[k]为第k帧原始信号和测试信号窗信号的均方差，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度；

步骤303，基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中，N_(k，l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；l为连续丢包数目；σ²[k+i]为第（k+i）帧原始信号和测试信号窗信号的均方差；

步骤304，寻找测试信号中总体失真N_(k，l)大于阈值N_Thres的区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0}

其中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数；步骤305，获取测试信号的抖动失真参数其中，w_k,l是权重，l_max为最大丢包数目；P_k，l是第k帧信号连续丢包数为l的概率，N_(k，l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。

步骤4具体为：

对原始信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同，所得阈值即为信号的能量均衡参数；

或，对测试信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同，所得阈值即为信号的能量均衡参数。

步骤5中采用人工神经网络模型实现底层声学特征参数失真测度值、抖动失真参数和能量均衡参数的融合。

本发明还提供了一种基于抖动失真的语音频客观质量评价系统，包括感知模块和认知模块，采集的原始信号和测试信号经感知模型处理后得到模型输出参数，所得模型输出参数包括音色输出参数、抖动输出参数和能量均衡参数三类别，模型输出参数作为认知模型的输入，经认知模型融合得到测试信号的语音频客观质量评价分数，即，用户体验分值。

感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块，其中，

时频分析模块，用于将原始信号和测试信号的时域信号转换为频域信号，并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块；

音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并将底层声学特征参数失真测度值输入至认知模块；

质量抖动模块，用来根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数，并将抖动失真参数输入至认知模块；抖动失真参数具体计算为：在不同的丢包率情况下，分别计算原始信号和测试信号之间的抖动失真；

能量均衡模块，用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数，并将能量均衡参数输入至认知模块；

认知模块，用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，得到测试信号的语音频客观质量评价分数。

上述时频分析模块优选为短傅里叶时频分析模块，用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。

上述质量抖动模块进一步包括子模块：

第一子模块，用来对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号；

第二子模块，用来获取原始信号和测试信号的窗信号的均方差；

第三子模块，用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真；

第四子模块，用来寻找测试信号中总体失真大于阈值N_Thres的区域(K,L)；

第五子模块，用来获取测试信号的抖动失真参数。

上述认知模块优选为基于人工神经网络模型的认知模块。

本发明考虑了传统语音频质量评价方法不适用于低码率信号和移动通信网络的不稳定性两个问题，提出了一种考虑了质量抖动影响的语音频的客观质量评价方法及系统，该方法及系统能模拟移动通信应用中带宽受限及丢包误码等相应的影响因素，适用于中低码率语音频的移动语音频，且评价结果更接近真实主观听觉感受。

附图说明

图1是本发明实施例的系统结构框图,其中，1-感知模块，2-时频分析模块，3-音色评价模块，4-质量抖动模块，5-能量均衡模块，6-认知模块；

图2是本发明实施例的方法流程图；

图3为实施例中不同编码率下的音频序列得分图；

图4为本实施例中音频序列在不同丢包率情况下的得分图；

图5为传统传统PEAQ算法的主客观得分散点图；

图6为本发明方法的主客观得分相关度图；

图7为各模块输出参数重要性分析图。

具体实施方式

参见图1，本实施例提供的一种基于抖动失真的语音频客观质量评价系统，包括感知模块1和认知模块6，其中，感知模块1包括时频分析模块2、音色评价模块3、质量抖动模块4以及能量均衡模块5。

时频分析模块2，用于将输入的原始信号和测试信号的时域信号转换为频域信号，并将所得频域信号分三路分别输入到音色评价模块3、质量抖动模块4与能量均衡模块5。

音色评价模块3，用于根据输入的频域信号获取原始信号和测试信号的底层声学特征参数，并基于底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并输出给认知模块6。具体为：根据人耳听觉掩蔽效应，将原始信号和测试信号划分Bark带（巴克带），并计算各Bark带的调制误差、响度失真、噪掩比、带宽等底层声学特征参数；根据原始信号的底层声学特征参数和测试信号的底层声学特征参数，获得测试信号的一组底层声学特征参数失真测度值，并将所得底层声学特征参数失真测度值输出给认知模块6。

质量抖动模块4，用于根据输入的频域信号获得测试信号的抖动失真参数，并输出给认知模块6。具体为：在丢包率为1%、3%、5%、6%、10%五种情形时，分别计算原始信号和测试信号的频域信号之间的均方差，并基于所得均方差获取信号总体失真超过设定阈值的部分测试信号，对这些超过阈值的部分总体失真加权求和即得到测试信号的抖动失真参数，并将所得抖动失真参数输出给认知模块6。

能量均衡模块5，用于根据输入的频域信号，通过调整原始信号的频谱能量，获取信号的能量均衡参数，并输出给认知模块6。具体为：对原始信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同，所得阈值即为信号的能量均衡参数；或，对测试信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同，所得阈值即为信号的能量均衡参数。将所得能量均衡参数输出给认知模块6。

认知模块6，用于融合底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，获得语音频客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数，即语音频用户体验得分QoE（QualityofExperience）。具体为：采用人工神经网络模型，预先建立用于神经网络系数的语音频测试序列训练集，经训练获得神经网络系数，即加权值；基于所得加权值，将底层声学特征参数失真测度值、抖动失真参数和能量均衡参数映射融合，得到单一的用户体验得分QoE，即本发明中的语音频客观质量评价分数。

参见图2，本发明实施例的基于抖动失真的语音频客观质量评价方法，具体包括以下步骤：

步骤1，将输入的原始信号和测试信号的时域信号转换为频域信号。

将原始信号的时域信号x_r通过短时傅里叶变换成频域信号X_r；将测试信号的时域信号x_t通过短时傅里叶变换成频域信号X_t。实施例中，输入的原始信号的时域信号x_r和测试信号的时域信号x_t的采样率均为48kHz，通过短时傅里叶变换得到的频域信号，帧长为2048个点。

步骤2，根据步骤1所得频域信号获取测试信号的底层声学特征参数失真测度值。

将步骤1所得原始信号和测试信号的频域信号分三路，其中第一路频域信号用来计算测试信号的底层声学特征参数失真测度值。具体为：

首先，将原始信号的频域信号X_r和测试信号的频域信号X_t建立从频域到Bark域的映射：

z / Bark = 7 \cdot ar \sinh (\frac{f / Hz}{650}) - - - (1)

式（1）中，

z为Bark带个数；

f为人类听觉可闻范围，其值为80～18000Hz；

arsinh(·)为反双曲正弦函数。

ZwickerandFeldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带，以及Bark域测度，规定了频率映射到Bark域的规则。

根据现有的国际电信联盟的ITU-R语音频质量客观评价标准BS.1387提供的PEAQ模型，通过各个Bark的频域信号，分别计算出各帧原始信号和测试信号中各Bark带的底层声学特征参数，具体包括调制误差、响度失真、噪掩比、带宽等参数。

根据原始信号的一组底层声学特征参数(y₁,y₂,...y_m)和测试信号的一组底层特征参(z_1,z_2,...z_m)获取测试信号的一组底层声学特征参数失真测度值(D₁,D₂,...D_m)。

具体实施时，所述的底层声学特征参数失真测度值其中，p＝1,2,...,m，m为底层声学特征参数的个数。

步骤3，根据步骤1所得频域信号获取原始信号和测试信号的窗信号之间的抖动失真参数；

步骤1所得频域信号分三路，其中第二路频域信号用来计算原始信号和测试信号的窗信号之间的抖动失真参数。具体为：

首先，对原始信号的频域信号X_r和测试信号的频域信号X_t进行加窗，具体为：在丢包率为1%、3%、5%、6%、10%，对应的窗长度M分别为1帧、3帧、5帧、6帧、10帧的情况下，分别计算加窗后的原始频域信号和加窗后的测试频域信号之间的误差信号X_errror[k]：

X_{errror} [k] = \tilde{Xt} [k] - \tilde{Xr [k]} - - - (2)

式（2）中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，为加窗后测试信号的第k帧频域信号，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；

第k帧原始信号的窗信号和测试信号的窗信号之间的均方差σ²[k]为：

σ²[k]＝(X_eror ^T[k]·X_erro[k])/M（3）

式（3）中，X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度。

连续丢包数目为l的情况下，第k帧测试信号的总体失真N_(K,l)为：

N_{(k, l)} = Σ_{i = 0}^{l - 1} σ^{2} [k + i] - - - (4)

根据公式（4），计算不同丢包率下的总体失真，本具体实施中选取丢包率分别为1%、3%、5%、6%、10%的五种情况，此时所对应的窗长度分别为1帧、3帧、5帧、6帧、和10帧。获取测试信号在不同的连续丢包数下的总体失真N_(k,l)，在所得总体失真中寻找总体失真N_(k，l)大于阈值N_Thres的信号区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0} - - - (5)

式（5）中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数。

失真在任何情况下都会发生，本发明忽略较小的失真，因此，根据经验设定阈值N_Thres，仅考虑超过阈值N_Thres的部分失真，并基于设定阈值N_Thres确定区域(K,L)。

假设每帧信号都是由一个包传播，那么k与l是独立随机变量，因此测试信号的抖动失真JD为：

JD = \underset{(k, l) &Element; (K, L)}{Σ} W_{k, l} P_{k, l} N_{(k, l) - - - (6)}

式（6）中，w_kl是权重，l_max为最大丢包数目；P_k，l是第k帧信号连续丢失数为l的概率，即，连续丢包数目为l的情况下、第k帧测试信号的总体失真max(k，l)∈(K，L)(N_(k，l))表示区域(K,L)内测试信号所有总体失真N_(k，l)的最大值。

步骤4，根据步骤1所得频域信号获取信号的能量均衡参数；

步骤1所得频域信号分三路，其中第三路频域信号用来计算信号的能量均衡参数。

本步骤根据原始信号的频域信号X_r和测试信号的频域信号X_t的能量，比较原始信号和测试信号的频谱能量。

若原始信号频谱能量大于测试信号频谱能量，调整原始信号频谱能量，根据测试信号频谱能量，确定能量阈值T_kn，使得原始信号频谱的孤立特性（Island-likecharacter）与测试信号相同，该能量阈值T_kn即为测试信号的能量均衡参数；若原始信号频谱能量不大于测试信号频谱能量，则调整测试信号频谱能量，根据原始信号频谱能量，确定能量阈值T_kn，使得测试信号频谱的孤立特性（Island-like character）与原始信号相同，该能量阈值T_kn即为原始信号的能量均衡参数。

具体实施时，首先，比较原始信号的频谱能量与测试信号的频谱能量，即，比较频域信号X_r和频域信号X_t的能量；假如原始信号频谱能量大于测试信号频谱能量，计算测试信号带通频谱能量e_k：

e_{k} = Σ_{i = 0}^{total_block} Σ_{j = 94}^{184} {(X_{t} (i, j))}^{2} - - - (7)

式（7）中，X_t(i,j)是测试信号的频域信号；total_block为加窗后的信号时间块总数目；i是时间索引，取值范围为0~total_block；j是频率索引，取值范围为94～184，代表测试信号的频域信号从2.2kHz到4.3kHz的带通信号。

确定能量阈值T_kn，将能量阈值T_kn应用于原始信号的频域信号X_r(i,j),得到截短后原始信号的频域信号X_m(i,j)：

X_{m} (i, j) = {[\begin{matrix}  \end{matrix}, [\begin{matrix} X_{r} (i, j), if | X_{r} (i, j) | > T_{kn} \\ 0, if | X_{r} (i, j) | < T_{kn} \end{matrix}, - - - (8)]]

计算截短后原始信号的频域信号的带通频谱能量

e_{Tkn} = Σ_{i = 0}^{total_block} Σ_{j = 94}^{184} {(X_{m} (i, j))}^{2} - - - (9)

将截短后原始信号的频域信号的带通频谱能量与测试信号的带通频谱能量e_k进行比较，寻找使得调整后的原始信号频谱的孤立特性与测试信号相同的阈值T_kn，即为能量均衡参数T_kn。

e_{Tkn} < e_{k} &DoubleRightArrow; T_{kn} = T_{kn} + Δ

（10）

e_{Tkn} > e_{k} &DoubleRightArrow; T_{kn} = T_{kn} + Δ - - - (10)

式（10）中，Δ为步长，本实施例中选为10。

如果寻找不到使得原始信号和测试信号频谱的孤立特性相同的阈值，则调整步长Δ取值，重新寻找。

步骤5，将层特征参数失真测度值(D₁,D₂,...D_m)、抖动失真参数JD和能量均衡参数T_kn进行融合，得到语音频客观质量评价分数，即用户体验得分。

实施例中通过人工神经网络模型实现融合，主要过程如下：首先，建立人工神经网络模型，其入口函数为其中，e为数学常数，x为入口函数的输入。

人工神经网络模型包含I个输入，其隐层中有J个节点。预先建立移动语音频的序列集，对模型映射过程中输入层的两个限制因子a_min[i]和a_max[i]、输入层的加权系数w_α[i]、输出层的加权系数w_β[j]以及输出层的两个限制因子b_min和b_max进行训练，得到一系列移动语音频的系数集合。

将底层特征参数失真测度值(D₁,D₂,...D_m)、抖动失真参数JD和能量均衡参数T_kn，共得到I（I=2+m）个认知模块的输入参数α[i]，并输入给神经网络模型，映射到失真索引DI（Distortion Index）：

DI = W_{β} [J] + Σ_{j - 0}^{J - 1} (W_{β} [j] \cdot sig (W_{a} [I, j] + Σ_{i - 0}^{I - 1} W_{a} [i, j] \cdot \frac{a [i] - a_{\min} [i]}{a_{\max} [i] - a_{\min} [i]}))

其中，i取0～I-1，j取0～J-1，m为底层特征参数的个数，α[i]为认知模型的输入参数。

利用失真索引DI，计算语音频客观质量评价分数QoE：

QoE＝b_min+(b_max-b_min)·sig(DI)该分数的高低客观表示语音频质量的好坏。人工神经网络模型的相关内容可参见国际标准ITUITU-RBS.1387-1，《Methodfor objective measurements ofperceived audio quality》。

下面将结合具体实施例对本发明技术效果做进一步详细说明。

一、建立测试语音频序列库，用来训练样本。所建立的语音频序列库包括语音序列、音乐序列和混合序列，同时序列还包含各种不同丢包率情况。主观测试序列来自AMR-WB+和AVS-P10两种编码器的不同码率不同丢包率的序列，包括15个用于训练的序列和12用于个验证的序列，见表1。

表115组训练序列

序号	名称	内容
			01	m_ch_x_1.wav	混合序列
02	m_cl_x_1.wav	音乐序列
			03	m_cl_x_2.wav	音乐序列
04	m_ot_x_3.wav	音乐序列
			05	m_ot_x_4.wav	音乐序列
06	m_po_x_1.wav	音乐序列
			07	m_si_x_1.wav	音乐序列
08	m_si_x_3.wav	混合序列
			09	s_cl_2t1.wav	语音序列
10	s_no_2t_2.wav	混合序列
			11	s_no_2t_3.wav	语音序列
12	s_no_ft_9.wav	语音序列
			13	sbm_sm_x_1.wav	混合序列
14	sbm_sm_x_6.wav	混合序列
			15	som_fi_x_4.wav	混合序列

听力测试的目的是评估编解码器传输的低码率音频的质量。本发明中的主观测试采用ITU-RBS.1534标准，即“隐藏参考和基准的多刺激法（MUSHRA）”。该方法需要多名具有听音经验的测试者参与。本具体实施中选择了20名音频专业、受过专业听音训练的测试者参与测试工作。MUSHRA对好坏的评分标准分为5个等级，每个级别区间代表的音频质量分别为“优秀”、“好”、“一般”、“较差”、“差”，评价标准的最高得分为100分，最低得分为0分，各自区间包含20分。表2编码率类型

类型	编码率（kbps）
		mi16	10.4
mi17	12.0
		mi18	13.6
mi19	15.2
		mi20	16.8
mi21	19.2
		mi22	20.8
mi23	24.0

需要预先测试的音频序列共有5种类型，测听人员可以在8个信号（5个质量受损信号、1个隐藏原始信号和1个隐藏锚信号）中即时转换。其中隐藏锚信号为一个特殊比特率下没有质量受损的信号。隐藏锚信号的主观测试质量得分见图3所示，代表表2中mi16至mi23不同编码率下音频序列得分情况。

图4表示mi18即比特率为13.6kps的音频序列在不同丢包率情况下的得分情况，说明丢包率越大，输出端音频序列的质量越差。

二、表3中为12个用于个验证的序列，测试序列包括编解码器为AMR-WB+，码率为13.6kps的不同丢包率情况。

分别采用传统PEAQ算法和本发明方法来预测测试序列质量，即得到两种客观质量评价得分，即用户体验得分QoE，并获取客观得分与主观得分之间的相关度。预测结果分别如图5～6，图5为传统PEAQ算法主观得分相关度图，图6为本发明方法主观得分相关度图，主观得分根据客观得分排列，对每张图的测试结果依次进行比较。比较分析图5～6，本发明方法的主客观得分的相关度更高，相关度为r=0.931；而传统PEAQ算法的相关度仅为r＝0.793。图7为各个模型输出参数在预测客观得分时所占比重，根据图可以分析得知，抖动失真参数在预测客观得分的过程中占很重要的比例。因此我们可以得出结论：本发明方法预测得分更加准确，更加适合检测移动音频质量。表312组验证序列

序号	名称	内容
			01	m_cl_x_2.wav	音乐序列
02	m_ot_x_1.wav	音乐序列
			03	m_ot_x_5.wav	音乐序列
04	m_ot_x_6.wav	音乐序列
			05	s_cl_2t_5.wav	语音序列
06	s_no_ft_1.wav	语音序列
			07	s_no_ft_4.wav	语音序列
08	sbm_ms_x_1.wav	混合序列
			09	sbm_sm_x_2.wav	混合序列
10	sbm_sm_x_6.wav	混合序列
			11	som_fi_x_1.wav	混合序列
12	som_fi_x_1.wav	混合序列

Claims

1.一种基于抖动失真的语音频客观质量评价方法，包括融合语音频失真特征得到测试信号的语音频客观质量评价分数的步骤，其特征是：

所述的语音频失真特征包括抖动失真参数，所述的抖动失真参数采用如下方法获得：根据原始信号和测试信号的频域信号得到测试信号总体失真，并获取总体失真超过设定阈值的测试信号，基于总体失真超过设定阈值的测试信号获取测试信号的抖动失真参数；

所述的测试信号总体失真其中，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；σ²[k+i]为第(k+i)帧原始信号和测试信号的频域窗信号的均方差；

所述的测试信号的抖动失真参数其中，w_k,l是权重，l_max为最大连续丢包数；P_k,l是第k帧信号连续丢包数为l的概率；(K,L)表示总体失真超过设定阈值的测试信号区域。

2.如权利要求1所述的基于抖动失真的语音频客观质量评价方法，其特征是，包括步骤：

所述的抖动失真参数的获得，进一步包括步骤：

步骤1，对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号：其中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，为加窗后测试信号的第k帧频域信号，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；

步骤2，获取原始信号和测试信号的窗信号的均方差：σ²[k]＝(X_error ^T[k]·X_error[k])/M，其中，σ²[k]为第k帧原始信号和测试信号窗信号的均方差，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度；

步骤3，基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；l为连续丢包数目；σ²[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差；

步骤4，寻找测试信号中总体失真N_(k,l)大于阈值N_Thres的区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0}

其中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数；

步骤5，获取测试信号的抖动失真参数其中，w_k,l是权重，l_max为最大连续丢包数；P_k,l是第k帧信号连续丢包数为l的概率，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。

3.如权利要求1所述的基于抖动失真的语音频客观质量评价方法，其特征是，包括步骤：

所述的语音频失真特征还包括底层声学特征参数失真测度值和能量均衡参数。

4.如权利要求3所述的基于抖动失真的语音频客观质量评价方法，其特征是，包括步骤：

所述的底层声学特征参数采用如下方法获得：

根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值。

5.如权利要求3所述的基于抖动失真的语音频客观质量评价方法，其特征是，包括步骤：

所述的能量均衡参数采用如下方法获得：

6.一种基于抖动失真的语音频客观质量评价系统，其特征是，包括：

感知模块和认知模块；

感知模块用来获得测试信号的语音频失真特征，感知模块进一步包括质量抖动模块，质量抖动模块，用来根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数，并将抖动失真参数输入至认知模块；所述的测试信号总体失真其中，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；σ²[k+i]为第(k+i)帧原始信号和测试信号的频域窗信号的均方差；所述的测试信号的抖动失真参数其中，w_k,l是权重，l_max为最大连续丢包数；P_k,l是第k帧信号连续丢包数为l的概率；(K,L)表示总体失真超过设定阈值的测试信号区域；

认知模块，用来融合所得语音频失真特征得到测试信号的语音频客观质量评价分数。

7.如权利要求6所述的基于抖动失真的语音频客观质量评价系统，其特征是：

感知模块还包括时频分析模块、音色评价模块和能量均衡模块，其中：

音色评价模块，用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并将底层声学特征参数失真测度值输入至认知模块；

能量均衡模块，用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数，并将能量均衡参数输入至认知模块。

8.如权利要求6所述的基于抖动失真的语音频客观质量评价系统，其特征是：

所述的质量抖动模块进一步包括子模块：

第一子模块，用来对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号：其中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，为加窗后测试信号的第k帧频域信号，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；第二子模块，用来获取原始信号和测试信号的窗信号的均方差：σ²[k]＝(X_error ^T[k]·X_error[k])/M，其中，σ²[k]为第k帧原始信号和测试信号窗信号的均方差，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度；

第三子模块，用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；l为连续丢包数目；σ²[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差；第四子模块，用来寻找测试信号中总体失真大于阈值N_Thres的区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0}

其中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数；第五子模块，用来获取测试信号的抖动失真参数其中，w_k,l是权重，l_max为最大连续丢包数；P_k,l是第k帧信号连续丢包数为l的概率，N_(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。