CN103151049A

CN103151049A - 一种面向移动音频的服务质量保障方法及系统

Info

Publication number: CN103151049A
Application number: CN201310034369XA
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 谢松波; 余洪江; 董少龙; 张聪; 高丽; 李登实; 王晓晨; 涂卫平
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2013-06-12
Anticipated expiration: 2033-01-29
Also published as: CN103151049B

Abstract

本发明公开了一种面向移动音频的服务质量保障方法及系统，包括感知模块、认知模块和反馈调节模块，先将经网络传输的参考信号和待测信号送入感知模块，得到层声学特征参数失真测度值和能量均衡参数，再将所得参数输入认知模块，得到处理后的基于移动音频的用户体验得分，反馈调节模块根据所得用户体验用户调整网络传输发送端的发送码率。本发明考虑了移动音频系统中码率低、易丢包、说话人方位不固定等特点，将其他相关参数融合入PEAQ模型并反馈回网络传输端，使得对移动音频质量客观评价的结果更精确。

Description

一种面向移动音频的服务质量保障方法及系统

技术领域

本发明涉及音频质量客观评价领域，尤其涉及面向移动音频的服务质量保障方法及系统。

背景技术

随着移动通信设备的不断发展和广泛普及，移动音频的应用变得更加方便和频繁。在移动通信中，音频编解码器要求采用计算复杂度低、码率低且高质量的音频编码算法，而传统的音频客观质量评价方法并不适用于测试中低码率音频序列。同时移动通信网络具有不稳定性等干扰因素，传统音频客观质量评价方法未考虑通信网络参数对音频质量造成的影响。基于以上两点不足，传统音频客观质量评价方法应用于移动音频序列时，其评价结果与真实主观听觉感受存在较大差异。

同时，为了能更大效率的利用传输带宽并且保证语音质量，某些编码标准已经使用可变码率来传输语音信号，但是传统的码率调节方式都是基于网络传输的，并不能更好的贴合人的主观感受。

发明内容

本发明的目的是提供一种面向移动音频服务质量保障方法，通过反馈调节模块使得对移动音频质量客观评价结果更精确。

为达到上述目的，本发明提供了一种面向移动音频的服务质量保障方法。

在移动通信环境中，音频信号经由发送端编码，通过传输网络传送至接收端。发送端和接收端的音频信号分别记为原始信号与测试信号。本发明方法包括以下步骤：

步骤1，将原始信号和测试信号的时域信号转换为频域信号；可采用短傅里叶法进行时频转换；

步骤2，根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值；

步骤3，根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数；

步骤4，根据原始信号和测试信号的频域信号获取信号的能量均衡参数；

步骤5，融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，得到测试信号的语音频客观质量评价分数；

步骤6，基于抖动失真参数和语音频客观质量评价分数增加或降低发送端的信号传输码率。

上述底层声学特征参数失真测度值

其中，D_p为测试信号第i个底层声学特征参数的失真测度值，x_p、y_p分别为原始信号和测试信号的第p个底层声学特征参数值，p为底层声学特征参数编号。

步骤3进一步包括子步骤：

步骤301，对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号：

其中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，

为加窗后测试信号的第k帧频域信号，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；

步骤302，获取原始信号和测试信号的窗信号的均方差：σ²[k]＝(X_error ^T[k]·X_error[k])/M，其中，σ²[k]为第k帧原始信号和测试信号窗信号的均方差，X_errror[k]为第k帧原始信号和测试信号窗信号的误差信号；X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度；

步骤303，基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中，_N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；

l为连续丢包数目；c²[k+i]为第（k+i）帧原始信号和测试信号窗信号的均方差；

步骤304，寻找测试信号中总体失真N(_k，l)大于阈值N_Thres的区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0}

其中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数；

步骤305，获取测试信号的抖动失真参数

其中，w_k,l是权重，

l_max为最大丢包数目；P_k，l是第k帧信号连续丢包数为l的概率，

N_(k，l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。

步骤4具体为：

对原始信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同，所得阈值即为信号的能量均衡参数；

或，对测试信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同，所得阈值即为信号的能量均衡参数。

步骤5中采用人工神经网络模型实现底层声学特征参数失真测度值、抖动失真参数和能量均衡参数的融合。

步骤6具体为：

发送端每隔一段时间t以码率St₀发送信号，基于步骤3获取所接收测试信号的抖动失真参数JD，若所得抖动失真参数JD不大于预设阈值JD_thres，则按如下步骤调整发送端的信号传输码率：

（1）发送端加上一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE提高，执行步骤（3）；否则，执行步骤（2）

（2）该信道保持以原码率St₀传输信号；

（3）在原码率St₀上继续增加一个码率间隔Δ重新发送信号，并计算本次发送的抖动失真参数JD和QoE，若抖动失真参数JD达到预设阈值JD_thres或QoE不再增加，执行步骤（4）；否则，重复步骤（3）；

（4）停止增加码率，该信道以抖动失真参数JD达到预设阈值JD_thres或QoE不再增加的码率来传输信号；

发送端每隔一段时间t以码率St₀发送信号，基于步骤3获取所接收测试信号的抖动失真参数JD，若所得抖动失真参数JD大于预设阈值JD_thres，表示信道丢包率比较大，则按如下方法调整：

（1）发送端降低一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE提高，执行步骤（3）；否则，执行步骤（2）

（2）该信道保持以原码率St₀传输信号；

（3）在原码率St₀上继续降低一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE降低，执行步骤（4）；否则，重复步骤（3）；

（4）停止增加码率，该信道以使QoE降低的码率来传输信号。

本发明还提供了一种面向移动音频的服务质量保障系统，包括感知模块、认知模块和反馈调节模块，采集的原始信号和测试信号经感知模型处理后得到模型输出参数，所得模型输出参数包括音色输出参数、抖动输出参数和能量均衡参数三类别，模型输出参数作为认知模型的输入，经认知模型融合得到测试信号的语音频客观质量评价分数，即，用户体验分值；反馈调节模块基于用户体验分值调发送端的信道传输码率。

感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块，其中，

时频分析模块，用于将原始信号和测试信号的时域信号转换为频域信号，并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块；

音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并将底层声学特征参数失真测度值输入至认知模块；

质量抖动模块，用来根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数，并将抖动失真参数输入至认知模块和反馈调节模块；抖动失真参数具体计算为：在不同的丢包率情况下，分别计算原始信号和测试信号之间的抖动失真；

能量均衡模块，用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数，并将能量均衡参数输入至认知模块；

认知模块，用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，得到测试信号的语音频客观质量评价分数，并将语音频客观质量评价分数输入至反馈调节模块。

反馈调节模块用来基于抖动失真参数和语音频客观质量评价分数调整发送端的信号传输码率。

上述时频分析模块优选为短傅里叶时频分析模块，用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。

上述质量抖动模块进一步包括子模块：

第一子模块，用来对原始信号和测试信号的频域信号分别进行加窗，获得加窗后的原始信号和测试信号的频域信号间的误差信号；

第二子模块，用来获取原始信号和测试信号的窗信号的均方差；

第三子模块，用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真；

第四子模块，用来寻找测试信号中总体失真大于阈值N_Thres的区域(K,L)；

第五子模块，用来获取测试信号的抖动失真参数。

上述认知模块优选为基于人工神经网络模型的认知模块。

鉴于移动音频系统中码率低、易丢包、说话人方位不固定等特点，本发明考虑了移动音频质量评价系统中质量抖动对评测结果的影响，模拟移动通信应用中带宽受限及丢包误码等相应的影响因素，使得传统音频质量评价方法可适用于中低码率的移动音频；并且，本发明可根据实际语音质量动态调节移动音频发送端的传输码率，使得发送端信道利用率最大且不影响用户体验得分，使得对移动音频质量客观评价的结果更精确。

附图说明

图1是本发明实施例的系统结构框图；

图2是本发明实施例的方法流程图；

图3为实施例中不同编码率下的音频序列得分图；

图4为本实施例中音频序列在不同丢包率情况下的得分图；

图5为传统传统PEAQ算法的主客观得分散点图；

图6为本发明方法的主客观得分相关度图。

具体实施方式

下面以具体实施例结合附图对本发明的技术方案作进一步说明：

参见图1，本发明实施例提供的一种面向移动音频的服务质量保障系统，包括感知模块1，认知模块6和反馈调节模块7，其中，感知模块1包括时频分析模块2、音色评价模块3、质量抖动模块4和能量均衡模块5。

时频分析模块2，用于将输入的原始信号和测试信号的时域信号转换为频域信号，并将所得频域信号分三路分别输入到音色评价模块3、质量抖动模块4与能量均衡模块5。

音色评价模块3，用于根据输入的频域信号，计算原始信号和测试信号的底层声学特征参数，并基于底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并输出给认知模块6。具体计算过程为：根据人耳的听觉掩蔽效应，对原始信号和测试信号划分Bark带（巴克带），计算各Bark带的调制误差、响度失真、噪掩比、带宽等底层声学特征参数；根据原始信号的底层声学特征参数和测试信号的底层声学特征参数，获得测试信号的一组底层声学特征参数失真测度值，输出给认知模块6。

质量抖动模块4，用于根据输入的频域信号，计算测试信号的抖动失真参数，并输出给认知模块6。具体计算过程为：在丢包率分别为1%、3%、5%、6%、10%五种情形时，给原始信号和测试信号的频谱成分加窗；比较两者窗之间的能量差值D_(k，l)；基于能量差值D_(k,l)获取信号总体失真超过设定阈值D_Thres的部分测试信号对这些超过阈值的部分总体失真加权求和即得到测试信号的抖动失真参数JDM，输出给认知模块6和反馈调节模块7。

能量均衡模块5，用于根据输入的频域信号，通过调整原始信号的频谱能量，获取测试信号的能量均衡参数，并输出给认知模型6。具体计算过程为：对原始信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同，所得阈值即为信号的能量均衡参数；或，对测试信号的频域信号进行截短调整，调整阈值，使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同，所得阈值即为信号的能量均衡参数。将所得能量均衡参数输出给认知模块6。

认知模块6，用于融合底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，获得语音频客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数，得到最终的客观差异性得分，即用户体验得分QoE（Quality of Experience）。具体为：采用人工神经网络模型，预先建立用于神经网络系数的语音频测试序列训练集，经训练获得神经网络一系列加权值；基于所得加权值，将底层声学特征参数失真测度值、抖动失真参数和能量均衡参数映射融合，得到单一的用户体验得分QoE。

反馈调节模型7，用于将用户体验得分QOE和抖动失真参数JD作为参考条件动态调节发送端传输码率。本发明的反馈调节模型根据实际应用的码率模式动态调节，每隔一段时间发送端发送一个测试包，当抖动失真参数JD较小时，便会增加码率直到QOE得分不变或者抖动失真参数JD达到预设阈值JD_thres。如果初始JD高过预设阈值JD_thres，说明丢包率较高，将会适当降低码率以适应用户体验得分。

参见图2，本发明实施例提供的面向移动音频的服务质量保障方法，具体包括以下步骤：

步骤1，将输入的原始信号和测试信号的时域信号转换为频域信号。

将原始信号的时域信号x_r通过短时傅里叶变换成频域信号X_r；将测试信号的时域信号x_t通过短时傅里叶变换成频域信号X_t。实施例中，输入的原始信号的时域信号x_r和测试信号的时域信号x_t的采样率均为48kHz，通过短时傅里叶变换得到的频域信号，帧长为2048个点。

步骤2，根据步骤1所得频域信号获取测试信号的底层声学特征参数失真测度值。

将步骤1所得原始信号和测试信号的频域信号分三路，其中第一路频域信号用来计算测试信号的底层声学特征参数失真测度值。具体为：

首先，将原始信号的频域信号X_r和测试信号的频域信号X_t建立从频域到Bark域的映射：

其中，

z为Bark带个数；

f为人类听觉可闻范围，其值为80～18000Hz；

arsinh(·)为反双曲正弦函数。

Zwicker and Feldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带，以及Bark域测度，规定了频率映射到Bark域的规则。

根据现有的国际电信联盟的ITU-R音频质量客观评价标准BS.1387提供的PEAQ模型，通过各Bark的频域信号，分别计算各帧原始信号中每一个Bark带的底层声学特征参数，具体包括调制误差、响度失真、噪掩比、带宽等参数。

根据原始信号的一组底层声学特征参数(y₁,y₂,...y_m)和测试信号的一组底层特征参(z₁,z₂,...z_m)获取测试信号的一组底层声学特征参数失真测度值(DX,D₂,...D_m)。

具体实施时，所述的底层声学特征参数失真测度值

其中，p＝1,2,...,m，m为底层声学特征参数的个数。

步骤3，根据步骤1所得频域信号获取原始信号和测试信号的窗信号之间的抖动失真参数；

步骤1所得频域信号分三路，其中第二路频域信号用来计算原始信号和测试信号的窗信号之间的抖动失真参数。具体为：

首先，对原始信号的频域信号X_r和测试信号的频域信号X_t进行加窗，具体为：在丢包率为1%、3%、5%、6%、10%，对应的窗长度M分别为1帧、3帧、5帧、6帧、10帧的情况下，分别计算加窗后的原始频域信号

和加窗后的测试频域信号

之间的误差信号X_errror[k]：

X_{error} [k] = {\tilde{X}}_{t} [k] - {\tilde{X}}_{r} [k] - - - (2)

式（2）中，k为信号的帧数索引，为加窗后原始信号的第k帧频域信号，

第k帧原始信号的窗信号和测试信号的窗信号之间的均方差σ²[k]为：σ²[k]＝(X_error ^T[k]·X_error[k])/M （3）

式（3）中，X_error ^T[k]为X_errror[k]的倒置矩阵；M为窗长度。

连续丢包数目为l的情况下，第k帧测试信号的总体失真N_(k，l)为：

N_{(k, l)} = Σ_{i = 0}^{l - 1} σ^{2} [k + i] - - - (4)

根据公式（4），计算不同丢包率下的总体失真，本具体实施中选取丢包率分别为1%、3%、5%、6%、10%的五种情况，此时所对应的窗长度分别为1帧、3帧、5帧、6帧、和10帧。获取测试信号在不同的连续丢包数下的总体失真N_(k,l)，在所得总体失真中寻找总体失真N_(k，l)大于阈值N_Thres的信号区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0} - - - (5)

式（5）中，K表示信号帧索引，L表示连续丢包数，k表示具体的信号帧编号，l为具体的连续丢包数。

失真在任何情况下都会发生，本发明忽略较小的失真，因此，根据经验设定阈值N_Thres，仅考虑超过阈值N_Thres的部分失真，并基于设定阈值N_Thres确定区域(K,L)。

假设每帧信号都是由一个包传播，那么k与l是独立随机变量，因此测试信号的抖动失真JD为：

JD = \underset{(k, l) &Element; (K, L)}{Σ} w_{k, l} P_{k, l} N_{(k, l)} - - - (6)

式（6）中，

w_k，l是权重，

l_max为最大丢包数目；

P_k，l是第k帧信号连续丢失数为l的概率，即，连续丢包数目为l的情况下、第k帧测试信号的总体失真

N_{(k, l)} P_{(k, l) &Element; (K, L)} = \frac{N_{(k, l)}}{\max_{(k, l) &Element; (K, L)} (N_{(k, l)})},

max_{(k，l)∈(K，L)}(N_(k,l))表示区域(K,L)内测试信号所有总体失真N_(k，l)的最大值。

步骤4，根据步骤1所得频域信号获取信号的能量均衡参数；

步骤1所得频域信号分三路，其中第三路频域信号用来计算信号的能量均衡参数。

本步骤根据原始信号的频域信号X_r和测试信号的频域信号X_t的能量，比较原始信号和测试信号的频谱能量。

若原始信号频谱能量大于测试信号频谱能量，调整原始信号频谱能量，根据测试信号频谱能量，确定能量阈值T_kn，使得原始信号频谱的孤立特性（Island-like character）与测试信号相同，该能量阈值T_kn即为测试信号的能量均衡参数；若原始信号频谱能量不大于测试信号频谱能量，则调整测试信号频谱能量，根据原始信号频谱能量，确定能量阈值T_kn，使得测试信号频谱的孤立特性（Island-like character）与原始信号相同，该能量阈值T_kn即为原始信号的能量均衡参数。

具体实施时，首先，比较原始信号的频谱能量与测试信号的频谱能量，即，比较频域信号X_r和频域信号X_t的能量；假如原始信号频谱能量大于测试信号频谱能量，计算测试信号带通频谱能量e_k：

e_{k} = Σ_{i = 0}^{total_block} Σ_{j = 94}^{184} {(X_{t} (i, j))}^{2}

其中，X_t(i,j)是测试信号的频域信号；total_block为加窗后的信号时间块总数目；i是时间索引，取值范围为0~total_block；j是频率索引，取值范围为94～184，代表测试信号的频域信号从2.2kHz到4.3kHz的带通信号。

确定能量阈值T_kn，将阈值应用于原始信号的频域信号X_r(i,j),得到截短后原始信号的频域信号X_m(i,j)。

X_{m} (i, j) = \{\begin{matrix} X_{r} (i, j), if | X_{r} (i, j) | > T_{kn} \\ 0, if | X_{r} (i, j) | < T_{kn} \end{matrix}

计算截短后原始信号的频域信号的带通频谱能量

e_{T_{kn}} = Σ_{i = 0}^{total_block} Σ_{j = 94}^{184} {(X_{m} (i, j))}^{2}

将截短后原始信号的频域信号的带通频谱能量与测试信号的带通频谱能量e_k进行比较，寻找使得调整后的原始信号频谱的孤立特性与测试信号相同的阈值T_kn，即为能量均衡参数T_kn。

e_{T_{kn}} < e_{k} &DoubleRightArrow; T_{kn} = T_{kn} + Δ

e_{T_{kn}} < e_{k} &DoubleRightArrow; T_{kn} = T_{kn} + Δ

其中，Δ为步长，本实施例中选为10。

如果寻找不到使得原始信号和测试信号频谱的孤立特性相同的阈值，则调整步长Δ取值，重新寻找。

步骤5，将层特征参数失真测度值(D₁,D₂,...D_m)、抖动失真参数JD和能量均衡参数T_kn进行融合，得到最终单一的音频客观质量评价分数，即用户体验得分。

实施例中通过人工神经网络模型实现融合，主要过程如下：

首先，建立人工神经网络模型，入口函数为

其中e为数学常数，x为该入口函数的输入。

人工神经网络模型包含I个输入，其隐层中有J个节点。预先建立移动语音频的序列集，对模型映射过程中输入层的两个限制因子a_min[i]和a_max[i]、输入层的加权系数w_α[i]、输出层的加权系数w_β[j]以及输出层的两个限制因子b_min和b_max进行训练，得到一系列移动语音频的系数集合。

将底层特征参数失真测度值(D₁,D₂,...D_m)、抖动失真参数JD和能量均衡参数T_kn，共得到I（I=2+m）个认知模块的输入参数α[i]，并输入给神经网络模型，映射到失真索引DI（Distortion Index）：

DI = w_{β} [J] + Σ_{j = 0}^{J - 1} (w_{β} [j] \cdot sig (w_{α} [I, j] + Σ_{i = 0}^{I - 1} w_{α} [i, j] \cdot \frac{α [i] - a_{\min} [i]}{a_{\max} [i] - a_{\min} [i]}))

其中，i取0～I-1，j取0～J-1，m为底层特征参数的个数，α[i]为认知模型的输入参数。

利用失真索引DI，最终计算出音频质量客观质量评价分数QoE：

QoE＝b_min+(b_max-b_min)·sig(DI)

该分数的高低客观表示音频质量的好坏。

人工神经网络模型的相关内容可参见国际标准ITU ITU-R BS.1387-1，《Method for objective measurements of perceived audio quality》。

步骤6，基于抖动失真参数JD和QoE调整发送端发送信号的码率。

发送端每隔一段时间t以码率St₀发送信号，基于步骤3获取所接收测试信号的抖动失真参数JD，若所得抖动失真参数JD不大于预设阈值JD_thres，表示信道丢包率较小，则按如下方法调整：

（1）发送端加上一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE提高，执行步骤（3）；否则，说明用户体验得分变差，执行步骤（2）

（2）该信道保持以原码率St₀传输信号；

（4）停止增加码率，该信道以抖动失真参数JD达到预设阈值JD_thres或QoE不再增加的码率来传输信号。

（2）该信道保持以原码率St₀传输信号；

（4）停止增加码率，该信道以使QoE降低的码率来传输信号。

下面将结合具体实施例对本发明技术效果做进一步详细说明。

一、建立测试语音频序列库，用来训练样本。所建立的语音频序列库包括语音序列、音乐序列和混合序列，同时序列还包含各种不同丢包率情况。主观测试序列来自AMR-WB+和AVS-P10两种编码器的不同码率不同丢包率的序列，包括15个用于训练的序列和12用于个验证的序列，见表1。

听力测试的目的是评估编解码器传输的低码率音频的质量。本发明中的主观测试采用ITU-RBS.1534标准，即“隐藏参考和基准的多刺激法（MUSHRA）”。该方法需要多名具有听音经验的测试者参与。本具体实施中选择了20名音频专业、受过专业听音训练的测试者参与测试工作。MUSHRA对好坏的评分标准分为5个等级，每个级别区间代表的音频质量分别为“优秀”、“好”、“一般”、“较差”、“差”，评价标准的最高得分为100分，最低得分为0分，各自区间包含20分。

表1 15组训练序列

序号	名称	内容
			01	m_ch_x_1.wav	混合序列
02	m_cl_x_1.wav	音乐序列
			03	m_cl_x_2.wav	音乐序列
04	m_ot_x_3.wav	音乐序列
			05	m_ot_x_4.wav	音乐序列
06	m_po_x_1.wav	音乐序列
			07	m_si_x_1.wav	音乐序列
08	m_si_x_3.wav	混合序列
			09	s_cl_2t_1.wav	语音序列
10	s_no_2t_2.wav	混合序列
			11	s_no_2t_3.wav	语音序列
12	s_no_ft_9.wav	语音序列
			13	sbm_sm_x_1.wav	混合序列
14	sbm_sm_x_6.wav	混合序列
			15	som_fi_x_4.wav	混合序列

表2编码率类型

类型	编码率（kbps）
		mi16	10.4
mi17	12.0
		mi18	13.6
mi19	15.2
		mi20	16.8
mi21	19.2
		mi22	20.8
mi23	24.0

需要预先测试的音频序列共有5种类型，测听人员可以在8个信号（5个质量受损信号、1个隐藏原始信号和1个隐藏锚信号）中即时转换。其中隐藏锚信号为一个特殊比特率下没有质量受损的信号。隐藏锚信号的主观测试质量得分见图3所示，代表表2中mi16至mi23 不同编码率下音频序列得分情况。

图4表示mi18即比特率为13.6kps的音频序列在不同丢包率情况下的得分情况，说明丢包率越大，输出端音频序列的质量越差。

二、表3中为12个用于个验证的序列，测试序列包括编解码器为AMR-WB+，码率为13.6kps的不同丢包率情况。

分别采用传统PEAQ算法和本发明方法来预测测试序列质量，即得到两种客观质量评价得分，即用户体验得分QoE，并获取客观得分与主观得分之间的相关度。预测结果分别如图5～6，图5为传统PEAQ算法主观得分相关度图，图6为本发明方法主观得分相关度图，主观得分根据客观得分排列，对每张图的测试结果依次进行比较。比较分析图5～6，本发明方法的主客观得分的相关度更高，相关度为r=0.931；而传统PEAQ算法的相关度仅为r=0.793。

根据各个模型输出参数在预测客观得分时所占比重，可以分析得知，抖动失真参数在预测客观得分的过程中占很重要的比例。因此我们可以得出结论：本发明方法预测得分更加准确，更加适合检测移动音频质量。

表312组验证序列

三、使用不同码率的待测序列来拟合经过网络传输的语音信号。为了更好的模拟服务质量优化的步骤，从表2中最低码率mi16开始发送，假设每隔一个小时发送端发送一次探测包，得到经传输的待测序列。

比较两个序列的客观得分QOE及抖动失真JD，发现JD数值普遍低于100，表示该情况下网络状况良好，丢包率很低。调高码率分别以mi17，mi18…发送，发现QOE得分有所增加，与主观测试结果吻合。同时当码率增加到mi23码率时，QOE不再增加，则以码率mi23发送。如果初始丢包率较大，超过阈值JD_thres200，说明此时网络情况过于拥挤，应该调低码率再发送。阈值JD_thres的设定是取不同丢包率下，训练序列集中已知丢包序列的抖动失真JD的最小值，本实验中设定抖动失真参数阈值JD_thres为200，大约对应丢包率6%。

Claims

1.一种面向移动音频的服务质量保障方法，其特征在于，包括步骤：

2.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

步骤1中采用短傅里叶法进行时频转换。

3.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

所述的底层声学特征参数失真测度值

4.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

步骤3进一步包括子步骤：

步骤303，基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真

其中，N_(k，l)为连续丢包数为l时、测试信号的第k帧信号的总体失真；l为连续丢包数目；σ²[k+i]为第（k+i）帧原始信号和测试信号窗信号的均方差；

步骤304，寻找测试信号中总体失真N_(k，l)大于阈值N_Thres的区域(K,L)：

(K, L) = {(k, l) | (\frac{N_{(k, l)}}{l} - N_{Thres}) > 0}

步骤305，获取测试信号的抖动失真参数

其中，w_k，l是权重，

l_max为最大连续丢包数；P_k，l是第k帧信号连续丢包数为l的概率，

5.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

步骤4具体为：

6.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

7.如权利要求1所述的面向移动音频的服务质量保障方法，其特征在于：

步骤6具体为：

发送端每隔一段时间t以码率St₀发送信号，基于步骤3获取所接收测试信号的抖动失真参数JD，若所得抖动失真参数JD不大于预设阈值JD_thres，执行如下步骤：

6.1发送端加上一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE提高，执行步骤（3）；否则，执行步骤（2）

6.2该信道保持以原码率St₀传输信号；

6.3在原码率St₀上继续增加一个码率间隔Δ重新发送信号，并计算本次发送的抖动失真参数JD和QoE，若抖动失真参数JD达到预设阈值JD_thres或QoE不再增加，执行步骤（4）；否则，重复步骤（3）；

6.4停止增加码率，该信道以抖动失真参数JD达到预设阈值JD_thres或QoE不再增加的码率来传输信号；

若所得抖动失真参数JD大于预设阈值JD_thres，执行如下步骤：

6.5发送端降低一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE提高，执行步骤（3）；否则，执行步骤（2）

6.6该信道保持以原码率St₀传输信号；

6.7在原码率St₀上继续降低一个码率间隔Δ重新发送信号，并计算此次发送的QoE，若QoE降低，执行步骤（4）；否则，重复步骤（3）；

6.7停止增加码率，该信道以使QoE降低的码率来传输信号。

8.一种基于抖动失真的语音频客观质量评价系统，其特征在于，包括：

感知模块、认知模块和反馈调节模块，感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块，其中：

音色评价模块，用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数，基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值，并将底层声学特征参数失真测度值输入至认知模块；

质量抖动模块，用来根据原始信号和测试信号的频域信号获得测试信号总体失真，获取总体失真超过设定阈值的测试信号，并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数，并将抖动失真参数输入至认知模块；

认知模块，用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数，得到测试信号的语音频客观质量评价分数；

反馈调节模块用来基于抖动失真参数和语音频客观质量评价分数增加或降低发送端的信号传输码率。

9.如权利要求7所述的基于抖动失真的语音频客观质量评价系统，其特征在于：

所述的时频分析模块为短傅里叶时频分析模块，用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。

10.如权利要求7所述的基于抖动失真的语音频客观质量评价系统，其特征在于：

所述的质量抖动模块进一步包括子模块：

第五子模块，用来获取测试信号的抖动失真参数。