CN103151049A - 一种面向移动音频的服务质量保障方法及系统 - Google Patents

一种面向移动音频的服务质量保障方法及系统 Download PDF

Info

Publication number
CN103151049A
CN103151049A CN201310034369XA CN201310034369A CN103151049A CN 103151049 A CN103151049 A CN 103151049A CN 201310034369X A CN201310034369X A CN 201310034369XA CN 201310034369 A CN201310034369 A CN 201310034369A CN 103151049 A CN103151049 A CN 103151049A
Authority
CN
China
Prior art keywords
signal
test signal
frequency
distortion
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310034369XA
Other languages
English (en)
Other versions
CN103151049B (zh
Inventor
胡瑞敏
杨玉红
谢松波
余洪江
董少龙
张聪
高丽
李登实
王晓晨
涂卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310034369.XA priority Critical patent/CN103151049B/zh
Publication of CN103151049A publication Critical patent/CN103151049A/zh
Application granted granted Critical
Publication of CN103151049B publication Critical patent/CN103151049B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种面向移动音频的服务质量保障方法及系统,包括感知模块、认知模块和反馈调节模块,先将经网络传输的参考信号和待测信号送入感知模块,得到层声学特征参数失真测度值和能量均衡参数,再将所得参数输入认知模块,得到处理后的基于移动音频的用户体验得分,反馈调节模块根据所得用户体验用户调整网络传输发送端的发送码率。本发明考虑了移动音频系统中码率低、易丢包、说话人方位不固定等特点,将其他相关参数融合入PEAQ模型并反馈回网络传输端,使得对移动音频质量客观评价的结果更精确。

Description

一种面向移动音频的服务质量保障方法及系统
技术领域
本发明涉及音频质量客观评价领域,尤其涉及面向移动音频的服务质量保障方法及系统。 
背景技术
随着移动通信设备的不断发展和广泛普及,移动音频的应用变得更加方便和频繁。在移动通信中,音频编解码器要求采用计算复杂度低、码率低且高质量的音频编码算法,而传统的音频客观质量评价方法并不适用于测试中低码率音频序列。同时移动通信网络具有不稳定性等干扰因素,传统音频客观质量评价方法未考虑通信网络参数对音频质量造成的影响。基于以上两点不足,传统音频客观质量评价方法应用于移动音频序列时,其评价结果与真实主观听觉感受存在较大差异。 
同时,为了能更大效率的利用传输带宽并且保证语音质量,某些编码标准已经使用可变码率来传输语音信号,但是传统的码率调节方式都是基于网络传输的,并不能更好的贴合人的主观感受。 
发明内容
本发明的目的是提供一种面向移动音频服务质量保障方法,通过反馈调节模块使得对移动音频质量客观评价结果更精确。 
为达到上述目的,本发明提供了一种面向移动音频的服务质量保障方法。 
在移动通信环境中,音频信号经由发送端编码,通过传输网络传送至接收端。发送端和接收端的音频信号分别记为原始信号与测试信号。本发明方法包括以下步骤: 
步骤1,将原始信号和测试信号的时域信号转换为频域信号;可采用短傅里叶法进行时频转换; 
步骤2,根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值; 
步骤3,根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数; 
步骤4,根据原始信号和测试信号的频域信号获取信号的能量均衡参数; 
步骤5,融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数; 
步骤6,基于抖动失真参数和语音频客观质量评价分数增加或降低发送端的信号传输码 率。 
上述底层声学特征参数失真测度值
Figure BDA00002790175900021
其中,Dp为测试信号第i个底层声学特征参数的失真测度值,xp、yp分别为原始信号和测试信号的第p个底层声学特征参数值,p为底层声学特征参数编号。 
步骤3进一步包括子步骤: 
步骤301,对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号:
Figure BDA00002790175900022
其中,k为信号的帧数索引, 为加窗后原始信号的第k帧频域信号,
Figure BDA00002790175900024
为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号; 
步骤302,获取原始信号和测试信号的窗信号的均方差:σ2[k]=(Xerror T[k]·Xerror[k])/M,其中,σ2[k]为第k帧原始信号和测试信号窗信号的均方差,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度; 
步骤303,基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真 其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真; 
l为连续丢包数目;c2[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差; 
步骤304,寻找测试信号中总体失真N(k,l)大于阈值NThres的区域(K,L): 
( K , L ) = { ( k , l ) | ( N ( k , l ) l - N Thres ) > 0 }
其中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数; 
步骤305,获取测试信号的抖动失真参数
Figure BDA00002790175900027
其中,wk,l是权重, 
Figure BDA00002790175900028
lmax为最大丢包数目;Pk,l是第k帧信号连续丢包数为l的概率, 
Figure BDA00002790175900029
N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。 
步骤4具体为: 
对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数; 
或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。 
步骤5中采用人工神经网络模型实现底层声学特征参数失真测度值、抖动失真参数和能量均衡参数的融合。 
步骤6具体为: 
发送端每隔一段时间t以码率St0发送信号,基于步骤3获取所接收测试信号的抖动失真参数JD,若所得抖动失真参数JD不大于预设阈值JDthres,则按如下步骤调整发送端的信号传输码率: 
(1)发送端加上一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,执行步骤(2) 
(2)该信道保持以原码率St0传输信号; 
(3)在原码率St0上继续增加一个码率间隔Δ重新发送信号,并计算本次发送的抖动失真参数JD和QoE,若抖动失真参数JD达到预设阈值JDthres或QoE不再增加,执行步骤(4);否则,重复步骤(3); 
(4)停止增加码率,该信道以抖动失真参数JD达到预设阈值JDthres或QoE不再增加的码率来传输信号; 
发送端每隔一段时间t以码率St0发送信号,基于步骤3获取所接收测试信号的抖动失真参数JD,若所得抖动失真参数JD大于预设阈值JDthres,表示信道丢包率比较大,则按如下方法调整: 
(1)发送端降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,执行步骤(2) 
(2)该信道保持以原码率St0传输信号; 
(3)在原码率St0上继续降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE降低,执行步骤(4);否则,重复步骤(3); 
(4)停止增加码率,该信道以使QoE降低的码率来传输信号。 
本发明还提供了一种面向移动音频的服务质量保障系统,包括感知模块、认知模块和反馈调节模块,采集的原始信号和测试信号经感知模型处理后得到模型输出参数,所得模型输出参数包括音色输出参数、抖动输出参数和能量均衡参数三类别,模型输出参数作为认知模 型的输入,经认知模型融合得到测试信号的语音频客观质量评价分数,即,用户体验分值;反馈调节模块基于用户体验分值调发送端的信道传输码率。 
感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块,其中, 
时频分析模块,用于将原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块; 
音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并将底层声学特征参数失真测度值输入至认知模块; 
质量抖动模块,用来根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数,并将抖动失真参数输入至认知模块和反馈调节模块;抖动失真参数具体计算为:在不同的丢包率情况下,分别计算原始信号和测试信号之间的抖动失真; 
能量均衡模块,用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数,并将能量均衡参数输入至认知模块; 
认知模块,用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数,并将语音频客观质量评价分数输入至反馈调节模块。 
反馈调节模块用来基于抖动失真参数和语音频客观质量评价分数调整发送端的信号传输码率。 
上述时频分析模块优选为短傅里叶时频分析模块,用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。 
上述质量抖动模块进一步包括子模块: 
第一子模块,用来对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号; 
第二子模块,用来获取原始信号和测试信号的窗信号的均方差; 
第三子模块,用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真; 
第四子模块,用来寻找测试信号中总体失真大于阈值NThres的区域(K,L); 
第五子模块,用来获取测试信号的抖动失真参数。 
上述认知模块优选为基于人工神经网络模型的认知模块。 
鉴于移动音频系统中码率低、易丢包、说话人方位不固定等特点,本发明考虑了移动音频质量评价系统中质量抖动对评测结果的影响,模拟移动通信应用中带宽受限及丢包误码等相应的影响因素,使得传统音频质量评价方法可适用于中低码率的移动音频;并且,本发明可根据实际语音质量动态调节移动音频发送端的传输码率,使得发送端信道利用率最大且不影响用户体验得分,使得对移动音频质量客观评价的结果更精确。 
附图说明
图1是本发明实施例的系统结构框图; 
图2是本发明实施例的方法流程图; 
图3为实施例中不同编码率下的音频序列得分图; 
图4为本实施例中音频序列在不同丢包率情况下的得分图; 
图5为传统传统PEAQ算法的主客观得分散点图; 
图6为本发明方法的主客观得分相关度图。 
具体实施方式
下面以具体实施例结合附图对本发明的技术方案作进一步说明: 
参见图1,本发明实施例提供的一种面向移动音频的服务质量保障系统,包括感知模块1,认知模块6和反馈调节模块7,其中,感知模块1包括时频分析模块2、音色评价模块3、质量抖动模块4和能量均衡模块5。 
时频分析模块2,用于将输入的原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分三路分别输入到音色评价模块3、质量抖动模块4与能量均衡模块5。 
音色评价模块3,用于根据输入的频域信号,计算原始信号和测试信号的底层声学特征参数,并基于底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并输出给认知模块6。具体计算过程为:根据人耳的听觉掩蔽效应,对原始信号和测试信号划分Bark带(巴克带),计算各Bark带的调制误差、响度失真、噪掩比、带宽等底层声学特征参数;根据原始信号的底层声学特征参数和测试信号的底层声学特征参数,获得测试信号的一组底层声学特征参数失真测度值,输出给认知模块6。 
质量抖动模块4,用于根据输入的频域信号,计算测试信号的抖动失真参数,并输出给认知模块6。具体计算过程为:在丢包率分别为1%、3%、5%、6%、10%五种情形时,给原始信号和测试信号的频谱成分加窗;比较两者窗之间的能量差值D(k,l);基于能量差值D(k,l)获取信号总体失真超过设定阈值DThres的部分测试信号对这些超过阈值的部分总体失真加权求和即得到测试信号的抖动失真参数JDM,输出给认知模块6和反馈调节模块7。 
能量均衡模块5,用于根据输入的频域信号,通过调整原始信号的频谱能量,获取测试信号的能量均衡参数,并输出给认知模型6。具体计算过程为:对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数;或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。将所得能量均衡参数输出给认知模块6。 
认知模块6,用于融合底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,获得语音频客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数,得到最终的客观差异性得分,即用户体验得分QoE(Quality of Experience)。具体为:采用人工神经网络模型,预先建立用于神经网络系数的语音频测试序列训练集,经训练获得神经网络一系列加权值;基于所得加权值,将底层声学特征参数失真测度值、抖动失真参数和能量均衡参数映射融合,得到单一的用户体验得分QoE。 
反馈调节模型7,用于将用户体验得分QOE和抖动失真参数JD作为参考条件动态调节发送端传输码率。本发明的反馈调节模型根据实际应用的码率模式动态调节,每隔一段时间发送端发送一个测试包,当抖动失真参数JD较小时,便会增加码率直到QOE得分不变或者抖动失真参数JD达到预设阈值JDthres。如果初始JD高过预设阈值JDthres,说明丢包率较高,将会适当降低码率以适应用户体验得分。 
参见图2,本发明实施例提供的面向移动音频的服务质量保障方法,具体包括以下步骤: 
步骤1,将输入的原始信号和测试信号的时域信号转换为频域信号。 
将原始信号的时域信号xr通过短时傅里叶变换成频域信号Xr;将测试信号的时域信号xt通过短时傅里叶变换成频域信号Xt。实施例中,输入的原始信号的时域信号xr和测试信号的时域信号xt的采样率均为48kHz,通过短时傅里叶变换得到的频域信号,帧长为2048个点。 
步骤2,根据步骤1所得频域信号获取测试信号的底层声学特征参数失真测度值。 
将步骤1所得原始信号和测试信号的频域信号分三路,其中第一路频域信号用来计算测试信号的底层声学特征参数失真测度值。具体为: 
首先,将原始信号的频域信号Xr和测试信号的频域信号Xt建立从频域到Bark域的映射: 
Figure BDA00002790175900061
其中, 
z为Bark带个数; 
f为人类听觉可闻范围,其值为80~18000Hz; 
arsinh(·)为反双曲正弦函数。 
Zwicker and Feldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。 
根据现有的国际电信联盟的ITU-R音频质量客观评价标准BS.1387提供的PEAQ模型,通过各Bark的频域信号,分别计算各帧原始信号中每一个Bark带的底层声学特征参数,具体包括调制误差、响度失真、噪掩比、带宽等参数。 
根据原始信号的一组底层声学特征参数(y1,y2,...ym)和测试信号的一组底层特征参(z1,z2,...zm)获取测试信号的一组底层声学特征参数失真测度值(DX,D2,...Dm)。 
具体实施时,所述的底层声学特征参数失真测度值
Figure BDA00002790175900071
其中,p=1,2,...,m,m为底层声学特征参数的个数。 
步骤3,根据步骤1所得频域信号获取原始信号和测试信号的窗信号之间的抖动失真参数; 
步骤1所得频域信号分三路,其中第二路频域信号用来计算原始信号和测试信号的窗信号之间的抖动失真参数。具体为: 
首先,对原始信号的频域信号Xr和测试信号的频域信号Xt进行加窗,具体为:在丢包率为1%、3%、5%、6%、10%,对应的窗长度M分别为1帧、3帧、5帧、6帧、10帧的情况下,分别计算加窗后的原始频域信号
Figure BDA00002790175900072
和加窗后的测试频域信号
Figure BDA00002790175900073
之间的误差信号Xerrror[k]: 
X error [ k ] = X ~ t [ k ] - X ~ r [ k ] - - - ( 2 )
式(2)中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,
Figure BDA00002790175900076
为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号; 
第k帧原始信号的窗信号和测试信号的窗信号之间的均方差σ2[k]为:σ2[k]=(Xerror T[k]·Xerror[k])/M   (3) 
式(3)中,Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度。 
连续丢包数目为l的情况下,第k帧测试信号的总体失真N(k,l)为: 
N ( k , l ) = Σ i = 0 l - 1 σ 2 [ k + i ] - - - ( 4 )
根据公式(4),计算不同丢包率下的总体失真,本具体实施中选取丢包率分别为1%、3%、5%、6%、10%的五种情况,此时所对应的窗长度分别为1帧、3帧、5帧、6帧、和10帧。获取测试信号在不同的连续丢包数下的总体失真N(k,l),在所得总体失真中寻找总体失真N(k,l)大于阈值NThres的信号区域(K,L): 
( K , L ) = { ( k , l ) | ( N ( k , l ) l - N Thres ) > 0 } - - - ( 5 )
式(5)中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数。 
失真在任何情况下都会发生,本发明忽略较小的失真,因此,根据经验设定阈值NThres,仅考虑超过阈值NThres的部分失真,并基于设定阈值NThres确定区域(K,L)。 
假设每帧信号都是由一个包传播,那么k与l是独立随机变量,因此测试信号的抖动失真JD为: 
JD = Σ ( k , l ) ∈ ( K , L ) w k , l P k , l N ( k , l ) - - - ( 6 )
式(6)中, 
wk,l是权重,
Figure BDA00002790175900084
lmax为最大丢包数目; 
Pk,l是第k帧信号连续丢失数为l的概率,即,连续丢包数目为l的情况下、第k帧测试信号的总体失真 N ( k , l ) P ( k , l ) ∈ ( K , L ) = N ( k , l ) max ( k , l ) ∈ ( K , L ) ( N ( k , l ) ) , max(k,l)∈(K,L)(N(k,l))表示区域(K,L)内测试信号所有总体失真N(k,l)的最大值。 
步骤4,根据步骤1所得频域信号获取信号的能量均衡参数; 
步骤1所得频域信号分三路,其中第三路频域信号用来计算信号的能量均衡参数。 
本步骤根据原始信号的频域信号Xr和测试信号的频域信号Xt的能量,比较原始信号和 测试信号的频谱能量。 
若原始信号频谱能量大于测试信号频谱能量,调整原始信号频谱能量,根据测试信号频谱能量,确定能量阈值Tkn,使得原始信号频谱的孤立特性(Island-like character)与测试信号相同,该能量阈值Tkn即为测试信号的能量均衡参数;若原始信号频谱能量不大于测试信号频谱能量,则调整测试信号频谱能量,根据原始信号频谱能量,确定能量阈值Tkn,使得测试信号频谱的孤立特性(Island-like character)与原始信号相同,该能量阈值Tkn即为原始信号的能量均衡参数。 
具体实施时,首先,比较原始信号的频谱能量与测试信号的频谱能量,即,比较频域信号Xr和频域信号Xt的能量;假如原始信号频谱能量大于测试信号频谱能量,计算测试信号带通频谱能量ek: 
e k = Σ i = 0 total _ block Σ j = 94 184 ( X t ( i , j ) ) 2
其中,Xt(i,j)是测试信号的频域信号;total_block为加窗后的信号时间块总数目;i是时间索引,取值范围为0~total_block;j是频率索引,取值范围为94~184,代表测试信号的频域信号从2.2kHz到4.3kHz的带通信号。 
确定能量阈值Tkn,将阈值应用于原始信号的频域信号Xr(i,j),得到截短后原始信号的频域信号Xm(i,j)。 
X m ( i , j ) = X r ( i , j ) , if | X r ( i , j ) | > T kn 0 , if | X r ( i , j ) | < T kn
计算截短后原始信号的频域信号的带通频谱能量
e T kn = &Sigma; i = 0 total _ block &Sigma; j = 94 184 ( X m ( i , j ) ) 2
将截短后原始信号的频域信号的带通频谱能量与测试信号的带通频谱能量ek进行比较,寻找使得调整后的原始信号频谱的孤立特性与测试信号相同的阈值Tkn,即为能量均衡参数Tkn。 
e T kn < e k &DoubleRightArrow; T kn = T kn + &Delta;
e T kn < e k &DoubleRightArrow; T kn = T kn + &Delta;
其中,Δ为步长,本实施例中选为10。 
如果寻找不到使得原始信号和测试信号频谱的孤立特性相同的阈值,则调整步长Δ取值,重新寻找。 
步骤5,将层特征参数失真测度值(D1,D2,...Dm)、抖动失真参数JD和能量均衡参数Tkn进行融合,得到最终单一的音频客观质量评价分数,即用户体验得分。 
实施例中通过人工神经网络模型实现融合,主要过程如下: 
首先,建立人工神经网络模型,入口函数为
Figure BDA00002790175900103
其中e为数学常数,x为该入口函数的输入。 
人工神经网络模型包含I个输入,其隐层中有J个节点。预先建立移动语音频的序列集,对模型映射过程中输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wα[i]、输出层的加权系数wβ[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列移动语音频的系数集合。 
将底层特征参数失真测度值(D1,D2,...Dm)、抖动失真参数JD和能量均衡参数Tkn,共得到I(I=2+m)个认知模块的输入参数α[i],并输入给神经网络模型,映射到失真索引DI(Distortion Index): 
DI = w &beta; [ J ] + &Sigma; j = 0 J - 1 ( w &beta; [ j ] &CenterDot; sig ( w &alpha; [ I , j ] + &Sigma; i = 0 I - 1 w &alpha; [ i , j ] &CenterDot; &alpha; [ i ] - a min [ i ] a max [ i ] - a min [ i ] ) )
其中,i取0~I-1,j取0~J-1,m为底层特征参数的个数,α[i]为认知模型的输入参数。 
利用失真索引DI,最终计算出音频质量客观质量评价分数QoE: 
QoE=bmin+(bmax-bmin)·sig(DI) 
该分数的高低客观表示音频质量的好坏。 
人工神经网络模型的相关内容可参见国际标准ITU ITU-R BS.1387-1,《Method for objective measurements of perceived audio quality》。 
步骤6,基于抖动失真参数JD和QoE调整发送端发送信号的码率。 
发送端每隔一段时间t以码率St0发送信号,基于步骤3获取所接收测试信号的抖动失真 参数JD,若所得抖动失真参数JD不大于预设阈值JDthres,表示信道丢包率较小,则按如下方法调整: 
(1)发送端加上一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,说明用户体验得分变差,执行步骤(2) 
(2)该信道保持以原码率St0传输信号; 
(3)在原码率St0上继续增加一个码率间隔Δ重新发送信号,并计算本次发送的抖动失真参数JD和QoE,若抖动失真参数JD达到预设阈值JDthres或QoE不再增加,执行步骤(4);否则,重复步骤(3); 
(4)停止增加码率,该信道以抖动失真参数JD达到预设阈值JDthres或QoE不再增加的码率来传输信号。 
发送端每隔一段时间t以码率St0发送信号,基于步骤3获取所接收测试信号的抖动失真参数JD,若所得抖动失真参数JD大于预设阈值JDthres,表示信道丢包率比较大,则按如下方法调整: 
(1)发送端降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,执行步骤(2) 
(2)该信道保持以原码率St0传输信号; 
(3)在原码率St0上继续降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE降低,执行步骤(4);否则,重复步骤(3); 
(4)停止增加码率,该信道以使QoE降低的码率来传输信号。 
下面将结合具体实施例对本发明技术效果做进一步详细说明。 
一、建立测试语音频序列库,用来训练样本。所建立的语音频序列库包括语音序列、音乐序列和混合序列,同时序列还包含各种不同丢包率情况。主观测试序列来自AMR-WB+和AVS-P10两种编码器的不同码率不同丢包率的序列,包括15个用于训练的序列和12用于个验证的序列,见表1。 
听力测试的目的是评估编解码器传输的低码率音频的质量。本发明中的主观测试采用ITU-RBS.1534标准,即“隐藏参考和基准的多刺激法(MUSHRA)”。该方法需要多名具有听音经验的测试者参与。本具体实施中选择了20名音频专业、受过专业听音训练的测试者参与测试工作。MUSHRA对好坏的评分标准分为5个等级,每个级别区间代表的音频质量分别为“优秀”、“好”、“一般”、“较差”、“差”,评价标准的最高得分为100分,最低得分为0分,各自区间包含20分。 
表1  15组训练序列 
序号 名称 内容
01 m_ch_x_1.wav 混合序列
02 m_cl_x_1.wav 音乐序列
03 m_cl_x_2.wav 音乐序列
04 m_ot_x_3.wav 音乐序列
05 m_ot_x_4.wav 音乐序列
06 m_po_x_1.wav 音乐序列
07 m_si_x_1.wav 音乐序列
08 m_si_x_3.wav 混合序列
09 s_cl_2t_1.wav 语音序列
10 s_no_2t_2.wav 混合序列
11 s_no_2t_3.wav 语音序列
12 s_no_ft_9.wav 语音序列
13 sbm_sm_x_1.wav 混合序列
14 sbm_sm_x_6.wav 混合序列
15 som_fi_x_4.wav 混合序列
表2编码率类型 
类型 编码率(kbps)
mi16 10.4
mi17 12.0
mi18 13.6
mi19 15.2
mi20 16.8
mi21 19.2
mi22 20.8
mi23 24.0
需要预先测试的音频序列共有5种类型,测听人员可以在8个信号(5个质量受损信号、1个隐藏原始信号和1个隐藏锚信号)中即时转换。其中隐藏锚信号为一个特殊比特率下没有质量受损的信号。隐藏锚信号的主观测试质量得分见图3所示,代表表2中mi16至mi23 不同编码率下音频序列得分情况。 
图4表示mi18即比特率为13.6kps的音频序列在不同丢包率情况下的得分情况,说明丢包率越大,输出端音频序列的质量越差。 
二、表3中为12个用于个验证的序列,测试序列包括编解码器为AMR-WB+,码率为13.6kps的不同丢包率情况。 
分别采用传统PEAQ算法和本发明方法来预测测试序列质量,即得到两种客观质量评价得分,即用户体验得分QoE,并获取客观得分与主观得分之间的相关度。预测结果分别如图5~6,图5为传统PEAQ算法主观得分相关度图,图6为本发明方法主观得分相关度图,主观得分根据客观得分排列,对每张图的测试结果依次进行比较。比较分析图5~6,本发明方法的主客观得分的相关度更高,相关度为r=0.931;而传统PEAQ算法的相关度仅为r=0.793。 
根据各个模型输出参数在预测客观得分时所占比重,可以分析得知,抖动失真参数在预测客观得分的过程中占很重要的比例。因此我们可以得出结论:本发明方法预测得分更加准确,更加适合检测移动音频质量。 
表312组验证序列 
Figure BDA00002790175900131
三、使用不同码率的待测序列来拟合经过网络传输的语音信号。为了更好的模拟服务质量优化的步骤,从表2中最低码率mi16开始发送,假设每隔一个小时发送端发送一次探测包,得到经传输的待测序列。 
比较两个序列的客观得分QOE及抖动失真JD,发现JD数值普遍低于100,表示该情况 下网络状况良好,丢包率很低。调高码率分别以mi17,mi18…发送,发现QOE得分有所增加,与主观测试结果吻合。同时当码率增加到mi23码率时,QOE不再增加,则以码率mi23发送。如果初始丢包率较大,超过阈值JDthres200,说明此时网络情况过于拥挤,应该调低码率再发送。阈值JDthres的设定是取不同丢包率下,训练序列集中已知丢包序列的抖动失真JD的最小值,本实验中设定抖动失真参数阈值JDthres为200,大约对应丢包率6%。 

Claims (10)

1.一种面向移动音频的服务质量保障方法,其特征在于,包括步骤:
步骤1,将原始信号和测试信号的时域信号转换为频域信号;可采用短傅里叶法进行时频转换;
步骤2,根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值;
步骤3,根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数;
步骤4,根据原始信号和测试信号的频域信号获取信号的能量均衡参数;
步骤5,融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数;
步骤6,基于抖动失真参数和语音频客观质量评价分数增加或降低发送端的信号传输码率。
2.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
步骤1中采用短傅里叶法进行时频转换。
3.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
所述的底层声学特征参数失真测度值
Figure FDA00002790175800011
其中,Dp为测试信号第i个底层声学特征参数的失真测度值,xp、yp分别为原始信号和测试信号的第p个底层声学特征参数值,p为底层声学特征参数编号。
4.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
步骤3进一步包括子步骤:
步骤301,对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号:
Figure FDA00002790175800012
其中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,
Figure FDA00002790175800014
为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;
步骤302,获取原始信号和测试信号的窗信号的均方差:σ2[k]=(Xerror T[k]·Xerror[k])/M,其中,σ2[k]为第k帧原始信号和测试信号窗信号的均方差,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度;
步骤303,基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真
Figure FDA00002790175800021
其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;l为连续丢包数目;σ2[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差;
步骤304,寻找测试信号中总体失真N(k,l)大于阈值NThres的区域(K,L):
( K , L ) = { ( k , l ) | ( N ( k , l ) l - N Thres ) > 0 }
其中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数;
步骤305,获取测试信号的抖动失真参数
Figure FDA00002790175800023
其中,wk,l是权重,
Figure FDA00002790175800024
lmax为最大连续丢包数;Pk,l是第k帧信号连续丢包数为l的概率,
Figure FDA00002790175800025
N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。
5.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
步骤4具体为:
对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数;
或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。
6.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
步骤5中采用人工神经网络模型实现底层声学特征参数失真测度值、抖动失真参数和能量均衡参数的融合。
7.如权利要求1所述的面向移动音频的服务质量保障方法,其特征在于:
步骤6具体为:
发送端每隔一段时间t以码率St0发送信号,基于步骤3获取所接收测试信号的抖动失真参数JD,若所得抖动失真参数JD不大于预设阈值JDthres,执行如下步骤:
6.1发送端加上一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,执行步骤(2)
6.2该信道保持以原码率St0传输信号;
6.3在原码率St0上继续增加一个码率间隔Δ重新发送信号,并计算本次发送的抖动失真参数JD和QoE,若抖动失真参数JD达到预设阈值JDthres或QoE不再增加,执行步骤(4);否则,重复步骤(3);
6.4停止增加码率,该信道以抖动失真参数JD达到预设阈值JDthres或QoE不再增加的码率来传输信号;
若所得抖动失真参数JD大于预设阈值JDthres,执行如下步骤:
6.5发送端降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE提高,执行步骤(3);否则,执行步骤(2)
6.6该信道保持以原码率St0传输信号;
6.7在原码率St0上继续降低一个码率间隔Δ重新发送信号,并计算此次发送的QoE,若QoE降低,执行步骤(4);否则,重复步骤(3);
6.7停止增加码率,该信道以使QoE降低的码率来传输信号。
8.一种基于抖动失真的语音频客观质量评价系统,其特征在于,包括:
感知模块、认知模块和反馈调节模块,感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块,其中:
时频分析模块,用于将原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块;
音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并将底层声学特征参数失真测度值输入至认知模块;
质量抖动模块,用来根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数,并将抖动失真参数输入至认知模块;
能量均衡模块,用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数,并将能量均衡参数输入至认知模块;
认知模块,用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数;
反馈调节模块用来基于抖动失真参数和语音频客观质量评价分数增加或降低发送端的信号传输码率。
9.如权利要求7所述的基于抖动失真的语音频客观质量评价系统,其特征在于:
所述的时频分析模块为短傅里叶时频分析模块,用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。
10.如权利要求7所述的基于抖动失真的语音频客观质量评价系统,其特征在于:
所述的质量抖动模块进一步包括子模块:
第一子模块,用来对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号;
第二子模块,用来获取原始信号和测试信号的窗信号的均方差;
第三子模块,用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真;
第四子模块,用来寻找测试信号中总体失真大于阈值NThres的区域(K,L);
第五子模块,用来获取测试信号的抖动失真参数。
CN201310034369.XA 2013-01-29 2013-01-29 一种面向移动音频的服务质量保障方法及系统 Expired - Fee Related CN103151049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310034369.XA CN103151049B (zh) 2013-01-29 2013-01-29 一种面向移动音频的服务质量保障方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310034369.XA CN103151049B (zh) 2013-01-29 2013-01-29 一种面向移动音频的服务质量保障方法及系统

Publications (2)

Publication Number Publication Date
CN103151049A true CN103151049A (zh) 2013-06-12
CN103151049B CN103151049B (zh) 2016-03-02

Family

ID=48549069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310034369.XA Expired - Fee Related CN103151049B (zh) 2013-01-29 2013-01-29 一种面向移动音频的服务质量保障方法及系统

Country Status (1)

Country Link
CN (1) CN103151049B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理系统及方法
CN112511482A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 媒体数据传输方法、装置及系统
CN113839906A (zh) * 2020-06-08 2021-12-24 华为技术有限公司 音视频流质量的确定方法、装置、设备及可读存储介质
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN114898506A (zh) * 2022-05-12 2022-08-12 南京百米需供应链管理有限公司 智能柜控制系统和控制方法
WO2023045565A1 (zh) * 2021-09-22 2023-03-30 中兴通讯股份有限公司 网络管控方法及其系统、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577996B1 (en) * 1998-12-08 2003-06-10 Cisco Technology, Inc. Method and apparatus for objective sound quality measurement using statistical and temporal distribution parameters
US20060265211A1 (en) * 2005-05-20 2006-11-23 Lucent Technologies Inc. Method and apparatus for measuring the quality of speech transmissions that use speech compression
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6577996B1 (en) * 1998-12-08 2003-06-10 Cisco Technology, Inc. Method and apparatus for objective sound quality measurement using statistical and temporal distribution parameters
US20060265211A1 (en) * 2005-05-20 2006-11-23 Lucent Technologies Inc. Method and apparatus for measuring the quality of speech transmissions that use speech compression
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAHUL VANAM ET AL: "EVALUATING LOW BITRATE SCALABLE AUDIO QUALITY USING ADVANCED VERSION OF PEAQ AND ENERGY EQUALIZATION APPROACH", 《ICASSP2005》, 18 March 2005 (2005-03-18) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN104681038A (zh) * 2013-11-29 2015-06-03 清华大学 音频信号质量检测方法及装置
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN104681038B (zh) * 2013-11-29 2018-03-09 清华大学 音频信号质量检测方法及装置
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN112511482A (zh) * 2019-09-16 2021-03-16 华为技术有限公司 媒体数据传输方法、装置及系统
CN111091816A (zh) * 2020-03-19 2020-05-01 北京五岳鑫信息技术股份有限公司 一种基于语音评测的数据处理系统及方法
CN113839906A (zh) * 2020-06-08 2021-12-24 华为技术有限公司 音视频流质量的确定方法、装置、设备及可读存储介质
CN113839906B (zh) * 2020-06-08 2022-12-30 华为技术有限公司 音视频流质量的确定方法、装置、设备及可读存储介质
US11601492B2 (en) 2020-06-08 2023-03-07 Huawei Technologies Co., Ltd. Method, apparatus, and device for determining quality of audio and video stream, and computer-readable storage medium
WO2023045565A1 (zh) * 2021-09-22 2023-03-30 中兴通讯股份有限公司 网络管控方法及其系统、存储介质
CN114898506A (zh) * 2022-05-12 2022-08-12 南京百米需供应链管理有限公司 智能柜控制系统和控制方法

Also Published As

Publication number Publication date
CN103151049B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN103151049B (zh) 一种面向移动音频的服务质量保障方法及系统
CN103050128B (zh) 基于抖动失真的语音频客观质量评价方法及系统
Steeneken et al. A physical method for measuring speech‐transmission quality
CN102664017B (zh) 一种3d音频质量客观评价方法
JP4005128B2 (ja) 信号品質の評価
JP4308278B2 (ja) 電気通信装置の客観的音声品質測定の方法および装置
US8467893B2 (en) Objective measurement of audio quality
KR100610228B1 (ko) 오디오 신호의 전송 품질 평가 방법
Steeneken et al. Validation of the revised STIr method
CN1321390C (zh) 客观音质评价归一化主客观统计相关模型的建立方法
CN105989853A (zh) 一种音频质量评测方法及系统
CN1327407C (zh) 用于确定语音信号的质量的方法和设备
JPH10505718A (ja) オーディオ品質の解析
JPH08314884A (ja) 入力信号を特性化するための方法及び装置
CN101896965A (zh) 用于音频传输系统的语音可懂度测量的方法和系统
CN104658543A (zh) 一种室内混响消除的方法
Liang et al. Output-based objective speech quality
Kitawaki et al. Quality assessment of speech coding and speech synthesis systems
Taktakishvili et al. Objective Assessment of the Quality of Transmission and Informativeness of a Speech Signal According to Statistical Parameters
Heute et al. Integral and diagnostic speech-quality measurement: State of the art, problems, and new approaches
US9200944B2 (en) Method of objectively determining subjective properties of a binaural sound signal
Nakatsui et al. Subjective speech‐to‐noise ratio as a measure of speech quality for digital waveform coders
Meky et al. Prediction of speech quality using radial basis functions neural networks
Brachmański Estimation of logatom intelligibility with the STI method for polish speech transmitted via communication channels
Horev et al. Research of Detection Probability (Audibility) of Signals in Octave Bands

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160302

Termination date: 20200129

CF01 Termination of patent right due to non-payment of annual fee