CN103050128B - 基于抖动失真的语音频客观质量评价方法及系统 - Google Patents
基于抖动失真的语音频客观质量评价方法及系统 Download PDFInfo
- Publication number
- CN103050128B CN103050128B CN201310033963.7A CN201310033963A CN103050128B CN 103050128 B CN103050128 B CN 103050128B CN 201310033963 A CN201310033963 A CN 201310033963A CN 103050128 B CN103050128 B CN 103050128B
- Authority
- CN
- China
- Prior art keywords
- signal
- test signal
- distortion
- frequency
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于抖动失真的语音频客观质量评价方法及系统,包括感知模型和认知模块,感知模型进一步包括时频分析模块、音色感知模块、质量抖动模块和能量均衡模块,感知模型的输出为模型输出参数,经由认知模型拟合得到用户体验得分。本发明提出了一种考虑了质量抖动影响的语音频的客观质量评价方法及系统,适用于中低码率语音频的移动语音频,且评价结果更接近真实主观听觉感受。
Description
技术领域
本发明涉及语音频质量客观评价领域,尤其涉及一种基于抖动失真的语音频客观质量评价方法及系统。
背景技术
随着移动通信设备的不断发展和广泛普及,移动语音频的应用变得更加方便和频繁。在移动通信中,语音频编解码器要求采用计算复杂度低、码率低并且高质量的语音频编码算法,而传统的语音频客观质量评价方法并不适用于测试中低码率语音频序列。同时移动通信网络具有不稳定性等干扰因素,传统语音频客观质量评价方法未考虑通信网络参数对语音频质量造成的影响。基于以上两点不足,传统语音频客观质量评价方法应用于移动语音频序列时,其评价结果与真实主观听觉感受存在较大差异。
发明内容
本发明的目的是提供一种基于抖动失真的语音频质量评价方法及系统,可对移动语音频客观质量进行更精确的评价。
为达到上述目的,本发明提供一种基于抖动失真的语音频客观质量评价方法。
在移动通信环境中,语音频信号经发送端编码,通过传输网络传送至接收端,发送端和接收端的语音频信号分别记为原始信号与测试信号。本发明方法包括以下步骤:
步骤1,将原始信号和测试信号的时域信号转换为频域信号;可采用短傅里叶法进行时频转换;
步骤2,根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值;
步骤3,根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数;
步骤4,根据原始信号和测试信号的频域信号获取信号的能量均衡参数;
步骤5,融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数。
步骤1中采用短傅里叶法进行时频转换。
上述底层声学特征参数失真测度值其中,Dp为测试信号第i个底层声学特征参数的失真测度值,xp、yp分别为原始信号和测试信号的第p个底层声学特征参数值,p为底层声学特征参数编号。
步骤3进一步包括子步骤:
步骤301,对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号:其中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,Xt[k]为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;
步骤302,获取原始信号和测试信号的窗信号的均方差:σ2[k]=(Xeror T[k]·Xeror[k])/M,其中,σ2[k]为第k帧原始信号和测试信号窗信号的均方差,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度;
步骤303,基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;l为连续丢包数目;σ2[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差;
步骤304,寻找测试信号中总体失真N(k,l)大于阈值NThres的区域(K,L):
其中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数;步骤305,获取测试信号的抖动失真参数其中,wk,l是权重,lmax为最大丢包数目;Pk,l是第k帧信号连续丢包数为l的概率,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。
步骤4具体为:
对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数;
或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。
步骤5中采用人工神经网络模型实现底层声学特征参数失真测度值、抖动失真参数和能量均衡参数的融合。
本发明还提供了一种基于抖动失真的语音频客观质量评价系统,包括感知模块和认知模块,采集的原始信号和测试信号经感知模型处理后得到模型输出参数,所得模型输出参数包括音色输出参数、抖动输出参数和能量均衡参数三类别,模型输出参数作为认知模型的输入,经认知模型融合得到测试信号的语音频客观质量评价分数,即,用户体验分值。
感知模块进一步包括时频分析模块、音色评价模块、质量抖动模块以及能量均衡模块,其中,
时频分析模块,用于将原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块;
音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并将底层声学特征参数失真测度值输入至认知模块;
质量抖动模块,用来根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数,并将抖动失真参数输入至认知模块;抖动失真参数具体计算为:在不同的丢包率情况下,分别计算原始信号和测试信号之间的抖动失真;
能量均衡模块,用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数,并将能量均衡参数输入至认知模块;
认知模块,用来融合所得底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,得到测试信号的语音频客观质量评价分数。
上述时频分析模块优选为短傅里叶时频分析模块,用来采用短傅里叶将原始信号和测试信号的时域信号转换为频域信号。
上述质量抖动模块进一步包括子模块:
第一子模块,用来对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号;
第二子模块,用来获取原始信号和测试信号的窗信号的均方差;
第三子模块,用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真;
第四子模块,用来寻找测试信号中总体失真大于阈值NThres的区域(K,L);
第五子模块,用来获取测试信号的抖动失真参数。
上述认知模块优选为基于人工神经网络模型的认知模块。
本发明考虑了传统语音频质量评价方法不适用于低码率信号和移动通信网络的不稳定性两个问题,提出了一种考虑了质量抖动影响的语音频的客观质量评价方法及系统,该方法及系统能模拟移动通信应用中带宽受限及丢包误码等相应的影响因素,适用于中低码率语音频的移动语音频,且评价结果更接近真实主观听觉感受。
附图说明
图1是本发明实施例的系统结构框图,其中,1-感知模块,2-时频分析模块,3-音色评价模块,4-质量抖动模块,5-能量均衡模块,6-认知模块;
图2是本发明实施例的方法流程图;
图3为实施例中不同编码率下的音频序列得分图;
图4为本实施例中音频序列在不同丢包率情况下的得分图;
图5为传统传统PEAQ算法的主客观得分散点图;
图6为本发明方法的主客观得分相关度图;
图7为各模块输出参数重要性分析图。
具体实施方式
参见图1,本实施例提供的一种基于抖动失真的语音频客观质量评价系统,包括感知模块1和认知模块6,其中,感知模块1包括时频分析模块2、音色评价模块3、质量抖动模块4以及能量均衡模块5。
时频分析模块2,用于将输入的原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分三路分别输入到音色评价模块3、质量抖动模块4与能量均衡模块5。
音色评价模块3,用于根据输入的频域信号获取原始信号和测试信号的底层声学特征参数,并基于底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并输出给认知模块6。具体为:根据人耳听觉掩蔽效应,将原始信号和测试信号划分Bark带(巴克带),并计算各Bark带的调制误差、响度失真、噪掩比、带宽等底层声学特征参数;根据原始信号的底层声学特征参数和测试信号的底层声学特征参数,获得测试信号的一组底层声学特征参数失真测度值,并将所得底层声学特征参数失真测度值输出给认知模块6。
质量抖动模块4,用于根据输入的频域信号获得测试信号的抖动失真参数,并输出给认知模块6。具体为:在丢包率为1%、3%、5%、6%、10%五种情形时,分别计算原始信号和测试信号的频域信号之间的均方差,并基于所得均方差获取信号总体失真超过设定阈值的部分测试信号,对这些超过阈值的部分总体失真加权求和即得到测试信号的抖动失真参数,并将所得抖动失真参数输出给认知模块6。
能量均衡模块5,用于根据输入的频域信号,通过调整原始信号的频谱能量,获取信号的能量均衡参数,并输出给认知模块6。具体为:对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数;或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。将所得能量均衡参数输出给认知模块6。
认知模块6,用于融合底层声学特征参数失真测度值、抖动失真参数和能量均衡参数,获得语音频客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数,即语音频用户体验得分QoE(QualityofExperience)。具体为:采用人工神经网络模型,预先建立用于神经网络系数的语音频测试序列训练集,经训练获得神经网络系数,即加权值;基于所得加权值,将底层声学特征参数失真测度值、抖动失真参数和能量均衡参数映射融合,得到单一的用户体验得分QoE,即本发明中的语音频客观质量评价分数。
参见图2,本发明实施例的基于抖动失真的语音频客观质量评价方法,具体包括以下步骤:
步骤1,将输入的原始信号和测试信号的时域信号转换为频域信号。
将原始信号的时域信号xr通过短时傅里叶变换成频域信号Xr;将测试信号的时域信号xt通过短时傅里叶变换成频域信号Xt。实施例中,输入的原始信号的时域信号xr和测试信号的时域信号xt的采样率均为48kHz,通过短时傅里叶变换得到的频域信号,帧长为2048个点。
步骤2,根据步骤1所得频域信号获取测试信号的底层声学特征参数失真测度值。
将步骤1所得原始信号和测试信号的频域信号分三路,其中第一路频域信号用来计算测试信号的底层声学特征参数失真测度值。具体为:
首先,将原始信号的频域信号Xr和测试信号的频域信号Xt建立从频域到Bark域的映射:
式(1)中,
z为Bark带个数;
f为人类听觉可闻范围,其值为80~18000Hz;
arsinh(·)为反双曲正弦函数。
ZwickerandFeldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。
根据现有的国际电信联盟的ITU-R语音频质量客观评价标准BS.1387提供的PEAQ模型,通过各个Bark的频域信号,分别计算出各帧原始信号和测试信号中各Bark带的底层声学特征参数,具体包括调制误差、响度失真、噪掩比、带宽等参数。
根据原始信号的一组底层声学特征参数(y1,y2,...ym)和测试信号的一组底层特征参(z1,z2,...zm)获取测试信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)。
具体实施时,所述的底层声学特征参数失真测度值其中,p=1,2,...,m,m为底层声学特征参数的个数。
步骤3,根据步骤1所得频域信号获取原始信号和测试信号的窗信号之间的抖动失真参数;
步骤1所得频域信号分三路,其中第二路频域信号用来计算原始信号和测试信号的窗信号之间的抖动失真参数。具体为:
首先,对原始信号的频域信号Xr和测试信号的频域信号Xt进行加窗,具体为:在丢包率为1%、3%、5%、6%、10%,对应的窗长度M分别为1帧、3帧、5帧、6帧、10帧的情况下,分别计算加窗后的原始频域信号和加窗后的测试频域信号之间的误差信号Xerrror[k]:
式(2)中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;
第k帧原始信号的窗信号和测试信号的窗信号之间的均方差σ2[k]为:
σ2[k]=(Xeror T[k]·Xerro[k])/M(3)
式(3)中,Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度。
连续丢包数目为l的情况下,第k帧测试信号的总体失真N(K,l)为:
根据公式(4),计算不同丢包率下的总体失真,本具体实施中选取丢包率分别为1%、3%、5%、6%、10%的五种情况,此时所对应的窗长度分别为1帧、3帧、5帧、6帧、和10帧。获取测试信号在不同的连续丢包数下的总体失真N(k,l),在所得总体失真中寻找总体失真N(k,l)大于阈值NThres的信号区域(K,L):
式(5)中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数。
失真在任何情况下都会发生,本发明忽略较小的失真,因此,根据经验设定阈值NThres,仅考虑超过阈值NThres的部分失真,并基于设定阈值NThres确定区域(K,L)。
假设每帧信号都是由一个包传播,那么k与l是独立随机变量,因此测试信号的抖动失真JD为:
式(6)中,wkl是权重,lmax为最大丢包数目;Pk,l是第k帧信号连续丢失数为l的概率,即,连续丢包数目为l的情况下、第k帧测试信号的总体失真max(k,l)∈(K,L)(N(k,l))表示区域(K,L)内测试信号所有总体失真N(k,l)的最大值。
步骤4,根据步骤1所得频域信号获取信号的能量均衡参数;
步骤1所得频域信号分三路,其中第三路频域信号用来计算信号的能量均衡参数。
本步骤根据原始信号的频域信号Xr和测试信号的频域信号Xt的能量,比较原始信号和测试信号的频谱能量。
若原始信号频谱能量大于测试信号频谱能量,调整原始信号频谱能量,根据测试信号频谱能量,确定能量阈值Tkn,使得原始信号频谱的孤立特性(Island-likecharacter)与测试信号相同,该能量阈值Tkn即为测试信号的能量均衡参数;若原始信号频谱能量不大于测试信号频谱能量,则调整测试信号频谱能量,根据原始信号频谱能量,确定能量阈值Tkn,使得测试信号频谱的孤立特性(Island-like character)与原始信号相同,该能量阈值Tkn即为原始信号的能量均衡参数。
具体实施时,首先,比较原始信号的频谱能量与测试信号的频谱能量,即,比较频域信号Xr和频域信号Xt的能量;假如原始信号频谱能量大于测试信号频谱能量,计算测试信号带通频谱能量ek:
式(7)中,Xt(i,j)是测试信号的频域信号;total_block为加窗后的信号时间块总数目;i是时间索引,取值范围为0~total_block;j是频率索引,取值范围为94~184,代表测试信号的频域信号从2.2kHz到4.3kHz的带通信号。
确定能量阈值Tkn,将能量阈值Tkn应用于原始信号的频域信号Xr(i,j),得到截短后原始信号的频域信号Xm(i,j):
计算截短后原始信号的频域信号的带通频谱能量
将截短后原始信号的频域信号的带通频谱能量与测试信号的带通频谱能量ek进行比较,寻找使得调整后的原始信号频谱的孤立特性与测试信号相同的阈值Tkn,即为能量均衡参数Tkn。 (10)
式(10)中,Δ为步长,本实施例中选为10。
如果寻找不到使得原始信号和测试信号频谱的孤立特性相同的阈值,则调整步长Δ取值,重新寻找。
步骤5,将层特征参数失真测度值(D1,D2,...Dm)、抖动失真参数JD和能量均衡参数Tkn进行融合,得到语音频客观质量评价分数,即用户体验得分。
实施例中通过人工神经网络模型实现融合,主要过程如下:首先,建立人工神经网络模型,其入口函数为其中,e为数学常数,x为入口函数的输入。
人工神经网络模型包含I个输入,其隐层中有J个节点。预先建立移动语音频的序列集,对模型映射过程中输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wα[i]、输出层的加权系数wβ[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列移动语音频的系数集合。
将底层特征参数失真测度值(D1,D2,...Dm)、抖动失真参数JD和能量均衡参数Tkn,共得到I(I=2+m)个认知模块的输入参数α[i],并输入给神经网络模型,映射到失真索引DI(Distortion Index):
其中,i取0~I-1,j取0~J-1,m为底层特征参数的个数,α[i]为认知模型的输入参数。
利用失真索引DI,计算语音频客观质量评价分数QoE:
QoE=bmin+(bmax-bmin)·sig(DI)该分数的高低客观表示语音频质量的好坏。人工神经网络模型的相关内容可参见国际标准ITUITU-RBS.1387-1,《Methodfor objective measurements ofperceived audio quality》。
下面将结合具体实施例对本发明技术效果做进一步详细说明。
一、建立测试语音频序列库,用来训练样本。所建立的语音频序列库包括语音序列、音乐序列和混合序列,同时序列还包含各种不同丢包率情况。主观测试序列来自AMR-WB+和AVS-P10两种编码器的不同码率不同丢包率的序列,包括15个用于训练的序列和12用于个验证的序列,见表1。
表115组训练序列
序号 | 名称 | 内容 |
01 | m_ch_x_1.wav | 混合序列 |
02 | m_cl_x_1.wav | 音乐序列 |
03 | m_cl_x_2.wav | 音乐序列 |
04 | m_ot_x_3.wav | 音乐序列 |
05 | m_ot_x_4.wav | 音乐序列 |
06 | m_po_x_1.wav | 音乐序列 |
07 | m_si_x_1.wav | 音乐序列 |
08 | m_si_x_3.wav | 混合序列 |
09 | s_cl_2t1.wav | 语音序列 |
10 | s_no_2t_2.wav | 混合序列 |
11 | s_no_2t_3.wav | 语音序列 |
12 | s_no_ft_9.wav | 语音序列 |
13 | sbm_sm_x_1.wav | 混合序列 |
14 | sbm_sm_x_6.wav | 混合序列 |
15 | som_fi_x_4.wav | 混合序列 |
听力测试的目的是评估编解码器传输的低码率音频的质量。本发明中的主观测试采用ITU-RBS.1534标准,即“隐藏参考和基准的多刺激法(MUSHRA)”。该方法需要多名具有听音经验的测试者参与。本具体实施中选择了20名音频专业、受过专业听音训练的测试者参与测试工作。MUSHRA对好坏的评分标准分为5个等级,每个级别区间代表的音频质量分别为“优秀”、“好”、“一般”、“较差”、“差”,评价标准的最高得分为100分,最低得分为0分,各自区间包含20分。表2编码率类型
类型 | 编码率(kbps) |
mi16 | 10.4 |
mi17 | 12.0 |
mi18 | 13.6 |
mi19 | 15.2 |
mi20 | 16.8 |
mi21 | 19.2 |
mi22 | 20.8 |
mi23 | 24.0 |
需要预先测试的音频序列共有5种类型,测听人员可以在8个信号(5个质量受损信号、1个隐藏原始信号和1个隐藏锚信号)中即时转换。其中隐藏锚信号为一个特殊比特率下没有质量受损的信号。隐藏锚信号的主观测试质量得分见图3所示,代表表2中mi16至mi23不同编码率下音频序列得分情况。
图4表示mi18即比特率为13.6kps的音频序列在不同丢包率情况下的得分情况,说明丢包率越大,输出端音频序列的质量越差。
二、表3中为12个用于个验证的序列,测试序列包括编解码器为AMR-WB+,码率为13.6kps的不同丢包率情况。
分别采用传统PEAQ算法和本发明方法来预测测试序列质量,即得到两种客观质量评价得分,即用户体验得分QoE,并获取客观得分与主观得分之间的相关度。预测结果分别如图5~6,图5为传统PEAQ算法主观得分相关度图,图6为本发明方法主观得分相关度图,主观得分根据客观得分排列,对每张图的测试结果依次进行比较。比较分析图5~6,本发明方法的主客观得分的相关度更高,相关度为r=0.931;而传统PEAQ算法的相关度仅为r=0.793。图7为各个模型输出参数在预测客观得分时所占比重,根据图可以分析得知,抖动失真参数在预测客观得分的过程中占很重要的比例。因此我们可以得出结论:本发明方法预测得分更加准确,更加适合检测移动音频质量。表312组验证序列
序号 | 名称 | 内容 |
01 | m_cl_x_2.wav | 音乐序列 |
02 | m_ot_x_1.wav | 音乐序列 |
03 | m_ot_x_5.wav | 音乐序列 |
04 | m_ot_x_6.wav | 音乐序列 |
05 | s_cl_2t_5.wav | 语音序列 |
06 | s_no_ft_1.wav | 语音序列 |
07 | s_no_ft_4.wav | 语音序列 |
08 | sbm_ms_x_1.wav | 混合序列 |
09 | sbm_sm_x_2.wav | 混合序列 |
10 | sbm_sm_x_6.wav | 混合序列 |
11 | som_fi_x_1.wav | 混合序列 |
12 | som_fi_x_1.wav | 混合序列 |
Claims (8)
1.一种基于抖动失真的语音频客观质量评价方法,包括融合语音频失真特征得到测试信号的语音频客观质量评价分数的步骤,其特征是:
所述的语音频失真特征包括抖动失真参数,所述的抖动失真参数采用如下方法获得:根据原始信号和测试信号的频域信号得到测试信号总体失真,并获取总体失真超过设定阈值的测试信号,基于总体失真超过设定阈值的测试信号获取测试信号的抖动失真参数;
所述的测试信号总体失真其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;σ2[k+i]为第(k+i)帧原始信号和测试信号的频域窗信号的均方差;
所述的测试信号的抖动失真参数其中,wk,l是权重,lmax为最大连续丢包数;Pk,l是第k帧信号连续丢包数为l的概率;(K,L)表示总体失真超过设定阈值的测试信号区域。
2.如权利要求1所述的基于抖动失真的语音频客观质量评价方法,其特征是,包括步骤:
所述的抖动失真参数的获得,进一步包括步骤:
步骤1,对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号:其中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;
步骤2,获取原始信号和测试信号的窗信号的均方差:σ2[k]=(Xerror T[k]·Xerror[k])/M,其中,σ2[k]为第k帧原始信号和测试信号窗信号的均方差,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度;
步骤3,基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;l为连续丢包数目;σ2[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差;
步骤4,寻找测试信号中总体失真N(k,l)大于阈值NThres的区域(K,L):
其中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数;
步骤5,获取测试信号的抖动失真参数其中,wk,l是权重,lmax为最大连续丢包数;Pk,l是第k帧信号连续丢包数为l的概率,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。
3.如权利要求1所述的基于抖动失真的语音频客观质量评价方法,其特征是,包括步骤:
所述的语音频失真特征还包括底层声学特征参数失真测度值和能量均衡参数。
4.如权利要求3所述的基于抖动失真的语音频客观质量评价方法,其特征是,包括步骤:
所述的底层声学特征参数采用如下方法获得:
根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值。
5.如权利要求3所述的基于抖动失真的语音频客观质量评价方法,其特征是,包括步骤:
所述的能量均衡参数采用如下方法获得:
对原始信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的原始信号的频谱能量的孤立特性与测试信号相同,所得阈值即为信号的能量均衡参数;
或,对测试信号的频域信号进行截短调整,调整阈值,使得频谱能量幅度大于设定阈值的测试信号的频谱能量的孤立特性与原始信号相同,所得阈值即为信号的能量均衡参数。
6.一种基于抖动失真的语音频客观质量评价系统,其特征是,包括:
感知模块和认知模块;
感知模块用来获得测试信号的语音频失真特征,感知模块进一步包括质量抖动模块,质量抖动模块,用来根据原始信号和测试信号的频域信号获得测试信号总体失真,获取总体失真超过设定阈值的测试信号,并基于总体失真超过阈值的测试信号获取测试信号的抖动失真参数,并将抖动失真参数输入至认知模块;所述的测试信号总体失真其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;σ2[k+i]为第(k+i)帧原始信号和测试信号的频域窗信号的均方差;所述的测试信号的抖动失真参数其中,wk,l是权重,lmax为最大连续丢包数;Pk,l是第k帧信号连续丢包数为l的概率;(K,L)表示总体失真超过设定阈值的测试信号区域;
认知模块,用来融合所得语音频失真特征得到测试信号的语音频客观质量评价分数。
7.如权利要求6所述的基于抖动失真的语音频客观质量评价系统,其特征是:
感知模块还包括时频分析模块、音色评价模块和能量均衡模块,其中:
时频分析模块,用于将原始信号和测试信号的时域信号转换为频域信号,并将所得频域信号分为三路分别输入音色评价模块、质量抖动模块及能量均衡模块;
音色评价模块,用来根据频域信号分别获得原始信号和测试信号的底层声学特征参数,基于原始信号和测试信号的底层声学特征参数获得测试信号的底层声学特征参数失真测度值,并将底层声学特征参数失真测度值输入至认知模块;
能量均衡模块,用来根据原始信号和测试信号的频域信号获取信号的能量均衡参数,并将能量均衡参数输入至认知模块。
8.如权利要求6所述的基于抖动失真的语音频客观质量评价系统,其特征是:
所述的质量抖动模块进一步包括子模块:
第一子模块,用来对原始信号和测试信号的频域信号分别进行加窗,获得加窗后的原始信号和测试信号的频域信号间的误差信号:其中,k为信号的帧数索引,为加窗后原始信号的第k帧频域信号,为加窗后测试信号的第k帧频域信号,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;第二子模块,用来获取原始信号和测试信号的窗信号的均方差:σ2[k]=(Xerror T[k]·Xerror[k])/M,其中,σ2[k]为第k帧原始信号和测试信号窗信号的均方差,Xerrror[k]为第k帧原始信号和测试信号窗信号的误差信号;Xerror T[k]为Xerrror[k]的倒置矩阵;M为窗长度;
第三子模块,用来基于原始信号和测试信号的窗信号的均方差获取测试信号的总体失真其中,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真;l为连续丢包数目;σ2[k+i]为第(k+i)帧原始信号和测试信号窗信号的均方差;第四子模块,用来寻找测试信号中总体失真大于阈值NThres的区域(K,L):
其中,K表示信号帧索引,L表示连续丢包数,k表示具体的信号帧编号,l为具体的连续丢包数;第五子模块,用来获取测试信号的抖动失真参数其中,wk,l是权重,lmax为最大连续丢包数;Pk,l是第k帧信号连续丢包数为l的概率,N(k,l)为连续丢包数为l时、测试信号的第k帧信号的总体失真。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310033963.7A CN103050128B (zh) | 2013-01-29 | 2013-01-29 | 基于抖动失真的语音频客观质量评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310033963.7A CN103050128B (zh) | 2013-01-29 | 2013-01-29 | 基于抖动失真的语音频客观质量评价方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103050128A CN103050128A (zh) | 2013-04-17 |
CN103050128B true CN103050128B (zh) | 2014-11-05 |
Family
ID=48062743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310033963.7A Expired - Fee Related CN103050128B (zh) | 2013-01-29 | 2013-01-29 | 基于抖动失真的语音频客观质量评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103050128B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506387A (zh) * | 2014-12-26 | 2015-04-08 | 大连理工大学 | 一种评估lte通信系统语音质量的方法 |
CN105656931B (zh) * | 2016-03-01 | 2018-10-30 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
EP3522158B1 (en) * | 2016-09-27 | 2023-08-23 | Panasonic Intellectual Property Management Co., Ltd. | Audio signal processing device, audio signal processing method, and control program |
CN108495182A (zh) * | 2018-03-23 | 2018-09-04 | 山西大学 | 一种音频质量自调整控制方法 |
CN111091816B (zh) * | 2020-03-19 | 2020-08-04 | 北京五岳鑫信息技术股份有限公司 | 一种基于语音评测的数据处理系统及方法 |
CN113839906B (zh) * | 2020-06-08 | 2022-12-30 | 华为技术有限公司 | 音视频流质量的确定方法、装置、设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6577996B1 (en) * | 1998-12-08 | 2003-06-10 | Cisco Technology, Inc. | Method and apparatus for objective sound quality measurement using statistical and temporal distribution parameters |
US7680655B2 (en) * | 2005-05-20 | 2010-03-16 | Alcatel-Lucent Usa Inc. | Method and apparatus for measuring the quality of speech transmissions that use speech compression |
CN102044247B (zh) * | 2009-10-10 | 2012-07-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
-
2013
- 2013-01-29 CN CN201310033963.7A patent/CN103050128B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN103050128A (zh) | 2013-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103050128B (zh) | 基于抖动失真的语音频客观质量评价方法及系统 | |
Houtgast et al. | Evaluation of speech transmission channels by using artificial signals | |
Cox et al. | Composite speech spectrum for hearing aid gain prescriptions | |
JP4308278B2 (ja) | 電気通信装置の客観的音声品質測定の方法および装置 | |
Steeneken et al. | A physical method for measuring speech‐transmission quality | |
CN103151049B (zh) | 一种面向移动音频的服务质量保障方法及系统 | |
JP4005128B2 (ja) | 信号品質の評価 | |
CN102044248B (zh) | 一种针对流媒体音频质量的客观评测方法 | |
CN105989853A (zh) | 一种音频质量评测方法及系统 | |
Steeneken et al. | Validation of the revised STIr method | |
CN101452698B (zh) | 一种自动嗓音谐噪比分析方法 | |
Kaczmarek et al. | Annoyance of time-varying road-traffic noise | |
Liang et al. | Output-based objective speech quality | |
KR20000053311A (ko) | 오디오 신호의 청취하기 적합한 음질 평가 | |
CN106997765A (zh) | 人声音色的定量表征方法 | |
Kitawaki et al. | Quality assessment of speech coding and speech synthesis systems | |
Taktakishvili et al. | Objective Assessment of the Quality of Transmission and Informativeness of a Speech Signal According to Statistical Parameters | |
Heute et al. | Integral and diagnostic speech-quality measurement: State of the art, problems, and new approaches | |
US9200944B2 (en) | Method of objectively determining subjective properties of a binaural sound signal | |
Nakatsui et al. | Subjective speech‐to‐noise ratio as a measure of speech quality for digital waveform coders | |
Brachmański | Estimation of logatom intelligibility with the STI method for polish speech transmitted via communication channels | |
Sottek | Sound quality evaluation of noises with spectro-temporal patterns | |
Yao et al. | Estimation of vocal tract parameters for the classification of speech under stress | |
Kondo | Estimation of forced-selection word intelligibility by comparing objective distances between candidates | |
Horev et al. | Research of Detection Probability (Audibility) of Signals in Octave Bands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141105 Termination date: 20220129 |
|
CF01 | Termination of patent right due to non-payment of annual fee |