CN1645475A

CN1645475A - 客观音质评价归一化主客观统计相关模型的建立方法

Info

Publication number: CN1645475A
Application number: CNA2005100202038A
Authority: CN
Inventors: 张知易; 吴江滨
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2005-01-18
Filing date: 2005-01-18
Publication date: 2005-07-27
Anticipated expiration: 2025-01-18
Also published as: CN1321390C

Abstract

客观音质评价归一化主客观统计相关模型的建立方法，提供了一种针对确定的语音条件类型和确定的客观失真测度，通过充分必要的失真语音条件的全程语音质量实际主观音质的MOS(平均意见分)评价测试结果，建立具有实际应用价值的客观音质评价归一化统计相关模型的方法。本方法已经用于通信干扰效果评估设备系统之中，对于不同的语音系统或条件，并就不同的测度建立不同的归一化相关模型，不仅各模型之间具有好的可比性，而且各自具有好的实用性。

Description

客观音质评价归一化主客观统计相关模型的建立方法

技术领域

本发明涉及客观音质评价统计相关模型的建立方法，尤其涉及客观音质评价归一化主客观统计相关模型的建立方法。

背景技术

靠人耳感知完成主观音质评价，不仅费时费力，条件要求高，而且重复性差，因此，从事语音信号处理及通信的工程师们，早就希望用设备来对处理及经过传输的语音进行客观音质评价。国内(一些研究所、高校)外(如欧美、日本)进行语音客观音质评价的研究已经20来年，应该说，在学术上取得了相当大的成果，除了早期基于时域波形分析研究提出的信噪比(SNR)和分段信噪比(SNR_SEG)等测度外，最近十来年的研究提出了许多性能较好的客观音质评价测度，如LPC倒谱距离(LPC-CD)、信息指数(II)、相关函数(CHF)、对数谱距离(LSD)、MEL倒谱系数距离(MEL-CD)Bark谱距离(BSD)及改进的BSD(MBSD)等。ITU-T于96年8月为电话频带语音编码器客观音质评价提出了“感知的音质测度(PSQM)”的P.861建议，而且在2001年2月，考虑传输滤波、延时、编码失真和信道误码特性，将PSQM结合感知分析测试系统(PAMS)算法，提出了ITU-T.P862建议，以图取代P.861，这就表明客观音质评价的研究，已朝实用化和标准化方向发展了。但是虽然对客观音质评价测度及方法的研究在最近十几年中开展的如火如荼，但所有文献报道的客观音质评价研究，统计分析都没有提出建立归一化相关模型的方法，因而还未达到实际应用的地步。

发明内容

本发明的目的是提供一种针对确定的语音条件类型和确定的客观失真测度，通过充分必要的失真语音条件的全程语音质量实际主观音质的MOS(平均意见分)评价测试结果，建立具有实际应用价值的客观音质评价归一化统计相关模型的方法。

本发明的实现方法包括以下步骤：

(1)确定一种语音失真类型，并设定充分必要的失真测试条件等级；在主观感觉音质从几乎没有失真，到失真严重得根本不能通信的范围内，设定不少于10种等级，而且应采取不均匀分布的等级设定，失真严重段应设置得相对密一些；

(2)选择测试发音材料，选择的测试发音材料应长于10秒钟，并至少包括3个语句，由不少于三男三女的多个发音人对步骤(1)中设定的每个语音失真测试条件(i)按8000Hz采样频率，线性16位PCM数据率完成所有失真条件的数字化采集，生成“*.WAV”格式语音数据文件；

(3)对步骤(2)中产生的每个语音数据文件进行主观评听测试，并统计出每个测试条件(i)的多个发音人的MOS平均得分(MOS(i))；

(4)根据无话段的电平V_UN设置去停顿的电平门限V_T(一般1.3～1.5V_UN)，以帧为基础编制去除停顿程序，用它去除低于门限的帧信号，完成所有测试文件句子和音节间的停顿去除；

(5)用标准语音源文件和步骤(2)中产生的测试语音文件进行客观音质失真距离的计算，得到每个测试条件(i)的多个发音人的失真距离的平均值D(i)；

(6)根据步骤(5)中算出的D(i)，找出最大失真距离D_max(m)，并进行归一化处理D_n(i)＝D(i)/D_max(m)，得到针对每个测试条件(i)的客观失真距离D_n(i)；

(7)对于所有失真条件的主观MOS(i)得分和客观失真距离D_n(i)，用Matlab模板程序，完成基于最小二乘法的二次函数：

M \overset{)}{O} S (i) = a D_{n_{n}}^{2} (i) + b D_{n} (i) + c

(其中

是客观预测的主观MOS得分)，得到拟合曲线；

(8)对拟合曲线进行归一化调整；审查拟合曲线纵横轴的交叉位置，看是否出现以下三种情况

a.如果拟合曲线与纵轴交叉位置超过5，则人为给定一组或一组以上[D_n(i)＝0，MOS(i)＝4.5～4.9]的主客观数值，以使曲线重新拟合纵轴交叉略小于5，；

b.如果拟合曲线与横轴交叉小于1，则人为适当增加一组或一组以上[D_n(i)接近1，MOS(i)＝0]的主客观数值，以使横轴交叉接近或几乎等于1；

c.如果拟合曲线与横轴交叉大于1，则人为设定一个大于原有最大值的D_max(m)值，以使曲线重新拟合横轴交叉接近或几乎等于1；

以上三个步骤可以重复多次，直到得到满意的结果为止。

(9)求出主客观评价之间的相关系数；对实验类型条件的结果，用如下归一化相关系数计算公式

ρ = \frac{Σ_{i = 1}^{N} MOS (i) \cdot M \overset{)}{O} S (i)}{\sqrt{Σ_{i = 1}^{N} {MOS}^{2} (i)} \sqrt{Σ_{i = 1}^{N} M \overset{)}{O} S^{2}} (I)}

求出主客观评价之间的相关系数ρ，得到客观评价预测主观的相关分析结果。

利用本发明建立的归一化相关模型，对语音通信中的编码技术、研制设备或信道性能进行客观音质评价测试，增强了设备或信道性能比较的可信度，提高了测试的效率，而且使用方便。本方法经用于通信干扰效果评估设备系统中，对于不同的语音系统或条件，并就不同的测度建立不同的归一化相关模型，不仅各模型之间具有具有好的可比性，而且各自具有好的实用性。

附图说明

图1是客观音质评价归一化主客观统计相关模型的建立方法实现流程框图

图2是某种语音条件的MEL-CD测度二次曲线拟合-

具体实施方式

下面结合附图详细说明本发明的实现方法

本发明可以在计算机上用Matlab编程工具实现，其流程框图如图1所示，主要步骤如下：

1、确立模型建立的条件；语音失真条件及失真测度。

确立某种类型语音失真条件，如波形编码，参数编码，信道误码、噪声调频及类语音干扰失真之类；设定既定失真语音类型充分必要的失真测试条件(主观感觉音质从几乎没有失真，到失真严重得根本不能通信)等级，一般不少于10种，而且采取不均匀分布的等级设定，失真严重段应设置得相对密一些；选择10秒左右，每个包括3个语句为测试单元的发音材料，由多个发音人(一般包括3男3女)按8000Hz采样频率，线性16位PCM数据率，完成所有失真语音条件的数字化采集，生成“*.WAV”格式语音数据文件。最好使用有关MOS测试标准SJ 20852-2002中提供的的语音材料，或2003年审定通过即将公布的新标准“基于感知测度的军用通信设备客观音质评价方法”(项目编号B25001)附录A中提供的最小化语音数据库材料，来产生测试用的失真语音数据文件；

2、获取足够的语音条件的主客观数据[MOS(i)，D(i)]；

对上述步骤产生的所有测试文件集合进行排序，并用随机化程序形成主观评听测试用的随机出现的文件序列。按SJ 20771-2000标准要求，完成每个文件的主观评听测试，并统计出每个测试条件(i)的多个发音人(按标准规定，一般包括3男3女)的MOS平均得分(MOS(i))；根据无话段的电平V_UN，设置去停顿的电平门限V_T(一般1.3～1.5V_UN)，以帧为基础编制去除停顿程序，用它去除低于门限的帧信号，完成所有测试文件句子和音节间的停顿去除。

基于某种选定测度，用每个标准语音源文件和测试语音文件进行客观音质失真距离的计算，从而得到每个测试条件(i)的多个发音人的失真距离的平均值D(i)；找到最大失真距离D_max(m)，完成归一化处理D_n(i)＝D(i)/D_max(m)，得到客观失真距离D_n(i)；

3、调用模板程序Matlab.m(见附录)，按模板形式对编制的程序进行简要说明；并根据测试条件，修改模板中图题Tittle的文字内容；根据使用的测度，修改横轴标识文字；

4、为Matlab.m程序data语句注入数组[D(i)，MOS(i)]，并加注释“％”；

5、保存并运行Matlab.m程序。对于所有失真条件的主观MOS(i)得分和客观失真距离D_n(i)，用模板程序Matlab.m，完成基于最小二乘法的二次函数：

M \overset{)}{O} S (i) = a D_{n_{n}}^{2} (i) + b D_{n} (i) + c

曲线拟合(见图2中的曲线示例)，其中

是客观预测的主观MOS得分；

6、拟合曲线归一化调整；

审查拟合曲线纵横轴的交叉位置，看是否出现以下三种情况

a.如果纵轴交叉位置超过5，则人为给定一组或一组以上[D_n(i)＝0，MOS(i)＝4.5～4.9]的主客观数值，以使曲线重新拟合纵轴交叉略小于5；

b.如果横轴交叉小于1，则人为适当增加一组或一组以上[D_n(i)接近1，MOS(i)＝0]的主客观数值，以使横轴交叉接近或几乎等于1；

c.曲线与横轴交叉大于1，则人为设定一个大于原有最大值的D_max(m)值，以使曲线重新拟合横轴交叉接近或几乎等于1；

以上三个步骤也许重复多次，直到满意为止。

7、从结果中记录二次曲线系数a，b，c的值；相关系数ρ，标准偏差σ及最终的D_max(m)。对实验类型条件的结果，用如下归一化相关系数计算公式

ρ = \frac{Σ_{i = 1}^{N} MOS (i) \cdot M \overset{)}{O} S (i)}{\sqrt{Σ_{i = 1}^{N} {MOS}^{2} (i)} \sqrt{Σ_{i = 1}^{N} M \overset{)}{O} S^{2} (I)}}

求出主客观评价之间的相关系数ρ，从而得到客观评价预测主观的相关分析结果。

附录：Matlab.m模板程序如下：

　　％对MEL-CD距离及MOS得分进行二次曲线的拟合，并给出

　　％二次多项式的系数。

　　％MEL-CD  MOS       condition
data＝...

　　[0        4.5       ％列入数组

　　0.613     1.9784    ％测试条件注释

　　”        ”

　　”        ”

　　”        ”

　　0.151     4.4777    ％SNR＝-3.0 Dmax(i)

　　”        ”

　　”        ”
]；

　　x＝data(:，1)；

　　x＝x/2.1；

　　y＝data(:，2)；

　　％m＝ex(:，1)；

　　％k＝ex(:，2)；

　　％m＝m/1.2；

　　n＝2；

　　coe＝polyfit(x，y，n)

　　xi＝linspace(0，1，1000)；

　　z＝polyval(coe，xi)；

　　plot(x，y，′bo′，xi，z，′r:′，m，k，′+′)；
        <!-- SIPO <DP n="5"> -->
        <dp n="d5"/>
　　axis([0105])；

　　％grid on

　　title(′二次拟合曲线，QPSK调制，定频，G729，system6′)；

　　xlabel(′Bark距离′)，ylabel(′MOS得分′)；

　　n＝length(x)；

　　my＝0；fenzi＝0；fenmu＝0；

　　for i＝1:n

　　     mos(i)＝coe(1)*x(i)^2+coe(2)*x(i)+coe(3)；

　　     my＝my+y(i)；

　　end

　　％moss＝coe(1)*.547^2+coe(2)*.547+coe(3)

　　％hold on

　　％colstyle(′g′)；

　　％stem(.547，moss，′-.′)；

　　my＝my/n；

　　for i＝1:n

　　      fenzi＝fenzi+(mos(i)-my)^2；

　　      fenmu＝fenmu+(y(i)-my)^2；

　　end

　　p＝sqrt(fenzi/fenmu)

　　delta＝0；

　　for i＝1:n

　　      delta＝delta+(mos(i)-y(i))^2；

　　end

　　delta＝delta/n；

　　delta＝sqrt(delta)

Claims

1、一种客观音质评价归一化主客观统计相关模型的建立方法，包括以下步骤：

(1)确定一种语音失真类型，并设定充分必要的失真测试条件等级；

(2)选择测试发音材料，由多个发音人对步骤(1)中设定的每个语音失真测试条件(i)进行语音的数字化采集，生成测试用的语音数据文件；

(4)根据无话段的电平V_UN，设置去停顿的电平门限V_T，以帧为基础编制去除停顿程序，用它去除低于门限的帧信号，完成所有测试文件句子和音节间的停顿去除；

(6)找出最大失真距离D_max(m)，并进行归一化处理，得到针对每个测试条件(i)的客观失真距离D_n(i)，D_n(i)＝D(i)/D_max(m)；

\overset{)}{MOS} (i) = a D_{n_{n}}^{2} (i) + b D_{n} (i) + c

(其中

是客观预测的主观MOS得分)，得到拟合曲线；

a.如果拟合曲线与纵轴交叉位置超过5，则人为给定一组或一组以上[D_n(i)＝0，MOS(i)＝4.5～4.9]的主客观数值，以使曲线重新拟合纵轴交叉略小于5；

以上三个步骤可以重复多次，直到得到满意的结果为止；

(9)求出主客观评价之间的相关系数ρ，相关系数计算公式为

ρ = \frac{Σ_{i = 1}^{N} MOS (i) \cdot \overset{)}{MOS} (i)}{\sqrt{Σ_{i = 1}^{N} {MOS}^{2} (i)} \sqrt{Σ_{i = 1}^{N} {\overset{)}{NOS}}^{2} (I)}}

2、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法，其步骤(1)中的失真条件等级确定是在主观感觉音质从几乎没有失真，到失真严重得根本不能通信的范围内，设定不少于10种等级，而且应采取不均匀分布的等级设定，失真严重段应设置得相对密一些。

3、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法，其步骤(2)中选择的测试发音材料应长于10秒钟，并至少包括3语句，语音的数字化采集应由不少于三男三女的发音人进行。

4、根据权利要求3所述的客观音质评价归一化主客观统计相关模型的建立方法，其步骤(2)中的语音的数字化采集按8000Hz采样频率，线性16位PCM数据率完成所有失真条件的数字化采集，生成“*.WAV”格式语音数据文件。

5、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法，其步骤(4)中去停顿的电平门限V_T设置为无话段电平V_UN的1.3～1.5倍。