CN1645475A - 客观音质评价归一化主客观统计相关模型的建立方法 - Google Patents
客观音质评价归一化主客观统计相关模型的建立方法 Download PDFInfo
- Publication number
- CN1645475A CN1645475A CNA2005100202038A CN200510020203A CN1645475A CN 1645475 A CN1645475 A CN 1645475A CN A2005100202038 A CNA2005100202038 A CN A2005100202038A CN 200510020203 A CN200510020203 A CN 200510020203A CN 1645475 A CN1645475 A CN 1645475A
- Authority
- CN
- China
- Prior art keywords
- objective
- distortion
- subjective
- mos
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
客观音质评价归一化主客观统计相关模型的建立方法,提供了一种针对确定的语音条件类型和确定的客观失真测度,通过充分必要的失真语音条件的全程语音质量实际主观音质的MOS(平均意见分)评价测试结果,建立具有实际应用价值的客观音质评价归一化统计相关模型的方法。本方法已经用于通信干扰效果评估设备系统之中,对于不同的语音系统或条件,并就不同的测度建立不同的归一化相关模型,不仅各模型之间具有好的可比性,而且各自具有好的实用性。
Description
技术领域
本发明涉及客观音质评价统计相关模型的建立方法,尤其涉及客观音质评价归一化主客观统计相关模型的建立方法。
背景技术
靠人耳感知完成主观音质评价,不仅费时费力,条件要求高,而且重复性差,因此,从事语音信号处理及通信的工程师们,早就希望用设备来对处理及经过传输的语音进行客观音质评价。国内(一些研究所、高校)外(如欧美、日本)进行语音客观音质评价的研究已经20来年,应该说,在学术上取得了相当大的成果,除了早期基于时域波形分析研究提出的信噪比(SNR)和分段信噪比(SNRSEG)等测度外,最近十来年的研究提出了许多性能较好的客观音质评价测度,如LPC倒谱距离(LPC-CD)、信息指数(II)、相关函数(CHF)、对数谱距离(LSD)、MEL倒谱系数距离(MEL-CD)Bark谱距离(BSD)及改进的BSD(MBSD)等。ITU-T于96年8月为电话频带语音编码器客观音质评价提出了“感知的音质测度(PSQM)”的P.861建议,而且在2001年2月,考虑传输滤波、延时、编码失真和信道误码特性,将PSQM结合感知分析测试系统(PAMS)算法,提出了ITU-T.P862建议,以图取代P.861,这就表明客观音质评价的研究,已朝实用化和标准化方向发展了。但是虽然对客观音质评价测度及方法的研究在最近十几年中开展的如火如荼,但所有文献报道的客观音质评价研究,统计分析都没有提出建立归一化相关模型的方法,因而还未达到实际应用的地步。
发明内容
本发明的目的是提供一种针对确定的语音条件类型和确定的客观失真测度,通过充分必要的失真语音条件的全程语音质量实际主观音质的MOS(平均意见分)评价测试结果,建立具有实际应用价值的客观音质评价归一化统计相关模型的方法。
本发明的实现方法包括以下步骤:
(1)确定一种语音失真类型,并设定充分必要的失真测试条件等级;在主观感觉音质从几乎没有失真,到失真严重得根本不能通信的范围内,设定不少于10种等级,而且应采取不均匀分布的等级设定,失真严重段应设置得相对密一些;
(2)选择测试发音材料,选择的测试发音材料应长于10秒钟,并至少包括3个语句,由不少于三男三女的多个发音人对步骤(1)中设定的每个语音失真测试条件(i)按8000Hz采样频率,线性16位PCM数据率完成所有失真条件的数字化采集,生成“*.WAV”格式语音数据文件;
(3)对步骤(2)中产生的每个语音数据文件进行主观评听测试,并统计出每个测试条件(i)的多个发音人的MOS平均得分(MOS(i));
(4)根据无话段的电平VUN设置去停顿的电平门限VT(一般1.3~1.5VUN),以帧为基础编制去除停顿程序,用它去除低于门限的帧信号,完成所有测试文件句子和音节间的停顿去除;
(5)用标准语音源文件和步骤(2)中产生的测试语音文件进行客观音质失真距离的计算,得到每个测试条件(i)的多个发音人的失真距离的平均值D(i);
(6)根据步骤(5)中算出的D(i),找出最大失真距离Dmax(m),并进行归一化处理Dn(i)=D(i)/Dmax(m),得到针对每个测试条件(i)的客观失真距离Dn(i);
(8)对拟合曲线进行归一化调整;审查拟合曲线纵横轴的交叉位置,看是否出现以下三种情况
a.如果拟合曲线与纵轴交叉位置超过5,则人为给定一组或一组以上[Dn(i)=0,MOS(i)=4.5~4.9]的主客观数值,以使曲线重新拟合纵轴交叉略小于5,;
b.如果拟合曲线与横轴交叉小于1,则人为适当增加一组或一组以上[Dn(i)接近1,MOS(i)=0]的主客观数值,以使横轴交叉接近或几乎等于1;
c.如果拟合曲线与横轴交叉大于1,则人为设定一个大于原有最大值的Dmax(m)值,以使曲线重新拟合横轴交叉接近或几乎等于1;
以上三个步骤可以重复多次,直到得到满意的结果为止。
(9)求出主客观评价之间的相关系数;对实验类型条件的结果,用如下归一化相关系数计算公式
求出主客观评价之间的相关系数ρ,得到客观评价预测主观的相关分析结果。
利用本发明建立的归一化相关模型,对语音通信中的编码技术、研制设备或信道性能进行客观音质评价测试,增强了设备或信道性能比较的可信度,提高了测试的效率,而且使用方便。本方法经用于通信干扰效果评估设备系统中,对于不同的语音系统或条件,并就不同的测度建立不同的归一化相关模型,不仅各模型之间具有具有好的可比性,而且各自具有好的实用性。
附图说明
图1是客观音质评价归一化主客观统计相关模型的建立方法实现流程框图
图2是某种语音条件的MEL-CD测度二次曲线拟合-
具体实施方式
下面结合附图详细说明本发明的实现方法
本发明可以在计算机上用Matlab编程工具实现,其流程框图如图1所示,主要步骤如下:
1、确立模型建立的条件;语音失真条件及失真测度。
确立某种类型语音失真条件,如波形编码,参数编码,信道误码、噪声调频及类语音干扰失真之类;设定既定失真语音类型充分必要的失真测试条件(主观感觉音质从几乎没有失真,到失真严重得根本不能通信)等级,一般不少于10种,而且采取不均匀分布的等级设定,失真严重段应设置得相对密一些;选择10秒左右,每个包括3个语句为测试单元的发音材料,由多个发音人(一般包括3男3女)按8000Hz采样频率,线性16位PCM数据率,完成所有失真语音条件的数字化采集,生成“*.WAV”格式语音数据文件。最好使用有关MOS测试标准SJ 20852-2002中提供的的语音材料,或2003年审定通过即将公布的新标准“基于感知测度的军用通信设备客观音质评价方法”(项目编号B25001)附录A中提供的最小化语音数据库材料,来产生测试用的失真语音数据文件;
2、获取足够的语音条件的主客观数据[MOS(i),D(i)];
对上述步骤产生的所有测试文件集合进行排序,并用随机化程序形成主观评听测试用的随机出现的文件序列。按SJ 20771-2000标准要求,完成每个文件的主观评听测试,并统计出每个测试条件(i)的多个发音人(按标准规定,一般包括3男3女)的MOS平均得分(MOS(i));根据无话段的电平VUN,设置去停顿的电平门限VT(一般1.3~1.5VUN),以帧为基础编制去除停顿程序,用它去除低于门限的帧信号,完成所有测试文件句子和音节间的停顿去除。
基于某种选定测度,用每个标准语音源文件和测试语音文件进行客观音质失真距离的计算,从而得到每个测试条件(i)的多个发音人的失真距离的平均值D(i);找到最大失真距离Dmax(m),完成归一化处理Dn(i)=D(i)/Dmax(m),得到客观失真距离Dn(i);
3、调用模板程序Matlab.m(见附录),按模板形式对编制的程序进行简要说明;并根据测试条件,修改模板中图题Tittle的文字内容;根据使用的测度,修改横轴标识文字;
4、为Matlab.m程序data语句注入数组[D(i),MOS(i)],并加注释“%”;
5、保存并运行Matlab.m程序。对于所有失真条件的主观MOS(i)得分和客观失真距离Dn(i),用模板程序Matlab.m,完成基于最小二乘法的二次函数:
曲线拟合(见图2中的曲线示例),其中
是客观预测的主观MOS得分;
6、拟合曲线归一化调整;
审查拟合曲线纵横轴的交叉位置,看是否出现以下三种情况
a.如果纵轴交叉位置超过5,则人为给定一组或一组以上[Dn(i)=0,MOS(i)=4.5~4.9]的主客观数值,以使曲线重新拟合纵轴交叉略小于5;
b.如果横轴交叉小于1,则人为适当增加一组或一组以上[Dn(i)接近1,MOS(i)=0]的主客观数值,以使横轴交叉接近或几乎等于1;
c.曲线与横轴交叉大于1,则人为设定一个大于原有最大值的Dmax(m)值,以使曲线重新拟合横轴交叉接近或几乎等于1;
以上三个步骤也许重复多次,直到满意为止。
7、从结果中记录二次曲线系数a,b,c的值;相关系数ρ,标准偏差σ及最终的Dmax(m)。对实验类型条件的结果,用如下归一化相关系数计算公式
求出主客观评价之间的相关系数ρ,从而得到客观评价预测主观的相关分析结果。
附录:Matlab.m模板程序如下:
%对MEL-CD距离及MOS得分进行二次曲线的拟合,并给出 %二次多项式的系数。 %MEL-CD MOS condition data=... [0 4.5 %列入数组 0.613 1.9784 %测试条件注释 ” ” ” ” ” ” 0.151 4.4777 %SNR=-3.0 Dmax(i) ” ” ” ” ]; x=data(:,1); x=x/2.1; y=data(:,2); %m=ex(:,1); %k=ex(:,2); %m=m/1.2; n=2; coe=polyfit(x,y,n) xi=linspace(0,1,1000); z=polyval(coe,xi); plot(x,y,′bo′,xi,z,′r:′,m,k,′+′); <!-- SIPO <DP n="5"> --> <dp n="d5"/> axis([0105]); %grid on title(′二次拟合曲线,QPSK调制,定频,G729,system6′); xlabel(′Bark距离′),ylabel(′MOS得分′); n=length(x); my=0;fenzi=0;fenmu=0; for i=1:n mos(i)=coe(1)*x(i)^2+coe(2)*x(i)+coe(3); my=my+y(i); end %moss=coe(1)*.547^2+coe(2)*.547+coe(3) %hold on %colstyle(′g′); %stem(.547,moss,′-.′); my=my/n; for i=1:n fenzi=fenzi+(mos(i)-my)^2; fenmu=fenmu+(y(i)-my)^2; end p=sqrt(fenzi/fenmu) delta=0; for i=1:n delta=delta+(mos(i)-y(i))^2; end delta=delta/n; delta=sqrt(delta)
Claims (5)
1、一种客观音质评价归一化主客观统计相关模型的建立方法,包括以下步骤:
(1)确定一种语音失真类型,并设定充分必要的失真测试条件等级;
(2)选择测试发音材料,由多个发音人对步骤(1)中设定的每个语音失真测试条件(i)进行语音的数字化采集,生成测试用的语音数据文件;
(3)对步骤(2)中产生的每个语音数据文件进行主观评听测试,并统计出每个测试条件(i)的多个发音人的MOS平均得分(MOS(i));
(4)根据无话段的电平VUN,设置去停顿的电平门限VT,以帧为基础编制去除停顿程序,用它去除低于门限的帧信号,完成所有测试文件句子和音节间的停顿去除;
(5)用标准语音源文件和步骤(2)中产生的测试语音文件进行客观音质失真距离的计算,得到每个测试条件(i)的多个发音人的失真距离的平均值D(i);
(6)找出最大失真距离Dmax(m),并进行归一化处理,得到针对每个测试条件(i)的客观失真距离Dn(i),Dn(i)=D(i)/Dmax(m);
(7)对于所有失真条件的主观MOS(i)得分和客观失真距离Dn(i),用Matlab模板程序,完成基于最小二乘法的二次函数:
(8)对拟合曲线进行归一化调整;审查拟合曲线纵横轴的交叉位置,看是否出现以下三种情况
a.如果拟合曲线与纵轴交叉位置超过5,则人为给定一组或一组以上[Dn(i)=0,MOS(i)=4.5~4.9]的主客观数值,以使曲线重新拟合纵轴交叉略小于5;
b.如果拟合曲线与横轴交叉小于1,则人为适当增加一组或一组以上[Dn(i)接近1,MOS(i)=0]的主客观数值,以使横轴交叉接近或几乎等于1;
c.如果拟合曲线与横轴交叉大于1,则人为设定一个大于原有最大值的Dmax(m)值,以使曲线重新拟合横轴交叉接近或几乎等于1;
以上三个步骤可以重复多次,直到得到满意的结果为止;
(9)求出主客观评价之间的相关系数ρ,相关系数计算公式为
2、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法,其步骤(1)中的失真条件等级确定是在主观感觉音质从几乎没有失真,到失真严重得根本不能通信的范围内,设定不少于10种等级,而且应采取不均匀分布的等级设定,失真严重段应设置得相对密一些。
3、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法,其步骤(2)中选择的测试发音材料应长于10秒钟,并至少包括3语句,语音的数字化采集应由不少于三男三女的发音人进行。
4、根据权利要求3所述的客观音质评价归一化主客观统计相关模型的建立方法,其步骤(2)中的语音的数字化采集按8000Hz采样频率,线性16位PCM数据率完成所有失真条件的数字化采集,生成“*.WAV”格式语音数据文件。
5、根据权利要求1所述的客观音质评价归一化主客观统计相关模型的建立方法,其步骤(4)中去停顿的电平门限VT设置为无话段电平VUN的1.3~1.5倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100202038A CN1321390C (zh) | 2005-01-18 | 2005-01-18 | 客观音质评价归一化主客观统计相关模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100202038A CN1321390C (zh) | 2005-01-18 | 2005-01-18 | 客观音质评价归一化主客观统计相关模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1645475A true CN1645475A (zh) | 2005-07-27 |
CN1321390C CN1321390C (zh) | 2007-06-13 |
Family
ID=34875745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100202038A Expired - Fee Related CN1321390C (zh) | 2005-01-18 | 2005-01-18 | 客观音质评价归一化主客观统计相关模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1321390C (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894560A (zh) * | 2010-06-29 | 2010-11-24 | 上海大学 | 一种无参考源的mp3音频清晰度客观评价方法 |
CN101727902B (zh) * | 2008-10-29 | 2011-08-10 | 中国科学院自动化研究所 | 一种对语调进行评估的方法 |
CN101609686B (zh) * | 2009-07-28 | 2011-09-14 | 南京大学 | 基于语音增强算法主观评估的客观评估方法 |
CN102549657A (zh) * | 2009-08-14 | 2012-07-04 | 皇家Kpn公司 | 用于确定音频系统的感知质量的方法和系统 |
CN102883179A (zh) * | 2011-07-12 | 2013-01-16 | 中国科学院计算技术研究所 | 一种视频质量客观评价方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
CN105719661A (zh) * | 2016-01-29 | 2016-06-29 | 西安交通大学 | 一种弦乐器演奏音质自动判别方法 |
CN107093432A (zh) * | 2017-05-19 | 2017-08-25 | 深圳众厉电力科技有限公司 | 一种用于通信系统的语音质量评价系统 |
CN107293286A (zh) * | 2017-05-27 | 2017-10-24 | 华南理工大学 | 一种基于网络配音游戏的语音样本收集方法 |
CN109781245A (zh) * | 2019-01-15 | 2019-05-21 | 江铃汽车股份有限公司 | 一种柴油发动机脉冲噪声的客观评价方法 |
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101424711B (zh) * | 2007-10-31 | 2011-02-02 | 鸿富锦精密工业(深圳)有限公司 | 铃音自动检测系统及方法 |
TWI811762B (zh) * | 2021-08-12 | 2023-08-11 | 華碩電腦股份有限公司 | 音質評價方法及使用其之音質評價系統 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3868278B2 (ja) * | 2001-11-30 | 2007-01-17 | 沖電気工業株式会社 | 音声信号品質評価装置及びその方法 |
US6794567B2 (en) * | 2002-08-09 | 2004-09-21 | Sony Corporation | Audio quality based culling in a peer-to-peer distribution model |
CN100493236C (zh) * | 2003-02-20 | 2009-05-27 | 华为技术有限公司 | 一种实现语音质量客观评价的测试方法与装置 |
CN100347988C (zh) * | 2003-10-24 | 2007-11-07 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
-
2005
- 2005-01-18 CN CNB2005100202038A patent/CN1321390C/zh not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727902B (zh) * | 2008-10-29 | 2011-08-10 | 中国科学院自动化研究所 | 一种对语调进行评估的方法 |
CN101609686B (zh) * | 2009-07-28 | 2011-09-14 | 南京大学 | 基于语音增强算法主观评估的客观评估方法 |
CN102549657A (zh) * | 2009-08-14 | 2012-07-04 | 皇家Kpn公司 | 用于确定音频系统的感知质量的方法和系统 |
CN101894560A (zh) * | 2010-06-29 | 2010-11-24 | 上海大学 | 一种无参考源的mp3音频清晰度客观评价方法 |
CN101894560B (zh) * | 2010-06-29 | 2012-08-15 | 上海大学 | 一种无参考源的mp3音频清晰度客观评价方法 |
CN102883179A (zh) * | 2011-07-12 | 2013-01-16 | 中国科学院计算技术研究所 | 一种视频质量客观评价方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104575521A (zh) * | 2014-12-26 | 2015-04-29 | 大连理工大学 | 一种lte通信系统语音质量的评估方法 |
CN105719661A (zh) * | 2016-01-29 | 2016-06-29 | 西安交通大学 | 一种弦乐器演奏音质自动判别方法 |
CN105719661B (zh) * | 2016-01-29 | 2019-06-11 | 西安交通大学 | 一种弦乐器演奏音质自动判别方法 |
CN107093432A (zh) * | 2017-05-19 | 2017-08-25 | 深圳众厉电力科技有限公司 | 一种用于通信系统的语音质量评价系统 |
CN107093432B (zh) * | 2017-05-19 | 2019-12-13 | 江苏百应信息技术有限公司 | 一种用于通信系统的语音质量评价系统 |
CN107293286A (zh) * | 2017-05-27 | 2017-10-24 | 华南理工大学 | 一种基于网络配音游戏的语音样本收集方法 |
CN109781245A (zh) * | 2019-01-15 | 2019-05-21 | 江铃汽车股份有限公司 | 一种柴油发动机脉冲噪声的客观评价方法 |
CN109781245B (zh) * | 2019-01-15 | 2021-03-23 | 江铃汽车股份有限公司 | 一种柴油发动机脉冲噪声的客观评价方法 |
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
CN113593551B (zh) * | 2021-07-01 | 2023-07-25 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1321390C (zh) | 2007-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1645475A (zh) | 客观音质评价归一化主客观统计相关模型的建立方法 | |
AU2007210334B2 (en) | Non-intrusive signal quality assessment | |
Voran | Objective estimation of perceived speech quality. i. development of the measuring normalizing block technique | |
US7778825B2 (en) | Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Yang et al. | A modified bark spectral distortion measure which uses noise masking threshold | |
TW445724B (en) | Method for making a machine-aided assessment of the transmission quality of audio signals | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN1296607A (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN106409310A (zh) | 一种音频信号分类方法和装置 | |
CN101933086A (zh) | 处理音频信号的方法和设备 | |
CN111968677B (zh) | 面向免验配助听器的语音质量自评估方法 | |
CN1441947A (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
CN107293306A (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN1742322A (zh) | 噪声减小和视听语音活动检测 | |
Zhang et al. | A new method of objective speech quality assessment in communication system | |
Picovici et al. | Output-based objective speech quality measure using self-organizing map | |
Zha et al. | Objective speech quality measurement using statistical data mining | |
Jassim et al. | NSQM: A non-intrusive assessment of speech quality using normalized energies of the neurogram | |
Dubey et al. | Non-intrusive objective speech quality assessment using a combination of MFCC, PLP and LSF features | |
CN101740030B (zh) | 语音信号的发送及接收方法、及其装置 | |
Takahashi et al. | On non-reference speech intelligibility estimation using DNN noise reduction | |
Rahdari et al. | A two-level multi-gene genetic programming model for speech quality prediction in Voice over Internet Protocol systems | |
Chernick et al. | Testing the ability of speech recognizers to measure the effectiveness of encoding algorithms for digital speech transmission |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070613 Termination date: 20120118 |