CN101609686A - 基于语音增强算法主观评估的客观评估方法 - Google Patents
基于语音增强算法主观评估的客观评估方法 Download PDFInfo
- Publication number
- CN101609686A CN101609686A CNA2009101815418A CN200910181541A CN101609686A CN 101609686 A CN101609686 A CN 101609686A CN A2009101815418 A CNA2009101815418 A CN A2009101815418A CN 200910181541 A CN200910181541 A CN 200910181541A CN 101609686 A CN101609686 A CN 101609686A
- Authority
- CN
- China
- Prior art keywords
- objective
- voice
- quality
- cep
- llr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 21
- 206010038743 Restlessness Diseases 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 28
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000012417 linear regression Methods 0.000 abstract description 4
- 230000008447 perception Effects 0.000 description 5
- 238000001303 quality assessment method Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于语音增强算法主观评估的客观评估方法,该方法是在现有的5种语音增强客观评估方法PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基础上利用多元线性回归分析提出的一种新的客观组合方法。通过不同权重系数和5种客观方法的组合,得到本发明中评价语音信号质量的客观评分、评价背景噪声质量的客观评分和评价整体质量的客观评分。本发明的主客观相关系数优于很多其他传统客观算法,误差的标准差更低,更易评估语音增强算法性能的优劣,具有极大的实用价值。
Description
一、技术领域
本发明涉及一种测量语音增强的客观评估方法,尤其是涉及一种利用多元线性回归分析提出的客观组合方法。该方法主客观相关系数较高、误差的标准差更低,能更准确评估语音增强算法性能优劣。
二、背景技术
语音增强是从噪声背景中提取有用的语音信号,抑制或降低噪声干扰的技术。由于人是语音的最终接受者,所以主观评价才是语音质量的真实反映,也是最可靠的评价语音增强效果的方法。但在低信噪比的情况下,语音增强算法在抑制背景噪声的过程中可能对语音信号产生劣化作用。ITU-T P.835引导试听者单独对语音信号评分(SIG)、单独对背景噪声评分(BAK)和整体效果评分(OVL),三方面共同作为语音增强效果的主观评估。但主观评测方法耗费大量人力、物力和时间,因此采用客观测试方法来评价语音增强效果。通常采用主客观相关系数和主客观评分误差的标准差两个统计参数评估客观方法的性能。
现有的几种常用客观测试方法为:感知评估通话质量(PESQ),ITU-T P.862中详细描述了PESQ这种窄带电话网络和语音编解码器端到端语音质量客观评价方法,用数字信号处理的方式比较参考信号和劣化信号,估算得到的语音质量评分范围为[-0.5,4.5]。对数似然率(LLR)是一种增益归一化的度量参考语音和劣化语音之间距离的方法,度量所得两种谱之间的失真大小只与谱的形状有关,而与其能量大小无关,估算得到的LLR值范围为[0,2]。倒谱(CEP)是语音信号的又一特征,这里采用基于线性预测分析的倒谱系数作为语音的特征参数,语音信号所携带的语义信息主要体现在声道传输函数上,通过参考语音和劣化语音的倒谱距离可以估算语音质量,CEP值为[0,10]。分段信噪比(SNRseg)建立在度量均方误差基础上,SNRseg是基于帧的信噪比,是每一帧语音信号信噪比的均值。频率分段信噪比(fwSNRseg)是将SNRseg扩展到频域上得到的,取值范围为[-10dB,35dB]。通过回归分析得到每个频段的权重确保主客观相关系数最大,组成了变频率分段信噪比(fwSNRsegVar)方法,取值范围[-10dB,35dB]。
这些常用客观测试方法的主客观相关系数和误差的标准差见表1,表中括号内的数为误差的标准差(P.C.Loizou,Speech Enhancement:Theory and Practice,CRC Press,2007)。从表1可以看出,目前传统的客观测试方法在单独对背景噪声评分方面主客观相关系数普遍较低,误差的标准差在单独对语音信号评分、单独对背景噪声评分和整体效果评分三方面都过高,同时并没有给出如何使用客观测试方法对各语音增强算法性能优劣的评估。
表1几种客观测量方法主客观相关系数和误差的标准差(括号内的数)
PESQ | LLR | CEP | SNRseg | fwSNRseg | fwSNRsegVar | |
SIG | 0.57(0.65) | 0.66(0.59) | 0.65(0.60) | 0.19(0.78) | 0.67(0.56) | 0.73(0.54) |
BAK | 0.48(0.51) | 0.26(0.56) | 0.22(0.57) | 0.42(0.53) | 0.27(0.59) | 0.51(0.50) |
OVL | 0.65(0.46) | 0.63(0.47) | 0.60(0.49) | 0.31(0.58) | 0.64(0.47) | 0.70(0.43) |
中国专利公开CN03156510.7一种测试语音质量的方法及装置(华为技术有限公司),提供了一种测试语音质量的方法,该方法在IP网络被测试网段的主叫端利用包括本端和被叫端IP地址的参数向被叫端发送参考语音文件,被叫端利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后形成的降级语音文件,最后,利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算,获得被测试网段的承载语音质量。所述语音质量的评估计算为语音质量的感知评估(PESQ)计算或感知的语音质量测试(PSQM)计算或感知分析测量系统(PAMS)计算。
CN200680024568.0语音质量评估方法和系统(朗讯科技公司),在一个实施例中,通过使用基于主观质量评估数据被训练的至少一个模型来评估在接收的语音信号中的失真。然后,根据估计的失真来确定接收的语音信号的语音质量评估。通过使用基于所述主观质量评估数据被训练的第一模型来评估在所述接收的语音信号中的语音失真和背景噪声失真,把估计的失真映射到主观质量评估度量值。
目前尚未见到类似本发明的,采用PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar组合的针对语音增强算法的客观评估方法。
三、发明内容
1、发明目的:本发明的目的在于利用现有的语音增强客观评估方法提出的一种新的客观评估方法。该方法性能好,能准确地评价语音增强算法性能的优劣。
2、技术方案:为实现上述发明目的,本发明所述的基于语音增强算法主观评估的客观组合方法是通过以下技术方案来实现的:
(1)计算以下5种客观测量方法的分值:感知评估通话质量(PESQ),对数似然率(LLR),倒谱(CEP)分段信噪比(SNRseg),频率分段信噪比(fwSNRseg),变频率分段信噪比(fwSNRsegVar)。具体计算方法参见P.C.Loizou,Speech Enhancement:Theory and Practice,CRCPress,2007,pp 589-597。
(2)计算以下本发明提出的分值
CS=1.856+0.135·PESQS-1.569·LLRS+0.338·CEPS+0.044·fwSNRsegS+0.224·fwSNRsegVarS (1)
CN=-0.343+0.484·PESQN-2.548·LLRN+0.646·CEPN-0.049·fwSNRsegN+0.520·fwSNRsegVarN (2)
CO=-0.835+0.610·PESQO-3.229·LLRO+0.804·CEPO+0.313·fwSNRsegO-0.008·fwSNRsegVarO (3)
式中,CS表示本发明中评价语音信号质量的客观评分,CN表示本发明中评价背景噪声质量的客观评分,CO表示本发明中评价整体质量的客观评分。其中的PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar分别表示5种客观测量方法得到的评分,下标S表示单独对语音信号评分,下标N表示单独对背景噪声评分,下标O表示对整体效果评分。
式中的权重系数是由5组客观测试评分(每组120个)分别与单独评价语音信号的主观评分、单独评价背景噪声的主观评分和整体评分使用EXCEL中LINEST函数进行多元线性回归分析得到的。具体如下:
选取标准语音库NOISEUS中信噪比为10dB的babble和train噪声各30组语音,分别使用logMMSE和RDC算法对语音进行降噪处理,请14位主观试听者对处理后的共120组语音分别从语音信号质量、背景噪声质量和整体质量三方面进行评分。评分标准由P.835规定。
表2P.835定义的主观评分标准
分值 | 语音信号等级(SIG)对应描述(语音信号) | 背景噪声等级(BAK)对应描述(背景噪声) | 整体音质等级(OVL)对应描述(整体音质) |
5 | 没有失真 | 不可被察觉 | 极好 |
4 | 轻微失真 | 轻微可察觉 | 好 |
3 | 有些失真 | 可察觉但不讨厌 | 中等 |
2 | 较大失真 | 有点讨厌 | 差 |
1 | 完全失真 | 很讨厌 | 很差 |
本发明的主客观相关系数和误差的标准差见表3,表中括号内的数为误差的标准差。
表3本发明的主客观相关系数和误差的标准差
3、有益效果:本发明与现有技术相比,其显著优点是在于:(1)利用多元线性回归分析在PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基础上提出。(2)单独对背景噪声评分的主客观相关系数达到0.609,误差的标准差最低达到0.253,性能更好。
四、附图说明
图1是本发明的测试流程图
图2是Wiener_as算法在10dB轿车噪声条件下本发明评分Cbak的归一化直方图
五、具体实施方式
下面以最小均方误差短时谱幅值估计法(MMSE)、谱减法(Specsub)、基于先验信噪比估计的维纳滤波法(Wiener_as)、子空间法(KLT)、最小均方误差对数短时谱幅值估计法(logMMSE)和基于先验信噪比估计的最小均方误差对数短时谱幅值法(logMMSE_ne)算法和标准语音库NOISEUS中信噪比为10dB和5dB轿车噪声的60组语音为例,对本发明的实施作详细说明。
将标准语音库NOISEUS中信噪比为10dB和5dB轿车噪声的60组语音分别经过MMSE,Specsub,Wiener_as,logMMSE,KLT,logMMSE_ne算法进行降噪处理,对每组降噪语音和纯净语音根据MATLAB程序分别计算PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar5种客观测量值(具体参见P.C.Loizou,Speech Enhancement:Theory and Practice,CRC Press,2007,pp 589-597),将5个值代入不同权重系数的式(1)(2)(3),就可以得到本发明对每一组纯净语音和降噪语音单独对语音质量的评分、单独对背景噪声的评分和整体效果的评分。
下面利用统计分析,说明本发明计算结果的可靠性。本发明得到的信噪比为10dB轿车噪声条件下测量值的归一化直方图见附图2,χ2拟合检验显示数据来自正态分布总体,对其他语音增强算法也可以得到类似的结论。计算本发明得到的不同语音增强算法评估值的置信区间和置信下限见表4,对6组数据进行z-检验-双样本均值分析,结果显示,logMMSE性能最优,MMSE高于logMMSE_ne和Wiener_as且均显著高于Specsub和KLT,Specsub显著高于KLT,这一结论与各算法95%置信下限的评分顺序相一致,同时也与表中主观MOS分的评分顺序完全一致。
表4本发明对不同语音增强算法客观测量值得置信区间(10dB)
算法 | 95%置信区间 | 误差幅度 | 95%置信下限 | 主观MOS(OVL) |
MMSE | (3.127,3.259) | 0.0662 | 3.138 | 3.25 |
Specsub | (2.949,3.088) | 0.0694 | 2.961 | 2.56 |
Wiener_as | (3.041,3.158) | 0.0590 | 3.050 | 2.81 |
KLT | (2.860,3.013) | 0.0762 | 2.873 | 2.49 |
logMMSE | (3.169,3.304) | 0.0672 | 3.181 | 3.37 |
logMMSE_ne | (3.091,3.234) | 0.0716 | 3.103 | 3.13 |
结果分析:
采用本发明提供的客观组合方法,单独对背景噪声评分的主客观相关系数达到0.609,误差的标准差最低达到0.253,得到的语音增强算法性能优劣的结论与主观评分完全一致。因此,采用本发明提供的方法提高主客观相关系数,降低误差的标准差,实现语音增强算法性能优劣的评估是完全可行的。
Claims (2)
1、一种基于语音增强算法主观评估的客观评估方法,其特征在于:在现有的5种语音增强客观评估方法PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基础上利用下式计算得出。
CS=1.856+0.135·PESQS-1.569·LLRS+0.338·CEPS+0.044·fwSNRsegS+0.224·fwSNRsegVarS (1)
CN=-0.343+0.484PESQN-2.548·LLRN+0.646·CEPN-0.049·fwSNRsegN+0.520·fwSNRsegVarN (2)
CO=-0.835+0.610·PESQO-3.229·LLRO+0.804·CEPO+0.313·fwSNRsegO-0.008·fwSNRsegVarO (3)
其中下标S表示单独对语音信号评分,下标N表示单独对背景噪声评分,下标O表示对整体效果评分。
2、根据权利要求1所述的客观评估方法计算公式,其特征在于:由PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar这5种现有的语音增强客观评估方法,根据特定的权重系数组合而成。
权重系数
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101815418A CN101609686B (zh) | 2009-07-28 | 2009-07-28 | 基于语音增强算法主观评估的客观评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101815418A CN101609686B (zh) | 2009-07-28 | 2009-07-28 | 基于语音增强算法主观评估的客观评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101609686A true CN101609686A (zh) | 2009-12-23 |
CN101609686B CN101609686B (zh) | 2011-09-14 |
Family
ID=41483409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101815418A Expired - Fee Related CN101609686B (zh) | 2009-07-28 | 2009-07-28 | 基于语音增强算法主观评估的客观评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101609686B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102157147A (zh) * | 2011-03-08 | 2011-08-17 | 公安部第一研究所 | 一种拾音系统语音质量客观评价的测试方法 |
CN104919525A (zh) * | 2012-11-16 | 2015-09-16 | 荷兰应用自然科学研究组织Tno | 用于评估退化语音信号的可理解性的方法和装置 |
US9725606B2 (en) | 2011-02-23 | 2017-08-08 | Dainichiseika Color & Chemicals Mfg. Co., Ltd. | Aqueous liquid composition, aqueous coating, functional coating film, and composite material |
CN107293286A (zh) * | 2017-05-27 | 2017-10-24 | 华南理工大学 | 一种基于网络配音游戏的语音样本收集方法 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN109697990A (zh) * | 2018-11-12 | 2019-04-30 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于虚拟低音算法主观评价的客观评价方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN112562740A (zh) * | 2020-11-25 | 2021-03-26 | 厦门亿联网络技术股份有限公司 | 一种噪声消除测试方法、系统、音视频设备和存储介质 |
CN113448514A (zh) * | 2021-06-02 | 2021-09-28 | 合肥群音信息服务有限公司 | 一种多源语音数据的自动处理系统 |
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446038B1 (en) * | 1996-04-01 | 2002-09-03 | Qwest Communications International, Inc. | Method and system for objectively evaluating speech |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
CN100347988C (zh) * | 2003-10-24 | 2007-11-07 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
CN1321390C (zh) * | 2005-01-18 | 2007-06-13 | 中国电子科技集团公司第三十研究所 | 客观音质评价归一化主客观统计相关模型的建立方法 |
-
2009
- 2009-07-28 CN CN2009101815418A patent/CN101609686B/zh not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9725606B2 (en) | 2011-02-23 | 2017-08-08 | Dainichiseika Color & Chemicals Mfg. Co., Ltd. | Aqueous liquid composition, aqueous coating, functional coating film, and composite material |
CN102157147A (zh) * | 2011-03-08 | 2011-08-17 | 公安部第一研究所 | 一种拾音系统语音质量客观评价的测试方法 |
CN104919525A (zh) * | 2012-11-16 | 2015-09-16 | 荷兰应用自然科学研究组织Tno | 用于评估退化语音信号的可理解性的方法和装置 |
CN104919525B (zh) * | 2012-11-16 | 2018-02-06 | 荷兰应用自然科学研究组织Tno | 用于评估退化语音信号的可理解性的方法和装置 |
CN107293286A (zh) * | 2017-05-27 | 2017-10-24 | 华南理工大学 | 一种基于网络配音游戏的语音样本收集方法 |
US11087741B2 (en) | 2018-02-01 | 2021-08-10 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and storage medium for processing far-field environmental noise |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN109697990A (zh) * | 2018-11-12 | 2019-04-30 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于虚拟低音算法主观评价的客观评价方法 |
CN109697990B (zh) * | 2018-11-12 | 2020-12-11 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种基于虚拟低音算法主观评价的客观评价方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN112562740A (zh) * | 2020-11-25 | 2021-03-26 | 厦门亿联网络技术股份有限公司 | 一种噪声消除测试方法、系统、音视频设备和存储介质 |
CN113448514A (zh) * | 2021-06-02 | 2021-09-28 | 合肥群音信息服务有限公司 | 一种多源语音数据的自动处理系统 |
CN113593551A (zh) * | 2021-07-01 | 2021-11-02 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
CN113593551B (zh) * | 2021-07-01 | 2023-07-25 | 中国人民解放军63892部队 | 一种基于命令词识别的语音通信干扰效果客观评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101609686B (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101609686B (zh) | 基于语音增强算法主观评估的客观评估方法 | |
Ghosh et al. | Robust voice activity detection using long-term signal variability | |
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
CN105261359B (zh) | 手机麦克风的消噪系统和消噪方法 | |
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN102044247B (zh) | 一种针对VoIP语音的客观评测方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN110782910B (zh) | 一种高检出率的啸叫音频检测系统 | |
CN110299141B (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
CN104916292B (zh) | 检测音频信号的方法和装置 | |
US7818168B1 (en) | Method of measuring degree of enhancement to voice signal | |
Prodeus et al. | Objective and subjective assessment of the quality and intelligibility of noised speech | |
CN112201269A (zh) | 基于改进噪声估计的mmse-lsa语音增强方法 | |
CN101533642B (zh) | 一种语音信号处理方法及装置 | |
Jie et al. | Suitability of speech quality evaluation measures in speech enhancement | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
Ding et al. | Objective measures for quality assessment of noise-suppressed speech | |
Pham et al. | Performance analysis of wavelet subband based voice activity detection in cocktail party environment | |
CN113838476A (zh) | 一种带噪语音的噪声估计方法和装置 | |
Eaton et al. | A comparison of non-intrusive SNR estimation algorithms and the use of mapping functions | |
Fan et al. | The improvement and realization of speech enhancement algorithm based on wiener filtering | |
Lu et al. | Reduction of residual noise using directional median filter | |
Ling et al. | Performance estimation of noisy speech recognition using spectral distortion and SNR of noise-reduced speech | |
Beritelli et al. | Performance evaluation of SNR estimation methods in forensic speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110914 Termination date: 20150728 |
|
EXPY | Termination of patent right or utility model |