CN102881289A - 一种基于听觉感知特性的语音质量客观评价方法 - Google Patents

一种基于听觉感知特性的语音质量客观评价方法 Download PDF

Info

Publication number
CN102881289A
CN102881289A CN2012103322883A CN201210332288A CN102881289A CN 102881289 A CN102881289 A CN 102881289A CN 2012103322883 A CN2012103322883 A CN 2012103322883A CN 201210332288 A CN201210332288 A CN 201210332288A CN 102881289 A CN102881289 A CN 102881289A
Authority
CN
China
Prior art keywords
voice quality
voice
frequency
mel
quality evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103322883A
Other languages
English (en)
Other versions
CN102881289B (zh
Inventor
谭晓衡
秦基伟
周帅
裴婧
黄振林
唐永刚
马旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201210332288.3A priority Critical patent/CN102881289B/zh
Publication of CN102881289A publication Critical patent/CN102881289A/zh
Application granted granted Critical
Publication of CN102881289B publication Critical patent/CN102881289B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种简单有效的基于听觉感知特性的语音质量客观评价方法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC(Mel频率倒谱系数)特征参数的提取过程。本发明使用Gammatone滤波器组对耳蜗基底膜进行仿真,在幅值非线性变换过程中用立方根非线性压缩变换来模拟语音的强度-响度感知特性。使用新的特征参数,提出了一种更加符合人耳听觉感知特性的语音质量评价方法。与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度,运行时间较短且复杂度低,具有较强的适应性,可靠性和实用性。本发明通过模拟人耳的听觉感知特性来进行语音质量评价的方法可为改善语音质量客观评价提供新的解决思路。

Description

一种基于听觉感知特性的语音质量客观评价方法
技术领域
    本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术,更具体地,涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中,通过计算特征参数的失真程度来实现语音质量客观评价的方法。
背景技术
语音质量评价是衡量语音通信系统性能优劣的根本标准之一,从评价主体上讲可分为两大类:主观评价和客观评价。ITU-T建议P.830提出的MOS(Mean Opinion Score)方法是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉,但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量,使客观评价结果能够准确预测出语音质量的主观评价结果,具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏,是一种误差度量。目前,比较成熟的算法基本上都是基于输入-输出方式的,包括:PESQ、Mel-CD等。
ITU-T建议P.862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。
Mel-CD失真测度以MFCC作为语音特征参数,运算复杂度较低,是一种简便有效的语音质量评价方法,但其评价性能与PESQ相差较大。分析表明,虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性,但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程,并不能充分地反映人耳的听觉感知特性。
Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换,能使特征参数的提取过程更好地符合听觉生理模型。
发明内容  
本发明的目的是针对MFCC特征参数提取过程中存在的问题,提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术,使用Gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型,得到一种新的特征参数来进行语音质量客观评价。说明书附图1示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。 
基于听觉感知特性的语音质量客观评价方法是这样实现的:
1.采集原始语音和通过被测系统的失真语音,对两路语音信号进行电平调整、带通滤波和时间对齐等预处理,以便于分别提取两路信号的特征参数;
2.加汉宁窗对预处理后的语音信号进行分帧,提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先,使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波,能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征;接着,对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性,这不仅符合了人耳的听觉感知特性,而且计算过程简单;然后,立方根能量经过RASTA滤波,抑制了信号频谱中的常量或变化缓慢的非语音部分,同时增强了动态成分;最后,经过DCT变换(离散余弦变换)到倒谱域,即可实现特征参数的提取;
3.计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D,用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观(预测)MOS值,MOS值的大小说明了被测系统语音质量的好坏。
与其它的技术相比,本发明具有以下的优点:
1.使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型,有效地提高了客观评价结果与主观评价结果的相关度;
2.Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据,立方根变换避免了复杂的计算模型,使得算法复杂度低且运行时间较短,适合于语音质量实时评价和嵌入式系统实现;
3.适用于评价CS-ACELP、ADPCM、LD-CELP、GSM、                                                
Figure 219204DEST_PATH_IMAGE001
-PCM/A-PCM和VSELP等编码算法下的语音信号,算法通用性强;
4.本发明保留了Mel-CD方法运行时间较短和算法复杂度低的优点,评价准确性较Mel-CD方法有很大的提高;与PESQ算法相比,评价准确性相差较小,但运行时间和算法复杂度减小明显,借助于各种语音信号处理方法可将其应用于语音编解码器和通信网络的语音质量客观评价。
附图说明
结合附图阅读本发明的以下详细描述,可以更好地理解本发明及其优点和其他特征,其中:
图1示出了基于输入-输出方式的语音质量客观评价方法结构图;
图2示出了语音信号特征参数的提取流程;
图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组。
具体实施方式
为了更好地理解本发明,下面将详细描述本发明的具体实施方式:
1.原始语音和经过被测系统的失真语音首先经过电平调整,将其强度统一到相当于
Figure 2012103322883100002DEST_PATH_IMAGE002
的能量水平;然后经过理想带通滤波器,对两路信号进行输入滤波;最后通过时间对齐来补偿由被测系统产生的时延,完成预处理过程;
2.对预处理后的语音信号
Figure 2012103322883100002DEST_PATH_IMAGE004
分别进行特征参数的提取;
附图2示出了语音信号特征参数的具体提取流程:
3.对语音信号进行加汉宁窗的FFT变换,得到信号频谱
Figure 40716DEST_PATH_IMAGE005
4.人耳所听到的声音的高低与声音的频率并不呈线性正比关系,采用更符合人耳的听觉特性的Mel频率尺度来进行频率划分。 Mel频率与实际频率的具体关系为 
                 
Figure 2012103322883100002DEST_PATH_IMAGE006
                    (1)
其中:实际频率
Figure 622875DEST_PATH_IMAGE007
的单位是Hz;
5. Gammatone滤波器组的时域表达式为:
           
Figure 2012103322883100002DEST_PATH_IMAGE008
          (2)
其中:
Figure 561881DEST_PATH_IMAGE009
滤波器阶数,
Figure 2012103322883100002DEST_PATH_IMAGE010
为等效矩形带宽,
Figure 322027DEST_PATH_IMAGE011
为滤波器的中心频率,
Figure 2012103322883100002DEST_PATH_IMAGE012
为初始相位,
Figure 776011DEST_PATH_IMAGE013
为阶跃函数,
Figure 2012103322883100002DEST_PATH_IMAGE014
为滤波器个数;
附图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组:
在Mel频率轴上配置具有个通道的Gammatone滤波器组, 每个滤波器
Figure 2012103322883100002DEST_PATH_IMAGE016
的中心频率
Figure 706107DEST_PATH_IMAGE017
在Mel频率轴上等间隔分布,中心频率
Figure 699471DEST_PATH_IMAGE017
两侧斜率较大,表明Gammatone滤波器具有尖锐的频率选择特性;滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露。 这些幅频响应特性与基底膜的滤波特性是一致的,同时也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响。
通过一组Mel尺度的Gammatone滤波器组,在频域对能量谱进行滤波,得到每个Gammatone滤波器的输出能量:
            
Figure 2012103322883100002DEST_PATH_IMAGE018
               (3)
6.非线性压缩运算基于强度-响度感知变换,将其用在特征参数的提取过程能更好地符合了人耳的听觉感知特性,而且计算过程简单; 
立方根非线性压缩变换的计算公式为
                         (4)
7.RASTA滤波处理用一个低端截止频率很低的带通滤波器对语音信号进行滤波,能有效的抑制信号频谱中的常量或变化缓慢的非语音部分,增强动态成分。带通滤波器
Figure 2012103322883100002DEST_PATH_IMAGE020
的表达式为
                                      (5)
8.立方根能量经过RASTA滤波和DCT变换到倒谱域,即可得到改进的MFCC参数。
Figure DEST_PATH_IMAGE022
             (6)
其中:
Figure 963465DEST_PATH_IMAGE023
为参数的阶数,本文取
至此完成了两路语音信号特征参数的提取,此过程更加符合人耳的生理模型和听觉感知特性,有利于提高语音质量客观评价方法的性能;
9.采用平均欧氏距离来计算失真语音相对于原始语音信号的失真大小。定义原始语音信号为
Figure 580260DEST_PATH_IMAGE025
,失真语音信号为,提取的
Figure 946519DEST_PATH_IMAGE027
阶特征参数为:
Figure DEST_PATH_IMAGE028
Figure 159326DEST_PATH_IMAGE029
,则原始信号与失真信号第k帧的Mel倒谱距离可定义为:
Figure DEST_PATH_IMAGE030
                 (7)
平均动态Mel倒谱距离D为:
                         
Figure 989747DEST_PATH_IMAGE031
                                   (8)
其中:为信号总帧数,权重为第
Figure DEST_PATH_IMAGE034
帧的能量;
10.采用若干对已知MOS值的语音样本进行测试,计算的倒谱距离D按最小二乘法准则进行二次多项式拟合,以对应相应语音质量的客观MOS值或称为预测MOS值。
综上所示,根据人耳的听觉生理模型,将Gammatone滤波器组和立方根非线性压缩变换引入特征参数的提取过程,更好地符合了人耳的听觉感知特性,能有效地提高语音质量主观评价结果和客观评价结果的相关度,同时具有较强的可靠性、适应性和实用性。

Claims (1)

1.一种简单有效的基于听觉感知特性的语音质量客观评价技术,根据心理声学原理将人耳听觉模型和非线性压缩变换引入特征参数的提取过程来进行语音质量的客观评价,其特征在于采用以下步骤:
A、将原始语音和通过被测系统的失真语音进行预处理,以便于提取各自的特征参数;
B、对经过预处理的语音信号进行加汉宁窗的FFT变换,得到第k帧信号频谱                                                
Figure 119204DEST_PATH_IMAGE001
C、采用Mel频率尺度来模拟人耳对声音频率的感知特性,Mel频率与实际频率的具体关系为:
Figure 2012103322883100001DEST_PATH_IMAGE002
D、通过一组Mel尺度的Gammatone滤波器组,在频域对能量谱进行滤波,得到每个Gammatone滤波器的输出能量,计算过程由式给出:
E、采用立方根变换来模拟强度-响度的非线性压缩关系:
Figure 2012103322883100001DEST_PATH_IMAGE004
F、用RASTA滤波器对语音信号进行滤波,抑制信号频谱中的常量或变化缓慢的非语音部分,增强动态成分,RASTA滤波器
Figure 820630DEST_PATH_IMAGE005
的表达式为:
Figure 2012103322883100001DEST_PATH_IMAGE006
G、立方根能量经过RASTA滤波和DCT变换到倒谱域,即可得到新的特征参数,计算过程由式给出:
Figure 716910DEST_PATH_IMAGE007
H、计算两路信号特征参数的平均动态Mel倒谱距离D,将D值进行二次多项式变换来预测主观MOS分,通过预测值的大小来判断被测系统语音质量的好坏。
CN201210332288.3A 2012-09-11 2012-09-11 一种基于听觉感知特性的语音质量客观评价方法 Expired - Fee Related CN102881289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210332288.3A CN102881289B (zh) 2012-09-11 2012-09-11 一种基于听觉感知特性的语音质量客观评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210332288.3A CN102881289B (zh) 2012-09-11 2012-09-11 一种基于听觉感知特性的语音质量客观评价方法

Publications (2)

Publication Number Publication Date
CN102881289A true CN102881289A (zh) 2013-01-16
CN102881289B CN102881289B (zh) 2014-04-02

Family

ID=47482590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210332288.3A Expired - Fee Related CN102881289B (zh) 2012-09-11 2012-09-11 一种基于听觉感知特性的语音质量客观评价方法

Country Status (1)

Country Link
CN (1) CN102881289B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103557925A (zh) * 2013-10-17 2014-02-05 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法
CN104485114A (zh) * 2014-11-27 2015-04-01 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
WO2016015461A1 (zh) * 2014-07-29 2016-02-04 华为技术有限公司 异常帧检测方法和装置
CN105575387A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 基于听觉仿生中耳蜗基底膜的声源定位方法
CN106601249A (zh) * 2016-11-18 2017-04-26 清华大学 一种基于听觉感知特性的数字语音实时分解/合成方法
CN107093432A (zh) * 2017-05-19 2017-08-25 深圳众厉电力科技有限公司 一种用于通信系统的语音质量评价系统
WO2017147951A1 (zh) * 2016-03-01 2017-09-08 邦彦技术股份有限公司 网络电话语音质量客观评估处理的方法和装置
CN107293306A (zh) * 2017-06-21 2017-10-24 湖南省计量检测研究院 一种基于输出的客观语音质量的评估方法
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107846691A (zh) * 2016-09-18 2018-03-27 中兴通讯股份有限公司 一种mos测量方法、装置及分析仪
CN108520757A (zh) * 2018-03-31 2018-09-11 华南理工大学 基于听觉特性的音乐适用场景自动分类方法
CN109600789A (zh) * 2019-01-28 2019-04-09 西安海润通信技术有限公司 一种基于商务终端的VoLTE语音质量MOS评估方法
CN110211610A (zh) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
CN115148198A (zh) * 2022-09-01 2022-10-04 中瑞科技术有限公司 一种语音数据识别的对讲系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119796A (ja) * 1991-10-29 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 評価用標準音声信号発生方法
US7194093B1 (en) * 1998-05-13 2007-03-20 Deutsche Telekom Ag Measurement method for perceptually adapted quality evaluation of audio signals
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119796A (ja) * 1991-10-29 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 評価用標準音声信号発生方法
US7194093B1 (en) * 1998-05-13 2007-03-20 Deutsche Telekom Ag Measurement method for perceptually adapted quality evaluation of audio signals
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103557925B (zh) * 2013-10-17 2015-04-29 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
CN103557925A (zh) * 2013-10-17 2014-02-05 西北工业大学 水下目标gammatone离散小波系数听觉特征提取方法
US10026418B2 (en) 2014-07-29 2018-07-17 Huawei Technologies Co., Ltd. Abnormal frame detection method and apparatus
WO2016015461A1 (zh) * 2014-07-29 2016-02-04 华为技术有限公司 异常帧检测方法和装置
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104485114A (zh) * 2014-11-27 2015-04-01 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
CN104361894A (zh) * 2014-11-27 2015-02-18 湖南省计量检测研究院 一种基于输出的客观语音质量评估的方法
CN104575520A (zh) * 2014-12-16 2015-04-29 中国农业大学 一种结合心理声学评价的声波监测装置及方法
CN105575387A (zh) * 2015-12-25 2016-05-11 重庆邮电大学 基于听觉仿生中耳蜗基底膜的声源定位方法
WO2017147951A1 (zh) * 2016-03-01 2017-09-08 邦彦技术股份有限公司 网络电话语音质量客观评估处理的方法和装置
CN107846691A (zh) * 2016-09-18 2018-03-27 中兴通讯股份有限公司 一种mos测量方法、装置及分析仪
CN106601249A (zh) * 2016-11-18 2017-04-26 清华大学 一种基于听觉感知特性的数字语音实时分解/合成方法
CN107093432A (zh) * 2017-05-19 2017-08-25 深圳众厉电力科技有限公司 一种用于通信系统的语音质量评价系统
CN107093432B (zh) * 2017-05-19 2019-12-13 江苏百应信息技术有限公司 一种用于通信系统的语音质量评价系统
CN107293306B (zh) * 2017-06-21 2018-06-15 湖南省计量检测研究院 一种基于输出的客观语音质量的评估方法
CN107293306A (zh) * 2017-06-21 2017-10-24 湖南省计量检测研究院 一种基于输出的客观语音质量的评估方法
CN107358966A (zh) * 2017-06-27 2017-11-17 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN107358966B (zh) * 2017-06-27 2020-05-12 北京理工大学 基于深度学习语音增强的无参考语音质量客观评估方法
CN108520757A (zh) * 2018-03-31 2018-09-11 华南理工大学 基于听觉特性的音乐适用场景自动分类方法
CN109600789A (zh) * 2019-01-28 2019-04-09 西安海润通信技术有限公司 一种基于商务终端的VoLTE语音质量MOS评估方法
CN109600789B (zh) * 2019-01-28 2021-11-23 西安海润通信技术有限公司 一种基于商务终端的VoLTE语音质量MOS评估方法
CN110211610A (zh) * 2019-06-20 2019-09-06 平安科技(深圳)有限公司 评估音频信号损失的方法、装置及存储介质
CN115148198A (zh) * 2022-09-01 2022-10-04 中瑞科技术有限公司 一种语音数据识别的对讲系统

Also Published As

Publication number Publication date
CN102881289B (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN102881289B (zh) 一种基于听觉感知特性的语音质量客观评价方法
WO2017092216A1 (zh) 一种语音质量评估方法、装置及设备
CN106486131B (zh) 一种语音去噪的方法及装置
CN107358966B (zh) 基于深度学习语音增强的无参考语音质量客观评估方法
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Li et al. Robust speaker identification using an auditory-based feature
CN103730131B (zh) 语音质量评估的方法和装置
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
Kesarkar et al. Feature extraction for speech recognition
CN101452698B (zh) 一种自动嗓音谐噪比分析方法
CN104361894A (zh) 一种基于输出的客观语音质量评估的方法
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
Kressner et al. Evaluating the generalization of the hearing aid speech quality index (HASQI)
CN104778948B (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
CN111640451B (zh) 一种成熟度评估方法及装置、存储介质
CN104729677B (zh) 一种非平稳噪声信号的时域数字计权方法
CN103559893B (zh) 一种水下目标gammachirp倒谱系数听觉特征提取方法
CN103557925B (zh) 水下目标gammatone离散小波系数听觉特征提取方法
CN111261192A (zh) 一种基于lstm网络的音频检测方法、电子设备及存储介质
Alzqhoul et al. Comparison between speech parameters for forensic voice comparison using mobile phone speech
Mahdi et al. New single-ended objective measure for non-intrusive speech quality evaluation
CN112233693A (zh) 一种音质评估方法、装置和设备
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
CN106971711A (zh) 一种自适应的声纹识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140402

Termination date: 20140911

EXPY Termination of patent right or utility model