CN102881289A - 一种基于听觉感知特性的语音质量客观评价方法 - Google Patents
一种基于听觉感知特性的语音质量客观评价方法 Download PDFInfo
- Publication number
- CN102881289A CN102881289A CN2012103322883A CN201210332288A CN102881289A CN 102881289 A CN102881289 A CN 102881289A CN 2012103322883 A CN2012103322883 A CN 2012103322883A CN 201210332288 A CN201210332288 A CN 201210332288A CN 102881289 A CN102881289 A CN 102881289A
- Authority
- CN
- China
- Prior art keywords
- voice quality
- voice
- frequency
- mel
- quality evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种简单有效的基于听觉感知特性的语音质量客观评价方法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC(Mel频率倒谱系数)特征参数的提取过程。本发明使用Gammatone滤波器组对耳蜗基底膜进行仿真,在幅值非线性变换过程中用立方根非线性压缩变换来模拟语音的强度-响度感知特性。使用新的特征参数,提出了一种更加符合人耳听觉感知特性的语音质量评价方法。与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度,运行时间较短且复杂度低,具有较强的适应性,可靠性和实用性。本发明通过模拟人耳的听觉感知特性来进行语音质量评价的方法可为改善语音质量客观评价提供新的解决思路。
Description
技术领域
本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术,更具体地,涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中,通过计算特征参数的失真程度来实现语音质量客观评价的方法。
背景技术
语音质量评价是衡量语音通信系统性能优劣的根本标准之一,从评价主体上讲可分为两大类:主观评价和客观评价。ITU-T建议P.830提出的MOS(Mean Opinion Score)方法是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉,但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量,使客观评价结果能够准确预测出语音质量的主观评价结果,具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏,是一种误差度量。目前,比较成熟的算法基本上都是基于输入-输出方式的,包括:PESQ、Mel-CD等。
ITU-T建议P.862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。
Mel-CD失真测度以MFCC作为语音特征参数,运算复杂度较低,是一种简便有效的语音质量评价方法,但其评价性能与PESQ相差较大。分析表明,虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性,但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程,并不能充分地反映人耳的听觉感知特性。
Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换,能使特征参数的提取过程更好地符合听觉生理模型。
发明内容
本发明的目的是针对MFCC特征参数提取过程中存在的问题,提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术,使用Gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型,得到一种新的特征参数来进行语音质量客观评价。说明书附图1示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。
基于听觉感知特性的语音质量客观评价方法是这样实现的:
1.采集原始语音和通过被测系统的失真语音,对两路语音信号进行电平调整、带通滤波和时间对齐等预处理,以便于分别提取两路信号的特征参数;
2.加汉宁窗对预处理后的语音信号进行分帧,提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先,使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波,能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征;接着,对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性,这不仅符合了人耳的听觉感知特性,而且计算过程简单;然后,立方根能量经过RASTA滤波,抑制了信号频谱中的常量或变化缓慢的非语音部分,同时增强了动态成分;最后,经过DCT变换(离散余弦变换)到倒谱域,即可实现特征参数的提取;
3.计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D,用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观(预测)MOS值,MOS值的大小说明了被测系统语音质量的好坏。
与其它的技术相比,本发明具有以下的优点:
1.使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型,有效地提高了客观评价结果与主观评价结果的相关度;
2.Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据,立方根变换避免了复杂的计算模型,使得算法复杂度低且运行时间较短,适合于语音质量实时评价和嵌入式系统实现;
4.本发明保留了Mel-CD方法运行时间较短和算法复杂度低的优点,评价准确性较Mel-CD方法有很大的提高;与PESQ算法相比,评价准确性相差较小,但运行时间和算法复杂度减小明显,借助于各种语音信号处理方法可将其应用于语音编解码器和通信网络的语音质量客观评价。
附图说明
结合附图阅读本发明的以下详细描述,可以更好地理解本发明及其优点和其他特征,其中:
图1示出了基于输入-输出方式的语音质量客观评价方法结构图;
图2示出了语音信号特征参数的提取流程;
图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组。
具体实施方式
为了更好地理解本发明,下面将详细描述本发明的具体实施方式:
附图2示出了语音信号特征参数的具体提取流程:
4.人耳所听到的声音的高低与声音的频率并不呈线性正比关系,采用更符合人耳的听觉特性的Mel频率尺度来进行频率划分。 Mel频率与实际频率的具体关系为
5. Gammatone滤波器组的时域表达式为:
附图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组:
在Mel频率轴上配置具有个通道的Gammatone滤波器组, 每个滤波器的中心频率在Mel频率轴上等间隔分布,中心频率两侧斜率较大,表明Gammatone滤波器具有尖锐的频率选择特性;滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露。 这些幅频响应特性与基底膜的滤波特性是一致的,同时也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响。
通过一组Mel尺度的Gammatone滤波器组,在频域对能量谱进行滤波,得到每个Gammatone滤波器的输出能量:
6.非线性压缩运算基于强度-响度感知变换,将其用在特征参数的提取过程能更好地符合了人耳的听觉感知特性,而且计算过程简单;
立方根非线性压缩变换的计算公式为
(4)
(5)
8.立方根能量经过RASTA滤波和DCT变换到倒谱域,即可得到改进的MFCC参数。
至此完成了两路语音信号特征参数的提取,此过程更加符合人耳的生理模型和听觉感知特性,有利于提高语音质量客观评价方法的性能;
平均动态Mel倒谱距离D为:
10.采用若干对已知MOS值的语音样本进行测试,计算的倒谱距离D按最小二乘法准则进行二次多项式拟合,以对应相应语音质量的客观MOS值或称为预测MOS值。
综上所示,根据人耳的听觉生理模型,将Gammatone滤波器组和立方根非线性压缩变换引入特征参数的提取过程,更好地符合了人耳的听觉感知特性,能有效地提高语音质量主观评价结果和客观评价结果的相关度,同时具有较强的可靠性、适应性和实用性。
Claims (1)
1.一种简单有效的基于听觉感知特性的语音质量客观评价技术,根据心理声学原理将人耳听觉模型和非线性压缩变换引入特征参数的提取过程来进行语音质量的客观评价,其特征在于采用以下步骤:
A、将原始语音和通过被测系统的失真语音进行预处理,以便于提取各自的特征参数;
D、通过一组Mel尺度的Gammatone滤波器组,在频域对能量谱进行滤波,得到每个Gammatone滤波器的输出能量,计算过程由式给出:;
H、计算两路信号特征参数的平均动态Mel倒谱距离D,将D值进行二次多项式变换来预测主观MOS分,通过预测值的大小来判断被测系统语音质量的好坏。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210332288.3A CN102881289B (zh) | 2012-09-11 | 2012-09-11 | 一种基于听觉感知特性的语音质量客观评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210332288.3A CN102881289B (zh) | 2012-09-11 | 2012-09-11 | 一种基于听觉感知特性的语音质量客观评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102881289A true CN102881289A (zh) | 2013-01-16 |
CN102881289B CN102881289B (zh) | 2014-04-02 |
Family
ID=47482590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210332288.3A Expired - Fee Related CN102881289B (zh) | 2012-09-11 | 2012-09-11 | 一种基于听觉感知特性的语音质量客观评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102881289B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103557925A (zh) * | 2013-10-17 | 2014-02-05 | 西北工业大学 | 水下目标gammatone离散小波系数听觉特征提取方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104485114A (zh) * | 2014-11-27 | 2015-04-01 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
CN104575520A (zh) * | 2014-12-16 | 2015-04-29 | 中国农业大学 | 一种结合心理声学评价的声波监测装置及方法 |
WO2016015461A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 异常帧检测方法和装置 |
CN105575387A (zh) * | 2015-12-25 | 2016-05-11 | 重庆邮电大学 | 基于听觉仿生中耳蜗基底膜的声源定位方法 |
CN106601249A (zh) * | 2016-11-18 | 2017-04-26 | 清华大学 | 一种基于听觉感知特性的数字语音实时分解/合成方法 |
CN107093432A (zh) * | 2017-05-19 | 2017-08-25 | 深圳众厉电力科技有限公司 | 一种用于通信系统的语音质量评价系统 |
WO2017147951A1 (zh) * | 2016-03-01 | 2017-09-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107846691A (zh) * | 2016-09-18 | 2018-03-27 | 中兴通讯股份有限公司 | 一种mos测量方法、装置及分析仪 |
CN108520757A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 基于听觉特性的音乐适用场景自动分类方法 |
CN109600789A (zh) * | 2019-01-28 | 2019-04-09 | 西安海润通信技术有限公司 | 一种基于商务终端的VoLTE语音质量MOS评估方法 |
CN110211610A (zh) * | 2019-06-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 评估音频信号损失的方法、装置及存储介质 |
CN114078483A (zh) * | 2021-11-15 | 2022-02-22 | 惠州市锦好医疗科技股份有限公司 | 基于分类以及特征提取的语音质量评估方法 |
CN115148198A (zh) * | 2022-09-01 | 2022-10-04 | 中瑞科技术有限公司 | 一种语音数据识别的对讲系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119796A (ja) * | 1991-10-29 | 1993-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 評価用標準音声信号発生方法 |
US7194093B1 (en) * | 1998-05-13 | 2007-03-20 | Deutsche Telekom Ag | Measurement method for perceptually adapted quality evaluation of audio signals |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
CN102044247A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
-
2012
- 2012-09-11 CN CN201210332288.3A patent/CN102881289B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05119796A (ja) * | 1991-10-29 | 1993-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 評価用標準音声信号発生方法 |
US7194093B1 (en) * | 1998-05-13 | 2007-03-20 | Deutsche Telekom Ag | Measurement method for perceptually adapted quality evaluation of audio signals |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
CN102044247A (zh) * | 2009-10-10 | 2011-05-04 | 北京理工大学 | 一种针对VoIP语音的客观评测方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103557925B (zh) * | 2013-10-17 | 2015-04-29 | 西北工业大学 | 水下目标gammatone离散小波系数听觉特征提取方法 |
CN103557925A (zh) * | 2013-10-17 | 2014-02-05 | 西北工业大学 | 水下目标gammatone离散小波系数听觉特征提取方法 |
WO2016015461A1 (zh) * | 2014-07-29 | 2016-02-04 | 华为技术有限公司 | 异常帧检测方法和装置 |
US10026418B2 (en) | 2014-07-29 | 2018-07-17 | Huawei Technologies Co., Ltd. | Abnormal frame detection method and apparatus |
CN104485114B (zh) * | 2014-11-27 | 2018-03-06 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
CN104361894A (zh) * | 2014-11-27 | 2015-02-18 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量评估的方法 |
CN104485114A (zh) * | 2014-11-27 | 2015-04-01 | 湖南省计量检测研究院 | 一种基于听觉感知特性的语音质量客观评估的方法 |
CN104575520A (zh) * | 2014-12-16 | 2015-04-29 | 中国农业大学 | 一种结合心理声学评价的声波监测装置及方法 |
CN105575387A (zh) * | 2015-12-25 | 2016-05-11 | 重庆邮电大学 | 基于听觉仿生中耳蜗基底膜的声源定位方法 |
WO2017147951A1 (zh) * | 2016-03-01 | 2017-09-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
CN107846691A (zh) * | 2016-09-18 | 2018-03-27 | 中兴通讯股份有限公司 | 一种mos测量方法、装置及分析仪 |
CN106601249A (zh) * | 2016-11-18 | 2017-04-26 | 清华大学 | 一种基于听觉感知特性的数字语音实时分解/合成方法 |
CN107093432A (zh) * | 2017-05-19 | 2017-08-25 | 深圳众厉电力科技有限公司 | 一种用于通信系统的语音质量评价系统 |
CN107093432B (zh) * | 2017-05-19 | 2019-12-13 | 江苏百应信息技术有限公司 | 一种用于通信系统的语音质量评价系统 |
CN107293306B (zh) * | 2017-06-21 | 2018-06-15 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107293306A (zh) * | 2017-06-21 | 2017-10-24 | 湖南省计量检测研究院 | 一种基于输出的客观语音质量的评估方法 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107358966B (zh) * | 2017-06-27 | 2020-05-12 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN108520757A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 基于听觉特性的音乐适用场景自动分类方法 |
CN109600789A (zh) * | 2019-01-28 | 2019-04-09 | 西安海润通信技术有限公司 | 一种基于商务终端的VoLTE语音质量MOS评估方法 |
CN109600789B (zh) * | 2019-01-28 | 2021-11-23 | 西安海润通信技术有限公司 | 一种基于商务终端的VoLTE语音质量MOS评估方法 |
CN110211610A (zh) * | 2019-06-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 评估音频信号损失的方法、装置及存储介质 |
CN114078483A (zh) * | 2021-11-15 | 2022-02-22 | 惠州市锦好医疗科技股份有限公司 | 基于分类以及特征提取的语音质量评估方法 |
CN115148198A (zh) * | 2022-09-01 | 2022-10-04 | 中瑞科技术有限公司 | 一种语音数据识别的对讲系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102881289B (zh) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102881289B (zh) | 一种基于听觉感知特性的语音质量客观评价方法 | |
WO2017092216A1 (zh) | 一种语音质量评估方法、装置及设备 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Li et al. | Robust speaker identification using an auditory-based feature | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN104361894A (zh) | 一种基于输出的客观语音质量评估的方法 | |
CN108417228A (zh) | 乐器音色迁移下的人声音色相似性度量方法 | |
Kesarkar et al. | Feature extraction for speech recognition | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN101452698B (zh) | 一种自动嗓音谐噪比分析方法 | |
CN107293306B (zh) | 一种基于输出的客观语音质量的评估方法 | |
Kressner et al. | Evaluating the generalization of the hearing aid speech quality index (HASQI) | |
CN104778948B (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN104269180A (zh) | 一种用于语音质量客观评价的准干净语音构造方法 | |
CN111640451B (zh) | 一种成熟度评估方法及装置、存储介质 | |
CN104729677B (zh) | 一种非平稳噪声信号的时域数字计权方法 | |
CN103559893B (zh) | 一种水下目标gammachirp倒谱系数听觉特征提取方法 | |
CN103557925B (zh) | 水下目标gammatone离散小波系数听觉特征提取方法 | |
CN111261192A (zh) | 一种基于lstm网络的音频检测方法、电子设备及存储介质 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Mahdi et al. | New single-ended objective measure for non-intrusive speech quality evaluation | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Zouhir et al. | Speech Signals Parameterization Based on Auditory Filter Modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140402 Termination date: 20140911 |
|
EXPY | Termination of patent right or utility model |