CN104485114A - 一种基于听觉感知特性的语音质量客观评估的方法 - Google Patents

一种基于听觉感知特性的语音质量客观评估的方法 Download PDF

Info

Publication number
CN104485114A
CN104485114A CN201410696773.8A CN201410696773A CN104485114A CN 104485114 A CN104485114 A CN 104485114A CN 201410696773 A CN201410696773 A CN 201410696773A CN 104485114 A CN104485114 A CN 104485114A
Authority
CN
China
Prior art keywords
signal
frequency
reference signal
spectrum
gammatone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410696773.8A
Other languages
English (en)
Other versions
CN104485114B (zh
Inventor
李庆生
刘良江
卞昕
柏文琦
周鑫
彭正梁
徐昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
National Institute of Metrology
Hunan Institute of Metrology and Test
Original Assignee
HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
National Institute of Metrology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE, National Institute of Metrology filed Critical HUNAN MEASUREMENT INSPECTION RESEARCH INSTITUTE
Priority to CN201410696773.8A priority Critical patent/CN104485114B/zh
Publication of CN104485114A publication Critical patent/CN104485114A/zh
Application granted granted Critical
Publication of CN104485114B publication Critical patent/CN104485114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,具体步骤为:1)通过POLQA处理参考信号和劣化信号,然后所述参考信号和劣化信号进入核心模型;2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,再进行听觉变换,使提取的听觉频谱更接近人耳听觉感受;3)通过听觉变换后,再进行干扰分析,分析所述劣化信号相对所述参考信号的失真,得出客观评价MOS分。与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度。

Description

一种基于听觉感知特性的语音质量客观评估的方法
技术领域
本发明涉及语音信号处理技术领域,具体为一种基于听觉感知特性的语音质量客观评估的方法。
背景技术
语音质量评价从评价主体上讲可分为两大类:主观评价和客观评价。
主观评价是以人为主体来评价语音的质量,该方式虽较为繁杂,但由于人是语音的最终接受者,因此这种评价是语音质量的真实反映。1996年ITU组织提出的平均意见得分(MOS)是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉。主观评价的优点是符合人对语音质量的感觉,缺点是费时费力费钱,且灵活性不够,重复性和稳定性较差,受人的主观影响较大等。
为了克服主观评价的缺点,人们开始研究语音质量客观评价方法。研究语音质量客观评价的目的不是要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便快捷又能够准确预测出主观评价值的语音质量评价手段。语音质量客观评价从评价方法上可分为侵入式(intrusive)和非侵入式(non-intrusive)。侵入式的评价通常也被称为双端或基于输入-输出的评价,它是以语音系统的输入信号和输出信号之间的误差大小来判断语音质量的好坏,通过提取两端语音信号的特征参量来建立评价模型。非侵入式的评价也被称为单端或基于输出的评价,它仅根据语音系统的输出信号来进行质量评价。
ITU-T在2001年发布的P.862感知评估通话质量测量PESQ(PerceptualEvaluationofSpeechQualityAnalysis)是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。由于PESQ测试标准的局限性,ITU-T于2011年提出了P.863POLQA(PerceptualObjectiveListeningQualityAnalysis)作为下一代语音质量测试技术,是对P.862的改进。可用于固定电话网络包括LTE在内的移动网络及IP电话网络。
人耳生理学研究表明,人耳听觉系统主要由外耳、中耳和内耳构成。语音信号在听觉系统中,依次通过外耳、中耳和内耳,在经过耳蜗基底膜的频带分解作用后,沿听觉通路进入听觉中枢系统。在整个听觉系统中,耳蜗是非常重要的核心部件。当外界的语音信号传入到耳蜗基底膜之后,基底膜将产生以行波传递形式的振动,且基底膜振动的听觉响应与受刺激的语音信号频率有关;基底膜的这种频率分解作用是人耳听觉系统进行声音信号处理的重要环节。在语音识别中,通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用,本发明采用Gammatone滤波器组实现耳蜗模型。
Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。
发明内容
本申请的目的在于克服现有技术的不足,提供一种使用Gammatone滤波器组对耳蜗基底膜进行仿真,通过引入ITU-T P.863POLQA,提出一种基于听觉感知特性的语音质量客观评估的方法。
为了达到上述目的,本发明采用以下技术方案:
一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,具体步骤为:
1)通过POLQA处理参考信号和劣化信号,然后所述参考信号和劣化信号进入核心模型;
2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,再进行听觉变换,使提取的听觉频谱更接近人耳听觉感受;
3)通过听觉变换后,再进行干扰分析,分析所述劣化信号相对所述参考信号的失真,得出客观评价MOS分。
进一步,所述Gammatone滤波器是一个标准的耳蜗听觉滤波器,滤波器的时域脉冲响应为:
g(t)=Bntn-1e-2πBt cos(2πf0t+φ)u(t)     (1)
其中:t<0时u(t)=0,t>0时u(t)=1;参数B=b1ERB(f0),ERB(f0)为Gammatone滤波器的等价矩形带宽,所述等价矩形带宽(ERB):对于同样的白噪声输入,和指定的滤波器通过一样能量的矩形滤波器的宽度,所述等价矩形带宽同Gammatone滤波器中心频率f0的关系是ERB(f0)=24.7+0.108f0
进一步,所述参数优先b1=1.019,n=4。
进一步,所述将Gammatone滤波器的时域脉冲响应进行Fourier变换,可得到Gammatone滤波器的时域脉冲响应的频率响应特性,所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形;中心频率越高,达到最大振幅所需要的时间τ也越短。
进一步,所述最大幅度出现在中心频率位置的带通滤波器,不同中心频率的Gammatone滤波器具有不同的带宽,带通滤波器中心频率两侧都具有较陡的边沿。
进一步,所述POLQA处理的步骤如下:
1)将参考信号和劣化信号的时间对齐,以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较;
2)在进行时间对齐之后,如果检测到两个信号的采样率不同,则减小较高采样率的信号的采样率,直到达到允许的采样率差;
3)在信号对齐步骤后,所述参考信号和劣化信号进入POLQA的核心模型,所述参考信号和劣化信号被转换成接近人耳听觉特性的语音内部表现形式,在此基础上分析所述参考信号和劣化信号的差异。
进一步,所述POLQA的核心模型处理流程如下:
1)电平调整与IRS滤波,将所述参考信号和劣化信号调整到恒定、统一的电平上,使用IRS滤波器来对原始语音信号及输出语音信号进行滤波,所述滤波的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减,话音通带为300Hz~3.4kHz;
2)听觉变换,所述听觉变换是一个生理声学模型,把信号变换到时频可感知的响
度表达,包括以下步骤:
(a)巴克谱,对语音信号汉明加窗后,用FFT计算每帧的瞬时功率谱,再将功率谱变换为Bark尺度上的能量谱;
(b)频率均衡,计算有效话音帧的平均巴克谱值,通过参考话音和失真话音间的比率就给出传输函数估计,参考话音使用传输函数估计值补偿到和失真话音相当,补偿最多不超过正负20dB;
(c)增益变化均衡,参考信号和失真信号的可听功率之间的比值用于标识增益变化,此比值通过一阶低通滤波器滤波,失真信号乘以这个功率比,补偿到和参考信号相当;
(d)响度映射。通过一个与频率相关的听觉门限和指数变换,将巴克谱映射到响度级。在每一时频单元给出感受到的响度;
3)扰动处理和认知模型,基于音调响度时间表达式,计算出两个指示参考信号与劣化信号差别的参数,一个是扰动密度,由参考信号与劣化信号音调响度时间函数的差别得到;另一个是增加的扰动密度,当劣化信号的功率密度大于参考信号的功率密度时,参考信号与劣化信号音调响度时间函数被优化。
进一步,所述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带,一个临界带的单位用巴克(Bark)表示。
本发明具有以下优点:
1)通过使用Gammatone滤波器组对耳蜗基底膜进行仿真,提出了一种更加符合人耳听觉感知特性的语音质量评价方法,与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度;
2)利用Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现;
3)通过POLQA的核心模型中的频谱映射为巴克谱模块对语音进行临界频带分析处理,有效的将语音频谱转换成听觉频谱。
附图说明
图1a不同中心频率下的Gammatone滤波器的脉冲响应时域波形
图1b不同中心频率下的Gammatone滤波器的幅频响应曲线
图2为POLQA的示意图。
图3为POLQA的核心模型框图。
图4为IRS滤波器的频响特性曲线。
图5为基于Gammatone滤波器组的POLQA语音质量评估方法原理框图。
具体实施方式
1、Gammatone滤波器
Gammatone滤波器是一个标准的耳蜗听觉滤波器,滤波器的时域脉冲响应为:
g(t)=Bntn-1e-2πBt cos(2πf0t+φ)u(t)     (1)
其中:t<0时u(t)=0,t>0时u(t)=1;参数B=b1ERB(f0),ERB(f0)为Gammatone滤波器的等价矩形带宽(等价矩形带宽:对于同样的白噪声输入,和指定的滤波器通过一样能量的矩形滤波器的宽度,简称ERB),它同Gammatone滤波器中心频率f0的关系是ERB(f0)=24.7+0.108f0,参数b1=1.019是为了让函数更好地与生理数据相符而引入的参数;n为滤波器的阶数,通过研究表明n=4的Gammatone滤波器就能很好地模拟基底膜的滤波特性;参数φ为滤波器的初始相位。
将Gammatone滤波器的时域脉冲响应进行Fourier变换,即可得到Gammatone滤波器的时域脉冲响应的频率响应特性。不同中心频率f0下的4阶Gammatone滤波器的脉冲响应时域波形如图1a所示,对应的幅频响应曲线如图1b所示。其中图1a的虚线表示Gammatone滤波器的脉冲响应时域波形的包络,τ的值表示t=0到振动包络达到最大值所需要的时间;图1b的幅频响应曲线采用的是对数频率横坐标。
观察图1a可发现Gammatone滤波器的脉冲响应时域波形具有以下特征:时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形;中心频率越高,达到最大振幅(即最大包络)所需要的时间τ也越短。这些时域波形特征与听神经的生理学冲激响应数据的特性是非常一致的。观察图1b可发现幅频响应曲线具有以下特征:最大幅度出现在中心频率位置的带通滤波器,不同中心频率的Gammatone滤波器具有不同的带宽;带通滤波器中心频率两侧都具有较陡的边沿,表明Gammatone滤波器具有尖锐的频率选择特性。这些幅频响应特征与基底膜的滤波特性是一致的。
2、POLQA
POLQA(Perceptual Objective Listening Quality Analysis)是ITU-T于2011年提出的P.863标准,在P.862的基础上,POLQA计算模型完成了时域同步、幅值同步、频率规整、响度压缩等步骤,并考虑了人耳响度感受对评估结果的影响。通过频率指标、噪声指标、室内混响指标,以及时间、响度和声调在听觉中的差别指标综合评估得出MOS分值,其示意图如图2所示。
POLQA处理的第一步是参考信号和劣化信号的时间对齐,以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较。
在进行时间对齐之后,如果检测到两个信号的采样率不同,则减小较高采样率的信号的采样率,直到达到允许的采样率差。
在信号对齐步骤后,参考信号和劣化信号进入POLQA的核心模型。这两个信号被转换成接近人耳听觉特性的语音内部表现形式,在此基础上分析两个信号的差异。POLQA的核心模型框图如图3所示。
(1)电平调整与IRS滤波
不同语音系统的增益差别是很大的,当原始语音参考信号通过通信系统后,信号电平发生了变化。为了便于语音信号的比较,要将它们调整到恒定、统一的电平上。感知模型必须考虑人听到的实际声音,所以使用IRS滤波器,起到一个模拟电话手柄的作用。
IRS滤波器的频响特性曲线如图4所示。使用IRS滤波器来对原始语音信号及输出语音信号进行滤波,较好地模拟了通用电话手柄的听筒的频响特性。它的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减,话音通带为300Hz~3.4kHz。
(2)听觉变换
听觉变换是一个生理声学模型,它把信号变换到时频可感知的响度表达,包括以下步骤:
(a)巴克谱。对语音信号汉明加窗后,用FFT计算每帧的瞬时功率谱,再将功率谱变换为Bark尺度上的能量谱。
(b)频率均衡。计算有效话音帧的平均巴克谱值。通过参考话音和失真话音间的比率就给出传输函数估计。参考话音使用传输函数估计值补偿到和失真话音相当,补偿最多不超过正负20dB。
(c)增益变化均衡。参考信号和失真信号的可听功率之间的比值用于标识增益变化。此比值通过一阶低通滤波器滤波,失真信号乘以这个功率比,补偿到和参考信号相当。
(d)响度映射。通过一个与频率相关的听觉门限和指数变换,将巴克谱映射到响度级。在每一时频单元给出感受到的响度。
(3)扰动处理和认知模型
基于音调响度时间表达式,可以计算出两个指示参考信号与劣化信号差别的参数,一个是扰动密度,由参考信号与劣化信号音调响度时间函数的差别得到;另一个是增加的扰动密度,当劣化信号的功率密度大于参考信号的功率密度时,参考信号与劣化信号音调响度时间函数被优化。
认知模型中会计算六个质量指标,分别为:FREQ、NOISE、REVERB和在音调响度时间域描述内部差异的三个指标。这六个指标联合得到客观质量MOS分。
POLQA的核心模型中的频谱映射为巴克谱模块对语音进行临界频带分析处理,是将语音频谱转换成听觉频谱的重要环节之一。
当两个响度不同的声音作用于人耳时,由于频率不同人耳的感知会产生一种现象,即响度较高的频率成分的存在会影响对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。为了描述这种掩蔽效应引入了临界频带的概念。临界频带是一个描述听觉感受特性的重要概念。
耳蜗基底膜的一个重要功能就是频率分解,不同的频率在沿基底膜的不同位置集中响应,临界频带也可定义为:一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。在20—16000Hz范围内的频率可以划分为24个临界带,一个临界带的单位用巴克(Bark)表示。
3、基于听觉感知特性的语音质量客观评估的方法
人耳听觉系统对声音信号的感知具有掩蔽效应,为使评价结果更接近人耳主观感受,在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,则基于Gammatone滤波器组的POLQA语音质量评估方法原理框图如图5所示。具体步骤为:
1)参考信号和劣化信号进行时间对齐,然后进入核心模型进行听觉变换。
2)在核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,使提取的听觉频谱更接近人耳听觉感受。
3)听觉变换后,进行干扰分析,分析劣化信号相对参考信号的失真,得出客观评价MOS分。
其中,Gammatone滤波器是一个标准的耳蜗听觉滤波器,滤波器的时域脉冲响应为:
g(t)=Bntn-1e-2πBt cos(2πf0t+φ)u(t)     (1)
其中:t<0时u(t)=0,t>0时u(t)=1;参数B=b1ERB(f0),ERB(f0)为Gammatone滤波器的等价矩形带宽,所述等价矩形带宽(ERB):对于同样的白噪声输入,和指定的滤波器通过一样能量的矩形滤波器的宽度,所述等价矩形带宽同Gammatone滤波器中心频率f0的关系是ERB(f0)=24.7+0.108f0。所述参数优先b1=1.019,n=4。
将Gammatone滤波器的时域脉冲响应进行Fourier变换,可得到Gammatone滤波器的时域脉冲响应的频率响应特性,所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形;中心频率越高,达到最大振幅所需要的时间τ也越短。
最大幅度出现在中心频率位置的带通滤波器,不同中心频率的Gammatone滤波器具有不同的带宽,带通滤波器中心频率两侧都具有较陡的边沿。
POLQA处理的步骤如下:
1)将参考信号和劣化信号的时间对齐,以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较;
2)在进行时间对齐之后,如果检测到两个信号的采样率不同,则减小较高采样率的信号的采样率,直到达到允许的采样率差;
3)在信号对齐步骤后,所述参考信号和劣化信号进入POLQA的核心模型,所述参考信号和劣化信号被转换成接近人耳听觉特性的语音内部表现形式,在此基础上分析所述参考信号和劣化信号的差异。
POLQA的核心模型处理流程如下:
1)电平调整与IRS滤波,将所述参考信号和劣化信号调整到恒定、统一的电平上,使用IRS滤波器来对原始语音信号及输出语音信号进行滤波,所述滤波的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减,话音通带为300Hz~3.4kHz;
2)听觉变换,所述听觉变换是一个生理声学模型,把信号变换到时频可感知的响度表达,包括以下步骤:
(a)巴克谱,对语音信号汉明加窗后,用FFT计算每帧的瞬时功率谱,再将功率谱变换为Bark尺度上的能量谱;
(b)频率均衡,计算有效话音帧的平均巴克谱值,通过参考话音和失真话音间的比率就给出传输函数估计,参考话音使用传输函数估计值补偿到和失真话音相当,补偿最多不超过正负20dB;
(c)增益变化均衡,参考信号和失真信号的可听功率之间的比值用于标识增益变化,此比值通过一阶低通滤波器滤波,失真信号乘以这个功率比,补偿到和参考信号相当;
(d)响度映射。通过一个与频率相关的听觉门限和指数变换,将巴克谱映射到响度级。在每一时频单元给出感受到的响度;
3)扰动处理和认知模型,基于音调响度时间表达式,计算出两个指示参考信号与劣化信号差别的参数,一个是扰动密度,由参考信号与劣化信号音调响度时间函数的差别得到;另一个是增加的扰动密度,当劣化信号的功率密度大于参考信号的功率密度时,参考信号与劣化信号音调响度时间函数被优化。
上述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带,一个临界带的单位用巴克(Bark)表示。
虽然上面的举例了一些特定实施例来说明和描述本发明,但并不意味着本发明仅局限于其中的各种细节。相反地,在等价于权利要求书的范畴和范围内可以不偏离本发明精神地在各种细节上做出各种修改。

Claims (8)

1.一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,具体步骤为:
1)通过POLQA处理参考信号和劣化信号,然后所述参考信号和劣化信号进入核心模型;
2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,再进行听觉变换,使提取的听觉频谱更接近人耳听觉感受;
3)通过听觉变换后,再进行干扰分析,分析所述劣化信号相对所述参考信号的失真,得出客观评价MOS分。
2.根据权利要求1所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述Gammatone滤波器是一个标准的耳蜗听觉滤波器,滤波器的时域脉冲响应为:
g(t)=Bntn-1e-2πBt cos(2πf0t+φ)u(t)          (1)
其中:t<0时u(t)=0,t>0时u(t)=1;参数B=b1ERB(f0),ERB(f0)为Gammatone滤波器的等价矩形带宽,所述等价矩形带宽(ERB):对于同样的白噪声输入,和指定的滤波器通过一样能量的矩形滤波器的宽度,所述等价矩形带宽同Gammatone滤波器中心频率f0的关系是ERB(f0)=24.7+0.108f0
3.根据权利要求2所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述参数优先b1=1.019,n=4。
4.根据权利要求3所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述将Gammatone滤波器的时域脉冲响应进行Fourier变换,可得到Gammatone滤波器的时域脉冲响应的频率响应特性,所述时域波形是一个振动频率等于其中心频率、振动包络为Gamma函数曲线的波形;中心频率越高,达到最大振幅所需要的时间τ也越短。
5.根据权利要求4所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述最大幅度出现在中心频率位置的带通滤波器,不同中心频率的Gammatone滤波器具有不同的带宽,带通滤波器中心频率两侧都具有较陡的边沿。
6.根据权利要求1所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述POLQA处理的步骤如下:
1)将参考信号和劣化信号的时间对齐,以确保接下来在核心模型中的处理是基于两个信号在相同的语音段的准确比较;
2)在进行时间对齐之后,如果检测到两个信号的采样率不同,则减小较高采样率的信号的采样率,直到达到允许的采样率差;
3)在信号对齐步骤后,所述参考信号和劣化信号进入POLQA的核心模型,所述参考信号和劣化信号被转换成接近人耳听觉特性的语音内部表现形式,在此基础上分析所述参考信号和劣化信号的差异。
7.根据权利要求6所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述POLQA的核心模型处理流程如下:
1)电平调整与IRS滤波,将所述参考信号和劣化信号调整到恒定、统一的电平上,使用IRS滤波器来对原始语音信号及输出语音信号进行滤波,所述滤波的频响特性曲线在小于300Hz以及大于3.4kHz附近时有3dB的衰减,话音通带为300Hz~3.4kHz;
2)听觉变换,所述听觉变换是一个生理声学模型,把信号变换到时频可感知的响度表达,包括以下步骤:
(a)巴克谱,对语音信号汉明加窗后,用FFT计算每帧的瞬时功率谱,再将功率谱变换为Bark尺度上的能量谱;
(b)频率均衡,计算有效话音帧的平均巴克谱值,通过参考话音和失真话音间的比率就给出传输函数估计,参考话音使用传输函数估计值补偿到和失真话音相当,补偿最多不超过正负20dB;
(c)增益变化均衡,参考信号和失真信号的可听功率之间的比值用于标识增益变化,此比值通过一阶低通滤波器滤波,失真信号乘以这个功率比,补偿到和参考信号相当;
(d)响度映射。通过一个与频率相关的听觉门限和指数变换,将巴克谱映射到响度级。在每一时频单元给出感受到的响度;
3)扰动处理和认知模型,基于音调响度时间表达式,计算出两个指示参考信号与劣化信号差别的参数,一个是扰动密度,由参考信号与劣化信号音调响度时间函数的差别得到;另一个是增加的扰动密度,当劣化信号的功率密度大于参考信号的功率密度时,参考信号与劣化信号音调响度时间函数被优化。
8.根据权利要求7所述的一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述参考信号和劣化信号在20—16000Hz范围内的频率可以划分为24个临界带,一个临界带的单位用巴克(Bark)表示。
CN201410696773.8A 2014-11-27 2014-11-27 一种基于听觉感知特性的语音质量客观评估的方法 Active CN104485114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410696773.8A CN104485114B (zh) 2014-11-27 2014-11-27 一种基于听觉感知特性的语音质量客观评估的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410696773.8A CN104485114B (zh) 2014-11-27 2014-11-27 一种基于听觉感知特性的语音质量客观评估的方法

Publications (2)

Publication Number Publication Date
CN104485114A true CN104485114A (zh) 2015-04-01
CN104485114B CN104485114B (zh) 2018-03-06

Family

ID=52759653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410696773.8A Active CN104485114B (zh) 2014-11-27 2014-11-27 一种基于听觉感知特性的语音质量客观评估的方法

Country Status (1)

Country Link
CN (1) CN104485114B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656448A (zh) * 2015-12-28 2016-06-08 广东工业大学 一种音频滤波器
CN106816158A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 一种语音质量评估方法、装置及设备
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107580155A (zh) * 2017-08-31 2018-01-12 百度在线网络技术(北京)有限公司 网络电话质量确定方法、装置、计算机设备和存储介质
CN108305618A (zh) * 2018-01-17 2018-07-20 广东小天才科技有限公司 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN109300481A (zh) * 2018-10-19 2019-02-01 武汉轻工大学 基于信息熵及时间趋势分析的音频关注度计算方法及系统
CN109979486A (zh) * 2017-12-28 2019-07-05 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
US10490206B2 (en) 2016-01-19 2019-11-26 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
CN112216305A (zh) * 2020-09-30 2021-01-12 上海幻维数码创意科技有限公司 一种音频相似度识别方法
CN112470220A (zh) * 2018-05-30 2021-03-09 弗劳恩霍夫应用研究促进协会 音频相似性评估器、音频编码器、方法和计算机程序
CN112614507A (zh) * 2020-12-09 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 检测噪声的方法和装置
CN113393863A (zh) * 2021-06-10 2021-09-14 北京字跳网络技术有限公司 一种语音评价方法、装置和设备
CN117319883A (zh) * 2023-10-24 2023-12-29 深圳市汉得利电子科技有限公司 一种车载立体式扬声器及扬声器系统
CN117319883B (zh) * 2023-10-24 2024-06-04 深圳市汉得利电子科技有限公司 一种车载立体式扬声器及扬声器系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
WO2013073943A1 (en) * 2011-11-17 2013-05-23 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Method of and apparatus for evaluating intelligibility of a degraded speech signal
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013073943A1 (en) * 2011-11-17 2013-05-23 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Method of and apparatus for evaluating intelligibility of a degraded speech signal
CN102664017A (zh) * 2012-04-25 2012-09-12 武汉大学 一种3d音频质量客观评价方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁超: "一种基于Gammatone滤波的语音质量评价算法", 《长春工业大学学报(自然科学版)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10497383B2 (en) 2015-11-30 2019-12-03 Huawei Technologies Co., Ltd. Voice quality evaluation method, apparatus, and device
CN106816158A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 一种语音质量评估方法、装置及设备
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
CN105656448B (zh) * 2015-12-28 2018-12-25 广东工业大学 一种音频滤波器
CN105656448A (zh) * 2015-12-28 2016-06-08 广东工业大学 一种音频滤波器
US10490206B2 (en) 2016-01-19 2019-11-26 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
CN107293286A (zh) * 2017-05-27 2017-10-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107293286B (zh) * 2017-05-27 2020-11-24 华南理工大学 一种基于网络配音游戏的语音样本收集方法
CN107580155A (zh) * 2017-08-31 2018-01-12 百度在线网络技术(北京)有限公司 网络电话质量确定方法、装置、计算机设备和存储介质
CN107580155B (zh) * 2017-08-31 2020-09-11 百度在线网络技术(北京)有限公司 网络电话质量确定方法、装置、计算机设备和存储介质
CN109979486B (zh) * 2017-12-28 2021-07-09 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN109979486A (zh) * 2017-12-28 2019-07-05 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN108305618A (zh) * 2018-01-17 2018-07-20 广东小天才科技有限公司 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN112470220A (zh) * 2018-05-30 2021-03-09 弗劳恩霍夫应用研究促进协会 音频相似性评估器、音频编码器、方法和计算机程序
CN109300481A (zh) * 2018-10-19 2019-02-01 武汉轻工大学 基于信息熵及时间趋势分析的音频关注度计算方法及系统
CN109300481B (zh) * 2018-10-19 2022-01-11 武汉轻工大学 基于信息熵及时间趋势分析的音频关注度计算方法及系统
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN112216305A (zh) * 2020-09-30 2021-01-12 上海幻维数码创意科技有限公司 一种音频相似度识别方法
CN112614507A (zh) * 2020-12-09 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 检测噪声的方法和装置
CN113393863A (zh) * 2021-06-10 2021-09-14 北京字跳网络技术有限公司 一种语音评价方法、装置和设备
CN113393863B (zh) * 2021-06-10 2023-11-03 北京字跳网络技术有限公司 一种语音评价方法、装置和设备
CN117319883A (zh) * 2023-10-24 2023-12-29 深圳市汉得利电子科技有限公司 一种车载立体式扬声器及扬声器系统
CN117319883B (zh) * 2023-10-24 2024-06-04 深圳市汉得利电子科技有限公司 一种车载立体式扬声器及扬声器系统

Also Published As

Publication number Publication date
CN104485114B (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN104485114A (zh) 一种基于听觉感知特性的语音质量客观评估的方法
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
CN102664017B (zh) 一种3d音频质量客观评价方法
CN102881289B (zh) 一种基于听觉感知特性的语音质量客观评价方法
CN108346434B (zh) 一种语音质量评估的方法和装置
CN112017687B (zh) 一种骨传导设备的语音处理方法、装置及介质
KR20160023767A (ko) 스피치 신호 품질을 측정하기 위한 시스템들 및 방법들
CN103761974B (zh) 一种人工耳蜗
CN105118522A (zh) 噪声检测方法及装置
Romoli et al. A mixed decorrelation approach for stereo acoustic echo cancellation based on the estimation of the fundamental frequency
CN104883437A (zh) 基于环境的语音分析调整提示音量的方法及系统
CN109493883A (zh) 一种智能设备及其智能设备的音频时延计算方法和装置
CN103800005B (zh) 一种电刺激诱发脑干频率追随反应装置及验证方法
CN112151055B (zh) 音频处理方法及装置
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
Gomez et al. Improving objective intelligibility prediction by combining correlation and coherence based methods with a measure based on the negative distortion ratio
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
WO2023051622A1 (zh) 提升远场语音交互性能的方法和远场语音交互系统
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN115019818A (zh) 基于渐进式混响感知网络的语音去混响方法、装置及设备
Xu et al. Does a PESQNet (Loss) require a clean reference input? The original PESQ does, but ACR listening tests don’t
Tesic et al. An experimental study on the phase importance in digital processing of speech signal
CN103312296A (zh) 一种听力保护用数字听感知滤波器组及其建立方法
Yuan et al. A study on echo feature extraction based on the modified relative spectra (rasta) and perception linear prediction (plp) auditory model
Voran Estimation of speech intelligibility and quality

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Li Qingxian

Inventor after: Liu Liangjiang

Inventor after: Bian Cuan

Inventor after: Bai Wenqi

Inventor after: Zhou Xin

Inventor after: Peng Zhengliang

Inventor after: Xu Yu

Inventor before: Li Qingsheng

Inventor before: Liu Liangjiang

Inventor before: Bian Cuan

Inventor before: Bai Wenqi

Inventor before: Zhou Xin

Inventor before: Peng Zhengliang

Inventor before: Xu Yu

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LI QINGSHENG LIU LIANGJIANG BIAN XIN BAI WENQI ZHOU XIN PENG ZHENGLIANG XU YU TO: LI QINGXIAN LIU LIANGJIANG BIAN XIN BAI WENQI ZHOU XIN PENG ZHENGLIANG XU YU

GR01 Patent grant
GR01 Patent grant