CN105869652A - 心理声学模型计算方法和装置 - Google Patents

心理声学模型计算方法和装置 Download PDF

Info

Publication number
CN105869652A
CN105869652A CN201510031871.4A CN201510031871A CN105869652A CN 105869652 A CN105869652 A CN 105869652A CN 201510031871 A CN201510031871 A CN 201510031871A CN 105869652 A CN105869652 A CN 105869652A
Authority
CN
China
Prior art keywords
calculated
masking threshold
critical bands
energy
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510031871.4A
Other languages
English (en)
Other versions
CN105869652B (zh
Inventor
张勇
刘轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Peking University Shenzhen Graduate School
Original Assignee
PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PKU-HKUST SHENZHEN-HONGKONG INSTITUTION, Peking University Shenzhen Graduate School filed Critical PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority to CN201510031871.4A priority Critical patent/CN105869652B/zh
Publication of CN105869652A publication Critical patent/CN105869652A/zh
Application granted granted Critical
Publication of CN105869652B publication Critical patent/CN105869652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种带噪环境下的心理声学模型计算方法,该方法包括:获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值,在带噪环境下能够可靠的估计输入的带噪语音信号的掩蔽阈值,此外,还提供了一种心理声学模型计算装置。

Description

心理声学模型计算方法和装置
技术领域
本发明涉及音频处理技术领域,特别是涉及一种心理声学模型计算方法和装置。
背景技术
现实生活中语音信号不可避免的会受到背景噪声的污染,语音增强作为一种信号处理方法是解决噪声污染的一种高效途径,因而其一直是语音信号处理领域的一个研究热点。语音增强的目的就是在保证语音可懂度的前提下,尽可能的去除背景噪声,提高语音的主观听觉效果。传统语音增强算法在平稳噪声以及高信噪比环境中可以取得较好的效果,然而,在非平稳噪声及低信噪比下由于语音失真和残留噪声影响了语音增强的效果。
为了减少语音失真和残留噪声对听觉效果的影响,基于人耳掩蔽效应的感知语音增强系统近年来得到了研究。人耳掩蔽效应是指语音信号能够掩蔽与其同时进入听觉系统的一部分能量较小的噪声信号,使其不为人耳所感知。在感知语音增强系统中,掩蔽阈值的计算是极为重要的环节,阈值的大小直接决定噪声的去除量和语音的损伤程度,好的掩蔽阈值计算方法必须权衡两者,以彻底去除噪声并保留语音的主要成分。现有的感知语音增强系统通常基于心理声学模型计算掩蔽阈值。
传统心理声学模型中掩蔽阈值的计算是基于纯净语音信号,然而在噪声环境下输入的信号是带噪语音,而带噪语音的特征与纯净语音相比有较大的差异,导致传统的心理声学模型在噪声环境下计算得到的掩蔽阈值的可靠性低。
发明内容
基于此,有必要针对上述问题,提供一种背景噪声环境下的心理声学模型计算方法和装置,在带噪环境下仍然能够可靠的估计输入的带噪语音信号的掩蔽阈值。
一种心理声学模型计算方法,所述方法包括:
获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;
对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;
获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;
根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;
获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
在其中一个实施例中,所述对所述带噪语音信号频谱Y(k)进行干净语音估计,得到估计的干净语音频谱的步骤包括:
根据所述带噪语音信号频谱基于噪声估计算法计算得到后验信噪比;
根据所述后验信噪比基于直接判决算法计算得到先验信噪比;
根据所述先验信噪比计算得到维纳滤波器增益;
根据所述维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益;
根据所述语音估计滤波器增益对所述带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
在其中一个实施例中,所述获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量的步骤包括:
根据所述干净语音频谱计算得到频谱系数能量;
根据所述频谱系数能量计算得到临界频段能量;
获取扩展函数,根据所述扩展函数、临界频段能量计算得到临界频段扩展能量。
在其中一个实施例中,根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数的步骤包括:
根据所述干净语音频谱计算得到频谱的预测值;
根据所述频谱的预测值计算得到频谱的不可预测度;
获取临界频段的最低频率和最高频率,根据所述不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度;
根据所述平均不可预测度计算得到临界频段的音调系数。
在其中一个实施例中,所述获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值的步骤包括:
根据所述音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移;
根据所述掩蔽能量偏移计算得到初步掩蔽阈值;
计算绝对掩蔽阈值,根据所述绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
一种心理声学模型计算装置,所述装置包括:
频域转换模块,用于获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;
干净语音估计模块,用于对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;
临界频段扩展能量计算模块,用于获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;
音调系数计算模块,用于根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;
掩蔽阈值计算模块,用于获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
在其中一个实施例中,所述干净语音估计模块包括:
先验信噪比计算单元,用于根据所述带噪语音信号频谱基于噪声估计算法计算得到后验信噪比,根据所述后验信噪比基于直接判决算法计算得到先验信噪比;
增益计算单元,用于根据所述先验信噪比计算得到维纳滤波器增益,根据所述维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益;
干净语音获取单元,用于根据所述语音估计滤波器增益对所述带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
在其中一个实施例中,所述临界频段扩展能量计算模块包括:
临界频段能量计算单元,用于根据所述干净语音频谱计算得到频谱系数能量,根据所述频谱系数能量计算得到临界频段能量;
临界频段扩展能量计算单元,用于获取扩展函数,根据所述扩展函数、临界频段能量计算得到临界频段扩展能量。
在其中一个实施例中,所述音调系数计算模块包括:
不可预测度计算单元,用于根据所述干净语音频谱计算得到频谱的预测值,根据所述频谱的预测值计算得到频谱的不可预测度;
平均不可预测度计算单元,用于获取临界频段的最低频率和最高频率,根据所述不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度;
音调系数计算单元,用于根据所述平均不可预测度计算得到临界频段的音调系数。
在其中一个实施例中,所述掩蔽阈值计算模块包括:
初步掩蔽阈值计算单元,用于根据所述音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移,根据所述掩蔽能量偏移计算得到初步掩蔽阈值;
掩蔽阈值计算单元,用于计算绝对掩蔽阈值,根据所述绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
上述心理声学模型计算方法和装置,通过获取带噪语音信号,将带噪语音信号转换到频域,得到带噪语音信号频谱;对带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;获取扩展函数,根据干净语音频谱和扩展函数计算得到临界频段扩展能量;根据干净语音频谱计算得到临界频段的平均不可预测度,根据平均不可预测度计算得到临界频段的音调系数;获取绝对掩蔽阈值,根据临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。在计算掩蔽阈值前,对带噪语音信号频谱进行干净语音估计,以减小噪声对计算掩蔽阈值的影响,在带噪环境下仍然能够可靠的估计输入的带噪语音信号的掩蔽阈值。
附图说明
图1为一个实施例中心理声学模型计算方法的流程图;
图2为一个实施例中得到估计的干净语音频谱的流程图;
图3为一个实施例中计算得到临界频段扩展能量的流程图;
图4为一个实施例中计算得到临界频段的音调系数的流程图;
图5为一个实施例中计算得到掩蔽阈值的流程图;
图6为一个实施例中心理声学模型计算装置的结构框图;
图7为一个实施例中干净语音估计模块的结构框图;
图8为一个实施例中临界频段扩展能量计算模块的结构框图;
图9为一个实施例中音调系数计算模块的结构框图;
图10为一个实施例中掩蔽阈值计算模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
心理声学模型是在研究人类听觉系统基础上抽象出来反映人类听觉感知特性的数学模型,它描述了人类听觉系统对语音及噪声的感知和掩蔽能力。依据心理声学模型,输入信号频带需要按临界频带重新划分,然后估计出每个临界频带的掩蔽阈值,以此来对噪声进行整形,使每个临界频段内的噪声功率小于该子带的掩蔽阈值,从而能够被语音信号所掩蔽,达到感知失真最小。本发明正是提供一种背景噪声环境下的心理声学模型计算方法和装置,在带噪环境下仍然能够可靠的估计每个临界频带的掩蔽阈值。
在一个实施例中,如图1所示,提供了一种心理声学模型计算方法,包括:
步骤S110,获取带噪语音信号,将带噪语音信号转换到频域,得到带噪语音信号频谱。
本实施例中,获取的带噪语音信号在时域表示为y(n)=s(n)+d(n),其中s(n)为干净语音信号,d(n)为带噪语音信号中的加性噪声。将带噪语音信号经过FFT变换转换到频域,得到带噪语音信号频谱Y(k),可表示为Y(k)=S(k)+D(k),其中S(k)为干净语音频谱,D(k)为噪声频谱,k为频谱序号。
步骤S120,对带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱。
本实施例中,为了在噪声环境下得到可靠的带噪语音信号的掩蔽阈值,需要在计算掩蔽阈值前,对带噪语音信号频谱进行干净语音估计,以减小噪声对计算掩蔽阈值的影响。通过对带噪语音信号频谱进行语音增强滤波处理,得到估计的干净语音频谱,语音增强滤波处理中用到的滤波器可以根据需要选择或自行设计。
在一个实施例中,如图2所示,步骤S120包括:
步骤S121,根据频域带噪语音基于噪声估计算法计算得到后验信噪比,根据后验信噪比基于直接判决算法计算得到先验信噪比。
具体的,将频域带噪语音根据噪声估计算法得到噪声功率,噪声估计算法可以采用现有的算法,根据频域带噪语音Y(k)得到噪声功率λd(k)。根据噪声功率计算得到后验信噪比,后验信噪比γpost(k)采用公式得到,其中Y(k)为带噪语音,|Y(k)|为带噪语音的频谱幅度。直接判决算法可以采用现有的算法。
一个实施例中,根据后验信噪比基于直接判决算法计算得到先验信噪比的步骤为:获取前一帧先验信噪比其中k为频谱序号,l为帧序号,当前帧为l帧,如果所述前一帧为第一帧,则前一帧先验信噪比为预设值,优先的为1。获取当前帧后验信噪比为γpost(k,l),根据前一帧先验信噪比和当前帧后验信噪比通过公式 ξ ^ prio ( k , l ) = β · ξ ^ prio ( k , l - 1 ) + ( 1 - β ) · max { γ post ( k , l ) - 1,0 } 计算当前帧先验信噪比其中0<β<1为常数平滑因子,其值可以根据使用环境的不同而做调整,优选的β=0.95。得到当前帧先验信噪比后,以此类推,又可通过同样的方法计算下一帧先验信噪比。
步骤S122,根据先验信噪比计算得到维纳滤波器增益,根据维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益。
具体的,根据先验信噪比通过公式得到维纳滤波器增益GDD(k),语音估计滤波器增益GTSDD(k)通过公式
G TSDD ( k ) = ξ ^ prio TSSD 1 + ξ ^ prio TSSD , - - - ( 1 )
计算得到,其中语音估计滤波器先验信噪比根据公式
ξ ^ prio TSSD ( k ) = | G DD ( k ) · Y ( k ) | 2 λ d ( k ) , ( 2 )
得到,可以不用直接计算,将公式(2)代入公式(1)化简后得到
G TSDD ( k ) = ξ ^ prio TSSD 1 + ξ ^ prio TSSD = G DD 2 ( k ) · γ post ( k ) 1 + G DD 2 ( k ) · γ post ( k ) , - - - ( 3 )
将维纳滤波器增益GDD(k)、后验信噪比γpost(k)代入公式(3)可计算得到语音估计滤波器增益GTSDD(k)。可以理解的是,也可以根据维纳滤波器增益GDD(k)通过公式(2)直接计算得出再将代入公式(1)计算得到语音估计滤波器增益GTSDD(k)。
步骤S123,根据语音估计滤波器增益对带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
具体的,计算得到改进的语音估计滤波器增益GTSDD(k)后,用于估计噪声掩蔽阈值的干净语音频谱S′(k)通过公式S′(k)=GTSDD(k)·Y(k)得到。
步骤S130,获取扩展函数,根据干净语音频谱和扩展函数计算得到临界频段扩展能量。
本实施例中,各个临界带之间存在着掩蔽效应,某一个临界带对其它临界带的掩蔽能力随着临界带距离的增大而减弱,并且对高频率的临界带和对低频率的临界带的掩蔽并不平衡。这种临界带之间的掩蔽作用可以用一种扩展效果来表示。考虑不同临界带宽之间的掩蔽效应,最终得到一种扩展谱(即临界频段扩展能量),它是通过每个临界带宽的功率谱(即临界频段能量)与扩展函数的卷积实现。根据干净语音频谱S′(k)计算得到临界频段能量,再由临界频段能量与扩展函数进行卷积运算就可得到临界频段扩展能量。其中扩展函数可以采用现有的公开技术。
在一个实施例中,如图3所示,步骤S130包括:
步骤S131,根据干净语音频谱计算得到频谱系数能量。
具体的,根据公式P(k)=|S′(k)|2计算得到频谱系数能量P(k),其中S′(k)为步骤S120中估计的干净语音频谱,|S′(k)|为干净语音频谱的幅度。
步骤S132,根据频谱系数能量计算得到临界频段能量。
具体的,根据公式计算得到临界频段能量Bi,其中Bi表示第i个临界频段能量,bli表示第i个临界频段的最低频率,bhi表示第i个临界频段的最高频率,i=1,2,…,imax,imax取决于输入信号的采样率。
步骤S133,获取扩展函数,根据扩展函数、临界频段能量计算得到临界频段扩展能量。
具体的,扩展函数 SF ij = 15.81 + 7.5 ( Δ + 0.474 ) - 17.5 1 + ( Δ + 0.474 ) 2 , 其中Δ=i-j,表示两个临界频段的频带号之差。根据扩展函数SFij、临界频段能量Bi,由公式计算得到临界频段扩展能量Ci,其中j=1,2,…,imax
步骤S140,根据干净语音频谱计算得到临界频段的平均不可预测度,根据平均不可预测度计算得到临界频段的音调系数。
当两个或多个频率不同的声音同时进入听觉系统时,就有可能发生频域掩蔽,即在邻近频率上较弱的声音被较强的声音掩蔽,听觉系统感觉不到被掩蔽音的存在。频域掩蔽通常分为两种情况:音调掩蔽噪声和噪声掩蔽音调。在心理声学分析过程中,区分输入语音信号的音调成分和非音调成分尤为重要,本实施例中,通过每个临界频段的平均不可预测度来计算音调系数。
在一个实施例中,如图4所示,步骤S140包括:
步骤S141,根据干净语音频谱计算得到频谱的预测值。
具体的,通过公式Sp(k)=2·S′(k-1)-S′(k-2)得到频谱的预测值Sp(k)。
步骤S142,根据频谱的预测值计算得到频谱的不可预测度。
具体的,根据干净语音频谱S′(k)、频谱的预测值Sp(k),代入公式得到频谱的不可预测度u(k)。
步骤S143,获取临界频段的最低频率和最高频率,根据不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度。
具体的,根据公式 average _ u ( i ) = 1 ( khigh ( i ) - klow ( i ) ) + 1 Σ k = klow ( i ) khigh ( i ) u ( k ) 计算得到临界频段的平均不可预测度average_u(i),其中klow(i)和khigh(i)分别为第i个临界频段的最低频率和最高频率。
步骤S144,根据平均不可预测度计算得到临界频段的音调系数。
具体的,由临界频段的平均不可预测度average_u(i)通过公式αi=min(1,max(-0.299-0.43log(average_u(i))))计算得到第i个临界频段的音调系数αi
步骤S150,获取绝对掩蔽阈值,根据临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
如果信号的能量在绝对掩蔽阈值以下,则该信号对人耳是不可闻的,因此听觉掩蔽阈值不能小于绝对掩蔽阈值。本实施例中,先计算得到绝对掩蔽阈值,然后根据临界频段扩展能量Ci、音调系数αi计算得到初步掩蔽阈值,再根据此人耳听觉特性,将初步掩蔽阈值控制在绝对掩蔽阈值以上,就可得到掩蔽阈值。
在一个实施例中,如图5所示,步骤S150包括:
步骤S151,根据音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移。
有两种掩蔽门限:一种是纯音掩蔽噪声,在Ci以下(14.5+i)dB,即TT(i)=Ci-(14.5+i);另一种是噪声掩蔽纯音,在Ci以下5.5dB,即TN(i)=Ci-5.5。具体的,例如由音调系数αi通过公式Oi=αi(14.5+i)+(1-αi)5.5计算得到临界频段的掩蔽能量偏移Oi。可以理解的是,掩蔽能量偏移值Oi的计算可以采用任何公开的技术。
步骤S152,根据掩蔽能量偏移计算得到初步掩蔽阈值。
具体的,由掩蔽能量偏移Oi,根据公式计算得到初步掩蔽阈值Ti′。
步骤S153,计算绝对掩蔽阈值,根据绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
具体的,根据公式Ta=3.64f-0.8-6.5exp(f-3.3)2+10-3f4计算绝对掩蔽阈值Ta,其中f为该语音信号的频率,根据Ti=max(Ti′,Ta)得到掩蔽阈值Ti
本实施例中,通过获取带噪语音信号,将带噪语音信号转换到频域,得到带噪语音信号频谱;对带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;获取扩展函数,根据干净语音频谱和扩展函数计算得到临界频段扩展能量;根据干净语音频谱计算得到临界频段的平均不可预测度,根据平均不可预测度计算得到临界频段的音调系数;获取绝对掩蔽阈值,根据临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。在计算掩蔽阈值前,对带噪语音信号频谱进行干净语音估计,以减小噪声对计算掩蔽阈值的影响,在带噪环境下仍然能够可靠的估计输入的带噪语音信号的掩蔽阈值。
在一个实施例中,如图6所示,提供了一种心理声学模型计算装置,包括:
频域转换模块210,用于获取带噪语音信号,将带噪语音信号转换到频域,得到带噪语音信号频谱。
干净语音估计模块220,用于对带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱。
临界频段扩展能量计算模块230,用于获取扩展函数,根据干净语音频谱和扩展函数计算得到临界频段扩展能量。
音调系数计算模块240,用于根据干净语音频谱计算得到临界频段的平均不可预测度,根据平均不可预测度计算得到临界频段的音调系数。
掩蔽阈值计算模块250,用于获取绝对掩蔽阈值,根据临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
在一个实施例中,如图7所示,干净语音估计模块220包括:
先验信噪比计算单元221,用于根据带噪语音信号频谱基于噪声估计算法计算得到后验信噪比,根据后验信噪比基于直接判决算法计算得到先验信噪比。
增益计算单元222,用于根据先验信噪比计算得到维纳滤波器增益,根据维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益。
干净语音获取单元223,用于根据语音估计滤波器增益对带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
在一个实施例中,如图8所示,临界频段扩展能量计算模块230包括:
临界频段能量计算单元231,用于根据干净语音频谱计算得到频谱系数能量,根据频谱系数能量计算得到临界频段能量。
临界频段扩展能量计算单元232,用于获取扩展函数,根据扩展函数、临界频段能量计算得到临界频段扩展能量。
在一个实施例中,如图9所示,音调系数计算模块240包括:
不可预测度计算单元241,用于根据干净语音频谱计算得到频谱的预测值,根据频谱的预测值计算得到频谱的不可预测度。
平均不可预测度计算单元242,用于获取临界频段的最低频率和最高频率,根据不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度。
音调系数计算单元243,用于根据平均不可预测度计算得到临界频段的音调系数。
在一个实施例中,如图10所示,掩蔽阈值计算模块250包括:
初步掩蔽阈值计算单元251,用于根据音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移,根据掩蔽能量偏移计算得到初步掩蔽阈值。
掩蔽阈值计算单元252,用于计算绝对掩蔽阈值,根据绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种心理声学模型计算方法,所述方法包括:
获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;
对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;
获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;
根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;
获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
2.根据权利要求1所述的方法,其特征在于,所述对所述带噪语音信号频谱Y(k)进行干净语音估计,得到估计的干净语音频谱的步骤包括:
根据所述带噪语音信号频谱基于噪声估计算法计算得到后验信噪比;
根据所述后验信噪比基于直接判决算法计算得到先验信噪比;
根据所述先验信噪比计算得到维纳滤波器增益;
根据所述维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益;
根据所述语音估计滤波器增益对所述带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
3.根据权利要求1所述的方法,其特征在于,所述获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量的步骤包括:
根据所述干净语音频谱计算得到频谱系数能量;
根据所述频谱系数能量计算得到临界频段能量;
获取扩展函数,根据所述扩展函数、临界频段能量计算得到临界频段扩展能量。
4.根据权利要求1所述的方法,其特征在于,根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数的步骤包括:
根据所述干净语音频谱计算得到频谱的预测值;
根据所述频谱的预测值计算得到频谱的不可预测度;
获取临界频段的最低频率和最高频率,根据所述不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度;
根据所述平均不可预测度计算得到临界频段的音调系数。
5.根据权利要求1所述的方法,其特征在于,所述获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值的步骤包括:
根据所述音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移;
根据所述掩蔽能量偏移计算得到初步掩蔽阈值;
计算绝对掩蔽阈值,根据所述绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
6.一种心理声学模型计算装置,其特征在于,所述装置包括:
频域转换模块,用于获取带噪语音信号,将所述带噪语音信号转换到频域,得到所述带噪语音信号频谱;
干净语音估计模块,用于对所述带噪语音信号频谱进行干净语音估计,得到估计的干净语音频谱;
临界频段扩展能量计算模块,用于获取扩展函数,根据所述干净语音频谱和扩展函数计算得到临界频段扩展能量;
音调系数计算模块,用于根据所述干净语音频谱计算得到临界频段的平均不可预测度,根据所述平均不可预测度计算得到临界频段的音调系数;
掩蔽阈值计算模块,用于获取绝对掩蔽阈值,根据所述临界频段扩展能量、音调系数、绝对掩蔽阈值计算得到掩蔽阈值。
7.根据权利要求6所述的装置,其特征在于,所述干净语音估计模块包括:
先验信噪比计算单元,用于根据所述带噪语音信号频谱基于噪声估计算法计算得到后验信噪比,根据所述后验信噪比基于直接判决算法计算得到先验信噪比;
增益计算单元,用于根据所述先验信噪比计算得到维纳滤波器增益,根据所述维纳滤波器增益、后验信噪比计算得到语音估计滤波器增益;
干净语音获取单元,用于根据所述语音估计滤波器增益对所述带噪语音信号频谱进行滤波,得到估计的干净语音频谱。
8.根据权利要求6所述的装置,其特征在于,所述临界频段扩展能量计算模块包括:
临界频段能量计算单元,用于根据所述干净语音频谱计算得到频谱系数能量,根据所述频谱系数能量计算得到临界频段能量;
临界频段扩展能量计算单元,用于获取扩展函数,根据所述扩展函数、临界频段能量计算得到临界频段扩展能量。
9.根据权利要求6所述的装置,其特征在于,所述音调系数计算模块包括:
不可预测度计算单元,用于根据所述干净语音频谱计算得到频谱的预测值,根据所述频谱的预测值计算得到频谱的不可预测度;
平均不可预测度计算单元,用于获取临界频段的最低频率和最高频率,根据所述不可预测度、临界频段的最低频率和最高频率基于平均算法计算得到临界频段的平均不可预测度;
音调系数计算单元,用于根据所述平均不可预测度计算得到临界频段的音调系数。
10.根据权利要求6所述的装置,其特征在于,所述掩蔽阈值计算模块包括:
初步掩蔽阈值计算单元,用于根据所述音调系数基于掩蔽门限计算得到临界频段的掩蔽能量偏移,根据所述掩蔽能量偏移计算得到初步掩蔽阈值;
掩蔽阈值计算单元,用于计算绝对掩蔽阈值,根据所述绝对掩蔽阈值、初步掩蔽阈值基于听觉特性计算得到掩蔽阈值。
CN201510031871.4A 2015-01-21 2015-01-21 心理声学模型计算方法和装置 Active CN105869652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510031871.4A CN105869652B (zh) 2015-01-21 2015-01-21 心理声学模型计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510031871.4A CN105869652B (zh) 2015-01-21 2015-01-21 心理声学模型计算方法和装置

Publications (2)

Publication Number Publication Date
CN105869652A true CN105869652A (zh) 2016-08-17
CN105869652B CN105869652B (zh) 2020-02-18

Family

ID=56623453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510031871.4A Active CN105869652B (zh) 2015-01-21 2015-01-21 心理声学模型计算方法和装置

Country Status (1)

Country Link
CN (1) CN105869652B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161699A (zh) * 2019-12-30 2020-05-15 广州心与潮信息科技有限公司 一种环境噪音的掩蔽方法、装置及设备
CN111524498A (zh) * 2020-04-10 2020-08-11 维沃移动通信有限公司 滤波方法、装置及电子设备
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112201265A (zh) * 2020-12-07 2021-01-08 成都启英泰伦科技有限公司 一种基于心理声学模型的lstm语音增强方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014738A1 (fr) * 1997-09-18 1999-03-25 Matra Nortel Communications Procede de debruitage d'un signal de parole numerique
US20020163528A1 (en) * 2001-02-12 2002-11-07 Cooper Brian Edward Method for halftoning using a difference weighting function
CN1689069A (zh) * 2002-09-06 2005-10-26 松下电器产业株式会社 声音编码设备和声音编码方法
CN1892821A (zh) * 2005-07-06 2007-01-10 凌阳科技股份有限公司 一种对音频数据进行处理的方法及装置
JP2014232331A (ja) * 2007-07-06 2014-12-11 オーディエンス,インコーポレイテッド アダプティブ・インテリジェント・ノイズ抑制システム及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999014738A1 (fr) * 1997-09-18 1999-03-25 Matra Nortel Communications Procede de debruitage d'un signal de parole numerique
US20020163528A1 (en) * 2001-02-12 2002-11-07 Cooper Brian Edward Method for halftoning using a difference weighting function
CN1689069A (zh) * 2002-09-06 2005-10-26 松下电器产业株式会社 声音编码设备和声音编码方法
CN1892821A (zh) * 2005-07-06 2007-01-10 凌阳科技股份有限公司 一种对音频数据进行处理的方法及装置
JP2014232331A (ja) * 2007-07-06 2014-12-11 オーディエンス,インコーポレイテッド アダプティブ・インテリジェント・ノイズ抑制システム及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张勇等: "一种基于频谱能量的音调检测算法", 《第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT"06)论文集》 *
金学骥: "语音增强算法的研究与实现", 《中国优秀博硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161699A (zh) * 2019-12-30 2020-05-15 广州心与潮信息科技有限公司 一种环境噪音的掩蔽方法、装置及设备
CN111161699B (zh) * 2019-12-30 2023-04-28 广州心与潮信息科技有限公司 一种环境噪音的掩蔽方法、装置及设备
CN111524498A (zh) * 2020-04-10 2020-08-11 维沃移动通信有限公司 滤波方法、装置及电子设备
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112037759B (zh) * 2020-07-16 2022-08-30 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112201265A (zh) * 2020-12-07 2021-01-08 成都启英泰伦科技有限公司 一种基于心理声学模型的lstm语音增强方法

Also Published As

Publication number Publication date
CN105869652B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN101976566B (zh) 语音增强方法及应用该方法的装置
CN101593522B (zh) 一种全频域数字助听方法和设备
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US6687669B1 (en) Method of reducing voice signal interference
WO2022160593A1 (zh) 一种语音增强方法、装置、系统及计算机可读存储介质
US20110188671A1 (en) Adaptive gain control based on signal-to-noise ratio for noise suppression
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
CN103440869A (zh) 一种音频混响的抑制装置及其抑制方法
US9842607B2 (en) Speech intelligibility improving apparatus and computer program therefor
CN103531204A (zh) 语音增强方法
CN104067339A (zh) 噪音抑制装置
WO2019205798A1 (zh) 语音增强的方法、装置及设备
Schwerin et al. An improved speech transmission index for intelligibility prediction
CN105869652A (zh) 心理声学模型计算方法和装置
CN106653004B (zh) 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN103544961A (zh) 语音信号处理方法及装置
CN106782586B (zh) 一种音频信号处理方法及装置
CN1321400C (zh) 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
Kates Modeling the effects of single-microphone noise-suppression
US7672842B2 (en) Method and system for FFT-based companding for automatic speech recognition
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
CN105869649A (zh) 感知滤波方法和感知滤波器
US7646912B2 (en) Method and device for ascertaining feature vectors from a signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant