CN108735225A - 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 - Google Patents
一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 Download PDFInfo
- Publication number
- CN108735225A CN108735225A CN201810399586.1A CN201810399586A CN108735225A CN 108735225 A CN108735225 A CN 108735225A CN 201810399586 A CN201810399586 A CN 201810399586A CN 108735225 A CN108735225 A CN 108735225A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- signal
- estimation
- noise
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 133
- 230000000873 masking effect Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006872 improvement Effects 0.000 title claims abstract description 14
- 230000002708 enhancing effect Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 23
- 238000009499 grossing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 12
- 239000004568 cement Substances 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,包括:(1)采用改进的最小控制值递归平均算法,得到原始带噪语音的噪声功率谱估计;(2)结合求出的噪声功率谱估计对带噪语音信号进行初次谱减;(3)对初次谱减后的信号进行基于加权似然比失真测度的贝叶斯估计,计算信号的最优估计幅度谱;(4)利用人耳掩蔽效应计算第二次谱减的减参数;(5)在第二次谱减前再次进行IMCRA噪声估计,进行第二次谱减,得到最终的增强语音信号;(6)对增强后的语音信号进行反傅里叶变换得到最终的增强语音。本发明在提高算法消噪能力的同时,更好地保证了语音可懂度,从而提升了语音增强的整体效果。
Description
技术领域
本发明涉及一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,属于语音信号处理技术领域。
背景技术
语音是人与人之间重要的信息交流方式,但在人们利用语音进行交流与通信的过程中,总会受到各种噪声的干扰。带噪语音不仅会增加人的听觉疲劳、降低语音通信质量,而且也会使基于特征参数提取的语音处理系统性能下降。所以,为了减小背景噪声对语音质量的影响,需要进行语音增强来抑制背景噪声。
谱减法是一种传统的增强算法,其基本思想是:分别计算带噪语音信号短时幅度谱与估计的噪声信号的短时幅度谱,进行平方运算然后相减。恢复出增强语音信号时将这个结果开方,再插入带噪语音信号的相位,进行反离散傅里叶变换。谱减法的通用形式为:
Y(ω)为带噪语音的频谱信号,为噪声的频谱信号,为增强语音的频谱信号,P为1是幅度谱减,P为2是功率谱减。
谱减法的优点是运算量小,容易实现,增强效果也较好。但因为没有对语音频谱的分布进行假设,谱减法在进行增强处理后,会带来音乐噪声,这不仅对听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。因此,如何有效抑制音乐噪声,并权衡考虑增强后的语音失真与去噪效果,是改进谱减法,使其能充分发挥自身优势的重点所在。
结合人耳听觉掩蔽效应,是消除谱减法音乐噪声的一个重要思路,有人将谱减公式改进为:Yw(ω)为带噪语音的频谱信号,为增强语音的频谱信号,现有的技术方案所使用的噪声估计算法大多不够精确,如话音活动检测(VAD)或最小值统计,前者的可靠性会随着信噪比的减小而降低,而后者响应速度慢,这都会影响噪声估计的准确度,降低语音增强的效果。而且当前的技术方案也多存在一个误区,过于注重对音乐噪声的消除,反而影响了语音信号的可懂度,破坏了语音信号,甚至还会降低信噪比。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,采用改进的最小控制值递归平均算法(IMCRA)进行噪声估计,对带噪语音进行两次谱减,并于两次谱减之间对语音信号进行基于加权似然比(WLR)失真测度的贝叶斯估计,以此来增强语音信号。
为解决上述技术问题,本发明提供一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,包括以下步骤:
1)采用改进的最小控制值递归平均算法,对原始带噪语音进行噪声估计,得到噪声功率谱估计;
2)结合步骤1)求解的噪声功率谱估计对带噪语音信号进行初次谱减;
3)对初次谱减后的带噪语音信号进行基于加权似然比失真测度的贝叶斯估计,计算信号增强谱;
4)利用人耳掩蔽效应计算第二次谱减的减参数;
5)再次采用改进的最小控制值递归平均算法进行噪声估计,利用步骤4)计算的减参数对信号增强谱进行第二次谱减,得到最终的增强语音信号;
6)对增强后的语音信号进行反傅里叶变换,得到最终的增强语音。
前述的步骤1),噪声功率谱估计的具体求解如下:
11)对离散时间带噪语音信号y(n)的M个样本加窗,并进行M点的FFT,将带噪语音信号变换到频域,得到带噪语音的频域信号Y(λ,k),
其中,y(n)=d(n)+x(n),d(n)为噪声信号,x(n)为纯净信号,n代表不同时刻;
λ为帧数标记,k,k=0,1,2,…,M-1表示频点;
12)对带噪语音的频域信号进行第一次平滑,采用公式(1)计算平滑功率谱S(λ,k),并不断更新其最小值Smin(λ,k);
S(λ,k)=αsS(λ-1,k)+(1-αs)Sf(λ,k) (1)
其中,αs为平滑因子,
其中,w(i)为Hanning窗函数,Lw为i的取值上限;
最小值Smin(λ,k)的更新如下:
首先设置一个临时变量Stmp(λ,k),初始化Stmp(0,k)=S(0,k),如果当前帧数λ能够被D整除,则Smin(λ,k)根据公式(3)进行更新,同时将Stmp(λ,k)设为S(λ,k):
Smin(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (3)
如果当前帧数λ不能够被D整除,那么先依据公式(4)更新Smin(λ,k),同时再根据公式(5)更新临时变量Stmp(λ,k):
Smin(λ,k)=min{Smin(λ-1,k),S(λ,k)} (4)
Stmp(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (5)
13)利用Smin(λ,k),通过公式(6)计算指示函数I(λ,k):
其中,γ0与ζ0为阈值参数,且
其中,Bmin表示最小噪声估计的偏差;
14)根据指示函数I(λ,k)进行第二次平滑,利用公式(8)、公式(9)计算平滑功率谱密度并实时更新最小值
15)利用通过公式(10)、公式(11)计算不存在语音的先验概率q(λ,k):
其中,γ1,为阈值参数;
16)计算语音存在概率p(λ,k):
其中,γk(λ)和ξk(λ)分别为频点k的后验信噪比与先验信噪比,
其中,是前一帧经过补偿后的噪声功率谱估计,αq为权重因子,为对数增益函数,为一个指数积分,t为积分变量;
17)利用语音存在概率p(λ,k)通过公式(16)计算平滑参数αd(λ,k),并根据公式(17)和公式(18)更新噪声谱,
其中,为计算的噪声功率谱估计,为经过补偿后的噪声功率谱估计,αi取0.8,βi为偏差补偿因子,取1.47。
前述的步骤2),初次谱减后的功率谱如下:
其中,为初次谱减后的功率谱,|Y(w)|2为原始带噪语音的功率谱,w表示频率变量,
噪声功率谱估计即步骤1)中的
前述的步骤3),计算信号增强谱具体过程如下:
31)采用加权似然比作为贝叶斯估计的失真测度,计算初次谱减后信号的最优幅度谱,其中,
贝叶斯估计的失真测度为:
其中,Xk为纯净信号谱在频点k的幅度,为噪声估计谱在频点k的幅度;
将贝叶斯风险对求导,得到下式:
其中,bk=E[Xk|Y(ωk)],为最小均方误差估计,p(Xk|Y(ωk))为Xk的后验概率密度函数,表示已知带噪语音谱Y(ωk)存在概率下,纯净信号谱Xk的存在概率,ωk即频点k处的频率值,
其中,ρk为ωk处后验信噪比,
vk=ρkψk/(1+ψk),ψk为ωk处先验信噪比,
ψk=a+(1-a)max[ρk-1,0],
a为一个权重因子;
对公式(21)求零点得到信号最优幅度谱
32)利用最优幅度谱构建频点k的信号增强谱
其中,θy(k)为频点k处的相位;
33)将所有频点处的信号增强谱叠加,得到最终的信号增强谱
前述的步骤4),第二次谱减的减参数的计算过程为:
41)计算关键频带的能量Bi:
其中,bhi、bli分为关键频带i的频率上限和下限,i=1,…,imax,imax取决于采样频率fs,
P(w)为经过初次谱减和基于加权似然比失真测度的贝叶斯估计后信号的功率谱;
42)计算扩展频谱Ci:
Ci=Sij*Bi
其中,Sij为扩展矩阵,
其中,Δ=i-j,i,j=1,…,imax,i是被掩蔽信号的bark频率,j是掩蔽信号的bark频率;
43)计算噪声掩蔽阈值,具体包括:
431)引入音调系数αto:
其中,SFM为谱平坦测度,SFMdBmax=-60dB,Gm、Am分为功率谱P(w)的几何平均与算数平均;
432)定义每个Bark段i掩蔽能量的偏移函数Oi:
Oi=αto(14.5+i)+(1-αto)5.5 (25)
433)计算扩展后的掩蔽阈值Ti:
Ti=10log10(Ci)-0.1Oi (26)
434)将Ti转换回扩展前的Bark域,得到T′i(w),并将其与安静时人耳的绝对听觉阈值对比,得到最终的听觉掩蔽阈值Tfinal(w):
Tfinal(w)=max[Ti′(w),Tq(w)] (27)
其中,Tq(w)为绝对听觉阈值,
44)计算减参数α和β,
其中,α表示过衰减因子,β表示谱底限,α和β统称为减参数,αmin=1,αmax=6,βmin=0,βmax=0.02,Tmax,Tmin分别代表掩蔽阈值按帧更新的最大、最小值。
前述的步骤5),第二次谱减后的功率谱为:
其中,Y(w)为经过初次谱减和基于WLR的贝叶斯估计后信号的频谱信号,
为最终的增强语音的功率谱,G(w)为改进的增益函数,
其中,为再次进行最小控制值递归平均算法的噪声估计谱,ε与τ为加权因子,
本发明所达到的有益效果为:
1.本发明采用改进的最小控制值递归平均算法(IMCRA),克服了低信噪比环境下噪声估计不准确的缺陷,并能快速响应噪声谱的变化,在提高噪声估计准确度的同时,最小化语音失真,达到了更好的增强效果。
2.有别于常用的一次谱减,本发明进行了两次谱减,并在两次谱减之间使用了基于加权似然比(WLR)失真测度的贝叶斯估计,以此来计算信号的最优幅度谱,减少残留噪声,达到对语音信号的增强。
3.本发明的第二次谱减采用了滤波谱减,并对滤波谱减的增益函数进行了改进,为减参数α,β进行了加权,并通过实验调节参数,在保证甚至提高消噪效果的前提下,尽可能地提高语音可懂度。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明的具体实现步骤如下:
第一步:对带噪语音进行最小控制值递归平均算法(IMCRA)噪声估计,具体包括以下步骤:
11)令y(n)=d(n)+x(n)来表示离散时间带噪语音信号,
其中,d(n)为噪声信号,x(n)为纯净信号,n代表不同时刻。
假定x(n)与d(n)是统计独立并具有零均值。对y(n)的M个样本加窗,并进行M点的FFT,将带噪语音变换到频域,得到带噪语音的频域信号Y(λ,k),
其中,λ为帧数标记,k(k=0,1,2,…,M-1)表示频点。
12)对带噪语音的频域信号进行第一次平滑,采用公式(1)计算平滑功率谱S(λ,k),并不断更新其最小值Smin(λ,k)。
S(λ,k)=αsS(λ-1,k)+(1-αs)Sf(λ,k) (1)
其中,αs为平滑因子,且
其中,Lw为i的取值上限,为正整数,w(i)为Hanning窗函数,为了系统的性能,窗长取2Lw+1。此处Lw=1,αs=0.9。
局部最小值Smin(λ,k)通过在一个D帧的固定窗口长度上,与过去每一个S(λ,k)值进行对比得到。首先设置一个临时变量Stmp(λ,k),初始化Stmp(0,k)=S(0,k)。如果当前帧数λ可以被D整除,则Smin(λ,k)根据公式(3)进行更新,同时将Stmp(λ,k)设为S(λ,k)。
Smin(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (3)
如果当前帧数λ不可以被D整除,那么先依据公式(4)更新Smin(λ,k),同时再根据公式(5)更新临时变量Stmp(λ,k),为下一帧的最小值搜索做准备。
Smin(λ,k)=min{Smin(λ-1,k),S(λ,k)} (4)
Stmp(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (5)
13)利用Smin(λ,k),通过公式(6)计算指示函数I(λ,k)进行话音活动检测。
其中,γ0与ζ0为阈值参数,且
其中,因子Bmin代表了最小噪声估计的偏差,Bmin取1.66,γ0取4.6,ζ0取1.67。
14)根据指示函数I(λ,k)进行第二次平滑,利用公式(8)、公式(9)计算平滑功率谱密度并实时更新最小值的更新原理同Smin(λ,k)。
15)利用通过公式(10)、公式(11)计算不存在语音的先验概率q(λ,k),
其中,γ1,为阈值参数,γ1=3,Bmin取1.66。
16)分别计算后验信噪比γk(λ)和先验信噪比ξk(λ),并结合不存在语音的先验概率q(λ,k),通过公式(12)计算语音存在概率p(λ,k),
其中,γk(λ)和ξk(λ)分别为频点k的后验与先验SNR,分别由公式(13)和(14)计算而得:
其中,是前一帧经过补偿后的噪声功率谱估计,αq为权重因子,用来平衡降噪与语音失真,取0.92,为对数增益函数,为一个指数积分,t为积分变量。
17)利用语音存在概率p(λ,k)通过公式(16)计算平滑参数αd(λ,k),并根据公式(17)和公式(18)更新噪声谱。
其中,即噪声功率谱估计,为了避免谱估计过低,将乘上一个偏差补偿因子βi,得到最终的补偿后的噪声功率谱估计此处,αi取0.8,βi为偏差补偿因子,取1.47。
第二步:利用IMCRA计算出的噪声功率谱估计进行第一次谱减,谱减后的功率谱形如公式(19):
其中,|Y(w)|2为原始带噪语音的功率谱,为第一次谱减后的功率谱,w表示频率变量,噪声功率谱估计即第一步中的
第三步:对第一次谱减后的带噪语音信号进行基于加权似然比(WLR)失真测度的贝叶斯估计,具体如下:
31)采用加权似然比(WLR)作为贝叶斯估计的失真测度,计算第一次谱减后信号的最优幅度谱,
WLR失真测度由公式(20)表示:
其中,Xk为纯净信号谱在频点k的幅度,为噪声估计谱在频点k的幅度。
将贝叶斯风险对求导,得到下面的非线性公式(21):
其中,bk=E[Xk|Y(ωk)],为最小均方误差估计(MMSE),p(Xk|Y(ωk))为Xk的后验概率密度函数,表示已知频点k的带噪语音谱Y(ωk)存在概率下,纯净信号谱Xk的存在概率,
其中,ωk即频点k处的频率值,ρk为ωk处后验信噪比,ρk=|Y(ωk)|2/(|Y(ωk)|2-|Xk|2),vk=ρkψk/(1+ψk),ψk为ωk处先验信噪比,ψk=a+(1-a)max[ρk-1,0],a为一个权重因子,a=0.98。
对公式(21)求零点得到信号最优估计幅度谱。
32)利用上一步得出的最优估计幅度谱构建信号增强谱
其中,θy(k)为在频率点k处的相位。
最后,将所有频点处的信号增强谱叠加,得到最终的信号增强谱
第四步:利用人耳掩蔽效应计算第二次谱减的减参数α,β
41)计算关键频带的能量。人耳对同一关键频带内的频率成分具有相同的感知程度,根将经过第一次谱减和基于WLR的贝叶斯估计后信号的功率谱P(w)按频段逐一划分,据公式(22)叠加每一关键频带内的功率谱得到关键频带i内的能量Bi。关键频带的划分如表1所示,
其中,为第三步求得的信号增强谱,bhi、bli分为关键频带i的频率上限和下限,i=1,…,imax,imax取决于采样频率fs,本发明采用fs=8kHz,imax基于整个系统,取到21。
表1关键频带
42)引入扩展函数,计算扩展频谱。扩展函数符合abs(j-i)≤25,其中,i是被掩蔽信号的bark频率,j是掩蔽信号的bark频率。其扩展矩阵Sij形式如公式(23):
其中,Δ=i-j,i,j=1,…,imax。将Sij与Bi卷积得到扩展频谱:Ci=Sij*Bi。
43)计算噪声掩蔽阈值。为了判别当前信号为纯音特性还是类噪,引入音调系数αto如公式(24)所示:
其中,SFM为谱平坦测度,SFMdBmax=-60dB,Gm、Am分为功率谱P(w)的几何平均与算数平均。αto=0代表当前信号被认作纯音信号,αto=1则代表当前信号被认作纯噪声,实际信号居于二者之间。
之后利用公式(25)定义每个bark段i掩蔽能量的偏移函数Oi:
Oi=αto(14.5+i)+(1-αto)5.5 (25)
其中,(14.5+i)dB表示纯音信号掩蔽了噪声,5.5dB反之。
最后,扩展后的掩蔽阈值如公式(26):
将Ti转换回扩展前的Bark域,得到T′i(w),并将其与安静时人耳的绝对听觉阈值对比,得到最终的听觉掩蔽阈值Tfinal(w):
Tfinal(w)=max[Ti′(w),Tq(w)] (27)
其中,Tq(w)为绝对听觉阈值,表达形式如公式(28):
44)减参数α,β基于听觉掩蔽阈值Tfinal(w)来调节,即公式(29),(30)。
其中,α表示过衰减因子,β表示谱底限,αmin=1,αmax=6,βmin=0,βmax=0.02。Tmax,Tmin分别代表掩蔽阈值按帧更新的最大、最小值。
第五步:进行二次谱减
51)在二次谱减之前再次进行IMCRA噪声估计,过程同第一步,得到噪声估计谱
52)二次谱减采用滤波形式的谱减算法,形如公式(31),其中,改进的增益函数G(w)由公式(32)得出,
其中,Y(w)为经过第一次谱减和基于WLR的贝叶斯估计后信号的频谱信号,为最终的增强语音的功率谱,α,β由第四步求出,ε与τ为提高增强效果的加权因子,本发明依实验效果ε取0.5,τ取2,而
第六步:对二次谱减后的信号进行IFFT,得到最终的增强语音s(n)。
实施例
本发明与另两种算法进行了对比,具体如下:
方法一:传统谱减法,
参见Berouti,M.,Schwartz,M.,andMakhoul,J.(1979).Enhancement of speechcorrupted by acoustic noise.Proc.IEEE Int.Conf.Acoust.,Speech,SignalProcessing,208-211。
方法二:基于人耳掩蔽效应的谱减法,使用语音活动检测(VAD)估计噪声,谱减法为未改进的滤波谱减,参见蔡汉添,袁波涛.一种基于听觉掩蔽模型的语音增强算法[J].通信学报,2002(8):93-98。
方法三:本发明方法
分别使用这三种方法对信噪比为-5dB,0dB,5dB的带噪语音进行增强,噪声类型为白噪声。其中PESQ值用来衡量语音的可懂度。
PESQ(Perceptual evaluation of speech quality)即:主观语音质量评估。ITU-T P.862建议书提供的客观MOS值评价方法。
表2[-5dB]噪声
增强后的信噪比 | 增强后的PESQ值 | |
方法一 | 1.83 | 1.35 |
方法二 | 2.93 | 1.24 |
方法三 | 3.71 | 1.60 |
注:初始PESQ为1.58
表3[0dB]噪声
增强后的信噪比 | 增强后的PESQ值 | |
方法一 | 5.75 | 1.80 |
方法二 | 5.24 | 1.72 |
方法三 | 7.05 | 1.92 |
注:初始PESQ为1.75
表4[5dB]噪声
增强后的信噪比 | 增强后的PESQ值 | |
方法一 | 9.99 | 2.17 |
方法二 | 6.84 | 1.92 |
方法三 | 10.67 | 2.21 |
注:初始PESQ为1.92
综合表2,表3,表4可以看出,本发明所实现的算法所取得的增强效果是最好的,尤其在低信噪比情况下,做到了在提高算法消噪效果的同时,保护甚至是提高了语音的可懂度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,包括以下步骤:
1)采用改进的最小控制值递归平均算法,对原始带噪语音进行噪声估计,得到噪声功率谱估计;
2)结合步骤1)求解的噪声功率谱估计对带噪语音信号进行初次谱减;
3)对初次谱减后的带噪语音信号进行基于加权似然比失真测度的贝叶斯估计,计算信号增强谱;
4)利用人耳掩蔽效应计算第二次谱减的减参数;
5)再次采用改进的最小控制值递归平均算法进行噪声估计,利用步骤4)计算的减参数对信号增强谱进行第二次谱减,得到最终的增强语音信号;
6)对增强后的语音信号进行反傅里叶变换,得到最终的增强语音。
2.根据权利要求1所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤1),噪声功率谱估计的具体求解如下:
11)对离散时间带噪语音信号y(n)的M个样本加窗,并进行M点的FFT,将带噪语音信号变换到频域,得到带噪语音的频域信号Y(λ,k),
其中,y(n)=d(n)+x(n),d(n)为噪声信号,x(n)为纯净信号,n代表不同时刻;
λ为帧数标记,k,k=0,1,2,…,M-1表示频点;
12)对带噪语音的频域信号进行第一次平滑,采用公式(1)计算平滑功率谱S(λ,k),并不断更新其最小值Smin(λ,k);
S(λ,k)=αsS(λ-1,k)+(1-αs)Sf(λ,k) (1)
其中,αs为平滑因子,
其中,w(i)为Hanning窗函数,Lw为i的取值上限;
最小值Smin(λ,k)的更新如下:
首先设置一个临时变量Stmp(λ,k),初始化Stmp(0,k)=S(0,k),如果当前帧数λ能够被D整除,则Smin(λ,k)根据公式(3)进行更新,同时将Stmp(λ,k)设为S(λ,k):
Smin(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (3)
如果当前帧数λ不能够被D整除,那么先依据公式(4)更新Smin(λ,k),同时再根据公式(5)更新临时变量Stmp(λ,k):
Smin(λ,k)=min{Smin(λ-1,k),S(λ,k)} (4)
Stmp(λ,k)=min{Stmp(λ-1,k),S(λ,k)} (5)
13)利用Smin(λ,k),通过公式(6)计算指示函数I(λ,k):
其中,γ0与ζ0为阈值参数,且
其中,Bmin表示最小噪声估计的偏差;
14)根据指示函数I(λ,k)进行第二次平滑,利用公式(8)、公式(9)计算平滑功率谱密度并实时更新最小值
15)利用通过公式(10)、公式(11)计算不存在语音的先验概率q(λ,k):
其中,γ1,为阈值参数;
16)计算语音存在概率p(λ,k):
其中,γk(λ)和ξk(λ)分别为频点k的后验信噪比与先验信噪比,
其中,是前一帧经过补偿后的噪声功率谱估计,αq为权重因子,为对数增益函数,为一个指数积分,t为积分变量;
17)利用语音存在概率p(λ,k)通过公式(16)计算平滑参数αd(λ,k),并根据公式(17)和公式(18)更新噪声谱,
其中,为计算的噪声功率谱估计,为经过补偿后的噪声功率谱估计,
αi取0.8,βi为偏差补偿因子,取1.47。
3.根据权利要求2所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤2),初次谱减后的功率谱如下:
其中,为初次谱减后的功率谱,|Y(w)|2为原始带噪语音的功率谱,w表示频率变量,噪声功率谱估计即步骤1)中的
4.根据权利要求3所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤3),计算信号增强谱具体过程如下:
31)采用加权似然比作为贝叶斯估计的失真测度,计算初次谱减后信号的最优幅度谱,其中,贝叶斯估计的失真测度为:
其中,Xk为纯净信号谱在频点k的幅度,为噪声估计谱在频点k的幅度;
将贝叶斯风险对求导,得到下式:
其中,bk=E[Xk|Y(ωk)],为最小均方误差估计,p(Xk|Y(ωk))为Xk的后验概率密度函数,表示已知带噪语音谱Y(ωk)存在概率下,纯净信号谱Xk的存在概率,ωk即频点k处的频率值,
其中,ρk为ωk处后验信噪比,ρk=|Y(ωk)|2/(|Y(ωk)|2-|Xk|2),
vk=ρkψk/(1+ψk),ψk为ωk处先验信噪比,
ψk=a+(1-a)max[ρk-1,0],
a为一个权重因子;
对公式(21)求零点得到信号最优幅度谱
32)利用最优幅度谱构建频点k的信号增强谱
其中,θy(k)为频点k处的相位;
33)将所有频点处的信号增强谱叠加,得到最终的信号增强谱
5.根据权利要求4所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤4),第二次谱减的减参数的计算过程为:
41)计算关键频带的能量Bi:
其中,bhi、bli分为关键频带i的频率上限和下限,i=1,…,imax,imax取决于采样频率fs,
P(w)为经过初次谱减和基于加权似然比失真测度的贝叶斯估计后信号的功率谱;
42)计算扩展频谱Ci:
Ci=Sij*Bi
其中,Sij为扩展矩阵,
其中,Δ=i-j,i,j=1,…,imax,i是被掩蔽信号的bark频率,j是掩蔽信号的bark频率;
43)计算噪声掩蔽阈值,具体包括:
431)引入音调系数αto:
其中,SFM为谱平坦测度,SFMdBmax=-60dB,Gm、Am分为功率谱P(w)的几何平均与算数平均;
432)定义每个Bark段i掩蔽能量的偏移函数Oi:
Oi=αto(14.5+i)+(1-αto)5.5 (25)
433)计算扩展后的掩蔽阈值Ti:
434)将Ti转换回扩展前的Bark域,得到T′i(w),并将其与安静时人耳的绝对听觉阈值对比,得到最终的听觉掩蔽阈值Tfinal(w):
Tfinal(w)=max[T′i(w),Tq(w)] (27)
其中,Tq(w)为绝对听觉阈值,
44)计算减参数α和β,
其中,α表示过衰减因子,β表示谱底限,α和β统称为减参数,αmin=1,αmax=6,βmin=0,βmax=0.02,Tmax,Tmin分别代表掩蔽阈值按帧更新的最大、最小值。
6.根据权利要求5所述的一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法,其特征在于,所述步骤5),第二次谱减后的功率谱为:
其中,Y(w)为经过初次谱减和基于WLR的贝叶斯估计后信号的频谱信号,为
最终的增强语音的功率谱,G(w)为改进的增益函数,
其中,为再次进行最小控制值递归平均算法的噪声估计谱,ε与τ为加权因子,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810399586.1A CN108735225A (zh) | 2018-04-28 | 2018-04-28 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810399586.1A CN108735225A (zh) | 2018-04-28 | 2018-04-28 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108735225A true CN108735225A (zh) | 2018-11-02 |
Family
ID=63940084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810399586.1A Pending CN108735225A (zh) | 2018-04-28 | 2018-04-28 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108735225A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109727605A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及系统 |
CN110528913A (zh) * | 2019-08-27 | 2019-12-03 | 邹瑜 | 一种新型公交站台 |
CN110827847A (zh) * | 2019-11-27 | 2020-02-21 | 高小翎 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
WO2020177374A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN111968659A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
WO2021007841A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳市汇顶科技股份有限公司 | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 |
CN113012711A (zh) * | 2019-12-19 | 2021-06-22 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及设备 |
CN113160845A (zh) * | 2021-03-29 | 2021-07-23 | 南京理工大学 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
CN113539285A (zh) * | 2021-06-04 | 2021-10-22 | 浙江华创视讯科技有限公司 | 音频信号降噪方法、电子装置和存储介质 |
CN113838476A (zh) * | 2021-09-24 | 2021-12-24 | 世邦通信股份有限公司 | 一种带噪语音的噪声估计方法和装置 |
CN114006671A (zh) * | 2021-11-01 | 2022-02-01 | 北京万测科技有限公司 | 一种广播发射机噪声在线测量方法及装置、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN107680609A (zh) * | 2017-09-12 | 2018-02-09 | 桂林电子科技大学 | 一种基于噪声功率谱密度的双通道语音增强方法 |
-
2018
- 2018-04-28 CN CN201810399586.1A patent/CN108735225A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN107680609A (zh) * | 2017-09-12 | 2018-02-09 | 桂林电子科技大学 | 一种基于噪声功率谱密度的双通道语音增强方法 |
Non-Patent Citations (3)
Title |
---|
PHILIPOS C. LOIZOU ET AL.: "Speech Enhancement Based on Perceptually Motivated Bayesian Estimators of the Magnitude Spectrum", 《EEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
曲蓓莉: "基于人耳掩蔽效应的谱减算法的研究与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
袁文浩: "基于噪声估计的语音增强方法研究", 《中国博士学位论文全文数据库》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109616139B (zh) * | 2018-12-25 | 2023-11-03 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109727605A (zh) * | 2018-12-29 | 2019-05-07 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及系统 |
WO2020177374A1 (zh) * | 2019-03-06 | 2020-09-10 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN112602150A (zh) * | 2019-07-18 | 2021-04-02 | 深圳市汇顶科技股份有限公司 | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 |
WO2021007841A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳市汇顶科技股份有限公司 | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 |
CN110528913B (zh) * | 2019-08-27 | 2021-01-05 | 邹瑜 | 一种新型公交站台 |
CN110528913A (zh) * | 2019-08-27 | 2019-12-03 | 邹瑜 | 一种新型公交站台 |
CN110827847A (zh) * | 2019-11-27 | 2020-02-21 | 高小翎 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN110827847B (zh) * | 2019-11-27 | 2022-10-18 | 添津人工智能通用应用系统(天津)有限公司 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN113012711A (zh) * | 2019-12-19 | 2021-06-22 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及设备 |
CN113012711B (zh) * | 2019-12-19 | 2024-03-22 | 中国移动通信有限公司研究院 | 一种语音处理方法、装置及设备 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
CN111554315B (zh) * | 2020-05-29 | 2022-07-15 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
CN111968659B (zh) * | 2020-07-23 | 2023-10-31 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN111968659A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112201269B (zh) * | 2020-10-19 | 2021-09-07 | 深圳市车宝信息科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
CN113160845A (zh) * | 2021-03-29 | 2021-07-23 | 南京理工大学 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
CN113539285A (zh) * | 2021-06-04 | 2021-10-22 | 浙江华创视讯科技有限公司 | 音频信号降噪方法、电子装置和存储介质 |
CN113539285B (zh) * | 2021-06-04 | 2023-10-31 | 浙江华创视讯科技有限公司 | 音频信号降噪方法、电子装置和存储介质 |
CN113838476B (zh) * | 2021-09-24 | 2023-12-01 | 世邦通信股份有限公司 | 一种带噪语音的噪声估计方法和装置 |
CN113838476A (zh) * | 2021-09-24 | 2021-12-24 | 世邦通信股份有限公司 | 一种带噪语音的噪声估计方法和装置 |
CN114006671A (zh) * | 2021-11-01 | 2022-02-01 | 北京万测科技有限公司 | 一种广播发射机噪声在线测量方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108735225A (zh) | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN105741849B (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
EP1450353B1 (en) | System for suppressing wind noise | |
EP1116224A1 (en) | Noise suppression for low bitrate speech coder | |
CN103544961B (zh) | 语音信号处理方法及装置 | |
CN102982801A (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
Wolfe et al. | Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement | |
Sørensen et al. | Speech enhancement with natural sounding residual noise based on connected time-frequency speech presence regions | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
CN112201269B (zh) | 基于改进噪声估计的mmse-lsa语音增强方法 | |
EP2151820A1 (en) | Method for bias compensation for cepstro-temporal smoothing of spectral filter gains | |
Kandagatla et al. | Speech enhancement using MMSE estimation of amplitude and complex speech spectral coefficients under phase-uncertainty | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
Shankar et al. | Noise dependent super gaussian-coherence based dual microphone speech enhancement for hearing aid application using smartphone | |
Naik et al. | Modified magnitude spectral subtraction methods for speech enhancement | |
CN116913308A (zh) | 一种平衡降噪量和语音音质的单通道语音增强方法 | |
Wei et al. | Perceptual multiband spectral subtraction for noise reduction in hearing aids | |
Gouhar et al. | Speech enhancement using new iterative minimum statistics approach | |
Upadhyay et al. | An auditory perception based improved multi-band spectral subtraction algorithm for enhancement of speech degraded by non-stationary noises | |
Alaya et al. | Adaptive filter for perceptual speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |