CN110739005B - 一种面向瞬态噪声抑制的实时语音增强方法 - Google Patents
一种面向瞬态噪声抑制的实时语音增强方法 Download PDFInfo
- Publication number
- CN110739005B CN110739005B CN201911035076.7A CN201911035076A CN110739005B CN 110739005 B CN110739005 B CN 110739005B CN 201911035076 A CN201911035076 A CN 201911035076A CN 110739005 B CN110739005 B CN 110739005B
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- speech
- voice
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000001052 transient effect Effects 0.000 title claims abstract description 42
- 230000001629 suppression Effects 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 230000005484 gravity Effects 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims description 16
- 238000000695 excitation spectrum Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 230000002087 whitening effect Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种面向瞬态噪声抑制的实时语音增强方法,包括步骤:采用分位噪声估计法来获得稳态噪声谱;利用基于信号重心的方法检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;结合语音特征和谐波分析来估计语音存在概率;在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强。本发明提出的方法,能够对瞬态噪声进行有效抑制,在综合语音增强性能和实时性指标方面,明显优于其它经典的语音增强方法。
Description
技术领域
本发明涉及语音增强技术领域,特别是涉及一种面向瞬态噪声抑制的实时语音增强方法。
背景技术
语音增强算法研究一直是语音领域的热门方向,早期的单通道语音增强算法主要研究如何从含噪语音中有效估计噪声谱,从而对其进行抑制。近年来,随着深度学习的概念的提出,以及在语音识别领域的成功应用,使得基于监督学习的语音增强算法开始体现价值。DNN网络,CNN网络,LSTM网络,GAN网络等都被用来实现语音增强。这些监督学习模型在充分训练的情况下,体现了比传统增强方法优越的性能。
但是,由于存在数据标注和采集上的困难,以及模型复杂度高等问题,目前基于监督学习算法的语音增强实际应用较少。经典算法的应用依然比较广泛。谱减法是最早出现的降噪算法,其一般需要先对带噪语音进行语音端点的检测,在不含语音的静音段使用噪声估计算法得到噪声的功率谱然后进行谱减处理。但是如果对噪声功率谱欠估计,则有可能引入新的音乐噪声,而过估计则会造成语音有效信息的丢失,引起失真。而维纳滤波方法增强后的残留噪声类似于高斯白噪声,对人的听感而言要优于谱减法,但是增强后的语音失真问题仍然存在。上世纪八十年代,Ephraim等人根据贝叶斯准则推导出了最小均方误差(Minimum Mean Square Error,MMSE)估计器公式,此算法具有最优幅度谱估计,因为尽可能的保证了语音不失真。后来,根据频谱幅度的对数值是和耳朵对声音的响度感知成正比这一特点,他们再次提出了基于对数幅度谱估(Log-Spectral Amplitude,LSA)的MMSE方法。此外,Chen和Loizou又提出了最小控制的迭代平均的(Minima Controlled RecursiveAveraging,MCRA)噪声估计算法和基于最优化修正对数谱幅度估计(optimal-modifiedlog-spectral amplitude,OM-LSA)的估计器。这些算法主要研究加性背景噪声,并基于噪声和纯净语音间的复杂的统计特性进行设计,通常需要假设噪声信号是相对平稳的或变化很缓慢。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种面向瞬态噪声抑制的实时语音增强方法,该方法采用分位噪声估计法来获得稳态噪声谱,基于信号重心检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;并结合语音特征和谐波分析来估计语音存在概率;最后,在语音概率估计的基础上,计算信号增益并作用于含噪语音,能够更好地实现语音增强。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种面向瞬态噪声抑制的实时语音增强方法,其特征在于,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤5)和步骤6)获得的两个语音存在概率,计算增益,并进行语音增强。
作为优选,所述的步骤2)中分位噪声估计方法的步骤包括
步骤2.1)、根据幅度谱上各频点的分位数,引入最大抑制值,计算噪声信号抑制因子;
步骤2.2)、根据幅度谱上各频点的分位数噪声幅度值、各频点的语音信号的幅值和噪声信号抑制因子,引入权衡因子,更新分位数噪声幅值,估计得到分位数噪声;
步骤2.3)、估计的噪声和实际频谱幅度的差异性参数,更新分位数。
具体地,所述步骤2.1)中、计算噪声信号抑制因子λ
式中,分位数υ(k)代表着k频点噪声的概率,α代表最大抑制值;
步骤2.2)、更新分位数噪声幅值
式中,D(k,l)代表第l帧第k频点处的分位数噪声幅度值,β为一个权衡因子,|X(k,l)|为第l帧第k频点处的语音信号X(k,l)的幅值;
此时,估计得到的分位数噪声表示为Nυ(k,l)=eD(k,l) (11)
步骤2.3)、更新分位数
式中,ω表示估计的噪声和实际频谱幅度的差异性参数,更新后的分位数用于返回步骤2.1)进行下一帧的噪声信号抑制因子计算。
作为优选,所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、通过线性预测模拟估计出当前信号,计算当前信号的预白化信号;
步骤3.2)、根据预白化信号,求解幅度谱的各帧的预白化信号的重心;
步骤3.3)、根据预白化信号和各帧的预白化信号的重心,设置最短时间长度的约束条件,判断是否存在瞬态噪声;
步骤3.4)、根据是否存在瞬态噪声,修正稳态噪声谱。
具体地,所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
式中,x(n,l)表示当前帧的含噪语音信号,x′(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数;
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点,N代表帧长;
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
式中,E代表能量比例,能量集中在某处频带的瞬态噪声,B(l)往往会很小;当帧长N为256点时,B(l)小于75则认为存在瞬态噪声;
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (16)
κ为衰减因子。
作为优选,所述步骤4)中基于语音特征估计语音存在概率一的步骤包括
步骤4.1)、根据各帧信号的能量与噪声功率的比值计算后验信噪比、先验信噪比和似然比,计算似然比均值特征;
步骤4.2)、根据各频点的语音信号的幅值,计算频谱平坦度特征;
步骤4.3)、根据各频点的语音信号的幅值、当前帧的估计噪声,计算频谱差异度;
步骤4.4)、联合似然比均值特征、频谱平坦度特征和频谱差异度三个特征,计算语音先验概率、和平滑后的语音先验概率,将语音似然比和平滑后的语音先验概率进行综合,获得更新后的语音先验概率。
具体地,所述基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
其中,似然比Δ(k,l)定义为
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数;
步骤4.2)、计算频谱平坦度特征为
步骤4.3)、计算频谱差异度为
式中,var和cov分别表示方差函数和协方差函数;
步骤4.4)、三特征联合的语音先验概率为
qF为获得更新概率。
作为优选,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为
步骤5.1)根据基音周期对应的频点、谐波参数,通过短时傅里叶变换后的窗函数来构造出激励谱;
步骤5.2)、根据语音信号、激励谱,计算拟合系数;
步骤5.3)、根据语音信号、、拟合系数,计算信号拟合误差;
步骤5.4)、使用误差最小的拟合系数和激励谱拟合出符合当前帧的谐波;
步骤5.5)、结合当前帧的谐波、似然比,获得基于谐波的语音存在概率。
具体地,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为
步骤5.1)通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
步骤5.2)、计算拟合系数
步骤5.3)、计算信号拟合误差为:
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk;
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
步骤5.5)、结合似然比,基于谐波的语音存在概率为:
作为优选,所述步骤6)中的综合两个语音概率计算增益,并进行语音增强的步骤为
步骤6.1)、基于步骤4)和步骤5)中获得的两个语音存在概率,计算得到最终的语音存在概率;
步骤6.2)、根据最终的语音存在概率、各频点的语音信号的幅值,计算当前帧的估计的噪声谱;
步骤6.3)、与上一帧噪声谱进行平滑,得到平滑后的当前帧的估计的噪声谱,根据估计的噪声重新求出经过调整的后验信噪比和先验信噪比;
步骤6.4)、根据经过调整的后验信噪比和先验信噪比计算增益函数,结合增益函数、调整前的后验信噪比和先验信噪比,获得增强后的信号。
其中,
所述步骤6.1)、基于计算的两个语音存在概率,最终的语音存在概率为:
p(k,l)=τpF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子;
步骤6.2)、计算估计的噪声谱:
步骤6.3)、与上一帧噪声谱进行平滑,可得
式中,TN为语音存在可能性阈值;噪声平滑系数ξN相对于语音平滑系数ξX较小;
式中,Gmin(k,l)取值为0.1,代表着抑制噪声的最大系数。
有益效果:由于采用了上述技术方案,本发明具有以下优点:
(1)、本发明采用了分位噪声估计法获得稳态噪声谱,可以有效的结合噪声的频带分布特性,准确的估计噪声的功率谱密度;
(2)、本发明在稳态噪声估计的基础上,采用信号重心检测来估计瞬态噪声,从而有针对性对瞬态噪声进行有效抑制;
(3)、本发明结合语音特征和谐波分析对语音概率进行估计,既提高了每个频带的语音存在概率估计准确度,又根据基音周期模拟的语音谐波作为语音谐波频段的包络,在语音谐波段内进行噪声抑制的时候,通过增强模拟出来的波形进行衰减,防止削弱语音重要的组成成分;
(4)、本发明在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强,在综合语音增强性能和实时性指标方面,本发明提出的方法明显优于其它经典的语音增强方法。
附图说明
图1为本发明的语音增强原理框架图;
图2是本发明方法对瞬态噪声的抑制效果图;
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,一种面向瞬态噪声抑制的实时语音增强方法,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤5)和步骤6)获得的两个语音存在概率,计算增益,并进行语音增强。
本发明中优选步骤2)中的分位噪声估计方法,包括以下步骤:
步骤2.1)、计算噪声信号抑制因子λ
式中,分位数υ(k)代表着k频点噪声的概率,α代表最大抑制值,取值为40。
步骤2.2)、更新分位数噪声幅值
式中,D(k,l)代表第l帧第k频点处的分位数噪声幅度值。β为一个权衡因子,取值为0.25。|X(k,l)|为第l帧第k频点处语音信号X(k,l)的幅值。
此时,估计得到的分位数噪声可表示为Nυ(k,l)=eD(k,l) (18)
步骤2.3)、更新分位数
式中,ω表示估计的噪声和实际频谱幅度的差异性参数,取值为0.01。
本发明中优选步骤3)中的稳态噪声谱修正方法包括以下步骤:
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
式中,x′(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数。
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点。N代表帧长。
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
式中,E代表能量比例,取值为90。能量集中在某处频带的瞬态噪声,B(l)往往会很小。当帧长N为256点时,B(l)小于75则认为存在瞬态噪声。
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (23)
κ为衰减因子,取值为0.4。
具体地,步骤4)中获得基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
其中,似然比Δ(k,l)定义为
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数,取值为0.98。
步骤4.2)、计算频谱平坦度特征为
步骤4.3)、计算频谱差异度为
式中,var和cov分别表示方差函数和协方差函数。
步骤4.4)、三特征联合的语音先验概率为
本发明中步骤5)获得基于谐波分析的语音概率2的计算步骤为
步骤5.1)、通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
步骤5.2)、计算拟合系数
步骤5.3)、计算信号拟合误差为:
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk。
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
步骤5.5)、结合似然比,基于谐波的语音存在概率为:
本发明步骤6)中综合两个语音概率计算增益,并进行语音增强的步骤为
步骤6.1)、基于计算的两个语音存在概率,最终的语音存在概率为:
p(k,l)=τpF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子,取值为0.3。
步骤6.2)、计算估计的噪声谱:
步骤6.3)、与上一帧噪声谱进行平滑,可得
式中,TN为语音存在可能性阈值,取值为0.3。噪声平滑系数ξN(取值0.9)相对于语音平滑系数ξX(取值0.99)要小一些。
式中,Gmin(k,l)取值为0.1,代表着抑制噪声的最大系数。
如图2所示,是本发明方法的瞬态噪声抑制效果。本发明方法消除频域上的噪声成分最多,其抑制效果明显高于不带谐波估计的算法。从性能指标看,改进算法的分段信噪比从-5.35提高到-2.91,PESQ从1.55提升到1.73,综合性能指标从1.61提升到1.95,STOI从0.6163提升到0.6382。
表1为本发明方法和最优化修正对数谱幅度估计方法的语音增强效果。本发明方法的MOS和STOI得分较好,两种算法的PESQ相当。在低信噪比时,本发明方法的PESQ性能较好。说明,本发明方法的语音增强效果更好,语音质量更好。此外,在配置为Intel17-7700CPU和8G内存电脑下,本发明方法和最优化修正对数谱幅度估计方法处理1秒语音的运行时间分别为45ms和1.4s。本发明方法可以显著降低运行时间。
表1
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种面向瞬态噪声抑制的实时语音增强方法,其特征在于,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤4)和步骤5)获得的两个语音存在概率,计算增益,并进行语音增强;
其中,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为:
步骤5.1)通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
步骤5.2)、计算拟合系数
步骤5.3)、计算信号拟合误差为:
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk;
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
步骤5.5)、结合似然比Δ(k,l),基于谐波的语音存在概率为:
所述步骤6)中的综合两个语音概率计算增益,并进行语音增强的步骤为:
步骤6.1)、基于步骤4)和步骤5)中获得的两个语音存在概率,计算得到最终的语音存在概率为:
p(k,l)=τqF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子;qF为步骤4)计算获得的概率一;
步骤6.2)、根据最终的语音存在概率、各频点的语音信号的幅值,计算当前帧的估计的噪声谱:
X(k,l)表示观测到第l帧信号的能量;
步骤6.3)、与上一帧噪声谱进行平滑,得到平滑后的当前帧的估计的噪声谱:
式中,TN为语音存在可能性阈值;噪声平滑系数ξN相对于语音平滑系数ξX较小;
其中,GH1(k,l)表示增益函数,定义为
式中,Gmin(k,l)代表着抑制噪声的最大系数。
2.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述的步骤2)中分位噪声估计方法的步骤包括
步骤2.1)、根据幅度谱上各频点的分位数,引入最大抑制值,计算噪声信号抑制因子;
步骤2.2)、根据幅度谱上各频点的分位数噪声幅度值、各频点的语音信号的幅值和噪声信号抑制因子,引入权衡因子,更新分位数噪声幅值,估计得到分位数噪声;
步骤2.3)、估计的噪声和实际频谱幅度的差异性参数,更新分位数。
4.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、通过线性预测模拟估计出当前信号,计算当前信号的预白化信号;
步骤3.2)、根据预白化信号,求解幅度谱的各帧的预白化信号的重心;
步骤3.3)、根据预白化信号和各帧的预白化信号的重心,设置最短时间长度的约束条件,判断是否存在瞬态噪声;
步骤3.4)、根据是否存在瞬态噪声,修正稳态噪声谱。
5.根据权利要求4所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
式中,x(n,l)表示当前帧的含噪语音信号,x'(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数;
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点,N代表帧长;
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
式中,E代表能量比例,能量集中在某处频带的瞬态噪声,B(l)往往会很小;当帧长N为256点时,B(l)小于75则认为存在瞬态噪声;
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (8)
κ为衰减因子。
6.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤4)中基于语音特征估计语音存在概率一的步骤包括
步骤4.1)、根据各帧信号的能量与噪声功率的比值计算后验信噪比、先验信噪比和似然比,计算似然比均值特征;
步骤4.2)、根据各频点的语音信号的幅值,计算频谱平坦度特征;
步骤4.3)、根据各频点的语音信号的幅值、当前帧的估计噪声,计算频谱差异度;
步骤4.4)、联合似然比均值特征、频谱平坦度特征和频谱差异度三个特征,计算语音先验概率、和平滑后的语音先验概率,将语音似然比和平滑后的语音先验概率进行综合,获得更新后的语音先验概率。
7.根据权利要求6所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
其中,似然比Δ(k,l)定义为
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数;
步骤4.2)、计算频谱平坦度特征为
步骤4.3)、计算频谱差异度为
式中,var和cov分别表示方差函数和协方差函数;
步骤4.4)、三特征联合的语音先验概率为
qF为获得更新概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035076.7A CN110739005B (zh) | 2019-10-28 | 2019-10-28 | 一种面向瞬态噪声抑制的实时语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911035076.7A CN110739005B (zh) | 2019-10-28 | 2019-10-28 | 一种面向瞬态噪声抑制的实时语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110739005A CN110739005A (zh) | 2020-01-31 |
CN110739005B true CN110739005B (zh) | 2022-02-01 |
Family
ID=69271855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911035076.7A Active CN110739005B (zh) | 2019-10-28 | 2019-10-28 | 一种面向瞬态噪声抑制的实时语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110739005B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429890B (zh) * | 2020-03-10 | 2023-02-10 | 厦门快商通科技股份有限公司 | 一种微弱语音增强方法、语音识别方法及计算机可读存储介质 |
CN111445919B (zh) * | 2020-03-13 | 2023-01-20 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
CN111564161B (zh) * | 2020-04-28 | 2023-07-07 | 世邦通信股份有限公司 | 智能抑制噪音的声音处理装置、方法、终端设备及可读介质 |
CN111933165A (zh) * | 2020-07-30 | 2020-11-13 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 突变噪声快速估计方法 |
CN112233657B (zh) * | 2020-10-14 | 2024-05-28 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
CN113077806B (zh) * | 2021-03-23 | 2023-10-13 | 杭州网易智企科技有限公司 | 音频处理方法及装置、模型训练方法及装置、介质和设备 |
CN113611319B (zh) * | 2021-04-07 | 2023-09-12 | 珠海市杰理科技股份有限公司 | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
CN113470691A (zh) * | 2021-07-08 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种语音信号的自动增益控制方法及其相关装置 |
CN115954012B (zh) * | 2023-03-03 | 2023-05-09 | 成都启英泰伦科技有限公司 | 一种周期性瞬态干扰事件检测方法 |
CN115985337B (zh) * | 2023-03-20 | 2023-09-22 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
CN116312545B (zh) * | 2023-05-26 | 2023-07-21 | 北京道大丰长科技有限公司 | 多噪声环境下的语音识别系统和方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271686A (zh) * | 2007-03-22 | 2008-09-24 | 三星电子株式会社 | 使用语音信号的谐波估计噪声的方法和设备 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
CN103312646A (zh) * | 2013-06-25 | 2013-09-18 | 中国科学技术大学 | 一种瞬态信号消噪方法 |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
CN107969164A (zh) * | 2014-11-12 | 2018-04-27 | 美国思睿逻辑有限公司 | 适应性信道间判别再缩放滤波器 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN109643552A (zh) * | 2016-09-09 | 2019-04-16 | 大陆汽车系统公司 | 用于可变噪声状况中语音增强的鲁棒噪声估计 |
CN109643554A (zh) * | 2018-11-28 | 2019-04-16 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447596B2 (en) * | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
CN103325384A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
-
2019
- 2019-10-28 CN CN201911035076.7A patent/CN110739005B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271686A (zh) * | 2007-03-22 | 2008-09-24 | 三星电子株式会社 | 使用语音信号的谐波估计噪声的方法和设备 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
US8239196B1 (en) * | 2011-07-28 | 2012-08-07 | Google Inc. | System and method for multi-channel multi-feature speech/noise classification for noise suppression |
CN103312646A (zh) * | 2013-06-25 | 2013-09-18 | 中国科学技术大学 | 一种瞬态信号消噪方法 |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
CN105900171A (zh) * | 2014-03-31 | 2016-08-24 | 谷歌公司 | 依赖于情境的瞬态抑制 |
CN107969164A (zh) * | 2014-11-12 | 2018-04-27 | 美国思睿逻辑有限公司 | 适应性信道间判别再缩放滤波器 |
CN109643552A (zh) * | 2016-09-09 | 2019-04-16 | 大陆汽车系统公司 | 用于可变噪声状况中语音增强的鲁棒噪声估计 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN109308904A (zh) * | 2018-10-22 | 2019-02-05 | 上海声瀚信息科技有限公司 | 一种阵列语音增强算法 |
CN109643554A (zh) * | 2018-11-28 | 2019-04-16 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
Non-Patent Citations (2)
Title |
---|
Enhancement of noisy speech using sub-band harmonic regeneration and speech presence uncertainty estimator;Ravi Kumar etc;《2016 IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology(RTEICT)》;20170109;第456-460页 * |
Spherical harmonic domain noise reduction using an MVDR beamformer and DOA-based second-order statistics estimation;Daniel P.Jarrett;《2013 IEEE Internatioanl Conference on Acoustic,Speech and Signal Processing》;20130531;第654-658页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110739005A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110739005B (zh) | 一种面向瞬态噪声抑制的实时语音增强方法 | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
Gerkmann et al. | Noise power estimation based on the probability of speech presence | |
CN109410977B (zh) | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 | |
KR102431896B1 (ko) | 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정 | |
JP5300861B2 (ja) | 雑音抑圧装置 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
US9754608B2 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
JP4886715B2 (ja) | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
CN107610712B (zh) | 一种结合mmse和谱减法的语音增强方法 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
US8296135B2 (en) | Noise cancellation system and method | |
CN109767782A (zh) | 一种提高dnn模型泛化性能的语音增强方法 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
WO2017166800A1 (zh) | 丢帧补偿处理方法和装置 | |
JP4757775B2 (ja) | 雑音抑圧装置 | |
WO2020024787A1 (zh) | 音乐噪声抑制方法及装置 | |
KR20080075362A (ko) | 잡음 환경에서 음성 신호의 추정치를 구하는 방법 | |
US10332541B2 (en) | Determining noise and sound power level differences between primary and reference channels | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
Bao et al. | A novel speech enhancement method using power spectra smooth in wiener filtering | |
KR100901367B1 (ko) | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |