CN110739005B - 一种面向瞬态噪声抑制的实时语音增强方法 - Google Patents

一种面向瞬态噪声抑制的实时语音增强方法 Download PDF

Info

Publication number
CN110739005B
CN110739005B CN201911035076.7A CN201911035076A CN110739005B CN 110739005 B CN110739005 B CN 110739005B CN 201911035076 A CN201911035076 A CN 201911035076A CN 110739005 B CN110739005 B CN 110739005B
Authority
CN
China
Prior art keywords
noise
signal
speech
voice
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911035076.7A
Other languages
English (en)
Other versions
CN110739005A (zh
Inventor
王青云
梁瑞宇
谢跃
唐闺臣
包永强
冯月芹
何超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201911035076.7A priority Critical patent/CN110739005B/zh
Publication of CN110739005A publication Critical patent/CN110739005A/zh
Application granted granted Critical
Publication of CN110739005B publication Critical patent/CN110739005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种面向瞬态噪声抑制的实时语音增强方法,包括步骤:采用分位噪声估计法来获得稳态噪声谱;利用基于信号重心的方法检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;结合语音特征和谐波分析来估计语音存在概率;在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强。本发明提出的方法,能够对瞬态噪声进行有效抑制,在综合语音增强性能和实时性指标方面,明显优于其它经典的语音增强方法。

Description

一种面向瞬态噪声抑制的实时语音增强方法
技术领域
本发明涉及语音增强技术领域,特别是涉及一种面向瞬态噪声抑制的实时语音增强方法。
背景技术
语音增强算法研究一直是语音领域的热门方向,早期的单通道语音增强算法主要研究如何从含噪语音中有效估计噪声谱,从而对其进行抑制。近年来,随着深度学习的概念的提出,以及在语音识别领域的成功应用,使得基于监督学习的语音增强算法开始体现价值。DNN网络,CNN网络,LSTM网络,GAN网络等都被用来实现语音增强。这些监督学习模型在充分训练的情况下,体现了比传统增强方法优越的性能。
但是,由于存在数据标注和采集上的困难,以及模型复杂度高等问题,目前基于监督学习算法的语音增强实际应用较少。经典算法的应用依然比较广泛。谱减法是最早出现的降噪算法,其一般需要先对带噪语音进行语音端点的检测,在不含语音的静音段使用噪声估计算法得到噪声的功率谱然后进行谱减处理。但是如果对噪声功率谱欠估计,则有可能引入新的音乐噪声,而过估计则会造成语音有效信息的丢失,引起失真。而维纳滤波方法增强后的残留噪声类似于高斯白噪声,对人的听感而言要优于谱减法,但是增强后的语音失真问题仍然存在。上世纪八十年代,Ephraim等人根据贝叶斯准则推导出了最小均方误差(Minimum Mean Square Error,MMSE)估计器公式,此算法具有最优幅度谱估计,因为尽可能的保证了语音不失真。后来,根据频谱幅度的对数值是和耳朵对声音的响度感知成正比这一特点,他们再次提出了基于对数幅度谱估(Log-Spectral Amplitude,LSA)的MMSE方法。此外,Chen和Loizou又提出了最小控制的迭代平均的(Minima Controlled RecursiveAveraging,MCRA)噪声估计算法和基于最优化修正对数谱幅度估计(optimal-modifiedlog-spectral amplitude,OM-LSA)的估计器。这些算法主要研究加性背景噪声,并基于噪声和纯净语音间的复杂的统计特性进行设计,通常需要假设噪声信号是相对平稳的或变化很缓慢。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种面向瞬态噪声抑制的实时语音增强方法,该方法采用分位噪声估计法来获得稳态噪声谱,基于信号重心检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;并结合语音特征和谐波分析来估计语音存在概率;最后,在语音概率估计的基础上,计算信号增益并作用于含噪语音,能够更好地实现语音增强。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种面向瞬态噪声抑制的实时语音增强方法,其特征在于,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤5)和步骤6)获得的两个语音存在概率,计算增益,并进行语音增强。
作为优选,所述的步骤2)中分位噪声估计方法的步骤包括
步骤2.1)、根据幅度谱上各频点的分位数,引入最大抑制值,计算噪声信号抑制因子;
步骤2.2)、根据幅度谱上各频点的分位数噪声幅度值、各频点的语音信号的幅值和噪声信号抑制因子,引入权衡因子,更新分位数噪声幅值,估计得到分位数噪声;
步骤2.3)、估计的噪声和实际频谱幅度的差异性参数,更新分位数。
具体地,所述步骤2.1)中、计算噪声信号抑制因子λ
Figure BDA0002249948500000021
式中,分位数υ(k)代表着k频点噪声的概率,α代表最大抑制值;
步骤2.2)、更新分位数噪声幅值
Figure BDA0002249948500000022
式中,D(k,l)代表第l帧第k频点处的分位数噪声幅度值,β为一个权衡因子,|X(k,l)|为第l帧第k频点处的语音信号X(k,l)的幅值;
此时,估计得到的分位数噪声表示为Nυ(k,l)=eD(k,l) (11)
步骤2.3)、更新分位数
Figure BDA0002249948500000031
式中,ω表示估计的噪声和实际频谱幅度的差异性参数,更新后的分位数用于返回步骤2.1)进行下一帧的噪声信号抑制因子计算。
作为优选,所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、通过线性预测模拟估计出当前信号,计算当前信号的预白化信号;
步骤3.2)、根据预白化信号,求解幅度谱的各帧的预白化信号的重心;
步骤3.3)、根据预白化信号和各帧的预白化信号的重心,设置最短时间长度的约束条件,判断是否存在瞬态噪声;
步骤3.4)、根据是否存在瞬态噪声,修正稳态噪声谱。
具体地,所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
Figure BDA0002249948500000032
式中,x(n,l)表示当前帧的含噪语音信号,x′(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数;
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
Figure BDA0002249948500000033
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点,N代表帧长;
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
Figure BDA0002249948500000034
式中,E代表能量比例,能量集中在某处频带的瞬态噪声,B(l)往往会很小;当帧长N为256点时,B(l)小于75则认为存在瞬态噪声;
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (16)
κ为衰减因子。
作为优选,所述步骤4)中基于语音特征估计语音存在概率一的步骤包括
步骤4.1)、根据各帧信号的能量与噪声功率的比值计算后验信噪比、先验信噪比和似然比,计算似然比均值特征;
步骤4.2)、根据各频点的语音信号的幅值,计算频谱平坦度特征;
步骤4.3)、根据各频点的语音信号的幅值、当前帧的估计噪声,计算频谱差异度;
步骤4.4)、联合似然比均值特征、频谱平坦度特征和频谱差异度三个特征,计算语音先验概率、和平滑后的语音先验概率,将语音似然比和平滑后的语音先验概率进行综合,获得更新后的语音先验概率。
具体地,所述基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
Figure BDA0002249948500000041
其中,似然比Δ(k,l)定义为
Figure BDA0002249948500000042
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
Figure BDA0002249948500000043
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数;
步骤4.2)、计算频谱平坦度特征为
Figure BDA0002249948500000044
步骤4.3)、计算频谱差异度为
Figure BDA0002249948500000045
式中,var和cov分别表示方差函数和协方差函数;
步骤4.4)、三特征联合的语音先验概率为
Figure BDA0002249948500000051
其中,γq是一个平滑因子;
Figure BDA0002249948500000052
Figure BDA0002249948500000053
分别为基于统计方法获得三个特征的阈值;M代表似然值小于1的帧数;
平滑后的语音先验概率
Figure BDA0002249948500000054
Figure BDA0002249948500000055
将语音似然比Δ(k,l)和语音先验概率
Figure BDA0002249948500000056
进行综合,
Figure BDA0002249948500000057
qF为获得更新概率。
作为优选,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为
步骤5.1)根据基音周期对应的频点、谐波参数,通过短时傅里叶变换后的窗函数来构造出激励谱;
步骤5.2)、根据语音信号、激励谱,计算拟合系数;
步骤5.3)、根据语音信号、、拟合系数,计算信号拟合误差;
步骤5.4)、使用误差最小的拟合系数和激励谱拟合出符合当前帧的谐波;
步骤5.5)、结合当前帧的谐波、似然比,获得基于谐波的语音存在概率。
具体地,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为
步骤5.1)通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
Figure BDA0002249948500000058
式中,
Figure BDA0002249948500000059
为窗函数的短时傅里叶变换,tk是基音周期对应的频点,i为谐波带的索引,Q为总谐波子带数;
步骤5.2)、计算拟合系数
Figure BDA00022499485000000510
步骤5.3)、计算信号拟合误差为:
Figure BDA00022499485000000511
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
Figure BDA0002249948500000061
步骤5.5)、结合似然比,基于谐波的语音存在概率为:
Figure BDA0002249948500000062
其中,
Figure BDA0002249948500000063
作为优选,所述步骤6)中的综合两个语音概率计算增益,并进行语音增强的步骤为
步骤6.1)、基于步骤4)和步骤5)中获得的两个语音存在概率,计算得到最终的语音存在概率;
步骤6.2)、根据最终的语音存在概率、各频点的语音信号的幅值,计算当前帧的估计的噪声谱;
步骤6.3)、与上一帧噪声谱进行平滑,得到平滑后的当前帧的估计的噪声谱,根据估计的噪声重新求出经过调整的后验信噪比和先验信噪比;
步骤6.4)、根据经过调整的后验信噪比和先验信噪比计算增益函数,结合增益函数、调整前的后验信噪比和先验信噪比,获得增强后的信号。
其中,
所述步骤6.1)、基于计算的两个语音存在概率,最终的语音存在概率为:
p(k,l)=τpF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子;
步骤6.2)、计算估计的噪声谱:
Figure BDA0002249948500000064
步骤6.3)、与上一帧噪声谱进行平滑,可得
Figure BDA0002249948500000065
式中,TN为语音存在可能性阈值;噪声平滑系数ξN相对于语音平滑系数ξX较小;
根据估计的噪声重新求出后验信噪比
Figure BDA0002249948500000066
和先验信噪比
Figure BDA0002249948500000067
步骤6.4)、增强后的信号
Figure BDA0002249948500000071
为:
Figure BDA0002249948500000072
其中,
Figure BDA0002249948500000074
表示增益函数,定义为
Figure BDA0002249948500000073
式中,Gmin(k,l)取值为0.1,代表着抑制噪声的最大系数。
有益效果:由于采用了上述技术方案,本发明具有以下优点:
(1)、本发明采用了分位噪声估计法获得稳态噪声谱,可以有效的结合噪声的频带分布特性,准确的估计噪声的功率谱密度;
(2)、本发明在稳态噪声估计的基础上,采用信号重心检测来估计瞬态噪声,从而有针对性对瞬态噪声进行有效抑制;
(3)、本发明结合语音特征和谐波分析对语音概率进行估计,既提高了每个频带的语音存在概率估计准确度,又根据基音周期模拟的语音谐波作为语音谐波频段的包络,在语音谐波段内进行噪声抑制的时候,通过增强模拟出来的波形进行衰减,防止削弱语音重要的组成成分;
(4)、本发明在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强,在综合语音增强性能和实时性指标方面,本发明提出的方法明显优于其它经典的语音增强方法。
附图说明
图1为本发明的语音增强原理框架图;
图2是本发明方法对瞬态噪声的抑制效果图;
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,一种面向瞬态噪声抑制的实时语音增强方法,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤5)和步骤6)获得的两个语音存在概率,计算增益,并进行语音增强。
本发明中优选步骤2)中的分位噪声估计方法,包括以下步骤:
步骤2.1)、计算噪声信号抑制因子λ
Figure BDA0002249948500000081
式中,分位数υ(k)代表着k频点噪声的概率,α代表最大抑制值,取值为40。
步骤2.2)、更新分位数噪声幅值
Figure BDA0002249948500000082
式中,D(k,l)代表第l帧第k频点处的分位数噪声幅度值。β为一个权衡因子,取值为0.25。|X(k,l)|为第l帧第k频点处语音信号X(k,l)的幅值。
此时,估计得到的分位数噪声可表示为Nυ(k,l)=eD(k,l) (18)
步骤2.3)、更新分位数
Figure BDA0002249948500000083
式中,ω表示估计的噪声和实际频谱幅度的差异性参数,取值为0.01。
本发明中优选步骤3)中的稳态噪声谱修正方法包括以下步骤:
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
Figure BDA0002249948500000084
式中,x′(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数。
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
Figure BDA0002249948500000091
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点。N代表帧长。
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
Figure BDA0002249948500000092
式中,E代表能量比例,取值为90。能量集中在某处频带的瞬态噪声,B(l)往往会很小。当帧长N为256点时,B(l)小于75则认为存在瞬态噪声。
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (23)
κ为衰减因子,取值为0.4。
具体地,步骤4)中获得基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
Figure BDA0002249948500000093
其中,似然比Δ(k,l)定义为
Figure BDA0002249948500000094
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
Figure BDA0002249948500000095
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数,取值为0.98。
步骤4.2)、计算频谱平坦度特征为
Figure BDA0002249948500000101
步骤4.3)、计算频谱差异度为
Figure BDA0002249948500000102
式中,var和cov分别表示方差函数和协方差函数。
步骤4.4)、三特征联合的语音先验概率为
Figure BDA0002249948500000103
其中,γq是一个平滑因子;
Figure BDA0002249948500000104
Figure BDA0002249948500000105
分别为基于统计方法获得三个特征的阈值;M代表似然值小于1的帧数。
平滑后的语音先验概率
Figure BDA0002249948500000106
Figure BDA0002249948500000107
将语音似然比Δ(k,l)和语音先验概率
Figure BDA0002249948500000108
进行综合,获得更新概率为
Figure BDA0002249948500000109
本发明中步骤5)获得基于谐波分析的语音概率2的计算步骤为
步骤5.1)、通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
Figure BDA00022499485000001010
式中,
Figure BDA00022499485000001011
为窗函数的短时傅里叶变换,tk是基音周期对应的频点,i为谐波带的索引,Q为总谐波子带数。
步骤5.2)、计算拟合系数
Figure BDA00022499485000001012
步骤5.3)、计算信号拟合误差为:
Figure BDA00022499485000001013
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
Figure BDA0002249948500000111
步骤5.5)、结合似然比,基于谐波的语音存在概率为:
Figure BDA0002249948500000112
其中,
Figure BDA0002249948500000113
本发明步骤6)中综合两个语音概率计算增益,并进行语音增强的步骤为
步骤6.1)、基于计算的两个语音存在概率,最终的语音存在概率为:
p(k,l)=τpF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子,取值为0.3。
步骤6.2)、计算估计的噪声谱:
Figure BDA0002249948500000114
步骤6.3)、与上一帧噪声谱进行平滑,可得
Figure BDA0002249948500000115
式中,TN为语音存在可能性阈值,取值为0.3。噪声平滑系数ξN(取值0.9)相对于语音平滑系数ξX(取值0.99)要小一些。
根据估计的噪声重新求出后验信噪比
Figure BDA0002249948500000116
和先验信噪比
Figure BDA0002249948500000117
步骤6.4)、增强后的信号
Figure BDA0002249948500000118
为:
Figure BDA0002249948500000119
其中,
Figure BDA00022499485000001111
表示增益函数,定义为
Figure BDA00022499485000001110
式中,Gmin(k,l)取值为0.1,代表着抑制噪声的最大系数。
如图2所示,是本发明方法的瞬态噪声抑制效果。本发明方法消除频域上的噪声成分最多,其抑制效果明显高于不带谐波估计的算法。从性能指标看,改进算法的分段信噪比从-5.35提高到-2.91,PESQ从1.55提升到1.73,综合性能指标从1.61提升到1.95,STOI从0.6163提升到0.6382。
表1为本发明方法和最优化修正对数谱幅度估计方法的语音增强效果。本发明方法的MOS和STOI得分较好,两种算法的PESQ相当。在低信噪比时,本发明方法的PESQ性能较好。说明,本发明方法的语音增强效果更好,语音质量更好。此外,在配置为Intel17-7700CPU和8G内存电脑下,本发明方法和最优化修正对数谱幅度估计方法处理1秒语音的运行时间分别为45ms和1.4s。本发明方法可以显著降低运行时间。
表1
Figure BDA0002249948500000121
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种面向瞬态噪声抑制的实时语音增强方法,其特征在于,包括以下步骤:
步骤1)、对含噪语音进行分帧和加窗预处理,求出幅度谱;
步骤2)、采用分位噪声估计法获得稳态噪声谱;
步骤3)、采用基于信号重心检测法来获得瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;
步骤4)、采用基于语音特征的方法估计语音存在概率一;
步骤5)、采用谐波分析的方法估计语音存在概率二;
步骤6)、综合步骤4)和步骤5)获得的两个语音存在概率,计算增益,并进行语音增强;
其中,所述步骤5)中的基于谐波分析的语音概率二的计算步骤为:
步骤5.1)通过短时傅里叶变换后的窗函数来构造出激励谱,公式为:
Figure FDA0003414661740000011
式中,
Figure FDA0003414661740000015
为窗函数的短时傅里叶变换,tk是基音周期对应的频点,i为谐波带的索引,Q为总谐波子带数,l和k分别表示步骤3)获得的稳态噪声谱中的第l帧k频点噪声;
步骤5.2)、计算拟合系数
Figure FDA0003414661740000012
步骤5.3)、计算信号拟合误差为:
Figure FDA0003414661740000013
式中,ai和bi代表谐波频带的区间且ai=(i-0.5)tk,bi=(i+0.5)tk
步骤5.4)、使用误差最小的ηi(l)和激励谱χ(k,l)拟合出符合当前帧的谐波,公式表示为:
Figure FDA0003414661740000014
步骤5.5)、结合似然比Δ(k,l),基于谐波的语音存在概率为:
Figure FDA0003414661740000021
其中,
Figure FDA0003414661740000022
所述步骤6)中的综合两个语音概率计算增益,并进行语音增强的步骤为:
步骤6.1)、基于步骤4)和步骤5)中获得的两个语音存在概率,计算得到最终的语音存在概率为:
p(k,l)=τqF(k,l)+(1-τ)pM(k,l) (23)
其中,τ为加权因子;qF为步骤4)计算获得的概率一;
步骤6.2)、根据最终的语音存在概率、各频点的语音信号的幅值,计算当前帧的估计的噪声谱:
Figure FDA0003414661740000023
X(k,l)表示观测到第l帧信号的能量;
步骤6.3)、与上一帧噪声谱进行平滑,得到平滑后的当前帧的估计的噪声谱:
Figure FDA0003414661740000024
式中,TN为语音存在可能性阈值;噪声平滑系数ξN相对于语音平滑系数ξX较小;
根据估计的噪声重新求出后验信噪比
Figure FDA0003414661740000025
和先验信噪比
Figure FDA0003414661740000026
步骤6.4)、根据经过调整的后验信噪比和先验信噪比计算增益函数,结合增益函数、调整前的后验信噪比和先验信噪比,获得增强后的信号;增强后的信号
Figure FDA0003414661740000027
为:
Figure FDA0003414661740000028
其中,GH1(k,l)表示增益函数,定义为
Figure FDA0003414661740000029
式中,Gmin(k,l)代表着抑制噪声的最大系数。
2.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述的步骤2)中分位噪声估计方法的步骤包括
步骤2.1)、根据幅度谱上各频点的分位数,引入最大抑制值,计算噪声信号抑制因子;
步骤2.2)、根据幅度谱上各频点的分位数噪声幅度值、各频点的语音信号的幅值和噪声信号抑制因子,引入权衡因子,更新分位数噪声幅值,估计得到分位数噪声;
步骤2.3)、估计的噪声和实际频谱幅度的差异性参数,更新分位数。
3.根据权利要求2所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤2.1)中、计算噪声信号抑制因子λ
Figure FDA0003414661740000031
式中,分位数υ(k)代表着第l帧k频点噪声的概率,α代表最大抑制值;
步骤2.2)、更新分位数噪声幅值
Figure FDA0003414661740000032
式中,D(k,l)代表第l帧第k频点处的分位数噪声幅度值,β为一个权衡因子,|X(k,l)|为第l帧第k频点处的语音信号X(k,l)的幅值;
此时,估计得到的分位数噪声表示为
Nv(k,l)=eD(k,l) (3)
步骤2.3)、更新分位数
Figure FDA0003414661740000033
式中,ω表示估计的噪声和实际频谱幅度的差异性参数,更新后的分位数用于返回步骤2.1)进行下一帧的噪声信号抑制因子计算。
4.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、通过线性预测模拟估计出当前信号,计算当前信号的预白化信号;
步骤3.2)、根据预白化信号,求解幅度谱的各帧的预白化信号的重心;
步骤3.3)、根据预白化信号和各帧的预白化信号的重心,设置最短时间长度的约束条件,判断是否存在瞬态噪声;
步骤3.4)、根据是否存在瞬态噪声,修正稳态噪声谱。
5.根据权利要求4所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤3)中稳态噪声谱修正方法的步骤包括
步骤3.1)、预白化信号
通过线性预测模拟估计出当前信号,计算公式如下:
Figure FDA0003414661740000041
式中,x(n,l)表示当前帧的含噪语音信号,x'(n,l)表示预白化语音信号,ap为AR()因子,n代表时刻值,p代表阶数;
步骤3.2)、求解重心
第l帧的预白化信号的重心表示为
Figure FDA0003414661740000042
式中,w(n)为汉宁窗函数,C(l)为当前帧的重心索引点,N代表帧长;
步骤3.3)、估计最短时间长度B(l),使之满足下列条件
Figure FDA0003414661740000043
式中,E代表能量比例,能量集中在某处频带的瞬态噪声,B(l)往往会很小;当帧长N为256点时,B(l)小于75则认为存在瞬态噪声;
步骤3.4)、修正噪声谱
若存在瞬态噪声,则当前帧的估计噪声Na(k,l)可表示为
Na(k,l)=Nυ(k,l)+κ|X(k,l)| (8)
κ为衰减因子。
6.根据权利要求1所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述步骤4)中基于语音特征估计语音存在概率一的步骤包括
步骤4.1)、根据各帧信号的能量与噪声功率的比值计算后验信噪比、先验信噪比和似然比,计算似然比均值特征;
步骤4.2)、根据各频点的语音信号的幅值,计算频谱平坦度特征;
步骤4.3)、根据各频点的语音信号的幅值、当前帧的估计噪声,计算频谱差异度;
步骤4.4)、联合似然比均值特征、频谱平坦度特征和频谱差异度三个特征,计算语音先验概率、和平滑后的语音先验概率,将语音似然比和平滑后的语音先验概率进行综合,获得更新后的语音先验概率。
7.根据权利要求6所述的一种面向瞬态噪声抑制的实时语音增强方法,其特征在于:所述基于语音特征估计语音存在概率一的步骤为
步骤4.1)、计算似然比均值特征为
Figure FDA0003414661740000051
其中,似然比Δ(k,l)定义为
Figure FDA0003414661740000052
此处,δl(k)为后验信噪比,表示观测到第l帧信号的能量与噪声功率的比值,
Figure FDA0003414661740000053
先验信噪比ρl(k)为:
ρl(k)=rddρl-1(k)+(1-rdd)max(δl(k)-1,0) (12)
式中,rdd为时间平滑参数;
步骤4.2)、计算频谱平坦度特征为
Figure FDA0003414661740000054
步骤4.3)、计算频谱差异度为
Figure FDA0003414661740000055
式中,var和cov分别表示方差函数和协方差函数;
步骤4.4)、三特征联合的语音先验概率为
Figure FDA0003414661740000061
其中,γq是一个平滑因子;
Figure FDA0003414661740000062
Figure FDA0003414661740000063
分别为基于统计方法获得三个特征的阈值;M代表似然值小于1的帧数;
平滑后的语音先验概率
Figure FDA0003414661740000064
Figure FDA0003414661740000065
将语音似然比Δ(k,l)和语音先验概率
Figure FDA0003414661740000066
进行综合,
Figure FDA0003414661740000067
qF为获得更新概率。
CN201911035076.7A 2019-10-28 2019-10-28 一种面向瞬态噪声抑制的实时语音增强方法 Active CN110739005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911035076.7A CN110739005B (zh) 2019-10-28 2019-10-28 一种面向瞬态噪声抑制的实时语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911035076.7A CN110739005B (zh) 2019-10-28 2019-10-28 一种面向瞬态噪声抑制的实时语音增强方法

Publications (2)

Publication Number Publication Date
CN110739005A CN110739005A (zh) 2020-01-31
CN110739005B true CN110739005B (zh) 2022-02-01

Family

ID=69271855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911035076.7A Active CN110739005B (zh) 2019-10-28 2019-10-28 一种面向瞬态噪声抑制的实时语音增强方法

Country Status (1)

Country Link
CN (1) CN110739005B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429890B (zh) * 2020-03-10 2023-02-10 厦门快商通科技股份有限公司 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111564161B (zh) * 2020-04-28 2023-07-07 世邦通信股份有限公司 智能抑制噪音的声音处理装置、方法、终端设备及可读介质
CN111933165A (zh) * 2020-07-30 2020-11-13 西南电子技术研究所(中国电子科技集团公司第十研究所) 突变噪声快速估计方法
CN112233657B (zh) * 2020-10-14 2024-05-28 河海大学 一种基于低频音节识别的语音增强方法
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113611319B (zh) * 2021-04-07 2023-09-12 珠海市杰理科技股份有限公司 基于语音成分实现的风噪抑制方法、装置、设备及系统
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置
CN115954012B (zh) * 2023-03-03 2023-05-09 成都启英泰伦科技有限公司 一种周期性瞬态干扰事件检测方法
CN115985337B (zh) * 2023-03-20 2023-09-22 全时云商务服务股份有限公司 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
CN116312545B (zh) * 2023-05-26 2023-07-21 北京道大丰长科技有限公司 多噪声环境下的语音识别系统和方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271686A (zh) * 2007-03-22 2008-09-24 三星电子株式会社 使用语音信号的谐波估计噪声的方法和设备
CN101510426A (zh) * 2009-03-23 2009-08-19 北京中星微电子有限公司 一种噪声消除方法及系统
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN103312646A (zh) * 2013-06-25 2013-09-18 中国科学技术大学 一种瞬态信号消噪方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
CN105900171A (zh) * 2014-03-31 2016-08-24 谷歌公司 依赖于情境的瞬态抑制
CN107969164A (zh) * 2014-11-12 2018-04-27 美国思睿逻辑有限公司 适应性信道间判别再缩放滤波器
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109643552A (zh) * 2016-09-09 2019-04-16 大陆汽车系统公司 用于可变噪声状况中语音增强的鲁棒噪声估计
CN109643554A (zh) * 2018-11-28 2019-04-16 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447596B2 (en) * 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271686A (zh) * 2007-03-22 2008-09-24 三星电子株式会社 使用语音信号的谐波估计噪声的方法和设备
CN101510426A (zh) * 2009-03-23 2009-08-19 北京中星微电子有限公司 一种噪声消除方法及系统
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN103312646A (zh) * 2013-06-25 2013-09-18 中国科学技术大学 一种瞬态信号消噪方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN105900171A (zh) * 2014-03-31 2016-08-24 谷歌公司 依赖于情境的瞬态抑制
CN107969164A (zh) * 2014-11-12 2018-04-27 美国思睿逻辑有限公司 适应性信道间判别再缩放滤波器
CN109643552A (zh) * 2016-09-09 2019-04-16 大陆汽车系统公司 用于可变噪声状况中语音增强的鲁棒噪声估计
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109643554A (zh) * 2018-11-28 2019-04-16 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enhancement of noisy speech using sub-band harmonic regeneration and speech presence uncertainty estimator;Ravi Kumar etc;《2016 IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology(RTEICT)》;20170109;第456-460页 *
Spherical harmonic domain noise reduction using an MVDR beamformer and DOA-based second-order statistics estimation;Daniel P.Jarrett;《2013 IEEE Internatioanl Conference on Acoustic,Speech and Signal Processing》;20130531;第654-658页 *

Also Published As

Publication number Publication date
CN110739005A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110739005B (zh) 一种面向瞬态噪声抑制的实时语音增强方法
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
Gerkmann et al. Noise power estimation based on the probability of speech presence
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
KR102431896B1 (ko) 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정
JP5300861B2 (ja) 雑音抑圧装置
CN108831499A (zh) 利用语音存在概率的语音增强方法
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
JP4886715B2 (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
CN107610712B (zh) 一种结合mmse和谱减法的语音增强方法
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
US8296135B2 (en) Noise cancellation system and method
CN109767782A (zh) 一种提高dnn模型泛化性能的语音增强方法
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
WO2017166800A1 (zh) 丢帧补偿处理方法和装置
JP4757775B2 (ja) 雑音抑圧装置
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
KR20080075362A (ko) 잡음 환경에서 음성 신호의 추정치를 구하는 방법
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
EP1635331A1 (en) Method for estimating a signal to noise ratio
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant