CN113611319A - 基于语音成分实现的风噪抑制方法、装置、设备及系统 - Google Patents
基于语音成分实现的风噪抑制方法、装置、设备及系统 Download PDFInfo
- Publication number
- CN113611319A CN113611319A CN202110371966.6A CN202110371966A CN113611319A CN 113611319 A CN113611319 A CN 113611319A CN 202110371966 A CN202110371966 A CN 202110371966A CN 113611319 A CN113611319 A CN 113611319A
- Authority
- CN
- China
- Prior art keywords
- noise
- sampling point
- point
- signal
- current sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000005070 sampling Methods 0.000 claims abstract description 126
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 238000009499 grossing Methods 0.000 claims description 42
- 230000009467 reduction Effects 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 11
- 230000009466 transformation Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于语音成分实现的风噪抑制方法、装置、音频设备及系统,其中,所述方法包括:对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号;依据基频f0判断当前采样点是否含有语音成分得到判断结果;当判断结果为当前采样点不含有语音成分时,通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;当判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;通过噪声估计谱对待降噪语音信号进行压制得到降噪后的语音信号。无需采用复杂的高级算法,提高了运算速率,实现了有效、快速地噪抑制风噪。
Description
技术领域
本发明涉及音频信号处理技术领域,具体涉及一种基于语音成分实现的风噪抑制方法、装置、音频设备及系统。
背景技术
当前,移动端用户数量在日益增长,如何保证这些移动设备在各种噪声环境中通话时都能够拥有较高的通话质量,将是提升音频产品竞争力的着重点。噪声大致可以分为稳态和非稳态两种。目前,大部分降噪算法中,都是针对类似白噪声这种平稳状态下的抑制,但是风噪属于强非稳态噪声,且风噪也不属于点声源(简单声源),无法通过波束成形等手段进行噪声的有效估计。可见,传统跟踪频谱最小值等噪声估计方式不能应对风噪的非稳态性;由于风噪的无源特性,利用多麦克风进行波束成形时无法准确的跟踪噪声源。
随着神经网络技术发展,有不少基于神经网络的风噪抑制算法被提出,但由于移动设备的种种局限性,神经网络高计算复杂度等因素也被考虑进能否进行实际应用中。基于传统降噪算法中,还没有一种能够兼顾平稳和非平稳噪声抑制的算法,如何兼顾两种噪声的抑制将是未来降噪的新方向。
传统风噪抑制算法中,一个分支是来自于稳态噪声抑制算法的改进,如通调整估计噪声时的更新率,使得估计出的噪声接近实时变换,但是这种方式一个明显的缺陷是,无法保证估计出的噪声不包括突变的语音语音成分,这就导致降噪后的结果会有很大的语音成分缺失,另一个分支是通过深度学习或者非负矩阵分解等类似方式,提前对噪声特征进行训练再运用,这种方式下,效果虽然好于上面的方式,但算法的复杂度和运算量也是难以满足大多便携设备实时低功耗的应用需求,不具有普遍适用性。
因此,在抑制风噪过程中,如何有效、快速地噪抑制风噪成为亟待解决的技术问题。
发明内容
基于上述现状,本发明的主要目的在于提供一种基于语音成分实现的风噪抑制方法、装置、音频设备及系统,以在抑制风噪过程中,以有效、快速地噪抑制风噪。
为实现上述目的,本发明采用的技术方案如下:
第一方面,本发明实施例公开了一种基于语音成分实现的风噪抑制方法,包括:
步骤S100,对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号,其中,原始语音信号含有部分风噪信号;步骤S200,基于待降噪语音信号得到待降噪语音信号的基频f0;步骤S300,依据基频f0判断当前采样点是否含有语音成分得到判断结果;步骤S400,当判断结果为当前采样点不含有语音成分时,顺次执行步骤S410和步骤S420:步骤S410,确定当前采样点对应的噪声加权系数为1;步骤S420,通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;步骤S500,当判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;步骤S600,通过噪声估计谱对待降噪语音信号进行压制得到降噪后的语音信号,其中,第一噪声集合与第二噪声集合构成噪声估计谱。
可选地,在步骤S300中,当基频f0=0时,确定基频f0对应的采样点未包含语音成分。
可选地,在步骤S300中,当基频f0≠0时,则进一步执行步骤S310;步骤S310,判断当前采样点是否处于峰值谐波点所在区间;如果当前采样点处于峰值谐波点所在区间,则确定判断结果为当前采样点含有语音成分,并执行步骤S500;如果当前采样点没有处于峰值谐波点所在区间,则确定判断结果为当前采样点不含有语音成分,并执行步骤S400。
可选地,在步骤S310中,采用如下方式确定峰值谐波点所在区间:确定待降噪语音信号中各次谐波所在点;将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点;将每个峰值谐波点的预设前后范围的频点确定为峰值谐波点所在区间。
可选地,在步骤S500中,对当前采样点前后预设点数的噪声分量进行线性插值得到当前采样点的噪声分量。
可选地,步骤S600包括:步骤S610,依据噪声估计谱和待降噪语音信号得到后验信噪比;步骤S620,对后验信噪比进行平滑处理,得到平滑的后验信噪比;步骤S630,根据平滑的后验信噪比计算噪声压制系数;步骤S640,通过噪声压制系数对待降噪语音信号进行压制得到降噪后的语音信号。
可选地,在步骤S620中,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
可选地,在当前帧不含有语音成分情况下的平滑系数大于当前帧含有语音成分情况下的平滑系数。
第二方面,本发明实施例公开了一种基于语音成分实现的风噪抑制装置,其特征在于,包括:
待降噪语音信号转换模块,用于对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号,其中,原始语音信号含有部分风噪信号;
基频得到模块,用于基于待降噪语音信号得到待降噪语音信号的基频f0;语音成分判断模块,用于依据基频f0判断当前采样点是否含有语音成分得到判断结果;第一噪声估计模块,包括:加权系数单元和加权单元,当判断结果为当前采样点不含有语音成分时:加权系数单元用于确定当前采样点对应的噪声加权系数为1;加权单元用于通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;第二噪声估计模块,用于当判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;压制降噪模块,用于通过噪声估计谱对待降噪语音信号进行压制得到降噪后的语音信号,其中,第一噪声集合与第二噪声集合构成噪声估计谱。
可选地,在语音成分判断模块中,当基频f0=0时,确定基频f0对应的采样点未包含语音成分。
可选地,在语音成分判断模块中,当基频f0≠0时,则进一步判断当前采样点是否处于峰值谐波点所在区间;如果当前采样点处于峰值谐波点所在区间,则确定判断结果为当前采样点含有语音成分,并运行第二噪声估计模块;如果当前采样点没有处于峰值谐波点所在区间,则确定判断结果为当前采样点不含有语音成分,并运行第一噪声估计模块。
可选地,语音成分判断模块包括:谐波所在点确定单元,用于确定待降噪语音信号中各次谐波所在点;峰值谐波点确定单元,用于将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点;峰值谐波点所在区间确定单元,用于将每个峰值谐波点的预设前后范围的频点确定为峰值谐波点所在区间。
可选地,在第二噪声估计模块中,对当前采样点前后预设点数的噪声分量进行线性插值得到当前采样点的噪声分量。
可选地,压制降噪模块包括:信噪比计算单元,用于依据噪声估计谱和待降噪语音信号得到后验信噪比;平滑单元,用于对后验信噪比进行平滑处理,得到平滑的后验信噪比;压制系数计算单元,用于根据平滑的后验信噪比计算噪声压制系数;压制降噪单元,用于通过噪声压制系数对待降噪语音信号进行压制得到降噪后的语音信号。
可选地,在平滑单元中,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
可选地,在当前帧不含有语音成分情况下的平滑系数大于当前帧含有语音成分情况下的平滑系数。
第三方面,本发明实施例公开了一种音频设备,包括:
处理器,用于实现上述第一方面公开的方法。
第四方面,本发明实施例公开了一种音频信号处理系统,包括:第一设备和第二设备;
第一设备用于采集音频数据得到原始音频信号,并发送给第二设备;
第二设备用于实现上述第一方面公开的方法。
第五方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,存储介质中存储的计算机程序用于被执行实现上述第一方面公开的方法。
第六方面,本发明实施例公开了一种音频设备的芯片,其上具有集成电路,集成电路被设计成用于实现上述第一方面公开的方法。
【有益效果】
依据本发明实施例公开的一种基于语音成分实现的风噪抑制方法、装置及音频设备,在对采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号后,基于待降噪语音信号得到待降噪语音信号的基频;当当前采样点不含有语音成分时,确定当前采样点对应的噪声加权系数为1;当当前采样点含有语音成分时,依据当前采样点附近的噪声分量相关性确定当前采样点的噪声分量,从而构成噪声估计谱,实现对待降噪语音信号进行压制得到降噪后的语音信号。在此过程中,无需直接寻找非稳态的风噪,只需寻找语音成分即可确定噪声估计谱,而语音信号具有长时相关性等特点,因此,相对于寻找非稳态的风噪,寻找语音成分的准确度更高;通过判断当前采样点是否含有语音成分,巧妙地得到了噪声估计谱,并且利用的是简单的线性相关性、加权方式得到噪声估计谱,可见,运算量小,无需采用复杂的高级算法,提高了运算速率。由此可见,本发明实施例的方案实现了有效、快速地噪抑制风噪。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
以下将参照附图对根据本发明实施例进行描述。图中:
图1为本实施例公开的一种基于语音成分实现的风噪抑制方法流程;
图2为本实施例公开的一种通过噪声估计谱对待降噪语音信号进行压制的方法流程图;
图3为本实施例公开的一种基于语音成分实现的风噪抑制装置结构示意图。
具体实施方式
为了在抑制风噪过程中,有效、快速地噪抑制风噪,本实施例公开了一种基于语音成分实现的风噪抑制方法,请参考图1,为本实施例公开的一种基于语音成分实现的风噪抑制方法流程,该基于语音成分实现的风噪抑制方法包括:
步骤S100,对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号。本实施例中,拾音单元可以是音频设备自带的,也可以是外接的。作为示例,可以通过例如耳机或手机等的MIC来采集原始语音信号X0(n),一般而言,原始语音信号X0(n)含有部分风噪信号。具体地,风噪信号可以是独立的信号帧,也就是,拾音单元采集到的信号为单纯的风噪信号;风噪信号也可以与语音信号一起存在于信号帧中,也就是,拾音单元采集到的信号同时具有语音信号和风噪信号;当然,对于一些信号帧,也可能是单纯的语音信号。在具体实施过程中,可以将原始语音信号X0(n)划分成多个时域信号帧,针对每一帧原始语音信号X0(n)进行加窗处理,而后进行傅里叶变换得到待降噪语音信号X(λ,μ),本实施例中,待降噪语音信号X(λ,μ)为频域信号,具体地,X(λ,μ)=FFT(xα(n),Nf),其中,λ表示帧数,μ表示每帧相应的频点数,Nf表示做FFT点数。
步骤S200,基于待降噪语音信号得到待降噪语音信号的基频f0。在具体实施过程中,可以利用现有基频计算的算法获得基频信息(基频值)f0,例如自相关函数法计算基频、基于小波变换的基频提取算法等。
步骤S300,依据基频f0判断当前采样点是否含有语音成分得到判断结果。本实施例中,当基频f0=0时,则基频f0对应的信号帧表示为纯风噪;也就是,当基频f0=0时,确定基频f0对应于待降噪语音信号X(λ,μ)的采样点未包含语音成分。当基频f0≠0时,则表示基频f0对应于待降噪语音信号X(λ,μ)的采样点可能含语音成分。本实施例中,当判断结果为当前采样点不含有语音成分时,则执行步骤S400,当判断结果为当前采样点含有语音成分时,则执行步骤S500。
步骤S400包括顺次执行步骤S410和步骤S420,具体地:
步骤S410,确定当前采样点对应的噪声加权系数Gp(λ,μ)为1。
步骤S420,通过各采样点的噪声加权系数Gp(λ,μ)分别对各自对应的待降噪语音信号X(λ,μ)进行加权得到第一噪声集合。具体地,对于不含有语音成分的采样点,利用该采样点对应的噪声加权系数Gp(λ,μ)对该采样点信号X(λ,μ)进行加权即可得到该采样点的噪声估计,即,每个采样点的噪声估计为在完成每个不含有语音成分的采样点的加权运算后,即可得到第一噪声集合。
本实施例中,由于判断结果为当前采样点不含有语音成分,因此,噪声加权系数Gp(λ,μ)为1,使得对应采样点的噪声估计即为该采样点原始的待降噪语音信号,也就是,可以对该不含有语音成分的采样点进行直接压制,从而提高了压制降噪效率。
步骤S500,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合。在具体实施过程中,线性相关性可以是例如线性插值,也可以是其它的简单线线关系。优选地,选择预设点数进行线性插值具体地,对当前采样点前后预设点数的噪声分量进行线性插值得到当前采样点的噪声分量。以当前采样点相邻的前后各一个频点来实现插值为例,当前采样点N的噪声估计为线性插值其值为和的线性插值。
本实施例中,当前采样点内噪声分量为0的概率较小,也就是,噪声分量为0不符合实际应用。因此,通过线性插值来确定采样点的噪声估计可以有效地通过采样点附近的噪声估计来估计采样点的噪声,从而在噪声抑制的时候,能够有效地抑制采样点的噪声。也就是,自适应可调基频频率动态阈值,结合语音信号的基频值进行插值处理,可以获取完整的噪声谱,从而大大提高风噪估计的准确度和实时性。
其中,μ∈M表示当前采样点含有语音成分。
本实施例中,通过线性插值来确定峰值谐波点的噪声估计可以有效地通过含有语音成分采样点附近的噪声估计来估计峰值谐波点的噪声,从而在噪声抑制的时候,能够有效地抑制语音成分采样点的噪声。也就是,自适应可调基频频率动态阈值,结合语音信号的基频值进行插值处理,可以获取完整的噪声谱,从而大大提高风噪估计的准确度和实时性。
步骤S600,通过噪声估计谱对待降噪语音信号X(λ,μ)进行压制得到降噪后的语音信号。本实施例中,第一噪声集合与第二噪声集合构成噪声估计谱。在得到噪声谱后,依据噪声谱得到噪声压制系数Gp(λ,μ),通过该噪声压制系数Gp(λ,μ)即可对待降噪语音信号X(λ,μ)进行压制降噪,从而,得到干净语音谱。
为了进一步准确地确定当前采样点是否包含语音成分,提高检测精度,在可选的实施例中,在步骤S300中,当基频f0≠0时,则进一步执行步骤S310;
步骤S310,判断当前采样点是否处于峰值谐波点所在区间;如果当前采样点处于峰值谐波点所在区间,则确定判断结果为当前采样点含有语音成分,并执行步骤S500;如果当前采样点没有处于峰值谐波点所在区间,则确定判断结果为当前采样点不含有语音成分,并执行步骤S400。
具体地,在步骤S310中,可以采用如下方式确定峰值谐波点所在区间:
1.确定待降噪语音信号X(λ,μ)中各次谐波所在点。
在具体实施过程中,可以通过基频点来计算各次谐波所在点,具体地,由FFT点数Nf,以及数据采样率fs可以得到频域数据的频率分辨率Δf=fs/Nf;再结合基频频率f0,可以得到基频点数位置fN0=round(f0/Δf),其中,round()表示四舍五入取整操作;而后,利用公式fk0=k·fN0求取k谐波所在点,其中,fk0为k谐波所在点。
2.将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点。
为了避免f0估计偏差,导致后面界定k谐波时的估计偏差累计效应,此处算出k·fN0后,根据语音谐波和风噪谱特性,加入一个k次谐波的纠正,即根据基频算出的各次谐波所在点k·fN0后,在该点附近左右各m点(m可以根据实际情况进行动态调整)范围内寻找峰值点作为最终该k次谐波所在最终点,具体地,采用如下公式寻找峰值点:
fk0=max(k·fN0-m,...k·fN0,...k·fN0+m)
也就是,在基频频率f0左右各m点中,k·fN0最大的值为峰值点。
本实施例中,在基频频率f0附近寻找峰值点作为k次谐波所在点,可以避免f0估计偏差,导致后面界定k谐波时的估计偏差累计效应。
3.将每个峰值谐波点的预设前后范围的频点确定为峰值谐波点所在区间。
为了增加计算语音谐波成分界定时的范围,减少将含有语音成分的信号误判为噪声信号的概率。本实施例中,在求得fk0后,将fk0预设前后范围的频点确定为峰值谐波点所在区间,具体地,峰值谐波点所在区间为fk0-μΔ~fk0+μΔ,其中,μΔ为频点位置余量。在具体实施例中,μΔ范围动态可调整,一般设置为1,频率分辨率越大,μΔ越小。由此,可以构建各次谐波集合M,具体如下:
M={[fk0-μΔ,...,fk0,...fk0+μΔ],k=0,1,2...N}
其中,各次谐波集合M表示了上文含有语音成分的信号集合。
因此,公式(1)可以优选变换为如下公式(2):
本实施例中,通过线性插值来确定峰值谐波点的噪声估计可以有效地通过峰值谐波点附近的噪声估计来估计峰值谐波点的噪声,从而在噪声抑制的时候,能够有效地抑制峰值谐波点的噪声。也就是,自适应可调基频频率动态阈值,结合语音信号的基频值进行插值处理,可以获取完整的噪声谱,从而大大提高风噪估计的准确度和实时性。
为了避免听觉突兀,改善用户体验,在可选的实施例中,请参考图2,为本实施例公开的一种通过噪声估计谱对待降噪语音信号进行压制的方法流程图,具体地,步骤S600包括:
步骤S620,对后验信噪比进行平滑处理,得到平滑的后验信噪比。在具体实施过程中,可以依据当前帧附近的信噪比和/或压制系数来对当前帧的后验信噪比进行平滑处理,从而,使得帧与帧之间的信号过渡平滑,由此,避免了用户的听觉突兀,改善了用户体验。
在具体实施过程中,可以结合前一帧信号下的后验信噪比SNRpost0(λ-1,μ),通过平滑系数σ以及当前帧是否含有语音成分得到平滑后的后验信噪比SNRpost0(λ,μ)。具体而言,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
本实施例中,平滑系数σ为经验值,亦可动态进行调整,增加噪声获得时的跟踪速度,平滑系数越大,跟踪速度越快,但听觉会更突兀。
在可选的实施例中,基于上述经验发现,在当前帧不含有语音成分情况下的平滑系数σ大于当前帧含有语音成分情况下的平滑系数σ。也就是,在当前帧λ下计算出的f0为0时,平滑系数σ取0.9,从而增大跟踪速度;否则,平滑系数σ取0.5,从而减小听觉的突兀。也就是,本实施例中,通过平滑系数σ的调整,来实现了增大跟踪速度和改善听觉的兼顾。
步骤S630,根据平滑的后验信噪比计算噪声压制系数。在计算出的后验信噪比SNRpost0(λ,μ)后,可以计算出当前帧λ的压制系数为:
其中θ表示压制等级控制系数,可依据需要进行配置。
本实施例还公开了一种基于语音成分实现的风噪抑制装置,请参考图3,为本实施例公开的一种基于语音成分实现的风噪抑制装置结构示意图,该风噪抑制装置包括:待降噪语音信号转换模块100、基频得到模块200、语音成分判断模块300、第一噪声估计模块400、第二噪声估计模块500和压制降噪模块600,其中:
待降噪语音信号转换模块100用于对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号,其中,原始语音信号含有部分风噪信号;基频得到模块200用于基于待降噪语音信号得到待降噪语音信号的基频f0;语音成分判断模块300用于依据基频f0判断当前采样点是否含有语音成分得到判断结果;第一噪声估计模块400包括:加权系数单元410和加权单元420,当判断结果为当前采样点不含有语音成分时:加权系数单元410用于确定当前采样点对应的噪声加权系数为1;加权单元420用于通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;第二噪声估计模块500用于当判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;压制降噪模块600,用于通过噪声估计谱对待降噪语音信号进行压制得到降噪后的语音信号,其中,第一噪声集合与第二噪声集合构成噪声估计谱。
在可选的实施例中,在语音成分判断模块300中,当基频f0=0时,确定基频f0对应的采样点未包含语音成分。
在可选的实施例中,在语音成分判断模块300中,当基频f0≠0时,则进一步判断当前采样点是否处于峰值谐波点所在区间;如果当前采样点处于峰值谐波点所在区间,则确定判断结果为当前采样点含有语音成分,并运行第二噪声估计模块500;如果当前采样点没有处于峰值谐波点所在区间,则确定判断结果为当前采样点不含有语音成分,并运行第一噪声估计模块400。
在可选的实施例中,语音成分判断模块300包括:谐波所在点确定单元,用于确定待降噪语音信号中各次谐波所在点;峰值谐波点确定单元,用于将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点;峰值谐波点所在区间确定单元,用于将每个峰值谐波点的预设前后范围的频点确定为峰值谐波点所在区间。
在可选的实施例中,在第二噪声估计模块500中,对当前采样点前后预设点数的噪声分量进行线性插值得到当前采样点的噪声分量。
在可选的实施例中,压制降噪模块600包括:信噪比计算单元,用于依据噪声估计谱和待降噪语音信号得到后验信噪比;平滑单元,用于对后验信噪比进行平滑处理,得到平滑的后验信噪比;压制系数计算单元,用于根据平滑的后验信噪比计算噪声压制系数;压制降噪单元,用于通过噪声压制系数对待降噪语音信号进行压制得到降噪后的语音信号。
在可选的实施例中,在平滑单元中,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
在可选的实施例中,在当前帧不含有语音成分情况下的平滑系数大于当前帧含有语音成分情况下的平滑系数。
本实施例还公开了一种音频设备,音频设备可以是耳机、音箱、功放,也可以是移动终端等具有音频数据采集功能的电子设备,音频设备包括:处理器,用于实现上述实施例公开的方法。
本实施例还公开了一种音频信号处理系统,包括:第一设备和第二设备;第一设备用于采集音频数据得到原始音频信号,并发送给第二设备;第二设备用于实现上述实施例公开的方法。例如,所述第一设备为耳机,所述第二设备为移动终端;再如,所述第一设备为麦克风,所述第二设备为功放。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,存储介质中存储的计算机程序用于被执行实现上述实施例公开的方法。
本实施例还公开了一种音频设备的芯片,其上具有集成电路,其特征在于,集成电路被设计成用于实现上述实施例公开的方法。
依据本发明实施例公开的一种基于语音成分实现的风噪抑制方法、装置及音频设备,在对采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号后,基于待降噪语音信号得到待降噪语音信号的基频;当当前采样点不含有语音成分时,确定当前采样点对应的噪声加权系数为1;当当前采样点含有语音成分时,依据当前采样点附近的噪声分量相关性确定当前采样点的噪声分量,从而构成噪声估计谱,实现对待降噪语音信号进行压制得到降噪后的语音信号。在此过程中,无需直接寻找非稳态的风噪,只需寻找语音成分即可确定噪声估计谱,而语音信号具有长时相关性等特点,因此,相对于寻找非稳态的风噪,寻找语音成分的准确度更高;通过判断当前采样点是否含有语音成分,巧妙地得到了噪声估计谱,并且利用的是简单的线性相关性、加权方式得到噪声估计谱,可见,运算量小,无需采用复杂的高级算法,提高了运算速率。由此可见,本发明实施例的方案实现了有效、快速地噪抑制风噪。
需要说明的是,本发明中采用步骤编号(字母或数字编号)来指代某些具体的方法步骤,仅仅是出于描述方便和简洁的目的,而绝不是用字母或数字来限制这些方法步骤的顺序。本领域的技术人员能够明了,相关方法步骤的顺序,应由技术本身决定,不应因步骤编号的存在而被不适当地限制。
本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。
Claims (20)
1.一种基于语音成分实现的风噪抑制方法,其特征在于,包括:
步骤S100,对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号,其中,所述原始语音信号含有部分风噪信号;
步骤S200,基于所述待降噪语音信号得到所述待降噪语音信号的基频f0;
步骤S300,依据所述基频f0判断当前采样点是否含有语音成分得到判断结果;
步骤S400,当所述判断结果为当前采样点不含有语音成分时,顺次执行步骤S410和步骤S420:
步骤S410,确定当前采样点对应的噪声加权系数为1;
步骤S420,通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;
步骤S500,当所述判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;
步骤S600,通过噪声估计谱对所述待降噪语音信号进行压制得到降噪后的语音信号,其中,所述第一噪声集合与所述第二噪声集合构成所述噪声估计谱。
2.如权利要求1所述的风噪抑制方法,其特征在于,在所述步骤S300中,当基频f0=0时,确定基频f0对应的采样点未包含语音成分。
3.如权利要求1所述的风噪抑制方法,其特征在于,在所述步骤S300中,当基频f0≠0时,则进一步执行步骤S310;
步骤S310,判断当前采样点是否处于峰值谐波点所在区间;
如果当前采样点处于所述峰值谐波点所在区间,则确定所述判断结果为当前采样点含有语音成分,并执行所述步骤S500;
如果当前采样点没有处于所述峰值谐波点所在区间,则确定所述判断结果为当前采样点不含有语音成分,并执行所述步骤S400。
4.如权利要求3所述的风噪抑制方法,其特征在于,在所述步骤S310中,采用如下方式确定所述峰值谐波点所在区间:
确定所述待降噪语音信号中各次谐波所在点;
将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点;
将每个所述峰值谐波点的预设前后范围的频点确定为所述峰值谐波点所在区间。
5.如权利要求1-4任意一项所述的风噪抑制方法,其特征在于,在所述步骤S500中,对所述当前采样点前后预设点数的噪声分量进行线性插值得到所述当前采样点的噪声分量。
6.如权利要求1-4任意一项所述的风噪抑制方法,其特征在于,所述步骤S600包括:
步骤S610,依据所述噪声估计谱和所述待降噪语音信号得到后验信噪比;
步骤S620,对所述后验信噪比进行平滑处理,得到平滑的后验信噪比;
步骤S630,根据所述平滑的后验信噪比计算噪声压制系数;
步骤S640,通过所述噪声压制系数对所述待降噪语音信号进行压制得到降噪后的语音信号。
7.如权利要求6所述的风噪抑制方法,其特征在于,在所述步骤S620中,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
8.如权利要求7所述的风噪抑制方法,其特征在于,在当前帧不含有语音成分情况下的平滑系数大于当前帧含有语音成分情况下的平滑系数。
9.一种基于语音成分实现的风噪抑制装置,其特征在于,包括:
待降噪语音信号转换模块(100),用于对拾音单元在时域上采集的原始语音信号进行傅里叶变换得到频域上的待降噪语音信号,其中,所述原始语音信号含有部分风噪信号;
基频得到模块(200),用于基于所述待降噪语音信号得到所述待降噪语音信号的基频f0;
语音成分判断模块(300),用于依据所述基频f0判断当前采样点是否含有语音成分得到判断结果;
第一噪声估计模块(400),包括:加权系数单元(410)和加权单元(420),当所述判断结果为当前采样点不含有语音成分时:
所述加权系数单元(410)用于确定当前采样点对应的噪声加权系数为1;
所述加权单元(420)用于通过各采样点的噪声加权系数分别对各自对应的待降噪语音信号进行加权得到第一噪声集合;
第二噪声估计模块(500),用于当所述判断结果为当前采样点含有语音成分时,依据当前采样点附近的噪声分量线性相关性确定当前采样点的噪声分量得到第二噪声集合;
压制降噪模块(600),用于通过噪声估计谱对所述待降噪语音信号进行压制得到降噪后的语音信号,其中,所述第一噪声集合与所述第二噪声集合构成所述噪声估计谱。
10.如权利要求9所述的风噪抑制装置,其特征在于,在所述语音成分判断模块(300)中,当基频f0=0时,确定基频f0对应的采样点未包含语音成分。
11.如权利要求9所述的风噪抑制装置,其特征在于,在所述语音成分判断模块(300)中,当基频f0≠0时,则进一步判断当前采样点是否处于峰值谐波点所在区间;
如果当前采样点处于所述峰值谐波点所在区间,则确定所述判断结果为当前采样点含有语音成分,并运行第二噪声估计模块(500);
如果当前采样点没有处于所述峰值谐波点所在区间,则确定所述判断结果为当前采样点不含有语音成分,并运行第一噪声估计模块(400)。
12.如权利要求11所述的风噪抑制装置,其特征在于,所述语音成分判断模块(300)包括:
谐波所在点确定单元,用于确定所述待降噪语音信号中各次谐波所在点;
峰值谐波点确定单元,用于将每个谐波所在点预设点数范围内的峰值点确定为峰值谐波点;
峰值谐波点所在区间确定单元,用于将每个所述峰值谐波点的预设前后范围的频点确定为所述峰值谐波点所在区间。
13.如权利要求9-12任意一项所述的风噪抑制装置,其特征在于,在第二噪声估计模块(500)中,对所述当前采样点前后预设点数的噪声分量进行线性插值得到所述当前采样点的噪声分量。
14.如权利要求9-13任意一项所述的风噪抑制装置,其特征在于,所述压制降噪模块(600)包括:
信噪比计算单元,用于依据所述噪声估计谱和所述待降噪语音信号得到后验信噪比;
平滑单元,用于对所述后验信噪比进行平滑处理,得到平滑的后验信噪比;
压制系数计算单元,用于根据所述平滑的后验信噪比计算噪声压制系数;
压制降噪单元,用于通过所述噪声压制系数对所述待降噪语音信号进行压制得到降噪后的语音信号。
15.如权利要求14所述的风噪抑制装置,其特征在于,在所述平滑单元中,采用如下公式进行平滑处理:
SNRpost0(λ,μ)=σ·SNRpost0(λ-1,μ)·G(λ-1,μ)+(1-σ)·SNRpost0(λ,μ)
其中,SNRpost0(λ,μ)为当前帧的平滑的后验信噪比,σ为平滑系数,SNRpost0(λ-1,μ)为当前帧之前一帧的后验信噪比,G(λ-1,μ)为当前帧之前一帧的噪声压制系数。
16.如权利要求15所述的风噪抑制装置,其特征在于,在当前帧不含有语音成分情况下的平滑系数大于当前帧含有语音成分情况下的平滑系数。
17.一种音频设备,其特征在于,包括:
处理器,用于实现如权利要求1-8任意一项所述的方法。
18.一种音频信号处理系统,其特征在于,包括:第一设备和第二设备;
所述第一设备用于采集音频数据得到原始音频信号,并发送给所述第二设备;
所述第二设备用于实现如权利要求1-8任意一项所述的方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,存储介质中存储的计算机程序用于被执行实现如权利要求1-8任意一项所述的方法。
20.一种音频设备的芯片,其上具有集成电路,其特征在于,所述集成电路被设计成用于实现如权利要求1-8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110371966.6A CN113611319B (zh) | 2021-04-07 | 2021-04-07 | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110371966.6A CN113611319B (zh) | 2021-04-07 | 2021-04-07 | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611319A true CN113611319A (zh) | 2021-11-05 |
CN113611319B CN113611319B (zh) | 2023-09-12 |
Family
ID=78303305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110371966.6A Active CN113611319B (zh) | 2021-04-07 | 2021-04-07 | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611319B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114838809A (zh) * | 2022-03-22 | 2022-08-02 | 珠海市运泰利自动化设备有限公司 | 一种自适应提高频率测量精度的音频信号测量方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091050A1 (en) * | 2003-10-23 | 2005-04-28 | Surendran Arungunram C. | Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR) |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
CN103646648A (zh) * | 2013-11-19 | 2014-03-19 | 清华大学 | 一种噪声功率估计方法 |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
CN108428456A (zh) * | 2018-03-29 | 2018-08-21 | 浙江凯池电子科技有限公司 | 语音降噪算法 |
US20180308503A1 (en) * | 2017-04-19 | 2018-10-25 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN110797041A (zh) * | 2019-10-21 | 2020-02-14 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-04-07 CN CN202110371966.6A patent/CN113611319B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091050A1 (en) * | 2003-10-23 | 2005-04-28 | Surendran Arungunram C. | Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR) |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
CN103456310A (zh) * | 2013-08-28 | 2013-12-18 | 大连理工大学 | 一种基于谱估计的瞬态噪声抑制方法 |
CN103646648A (zh) * | 2013-11-19 | 2014-03-19 | 清华大学 | 一种噪声功率估计方法 |
US20180308503A1 (en) * | 2017-04-19 | 2018-10-25 | Synaptics Incorporated | Real-time single-channel speech enhancement in noisy and time-varying environments |
CN108428456A (zh) * | 2018-03-29 | 2018-08-21 | 浙江凯池电子科技有限公司 | 语音降噪算法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN110797041A (zh) * | 2019-10-21 | 2020-02-14 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
CN110739005A (zh) * | 2019-10-28 | 2020-01-31 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
Non-Patent Citations (3)
Title |
---|
A.C. SURENDRAN: "Logistic discriminative speech detectors using posterior SNR", 《2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
李战明: "一种基于语音端点检测的维纳滤波语音增强算法", 《电子设计工程》 * |
赵彦平: "基于语音存在概率的噪声功率谱估计", 《吉林大学学报(工学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114838809A (zh) * | 2022-03-22 | 2022-08-02 | 珠海市运泰利自动化设备有限公司 | 一种自适应提高频率测量精度的音频信号测量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113611319B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
US9640194B1 (en) | Noise suppression for speech processing based on machine-learning mask estimation | |
CN111899752A (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN110085246A (zh) | 语音增强方法、装置、设备和存储介质 | |
CN113539285B (zh) | 音频信号降噪方法、电子装置和存储介质 | |
KR20190130533A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
JP2016048872A (ja) | 収音装置 | |
CN112602150A (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN103824563A (zh) | 一种基于模块复用的助听器去噪装置和方法 | |
US9875748B2 (en) | Audio signal noise attenuation | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN113611319B (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
CN116106826A (zh) | 声源定位方法、相关装置和介质 | |
CN113611320B (zh) | 风噪抑制方法、装置、音频设备及系统 | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 | |
CN112669877B (zh) | 噪声检测及压制方法、装置、终端设备和系统、芯片 | |
JP3761497B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |