CN113838476A - 一种带噪语音的噪声估计方法和装置 - Google Patents
一种带噪语音的噪声估计方法和装置 Download PDFInfo
- Publication number
- CN113838476A CN113838476A CN202111118327.5A CN202111118327A CN113838476A CN 113838476 A CN113838476 A CN 113838476A CN 202111118327 A CN202111118327 A CN 202111118327A CN 113838476 A CN113838476 A CN 113838476A
- Authority
- CN
- China
- Prior art keywords
- noise
- probability
- audio data
- frame
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 claims abstract 3
- 229940083712 aldosterone antagonist Drugs 0.000 claims abstract 3
- 238000009499 grossing Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种带噪语音的噪声估计方法和装置,其中方法为:使用MCRA算法对音频数据中的噪声进行初步估计;利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;根据语音存在的后验概率并使用递归平均算法估计噪声;对噪声的波动进行控制,得到音频数据中最终估计的噪声。本发明对语音存在概率的计算更加准确,能覆盖从0到1的大部分概率,而不仅仅是一个近似二值化的概率,得到的噪声估计也更加准确,通过对噪声的变化幅度进行控制,可以有效降低噪声过估计的发生。
Description
技术领域
本发明属于噪声估计领域,具体涉及一种带噪语音的噪声估计方法和装置。
背景技术
语音在是人与人之间传递信息最常用的方式。随着技术的发展,语音也被应用在许多方面,例如声纹识别可以用于解锁电子设备,语音内容识别可以用于控制智能家居,辅助输入法的输入。
在实际生活环境中,环境噪声会对语音产生严重影响。嘈杂的噪声会降低语音的可懂度,长时间置身于噪声环境中会使人感到压力和听觉疲劳。对于设备而言,噪声会干扰语音信号的采集与识别,影响设备的性能。
因为噪声对语音的影响极大,所以对降噪算法的研究就非常有意义,而降噪首先就需要对噪声的强度进行估计,噪声估计得越及时和准确,降噪效果就会越好。
发明内容
本发明提供一种带噪语音的噪声估计方法和装置,对带噪语音中的噪声进行准确估计。为实现上述技术目的,本发明采用如下技术方案:
一种带噪语音的噪声估计方法,包括:
使用MCRA算法对音频数据中的噪声进行初步估计;
利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
根据语音存在的后验概率并使用递归平均算法估计噪声;
对噪声的波动进行控制,得到音频数据中最终估计的噪声。
进一步地,利用初步估计的噪声计算对数似然比特征的方法为:
(a1)将带噪语音表示为FFT频域的幅度Y(λ,k),初步估计得到的噪声为Dmcra(λ,k),λ代表帧数,k代表频点;
(a2)通过计算先验信噪比ξ(λ,k)和后验信噪比γ(λ,k)计算似然比Λ(λ,k),所述似然比表示一帧音频数据符合带噪语音信号分布的概率与符合噪声信号分布的概率的比值;
(a3)对(a2)计算得到的似然比取对数和进行前后帧平滑,得到平滑后的对数似然比LogLrt(λ,k);
(a4)对平滑后的对数似然比在所有频点上取平均,得到当前帧音频的对数似然比特征LrtFeature(λ),简记为LrtFeature。
进一步地,用于计算语音存在先验概率的能熵比特征,其计算方法为:
(b1)利用幅度谱计算当前帧的能量E(λ),再计算对数能量LE(λ):
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定常数;
(b3)求每个子带的子带谱及其概率,进而计算子带谱熵:
式中,Eb(λ,m)为第λ帧音频数据的第m个子带的子带谱,m=1,2,…,Nb;pb(λ,m)为子带谱Eb(λ,m)对应的概率,Hb(λ)为第λ帧音频数据的子带谱熵;
(b4)根据子带谱熵计算子带能熵比:
(b5)对子带能熵比进行前后帧平滑,得到子带能熵比特征EHFeature(λ),简记为EHFeature。
进一步地,所述利用对数似然比特征和能熵比特征计算语音存在的先验概率,具体计算方法为:
(c1)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
如果LrtFeature>threshLrt,则ProbEH=0.5*(tanh(k0*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k0*(LrtFeature-threshLrt))+1);
如果LrtFeature≤threshLrt,则ProbEH=0.5*(tanh(k1*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k1*(LrtFeature-threshLrt))+1);
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH的覆盖范围为[0,1];
(c2)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对前一帧音频数据中语音存在的先验概率进行平滑处理,得到当前帧音频数据中任意频点存在语音的先验概率P(H1);先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前帧音频数据中语音存在的先验概率,Pprev(H1)表示前一帧音频数据中语音存在的先验概率;ProbTavg为平滑系数,tmpProb为融合概率。
进一步地,对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合的方法为:
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(d4)如果H<EH_frames_factor*HNframes,则tmpProb=probLrt,tmpProb为融合概率,EH_frames_factor表示一个无量纲的尺度系数;否则tmpProb=0.5*(probLrt+probEH)。
进一步地,似然比阈值的预先确定方法为:
(e1)将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
(e2)如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
进一步地,所述采用贝叶斯算法计算语音存在的后验概率的方法为:
进一步地,所述根据语音存在的后验概率并使用递归平均算法估计噪声的方法为:
式中,D(λ,k)表示使用递归平均算法对第λ帧音频数据在频点k估计出的噪声,和分别表示音频数据在频点k存在语音和不存在语音,表示音频数据在频点k存在语音的后验概率,表示音频数据在频点k不存在语音的后验概率,代表第λ-1帧音频数据在频点k估计出的噪声,Y(λ,k)为第λ帧音频数据在频点k的幅度。
进一步地,所述对噪声的波动进行控制的方法为:
一种带噪语音的噪声估计装置,包括:噪声初步估计模块、语音存在概率估计模块、噪声二次估计模块和噪声波动控制模块;
所述噪声初步估计模块用于:使用MCRA算法对音频数据中的噪声进行初步估计;
所述语音存在概率估计模块用于:利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
所述噪声二次估计模块用于:根据语音存在的后验概率并使用递归平均算法估计噪声;
所述噪声波动控制模块用于:对噪声的波动进行控制,得到音频数据中最终估计的噪声。
有益效果
本发明利用对数似然比和子带能熵比来计算语音存在的先验概率,继而使用贝叶斯公式得到语音存在的后验概率,最后使用递归平均算法估计噪声。和最小值控制的递归平均[1](minima controlled recursive averaging,MCRA)算法相比,语音存在概率更加准确,能覆盖从0到1的大部分概率,而不仅仅是一个近似二值化的概率,得到的噪声估计也更加准确。通过对噪声的变化幅度进行控制,可以有效降低噪声过估计的发生。
附图说明
图1是本申请实施例所述方法的流程图;
图2是带噪语音的时域图;
图3是对数似然比及其阈值,其中实线表示对数似然比特征,虚线表示阈值;
图4是能熵比特征及其阈值,其中实线代表能熵比特征,虚线代表阈值;
图5是语音存在先验概率分布图;
图6是语音存在概率对比图;
图7是噪声估计对比图,其中实线表示实际噪声,点线表示MCRA算法估计的噪声,虚线表示本方案估计的噪声。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本发明提供一种带噪语音的噪声估计方法,参考图1所示,包括:使用MCRA算法对音频数据中的噪声进行初步估计,利用初步估计的噪声计算音频数据的似然比和对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率,根据语音存在的后验概率并使用递归平均算法估计噪声,最终对估计的噪声的波动进行控制,得到音频数据中最终估计的噪声。
(1)MCRA初步估计噪声前的预处理
在使用MCRA算法对音频数据中的噪声进行初步估计之前,定义带噪语音信号为音频信号,对音频信号进行预处理:对于一帧长度为L的带噪语音信号x(n),n=1,2,3,....L进行长度为N的快速傅里叶变换,然后求幅度谱,记为Y(λ,k),λ代表帧数,k代表频点,k=1,2,....N/2+1。然后使用现有的MCRA算法对音频信号中的噪声进行初步估计,得到噪声记为Dmcra(λ,k)。
(2)似然比和对数似然比特征
(2.1)计算先验信噪比ξ(λ,k),公式为:
(2.2)利用先验信噪比和后验信噪比计算似然比Λ(λ,k)
其中,后验信噪比的计算公式为:
(2.3)利用似然比计算对数似然比特征
首先,将似然比取对数,得到当前帧的对数似然比LogLrtTmp:
LogLrtTmp(λ,k)=ln(Λ(λ,k)) (4)
然后,对当前帧的对数似然比进行前后帧平滑,得到平滑后的对数似然比LogLrt:
LogLrt(λ,k)=(1-LrtTavg)*LogLrt(λ-1,k)+LrtTavg*LogLrtTmp(λ,k) (5)
其中,平滑系数LrtTavg可取0.3到0.5。
最后,对平滑后的对数似然比在所有频点上取平均,得到当前帧的对数似然比特征LrtFeature(λ),后文为了方便书写,又记为LrtFeature。
(3)子带能熵比特征
(3.1)计算短时对数能量。
首先利用幅度谱计算当前帧的能量E(λ),公式如下:
然后计算对数能量LE(λ),公式如下:
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定的值,取值为105到109,本方案取值为106。
(3.2)计算子带谱熵
求每个子带的子带谱,第m个子带的子带谱公式如下:
计算每个子带谱对应的概率:
子带谱熵的计算公式如下:
(3.3)计算子带能熵比EH(λ),公式如下:
对子带能熵比进行前后帧平滑就得到能熵比特征,公式如下:
EHFeature(λ)=(1-EHTavg)*EHFeature(λ-1)+EHTavg*EH(λ) (13)
其中,EHTavg为平滑系数,取值范围为0.3到0.5,典型值可以取0.3。后文为了方便,将能熵比特征简写为EHFeature。
(4)计算先验概率
(4.1)预先确定似然比阈值threshLrt
将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
(4.2)预先确定似然比阈值threshEH
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
上述P值代表了最常出现的能熵比,应该是噪声的能熵比,因此,将P乘以一个系数作为阈值,记为threshEH。系数可以控制在1.05-1.1中间,典型值可以取1.05。
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(4.3)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH能覆盖0和1之间的大部分值。k0可以设为4,k1设为12。
(4.4)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对语音存在的先验概率进行平滑处理,得到音频数据中任意频点存在语音的先验概率P(H1):
其中融合方法为:如果H<EH_frames_factor*HNframes,则不使用能熵比特征,只使用似然比一个特征,因此直接将基于似然比的概率作为融合概率tmpProb:
tmpProb=probLrt (15)
其中EH_frames_factor表示一个无量纲的尺度系数,取值范围为0.15到0.3,典型值可以取0.2。
否则,即H≥EH_frames_factor*HNframes,使用ProbLrt和ProbEH加权融合融合概率tmpProb:
tmpProb=0.5*(probLrt+probEH) (16)
然后对先验概率进行前后帧的平滑,最后将概率控制在0.01到1之间,先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前信号帧语音存在的先验概率,Pprev(H1)表示前一信号帧语音存在的先验概率;ProbTavg为平滑系数,取值范围为0.1-0.2,典型值可以取0.15。
(5)后验概率和噪声估计
在得到语音存在的先验概率后,就可以使用贝叶斯公式计算后验概率,然后使用递归平均算法估计噪声,过程如下所示:
使用假设检验来判断某个频点语音是否存在,假设如下:
令:
(6)噪声波动控制
使用基于概率的递归平均算法得到估计的噪声后,为了防止噪声波动太大或者过估计,需要控制当前帧噪声相对于上一帧噪声的增加和降低的幅度,具体方式为:
(6.1)先对噪声进行平滑,根据后验概率的不同,使用不同的公式进平滑:
其中factorNoise和factorSpeech为平滑系数;factorNoise取值为0.85到0.95,典型值为0.95。factorSpeech取值为0.9到0.999,典型值为0.99。
其中,其中α和β为幅度控制系数,α取值范围为0.7到0.95,β的取值范围为1.05到1.3。本方案取的α为0.85,β为1.15。
按照上述本发明对噪声的波动进行控制后,就能得到较为准确的噪声估计。利用估计的噪声,就可以使用各种语音增强方法对带噪语音进行降噪处理,如谱减法或者维纳滤波法。
实施例:
本实施例利用能熵比特征计算语音先验概率的具体实现过程如下所示:
(1)对于采样率为16k的带噪语音信号进行分帧,加窗。其中帧长为320个采样点,帧叠为50%,窗函数采用汉明窗。分帧加窗后得到的一帧数据记为x(n),n=1,2,....320。
(2)对x(n)进行长度为1024个点的快速傅里叶变换,然后求绝对值,得到幅度谱Y(λ,k),k=0,1,2,....512。
(3)基于幅度谱Y(λ,k)使用MCRA算法对噪声进行估计。
(4)使用公式(1)计算先验信噪比,其中初始语音幅度设为0。
(5)使用公式(2)和(3)计算似然比。
(6)使用公式(4),(5)和(6)计算对数似然比特征LrtFeature。
(7)使用公式(7)计算能量,然后使用公式(8)计算对数能量。
B1={Y(λ,1),Y(λ,2),....Y(λ,32)},
B2={Y(λ,33),Y(λ,34),....Y(λ,64)},
...
B16={Y(λ,481),Y(λ,482),....Y(λ,512)}
(9)使用公式(9)和公式(10)计算每个子带对应的频率,使用公式(11)计算子带谱熵比。
(10)使用公式(12)和(13)计算得到能熵比特征EHFeature。
(11)统计对数似然比特征直方图和能熵比特征直方图,500帧重置一次。
(12)达到500帧时,更新对数似然比阈值和能熵比阈值,重置特征直方图。
(13)判断能熵比特征是否可用。
(14)使用公式(14)计算两种特征对应的语音存在概率。
(15)如果能熵比特征不可用,使用公式(15)和(17)计算语音存在的先验概率;如果能熵比特征可用,使用公式(16)和(17)计算语音存在的先验概率。
(16)使用公式(18)和(19)计算中间变量r,使用公式(20)和(21)计算语音存在的后验概率。
(17)使用递归平均算法的噪声估计公式(22)估计噪声。
(18)使用公式(23)和(24)对噪声进行平滑和波动控制,得到最终的噪声。
为了验证本方案的有效性,首先将babble噪声和纯净语音进行融合,得到带噪语音。然后使用本方案对带噪语音进行噪声估计。最后,将本方案估计的噪声,MCRA算法估计的噪声以及实际噪声对比,并对结果进行分析与讨论。本方案噪声估计的关键结果展示如图2至7所示。
其中,图3图4是对数似然比特征和能熵比特征,其中的虚线代表了阈值。如果某一帧的特征在阈值之上,则便是基于该特征的语音存在概率大于0.5。值越大,语音存在概率也越大。将图3、4和图2进行比较,可以发现,在语音存在部分,特征基本都是大于阈值的。这说明了特征的有效性。对基于似然比特征的概率和能熵比的概率进行融合,得到图5的语音存在先验概率,从中能明显地区分语音帧和非语音帧。因此语音存在的概率计算是有效的。
在图6中,最上面一幅图是带噪语音的时域图,中间是本方案得到的在频点500HZ的语音存在后验概率,最下面是MCRA算法得到的500HZ的语音存在概率。首先可以看出,MCRA算法得到的语音存在概率基本都二值化,大部分是0和1。而本方案得到的语音存在概率还包含许多0和1之间的值,使用概率时会更加灵活。其次,通过与时域图比较可以发现,本方案得到的概率更加准确,如3.5s-4s和6.5s-7s中是不存在语音的,但MCRA算法得到的语音存在概率却是1,本方案得到概率是0;在4.2s-5s和7.2s-8s中语音是有停顿的,MCRA算法计算出的语音存在概率都是1,而本方案计算的语音存在概率在语音停顿处都非常低,且和时域图非常的吻合。因此相对于MCRA算法,本方案得到的语音存在概率更加的准确。
图7是500HZ处的实际噪声,MCRA估计噪声和本方案估计噪声的对比图。从整体上看,MCRA得到的噪声比较平滑,波动比较小,不能很好的反应babble噪声的变化,这也是概率二值化造成的结果。从局部上看,在3.5s-4s和6.5s-7s,本方案估计的噪声有一个明显的增加,和实际噪声的变化较为接近,而MCRA算法估计的噪声并没有变化。因此,相对于MCRA算法,本方案估计的噪声更加准确。
综上所述,本方案通过对数似然比特征和能熵比特征来计算语音存在概率,得到的概率更加准确,估计出来的噪声更能反应实际噪声的变化,更加及时和准确。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (10)
1.一种带噪语音的噪声估计方法,其特征在于,包括:
使用MCRA算法对音频数据中的噪声进行初步估计;
利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
根据语音存在的后验概率并使用递归平均算法估计噪声;
对噪声的波动进行控制,得到音频数据中最终估计的噪声。
2.根据权利要求1所述的方法,其特征在于,利用初步估计的噪声计算对数似然比特征的方法为:
(a1)将带噪语音表示为FFT频域的幅度Y(λ,k),初步估计得到的噪声为Dmcra(λ,k),λ代表帧数,k代表频点;
(a2)通过计算先验信噪比ξ(λ,k)和后验信噪比γ(λ,k)计算似然比Λ(λ,k),所述似然比表示一帧音频数据符合带噪语音信号分布的概率与符合噪声信号分布的概率的比值;
(a3)对(a2)计算得到的似然比取对数和进行前后帧平滑,得到平滑后的对数似然比LogLrt(λ,k);
(a4)对平滑后的对数似然比在所有频点上取平均,得到当前帧音频的对数似然比特征LrtFeature(λ),简记为LrtFeature。
3.根据权利要求1所述的方法,其特征在于,用于计算语音存在先验概率的能熵比特征,其计算方法为:
(b1)利用幅度谱计算当前帧的能量E(λ),再计算对数能量LE(λ):
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定常数;
(b3)求每个子带的子带谱及其概率,进而计算子带谱熵:
式中,Eb(λ,m)为第λ帧音频数据的第m个子带的子带谱,m=1,2,…,Nb;pb(λ,m)为子带谱Eb(λ,m)对应的概率,Hb(λ)为第λ帧音频数据的子带谱熵;
(b4)根据子带谱熵计算子带能熵比:
(b5)对子带能熵比进行前后帧平滑,得到子带能熵比特征EHFeature(λ),简记为EHFeature。
4.根据权利要求1所述的方法,其特征在于,所述利用对数似然比特征和能熵比特征计算语音存在的先验概率,具体计算方法为:
(c1)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
如果LrtFeature>threshLrt,则ProbEH=0.5*(tanh(k0*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k0*(LrtFeature-threshLrt))+1);
如果LrtFeature≤threshLrt,则ProbEH=0.5*(tanh(k1*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k1*(LrtFeature-threshLrt))+1);
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH的覆盖范围为[0,1];
(c2)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对前一帧音频数据中语音存在的先验概率进行平滑处理,得到当前帧音频数据中任意频点存在语音的先验概率P(H1);先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前帧音频数据语音存在的先验概率,Pprev(H1)表示前一帧音频数据中语音存在的先验概率;ProbTavg为平滑系数,tmpProb为融合概率。
5.根据权利要求4所述的方法,其特征在于,对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合的方法为:
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(d4)如果H<EH_frames_factor*HNframes,则tmpProb=probLrt,tmpProb为融合概率,EH_frames_factor表示一个无量纲的尺度系数;否则tmpProb=0.5*(probLrt+probEH)。
6.根据权利要求4所述的方法,其特征在于,似然比阈值的预先确定方法为:
(e1)将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
(e2)如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
10.一种带噪语音的噪声估计装置,其特征在于,包括:噪声初步估计模块、语音存在概率估计模块、噪声二次估计模块和噪声波动控制模块;
所述噪声初步估计模块用于:使用MCRA算法对音频数据中的噪声进行初步估计;
所述语音存在概率估计模块用于:利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
所述噪声二次估计模块用于:根据语音存在的后验概率并使用递归平均算法估计噪声;
所述噪声波动控制模块用于:对噪声的波动进行控制,得到音频数据中最终估计的噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118327.5A CN113838476B (zh) | 2021-09-24 | 2021-09-24 | 一种带噪语音的噪声估计方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118327.5A CN113838476B (zh) | 2021-09-24 | 2021-09-24 | 一种带噪语音的噪声估计方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838476A true CN113838476A (zh) | 2021-12-24 |
CN113838476B CN113838476B (zh) | 2023-12-01 |
Family
ID=78969499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111118327.5A Active CN113838476B (zh) | 2021-09-24 | 2021-09-24 | 一种带噪语音的噪声估计方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838476B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665717A (zh) * | 2023-08-02 | 2023-08-29 | 广东技术师范大学 | 一种跨子带谱熵加权似然比语音检测方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050038651A1 (en) * | 2003-02-17 | 2005-02-17 | Catena Networks, Inc. | Method and apparatus for detecting voice activity |
KR100901367B1 (ko) * | 2008-10-09 | 2009-06-05 | 인하대학교 산학협력단 | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN110164467A (zh) * | 2018-12-18 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
CN110675885A (zh) * | 2019-10-17 | 2020-01-10 | 浙江大华技术股份有限公司 | 混音方法、装置及存储介质 |
CN110838306A (zh) * | 2019-11-12 | 2020-02-25 | 广州视源电子科技股份有限公司 | 语音信号检测方法、计算机存储介质及相关设备 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
WO2021007841A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳市汇顶科技股份有限公司 | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 |
-
2021
- 2021-09-24 CN CN202111118327.5A patent/CN113838476B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050038651A1 (en) * | 2003-02-17 | 2005-02-17 | Catena Networks, Inc. | Method and apparatus for detecting voice activity |
KR100901367B1 (ko) * | 2008-10-09 | 2009-06-05 | 인하대학교 산학협력단 | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN110164467A (zh) * | 2018-12-18 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
WO2021007841A1 (zh) * | 2019-07-18 | 2021-01-21 | 深圳市汇顶科技股份有限公司 | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 |
CN110675885A (zh) * | 2019-10-17 | 2020-01-10 | 浙江大华技术股份有限公司 | 混音方法、装置及存储介质 |
CN110838306A (zh) * | 2019-11-12 | 2020-02-25 | 广州视源电子科技股份有限公司 | 语音信号检测方法、计算机存储介质及相关设备 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
Non-Patent Citations (4)
Title |
---|
KUM, JM; PARK, YS AND CHANG, JH: "SPEECH ENHANCEMENT BASED ON MINIMA CONTROLLED RECURSIVE AVERAGING INCORPORATING CONDITIONAL MAXIMUM A POSTERIORI CRITERION", 2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, vol. 1, pages 4417 - 4420, XP031460255 * |
YAO, RUI ET, AL.: "A priori SNR estimation and noise estimation for speech enhancement", 《EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING》, pages 1 - 15 * |
庞亮;刘双东;: "基于语音存在概率的噪声功率谱估计改进算法", 电声技术, no. 02, pages 39 - 43 * |
王文益, 伊雪: "基于改进语音存在概率的自适应噪声跟踪算法", 《信号处理》, vol. 36, no. 01, pages 32 - 41 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665717A (zh) * | 2023-08-02 | 2023-08-29 | 广东技术师范大学 | 一种跨子带谱熵加权似然比语音检测方法及系统 |
CN116665717B (zh) * | 2023-08-02 | 2023-09-29 | 广东技术师范大学 | 一种跨子带谱熵加权似然比语音检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113838476B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
CN109410977B (zh) | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
Karray et al. | Towards improving speech detection robustness for speech recognition in adverse conditions | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
EP1722357A2 (en) | Voice activity detection apparatus and method | |
US20020165713A1 (en) | Detection of sound activity | |
US20130022223A1 (en) | Automated method of classifying and suppressing noise in hearing devices | |
US20070129941A1 (en) | Preprocessing system and method for reducing FRR in speaking recognition | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
WO2010045450A1 (en) | Methods and apparatus for noise estimation in audio signals | |
WO2000017855A1 (en) | Noise suppression for low bitrate speech coder | |
CN110047519B (zh) | 一种语音端点检测方法、装置及设备 | |
WO2017136018A1 (en) | Babble noise suppression | |
CN103730124A (zh) | 一种基于似然比测试的噪声鲁棒性端点检测方法 | |
Park et al. | Noise Cancellation Based on Voice Activity Detection Using Spectral Variation for Speech Recognition in Smart Home Devices. | |
CN112951259A (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
CN105575406A (zh) | 一种基于似然比测试的噪声鲁棒性的检测方法 | |
CN113838476B (zh) | 一种带噪语音的噪声估计方法和装置 | |
Rosenkranz et al. | Integrating recursive minimum tracking and codebook-based noise estimation for improved reduction of non-stationary noise | |
CN110689905B (zh) | 一种用于视频会议系统的语音活动检测系统 | |
WO2017128910A1 (zh) | 一种语音出现概率的确定方法、装置及电子设备 | |
CN113921030B (zh) | 一种基于加权语音损失的语音增强神经网络训练方法及装置 | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
Bai et al. | Two-pass quantile based noise spectrum estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |