CN113838476A - 一种带噪语音的噪声估计方法和装置 - Google Patents

一种带噪语音的噪声估计方法和装置 Download PDF

Info

Publication number
CN113838476A
CN113838476A CN202111118327.5A CN202111118327A CN113838476A CN 113838476 A CN113838476 A CN 113838476A CN 202111118327 A CN202111118327 A CN 202111118327A CN 113838476 A CN113838476 A CN 113838476A
Authority
CN
China
Prior art keywords
noise
probability
audio data
frame
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111118327.5A
Other languages
English (en)
Other versions
CN113838476B (zh
Inventor
孙志强
杨罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shibang Communication Co Ltd
Original Assignee
Shibang Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shibang Communication Co Ltd filed Critical Shibang Communication Co Ltd
Priority to CN202111118327.5A priority Critical patent/CN113838476B/zh
Publication of CN113838476A publication Critical patent/CN113838476A/zh
Application granted granted Critical
Publication of CN113838476B publication Critical patent/CN113838476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种带噪语音的噪声估计方法和装置,其中方法为:使用MCRA算法对音频数据中的噪声进行初步估计;利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;根据语音存在的后验概率并使用递归平均算法估计噪声;对噪声的波动进行控制,得到音频数据中最终估计的噪声。本发明对语音存在概率的计算更加准确,能覆盖从0到1的大部分概率,而不仅仅是一个近似二值化的概率,得到的噪声估计也更加准确,通过对噪声的变化幅度进行控制,可以有效降低噪声过估计的发生。

Description

一种带噪语音的噪声估计方法和装置
技术领域
本发明属于噪声估计领域,具体涉及一种带噪语音的噪声估计方法和装置。
背景技术
语音在是人与人之间传递信息最常用的方式。随着技术的发展,语音也被应用在许多方面,例如声纹识别可以用于解锁电子设备,语音内容识别可以用于控制智能家居,辅助输入法的输入。
在实际生活环境中,环境噪声会对语音产生严重影响。嘈杂的噪声会降低语音的可懂度,长时间置身于噪声环境中会使人感到压力和听觉疲劳。对于设备而言,噪声会干扰语音信号的采集与识别,影响设备的性能。
因为噪声对语音的影响极大,所以对降噪算法的研究就非常有意义,而降噪首先就需要对噪声的强度进行估计,噪声估计得越及时和准确,降噪效果就会越好。
发明内容
本发明提供一种带噪语音的噪声估计方法和装置,对带噪语音中的噪声进行准确估计。为实现上述技术目的,本发明采用如下技术方案:
一种带噪语音的噪声估计方法,包括:
使用MCRA算法对音频数据中的噪声进行初步估计;
利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
根据语音存在的后验概率并使用递归平均算法估计噪声;
对噪声的波动进行控制,得到音频数据中最终估计的噪声。
进一步地,利用初步估计的噪声计算对数似然比特征的方法为:
(a1)将带噪语音表示为FFT频域的幅度Y(λ,k),初步估计得到的噪声为Dmcra(λ,k),λ代表帧数,k代表频点;
(a2)通过计算先验信噪比ξ(λ,k)和后验信噪比γ(λ,k)计算似然比Λ(λ,k),所述似然比表示一帧音频数据符合带噪语音信号分布的概率与符合噪声信号分布的概率的比值;
(a3)对(a2)计算得到的似然比取对数和进行前后帧平滑,得到平滑后的对数似然比LogLrt(λ,k);
(a4)对平滑后的对数似然比在所有频点上取平均,得到当前帧音频的对数似然比特征LrtFeature(λ),简记为LrtFeature。
进一步地,用于计算语音存在先验概率的能熵比特征,其计算方法为:
(b1)利用幅度谱计算当前帧的能量E(λ),再计算对数能量LE(λ):
Figure BDA0003276094900000021
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定常数;
(b2)将每帧音频数据频带划分为Nb个子带,分别记为:
Figure BDA0003276094900000022
(b3)求每个子带的子带谱及其概率,进而计算子带谱熵:
Figure BDA0003276094900000023
Figure BDA0003276094900000024
Figure BDA0003276094900000025
式中,Eb(λ,m)为第λ帧音频数据的第m个子带的子带谱,m=1,2,…,Nb;pb(λ,m)为子带谱Eb(λ,m)对应的概率,Hb(λ)为第λ帧音频数据的子带谱熵;
(b4)根据子带谱熵计算子带能熵比:
Figure BDA0003276094900000026
(b5)对子带能熵比进行前后帧平滑,得到子带能熵比特征EHFeature(λ),简记为EHFeature。
进一步地,所述利用对数似然比特征和能熵比特征计算语音存在的先验概率,具体计算方法为:
(c1)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
如果LrtFeature>threshLrt,则ProbEH=0.5*(tanh(k0*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k0*(LrtFeature-threshLrt))+1);
如果LrtFeature≤threshLrt,则ProbEH=0.5*(tanh(k1*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k1*(LrtFeature-threshLrt))+1);
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH的覆盖范围为[0,1];
(c2)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对前一帧音频数据中语音存在的先验概率进行平滑处理,得到当前帧音频数据中任意频点存在语音的先验概率P(H1);先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前帧音频数据中语音存在的先验概率,Pprev(H1)表示前一帧音频数据中语音存在的先验概率;ProbTavg为平滑系数,tmpProb为融合概率。
进一步地,对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合的方法为:
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(d4)如果H<EH_frames_factor*HNframes,则tmpProb=probLrt,tmpProb为融合概率,EH_frames_factor表示一个无量纲的尺度系数;否则tmpProb=0.5*(probLrt+probEH)。
进一步地,似然比阈值的预先确定方法为:
(e1)将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
(e2)如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
进一步地,所述采用贝叶斯算法计算语音存在的后验概率的方法为:
Figure BDA0003276094900000041
式中,
Figure BDA0003276094900000042
表示音频数据在频点k存在语音的后验概率,Λ(λ,k)为似然比,中间变量
Figure BDA0003276094900000043
Figure BDA0003276094900000044
Figure BDA0003276094900000045
分别表示音频数据在频点k存在语音和不存在语音,
Figure BDA0003276094900000046
Figure BDA0003276094900000047
分别表示音频数据在频点k存在语音的概率和不存在语音的概率,且
Figure BDA0003276094900000048
Figure BDA0003276094900000049
进一步地,所述根据语音存在的后验概率并使用递归平均算法估计噪声的方法为:
Figure BDA00032760949000000410
式中,D(λ,k)表示使用递归平均算法对第λ帧音频数据在频点k估计出的噪声,
Figure BDA00032760949000000411
Figure BDA00032760949000000412
分别表示音频数据在频点k存在语音和不存在语音,
Figure BDA00032760949000000413
表示音频数据在频点k存在语音的后验概率,
Figure BDA00032760949000000414
表示音频数据在频点k不存在语音的后验概率,
Figure BDA00032760949000000415
代表第λ-1帧音频数据在频点k估计出的噪声,Y(λ,k)为第λ帧音频数据在频点k的幅度。
进一步地,所述对噪声的波动进行控制的方法为:
(f1)根据语音存在的后验概率
Figure BDA00032760949000000416
对使用递归平均算法估计得到的噪声D(λ,k)进行平滑处理:
Figure BDA00032760949000000417
Figure BDA00032760949000000418
否则
Figure BDA00032760949000000419
其中factorNoise和factorSpeech为平滑系数;
(f2)然后对平滑后的噪声
Figure BDA0003276094900000051
进行幅度控制,得到最终估计的噪声
Figure BDA0003276094900000052
Figure BDA0003276094900000053
或者
Figure BDA0003276094900000054
Figure BDA0003276094900000055
否则
Figure BDA0003276094900000056
其中α和β为幅度控制系数。
一种带噪语音的噪声估计装置,包括:噪声初步估计模块、语音存在概率估计模块、噪声二次估计模块和噪声波动控制模块;
所述噪声初步估计模块用于:使用MCRA算法对音频数据中的噪声进行初步估计;
所述语音存在概率估计模块用于:利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
所述噪声二次估计模块用于:根据语音存在的后验概率并使用递归平均算法估计噪声;
所述噪声波动控制模块用于:对噪声的波动进行控制,得到音频数据中最终估计的噪声。
有益效果
本发明利用对数似然比和子带能熵比来计算语音存在的先验概率,继而使用贝叶斯公式得到语音存在的后验概率,最后使用递归平均算法估计噪声。和最小值控制的递归平均[1](minima controlled recursive averaging,MCRA)算法相比,语音存在概率更加准确,能覆盖从0到1的大部分概率,而不仅仅是一个近似二值化的概率,得到的噪声估计也更加准确。通过对噪声的变化幅度进行控制,可以有效降低噪声过估计的发生。
附图说明
图1是本申请实施例所述方法的流程图;
图2是带噪语音的时域图;
图3是对数似然比及其阈值,其中实线表示对数似然比特征,虚线表示阈值;
图4是能熵比特征及其阈值,其中实线代表能熵比特征,虚线代表阈值;
图5是语音存在先验概率分布图;
图6是语音存在概率对比图;
图7是噪声估计对比图,其中实线表示实际噪声,点线表示MCRA算法估计的噪声,虚线表示本方案估计的噪声。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本发明提供一种带噪语音的噪声估计方法,参考图1所示,包括:使用MCRA算法对音频数据中的噪声进行初步估计,利用初步估计的噪声计算音频数据的似然比和对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率,根据语音存在的后验概率并使用递归平均算法估计噪声,最终对估计的噪声的波动进行控制,得到音频数据中最终估计的噪声。
(1)MCRA初步估计噪声前的预处理
在使用MCRA算法对音频数据中的噪声进行初步估计之前,定义带噪语音信号为音频信号,对音频信号进行预处理:对于一帧长度为L的带噪语音信号x(n),n=1,2,3,....L进行长度为N的快速傅里叶变换,然后求幅度谱,记为Y(λ,k),λ代表帧数,k代表频点,k=1,2,....N/2+1。然后使用现有的MCRA算法对音频信号中的噪声进行初步估计,得到噪声记为Dmcra(λ,k)。
(2)似然比和对数似然比特征
(2.1)计算先验信噪比ξ(λ,k),公式为:
Figure BDA0003276094900000061
其中,α为固定的系数,
Figure BDA0003276094900000062
为第λ-1帧带噪语音估计出的语音幅度,
Figure BDA0003276094900000063
代表第λ-1帧带噪语音估计出的噪声,Y(λ,k)为第λ帧带噪语音的幅度;
(2.2)利用先验信噪比和后验信噪比计算似然比Λ(λ,k)
Figure BDA0003276094900000064
其中,后验信噪比的计算公式为:
Figure BDA0003276094900000065
(2.3)利用似然比计算对数似然比特征
首先,将似然比取对数,得到当前帧的对数似然比LogLrtTmp:
LogLrtTmp(λ,k)=ln(Λ(λ,k)) (4)
然后,对当前帧的对数似然比进行前后帧平滑,得到平滑后的对数似然比LogLrt:
LogLrt(λ,k)=(1-LrtTavg)*LogLrt(λ-1,k)+LrtTavg*LogLrtTmp(λ,k) (5)
其中,平滑系数LrtTavg可取0.3到0.5。
最后,对平滑后的对数似然比在所有频点上取平均,得到当前帧的对数似然比特征LrtFeature(λ),后文为了方便书写,又记为LrtFeature。
Figure BDA0003276094900000071
(3)子带能熵比特征
(3.1)计算短时对数能量。
首先利用幅度谱计算当前帧的能量E(λ),公式如下:
Figure BDA0003276094900000072
然后计算对数能量LE(λ),公式如下:
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定的值,取值为105到109,本方案取值为106
(3.2)计算子带谱熵
对频带进行均匀的子带划分,个数为Nb,各个子带分别记为:
Figure BDA0003276094900000073
求每个子带的子带谱,第m个子带的子带谱公式如下:
Figure BDA0003276094900000074
计算每个子带谱对应的概率:
Figure BDA0003276094900000075
子带谱熵的计算公式如下:
Figure BDA0003276094900000076
(3.3)计算子带能熵比EH(λ),公式如下:
Figure BDA0003276094900000081
对子带能熵比进行前后帧平滑就得到能熵比特征,公式如下:
EHFeature(λ)=(1-EHTavg)*EHFeature(λ-1)+EHTavg*EH(λ) (13)
其中,EHTavg为平滑系数,取值范围为0.3到0.5,典型值可以取0.3。后文为了方便,将能熵比特征简写为EHFeature。
(4)计算先验概率
(4.1)预先确定似然比阈值threshLrt
将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
(4.2)预先确定似然比阈值threshEH
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
上述P值代表了最常出现的能熵比,应该是噪声的能熵比,因此,将P乘以一个系数作为阈值,记为threshEH。系数可以控制在1.05-1.1中间,典型值可以取1.05。
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(4.3)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
Figure BDA0003276094900000091
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH能覆盖0和1之间的大部分值。k0可以设为4,k1设为12。
(4.4)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对语音存在的先验概率进行平滑处理,得到音频数据中任意频点存在语音的先验概率P(H1):
其中融合方法为:如果H<EH_frames_factor*HNframes,则不使用能熵比特征,只使用似然比一个特征,因此直接将基于似然比的概率作为融合概率tmpProb:
tmpProb=probLrt (15)
其中EH_frames_factor表示一个无量纲的尺度系数,取值范围为0.15到0.3,典型值可以取0.2。
否则,即H≥EH_frames_factor*HNframes,使用ProbLrt和ProbEH加权融合融合概率tmpProb:
tmpProb=0.5*(probLrt+probEH) (16)
然后对先验概率进行前后帧的平滑,最后将概率控制在0.01到1之间,先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前信号帧语音存在的先验概率,Pprev(H1)表示前一信号帧语音存在的先验概率;ProbTavg为平滑系数,取值范围为0.1-0.2,典型值可以取0.15。
(5)后验概率和噪声估计
在得到语音存在的先验概率后,就可以使用贝叶斯公式计算后验概率,然后使用递归平均算法估计噪声,过程如下所示:
使用假设检验来判断某个频点语音是否存在,假设如下:
Figure BDA0003276094900000101
频点k语音不存在;
Figure BDA0003276094900000102
频点k语音存在。
(5.1)每一帧,每个频点的语音存在和不存在的先验概率,分别记为:
Figure BDA0003276094900000103
Figure BDA0003276094900000104
在计算过程中,同一帧内所有频点的语音存在先验概率都是一样的。即
Figure BDA0003276094900000105
令:
Figure BDA0003276094900000106
(5.2)通过如下公式计算似然比Λ(λ,k),和语音存在的后验概率
Figure BDA0003276094900000107
其中λ表示帧数,k表示频点。ξ(λ,k)为先验信噪比,γ(λ,k)为后验信噪比
Figure BDA0003276094900000108
Figure BDA0003276094900000109
(5.3)通过全概率公式估算噪声D(λ,k)。其中
Figure BDA00032760949000001010
表示上一帧的噪声幅度,Y(λ,k)表示当前帧的带噪语音幅度。
Figure BDA00032760949000001011
(6)噪声波动控制
使用基于概率的递归平均算法得到估计的噪声后,为了防止噪声波动太大或者过估计,需要控制当前帧噪声相对于上一帧噪声的增加和降低的幅度,具体方式为:
(6.1)先对噪声进行平滑,根据后验概率的不同,使用不同的公式进平滑:
Figure BDA00032760949000001012
其中factorNoise和factorSpeech为平滑系数;factorNoise取值为0.85到0.95,典型值为0.95。factorSpeech取值为0.9到0.999,典型值为0.99。
(6.2)然后对平滑后的噪声
Figure BDA0003276094900000111
进行幅度控制,得到最终估计的噪声
Figure BDA0003276094900000112
Figure BDA0003276094900000113
其中,其中α和β为幅度控制系数,α取值范围为0.7到0.95,β的取值范围为1.05到1.3。本方案取的α为0.85,β为1.15。
按照上述本发明对噪声的波动进行控制后,就能得到较为准确的噪声估计。利用估计的噪声,就可以使用各种语音增强方法对带噪语音进行降噪处理,如谱减法或者维纳滤波法。
实施例:
本实施例利用能熵比特征计算语音先验概率的具体实现过程如下所示:
(1)对于采样率为16k的带噪语音信号进行分帧,加窗。其中帧长为320个采样点,帧叠为50%,窗函数采用汉明窗。分帧加窗后得到的一帧数据记为x(n),n=1,2,....320。
(2)对x(n)进行长度为1024个点的快速傅里叶变换,然后求绝对值,得到幅度谱Y(λ,k),k=0,1,2,....512。
(3)基于幅度谱Y(λ,k)使用MCRA算法对噪声进行估计。
(4)使用公式(1)计算先验信噪比,其中初始语音幅度设为0。
(5)使用公式(2)和(3)计算似然比。
(6)使用公式(4),(5)和(6)计算对数似然比特征LrtFeature。
(7)使用公式(7)计算能量,然后使用公式(8)计算对数能量。
(8)将幅度谱Y(λ,k)去掉直流频点,按频点均匀分成16个子带,记为
Figure BDA0003276094900000114
其中:
B1={Y(λ,1),Y(λ,2),....Y(λ,32)},
B2={Y(λ,33),Y(λ,34),....Y(λ,64)},
...
B16={Y(λ,481),Y(λ,482),....Y(λ,512)}
(9)使用公式(9)和公式(10)计算每个子带对应的频率,使用公式(11)计算子带谱熵比。
(10)使用公式(12)和(13)计算得到能熵比特征EHFeature。
(11)统计对数似然比特征直方图和能熵比特征直方图,500帧重置一次。
(12)达到500帧时,更新对数似然比阈值和能熵比阈值,重置特征直方图。
(13)判断能熵比特征是否可用。
(14)使用公式(14)计算两种特征对应的语音存在概率。
(15)如果能熵比特征不可用,使用公式(15)和(17)计算语音存在的先验概率;如果能熵比特征可用,使用公式(16)和(17)计算语音存在的先验概率。
(16)使用公式(18)和(19)计算中间变量r,使用公式(20)和(21)计算语音存在的后验概率。
(17)使用递归平均算法的噪声估计公式(22)估计噪声。
(18)使用公式(23)和(24)对噪声进行平滑和波动控制,得到最终的噪声。
为了验证本方案的有效性,首先将babble噪声和纯净语音进行融合,得到带噪语音。然后使用本方案对带噪语音进行噪声估计。最后,将本方案估计的噪声,MCRA算法估计的噪声以及实际噪声对比,并对结果进行分析与讨论。本方案噪声估计的关键结果展示如图2至7所示。
其中,图3图4是对数似然比特征和能熵比特征,其中的虚线代表了阈值。如果某一帧的特征在阈值之上,则便是基于该特征的语音存在概率大于0.5。值越大,语音存在概率也越大。将图3、4和图2进行比较,可以发现,在语音存在部分,特征基本都是大于阈值的。这说明了特征的有效性。对基于似然比特征的概率和能熵比的概率进行融合,得到图5的语音存在先验概率,从中能明显地区分语音帧和非语音帧。因此语音存在的概率计算是有效的。
在图6中,最上面一幅图是带噪语音的时域图,中间是本方案得到的在频点500HZ的语音存在后验概率,最下面是MCRA算法得到的500HZ的语音存在概率。首先可以看出,MCRA算法得到的语音存在概率基本都二值化,大部分是0和1。而本方案得到的语音存在概率还包含许多0和1之间的值,使用概率时会更加灵活。其次,通过与时域图比较可以发现,本方案得到的概率更加准确,如3.5s-4s和6.5s-7s中是不存在语音的,但MCRA算法得到的语音存在概率却是1,本方案得到概率是0;在4.2s-5s和7.2s-8s中语音是有停顿的,MCRA算法计算出的语音存在概率都是1,而本方案计算的语音存在概率在语音停顿处都非常低,且和时域图非常的吻合。因此相对于MCRA算法,本方案得到的语音存在概率更加的准确。
图7是500HZ处的实际噪声,MCRA估计噪声和本方案估计噪声的对比图。从整体上看,MCRA得到的噪声比较平滑,波动比较小,不能很好的反应babble噪声的变化,这也是概率二值化造成的结果。从局部上看,在3.5s-4s和6.5s-7s,本方案估计的噪声有一个明显的增加,和实际噪声的变化较为接近,而MCRA算法估计的噪声并没有变化。因此,相对于MCRA算法,本方案估计的噪声更加准确。
综上所述,本方案通过对数似然比特征和能熵比特征来计算语音存在概率,得到的概率更加准确,估计出来的噪声更能反应实际噪声的变化,更加及时和准确。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (10)

1.一种带噪语音的噪声估计方法,其特征在于,包括:
使用MCRA算法对音频数据中的噪声进行初步估计;
利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
根据语音存在的后验概率并使用递归平均算法估计噪声;
对噪声的波动进行控制,得到音频数据中最终估计的噪声。
2.根据权利要求1所述的方法,其特征在于,利用初步估计的噪声计算对数似然比特征的方法为:
(a1)将带噪语音表示为FFT频域的幅度Y(λ,k),初步估计得到的噪声为Dmcra(λ,k),λ代表帧数,k代表频点;
(a2)通过计算先验信噪比ξ(λ,k)和后验信噪比γ(λ,k)计算似然比Λ(λ,k),所述似然比表示一帧音频数据符合带噪语音信号分布的概率与符合噪声信号分布的概率的比值;
(a3)对(a2)计算得到的似然比取对数和进行前后帧平滑,得到平滑后的对数似然比LogLrt(λ,k);
(a4)对平滑后的对数似然比在所有频点上取平均,得到当前帧音频的对数似然比特征LrtFeature(λ),简记为LrtFeature。
3.根据权利要求1所述的方法,其特征在于,用于计算语音存在先验概率的能熵比特征,其计算方法为:
(b1)利用幅度谱计算当前帧的能量E(λ),再计算对数能量LE(λ):
Figure FDA0003276094890000011
LE(λ)=ln(E(λ)+a)-ln(a) (8)
其中,a为固定常数;
(b2)将每帧音频数据频带划分为Nb个子带,分别记为:
Figure FDA0003276094890000012
(b3)求每个子带的子带谱及其概率,进而计算子带谱熵:
Figure FDA0003276094890000013
Figure FDA0003276094890000014
Figure FDA0003276094890000021
式中,Eb(λ,m)为第λ帧音频数据的第m个子带的子带谱,m=1,2,…,Nb;pb(λ,m)为子带谱Eb(λ,m)对应的概率,Hb(λ)为第λ帧音频数据的子带谱熵;
(b4)根据子带谱熵计算子带能熵比:
Figure FDA0003276094890000022
(b5)对子带能熵比进行前后帧平滑,得到子带能熵比特征EHFeature(λ),简记为EHFeature。
4.根据权利要求1所述的方法,其特征在于,所述利用对数似然比特征和能熵比特征计算语音存在的先验概率,具体计算方法为:
(c1)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH,分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH:
如果LrtFeature>threshLrt,则ProbEH=0.5*(tanh(k0*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k0*(LrtFeature-threshLrt))+1);
如果LrtFeature≤threshLrt,则ProbEH=0.5*(tanh(k1*(EHFeature-threshEH))+1),ProbLrt=0.5*(tanh(k1*(LrtFeature-threshLrt))+1);
其中,k0和k1为斜率系数,且k1>k0,设置原则是使得映射到的概率ProbLrt和ProbEH的覆盖范围为[0,1];
(c2)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合,再使用得到的融合概率对前一帧音频数据中语音存在的先验概率进行平滑处理,得到当前帧音频数据中任意频点存在语音的先验概率P(H1);先验概率的平滑公式为:
P(H1)=(1-ProbTavg)*Pprev(H1)+ProbTavg*tmpProb (17)
其中,P(H1)为当前帧音频数据语音存在的先验概率,Pprev(H1)表示前一帧音频数据中语音存在的先验概率;ProbTavg为平滑系数,tmpProb为融合概率。
5.根据权利要求4所述的方法,其特征在于,对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合的方法为:
(d1)将每HNfames帧作为一个统计周期进行直方图统计:将子带能熵比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeEH;判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内,则该bin的高度加1;
(d2)寻找直方图中高度最高和第二高的bin,最高bin的位置和高度分别记为P1、H1,第二高bin的位置和高度分别记为P2、H2;再按以下判断方法对中间参数P和H进行定义:
如果P1与P2相邻,且H1<2*H2,则P=(P1+P2)/2,H=H1+H2;
如果P1与P2之间相差一个bin,将P1与P2之间的bin的高度记为H3,再判断是否满足H1<2*H2且H1<2*H3,若满足则P=(P1+P2)/2,H=H1+H2+H3;
否则P=P1,H=H1;
(d3)根据中间参数P确定能熵比阈值threshEH=δ*P,δ为能熵比阈值系数;
(d4)如果H<EH_frames_factor*HNframes,则tmpProb=probLrt,tmpProb为融合概率,EH_frames_factor表示一个无量纲的尺度系数;否则tmpProb=0.5*(probLrt+probEH)。
6.根据权利要求4所述的方法,其特征在于,似然比阈值的预先确定方法为:
(e1)将每HNfames帧作为一个统计周期进行直方图统计:将对数似然比特征的覆盖范围均分为若干个bin,每个bin的宽度为binSizeLrt;判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内,则该bin的高度加1;
(e2)如果最高的bin的高度大于Hnfames的一半,则给似然比阈值赋值为threshLrt=binSizeLrt;否则,对所有对数似然比特征进行加权平均,再乘以大于1的系数作为似然比阈值threshLrt。
7.根据权利要求1所述的方法,其特征在于,所述采用贝叶斯算法计算语音存在的后验概率的方法为:
Figure FDA0003276094890000031
式中,
Figure FDA0003276094890000032
表示音频数据在频点k存在语音的后验概率,Λ(λ,k)为似然比,中间变量
Figure FDA0003276094890000033
Figure FDA0003276094890000034
Figure FDA0003276094890000035
分别表示音频数据在频点k存在语音和不存在语音,
Figure FDA0003276094890000036
Figure FDA0003276094890000037
分别表示音频数据在频点k存在语音的概率和不存在语音的概率,且
Figure FDA0003276094890000038
Figure FDA0003276094890000041
8.根据权利要求1所述的方法,其特征在于,所述根据语音存在的后验概率并使用递归平均算法估计噪声的方法为:
Figure FDA0003276094890000042
式中,D(λ,k)表示使用递归平均算法对第λ帧音频数据在频点k估计出的噪声,
Figure FDA0003276094890000043
Figure FDA0003276094890000044
分别表示音频数据在频点k存在语音和不存在语音,
Figure FDA0003276094890000045
表示音频数据在频点k存在语音的后验概率,
Figure FDA0003276094890000046
表示音频数据在频点k不存在语音的后验概率,
Figure FDA0003276094890000047
代表第λ-1帧音频数据在频点k估计出的噪声,Y(λ,k)为第λ帧音频数据在频点k的幅度。
9.根据权利要求8所述的方法,其特征在于,所述对噪声的波动进行控制的方法为:
(f1)根据语音存在的后验概率
Figure FDA0003276094890000048
对使用递归平均算法估计得到的噪声D(λ,k)进行平滑处理:
Figure FDA0003276094890000049
Figure FDA00032760948900000410
否则
Figure FDA00032760948900000411
其中factorNoise和factorSpeech为平滑系数;
(f2)然后对平滑后的噪声
Figure FDA00032760948900000412
进行幅度控制,得到最终估计的噪声
Figure FDA00032760948900000413
Figure FDA00032760948900000414
或者
Figure FDA00032760948900000415
Figure FDA00032760948900000416
否则
Figure FDA00032760948900000417
其中α和β为幅度控制系数。
10.一种带噪语音的噪声估计装置,其特征在于,包括:噪声初步估计模块、语音存在概率估计模块、噪声二次估计模块和噪声波动控制模块;
所述噪声初步估计模块用于:使用MCRA算法对音频数据中的噪声进行初步估计;
所述语音存在概率估计模块用于:利用初步估计的噪声计算音频数据的对数似然比特征,利用对数似然比特征和能熵比特征计算语音存在的先验概率,采用贝叶斯算法计算语音存在的后验概率;
所述噪声二次估计模块用于:根据语音存在的后验概率并使用递归平均算法估计噪声;
所述噪声波动控制模块用于:对噪声的波动进行控制,得到音频数据中最终估计的噪声。
CN202111118327.5A 2021-09-24 2021-09-24 一种带噪语音的噪声估计方法和装置 Active CN113838476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111118327.5A CN113838476B (zh) 2021-09-24 2021-09-24 一种带噪语音的噪声估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111118327.5A CN113838476B (zh) 2021-09-24 2021-09-24 一种带噪语音的噪声估计方法和装置

Publications (2)

Publication Number Publication Date
CN113838476A true CN113838476A (zh) 2021-12-24
CN113838476B CN113838476B (zh) 2023-12-01

Family

ID=78969499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111118327.5A Active CN113838476B (zh) 2021-09-24 2021-09-24 一种带噪语音的噪声估计方法和装置

Country Status (1)

Country Link
CN (1) CN113838476B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665717A (zh) * 2023-08-02 2023-08-29 广东技术师范大学 一种跨子带谱熵加权似然比语音检测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038651A1 (en) * 2003-02-17 2005-02-17 Catena Networks, Inc. Method and apparatus for detecting voice activity
KR100901367B1 (ko) * 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN109412763A (zh) * 2018-11-15 2019-03-01 电子科技大学 一种基于信号能熵比的数字信号存在性检测方法
CN110164467A (zh) * 2018-12-18 2019-08-23 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN110675885A (zh) * 2019-10-17 2020-01-10 浙江大华技术股份有限公司 混音方法、装置及存储介质
CN110838306A (zh) * 2019-11-12 2020-02-25 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN112201269A (zh) * 2020-10-19 2021-01-08 成都明杰科技有限公司 基于改进噪声估计的mmse-lsa语音增强方法
WO2021007841A1 (zh) * 2019-07-18 2021-01-21 深圳市汇顶科技股份有限公司 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038651A1 (en) * 2003-02-17 2005-02-17 Catena Networks, Inc. Method and apparatus for detecting voice activity
KR100901367B1 (ko) * 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
CN103778920A (zh) * 2014-02-12 2014-05-07 北京工业大学 数字助听器中语音增强和频响补偿相融合方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN109412763A (zh) * 2018-11-15 2019-03-01 电子科技大学 一种基于信号能熵比的数字信号存在性检测方法
CN110164467A (zh) * 2018-12-18 2019-08-23 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
WO2021007841A1 (zh) * 2019-07-18 2021-01-21 深圳市汇顶科技股份有限公司 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN110675885A (zh) * 2019-10-17 2020-01-10 浙江大华技术股份有限公司 混音方法、装置及存储介质
CN110838306A (zh) * 2019-11-12 2020-02-25 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN112201269A (zh) * 2020-10-19 2021-01-08 成都明杰科技有限公司 基于改进噪声估计的mmse-lsa语音增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KUM, JM; PARK, YS AND CHANG, JH: "SPEECH ENHANCEMENT BASED ON MINIMA CONTROLLED RECURSIVE AVERAGING INCORPORATING CONDITIONAL MAXIMUM A POSTERIORI CRITERION", 2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, vol. 1, pages 4417 - 4420, XP031460255 *
YAO, RUI ET, AL.: "A priori SNR estimation and noise estimation for speech enhancement", 《EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING》, pages 1 - 15 *
庞亮;刘双东;: "基于语音存在概率的噪声功率谱估计改进算法", 电声技术, no. 02, pages 39 - 43 *
王文益, 伊雪: "基于改进语音存在概率的自适应噪声跟踪算法", 《信号处理》, vol. 36, no. 01, pages 32 - 41 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665717A (zh) * 2023-08-02 2023-08-29 广东技术师范大学 一种跨子带谱熵加权似然比语音检测方法及系统
CN116665717B (zh) * 2023-08-02 2023-09-29 广东技术师范大学 一种跨子带谱熵加权似然比语音检测方法及系统

Also Published As

Publication number Publication date
CN113838476B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
Karray et al. Towards improving speech detection robustness for speech recognition in adverse conditions
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
EP1722357A2 (en) Voice activity detection apparatus and method
US20020165713A1 (en) Detection of sound activity
US20130022223A1 (en) Automated method of classifying and suppressing noise in hearing devices
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
WO2010045450A1 (en) Methods and apparatus for noise estimation in audio signals
WO2000017855A1 (en) Noise suppression for low bitrate speech coder
CN110047519B (zh) 一种语音端点检测方法、装置及设备
WO2017136018A1 (en) Babble noise suppression
CN103730124A (zh) 一种基于似然比测试的噪声鲁棒性端点检测方法
Park et al. Noise Cancellation Based on Voice Activity Detection Using Spectral Variation for Speech Recognition in Smart Home Devices.
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
CN105575406A (zh) 一种基于似然比测试的噪声鲁棒性的检测方法
CN113838476B (zh) 一种带噪语音的噪声估计方法和装置
Rosenkranz et al. Integrating recursive minimum tracking and codebook-based noise estimation for improved reduction of non-stationary noise
CN110689905B (zh) 一种用于视频会议系统的语音活动检测系统
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
CN113921030B (zh) 一种基于加权语音损失的语音增强神经网络训练方法及装置
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
Bai et al. Two-pass quantile based noise spectrum estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant