CN108074582B - 一种噪声抑制信噪比估计方法和用户终端 - Google Patents
一种噪声抑制信噪比估计方法和用户终端 Download PDFInfo
- Publication number
- CN108074582B CN108074582B CN201611039463.4A CN201611039463A CN108074582B CN 108074582 B CN108074582 B CN 108074582B CN 201611039463 A CN201611039463 A CN 201611039463A CN 108074582 B CN108074582 B CN 108074582B
- Authority
- CN
- China
- Prior art keywords
- noise ratio
- audio frame
- current audio
- signal
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000001629 suppression Effects 0.000 title claims abstract description 21
- 239000000126 substance Substances 0.000 claims description 37
- 238000009499 grossing Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000009286 beneficial effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供一种噪声抑制信噪比估计方法和用户终端,该方法可包括:估计当前音频帧的预估先验信噪比;根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;计算所述当前音频帧的语音存在概率;结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。本发明实施例可以实现估算的先验信噪比与当前音频帧的相关性更高,从而有利于当前音频帧的噪声抑制。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种噪声抑制信噪比估计方法和用户终端。
背景技术
目前用户终端中通常采用单麦克风降噪方法对音频信号进行降噪,该方法中主要包括如下步骤:
将带噪语音使用快速傅氏变换(Fast Fourier Transformation,FFT)或者其他变换方法,将带噪语音在频域分解频域信号Y;
估计频域信号Y的噪声方差;
基于上述噪声方差推算先验信噪比和后验信噪比;
根据先验信噪比和后验信噪比计算出适合的增益;
对频域信号Y的每个频域乘以上述增益,以得到降噪后的频域信号;
将降噪后的频域信号通过快速傅氏逆变换(Inverse Fast Fourier Transform,IFFT)变换成时域信号。
然而,上述技术中,先验信噪比是采用直接判决方法估计的,即通过如下公式进行估计的:
发明内容
本发明的目的在于提供一种噪声抑制信噪比估计方法和用户终端,解决了估算当前音频帧的先验信噪比存在与当前音频帧的相关性较差,不利于当前音频帧的噪声抑制的问题。
为了达到上述目的,本发明实施例提供一种先验信噪比估计方法,包括:
估计当前音频帧的预估先验信噪比;
根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差(Minimum Mean Square Error,MMSE)的估计值;
计算所述当前音频帧的语音存在概率;
结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。
可选的,所述估计当前音频帧的预估先验信噪比,包括:
基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
可选的,所述基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比,包括:
通过如下公式估计当前音频帧的预估先验信噪比:
或者,
通过如下公式估计当前音频帧的预估先验信噪比:
可选的,所述方法还包括:
通过如下公式调整估计所述预估先验信噪比时所需要的平滑数:
其中,a1和a2为预设的两个平滑数,且a1>a2,γth和ξth为两个经验阈值。
可选的,所述基于所述语音存在概率估计值估计当前音频帧的预估先验信噪比的步骤,进一步还包括:
通过如下公式进一步估计所述当前音频帧的预估先验信噪比:
可选的,所述根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应,包括:
根据所述预估先验信噪比,通过如下公式计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值:
可选的,所述计算所述当前音频帧的语音存在概率,包括:
通过如下公式计算所述当前音频帧的语音存在概率:
其中,p(H1|Y)表示所述语音存在概率,p(H1)和p(H0)分别表示先验语音存在概率和先验无语音概率,为某一固定值,表示所述当前音频帧的后验信噪比估计值,exp()为指数函数,γmin和γmax为两个经验值,且γmin<γmax,pmax和pmin为两个经验值,且pmin<pmax。
可选的,所述结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比,包括:
通过如下公式估计所述当前音频帧的最终先验信噪比:
本发明实施例还提供一种用户终端,包括:
第一估计模块,用于估计当前音频帧的预估先验信噪比;
第一计算模块,用于根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;
第二计算模块,用于计算所述当前音频帧的语音存在概率;
第二估计模块,用于结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。
可选的,所述第一估计模块用于基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
可选的,所述第一估计模块用于通过如下公式估计当前音频帧的预估先验信噪比:
或者,
所述第一估计模块用于通过如下公式估计当前音频帧的预估先验信噪比:
可选的,所述用户终端还包括:
调整模块,用于通过如下公式调整估计所述预估先验信噪比时所需要的平滑数:
其中,a1和a2为预设的两个平滑数,且a1>a2,γth和ξth为两个经验阈值。
可选的,所述第一估计模块还用于通过如下公式进一步估计所述当前音频帧的预估先验信噪比:
可选的,所述第一计算模块用于根据所述预估先验信噪比,通过如下公式计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值:
可选的,所述第二计算模块用于通过如下公式计算所述当前音频帧的语音存在概率:
其中,p(H1|Y)表示所述语音存在概率,p(H1)和p(H0)分别表示先验语音存在概率和先验无语音概率,为某一固定值,表示所述当前音频帧的后验信噪比估计值,exp()为指数函数,γmin和γmax为两个经验值,且γmin<γmax,pmax和pmin为两个经验值,且pmin<pmax。
可选的,所述第二估计模块用于通过如下公式估计所述当前音频帧的最终先验信噪比:
本发明的上述技术方案至少具有如下有益效果:
本发明实施例,估计当前音频帧的预估先验信噪比;根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;计算所述当前音频帧的语音存在概率;结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。由于是结合当前帧的语音存在概率和当前音频帧的预估先验信噪比对应的最小均方误差的估计值估计的最终先验信噪比,相比现有技术中根据前一帧的先验信噪比进行估计,本发明实施例可以估算的先验信噪比与当前音频帧的相关性更高,从而有利于当前音频帧的噪声抑制。
附图说明
图1为本发明实施例提供的一种噪声抑制信噪比估计方法的流程示意图;
图2为本发明实施例提供的另一种噪声抑制信噪比估计方法的示意图;
图3为本发明实施例提供的一种噪声抑制信噪比估计方法的实验数据示意图;
图4为本发明实施例提供的一种噪声抑制信噪比估计方法的另一实验数据示意图;
图5为本发明实施例提供的一种噪声抑制信噪比估计方法的另一实验数据示意图;
图6为本发明实施例提供的一种用户终端的结构示意图;
图7为本发明实施例提供的另一种用户终端的结构示意图;
图8为本发明实施例提供的另一种用户终端的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
参见图1,本发明实施例提供一种噪声抑制信噪比估计方法,如图1所示,包括以下步骤:
101、估计当前音频帧的预估先验信噪比;
102、根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;
103、计算所述当前音频帧的语音存在概率;
104、结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。
本发明实施例中,上述当前音频帧可以是用户终端的麦克风采集的当前帧,该当前帧可能是语音帧,也有可能是噪声帧。
另外,上述预估先验信噪比可以是采用直接判决方法或者最大似然方法等方法进行估计的先验信噪比。上述计算预估先验信噪比的MMSE的估计值可以是采用MMSE算法得到上述预估先验信噪比的MMSE的估计值。上述当前音频帧的语音存在概率可以根据当前音频帧的后验信噪比计算当前音频帧的语音存概率,也可以是结合前几帧相同频点的后验信噪比做一个平均或者平滑得到的值计算当前音频帧的语音存在概率。
需要说明的是,对于步骤103与步骤101和步骤102之间的执行顺序,本发明实施例不作限定,例如:可以是先执行步骤103,再执行步骤101,或者可以是先执行步骤101,之后再执行步骤103。
另外,上述当前音频帧的最终先验信噪比可以是理解为,在对音频帧进行降噪过程中用于增益计算的先验信噪比,或者也可以理解为本发明实施例中针对当前音频帧输出的先验信噪比。结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比可以是,根据上述语音存在概率确定当前音频帧为语音帧的概率,若确定当前音频帧为纯噪声帧,则将上述最终先验信噪比设置为一个稳定的最小值,例如ξmin,以保证纯噪声段处理平稳,减小音乐噪声;而当确定当前音频帧为语音段中的音频帧时,则计算最终先验信噪比偏向于上述预估先验信噪比对应的最小均方误差的估计值,使得最终先验信噪比估计更为准确。
通过上述步骤可以实现结合当前帧的语音存在概率和当前音频帧的预估先验信噪比的最小均方误差的估计值估计的最终先验信噪比,估算的先验信噪比与当前音频帧的相关性更高,从而有利于当前音频帧的噪声抑制,以提高噪声抑制效果。
可选的,所述估计当前音频帧的预估先验信噪比,包括:
基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
其中,当前音频帧的后验信噪比为公知常识,此处不作详细说明。其中,基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比可以是基于所述当前音频帧的后验信噪比估计值采用直接判决方法估计当前音频帧的预估先验信噪比,当然,本发明实施例对此并不作限定。
可选的,上述基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比,包括:
通过如下公式估计当前音频帧的预估验信噪比:
或者,
通过如下公式估计当前音频帧的预估先验信噪比:
该实施方式中,可以通过上述两个公式中的任一公式估算上述预估先验信噪比。根据实验表明采用对应的公式计算上述预估先验信噪比效果更好,该方法中主要是音乐噪声(musical tone)会少,所以本发明实施例中优先的,采用对应的公式计算上述预估先验信噪比。
另外,上述平滑数可以是预先设置的数值,例如,为0.95~1的值,或者为0.98或者0.3等数值,对此不作限定,而噪声方差而公知常识,对此不作详细说明。
可选的,上述方法还包括:
通过如下公式调整估计所述预估先验信噪比时所需要的平滑数:
其中,a1和a2为预设的两个平滑数,且a1>a2,γth和ξth为两个经验阈值。
该实施方式中,考虑到α因子需要在纯噪声时,保证尽可能的大,使得估计出来的值尽可能的稳定,而在有语音段的时候需要尽可能的小,以便保证快速的跟踪语音。其中,上述a1和a2可以分别为0.98和0.3,当然,本发明实施例对此并不作限定,例如:还可以是0.95和0.28等,具体还可以根据实际进行调整。
该实施方式中,通过上述a1和a2可以提高预估先验信噪比的准确性。
可选的,该实施方式中,上述基于所述语音存在概率估计值估计当前音频帧的预估先验信噪比的步骤,进一步还包括:
通过如下公式进一步估计所述当前音频帧的预估先验信噪比:
该实施方式中,可以根据当前音频帧的音频存在概率切换预估先验信噪比,以提高预估先验信噪比的准确性。
可选的,上述根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值,包括:
根据所述预估先验信噪比,通过如下公式计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值:
其中,上述可以是根据复高斯模型得到的此外,还可以采用语音的超高斯模型来计算E(X2|Y)。其中,可以等效于E(X2|Y)。因为在实际应用中,先验信噪比主要是估计语音信号的方差根据定义这只依赖于语音信号X。但X无从获取,所以大部分对的估计算法,都得从带噪信号Y估计。这一点也可以从直接判决方法看出,在直接判决方法的计算公式的后一半中的γ-1是对语音方差在γ已知(i.e.Y已知)的情况的最大似然估计,前一半是使用瞬时值来替换E(X2)。
所以,从大部分信噪比估计算法来看,都需要建立在带噪信号Y已知的条件下。换句话说,实际上,并不能直接估计语音方差而是在Y已知的条件,估计因此,本发明实施例中,采用条件期望(i.e.或)来估计语音方差在这种想法的基础上,从条件期望的定义可以看出,对应的其实是对语音幅度谱X2的MMSE估计。考虑Y中有语音的概率p(H1|Y),条件期望最终的表达式为:
根据复高斯模型:
其中,p(H0|Y)表示Y已知的条件下,无语音H0的概率,即条件概率,二元假设:
H0: Y=N, 表示无语音
H1:Y=X+N 表示有语音
E(X2|Y,H0)根据上述二元假设,E(X2|Y,H0)=0。
数,使得整体计算比较复杂,一般需要查表等方式来实现。
需要说明的是,本发明实施例中,直接可以采用上述公式计算预估先验信噪比的最小均方误差的估计值,而不需要执行上述条件期望的推导过程,而执行相应的步骤即可,上述条件期望仅是本发明实施例中在实施时的原理解释说明。
可选的,所述计算所述当前音频帧的语音存在概率,包括:
通过如下公式计算所述当前音频帧的语音存在概率:
其中,p(H1|Y)表示所述语音存在概率,p(H1)和p(H0)分别表示先验语音存在概率和先验无语音概率,为某一固定值,表示所述当前音频帧的后验信噪比估计值,exp()为指数函数,γmin和γmax为两个经验值,且γmin<γmax,pmax和pmin为两个经验值,且pmin<pmax。
该实施方式中,通过上述公式区分语音和噪声。另外,使用上面公式计算语音存在概率时可以结合前几帧相同频点的后验信噪比做一个平均或者平滑得到的值计算当前音频帧的语音存在概率。另外,上面公式可以是根据上面提供的复高斯模型直接推导出来的。
本发明实施例中,通过语音存在概率是提供一个语音存在的概率,使得当前估计的先验信噪比能够在纯噪声和语音段进行软切换,从而加快直接判决方法存在的跟踪时延问题,同时又能保留直接判决方法的优点。
可选的,上述结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比,包括:
通过如下公式估计所述当前音频帧的最终先验信噪比:
该实施方式中,可以区分有语音状态和无语音状态,在有语音状态根据MMSE准则推导出最优的先验信噪估计。无语音状态,使用某一个最小值来作为最大抑制力度的限制,可以保证纯噪声段处理平稳,减小音乐噪声。语音存在和不存在状态的采用语音存在概率进行计算,该概率采用固定值先验信噪比计算,从而使得先验信噪比估计的更为准确,可以解决直接判决存在的跟踪时延问题。
需要说明的是,本发明实施例中,上述介绍的多种实施方式可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。另外,本发明实施例中,估算的先验信噪比可以用于音频信号的降噪过程的增益计算,优先的,可以应用采用单个麦克风降噪过程的增益计算。例如:如图2所示,获取后验信噪比和前一帧处理结构功率谱,基于后验信噪比和前一帧处理结构功率谱使用直接判决方法计算当前音频帧的预估先验信噪比,基于后验信噪比计算当前音频信号帧的语音存在概率,计算预估先验信噪比的MMSE的估计值,以及结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比,该先验信噪比用于增益计算。
本发明实施例中,通过上述步骤可以消除固有延时一帧的影响,缓解语音的起始段被衰减和末尾段存在的拖尾,进而带来降噪性能的提升。以下通过实验数据进行效果说明:
实验采用Noizus数据库,数据的采样率为8kHz,白噪声使用cool edit(为一音频处理软件)生成,其它噪声则为Noizus数据库自带。帧长取20ms,重叠率为50%,前后各使用平方根hanning窗,取15dB。ξmin取-20dB,抑制准则采用MMSE-STSA算法,噪声估计采用无偏MMSE算法。
图3和图4分别是信噪比为0dB和5dB时的直接判决和本发明方法之间的对比。图3的语音为sp01,噪声为白噪,图4的语音为sp04,噪声为汽车噪声,其中,sp01和sp04是数据集里面的语音编号。箭头处可以看出,本发明方法明显优于对比算法。主观对比听,处理结果音乐噪声均不明显。图5为Noizus数据库30组汽车噪声和白噪声,在0/5/10/15dB下的平均段信噪比提升,从图中不难看出,本发明方法性能优于直接判决。
需要说明的是,上述方法可以应用于任何具备麦克风的用户终端,例如:手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digital assistant,简称PDA)、移动上网装置(Mobile Internet Device,MID)、车载设备或可穿戴式设备(Wearable Device)等终端设备,需要说明的是,在本发明实施例中并不限定用户终端的具体类型。
估计当前音频帧的预估先验信噪比;根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;计算所述当前音频帧的语音存在概率;结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。由于是结合当前帧的语音存在概率和当前音频帧的预估先验信噪比对应的最小均方误差的估计值估计的最终先验信噪比,相比现有技术中根据前一帧的先验信噪比进行估计,本发明实施例可以估算的先验信噪比与当前音频帧的相关性更高,从而有利于当前音频帧的噪声抑制。
参见图6,本发明实施例提供一种用户终端,如图6所示,用户终端600,包括以下模块:
第一估计模块601,用于估计当前音频帧的预估先验信噪比;
第一计算模块602,用于根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值;
第二计算模块603,用于计算所述当前音频帧的语音存在概率;
第二估计模块604,用于结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。
可选的,第一估计模块601用于基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
可选的,第一估计模块601用于通过如下公式估计当前音频帧的预估先验信噪比:
或者,
所述第一估计模块601用于通过如下公式估计当前音频帧的预估先验信噪比:
可选的,如图7所示,用户终端600还包括:
调整模块605,用于通过如下公式调整估计所述预估先验信噪比时所需要的平滑数:
其中,a1和a2为预设的两个平滑数,且a1>a2,γth和ξth为两个经验阈值。
可选的,第一估计模块601还用于通过如下公式进一步估计所述当前音频帧的预估先验信噪比:
可选的,第一计算模块602用于根据所述预估先验信噪比,通过如下公式计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值:
可选的,第二计算模块603用于通过如下公式计算所述当前音频帧的语音存在概率:
其中,p(H1|Y)表示所述语音存在概率,p(H1)和p(H0)分别表示先验语音存在概率和先验无语音概率,为某一固定值,表示所述当前音频帧的后验信噪比估计值,exp()为指数函数,γmin和γmax为两个经验值,且γmin<γmax,pmax和pmin为两个经验值,且pmin<pmax。
可选的,第二估计模块604用于通过如下公式估计所述当前音频帧的最终先验信噪比:
需要说明的是,本实施例中上述用户终端600可以是与本发明实施例中方法实施例提供的语音信号降噪方法对应的用户终端,本发明实施例中方法实施例中的任意实施方式都可以被本实施例中的上述用户终端600所实现,以及达到相同的有益效果,此处不再赘述。
参见图8,本发明实施例提供另一种用户终端的结构,该用户终端包括:处理器800、收发机810、存储器820、用户接口830和总线接口,其中:
处理器800,用于读取存储器820中的程序,执行下列过程:
估计当前音频帧的预估先验信噪比;
根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的MMSE的估计值;
计算所述当前音频帧的语音存在概率;
结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比。
其中,用户接口830中包括的麦克风,收发机810,用于在处理器800的控制下接收和发送数据。
在图8中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器800代表的一个或多个处理器和存储器820代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机810可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口830还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器800负责管理总线架构和通常的处理,存储器820可以存储处理器800在执行操作时所使用的数据。
可选的,所述估计当前音频帧的预估先验信噪比,包括:
基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
可选的,所述基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比,包括:
通过如下公式估计当前音频帧的预估先验信噪比:
或者,
通过如下公式估计当前音频帧的预估先验信噪比:
可选的,处理器800还用于:
通过如下公式调整估计所述预估先验信噪比时所需要的平滑数:
其中,a1和a2为预设的两个平滑数,且a1>a2,γth和ξth为两个经验阈值。
可选的,所述基于所述语音存在概率估计值估计当前音频帧的预估先验信噪比的步骤,进一步还包括:
通过如下公式进一步估计所述当前音频帧的预估先验信噪比:
可选的,所述根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值,包括:
根据所述预估先验信噪比,通过如下公式计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值:
可选的,所述计算所述当前音频帧的语音存在概率,包括:
通过如下公式计算所述当前音频帧的语音存在概率:
其中,p(H1|Y)表示所述语音存在概率,p(H1)和p(H0)分别表示先验语音存在概率和先验无语音概率,为某一固定值,表示所述当前音频帧的后验信噪比估计值,exp()为指数函数,γmin和γmax为两个经验值,且γmin<γmax,pmax和pmin为两个经验值,且pmin<pmax。
可选的,所述结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比,包括:
通过如下公式估计所述当前音频帧的最终先验信噪比:
需要说明的是,本实施例中上述用户终端可以是与本发明实施例中方法实施例提供的语音信号降噪方法对应的用户终端,本发明实施例中方法实施例中的任意实施方式都可以被本实施例中的上述用户终端所实现,以及达到相同的有益效果,此处不再赘述
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种噪声抑制信噪比估计方法,其特征在于,包括:
估计当前音频帧的预估先验信噪比;
根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值;
计算所述当前音频帧的语音存在概率;
结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比;
其中,在根据所述语音存在概率确定所述当前音频帧为纯噪声帧的情况下,所述最终先验信噪为ξmin,ξmin为某一小数值;
在根据所述语音存在概率确定所述当前音频帧为语音段中的音频帧的情况下,所述最终先验信噪为比为偏向于所述估计值的信噪比。
2.如权利要求1所述的方法,其特征在于,所述估计当前音频帧的预估先验信噪比,包括:
基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
9.一种用户终端,其特征在于,包括:
第一估计模块,用于估计当前音频帧的预估先验信噪比;
第一计算模块,用于根据所述预估先验信噪比,计算所述当前音频帧的所述预估先验信噪比对应的最小均方误差的估计值;
第二计算模块,用于计算所述当前音频帧的语音存在概率;
第二估计模块,用于结合所述语音存在概率和所述估计值估计所述当前音频帧的最终先验信噪比;
其中,在根据所述语音存在概率确定所述当前音频帧为纯噪声帧的情况下,所述最终先验信噪为ξmin,ξmin为某一小数值;
在根据所述语音存在概率确定所述当前音频帧为语音段中的音频帧的情况下,所述最终先验信噪为比为偏向于所述估计值的信噪比。
10.如权利要求9所述的用户终端,其特征在于,所述第一估计模块用于基于所述当前音频帧的后验信噪比估计值估计当前音频帧的预估先验信噪比。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611039463.4A CN108074582B (zh) | 2016-11-10 | 2016-11-10 | 一种噪声抑制信噪比估计方法和用户终端 |
PCT/CN2017/106502 WO2018086444A1 (zh) | 2016-11-10 | 2017-10-17 | 噪声抑制信噪比估计方法和用户终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611039463.4A CN108074582B (zh) | 2016-11-10 | 2016-11-10 | 一种噪声抑制信噪比估计方法和用户终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108074582A CN108074582A (zh) | 2018-05-25 |
CN108074582B true CN108074582B (zh) | 2021-08-06 |
Family
ID=62109133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611039463.4A Active CN108074582B (zh) | 2016-11-10 | 2016-11-10 | 一种噪声抑制信噪比估计方法和用户终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108074582B (zh) |
WO (1) | WO2018086444A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110164467B (zh) * | 2018-12-18 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 语音降噪的方法和装置、计算设备和计算机可读存储介质 |
CN109817234B (zh) * | 2019-03-06 | 2021-01-26 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN111899752B (zh) * | 2020-07-13 | 2023-01-10 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN111986693A (zh) * | 2020-08-10 | 2020-11-24 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、终端设备和存储介质 |
CN112969130A (zh) * | 2020-12-31 | 2021-06-15 | 维沃移动通信有限公司 | 音频信号处理方法、装置和电子设备 |
CN113838474B (zh) * | 2021-11-25 | 2022-02-18 | 全时云商务服务股份有限公司 | 通信系统啸叫抑制方法和装置 |
CN114724571B (zh) * | 2022-03-29 | 2024-05-03 | 大连理工大学 | 一种鲁棒的分布式说话人噪声消除系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103187068A (zh) * | 2011-12-30 | 2013-07-03 | 联芯科技有限公司 | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006136900A1 (en) * | 2005-06-15 | 2006-12-28 | Nortel Networks Limited | Method and apparatus for non-intrusive single-ended voice quality assessment in voip |
CN100419854C (zh) * | 2005-11-23 | 2008-09-17 | 北京中星微电子有限公司 | 一种语音增益因子估计装置和方法 |
CN101814290A (zh) * | 2009-02-25 | 2010-08-25 | 三星电子株式会社 | 增强语音识别系统稳健性的方法 |
CN101853665A (zh) * | 2009-06-18 | 2010-10-06 | 博石金(北京)信息技术有限公司 | 语音中噪声的消除方法 |
CN104781880B (zh) * | 2012-09-03 | 2017-11-28 | 弗劳恩霍夫应用研究促进协会 | 用于提供通知的多信道语音存在概率估计的装置和方法 |
CN102938254B (zh) * | 2012-10-24 | 2014-12-10 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US9449609B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Accurate forward SNR estimation based on MMSE speech probability presence |
CN103646648B (zh) * | 2013-11-19 | 2016-03-23 | 清华大学 | 一种噪声功率估计方法 |
CN105702262A (zh) * | 2014-11-28 | 2016-06-22 | 上海航空电器有限公司 | 一种头戴式双麦克风语音增强方法 |
CN105280193B (zh) * | 2015-07-20 | 2022-11-08 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于mmse误差准则的先验信噪比估计方法 |
CN105741849B (zh) * | 2016-03-06 | 2019-03-22 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
-
2016
- 2016-11-10 CN CN201611039463.4A patent/CN108074582B/zh active Active
-
2017
- 2017-10-17 WO PCT/CN2017/106502 patent/WO2018086444A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103187068A (zh) * | 2011-12-30 | 2013-07-03 | 联芯科技有限公司 | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 |
Non-Patent Citations (2)
Title |
---|
Improved A Posteriori Speech Presence Probability Estimation Based on a Likelihood Ratio With Fixed Priors;Timo Gerkmann、Colin Breithaupt,et al.;《IEEE Transactions on Audio, Speech, and Language Processing》;IEEE;20080425;第16卷(第5期);第910-919页 * |
基于联合语音出现概率的先验信噪比估计算法;郑成诗等;《电子与信息学报》;20080715;第30卷(第07期);第1680-1683页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018086444A1 (zh) | 2018-05-17 |
CN108074582A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108074582B (zh) | 一种噪声抑制信噪比估计方法和用户终端 | |
EP3828885B1 (en) | Voice denoising method and apparatus, computing device and computer readable storage medium | |
AU2015240992B2 (en) | Situation dependent transient suppression | |
US8239196B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
US11443756B2 (en) | Detection and suppression of keyboard transient noise in audio streams with aux keybed microphone | |
JP6361156B2 (ja) | 雑音推定装置、方法及びプログラム | |
CN111445919B (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
CN104050971A (zh) | 声学回声减轻装置和方法、音频处理装置和语音通信终端 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
CN109817234A (zh) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
EP2710591B1 (en) | Reducing noise pumping due to noise suppression and echo control interaction | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
EP4189677B1 (en) | Noise reduction using machine learning | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN113763975B (zh) | 一种语音信号处理方法、装置及终端 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN114882898A (zh) | 多通道语音信号增强方法和装置及计算机设备和存储介质 | |
Wang et al. | Analysis and low-power hardware implementation of a noise reduction algorithm | |
CN115831145B (zh) | 一种双麦克风语音增强方法和系统 | |
CN116453538A (zh) | 语音降噪方法和装置 | |
Aronowitz | Speaker Diarization Using a priori Acoustic Information. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |