CN111933169B - 一种二次利用语音存在概率的语音降噪方法 - Google Patents

一种二次利用语音存在概率的语音降噪方法 Download PDF

Info

Publication number
CN111933169B
CN111933169B CN202010841886.8A CN202010841886A CN111933169B CN 111933169 B CN111933169 B CN 111933169B CN 202010841886 A CN202010841886 A CN 202010841886A CN 111933169 B CN111933169 B CN 111933169B
Authority
CN
China
Prior art keywords
speech
noise
voice
existence probability
estimator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010841886.8A
Other languages
English (en)
Other versions
CN111933169A (zh
Inventor
胡岸
何云鹏
高君效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202010841886.8A priority Critical patent/CN111933169B/zh
Publication of CN111933169A publication Critical patent/CN111933169A/zh
Application granted granted Critical
Publication of CN111933169B publication Critical patent/CN111933169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

一种二次利用语音存在概率的语音降噪方法,包括以下步骤:S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;S3使用估计出的噪声值,求得语音存在概率;S4将语音存在概率和谱估计器进行结合;S5使用结合后的谱估计器来求取最终降噪后的语音。本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。

Description

一种二次利用语音存在概率的语音降噪方法
技术领域
本发明属于人工智能技术领域,涉及语音识别,具体涉及一种二次利用语音存在概率的语音降噪方法。
背景技术
语音降噪技术属于语音前端处理技术,它的目的是从带噪语音中滤除背景噪声,留下纯净语音。但是处理过后的语音信号要和原始语音完全一样是不可能的,即语音降噪或多或少会给语音带来一定失真,语音降噪是要找到一种算法能够有效地达到以下两个目的:一是抑制语音中的噪声,提高信噪比;二是围绕语音听感以及语音清晰度这两个方面做改进,尽量做到声音不失真。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种二次利用语音存在概率的语音降噪方法。
本发明所述二次利用语音存在概率的语音降噪方法,包括以下步骤:
S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;
S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;
S3使用估计出的噪声值,求得语音存在概率;
S4将语音存在概率和谱估计器进行结合;
S5使用结合后的谱估计器来求取最终降噪后的语音。
优选的:所述步骤S2中,对初始值的语音信号分帧并加窗处理,然后对每帧语音做快速傅里叶变换得到其频谱
Figure 485601DEST_PATH_IMAGE001
;取频谱幅度
Figure 673000DEST_PATH_IMAGE002
,接着根据幅度通过递归的最小值统计法进行噪声估计得到噪声估计值。
优选的:所述步骤S3中,先根据噪声估计值求得后验信噪比,再利用直接平滑准则,得到先验信噪比;
并根据先验信噪比计算语音存在概率
Figure 658273DEST_PATH_IMAGE003
优选的:所述步骤S4中结合的具体方式为:
Figure 968032DEST_PATH_IMAGE004
G1为结合后的谱估计器,
Figure 225707DEST_PATH_IMAGE005
为任何一种输出值在0-1之间的函数;f 的下标1,2...表示不同的权重值,GA,GB表示两种在不同信噪比条件下的不同语音谱估计器。
进一步的:f 函数为:
Figure 279114DEST_PATH_IMAGE006
Figure 118894DEST_PATH_IMAGE007
,其中a,b分别为预先设定的参数。
优选的:所述步骤S4中结合的具体方式为:
Figure 537237DEST_PATH_IMAGE008
其中G1为结合后的谱估计器,Gc为原
Figure 829678DEST_PATH_IMAGE009
MMSE语音谱估计器。
进一步的:通过下列函数确定
Figure 686775DEST_PATH_IMAGE010
Figure 381062DEST_PATH_IMAGE011
,其中a,b分别为预先设定的参数。
进一步的:对G1进行第二次结合语音存在概率,得到的最终谱估计器如以下形式:
Figure 219574DEST_PATH_IMAGE012
本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。
附图说明
图1是本发明所述语音降噪方法的一个具体实施方式流程示意图;
图1中输入的x(n)表示目标人声,d(n)是环境噪声;
图2是本发明所述
Figure 264890DEST_PATH_IMAGE009
MMSE语音谱估计器的噪声抑制动态曲线图的一个具体实例;图2中纵坐标纵坐标表示噪声抑制量,单位为dB。横轴为瞬时信噪比,图中的
Figure 660099DEST_PATH_IMAGE013
表示先验信噪比。图3表明瞬时信噪比变化时不同先验信噪比以及不同的
Figure 208892DEST_PATH_IMAGE010
值对噪声抑制量的影响。
图3是本发明所述语音存在概率映射到参数
Figure 234617DEST_PATH_IMAGE010
的映射函数曲线图的一个具体实例;图3中横坐标为概率,纵坐标为参数
Figure 501650DEST_PATH_IMAGE010
的值
图4为利用本发明进行带噪语音处理前后的一个具体实例的时域波形图,图4中纵坐标为归一化的语音信号幅度。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述二次利用语音存在概率的语音降噪方法,包括如下步骤:
对带噪语音进行逐帧读取语音数据,并将连续多帧语音数据作为噪声估计的初始值;
以初始值为基础,可以通过递归的最小值统计法来进行每一帧的噪声估计,得到噪声估计值。
具体可以是:对语音信号分帧并加窗处理,然后对每帧语音做短时FFT即快速傅里叶变换得到其频谱
Figure 434971DEST_PATH_IMAGE001
;取频谱幅度
Figure 103850DEST_PATH_IMAGE002
,接着根据幅度通过递归的最小值统计法进行噪声估计得到噪声估计值
Figure 552673DEST_PATH_IMAGE014
使用噪声估计值,求得语音的先验信噪比和后验信噪比;
可以先求得后验信噪比,再利用直接平滑准则,得到先验信噪比;
根据先验信噪比和后验信噪比计算语音存在概率
Figure 41424DEST_PATH_IMAGE003
,k表示频域的频谱子带,l表示时域的帧数。
将语音存在概率和谱估计器结合。
结合可以采用以下两种方式
第一种形式的结合方式可以如下式:
Figure 44015DEST_PATH_IMAGE004
其中
Figure 505083DEST_PATH_IMAGE005
为任何一种输出值在0-1之间的函数。其作用是求得一个权重,并动态调整
Figure 669348DEST_PATH_IMAGE015
Figure 910974DEST_PATH_IMAGE016
的占比。
f 的下标1,2...表示不同的权重值,GA,GB表示两种在不同信噪比条件下各具优势的语音谱估计器.
第一种结合方式中,f 函数的一个具体实施方式可以为:
Figure 451676DEST_PATH_IMAGE006
Figure 16519DEST_PATH_IMAGE007
,其中a,b分别为预先设定的参数。
第二种形式的结合方式可以如下式:
Figure 617264DEST_PATH_IMAGE017
Figure 80607DEST_PATH_IMAGE018
中包含和信噪比相关且能够动态调整的参数,
Figure 425000DEST_PATH_IMAGE005
为任何一种输出范围符合参数范围的函数。
f(*)为符合
Figure 860661DEST_PATH_IMAGE010
范围的函数,比如在
Figure 366729DEST_PATH_IMAGE009
MMSE语音估计器中,
Figure 582946DEST_PATH_IMAGE010
取值范围为负无穷到正无穷。
以下给出第二种形式结合的一个更具体的实施方式:
该具体实施方式中,通过语音存在概率
Figure 465452DEST_PATH_IMAGE003
来调整
Figure 4886DEST_PATH_IMAGE009
MMSE估计器的阶次。
可以把
Figure 681855DEST_PATH_IMAGE009
MMSE估计器当做是MMSE估计器的一种拓展。通过调整该估计器中参数
Figure 119790DEST_PATH_IMAGE010
的大小,动态的控制抑制曲线。以达到更好的语音降噪效果。
Figure 743669DEST_PATH_IMAGE009
MMSE语音谱估计器的噪声抑制动态曲线图如图2所示。
Figure 950660DEST_PATH_IMAGE010
为1的时候,噪声抑制结果等同于幅度谱估计MMSE的增益函数。当
Figure 64109DEST_PATH_IMAGE010
为2的时候,可得到谱估计
Figure 989340DEST_PATH_IMAGE009
MMSE的语音估计值。
Figure 400599DEST_PATH_IMAGE010
为2时
Figure 727675DEST_PATH_IMAGE009
MMSE语音谱估计器的计算可采取如下形式表示:
Figure 12025DEST_PATH_IMAGE008
其中Gc为原
Figure 158973DEST_PATH_IMAGE009
MMSE语音谱估计器。
这一类语音谱估计器中包含和信噪比相关且能够动态调整的参数
Figure 124655DEST_PATH_IMAGE010
,在不同的信噪比下动态调整该值,可以取得最佳的噪声抑制效果。
以下例子为通过语音存在概率来推算
Figure 306238DEST_PATH_IMAGE010
一个方法。
对当前帧的语音存在概率求平均,并可以通过下列函数确定
Figure 761490DEST_PATH_IMAGE010
Figure 661313DEST_PATH_IMAGE011
,其中a,b分别为根据映射函数曲线图预先设定的参数,例如可以取a=10,b=0.004。
语音存在概率映射到参数
Figure 429022DEST_PATH_IMAGE010
的映射函数曲线图如图3所示。
为了进一步提升噪声抑制性能。将谱估计器
Figure 465111DEST_PATH_IMAGE018
与语音存在概率第二次结合。将结合语音存在概率求解
Figure 91265DEST_PATH_IMAGE010
Figure 212805DEST_PATH_IMAGE009
MMSE的增益函数记为
Figure 520289DEST_PATH_IMAGE019
第二次结合语音存在概率后得到的最终谱估计器如以下形式:
Figure 676464DEST_PATH_IMAGE012
利用结合后的最终谱估计器进行降噪,具体为:
Figure 473519DEST_PATH_IMAGE020
Figure 269305DEST_PATH_IMAGE021
为降噪后的频域数据,经过傅里叶反变换IFFT后得到降噪后的时域数据
Figure 177218DEST_PATH_IMAGE022
使用该最终谱估计来求取最终降噪后的语音。
在通过语音存在概率计算谱估计器的基础上,并与谱估计器二次结合,进一步提高了降噪效果。
图4为利用本发明进行带噪语音处理前后的一个具体实例的时域波形图,上半部分为处理前,下半部分为处理后,从图4可以看出,处理后的波形噪声显著缩小。
本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (6)

1.一种二次利用语音存在概率的语音降噪方法,其特征在于,包括以下步骤:
S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;
S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;
S3使用估计出的噪声值,求得语音存在概率;
S4将语音存在概率和谱估计器进行结合;
S5使用结合后的谱估计器来求取最终降噪后的语音;
所述步骤S4中结合的具体方式为:
Figure 124879DEST_PATH_IMAGE001
G1为结合后的谱估计器,
Figure 603265DEST_PATH_IMAGE002
为任何一种输出值在0-1之间的函数;f 的下标1,2...表示不同的权重值,GA, GB表示两种在不同信噪比条件下的不同语音谱估计器;
f 函数为:
Figure 184419DEST_PATH_IMAGE003
Figure 785164DEST_PATH_IMAGE004
,其中a,b分别为预先设定的参数;
p表示语音存在概率,k表示频域的频谱子带,l表示时域的帧数。
2.根据权利要求1所述的语音降噪方法,其特征在于:所述步骤S2中,对初始值的语音信号分帧并加窗处理,然后对每帧语音做快速傅里叶变换得到其频谱
Figure 123873DEST_PATH_IMAGE005
;取频谱幅度
Figure 671529DEST_PATH_IMAGE006
,接着根据幅度通过递归的最小值统计法进行噪声估计得到噪声估计值。
3.根据权利要求1所述的语音降噪方法,其特征在于:所述步骤S3中,先根据噪声估计值求得后验信噪比,再利用直接平滑准则,得到先验信噪比;
并根据先验信噪比计算语音存在概率
Figure 838681DEST_PATH_IMAGE007
4.根据权利要求1所述的语音降噪方法,其特征在于:所述步骤S4中结合的具体方式为:
Figure 548011DEST_PATH_IMAGE008
其中GC为原
Figure 842857DEST_PATH_IMAGE009
MMSE语音谱估计器。
5.根据权利要求4所述的语音降噪方法,其特征在于:通过下列函数确定
Figure 803991DEST_PATH_IMAGE010
Figure 730709DEST_PATH_IMAGE011
,其中a,b分别为预先设定的参数,
Figure 830514DEST_PATH_IMAGE007
为语音存在概率。
6.根据权利要求4所述的语音降噪方法,其特征在于:对G1进行第二次结合语音存在概率,得到的最终谱估计器如以下形式:
Figure 737290DEST_PATH_IMAGE012
Figure 319360DEST_PATH_IMAGE007
为语音存在概率。
CN202010841886.8A 2020-08-20 2020-08-20 一种二次利用语音存在概率的语音降噪方法 Active CN111933169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841886.8A CN111933169B (zh) 2020-08-20 2020-08-20 一种二次利用语音存在概率的语音降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841886.8A CN111933169B (zh) 2020-08-20 2020-08-20 一种二次利用语音存在概率的语音降噪方法

Publications (2)

Publication Number Publication Date
CN111933169A CN111933169A (zh) 2020-11-13
CN111933169B true CN111933169B (zh) 2022-08-02

Family

ID=73306219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841886.8A Active CN111933169B (zh) 2020-08-20 2020-08-20 一种二次利用语音存在概率的语音降噪方法

Country Status (1)

Country Link
CN (1) CN111933169B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421595B (zh) * 2021-08-25 2021-11-09 成都启英泰伦科技有限公司 一种利用神经网络的语音活性检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637490A (zh) * 2013-11-07 2015-05-20 大陆汽车系统公司 基于mmse语音概率存在的准确正向snr估计
CN107731242A (zh) * 2017-09-26 2018-02-23 桂林电子科技大学 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637490A (zh) * 2013-11-07 2015-05-20 大陆汽车系统公司 基于mmse语音概率存在的准确正向snr估计
CN107731242A (zh) * 2017-09-26 2018-02-23 桂林电子科技大学 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Speech enhancement based on Bayesian decision and spectral amplitude estimation;Feng Deng等;《EURASIP Journal on Audio, Speech,and Music Processing》;20151231;全文 *
一种改进的基于听觉掩蔽的自适应β阶MMSE语音增强算法;陈照吉;《电脑开发与应用》;20081105(第11期);全文 *
基于广义加权贝叶斯估计的语音增强算法研究;黄张翼 等;《计算机仿真》;20181130;第35卷(第11期);全文 *
基于最小统计与MMSE-LSA的语音增强;陈立平等;《电声技术》;20090831(第08期);第55-58页 *

Also Published As

Publication number Publication date
CN111933169A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN108831499B (zh) 利用语音存在概率的语音增强方法
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
JP5265056B2 (ja) 雑音抑圧装置
Esch et al. Efficient musical noise suppression for speech enhancement system
CN101853666B (zh) 一种语音增强的方法和装置
CN108735225A (zh) 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN110310656A (zh) 一种语音增强方法
CN111081267B (zh) 一种多通道远场语音增强方法
JPH08221093A (ja) 音声信号の雑音低減方法
CN113160845A (zh) 基于语音存在概率和听觉掩蔽效应的语音增强算法
CN101142623A (zh) 用于语音编码和语音识别的噪音抑制器
CN110634500A (zh) 一种先验信噪比的计算方法、电子设备及存储介质
CN111091833A (zh) 一种降低噪声影响的端点检测方法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
EP3074975A1 (en) Method of operating a hearing aid system and a hearing aid system
CN107731242B (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法
JP3454403B2 (ja) 帯域分割型雑音低減方法及び装置
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
CN114596874A (zh) 一种基于多麦克风的风噪抑制方法与装置
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
JPH10161694A (ja) 帯域分割型雑音低減方法
CN103187068B (zh) 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
CN110444222B (zh) 一种基于信息熵加权的话音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant