CN111933169B - 一种二次利用语音存在概率的语音降噪方法 - Google Patents
一种二次利用语音存在概率的语音降噪方法 Download PDFInfo
- Publication number
- CN111933169B CN111933169B CN202010841886.8A CN202010841886A CN111933169B CN 111933169 B CN111933169 B CN 111933169B CN 202010841886 A CN202010841886 A CN 202010841886A CN 111933169 B CN111933169 B CN 111933169B
- Authority
- CN
- China
- Prior art keywords
- speech
- noise
- voice
- existence probability
- estimator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 31
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 238000009499 grossing Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
一种二次利用语音存在概率的语音降噪方法,包括以下步骤:S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;S3使用估计出的噪声值,求得语音存在概率;S4将语音存在概率和谱估计器进行结合;S5使用结合后的谱估计器来求取最终降噪后的语音。本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。
Description
技术领域
本发明属于人工智能技术领域,涉及语音识别,具体涉及一种二次利用语音存在概率的语音降噪方法。
背景技术
语音降噪技术属于语音前端处理技术,它的目的是从带噪语音中滤除背景噪声,留下纯净语音。但是处理过后的语音信号要和原始语音完全一样是不可能的,即语音降噪或多或少会给语音带来一定失真,语音降噪是要找到一种算法能够有效地达到以下两个目的:一是抑制语音中的噪声,提高信噪比;二是围绕语音听感以及语音清晰度这两个方面做改进,尽量做到声音不失真。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种二次利用语音存在概率的语音降噪方法。
本发明所述二次利用语音存在概率的语音降噪方法,包括以下步骤:
S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;
S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;
S3使用估计出的噪声值,求得语音存在概率;
S4将语音存在概率和谱估计器进行结合;
S5使用结合后的谱估计器来求取最终降噪后的语音。
优选的:所述步骤S3中,先根据噪声估计值求得后验信噪比,再利用直接平滑准则,得到先验信噪比;
优选的:所述步骤S4中结合的具体方式为:
进一步的:f 函数为:
优选的:所述步骤S4中结合的具体方式为:
进一步的:对G1进行第二次结合语音存在概率,得到的最终谱估计器如以下形式:
本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。
附图说明
图1是本发明所述语音降噪方法的一个具体实施方式流程示意图;
图1中输入的x(n)表示目标人声,d(n)是环境噪声;
图2是本发明所述MMSE语音谱估计器的噪声抑制动态曲线图的一个具体实例;图2中纵坐标纵坐标表示噪声抑制量,单位为dB。横轴为瞬时信噪比,图中的表示先验信噪比。图3表明瞬时信噪比变化时不同先验信噪比以及不同的值对噪声抑制量的影响。
图4为利用本发明进行带噪语音处理前后的一个具体实例的时域波形图,图4中纵坐标为归一化的语音信号幅度。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述二次利用语音存在概率的语音降噪方法,包括如下步骤:
对带噪语音进行逐帧读取语音数据,并将连续多帧语音数据作为噪声估计的初始值;
以初始值为基础,可以通过递归的最小值统计法来进行每一帧的噪声估计,得到噪声估计值。
使用噪声估计值,求得语音的先验信噪比和后验信噪比;
可以先求得后验信噪比,再利用直接平滑准则,得到先验信噪比;
将语音存在概率和谱估计器结合。
结合可以采用以下两种方式
第一种形式的结合方式可以如下式:
f 的下标1,2...表示不同的权重值,GA,GB表示两种在不同信噪比条件下各具优势的语音谱估计器.
第一种结合方式中,f 函数的一个具体实施方式可以为:
第二种形式的结合方式可以如下式:
以下给出第二种形式结合的一个更具体的实施方式:
第二次结合语音存在概率后得到的最终谱估计器如以下形式:
利用结合后的最终谱估计器进行降噪,具体为:
使用该最终谱估计来求取最终降噪后的语音。
在通过语音存在概率计算谱估计器的基础上,并与谱估计器二次结合,进一步提高了降噪效果。
图4为利用本发明进行带噪语音处理前后的一个具体实例的时域波形图,上半部分为处理前,下半部分为处理后,从图4可以看出,处理后的波形噪声显著缩小。
本发明通过求得的语音存在概率,利用其动态调节不同的语音谱估计器的权重或参数,通过语音存在概率与语音谱估计器的结合,更好的抑制噪声并减小失真;并可以对求得的谱估计值二次利用语音存在概率来动态调整,以进一步抑制噪声。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (6)
1.一种二次利用语音存在概率的语音降噪方法,其特征在于,包括以下步骤:
S1对带噪语音进行逐帧读取,并将连续的多帧作为噪声估计的初始值;
S2以初始值为基础,通过递归的最小值统计法来进行每一帧的噪声估计;
S3使用估计出的噪声值,求得语音存在概率;
S4将语音存在概率和谱估计器进行结合;
S5使用结合后的谱估计器来求取最终降噪后的语音;
所述步骤S4中结合的具体方式为:
f 函数为:
p表示语音存在概率,k表示频域的频谱子带,l表示时域的帧数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841886.8A CN111933169B (zh) | 2020-08-20 | 2020-08-20 | 一种二次利用语音存在概率的语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010841886.8A CN111933169B (zh) | 2020-08-20 | 2020-08-20 | 一种二次利用语音存在概率的语音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933169A CN111933169A (zh) | 2020-11-13 |
CN111933169B true CN111933169B (zh) | 2022-08-02 |
Family
ID=73306219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010841886.8A Active CN111933169B (zh) | 2020-08-20 | 2020-08-20 | 一种二次利用语音存在概率的语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933169B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421595B (zh) * | 2021-08-25 | 2021-11-09 | 成都启英泰伦科技有限公司 | 一种利用神经网络的语音活性检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104637490A (zh) * | 2013-11-07 | 2015-05-20 | 大陆汽车系统公司 | 基于mmse语音概率存在的准确正向snr估计 |
CN107731242A (zh) * | 2017-09-26 | 2018-02-23 | 桂林电子科技大学 | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
US9449615B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
US10847178B2 (en) * | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
-
2020
- 2020-08-20 CN CN202010841886.8A patent/CN111933169B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104637490A (zh) * | 2013-11-07 | 2015-05-20 | 大陆汽车系统公司 | 基于mmse语音概率存在的准确正向snr估计 |
CN107731242A (zh) * | 2017-09-26 | 2018-02-23 | 桂林电子科技大学 | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
Non-Patent Citations (4)
Title |
---|
Speech enhancement based on Bayesian decision and spectral amplitude estimation;Feng Deng等;《EURASIP Journal on Audio, Speech,and Music Processing》;20151231;全文 * |
一种改进的基于听觉掩蔽的自适应β阶MMSE语音增强算法;陈照吉;《电脑开发与应用》;20081105(第11期);全文 * |
基于广义加权贝叶斯估计的语音增强算法研究;黄张翼 等;《计算机仿真》;20181130;第35卷(第11期);全文 * |
基于最小统计与MMSE-LSA的语音增强;陈立平等;《电声技术》;20090831(第08期);第55-58页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111933169A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
JP5265056B2 (ja) | 雑音抑圧装置 | |
Esch et al. | Efficient musical noise suppression for speech enhancement system | |
CN101853666B (zh) | 一种语音增强的方法和装置 | |
CN108735225A (zh) | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 | |
CN110310656A (zh) | 一种语音增强方法 | |
CN111081267B (zh) | 一种多通道远场语音增强方法 | |
JPH08221093A (ja) | 音声信号の雑音低減方法 | |
CN113160845A (zh) | 基于语音存在概率和听觉掩蔽效应的语音增强算法 | |
CN101142623A (zh) | 用于语音编码和语音识别的噪音抑制器 | |
CN110634500A (zh) | 一种先验信噪比的计算方法、电子设备及存储介质 | |
CN111091833A (zh) | 一种降低噪声影响的端点检测方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
EP3074975A1 (en) | Method of operating a hearing aid system and a hearing aid system | |
CN107731242B (zh) | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 | |
CN111933169B (zh) | 一种二次利用语音存在概率的语音降噪方法 | |
JP3454403B2 (ja) | 帯域分割型雑音低減方法及び装置 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
CN114596874A (zh) | 一种基于多麦克风的风噪抑制方法与装置 | |
CN112151060B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
JPH10161694A (ja) | 帯域分割型雑音低減方法 | |
CN103187068B (zh) | 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法 | |
CN110444222B (zh) | 一种基于信息熵加权的话音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |