CN108711432A - 一种单麦克风的感知增益函数的语音增强方法 - Google Patents
一种单麦克风的感知增益函数的语音增强方法 Download PDFInfo
- Publication number
- CN108711432A CN108711432A CN201710227952.0A CN201710227952A CN108711432A CN 108711432 A CN108711432 A CN 108711432A CN 201710227952 A CN201710227952 A CN 201710227952A CN 108711432 A CN108711432 A CN 108711432A
- Authority
- CN
- China
- Prior art keywords
- voice
- perception
- gain function
- noise
- single microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008447 perception Effects 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 239000004568 cement Substances 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种单麦克风的感知增益函数的语音增强方法,本发明在DFT域用判决引导方法估计先验信噪比;其次,利用基于广义Gamma模型与感知的加权欧式失真测度的增益函数来增强语音;最后,对语音的频谱分量进行DFT的逆变换,则获得增强语音的时域形式,通过该方法,可有效实现从带噪语音中恢复纯净语音信号。
Description
技术领域
本发明涉及语音增强领域,更具体地,涉及一种单麦克风的感知增益函数的语音增强方法。
背景技术
在实际的环境中,语音会受到各式各样的噪声干扰。语音增强即是从这些复杂的背景噪声中提取有用的语音信号,达到抑制和降低噪声干扰的目的。近几十年来,语音增强一直是一种具有挑战性的研究课题。从传统的谱减法到基于统计模型方法,语音增强受到大量学者的关注。单麦克风的语音增强复杂度低、仅需要基本的硬件要求,因此在许多具体的实际应用中均有使用,如语音通信、车载系统等。语音增强是在语音处理前的一个预处理方案,是语音应用的基础部分。语音增强的关键是在于找到合适的增益函数。相较于高斯先验模型,Gamma先验模型更符合语音DFT幅度系数的分布。听觉掩蔽可以用来修整估计误差,使共振峰附近少一些加重,而谱谷多一些加重。由于听觉系统对于共振峰附近的量化噪声不容易听出来,考虑人耳感知特性可以有效提高语音增强的性能。所以,基于广义Gamma先验并考虑人耳掩蔽效应的语音增强技术是很有意义的。
发明内容
本发明提供一种单麦克风的感知增益函数的语音增强方法,该方法可实现从带噪语音中恢复纯净语音信号。
为了达到上述技术效果,本发明的技术方案如下:
一种单麦克风的感知增益函数的语音增强方法,包括以下步骤:
S1:利用基于MMSE的无偏噪声功率谱估计得到
S2:利用判决引导方法估计先验信噪比;
S3:根据广义Gamma先验的感知MMSE准则来计算增益函数
S4:利用增益函数来增强语音
进一步地,所述步骤S1中,在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号,带噪语音信号通过离散傅立叶变换后在频域表示为:X(k,i)=S(k,i)+N(k,i),语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为与其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
进一步地,所述步骤S2中使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计,β为0.98。
进一步地,所述步骤S3中:
在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ),X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数,当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数;
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
与现有技术相比,本发明技术方案的有益效果是:
本发明在DFT域用判决引导方法估计先验信噪比;其次,利用基于广义Gamma模型与感知的加权欧式失真测度的增益函数来增强语音;最后,对语音的频谱分量进行DFT的逆变换,则获得增强语音的时域形式,通过该方法,可有效实现从带噪语音中恢复纯净语音信号。
附图说明
图1为DFT域的单麦克风语音增强系统;
图2为DFT域的单麦克风语音增强处理过程;
图3为本发明方法流程图;
图4为随瞬时信噪比变化的感知MMSE的增益函数。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
在加性噪声模型中,S(k,i)别表示第k帧,第i个频谱分量的语音信号与噪声信号。带噪语音信号通过离散傅立叶变换后在频域表示为:
X(k,i)=S(k,i)+N(k,i)。设语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计。一般情况下β为0.98。
为表达式简便,省略帧指数k和频率指数i。在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ)。X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数。当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数。
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
如图1所示,这是DFT域的单麦克风语音增强系统的框图。如图2所示,这是图1中处理过程的对每帧每频谱处理的详细情况,即DFT域的单麦克风语音增强处理过程。如图3所示,这是本发明的具体实现流程图。
首先,带噪语音信号经过采样(采样频率8000HZ)、分帧(140*129)、加窗(50%的重叠)、DFT变换到频域。用MMSE法估计噪声功率谱。
其次,分别根据如后两式计算后验信噪比γ与先验信噪比ξ, 取β=0.98。
再次,将幅度与相位分离,计算出幅频域的增益函数。根据后验信噪比和先验信噪比通过式其中,将先验信噪比ξ与后验信噪比γ取一个范围值(-40dB~50dB,以1dB为间距)先计算增益函数并制成表(91*91),在具体情况下不同先验后验信噪比对应的增益函数值由查表获得,p=-0.1,v推荐使用0.1。
如图4所示,即为随瞬时信噪比变化的增益函数。
然后,将频谱增益作用于带噪语音信号幅度并将幅度与相位组合,则得到语音的频域表达式。
最后,对带噪语音信号进行傅里叶逆变换、去窗、合帧(17967*1),则可输出语音的时域表达,可对语音进行主观和客观听觉测试。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种单麦克风的感知增益函数的语音增强方法,其特征在于,包括以下步骤:
S1:利用基于MMSE的无偏噪声功率谱估计得到
S2:利用判决引导方法估计先验信噪比;
S3:根据广义Gamma先验的感知MMSE准则来计算增益函数
S4:利用增益函数来增强语音
2.根据权利要求1所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S1中,在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号,带噪语音信号通过离散傅立叶变换后在频域表示为:X(k,i)=S(k,i)+N(k,i),语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为与其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
3.根据权利要求2所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S2中使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计,β为0.98。
4.根据权利要求3所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S3中:
在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ),X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
β>0,τ>0,v>0,a≥0,其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数,当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数;
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710227952.0A CN108711432A (zh) | 2017-04-10 | 2017-04-10 | 一种单麦克风的感知增益函数的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710227952.0A CN108711432A (zh) | 2017-04-10 | 2017-04-10 | 一种单麦克风的感知增益函数的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108711432A true CN108711432A (zh) | 2018-10-26 |
Family
ID=63866131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710227952.0A Pending CN108711432A (zh) | 2017-04-10 | 2017-04-10 | 一种单麦克风的感知增益函数的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108711432A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831493A (zh) * | 2018-05-21 | 2018-11-16 | 北京捷通华声科技股份有限公司 | 一种音频处理方法和装置 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN110648687A (zh) * | 2019-09-26 | 2020-01-03 | 广州三人行壹佰教育科技有限公司 | 一种活动语音检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079266A (zh) * | 2006-05-23 | 2007-11-28 | 中兴通讯股份有限公司 | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
-
2017
- 2017-04-10 CN CN201710227952.0A patent/CN108711432A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079266A (zh) * | 2006-05-23 | 2007-11-28 | 中兴通讯股份有限公司 | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 |
CN101894563A (zh) * | 2010-07-15 | 2010-11-24 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
Non-Patent Citations (3)
Title |
---|
CHABANE BOUBAKIR等: ""Speech Enhancement Using Minimum Mean-Square Error Amplitude Estimators Under Normal and Generalized Gamma Distribution"", 《JOURNAL OF COMPUTER SCIENCE》 * |
JAN S.ERKELENS等: ""Minimum Mean-Square Error Estimation of Discrete Fourier Coefficients With Generalized Gamma Priors"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
赵改华 等: ""修正的基于广义Gamma语音模型语音增强算法"", 《计算机工程与应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831493A (zh) * | 2018-05-21 | 2018-11-16 | 北京捷通华声科技股份有限公司 | 一种音频处理方法和装置 |
CN108831493B (zh) * | 2018-05-21 | 2020-11-06 | 北京捷通华声科技股份有限公司 | 一种音频处理方法和装置 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN109817234B (zh) * | 2019-03-06 | 2021-01-26 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN110648687A (zh) * | 2019-09-26 | 2020-01-03 | 广州三人行壹佰教育科技有限公司 | 一种活动语音检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mittal et al. | Signal/noise KLT based approach for enhancing speech degraded by colored noise | |
Martin et al. | Speech enhancement in the DFT domain using Laplacian speech priors | |
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
Yang et al. | A noise reduction method based on LMS adaptive filter of audio signals | |
CN106875938A (zh) | 一种改进的非线性自适应语音端点检测方法 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
WO2020168981A1 (zh) | 风噪声抑制方法及装置 | |
CN108711432A (zh) | 一种单麦克风的感知增益函数的语音增强方法 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
Bavkar et al. | PCA based single channel speech enhancement method for highly noisy environment | |
Chen et al. | Study of the noise-reduction problem in the Karhunen–Loève expansion domain | |
CN108696791A (zh) | 一种单麦克风的组合感知增益函数语音增强方法 | |
Kazanferovich et al. | Noise-robust speech signals processing for the voice control system based on the complementary ensemble empirical mode decomposition | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
Wei et al. | A novel prewhitening subspace method for enhancing speech corrupted by colored noise | |
Zheng et al. | SURE-MSE speech enhancement for robust speech recognition | |
Li et al. | Inter-frequency dependency in MMSE speech enhancement | |
Gazor | Employing Laplacian-Gaussian densities for speech enhancement | |
Moon et al. | Importance of phase information in speech enhancement | |
Liu | A new wavelet threshold denoising algorithm in speech recognition | |
Khalil et al. | Enhancement of speech signals using multiple statistical models | |
Indumathi et al. | Noise estimation using standard deviation of the frequency magnitude spectrum for mixed non-stationary noise | |
Sunnydayal et al. | Speech enhancement using sub-band wiener filter with pitch synchronous analysis | |
Ou et al. | Improved a priori SNR estimation for speech enhancement incorporating speech distortion component |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181026 |