CN108711432A - 一种单麦克风的感知增益函数的语音增强方法 - Google Patents

一种单麦克风的感知增益函数的语音增强方法 Download PDF

Info

Publication number
CN108711432A
CN108711432A CN201710227952.0A CN201710227952A CN108711432A CN 108711432 A CN108711432 A CN 108711432A CN 201710227952 A CN201710227952 A CN 201710227952A CN 108711432 A CN108711432 A CN 108711432A
Authority
CN
China
Prior art keywords
voice
perception
gain function
noise
single microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710227952.0A
Other languages
English (en)
Inventor
李宇
李竺珊
谭洪舟
农革
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Original Assignee
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical SYSU CMU Shunde International Joint Research Institute
Priority to CN201710227952.0A priority Critical patent/CN108711432A/zh
Publication of CN108711432A publication Critical patent/CN108711432A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种单麦克风的感知增益函数的语音增强方法,本发明在DFT域用判决引导方法估计先验信噪比;其次,利用基于广义Gamma模型与感知的加权欧式失真测度的增益函数来增强语音;最后,对语音的频谱分量进行DFT的逆变换,则获得增强语音的时域形式,通过该方法,可有效实现从带噪语音中恢复纯净语音信号。

Description

一种单麦克风的感知增益函数的语音增强方法
技术领域
本发明涉及语音增强领域,更具体地,涉及一种单麦克风的感知增益函数的语音增强方法。
背景技术
在实际的环境中,语音会受到各式各样的噪声干扰。语音增强即是从这些复杂的背景噪声中提取有用的语音信号,达到抑制和降低噪声干扰的目的。近几十年来,语音增强一直是一种具有挑战性的研究课题。从传统的谱减法到基于统计模型方法,语音增强受到大量学者的关注。单麦克风的语音增强复杂度低、仅需要基本的硬件要求,因此在许多具体的实际应用中均有使用,如语音通信、车载系统等。语音增强是在语音处理前的一个预处理方案,是语音应用的基础部分。语音增强的关键是在于找到合适的增益函数。相较于高斯先验模型,Gamma先验模型更符合语音DFT幅度系数的分布。听觉掩蔽可以用来修整估计误差,使共振峰附近少一些加重,而谱谷多一些加重。由于听觉系统对于共振峰附近的量化噪声不容易听出来,考虑人耳感知特性可以有效提高语音增强的性能。所以,基于广义Gamma先验并考虑人耳掩蔽效应的语音增强技术是很有意义的。
发明内容
本发明提供一种单麦克风的感知增益函数的语音增强方法,该方法可实现从带噪语音中恢复纯净语音信号。
为了达到上述技术效果,本发明的技术方案如下:
一种单麦克风的感知增益函数的语音增强方法,包括以下步骤:
S1:利用基于MMSE的无偏噪声功率谱估计得到
S2:利用判决引导方法估计先验信噪比;
S3:根据广义Gamma先验的感知MMSE准则来计算增益函数
S4:利用增益函数来增强语音
进一步地,所述步骤S1中,在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号,带噪语音信号通过离散傅立叶变换后在频域表示为:X(k,i)=S(k,i)+N(k,i),语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
进一步地,所述步骤S2中使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计,β为0.98。
进一步地,所述步骤S3中:
在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ),X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数,当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数;
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
与现有技术相比,本发明技术方案的有益效果是:
本发明在DFT域用判决引导方法估计先验信噪比;其次,利用基于广义Gamma模型与感知的加权欧式失真测度的增益函数来增强语音;最后,对语音的频谱分量进行DFT的逆变换,则获得增强语音的时域形式,通过该方法,可有效实现从带噪语音中恢复纯净语音信号。
附图说明
图1为DFT域的单麦克风语音增强系统;
图2为DFT域的单麦克风语音增强处理过程;
图3为本发明方法流程图;
图4为随瞬时信噪比变化的感知MMSE的增益函数。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
在加性噪声模型中,S(k,i)别表示第k帧,第i个频谱分量的语音信号与噪声信号。带噪语音信号通过离散傅立叶变换后在频域表示为:
X(k,i)=S(k,i)+N(k,i)。设语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计。一般情况下β为0.98。
为表达式简便,省略帧指数k和频率指数i。在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ)。X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数。当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数。
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
如图1所示,这是DFT域的单麦克风语音增强系统的框图。如图2所示,这是图1中处理过程的对每帧每频谱处理的详细情况,即DFT域的单麦克风语音增强处理过程。如图3所示,这是本发明的具体实现流程图。
首先,带噪语音信号经过采样(采样频率8000HZ)、分帧(140*129)、加窗(50%的重叠)、DFT变换到频域。用MMSE法估计噪声功率谱。
其次,分别根据如后两式计算后验信噪比γ与先验信噪比ξ, 取β=0.98。
再次,将幅度与相位分离,计算出幅频域的增益函数。根据后验信噪比和先验信噪比通过式其中,将先验信噪比ξ与后验信噪比γ取一个范围值(-40dB~50dB,以1dB为间距)先计算增益函数并制成表(91*91),在具体情况下不同先验后验信噪比对应的增益函数值由查表获得,p=-0.1,v推荐使用0.1。
如图4所示,即为随瞬时信噪比变化的增益函数。
然后,将频谱增益作用于带噪语音信号幅度并将幅度与相位组合,则得到语音的频域表达式。
最后,对带噪语音信号进行傅里叶逆变换、去窗、合帧(17967*1),则可输出语音的时域表达,可对语音进行主观和客观听觉测试。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种单麦克风的感知增益函数的语音增强方法,其特征在于,包括以下步骤:
S1:利用基于MMSE的无偏噪声功率谱估计得到
S2:利用判决引导方法估计先验信噪比;
S3:根据广义Gamma先验的感知MMSE准则来计算增益函数
S4:利用增益函数来增强语音
2.根据权利要求1所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S1中,在加性噪声模型中,S(k,i)与N(k,i)分别表示第k帧,第i个频谱分量的语音信号与噪声信号,带噪语音信号通过离散傅立叶变换后在频域表示为:X(k,i)=S(k,i)+N(k,i),语音的功率谱密度为且噪声的功率谱密度为则先验信噪比定义与后验信噪比分别定义为其中,E[·]是期望算子,噪声功率谱采用MMSE估计。
3.根据权利要求2所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S2中使用DD方法估计先验信噪比其中,P[·]表示半波整流,之前帧的语音谱估计,β为0.98。
4.根据权利要求3所述的单麦克风的感知增益函数的语音增强方法,其特征在于,所述步骤S3中:
在幅频域,利用极坐标来表示X(k,i)=S(k,i)+N(k,i),则Rexp(jθ)=Aexp(jφ)+Dexp(jψ),X,S,N的幅度系数分别为为R,A,D。幅频域语音增强的目的就是求得A的估计
语音DFT幅度系数分布采用单边广义Gamma模型进行建模:
β>0,τ>0,v>0,a≥0,其中,Γ(·)表示Gamma函数,τ与v是Gamma分布的形状参数,而β为缩放比例参数,当τ=2,β表达式如下:
噪声DFT系数采用高斯模型进行建模:
其中,I0(·)为零阶贝塞尔函数;
感知的加权欧式失真测度为则风险函数
取风险函数的最小值,得到
则有:当τ=2,有闭式解,令Φ(a,b;c)表示合流超几何函数,则有
CN201710227952.0A 2017-04-10 2017-04-10 一种单麦克风的感知增益函数的语音增强方法 Pending CN108711432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710227952.0A CN108711432A (zh) 2017-04-10 2017-04-10 一种单麦克风的感知增益函数的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710227952.0A CN108711432A (zh) 2017-04-10 2017-04-10 一种单麦克风的感知增益函数的语音增强方法

Publications (1)

Publication Number Publication Date
CN108711432A true CN108711432A (zh) 2018-10-26

Family

ID=63866131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710227952.0A Pending CN108711432A (zh) 2017-04-10 2017-04-10 一种单麦克风的感知增益函数的语音增强方法

Country Status (1)

Country Link
CN (1) CN108711432A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831493A (zh) * 2018-05-21 2018-11-16 北京捷通华声科技股份有限公司 一种音频处理方法和装置
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN110648687A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHABANE BOUBAKIR等: ""Speech Enhancement Using Minimum Mean-Square Error Amplitude Estimators Under Normal and Generalized Gamma Distribution"", 《JOURNAL OF COMPUTER SCIENCE》 *
JAN S.ERKELENS等: ""Minimum Mean-Square Error Estimation of Discrete Fourier Coefficients With Generalized Gamma Priors"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
赵改华 等: ""修正的基于广义Gamma语音模型语音增强算法"", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831493A (zh) * 2018-05-21 2018-11-16 北京捷通华声科技股份有限公司 一种音频处理方法和装置
CN108831493B (zh) * 2018-05-21 2020-11-06 北京捷通华声科技股份有限公司 一种音频处理方法和装置
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN109817234B (zh) * 2019-03-06 2021-01-26 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN110648687A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统

Similar Documents

Publication Publication Date Title
Mittal et al. Signal/noise KLT based approach for enhancing speech degraded by colored noise
Martin et al. Speech enhancement in the DFT domain using Laplacian speech priors
CN106340292B (zh) 一种基于连续噪声估计的语音增强方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
Yang et al. A noise reduction method based on LMS adaptive filter of audio signals
CN106875938A (zh) 一种改进的非线性自适应语音端点检测方法
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
WO2020168981A1 (zh) 风噪声抑制方法及装置
CN108711432A (zh) 一种单麦克风的感知增益函数的语音增强方法
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
Chen et al. Study of the noise-reduction problem in the Karhunen–Loève expansion domain
CN108696791A (zh) 一种单麦克风的组合感知增益函数语音增强方法
Kazanferovich et al. Noise-robust speech signals processing for the voice control system based on the complementary ensemble empirical mode decomposition
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
Wei et al. A novel prewhitening subspace method for enhancing speech corrupted by colored noise
Zheng et al. SURE-MSE speech enhancement for robust speech recognition
Li et al. Inter-frequency dependency in MMSE speech enhancement
Gazor Employing Laplacian-Gaussian densities for speech enhancement
Moon et al. Importance of phase information in speech enhancement
Liu A new wavelet threshold denoising algorithm in speech recognition
Khalil et al. Enhancement of speech signals using multiple statistical models
Indumathi et al. Noise estimation using standard deviation of the frequency magnitude spectrum for mixed non-stationary noise
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
Ou et al. Improved a priori SNR estimation for speech enhancement incorporating speech distortion component

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181026