CN106971740B - 基于语音存在概率和相位估计的语音增强方法 - Google Patents

基于语音存在概率和相位估计的语音增强方法 Download PDF

Info

Publication number
CN106971740B
CN106971740B CN201710190512.2A CN201710190512A CN106971740B CN 106971740 B CN106971740 B CN 106971740B CN 201710190512 A CN201710190512 A CN 201710190512A CN 106971740 B CN106971740 B CN 106971740B
Authority
CN
China
Prior art keywords
phase
voice
probability
amplitude spectrum
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710190512.2A
Other languages
English (en)
Other versions
CN106971740A (zh
Inventor
赵彦平
陈万忠
赵晓晖
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201710190512.2A priority Critical patent/CN106971740B/zh
Publication of CN106971740A publication Critical patent/CN106971740A/zh
Application granted granted Critical
Publication of CN106971740B publication Critical patent/CN106971740B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明属于信号处理技术领域,涉及一种基于语音存在概率和相位估计的语音增强方法;包括以下步骤:1、估计语音存在概率;2、估计纯净浊音相位;3、估计纯净语音幅度谱;4、估计纯净语音信号;本发明通过多元线性回归技术估计Q值,提高语音存在概率估计的准确性;利用短时傅里叶变换域的谐波模型,在相邻频带间估计纯净浊音相位;结合相位差对纯净语音幅度谱进行估计,充分利用相位对纯净语音幅度谱的补偿作用;本发明是单通道语音增强方法,利用一个麦克风采集带噪语音信号,便于实施;本发明能很好地解决语音存在概率估计不准确的问题,而且充分利用浊音相位以及相位差对纯净语音幅度谱的补偿作用,从而提高语音增强方法的性能。

Description

基于语音存在概率和相位估计的语音增强方法
技术领域
本发明涉及一种语音增强方法,具体涉及一种基于语音存在概率和相位估计的语音增强方法,用于智能手机、助听器或智能家居中的音频设备以及人机交互中来提高语音信号的质量,属于信号处理技术领域。
背景技术
环境噪声往往会降低语音处理系统的性能,为避免这种情况,通常用到语音增强技术。语音增强的目的是从带噪语音信号中提取尽可能纯净的原始语音信号,提高语音信号的质量或可懂度,进而提高语音处理系统的鲁棒性。语音增强是信号处理领域的重要研究方向,在语音识别、说话人识别、语音编码、助听器、空对地通信、人机对话、机器翻译和智能家居等领域发挥着越来越重要的作用。人机交互是目前研究的热点,许多著名公司近几年相继投入大量的人力财力研究语音识别和情感识别。但这些语音处理系统如果应用在噪声环境中尤其是非平稳噪声或低信噪比情况下,性能会显著下降。利用语音增强技术降低噪声的影响,提高语音系统的鲁棒性,是语音信号处理的关键步骤。
单通道语音增强算法利用从一个麦克风得到的带噪语音信号估计纯净语音信号,经过几十年的发展,已经有很多成功的方法。这些方法中的大多数是在频域实现的,比如谱减法、维纳滤波法、基于最小均方误差估计及软判决方法等。这些方法中大部分认为相位不重要,只对纯净语音幅度谱进行估计,重构信号时利用的是带噪语音相位。近年来研究表明,语音信号的相位包含重要的信息,可以提高语音增强算法的性能,但从带噪语音谱中直接估计纯净语音相位比较困难。
基于语音存在概率的软判决方法是语音处理系统中的重要技术,该方法根据求得的语音存在概率,在每一帧每个频带估计得到纯净语音幅度谱。但这类方法中语音存在的先验概率和语音不存在的先验概率的比值Q是一固定值,或简单的通过一个特定参数与门限值的对比来推导与语音存在不确定性相关的语音不存在概率。这种方法会导致在不同的噪声环境中语音存在概率估计不准确,使得增强后的语音信号在幅度较小或清音部分产生失真,降低了语音增强系统的性能。而且,该类方法同样没有考虑相位问题,忽略了相位对纯净语音幅度谱的补偿作用,重构信号时无论清音信号还是浊音信号不加区分的利用带噪语音相位。
发明内容
本发明要解决的技术问题是克服了现有基于语音存在概率的语音增强方法中语音存在概率估计不准确,而且没有充分利用相位信息而导致增强后语音信号质量不佳的问题。提供一种基于语音存在概率和相位估计的语音增强方法。
为解决上述技术问题,本发明提出一种语音增强方法,用来提高增强后语音信号的质量。
本发明设计一种基于语音存在概率和相位估计的语音增强方法,通过多元线性回归技术估计Q值,提高语音存在概率估计的准确性;利用短时傅里叶变换域的谐波模型,在相邻频带间估计纯净浊音相位;结合相位差对纯净语音幅度谱进行估计,充分利用相位对纯净语音幅度谱的补偿作用;
一种基于语音存在概率和相位估计的语音增强方法,其特征在于,包括以下步骤:
步骤一:估计语音存在概率;
步骤二:估计纯净浊音相位;
步骤三:估计纯净语音幅度谱;
步骤四:估计纯净语音信号。
步骤一中所述估计语音存在概率的具体步骤如下:
(1)通过对带噪语音信号进行分帧、加窗和短时傅里叶变换,得到短时傅里叶变换域的带噪语音谱;
(2)在短时傅里叶变换域进行语音不存在和存在的假设,根据纯净语音谱和噪声谱都服从复高斯分布的假设,得到语音不存在和存在两个假设条件下的带噪语音谱的条件概率密度函数;
(3)利用先验信噪比和后验信噪比得到似然比;
(4)利用多元线性回归方法估计语音存在的先验概率(a priori probability ofspeech presence)与语音不存在的先验概率(a priori probability of speechabsence)的比值Q;
(5)利用贝叶斯定理、似然比和估计的Q值得到语音不存在概率;
(6)利用语音不存在概率得到语音存在概率。
技术方案中所述带噪语音谱是通过对带噪语音信号进行分帧、加窗和短时傅里叶变换,得到短时傅里叶变换域的带噪语音谱Y(k,l)=S(k,l)+V(k,l),其中S(k,l)表示纯净语音谱,V(k,l)表示噪声谱,k为频带,l为帧序号;
所述语音不存在和存在的假设分别用H0表示语音不存在,H1表示语音存在,H0和H1两个假设公式表示如下:
H0:Y(k,l)=V(k,l)
H1:Y(k,l)=S(k,l)+V(k,l)
H0和H1这两个假设条件下的带噪语音谱的条件概率密度函数分别表示为:
上述公式中分别为纯净语音功率谱密度和噪声功率谱密度,R(k,l)=|Y(k,l)|为带噪语音幅度谱;
所述似然比为第k个频带的似然比Λ(k,l),第k个频带的似然比Λ(k,l)公式为:
上述公式中分别为先验信噪比和后验信噪比;
所述先验信噪比ξ(k,l)是利用直接判决法进行估计的,如下所示:
公式中αDD为常数,为前一帧估计的纯净语音幅度谱;
所述比值Q=P(H1)/P(H0);
所述语音不存在概率表示为:
P(H1)表示语音存在的先验概率,P(H0)=1-P(H1)表示语音不存在的先验概率;
所述语音不存在概率表示为P(H0|Y(k,l));语音存在概率表示为P(H1|Y(k,l));
所述利用语音不存在概率得到语音存在概率,是指利用P(H1|Y(k,l)=1-P(H0|Y(k,l)),得到语音存在概率。
技术方案中所述利用多元线性回归方法估计Q值,方法如下所示:
Qi=β01ξi2Srii
公式中β0、β1和β2分别为常数的回归系数,ξi和Sri为变量,εi为误差;
所述回归系数是通过最小二乘法估计得到的,表示成向量和矩阵的形式为:
公式中B=[Q1Q2…QN]T,N为短时傅里叶变换的点数;
最后估计得到的Q值为:
式中Smin=min{R2(k,l-D+1),R2(k,l-D+2),…,R2(k,l)},D为常数。
步骤二中所述估计纯净浊音相位的具体步骤如下:
(1)利用Q=1时得到的语音存在概率进行清浊音判别,然后利用自相关法估计浊音帧的基音频率。
(2)利用基音频率、谐波表示形式得到纯净浊音信号的时域语音模型;
(3)把纯净浊音信号的时域语音模型利用短时傅里叶变换变换到短时傅里叶变换域,得到短时傅里叶变换域的谐波模型;
(4)对窗函数的统一表达式进行短时傅里叶变换,得到谐波频带内窗函数相位;
(5)利用短时傅里叶变换域的谐波模型得到频带相位,利用带噪语音相位和窗函数相位在相邻频带间估计纯净浊音相位。
技术方案中所述纯净浊音信号的时域语音模型为
公式中H为谐波数,2Ah为幅度,为谐波h的时域初始相位,Ωh=2πfh/fs=2π(h+1)f0/fs∈[0,2π)为归一化角频率,其中fs、f0和fh分别表示采样频率,基音频率和谐波频率;
所述把纯净浊音信号的时域语音模型变换到短时傅里叶变换域的公式表示如下:
上述公式中w(n)为窗函数,L为窗移;设其中Ωk=2πk/N是频带k的中心频率,为最接近Ωk的谐波频率,N为短时傅里叶变换的点数;
设谐波幅度为谐波相位为则短时傅里叶变换域的谐波模型表示为:
公式中φS(k,l)为频带k的相位,的短时傅里叶变换。
技术方案中所述窗函数选用矩形窗、汉宁窗或汉明窗,三种窗函数时域表示成统一的形式为:
当a=1时为矩形窗,a=0.5时为汉宁窗,a=0.54时为汉明窗;
式中为矩形窗函数,M为窗长,当0≤n≤M时,值为1;
窗函数的短时傅里叶变换为:
设第l帧包括谐波的频带为k',得到窗函数相位
所述利用短时傅里叶变换域的谐波模型得到频带相位,利用带噪语音相位和窗函数相位在相邻频带间估计纯净浊音相位的具体步骤如下:
1)利用短时傅里叶变换域的谐波模型得到频带相位的表达式:
公式中princ表示某种映射,使相位的范围在[-π,+π]之间;
2)从上述步骤1)公式得出频带相位与谐波相位、窗函数相位之间的关系,在相邻频带间估计窗函数相位:
设第l帧包括谐波的频带为k',在相邻频带k'+i之间计算其中i∈[-Δk,…,Δk], 表示向上取整函数;
3)在相邻频带间估计纯净浊音相位,如下所示:
利用带噪语音谱得到带噪语音相位φY(k'),公式中φS(k')=φY(k'),利用步骤二(4)得到窗函数相位以及上述步骤2)得到的相邻频带间窗函数相位估计得到纯净浊音相位
步骤三中所述估计纯净语音幅度谱的具体步骤如下:
(1)把带噪语音谱表示成极坐标的形式,得到带噪语音幅度谱和带噪语音相位、纯净语音幅度谱和纯净语音相位以及噪声幅度谱和噪声相位;
(2)假设噪声谱的实部和虚部是相互独立的并都服从高斯分布,经极坐标转换以后,得到给定纯净语音幅度谱条件下的带噪语音幅度谱的概率密度函数;
(3)假设纯净语音幅度谱服从χ分布,得到纯净语音幅度谱的概率密度函数;
(4)假设纯净语音幅度谱和相位是相互独立的,利用最小均方误差估计和贝叶斯定理,以及带噪语音幅度谱的条件概率密度函数和纯净语音幅度谱的概率密度函数,通过积分运算得到结合相位差的纯净语音幅度谱;
(5)结合相位差的纯净语音幅度谱与步骤一估计得到的语音存在概率相结合,得到纯净语音幅度谱。
技术方案中所述的把带噪语音谱表示成极坐标的形式,是指把Y(k,l)=S(k,l)+V(k,l)表示成极坐标的形式:
其中R(k,l)、φY(k,l)分别表示带噪语音幅度谱和带噪语音相位,A(k,l)、φS(k,l)分别表示纯净语音幅度谱和纯净语音相位,B(k,l)、φV(k,l)分别表示噪声幅度谱和噪声相位;
所述给定纯净语音幅度谱条件下的带噪语音幅度谱的概率密度函数为:
所述纯净语音幅度谱的概率密度函数为:
公式中μ为形状参数,Γ(·)为伽玛函数。
所述纯净语音幅度谱的一般表达式为:
所述通过积分运算得到结合相位差的纯净语音幅度谱为:
公式中D.(ν)表示抛物柱面函数,β为压缩参数,r表示观测值;
所述纯净语音幅度谱为:
式中:P(H1|Y)为估计得到的语音存在概率,为结合相位差的纯净语音幅度谱。
步骤四中所述估计纯净语音信号的具体步骤如下:
1)重构得到纯净语音谱:根据清浊音判别的结果,浊音帧利用估计得到的纯净浊音相位,清音帧利用带噪语音相位,与估计得到的纯净语音幅度谱相结合,重构得到纯净语音谱:
当带噪语音信号为浊音帧时,是由步骤二(5)估计得到的纯净浊音相位;
当带噪语音信号为清音帧时,是带噪语音相位;
2)利用短时傅里叶逆变换和短时时域叠加法得到时域纯净语音信号,实现基于语音存在概率和相位估计的语音增强。
本发明的有益效果:
本发明方法是单通道语音增强方法,利用一个麦克风采集带噪语音信号,便于实施。该方法能很好地解决语音存在概率估计不准确的问题,而且充分利用浊音相位以及相位差对纯净语音幅度谱的补偿作用,从而提高语音增强方法的性能。
1、利用多元线性回归方法估计Q值,使其随着不同的噪声环境和信噪比自适应的改变,提高语音存在概率估计的准确性,改善传统语音增强方法的性能。
2、对纯净浊音相位进行估计,提高低信噪比时增强后语音信号的质量。
3、利用相位差对纯净语音幅度谱的补偿作用,有效地去除噪声,提高方法性能,促进单通道语音增强方法的发展。
4、本发明方法性能与噪声功率谱估计和基音频率估计的准确性密切相关,如果能提高噪声功率谱估计和基音频率估计方法的性能,本发明方法的性能会进一步得到提高。
附图说明
图1是本发明所述基于语音存在概率和相位估计的语音增强方法原理图;
图2是Babble噪声环境下语音信号时域波形对比图;
图3是Babble噪声环境下语谱图对比图。
具体实施方式
基于语音存在概率和相位估计的语音增强方法原理如图1所示。该方法在短时傅里叶变换域实现。由于语音信号的短时平稳性,首先进行分帧、加窗,然后进行短时傅里叶变换,对带噪语音谱求模以后得到带噪语音幅度谱。利用带噪语音幅度谱估计语音存在概率,同时估计结合相位差的纯净语音幅度谱,然后利用这两个估计得到本项目的纯净语音幅度谱。利用Q=1时得到的语音存在概率进行清浊音判别,然后利用带噪语音谱对浊音帧进行相位估计,重构信号时浊音帧利用估计得到的相位,清音帧利用带噪语音相位。最后通过短时傅里叶逆变换和短时时域叠加法得到增强后的时域语音信号。
估计语音存在概率在短时傅里叶变换域进行两个假设,H0表示语音不存在,H1表示语音存在。假设纯净语音谱和噪声谱都服从复高斯分布,根据两个假设条件下的概率密度函数和贝叶斯定理推导出语音不存在概率的表达式。语音不存在概率与语音存在的先验概率和语音不存在的先验概率的比值Q有关。本发明利用多元线性回归方法估计Q值,使其能够根据不同噪声、不同信噪比进行自适应变化。该方法涉及两个变量:先验信噪比ξ和Sr,Sr是带噪语音谱的局部能量与最小值的比值,这两个变量与Q值高度相关,可以作为独立变量预测Q值。利用多元线性回归方法和最小二乘法预测线性回归系数,估计得到Q值,然后得到语音不存在概率,进而得到语音存在概率。
利用Q=1时得到的语音存在概率进行清浊音判别,然后利用带噪语音谱对浊音帧进行相位估计,清音帧仍然利用带噪语音相位。
假设噪声谱的实部和虚部相互独立并服从高斯分布,经极坐标转换以后,得到给定语音谱条件下的带噪语音谱的条件概率密度函数。假设纯净语音幅度谱服从χ分布,并且纯净语音幅度谱和相位是相互独立的,利用贝叶斯定理以及最小均方误差估计,估计结合相位差的纯净语音幅度谱。
把估计得到的语音存在概率和结合相位差的纯净语音幅度谱结合在一起,得到本发明的纯净语音幅度谱。该方法对Q值进行估计,提高了语音存在概率估计的准确性。同时结合相位差信息,充分利用相位对纯净语音幅度谱的补偿作用,提高了纯净语音幅度谱估计的准确性。
纯净语音信号取自TIMIT语音库,噪声取自Noise-92噪声库,纯净语音信号和噪声信号的采样频率都调整为16kHz。在Babble噪声环境下,信噪比为5dB时,用MATLAB仿真软件进行仿真实验,实验步骤如下:
步骤一:估计语音存在概率,具体步骤如下:
1、对带噪语音信号进行分帧、加窗和短时傅里叶变换,得到短时傅里叶变换域的带噪语音谱Y(k,l)=S(k,l)+V(k,l),其中k为频带,l为帧序号。实验中帧长为256点,50%帧重叠,加汉明窗,N=256点短时傅里叶变换。
2、在短时傅里叶变换域用H0和H1表示语音不存在和存在假设,如下所示:
H0:Y(k,l)=V(k,l)
H1:Y(k,l)=S(k,n)+V(k,l)
根据纯净语音谱和噪声谱都服从复高斯分布的假设,语音不存在和存在两个假设条件下的带噪语音谱的条件概率密度函数分别表示为:
上述公式中分别为纯净语音功率谱密度和噪声功率谱密度,R(k,l)=|Y(k,l)|为带噪语音幅度谱。
3、第k个频带的似然比Λ(k,l)公式为:
上述公式中分别为先验信噪比和后验信噪比;
先验信噪比ξ(k,l)是利用直接判决法进行估计的,如下所示:
公式中αDD为常数,为前一帧估计的纯净语音幅度谱。实验中αDD=0.98,噪声功率谱密度采用基于最小均方误差的无偏估计(Unbiased MMSE-BasedNoise Power Estimation With Low Complexity and Low Tracking Delay)方法进行估计。
4、利用多元线性回归方法估计Q值,比值Q=P(H1)/P(H0),P(H1)表示语音存在的先验概率,P(H0)=1-P(H1)表示语音不存在的先验概率。方法如下所示:
Qi=β01ξi2Srii
公式中β0、β1和β2分别为常数的回归系数,ξi和Sri为变量,εi为误差;
所述回归系数是通过最小二乘法估计得到的,表示成向量和矩阵的形式为:
公式中B=[Q1Q2…QN]T,N为短时傅里叶变换的点数;
最后估计得到的Q值为:
式中Smin=min{R2(k,l-D+1),R2(k,l-D+2),…,R2(k,l)},D为常数。实验中D=3。
5、利用贝叶斯定理、似然比和估计的Q值,得到语音不存在概率:
6、概率利用P(H1|Y(k,l)=1-P(H0|Y(k,l)),得到语音存在概率。
步骤二:估计纯净浊音相位,具体步骤如下:
1、本发明利用Q=1时得到的语音存在概率进行清浊音判别。由于语音存在概率是每一帧的每个频带都进行估计,而清浊音判决只需判别某一帧是否为浊音帧或清音帧,所以本发明把每一帧得到的语音存在概率的估计值求和,然后设定一个合理的门限值,高于此门限值为浊音帧,否则为清音帧。然后利用基于自相关的方法对浊音帧估计基音频率f0
2、利用基音频率、谐波表示形式得到纯净浊音信号的时域语音模型为
公式中H为谐波数,2Ah为幅度,为谐波h的时域初始相位,Ωh=2πfh/fs=2π(h+1)f0/fs∈[0,2π)为归一化角频率,其中fs、f0和fh分别表示采样频率,基音频率和谐波频率。实验中fs=16kHz,谐波数H=(fs/2-fs/N)/f0并向下取整。
3、把纯净浊音信号的时域语音模型利用短时傅里叶变换变换到短时傅里叶变换域,得到短时傅里叶变换域的谐波模型为:
上述公式中w(n)为窗函数,L为窗移;设其中Ωk=2πk/N是频带k的中心频率,为最接近Ωk的谐波频率,N为短时傅里叶变换的点数。设谐波幅度为谐波相位为则短时傅里叶变换域的谐波模型表示为:
公式中φS(k,l)为频带k的相位,的短时傅里叶变换。实验中N=256。
4、窗函数选用矩形窗、汉宁窗或汉明窗,三种窗函数时域表示成统一的形式为:
当a=1时为矩形窗,a=0.5时为汉宁窗,a=0.54时为汉明窗;
式中为矩形窗函数,M为窗长,当0≤n≤M时,值为1;
窗函数的短时傅里叶变换为:
设第l帧包括谐波的频带为k',得到窗函数相位实验中,采用汉明窗,a=0.54,M=256。
5、利用短时傅里叶变换域的谐波模型得到频带相位,利用带噪语音相位和窗函数相位在相邻频带间估计纯净浊音相位的具体步骤如下:
1)利用短时傅里叶变换域的谐波模型得到频带相位的表达式:
公式中princ表示某种映射,使相位的范围在[-π,+π]之间;
2)从上述步骤1)公式得出频带相位与谐波相位、窗函数相位之间的关系,在相邻频带间估计窗函数相位:
设第l帧包括谐波的频带为k',在相邻频带k'+i之间计算其中i∈[-Δk,…,Δk], 表示向上取整函数;
3)在相邻频带间估计纯净浊音相位,如下所示:
利用带噪语音谱得到带噪语音相位φY(k'),公式中φS(k')=φY(k'),利用步骤二(4)得到窗函数相位以及上述步骤2)得到的相邻频带间窗函数相位估计得到纯净浊音相位
步骤三:估计幅度谱,具体步骤如下:
1、把Y(k,l)=S(k,l)+V(k,l)表示成极坐标的形式:
其中R(k,l)、φY(k,l)分别表示带噪语音幅度谱和带噪语音相位,A(k,l)、φS(k,l)分别表示纯净语音幅度谱和纯净语音相位,B(k,l)、φV(k,l)分别表示噪声幅度谱和噪声相位。
2、假设噪声谱的实部和虚部是相互独立的并都服从高斯分布,经极坐标转换以后,得到给定纯净语音幅度谱条件下的带噪语音幅度谱的概率密度函数:
3、假设纯净语音幅度谱服从χ分布,纯净语音幅度谱的概率密度函数为:
公式中μ为形状参数,Γ(·)为伽玛函数。
4、假设纯净语音幅度谱和相位是相互独立的,利用最小均方误差估计和贝叶斯定理,以及带噪语音幅度谱的条件概率密度函数和纯净语音幅度谱的概率密度函数,通过积分运算得到结合相位差的纯净语音幅度谱为:
上述公式中D.(ν)表示抛物柱面函数,β为压缩参数,r表示观测值。实验中μ=0.5,β=0.5,浊音帧时φS为步骤二估计的纯净浊音相位,清音帧时φS为带噪语音相位。
5、结合相位差的纯净语音幅度谱与步骤一估计得到的语音存在概率相结合,得到纯净语音幅度谱为:
步骤四:估计纯净语音信号,具体步骤如下:
1、重构得到纯净语音谱:根据清浊音判别的结果,浊音帧利用估计得到的纯净浊音相位,清音帧利用带噪语音相位,与估计得到的纯净语音幅度谱相结合,重构得到纯净语音谱:
当带噪语音信号为浊音帧时,是由步骤二(5)估计得到的纯净浊音相位;
当带噪语音信号为清音帧时,是带噪语音相位;
2、利用短时傅里叶逆变换和短时时域叠加法得到时域纯净语音信号,实现基于语音存在概率和相位估计的语音增强。
本发明方法与结合相位差的语音增强方法进行对比。结合相位差语音增强方法是利用步骤三第4步估计得到结合相位差的纯净语音幅度谱,然后利用的带噪语音相位重构信号得到的语音增强方法,实验中φYS=0。时域波形图和语谱图如图2和图3所示。
图2从上到下依次为纯净语音信号、带噪语音信号、结合相位差语音增强方法增强后的语音信号和本发明语音增强方法增强后的语音信号,图3为对应的语谱图(Babble噪声,信噪比为5dB)。带噪语音信号、结合相位差语音增强方法和本发明方法得到的感知语音质量评价(Perceptual Evaluation of Speech Quality,PESQ)值分别为1.853、2.041和2.116,说明两种语音增强方法都对语音信号的质量有所改进,但本发明方法优于结合相位差语音增强方法。

Claims (9)

1.一种基于语音存在概率和相位估计的语音增强方法,其特征在于,包括以下步骤:
步骤一:估计语音存在概率:
步骤二:估计纯净浊音相位;
步骤三:估计纯净语音幅度谱;
步骤四:估计纯净语音信号;
步骤一中所述估计语音存在概率的具体步骤如下:
(1)通过对带噪语音信号进行分帧、加窗和短时傅里叶变换,得到短时傅里叶变换域的带噪语音谱;
(2)在短时傅里叶变换域进行语音不存在和存在的假设,根据纯净语音谱和噪声谱都服从复高斯分布的假设,得到语音不存在和存在两个假设条件下的带噪语音谱的条件概率密度函数;
(3)利用先验信噪比和后验信噪比得到似然比;
(4)利用多元线性回归方法估计语音存在的先验概率(a priori probabilityofspeech presence)与语音不存在的先验概率(apriori probability ofspeechabsence)的比值Q;
(5)利用贝叶斯定理、似然比和估计的Q值得到语音不存在概率;
(6)利用语音不存在概率得到语音存在概率。
2.根据权利要求1所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
所述带噪语音谱是通过对带噪语音信号进行分帧、加窗和短时傅里叶变换,得到短时傅里叶变换域的带噪语音谱Y(k,l)=S(k,l)+V(k,l),其中S(k,l)表示纯净语音谱,V(k,l)表示噪声谱,k为频带,l为帧序号;
所述语音不存在和存在的假设分别用H0表示语音不存在,H1表示语音存在,H0和H1两个假设公式表示如下:
H0:Y(k,l)=V(k,l)
H1:Y(k,l)=S(k,l)+V(k,l)
H0和H1这两个假设条件下的带噪语音谱的条件概率密度函数分别表示为:
上述公式中分别为纯净语音功率谱密度和噪声功率谱密度,R(k,l)=|Y(k,l)|为带噪语音幅度谱;
所述似然比为第k个频带的似然比Λ(k,l),第k个频带的似然比Λ(k,l)公式为:
上述公式中分别为先验信噪比和后验信噪比;
所述先验信噪比ξ(k,l)是利用直接判决法进行估计的,如下所示:
公式中αDD为常数,为前一帧估计的纯净语音幅度谱;
所述比值Q=P(H1)/P(H0);
所述语音不存在概率表示为:
P(H1)表示语音存在的先验概率,P(H0)=1-P(H1)表示语音不存在的先验概率;
所述语音不存在概率表示为P(H0|Y(k,l));语音存在概率表示为P(H1|Y(k,l));
所述利用语音不存在概率得到语音存在概率,是指利用P(H1|Y(k,l)=1-P(H0|Y(k,l)),得到语音存在概率。
3.根据权利要求1所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
所述利用多元线性回归方法估计Q值,方法如下所示:
Qi=β01ξi2Srii
公式中β0、β1和β2分别为常数的回归系数,ξi和Sri为变量,εi为误差;
所述回归系数是通过最小二乘法估计得到的,表示成向量和矩阵的形式为:
公式中B=[Q1Q2…QN]T,N为短时傅里叶变换的点数;
最后估计得到的Q值为:
式中Smin=min{R2(k,l-D+1),R2(k,l-D+2),…,R2(k,l)},D为常数。
4.根据权利要求1所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
步骤二中所述估计纯净浊音相位的具体步骤如下:
(1)利用Q=1时得到的语音存在概率进行清浊音判别,然后利用自相关法估计浊音帧的基音频率;
(2)利用基音频率、谐波表示形式得到纯净浊音信号的时域语音模型;
(3)把纯净浊音信号的时域语音模型利用短时傅里叶变换变换到短时傅里叶变换域,得到短时傅里叶变换域的谐波模型;
(4)对窗函数的统一表达式进行短时傅里叶变换,得到谐波频带内窗函数相位;
(5)利用短时傅里叶变换域的谐波模型得到频带相位,利用带噪语音相位和窗函数相位在相邻频带间估计纯净浊音相位。
5.根据权利要求4所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
所述纯净浊音信号的时域语音模型为
公式中H为谐波数,2Ah为幅度,为谐波h的时域初始相位,Ωh=2πfh/fs=2π(h+1)f0/fs∈[0,2π)为归一化角频率,其中fs、f0和fh分别表示采样频率,基音频率和谐波频率;
所述把纯净浊音信号的时域语音模型变换到短时傅里叶变换域的公式表示如下:
上述公式中w(n)为窗函数,L为窗移;设其中Ωk=2πk/N是频带k的中心频率,为最接近Ωk的谐波频率,N为短时傅里叶变换的点数;
设谐波幅度为谐波相位为则短时傅里叶变换域的谐波模型表示为:
公式中φS(k,l)为频带k的相位,的短时傅里叶变换。
6.根据权利要求4所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
所述窗函数选用矩形窗、汉宁窗或汉明窗,三种窗函数时域表示成统一的形式为:
当a=1时为矩形窗,a=0.5时为汉宁窗,a=0.54时为汉明窗;
式中为矩形窗函数,M为窗长,当0≤n≤M时,值为1;
窗函数的短时傅里叶变换为:
设第l帧包括谐波的频带为k',得到窗函数相位
所述利用短时傅里叶变换域的谐波模型得到频带相位,利用带噪语音相位和窗函数相位在相邻频带间估计纯净浊音相位的具体步骤如下:
1)利用短时傅里叶变换域的谐波模型得到频带相位的表达式:
公式中princ表示某种映射,使相位的范围在[-π,+π]之间;
2)从上述步骤1)公式得出频带相位与谐波相位、窗函数相位之间的关系,在相邻频带间估计窗函数相位:
设第l帧包括谐波的频带为k',在相邻频带k'+i之间计算其中i∈[-Δk,…,Δk], 表示向上取整函数;
3)在相邻频带间估计纯净浊音相位,如下所示:
利用带噪语音谱得到带噪语音相位φY(k'),公式中φS(k')=φY(k'),利用步骤二(4)得到窗函数相位以及上述步骤2)得到的相邻频带间窗函数相位估计得到纯净浊音相位
7.根据权利要求1所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
步骤三中所述估计纯净语音幅度谱的具体步骤如下:
(1)把带噪语音谱表示成极坐标的形式,得到带噪语音幅度谱和带噪语音相位、纯净语音幅度谱和纯净语音相位以及噪声幅度谱和噪声相位;
(2)假设噪声谱的实部和虚部是相互独立的并都服从高斯分布,经极坐标转换以后,得到给定纯净语音幅度谱条件下的带噪语音幅度谱的概率密度函数;
(3)假设纯净语音幅度谱服从χ分布,得到纯净语音幅度谱的概率密度函数;
(4)假设纯净语音幅度谱和相位是相互独立的,利用最小均方误差估计和贝叶斯定理,以及带噪语音幅度谱的条件概率密度函数和纯净语音幅度谱的概率密度函数,通过积分运算得到结合相位差的纯净语音幅度谱;
(5)结合相位差的纯净语音幅度谱与步骤一估计得到的语音存在概率相结合,得到纯净语音幅度谱。
8.根据权利要求7所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
所述的把带噪语音谱表示成极坐标的形式,是指把Y(k,l)=S(k,l)+V(k,l)表示成极坐标的形式:
其中R(k,l)、φY(k,l)分别表示带噪语音幅度谱和带噪语音相位,A(k,l)、φS(k,l)分别表示纯净语音幅度谱和纯净语音相位,B(k,l)、φV(k,l)分别表示噪声幅度谱和噪声相位;
所述给定纯净语音幅度谱条件下的带噪语音幅度谱的概率密度函数为:
所述纯净语音幅度谱的概率密度函数为:
公式中μ为形状参数,Γ(·)为伽玛函数;
所述纯净语音幅度谱的一般表达式为:
所述通过积分运算得到结合相位差的纯净语音幅度谱为:
公式中D.(v)表示抛物柱面函数,β为压缩参数,r表示观测值;
所述纯净语音幅度谱为:
式中:P(H1|Y)为估计得到的语音存在概率,为结合相位差的纯净语音幅度谱。
9.根据权利要求4所述的一种基于语音存在概率和相位估计的语音增强方法,其特征在于:
步骤四中所述估计纯净语音信号的具体步骤如下:
1)重构得到纯净语音谱:根据清浊音判别的结果,浊音帧利用估计得到的纯净浊音相位,清音帧利用带噪语音相位,与估计得到的纯净语音幅度谱相结合,重构得到纯净语音谱:
当带噪语音信号为浊音帧时,是由步骤二(5)估计得到的纯净浊音相位;
当带噪语音信号为清音帧时,是带噪语音相位;
2)利用短时傅里叶逆变换和短时时域叠加法得到时域纯净语音信号,实现基于语音存在概率和相位估计的语音增强。
CN201710190512.2A 2017-03-28 2017-03-28 基于语音存在概率和相位估计的语音增强方法 Expired - Fee Related CN106971740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710190512.2A CN106971740B (zh) 2017-03-28 2017-03-28 基于语音存在概率和相位估计的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710190512.2A CN106971740B (zh) 2017-03-28 2017-03-28 基于语音存在概率和相位估计的语音增强方法

Publications (2)

Publication Number Publication Date
CN106971740A CN106971740A (zh) 2017-07-21
CN106971740B true CN106971740B (zh) 2019-11-15

Family

ID=59336162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710190512.2A Expired - Fee Related CN106971740B (zh) 2017-03-28 2017-03-28 基于语音存在概率和相位估计的语音增强方法

Country Status (1)

Country Link
CN (1) CN106971740B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111226278B (zh) * 2017-08-17 2023-08-25 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
CN108053842B (zh) * 2017-12-13 2021-09-14 电子科技大学 基于图像识别的短波语音端点检测方法
CN108831499B (zh) * 2018-05-25 2020-07-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108986832B (zh) * 2018-07-12 2020-12-15 北京大学深圳研究生院 基于语音出现概率和一致性的双耳语音去混响方法和装置
CN110164467B (zh) * 2018-12-18 2022-11-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
CN109817234B (zh) * 2019-03-06 2021-01-26 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN110648687B (zh) * 2019-09-26 2020-10-09 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统
CN110931035B (zh) * 2019-12-09 2023-10-10 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质
CN111564154B (zh) * 2020-03-23 2023-08-08 北京邮电大学 基于语音增强算法的对抗样本攻击防御方法及装置
CN112533120B (zh) * 2020-11-23 2022-04-22 北京声加科技有限公司 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置
CN114242098B (zh) * 2021-12-13 2023-08-29 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN117672247B (zh) * 2024-01-31 2024-04-02 中国电子科技集团公司第十五研究所 一种实时音频滤除窄带噪声的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN102347027A (zh) * 2011-07-07 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及其语音增强方法
CN102419981A (zh) * 2011-11-02 2012-04-18 展讯通信(上海)有限公司 音频信号时间尺度和频率尺度缩放处理方法及设备
CN202887704U (zh) * 2012-06-18 2013-04-17 歌尔声学股份有限公司 一种单通道语音去混响装置
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079266A (zh) * 2006-05-23 2007-11-28 中兴通讯股份有限公司 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN102347027A (zh) * 2011-07-07 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及其语音增强方法
CN102419981A (zh) * 2011-11-02 2012-04-18 展讯通信(上海)有限公司 音频信号时间尺度和频率尺度缩放处理方法及设备
CN202887704U (zh) * 2012-06-18 2013-04-17 歌尔声学股份有限公司 一种单通道语音去混响装置
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"MMSE-optimal spectral amplitude estimation given the STFT-phase";Timo Gerkmann等;《IEEE SIGNAL PROCESSING LETTERS》;20130228;第20卷(第2期);全文 *
"基于稀疏表示的语音增强方法研究";赵彦平;《中国博士学位论文全文数据库信息科技辑》;20140915;参见第7、63-66页 *

Also Published As

Publication number Publication date
CN106971740A (zh) 2017-07-21

Similar Documents

Publication Publication Date Title
CN106971740B (zh) 基于语音存在概率和相位估计的语音增强方法
Xu et al. A regression approach to speech enhancement based on deep neural networks
Xu et al. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN106486131B (zh) 一种语音去噪的方法及装置
Sun et al. Speech enhancement under low SNR conditions via noise estimation using sparse and low-rank NMF with Kullback–Leibler divergence
Xu et al. Global variance equalization for improving deep neural network based speech enhancement
Saleem et al. Deepresgru: residual gated recurrent neural network-augmented kalman filtering for speech enhancement and recognition
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN110070880A (zh) 用于分类的联合统计模型的建立方法及应用方法
Saito et al. Text-to-speech synthesis using STFT spectra based on low-/multi-resolution generative adversarial networks
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Krawczyk-Becker et al. On MMSE-based estimation of amplitude and complex speech spectral coefficients under phase-uncertainty
Liu et al. A novel pitch extraction based on jointly trained deep BLSTM recurrent neural networks with bottleneck features
Cheng et al. A deep adaptation network for speech enhancement: Combining a relativistic discriminator with multi-kernel maximum mean discrepancy
Huang et al. DNN-based speech enhancement using MBE model
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
Liu et al. Speech enhancement based on analysis–synthesis framework with improved parameter domain enhancement
Mohammadiha et al. Transient noise reduction using nonnegative matrix factorization
Bao et al. Noise masking method based on an effective ratio mask estimation in Gammatone channels
Zhang et al. Spectral subtraction on real and imaginary modulation spectra
Wang et al. Research on speech enhancement based on deep neural network
Shu-Guang et al. Isolated word recognition in reverberant environments
Liang et al. Real-time speech enhancement algorithm for transient noise suppression
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191115

CF01 Termination of patent right due to non-payment of annual fee