CN108831495A - 一种应用于噪声环境下语音识别的语音增强方法 - Google Patents

一种应用于噪声环境下语音识别的语音增强方法 Download PDF

Info

Publication number
CN108831495A
CN108831495A CN201810564920.4A CN201810564920A CN108831495A CN 108831495 A CN108831495 A CN 108831495A CN 201810564920 A CN201810564920 A CN 201810564920A CN 108831495 A CN108831495 A CN 108831495A
Authority
CN
China
Prior art keywords
time
signal
voice
voice signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810564920.4A
Other languages
English (en)
Other versions
CN108831495B (zh
Inventor
曾庆宁
刘伟波
罗瀛
唐滔
李玉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810564920.4A priority Critical patent/CN108831495B/zh
Publication of CN108831495A publication Critical patent/CN108831495A/zh
Application granted granted Critical
Publication of CN108831495B publication Critical patent/CN108831495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明公开了一种应用于噪声环境下语音识别的语音增强方法,该方法将利用语音时频域稀疏性原理的基于时频掩蔽的改进MVDR波束形成与改进维纳滤波相结合,采集麦克风阵列语音信号,构建一个基于时频掩蔽的MVDR波束形成器,充分利用语音信号的空间信息,增强目标方向的语音信号,抑制其他方向噪声的干扰,然后通过一个改进的维纳滤波器去除残留的噪声并提高语音可懂度,该方法应用在语音识别前端,能够有效去除噪声,提高语音可懂度,进而提高语音识别系统的识别率,解决了在噪声环境下如何减少语音失真,提高噪声环境下语音的识别率的问题。该方法可应用在家居型机器人,智能语音设备等方面。

Description

一种应用于噪声环境下语音识别的语音增强方法
技术领域
本发明涉及噪声环境下语音识别技术领域,具体是一种应用于噪声环境下语音识别的语音增强方法。
背景技术
随着计算机和互联网技术的发展,语音识别技术取得了显著的进步,开始从科研机构研究逐步走向市场,广泛应用于工业、通信、家庭服务、医疗等各个领域。语音识别主要是为了能够让机器理解人类语言的内容,以执行相应的操作,实现人机交互的目的。
近些年来,语音识别技术发展迅速,单通道语音识别技术在理想环境下已经取得了较高的识别率,如何提高实际场景噪声环境下语音的识别率是现阶段研究人员关注的焦点。为解决噪声污染问题,提高语音可懂度和语音识别率,近年来提出了多种适方法,如谱减法、基于维纳滤波的方法,子空间分解法,最小均方误差估计等,这些算法虽然在一定程度上有效地去除噪声,但同时也不同程度地产生失真和引入音乐噪声,导致增强后语音的识别率并没有得到大的改善。
采用多通道麦克风阵列,与单通道语音识别相比,能更好的采集目标声源信号并提高语音可懂度,目前采用的方法有固定波束形成,自适应噪声抵消等。
发明内容
本发明的目的在于针对安静环境下语音识别率高而噪声环境下识别率急剧下降的问题,而提出了一种应用于噪声环境下语音识别的语音增强方法,该方法能够有效去除实际环境下含噪语音信号中的噪声成分,提高语音识别系统的语音识别率,对于家居型语音交互机器人或移动智能设备有良好的应用前景。
实现本发明目的的技术方案是:
一种应用于噪声环境下语音识别的语音增强方法,是构建一个基于时频掩蔽的MVDR波束形成器,并后置一个改进维纳滤波器对目标声源方向进行语音增强处理,具体包括如下步骤:
1)采用四元麦克风阵列模型接收语音信号,麦克风阵列接收到的带噪语音信号的时域表示为:ym(t)=sm(t)+nm(t),m=1,2,……M,其中M表示麦克风数,sm(t)表示纯净语音信号,nm(t)表示干扰噪声信号;
2)对步骤1)接收到的带噪语音信号进行短时傅里叶变换,得到时频域信号的表示形式为Ym(f,t)=Sm(f,t)+Nm(f,t),其中Ym(f,t)、Sm(f,t)、Nm(f,t)分别表示第m个麦克风采集到的在时间t、频率f处的信号、目标声源信号和噪声信号,则所有麦克风阵列信号表示为Y(f,t)=[Y1(f,t),…,YM(f,t)]T
3)构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,通过将步骤2)中的麦克风阵列信号的矢量系数与复权因子相乘,得到麦克风阵列初步增强的语音信号;
4)在步骤3)中的构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,还后置一个改进维纳滤波器,对步骤3)得到麦克风阵列初步增强的语音信号的目标声源方向进行进一步的语音增强处理,对于经过基于时频掩蔽的MVDR波束形成器后,语音含有噪声残留及语音畸变,使用一个改进的维纳滤波器提高语音的可懂度,得到最终增强后的语音信号;
5)对步骤4)得到的最终增强后的语音信号,提取梅尔频率倒谱系数及其一阶导数,作为特征参数,输入到通过隐马尔可夫模型搭建并使用纯净语音训练好的语音识别系统中进行识别。
所述步骤3),具体包括如下步骤:
3-1)通过将步骤2)中的麦克风阵列信号矢量系数Y(f,t)与复权因子Wf相乘,得到通过基于时频掩蔽的改进最小方差无畸变响应滤波器增强后的语音信号的表达式为:
其中W(f)=[W1(f),W2(f),…,WM(f)],Wf H表示加权系数矢量的共轭转置;
为了抑制非目标信号声源,使加权矢量Wf的客观准则为输出信号的信噪比最大,Wf需满足下列约束条件:
Wf Hr(f)=1
其中为噪声协方差矩阵,r(f)为阵列目标声源信号的导向矢量,利用Lagrange乘子法计算即可得到MVDR波束形成器的加权系数向量为:
其中表示麦克风阵列输入信号的协方差矩阵,由此知,准确求得导向矢量是进行波束形成的关键;
3-2)通过求解期望语音信号的协方差矩阵的主特征向量来估计导向矢量rf由下面的公式求得,假设语音信号与噪声不相关,则期望语音信号的协方差矩阵为为:
其中分别为在时频点(f,t)包含噪声语音和仅含有噪声的存在概率的作为该点的时频掩蔽,由步骤3-5)求得;
3-3)对步骤3-2)求得期望语音信号的协方差矩阵的进行特征值分解,其最大特征值对应的特征向量即为估计的导向矢量;
3-4)考虑语音信号在时频域的稀疏性,假设语音信号每个时频点可以聚类为两类,一种是包含噪声的语音信号,一类只含有噪声的信号,
基于语音信号在时频域的稀疏性原理,定义一个目标函数进行软时频掩蔽估
计,以此建立一个生成模型,首先假设Sl(f,t)局部遵循复高斯分布:
其中,表示在该时频点的方差,并且
3-5)由步骤3-4)得麦克风阵列信号服从如下所示的复高斯分布:
其中使用最大似然准则估计复高斯分布的参数和Rf l,最大似然估计可以通过最大期望算法得到,定义一个最大期望算法迭代后的目标函数:
其中Θ表示估计的参数,是当前时频点所属类别的后验概率,该后验概率通过下列公式计算求得:
其中在进行第K次迭代时,复高斯混合模型的参数遵循下列准则进行更新:
其中K表示迭代次数,时频点(f,t)的时频掩蔽值通过收敛后获得;
3-6)由步骤3-5)求得代入到步骤3-2)中求得期望语音信号的协方差矩阵再对进行特征向量分解,得到最大特征值对应的特征向量即为步骤3-1)所需要的进行波束形成的导向矢量,然后求得基于时频掩蔽的最小方差无畸变响应波束形成器的加权系数向量Wf
通过下述公式计算得到波束形成后得到的增强语音信号:
经过上述步骤,可以得到麦克风阵列初步增强的语音信号。
所述的步骤4),具体包括如下步骤:
4-1)通过“直接判决”法,计算先验信噪比估计ξ(k,λ)和后验信噪比估计γ(k,λ),得到增益函数:
ξ(k,λ)=aGw 2(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)
其中ξ(k,λ)是第k个频带的先验信噪比估计,γ(k,λ)是第k个频带的后验信噪比估计,a是小于1的平滑系数;
4-2)为了缓解4-1)中ξ(k,λ)对前一帧语音幅度谱Gw(k,λ-1)的依赖,对其进行再次处理:
4-3)由于在先验信噪比小于-10dB的区域存在对ξ(k,λ)高估,对增强后语音幅度谱大于6.02dB的畸变区域对可懂度有较大影响,针对这种情况分别采用下列方法进行修正:
对小于先验信噪比小于-10dB的区域通过引入偏差来修正增益函数的值,进而提升语音的可懂度,增益函数修正为:
其中,b取值范围为(0,1),本文中b=0.2。
对幅度谱畸变大于6.02dB的语音畸变区域进行限制:对语音幅度谱进行修正得到最终增强后的语音:
其中d为大于0小于1的常数,对得到的增强后语音信号的频域进行傅里叶逆变换即得到增强后语音信号的时域表示形式。
步骤5)中,提取的梅尔频率倒谱系数及其一阶导数共24维特征参数。
本发明提供的一种应用于噪声环境下语音识别的语音增强方法,能够准确估计麦克风阵列结构目标语音的声源方向的导向矢量,特别在噪声环境下具有较强的鲁棒性,能够达到较好的去噪效果,能够减少去噪过程中对目标语音产生的畸变,将其应用在语音识别系统的前端,能够对带噪语音信号进行前端处理,提高其在语音识别系统中的识别率。
附图说明
图1为本发明方法的语音识别原理框图;
图2为基于时频掩蔽的最小方差无畸变响应波束形成原理框图;
图3为实施例中的背景噪声为white噪声,且信噪比为0dB情况下的加噪语音信号时域示意图;
图4为实施例中的背景噪声为white噪声,且信噪比为0dB情况下的加噪语音信号经本发明方法去噪后的时域示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示,一种应用于噪声环境下语音识别的语音增强方法,是构建一个基于时频掩蔽的MVDR波束形成器,并后置一个改进维纳滤波器对目标声源方向进行语音增强处理,具体包括如下步骤:
1)采用四元麦克风阵列模型接收语音信号,麦克风阵列接收到的带噪语音信号的时域表示为:ym(t)=sm(t)+nm(t),m=1,2,……M,其中M表示麦克风数,sm(t)表示纯净语音信号,nm(t)表示干扰噪声信号;
2)对步骤1)接收到的带噪语音信号进行短时傅里叶变换,得到时频域信号的表示形式为Ym(f,t)=Sm(f,t)+Nm(f,t),其中Ym(f,t)、Sm(f,t)、Nm(f,t)分别表示第m个麦克风采集到的在时间t、频率f处的信号、目标声源信号和噪声信号,则所有麦克风阵列信号表示为Y(f,t)=[Y1(f,t),…,YM(f,t)]T
3)构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,通过将步骤2)中的麦克风阵列信号的矢量系数与复权因子相乘,得到麦克风阵列初步增强的语音信号;
4)在步骤3)中的构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,还后置一个改进维纳滤波器,对步骤3)得到麦克风阵列初步增强的语音信号的目标声源方向进行进一步的语音增强处理,对于经过基于时频掩蔽的MVDR波束形成器后,语音含有噪声残留及语音畸变,使用一个改进的维纳滤波器提高语音的可懂度,得到最终增强后的语音信号;
5)对步骤4)得到的最终增强后的语音信号,提取梅尔频率倒谱系数及其一阶导数,作为特征参数,输入到通过隐马尔可夫模型搭建并使用纯净语音训练好的语音识别系统中进行识别。
如图2所示,所述步骤3),具体包括如下步骤:
3-1)通过将步骤2)中的麦克风阵列信号矢量系数Y(f,t)与复权因子Wf相乘,得到通过基于时频掩蔽的改进最小方差无畸变响应滤波器增强后的语音信号的表达式为:
其中W(f)=[W1(f),W2(f),…,WM(f)],Wf H表示加权系数矢量的共轭转置;
为了抑制非目标信号声源,使加权矢量Wf的客观准则为输出信号的信噪比最大,Wf需满足下列约束条件:
Wf Hr(f)=1
其中为噪声协方差矩阵,r(f)为阵列目标声源信号的导向矢量,利用Lagrange乘子法计算即可得到MVDR波束形成器的加权系数向量为:
其中表示麦克风阵列输入信号的协方差矩阵,由此知,准确求得导向矢量是进行波束形成的关键;
3-2)通过求解期望语音信号的协方差矩阵的主特征向量来估计导向矢量rf由下面的公式求得,假设语音信号与噪声不相关,则期望语音信号的协方差矩阵为为:
其中分别为在时频点(f,t)包含噪声语音和仅含有噪声的存在概率的作为该点的时频掩蔽,由步骤3-5)求得;
3-3)对步骤3-2)求得期望语音信号的协方差矩阵的进行特征值分解,其最大特征值对应的特征向量即为估计的导向矢量;
3-4)考虑语音信号在时频域的稀疏性,假设语音信号每个时频点可以聚类为两类,一种是包含噪声的语音信号,一类只含有噪声的信号,
基于语音信号在时频域的稀疏性原理,定义一个目标函数进行软时频掩蔽估
计,以此建立一个生成模型,首先假设Sl(f,t)局部遵循复高斯分布:
其中,表示在该时频点的方差,并且
3-5)由步骤3-4)得麦克风阵列信号服从如下所示的复高斯分布:
其中使用最大似然准则估计复高斯分布的参数和Rf l,最大似然估计可以通过最大期望算法得到,定义一个最大期望算法迭代后的目标函数:
其中Θ表示估计的参数,是当前时频点所属类别的后验概率,该后验概率通过下列公式计算求得:
其中在进行第K次迭代时,复高斯混合模型的参数遵循下列准则进行更新:
其中K表示迭代次数,时频点(f,t)的时频掩蔽值通过收敛后获得;
3-6)由步骤3-5)求得代入到步骤3-2)中求得期望语音信号的协方差矩阵再对进行特征向量分解,得到最大特征值对应的特征向量即为步骤3-1)所需要的进行波束形成的导向矢量,然后求得基于时频掩蔽的最小方差无畸变响应波束形成器的加权系数向量Wf
通过下述公式计算得到波束形成后得到的增强语音信号:
经过上述步骤,可以得到麦克风阵列初步增强的语音信号。
所述的步骤4),具体包括如下步骤:
4-1)通过“直接判决”法,计算先验信噪比估计ξ(k,λ)和后验信噪比估计γ(k,λ),得到增益函数:
ξ(k,λ)=aGw 2(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)
其中ξ(k,λ)是第k个频带的先验信噪比估计,γ(k,λ)是第k个频带的后验信噪比估计,a是小于1的平滑系数;
4-2)为了缓解4-1)中ξ(k,λ)对前一帧语音幅度谱Gw(k,λ-1)的依赖,对其进行再次处理:
4-3)由于在先验信噪比小于-10dB的区域存在对ξ(k,λ)高估,对增强后语音幅度谱大于6.02dB的畸变区域对可懂度有较大影响,针对这种情况分别采用下列方法进行修正:
对小于先验信噪比小于-10dB的区域通过引入偏差来修正增益函数的值,进而提升语音的可懂度,增益函数修正为:
其中,b取值范围为(0,1),本文中b=0.2。
对幅度谱畸变大于6.02dB的语音畸变区域进行限制:对语音幅度谱进行修正得到最终增强后的语音:
其中d为大于0小于1的常数,对得到的增强后语音信号的频域进行傅里叶逆变换即得到增强后语音信号的时域表示形式。
步骤5)中,提取的梅尔频率倒谱系数及其一阶导数共24维特征参数。
图3与图4为验证本文算法对噪声环境下语音的去噪效果所做的实验验证的举例,图3为背景噪声为white噪声,信噪比为0dB情况下的一段加噪语音信号时域示意图,图4为实施例中的背景噪声为white噪声,信噪比为0dB情况下的加噪语音信号经本发明方法去噪后的时域示意图。由图3与图4可以明显看出,本发明的方法能够对噪声环境下的语音达到很好地去噪效果,然后对使用本发明的方法增强后的语音信号,提取梅尔频率倒谱系数及其一阶导数作为特征参数,输入到通过隐马尔可夫模型搭建的语音识别系统中进行识别,实验验证结果表明本方法能够提高噪声环境下的语音识别率。

Claims (4)

1.一种应用于噪声环境下语音识别的语音增强方法,是构建一个基于时频掩蔽的MVDR波束形成器,并后置一个改进维纳滤波器对目标声源方向进行语音增强处理,其特征在于,具体包括如下步骤:
1)采用四元麦克风阵列模型接收语音信号,麦克风阵列接收到的带噪语音信号的时域表示为:ym(t)=sm(t)+nm(t),m=1,2,……M,其中M表示麦克风数,sm(t)表示纯净语音信号,nm(t)表示干扰噪声信号;
2)对步骤1)接收到的带噪语音信号进行短时傅里叶变换,得到时频域信号的表示形式为Ym(f,t)=Sm(f,t)+Nm(f,t),其中Ym(f,t)、Sm(f,t)、Nm(f,t)分别表示第m个麦克风采集到的在时间t、频率f处的信号、目标声源信号和噪声信号,则所有麦克风阵列信号表示为Y(f,t)=[Y1(f,t),…,YM(f,t)]T
3)构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,通过将步骤2)中的麦克风阵列信号的矢量系数与复权因子相乘,得到麦克风阵列初步增强的语音信号;
4)在步骤3)中的构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器,还后置一个改进维纳滤波器,对步骤3)得到麦克风阵列初步增强的语音信号的目标声源方向进行进一步的语音增强处理,对于经过基于时频掩蔽的MVDR波束形成器后,语音含有噪声残留及语音畸变,使用一个改进的维纳滤波器提高语音的可懂度,得到最终增强后的语音信号;
5)对步骤4)得到的最终增强后的语音信号,提取梅尔频率倒谱系数及其一阶导数,作为特征参数,输入到通过隐马尔可夫模型搭建并使用纯净语音训练好的语音识别系统中进行识别。
2.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法,其特征在于,所述步骤3),具体包括如下步骤:
3-1)通过将步骤2)中的麦克风阵列信号矢量系数Y(f,t)与复权因子Wf相乘,得到通过基于时频掩蔽的改进最小方差无畸变响应滤波器增强后的语音信号的表达式为:
其中W(f)=[W1(f),W2(f),…,WM(f)],Wf H表示加权系数矢量的共轭转置;
为了抑制非目标信号声源,使加权矢量Wf的客观准则为输出信号的信噪比最大,Wf需满足下列约束条件:
Wf Hr(f)=1
其中为噪声协方差矩阵,r(f)为阵列目标声源信号的导向矢量,利用Lagrange乘子法计算即可得到MVDR波束形成器的加权系数向量为:
其中表示麦克风阵列输入信号的协方差矩阵,由此知,准确求得导向矢量是进行波束形成的关键;
3-2)通过求解期望语音信号的协方差矩阵的主特征向量来估计导向矢量rf由下面的公式求得,假设语音信号与噪声不相关,则期望语音信号的协方差矩阵为为:
其中分别为在时频点(f,t)包含噪声语音和仅含有噪声的存在概率的作为该点的时频掩蔽,由步骤3-5)求得;
3-3)对步骤3-2)求得期望语音信号的协方差矩阵的进行特征值分解,其最大特征值对应的特征向量即为估计的导向矢量;
3-4)考虑语音信号在时频域的稀疏性,假设语音信号每个时频点可以聚类为两类,一种是包含噪声的语音信号,一类只含有噪声的信号,
基于语音信号在时频域的稀疏性原理,定义一个目标函数进行软时频掩蔽估计,以此建立一个生成模型,首先假设Sl(f,t)局部遵循复高斯分布:其中,表示在该时频点的方差,并且
3-5)由步骤3-4)得麦克风阵列信号服从如下所示的复高斯分布:
其中使用最大似然准则估计复高斯分布的参数和Rf l,最大似然估计可以通过最大期望算法得到,定义一个最大期望算法迭代后的目标函数:
其中Θ表示估计的参数,是当前时频点所属类别的后验概率,该后验概率通过下列公式计算求得:
其中在进行第K次迭代时,复高斯混合模型的参数遵循下列准则进行更新:
其中K表示迭代次数,时频点(f,t)的时频掩蔽值通过收敛后获得;
3-6)由步骤3-5)求得代入到步骤3-2)中求得期望语音信号的协方差矩阵再对进行特征向量分解,得到最大特征值对应的特征向量即为步骤3-1)所需要的进行波束形成的导向矢量,然后求得基于时频掩蔽的最小方差无畸变响应波束形成器的加权系数向量Wf
通过下述公式计算得到波束形成后得到的增强语音信号:
经过上述步骤,可以得到麦克风阵列初步增强的语音信号。
3.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法,其特征在于,所述的步骤4),具体包括如下步骤:
4-1)通过“直接判决”法,计算先验信噪比估计ξ(k,λ)和后验信噪比估计γ(k,λ),得到增益函数:
ξ(k,λ)=aGw 2(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)
其中ξ(k,λ)是第k个频带的先验信噪比估计,γ(k,λ)是第k个频带的后验信噪比估计,a是小于1的平滑系数;
4-2)为了缓解4-1)中ξ(k,λ)对前一帧语音幅度谱Gw(k,λ-1)的依赖,对其进行再次处理:
4-3)由于在先验信噪比小于-10dB的区域存在对ξ(k,λ)高估,对增强后语音幅度谱大于6.02dB的畸变区域对可懂度有较大影响,针对这种情况分别采用下列方法进行修正:
对小于先验信噪比小于-10dB的区域通过引入偏差来修正增益函数的值,进而提升语音的可懂度,增益函数修正为:
其中,b取值范围为(0,1),本文中b=0.2。
对幅度谱畸变大于6.02dB的语音畸变区域进行限制:对语音幅度谱进行修正得到最终增强后的语音:
其中d为大于0小于1的常数,对得到的增强后语音信号的频域进行傅里叶逆变换即得到增强后语音信号的时域表示形式。
4.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法,其特征在于,步骤5)中,提取的梅尔频率倒谱系数及其一阶导数共24维特征参数。
CN201810564920.4A 2018-06-04 2018-06-04 一种应用于噪声环境下语音识别的语音增强方法 Active CN108831495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810564920.4A CN108831495B (zh) 2018-06-04 2018-06-04 一种应用于噪声环境下语音识别的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810564920.4A CN108831495B (zh) 2018-06-04 2018-06-04 一种应用于噪声环境下语音识别的语音增强方法

Publications (2)

Publication Number Publication Date
CN108831495A true CN108831495A (zh) 2018-11-16
CN108831495B CN108831495B (zh) 2022-11-29

Family

ID=64144021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810564920.4A Active CN108831495B (zh) 2018-06-04 2018-06-04 一种应用于噪声环境下语音识别的语音增强方法

Country Status (1)

Country Link
CN (1) CN108831495B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN109961799A (zh) * 2019-01-31 2019-07-02 杭州惠耳听力技术设备有限公司 一种基于迭代维纳滤波的助听器多通道语音增强算法
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN110164468A (zh) * 2019-04-25 2019-08-23 上海大学 一种基于双麦克风的语音增强方法及装置
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN110517703A (zh) * 2019-08-15 2019-11-29 北京小米移动软件有限公司 一种声音采集方法、装置及介质
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN111009252A (zh) * 2019-12-19 2020-04-14 电子科技大学 一种embedding编解码器的语音增强系统及方法
CN111028857A (zh) * 2019-12-27 2020-04-17 苏州蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN111277342A (zh) * 2019-12-19 2020-06-12 南京六九零二科技有限公司 一种使用矢量信号产生fdma多信道加噪波形的方法
CN111276150A (zh) * 2020-01-20 2020-06-12 杭州耳青聪科技有限公司 一种基于麦克风阵列的智能语音转文字及同声翻译系统
CN111383629A (zh) * 2020-03-20 2020-07-07 深圳市未艾智能有限公司 语音处理方法和装置、电子设备以及存储介质
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN111816200A (zh) * 2020-07-01 2020-10-23 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN111880146A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 声源定向方法和装置及存储介质
CN112216299A (zh) * 2019-07-12 2021-01-12 大众问问(北京)信息科技有限公司 双麦克风阵列波束形成方法、装置及设备
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法
CN112420068A (zh) * 2020-10-23 2021-02-26 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
CN112530453A (zh) * 2020-11-27 2021-03-19 五邑大学 一种适用于噪声环境下的语音识别方法及装置
CN112581973A (zh) * 2020-11-27 2021-03-30 深圳大学 一种语音增强方法及系统
CN112634930A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 多通道声音增强方法、装置及电子设备
CN112802490A (zh) * 2021-03-11 2021-05-14 北京声加科技有限公司 一种基于传声器阵列的波束形成方法和装置
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113782046A (zh) * 2021-09-09 2021-12-10 清华大学 一种用于远距离语音识别的麦克风阵列拾音方法及系统
CN113889137A (zh) * 2021-12-06 2022-01-04 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN114023352A (zh) * 2021-11-12 2022-02-08 华南理工大学 一种基于能量谱深度调制的语音增强方法及装置
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
US20120197636A1 (en) * 2011-02-01 2012-08-02 Jacob Benesty System and method for single-channel speech noise reduction
CN103517185A (zh) * 2012-06-26 2014-01-15 鹦鹉股份有限公司 对在嘈杂环境中操作的多话筒音频设备的声信号降噪的方法
US20160240210A1 (en) * 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
CN106716526A (zh) * 2014-09-05 2017-05-24 汤姆逊许可公司 用于增强声源的方法和装置
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
US20120197636A1 (en) * 2011-02-01 2012-08-02 Jacob Benesty System and method for single-channel speech noise reduction
CN103517185A (zh) * 2012-06-26 2014-01-15 鹦鹉股份有限公司 对在嘈杂环境中操作的多话筒音频设备的声信号降噪的方法
US20160240210A1 (en) * 2012-07-22 2016-08-18 Xia Lou Speech Enhancement to Improve Speech Intelligibility and Automatic Speech Recognition
CN106716526A (zh) * 2014-09-05 2017-05-24 汤姆逊许可公司 用于增强声源的方法和装置
US20170287499A1 (en) * 2014-09-05 2017-10-05 Thomson Licensing Method and apparatus for enhancing sound sources
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
X. XIAO 等: "On time-frequency mask estimation for MVDR beamforming with application in robust speech recognition", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
刘伟波 等: "低信噪比环境下语音识别的鲁棒性方法研究", 《声学技术》 *
王群 等: "低信噪比环境下的麦克风阵列语音识别算法研究", 《科学技术与工程》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN109830245B (zh) * 2019-01-02 2021-03-12 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN109961799A (zh) * 2019-01-31 2019-07-02 杭州惠耳听力技术设备有限公司 一种基于迭代维纳滤波的助听器多通道语音增强算法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN110164468B (zh) * 2019-04-25 2022-01-28 上海大学 一种基于双麦克风的语音增强方法及装置
CN110164468A (zh) * 2019-04-25 2019-08-23 上海大学 一种基于双麦克风的语音增强方法及装置
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110310658B (zh) * 2019-06-21 2021-11-30 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN110473564B (zh) * 2019-07-10 2021-09-24 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN112216299B (zh) * 2019-07-12 2024-02-20 大众问问(北京)信息科技有限公司 双麦克风阵列波束形成方法、装置及设备
CN112216299A (zh) * 2019-07-12 2021-01-12 大众问问(北京)信息科技有限公司 双麦克风阵列波束形成方法、装置及设备
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110400572B (zh) * 2019-08-12 2021-10-12 思必驰科技股份有限公司 音频增强方法及系统
CN110400572A (zh) * 2019-08-12 2019-11-01 苏州思必驰信息科技有限公司 音频增强方法及系统
CN110517703A (zh) * 2019-08-15 2019-11-29 北京小米移动软件有限公司 一种声音采集方法、装置及介质
CN110517703B (zh) * 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质
CN110600050A (zh) * 2019-09-12 2019-12-20 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110600050B (zh) * 2019-09-12 2022-04-15 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN111009252A (zh) * 2019-12-19 2020-04-14 电子科技大学 一种embedding编解码器的语音增强系统及方法
CN111277342B (zh) * 2019-12-19 2022-04-29 南京六九零二科技有限公司 一种使用矢量信号产生fdma多信道加噪波形的方法
CN111277342A (zh) * 2019-12-19 2020-06-12 南京六九零二科技有限公司 一种使用矢量信号产生fdma多信道加噪波形的方法
CN111028857A (zh) * 2019-12-27 2020-04-17 苏州蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111028857B (zh) * 2019-12-27 2024-01-19 宁波蛙声科技有限公司 基于深度学习的多通道音视频会议降噪的方法及系统
CN111276150A (zh) * 2020-01-20 2020-06-12 杭州耳青聪科技有限公司 一种基于麦克风阵列的智能语音转文字及同声翻译系统
CN111383629A (zh) * 2020-03-20 2020-07-07 深圳市未艾智能有限公司 语音处理方法和装置、电子设备以及存储介质
CN111554315A (zh) * 2020-05-29 2020-08-18 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN111554315B (zh) * 2020-05-29 2022-07-15 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN111880146B (zh) * 2020-06-30 2023-08-18 海尔优家智能科技(北京)有限公司 声源定向方法和装置及存储介质
CN111880146A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 声源定向方法和装置及存储介质
CN111816200B (zh) * 2020-07-01 2022-07-29 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法
CN111816200A (zh) * 2020-07-01 2020-10-23 电子科技大学 一种基于时频域二值掩膜的多通道语音增强方法
CN112420068A (zh) * 2020-10-23 2021-02-26 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
CN112420068B (zh) * 2020-10-23 2022-05-03 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
CN112349297B (zh) * 2020-11-10 2023-07-04 西安工程大学 一种基于麦克风阵列的抑郁症检测方法
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法
CN112581973B (zh) * 2020-11-27 2022-04-29 深圳大学 一种语音增强方法及系统
CN112530453A (zh) * 2020-11-27 2021-03-19 五邑大学 一种适用于噪声环境下的语音识别方法及装置
CN112581973A (zh) * 2020-11-27 2021-03-30 深圳大学 一种语音增强方法及系统
CN112530453B (zh) * 2020-11-27 2022-04-05 五邑大学 一种适用于噪声环境下的语音识别方法及装置
CN112634930A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 多通道声音增强方法、装置及电子设备
CN112802490B (zh) * 2021-03-11 2023-08-18 北京声加科技有限公司 一种基于传声器阵列的波束形成方法和装置
CN112802490A (zh) * 2021-03-11 2021-05-14 北京声加科技有限公司 一种基于传声器阵列的波束形成方法和装置
CN113030862A (zh) * 2021-03-12 2021-06-25 中国科学院声学研究所 一种多通道语音增强方法及装置
CN113223552B (zh) * 2021-04-28 2023-06-13 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113223552A (zh) * 2021-04-28 2021-08-06 锐迪科微电子(上海)有限公司 语音增强方法、装置、设备、存储介质及程序
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统
CN113628634B (zh) * 2021-08-20 2023-10-03 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113628634A (zh) * 2021-08-20 2021-11-09 随锐科技集团股份有限公司 一种指向信息引导的实时语音分离方法和装置
CN113782046A (zh) * 2021-09-09 2021-12-10 清华大学 一种用于远距离语音识别的麦克风阵列拾音方法及系统
CN114023352B (zh) * 2021-11-12 2022-12-16 华南理工大学 一种基于能量谱深度调制的语音增强方法及装置
CN114023352A (zh) * 2021-11-12 2022-02-08 华南理工大学 一种基于能量谱深度调制的语音增强方法及装置
CN113889137A (zh) * 2021-12-06 2022-01-04 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108831495B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN108831495A (zh) 一种应用于噪声环境下语音识别的语音增强方法
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
Zhang et al. A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR
Doclo et al. GSVD-based optimal filtering for single and multimicrophone speech enhancement
CN101369427B (zh) 用于音频信号处理的方法和装置
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
WO2015008699A1 (en) Method for processing acoustic signal
CN109741758A (zh) 一种双麦克风语音降噪方法
CN111091833A (zh) 一种降低噪声影响的端点检测方法
CN101853665A (zh) 语音中噪声的消除方法
CN105679330A (zh) 基于改进子带信噪比估计的数字助听器降噪方法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
CN107360497B (zh) 估算混响分量的计算方法及装置
CN107346658B (zh) 混响抑制方法及装置
Bu et al. A Probability Weighted Beamformer for Noise Robust ASR.
CN107393553B (zh) 用于语音活动检测的听觉特征提取方法
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
Gomez et al. Robustness to speaker position in distant-talking automatic speech recognition
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Surendran et al. Perceptual subspace speech enhancement with variance normalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant