CN107346658B

CN107346658B - 混响抑制方法及装置

Info

Publication number: CN107346658B
Application number: CN201710578806.2A
Authority: CN
Inventors: 蔡钢林
Original assignee: Shenzhen Yonsz Information Technology Co ltd
Current assignee: Shenzhen Yajin Smart Technology Co ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-07-28
Anticipated expiration: 2037-07-14
Also published as: CN107346658A

Abstract

本发明提出的一种混响抑制方法及装置，先将声音信号从时域变换到频域，获得频域信号，然后使用VAD(Voice Activity Detection，语音活动检测)检测所述频域信号，判断是否存在语音；在存在语音的情况下，使用一个预测误差向量预测声音信号的混响功率谱密度，然后构建衰减因子，计算出优化语音频谱，该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。

Description

混响抑制方法及装置

技术领域

本发明涉及到语音识别领域，特别是涉及到一种混响抑制方法及装置。

背景技术

近年来随着互联网技术、智能硬件的蓬勃发展，语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近，噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。

在远讲情况下，由于语音能量会快速衰减，而噪音干扰能量大致不变，会使得识别率迅速下降。另外一个影响识别准确率的因素是，语音指令到达房间墙壁多次反射之后的混响，也会造成实际应用与语音识别训练数据集的不匹配，影响识别率。

噪音主要有两个来源：(1)麦克风信号采集系统自带的信道噪声，信道噪声因麦克风的敏感性而不同，麦克风敏感性越高，通常信道噪声越高；(2)不可忽略的环境噪声干扰，比如电视机、空调噪声等等。相比于噪声，混响由于产生条件更为复杂，更难抑制。并且，噪音和混响一般同时存在，使得混响抑制更加困难。

CN201280047068公开了一种混响抑制装置，具备：回声消除部，去除输入信号中包含的回声分量；啸声抑制部，根据被去除了回声分量的输入信号的频率特性，检测啸声的发生，使所检测出的啸声分量的频率的电平衰减；以及语头抑制部，检测啸声分量的频率电平被衰减的输入信号的声音区间，抑制所检测出的声音区间的声音开始部分的信号值。

然而，该装置提供的是汽车内部空间的混响抑制解决方法，并不适用于家居音频采集时的混响问题。

发明内容

本发明的主要目的为提供一种混响抑制方法及装置，解决家居环境中声音采集的混响问题。

本发明提出一种混响抑制方法，包括以下步骤：

将声音信号从时域变换到频域，获得频域信号；

根据所述频域信号计算所述频域信号的语音参数；

在判断出所述声音信号存在语音活动时，根据所述语音参数更新预测误差向量；

根据所述预测误差向量，更新所述声音信号的混响功率谱密度；

根据所述混响功率谱密度构建衰减因子，使用所述衰减因子处理语音频谱，获得优化语音频谱。

优选地，所述根据所述语音参数更新预测误差向量，具体为：

G^k＝G′^k+K_GE_Pre

其中，G^k为当前帧的预测误差向量，G′^k为前一帧的预测误差向量，K_G为Kalman增益，E_Pre为当前帧的预测混响分量。

优选地，所述根据所述预测误差向量，更新所述声音信号的混响功率谱密度，具体为：

其中，φ_R(k)为当前帧的混响功率谱密度，φ′_R(k)为前一帧的混响功率谱密度，α为平滑系数，

为估算语音频谱。

优选地，所述α的取值范围为[0.95，0.98)、0.98或(0.98，0.995]。

优选地，所述根据所述混响功率谱密度构建衰减因子，输出估算语音频谱，具体为：

其中，ζ(k)为衰减因子，φ_Y(k)为混合语音功率谱密度，φ_V(k)为噪音功率谱密度。

优选地，所述根据所述混响功率谱密度构建衰减因子，输出估算语音频谱之后，还包括：

采用逆傅里叶变换，将所述估算语音频谱恢复为时域信号，具体为：

其中，

为经优化后的时域信号。

优选地，所述根据所述语音参数更新预测误差向量之前，还包括：

计算Kalman增益，并更新预测向量方差矩阵，具体为：

其中，K_G为Kalman增益，

P_Pre为预测向量方差矩阵，用于计算Kalman增益，

P^k为向量方差矩阵，用于更新P_Pre，

E(k)为估算混响分量。

优选地，所述E(k)由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数，E_Pre，o为前一帧的预测混响分量。

优选地，所述计算Kalman增益，并更新预测向量方差矩阵之前，还包括：

更新所述预测向量方差矩阵和当前帧的预测混响分量E_Pre，具体为：

其中，

为维度L_G×L_G的单位矩阵矩阵，Y(l，k)为当前帧的混合语音频谱。

本发明还提出了一种混响抑制装置，包括：

变换模块，用于将声音信号从时域变换到频域，获得频域信号；

参数计算模块，用于根据所述频域信号计算所述频域信号的语音参数；

更新预测向量模块，用于在判断出所述声音信号存在语音活动时，根据所述语音参数更新预测误差向量；

更新混响功率谱密度模块，用于根据所述预测误差向量，更新所述声音信号的混响功率谱密度；

优化语音频谱计算模块，用于根据所述混响功率谱密度构建衰减因子，使用所述衰减因子处理语音频谱，获得优化语音频谱。

附图说明

图1为本发明混响抑制方法一实施例的流程示意图；

图2为本发明混响抑制装置一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所指的声音信号，是指数字音频数据，即先通过声波转换电路将声波转换为模拟音频信号，再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。

参照图1，本发明实施例提出一种混响抑制方法，包括以下步骤：

S10、将声音信号从时域变换到频域，获得频域信号；

S20、根据所述频域信号计算所述频域信号的语音参数；

S30、在判断出所述声音信号存在语音活动时，根据所述语音参数更新预测误差向量；

S40、根据所述预测误差向量，更新所述声音信号的混响功率谱密度；

S50、根据所述混响功率谱密度构建衰减因子，使用所述衰减因子处理语音频谱，获得优化语音频谱。

在步骤S10中，取缓冲区数据，并加窗做FFT变换，把时域信号变换到频谱域：

假设混合语音数据为y(t)，其中x(t)为带混响语音信号，v(t)为背景噪声，FFT变换(傅里叶变换)如下所示：

其中，w(t)为长度512的汉宁窗，l为时间帧坐标，K为频率坐标。

上述y(t)即为声音信号，Y(l，k)为频域信号。

在步骤S20、S30中，语音参数包括估算语音频谱

频域信号Y(l，k)，预测向量方差矩阵P^k，预测误差E(k)，具体计算过程如下：

在前L_I帧进行预测误差向量，预测向量方差矩阵，预测误差进行初始化，初始化过程如下所示：

E(k)＝0

其中，预测向量方差矩阵P^k为维度L_G×L_G的0矩阵，为预测误差向量G^k为维度L_G×1的0向量，E(k)为采用当前预测向量获得的预测误差。

从L_I+1帧开始，如果语音检测结果表明存在语音活动执行如下自适应更新过程：

更新预测误差，包括预测误差向量和预测频谱误差，更新过程如下所示：

其中，

为维度L_G×L_G的单位矩阵矩阵。

预测频谱误差平滑，使得误差估计更加平滑，具体流程如下所示：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数取值范围在0.6～0.9之间，本项发明取值为0.75。

Kalman增益计算，更新预测向量，更新过程如下所示：

G^k＝G′^k+K_GE_Pre

这样就获得可用于预测混响分量的向量G^k。

步骤S40中，根据所述预测误差向量，更新所述声音信号的混响功率谱密度，具体计算如下：

α为平滑系数，取值范围为推荐为0.95～0.995，本实施例优选0.98作为平滑阈值。

步骤S50中，根据所述混响功率谱密度构建衰减因子，使用所述衰减因子处理语音频谱，获得优化语音频谱，计算如下：

该优化语音频谱，既用来在下一步恢复时域信号，又用于第一步参与后验信噪比的计算。

以下为本发明混响抑制方法具体的计算过程。

首先是背景噪音的估计，噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示：

取缓冲区数据，并加窗做FFT变换，把时域信号变换到频谱域：

假设混合语音数据为y(t)，其中x(t)为带混响语音信号，v(t)为背景噪声，h(τ)为混响冲击响应信号，s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示：

对前L_I时间帧假设没有语音活动，并做如下初始化：

γ(k)＝1，ε(k)＝κ，k＝1，2，...，K

其中，K代表频带整体的数量，Φ_V(k)代表噪音信号的功率谱密度，Φ_Y(k)代表观测信号的功率谱密度，γ(k)为先验信噪比，ε(k)为后验信噪比，

为估算语音频谱，初始化为混合频谱的均值乘以一个衰减因子κ，衰减因子取值为0.1。

从第L_T+1时间帧开始做迭代计算，计算流程如下所示：

更新观测信号功率谱密度估计值，即根据前一帧的结果，平滑得到下一帧的计算结果：

Φ′_Y(k)＝αΦ_Y(k)+(1-α)|Y(l，k)|²

其中，α为平滑因子，取值范围为推荐为0.95～0.995，本实施例优选0.98作为平滑阈值。

计算先验信噪比和后验信噪比

其中，β为平滑因子，β为取值范围为0.6～0.9，本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。

以上只是先验信噪比和后验信噪比的一种优选的计算方式，任何按照上述方法进行适当的变形分解，再进行求解的方式，也应属于本发明的保护范围之内。

根据先验后验信噪比计算噪音功率谱自适应更新步长：

即采用固定步长加上自适应步长的方式，实现整体更新。

根据步长，更新噪音功率谱，基本原则是，如果语音越少，则噪音功率谱更新的步长越大，保证噪音估计的准确性；反之，则采用较慢的步长，以避免语音信号参与噪音功率谱的迭代更新：

Φ_V(k)＝α_V(k)Φ′_V(k)+(1-α_V(k))|Y(l，k)|²。

上式输出即为噪音功率谱更新结果，用以下一帧的噪音更新和作为参数参与语音检测过程。

以下为语音检测的具体过程。

在准确估算出背景噪音参数之后，便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后，将当前帧的听觉特征与设定的听觉阈值比较，便可判断当前帧是否出现语音活动。

语音活动检测主要是为了检测出语音活动的区域，在非语音活动区域，停止对语音的优化处理，减少功耗；在语音活动区域，则可减少噪音干扰，提高语音优化的效果。

在提取当前帧的听觉特征之前，有一初始化过程，具体如下：

对特征缓冲矩阵，特征阈值，语音检测结果缓冲区进行初始化，特征缓冲区矩阵由L_I个3维度列向量构成，以公式表示如下：

Q(1：L_I)＝0

θ_T(1)＝F_B(1，1)

θ_T(2)＝F_B(2，1)

θ_T(3)＝F_B(3，1)

其中，F_B为听觉特征缓冲区，Q为语音活动检测结果缓冲区，θ_T为听觉特征阈值缓冲区，即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中，L_W代表窗长，L_T代表起始样本点，起始样本点取值范围通常在5～20之间，本实施例设定为10。

从第L_T+1时间帧开始，计算当前帧听觉特征如下所示：

根据当前帧听觉特征计算结果，更新特征缓冲区和特征阈值，即把缓冲区内时间最久的数据踢出缓冲区.把当前帧数据放入缓冲区：

并求取各维度参数对应的听觉阈值：

θ_T(i)＝Max(θ′_T(i)，Min_j-1，...，L_I(F_B(i，j)))，i＝1，2，3

当前听觉特征与听觉阈值进行对比，根据对比结果确定语音检测的结果，具体计算如下所示：

q(i)为所述听觉特征的维度参数的得分，Q_Frame为语音检查的判断结果，结果为1则表明当前帧存在语音，结果为0则表明当前帧不存在语音。

更新语音检测结果缓冲区，同样把缓冲区内时间最久的数据踢出缓冲区，加入当前帧判断结果，并计算缓冲区内平均的语音检测结果：

Q＝[Q′(：，2：L_B)；Q_Frame]

然后，计算语音检测结果缓冲区内检测结果的统计值，在此处采用的是计算检测结果的总和，具体计算如下：

由于语音通常是连续出现的，对比Q_M与固定阈值δL_I，如果小于阈值，表明当前缓冲区内语音存在帧为误检，当前缓冲区内没有语音，更新特征阈值并把语音频谱估计结果设为一个极小值，计算如下所示：

θ_T(i)＝Max_j-1，...，L_I(FB(i，j))，i＝1，2，3

同时，更新估算语音频谱

计算如下：

δ取值范围为0.1～0.3，本项发明取值为0.15。若无误检，表明当前缓冲区内有语音出现，可对该声音信号继续优化处理。

Kalman自适应增强是假定用一个长为L_G的前向预测滤波器，对纯净语音频谱进行预测，通常L_G＜L_I。在本项发明中，这两个参数分别设置为L_G＝15，L_I＝25。由于语音信号可以用一个自回归模型来很好的表达，预测的误差可以理解为混响分量。基于最小均方误差准则，滤波器更新的自适应过程如下所示：

E(k)＝0

(1.1)更新预测误差，包括预测误差向量和预测频谱误差，更新过程如下所示：

其中，

为维度L_G×L_G的单位矩阵矩阵。

(1.2)预测频谱误差平滑，使得误差估计更加平滑，具体流程如下所示：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

(1.3)Kalman增益计算，更新预测向量，更新过程如下所示：

G^k＝G′^k+K_GE_Pre

(1.4)混响功率谱密度更新，更新过程如下所示：

该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数。φ′_R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。

(1.5)根据维纳滤波构建衰减因子，输出估算语音频谱，计算如下：

该频谱估计值既用来在下一步恢复时域信号，又用于第一步参与后验信噪比的计算。

(1.6)循环执行1.1-1.5至所有频带更新完毕，采用逆傅里叶变换恢复时域信号，计算流程如下所示：

恢复出时域信号之后，发送到后续应用终端，比如通讯设备或者语音识别引擎，实现噪声、混响联合抑制。

参照图2，本发明还提出了一种混响抑制装置，包括：

变换模块10，用于将声音信号从时域变换到频域，获得频域信号；

参数计算模块20，用于根据所述频域信号计算所述频域信号的语音参数；

更新预测向量模块30，用于在判断出所述声音信号存在语音活动时，根据所述语音参数更新预测误差向量；

更新混响功率谱密度模块40，用于根据所述预测误差向量，更新所述声音信号的混响功率谱密度；

优化语音频谱计算模块50，用于根据所述混响功率谱密度构建衰减因子，使用所述衰减因子处理语音频谱，获得优化语音频谱。

可选地，所述更新预测向量模块30，用于根据所述语音参数更新预测误差向量，具体为：

G^k＝G′^k+K_GE_Pre

可选地，所述更新混响功率谱密度模块40，用于根据所述预测误差向量，更新所述声音信号的混响功率谱密度，具体为：

为估算语音频谱。

可选地，所述α的取值范围为[0.95，0.98)、0.98或(0.98，0.995]。

可选地，所述优化语音频谱计算模块50，用于根据所述混响功率谱密度构建衰减因子，输出估算语音频谱，具体为：

可选地，还包括频谱恢复模块，用于采用逆傅里叶变换，将所述估算语音频谱恢复为时域信号，具体为：

其中，

为经优化后的时域信号。

可选地，所述参数计算模块20，包括：

第二参数计算单元，用于计算Kalman增益，并更新预测向量方差矩阵，具体为：

其中，K_G为Kalman增益，

P_Pre为预测向量方差矩阵，用于计算Kalman增益，

P^k为向量方差矩阵，用于更新P_Pre，

E(k)为估算混响分量。

可选地，所述E(k)由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数，E_Pre，o为前一帧的预测混响分量。

可选地，所述参数计算模块20，还包括：

第一参数计算单元，用于更新所述预测向量方差矩阵和当前帧的预测混响分量E_Pre，具体为：

其中，

本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下，用户距离麦克风大约为1米至3米，会受到家庭噪声和墙壁混响的影响，识别率会迅速下降。本发明提出的混响抑制方法与装置，可以优化语音质量。经实验证明，在距离麦克风2米左右，输入信噪比10dB左右，识别率可以从30％提高到65％，当增加噪声至20dB，识别率从10％提高至50％左右。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。