CN107360497B

CN107360497B - 估算混响分量的计算方法及装置

Info

Publication number: CN107360497B
Application number: CN201710578807.7A
Authority: CN
Inventors: 蔡钢林
Original assignee: Shenzhen Yonsz Information Technology Co ltd
Current assignee: Shenzhen Yajin Smart Technology Co ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-09-29
Anticipated expiration: 2037-07-14
Also published as: CN107360497A

Abstract

本发明提出的一种估算混响分量的计算方法及装置，构建了预测误差向量，使其与语音数据进行结合，求出预测混响分量，再对所述预测混响分量进行平滑处理，获得估算混响分量。获得的估算混响分量可用于计算混响功率谱密度，进而根据维纳滤波原理，将采集到的语音信号中的混响分量滤去，提高了采集的语音数据的质量。

Description

估算混响分量的计算方法及装置

技术领域

本发明涉及到语音识别领域，特别是涉及到一种估算混响分量的计算方法及装置。

背景技术

近年来随着互联网技术、智能硬件的蓬勃发展，语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近，噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。

在远讲情况下，由于语音能量会快速衰减，而噪音干扰能量大致不变，会使得识别率迅速下降。另外一个影响识别准确率的因素是，语音指令到达房间墙壁多次反射之后的混响，也会造成实际应用与语音识别训练数据集的不匹配，影响识别率。

噪音主要有两个来源：(1)麦克风信号采集系统自带的信道噪声，信道噪声因麦克风的敏感性而不同，麦克风敏感性越高，通常信道噪声越高；(2)不可忽略的环境噪声干扰，比如电视机、空调噪声等等。相比于噪声，混响由于产生条件更为复杂，更难抑制。并且，噪音和混响一般同时存在，使得混响抑制更加困难。

CN201280047068公开了一种混响抑制装置，具备：回声消除部，去除输入信号中包含的回声分量；啸声抑制部，根据被去除了回声分量的输入信号的频率特性，检测啸声的发生，使所检测出的啸声分量的频率的电平衰减；以及语头抑制部，检测啸声分量的频率电平被衰减的输入信号的声音区间，抑制所检测出的声音区间的声音开始部分的信号值。

然而，该装置提供的是汽车内部空间的混响抑制解决方法，并不适用于家居音频采集时的混响问题。而解决家居音频采集时的混响问题，需要预判声音信号中的混响分量。

发明内容

本发明的主要目的为提供一种估算混响分量的计算方法及装置，旨在辅助解决家居环境中声音采集的混响问题。

本发明提出一种基于深度神经网络的特定声源检测方法，包括以下步骤：

构建预测误差向量；

根据所述预测误差向量，结合混合语音频谱及估算语音频谱，计算当前帧的预测混响分量E_Pre和前一帧的预测混响分量E_Pre，o；

求取估算混响分量，所述估算混响分量由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数。

优选地，所述前一帧的预测混响分量E_Pre，o，由以下式子求得：

其中，Y(l-1,k)为前一帧的混合语音频谱，

为估算语音频谱

的转置矩阵；G^k为所述预测误差向量。

优选地，所述η的取值范围为[0.6，0.75)、0.75或(0.75，0.9]。

优选地，所述构建预测误差向量之前，还包括：

在前L_I帧，初始化预测向量方差矩阵及所述预测误差向量、估算混响分量，具体为；

E(k)＝0

其中，预测向量方差矩阵P^k为维度L_G×L_G的0矩阵，预测误差向量G^k为维度L_G×1的0向量，E(k)为采用当前预测向量获得的估算混响分量。

优选地，所述在前L_I帧，初始化预测向量方差矩阵及所述预测误差向量、估算混响分量之后，还包括：

从L_I+1帧开始，当检测出语音活动，更新所述预测向量方差矩阵和当前帧的预测混响分量E_Pre，具体为：

其中，

为维度L_G×L_G的单位矩阵，Y(l,k)为当前帧的混合语音频谱。

优选地，所述求取估算混响分量之后，还包括：

计算Kalman增益，Kalman增益由以下式子求得：

其中，K_G为Kalman增益。

优选地，所述计算Kalman增益之后，还包括：

更新预测向量方差矩阵和预测误差向量，具体为：

G^k＝G′^k+K_GE_Pre

其中，G′^k为前一帧的预测误差向量。

优选地，所述更新预测向量方差矩阵和预测误差向量之后，还包括：

更新混响功率谱密度，具体为：

其中，φ_R(k)为当前帧的混响功率谱密度，φ′R(k)为前一帧的混响功率谱密度，α为平滑系数，所述α的取值范围为[0.95，0.98)、0.98或(0.98，0.995]。

优选地，所述更新混响功率谱密度之后，还包括：

根据维纳滤波构建衰减因子，输出语音估计频谱，计算如下：

其中，ζ(k)为衰减因子，φ_Y(k)为混合语音功率谱密度，φ_V(k)为噪音功率谱密度。

本发明还提供了一种估算混响分量的计算装置，包括：

预测误差向量计算模块，用于构建预测误差向量；

预测混响分量计算模块，用于根据所述预测误差向量，结合混合语音频谱及估算语音频谱，计算当前帧的预测混响分量E_Pre和前一帧的预测混响分量E_Pre，o；

估算混响分量计算模块，用于求取估算混响分量，所述估算混响分量由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数。

优选地，所述预测混响分量计算模块包括：

第一预测混响分量计算单元，用于计算所述前一帧的预测混响分量E_Pre，E_Pre，o由以下式子求得：

其中，Y(l-1,k)为前一帧的混合语音频谱，

为估算语音频谱

的转置矩阵；G^k为所述预测误差向量。

优选地，所述η的取值范围为[0.6，0.75)、0.75或(0.75，0.9]。

优选地，还包括：

初始化模块，用于在前L_I帧，初始化预测向量方差矩阵及所述预测误差向量、估算混响分量，具体为；

E(k)＝0

优选地，还包括：

第一更新模块，用于从L_I+1帧开始，当检测出语音活动，更新所述预测向量方差矩阵和当前帧的预测混响分量E_Pre，具体为：

其中，

为维度L_G×L_G的单位矩阵，Y(l,k)为当前帧的混合语音频谱。

优选地，还包括：

Kalman增益模块，用于计算Kalman增益，Kalman增益由以下式子求得：

其中，K_G为Kalman增益。

优选地，还包括：

第二更新模块，用于更新预测向量方差矩阵和预测误差向量，具体为：

G^k＝G′^k+K_GE_Pre

其中，G′^k为前一帧的预测误差向量。

优选地，还包括：

第三更新模块，用于更新混响功率谱密度，具体为：

优选地，还包括：

输出模块，用于根据维纳滤波构建衰减因子，输出语音估计频谱，计算如下：

附图说明

图1为本发明估算混响分量的计算方法一实施例的流程示意图；

图2为本发明估算混响分量的计算装置一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明所指的声音信号或声音数据，是指数字音频数据，即先通过声波转换电路将声波转换为模拟音频信号，再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。

参照图1，本发明提出一种估算混响分量的计算方法，包括以下步骤：

S10、构建预测误差向量；

S20、根据所述预测误差向量，结合混合语音频谱及估算语音频谱，计算当前帧的预测混响分量E_Pre和前一帧的预测混响分量E_Pre，o；

S30、求取估算混响分量，所述估算混响分量由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数。

在步骤S10之前，对声音数据进行傅里叶变换后，估测声音数据中的噪音值，并经过语音检测处理，分检出需要处理的包含语音信息的数据。

本发明实施例是针对声音数据的处理方法，特别的，上述声音数据包含语音信息。

步骤S10中，构建预测误差向量G^k，G^k的初始值为维度L_G×1的0向量。

G^k的取值会根据在前时间的参数而发生变化。

步骤S20中，上述预测误差向量，结合混合语音频谱及估算语音频谱，计算出当前帧的预测混响分量E_Pre和前一帧的预测混响分量E_Pre，o具体计算如下：

Y(l,k)为当前帧的混合语音频谱，Y(l-1,k)为前一帧的混合语音频谱，

为估算语音频谱

的转置矩阵。

步骤S30中，对当前帧的预测混响分量E_Pre和前一帧的预测混响分量E_Pre进行平滑处理，获得估算混响分量。

所述估算混响分量由以下式子求得：

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数，η的取值范围为0.6-0.9，本实施例的优选取值为0.75。

以下为噪音估计具体的计算过程。

首先是背景噪音的估计，噪声能量估计的准确程度直接影响后续语音检测的效果。本发明实施例采用固定噪声估计结合噪声自适应更新的方式来保证噪音估计的稳定性和精确性。初始化及具体计算流程如下所示：

取缓冲区数据，并加窗做FFT变换，把时域信号变换到频谱域：

假设混合语音数据为y(t)，其中x(t)为带混响语音信号，v(t)为背景噪声，h(τ)为混响冲击响应信号，s(t-τ)为无混响语音信号。FFT变换(傅里叶变换)如下所示：

其中，w(t)为长度512的汉宁窗，l为时间帧坐标，K为频率坐标。

对前L_I时间帧假设没有语音活动，并做如下初始化：

γ(k)＝1，ε(k)＝κ，k＝1，2，...，K

其中，K代表频带整体的数量，φ_R(k)为当前帧的混响功率谱密度，φ′R(k)为前一帧的混响功率谱密度，γ(k)为先验信噪比，ε(k)为后验信噪比，

为估算语音频谱，初始化为混合频谱的均值乘以一个衰减因子κ，衰减因子取值为0.1。

从第L_T+1时间帧开始做迭代计算，计算流程如下所示：

更新观测信号功率谱密度估计值，即根据前一帧的结果，平滑得到下一帧的计算结果：

φ_Y′(k)＝αφ_Y(k)+(1-α)Y(1,k)²。

其中，α为平滑因子，取值范围为推荐为0.95～0.995，本实施例优选0.98作为平滑阈值。

计算先验信噪比和后验信噪比

其中，β为平滑因子，β为取值范围为0.6～0.9，本实施例优选取值为0.75。Max函数表示选择两个变量中的最大值。

以上只是先验信噪比和后验信噪比的一种优选的计算方式，任何按照上述方法进行适当的变形分解，再进行求解的方式，也应属于本发明的保护范围之内。

根据先验后验信噪比计算噪音功率谱自适应更新步长：

即采用固定步长加上自适应步长的方式，实现整体更新。

根据步长，更新噪音功率谱，基本原则是，如果语音越少，则噪音功率谱更新的步长越大，保证噪音估计的准确性；反之，则采用较慢的步长，以避免语音信号参与噪音功率谱的迭代更新：

φ_v(k)＝α_V(k)φ′_V(k)+(1-α_V(k))|Y(1,k)|²

上式输出即为噪音功率谱更新结果，用以下一帧的噪音更新和作为参数参与语音检测过程。

以下为语音检测的具体过程。

在准确估算出背景噪音参数之后，便可根据背景噪音参数构建听觉特征的。在获得听觉特征之后，将当前帧的听觉特征与设定的听觉阈值比较，便可判断当前帧是否出现语音活动。

语音活动检测主要是为了检测出语音活动的区域，在非语音活动区域，停止对语音的优化处理，减少功耗；在语音活动区域，则可减少噪音干扰，提高语音优化的效果。

在提取当前帧的听觉特征之前，有一初始化过程，具体如下：

对特征缓冲矩阵，特征阈值，语音检测结果缓冲区进行初始化，特征缓冲区矩阵由L_I个3维度列向量构成，以公式表示如下：

Q(1：L_I)＝0

θ_T(1)＝F_B(1，1)

θ_T(2)＝F_B(2，1)

θ_T(3)＝F_B(3，1)

其中，F_B为听觉特征缓冲区，Q为语音活动检测结果缓冲区，θ_TT为听觉特征阈值缓冲区，即分别用先验信噪比、后验信噪比和时域信号用以最终的语音活动检测。在听觉特征计算中，L_W代表窗长，L_T代表起始样本点，起始样本点取值范围通常在5～20之间，本实施例设定为10。

从第L_T+1时间帧开始，计算当前帧听觉特征如下所示：

根据当前帧听觉特征计算结果，更新特征缓冲区和特征阈值，即把缓冲区内时间最久的数据踢出缓冲区，把当前帧数据放入缓冲区：

并求取各维度参数对应的听觉阈值：

θ_T(i)＝Max(θ′_T(i)，Min_j-1,...,L_I(F_B(i,j))),i＝1,2,3

当前听觉特征与听觉阈值进行对比，根据对比结果确定语音检测的结果，具体计算如下所示：

q(i)为所述听觉特征的维度参数的得分，Q_Frame为语音检查的判断结果，结果为1则表明当前帧存在语音，结果为0则表明当前帧不存在语音。

更新语音检测结果缓冲区，同样把缓冲区内时间最久的数据踢出缓冲区，加入当前帧判断结果，并计算缓冲区内平均的语音检测结果。

Q＝[Q′(:,2:L_B)；Q_Frame]

然后，计算语音检测结果缓冲区内检测结果的统计值，在此处采用的是计算检测结果的总和，具体计算如下：

由于语音通常是连续出现的，对比Q_M与固定阈值δL_I，如果小于阈值，表明当前缓冲区内语音存在帧为误检，当前缓冲区内没有语音，更新特征阈值并把语音频谱估计结果设为一个极小值，计算如下所示：

θ_T(i)＝Max_j-1,...,LI(F_B(i,j)),i＝1,2,3

同时，更新估算语音频谱

计算如下：

δ取值范围为0.1～0.3，本项发明取值为0.15。若无误检，表明当前缓冲区内有语音出现，可对该声音信号继续优化处理。

Kalman自适应增强是假定用一个长为L_G的前向预测滤波器，对纯净语音频谱进行预测，通常L_G<L_I。在本项发明中，这两个参数分别设置为L_G＝15，L_I＝25。由于语音信号可以用一个自回归模型来很好的表达，预测的误差可以理解为混响分量。基于最小均方误差准则，滤波器更新的自适应过程如下所示：

在前L_I帧进行预测误差向量，预测向量方差矩阵，预测误差进行初始化，初始化过程如下所示：

E(k)＝0

其中，预测向量方差矩阵P^k为维度L_G×L_G的0矩阵，预测误差向量G^k为维度L_G×1的0向量，E(k)为采用当前预测向量获得的预测误差。

从L_T+1帧开始，如果语音检测结果表明存在语音活动执行如下自适应更新过程：

(1.1)更新预测误差，包括预测误差向量和预测频谱误差，更新过程如下所示：

其中

为维度L_G×L_G的单位矩阵。

(1.2)预测频谱误差平滑，使得误差估计更加平滑，具体流程如下所示：

其中，η为平滑系数取值范围在0.6～0.9之间，本项发明取值为0.75。

(1.3)Kalman增益计算，更新预测向量，更新过程如下所示：

G^k＝G′^k+K_GE_Pre

(1.4)混响功率谱密度更新，更新过程如下所示：

该混响功率谱密度与观测信号功率谱密度采用同一个平滑系数α。φ′_R(k)为前一帧的混响功率谱密度。混响功率谱密度的初始设置值为0。

(1.5)根据维纳滤波构建衰减因子，输出估算语音频谱，计算如下：

该频谱估计值既用来在下一步恢复时域信号，又用于第一步参与后验信噪比的计算。

(1.6)循环执行1.1－1.5至所有频带更新完毕，采用逆傅里叶变换恢复时域信号，计算流程如下所示：

恢复出时域信号之后，发送到后续应用终端，比如通讯设备或者语音识别引擎，实现噪声、混响联合抑制。

参照图2，本发明还提出了一种估算混响分量的计算装置，包括：

预测误差向量计算模块，用于构建预测误差向量；

E(k)＝η|E_Pre|²-(1-η)|E_Pre，o|²

其中，η为平滑系数。

本发明可以用于辅助应用于家居环境下的语音指令识别。在家居环境下，用户距离麦克风大约为1米至3米，会受到家庭噪声和墙壁混响的影响，识别率会迅速下降。本发明提出的估算混响分量的计算方法与装置，可以辅助优化语音质量。经实验证明，在距离麦克风2米左右，输入信噪比10dB左右，识别率可以从30％提高到65％，当增加噪声至20dB，识别率从10％提高至50％左右。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。