CN109243476B

CN109243476B - 混响语音信号中后混响功率谱的自适应估计方法及装置

Info

Publication number: CN109243476B
Application number: CN201811216983.7A
Authority: CN
Inventors: 梁民
Original assignee: Telecommunications Science and Technology Research Institute Co Ltd
Current assignee: Telecommunications Science and Technology Research Institute Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2021-09-03
Anticipated expiration: 2038-10-18
Also published as: CN109243476A; WO2020078210A1

Abstract

本发明提供了一种混响语音信号中后混响功率谱的自适应估计方法及装置，涉及语音信号处理领域。该混响语音信号中后混响功率谱的自适应估计方法，包括：获取麦克风拾取的混响语音信号的子带自功率谱的估计；获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量；根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计。上述方案，通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取，可以保证语音信号去混响的有效性，降低了去混响的难度，提高了去混响的效率。

Description

混响语音信号中后混响功率谱的自适应估计方法及装置

技术领域

本发明涉及语音信号处理领域，特别涉及一种混响语音信号中后混响功率谱的自适应估计方法及装置。

背景技术

在远场情况下，室内麦克风拾取的语音信号，由于不可避免地受到来自于室内墙壁、顶部天花板和其它障碍物反射信号的干扰，因而会发生线性奇变。这种奇变通常称之为混响，它将退化语音的保真度和可懂度，使得语音通信系统和语音自动识别系统的性能下降；并且，这种退化程度随着声源和麦克风间距离的增加而增大。混响通常由早期混响(即前混响，包含直达声成分)和后期混响(即后混响)组成，业已证明，前者实际上有益于改善语音的可懂度和噪声环境中的信噪比(Signal to Noise Ratio，SNR)，而后者则加长了声源语音信号音素的长度，由此重叠屏蔽了其后续的音素，从而降低了语音的可懂度。

现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源的问题。

发明内容

本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法及装置，以解决现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源，不能有效保证语音信号去混响的问题。

为了解决上述技术问题，本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法，包括：

获取麦克风拾取的混响语音信号的子带自功率谱的估计；

获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量；

根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计。

可选地，当所述麦克风为单麦克风时，所述获取麦克风拾取的混响语音信号的子带自功率谱的估计，包括：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

为第t帧第k个子带的混响语音信号的子带自功率谱的估计；λ为预设的平滑常数，且0＜λ＜1；

为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计；X(t，k)为第t帧第k个子带的混响语音信号的子带谱；t为信号帧的时间索引，k为子带索引。

进一步地，所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量，包括：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

R为室内冲击响应的长度，N为子带变换的语音信号帧的长度，D_c为前混响和后混响区分的临界点；μ和β为正常数，且0＜μ(1+β)＜2；E_k(t)为预测误差，且

为第t帧第k个子带的混响语音信号的子带自功率谱的估计；t为信号帧的时间索引，k为子带索引，T为矢量的转置运算符。

进一步地，所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计，包括：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

W_τ(t，k)为第t帧第k个子带的DLP第τ个预测系数，τ＝0，1，2，...，Q-1，Q为DLP的系数个数，且Q＝R_s-D_s，

R为室内冲击响应的长度，N为子带变换的语音信号帧的长度，D_c为前混响和后混响区分的临界点；

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

为第t-τ-D_s帧第k个子带的混响语音信号的子带自功率谱的估计；t为信号帧的时间索引，k为子带索引，T为矢量的转置运算符。

可选地，当所述麦克风为麦克风阵列时，所述获取麦克风拾取的混响语音信号的子带自功率谱的估计，包括：

获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱；

根据所述单声道输出信号的子带谱，获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。

进一步地，所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱，包括：

根据公式：

获取混响语音信号经空间滤波处理后的单声道输出信号的子带谱；

其中，Z(t，k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱；X_r(t，k)为第t帧第k个子带的第r个麦克风输出信号的子带谱；M为麦克风阵列的总个数；

t为信号帧的时间索引，k为子带索引。

进一步地，所述根据所述单声道输出信号的子带谱，获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计，包括：

根据公式：

获取经空间滤波处理后的单声道输出信号的子带自功率谱的估计；

其中，

为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计；

为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计；λ为预设的平滑常数，且0＜λ＜1；Z(t，k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱；t为信号帧的时间索引，k为子带索引。

根据公式：

获取用于所述混响语音信号经空间滤波处理后的单声道输出信号中后混响子带自功率谱估计的DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计；t为信号帧的时间索引，k为子带索引，T为矢量的转置运算符。

进一步地，所述根据所述子带自功率谱的估计和DLP预测系数，获取后混响子带自功率谱估计，包括：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

为第t-τ-D_s帧第k个子带的空间滤波处理后单声道输出信号的子带自功率谱的估计；t为信号帧的时间索引，k为子带索引，T为矢量的转置运算符。

本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器执行所述计算机程序时实现以下步骤：

获取麦克风拾取的混响语音信号的子带自功率谱的估计；

可选地，当所述麦克风为单麦克风时，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

进一步地，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

可选地，当所述麦克风为麦克风阵列时，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

t为信号帧的时间索引，k为子带索引。

根据公式：

其中，

根据公式：

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。

本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置，包括：

第一获取模块，用于获取麦克风拾取的混响语音信号的子带自功率谱的估计；

第二获取模块，用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量；

第三获取模块，用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计。

可选地，当所述麦克风为单麦克风时，所述第一获取模块，用于：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

进一步地，所述第二获取模块，用于：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

进一步地，所述第三获取模块，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-Ds帧第k个子带的混响语音信号的子带自功率谱矢量，

可选地，当所述麦克风为麦克风阵列时，所述第一获取模块，包括：

第一获取单元，用于获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱；

第二获取单元，用于根据所述单声道输出信号的子带谱，获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计。

进一步地，所述第一获取单元，用于：

根据公式：

t为信号帧的时间索引，k为子带索引。

进一步地，所述第二获取单元，用于：

根据公式：

其中，

进一步地，所述第二获取模块，用于：

根据公式：

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

进一步地，所述第三获取模块，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

本发明的有益效果是：

上述方案，通过利用延时的线性预测DLP预测系数矢量来进行后混响子带自功率谱估计的获取，可以保证语音信号去混响的有效性，降低了去混响的难度，提高了去混响的效率。

附图说明

图1表示应用DLP来自适应估计后混响信号子带自功率谱的原理框图；

图2表示基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图；

图3表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图；

图4表示基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图；

图5表示本发明实施例的混响语音信号中后混响功率谱的自适应估计方法的流程示意图；

图6表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的模块示意图；

图7表示本发明实施例的混响语音信号中后混响功率谱的自适应估计装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

目前，语音信号去混响技术大致有三大类，第一类是采用麦克风阵列处理技术，该技术首先估计声源相对麦克风阵列的方位(Direction of Arrival，DOA)，通过控制麦克风阵列的方向性来增强来自声源方向的直达信号成分，并减小和消除来自其它方向的声源反射信号成分，从而达到去混响的目的；为了获得令人满意的去混响效果，该技术通常需要大量数目的麦克风，以便阵列获得充分的方向性增益。第二类去混响技术则是在频域对后混响信号进行抑制处理的方法，该方法首先估计出工作环境的混响时间参数(RT60)，并据此估计出后混响信号的功率谱，然后应用噪声抑制中的谱减法对后混响信号进行抑制处理；尽管该技术不涉及信号的相位信息而使其处理性能具有较好的鲁棒性，但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法，故该技术的去混响性能受限。第三类去混响技术则是基于逆滤波的思想，其目标是估计出引发混响的室内冲激响应(Room Impulse Response，RIR)的逆滤波器，用其对混响语音信号进行滤波处理以恢复源信号；在声源到麦克风的室内传递函数(Room Transfer Function，RTF)已知的情况下，用RTF的逆滤波器可以从观测的混响信号中精确地恢复出其源信号；业已证明：在麦克风数目大于已激活的声源数目、并且每个声源到每个麦克风的RTF不存在共同的零点的条件下，上述功能的逆滤波器解是存在的。然而在实际应用中，RTF(或其等效的逆滤波器)是时变的、未知的，需要从已获的观测数据中估计出。为此，大量学者致力于该领域的探索和研究，提出了许多方法，最为引人注目的便是基于延时的线性预测(Delayed LinearPrediction，DLP)的后混响抑制技术，该技术能有效地抑制后混响成分而未明显地损伤语音的短时相关性，但它要求DLP的滤波器阶数很高(滤波器通常有数千个系数)，因而需要很长的观测数据，由此导致该技术具有很高的计算负荷，难以在商用的数字信号处理器(Digital Signal Processor，DSP)芯片上实时实现。此外，人们还提出将时变语音信号源模型与多声道线性预测相结合来进行去混响的方法，该方法可以基于较短的观测数据有效地抑制后混响，而且对前混响也有抑制的效果；但它固有的计算复杂度致使其无法在实际中应用。最近，人们将基于DLP的去混响技术拓展到处理时变语音信号的场景，提出了一种称之为方差归一化延时的线性预测(NDLP)去混响技术，NDLP的频域实现即为著名的加权预测误差(Weighted Prediction Error，WPE)去混响算法；尽管WPE性能具有较好的鲁棒性，但它涉及一个高阶观测数据相关矩阵的伪逆运算，因而在商用DSP上实现时通常耗费较多的计算资源。

第一类基于麦克风阵列处理的去混响技术，其性能受限于阵列的麦克风数目，要获得令人满意的去混响结果，势必需要大量的麦克风，这便导致实际产品的成本提高和结构设计的困难增加。第二类在频域对后混响信号进行抑制处理的去混响技术需要首先估计出工作环境的混响时间参数(RT60)，但由于目前尚缺乏关于工作环境中与频率关联的混响时间参数(RT60)的高精度实时估计算法，故该技术的去混响性能受限。第三类基于逆滤波思想的去混响技术中能实际应用的WPE方法涉及一个高阶观测数据相关矩阵的伪逆运算，因而在商用DSP上实现时通常耗费较多的计算资源。

本发明将DLP的思想拓展到子带功率谱域，提出一种关于后混响自功率谱的低复杂度、实时在线自适应估计方法，根据这一后混响自功率谱的估计和观测信号的子带谱，应用决策-引导(Decision-Directed，DD)递归平滑技术，来计算先验SNR，并据此计算抑制后混响成分的子带增益函数，用之来修正观测信号子带谱，从而达到抑制后混响成分的目的。

本发明针对现有的语音信号去混响技术存在实际产品的成本高和结构设计困难、去混响性能受限或耗费较多的计算资源，不能有效保证语音信号去混响的问题，提供一种混响语音信号中后混响功率谱的自适应估计方法及装置。

下面对本发明实施例的实现原理进行说明如下。

本发明实施例中，首先从单声道(即单麦克风)场景出发，给出一种基于单麦克风的后混响成分的抑制方法，然后推广到麦克风阵列应用场景。

一、基于单麦克风的混响语音信号中后混响成分的抑制方法

设有声源到麦克风的室内冲激响应为h(n)，声源信号为s(n)，麦克风获取的混响语音信号为x(n)，那么x(n)可用下述数学公式一来表述：

公式一、

其中，R为室内冲击响应的长度，D_c为前混响和后混响区分的临界点，searl_y(n)为包含直达声源信号的前混响信号，slate(n)为后混响信号，searl_y(n)和s_late(n)分别由下式定义：

公式二、

公式三、

应用分析滤波器组(Analysis Filter Bank，AFB)对公式一两边进行子带变换(短时傅里叶变换可以看作是子带变换的一种特例)可得：

公式四、

其中X(t，k)、S(t，k)、H(t，k)、S_early(t，k)和S_late(t，k)分别为数字信号x(n)、s(n)、h(n)、s_early(n)和s_late(n)的子带变换，

N为子带变换的信号帧长度，t为信号帧的时间索引，k为子带索引，n为数字信号的样本时间索引。

假设，相邻帧子带信号间的自相关性较低，那么子带谱信号X(t，k)对应的子带自功率谱可表述为：

公式五、

其中，P_X(t，k)、

和P_S(t，k)分别为子带信号X(t，k)、S_early(t，k)、S_late(t，k)和S(t，k)所对应的子带自功率谱，E{·}为统计平均算子。

采用延时的线性预测(DLP)表述法，公式五可以表示成：

公式六、

其中W_τ(t，k)为第t帧第k个子带上DLP的第τ个非负的系数，τ＝0，1，2，...，Q-1；Q＝R_s-D_s为DLP的系数个数，

为后混响子带自功率谱的估计。

公式六表明：在子带功率谱域，采用DLP技术可以预测估计出后混响信号的子带自功率谱，其预测估计的残差便是与后混响信号不相关的有用的前混响信号的子带自功率谱，因而一定是非负的。为将这一约束条件集成到DLP的预测系数求解中，我们来定义代价函数

和惩罚函数

分别为：

公式七、

公式八、

其中，E_k(t)用公式九表示为：

公式九、

用公式十表示为：

公式十、

用公式十一表示为：

公式十一、

那么，最优的预测系数矢量

则是使下述准则函数

达到最小化的解，即：

公式十二、

其中，

由公式十三定义：

公式十三、

这里的β为正常数。

根据公式七、八和十三得到：

公式十四、

从而求解最佳的DLP预测系数矢量

的NLMS自适应算法可由公式十五表示：

公式十五、

其中，μ和β为正常数，且0＜μ(1+β)＜2，E_k(t)为公式九定义的预测误差。

应用DLP来自适应估计后混响信号子带自功率谱的原理框图如图1所示。在实际工程实现上，观测信号子带自功率谱的估计可以用公式十六的时间递归平滑技术来计算，即：

公式十六、

这里0＜λ＜1为预设的平滑常数。那么，后混响信号子带自功率谱的估计为：

公式十七、

既然自适应滤波器可获得DLP系数矢量，根据公式十七我们即可获得后混响信号子带自功率谱的估计，那么应用谱减法技术来进行后混响信号的抑制便是很自然的事；为此，我们分别用公式十八和公式十九定义子带先验信噪比ξ(t，k)和后验信噪比η(t，k)如下：

公式十八、

公式十九、

那么，应用DD技术按下述递归公式来计算先验信噪比的估计

即：

公式二十、

其中，

为后验信噪比η(t，k)的估计，α为预设的平滑系数。

相应地，根据Wiener滤波理论，我们可得后混响信号抑制的子带增益函数G(t，k)用公式二十一表示为：

公式二十一、

用公式二十一计算的抑制增益来修正观测信号的子带谱，即获得前混响信号子带谱的一个有效估计为：

公式二十二、

应用合成滤波器组(Synthesis Filter bank，SFB)将

从子带域变换回时域语音信号

输出给后续相关处理系统。

注意到公式二十中第一项可以等效为：

公式二十三、

将公式二十三代入公式二十可得：

公式二十四、

上述方案，首先提出了一种基于单麦克风的混响语音信号中后混响成分抑制的子带域方法，具体表述为：在子带功率谱域，提出了一种带约束的NLMS自适应算法，用来学习更新DLP滤波器系数矢量，并据此获得后混响信号的子带自功率谱估计；根据后混响信号的子带功率谱估计和麦克风观测信号子带谱，应用DD技术来计算相应的先验信噪比估计值，进而求得用于后混响抑制的子带增益函数；用该子带增益函数来修正麦克风观测信号子带谱，从而获得目标信号的子带谱。

综上所述，基于单麦克风的混响语音信号中后混响成分抑制方法的算法流程图如图2所示，具体实现过程为：

首先，初始化算法相关的参数和变量，设置信号帧序号t＝0；读取第t帧麦克风拾取的观测数据，并应用AFB对读取的第t帧观测数据进行子带变换，获取相应的子带谱X(t，k)；根据公式九和公式十五至十七估计后混响信号子带自功率谱；根据公式二十四和公式二十一计算用于后混响信号抑制的子带抑制增益函数G(t，k)；根据公式二十二计算目标信号的子带谱估计，并用SFB将目标子带谱变换为时域的目标语音信号并予以输出；判断处理过程是否结束，在处理过程未结束时，执行t＝t+1，然后依次执行上述步骤，直到处理过程结束，结束处理流程。

二、基于麦克风阵列的混响语音信号中后混响成分的抑制方法

设室内有一个声源和一个由M个麦克风组成的阵列，记第m个麦克风拾取的观测语音信号为x_m(n)，m＝1，2，...，M。那么，首先对麦克风阵列输入信号进行空间滤波预处理，然后对预处理的单声道输出信号，应用上面叙述中提出的方法对其中后混响成分进行抑制处理，从而获得增强处理后的子带谱

首先，应用AFB对M个麦克风阵列的时域输入数字信号{x_m(n)，m＝1，2，...，M}进行子带变换，相应地获得M个子带信号，它们分别记为X_m(t，k)，m＝1，2，...，M，这里t为信号帧时间索引，k为子带索引。不失一般性，假设第r个麦克风为参考麦克风，那么以参考麦克风子带信号的相位为基准，将其它所有麦克风子带信号的相位与之做同步处理，则得：

公式二十五、

对公式二十五定义的M个声道的子带信号作如下的空间平均处理，便获得空间滤波单声道输出的子带信号Y(t，k)，即：

公式二十六、

公式二十五和公式二十六实际上是传统的“延时-相加”波束赋型器在子带域的一种实现形式，业已证明这种空间处理器具有因不同声道间空间相关性所引发的信号畸变的缺陷。为此，我们对公式二十五定义的M个声道的子带信号作如下的空间处理，便获得空间滤波单声道输出的子带信号Z(t，k)为：

公式二十七、

事实上，公式二十五和公式二十七在子带域定义的这种波束赋型器，其方向模式(directivity pattern)等同于传统的“延时-相加”波束赋型器，但由于公式二十七式中采用了麦克风接收信号的功率谱空间平均，而不是像公式二十六式中所采用(复数)频谱的空间平均，因而避免了“延时-相加”波束赋型器的空间相关性所引发的信号畸变的缺陷。

应用上面介绍的基于单麦克风混响语音信号中后混响成分抑制方法，对上述波束赋型器输出的子带信号Z(t，k)进行处理，便可获得去混响的目标子带信号

再应用SFB对目标子带信号进行子带反变换，即得时域目标信号

基于麦克风阵列的混响语音信号中后混响成分抑制方法的原理框图如图3所示，其中，子带自功率谱计算器按下述公式二十八估计空间滤波器输出子带信号Z(t，k)的自功率谱：

公式二十八、

而基于DLP后混响子带自功率谱估计器计算出子带信号Z(t，k)中的后混响子带自功率谱估计为：

公式二十九、

其中，

为子带k上的DLP自适应滤波器的系数矢量，其自适应更新由下述的约束型NLMS算法确定：

公式三十、

公式三十一、

公式三十二、

其中，0＜μ(1+β)＜2。

根据

和Z(t，k)，后混响抑制的子带增益函数计算器模块将给出G(t，k)如下：

公式三十三、

其中，先验SNR的估计

由下式递归平滑求得：

公式三十四、

这里，0＜α＜1为预设的平滑系数，后验SNR的估计

为：

公式三十五、

用G(t，k)修正Z(t，k)的如下的目标子带信号的估计为：

公式三十六、

应用SFB将目标子带信号变换为时域目标语音信号

上述方案为应用于麦克风阵列的后处理，提出的一种基于麦克风阵列的混响语音信号中后混响成分抑制的子带域方法。该方法首先在子带域，对麦克风阵列获取的观测信号子带谱，定义一种新的波束赋型器对其做空间预处理器，从而降低子带谱的偏差；然后对空间预处理器的输出子带谱信号应用基于单麦克风的情况中提出的方法进行后处理，因而获得最终的目标语音信号，从而完成去混响的任务；此种在子带域上实现的新型波束赋型器，其方向模式等同于传统的“延时-相加”波束赋型器，并降低了子带谱信号的偏差，但它克服了传统的“延时-相加”波束赋型器因不同声道间的空间相关性而引发的信号畸变的缺陷，从而确保基于单麦克风所提的方法用作麦克风阵列后处理器的运行环境。

基于麦克风阵列的混响语音信号中后混响成分抑制方法的算法流程图如图4所示，其具体实现过程为：

首先，初始化算法相关的参数和变量，设置信号帧序号t＝0；读取第t帧M组麦克风拾取的观测数据，并应用AFB对读取的第t帧观测数据进行子带变换，获取M组相应的子带谱；根据公式二十五和公式二十七对M组麦克风信号子带谱进行相位同步和空间滤波处理，获取子带谱Z(t，k)；根据公式二十八至三十五计算用于后混响信号抑制的子带抑制增益函数G(t，k)；根据公式三十六计算目标信号的子带谱估计，并用SFB将目标子带谱变换为时域的目标语音信号并予以输出；判断处理过程是否结束，在处理过程未结束时，执行t＝t+1，然后依次执行上述步骤，直到处理过程结束，结束处理流程。

下面对本发明实施例的具体实现过程说明如下。

如图5所示，本发明实施例提供一种混响语音信号中后混响功率谱的自适应估计方法，包括：

步骤51，获取麦克风拾取的混响语音信号的子带自功率谱的估计；

步骤52，获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量；

步骤53，根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计。

一、当所述麦克风为单麦克风时

具体地，所述步骤51的实现方式为：

根据上述的公式十六：

获取混响语音信号的子带自功率谱的估计；

其中，

具体地，所述步骤52的实现方式为：

根据上述的公式十五：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

具体地，所述步骤53的实现过程为：

根据上述的公式十七：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

二、当所述麦克风为麦克风阵列时，

具体地，所述步骤51的实现方式为：

根据上述的公式二十七：

t为信号帧的时间索引，k为子带索引。

根据上述的公式二十八：

其中，

具体地，所述步骤52的实现方式为：

根据上述的公式三十二：

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

具体地，所述步骤53的实现过程为：

根据上述的公式二十九：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

需要说明的是，本发明提出的这种混响语音信号中后混响功率谱的自适应估计方法，降低了去混响的难度，提高了去混响的效率，与现有传统方法相比，它具有更好的鲁棒性、更低的算法复杂度，便于在实际中实时在线实现。

如图6所示，本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置，包括：

第一获取模块61，用于获取麦克风拾取的混响语音信号的子带自功率谱的估计；

第二获取模块62，用于获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量；

第三获取模块63，用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计。

可选地，当所述麦克风为单麦克风时，所述第一获取模块61，用于：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

进一步地，所述第二获取模块62，用于：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

进一步地，所述第三获取模块63，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

可选地，当所述麦克风为麦克风阵列时，所述第一获取模块61，包括：

进一步地，所述第一获取单元，用于：

根据公式：

t为信号帧的时间索引，k为子带索引。

进一步地，所述第二获取单元，用于：

根据公式：

其中，

进一步地，所述第二获取模块62，用于：

根据公式：

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

进一步地，所述第三获取模块63，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

需要说明的是，该装置的实施例是与上述方法实施例一一对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

如图7所示，本发明实施例还提供一种混响语音信号中后混响功率谱的自适应估计装置，包括存储器71、处理器72及存储在所述存储器71上并可在所述处理器上运行的计算机程序，且所述存储器71通过总线接口73与所述处理器72连接；其中，所述处理器72执行所述计算机程序时实现以下步骤：

获取麦克风拾取的混响语音信号的子带自功率谱的估计；

可选地，当所述麦克风为单麦克风时，所述处理器72执行所述计算机程序时实现以下步骤：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

进一步地，所述处理器72执行所述计算机程序时实现以下步骤：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

可选地，当所述麦克风为麦克风阵列时，所述处理器72执行所述计算机程序时实现以下步骤：

根据公式：

t为信号帧的时间索引，k为子带索引。

根据公式：

其中，

根据公式：

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的混响语音信号中后混响功率谱的自适应估计方法。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种混响语音信号中后混响功率谱的自适应估计方法，其特征在于，包括：

获取麦克风拾取的混响语音信号的子带自功率谱的估计；

根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计；

其中，所述获取用于所述混响语音信号中后混响子带自功率谱估计的延时的线性预测DLP预测系数矢量，包括：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

R为室内冲击响应的长度，N为子带变换的语音信号帧的长度，D_c为前混响和后混响区分的临界点；μ和β为正常数，且0<μ(1+β)<2；E_k(t)为预测误差，且

为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计；t为信号帧的时间索引，k为子带索引，T为矢量的转置运算符；其中，在麦克风为单麦克风时，

用

表示，

用

表示，

为第t帧第k个子带的混响语音信号的子带自功率谱的估计；在麦克风为麦克风阵列时，

用

表示，

用

表示，

为第t帧第k个子带的经空间滤波处理后单声道输出信号的子带自功率谱的估计。

2.根据权利要求1所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，当所述麦克风为单麦克风时，所述获取麦克风拾取的混响语音信号的子带自功率谱的估计，包括：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

为第t帧第k个子带的混响语音信号的子带自功率谱的估计；λ为预设的平滑常数，且0<λ<1；

为第t-1帧第k个子带的混响语音信号的子带自功率谱的估计；X(t,k)为第t帧第k个子带的混响语音信号的子带谱；t为信号帧的时间索引，k为子带索引。

3.根据权利要求2所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，所述根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计，包括：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

W_τ(t,k)为第t帧第k个子带的DLP第τ个预测系数，τ＝0,1,2,…,Q-1，Q为DLP的系数个数，且Q＝R_s-D_s，

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

4.根据权利要求1所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，当所述麦克风为麦克风阵列时，所述获取麦克风拾取的混响语音信号的子带自功率谱的估计，包括：

5.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，所述获取麦克风阵列拾取的混响语音信号经空间滤波处理后的单声道输出信号的子带谱，包括：

根据公式：

其中，Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱；X_r(t,k)为第t帧第k个子带的第r个麦克风输出信号的子带谱；M为麦克风阵列的总个数；

t为信号帧的时间索引，k为子带索引。

6.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，所述根据所述单声道输出信号的子带谱，获取混响语音信号经空间滤波处理后的单声道输出信号的子带自功率谱的估计，包括：

根据公式：

其中，

为第t-1帧第k个子带的经空间滤波处理后的单声道输出信号的子带自功率谱的估计；λ为预设的平滑常数，且0<λ<1；Z(t,k)为第t帧第k个子带的经空间滤波处理后的单声道输出信号的子带谱；t为信号帧的时间索引，k为子带索引。

7.根据权利要求4所述的混响语音信号中后混响功率谱的自适应估计方法，其特征在于，所述根据所述子带自功率谱的估计和DLP预测系数，获取后混响子带自功率谱估计，包括：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

8.一种混响语音信号中后混响功率谱的自适应估计装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

获取麦克风拾取的混响语音信号的子带自功率谱的估计；

其中，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

用

表示，

用

表示，

用

表示，

用

表示，

9.根据权利要求8所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，当所述麦克风为单麦克风时，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

10.根据权利要求9所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

11.根据权利要求8所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，当所述麦克风为麦克风阵列时，所述处理器执行所述计算机程序时实现以下步骤：

12.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

t为信号帧的时间索引，k为子带索引。

13.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

其中，

14.根据权利要求11所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

W_τ(t,k)为第t帧第k个子带的DLP第τ个预测系数，τ＝0,1,2,…，Q-1，Q为DLP的系数个数，且Q＝R_s-D_s，

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的混响语音信号中后混响功率谱的自适应估计方法。

16.一种混响语音信号中后混响功率谱的自适应估计装置，其特征在于，包括：

第三获取模块，用于根据所述混响语音信号的子带自功率谱的估计和DLP预测系数矢量，获取后混响子带自功率谱估计；

其中，所述第二获取模块，用于：

根据公式：

获取DLP预测系数矢量；

其中，

为第t+1帧子带k上的DLP预测系数矢量；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

Q为DLP的系数个数，且Q＝R_s-D_s，

用

表示，

用

表示，

用

表示，

用

表示，

17.根据权利要求16所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，当所述麦克风为单麦克风时，所述第一获取模块，用于：

根据公式：

获取混响语音信号的子带自功率谱的估计；

其中，

18.根据权利要求17所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述第三获取模块，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

W_τ(t,k)为第t帧第k个子带的DLP第τ个预测系数，τ＝0，1，2，…,Q-1，Q为DLP的系数个数，且Q＝R_s-D_s，

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，

19.根据权利要求16所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，当所述麦克风为麦克风阵列时，所述第一获取模块，包括：

20.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述第一获取单元，用于：

根据公式：

t为信号帧的时间索引，k为子带索引。

21.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述第二获取单元，用于：

根据公式：

其中，

22.根据权利要求19所述的混响语音信号中后混响功率谱的自适应估计装置，其特征在于，所述第三获取模块，用于：

根据公式：

获取后混响子带自功率谱估计；

其中，

为后混响子带自功率谱估计；

为第t帧子带k上的DLP预测系数矢量，且

为第t-D_s帧第k个子带的混响语音信号的子带自功率谱矢量，