CN113281707B

CN113281707B - 一种强噪声下基于加窗lasso的声源定位方法

Info

Publication number: CN113281707B
Application number: CN202110575547.4A
Authority: CN
Inventors: 蒋三新; 滕繁; 王新宇; 郑亚睿; 李阳; 时瑞
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-10-21
Anticipated expiration: 2041-05-26
Also published as: CN113281707A

Abstract

本发明公开了一种强噪声下基于加窗LASSO的声源定位方法，包括，通过麦克风阵列获得麦克通道的音频信号；基于LASSO算子设计两种不同的加窗的LASSO算子，并利用两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分；将音调成分和瞬态成分同时进行最大空间似然估计，得到音频信号的空间定位结果，完成目标声源定位的初步估计；对空间定位结果进行滑动平均，以平滑空间定位结果，获得最终定位结果；本发明提出了一种结构收缩算子，使得空间定位时所需的计算复杂度将大为减少，同时抗噪能力也将显著提高。

Description

一种强噪声下基于加窗LASSO的声源定位方法

技术领域

本发明涉及的技术领域，尤其涉及一种强噪声下基于加窗LASSO的声源定位方法。

背景技术

随着机器人对音频智能化需求的发展，尤其是机器听觉的出现，声源定位(Direction Of Arrive DOA)需求不再仅仅要求到达方向的平面(二维)估计，进而要求到达方向的空间(三维)估计。为此，最近提出了多种声源空间定位算法，如：基于三维伪矢量的声源三维DOA估计方法，基于最优格搜索和基于强度矢量与波束成形相结合的三维定位DOA方法。这两种方法均在空间谐波域构造出一个伪方向矢量，使其指向声源空间方位反方向，并在此基础之上实现最优格搜索。此类方法计算复杂度适中，但定位精度有限，多适用于无噪声或低噪声的理想场景。对于强噪声场景，声源信号有可能完全被背景噪声所掩盖。此外，为了适应强噪声场景，有人在传统MUSIC(Multiple Signal Classification MUSIC)方法的基础上提出了基于噪声协相关矩阵估计的定位算法，但此类方法具有较高的计算复杂度，难以实现实时定位。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种强噪声下基于加窗LASSO的声源定位方法，能够解决现有技术在低信噪比(强噪声)场景中或麦克阵列的通道数较多时难以准确定位或不能进行定位的问题。

为解决上述技术问题，本发明提供如下技术方案：包括，通过麦克风阵列获得麦克通道的音频信号；基于LASSO算子设计两种不同的加窗的LASSO算子，并利用所述两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分；将所述音调成分和瞬态成分同时进行最大空间似然估计，得到音频信号的空间定位结果，完成目标声源定位的初步估计；对所述空间定位结果进行滑动平均，以平滑空间定位结果，获得最终定位结果。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述两种不同的加窗的LASSO算子包括，采用二维高斯加权矩形窗函数W(k)用于惩罚项；根据所述惩罚项，并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗，分别获得不同的水平窗函数W_ton和垂直窗函数W_tra；将所述水平窗函数W_ton和所述垂直窗函数W_tra分别引入LASSO算子，进而获得两种不同的加窗的LASSO算子。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述二维高斯加权矩形窗函数W(k)包括，所述二维高斯加权矩形窗W(k)如下：

其中，u＝(u₁,u₂)为各维变量的均值，表征的是各维变量的中心；K＝(k₁,k₂)为二维变量，表示相对于中心(u₁,u₂)的偏移量；T为转置符号；∑为协方差矩阵，描述变量k₁,k₂之间的相关度。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述协方差矩阵包括，

其中，σ为各维变量的标准差。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述音调成分与瞬态成分包括，根据两种不同的加窗的LASSO算子获得的结构化收缩算子如下，即所述音调成分与瞬态成分：

其中，z_k,k＝1,...,N，表示s在字典Φ中稀疏估计前的系数；

为新的加权邻域，k′∈I为索引，

为权重；z_k'是由所索引的系数形成的向量。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述最大空间似然估计包括，构建空间似然函数γ_TF(k,l,θ)：

其中x_tm和x_rm表示第m个麦克接收到的音调与暂态成分的频域表示；k和l分别是音频快速傅立叶变换后对应的频率和索引；τ是两个麦克之间对于来自θ方向的时延；当麦克相位差的理论值和测量值相等时，似然函数取得最大值。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：其特征还包括，在所述空间似然函数γ_TF(k,l,θ)计算时，设置阈值β，当频谱幅度小于β时置0，即满足如下公式：

寻找使得似然函数最大的

该值即为目标声源的空间方位。

作为本发明所述的强噪声下基于加窗LASSO的声源定位方法的一种优选方案，其中：所述滑动平均包括，计算方式如下：

v_t＝βv_t-1+(1-β)θ_t

其中，β为衰减率，v_t-1，v_t分别为上一个时刻和当前时刻滑动平均模块的输出，v_t′为v_t的修正值。

本发明的有益效果：本发明提出了一种结构收缩算子，并在其惩罚项中引入二维加权邻域窗，可充分利用音频信号的群体稀疏性，将其分解为音调分量和瞬态分量；然后，将所得的两个分量用于音频信号的空间定位；由于音频信号的群体稀疏分解过程中去掉了噪声及其它非主要成分，为此，空间定位时所需的计算复杂度将大为减少，同时抗噪能力也将显著提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的总体架构示意图；

图2为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的声源定位测试环境示意图；

图3为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始测试音频的波形及频谱示意图；

图4为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR＝0时)示意图；

图5为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR＝-10dB时)示意图；

图6为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的通道0接收音频的时域波形及频谱(SNR＝-20dB时)示意图；

图7为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的邻域窗k1、k2示意图；

图8为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始音频信号中WG-Lasso算子提取出的音调成分示意图；

图9为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的原始音频信号中WG-Lasso算子提取出的暂态成分示意图；

图10为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR＝0dB时)示意图；

图11为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR＝0dB时)示意图；

图12为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR＝-10dB时)示意图；

图13为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR＝-10dB时)示意图；

图14为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的音调成分(SNR＝-20dB时)示意图；

图15为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的WG-Lasso算子提取出的暂态成分(SNR＝-20dB时)示意图；

图16为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的连续帧中SRP与WGL两种方法定位结果比较示意图；

图17为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的同一帧中SRP的声源定位结果统计分布示意图；

图18为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的同一帧中WGL的声源定位结果统计分布示意图；

图19为本发明第二个实施例所述的一种强噪声下基于加窗LASSO的声源定位方法的添加滑动平均模块后连续帧中SRP与WGL两种方法定位结果比较示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

为了在强噪声或存在一定混响的场景中实现目标声源的空间定位，通常利用麦克风阵列采集多路音频信号，然后基于TDOA(Time Difference of Arrival TDOA)、基于最大可控响应功率的波束形成或基于高分辨率谱估计等方法实现目标声源的空间定位；这类算法在定位过程中需要同时利用多路音频信号，计算量巨大，难以实现实时处理；针对这一难点，我们提出了一种基于加窗LASSO的声源定位方法，该方法利用音频信号的稀疏特性，可显著提升定位算法的鲁棒性，同时还可明显降低定位算法的计算复杂度。

研究表明，音频信号具有一定的群体稀疏性(Social Sparsity)，它主要由频域稀疏的音调分量和时域稀疏的瞬态分量两部分组成；为了提取音频信号的稀疏分量，可将其建模为凸优化问题并采用LASSO(Least Absolute Shrinkage and Selection OperatorLASSO)算法实现；为了实现音频信号的稀疏分解，在LASSO算法中我们首先选择合适的稀疏字典，然后，引入合适的惩罚项，用于保证音调分量或瞬态分量的稀疏性；在此过程中，惩罚项的设计是音频信号高质量稀疏分解的关键。

参照图1，为本发明的第一个实施例，该实施例提供了一种强噪声下基于加窗LASSO的声源定位方法，包括：

S1：通过麦克风阵列获得麦克通道的音频信号。

声源经过麦克风阵列可以产生多个麦克通道的音频信号。

S2：基于LASSO算子设计两种不同的加窗的LASSO算子，并利用两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分。

设计两种不同的加窗的LASSO算子的步骤如下：

(1)采用二维高斯加权矩形窗函数W(k)用于惩罚项；

考虑到音频信号的群体稀疏性，也即音频信号的频谱能量多集中于水平的音调部分和垂直的瞬态部分，本方法提出用于惩罚项加权的窗，其形状也应该是水平或垂直的，以便同时提取音频谱中的音调成分和暂态成分；此外，窗中各频谱点的权重应与他们相对位置相关；通常来说，距离越近的邻近点与当前频谱点的相似程度越大，关联性越强；为此，本方法采用二维高斯加权矩形窗函数W(k)用于惩罚项，二维高斯加权矩形窗函数W(k)的表达式如下：

协方差矩阵如下：

其中，σ为各维变量的标准差。

(2)根据惩罚项，并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗，分别获得不同的水平窗函数W_ton和垂直窗函数W_tra；

(3)将水平窗函数W_ton和垂直窗函数W_tra分别引入LASSO算子，进而获得两种不同的加窗的LASSO算子。

进一步的，根据两种不同的加窗的LASSO算子获得的结构化收缩算子如下，即音调成分与瞬态成分：

其中，z_k,k＝1,...,N，表示s在字典Φ中稀疏估计前的系数；

为新的加权邻域，k′∈I为索引，

为权重；z_k'是由所索引的系数形成的向量。

S3：将音调成分和瞬态成分同时进行最大空间似然估计，得到音频信号的空间定位结果，完成目标声源定位的初步估计。

同时利用音频谱中的音调成分和暂态成分这两种成分进行定位，能够增强算法的鲁棒性；因此本方法将分解得到的两种分量同时用于音频信号的空间定位，与原有的空间似然函数相结合，构建出一个新的空间似然函数。

构建的空间似然函数γ_TF(k,l,θ)如下：

在空间似然函数γ_TF(k,l,θ)计算时，设置阈值β，当频谱幅度小于β时置0，即满足如下公式：

寻找使得似然函数最大的

该值即为目标声源的空间方位。

S4：对空间定位结果进行滑动平均，以平滑空间定位结果，获得最终定位结果。

经过最大空间似然函数的计算可以实现目标DOA的初步估计，但得到的结果可能会产生数据抖动；为了消除似然函数输出的抖动，平滑估计结果，本发明采用了滑动平均模块(Exponential Moving Average EMA)，或者叫做指数加权平均(ExponentiallyWeighted Moving Average EWMA)，该方法是一种用滑动平均来估计变量的局部均值法，具体计算方式如下：

v_t＝βv_t-1+(1-β)θ_t

实施例2

为了对本方法中采用的技术效果加以验证说明，本实施例选择SRP-PHAT声源定位方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

SRP-PHAT声源定位方法在低信噪比(强噪声)场景中，难以准确定位或不能进行定位；且当麦克阵列的通道数较多时，计算复杂度高，难以进行实时定位；

为验证本方法相对SRP-PHAT声源定位方法能够在强噪声场景中目标声源的准确定位且实现目标声源的实时定位，本实施例中将采用SRP-PHAT声源定位方法和本方法分别对声源进行定位。

测试环境为8*8*3m³的房间，使用一个半径为12cm、高度为24cm的圆柱形16麦克风阵列来接收信号，麦克风阵列的原点坐标为(4m，4m，0.6m)，也是图2下部圆形麦克风阵列的中心。

目标声源为一段约5秒的音频信号，其高度为1.7m，距离麦克阵列中心2m，环境的混响时间为20ms，将声源分别置于0°，60°，120°和150°，具体测试环境如图2所示。

先对本方法进行参数设定：

(1)输入音频信号到麦克风阵列

原始音频的波形及频谱如图4所示；在0，-10及-20dB信噪比条件下，麦克阵列通道0接收到的含噪波形及其对应频谱图分别如图4、图5和图6所示。

(2)音频信号的结构化分解

①测试过程中，将邻域窗的宽度设置为3，用于音调成分提取的横向窗长度设置为9，而用于暂态成分提取的纵向窗，其高度设置为5，两种窗的形状如图7所示。

窗内各频谱点的权重服从二维高斯分布，其均值向量和协方差矩阵分别如下式所示：

此时，邻域窗中各谱点的权重分布分别为：

音调窗的权重矩阵：

暂态窗的权重矩阵：

②音频分解

目标声源经16路麦克阵列采样后将得到16通道的音频信号，对每个音频通道分别采用加窗分组LASSO算子，提取音调成分和暂态成分；音频信号的时频变换采用Gabor变换，对于音调成分采用4096点，平移步长1024点，对于暂态成分，采用256点，平移步长64点。

无噪声条件下，通道0的提取结果分别如图8和图9所示(实验参数：音调层λ＝0.13，瞬态层λ＝0.05)。

在0，-10及-20dB信噪比条件下，通道0提取的结果分别如图10、11、12、13、14、15所示，其中，SNR＝0dB时，音调层λ＝0.35，瞬态层λ＝0.35；SNR＝-10dB，音调层λ＝1，瞬态层λ＝0.8；，SNR＝-20dB时，音调层λ＝1.2，瞬态层λ＝1.2。

(3)最大似然函数估计DOA

对本方法设计加窗的LASSO算子输出所得的16通道频谱幅度分别与阈值β＝0.005比较，若频谱幅度大于β则保留，否则频谱点置0；

将频谱逐帧似然估计，并将θ线性增加，似然函数最大即为目标声源DOA，SRP-PHAT声源定位方法(SRP-DOA)和本方法(WGL-DOA)获得的定位结果如图16所示；其中每帧有效频点的定位结果分别如图17、18所示。

(4)滑动平均

选取衰减率为0.9，此时，滑动平均的计算方法为：

v_t＝0.9v_t-1+0.1θ_t

得到的输出曲线如图19所示，由图可见，本方法最终得到DOA的平均值为146°，接近真实值150°。

(5)复杂度的计算

超参数λ设为0时，本方法的加窗的Lasso(WG-Lasso)算子不对音频信号进行提取，此时采用SRP-PHAT声源定位方法；当λ设为其他非零值时，WG-Lasso算子对音频信号的有效成分进行不同程度的提取，去除不必要的其它成分，此时使用的是本方法的声源定位；因此可以通过设置不同的λ值来选择不同的定位方法；在这里，我们分别设置λ＝0和λ＝0.05，比较两种方法的每帧执行时间和总执行时间；计算复杂度的对比如下表所示。

表1：两种方法的复杂度的对比。

方法	总执行时间(s)	每帧执行时间(s)
			SRP-PHAT声源定位方法	1608.841396	33.517529
本方法	696.322258	14.506714

由上表可见，本方法的执行时间明显低于SRP-PHAT的声源定位方法。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种强噪声下基于加窗LASSO的声源定位方法，其特征在于：包括，

通过麦克风阵列获得麦克通道的音频信号；

基于LASSO算子设计两种不同的加窗的LASSO算子，并利用所述两种不同的加窗LASSO算子对各通道音频信号提取其音调成分与瞬态成分；其中所述两种不同的加窗的LASSO算子包括，采用二维高斯加权矩形窗函数W(k)用于惩罚项，根据所述惩罚项，并通过设置邻域窗的宽度、用于音调成分提取的横向窗长度和用于暂态成分提取的纵向窗，分别获得不同的水平窗函数W_ton和垂直窗函数W_tra，将所述水平窗函数W_ton和所述垂直窗函数W_tra分别引入LASSO算子，进而获得两种不同的加窗的LASSO算子；

将所述音调成分和瞬态成分同时进行最大空间似然估计，得到音频信号的空间定位结果，完成目标声源定位的初步估计；

对所述空间定位结果进行滑动平均，以平滑空间定位结果，获得最终定位结果。

2.如权利要求1所述的强噪声下基于加窗LASSO的声源定位方法，其特征在于：还包括，

所述二维高斯加权矩形窗函数W(k)如下：