CN116859336A

CN116859336A - 一种声源定位的高精度实现方法

Info

Publication number: CN116859336A
Application number: CN202310862367.3A
Authority: CN
Inventors: 许宜申; 朱欣程; 冯慧涛; 姜余杰; 邱志昕; 颜明轩; 蒋宇阳; 吴彦昊; 张晓俊; 陶智
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-10

Abstract

本发明属于声源定位的技术领域，公开了一种声源定位的高精度实现方法，包括利用双通道特性，并基于声源估计算法，计算各麦克风阵列之间的关系函数；通过构建二十面体特征注意力网络模型进行特征提取；对特征进行学习，实现高精度声源定位。本发明提供的一种声源定位的高精度实现方法，通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求，减少目前高精度声源定位的实现成本，有着很好的实用性。

Description

一种声源定位的高精度实现方法

技术领域

本发明涉及声源定位的技术领域，尤其涉及一种声源定位的高精度实现方法。

背景技术

语音的基本目的是为了人类沟通，即说话人与听者之间的信息传递。随着科技产品的落地化布局，人机交互已覆盖人们生活的各方各面。在人机交互过程中，机器需要完成语音信号的采集、前处理、识别等操作，进而完成人类发出的相应指令。实际环境中，无处不在的各种干扰对信号传输产生很大的影响，例如背景噪声、室内混响以及其他说话人的干扰声等。在阵列信号处理领域中，声源定位估计技术是一项关键的技术。它所需解决的问题是如何在嘈杂的室内环境下，根据麦克风的接收信号估计出目标说话人的入射方向。一旦说话人波束确定后，即可对信号做指定波束的语音增强等处理。在传统算法中，许多研究者不断优化算法来提升定位性能，在一些比较理想的室内环境下，具有良好的估计性能，但在低信噪比或高混响环境下，传统算法无法适应这类嘈杂环境，其性能受到显著性的影响，且实时性也欠佳。

近年来，随着硬件的不断更新换代，深度学习得到了突飞猛进的发展。不管是在图像、语音或视频领域，深度学习都成为主要研究工具。相较于传统算法，基于深度学习的声源定位估计能有效提升嘈杂环境下的估计性能，但其在低信噪比和强混响下的性能仍亟待提升。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有技术在定位精度上仍具有优化空间，以及环境鲁棒性有待提升的问题。

为解决上述技术问题，本发明提供如下技术方案：一种声源定位的高精度实现方法，包括：

利用双通道特性，并基于声源估计算法，计算各麦克风阵列之间的关系函数；

通过构建二十面体特征注意力网络模型进行特征提取；

对特征进行学习，实现高精度声源定位。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述声源估计算法，包括最小均方自适应算法LMS；

根据麦克风阵列信号模型，接收的信号表示为x₁(n)和x₂(n)；

所述最小均方自适应算法将x₁(n)经过滤波器h(n)后的输出信号无限逼近目标信号x₂(n)，所述输出信号表示为：

其中，h_opt(n)为最优滤波器，表示为：

当取最小均方误差时，滤波器的时间延迟表示为：

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述声源估计算法，还包括基于相位变换加权的可控响应功率的声源定位算法；

所述声源定位算法SRP-PHAT输出功率表示为：

其中，M为麦克风总数，θ为声源的方向矢量，τ_m,n表示从声源到麦克风相对于参考麦克风的延迟差；

所述声源定位算法SRP-PHAT表示为：

通过对波束输出功率进行峰值检测得到声源的方位信息。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS，所述形成方法SRP-LMS的输出功率表示为：

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块；

通过特征提取模块得出两个特征值作为整个系统提取的特征，随后进入特征残差学习模块、特征注意权值模块和特征融合学习模块，通过对提取的特征进行学习训练，提升定位精度。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中，得到相应的二十面体SRP功率谱图；

将二十面体SRP功率谱图输入特征提取模块，得到二十面体特征1和二十面体特征2。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图，输入特征是维度为B×T×C×R×5×H×W的七维张量；

其中，B为批量大小，T为时间维度，C是通道维数，R是二十面体卷积所需的六个通道，开始时输入特征标量R的值为1，5是图表的数量，H和W分别为输入特征的二十面体网格的长度和宽度。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述特征残差学习模块包括卷积层、Relu激活层和残差结构；

对特征残差学习模块的输入二十面体特征1和二十面体特征2得到增强特征1和增强特征2。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：所述特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层；

所述特征注意力权重模块的输入为所述特征残差学习模块的输入和输出特征；

对增强特征采用二十面体层归一化层得到输入通道维度和二十面体卷积通道维度上相对应的描述符，所述描述符f表示为：

f＝LNormIco(增强特征)

所述描述符f经过两个卷积层以及一个ReLU函数激活，最后结合sigmod层，反馈两类特征在不同环境下的自适应权系数，所述自适应权系数w表示为：

w＝Sigmoid(IcoConv(ρ(IcoConv(f))))

其中，Sigmoid为Sigmoid激活函数，ρ表示ReLU激活函数,IcoConv为二十面体卷积。

作为本发明所述的声源定位的高精度实现方法的一种优选方案，其中：将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征；

将输入的二十面体特征1和二十面体特征2与自适应特征相加结合得到融合特征；

所述融合特征结合了二十面体卷积核和一维卷积的学习前一帧信息；

将所述融合特征输入特征学习模块，得到静态和动态声源定位信息。

本发明的有益效果：本发明提供的一种声源定位的高精度实现方法，通过提出一种二十面体特征注意力网络模型满足了人工智能领域和工业领域对高精度声源定位的迫切需求，减少目前高精度声源定位的实现成本，有着很好的实用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例所述的声源定位的高精度实现方法的整体流程图；

图2为本发明一个实施例所述的声源定位的高精度实现方法的模块流程示意图；

图3为本发明一个实施例所述的声源定位的高精度实现方法的特征残差学习模块示意图；

图4为本发明一个实施例所述的声源定位的高精度实现方法的特征注意力权重模块示意图；

图5为本发明一个实施例所述的声源定位的高精度实现方法的特征学习模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1—5，为本发明的第一个实施例，该实施例提供了一种声源定位的高精度实现方法，包括：

S1：利用双通道特性，并基于声源估计算法，计算各麦克风阵列之间的关系函数；

更进一步的，声源估计算法，包括最小均方自适应算法LMS；

其中，h_opt(n)为最优滤波器，表示为：

当取最小均方误差时，滤波器的时间延迟表示为：

更进一步的，声源估计算法，还包括基于相位变换加权的可控响应功率的声源定位算法；

所述声源定位算法SRP-PHAT输出功率表示为：

应说明的是，在室内环境，真正的混响往往比理想的混响条件复杂得多，LMS延迟估计容易出现误差。因此，本发明提出利用双通道特性，分别采用GCC算法与LMS算法计算各麦克风阵列之间的特征系数，然后对两对麦克风之间的函数进行累加。

所述声源定位算法SRP-PHAT表示为：

通过对波束输出功率进行峰值检测得到声源的方位信息。

更进一步的，结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS，所述形成方法SRP-LMS的输出功率表示为：

S2：通过构建二十面体特征注意力网络模型进行特征提取；

更进一步的，二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块；

更进一步的，将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中，得到相应的二十面体SRP功率谱图；

所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图，输入特征是维度为B×T×C×R×5×H×W的七维张量；

应说明的是，由一个二十面体层卷积的输入二十面体特征分别称为二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图，其通道维数扩展为16，R为6。这一步作为整个系统的特征提取部分。此外，用于声源定位的模型由特征残差学习模块、特征权重注意力模块和融合特征学习模块组成。

S3：对特征进行学习，实现高精度声源定位。

更进一步的，特征残差学习模块包括卷积层、Relu激活层和残差结构；

应说明的是，残差模块的加入，可以让网络忽略输入特征中不太重要的信息，如二十面体特征中非峰值区域的信息。通过残差模块，输入特征转化为更深层次的特征，提升特征对DOA的表征能力。为了适应输入特征张量的维度信息，本模块采用二十面体卷积作为卷积层。

更进一步的，特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层；

f＝LNormIco(增强特征)

w＝Sigmoid(IcoConv(ρ(IcoConv(f))))

更进一步的，将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征；

应说明的是，sigmod函数后输出一个权重值，这个权重值通过网络学习反馈得到。所以权重值是自适应的。对不同的输入数据适应。权重值再与原本的输入特征乘积，就可以得到该输入数据在两个特征上哪个更为有效。权重便可以表示有效的一个量化值。所以，在不同信噪比，不同混响下，学习到的权重系数是不同的，所以最后输出的特征比例也是不同的。

实施例2

参照表1—3，为本发明的一个实施例，该实施例提供了一种声源定位的高精度实现方法，为了验证本发明的有益效果，通过具体的实施方式以及实施效果进行科学论证。

本实施例具体如下，

①高精度声源定位技术实现步骤：

将声学信号输入，采用基于广义互相关算法(GCC)和最小均方算法(LMS)分别得到功率特征值(SRP)和类SRP特征值，将两个声源特征值通过特征残差学习模块和特征注意力权重模块输入到基于规范等变卷积网络的特征学习模块，实现对声源到达方向(DOA)估计，在嘈杂的环境中实现精准的声源定位。

②具体设备：(硬件设施)

具有12个麦克风的伪球形麦克风阵列和R818降噪板采集声音信号，然后通过串口接口与连接linux系统，通过声源定位的高精度实现方法来确定声源位置，在工业应用等相关领域具有重要作用。

③实验结果：

在实际声环境中，声源的定位精度受到室内混响、噪声、声源的干扰和静默期等诸多因素的影响。此外，实践中使用的声学场景通常是动态的，声源或麦克风阵列处于移动状态。但是，需要连续记录声源的真实位置来判断算法的性能。IEEE-AASP声源定位和跟踪挑战数据库(LOCATA)能够提供真实世界的数据来评估定位和跟踪算法的性能。该挑战包括六个任务，声源从单个到多个，从静态到动态，如表1所示。这些任务有效地低估了声源定位和跟踪算法的性能。本发明使用的算法仅适用于单源任务，因此评估测试集。

表1任务1-3实验环境说明

	声源	麦克风阵列	说话者
				任务1	单个	静态	静态
任务2	单个	静态	移动
				任务3	单个	移动	移动

为了有效地评价本发明算法的性能，测试数据集与基线中使用的数据集一致。使用LOCATA的eval子集，任务1包含13个录音，任务2和任务3各有5个录音。本文提出的输入特征的分辨率为R＝2。表2将通过该方法测试的DOA的平均RMSAE与二十面体CNN和cross3D模型进行了比较，其中cross3D只比较其最高精度的结果。表3给出了不含静音帧的DOA估计误差结果。

表2 LOCATA声源跟踪球面距离均方根误差(含静音帧)

表3 LOCATA声源跟踪球面距离均方根误差(不含静音帧)

表中的数据可以看出，本文提出的声源定位与跟踪模型在实际场景中具有优异的性能。该方法的性能优于目前基于深度学习的混响声源定位模型。在包含静音帧的情况下，该方法将三个任务的准确率平均提高了20.16％。特别是在静态任务中，误差保持在5°以内。比较表2和表3，静音帧对静态任务1没有显著影响。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种声源定位的高精度实现方法，其特征在于，包括：

通过构建二十面体特征注意力网络模型进行特征提取；

对特征进行学习，实现高精度声源定位。

2.如权利要求1所述的声源定位的高精度实现方法，其特征在于：所述声源估计算法，包括最小均方自适应算法LMS；

其中，h_opt(n)为最优滤波器，表示为：

当取最小均方误差时，滤波器的时间延迟表示为：

3.如权利要求2所述的声源定位的高精度实现方法，其特征在于：所述声源估计算法，还包括基于相位变换加权的可控响应功率的声源定位算法；

所述声源定位算法SRP-PHAT输出功率表示为：

所述声源定位算法SRP-PHAT表示为：

通过对波束输出功率进行峰值检测得到声源的方位信息。

4.如权利要求3所述的声源定位的高精度实现方法，其特征在于：结合所述最小均方自适应算法和声源定位算法得到一种基于最小均方自适应的延迟和波束形成方法SRP-LMS，所述形成方法SRP-LMS的输出功率表示为：

5.如权利要求4所述的声源定位的高精度实现方法，其特征在于：所述二十面体特征注意力网络模型包括特征提取模块、特征残差学习模块、特征注意力权重模块和特征学习模块；

6.如权利要求5所述的声源定位的高精度实现方法，其特征在于：将SRP-PHAT映射和SRP-LMS映射投入二十面体网格中，得到相应的二十面体SRP功率谱图；

7.如权利要求5或6所述的声源定位的高精度实现方法，其特征在于：所述二十面体SRP功率谱图包括二十面体SRP-PHAT功率谱图和二十面体SRP-LMS功率谱图，输入特征是维度为B×T×C×R×5×H×W的七维张量；

8.如权利要求7所述的声源定位的高精度实现方法，其特征在于：所述特征残差学习模块包括卷积层、Relu激活层和残差结构；

9.如权利要求8所述的声源定位的高精度实现方法，其特征在于：所述特征注意力权重模块包括归一化、卷积层、relu激活函数、sigmod激活函数和池化层；

f＝LNormIco(增强特征)

w＝Sigmoid(IcoConv(ρ(IcoConv(f))))

10.如权利要求9所述的声源定位的高精度实现方法，其特征在于：将所述自适应权系数与增强特征1和增强特征2相乘得到自适应特征；