CN114994608B

CN114994608B - 基于深度学习的多设备自组织麦克风阵列声源定位方法

Info

Publication number: CN114994608B
Application number: CN202210421855.6A
Authority: CN
Inventors: 张晓雷; 刘书培; 郭红梅
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2024-05-14
Anticipated expiration: 2042-04-21
Also published as: CN114994608A

Abstract

本发明公开了一种基于深度学习的多设备自组织麦克风阵列声源定位方法，经过对语音数据的预处理并提取相位图特征后，系统首先通过卷积神经网络得到方位角度估计。接着依据神经网络输出的Softmax值，使用节点选择算法对多个节点的方位角估计结果进行筛选，挑选出认为声源位置估计更准确的麦克风节点。然后使用三角测量法从每两个节点中粗略的估计出声源的位置，最后利用均值漂移聚类算法从大量粗略估计的声源位置中得到最终准确的声源位置估计。本发明可以在降低算法计算复杂度的同时可以达到提升声源定位精度的目的。

Description

基于深度学习的多设备自组织麦克风阵列声源定位方法

技术领域

本发明属于语音处理技术领域，具体涉及一种深度学习声源定位方法。

背景技术

声源定位(Sound Source Localization，SSL)是一种根据麦克风阵列记录下的多通道声信号，估计一个或者多个声源相对于某个参考坐标系的位置的方法。近年来，随着深度学习被引入到语音处理的领域，数据驱动的深度学习技术所具有的诸多优势也体现在了声源定位算法当中。由于多数情况下均会假设场景为远场条件，而单个麦克风阵列只能确定声源的方向信息。为了确定声源在二维或者三维空间中的坐标，使用多个麦克风阵列进行声源定位是一种可行的方案。目前基于多麦克风阵列的声源定位方法主要分为以下两类：基于经典信号处理的方法和基于深度学习的方法。

基于经典信号处理的方法主要分为以下四类：1.基于能量的声源定位方法，首先对声源发出声音在空间中的能量衰减进行建模，通过结合声源和麦克风位置与声能变化，得到估计的声源位置；2.基于到达时间(time-of-arrival，TOA)方法根据同一声源发出的声音到不同麦克风节点的传播时间的不同来计算声源和麦克风节点之间的距离，通过这种方法确定一系列以节点为中心的圆，进一步通过多个圆的交点确定估计的声源位置；3.当每个麦克风节点有一个麦克风阵列时，基于到达时间差(time-difference-of-arrival,TDOA)的声源定位方法根据同一声源所发出的声音到达同一阵列上的不同麦克风的到达时间的不同来计算到达时间差，通过这种方法确定一系列以麦克风节点位置为焦点的双曲线，进一步通过双曲线的交点估计声源的位置。4.基于到达方向(direction-of-arrival，DOA)的声源定位方法是通过估计每个节点的麦克风阵列接收声源信号的方向得到声源相对于麦克风阵列的角度，这样多个节点可以确定出一系列从声源到不同麦克风节点的径向线，这些线的交点就是估计的声源位置。

以上方法存在各自的局限性。首先，由于实际房间中的声音传播比较复杂，基于能量的声源定位方法很难建立出符合实际情况的声音衰减模型，因此在室内条件下方法的定位误差较大。基于TOA的声源定位方法要求声源和每个节点上的麦克风之间的时钟是精确同步的，这样才可以在每个节点的麦克风处检测到信号的传播时间，这需要声源和麦克风阵列之间的协同。然而在一般情况下，当需要定位一些未知的声音信号如语音和一些不可预料的声音事件时，使用这种方法估计到达时间是非常不准确的。相比于基于TOA的声源定位方法，基于TDOA的声源定位方法不需要保证声源和麦克风之间的时钟同步，只需要保证每个节点的麦克风之间是时钟同步的即可。但是基于TDOA的声源定位方法存在以下的两个问题：1.对于混响和噪声的干扰非常敏感，尤其是混响存在的情况下，会导致TDOA的估计不准确，进一步导致在室内场景下估计的声源位置精度较差；2.由于声音在空气中的传播速度受到多种条件的影响，如温度、湿度等，导致估计时延的这类方法必然存在一定的误差。基于DOA的声源定位方法也需要保证每个节点的麦克风之间是时钟同步，这类方法同样也容易受到混响和噪声的干扰。

近年来，由于深度学习的发展，基于深度学习的方法展现了以下优势：1.在强混响和低信噪比情况下仍然具备较高的定位精度；2.可以通过训练使得声源定位方法具备较好的泛化性能。2019年，Le Moing等人借助编解码器结构，提出了一种基于网格的端到端的声源定位方法，该方法一方面提出了两种新的基于深度神经网络的声源位置表示方法，将基于概率分布和基于分类任务的网格作为神经网络的输出，另一方面对编解码器进行改进，使麦克风阵列之间共享一个编码器，网络中还加入了配对麦克风之间特征的网络。虽然作者在2021年的另一篇文章中中对网络进行了改进使得可以适应不同的麦克风阵列位置，但是该方法存在以下两个问题：1.方法对麦克风阵列的个数有要求，无法推广到数目随机的麦克风阵列上；2.方法在仿真的理想实验条件下进行，没有测试方法在低信噪比和强混响条件下的性能。2021年，Wu等人借助深度神经网络及编解码器结构，提出了一种端到端的声源定位方法。该方法使用了两个并行的解码器分别用于去多径和预测声源位置，通过联合训练使得编码器具备隐式的去多径能力，从而提高系统对声源的定位精度。但是该方法存在以下两个问题：1.系统要求测试阶段的房间大小与训练阶段保持一致，限制了该方法对不同声学场景的泛化能力；2.对麦克风阵列的个数及布放位置有要求，算法不能推广到数目及布防均随机的麦克风阵列上。

发明内容

为了克服现有技术的不足，本发明提供了一种基于深度学习的多设备自组织麦克风阵列声源定位方法，发明方法框架图如图1所示。经过对语音数据的预处理并提取相位图特征后，系统首先通过卷积神经网络得到方位角度估计。接着依据神经网络输出的Softmax值，使用节点选择算法对多个节点的方位角估计结果进行筛选，挑选出认为声源位置估计更准确的麦克风节点。然后使用三角测量法从每两个节点中粗略的估计出声源的位置，最后利用均值漂移聚类(mean shift clustering)算法从大量粗略估计的声源位置中得到最终准确的声源位置估计。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：在室内的声学场景中随机布置多个包含有麦克风阵列的节点，并放置一个随机位置的声源；

步骤2：对麦克风采集到的语音数据进行预处理和提取短时傅里叶变换特征STFT，在每个时频点上观测到的信号用复数形式进行表示：

其中Y_i(t,f)表示第i个麦克风采集到信号的短时傅里叶变换，A_i(t,f)和分别表示短时傅里叶变换的幅度分量和相位分量，t和f分别表示时间帧和频率；

在麦克风采集到信号的短时傅里叶变换特征中，和波达方向估计相关的特征是相位分量；对于多通道语音的每个时间帧，以时间帧对应的相位谱特征为基础，得到一个相位图特征M×K，其中M代表麦克风阵列中的阵元个数，K代表频点的个数；进一步将所有时间帧的相位图特征叠加在一起得到一个训练语句的相位图特征M×K×N，其中N表示一个训练语句中所有时间帧的个数；

步骤3：构造卷积神经网络(convolutional neural networks，CNN)，该卷积神经网络由三个卷积层和两个全连接层依次组成，每层的激活函数均为ReLU函数；

将每个语音帧的相位图特征输入卷积神经网络，在神经网络的输出层，用Softmax激活函数进行分类，通过Softmax函数生成了I个类别的Softmax值；所述I个类别是根据DOA方法每间隔一定角度将声音传播方向作为一类，总共分成I类；

步骤4：将每个节点在测试集语句上每帧平均的Softmax值的最大值作为这个句子通过波达方向估计算法处理后的该方位估计角度的准确度；该最大值越高，则认为该节点上的波达方向估计更为准确；

步骤5：按照步骤4的方法将Softmax值作为依据，利用全节点选择算法或N-best节点选择算法，从多个节点中选择P个节点的DOA估计参与后续的声源位置估计；

步骤6：通过三角测量法，将P个节点的DOA估计值作为方位线，将每两个节点的方位线两两交叉粗略估计出多个声源可能存在的位置；

步骤7：利用均值漂移聚类算法从所有粗略估计的声源位置中得到最终准确的声源位置。

本发明的有益效果如下：

1、相比于传统的麦克风阵列，自组织麦克风阵列具备以下两个显著的优势：首先，由于在空间中随机布置了多个自组织麦克风节点，距离声源较近的范围内大概率存在一个或多个麦克风阵列，这样可以获得更高的定位精度。其次，自组织麦克风阵列的性能不受设备物理大小的限制，手机、智能音箱、电脑等设备上的麦克风均可以构建自组织麦克风阵列。

2、本发明将基于深度学习的声源方位角估计算法和基于经典信号处理的自组织麦克风阵列算法结合，利用多个随机布置的麦克风阵列的位置和声信号信息进行声源位置的估计。该发明方法对不同声学环境具有较好的泛化能力。此外该方法对麦克风阵列的个数没有要求，可以推广到数目随机的自组织麦克风阵列上。

3、本发明研究了一种基于Softmax的节点选择算法，在降低算法计算复杂度的同时可以达到提升声源定位精度的目的。

附图说明

图1为本发明方法框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种基于深度学习的多设备自组织麦克风阵列声源定位方法，将自组织麦克风阵列参与声源定位任务中，并将基于深度学习的声源方位角估计算法和基于经典信号处理的自组织麦克风阵列算法结合。使得该方法对不同声学环境具有较好的泛化能力，同时该方法可以推广到数目随机的自组织麦克风阵列上。

一种基于深度学习的多设备自组织麦克风阵列声源定位方法，包括如下步骤：

步骤1：分别在三种室内的声学场景中随机布置多个包含有麦克风阵列的节点，并放置一个随机位置的声源；

步骤2：对麦克风采集到的语音数据进行预处理和提取短时傅里叶变换特征(short-time Fourier transform，STFT)，在每个时频点上观测到的信号用复数形式进行表示：

在麦克风采集到信号的短时傅里叶变换特征中，和波达方向估计相关的特征主要是其相位分量。

对于多通道语音的每个时间帧，以其对应的相位谱特征为基础，可以得到一个相位图特征M×K，其中M代表麦克风阵列中的阵元个数，K＝N_DFT/2+1代表频点的个数。进一步将所有时间帧的相位图特征叠加在一起得到一个训练语句的相位图特征M×K×N，其中N表示一句话中所有时间帧的个数。将该相位图特征作为神经网络的输入。

步骤3：构造卷积神经网络(convolutional neural networks，CNN)，由三个卷积层和两个全连接层依次组成，每层的激活函数均为ReLU函数；

将每个语音帧的相位图特征输入卷积神经网络，在神经网络的最后一个全连接层，用softmax激活函数进行分类，通过softmax函数生成了I个类别的softmax值；所述I个类别是根据DOA方法每间隔一定角度将声音传播方向作为一类，总共分成I类；所述I个类别是声音传播的0度到180度每间隔5度作为一类，总共37类。

步骤4：将每个节点在测试集语句上每帧平均的Softmax值的最大值作为这个句子通过波达方向估计算法处理后的该方位估计角度的准确度。该最大值越高，我们就认为该节点上的波达方向估计更为准确。

步骤5：按照步骤4的方法将Softmax值作为依据，利用全节点选择算法或N-best节点选择算法，从多个节点中选择N个节点的DOA估计参与后续的声源位置估计；

步骤6：通过三角测量法，将N个节点的DOA估计值作为方位线，将每两个节点的方位线两两交叉粗略的估计出多个声源可能存在的位置；

步骤7：利用均值漂移聚类算法从大量粗略估计的声源位置中得到最终准确的声源位置。

Claims

1.一种基于深度学习的多设备自组织麦克风阵列声源定位方法，其特征在于，包括如下步骤：