CN111859241A

CN111859241A - 一种基于声传递函数学习的非监督声源定向方法

Info

Publication number: CN111859241A
Application number: CN202010485452.9A
Authority: CN
Inventors: 曲天书; 吴玺宏; 王奕文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-30
Anticipated expiration: 2040-06-01
Also published as: CN111859241B

Abstract

本发明公开了一种基于声传递函数学习的非监督声源定向方法，其步骤包括：1)建立一网络模型，该网络模型包括一共享卷积层和多个自编码网络框架，每一自编码网络框架对应一设定的声源方向，用于实现对该声源方向的传递函数滤波和逆滤波过程的模拟；2)第一阶段，分批使用所有设定声源方向的采集信号对该网络模型的全部参数进行更新训练；其中每一批数据为同一设定声源方向的采集信号，用于训练对应方向的参数信息；第二阶段，固定共享卷积层的参数，更新自编码网络框架部分的参数；3)对于接收到的采集信号，将其输入到训练后的该网络模型，恢复出每一设定声源方向的声源信号；然后根据互相关系数和，确定该采集信号的声源方向。

Description

一种基于声传递函数学习的非监督声源定向方法

技术领域

本发明属于基于麦克风阵列的声源定向领域，具体涉及一种基于声传递函数学习的非监督声源定向方法。

背景技术

基于麦克风阵列的声源定向技术是一种被动定向技术。根据麦克风阵列的原理，基于麦克风阵列的声源定向的线索包括多通道信号的到达时间差和强度差信息。目前，基于麦克风阵列的声源定向任务可以分成如下五类：基于到达时间差的声源定向估计，基于高分辨率谱估计的声源定向估计，基于波束形成的方法，基于声场分析的方法，基于神经网络的方法。基于到达时间差的声源定向方法，是利用麦克风阵列的分布信息和到达时间差进行估计，典型的方法如广义互相关计算的方法，这一类方法的缺点是存在传递误差的问题，即时间差估计不准确的前提下，会影响后续利用几何关系求解方向的计算，此外，在多声源情况下，到达时间差的估计会出现较大误差。基于高分辨率谱估计的方法，是利用多通道麦克风信号求得协方差矩阵，并通过特征值分解求得信号子空间和噪声子空间，通过两个子空间估计声源的方向，代表的方法有多重信号分类法，这一类方法的缺点是受混响干扰较大。基于波束形成的方法是一种扫描算法，目的是通过对所有可能的声源方向扫描形成波束，通过比较输出功率的大小判断声源的方向，典型的算法如相位变换加权的可控响应功率法，这一类的缺点是，计算量较大，且在低信噪比的情况下定向性能不佳。基于声场分析的方法，通过分解信号到一组正交的基底中，利用分解后的能量信息判断声源的方向，如球谐函数分解，这一类方法的问题是计算量大，且受带宽限制，低频和高频的信号较难处理。近年来，随着神经网络的普及，基于神经网络的声源定向方法成为这一领域的研究热点，目前基于神经网络的声源定向方法，主要想法是把神经网络当作“黑箱”，学习从相位谱、广义互相关系数等到声源方向的映射关系，这类方法的普遍问题是，网络模型缺少可解释性，且泛化能力有限。

发明内容

针对现有方法的不足，本发明的目的在于提供一种基于声传递函数学习的非监督声源定向方法。本发明通过具有可解释性、泛化能力强的神经网络方法进行声源定向，该方法能够在低信噪比的情况下，有效提升声源定向的结果。

本发明提出基于声传递函数学习的非监督声源定向方法，提出了一种基于自编码网络框架的神经网络定向方法，提出一种具有可解释性的神经网络定向框架，提升网络定向的泛化能力。

声传递函数是描述声音信号从声源处到某一位置传播特性的物理量，体现了传播的时间差和强度差的信息。传统的基于逆滤波的声源定向方法中，利用扫描的方法，对于每一个通道的采集信号除以对应的声传递函数，即进行逆滤波的操作，可以恢复原声源信号。所以，在扫描过程中，采集信号和实际方向对应的声传递函数经过逆滤波恢复得到的多通道原信号应具备高度的一致性，即该方向上的互相关系数和最大。

本发明的技术方案为：

一种基于声传递函数学习的非监督声源定向方法，其步骤包括：

1)建立一网络模型，该网络模型包括一共享卷积层和多个自编码网络框架，每一自编码网络框架对应一设定的声源方向，用于实现对该声源方向的传递函数滤波和逆滤波过程的模拟；所述共享卷积层用于对输入的多通道时域信号进行处理，获取不同声源方向共同的传播特性，并输出多通道等长时域信号到各个自编码网络框架；每一自编码网络框架包括一编码层和一解码层，编码层用于对输入的多通道等长时域信号中每一个通道的时域信号，构建一个全连接层模拟声源方向n的传递函数逆过程，得到各通道恢复信号并对其进行叠加，然后利用一维卷积层对全连接输出的多通道叠加信号进行处理得到一维时域信号；解码层用于对输入的一维时域信号经多通道的全连接网络后，恢复出各通道的声源信号；

2)分两阶段对该网络模型进行训练：在第一阶段，分批使用各设定声源方向的采集信号，对该网络模型的全部参数进行更新训练；其中每一批数据为同一设定声源方向的采集信号，用于训练对应方向的参数信息；在第二阶段，固定共享卷积层的参数，更新自编码网络框架部分的参数；

3)对于接收到的采集信号，将其输入到训练后的该网络模型，恢复出每一设定声源方向的声源信号；然后根据每一方向所恢复的声源信号的互相关系数和，确定该采集信号的声源方向。

进一步的，对于每个声源方向m，自编码网络框架的损失函数为

其中，N是采集声源信号的麦克风阵列的通道总数，X_in(m,i)是方向m输入到神经网络的第i个通道的采集信号，X_out(m,i)是方向m第i个通道的神经网络输出，即恢复的采集信号；X_mid(m,j)为全连接层模拟声源方向m的传递函数逆过程，得到的第i个通道的恢复信号；X_mid(m,k)为全连接层模拟声源方向m的传递函数逆过程，得到的第j个通道的恢复信号。

进一步的，选取所述互相关系数和最大值对应的方向作为最终所要选择的声源方向。

与现有技术相比，本发明的积极效果为：

本发明所采用的技术方案是基于声传递函数的原理进行，对逆滤波算法的正向和逆向过程，即滤波和逆滤波阶段建模。这一过程和自编码网络的编码、解码阶段分别对应。通过自编码网络的模型设计，解决了基于神经网络进行声源定向的网络可解释性差的问题，提升了网络的定向泛化能力，解决了在低信噪比的条件下网络定向结果差的问题。

附图说明

图1是提出的基于自编码网络的声源定向的网络结构图；

图2是定位系统的工作流程图；

图3是实验场景的麦克风阵列分布图；

图4是逆滤波方法和神经网络方法定向指向图比较结果；

(a)135°时的比较结果，(b)70°时的比较结果；

图5是在训练距离条件下，逆滤波方法，相位变换加权的可控响应功率法和神经网络方法的定向平均误差角度比较结果；

图6是测试不同距离条件下的泛化性能测试，神经网络方法的定向平均误差角度结果。

具体实施方式

下面结合附图和实施例对本发明提供的一种声源定向框架进行介绍。

1.基于传递函数的声源定向方法

传递函数描述了描述声音信号从声源处到某一位置传播特性的物理量。考虑一个具有N个通道的麦克风阵列，麦克风阵列位于P_m,声源s位于位置P_S。则第k个麦克风通道的采集信号s_k为

其中，

表示从声源位置P_S到第k个麦克风通道P_k处的声传递函数。

根据传递函数的性质，可以通过逆滤波过程，在已知传递函数和采集信号的情况下恢复原信号

在逆滤波方法中，如果传递函数和声源方向不对应，则无法正确恢复原信号。通过扫描的方法，计算每一个方向恢复的多通道原信号的互相关系数和，从而根据多通道的原信号的一致性判断声源的方向。

2.基于非监督的声源定向方法

根据逆滤波声源定向的原理可知，从声源出的声音信号预估麦克风的采集信号以及根据采集信号恢复声源信号是一组逆过程，用公式表示为：

这一过程和自编码网络中的编码解码部分的原理基本保持一致。即，使用自编码网络的编码层作为声传递函数的逆滤波过程，使用自编码网络的解码层作为信号生成过程。具体的网络模型结构如图1所示，网络模型包括一共享卷积层和多个自编码网络框架，每一自编码网络框架对应为一设定的声源方向。每一自编码网络框架包括一编码层和一解码层，其中，编码层为一全连接层进行多通道恢复信号处理和一维卷积层，解码层包括一全连接层，实现多通道时域信号的恢复工作。首先，共享卷积层是由三层的卷积网络构成，输入的是多通道的时域信号，输出是经过卷积层处理的各通道等长时域信号，共享卷积层的卷积作用是对信号的滤波操作，作为整个神经网络模型的共享隐层单元。对于每一个方向，对该方向构建一个自编码网络框架实现对这一方向的传递函数滤波和逆滤波过程的模拟。对于方向N的编码层，输入的是经过共享卷积层处理后的时域信号，对每一个通道的时域信号，构建一个全连接层模拟该方向N的传递函数逆过程，理想状况下，恢复得到的该信号是多通道的原始信号或原始信号的某个高维度特征。一维卷积的作用是对经过全连接得到的多通道恢复信号进行叠加，经一维卷积后得到时域的单通道信号，这一信号在理想状况下对应的是原始的声源信号，一维卷积限制了恢复得到的中间层具有高度的一致性，这和逆滤波过程中恢复信号的高度一致性的作用是一致的。解码层的目的是学习传递函数的生成信号过程，全连接层的目的是，通过恢复的原信号或表示原信号的高维度特征恢复生成采集信号，在解码层，输入信号是经过一维卷积得到的一维时域信号，经过多通道的全连接网络后，得到不同通道的恢复信号。解码层的另一个作用是约束中间层的信息，能够利用解码层恢复得到采集信号，保证了中间层是具有和原信号高度相关的信息。

从上述原理可知，对于非监督的神经网络模型，如果该方向的自编码网络框架和实际的声源方向保持一致，则在输入多通道的采集信号后，该方向的自编码网络框架中间层的输出应该具备高度的一致性。因此，在基于非监督的自编码网络的基础上，对于每个方向m，我们使用下述公式作为自编码网络框架训练的损失函数，

其中，N是麦克风阵列的通道总数，i,j,k分别代表不同通道，X_in(m,i)是方向m输入到神经网络的第i个通道的采集信号，X_out(m,i)是方向m第i个通道的神经网络输出，即恢复的采集信号，X_mid(m,j)、X_mid(m,k)表示神经网络的中间层，即在一维卷积前的多通道恢复信号。对于每个方向m，用于神经网络训练的损失函数由两部分构成，第一部分确保输入和输出的一致性，保证了自编码网络的基本框架，损失函数的第二部分保证中间层信号的一致性。在神经网络的训练过程中，采用均方误差计算限制输入输出的相似性和中间层的一致性。

3.基于非监督的声源定向流程

本报告所提出的基于非监督的声源定向方法包括训练阶段、测试阶段两部分。整体的工作流程如图2所示。

在训练阶段，提出两阶段的端到端训练方法。在第一阶段，使用所有方向的数据进行训练，根据反向传播更新权重，对模型的全部参数进行更新训练，在实际的实验过程中，经过100轮的迭代时，前后两轮损失函数差值变化较小，此时作为迭代的终止条件，在实际过程中，同时兼顾训练时长和训练效果的影响，使用批处理方式进行权重更新，批大小为64，每一批数据为同一个方向的输入信号，确保每次梯度更新只需要更新数据对应方向的参数信息，如在图1中所示，对一批方向为N的数据，在实际训练中，该方向的多通道实录信号经过共享卷积层的处理后，输到全部方向的编码层，经过各个方向的解码层得到恢复信号，由于每一批数据都是同一方向，只需要考虑这一方向的解码层的输出，将该方向的解码层输出和原输入信号进行比较，进行梯度更新。即对于一批数据，只更新共享层和这一方向对应的编码层解码层的参数即可，在每一轮的迭代中，随机打散不同批数据的顺序，使得前后两批数据关联性较弱，这样确保网络不会偏向于向某个特定的方向单独进行参数更新。此后，在第二阶段，固定共享卷积层的全部参数，只更新自编码网络部分的模型参数，进行精调，进一步优化每个方向的性能，迭代直至模型收敛。

在测试阶段，接收到的采集信号在经过共享层后，参与到所有方向的模型传播，对于每一个方向，计算多通道中间层的一致性，即两两通道之间的互相关系数，如下式所示，

其中，Corr是计算两个向量的互相关系数。

从前文分析可知，如果估计的声源方向和真实的信号声源方向是相同的，则经过该方向的神经网络模型所恢复的多通道原信号，具有高度的一致性，这个方向的互相关系数之和是最大的。因此，在所提出的网络模型框架中，通过计算每个方向的互相关系数和，可以知道最终所要选择的声源方向，

4.基于非监督的神经网络模型实验设置

在本实验中采用的麦克风阵列示意图如图3所示。选择在半径为0.04m的刚性球上，近似分布于水平面的6个麦克风通道作为实验所采用的通道。声源位于和该水平面的同一水平高度处。

传递函数的测量工作，是在环境大小为8.0*6.0*2.5m³的消音室环境下完成的。使用频率为20-20kHz的扫频信号作为声源信号，利用传递函数的物理性质，由接收信号和声源信号作除法，即可得到从声源处到麦克风对应通道处的声传递函数。

使用高斯白噪声作为训练样本，高斯白噪声是宽带信号，使用高斯白噪声进行训练，可以得到更具有泛化能力的网络模型。通过传递函数和高斯白噪声的卷积，获得训练数据和测试数据。在实际的采集工作中，为了验证神经网络模型在远场假设下的泛化能力，统一采用1.5m处的声源信号作为训练，测试数据使用了1.0m，1.5m，2.0m三组不同距离不同方向的数据作为测试。在实际的网络训练过程中，采样率为48kHz，帧长设置为1024，分辨率设置为5°，即共有72个可能的声传递方向。

在实验中，衡量模型的定向准确率的评估准则为平均误差角度(MAAE)这一指标，定义如下式所示，

其中，I是测试的总帧数，n_i,

分别是实际和估计的声源方向，通过上式可知，对于每一帧信号，实际的声源方向和估计的声源方向之间的角度差在180°的误差范围内。通过对平均误差角度的计算，可以直观的判断出算法对于角度判断的偏离程度，由公式的定义易知，估计的声源方向和实际的声源方向越接近，平均误差角度越小。

此外，为了体现模型的稳定性，评价指标中计算了真实角度和预测角度之间偏差的标准差，这一结果可以有效展现模型的稳定性，即对于不同帧的信号，模型能够保持稳定。

在非监督的神经网络的训练中，使用的优化函数是Adam优化，学习率为10^-4，设置的批处理大小为64。在本工作所提出的两阶段训练过程中，第一阶段对于整个网络的模型训练迭代100轮。第二阶段中，设置共享参数的卷积层模型参数固定，只更新每个方向的编码部分和解码部分的模型参数，在这一阶段，设置批大小为32，对每个方向的模型进行进一步的优化。

5.基于非监督的声源定向方法评价

在本工作中，分别进行指向图测试实验、抗噪干扰实验、远场泛化能力实验三个实验，检测模型的性能。

(1)指向图测试实验

指向图测试实验如图4所示。在图中所示，是干净信号条件下，两个方向的声源定向的指向图结果。在图中，每个方向的结果指标是该方向的中间层信号的互相关系数和，结果已经进行了归一化处理。由于本工作的物理模型基础是基于传递函数的逆滤波方法，在同一张结果中，展示了基于逆滤波的指向图测试结果。通过指向图的结果展示可知，对于预估的实际方向，这一方向的多通道的互相关系数和最大，即该方向的多通道的信号的一致性程度是最高的，这和网络的目的相一致，这一结果表明，利用中间层的一致性条件作为方向的结果是符合模型假设的。同时，基于逆滤波方法的指向图和基于非监督的神经网络模型的指向图结果趋势保持一致，这一结果表明非监督的神经网络成功学习到了不同通道之间的强度差和时间差信息，充分利用了传递函数的这一特性进行声源定向工作，这和基于逆滤波方法的原理是相近的。

(2)抗噪干扰实验

图5是在训练距离1.5m条件下，逆滤波方法，相位变换加权的可控响应功率法和神经网络方法的定向平均误差角度比较结果。这一实验比较在不同的信噪比条件下，三种方法的定向能力的测试。在高信噪比，即信号较为干净的条件下，三种模型的定向能力趋于一致，且保持稳定，在低信噪比的条件下，基于神经网络模型的声源定向结果平均误差角度最小，且可以从结果图中可知，在低信噪比(<0dB)条件下，基于神经网络模型的声源定向结果受影响明显弱于另外两种传统的扫描算法，基于逆滤波方法和基于相位变换加权的可控响应功率法的定向能力急剧下降。这一结果表明，本工作所提出的非监督的神经网络模型具有较强的抗噪能力。在这一实验中，对于每个方向的角度，测试100帧该方向的定向结果，即结果展示的是72个方向共计7200条测试样本的测试结果的平均值。

(3)远场泛化能力实验

图6是测试在远场假设的条件下，不同距离条件下的模型泛化性能测试，神经网络方法的定向平均误差角度结果。在前面所述的两个实验中，测试集的声源和麦克风阵列中心的距离和训练集的距离保持一致，为1.5m，在新的实验场景中，选择1.0m和2.0m的数据进行集外测试。在这个实验中，同样对模型的抗噪能力进行检测，测试模型在不同的信噪比、不同的声源距离条件下的工作性能。实验结果表明，在远场假设的条件下，模型具有一定的泛化能力。在结果图中所示，对于不同的距离条件下，模型的性能和基于训练数据训练的距离条件下的模型性能有相似的变化趋势，在高性噪比的条件下，模型的结果基本保持准确。在低信噪比的条件下，模型的性能有轻微的下降，和基于逆滤波和相位变换加权的方法相比，这一结果仍然具有更小的平均误差角度和标准差。这一结果表明，在远场条件下，模型具有一定的泛化能力，且在低信噪比上，仍然具备比传统方法更加稳定的定向性能。

6.总结

本工作提出了一种基于声传递函数学习的非监督声源定向方法，引入自编码网络的模型框架学习声传递函数的逆滤波和生成过程，使得基于神经网络的声源定向工作不是一个“黑盒”模型，具有实际的物理意义，使得网络模型具有可解释性。实验结果表明，该工作对比传统的扫描算法，在低信噪比的条件下，具有更稳定更准确的定向结果，在低信噪比条件下的定向结果是本工作的一大亮点。此外，该模型对于远场条件的泛化能力验证了该模型在远场条件下的工作性能。

Claims

1.一种基于声传递函数学习的非监督声源定向方法，其步骤包括：

1)建立一网络模型，该网络模型包括一共享卷积层和多个自编码网络框架，每一自编码网络框架对应一设定的声源方向，用于实现对该声源方向的传递函数滤波和逆滤波过程的模拟；所述共享卷积层用于对输入的多通道时域信号进行处理，获取不同声源方向共同的传播特性，并输出多通道等长时域信号到各个自编码网络框架；每一自编码网络框架包括一编码层和一解码层，编码层用于对输入的多通道等长时域信号中每一个通道的时域信号，构建一个全连接层模拟传递函数逆过程，得到各通道恢复信号并对其进行叠加，然后利用一维卷积层对全连接输出的多通道叠加信号进行处理得到一维时域信号；解码层，用于对输入的一维时域信号经多通道的全连接网络后，恢复出各通道的声源信号；

3)对于接收到的采集信号，将其输入到训练后的该网络模型，恢复出每一设定声源方向的声源信号；然后根据每一方向的互相关系数和，确定该采集信号的声源方向。

2.如权利要求1所述的方法，其特征在于，对于每个声源方向m，自编码网络框架的损失函数为

3.如权利要求1所述的方法，其特征在于，选取所述互相关系数和最大值对应的方向作为最终所要选择的声源方向。