CN113189544B

CN113189544B - 一种利用活动强度矢量加权移除野点的多声源定位方法

Info

Publication number: CN113189544B
Application number: CN202110465158.6A
Authority: CN
Inventors: 贾懋珅; 高尚; 李禄; 张宇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2023-06-30
Anticipated expiration: 2041-04-23
Also published as: CN113189544A

Abstract

本发明提出一种利用活动强度矢量加权移除野点的多声源定位方法，通过移除在定位过程中贡献较低的时频点以在混响条件下获得更准确的方位估计。首先提取单声源区域。其次，计算单声源区域内部每个点的活动强度矢量和区域平均活动强度矢量，求取点‑区域活动强度权值并对时频点赋权。获取各个声源DOA粗估计方向上的活动强度矢量，计算点‑声源活动强度权值。最后，构建复合权值，对该复合权值进行聚类以移除野点。利用剩余点的复合权值构建的直方图，通过后处理和峰值搜索对声源位置进行估计，最小化野点对定位精度的影响，实现高混响声场景下的多声源精确定位。

Description

一种利用活动强度矢量加权移除野点的多声源定位方法

技术领域

本发明属于声学领域中的声源定位领域，尤其涉及高混响声场景下的多声源定位问题

背景技术

近年来，声源定位技术因其在音频处理领域的广泛应用而受到各方研究团队的关注，其旨在没有任何关于声源以及录制环境先验知识的条件下，仅利用放置于听音环境中的麦克风录制的听音信号获取所有声源的空间位置信息。声源定位技术的应用包括但不仅限于临境通信、虚拟现实、增强现实等。

在实际应用过程中，由于多声源同时发声造成录制信号的混叠、麦克风阵列结构上的限制，环境中非平稳噪声以及混响的存在等诸多因素都会对声源位置信息的获取产生负面影响，最终导致声源位置估计偏差甚至声源计数错误等问题。针对上述问题，国内外科技工作者开展了大量研究工作，先后提出了基于到达时间差的声源定位技术、基于高分辨率谱估计的定位技术、基于稀疏成分分析的声源定位技术等。其中，基于稀疏成分分析的多声源定位技术利用语音信号在时频域上的稀疏性特征，提出了不相交区间的正交性(W-Disjoint Orthogonality,W-DO)假设，结合阵列接收信号的互相关特性，在时频域上筛选部分时频区域，这些区域仅有单一声源发声或仅由单一声源占主导地位，被称为单声源区域。上述定位方法通过对单声源区域的筛选，进而将多声源定位问题转为单声源定位问题，实现了欠定条件下的多声源定位，在相同的条件下，该方法的定位结果优于同时期其他定位技术。但是，由于W-DO假设在高混响多声源的条件下很难满足，导致检测到的单声源区域中总有不同于主导声源的其他声源成分存在，包含这些声源成分的时频点则因其为对定位精度产生负面影响而被称为野点。实验证明，野点在单声源区域中的比例总是随着混响时间以及声源数目的增加而增加，最终影响声源定位以及计数的精度。

发明内容

本发明针对混响环境下，传统的基于单声源区域的多声源定位方法的检测结果中总有野点混入导致定位精度下降的问题，设计了一种利用活动强度矢量加权移除野点的多声源定位方法。本方法利用单声源区域内部野点的分布特性，对单声源区域内部的所有时频点分两步进行加权，使得野点对应的复合权值远小于所需点对应的复合权值，通过对权值进行二值聚类区分野点和所需点，最终移除野点实现混响条件下的精确定位。本设计基于声场麦克风轻便灵活，能准确捕获声场信息的特点，采用便携式四通道声场麦克风记录声场数据，实现一种可以在混响场景下对多个声源进行精确定位的方法。

设计的总体流程简述如下：

首先，对输入的四路声场麦克风信号进行分帧加窗和短时傅里叶变换操作，得到每一帧信号的时频系数，再将每一帧信号的频带划分为大小相同的时频区域。随后结合声场麦克风各通道的指向性特征，求取每个时频区域内通道间的归一化互相关系数，根据实际情况设计统一的互相关门限将时频区域划分为强相关区域和弱相关区域，并将强相关区域选取为单声源区域。其次，分别计算单声源区域内部每个点的活动强度矢量和区域平均活动强度矢量，计算点活动强度矢量在区域活动强度矢量方向上的分量以衡量区域内每个时频点对整个区域的活动强度的贡献，本设计将归一化后的该分量称其为点-区域活动强度权值。利用单声源区域内部野点的分布特征，对区域内的所有时频点赋权，以削弱野点的活动强度矢量对区域平均活动强度矢量的影响。然后，对加权后的点活动强度矢量进行方向估计以及声源成分均衡，将均衡后的方向估计值绘制为直方统计图，对声源进行DOA粗估计。在得到声源DOA粗估计后，获取各个声源粗估计方向上的活动强度矢量以及各时频点的活动强度矢量，通过计算点活动强度矢量在声源活动强度矢量方向上的分量以衡量每个时频点在其对应声源方向上的贡献，即点-声源活动强度权值。根据野点对应的DOA估计值在统计直方图上的分布特征，对时频点赋权，进一步削弱野点对声源方向估计的影响。最后，利用每个时频点对应的两个权值共同构建复合权值，对该复合权值进行聚类，并将时频点划分为所需点和野点。在移除野点后，利用所需点的复合权值构建的直方图，通过后处理和峰值搜索对声源位置进行估计，最小化野点对定位精度的影响，实现高混响声场景下的多声源定位。

本发明的技术方案为解决混响条件下的多声源定位问题，主要分为以下几个步骤：

步骤1，对四路声场麦克风的接收信号进行加窗分帧和短时傅里叶变换操作，确定时频系数。对变换后的信号划分时频区域，求取归一化互相关系数。对将归一化互相关函数设置统一的门限将时频区域划分为强相关区域与弱相关区域，提取强相关区域作为单声源区域。将单声源区域内部的时频点进行B格式转换，随后计算单声源区域内部每个时频点的活动强度矢量。

步骤2，将时频点的活动强度矢量按照时频区域求取平均，得到每个单声源区域的区域平均活动强度矢量。随后求取单声源区域内每个时频点的活动强度矢量在其所属区域平均活动强度矢量上的分量，将该分量进行归一化获得点-区域活动强度权值。

步骤3，利用各个时频点的活动强度矢量计算其对应的方位估计值，根据各个声源对应的方位估计值数量，移除部分声源成分以实现声源成分均衡，随后结合点-区域活动强度权值与时频点的角度估计值绘制统计直方图，对均衡化后的统计直方图进行声源DOA粗估计。

步骤4，计算声源DOA粗估计方向上的活动强度矢量作为声源活动强度矢量，求取各时频点活动强度矢量在其对应的声源活动强度矢量上的分量，随后进行归一化获得点-声源活动强度权值。

步骤5，结合点-声源活动强度权值与点-区域活动强度权值获得复合权值。

步骤6，对复合权值进行二值聚类，将权值较低组成的聚类定义为野点聚类并予以移除，而权值较高的聚类则作为所需点保留。

步骤7，结合复合权值与时频点的角度估计值再次绘制统计直方图，对该直方图进行后处理和峰值搜索，实现混响条件下的多声源定位。

1.步骤1的实现方式为，首先，对四路声场麦克风接收的时域信号进行加窗分帧与短时傅里叶变换操作

其中，p＝{1,2,3,4}为声场麦克风通道编号，n＝1,2,3…N为帧索引，N为总帧数，t＝1,2,3…,T为时序索引，T为帧长，k＝1,2,3…,K为频率索引，K为每帧信号对应的频域点数，w(t)为窗函数，x_p(n,t)和X_p(n,k)则分别对应时域上，第n帧中的时间点t声场麦克风通道p接收信号与时频域上，第n帧，第k个频点声场麦克风通道p接收信号。其次，在时频域对每一帧信号进一步划分为长度为L的时频区域从而得到时频区域的集合Z，Z由M个时频区域Z_m构成，m＝{1,2,3…,M}为时频区域编号，M可以表示为：

其中

为向上取整运算。随后，本设计对时频区域求取通道间的归一化互相关函数。对于第m个时频区域Z_m，通道p和q接收信号之间的归一化互相关函数可以表示为：

其中|·|为取绝对值运算，r_pq(m)则是麦克风通道p和q在时频区域Z_m上的归一化互相关函数。然后，对归一化互相关函数设置一个统一的经验阈值用以划分强相关区域与弱相关区域，提取强相关区域作为单声源区域，即，如果时频区域Z_m满足下式，则认为其为单声源区域：

r_pq(m)<1-εp≠q

其中ε为由用户根据当前环境设置的经验阈值，大量实验表明，这一阈值选用0.25时具有较强的泛用性，因此本设计沿用这一设定。在找到所有的单声源区域后，利用声场麦克风的指向性特征，对单声源区域内部的时频点进行B格式转换，转换过程参照声场麦克风信号格式转换的标准流程之一。对于时频点(n,k)，B格式转换后即可得到全向通道S_w(n,k)和三个指向笛卡尔坐标系正方向的通道信号{S_x(n,k),S_y(n,k),S_z(n,k)}。最后，利用B格式信号计算单声源区域内部每个时频点的活动强度矢量，时频点(n,k)对应的活动强度矢量中各分量可以表示为：

其中ρ为声场传输介质的密度，c为声速，Re{·}代表取实部运算，*代表共轭运算，{I_x,I_y,I_z}分别对应笛卡尔坐标系X,Y,Z坐标轴正方向上的活动强度分量。活动强度矢量则由活动强度分量组成，即：时频点(n,k)对应的活动强度矢量可以表示为I(n,k)＝[I_x(n,k),I_y(n,k),I_z(n,k)]。

2.步骤2中，对每个单声源区域内部的点活动强度矢量按照区域求取平均，获得区域平均活动强度矢量，对于第m个时频区域Z_m，该时频区域的平均活动强度矢量

可以表示为：

||·||为向量取模运算，随后求取单声源区域内所有时频点的活动强度矢量在其对应的区域活动强度矢量方向上的分量，并归一化求取该时频点的点-区域活动强度权值，这一过程可以由下式表示：

其中W_p(n,k)为时频点(n,k)对应的点-区域活动强度权值，cos^-1(·)为求取反余弦，<·>为向量内积，π为圆周率，本设计中近似取值为3.141，实验验证表明该近似过程可以适用于大部分实验环境。由于野点即是单一时频点中混入多个声源成分和/或混响成分，所以声源数目的增加和/或房间混响时间的增加都会导致野点数量的增加，这就导致步骤1中筛选得到的单声源区域中总会有野点的存在最终干扰定位结果。而点-区域活动强度权值利用区域中野点数目的稀疏性以及角度的随机性，通过区域活动强度矢量的方向更加接近真实声源活动强度矢量的方向这一特性，使得野点获得的权值相较于其他所需点更低，从而削弱野点的影响。

3.步骤3中，首先利用各个时频点的活动强度矢量计算该点对应的方位估计值，该过程利用了B格式信号的建模特性。针对一个声源的水平方位角和仰角，分别选取不同的B格式通道信号即可实现定位，二者并没有明显的区别，因此本设计中仅对水平方位角进行估计。如果时频点(n,k)并非野点，那么S_q(n,k)中应仅有单一声源发声或仅有单一声源的信号能量占主导地位。在上述条件下，时频点(n,k)的水平方角估计

可以表示为：

其中tan^-1(·)为取反正切值。反之如果时频点(n,k)为野点，那么在多个声源成分的介入下，角度估计将出现误差。在计算得到各时频点的水平方位角估计值后，以帧为单位，根据角度之间的间隔判定每个时频点对应的声源。随后结合历史信息，计算每个声源对应的时频点数量在历史帧中的占比，如果某一声源的占比大于某一设置的经验阈值，则认为该声源为局部优势声源，移除当前帧内所有局部优势声源对应的时频点，最终实现所有声源成分的均衡。结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图，对均衡化后的统计直方图进行声源DOA粗估计。DOA粗估计可以通过将直方图进行核密度估计后搜索包络的峰值实现，其中峰值的个数代表了声源的数量，峰值所在的横坐标代表了声源的水平方位角估计值。这里的直方图是由上面给出的点-区域活动强度权值绘制的，其绘制过程可以由下式表示：

其中μ∈[1,360]为水平方位角的可能值，

为均衡后所有的单声源区域组成的集合，Y(μ)为DOA粗估计直方图中横坐标为μ处对应的纵坐标数值。在直方图绘制完毕后，通过后处理和峰值搜索获得声源DOA粗估计。

4.在步骤4中，首先选取声源DOA粗估计方向上的活动强度矢量作为该声源的声源活动强度矢量，在实际操作中，选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量，以声源a为例，这一操作可以由下式近似表示：

I_a＝I(n_a,k_a)

其中，

为声源a的角度粗估计值，(n_a,k_a)为选出的一个时频点，该时频点是角度估计与声源角度粗估计差值最小的时频点。随后将声源a的声源活动强度矢量I_a近似为时频点(n_a,k_a)的点活动强度矢量。本设计结合声源活动强度矢量和点活动强度矢量求取点-声源活动强度权值，这一过程分为两步，首先确定每个时频点对应的声源，这一操作可以由时频点的角度估计到各个声源角度之间的距离判断得出，在直方图中即可表示为：距离当前时频点最近的峰值被选为该时频点对应的声源。随后求取点活动强度矢量在其对应声源活动强度矢量上的分量，并归一化求取该时频点的点-声源活动强度权值，这一过程可以由下式表示：

其中，时频点(n,k)对应的声源为a，W_s(n,k)为时频点(n,k)的点-声源活动强度权值。该权值描述了每个时频点在其对应声源方向上贡献，根据野点在直方图上的分布特性可以得知，野点对应的该权值要远低于其他点计算得到的权值，因此，利用点-声源活动强度权值可以有效降低野点对DOA估计统计直方图的影响。

5.在步骤5中，本设计将点-声源活动强度权值与点-区域活动强度权值相结合，获得完整的用于描述单一时频点在定位过程中的贡献的复合权值，对于时频点(n,k)来说，这一复合权值可以表示为：

W_c(n,k)＝W_p(n,k)·W_s(n,k)

复合权值既包含了单一时频点对于其所在区域的局部贡献，同时也包含了在直方图上对某一特定声源的全局贡献。利用复合权值可以较为完整地描述单一时频点在定位过程中对定位某一特定声源的贡献，而这一贡献值的大小则可被用于区分野点和所需点。

6.步骤6，对复合权值进行二值聚类，其聚类结果必定有一个低权值组成的聚类，该聚类的聚类中心相对于另一个聚类的聚类中心较低，将这一聚类定义为野点聚类并予以移除，而聚类中心数值较高的聚类则作为所需点保留，本步操作可以由下式表示：

W_c(n,k|n,k∈Ω_r)＝0

其中Ω_r为野点聚类。由于野点的点-声源活动强度权值与点-区域活动强度权值均远小于其他点，而将二者结合后获得的复合权值则会进一步扩大野点对应的权值与其他点对应权值的差值。不同于设置经验阈值，本设计利用聚类划分野点与所需点，这一操作可以在声场条件未知的条件下实现野点的移除。

7.在步骤7中，结合复合权值与时频点的角度估计值再次绘制统计直方图，该直方图的绘制方式可以表示为：

其中Y′(μ)为用于最终确定声源位置的直方图中，横坐标为μ处纵坐标的取值。随后对该直方图进行后处理，这一常规操作包括核密度估计以及峰值搜索，核密度估计中设置高斯核以对直方图中的毛刺进行平滑，随后搜索平滑后的直方图中的峰值，峰值的个数代表了声源的个数，峰值的横坐标代表声源的水平方位角，最终实现混响条件下的多声源定位。

在筛选得到的单声源区域中，所有的时频点都应由单一声源成分组成或由单一声源成分主导的，此时利用单声源区域内部的时频点即可实现准确的多声源定位。但是在复杂声场环境下，由于混响时间的延长与声源数目的增加，单声源区域的内部总是不可避免的混入野点，这些野点中包含了不可忽视的来自多个声源的直达成分和/或混响成分，而由于这些成分的干扰，利用野点进行的方位估计将有很大概率偏离真实声源的位置。如果在这种情况下仍旧利用单声源区域内部所有的时频点进行多声源定位将会导致算法整体的定位精度甚至声源计数精度大幅度下降。考虑到虽然复杂声场下单声源区域内部总有野点，但是野点的数量仍旧相对较少，即野点的分布是具有稀疏性的。同时由于野点内部的成分较为随机，野点在时频域中出现的位置以及利用野点估计得到的方向均难以预估，即野点的分布是具有随机性的。结合数量野点的这两个分布特性，本设计利用区域平均活动强度矢量设计权值，虽然区域平均活动强度矢量相对于声源方向有所偏移，但是这一偏移量会远小于野点活动强度矢量的偏移量。因此，点活动强度矢量的方向接近于区域平均活动强度矢量方向的时频点更有可能是所需时频点，反之远离区域平均活动强度矢量的时频点则有较大的概率为野点。根据这一特征，本设计设定了点-区域活动强度权值，对活动强度矢量的方向远离区域平均活动强度矢量方向的时频点赋予一个较低的权值以削弱其在单声源区域中的影响。为了能更好地区分野点与所需点，本设计利用野点统计直方图上的分布特性，进一步设定了点-声源活动强度权值以衡量每个时频点在声源的DOA粗估计方向上的贡献。由于点-声源活动强度权值与点-区域活动强度权值都具有赋予野点低权值的这一特性，但是对于每个单独的权值，野点被赋予的权值和所需点被赋予的权值之间的差距并不明显。因此，本设计将点-声源活动强度权值与点-区域活动强度权值以时频点为单位结合为复合权值以期扩大野点与所需点被赋予的权值之差。最后，本设计利用聚类的思想，对复合权值进行二值聚类从而区分野点和所需点，移除权值较低的一组聚类实现野点的移除，保留权值较高的一组聚类同时利用权值绘制直方图，根据时频点在其对应区域以及声源方向上的贡献，即复合权值，作为该时频点在直方图上的数值，进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。

有益效果

与传统定位技术相比，本发明通过移除野点成分提高了多声源定位方法的鲁棒性，尤其对复杂声场环境中的多声源定位表现出良好的定位性能，使得野点的比率大幅度下降从而实现精确的定位结果。

附图说明

图1是本设计方法整体框图。

具体实施方法

本实施例用于检测150ms混向下多个声源的位置，声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m，声源位于距声场麦克风1m的水平面上，相邻声源角度间隔60°，声源数目设置为5。信号处理软件为Matlab2014a。

实施时，本发明是算法镶嵌进软件中实现各个流程的自动运行，下面以具体实施步骤结合附图对本发明做进一步说明：具体的工作流程如下：

步骤1：声场麦克风接收信号时-频变换，划分时频区域，提取单声源区域并求取时频点活动强度矢量。

对四路声场麦克风接收的时域信号x_p(n,t)进行加窗分帧与短时傅里叶变换操作。

其中，p＝{1,2,3,4}为声场麦克风通道编号，n＝1,2,3…N为帧索引，N为总帧数，t＝1,2,3…,T为时序索引，T为帧长，k＝1,2,3…,K为频率索引，K为每帧信号对应的频域点数，w(t)为窗函数，x_p(n,t)和X_p(n,k)则分别对应时域上，第n帧中的时间点t声场麦克风通道p接收信号与时频域上，第n帧，第k个频点声场麦克风通道p接收信号。随后划分时频区域，将每一帧信号进一步划分为长度为L的M个时频区域Z_m，其中m＝{1,2,3…,M}为时频区域编号，得到时频区域的集合Z，M可以表示为：

其中

为向上取整运算。随后，本设计划分的时频区域求取通道间的归一化互相关函数。对于第m个时频区域Z_m，通道p和q接收信号之间的归一化互相关函数可以表示为：

r_pq(m)<1-εp≠q

其中ε为由用户根据当前环境设置的经验阈值，在本实施例中取0.25作为通道间的互相关门限，但不限于此，大量试验证明选取0.25作为门限具有较高的泛用性，因此本设计沿用这一设定。若时频区域Z_m的所有通道间的归一化互相关均大于(1-ε)，则认为该时频区域为强相关区域，即，单声源区域。在找到所有的单声源区域后，利用声场麦克风的指向性特征，对单声源区域内部的时频点进行B格式转换，转换过程参照声场麦克风信号格式转换的标准流程之一。对于时频点(n,k)，B格式转换后即可得到全向通道S_w(n,k)和三个指向笛卡尔坐标系正方向的通道信号{S_x(n,k),S_y(n,k),S_z(n,k)}。最后，利用B格式信号计算单声源区域内部每个时频点的活动强度矢量，时频点(n,k)对应的活动强度矢量中各分量可以表示为：

步骤2：对单声源区域内部的点活动强度矢量按区域求取平均，获得区域平均活动强度矢量，随后求取点-区域活动强度权值。

对于第m个时频区域Z_m，该时频区域的平均活动强度矢量

可以表示为：

其中||·||为向量取模运算，随后求取单声源区域内所有时频点的活动强度矢量在其对应的区域活动强度矢量方向上的分量，并归一化求取该时频点的点-区域活动强度权值，这一过程可以由下式表示：

其中W_p(n,k)为时频点(n,k)对应的点-区域活动强度权值，cos^-1(·)为求取反余弦，<·>为向量内积，π为圆周率，本设计中近似取值为3.141，实验验证表明该近似过程可以适用于大部分实验环境。由于野点的成因多是因为在单一时频点中混入多个声源成分和/或混响成分，所以声源数目的增加和/或房间混响时间的增加都会导致时频域内野点比例的增加，这就导致步骤1中筛选得到的单声源区域中总会有野点的存在最终干扰定位结果。点-区域活动强度权值则利用了区域中野点数目的稀疏性以及分布的随机性，通过区域活动强度矢量的方向更加接近真实声源活动强度矢量的方向这一特性，使得野点获得的权值相较于其他点更低，从而削弱野点的对定位结果的影响。

步骤3：声源DOA粗估计与点-区域活动强度加权直方图绘制

首先利用各个时频点的活动强度矢量计算该点对应的方位估计值，该过程利用了B格式信号的建模特性。针对一个声源的水平方位角和仰角，分别选取不同的B格式通道信号即可实现定位，二者并没有明显的区别，因此本设计中仅对水平方位角进行估计。如果时频点(n,k)并非野点，那么S_q(n,k)中应仅有单一声源发声或仅有单一声源的信号能量占主导地位。在上述条件下，时频点(n,k)的水平方角估计

可以表示为：

其中tan^-1(·)为取反正切值。反之如果时频点(n,k)为野点，那么在多个声源成分的介入下，角度估计将出现误差。在计算得到各时频点的水平方位角估计值后，以帧为单位，将角度估计值按从小到大顺序排列，根据角度之间的间隔判定每个时频点对应的声源。在本实施例中取40°作为角度间隔门限，但不限于此，若相邻粗估计角度值的差值大于该设置门限，则表示两个角度粗估计值分属两个声源。随后结合历史信息，计算每个声源对应的时频点数量在历史帧中的占比，如果某一声源的占比大于设置的经验阈值，在本实施例中取0.3作为优势声源比例门限，如果该声源所属时频点的比例大于这一设置门限，则认为该声源为局部优势声源，移除当前帧内所有局部优势声源对应的时频点，最终实现所有声源成分的均衡。结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图，对均衡化后的统计直方图进行声源DOA粗估计。DOA粗估计可以通过将直方图进行核密度估计后搜索包络的峰值实现，其中峰值的个数代表了声源的数量，峰值所在的横坐标代表了声源的水平方位角估计值。这里的直方图是由上面给出的点-区域活动强度权值绘制的，其绘制过程可以由下式表示：

其中μ∈[1,360]为水平方位角的可能值，

为均衡后所有的单声源区域组成的集合，Y(μ)为DOA粗估计直方图中横坐标为μ处对应的纵坐标数值。

步骤4：计算声源活动强度矢量并求取点-声源活动强度权值。

选取声源DOA粗估计方向上的活动强度矢量作为该声源的声源活动强度矢量，在实际操作中，选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量，以声源a为例，这一操作可以由下式近似表示：

I_a＝I(n_a,k_a)

其中，

为声源a的角度粗估计值，(n_a,k_a)为选出的一个时频点，该时频点是角度估计与声源角度粗估计差值最小的时频点。随后将声源a的声源活动强度矢量I_a则被近似为时频点(n_a,k_a)的点活动强度矢量。本设计结合声源活动强度矢量和点活动强度矢量，首先确定每个时频点对应的声源，这一操作可以由时频点的角度估计到各个声源角度之间的距离判断得出，在直方图中即可表示为：距离当前时频点最近的峰值被选为该时频点对应的声源。随后求取点活动强度矢量在其对应声源活动强度矢量上的分量，并归一化求取该时频点的点-声源活动强度权值，这一过程可以由下式表示：

步骤5：计算复合权值。

本设计将点-声源活动强度权值与点-区域活动强度权值相结合，获得完整的用于描述单一时频点在定位过程中的贡献的复合权值，对于时频点(n,k)来说，这一复合权值可以表示为：

W_c(n,k)＝W_p(n,k)·W_s(n,k)

步骤6：根据复合权值移除野点

对复合权值进行二值聚类，其聚类结果必定有一个低权值组成的聚类，该聚类的聚类中心相对于另一个聚类的聚类中心较低，将这一聚类定义为野点聚类并予以移除，而聚类中心数值较高的聚类则作为所需点保留，本步操作可以由下式表示：

W_c(n,k|n,k∈Ω_r)＝0

步骤7：绘制复合权值加权的DOA统计直方图并进行多声源定位

在步骤7中，结合复合权值与时频点的角度估计值再次绘制统计直方图，该直方图的绘制方式可以表示为：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于包括以下步骤：

步骤1，对声场麦克风接收信号进行时-频变换，划分时频区域，利用通道间的归一化互相关系数提取单声源区域并求取时频点活动强度矢量；

步骤2，对单声源区域内部的点活动强度矢量按区域求取平均，获得区域平均活动强度矢量，随后计算点活动强度矢量在区域活动强度矢量方向上的分量求取点-区域活动强度权值；

步骤3，利用各个时频点的活动强度矢量计算其对应的方位估计值，移除部分声源成分以实现声源成分均衡，结合点-区域活动强度权值与时频点的角度估计值绘制统计直方图，对均衡化后的统计直方图进行声源DOA粗估计；

步骤4，计算声源DOA粗估计方向上的活动强度矢量作为声源活动强度矢量，求取各时频点活动强度矢量在其对应的声源活动强度矢量上的分量，随后进行归一化获得点-声源活动强度权值；

步骤5，结合点-声源活动强度权值与点-区域活动强度权值获得复合权值；

步骤6，对复合权值进行二值聚类，将权值较低组成的聚类定义为野点聚类并予以移除，而权值较高的聚类则作为所需点保留；

2.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：步骤1提取单声源区域并求取时频点活动强度矢量：

其中，n＝1,2,3…N为帧索引，N为总帧数，k＝1,2,3…,K为频率索引，K为每帧信号对应的频域点数，(n,k)代表时频域中第n帧中第k个时频点；Z_m为第m个时频区域，|·|为取绝对值运算，变量p，q＝{1,2,3,4}分别指代声场麦克风的四个通路，X_p(n,k)则代表在时频域上，第n帧中的第k个时频点，麦克风通道p接收到的信号；r_pq(m)则是麦克风通道p和q在时频区域Z_m上的归一化互相关函数；如果时频区域Z_m满足下式，则认为其为单声源区域：

r_pq(m)<1-ε p≠q

其中ε为由用户根据当前环境设置的经验阈值，阈值选用0.25；随后利用声场麦克风的指向性特征，对单声源区域内部的时频点进行B格式转换，转换过程参照声场麦克风信号格式转换的标准流程之一；对于时频点(n,k)来说，B格式转换后得到全向通道S_w(n,k)和三个指向笛卡尔坐标系正方向的通道信号{S_x(n,k),S_y(n,k),S_z(n,k)}；最后，利用B格式信号计算单声源区域内部每个时频点的活动强度矢量，时频点(n,k)对应的活动强度矢量中各分量表示为：

其中ρ为声场传输介质的密度，c为声速，Re{·}代表取实部运算，*代表共轭运算，{I_x,I_y,I_z}分别对应笛卡尔坐标系X,Y,Z坐标轴正方向上的活动强度分量；活动强度矢量则由活动强度分量组成，即：时频点(n,k)对应的活动强度矢量表示为I(n,k)＝[I_x(n,k),I_y(n,k),I_z(n,k)]。

3.如权利要求2所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：求取区域平均活动强度矢量，随后求取点-区域活动强度权值，即具体过程如下：对于第m个时频区域Z_m，该时频区域的平均活动强度矢量

表示为：

其中|| ||为向量取模运算，随后求取单声源区域内所有时频点的活动强度矢量在其对应的区域活动强度矢量方向上的分量，并归一化求取该时频点的点-区域活动强度权值，这一过程由下式表示：

其中W_p(n,k)为时频点(n,k)对应的点-区域活动强度权值，cos^-1()为求取反余弦，<·>为向量内积，π为圆周率。

4.如权利要求3所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：首先利用活动强度矢量求取各个时频点上的水平方位估计值

针对一个声源的水平方位角和仰角，分别选取不同的B格式通道信号即可实现定位；时频点的方位角估计过程为利用声场麦克风进行声源定位的标准操作；随后结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图，这一过程由下式表示：

其中μ∈[1,360]为水平方位角的可能值，

为均衡后所有的单声源区域组成的集合，Y(μ)为DOA粗估计直方图中横坐标为μ处对应的纵坐标数值；DOA粗估计通过将直方图进行核密度估计后搜索包络的峰值实现，其中峰值的个数代表了声源的数量，峰值所在的横坐标代表了声源的水平方位角估计值。

5.如权利要求4所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：计算声源活动强度矢量并求取点-声源活动强度权值；

5.1)选取声源DOA粗估计方向上的活动强度矢量作为该声源的声源活动强度矢量，在实际操作中，选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量，以声源a为例，这一操作由下式近似表示：

I_a＝I(n_a,k_a)

其中，

为声源a的角度粗估计值，(n_a,k_a)为选出的一个时频点，该时频点是角度估计与声源角度粗估计差值最小的时频点；此时，声源a的声源活动强度矢量I_a被近似为时频点(n_a,k_a)的点活动强度矢量；

5.2)本设计结合声源活动强度矢量和点活动强度矢量，求取点活动强度矢量在其对应声源活动强度矢量上的分量，并归一化求取该时频点的点-声源活动强度权值，这一过程分为两步，首先确定每个时频点对应的声源，这一操作由时频点的角度估计到各个声源角度之间的距离判断得出，在直方图中表示为：距离当前时频点最近的峰值被选为该时频点对应的声源；随后求取点活动强度矢量在其对应声源活动强度矢量上的分量，并归一化求取该时频点的点-声源活动强度权值，这一过程由下式表示：

其中，时频点(n,k)对应的声源为a，W_s(n,k)为时频点(n,k)的点-声源活动强度权值。

6.如权利要求5所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：计算复合权值，本设计将点-声源活动强度权值与点-区域活动强度权值相结合，获得完整的用于描述单一时频点在定位过程中的贡献的复合权值，对于时频点(n,k)来说，这一复合权值表示为：

W_c(n,k)＝W_p(n,k)·W_s(n,k)

复合权值既包含了单一时频点对于其所在区域的局部贡献，同时也包含了在直方图上对某一特定声源的全局贡献；利用复合权值较为完整地描述单一时频点在定位过程中对定位某一特定声源的贡献，而这一贡献值的大小则可被用于区分野点和所需点。

7.如权利要求6所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：根据复合权值移除野点：对复合权值进行二值聚类，而二值聚类的结果必定有一个低权值组成的聚类，该聚类的聚类中心相对于另一个聚类的聚类中心较低，将这一聚类定义为野点聚类并予以移除，而聚类中心数值较高的聚类则作为所需点保留，本步操作由下式表示：

W_c(n,k|n,k∈Ω_r)＝0

其中Ω_r为野点聚类。

8.如权利要求7所述的一种利用活动强度矢量加权移除野点的多声源定位方法，其特征在于：绘制复合权值加权的DOA统计直方图并进行多声源定位；

在步骤7中，结合复合权值与时频点的角度估计值再次绘制统计直方图，该直方图的绘制方式表示为：

其中Y′(μ)为用于最终确定声源位置的直方图中，横坐标为μ处纵坐标的取值；随后对该直方图进行后处理，包括核密度估计以及峰值搜索，核密度估计中设置高斯核以对直方图中的毛刺进行平滑，随后搜索平滑后的直方图中的峰值，峰值的个数代表了声源的个数，峰值的横坐标代表声源的水平方位角，最终实现混响条件下的多声源定位。