CN110398716B

CN110398716B - 一种利用声源间稀疏成分均衡的多声源定位方法

Info

Publication number: CN110398716B
Application number: CN201910784643.2A
Authority: CN
Inventors: 贾懋珅; 吴宇轩; 鲍长春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-05-28
Anticipated expiration: 2039-08-23
Also published as: CN110398716A

Abstract

本发明提出一种利用声源间稀疏成分均衡的多声源定位方法，通过均衡各声源的稀疏成分以获得更准确的方向估计。首先将声场麦克风信号变换到频域得到频域系数，对其按频率范围进行子带划分并计算声场麦克风各通路间的归一化互相关系数；其次，检测单声源子带，估计单声源子带内各时‑频点的角度；再次，利用均衡处理区间内各帧的帧内强稀疏性声源确定区间强稀疏性声源，结合历史均衡处理区间的时‑频点角度估计值和区间强稀疏性声源确定全局强稀疏性声源角度并设立移除范围，对当前均衡处理区间内角度估计值落入移除范围的时‑频点成分进行移除；最后，对若干个经过均衡处理后的区间内的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。

Description

一种利用声源间稀疏成分均衡的多声源定位方法

技术领域

本发明属于声学领域的声源定位领域，尤其涉及多声源复杂声场景下的各声源定位技术。

背景技术

声源定位在音频信号处理领域中是一个非常重要的研究课题。该技术的目的是通过分析麦克风阵列采集信号对场景内所有声源相对于麦克风阵列的波达方向进行估计。近些年涌现了一些利用信号稀疏特性进行声源定位的方法，利用信号在时-频域的稀疏性，将多声源定位问题转化为单声源定位问题，突破了传统声源定位方法的局限性，使欠定场景下，即声源数多于麦克风数场景下的声源定位问题得以解决。但是在麦克风阵列采集信号中，各声源信号占绝对主导地位的时频点或时频区域(各声源信号的稀疏成分)的数量间存在差异。当各声源信号稀疏成分数量差异较大时，与稀疏成分较多的声源相比，稀疏成分较少的声源难以利用现有技术对其波达方向进行估计。

声源定位技术有多种应用环境。如：目标跟踪中，利用此技术可以对场景中声源目标的具体方位进行估计，进而实现目标追踪任务；人机交互场景中，利用此技术可以确定用户的方向信息，从而使机器人与用户面对面交流，提升用户体验。目前，现有的多声源定位方法要求声场景内的各声源稀疏成分数量差异较小以实现各个声源的准确定位，这一条件在实际场景中难以满足。

发明内容

本发明针对于现有声源定位技术要求各声源稀疏成分数量差异较小以实现各个声源的准确定位这一问题，提出了一种利用声源间稀疏成分均衡的多声源定位方法，结合声场麦克风采集信号的稀疏性，对各声源稀疏成分数量进行均衡，实现声场景内各声源波达方向的准确估计。考虑到便携式四通路声场麦克风小巧灵活，能够准确反映声场变化的特点，本设计选用便携式四通路声场麦克风，在频域对其采集信号进行处理以实现多声源定位。本设计通过均衡各声源稀疏成分数量以实现各个声源波达方向的准确估计。区别于现有的声源定位技术依赖于各声源稀疏成分数量差异较小的假设，本设计的目的是利用便携式四通路声场麦克风在多声源场景下对各声源对象的方位信息进行准确估计。

设计的总体流程中，首先对分帧后的声场麦克风信号利用短时傅里叶变换得到频域系数，对其进行子带划分并求得各通道间的互相关系数，随后判断单声源子带，对单声源子带内各时-频点进行角度估计，利用单声源子带内时-频点信息计算子带的角度粗估计值，根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度，并以此来确定帧内强稀疏性声源，设定均衡处理区间，利用处理区间内各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度，并以此确定区间强稀疏性声源，根据时-频点的角度估计值和区间强稀疏性声源的角度估计信息计算各个区间强稀疏性声源的全局稀疏度，进而判断得到全局强稀疏性声源，最后根据各个全局强稀疏性声源的角度设立角度移除范围，对当前均衡处理区间内角度估计值落入移除范围的各个时-频点进行移除，对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。

本发明的技术方案为解决多声源定位问题，主要分为以下几个步骤：

步骤1，对采集信号进行分帧处理，利用短时傅里叶变换对声场麦克风采集信号进行时-频变换，获得信号的频率系数。

步骤2，将频域系数按频率划分为若干子带，计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数。

步骤3，根据归一化互相关系数检测单声源子带，计算单声源子带内的各时-频点的角度估计值。

步骤4，利用子带内时-频点信息，计算得到单声源子带的角度粗估计值。

步骤5，根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度，依赖帧稀疏度来确定帧内强稀疏性声源。

步骤6，设定均衡处理区间，在处理区间内，利用各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度，并以此确定区间强稀疏性声源。

步骤7，根据时-频点的角度估计值和区间强稀疏性声源的角度估计信息计算各个区间强稀疏性声源的全局稀疏度，进而判断得到全局强稀疏性声源。

步骤8，对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。

1.而且步骤1的实现方式为，首先将声场麦克风采集的四路信号s_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

其中，i＝1,2,3,4为麦克风编号，n为帧索引，k＝1,2,…,K为频率索引，l＝1,2,…,L为时域样点索引，L为帧长，w(l)为窗函数，S_i(n,k)为频域系数。S₁(n,k)对应W通道麦克风，为全指向性麦克风采集信号；S₂(n,k)、S₃(n,k)、S₄(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风，为8字型指向性麦克风采集信号。

2.而且每帧信号有K个频域系数，设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为：

其中m＝1,2,…,M，

为向上取整运算。以Ω_nm表示第n帧的第m个子带内各时-频点索引的集合。在第n帧第i路麦克风采集信号与第j路麦克风采集信号在第m个频率子带的归一化互相关系数R_ij(Ω_nm)可由下式计算：

其中i,j为麦克风编号。

3.在步骤3中，根据步骤2中求出的归一化互相关系数检测单声源子带。该过程的判决条件可表示为：

其中，ε是一个值很小的预设参数。满足上式的子带为单声源频率区域子带，本设计只对单声源子带内各时-频点角度进行估计，子带内各时-频点(n,k)的角度估计值

可由下式计算：

其中Re代表取实部运算，*代表共轭运算。

4.在步骤4中，本设计只对单声源子带进行角度粗估计。若子带(Ω_nm)为单声源子带，则该子带的角度粗估计值

由下式计算：

5.在步骤5中，将一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，若相邻粗估计角度值的差值大于θ，则表示两个角度粗估计值分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景内一共有P个声源，根据映射到各个声源的角度粗估计个数，本设计定义声源帧稀疏度以衡量一帧信号内某一声源的稀疏程度。设第p个声源在第n帧的帧稀疏度为Γ_np

其中，p＝1,2,…,P，G_np为第n帧内映射到第p个声源的角度粗估计个数。设定一个阈值σ，若Γ_np大于阈值σ，则认为第p个声源在第n帧内具有较多的单声源子带(稀疏成分)，即第p个声源是第n帧的帧内强稀疏性声源。对于判断得到的帧内强稀疏性声源，将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值(即帧内强稀疏性声源角度)。6.在步骤6中，设定一个以帧为单位的均衡处理区间，每个处理区间包含Δ_e(Δ_e为正整数)帧信号，且相邻处理区间不包含重叠帧。本设计对每个处理区间中单声源子带内的时-频点角度估计值进行均衡处理。设当前区间为第Q个均衡处理区间，区间内包含第n,n-1,n-2,...,n-Δ_e+1帧信号，判断每一帧的帧内强稀疏性声源并计算其角度，则当前处理区间内所有的帧内强稀疏性声源可由集合Ψ′_Q表示

其中

δ＝0,2,…,Δ_e-1。P′_n-δ为第n-δ帧的帧内强稀疏性声源个数，

表示第n-δ帧的第p_n-δ个帧内强稀疏性声源角度，p′_n-δ＝1,2,…,P′_n-δ。将Ψ′_Q中的所有角度按升序排列，若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ，则表示两个帧内强稀疏性声源属于同一个声源。按此规则将Ψ′_Q中所有的帧内强稀疏性声源映射到各个声源上。根据映射到各个声源的帧内强稀疏性声源的个数，本设计定义各声源的区间稀疏度以衡量整个均衡处理区间内某一声源的稀疏程度。设第p个声源在当前区间内的区间稀疏度为Γ′_Qp

其中，p＝1,2,…,P，G′_Qp为当前区间内映射到第p个声源的帧内强稀疏性声源的个数。设定一个阈值ξ，若Γ′_Qp大于预设阈值ξ则认为在当前均衡处理区间内有足够多的帧将第p个声源判断为帧内强稀疏性声源，即第p个声源为当前均衡处理区间的区间强稀疏性声源。对于判断得到的区间强稀疏性声源，将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度。当前区间内所有的区间强稀疏性声源可由集合Ψ″_Q表示，其中

P_Q表示当前均衡处理区间内的区间强稀疏性声源总数，

表示当前区间内第p_Q个区间强稀疏性声源角度，p_Q＝1,2,…,P_Q。

7.步骤6判断得到的各个区间强稀疏性声源(仅能表明在当前区间内这些声源表现出较强的稀疏性)，需要在步骤7中对其在整体信号中的稀疏性进行判断，以最终确定全局强稀疏性声源角度。本设计选用了H个均衡处理区间的信息进行处理，根据区间强稀疏性声源角度集合Ψ″_Q以及第Q-1,Q-2,...,Q-H处理区间中经均衡处理后的时频点角度估计值集合

其中h＝1,2,…,H。Φ_Q-h代表第Q-h个处理区域经均衡处理后的时-频点角度估计值集合，本设计定义第Q个均衡处理区间的第p_Q个区间强稀疏性声源(该区间强稀疏性声源角度为

)在整体信号中的全局稀疏度为

其中B为Π_Q中时-频点角度估计值总数量，

为Π_Q中属于第Q个均衡处理区间的第p_Q个区间强稀疏性声源的时-频点角度估计值的数量。时-频点角度估计值

属于第Q个均衡处理区间的第p_Q个区间强稀疏性声源的判决条件为：

其中h′＝Δ_e,Δ_e+1,…,(H+1)Δ_e-1,

为预设阈值。若

大于预设阈值λ，则第Q个均衡处理区间的第p_Q个区间强稀疏性声源确定为全局强稀疏性声源(即，最终确定的强稀疏性优势声源)。对Ψ″_Q内所有区间强稀疏性声源进行判断，保留满足判决条件的声源角度，则这些保留的声源角度即为全局强稀疏性声源角度。根据全局强稀疏性声源角度设立角度移除范围，对步骤3得到的当前帧内所有单声源子带中落入移除范围的时-频点的角度估计值进行移除，不对其进行步骤8中的后处理过程。通过移除部分时-频点的角度估计值使各声源的稀疏成分更加均衡。设当前均衡处理区域有D_Q个全局强稀疏性声源，则角度移除范围由下式得到：

其中，

为第Q个均衡处理区间的第d_Q个全局强稀疏性声源的角度，d_Q＝1,2,…,D_Q，D_Q为第Q个均衡处理区间的全局强稀疏性声源的总个数。

8.步骤8对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理，包括直方图统计，均值滤波以及峰值搜索过程，最后获得声场景内所有声源角度的准确估计。

在由各个单声源区域内时-频点角度估计值得到的归一化统计直方图中，某一声源在其真实角度或其真实角度附近的某个角度上应具有明显的峰值。对归一化统计直方图进行峰值搜索即可估计出场景内声源的数量以及各个声源的角度。如果大量的时-频点角度估计值映射到某一声源(即本设计中的强稀疏性声源)时，会导致归一化统计直方图中其余各声源所在角度上不能表现出明显的峰值，进而无法检测到这些声源并估计这些声源的角度。考虑到有大量的时-频点角度估计值映射到强稀疏性声源上，与之相对应，强稀疏性声源一定具有较多的单声源子带。因此本设计根据属于某一声源的单声源子带在帧内的出现概率定义声源的帧稀疏度，利用声源的帧稀疏度来对帧内强稀疏性声源进行初步判断，获得帧内强稀疏性声源，即帧内强稀疏性声源对应的单声源子带在帧内具有较高的出现概率。为了提高强稀疏性声源的判断准确性，本设计设定了均衡处理区间，定义声源的区间稀疏度用于检测区间强稀疏性声源。但是区间内出现概率较高和强稀疏性声源之间不是充分必要条件，即强稀疏性声源一定是某些区间的区间强稀疏性声源，而从整体上看，区间强稀疏性声源不一定是强稀疏性声源。所以本设计将若干经均衡处理后的均衡处理区间内的各个时-频点角度估计值映射到各个区间强稀疏性声源上，如果有大量的时-频点角度估计值映射到某一个区间强稀疏性声源，即全局强稀疏性声源，则该全局强稀疏性声源大概率为真正的强稀疏性声源，对当前均衡处理区间内帧映射到全局强稀疏性声源上的时-频点角度估计值进行移除处理即可使映射到各声源的时-频点角度估计值数量更加接近或近似相等，进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。

本设计所采用的方法与发明《一种利用优势声源成分移除的多声源定位方法》中所实施的方法有以下几点不同：1、本设计是逐区间进行的，相邻均衡处理区间没有重叠帧《一种利用优势声源成分移除的多声源定位方法》中是逐帧进行的，历史帧的信息会在若干帧中重复使用；2、本设计利用了当前帧的信息来确定当前帧所在均衡处理区间的角度移除范围，而《一种利用优势声源成分移除的多声源定位方法》中仅利用历史帧信息来确定当前帧的角度移除区间；3、本设计在确定均衡处理区间的角度移除范围时，考虑了均衡处理区间内帧与帧之间的信息，即利用帧间信息来确定的角度移除范围，而《一种利用优势声源成分移除的多声源定位方法》中只利用了各个历史帧的帧内信息来确定当前帧的移除区间，即帧与帧之间是独立处理的，移除区间的设立没有利用帧间信息。

有益效果

与传统定位技术相比，本发明提高了多声源定位方法的鲁棒性，尤其对声场景中的非强稀疏性声源表现出良好的定位性能，使复杂声场景下各个声源都能够获得准确的方向估计。

附图说明

图1是本设计方法整体框图。

图2是区间强稀疏性声源检测示意图

图3a未经过均衡处理归一化直方图

图3b均衡处理后归一化直方图

具体实施方法

本实施例用于检测7个声源，声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m，声源距声场麦克风距离均为1m，相邻声源角度间隔45°，第一个声源位于70°，第七个声源位于340°。信号处理软件为Matlab2014a。

实施时，本发明是算法镶嵌进软件中实现各个流程的自动运行，下面以具体实施步骤结合附图对本发明做进一步说明：具体的工作流程如下：

步骤1：声场麦克风采集信号的时-频变换。

将声场麦克风采集的四路信号s_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

步骤2：划分子带并计算归一化互相关系数。

每帧信号有K个频域系数，设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为：

其中m＝1,2,…,M，

其中i,j为麦克风编号。

步骤3：检测单声源子带并对其中的各时-频点进行角度估计。

单声源子带的判决条件可表示为：

其中，ε是一个值很小的预设参数，一般小于0.1，本实施例中取0.05，但不限于此。满足上式的子带为单声源频率区域子带，本设计只对单声源子带内各时-频点角度进行估计，子带内各时-频点(n,k)的角度估计值

可由下式计算：

其中Re代表取实部运算，*代表共轭运算。

步骤4：根据单声源子带内时-频点信息计算单声源子带的角度粗估计

本设计只对单声源子带进行角度粗估计。若子带(Ω_nm)为单声源子带，则该子带的角度粗估计值

由下式计算：

步骤5：计算每个声源的帧稀疏度，以此来确定帧内强稀疏性声源。

将一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，一般取25°～50°，本实施例中取30°，但不限于此，若相邻粗估计角度值的差值大于θ，则表示两个角度粗估计值分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景内一共有P个声源，根据映射到各个声源的角度粗估计个数，本设计定义声源帧稀疏度以衡量一帧信号内某一声源的稀疏程度。设第p个声源在第n帧的帧稀疏度为Γ_np

其中，p＝1,2,…,P，G_np为第n帧内映射到第p个声源的角度粗估计个数。设定一个阈值σ，一般取0.2～0.4，本实施例中预设阈值σ取0.3，若Γ_np大于阈值σ，则认为第p个声源在第n帧内具有较多的单声源子带(稀疏成分)，即第p个声源是第n帧的帧内强稀疏性声源。对于判断得到的帧内强稀疏性声源，将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值(即帧内强稀疏性声源角度)。

步骤6：设定均衡处理区间，根据帧内强稀疏性声源的区间稀疏度来确定区间强稀疏性声源。

在步骤6中，设定一个以帧为单位的均衡处理区间，每个处理区间包含Δ_e(Δ_e为正整数)帧信号，且相邻处理区间不包含重叠帧。本设计对每个处理区间中单声源子带内的时-频点角度估计值进行均衡处理。设当前区间为第Q个均衡处理区间，区间内包含第n,n-1,n-2,...,n-Δ_e+1帧信号，判断每一帧的帧内强稀疏性声源并计算其角度，则当前处理区间内所有的帧内强稀疏性声源可由集合Ψ′_Q表示

其中

表示第n-δ帧的第p′_n-δ个帧内强稀疏性声源角度，p′_n-δ＝1,2,…,P′_n-δ。将Ψ′_Q中的所有角度按升序排列，若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ，则表示两个帧内强稀疏性声源属于同一个声源。按此规则将Ψ′_Q中所有的帧内强稀疏性声源映射到各个声源上。根据映射到各个声源的帧内强稀疏性声源的个数，本设计定义各声源的区间稀疏度以衡量整个均衡处理区间内某一声源的稀疏程度。设第p个声源在当前区间内的区间稀疏度为Γ′_Qp

其中，p＝1,2,…,P，G′_Qp为当前区间内映射到第p个声源的帧内强稀疏性声源的个数。设定一个阈值ξ，一般取0.35～0.45，本实施例中预设阈值ξ取0.4，若Γ′_Qp大于预设阈值ξ则认为在当前均衡处理区间内有足够多的帧将第p个声源判断为帧内强稀疏性声源，即第p个声源为当前均衡处理区间的区间强稀疏性声源。对于判断得到的区间强稀疏性声源，将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度。当前区间内所有的区间强稀疏性声源可由集合Ψ″_Q表示，其中

P_Q表示当前均衡处理区间内的区间强稀疏性声源总数，

步骤7：根据区间强稀疏性声源的全局稀疏度来确定全局强稀疏性声源。

各个区间强稀疏性声源(仅能表明在当前区间内这些声源表现出较强的稀疏性)，需要在步骤7中对其在整体信号中的稀疏性进行判断，以最终确定全局强稀疏性声源角度。本设计选用了H个均衡处理区间的信息进行处理，根据区间强稀疏性声源角度集合Ψ″_Q以及第Q-1,Q-2,...,Q-H处理区间中经均衡处理后的时频点角度估计值集合

)在整体信号中的全局稀疏度为

其中B为Π_Q中时-频点角度估计值总数量，

其中h′＝Δ_e,Δ_e+1,…,(H+1)Δ_e-1,

为预设阈值，一般取5-8度。若

大于预设阈值λ，一般取0.15～0.35，本实施例中取0.2，但不限于此，则第Q个均衡处理区间的第p_Q个区间强稀疏性声源确定为全局强稀疏性声源(即，最终确定的强稀疏性优势声源)。对Ψ″_Q内所有区间强稀疏性声源进行判断，保留满足判决条件的声源角度，则这些保留的声源角度即为全局强稀疏性声源角度。

设立角度移除范围，对均衡处理区间内部分时-频点角度估计值进行移除处理。

根据全局强稀疏性声源角度设立角度移除范围，对步骤3得到的当前帧内所有单声源子带中落入移除范围的时-频点的角度估计值进行移除，不对其进行步骤8中的后处理过程。通过移除部分时-频点的角度估计值使各声源的稀疏成分更加均衡。设当前均衡处理区域有D_Q个全局强稀疏性声源，则角度移除范围由下式得到：

步骤8：利用后处理获得各声源波达方向估计

对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理，包括直方图统计，均值滤波以及峰值搜索过程，最后获得声场景内所有声源角度的准确估计。

图3是移除处理前后由时-频点得到的归一化统计直方图的效果对比图。其中，a为未经过移除处理的归一化直方图，b为经过移除处理的归一化直方图。真实声源角度位于70°、115°、160°、205°、250°、295°和340°，共计7个相邻声源角度间隔为45°的声源。从图3a中可以看出，未经移除处理的直方图中，70°、115°、160°、205°和295°附近有明显峰值，即利用后处理过程可对位于上面5个角度附近的声源进行方向估计，而250°和340°附近没有明显峰值，即不能通过后处理对这两个声源进行方向估计。从图3b中可以看出，经过移除处理后，归一化直方图中在7个真实声源角度附近都有明显的峰值，即经过后处理过程可以获得全部声源的方向估计。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种利用声源间稀疏成分均衡的多声源定位方法，其特征在于包括以下步骤：

步骤1，对采集信号进行分帧处理，利用短时傅里叶变换对声场麦克风采集信号进行时-频变换，获得信号的频域系数；

步骤2，将频域系数按频率划分为若干子带，计算每帧信号同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数；

步骤3，根据归一化互相关系数检测单声源子带，计算单声源子带内的各时-频点的角度估计值；

步骤4，利用子带内时-频点信息，计算得到单声源子带的角度粗估计值；

单声源子带的角度粗估计值计算方法如下：若子带Ω_nm为单声源子带，则该子带的角度粗估计值

由下式计算：

其中，Re代表取实部运算，*代表共轭运算；

步骤5，根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度，依赖帧稀疏度来确定帧内强稀疏性声源；

所述的帧内强稀疏性声源判别方法如下：

5.1)根据角度粗估计值将单声源子带映射到若干个声源上，具体为：将一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，若相邻粗估计角度值的差值大于θ，则表示两个角度粗估计值分属两个声源，否则表示属于同一声源，从而得到一帧内映射到各个声源的角度粗估计个数；

5.2)计算所有声源在第n帧的帧稀疏度，其中第p个声源在第n帧的帧稀疏度Γ_np由下式计算：

其中，p＝1,2,…,P，G_np为第n帧内映射到第p个声源的角度粗估计个数；

5.3)判断帧内强稀疏性声源，判断条件为：若Γ_np大于阈值σ，则认为第p个声源在第n帧内具有较多的单声源子带，即第p个声源是第n帧的帧内强稀疏性声源；

5.4)计算帧内强稀疏性声源角度，具体为：对于判断得到的帧内强稀疏性声源，将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值;

步骤6，设定均衡处理区间，在处理区间内，利用各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度，并以此确定区间强稀疏性声源，具体如下，6.1)设定均衡处理区间，该处理区间以帧为单位，每个处理区间包含Δ_e帧信号，且相邻处理区间不包含重叠帧；其中，当前区间为第Q个均衡处理区间，则区间内包含第n,n-1,n-2,...,n-Δ_e+1帧信号，判断每一帧的帧内强稀疏性声源并计算其角度，则第Q个均衡处理区间内所有的帧内强稀疏性声源可由集合Ψ′_Q表示

其中

P′_n-δ为第n-δ帧的帧内强稀疏性声源个数，

表示第n-δ帧的第p′_n-δ个帧内强稀疏性声源角度，p′_n-δ＝1,2,…,P′_n-δ；

6.2)根据角度粗估计值将当前区间帧内强稀疏性声源映射到若干个声源上，具体为：将Ψ′_Q中的所有角度按升序排列，若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ，则表示两个帧内强稀疏性声源属于同一个声源，否则表示属于不同声源；

6.3)根据映射到各个声源的帧内强稀疏性声源的个数，计算各声源在当前均衡区间内的区间稀疏度，其中第p个声源在第Q个均衡区间内的区间稀疏度Γ′_Qp可由下式计算：

其中，p＝1,2,…,P，G′_Qp为第Q个均衡区间内映射到第p个声源的帧内强稀疏性声源的个数；

6.4)判断区间强稀疏性声源，判断条件为：若Γ′_Qp大于预设阈值ξ则认为第p个声源为第Q个均衡处理区间的区间强稀疏性声源；

6.5)计算区间强稀疏性声源角度，具体为：对于判断得到的区间强稀疏性声源，将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度；第Q个均衡区间内所有的区间强稀疏性声源可由集合Ψ″_Q表示，其中

P_Q表示第Q个均衡处理区间内的区间强稀疏性声源总数，

表示第Q个均衡区间内第p_Q个区间强稀疏性声源角度，p_Q＝1,2,…,P_Q；

步骤7，选择H个经均衡处理后的均衡处理区间，根据这些区间中的时频点角度估计值属于各个区间强稀疏性声源的数量计算各个区间强稀疏性声源的全局稀疏度，根据全局稀疏度对区间强稀疏性声源进行筛选并最终确定全局强稀疏性声源，其中H个均衡处理区间中的时频点角度估计值可由集合Π_Q表达，

其中h＝1,2,…,H，Φ_Q-h代表第Q-h个处理区域经均衡处理后的时-频点角度估计值集合；

所述的各个区间强稀疏性声源的全局稀疏度的计算方法如下：

1)判断时-频点角度估计值

是否属于第Q个均衡处理区间的第p_Q个区间强稀疏性声源，并统计第Q个均衡处理区间的第p_Q个区间强稀疏性声源的时-频点角度估计值的数量，其中判决条件为：

其中h′＝Δ_e,Δ_e+1,…,(H+1)Δ_e-1,

为预设阈值；

2)利用Π_Q计算区间强稀疏性声源的全局稀疏度，其中，第Q个均衡处理区间的第p_Q个区间强稀疏性声源在整体信号中的全局稀疏度为

则

可由下式计算：

其中B为Π_Q中时-频点角度估计值总数量，

为Π_Q中属于第Q个均衡处理区间的第p_Q个区间强稀疏性声源的时-频点角度估计值的数量；

所述的全局强稀疏性声源的判断方法为：若

大于预设阈值λ，则第Q个均衡处理区间的第p_Q个区间强稀疏性声源确定为全局强稀疏性声源，即最终确定的强稀疏性优势声源；对Ψ″_Q内所有区间强稀疏性声源进行判断，保留满足判决条件的声源角度，则这些保留的声源角度即为全局强稀疏性声源角度；

所述的均衡处理包括：

1)设定角度移除范围，其中第Q个均衡处理区域有D_Q个全局强稀疏性声源，则第Q个均衡处理区域的角度移除范围由下式得到：

其中，

为第Q个均衡处理区间的第d_Q个全局强稀疏性声源的角度，d_Q＝1,2,…,D_Q，D_Q为第Q个均衡处理区间的全局强稀疏性声源的总个数；

2)对于每个处理区间，删除角度估计值落入角度移除范围的各个时-频点；

步骤8对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。

2.如权利要求1所述的一种利用声源间稀疏成分均衡的多声源定位方法，其特征在于：步骤1将声场麦克风采集的四路信号s_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

其中，i＝1,2,3,4为麦克风编号，n为帧索引，k＝1,2,…,K为频率索引，l＝1,2,…,L为时域样点索引，L为帧长，w(l)为窗函数，S_i(n,k)为频域系数，S₁(n,k)对应W通道麦克风，为全指向性麦克风采集信号；S₂(n,k)、S₃(n,k)、S₄(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风，为8字型指向性麦克风采集信号。

3.如权利要求1所述的一种利用声源间稀疏成分均衡的多声源定位方法，其特征在于：所述的单声源子带判断条件为：

其中，R_ij(Ω_nm)为第n帧第i路麦克风采集信号与第j路麦克风采集信号在第m个频率子带的归一化互相关系数,Ω_nm表示第n帧的第m个子带内各时-频点索引的集合，ε为预设参数。