CN110275138B

CN110275138B - 一种利用优势声源成分移除的多声源定位方法

Info

Publication number: CN110275138B
Application number: CN201910640408.8A
Authority: CN
Inventors: 吴宇轩; 杨淇善; 贾懋珅
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-03-23
Anticipated expiration: 2039-07-16
Also published as: CN110275138A

Abstract

本发明提出一种利用优势声源成分移除的多声源定位方法，通过移除优势声源成分使声场景内各声源的波达方向估计更准确。首先，将声场麦克风采集信号变换到频域获得频率系数，对频域信号按频率范围进行子带划分并计算声场麦克风各通路间相同频率范围子带的归一化互相关系数；其次，检测单声源子带，对单声源子带内各时‑频点对应角度进行估计；再次，利用各个历史帧的帧内优势声源确定全局候选优势声源，结合时‑频点角度估计值和全局候选优势声源确定全局优势声源角度并设立移除区间，对当前帧角度估计值落入移除区间的时‑频点成分进行移除；最后，对若干帧经过移除处理后的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。

Description

一种利用优势声源成分移除的多声源定位方法

技术领域

本发明属于声学领域的声源定位部分，尤其涉及多声源复杂声场景下的各声源定位技术。

背景技术

声源定位是音频信号处理领域中的一个研究热点，其目标是通过分析麦克风阵列采集信号对场景内所有声源相对于麦克风阵列的波达(到达)方向进行估计。大多数现有的声源定位技术主要针对超定场景(即麦克风数大于声源数声场景)下的声源定位。随着声源数的上升，需要不断增加麦克风数量以保证定位精度。为了解决上述局限性，通过对信号在频域中的稀疏特性进行研究，从而将多声源定位问题转化为单声源定位问题，进而突破了超定场景的限制。由于各声源在麦克风阵列采集信号中稀疏性的强弱存在差异，与稀疏性较强的声源相比，稀疏性较弱的声源难以被检测到。针对此问题，本发明设定稀疏性较强声源在定位统计中优势明显，即为统计优势声源，简称为优势声源，设计了一种利用优势声源成分移除的多声源定位方法，对四通道声场麦克风采集信号中各声源的稀疏性进行分析，确定优势声源，通过移除优势声源成分以更准确地估计各个声源的波达方向。

多声源定位技术有多种应用环境。如：远程会议场景中，利用此技术可以有效识别各参会者所在方向，进而实现各参会者发言内容的高质量拾音，从而提升远程会议的沉浸感；虚拟课堂场景中，利用此技术可以确定各声源的方位信息，从而为虚拟课堂场景中各声源的高质量重放提供了必要的基础。本设计的目的是利用四通路声场麦克风(也称作：B格式麦克风或一阶Ambisonics麦克风)在多声源场景下对各声源的方位信息进行准确估计。而现有的声源定位技术一般受制于麦克风数大于声源数的约束条件且依赖于各声源稀疏性相似的假设。

目前，大多数现有的多声源定位方法要求声场景内的声源数要小于麦克风数，这一条件在实际场景中，尤其限制麦克风数量的场景中难以满足。考虑到信号本身在频域的稀疏性以及四通路声场麦克风小巧灵活，能够准确反映声场变化的特点，本设计选用四通路声场麦克风，在频域对其采集信号进行处理以实现多声源定位。此外，考虑到声源间稀疏性的差异给声源定位带来的影响，本设计通过移除优势声源成分以实现各个声源波达方向的准确估计。

发明内容

本发明针对于现有声源定位技术受制于麦克风数大于声源数的约束条件且依赖于各声源稀疏性相似假设的问题，设计了一种利用统计优势声源成分移除的多声源定位方法，结合声场麦克风采集信号的稀疏性，检测并移除优势声源成分，实现声场景内各声源波达方向的准确估计。

设计的总体流程中，首先对分帧后的声场麦克风信号利用短时傅里叶变换得到频域系数，对其进行子带划分并求得各通道间的互相关系数，随后判断单声源子带，对单声源子带内各时-频点进行角度估计，利用各个历史帧的帧内优势声源确定全局候选优势声源，结合时-频点角度估计值和全局候选优势声源确定全局优势声源角度并设立移除区间，对当前帧落入移除区间的时-频点角度估计值进行移除，最后对经过移除处理后的若干帧时-频点的角度估计值进行后处理获得各声源角度的准确估计。

本发明的技术方案为解决多声源定位问题，主要分为以下几个步骤：

步骤1，对采集信号进行分帧处理，利用短时傅里叶变换对声场麦克风采集信号进行时-频变换，获得信号的频率系数。

步骤2，将当前帧频域信号按频率划分为若干子带，计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数。

步骤3，根据归一化互相关系数检测单声源子带，对单声源子带内的各时-频点进行角度估计值。

步骤4，确定各帧的帧内优势声源。

步骤5，利用历史帧的帧内优势声源确定全局候选优势声源。

步骤6，根据时-频点的角度估计值和全局候选优势声源判断得到全局优势声源。

步骤7，根据确定的全局优势声源角度设立移除区间，对角度估计值落入移除区间的当前帧时-频点进行移除。

步骤8，对若干帧经过移除处理后的时-频点的角度估计值进行后处理以获得声源角度估计。

1.而且步骤1的实现方式为，首先将声场麦克风采集的四路信号x_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

其中，i＝1,2,3,4为麦克风编号，n为帧索引，k＝1,2,…,K为频率索引，l＝1,2,…,L为时域样点索引，L为帧长，w(l)为窗函数，X_i(n,k)为频域系数。X₁(n,k)对应W通道麦克风，为全指向性麦克风采集信号；X₂(n,k)、X₃(n,k)、X₄(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风，为8字型指向性麦克风采集信号。

2.而且每帧信号有K个频域系数，设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为：

以Ω_nm表示第n帧的第m个子带内各时-频点索引的集合，其中m＝1,2,…,M，

为向上取整运算。则在同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数可由下式表达：

其中

i,j为麦克风编号。

3.在步骤3中，根据步骤2中求出的归一化互相关系数检测单声源子带。该过程的判决条件可表示为：

其中，ε是一个值很小的预设参数。满足上式的子带为单声源子带，本设计只对单声源子带内各时-频点角度进行估计，子带内各时-频点(n,k)的角度估计值

n代表帧数，k代表频点，可由下式计算：

其中Re代表取实部运算，*代表共轭运算。

4.在步骤4中，本设计只对单声源子带的角度粗估计进行计算。若子带(Ω_nm)为单声源子带，则该子带的角度粗估计值

可由下式计算：

将每一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，则相邻角度的角度差大于θ则表示两个角度分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景中共有Q个真实声源，则第q个声源在第n帧的出现概率P_nq可由下式计算：

其中q＝1,2,…,Q，B_nq为第n帧属于第q个声源的单声源子带个数，

为第n帧单声源子带总个数。若P_nq大于预设阈值σ，则认为第q个声源是第n帧的帧内优势声源。对于判断得到的帧内优势声源，将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值(即帧内优势声源角度)。

5.在步骤5中，选取H个历史帧信息进行当前帧信息判别，首先计算第n-1,n-2,...,n-H帧中的帧内优势声源，利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息，则全局候选优势声源角度集合Θ_n可由下式表示

其中，

h＝1,2,…,H。Q_n-h为第n-h帧的帧内优势声源个数。

为第n-h帧的第q_n-h个帧内优势声源角度。q_n-h＝1,2,…,Q_n-h。

6.步骤5得到的全局候选优势声源只代表在部分信号(历史帧)中这些声源表现出较强的稀疏性，而步骤6对全局候选优势声源在整体信号中的稀疏性进行判断，以最终确定全局优势声源角度。在确定全局优势声源时，本设计选用了H′帧的信息进行处理，根据全局候选优势声源角度集合Θ_n以及第n-1,n-2,...,n-H′帧中经移除处理后的时频点角度估计值集合

其中h′＝1,2,…,H′，Φ_n-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合，其中，移除区间设定方法同下文，则第n-h帧的第q_n-h个帧内优势声源(该帧内优势声源角度为

)在Π_n中的出现概率

可由下式计算：

其中B为Π_n中时-频点角度估计值总数量，

为Π_n中属于第n-h帧的第q_n-h个帧内优势声源时-频点角度估计值的数量。时-频点角度估计值

属于第n-h帧第q_n-h个帧内优势声源的判决条件为：

其中

为预设阈值。若

大于预设阈值ξ，则第n-h帧的第q_n-h个帧内优势声源确定为全局优势声源(即，最终确定的优势声源)。对Θ_n内所有全局候选优势声源进行判断，保留满足判决条件的声源角度，则这些保留的声源角度即为全局优势声源角度。

7.步骤7根据全局优势声源角度设立移除区间，对步骤3得到的当前帧内所有单声源子带中的时-频点的角度估计值进行筛选。对落入移除区间的时-频点角度估计值进行移除处理，即不对其进行步骤8中的后处理过程。设当前帧有D个全局优势声源，则移除区间的设立可由下式得到：

8.步骤8对经过若干帧移除处理后保留的时-频点的角度估计值进行后处理，包括直方图统计，均值滤波以及峰值搜索过程，最后获得声场景内所有声源角度的准确估计。

在由各个单声源区域内时-频点角度估计值得到的归一化统计直方图中，某一声源在其真实角度或其真实角度附近的某个角度上应具有明显的峰值。对归一化统计直方图进行峰值搜索即可估计出场景内声源的数量以及各个声源的角度。如果大量的时-频点角度估计值映射到某一声源(即本设计中的优势声源)时，会导致归一化统计直方图中其余各声源所在角度上不能表现出明显的峰值，进而无法检测到这些声源并估计这些声源的角度。考虑到有大量的时-频点角度估计值映射到优势声源上，与之相对应，优势声源一定具有较多的单声源子带。因此本设计利用属于某一声源的单声源子带在帧内的出现概率来对优势声源进行初步判断，获得帧内优势声源，即帧内优势声源对应的单声源子带在帧内具有较高的出现概率。但是帧内出现概率较高和优势声源之间不是充分必要条件，即优势声源一定是某些帧的帧内优势声源，而帧内优势声源不一定是优势声源。所以本设计将若干历史帧的各个时-频点角度估计值映射到各个帧内优势声源上，如果有大量的时-频点角度估计值映射到某一个帧内优势声源，即全局优势声源，则该全局优势声源大概率为真正的优势声源，对当前帧映射到全局优势声源上的时-频点角度估计值进行移除处理即可使映射到各声源的时-频点角度估计值数量更加接近或近似相等，进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。

有益效果

与传统定位技术相比，本发明提高了多声源定位方法的鲁棒性，尤其对声场景中的非优势声源表现出良好的定位性能，使复杂声场景下各个声源都能够获得准确的方向估计。

附图说明

图1是本设计方法整体框图

图2是帧内优势声源检测示意图

图3a未经过移除处理归一化直方图

图3b移除处理后归一化直方图

具体实施方法

本实施例用于检测7个声源，声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m，声源距声场麦克风距离均为1m，相邻声源角度间隔45°，第一个声源位于70°，第七个声源位于340°。信号处理软件为Matlab2014a。

实施时，本发明是算法镶嵌进软件中实现各个流程的自动运行，下面以具体实施步骤结合附图对本发明做进一步说明：具体的工作流程如下：

步骤1：声场麦克风采集信号的时-频变换。

将声场麦克风采集的四路信号x_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

步骤2：划分子带并计算归一化互相关系数。

每帧信号有K个频域系数，设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为：

其中

i,j为麦克风编号。

步骤3：检测单声源子带并对其中的各时-频点进行角度估计。

单声源子带的判决条件可表示为：

其中，ε是一个值很小的预设参数，本实施例中取0.05。满足上式的子带为单声源子带，本设计只对单声源子带内各时-频点角度进行估计，子带内各时-频点(n,k)的角度估计值

可由下式计算：

其中Re代表取实部运算，*代表共轭运算。

步骤4：确定各帧(包含当前及历史帧)的帧内优势声源。

本设计只对单声源子带的角度粗估计进行计算。若子带(Ω_nm)为单声源子带，则该子带的角度粗估计值

可由下式计算：

将每一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，本实施例中取30度，则相邻角度的角度差大于θ则表示两个角度分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景中共有Q个真实声源，则第q个声源在第n帧的出现概率P_nq可由下式计算：

为第n帧单声源子带总个数。若P_nq大于预设阈值σ，本实施例中预设阈值σ取0.2B_n，则认为第q个声源是第n帧的帧内优势声源。对于判断得到的帧内优势声源，将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值(即帧内优势声源角度)。图2为帧内优势声源检测的示意图。

步骤5：确定全局候选优势声源。

选取H个历史帧信息进行当前帧信息判别，首先计算第n-1,n-2,...,n-H帧中的帧内优势声源，利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息，则全局候选优势声源角度集合Θ_n可由下式表示

其中，

h＝1,2,…,H。Q_n-h为第n-h帧的帧内优势声源个数。

为第n-h帧的第q_n-h个帧内优势声源角度。q_n-h＝1,2,…,Q_n-h。

步骤6：确定全局优势声源。

在确定全局优势声源时，本设计选用了H′帧的信息进行处理，根据全局候选优势声源角度集合Θ_n以及第n-1,n-2,...,n-H′帧中经移除处理后的时频点角度估计值集合

其中h′＝1,2,…,H′。Φ_n-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合，则第n-h帧的第q_n-h个帧内优势声源(该帧内优势声源角度为

)在Π_n中的出现概率

可由下式计算：

其中B为Π_n中时-频点角度估计值总数量，

属于第n-h帧第q_n-h个帧内优势声源的判决条件为：

其中

为预设阈值，一般取5-8度。若

大于预设阈值ξ，本实施例中取0.2，则第n-h帧的第q_n-h个帧内优势声源确定为全局优势声源(即，最终确定的优势声源)。对Θ_n内所有全局候选优势声源进行判断，保留满足判决条件的声源角度，则这些保留的声源角度即为全局优势声源角度。

步骤7：设立移除区间移除部分时-频点角度估计值。

步骤7根据全局优势声源角度设立移除区间，对步骤3得到的当前帧内所有单声源子带中的时-频点的角度估计值进行筛选。对落入移除区间的时-频点角度估计值进行移除处理，即不对其进行步骤8中的后处理过程。设当前帧有D个全局优势声源，则移除区间的设立可由下式得到：

步骤8：利用后处理获得各声源波达方向估计

对经过若干帧移除处理后保留的时-频点的角度估计值进行后处理，包括直方图统计，均值滤波以及峰值搜索过程，最后获得声场景内所有声源角度的准确估计。

图3是移除处理前后由时-频点得到的归一化统计直方图的效果对比图。其中，a为未经过移除处理的归一化直方图，b为经过移除处理的归一化直方图。真实声源角度位于70°、115°、160°、205°、250°、295°和340°，共计7个相邻声源角度间隔为45°的声源。从图a中可以看出，未经移除处理的直方图中，70°、115°、160°、205°和295°附近有明显峰值，即利用后处理过程可对位于上面5个角度附近的声源进行方向估计，而250°和340°附近没有明显峰值，即不能通过后处理对这两个声源进行方向估计。从图b中可以看出，经过移除处理后，归一化直方图中在7个真实声源角度附近都有明显的峰值，即经过后处理过程可以获得全部声源的方向估计。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种利用优势声源成分移除的多声源定位方法，其特征在于包括以下步骤：

步骤1，对采集信号进行分帧处理，利用短时傅里叶变换对声场麦克风采集信号进行时-频变换，获得信号的频率系数；

步骤2，将当前帧频域信号按频率划分为若干子带，计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数；

步骤3，根据归一化互相关系数检测单声源子带，对单声源子带内的各时-频点进行角度估计；

步骤4，确定各帧的帧内优势声源，并计算帧内优势声源角度；

步骤5，利用历史帧的帧内优势声源确定全局候选优势声源；

步骤6，选择H′个经移除处理后的历史帧，根据这些历史帧中的时频点角度估计值属于各个全局候选优势声源的数量计算出现概率，根据出现概率对全局候选优势声源进行筛选并最终确定全局优势声源，其中H′个历史帧中的时频点角度估计值可由集合Π_n表达，

其中h′＝1,2,…,H′，Φ_n-h′代表第n-h′帧经移除处理后的时-频点角度估计值集合；

步骤7，根据确定的全局优势声源角度设立移除区间，对角度估计值落入移除区间的当前帧时-频点进行移除；

2.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法，其特征在于：步骤1具体为首先将声场麦克风采集的四路信号x_i(n,l)分帧后进行短时傅里叶变换，得到频域系数：

其中，i＝1,2,3,4为麦克风编号，n为帧索引，k＝1,2,…,K为频率索引，l＝1,2,…,L为时域样点索引，L为帧长，w(l)为窗函数，X_i(n,k)为频域系数；X₁(n,k)对应W通道麦克风，为全指向性麦克风采集信号；X₂(n,k)、X₃(n,k)、X₄(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风，为8字型指向性麦克风采集信号。

3.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法，其特征在于：步骤4所述的帧内优势声源的判别方法如下：

4.1)计算所有单声源子带Ω_nm对应的角度粗估计值

其中角度粗估计值

的计算公式如下：

4.2)根据角度粗估计值将单声源子带映射到若干个声源上，具体为：将每一帧内所有单声源子带对应的角度粗估计值按升序排列，设θ为预设的角度阈值，则相邻角度的角度差大于θ则表示两个角度分属两个声源，否则表示属于一个声源；

4.3)计算每个声源在各帧内的出现概率，其中，第q个声源在第n帧的出现概率P_nq可由下式计算：

为第n帧单声源子带总个数；

4.4)判断帧内优势声源，判断条件为：若P_nq大于预设阈值σ，则认为第q个声源是第n帧的帧内优势声源；

4.5)计算帧内优势声源角度，具体为：对于判断得到的帧内优势声源，将属于该帧内优势声源的各单声源子带角度粗估计值的平均值作为其角度粗估计值。

4.如权利要求1所述的一种利用优势声源成分移除的多声源定位方法，其特征在于：步骤5中所述的全局候选优势声源的确定方法如下：选取H个历史帧信息进行当前帧信息判别，首先计算第n-1,n-2,...,n-H帧中的帧内优势声源，利用这H个历史帧各自的帧内优势声源信息求取第n帧的全局候选优势声源信息，即全局候选优势声源角度集合Θ_n，具体可由下式表示