CN110133579B

CN110133579B - 适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法

Info

Publication number: CN110133579B
Application number: CN201910288641.4A
Authority: CN
Inventors: 高伟霞; 陈华伟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-02-05
Anticipated expiration: 2039-04-11
Also published as: CN110133579A

Abstract

本发明公开了一种适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法，包括如下步骤：借助离散球傅里叶变换和模式强度补偿将声场信息由时频域变换成球谐波域的模式强度补偿特征波束形式，由声场的各阶特征波束计算声场的各阶特征波束的功率；根据声场各阶间的特征波束功率相似性检测因子衡量各阶特征波束的功率相似性；根据设定门限参数值对平均特征波束功率相似性检测因子进行可靠阶数选择处理；根据可靠阶数进行时频点掩蔽，利用满足条件的时频点对应的可靠阶声场特征波束进行声场定位，得出方位角估计值。本发明对混响噪声具有更高的鲁棒性，声源方位估计精度也较高。

Description

适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法

技术领域

本发明涉及球面麦克风阵列，适用于球谐波域声源定向方法，可用于视频会议系统、机器人听觉、助听器、人机语音交互系统、以及音频监控等诸多领域。

背景技术

球面麦克风阵列具有三维空间对称性，在整个空间上具有相同的空间分辨率，并且可以将采集到的声场信息变换到球谐波域中进行表示，具有声场信息与阵列分布无关的优点，这为三维声场分析带来了方便。近年来人们提出了一些在球谐波域中进行声源定向的算法，特别是利用模式强度补偿的特征波束进行定位的算法，如PWD-SRP(见文献[1]B.Rafaely,Phase-mode versus delay-and-sum spherical microphone arrayprocessing,IEEE Signal Process.Lett.2005,12(10):713-716.)、SH-MUSIC(见文献[2]O.Nadiri and B.Rafaely.Localization of multiple speakers under highreverberation using a spherical microphone array and the direct-pathdominance test.IEEE/ACM Transactions on Audio Speech and LanguageProcessing.2014,22(10):1494-1505.)、PIV(见文献[3]D.P.Jarrett,E.A.P.Habets,andP.A.Naylor.3D source localization in the spherical harmonic domain using apseudointensity vector.European Signal Processing Conference.2010,442-446.)、球谐波域最大似然算法(见参考文献[4]S.Tervo and A.Politis.Direction of arrivalestimation of reflections from room impulse responses using a sphericalmicrophone array.IEEE/ACM Transactions on Audio Speech and LanguageProcessing.2015,23(10):1539-1551.)等，根据球谐波域中导向矢量与频率关系解耦优点，这些算法可以很简便的扩展到宽带声源定向中，从而得到了人们的关注。但是在模式强度补偿过程中产生的噪声放大作用使得高阶特征波束易受噪声影响，特别是在低频段，阶数越高则更易受噪声影响，特别是对于噪声较大的时频点，其高阶特征波束中的噪声部分会超过乃至淹没信号部分，若贸然将其用于声源定向中将会产生错误定位结果，从而影响最终结果。而将受噪声影响较小的高阶特征波束用于声源定向中有助于提高定向方法的空间分辨率和定位精度。为了解决这一问题，本发明提出了一种根据每个时频点的噪声大小，自适应的将受噪声影响较小的可靠高阶特征波束筛选出来用于声源定向的方法，同时根据可靠特征波束的阶数进行时频点筛选，减小了定向算法的计算量，并且所提出的方法不受频带的限制。

发明内容

本发明的目的是针对上述现有技术中的不足，提供一种适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法，对噪声和混响具有鲁棒性，并且所提出的方法不受频带的限制，包含时频点筛选，减小了定向算法的计算量。

为实现上述目的，本发明采用以下技术方案：

一种适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法，包括如下步骤：

步骤1，借助离散球傅里叶变换和模式强度补偿将声场信息由时频域变换成球谐波域的模式强度补偿特征波束形式，由声场的各阶特征波束计算声场的各阶特征波束的功率；

步骤2，根据声场各阶间的特征波束功率相似性检测因子衡量各阶特征波束的功率相似性；

步骤3，根据设定门限参数值对平均阶间特征波束功率相似性检测因子进行可靠阶数选择处理；

步骤4，根据可靠阶数进行时频点掩蔽，利用满足条件的时频点对应的可靠阶声场特征波束进行声场定位，得出方位角估计值。

所述步骤1的具体步骤为：将球面麦克风阵列采集的每个时频点的声场信息根据离散球傅里叶变换由时频域变换到球谐波域，并进行模式强度补偿，得到每个时频点的球谐波域特征波束

根据语音信号的稀疏性，若时频点(t,k)只含有来自第l个声源的声场信息，则特征波束

表示为：

上式中，n为阶数，m为维度；t表示第t时间帧，k表示第k个频点；r为球面阵半径；v_nm(t,k)为阵列传感器噪声的球傅里叶变换；s_l(t,k)表示阵列采集的第l个声源的声场幅值；

表示n阶m度球谐波函数，(·)^*表示取共轭，下标l表示第l个声源，Ω＝(θ,φ)为角度坐标；b_n(kr)为第n阶模式强度；

由于每阶b_n(kr)的幅值不同，导致噪声对每阶的特征波束

的影响不同，为综合衡量噪声由于模式强度补偿对n阶共2m+1项特征波束

的影响，定义n阶特征波束的功率为：

上式中，|·|表示二阶范数，Re(·)表示取实部；

若无噪声，则各阶特征波束功率一致；而噪声必然存在，因此各阶特征波束功率不一致，尤其在低频段随着阶数n的增大模式强度b_n(kr)的幅值越小，使得高阶特征波束功率大于低阶特征波束功率。

所述步骤2中，若噪声越大则高阶特征波束功率与低阶特征波束功率之间的差异越大，为衡量噪声对各阶特征波束功率影响大小，定义第n阶和第n'阶的阶间特征波束功率相似性检测因子：

上式中，

表示

的平方，

表示

的平方；

若

和

相等时，则R_nn′(t,k)有最大值1；随着

和

差别的增大则R_nn′(t,k)的值越小，进而反映噪声的影响程度。

所述步骤3中，用平均阶间特征波束功率相似性检测因子

来综合衡量噪声对阶数小于等于Q阶的所有特征波束的影响程度：

上式中，q和q'为阶数，

表示组合数；根据设定门限参数值η_th选择满足条件

的最大Q值作为该时频点的可靠阶数，若时频点(t,k)的噪声越小则该时频点的可靠阶数Q越大，说明可用的可靠特征波束越多。

所述步骤4中，根据设定阶数门限参数值N_th将满足可靠阶数Q≥N_th条件的时频点筛选出来作为受噪声影响较小的可靠时频点，形成可靠时频点集Λ，用可靠时频点的可靠特征波束进行声源定向。

本发明的有益效果为：相比现有技术，本发明对混响和噪声具有更高的鲁棒性，方位估计精度和空间分辨率也较高，尤其在低信噪比条件下，具体为：

(1)由于模式强度补偿对噪声的放大作用，使得高阶特征波束易受噪声影响，阶数越高对噪声的鲁棒性越差，尤其在低频段。若将受噪声影响较大的高阶特征波束用于声源定向算法中，必然会产生较大的方位估计误差，从而影响最后的方位估计精度和空间分辨率。为此，本发明巧妙的通过平均阶间特征波束功率相似性检测因子来选取受噪声影响较小的可靠高阶特征波束进行定位，有效克服了噪声对高阶特征波束的影响带来的声源方位估计性能下降的问题。

(2)本发明克服了球谐波域中利用特征波束进行声源定向的算法对噪声鲁棒性较差的缺陷，一方面在信噪比降低时也能保持较高的定向精度和空间分辨率，另一方面通过可靠特征波束和时频点的筛选，减小了算法的计算量。

(3)相比现有的方法，本发明适用于球谐波域利用特征波束定向的算法，对噪声具有较高的鲁棒性，在混响噪声环境下的方位估计精度高。

附图说明

图1为本发明方法的流程图；

图2a-图2d为实施例1中混响时间0.4s信噪比10dB环境下三声源对应的可靠特征波束选取情况分布图，其中，图2a为纯净语音信号语谱图，图2b为加混响和噪声后的语谱图，图2c为二阶可靠特征波束对应时频点分布图，图2d为三阶可靠特征波束对应时频点分布图；

图3a和图3b为对比例1中不同信噪比情况下的仿真结果图，其中，图3a为混响时间为0.4s时不同信噪比条件下各对比方法的均方根误差，图3b为混响时间为0.4s时不同信噪比条件下各对比方法的平均声源检测个数；

图4为实施例1中不同信噪比情况下筛选出的可靠二阶和三阶特征波束的时频点百分比结果图；

图5a和图5b为对比例1中不同混响条件下的仿真结果图，其中，图5a为信噪比为5dB时不同混响时间条件下各对比方法的均方根误差，图5b为信噪比为5dB时不同混响时间条件下各对比方法的平均声源检测个数；

图6为对比例2中实测第一种场景各对比方法实测归一化直方图；

图7为对比例2中实测第二种场景各对比方法实测归一化直方图。

具体实施方式

本发明的一种适用于球面麦克风阵列声源定向的球谐波阶数自适应选择方法，包括如下步骤：

步骤1，借助离散球傅里叶变换和模式强度补偿将声场信息由时频域变换成球谐波域的模式强度补偿特征波束形式，由声场的各阶特征波束计算声场的各阶特征波束的功率；具体步骤为：将球面麦克风阵列采集的每个时频点的声场信息根据离散球傅里叶变换由时频域变换到球谐波域，并进行模式强度补偿，得到每个时频点的球谐波域特征波束

表示为：

由于每阶b_n(kr)的幅值不同，导致每阶的

受噪声的影响不同，为综合衡量噪声由于模式强度补偿对n阶共2m+1项特征波束

的影响，定义n阶特征波束的功率为：

上式中，|·|表示二阶范数，Re(·)表示取实部；

若无噪声，则各阶特征波束功率一致；而噪声必然存在，因此各阶特征波束功率不一致，尤其在低频段随着阶数n的增大模式强度b_n(kr)的值越小，使得高阶特征波束功率大于低阶特征波束功率。

步骤2，根据声场各阶间的特征波束功率相似性检测因子衡量各阶特征波束的功率相似性；若噪声越大，则高阶特征波束功率与低阶特征波束功率之间的差异越大，为衡量噪声对各阶特征波束功率的影响大小，定义阶间特征波束功率相似性检测因子：

上式中，

表示

的平方，

表示

的平方；

若

和

相等时，则R_nn′(t,k)有最大值1；随着

和

步骤3，根据设定门限参数值对平均阶间特征波束功率相似性检测因子进行可靠阶数选择处理；用平均阶间特征波束功率相似性检测因子

上式中，q和q'为阶数，

表示组合数；根据设定门限参数值η_th选择满足条件

步骤4，根据可靠阶数进行时频点掩蔽，利用满足条件的时频点对应的可靠阶声场特征波束进行声场定位，得出方位角估计值；根据设定阶数门限参数值N_th将满足可靠阶数Q≥N_th条件的时频点筛选出来作为受噪声影响较小的可靠时频点，形成可靠时频点集Λ，用可靠时频点的可靠特征波束进行声源定向。

本发明中所指的球面麦克风阵列，一般是指刚性球面麦克风阵列，本发明实施例和对比例中都选用均匀分布的32阵元刚性球面麦克风阵列。

下面结合附图对发明的技术方案进行详细说明。

本发明方法是在半径为4.2厘米的均匀分布的32阵元刚性球面麦克风阵列的基础上，按照图1所示的原理流程图进行研究的。对于由L个声源共同辐射构成的声场，阵列第i个麦克风采集的声压信号可以表示为：

其中，p(t,r,Ω_i)为第i个麦克风采集的声压信号，h(t,r,Ω_i,Ω_l)为第l个声源到第i个麦克风的房间脉冲响应，r为球面阵半径，Ω＝(θ,φ)为角度坐标；s_l(t)为第l个声源信号幅度，v_i(t)为噪声，(*)表示卷积。考虑到语音信号具有短时平稳的特性，因此本发明采用时频处理方法。对接收到的信号分别进行短时傅里叶变换，得到时频域表示：

将麦克风采集的声压信号p(t,k,r,Ω_i)通过离散球傅里叶变换由时频域变换到球谐波域：

其中，p_nm(t,k,r)为球傅里叶变换系数；α_i为采样权值，与麦克风在球面上的分布方式有关，对于本实施例中的均匀分布，采样权值α_i＝4π/I，I为阵元个数，在本例中I＝32。

对于由Ω_l方向辐射出的单位平面波，其球傅里叶变换系数为：

则由(6)式和(8)式，(7)式又可表示为：

其中

为噪声的球傅里叶变换系数。

对(9)式两端除以b_n(kr)，即进行模式强度补偿可得采集的声场信息的球谐波域特征波束

如(1)式所示。

将每阶的球谐波域特征波束

代入(2)式中计算各阶特征波束功率

无噪声情况下各阶特征波束功率是一致的；在有噪声情况下，由于各阶模式强度b_n(kr)的不同，使得各阶特征波束功率产生差异。尤其在低频部分，高阶模式强度b_n(kr)的幅值远远小于低阶的幅值，使得高阶特征波束功率要大于低阶特征波束功率，且噪声较大差异越大。

将各阶特征波束功率

代入(3)式中计算各阶间特征波束功率相似性检测因子R_nn′(t,k)，由R_nn′(t,k)反映噪声对各阶特征波束功率的影响程度，R_nn′(t,k)越小则说明噪声的影响越大。为将受噪声影响较小的高阶特征波束筛选出来，将R_nn′(t,k)代入(4)式中计算平均阶间特征波束功率相似性检测因子

由

衡量噪声对阶数小于等于Q阶特征波束的影响程度。从最大N阶开始计算平均阶间特征波束功率相似性检测因子

并与设定门限参数η_th相比，若大于等于门限η_th则停止，否则计算次一阶平均阶间特征波束功率相似性检测因子并与门限η_th相比，直到找到最大的满足

条件的阶数Q，作为该时频点的最大可靠特征波束阶数。若该时频点的噪声较小，则可靠阶数Q值较大，若噪声较大，则可靠阶数Q值较小，因此Q值的大小反映了该时频点噪声的大小。将可靠阶数Q与设定阶数门限参数值N_th进行比较，将满足可靠阶数Q≥N_th条件的时频点筛选出来作为受噪声影响较小的可靠时频点，对所有时频点进行如上操作得到可靠时频点集和对应的最大可靠特征波束阶数：

在球谐波声源定向算法中，N_th一般取2。然后用可靠时频点集和对应的最大可靠特征波束进行声源定向。

下面结合一些具体实施例以及对比例对本发明做进一步说明。

实施例

本发明方法对可靠特征波束和可靠时频点的选取效果。

对可靠阶特征波束和可靠时频点的选取是本发明的关键技术。为此，举例说明对可靠阶特征波束和时频点的选取效果。考虑混响时间为400ms，信噪比为10dB时，三个声源的真实方位角分别为(θ₁＝80°,φ₁＝150°)、(θ₂＝80°,φ₂＝180°)和(θ₃＝80°,φ₃＝210°)，两个门限值设为η_th＝0.75，N_th＝2。图2a为纯净语音信号语谱图，图2b为混响环境下加噪声的语音信号语谱图，图2c为筛选出的二阶可靠特征波束的时频点的分布情况，也是可靠时频点的分布情况，占总时频点的比例为50.43％，图2d为筛选出的三阶可靠特征波束的时频点分布情况，占总时频点的比例为23.64％。从图2c和图2d中可以看出，在低频段筛选出的可靠二阶和三阶特征波束的时频点较少，随着频率的增大筛选出的包含二阶和三阶特征波束的时频点越来越多，这一现象与高阶特征波束受噪声影响随着频率的增大越来越弱的事实相吻合；另外，从图2a-图2d中可以看出，在低频段筛选出的时频点对应纯净语音信号语谱图中能量较大的时频点，其受噪声的相对影响较小，因此被保留下来，而语音信号能量较小的时频点则受噪声影响较大，因此被舍掉。通过以上仿真分析表明，所提算法能够可靠的将受噪声影响较小的高阶特征波束提取出来，从而提高声源方位估计的性能。

对比例1

为进行算法对比，将本发明方法与区域扫描可控波束形成声源定向算法(SC-SRP)和区域扫描扩展伪声强声源定向算法(AIV-GS)结合形成自适应分阶区域扫描可控波束形成声源定向算法(OA-SC-SRP)和自适应分阶区域扫描扩展伪声强声源定向算法(OA-AIV-GS)，与区域扫描可控波束形成声源定向算法(SC-SRP)和区域扫描扩展伪声强声源定向算法(AIV-GS)进行如下定位性能对比。

不同信噪比、混响条件下伪声强方法(PIV法)、SC-SRP法、AIV-GS法与OA-SC-SRP和OA-AIV-GS在仿真多声源环境中的性能比较。

令阵列为由32个全指向性麦克风按均匀分布构成的刚性球面阵，阵列半径为r＝4cm，阵列球谐波分解的最大阶数为N＝3。阵列放置在尺寸为6×5×3m³的矩形房间的中心位置，阵列中心到声源距离为1m，采样频率为16kHz，短时傅里叶变换的帧长为256，帧间重叠为50％，为减小低频段噪声放大和高频段空间混叠对PIV、SC-SRP和AIV-GS算法的影响，将处理语音信号的频率范围设置为500-3850Hz，为保持在相同的条件下进行对比，本发明方法采用相同的信号频率处理范围。语音信号长度为1s，共10组不同的语音信号。三个声源间距为30°，放置在48组不同位置，每个位置进行5次测试，共进行2400次蒙特卡洛实验。两个门限值设为η_th＝0.75，N_th＝2。采用均方根误差和平均声源检测个数作为评价指标。若算法估计的声源方位误差小于15°则认为检测出了声源，将所有蒙特卡洛实验中检测出的声源个数的均值作为平均声源检测个数。均方根误差用检测出声源的估计方位计算。

图3为混响时间为400ms，不同信噪比条件下五种算法的均方根误差和平均声源检测个数。对于均方根误差，如图3a所示，其中只采用零阶和一阶特征波束进行定位的伪声强算法(PIV)的均方根误差最大，而采用高阶特征波束的SC-SRP和AIV-GS算法的均方根误差则远远低于伪声强算法，说明采用高阶特征波束可以改善定位性能，而与本发明方法相结合的OA-SC-SRP和OA-AIV-GS算法的均方根误差优于SC-SRP和AIV-GS算法，并且随着信噪比的降低优势越发明显，当信噪比为15dB时约有0.21°的改善，而当信噪比降低到0dB时约有1.1°的改善。对于平均声源检测个数，如图3b所示，与本发明方法相结合的OA-SC-SRP算法和OA-AIV-GS算法在低信噪比时平均声源检测个数优于SC-SRP和AIV-GS算法，尤其当信噪比低于15dB时优势比较明显，而PIV算法的平均声源检测个数性能最低。另外本发明方法只使用筛选出的时频点进行定位，因此计算量上低于采用全部时频点进行定位的SC-SRP和AIV-GS法，本发明方法在各种信噪比情况下筛选出的可靠二阶和三阶特征波束的时频点百分比如图4所示，从图中可以看出筛选出时频点百分比随信噪比减小而减小。

图5a和图5b为信噪比为5dB时，不同混响时间条件下的五种算法的均方根误差和平均声源检测个数。从图中可以看出，五种算法的均方根误差和平均声源检测个数性能均随着混响时间的增大而减弱，但是与本发明方法相结合的OA-SC-SRP和OA-AIV-GS算法的均方根误差和平均声源检测个数相对于SC-SRP和AIV-GS算法的优势随混响时间的增大变化较小，均方根误差均保持0.75°-0.9°的改善，平均声源检测个数均保持0.2左右的改善。五种算法中只使用零阶和一阶特征波束的伪声强算法性能最差。

从仿真结果可以看出，采用高阶特征进行定位的算法拥有更高的声源定向性能，而利用本发明方法筛选的可靠高阶特征波束进行定位的算法相比原算法对噪声和混响具有更高的鲁棒性，且计算量更低。

对比例2

实际环境下PIV、SC-SRP、AIV-GS与本发明方法相结合的OA-SC-SRP和OA-AIV-GS算法的性能比较。

阵列采用mh acoustics公司的em32Eigenmike刚性球面阵列，共32个全指向性麦克风，半径为4.2cm，阵列放置在房间参数为9.6×7×3m³的会议室进行实测。阵列置于房间中心附近，距地面1.5m，声源到阵列中心的距离为1.5m。三个声源分别放置在(θ₁＝100°,φ₁＝220°)、(θ₂＝110°,φ₂＝100°)和(θ₃＝80°,φ₃＝160°)，其它参数与仿真相同。共设置了两种场景，一种是三个声源的强度相差不大，另一种是将第三个声源的强度设置为远小于其它两个声源，即第三个声源的信噪比较低。

图6为第一种场景五种算法的归一化直方图结果，三个声源的真实声源方位由图中黑点标出，各算法估计的声源方位由图中黑色十字标出。从图中可以看出由于信噪比较高五种算法都成功的检测出三个声源，其中只使用低阶特征波束的PIV算法的定位精度和空间分辨率最差，而采用高阶特征波束的其它四种方法的定位精度和空间分辨率则明显优于PIV方法。但是AIV-GS和SC-SRP方法对应的直方图中存在明显的虚假峰，如AIV-GS直方图中存在两个明显的虚假峰(θ,φ)＝(153°，119°)和(θ,φ)＝(153°，183°)，SC-SRP方法直方图中也存在两个明显的虚假峰(θ,φ)＝(153°，126°)和(θ,φ)＝(151°，183°)。而与本发明方法相结合的OA-AIV-GS和OA-SC-SRP方法则抑制了虚假峰，并且拥有更高的空间分辨率。五种方法第一种场景下的实测定位误差如表1所示。

表1第一种场景下五种声源定向算法的实测定位误差(°)

从表1中可以看出，与本发明方法相结合的OA-AIV-GS和OA-SC-SRP算法具有更高的定位精度，由于信噪比较高，与AIV-GS和SC-SRP方法相比优势较小，PIV算法的定位精度最差。

图7为第二种场景五种算法的归一化直方图结果，其中位于(θ₃＝80°,φ₃＝160°)的声源强度明显弱于其它两个声源，即该声源的信噪比较低。从图中可以看出，PIV方法不能定位出较弱的声源，而其它两个强度较强的声源则可以成功的检测出。AIV-GS和SC-SRP方法虽然相对PIV方法有较高的空间分辨率，但是仍然不能检测出较弱声源的方位，其中AIV-GS直方图中存在两个虚假峰(θ,φ)＝(138°，119°)和(θ,φ)＝(161°，140°)，这两个虚假峰的峰值均高于较弱声源对应的峰值，因此出现了错误的定位；而SC-SRP方法直方图中位于(θ,φ)＝(160°，174°)的虚假峰高于较弱声源对应的峰值，因此也出现了错误的定位。作为对比，与本发明方法相结合的OA-AIV-GS和OA-SC-SRP方法则成功的抑制了虚假峰，使其低于较弱声源对应的峰值，因此能够成功的定位出声源的方位。五种方法第二种场景下的实测定位误差表2所示，×表示没有定位出该声源(误差超过15°)。

表2第二种场景下五种声源定向算法的实测定位误差(°)

从表2中可以看出与本发明方法结合的OA-AIV-GS和OA-SC-SRP算法均成功定位出第三声源，而其它三种方法则没有。

由实测结果可以看出，与本发明方法相结合的算法在定位精度、声源检测个数和空间分辨率上都优于原声源定向算法，且具有一定的鲁棒性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。