CN107219512A

CN107219512A - 一种基于声传递函数的声源定位方法

Info

Publication number: CN107219512A
Application number: CN201710198420.9A
Authority: CN
Inventors: 曲天书; 吴玺宏; 宋涛
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2017-09-29
Anticipated expiration: 2037-03-29
Also published as: CN107219512B

Abstract

本发明公开了一种基于声传递函数的声源定位方法。本方法为：1)为每一声源设置一波段；采用麦克风阵列接收各方位的声源的记录信号；2)对于每个方位的声源，根据该声源到麦克风阵列中各麦克风的传递函数估计所述记录信号中各频点的信噪比，然后将信噪比二值化，生成对应声源的频域二值掩模；3)对于每个方位的声源，根据该声源的频域二值掩模滤除所述记录信号中信噪比小于设定阈值H的频点，然后使用该声源到麦克风阵列中各麦克风的传递函数对记录信号做频域逆滤波；4)计算逆滤波结果的通道间相似性，然后根据通道间相似性的计算结果估计声源位置定位目标声源。本发明提高了定位方法的鲁棒性。

Description

一种基于声传递函数的声源定位方法

技术领域

本发明属于信号处理技术领域，涉及麦克风阵列和声源定位，具体涉及一种基于声传递函数的声源定位方法。

背景技术

声源定位在许多领域有重要的应用，比如自动语音识别、机器人以及计算听觉场景分析等。对人而言，即使在复杂环境中，听者依然能顺利定位目标声源，其主要利用的定位线索有双耳时间差(Interaural Time Difference，ITD)和双耳强度差(InterauralLevel Difference，ILD)。研究人员将上述定位线索应用于麦克风阵列的声源的定位问题中，提出了许多声源定位方法。

一些定位方法仅利用时间定位线索。这类方法首先估计由声源发出的信号到达各麦克风的时间差，即到达时间差(Time Difference Of Arrival，TDOA)，之后将TDOA信息映射到空间位置。TDOA可通过GCC(generalized cross-correlation)、GCC-PHAT(generalized cross-correlation phased transform)、SRP(steered response power)以及SRP-PHAT-(steered response power phased transform)等方法计算得到。TDOA与空间位置的映射关系则由麦克风阵列的位置、形状等因素决定。也有一些研究人员使用时间线索以及强度线索共同定位声源，Raspaud等人建立了通道间时间差和强度差与声源位置之间的参数模型，根据估计得到的时间差和强度差确定目标声源的位置。

传递函数刻画了包含了时间差、强度差等定位线索，因此一些研究人员试图利用传递函数实现声源定位。Keyrouz等人提出了一种基于双麦克风的声源定位方法，其基本思想为当且仅当使用与声源方位对应的传递函数对记录信号做逆滤波时两个通道的逆滤波结果相同，即匹配滤波。该方法首先使用状态空间求逆法(state-space inversionmethod)计算所有可能声源位置的传递函数的逆，逐个使用传递函数的逆对记录信号做滤波操作，计算逆滤波结果的通道间相似性，最终将声源定位至使相关系数最大的传递函数对应的空间位置。由于传递函数的逆的计算量过大且可能存在误差，MacDonal将反卷积过程变换为卷积过程，提出新的基于传递函数的声源定位算法。当只有两个麦克风时，对于每一个候选的声源位置，该方法将每个麦克风的记录信号与另一个麦克风的传递函数卷积，之后计算卷积结果间的相关性，使相关性达到最大的传递函数对应的空间位置即为定位输出结果。当麦克风个数较多时，该方法还需要将麦克风成对分组。

声源定位任务的一个主要挑战是如何在噪声干扰下定位目标声源，即如何提高定位方法的鲁棒性。麦克风阵列接收到的声音信号通常可看作由经传递函数滤波的声源信号与噪声干扰共同组成，即麦克风阵列接收信号的信噪比由声源、噪声以及传递函数共同决定，且传递函数仅与声源位置有关，因此可将传递函数作为信噪比的先验知识引入到声源定位任务中，而现有的基于传递函数的声源定位方法并未考虑到这一点。

发明内容

本发明提出了一种基于声传递函数的声源定位方法，在已知所有可能声源位置到麦克风的传递函数时，该方法可以根据声传递函数获取相应麦克风记录信号信噪比的先验信息并将该先验信息用于声源定位。

本发明所提的基于传递函数的声源定位方法的基本思想是，使用声传递函数对麦克风记录信号做逆滤波，根据逆滤波结果的通道间相似性即可定位目标声源。当考虑噪声干扰时，记录信号不同频率处的信噪比由声源和噪声的频谱分布以及传递函数共同决定。若声源和噪声固定，记录信号的信噪比则正比于传递函数的幅度。由于，传递函数可能存在极小值点，即在某些频率处的幅度远小于其平均值，可以推测记录信号在这些频率点上的信噪比较差。因此，在已知所有可能声源位置的传递函数的基础上，可根据传递函数的频谱模式估计记录信号中信噪比很低的频点并将该频点在定位之前滤除，提高声源定位方法的鲁棒性。本发明的主要创新之处在于其能根据传递函数的频谱模式估计记录信号中信噪比较差的频段并将其滤除，从而提高了定位的鲁棒性。

本发明提出的基于传递函数的声源定位方法的基本框架如图1所示，其中主要包括以下几个部分：

计算频域二值掩模对于每个声源方位，根据声源到所有麦克风的传递函数估计记录信号中信噪比较低的频点，并使用0-1二值向量对每个频点进行表示，得到每个声源的频域二值掩模，其中，‘1’表示该频点的信噪比较高；‘0’表示该频点的信噪比较差；

逆滤波依次使用各个待选声源位置的传递函数对记录信号做逆滤波，逆滤波过程中需要根据与声源位置对应传递函数的频域二值掩模滤除信噪比较差的频点，逆滤波在频域进行；

通道间相似性计算使用皮尔逊相关系数计算逆滤波结果的通道间相似性；

决策器根据通道间相似性的计算结果估计声源位置，其基本思路是将声源定位至使通道间相似性最大的传递函数所对应的空间位置。

与现有技术相比，本发明的积极效果为：

根据传递函数提取记录信号信噪比的先验信息并将该先验信息用于声源定位，提高了定位方法的鲁棒性。

附图说明

图1是基于传递函数的声源定位方法的基本框图；

图2是实验所用球模型以及麦克风分布示意图；

图3是声源为白噪声时本文所提方法与基线在不同声源方位下的定位指向图；其中，实线为本发明方法，虚线为SRP-PHAT方法；

(a)声源水平角为60°，(b)声源水平角为180°，(c)声源水平角为300°；

图4是声源为语音时本文所提方法与基线在不同声源方位下的定位指向图；其中，实线为本发明方法，虚线为SRP-PHAT方法；

图5是声源为音乐时本文所提方法与基线在不同声源方位下的定位指向图；其中，实线为本发明方法，虚线为SRP-PHAT方法；

图6是本发明所提方法与基线在不同信噪比下的平均定位偏差；

(a)声源为白噪声，(b)声源为语音，(c)声源为音乐。

具体实施方式

下面参照本发明的附图，更详细地描述本发明的具体实施方法。

1.频域二值掩模计算

假设声源位于P_s处，麦克风阵列由M个麦克风组成，麦克风m(1≤m≤M)的空间位置为P_m，P_s到P_m的传递函数已知并表示为麦克风m记录的信号R_m可表示为：

其中，N_m表示麦克风m的记录信号中包含的噪声，k表示频率。记录信号R_m的信噪比可表示为

由公式(2)可知，记录信号的信噪比由声源、噪声以及传递函数共同决定。若不考虑声源与噪声信号的频谱分布，记录信号的信噪比则正比于传递函数的幅度。由于散射体的特性，传递函数可能在某些频率处出现零点或较小值，导致记录信号在对应频率处的信噪比较低。对于每个声源位置，可根据传递函数的幅频曲线估计记录信号在各频率处的信噪比情况，并使用0-1二值向量标识出信噪比较低的频点，即频域二值掩模(spectralbinary masker，BSM)。

声源位置P_s对应的频域二值掩模的具体计算步骤如下：

a)对每个麦克风的传递函数做最大值归一化，得到归一化传递函数

b)搜索M个归一化传递函数在每个频点处的幅度最小值并组成向量V

c)使用设定阈值T将向量V二值化，即可得到

2.逆滤波

逆滤波实现了系统输出到输入的映射，其关键是找出系统的冲激响应h的逆h^-1，使得

h*h^-1＝δ(n) (7)

其中，δ(n)为单位冲激响应。h^-1的求解可在时域或频域进行。在时域上，h^-1可通过求解差分方程得到，而该方法会得到结果存在不稳定等问题。一些数值优化的方法也可用于求解h^-1，如最小均方差(LMS)以及最小方差(LS)等。频域上，h^-1可由下式计算得到

其中，DFT和IDFT分别表示离散傅里叶变换及其反变化。相比时域的计算方法，频域计算的复杂度更低，因此本发明采用该方法计算传递函数的逆，因此逆滤波过程可表示为：

为了滤除s_m中信噪比较差的频率，将频域二值掩模应用于上述逆滤波过程，即麦克风m记录信号的逆滤波结果可表示为：

由于传递函数幅度较小甚至出现零点的频率的BSM为0，在逆滤波过程引入BSM除可以滤除信噪比较差的频率外，还解决了(9)中由于分母的幅度过低而使逆滤波结果不稳定的问题。

3.一致性检测

使用传递函数对记录信号做逆滤波之后，本发明使用皮尔逊相关系数计算逆滤波结果的通道间一致性，即相似程度。

由于相关系数仅适用于通道数为2的情况，对于多通道信号，本发明使用所有通道组合的相关系数的和作为其相似性度量准则，即：

4.决策器

使用不同方位对应的传递函数对记录信号作逆滤波并计算逆滤波结果的通道间一致性后，声源即可被定位到使一致性最大的传递函数对应的声源方位，即

定位方法的定位性能评价

本发明使用传递函数生成仿真信号，分别在安静和噪声条件下测试所提定位方法在仿真信号上的定位性能。定位性能的评价指标包括指向性以及抗噪性能。实验使用PHAT-SPR作为基线。声源信号分别选用白噪声、语音以及音乐。噪声情况下的信噪比变化范围为-40dB至40dB。

1.传递函数

实验使用刚性球作为散射体，其表面水平均匀分布有6个麦克风，如图2所示。球半径为8.75cm。声源与麦克风位于同一水平面内，与球中心的距离恒定为16m。麦克风的水平角θ在5°到360°内变化，变化步长为5°。传递函数由Duda等人给出的球模型计算得到。

2.信号仿真

实验使用声源卷积传递函数生成仿真信号，声源信号共有三种：白噪声、英语女声以及带伴奏音乐。语音中的静音会干扰实验，因此在实验前手动切成其中的静音段，其他两个声源保持不变。实验向仿真信号各通道中加入同等强度的白噪声，各通道间白噪声相互独立，信噪比等于仿真信号强度最大的通道的信噪比。信号的采样率为48kHz，帧长为0.43ms。每种条件(声源位置、声源类型)下，统计本发明所提方法与PHAT-SPR在十帧信号上的定位结果。

3.实验结果

噪声情况下，本发明所提方法与基线均能准确定位声源。图3-图5给出了声源水平角度分别为60°,180°,300°时两种定位方法的指向图。如图3所示，当声源为白噪声时，两种方法的定位结果均具有较好的指向性；当声源变为窄带信号，如语音(图4)和音乐(图5)，PHAT-SPR指向图的主瓣宽度明显增大，而本发明所提方法的指向性基本保持不变。

同时，实验统计了不同信噪比下两种方法的平均定位偏差。如图6(a)所示，声源为白噪声时，本发明所提方法稍好于基线。信噪比在-14dB附近，两种方法的定位偏差迅速降低至0°。声源为语音或音乐时，本发明所提方法的性能并未达到预期，其主要原因是语音和音乐的能量主要集中在低频部分，逆滤波结果的高频部分的信噪比较差。对于语音和音乐信号，将声源信号能量分布的先验知识应用于频域二值掩模，舍弃1kHz以上的频点。实验结果如图6(b)、(c)所示，当信噪比较低时，本发明所提方法的定位偏差明显小于基线，具有更好的鲁棒性。

Claims

1.一种基于声传递函数的声源定位方法，其步骤为：

1)为每一声源设置一波段；采用麦克风阵列接收各方位的声源的记录信号；

2)对于每个方位的声源，根据该声源到麦克风阵列中各麦克风的传递函数估计所述记录信号中各频点的信噪比，然后将信噪比二值化，生成对应声源的频域二值掩模；

3)对于每个方位的声源，根据该声源的频域二值掩模滤除所述记录信号中信噪比小于设定阈值H的频点，然后使用该声源到麦克风阵列中各麦克风的传递函数对记录信号做频域逆滤波；

4)计算逆滤波结果的通道间相似性，然后根据通道间相似性的计算结果估计声源位置定位目标声源。

2.如权利要求1所述的方法，其特征在于，生成所述频域二值掩模的方法为：对于一声源P_s，将该声源P_s到各麦克风的传递函数做最大值归一化，得到M个归一化传递函数，M为麦克风阵列中麦克风总数；然后搜索M个归一化传递函数在每个频点处的幅度最小值并组成向量V；使用设定阈值T将向量V二值化，得到声源P_s的频域二值掩模

3.如权利要求1或2所述的方法，其特征在于，所述二值化的方法为：如果频点的信噪比高于设定阈值T，则用二值代码1表示该频点，否则用二值代码0表示该频点。

4.如权利要求1所述的方法，其特征在于，所述步骤2)中，根据传递函数的幅频曲线估计所述记录信号在各频率处的信噪比。

5.如权利要求1所述的方法，其特征在于，所述步骤4)中，将一致性最大的传递函数对应位置的声源为目标声源。

6.如权利要求1所述的方法，其特征在于，使用皮尔逊相关系数计算逆滤波结果的通道间相似性。