CN113655441B

CN113655441B - 一种低复杂度折中预白化的鲁棒声源定位方法

Info

Publication number: CN113655441B
Application number: CN202110927525.XA
Authority: CN
Inventors: 何宏森; 陈景东; 喻翌; 周颖玥
Original assignee: Northwestern Polytechnical University; Southwest University of Science and Technology
Current assignee: Northwestern Polytechnical University; Southwest University of Science and Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-05-30
Anticipated expiration: 2041-08-11
Also published as: CN113655441A

Abstract

本发明公开了一种低复杂度折中预白化的鲁棒声源定位方法，利用克罗内克积将线性预测器系数向量降维分解，构建基于克罗内克积的最优化子模型；对最优化子模型迭代求解，获得两个子预测器系数向量，进而得到预测器系数向量a，由此可得麦克风信号的预测误差信号c(n)；最后根据SRP算法，对预测误差信号时移，通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位，峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解，由此降低声源定位算法的计算复杂度。

Description

一种低复杂度折中预白化的鲁棒声源定位方法

技术领域

本发明属于声源定位技术领域，更为具体地讲，涉及一种低复杂度折中预白化的鲁棒声源定位方法。

背景技术

声源定位在应用声学中扮演着重要角色，广泛应用于定向拾音、免提话音通信、人机交互、声呐跟踪以及工业探测等领域。在基于麦克风阵列的声源定位技术中，转向响应功率(SRP)技术是一种重要的声源定位方法，它对噪声具有明显的鲁棒性，然而对混响敏感。其相位变换预滤波改进算法(SRP-PHAT)获得了对房间混响的鲁棒性，然而该方法在噪声环境性能严重下降。

最近，基于线性预测的预白化方法被提出并用于白化麦克风信号，与转向响应功率方法相结合形成了一种折中预白化的转向响应功率算法。在噪声和混响环境，该算法的定位性能在转向响应功率和其预滤波算法间获得了良好的折中。然而，该算法计算复杂度高，不利于定位系统的实时处理。

发明内容

本发明的目的在于克服现有技术的不足，提供一种低复杂度折中预白化的鲁棒声源定位方法，利用克罗内克积将线性预测器系数向量降维分解，降低声源定位算法的计算复杂度，同时保持了原有算法的定位精度。

为实现上述发明目的，本发明低复杂度折中预白化的鲁棒声源定位方法，其特征在于，包括以下步骤：

(1)、信号采集与分帧

对声信号进行采集，得到采样值x(n)，并构建n时刻的输入信号向量x(n)：

x(n)＝[x(n) x(n+1) … x(n+K+L-1)]^T；

以及输入信号矩阵X(n)：

其中，K是预测器阶数，L是信号帧长，(·)^T表示向量或矩阵的转置；

(2)、设置两个正则化参数和一个惩罚参数

λ₁和λ₂是两个正则化参数，分别设置为λ₁＝δ₁||X^T(n)x(n)||_∞，λ₂＝δ₂||X^T(n)x(n)||_∞，||·||_∞表示向量的无穷范数，δ₁和δ₂是两个常数因子；

设置惩罚参数β；

(3)、初始化辅助向量、布雷格曼向量以及子预测器系数向量

初始化辅助向量

/>

初始化布雷格曼向量

初始化子预测器系数向量

其中，p＝1,2,…,P，P为子预测器系数向量的个数，0<∈<1；

令迭代次数t＝0；

(4)、计算麦克风信号矩阵

其中，

是维度为K₁×K₁的单位矩阵，/>

P<K₁，/>

表示克罗内克积；

(5)、计算子预测器系数向量

其中，(·)^H为共轭转置，上标-1表示求逆，

是维度为K₁P×K₁P的单位矩阵，F为傅里叶矩阵，F^-1是傅里叶矩阵F的逆；

子预测器系数向量

表示为：

(6)、计算辅助向量

其中，sgn{*}是复数向量的符号函数，其值等于向量的每个元素除以该元素的模值，⊙表示两个向量的点积，|*|表示对向量的每个元素求模值，max{*,*}表示取两个值中的最大值，*表示运算处理的变量；

(7)、更新布雷格曼向量

(8)、计算麦克风信号矩阵

其中，

是维度为K₂×K₂的单位矩阵,/>

(9)、计算子预测器系数向量

/>

其中，

是维度为K₂P×K₂P的单位矩阵；

子预测器系数向量

表示为：

(10)、计算辅助向量

(11)、更新布雷格曼向量

(12)、判断迭代次数t是否达到设定的次数，如果达到，转入步骤(13)，如果没有达到，则t＝t+1，返回步骤(4)；

(13)、计算预测器系数向量a

(14)、计算预测误差向量e

e(n)＝x(n)-X(n)a；

其中，预测误差向量e表示为：

e(n)＝[e(n) e(n+1) … e(n+K+L-1)]^T；

(15)、根据SRP算法搜索声源方位

按照步骤(1)-(14)的方法，分别获得M只麦克风的预测误差信号e(n),根据SRP算法，对预测误差信号时移，通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位，峰值位置则为估计的声源方位。

本发明的发明目的是这样实现的：

本发明低复杂度折中预白化的鲁棒声源定位方法，利用克罗内克积将线性预测器系数向量降维分解，构建基于克罗内克积的最优化子模型；对最优化子模型迭代求解，获得两个子预测器系数向量，进而得到预测器系数向量a，由此可得麦克风信号的预测误差信号e(n)；最后根据SRP算法，对预测误差信号时移，通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位，峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解，由此降低声源定位算法的计算复杂度。

附图说明

图1是本发明低复杂度折中预白化的鲁棒声源定位方法的一种具体实施方式流程图；

图2是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随预测器阶数K变化的对比曲线图；

图3是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随帧长L变化的对比曲线图；

图4是在混响时间T₆₀＝500ms的声环境下，五种声源定位方法的根均方误差RMSE随信噪比SNR变化的对比曲线图；

图5是在SNR＝10dB条件下，五种声源定位方法的根均方误差RMSE随混响时间T₆₀变化的对比曲线图；

图6是在SNR＝10dB，T₆₀＝500ms条件下，五种声源定位方法的根均方误差RMSE随信号帧长L变化的对比曲线图；

图7是在SNR＝10dB，T₆₀＝500ms条件下，三种基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的对比曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

本发明基于克罗内克积开发了一种低复杂度折中预白化的鲁棒声源定位方法，利用克罗内克积将线性预测器系数向量降维分解，降低声源定位算法的计算复杂度，同时保持了原有算法的定位精度，下面对本发明进行详细说明。

1、低复杂度折中预白化的鲁棒声源定位方法

1.1、最优化模型

假设在远场有一个宽带声源辐射平面声波，利用具有M只麦克风的声阵列拾取声信号。为了降低混响对声源定位的不利影响，利用线性预测器对麦克风信号预滤波。为此，利用第m(m＝1,2,…,M)只麦克风近期采集的样本，预测其当前样本

式中a_k,k＝1,2,…,K是线性预测器系数，K是预测器阶数，为了简化已忽略了下标m。由此，预测误差信号可表示为：

使用向量/矩阵形式，(2)式可表示如下：

e(n)＝x(n)-X(n)a (3)

式中：

e(n)＝[e(n) e(n+1) … e(n+K+L-1)]^T (4)

x(n)＝[x(n) x(n+1) … x(n+K+L-1)]^T (5)

/>

a＝[a₁ a₂ … a_K]^T (7)

L是信号帧长，(·)^T表示向量或矩阵的转置。

误差信号向量e(n)可用于定义一种代价函数，通过对其最小化可获得预测器系数向量的最优估计量。近期的文献已提出一种优化模型对麦克风信号进行预白化处理(Hongsen He,Xueyuan Wang,Yingyue Zhou,and Tao Yang,“A steered response powerapproach with trade-off prewhitening for acoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018)，其最优化模型如下：

式中||·||₂和||·||₁分别表示向量的2范数和1范数，λ₁和λ₂是两个正则化参数，分别设置为λ₁＝δ₁||X^T(n)x(n)||_∞，λ₂＝δ₂||X^T(n)x(n)||_∞，||·||_∞表示向量的无穷范数，δ₁和δ₂是两个常数因子，F是傅里叶矩阵，花括号中第一个加项是最小二乘函数，第二个加项是关于语音谱的稀疏约束，引入第三个加项是为了确保X(n)的相关矩阵可逆。本发明利用克罗内克积将线性预测器系数向量降维分解对优化模型求解，以降低声源定位算法的计算复杂度。

1.2、基于克罗内克积的最优化子模型

由于语音源信号相邻样本间的相关性以及房间声通道脉冲响应的低秩性，麦克风语音的线性预测器系数向量通常具有稀疏特性。这种线性预测器可以用低秩模型进行近似，该低秩模型与一组短预测器间的克罗内克积相关。另一方面，从计算量考虑，可以将线性预测器系数向量降维分解，降低声源定位算法的计算复杂度。因此，本发明利用克罗内克积将线性预测器系数向量分解成：

式中a_1,p(p＝1,2,…,p)和a_2,p(p＝1,2,…,P)是两类长度分别为K₁和K₂的P个子预测器系数向量，

表示克罗内克积。假设K＝K₁K₂，P<min{K₁,K₂}，并设置/>

使用如下关系：

式中

和/>

分别是维度为K₁×K₁和K₂×K₂的单位矩阵，于是(8)中的X(n)a可表示成如下两个等价的形式：

/>

式中：

X₂(n)＝[X_2,1(n) X_2,2(n) … X_2,P(n)] (13)

或者：

式中：

X₁(n)＝[X_1,1(n) X_1,2(n) … X_1,P(n)] (17)

因此，可将模型(8)改写成如下两个等价的最优化子模型：

1.3、最优化子模型的解

借助辅助向量u₁和u₂，(19)和(20)可等价地表示成：

为了方便求解，将上述两式分别转换成如下的非约束形式：

式中β是一个惩罚参数。利用分裂布雷格曼算法对(23)和(24)求解，即对(23)关于a₁,u₁进行交替最小化，对(24)关于a₂,u₂进行交替最小化，则可获得一组无约束最优化问题如下：

式中t是迭代次数，

η₁和η₂是布雷格曼向量。

进一步，可获得本发明所提算法的解：

其中(·)^H为共轭转置，F^-1是傅里叶矩阵F的逆，sgn{*}是复数向量的符号函数，其值等于向量的每个元素除以该元素的模值，⊙表示两个向量的点积，|*|表示对向量的每个元素求模值，max{*,*}表示取两个值中的最大值，*表示运算处理的变量。

2、声源定位流程

具体而言，本发明低复杂度折中预白化的鲁棒声源定位方法，如图1所示，包括以下步骤：

步骤S1：信号采集与分帧

x(n)＝[x(n) x(n+1) … x(n+K+L-1)]^T；

以及输入信号矩阵X(n)：

步骤S2：设置两个正则化参数和一个惩罚参数

设置惩罚参数β；

步骤S3：初始化辅助向量、布雷格曼向量以及子预测器系数向量

初始化辅助向量

初始化布雷格曼向量

初始化子预测器系数向量

其中，p＝1,2,…,P，P为子预测器系数向量的个数，0<∈<1；

令迭代次数t＝0；

步骤S4：计算麦克风信号矩阵

其中，

是维度为K₁×K₁的单位矩阵，/>

P<K₁，/>

表示克罗内克积；

步骤S5：计算子预测器系数向量

其中，(·)^H为共轭转置，上标-1表示求逆，

是维度为K₁P×K₁P的单位矩阵，F为傅里叶矩阵，F^-1是傅里叶矩阵F的逆；/>

子预测器系数向量

表示为：

步骤S6：计算辅助向量

步骤S7：更新布雷格曼向量

步骤S8：计算麦克风信号矩阵

其中，

是维度为K₂×K₂的单位矩阵,/>

步骤S9：计算子预测器系数向量

其中，

是维度为K₂P×K₂P的单位矩阵；

子预测器系数向量

表示为：

步骤S10：计算辅助向量

步骤S11：更新布雷格曼向量

步骤S12：判断迭代次数t是否达到设定的次数，如果达到，转入步骤S13，如果没有达到，则t＝t+1，则返回步骤S4；

步骤S13：、计算预测器系数向量a

步骤S14：计算预测误差向量e

e(n)＝x(n)-X(n)a；

其中，预测误差向量e表示为：

e(n)＝[e(n) e(n+1) … e(n+K+L-1)]^T；

步骤S15：根据SRP算法搜索声源方位

按照步骤S1-步骤S14的方法，分别获得M只麦克风的预测误差信号e(n),根据SRP算法，对预测误差信号时移，通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位，峰值位置则为估计的声源方位。

3、计算复杂度

在声源定位过程中，需要根据算法在空间域搜索声源的位置。在不同声源定位算法的运算量比较中，在本实施例中仅考虑一次搜索的计算复杂度。

由于加减法运算在大多数硬件平台速度非常快，因此在计算复杂度分析中，加减法的运算量被忽略，只考虑实数乘法和实数除法对定位算法计算量的贡献。在分析中，复数乘法的运算量用实数乘法的运算量计算，一个实数和一个复数的乘法需要2次实数乘法的运算量，一个复数除以一个实数的运算需要2次实数乘法的运算量。

本发明中的傅里叶矩阵及其逆阵对应的运算操作，即傅里叶变换及傅里叶逆变换，采用快速傅里叶变换(FFT)和快速傅里叶逆变换(IFFT)予以实现。假设一实数序列的长度为Q，则其一次FFT运算需要(Q/2)log₂(Q)-5Q/4次乘法操作，长度为Q的一复数序列一次IFFT运算需要2Qlog₂(Q)-7Q+12次乘法操作。对于大小为Q×Q的方阵，利用LU分解计算其逆阵所需的乘法次数为Q³-Q。因此，根据公式(31)至公式(40)，本发明的乘法运算量为：

4、实验验证

为了测试本发明低复杂度折中预白化的鲁棒声源定位方法，即基于稀疏语音谱约束和克罗内克积的线性预测算法(本发明记为：SSSC-NKP-LP)的性能，本实验在噪声和混响声环境对本发明的性能进行验证。

在本实验验证中，对于所提的声源定位方法，参数δ₁＝0.001，δ₂＝0.001，β＝1.0，无特殊说明时预测器阶数K＝144、子预测器阶数K₁＝K₂＝12，P＝1，u₁、u₂、η₁、η₂都初始化成零向量，所有a_2,p(p＝1,2,…,P)向量的第一个元素初始化成0.0001，其它元素都为零，迭代计算的次数为50。作为对比的声源定位算法包括SRP，SRP-PHAT，基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)(Hongsen He,Tao Yang,and Jingdong Chen,“On timedelay estimation from a sparse linear prediction perspective,”Journal of theAcoustical Society of America,vol.137,no.2,pp.1044–1047,Feb.2015)，以及基于稀疏语音谱约束的线性预测算法(SSSC-LP)(Hongsen He,Xueyuan Wang,Yingyue Zhou,andTao Yang,“A steered response power approach with trade-off prewhitening foracoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018)。

用于声源定位实验的仿真房间大小为7m×6m×3m，声源和麦克风的坐标以房间地板西南角为参考点。使用八只全指向麦克风构成的均匀环形阵列拾取声信号，阵列中心坐标为(3.50,3.00,1.40)m，阵列半径为0.05m，第一只麦克风位于(3.55,3.00,1.40)m。为了检验不同声源位置对定位性能的影响，一只扬声器先后随机地沿着半径为2m的圆环放置在4个位置作为声源，该圆环与麦克风阵列具有相同的中心。这四个声源位置的坐标分别为(4.50,4.73,1.40)m、(1.65,3.75,1.40)m、(1.70,2.13,1.40)m以及(5.31,2.15,1.40)m，对应的声波到达方位角分别为60°、158°、206°以及335°。声源到八只麦克风间的声脉冲响应由镜像源模型产生。麦克风输出信号由声源信号与对应的声通道脉冲响应相卷积，并加入零均值白高斯噪声控制信噪比(SNR)予以获得。为了检验房间混响对声源定位性能的影响，对房间墙面设置一组吸声系数，并利用赛宾公式T₆₀＝0.161V/(αS)仿真不同的混响时间，式中T₆₀表示混响时间，V和S分别表示房间的体积和表面积，α是吸声系数，并假设该房间的六个墙面具有相同的吸声系数。

声源信号是一段英语语音信号，其采样率为48kHz，声源信号长度约为2分钟。将麦克风采集的含噪混响语音信号分成互不重叠的信号帧，无特殊说明时帧长为128ms、即帧长L＝6144。一个信号帧进行一次定位实验，使用根均方误差(RMSE)对声源定位算法的性能进行评价。

图2和图3描述了本发明的计算量随线性预测器阶数K变化(L＝6144)和随帧长L变化(K＝256)的情况，可以看出，相对于近期的SSSC-LP定位算法，本发明(SSSC-NKP-LP)运算量降低，尤其是在预测器阶数K较大的时候，然而帧长L的变化对所提算法的计算量影响不大。

图4描述了在混响时间T₆₀＝500ms的声环境下，声源定位算法的根均方误差RMSE随信噪比SNR变化的情况。可以看出，在低信噪比环境，比如SNR<0dB，相对于SRP-PHAT算法，SRP算法获得了对噪声更好的鲁棒性；然而在高信噪比条件下，比如SNR>10dB，SRP-PHAT算法获得了更好的鲁棒性，这是由于PHAT操作对麦克风信号进行了白化，降低了混响对声源定位性能的不利影响。基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)和基于稀疏语音谱约束的线性预测算法(SSSC-LP)在SRP和SRP-PHAT间获得了对噪声和混响的鲁棒性折中；在语音帧中，由于语音谱的稀疏特性较预测器系数的稀疏性更显著，因此基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响主导的声环境(SNR>10dB)获得了更好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响和不同噪声环境获得了类似的定位精度，它们相对于广泛使用的SRP-PHAT算法更具鲁棒性，然而本发明所提的SSSC-NKP-LP算法具有更低的计算复杂度，具有更好的实时性。

图5描述了在SNR＝10dB条件下，声源定位算法的根均方误差RMSE随混响时间T₆₀变化的情况。从图5可以看出，当T₆₀＝0ms时，SRP算法获得了最好的性能，意味着它的确对噪声鲁棒，然而SRP-PHAT算法对噪声敏感。在噪声和强混响环境，由于PHAT的白化能力，SRP-PHAT算法对混响具有鲁棒性。相对于SRP-PHAT算法，引入预测器系数稀疏约束的SLPCC-LP算法获得了更好的白化性能，然而利用语音谱的稀疏性对麦克风信号进行白化在混响环境展示了最好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在噪声和不同混响声环境获得了相似的定位精度，它们相对于广泛使用的SRP-PHAT算法更具鲁棒性，然而本发明所提的SSSC-NKP-LP算法的计算复杂度更低。

图6描述了在SNR＝10dB，T₆₀＝500ms条件下，声源定位方法的根均方误差RMSE随信号帧长L变化的情况。从图6可以看出，所有声源定位方法的性能随帧长增加而提高，表明帧长越长，麦克风信号帧的统计量信息越大越有利于声源定位。信号帧越长，越有利于对麦克风语音谱进行白化，因此在帧长较长(L>4096)的条件下具有预白化的SRP-PHAT算法比SRP算法的定位精度更高。类似地，引入稀疏约束的线性预测预白化增强了声源定位的精度，而且语音谱稀疏约束较预测器系数稀疏约束更好。基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同信号帧长条件下获得了相似的定位精度，然而前者的计算复杂度更低。

图7描述了在SNR＝10dB，T₆₀＝500ms条件下，基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的情况。从图7可以看出，随着预测器阶数K的增加，基于线性预测的声源定位方法的RMSE降低，表明适当地增加预测器阶数K可提高声源定位方法的估计精度。相对于基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)，基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同预测器阶数条件下都获得了更高的定位精度。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了与基于稀疏语音谱约束的线性预测算法(SSSC-LP)相当的性能，然而由于使用了预测器系数向量的降维分解，本发明基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了更低的计算复杂度。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。