CN113655441A - 一种低复杂度折中预白化的鲁棒声源定位方法 - Google Patents

一种低复杂度折中预白化的鲁棒声源定位方法 Download PDF

Info

Publication number
CN113655441A
CN113655441A CN202110927525.XA CN202110927525A CN113655441A CN 113655441 A CN113655441 A CN 113655441A CN 202110927525 A CN202110927525 A CN 202110927525A CN 113655441 A CN113655441 A CN 113655441A
Authority
CN
China
Prior art keywords
vector
sound source
predictor
calculating
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110927525.XA
Other languages
English (en)
Other versions
CN113655441B (zh
Inventor
何宏森
陈景东
喻翌
周颖玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Southwest University of Science and Technology
Original Assignee
Northwestern Polytechnical University
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Southwest University of Science and Technology filed Critical Northwestern Polytechnical University
Priority to CN202110927525.XA priority Critical patent/CN113655441B/zh
Publication of CN113655441A publication Critical patent/CN113655441A/zh
Application granted granted Critical
Publication of CN113655441B publication Critical patent/CN113655441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,构建基于克罗内克积的最优化子模型;对最优化子模型迭代求解,获得两个子预测器系数向量,进而得到预测器系数向量a,由此可得麦克风信号的预测误差信号c(n);最后根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解,由此降低声源定位算法的计算复杂度。

Description

一种低复杂度折中预白化的鲁棒声源定位方法
技术领域
本发明属于声源定位技术领域,更为具体地讲,涉及一种低复杂度折中预白化的鲁棒声源定位方法。
背景技术
声源定位在应用声学中扮演着重要角色,广泛应用于定向拾音、免提话音通信、人机交互、声呐跟踪以及工业探测等领域。在基于麦克风阵列的声源定位技术中,转向响应功率(SRP)技术是一种重要的声源定位方法,它对噪声具有明显的鲁棒性,然而对混响敏感。其相位变换预滤波改进算法(SRP-PHAT)获得了对房间混响的鲁棒性,然而该方法在噪声环境性能严重下降。
最近,基于线性预测的预白化方法被提出并用于白化麦克风信号,与转向响应功率方法相结合形成了一种折中预白化的转向响应功率算法。在噪声和混响环境,该算法的定位性能在转向响应功率和其预滤波算法间获得了良好的折中。然而,该算法计算复杂度高,不利于定位系统的实时处理。
发明内容
本发明的目的在于克服现有技术的不足,提供一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度,同时保持了原有算法的定位精度。
为实现上述发明目的,本发明低复杂度折中预白化的鲁棒声源定位方法,其特征在于,包括以下步骤:
(1)、信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure BDA0003206878310000011
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
(2)、设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1‖XT(n)x(n)‖,λ2=δ2XTnxn∞,·∞表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
(3)、初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure BDA0003206878310000021
Figure BDA0003206878310000022
初始化布雷格曼向量
Figure BDA0003206878310000023
Figure BDA0003206878310000024
初始化子预测器系数向量
Figure BDA0003206878310000025
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
(4)、计算麦克风信号矩阵
Figure BDA0003206878310000026
Figure BDA0003206878310000027
其中,
Figure BDA0003206878310000028
Figure BDA0003206878310000029
是维度为K1×K1的单位矩阵,
Figure BDA00032068783100000210
Figure BDA00032068783100000211
表示克罗内克积;
(5)、计算子预测器系数向量
Figure BDA00032068783100000212
Figure BDA00032068783100000213
其中,(·)H为共轭转置,上标-1表示求逆,
Figure BDA00032068783100000214
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;
子预测器系数向量
Figure BDA00032068783100000215
表示为:
Figure BDA00032068783100000216
(6)、计算辅助向量
Figure BDA00032068783100000217
Figure BDA00032068783100000218
其中,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量;
(7)、更新布雷格曼向量
Figure BDA00032068783100000219
Figure BDA0003206878310000031
(8)、计算麦克风信号矩阵
Figure BDA0003206878310000032
Figure BDA0003206878310000033
其中,
Figure BDA0003206878310000034
Figure BDA0003206878310000035
是维度为K2×K2的单位矩阵,
Figure BDA0003206878310000036
(9)、计算子预测器系数向量
Figure BDA0003206878310000037
Figure BDA0003206878310000038
其中,
Figure BDA0003206878310000039
是维度为K2P×K2P的单位矩阵;
子预测器系数向量
Figure BDA00032068783100000310
表示为:
Figure BDA00032068783100000311
(10)、计算辅助向量
Figure BDA00032068783100000312
Figure BDA00032068783100000313
(11)、更新布雷格曼向量
Figure BDA00032068783100000314
Figure BDA00032068783100000315
(12)、判断迭代次数t是否达到设定的次数,如果达到,转入步骤(13),如果没有达到,则t=t+1,返回步骤(4);
(13)、计算预测器系数向量a
Figure BDA00032068783100000316
(14)、计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T
(15)、根据SRP算法搜索声源方位
按照步骤(1)-(14)的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
本发明的发明目的是这样实现的:
本发明低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,构建基于克罗内克积的最优化子模型;对最优化子模型迭代求解,获得两个子预测器系数向量,进而得到预测器系数向量a,由此可得麦克风信号的预测误差信号e(n);最后根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解,由此降低声源定位算法的计算复杂度。
附图说明
图1是本发明低复杂度折中预白化的鲁棒声源定位方法的一种具体实施方式流程图;
图2是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随预测器阶数K变化的对比曲线图;
图3是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随帧长L变化的对比曲线图;
图4是在混响时间T60=500ms的声环境下,五种声源定位方法的根均方误差RMSE随信噪比SNR变化的对比曲线图;
图5是在SNR=10dB条件下,五种声源定位方法的根均方误差RMSE随混响时间T60变化的对比曲线图;
图6是在SNR=10dB,T60=500ms条件下,五种声源定位方法的根均方误差RMSE随信号帧长L变化的对比曲线图;
图7是在SNR=10dB,T60=500ms条件下,三种基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的对比曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明基于克罗内克积开发了一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度,同时保持了原有算法的定位精度,下面对本发明进行详细说明。
1、低复杂度折中预白化的鲁棒声源定位方法
1.1、最优化模型
假设在远场有一个宽带声源辐射平面声波,利用具有M只麦克风的声阵列拾取声信号。为了降低混响对声源定位的不利影响,利用线性预测器对麦克风信号预滤波。为此,利用第m(m=1,2,…,M)只麦克风近期采集的样本,预测其当前样本
Figure BDA0003206878310000051
Figure BDA0003206878310000052
式中ak,k=1,2,…,K是线性预测器系数,K是预测器阶数,为了简化已忽略了下标m。由此,预测误差信号可表示为:
Figure BDA0003206878310000053
使用向量/矩阵形式,(2)式可表示如下:
e(n)=x(n)-X(n)a (3)式中:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T (4)
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T (5)
Figure BDA0003206878310000054
a=[a1 a2 … aK]T (7)
L是信号帧长,(·)T表示向量或矩阵的转置。
误差信号向量e(n)可用于定义一种代价函数,通过对其最小化可获得预测器系数向量的最优估计量。近期的文献已提出一种优化模型对麦克风信号进行预白化处理(Hongsen He,Xueyuan Wang,Yingyue Zhou,and Tao Yang,“A steered response powerapproach with trade-off prewhitening for acoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018),其最优化模型如下:
Figure BDA0003206878310000061
式中‖·‖2和‖·‖1分别表示向量的2范数和1范数,λ1和λ2是两个正则化参数,分别设置为λ1=δ1‖XT(n)x(n)‖,λ2=δ2‖XT(n)x(n)‖,‖·‖表示向量的无穷范数,δ1和δ2是两个常数因子,F是傅里叶矩阵,花括号中第一个加项是最小二乘函数,第二个加项是关于语音谱的稀疏约束,引入第三个加项是为了确保X(n)的相关矩阵可逆。本发明利用克罗内克积将线性预测器系数向量降维分解对优化模型求解,以降低声源定位算法的计算复杂度。
1.2、基于克罗内克积的最优化子模型
由于语音源信号相邻样本间的相关性以及房间声通道脉冲响应的低秩性,麦克风语音的线性预测器系数向量通常具有稀疏特性。这种线性预测器可以用低秩模型进行近似,该低秩模型与一组短预测器间的克罗内克积相关。另一方面,从计算量考虑,可以将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度。因此,本发明利用克罗内克积将线性预测器系数向量分解成:
Figure BDA0003206878310000062
式中a1,p(p=1,2,…,P)和a2,p(p=1,2,…,P)是两类长度分别为K1和K2的P个子预测器系数向量,
Figure BDA0003206878310000063
表示克罗内克积。假设K=K1K2,P<min{K1,K2},并设置
Figure BDA0003206878310000064
使用如下关系:
Figure BDA0003206878310000065
式中
Figure BDA0003206878310000066
Figure BDA0003206878310000067
分别是维度为K1×K1和K2×K2的单位矩阵,于是(8)中的X(n)a可表示成如下两个等价的形式:
Figure BDA0003206878310000068
Figure BDA0003206878310000071
式中:
Figure BDA0003206878310000072
X2(n)=[X2,1(n) X2,2(n) … X2,P(n)] (13)
Figure BDA0003206878310000073
或者:
Figure BDA0003206878310000074
式中:
Figure BDA0003206878310000075
X1(n)=[X1,1(n) X1,2(n) … X1,P(n)] (17)
Figure BDA0003206878310000076
因此,可将模型(8)改写成如下两个等价的最优化子模型:
Figure BDA0003206878310000077
Figure BDA0003206878310000078
1.3、最优化子模型的解
借助辅助向量u1和u2,(19)和(20)可等价地表示成:
Figure BDA0003206878310000079
Figure BDA00032068783100000710
为了方便求解,将上述两式分别转换成如下的非约束形式:
Figure BDA0003206878310000081
Figure BDA0003206878310000082
式中β是一个惩罚参数。利用分裂布雷格曼算法对(23)和(24)求解,即对(23)关于a1,u1进行交替最小化,对(24)关于a2,u2进行交替最小化,则可获得一组无约束最优化问题如下:
Figure BDA0003206878310000083
Figure BDA0003206878310000084
Figure BDA0003206878310000085
Figure BDA0003206878310000086
式中t是迭代次数,
Figure BDA0003206878310000087
Figure BDA0003206878310000088
Figure BDA0003206878310000089
Figure BDA00032068783100000810
η1和η2是布雷格曼向量。
进一步,可获得本发明所提算法的解:
Figure BDA00032068783100000811
Figure BDA0003206878310000091
Figure BDA0003206878310000092
Figure BDA0003206878310000093
Figure BDA0003206878310000094
Figure BDA0003206878310000095
其中(·)H为共轭转置,F-1是傅里叶矩阵F的逆,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量。
2、声源定位流程
具体而言,本发明低复杂度折中预白化的鲁棒声源定位方法,如图1所示,包括以下步骤:
步骤S1:信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure BDA0003206878310000096
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
步骤S2:设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1‖XT(n)x(n)‖,λ2=δ2XTnxn∞,·∞表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
步骤S3:初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure BDA0003206878310000101
Figure BDA0003206878310000102
初始化布雷格曼向量
Figure BDA0003206878310000103
Figure BDA0003206878310000104
初始化子预测器系数向量
Figure BDA0003206878310000105
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
步骤S4:计算麦克风信号矩阵
Figure BDA0003206878310000106
Figure BDA0003206878310000107
其中,
Figure BDA0003206878310000108
Figure BDA0003206878310000109
是维度为K1×K1的单位矩阵,
Figure BDA00032068783100001010
Figure BDA00032068783100001011
表示克罗内克积;
步骤S5:计算子预测器系数向量
Figure BDA00032068783100001012
Figure BDA00032068783100001013
其中,(·)H为共轭转置,上标-1表示求逆,
Figure BDA00032068783100001014
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;
子预测器系数向量
Figure BDA00032068783100001015
表示为:
Figure BDA00032068783100001016
步骤S6:计算辅助向量
Figure BDA00032068783100001017
Figure BDA00032068783100001018
步骤S7:更新布雷格曼向量
Figure BDA00032068783100001019
Figure BDA00032068783100001020
步骤S8:计算麦克风信号矩阵
Figure BDA00032068783100001021
Figure BDA00032068783100001022
其中,
Figure BDA00032068783100001023
Figure BDA00032068783100001024
是维度为K2×K2的单位矩阵,
Figure BDA00032068783100001025
步骤S9:计算子预测器系数向量
Figure BDA00032068783100001026
Figure BDA00032068783100001027
Figure BDA0003206878310000111
其中,
Figure BDA0003206878310000112
是维度为K2P×K2P的单位矩阵;
子预测器系数向量
Figure BDA0003206878310000113
表示为:
Figure BDA0003206878310000114
步骤S10:计算辅助向量
Figure BDA0003206878310000115
Figure BDA0003206878310000116
步骤S11:更新布雷格曼向量
Figure BDA0003206878310000117
Figure BDA0003206878310000118
步骤S12:判断迭代次数t是否达到设定的次数,如果达到,转入步骤S13,如果没有达到,则t=t+1,则返回步骤S4;
步骤S13:、计算预测器系数向量a
Figure BDA0003206878310000119
步骤S14:计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T
步骤S15:根据SRP算法搜索声源方位
按照步骤S1-步骤S14的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
3、计算复杂度
在声源定位过程中,需要根据算法在空间域搜索声源的位置。在不同声源定位算法的运算量比较中,在本实施例中仅考虑一次搜索的计算复杂度。
由于加减法运算在大多数硬件平台速度非常快,因此在计算复杂度分析中,加减法的运算量被忽略,只考虑实数乘法和实数除法对定位算法计算量的贡献。在分析中,复数乘法的运算量用实数乘法的运算量计算,一个实数和一个复数的乘法需要2次实数乘法的运算量,一个复数除以一个实数的运算需要2次实数乘法的运算量。
本发明中的傅里叶矩阵及其逆阵对应的运算操作,即傅里叶变换及傅里叶逆变换,采用快速傅里叶变换(FFT)和快速傅里叶逆变换(IFFT)予以实现。假设一实数序列的长度为Q,则其一次FFT运算需要(Q/2)log2(Q)-5Q/4次乘法操作,长度为Q的一复数序列一次IFFT运算需要2Qlog2(Q)-7Q+12次乘法操作。对于大小为Q×Q的方阵,利用LU分解计算其逆阵所需的乘法次数为Q3-Q。因此,根据公式(31)至公式(40),本发明的乘法运算量为:
Figure BDA0003206878310000121
4、实验验证
为了测试本发明低复杂度折中预白化的鲁棒声源定位方法,即基于稀疏语音谱约束和克罗内克积的线性预测算法(本发明记为:SSSC-NKP-LP)的性能,本实验在噪声和混响声环境对本发明的性能进行验证。
在本实验验证中,对于所提的声源定位方法,参数δ1=0.001,δ2=0.001,β=1.0,无特殊说明时预测器阶数K=144、子预测器阶数K1=K2=12,P=1,u1、u2、η1、η2都初始化成零向量,所有a2,p(p=1,2,…,P)向量的第一个元素初始化成0.0001,其它元素都为零,迭代计算的次数为50。作为对比的声源定位算法包括SRP,SRP-PHAT,基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)(Hongsen He,Tao Yang,and Jingdong Chen,“On timedelay estimation from a sparse linear prediction perspective,”Journal of theAcoustical Society of America,vol.137,no.2,pp.1044–1047,Feb.2015),以及基于稀疏语音谱约束的线性预测算法(SSSC-LP)(Hongsen He,Xueyuan Wang,Yingyue Zhou,andTao Yang,“A steered response power approach with trade-off prewhitening foracoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018)。
用于声源定位实验的仿真房间大小为7m×6m×3m,声源和麦克风的坐标以房间地板西南角为参考点。使用八只全指向麦克风构成的均匀环形阵列拾取声信号,阵列中心坐标为(3.50,3.00,1.40)m,阵列半径为0.05m,第一只麦克风位于(3.55,3.00,1.40)m。为了检验不同声源位置对定位性能的影响,一只扬声器先后随机地沿着半径为2m的圆环放置在4个位置作为声源,该圆环与麦克风阵列具有相同的中心。这四个声源位置的坐标分别为(4.50,4.73,1.40)m、(1.65,3.75,1.40)m、(1.70,2.13,1.40)m以及(5.31,2.15,1.40)m,对应的声波到达方位角分别为60°、158°、206°以及335°。声源到八只麦克风间的声脉冲响应由镜像源模型产生。麦克风输出信号由声源信号与对应的声通道脉冲响应相卷积,并加入零均值白高斯噪声控制信噪比(SNR)予以获得。为了检验房间混响对声源定位性能的影响,对房间墙面设置一组吸声系数,并利用赛宾公式T60=0.161V/(αS)仿真不同的混响时间,式中T60表示混响时间,V和S分别表示房间的体积和表面积,α是吸声系数,并假设该房间的六个墙面具有相同的吸声系数。
声源信号是一段英语语音信号,其采样率为48kHz,声源信号长度约为2分钟。将麦克风采集的含噪混响语音信号分成互不重叠的信号帧,无特殊说明时帧长为128ms、即帧长L=6144。一个信号帧进行一次定位实验,使用根均方误差(RMSE)对声源定位算法的性能进行评价。
图2和图3描述了本发明的计算量随线性预测器阶数K变化(L=6144)和随帧长L变化(K=256)的情况,可以看出,相对于近期的SSSC-LP定位算法,本发明(SSSC-NKP-LP)运算量降低,尤其是在预测器阶数K较大的时候,然而帧长L的变化对所提算法的计算量影响不大。
图4描述了在混响时间T60=500ms的声环境下,声源定位算法的根均方误差RMSE随信噪比SNR变化的情况。可以看出,在低信噪比环境,比如SNR<0dB,相对于SRP-PHAT算法,SRP算法获得了对噪声更好的鲁棒性;然而在高信噪比条件下,比如SNR>10dB,SRP-PHAT算法获得了更好的鲁棒性,这是由于PHAT操作对麦克风信号进行了白化,降低了混响对声源定位性能的不利影响。基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)和基于稀疏语音谱约束的线性预测算法(SSSC-LP)在SRP和SRP-PHAT间获得了对噪声和混响的鲁棒性折中;在语音帧中,由于语音谱的稀疏特性较预测器系数的稀疏性更显著,因此基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响主导的声环境(SNR>10dB)获得了更好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响和不同噪声环境获得了类似的定位精度,它们相对于广泛使用的SRP-PHAT算法更具鲁棒性,然而本发明所提的SSSC-NKP-LP算法具有更低的计算复杂度,具有更好的实时性。
图5描述了在SNR=10dB条件下,声源定位算法的根均方误差RMSE随混响时间T60变化的情况。从图5可以看出,当T60=0ms时,SRP算法获得了最好的性能,意味着它的确对噪声鲁棒,然而SRP-PHAT算法对噪声敏感。在噪声和强混响环境,由于PHAT的白化能力,SRP-PHAT算法对混响具有鲁棒性。相对于SRP-PHAT算法,引入预测器系数稀疏约束的SLPCC-LP算法获得了更好的白化性能,然而利用语音谱的稀疏性对麦克风信号进行白化在混响环境展示了最好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在噪声和不同混响声环境获得了相似的定位精度,它们相对于广泛使用的SRP-PHAT算法更具鲁棒性,然而本发明所提的SSSC-NKP-LP算法的计算复杂度更低。
图6描述了在SNR=10dB,T60=500ms条件下,声源定位方法的根均方误差RMSE随信号帧长L变化的情况。从图6可以看出,所有声源定位方法的性能随帧长增加而提高,表明帧长越长,麦克风信号帧的统计量信息越大越有利于声源定位。信号帧越长,越有利于对麦克风语音谱进行白化,因此在帧长较长(L>4096)的条件下具有预白化的SRP-PHAT算法比SRP算法的定位精度更高。类似地,引入稀疏约束的线性预测预白化增强了声源定位的精度,而且语音谱稀疏约束较预测器系数稀疏约束更好。基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同信号帧长条件下获得了相似的定位精度,然而前者的计算复杂度更低。
图7描述了在SNR=10dB,T60=500ms条件下,基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的情况。从图7可以看出,随着预测器阶数K的增加,基于线性预测的声源定位方法的RMSE降低,表明适当地增加预测器阶数K可提高声源定位方法的估计精度。相对于基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP),基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同预测器阶数条件下都获得了更高的定位精度。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了与基于稀疏语音谱约束的线性预测算法(SSSC-LP)相当的性能,然而由于使用了预测器系数向量的降维分解,本发明基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了更低的计算复杂度。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种低复杂度折中预白化的鲁棒声源定位方法,其特征在于,包括以下步骤:
(1)、信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1)…x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure FDA0003206878300000011
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
(2)、设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1‖XT(n)x(n)‖,λ2=δ2‖XT(n)x(n)‖,‖·‖表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
(3)、初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure FDA0003206878300000012
初始化布雷格曼向量
Figure FDA0003206878300000013
初始化子预测器系数向量
Figure FDA0003206878300000014
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
(4)、计算麦克风信号矩阵
Figure FDA0003206878300000015
Figure FDA0003206878300000016
其中,
Figure FDA0003206878300000017
Figure FDA0003206878300000018
是维度为K1×K1的单位矩阵,
Figure FDA0003206878300000019
Figure FDA00032068783000000110
表示克罗内克积;
(5)、计算子预测器系数向量
Figure FDA00032068783000000111
Figure FDA00032068783000000112
其中,(·)H为共轭转置,上标-1表示求逆,
Figure FDA0003206878300000021
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;
子预测器系数向量
Figure FDA0003206878300000022
表示为:
Figure FDA0003206878300000023
(6)、计算辅助向量
Figure FDA0003206878300000024
Figure FDA0003206878300000025
其中,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量;
(7)、更新布雷格曼向量
Figure FDA0003206878300000026
Figure FDA0003206878300000027
(8)、计算麦克风信号矩阵
Figure FDA0003206878300000028
Figure FDA0003206878300000029
其中,
Figure FDA00032068783000000210
Figure FDA00032068783000000211
是维度为K2×K2的单位矩阵,
Figure FDA00032068783000000212
(9)、计算子预测器系数向量
Figure FDA00032068783000000213
Figure FDA00032068783000000214
其中,
Figure FDA00032068783000000215
是维度为k2P×K2P的单位矩阵;
子预测器系数向量
Figure FDA00032068783000000216
表示为:
Figure FDA00032068783000000217
(10)、计算辅助向量
Figure FDA00032068783000000218
Figure FDA00032068783000000219
(11)、更新布雷格曼向量
Figure FDA00032068783000000220
Figure FDA00032068783000000221
(12)、判断迭代次数t是否达到设定的次数,如果达到,转入步骤(13),如果没有达到,则t=t+1,返回步骤(4);
(13)、计算预测器系数向量a
Figure FDA0003206878300000031
(14)、计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1)…e(n+K+L-1)]T
(15)、根据SRP算法搜索声源方位
按照步骤(1)-(14)的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
CN202110927525.XA 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法 Active CN113655441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927525.XA CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927525.XA CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Publications (2)

Publication Number Publication Date
CN113655441A true CN113655441A (zh) 2021-11-16
CN113655441B CN113655441B (zh) 2023-05-30

Family

ID=78479609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927525.XA Active CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Country Status (1)

Country Link
CN (1) CN113655441B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310639A1 (en) * 2014-04-25 2015-10-29 Berkin Bilgic Systems and methods for fast reconstruction for quantitative susceptibility mapping using magnetic resonance imaging
CN105652243A (zh) * 2016-03-14 2016-06-08 西南科技大学 多通道群稀疏线性预测时延估计方法
CN105929386A (zh) * 2016-04-14 2016-09-07 东南大学 一种基于高阶累积量的波达估计方法
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
US20170286730A1 (en) * 2016-04-04 2017-10-05 Mojix, Inc. Location Estimation and Tracking for Passive RFID and Wireless Sensor Networks Using MIMO Systems
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN111551898A (zh) * 2020-04-07 2020-08-18 云知声智能科技股份有限公司 一种抗混响的声源定位方法
CN112017680A (zh) * 2020-08-26 2020-12-01 西北工业大学 一种去混响方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310639A1 (en) * 2014-04-25 2015-10-29 Berkin Bilgic Systems and methods for fast reconstruction for quantitative susceptibility mapping using magnetic resonance imaging
CN105652243A (zh) * 2016-03-14 2016-06-08 西南科技大学 多通道群稀疏线性预测时延估计方法
US20170286730A1 (en) * 2016-04-04 2017-10-05 Mojix, Inc. Location Estimation and Tracking for Passive RFID and Wireless Sensor Networks Using MIMO Systems
CN105929386A (zh) * 2016-04-14 2016-09-07 东南大学 一种基于高阶累积量的波达估计方法
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN111551898A (zh) * 2020-04-07 2020-08-18 云知声智能科技股份有限公司 一种抗混响的声源定位方法
CN112017680A (zh) * 2020-08-26 2020-12-01 西北工业大学 一种去混响方法及装置

Non-Patent Citations (16)

* Cited by examiner, † Cited by third party
Title
B.YEGNANARAYANA 等: "Processing of reverberant speech for time-delay estimation" *
GONGPING HUANG 等: "Kronecker Product Beamformning with Multiple Differential Microphone Arrays" *
HE,HS 等: "On time delay estimation from asparse linear prediction perspective" *
HONGSEN HE 等: "On directivity of a circular array with directional microphones" *
HONGSEN HE等: "A steered response power approach with trade-off prewhitening for acoustic source localization" *
J.BENESTY 等: "Time-delay estimation via linear interpolation and cross-correlation" *
JINGDONG CHEN 等: "Robust time delay estimation exploiting redundancy among multiple microphones" *
万新旺;吴镇扬: "基于自适应频率选择的鲁棒时延估计算法" *
孟欢: "基于稀疏重构的近场源定位研究" *
李少东: "低信噪比下的二维联合线性布雷格曼迭代快速超分辨成像算法" *
李松: "基于多源信息融合的定位与跟踪方法研究" *
潘超 等: "面向语音通信与交互的麦克风阵列波束形成方法" *
舒治宇: "基于麦克风阵列的声源定位算法研究" *
谭颖;殷福亮;李细林: "改进的SRP-PHAT 声源定位方法" *
贺良 等: "基于改进稀疏线性预测的时延估计算法" *
黄丽霞;昝丹斐;张岁岁;张雪英: "融合平滑滤波器和子带分析的双声源定位" *

Also Published As

Publication number Publication date
CN113655441B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
Song et al. Adaptive widely linear reduced-rank beamforming based on joint iterative optimization
Duong et al. Under-determined reverberant audio source separation using a full-rank spatial covariance model
Salvati et al. Incoherent frequency fusion for broadband steered response power algorithms in noisy environments
Hassani et al. Cooperative integrated noise reduction and node-specific direction-of-arrival estimation in a fully connected wireless acoustic sensor network
WO2020121590A1 (ja) 信号処理装置、信号処理方法、およびプログラム
Boashash et al. Robust multisensor time–frequency signal processing: A tutorial review with illustrations of performance enhancement in selected application areas
Zhang et al. Robust beamforming for coherent signals based on the spatial-smoothing technique
Chen et al. Time delay estimation
Wan et al. Spacial extrapolation-based blind DOA estimation approach for closely spaced sources
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Khan et al. Comparative analysis of various matrix pencil methods for direction of arrival estimation
Santos et al. On low rank MVDR beamforming using the conjugate gradient algorithm
CN113655440B (zh) 一种自适应折中预白化的声源定位方法
Gao et al. A modified frequency weighted MUSIC algorithm for multiple sound sources localization
CN113655441B (zh) 一种低复杂度折中预白化的鲁棒声源定位方法
Lim et al. Time delay estimation based on log-sum and lp-norm penalized minor component analysis
CN109243476A (zh) 混响语音信号中后混响功率谱的自适应估计方法及装置
Lim et al. Time delay estimation method based on canonical correlation analysis
Barfuss et al. Informed spatial filtering based on constrained independent component analysis
CN114428244A (zh) 一种基于稀疏学习的超分辨时延估计方法及估计装置
Coventry et al. Polynomial root-music algorithm for efficient broadband direction of arrival estimation
Song et al. Modified Frequency-Sliding Generalized Cross-Correlation of Time delay difference estimation for microphones array
Wang et al. Low-latency real-time independent vector analysis using convolutive transfer function
CN113591537A (zh) 一种双迭代非正交联合块对角化卷积盲源分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant