CN113655441B - 一种低复杂度折中预白化的鲁棒声源定位方法 - Google Patents

一种低复杂度折中预白化的鲁棒声源定位方法 Download PDF

Info

Publication number
CN113655441B
CN113655441B CN202110927525.XA CN202110927525A CN113655441B CN 113655441 B CN113655441 B CN 113655441B CN 202110927525 A CN202110927525 A CN 202110927525A CN 113655441 B CN113655441 B CN 113655441B
Authority
CN
China
Prior art keywords
vector
sound source
calculating
sub
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110927525.XA
Other languages
English (en)
Other versions
CN113655441A (zh
Inventor
何宏森
陈景东
喻翌
周颖玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Southwest University of Science and Technology
Original Assignee
Northwestern Polytechnical University
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Southwest University of Science and Technology filed Critical Northwestern Polytechnical University
Priority to CN202110927525.XA priority Critical patent/CN113655441B/zh
Publication of CN113655441A publication Critical patent/CN113655441A/zh
Application granted granted Critical
Publication of CN113655441B publication Critical patent/CN113655441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,构建基于克罗内克积的最优化子模型;对最优化子模型迭代求解,获得两个子预测器系数向量,进而得到预测器系数向量a,由此可得麦克风信号的预测误差信号c(n);最后根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解,由此降低声源定位算法的计算复杂度。

Description

一种低复杂度折中预白化的鲁棒声源定位方法
技术领域
本发明属于声源定位技术领域,更为具体地讲,涉及一种低复杂度折中预白化的鲁棒声源定位方法。
背景技术
声源定位在应用声学中扮演着重要角色,广泛应用于定向拾音、免提话音通信、人机交互、声呐跟踪以及工业探测等领域。在基于麦克风阵列的声源定位技术中,转向响应功率(SRP)技术是一种重要的声源定位方法,它对噪声具有明显的鲁棒性,然而对混响敏感。其相位变换预滤波改进算法(SRP-PHAT)获得了对房间混响的鲁棒性,然而该方法在噪声环境性能严重下降。
最近,基于线性预测的预白化方法被提出并用于白化麦克风信号,与转向响应功率方法相结合形成了一种折中预白化的转向响应功率算法。在噪声和混响环境,该算法的定位性能在转向响应功率和其预滤波算法间获得了良好的折中。然而,该算法计算复杂度高,不利于定位系统的实时处理。
发明内容
本发明的目的在于克服现有技术的不足,提供一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度,同时保持了原有算法的定位精度。
为实现上述发明目的,本发明低复杂度折中预白化的鲁棒声源定位方法,其特征在于,包括以下步骤:
(1)、信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure GDA0003222113240000011
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
(2)、设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1||XT(n)x(n)||,λ2=δ2||XT(n)x(n)||,||·||表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
(3)、初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure GDA0003222113240000021
/>
初始化布雷格曼向量
Figure GDA0003222113240000022
初始化子预测器系数向量
Figure GDA0003222113240000023
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
(4)、计算麦克风信号矩阵
Figure GDA0003222113240000024
Figure GDA0003222113240000025
其中,
Figure GDA0003222113240000026
Figure GDA0003222113240000027
是维度为K1×K1的单位矩阵,/>
Figure GDA0003222113240000028
P<K1,/>
Figure GDA0003222113240000029
表示克罗内克积;
(5)、计算子预测器系数向量
Figure GDA00032221132400000210
Figure GDA00032221132400000211
其中,(·)H为共轭转置,上标-1表示求逆,
Figure GDA00032221132400000212
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;
子预测器系数向量
Figure GDA00032221132400000213
表示为:
Figure GDA00032221132400000214
(6)、计算辅助向量
Figure GDA00032221132400000215
Figure GDA00032221132400000216
其中,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量;
(7)、更新布雷格曼向量
Figure GDA00032221132400000217
Figure GDA0003222113240000031
(8)、计算麦克风信号矩阵
Figure GDA0003222113240000032
Figure GDA0003222113240000033
其中,
Figure GDA0003222113240000034
Figure GDA0003222113240000035
是维度为K2×K2的单位矩阵,/>
Figure GDA0003222113240000036
(9)、计算子预测器系数向量
Figure GDA0003222113240000037
/>
Figure GDA0003222113240000038
其中,
Figure GDA0003222113240000039
是维度为K2P×K2P的单位矩阵;
子预测器系数向量
Figure GDA00032221132400000310
表示为:
Figure GDA00032221132400000311
(10)、计算辅助向量
Figure GDA00032221132400000312
Figure GDA00032221132400000313
(11)、更新布雷格曼向量
Figure GDA00032221132400000314
Figure GDA00032221132400000315
(12)、判断迭代次数t是否达到设定的次数,如果达到,转入步骤(13),如果没有达到,则t=t+1,返回步骤(4);
(13)、计算预测器系数向量a
Figure GDA00032221132400000316
(14)、计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T
(15)、根据SRP算法搜索声源方位
按照步骤(1)-(14)的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
本发明的发明目的是这样实现的:
本发明低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,构建基于克罗内克积的最优化子模型;对最优化子模型迭代求解,获得两个子预测器系数向量,进而得到预测器系数向量a,由此可得麦克风信号的预测误差信号e(n);最后根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。该发明通过利用克罗内克积对线性预测器系数向量降维分解,由此降低声源定位算法的计算复杂度。
附图说明
图1是本发明低复杂度折中预白化的鲁棒声源定位方法的一种具体实施方式流程图;
图2是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随预测器阶数K变化的对比曲线图;
图3是本发明(SSSC-NKP-LP)与SSSC-LP定位方法的计算复杂度随帧长L变化的对比曲线图;
图4是在混响时间T60=500ms的声环境下,五种声源定位方法的根均方误差RMSE随信噪比SNR变化的对比曲线图;
图5是在SNR=10dB条件下,五种声源定位方法的根均方误差RMSE随混响时间T60变化的对比曲线图;
图6是在SNR=10dB,T60=500ms条件下,五种声源定位方法的根均方误差RMSE随信号帧长L变化的对比曲线图;
图7是在SNR=10dB,T60=500ms条件下,三种基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的对比曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明基于克罗内克积开发了一种低复杂度折中预白化的鲁棒声源定位方法,利用克罗内克积将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度,同时保持了原有算法的定位精度,下面对本发明进行详细说明。
1、低复杂度折中预白化的鲁棒声源定位方法
1.1、最优化模型
假设在远场有一个宽带声源辐射平面声波,利用具有M只麦克风的声阵列拾取声信号。为了降低混响对声源定位的不利影响,利用线性预测器对麦克风信号预滤波。为此,利用第m(m=1,2,…,M)只麦克风近期采集的样本,预测其当前样本
Figure GDA0003222113240000051
Figure GDA0003222113240000052
式中ak,k=1,2,…,K是线性预测器系数,K是预测器阶数,为了简化已忽略了下标m。由此,预测误差信号可表示为:
Figure GDA0003222113240000053
使用向量/矩阵形式,(2)式可表示如下:
e(n)=x(n)-X(n)a (3)
式中:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T (4)
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T (5)
Figure GDA0003222113240000054
/>
a=[a1 a2 … aK]T (7)
L是信号帧长,(·)T表示向量或矩阵的转置。
误差信号向量e(n)可用于定义一种代价函数,通过对其最小化可获得预测器系数向量的最优估计量。近期的文献已提出一种优化模型对麦克风信号进行预白化处理(Hongsen He,Xueyuan Wang,Yingyue Zhou,and Tao Yang,“A steered response powerapproach with trade-off prewhitening for acoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018),其最优化模型如下:
Figure GDA0003222113240000061
式中||·||2和||·||1分别表示向量的2范数和1范数,λ1和λ2是两个正则化参数,分别设置为λ1=δ1||XT(n)x(n)||,λ2=δ2||XT(n)x(n)||,||·||表示向量的无穷范数,δ1和δ2是两个常数因子,F是傅里叶矩阵,花括号中第一个加项是最小二乘函数,第二个加项是关于语音谱的稀疏约束,引入第三个加项是为了确保X(n)的相关矩阵可逆。本发明利用克罗内克积将线性预测器系数向量降维分解对优化模型求解,以降低声源定位算法的计算复杂度。
1.2、基于克罗内克积的最优化子模型
由于语音源信号相邻样本间的相关性以及房间声通道脉冲响应的低秩性,麦克风语音的线性预测器系数向量通常具有稀疏特性。这种线性预测器可以用低秩模型进行近似,该低秩模型与一组短预测器间的克罗内克积相关。另一方面,从计算量考虑,可以将线性预测器系数向量降维分解,降低声源定位算法的计算复杂度。因此,本发明利用克罗内克积将线性预测器系数向量分解成:
Figure GDA0003222113240000062
式中a1,p(p=1,2,…,p)和a2,p(p=1,2,…,P)是两类长度分别为K1和K2的P个子预测器系数向量,
Figure GDA0003222113240000063
表示克罗内克积。假设K=K1K2,P<min{K1,K2},并设置/>
Figure GDA0003222113240000064
使用如下关系:
Figure GDA0003222113240000065
式中
Figure GDA0003222113240000066
和/>
Figure GDA0003222113240000067
分别是维度为K1×K1和K2×K2的单位矩阵,于是(8)中的X(n)a可表示成如下两个等价的形式:
Figure GDA0003222113240000068
Figure GDA0003222113240000071
/>
式中:
Figure GDA0003222113240000072
X2(n)=[X2,1(n) X2,2(n) … X2,P(n)] (13)
Figure GDA0003222113240000073
或者:
Figure GDA0003222113240000074
式中:
Figure GDA0003222113240000075
X1(n)=[X1,1(n) X1,2(n) … X1,P(n)] (17)
Figure GDA0003222113240000076
因此,可将模型(8)改写成如下两个等价的最优化子模型:
Figure GDA0003222113240000077
Figure GDA0003222113240000078
1.3、最优化子模型的解
借助辅助向量u1和u2,(19)和(20)可等价地表示成:
Figure GDA0003222113240000079
Figure GDA00032221132400000710
为了方便求解,将上述两式分别转换成如下的非约束形式:
Figure GDA00032221132400000711
Figure GDA00032221132400000712
式中β是一个惩罚参数。利用分裂布雷格曼算法对(23)和(24)求解,即对(23)关于a1,u1进行交替最小化,对(24)关于a2,u2进行交替最小化,则可获得一组无约束最优化问题如下:
Figure GDA0003222113240000081
Figure GDA0003222113240000082
Figure GDA0003222113240000083
Figure GDA0003222113240000084
式中t是迭代次数,
Figure GDA0003222113240000085
Figure GDA0003222113240000086
Figure GDA0003222113240000087
Figure GDA0003222113240000088
η1和η2是布雷格曼向量。
进一步,可获得本发明所提算法的解:
Figure GDA0003222113240000089
Figure GDA00032221132400000810
Figure GDA00032221132400000811
Figure GDA00032221132400000812
Figure GDA0003222113240000091
Figure GDA0003222113240000092
其中(·)H为共轭转置,F-1是傅里叶矩阵F的逆,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量。
2、声源定位流程
具体而言,本发明低复杂度折中预白化的鲁棒声源定位方法,如图1所示,包括以下步骤:
步骤S1:信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1) … x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure GDA0003222113240000093
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
步骤S2:设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1||XT(n)x(n)||,λ2=δ2||XT(n)x(n)||,||·||表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
步骤S3:初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure GDA0003222113240000094
初始化布雷格曼向量
Figure GDA0003222113240000095
初始化子预测器系数向量
Figure GDA0003222113240000096
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
步骤S4:计算麦克风信号矩阵
Figure GDA0003222113240000101
Figure GDA0003222113240000102
其中,
Figure GDA0003222113240000103
Figure GDA0003222113240000104
是维度为K1×K1的单位矩阵,/>
Figure GDA0003222113240000105
P<K1,/>
Figure GDA0003222113240000106
表示克罗内克积;
步骤S5:计算子预测器系数向量
Figure GDA0003222113240000107
Figure GDA0003222113240000108
其中,(·)H为共轭转置,上标-1表示求逆,
Figure GDA0003222113240000109
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;/>
子预测器系数向量
Figure GDA00032221132400001010
表示为:
Figure GDA00032221132400001011
步骤S6:计算辅助向量
Figure GDA00032221132400001012
Figure GDA00032221132400001013
步骤S7:更新布雷格曼向量
Figure GDA00032221132400001014
Figure GDA00032221132400001015
步骤S8:计算麦克风信号矩阵
Figure GDA00032221132400001016
Figure GDA00032221132400001017
其中,
Figure GDA00032221132400001018
Figure GDA00032221132400001019
是维度为K2×K2的单位矩阵,/>
Figure GDA00032221132400001020
步骤S9:计算子预测器系数向量
Figure GDA00032221132400001021
Figure GDA00032221132400001022
其中,
Figure GDA00032221132400001023
是维度为K2P×K2P的单位矩阵;
子预测器系数向量
Figure GDA00032221132400001024
表示为:
Figure GDA00032221132400001025
步骤S10:计算辅助向量
Figure GDA00032221132400001026
Figure GDA0003222113240000111
步骤S11:更新布雷格曼向量
Figure GDA0003222113240000112
Figure GDA0003222113240000113
步骤S12:判断迭代次数t是否达到设定的次数,如果达到,转入步骤S13,如果没有达到,则t=t+1,则返回步骤S4;
步骤S13:、计算预测器系数向量a
Figure GDA0003222113240000114
步骤S14:计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1) … e(n+K+L-1)]T
步骤S15:根据SRP算法搜索声源方位
按照步骤S1-步骤S14的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
3、计算复杂度
在声源定位过程中,需要根据算法在空间域搜索声源的位置。在不同声源定位算法的运算量比较中,在本实施例中仅考虑一次搜索的计算复杂度。
由于加减法运算在大多数硬件平台速度非常快,因此在计算复杂度分析中,加减法的运算量被忽略,只考虑实数乘法和实数除法对定位算法计算量的贡献。在分析中,复数乘法的运算量用实数乘法的运算量计算,一个实数和一个复数的乘法需要2次实数乘法的运算量,一个复数除以一个实数的运算需要2次实数乘法的运算量。
本发明中的傅里叶矩阵及其逆阵对应的运算操作,即傅里叶变换及傅里叶逆变换,采用快速傅里叶变换(FFT)和快速傅里叶逆变换(IFFT)予以实现。假设一实数序列的长度为Q,则其一次FFT运算需要(Q/2)log2(Q)-5Q/4次乘法操作,长度为Q的一复数序列一次IFFT运算需要2Qlog2(Q)-7Q+12次乘法操作。对于大小为Q×Q的方阵,利用LU分解计算其逆阵所需的乘法次数为Q3-Q。因此,根据公式(31)至公式(40),本发明的乘法运算量为:
Figure GDA0003222113240000121
4、实验验证
为了测试本发明低复杂度折中预白化的鲁棒声源定位方法,即基于稀疏语音谱约束和克罗内克积的线性预测算法(本发明记为:SSSC-NKP-LP)的性能,本实验在噪声和混响声环境对本发明的性能进行验证。
在本实验验证中,对于所提的声源定位方法,参数δ1=0.001,δ2=0.001,β=1.0,无特殊说明时预测器阶数K=144、子预测器阶数K1=K2=12,P=1,u1、u2、η1、η2都初始化成零向量,所有a2,p(p=1,2,…,P)向量的第一个元素初始化成0.0001,其它元素都为零,迭代计算的次数为50。作为对比的声源定位算法包括SRP,SRP-PHAT,基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)(Hongsen He,Tao Yang,and Jingdong Chen,“On timedelay estimation from a sparse linear prediction perspective,”Journal of theAcoustical Society of America,vol.137,no.2,pp.1044–1047,Feb.2015),以及基于稀疏语音谱约束的线性预测算法(SSSC-LP)(Hongsen He,Xueyuan Wang,Yingyue Zhou,andTao Yang,“A steered response power approach with trade-off prewhitening foracoustic source localization,”Journal of the Acoustical Society of America,vol.143,no.2,pp.1003–1007,Feb.2018)。
用于声源定位实验的仿真房间大小为7m×6m×3m,声源和麦克风的坐标以房间地板西南角为参考点。使用八只全指向麦克风构成的均匀环形阵列拾取声信号,阵列中心坐标为(3.50,3.00,1.40)m,阵列半径为0.05m,第一只麦克风位于(3.55,3.00,1.40)m。为了检验不同声源位置对定位性能的影响,一只扬声器先后随机地沿着半径为2m的圆环放置在4个位置作为声源,该圆环与麦克风阵列具有相同的中心。这四个声源位置的坐标分别为(4.50,4.73,1.40)m、(1.65,3.75,1.40)m、(1.70,2.13,1.40)m以及(5.31,2.15,1.40)m,对应的声波到达方位角分别为60°、158°、206°以及335°。声源到八只麦克风间的声脉冲响应由镜像源模型产生。麦克风输出信号由声源信号与对应的声通道脉冲响应相卷积,并加入零均值白高斯噪声控制信噪比(SNR)予以获得。为了检验房间混响对声源定位性能的影响,对房间墙面设置一组吸声系数,并利用赛宾公式T60=0.161V/(αS)仿真不同的混响时间,式中T60表示混响时间,V和S分别表示房间的体积和表面积,α是吸声系数,并假设该房间的六个墙面具有相同的吸声系数。
声源信号是一段英语语音信号,其采样率为48kHz,声源信号长度约为2分钟。将麦克风采集的含噪混响语音信号分成互不重叠的信号帧,无特殊说明时帧长为128ms、即帧长L=6144。一个信号帧进行一次定位实验,使用根均方误差(RMSE)对声源定位算法的性能进行评价。
图2和图3描述了本发明的计算量随线性预测器阶数K变化(L=6144)和随帧长L变化(K=256)的情况,可以看出,相对于近期的SSSC-LP定位算法,本发明(SSSC-NKP-LP)运算量降低,尤其是在预测器阶数K较大的时候,然而帧长L的变化对所提算法的计算量影响不大。
图4描述了在混响时间T60=500ms的声环境下,声源定位算法的根均方误差RMSE随信噪比SNR变化的情况。可以看出,在低信噪比环境,比如SNR<0dB,相对于SRP-PHAT算法,SRP算法获得了对噪声更好的鲁棒性;然而在高信噪比条件下,比如SNR>10dB,SRP-PHAT算法获得了更好的鲁棒性,这是由于PHAT操作对麦克风信号进行了白化,降低了混响对声源定位性能的不利影响。基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP)和基于稀疏语音谱约束的线性预测算法(SSSC-LP)在SRP和SRP-PHAT间获得了对噪声和混响的鲁棒性折中;在语音帧中,由于语音谱的稀疏特性较预测器系数的稀疏性更显著,因此基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响主导的声环境(SNR>10dB)获得了更好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在混响和不同噪声环境获得了类似的定位精度,它们相对于广泛使用的SRP-PHAT算法更具鲁棒性,然而本发明所提的SSSC-NKP-LP算法具有更低的计算复杂度,具有更好的实时性。
图5描述了在SNR=10dB条件下,声源定位算法的根均方误差RMSE随混响时间T60变化的情况。从图5可以看出,当T60=0ms时,SRP算法获得了最好的性能,意味着它的确对噪声鲁棒,然而SRP-PHAT算法对噪声敏感。在噪声和强混响环境,由于PHAT的白化能力,SRP-PHAT算法对混响具有鲁棒性。相对于SRP-PHAT算法,引入预测器系数稀疏约束的SLPCC-LP算法获得了更好的白化性能,然而利用语音谱的稀疏性对麦克风信号进行白化在混响环境展示了最好的定位性能。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在噪声和不同混响声环境获得了相似的定位精度,它们相对于广泛使用的SRP-PHAT算法更具鲁棒性,然而本发明所提的SSSC-NKP-LP算法的计算复杂度更低。
图6描述了在SNR=10dB,T60=500ms条件下,声源定位方法的根均方误差RMSE随信号帧长L变化的情况。从图6可以看出,所有声源定位方法的性能随帧长增加而提高,表明帧长越长,麦克风信号帧的统计量信息越大越有利于声源定位。信号帧越长,越有利于对麦克风语音谱进行白化,因此在帧长较长(L>4096)的条件下具有预白化的SRP-PHAT算法比SRP算法的定位精度更高。类似地,引入稀疏约束的线性预测预白化增强了声源定位的精度,而且语音谱稀疏约束较预测器系数稀疏约束更好。基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)与基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同信号帧长条件下获得了相似的定位精度,然而前者的计算复杂度更低。
图7描述了在SNR=10dB,T60=500ms条件下,基于线性预测的声源定位方法的根均方误差RMSE随预测器阶数K变化的情况。从图7可以看出,随着预测器阶数K的增加,基于线性预测的声源定位方法的RMSE降低,表明适当地增加预测器阶数K可提高声源定位方法的估计精度。相对于基于稀疏线性预测器系数约束的线性预测算法(SLPCC-LP),基于稀疏语音谱约束的线性预测算法(SSSC-LP)在不同预测器阶数条件下都获得了更高的定位精度。本发明所提的基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了与基于稀疏语音谱约束的线性预测算法(SSSC-LP)相当的性能,然而由于使用了预测器系数向量的降维分解,本发明基于稀疏语音谱约束和克罗内克积的线性预测算法(SSSC-NKP-LP)获得了更低的计算复杂度。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种低复杂度折中预白化的鲁棒声源定位方法,其特征在于,包括以下步骤:
(1)、信号采集与分帧
对声信号进行采集,得到采样值x(n),并构建n时刻的输入信号向量x(n):
x(n)=[x(n) x(n+1)…x(n+K+L-1)]T
以及输入信号矩阵X(n):
Figure FDA0003206878300000011
其中,K是预测器阶数,L是信号帧长,(·)T表示向量或矩阵的转置;
(2)、设置两个正则化参数和一个惩罚参数
λ1和λ2是两个正则化参数,分别设置为λ1=δ1‖XT(n)x(n)‖,λ2=δ2‖XT(n)x(n)‖,‖·‖表示向量的无穷范数,δ1和δ2是两个常数因子;
设置惩罚参数β;
(3)、初始化辅助向量、布雷格曼向量以及子预测器系数向量
初始化辅助向量
Figure FDA0003206878300000012
初始化布雷格曼向量
Figure FDA0003206878300000013
初始化子预测器系数向量
Figure FDA0003206878300000014
其中,p=1,2,…,P,P为子预测器系数向量的个数,0<∈<1;
令迭代次数t=0;
(4)、计算麦克风信号矩阵
Figure FDA0003206878300000015
Figure FDA0003206878300000016
其中,
Figure FDA0003206878300000017
Figure FDA0003206878300000018
是维度为K1×K1的单位矩阵,
Figure FDA0003206878300000019
Figure FDA00032068783000000110
表示克罗内克积;
(5)、计算子预测器系数向量
Figure FDA00032068783000000111
Figure FDA00032068783000000112
其中,(·)H为共轭转置,上标-1表示求逆,
Figure FDA0003206878300000021
是维度为K1P×K1P的单位矩阵,F为傅里叶矩阵,F-1是傅里叶矩阵F的逆;
子预测器系数向量
Figure FDA0003206878300000022
表示为:
Figure FDA0003206878300000023
/>
(6)、计算辅助向量
Figure FDA0003206878300000024
Figure FDA0003206878300000025
其中,sgn{*}是复数向量的符号函数,其值等于向量的每个元素除以该元素的模值,⊙表示两个向量的点积,|*|表示对向量的每个元素求模值,max{*,*}表示取两个值中的最大值,*表示运算处理的变量;
(7)、更新布雷格曼向量
Figure FDA0003206878300000026
Figure FDA0003206878300000027
(8)、计算麦克风信号矩阵
Figure FDA0003206878300000028
Figure FDA0003206878300000029
其中,
Figure FDA00032068783000000210
Figure FDA00032068783000000211
是维度为K2×K2的单位矩阵,/>
Figure FDA00032068783000000212
(9)、计算子预测器系数向量
Figure FDA00032068783000000213
Figure FDA00032068783000000214
其中,
Figure FDA00032068783000000215
是维度为k2P×K2P的单位矩阵;
子预测器系数向量
Figure FDA00032068783000000216
表示为:
Figure FDA00032068783000000217
(10)、计算辅助向量
Figure FDA00032068783000000218
Figure FDA00032068783000000219
(11)、更新布雷格曼向量
Figure FDA00032068783000000220
Figure FDA00032068783000000221
(12)、判断迭代次数t是否达到设定的次数,如果达到,转入步骤(13),如果没有达到,则t=t+1,返回步骤(4);
(13)、计算预测器系数向量a
Figure FDA0003206878300000031
(14)、计算预测误差向量e
e(n)=x(n)-X(n)a;
其中,预测误差向量e表示为:
e(n)=[e(n) e(n+1)…e(n+K+L-1)]T
(15)、根据SRP算法搜索声源方位
按照步骤(1)-(14)的方法,分别获得M只麦克风的预测误差信号e(n),根据SRP算法,对预测误差信号时移,通过计算时移预测误差信号对间的互相关之和在空间搜索声源方位,峰值位置则为估计的声源方位。
CN202110927525.XA 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法 Active CN113655441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110927525.XA CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110927525.XA CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Publications (2)

Publication Number Publication Date
CN113655441A CN113655441A (zh) 2021-11-16
CN113655441B true CN113655441B (zh) 2023-05-30

Family

ID=78479609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110927525.XA Active CN113655441B (zh) 2021-08-11 2021-08-11 一种低复杂度折中预白化的鲁棒声源定位方法

Country Status (1)

Country Link
CN (1) CN113655441B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542763B2 (en) * 2014-04-25 2017-01-10 The General Hospital Corporation Systems and methods for fast reconstruction for quantitative susceptibility mapping using magnetic resonance imaging
CN105652243B (zh) * 2016-03-14 2017-12-05 西南科技大学 多通道群稀疏线性预测时延估计方法
US10127412B2 (en) * 2016-04-04 2018-11-13 Mojix, Inc. Location estimation and tracking for passive RFID and wireless sensor networks using MIMO systems
CN105929386B (zh) * 2016-04-14 2018-09-28 东南大学 一种基于高阶累积量的波达估计方法
CN110082725B (zh) * 2019-03-12 2023-02-28 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN111551898A (zh) * 2020-04-07 2020-08-18 云知声智能科技股份有限公司 一种抗混响的声源定位方法
CN112017680A (zh) * 2020-08-26 2020-12-01 西北工业大学 一种去混响方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统

Also Published As

Publication number Publication date
CN113655441A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
CN107993670B (zh) 基于统计模型的麦克风阵列语音增强方法
Gannot et al. Subspace methods for multimicrophone speech dereverberation
Salvati et al. Incoherent frequency fusion for broadband steered response power algorithms in noisy environments
WO2020121545A1 (ja) 信号処理装置、信号処理方法、およびプログラム
Hassani et al. Cooperative integrated noise reduction and node-specific direction-of-arrival estimation in a fully connected wireless acoustic sensor network
Niwa et al. Post-filter design for speech enhancement in various noisy environments
Teutsch et al. Detection and localization of multiple wideband acoustic sources based on wavefield decomposition using spherical apertures
Chen et al. Time delay estimation
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
Nikunen et al. Multichannel audio separation by direction of arrival based spatial covariance model and non-negative matrix factorization
CN110111802B (zh) 基于卡尔曼滤波的自适应去混响方法
CN113655440B (zh) 一种自适应折中预白化的声源定位方法
CN113655441B (zh) 一种低复杂度折中预白化的鲁棒声源定位方法
Gao et al. A modified frequency weighted MUSIC algorithm for multiple sound sources localization
Lim et al. Time delay estimation method based on canonical correlation analysis
US11790929B2 (en) WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network
Kitić et al. Generalized time domain velocity vector
Barfuss et al. Informed Spatial Filtering Based on Constrained Independent Component Analysis
Shimizu et al. Isotropic noise suppression in the power spectrum domain by symmetric microphone arrays
Hioka et al. Estimating power spectral density for spatial audio signal separation: An effective approach for practical applications
Salvati et al. Iterative diagonal unloading beamforming for multiple acoustic sources localization using compact sensor arrays
Beit-On et al. Binaural direction-of-arrival estimation in reverberant environments using the direct-path dominance test
Asano et al. Sound source localization in spatially colored noise using a hierarchical Bayesian model
Wang et al. Low-latency real-time independent vector analysis using convolutive transfer function

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant