CN110907892B - 一种球麦克风阵列语音信号到达角估计方法 - Google Patents
一种球麦克风阵列语音信号到达角估计方法 Download PDFInfo
- Publication number
- CN110907892B CN110907892B CN201911231286.3A CN201911231286A CN110907892B CN 110907892 B CN110907892 B CN 110907892B CN 201911231286 A CN201911231286 A CN 201911231286A CN 110907892 B CN110907892 B CN 110907892B
- Authority
- CN
- China
- Prior art keywords
- matrix
- frequency
- time
- spherical harmonic
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种球麦克风阵列语音信号到达角估计方法,首先将球阵采集高阶声场进行球谐波分解和短时傅里叶变换,计算局部时频块的频率平滑自相关矩阵;然后求解半正定规划问题获得恢复后的球谐波域协方差矩阵;并计算MUSIC空间谱获得声源位置。相对于已有的声源定位方法无需手动设置参数,因此实用性更好。同时,本发明公开方法对噪声和混响具有更高鲁棒性,对邻近声源分辨力更好。
Description
技术领域
本发明涉及一种球麦克风阵列语音信号到达角估计方法,属于声源定位技术领域。
背景技术
与自由空间中的信号源定位问题不同,房间混响环境下存在信号多径传播和系统欠定问题(散射体个数大于麦克风数目),因此经典环境下的DOA估计方法在高混响环境下存在性能下降。为了解决上述问题,Rafaely等人针对球麦克风阵列,引入频率平滑以缓解信号多径传播的影响,同时利用语音信号的时频稀疏特性,选择直接路径信号占主体的局部时频块,使用现有子空间类方法估计声源位置,从而解决系统欠定问题。但是,传统的EB-MUSIC、EB-ESPRIT(见参考文献[1]R.Goossens,R.Rogier,“Closed-form 2D angleestimation with a spherical array via spherical phase mode excitation andesprit,”IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP),pp.2321-2324,2008.)等方法在强相关、强噪声、短时信号等条件下性能迅速下降,而稀疏表示类方法多需要人为设定正则化参数,使用不便。因此,现有的声源定位方法对恶劣环境(强噪声,强混响)下的多声源定位问题性能有待进一步提升。
发明内容
本发明所解决的技术问题是,克服现有方法所遇到的局限,提出一种球麦克风阵列语音信号到达角估计方法,用于解决现有声源定位方法在恶劣环境下性能差的问题。
本发明的目的是这样实现的,一种球麦克风阵列语音信号到达角估计方法,其特征在于:包括如下步骤:
步骤一、球阵采集高阶声场进行球谐波分解和短时傅里叶变换,计算局部时频块的自相关矩阵,并进行频率平滑;
步骤二、将步骤一获得的局部时频块自相关矩阵,代入半定规划问题求解,获得恢复后的球谐波域协方差矩阵。
步骤三、利用步骤二求解得到的球谐波域协方差矩阵,并计算空间谱,即利用球谐波域协方差矩阵大奇异值所对应的奇异值矢量作为信号子空间计算空间谱
具体的,为介绍本发明中所述具体步骤,首先给出如下设定:考虑一个半径为R由I个全向阵元组成的球阵,球阵的第i个阵元位于ri=(R,Φi),其中其中θ和分别为仰角和方位角,接收信号表示为X(t)=[x1(t),…,xI(t)]T,[·]T表示矩阵转置,t表示时间。
本发明中步骤一具体步骤为:对接收信号X(t)作短时傅里叶变换,得到接收信号的时频序列X(v,l),其中v,l分别为时间和频率点索引。再对X(v,l)作球谐波变换(见参考文献[2]B.Rafaely,“Analysis and design of spherical microphone arrays,”IEEETransactions on Speech and Audio Processing,,vol.13,no.1,pp.135-143,2005.):
为连带勒让德多项式,N为对球阵采集信号作球谐波分解的最高球谐波阶数。将时频序列P(v,l)划分为若干局部时频块。令第v个时间、第l个频率上的局部时频块的包含Qv和Ql个时间和频率点,计算该局部时频块上的信号自相关矩阵:
式(9)中Tr(·)表示矩阵的迹,(·)H表示矩阵的共轭转置,Re(·)表示取实部,对于矩阵M,M≥0表示矩阵M半正定,表示第v个时间、第l个频率上的局部时频块自相关矩阵,G为固定系数矩阵。S(T)为由矩阵T定义的两层块Toeplitz矩阵:
Tl是由矩阵T的第l个行向量[xl,-2N,xl,-(2N-1),…,xl,2N]定义的Toeplitz矩阵:
N为对球阵采集高阶声场进行球谐波分解的最高球谐波阶数。
通过CVX软件计算式(9),获得Rv,l=GT(u)GH作为恢复后的球谐波域协方差矩阵。
本发明中步骤三具体步骤为:对第v个时间、第l个频率上的局部时频块,按照步骤二求解得到的球谐波域协方差矩阵Rv,l作奇异值分解,大奇异值对应的奇异值向量记为US(v,l),计算融合空间谱步骤为:
有益效果:
本发明所公开的一种超分辨球阵声源定位方法,相对于已有的子空间类声源定位方法对噪声和混响具有更好鲁棒性,对邻近声源分辨力更好。具体为:
(1)本发明步骤二中公开一种新的球谐波域信号协方差矩阵恢复方法,与传统子空间类方法相比,对强相关、强噪声、短时信号等条件具有更好的鲁棒性。
(2)与球上超分辨方法(见参考文献[3]T.Bendory,S.Dekel,and A.Feuer,“Super-Resolution on the Sphere Using Convex Optimization,”IEEE Transactionson Signal Processing,,vol.63,no.9,pp.2253-2262,2015)相比无需人工设置正则化参数,因此在实际应用中具有更好的鲁棒性。与SPA方法(见参考文献[4],Zai,Y.,X.Lihua,etal."A Discretization-Free Sparse and Parametric Approach for Linear Array"IEEE Transactions on Signal Processing,vol.62,no.19,pp.4959-4973,2014的区别在于本发明方法适用于球阵的二维到达角估计,而SPA方法仅适用于线阵的一维角度估计。
附图说明
图1为本发明方法流程图。
图2为本发明方法在不同信噪比下的均方根误差对比图。
图3为本发明方法在不同快拍数下的均方根误差对比图。
图4为本发明方法在房间混响环境下邻近声源定位结果对比图。
具体实施方式
一种球麦克风阵列语音信号到达角估计方法,包括如下步骤:
步骤一、球阵采集高阶声场进行球谐波分解和短时傅里叶变换,计算局部时频块的自相关矩阵,并进行频率平滑;
步骤二、将步骤一获得的局部时频块自相关矩阵,代入半定规划问题求解,获得恢复后的球谐波域协方差矩阵。
步骤三、对通过步骤二获得的球谐波域协方差矩阵计算MUSIC空间谱,获得声源位置。
步骤一具体步骤为:对接收信号X(t)作短时傅里叶变换,得到接收信号的时频序列X(v,l),其中v,l分别为时间和频率点索引;再对X(v,l)作球谐波变换:
为连带勒让德多项式,N为对球阵采集信号作球谐波分解的最高球谐波阶数;将时频序列P(v,l)划分为若干局部时频块;令第v个时间、第l个频率上的局部时频块的包含Qv和Ql个时间和频率点,计算该局部时频块上的信号自相关矩阵:
式(9)中Tr(·)表示矩阵的迹,(·)H表示矩阵的共轭转置,Re(·)表示取实部,对于矩阵M,M≥0表示矩阵M半正定,表示第v个时间、第l个频率上的局部时频块自相关矩阵,G为固定系数矩阵。S(T)为由矩阵T定义的两层块Toeplitz矩阵:
Tl是由矩阵T的第l个行向量[xl,-2N,xl,-(2N-1),…,xl,2N]定义的Toeplitz矩阵:
N为对球阵采集高阶声场进行球谐波分解的最高球谐波阶数;
通过CVX软件计算式(9),获得Rv,l=GT(u)GH作为恢复后的球谐波域协方差矩阵。
本发明中步骤三具体步骤为:对第v个时间、第l个频率上的局部时频块,按照步骤二求解得到的球谐波域协方差矩阵Rv,l作奇异值分解,大奇异值对应的奇异值向量记为US(v,l),计算融合空间谱步骤为:
本发明方法是基于球麦克风阵列,按照图1所述流程图实现声源定位。
步骤一中,频率平滑和自相关矩阵计算应选择合适频带,频率太低则受噪声影响大,精度不足;频率太高会导致球谐波变换出现空间混叠,一般应使N>κR,且I>(N+1)2。
式(13)中{βn,k,l}为唯一确定系数。故
式(15)中
步骤三中,大奇异值的选取可以由以下方法实现,令σ1≥σ2≥…≥σ(N+1) 2为Rv,l=GT(u)GH奇异值分解获得的各奇异值,设置阈值α,当σn≥ασ1时为代表信号的大奇异值。
下面结合一些具体实施实例,对本发明作具体说明:
实施实例1
考虑38全向阵元,半径0.042m的硬壳球阵,阵元服从Lebedov分布,球谐波函数的最大阶数是N=4。假设有两个独立的源位于和其中θ和分别表示俯仰角和方位角,信噪比为0-10dB,快拍数为200。将该方法和L1-Norm(见参考文献5)以及SH-ESPRIT方法(见参考文献1)比较到达角估计的均方根误差。如图2所示,可见本发明方法具有更好的估计精度。
实施实例2
考虑38全向阵元,半径0.042m的硬壳球阵,阵元服从Lebedov分布,球谐波函数的最大阶数是N=4。假设有两个独立的源位于和信噪比0dB,比较快拍数从100到1000变化时,本发明方法与SH-ESPRIT方法(见参考文献1),L1-Norm(见参考文献[5]P.K.T.Wu,N.Epain,et al.“A dereverberation algorithm forspherical)microphone arrays using compressed sensing techniques,”IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),2012.)的均方根误差。由图3所示,本发明方法在低快拍数,低信噪比条件下仍具有良好性能。
实施实例3
考虑房间混响场景下的声源定位应用。设一个矩形房间,房间尺寸为4×6×3m,一个32阵元近似均匀分布硬壳球阵麦克风阵列位于[x,y,z]=[2.6,3.05,0.7],两个声源位于[x,y,z]=[1.69,4.05,1.57]和[x,y,z]=[1.2,3.5,1.7],相对俯仰方位角分别是和房间混响时间T60=0.2秒,信噪比30dB,对接收语音信号作短时傅里叶变换后选择单频点计算协方差矩阵,每帧快拍数Jτ=5,分别计算DPD-MUSIC(见参考文献1)与本发明所公开方法的空间谱,如图2所示,其中图中□代表真实值:在此实例中,本发明所公开方法代替DPD-MUSIC(见参考文献[6]O.Nadiri and B.Rafaely.“Localization of Multiple Speakers under High Reverberation using a SphericalMicrophone Array and the Direct-Path Dominance Test”.IEEE/ACM transactions onaudio,speech,and language processing,vol.22,no.10,2014)中MUSIC方法环节。
可见,在上述房间混响环境下,DPD-MUSIC方法只能显示出一个谱峰,误差比较大,而本发明公开方法能够准确定位两个说话人位置,表现出更好的空间分辨率。
Claims (2)
1.一种球麦克风阵列语音信号到达角估计方法,其特征在于,包括如下步骤:
步骤一、球阵采集高阶声场进行球谐波分解和短时傅里叶变换,计算局部时频块的自相关矩阵,并进行频率平滑;
步骤二、将步骤一获得的局部时频块自相关矩阵,代入半定规划问题求解,获得恢复后的球谐波域协方差矩阵;
步骤三、对通过步骤二获得的球谐波域协方差矩阵计算MUSIC空间谱,获得声源位置;
考虑一个半径为R由I个全向阵元组成的球阵,球阵的第i个阵元位于ri(R,Φi),其中其中和分别为仰角和方位角,接收信号表示为X(t)[x1(t),…,xI(t)]T,[·]T表示矩阵转置,t表示时间;
步骤一具体步骤为:对接收信号X(t)作短时傅里叶变换,得到接收信号的时频序列X(v,l),其中v,l分别为时间和频率点索引;再对X(v,l)作球谐波变换:
为连带勒让德多项式,N为对球阵采集信号作球谐波分解的最高球谐波阶数;将时频序列P(v,l)划分为若干局部时频块;令第v个时间、第l个频率上的局部时频块的包含Qv和Ql个时间和频率点,计算该局部时频块上的信号自相关矩阵:
式(9)中Tr(·)表示矩阵的迹,(·)H表示矩阵的共轭转置,Re(·)表示取实部,对于矩阵M,M≥0表示矩阵M半正定,表示第v个时间、第l个频率上的局部时频块自相关矩阵,G为固定系数矩阵;S(T)为由矩阵T定义的两层块Toeplitz矩阵:
Tl是由矩阵T的第l个行向量[xl,-2N,xl,-(2N-1),…,xl,2N]定义的Toeplitz矩阵:
N为对球阵采集高阶声场进行球谐波分解的最高球谐波阶数;
通过CVX软件计算式(9),获得Rv,lGT(u)GH作为恢复后的球谐波域协方差矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231286.3A CN110907892B (zh) | 2019-12-05 | 2019-12-05 | 一种球麦克风阵列语音信号到达角估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231286.3A CN110907892B (zh) | 2019-12-05 | 2019-12-05 | 一种球麦克风阵列语音信号到达角估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110907892A CN110907892A (zh) | 2020-03-24 |
CN110907892B true CN110907892B (zh) | 2023-05-09 |
Family
ID=69822387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911231286.3A Active CN110907892B (zh) | 2019-12-05 | 2019-12-05 | 一种球麦克风阵列语音信号到达角估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110907892B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111812581B (zh) * | 2020-06-16 | 2023-11-14 | 重庆大学 | 基于原子范数的球面阵列声源波达方向估计方法 |
CN115407270B (zh) * | 2022-08-19 | 2023-11-17 | 苏州清听声学科技有限公司 | 一种分布式阵列的声源定位方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102866385B (zh) * | 2012-09-10 | 2014-06-11 | 上海大学 | 一种基于球麦克风阵列的多声源定位方法 |
CN106501765B (zh) * | 2016-12-02 | 2018-09-25 | 南京邮电大学 | 一种基于平方和与半定规划的最大似然波达方向估计方法 |
CN107907852B (zh) * | 2017-10-27 | 2021-08-03 | 大连大学 | 基于空间平滑的协方差矩阵秩最小化doa估计方法 |
CN107884741B (zh) * | 2017-10-30 | 2021-01-19 | 北京理工大学 | 一种多球阵列多宽带声源快速定向方法 |
-
2019
- 2019-12-05 CN CN201911231286.3A patent/CN110907892B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110907892A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 | |
US9462378B2 (en) | Apparatus and method for deriving a directional information and computer program product | |
CN107247251B (zh) | 基于压缩感知的三维声源定位方法 | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
CN110907893B (zh) | 一种适用于球麦克风阵列的超分辨声源定位方法 | |
Silverman et al. | Performance of real-time source-location estimators for a large-aperture microphone array | |
CN108375763B (zh) | 一种应用于多声源环境的分频定位方法 | |
Gunel et al. | Acoustic source separation of convolutive mixtures based on intensity vector statistics | |
US10455323B2 (en) | Microphone probe, method, system and computer program product for audio signals processing | |
Teutsch et al. | Detection and localization of multiple wideband acoustic sources based on wavefield decomposition using spherical apertures | |
CN110907892B (zh) | 一种球麦克风阵列语音信号到达角估计方法 | |
Alon et al. | Spatial decomposition by spherical array processing | |
Çöteli et al. | Sparse representations with legendre kernels for doa estimation and acoustic source separation | |
Mazur et al. | Robust room equalization using sparse sound-field reconstruction | |
CN112710990B (zh) | 适用于任意平面阵列形式的二维无网格压缩波束形成方法 | |
Bush | Acoustic And Bayesian Analyses Of N-Tuple Coprime Arrays | |
CN116881690A (zh) | 一种基于球谐域信号增强网络模型的声源定位方法 | |
CN117826076A (zh) | 一种基于空时信息联合的近场源三维参数欠定估计方法 | |
CN114966548A (zh) | 一种室内相干脉冲声源aoa的谱估计方法 | |
Uppalapati et al. | Far-Field Wiener Beamforming and Source Localization in Frequency Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |