CN113593596A - 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 - Google Patents
一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 Download PDFInfo
- Publication number
- CN113593596A CN113593596A CN202110769912.5A CN202110769912A CN113593596A CN 113593596 A CN113593596 A CN 113593596A CN 202110769912 A CN202110769912 A CN 202110769912A CN 113593596 A CN113593596 A CN 113593596A
- Authority
- CN
- China
- Prior art keywords
- array
- sub
- subarray
- arrays
- covariance matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 239000011159 matrix material Substances 0.000 claims abstract description 82
- 238000003491 array Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 39
- 230000003044 adaptive effect Effects 0.000 claims description 27
- 239000000126 substance Substances 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000005314 correlation function Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 241000838698 Togo Species 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 11
- 230000002829 reductive effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000011231 Crohn disease Diseases 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于子阵划分的鲁棒自适应波束形成定向拾音方法,该方法包括:对均匀面阵列接收的时域信号进行短时傅立叶变换,得到频域信号;对均匀面阵列按照均匀有重叠阵元的方式得到若干个子阵;对每个子阵的频域信号使用延时求和波束形成器;依据延时求和波束形成器的输出结果,进行DOA估计,判断当前帧是否有目标信号,并进行DOA信息标记;使用MVDR波束形成算法对各个子阵的输出信号进行预增强,得到预增强结果;根据DOA信息标记结果及预增强结果,进行迭代处理,得到估计噪声协方差矩阵;依选取KP形成器的两个虚拟子阵,分别使用自适应波束形成,采用虚拟子阵相互迭代的方式计算得到权系数,进而得到最终的波束形成输出。
Description
技术领域
本发明涉及信号处理技术领域,尤其涉及一种基于子阵划分的鲁棒自适应波束形成定向拾音方法。
背景技术
大型传声器阵列具有阵元多、孔径大等特点,这些特点在一定程度上有利于提升波束形成器提取远场目标信号及抑制干扰的能力。然而对于数据驱动型自适应波束 形成器,传声器个数的增加会导致协方差矩阵维度增大,而准确估计噪声协方差矩阵 所需要的快拍数至少为维度(即传声器数目)的两倍。当快拍数较少时,协方差矩阵 会出现奇异,导致自适应波束形成算法的性能大幅下降。同时,更高维的协方差矩阵 求逆需要大量的计算资源,增加了系统的存储量和运算量。因此,如何降低运算复杂 度,同时利用较少的快拍数实现鲁棒的波束形成器,是亟待研究的问题。
根据波束形成器系数是否依赖数据本身,常用的大型传声器阵列波束形成器可以分为固定波束形成器和自适应波束形成器。常用的固定波束形成器有延时求和波 束形成器(Delay and Sum Beamformer,DSB)、超指向波束形成器(SuperdirectiveBeamformer,SDB)、Dolph-Chebyshev波束形成器等。自适应波束形成器包括最小方 差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成器、线性约 束最小方差(Linearly Constrained minimum variance,LCMV)波束形成器、广义旁瓣消 除(Generalized Sidelobe Canceller,GSC)波束形成器、广义特征值分解(GeneralizedEigenvalue,GEV)波束形成器等。一般情况下,固定波束形成器运算量低、鲁棒性高, 但噪声与干扰的抑制能力有限;自适应波束形成器对干扰声源有较强的抑制能力,但 也存在运算量大、鲁棒性不佳等问题。特别是当声源到传声器的导向矢量估计出现偏 差、快拍数较少、或者估计的噪声协方差矩阵中混有一部分目标语音时,都有可能会 造成“自消”现象,导致目标信号被抑制出现失真。针对上述问题,本领域技术人员 提出了经典的对角加载方法。以及在传声器阵列中使用克罗内科积(Kronecker Product, KP)波束形成方法提高自适应波束形成器的鲁棒性,但该方法在计算过程中仍无法降 低协方差矩阵的维度。实际应用中,特别是在传声器数目较多的大型阵列系统中,当 快拍数相较于大型传声器阵列的阵元数较少时,上述波束形成器的鲁棒性依然较差。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种基于子阵划分的鲁棒自适应波束形成定向拾音方法。
为了实现上述目的,本发明提出了一种基于子阵划分的鲁棒自适应波束形成定向拾音方法,所述方法包括:
对均匀面阵列接收的时域信号进行短时傅立叶变换,得到频域信号;
对均匀面阵列按照均匀有重叠阵元的方式进行子阵划分,得到若干个子阵;
对每个子阵的频域信号使用延时求和波束形成器,得到各个子阵的输出信号;
依据延时求和波束形成器的输出信号,进行DOA估计,判断当前帧是否有目标 信号,并进行DOA信息标记;
使用MVDR波束形成算法对各个子阵的输出信号进行预增强,得到预增强结果;
根据DOA信息标记结果及预增强结果,进行迭代处理,得到估计噪声协方差矩 阵;
依据均匀面阵列特点选取KP形成器的两个虚拟子阵,分别对两个虚拟子阵使用自适应波束形成,采用虚拟子阵相互迭代的方式计算得到权系数,进而得到最终的波 束形成输出。
作为上述方法的一种改进,所述对均匀面阵列按照均匀有重叠阵元的方式进行子阵划分,得到若干个子阵;具体包括:
对于均匀面阵列按照从左到右及由上至下的顺序进行编号,选取每一行的3个 阵元为一个子阵,相邻子阵之间有一个阵元重叠,得到I个子阵。
作为上述方法的一种改进,所述对每个子阵的频域信号使用延时求和波束形成器得到各个子阵的输出信号;具体包括:
其中,k表示第k个频谱分量,fk为第k个频谱分量对应的频率,j表示虚部,exp(·)表示以自然常数e为底的指数函数;
从而得到I个子阵的输出信号集合YDSB(k,l)为:
YDSB(k,l)=[YDSB,1(k,l),YDSB,2(k,l),…,YDSB,I(k,l)]T
作为上述方法的一种改进,所述依据延时求和波束形成器的输出信号,进行DOA估计,判断当前帧是否有目标信号,并进行DOA信息标记;具体包括:
由第m个子阵延时求和波束形成器的输出信号YDSB,m(k,l)和第n个子阵延时求 和波束形成器的输出信号YDSB,n(k,l),计算互相关函数Cnm(k,l):
将所有子阵的接收信号两两组合相加得到可控波束形成器的输出功率P(k,l):
其中,m=1,2,…I,n=1,2,…I;Gmn(k,l)表示加权系数,采用PHAT加权去除各 频点的幅度影响仅保留相位信息,满足下式:
设空间中需要扫描的方向集合Θ={Ωo,1,Ωo,2,…Ωo,q},下角标q表示总的空间扫 描方位个数,依次搜索该空间,得到该空间的功率谱,若在目标方向有局部最大值, 则表示当前帧有目标信号,令DOA估计结果F(k,l)=1;否则F(k,l)=0。
作为上述方法的一种改进,所述使用MVDR波束形成算法对各个子阵的输出信 号进行预增强,得到预增强结果;具体包括:
其中,L为统计总帧数;H表示共轭转置;
作为上述方法的一种改进,所述根据DOA信息标记结果及预增强结果,进行迭 代处理,得到估计噪声协方差矩阵;具体包括:
使用第u-1次预增强信号以及DOA估计结果F(k,l),迭代估计噪声协方 差矩阵,其中第u次迭代的噪声协方差矩阵结果为按照以下公式顺序迭代,直 到噪声协方差矩阵收敛或迭代达到预设的最大次数,此时得到的为估计噪声协方 差矩阵:
作为上述方法的一种改进,所述依据均匀阵列特点选取KP形成器的两个虚拟子阵,分别对两个虚拟子阵使用自适应波束形成,采用虚拟子阵相互迭代的方式计算得 到权系数,进而得到最终的波束形成输出;具体包括:
步骤2)对于第一虚拟子阵使用MVDR波束形成器,满足以下优化问题表达式:
ZSSKPMV(k,l)=hH(k,l)YDSB(k,l)。
与现有技术相比,本发明的优势在于:
1、本发明提出运用子阵划分的波束形成方法,首先通过构造子阵的方式设计多个固定波束形成器,在形成预导向滤波的同时降低后续运算中协方差矩阵的维度,提 高了低快拍情况下波束形成器的鲁棒性;
2、设计基于克罗内科积的子阵自适应波束形成器(SKPMV),该波束形成器对 预导向滤波的子阵输出信号,采用虚拟子阵相互迭代的方式计算得到权系数。相比于 传统的MVDR波束形成器,新的波束形成器虽然牺牲了部分自由度,但可以显著降 低算法运算量并提高低快拍情况下的鲁棒性;
3、本发明提出一种基于DOA信息的协方差矩阵估计方法,并将估计出的协方 差矩阵带入前述基于克罗内科积的自适应波束形成器中,可以在降噪的同时显著减 小低快拍数情况下的目标信号失真,实际实验结果表明,本发明的方法在保证拾音效 果的同时有效降低运算复杂度并提高算法鲁棒性,具有重要的应用价值。
附图说明
图1是信号模型示意图;
图2是传声器序号示意图;
图3是本发明的算法流程;
图4是噪声协方差矩阵估计的算法流程;
图5是子阵划分示意图;
图6是KP波束形成分解示意图;
图7是声源位置示意图;
图8是不同干扰个数的降噪量与PESQ结果,其中图8(a)是降噪量对比,图8(b) 是PESQ得分对比;
图9是实录数据的处理结果,其中(a)是纯净语音;(b)是接收信号;(c)是MVDR 结果(96快拍);(d)是SSKPMV结果(96快拍);(e)是MVDR结果(200快拍);
图10是实录数据的处理结果,其中(a)是纯净语音;(b)是接收信号;(c)是SSKPMV处理结果(接收信号协方差矩阵);(d)是SSKPMV处理结果(估计噪声协方差矩阵); (e)是SSKPMV处理结果(理想噪声协方差矩阵)。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
本发明提出一种基于子阵划分的鲁棒自适应波束形成定向拾音方法,该方法适用于阵型具有空间平移特点的阵列拾音系统,即阵列可由其一部分多次平移得到。该 方法主要分为以下两部分:
1)提出一种基于子阵划分的波束形成方法。首先,对阵列进行子阵划分,并在 每个子阵内形成指向目标声源的固定波束形成器,该方法可以有效降低运算量,同时 预导向后可以提供鲁棒的阵增益。其次,将预导向后的输出信号作为后续KP自适应 波束形成器的输入信号,该方法可以在传声器数较多而低快拍情况下有效降低协方 差矩阵维度及运算量,从而提高协方差矩阵估计的准确性及自适应波形形器的鲁棒 性。
2)提出了一种基于DOA信息的噪声协方差矩阵估计方法,可以从接收信号中 准确估计协方差矩阵,从而提高发明所提波束形成器在实际应用中的鲁棒性,降低目 标信号“自消”带来的影响。实际实验结果表明,本发明提出的基于子阵划分的波 束形成方法以及基于DOA信息的噪声协方差矩阵估计方法,可在保证远场拾音效果 的同时极大降低运算复杂度,并提高算法鲁棒性。
1.信号模型
本发明提出的方法适用于阵型具有空间频移特点的传声器阵列系统,例如均匀面阵和均匀线阵等。不失一般性,本发明以均匀面阵进行说明,均匀线阵可以看成均 匀面阵的特例,原理类似,在本发明中不再单独说明。一个典型的应用场景如图1所 示,传声器接收信号包括目标信号,干扰信号以及环境噪声信号等。假设M元均匀 面阵放置于面yOz中,阵列中心与原点O重合。每一行(y轴方向)和每一列(z轴 方向)分别有M1个和M2个传声器,且M1M2=M,y轴方向和z轴方向相邻两个传 声器的间距分别为δ1和δ2。不失一般性,按照从左到右、由上至下的顺序,传声器依 次编号为1,2,…M,具体参见图2。阵列接收的时域信号y(t)经过短时傅立叶变换 (Short-time Fourier Transform,STFT),得到第l帧、NFFT点FFT的第k个频谱分量:
其中,Ym(k,l)表示第m个传声器的接收信号,Xd(k,l)与Xg(k,l)分别表示目标信号值与干扰信号值,与分别表示目标信号与第g个干扰信号的导向矢量, W(k,l)表示噪声信号。假设目标声源从远场以入射,其中和θd分别表 示俯角和水平角,则目标信号的导向矢量为:
其中,pm=[px,m,py,m,pz,m]T为第m个传声器在三维笛卡尔坐标系的坐标, m=1,2,3…M是传声器序号,c为声速,fk为第k个频谱分量对应的频率。利用M×1 维的复数权向量h(k,l)对接收信号Y(k,l)进行滤波处理,得到增强后的信号值Z(k,l):
Z(k,l)=hH(k,l)Y(k,l) (3)
最后对所有频点的输出信号进行逆短时傅里叶变换(Inverse Short-TimeFourier Transform,ISTFT),得到增强后的时域输出信号。
2.基于子阵划分的波束形成方法
为解决大型传声器阵列波束形成器运算量过大、低快拍情况下鲁棒性差的问题,本发明首先提出一种基于子阵划分的波束形成方法,主要分为以下两步:第一步为子 阵划分后的固定预滤波波束形成,第二步为预导向后的KP自适应波束形成。第一步 方法中以延时求和波束形成器为例进行说明,超指向波束形成器等固定波束形成器 同样适用;第二步方法中以MVDR波束形成器为例进行说明,LCMV等自适应波束 形成器同样适用。两种波束形成器分别称为子阵延时求和波束形成器(Subarray Delay and Sum Beamformer,SDSB)与预导向后的KP积最小方差(Steered Kronecker Product Minimum Variance,SKPMV)波束形成器,整体称为子阵导向KP积最小方差(Subarray Steered Kronecker ProductMinimum Variance,SSKPMV)波束形成器,具体实现步骤如 图3和图4所示。
本发明提出的基于子阵划分的波束形成方法具有以下优点:首先,子阵延时求和波束形成器通过子阵划分的方法,大幅降低了SKPMV波束形成器接收信号的维度, 提高了低快拍情况下的鲁棒性;其次,子阵延时求和波束形成器提供较为鲁棒的阵增 益和指向性,且运算量远小于标准MVDR波束形成器;最后,SKPMV波束形成器 采用虚拟子阵相互迭代的方式计算得到权系数,虽然牺牲了部分自由度,但可以降低 算法运算量并提高鲁棒性。基于上述优点分析,本发明设计的基于子阵划分的波束形 成方法可以在保证波束形成器效果的前提下,大幅降低算法运算量并提高鲁棒性。
2.1子阵延时求和波束形成器
为降低后续自适应波束形成中协方差矩阵的维度,并弥补其与标准SKPMV波 束形成器的阵增益差异,本发明采用子阵延时求和波束形成器进行预处理,主要步骤 如下:
首先,该方法将整体阵列依照某种规律划分为多个子阵,对每个子阵进行延时求和波束形成,相当于在每个子阵的几何中心形成具有指向性的传声器,并将输出信号 作为下一步SKPMV波束形成器的输入信号。为避免歧义,将由子阵组成的阵列称 为新面阵,而实际的均匀面阵为原面阵;
其次,经过延时求和波束形成后,输出信号中噪声与干扰成分已得到部分抑制,提高了后续SKPMV波束形成器的输入信噪比;
最后,子阵延时求和波束形成器的输出信号的维度远小于原接收信号的维度,这有利于低快拍情况下噪声协方差矩阵的精确估计,进而提升SKPMV波束形成器的 鲁棒性。
具体的,子阵延时求和波束形成器的具体设计方法为:
1)对阵列的每个阵元进行编号,按照从左到右、由上至下的顺序,传声器依次 编号为1,2,…M。
2)以图5为例,本发明选取每一行的3个阵元为一个子阵,相邻子阵之间有一 个阵元重叠。计算每个子阵的几何中心,相当于在此中心形成新的具有指向性的传声 器。最终得到的新面阵的阵元间距为原面阵的两倍,阵元个数减少至原面阵一半以 下。
3)假设最终划分得到I个子阵,以第i个子阵为例,进行延时求和波束形成, 其中i=1,2,…I。假设该子阵所包含的阵元的三维坐标分别是pi,1、pi,2和pi,3,几何中 心的三维坐标是pi,New,则由式(2)可知该子阵的1号阵元到几何中心的延时为:
4)同理,按照步骤3)的方法依次对各个子阵使用延时求和波束形成器,得到各 个子阵的输出信号:
YDSB(k,l)=[YDSB,1(k,l),YDSB,2(k,l),…,YDSB,I(k,l)]T (7)
至此,第一步子阵延时求和波束形成器完成,此时相当于在每个子阵的几何中心位置形成指向性传声器,并组成一个新的均匀面阵,其输出信号YDSB(k,l)是下一步 SKPMV波束形成器的输入。
2.2预导向后的克罗内科积最小方差波束形成器
为进一步提高自适应波束形成器的鲁棒性、降低运算量,本发明在第二步中使用SKPMV波束形成器。该方法依据阵元位置的几何关系,将整体阵列分解为两个虚拟 子阵,然后分别对两个虚拟子阵使用MVDR波束形成器,最后通过互相迭代的方式 得到整体的自适应波束形成的权向量。该波束形成方法具有如下优点:首先,新面阵 信号协方差矩阵的维度远小于原面阵信号协方差矩阵的维度,在低快拍情况下时噪 声协方差矩阵的估计更为精确。其次,SKPMV波束形成器只对两个虚拟子阵进行权 系数求解,降低了阵列自由度、运算量以及噪声协方差矩阵估计所需要的快拍。低快 拍数情况下,SKPMV波束形成器可以更准确地估计噪声协方差矩阵,进而提高阵增 益与鲁棒性。最后,SKPMV波束形成器的迭代次数可以依据不同场景进行选择,环 境越复杂迭代次数越大,具体的迭代次数应在运算量与波束形成效果间进行权衡。该 方法具体步骤如下所示:
1)如图6所示,可以将阵列(此处具体为使用子阵延时求和波束形成器后得到 的新面阵)的第一行与第一列划分为虚拟子阵1和2,其阵元个数分别为M1和M2。 对于均匀面阵,虚拟子阵选取时须满足选取的两个虚拟子阵的导向矢量的KP积等于 新面阵的导向矢量,即其中和分别表示虚拟子阵1、2和新面阵的导向矢量,计算方法与式(2)相同。
2)本发明以虚拟子阵1作为初始化子阵为例,对该子阵使用MVDR波束形成 器,即保证目标方向上信号无损,同时残留噪声方差最小。根据该原则设计优化问题 表达式:
5)至此,第一次迭代完成,此时整体的权向量为:继续重复步骤 3和步骤4直到最大迭代次数N,再计算最终整体的权向量对于不同 的环境,所选取的迭代次数可以不一致,声学环境越复杂,迭代次数越多。本发明以 迭代次数5次为例进行仿真,在大部分应用场景中5-10次迭代即可取得比较好的效 果。
6)最后,利用子阵延时求和波束形成器得到的信号与步骤5得到的权向量,求 解当前帧SSKPMV波束形成的输出信号:
ZSSKPMV(k,l)=hH(k,l)YDSB(k,l) (14)
2.3实验验证
为验证本发明所提方法的有效性,这里使用96阵元的均匀面阵进行实测数据实验,均匀面阵的行与列各有12个与8个传声器,阵元间距均为4cm,帧长为1024, 帧移为512,使用的窗函数为汉明窗。实验地点为半消声室,环境噪声的声压级约为 22dB,器件摆放示意图及96元传声器采集系统如图7和图8所示。声源中心与阵 列中心高度一致,均为95cm,目标声源位于正前方0°,当有一个干扰声源时,其位 于30°;有两个干扰声源时,二者分别位于30°和-40°。所有的声源均使用语音作为信 号,相距阵列均为5m,声压级均为65dB。
为验证低快拍情况的波束形成效果,使用96帧噪声段信号估计噪声样本协方差矩阵。使用约600s的数据,重复计算30次,对各波束形成算法进行客观指标分析。 图9给出了不同干扰个数条件下不同方法的降噪量与PESQ得分,由结果可知, SSKPMV的降噪量和PESQ结果均优于标准MVDR的结果。
图10给出只有一个干扰声源时不同方法的语谱图,其中(a)-(e)分别是目标语音、接收信号、标准MVDR处理(96个快拍)、SSKPMV处理和标准MVDR处理后的 语音信号(200快拍)。首先,由图(c)和(d)结果0-1s处的对比可知,SKPMV的降噪 量大于标准MVDR的结果;对比2s-2.8s的处理结果,标准MVDR方法已经严重损 伤语音,而SSKPMV方法可以有效保留语音谐频,因此低快拍情况下SSKPMV具 有更好的鲁棒性。其次,由图(d)和(e)可知SSKPMV处理和标准MVDR处理后的语 音信号(200快拍)的结果非常接近,即标准MVDR需要200个快拍进行噪声协方 差矩阵的估计才能得到使用96个快拍进行噪声协方差矩阵的估计时SSKPMV方法 的效果。
表1给出不同迭代次数时SSKPMV方法的运算量相对于标准MVDR波束形成 的运算量的百分比。由结果可知,当迭代次数不超过5次时,SSKPMV方法的运算 量远小于标准MVDR的运算量。
表1不同迭代次数的运算量
通过上述实验对比结果可知,相比于标准MVDR方法,本发明提出的SSKPMV 方法的运算量显著降低,同时在低快拍数情况下SSKPMV方法可以有效地保留语音 成分,具有较强的鲁棒性,因此降噪量和PESQ结果均明显优于标准MVDR方法。 综上所述,本发明提出的新方法在保证拾音效果的同时,极大降低运算复杂度并增强 鲁棒性。
3.基于DOA信息的协方差矩阵估计方法
3.1干扰噪声协方差矩阵估计方法
使用MVDR波束形成器这类自适应波束形式器对目标语音进行增强时,噪声协 方差矩阵的不应包含目标语音成分,否则易导致目标语音出现“自消”现象。由2.3 节结果可知,本发明所提SSKPMV方法在假设纯噪声帧已知并使用纯噪声帧估计噪 声协方差矩阵时,可以取得较好的效果。但在实际应用中,理想的噪声协方差矩阵一 般是未知的。为了从接收信号中准确估计噪声协方差矩阵,国内外学者提出了许多方 法例如:基于DOA估计的语音活动性检测方法,复高斯混合模型方法(Complex Gaussian Mixture Model,CGMM)等。基于DOA估计的语音活动性检测方法一般不 太准确,容易出现虚警和漏判;基于CGMM的方法难以满足实际应用中实时性的要 求。还有学者提出一种新型的干扰协方差矩阵估计方法,并将这种方法应用到波束形 成中增强语音信号。该方法在语音自动识别领域取得了比传统MPDR波束形成方法 更低的字错误率。但该算法为离线非因果算法,需要使用后续帧的数据辅助判断当前 帧的信噪比,因此无法满足实时处理的要求。同时该方法仅考虑了时间上信号的统计 特性,没有充分利用信号的空间信息。因此,为了进一步提高鲁棒性并满足实时性的 要求,本发明提出一种结合DOA信息的干扰噪声协方差矩阵估计方法。该方法具体步骤如下所示:
1)使用波达方向估计(Direction Of Arrival,DOA)判断当前帧是否有目标语音存 在。具体地,本发明使用相位加权变换的可控响应功率法(Steered Response PowerPhase-Transform,SRP-PHAT)进行DOA估计。首先,估计两两传声器之间的互相关, 以新面阵的第i和i+1个传声器为例,其互相关函数为:
其中,Gmn(k,l)表示加权系数,本发明采用PHAT加权去除各频点的幅度影响仅保留相位信息,即:
将式(17)带入式(16)得到PHAT加权时的SRP输出功率为:
假设空间中需要扫描的方向集合为Θ={Ωo,1,Ωo,2,…Ωo,q},依次搜索此空间,得到该 空间的功率谱。若在目标方向有局部最大值,则表示当前帧有目标信号。具体的使用 F(k,l)数组纪录当前频率当前帧是否存在目标信号,若存在F(k,l)=1反之 F(k,l)=0。
2)使用MVDR波束形成算法预增强延迟求和波束形成器输出信号YDSB(k,l)。 通常MVDR波束形成算法使用噪声协方差矩阵估计波束形成权向量,这里使用延迟 求和波束形成器输出信号协方差矩阵代替噪声协方差矩阵,即:
计算MVDR波束形成器权向量为:
预增强信号为:
3.2实验验证
为验证本发明所提方法的有效性,这里使用96阵元的均匀面阵进行实测数据实验,实验设置同2.3节实验。图10给出一个干扰源时的不同方法的语谱图。其中(a)- (e)分别是目标语音、接收信号、SSKPMV处理结果(使用接收信号协方差矩阵)、 SSKPMV处理结果(使用所提方法估计的噪声协方差矩阵)、SSKPMV处理结果(使 用理想噪声协方差矩阵)。
对比图(c)-(e)的结果可知,由于使用的远场导向矢量存在误差,且接收信号协方差矩阵包含目标信号,因此图(c)出现了严重的信号自消现象。然而对比图(d)和(e)可 发现,本发明所提算法较精确的估计了噪声协方差矩阵,但相较理想噪声协方差矩阵 仍有差异。综上所述,本发明所提出的基于DOA信息的协方差矩阵估计方法能较准 确的从接收信号中估计出噪声协方差矩阵,进一步提高发明第2节中所提SSKPMV 波束形成器的鲁棒性。
4.总结
本节对本发明提出的基于子阵划分的鲁棒自适应波束形成定向拾音方法进行小结,具体步骤如下:
1)对原阵列按照均匀有重叠阵元的方式进行子阵划分;
2)根据式(6)和式(7)对每个子阵的信号使用延时求和波束形成器进行处理,并将输出结果作为后续DOA及KP波束形成器的输入信号;
3)依据延时求和波束形成器的输出结果,利用式(18)进行DOA估计,判断当前 帧是否有目标语音,并进行标记;
4)根据DOA信息标记结果及式(21)得到的预增强结果,采用式(22)至(24)进 行迭代处理,估计噪声协方差矩阵;
5)依据阵列特点选取KP波束形成器的虚拟子阵1和2;
6)根据式(9)和式(11)分别对两个虚拟子阵使用自适应波束形成,根据式(9)至式(13)采用虚拟子阵相互迭代的方式计算得到权系数,进而得到最终的波束形成输出。
本发明提出一种新型的基于子阵划分的鲁棒自适应波束形成定向拾音方法,可用于大型传声器阵列拾音。本发明提出运用子阵划分的波束形成方法,首先通过构造 子阵的方式设计多个固定波束形成器,在形成预导向滤波的同时降低后续运算中协 方差矩阵的维度,提高了低快拍情况下波束形成器的鲁棒性;其次,设计基于克罗内 科积的子阵自适应波束形成器,提高自适应波束形成器的鲁棒性并进一步降低运算 量。为了解决实际应用中自适应波束形成器的“自消”问题,本发明提出一种基于 DOA信息的协方差矩阵估计方法,并将估计出的协方差矩阵带入前述基于克罗内科 积的自适应波束形成器中,可以在降噪的同时显著减小低快拍数情况下的目标信号 失真。实际实验结果表明,本发明提出的新方法在保证拾音效果的同时有效降低运算 复杂度并提高算法鲁棒性,具有重要的应用价值。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技 术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖 在本发明的权利要求范围当中。
Claims (7)
1.一种基于子阵划分的鲁棒自适应波束形成定向拾音方法,所述方法包括:
对均匀面阵列接收的时域信号进行短时傅立叶变换,得到频域信号;
对均匀面阵列按照均匀有重叠阵元的方式进行子阵划分,得到若干个子阵;
对每个子阵的频域信号使用延时求和波束形成器,得到各个子阵的输出信号;
依据延时求和波束形成器的输出信号,进行DOA估计,判断当前帧是否有目标信号,并进行DOA信息标记;
使用MVDR波束形成算法对各个子阵的输出信号进行预增强,得到预增强结果;
根据DOA信息标记结果及预增强结果,进行迭代处理,得到估计噪声协方差矩阵;
依据均匀面阵列特点选取KP形成器的两个虚拟子阵,分别对两个虚拟子阵使用自适应波束形成,采用虚拟子阵相互迭代的方式计算得到权系数,进而得到最终的波束形成输出。
2.根据权利要求1所述的基于子阵划分的鲁棒自适应波束形成定向拾音方法,其特征在于,所述对均匀面阵列按照均匀有重叠阵元的方式进行子阵划分,得到若干个子阵;具体包括:
对于均匀面阵列按照从左到右及由上至下的顺序进行编号,选取每一行的3个阵元为一个子阵,相邻子阵之间有一个阵元重叠,得到I个子阵。
3.根据权利要求2所述的基于子阵划分的鲁棒自适应波束形成定向拾音方法,其特征在于,所述对每个子阵的频域信号使用延时求和波束形成器得到各个子阵的输出信号;具体包括:
其中,k表示第k个频谱分量,fk为第k个频谱分量对应的频率,j表示虚部,exp(·)表示以自然常数e为底的指数函数;
从而得到I个子阵的输出信号集合YDSB(k,l)为:
YDSB(k,l)=[YDSB,1(k,l),YDSB,2(k,l),…,YDSB,I(k,l)]T。
4.根据权利要求3所述的基于子阵划分的鲁棒自适应波束形成定向拾音方法,其特征在于,所述依据延时求和波束形成器的输出信号,进行DOA估计,判断当前帧是否有目标信号,并进行DOA信息标记;具体包括:
由第m个子阵延时求和波束形成器的输出信号YDSB,m(k,l)和第n个子阵延时求和波束形成器的输出信号YDSB,n(k,l),计算互相关函数Cnm(k,l):
将所有子阵的接收信号两两组合相加得到可控波束形成器的输出功率P(k,l):
其中,m=1,2,…I,n=1,2,…I;Gmn(k,l)表示加权系数,采用PHAT加权去除各频点的幅度影响仅保留相位信息,满足下式:
设空间中需要扫描的方向集合Θ={Ωo,1,Ωo,2,…Ωo,q},下角标q表示总的空间扫描方位个数,依次搜索该空间,得到该空间的功率谱,若在目标方向有局部最大值,则表示当前帧有目标信号,令DOA估计结果F(k,l)=1;否则F(k,l)=0。
7.根据权利要求6所述的基于子阵划分的鲁棒自适应波束形成定向拾音方法,其特征在于,所述依据均匀阵列特点选取KP形成器的两个虚拟子阵,分别对两个虚拟子阵使用自适应波束形成,采用虚拟子阵相互迭代的方式计算得到权系数,进而得到最终的波束形成输出;具体包括:
步骤2)对于第一虚拟子阵使用MVDR波束形成器,满足以下优化问题表达式:
ZSSKPMV(k,l)=hH(k,l)YDSB(k,l)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769912.5A CN113593596B (zh) | 2021-07-07 | 2021-07-07 | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769912.5A CN113593596B (zh) | 2021-07-07 | 2021-07-07 | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593596A true CN113593596A (zh) | 2021-11-02 |
CN113593596B CN113593596B (zh) | 2022-05-31 |
Family
ID=78246253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110769912.5A Active CN113593596B (zh) | 2021-07-07 | 2021-07-07 | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593596B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763983A (zh) * | 2020-06-04 | 2021-12-07 | 中国科学院声学研究所 | 基于口-双耳房间脉冲响应的鲁棒语音增强方法及系统 |
CN114563760A (zh) * | 2022-02-07 | 2022-05-31 | 哈尔滨工程大学 | 一种基于sca阵型的二阶超波束形成方法、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104730513A (zh) * | 2013-12-19 | 2015-06-24 | 中国科学院声学研究所 | 一种分级子阵聚焦mvdr波束形成方法 |
EP3029671A1 (en) * | 2014-12-04 | 2016-06-08 | Thomson Licensing | Method and apparatus for enhancing sound sources |
CN106772257A (zh) * | 2017-01-10 | 2017-05-31 | 西北工业大学 | 一种低旁瓣稳健自适应波束形成方法 |
CN108919189A (zh) * | 2018-07-26 | 2018-11-30 | 西北工业大学 | 一种频率和方位联合估计的阵列信号处理方法 |
CN109254261A (zh) * | 2018-08-30 | 2019-01-22 | 湖北工业大学 | 基于均匀圆阵epuma的相干信号零陷加深方法 |
CN109725285A (zh) * | 2018-12-28 | 2019-05-07 | 西安云脉智能技术有限公司 | 一种基于mvdr协方差矩阵元素自适应相角转换的doa估计方法 |
CN109765521A (zh) * | 2018-12-14 | 2019-05-17 | 中国科学院声学研究所 | 一种基于子阵划分的波束域成像方法 |
EP3514478A1 (en) * | 2017-12-26 | 2019-07-24 | Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi | A method for acoustic detection of shooter location |
CN111651719A (zh) * | 2020-06-04 | 2020-09-11 | 湖北工业大学 | 基于收缩估计协方差矩阵重构稳健自适应波束形成方法 |
CN111693971A (zh) * | 2019-03-11 | 2020-09-22 | 中国科学院声学研究所 | 一种用于弱目标检测的宽波束干扰抑制方法 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
-
2021
- 2021-07-07 CN CN202110769912.5A patent/CN113593596B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104730513A (zh) * | 2013-12-19 | 2015-06-24 | 中国科学院声学研究所 | 一种分级子阵聚焦mvdr波束形成方法 |
EP3029671A1 (en) * | 2014-12-04 | 2016-06-08 | Thomson Licensing | Method and apparatus for enhancing sound sources |
CN106772257A (zh) * | 2017-01-10 | 2017-05-31 | 西北工业大学 | 一种低旁瓣稳健自适应波束形成方法 |
EP3514478A1 (en) * | 2017-12-26 | 2019-07-24 | Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi | A method for acoustic detection of shooter location |
CN108919189A (zh) * | 2018-07-26 | 2018-11-30 | 西北工业大学 | 一种频率和方位联合估计的阵列信号处理方法 |
CN109254261A (zh) * | 2018-08-30 | 2019-01-22 | 湖北工业大学 | 基于均匀圆阵epuma的相干信号零陷加深方法 |
CN109765521A (zh) * | 2018-12-14 | 2019-05-17 | 中国科学院声学研究所 | 一种基于子阵划分的波束域成像方法 |
CN109725285A (zh) * | 2018-12-28 | 2019-05-07 | 西安云脉智能技术有限公司 | 一种基于mvdr协方差矩阵元素自适应相角转换的doa估计方法 |
CN111693971A (zh) * | 2019-03-11 | 2020-09-22 | 中国科学院声学研究所 | 一种用于弱目标检测的宽波束干扰抑制方法 |
CN111651719A (zh) * | 2020-06-04 | 2020-09-11 | 湖北工业大学 | 基于收缩估计协方差矩阵重构稳健自适应波束形成方法 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
Non-Patent Citations (4)
Title |
---|
HUANG G 等: ""Robust and steerable kronecker product differential beamforming with rectangular microphone array"", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 2020》 * |
LI JIAN 等: ""Fully automatic computation of diagonal loading levels for robust adaptive beamforming"", 《2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 2008》 * |
RAJIB SHARMA 等: ""Adaptive and Hybrid Kronecker Product Beamforming for Far-Field Speech Signals"", 《SPEECH COMMUNICATION》 * |
万成 等: ""均匀面阵降维克罗内科积导向最小方差波束形成方法"", 《第十四届全国信号和智能信息处理与应用学术会议论文集》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763983A (zh) * | 2020-06-04 | 2021-12-07 | 中国科学院声学研究所 | 基于口-双耳房间脉冲响应的鲁棒语音增强方法及系统 |
CN113763983B (zh) * | 2020-06-04 | 2022-03-22 | 中国科学院声学研究所 | 基于口-双耳房间脉冲响应的鲁棒语音增强方法及系统 |
CN114563760A (zh) * | 2022-02-07 | 2022-05-31 | 哈尔滨工程大学 | 一种基于sca阵型的二阶超波束形成方法、设备及介质 |
CN114563760B (zh) * | 2022-02-07 | 2023-02-07 | 哈尔滨工程大学 | 一种基于sca阵型的二阶超波束形成方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113593596B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164446B (zh) | 语音信号识别方法和装置、计算机设备和电子设备 | |
CN111123192B (zh) | 一种基于圆形阵列和虚拟扩展的二维doa定位方法 | |
CN108375763B (zh) | 一种应用于多声源环境的分频定位方法 | |
US8363850B2 (en) | Audio signal processing method and apparatus for the same | |
CN109490822B (zh) | 基于ResNet的语音DOA估计方法 | |
CN113593596B (zh) | 一种基于子阵划分的鲁棒自适应波束形成定向拾音方法 | |
CN109725285B (zh) | 一种基于mvdr协方差矩阵元素自适应相角转换的doa估计方法 | |
CN111415676A (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN110931036A (zh) | 一种麦克风阵列波束形成方法 | |
CN104811867B (zh) | 基于阵列虚拟扩展的麦克风阵列空域滤波方法 | |
CN112180329A (zh) | 一种基于阵元随机均匀分布球阵反卷积波束形成的汽车噪声源声成像方法 | |
CN112904279A (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
Grondin et al. | SVD-PHAT: A fast sound source localization method | |
CN111049556A (zh) | 一种基于干扰协方差矩阵重构的互素阵稳健自适应波束形成方法 | |
CN110660404A (zh) | 基于零陷滤波预处理的语音通信和交互应用系统、方法 | |
CN109696657A (zh) | 一种基于矢量水听器的相干声源定位方法 | |
Xia et al. | Noise reduction method for acoustic sensor arrays in underwater noise | |
CN110736976A (zh) | 一种任意阵形的声纳波束形成器性能估计方法 | |
Le Son | Irregular microphone array design for broadband beamforming | |
CN109541526A (zh) | 一种利用矩阵变换的圆环阵方位估计方法 | |
CN111123202B (zh) | 一种室内早期反射声定位方法及系统 | |
Grondin et al. | Multiple sound source localization with SVD-PHAT | |
Çöteli et al. | Multiple sound source localization with rigid spherical microphone arrays via residual energy test | |
CN114563760B (zh) | 一种基于sca阵型的二阶超波束形成方法、设备及介质 | |
CN114245266B (zh) | 小型麦克风阵列设备的区域拾音方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |