CN110398716B - 一种利用声源间稀疏成分均衡的多声源定位方法 - Google Patents

一种利用声源间稀疏成分均衡的多声源定位方法 Download PDF

Info

Publication number
CN110398716B
CN110398716B CN201910784643.2A CN201910784643A CN110398716B CN 110398716 B CN110398716 B CN 110398716B CN 201910784643 A CN201910784643 A CN 201910784643A CN 110398716 B CN110398716 B CN 110398716B
Authority
CN
China
Prior art keywords
sound source
frame
sparsity
interval
strong
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910784643.2A
Other languages
English (en)
Other versions
CN110398716A (zh
Inventor
贾懋珅
吴宇轩
鲍长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910784643.2A priority Critical patent/CN110398716B/zh
Publication of CN110398716A publication Critical patent/CN110398716A/zh
Application granted granted Critical
Publication of CN110398716B publication Critical patent/CN110398716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出一种利用声源间稀疏成分均衡的多声源定位方法,通过均衡各声源的稀疏成分以获得更准确的方向估计。首先将声场麦克风信号变换到频域得到频域系数,对其按频率范围进行子带划分并计算声场麦克风各通路间的归一化互相关系数;其次,检测单声源子带,估计单声源子带内各时‑频点的角度;再次,利用均衡处理区间内各帧的帧内强稀疏性声源确定区间强稀疏性声源,结合历史均衡处理区间的时‑频点角度估计值和区间强稀疏性声源确定全局强稀疏性声源角度并设立移除范围,对当前均衡处理区间内角度估计值落入移除范围的时‑频点成分进行移除;最后,对若干个经过均衡处理后的区间内的时‑频点角度估计值进行后处理以获得各声源角度的准确估计。

Description

一种利用声源间稀疏成分均衡的多声源定位方法
技术领域
本发明属于声学领域的声源定位领域,尤其涉及多声源复杂声场景下的各声源定位技术。
背景技术
声源定位在音频信号处理领域中是一个非常重要的研究课题。该技术的目的是通过分析麦克风阵列采集信号对场景内所有声源相对于麦克风阵列的波达方向进行估计。近些年涌现了一些利用信号稀疏特性进行声源定位的方法,利用信号在时-频域的稀疏性,将多声源定位问题转化为单声源定位问题,突破了传统声源定位方法的局限性,使欠定场景下,即声源数多于麦克风数场景下的声源定位问题得以解决。但是在麦克风阵列采集信号中,各声源信号占绝对主导地位的时频点或时频区域(各声源信号的稀疏成分)的数量间存在差异。当各声源信号稀疏成分数量差异较大时,与稀疏成分较多的声源相比,稀疏成分较少的声源难以利用现有技术对其波达方向进行估计。
声源定位技术有多种应用环境。如:目标跟踪中,利用此技术可以对场景中声源目标的具体方位进行估计,进而实现目标追踪任务;人机交互场景中,利用此技术可以确定用户的方向信息,从而使机器人与用户面对面交流,提升用户体验。目前,现有的多声源定位方法要求声场景内的各声源稀疏成分数量差异较小以实现各个声源的准确定位,这一条件在实际场景中难以满足。
发明内容
本发明针对于现有声源定位技术要求各声源稀疏成分数量差异较小以实现各个声源的准确定位这一问题,提出了一种利用声源间稀疏成分均衡的多声源定位方法,结合声场麦克风采集信号的稀疏性,对各声源稀疏成分数量进行均衡,实现声场景内各声源波达方向的准确估计。考虑到便携式四通路声场麦克风小巧灵活,能够准确反映声场变化的特点,本设计选用便携式四通路声场麦克风,在频域对其采集信号进行处理以实现多声源定位。本设计通过均衡各声源稀疏成分数量以实现各个声源波达方向的准确估计。区别于现有的声源定位技术依赖于各声源稀疏成分数量差异较小的假设,本设计的目的是利用便携式四通路声场麦克风在多声源场景下对各声源对象的方位信息进行准确估计。
设计的总体流程中,首先对分帧后的声场麦克风信号利用短时傅里叶变换得到频域系数,对其进行子带划分并求得各通道间的互相关系数,随后判断单声源子带,对单声源子带内各时-频点进行角度估计,利用单声源子带内时-频点信息计算子带的角度粗估计值,根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度,并以此来确定帧内强稀疏性声源,设定均衡处理区间,利用处理区间内各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度,并以此确定区间强稀疏性声源,根据时-频点的角度估计值和区间强稀疏性声源的角度估计信息计算各个区间强稀疏性声源的全局稀疏度,进而判断得到全局强稀疏性声源,最后根据各个全局强稀疏性声源的角度设立角度移除范围,对当前均衡处理区间内角度估计值落入移除范围的各个时-频点进行移除,对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。
本发明的技术方案为解决多声源定位问题,主要分为以下几个步骤:
步骤1,对采集信号进行分帧处理,利用短时傅里叶变换对声场麦克风采集信号进行时-频变换,获得信号的频率系数。
步骤2,将频域系数按频率划分为若干子带,计算同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数。
步骤3,根据归一化互相关系数检测单声源子带,计算单声源子带内的各时-频点的角度估计值。
步骤4,利用子带内时-频点信息,计算得到单声源子带的角度粗估计值。
步骤5,根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度,依赖帧稀疏度来确定帧内强稀疏性声源。
步骤6,设定均衡处理区间,在处理区间内,利用各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度,并以此确定区间强稀疏性声源。
步骤7,根据时-频点的角度估计值和区间强稀疏性声源的角度估计信息计算各个区间强稀疏性声源的全局稀疏度,进而判断得到全局强稀疏性声源。
步骤8,对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。
1.而且步骤1的实现方式为,首先将声场麦克风采集的四路信号si(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure BDA0002177656770000021
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Si(n,k)为频域系数。S1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;S2(n,k)、S3(n,k)、S4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
2.而且每帧信号有K个频域系数,设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为:
Figure BDA0002177656770000031
其中m=1,2,…,M,
Figure BDA0002177656770000032
为向上取整运算。以Ωnm表示第n帧的第m个子带内各时-频点索引的集合。在第n帧第i路麦克风采集信号与第j路麦克风采集信号在第m个频率子带的归一化互相关系数Rijnm)可由下式计算:
Figure BDA0002177656770000033
其中i,j为麦克风编号。
3.在步骤3中,根据步骤2中求出的归一化互相关系数检测单声源子带。该过程的判决条件可表示为:
Figure BDA0002177656770000038
其中,ε是一个值很小的预设参数。满足上式的子带为单声源频率区域子带,本设计只对单声源子带内各时-频点角度进行估计,子带内各时-频点(n,k)的角度估计值
Figure BDA0002177656770000037
可由下式计算:
Figure BDA0002177656770000034
其中Re代表取实部运算,*代表共轭运算。
4.在步骤4中,本设计只对单声源子带进行角度粗估计。若子带(Ωnm)为单声源子带,则该子带的角度粗估计值
Figure BDA0002177656770000035
由下式计算:
Figure BDA0002177656770000036
5.在步骤5中,将一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,若相邻粗估计角度值的差值大于θ,则表示两个角度粗估计值分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景内一共有P个声源,根据映射到各个声源的角度粗估计个数,本设计定义声源帧稀疏度以衡量一帧信号内某一声源的稀疏程度。设第p个声源在第n帧的帧稀疏度为Γnp
Figure BDA0002177656770000041
其中,p=1,2,…,P,Gnp为第n帧内映射到第p个声源的角度粗估计个数。设定一个阈值σ,若Γnp大于阈值σ,则认为第p个声源在第n帧内具有较多的单声源子带(稀疏成分),即第p个声源是第n帧的帧内强稀疏性声源。对于判断得到的帧内强稀疏性声源,将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值(即帧内强稀疏性声源角度)。6.在步骤6中,设定一个以帧为单位的均衡处理区间,每个处理区间包含Δee为正整数)帧信号,且相邻处理区间不包含重叠帧。本设计对每个处理区间中单声源子带内的时-频点角度估计值进行均衡处理。设当前区间为第Q个均衡处理区间,区间内包含第n,n-1,n-2,...,n-Δe+1帧信号,判断每一帧的帧内强稀疏性声源并计算其角度,则当前处理区间内所有的帧内强稀疏性声源可由集合Ψ′Q表示
Figure BDA0002177656770000042
其中
Figure BDA0002177656770000043
δ=0,2,…,Δe-1。P′n-δ为第n-δ帧的帧内强稀疏性声源个数,
Figure BDA0002177656770000044
表示第n-δ帧的第pn-δ个帧内强稀疏性声源角度,p′n-δ=1,2,…,P′n-δ。将Ψ′Q中的所有角度按升序排列,若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ,则表示两个帧内强稀疏性声源属于同一个声源。按此规则将Ψ′Q中所有的帧内强稀疏性声源映射到各个声源上。根据映射到各个声源的帧内强稀疏性声源的个数,本设计定义各声源的区间稀疏度以衡量整个均衡处理区间内某一声源的稀疏程度。设第p个声源在当前区间内的区间稀疏度为Γ′Qp
Figure BDA0002177656770000045
其中,p=1,2,…,P,G′Qp为当前区间内映射到第p个声源的帧内强稀疏性声源的个数。设定一个阈值ξ,若Γ′Qp大于预设阈值ξ则认为在当前均衡处理区间内有足够多的帧将第p个声源判断为帧内强稀疏性声源,即第p个声源为当前均衡处理区间的区间强稀疏性声源。对于判断得到的区间强稀疏性声源,将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度。当前区间内所有的区间强稀疏性声源可由集合Ψ″Q表示,其中
Figure BDA0002177656770000051
PQ表示当前均衡处理区间内的区间强稀疏性声源总数,
Figure BDA0002177656770000052
表示当前区间内第pQ个区间强稀疏性声源角度,pQ=1,2,…,PQ
7.步骤6判断得到的各个区间强稀疏性声源(仅能表明在当前区间内这些声源表现出较强的稀疏性),需要在步骤7中对其在整体信号中的稀疏性进行判断,以最终确定全局强稀疏性声源角度。本设计选用了H个均衡处理区间的信息进行处理,根据区间强稀疏性声源角度集合Ψ″Q以及第Q-1,Q-2,...,Q-H处理区间中经均衡处理后的时频点角度估计值集合
Figure BDA0002177656770000053
其中h=1,2,…,H。ΦQ-h代表第Q-h个处理区域经均衡处理后的时-频点角度估计值集合,本设计定义第Q个均衡处理区间的第pQ个区间强稀疏性声源(该区间强稀疏性声源角度为
Figure BDA0002177656770000054
)在整体信号中的全局稀疏度为
Figure BDA0002177656770000055
Figure BDA0002177656770000056
其中B为ΠQ中时-频点角度估计值总数量,
Figure BDA0002177656770000057
为ΠQ中属于第Q个均衡处理区间的第pQ个区间强稀疏性声源的时-频点角度估计值的数量。时-频点角度估计值
Figure BDA0002177656770000058
属于第Q个均衡处理区间的第pQ个区间强稀疏性声源的判决条件为:
Figure BDA0002177656770000059
其中h′=Δee+1,…,(H+1)Δe-1,
Figure BDA00021776567700000510
为预设阈值。若
Figure BDA00021776567700000511
大于预设阈值λ,则第Q个均衡处理区间的第pQ个区间强稀疏性声源确定为全局强稀疏性声源(即,最终确定的强稀疏性优势声源)。对Ψ″Q内所有区间强稀疏性声源进行判断,保留满足判决条件的声源角度,则这些保留的声源角度即为全局强稀疏性声源角度。根据全局强稀疏性声源角度设立角度移除范围,对步骤3得到的当前帧内所有单声源子带中落入移除范围的时-频点的角度估计值进行移除,不对其进行步骤8中的后处理过程。通过移除部分时-频点的角度估计值使各声源的稀疏成分更加均衡。设当前均衡处理区域有DQ个全局强稀疏性声源,则角度移除范围由下式得到:
Figure BDA0002177656770000061
其中,
Figure BDA0002177656770000062
为第Q个均衡处理区间的第dQ个全局强稀疏性声源的角度,dQ=1,2,…,DQ,DQ为第Q个均衡处理区间的全局强稀疏性声源的总个数。
8.步骤8对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理,包括直方图统计,均值滤波以及峰值搜索过程,最后获得声场景内所有声源角度的准确估计。
在由各个单声源区域内时-频点角度估计值得到的归一化统计直方图中,某一声源在其真实角度或其真实角度附近的某个角度上应具有明显的峰值。对归一化统计直方图进行峰值搜索即可估计出场景内声源的数量以及各个声源的角度。如果大量的时-频点角度估计值映射到某一声源(即本设计中的强稀疏性声源)时,会导致归一化统计直方图中其余各声源所在角度上不能表现出明显的峰值,进而无法检测到这些声源并估计这些声源的角度。考虑到有大量的时-频点角度估计值映射到强稀疏性声源上,与之相对应,强稀疏性声源一定具有较多的单声源子带。因此本设计根据属于某一声源的单声源子带在帧内的出现概率定义声源的帧稀疏度,利用声源的帧稀疏度来对帧内强稀疏性声源进行初步判断,获得帧内强稀疏性声源,即帧内强稀疏性声源对应的单声源子带在帧内具有较高的出现概率。为了提高强稀疏性声源的判断准确性,本设计设定了均衡处理区间,定义声源的区间稀疏度用于检测区间强稀疏性声源。但是区间内出现概率较高和强稀疏性声源之间不是充分必要条件,即强稀疏性声源一定是某些区间的区间强稀疏性声源,而从整体上看,区间强稀疏性声源不一定是强稀疏性声源。所以本设计将若干经均衡处理后的均衡处理区间内的各个时-频点角度估计值映射到各个区间强稀疏性声源上,如果有大量的时-频点角度估计值映射到某一个区间强稀疏性声源,即全局强稀疏性声源,则该全局强稀疏性声源大概率为真正的强稀疏性声源,对当前均衡处理区间内帧映射到全局强稀疏性声源上的时-频点角度估计值进行移除处理即可使映射到各声源的时-频点角度估计值数量更加接近或近似相等,进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。
本设计所采用的方法与发明《一种利用优势声源成分移除的多声源定位方法》中所实施的方法有以下几点不同:1、本设计是逐区间进行的,相邻均衡处理区间没有重叠帧《一种利用优势声源成分移除的多声源定位方法》中是逐帧进行的,历史帧的信息会在若干帧中重复使用;2、本设计利用了当前帧的信息来确定当前帧所在均衡处理区间的角度移除范围,而《一种利用优势声源成分移除的多声源定位方法》中仅利用历史帧信息来确定当前帧的角度移除区间;3、本设计在确定均衡处理区间的角度移除范围时,考虑了均衡处理区间内帧与帧之间的信息,即利用帧间信息来确定的角度移除范围,而《一种利用优势声源成分移除的多声源定位方法》中只利用了各个历史帧的帧内信息来确定当前帧的移除区间,即帧与帧之间是独立处理的,移除区间的设立没有利用帧间信息。
有益效果
与传统定位技术相比,本发明提高了多声源定位方法的鲁棒性,尤其对声场景中的非强稀疏性声源表现出良好的定位性能,使复杂声场景下各个声源都能够获得准确的方向估计。
附图说明
图1是本设计方法整体框图。
图2是区间强稀疏性声源检测示意图
图3a未经过均衡处理归一化直方图
图3b均衡处理后归一化直方图
具体实施方法
本实施例用于检测7个声源,声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m,声源距声场麦克风距离均为1m,相邻声源角度间隔45°,第一个声源位于70°,第七个声源位于340°。信号处理软件为Matlab2014a。
实施时,本发明是算法镶嵌进软件中实现各个流程的自动运行,下面以具体实施步骤结合附图对本发明做进一步说明:具体的工作流程如下:
步骤1:声场麦克风采集信号的时-频变换。
将声场麦克风采集的四路信号si(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure BDA0002177656770000071
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Si(n,k)为频域系数。S1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;S2(n,k)、S3(n,k)、S4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
步骤2:划分子带并计算归一化互相关系数。
每帧信号有K个频域系数,设步骤2中子带宽度为T,则一帧信号将被划分的子带个数M为:
Figure BDA0002177656770000081
其中m=1,2,…,M,
Figure BDA0002177656770000082
为向上取整运算。以Ωnm表示第n帧的第m个子带内各时-频点索引的集合。在第n帧第i路麦克风采集信号与第j路麦克风采集信号在第m个频率子带的归一化互相关系数Rijnm)可由下式计算:
Figure BDA0002177656770000083
其中i,j为麦克风编号。
步骤3:检测单声源子带并对其中的各时-频点进行角度估计。
单声源子带的判决条件可表示为:
Figure BDA0002177656770000084
其中,ε是一个值很小的预设参数,一般小于0.1,本实施例中取0.05,但不限于此。满足上式的子带为单声源频率区域子带,本设计只对单声源子带内各时-频点角度进行估计,子带内各时-频点(n,k)的角度估计值
Figure BDA0002177656770000085
可由下式计算:
Figure BDA0002177656770000086
其中Re代表取实部运算,*代表共轭运算。
步骤4:根据单声源子带内时-频点信息计算单声源子带的角度粗估计
本设计只对单声源子带进行角度粗估计。若子带(Ωnm)为单声源子带,则该子带的角度粗估计值
Figure BDA0002177656770000087
由下式计算:
Figure BDA0002177656770000088
步骤5:计算每个声源的帧稀疏度,以此来确定帧内强稀疏性声源。
将一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,一般取25°~50°,本实施例中取30°,但不限于此,若相邻粗估计角度值的差值大于θ,则表示两个角度粗估计值分属两个声源。按此规则将这些单声源子带对应的角度粗估计值映射到若干个声源上。假设场景内一共有P个声源,根据映射到各个声源的角度粗估计个数,本设计定义声源帧稀疏度以衡量一帧信号内某一声源的稀疏程度。设第p个声源在第n帧的帧稀疏度为Γnp
Figure BDA0002177656770000091
其中,p=1,2,…,P,Gnp为第n帧内映射到第p个声源的角度粗估计个数。设定一个阈值σ,一般取0.2~0.4,本实施例中预设阈值σ取0.3,若Γnp大于阈值σ,则认为第p个声源在第n帧内具有较多的单声源子带(稀疏成分),即第p个声源是第n帧的帧内强稀疏性声源。对于判断得到的帧内强稀疏性声源,将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值(即帧内强稀疏性声源角度)。
步骤6:设定均衡处理区间,根据帧内强稀疏性声源的区间稀疏度来确定区间强稀疏性声源。
在步骤6中,设定一个以帧为单位的均衡处理区间,每个处理区间包含Δee为正整数)帧信号,且相邻处理区间不包含重叠帧。本设计对每个处理区间中单声源子带内的时-频点角度估计值进行均衡处理。设当前区间为第Q个均衡处理区间,区间内包含第n,n-1,n-2,...,n-Δe+1帧信号,判断每一帧的帧内强稀疏性声源并计算其角度,则当前处理区间内所有的帧内强稀疏性声源可由集合Ψ′Q表示
Figure BDA0002177656770000092
其中
Figure BDA0002177656770000093
δ=0,2,…,Δe-1。P′n-δ为第n-δ帧的帧内强稀疏性声源个数,
Figure BDA0002177656770000094
表示第n-δ帧的第p′n-δ个帧内强稀疏性声源角度,p′n-δ=1,2,…,P′n-δ。将Ψ′Q中的所有角度按升序排列,若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ,则表示两个帧内强稀疏性声源属于同一个声源。按此规则将Ψ′Q中所有的帧内强稀疏性声源映射到各个声源上。根据映射到各个声源的帧内强稀疏性声源的个数,本设计定义各声源的区间稀疏度以衡量整个均衡处理区间内某一声源的稀疏程度。设第p个声源在当前区间内的区间稀疏度为Γ′Qp
Figure BDA0002177656770000101
其中,p=1,2,…,P,G′Qp为当前区间内映射到第p个声源的帧内强稀疏性声源的个数。设定一个阈值ξ,一般取0.35~0.45,本实施例中预设阈值ξ取0.4,若Γ′Qp大于预设阈值ξ则认为在当前均衡处理区间内有足够多的帧将第p个声源判断为帧内强稀疏性声源,即第p个声源为当前均衡处理区间的区间强稀疏性声源。对于判断得到的区间强稀疏性声源,将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度。当前区间内所有的区间强稀疏性声源可由集合Ψ″Q表示,其中
Figure BDA0002177656770000102
PQ表示当前均衡处理区间内的区间强稀疏性声源总数,
Figure BDA0002177656770000103
表示当前区间内第pQ个区间强稀疏性声源角度,pQ=1,2,…,PQ
步骤7:根据区间强稀疏性声源的全局稀疏度来确定全局强稀疏性声源。
各个区间强稀疏性声源(仅能表明在当前区间内这些声源表现出较强的稀疏性),需要在步骤7中对其在整体信号中的稀疏性进行判断,以最终确定全局强稀疏性声源角度。本设计选用了H个均衡处理区间的信息进行处理,根据区间强稀疏性声源角度集合Ψ″Q以及第Q-1,Q-2,...,Q-H处理区间中经均衡处理后的时频点角度估计值集合
Figure BDA0002177656770000104
其中h=1,2,…,H。ΦQ-h代表第Q-h个处理区域经均衡处理后的时-频点角度估计值集合,本设计定义第Q个均衡处理区间的第pQ个区间强稀疏性声源(该区间强稀疏性声源角度为
Figure BDA0002177656770000105
)在整体信号中的全局稀疏度为
Figure BDA0002177656770000106
Figure BDA0002177656770000107
其中B为ΠQ中时-频点角度估计值总数量,
Figure BDA0002177656770000108
为ΠQ中属于第Q个均衡处理区间的第pQ个区间强稀疏性声源的时-频点角度估计值的数量。时-频点角度估计值
Figure BDA0002177656770000109
属于第Q个均衡处理区间的第pQ个区间强稀疏性声源的判决条件为:
Figure BDA0002177656770000111
其中h′=Δee+1,…,(H+1)Δe-1,
Figure BDA0002177656770000112
为预设阈值,一般取5-8度。若
Figure BDA0002177656770000113
大于预设阈值λ,一般取0.15~0.35,本实施例中取0.2,但不限于此,则第Q个均衡处理区间的第pQ个区间强稀疏性声源确定为全局强稀疏性声源(即,最终确定的强稀疏性优势声源)。对Ψ″Q内所有区间强稀疏性声源进行判断,保留满足判决条件的声源角度,则这些保留的声源角度即为全局强稀疏性声源角度。
设立角度移除范围,对均衡处理区间内部分时-频点角度估计值进行移除处理。
根据全局强稀疏性声源角度设立角度移除范围,对步骤3得到的当前帧内所有单声源子带中落入移除范围的时-频点的角度估计值进行移除,不对其进行步骤8中的后处理过程。通过移除部分时-频点的角度估计值使各声源的稀疏成分更加均衡。设当前均衡处理区域有DQ个全局强稀疏性声源,则角度移除范围由下式得到:
Figure BDA0002177656770000114
步骤8:利用后处理获得各声源波达方向估计
对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理,包括直方图统计,均值滤波以及峰值搜索过程,最后获得声场景内所有声源角度的准确估计。
图3是移除处理前后由时-频点得到的归一化统计直方图的效果对比图。其中,a为未经过移除处理的归一化直方图,b为经过移除处理的归一化直方图。真实声源角度位于70°、115°、160°、205°、250°、295°和340°,共计7个相邻声源角度间隔为45°的声源。从图3a中可以看出,未经移除处理的直方图中,70°、115°、160°、205°和295°附近有明显峰值,即利用后处理过程可对位于上面5个角度附近的声源进行方向估计,而250°和340°附近没有明显峰值,即不能通过后处理对这两个声源进行方向估计。从图3b中可以看出,经过移除处理后,归一化直方图中在7个真实声源角度附近都有明显的峰值,即经过后处理过程可以获得全部声源的方向估计。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (3)

1.一种利用声源间稀疏成分均衡的多声源定位方法,其特征在于包括以下步骤:
步骤1,对采集信号进行分帧处理,利用短时傅里叶变换对声场麦克风采集信号进行时-频变换,获得信号的频域系数;
步骤2,将频域系数按频率划分为若干子带,计算每帧信号同一频率范围子带内声场麦克风各通道间的采集信号归一化互相关系数;
步骤3,根据归一化互相关系数检测单声源子带,计算单声源子带内的各时-频点的角度估计值;
步骤4,利用子带内时-频点信息,计算得到单声源子带的角度粗估计值;
单声源子带的角度粗估计值计算方法如下:若子带Ωnm为单声源子带,则该子带的角度粗估计值
Figure RE-FDA0003007430460000011
由下式计算:
Figure RE-FDA0003007430460000012
其中,Re代表取实部运算,*代表共轭运算;
步骤5,根据帧内各个单声源子带的角度粗估计值计算本帧内每个声源的帧稀疏度,依赖帧稀疏度来确定帧内强稀疏性声源;
所述的帧内强稀疏性声源判别方法如下:
5.1)根据角度粗估计值将单声源子带映射到若干个声源上,具体为:将一帧内所有单声源子带对应的角度粗估计值按升序排列,设θ为预设的角度阈值,若相邻粗估计角度值的差值大于θ,则表示两个角度粗估计值分属两个声源,否则表示属于同一声源,从而得到一帧内映射到各个声源的角度粗估计个数;
5.2)计算所有声源在第n帧的帧稀疏度,其中第p个声源在第n帧的帧稀疏度Γnp由下式计算:
Figure RE-FDA0003007430460000013
其中,p=1,2,…,P,Gnp为第n帧内映射到第p个声源的角度粗估计个数;
5.3)判断帧内强稀疏性声源,判断条件为:若Γnp大于阈值σ,则认为第p个声源在第n帧内具有较多的单声源子带,即第p个声源是第n帧的帧内强稀疏性声源;
5.4)计算帧内强稀疏性声源角度,具体为:对于判断得到的帧内强稀疏性声源,将映射到该帧内强稀疏性声源的各个角度粗估计值的平均值作为其角度粗估计值;
步骤6,设定均衡处理区间,在处理区间内,利用各帧信号的帧内强稀疏性声源的角度估计信息计算各个帧内强稀疏性声源的区间稀疏度,并以此确定区间强稀疏性声源,具体如下,6.1)设定均衡处理区间,该处理区间以帧为单位,每个处理区间包含Δe帧信号,且相邻处理区间不包含重叠帧;其中,当前区间为第Q个均衡处理区间,则区间内包含第n,n-1,n-2,...,n-Δe+1帧信号,判断每一帧的帧内强稀疏性声源并计算其角度,则第Q个均衡处理区间内所有的帧内强稀疏性声源可由集合Ψ′Q表示
Figure RE-FDA0003007430460000021
其中
Figure RE-FDA0003007430460000022
P′n-δ为第n-δ帧的帧内强稀疏性声源个数,
Figure RE-FDA0003007430460000023
表示第n-δ帧的第p′n-δ个帧内强稀疏性声源角度,p′n-δ=1,2,…,P′n-δ
6.2)根据角度粗估计值将当前区间帧内强稀疏性声源映射到若干个声源上,具体为:将Ψ′Q中的所有角度按升序排列,若相邻的帧内强稀疏性声源角度的角度差小于预设阈值θ,则表示两个帧内强稀疏性声源属于同一个声源,否则表示属于不同声源;
6.3)根据映射到各个声源的帧内强稀疏性声源的个数,计算各声源在当前均衡区间内的区间稀疏度,其中第p个声源在第Q个均衡区间内的区间稀疏度Γ′Qp可由下式计算:
Figure RE-FDA0003007430460000024
其中,p=1,2,…,P,G′Qp为第Q个均衡区间内映射到第p个声源的帧内强稀疏性声源的个数;
6.4)判断区间强稀疏性声源,判断条件为:若Γ′Qp大于预设阈值ξ则认为第p个声源为第Q个均衡处理区间的区间强稀疏性声源;
6.5)计算区间强稀疏性声源角度,具体为:对于判断得到的区间强稀疏性声源,将映射到该区间强稀疏性声源的各个帧内强稀疏性声源角度的平均值作为该区间强稀疏性声源角度;第Q个均衡区间内所有的区间强稀疏性声源可由集合Ψ″Q表示,其中
Figure RE-FDA0003007430460000025
PQ表示第Q个均衡处理区间内的区间强稀疏性声源总数,
Figure RE-FDA0003007430460000026
表示第Q个均衡区间内第pQ个区间强稀疏性声源角度,pQ=1,2,…,PQ
步骤7,选择H个经均衡处理后的均衡处理区间,根据这些区间中的时频点角度估计值属于各个区间强稀疏性声源的数量计算各个区间强稀疏性声源的全局稀疏度,根据全局稀疏度对区间强稀疏性声源进行筛选并最终确定全局强稀疏性声源,其中H个均衡处理区间中的时频点角度估计值可由集合ΠQ表达,
Figure RE-FDA0003007430460000031
其中h=1,2,…,H,ΦQ-h代表第Q-h个处理区域经均衡处理后的时-频点角度估计值集合;
所述的各个区间强稀疏性声源的全局稀疏度的计算方法如下:
1)判断时-频点角度估计值
Figure RE-FDA0003007430460000032
是否属于第Q个均衡处理区间的第pQ个区间强稀疏性声源,并统计第Q个均衡处理区间的第pQ个区间强稀疏性声源的时-频点角度估计值的数量,其中判决条件为:
Figure RE-FDA0003007430460000033
其中h′=Δee+1,…,(H+1)Δe-1,
Figure RE-FDA0003007430460000034
为预设阈值;
2)利用ΠQ计算区间强稀疏性声源的全局稀疏度,其中,第Q个均衡处理区间的第pQ个区间强稀疏性声源在整体信号中的全局稀疏度为
Figure RE-FDA0003007430460000035
Figure RE-FDA0003007430460000036
可由下式计算:
Figure RE-FDA0003007430460000037
其中B为ΠQ中时-频点角度估计值总数量,
Figure RE-FDA0003007430460000038
为ΠQ中属于第Q个均衡处理区间的第pQ个区间强稀疏性声源的时-频点角度估计值的数量;
所述的全局强稀疏性声源的判断方法为:若
Figure RE-FDA0003007430460000039
大于预设阈值λ,则第Q个均衡处理区间的第pQ个区间强稀疏性声源确定为全局强稀疏性声源,即最终确定的强稀疏性优势声源;对Ψ″Q内所有区间强稀疏性声源进行判断,保留满足判决条件的声源角度,则这些保留的声源角度即为全局强稀疏性声源角度;
所述的均衡处理包括:
1)设定角度移除范围,其中第Q个均衡处理区域有DQ个全局强稀疏性声源,则第Q个均衡处理区域的角度移除范围由下式得到:
Figure RE-FDA0003007430460000041
其中,
Figure RE-FDA0003007430460000042
为第Q个均衡处理区间的第dQ个全局强稀疏性声源的角度,dQ=1,2,…,DQ,DQ为第Q个均衡处理区间的全局强稀疏性声源的总个数;
2)对于每个处理区间,删除角度估计值落入角度移除范围的各个时-频点;
步骤8对若干个经均衡处理后的区间内保留的时-频点的角度估计值进行后处理以获得声源角度估计。
2.如权利要求1所述的一种利用声源间稀疏成分均衡的多声源定位方法,其特征在于:步骤1将声场麦克风采集的四路信号si(n,l)分帧后进行短时傅里叶变换,得到频域系数:
Figure RE-FDA0003007430460000043
其中,i=1,2,3,4为麦克风编号,n为帧索引,k=1,2,…,K为频率索引,l=1,2,…,L为时域样点索引,L为帧长,w(l)为窗函数,Si(n,k)为频域系数,S1(n,k)对应W通道麦克风,为全指向性麦克风采集信号;S2(n,k)、S3(n,k)、S4(n,k)分别对应X、Y、Z三个空间直角坐标系下相互正交的三个通道的麦克风,为8字型指向性麦克风采集信号。
3.如权利要求1所述的一种利用声源间稀疏成分均衡的多声源定位方法,其特征在于:所述的单声源子带判断条件为:
Figure RE-FDA0003007430460000044
其中,Rijnm)为第n帧第i路麦克风采集信号与第j路麦克风采集信号在第m个频率子带的归一化互相关系数,Ωnm表示第n帧的第m个子带内各时-频点索引的集合,ε为预设参数。
CN201910784643.2A 2019-08-23 2019-08-23 一种利用声源间稀疏成分均衡的多声源定位方法 Active CN110398716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784643.2A CN110398716B (zh) 2019-08-23 2019-08-23 一种利用声源间稀疏成分均衡的多声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784643.2A CN110398716B (zh) 2019-08-23 2019-08-23 一种利用声源间稀疏成分均衡的多声源定位方法

Publications (2)

Publication Number Publication Date
CN110398716A CN110398716A (zh) 2019-11-01
CN110398716B true CN110398716B (zh) 2021-05-28

Family

ID=68328979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784643.2A Active CN110398716B (zh) 2019-08-23 2019-08-23 一种利用声源间稀疏成分均衡的多声源定位方法

Country Status (1)

Country Link
CN (1) CN110398716B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101690298B (zh) * 2007-04-18 2013-07-10 真实定位公司 稀疏化的u-tdoa无线定位网络
CN103888889A (zh) * 2014-04-07 2014-06-25 北京工业大学 一种基于球谐展开的多声道转换方法
CN108802683A (zh) * 2018-05-30 2018-11-13 东南大学 一种基于稀疏贝叶斯学习的源定位方法
CN108931776A (zh) * 2017-05-23 2018-12-04 常熟海量声学设备科技有限公司 一种高精度的匹配场定位方法
CN110133595A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源测向方法、装置和用于声源测向的装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105403860B (zh) * 2014-08-19 2017-10-31 中国科学院声学研究所 一种基于支配相关的多稀疏声源定位方法
US9998876B2 (en) * 2016-07-27 2018-06-12 At&T Intellectual Property I, L.P. Inferring user equipment location data based on sector transition
CN106226739A (zh) * 2016-07-29 2016-12-14 太原理工大学 融合子带分析的双声源定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101690298B (zh) * 2007-04-18 2013-07-10 真实定位公司 稀疏化的u-tdoa无线定位网络
CN103888889A (zh) * 2014-04-07 2014-06-25 北京工业大学 一种基于球谐展开的多声道转换方法
CN108931776A (zh) * 2017-05-23 2018-12-04 常熟海量声学设备科技有限公司 一种高精度的匹配场定位方法
CN110133595A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源测向方法、装置和用于声源测向的装置
CN108802683A (zh) * 2018-05-30 2018-11-13 东南大学 一种基于稀疏贝叶斯学习的源定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Broadband source localization from an eigenanalysis perspective》;SOUDEN M et.al;《IEEE Transactions on Audio,Speech,and Language Processing》;20101231;第18卷(第6期);第1575-1587页 *
《复杂环境下基于时延估计的声源定位技术研究》;张大威 等;《通信学报》;20140131;第35卷(第1期);第183-190页 *

Also Published As

Publication number Publication date
CN110398716A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
US6792118B2 (en) Computation of multi-sensor time delays
Valenzise et al. Scream and gunshot detection and localization for audio-surveillance systems
CN109884591B (zh) 一种基于麦克风阵列的多旋翼无人机声信号增强方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN102074236A (zh) 一种分布式麦克风的说话人聚类方法
CN104394588B (zh) 基于Wi‑Fi指纹和多维尺度分析的室内定位方法
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
CN109658948B (zh) 一种面向候鸟迁徙活动的声学监测方法
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
CN107167770A (zh) 一种混响条件下的麦克风阵列声源定位装置
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN110275138B (zh) 一种利用优势声源成分移除的多声源定位方法
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN109166590B (zh) 一种基于空域相关性的二维时频掩模估计建模方法
CN110398716B (zh) 一种利用声源间稀疏成分均衡的多声源定位方法
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN113189544B (zh) 一种利用活动强度矢量加权移除野点的多声源定位方法
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
Jleed et al. Acoustic environment classification using discrete hartley transform features
CN113314127B (zh) 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质
CN105676167B (zh) 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法
Lee et al. A new sound source localization approach using stereo directional microphones
Sledevič et al. An evaluation of hardware-software design for sound source localization based on SoC
Jia et al. Two-dimensional detection based LRSS point recognition for multi-source DOA estimation
US11835625B2 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant