CN105467364B - 一种定位目标声源的方法和装置 - Google Patents

一种定位目标声源的方法和装置 Download PDF

Info

Publication number
CN105467364B
CN105467364B CN201510809839.4A CN201510809839A CN105467364B CN 105467364 B CN105467364 B CN 105467364B CN 201510809839 A CN201510809839 A CN 201510809839A CN 105467364 B CN105467364 B CN 105467364B
Authority
CN
China
Prior art keywords
sound source
array element
cross
correlation function
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510809839.4A
Other languages
English (en)
Other versions
CN105467364A (zh
Inventor
李峥
李江勇
戴腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510809839.4A priority Critical patent/CN105467364B/zh
Publication of CN105467364A publication Critical patent/CN105467364A/zh
Application granted granted Critical
Publication of CN105467364B publication Critical patent/CN105467364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种定位目标声源的方法和装置。其中一种定位目标声源的方法包括:确定麦克风阵列中两两组合的阵元在预设方位的波束时延差;利用所述时延差,确定两两组合的阵元从所述预设方位获取的波束能量之和作为所述预设方位的波束能量;依据所有预设方位的波束能量,确定声源的位置。本发明采用麦克风阵列,基于麦克风阵列在所有预设方位的波束能量,确定声源的位置,提高了声源的分辨效果。

Description

一种定位目标声源的方法和装置
【技术领域】
本发明涉及声音处理技术,尤其涉及一种定位目标声源的方法和装置。
【背景技术】
现有声源定位的方式一般采用麦克风阵列来实现。
对于双麦克风声源定位,其是模拟人类通过声音到达双耳之间的时延或相位差来判断声源的位置,从而基于拟人化的双麦克风实现声源定位。由于双麦克风不像人耳结构那样精妙,双麦克声源定位具有很大的局限性,例如由两个麦克风组成的平面仅能判断环绕该麦克风平面的空间中180度的声音范围,不能判断声音来自前方还是后方,同时对多个声源的分辨效果也难以尽如人意。
【发明内容】
有鉴于此,本发明提供了一种定位目标声源的方法和装置,以便于优化声源的分辨效果。
具体技术方案如下:
本发明提供了一种定位目标声源的方法,所述方法包括:
确定麦克风阵列中两两组合的阵元在预设方位的波束时延差;
利用所述时延差,确定两两组合的阵元从所述预设方位获取的波束能量之和作为所述预设方位的波束能量;
依据所有预设方位的波束能量,确定声源的位置。
根据本发明一优选实施例,在确定两两组合的阵元在预设方位的波束时延差时,将所述组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差作为所述波束时延差。
根据本发明一优选实施例,所述利用所述时延差,确定两两组合的阵元从所述预设方位获取的波束能量之和作为所述预设方位的波束能量具体包括:
依据所述两两组合的阵元从所述预设方位获取的音频信号确定两两组合的阵元的互相关函数;
利用时延差确定所述两两组合的阵元的互相关函数的值;
依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量。
根据本发明一优选实施例,所述方法还包括:将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
根据本发明一优选实施例,所述方法还包括:在所述利用快速傅里叶变换确定所述互相关函数之后,对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,以对所述互相关函数进行锐化。
根据本发明一优选实施例,其中,所述增强是依据各阵元所接收波束的信噪比确定的。
根据本发明一优选实施例,所述依据所有预设方位的波束能量,确定声源的位置具体包括:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
根据本发明一优选实施例,所述方法还包括:
在将确定出位置的声源对应的预设方位的互相关函数值置零的基础上,重新执行所述依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量的步骤,以便确定另一声源的位置。
根据本发明一优选实施例,所述方法还包括:
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
根据本发明一优选实施例,所述预设方位是从将预设范围的空间划分为网格所形成的各网格点中选取的。
本发明还提供了一种定位目标声源的装置,所述装置包括:
波束时延差确定单元,用于确定麦克风阵列中两两组合的阵元在预设方位的波束时延差;
波束能量确定单元,用于利用所述时延差,确定两两组合的阵元从所述预设方位获取的波束能量之和作为所述预设方位的波束能量;
声源位置确定单元,用于依据所有预设方位的波束能量,确定声源的位置。
根据本发明一优选实施例,所述波束时延差确定单元在确定两两组合的阵元在预设方位的波束时延差时,将所述组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差作为所述波束时延差。
根据本发明一优选实施例,所述波束能量确定单元具体执行以下操作:
依据所述两两组合的阵元从所述预设方位获取的音频信号确定两两组合的阵元的互相关函数;
利用时延差确定所述两两组合的阵元的互相关函数的值;
依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量。
根据本发明一优选实施例,所述波束能量确定单元还执行以下操作:将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
根据本发明一优选实施例,所述波束能量确定单元在利用快速傅里叶变换确定所述互相关函数之后,还执行以下操作:对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,以对所述互相关函数进行锐化。
根据本发明一优选实施例,其中,所述增强是依据各阵元所接收波束的信噪比确定的。
根据本发明一优选实施例,所述声源位置确定单元具体执行以下操作:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
根据本发明一优选实施例,所述声源位置确定单元还用于执行以下操作:
在将确定出位置的声源对应的预设方位的互相关函数值置零的基础上,重新执行依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量的操作,以便确定另一声源的位置。
根据本发明一优选实施例,所述声源位置确定单元还用于执行如下操作:
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
根据本发明一优选实施例,所述预设方位是从将预设范围的空间划分为网格所形成的各网格点中选取的。
由以上技术方案可以看出,本发明采用麦克风阵列,基于麦克风阵列在所有预设方位的波束能量,确定声源的位置,提高了声源的分辨效果。
【附图说明】
图1示出了一种麦克风阵列的结构示意图;
图2示出了本发明实施例一提供的一种定位目标声源的方法流程图;
图3示出了本发明实施例一提供的一种在麦克风阵列周围的空间划分预设方位的示意图;
图4示出了本发明实施例二提供的一种定位目标声源的装置的结构示意图;
图5示出了采用本发明进行声源定位的效果图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明基于多麦克风声源定位来解决声源定位问题。
以下实施例以立方体排列的8麦克风阵列结构为例(如图1所示),介绍定位目标声源的方法和装置。
实际使用时,麦克风的排列并没有特定要求,但是为了能够实现360度全向定位,优选地可以采用具有4个及以上麦克风阵元,从而组成立体排列的麦克风阵列结构,并且预先测量每个麦克风阵元的三维坐标。
语音信号的频率范围一般为100-3400Hz,按照空间采样定理,本发明的麦克风间距可以设置为5-15cm。
实施例一、
图2为本发明实施例一提供的一种定位目标声源的方法流程图。如图2所示,该方法可以包括以下步骤:
201、将预设范围的空间划分为多个预设方位。
具体地,由于利用波束能量确定目标声源的方位时,是需要遍历麦克风阵列周围的360度的范围内的所有方位,进而根据所有方位的波束能量来确定声源位置的。但是要计算得到所有方位的波束能量需要耗费极大的运算量,实际使用时没有这个必要。
例如对于机器人等特定的需要定位声源的设备,5度左右的定位精度已经可以满足日常生活需求,因此为了提高计算效率,可以根据使用需要将麦克风阵列周围的由空间球体所体现的预设范围分割成特定的网格,以使每一个网格对应一个预设方位。
其中所划分的预设方位的数目与需要定位的精度和计算程度有关。
图3提供了一种在麦克风阵列周围的空间划分预设方位的示意图。如图3所示,具体的网格数量和精度可以根据实际应用场景而划分为例如2000-5000个网格等。
通过对所有方位的遍历变换成对划分的网格点所对应的预设方位的遍历,可以减小预算量,提高运算速度。
202、确定麦克风阵列中两两组合的阵元在预设方位的波束时延差。
如果麦克风阵列中每个阵元的排列方式已固定,则可以针对每一个预设方位,确定该组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差。
其中,波束可以代表具有预定方向的音频信号,因此由阵元接收的波束也可以理解为阵元从预设方位接收的音频信号。
具体地,由于麦克风阵列中每个阵元接收同一预设方位的波束所需要的接收时间不同,因此可以根据该接收时间确定各个阵元中任意两个阵元在同一预设方位所接收的波束所需时间的差值作为该组合的阵元在该预设方位的波束时延差。
在求得了任意的两两组合的阵元在一个预设方位的波束时延差后,进一步求取任意组合的阵元在其他所有预设方位的波束时延差,通过求取所有预设方位的所有任意组合的波束时延差,为以下步骤中确定波束能量作准备。
以8个麦克风为例,该8个麦克风两两组合具有28种组合方式,则其麦克风阵列会产生28个互相关函数,并且相对于同一预设方位将会获得28个时延差的值。
另外,由于由所有两两组合的阵元所确定的一组时延差可以唯一对应于一个预设方位,因此可以通过麦克风阵列中所有组合的阵元所确定的一组时延差来确定与其相对应的预设方位。
203、确定两两组合的阵元在预设方位的互相关函数。
该步骤中,依据两两组合的阵元从预设方位获取的波束确定两两组合的阵元的互相关函数。
由于声源的位置实际上是通过波束能量来确定的,因此为了确定声源的位置,可以先对所有位置的波束能量进行计算。
其中一种确定麦克风阵列接收的波束能量的公式可以表示为:
设第m个麦克风接收的音频数字信号为xm(n),则可以采用如下公式来计算8个麦克风的延时相加波束形成的能量,即:
公式(1)中,L表示一帧信号的长度,n表示在一帧信号长度中所采样的时间点,τm表示麦克风m相对于坐标原点的时延。该公式中,基于麦克风阵列的阵列接收能量是各个阵元接收能量的总和。
本发明发现,通过将公式(1)进行如下变形,可以得到另一个公式,即:
公式(2)中,表示阵元m相对于其自身时延的自相关函数,表示每个阵元从预设方位获取采样信号的自相关之和,该自相关之和可以近似为常量,因此可以用W来表示该常量;表示任意两个阵元的互相关函数,表示该任意两个阵元的波束时延差。
这样,求取各个阵元接收的波束能量总和的过程就转换为求取所有种组合的阵元的互相关函数之和的过程,从而极大提高了运算效率。
在得到互相关函数后,还可以继续执行步骤204或205,进一步增加互相关函数的运算效率,或者提高互相关函数在噪声环境下的抗干扰能力。
204、将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
具体地,互相关函数可以通过快速傅里叶变换FFT与快速傅里叶逆变换IFFT快速得到:
将互相关函数通过FFT与IFFT变换快速得到的基本原理是:在一帧的信号长度中,将采样点n的时域转变为频域得到频点k,将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
在利用快速傅里叶变换确定所述互相关函数之前,还可以对获取的每帧信号进行加窗预处理。
所谓加窗,就是对一个有限长的时域采样信号加了一个特性的窗函数,如汉明窗或汉宁窗等。然而加窗并不是为了截取信号的某一节,而是由于FFT算法默认其采样的信号是无限长周期的信号,例如认为一个有限长度的数据是不断重复的,其通过将有限长度的数据的最后一个点之后又连到第一个点,以此形成不断重复的数据,通过将有限长度的数据的最后一个点之后又连到第一个点,可能会出现波形突然不连续的情况,这个不连续会导致FFT结果出现频谱泄漏现象。基于这种现象,可以以加窗的方式让不太连续的地方(最后一个点和第一个的连接处)看上去平滑,没有原来那么明显的突变了。
因此可以在加窗之后,再对加窗后的信号执行快速傅里叶变换,以通过加窗的方式保证数据的连续性。
205、对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,以对所述互相关函数进行锐化。
为了提高互相关函数峰值的分辨能力,以及噪声环境下的抗干扰能力,还可以在所述利用快速傅里叶变换确定所述互相关函数之后,对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,从而起到对所述互相关函数进行锐化的作用。
其中,所述增强是依据各阵元所接收波束的信噪比确定的。
具体地,可以在公式(3)的基础上进行频域的加权,因此可以将公式(3)改写如下:
其中,表示当前帧P的第m个麦克风在频点k上的权重系数,定义如下:
公式(5)可以理解为是信号/(信号+噪声),即对于第m个麦克风在频点k上的权重系数,其是基于信号对(信号+噪声)的比值确定的;当公式(5)的值越大,说明噪声对第m个阵元的影响越小,从而在噪声较小的情况下,可以使用相对较大的权重系数来对第m个阵元所获取的波束进行频域的增强;通过对频域的增强,可以提高互相关函数的峰值的尖锐程度,从而提高在噪声环境下的抗干扰能力。
其中公式(5)中的又可以通过以下公式得到,即:
其中,表示p帧,第m个阵元在频点k上的信噪比。所谓信噪比,就是指一个电子设备或者电子系统中信号与噪声的比例。一般来说,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。
另外,公式(6)中的α表示自适应系数,一般可以取0.1;表示第m个阵元在频点k处的噪声估计值。
其中可以采用MCRA的噪声估计方法来获取该噪声的值,由于MCRA的噪声估计方法属于现有技术,在此不再赘述。
步骤204和205是在步骤203的确定互相关函数之后可以选择执行的一个或两个步骤,以保证运算速度和测量精度。
206、利用时延差确定所述两两组合的阵元的互相关函数的值。
在确定了两两组合的阵元的互相关函数之后,可以将该两两组合的阵元的时延差代入该互相关函数中,从而利用时延差确定所述两两组合的阵元的互相关函数的值。
在预设方位处,任意两两组合的阵元之间的时延差是确定的,因此可以利用该时延差代入由步骤203-205之一所确定的互相关函数中,并且结合公式(2)中的自相关常量,从而确定该预设方位处互相关函数的值。
具体地,从函数可知,当任意两个阵元的时延差确定后,则该函数类似于所确定的时延差的变量,可以通过将时延差代入相应的互相关函数从而得到互相关函数的值。
207、依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量。
在该步骤中,可以获取由步骤206所确定的所有阵元两两组合所得到互相关函数的值,然而对其值进行求和,而通过麦克风阵列中所有两两组合的阵元的互相关函数值之和即能确定所述预设方位的波束能量。
以8个麦克风为例,则相对于一个预设方位,可以根据28种组合的阵列的28个时延差值,从而对28个互相关函数求和而得到预设方位的波束能量。
208、依据所有预设方位的波束能量确定声源的位置。
通过上述处理过程,原则上,可以获取所有预设方位的波束能量,而波束能量中的最大波束能量对应的方位就是麦克风阵列所需要确定的目标声源的位置。
具体地,依据所有预设方位的波束能量确定声源的位置可以包括:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
当确定出一个声源的位置时,在将确定出位置的声源对应的预设方位的互相关函数值置零的基础上,重新执行所述依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量的步骤,以便确定另一声源的位置。
其中,当确定出当前声源的位置后,将确定出位置的声源对应的预设方位的互相关函数值置零的目的在于,由于确定出的声源位置的声源对从其他预设位置确定的声源能量会产生干扰,因此在确定所有预设方位的每一预设方位的波束能量之前,可以将其中的已经确定了目标声源所在的预设方位处的互相关函数置为零,也就是不参考该已经确定了目标声源所在的预设方位的波束能量。
例如,针对一个预设方位,其波束能量是基于公式(2),尤其是基于公式(2)中的来实现的,就是通过求取任意两个阵元在预设方位对应的时延差的互相关函数之和,从而确定预设方位的波束能量。
当该预设方位作为已确定了目标声源的方位时,将该已有声源的预设方位处的值置为0,从而在对其他波束能量进行计算时,当涉及到计算已有声源时所使用的具有相同时延差的时,将不考虑该互相关函数的值,从而去除了该声源的波束能量对其他待进行位置判断的声源的影响。
并且,在该步骤中,还可以设置要定位的目标声源的数量;
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
下面结合各公式给出一个定位目标声源的具体实例:
步骤1:遍历所有预设的方位(α,β),求出该方位下所有麦克风组合之间的对应的时延差
步骤2:结合公式(2)-(4)求取所有方位的波束能量E(α,β)
步骤3:设定一个能量阈值EMIN,搜寻波束能量E(α,β)的最大值E(α,β)Max,若E(α,β)Max大于EMIN,则其对应的方位即为声源的方向;
步骤4:结合公式(4),将已有声源方位(α,β)E_MAX对应的互相关值置0;
步骤5:重复步骤2-4,搜寻所有可能的声源方位。
实施例二、
图4为本发明实施例二提供的一种定位目标声源的装置结构示意图。如图4所示,该装置可以包括以下单元:
预设方位划分单元401,用于将预设范围的空间划分为多个预设方位。
具体地,由于利用波束能量确定目标声源的方位时,是需要遍历麦克风阵列周围的360度的范围内的所有方位,进而根据所有方位的波束能量来确定声源位置。但是要计算得到所有方位的波束能量需要耗费极大的运算量,实际使用时没有这个必要。
因此为了提高计算效率,可以根据使用需要将麦克风阵列周围的由空间球体所体现的预设范围分割成特定的网格,以使每一个网格对应一个预设方位。
其中所划分的预设方位的数目与需要定位的精度和计算程度有关。
通过对所有方位的遍历变换成对划分的网格点所对应的预设方位的遍历,可以减小预算量,提高运算速度。
波束时延差确定单元402,用于确定麦克风阵列中两两组合的阵元在预设方位的波束时延差。
如果麦克风阵列中每个阵元的排列方式已固定,则可以针对每一个预设方位,确定该组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差。
其中,波束可以代表具有预定方向的音频信号,因此由阵元接收的波束也可以理解为阵元从预设方位接收的音频信号。
具体地,由于麦克风阵列中每个阵元接收同一预设方位的波束所需要的接收时间不同,因此可以根据该接收时间确定各个阵元中任意两个阵元在同一预设方位所接收的波束所需时间的差值作为该组合的阵元在该预设方位的波束时延差。
在求得了任意的两两组合的阵元在一个预设方位的波束时延差后,进一步求取任意组合的阵元在其他所有预设方位的波束时延差,通过求取所有预设方位的所有任意组合的波束时延差,为以下的确定波束能量作准备。
另外,由于由所有两两组合的阵元所确定的一组时延差可以唯一对应于一个预设方位,因此可以通过麦克风阵列中所有组合的阵元所确定的一组时延差来确定与其相对应的预设方位。
波束能量确定单元403,用于利用所述时延差,确定两两组合的阵元从所述预设方位获取的波束能量之和作为所述预设方位的波束能量。
该波束能量确定单元可以具体执行如下操作:
第一、确定两两组合的阵元在预设方位的互相关函数。
具体地,可以依据两两组合的阵元从预设方位获取的波束确定两两组合的阵元的互相关函数。
由于声源的位置实际上是通过波束能量来确定的,因此为了确定声源的位置,可以先对所有位置的波束能量进行计算。
参见实施例一中提供的公式(1)和(2)可知,本发明在计算波束能量时,通过将公式(1)的求取各个阵元接收的波束能量总和的过程转换为公式(2)的求取所有阵元组合的互相关函数之和的过程,从而极大提高了运算效率。
在得到互相关函数后,还可以通过以下描述的快速傅里叶变换和/或频域增强的方式,以进一步增加互相关函数的运算效率,或者提高互相关函数在噪声环境下的抗干扰能力。
第二、将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
具体地,参见实施例一中提供的公式(3),互相关函数可以通过快速傅里叶变换FFT与快速傅里叶逆变换IFFT快速得到。
将互相关函数通过FFT与IFFT变换快速得到的基本原理是:在一帧的信号长度中,将采样点n的时域转变为频域得到频点k,将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
利用快速傅里叶变换确定所述互相关函数之前,还可以对获取的每帧信号进行加窗预处理。
在对信号加窗之后,再执行快速傅里叶变换,以通过加窗的方式保证数据的连续性。
第三、对频域进行加权。
为了提高互相关函数峰值的分辨能力,以及噪声环境下的抗干扰能力,还可以在所述利用快速傅里叶变换确定所述互相关函数之后,对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,从而起到对所述互相关函数进行锐化的作用。
其中,所述增强是依据各阵元所接收波束的信噪比确定的。
具体地,可以通过实施例一中提供的公式(4)-(6)对频域进行加权。
本实施例中,对频域进行加权的具体方式与实施例一中的步骤205相同,在此不再赘述。
第四、利用时延差确定所述两两组合的阵元的互相关函数的值。
具体地,在确定了两两组合的阵元的互相关函数之后,可以将该两两组合的阵元的时延差代入该互相关函数中,从而利用时延差确定所述两两组合的阵元的互相关函数的值。
在预设方位处,任意两两组合的阵元之间的时延差是确定的,因此可以利用该时延差代入互相关函数中,并且结合公式(2)中阵元的自相关常量,从而确定互相关函数的值。
第五、依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量。
具体地,针对预设方位,可以获取确定的所有阵元两两组合所得到互相关函数的值,然而对其值进行求和,而通过麦克风阵列中所有两两组合的阵元的互相关函数值之和即能确定所述预设方位的波束能量。
声源位置确定单元404,用于依据所有预设方位的波束能量确定声源的位置。
具体地,原则上可以获取所有预设方位的波束能量,而波束能量中的最大波束能量对应的方位就是麦克风阵列所需要确定的目标声源的位置。
其中,依据所有预设方位的波束能量确定声源的位置可以通过以下方式实现:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
当确定出一个声源的位置时,则将确定出位置的声源对应的预设方位的互相关函数值置零,在此基础上,重新执行依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定预设方位的波束能量的操作,以便确定另一声源的位置。
其中,当确定出当前声源的位置后,将确定出位置的声源对应的预设方位的互相关函数值置零的目的在于,由于确定出的声源位置的声源对从其他预设位置确定的声源能量会产生干扰,因此在确定所有预设方位的每一预设方位的波束能量之前,可以将其中的已经确定了目标声源所在的预设方位处的互相关函数置为零,也就是不参考该已经确定了目标声源所在的预设方位的波束能量。
并且,本实施例还可以设置要定位的目标声源的数量,声源位置确定单元404还可以用于执行如下操作:
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
再举一个例子,还是以图1所示的立方体排列的8麦克风阵列为例,语音信号采样率为16KHz,每一帧信号长度取20ms,即320采样点。
在麦克风阵列周围1m处设置三个声源,采用本发明进行声源定位的结果如图5所示,图5中,中心处的8个原点即为麦克风阵列,透明球体用来示意周围的空间。通过本发明实施例提供的方法和装置,就能够较为准确地定位出麦克风阵列周围的三个声源位置,如图5中所示的三簇点集。
由以上描述可以看出,本发明提供的上述方法和装置可以具备以下优点:
1)本发明采用麦克风阵列,基于麦克风阵列在所有预设方位的波束能量,确定声源的位置,提高了声源的分辨效果。
2)本发明充分利用芯片计算资源,采用频域互相关函数方法求取波束能量,估计目标方位,大大减小计算量。
3)采用基于信噪比的频域加权的方式,提升了互相关函数峰的尖锐度,改善多目标声源定位的分辨能力。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种定位目标声源的方法,其特征在于,所述方法包括:
确定麦克风阵列中两两组合的阵元在预设方位的波束时延差;
依据所述两两组合的阵元从所述预设方位获取的音频信号确定两两组合的阵元的互相关函数;利用所述波束时延差确定所述两两组合的阵元的互相关函数的值;依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量;
依据所有预设方位的波束能量,确定声源的位置;
在将确定出位置的声源对应的预设方位的互相关函数值置零的基础上,重新执行所述依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量的步骤,以便确定另一声源的位置。
2.根据权利要求1所述的方法,其特征在于,在确定两两组合的阵元在预设方位的波束时延差时,将所述组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差作为所述波束时延差。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述利用快速傅里叶变换确定所述互相关函数之后,对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,以对所述互相关函数进行锐化。
5.根据权利要求4所述的方法,其特征在于,其中,所述增强是依据各阵元所接收波束的信噪比确定的。
6.根据权利要求1-2任一项所述的方法,其特征在于,所述依据所有预设方位的波束能量,确定声源的位置具体包括:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
8.根据权利要求1-2任一项所述的方法,其特征在于,所述预设方位是从将预设范围的空间划分为网格所形成的各网格点中选取的。
9.一种定位目标声源的装置,其特征在于,所述装置包括:
波束时延差确定单元,用于确定麦克风阵列中两两组合的阵元在预设方位的波束时延差;
波束能量确定单元,用于依据所述两两组合的阵元从所述预设方位获取的音频信号确定两两组合的阵元的互相关函数;利用所述波束时延差确定所述两两组合的阵元的互相关函数的值;依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量;
声源位置确定单元,用于依据所有预设方位的波束能量,确定声源的位置;在将确定出位置的声源对应的预设方位的互相关函数值置零的基础上,重新执行依据麦克风阵列中所有两两组合的阵元的互相关函数值之和确定所述预设方位的波束能量的操作,以便确定另一声源的位置。
10.根据权利要求9所述的装置,其特征在于,所述波束时延差确定单元在确定两两组合的阵元在预设方位的波束时延差时,将所述组合中一个阵元相对于另一个阵元在预设方位处接收同一波束的时间差作为所述波束时延差。
11.根据权利要求9所述的装置,其特征在于,所述波束能量确定单元还执行以下操作:将互相关函数中的时域变量转换为频域变量,利用快速傅里叶变换确定所述互相关函数。
12.根据权利要求11所述的装置,其特征在于,所述波束能量确定单元在利用快速傅里叶变换确定所述互相关函数之后,还执行以下操作:对所述两两组合的阵元中每个阵元获取的波束进行频域的增强,以对所述互相关函数进行锐化。
13.根据权利要求12所述的装置,其特征在于,其中,所述增强是依据各阵元所接收波束的信噪比确定的。
14.根据权利要求9-10任一项所述的装置,其特征在于,所述声源位置确定单元具体执行以下操作:
确定所有预设方位的波束能量中的最大波束能量;
对最大波束能量与预设的最小能量阈值进行比较,如果最大波束能量大于或等于最小能量阈值,则依据最大波束能量对应的预设方位坐标确定目标声源的位置。
15.根据权利要求9所述的装置,其特征在于,所述声源位置确定单元还用于执行如下操作:
如果定位出的目标声源数量达到预设的目标声源数量,则结束目标声源定位;或者,
如果剩余所有预设方位的音频信号能量均小于最小能量阈值,则结束目标声源的定位。
16.根据权利要求9-10任一项所述的装置,其特征在于,所述预设方位是从将预设范围的空间划分为网格所形成的各网格点中选取的。
CN201510809839.4A 2015-11-20 2015-11-20 一种定位目标声源的方法和装置 Active CN105467364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510809839.4A CN105467364B (zh) 2015-11-20 2015-11-20 一种定位目标声源的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510809839.4A CN105467364B (zh) 2015-11-20 2015-11-20 一种定位目标声源的方法和装置

Publications (2)

Publication Number Publication Date
CN105467364A CN105467364A (zh) 2016-04-06
CN105467364B true CN105467364B (zh) 2019-03-29

Family

ID=55605269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510809839.4A Active CN105467364B (zh) 2015-11-20 2015-11-20 一种定位目标声源的方法和装置

Country Status (1)

Country Link
CN (1) CN105467364B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437420A (zh) * 2016-05-27 2017-12-05 富泰华工业(深圳)有限公司 语音信息的接收方法、系统及装置
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
WO2018188287A1 (zh) * 2017-04-11 2018-10-18 广东美的制冷设备有限公司 一种语音控制方法、装置及家电设备
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
US10595122B2 (en) * 2017-06-15 2020-03-17 Htc Corporation Audio processing device, audio processing method, and computer program product
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质
CN107396244B (zh) * 2017-08-15 2019-12-24 浙江新再灵科技股份有限公司 一种基于麦克风阵列的声源定位系统及方法
CN107957571B (zh) * 2017-10-09 2021-09-10 中国南方电网有限责任公司调峰调频发电公司 水听器测向方法、装置、计算机可读存储介质及计算机设备
CN108152788A (zh) * 2017-12-22 2018-06-12 西安Tcl软件开发有限公司 声源追踪方法、声源追踪设备及计算机可读存储介质
CN108962263B (zh) * 2018-06-04 2019-09-20 百度在线网络技术(北京)有限公司 一种智能设备控制方法及系统
CN111624554B (zh) * 2019-02-27 2023-05-02 北京京东尚科信息技术有限公司 声源定位方法和装置
CN110068797B (zh) * 2019-04-23 2021-02-02 浙江大华技术股份有限公司 一种校准麦克风阵列的方法、声源定位方法及相关设备
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
CN110082724B (zh) * 2019-05-31 2021-09-21 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN110244288A (zh) * 2019-07-01 2019-09-17 中国人民解放军军事科学院国防科技创新研究院 一种基于聚焦归位原理的水声阵列信号处理方法
CN110554357B (zh) * 2019-09-12 2022-01-18 思必驰科技股份有限公司 声源定位方法和装置
CN110992921B (zh) * 2019-10-31 2023-12-12 佳禾智能科技股份有限公司 前馈降噪系统中动态选择参考麦克风的方法、电子设备、计算机可读存储介质
CN110988800A (zh) * 2020-02-28 2020-04-10 浙江万里学院 一种基于声能的半正定松弛定位方法
CN111815958B (zh) * 2020-06-18 2022-11-29 安徽超清科技股份有限公司 一种交通电子警察抓拍控制装置及方法
CN111739554A (zh) * 2020-06-19 2020-10-02 浙江讯飞智能科技有限公司 声学成像频率确定方法、装置、设备及存储介质
CN111856400B (zh) * 2020-07-29 2021-04-09 中北大学 一种水下目标声源定位方法及系统
CN112185353A (zh) * 2020-09-09 2021-01-05 北京小米松果电子有限公司 音频信号的处理方法、装置、终端及存储介质
CN112540347A (zh) * 2020-11-17 2021-03-23 普联国际有限公司 一种声源远近的判断方法、装置、终端设备及存储介质
CN112526452A (zh) * 2020-11-24 2021-03-19 杭州萤石软件有限公司 声源检测方法、云台摄像机、智能机器人及存储介质
CN113009419B (zh) * 2021-02-25 2021-11-09 中国科学院声学研究所 一种基于频域互相关匹配的目标深度估计方法
CN113702960B (zh) * 2021-06-29 2022-10-21 哈尔滨工程大学 一种基于时延和多普勒频移的水下机动平台高精度测速方法
CN113707149A (zh) * 2021-08-30 2021-11-26 维沃移动通信有限公司 音频处理方法和装置
CN114173273B (zh) * 2021-12-27 2024-02-13 科大讯飞股份有限公司 麦克风阵列检测方法、相关设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411138A (zh) * 2011-07-13 2012-04-11 北京大学 一种机器人声源定位方法
KR101217492B1 (ko) * 2012-01-05 2013-01-02 고려대학교 산학협력단 병렬 처리를 이용한 음원 위치 추정 장치 및 방법
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
KR101442172B1 (ko) * 2008-05-14 2014-09-18 삼성전자주식회사 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101442172B1 (ko) * 2008-05-14 2014-09-18 삼성전자주식회사 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법
CN102411138A (zh) * 2011-07-13 2012-04-11 北京大学 一种机器人声源定位方法
KR101217492B1 (ko) * 2012-01-05 2013-01-02 고려대학교 산학협력단 병렬 처리를 이용한 음원 위치 추정 장치 및 방법
CN102854494A (zh) * 2012-08-08 2013-01-02 Tcl集团股份有限公司 一种声源定位方法及装置
CN104142492A (zh) * 2014-07-29 2014-11-12 佛山科学技术学院 一种srp-phat多源空间定位方法
CN104360315A (zh) * 2014-10-16 2015-02-18 河北工业大学 基于LabVIEW的麦克风阵列声源定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Modified SRP-PHAT Functional for Robust Real-Time Sound Source Localization With Scalable Spatial Sampling;Maximo Cobos et al.;《IEEE SIGNAL PROCESSING LETTERS》;20110131;第18卷(第1期);第71-74页 *
A NEW REGION SEARCH METHOD BASED ON DOA ESTIMATION FOR SPEECH SOURCE LOCALIZATION BY SRP-PHAT METHOD;Ali Dehghan Firoozabadi et al.;《18th European Signal Processing Conference》;20100827;第656-660页 *
利用多点互相关值均值的实时声源定位算法;张一闻等;《西安电子科技大学学报(自然科学版)》;20150228;第42卷(第1期);摘要,第169页 *

Also Published As

Publication number Publication date
CN105467364A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN105467364B (zh) 一种定位目标声源的方法和装置
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
KR101724514B1 (ko) 사운드 신호 처리 방법 및 장치
CN103308889B (zh) 复杂环境下被动声源二维doa估计方法
CN109839612A (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法
JP4910568B2 (ja) 紙擦れ音除去装置
WO2017044629A1 (en) Arbitration between voice-enabled devices
Wang et al. Robust TDOA Estimation Based on Time-Frequency Masking and Deep Neural Networks.
TR201808448T4 (tr) Ses kaynağı lokalizasyonu
JP2018063200A (ja) 音源位置推定装置、音源位置推定方法、及びプログラム
EP2449798A1 (en) A system and method for estimating the direction of arrival of a sound
Ren et al. A novel multiple sparse source localization using triangular pyramid microphone array
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
CN106537501A (zh) 混响估计器
CN112799017B (zh) 声源定位方法、装置、存储介质及电子设备
CN110827846A (zh) 采用加权叠加合成波束的语音降噪方法及装置
CN105607042A (zh) 用麦克风阵列时延估计定位声源的方法
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
CN109212481A (zh) 一种利用麦克风阵列进行声源定位的方法
CN110047507A (zh) 一种声源识别方法及装置
Hao et al. Spectral flux-based convolutional neural network architecture for speech source localization and its real-time implementation
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
Do et al. Stochastic particle filtering: A fast SRP-PHAT single source localization algorithm
CN116343808A (zh) 柔性麦克风阵列语音增强方法及装置、电子设备、介质
Ghamdan et al. Position estimation of binaural sound source in reverberant environments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant