CN102103200B - 一种分布式非同步声传感器的声源空间定位方法 - Google Patents

一种分布式非同步声传感器的声源空间定位方法 Download PDF

Info

Publication number
CN102103200B
CN102103200B CN 201010568360 CN201010568360A CN102103200B CN 102103200 B CN102103200 B CN 102103200B CN 201010568360 CN201010568360 CN 201010568360 CN 201010568360 A CN201010568360 A CN 201010568360A CN 102103200 B CN102103200 B CN 102103200B
Authority
CN
China
Prior art keywords
sonic transducer
frame
sound
signal
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010568360
Other languages
English (en)
Other versions
CN102103200A (zh
Inventor
杨毅
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201010568360 priority Critical patent/CN102103200B/zh
Publication of CN102103200A publication Critical patent/CN102103200A/zh
Application granted granted Critical
Publication of CN102103200B publication Critical patent/CN102103200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

一种分布式非同步声传感器的声源空间定位方法,先在假设条件下计算空间坐标,再发射校正信号计算分布式非同步声传感器的结构,然后对分布式非同步声传感器采集的信号进行预处理,再对声源信号采用时延估计法计算,得到对应的时延估计值,最后根据时延估计值计算每个声源的空间位置坐标,本发明声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便等优势,可应用于复杂声学环境下的多人多方对话场景。

Description

一种分布式非同步声传感器的声源空间定位方法
技术领域
本发明属于语音技术领域,具体涉及一种分布式非同步声传感器的声源空间定位方法。
背景技术
随着网络和通讯技术的不断发展,利用现有的多媒体技术、网络与通讯技术、分布式处理技术等可以实现复杂声学环境场景下的多人多方对话。
传统声源输入和录音设备包括头戴式麦克风、全向性和方向性麦克风、麦克风阵列等。单麦克风作为传统声源输入和录音设备,具有体积小、价格低廉等优点,但不具备对环境噪声处理以及声源定位的能力;麦克风阵列由多个按照特定几何位置摆放的麦克风组成,对空间信号进行时空域联合处理,其能力包括:混响条件下的声源定位、增强语音信号、辨识与分离声源等。
分布式非同步声传感器是由多个单声传感器组成的信号采集系统,各个声传感器由不同设备控制,对声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步。分布式非同步声传感器结构简单、使用方便、节约成本,符合多声源多方向复杂对活场景的要求,可有效地完成声源定位、说话人聚类和识别等多种应用。
但是,麦克风阵列系统算法对各个设备之间采样的误差敏感,因此对音频数据同步性要求十分严格;而普通的多人多方会议场景中声源个数未知、声传感器位置未知、房间声学环境未知,即需要在时间和空间先验信息均缺失的场景下对声音数据进行处理。
分布式非同步声传感器的声源空间定位方法和麦克风阵列的声源空间定位方法有所不同。麦克风阵列的麦克风需要组成阵列,或至少麦克风间距固定,而分布式非同步声传感器对声传感器的位置和摆放没有任何约束和限制,因此使用更加灵活;麦克风阵列采集的信号在时间域完全同步,各个麦克风由统一的时钟进行控制,声传感器采集的信号在时间域不完全同步;此外分布式非同步声传感器系统中的声源和声传感器位置信息未知,需要对其进行估计。
分布式非同步声传感器和麦克风阵列网络系统也有所不同。其区别在于:麦克风阵列网络系统是由多个麦克风阵列作为节点组成网络声传感器对语音进行处理,无线网络中分布式语音输入设备需要统一的时钟来保证采集时间同步;而分布式非同步声传感器中的各个声传感器由不同的终端设备控制,使用不同的采集卡进行信号采集,因此具有各自独立的时钟和采样频率,导致采集时间不同步。
麦克风阵列定位的主要方法包括单步定位方法和双步定位方法。
单步定位包括基于波束指向的定位方法和基于高分辨率谱分析的定位方法。前一种方法通过补偿声源到不同麦克风之间的时间差,将补偿后的信号进行相加平均得到阵列的输出。后一种方法主要涉及了自回归模型、最小方差谱估计和各种基于特征分析技术的方法。这些方法通常需要搜索整个空间来达到定位的目的。
双步定位技术实现一个定位过程要分两步来实现,它包括两类:基于TDOA(到达时间差)的双步定位和基于ILD(双耳电平差)的双步定位。基于TDOA(到达时间差)的定位首先通过时延估计算法估计出信号在不同阵元处的TDOA(到达时间差),进而再通过几何关系进行定位。基于ILD(双耳电平差)的定位技术建立在人耳感知特性基础之上,它借助于声源到达两耳间的电平差信息来判断声源的位置。
麦克风阵列时延估计算法主要包括GCC(广义互相关)方法和LMS(最小均方误差)方法。GCC(广义互相关)受混响影响比较严重,改进后产生了CEP(倒谱预滤波)方法和基音加权的GCC(广义互相关)方法,EVD(特征值分解)和基于ATF(声学传递函数)比的时延估计方法则分别利用子空间的技术和传递函数比来求解。
作为传统声源输入和录音设备的麦克风,价格低廉、结构简单,缺点是易受环境干扰,且不能对声源进行定位;麦克风阵列系统已被广泛研究,没有商用化的主要原因是专用硬件价格昂贵以及算法复杂度较高。
发明内容
为了克服上述现有技术的缺点,本发明提供了一种分布式非同步声传感器的声源空间定位方法,声传感器的排列和间距没有任何限制,声传感器采集的信号在时间域不完全同步,具有价格低廉、使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。
一种分布式非同步声传感器的声源空间定位方法,包括以下步骤:
第一步,在假设条件下计算空间坐标
首先假设在数据获得过程中全部声传感器的数目n和空间位置不变,n为大于零的整数,声源数目k不变,k为大于零的整数,声源与声传感器距离符合近场模型的要求,各个声传感器的物理性质相同,再对每个声传感器按顺序编号为声传感器M1,M2…,Mn,选择初始编号为1和2的两个声传感器M1和M2,设声传感器M1的位置为原点坐标,声传感器M1到声传感器M2的方向为起点坐标轴方向,这样可以确定一个空间坐标系,
第二步,发射校正信号计算分布式非同步声传感器的结构
首先令声传感器M1发射校正信号C,除声传感器M1之外的其他声传感器进行记录;同样地,声传感器M2发射相同的校正信号C,除声传感器M2之外的其他声传感器进行记录;以此类推,全部n个声传感器都发射一遍校正信号C;这样,每个声传感器得到对应n-1个记录信号;计算这n-1个记录信号的起始时间与每个声传感器Mi发射校正信号C时刻的对应时延,时延与声速c的乘积则为每个发射声传感器Mi到每个接收声传感器Mj的物理距离dij
然后在第一步确定的坐标系下得到每个声传感器Mi到原点的距离di0及声传感器Mi到起点坐标轴的夹角θi,由此计算得到每个声传感器Mi的二维坐标(di0,θi),当每个声传感器Mi到起点坐标轴的夹角θi相同时,表明多声传感器为线形多声传感器阵列,当声传感器之间的距离完全相等时为均匀线阵,此时可用传统的声传感器阵列处理方法对声源进行定位,即通过余弦定理公式计算每个声传感器的二维极坐标,如公式(1)~公式(3)所示:
cosC=(a^2+b^2-c^2)/2ab(1)
cosB=(a^2+c^2-b^2)/2ac(2)
cosA=(b^2+c^2-a^2)/2bc(3)
其中:a为任意声传感器Mi与声传感器M1之间的物理距离,b为声传感器M1与声传感器M2之间的物理距离,c为声传感器Mi与声传感器M2之间的物理距离,由此计算可得声传感器Mi到起点坐标轴的夹角C,
第三步,对分布式非同步声传感器采集的信号进行预处理
首先对分布式非同步声传感器获得的多路声源信号进行预处理,先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信号和非声源信号两类,语音端点检测方法可采用子带频谱熵算法,先将每帧语音的频谱划分成n(n为大于零的整数)子带,计算出每个子带的频谱熵,然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为:将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的NFFT个点Yi(0≤i≤NFFT),每个点在频谱域上的概率密度可用公式(4)表示:
p i = Y i / Σ k = 0 N FFT - 1 Y k - - - ( 4 )
其中:Yk为经过FFT变换的语音信号在功率谱上的第k个点,Yi为经过FFT变换的语音信号在功率谱上的第i个点,NFFT为i的个数,pi为第i个点在频谱域上的概率密度,
相应信号在频谱域上的熵函数定义可用公式(5)表示:
H = - Σ k = 0 N FFT - 1 p k log ( p k ) - - - ( 5 )
其中:pk为第k个点在频谱域上的概率密度,NFFT为i的个数,H为频谱域上的熵函数,
将频域上的NFFT个点划分成K个互不重叠的频段,称为子带,计算第l帧频谱域上每个点的概率如公式(6)所示:
p l [ k , i ] = ( Y i + Q ) / Σ j = m k m k + 1 - 1 ( Y j + Q ) - - - ( 6 )
其中:Yj为经过FFT变换的语音信号在功率谱上的第j个点,Yi为第k个子带上的点,
Figure BSA00000368533500063
为子带下限,Q为常数,pl[k,i]为第l帧频谱域上每个点的概率,
根据信息熵的定义,第l帧的第k个子带的频谱熵的值如公式(7)所示:
E s [ l , k ] = Σ i = mk m k + 1 - 1 p l [ k , i ] log ( p l [ k , i ] ) ( 0 ≤ k ≤ K - 1 ) - - - ( 7 )
其中:pl[k,i]为第l帧频谱域上每个点的概率,Es[l,k]为第l帧的第k个子带的频谱熵,
根据下面公式(8)我们可以计算出第l帧的频谱信息熵:
H l = - 1 K Σ k = 0 K - 1 E h [ l , k ] - - - ( 8 )
其中:Eh[l,k]为第l帧的第k个子带的频谱熵,K为子带个数,Hl为经过滤波平滑处理后的第l帧的第k个子带的信息熵,定义如公式(9)所示:
Eh[l,k]=(1-λ)Es(h)[l,k]+λEs(h+1)[l,k](0≤k≤K-1)(9)
其中:Es(h)[l,k]获得方法如下:算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵Es[l-N,k],KEs[l,k],K Es[l+N,k]上,将这组子带信息熵按升序顺序排序,Es(h)[l,k]是Es[l-N,k],KEs[l,k],K Es[l+N,k]中的第h个最大值;λ为一常数,Eh[l,k]为滤波平滑处理后的第l帧的第k个子带的信息熵,
由公式(8)可以得到每帧的信号有一个频谱熵Hl,当Hl的值大于事先设定的阈值T时,将第l帧判别语音帧,否则判为非语音帧;阈值T的定义为T=βAvg+θ,其中
Figure BSA00000368533500071
β=0.01,θ=0.1,Em[k]为Es0,k],K,Es[N-1,k]的中值,Avg是输入信号最开始N帧的噪声估计,
第四步,对声源信号采用时延估计法计算,得到对应的时延估计值
首先采用时延估计法对声源信号到任意两个传感器之间的时延差进行估计,时延估计可采用PHAT(相位变换)加权算法,其加权系数如公式(10)所示,时延估计方法如公式(11)~(12)所示:
W ( ω ) = 1 | X 1 ( ω ) X 2 * ( ω ) | - - - ( 10 )
其中:X1(ω)、X2(ω)分别为两路时域信号经过FFT变换之后的输出,*为共轭符号,
R x 1 x 2 ( n ) = IFFT ( W ( ω ) · X 1 ( ω ) · X 2 * ( ω ) ) - - - ( 11 )
τ ^ = arg max n R x 1 x 2 ( n ) - - - ( 12 )
其中:
Figure BSA00000368533500083
为两路信号的广义互相关函数,
Figure BSA00000368533500084
为x1和x2之间的时
延估计值,
其次需要去除无效数据,按下面公式(13)计算时延:
&tau; [ n ] = &tau; ^ [ n - 1 ] SNR < Thr SNR &tau; ^ [ n ] SNR &GreaterEqual; Thr SNR - - - ( 13 )
其中:n为某一帧的索引值,τ为某一帧对应的时延数据,
Figure BSA00000368533500086
为某一帧估计的时延数据,当某一时刻信噪比小于阈值ThrSNR时,采用上一时刻的估计时延作为该时刻的时延估计值,
以及按公式(14)进一步计算时延:
&tau; [ n ] = &tau; ^ [ n - 1 ] &tau; ^ [ n ] < Thr &tau; ^ [ n ] &tau; ^ [ n ] &GreaterEqual; Thr - - - ( 14 )
其中:n为某一帧的索引值,τ为某一帧对应的时延数据,
Figure BSA00000368533500088
为某一帧估计的时延数据,当某一时刻时延估计小于阈值Thr时,采用上
一时刻的估计时延作为该时刻的时延估计值,
第五步,根据时延估计值计算每个声源的空间位置坐标
首先对每个声源按照出现顺序编号为为S1,S2,K,Sn,采用第四步中提到的时延估计算法对每个声源到任意两个声传感器mi和mj之间的时延差进行估计,得到n(n-1)个时延估计值。用公式15对声源Sa的空间矢量位置进行计算:
&tau; ij ( S a ) = | | m V i - S V a | | - | | m V j - S V a | | c - - - ( 15 )
其中:τij(Sa)为声源Sa到第i个麦克风和第j个麦克风之间的时延,为第i个麦克风的空间位置,
Figure BSA00000368533500093
为第j个麦克风的空间位置,
Figure BSA00000368533500094
为声源Sa的空间位置,
接下来对全部声源的空间矢量位置进行计算:将每个声源对应的n(n-1)个时延估计值和全部声传感器坐标带入公式(15),则每个声源对应得到n(n-1)个双曲线方程,这些双曲线方程组的解为该声源的空间位置,
此外需要通过计算排除不正确的声源位置,上述双曲线方程组可能出现方程数大于未知数的情况,此时可将方程组的解带入冗余方程来排除不正确的声源位置,
当方程组的解不唯一时,将双曲线相交形成的封闭空间视为声源范围,通过计算得到该组数据的中心点作为方程组的解,中心点的计算如公式(16)和公式(17)所示:
d ct = d max + d min 2 - - - ( 16 )
其中:dct为中心点到坐标原点之间的距离,dmax为封闭空间全部数据到坐标原点之间的距离的最大值,dmin为封闭空间全部数据到坐标原点之间的距离的最小值,
&theta; ct = &theta; max + &theta; min 2 - - - ( 17 )
其中:θct为中心点向量与起始坐标之间的夹角,θmax为封闭空间全部数据向量与起始坐标之间的夹角的最大值,θmin为封闭空间全部数据向量与起始坐标之间的夹角的最小值。若双曲线方程组无交点,则将该组数据视为错误数据排除,
重复以上方法,依次计算时域不重叠的k个声源二维空间位置。
本发明具有如下优点:
一、本发明提出的分布式非同步声传感器,对声传感器的空间位置无严格限制,此外对采集信号的同步性要求较低,相比麦克风阵列而言应用更加灵活广泛;
二、本发明提出的利用校正信号确定声传感器空间结构的计算方法,原理简单且性能稳定;
三、本发明充分利用了分布式非同步声传感器的空间结构进行声源时延估计;
四、本发明充分利用了声传感器之间及声源与声传感器之间的多个时延差进行信息融合,利用冗余方程排除错误时延估计,提高了时延估计的准确度和稳健性;
五、本发明的分布式非同步声传感器的多声源空间定位方法能够应用于多种多人多方对话场景,具有稳健性好,适应多种声学环境的特点,并且本发明可以在目前的掌上电脑、个人数字助理(PDA)或手机上实现,其应用范围非常广泛。
附图说明
图1是本发明的流程示意图。
图2是本发明分布式非同步声传感器空间结构的计算实施图。
图3是本发明端点检测的计算实施图。
图4是本发明声源时延估计的计算实施图。
图5是本发明多声源空间定位的计算实施图。
具体实施方式
以下结合附图对本发明进行详细说明。
参照图1,一种分布式非同步声传感器的声源空间定位方法,包括以下步骤:
第一步,参照图2,在假设条件下计算空间坐标
首先假设在数据获得过程中全部声传感器的数目n和空间位置不变,n为大于零的整数,声源数目k不变,k为大于零的整数,声源与声传感器距离符合近场模型的要求,各个声传感器的物理性质相同,再对每个声传感器按顺序编号为声传感器M1,M2…,Mn,选择初始编号为1和2的两个声传感器M1和M2,设声传感器M1的位置为原点坐标,声传感器M1到声传感器M2的方向为起点坐标轴方向,这样可以确定一个空间坐标系,
第二步,发射校正信号计算分布式非同步声传感器的结构
首先令声传感器M1发射校正信号C,除声传感器M1之外的其他声传感器进行记录;同样地,声传感器M2发射相同的校正信号C,除声传感器M2之外的其他声传感器进行记录;以此类推,全部n个声传感器都发射一遍校正信号C;这样,每个声传感器得到对应n-1个记录信号;计算这n-1个记录信号的起始时间与每个声传感器Mi发射校正信号C时刻的对应时延,时延与声速c的乘积则为每个发射声传感器Mi到每个接收声传感器Mj的物理距离dij
然后在第一步确定的坐标系下得到每个声传感器Mi到原点的距离di0及声传感器Mi到起点坐标轴的夹角θi,由此计算得到每个声传感器Mi的二维坐标(di0,θi),当每个声传感器Mi到起点坐标轴的夹角θi相同时,表明多声传感器为线形多声传感器阵列,当声传感器之间的距离完全相等时为均匀线阵,此时可用传统的声传感器阵列处理方法对声源进行定位,即通过余弦定理公式计算每个声传感器的二维极坐标,如公式(1)~公式(3)所示:
cosC=(a^2+b^2-c^2)/2ab  (1)
cosB=(a^2+c^2-b^2)/2ac  (2)
cosA=(b^2+c^2-a^2)/2bc  (3)
其中:a为任意声传感器Mi与声传感器M1之间的物理距离,b为声传感器M1与声传感器M2之间的物理距离,c为声传感器Mi与声传感器M2之间的物理距离,由此计算可得声传感器Mi到起点坐标轴的夹角C,
第三步,参照图3,对分布式非同步声传感器采集的信号进行预处理
首先对分布式非同步声传感器获得的多路声源信号进行预处理,先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信号和非声源信号两类,端点检测的目的在于从信号中区分出语音信号和非语音信号,语音端点检测方法可采用子带频谱熵算法,先将每帧语音的频谱划分成n(n为大于零的整数)子带,计算出每个子带的频谱熵,然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为:将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的NFFT个点Yi(0≤i≤NFFT),每个点在频谱域上的概率密度可用公式(4)表示:
p i = Y i / &Sigma; k = 0 N FFT - 1 Y k - - - ( 4 )
其中:Yk为经过FFT变换的语音信号在功率谱上的第k个点,Yi为经过FFT变换的语音信号在功率谱上的第i个点,NFFT为i的个数,Pi为第i个点在频谱域上的概率密度,
相应信号在频谱域上的熵函数定义可用公式(5)表示:
H = - &Sigma; k = 0 N FFT - 1 p k log ( p k ) - - - ( 5 )
其中:pk为第k个点在频谱域上的概率密度,NFFT为i的个数,H为频谱域上的熵函数,
将频域上的NFFT个点划分成K个互不重叠的频段,称为子带,计算第l帧频谱域上每个点的概率如公式(6)所示:
p l [ k , i ] = ( Y i + Q ) / &Sigma; j = m k m k + 1 - 1 ( Y j + Q ) - - - ( 6 )
其中:Yj为经过FFT变换的语音信号在功率谱上的第j个点,Yi为第k个子带上的点,
Figure BSA00000368533500134
为子带下限,Q为常数,pl[k,i]为第l帧频谱域上每个点的概率,
根据信息熵的定义,第l帧的第k个子带的频谱熵的值如公式(7)所示:
E s [ l , k ] = &Sigma; i = mk m k + 1 - 1 p l [ k , i ] log ( p l [ k , i ] ) ( 0 &le; k &le; K - 1 ) - - - ( 7 )
其中:pl[k,i]为第l帧频谱域上每个点的概率,Es[l,k]为第l帧的第k个子带的频谱熵,
根据下面公式(8)我们可以计算出第l帧的频谱信息熵:
H l = - 1 K &Sigma; k = 0 K - 1 E h [ l , k ] - - - ( 8 )
其中:Eh[l,k]为第l帧的第k个子带的频谱熵,K为子带个数,Hl为经过滤波平滑处理后的第l帧的第k个子带的信息熵,定义如公式(9)所示:
Eh[l,k]=(1-λ)Es(h)[l,k]+λEs(h+1)[l,k](0≤k≤K-1)(9)
其中:Es(h)[l,k]获得方法如下:算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵Es[l-N,k],K Es[l,k],K Es[l+N,k]上,将这组子带信息熵按升序顺序排序,Es(h)[l,k]是Es[l-N,k],K Es[l,k],K Es[l+N,k]中的第h个最大值;λ为一常数,Eh[l,k]为滤波平滑处理后的第l帧的第k个子带的信息熵,
由公式(8)可以得到每帧的信号有一个频谱熵hl,当Hl的值大于事先设定的阈值T时,将第l帧判别语音帧,否则判为非语音帧;阈值T的定义为T=βAvg+θ,其中
Figure BSA00000368533500143
β=0.01,θ=0.1,Em[k]为Es[0,k],K,Es[N-1,k]的中值,Avg是输入信号最开始N帧的噪声估计,
第四步,参照图4,对声源信号采用时延估计法计算,得到对应的时延估计值,
首先采用时延估计法对声源信号到任意两个传感器之间的时延差进行估计,时延估计可采用PHAT(相位变换)加权算法,其加权系数如公式(10)所示,时延估计方法如公式(11)~(12)所示:
W ( &omega; ) = 1 | X 1 ( &omega; ) X 2 * ( &omega; ) | - - - ( 10 )
其中:X1(ω)、X2(ω)分别为两路时域信号经过FFT变换之后的输出,*为共轭符号,
R x 1 x 2 ( n ) = IFFT ( W ( &omega; ) &CenterDot; X 1 ( &omega; ) &CenterDot; X 2 * ( &omega; ) ) - - - ( 11 )
&tau; ^ = arg max n R x 1 x 2 ( n ) - - - ( 12 )
其中:
Figure BSA00000368533500154
为两路信号的广义互相关函数,
Figure BSA00000368533500155
为x1和x2之间的时延估计值,
其次需要去除无效数据,按下面公式(13)计算时延:
&tau; [ n ] = &tau; ^ [ n - 1 ] SNR < Thr SNR &tau; ^ [ n ] SNR &GreaterEqual; Thr SNR - - - ( 13 )
其中:n为某一帧的索引值,τ为某一帧对应的时延数据,
Figure BSA00000368533500157
为某一帧估计的时延数据,当某一时刻信噪比小于阈值ThrSNR时,采用上一时刻的估计时延作为该时刻的时延估计值,
以及按公式(14)进一步计算时延:
&tau; [ n ] = &tau; ^ [ n - 1 ] &tau; ^ [ n ] < Thr &tau; ^ [ n ] &tau; ^ [ n ] &GreaterEqual; Thr - - - ( 14 )
其中:n为某一帧的索引值,τ为某一帧对应的时延数据,
Figure BSA00000368533500159
为某一帧估计的时延数据,当某一时刻时延估计小于阈值Thr时,采用上一时刻的估计时延作为该时刻的时延估计值,
第五步,参照图5,根据时延估计值计算每个声源的空间位置坐标
首先对每个声源按照出现顺序编号为为S1,S2,K,Sn,采用第四步中提到的时延估计算法对每个声源到任意两个声传感器mi和mj之间的时延差进行估计,得到n(n-1)个时延估计值。用公式15对声源Sa的空间矢量位置进行计算:
&tau; ij ( S a ) = | | m V i - S V a | | - | | m V j - S V a | | c - - - ( 15 )
其中:τij(Sa)为声源Sa到第i个麦克风和第j个麦克风之间的时延,
Figure BSA00000368533500162
为第i个麦克风的空间位置,
Figure BSA00000368533500163
为第j个麦克风的空间位置,
Figure BSA00000368533500164
为声源Sa的空间位置,
接下来对全部声源的空间矢量位置进行计算:将每个声源对应的n(n-1)个时延估计值和全部声传感器坐标带入公式(15),则每个声源对应得到n(n-1)个双曲线方程,这些双曲线方程组的解为该声源的空间位置,
此外需要通过计算排除不正确的声源位置,上述双曲线方程组可能出现方程数大于未知数的情况,此时可将方程组的解带入冗余方程来排除不正确的声源位置,
当方程组的解不唯一时,将双曲线相交形成的封闭空间视为声源范围,通过计算得到该组数据的中心点作为方程组的解,中心点的计算如公式(16)和公式(17)所示:
d ct = d max + d min 2 - - - ( 16 )
其中:dct为中心点到坐标原点之间的距离,dmax为封闭空间全部数据到坐标原点之间的距离的最大值,dmin为封闭空间全部数据到坐标原点之间的距离的最小值,
&theta; ct = &theta; max + &theta; min 2 - - - ( 17 )
其中:θct为中心点向量与起始坐标之间的夹角,θmax为封闭空间全部数据向量与起始坐标之间的夹角的最大值,θmin为封闭空间全部数据向量与起始坐标之间的夹角的最小值。若双曲线方程组无交点,则将该组数据视为错误数据排除,
重复以上方法,依次计算时域不重叠的k个声源二维空间位置。
附图中:
Figure BSA00000368533500173
为单个声源的空间位置向量,
Figure BSA00000368533500174
为另一单个声源的空间位置向量,
Figure BSA00000368533500175
分别为单个麦克风Mi、Mk、Mj的空间位置向量。

Claims (1)

1.一种分布式非同步声传感器的声源空间定位方法,其特征在于:包括以下步骤:
第一步,在假设条件下计算空间坐标
首先假设在数据获得过程中全部声传感器的数目nsensor和空间位置不变,nsensor为大于零的整数,声源数目k不变,k为大于零的整数,声源与声传感器距离符合近场模型的要求,各个声传感器的物理性质相同,再对每个声传感器按顺序编号为声传感器M1,M2,…,Mn,选择初始编号为1和2的两个声传感器M1和M2,设声传感器M1的位置为坐标原点,声传感器M1到声传感器M2的方向为起点坐标轴方向,这样可以确定一个空间坐标系,
第二步,发射校正信号计算分布式非同步声传感器的结构
首先令声传感器M1发射校正信号C,除声传感器M1之外的其他声传感器进行记录;同样地,声传感器M2发射相同的校正信号C,除声传感器M2之外的其他声传感器进行记录;以此类推,全部n个声传感器都发射一遍校正信号C;这样,每个声传感器得到对应n-1个记录信号;计算这n-1个记录信号的起始时间与每个声传感器Mi发射校正信号C时刻的对应时延,时延与声速c的乘积则为每个声传感器Mi到另一个声传感器Mj的物理距离,
然后在第一步确定的坐标系下得到每个声传感器Mi到原点的距离di0及声传感器Mi的向量与起点坐标轴的夹角θi,由此计算得到每 个声传感器Mi的二维极坐标( di0,θi),当每个声传感器Mi向量与起点坐标轴的夹角θi相同时,表明多声传感器为线形多声传感器阵列,当声传感器之间的距离完全相等时为均匀线阵,此时可用传统的声传感器阵列处理方法对声源进行定位,即通过余弦定理公式计算每个声传感器的二维极坐标,
第三步,对分布式非同步声传感器采集的信号进行预处理
首先对分布式非同步声传感器获得的多路声源信号进行预处理,先对多路声源信号分帧及进行快速傅立叶变换(FFT),然后对多路声源信号进行端点检测,将信号分为声源信号和非声源信号两类,语音端点检测方法可采用子带频谱熵算法,先将每帧语音的频谱划分成大于零的整数K个子带,计算出每个子带的频谱熵,然后把相继N帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为:将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的NFFT个点Yi(0≤i≤NFFT-1),每个点在频谱域上的概率密度可用公式(1)表示:
Figure FDA00001842150200021
其中:Yk为经过FFT变换的语音信号在功率谱上的第k个点,Yi为经过FFT变换的语音信号在功率谱上的第i个点,NFFT为i的个数,pi为第i个点在频谱域上的概率密度,
相应信号在频谱域上的熵函数定义可用公式(2)表示: 
Figure FDA00001842150200031
其中:pk为第k个点在频谱域上的概率密度,NFFT为i的个数,H为频谱域上的熵函数,
将频域上的NFFT个点划分成K个互不重叠的频段,称为子带,计算第l帧频谱域上每个点的概率如公式(3)所示:
Figure FDA00001842150200032
其中:Yj为经过FFT变换的语音信号在功率谱上的第j个点,Yi为第k个子带上的点,
Figure FDA00001842150200033
为子带下限,Q为常数,pl[k,i]为第l帧频谱域上每个点的概率,
根据信息熵的定义,第l帧的第k个子带的信息熵的值如公式(4)所示:
Figure FDA00001842150200034
其中:pl[k,i]为第l帧频谱域上每个点的概率,Es[l,k]为第l帧的第k个子带的信息熵,
根据下面公式(5)我们可以计算出第l帧的频谱熵:
Figure FDA00001842150200035
其中:Hl为第l帧的频谱熵,K为子带个数,Eh[l,k]为第l帧的第k个子带的频谱信息熵,定义如公式(6)所示:
Eh[l,k]=(1-λ)Es(h)[l,k]+λEs(h+1)[l,k](0≤k≤K-1)(6) 
其中:Es(h)[l,k]获得方法如下:算法中每个子带的顺序统计滤波器作用在一组长度为2N+1的子带信息熵Es[l-N,k],…Es[l,k],…Es[l+N,k]上,将这组子带信息熵按升序顺序排序,Es(h)[l,k]是Es[l-N,k],…Es[l,k],…Es[l+N,k]中的第h个最大值;λ为一常数,
由公式(5)可以得到每帧的信号有一个频谱熵Hl,当Hl的值大于事先设定的阈值T时,将第l帧判为语音帧,否则判为非语音帧;阈值T的定义为T=βAvg+θ,其中 
Figure FDA00001842150200041
β=0.01,θ=0.1,Em[k]为Es[0,k],…,Es[N-1,k]的中值,
第四步,对声源信号采用时延估计法计算,得到对应的时延估计值
首先采用时延估计法对声源信号到任意两个传感器之间的时延差进行估计,时延估计可采用相位变换(PHAT)加权算法,其加权系数如公式(7)所示,时延估计方法如公式(8)~(9)所示:
Figure FDA00001842150200042
其中:X1(ω)、X2(ω)分别为两路时域信号经过FFT变换之后的输出,*为共轭符号,
Figure FDA00001842150200043
其中: 
Figure FDA00001842150200045
为两路信号的广义互相关函数, 
Figure FDA00001842150200046
为x1和x2之间的时延估计值, 
其次需要去除无效数据,按下面公式(10)计算时延:
Figure FDA00001842150200051
其中:n为某一帧的索引值,τ为某一帧对应的时延数据, 
Figure 2010105683603100001FDA00001842150200046
为某一帧估计的时延数据,当某一时刻信噪比小于阈值ThrSNR时,采用上一时刻的估计时延作为该时刻的时延估计值,
按公式(10)计算时延后按公式(11)进一步计算时延:
Figure FDA00001842150200053
其中:n为某一帧的索引值,τ为某一帧对应的时延数据, 
Figure FDA00001842150200054
为某一帧估计的时延数据,当某一时刻时延估计小于阈值Thrτ时,采用上一时刻的估计时延作为该时刻的时延估计值,
第五步,根据时延估计值计算每个声源的空间位置坐标
首先对每个声源按照出现顺序编号为S1,S2,…,Sn,采用第四步中提到的时延估计算法对每个声源到任意两个声传感器Mi和Mj之间的时延差进行估计,得到n(n-1)个时延估计值,用公式(12)对声源Sa的空间矢量位置进行计算:
Figure FDA00001842150200055
其中:τij(Sa)为声源Sa到第i个声传感器和第j个声传感器之间的时延, 
Figure FDA00001842150200056
为第i个声传感器的空间位置, 
Figure FDA00001842150200057
为第j个声传感器的空间位置, 
Figure FDA00001842150200058
为声源Sa的空间位置,
接下来对全部声源的空间矢量位置进行计算:将每个声源对应的 n(n-1)个时延估计值和全部声传感器坐标带入公式(12),则每个声源对应得到n(n-1)个双曲线方程,这些双曲线方程组的解为该声源的空间位置,
此外需要通过计算排除不正确的声源位置,上述双曲线方程组可能出现方程数大于未知数的情况,此时可将方程组的解带入冗余方程来排除不正确的声源位置,
当方程组的解不唯一时,将双曲线相交形成的封闭空间视为声源范围,通过计算得到该组数据的中心点作为方程组的解,中心点的计算如公式(13)和公式(14)所示:
Figure FDA00001842150200061
其中:dct为中心点到坐标原点之间的距离,dmax为封闭空间全部数据到坐标原点之间的距离的最大值,dmin为封闭空间全部数据到坐标原点之间的距离的最小值,
Figure FDA00001842150200062
其中:θct为中心点向量与起始坐标轴之间的夹角,θmax为封闭空间全部数据向量与起始坐标轴之间的夹角的最大值,θmin为封闭空间全部数据向量与起始坐标轴之间的夹角的最小值,若双曲线方程组无交点,则将该组数据视为错误数据排除,
重复以上方法,依次计算时域不重叠的k个声源二维空间位置。 
CN 201010568360 2010-11-29 2010-11-29 一种分布式非同步声传感器的声源空间定位方法 Active CN102103200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010568360 CN102103200B (zh) 2010-11-29 2010-11-29 一种分布式非同步声传感器的声源空间定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010568360 CN102103200B (zh) 2010-11-29 2010-11-29 一种分布式非同步声传感器的声源空间定位方法

Publications (2)

Publication Number Publication Date
CN102103200A CN102103200A (zh) 2011-06-22
CN102103200B true CN102103200B (zh) 2012-12-05

Family

ID=44156122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010568360 Active CN102103200B (zh) 2010-11-29 2010-11-29 一种分布式非同步声传感器的声源空间定位方法

Country Status (1)

Country Link
CN (1) CN102103200B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102854493B (zh) * 2011-06-27 2014-07-16 无锡物联网产业研究院 多声测阵列定位跟踪系统坐标角度值标定方法
TWI429938B (zh) * 2011-09-16 2014-03-11 Vatics Inc 聲源監視系統及其方法
CN103324998B (zh) * 2012-03-23 2016-09-07 日电(中国)有限公司 用于获取能源信息的传感器部署方法和装置
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
CN103176167B (zh) * 2013-03-21 2014-11-05 徐华中 一种基于锁相放大器的强干扰下声源定位方法
CN103675757B (zh) * 2013-12-17 2015-11-04 无锡清华信息科学与技术国家实验室物联网技术中心 基于多个手机麦克风阵列的定位方法
CN105403860B (zh) * 2014-08-19 2017-10-31 中国科学院声学研究所 一种基于支配相关的多稀疏声源定位方法
CN104575498B (zh) * 2015-01-30 2018-08-17 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
CN106597379A (zh) * 2015-10-20 2017-04-26 沈阳新松机器人自动化股份有限公司 基于复合算法的平面声源定位方法
CN105388452B (zh) * 2015-10-30 2017-08-11 北京工业大学 基于生命探测飞行器的超宽带雷达多点分布式目标定位方法
CN105388459B (zh) * 2015-11-20 2017-08-11 清华大学 分布式麦克风阵列网络的鲁棒声源空间定位方法
EP3173809B1 (en) * 2015-11-30 2023-06-28 Semtech Corporation System and method for robust and efficient tdoa based location estimation in the presence of various multipath delay
CN105954710B (zh) * 2016-07-06 2018-11-13 南京理工大学 一种基于嵌入式阵列的误差分析装置及方法
CN106448722B (zh) * 2016-09-14 2019-01-18 讯飞智元信息科技有限公司 录音方法、装置和系统
CN106501775A (zh) * 2016-10-10 2017-03-15 南京威卡尔软件有限公司 用于嵌入式平台的连续快速人声声源定位方法
CN106603450B (zh) * 2016-12-02 2019-12-10 上海无线电设备研究所 一种适于深空通信的高动态宽范围快速信号捕捉方法
CN106851011B (zh) * 2017-03-07 2019-12-10 浙江大学 一种基于智能手机声阵列的波达角估计系统实现方法
CN106842131B (zh) * 2017-03-17 2019-10-18 浙江宇视科技有限公司 麦克风阵列声源定位方法及装置
CN107146614B (zh) * 2017-04-10 2020-11-06 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备
CN107333120B (zh) * 2017-08-11 2020-08-04 吉林大学 一种基于麦克风阵列和立体视觉的集成传感器
CN107918109B (zh) * 2017-11-08 2021-02-09 重庆大学 一种声发射源的平面定位装置及控制方法
CN107845388B (zh) * 2017-12-25 2021-06-01 青岛海信移动通信技术股份有限公司 语音识别方法及装置
CN111383655B (zh) * 2018-12-29 2023-08-04 嘉楠明芯(北京)科技有限公司 一种波束形成方法、装置及计算机可读存储介质
CN109782231B (zh) * 2019-01-17 2020-11-20 北京大学 一种基于多任务学习的端到端声源定位方法及系统
CN109633553B (zh) * 2019-01-18 2020-11-13 浙江大学 基于动态规划算法的移动声源到达时延估计方法
CN110191411B (zh) * 2019-04-28 2020-06-19 浙江大学 一种基于时空域联合处理的分布式协作定位系统和方法
CN110726972B (zh) * 2019-10-21 2022-09-16 南京南大电子智慧型服务机器人研究院有限公司 干扰及高混响环境下使用传声器阵列的语音声源定位方法
CN110716177B (zh) * 2019-10-22 2022-09-09 哈尔滨工程大学 分布式声学定位网络中多目标分类方法
CN111077499B (zh) * 2019-12-20 2023-06-20 中国船舶重工集团公司七五0试验场 一种应答式水下多目标定位跟踪方法
CN112180378B (zh) * 2020-09-28 2024-04-02 北京小米松果电子有限公司 设备间距离确定方法、装置及存储介质
CN112946578B (zh) * 2021-02-02 2023-04-21 上海头趣科技有限公司 双耳定位方法
CN113189542B (zh) * 2021-05-08 2024-02-20 上海特金信息科技有限公司 窄带跳频信号tdoa定位方法、装置、系统
CN114034380B (zh) * 2021-11-11 2023-11-17 上汽大众汽车有限公司 一种用于发动机台架的一维声学定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1566796A2 (en) * 2004-02-20 2005-08-24 Sony Corporation Method and apparatus for separating a sound-source signal and method and device for detecting pitch
CN101339242A (zh) * 2008-08-25 2009-01-07 清华大学 声源定位的无线测量方法
CN101762806A (zh) * 2010-01-27 2010-06-30 华为终端有限公司 声源定位方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558156B2 (en) * 2006-01-06 2009-07-07 Agilent Technologies, Inc. Acoustic location and enhancement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1566796A2 (en) * 2004-02-20 2005-08-24 Sony Corporation Method and apparatus for separating a sound-source signal and method and device for detecting pitch
CN101339242A (zh) * 2008-08-25 2009-01-07 清华大学 声源定位的无线测量方法
CN101762806A (zh) * 2010-01-27 2010-06-30 华为终端有限公司 声源定位方法和装置

Also Published As

Publication number Publication date
CN102103200A (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
CN102103200B (zh) 一种分布式非同步声传感器的声源空间定位方法
CN102074236B (zh) 一种分布式麦克风的说话人聚类方法
Do et al. A real-time SRP-PHAT source location implementation using stochastic region contraction (SRC) on a large-aperture microphone array
So et al. Closed-form formulae for time-difference-of-arrival estimation
CN105388459B (zh) 分布式麦克风阵列网络的鲁棒声源空间定位方法
CN109839612A (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法
CN103308889B (zh) 复杂环境下被动声源二维doa估计方法
CN104142492A (zh) 一种srp-phat多源空间定位方法
WO2020024816A1 (zh) 音频信号处理方法、装置、设备和存储介质
CN107167770B (zh) 一种混响条件下的麦克风阵列声源定位装置
CN103760520B (zh) 一种基于avs和稀疏表示的单语者声源doa估计方法
Huang et al. Microphone arrays for video camera steering
CN109669159A (zh) 基于麦克风十字环阵列的声源定位跟踪装置及方法
KR100877914B1 (ko) 음원위치-지연시간차 상관관계 역 추정에 의한 음원 방향검지 시스템 및 방법
CN110534126B (zh) 一种基于固定波束形成的声源定位和语音增强方法及系统
Huleihel et al. Spherical array processing for acoustic analysis using room impulse responses and time-domain smoothing
CN109188362A (zh) 一种麦克风阵列声源定位信号处理方法
CN106851011A (zh) 一种基于智能手机声阵列的波达角估计系统实现方法
CN103901400A (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
Wan et al. Improved steered response power method for sound source localization based on principal eigenvector
CN101771923A (zh) 一种眼镜数字助听器声源定位方法
CN110441730B (zh) 一种基于模拟信号处理架构的麦克风阵列声源定向系统
Sewtz et al. Robust MUSIC-based sound source localization in reverberant and echoic environments
Himawan et al. Clustering of ad-hoc microphone arrays for robust blind beamforming
CN111179959A (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181115

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Patentee after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Beijing 100084 box 82 box, Tsinghua University Patent Office

Patentee before: Tsinghua University