背景技术
声源定位技术指的是估计除声源所在的位置。声源定位技术有着广泛的应用,例如在视频会议系统中,可采样声源定位技术估计出说话人所在的位置,然后控制摄像机镜头指向说话人所在的位置,实行声控切换功能。声源定位技术也可以应用到监控、语音增强等领域。
下面对现有的SRP(steered response power)以及SRP-PHAT(phasetrans form)声源定位技术进行介绍。
如图3所示,lps对应声源,l1和l2对应两个麦克风,如麦克风。从声源lps到两个麦克风l1和l2的时延分别用TOF(lps,l1)和TOF(lps,l1)表示。两个麦克风之间收到的信号分别为x1(t)和x2(t),则x1(t+TOF(lps,l1))∝x2(t+TOF(lps,l2)),其中:
fs是采样频率,c是声速。
同时,对应的两个麦克风信号之间的时延τ有如下的定义,当τ=TOF(lps,l1)-TOF(lps,l2)时,x1(t)和x2(t)的时域互相关函数g(x1,x2)具有最大值,g(x1,x2)=∫Rx1(t)·x2(t+τ)dε。
对于任一麦克风对q,它们的位置对应(laq,lbq),声源lps到达麦克风对q的理论到达时延差(TDOA,Time-difference of arrival)为
SRP方法通过估计空间上的功率谱分布,找出功率最大的空间位置,该位置即为声源的位置。SRP最基本的公式如下:
其中,在l位置的声源被各个麦克风拾取后,在时间上对齐并累加的和信号为
由于受到不同声源之间的信号幅度、以及不同频率成分大小的影响,采用上面方法的效果并不好。因此现有公开文献中对该基本方法进行了改进,改进的方法是将各个声源采集的时域信号变换到频域,然后将各个频谱的幅度进行归一化,这样可以消除各个频谱幅度大小不一致的影响,该改进的算法在现有文献中称之为SRP-PHAT法,下面对该方法进行描述。
对采集到的t时刻开始的2NF个时域信号X(t)进行FFT变换,得到
则公式(1)可以变换为:
对公式(2)各个频率成分的幅度进行归一化,则得到SRP-PHAT法的计算公式:
上述SRP和SRP-PHAT法实际上都是在声源阵列周围的空间中放置多个预定点,然后计算各个预定点的功率值或修正的功率值,其最大值处所在位置即为声源所在位置。
但是在实际应用环境中,声源定位的准确性受到环境噪声、干扰声、混响等因素的影响较大,SRP和SRP-PHAT法均无法有效克服。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰易懂,下面结合附图,对本发明做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
实施例一
本实施例提供一种生源定位方法。如图1所示,该方法包括:
步骤101:采集声源时域信号;
在该步骤中,可以通过多个麦克风采集声源的时域信号x1,x2,…,xNm。
步骤102:将所述时域信号转换为频域信号;
在该步骤中,将多个麦克风采集的时域信号为x1,x2,…,XNm转换为频域信号为X1,X2,…,XNm。时域信号到频域信号的变换方法通常傅里叶变换(FFT),也可以采用其他常用变换,例如余弦变换(DCT)。
步骤103:根据所述频域信号确定频率的空间功率谱;
在该步骤中,根据下式确定频率的空间功率谱,
步骤104:根据所述空间功率谱确定频率的空间功率概率分布;
在该步骤中,先确定单个频率的空间功率概率分布,然后再确定多个频率的空间功率概率分布。对于某个频率来说,其功率在空间上呈一定的分布,不同的频率分布差别较大,很显然不同分布的频率对定位的贡献是不一样。可以根据下面的公式确定单个频率的空间功率概率分布,
将各单个频率的空间功率概率分布求和得到多个概率的空间功率分布。或者,将各单个频率的空间功率概率分布加权求和得到多个频率的空间功率分布,各单个频率的空间功率概率分布的权重随频率受噪音干扰影响的程度增大而减小。具体可以根据下面的公式计算多个频率的空间功率概率分布,
其中,wk是各单个频率的空间功率概率分布的权重,随单个频率的信号幅值增大而增大。
步骤105:根据空间概率分布确定概率最大的空间位置。
在该步骤中,可以根据下面的公式按当前帧确定概率最大的空间位置,
或者,根据下面的公式按多帧确定概率最大的空间位置,
其中,
是当前帧的频率的空间功率概率分布,
是前一帧的频率的空间功率概率分布,
是前T帧的频率的空间功率概率分布,α
1为前一帧的衰减系数,α
T是前T帧的衰减系数。
本发明实施例依据某个频率在某个空间位置呈现尖锐的概率分布,则在该位置出现音源的概率较大,反之则出现的概率较小的现象,对现有的声源定位方法进行改进,从而减小了环境噪声、干扰声、混响等因素对定位准确性的影响,提高了定位的准确性。
实施例二
本实施例提供一种声源定位装置。如图2所示,该装置200包括:
采集单元201,用于采集声源时域信号;
转换单元202,用于将所述时域信号转换为频域信号;
功率确定单元203,用于根据所述频域信号的确定频率的空间功率谱;
概率确定单元204,用于根据所述空间功率谱确定频率的空间功率概率分布;
定位单元205,用于根据空间概率分布确定概率最大的空间位置。
采集单元201,如多个麦克风,采集声源的时域信号x1,x2,…,xNm。转换单元202,如逻辑电路,将多个麦克风采集的时域信号为x1,x2,…,xNm转换为频域信号为X1,X2,…,XNm。时域信号到频域信号的变换方法通常傅里叶变换(FFT),也可以采用其他常用变换(请举例)。功率确定单元203根据下面公式将频域信号X1,X2,…,XNm确定频率的空间功率谱 概率确定单元204包括单频率概率确定模块214和多频率概率确定模块224,在根据所述空间功率谱确定频率的空间功率概率分布市,先由单频率概率确定模块214确定单个频率的空间功率概率分布,再由多频率概率确定模块224确定多个频率的空间功率概率分布。单频率概率确定模块214根据下面的公式确定单个频率的空间功率概率分布,
多频率概率确定模块224可以将各单个频率的空间功率概率分布求和得到多个概率的空间功率分布。或者,多频率概率确定模块224可以将各单个频率的空间功率概率分布加权求和得到多个频率的空间功率分布,各单个频率的空间功率概率分布的权重随频率受噪音干扰影响的程度增大而减小。多频率概率确定模块224具体可以根据下面的公式计算多个频率的空间功率概率分布,
其中,wk是各单个频率的空间功率概率分布的权重,随单个频率的信号幅值增大而增大。
最后,定位单元205根据下面的公式按当前帧确定概率最大的空间位置,
或者,定位单元205根据下面的公式按多帧确定概率最大的空间位置,
其中,
是当前帧的频率的空间功率概率分布,
是前一帧的频率的空间功率概率分布,
是前T帧的频率的空间功率概率分布,α
1为前一帧的衰减系数,α
T是前T帧的衰减系数。
本发明实施例依据某个频率在某个空间位置呈现尖锐的概率分布,则在该位置出现音源的概率较大,反之则出现的概率较小的现象,对现有的声源定位方法进行改进,从而减小了环境噪声、干扰声、混响等因素对定位准确性的影响,提高了定位的准确性。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。