CN106371057B

CN106371057B - 语音声源测向方法及装置

Info

Publication number: CN106371057B
Application number: CN201610809460.8A
Authority: CN
Inventors: 冯大航; 陈孝良; 常乐; 苏少炜
Original assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Current assignee: BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date: 2016-09-07
Filing date: 2016-09-07
Publication date: 2019-07-02
Anticipated expiration: 2036-09-07
Also published as: CN106371057A

Abstract

根据本发明的实施例，提出了一种稳健的语音声源测向方法和装置，所述方法包括：基于传声器阵列采集的声音信号获得每个时频片的波束图，对所述波束图的极值点进行聚类以获得语音声源的方向，其中，通过假定在每个时频片只有一个语音声源信号起主要作用，来对所述每个时频片获得一个所述波束图。该方法和装置可以将多个声源问题转化为单声源方向估计问题，不仅简化了运算量还提高了分辨率。

Description

语音声源测向方法及装置

技术领域

本发明声源定位技术，更具体而言，涉及一种测量语音声源方向的方法和装置。

背景技术

波达方向(direction of arrival，DOA)估计是阵列信号处理的重要技术，在雷达、声纳、语音等领域中都有着重要的应用。尤其对可用于语音交互的智能硬件而言，更需要稳健的DOA估计来确定说话人的方向，进而才能利用波束形成技术对说话人的语音进行增强等处理。

目前语音声源的DOA估计主要利用的是时延估计两步法。第一步先计算传声器对之间的相关函数，相关函数的极值点对应的时间就是声波到达两个传声器之间的延迟。在计算传声器间的相关函数时，在不同的频带上根据加权值的不同又可以分为多种方法，如SCOT、PHAT、Eckart和ML等方法；第二步根据计算出的传声器对之间的时间延迟，可以利用最小二乘法直接获得声源的方向。这种时延估计两步法的优点是计算量小、实时性好、硬件成本低，但是缺点在于，仅针对单个声源的估计较好，针对多个声源时，性能严重下降。

也可以通过对代价函数进行搜索的方法获得声源的方向，如SRP-PHAT算法，该算法具有较好的稳健性，即使在有混响的条件下也能得到较好的结果。但是该方法分辨率较差，当两个声源的角度相近时该算法无法区分，因此在传声器个数较少的情况下也更容易受到周围噪声干扰，角度估计偏差变大。

还可以通过基于自空间技术的声源定位方法，利用求解麦克风信号之间的相关矩阵来确定声源。其中以MUSIC最具代表性。当有多个声源时，MUSIC算法虽然可以提高分辨率，但它需要对自相关矩阵进行特征值分解，运算复杂度增加。

发明内容

根据本发明的实施例的一方面，提供了一种语音声源测向方法，其包括：基于传声器阵列采集的声音信号获得每个时频片的波束图，对波束图的极值点进行聚类以获得语音声源的方向，其中，通过假定在每个时频片只有一个语音声源信号起主要作用，来对每个时频片获得一个波束图。

根据本发明实施例的语音声源测向方法，可选地，获得波束图包括：将由传声器阵列采集的声音信号s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T在时域上分段，并对每段声音信号数据分别进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H，其中，s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为第p个传声器在频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值；对于经快速傅立叶变换的每段声音信号数据，计算传声器阵列在各个频率的自相关矩阵其中，N是计算自相关矩阵所用的快拍总数，f为频率；利用传声器在各个频率的自相关矩阵获得与由时间段及频率区间限定的时频片对应的空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，0≤θ≤2π，为传声器阵列的导向矢量，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，(x_p,y_p)为第p个传声器的坐标，c为声速。

根据本发明实施例的语音声源测向方法，可选地，通过搜索空间波束图J(θ,f)的极大值来获得时频片内起主要作用的语音信号的角度其中，k＝1,2,...,K，K为在频率f的时频片的个数。

根据本发明实施例的语音声源测向方法，可选地，对语音信号角度θ_(k,f)进行聚类以确定语音声源相对于传声器阵列的入射角度。

根据本发明实施例的语音声源测向方法，可选地，采用K-MEANS算法、K-MEDOIDS算法、CLARANS算法中的一种进行聚类。

根据本发明实施例的语音声源测向方法，可选地，聚类的个数是语音声源的个数，每个类的均值是声源相对传声器阵列的入射角度。

根据本发明实施例的语音声源测向方法，可选地，传声器阵列是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。

根据本发明实施例的语音声源测向方法，可选地，传声器阵列为均匀线阵，第p个传声器的时间延迟为τ_p(θ)＝(p-1)dsinθ/c，其中，d是以直线形均匀排列的传声器之间的间距。

根据本发明实施例的语音声源测向方法，可选地，传声器阵列为均匀圆阵，第p个传声器的时间延迟为其中，r为传声器均匀排列所形成的圆形的半径。

根据本发明实施例的语音声源测向方法，可选地，该语音声源测向方法，包括：将由传声器阵列采集的语音数据在时域分成多段后，分别进行快速傅立叶变换得到频域数据；计算每段语音数据在各个频率的自相关矩阵；根据自相关矩阵得到各段语音数据在各个频率的空间波束图，获得在空间波束图的极大值处的语音信号角度；对所得到的各段各频率的语音信号角度进行聚类；根据类的个数和类的均值，得到语音声源个数及语音声源方向。

根据本发明实施例的另一方面，提供了一种语音声源测向装置，其包括：传声器阵列，声音预处理模块，声源测向模块和声源信息输出模块，其中，传声器阵列采集目标环境下的声音信号；声音预处理模块对由传声器阵列采集的声音信号进行预处理，形成数字化的声音信号数据；声源测向模块对数字化的声音信号数据进行处理，得到语音声源的声源方向；声源信息输出模块输出由声源测向模块处理得到的各个语音声源的声源方向数据，其中，声源测向模块进一步包括：时频转换单元，空间波束图生成单元，语音信号角度计算单元，聚类处理单元，时频转换单元将数字化的声音数据在时域上分成多段，并且对于每一段的声音数据分别进行快速傅立叶变换得到各自的频域信号；空间波束图生成单元基于频域信号计算每个时间段内传声器阵列在各个中心频率的自相关矩阵，并利用该自相关矩阵获得每个时频片的空间波束图，时频片是由时间段及中心频率限定的；语音信号角度计算单元通过搜索空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于传声器阵列的入射角度；聚类处理单元对各个时频片的入射角进行聚类，得到语音声源的个数和语音声源的方向。

根据本发明实施例的语音声源测向装置，可选地，声音预处理模块包括：模拟滤波放大电路，模拟数字转换器，其中，模拟滤波放大电路对采集的模拟声音信号进行滤波以及增益放大处理；模数转换器将经过滤波和增益变换处理的信号转换为数字信号。

根据本发明实施例的语音声源测向装置，可选地，传声器阵列是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。

根据本发明实施例的语音声源测向装置，可选地，时频转换单元将由传声器阵列采集的声音信号s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T在时域上分段，并对每段声音信号数据分别进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H，其中，s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为第p个传声器在中心频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值；空间波束图生成单元对于经快速傅立叶变换的每段声音信号数据，计算传声器阵列在各个中心频率的自相关矩阵其中，N是计算自相关矩阵所用的快拍总数，f为中心频率，并利用传声器在各个中心频率的自相关矩阵获得与由时间段及频率区间限定的时频片对应的空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，0≤θ≤2π，为传声器阵列的导向矢量，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，(x_p,y_p)为第p个传声器的坐标，c为声速。

根据本发明实施例的语音声源测向装置，可选地，传声器阵列为均匀线阵，第p个传声器的时间延迟为τ_p(θ)＝(p-1)dsinθ/c，其中，d是以直线形均匀排列的传声器之间的间距。

根据本发明实施例的语音声源测向装置，可选地，传声器阵列为均匀圆阵，第p个传声器的时间延迟为其中，r为传声器均匀排列所形成的圆形的半径。

根据本发明实施例的语音声源测向装置，可选地，语音信号角度计算单元通过搜索空间波束图J(θ,f)的极大值来获得时频片内起主要作用的语音信号的角度其中，k＝1,2,...,K，K为在频率f的时频片的个数。

根据本发明实施例的语音声源测向装置，可选地，聚类处理单元对语音信号角度θ_(k,f)进行聚类以确定语音声源相对于传声器阵列的入射角度。

根据本发明实施例的语音声源测向装置，可选地，采用K-MEANS算法、K-MEDOIDS算法、CLARANS算法中的一种进行聚类。

根据本发明实施例的语音声源测向装置，可选地，聚类的个数是语音声源的个数，每个类的均值是声源相对传声器阵列的入射角度。

根据本发明的实施例，提出了一种稳健的语音声源测向方法和装置，该方法和装置可以将多个声源问题转化为单声源方向估计问题，不仅简化了运算量还提高了分辨率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1是根据本发明实施例的语音声源测向方法的示意性流程图；

图2示意性地示出了传声器的物理坐标与声音信号在物理空间的入射角之间的相对位置关系；

图3示意性地示出了均匀线阵的传声器阵列下的声音信号的入射角；

图4示意性地示出了均匀圆阵的传声器阵列下的声音信号的入射角；

图5示意性地示出了根据本发明实施例的语音声源测向装置；

图6示意性地示出了角度错误率随信噪比变化的曲线；

图7示意性地示出了角度误差随信噪比变化的曲线；

图8示出了根据本发明实施例的语音声源测向方法及装置的实验场景示意图；

图9示意性地示出了根据本发明其它实施例的语音声源测向装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

如果一个信号的自相关值不是均匀散布在整个变化轴上，可以称该信号是稀疏的。从信号能量的分布角度，稀疏信号的能量集中分布在变化轴的某些区域段，而语音信号的能量是分布在其共振频率和谐波频率附近的，因此语音信号在时频域具有稀疏的特性。

这种稀疏特性使得在接收到的混合声音信号(可能包括来自多于一个语音声源的语音信号，以及其它非语音声源信号)中两个语音同时处于活动状态的时间很少，于是大多数时间段中混合信号就只包含单一语音声源信号的时延加权叠加量，也就是说，可以假定每时间段接收到的声音信号中只包含单个语音声源信号的信息。

进一步，根据本发明实施例的语音声源测向方法或者语音信号波达方向估计方法(可称之为，基于波束统计的波达信号估计方法，即Beam Statistic-DOA，简称BS-DOA)，假定在每个时频片内只有一个声源信号起主要作用，这样对应于每个时频片都可以获得一个波束图，最后只要对波束图的极值点进行聚类就可以获得声源的目标方向。所述时频片是指在时域和频域构成的二维坐标系下某段时间内的一定频率范围所对应的二维区域。

一方面，该方法可以将多个声源问题转化为单声源方向估计问题，产生了一种高信噪比的检测条件，不仅简化了运算量还提高了分辨率；另一方面，通过以时频片为处理单位，可以通过傅立叶变换、加博(Gabor)变换和小波变换等将信号转换到频域来加强信号稀疏性。

图1是根据本发明实施例的语音声源测向方法的示意性流程图。如图1所示，在步骤101，用诸如传声器阵列的声音采集单元来采集目标环境下的声音数据。该声音数据可以包括来自一个或者多于一个声源的语音信号数据或者非语音信号数据。所述传声器阵列中的传声器数量不小于2，其排列形状可以采用多种形状，例如，均匀圆阵、均匀线阵、非均匀圆阵或者非均匀线阵。

在步骤102，将采集到声音数据在时域上分成多段，并且对于每一段的声音数据分别进行快速傅立叶变换(FFT)得到各自的频域信号。

具体而言，将传声器阵列接收到的信号s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T，进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H。其中s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为第p个传声器在频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值。

时频片的划分方法就是将信号在时域分成多段，然后每段对应一个频率范围，该频率范围的中心频率就是上述的频率f。在每一时间段内进行傅里叶变换，例如，信号长度为100个点，以20个点为一段，则分为5段，在每一段上进行傅里叶变换，就得到每20点的频率信息；另一方面，由于每个时频片对应某一段中的某一个频率范围(也即对应于一个中心频率)，则每个频率对应的时频片是5个。

在步骤103，计算每个时间段内传声器阵列在各个频率的自相关矩阵其中N是计算自相关矩阵所用的快拍总数。

在步骤104，利用传声器阵列在各个频率的自相关矩阵可以获得空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，θ为语音信号在物理空间的入射角，0≤θ≤2π，为传声器阵列的导向矢量，其中，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，c是音速，(x_p,y_p)为第p个传声器的在物理空间的坐标，图2举例示出了第p个传声器的在物理空间的坐标(x_p,y_p)与语音信号在物理空间的入射角θ之间的相对位置关系。

如前所述，传声器阵列的排列可以是，均匀圆阵、均匀线阵、非均匀圆阵或者非均匀线阵，等等。

如果传声器阵列为均匀线阵，传声器间距为d，则第p个传声器的时间延迟可以简化为τ_p(θ)＝(p-1)dsinθ/c，具体如图3所示。

如果传声器阵列为均匀圆阵，圆阵半径为r，则第p个传声器的时间延迟可以简化为c是声速，r是均匀圆阵的半径，具体如图4。

由于假定在每个时频片内只有一个语音声源起主要作用，因此通过搜索波束图J(θ,f)的极大值就可以获得该时频片内起主要作用的语音信号的角度其中k＝1,2,...,K，K为频率f处的时频片的个数。

接下来，在步骤105，对前述获得的各时段各频率的语音信号相对于传声器阵列的入射角θ_(k,f)，k＝1,2,...,K，f_L≤f≤f_H，进行聚类。

然后，在步骤106，通过提取类的个数和类的均值来得到语音声源的个数和各个语音声源的方向。其中，类的个数就是语音声源的个数，每个类的均值就是语音声源相对阵列的入射角度，也即声源方向。聚类方法可以利用K-MEANS算法、K-MEDOIDS算法、CLARANS算法，等等。

图5示出了根据本发明实施例的语音声源测向装置。如图5所示，语音声源测向装置10包括：传声器阵列11，模拟滤波放大电路12，模拟数字(A/D)转换器13，声源测向模块14和声源信息输出模块15。

具体而言，传声器阵列11采集目标环境下的声音信号。该声音信号可以包括来自一个或者多于一个声源的语音信号或者非语音信号，也就是说，该声音信号可以是包括了语音信号的混合信号。

所述传声器阵列中的传声器数量不小于2，其排列形状可以采用多种形状，例如，均匀圆阵、均匀线阵、非均匀圆阵或者非均匀线阵。

经传声器阵列11采集的声音信号经模拟滤波放大电路12处理，对作为模拟信号的声音信号进行滤波以及增益放大，然后通过模数转换器13将该经过滤波和增益变换处理的模拟信号转换为数字信号，也即数字化的声音信号数据。

如前所述，传声器阵列11对声音信号进行采集，模拟滤波放大电路12和模数转换器13共同对采集的声音信号进行预处理，可以将模拟滤波放大电路12和模数转换器13的集合视为声音信号预处理模块，该声音信号预处理模块也可以采用其它的功能和/或结构，包括其它的器件或器件组合。

由声源测向模块14对数字化的声音信号数据进行处理。具体而言，声源测向模块14包括：时频转换单元141，空间波束图生成单元142，语音信号角度计算单元143，聚类处理单元144。

时频转换单元141将数字化的声音数据在时域上分成多段，并且对于每一段的声音数据分别进行快速傅立叶变换(FFT)得到各自的频域信号。具体而言，将经预处理的声音信号数据s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T，在时域上分段，并对每段声音信号数据分别进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H。其中s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为第p个传声器在频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值。

空间波束图生成单元142首先计算每个时间段内传声器阵列在各个频率的自相关矩阵其中N是计算自相关矩阵所用的快拍总数；然后利用传声器阵列在各个频率的自相关矩阵可以获得空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，θ为语音信号在物理空间的入射角，0≤θ≤2π，为传声器阵列的导向矢量，其中，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，c是音速，(x_p,y_p)为第p个传声器的在物理空间的坐标，图2举例示出了第p个传声器的在物理空间的坐标(x_p,y_p)与语音信号在物理空间的入射角θ之间的相对位置关系。

如果传声器阵列11为均匀线阵，传声器间距为d，则第p个传声器的时间延迟可以简化为τ_p(θ)＝(p-1)dsinθ/c，具体如图3所示。

如果传声器阵列11为均匀圆阵，圆阵半径为r，则第p个传声器的时间延迟可以简化为c是声速，r是均匀圆阵的半径，具体如图4。

由于假定在每个时频片内只有一个语音声源起主要作用，因此通过搜索波束图J(θ,f)的极大值就可以获得该时频片内起主要作用的语音信号的角度其中k＝1,2,...,K，K为频率f处的时频片的个数。该处理可以由语音信号角度计算单元143进行。

聚类处理单元144对前述获得的各时段各频率的语音信号相对于传声器阵列的入射角θ_(k,f)，k＝1,2,...,K，f_L≤f≤f_H，进行聚类，并通过提取类的个数和类的均值来得到语音声源的个数和语音声源方向。其中，类的个数就是语音声源的个数，每个类的均值就是语音声源相对阵列的入射角度，也即声源方向。聚类方法可以利用K-MEANS算法、K-MEDOIDS算法、CLARANS算法，等等。

声源信息输出模块15输出与各个所述类对应的语音声源的声源方向。可选地，该声源信息输出模块15也可以被集成在声源测向模块14中，作为其一部分，例如，声源信息输出单元145，如图9所示。

可以通过蒙特卡洛仿真试验来验证根据本发明实施例的语音声源测向方法及装置的效果。在仿真试验中，传声器组成均匀圆阵，阵元的个数为4，圆阵的半径为35mm，利用Image-Source Method(ISM)方法模拟房间中声源到达传声器阵列的冲击响应，房间尺寸为6m×4m×3m，混响时间为0.3s，声源为语音信号，声源入射角度为45°，传声器阵列置于房间中心位置，声源距传声器阵列距离为3m，背景噪声为白噪声，对比算法采用SRP-PHAT算法。

图6和图7分别给出了角度错误率和角度误差随信噪比变化的曲线，其中，在每个信噪比(例如，0db，5db，…，20db，25db)下进行500次蒙特卡洛仿真试验，角度错误率定义为当估计的角度与真实角度偏差的绝对值大于15°时，则认为角度估计错误。从图6和图7中可以看出，根据本发明实施例的BS-DOA估计算法在各个信噪比下，角度错误率和角度误差均小于对比算法SRP-PHAT算法。

为了进一步验证根据本发明实施例的语音声源测向方法及装置的技术效果，在真实环境中进行了以下实验。实验环境为会议室，房间尺寸为7m×5m×2.5m，传声器阵列为4个传声器组成的均匀圆阵，圆阵半径为35mm，声源为音响播放的语音信号，同时在另一个方向上音响播放babble噪声作为干扰源，具体布置如图8所示。

实验中，音响一共播放了1500个词，每个词持续时间约为0.5s，利用SRP-PHAT算法和根据本发明实施例的BS-DOA算法分别对这1500个词进行方向估计，如果估计的角度与真实角度偏差的绝对值大于15°时则认为角度估计错误，结果如下表所示。

方法	角度错误率
		SRP-PHAT	14.07％
BS-DOA	6.2％

从上表中可以看出，在实际应用中，本文提出的BS-DOA方法的稳健性要优于SRP-PHAT方法。

所属领域的技术人员将了解，可使用多种不同技艺和技术中的任一种来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示整个以上描述中可能参考的数据、指令、命令、信息、信号、位和符号。

本发明实施例中描述的各种组件或单元或者组成部分可实施于视为适合于既定应用的任何硬件结构或硬件与软件和/或固件的任何组合中。

本发明实施例中描述的各种方法步骤可由例如处理器等逻辑元件阵列执行。术语“模块”或“单元”也可指代呈软件、硬件或固件形式的包含计算机指令(例如，逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种语音声源测向方法，

其特征在于，

包括：

基于传声器阵列采集的声音信号获得每个时频片的空间波束图，

对所述空间波束图的极值点进行聚类以获得语音声源的方向，

其中，通过假定在每个时频片只有一个语音声源信号起主要作用，来对所述每个时频片获得一个所述空间波束图，

并且其中，

将由所述传声器阵列采集的语音数据在时域分成多段后，分别进行快速傅立叶变换得到频域数据；

计算每段时域的语音数据在各个频率的自相关矩阵；

根据所述自相关矩阵得到各段语音数据在各个频率的空间波束图，获得在所述空间波束图的极大值处的语音信号角度；

对所得到的各段各频率的语音信号角度进行聚类；

根据类的个数和类的均值，得到语音声源个数及语音声源方向，

其中，获得所述波束图包括：

将由所述传声器阵列采集的所述声音信号s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T在时域上分段，并对每段时域的声音信号数据分别进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H，其中，s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为所述传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为所述第p个传声器在频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值；

对于经所述快速傅立叶变换的所述每段时域的声音信号数据，计算所述传声器阵列在各个频率的自相关矩阵其中，N是计算自相关矩阵所用的快拍总数，f为频率；

利用所述传声器在各个频率的所述自相关矩阵获得与由所述每段时域及频率区间限定的时频片对应的空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，0≤θ≤2π，为所述传声器阵列的导向矢量，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，(x_p,y_p)为所述第p个传声器的坐标，c为声速。

2.根据权利要求1所述的语音声源测向方法，其特征在于，通过搜索所述空间波束图J(θ,f)的极大值来获得所述时频片内起主要作用的语音信号的角度其中，k＝1,2,...,K，K为在频率f的时频片的个数。

3.根据权利要求2所述的语音声源测向方法，其特征在于，对所述语音信号角度θ_(k,f)进行聚类以确定语音声源相对于所述传声器阵列的入射角度。

4.根据权利要求3所述的语音声源测向方法，其特征在于，采用K-MEANS算法、K-MEDOIDS算法、CLARANS算法中的一种进行所述聚类。

5.根据权利要求4所述的语音声源测向方法，其特征在于，聚类的个数是语音声源的个数，每个类的均值是所述声源相对所述传声器阵列的入射角度。

6.根据权利要求1所述的语音声源测向方法，其特征在于，所述传声器阵列是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。

7.根据权利要求6所述的语音声源测向方法，其特征在于，所述传声器阵列为均匀线阵，所述第p个传声器的时间延迟为τ_p(θ)＝(p-1)dsinθ/c，其中，d是以所述均匀线阵排列的传声器之间的间距。

8.根据权利要求6所述的语音声源测向方法，其特征在于，所述传声器阵列为均匀圆阵，第p个传声器的时间延迟为其中，r为所述传声器均匀排列所形成的圆形的半径。

9.一种语音声源测向装置(10)，

其特征在于，

所述语音声源测向装置(10)，包括：

传声器阵列(11)，声音预处理模块，声源测向模块(14)和声源信息输出模块(15)，其中，

所述传声器阵列(11)采集目标环境下的声音信号；

所述声音预处理模块对由所述传声器阵列(11)采集的声音信号进行预处理，形成数字化的声音信号数据；

所述声源测向模块(14)对所述数字化的声音信号数据进行处理，得到语音声源的声源方向；

所述声源信息输出模块(15)输出由所述声源测向模块(14)处理得到的各个语音声源的声源方向数据，

其中，所述声源测向模块(14)进一步包括：时频转换单元(141)，空间波束图生成单元(142)，语音信号角度计算单元(143)，聚类处理单元(144)，

所述时频转换单元(141)将所述数字化的声音数据在时域上分成多段，并且对于每段时域的声音数据分别进行快速傅立叶变换得到各自的频域信号；

所述空间波束图生成单元(142)基于所述频域信号计算所述每段时域内所述传声器阵列(11)在各个中心频率的自相关矩阵，并利用所述自相关矩阵获得每个时频片的空间波束图，所述时频片是由所述每段时域及所述中心频率限定的；

所述语音信号角度计算单元(143)通过搜索所述空间波束图的极大值来获得在对应时频片内起主要作用的语音信号相对于所述传声器阵列(11)的入射角度；

所述聚类处理单元(144)对各个时频片的所述入射角进行聚类，得到所述语音声源的个数和所述语音声源的方向，

其中，

所述时频转换单元(141)将由所述传声器阵列(11)采集的所述声音信号s(t)＝[s₁(t),s₂(t),...,s_p(t)]^T在时域上分段，并对每段时域的声音信号数据分别进行快速傅里叶变换，得到频率域表达式S[n,f]＝[S₁(n,f),S₂(n,f),...,S_P(n,f)]^T，f_L≤f≤f_H，其中，s_p(t)为第p个传声器接收到的信号，1≤p≤Np，Np为所述传声器阵列中传声器的个数，t为采样时刻点，S_p(n,f)为所述第p个传声器在中心频率f处的值，n为快拍数，f_L为选取的最低频率值，f_H为选取的最高频率值；

所述空间波束图生成单元(142)对于经所述快速傅立叶变换的所述每段时域的声音信号数据，计算所述传声器阵列在各个中心频率的自相关矩阵其中，N是计算自相关矩阵所用的快拍总数，f为中心频率，并利用所述传声器在各个中心频率的所述自相关矩阵获得与由所述每段时域及频率区间限定的时频片对应的空间波束图J(θ,f)＝A(θ,f)R_ss(f)A(θ,f)^H，其中，0≤θ≤2π，为所述传声器阵列的导向矢量，τ_p(θ)＝(x_pcosθ+y_psinθ)/c，(x_p,y_p)为所述第p个传声器的坐标，c为声速。

10.根据权利要求9所述的语音声源测向装置(10)，其特征在于，所述声音预处理模块包括：模拟滤波放大电路(12)，模拟数字转换器(13)，

其中，

所述模拟滤波放大电路(12)对所述采集的模拟声音信号进行滤波以及增益放大处理；

所述模拟数字转换器(13)将经过滤波和增益变换处理的信号转换为数字信号。

11.根据权利要求9所述的语音声源测向装置(10)，其特征在于，所述传声器阵列(11)是均匀线阵、均匀圆阵、非均匀线阵或非均匀圆阵中的一种。

12.根据权利要求9所述的语音声源测向装置(10)，其特征在于，所述传声器阵列(11)为均匀线阵，所述第p个传声器的时间延迟为τ_p(θ)＝(p-1)dsinθ/c，其中，d是以所述均匀线阵排列的传声器之间的间距。

13.根据权利要求9所述的语音声源测向装置(10)，其特征在于，所述传声器阵列(11)为均匀圆阵，第p个传声器的时间延迟为其中，r为所述传声器均匀排列所形成的圆形的半径。

14.根据权利要求9所述的语音声源测向装置(10)，其特征在于，所述语音信号角度计算单元(143)通过搜索所述空间波束图J(θ,f)的极大值来获得所述时频片内起主要作用的语音信号的角度其中，k＝1,2,...,K，K为在频率f的时频片的个数。

15.根据权利要求14所述的语音声源测向装置(10)，其特征在于，所述聚类处理单元(144)对所述语音信号角度θ_(k,f)进行聚类以确定语音声源相对于所述传声器阵列的入射角度。

16.根据权利要求9或15所述的语音声源测向装置(10)，其特征在于，采用K-MEANS算法、K-MEDOIDS算法、CLARANS算法中的一种进行所述聚类。

17.根据权利要求16所述的语音声源测向装置(10)，其特征在于，聚类的个数是语音声源的个数，每个类的均值是所述声源相对所述传声器阵列的入射角度。