CN1832633A

CN1832633A - 一种声源定位方法

Info

Publication number: CN1832633A
Application number: CN 200510051313
Authority: CN
Inventors: 邵怀宗; 居太亮; 林静然; 彭启琮; 余水安
Original assignee: Huawei Technologies Co Ltd; University of Electronic Science and Technology of China
Current assignee: Huawei Technologies Co Ltd; University of Electronic Science and Technology of China
Priority date: 2005-03-07
Filing date: 2005-03-07
Publication date: 2006-09-13

Abstract

本发明提供一种声源定位方法，其核心为：根据预定三维空间坐标将拾音范围内的三维空间划分为若干个空间搜索点，根据预定频点分别确定所述各空间搜索点的三维搜索位置矢量，根据所述各空间搜索点的三维搜索位置矢量、声源信号确定各空间搜索点在各预定频点的三维空间谱矩阵，根据所述各三维空间谱矩阵确定声源的三维位置信息。本发明实现了声源三维空间定位，使声源定位更加准确；从而实现了提高声源定位精度、提高拾音系统语音通信质量的目的。

Description

一种声源定位方法

技术领域

本发明涉及多媒体通信技术领域的音频处理技术，具体涉及一种声源定位方法。

背景技术

在基于麦克风的拾音系统中，声源定位技术能够确定感兴趣的声音，使拾音系统能够对其接收的信号进行声音去噪、声源跟踪、语音提取和分离等处理。准确的声源定位能够有效提高嘈杂背景下的语音通信质量。

传统的拾音工具一般为单个孤立的麦克风。单个麦克风会将其拾音范围内的任何声音包括噪声等全部接收，即单个麦克风接收的信号是由环境噪声、多个声源发出的声音组成的混合信号。

单个麦克风不能够自适应的对准并跟踪感兴趣的说话人，主要采用在频谱域进行功率谱抵消(spectral subtraction)和滤波等技术来抑制噪声。然而，麦克风接收的语音信号和噪声信号通常在时间上和频谱上是相互重叠的，因此，要从单个麦克风接收的混合信号中分离出不同的声音，并有效抑制不感兴趣的声音如噪声等是相当困难。

因而，基于单个麦克风拾音系统的语音通信质量差，使得感兴趣的说话人的声音难以听清。

麦克风阵列技术是语音信号处理的一个新领域。麦克风阵列由多个麦克风按照一定的拓扑结构组成，典型的麦克风阵列如附图1，附图2、附图3和附图4所示。

目前，麦克风阵列主要采用三种方法实现声源定位：

方法一、采用时延估计(Time-Delay estimator)技术和延迟求和波束形成(Delay Sum Beamformer，DSB)技术来进行声源定位。由于时延估计和延迟求和波束形成技术的定位精度较低，所以，该方法在三维定位、多声源定位、非语音信号处理等方面的应用局限性大。

方法二、采用极大似然估计类算法和高阶估计类算法进行声源定位。该方法中的算法复杂度高、计算量大，一般仅用于理论研究，作为评价算法的标准。

方法三、采用近场声源定位技术来实现声源定位，该方法通过谱峰的空间搜索来获得声源的方位和距离信息。

具体方法为：首先把M个普通全向麦克风按照一定的拓扑结构组成麦克风阵列，如将8个全向麦克风均匀分布在一个直径为50厘米的圆周上，组成均匀圆形麦克风阵列，来拾取声源发出的声音信号和其他处于麦克风接收范围内的所有语音信号。

用数学公式表示麦克风阵列的接收信号F(t)为：

F(t)＝[f₁(t) L f_i(t) L f_M(t)]^T (1)

然后，对每个麦克风接收到的信号进行AD(模数)变换：

F(n)＝[f₁(n) L f_i(n) L f_M(n)]^T (2)

再从公式(2)计算出的每路信号中选取一帧信号进行短时傅立叶变换：

S (ω) = Σ_{m = 1}^{N} F (n) w (n - m) \exp (- jωm) = [\begin{matrix} Σ_{m = 1}^{N} f_{1} (n) w (n - m) \exp (- jωm) \\ L \\ Σ_{m = 1}^{N} f_{M} (n) w (n - m) \exp (- jωm) \end{matrix}] - - - (3)

其中：w(n)为窗函数，m为窗函数每次移动的点数，N为帧长。

对公式(3)的S(ω)的每一频率点S(ω_i)：

S (ω_{i}) = [\begin{matrix} S_{1} (i) \\ L \\ S_{M} (i) \end{matrix}] - - - (4)

作如下4个步骤的处理：

1、获取语音帧的频域相关矩阵R(i)：R(i)＝E{S(ω_i)S^H(ω_i)} (5)

2、对上述相关矩阵进行特征值分解，求出特征值和对应的特征向量；

R (i) = U_{i} diag (λ_{1}, L, λ_{M}) {V_{i}}^{H} - - - (6)

3、按照特征值的大小把特征向量组成的信号空间分解成为噪声子空间S和信号子空间G：

V_{i} = [\begin{matrix} S_{i} & M & G_{i} \end{matrix}] - - - (7)

4、根据公式(8)获取每一搜索位置的位置矢量a_i(r，θ)：

a_{i} (r, θ) = [\begin{matrix} \frac{1}{r_{1}} e^{- j ω_{i} τ_{1}} & L & \frac{1}{r_{m}} e^{- j ω_{i} τ_{m}} & L & \frac{1}{r_{M}} e^{- j ω_{i} τ_{M}} \end{matrix}] - - - (8)

其中：r_m是从搜索点(r，θ)到第m个麦克风的距离；τ_m声源从搜索点(r，θ)到第m个麦克风的传播时间；ω_i表示第i个频率点。

定义b_i(r，θ)为：

b_{i} (r, θ) = \frac{a_{i} (r, θ)}{| | a_{i} (r, θ) | |} - - - (9)

求出第i个频率点的二维空间谱矩阵为：

P_{i} (θ, r, ω_{i}) = \frac{1}{| | b_{i}^{H} (r, θ) G_{i} | |} - - - (10)

通过上面4个步骤的处理后，选择一个频率范围并求出该频率范围内的平均空间谱为：

P (r, θ) = \frac{1}{K} Σ_{i = ω_{L}}^{ω_{H}} P_{i} (θ, r, ω_{i}) - - - (11)

其中：ω_L，ω_H分别为该频率范围的下界和上界频率，K＝ω_H-ω_L+1。

对P(r，θ)进行二维谱峰搜索，从而找到目标信号的位置，即在二维空间谱矩阵P(r，θ)中找出峰值，峰值对应的坐标就是声源位置估计值：(r，θ)。

该方法存在如下缺点：

1、只能够进行二维声源定位，不能实现三维声源定位，定位不准确，从而使声音去噪、声源跟踪、语音提取和分离等方面的处理受到影响，降低了语音通信质量。

2、该方法中搜索位置矢量a(r，θ)的幅度衰减因子和时间延迟因子没有体现麦克风之间的空间相对位置关系，这与子空间理论的基本假设有一定的差异，使声源定位性能下降。

3、该方法在没有语音时拾音系统也进行声源定位，浪费了大量的资源，而且使位置估计错误比率高。

4、大量非白高斯噪声会使声源定位性能显著下降。

5、该方法对所有频率点均求空间谱，运算量大、实时性低、实现成本高。

6、该方法在搜索目标位置时，采用频率范围内的每一频率点的空间谱的简单平均，没有考虑语音信号的频率特性，使声源定位性能下降。

综上所述，现有的麦克风阵列的声源定位方法不能够实现三维空间定位，存在声源定位不准确、拾音系统的语音通信质量低等问题。

发明内容

本发明的目的在于，提供一种声源定位方法，以克服现有技术的声源二维空间定位存在的声源定位精度差的缺点。

为达到上述目的，本发明提供的技术方案具体为：

一种声源定位方法，包括：

a、根据预定三维空间坐标将拾音范围内的三维空间划分为若干个空间搜索点；

b、根据预定频点确定所述各空间搜索点的三维搜索位置矢量；

c、根据所述各空间搜索点的三维搜索位置矢量、声源信号确定各空间搜索点在各预定频点的三维空间谱矩阵；

d、根据所述各三维空间谱矩阵确定声源的三维位置信息。

所述步骤a中预定三维空间坐标具体是指：以麦克风阵列的中心位置为坐标原点的三维空间坐标或以麦克风阵列中任一麦克风的位置为坐标原点的三维空间坐标。

所述步骤b具体包括如下步骤：

b1、根据预定三维空间坐标确定各麦克风的三维空间矢量p_m为：

p_m＝{x_m，y_m，z_m}＝r_m*((sinθ_m cos_m，sinθ_m sin_m，cosθ_m))，i＝1，L，M；

其中：x、y、z为第m个麦克风的坐标位置，r_m为第m个麦克风距坐标原点的距离，θ为第m个麦克风的坐标矢量与Z轴正方向的夹角，为第m个麦克风坐标矢量在XOY平面的投影与X轴正方向的夹角；

b2、根据各麦克风的三维空间矢量确定所述各空间搜索点分别在各预定频点的三维搜索位置矢量。

所述步骤b2具体包括如下步骤：

b21、根据语音信号的频率确定预定个数的子带；

b22、分别确定所述各子带的中心频率；

b23、分别根据各子带的中心频率、各麦克风的三维空间矢量确定所述各空间搜索点在所述各子带的三维搜索位置矢量。

所述步骤b23具体包括如下步骤：

设定空间搜索点(r，θ，φ)的坐标矢量S分别为：

S＝r*[sinθcosφ sinθsinφ cosθ]；

其中：r为空间搜索点距坐标原点的距离，θ为空间搜索点的坐标矢量与Z轴正方向的夹角，为空间搜索点在XOY平面的投影与X轴正方向的夹角；

确定空间搜索点(r，θ，φ)到第m个麦克风的相对幅度衰减因子_m为：

{&PartialD;}_{m} = \frac{| | S | |}{| | P_{m} - S | |};

其中：p_m为第m个麦克风的三维空间矢量，‖*‖表示矢量*的范数；

确定空间搜索点(r，θ，φ)到第m个麦克风的相对时间延迟因子τ_m为：

τ_{m} = \frac{| | S - P_{m} | | - | | S | |}{c};

其中：c为声音在空气中的传播速度，‖*‖表示矢量*的范数；

确定空间搜索点(r，θ，φ)在所述各子带的三维搜索位置矢量a_i(r，θ，φ)为：

a_{i} (r, θ, φ) = [\begin{matrix} {&PartialD;}_{1} e^{- j ω_{i} τ_{1}} & L & {&PartialD;}_{m} e^{- j ω_{i} τ_{m}} & L & {&PartialD;}_{M} e^{- j ω_{i} τ_{M}} \end{matrix}];

其中：ω_i为各子带的中心频率。

所述步骤c具体包括如下步骤：

c1、各麦克风根据预定采样频率获取声源信号；

c2、将所述声源信号进行AD转换：F(n)＝[f₁(n) L f_i(n) L f_M(n)]^T；

c3、从所述AD转换后的声源信号中选取信号帧进行短时傅立叶变换：

S (ω) = Σ_{m = 1}^{N} F (n) w (n - m) \exp (- jωm) = [\begin{matrix} Σ_{m = 1}^{N} f_{1} (n) w (n - m) \exp (- jωm) \\ L \\ Σ_{m = 1}^{N} f_{M} (n) w (n - m) \exp (- jωm) \end{matrix}];

c4、确定所述傅立叶变换后的语音帧；

c5、根据所述各空间搜索点在各预定频点的位置矢量、所述语音帧确定各空间搜索点在所述各子带的三维空间谱矩阵。

所述步骤c4具体包括如下步骤：

判断所述傅立叶变换后的信号帧是否为语音帧；

如果为非语音帧，将所述信号帧存储为当前估计噪声谱；

如果为语音帧，根据当前估计噪声谱将所述语音帧进行谱抵消去噪：

S (ω) = F (ω) - N (ω) = {[\begin{matrix} s_{1} (1) & L & s_{1} (NFFT) \\ L & L & L \\ s_{M} (1) & L & s_{M} (NFFT) \end{matrix}]}_{M \times NFFT};

其中：

N (ω) = {[\begin{matrix} n_{1} (1) & L & n_{1} (NFFT) \\ L & L & L \\ n_{M} (1) & L & n_{M} (NFFT) \end{matrix}]}_{M \times NFFT}

为当前估计噪声谱，NFFT为短时傅立叶变换的频率采样点数。

所述步骤c5具体包括如下步骤：

确定谱抵消去噪后的语音帧在各子带的频域相关矩阵R(i)：

R(i)＝E{S(ω_i)S^H(ω_i)}；

其中：S(ω_i)为第i个子带的信号分量，且

S (ω_{i}) = [\begin{matrix} S_{1} (i) \\ L \\ S_{M} (i) \end{matrix}];

根据所述R(i)的奇异值分解

R (i) = U_{i} diag (λ_{1}, L, λ_{M}) V_{i}^{H}

确定各频域相关矩阵对应的奇异向量和奇异值；

其中：λ₁，L，λ_M为R(i)的奇异值，U_i和V_i是对应的奇异向量组成的矩阵；

根据奇异值的大小、声源个数确定语音帧在各子带的噪声子空间；

根据所述语音帧在各子带的噪声子空间确定各空间搜索点在所述各子带的三维空间谱矩阵为：

P_{i} (r_{i}, θ_{i}, φ_{i}, ω_{i}) = \frac{1}{{| | a_{i}^{H} (r, θ, φ) G_{i} | |}_{2}};

其中：G_i为语音帧在第i个子带的噪声子空间，a_i(r，θ，φ)为空间搜索点(r，θ，φ)在第i个子带的三维搜索位置矢量。

所述步骤d具体包括如下步骤：

d1、将所述各三维空间谱矩阵的各三维谱峰坐标分别作为声源信号在各子带的位置坐标；

d2、将所述声源信号在各子带的位置加权平均值确定为声源信号的位置坐标为：

(\hat{θ}, \hat{φ}, \hat{r}) = \frac{1}{K} Σ_{i = 1}^{K} w_{i} * (θ_{i}, φ_{i}, r_{i});

其中：K为子带的预定个数，w_i为第i个子带的权值，且w_i为：

w_{i} = \frac{{| | S (ω_{i}) | |}^{2}}{Σ_{i = 1}^{K} {| | S (ω_{i}) | |}^{2}},

S(ω_i)为第i个子带的信号分量，(θ_i，φ_i，γ_i)为声源信号在第i个子带的位置坐标。

所述步骤d具体包括如下步骤：

d3、根据所述各三维空间谱矩阵进行加权平均：

\overset{&OverBar;}{P} (r, θ, φ) = Σ_{i = 1}^{K} w_{i} * P_{i} (r_{i}, θ_{i}, φ_{i}, ω_{i});

其中：w_i为第i个子带的权值，且w_i为：

w_{i} = \frac{{| | S (ω_{i}) | |}^{2}}{Σ_{i = 1}^{K} {| | S (ω_{i}) | |}^{2}},

S(ω_i)为第i个子带的信号分量，P_i(r_i，θ_i，φ_i，ω_i)为各空间搜索点在第i个子带的三维空间谱矩阵；

d4、将所述加权平均后的三维空间谱矩阵的三维谱峰坐标作为声源信号的位置坐标。

所述步骤d1、d4中的w_i可替换为：

其中：K为子带的预定个数。

通过上述技术方案的描述可知，本发明通过空间搜索点的三维搜索位置矢量实现了声源三维空间定位，提高了声源定位的精度；通过参考麦克风的位置来确定空间搜索点的幅度衰减因子和时延因子，使本发明与子空间理论的模型假设一致，减少了模型误差，提高了声源位置估计性能；通过设置子带，大大减少了频域相关矩阵的运算量，减少了算法复杂度，提高了拾音系统的实时性，节约了硬件成本；通过对每个子带分别估计出声源位置坐标，并进行加权求和，使声源位置的估计值更加准确；通过语音检测使本发明在没有语音输入时，拾音系统不进行声源位置估计，提高了声源位置估计性能，降低了系统资源消耗；通过采用谱抵消去噪，减少了非白高斯噪声的影响；从而通过本发明提供的技术方案实现了提高声源定位精度、提高拾音系统语音通信质量的目的。

附图说明

图1是麦克风阵列示意图1；

图2是麦克风阵列示意图2；

图3是麦克风阵列示意图3；

图4是麦克风阵列示意图4；

图5是本发明的声源定位方法的流程图。

具体实施方式

在麦克风的实际拾音环境中，声源的位置可能会因为说话人的走动、起坐等原因在三维空间中发生变化，如果在声源定位时，能够进行三维声源定位，则能够提高麦克风的声源定位准确性，从而使拾音系统能够对声源准确跟踪，提高拾音系统的语音通信质量。

因此，本发明的核心是：根据预定三维空间坐标将拾音范围内的三维空间划分为若干个空间搜索点，根据预定频点分别确定所述各空间搜索点的三维搜索位置矢量，根据所述各空间搜索点的三维搜索位置矢量、声源信号确定各空间搜索点在各预定频点的三维空间谱矩阵，根据所述各三维空间谱矩阵确定声源的三维位置信息。

下面基于本发明的核心思想对本发明提供的技术方案做进一步的描述。

本发明中的麦克风可以为普通的全向麦克风，且多个麦克风按照一定的拓扑结构组成的麦克风阵列可以为任意阵列形式，如8个普通全向麦克风组成的如附图1所示的均匀直线麦克风阵列，如8个普通全向麦克风组成的如附图2所示的均匀圆形麦克风阵列，如18个普通全向麦克风组成的如附图3所示的均匀球面形麦克风阵列，再如10个普通全向麦克风组成的如附图4所示的三维均匀直线麦克风阵列。

麦克风阵列在其拾音距离内拾取声源发出的声源信号和其他处于麦克风拾取范围内的所有语音信号。

麦克风的拾音距离可根据具体的应用环境来确定，如房间大小为长5米、宽10米、高4米，则可以要求麦克风阵列对该房间内的所有声音进行处理，麦克风的拾音距离应至少为10米。

本发明对构成麦克风的支架材料不限，但是，麦克风的支架几何尺寸要越小越好，以减少支架对声音的反射，从而减少多径效应。

本发明首先需要在麦克风阵列的拾音范围内的三维空间中设置三维空间坐标，三维空间坐标的原点可以为麦克风阵列的中心位置，也可以为麦克风阵列中的任意一个麦克风的位置，或其他位置。

在确定三维空间坐标后，应根据三维空间坐标确定各麦克风的坐标矢量和各空间搜索点的坐标矢量。

设第m个麦克风的坐标矢量为：

p_m＝{x_m，y_m，z_m}＝r_m*((sinθ_mcos_m，sinθ_msin_m，cosθ_m))，i＝1，L，M (12)

其中：r_i为第i个麦克风距麦克风阵列中心即三维空间坐标原定的距离，θ为第i个麦克风的坐标矢量与三维空间坐标Z轴正方向的夹角，为第i个麦克风坐标矢量在三维空间坐标XOY平面的投影与X轴正方向的夹角。

M个麦克风的坐标矢量组成整个麦克风阵列的坐标矩阵为：

设三维空间坐标中任一空间搜索点(r，θ，φ)的坐标矢量S为：

S＝r*[sinθcosφ sinθsinφ cosθ] (14)

其中：r为空间搜索点(r，θ，φ)距麦克风阵列中心即三维空间坐标原定的距离，θ为空间搜索点(r，θ，φ)坐标矢量与三维空间坐标Z轴正方向的夹角，为空间搜索点(r，θ，φ)的坐标矢量在三维空间坐标XOY平面的投影与X轴正方向的夹角。

在三维空间坐标中划分空间搜索点可根据具体的应用环境来确定，如当声源为人时，在20厘米×20厘米×20厘米的空间内一般情况下不可能出现两个声源，此时，可以选择水平角步长为5°，俯仰角步长为5°，距离步长为15厘米就可以了，如果选择更小的步长，如水平角、俯仰角步长均为1°，距离步长为5厘米，则对拾音系统的运算能力要求会很高，普通的DSP(数字信号处理)芯片实现困难，在声源为人的拾音系统中是没有必要的。

在确定了各麦克风的坐标矢量、空间搜索点的坐标矢量后，麦克风阵列接收的声源信号可以用数学公式表示为：

F(t)＝[f₁(t) L f_i(t) L f_M(t)]^T (15)

其中：f_i(t)表示第i个麦克风接收到的声源信号；i＝1，L，M；M为麦克风阵列中麦克风的个数；[●]^T表示对“●”矩阵的转置运算。

对麦克风阵列中每个麦克风接收到的声源信号进行AD变换。在进行AD变换时可以根据对声音质量的要求对接收的声源信号采用16KHz，22KHz，44Khz或其它的采样频率，采样精度可以选用8bit，16bit，32bit或其它采样精度。采样的技术和使用的采样芯片不限。

采样后形成多路数字语音信号，即：F(n)＝[f₁(n) L f_i(n) L f_M(n)]^T (16)

从AD变换后的每路声源信号中选取一帧信号如选取帧长为32ms的信号帧进行短时傅立叶变换，短时傅立叶变换可以选用汉明窗或其它窗函数。

如果采用512点的FFT(快速傅立叶变换)来实现短时傅立叶变换，则短时傅立叶变换后的信号帧为：

F (ω) = Σ_{m = 1}^{N} F (n) w (n - m) \exp (- jωm) = [\begin{matrix} Σ_{m = 1}^{N} f_{1} (n) w (n - m) \exp (- jωm) \\ L \\ Σ_{m = 1}^{N} f_{M} (n) w (n - m) \exp (- jωm) \end{matrix}] - - - (17)

对短时傅立叶变换后的信号帧进行语音检测，以确定该声源信号帧是语音帧，还是非语音帧。检测语音帧可采用过零率、短时能量相结合的语音检测技术来实现，也可通过其他语音检测技术来实现。

对于非语音帧，可将其存储为当前估计噪声谱，对于语音帧，则继续进行下面的声源定位过程。通过语音检测使本发明在没有语音输入时，拾音系统不进行声源位置估计，提高了声源位置估计性能，降低了系统资源消耗。

在检测为语音帧后，对语音帧采用谱抵消方法，如减谱法进行谱抵消去噪，以去除拾音系统中的噪声。由于谱抵消去噪技术在一定程度上能够解决非白高斯噪声的影响，所以，对语音帧进行谱抵消去噪后，使拾音系统的声源定位更加准确，提高了声源定位的估计性能。

当前估计噪声谱的初始值可设为0矩阵。

设定当前估计噪声谱为：

N (ω) = {[\begin{matrix} n_{1} (1) & L & n_{1} (512) \\ L & L & L \\ n_{M} (1) & L & n_{M} (512) \end{matrix}]}_{M \times 512} - - - (18)

其中：M为麦克风的个数，512为512点FFT的短时傅立叶变换。

将语音帧进行谱抵消去噪后的语音帧信号为：

S (ω) = F (ω) - N (ω) = {[\begin{matrix} s_{1} (1) & L & s_{1} (512) \\ L & L & L \\ s_{M} (1) & L & s_{M} (512) \end{matrix}]}_{M \times 512} - - - (19)

其中：M为麦克风的个数，512为512点FFT的短时傅立叶变换。

对于经过谱抵消去噪后的语音帧信号，应分别确定各空间搜索点在语音帧信号的各频点的三维搜索位置矢量。

为减少运算的复杂程度，提高声源定位性能，本发明可以根据语音帧信号的特点划分子带，即选取感兴趣的K个频率ω_i，i＝1，...K，把这些频率作为每一个子带的中心频率，将各空间搜索点在各子带中心频率点的三维搜索位置矢量确定为各空间搜索点在各子带的各频点的三维搜索位置矢量。

设定第i个子带的信号分量S(ω_i)为：

S (ω_{i}) = [\begin{matrix} S_{1} (i) \\ L \\ S_{M} (i) \end{matrix}] - - - (20)

对每一子带的信号分量S(ω_i)作如下处理：

获取语音帧的频域相关矩阵R(i)：

R(i)＝E{S(ω_i)S^H(ω_i)} (21)

将上述相关矩阵R(i)奇异值分解为：

R (i) = U_{i} diag (λ_{1}, L, λ_{M}) V_{i}^{H} - - - (22)

其中：λ₁，L，λ_M为R(i)的奇异值，U_i和V_i是对应的奇异向量组成的矩阵，即：V₁＝[v₁ L v_M]，其中的v₁ L v_M为λ₁，L，λ_M对应的奇异向量。

根据奇异值λ₁，L，λ_M的大小和声源个数对V_i分块为：

= [\begin{matrix} S_{i} & M & G_{i} \end{matrix}] - - - (23)

其中：D为需要估计声源位置的声源个数，声源个数可以由系统预先设定，v₁ L v_D为D个较大的奇异值对应的奇异向量，v_D+1 L v_M为其余的奇异向量。

根据公式(23)可以确定语音帧在各子带的信号子空间Si和噪声子空间Gi。

在对语音帧的每一子带进行上述处理后，应根据各空间搜索点在第i个子带的三维搜索位置矢量a_i(r，θ，φ)与各子带的噪声子空间Gi确定语音信号在第i个子带的三维空间谱矩阵。

空间搜索点的三维搜索位置矢量a_i(r，θ，φ)可根据各空间搜索与各麦克风的相对位置求出，具体过程为：

设第m个麦克风的坐标矢量为P_m，任一空间搜索点(r，θ，φ)的坐标矢量为S，即：

S＝r*[sinθcosφ sinθsinφ cosθ] (24)

P_m＝r_m*[sinθ_mcos_m sinθ_msin_m cosθ_m] (25)则从空间搜索点(r，θ，φ)到第m个麦克风的相对幅度衰减因子_m为：

{&PartialD;}_{m} = \frac{| | S | |}{| | P_{m} - SS | |} - - - (26)

从空间搜索点(r，θ，φ)到第m个麦克风的相对时间延迟因子τ_m为：

τ_{m} = \frac{| | S - P_{m} | | - | | S | |}{c} - - - (27)

其中：c为声音在空气中的传播速度，在室温时取340米/秒。

任一空间搜索点(r，θ，φ)在第i个子带的三维搜索位置矢量a_i(r，θ，φ)为：

a_{i} (r, θ, φ) = [\begin{matrix} {&PartialD;}_{1} e^{- j ω_{i} τ_{1}} & L & {&PartialD;}_{m} e^{- j ω_{i} τ_{m}} & L & {&PartialD;}_{M} e^{- j ω_{i} τ_{M}} \end{matrix}] - - - (28)

在确定了各空间搜索点在第i个子带的三维搜索位置矢量后，可确定语音信号在第i个子带的三维空间谱矩阵为：

P_{i} (r_{i}, θ_{i}, φ_{i}, ω_{i}) = \frac{1}{{| | a_{i}^{H} (r, θ, φ) G_{i} | |}_{2}} - - - (29)

其中：G_i为第i个子带的噪声子空间。

对P_i(r_i，θ_i，φ_i，ω_i)进行三维谱峰搜索目标信号的位置，即在三维空间谱矩阵P_i(θ_i，φ_i，r_i，ω_i)中找出峰值，该峰值对应的坐标就是声源信号的第i个子带的位置估计值：(θ_i，φ_i，r_i)。

根据上述方法对划分的K个子带分别求出K个声源信号的位置估计值，对这K个声源信号的位置估计值进行加权平均，即可得到声源信号的三维位置估计值：

(\hat{θ}, \hat{φ}, \hat{r}) = \frac{1}{K} Σ_{i = 1}^{K} w_{i} * (θ_{i}, φ_{i}, r_{i}) - - - (30)

w_{i} = \frac{{| | S (ω_{i}) | |}^{2}}{Σ_{i = 1}^{K} {| | S (ω_{i}) | |}^{2}}; - - - (31)

其中：S(ω_i)为第i个子带的信号分量，K为子带的预定个数。

上述公式30中的权值w_i可以结合声源的特点进行相应的变化，以增强部分子带的估计结果，例如当已知声源为男声，则可以提高低频部分子带的权值，从而获得更加准确的声源位置估计值。

在上述公式30中，各子带的权值w_i也可以简化为

K为子带的预定个数。

在获取语音信号在第i个子带的三维空间谱矩阵后，也可以对各三维空间谱矩阵求加权平均，即：

\overset{&OverBar;}{P} (r, θ, φ) = Σ_{i = 1}^{K} w_{i} * P_{i} (r_{i}, θ_{i}, φ_{i}, ω_{i}) - - - (32)

其中：K为子带的预定个数，w_i为第i个子带的权值，且

w_{i} = \frac{{| | S (ω_{i}) | |}^{2}}{Σ_{i = 1}^{K} {| | S (ω_{i}) | |}^{2}};

权值w_i同样也可以简化为

K为预定子带的预定个数。

从上述加权平均后的三维空间谱矩阵 P(r，θ，φ)中搜索峰值，将该峰值对应的坐标位置(r，θ，φ)确定为声源信号的坐标位置，从而实现声源三维定位。

下面以8个全向麦克风组成的如附图1所示的均匀直线麦克风阵列确定一个声源位置为例，结合附图5对本发明的技术方案进行详细说明。

设定三维空间坐标的原点设置在附图1中的第一个麦克风处，则各麦克风的位置矢量组成的矩阵为：

P = [\begin{matrix} 0 & 0 & 0 \\ 8 & 0 & 0 \\ 16 & 0 & 0 \\ 24 & 0 & 0 \\ 32 & 0 & 0 \\ 40 & 0 & 0 \\ 48 & 0 & 0 \\ 56 & 0 & 0 \end{matrix}] - - - (33)

在步骤500，麦克风阵列中的各麦克风接收模拟声源信号，设麦克风接收的模拟声源信号为：{f₁(t)，L，f₈(t)}。

到步骤510，取采样频率为16KHz，采样精度为16bit，将接收的模拟声源信号进行AD变换，AD变换后的声源信号为：{f₁(n)，L，f₈(n)}。

到步骤520，从上述AD变换后的声源信号帧中选择32毫秒长的一帧数据，即帧长为512的信号帧：

F (N) = {[\begin{matrix} f_{1} (1) & L & f_{1} (512) \\ L & L & L \\ f_{8} (1) & L & f_{8} (512) \end{matrix}]}_{8 \times 512} - - - (34)

取频率采样点数为512，对上述选择的信号帧进行加汉明(hamming)窗的短时傅立叶变换：

F (ω) = {[\begin{matrix} f_{1} (1) & L & f_{1} (512) \\ L & L & L \\ f_{8} (1) & L & f_{8} (512) \end{matrix}]}_{8 \times 512} - - - (35)

到步骤530，对上述短时傅立叶变换后的声源信号帧进行语音检测，如采用过零率、短时能量相结合的语音检测技术对F(ω)进行语音检测，判断F(ω)是语音信号还是非语音信号如噪声等，如果F(ω)是非语音信号到步骤531，将该非语音信号存储为当前估计噪声谱N(ω)，即当前估计噪声谱N(ω)＝F(ω)，到步骤532。

在步骤530，如果F(ω)是语音信号，到步骤532，采用谱抵消去噪的方法对语音帧进行去噪处理。设定当前估计噪声谱为：

N (ω) = {[\begin{matrix} n_{1} (1) & L & n_{1} (512) \\ L & L & L \\ n_{8} (1) & L & n_{8} (512) \end{matrix}]}_{8 \times 512} - - - (36)

谱抵消去噪后的语音信号为：

S (ω) = F (ω) - N (ω) = {[\begin{matrix} s_{1} (1) & L & s_{1} (512) \\ L & L & L \\ s_{8} (1) & L & s_{8} (512) \end{matrix}]}_{8 \times 512} - - - (37)

到步骤540，根据语音帧的特点划分子带，如对语音信号的谱进行分析，一般语音信号频率在300Hz～3400Hz之间，对于512点FFT变换可以选取11点到100点间共90个点为语音信号，由对称性可知在267～356之间也为语音信号，把公式37中的非语音信号点置零，并把90个点分成9个子带。

到步骤550，对每一个子带进行相关运算，得到每一个子带的相关矩阵{R₁(ω)_8×8，L，R₉(ω)_8×8}，对{R₁(ω)_8×8，L，R₉(ω)_8×8}进行奇异值分解，获得每个相关矩阵的奇异值和奇异向量，并进行空间分解，得到信号子空间和噪声子空间。

对第i个子带的相关矩阵进行特征值分解得：

R_i(ω)_8×8＝VΛU^H (38)

其中：Λ＝diag(λ₁ L λ₈)，λ₁＞L＞λ₈为奇异值组成的对角阵，U、V为对应的奇异矩阵。U可以划分为信号子空间和噪声子空间：

U＝[U_sMU_N] (39)

由于预先设定只有一个声源，故U_N为U矩阵的后7列。

到步骤560，假设三维空间搜索范围和步长分别是：θ为0°～90°，搜索步长为5°；φ为0°～90°搜索步长为5°；r为50厘米～500厘米，搜索步长为15厘米，则三维空间共有19×19×31个空间搜索点。

根据公式

a_{i} (r, θ, φ) = [\begin{matrix} {&PartialD;}_{1} e^{- j ω_{i} τ_{1}} & L & {&PartialD;}_{m} e^{- j ω_{i} τ_{m}} & L & {&PartialD;}_{M} e^{- j ω_{i} τ_{M}} \end{matrix}];

确定各空间搜索点分别在9个子带中的三维空间搜索位置矢量，根据公式

P_{i} (r_{i}, θ_{i}, φ_{i}, ω_{i}) = \frac{1}{{| | a_{i}^{H} (r, θ, φ) G_{i} | |}_{2}}

确定上述各三维空间搜索位置矢量的三维空间谱矩阵P_i(r_i，θ_i，φ_i，ω_i)，该矩阵的尺寸为：19×19×31。

对这9个子带应分别求出9个三维空间谱矩阵。

到步骤570，每个三维空间谱矩阵确定了一个三维空间的曲面，找出各三维空间曲面的峰值点即矩阵的最大值点。

到步骤580，将各三维空间谱矩阵中的峰值点对应的三维坐标确定为声源信号在第i个子带的声源位置的估计值：r_i，θ_i，φ_i。

到步骤590，对根据上述方法求出的9个声源位置的估计值进行加权平均，即可得到声源信号的位置估计值：

下述公式中的权值可根据信号的特点来设定。

(\hat{r}, \hat{θ}, \hat{φ}) = \frac{1}{9} Σ_{i = 1}^{9} w_{i} * [r_{i}, θ_{i}, φ_{i}] - - - (40)

其中：各子带的权值

w_{i} = \frac{{| | S (ω_{i}) | |}^{2}}{Σ_{i = 1}^{9} {| | S (ω_{i}) | |}^{2}};

各子带的权值也可以简化为

到步骤591，输出声源信号的三维位置估计值。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，本发明的申请文件的权利要求包括这些变形和变化。

Claims

1、一种声源定位方法，其特征在于，包括步骤：

a、根据预定三维空间坐标将拾音范围内的三维空间划分为若干个空间搜索点：

d、根据所述各三维空间谱矩阵确定声源的三维位置信息。

2、如权利要求1所述的一种声源定位方法，其特征在于，所述步骤a中预定三维空间坐标具体是指：以麦克风阵列的中心位置为坐标原点的三维空间坐标或以麦克风阵列中任一麦克风的位置为坐标原点的三维空间坐标。

3、如权利要求1所述的一种声源定位方法，其特征在于，所述步骤b具体包括如下步骤：

4、如权利要求3所述的一种声源定位方法，其特征在于，所述步骤b2具体包括如下步骤：

b21、根据语音信号的频率确定预定个数的子带；

b22、分别确定所述各子带的中心频率；

5、如权利要求4所述的一种声源定位方法，其特征在于，所述步骤b23具体包括如下步骤：

设定空间搜索点(r，θ，φ)的坐标矢量S分别为：

S＝r*[sinθcosφsinθsinφcosθ]；

{&PartialD;}_{m} = \frac{| S |}{| | P_{m} - S | |};

其中：p_m为第m个麦克风的三维空间矢量，‖^*‖表示矢量^*的范数；

τ_{m} = \frac{| | S - P_{m} | | - | | S | |}{c};

其中：c为声音在空气中的传播速度，‖^*‖表示矢量^*的范数；

a_{i} (r, θ, φ) = [\begin{matrix} {&PartialD;}_{1} e^{- j ω_{i} τ_{1}} & L {&PartialD;}_{m} e^{- j ω_{i} τ_{m}} L & {&PartialD;}_{M} e^{- j ω_{i} τ_{M}} \end{matrix}];

其中：ω_i为各子带的中心频率。

6、如权利要求4所述的一种声源定位方法，其特征在于，所述步骤c具体包括如下步骤：

c1、各麦克风根据预定采样频率获取声源信号；

c2、将所述声源信号进行AD转换：F(n)＝[f₁(n)L f_i(n)L f_M(n)]^T；

F (ω) = Σ_{m = 1}^{N} F (n) w (n - m) \exp (- jωm) = [\begin{matrix} Σ_{m = 1}^{N} f_{1} (n) w (n - m) \exp (- jωm) \\ L \\ Σ_{m = 1}^{N} f_{M} (n) w (n - m) \exp (- jωm) \end{matrix}];