CN105204001A

CN105204001A - 一种声源定位的方法及系统

Info

Publication number: CN105204001A
Application number: CN201510661040.5A
Authority: CN
Inventors: 邓雪娟; 刘卫兵
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2015-12-30

Abstract

本发明公开了一种声源定位方法及系统，所述方法包括：预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；麦克风阵列接收目标声源信号，输出时域信号；对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱；通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果；对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果。本发明可在没有准确声源数信息的前提下，得到准确的声源定位信息，提高了定位准确度，为用户定位声源提供了方便。

Description

一种声源定位的方法及系统

技术领域

本发明涉及声源定位技术领域，尤其涉及一种声源定位的方法及系统。

背景技术

声源定位系统早在20世纪七八十年代就已经开始被广泛研究。由于声源定位具有很强的空间选择性，不需要移动传感器就可以获得移动目标的声音信号，目前比较流行的是麦克风阵列，目前已经广泛用于音视频会议，说话人跟踪与识别等多种场合。

麦克风阵列的定位问题，是利用一组按一定位置摆放的麦克风来确定声源的空间位置。比较常见的方法是对通过此阵列所采集到的数据分帧进行短时傅里叶变换(short-timeFouriertransform，简称为STFT)，把信号变换到频域，选取若干子带，分别计算了MUSIC谱，经各子带平均得到一帧信号的空间谱。然后对一段语音各帧的谱平均得到总体的空间谱，再根据声源数对空间谱进行了一次峰值搜索，得到最终的方位结果。但这种方法需要预先估计声源数。假设声源数已知，而当估计的声源数与真实声源数有差别时，则计算出来的MUSIC谱中的峰值个数就会与实际声源数不同，则会导致信号丢失，从而对定位结果有较大偏差。而语音信号是非平稳信号，各帧信号的声源数很有可能是不同的，隐藏大段语音进行声源定位时会存在较大误差。

因此，现有技术还有待于改进和发展。

发明内容

鉴于现有技术的不足，本发明目的在于提供一种声源定位的方法及系统，旨在解决现有技术中声源定位需要预先得知声源数，当估计声源数据与真实声源数有差别时，会出现信号丢失、定位结果差的缺陷。

本发明的技术方案如下：

一种声源定位的方法，其中，方法包括：

A、预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；

B、麦克风阵列接收目标声源信号，输出时域信号；

C、对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱；

D、通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果；

E、对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果。

所述的声源定位的方法，其中，所述步骤A具体包括：

A1、预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；

A2、预先设置麦克风之间的距离是相同的，且设置位于麦克风阵列的中心的麦克风为阵列中心。

所述的声源定位的方法，其中，所述步骤B具体包括：

B1、麦克风阵列中每一个麦克风接收目标声源信号，分别获取每个麦克风间的第一距离和麦克风与接收声源距离的延时以及声源与阵列中心的第二距离；

B2、根据所述第一距离、所述延时及所述第二距离，输出每个麦克风接收的目标声源信号的时域信号。

所述的声源定位的方法，其中，所述步骤C具体包括：

C1、对输出目标声源信号的时域信号在一预定时间内进行采样，对采样后时域信号的每一帧数据进行短时傅里叶变换，得到对应的每一帧数据的频谱；

C2、将每一帧数据的频谱进行叠加，得到麦克风阵列接收到的声源信号的空间谱。

所述的声源定位的方法，其中，所述步骤D具体包括：

D1、判断当空间谱中的噪声信号均值为零，且互不相关时，对空间谱进行特征分解排序计算，根据特征值分解结果，估算出目标声源数；

D2、根据估算出的目标声源数，对空间谱进行谱峰搜索，确定峰值点的位置，根据峰值点位置估计出声源位置。

一种声源定位的系统，其中，系统包括：

预先设置模块，用于预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；

时域信号输出模块，用于麦克风阵列接收目标声源信号，输出时域信号；

傅里叶变换模块，用于对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱；

声源数及声源方位估计模块，用于通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果；

统计平均模块，用于对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果。

所述的声源定位的系统，其中，所述预先设置模块具体包括：

第一预先设置单元，用于预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；

第二预先设置单元，用于预先设置麦克风之间的距离是相同的，且设置位于麦克风阵列的中心的麦克风为阵列中心。

所述的声源定位的系统，其中，所述时域信号输出模块具体包括：

获取单元，用于麦克风阵列中每一个麦克风接收目标声源信号，分别获取每个麦克风间的第一距离和麦克风与接收声源距离的延时以及声源与阵列中心的第二距离；

时域信号输出单元，用于根据所述第一距离、所述延时及所述第二距离，输出每个麦克风接收的目标声源信号的时域信号。

所述的声源定位的系统，其中，所述傅里叶变换模块具体包括：

傅里叶变换单元，用于对输出目标声源信号的时域信号在一预定时间内进行采样，对采样后时域信号的每一帧数据进行短时傅里叶变换，得到对应的每一帧数据的频谱；

叠加单元，用于将每一帧数据的频谱进行叠加，得到麦克风阵列接收到的声源信号的空间谱。

所述的声源定位的系统，其中，所述声源数及声源方位估计模块具体包括：

声源数估算单元，用于判断当空间谱中的噪声信号均值为零，且互不相关时，对空间谱进行特征分解排序计算，根据特征值分解结果，估算出目标声源数；

声源位置估算单元，用于根据估算出的目标声源数，对空间谱进行谱峰搜索，确定峰值点的位置，根据峰值点位置估计出声源位置。

有益效果：本发明中采用声源数估计与方位估计二维交叉进行的方法来确保声源定位的精确度，当得到一帧信号的空间谱之后，先估算出每帧的信源数，进行谱峰搜索，得到方位估计结果，然后对多帧信号的估计结果进行统计平均，得到较为准确的方位估计和声源数估计，在没有准确声源数信息的前提下，得到准确的声源定位信息，提高了定位准确度，为用户定位声源提供了方便。

附图说明

图1为本发明的一种声源定位的方法的较佳实施例的流程图。

图2为本发明的一种声源定位的方法的具体应用实施例的麦克风阵列的信号模型示意图。

图3为本发明的一种声源定位的系统的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种声源定位的方法的较佳实施例的流程图，如图1所示，所述方法包括：

步骤S100、预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列。

具体地，所述步骤S100具体包括：

步骤S101、预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；

步骤S102、预先设置麦克风之间的距离是相同的，且设置位于麦克风阵列的中心的麦克风为阵列中心。

具体实施时，如图2所示为本发明的一种声源定位的方法的具体应用实施例的麦克风阵列的信号模型示意图。麦克风阵列处理的主要对象是近场宽带语音信号，在室内环境中，声源一般位于近场，此时阵元接收到的信号不仅有相位的差异，幅度差异也十分显著，此时采用球面波模型，会比传统的平面波模型更加精确。所以我们采取了基于球面波模型来代替平面模型来描述声波的传播。该模型除了考虑了各个麦克风之间与声源距离所导致的接收信号的相位差，还考虑到了信号在空气中所造成的幅度衰减。

如图2所示，预先设置麦克风阵列中的麦克风有M个麦克风，也叫M个阵元，其中M个麦克风是独立且特性相同的。相邻麦克风的距离是相同的记为Δd。

步骤S200、麦克风阵列接收目标声源信号，输出时域信号。

具体实施时，所述步骤S200具体包括：

步骤S201、麦克风阵列中每一个麦克风接收目标声源信号，分别获取每个麦克风间的第一距离和麦克风与接收声源距离的延时以及声源与阵列中心的第二距离；

步骤S202、根据所述第一距离、所述延时及所述第二距离，输出每个麦克风接收的目标声源信号的时域信号。

具体实施时，如图2所示，可知声源有D个，声源距阵列中心距离为r。其中阵列中心为克风阵列的中心的麦克风。假设声源j的信号是f_j(t)，那么，第i个麦克风阵元所接收到的的第j个声源的声源信号则为：

f_ij(t)＝α_ijf_j(t-τ_ij)。

其中，上述公式中α_ij指阵元i接收到的声源j的信号的幅度衰减因子，而τ_ij表示的是相对延时。

由图2可得出：

α_{i j} = \frac{r}{\sqrt{{(r s i n θ)}^{2} + {(d_{i} - r c o s θ)}^{2}}}, i = 1, 2, ..., M

τ_{i j} = \frac{\sqrt{{(r s i n θ)}^{2} + {(d_{i} - r c o s θ)}^{2}} - r}{c}, i = 1, 2, ..., M

其中，以阵列中心为原点，第i个麦克风的横坐标为，c是声源的传播速度，θ是声源与阵列中心的夹角。因此，可知，第i个麦克风的接收信号为：

f_{i} (t) = Σ_{j = 1}^{D} α_{i j} f_{j} (t - τ_{i j}) + n_{i} (t), i = 1, ..., M; j = 1, ..., D, τ_{i j} = 0,

其中n_i表示每个阵元所接收到的噪声。

步骤S300、对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱。

进一步地，所述步骤S300具体包括：

步骤S301、对输出目标声源信号的时域信号在一预定时间内进行采样，对采样后时域信号的每一帧数据进行短时傅里叶变换，得到对应的每一帧数据的频谱；

步骤S302、将每一帧数据的频谱进行叠加，得到麦克风阵列接收到的声源信号的空间谱。

具体实施时，由于语音信号是短时平稳信号，所以我们可以选取一个时间段，如20～30ms中的数据作为一帧数据，在这个事件段内，信号可以认为是平稳的。

开始对f_i(t)进行采样并选取它的每一帧数据进行短时傅里叶变换，得到下式：

\begin{matrix} f_{i} (ω, t) = Σ_{j = 1}^{D} α_{i j} f_{j} (ω, t) e^{- {jωτ}_{i j}} + n_{i} (ω, t), \\ i = 1, ..., M; j = 1, ..., D, τ_{i j} = 0, \end{matrix}

公式中的f_i(ω,t)是第i个麦克风阵元所接收到的来自所有声源信号的短时傅里叶变换。n_i(ω,t)为噪声的短时傅里叶变换。则整个阵列的接收信号为：

\begin{matrix} F (ω, t) [\begin{matrix} 1 & ... & ... & 1 \\ α_{21} e^{- {jωτ}_{21}} & ... & ... & α_{2 D} e^{- {jωτ}_{2 D}} \\ ... & ... & ... & ... \\ α_{M 1} e^{- {jωτ}_{M 1}} & α_{M D} e^{- {jωτ}_{M D}} \end{matrix}] [\begin{matrix} f_{1} (ω, t) \\ f_{2} (ω, t) \\ ... \\ f_{M} (ω, t) \end{matrix}] + [\begin{matrix} n_{1} (ω, t) \\ ... \\ n_{M} (ω, t) \end{matrix}] = \\ A (ω, r, θ) S (ω, t) + N (ω, t) \end{matrix} .

步骤S400、通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果。

具体地，所述步骤S400具体包括：

步骤S401、判断当空间谱中的噪声信号均值为零，且互不相关时，对空间谱进行特征分解排序计算，根据特征值分解结果，估算出目标声源数；

步骤S402、根据估算出的目标声源数，对空间谱进行谱峰搜索，确定峰值点的位置，根据峰值点位置估计出声源位置。

具体实施时，我们把麦克风阵元所采集到的数据分帧进行了短时傅里叶变换，而当我们把信号变换到了频域之后，每个频点都可以单独的估计出方位。当能量较大时频点估算所得到的结果也越准确。具体步骤如下：

若噪声信号的均值为零，且互不相关，将F(ω,t)中的(ω,t)简记为ω_k，F(ω_k)的相关矩阵为R(ω_k)，则R(ω_k)可以写成如下形式：

R(ω_k)＝E{F(ω_K)F^H(ω_K)}＝A(ω_K,R,θ)

R_{S S} (ω_{K}) A^{H} (ω_{K}, r, θ) + σ_{k}^{2} I

其中R_SS(ω_K)＝E[S(ω_k)S^H(ω_k)]，是该频点处的噪声功率。I是单位矩阵。F^H(ω_K)、A^H中的目标H表示一种特别的矩阵叫做埃尔米特矩阵，简称Hermite阵又称共轭矩阵。Hermite阵中每一个第i行第j列的元素都与第j行第i列的元素的共轭相等，埃尔米特矩阵(或自共轭矩阵)是相对其主对角线以复共轭方式对称。

对上个公式进行特征分解排序得：

R(ω_K)＝Udiag[λ₁,...,λ_D,λ_D+1,...,λ_M]U^H

其中U是由对应的特征向量组成的特征矢量矩阵，是一个协方差矩阵。λ₁...λ_M是R(ω_k)的特征值，并且我们根据信息论的准则中的MDL(minimumdescriptionlength)法则，通过R的特征值分解的结果，估算出声源数目D，确认信源的个数。所谓(MDL)算法，其基本思想是：对观测数据D＝(x₁,x₂,...,x_n)和一些用于描述这些数据内在规律的模型集M＝(M¹,...,M^j,...)找出其中一个模型，使得在该模型假设下，描述观测数据的长度尽量短。

当我们估计出信源个数D之后，可以根据MUSIC算法把U分解为信号子空间U_s和噪声子空间U_n。MUSIC算法的基本思想是对信号的协方差矩阵特征值分解，确定信号分量与噪声分量。由于信号分量与噪声分量具有正交性，根据这一性质可以构造空间谱函数P(θ,r)，不同的θ和r组合对应唯一的谱值，通过对P(θ,r)进行谱峰搜索，确定峰值点的位置，从而估计出波达方向信息。其处理任务就是设法估计出空间信号源的强度及其来波方向。在阵列信号处理的许多应用中,需要准确估计空间信号源的方向及空间分布,通常称为“空间谱”。

由上述，则有：A^HU_n＝0，其中0为零矢量。定义第k个频点的空间谱为

P (ω_{k}, r, θ) = \frac{1}{| | a^{H} U_{n} | |^{2}}

a = [k_{1} (θ, r) e^{- j ω (n) {Δt}_{1} (θ, r)}, ..., k_{M} (θ, r) e^{- j ω (n) {Δt}_{1} (θ, r)}] . k_{i} (θ, r),

a为第i路信号的相对幅度，Δt_i(θ,r)为第i路信号的相对时延。使得P值最大的θ和r就是声源的方位。该式中，分母时信号向量和噪声矩阵的内积，当a^HU_n的各列正交时，该分母为零，但由于噪声的存在，它实际上为一最小值，因此P有一尖峰，通过寻找波峰来估计到达角θ和r的大小。

步骤S500、对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果。

具体地，当计算出每一个频点的方位估计结果，对多个频点的方位估计结果求平均，则即可得到信源的位置结果。采用声源数估计与方位估计二维交叉的方法，对每帧信号进行谱峰搜索，大大减少了运算量，而又由于是对每帧信号做了信源数估计，所以大大提高了方位估计的准确值，在声源定位的处理领域，具有较强的实用性。

由以上方法实施例可知，本发明提供了一种声源定位的方法，采用声源数估计与方位估计二维交叉进行的方法来确保声源定位的精确度，当得到一帧信号的空间谱之后，先估算出每帧的声源数，进行谱峰搜索，得到方位估计结果，然后对多帧信号的估计结果进行统计平均，得到较为准确的方位估计和声源数估计。这样通过声源数估计与方位估计二者结合的方法，在没有准确声源数信息的前提下，就可以得到较为准确的定位信息，为声源定位提供了方便。

在上述方法实施例的基础上，本发明还提供了一种声源定位的系统的较佳实施例的功能原理框图，如图3所示，所述系统包括：

预先设置模块100，用于预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；具体如上所述。

时域信号输出模块200，用于麦克风阵列接收目标声源信号，输出时域信号；具体如上所述。

傅里叶变换模块300，用于对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱；具体如上所述。

声源数及声源方位估计模块400，用于通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果；具体如上所述。

统计平均模块500，用于对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果；具体如上所述。

第一预先设置单元，用于预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；具体如上所述。

第二预先设置单元，用于预先设置麦克风之间的距离是相同的，且设置位于麦克风阵列的中心的麦克风为阵列中心；具体如上所述。

获取单元，用于麦克风阵列中每一个麦克风接收目标声源信号，分别获取每个麦克风间的第一距离和麦克风与接收声源距离的延时以及声源与阵列中心的第二距离；具体如上所述。

时域信号输出单元，用于根据所述第一距离、所述延时及所述第二距离，输出每个麦克风接收的目标声源信号的时域信号；具体如上所述。

傅里叶变换单元，用于对输出目标声源信号的时域信号在一预定时间内进行采样，对采样后时域信号的每一帧数据进行短时傅里叶变换，得到对应的每一帧数据的频谱；具体如上所述。

叠加单元，用于将每一帧数据的频谱进行叠加，得到麦克风阵列接收到的声源信号的空间谱；具体如上所述。

声源数估算单元，用于判断当空间谱中的噪声信号均值为零，且互不相关时，对空间谱进行特征分解排序计算，根据特征值分解结果，估算出目标声源数；具体如上所述。

声源位置估算单元，用于根据估算出的目标声源数，对空间谱进行谱峰搜索，确定峰值点的位置，根据峰值点位置估计出声源位置；具体如上所述。

综上所述，本发明提供了一种声源定位方法及系统，所述方法包括：预先设置若干个独立且特性相同的麦克风组成一个麦克风阵列；麦克风阵列接收目标声源信号，输出时域信号；对输出的时域信号的每一帧数据进行短时傅里叶变换，得到对应每一帧信号的空间谱；通过空间谱估算出每帧的声源数，通过对空间谱进行谱峰搜索，得到声源方位估计结果；对多帧信号的声源数和声源方位估计结果进行统计平均，得到最终的声源方位和声源数估计结果。本发明可在没有准确声源数信息的前提下，得到准确的声源定位信息，提高了定位准确度，为用户定位声源提供了方便。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种声源定位的方法，其特征在于，方法包括：

B、麦克风阵列接收目标声源信号，输出时域信号；

2.根据权利要求1所述的声源定位的方法，其特征在于，所述步骤A具体包括：

3.根据权利要求2所述的声源定位的方法，其特征在于，所述步骤B具体包括：

4.根据权利要求3所述的声源定位的方法，其特征在于，所述步骤C具体包括：

5.根据权利要求4所述的声源定位的方法，其特征在于，所述步骤D具体包括：

6.一种声源定位的系统，其特征在于，系统包括：

7.根据权利要求6所述的声源定位的系统，其特征在于，所述预先设置模块具体包括：

8.根据权利要求7所述的声源定位的系统，其特征在于，所述时域信号输出模块具体包括：

9.根据权利要求8所述的声源定位的系统，其特征在于，所述傅里叶变换模块具体包括：

10.根据权利要求9所述的声源定位的系统，其特征在于，所述声源数及声源方位估计模块具体包括：