CN113687305A

CN113687305A - 声源方位的定位方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113687305A
Application number: CN202110846646.1A
Authority: CN
Inventors: 毛亚朋; 黄景标; 史巍; 林聚财; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-23

Abstract

本申请公开了一种声源方位的定位方法、装置、设备及计算机可读存储介质。声源方位的定位方法包括：获取麦克风线性阵列接收的音频信号，并采用预设采样频率对音频信号进行采样，得到多个通道的时域数据；对多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；对多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；基于多个通道的频域分段数据，确定声源方位的初步搜索范围；采用预设空域矩阵滤波器对多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；基于初步搜索范围和空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。上述方案，能够高效确定声源精确方位。

Description

声源方位的定位方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及声源定位技术领域，特别是涉及一种声源方位的定位方法、装置、设备及计算机可读存储介质。

背景技术

麦克风作为声音信号尤其是语音信号采集的一种常用声电换能器，在多媒体会议、教学、通信、机械设备振动与噪声检测、军事指挥侦察等领域有着广泛应用。目前市场上音频采集相关产品，以单个麦克风作为音频信号采集单元的产品为主，一些高端产品采用了各种形式的麦克风阵列作为音频信号采集、处理的传感器。例如在传统会议中，通常使用单个麦克风采集说话人的声音信息，会后通过人工的方式对会议录音内容进行整理、校对，然而这已经远远不能满足现代会议的要求，会议室的智能化建设成为一个新趋势。

关于声源方位的定位，可以利用基于时延差的方法对声源位置进行估计，但精度较低，当采样率较低时，声源方位的角度估计精度将大幅下降，也可以预设初始角度范围，当声源未处于预设角度范围或者存在其他方向较强干扰时，定位性能将会下降。

发明内容

本申请主要解决的技术问题是提供一种声源方位的定位方法、装置、设备及计算机可读存储介质，能够高效确定声源精确方位。

为了解决上述问题，本申请第一方面提供了一种声源方位的定位方法，所述声源方位的定位方法包括：获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据；对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围；采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

为解决上述问题，本申请第二方面提供了一种声源方位的定位装置，所述声源方位的定位装置包括：时域数据获取模块，所述时域数据获取模块用于获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据；数据处理模块，所述数据处理模块用于对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；并对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；初步定位模块，所述初步定位模块用于基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围；干扰抑制模块，所述干扰抑制模块用于采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；最终定位模块，所述最终定位模块用于基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

为解决上述问题，本申请第三方面提供了一种声源方位的定位设备，所述声源方位的定位设备包括相互连接的麦克风线性阵列、处理器和存储器；所述麦克风线性阵列用于采集音频信号；所述存储器用于存储程序指令，所述处理器用于执行所述程序指令以实现上述第一方面的声源方位的定位方法。

为解决上述问题，本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面的声源方位的定位方法。

本发明的有益效果是：区别于现有技术的情况，本申请在获取麦克风线性阵列接收的音频信号后，可以采用预设采样频率对音频信号进行采样，得到多个通道的时域数据，然后对多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据，并对多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；于是基于多个通道的频域分段数据，可以采用时延估计类算法确定声源方位的初步搜索范围；然后采用预设空域矩阵滤波器对多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；之后可以基于初步搜索范围和空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。通过上述方式，先采用时延估计类算法预估计声源方位的初步搜索范围，确定声源所属划分空间的区域范围，然后采用离线设计完成的矩阵滤波器处理频域分段数据的协方差矩阵，可以抑制其他区域干扰或者噪声带来的影响，最后采用MVDR算法对预估计声源方位的初步搜索范围内进行细致搜索，从而可以高效地确定声源精确方位。

附图说明

图1是本申请声源方位的定位方法一实施例的流程示意图；

图2是图1中步骤S14一实施例的流程示意图；

图3是本申请麦克风线性阵列的布置示意图；

图4是图1中步骤S15一实施例的流程示意图；

图5和图6是本申请一应用场景中通带扇面方位角在[25°,65°]与[85°,125°]的幅度响应曲线示意图；

图7是本申请声源方位的定位装置一实施例的结构示意图；

图8是本申请声源方位的定位设备一实施例的结构示意图；

图9是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请声源方位的定位方法一实施例的流程示意图。本实施例中的声源方位的定位方法，包括以下步骤：

S11：获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据。

麦克风阵列是一个声音采集的系统，使用多个麦克风采集来自于不同空间方向的声音，多个麦克风按照指定要求排列后，加上相应的算法就可以解决声源定位问题。麦克风不同的排列对应不同的算法，本实施例中可以采用麦克风线性阵列，即多个麦克风排列成一排。请结合图3，图3是本申请麦克风线性阵列的布置示意图，麦克风线性阵列可以接收语音对应的音频信号，所接收到的音频信号包括声源到达各个麦克风之间的音频信号，然后各个阵元同步以预设采样频率对接收到的音频信号进行放大，并传入信号处理单元进行处理，以将音频信号转换为能够处理的数字信号，从而得到多个通道的时域数据。

S12：对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据。

在获取到麦克风线性阵列接收的多个通道的连续的时域数据X(t)后，可以对各通道的时域数据X(t)分别采用有限长度的窗口进行分帧加窗处理，从而可以得到时域分段数据。

具体地，语音信号是一种时变非平稳信号，但其具有短时平稳性，一般情况下认为在10-30ms的时间范围内，其特征是相对平稳的，因此需要对多个通道的连续的时域数据X(t)进行分帧加窗处理，就可以将每帧信号近似认为是平稳信号。为增加两帧数据之间的连贯性，采用的分帧方法可以是交叠分段法，帧与帧之间的交叠为帧移，帧移的取值可以为帧长的一半。另外，采用的窗函数可以为矩形窗、汉宁窗、汉明窗、三角窗等，例如窗类型可以选取汉明窗，汉明窗的低通特性比较平滑，能够很好反应语音这种短时信号的频率特性。

S13：对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据。

对分帧加窗处理之后得到的多个通道的时域分段数据进行N点傅里叶变换，可以得到多个通道的频域分段数据X(ω_k)。

具体地，麦克风采集到的音频信号为实信号，对时域分段数据做傅里叶变换，假设变换点数为N_fft，只有N_fft/2点的数据有实际意义，其余的N_fft/2点为对称数据，每一个频点均可以认为是一个窄带信号，因此可以选取各通道的时域分段数据在做傅里叶变换后的前N_fft/2点的频域数据，来作为变换结果，即作为多个通道的频域分段数据X(ω_k)。

S14：基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围。

时延估计类算法的方法很多，例如广义相关法、广义相位谱法和双谱法等。其中，关于广义相关时延估计方法，是通过信号的自相关函数滞后的峰值估计信号之间延迟的时间差；例如，广义加权相关时延估计算法(GCC)，主要是提高了信噪比，相关函数和功率谱密度函数是一对傅里叶变换对，在频域利用不同的加权函数对功率谱密度函数进行处理，从而实现信号的预白处理，即增强信噪比。

基于多个通道的频域分段数据，采用时延估计类算法，可以估计任意两个通道之间的相对时延，然后可以进一步计算得到声源的大致方位角θ'。然后以此估计角度为中心，通过左右增加一扰动角度Δθ，确定声源方位的初步搜索范围。

S15：采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵。

根据多个通道的频域分段数据，可以确定其对应的协方差矩阵，然后可以采用预设空域矩阵滤波器对多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵。通过引入预设空域矩阵滤波器处理数据的协方差矩阵，可以抑制阻带扇面范围内的干扰或者噪声对声源方向定位的影响。

S16：基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

可以理解的是，在得到声源方位的初步搜索范围以及空域滤波后的协方差矩阵，可以构造MVDR算法空间谱搜索矩阵，得到空间谱函数，在空间谱中进行函数的极大值搜索，谱峰对应的θ值即为声源方位的估计值，得到声源方位的实际位置，此时得到的是更精确的声源定位结果。

上述方案，在获取麦克风线性阵列接收的音频信号后，可以采用预设采样频率对音频信号进行采样，得到多个通道的时域数据，然后对多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据，并对多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；于是基于多个通道的频域分段数据，可以采用时延估计类算法确定声源方位的初步搜索范围；然后采用预设空域矩阵滤波器对多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；之后可以基于初步搜索范围和空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。通过先采用时延估计类算法预估计声源方位的初步搜索范围，确定声源所属划分空间的区域范围，然后采用离线设计完成的矩阵滤波器处理频域分段数据的协方差矩阵，可以抑制其他区域干扰或者噪声带来的影响，最后采用MVDR算法对预估计声源方位的初步搜索范围内进行细致搜索，从而可以高效地确定声源精确方位。

请结合图2，图2是图1中步骤S14一实施例的流程示意图。在一实施例中，上述步骤S14具体包括：

S141：选取第一通道和第二通道的频域分段数据，采用广义加权时延估计算法得到相对延时差。

在远场(声源距离麦克风很远)的情况下，一般认为声音的波形是平面波，因此麦克风线性阵列中的每个麦克风接收到的音频信号在同一时刻会相同，即存在相对时延。

进一步地，在一实施例中，上述步骤S141具体可以包括：获取第一通道和第二通道的频域分段数据之间的互功率谱，并得到对应的时域相关函数；所述时域相关函数的最大值作为第一通道和第二通道的相对延时差。

具体地，相对时延为两个麦克风得到同一信号的时间差值，本实施例可以采用广义加权相关时延估计算法，通过第一通道和第二通道得到的两路信号之间的互功率谱，并在频域内给予一定的加权，再经反变换到时域，得到两路信号之间的互相关函数，而互相关函数的峰值位置即为两路信号之间的相对时延。例如，上述第一通道为第一个通道，第二通道为最后一个通道，麦克风线性阵列包括M个麦克风，选取麦克风线性阵列中第1个麦克风和第M个麦克风所对应的频域分段数据，计算得到两路信号之间的互功率谱为：

进而得到两路信号之间的互相关函数为：

于是第1个麦克风和第M个麦克风之间的相对时延为互相关函数的最大值，即：

S142：通过所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，计算得到声源方位的初步搜索范围。

具体地，上述步骤S142具体可以包括：根据所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，得到声源方位的估计角度；在所述声源方位的估计角度的基础上，增加误差角度，得到声源方位的初步搜索范围。

请结合图3，两个麦克风之间的相对时延的值

与两个麦克风之间的距离d存在如下关系：

进而可以得到声源方位相对于麦克风线性阵列的估计角度：

其中，c为声音的传播速度。另外，由于真实环境中存在各种各样的干扰，声源方位的真实角度θ与估计角度θ'之间可能存在较大误差，因此应该在估计角度θ'的基础上，以估计角度θ'为中心，增加一扰动角度Δθ，得到声源方位的初步搜索范围为[θ-Δθ,θ+Δθ]。可以理解的是，扰动角度Δθ的选取值越大，相应带来的计算量越大，而当噪声干扰较小时，估计角度θ'与真实角度θ较为接近，则可以选取比较小的扰动角度Δθ，从而可以在较小计算量的基础上达到较高的估计精度。

请结合图4，图4是图1中步骤S15一实施例的流程示意图。在一实施例中，上述步骤S15具体包括：

S151：获取所述多个通道的频域分段数据的协方差矩阵。

具体地，上述步骤S151具体包括：将所述多个通道的频域分段数据划分为N_s个子频带，每个子频带包含多个频点；通过对每个子频带内各个频点的协方差矩阵进行平均处理，得到每个子频带的协方差矩阵

S152：将空间角度划分为若干个通带区域，获取每个通带区域所对应的预设空域矩阵滤波器，并确定相应的空域滤波矩阵。

在对声源进行定位过程中，往往会伴随其他方向上的噪声与干扰，空域矩阵滤波器能够让感兴趣的方向区域的信号通过，并且抑制其他不感兴趣的方向区域的信号，其输出仍为阵列信号，于是，可以引入一个N×N的矩阵G作为滤波器对麦克风线性阵列接收的音频信号进行滤波。为了使矩阵滤波器具有空域滤波的特性，使空域滤波后的阵列信号能抑制不感兴趣的方向区域的信号，同时可以允许感兴趣的方向区域的信号无失真的通过，则需要满足如下约束条件：

其中Θ_p表示感兴趣的扇面方位角，包含有希望处理的信息，称为通带扇面，Θ_s表示需要对信号进行抑制的扇面方位角，称为阻带扇面。

因此，对空域矩阵滤波器的设计，首先需要确定通带扇面与阻带扇面的角度范围，并将方位离散化，其设计准则可以采用最小均方误差准则、阻带约束通带最小均方误差准则等。以阻带约束通带最小均方误差准则为例，空域矩阵滤波器可以表示为：

上式可以对阻带扇面内噪声衰减率与滤波后噪声功率进行限制。

在一应用场景中，可以将空间角度划分为四个区域[25°,65°]、[55°,95°]、[85°,125°]与[115°,155°]，分别将该四个角度区域作为通带区域，来离线设计空域矩阵滤波器。然后通过MATLAB的工具包CVX离线进行求解该滤波器。例如麦克风线性阵列中麦克风的数量为4个，采样频率为16000Hz，相邻的两个麦克风的间距为35mm，选取频率在1kHz-3KHz，可以得到通带扇面方位角分别在[25°,65°]与[85°,125°]的幅度响应曲线，如图5和图6所示，其中，图5是通带扇面方位角在[25°,65°]的幅度响应曲线示意图，图6是通带扇面方位角在[85°,125°]的幅度响应曲线示意图。

S153：确定所述声源方位的初步搜索范围所对应的目标通带区域。

S154：利用所述目标通带区域所对应的空域滤波矩阵，对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵。

在前述步骤中，可以得到声源方位的估计角度θ'，而声源方位的初步搜索范围可以表示为[θ-Δθ,θ+Δθ]，因此可以确定声源方位的初步搜索范围属于步骤S152中划分的某个通带区域。然后可以选取该通带区域所对应的空域滤波矩阵Gω)，来对不同频带的协方差矩阵

进行空域滤波处理，得到最终的空域滤波后的协方差矩阵：

进一步地，在一实施例中，上述步骤S16具体可以包括：分别对每个子频带的协方差矩阵进行求逆，构造空间谱搜索矩阵；其中每个子频带分别对应1个空间谱搜索矩阵；对于任意角度，根据所述空间谱搜索矩阵计算每个子频带的空间谱函数值，并对所有子频带的空间谱函数值进行加权平均，得到该角度的最终空间谱函数值；将最大的所述最终空间谱函数值所对应的角度作为所述声源方位的实际位置。

可以理解的是，对于任意一个搜索角度来说，在得到每个子频带的协方差矩阵

后，可以分别对每个子频带的协方差矩阵R(ω_k)进行求逆，可以构造MVDR算法的空间谱搜索矩阵P_MVDR(θ)，由于每个子频带分别对应1个空间谱搜索矩阵，每个子频带可以计算得到一个空间谱函数值，则N_s个子频带对应有N_s个空间谱搜索矩阵，得到N_s个空间谱函数值，对N_s个空间谱搜索矩阵对应的空间谱函数值进行加权平均，从而得到该搜索角度对应最终空间谱函数的值。然后对搜索出来的所有谱函数的值进行排序，得到其中的最大值，该最大值所对应的角度为声源方位的实际位置。

另外，对声源方位的实际位置的搜索可以有两种方式：一种是对每个子频带进行方位估计，对于N_s个子频带一共可以估计得到N_s个声源位置坐标，通过加权平均可以得到最终的声源角度估计

w_k是第k个子频带的权值系数；另一种是将N_s个子频带处的空间谱搜索矩阵进行加权平均，加权平均后得到的最终空间谱函数

将最终空间谱函数的最大值所对应的角度作为声源方位的实际位置。

请参阅图7，图7是本申请声源方位的定位装置一实施例的结构示意图。本实施例中的声源方位的定位装置70包括相互连接的时域数据获取模块700、数据处理模块702、初步定位模块704、干扰抑制模块706和最终定位模块708；所述时域数据获取模块700用于获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据；所述数据处理模块702用于对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；并对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；所述初步定位模块704用于基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围；所述干扰抑制模块706用于采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；所述最终定位模块708用于基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

在一实施例中，所述初步定位模块704执行基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围的步骤，包括：选取第一通道和第二通道的频域分段数据，采用广义加权时延估计算法得到相对延时差；通过所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，计算得到声源方位的初步搜索范围。

在一实施例中，所述初步定位模块704执行选取第一通道和第二通道的频域分段数据，采用广义加权时延估计算法得到相对延时差的步骤，包括：获取第一通道和第二通道的频域分段数据之间的互功率谱，并得到对应的时域相关函数；将所述时域相关函数的最大值作为第一通道和第二通道的相对延时差。

在一实施例中，所述初步定位模块704执行通过所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，计算得到声源方位的初步搜索范围的步骤，包括：根据所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，得到声源方位的估计角度；在所述声源方位的估计角度的基础上，增加误差角度，得到声源方位的初步搜索范围。

在一实施例中，所述干扰抑制模块706执行采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵的步骤，包括：获取所述多个通道的频域分段数据的协方差矩阵；通过预设空域矩阵滤波器将空间角度划分为若干个通带区域；确定所述声源方位的初步搜索范围所对应的目标通带区域；利用所述目标通带区域所对应的空域滤波矩阵，对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵。

在一实施例中，所述干扰抑制模块706执行获取所述多个通道的频域分段数据的协方差矩阵的步骤，包括：将所述多个通道的频域分段数据划分为N_s个子频带，每个子频带包含多个频点；通过对每个子频带内各个频点的协方差矩阵进行平均处理，得到每个子频带的协方差矩阵。

在一实施例中，所述最终定位模块708执行基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置的步骤，包括：分别对每个子频带的协方差矩阵进行求逆，构造空间谱搜索矩阵；其中每个子频带分别对应1个空间谱搜索矩阵；对所有空间谱搜索矩阵进行加权平均，得到最终空间谱函数；将所述最终空间谱函数的最大值所对应的角度作为所述声源方位的实际位置。

关于本申请声源方位的定位装置70实现声源方位的定位方法的具体内容请参阅上述声源方位的定位方法实施例中的内容，此处不再赘述。

请参阅图8，图8是本申请声源方位的定位设备一实施例的结构示意图。本实施例中的声源方位的定位设备80包括相互连接的麦克风线性阵列800、处理器802和存储器804；麦克风线性阵列800用于采集音频信号，存储器804用于存储程序指令，处理器802用于执行存储器804中存储的程序指令，以实现上述任一声源方位的定位方法实施例的步骤。在一个具体的实施场景中，声源方位的定位设备80可以包括但不限于：微型计算机、服务器。

具体而言，处理器802用于控制其自身以及存储器804以实现上述任一声源方位的定位方法实施例的步骤。处理器802还可以称为CPU(Central Processing Unit，中央处理单元)。处理器802可能是一种集成电路芯片，具有信号的处理能力。处理器802还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器802可以由集成电路芯片共同实现。

上述方案，处理器802在获取麦克风线性阵列800接收的音频信号后，可以采用预设采样频率对音频信号进行采样，得到多个通道的时域数据，然后对多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据，并对多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；于是基于多个通道的频域分段数据，可以采用时延估计类算法确定声源方位的初步搜索范围；然后采用预设空域矩阵滤波器对多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；之后可以基于初步搜索范围和空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。通过先采用时延估计类算法预估计声源方位的初步搜索范围，确定声源所属划分空间的区域范围，然后采用离线设计完成的矩阵滤波器处理频域分段数据的协方差矩阵，可以抑制其他区域干扰或者噪声带来的影响，最后采用MVDR算法对预估计声源方位的初步搜索范围内进行细致搜索，从而可以高效地确定声源精确方位。

请参阅图9，图9是本申请计算机可读存储介质一实施例的结构示意图。本申请计算机可读存储介质90，其上存储有程序指令900，程序指令900被处理器执行时实现上述任一声源方位的定位方法的实施例中的步骤。

该计算机可读存储介质90具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令900的介质，或者也可以为存储有该程序指令900的服务器，该服务器可将存储的程序指令900发送给其他设备运行，或者也可以自运行该存储的程序指令900。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、设备和装置，可以通过其它的方式实现。例如，以上所描述的设备和装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种声源方位的定位方法，其特征在于，所述声源方位的定位方法包括：

获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据；

对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；

对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；

基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围；

采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；

基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

2.根据权利要求1所述的声源方位的定位方法，其特征在于，所述基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围，包括：

选取第一通道和第二通道的频域分段数据，采用广义加权时延估计算法得到相对延时差；

通过所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，计算得到声源方位的初步搜索范围。

3.根据权利要求2所述的声源方位的定位方法，其特征在于，所述选取第一通道和第二通道的频域分段数据，采用广义加权时延估计算法得到相对延时差，包括：

获取第一通道和第二通道的频域分段数据之间的互功率谱，并得到对应的时域相关函数；

将所述时域相关函数的最大值作为第一通道和第二通道的相对延时差。

4.根据权利要求2所述的声源方位的定位方法，其特征在于，所述通过所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，计算得到声源方位的初步搜索范围，包括：

根据所述相对延时差、采样频率与第一通道和第二通道之间的麦克风间距信息，得到声源方位的估计角度；

在所述声源方位的估计角度的基础上，增加误差角度，得到声源方位的初步搜索范围。

5.根据权利要求1所述的声源方位的定位方法，其特征在于，所述采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵，包括：

获取所述多个通道的频域分段数据的协方差矩阵；

将空间角度划分为若干个通带区域，获取每个通带区域所对应的预设空域矩阵滤波器，并确定相应的空域滤波矩阵；

确定所述声源方位的初步搜索范围所对应的目标通带区域；

利用所述目标通带区域所对应的空域滤波矩阵，对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵。

6.根据权利要求5所述的声源方位的定位方法，其特征在于，所述获取所述多个通道的频域分段数据的协方差矩阵，包括：

将所述多个通道的频域分段数据划分为N_s个子频带，每个子频带包含多个频点；

通过对每个子频带内各个频点的协方差矩阵进行平均处理，得到每个子频带的协方差矩阵。

7.根据权利要求6所述的声源方位的定位方法，其特征在于，所述基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置，包括：

分别对每个子频带的协方差矩阵进行求逆，构造空间谱搜索矩阵；其中每个子频带分别对应1个空间谱搜索矩阵；

对于任意角度，根据所述空间谱搜索矩阵计算每个子频带的空间谱函数值，并对所有子频带的空间谱函数值进行加权平均，得到该角度的最终空间谱函数值；

将最大的所述最终空间谱函数值所对应的角度作为所述声源方位的实际位置。

8.一种声源方位的定位装置，其特征在于，所述声源方位的定位装置包括：

时域数据获取模块，所述时域数据获取模块用于获取麦克风线性阵列接收的音频信号，并采用预设采样频率对所述音频信号进行采样，得到多个通道的时域数据；

数据处理模块，所述数据处理模块用于对所述多个通道的时域数据进行分帧加窗处理，得到多个通道的时域分段数据；并对所述多个通道的时域分段数据进行傅里叶变换，得到多个通道的频域分段数据；

初步定位模块，所述初步定位模块用于基于所述多个通道的频域分段数据，采用时延估计类算法确定声源方位的初步搜索范围；

干扰抑制模块，所述干扰抑制模块用于采用预设空域矩阵滤波器对所述多个通道的频域分段数据的协方差矩阵进行处理，得到空域滤波后的协方差矩阵；

最终定位模块，所述最终定位模块用于基于所述初步搜索范围和所述空域滤波后的协方差矩阵，利用MVDR算法确定声源方位的实际位置。

9.一种声源方位的定位设备，其特征在于，所述声源方位的定位设备包括相互连接的麦克风线性阵列、处理器和存储器；

所述麦克风线性阵列用于采集音频信号；所述存储器用于存储程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-7任一项所述的声源方位的定位方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述声源方位的定位方法。