CN111933182B

CN111933182B - 声源跟踪方法、装置、设备和存储介质

Info

Publication number: CN111933182B
Application number: CN202010790561.1A
Authority: CN
Inventors: 王备
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2024-04-19
Anticipated expiration: 2040-08-07
Also published as: CN111933182A

Abstract

本申请涉及声源跟踪方法、装置、设备和存储介质。该方法包括：利用麦克风阵列采集音频信号；其中，所述麦克风阵列中的多个麦克风分别设置于音频采集设备的不同方向，用于从多个不同方向采集音频信号；从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向；若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集。如此，来实现对多声源的跟踪。

Description

声源跟踪方法、装置、设备和存储介质

技术领域

本申请涉及音频处理领域，特别是涉及一种声源跟踪方法、装置、设备和存储介质。

背景技术

目前，远程会议场景中常使用麦克风阵列，常采用能量估计方式来进行音频传输，即利麦克风阵列波束形成技术，在预先设定的多个不同方向的固定波束中，选择采集到的能量最大的固定波束的信号作为目标信号来完成音频传输。这种方法虽然实现简单，但是现有麦克风阵列只能对一个参会人的声音进行跟踪，也即只能进行单声源跟踪，当多个声源同时出现时，能量相对较弱的声源会被忽略，而会议场景中必然存在多个声源，因此，现有声源跟踪方式无法满足会议场景的需求。

发明内容

为解决上述问题，本发明提出了一种声源跟踪方法、装置、设备和存储介质。

第一方面，本申请实施例提供一种声源跟踪方法，所述方法包括：

利用麦克风阵列采集音频信号；其中，所述麦克风阵列中的多个麦克风分别设置于音频采集设备的不同方向，用于从多个不同方向采集音频信号；

从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向；

若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集。

在本申请方案的一具体示例中，所述方法还包括：

基于所述目标音轨中所关联的音频帧输出所述音频信号。

在本申请方案的一具体示例中，所述方法还包括：

检测所述目标音频帧的声源方向与处于激活状态的目标音轨中已关联的其他音频帧的声源方向是否相匹配；

基于匹配结果确定是否将所述目标音频帧关联至与目标音轨。

在本申请方案的一具体示例中，所述方法还包括:

若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向不匹配，将所述目标音频帧关联至其他音轨，以使该其他音轨关联与所述目标音频帧的声源方向相匹配的音频帧。

在本申请方案的一具体示例中，所述将所述目标音频帧关联至其他音轨，包括：

将所述目标音频帧关联至处于激活状态的其他音轨；或者，

将所述目标音频帧关联至处于空闲状态的其他音轨。

在本申请方案的一具体示例中，所述目标音轨和/或其他音轨的状态随关联音频帧的关联特征而变化。

第二方面，本申请实施例提供一种声源跟踪装置，所述装置包括：

采集单元，用于利用麦克风阵列采集音频信号；其中，所述麦克风阵列中的多个麦克风分别设置于音频采集设备的不同方向，用于从多个不同方向采集音频信号；

声源方向确定单元，用于从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向

音轨关联单元，用于若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集。

在本申请方案的一具体示例中，还包括：跟踪单元，用于：

基于所述目标音轨中所关联到的音频帧输出所述音频信号。

在本申请方案的一具体示例中，所述音轨关联单元，还用于：

将所述目标音频帧关联至处于激活状态的其他音轨；或者，

将所述目标音频帧关联至处于空闲状态的其他音轨。

第三方面，本申请实施例提供一种声源跟踪设备，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这样，由于本申请方案能够将音频信号中的目标音频帧能够与音轨进行关联，所以，为实现将不同声源方向的不同的音频帧关联至与之匹配的音轨奠定了基础，进而为利用音轨实现多声源的跟踪奠定了基础。

附图说明

图1为本发明实施例声源跟踪方法的实现流程示意图；

图2为本申请实施例声源跟踪方法在一具体应用场景的示意图一；

图3为本申请实施例声源跟踪方法在一具体应用场景的示意图二；

图4为本发明实施例声源跟踪装置的结构示意图；

图5本发明实施例声源跟踪设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

基于此，本申请实施例提供了一种声源跟踪方法、装置、设备和存储介质；具体地，图1为本发明实施例声源跟踪方法的实现流程示意图，如图1所示，所述方法包括：

步骤101：利用麦克风阵列采集音频信号；其中，所述麦克风阵列中的多个麦克风分别设置于音频采集设备的不同方向，用于从多个不同方向采集音频信号。

这里，需要说明的是，本申请方案应用于声源跟踪装置，但是，该声源跟踪装置可以与音频采集设备设置于同一设备中，或者，该声源跟踪装置直接集成到所述音频采集设备中，如此，使得音频采集设备能够实现本申请方案所述的跟踪方法。

步骤102：从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向。

步骤103：若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集。

在本申请方案的一具体示例中，基于所述目标音轨中所关联的音频帧输出所述音频信号，如此，利用音轨，如目标音轨，将声源定位后得到的散点，即音频帧进行归类，换言之，将分散的声源方向进行归类，比如，得到与一个或多个声源方向对应的音轨，进而利用该音轨中的音频帧完成音频信号的输出。

在本申请方案的一具体示例中，在将所述目标音频帧关联至目标音轨之前，还需要检测所述目标音频帧的声源方向与处于激活状态的目标音轨中已关联的其他音频帧的声源方向是否相匹配；基于匹配结果确定是否将所述目标音频帧关联至与目标音轨，进而在确定所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配时，将所述目标音频帧关联至目标音轨；在所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向不匹配时，将所述目标音频帧关联至其他音轨，以使该其他音轨关联与所述目标音频帧的声源方向相匹配的音频帧。如此，利用音轨来实现对音频信号的声源方向进行归类，为实现多声源的跟踪奠定了基础。

在本申请方案的一具体示例中，所述将所述目标音频帧关联至其他音轨，包括：将所述目标音频帧关联至处于激活状态的其他音轨；或者，将所述目标音频帧关联至处于空闲状态的其他音轨。如此，利用音轨来实现对音频信号的声源方向进行归类，为实现多声源的跟踪奠定了基础。

在本申请方案的一具体示例中，所述目标音轨和/或其他音轨的状态随关联音频帧的关联特征而变化。比如，实际应用中，音轨包括多个状态，比如，未激活状态、激活状态、空闲状态等。

以下结合具体示例对本申请方案做进一步详细说明，具体地，本示例提供一种基于卡尔曼滤波的多声源跟踪方案。通常，语音信号具有随时间动态变化的特性。一个人看似持续不断地讲话，实际上语音中仍会存在大量短暂的停顿间隙。当多个人同时讲话时，每个人的停顿间隙出现的时机完全随机，因此，呈现出「此起彼伏」的特性。当同时讲话的人数不太多时(经验值为3)，对于每一个瞬间，可假设只存在一个主要讲话人。基于此，本申请方案提供一种基于卡尔曼滤波的声源跟踪方案，可以实现多声源跟踪，比如跟踪三个声源等。

具体地，如图2所示，声源跟踪方案的流程如下：

获得声源定位输出的当前帧的声源方向(Direction of Arrival，DOA)(可能为NULL)；

将当前DOA关联至某个音轨；举例来说，，比如现有三个声源方向，对应的分别是0度，90度和180度，若DOA返回声源方向为10度，则可认定为属于0度的声源，不属于其他声源，此时，将该DOA与0度的音轨进行关联，并更新0度对应的音轨的状态。

基于卡尔曼滤波，更新当前所有音轨的状态；

检查是否存在两个音轨的夹角小于预设的音轨合并阈值，如果存在，则将两个音轨合并为一个音轨；

输出所有音轨的方向，作为多声源跟踪的输出。

这里，需要说明的是，

本示例将已跟踪的声源称为音轨(track)。实际应用中，一个音轨可能存在四种状态：

1.空(empty)：没有跟踪到声源；

2.暂定(tentative)：可能是声源，还不确定；

3.激活(active)：已跟踪的声源，且正在讲话；

4.未激活(inactive)：已跟踪的声源，但未讲话。

举例来说，第一个DOA放入第一个音轨；此时，来了第二个DOA，首先，判断第二DOA是否能够关联到第一个音轨上，比如，是否属于一个角度范围，属于同一个范围内的，可以关联到第一音轨上，不在同一范围内的，创建一个新的音轨，即第二音轨；当音轨的数量达到阈值后，新的DOA进来后一定要关联已有的音轨上，关联结果可以使用概率模型来进行判断；每个音轨会有两种情况，一种情况是，有新的DOA给做关联，另一种没有，此时，根据是否有关联，更新音轨的状态。如图3所示，四种状态在特定条件下可以相互转换。

这里，假设声源围绕阵列的圆心做匀速圆周运动，对于每一个已跟踪的声源，即音轨，利用卡尔曼滤波，可以得到更加平滑和准确的声源跟踪结果。

对于均速圆周运动，定义n时刻的状态矢量其中θ_n为n时刻声源角度，/>为n时刻声源角速度。定义n时刻的2×2状态估计协方差矩阵P_n，以及2×2估计噪声协方差矩阵Q。预测方程如下：

其中，为对n+1时刻状态矢量的估计，F为运动状态传递矩阵，对于匀速圆周运动，可定义：

在更新阶段，需要分两种情况讨论。

第一种情况，是当前帧声源定位的结果属于当前音轨，即存在新的观测值z，可通过如下公式更新：

由于声源定位结果只包括声源方向，不包括声源速度，因此观测矢量z＝[θ_z 0]^T，并定义观测模型H＝[1 0]。此外，上述公式中的函数f(·)用于将角度值限制在[-π,π]之间。

第二种情况，是当前帧声源定位的结果不属于当前音轨，即没有出现新的观测值。理论上，此时可以完全依赖运动模型对声源的新位置进行估计。不过，在实测中发现，当较长时间没有出现新的观测值时，声源会出现过于明显的漂移，与实际情况严重不符。因此，选择在没有观测值时不更新状态。

这样，利用本申请方案能够利用音轨将定位到的分散声源方向进行归类，如此，利用归类后的声源方向，也即音轨来进行音频信号的稳定输出。

这里，在一具体示例中，可以采用如下方式确定出目标音频帧的声源方向，需要说明的是，确定目标音频帧的声音方向，与确定音频信号的声源方向相同；以下仅以确定音频信号的声源方向为例进行说明，实际应用中，利用下述方案依然可以确定出音频信号中目标音频帧的声源方向，只需将音频信号替换为目标音频帧即可。

具体地，确定所述音频信号的频域信号，比如，音频采集设备对所有麦克风采集到的所述音频信号进行短时傅里叶变换，得到所述音频信号的频域信号，基于所述麦克风所对应的所述频域信号的频率信息，基于所述麦克风所对应的所述频域信号的频率信息，计算多个方向上的目标广义互相关值，其中，所述多个方向中任意一个方向上的目标广义互相关值用于表征频率信息到达所述麦克风阵列中一对麦克风的延迟特征。进而基于所述多个方向上的目标广义互相关值所表征的延迟特征从所述多个方向中确定出所述音频信号的声源方向。

在一具体示例中，可以采用如下方式得到一对麦克风，也可称为麦克风对，比如，将所述麦克风阵列中任意两个麦克风进行组合，得到N个麦克风对，此时，所述也就是说，将麦克风两两组合，得到所述麦克风对，如此，为实现声源定位奠定了基础。

在一具体示例中，可以采用如下方法得到目标广义互相关值，具体地，基于所述麦克风所对应的所述频域信号的各频率信息，计算得到针对一个方向的所述麦克风阵列中各对麦克风对应的广义互相关值；基于针对一个方向上的所有广义互相关值，得到一个方向上的目标广义互相关值，以得到多个方向上的目标广义互相关值。比如，基于所述麦克风所对应的所述频域信号的一个频率信息以及一个麦克风对，得到一个广义互相关值，以此类推，得到针对一个方向的所有广义互相关值，换言之，一个频率信息和一个麦克风对，得到一个广义互相关值，而频域信号中包含有多个频率信息，同时，麦克风对也存在多个，所以，一个方向能够得到多个广义互相关值，进而，基于针对一个方向上的所有广义互相关值，得到一个方向上的目标广义互相关值，进而得到多个方向上的目标广义互相关值。比如，将针对一个方向上的所有广义互相关值进行相加后得到该方向上的目标广义互相关值。

实际应用中，当确定出每个方向上的目标广义互相关值后，将所述目标广义互相关值中最大值对应的方向作为所述音频信号的声源方向，如此，来实现声源定位。

在一具体示例中，为减少计算量，可以采用下述两步法来得到所述音频信号的声源方向，比如，先粗略定位，基于所述目标广义互相值所表征的延迟特征从多个方向中选取出所述音频信号的疑似声源方向，这里，为简单起见，粗略定位的方向可以具体为麦克风正对的采集方向；然后，在精细定位，即确定出所述疑似声源方向对应的多个相邻方向，比如，将与疑似声源方向的正负预设度数中选取出多个相邻方向，进而，采用相同的方式，计算得到所述多个相邻方向的目标广义互相关值，并基于所述多个相邻方向的目标广义互相关值从所述多个相邻方向中确定出所述音频信号的声源方向。如此，在数据量减小的情况下，实现快速定位。当然，在一具体示例中，可以将所述多个相邻方向的目标广义互相关值中最大值对应的方向作为所述音频信号的声源方向。

以下结合具体示例对声源定位方法做进一步详细说明，具体地，本示例以会议通话场景为例，利用均匀环形麦克风阵列(均匀环形麦克风阵列，所有麦克风等间距的放在一个圆上)来实现声源的快速定位，进而从根本上解决了现有技术反应速度慢、无法支持多声源场景的问题。这里，本示例所述的声源定位(Sound Source Localization，SSL)指使用麦克风采集到的信号的相位信息，实现快速声源定位。

基于相位信息的快速声源定位流程如下：

对于麦克风阵列中的所有麦克风，获得一帧时域信号；

对于所有麦克风而言，通过短时傅里叶变换(Short Time Fourier Transform，STFT)，将获取到的时域信号变换为频域信号；

对于所有麦克风而言，计算频域信号的相位(phase)，得到频域信号对应的频率信息；

将麦克风阵列中所有麦克风进行两两配对，得到个麦克风对，其中，M为麦克风的个数。例如，使用6个麦克风，此时，得到15个麦克风对；

预先设定D个目标方向，其中，D大于等于2的正整数；对每一个目标方向而言，基于每一个麦克风对以及每一个时域信号对应的频率信息，计算一个广义互相关GeneralizedCorrelation，GCC)值，对于所有频率新修和所有麦克风对而言，按照相同方式计算，即可得到针对一个目标方向上的多个广义互相关值，将多个广义互相关值求和处理，最终得到该目标方向上的输出值(也即目标广义互相关值)；

对于D个方向而言，得到D个输出值，找出D个输出值的最大值，其对应的目标方向即为声源方向(Direction of Arrival，DOA)。

实际应用中，可以采用如下方式计算得到广义互相关(以下简称GCC)值，具体地：

以1和2号麦克风组成的麦克风对为例，在角频率ω下，其广义互相关定义为：

其中，Ψ₁₂(ω)为与角频率相关的加权函数，ω＝2^πf(f表征频率信息)，X₁(ω)和X₂(ω)分别为1和2号麦克风STFT后在角频率ω下的频域系数，*表示共轭，τ表示当前方向的远场声源在1和2号麦克风位置所形成的时间差(Time Difference of Arrival，TDOA)。

这里，为了实现快速的声源定位，可以使用相位变换(Phase Transform，PHAT)加权函数，即

此时，广义互相关公式可变换为：

考虑实信号傅里叶变换的共轭对称性，即∠X_m(-ω)＝-∠X_m(ω),m＝1,2,…，以上公式可简化为：

实际应用中，考虑到语音特性，会将积分上下限限制在某一频段，例如[500，3000]Hz，如此，增加算法稳定性。

这里，为减少计算量，本示例还可以采用两步定位(Two-step SSL)方式来实现快速定位，具体地，在会议通话场景中，通常需要在二维水平面，也即360°全空间进行声源定位。为了提高定位精度，希望预先设定的目标方向的个数D尽量大。例如，当D＝60时，定位精度即可为δθ＝360°/2D＝3°。但是，随着D的增大，计算量也会增加，因此，在不降低D的取值(也即不降低精确度)的前提下，显著降低计算量，本示例基于均匀环形阵列的圆周对称性提出两步定位法定位方案。具体步骤如下：

假设均匀环形阵列中包含M个麦克风，为了实现方便，使D为M的整数倍，即D＝D₁M,D₁∈Z⁺。比如，对于6麦克风均匀环形阵列，即M＝6，可选择D＝D₁M＝60,D₁＝10，其中，D₁为精度。

第一步，粗略定位：先对M个麦克风正对方向进行扫描，找出GCC最大值对应的方向。

第二部，精细定位：在第一步返回的方向两侧各D₁-1个精细方向，共计2(D₁-1)+1个方向上进行扫描后，找出GCC最大值对应的方向得出最终的定位结果。

举例来说，以M＝6,D＝60为例：

第一步，在6个麦克风所示的方向上进行粗略定位，得到GCC最大值对应的方向(图中灰色图标所对应方向)。

第二步，在灰色图标所对应方向两侧进行精细扫描(如弧线所示)，每一侧有D₁-1＝D/M-1＝9个等间隔方向，两侧加上灰色图标所对应方向，共有2(D₁-1)+1＝19个方向，得到最终的定位结果。

显然，使用两步定位方向，仅需要扫描6+19＝25个方向，相比直接扫描60个方向而言，减少了超过一半的计算量。

这里，语音激活检测(Voice Activity Detection，VAD)，当音频不存在时，声源定位算法如果继续工作，可能会定位到噪声源，或者出现随机定位结果，因此，声源定位算法需要与语音激活检测算法协同工作。只有在检测到音频存在时，声源定位才输出DOA；当语音不存在时，声源定位输出为NULL(空)。

本申请实施例还提供了一种声源跟踪装置，如图4所示，所述装置包括：

采集单元41，用于利用麦克风阵列采集音频信号；其中，所述麦克风阵列中的多个麦克风分别设置于音频采集设备的不同方向，用于从多个不同方向采集音频信号；

声源方向确定单元42，用于从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向

音轨关联单元43，用于若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集。

在本申请方案的一具体示例中，还包括：跟踪单元，用于：

基于所述目标音轨中所关联到的音频帧输出所述音频信号。

将所述目标音频帧关联至处于激活状态的其他音轨；或者，

将所述目标音频帧关联至处于空闲状态的其他音轨。

这里需要指出的是：以上装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种声源跟踪设备，包括：一个或多个处理器；与所述一个或多个处理器通信连接的存储器；一个或多个应用程序；其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行以上所述的方法。

在一具体示例中，本申请实施例所述的声源跟踪设备可具体为如图5所示的结构，所述声源跟踪设备至少包括处理器51、存储介质52以及至少一个外部通信接口53；所述处理器51、存储介质52以及外部通信接口53均通过总线54连接。所述处理器51可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码，所述计算机可执行代码能够执行以上任一实施例所述的方法。在实际应用中，所述检测单元41以及处理单元42均可以通过所述处理器51实现。

这里需要指出的是：以上声源跟踪设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明声源跟踪设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现以上所述的方法。

这里，计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

上述所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种声源跟踪方法，其特征在于，所述方法包括：

若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集；

若所述目标音频帧的声源方向与所有已创建的音轨中已关联的其他音频帧的声源方向均不匹配，则创建新的音轨与所述目标音频帧相关联；

在音轨的数量达到阈值后，若所述目标音频帧的声源方向与所有已创建的音轨中已关联的其他音频帧的声源方向均不匹配，则通过概率模型在所有已创建的音轨中确定所述目标音频帧关联的音轨。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标音轨中所关联的音频帧输出所述音频信号。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1或3所述的方法，其特征在于，所述方法还包括:

5.根据权利要求4所述的方法，其特征在于，所述将所述目标音频帧关联至其他音轨，包括：

将所述目标音频帧关联至处于激活状态的其他音轨；或者，

将所述目标音频帧关联至处于空闲状态的其他音轨。

6.根据权利要求5所述的方法，其特征在于，所述目标音轨和/或其他音轨的状态随关联音频帧的关联特征而变化。

7.一种声源跟踪装置，其特征在于，所述装置包括：

声源方向确定单元，用于从所述多个不同方向中确定所述音频信号中目标音频帧的声源方向；

音轨关联单元，用于若所述目标音频帧的声源方向与所述目标音轨中已关联的其他音频帧的声源方向相匹配，将所述目标音频帧关联至目标音轨，以便在所述目标音轨中对所述声源方向上的音频信号进行跟踪采集；

所述音轨关联单元，还用于若所述目标音频帧的声源方向与所有已创建的音轨中已关联的其他音频帧的声源方向均不匹配，则创建新的音轨与所述目标音频帧相关联；

所述音轨关联单元，还用于在音轨的数量达到阈值后，若所述目标音频帧的声源方向与所有已创建的音轨中已关联的其他音频帧的声源方向均不匹配，则通过概率模型在所有已创建的音轨中确定所述目标音频帧关联的音轨。

8.根据权利要求7所述的装置，其特征在于，还包括：跟踪单元，用于：

基于所述目标音轨中所关联到的音频帧输出所述音频信号。

9.一种声源跟踪设备，其特征在于，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。