CN114240994A

CN114240994A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN114240994A
Application number: CN202111302041.2A
Authority: CN
Inventors: 丁国栋; 李嘉锋; 卓力; 张辉; 郜征; 徐晗
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-03-25
Anticipated expiration: 2041-11-04
Also published as: CN114240994B

Abstract

本发明提供一种目标跟踪方法、装置、电子设备及存储介质。其中，目标跟踪方法包括：获取初始特征图像；所述初始特征图像包括目标对象；将所述初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；对所述位置特征图像进行相关性处理，得到相关特征图像；基于所述相关特征图像，得到所述目标对象的目标跟踪信息。本发明能够提高目标跟踪的精确度。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，其应用领域相当广泛，例如医学、工业或者目标跟踪等方向。其中，在目标跟踪方向的应用尤为广泛，目标跟踪是指利用初始帧中包含的目标信息对后续帧中的目标进行跟踪。目标跟踪在很多智能应用中都有着优异的表现。

现有技术中，一般采用基于相关滤波器的传统跟踪算法或者基于深度学习的跟踪算法等，存在目标跟踪精确度低的问题。

发明内容

本发明提供一种目标跟踪方法、装置、电子设备及存储介质，用以解决现有技术中目标跟踪精确度低的缺陷，实现提高目标跟踪精确度的目的。

本发明提供一种目标跟踪方法，包括：获取初始特征图像；所述初始特征图像包括目标对象；将所述初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；对所述位置特征图像进行相关性处理，得到相关特征图像；基于所述相关特征图像，得到所述目标对象的目标跟踪信息。

根据本发明提供的一种目标跟踪方法，所述分类及回归网络包括分类网络和回归网络，所述将所述初始特征图像输入到分类回归网络中，分别得到分类特征图像和回归特征图像包括：将所述初始特征图像输入到所述分类网络中，得到第一子分类特征图像和第二子分类特征图像；以及，将所述初始特征图像输入到所述回归网络中，得到第一子回归特征图像和第二子回归特征图像；将所述第一子分类特征图像和所述第二子分类特征图像分别进行融合处理，得到所述第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像；将所述第一子回归特征图像和所述第二子回归特征图像分别进行所述融合处理，得到所述第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像；将所述第一融合特征图像和所述第二融合特征图像进行相关性处理，得到所述分类特征图像；将所述第三融合特征图像和所述第四融合特征图像进行所述相关性处理，得到所述回归特征图像。

根据本发明提供的一种目标跟踪方法，所述融合处理的过程包括：将所述第一子分类特征图像、所述第二子分类特征图像、所述第一子回归特征图像或者所述第二子回归特征图像进行分组处理，得到分组图像特征集合；对所述分组图像特征集合中各个候选分组图像特征进行特征融合，得到各个所述候选分组图像特征对应的中间特征图像；将各个所述中间特征图像进行拼接，得到第一子分类特征图像对应的第一融合特征图像、所述第二子分类特征图像对应的第二融合特征图像、所述第一子回归特征图像对应的第三融合特征图像或者第二子回归特征图像对应的第四融合特征图像。

根据本发明提供的一种目标跟踪方法，所述对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像包括：对所述分类特征图像和所述回归特征图像分别进行横向池化处理，得到横向感知特征图像；以及，对所述分类特征图像和所述回归特征图像分别进行纵向池化处理，得到纵向感知特征图像；对所述横向感知特征图和所述纵向感知特征图进行拼接，得到拼接感知特征图像；

基于所述拼接感知特征图像，得到所述位置特征图像。

根据本发明提供的一种目标跟踪方法，所述对所述位置特征图像进行相关性处理，得到相关特征图像包括：将所述位置特征图像进行区域分割，得到区域特征集合；在所述区域特征集合，对候选区域特征与所述区域特征集合中各个区域特征进行相关性处理，得到相关区域特征集合；将所述候选区域特征与所述相关区域特征集合中相关区域特征进行拼接，得到所述相关特征图像。

根据本发明提供的一种目标跟踪方法，所述基于所述相关特征图像，得到所述目标对象的目标跟踪信息包括：对所述相关特征图像进行卷积处理，分别得到所述目标对象的分类结果特征图和中心度结果特征图；将所述相关特征图像进行卷积处理后，得到目标对象的回归结果特征图；综合所述分类结果特征图、所述中心度结果特征图和所述回归结果特征图，得到所述目标跟踪信息。

本发明还提供一种目标跟踪装置，包括：第一获取模块，用于获取初始特征图像；所述初始特征图像包括目标对象；第一得到模块，用于将所述初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；第二得到模块，用于对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；第三得到模块，用于对所述位置特征图像进行相关性处理，得到相关特征图像；第四得到模块，用于基于所述相关特征图像，得到所述目标对象的目标跟踪信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标跟踪方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述目标跟踪方法的步骤。

本发明提供的目标跟踪方法、装置、电子设备及存储介质，通过获取初始特征图像；该初始特征图像包括目标对象；将该初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对上述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；对位置特征图像进行相关性处理，得到相关特征图像；基于上述相关特征图像，得到目标对象的目标跟踪信息。能够通过得到准确的相关特征图像，得到准确的目标跟踪信息，从而能够提高目标跟踪的精确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标跟踪方法的流程示意图之一；

图2是本发明提供的目标跟踪方法的流程示意图之二；

图3是本发明提供的目标跟踪方法的流程示意图之三；

图4是本发明提供的目标跟踪方法的流程示意图之四；

图5是本发明提供的目标跟踪方法的流程示意图之五；

图6是本发明提供的目标跟踪方法的流程示意图之六；

图7是本发明提供的目标跟踪方法的流程示意图之七；

图8是本发明提供的目标跟踪方法的架构示意图之一；

图9是本发明提供的目标跟踪方法的架构示意图之二；

图10是本发明提供的目标跟踪方法的架构示意图之三；

图11是本发明提供的目标跟踪方法的架构示意图之四；

图12是本发明提供的目标跟踪方法的架构示意图之五；

图13是本发明提供的目标跟踪装置的结构示意图；

图14是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图7描述本发明的目标跟踪方法。

在一个实施例中，如图1所示，提供了一种目标跟踪方法，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤102，获取初始特征图像；该初始特征图像包括目标对象。

其中，目标对象是指在初始特征图像中进行目标跟踪的对象。例如，在无人机的航拍影像中，需要目标跟踪的舰艇。

具体的，服务器通过对获取到的待处理图像进行特征提取，获取初始特征图像。

在一个实施例中，服务器通过在数据集GOT10K、LaSOT、TrackingNet、VID及DET中获取到待处理图像，对该待处理图像进行特征提取，获取初始特征图像。

在一个实施例中，对该待处理图像进行特征提取的主干网络由InceptionA、InceptionB和InceptionC三个子模块组成，在上述InceptionA中，使用2个3*3的卷积代替1个5*5的卷积，可以减少28％的参数量；在InceptionC中，用一个1*7和7*1的卷积替换7*7的卷积核可以减少65.3％的参数量。主干网络输入的待处理图像的维度分别为[3,289,289]和[3,127,127]，经过主干网络之后，输出通道为256的特征图，该特征图的维度分别为[256,5,5]和[256,25,25]。需要说明的是，Inception为一种神经网络结构，InceptionA、InceptionB和InceptionC为不同的Inception模块。

步骤104，将初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像。

具体的，服务器获取初始特征图像之后，可以将该初始特征图像输入到存在两个孪生分支的神经网络中，分别得到每个孪生分支神经网络输出的分类特征图像和回归特征图像。

在一个实施例中，上述每个孪生分支神经网络包括有特征融合网络，服务器对获取到的初始特征图像进行处理后，再经过特征融合网络处理，输出的分类特征图像和回归特征图像。

步骤106，对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像。

具体的，服务器在得到分类特征图像和回归特征图像之后，对该分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像。

在一个实施例中，服务器在得到分类特征图像和回归特征图像之后，将该分类特征图像和回归特征图像输入到位置感知子网络中，得到位置特征图像。

在一个实施例中，位置感知子网络包括池化层、卷积层、BN层以及激活层，分类特征图像和回归特征图像经过上述池化层、卷积层、BN层以及激活层处理后，得到第一处理特征图像，该第一处理特征图像与分类特征图像及回归特征图像组成的特征图像进行加权乘积运算后，得到位置特征图像。可以理解的，上述第一处理特征图像为权重特征图像。

步骤108，对位置特征图像进行相关性处理，得到相关特征图像。

具体的，服务器在得到位置特征图像之后，对该位置特征图像进行相关性处理，得到相关特征图像。

在一个实施例中，服务器将位置特征图像进行分割，得到至少一个图像区域，将每个图像区域看作一个节点，对所有节点中的各个候选节点与其他节点进行相关性处理，得到相关性特征，将该相关性特征与上述候选节点进行拼接，得到相关特征图像。

步骤110，基于相关特征图像，得到目标对象的目标跟踪信息。

其中，目标跟踪信息是指对目标对象进行目标跟踪有关的信息。例如，目标对象的位置和大小等。

具体的，服务器得到相关特征图像之后，可以将相关特征图像输入到卷积网络进行处理，得到目标对象的目标跟踪信息。

在一个实施例中，服务器得到相关特征图像之后，将该相关特征图像分别输入到分类网络和回归网络中，经过分类网络处理后，得到目标对象的分类结果特征图和中心度结果特征图；经过回归网络处理后，得到回归结果特征图。综合分类结果特征图、中心度结果特征图和回归结果特征图，得到目标跟踪信息。

上述目标跟踪方法中，通过获取初始特征图像；该初始特征图像包括目标对象；将该初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对上述分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像；对位置特征图像进行相关性处理，得到相关特征图像；基于上述相关特征图像，得到目标对象的目标跟踪信息。能够通过得到准确的相关特征图像，得到准确的目标跟踪信息，从而能够提高目标跟踪的精确度。

在一个实施例中，如图2所示，上述分类及回归网络包括分类网络和回归网络，将初始特征图像输入到分类回归网络中，分别得到分类特征图像和回归特征图像包括：

步骤202，将初始特征图像输入到分类网络中，得到第一子分类特征图像和第二子分类特征图像；以及，将初始特征图像输入到回归网络中，得到第一子回归特征图像和第二子回归特征图像。

具体的，上述初始特征图像为包含两种维度的特征图像，将两种维度的特征图像输入到分类网络中，得到第一子分类特征图像和第二子分类特征图像；同样的，将两种维度的特征图像输入到回归网络中，得到第一子回归特征图像和第二子回归特征图像。

步骤204，将第一子分类特征图像和第二子分类特征图像分别进行融合处理，得到第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像。

具体的，服务器得到第一子分类特征图像和第二子分类特征图像之后，可以在其后分别添加特征融合网络，通过该融合网络，得到第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像。

步骤206，将第一子回归特征图像和第二子回归特征图像分别进行融合处理，得到第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像。

具体的，服务器得到第一子回归特征图像和第二子回归特征图像之后，可以在其后分别添加特征融合网络，通过该融合网络，得到第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像。

步骤208，将第一融合特征图像和第二融合特征图像进行相关性处理，得到分类特征图像。

具体的，服务器得到第一融合特征图像和第二融合特征图像之后，利用深度互相关，得到分类特征图像。

步骤210，将第三融合特征图像和第四融合特征图像进行相关性处理，得到回归特征图像。

具体的，服务器得到第三融合特征图像和第四融合特征图像之后，利用深度互相关，得到回归特征图像。

本实施例中，通过将初始特征图像输入到分类网络中，得到第一子分类特征图像和第二子分类特征图像；以及，将初始特征图像输入到回归网络中，得到第一子回归特征图像和第二子回归特征图像，将第一子分类特征图像和第二子分类特征图像分别进行融合处理，得到第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像，将第一子回归特征图像和第二子回归特征图像分别进行融合处理，得到第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像，将第一融合特征图像和第二融合特征图像进行相关性处理，得到分类特征图像，将第三融合特征图像和第四融合特征图像进行相关性处理，得到回归特征图像，能够达到准确得到分类特征图像和回归特征图像。

在一个实施例中，如图3所示，上述融合处理的过程包括：

步骤302，将第一子分类特征图像、第二子分类特征图像、第一子回归特征图像或者第二子回归特征图像进行分组处理，得到分组图像特征集合。

具体的，以第一子分类特征图像进行分组处理为例，将该第一子分类特征图像经过1*1卷积处理后，进行分组处理，得到分组图像特征集合。例如，第一子分类特征图像为256*25*25的特征图像，经过1*1卷积处理后，分成四组，每组的分组图像特征为64*25*25。需要说明的是，第二子分类特征图像、第一子回归特征图像和第二子回归特征图像进行分组处理，得到分组图像特征集合的实现过程与第一子分类特征图像进行分组处理过程相同，不再赘述。

步骤304，对分组图像特征集合中各个候选分组图像特征进行特征融合，得到各个候选分组图像特征对应的中间特征图像。

具体的，服务器得到分组图像特征集合之后，利用组合卷积核，对该分组图像特征集合中个各组图像特征对应的中间特征图像。

在一个实施例中，分组图像特征集合表示为{F1,F2,F3,F4}，中间特征图像集合表示为{Y1,Y2,Y3,Y4},利用3*3的卷积对分组图像特征F1进行处理，得到中间特征图像Y1,将分组图像特征F2和中间特征图像Y1相加之后，经过3*3的卷积处理后，得到中间特征图像Y2，以此类推，得到中间特征图像集合{Y1,Y2,Y3,Y4}。假设，将每个分组图像特征经过卷积处理后的结果函数表示为C_i，中间特征图像表示为y_i，则中间特征图像y_i表示为公式：

步骤306，将各个中间特征图像进行拼接，得到第一子分类特征图像对应的第一融合特征图像、第二子分类特征图像对应的第二融合特征图像、第一子回归特征图像对应的第三融合特征图像或者第二子回归特征图像对应的第四融合特征图像。

具体的，以第一子分类特征图像为例，在服务器得到分组图像特征集合之后，将该分组图像特征集合中的各个分组图像特征进行拼接，将拼接之后的分组图像特征，经过1*1卷积处理，得到第一子分类特征图像对应的第一融合特征图像。需要说明的是，第二子分类特征图像对应的第二融合特征图像、第一子回归特征图像对应的第三融合特征图像和第二子回归特征图像对应的第四融合特征图像的过程，与第一融合特征图像的得到过程相同。

本实施例中，通过将第一子分类特征图像、第二子分类特征图像、第一子回归特征图像或者第二子回归特征图像进行分组处理，得到分组图像特征集合，对分组图像特征集合中各个候选分组图像特征进行特征融合，得到各个候选分组图像特征对应的中间特征图像，将各个中间特征图像进行拼接，得到第一子分类特征图像对应的第一融合特征图像、第二子分类特征图像对应的第二融合特征图像、第一子回归特征图像对应的第三融合特征图像或者第二子回归特征图像对应的第四融合特征图像，能够达到准确得到融合特征图像，增强特征表达能力的目的。

在一个实施例中，如图4所示，对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像包括：

步骤402，对分类特征图像和回归特征图像分别进行横向池化处理，得到横向感知特征图像；以及，对分类特征图像和回归特征图像分别进行纵向池化处理，得到纵向感知特征图像。

其中，横向池化是指对分类特征图像沿着X轴方向进行池化；纵向池化是指对分类特征图像沿着Y方向进行池化。

具体的，服务器得到分类特征图像之后，对该分类特征图像在X轴方向上进行一维平均池化后，得到横向感知特征图像；以及，对该分类特征图像在Y轴方向上进行一维平均池化后，得到纵向感知特征图像。

步骤404，对横向感知特征图和纵向感知特征图进行拼接，得到拼接感知特征图像。

具体的，服务器在得到横向感知特征图像和纵向感知特征图像之后，进行concat拼接，得到拼接感知特征图像。可以理解的，concat拼接为直接拼接的拼接方式。

步骤406，基于拼接感知特征图像，得到位置特征图像。

具体的，服务器在得到拼接感知特征图像之后，对该拼接感知特征图像依次输入到二维卷积层、BN层、二维卷积层和激活层处理后，得到特征图像，将该特征图像和上述输入的分类特征图像和回归特征图像进行乘积计算后，得到位置特征图像。

本实施例中，通过对分类特征图像和回归特征图像分别进行横向池化处理，得到横向感知特征图像；以及，对分类特征图像和回归特征图像分别进行纵向池化处理，得到纵向感知特征图像，对横向感知特征图和纵向感知特征图进行拼接，得到拼接感知特征图像，基于拼接感知特征图像，得到位置特征图像，能够达到准确得到位置特征图像的目的。

在一个实施例中，如图5所示，对位置特征图像进行相关性处理，得到相关特征图像包括：

步骤502，将位置特征图像进行区域分割，得到区域特征集合。

具体的，服务器得到位置特征图像后，根据预设尺寸对该回归特征图像进行分割，得到区域特征集合。需要说明的是，分割的每个区域得到的区域特征，可以看作一个节点。

步骤504，在区域特征集合，对候选区域特征与区域特征集合中各个区域特征进行相关性处理，得到相关区域特征集合。

具体的，服务器得到区域特征集合之后，在该区域特征集合中，任意选择一个区域特征作为候选区域特征，与该区域特征集合中的所有区域特征进行相关性处理，得到相关区域特征集合。相关性处理可以通过候选区域特征分别与区域特征集合中各个区域特征进行卷积，得到相关区域特征集合。

步骤506，将候选区域特征与相关区域特征集合中相关区域特征进行拼接，得到相关特征图像。

具体的，服务器在得到相关区域特征集合，将候选区域特征与该相关区域特征集合中的相关区域特征进行拼接，得到相关特征图像。

本实施例中，通过将位置特征图像进行区域分割，得到区域特征集合，在区域特征集合，对候选区域特征与区域特征集合中各个区域特征进行相关性处理，得到相关区域特征集合，将候选区域特征与相关区域特征集合中相关区域特征进行拼接，得到相关特征图像，能够达到准确得到相关特征图像的目的。

在一个实施例中，如图6所示，基于相关特征图像，得到目标对象的目标跟踪信息包括：

步骤602，将相关特征图像输入到所述分类网络中进行卷积处理，分别得到目标对象的分类结果特征图和中心度结果特征图。

其中，分类结果是指能够将目标对象从初始图像特征中分离出来的结果。例如，分类结果是图像的前景或者背景概率等。中心度结果是指目标对象远离图像中心的程度，越远离图像中心，中心度结果越差；越靠近图像中心，中心度结果越好。

具体的，服务器在得到相关特征图像之后，通过2个3*3卷积处理后，再分别输入到两个卷积网络中，通过两个卷积网络处理后，分别得到具有前景特征和背景特征的目标对象的分类结果特征图，以及中心度结果特征图。

步骤604，将相关特征图像输入到所述回归网络中进行卷积处理后，得到目标对象的回归结果特征图。

具体的，服务器在得到相关特征图像之后，将其输入到所述回归网络中进行卷积处理后，得到包括有四个距离指标的回归结果特征图。其中的四个距离指标分别为目标对象所在区域位置距离目标边框四边的距离，根据该四个距离指标以及目标对象所在区域位置，得到目标对象的回归结果特征图。

步骤606，综合分类结果特征图、中心度结果特征图和回归结果特征图，得到目标跟踪信息。

具体的，服务器在得到目标对象的分类结果特征图、中心度结果特征图和回归结果特征图之后，综合考虑各个结果特征图，对各个结果特征图后处理后，得到携带有目标对象位置和大小的目标跟踪信息，从而确定跟踪的目标对象。

本实施例中，通过将相关特征图像通过分类网络进行卷积处理，得到目标对象的分类结果特征图和中心度结果特征图；将相关特征图像输入到回归网络中进行卷积处理后，得到目标对象的回归结果特征图，综合分类结果特征图、中心度结果特征图和回归结果特征图，得到目标跟踪信息，能够达到准确确定目标跟踪信息的目的。

在一个实施例中，如图7所示，以无人机航拍影像目标跟踪为例。具体的，首先搭建无人机航拍影像目标跟踪网络，该网络整体架构包括特征提取主干网络、内部特征融合网络和全局位置感知网络。其中，特征提取主干网络提取到的特征图像用于输入到孪生网络中进行特征提取，在保障特征提取能力的同时显著降低模型的计算复杂度；内部特征融合模块用于增强特征表达能力；全局位置感知在捕获特征全局依赖的同时得到特征中目标的方向和位置信息。构建完成上述目标跟踪网络之后，根据网络训练策略，以及迭代训练，获取相应的损失函数。将训练好的网络作为目标跟踪的使用网络，在无人机低空航拍影像目标跟踪阶段，使用训练并优化好的全局位置感知目标跟踪网络，指定航拍影像中初始帧中需要跟踪的目标，将航拍影像以图像帧的方式送入跟踪网络，对后续帧中目标的位置和大小进行预测，完成目标跟踪。

在一个实施例中，上述网络训练策略具体的为，利用公开的跟踪数据集GOT10K、LaSOT、TrackingNet、VID及DET训练上述搭建的无人机低空航拍影像目标跟踪网络。参考图像和搜索图像分别设置为127个像素和289个像素。可以利用InceptionV3预训练模型对上述本实施例的所提出的网络进行初始化，然后重新训练网络。在训练过程中，batchsize(一次训练所利用的样本数)设置为32，采用SGD(梯度下降法)对网络进行优化，共训练30轮。在进行第一轮训练时，SGD优化器的初始学习率为0.000001，结束学习率为0.08；剩余的29轮训练中，SGD优化器的初始学习率和结束学习率分别为0.08、0.000001。在前15轮训练中对本发明的主干网络进行固化，对网络的其余部分进行训练，在剩下的15轮训练中将主干网络进行解冻和其余部分一块进行训练。由于网络可以进行端到端的训练，本实施例中的网络不需要设定繁杂的超参数，减少了人为干预。

在一个实施例中，上述网络中的损失函数的确定具体为，网络整体结构分为分类分支网络、中心度分支网络和回归分支网络。分类分支网络对航拍影像中的背景和前景进行分类，保证的目标跟踪算法可以在出现相似物干扰时对目标进行分类；回归分支网络对航拍影像后续视频帧中目标的位置和大小进行预测并回归；中心度分支网络降低距离目标中心较远像素点对网络分类分支性能的不利影响。本发明在训练过程中使用损失函数L_total进行网络的优化，损失函数L_total表示为公式：

L_total＝L_cls+λ₁L_cen+λ₂L_reg (2)

具体的，其中的，L_cls表示分类损失，L_cen表示中心度损失，L_reg表示回归损失，中心度损失L_cen表示为公式：

其中，S(x,y)为中心度的计算公式，f(t_(x,y))为中心度参数。

回归损失L_reg表示为公式：

其中，B表示目标跟踪预测的目标框，B*为真实的目标框。

其中，S(x,y)和f(t_(x,y))的计算公式表示为：

其中，l表示预测的目标对象位置距离目标框左侧边缘距离，r表示预测的目标对象位置距离目标框右侧边缘距离，t表示预测的目标对象位置距离目标框上侧边缘距离，b表示预测的目标对象位置距离目标框下侧边缘距离，分类损失L_cls为交叉熵损失。

具体的，网络整体结构中每层参数如下表1所示：

表1网络整体结构中每层参数

在一个实施例中，如图8所示，将尺寸为127×127的参考图像，以及尺寸为289×289的搜索图像输入到上述特征提取主干网络，进行特征提取后，输入到孪生网络中，该孪生网络的每一个分支均包括分类分支网络cls、回归分支网络reg和内部融合网络IFC，该内部融合网络IFC能够对输入的特征进行增强，并将特征输出到全局位置感知模块中，获取对全局的特征依赖关系、目标位置及方向信息。可以理解的，全局位置感知模块包括了位置感知子模块和全局感知子模块，其中位置感知子模块将处理后的特征输出到全局感知子模块中，经过全局感知子模块对特征进行相关性处理后，输入到上述分类分支网络中后，得到分类结果特征图像以及中心度结果特征图像；同时，输入到回归分支网络中，得到回归结果特征，综合分类结果特征图像、中心度结果特征图像和回归结果特征图像，能够得到特征图像中的目标对象的方向特征和位置信息特征，将得到的目标对象的方向和位置信息进行后处理后，得到跟踪目标对象的位置和大小信息。

在一个实施例中，如图9所示，为特征提取主干网络的具体结构。具体的，特征提取主干网络由3个InceptionA、1个InceptionB和4个InceptionC三个子模块组成。在InceptionA中，使用2个3×3的卷积代替1个5*5的卷积，可以减少28％的参数量，在InceptionC中，用一个1*7和7*1的卷积替换7*7的卷积核可以减少65.3％的参数量。主干网络输入的搜索帧维度为[3,289,289]，参考帧维度为[3,127,127]，经过主干网络之后，输出通道为256的特征图。可以理解的，输出的通道为256的特征图，作为图8中cls或者reg的输入。分别将尺寸为127×127的参考图像，以及尺寸为289×289的搜索图像作为该特征提取主干网络的输入时，输出特征图维度分别为256*5*5，256*25*25，分别将该两种维度的图像作为图8中两个孪生网络分支的输入，即维度为256*5*5的特征图作为一个孪生分支网络，该孪生分支网络由分类分支网络cls和回归分支网络reg组成。维度为256*25*25的特征图作为另一个孪生分支网络主干网络进行特征提取的输入。本实施例中方法可以表示为公式：

其中，x,z分别代表搜索图像和参考图像，

表示特征提取主干网络，φ_i表示内部特征融合网络，特征图经过调整之后在分类分支网络cls和回归分支网络reg上是一致的，*表示深度互相关操作，即图9中的星号。该主干网络每层参数如表2所示。Mixed5b、Mixed5c及Mixed5d由InceptionA组成，Mixed6a由InceptionB组成，Mixed6b、Mixed6c、Mixed6d及Mixed6e由InceptionC组成。

表2主干网络中每层参数

在一个实施例中，如图10所示，内部特征融合网络IFC的具体结构。具体每层参数如表3所示。该特征融合结构由2个1*1卷积和4个3*3卷积，分别为Conv21、Conv22、Conv23和Conv24组成。满足如下公式：

n＝s×w (8)

n为分类分支网络或者回归分支网络上特征图通道数，s为所分组数，w为卷积组通道数。例如，输入为维度n为256的特征图像，分了分组数s为4组，则卷积组通道数w为64。具体的，从分类分支网络cls或者回归分支网络reg输出的特征图像通过1*1卷积处理后，分解成四组，假设输入的特征图像的维度为256，则每组的特征图像的维度为64。卷积组C_i可以接收到之前的特征图组F_i，每当F_i经过一个C_i，输出的特征图的感受野就会更大，再经过所有的分组卷积后，将输出y_i级联，并利用1*1的二维卷积进行融合。本实施例中的内部特征融合网络有效地对分类及回归分支上的特征进行多尺度融合，使得跟踪器分类网络和回归网络性能得到提升，达到增强特征的表达能力的效果。

表3内部特征融合网络中每层参数

在一个实施例中，如图11所示，全局位置感知网络中的位置感知子模块，对特征图中目标位置信息进行增强，得到一对方向感知特征图，在得到沿着一个空间方向的依赖关系的同时保存了沿着另一个空间方向的精确位置信息。使用一对一维平均池化操作来对每个通道进行特征编码，沿X轴和Y轴两个方向聚合特征，分别得到在X、Y方向上的方向感知特征图。考虑到全局池化难以保存目标位置信息，在利用池化操作对通道进行编码的时候，本发明将全局池化操作转化为上面所说的一对一维平均池化，池化的内核尺寸分别为(H，1)，(1，W)，则全局池化z_c，沿Y轴方向池化

以及沿X轴方向池化

表示为公式：

具体的，公式(10)表示特征图中高为h的通道的输出，公式(11)表示特征图中宽为w的通道的输出。通过上述转换公式得到一对方向感知特征图，在得到沿着一个空间方向的依赖关系的同时保存沿着另一个空间方向的精确位置信息。通过位置感知子模块，全局感知模块可以更准确的定位到感兴趣的目标。如图12所示，在全局关系感知子模块中，将特征图中的每个位置视为一个节点，通过卷积来得到节点之间的相关特征，将原特征与相关特征进行concat拼接后得到全局相关特征图。全局位置感知网络中每层参数如下表4所示。

表4全局位置感知网络中每层参数

下面对本发明提供的目标跟踪装置进行描述，下文描述的目标跟踪装置与上文描述的目标跟踪方法可相互对应参照。

在一个实施例中，如图13所示，提供了一种目标跟踪装置1300，包括：第一获取模块1302、第一得到模块1304、第二得到模块1306、第三得到模块1308和第四得到模块1310，其中：第一获取模块1302，用于获取初始特征图像；初始特征图像包括目标对象；第一得到模块1304，用于将初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；第二得到模块1306，用于对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像；第三得到模块1308，用于对位置特征图像进行相关性处理，得到相关特征图像；第四得到模块1310，用于基于相关特征图像，得到目标对象的目标跟踪信息。

在一个实施例中，分类及回归网络包括分类网络和回归网络，第一得到模块1304，用于将初始特征图像输入到分类网络中，得到第一子分类特征图像和第二子分类特征图像；以及，将初始特征图像输入到回归网络中，得到第一子回归特征图像和第二子回归特征图像；将第一子分类特征图像和第二子分类特征图像分别进行融合处理，得到第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像；将第一子回归特征图像和第二子回归特征图像分别进行融合处理，得到第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像；将第一融合特征图像和第二融合特征图像进行相关性处理，得到分类特征图像；将第三融合特征图像和第四融合特征图像进行相关性处理，得到回归特征图像。

在一个实施例中，第一得到模块1304，用于将第一子分类特征图像、第二子分类特征图像、第一子回归特征图像或者第二子回归特征图像进行分组处理，得到分组图像特征集合；对分组图像特征集合中各个候选分组图像特征进行特征融合，得到各个候选分组图像特征对应的中间特征图像；将各个中间特征图像进行拼接，得到第一子分类特征图像对应的第一融合特征图像、第二子分类特征图像对应的第二融合特征图像、第一子回归特征图像对应的第三融合特征图像或者第二子回归特征图像对应的第四融合特征图像。

在一个实施例中，第二得到模块1306，用于对分类特征图像和回归特征图像分别进行横向池化处理，得到横向感知特征图像；以及，对分类特征图像和回归特征图像分别进行纵向池化处理，得到纵向感知特征图像；对横向感知特征图和纵向感知特征图进行拼接，得到拼接感知特征图像；基于拼接感知特征图像，得到位置特征图像。

在一个实施例中，第三得到模块1308，用于将位置特征图像进行区域分割，得到区域特征集合；在区域特征集合，对候选区域特征与区域特征集合中各个区域特征进行相关性处理，得到相关区域特征集合；将候选区域特征与相关区域特征集合中相关区域特征进行拼接，得到相关特征图像。

在一个实施例中，第四得到模块1310，用于将位置特征图像进行卷积处理，分别得到对述目标对象的分类结果特征图和中心度结果特征图；将相关特征图像进行卷积处理后，得到目标对象的回归结果特征图；综合分类结果特征图、中心度结果特征图和回归结果特征图，得到目标跟踪信息。

图14示例了一种电子设备的实体结构示意图，如图14所示，该电子设备可以包括：处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430和通信总线1440，其中，处理器1410，通信接口1420，存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令，以执行上述各方法所提供的目标跟踪方法，该方法包括：获取初始特征图像；初始特征图像包括目标对象；将初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像；对位置特征图像进行相关性处理，得到相关特征图像；基于相关特征图像，得到目标对象的目标跟踪信息。

此外，上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标跟踪方法，该方法包括：获取初始特征图像；初始特征图像包括目标对象；将初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像；对位置特征图像进行相关性处理，得到相关特征图像；基于相关特征图像，得到目标对象的目标跟踪信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标跟踪方法，该方法包括：获取初始特征图像；初始特征图像包括目标对象；将初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；对分类特征图像和回归特征图像进行位置信息处理，得到位置特征图像；对位置特征图像进行相关性处理，得到相关特征图像；基于相关特征图像，得到目标对象的目标跟踪信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取初始特征图像；所述初始特征图像包括目标对象；

将所述初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；

对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；

对所述位置特征图像进行相关性处理，得到相关特征图像；

基于所述相关特征图像，得到所述目标对象的目标跟踪信息。

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述分类及回归网络包括分类网络和回归网络，所述将所述初始特征图像输入到分类回归网络中，分别得到分类特征图像和回归特征图像包括：

将所述初始特征图像输入到所述分类网络中，得到第一子分类特征图像和第二子分类特征图像；以及，将所述初始特征图像输入到所述回归网络中，得到第一子回归特征图像和第二子回归特征图像；

将所述第一子分类特征图像和所述第二子分类特征图像分别进行融合处理，得到所述第一子分类特征图像对应的第一融合特征图像，以及，得到第二子分类特征图像对应的第二融合特征图像；

将所述第一子回归特征图像和所述第二子回归特征图像分别进行所述融合处理，得到所述第一子回归特征图像对应的第三融合特征图像，以及，得到第二子回归特征图像对应的第四融合特征图像；

将所述第一融合特征图像和所述第二融合特征图像进行相关性处理，得到所述分类特征图像；

将所述第三融合特征图像和所述第四融合特征图像进行所述相关性处理，得到所述回归特征图像。

3.根据权利要求2所述的目标跟踪方法，其特征在于，所述融合处理的过程包括：

将所述第一子分类特征图像、所述第二子分类特征图像、所述第一子回归特征图像或者所述第二子回归特征图像进行分组处理，得到分组图像特征集合；

对所述分组图像特征集合中各个候选分组图像特征进行特征融合，得到各个所述候选分组图像特征对应的中间特征图像；

将各个所述中间特征图像进行拼接，得到第一子分类特征图像对应的第一融合特征图像、所述第二子分类特征图像对应的第二融合特征图像、所述第一子回归特征图像对应的第三融合特征图像或者第二子回归特征图像对应的第四融合特征图像。

4.根据权利要求1所述的目标跟踪方法，其特征在于，所述对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像包括：

对所述分类特征图像和所述回归特征图像分别进行横向池化处理，得到横向感知特征图像；以及，对所述分类特征图像和所述回归特征图像分别进行纵向池化处理，得到纵向感知特征图像；

对所述横向感知特征图和所述纵向感知特征图进行拼接，得到拼接感知特征图像；

基于所述拼接感知特征图像，得到所述位置特征图像。

5.根据权利要求1所述的目标跟踪方法，其特征在于，所述对所述位置特征图像进行相关性处理，得到相关特征图像包括：

将所述位置特征图像进行区域分割，得到区域特征集合；

在所述区域特征集合，对候选区域特征与所述区域特征集合中各个区域特征进行相关性处理，得到相关区域特征集合；

将所述候选区域特征与所述相关区域特征集合中相关区域特征进行拼接，得到所述相关特征图像。

6.根据权利要求1至5任一项所述的目标跟踪方法，其特征在于，所述基于所述相关特征图像，得到所述目标对象的目标跟踪信息包括：

将所述相关特征图像输入到所述分类网络中进行卷积处理，分别得到所述目标对象的分类结果特征图和中心度结果特征图；

将所述相关特征图像输入到所述回归网络中进行卷积处理后，得到目标对象的回归结果特征图；

综合所述分类结果特征图、所述中心度结果特征图和所述回归结果特征图，得到所述目标跟踪信息。

7.一种目标跟踪装置，其特征在于，包括：

第一获取模块，用于获取初始特征图像；所述初始特征图像包括目标对象；

第一得到模块，用于将所述初始特征图像输入到分类及回归网络中，分别得到分类特征图像和回归特征图像；

第二得到模块，用于对所述分类特征图像和所述回归特征图像进行位置信息处理，得到位置特征图像；

第三得到模块，用于对所述位置特征图像进行相关性处理，得到相关特征图像；

第四得到模块，用于基于所述相关特征图像，得到所述目标对象的目标跟踪信息。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述目标跟踪方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述目标跟踪方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述目标跟踪方法的步骤。