CN113269808A

CN113269808A - 视频小目标跟踪方法和装置

Info

Publication number: CN113269808A
Application number: CN202110478239.XA
Authority: CN
Inventors: 陈震中; 郭雨佳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-17
Anticipated expiration: 2041-04-30
Also published as: CN113269808B

Abstract

本发明提出的小目标跟踪方法和装置，包括模型训练阶段、目标跟踪阶段和模型更新阶段。模型训练阶段进行包含自我注意力模块在内的整个跟踪模型中卷积神经网络参数的确定；跟踪阶段依据训练好的模型进行目标位置的持续检测；模型更新阶段是在满足预设条件时，对跟踪模型不同模块的参数进行更新，以保证持续准确鲁棒的跟踪效果。本发明结合运动目标多重特征执行目标跟踪过程，具有更高的抗干扰能力和鲁棒性，并且通过卷积神经网络所构建的自我注意力模块，获取每一种特征响应图对应的权重图，将传统的单一融合系数拓展为与响应图大小一致的二维融合系数矩阵(称之为“注意力图”)，使得特征融合更加精准，对不同场景下的跟踪具有更强的适应性。

Description

视频小目标跟踪方法和装置

技术领域

本发明涉及目标跟踪领域，特别涉及视频小目标跟踪方法和装置。

背景技术

视频目标跟踪是计算机视觉领域的重要研究问题之一，它主要使计算机通过模仿人类生理视觉系统的运动感知功能，利用视频序列时间和空间上的相关性，将视频中运动的目标分割出来，并对目标进行帧间关联，进而提取动态信息，自动获取运动目标在视频每一帧中的平面位置信息并计算目标的轨迹的过程。当前常用的目标跟踪方法一般分为三步：(1)提取当前帧目标及周围环境的某种图像学特征；(2)将所提取的特征与上一帧或第一帧中目标所在位置的特征进行匹配，得到一幅响应图；(3)寻找响应图峰值，作为当前帧目标所在的位置。从视频的第二帧开始，重复进行这三步，即可完成对一段视频中某个运动目标的跟踪。

小目标跟踪与一般目标跟踪相比具有较大的挑战，主要包括：(1)影像宽幅相对较大、目标与背景对比度低；(2)目标尺寸小，特征和纹理稀少；(3)固定范围内存在目标数量较多，目标与目标、目标与背景之间的可区分性差，彼此相似性较高、相互干扰严重的情况。

这些挑战使得小目标的特征提取较为困难，跟踪鲁棒性差，当目标运动至与背景相似的位置或与其他相似目标相遇时，常常容易出现“跟丢”而导致跟踪失败的情况。为了获得较高的跟踪准确性和鲁棒性，目前针对这一类型的目标跟踪方法较多都采用外观模型与运动模型相结合的方法，而两个模型的融合一般是使用固定的经验参数对其各自的跟踪响应图进行加权求和，或使用一些简单的数学指标作为加权依据。这类融合方法对于简单单一场景的目标跟踪具有较好的效果，而对于一些较为复杂的场景，经验参数难以确定，数学指标的自适应能力相对较差，在目标的外观模型或运动模型面临变化时，难以准确地给出合适的权重。除此之外，这两种融合方法对于每一次跟踪过程仅对应单一的融合系数，其融合仅在图像层面上，难以做到像素层面的加权融合。

发明内容

本发明针对现有技术的不足，提供一种基于多重特征和自我注意力机制的小目标跟踪方法和装置，对不同特征实现像素级自适应加权融合，从而更加稳定准确地实现小目标跟踪。本发明提出的小目标跟踪方法包括模型训练、目标跟踪和模型更新三个阶段，首先根据初始帧及其对应的响应图对跟踪模型进行参数训练，得到跟踪模型中各个参数的数值，再利用训练好的跟踪模型，逐帧提取目标的外观特征和运动特征进行目标跟踪，在跟踪过程中，满足一定条件时，对跟踪模型进行更新。

为了达到上述目的，本发明提供的技术方案是一种视频小目标跟踪方法，包括模型训练、目标跟踪、模型更新三个阶段，具体包括以下步骤：

1.所述模型训练阶段构建基于多重特征和自我注意力模块的深度学习网络模型，用于小目标运动场景下的目标跟踪，并通过训练模型确定网络参数，包含以下步骤：

步骤1.1，读入视频第1帧图像并进行预处理；

步骤1.2，对第1帧图像生成训练时需要的“真实”响应图标签中的二维高斯响应图；

步骤1.3，构建外观特征对应的网络模型(称为“外观模型”)，并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练；

步骤1.4，逐帧读入视频的第2～n帧图像并进行预处理，利用训练好的外观模型进行跟踪，得到第n帧目标的位置；

步骤1.5，对第n帧生成训练时需要的“真实”响应图标签，即二维高斯响应图和0-1掩膜响应图；

步骤1.6，通过第1帧图像和第n帧图像获取光流信息，并转化为能被可视化的RGB模式的3通道光流图像；

步骤1.7，构建运动特征对应的网络模型(称为“运动模型”)，并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练；

步骤1.8，将第n帧图像输入步骤1.3中训练好的外观模型，获得第n帧图像对应的外观响应图；

步骤1.9，将步骤1.6中提取的3通道光流图像输入步骤1.7中训练好的运动模型，获得第n帧图像的运动响应图；

步骤1.10，构建自我注意力模块，以步骤1.8中获得的第n帧图像对应的外观响应图和步骤1.9中获得的运动响应图作为输入，第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练；

2.所述目标跟踪阶段进行目标位置的持续检测，由于步骤1.4中已完成第2～n帧的跟踪过程，因此本阶段的跟踪过程从第n+1帧开始，具体包含以下步骤：

步骤2.1，读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧)，并进行预处理；

步骤2.2，将步骤2.1中经过预处理的后一帧图像输入训练好的外观模型，得到外观响应图；

步骤2.3，将步骤2.1中经过预处理的两帧图像使用与步骤1.6相同的方法进行光流提取，得到3通道光流图像；

步骤2.4，将步骤2.3中得到的3通道光流图像输入训练好的运动模型，得到运动响应图；

步骤2.5，将步骤2.2和步骤2.4中获得的两幅响应图输入训练好的自我注意力模块，计算得到两幅对应的注意力图；

步骤2.6，将步骤2.2和步骤2.4中获得的两幅响应图与步骤2.5中获得的两幅注意力图分别相乘再相加，得到最终的响应图，响应图峰值对应的即为目标所在的位置；

3.所述模型更新阶段进行跟踪模型参数的更新，包含以下步骤：

步骤3.1，步骤2完成一帧图像的跟踪后，当满足一定条件时，以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调；

步骤3.2，步骤2完成一帧图像的跟踪后，当满足一定条件时，以当前帧的图像和目标位置生成的掩膜响应图作为真实标签对运动模型的参数进行微调；

步骤3.3，步骤2完成一帧图像的跟踪后，当满足一定条件时，以当前帧的外观响应图，运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。

而且，所述步骤1.1中预处理包括以当前帧目标的位置为中心进行图像裁剪和上采样。

而且，所述步骤1.2中二维高斯响应图的生成包括以下步骤：

步骤1.2.1，计算包含目标的搜索区域的尺寸：

[w，h]＝[w_obj，h_obj]*padding (1)

其中，w，h分别为矩形搜索区域的宽和高，w_obj，h_obj分别为目标的宽和高，padding为固定系数。

步骤1.2.2，以目标位置为中心生成二维高斯响应图：

其中，σ是二维高斯分布的方差(x方向和y方向相等)，也是二维高斯响应图的投影半径，其值由目标的大小和常量α决定。

而且，所述步骤1.3构建外观模型，并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练。外观模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.3.1，特征提取模块选用公开数据集预训练好的分类网络模型，将经过预处理的第1帧图像输入该模块进行特征提取，输出外观特征向量；

步骤1.3.2，响应图回归模块由一个1×1×c1的卷积神经网络和h_obj×w_obj×1的卷积神经网络构成，将步骤1.3.1提取好的外观特征输入该模块进行外观响应图回归，输出外观响应图；

步骤1.3.3，结合步骤1.3.2中生成的第1帧对应的外观响应图和步骤1.2中生成的第1帧对应的二维高斯响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数进行训练。

而且，所述步骤1.4对视频的第2～n帧利用训练好的外观模型进行跟踪，得到第n帧目标的位置。具体地，从第2帧开始读入图像，以前一帧中目标所在位置为中心进行裁剪和上采样操作，然后将经过处理的图像输入训练好的外观模型，计算外观响应图，目标的位置取外观响应图最大值对应的位置，然后进入下一帧的跟踪过程，直至获得第n帧中目标的位置。

而且，所述步骤1.5中高斯响应图的生成方式与步骤1.2保持一致，0-1掩膜图的生成方式为：以目标位置为中心生成0-1掩膜响应图，目标所在区域的值为1，其余区域值为0，这一过程可以表示为：

其中，S_obj代表目标所在的区域，(x_obj，y_obj)是目标中心点的位置。

而且，所述步骤1.6通过第1帧和第n帧图像获得3通道的光流图像，具体步骤如下：

步骤1.6.1，将第1帧和第n帧经过预处理的图像利用光流提取方法提取2通道光流信息；

步骤1.6.2，将2通道的光流信息进行颜色编码，转化为能被可视化的RGB模式的3通道光流图像。

而且，所述步骤1.7构建运动模型，并基于步骤1.6中获得的3通道光流图像和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练。运动模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.7.1，特征提取模块的构成和步骤1.3.1中的一致，将步骤1.6中获得的3通道光流图像输入该模块进行运动特征提取，输出运动特征向量；

步骤1.7.2，与步骤1.3.2一样，将提取的运动特征输入卷积核尺寸分别为1×1×c1的卷积神经网络和h_obj×w_obj×1的两层卷积神经网络串联组成响应图回归模块，进行运动响应图回归，输出第n帧对应的运动响应图；

步骤1.7.3，利用步骤1.5得到第n帧对应的0-1掩膜响应图，结合步骤1.7.2中生成的第n帧的对应的运动响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数进行训练。

而且，所述步骤1.10中自我注意力模块由3层卷积核尺寸分别为3×3×c2，3×3×c3，3×3×2的卷积神经网络与1层softmax激活函数构成，其训练的具体步骤如下：

步骤1.10.1，将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1～n帧图像对应的运动响应图堆叠后一起输入自我注意力模块，得到外观注意力图Attention_A和运动注意力图Attention_M。该模块的初始参数采用服从0均值高斯分布的随机值；

步骤1.10.2，将步骤1.8中得到的外观响应图

和步骤1.9中得到的运动响应图

利用步骤1.10.1得到的两幅注意力图分别相乘再相加，得到最终响应图Response_final，该过程可以表示为：

步骤1.10.3，利用步骤1.5中生成的第n帧图像的二维高斯响应图，结合步骤1.10.2中生成的最终响应图，以二者的均方误差最小作为训练目标，对自我注意力模块的参数进行训练。

而且，所述步骤2.5中注意力图的生成过程与步骤1.10.1一致(参数不重新初始化)。

而且，所述步骤2.6中最终响应图的生成过程与步骤1.10.2一致，目标的位置取最终响应图最大值对应的位置。

而且，所述步骤3.1中外观模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (21)

max(Response_A_t)＞thre_A (22)

即，从第1帧起，每Δt帧判断当前第t帧的外观响应图Response_A_t的最大值是否超过设定的阈值thre_A。如果是，则使用第t帧的外观响应图Response_A_t和二维高斯响应图Gaussian_map_t(生成过程参照步骤1.2)，对外观模型中的回归模型的参数更新，更新的具体过程与步骤1.3一致。

而且，所述步骤3.2中运动模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (24)

max(Response_M_t)＞thre_M (25)

即，从第1帧起，每Δt帧判断当前第t帧的运动响应图Response_M_t的最大值是否超过设定的阈值thre_M。如果是，则使第t帧的运动响应图Response_M_t和0-1掩膜响应图Mask_map_t(生成过程参照步骤1.5)，对运动模型中的回归模型的参数更新，更新的具体过程与步骤1.7一致。

而且，所述步骤3.3中自我注意力模块的更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (27)

max(Reponse_final_t)＞thre_final (28)

即，从第1帧起，每Δt帧判断当前第t帧的最终响应图Response_final_t的最大值是否超过设定的阈值thre_final。如果是，则使用第t帧的最终响应图Response_final_t和二维高斯响应图Gaussian_map_t(生成过程参照步骤1.2)，对自我注意力模块的参数更新，更新的具体过程与步骤1.10一致。

本发明还提供一种基于多重特征和自我注意力模块的小目标跟踪装置，包括模型训练模块、目标跟踪模块和模型更新三个模块，具体子模块如下：

所述模型训练模块用于构建跟踪模型，并进行模型中卷积神经网络参数的训练，包含以下子模块：

图像预处理子模块，读入第1帧图像，并进行预处理；

二维高斯响应图生成子模块，用于生成外观模型训练过程中第1帧图像对应的“真实”响应图中的二维高斯响应图；

外观模型训练子模块，构建与外观特征对应的网络模型(称为“外观模型”)，并基于第1帧图像和对应的二维高斯响应图进行外观模型参数的训练；

局部跟踪子模块，逐帧读入视频的第2～n帧图像并进行预处理，利用训练好的外观模型进行跟踪，得到第n帧目标的位置；

“真实”响应图生成子模块，用于生成模型训练过程中第n帧图像对应的“真实”响应图，即二维高斯响应图和0-1掩膜响应图；

光流提取子模块，对经过预处理的第1帧和第n帧图像提取光流信息，并转化为能被可视化的RGB模式的3通道光流图像；

运动模型训练子模块，构建与运动特征对应的网络模型(称为“运动模型”)，对视频的第2～n帧利用训练好的外观模型进行跟踪，得到第n帧目标的位置，并基于光流提取子模块提取的3通道光流图像和“真实”响应图生成子模块得到的第n帧图像对应的0-1掩膜响应图进行运动模型参数的训练；

外观响应图计算子模块，将经过预处理的图像输入训练好的外观模型，计算第n帧图像对应的外观响应图；

运动响应图计算子模块，将3通道光流图像输入训练好的运动模型，计算第n帧图像的运动响应图；

自我注意力模块训练子模块，以获得的第n帧图像对应的外观响应图和运动响应图作为输入，第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练；

所述目标跟踪模块用于运动目标位置的持续检测，由于运动模型训练子模块中已完成第2～n帧的跟踪过程，因此本阶段的跟踪过程从第n+1帧开始，具体包含以下子模块：

图像预处理子模块，读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧)，并进行预处理；

外观响应图计算子模块，将经过预处理的后一帧图像输入训练好的外观模型，计算对应的外观响应图；

光流提取子模块，对经过预处理的两帧图像进行光流提取，得到3通道光流图像；

运动响应图计算子模块，将3通道光流图像输入训练好的运动模型，计算对应的运动响应图；

注意力图生成子模块，将外观响应图和运动响应图输入训练好的自我注意力模块，得到两幅对应的注意力图；

目标位置检测子模块，将两幅特征响应图与两幅注意力图分别相乘再相加，计算最终的响应图，响应图峰值对应的即为目标所在的位置；

所述模型更新模块用于跟踪模型参数的更新，包含以下子模块：

外观模型更新子模块，在目标跟踪模块完成一帧图像的跟踪后，当满足一定条件时，以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调；

运动模型更新子模块，在目标跟踪模块完成一帧图像的跟踪后，当满足一定条件时，以当前帧的图像和目标位置生成的0-1掩膜响应图作为真实标签对运动模型的参数进行微调；

自我注意力模块更新子模块，在目标跟踪模块完成一帧图像的跟踪后，当满足一定条件时，以当前帧的外观响应图，运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。

而且，所述二维高斯响应图生成子模块中高斯响应图的生成方式如下：

步骤1.2.1，计算包含目标的搜索区域的尺寸：

[w，h]＝[w_obj，h_obj]*padding (1)

步骤1.2.2，以目标位置为中心生成二维高斯响应图：

而且，所述外观模型训练子模块中构建外观模型，并通过提取外观特征回归外观响应图来进行外观模型参数的训练。外观模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.3.2，响应图回归模块由一个1×1×c1的卷积神经网络和h_obj×w_obj×1的卷积神经网络构成，将提取好的外观特征输入该模块进行外观响应图回归，输出外观响应图；

步骤1.3.3，结合步骤1.3.2中生成的第1帧对应的外观响应图和“真实”响应图生成子模块中生成的第1帧对应的二维高斯响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数进行训练。

而且，所述局部跟踪子模块中，对视频的第2～n帧利用训练好的外观模型进行跟踪，得到第n帧目标的位置。具体地，从第2帧开始读入图像，以前一帧中目标所在位置为中心进行裁剪和上采样操作，然后将经过处理的图像输入训练好的外观模型，计算外观响应图，目标的位置取外观响应图最大值对应的位置，然后进入下一帧的跟踪过程，直至获得第n帧中目标的位置。

而且，所述“真实”响应图生成子模块中，二维高斯响应图的生成方式与高斯响应图生成子模块保持一致，0-1掩膜图的生成方式为：以目标位置为中心生成0-1掩膜响应图，目标所在区域的值为1，其余区域值为0，这一过程可以表示为：

而且，所述光流提取子模块中通过对相隔为n-1的两帧图像计算3通道光流图像，具体步骤如下：

步骤1.6.1，将相隔n-1的两帧经过预处理的图像利用光流提取方法提取2通道的光流信息；

而且，所述运动模型训练子模块构建运动模型，并通过对3通道光流提取运动特征回归运动响应图来进行运动模型参数的训练。运动模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.7.2，与步骤1.3.2一样，将提取的运动特征输入卷积核尺寸分别为1×1×c1和h_obj×w_obj×1的两层卷积神经网络串联组成响应图回归模块，进行运动响应图回归，输出第n帧对应的运动响应图；

步骤1.7.3，利用“真实”响应图生成子模块中得到的第n帧对应的0-1掩膜响应图，结合步骤1.7.2中生成的第n帧的对应的运动响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数进行训练。

而且，所述自我注意力模块训练子模块中，自我注意力模块由3层卷积核尺寸分别为3×3×c2，3×3×c3，3×3×2的卷积神经网络与1层softmax激活函数构成，训练的具体步骤如下：

步骤1.10.1，将外观响应图生成子模块中得到的第n帧图像对应的外观响应图和运动响应图生成子模块中得到的第1帧和第n帧图像对应的运动响应图堆叠后一起输入自我注意力模块，得到外观注意力图Attention_A和运动注意力图Attention_M；

步骤1.10.2，将外观响应图生成子模块中得到的外观响应图

和运动响应图生成子模块中得到的运动响应图

步骤1.10.3，对第n帧图像执行“真实”响应图生成子模块，生成对应的二维高斯响应图Gaussian_map_n，结合步骤1.10.2中生成的最终响应图，以二者的均方误差最小作为训练目标，对自我注意力模块的参数进行训练。

而且，所述注意力图生成子模块中注意力图的生成过程与步骤1.10.1一致。

而且，所述目标位置检测子模块中最终响应图的生成过程与步骤1.10.2一致，目标的位置取最终响应图最大值对应的位置。

而且，所述外观模型更新子模块中外观模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (21)

max(Reponse_A_t)＞thre_A (22)

即，从第1帧起，每Δt帧判断当前第t帧的外观响应图Response_A_t的最大值是否超过设定的阈值thre_A。如果是，则使用第t帧的外观响应图Response_A_t和二维高斯响应图Gaussian_map_t(生成过程参照模型训练模块中二维高斯响应图生成子模块)，对外观模型中的回归模型的参数更新，具体过程与模型训练模块中外观模型训练子模块一致。

而且，所述运动模型更新子模块中运动模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (24)

max(Reponse_M_t)＞thre_M (25)

即，从第1帧起，每Δt帧判断当前第t帧的运动响应图Response_M_t的最大值是否超过设定的阈值thre_M。如果是，则使用第t帧的运动响应图Response_M_t和0-1掩膜响应图Mask_map_t(生成过程参照模型训练模块中“真实”响应图生成子模块)，对运动模型中的回归模型的参数更新，具体过程与模型训练模块中运动模型训练子模块一致。

而且，所述自我注意力模块更新子模块中自我注意力模块的更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (27)

max(Reponse_final_t)＞thre_final (28)

即，从第1帧起，每Δt帧判断当前第t帧的最终响应图Response_final_t的最大值是否超过设定的阈值thre_final。如果是，则使用第t帧的最终响应图Response_final_t和二维高斯响应图Gaussian_map_t(生成过程参照模型训练模块中二维高斯响应图生成子模块)，对自我注意力模块的参数更新，具体过程与模型训练模块中自我注意力模块训练子模块一致。

本发明与现有技术相比具有以下优点：

1.本发明结合运动目标多重特征执行目标跟踪过程，避免单一特征在跟踪过程中遇到特殊情况可能跟踪失败的影响，具有更高的抗干扰能力和鲁棒性，更加符合小目标的运动特性；

2.本发明使用自我注意力模块对外观特征、运动特征两种特征进行像素级自适应加权融合，即通过卷积神经网络所构建的自我注意力模块，获取每一种特征响应图对应的权重图，将传统的单一融合系数拓展为与响应图大小一致的二维融合系数矩阵(称之为“注意力图”)，使得特征融合更加精准，对不同场景下的跟踪具有更强的适应性。

附图说明

图1为本发明实施例的技术流程图。

图2为本发明实施例跟踪模型中目标跟踪阶段第n帧以后的流程图。

具体实施方式

本发明首先根据第1帧图像及其对应的响应图对跟踪模型进行参数训练，得到跟踪模型中各个参数的数值，再利用训练好的跟踪模型，逐帧提取目标的外观特征和运动特征进行目标跟踪，在跟踪过程中，满足一定条件时，对跟踪模型进行更新。

本发明技术方案可采用计算机软件方式支持自动运行流程。以下结合附图和实施例详细说明本发明技术方案。

实施例包含模型训练阶段、目标跟踪阶段和模型更新阶段：

步骤1.1，读入视频第1帧图像进行预处理，以待跟踪的目标为中心进行裁剪，并分别进行上采样，本实施例中，n＝5，上采样倍数为4。

步骤1.2，对第1帧生成训练时需要的“真实”响应图标签的二维高斯响应图，生成具体步骤如下：

步骤1.2.1，计算包含目标的搜索区域的尺寸：

[w，h]＝[w_obj，h_obj]*padding (1)

其中，w，h分别为矩形搜索区域的宽和高，w_obj，h_obj分别为目标的宽和高，padding为固定系数。本实施例中，w_obj，h_obj分别为15和10，padding取1.6，则w，h分别为24和16。

步骤1.2.2，以目标位置为中心生成二维高斯响应图：

步骤1.3，构建外观特征对应的网络模型(称为“外观模型”)，并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练。

外观模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.3.1，特征提取模块选用公开数据集预训练好的分类网络模型，将经过预处理的第1帧图像img输入该模块进行特征提取，输出外观特征向量Feature_A，本实例中，采用预训练好的VGG16网络的Conv3-3之前的网络结构和参数进行特征提取，过程可以表示为：

步骤1.3.2，响应图回归模块由一个1×1×c1的卷积神经网络和h_obj×w_obj×1的卷积神经网络构成，将步骤1.3.1提取好的外观特征输入该模块进行外观响应图回归，输出外观响应图，本实例中，c1＝12，回归过程可以表示为：

本实施例中，该模块的初始参数采用服从0均值高斯分布的随机值。

步骤1.3.3，结合步骤1.3.2中生成的第1帧对应的外观响应图和步骤1.2中生成的第1帧对应的二维高斯响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数θ_A进行训练，这一过程可以表示为：

步骤1.4，逐帧读入视频的第2～n帧图像并进行预处理，利用步骤1.3训练好的外观模型进行跟踪，得到第n帧目标的位置。具体地，从第2帧开始读入图像，以前一帧中目标所在位置为中心进行裁剪和上采样操作，然后将经过处理的图像输入训练好的外观模型，计算外观响应图，目标的位置(r，c)取外观响应图最大值对应的位置，这一过程可表示为：

然后进入下一帧的跟踪过程，直至获取第n帧的目标位置。

步骤1.5，对第n帧生成训练时需要的“真实”响应图标签，即二维高斯响应图和0-1掩膜响应图。二维高斯响应图的生成过程与步骤1.2保持一致，0-1掩膜响应图的生成方式为：以目标位置为中心生成0-1掩膜响应图，目标所在区域的值为1，其余区域值为0，这一过程可以表示为：

步骤1.6，输入第1帧和第n帧图像提取3通道光流图像，具体步骤如下：

步骤1.6.1，将第1帧和第n帧图像利用光流提取的方法提取2通道的光流信息。本实例中，采用Lucas-Kanade方法(LK)进行光流提取，这一过程可以表示为：

步骤1.6.2，将2通道的光流信息进行颜色编码，转化为能可视化的RGB模式的3通道光流图像。本实例中，先进行HSV转换，将每个通道的光流向量的值分别作为H，S分量，而V分量被设置为一个常数，再将HSV空间转换到RGB颜色空间，这一过程可以表示为：

步骤1.7，构建运动模型，基于步骤1.6获取的3通道光流图像和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练。运动模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

步骤1.7.1，特征提取模块的构成和步骤1.3.1中的一致，将步骤1.6中获得的3通道光流图像

输入该模块进行运动特征提取，输出运动特征向量Feature_M_n，其过程可以表示为：

步骤1.7.2，与步骤1.3.2一样，将提取的运动特征输入卷积核尺寸分别为1×1×c1和h_obj×w_obj×1的两层卷积神经网络串联组成响应图回归模块，进行运动响应图回归，输出第n帧对应的运动响应图Response_M_n。本实例中，c1＝12，回归过程可以表示为：

步骤1.7.3，结合步骤1.7.2中生成的第n帧的对应的运动响应图和步骤1.5中生成的第n帧对应的0-1掩膜响应图，以二者的均方误差最小作为训练目标，保持特征提取部分的参数不变，对响应图回归模块的参数θ_M进行训练，这一过程可以表示为：

步骤1.8，通过将图像输入步骤1.3训练好的外观模型Model_A，计算输出第n帧图像对应的外观响应图

这一过程可以表示为：

步骤1.9，通过将步骤1.6中提取的3通道光流输入步骤1.7训练好的运动模型Model_M，计算输出第n帧图像对应的运动响应图

这一过程可以表示为：

步骤1.10，以步骤1.8中获得的第n帧图像对应的外观响应图和步骤1.9中获得的运动响应图作为输入，第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练。自我注意力模块由3层卷积核尺寸分别为3×3×c2，3×3×c3，3×3×2的卷积神经网络与1层softmax激活函数构成，本实例中，c1＝12，c2＝128，c3＝32。训练的具体步骤如下：

步骤1.10.1，将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1帧和第n帧图像对应的运动响应图堆叠后输入自我注意力模块，得到外观注意力图Attention_A和运动注意力图Attention_M，该过程可以表示为：

步骤1.10.2，将步骤1.8外观响应图生成子模块中得到的外观响应图和步骤1.9运动响应图生成子模块中得到的运动响应图与步骤1.10.1得到的两幅注意力图分别相乘再相加，得到最终响应图Response_final，该过程可以表示为：

此处Attention_A和Attention_M是由外观响应图和运动响应图输入自我注意力模块计算得到的，将其作为外观模型和运动模型融合的权重，可实现不同特征像素级自适应的加权融合，从而更加稳定准确地实现小目标跟踪。

步骤1.10.3，对第n帧图像执行步骤1.2，生成对应的二维高斯响应图Gaussian_map_n，结合步骤1.10.2中生成的最终响应图，以二者的均方误差最小作为训练目标，对自我注意力模块的参数θ_atten进行训练，这一过程可以表示为：

2.所述目标跟踪阶段进行目标位置的持续检测，由于步骤1.4中已完成第2～n帧的跟踪过程，因此本阶段的跟踪过程从第n+1帧开始(本实施例中，n＝5)，具体包含以下步骤：

步骤2.1，读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧)，以上一帧中目标所在位置为中心进行裁剪和上采样操作，本实施例中，上采样倍数为4；

步骤2.2，对步骤2.1中经过预处理的后一帧图像执行步骤1.8，得到外观响应图；

步骤2.5，将步骤2.2和步骤2.4中获得的两幅响应图输入自我注意力模块，得到两幅对应的注意力图，注意力图的生成过程与步骤1.10.1一致(参数不重新初始化)；

步骤2.6，将步骤2.2和步骤2.4中获得的两幅响应图与步骤2.5中获得的两幅注意力图对应地相乘相加，得到最终的响应图，响应图峰值对应的位置即为目标所在的位置。最终响应图的生成过程与步骤1.10.2一致，目标的位置(r，c)取最终响应图最大值对应的位置，这一过程可表示为：

本实施例中，某一帧响应图最大值为0.65，对应的位置为第56列，138行，则该位置为目标当前帧所在的位置。

步骤3.1，步骤2完成一帧图像的跟踪后，若同时满足以下2个条件时，以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调；

t＝kΔt，k∈N，k＞1 (21)

max(Reponse_A_t)＞thre_A (22)

即从第1帧起，每Δt帧判断当前第t帧的外观响应图Response_A_t的最大值是否超过设定的阈值thre_A，如果是，则使用第t帧的外观响应图Response_A_t-1和二维高斯响应图Gaussian_map_t-1(生成过程参照步骤1.2)，对外观模型中的回归模型的参数θ_A进行更新，更新的具体过程与步骤1.3基本一致，可以表达为：

本实例中，Δt＝5，thre_A＝0.5，即在第10，15，20...帧时，只要外观响应图的最大值大于0.5，即进行参数更新；

步骤3.2，步骤2完成一帧图像的跟踪后，若同时当满足以下2个条件时，以当前帧的图像和目标位置生成的掩膜响应图作为真实标签对运动模型的参数进行微调；

t＝kΔt，k∈N，k＞1 (24)

max(Reponse_M_t)＞thre_M (25)

即从第1帧起，每Δt帧判断当前第t帧的运动响应图Response_M_t的最大值是否超过设定的阈值thre_M，如果是，则使用第t帧的运动响应图Response_M_t-1和0-1掩膜响应图Mask_map_t-1(生成过程参照步骤1.5)，对运动模型中的回归模型的参数θ_M更新，更新的具体过程与步骤1.7基本一致，可以表达为：

本实例中，Δt＝5，thre_M＝0.6，即在第10，15，20...帧时，只要运动响应图的最大值大于0.6，即进行参数更新；

步骤3.3，步骤2完成一帧图像的跟踪后，若同时当满足以下2个条件时，以当前帧的外观响应图、运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调；

t＝kΔt，k∈N，k＞1 (27)

max(Reponse_final_t)＞thre_final (28)

即从第1帧起，每Δt帧判断当前第t帧的最终响应图Response_final_t的最大值是否超过设定的阈值thre_final，如果是，则使用第t帧的最终响应图Response_final_t-1和二维高斯响应图Gaussian_map_t-1(生成过程参照步骤1.2)，对自我注意力模块的参数θ_atten更新，更新的具体过程与步骤1.10基本一致，可以表达为：

本实例中，Δt＝5，thre_final＝0.65，即在第10，15，20...帧时，只要最终响应图的最大值大于0.65，即进行参数更新。

本发明实施例还提供一种基于多重特征和自我注意力模块的小目标跟踪装置，包括模型训练模块、目标跟踪模块和模型更新模块。

图像预处理子模块，读入第1帧图像，并进行预处理；

二维高斯响应图生成子模块，用于生成外观模型训练过程中第1帧图像对应的“真实”响应图的二维高斯响应图；

所述目标跟踪模块用于运动目标位置的持续检测，由于运动模型训练子模块中已完成第～n帧的跟踪过程，因此本阶段的跟踪过程从第n+1帧开始，具体包含以下子模块：

各模块及子模块的具体实现方式和实施例各步骤相应，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明，本发明所属技术领域的技术人员可对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims

1.一种视频小目标跟踪方法，其特征在于，包括模型训练阶段、目标跟踪阶段和模型更新阶段；

所述模型训练阶段构建基于多重特征和自我注意力模块的深度学习网络模型，用于小目标运动场景下的目标跟踪，并通过训练模型确定网络参数，具体包含以下步骤：

步骤1.1，读入视频第1帧图像并进行预处理；

步骤1.3，构建外观特征对应的网络模型，称为“外观模型”，并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练；

步骤1.7，构建运动特征对应的网络模型，称为“运动模型”，并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练；

所述目标跟踪阶段进行目标位置的持续检测，由于步骤1.4中已完成第1～n帧的跟踪过程，因此本阶段的跟踪过程从第n+1帧开始，具体包含以下步骤：

步骤2.1，读入相隔为n-1的两帧图像，第一次读入第n+1帧和第2帧，并进行预处理；

所述模型更新阶段进行跟踪模型参数的更新，包含以下步骤：

2.如权利要求1所述的一种视频小目标跟踪方法，其特征在于：步骤1.2中生成高斯响应图具体步骤如下：

步骤1.2.1，计算包含目标的搜索区域的尺寸：

[w，h]＝[w_obj，h_obj]*padding (1)

其中，w，h分别为矩形搜索区域的宽和高，w_obj，h_obj分别为目标的宽和高，padding为固定系数；

步骤1.2.2，以目标位置为中心生成二维高斯响应图：

其中，σ是二维高斯分布的方差，x方向和y方向相等，也是二维高斯响应图的投影半径，其值由目标的大小和常量α相关。

3.如权利要求2所述的一种视频小目标跟踪方法，其特征在于：步骤1.3构建外观模型，通过提取外观特征，回归外观响应图来进行外观模型参数的训练，外观模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

4.如权利要求1所述的一种视频小目标跟踪方法，其特征在于：步骤1.4对视频的第2～n帧利用训练好的外观模型进行跟踪，得到第n帧目标的位置，是从第2帧开始读入图像，以前一帧中目标所在位置为中心进行裁剪和上采样操作，然后将经过处理的图像输入训练好的外观模型，计算外观响应图，目标的位置取外观响应图最大值对应的位置，然后进入下一帧的跟踪过程，直至获得第n帧中目标的位置。

5.如权利要求3所述的一种视频小目标跟踪方法，其特征在于：所述步骤1.5中高斯响应图的生成方式与步骤1.2保持一致，0-1掩膜图的生成方式为：以目标位置为中心生成0-1掩膜响应图，目标所在区域的值为1，其余区域值为0，这一过程可以表示为：

6.如权利要求5所述的一种视频小目标跟踪方法，其特征在于：步骤1.6通过第1帧和第n帧图像获得3通道的光流图像，具体步骤如下：

步骤1.6.1，将第1帧和第n帧经过预处理的图像利用光流提取方法提取2通道光流信息；步骤1.6.2，将2通道的光流信息进行颜色编码，转化为能被可视化的RGB模式的3通道光流图像。

7.如权利要求6所述的一种视频小目标跟踪方法，其特征在于：步骤1.7构建运动模型，并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练；运动模型由特征提取模块和响应图回归模块组成，具体组成及训练步骤如下：

8.如权利要求7所述的一种视频小目标跟踪方法，其特征在于：所述步骤1.10中自我注意力模块由3层卷积核尺寸分别为3×3×c2，3×3×c3，3×3×2的卷积神经网络与1层softmax激活函数构成，其训练的具体步骤如下：

步骤1.10.1，将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1～n帧图像对应的运动响应图堆叠后一起输入自我注意力模块，得到外观注意力图Attention_A和运动注意力图Attention_M，该模块的初始参数采用服从0均值高斯分布的随机值；

步骤1.10.2，将步骤1.8中得到的外观响应图

和步骤1.9中得到的运动响应图

利用步骤1.10.1得到的两幅注意力图分别相乘再相加,得到最终响应图Response_final，该过程可以表示为：

9.如权利要求8所述的一种视频小目标跟踪方法，其特征在于：步骤3.1中外观模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (21)

max(Re s ponse_A_t)＞thre_A (22)

即，从第1帧起，每Δt帧判断当前第t帧的外观响应图的最大值是否超过设定的阈值thre_A，如果是，则使用第t帧的外观响应图和二维高斯响应图，对外观模型中的回归模型的参数更新，更新的具体过程与步骤1.3一致；

步骤3.2中运动模型更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (24)

max(Re s ponse_M_t)＞thre_M (25)

即，从第1帧起，每Δt帧判断当前第t帧的运动响应图的最大值是否超过设定的阈值thre_M，如果是，则使用第t帧的运动响应图和0-1掩膜响应图，对运动模型中的回归模型的参数更新，更新的具体过程与步骤1.7一致；

步骤3.3中自我注意力模块的更新需要同时满足两个条件，可以表达为：

t＝kΔt，k∈N，k＞1 (27)

max(Re p onse_final_t)＞thre_final (28)

即，从第1帧起，每Δt帧判断当前第t帧的最终响应图的最大值是否超过设定的阈值thre_final，如果是，则使用第t帧的最终响应图和二维高斯响应图，对自我注意力模块的参数更新，更新的具体过程与步骤1.10一致。

10.一种视频小目标跟踪装置，其特征在于：包括模型训练模块，目标跟踪模块和模型更新模块；

图像预处理子模块，读入第1帧图像，并进行预处理；

外观模型训练子模块，构建与外观特征对应的网络模型，称为“外观模型”，并基于第1帧图像和对应的二维高斯响应图进行外观模型参数的训练；

运动模型训练子模块，构建与运动特征对应的网络模型，称为“运动模型”，对视频的第2～n帧利用训练好的外观模型进行跟踪，得到第n帧目标的位置，并基于光流提取子模块提取的3通道光流图像和“真实”响应图生成子模块得到的第n帧图像对应的0-1掩膜响应图进行运动模型参数的训练；

图像预处理子模块，读入相隔为n-1的两帧图像，第一次读入第n+1帧和第2帧，并进行预处理；