CN113808166B

CN113808166B - 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法

Info

Publication number: CN113808166B
Application number: CN202111079689.8A
Authority: CN
Inventors: 冯婕; 惠炳谕; 梁宇平; 焦李成; 张向荣; 尚荣华; 王蓉芳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-04-18
Anticipated expiration: 2041-09-15
Also published as: CN113808166A

Abstract

本发明公开了一种基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法，其实现步骤为：构建深度孪生卷积神经网络，生成数据集，利用聚类差分算法生成包含目标运动信息的融合图像，生成训练集，训练深度孪生卷积神经网络，生成待跟踪视频中每帧图像的融合图像，对指定运动目标进行跟踪。本发明能够提取相似目标密集、目标尺寸小的遥感图像中的高可区分性的目标特征，使用了聚类差分算法生成包含目标运动信息的融合图像，具有特征提取能力强、抗相似目标干扰性强，抗背景干扰能力强、表观特征依赖性低的优点。

Description

基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及到目标跟踪技术领域中的一种基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法。本发明可用于视频序列中单个目标的跨帧识别，实现密集小目标场景下对特定目标的稳定监控与跟踪。

背景技术

单目标跟踪就是从待跟踪目标视频序列中指定一个运动目标，提取该目标在首次出现图像帧中的特征，利用该特征对后续图像帧中的该运动目标进行检测、识别与跟踪。根据初始帧图像中指定跟踪目标的特征，构建目标特征模型，在后续的图像帧中进行匹配检测，以在后续场景中准确定位到指定目标。单目标跟踪算法通常分为生成式算法和判别式算法两种。生成式算法着重于目标本身的特征提取，通过构建目标特征模板，在后续图像帧中寻找与目标模板特征最为相似的候选目标作为跟踪结果，这一过程可以视为模板匹配，常用的理论方法包括：子空间，稀疏表示，字典学习等方法。生成式算法在目标尺寸大且相似目标分布稀疏的情况下已有多种算法证实能够取得良好的单目标跟踪结果，然而因生成式算法十分依赖于目标本身表观特征的表达，在目标尺寸小、分辨率低、背景复杂且相似目标密集等场景下难以取得良好的跟踪结果。

上海海事大学在其申请的专利文献“一种基于孪生网络的多全卷积融合的单目标跟踪方法”(专利申请号：2020112131606，申请公布号：CN112215872A)中公开了一种基于孪生网络的多全卷积融合的单目标跟踪方法。该方法首先通过预处理目标图像：获取预处理目标图像的卷积特征图，以Alexnet五层网络作为主干网络进行目标模板的表观特征提取，分别提取模板第四层和第五层的卷积特征以及搜索分支第四层和第五层的卷积特征；将所提取的特征按层分别进行互相关操作得出响应图；将两个响应图按通道方式进行叠加；针对叠加后的响应图，找到它们各自通道和空间所占的权重并确定得分图上最大响应点，通过响应点位置映射得出目标在下一帧中所在位置和大小。该方法存在的不足之处是，由于该方法仅通过深度神经网络提取目标单一的表观特征进行单目标跟踪，在相似目标密集且目标尺寸较小的场景下，目标表观特征单一导致目标特征之间区分度小，容易出现目标丢失、相似目标引起的检测框漂移的情况。

电子科技大学在其申请的专利文献“一种基于Siamese网络的单目标跟踪方法”(专利申请号：2020105502014，申请公布号：CN111797716A)中公开了一种基于孪生神经网络的单目标跟踪方法。该方法首先构建孪生神经网络的神经网络部分并训练孪生卷积神经网络权重，在训练过程中基于嵌入式损失函数的神经网络模型进行训练，同时将各层特征进行融合，并使用随机梯度下降算法进行损失优化，通过目标模板与搜索区域之间互相关运算得出响应图，然后通过候选区域建议网络得到分类和回归结果，最后根据分类与回归的结果进行后续帧的跟踪。该方法存在的不足之处是，由于该方法仅仅通过目标表观特征实现单目标跟踪过程，在模糊的视频场景下，网络无法提取丰富的表观特征信息，仅依靠不够丰富的表观特征使得目标跟踪过程难以稳定进行。

发明内容

本发明的目的是针对上述现有技术存在的不足，提出了一种基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法，用于解决单目标跟踪过程中由于场景分辨率低、背景复杂、相似目标密集、目标尺寸小等造成的跟踪失败的问题。

实现本发明目的的思路是：本发明使用了特征提取网络中第二、三、四、五层特征层的输出特征，并通过特征融合模块生成了融合特征图，提取了具备目标浅层表观特征和目标与非目标间全局语义特征的融合特征，该融合特征图融合了特征提取网络中多个不同层输出的特征，既保留了目标原本的表观特征，又提取了跟踪目标与干扰目标之间较为全局的语义特征，融合浅层表观特征和全局语义特征的融合特征能更好区分目标与非目标，从而缓解相似目标密集、目标尺寸小造成的跟踪失败问题；利用聚类差分算法提取目标的运动信息，通过运动目标的运动信息进行特征补足，生成具备目标的表观特征和运动信息的融合图像，融合了目标运动信息的目标特征能够借助运动信息减少环境干扰，同时能够借助运动信息辅助目标特征的匹配，缓解场景分辨率低和背景复杂造成的跟踪失败问题；

本发明实现的具体步骤包括如下：

步骤1，构建深度孪生卷积神经网络：

(1a)搭建一个ResNet50网络作为深度孪生卷积神经网络的特征提取网络，其结构依次为：第一卷积层，第一BN层，激活函数层，最大池化层，第二卷积层，第二BN层，第三卷积层，第三BN层，第四卷积层，第四BN层，第五卷积层，第五BN层；将第一至第五层卷积层的卷积核个数依次设置为64，64，128，256，512，卷积核尺寸依次设置为7，3，3，3，3，将第一、二、三层卷积层步长均设置为2，第四、第五卷积层步长均设置为1，第四、第五卷积层中卷积核空洞率设置为2，4；最大池化层池化区域核的大小设置为3×3，步长均设置为2；第一至第五BN层均采用批标准化函数，激活函数层采用线性整流函数，最大池化层采用区域最大值池化函数；

(1b)搭建互相关响应子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，第一至第三卷积层的卷积核的个数均为256，卷积核的尺寸分别设置为1，1，1，步长设置为1；深度可分离卷积层卷积核个数设置为256，卷积核尺寸设置为3，步长设置为1；

(1c)搭建Siamese分类子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，18，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1；

(1d)搭建Siamese回归子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，36，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1；

(1f)搭建Siamese RPN+网络，其结构为第一卷积层分别与Siamese分类子网络和Siamese回归子网络相联，第一卷积层的卷积核个数设置为512，卷积核尺寸设置为1，步长设置为1；

(1g)搭建一个特征融合模块，用于将多个互相关响应子网络输出的特征图在特征维度上进行堆叠为一个融合特征图；

(1h)将特征提取网络的第二卷积层、第三卷积层、第四卷积层、第五卷积层分别与第一互相关响应子网络、第二互相关响应子网络、第三互相关响应子网络、第四互相关响应子网络级联；

(1i)将第一、第二、第三、第四互相关响应子网络分别与特征融合模块级联，将特征融合模块与Siamese RPN+网络第一卷积层级联后得到深度孪生卷积神经网络；

步骤2，生成数据集：

将至少3个光学遥感视频序列组成数据集，每个光学遥感视频序列中至少包含200帧连续图像，每帧图像包含至少一个完整的运动目标，且每帧图像中运动目标位置相比前一帧中该目标所在位置移动幅度大于等于0.5个像素点，每帧图像的大小不得小于500×500×3；

步骤3，利用聚类差分算法生成包含目标运动信息的融合图像：

(3a)从数据集中选取一个未选过的一帧图像；

(3b)从数据集中选取所选帧图像左右相邻的σ帧图像，1≤σ≤10；

(3c)对所选帧图像和其相邻图像进行二帧差分操作，得到所选帧图像包含目标运动信息的2σ个相同尺寸的差分图；

(3c)随机生成一个与差分图尺寸相同的聚类差分图；

(3e)从2σ个的差分图中随机选取一个差分图，将所选差分图中的每个像素点与其他差分图中所有相同坐标的像素点进行K-Means聚类，设置K＝2，得到所选差分图中该坐标像素点上的2个聚类中心以及所有差分图中该坐标上像素点根据2个聚类中心聚类的结果；选取结果中聚类像素点最多的聚类中心，用该聚类中心的值更新聚类差分图中该坐标位置处的像素值；

(3f)将所选帧图像的更新后的聚类差分图与所选帧图像进行堆叠，生成所选帧图像包含目标运动信息的融合图像；

(3h)判断是否选完数据集中的所有图像，若是，则执行步骤4，否则，执行步骤(3a)；

步骤4，生成训练集：

(4a)对每帧融合图像中的每个运动目标标注矩形框，将矩形框的顶点坐标及矩形框长宽作为每个目标在该帧图像中目标的位置标签；

(4b)在每帧融合图像中按像素从左到右，从上到下生成Anchor，每个像素点上生成5个Anchor，将Anchor中与位置标签IOU值大于0.5的Anchor类别标注为1，将其余Anchor类别标注为0，将Anchor的标注结果作为该帧图像的类别标签；

(4c)在每个光学遥感视频的第一帧融合图像中的每个运动目标的目标中心周边64像素范围内随机选取裁剪中心，将融合图像裁剪为127×127大小的图像作为该目标的目标模板图像；在每个光学遥感视频的所有融合图像的每个运动目标中心周边64像素范围内随机选取裁剪中心，将融合图像裁剪为256×256大小的图像作为该目标的搜索区域图像；

(4d)将所有融合图像中所有目标的目标模板图像分别与所有该目标的搜索区域图像两两组合为图像对；

(4e)将所有图像对、图像类别标签和目标的位置标签按图像拍摄时间顺序组成训练集；

步骤5，训练深度孪生卷积神经网络：

将训练集输入到深度孪生卷积神经网络中，利用梯度下降法更新深度孪生卷积神经网络的权值，直到损失函数Loss收敛为止，得到训练好的深度孪生卷积神经网络；

步骤6，生成待跟踪视频中每帧图像的融合图像：

采用与步骤3中相同的步骤，对待跟踪的含有至少一个运动目标的光学遥感视频序列中的每帧图像生成对应的融合图像；

步骤7，对指定运动目标进行跟踪：

将所有融合图像中目标首次出现完整目标的融合图像作为第一帧融合图像，在第一帧融合图像中标注目标的矩形框，将第一帧融合图像和目标矩形框的左上角坐标及长宽信息，以及其余后续帧融合图像输入到训练好的深度孪生神经网络中，输出除第一帧融合图像之外的所有融合图像中目标的位置。

本发明与现有技术相比具有以下优点：

第一，由于本发明构建并训练好的深度孪生卷积神经网络中特征融合模块，可以将多个互相关响应子网络输出的特征图在特征维度上堆叠后输出一个融合特征图，克服了现有技术当存在相似目标密集、目标尺寸小的遥感场景下，提取的目标特征与相似干扰目标特征可区分性低造成的小目标丢失、相似目标引起的检测框漂移的问题，使得本发明能够提取相似目标密集、目标尺寸小的遥感场景中遥感图像的高可区分性的目标特征，具有特征提取能力强、抗相似目标干扰性强的优点。

第二，本发明利用聚类差分算法生成包含目标运动信息的融合图像，克服了现有技术在低分辨率、复杂场景下目标跟踪易受环境影响、表观特征不足无法稳定跟踪的问题，使得本发明能够在场境复杂、分辨率低的遥感场景下稳定进行单目标跟踪，具有抗背景干扰能力强、表观特征依赖性低的优点，

附图说明

图1是本发明的流程图；

图2是本发明构建的特征提取网络结构示意图；

图3是本发明构建的互相关响应子网络结构示意图；

图4是本发明构建的Siamese分类子网络结构示意图；

图5是本发明构建的Siamese回归子网络结构示意图；

图6是本发明构建的Siamese RPN+网络结构示意图；

图7是本发明构建的深度孪生卷积神经网络结构示意图；

图8是本发明设计的聚类差分算法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案和效果做进一步的详细描述。

参照附图1，对本发明的具体实现步骤做进一步的详细描述。

步骤1，构建深度孪生卷积神经网络。

搭建一个ResNet50网络作为孪生卷积神经网络的特征提取网络，其结构依次为：第一卷积层，第一BN层，激活函数层，最大池化层，第二卷积层，第二BN层，第三卷积层，第三BN层，第四卷积层，第四BN层，第五卷积层，第五BN层；将第一至第五层卷积层的卷积核个数依次设置为64，64，128，256，512，卷积核尺寸依次设置为7，3，3，3，3，将第一、二、三层卷积层步长均设置为2，第四、第五卷积层步长均设置为1，第四、第五卷积层中卷积核空洞率设置为2，4；最大池化层池化区域核的大小设置为3×3，步长均设置为2；第一至第五BN层均采用批标准化函数，激活函数层采用线性整流函数，最大池化层采用区域最大值池化函数。

所述的批标准化函数如下：

其中，y表示批标准化函数，γ_L表示训练好的深度孪生卷积神经网络中第L个BN层的缩放参数，x_L,l表示训练好的深度孪生卷积神经网络中输入到第L层BN层的第l个输入，L＝1,2,3,4,5；l＝1,2,3,…,m；m表示输入集合中元素的个数，∑表示求和操作，ε_L，β_L分别表示训练好的深度孪生卷积神经网络中第L个BN层的批偏移参数和整体偏移参数。

所述的区域最大值池化函数如下：

其中，h表示区域最大值池化函数，max表示求最大值操作，坐标系以输入矩阵左上角顶点为原点，水平向右横轴为正方向，垂直向下为纵轴正方向，在该坐标系下，

表示最大池化函数输入矩阵中位于横坐标N_x与纵坐标N_y处的元素值，∈表示属于符号，i，j分别表示最大池化函数输入矩阵中池化区域的左上角顶点的横坐标与纵坐标，k表示池化核的尺寸。

参照附图2，对本发明构建的特征提取网络做进一步的描述。

图2为特征提取网络的结构示意图，特征提取网络的结构参见图2从左到右依次为第一卷积层，第一BN层，激活函数层，最大池化层，第二卷积层，第二BN层，第三卷积层，第三BN层，第四卷积层，第四BN层，第五卷积层，第五BN层；

搭建互相关响应子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，第一至第三卷积层的卷积核的个数均为256，卷积核的尺寸分别设置为1，1，1，步长设置为1；深度可分离卷积层卷积核个数设置为256，卷积核尺寸设置为3，步长设置为1。

参照附图3，对本发明构建的互相关响应子网络做进一步的描述。

图3为互相关响应子网络的结构示意图，互相关响应子网络的结构依次为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联。

搭建Siamese分类子网络，

参照附图4，对本发明构建的Siamese分类子网络做进一步的描述。

图4为Siamese分类子网络的结构示意图，Siamese分类子网络的结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，18，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1。

搭建Siamese回归子网络

参照附图5，对本发明构建的Siamese回归子网络做进一步的描述。

图5为Siamese回归子网络的结构示意图。Siamese回归子网络的结构依次为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联，将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，36，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1。

搭建Siamese RPN+网络。

参照附图6，对本发明构建的Siamese RPN+网络做进一步的描述。

图6为Siamese RPN+网络的结构示意图，Siamese RPN+网络的结构为第一卷积层分别与Siamese分类子网络和Siamese回归子网络相联，第一卷积层的卷积核个数设置为512，卷积核尺寸设置为1，步长设置为1。

搭建一个特征融合模块，用于将多个互相关响应子网络输出的特征图在特征维度上进行堆叠为一个融合特征图。

将特征提取网络的第二卷积层、第三卷积层、第四卷积层、第五卷积层分别与第一互相关响应子网络、第二互相关响应子网络、第三互相关响应子网络、第四互相关响应子网络级联。

将第一、第二、第三、第四互相关响应子网络分别与特征融合模块级联，将特征融合模块与Siamese RPN+网络第一卷积层级联后得到深度孪生卷积神经网络。

参照附图7，对本发明构建好的深度孪生卷积神经网络做进一步的描述。

图7为深度孪生卷积神经网络的结构示意图。将两个完全相同的特征提取网络的第二、第三、第四、第五卷积层分别与第一、第二、第三、第四互相关响应子网络级联，将第一、第二、第三、第四互相关响应子网络与特征融合模块级联，将特征融合模块与SiameseRPN+网络第一卷积层级联后得到深度孪生卷积神经网络。

步骤2，生成数据集。

将至少3个光学遥感视频序列组成数据集，每个光学遥感视频序列中至少包含200帧连续图像，每帧图像包含至少一个完整的运动目标，且每帧图像中运动目标位置相比前一帧中该目标所在位置移动幅度大于等于0.5个像素点，每帧图像的大小不得小于500×500×3。

步骤3，利用聚类差分算法生成包含目标运动信息的融合图像。

从数据集中选取一个未选过的一帧图像。

从数据集中选取所选帧图像左右相邻的σ帧图像，1≤σ≤10。

对所选帧图像和其相邻图像进行二帧差分操作，得到所选帧图像的2σ个相同尺寸的差分图。

随机生成一个与差分图尺寸相同的聚类差分图。

从2σ个的差分图中随机选取一个差分图，将所选差分图中的每个像素点与其他差分图中所有相同坐标的像素点进行K-Means聚类，设置K＝2，得到所选差分图中该坐标像素点上的2个聚类中心以及所有差分图中该坐标上像素点根据2个聚类中心聚类的结果；选取结果中聚类像素点最多的聚类中心，用该聚类中心的值更新聚类差分图中该坐标位置处的像素值。

将所选帧图像的更新后的聚类差分图与所选帧图像进行堆叠，生成所选帧图像的融合图像。

判断是否选完数据集中的所有图像，若是，则执行步骤4，否则，执行步骤3第一步。

参照附图8，对本发明设计的聚类差分算法做进一步的描述。

图8为聚类差分算法流程图，其中，图8(a)表示利用聚类差分算法更新聚类差分图中第一个像素点值过程的示意图。图8(a)中的差分图1、2、3、4分别代表步骤3中二帧差分生成的2σ个相同尺寸的差分图，此时σ＝2。图8(a)中的黑色像素点代表从这四个差分图中分别选取相同位置的四个像素点。图8(a)中的斜纹和竖条纹所标示的像素点代表步骤3中聚类生成的2个聚类中心，图8(a)中的斜纹所标示的像素点代表聚类像素点最多的聚类中心，使用该聚类中心的值更新聚类差分图第一个像素点值。

图8(b)表示聚类差分算法更新聚类差分图第二个像素点值过程的示意图；其更新过程与图8(a)相同。以此类推，更新完聚类差分图的最后一个像素点值，其过程如图(c)所示。

步骤4，生成训练集。

对每帧融合图像中的每个运动目标标注矩形框，将矩形框的顶点坐标及矩形框长宽作为每个目标在该帧图像中目标的位置标签。

在每帧融合图像中按像素从左到右，从上到下生成Anchor，每个像素点上生成5个Anchor，将Anchor中与位置标签IOU值大于0.5的Anchor类别标注为1，将其余Anchor类别标注为0，将Anchor的标注结果作为该帧图像的类别标签。

在每个光学遥感视频的第一帧融合图像中的每个运动目标的目标中心周边64像素范围内随机选取裁剪中心，将融合图像裁剪为127×127大小的图像作为该目标的目标模板图像；在每个光学遥感视频的所有融合图像的每个运动目标中心周边64像素范围内随机选取裁剪中心，将融合图像裁剪为256×256大小的图像作为该目标的搜索区域图像。

将所有融合图像中所有目标的目标模板图像分别与所有该目标的搜索区域图像两两组合为图像对。

将所有图像对、图像类别标签和目标的位置标签按图像拍摄时间顺序组成训练集。

步骤5，训练深度孪生卷积神经网络。

将训练集输入到深度孪生卷积神经网络中，设置损失函数Loss并利用梯度下降法更新深度孪生卷积神经网络的权值，直到训练代数达到指定数值，得到训练好的深度孪生卷积神经网络。

所述的损失函数Loss如下

其中，N表示训练集中图像的总数，∑表示求和操作，im表示训练集中第im个图像，label_im表示第im个图像的类别标签，pre_im表示深度孪生卷积神经网络输出的第im个图像的预测类别，smooth_L1为Smooth L1函数，δ_im表示深度孪生卷积神经网络输出第im张图像的预测，gt_im表示第im张图像的标签。

步骤6，生成待跟踪每帧图像的融合图像。

采用与步骤3中相同的步骤，对待跟踪的含有至少一个运动目标的光学遥感视频序列中的每帧图像生成对应的融合图像。

步骤7，对指定运动目标进行跟踪。

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真条件：

本发明的仿真的硬件平台为：处理器为Intel(R)Core(TM)i7，主频3.6GHz，内存为64G，显卡为GeForce RTX 2080。

本发明的仿真实验的软件平台为：Windows10操作系统，Pycharm2020软件，python3.7和Pytorch深度学习框架。

2.仿真内容及结果分析：

本发明仿真实验是采用本发明与现有技术的两种方法(用于跟踪的全卷积孪生深度神经网络算法缩写为SiamRPN++，用于跟踪的Anchor-free全卷积孪生神经网络网络算法缩写为SiamBAN)分别对Jilin-1号卫星商用遥感视频数据集DXB仿真实验数据中的车辆进行跟踪仿真。

在本发明的仿真实验中，采用的两个现有技术是指：

现有技术跟踪的全卷积孪生深度神经网络算法SiamRPN++是指，Bo Li等人在“Siamrpn++:Evolution of siamese visual tracking with very deep networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:4282-4291.”中提出的目标跟踪算法，简称SiamRPN++算法。

现有技术用于跟踪的用于跟踪的Anchorfree全卷积孪生神经网络网络算法SiamBAN是指，Zedu Chen等人在“Siamese box adaptive network for visual tracking[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2020:6668-6677.”中提出实时目标算法，简称SiamBAN算法。

本发明所用的仿真实验数据为商用跟踪数据库DXB，使用Jilin-1号卫星拍摄于迪拜国际机场上空，DXB数据库包含了3个视频序列。

为了评价本发明的仿真效果，采用OPE指标中的Precision指标和Success指标分别对三种方法的跟踪结果进行评价。利用下面公式计算数据库中所有视频的距离准确率Precision和重叠成功率Success，并将数据库和平均距离准确率和平均重叠成功率绘制成表1：

表1数据库距离精确率和重叠成功率对比表

从表1可以看出，在DXB数据库上，本发明的距离精确率为0.717，平均重叠成功率为0.527，SiamRPN++平均距离精确率为0.604，平均重叠成功率为0.442，SiamBAN平均距离精确率为0.586，平均重叠成功率为0.434。本发明无论是距离精确率还是重叠成功率均高于其余两个现有技术，证明了本发明能在遥感场景下取得更好的跟踪效果，这主要是因为本发明能够通过深浅层特征融合增强了目标特征与非目标特征的区分度，并在融合了目标的运动信息，增强了跟踪器抗背景干扰能力，减少了对目标表观特征的依赖程度，因此得到了较高、较稳健的跟踪效果。

Claims

1.一种基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法，其特征在于，利用基于聚类的差分算法生成包含目标运动信息的融合图像；利用构建并训练好的特征提取网络，提取并融合不同层目标特征与图像特征的互相关响应图；该方法的具体步骤包括如下：

步骤1，构建深度孪生卷积神经网络：

(1a)搭建一个ResNet50网络作为孪生卷积神经网络的特征提取网络，其结构依次为：第一卷积层，第一BN层，激活函数层，最大池化层，第二卷积层，第二BN层，第三卷积层，第三BN层，第四卷积层，第四BN层，第五卷积层，第五BN层；将第一至第五层卷积层的卷积核个数依次设置为64，64，128，256，512，卷积核尺寸依次设置为7，3，3，3，3，将第一、二、三层卷积层步长均设置为2，第四、第五卷积层步长均设置为1，第四、第五卷积层中卷积核空洞率设置为2，4；最大池化层池化区域核的大小设置为3×3，步长均设置为2；第一至第五BN层均采用批标准化函数，激活函数层采用线性整流函数，最大池化层采用区域最大值池化函数；

(1c)搭建Siamese分类子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联；将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，18，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1；

(1d)搭建Siamese回归子网络，其结构为第一卷积层与第一BN层级联，第二卷积层与第二BN层级联，深度可分离卷积层与第三卷积层级联，第三卷积层级联与第三BN层级联，第一BN层、第二BN层分别与深度可分离卷积层相联；将第一卷积层、第二卷积层、深度可分离卷积层、第三卷积层的卷积核的个数依次设置为256，256，256，36，卷积核的尺寸分别设置为1，1，3，1，步长均设置为1；

(1g)搭建一个特征融合模块，用于将多个互相关响应子网络输出的特征图在特征维度上堆叠为一个融合特征图；

步骤2，生成数据集：

(3a)从数据集中选取一个未选过的一帧图像；

(3d)随机生成一个与差分图尺寸相同的聚类差分图；

步骤4，生成训练集：

步骤5，训练深度孪生卷积神经网络：

步骤6，生成待跟踪视频中每帧图像的融合图像：

步骤7，对指定运动目标进行跟踪：

2.根据权利要求1所述的基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法，其特征在于，在步骤(1a)中所述的批标准化函数如下：

3.根据权利要求1所述的基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法，其特征在于，在步骤(1a)中所述区域最大值池化函数如下：

4.根据权利要求1所述的基于聚类差分和改进孪生神经网络的单目标跟踪方法，其特征在于，在步骤5中所述损失函数Loss如下：

其中，N表示训练集中图像的总数，∑表示求和操作，im表示训练集中第im个图像，label_im表示第im个图像的类别标签，log表示以2为底的对数操作，pre_im表示深度孪生卷积神经网络输出的第im个图像的类别预测值，smooth_L1为Smooth L1函数，δ_im表示深度孪生卷积神经网络输出的第im张图像中目标的位置预测值，gt_im表示第im张图像中目标的位置标签。