CN114565639A

CN114565639A - 一种基于复合卷积网络的目标跟踪方法及系统

Info

Publication number: CN114565639A
Application number: CN202210158946.5A
Authority: CN
Inventors: 陈璞花; 单鼎丞; 王璐; 焦李成; 刘芳; 古晶
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-31

Abstract

本发明公开了一种基于复合卷积网络的目标跟踪方法及系统，构建孪生复合卷积特征提取子网络Siam‑Co‑CNNs；将Siam‑Co‑CNNs提取的模板分支与检测分支的特征图输入区域提案子网络中，组成基于复合卷积网络的目标跟踪网络；使用训练数据集中的视频帧序列，对基于复合卷积网络的目标跟踪网络进行离线预训练；将测试视频转化为图像帧输入系统，并在第一帧上标注上待跟踪目标，进行在线跟踪，得到并输出目标跟踪结果。实验证明，本发明所提出的目标跟踪方法能够提高目标跟踪的准确率和成功率。

Description

一种基于复合卷积网络的目标跟踪方法及系统

技术领域

本发明属于视频目标跟踪技术领域，具体涉及一种基于复合卷积网络的目标跟踪方法及系统，融合了图像处理、特征融合以及计算机等许多领域的先进技术。

背景技术

目标跟踪是计算机视觉中最重要和最具挑战性的问题之一，其应用范围广泛，包括视频监控、无人驾驶汽车等。只有在视频的第一帧中给出注释，跟踪算法才能运行以定位对象在随后的帧中，可能会面临由光照、变形、遮挡和运动等原因引起的各种外观和运动变化。

近年来，深度学习技术快速发展，在数字图像处理领域中扮演着重要的角色。深度学习可以通过数据驱动，自动学习满足任务需求的特征。卷积神经网络可以抽取多尺度局部空间信息，并将其融合起来构建特征表示，但是其只能应用于常规的欧几里得数据上。而图神经网络可以在非欧几里得空间取得很好的效果，获得全局性特征。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于复合卷积网络的目标跟踪方法及系统，对目标更加准确鲁棒的跟踪，提高目标跟踪的准确率和成功率。

本发明采用以下技术方案：

一种基于复合卷积网络的目标跟踪方法，包括以下步骤：

S1、构建孪生复合卷积特征提取子网络Siam-Co-CNNs，组成Siamese结构的模板分支与检测分支；

S2、将步骤S1提取的模板分支与检测分支的特征图输入区域提案子网络中，组成基于复合卷积网络的目标跟踪网络；

S3、使用训练数据集中的视频帧序列，对步骤S2构成的基于复合卷积网络的目标跟踪网络进行离线预训练；

S4、将视频转化为图像帧输入步骤S3预训练好的基于复合卷积网络的目标跟踪网络，进行在线跟踪，得到并输出视频跟踪结果。

具体的，步骤S1中，构建孪生复合卷积特征提取子网络Siam-Co-CNNs具体为：

S101、搭建两个卷积神经网络分支网络，分别提取模板帧和检测帧的CNN特征；

S102、在步骤S101搭建的两个卷积神经网络分支网络上添加图卷积神经网络，构建Co-CNN模块；

S103、将步骤S102构建的Co-CNN模块堆叠组成孪生复合卷积特征提取子网络Siam-Co-CNNs，Siam-Co-CNNs包括3组融合堆叠Co-CNN模块，每组Co-CNN模块包含1个卷积网络和图卷积网络的融合模块。

进一步的，步骤S101中，每个卷积神经网络分支网络均由修改过的AlexNet网络组成，将卷积神经网络分支网络中的第一个卷积块记为Conv-1，第二个卷积块记为Conv-2，第三、四、五个卷积块记为Conv-3；两个卷积神经网络分支网络的网络结构相同，共享同一组网络参数，使用两层图卷积神经网络堆叠组成GCN模块，每一层Co-CNN模块中均使用到一层GCN模块，分别为GCN-1、GCN-2和GCN-3。

进一步的，步骤S102中，每层图卷积神经网络为：

其中，σ代表非线性函数ReLU，

为邻接矩阵A加上单位矩阵I的自循环矩阵，

为

对应的度矩阵，H^(l)为输入的图特征，W^(l)为权重矩阵。

进一步的，步骤S103中，在第一层Co-CNN模块中，将输入的图像帧经过SLIC超像素处理，获取超像素标签构成图g₀，同时使用Conv-1对图像帧进行特征提取获得像素级特征F₁；然后将图g₀输入图下采样模块GI-1，得到图g₁，通过像素级特征F₁和图g₁，构造邻接矩阵A₁和对应矩阵Q₁，获取图特征G₁输入GCN-1模块；GCN-1模块输出图特征G₂，再通过对应矩阵Q₁转化为像素级特征

最后由融合模块conca将像素级特征F₁与

融合，获得特征

将特征

和图g₁输入第二层Co-CNN模块，获取特征

和图g₂；最后再输入第三层Co-CNN模块，获取最终的像素级特征

具体的，步骤S2中，区域提案子网络中，模板分支和检测分支经过Siam-Co-CNNs模块获取的特征

和

进入RPN网络的分类分支，获取二分类结果；模板分支和检测分支经过Siam-Co-CNNs模块获取的特征

和

进入RPN网络的分类分支，获取坐标修正结果。

具体的，步骤S3中，采用随机采样的方法从训练数据集中同一视频的两个帧中提取模板和检测像素块分别输入Siam-Co-CNNs的模板分支和检测分支进行训练；损失函数包括分类损失cls_losses和坐标损失box_losses，分类损失cls_losses使用交叉熵损失函数，坐标损失box_losses使用smooth_L₁损失函数，采用SGD算法进行网络权重优化。

进一步的，训练的初始学习率为3e^-3，最终学习率为e^-5，batchsize为16，共迭代150次，学习率按迭代次数从初始学习率到最终学习率等比衰减。

具体的，步骤S4中，在线跟踪具体为：

S401、将视频转化为图像帧输入系统，并读入第1帧，并在第1帧上标注上待跟踪目标；

S402、利用模板分支提取第1帧图像特征f_exemplar；

S403、读取下一帧，利用检测分支提取当前帧图像特征f_instance；

S404、将特征f_exemplar和f_instance输入区域提案子网络中，获取锚点图像块的二分类结果和坐标修正结果；

S405、在每一帧图像中，取帧图像上一帧图像的目标位置周围的n个窗口进行多尺度变换、特征提取，并使用区域提案子网络进行分类，将分类分数最大的窗口作为跟踪目标；

S406、重复步骤S401～步骤S405直到视频序列处理完毕，得到并输出视频跟踪结果。

本发明的另一个技术方案是，一种基于复合卷积网络的目标跟踪系统，包括：

分支模块，构建孪生复合卷积特征提取子网络Siam-Co-CNNs，组成Siamese结构的模板分支与检测分支；

网络模块，将分支模块提取的模板分支与检测分支的特征图输入区域提案子网络中，组成基于复合卷积网络的目标跟踪网络；

训练模块，使用训练数据集中的视频帧序列，对网络模块构成的基于复合卷积网络的目标跟踪网络进行离线预训练；

跟踪模块，将视频转化为图像帧输入训练模块预训练好的基于复合卷积网络的目标跟踪网络，进行在线跟踪，得到并输出视频跟踪结果。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于复合卷积网络的目标跟踪方法，使用孪生分支网络作为基础结构，分别提取模板帧、检测帧的特征，再输入区域提案子网络中获得分类和回归的结果。该算法在特征提取网络中将卷积神经网络与图卷积神经网络结合，将卷积神经网络提取的像素级特征与图卷积神经网络提取的全局特征融合，综合考虑目标自身空间分布特性与特征空间分布特性，增加目标前景和背景的区分度，更加完善目标的特征表示。这种模式的设计可以对目标更加准确鲁棒的跟踪，提高目标跟踪的准确率和成功率。根据仿真实验结果，该算法在遮挡、形变、目标尺度变化等场景下具有较好的性能，充分验证了该算法在跟踪准确性、成功率和鲁棒性方面的优异性能。

进一步的，步骤S1中，构建孪生复合卷积特征提取子网络Siam-Co-CNNs，Siam-Co-CNNs由两个结构相同且权重共享的网络组成，可以最大化不同标签的表征，并最小化相同标签的表征，有利于后续利用互相关操作在检测帧中根据模板帧来定位到目标。

进一步的，步骤S101中，每个卷积神经网络分支网络均由修改过的AlexNet网络组成，修改后的AlexNet网络中不含有填充结构，满足了平移不变性。

进一步的，步骤S102中，在卷积神经网络分支网络上添加图卷积神经网络，构建Co-CNN模块。Co-CNN模块将卷积神经网络与图卷积神经网络结合，将卷积神经网络提取的像素级特征与图卷积神经网络提取的全局特征融合，综合考虑目标自身空间分布特性与特征空间分布特性，增加目标前景和背景的区分度，更加完善目标的特征表示。

进一步的，步骤S103中，使用三层Co-CNN模块进行堆叠，对视频帧进行特征提取，可以获取视频帧的外表特征以及高维语义特征，增强模型的表达能力。

进一步的，步骤S2中，RPN网络中将模板帧和检测帧经过Siam-Co-CNNs提取到的特征分别输入分类分支和回归分支中。在分类分支中，以模板特征为卷积核，在检测特征上进行互相关操作，获得各个锚点的二分类结果，可以有效地对目标进行前景和背景的区分。在回归分支中，以模板特征为卷积核，在检测特征上进行互相关操作，获得锚点与目标的相对位置差，对目标位置进行回归得到更加精确的目标位置。

进一步的，步骤S3中，采用随机采样的方法从训练数据集中同一视频的两个帧中提取模板和检测像素块输入网络进行训练，这样使得模板帧和检测帧来自于同一个视频序列，仅在目标处有微小的变化，可以使基于复合卷积网络的目标跟踪网络有效的学习到目标的特征，更有效地区分前景和背景。

进一步的，根据参数调优实验证明，训练时的初始学习率为3e^-3，最终学习率为e^-5，batchsize为16，共迭代150次，学习率按迭代次数从初始学习率到最终学习率等比衰减，可以使训练出的模型效果最优。

进一步的，步骤S4中，将视频转化为图像帧输入预训练好的基于复合卷积网络的目标跟踪网络，进行在线跟踪，将离线训练与在线跟踪相结合，可以提高推理速度，有效的提高目标跟踪速度。

综上所述，本发明方法提升了目标的特征表示，在遮挡、形变、目标尺度变化等场景下具有较好的性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为复合卷积特征提取网络Co-CNNs的网络结构图；

图2为区域提案子网络RPN的网络结构图；

图3为基于复合卷积网络的目标跟踪网络的整体网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于复合卷积网络的目标跟踪方法，构建孪生复合卷积特征提取子网络Siam-Co-CNNs；输入区域提案子网络中获得分类和回归的结果；使用训练数据集训练模型；使用测试数据集获取最终的结果。该方法将卷积神经网络提取的像素级特征与图卷积神经网络提取的全局特征融合。图卷积神经网络模块能够提取目标的全局特征，增强目标前景和背景的区分度，增强对目标的特征表示，在视频监控、无人驾驶等领域有重要的意义。

请参阅图所示，本发明一种基于复合卷积网络的目标跟踪方法，包括以下步骤：

构建孪生复合卷积特征提取子网络Siam-Co-CNNs具体为：

每个分支网络由修改过的AlexNet网络组成，分为五个卷积块。将网络中的第一个卷积块记为一组，为Conv-1，Conv-1采用步长为2的11×11的跨步卷积层，然后通过一个BatchNorm层，再通过一个步长为2的3×3的最大池化层，最后通过非线性函数ReLU层；第二个卷积块记为一组，为Conv-2，Conv-2采用5×5的标准卷积层，然后通过一个BatchNorm层，再通过一个步长为2的3×3的最大池化层，最后通过非线性函数ReLU层；第三、四、五个卷积块记为一组，为Conv-3，Conv-3采用3×3的标准卷积层，然后通过一个BatchNorm层，再通过一个非线性函数ReLU层，然后通过一个3×3的标准卷积层，然后通过一个BatchNorm层，再通过一个非线性函数ReLU层，然后通过一个3×3的标准卷积层，再通过一个BatchNorm层，最后通过一个非线性函数ReLU层；两个分支网络的网络结构相同，共享同一组网络参数。

将输出相同尺寸特征图像的卷积网络和图卷积网络融合，组成Co-CNN模块，Co-GCN模块由两层图卷积神经网络层组成，每层图卷积神经网络为：

其中，σ代表非线性函数ReLU，

为邻接矩阵A加上单位矩阵I的自循环矩阵，

为

对应的度矩阵。

S103、将Co-CNN模块堆叠组成孪生复合卷积特征提取子网络Siam-Co-CNNs。

Siam-Co-CNNs由3组融合堆叠Co-CNN模块而成，每组包含1个卷积网络和图卷积网络的融合模块。

请参阅图1，在第一层Co-CNN模块中，首先将输入的图像帧经过SLIC超像素处理，获取超像素标签构成图g₀，同时使用Conv-1对图像帧进行特征提取获得像素级特征F₁；然后将g₀输入图下采样模块GI-1，得到图g₁，通过像素级特征F₁和图g₁，构造邻接矩阵A₁和对应矩阵Q₁，获取图特征G₁输入GCN-1模块；GCN-1模块输出图特征G₂，再通过对应矩阵Q₁转化为像素级特征

最后由融合模块concat将像素级特征F₁与

融合，获得特征

将特征

和图g₁输入第二层Co-CNN模块，获取特征

S2、将Siam-Co-CNNs提取的模板分支与检测分支的特征图输入区域提案子网络中，组成基于复合卷积网络的目标跟踪网络；

请参阅图2，RPN网络由分类分支和回归分支两部分组成，RPN分支的锚点数量为k个。模板分支和检测分支经过Siam-Co-CNNs获取的特征

和

进入RPN网络的分类分支，分别通过步长为1的3×3的跨步卷积，再以模板特征图作为卷积的内核，在检测特征图上进行卷积操作，输出2k个通道，获取每个锚点的二分类结果；模板分支和检测分支经过Siam-Co-CNNs获取的特征

和

进入RPN网络的分类分支，分别通过步长为1的3×3的跨步卷积，再以模板特征图作为卷积的内核，在检测特征图上进行卷积操作，再通过一个1×1的普通卷积，输出4k个通道，获取每个锚点的坐标修正结果，整体结构图如图3所示。

S3、使用训练数据集中的视频帧序列，对基于复合卷积网络的目标跟踪网络进行离线预训练；

训练时采用随机采样的方式分别选择训练数据集同一视频序列中不同的两帧，根据数据集提供的标签，裁剪出127×127的模板帧和271×271的检测帧，输入进网络中进行训练。

模型训练时将初始学习率设定为3e^-3，最终学习率设定为e^-5，batchsize设定为16。模型训练共迭代150次，学习率按迭代次数从初始学习率到最终学习率等比衰减。

模型损失函数由分类损失cls_losses和坐标损失box_losses组成，cls_losses使用交叉熵损失函数，box_losses使用smooth_L₁损失函数。采用SGD算法进行网络权重优化。

S4、将视频转化为图像帧输入系统，并在第一帧上标注上待跟踪目标，进行在线跟踪，得到并输出视频跟踪结果。

在线跟踪的步骤具体为：

S402、利用模板分支提取第1帧图像特征f_exemplar；

S405、在每一帧图像中，取该帧图像的上一帧图像的目标位置周围的n个窗口进行多尺度变换、特征提取，并使用区域提案子网络进行分类，分类分数最大的窗口即为跟踪目标；

本发明再一个实施例中，提供一种基于复合卷积网络的目标跟踪系统，该系统能够用于实现上述于复合卷积网络的目标跟踪方法，具体的，该于复合卷积网络的目标跟踪系统包括模块、模块、模块、模块以及模块。

其中，分支模块，构建孪生复合卷积特征提取子网络Siam-Co-CNNs，组成Siamese结构的模板分支与检测分支；

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合仿真结果对本发明的效果做进一步说明

1.实验平台

本发明的仿真试验硬件平台为：NVIDIA RTX 2080Ti，11G显存。

本发明的软件平台为：Windows10操作系统、python3.6、pytorch1.2.0

2.实验数据集

本发明的训练数据集使用的是中科院发布的GOT-10k目标跟踪数据集，包含9335个目标视频序列，共有563个目标类别，标签由专家手工标记。

本发明的测试数据集使用的是OTB100数据集，共有98个视频序列，涉及到灰度图像和彩色图像，也涉及到目标跟踪的11个属性，包括光照变化、尺度变化、遮挡、形变、运动模糊、快速运动、平面内旋转、平面外旋转、出视野、背景干扰、低像素。

3.仿真实验评价指标

N表示整个视频序列所有的帧数。

精确度曲线图(precession plot)：预测位置中心点与benchmark中标注的中心位置间的欧式距离小于给定阈值的视频帧的百分比为距离精度(DistancePrecision，DP)。以一定范围内的距离阈值(为0到50)为横轴，以距离精度为纵轴绘制出的曲线即为精确度曲线图。

成功率曲线图(successionplot)：首先定义重合率得分(overlap score，OS)，跟踪算法得到的边界框bounding box(记为a)，与ground-truth给出的标注边界框(记为b)，重合率定义为OS，其中|·|表示区域的像素数目。以一定范围内的重叠阈值(一般为0到1)为横轴，以重叠精度(Overlap Precision,OP)为纵轴绘制出的曲线即为成功率曲线图。

4.实验结果

表1

	DP	OP
			SiamRPN	0.655	0.482
Siam-Co-CNN-RPN	0.748	0.559

表1中的SiamRPN是基准网络，使用包含两个结构相同、参数共享的分支网络进行特征提取，再输入RPN获得最终的跟踪结果。

表1代表数据在不同方法下的数值指标，通过上述表格可知，Siam-Co-CNN-RPN具有较好的表现，在DP和OP上相对于SiamRPN均有提升。

综上所述，本发明一种基于复合卷积网络的目标跟踪方法及系统，将卷积神经网络特征与图神经网络特征进行融合，设计了一种基于复合卷积网络的目标跟踪算法。将卷积神经网络提取的像素级特征与图卷积神经网络提取的全局特征融合，综合考虑目标自身空间分布特性与特征空间分布特性，更加完善目标的特征表示，实现对目标更加准确鲁棒的跟踪。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于复合卷积网络的目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S1中，构建孪生复合卷积特征提取子网络Siam-Co-CNNs具体为：

3.根据权利要求2所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S101中，每个卷积神经网络分支网络均由修改过的AlexNet网络组成，将卷积神经网络分支网络中的第一个卷积块记为Conv-1，第二个卷积块记为Conv-2，第三、四、五个卷积块记为Conv-3；两个卷积神经网络分支网络的网络结构相同，共享同一组网络参数，使用两层图卷积神经网络堆叠组成GCN模块，每一层Co-CNN模块中均使用到一层GCN模块，分别为GCN-1、GCN-2和GCN-3。

4.根据权利要求2所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S102中，每层图卷积神经网络为：

其中，σ代表非线性函数ReLU，

为邻接矩阵A加上单位矩阵I的自循环矩阵，

为

对应的度矩阵，H^(l)为输入的图特征，W^(l)为权重矩阵。

5.根据权利要求2所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S103中，在第一层Co-CNN模块中，将输入的图像帧经过SLIC超像素处理，获取超像素标签构成图g₀，同时使用Conv-1对图像帧进行特征提取获得像素级特征F₁；然后将图g₀输入图下采样模块GI-1，得到图g₁，通过像素级特征F₁和图g₁，构造邻接矩阵A₁和对应矩阵Q₁，获取图特征G₁输入GCN-1模块；GCN-1模块输出图特征G₂，再通过对应矩阵Q₁转化为像素级特征

最后由融合模块concat将像素级特征F₁与

融合，获得特征

将特征

和图g₁输入第二层Co-CNN模块，获取特征

6.根据权利要求1所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S2中，区域提案子网络中，模板分支和检测分支经过Siam-Co-CNNs模块获取的特征

和

和

进入RPN网络的分类分支，获取坐标修正结果。

7.根据权利要求1所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S3中，采用随机采样的方法从训练数据集中同一视频的两个帧中提取模板和检测像素块分别输入Siam-Co-CNNs的模板分支和检测分支进行训练；损失函数包括分类损失cls_losses和坐标损失box_losses，分类损失cls_losses使用交叉熵损失函数，坐标损失box_losses使用smooth_L₁损失函数，采用SGD算法进行网络权重优化。

8.根据权利要求7所述的基于复合卷积网络的目标跟踪方法，其特征在于，训练的初始学习率为3e^-3，最终学习率为e^-5，batchsize为16，共迭代150次，学习率按迭代次数从初始学习率到最终学习率等比衰减。

9.根据权利要求1所述的基于复合卷积网络的目标跟踪方法，其特征在于，步骤S4中，在线跟踪具体为：

S402、利用模板分支提取第1帧图像特征f_exemplar；

10.一种基于复合卷积网络的目标跟踪系统，其特征在于，包括：