CN112330718B

CN112330718B - 一种基于cnn的三级信息融合视觉目标跟踪方法

Info

Publication number: CN112330718B
Application number: CN202011259436.4A
Authority: CN
Inventors: 罗元; 蔡元霄
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-08-23
Anticipated expiration: 2040-11-12
Also published as: CN112330718A

Abstract

本发明请求保护一种基于CNN的三级信息融合视觉目标跟踪方法。包括以下步骤S1：提取模板图像和检测序列图像，进行图像预处理；S2：模板图像和检测图像作为两个分支同时输入网络，网络框架采用Siamese孪生网络；S3：网络选取改进后的VGG‑11，通过三级网络融合策略，提取三个层次的卷积特征；S4：对三个层次的特征分别进行相关操作，构建三个层次的得分图；S5：对三个层次的得分图进行融合；S6：使用融合得分图输出结果。本发明有效提高了视觉目标跟踪的准确性和鲁棒性。

Description

一种基于CNN的三级信息融合视觉目标跟踪方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种深度学习和孪生网络的视觉目标跟踪方法。

背景技术

视觉目标跟踪作为图像处理与模式识别的重要分支，是人工智能中具有重要研究意义的课题。其任务是指定当前图像序列中的一个特定目标，在随后图像序列播放过程中，使用矩形边界框将该特定目标锁定，实现跟踪效果。当前该方向已经发展到基于深度学习解决非约束环境下的跟踪问题。随着5G技术的普及与计算机算力的加强，视觉目标技术受到了更多的重视，其应用场景也更为广阔。智能服务机器人通过摄像头采集视频信号，然后确定跟踪目标，最后自动地对目标进行跟踪并提供相应的服务。在汽车行驶过程中，判断车辆和周围事物的运动状态，对汽车的速度和行进轨迹进行调整。当前的医疗影响涵盖丰富的人体信息，诗句目标跟踪可以找到对应的目标信息，在整个医疗影像中进行跟踪，从而实现更精准的临床诊断。除此之外，视觉目标跟踪技术在人机交互、视觉导航、农业自动化生产等领域有着至关重要的地位。

发明内容

针对现有技术的不足，本发明提出了一种具有更高准确率、鲁棒性的视觉目标跟踪方法。

为了实现上述目的，本发明采用的技术方案是，一种基于CNN的三级信息融合视觉目标跟踪方法，包括以下步骤：

S1：对当前序列图像，提取模板图像和检测图像，进行图像预处理。

S2：采用Siamese孪生网络构建整体网络框架，将模板图像和检测图像分别输入两个相同的分支网络进行同步处理，分支网络采用改进后的VGG-11网络。 VGG-11相比Siamese框架自带的AlexNet能够带来更好的特征提取能力，提升系统的性能。

S3：改进后的VGG-11网络采用三级网络融合策略，将整个网络分为浅层、中层、深层三个部分，通过CNN分别提取三个部分的各层卷积特征，对每个部分的各层卷积特征进行融合，得到特征图。

S4：对两个分支网络中三个部分的特征图，按照浅层、中层、深层三个层次分别进行相关操作，构建三个层次的得分图。

S5：对步骤S4中三个层次的得分图进行融合，构建出最终得分图。

S6：使用最终得分图输出跟踪结果。

本发明通过三级融合策略，浅层的外观特征将和深层的语义特征相融合，共同构建当前目标的特征图，能够在准确分类的情况下实现更精准的定位。步骤S5通过三级融合策略获得的融合特征图，将在得分图这一维度进行进一步融合，以达到充分利用各级别特征信息的目的。

在测试数据集OTB2015中，本方法获得了0.886的准确率和0.655的成功率，相比同样的Siamese框架跟踪器分别提升9.52％和7.91％。；在测试数据集 VOT2016中，本方法获得了0.3896的准确率和15.7913的鲁棒性，相比同框架跟踪器分别提升14.22％和21.56％。所以本发明具有更高准确率、鲁棒性。

附图说明

图1为Siamese网络框图；

图2为VGG-11网络；

图3为浅层到深层特征尺寸变化图；

图4为三级信息融合流程图。

具体实施方式

参见图1，一种基于CNN的三级信息融合视觉目标跟踪方法，其包括以下步骤：

S1：对当前序列图像，选取第一帧为模板图像，后续帧为检测图像，进行图像预处理，以视觉目标为中心对图像进行裁剪，模板图像大小裁剪为127×127，检测图像大小裁剪为255×255，裁剪时超出的范围使用图像的RGB均值进行填充。

S2：采用Siamese孪生网络作为整体框架，即模板图像和检测图像将分别输入两个相同的分支进行同步处理，分支网络采用改进后的VGG-11网络；网络的两个分支共享权重，分别将两个输入送入两个分支，输出他们的相似度。从而将目标跟踪转换成相似性学习问题，这很好的匹配了目标跟踪的本质，即求取模板图像和检测图像的相似度。

S3：对每个分支，采用三级信息融合策略，将整个VGG网络分为浅层、中层、深层三个部分，对每个部分的各层卷积特征进行融合。具体的，第三层卷积层conv3将通过3×1卷积和conv4构建浅层融合特征图，然后孪生网络的一对浅层融合特征图通过4×256卷积构建浅层得分图；同理，conv5、conv6、conv7 通过3×1卷积构建中层融合特征图，再通过2×256卷积构建中层得分图；conv8、conv9、conv11通过3×1卷积构建深层融合特征图，最后得到深层得分图。如图 3和图4所示。

如图2和下表所示，VGG-11将网络层数从16层减少到11层，在2层和3 层，4层和5层，7层和8层之间设置最大池化层。将11层网络分为浅层、中层、深层三个级别，其中3、4层为浅层，5、6、7层为中层，8、9、11层为深层。浅层特征包含更多的外观信息，具有更好的定位属性；深层特征包含更多的语义信息，具有更好的分类属性；中层特征居中。

S4：根据Siamese孪生框架，在三个层次，分别将对应的融合特征进行相关操作，构建出三个层次的得分图，公式为S(z,x)＝f(φ(z),φ(x))；其中z表示模板图像，x表示检测图像，φ(·)表示图像的特征表示，f(·)表示相关操作，S(z,x)表示模板图像和检测图像之间的相似性，网络的目标就是获取以上公式的最大值。

S5：对三个层次的得分图进行融合，构建出最终得分图，公式为 S(z,x)＝S1(z,x)+S2(z,x)+S3(z,x)，其中S1(z,x)，S2(z,x)，S3(z,x)分别表示浅层、中层、深层的得分图。

S6：使用最终得分图输出跟踪结果。

S7：使用训练集对上述网络进行大数据训练，采用随机梯度下降法进行优化，公式为

其中L(y[u],v[u])表示损失函数，u是得分图上任一点，v[u]是该点模板-检测图像对的相似性得分，y[u]是该点的实际标签，D表示整张得分图范围，本发明通过随机梯度下降(SGD)优化损失函数来获得网络的权重参数θ。其中，根据得分图上u据目标中心点的距离定义y[u](k表示网络步长，c为目标中心点， R表示事先设定的阈值半径)

S8：使用验证集对训练后的模型进行验证，调整模型的超参数，包括迭代批次、批次大小和学习率。验证指标包括准确性和鲁棒性；准确性公式为

其中a表示实际边界框，b表示检测边界框。

鲁棒性为

其中failure表示跟踪失败的帧数，sum表示视频总的帧数。

S9：利用最终模型，当输入图像序列后，模型将自动提取第一帧作为模板图像，其余帧图像作为检测图像。两类图像将分别输入Siamese孪生网络的两个分支，并进入VGG-11网络提取特征。在此过程中采用三级信息融合策略构建最终得分图，根据得分图中最高分值点的位置预测出视觉目标的位置。

Claims

1.一种基于CNN的三级信息融合视觉目标跟踪方法，其特征在于，包括以下步骤：

S1：对当前序列图像，提取模板图像和检测图像，进行图像预处理；

S2：采用Siamese孪生网络构建整体网络框架，将模板图像和检测图像分别输入两个相同的分支网络进行同步处理，分支网络采用改进后的VGG-11网络；

S3：改进后的VGG-11网络采用三级网络融合策略，将整个网络分为浅层、中层、深层三个部分，分别提取三个部分的各层卷积特征，对每个部分的各层卷积特征进行融合，得到特征图；所述改进后的VGG-11网络将网络层数从16层减少到11层，在2层与3层，4层与5层，7层与8层之间分别设置最大池化层，将11层网络分为浅层、中层、深层三个级别，其中3和4层为浅层，5、6和7层为中层，8、9和11层为深层；

S4：对两个分支网络中三个部分的特征图，按照浅层、中层、深层三个层次分别进行相关操作，构建三个层次的得分图，公式表示为：

S(z,x)＝f(φ(z),φ(x))

其中z表示模板图像，x表示检测图像，φ(·)表示图像的特征表示，f(·)表示相关操作，S(z,x)表示模板图像和检测图像之间的相似性；

S5：对步骤S4中三个层次的得分图进行融合，构建出最终得分图，公式为S(z,x)＝S1(z,x)+S2(z,x)+S3(z,x)，其中S1(z,x)，S2(z,x)，S3(z,x)分别表示浅层、中层、深层的得分图；

S6：使用最终得分图输出跟踪结果。

2.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法，其特征在于：所述提取模板图像和检测图像具体为，选取第一帧为模板图像，后续帧为检测图像。

3.根据权利要求1所述一种基于CNN的三级信息融合视觉目标跟踪方法，其特征在于：还包括使用训练集对整体网络进行训练，使用验证集对训练后的网络模型进行验证，调整模型的超参数。

4.根据权利要求3所述一种基于CNN的三级信息融合视觉目标跟踪方法，其特征在于：所述使用训练集对整体网络进行训练时，使用逻辑损失进行训练：

其中，L(y[u],v[u])表示损失函数，u是得分图上任一点，v[u]是该点模板-检测图像对的相似性得分，y[u]是该点的实际标签，D表示整张得分图范围。

5.根据权利要求1或2或3或4所述一种基于CNN的三级信息融合视觉目标跟踪方法，其特征在于：步骤S1所述图像预处理包括，以视觉目标为中心对图像进行裁剪，模板图像大小裁剪为127×127，检测图像大小裁剪为255×255，裁剪时超出的范围使用图像的RGB均值进行填充。