CN109242884A

CN109242884A - 基于JCFNet网络的遥感视频目标跟踪方法

Info

Publication number: CN109242884A
Application number: CN201810919925.4A
Authority: CN
Inventors: 焦李成; 宋纬; 李宇轩; 张文华; 刘旭; 李玲玲; 冯志玺; 唐旭; 侯彪; 杨淑媛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-01-18
Anticipated expiration: 2038-08-14
Also published as: CN109242884B

Abstract

本发明公开了一种基于JCFNet网络的遥感视频目标追踪方法，用于解决现有遥感视频目标跟踪方法存在的被遮挡目标无法跟踪、存在偏角现象的遥感视频无法跟踪、必须人为给定目标的准确初始位置和复杂场景下小目标的跟踪效果不理想等不足导致的跟踪精度较低和鲁棒性较弱的技术问题，包括如下步骤：获取训练所需的数据集；构建多尺度融合扩张卷积模块；获取尺度融合残差子网络、多尺度融合子网络和尺度融合相关滤波子网络并进行训练；构建跟踪修正模块和遮挡修正模块；获取JCFNet网络；获取目标跟踪结果。本发明提出的JCFNet网络相比于现有方法明显地提高了跟踪精度和鲁棒性。

Description

基于JCFNet网络的遥感视频目标跟踪方法

技术领域

本发明属于视频处理技术领域，涉及一种遥感视频目标跟踪方法，具体涉及一种基于JCFNet网络的遥感视频目标跟踪方法，可广泛应用于城乡规划、智能城建和路况监测等领域。

背景技术

目标跟踪是计算机视觉领域中的一个重要研究方向，在视频监控、人机交互和无人驾驶等方面有广泛的应用。目标跟踪根据处理数据的类型不同，可以分成自然视频目标跟踪和遥感视频目标跟踪两大类。

相比于自然视频，遥感视频的拍摄高度更高，导致遥感视频难以达到自然视频的分辨率水平(吉林一号遥感卫星拍摄的遥感视频分辨率为0.9米)，使得应用于自然视频的目标跟踪算法移植到遥感视频上精度就会大幅度下降，尤其是对于车辆这样的小尺寸目标(在遥感视频中汽车的尺寸一般在6*6个像素左右)的跟踪精度更加不理想；此外，拍摄遥感视频的卫星是在不停移动的，因此遥感视频成像后会存在或大或小的偏角问题，即视频会向着一个方向整体位移，虽然对于存在小偏角问题的遥感视频可以通过后期处理消除偏角问题，但对于存在大偏角问题的遥感视频仍没有方法可以将偏角问题完全消除，这样就给遥感视频目标跟踪带来更大的挑战。

目前，目标跟踪领域的算法大多基于相关滤波(Correlation Filter)，相关滤波的基本思想是设计一个滤波模板，将该模板与跟踪目标第一帧的感兴趣区域做卷积运算，不断修正滤波模板直到最大输出响应点为被跟踪目标的中心点，之后使用修正完成的模板与目标其余帧的感兴趣区域做卷积运算，根据最大输出响应点确定目标位置完成跟踪。

对于遥感视频的目标跟踪算法同样多是基于相关滤波，例如，Bo Du等人在其发表的论文“Object Tracking in Satellite Videos by Fusing the Kernel CorrelationFilter and the Three-Frame-Difference Algorithm”中提出了一种基于核相关滤波(Kernel Correlation Filter)和三帧差分算法(Three-Frame-Difference Algorithm)融合的遥感视频目标跟踪方法Tracker Fusion，该方法的步骤是：(1)已知目标在t-2和t-1帧的边界框，其中，t≥3；(2)将t-2、t-1和t帧图像送入三帧差分算法得到目标在t帧的边界框b_t,1；(3)将目标在t-1帧的位置和第t帧图像输入核相关滤波得出目标在t帧的边界框b_t,2；(4)围绕目标在t-1帧的位置生成8个候选框；(5)将8个候选框依次计算与b_t,1和b_t,2的引力值(相似度)；(6)将引力值最大的候选框作为目标在t帧的边界框；(7)重复步骤(2)到(6)对下一帧进行跟踪。虽然这个方法实现了对于遥感视频中目标尤其是小尺寸目标的跟踪，但是，该方法仍存在一些不足之处：首先，只能跟踪没有尺寸变化的目标，对于被遮挡的目标无法跟踪；其次，只适用于没有偏角的遥感视频，对于存在偏角现象的遥感视频中的目标无法进行跟踪；然后，必须人为给定被跟踪目标的准确初始位置；最后，只对周边场景纯净的小尺寸目标有较好的跟踪效果，对于复杂场景下小目标的跟踪效果不理想。这些不足导致了算法的跟踪精度较低和鲁棒性较弱。

发明内容

本发明的目的在于克服上述现有技术的不足，提出了一种基于JCFNet网络的遥感视频目标跟踪方法，用以解决现有遥感视频目标跟踪方法中存在的跟踪精度较低和鲁棒性较弱的技术问题。

为了实现上述目的，本发明实现的具体步骤包括如下：

(1)获取训练JCFNet网络所需的数据集：

(1a)获取子数据集D1：

采用滑窗取块方法对帧数为F的原始遥感视频A中的第一帧图像进行分割，得到B个大小为C*C的图像块，对每个图像块中的场景进行标注，并将半数以上的图像块和对场景进行标注后得到的类标作为训练集，其余部分中的一半作为验证集，另一半作为测试集，组成子数据集D1，其中，F≥2，B≥500，512≥C≥64；

(1b)获取子数据集D2：

对帧数为F的原始遥感视频A的第一帧图像中的H个目标标记边界框，记录每个边界框左上顶点坐标、边界框的宽度和高度，组成H个类标，并采用中心点取块的方法，以每个类标为输入对A中的第一帧图像进行分割，得到H个大小为C*C的图像块，将H个图像块和对应的类标中超过半数的作为训练集，其余的一半作为验证集，另一半作为测试集，组成子数据集D2，其中，H≥100，512≥C≥64；

(1c)获取子数据集D3：

(1c1)以从D2中随机选取的J个类标中的第i个类标为输入，采用中心点取块的方法对视频A中除第一帧以外的图像进行分割，得到由F-1个大小为L*L图像块组成的视频块，对视频块中每个图像块包含的目标标记边界框，并将所有边界框的参数按照所标记图像块对应图像的帧数从低到高排序存储为一个类标，其中，J≥100，J≥i≥1，512≥L≥64，边界框的参数包含边界框左上顶点的坐标和边界框的宽度和高度；

(1c2)按照步骤(1c1)的方法对J个类标中除第i个以外的类标逐个进行处理，并将步骤(1c2)和步骤(1c1)的处理得到的J个视频块和类标中半数以上的视频块和类标作为训练集，其余部分中一半作为验证集，另一半作为测试集，组成子数据集D3；

(1d)获取子数据集D4：

对从帧数为F的原始遥感视频A包含的第一帧图像中随机选取的K个目标标记边界框，记录和边界框的宽度和高度，以每个边界框的中心点坐标为中心，以边界框宽度和高度2倍尺寸从第一帧图像中截取图像块P_crop，通过双线性插值对P_crop进行上采样，得到大小为E*E的图像P_upsample，并对P_upsample中的目标标记边界框，同时记录边界框的左上顶点坐标和边界框宽度和高度，生成K个类标，最终获取K个大小为E*E的上采样图像块及其对应的检测类标，将其中半数以上的数据和类标作为训练集，其余部分中一半作为验证集，另一半作为测试集，组成子数据集D4，其中，K≥100，255≥E≥64；

(2)构建多尺度融合扩张卷积模块：

构建包含M个并联的瓶颈子模块的多尺度融合扩张卷积模块，每个瓶颈子模块中包含扩张卷积模块和重排模块，扩张卷积模块的一个输出端与重排模块的输入端相连，另一个输出端与重排模块的输出端相连；

(3)获取尺度融合残差子网络并对其进行训练：

在UNet网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到尺度融合残差子网络，并将子数据集D1输入到尺度融合残差子网络中进行训练，得到训练好的尺度融合残差子网络；

(4)获取多尺度融合子网络并对其进行训练：

在SSD网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到多尺度融合子网络，并将子数据集D2输入到多尺度融合子网络进行训练，得到训练好的多尺度融合子网络；

(5)获取尺度融合相关滤波子网络并对其进行训练：

在CFNet网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到尺度融合相关滤波子网络，并将子数据集D3输入到尺度融合相关滤波子网络进行训练，得到训练好的尺度融合相关滤波子网络；

(6)构建跟踪修正模块：

将子数据集D4输入到轻量级目标检测网络中进行训练，并将训练好的轻量级目标检测网络作为目标检测子模块，构建包含依次相连的判别子模块、上采样子模块、目标检测子模块和结果替换子模块的跟踪修正模块；

(7)构建遮挡修正模块：

构建包含依次相连的计数子模块、上采样子模块、相似度计算子模块、判别子模块和目标搜索子模块的遮挡修正模块；

(8)获取JCFNet网络：

将尺度融合残差子网络的输出和多尺度融合子网络的输出与尺度融合相关滤波子网络的输入连接，并将遮挡修正模块和跟踪修正模块依次与尺度融合相关滤波子网络的输出连接，组成JCFNet网络；

(9)获取遥感视频目标跟踪结果：

将子数据集D3测试集中的视频块输入到JCFNet网络中，得到视频块每帧中目标的类别与位置。

本发明与现有技术相比，具有以下优点：

第一，本发明采用的JCFNet网络中的遮挡修正模块，可以对被遮挡而造成尺寸变化的目标进行有效跟踪，避免了现有技术中因为需要计算引力值而要求每帧之间目标尺寸必须相同导致被遮挡目标无法跟踪的缺陷，提高了跟踪精度和鲁棒性。

第二，本发明采用的JCFNet网络中的跟踪修正模块，可以对存在偏角现象的遥感视频中的目标进行跟踪，避免了现有技术中使用三帧差分算法进行目标跟踪导致算法对于存在偏角现象的遥感视频中的目标无法跟踪的情况，提高了鲁棒性。

第三，本发明采用的JCFNet网络，采用尺度融合残差子网络和多尺度融合子网络相结合的方式自行检测出遥感视频中存在的目标，JCFNet网络中的跟踪修正模块可以在跟踪过程中对边界框进行实时修正，避免了现有技术中必须人为给定被跟踪目标的准确初始位置的情况，提高了鲁棒性。

第四，本发明采用的JCFNet网络中的多尺度融合扩张卷积模块，能够提取输入图像的多尺度特征信息，提升了对于小尺寸目标的特征提取能力，可以对复杂场景下的小目标进行有效跟踪，避免了现有技术中使用三帧差分算法跟踪小尺寸目标导致算法只对周边场景纯净的小尺寸目标有较好的跟踪效果，对于复杂场景下小目标的跟踪效果不理想的情况，提高了跟踪精度和鲁棒性。

附图说明

图1是本发明提出的JCFNet网络的结构示意图；

图2是本发明提出的多尺度融合扩张卷积模块的结构示意图；

图3是本发明提出的跟踪修正模块的结构示意图；

图4是本发明提出的遮挡修正模块的结构示意图；

图5是本发明提出的JCFNet网络与对比算法Tracker Fusion的跟踪效果图；

图6是本发明提出的JCFNet网络与对比算法Tracker Fusion的精度对比图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

步骤1，获取训练JCFNet网络所需的数据集，通过如下步骤实现：

步骤1a，获取子数据集D1：采用滑窗取块的方式对遥感视频第一帧图像(12000*5000)进行分割，将其高宽扩充为512的倍数(12288*5120)，设分割框的左上点坐标为(x*y)，根据左上点坐标确定512*512的分割框完成滑窗取块，将得到的图像块进行标注，标注的场景分为水域、机场、道路和其他四部分，得到对应的类标，随机取70％的图像块和对应类标作为训练集，剩余的随机取30％作为验证集，再剩余的全部作为测试集，得到子数据集，其中，x,y∈(1+256a,1+256b)，a∈[0,1,…,46]，b∈[0,1,…,18]；

步骤1b，获取子数据集D2：对遥感视频第一帧图像(12000*5000)周围补零使得宽度及高度变为(12255*5255)，之后对图中的飞机、舰船、车辆三类目标进行标注，以边界框中心点取256*256的图像块，图像块上的边界框参数作为类标，随机取70％的图像块和对应类标作为训练集，剩余的随机取30％作为验证集，再剩余的全部作为测试集，得到子数据集；

步骤1c，获取子数据集D3：从D2中随机选取500个类标为输入，采用中心点取块的方法对遥感视频中除第一帧以外的图像进行分割，每个类标都能分割出299个大小为256*256图像块，将299个图像块组成1个视频块，对视频块中每帧包含的目标标记边界框，并将所有边界框的参数按照所标记图像块对应图像的帧数从低到高排序存储为一个类标，随机取70％的视频块和对应类标作为训练集，剩余的随机取30％作为验证集，再剩余的全部作为测试集，得到子数据集；

步骤1d，获取子数据集D4：对从原始遥感视频包含的第一帧图像中随机选取的500个目标标记边界框，记录和边界框的宽度及高度，以每个边界框的中心点坐标为中心，以边界框宽度及高度2倍尺寸从第一帧图像中截取图像块P_crop，通过双线性插值对P_crop进行上采样，得到大小为256*256的图像P_upsample，并对P_upsample中的目标标记边界框，同时记录边界框的左上顶点坐标和边界框宽度及高度作为类标，随机取70％的P_upsample和对应类标作为训练集，剩余的随机取30％作为验证集，再剩余的全部作为测试集，得到子数据集。

步骤2，构建多尺度融合扩张卷积模块，通过如下步骤实现：

构建3个并联的瓶颈子模块I、II和III，每个瓶颈子模块中包含扩张卷积模块和重排模块，扩张卷积模块的一个输出端与重排模块的输入端相连，另一个输出端与重排模块的输出端相连，子模块I、II和III的扩张系数模块分别包含对应扩张系数为1、2、5卷积核大小为3*3的扩张卷积，重排模块均包含依次相连的1*1的前置组卷积、通道重排、3*3的深度向卷积和1*1的后置组卷积，对于每一个瓶颈子模块，将扩张卷积模块与重排模块的输出逐元素相加，得到瓶颈子模块的输出，最后将3个瓶颈子模块的输出级联在一起得到多尺度融合扩张卷积的输出，多尺度融合扩张卷积构建完成。

步骤3，获取尺度融合残差子网络并对其进行训练：

在UNet网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到尺度融合残差子网络，并将子数据集D1的训练集与验证集输入到尺度融合残差子网络中进行训练，用D1的测试集进行检测，当检测结果的准确率超过85％时，停止训练，得到训练好的尺度融合残差子网络。

步骤4，获取多尺度融合子网络并对其进行训练：

在SSD网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到多尺度融合子网络，并将子数据集D2的训练集与验证集输入多尺度融合子网络进行训练，用D2的测试集进行检测，当检测结果的准确率超过85％时，停止训练，得到训练好的多尺度融合子网络。

步骤5，获取尺度融合相关滤波子网络并对其进行训练：

在CFNet网络的相邻卷积层之间各插入一个多尺度融合扩张卷积模块，得到尺度融合相关滤波子网络，并将子数据集D3的训练集与验证集输入尺度融合相关滤波子网络进行训练，用D3的测试集进行检测，当检测结果的IOU超过75％时，停止训练，得到训练好的尺度融合相关滤波子网络。

步骤6，构建跟踪修正模块：

步骤6a，将子数据集D4的训练集与验证集输入到MobileNet中进行训练，用D3的测试集进行检测，当检测结果的准确率超过85％时，停止训练，得到训练好的轻量级目标检测网络；

步骤6b，预设集合A和B，在尺度融合相关滤波子网络对视频内的目标进行跟踪时，对于出现在F帧的目标，将该目标归类入集合A，F+20帧之后将该目标从集合A移入集合B，跟踪修正模块的输入为尺度融合相关滤波子网络每帧的输出，判别子模块首先判别输入属于集合A还是B，若属于集合A，从该目标出现的帧数F开始至第F+20帧，每隔3帧将该目标的跟踪结果输入上采样子模块，若属于集合B，以系统跟踪帧数为基准，每隔10帧将结果输入上采样子模块，上采样子模块生成上采样图像K(步骤1d中生成P_upsample的方法)，将K输入目标检测子模块(MobileNet)得出检测结果，用结果替换子模块(检测结果替代跟踪结果)生成跟踪修正模块的输出。

步骤7，构建遮挡修正模块：

步骤7a，使用计数子模块从目标出现的第一帧开始计数，每隔10帧，取该目标当前帧与前3帧的跟踪结果，输入上采样子模块(步骤1d中生成P_upsample的方法)生成两张上采样图像P_{upsample_pre}和P_{upsample_R-T}；

步骤7b，将P_{upsample_pre}和P_{upsample_R-T}输入相似度计算子模块：

相似度计算子模块利用结构相似性对P_{upsample_pre}和P_{upsample_R-T}的相似度进行度量，分别从亮度l、对比度c和结构s度量图像的相似度，计算公式分别为：

其中，μ_X和μ_Y分别表示图像X和Y的均值，σ_X和σ_Y分别表示图像X和Y的方差，σ_XY表示图像X和Y的协方差，C₁、C₂和C₃为常数，为了避免分母为0的情况，相似度总的计算公式为：

SSIM(X,Y)＝l(X,Y)·c(X,Y)·s(X,Y)

相似度的取值范围为[0,1]，值越大代表两张图像相似度越高；

步骤7c，使用判别子模块，若相似度低于0.6则认定目标被遮挡，转入步骤7d，若相似度大于等于0.6则认定目标未被遮挡，结束遮挡修正，直接转入对下一帧目标的跟踪；

步骤7d，提取该目标前10帧的跟踪结果输入目标搜索子模块：

目标搜索子模块预测运动轨迹的公式为：

其中，L(P)代表当前帧之后的第P帧的目标预测位置，L(N-1)代表当前位置前一帧的目标位置，L(N-R)代表当前位置前R帧的目标位置；

沿着预测轨迹在从当前帧开始逐帧生成预测框，将预测框参数输入上采样子模块得到图像P_{upsample_pre}，将P_{upsample_pre}与P_{upsample_R-T}输入相似度计算子模块得出二者的相似度，若在10帧内相似度大于等于0.6则认定重新寻得目标，若相似度始终低于0.6则认定目标丢失，停止对此目标的跟踪。

步骤8，获取JCFNet网络：

将尺度融合残差子网络与多尺度融合子网络并联构建检测模块，检测模块的输出端与尺度融合相关滤波子网络的输入端相连接，尺度融合相关滤波子网络的每帧输出与遮挡修正模块的输入端相连，遮挡修正模块的输出端与跟踪修正模块的输入端相连接，获取JCFNet网络。

步骤9，获取遥感视频目标跟踪结果：

步骤9a，子数据集D3的测试集中有105个视频块，假设对其中第Y个视频块进行目标跟踪，取出视频块第一帧图像Y_{frame_1}输入尺度融合残差子网络得到场景分割结果Y_{seg_1}，将Y_{frame_1}输入三维尺度融合子网络得到目标检测结果集合Y_{det_1}；

步骤9b，综合Y_{seg_1}与Y_{frame_1}进行逻辑判断，去除Y_{det_1}中不符合逻辑的部分结果(如陆上的舰船和水中的汽车)得到跟踪目标集合Y_track；

步骤9c，将视频块Y中除第一帧以外的其他图像输入三维尺度融合子网络，每得到一帧的目标检测集合都与Y_{seg_1}综合进行逻辑判断，去除不符合逻辑的部分结果，之后与前一帧的目标检测集合用IOU处理，判断在这一帧中是否存在新出现的目标(若IOU小于0.5则认定新目标出现，大于等于0.5则没有出现新目标)，若存在，将新出现的目标存入跟踪目标集合Y_track；

步骤9d，将Y_track送入尺度融合相关滤波目标子网络，每得到一帧的目标跟踪结果就将其输入跟踪修正模块与遮挡修正模块，得到结果后继续下一帧跟踪；

步骤9e，视频块Y所有帧运行步骤9d后，得到Y上所有目标在每一帧的位置。

以下结合仿真实验对本发明的效果做进一步的说明：

1、仿真条件：

硬件平台为：主频2.40GHz*16的Intel(R)Xeon(R)E5-2630 CPU、内存64GB；

软件平台为：Caffe和Matlab R2017a；

本发明仿真实验使用的是由长光卫星公司吉林一号卫星拍摄的圣地亚哥港口的遥感视频，经切割后视频块大小是512*512。

本发明仿真实验所使用的仿真参数如下：

成功率IOU：使用的评估标准是中心位置误差，其被定义为计算边界框的中心位置和对应类标框中心位置之间的平均欧氏距离α，将α在给定的阈值距离之内的帧定义为成功帧，成功帧占总帧数的百分比即为成功率，本发明中阈值距离为20；

精度Prec：评估标准是边界框的重叠率，假设边界框为γt，对应的类标框是γ_a，重叠率被定义为S＝|γ_t∩γ_a|/||γ_t∪γ_a|，其中∩和∪分别表示两个区域的交集和并集，| |指其区域内的像素点个数，将计算重叠率S大于给定的阈值to的帧定义为精准帧，精准帧的数量占总帧数的百分比即为精度，本发明中t_o为0.6；

鲁棒性评估：根据第一帧中的准确位置进行初始化，然后在一个测试序列中运行算法，最后得出平均精度或成功率的结果报告，这种方法被称为一次通过的评估(OPE)，然而跟踪器可能对初始化非常敏感，并且在不同的初试帧给予不同的初始化会使其性能变得更差或更好，因此，还有另外两种方式来评估跟踪器对初始化的鲁棒性，即在时间上(在不同帧开始跟踪)和空间上(以不同的边界框开始跟踪)扰乱初始化，这两个测试分别称为时间鲁棒性评估(TRE)和空间鲁棒性评估(SRE)。

2、仿真内容与结果分析：

从图5可以看出本发明提出的技术相比于现有技术在以并不准确的边界框开始跟踪时，本发明提出的方法表现出更好的鲁棒性，图6可以看出本发明提出的技术在跟踪精度上有明显地提高。

为了验证本发明的技术效果，本发明的仿真实验采用一种现有技术TrackerFusion与本发明提出的方法对圣地亚哥港口的飞机、舰船和车辆进行跟踪，将得到的结果进行成功率、精度和鲁棒性对比，如表1所示：

表1圣地亚哥港口目标跟踪结果对比

从表中可以看出，本发明提出的方法相比于对比方法在成功率、精度和鲁棒性方面都有明显地提高。

综上所述，本发明提出的基于JCFNet网络的遥感视频目标跟踪方法能够明显地提高对于遥感视频中目标的跟踪精度和鲁棒性，而且可用于对各种遥感视频中的目标进行跟踪。

Claims

1.一种基于JCFNet网络的遥感视频目标跟踪方法，其特征在于，包含如下步骤：