CN111931686A

CN111931686A - 一种基于背景知识增强的视频卫星目标跟踪方法

Info

Publication number: CN111931686A
Application number: CN202010872543.8A
Authority: CN
Inventors: 吕京国; 白颖奇; 王琛; 曲宁宁
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-13
Anticipated expiration: 2040-08-26
Also published as: CN111931686B

Abstract

本发明涉及视频卫星目标跟踪领域，公开了一种基于背景知识增强的视频卫星目标跟踪方法，包括步骤：在第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像；构建已训练好的双分支Siamese网络，生成目标模板特征图以及目标搜索区域特征图；构建三个级联的RPN网络，获得筛选后的高置信度预测框；建立背景识别模块，将高置信度预测框输入至背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对背景识别模块的场景类别更新。本发明通过背景离线训练，背景训练集更新、背景在线更新等处理，进行了背景强化，适用于不同复杂背景，最大限度去除背景干扰，解决目标“淹没”在背景中的问题，更加准确地跟踪到目标。

Description

一种基于背景知识增强的视频卫星目标跟踪方法

技术领域

本发明涉及视频卫星目标跟踪领域，具体地涉及一种基于背景知识增强的视频卫星目标跟踪方法。

背景技术

视频卫星从高空拍摄地面物体，成像方式、观测角度、空间分辨率等与地面视频有明显不同，导致卫星视频运动目标所占像素较少，缺乏纹理信息，运动目标的特征匮乏。相比地面视频数据，视频卫星图像对比度较低，运动目标和背景的可区分性和可识别性较弱。这些差别导致了针对地面视频的运动目标检测和跟踪算法不能很好地适用于卫星视频。

经典目标跟踪算法包括：基于递归贝叶斯、核密度估计、背景感知、在线分类学习、稀疏表达以及相关滤波的跟踪算法。这类算法虽然在典型的目标跟踪数据库上取得了良好的跟踪性能，但是它们通常需要手动设计特征，一定程度上影响算法的推广能力。另外在视频卫星目标跟踪任务中，其主要难点是背景干扰与遮挡。现有的视频卫星目标跟踪算法无法进行背景强化，并且现有目标跟踪算法不能够适用于不同复杂背景，无法去除背景干扰，不能解决目标“淹没”在背景中的问题，目标跟踪的准确率低。

发明内容

本发明提供一种基于背景知识增强的视频卫星目标跟踪方法，从而解决现有技术的上述问题。

一种基于背景知识增强的视频卫星目标跟踪方法，包括如下步骤：

S1)对视频卫星目标进行视频拍摄，获得视频序列图像，在视频序列图像的第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像；

S2)构建已训练好的双分支Siamese网络，双分支Siamese网络包括两个并联的深度卷积神经网络，将目标模板图像、目标搜索区域图像分别作为两个并联的深度卷积神经网络的输入，生成目标模板特征图以及目标搜索区域特征图；

S3)构建三个级联的RPN网络，将目标模板特征图以及目标搜索区域特征图分别输入至三个级联的RPN网络，获得筛选后的高置信度预测框；

S4)建立背景识别模块，将高置信度预测框输入至背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对背景识别模块的场景类别进行更新。

进一步的，步骤S1)中，对视频卫星目标进行视频拍摄，获得视频序列图像，在视频序列图像的第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像，包括如下步骤：

S11)确定待跟踪识别的视频卫星目标，在视频序列图像的第一帧图像中框选出一个包含待跟踪识别的视频卫星目标的目标矩形框，目标矩形框的大小为h×w；

S12)以目标矩形框的中心像素为中心，框选出预设大小为n×h×w的搜索背景区域框；

S13)将目标矩形框作为目标模板图像，将搜索背景区域框作为目标搜索区域图像，获得目标模板图像以及目标搜索区域图像。

进一步的，步骤S2)中，构建已训练好的双分支Siamese网络，双分支Siamese网络包括两个并联的深度卷积神经网络，将目标模板图像、目标搜索区域图像分别作为两个并联的深度卷积神经网络的输入，生成目标模板特征图以及目标搜索区域特征图，包括如下步骤：

S21)构建两个相互并联的深度卷积神经网络，两个相互并联的深度卷积神经网络的网络结构相同，每一个深度卷积神经网络包括若干个相互交替的卷积层、池化层、激活函数以及至少一个全连接层；

S22)对目标模板图像、目标搜索区域图像分别进行预处理，将目标模板图像和目标搜索区域图像分别缩放到预设尺寸大小；

S23)将缩放到预设尺寸大小的目标模板图像输入至两个相互并联的深度卷积神经网络中的其中一个深度卷积神经网络，将其中一个深度卷积神经网络的最后一层卷积层的输出作为目标模板图像特征，获得目标模板特征图；

S24)将缩放到预设尺寸大小的目标搜索区域图像输入至两个相互并联的深度卷积神经网络中的另一个深度卷积神经网络，将另一个深度卷积神经网络的最后一层卷积层的输出作为目标搜索区域图像特征，获得目标搜索区域特征图。

进一步的，步骤S21)中，两个相互并联的深度卷积神经网络分别采用AlexNet网络模型。

进一步的，步骤S3)中，构建三个级联的RPN网络，将目标模板特征图以及目标搜索区域特征图分别输入至三个级联的RPN网络，获得筛选后的高置信度预测框；三个级联的RPN网络包括第一层RPN网络、第二层RPN网络和第三层RPN网络，三个级联的RPN网络中的每一层RPN网络均包含一个分类层和一个回归层，包括如下步骤：

S31)将目标模板特征图和目标搜索区域特征图分别作为第一层RPN网络中的输入特征图，将输入特征图输入至第一层RPN网络；

S32)在输入特征图上分别设置不同尺寸和比例的锚框，第一层RPN网络的分类层输出若干个第一预测框的前景概率和背景概率；第一层RPN网络的回归层输出所述若干个第一预测框的位置回归坐标；设置第一层RPN网络前景概率阈值，将若干个第一预测框的前景概率分别与第一层RPN网络前景概率阈值进行比较，获得前景概率小于第一层RPN网络前景概率阈值的第一预测框；

S33)将前景概率小于第一层RPN网络前景概率阈值的第一预测框输入值第二层RPN网络，第二层RPN网络的分类层输出若干个第二预测框的前景概率和背景概率；第二层RPN网络的回归层输出若干个第二预测框的位置回归坐标；设置第二层RPN网络前景概率阈值，将若干个第二预测框的前景概率分别与第二层RPN网络前景概率阈值进行比较，获得前景概率小于第二层RPN网络前景概率阈值的第二预测框；

S33)将前景概率小于第二层RPN网络前景概率阈值的第二预测框输入值第三层RPN网络，第三层RPN网络的分类层输出若干个第三预测框的前景概率和背景概率；第三层RPN网络的回归层输出若干个第三预测框的位置回归坐标；设置第三层RPN网络前景概率阈值，将若干个第三预测框的前景概率分别与第三层RPN网络前景概率阈值进行比较，获得前景概率小于第三层RPN网络前景概率阈值的第三预测框；

S34)将前景概率小于第三层RPN网络前景概率阈值的第三预测框作为筛选后的高置信度预测框，获得筛选后的高置信度预测框。

进一步的，步骤S4)中，建立背景识别模块，将高置信度预测框输入至背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对背景识别模块的场景类别进行更新，包括如下步骤：

S41)获取遥感领域背景场景数据集，建立深度卷积神经网络模型，将深度卷积神经网络模型作为背景识别模块，对遥感领域背景场景数据集中的每一张遥感领域背景场景图像进行缩放、并将缩放后的遥感领域背景场景图像输入至背景识别模块，利用遥感领域背景场景数据集对背景识别模块进行离线训练，获得离线训练后的背景识别模块；背景识别模块包括若干个相互交替的背景识别模块卷积层、背景识别模块池化层、背景识别模块激活函数以及至少一个背景识别模块全连接层，最后一层背景识别模块全连接层连接Softmax分类层；Softmax分类层包括m个预设的遥感领域背景场景分类和d个遥感领域背景场景空值分类。d个遥感领域背景场景空值分类不参与背景识别模块的离线训练；

S42)对所有高置信度预测框进行缩放处理、并分别输入至离线训练后的背景识别模块中，获得每一个高置信度预测框的跟踪目标识别分数，将每一个高置信度预测框的跟踪目标识别分数进行比较，将跟踪目标识别分数最小的高置信度预测框作为最终目标跟踪结果；

S43)以跟踪目标识别分数最小的高置信度预测框为中心，在跟踪目标识别分数最小的高置信度预测框的四周提取v个尺寸大小相同的周围信息背景框，对所述v个尺寸大小相同的周围信息背景框分别设定相同的初始权重：x’₁、x’₂、…、x’_v；x’_v表示第v个周围信息背景框的初始权重；

S44)将若干个尺寸大小相同的周围信息背景框分别输入至离线训练后的背景识别模块，获得每个周围信息背景框的预测场景分数：h₁、h₂、…、h_v；h_v表示第v个周围信息背景框的预测场景分数；

S45)将步骤S42)中的最终目标跟踪结果作为下一帧图像的目标矩形框，将下一帧图像的目标矩形框缩放到h×w的尺寸大小，以缩放后的下一帧图像的目标矩形框的中心像素为中心，框选出预设大小为n×h×w的下一帧图像的搜索背景区域框，获得下一帧图像跟踪目标识别分类概率最小的高置信度预测框；

S46)确定当前帧图像中视频卫星目标相对于上一帧图像中视频卫星目标的偏移方向，在下一帧图像跟踪目标识别分类概率最小的高置信度预测框的四周提取v个尺寸大小相同的当前周围信息背景框，对v个尺寸大小相同的当前周围信息背景框更新权重

x_i表示根据偏移方向确定的在偏移方向上的当前周围信息背景框权重；x_j表示非偏移方向上的当前周围信息背景框权重，i∈[1,v],j∈[1,v],j≠i；通过非极大值抑制方法对v个尺寸大小相同的当前周围信息背景框进行筛选，获得视频卫星目标的当前场景信息。

本发明对当前周围信息背景框的权重进行了更新，不仅考虑了通过上一帧图像获得的v个周围信息背景框的预测场景分数以及权重，还考虑了当前帧图像中视频卫星目标相对于上一帧图像中视频卫星目标的偏移方向，最终获得当前周围信息背景框的各个权重，利用非极大值抑制方法把更新后的权重全部排序，选取权重最高的那个当前周围信息背景框，接下来计算其他当前周围信息背景框与权重最高的那个当前周围信息背景框的重合程度(iou)，如果重合程度大于设定的阈值就删除，循环重复，最后获得唯一的能够表征当前场景最多信息的当前周围信息背景框，即获得视频卫星目标的当前场景信息。

进一步的，步骤S44)中，将若干个尺寸大小相同的周围信息背景框分别输入至所述离线训练后的背景识别模块，获得每个周围信息背景框的预测场景分数：h₁、h₂、…、h_v；h_v表示第v个周围信息背景框的预测场景分数，还包括如下步骤：

S441)将若干个尺寸大小相同的周围信息背景框分别输入至离线训练后的背景识别模块，判断第k个周围信息背景框的预测场景分数是否在已训练的m个预设的遥感领域背景场景分类中，若是，则利用离线训练后的背景识别模块获得每个周围信息背景框的预测场景分数；若否，则将第k个周围信息背景框填充到遥感领域背景场景数据集中、并重新训练背景识别模块，进入步骤S442)；

S442)将若干个尺寸大小相同的周围信息背景框分别输入步骤S441)中重新训练后的背景识别模块，利用重新训练后的背景识别模块获得每个周围信息背景框的预测场景分数。

本发明的有益效果是：本发明充分利用了背景的丰富信息，通过背景离线训练，背景训练集更新、背景在线更新等处理，进行了背景强化，能够适用于不同复杂背景，最大限度去除背景干扰，解决目标“淹没”在背景中的问题，更加准确地跟踪到目标。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于背景知识增强的视频卫星目标跟踪方法的流程示意图。

图2是本发明实施例一提供的背景识别模块的训练过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例一，一种基于背景知识增强的视频卫星目标跟踪方法，如图1所示，包括如下步骤：

S1)对视频卫星目标进行视频拍摄，获得视频序列图像，在视频序列图像的第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像，包括如下步骤：

S2)，构建已训练好的双分支Siamese网络，双分支Siamese网络包括两个并联的深度卷积神经网络，两个相互并联的深度卷积神经网络分别采用AlexNet网络模型。将目标模板图像、目标搜索区域图像分别作为两个并联的深度卷积神经网络的输入，生成目标模板特征图以及目标搜索区域特征图，包括如下步骤：

在步骤S2)前，包括对双分支Siamese网络进行训练，本实施例采用的训练数据是具有相似性的样本图像对以及不具有相似性的样本图像对，将样本图像对分别输入双Siamese网络的两分支网络，并获取双Siamese网络输出的样本图像对的相似性结果；计算双分支Siamese网络输出的样本图像对的相似性结果与该样本图像对已知的相似性结果之间的误差值，对网络参数反复进行调整，直到误差值小于预设误差值。

S3)构建三个级联的RPN网络，将目标模板特征图以及目标搜索区域特征图分别输入至三个级联的RPN网络，获得筛选后的高置信度预测框；三个级联的RPN网络包括第一层RPN网络、第二层RPN网络和第三层RPN网络，三个级联的RPN网络中的每一层RPN网络均包含一个分类层和一个回归层，包括如下步骤：

S32)在输入特征图上分别设置不同尺寸和比例的锚框，第一层RPN网络的分类层输出若干个第一预测框的前景概率和背景概率；第一层RPN网络的回归层输出所述若干个第一预测框的位置回归坐标；设置第一层RPN网络前景概率阈值，第一层RPN网络前景概率阈值为0.4，将若干个第一预测框的前景概率分别与第一层RPN网络前景概率阈值进行比较，获得前景概率小于第一层RPN网络前景概率阈值的第一预测框；

S33)将前景概率小于第一层RPN网络前景概率阈值的第一预测框输入值第二层RPN网络，第二层RPN网络的分类层输出若干个第二预测框的前景概率和背景概率；第二层RPN网络的回归层输出若干个第二预测框的位置回归坐标；设置第二层RPN网络前景概率阈值，第二层RPN网络前景概率阈值为0.5，将若干个第二预测框的前景概率分别与第二层RPN网络前景概率阈值进行比较，获得前景概率小于第二层RPN网络前景概率阈值的第二预测框；

S33)将前景概率小于第二层RPN网络前景概率阈值的第二预测框输入值第三层RPN网络，第三层RPN网络的分类层输出若干个第三预测框的前景概率和背景概率；第三层RPN网络的回归层输出若干个第三预测框的位置回归坐标；设置第三层RPN网络前景概率阈值，第三层RPN网络前景概率阈值为0.7，将若干个第三预测框的前景概率分别与第三层RPN网络前景概率阈值进行比较，获得前景概率小于第三层RPN网络前景概率阈值的第三预测框；

S4)建立背景识别模块，将高置信度预测框输入至背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对背景识别模块的场景类别进行更新，如图2所示，包括如下步骤：

S41)获取遥感领域背景场景数据集，建立深度卷积神经网络模型，将深度卷积神经网络模型作为背景识别模块，本实施例中的背景识别模块采用了VGG-16模型，VGG-16模型的网络参数如表1所示。

表1 VGG-16模型的网络参数

表1

对遥感领域背景场景数据集中的每一张遥感领域背景场景图像进行缩放、并将缩放后的遥感领域背景场景图像输入至背景识别模块，本实施例采用的遥感领域背景场景数据集为NWPU-RESISC45数据集，NWPU-RESISC45数据集包括45种遥感领域背景场景类别。将NWPU-RESISC45数据集中的图像从256*256缩放为224*224像素大小后，导入背景识别模块中进行训练。

利用遥感领域背景场景数据集对背景识别模块进行离线训练，获得离线训练后的背景识别模块；背景识别模块包括若干个相互交替的背景识别模块卷积层、背景识别模块池化层、背景识别模块激活函数以及至少一个背景识别模块全连接层，最后一层背景识别模块全连接层连接Softmax分类层；Softmax分类层包括45个遥感领域背景场景分类和5个遥感领域背景场景空值分类，5个遥感领域背景场景空值分类不参与背景识别模块的离线训练。

S42)对所有高置信度预测框进行缩放处理、并分别输入至离线训练后的背景识别模块中，获得每一个高置信度预测框的跟踪目标识别分数，将每一个高置信度预测框的跟踪目标识别分数进行比较，将跟踪目标识别分数最小的高置信度预测框作为最终目标跟踪结果。

跟踪目标识别分数越小，表明高置信度预测框与离线训练后的背景识别模块中的背景的相似度越低，则是目标的可能性越大。缩放后的高置信度预测框输入至离线训练后的背景识别模块，在获取跟踪目标识别分数的过程中，5个遥感领域背景场景空值分类参与了分类过程，获取5个遥感领域背景场景空值分类的总分数t，1-t即为跟踪目标识别分数，1-t越小，表明高置信度预测框与离线训练后的背景识别模块中的背景的相似度越低。

S43)以跟踪目标识别分数最小的高置信度预测框为中心，在跟踪目标识别分数最小的高置信度预测框的四周提取v个尺寸大小相同的周围信息背景框，对所述v个尺寸大小相同的周围信息背景框分别设定相同的初始权重：

x’_v表示第v个周围信息背景框的初始权重；

步骤S44)中，将若干个尺寸大小相同的周围信息背景框分别输入至离线训练后的背景识别模块，获得每个周围信息背景框的预测场景分数：h₁、h₂、…、h_v；h_v表示第v个周围信息背景框的预测场景分数，还包括如下步骤：

本实施例在背景识别模块的离线训练过程中，只用到了45个遥感领域背景场景分类进行训练，在将周围信息背景框输入至离线训练后的背景识别模块时，剩下的5个遥感领域背景场景空值分类参与了分类过程，如果5个遥感领域背景场景空值分类中有值，则表明当前的周围信息背景框不属于已有的45个遥感领域背景场景分类，则将当前的周围信息背景框扩充到遥感领域背景场景数据集中，相应地将5个遥感领域背景场景空值分类中的其中一个增加到遥感领域背景场景分类中进行重新训练。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明充分利用了背景的丰富信息，通过背景离线训练，背景训练集更新、背景在线更新等处理，进行了背景强化，能够适用于不同复杂背景，最大限度去除背景干扰，解决目标“淹没”在背景中的问题，更加准确地跟踪到目标。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于背景知识增强的视频卫星目标跟踪方法，其特征在于，包括如下步骤：

S1)对视频卫星目标进行视频拍摄，获得视频序列图像，在所述视频序列图像的第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像；

S2)构建已训练好的双分支Siamese网络，所述双分支Siamese网络包括两个并联的深度卷积神经网络，将目标模板图像、目标搜索区域图像分别作为两个并联的深度卷积神经网络的输入，生成目标模板特征图以及目标搜索区域特征图；

S3)构建三个级联的RPN网络，将目标模板特征图以及目标搜索区域特征图分别输入至所述三个级联的RPN网络，获得筛选后的高置信度预测框；

S4)建立背景识别模块，将所述高置信度预测框输入至所述背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对所述背景识别模块的场景类别进行更新。

2.根据权利要求1所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S1)中，对视频卫星目标进行视频拍摄，获得视频序列图像，在所述视频序列图像的第一帧图像中截取视频卫星目标，获得目标模板图像以及目标搜索区域图像，包括如下步骤：

S11)确定待跟踪识别的视频卫星目标，在视频序列图像的第一帧图像中框选出一个包含所述待跟踪识别的视频卫星目标的目标矩形框，所述目标矩形框的大小为h×w；

S12)以所述目标矩形框的中心像素为中心，框选出预设大小为n×h×w的搜索背景区域框；

S13)将所述目标矩形框作为目标模板图像，将所述搜索背景区域框作为目标搜索区域图像，获得目标模板图像以及目标搜索区域图像。

3.根据权利要求1或2所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S2)中，构建已训练好的双分支Siamese网络，所述双分支Siamese网络包括两个并联的深度卷积神经网络，将目标模板图像、目标搜索区域图像分别作为两个并联的深度卷积神经网络的输入，生成目标模板特征图以及目标搜索区域特征图，包括如下步骤：

S21)构建两个相互并联的深度卷积神经网络，所述两个相互并联的深度卷积神经网络的网络结构相同，每一个深度卷积神经网络包括若干个相互交替的卷积层、池化层、激活函数以及至少一个全连接层；

S22)对目标模板图像、目标搜索区域图像分别进行预处理，将所述目标模板图像和目标搜索区域图像分别缩放到预设尺寸大小；

S23)将缩放到预设尺寸大小的目标模板图像输入至两个相互并联的深度卷积神经网络中的其中一个深度卷积神经网络，将所述其中一个深度卷积神经网络的最后一层卷积层的输出作为目标模板图像特征，获得目标模板特征图；

S24)将缩放到预设尺寸大小的目标搜索区域图像输入至两个相互并联的深度卷积神经网络中的另一个深度卷积神经网络，将所述另一个深度卷积神经网络的最后一层卷积层的输出作为目标搜索区域图像特征，获得目标搜索区域特征图。

4.根据权利要求3所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S21)中，所述两个相互并联的深度卷积神经网络分别采用AlexNet网络模型。

5.根据权利要求1所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S3)中，构建三个级联的RPN网络，将目标模板特征图以及目标搜索区域特征图分别输入至所述三个级联的RPN网络，获得筛选后的高置信度预测框；三个级联的RPN网络包括第一层RPN网络、第二层RPN网络和第三层RPN网络，三个级联的RPN网络中的每一层RPN网络均包含一个分类层和一个回归层，包括如下步骤：

S31)将目标模板特征图和目标搜索区域特征图分别作为第一层RPN网络中的输入特征图，将所述输入特征图输入至第一层RPN网络；

S32)在所述输入特征图上分别设置不同尺寸和比例的锚框，第一层RPN网络的分类层输出若干个第一预测框的前景概率和背景概率；第一层RPN网络的回归层输出若干个第一预测框的位置回归坐标；设置第一层RPN网络前景概率阈值，将若干个第一预测框的前景概率分别与第一层RPN网络前景概率阈值进行比较，获得前景概率小于第一层RPN网络前景概率阈值的第一预测框；

S33)将所述前景概率小于第一层RPN网络前景概率阈值的第一预测框输入值第二层RPN网络，第二层RPN网络的分类层输出若干个第二预测框的前景概率和背景概率；第二层RPN网络的回归层输出若干个第二预测框的位置回归坐标；设置第二层RPN网络前景概率阈值，将若干个第二预测框的前景概率分别与第二层RPN网络前景概率阈值进行比较，获得前景概率小于第二层RPN网络前景概率阈值的第二预测框；

S33)将所述前景概率小于第二层RPN网络前景概率阈值的第二预测框输入值第三层RPN网络，第三层RPN网络的分类层输出若干个第三预测框的前景概率和背景概率；第三层RPN网络的回归层输出若干个第三预测框的位置回归坐标；设置第三层RPN网络前景概率阈值，将若干个第三预测框的前景概率分别与第三层RPN网络前景概率阈值进行比较，获得前景概率小于第三层RPN网络前景概率阈值的第三预测框；

S34)将所述前景概率小于第三层RPN网络前景概率阈值的第三预测框作为筛选后的高置信度预测框，获得筛选后的高置信度预测框。

6.根据权利要求1所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S4)中，建立背景识别模块，将所述高置信度预测框输入至所述背景识别模块中，获得当前帧图像的目标跟踪结果，在线训练所述背景识别模块、并对所述背景识别模块的场景类别进行更新，包括如下步骤：

S41)获取遥感领域背景场景数据集，建立深度卷积神经网络模型，将所述深度卷积神经网络模型作为背景识别模块，对所述遥感领域背景场景数据集中的每一张遥感领域背景场景图像进行缩放、并将缩放后的遥感领域背景场景图像输入至背景识别模块，利用遥感领域背景场景数据集对背景识别模块进行离线训练，获得离线训练后的背景识别模块；所述背景识别模块包括若干个相互交替的背景识别模块卷积层、背景识别模块池化层、背景识别模块激活函数以及至少一个背景识别模块全连接层，最后一层背景识别模块全连接层连接Softmax分类层；所述Softmax分类层包括m个预设的遥感领域背景场景分类和d个遥感领域背景场景空值分类，所述d个遥感领域背景场景空值分类不参与背景识别模块的离线训练；

S42)对所有高置信度预测框进行缩放处理、并分别输入至所述离线训练后的背景识别模块中，获得每一个高置信度预测框的跟踪目标识别分数，将每一个高置信度预测框的跟踪目标识别分数进行比较，将跟踪目标识别分数最小的高置信度预测框作为最终目标跟踪结果；

S43)以所述跟踪目标识别分数最小的高置信度预测框为中心，在所述跟踪目标识别分数最小的高置信度预测框的四周提取v个尺寸大小相同的周围信息背景框，对所述v个尺寸大小相同的周围信息背景框分别设定相同的初始权重：x’₁、x’₂、…、x’_v；x’_v表示第v个周围信息背景框的初始权重；

S44)将所述若干个尺寸大小相同的周围信息背景框分别输入至所述离线训练后的背景识别模块，获得每个周围信息背景框的预测场景分数：h₁、h₂、…、h_v；h_v表示第v个周围信息背景框的预测场景分数；

S46)确定当前帧图像中视频卫星目标相对于上一帧图像中视频卫星目标的偏移方向，在所述下一帧图像跟踪目标识别分类概率最小的高置信度预测框的四周提取v个尺寸大小相同的当前周围信息背景框，对所述v个尺寸大小相同的当前周围信息背景框更新权重

7.根据权利要求6所述的基于背景知识增强的视频卫星目标跟踪方法，其特征在于，步骤S44)中，将所述若干个尺寸大小相同的周围信息背景框分别输入至所述离线训练后的背景识别模块，获得每个周围信息背景框的预测场景分数：h₁、h₂、…、h_v；h_v表示第v个周围信息背景框的预测场景分数，还包括如下步骤：

S441)将所述若干个尺寸大小相同的周围信息背景框分别输入至所述离线训练后的背景识别模块，判断第k个周围信息背景框的预测场景分数是否在所述已训练的m个预设的遥感领域背景场景分类中，若是，则利用所述离线训练后的背景识别模块获得每个周围信息背景框的预测场景分数；若否，则将所述第k个周围信息背景框填充到遥感领域背景场景数据集中、并重新训练背景识别模块，进入步骤S442)；

S442)将所述若干个尺寸大小相同的周围信息背景框分别输入步骤S441)中重新训练后的背景识别模块，利用所述重新训练后的背景识别模块获得每个周围信息背景框的预测场景分数。