CN112053385A

CN112053385A - 基于深度强化学习的遥感视频遮挡目标跟踪方法

Info

Publication number: CN112053385A
Application number: CN202010887465.9A
Authority: CN
Inventors: 侯彪; 崔艳雨; 焦李成; 吴倩; 任博; 马晶晶; 马文萍
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-08
Anticipated expiration: 2040-08-28
Also published as: CN112053385B

Abstract

本发明公开了一种基于深度强化学习的遥感视频遮挡目标跟踪方法，主要解决现有技术对遮挡目标检测准确率低的问题。其方案为：1)将每帧视频图像输入到深度强化学习网络进行特征提取，获得动作和状态信息；2)根据1)的结果，通过动作驱动方式获得运动矢量、置信值及目标的位置和大小；3)比较置信值与阈值的大小判断是否正确检测到目标：若是，则返回1)；否则，利用视频的时空背景、目标外观模型和运动矢量，获得目标的遮挡信息；4)根据遮挡信息，驱动强化学习的动作获得遮挡目标的位置和大小；5)重复1)‑4)，直到检测出所有序列。本发明提高了遥感视频中复杂多样的弱小目标检测率，可应用于对飞机、舰船或车辆的检测识别。

Description

基于深度强化学习的遥感视频遮挡目标跟踪方法

技术领域

本发明属于图像处理技术领域，特别是一种涉及遥感视频中对遮挡目标的跟踪方法，可应用于检测识别飞机、舰船或车等目标。

背景技术

视觉目标跟踪因其在计算机视觉领域中的重要地位而受到越来越多的关注。给定视频中第一帧的目标坐标位置，视觉目标跟踪是计算目标在下一帧视频中的确切位置。它是计算机视觉领域中最基本的问题之一，在人机交互、自动监视、军事制导、交通监控、车辆导航等领域有着广泛的应用。近年来，已有的视觉目标跟踪算法取得了很大的成功。然而，由于被跟踪对象特征的多样性和外部环境的复杂性，视觉目标跟踪一直是一个极具挑战性的课题。一种鲁棒的目标跟踪算法必须能够解决跟踪过程中遇到的各种困难，如外观畸变、光照变化、快速运动和运动模糊、相似的背景干扰、平面外旋转、平面内旋转、尺度变化、遮挡和出视野等。

传统的跟踪方法一般分为生成式模型方法和判别式模型方法。目前比较流行的方法是判别式模型方法。生成式模型方法是指对当前帧中的目标区域进行建模，在下一帧中找到与模型最相似的区域，如卡尔曼滤波、粒子滤波等方法。例如，在当前帧中已知目标区域：80％为红色、20％为绿色，则跟踪算法像一只无头苍蝇一样，在下一帧中寻找与此颜色比最匹配的区域。而在判别式模型方法中，当前帧使用目标区域作为正样本，背景区域作为负样本。利用机器学习方法训练分类器，目标是在下一帧中找到最优区域。

目前主流的视觉目标跟踪方法主要有相关滤波类方法和深度学习类方法，这两种方法都属于判别式模型方法。相关滤波器通过将输入特征回归为目标高斯分布来训练滤波器。并在后续跟踪中寻找预测分布中的响应峰值来定位目标的位置。其中著名的方法有MOSSE、CSK、KCF和DSST。最早提出用于目标跟踪的相关滤波器算法是MOSSE滤波器。参见D.S.Bolme,J.R.Beveridge,B.A.Draper,and Y.M.Lui,“Visual object tracking usingadaptive correlation filters,”in 2010IEEE computer society conference oncomputer vision and pattern recognition.IEEE,2010,pp.2544–2550。CSK是在MOSSE的基础上提出的。参见J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“Exploitingthe circulant structure of tracking-by-detection with kernels,”in Europeanconference on computer vision.Springer,2012,pp.702–715。CSK引入了循环矩阵和核的概念，主要是针对传统算法中采用稀疏采样造成样本冗余的问题提出的解决方法。CSK遗留了尺度变化、输入为灰度图片和循环矩阵产生的边际效应等问题，KCF算法和DCF算法在多通道特征以及核方法上做了优化。CSK算法的输入是单通道的灰度图像，KCF、DCF这两种算法中输入的为多通道特征图像，特征图像可以为彩色特征也可以是HOG特征。参见J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“High-speed tracking withkernelized correlation filters,”IEEE transactions on pattern analysis andmachine intelligence,vol.37,no.3,pp.583–596,2014。另外，Danelljan等专家提出的DSST能够处理多尺度目标跟踪，参见M.Danelljan,G.Hager,F.S.Khan,and M.Felsberg,“Discriminative scale space tracking,”IEEE transactions on pattern analysisand machine intelligence,vol.39,no.8,pp.1561–1575,2016。然而，这种相关滤波类方法使用的仅是低维的手工特征，缺乏对特征的表示。

如今，越来越多的研究学者使用深度学习类方法，通过深度网络来提取特征来实现对目标的跟踪。相关的方法有MDNet、C-COT及ECO等。Nam和Han在MDNet算法中提出直接用跟踪视频预训练CNN来获得一般的目标表示能力，参见H.Nam and B.Han,“Learningmulti-domain convolutional neural networks for visual tracking,”inProceedings of the IEEE conference on computer vision and patternrecognition,2016,pp.4293–4302。而Danelljan等学者提出的C-COT算法使用深度神经网络VGG-net提取特征，通过立方插值，将不同分辨率的特征图插值到连续空间域，再应用Hessian矩阵求得亚像素精度的目标位置，参见M.Danelljan,A.Robinson,F.S.Khan,andM.Felsberg,“Beyond correlation filters:Learning continuous convolutionoperators for visual tracking,”in European conference on computervision.Springer,2016,pp.472–488。

随着特征维度越来越高，算法越来越复杂，跟踪效果虽然是在逐步提升，但是都是以牺牲跟踪速度为代价的。M.Danelljan等人提出了ECO目标跟踪算法，参见M.Danelljan,G.Bhat,F.Shahbaz Khan,and M.Felsberg,“Eco:Efficient convolution operators fortracking,”in Proceedings of the IEEE conference on computer vision andpattern recognition,2017,pp.6638–6646。该算法提高了时间效率和空间效率，但是并不能处理目标跟踪领域中完全遮挡的难题。

在目标跟踪任务中，遮挡问题一直是机器视觉研究领域一个重要而富有挑战性的研究方向，在处理过程中存在很多困难。近年来，国内外对物体遮挡领域进行了一些研究。然而，当物体出现大遮挡甚至完全遮挡时，跟踪仍然会出现不准确或丢失的现象。而通常采用更复杂的网络模型对遮挡下的目标进行重新检测比较耗时，且是以速度为代价来提高检测和跟踪的准确率。另外，先前的研究工作主要针对自然图像，而不是遥感图像。相比于自然图像，遥感图像中目标所占的比例较小，因此在提取特征上更为困难。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于深度强化学习的遥感视频目标跟踪遮挡方法，以在没有附加网络结构的情况下，利用时空背景、物体外观模型和运动矢量提供遮挡信息，驱动完全遮挡下强化学习的动作，在保证速度的同时提高跟踪的精度。

为实现上述目的，本发明的技术方案包括如下：

(1)将遥感视频序列一帧一帧的图像输入到深度强化学习网络进行特征提取，并微调网络以适应新的数据，获得强化学习中的动作和状态信息；

(2)根据(1)中所提取的特征及状态信息，通过动作驱动方式获得运动矢量、置信值A及当前帧目标边界框所要移动的方向和距离，得到当前帧目标的位置和大小；

(3)设定检测阈值T＝0.5，通过比较置信值A与阈值T的大小判断当前帧是否正确检测到目标：

如果A≥T，则判定当前帧已正确检测到目标，并将所获得的当前帧目标框位置信息作为下一帧的输入，返回(1)，直到检测出遥感视频中所有目标处于未遮挡的序列；

如果A<T，则判定目标处于遮挡状态，执行步骤(4)；

(4)利用遥感视频数据中的时空背景和(2)中动作驱动所得的运动矢量，获得目标的平均移动方向、速度大小、方向旋转变化及加速度大小这四项遮挡信息；

(5)根据(4)获得的遮挡信息，结合遥感视频序列中目标未遮挡时的状态信息，驱动强化学习的动作，获得目标边界框所要移动的方向和距离，得到遥感视频序列中被完全遮挡目标的位置和大小；

(6)重复步骤(1)～(5)，直到检测出遥感视频中的所有序列，完成其跟踪过程。

本发明与现有技术相比，具有以下优点：

1)提高了在遥感视频中出现目标完全遮挡的检测正确性。

传统的目标跟踪算法对于视频中出现的遮挡现象，特别是完全遮挡的情况，无法正确获得目标的边界框，检测率低甚至会出现目标丢失。本发明主要是针对遥感视频中出现的完全遮挡问题利用深度强化学习网络进行跟踪，提高检测的正确性。

2)提高了完全遮挡情况下的目标跟踪速度。

通常在遮挡情况下，需要采用更复杂的网络模型对缺失的目标进行重新检测，这种方法是以速度为代价来提高准确率。而本发明在没有附加网络结构的情况下对被遮挡的目标进行跟踪，具有较低的计算复杂度，提高了跟踪的速度。

3)增强了跟踪的鲁棒性。

本发明通过网络进行特征提取的同时在线微调网络，以适应新的变化数据，增强了检测过程中跟踪的鲁棒性。

实验表明，本发明可对不同的目标类型，如飞机、舰船和车辆进行有效性跟踪，获得在目标行驶过程中含完全遮挡状态下的目标位置和大小。

附图说明

图1是本发明的实现流程示意图；

图2是本发明中目标框移动的所有动作图；

图3是用本发明对飞机直线行驶进行跟踪的仿真结果图；

图4是用本发明对飞机含直线和曲线行驶进行跟踪的仿真结果图；

图5是用本发明对飞机在转弯处遮挡进行跟踪的仿真结果图；

图6是用本发明对弱小目标的车辆在行驶过程中进行跟踪的仿真结果图；

图7是用本发明对舰船在行驶过程中进行跟踪的仿真结果图。

具体实施方式

下面结合附图对本发明的实施和效果作进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.将遥感视频序列一帧一帧的图像输入到深度强化学习网络进行特征提取，并微调网络以适应新的数据，获得强化学习中的动作和状态信息。

1.1)使用公开的数据集VOT、OTB预训练深度强化学习网络：

该深度强化学习网络包括三个卷积层和四个全连接层，其结构关系是：第一卷积层conv1、第二卷积层conv2、第三卷积层conv3、第一全连接层fc1、第二全连接层fc2依次连接，第三全连接层fc3与第三全连接层fc4并联后与第二全连接层fc2连接；

第一卷积层的卷积核大小为7×7，第二卷积层的卷积核大小为5×5，第三卷积层和第一全连接层的卷积核大小均为3×3，第二全连接层、第三全连接层和第四全连接层的卷积核大小均为1×1，第一全连接层和第二全连接层有512个输出节点，第三全连接层有11个输出节点，第四全连接层有2个输出节点；

将公开的数据集VOT、OTB中的视频序列一帧一帧的图像放入该深度强化学习网络中进行迭代，不断调整网络卷积层和全连接层的权重参数，直到收敛，即完成预训练过程；

1.2)在遥感视频序列的第一帧给定目标的位置和大小信息，即给定目标边界框，截取以目标为中心112x112像素的彩色图像块p∈R^112×112×3，作为深度强化学习网络的输入；

1.3)通过固定网络卷积层的权重参数，调整所有全连接层的权重参数的方式在线微调网络，以增强跟踪的鲁棒性；

1.4)通过调整后的深度强化学习网络，提取遥感图像中目标的动作A、状态S和奖赏函数R(s_t,a_t,s_t+1)：

所属动作A，其包含左、右、上、下、左上、右上、左下、右下、放大、缩小和停止这11维的动作矢量值，如图2所示，并从第三全连接层fc3输出；

所属状态S是一个元组(p_t,d_t)，p_t表示在t时刻112×112像素的图像块，d_t表示最近10次的动作矢量值集合，即d_t∈R¹¹⁰；

所属奖赏函数R(s_t,a_t,s_t+1)表示在s_t状态下，执行动作a_t，到达下一状态s_t+1所获得的奖赏值集合，在本实例中，将每次所获得的奖赏值r定义为

其中，b表示目标边界框，G表示正确的标注数据信息，IoU表示b与G两者的交并比，即：

步骤2.根据所提取的特征及状态信息，通过动作驱动方式获得运动矢量、置信值A及当前帧目标边界框所要移动的方向和距离，根据移动的方向和距离得到当前帧目标的位置和大小。

2.1)将目标边界框表示为[x^(t),y^(t),w^(t),h^(t)],其中，(x^(t),y^(t))表示目标的中心位置坐标，w^(t)和h^(t)分别表示边界框的宽度和高度；

2.2)设每次移动的距离为Δx^(t)＝αw^(t)，Δy^(t)＝αh^(t)，α为转移系数，α＝0.03，移动后的边界框表示为[x^(t)',y^(t)',w^(t)',h^(t)']，其中，(x^(t)',y^(t)')表示遮挡时目标移动后的中心位置坐标，w^(t)'和h^(t)'分别表示遮挡目标边界框移动后的宽度和高度，该宽度w^(t)'和高度h^(t)'反映了目标的大小。

如果当前帧的动作是向左移动，则移动后的边界框表示为[x^(t)-Δx^(t),y^(t),w^(t),h^(t)]。

步骤3.对当前帧的检测结果进行判定。

3.1)设定检测阈值T＝0.5；

3.2)将比较置信值A与阈值T的大小进行比较：

如果A≥T，则判定当前帧已正确检测到目标，并将所获得的当前帧目标边界框信作为下一帧的输入，返回步骤1，直到检测出遥感视频中所有目标处于未遮挡的序列；

如果A<T，则判定目标处于遮挡状态，执行步骤4。

步骤4.获得目标的遮挡信息。

4.1)将步骤2动作驱动所得的最近十帧的目标边界框[x^(t),y^(t),w^(t),h^(t)]进行保存，得到最近十帧的目标位置和大小信息；

4.2)利用遥感视频数据中的信息，以及最近十帧的目标位置和大小，获得目标的平均转移方向、速度大小、方向旋转变化和加速度大小这四项遮挡信息：

4.2.1)从遥感视频序列本身的时空背景中，提取上下文信息，即视频序列中帧与帧之间在时间和空间上的关系信息；

4.2.2)统计相隔五帧的目标位置差，对最近十帧的目标位置差求取平均值，即得到目标的平均转移方向，其含有左、右、上、下这四个维度；

4.2.3)根据上下文信息和目标位置及大小信息，统计出目标转移的位移x和时间t，依据位移x和时间t，计算得到目标转移的速度ν：

4.2.4)根据目标位置及大小信息和目标的平均转移方向，统计相隔五帧的平均转移方向差，对最近十帧的平均转移方向差求取平均值，即得到目标的方向旋转变化，其包含左、右、上、下这四个维度，如目标平均每帧向下旋转3度；

4.2.5)依据速度ν和时间t，计算得到目标转移的加速度a：

步骤5.根据步骤4所得的遮挡信息，获得目标边界框所要移动的方向和距离，根据移动的方向和距离得到遥感视频序列中被完全遮挡目标的位置和大小。

5.1)结合遥感视频序列中目标未遮挡时的状态信息和遮挡信息，通过深度强化学习网络提取遥感图像中目标的状态S信息来驱动强化学习的动作；

5.2)根据强化学习的动作，进行目标边界框的移动并获得目标位置和大小：

5.2.1)将遮挡时目标边界框表示为[x_o ^(t),y_o ^(t),w_o ^(t),h_o ^(t)],其中，(x_o ^(t),y_o ^(t))表示遮挡时目标的中心位置坐标，w_o ^(t)和h_o ^(t)分别表示遮挡目标边界框的宽度和高度；

5.2.2)设每次移动的距离为Δx_o ^(t)＝α_ow_o ^(t)，Δy_o ^(t)＝α_oh_o ^(t)，α_o为遮挡时的转移系数，α_o＝0.03，移动后的边界框表示为[x_o ^(t)',y_o ^(t)',w_o ^(t)',h_o ^(t)']，其中，(x_o ^(t)',y_o ^(t)')表示遮挡时目标移动后的中心位置坐标，w_o ^(t)'和h_o ^(t)'分别表示遮挡目标边界框移动后的宽度和高度，该宽度w_o ^(t)'和高度h_o ^(t)'反映了遮挡目标的大小。

如果当前帧强化学习的动作是向左移动，则移动后的x_o ^(t)'＝x_o ^(t)-Δx_o ^(t)，y_o ^(t)'＝y_o ^(t)，w_o ^(t)'＝w_o ^(t)h_o ^(t)'＝h_o ^(t)。

步骤6.重复步骤1到步骤5，直到检测出遥感视频中的所有序列，完成其跟踪过程。

本发明的效果可通过以下仿真进一步说明：

1.仿真条件

本发明的仿真试验平台是GeForce GTX 1080Ti，内存为32G，计算机软件配置为Tersorflow 1.4,Python 3.5。

本仿真使用的数据是波哥大和圣地亚哥的遥感视频数据，原始数据像素为12000×5000，仿真实验采用视频中含不同目标类型的区域，实验所用数据像素有1280×720、500×350和850×510，视频帧数在100～250帧。

2.仿真内容

仿真1：在上述条件下，用本发明对直线行驶的飞机进行跟踪的仿真实验，结果如图3，其中图3(a)表示遥感视频序列第15帧的检测结果显示图，图3(b)表示遥感视频序列第115帧的检测结果显示图，图3(c)表示遥感视频序列第130帧的检测结果显示图，图3(d)表示遥感视频序列第160帧的检测结果显示图，图3(e)表示遥感视频序列第180帧的检测结果显示图。

仿真2：在上述条件下，用本发明对含直线和曲线行驶的飞机进行跟踪的仿真实验，结果如图4，其中图4(a)表示遥感视频序列第5帧的检测结果显示图，图4(b)表示遥感视频序列第30帧的检测结果显示图，图4(c)表示遥感视频序列第190帧的检测结果显示图，图4(d)表示遥感视频序列第200帧的检测结果显示图，图4(e)表示遥感视频序列第245帧的检测结果显示图。

仿真3：在上述条件下，用本发明对飞机在转弯处遮挡的行驶进行跟踪仿真实验，结果如图5，其中图5(a)表示遥感视频序列第5帧的检测结果显示图，图5(b)表示遥感视频序列第30帧的检测结果显示图，图5(c)表示遥感视频序列第60帧的检测结果显示图。

仿真4：在上述条件下，用本发明对弱小目标的车辆行驶过程进行跟踪仿真实验，结果如图6，其中图6(a)表示遥感视频序列第40帧的检测结果显示图，图6(b)表示遥感视频序列第85帧的检测结果显示图，图6(c)表示遥感视频序列第105帧的检测结果显示图，图6(d)表示遥感视频序列第123帧的检测结果显示图，图6(e)表示遥感视频序列第140帧的检测结果显示图。

仿真5：在上述条件下，用本发明对舰船行驶的过程进行跟踪仿真实验，结果如图7，其中图7(a)表示遥感视频序列第50帧的检测结果显示图，图7(b)表示遥感视频序列第99帧的检测结果显示图，图7(c)表示遥感视频序列第108帧的检测结果显示图，图7(d)表示遥感视频序列第126帧的检测结果显示图，图7(e)表示遥感视频序列第145帧的检测结果显示图。

由图3到图7可见，本发明方法能准确检测遥感视频中含完全遮挡的视频序列，验证了本发明基于深度强化学习用于遮挡目标跟踪的有效性。

3.对视频中的目标跟踪结果进行评价

在目标检测跟踪的仿真实验评价中，常用精度及IoU进行评估。这两种评估方法主要使用的参数是：跟踪算法预测的目标边界框和人工标注的真实目标边界框。精度是指这两个参数中心点的距离小于给定阈值20px的视频帧数占总视频帧数的百分比。而IoU是指这两个评估参数之间的IoU比率。

计算上述仿真结果各视频的精度及成功率，并与流行的跟踪算法KCF方法作对比，结果如表一。

表一本发明和现有的KCF方法对各视频的检测跟踪结果

由表一可见，相比KCF方法，本发明对含完全遮挡的目标跟踪能达到较高的精度和IoU，其中对直线行驶的飞机和舰船的检测精确度更高，这是由于相比于车辆而言，飞机和舰船目标较大，能够更好地提取特征信息，相比于含曲线行驶的飞机，直线行驶的飞机和舰船目标轮廓更加清晰且变化少，便于进行检测和跟踪，从而获得的检测精确度更高。

Claims

1.一种基于深度强化学习的遥感视频遮挡目标跟踪方法，包括如下：

(2)根据(1)中所提取的特征及状态信息，通过动作驱动方式获得运动矢量、置信值A及当前帧目标边界框所要移动的方向和距离，根据移动的方向和距离得到当前帧目标的位置和大小；

(3)设定检测阈值T＝0.5，比较置信值A与阈值T的大小，判断当前帧是否正确检测到目标：

如果A<T，则判定目标处于遮挡状态，执行(4)；

(5)根据(4)获得的遮挡信息，结合遥感视频序列中目标未遮挡时的状态信息，驱动强化学习的动作，获得目标边界框所要移动的方向和距离，根据移动的方向和距离得到遥感视频序列中被完全遮挡目标的位置和大小；

2.根据权利要求1所述的方法，其中(1)中的深度强化学习网络，包括三个卷积层和四个全连接层，其结构关系是：第一卷积层conv1→第二卷积层conv2→第三卷积层conv3→第一全连接层fc1→第二全连接层

的并联。

第一卷积层的卷积核大小为7×7，第二卷积层的卷积核大小为5×5，第三卷积层和第一全连接层的卷积核大小均为3×3，第二全连接层、第三全连接层和第四全连接层的卷积核大小均为1×1，第一全连接层和第二全连接层有512个输出节点，第三全连接层有11个输出节点，第四全连接层有2个输出节点。

3.根据权利要求1所述的方法，其中(1)中将遥感视频序列一帧一帧的图像输入到深度强化学习网络进行特征提取，其实现如下：

(1a)在遥感视频序列的第一帧给定目标的位置和大小信息，即给定目标边界框，截取以目标为中心112x112像素的彩色图像块p∈R^112×112×3，作为深度强化学习网络的输入；

(1b)通过深度强化学习网络，提取遥感图像中目标的动作A、状态S和奖赏函数R(s_t,a_t,s_t+1)。

所属动作A，其包含左、右、上、下、左上、右上、左下、右下、放大、缩小和停止这11维的动作矢量值，并从第三全连接层fc3输出；

所属状态S是一个元组(p_t,d_t)，p_t表示在t时刻112×112像素的图像块，d_t表示近10次的动作矢量值集合，即d_t∈R¹¹⁰；

所属奖赏函数R(s_t,a_t,s_t+1)表示在s_t状态下，执行动作a_t，到达下一状态s_t+1所获得的奖赏值集合，其中每次所获得的奖赏值r定义为：

其中，b表示目标边界框，G表示正确的标注数据信息，而IoU表示的是两者的交并比，即

4.根据权利要求1所述的方法，其中(1)中的在线微调网络，是通过固定网络卷积层的权重参数，调整所有全连接层的权重参数，以增强跟踪的鲁棒性。

5.根据权利要求1所述的方法，其中(2)中通过动作驱动方式获得运动矢量及当前帧目标边界框所要移动的方向和距离，其实现如下：

(2a)将目标边界框表示为[x^(t),y^(t),w^(t),h^(t)],其中，(x^(t),y^(t))表示目标的中心位置坐标，w^(t)和h^(t)分别表示边界框的宽度和高度；

(2b)设每次移动的距离为Δx^(t)＝αw^(t)，Δy^(t)＝αh^(t)，α为转移系数，α＝0.03，移动后的边界框表示为[x^(t)',y^(t)',w^(t)',h^(t)']，其中，(x^(t)',y^(t)')表示目标移动后的中心位置坐标，w^(t)'和h^(t)'分别表示目标边界框移动后的宽度和高度，该宽度w^(t)'和高度h^(t)'反映了目标的大小。

6.根据权利要求1所述的方法，其中所述(4)的实现如下：

(4a)通过保存近十次状态S的动作矢量信息，得到最近十帧的边界框的位置和大小；

(4b)利用遥感视频数据中所提供的上下文信息，获得最近十帧视频序列中目标的平均转移方向、速度大小、方向旋转变化和加速度大小这四项遮挡信息：

所述目标的平均转移方向，其含有左、右、上、下这四个维度；

所述速度大小，其根据位移x和时间t，得到速度：

所述方向旋转变化，其包含左、右、上、下这四个维度；

所述加速度大小，其根据速度ν和时间t，得到加速度：

7.根据权利要求1所述的方法，其中(5)中驱动强化学习的动作，是根据(4)获得的遮挡信息，通过深度强化学习网络提取遥感图像中目标的状态S来驱动强化学习的动作，获得目标边界框所要移动的方向和距离。