CN112818905A

CN112818905A - 一种基于注意力和时空信息的有限像素车辆目标检测方法

Info

Publication number: CN112818905A
Application number: CN202110198268.0A
Authority: CN
Inventors: 李红光; 于若男; 李烜烨; 王菲
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-10
Filing date: 2021-02-22
Publication date: 2021-05-18
Anticipated expiration: 2041-02-22
Also published as: CN112818905B

Abstract

本发明公开了一种基于注意力和时空信息的有限像素车辆目标检测方法，属于航空图像处理技术领域。以无人机实飞数据为基础，建立远距离无人机图像典型目标数据集；通过语义分割网络分割出道路区域后对无人机图像进行稳定性区域提取，作为目标的候选区域；基于时空连续性及外观相似度对某时间段内同一目标的不同候选区域进行关联，构造分组；并进行局部加权显著性检测，设定显著性分数阈值以去除虚警；利用真实目标对应的分组，根据目标运动轨迹在时间上的连续性，对未在稳定性区域检测出的目标位置进行估计，对稳定性区域的检测结果进行补充。本发明将深度网络模型与非深度方法相结合，对有限像素车辆目标实现了有效检测，具有较高的准确性和速度。

Description

一种基于注意力和时空信息的有限像素车辆目标检测方法

技术领域

本发明属于航空图像处理技术领域，具体涉及一种基于注意力和时空信息的有限像素车辆目标检测方法。

背景技术

无人机图像有限像素目标是指在无人机图像中所占像素很少的目标。在远距离成像条件下，尤其是中高空无人机远距离斜视对地观测时，地面目标在图像中所占像素数较少。

利用计算机对无人机图像数据进行有效地分析和处理，识别出不同类别的目标并标注其所在的位置是计算机视觉任务中的基础问题之一，被广泛应用于军事、农林业、海事、防灾救灾以及城市规划等各个领域，这也对无人机图像的目标检测任务提出了更高的要求。

在复杂背景中检测小目标是图像分析处理领域的一个重要研究方向，与自然场景下的图像相比，由于成像距离较远，无人机图像具有背景复杂度高、目标尺寸小和特征弱等特点，且由于成像环境较为复杂，例如天气、平台速度、高度及稳定性变化性大，导致无人机图像具有分辨率低、色彩饱和度低和环境噪声失真等问题，从而加大了目标检测的难度。

现有的目标检测算法分为基于传统图像处理和基于深度学习的算法两大类，对有限像素级别的车辆目标检测具有一定局限性，主要体现在：

1)基于传统图像处理的目标检测法大多应用于红外弱小目标检测领域，通过引入视觉注意力机制，利用目标与背景、噪声之间的差异，选择性地发现感兴趣的目标区域，但手工设计特征具有代表性不足的缺点，易受复杂背景的干扰，不能直接应用于无人机图像目标检测任务中。

2)基于深度神经网络的目标检测方法，大多针对于具有一定尺寸或比例的中大型目标，难以适用于复杂场景下的小目标检测，特别是针对有限像素的目标存在固有缺陷。

3)无人机图像序列车辆目标运动轨迹在时间上具有连续性，现有的方法未能利用时空信息，从而改善有限像素车辆目标的检测性能。

发明内容

针对无人机图像中的有限像素车辆目标检测任务，为提升检测结果的准确率，并具有适应复杂环境变化的能力，同时满足一定的实时性要求，本发明通过结合非深度方法与深度网络，同时引入车辆目标运动信息，提出一种基于注意力和时空信息的有限像素车辆目标检测方法。

具体步骤如下：

步骤一、利用某无人机的实飞数据，选取某时间段内远距离无人机图像中的目标数据集。

目标为道路场景中的车辆；每帧无人机图像中的车辆个数不定；

步骤二、针对每张图像数据，分别进行真值标签处理和地理位置偏移计算；

真值标签处理是对每张无人机图像对应的标签分别进行处理；

标签处理包括两部分：一部分是标记单通道二值标签，以及标记道路与水平方向的夹角θ；

单通道标签图为0-1二值图像；

另一部分是对每张图像中每个目标车辆的真实尺寸进行统计，生成尺寸分布直方图。

地理位置偏移计算是指：基于无人机飞行高度和成像参数，计算图像序列的位置偏移量，包括相邻两帧图像的旋转角度Δθ和平移量Δs＝(Δx,Δy)；

步骤三、根据无人机图像和单通道二值标签，采用SegNet全卷积网络训练道路语义分割网络模型，并引入回归分支预测分割后道路的角度值；

针对某无人机图像，通过给定的真值标签，在SegNet全卷积网络中引入一个回归分支，网络自动学习角度值。

步骤四、对每张无人机图像进行二值分割后聚类，对各聚类结果进行二次后验，生成各聚类对应的稳定性区域；

稳定性区域的提取过程具体为：

步骤401、针对每张图像，将三通道彩色图像转换为灰度图像，采用多级阈值对灰度图像进行二值分割，得到多个连通区域组成的二值图；

多级阈值为：一组灰度范围在[0，255]，步长为δ的阈值；

二值图中每个连通区域分别对应五种结构描述符，分别为：1)像素数|r|；2)几何中心点c；3)最小外接矩形框b；4)填充率f；5)宽高比a；

步骤402、针对每张图像，以各连通区域的几何中心点之间的欧几里得距离作为约束，通过计算相似性度量准则，基于连通区域之间的空间关系对二值分割得到的连通区域进行聚类；

具体为：

对任意两个相邻连通区域u,v的结构描述符进行运算，得到四种稳定性度量准则，分别为：

1)面积变化D_r(u,v)＝||u|-|v||；

2)中心距离D_c(u,v)＝||c_u-c_v||；

3)填充率差异

4)宽高比差异

聚类过程为：判断两个相邻区域的中心距离D_c(r_i,r_j)是否小于阈值Δ_c，如果是，则区域r_i,r_j为同一个聚类。否则，这两个区域不能聚类；

Δ_c定义为：

其中

表示区域r_i的宽，

表示区域r_i的高。

最后、每张图像中各目标分别对应一个聚类；每个聚类中包含的连通区域个数不定；

步骤403、对每张图像中各聚类结果分别进行二次后验，生成各聚类结果对应的稳定性区域。

对当前图像中各聚类结果均做如下操作：

首先，针对某目标P对应的聚类结果，从所有的填充率差异中选择最小值对应的两个连通区域，以及宽高比差异最小值对应的两个连通区域，从这四个连通区域中选择像素数|r|最大的区域作为目标P的最终区域R。

然后，以区域R的最小外接矩形框为边界，对应到原始图像中，从原始图像中按最小外接矩形框的边界进行提取，得到仅包含目标P的图像作为最优子图像；

接着，通过Otsu阈值分割方法对最优子图像进行分割，使目标P与背景的类间方差最大，从而获得最优阈值

用于分离最优子图像中的目标P和背景，并得到分割结果

在最优阈值

左右一个步长δ范围内分别取两个阈值

然后，分别使用分割阈值

对最优子图像再次进行分割，得到对应的分割结果

判断分割后的两个区域面积变化量

是否小于阈值Φ_r，如果是，则二次后验判定区域R为稳定性区域；否则，该区域R不是稳定区域，直接舍弃。

阈值Φ_r定义为：

Φ_r＝Δ_rφ_r

其中Δ_r为权重系数，t_s为预先设定的小目标尺寸。

同理，将当前图像中其余各聚类结果都进行上述处理，得到各聚类结果对应的稳定性区域；

步骤五：基于时空连续性及外观相似度，对该时间段内的不同帧图像中的同一个目标的稳定性区域进行关联，形成分组；

具体过程为：

步骤501、针对某目标Q当前第i帧图像中的稳定性区域，根据无人机图像中目标车辆的运动特性和预测的分割道路的角度值，对该目标在第i+1帧图像中建立搜索区域范围。

首先，相邻两帧图像经过旋转和平移后，计算齐次变换矩阵T：

然后，目标Q当前第i帧图像的中心点坐标为

利用变换矩阵计算该中心点在第i+1帧中对应的位置；

表示为：

最后，利用中心点在第i+1帧中的对应位置，以及预测的分割道路的角度值得到目标Q在第i+1帧中的搜索范围；

搜索范围为经过点

且角度为θ_i+1的直线上与点

之间距离为L的线段，即：

其中θ_i+1表示第i+1帧预测的分割道路的角度先验值。

由此，得到目标Q在相邻的各帧图像中对应的不同搜索范围；

步骤502、在目标Q第i+1帧图像的搜索区域范围内，利用稳定性检测生成二值区域，并判断是否在二值区域上搜索到了目标Q，如果是，进入步骤503检验相邻两帧的外观相似性，否则，忽略第i+1帧图像，继续在第i+2帧图像的搜索区域范围内，依次类推，直至搜索到目标Q。

步骤503、基于形状描述子和颜色描述子，对包含目标Q的两个相邻帧中的稳定性区域进行外观相似性度量；

对两个相邻稳定性区域之间，外观相似度计算公式为：

其中χ²[.]是直方图之间的卡方距离，α表示卡方距离的权重，D[.]表示两个Hu矩特征向量之间的欧式距离，β表示欧式距离的权重；

表示第i帧图像中稳定性区域m对应的子图像灰度直方图，

表示第i帧图像中稳定性二值区域m对应的特征向量。

步骤504、选择外观相似度超过设定阈值的目标Q的稳定性区域进行关联，最后得到一系列包含目标Q的稳定性区域，这一系列稳定性区域作为一组。

步骤六、对各目标的分组中对应的稳定性区域分别进行局部加权显著性检测，并判定各组的目标是否为真实目标。

显著性检测过程为：

步骤601、对该时间段内的所有无人机图像进行灰度化，并采用高斯滤波对各稳定性区域进行处理；

高斯差分滤波表示为：

S(x,y)＝I(x,y)*DOG(x,y,σ₁,σ₂)

σ₁和σ₂分别是高斯函数的标准差，且σ₁＞σ₂；DOG(x,y,σ₁,σ₂)表示两个具有不同偏差的高斯核组成的高斯差分滤波函数；

步骤602、利用高斯滤波的结果，同时引入尺寸加权因子和概率加权因子，对每组关联的各稳定性区域分别计算加权显著性分数；

具体为：

首先，针对不同目标，分别计算各分组关联的每个稳定性区域的尺寸加权因子和概率加权因子；

尺寸加权因子由关联的各稳定性区域的自身尺寸决定，根据步骤二中车辆目标真实尺寸分布先验值得到；同一组内不同的稳定性区域对应的尺寸加权因子不同；

概率加权因子由所在的分组决定，每个分组关联的各稳定性区域的概率加权因子相同。

然后，利用尺寸加权因子和概率加权因子，对稳定性区域进行显著性计算，得到加权显著性分数；

表示为：

其中

表示第k个分组中第i'个稳定性区域的显著性分数；

表示第k个分组中第i'个稳定性区域的尺寸加权因子，P_k表示第k个分组的各稳定性区域的概率加权因子。

表示第k个分组中第i'个稳定性区域。

步骤603、选择每个分组中最大的加权显著性分数值并与设定阈值Th进行比较，判断是否大于阈值，如果是，则将该分组对应的目标判定为真实目标，否则，该分组对应的目标为虚假目标。

阈值定义为：Th＝0.7max(S_k)；

其中S_k为第k个分组中加权显著性分数最大的值。

步骤七、利用真实目标对应的分组，根据目标运动轨迹在时间上的连续性，以及齐次变换矩阵和道路角度的先验值，对未在稳定性区域检测出的目标位置进行估计，对稳定性区域的检测结果进行补充。

本发明具有如下的优点：

(1)一种基于注意力和时空信息的有限像素车辆目标检测方法，在复杂背景下的无人机图像目标检测任务中，对有限像素级别的车辆目标具有较高的精度；

(2)一种基于注意力和时空信息的有限像素车辆目标检测方法，通过融合多帧图像的时空信息，提高了检测的召回率；

(3)一种基于注意力和时空信息的有限像素车辆目标检测方法，通过提取并结合多种图像视觉特征，使检测结果具有可靠性。

附图说明

图1是本发明采用的多阶段目标检测方法示意图；

图2是本发明一种基于注意力和时空信息的有限像素车辆目标检测方法流程图；

图3是本发明采用的道路区域语义分割网络结构图；

图4是本发明采用的稳定性区域关联示意图。

具体实施方式

下面结合附图，对本发明的具体实施方法作进一步的详细说明。

本发明提供了基于视觉注意力和时空信息融合的多阶段无人机图像有限像素车辆目标检测方法，具体是一种基于注意力和时空信息的有限像素车辆目标检测方法，将深度语义分割网络与非深度小目标检测方法相结合，以提高复杂背景下小目标检测的准确率。如图1所示，首先，将无人机拍摄的原始图像，进行道路区域和语义信息的分割；然后，针对道路区域进行稳定性区域的提取，包括灰度图像的转换，多级阈值的二值化分割，并将得到的多个连通区域进行聚类，对聚类结果进行二次后验，生成各聚类结果对应的稳定性区域；最后得到各图像对应的稳定性检测图；接着，基于时空连续性和外观相似度，对不同帧图像中同一个目标的稳定性区域进行关联，形成分组；然后对各分组中对应的稳定性区域进行局部加权显著性检测，并判定目标是否为真实目标；最后，对未在稳定性区域检测出的目标位置进行估计，对稳定性区域的检测结果进行补充，保证多帧检测结果具有一致性，从而提高检测召回率。

具体步骤如图2所示，包括如下：

以具有一定时长、不同大气条件下、不同飞行高度和成像距离的实飞数据为基础，建立远距离无人机图像典型目标数据集，目标类别主要为城市道路场景下的车辆；每帧无人机图像中的车辆个数不定；

标签处理包括两部分：一部分是标记单通道二值标签，用于训练语义分割网络的道路区域，单通道标签图为0-1二值图像；以及标记道路与水平方向的夹角θ；

地理位置偏移计算是指：基于无人机飞行高度、成像参数等图像元数据，计算图像序列的位置偏移量，包括相邻两帧图像的旋转角度Δθ和平移量Δs＝(Δx,Δy)，用于将时空信息与车辆目标的检测相融合。

步骤三、根据无人机图像和道路区域单通道二值标签，采用SegNet全卷积网络训练无人机图像的道路区域语义分割网络模型，并引入回归分支预测分割后道路的角度值；

本发明所采用的道路分割网络为SegNet全卷积网络，同时引入回归分支预测道路角度值，网络结构如图3所示；针对某无人机图像，通过给定的真值标签，在SegNet全卷积网络中引入一个回归分支，网络自动学习角度值。

步骤四、对每张无人机图像进行二值分割后聚类，对各聚类结果进行二次后验，生成各聚类对应的稳定性区域；作为车辆目标的候选区域；

鉴于无人机图像中的目标尤其是有限像素车辆目标一般具有团块效应，呈现出聚集特性，一般形状较为规则，边缘显著，与周围背景之间具有明显的灰度差异，可以看作背景中一个明亮的斑点，利用这种特性基于稳定性区域检测构造目标/背景先验，从背景中提取局部稳定区域作为车辆目标的候选区域。由于图像中的目标区域在进行二值化时具有几何与统计不变性，因此采用多级阈值分割的方式提取稳定性区域。

提取过程具体为：

步骤401、针对每张图像，将三通道彩色图像转换为灰度图像，采用多级阈值对灰度图像进行二值分割，得到系列连通区域组成的二值图；

使用一组灰度范围在[0，255]，步长为δ的阈值对灰度图像进行二值分割，得到多个连通区域集合以及每个连通区域对应的五种结构描述符。二值图中每个连通区域的五种结构描述符分别为：1)像素数|r|；2)几何中心点c；3)最小外接矩形框b；4)填充率f；5)宽高比a；

步骤402、针对每张图像，以各连通区域的几何中心点之间的距离作为相似性度量准则，对二值分割得到的连通区域进行聚类；

具体为：

为计算两个相邻连通区域u,v之间的相似性，对五种结构结构描述符进行运算，得到四种稳定性度量准则，分别为：

1)面积变化D_r(u,v)＝||u|-|v||；

2)中心距离D_c(u,v)＝||c_u-c_v||；

3)填充率差异

4)宽高比差异

聚类过程为：由于有限范围内连续阈值的分割结果具有相似性，目标质心坐标相邻，即判断两个相邻区域的中心距离D_c(r_i,r_j)是否小于阈值Δ_c，如果是，则区域r_i,r_j为同一个聚类。否则，这两个区域不能聚类；

Δ_c定义为：

其中

表示区域r_i的宽，

表示区域r_i的高。

最后、每张图像中各目标分别对应一个聚类；每个聚类中包含的连通区域个数不定，表示不同分割阈值下对同一目标生成的完整区域覆盖。

步骤403、对每张图像中各聚类结果分别进行二次后验，以减小稳定性区域提取阶段产生的误差，生成各聚类结果对应的稳定性区域。

对当前图像中各聚类结果均做如下操作：

首先，针对某目标P对应的聚类结果，由于填充率差异、宽高比差异表示两个连通区域的外观差异程度，差异越小表明与之对应的特定目标区域越稳定；所以从所有的填充率差异中选择最小值对应的两个连通区域，以及宽高比差异最小值对应的两个连通区域，从这四个连通区域中选择像素数|r|最大的区域作为目标P的最终区域R。

然后，以区域R的最小外接矩形框为边界，对应到原始图像中，从原始灰度图像中按最小外接矩形框的边界进行提取，得到仅包含目标P的图像作为最优子图像；

接着，由于子图像中目标和背景区域均具有灰度一致性，且目标和背景之间具有一定的灰度差异，因此通过Otsu阈值分割方法对最优子图像进行分割，使目标P与背景的类间方差最大，从而获得最优阈值

用于分离最优子图像中的目标P和背景两个团块，选择最长的边界框分割结果

并判断

是否受区域面积的限制；

在最优阈值

左右一个步长δ范围内分别取两个阈值

然后，分别使用分割阈值

对最优子图像再次进行分割，得到对应的分割结果

判断分割后的两个区域面积变化量

阈值Φ_r定义为：

Φ_r＝Δ_rφ_r

其中Δ_r为权重系数，t_s为预先设定的小目标尺寸。

同理，将当前图像中其余各聚类结果都进行上述处理，得到各聚类结果对应的稳定性区域；稳定性区域可能是真实的车辆目标，也可能是图像中的噪声。

由于稳定性区域提取易受光照、阴影和周围目标的遮挡等因素的影响，因此不同帧之间的稳定性检测结果具有不一致性，而稳定性检测是小目标检测准确度的基础，因此提出一种方法通过将属于不同帧的同一目标相关联，使检测结果具有一致性，从而提高检测召回率。

时空连续性是指车辆目标的运动轨迹具有连续性，因此本发明在单帧目标检测的基础上引入图像序列的帧间运动关系辅助检测，以提升复杂背景下小目标的检测准确率。采用的具体方法是候选区域关联法，对图像序列中检测到的目标候选区域的相对位置关系和外观相似度进行度量，并根据度量结果对属于同一目标的候选区域进行关联，构造关于图像序列的候选区域分组集合。即利用不同帧之间目标的相对运动关系，以前一帧的候选区域中心为搜索中心，L为搜索距离，在后一帧稳定性检测生成的二值图像上进行搜索，若发现目标则对其进行外观相似性检验，若两个候选区域的外观相似度较高，则将其关联，否则忽略。

如图4所示，具体过程为：

首先，由于无人机航拍的运动特性导致图像序列的场景发生一定程度上的偏移，无人机图像场景的位置偏移包括旋转和平移两部分，假设相邻两帧图像之间先经过角度为Δθ的旋转变换，旋转中心为图像中心点，又经过Δs＝(Δx,Δy)的平移变换，计算齐次变换矩阵T：

然后，目标Q当前第i帧图像的中心点坐标为

利用变换矩阵计算该中心点在第i+1帧中对应的位置；

表示为：

搜索范围为经过点

且角度为θ_i+1的直线上与点

之间距离为L的线段，即：

其中θ_i+1表示第i+1帧预测的分割道路的角度先验值。

由此，得到目标Q在相邻的各帧图像中对应的不同搜索范围；

若在后一帧没有搜索到目标，那么重新计算搜索区域，在第三帧稳定性图上进行搜索，以此类推；

对搜索到的候选区域进行外观相似性度量，外观相似性度的度量包括形状描述子和颜色描述子两部分：形状描述子采用基于Hu不变矩的区域特征对二值化稳定性区域进行表示，Hu不变矩具有旋转、平移和尺度变性，由Hu矩阵构成候选区域的特征向量，两个特征向量间的距离用于表示候选区域的形状相似程度。

颜色描述子是指原始图像序列转换到Lab彩色空间并执行彩色量化，每一个颜色通道被量化为4bit，因此量化后颜色数减少至4³，用于计算Lab颜色直方图。

对两个相邻稳定性区域之间，外观相似度计算公式为：

表示第i帧图像中稳定性区域m对应的子图像灰度直方图，

表示第i帧图像中稳定性二值区域m对应的特征向量。

计算两个候选区域之间的外观相似度，若两个候选区域的外观相似度较高，则将其关联。

目标在一定区域内具有视觉显著性，人眼往往可以从复杂背景中发现感兴趣的目标。对图像序列进行灰度化，并采用高斯滤波的方法进行目标区域的显著性检测。滤波处理后的每一个像素点对应的值表示其显著性程度，对稳定性提取的候选区域进行显著性计算，本发明通过引入尺寸加权因子和概率加权因子对高斯滤波结果进行加权，得到最终显著性分数用于判断各组目标是否为真实目标，以降低虚警概率，提高目标检测准确率。

尺寸加权因子是指各候选区域的尺寸的先验概率值。

概率加权因子是指一个分组中候选区域在图像序列稳定性检测结果中出现的概率。

若一个分组内目标的最大显著性分数大于阈值，则该分组内所有目标判定为真目标，若显著性分数小于阈值则判定为虚警。

显著性检测过程为：

二维高斯滤波的表达式为：

通常使用高斯差分滤波抑制低频和高频噪声，以突出图像显著性区域。

两个具有不同偏差的高斯核组成的高斯差分滤波的表达式为：

其中，σ₁和σ₂分别是高斯函数的标准差，且σ₁＞σ₂。

经DOG滤波处理后的图像表示为：

S(x,y)＝I(x,y)*DOG(x,y,σ₁,σ₂)

在计算候选区域的显著性分数时，将该候选区域的尺寸先验概率值作为其尺寸加权因子。尺寸加权因子用于降低尺寸异常的候选区域对应的显著性分数，以去除虚警。概率加权因子是指一个分组中候选区域在图像序列稳定性检测结果中出现的概率。若一个稳定性区域在整个图像序列检测结果中仅出现一次，则是虚警的可能性较大，因此它对应的概率加权因子较低。同一分组内目标的概率加权因子相同。

具体为：

然后，每一个像素点对应的值表示其显著性程度，对稳定性提取的候选区域进行显著性计算，同时利用尺寸加权因子和概率加权因子，对稳定性区域进行显著性计算，得到加权显著性分数；

表示为：

其中

表示第k个分组中第i'个稳定性区域的显著性分数；

表示第k个分组中第i'个稳定性区域。

阈值定义为：Th＝0.7max(S_k)；

其中S_k为第k个分组中加权显著性分数最大的值。

步骤七、利用真实目标对应的分组，根据目标运动轨迹在时间上的连续性，以及齐次变换矩阵和道路角度的先验值，对未在稳定性区域检测出的目标位置进行估计，对稳定性区域的检测结果进行补充，保证多帧检测结果具有一致性，从而提高检测召回率。

本发明针对无人机图像中车辆目标的场景依赖性，引入了语义分割网络对无人机图像中道路区域进行分割，并引入回归分支预测道路角度值。鉴于无人机图像中的目标尤其是有限像素车辆目标一般具有团块效应，通过传统图像处理的方法提取图像中局部稳定性区域作为车辆目标的候选区域，构造目标/背景先验；同时引入帧间运动关系辅助检测，对图像序列的候选区域进行分组，使检测结果具有一致性。通过利用视觉显著性检测对候选区域进行二次检验，以去除稳定性检测结果中的虚假目标，此外，通过先验知识对未在稳定性区域检测阶段提取出的目标位置进行预测，并对稳定性检测的结果进行补充。

Claims

1.一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，具体步骤如下：

步骤一、利用某无人机的实飞数据，选取某时间段内远距离无人机图像中的目标数据集；

步骤三、根据无人机图像和单通道二值标签，采用SegNet全卷积网络训练道路语义分割网络模型，并引入回归分支自动预测分割后道路的角度值；

具体过程为：

步骤501、针对某目标Q当前第i帧图像中的稳定性区域，根据无人机图像中目标车辆的运动特性和预测的分割道路的角度值，对该目标在第i+1帧图像中建立搜索区域范围；

步骤502、在目标Q第i+1帧图像的搜索区域范围内，利用稳定性检测生成二值区域，并判断是否在二值区域上搜索到了目标Q，如果是，进入步骤503检验相邻两帧的外观相似性，否则，忽略第i+1帧图像，继续在第i+2帧图像的搜索区域范围内，依次类推，直至搜索到目标Q；

对两个相邻稳定性区域之间，外观相似度计算公式为：

表示第i帧图像中稳定性区域m对应的子图像灰度直方图，

表示第i帧图像中稳定性二值区域m对应的特征向量；

步骤504、选择外观相似度超过设定阈值的目标Q的稳定性区域进行关联，最后得到一系列包含目标Q的稳定性区域，这一系列稳定性区域作为一组；

步骤六、对各目标的分组中对应的稳定性区域分别进行局部加权显著性检测，并判定各组的目标是否为真实目标；

显著性检测过程为：

具体为：

尺寸加权因子由关联的各稳定性区域的自身尺寸决定，根据车辆目标真实尺寸分布先验值得到；同一组内不同的稳定性区域对应的尺寸加权因子不同；

概率加权因子由所在的分组决定，每个分组关联的各稳定性区域的概率加权因子相同；

表示为：

其中

表示第k个分组中第i'个稳定性区域的显著性分数；

表示第k个分组中第i'个稳定性区域的尺寸加权因子，P_k表示第k个分组的各稳定性区域的概率加权因子；

表示第k个分组中第i'个稳定性区域；

步骤603、选择每个分组中最大的加权显著性分数值并与设定阈值Th进行比较，判断是否大于阈值，如果是，则将该分组对应的目标判定为真实目标，否则，该分组对应的目标为虚假目标；

阈值定义为：Th＝0.7max(S_k)；

其中S_k为第k个分组中加权显著性分数最大的值；

2.如权利要求1所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤一中，目标为道路场景中的车辆；每帧无人机图像中的车辆个数不定。

3.如权利要求1中所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤二中，真值标签处理是对每张无人机图像对应的标签分别进行处理；

标签处理包括两部分：一部分是标记0-1的单通道二值标签，以及标记道路与水平方向的夹角θ；另一部分是对每张图像中每个目标车辆的真实尺寸进行统计，生成尺寸分布直方图；

地理位置偏移计算是指：基于无人机飞行高度和成像参数，计算图像序列的位置偏移量，包括相邻两帧图像的旋转角度Δθ和平移量Δs＝(Δx,Δy)。

4.如权利要求1中所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤四中稳定性区域的提取过程具体为：

聚类过程为：判断两个相邻区域的中心距离D_c(r_i,r_j)是否小于阈值Δ_c，如果是，则区域r_i,r_j为同一个聚类；否则，这两个区域不能聚类；

Δ_c定义为：

其中

表示区域r_i的宽，

表示区域r_i的高；

步骤403、对每张图像中各聚类结果分别进行二次后验，生成各聚类结果对应的稳定性区域；

对当前图像中各聚类结果均做如下操作：

首先，针对某目标P对应的聚类结果，从所有的填充率差异中选择最小值对应的两个连通区域，以及宽高比差异最小值对应的两个连通区域，从这四个连通区域中选择像素数|r|最大的区域作为目标P的最终区域R；

用于分离最优子图像中的目标P和背景，并得到分割结果

在最优阈值

左右一个步长δ范围内分别取两个阈值

然后，分别使用分割阈值

对最优子图像再次进行分割，得到对应的分割结果

判断分割后的两个区域面积变化量

是否小于阈值Φ_r，如果是，则二次后验判定区域R为稳定性区域；否则，该区域R不是稳定区域，直接舍弃；

同理，将当前图像中其余各聚类结果都进行上述处理，得到各聚类结果对应的稳定性区域。

5.如权利要求4中所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤402中，对任意两个相邻连通区域u,v的结构描述符进行运算，得到四种稳定性度量准则，分别为：

1)面积变化D_r(u,v)＝||u|-|v||；

2)中心距离D_c(u,v)＝||c_u-c_v||；

3)填充率差异

4)宽高比差异

6.如权利要求4所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤403中，阈值Φ_r定义为：

Φ_r＝Δ_rφ_r

其中Δ_r为权重系数，t_s为预先设定的小目标尺寸。

7.如权利要求1所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤501具体为：

然后，目标Q当前第i帧图像的中心点坐标为

利用变换矩阵计算该中心点在第i+1帧中对应的位置；

表示为：

搜索范围为经过点

且角度为θ_i+1的直线上与点

之间距离为L的线段，即：

其中θ_i+1表示第i+1帧预测的分割道路的角度先验值；

由此，得到目标Q在相邻的各帧图像中对应的不同搜索范围。

8.如权利要求1中所述的一种基于注意力和时空信息的有限像素车辆目标检测方法，其特征在于，所述步骤601中，高斯差分滤波表示为：

S(x,y)＝I(x,y)*DOG(x,y,σ₁,σ₂)

σ₁和σ₂分别是高斯函数的标准差，且σ₁＞σ₂；DOG(x,y,σ₁,σ₂)表示两个具有不同偏差的高斯核组成的高斯差分滤波函数。