CN111461008B

CN111461008B - 结合场景透视信息的无人机航拍目标检测方法

Info

Publication number: CN111461008B
Application number: CN202010247654.XA
Authority: CN
Inventors: 罗忆; 刘琼
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-05-23
Anticipated expiration: 2040-03-31
Also published as: CN111461008A

Abstract

本发明公开了结合场景透视信息的无人机航拍目标检测方法。所述方法包括以下步骤：输入当前无人机航拍图像，使用主干网络提取图像特征金字塔；通过当前无人机传感器获取动态透视估计参数；通过其他已检测航拍图像集计算静态透视估计参数；使用动态透视估计参数以及静态透视估计参数计算图像场景透视估计图；构建区域生成网络，筛除透视适配性差的锚点，生成感兴趣区域；计算各个感兴趣区域符合透视关系的区域特征；执行分类和定位，输出目标检测结果。本发明通过结合场景透视信息，同时提高了无人机航拍目标检测的精度和速度。

Description

结合场景透视信息的无人机航拍目标检测方法

技术领域

本发明涉及无人机航拍目标检测问题，具体涉及结合场景透视信息的无人机航拍目标检测方法。

背景技术

无人机凭借着卓越的灵活性和便携性，广泛应用于农业、影视、测绘、监控、快递、户外搜救等领域。为了应对航拍数据的智能识别这一需求，无人机目标检测成为了当下的研究热点。

不同于普通图像，无人机航拍图像中的目标表现出更显著的尺度多样性：不仅不同图像中的相同目标存在巨大尺寸差异，即使是同一图像中处于不同位置的相同目标尺寸差异依然明显。这导致了现有的深度学习方法在无人机航拍目标检测任务上表现的不尽人意。以最大的通用目标数据集COCO和近期的大型无人机航拍数据集VisDrone为例，COCO检测精度最高的五个方法平均准确率是51.88％，而同一评价标准下的VisDrone结果仅为27.81％。

无人机航拍图像中的目标尺度变化虽然剧烈，但却符合一定的规律：1)由于无人机具备一定的飞行高度，故所有目标均和镜头有一定距离，拍摄出的目标不会有严重的目标间遮挡或镜头畸变的情况；2)无人机在拍摄若干张图像时通常使用相同的镜头参数，拍摄出的图像场景符合严格的透视关系；3)只要确认无人机的镜头参数、姿态以及飞行高度，场景的形态则完全确定。通过确定场景的透视关系，可以换算出图像中各个位置应有的目标尺度，进而指导目标检测流程。

综上，改善无人机目标检测的关键是结合并利用场景透视信息。本发明提出结合场景透视信息的无人机航拍目标检测方法：使包括以下步骤：使用主干网络提取图像特征金字塔；通过当前无人机传感器获取动态透视估计参数；通过其他已检测航拍图像集计算静态透视估计参数；使用透视估计参数计算图像场景透视估计图；构建区域生成网络，筛除透视适配性差的锚点，生成感兴趣区域；计算各个感兴趣区域符合透视关系的区域特征；执行分类和定位，输出目标检测结果。

本发明涉及到以下现有技术：

现有文献1：He Kaiming,et al."Deep residual learning for imagerecognition."Proceedings of the IEEE conference on computer vision andpattern recognition.2016.

现有文献2：Ren,Shaoqing,et al."Faster r-cnn:Towards real-time objectdetection with region proposal networks."Advances in neural informationprocessing systems.2015.

现有文献3：Lin,Tsung Yi,et al."Feature Pyramid Networks for ObjectDetection"Proceedings of the IEEE conference on computer vision and patternrecognition.2016.

现有文献1提出残差网络，利用残差链接降低深层网络的训练难度，得出具有强大表征/分类能力的主干特征。现有文献2提出区域生成网络，直接在主干特征上利用预设锚点生成感兴趣区域。现有文献3介绍了特征金字塔，增强了对于不同尺度目标的特征表达能力。本发明使用现有文献1的技术提取主干特征；使用现有文献2的技术作为目标分类和定位的框架；使用现有文献3的技术构建特征金字塔。

发明内容

本发明旨在改善无人机航拍目标检测的速度和精度，从而更好的完成基于无人机视觉的监控、搜索、作业等任务。为了达到上述目的，根据本发明提供结合长镜头是信息的无人机航拍目标检测方法，通过无人机和已检测数据计算当前场景透视估计图，并通过透视估计图指导筛除适配性差的锚点来生成感兴趣区域，计算各个感兴趣区域符合透视的区域特征，最终执行分类和定位，输出目标检测结果。

本发明的目的至少通过如下技术方案之一实现。

结合场景透视信息的无人机航拍目标检测方法，包括以下步骤：

S1、输入当前无人机航拍图像，使用主干网络提取图像特征金字塔；

S2、通过当前无人机传感器获取动态透视估计参数；

S3、通过其他已检测航拍图像集计算静态透视估计参数；

S4、使用动态透视估计参数以及静态透视估计参数计算图像场景透视估计图；

S5、构建区域生成网络，筛除透视适配性差的锚点，生成感兴趣区域；

S6、计算各个感兴趣区域符合透视关系的区域特征；

S7、执行分类和定位，输出目标检测结果。

进一步地，步骤S1中，所述主干网络为五阶的残差网络，每一阶包括若干个串联的残差模块，同阶的各个残差模块的特征尺寸相同，相邻各阶之间特征尺寸缩小两倍；所述特征金字塔为主干网络二阶至五阶每阶最后一张特征图，从高阶到低阶依次进行特征融合后的集合；

所述特征融合包括以下步骤：

S1.1、对每一阶特征图使用1*1大小的卷积核进行卷积运算，降低通道维度至和低阶特征图相同；

S1.2、使用最近邻上采样方法将高阶特征图放大到低阶特征图的尺寸；

S1.3、将放大后的高阶特征图与低阶特征图进行元素相加，用相加后的特征图替代原有的低阶特征图。

进一步地，步骤S2中，所述当前无人机传感器，包括无人机携带的相机、海拔计和陀螺仪；

所述动态透视估计参数，为通过当前无人机传感器可直接获得的，检测每张图像时均不同的参数，具体包括：

一、当前无人机的飞行高度H_i，通过海拔计获得；

二、当前无人机的俯仰角

和翻滚角/>

通过陀螺仪获得；

三、当前无人机相机的像素间距μ_i和镜头焦距f_i；

各参数中的下标i表示当前图像。

进一步地，步骤S3中，所述其他已检测航拍图像集，为当前无人机已拍摄并包括检测结果的其他图像的集合；所述包括检测结果指图像中待检测目标已包括目标类别和包裹框信息，该检测结果可来源于人工标注或其他方法检测；

所述静态透视估计参数，为通过图像集计算得到的，检测不同图像时均相同的参数，具体包括图像集中所有目标的数量N_B、各个目标的类别c_b、各个目标包裹框以像素为单位的宽w_b和高h_b；

所述步骤S3，在使用相同无人机进行拍摄和检测时，只需执行一次。

进一步地，步骤S4中，所述透视估计图用语估计图像中每个位置应有的目标尺度，由式(1)计算得到：

其中，PES代表透视估计图，i代表当前图像；j代表当前图像中的某一位置，j的像素坐标为(x_j，y_j)；Λ代表调整因子，

代表参考尺度，利用步骤S3中的静态透视估计参数通过透视数据拟合方法得到；D_ij代表距离因子，由式(2)计算得到：

其中，Θ_i表示步骤S2中获取的动态透视估计参数，即包括H_i、

μ_i和f_i；ρ_j和θ_j为位置j在图像中的极坐标位置，由式(3)计算得到：

其中，w_i和h_i分别为图像i的宽度和高度。

进一步地，所述透视数据拟合方法的实现包括以下步骤：

S4.1、将式(1)和式(2)联立并调整为线性方程的形式，调整后线性方程如式(4)所示：

Y＝F_Θ(X₁，X₂)＝β₁X₁+β₂X₂+β₃； (4)

其中，β₁、β₂和β₃为线性方程待求解参数，X₁、X₂和Y为将式(2)中各变量换元得到，换元方法如式(5)所示：

S4.2、计算参考尺度

计算方法如式(6)所示：

其中，N_B、w_b和h_b为步骤S3中的静态透视估计参数；W_c为类别可靠性权重，用以描述目标b所处的类别c在不同视角下的姿态稳定性，W_c∈(0，1]，值越大代表可靠性越强，计算方法如式(7)所示：

其中，σ_c代表类别c中所有目标包裹框长宽比的标准差；minσ代表所有类别的σ_c中的最小值；

S4.3、用数据拟合权重的形式间接计算调整因子Λ，各条目标包裹框数据λ_b的拟合权重计算方法如式(8)所示：

其中，

为当前目标包裹框的长宽比，/>

为类别c中所有目标的r_b的平均值；

S4.4、带入数据并求解式(4)中的待求解参数，拟合数据时使用均方误差作为损失函数，如式(9)所示：

式(9)存在解析解，如式(10)所示：

[β₁，β₂，β₃]＝(X^Tλ_bX)^-1X^Tλ_bY； (10)

将解得参数带入式(4)并转换回式(1)，即可直接计算所述尺度估计图PES。

进一步地，步骤S5中，所述区域生成网络在经典的区域生成策略中添加了锚点筛除机制；区域生成网络的实现包括以下步骤：

S5.1、使用经典区域生成策略生成预设置锚点；将步骤S1中得到的特征金字塔最后一阶下采样为0.5倍尺寸，并串联在原特征金字塔后，记为{P₂，P₃，P₄，P₅，P₆}；在每一层特征图中，以每一个像素为中心设置宽高比分别为{1∶2，1∶1，2∶1}的三个预设值锚点区域；从浅到深每一层特征图中，预设值锚点区域大小分别为A_i＝{32²，64²，128²，256²，512²}；

S5.2、调整透视估计图尺寸；对于每一层特征图，单独计算该尺寸的透视估计图，记为PES_i，然后将后四层特征图对应的透视估计图通过最近邻插值法放大到和第一层特征图对应的透视估计图相同的尺寸；

S5.3、计算锚点区域尺寸和透视估计图尺寸最适配层；对于透视估计图上的每一个像素位置j，均存在一对透视估计图PES_i和预设锚点区域尺寸A_i的值最为接近，由式(11)计算得到：

对于每一个位置j，均存在唯一的层数i和其对应，将该层记为

其他层记为i_j；

S5.4、对于每一层的每个像素构造筛选步长，由式(12)计算得到：

S5.5、筛除透视适配性差的锚点；将步骤S5.3中标记为

的位置设置筛除标记值η_ij＝1，然后对所有特征层中所有像素位置从左上角点开始进行遍历；将每个像素位置记为p(i，x_j，y_j)，其左边最近且筛除标记值为1的像素记为p(i，x_j-1，y_j)，其上方最近且筛除标记值为1的像素记为p(i，x_j，y_j-1)，计算p点的筛除距离d_ij＝min{x_j-x_j-1，y_j-y_j-1}，最后计算p点的筛除标记值，由式(13)得到：

若筛除标记值η_ij为0，则该处的预设置锚点框进行筛除；否则保留并送入区域头部网络生成感兴趣区域。

进一步地，步骤S6中，所述符合透视关系的区域特征是依据透视估计图在特征金字塔各层中挑选得到，其实现包括以下步骤：

S6.1、计算各感兴趣区域在原图的透视加权尺寸；将感兴趣区域映射回原图，其宽高记为w₀和h₀，其中心点坐标处的透视估计图值记为PES₀，则透视加权尺寸由式(14)计算得到：

S＝α_k·w₀h₀+(1-α_k)·PES₀； (14)

其中α_k为权重因子；

S6.2、计算区域特征对应的最佳特征层；在特征金字塔[P2，P3，P4，P5]中，当前区域特征对应的最佳特征层为Pk层，由式(15)计算得到：

其中，k₀＝5，表示最大层；

代表向下取整运算；

S6.3、将感兴趣区域映射到Pk层上，取对应区域池化成固定大小，作为区域特征。

进一步地，步骤S7中，所述执行分类和定位分别通过分类头部网络和定位头部网络来实现；所述分类头部网络包括两层全连接层，输入区域特征后输出N个类别的分类得分，N为类别个数，并通过Softmax算法确定该目标的最终类别；所述定位头部网络包括两层全连接层，输入区域特征后输出4个包裹框回归系数，并使用包裹框回归系数调整目标框的最终位置；最终输出每个包裹框中物体的类别和包裹框的位置。

与现有的技术相比，本发明的有益效果为：

本发明通过结合场景透视信息，同时提高了无人机航拍目标检测的精度和速度。

附图说明

图1为本发明实施例中结合场景透视信息的无人机航拍目标检测方法的流程图。

具体实施方式

提供以下参照附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但是这些被认为仅仅是示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本发明描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在下面的描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用使得能够清楚和一致地理解本公开。因此，本领域技术人员应该清楚，提供本公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开。

实施例：

结合场景透视信息的无人机航拍目标检测方法，如图1所示，包括以下步骤：

所述主干网络为五阶的残差网络，每一阶包括若干个串联的残差模块，同阶的各个残差模块的特征尺寸相同，相邻各阶之间特征尺寸缩小两倍；所述特征金字塔为主干网络二阶至五阶每阶最后一张特征图，从高阶到低阶依次进行特征融合后的集合；

所述特征融合包括以下步骤：

S2、通过当前无人机传感器获取动态透视估计参数；

所述当前无人机传感器，包括无人机携带的相机、海拔计和陀螺仪；

一、当前无人机的飞行高度H_i，通过海拔计获得；

二、当前无人机的俯仰角

和翻滚角/>

通过陀螺仪获得；

三、当前无人机相机的像素间距μ_i和镜头焦距f_i；

各参数中的下标i表示当前图像。

S3、通过其他已检测航拍图像集计算静态透视估计参数；

所述其他已检测航拍图像集，为当前无人机已拍摄并包括检测结果的其他图像的集合；所述包括检测结果指图像中待检测目标已包括目标类别和包裹框信息，该检测结果可来源于人工标注或其他方法检测；

所述透视估计图用语估计图像中每个位置应有的目标尺度，由式(1)计算得到：

其中，w_i和h_i分别为图像i的宽度和高度。

所述透视数据拟合方法的实现包括以下步骤：

Y＝F_Θ(X₁，X₂)＝β₁X₁+β₂X₂+β₃； (4)

S4.2、计算参考尺度

计算方法如式(6)所示：

其中，

为当前目标包裹框的长宽比，/>

为类别c中所有目标的r_b的平均值；

式(9)存在解析解，如式(10)所示：

[β₁，β₂，β₃]＝(X^Tλ_bX)^-1X^Tλ_bY； (10)

所述区域生成网络在经典的区域生成策略中添加了锚点筛除机制；区域生成网络的实现包括以下步骤：

S5.2、调整透视估计图尺寸；对于每一层特征图，单独计算该尺寸的透视估计图，记为PES_i，然后将后四层特征图对应的透视估计图通过最近邻插值法放大到和第一层特征图对应的透视估计图相同的尺寸

其他层记为i_j；

S5.5、筛除透视适配性差的锚点；将步骤S5.3中标记为

S6、计算各个感兴趣区域符合透视关系的区域特征；

所述符合透视关系的区域特征是依据透视估计图在特征金字塔各层中挑选得到，其实现包括以下步骤：

S＝α_k·w₀h₀+(1-α_k)·PES₀； (14)

其中α_k为权重因子；

其中，k₀＝5，表示最大层；

代表向下取整运算；

S7、执行分类和定位，输出目标检测结果。

所述执行分类和定位分别通过分类头部网络和定位头部网络来实现；所述分类头部网络包括两层全连接层，输入区域特征后输出N个类别的分类得分，N为类别个数，并通过Softmax算法确定该目标的最终类别；所述定位头部网络包括两层全连接层，输入区域特征后输出4个包裹框回归系数，并使用包裹框回归系数调整目标框的最终位置；最终输出每个包裹框中物体的类别和包裹框的位置。

本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.结合场景透视信息的无人机航拍目标检测方法，其特征在于，包括以下步骤：

S2、通过当前无人机传感器获取动态透视估计参数；

S3、通过其他已检测航拍图像集计算静态透视估计参数；

S4、使用动态透视估计参数以及静态透视估计参数计算图像场景透视估计图；所述透视估计图用语估计图像中每个位置应有的目标尺度，由式(1)计算得到：

其中，PES代表透视估计图，i代表当前图像；j代表当前图像中的某一位置，j的像素坐标为(x_j,y_j)；Λ代表调整因子，

其中，w_i和h_i分别为图像i的宽度和高度；

所述透视数据拟合方法的实现包括以下步骤：

Y＝F_Θ(X₁，X₂)＝β₁X₁+β₂X₂+β₃； (4)

S4.2、计算参考尺度

计算方法如式(6)所示：

/>

其中，

为当前目标包裹框的长宽比，/>

为类别c中所有目标的rb的平均值；

式(9)存在解析解，如式(10)所示：

[β₁，β₂，β₃]＝(X^Tλ_bX)^-1X^Tλ_bY； (10)

将解得参数带入式(4)并转换回式(1)，即可直接计算所述尺度估计图PES；

S6、计算各个感兴趣区域符合透视关系的区域特征；

S7、执行分类和定位，输出目标检测结果。

2.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S1中，所述主干网络为五阶的残差网络，每一阶包括若干个串联的残差模块，同阶的各个残差模块的特征尺寸相同，相邻各阶之间特征尺寸缩小两倍；所述特征金字塔为主干网络二阶至五阶每阶最后一张特征图，从高阶到低阶依次进行特征融合后的集合；

所述特征融合包括以下步骤：

3.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S2中，所述当前无人机传感器，包括无人机携带的相机、海拔计和陀螺仪；

当前无人机的飞行高度H_i，通过海拔计获得；

当前无人机的俯仰角

和翻滚角/>

通过陀螺仪获得；

当前无人机相机的像素间距μ_i和镜头焦距f_i；

各参数中的下标i表示当前图像。

4.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S3中，所述其他已检测航拍图像集，为当前无人机已拍摄并包括检测结果的其他图像的集合；所述包括检测结果指图像中待检测目标已包括目标类别和包裹框信息，该检测结果可来源于人工标注或其他方法检测；

5.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S5中，所述区域生成网络在经典的区域生成策略中添加了锚点筛除机制；区域生成网络的实现包括以下步骤：

其他层记为i_j；

S5.5、筛除透视适配性差的锚点；将步骤S5.3中标记为

6.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S6中，所述符合透视关系的区域特征是依据透视估计图在特征金字塔各层中挑选得到，其实现包括以下步骤：

S＝α_k·w₀h₀+(1-α_k)·PES₀； (14)

其中α_k为权重因子；

其中，k₀＝5，表示最大层；

代表向下取整运算；

7.根据权利要求1所述的结合场景透视信息的无人机航拍目标检测方法，其特征在于，步骤S7中，所述执行分类和定位分别通过分类头部网络和定位头部网络来实现；所述分类头部网络包括两层全连接层，输入区域特征后输出N个类别的分类得分，N为类别个数，并通过Softmax算法确定该目标的最终类别；所述定位头部网络包括两层全连接层，输入区域特征后输出4个包裹框回归系数，并使用包裹框回归系数调整目标框的最终位置；最终输出每个包裹框中物体的类别和包裹框的位置。