CN111507271B

CN111507271B - 一种机载光电视频目标智能化检测与识别方法

Info

Publication number: CN111507271B
Application number: CN202010309684.9A
Authority: CN
Inventors: 陶然; 李伟; 黄展超; 马鹏阁; 揭斐然
Original assignee: Beijing Institute of Technology BIT; Luoyang Institute of Electro Optical Equipment AVIC; Zhengzhou University of Aeronautics
Current assignee: Beijing Institute of Technology BIT; Luoyang Institute of Electro Optical Equipment AVIC; Zhengzhou University of Aeronautics
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-01-12
Anticipated expiration: 2040-04-20
Also published as: CN111507271A

Abstract

本发明公开了一种机载光电视频目标智能化检测与识别方法，在YOLOv3模型的基础上采用长方形卷积提取如桥梁等条形目标特征，采用膨胀卷积扩大感受野并保留多尺度目标的空间结构信息，在特征金字塔上采样分支引入视觉注意力机制赋予模型学习不同区域、不同通道目标特征的不同权重，将残差模块的卷积方式改进为深度可分离卷积减少计算复杂度。本发明的优点是：该方法在保持较高航拍目标检测精度的同时，能够在机载嵌入式系统上具有较快的航拍目标检测与识别速度。

Description

一种机载光电视频目标智能化检测与识别方法

技术领域

本发明涉及机载光电雷达检测与识别技术领域，特别涉及一种基于嵌入式系统的可见光视频目标实时检测与识别方法，适用于高速运动的机载平台上对可见光相机传感器采集的空、海、地多类型目标图像进行准确、实时检测与识别。

背景技术

基于嵌入式系统实现航拍图像目标实时检测与识别是计算机视觉领域的重要研究方向之一，其在计算资源有限的嵌入式设备上提取并利用目标特征信息，定位图像中的目标、并对搜索到的多类型目标进行分类，在军事目标侦查、航空搜索救援、遥感影像解析等领域应用前景广阔。

在机载光电传感器航拍图像目标检测与识别中，受到载机平台高速运动条件的约束，目标环境及拍摄角度不断变化，高空航拍图像中的目标形态多样，目标长宽比、颜色以及角度等用于检测的关键特征变化复杂。因此，采用如梯度方向直方图(Histogram ofOriented Gradients，HOG)等人工设计特征的形变部件模型(Deformable Parts Models，DPM)目标检测与识别方法难以应对上述复杂环境下的多类型目标检测与识别任务。近年来，深度学习技术中的卷积神经网络展现了优秀的目标视觉特征提取和表示能力，尤其适用于复杂环境下的目标检测，如YOLO(You Only Look Once)等目标检测方法被广泛应用于自然图像目标检测与识别任务中。但是YOLO方法也没有充分考虑并利用航拍图像中的目标特征；而且YOLO方法将在图像不同区域、特征图不同通道、以及神经网络不同层提取的特征同等对待，这将导致模型进行决策时受到更多的冗余特征干扰，使得目标有效特征难以被模型充分学习。

同时，目标检测的实时性也是在基于嵌入式系统的航拍图像目标检测与识别中必须考虑的问题，深度学习目标检测与识别方法虽然精度较高，但是计算复杂度也很高、计算资源开销大。即使YOLO属于一阶段模型，相较于两阶段目标模型速度更快，但是也难以满足在机载嵌入式系统上实时检测与识别目标的速度要求。而Tiny-YOLO系列模型采用了层数更少的轻量级神经网络加快检测速度，虽然能够在机载嵌入式系统上实时检测目标，但是卷积神经网络层数大量减少导致模型的特征提取能力降低，进而影响目标检测与识别的精度。

因此，本发明充分考虑了航拍图像目标检测与识别任务中的目标特性，模型对不同区域、不同通道特征的关注程度，以及在机载嵌入式系统中的目标检测与识别实时性要求，在YOLOv3模型的基础上提出了一种机载光电雷达目标智能化检测与识别方法。

发明内容

本发明针对现有技术的缺陷，提供了一种机载光电视频目标智能化检测与识别方法，解决了现有技术中存在的缺陷。

为了实现以上发明目的，本发明采取的技术方案如下：

一种机载光电视频目标智能化检测与识别方法，包括以下步骤：

步骤1：构建特征提取基础网络，在YOLOv3的卷积神经网络中引入不同膨胀系数的膨胀卷积代替普通卷积保留多尺度目标空间结构信息，采用可分离卷积方式对特征图进行分组卷积运算减少计算量，提取并获得目标特征信息；

步骤2：构建特征金字塔上采样分支分别处理不同尺度目标特征，在YOLOv3的特征金字塔各尺度分支上引入空间注意力机制和通道和注意力机制，对不同空间位置和不同通道的特征赋予不同权重；

步骤3：在YOLOv3模型的损失函数基础上，引入交并比(Intersection-over-Union,IoU)损失和长宽比损失，构建新的损失函数，并以误差最小化为优化目标，训练目标检测模型；

步骤4：在嵌入式开发板TX2上移植并实现上述方法，加载步骤3中训练完成的目标检测模型，采集并输入航拍图像，利用上述模型检测航拍图像中的目标，得到目标位置坐标及类型，可视化输出。

进一步地，步骤1包括如下子步骤：

步骤1.1：以YOLOv3的darknet53特征提取网络为基础，将darknet53网络每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层，不丢失分辨率的前提下扩大感受野，提高目标定位精度。膨胀卷积核尺寸k’表示为

k'＝k+(k-1)(r-1) (1)

式中，k为原始卷积核尺寸，r为膨胀系数。

步骤1.2：采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式：首先，采用1×1逐点卷积对特征在通道方向进行升维；其次，采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征，设输入的特征图尺寸为W×H×C其中W×H×C分别表示特征图的宽、高和数量，则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算，最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出。深度可分离卷积的计算复杂度

O＝W×H×C×k×k+1×1×C×N×W×H (2)

式中N表示深度可分离卷积输出的特征图数量。

进一步地，步骤2包括如下子步骤：

步骤2.1：对步骤1中基础网络提取的特征图进行不同尺度的上采样，并与基础网络中卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接，构建特征金字塔结构；

步骤2.2：针对桥梁等尺寸较大的条状目标，在三个特征金字塔分支的最底层分支中增加长方形卷积核提取目标特征；

步骤2.3：在YOLOv3的多尺度特征金字塔分支上引入通道注意力机制对不同通道的特征赋予不同权重。设通道注意力特征图为M_c∈R^1×1×C，首先采对特征图做全局平均池化得到1×1×C的特征向量，即

M_c＝σ(AvgPool(F)) (3)

式中σ(.)表示激活函数，F表示输入的特征图；然后通过两层全连接层为各特征通道生成注意力权重

M_c'＝σ(fc₁(fc₀(M_c))) (4)

式中fc₁,fc₀分别表示两层全连接层；最后，将得到的通道注意力权值乘以输入注意力机制模块的初始特征图，并作为下一层的输入。

步骤2.4：在YOLOv3的多尺度特征金字塔分支上引入空间注意力机制对不同空间位置的特征赋予不同权重。设空间注意力特征图为M_s∈R^W×H×1，首先采对特征图做通道方向的平均池化得到W×H×1的特征向量，即

M_s＝σ(AvgPool(F)) (5)

其次，通过两层卷积层为各空间位置生成注意力权重

M_s'＝σ(conv₁(conv₀(M_s))) (6)

式中conv₁,conv₀分别表示两层卷积层；最后，将得到的空间注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入。

进一步地，步骤3包括如下子步骤：

步骤3.1：输入训练图像，训练目标检测模型，模型输出S×S×(B*(5+Class))维的特征向量，表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率，其中S×S为目标检测模型划分的预测网格个数，B为每一层特征金字塔分支每个网格生成的先验框个数，C表示目标类别数量。

步骤3.2：计算模型预测的目标检测结果与先验标签之间的损失，在YOLOv3损失函数的基础上，引入交并比损失和长宽比损失，构建新的损失函数

式中W、H分别为特征图每列和每行的网格数，

和

为指示函数，λ_noobj、λ_obj、λ_coord、λ_class、λ_iou和λ_wh分别为各部分损失的权重系数，gt和bbox分别表示先验标签真值和模型预测结果。迭代训练所构建目标检测模型使得损失函数收敛。

进一步地，步骤4包括如下子步骤：

步骤4.1：在嵌入式开发板TX2上搭建深度学习目标检测框架，编程实现所提航拍目标检测与识别方法。

步骤4.2：采集并输入航拍图像，利用步骤4.1在嵌入式开发板TX2上搭建的深度学习目标检测框架以及实现的航拍目标检测与识别方法程序，按照步骤3所述训练的目标检测模型，预测得到目标位置坐标及类型，利用非极大抑制算法处理模型预测结果，输出并显示航拍图像目标检测与识别结果。

与现有技术相比，本发明的优点在于：

充分考虑了航拍图像中的目标特点，模型对不同区域、不同通道特征的关注程度，以及在机载光电雷达上目标检测与识别速度的情况；在YOLOv3模型的基础上采用膨胀卷积保留多尺度目标的空间结构信息，在特征金字塔上采样分支引入视觉注意力机制使得模型有选择性地学习不同区域、不同通道特征，将残差模块卷积改进为深度可分离卷积减少计算复杂度，引入交并比和长宽比损失提高目标边界框的定位准确性；提出了一种用于机载光电雷达的目标智能化检测与识别方法，在嵌入式系统上实现了较高精度的航拍图像实时目标检测与识别。

附图说明

图1是本发明机载光电视频目标智能化检测与识别方法的流程图；

图2是本发明所构建的膨胀卷积和深度可分离卷积改进的YOLOv3特征提取基础网络结构图；

图3是本发明构建的注意力机制改进的特征金字塔分支结构图；

图4是本发明实施例中所提的机载光电视频目标智能化检测与识别方法在航拍图像数据集上的目标检测与识别流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图1所示，一种机载光电视频目标智能化检测与识别方法，包括以下步骤：

步骤1：构建特征提取基础网络，在YOLOv3的卷积神经网络中引入不同膨胀系数的膨胀卷积代替普通卷积，扩大感受野并保留多尺度目标空间结构信息，采用可分离卷积方式对特征图进行分组卷积运算减少计算量，提取并获得目标特征信息；

步骤3：在YOLOv3模型的损失函数基础上，引入交并比(Intersection-over-Union,IoU)损失和长宽比损失，构建新的损失函数并以误差最小化为目标训练神经网络模型；

步骤4：在嵌入式开发板TX2上移植并实现上述方法，加载训练好的目标检测与模型，采集并输入航拍图像，利用上述模型检测航拍图像中的目标，得到目标位置坐标及类型，可视化输出。

具体而言，步骤1包括如下步骤：

k'＝k+(k-1)(r-1) (1)

式中，k为原始卷积核尺寸，r为膨胀系数。

步骤1.2：采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式：首先，采用1×1逐点卷积对特征在通道方向进行升维；其次，采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征，设输入的特征图尺寸为W×H×C(其中分别表示特征图的宽W、高H、数量C)，则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算，最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出。深度可分离卷积的计算复杂度

O＝W×H×C×k×k+1×1×C×N×W×H (2)

式中N表示深度可分离卷积输出的特征图数量。计算复杂度相较于卷积的W×H×C×N×k×k更低，能够进一步加快YOLOv3的目标检测速度。

所构建新基础特征提取网络中，具有膨胀卷积与深度可分离卷积的残差模块结构如图2所示。

步骤2包括如下步骤：

步骤2.1：对上述基础网络提取的特征图进行不同尺度的上采样，并与基础网络中卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接，构建特征金字塔结构；

M_c＝σ(AvgPool(F)) (3)

M_c'＝σ(fc₁(fc₀(M_c))) (4)

式中fc₁,fc₀分别表示两层全连接层；最后，将得到的通道注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入。

M_s＝σ(AvgPool(F)) (5)

其次，通过两层卷积层为各空间位置生成注意力权重

M_s'＝σ(conv₁(conv₀(M_s))) (6)

式中conv₁,conv₀分别表示两层卷积层；最后，将得到的空间注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入；所构建的新特征金字塔分支结构如图3所示。

步骤3包括如下步骤：

步骤3.1：输入图像训练YOLOv3模型，模型预测输出S×S×(B*(5+Class))维的特征向量，表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率，其中S×S为YOLOv3模型划分的预测网格个数，B为每一层特征金字塔分支每个网格生成的先验框个数，C表示目标类别数量。

式中W、H分别为特征图每列和每行的网格数，

和

步骤4包括如下步骤：

步骤4.1：在嵌入式开发板TX2上移植并实现所提航拍目标视觉检测与识别方法。

步骤4.2：采集并输入航拍图像，加载步骤4训练的目标检测模型，预测得到目标位置坐标及类型，利用非极大抑制算法处理模型预测结果，输出并显示航拍图像目标检测与识别结果。

实施例1

实施例在NVIDIATX2嵌入式开发板上检测航拍图像中的7类被测目标(操场、环岛、油罐、船舶、飞机、桥梁、港口)，实施流程如图4所示。

步骤1：采集航拍目标图像，对图像中的根类目标进行标注并构建航拍图像目标检测与识别数据集，对数据集中的训练样本图像进行预处理和数据增强，增加训练样本多样性。利用机载相机采集航拍被测目标图像，对图像中的目标位置和类别进行标注，得到用于目标检测模型训练的图像和对应标签，标签包括在图像中目标边界框的左上角坐标(x,y)，目标边界框的宽w、高h以及目标类别c。对训练图像进行平移、旋转、仿射变换、随机颜色抖动、增加随机噪声等数据增强，并对相应的标签坐标进行变换，增加训练样本多样性。

步骤2：在YOLOv3的特征提取基础网络中引入膨胀卷积代替普通卷积保留多尺度航拍目标的空间结构信息。基础网络中每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层，卷积核的尺寸k＝3+(3-1)(2-1)＝5。

接着采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式：采用1×1逐点卷积对特征在通道方向升维4倍；其次，采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征，当输入图像尺寸为608×608像素时，各残差模块输入的特征图尺寸分别为304×304×256像素、152×152×512像素、76×76×1024像素、38×38×2048像素以及19×19×4096像素，深度可分离卷积的核尺寸为3×3；最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出，各残差模块的输出特征图数量分别为64、128、256、512以及1024。采用可分离卷积方式对特征图进行分组卷积运算减少计算量，提取并获得航拍图像中被测目标特征。

步骤3：构建3层特征金字塔结构分别提取不同尺度目标特征并进行目标检测。在特征金字塔各尺度分支上分别计算通道和注意力机制和空间注意力机制权重并与该分支的注意力模块输入特征图相乘得到加权特征图，加权特征图的尺寸分别为19×19×1024、38×38×(512+256)和76×76×(256+128)。最终多尺度特征金字塔各分支(每个分支每个网格点生成三个先验框)对应输出尺度分别为19×19×3×(5+7)维、38×38×3×(5+7)维和76×76×3×(5+7)维的特征向量。

步骤4：构建所提引入交并比损失和长宽比损失的新损失函数，加载数据集训练目标检测模型，不断循环迭代直至损失函数收敛，得到训练好的航拍图像目标检测模型。

步骤5：在嵌入式开发板TX2上移植并实现上述算法程序，采集并输入待测航拍图像，加载根据步骤4训练好的模型进行目标检测，根据目标置信度阈值和交并比阈值，筛选符合要求的目标位置和类别。然后通过非极大抑制进行抑制冗余目标边框；取预测结果中概率最大的作为最终的目标检测结果输出。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种机载光电视频目标智能化检测与识别方法，其特征在于，包括以下步骤：

步骤1包括如下子步骤：

步骤1.1：以YOLOv3的darknet53特征提取网络为基础，将darknet53网络每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层，不丢失分辨率的前提下扩大感受野，提高目标定位精度；膨胀卷积核尺寸k’表示为

k'＝k+(k-1)(r-1) (1)

式中，k为原始卷积核尺寸，r为膨胀系数；

步骤1.2：采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式：首先，采用1×1逐点卷积对特征在通道方向进行升维；其次，采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征，设输入的特征图尺寸为W×H×C其中W×H×C分别表示特征图的宽、高和数量，则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算，最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出；深度可分离卷积的计算复杂度

O＝W×H×C×k×k+1×1×C×N×W×H (2)

式中N表示深度可分离卷积输出的特征图数量；

步骤2包括如下子步骤：

步骤2.1：对步骤1中基础网络提取的特征图进行不同尺度的上采样，并与基础网络中的卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接，构建特征金字塔结构；

步骤2.3：在YOLOv3的多尺度特征金字塔分支上引入通道注意力机制对不同通道的特征赋予不同权重；设通道注意力特征图为M_c∈R^1×1×C，首先采对特征图做全局平均池化得到1×1×C的特征向量，即

M_c＝σ(AvgPool(F)) (3)

M_c'＝σ(fc₁(fc₀(M_c))) (4)

式中fc₁,fc₀分别表示两层全连接层；最后，将得到的通道注意力权值乘以输入注意力机制模块的初始特征图，并作为下一层的输入；

步骤2.4：在YOLOv3的多尺度特征金字塔分支上引入空间注意力机制对不同空间位置的特征赋予不同权重；设空间注意力特征图为M_s∈R^W×H×1，首先采对特征图做通道方向的平均池化得到W×H×1的特征向量，即

M_s＝σ(AvgPool(F)) (5)

其次，通过两层卷积层为各空间位置生成注意力权重

M_s'＝σ(conv₁(conv₀(M_s))) (6)

式中conv₁,conv₀分别表示两层卷积层；最后，将得到的空间注意力权值乘以输入注意力机制模块的初始特征图，并作为下一层的输入；

步骤3：在YOLOv3模型的损失函数基础上，引入交并比损失和长宽比损失，构建新的损失函数，并以误差最小化为优化目标，训练目标检测模型；

步骤3包括如下子步骤：

步骤3.1：输入训练图像，训练目标检测模型，模型输出S×S×(B*(5+C))维的特征向量，表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率，其中S×S为目标检测模型划分的预测网格个数，B为每一层特征金字塔分支每个网格生成的先验框个数，C表示目标类别数量；

式中W、H分别为特征图每列和每行的网格数，

和

为指示函数，λ_noobj、λ_obj、λ_coord、λ_class、λ_iou和λ_wh分别为各部分损失的权重系数，gt和bbox分别表示先验标签真值和模型预测结果；迭代训练所构建目标检测模型使得损失函数收敛；

步骤4：在嵌入式开发板TX2上移植并实现上述方法，加载步骤3中训练完成的目标检测模型，采集并输入航拍图像，利用上述模型检测航拍图像中的目标，得到目标位置坐标及类型，可视化输出；

步骤4包括如下子步骤：

步骤4.1：在嵌入式开发板TX2上搭建深度学习目标检测框架，编程实现所提航拍目标检测与识别方法；