CN111507271B - 一种机载光电视频目标智能化检测与识别方法 - Google Patents
一种机载光电视频目标智能化检测与识别方法 Download PDFInfo
- Publication number
- CN111507271B CN111507271B CN202010309684.9A CN202010309684A CN111507271B CN 111507271 B CN111507271 B CN 111507271B CN 202010309684 A CN202010309684 A CN 202010309684A CN 111507271 B CN111507271 B CN 111507271B
- Authority
- CN
- China
- Prior art keywords
- convolution
- target
- feature
- target detection
- multiplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000011161 development Methods 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 6
- 230000001965 increasing effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种机载光电视频目标智能化检测与识别方法,在YOLOv3模型的基础上采用长方形卷积提取如桥梁等条形目标特征,采用膨胀卷积扩大感受野并保留多尺度目标的空间结构信息,在特征金字塔上采样分支引入视觉注意力机制赋予模型学习不同区域、不同通道目标特征的不同权重,将残差模块的卷积方式改进为深度可分离卷积减少计算复杂度。本发明的优点是:该方法在保持较高航拍目标检测精度的同时,能够在机载嵌入式系统上具有较快的航拍目标检测与识别速度。
Description
技术领域
本发明涉及机载光电雷达检测与识别技术领域,特别涉及一种基于嵌入式系统的可见光视频目标实时检测与识别方法,适用于高速运动的机载平台上对可见光相机传感器采集的空、海、地多类型目标图像进行准确、实时检测与识别。
背景技术
基于嵌入式系统实现航拍图像目标实时检测与识别是计算机视觉领域的重要研究方向之一,其在计算资源有限的嵌入式设备上提取并利用目标特征信息,定位图像中的目标、并对搜索到的多类型目标进行分类,在军事目标侦查、航空搜索救援、遥感影像解析等领域应用前景广阔。
在机载光电传感器航拍图像目标检测与识别中,受到载机平台高速运动条件的约束,目标环境及拍摄角度不断变化,高空航拍图像中的目标形态多样,目标长宽比、颜色以及角度等用于检测的关键特征变化复杂。因此,采用如梯度方向直方图(Histogram ofOriented Gradients,HOG)等人工设计特征的形变部件模型(Deformable Parts Models,DPM)目标检测与识别方法难以应对上述复杂环境下的多类型目标检测与识别任务。近年来,深度学习技术中的卷积神经网络展现了优秀的目标视觉特征提取和表示能力,尤其适用于复杂环境下的目标检测,如YOLO(You Only Look Once)等目标检测方法被广泛应用于自然图像目标检测与识别任务中。但是YOLO方法也没有充分考虑并利用航拍图像中的目标特征;而且YOLO方法将在图像不同区域、特征图不同通道、以及神经网络不同层提取的特征同等对待,这将导致模型进行决策时受到更多的冗余特征干扰,使得目标有效特征难以被模型充分学习。
同时,目标检测的实时性也是在基于嵌入式系统的航拍图像目标检测与识别中必须考虑的问题,深度学习目标检测与识别方法虽然精度较高,但是计算复杂度也很高、计算资源开销大。即使YOLO属于一阶段模型,相较于两阶段目标模型速度更快,但是也难以满足在机载嵌入式系统上实时检测与识别目标的速度要求。而Tiny-YOLO系列模型采用了层数更少的轻量级神经网络加快检测速度,虽然能够在机载嵌入式系统上实时检测目标,但是卷积神经网络层数大量减少导致模型的特征提取能力降低,进而影响目标检测与识别的精度。
因此,本发明充分考虑了航拍图像目标检测与识别任务中的目标特性,模型对不同区域、不同通道特征的关注程度,以及在机载嵌入式系统中的目标检测与识别实时性要求,在YOLOv3模型的基础上提出了一种机载光电雷达目标智能化检测与识别方法。
发明内容
本发明针对现有技术的缺陷,提供了一种机载光电视频目标智能化检测与识别方法,解决了现有技术中存在的缺陷。
为了实现以上发明目的,本发明采取的技术方案如下:
一种机载光电视频目标智能化检测与识别方法,包括以下步骤:
步骤1:构建特征提取基础网络,在YOLOv3的卷积神经网络中引入不同膨胀系数的膨胀卷积代替普通卷积保留多尺度目标空间结构信息,采用可分离卷积方式对特征图进行分组卷积运算减少计算量,提取并获得目标特征信息;
步骤2:构建特征金字塔上采样分支分别处理不同尺度目标特征,在YOLOv3的特征金字塔各尺度分支上引入空间注意力机制和通道和注意力机制,对不同空间位置和不同通道的特征赋予不同权重;
步骤3:在YOLOv3模型的损失函数基础上,引入交并比(Intersection-over-Union,IoU)损失和长宽比损失,构建新的损失函数,并以误差最小化为优化目标,训练目标检测模型;
步骤4:在嵌入式开发板TX2上移植并实现上述方法,加载步骤3中训练完成的目标检测模型,采集并输入航拍图像,利用上述模型检测航拍图像中的目标,得到目标位置坐标及类型,可视化输出。
进一步地,步骤1包括如下子步骤:
步骤1.1:以YOLOv3的darknet53特征提取网络为基础,将darknet53网络每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层,不丢失分辨率的前提下扩大感受野,提高目标定位精度。膨胀卷积核尺寸k’表示为
k'=k+(k-1)(r-1) (1)
式中,k为原始卷积核尺寸,r为膨胀系数。
步骤1.2:采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式:首先,采用1×1逐点卷积对特征在通道方向进行升维;其次,采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征,设输入的特征图尺寸为W×H×C其中W×H×C分别表示特征图的宽、高和数量,则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算,最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出。深度可分离卷积的计算复杂度
O=W×H×C×k×k+1×1×C×N×W×H (2)
式中N表示深度可分离卷积输出的特征图数量。
进一步地,步骤2包括如下子步骤:
步骤2.1:对步骤1中基础网络提取的特征图进行不同尺度的上采样,并与基础网络中卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接,构建特征金字塔结构;
步骤2.2:针对桥梁等尺寸较大的条状目标,在三个特征金字塔分支的最底层分支中增加长方形卷积核提取目标特征;
步骤2.3:在YOLOv3的多尺度特征金字塔分支上引入通道注意力机制对不同通道的特征赋予不同权重。设通道注意力特征图为Mc∈R1×1×C,首先采对特征图做全局平均池化得到1×1×C的特征向量,即
Mc=σ(AvgPool(F)) (3)
式中σ(.)表示激活函数,F表示输入的特征图;然后通过两层全连接层为各特征通道生成注意力权重
Mc'=σ(fc1(fc0(Mc))) (4)
式中fc1,fc0分别表示两层全连接层;最后,将得到的通道注意力权值乘以输入注意力机制模块的初始特征图,并作为下一层的输入。
步骤2.4:在YOLOv3的多尺度特征金字塔分支上引入空间注意力机制对不同空间位置的特征赋予不同权重。设空间注意力特征图为Ms∈RW×H×1,首先采对特征图做通道方向的平均池化得到W×H×1的特征向量,即
Ms=σ(AvgPool(F)) (5)
其次,通过两层卷积层为各空间位置生成注意力权重
Ms'=σ(conv1(conv0(Ms))) (6)
式中conv1,conv0分别表示两层卷积层;最后,将得到的空间注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入。
进一步地,步骤3包括如下子步骤:
步骤3.1:输入训练图像,训练目标检测模型,模型输出S×S×(B*(5+Class))维的特征向量,表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率,其中S×S为目标检测模型划分的预测网格个数,B为每一层特征金字塔分支每个网格生成的先验框个数,C表示目标类别数量。
步骤3.2:计算模型预测的目标检测结果与先验标签之间的损失,在YOLOv3损失函数的基础上,引入交并比损失和长宽比损失,构建新的损失函数
式中W、H分别为特征图每列和每行的网格数,和为指示函数,λnoobj、λobj、λcoord、λclass、λiou和λwh分别为各部分损失的权重系数,gt和bbox分别表示先验标签真值和模型预测结果。迭代训练所构建目标检测模型使得损失函数收敛。
进一步地,步骤4包括如下子步骤:
步骤4.1:在嵌入式开发板TX2上搭建深度学习目标检测框架,编程实现所提航拍目标检测与识别方法。
步骤4.2:采集并输入航拍图像,利用步骤4.1在嵌入式开发板TX2上搭建的深度学习目标检测框架以及实现的航拍目标检测与识别方法程序,按照步骤3所述训练的目标检测模型,预测得到目标位置坐标及类型,利用非极大抑制算法处理模型预测结果,输出并显示航拍图像目标检测与识别结果。
与现有技术相比,本发明的优点在于:
充分考虑了航拍图像中的目标特点,模型对不同区域、不同通道特征的关注程度,以及在机载光电雷达上目标检测与识别速度的情况;在YOLOv3模型的基础上采用膨胀卷积保留多尺度目标的空间结构信息,在特征金字塔上采样分支引入视觉注意力机制使得模型有选择性地学习不同区域、不同通道特征,将残差模块卷积改进为深度可分离卷积减少计算复杂度,引入交并比和长宽比损失提高目标边界框的定位准确性;提出了一种用于机载光电雷达的目标智能化检测与识别方法,在嵌入式系统上实现了较高精度的航拍图像实时目标检测与识别。
附图说明
图1是本发明机载光电视频目标智能化检测与识别方法的流程图;
图2是本发明所构建的膨胀卷积和深度可分离卷积改进的YOLOv3特征提取基础网络结构图;
图3是本发明构建的注意力机制改进的特征金字塔分支结构图;
图4是本发明实施例中所提的机载光电视频目标智能化检测与识别方法在航拍图像数据集上的目标检测与识别流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
如图1所示,一种机载光电视频目标智能化检测与识别方法,包括以下步骤:
步骤1:构建特征提取基础网络,在YOLOv3的卷积神经网络中引入不同膨胀系数的膨胀卷积代替普通卷积,扩大感受野并保留多尺度目标空间结构信息,采用可分离卷积方式对特征图进行分组卷积运算减少计算量,提取并获得目标特征信息;
步骤2:构建特征金字塔上采样分支分别处理不同尺度目标特征,在YOLOv3的特征金字塔各尺度分支上引入空间注意力机制和通道和注意力机制,对不同空间位置和不同通道的特征赋予不同权重;
步骤3:在YOLOv3模型的损失函数基础上,引入交并比(Intersection-over-Union,IoU)损失和长宽比损失,构建新的损失函数并以误差最小化为目标训练神经网络模型;
步骤4:在嵌入式开发板TX2上移植并实现上述方法,加载训练好的目标检测与模型,采集并输入航拍图像,利用上述模型检测航拍图像中的目标,得到目标位置坐标及类型,可视化输出。
具体而言,步骤1包括如下步骤:
步骤1.1:以YOLOv3的darknet53特征提取网络为基础,将darknet53网络每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层,不丢失分辨率的前提下扩大感受野,提高目标定位精度。膨胀卷积核尺寸k’表示为
k'=k+(k-1)(r-1) (1)
式中,k为原始卷积核尺寸,r为膨胀系数。
步骤1.2:采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式:首先,采用1×1逐点卷积对特征在通道方向进行升维;其次,采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征,设输入的特征图尺寸为W×H×C(其中分别表示特征图的宽W、高H、数量C),则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算,最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出。深度可分离卷积的计算复杂度
O=W×H×C×k×k+1×1×C×N×W×H (2)
式中N表示深度可分离卷积输出的特征图数量。计算复杂度相较于卷积的W×H×C×N×k×k更低,能够进一步加快YOLOv3的目标检测速度。
所构建新基础特征提取网络中,具有膨胀卷积与深度可分离卷积的残差模块结构如图2所示。
步骤2包括如下步骤:
步骤2.1:对上述基础网络提取的特征图进行不同尺度的上采样,并与基础网络中卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接,构建特征金字塔结构;
步骤2.2:针对桥梁等尺寸较大的条状目标,在三个特征金字塔分支的最底层分支中增加长方形卷积核提取目标特征;
步骤2.3:在YOLOv3的多尺度特征金字塔分支上引入通道注意力机制对不同通道的特征赋予不同权重。设通道注意力特征图为Mc∈R1×1×C,首先采对特征图做全局平均池化得到1×1×C的特征向量,即
Mc=σ(AvgPool(F)) (3)
式中σ(.)表示激活函数,F表示输入的特征图;然后通过两层全连接层为各特征通道生成注意力权重
Mc'=σ(fc1(fc0(Mc))) (4)
式中fc1,fc0分别表示两层全连接层;最后,将得到的通道注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入。
步骤2.4:在YOLOv3的多尺度特征金字塔分支上引入空间注意力机制对不同空间位置的特征赋予不同权重。设空间注意力特征图为Ms∈RW×H×1,首先采对特征图做通道方向的平均池化得到W×H×1的特征向量,即
Ms=σ(AvgPool(F)) (5)
其次,通过两层卷积层为各空间位置生成注意力权重
Ms'=σ(conv1(conv0(Ms))) (6)
式中conv1,conv0分别表示两层卷积层;最后,将得到的空间注意力权值乘以乘以输入注意力机制模块的初始特征图作为下一层的输入;所构建的新特征金字塔分支结构如图3所示。
步骤3包括如下步骤:
步骤3.1:输入图像训练YOLOv3模型,模型预测输出S×S×(B*(5+Class))维的特征向量,表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率,其中S×S为YOLOv3模型划分的预测网格个数,B为每一层特征金字塔分支每个网格生成的先验框个数,C表示目标类别数量。
步骤3.2:计算模型预测的目标检测结果与先验标签之间的损失,在YOLOv3损失函数的基础上,引入交并比损失和长宽比损失,构建新的损失函数
式中W、H分别为特征图每列和每行的网格数,和为指示函数,λnoobj、λobj、λcoord、λclass、λiou和λwh分别为各部分损失的权重系数,gt和bbox分别表示先验标签真值和模型预测结果。迭代训练所构建目标检测模型使得损失函数收敛。
步骤4包括如下步骤:
步骤4.1:在嵌入式开发板TX2上移植并实现所提航拍目标视觉检测与识别方法。
步骤4.2:采集并输入航拍图像,加载步骤4训练的目标检测模型,预测得到目标位置坐标及类型,利用非极大抑制算法处理模型预测结果,输出并显示航拍图像目标检测与识别结果。
实施例1
实施例在NVIDIATX2嵌入式开发板上检测航拍图像中的7类被测目标(操场、环岛、油罐、船舶、飞机、桥梁、港口),实施流程如图4所示。
步骤1:采集航拍目标图像,对图像中的根类目标进行标注并构建航拍图像目标检测与识别数据集,对数据集中的训练样本图像进行预处理和数据增强,增加训练样本多样性。利用机载相机采集航拍被测目标图像,对图像中的目标位置和类别进行标注,得到用于目标检测模型训练的图像和对应标签,标签包括在图像中目标边界框的左上角坐标(x,y),目标边界框的宽w、高h以及目标类别c。对训练图像进行平移、旋转、仿射变换、随机颜色抖动、增加随机噪声等数据增强,并对相应的标签坐标进行变换,增加训练样本多样性。
步骤2:在YOLOv3的特征提取基础网络中引入膨胀卷积代替普通卷积保留多尺度航拍目标的空间结构信息。基础网络中每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层,卷积核的尺寸k=3+(3-1)(2-1)=5。
接着采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式:采用1×1逐点卷积对特征在通道方向升维4倍;其次,采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征,当输入图像尺寸为608×608像素时,各残差模块输入的特征图尺寸分别为304×304×256像素、152×152×512像素、76×76×1024像素、38×38×2048像素以及19×19×4096像素,深度可分离卷积的核尺寸为3×3;最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出,各残差模块的输出特征图数量分别为64、128、256、512以及1024。采用可分离卷积方式对特征图进行分组卷积运算减少计算量,提取并获得航拍图像中被测目标特征。
步骤3:构建3层特征金字塔结构分别提取不同尺度目标特征并进行目标检测。在特征金字塔各尺度分支上分别计算通道和注意力机制和空间注意力机制权重并与该分支的注意力模块输入特征图相乘得到加权特征图,加权特征图的尺寸分别为19×19×1024、38×38×(512+256)和76×76×(256+128)。最终多尺度特征金字塔各分支(每个分支每个网格点生成三个先验框)对应输出尺度分别为19×19×3×(5+7)维、38×38×3×(5+7)维和76×76×3×(5+7)维的特征向量。
步骤4:构建所提引入交并比损失和长宽比损失的新损失函数,加载数据集训练目标检测模型,不断循环迭代直至损失函数收敛,得到训练好的航拍图像目标检测模型。
步骤5:在嵌入式开发板TX2上移植并实现上述算法程序,采集并输入待测航拍图像,加载根据步骤4训练好的模型进行目标检测,根据目标置信度阈值和交并比阈值,筛选符合要求的目标位置和类别。然后通过非极大抑制进行抑制冗余目标边框;取预测结果中概率最大的作为最终的目标检测结果输出。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (1)
1.一种机载光电视频目标智能化检测与识别方法,其特征在于,包括以下步骤:
步骤1:构建特征提取基础网络,在YOLOv3的卷积神经网络中引入不同膨胀系数的膨胀卷积代替普通卷积,扩大感受野并保留多尺度目标空间结构信息,采用可分离卷积方式对特征图进行分组卷积运算减少计算量,提取并获得目标特征信息;
步骤1包括如下子步骤:
步骤1.1:以YOLOv3的darknet53特征提取网络为基础,将darknet53网络每个残差模块的步长为2的卷积下采样层替换为膨胀卷积层,不丢失分辨率的前提下扩大感受野,提高目标定位精度;膨胀卷积核尺寸k’表示为
k'=k+(k-1)(r-1) (1)
式中,k为原始卷积核尺寸,r为膨胀系数;
步骤1.2:采用深度可分离卷积改进YOLOv3原有的残差模块卷积计算方式:首先,采用1×1逐点卷积对特征在通道方向进行升维;其次,采用深度可分离卷积在特征图的通道上分别进行卷积提取目标特征,设输入的特征图尺寸为W×H×C其中W×H×C分别表示特征图的宽、高和数量,则深度可分离卷积共需要C个尺寸为k×k卷积核进行卷积运算,最后再采用1×1逐点卷积对特征在通道方向进行降维得到当前深度可分离卷积残差模块的输出;深度可分离卷积的计算复杂度
O=W×H×C×k×k+1×1×C×N×W×H (2)
式中N表示深度可分离卷积输出的特征图数量;
步骤2:构建特征金字塔上采样分支分别处理不同尺度目标特征,在YOLOv3的特征金字塔各尺度分支上引入空间注意力机制和通道和注意力机制,对不同空间位置和不同通道的特征赋予不同权重;
步骤2包括如下子步骤:
步骤2.1:对步骤1中基础网络提取的特征图进行不同尺度的上采样,并与基础网络中的卷积和下采样的联合运算得到的相同尺寸特征图进行横向连接,构建特征金字塔结构;
步骤2.2:针对桥梁等尺寸较大的条状目标,在三个特征金字塔分支的最底层分支中增加长方形卷积核提取目标特征;
步骤2.3:在YOLOv3的多尺度特征金字塔分支上引入通道注意力机制对不同通道的特征赋予不同权重;设通道注意力特征图为Mc∈R1×1×C,首先采对特征图做全局平均池化得到1×1×C的特征向量,即
Mc=σ(AvgPool(F)) (3)
式中σ(.)表示激活函数,F表示输入的特征图;然后通过两层全连接层为各特征通道生成注意力权重
Mc'=σ(fc1(fc0(Mc))) (4)
式中fc1,fc0分别表示两层全连接层;最后,将得到的通道注意力权值乘以输入注意力机制模块的初始特征图,并作为下一层的输入;
步骤2.4:在YOLOv3的多尺度特征金字塔分支上引入空间注意力机制对不同空间位置的特征赋予不同权重;设空间注意力特征图为Ms∈RW×H×1,首先采对特征图做通道方向的平均池化得到W×H×1的特征向量,即
Ms=σ(AvgPool(F)) (5)
其次,通过两层卷积层为各空间位置生成注意力权重
Ms'=σ(conv1(conv0(Ms))) (6)
式中conv1,conv0分别表示两层卷积层;最后,将得到的空间注意力权值乘以输入注意力机制模块的初始特征图,并作为下一层的输入;
步骤3:在YOLOv3模型的损失函数基础上,引入交并比损失和长宽比损失,构建新的损失函数,并以误差最小化为优化目标,训练目标检测模型;
步骤3包括如下子步骤:
步骤3.1:输入训练图像,训练目标检测模型,模型输出S×S×(B*(5+C))维的特征向量,表示输入图像每一个网格预测的边界框的位置、大小、置信度以及其包含的目标类别概率,其中S×S为目标检测模型划分的预测网格个数,B为每一层特征金字塔分支每个网格生成的先验框个数,C表示目标类别数量;
步骤3.2:计算模型预测的目标检测结果与先验标签之间的损失,在YOLOv3损失函数的基础上,引入交并比损失和长宽比损失,构建新的损失函数
式中W、H分别为特征图每列和每行的网格数,和为指示函数,λnoobj、λobj、λcoord、λclass、λiou和λwh分别为各部分损失的权重系数,gt和bbox分别表示先验标签真值和模型预测结果;迭代训练所构建目标检测模型使得损失函数收敛;
步骤4:在嵌入式开发板TX2上移植并实现上述方法,加载步骤3中训练完成的目标检测模型,采集并输入航拍图像,利用上述模型检测航拍图像中的目标,得到目标位置坐标及类型,可视化输出;
步骤4包括如下子步骤:
步骤4.1:在嵌入式开发板TX2上搭建深度学习目标检测框架,编程实现所提航拍目标检测与识别方法;
步骤4.2:采集并输入航拍图像,利用步骤4.1在嵌入式开发板TX2上搭建的深度学习目标检测框架以及实现的航拍目标检测与识别方法程序,按照步骤3所述训练的目标检测模型,预测得到目标位置坐标及类型,利用非极大抑制算法处理模型预测结果,输出并显示航拍图像目标检测与识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309684.9A CN111507271B (zh) | 2020-04-20 | 2020-04-20 | 一种机载光电视频目标智能化检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309684.9A CN111507271B (zh) | 2020-04-20 | 2020-04-20 | 一种机载光电视频目标智能化检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507271A CN111507271A (zh) | 2020-08-07 |
CN111507271B true CN111507271B (zh) | 2021-01-12 |
Family
ID=71874476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010309684.9A Active CN111507271B (zh) | 2020-04-20 | 2020-04-20 | 一种机载光电视频目标智能化检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507271B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950457A (zh) * | 2020-08-12 | 2020-11-17 | 海默潘多拉数据科技(深圳)有限公司 | 油田安全生产图像识别方法及系统 |
CN112183269B (zh) * | 2020-09-18 | 2023-08-29 | 哈尔滨工业大学(深圳) | 一种适用于智能视频监控的目标检测方法与系统 |
CN112101265B (zh) * | 2020-09-22 | 2023-04-25 | 四川大学 | 一种鲁棒的作物病害诊断系统 |
CN112257794B (zh) * | 2020-10-27 | 2022-10-28 | 东南大学 | 一种基于yolo的轻量级的目标检测方法 |
CN112417990B (zh) * | 2020-10-30 | 2023-05-09 | 四川天翼网络股份有限公司 | 一种考试学生违规行为识别方法及系统 |
CN112307984B (zh) * | 2020-11-02 | 2023-02-17 | 安徽工业大学 | 基于神经网络的安全帽检测方法和装置 |
CN112329658B (zh) * | 2020-11-10 | 2024-04-02 | 江苏科技大学 | 一种对于yolov3网络的检测算法改进方法 |
CN112668662B (zh) * | 2020-12-31 | 2022-12-06 | 北京理工大学 | 基于改进YOLOv3网络的野外山林环境目标检测方法 |
CN113111889A (zh) * | 2021-03-10 | 2021-07-13 | 国网浙江省电力有限公司宁波供电公司 | 用于边缘计算端的目标检测网络处理方法 |
CN113114599B (zh) * | 2021-03-12 | 2022-01-11 | 电子科技大学 | 基于轻量级神经网络的调制识别方法 |
CN112884760B (zh) * | 2021-03-17 | 2023-09-26 | 东南大学 | 近水桥梁多类型病害智能检测方法与无人船设备 |
CN113536929A (zh) * | 2021-06-15 | 2021-10-22 | 南京理工大学 | 一种复杂场景下的sar图像目标检测方法 |
CN113723411B (zh) * | 2021-06-18 | 2023-06-27 | 湖北工业大学 | 一种用于遥感图像语义分割的特征提取方法和分割系统 |
CN113327243B (zh) * | 2021-06-24 | 2024-01-23 | 浙江理工大学 | 基于AYOLOv3-Tiny新框架的PAD导光板缺陷可视化检测方法 |
CN113837275B (zh) * | 2021-09-24 | 2023-10-17 | 南京邮电大学 | 基于扩张坐标注意力的改进YOLOv3目标检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109342456A (zh) * | 2018-09-14 | 2019-02-15 | 广东工业大学 | 一种焊点缺陷检测方法、装置、设备及可读存储介质 |
CN109614866A (zh) * | 2018-11-08 | 2019-04-12 | 中科天网(广东)科技有限公司 | 基于级联深度卷积神经网络的人脸检测方法 |
CN110046598A (zh) * | 2019-04-23 | 2019-07-23 | 中南大学 | 即插即用的多尺度空间和通道注意遥感影像目标检测方法 |
CN110185939A (zh) * | 2019-05-16 | 2019-08-30 | 西北工业大学 | 基于卷积神经网络的气体管道泄漏识别方法 |
CN110263675A (zh) * | 2019-06-03 | 2019-09-20 | 武汉联一合立技术有限公司 | 一种社区安保机器人的垃圾目标识别系统及其识别方法 |
CN110276269A (zh) * | 2019-05-29 | 2019-09-24 | 西安交通大学 | 一种基于注意力机制的遥感图像目标检测方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN110717929A (zh) * | 2018-07-11 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 图像目标检测方法、装置及存储介质 |
CN110796037A (zh) * | 2019-10-15 | 2020-02-14 | 武汉大学 | 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法 |
CN110826428A (zh) * | 2019-10-22 | 2020-02-21 | 电子科技大学 | 一种高速的sar图像中船只检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967459B (zh) * | 2017-12-07 | 2021-08-24 | 北京小米移动软件有限公司 | 卷积处理方法、装置及存储介质 |
CN109829893B (zh) * | 2019-01-03 | 2021-05-25 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN109753903B (zh) * | 2019-02-27 | 2020-09-15 | 北航(四川)西部国际创新港科技有限公司 | 一种基于深度学习的无人机检测方法 |
CN110929593B (zh) * | 2019-11-06 | 2023-06-20 | 哈尔滨工业大学(威海) | 一种基于细节辨别区别的实时显著性行人检测方法 |
-
2020
- 2020-04-20 CN CN202010309684.9A patent/CN111507271B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717929A (zh) * | 2018-07-11 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 图像目标检测方法、装置及存储介质 |
CN109342456A (zh) * | 2018-09-14 | 2019-02-15 | 广东工业大学 | 一种焊点缺陷检测方法、装置、设备及可读存储介质 |
CN109614866A (zh) * | 2018-11-08 | 2019-04-12 | 中科天网(广东)科技有限公司 | 基于级联深度卷积神经网络的人脸检测方法 |
CN110046598A (zh) * | 2019-04-23 | 2019-07-23 | 中南大学 | 即插即用的多尺度空间和通道注意遥感影像目标检测方法 |
CN110185939A (zh) * | 2019-05-16 | 2019-08-30 | 西北工业大学 | 基于卷积神经网络的气体管道泄漏识别方法 |
CN110276269A (zh) * | 2019-05-29 | 2019-09-24 | 西安交通大学 | 一种基于注意力机制的遥感图像目标检测方法 |
CN110263675A (zh) * | 2019-06-03 | 2019-09-20 | 武汉联一合立技术有限公司 | 一种社区安保机器人的垃圾目标识别系统及其识别方法 |
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN110796037A (zh) * | 2019-10-15 | 2020-02-14 | 武汉大学 | 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法 |
CN110826428A (zh) * | 2019-10-22 | 2020-02-21 | 电子科技大学 | 一种高速的sar图像中船只检测方法 |
Non-Patent Citations (2)
Title |
---|
Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression;Zhaohui Zheng等;《arXiv:1911.08287v1》;20191119;第1-7页 * |
基于深度分离卷积神经网络的高速高精度SAR舰船检测;张晓玲等;《雷达学报》;20191231;第8卷(第6期);第841-849页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111507271A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507271B (zh) | 一种机载光电视频目标智能化检测与识别方法 | |
CN113449680B (zh) | 一种基于知识蒸馏的多模小目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN110232350B (zh) | 一种基于在线学习的实时水面多运动目标检测跟踪方法 | |
CN108898065B (zh) | 候选区快速筛选与尺度自适应的深度网络舰船目标检测方法 | |
CN110889324A (zh) | 一种基于yolo v3面向末端制导的热红外图像目标识别方法 | |
Mahmoud et al. | Object detection using adaptive mask RCNN in optical remote sensing images | |
Chen et al. | Adaptive effective receptive field convolution for semantic segmentation of VHR remote sensing images | |
CN108764470B (zh) | 一种人工神经网络运算的处理方法 | |
Han et al. | Research on remote sensing image target recognition based on deep convolution neural network | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN115965862A (zh) | 基于掩码网络融合图像特征的sar舰船目标检测方法 | |
Chen et al. | Object detection of optical remote sensing image based on improved faster RCNN | |
CN114972423A (zh) | 一种航拍视频运动目标检测方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN117197676A (zh) | 一种基于特征融合的目标检测识别方法 | |
CN113963333B (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
Rumapea et al. | Improving Convective Cloud Classification with Deep Learning: The CC-Unet Model. | |
Zhao et al. | An aircraft detection method based on improved mask R-CNN in remotely sensed imagery | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
Yang et al. | UAV Landmark Detection Based on Convolutional Neural Network | |
Ahamed et al. | A Deep Learning Approach for Satellite and Debris Detection: YOLO in Action | |
CN114219989A (zh) | 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |