CN115631444A - 一种无人机航拍图像目标检测算法 - Google Patents
一种无人机航拍图像目标检测算法 Download PDFInfo
- Publication number
- CN115631444A CN115631444A CN202211348468.0A CN202211348468A CN115631444A CN 115631444 A CN115631444 A CN 115631444A CN 202211348468 A CN202211348468 A CN 202211348468A CN 115631444 A CN115631444 A CN 115631444A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- image
- target detection
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无人机航拍图像目标检测算法,该算法包括以下步骤,S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。该检测算法结合Transformer系列模型,在通道和空间维度上进行Attention,进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证,该方法打破了CNN感受野的局限性,显著提高了无人机吊舱视角下的检测准确度,增加了CV领域的多样性。
Description
技术领域
本发明涉及图像检测领域,具体讲是一种无人机航拍图像目标检测算法。
背景技术
航空图像目标检测在军事侦察、导弹制导、无人机武器系统等领域发挥着重要作用。当航空器在飞行时,需要使用光电吊舱对地面目标进行实时检测,比如军事侦察、海上巡检等任务。而航空检测任务不同于一般场景下的目标检测,无人机吊舱视角下的目标不仅视场变化大、疏密变化大、尺度变化大,且目标重叠、截断、遮挡的情况常有。
目前该领域算法往往通过将多个两阶段目标检测算法集成,提升检测精确度的同时也牺牲了检测速度。得益于深度学习的发展,原本用于自然语言处理的Transformer模型被证实在计算机视觉领域用于目标检测时也能取得较好的表现。
发明内容
为此,本发明公开了一种机载光电吊舱观测场景下的车辆检测方法。该方法结合单阶段目标检测算法和Transformer系列模型,在通道和空间维度上进行 Attention,进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证,该方法打破了CNN感受野的局限性,显著提高了无人机吊舱视角下的检测准确度,增加了CV领域的多样性。
本发明是这样实现的,构造一种无人机航拍图像目标检测算法,该算法包括以下步骤,
S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;
S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;
S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。
进一步的,在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。
进一步的,在训练单阶段检测器过程中,先将有标签的训练样本输入至单阶段检测器,由单阶段检测器输出预测结果,利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失,并使用随机梯度下降法将损失的梯度回传给单阶段检测器,以调整模型的参数,其初始网络损失函数表示为:
式中:其中Lcls代表分类损失,采用二值交叉熵损失(BCELoss)函数,Lrrg代表定位损失函数,采用的是IoU损失函数,Lobj代表置信度损失,采用二值交叉熵损失函数。λ代表定位损失的平衡系数,Npos代表被分成正样的Anchorpoint 个数;
训练过程中正负样本匹配所使用损失函数为:
进一步的,所述Transformer模块包含有多头注意力和多层感知机,每层感知机之间使用ResNet的残差结构进行连接,Transformer中的注意力机制基于图片中物体的像素点施加注意力,将图片转化为序列,将序列中的任意两个位置之间的距离缩小为一个常量,从而判断特征图中像素点之间的关联性以及图片中物体的重要程度。首先从图片中的每一个像素点生成三个不同的向量,分别是Query向量(Q),Key向量(K)和Value向量(V),通过注意力机制中的Q和K做点乘,目的是计算相似度即attention操作,然后经过softmax 函数得到一组注意力权重,最后将注意力权重对Value进行加权求和,得到注意力下的Value值,从而得到图片中某点的关注程度。transformer注意力机制的公式为:
式中:Q表示查询向量,K为键,表示被查询信息与其他信息的相关性的向量,V表示被查询信息的向量。基于此,我们将特征图拆成更小的window计算局部注意力,并利用不同Transformer层之间的窗口滑动计算window间的特征关联,在降低计算量的同时也获得了全局的特征依赖关系。该模型提取的特征能够建立起图像不同部分间的空间联系。
进一步的,所述训练样本包括图像和标签信息。
进一步的,所述网络分为backbone/neck/head三个部分。
进一步的,在网络模型backbone中,采用了swin transformer网络进行层次性特征提取;
将提取出的特征通过注意力机制,使得输入的特征图进行自适应特征细化;
上述所获得的特征输入到Neck结构中进行多尺度特征融合;
将融合后的特征输入到head网络,将head网络的输出进行解码,获得最后的可视化检测结果。
在上述网络模型backbone改进中,采用了swin transformer网络进行层次性特征提取,该网络底部处理的数据更多也更局部,顶部的网络处理的数据更少但是语义信息是更丰富。
进一步的,在步骤S3中,将无人机吊舱图像通过无线网络传输到图像服务器上,图像服务器将收到的图像输入到目标检测模型,目标检测模型输出预测信息,完成对无人机吊舱图像的目标检测。
本发明具有如下有益效果:
1、根据本发明提供的无人机吊舱航拍图像目标检测方法,相比传统检测算法和基于深度学习的两阶段检测算法,显著提高检测精度,可以实现无人机吊舱实时目标检测。
2、根据本发明提供的无人机吊舱航拍图像目标检测方法,引入领域自适应到目标检测领域,提高检测算法在未知环境检测效果,实现自适应检测。
附图说明
图1是本发明运用于目标检测的流程图;
具体实施方式
下面将结合附图1对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种无人机航拍图像目标检测算法,可以按照如下方式予以实施:一种无人机航拍图像目标检测算法,该算法包括以下步骤,
S1使用混合数据集训练初始检测网络模型,swintransformer模型对图像进行特征提取,获得目标检测模型;
S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;
S3图像服务器终端处理视频图像信息,实现无人机对车辆目标实时检测。
在本实施例中,在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。
在本实施例中,在训练单阶段检测器过程中,先将有标签的训练样本输入至单阶段检测器,由单阶段检测器输出预测结果,利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失,并使用随机梯度下降法将损失的梯度回传给单阶段检测器,以调整模型的参数,其初始网络损失函数表示为:
式中:其中Lcls代表分类损失,采用二值交叉熵损失(BCELoss)函数,Lreg代表定位损失函数,采用的是IoU损失函数,Lobj代表置信度损失,采用二值交叉熵损失函数。λ代表定位损失的平衡系数,Npos代表被分成正样的Anchorpoint 个数;
训练过程中正负样本匹配所使用损失函数为:
在本实施例中,有监督训练的样本为无人机视角下采集的车辆俯视图与平视图,其中每个图片中目标都有对应的标签信息。
在本实施例中,所述Transformer模块包含有多头注意力和多层感知机,每层感知机之间使用ResNet的残差结构进行连接,Transformer中的注意力机制基于图片中物体的像素点施加注意力,将图片转化为序列,将序列中的任意两个位置之间的距离缩小为一个常量,从而判断特征图中像素点之间的关联性以及图片中物体的重要程度,transformer注意力机制的公式为:
式中:Q表示查询向量,K为键,表示被查询信息与其他信息的相关性的向量,V表示被查询信息的向量。
在本实施例中,所述训练样本包括图像和标签信息。
在本实施例中,所述网络分为backbone/neck/head三个部分。
在本实施例中,在网络模型backbone中,采用了swintransformer网络进行层次性特征提取;
将提取出的特征通过注意力机制,使得输入的特征图进行自适应特征细化;
上述所获得的特征输入到Neck结构中进行多尺度特征融合;
将融合后的特征输入到head网络,将head网络的输出进行解码,获得最后的可视化检测结果。
在本实施例中,在步骤S3中,将无人机吊舱图像通过无线网络传输到图像服务器上,图像服务器将收到的图像输入到目标检测模型,目标检测模型输出预测信息,完成对无人机吊舱图像的车辆目标检测。
为了展示本发明的优异效果,其实验数据如下表,
1、设置一组航拍图像数据进行模拟实验,计算推理时间,NMS时间,平均精度
2、采用YOLOX目标检测网络进行试验,计算推理时间,NMS时间,平均精度
推理时间(ms) | NMS时间(ms) | 平均精度(map) | |
试验例 | 15.51 | 0.55 | 78.10 |
实施例 | 10.470 | 0.48 | 85.39 |
由上表可以看出,说明实施例网络在网络前向推理过程中速度更快,网络对于车辆目标检测的精度更高,实施例的检测方法在各项指标均高于试验例。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种无人机航拍图像目标检测算法,其特征在于:该算法包括以下步骤S1使用混合数据集训练初始检测网络模型,swin transformer模型对图像进行特征提取,获得目标检测模型;
S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端;
S3图像服务器终端处理视频图像信息,实现无人机对目标实时检测。
2.根据权利要求1所述一种无人机航拍图像目标检测算法,其特征在于:在S1中,所述训练是指是指对初始网络进行有监督训练,且通过单阶段检测器进行训练,所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。
3.根据权利要求2所述一种无人机航拍图像目标检测算法,其特征在于:在训练单阶段检测器过程中,先将有标签的训练样本输入至单阶段检测器,由单阶段检测器输出预测结果,利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失,并使用随机梯度下降法将损失的梯度回传给单阶段检测器,以调整模型的参数,其初始网络损失函数表示为:
其中Lcls代表分类损失,采用二值交叉熵损失(BCELoss)函数,Lreg代表定位损失函数,采用的是IoU损失函数,Lobj代表置信度损失,采用二值交叉熵损失函数。λ代表定位损失的平衡系数,Npos代表被分成正样的Anchorpoint个数;
训练过程中正负样本匹配所使用损失函数为:
5.根据权利要求2所述一种无人机航拍图像目标检测算法,其特征在于:所述训练样本包括图像和标签信息。
6.根据权利要求2所述一种无人机航拍图像目标检测算法,其特征在于:所述网络分为backbone/neck/head三个部分。
7.根据权利要求6所述一种无人机航拍图像目标检测算法,其特征在于:在网络模型backbone中,采用了swin transformer网络进行层次性特征提取;
将提取出的特征通过注意力机制,使得输入的特征图进行自适应特征细化;
上述所获得的特征输入到Neck结构中进行多尺度特征融合;
将融合后的特征输入到head网络,将head网络的输出进行解码,获得最后的可视化检测结果。
8.根据权利要求1所述一种无人机航拍图像目标检测算法,其特征在于:在步骤S3中,将无人机吊舱图像通过无线网络传输到图像服务器上,图像服务器将收到的图像输入到目标检测模型,目标检测模型输出预测信息,完成对无人机吊舱图像的目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211348468.0A CN115631444A (zh) | 2022-10-31 | 2022-10-31 | 一种无人机航拍图像目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211348468.0A CN115631444A (zh) | 2022-10-31 | 2022-10-31 | 一种无人机航拍图像目标检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631444A true CN115631444A (zh) | 2023-01-20 |
Family
ID=84908071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211348468.0A Pending CN115631444A (zh) | 2022-10-31 | 2022-10-31 | 一种无人机航拍图像目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631444A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452960A (zh) * | 2023-04-20 | 2023-07-18 | 南京航空航天大学 | 一种多模态融合的军事跨域作战目标检测方法 |
-
2022
- 2022-10-31 CN CN202211348468.0A patent/CN115631444A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116452960A (zh) * | 2023-04-20 | 2023-07-18 | 南京航空航天大学 | 一种多模态融合的军事跨域作战目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220197281A1 (en) | Intelligent decision-making method and system for unmanned surface vehicle | |
Dong et al. | Object detection in high resolution remote sensing imagery based on convolutional neural networks with suitable object scale features | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
Chen et al. | Target classification using the deep convolutional networks for SAR images | |
CN113807187A (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Zhang et al. | An intruder detection algorithm for vision based sense and avoid system | |
Shi et al. | Objects detection of UAV for anti-UAV based on YOLOv4 | |
CN115147731A (zh) | 一种基于全空间编码注意力模块的sar图像目标检测方法 | |
CN114241053A (zh) | 基于改进的注意力机制FairMOT多类别跟踪方法 | |
CN114066955A (zh) | 一种红外光图像配准到可见光图像的配准方法 | |
Rostami et al. | Deep learning-based face detection and recognition on drones | |
CN115631444A (zh) | 一种无人机航拍图像目标检测算法 | |
Dai et al. | GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar | |
Lin et al. | SAN: Scale-aware network for semantic segmentation of high-resolution aerial images | |
Peng et al. | CourtNet: Dynamically balance the precision and recall rates in infrared small target detection | |
CN116883457B (zh) | 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法 | |
Wang et al. | A lightweight few-shot marine object detection network for unmanned surface vehicles | |
Pei et al. | Small target detection with remote sensing images based on an improved YOLOv5 algorithm | |
Barthakur et al. | Semantic segmentation using K-means clustering and deep learning in satellite image | |
Cai et al. | Dynamic multiscale feature fusion method for underwater target recognition | |
CN116110118A (zh) | 一种基于时空特征互补融合的行人重识别和步态识别方法 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
Wang et al. | Exploiting rank-based filter pruning for real-time uav tracking | |
Wang et al. | A class-wise vulnerable part detection method for military targets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |