CN114842365B - 一种无人机航拍目标检测识别方法和系统 - Google Patents

一种无人机航拍目标检测识别方法和系统 Download PDF

Info

Publication number
CN114842365B
CN114842365B CN202210776709.5A CN202210776709A CN114842365B CN 114842365 B CN114842365 B CN 114842365B CN 202210776709 A CN202210776709 A CN 202210776709A CN 114842365 B CN114842365 B CN 114842365B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
loss
characteristic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210776709.5A
Other languages
English (en)
Other versions
CN114842365A (zh
Inventor
张超凡
陶泽兴
王�琦
吴茂炜
丁子津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Institute of Geographic Sciences and Natural Resources of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Institute of Geographic Sciences and Natural Resources of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS, Institute of Geographic Sciences and Natural Resources of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202210776709.5A priority Critical patent/CN114842365B/zh
Publication of CN114842365A publication Critical patent/CN114842365A/zh
Application granted granted Critical
Publication of CN114842365B publication Critical patent/CN114842365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种无人机航拍目标检测识别方法和系统。方法包括:融合公开数据和实际采集的数据,构建大量的训练和测试数据库,采用旋转数据增强和Mosaic数据增强处理原始样本图像,丰富样本数量以及提高复杂背景和小目标在样本中的比例;设计加权循环的特征金字塔融合不同尺度的特征图,得到融合丰富语义信息和几何位置特征信息的特征图;根据不同尺度大小的特征图,将分类和回归视为两个任务,设计注意力机制分别处理两个不同的任务,获取鲁棒的特征;设计一种动态调节多任务损失的方法,提高网络模型的收敛速度;设定一定的步长,训练网络,探究权重大小对精度的影响,得到使网络泛化能力更强的权重,从而实现对无人机航拍目标的准确检测识别。

Description

一种无人机航拍目标检测识别方法和系统
技术领域
本发明属于无人机航拍目标检测识别领域,尤其涉及一种无人机航拍目标检测识别方法和系统。
背景技术
随着科技的进步,无人机技术发展的日趋成熟。由于无人机灵活、成本低、易操作等特点,目前已经广泛应用在生产生活和军事等多个领域,在战场侦查监视、战斗伤害评估、土壤和受灾面积检测、交通和人群监控等方面发挥巨大作用。目标检测识别是计算机视觉方向一个重要的研究领域,其研究目的是快速准确的识别出感兴趣的目标,以进一步处理获取其他需求信息。此技术对于提高无人机的感知和数据分析能力、促进无人机在民用和军事领域转化出更多的应用具有重要的意义。其中,快速准确的检测识别无人机航拍目标是无人机执行各种任务的基础和前提。研究无人机航拍目标的精准检测识别方法,对于保障无人机执行各种任务具有重要意义。
目前无人机航拍目标检测识别大都直接应用常规生活场景下的目标检测识别算法,目标检测识别的效果较差,这主要是因为无人机航拍图像由于成像视角不同于自然场景图像,具有背景复杂、旋转、小目标、大视场等特点,这些特点将导致目标检测的精度较低。
发明内容
为解决上述技术问题,本发明提出一种无人机航拍目标检测识别方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种无人机航拍目标检测识别方法,所述方法包括:
步骤S1、收集航拍目标的图像并建立图像数据集;
步骤S2、对所述图像数据集中的图像进行标注;
步骤S3、采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理,得到处理后的增强的图像数据集;
步骤S4、将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图;
步骤S5、设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
步骤S6、根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
步骤S7、通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数;
步骤S8、设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
步骤S9、应用训练好的模型做无人机航拍目标的检测识别。
根据本发明第一方面的方法,在所述步骤S3中,所述采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理的方法包括:
采用albumentations库对原始图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
根据本发明第一方面的方法,在所述步骤S6中,所述根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果的方法包括:
设计基于多任务注意力机制的预测头,通过融合通道注意力和空间注意力机制,分别处理两个不同的任务,获取不同任务的鲁棒特征,然后,将融合通道注意力和空间注意力机制的每个特征层作为共享特征层,再将共享特征层的特征通过Force AttentionBlock模块,获得类别、位置信息和置信度的预测结果。
根据本发明第一方面的方法,在所述步骤S6中,将共享特征层的特征通过ForceAttention Block模块,获得类别、位置信息和置信度的预测结果的方法包括:
采用第一个Force Attention Block模块,将共享特征层的特征通过一层卷积学习注意力的掩码,将所述掩码的结果和另外一个共享特征层的特征相乘,进而得到第三特征图;同时在第二个Force Attention Block模块和第三个Force Attention Block模块,先将共享特征层的特征和前一个Force Attention Block模块的输出相加后,再利用卷积学习注意力掩码,获得类别、位置信息和置信度的预测结果。
根据本发明第一方面的方法,在所述步骤S7中,所述通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1对边界框的损失加权,w2对分类的损失加权,w3对置信度的损失加权;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure GDA0003791583920000041
Figure GDA0003791583920000042
Figure GDA0003791583920000043
Figure GDA0003791583920000044
其中,w′1、w′2和w′3为计算的过程变量,wn为更新计算后的权重;
在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算。
根据本发明第一方面的方法,在所述步骤S7中,所示方法还包括:对于某些任务而言其本身应该是重要的任务,也以一定概率让程序选取上次的值作为当前的权重,wlast是某个损失上次的权重,wnew表示是由上述公式计算得到的,wi表示某个损失的当前的权重,p表示概率;
Figure GDA0003791583920000045
根据本发明第一方面的方法,所述设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重的方法包括:
采用迁移学习的方式,利用预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练。
本发明第二方面公开了一种无人机航拍目标检测识别系统,所述系统包括:
第一处理模块,被配置为,收集航拍目标的图像并建立图像数据集;
第二处理模块,被配置为,对所述图像数据集中的图像进行标注;
第三处理模块,被配置为,采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理,得到处理后的增强的图像数据集;
第四处理模块,被配置为,将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图;
第五处理模块,被配置为,设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
第六处理模块,被配置为,根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
第七处理模块,被配置为,通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数;
第八处理模块,被配置为,设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
第九处理模块,被配置为,应用训练好的模型做无人机航拍目标的检测识别。
根据本发明第二方面的系统,第三处理模块,被配置为,所述采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理包括:
采用albumentations库对原始图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
根据本发明第二方面的系统,第六处理模块,被配置为,所述根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果包括:
设计基于多任务注意力机制的预测头,通过融合通道注意力和空间注意力机制,分别处理两个不同的任务,获取不同任务的鲁棒特征,然后,将融合通道注意力和空间注意力机制的每个特征层作为共享特征层,再将共享特征层的特征通过Force AttentionBlock模块,获得类别、位置信息和置信度的预测结果。
根据本发明第二方面的系统,第六处理模块,被配置为,将共享特征层的特征通过Force Attention Block模块,获得类别、位置信息和置信度的预测结果包括:
采用第一个Force Attention Block模块,将共享特征层的特征通过一层卷积学习注意力的掩码,将所述掩码的结果和另外一个共享特征层的特征相乘,进而得到第三特征图;同时在第二个Force Attention Block模块和第三个Force Attention Block模块,先将共享特征层的特征和前一个Force Attention Block模块的输出相加后,再利用卷积学习注意力掩码,获得类别、位置信息和置信度的预测结果。
根据本发明第二方面的系统,第七处理模块,被配置为,所述通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1对边界框的损失加权,w2对分类的损失加权,w3对置信度的损失加权;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure GDA0003791583920000061
Figure GDA0003791583920000062
Figure GDA0003791583920000071
Figure GDA0003791583920000072
其中,w′1、w′2和w′3为计算的过程变量,wn为更新计算后的权重;
在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算。
根据本发明第二方面的系统,第七处理模块,被配置为,还包括:对于某些任务而言其本身应该是重要的任务,也以一定概率让程序选取上次的值作为当前的权重,wlast是某个损失上次的权重,wnew表示是由上述公式计算得到的,wi表示某个损失的当前的权重,p表示概率;
Figure GDA0003791583920000073
根据本发明第二方面的系统,第八处理模块,被配置为,所述设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重包括:
采用迁移学习的方式,利用预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种无人机航拍目标检测识别方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种无人机航拍目标检测识别方法中的步骤。
本发明提出的方案,使网络泛化能力更强的权重,从而实现对无人机航拍目标的准确检测识别。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种无人机航拍目标检测识别方法的流程图;
图2为根据本发明实施例的无人机航拍目标检测识别方法的流程图;
图3为根据本发明实施例的特征金字塔结构对比图;
图3a为YOLOX原始的特征金字塔结构;
图3b为加权循环的特征金字塔结构;
图4为根据本发明实施例的预测头结构图;
图5a为根据本发明实施例的注意力机制的主要结构;
图5b为根据本发明实施例的CBAM结构示意图;
图6为根据本发明实施例的Force Attention Block结构示意图;
图7为根据本发明实施例的一种无人机航拍目标检测识别系统的结构图;
图8为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种无人机航拍目标检测识别方法。图1为根据本发明实施例的一种无人机航拍目标检测识别方法的流程图,如图1和图2所示,所述方法包括:
步骤S1、收集航拍目标的图像并建立图像数据集;
步骤S2、对所述图像数据集中的图像进行标注;
步骤S3、采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理,得到处理后的增强的图像数据集;
步骤S4、将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图;
步骤S5、设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
步骤S6、根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
步骤S7、通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数;
步骤S8、设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
步骤S9、应用训练好的模型做无人机航拍目标的检测识别。
在步骤S1,收集航拍目标的图像并建立图像数据集。
具体地,为了训练和测试目标检测识别模型,本发明需要建立图像数据集,采用融合公开数据与真实数据的方法获得丰富的样本图像数据,公开数据来源包括:VISDRONE2019数据集、VEDAI数据集等。所述数据集中的数据分为训练数据和测试数据,训练数据用于训练目标检测识别模型,测试数据用于测试训练好的目标检测识别模型。
在步骤S2,对所述图像数据集中的图像进行标注。
具体地,为了减轻数据注释器和数据科学家的负担,开发了一个可视化的深度学习图形图像标注工具(LabelImage),以标定数据集样本图像中的目标。其可用于目标检测、图像分割等任务,对图像的注释形式包括多边形、矩形、圆形、多线段、线段以及点。本发明中,通过矩形框形式对步骤1中的数据集图像进行标注。
在步骤S3,采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理,得到处理后的增强的图像数据集。
在一些实施例中,在所述步骤S3中,所述采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理的方法包括:
采用albumentations库对原始图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
具体地,由于无人机航拍视角多样化,在数据集中同一个目标存在多个视角的情况,为了提高模型在无人机航拍数据集上的泛化性能,需要增强卷积神经网络在提取特征时的旋转不变性。与常规的采用网络池化层增强提取的图像特征不同,设计原始图像数据增强方式,采用albumentations库对原始图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
通过融合这两种增强方式丰富无人机航拍图像的背景,并增加小目标所占的比例。用x表示原始图像,xnew表示处理后的图像。A表示旋转的增强,M表示Mosaic数据增强,epochend表示训练至该epoch关闭数据增强方式,epochnow表示当前训练第多少代,p表示每次数据增强时的概率,则本发明所设计的数据增强方式如公示(1)所示:
Figure GDA0003791583920000111
在步骤S4,将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图。
具体地,输入目标检测识别模型的图像的像素值在[0,255]之间,本发明在读入之前先对数据进行归一化,同时进行标准化,选取从公开数据集ImgNet的均值和方差进标准化处理,以提升训练速度。用imgold表示原始输入图片,imgnew表示处理后的图片,则如公式(2)所示。
Figure GDA0003791583920000112
同时,为了避免缩放时目标的严重变形,影响后续训练和检测的效果,本发明将图片进行等比例缩放,缺的部分用灰色进行填充。
在步骤S5,设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图。
具体地,无人机航拍目标检测任务中存在不同尺度的物体,卷积神经网络提取的特征图具有不同的尺度。为了融合不同尺度的特征图,提高目标检测的性能,设计了加权循环的特征金字塔结构,对不同分辨率的特征添加不同的权重,并且将特征金字塔结构设计成循环的特征金字塔,得到融合丰富语义信息和几何位置特征信息的特征图。具体来说,将Darknet5的结果直接上采样和Darknet5与Darknet4特征融合后的结果进行加权特征融合,并将结果直接和Darknet3进行融合,避免了经典YOLOX目标检测模型特征金字塔结构信息可能会丢失的问题,同理在输出层也进行同样的处理。另外为了获得更高水平的特征,将特征金字塔结构循环了两次。同时使用深度可分离卷积减缓循环的结构造成的参数量和计算量上升,以提高目标检测模型的训练和推理速度。YOLOX原始的特征金字塔结构,如图3a所示和加权循环的特征金字塔结构如图3b所示。
在步骤S6,根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果。
在一些实施例中,在所述步骤S6中,所述根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果的方法包括:
设计基于多任务注意力机制的预测头,如图4所示,通过融合通道注意力和空间注意力机制,分别处理两个不同的任务,获取不同任务的鲁棒特征,然后,将融合通道注意力和空间注意力机制的每个特征层作为共享特征层,再将共享特征层的特征通过ForceAttention Block模块,获得类别、位置信息和置信度的预测结果。融合通道注意力和空间注意力机制,如图5a和图5b所示。
将共享特征层的特征通过Force Attention Block模块,获得类别、位置信息和置信度的预测结果的方法包括:
采用第一个Force Attention Block模块,将共享特征层的特征通过一层卷积学习注意力的掩码,将所述掩码的结果和另外一个共享特征层的特征相乘,进而得到第三特征图;同时在第二个Force Attention Block模块和第三个Force Attention Block模块,先将共享特征层的特征和前一个Force Attention Block模块的输出相加后,再利用卷积学习注意力掩码,获得类别、位置信息和置信度的预测结果。Force Attention Block模块,如图6所示。
在步骤S7,通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数替换常规的交叉熵损失函数。
在一些实施例中,在所述步骤S7中,所述通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1对边界框的损失加权,w2对分类的损失加权,w3对置信度的损失加权;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure GDA0003791583920000131
Figure GDA0003791583920000132
Figure GDA0003791583920000133
Figure GDA0003791583920000134
其中,w′1、w′2和w′3为计算的过程变量,wn为更新计算后的权重;
在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算。
对于某些任务而言其本身应该是重要的任务,也以一定概率让程序选取上次的值作为当前的权重,wlast是某个损失上次的权重,wnew表示是由上述公式计算得到的,wi表示某个损失的当前的权重,p表示概率;
Figure GDA0003791583920000135
在步骤S8,设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重。
在一些实施例中,在所述步骤S8中,所述设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重的方法包括:
采用迁移学习的方式,利用预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练。
具体地,训练策略对模型的性能有着重要的影响,数据的处理以及学习率等相关参数的设定将直接影响最终的性能,通过设定一定的步长,训练网络,探究权重大小对精度的影响,得到使网络泛化能力更强的权重。为了节省计算资源,采用迁移学习的方式,利用预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练。
综上,本发明提出的方案能够使网络泛化能力更强的权重,从而实现对无人机航拍目标的准确检测识别。
本发明第二方面公开了一种无人机航拍目标检测识别系统。图7为根据本发明实施例的一种无人机航拍目标检测识别系统的结构图;如图7所示,所述系统100包括:
第一处理模块101,被配置为,收集航拍目标的图像并建立图像数据集;
第二处理模块102,被配置为,对所述图像数据集中的图像进行标注;
第三处理模块103,被配置为,采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理,得到处理后的增强的图像数据集;
第四处理模块104,被配置为,将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图;
第五处理模块105,被配置为,设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
第六处理模块106,被配置为,根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
第七处理模块107,被配置为,通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数;
第八处理模块108,被配置为,设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
第九处理模块109,被配置为,应用训练好的模型做无人机航拍目标的检测识别。
根据本发明第二方面的系统,第三处理模块103,被配置为,所述采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的原始样本图像进行增强处理包括:
采用albumentations库对原始图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
根据本发明第二方面的系统,第六处理模块106,被配置为,所述根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果包括:
设计基于多任务注意力机制的预测头,通过融合通道注意力和空间注意力机制,分别处理两个不同的任务,获取不同任务的鲁棒特征,然后,将融合通道注意力和空间注意力机制的每个特征层作为共享特征层,再将共享特征层的特征通过Force AttentionBlock模块,获得类别、位置信息和置信度的预测结果。
根据本发明第二方面的系统,第六处理模块106,被配置为,将共享特征层的特征通过Force Attention Block模块,获得类别、位置信息和置信度的预测结果包括:
采用第一个Force Attention Block模块,将共享特征层的特征通过一层卷积学习注意力的掩码,将所述掩码的结果和另外一个共享特征层的特征相乘,进而得到第三特征图;同时在第二个Force Attention Block模块和第三个Force Attention Block模块,先将共享特征层的特征和前一个Force Attention Block模块的输出相加后,再利用卷积学习注意力掩码,获得类别、位置信息和置信度的预测结果。
根据本发明第二方面的系统,第七处理模块107,被配置为,所述通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1对边界框的损失加权,w2对分类的损失加权,w3对置信度的损失加权;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure GDA0003791583920000161
Figure GDA0003791583920000162
Figure GDA0003791583920000163
Figure GDA0003791583920000164
其中,w′1、w′2和w′3为计算的过程变量,wn为更新计算后的权重;
在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算。
根据本发明第二方面的系统,第七处理模块107,被配置为,还包括:对于某些任务而言其本身应该是重要的任务,也以一定概率让程序选取上次的值作为当前的权重,wlast是某个损失上次的权重,wnew表示是由上述公式计算得到的,wi表示某个损失的当前的权重,p表示概率;
Figure GDA0003791583920000171
根据本发明第二方面的系统,第八处理模块108,被配置为,所述设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重包括:
采用迁移学习的方式,利用预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种无人机航拍目标检测识别方法中的步骤。
图8为根据本发明实施例的一种电子设备的结构图,如图8所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种无人机航拍目标检测识别方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种无人机航拍目标检测识别方法,其特征在于,所述方法包括:
步骤S1、收集航拍目标的图像并建立图像数据集;
步骤S2、对所述图像数据集中的图像进行标注;
步骤S3、采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的图像进行增强处理,得到处理后的增强的图像数据集;
步骤S4、将增强后的图像进行归一化处理,输入模型的主干网络,得到相应的第一特征图;
步骤S5、设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
在YOLOX原始的特征金字塔结构基础上进行处理,将Darknet5的结果直接上采样和Darknet5与Darknet4特征融合后的结果进行加权特征融合,并将加权特征融合的结果直接和Darknet3的结果进行融合,将特征金字塔结构循环两次得到加权循环的特征金字塔结构;使用深度可分离卷积以减缓循环造成的参数量和计算量的上升;
步骤S6、根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
步骤S7、通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立FocalLoss函数;
建立Focal Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1表示对边界框的损失权重,w2表示对类别的损失权重,w3表示对置信度的损失权重;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure FDA0003879280450000021
Figure FDA0003879280450000022
Figure FDA0003879280450000023
Figure FDA0003879280450000024
其中,w1′、w2′和w3′为计算的过程变量,wn为更新计算后的权重;在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算;
步骤S8、设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
采用迁移学习的方式,预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练;
步骤S9、应用训练好的模型做无人机航拍目标的检测识别。
2.根据权利要求1所述的一种无人机航拍目标检测识别方法,其特征在于,在所述步骤S3中,所述采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的图像进行增强处理的方法包括:
采用albumentations库对图像以一定概率进行旋转增强,同时以一定概率进行Mosaic数据增强。
3.根据权利要求1所述的一种无人机航拍目标检测识别方法,其特征在于,在所述步骤S6中,所述根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果的方法包括:
设计基于多任务注意力机制的预测头,通过融合通道注意力和空间注意力机制,分别处理两个不同的任务,获取不同任务的鲁棒特征,然后,将融合通道注意力和空间注意力机制的每个特征层作为共享特征层,再将共享特征层的特征通过Force Attention Block模块,获得类别、位置信息和置信度的预测结果。
4.根据权利要求3所述的一种无人机航拍目标检测识别方法,其特征在于,在所述步骤S6中,将共享特征层的特征通过Force Attention Block模块,获得类别、位置信息和置信度的预测结果的方法包括:
采用第一个Force Attention Block模块,将共享特征层的特征通过一层卷积学习注意力的掩码,将所述掩码的结果和另外一个共享特征层的特征相乘,进而得到第三特征图;同时在第二个Force Attention Block模块和第三个Force Attention Block模块,先将共享特征层的特征和前一个Force Attention Block模块的输出相加后,再利用卷积学习注意力掩码,获得类别、位置信息和置信度的预测结果。
5.一种用于无人机航拍目标检测识别系统,其特征在于,所述系统包括:
第一处理模块,被配置为,收集航拍目标的图像并建立图像数据集;
第二处理模块,被配置为,对所述图像数据集中的图像进行标注;
第三处理模块,被配置为,采用融合旋转数据增强和Mosaic数据增强的样本数据增强方式,对含有标注的图像进行增强处理,得到处理后的增强的图像数据集;
第四处理模块,被配置为,将增强后的图像进行归一化处理,输入基线模型的主干网络,得到相应的第一特征图;
第五处理模块,被配置为,设计加权循环的特征金字塔结构,对不同分辨率的所述第一特征图添加不同的权重,得到融合丰富语义信息和几何位置特征信息的第二特征图;
在YOLOX原始的特征金字塔结构基础上进行处理,将Darknet5的结果直接上采样和Darknet5与Darknet4特征融合后的结果进行加权特征融合,并将加权特征融合的结果直接和Darknet3的结果进行融合,将特征金字塔结构循环两次得到加权循环的特征金字塔结构;使用深度可分离卷积以减缓循环造成的参数量和计算量的上升;
第六处理模块,被配置为,根据不同尺度大小的第二特征图,将无人机航拍目标检测识别中的分类和回归视为两个任务,分别提取特征,获取不同任务的鲁棒特征,获得类别、位置信息和置信度的预测结果;
第七处理模块,被配置为,通过均衡难分类样本与易分类样本,以及考虑不同的损失权重,建立Focal Loss函数;
建立Focal Loss函数的具体公式为:
Lnew=w1Liou+w2Lcls+w3FLconf
其中,Liou表示边界框的损失,Lcls表示类别的损失,FLconf表示置信度的损失;w1表示对边界框的损失权重,w2表示对分类的损失权重,w3表示对置信度的损失权重;
若用t表示epoch次数,即训练次数,则w1、w2和w3的计算公式为:
Figure FDA0003879280450000041
Figure FDA0003879280450000042
Figure FDA0003879280450000043
Figure FDA0003879280450000044
其中,w1′、w2′和w3′为计算的过程变量,wn为更新计算后的权重;
在训练初试阶段,前两个epoch会先以1为权重,第三个epoch会按照所述w1、w2和w3的计算公式进行计算;
第八处理模块,被配置为,设定一定的步长,训练模型,探究模型的网络权重大小对精度的影响,得到使模型的网络泛化能力更强的权重;
采用迁移学习的方式,预训练所述主干网络的权重,所述主干网络先冻结训练,然后在所述图像数据集上进行微调,微调后主干网络解冻,参与模型的训练;
第九处理模块,被配置为,应用训练好的模型做无人机航拍目标的检测识别。
6.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至4中任一项所述的一种无人机航拍目标检测识别方法中的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至4中任一项所述的一种无人机航拍目标检测识别方法中的步骤。
CN202210776709.5A 2022-07-04 2022-07-04 一种无人机航拍目标检测识别方法和系统 Active CN114842365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210776709.5A CN114842365B (zh) 2022-07-04 2022-07-04 一种无人机航拍目标检测识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210776709.5A CN114842365B (zh) 2022-07-04 2022-07-04 一种无人机航拍目标检测识别方法和系统

Publications (2)

Publication Number Publication Date
CN114842365A CN114842365A (zh) 2022-08-02
CN114842365B true CN114842365B (zh) 2022-11-29

Family

ID=82574374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210776709.5A Active CN114842365B (zh) 2022-07-04 2022-07-04 一种无人机航拍目标检测识别方法和系统

Country Status (1)

Country Link
CN (1) CN114842365B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294483A (zh) * 2022-09-28 2022-11-04 山东大学 输电线路复杂场景的小目标识别方法及系统
CN115641518B (zh) * 2022-10-09 2023-09-26 山东巍然智能科技有限公司 一种无人机用视图感知网络模型及目标检测方法
CN115424154A (zh) * 2022-11-01 2022-12-02 速度时空信息科技股份有限公司 一种用于无人机影像目标检测的数据增强与训练方法
CN116052026B (zh) * 2023-03-28 2023-06-09 石家庄铁道大学 一种无人机航拍图像目标检测方法、系统及存储介质
CN116895026A (zh) * 2023-06-14 2023-10-17 天之翼(苏州)科技有限公司 基于无人机航测的安全性分析方法及ai服务器
CN117132914B (zh) * 2023-10-27 2024-01-30 武汉大学 通用电力设备识别大模型方法及系统
CN117576489B (zh) * 2024-01-17 2024-04-09 华侨大学 智能机器人鲁棒实时目标感知方法、装置、设备及介质
CN117630344B (zh) * 2024-01-25 2024-04-05 西南科技大学 实时在线检测混凝土坍落度范围的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3058548A1 (fr) * 2016-11-09 2018-05-11 Parrot Drones Drone comprenant un dispositif de determination d'une representation d'une cible via un reseau de neurones, procede de determination et programme d'ordinateur associes
CN108764063B (zh) * 2018-05-07 2020-05-19 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别系统及方法
US10452959B1 (en) * 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
CN113780152B (zh) * 2021-09-07 2024-04-05 北京航空航天大学 一种基于目标感知的遥感图像船只小目标检测方法
CN113989683A (zh) * 2021-09-16 2022-01-28 中国科学院空天信息创新研究院 一种综合同步轨道序列光学影像时空信息的船舶检测方法
CN114419467A (zh) * 2021-12-24 2022-04-29 中国科学院深圳先进技术研究院 旋转船只目标检测模型的训练方法、训练装置和存储介质

Also Published As

Publication number Publication date
CN114842365A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114842365B (zh) 一种无人机航拍目标检测识别方法和系统
Sun et al. RSOD: Real-time small object detection algorithm in UAV-based traffic monitoring
Li et al. Learning deep semantic segmentation network under multiple weakly-supervised constraints for cross-domain remote sensing image semantic segmentation
Wang et al. Deep networks for saliency detection via local estimation and global search
CN111291809B (zh) 一种处理装置、方法及存储介质
Jin et al. Pedestrian detection with super-resolution reconstruction for low-quality image
CN111797893A (zh) 一种神经网络的训练方法、图像分类系统及相关设备
Zhang et al. Multi-scale adversarial network for vehicle detection in UAV imagery
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
CN113177559B (zh) 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
WO2021190433A1 (zh) 更新物体识别模型的方法和装置
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
CN115577768A (zh) 半监督模型训练方法和装置
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
Wang et al. Global contextual guided residual attention network for salient object detection
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN117079276B (zh) 一种基于知识蒸馏的语义分割方法、系统、设备及介质
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
CN117036658A (zh) 一种图像处理方法及相关设备
Pang et al. PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant