CN114863299A - 一种航空图像目标精细识别系统 - Google Patents

一种航空图像目标精细识别系统 Download PDF

Info

Publication number
CN114863299A
CN114863299A CN202210462992.4A CN202210462992A CN114863299A CN 114863299 A CN114863299 A CN 114863299A CN 202210462992 A CN202210462992 A CN 202210462992A CN 114863299 A CN114863299 A CN 114863299A
Authority
CN
China
Prior art keywords
target
algorithm
detection
deep learning
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210462992.4A
Other languages
English (en)
Inventor
张锐
谢聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210462992.4A priority Critical patent/CN114863299A/zh
Publication of CN114863299A publication Critical patent/CN114863299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种航空图像目标精细识别系统,涉及目标检测技术领域;包括深度学习主机、数据采集器、目标检测算法、操作机构;所述深度学习主机由机箱和内置硬件组成,所述数据采集器采用无人机航拍器,数据采集器使用带屏遥控器搭配HDMI转接线连接深度学习主机;所述的目标检测算法内置于深度学习主机中;本发明实现对航空遥感图像目标的精细识别,极大的提升了小目标的检测精度和速度,提高了算法的泛用性并增加遥感图像智能解译方法的多样性;具有更好的多样性,不仅限于识别航空图像数据,也可以识别遥感图像公开数据集,极大的拓展了使用价值;具有使用简单,实时推理速度快,检测精度高的特点。

Description

一种航空图像目标精细识别系统
技术领域
本发明属于目标检测技术领域,具体涉及一种航空图像目标精细识别系统。
背景技术
在目标检测场景中,一般有anchor based和anchor free两种思路。在anchorbased算法中,如faster RCNN、Yolov3、v4、v5 等模型往往受限于anchor的参数配置,如anchor大小、正负样本采样等等。在anchor free算法中,key-point算法占据主流,其通过检测目标的边界点,然后将其边界点配对组合成目标的检测框,此类算法以CenterNet为代表。目前,anchor based算法精度略高于 anchor free算法,但是anchor设置需要充分的经验,且受限于目标的实际形状。为了实现航空图像中任意方向目标的识别,主流的算法都是基于五参数的旋转检测实现,类似于水平检测中的坐标回归方法,角度参数也是通过回归来预测的。但是基于回归的角度预测往往会引入边界不连续,使得回归和分类不一致。此外,由于航空图像目标尺度分布范围广,长宽比变化剧烈,小目标数量居多并且背景复杂。上述难题使得大多数检测算法无法满足日益增长的航空图像精细识别需求。
鉴于目前通用目标检测算法难以胜任航空图像检测的实际应用需求,我们提出一种新的航空图像精细识别方法,该方法能够不仅能够捕获任意方向目标的几何信息,并且可以根据目标的宽高比自适应调节正负样本阈值,还依靠transformer和PANet组成的主干网络扩大感受野提升小目标的识别精度。另外,该算法使用便捷(不需要设置anchor参数),模型推理速度较快。提出的方法首先在特征图的每个location位置,以该location为中心,去预测一个box,注意其预测的是一系列的点集,然后通过把这些点映射为box得到最终的结果,提供了更细粒度的分类和更高精度的定位。这种识别系统对于农业发展、军事目标识别以及稀有动物数量统计等相关领域有极大的推动作用,即该系统具有非常大的实用价值。
发明内容
为解决背景技术中的问题;本发明的目的在于提供一种航空图像目标精细识别系统。
上述的目的通过以下技术方案实现:
一种航空图像目标精细识别系统,包括深度学习主机、数据采集器、目标检测算法、操作机构;所述深度学习主机由机箱和内置硬件组成,机箱内部安装有CPU、主板、显卡、CPU散热、固态硬盘、内存、电源;所述数据采集器采用无人机航拍器,数据采集器使用带屏遥控器搭配HDMI转接线连接深度学习主机;所述的目标检测算法内置于深度学习主机中;所述操作机构中的显示屏、鼠标和键盘也直接与深度学习主机相连接。
所述无人机航拍器为大疆air2便携可折叠智能无人机航拍器,其采集的数据图像或视频,通过SDR-OcuSync2.0图传技术无线传输给主机用于模型训练或检测。
所述深度学习主机CPU、内存、固态硬盘与主板连接,主板后置面板安装到机箱,散热器和CPU连接,并将风扇安装到CPU,GPU和内存、电源模块安装到主板和机箱。
所述目标检测算法使用新的目标表示方法(点集)解决分类和回归不一致,根据目标的宽高比自适应调节正负样本阈值应对不同形状目标,结合transformer和PANet组成的主干网络扩大感受野提升小目标的识别精度。
一种航空图像目标精细识别系统的识别方法,其特征在于:它的识别方法包括如下步骤:
步骤一:数据的采集和预处理:数据采集使用无人机航拍ROI区域图像或者视频并传输到主机;数据预处理首先将视频拆分为图片,然后使用标注软件labelme手动标注图片中的目标,标注目标的参数包括四个点坐标(以目标的头部方向为起点顺时针标注)和类别并保存标签为文本格式;使用算法程序中的prepare_data.py将图片和标签转换为检测算法需要的图像大小(1024*1024)和标签格式(x,y, w,h,θ,classname_id)用于模型训练。其中x,y,w,h,classname_id 分别表示目标的中心x,y坐标,宽高以及类别名的索引编号;
步骤二:使用算法项目中的train.py在终端环境训练模型:本算法采用开源的oriented reppoints为基线,通过加入动态IoU阈值IoU_out=exp(-aw/r)*IoU_threshold+α来提高目标的检测精度,其中 aw表示目标长宽比,r表示归一化系数,IoU_threshold表示正样本阈值,α是补偿尝试,确保大长宽比时期望的IoU值不为0。模型训练配置如下:学习率设为0.005,训练次数60,数据增强采用随机旋转方式。最后,在终端激活创建的虚拟环境,环境创建要求如算法中的readme.md所述,输入python train.py用于训练算法模型。
步骤三:使用训练出的模型检测待检测区域图像或视频:检测方法分为实时检测和离线检测。实时检测使用无人机航拍图像或视频数据通过OcuSync无线图像传输技术传送到检测系统实现实时检测,并在显示屏上实时显示检测结果。离线检测则是通过上传待检测的图像或视频到检测系统测试文件实现离线检测。注意,实时检测和离线检测均会自动保存可视化结果和检测结果文本文件(包括置信度得分和目标位置及类别)便于用户分析。
(1)算法环境搭建:
Requirements:Linux,python3.7+,Pytorch1.3 or higher, CUDA9.0 orhigher,mmdet==1.1.0,mmcv==0.3.1,GCC4.9 or higher, NCCL2.1.15or higher;
step1:conda create-n oriented python=3.7-y
step2:source activate oriented
step3:conda install pytorch=1.4torchvision cudatoolkit-10.0-cpytorch
step4:pip install-r requirements.txt
step5:python setup.py develop
step6:sudo apt-get install swig
swig-c++-python polyiou.i
python setup.py build.ext–inplace;
(2)算法实现原理:
输入一张1024x1024的图片,在经过transformer的backbone 提取特征之后,经过五次下采样,特征图变为32x32大小,然后将该特征图映射到原图上,有32x32的网格grid,每个网格32x32像素,默认目标的中心点落在的所在grid负责预测该目标,该grid下采样到特征图上就成为一点,此时需要预测出9个点,即在每个特征图对应的location位置,网络需要学习9组偏移量,
在32x32长宽的特征图,共有1024个点,对于每个点需要预测 9个点,来调整样本点的位置:
Rr={(xk+Δxk,yk+Δyk)}n k=1 (1)
(Δxk,Δyk)分别为预测点相对于中心点的偏差,n一般取9,偏差的学习由可变形卷积DCN实现;
总体上,该算法是基于全卷积网络实现的,输入图像经过PANet 主干网络之后,经过一次3x3的可变形卷积,预测的offset经过坐标计算,得到一阶段点集,可变形卷积继续提取特征,再预测得到 offset和每个位置的分类结果,由offset计算得到细化后第二次的点集。最终,将每个位置的点集转换成预测框,加上分类结果,得到目标检测的结果。
(3)算法性能评估指标:
评估算法的性能将基于数据集的预测和地面真实性之间的定量比较。对于给定的目标真值框和生成的预测框,根据IoU阈值0.5选择TP、FP、FN,根据如下公式计算精确率和召回率,然后计算每个类别的AP值,所有类别的AP平均值极为模型的精度性能mAP。
与现有技术相比,本发明的有益效果为:
一、实现对航空遥感图像目标的精细识别,极大的提升了小目标的检测精度和速度,提高了算法的泛用性并增加遥感图像智能解译方法的多样性。
二、利用目标检测评估指标平均类别精度对比选择性能最好的算法进行部署应用,以达到更好的检测精度,具有非常好的鲁棒性,为本发明的应用落地提供数据支撑。
三、该检测系统具有更好的多样性,不仅限于识别航空图像数据,也可以识别遥感图像公开数据集,极大的拓展了使用价值。
四、该检测系统具备旋转目标检测技术中的最先进算法性能,并在公开的两种大型遥感图像数据集上进行实际验证,结果表明这两种算法可以满足绝大多数检测任务的应用。
五、本发明系统检测包含实时检测,由无人机航拍图像提供数据,对于农业发展,军事目标识别,稀有动物数量统计、森林火灾预防等一系列应用提供了基础的技术支撑。
六、本发明具有使用简单,实时推理速度快,检测精度高的特点。
附图说明
为了易于说明,本发明由下述的具体实施及附图作以详细描述。
图1为背景技术中水平目标检测图;
图2为背景技术中旋转目标检测图;
图3为本发明的结构示意图;
图4为本发明中操作机构的结构示意图;
图5为本发明中数据集图片分割示例图;
图6为本发明中anchor based/free方法检测原理图;
图7为本发明中公开数据集的检测效果示意图;
图8为本发明中动态IoU阈值调整示意图;
图9为本发明中偏移量的示意图。
图中:1-数据采集器;2-图像转接器;3-深度学习主机及操作机构;31-机箱;32-支撑脚;33-显示屏;34-操作机构;35-显卡及存储器(固态硬盘和内存);36-全模组电源;37-主机CPU散热装置; 38-CPU处理器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。本说明书附图所绘的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具备技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
实施例1:
如图3所示,一种基于高分辨率成像的空间目标精细识别系统,组成包括数据采集器1、图像转接器2、深度学习主机及操作机构3;深度学习主机及操作机构3通过与图像转接器2与数据采集器1无线连接。
如图4所示,所述深度学习主机及操作机构3包括机箱31、支撑脚32、显示屏33、操作机构34、显卡及存储器(固态硬盘和内存) 35、全模组电源36、主机CPU散热装置37、CPU处理器38;外框体 31的底部安装有数个支撑脚32,外框体31的顶端后侧安装有安装框,安装框内安装有显示屏33,外框体31的上端安装有操作机构34,机箱31的内部分别安装有显卡及存储器(固态硬盘和内存)35、全模组电源36、主机CPU散热装置37、CPU处理器38。与此同时,本具体实施方式中所述操作机构34包括操作杆与输入键盘,输送键盘的上侧安装有操作杆。
实施例2:
所述的深度学习主机硬件如下:CPU:英特尔(intel)i9-10980XE,主板:技嘉(GIGABYTE)X299X AORUS MASTER,散热:恩杰NZXT Kraken 海妖X73 360mm一体式水冷散热器,显卡:GeForce RTX 2080Ti 11G,固态硬盘:1TB M2.0接口NVME协议的三星970DRO,内存:DDR4 3200 32G套装*1,电源:振华(SUPER FLOWER)额定1000W LEADEX T1000W 电源,机箱:DARK BASE PRO 900黑色模组化机箱。深度学习主机 CPU、RAM、SSD与主板连接,主板后置面板安装到机箱,散热器和CPU 连接,并将风扇安装到CPU,GPU和内存、电源模块安装到主板和机箱。
实施例3:
根据实施1所述的航空图像精细识别系统,数据采集器使用大疆 air2便携可折叠智能无人机航拍器,具备4800万像素镜头,34分钟超长续航,Ocusync2.0|10公里高清图传,4k/60fps超清视频。使用带屏遥控器的HDMI转接线连接深度学习主机显示器。
实施例4:
根据实施1所述的航空图像精细识别系统,目标检测算法环境搭建具体过程如下:1.安装Ubantu16.04 LTS系统,2.安装组合: Anaconda+PyTorch(GPU版)。
实施例5:
一种基于高分辨率成像的空间目标精细识别算法及实现,它的识别方法实现过程如下:
步骤一:数据集的选择和预处理。数据集选择DOTA、FAIR1M两种大型公开航空数据集。FAIR1M包含100多万个实例和15000多幅图像。数据集对象包含飞机、船舶、车辆、道路和运动场5个类别,每个类别的细粒度类型的选择取决于实际应用场景和它呈现的形状,总共包含37个子类。为了确保小目标细节信息的完整性,必须采用切割的方式进行训练和测试,数据分割的结果示意如图5所示。至此,算法的实验数据及其数据预处理过程基本完成,下一步将进行识别算法的研发和测试。
步骤二:检测算法研发与测试:anchor free检测器使用起来更加简单,并且使用点包络目标的方法可以非常轻松的应对航拍图像中的各种复杂目标。因此,采用anchorfree方法,优点是核心算法由 DCN实现,在应对非寻常长宽比的物体识别任务优势更大,识别原理如图6所示,(2)详细介绍了该算法的识别原理;首先按照(1)中的方法搭建算法所需要的环境,整个算法研发包括训练、测试、推理、模型导出四个主要的功能以实现目标检测任务,并进行一一调试验证。随后针对该算法推理速度和精度进行改进(使用最新的swintransformer主干特征提取网络、PANet特征金字塔,动态IoU阈值调整,如图8所示)。
步骤四:算法优化,为实现应用部署,使用高精度评估指标mAP (0.75)在测试集上评估选择精度指标最优的模型,对最优性能的训练模型进行部署应用,实现其工程应用价值。
步骤五:算法模型测试和推理演示:为了验证本算法具有实际应用价值,在DOTA、FAIR1M等两个航空数据集上进行试验,主干网络采用transformer和特征金字塔FPN,并基于各个类别目标做实验。本算法在DOTA上的mAP为75.97,在FAIR1M数据集上的mAP为47.84,均处于最先进的性能水平,实验结果充分表明该算法具有非常好的性能。实际的检测可视化效果如图7所示。
(1)算法环境搭建
Requirements:Linux,python3.7+,Pytorch1.3 or higher, CUDA9.0 orhigher,mmdet==1.1.0,mmcv==0.3.1,GCC4.9 or higher, NCCL2.1.15or higher;
Install:step1:conda create-n oriented python=3.7-y
step2:source activate oriented
step3:conda install pytorch=1.4torchvision=0.4.0 cudatoolkit-10.0-cpytorch
step4:pip install-r requirements.txt
step5:python setup.py develop
step6:sudo apt-get install swig
swig-c++-python polyiou.i
python setup.py build.ext–inplace
(2)算法实现原理
输入一张1024x1024的图片,在经过transformer的backbone 提取特征之后,经过五次下采样,特征图变为32x32大小,然后将该特征图映射到原图上,有32x32的网格grid,每个网格32x32像素,默认目标的中心点落在的所在grid负责预测该目标,该grid下采样到特征图上就成为一点,此时需要预测出9个点,即在每个特征图对应的location位置,网络需要学习9组偏移量,如图9所示;
在32x32长宽的特征图,共有1024个点,对于每个点需要预测 9个点,来调整样本点的位置:
Rr={(xk+Δxk,yk+Δyk)}n k=1 (2)
(Δxk,Δyk)分别为预测点相对于中心点的偏差,n一般取9,偏差的学习由可变形卷积DCN实现。
总体上,该算法是基于全卷积网络实现的,输入图像经过PANet 主干网络之后,经过一次3x3的可变形卷积,预测的offset经过坐标计算,得到一阶段点集,可变形卷积继续提取特征,再预测得到 offset和每个位置的分类结果,由offset计算得到细化后第二次的点集。最终,将每个位置的点集转换成预测框,加上分类结果,得到目标检测的结果。
(3)算法性能评估指标
评估算法的性能将基于数据集的预测和地面真实性之间的定量比较。对于给定的目标真值框和生成的预测框,根据IoU阈值0.75 选择TP、FP、FN,根据如下公式计算精确率和召回率,然后计算每个类别的AP值,所有类别的AP平均值即为模型的精度性能mAP。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种航空图像目标精细识别系统,其特征在于:包括深度学习主机、数据采集器、目标检测算法、操作机构;所述深度学习主机由机箱和内置硬件组成,机箱内部安装有CPU、主板、显卡、CPU散热、固态硬盘、内存、电源;所述数据采集器采用无人机航拍器,数据采集器使用带屏遥控器搭配HDMI转接线连接深度学习主机;所述的目标检测算法内置于深度学习主机中;所述操作机构中的显示屏、鼠标和键盘也直接与深度学习主机相连接。
2.根据权利要求1所述的一种航空图像目标精细识别系统,其特征在于:所述无人机航拍器为大疆air2便携可折叠智能无人机航拍器,其采集的数据图像或视频,通过SDR-OcuSync2.0图传技术无线传输给主机用于模型训练或检测。
3.根据权利要求1所述的一种航空图像目标精细识别系统,其特征在于:所述深度学习主机CPU、内存、固态硬盘与主板连接,主板后置面板安装到机箱,散热器和CPU连接,并将风扇安装到CPU,GPU和内存、电源模块安装到主板和机箱。
4.根据权利要求1所述的一种航空图像目标精细识别系统,其特征在于:所述目标检测算法使用新的目标表示方法(点集)解决分类和回归不一致,根据目标的宽高比自适应调节正负样本阈值应对不同形状目标,结合transformer和PANet组成的主干网络扩大感受野提升小目标的识别精度。
5.一种航空图像目标精细识别系统的识别方法,其特征在于:它的识别方法包括如下步骤:
步骤一:数据的采集和预处理:数据采集使用无人机航拍ROI区域图像或者视频并传输到主机;数据预处理首先将视频拆分为图片,然后使用标注软件labelme手动标注图片中的目标,标注目标的参数包括四个点坐标(以目标的头部方向为起点顺时针标注)和类别并保存标签为文本格式;使用算法程序中的prepare_data.py将图片和标签转换为检测算法需要的图像大小(1024*1024)和标签格式(x,y,w,h,θ,classname_id)用于模型训练;其中x,y,w,h,classname_id分别表示目标的中心x,y坐标,宽高以及类别名的索引编号;
步骤二:使用算法项目中的train.py在终端环境训练模型:本算法采用开源的oriented reppoints为基线,通过加入动态IoU阈值IoU_out=exp(-aw/r)*IoU_threshold+α来提高目标的检测精度,其中aw表示目标长宽比,r表示归一化系数,IoU_threshold表示正样本阈值,α是补偿尝试,确保大长宽比时期望的IoU值不为0;模型训练配置如下:学习率设为0.005,训练次数60,数据增强采用随机旋转方式;最后,在终端激活创建的虚拟环境,环境创建要求如算法中的readme.md所述,输入python train.py用于训练算法模型;
步骤三:使用训练出的模型检测待检测区域图像或视频:检测方法分为实时检测和离线检测;实时检测使用无人机航拍图像或视频数据通过OcuSync无线图像传输技术传送到检测系统实现实时检测,并在显示屏上实时显示检测结果;离线检测则是通过上传待检测的图像或视频到检测系统测试文件实现离线检测;
(3.1)、算法环境搭建:
Requirements:Linux,python3.7+,Pytorch1.3 or higher,CUDA9.0 or higher,mmdet==1.1.0,mmcv==0.3.1,GCC4.9 or higher,NCCL2.1.15 or higher;
step1:conda create-n oriented python=3.7-y
step2:source activate oriented
step3:conda install pytorch=1.4 torchvision cudatoolkit-10.0-c pytorch
step4:pip install-r requirements.txt
step5:python setup.py develop
step6:sudo apt-get install swig
swig-c++-python polyiou.i
python setup.py build.ext–inplace;
(3.2)、算法实现原理:
输入一张1024x1024的图片,在经过transformer的backbone提取特征之后,经过五次下采样,特征图变为32x32大小,然后将该特征图映射到原图上,有32x32的网格grid,每个网格32x32像素,默认目标的中心点落在的所在grid负责预测该目标,该grid下采样到特征图上就成为一点,此时需要预测出9个点,即在每个特征图对应的location位置,网络需要学习9组偏移量,
在32x32长宽的特征图,共有1024个点,对于每个点需要预测9个点,来调整样本点的位置:
Rr={(xk+Δxk,yk+Δyk)}n k=1 (1)
(Δxk,Δyk)分别为预测点相对于中心点的偏差,n一般取9,偏差的学习由可变形卷积DCN实现;
总体上,该算法是基于全卷积网络实现的,输入图像经过PANet主干网络之后,经过一次3x3的可变形卷积,预测的offset经过坐标计算,得到一阶段点集,可变形卷积继续提取特征,再预测得到offset和每个位置的分类结果,由offset计算得到细化后第二次的点集;最终,将每个位置的点集转换成预测框,加上分类结果,得到目标检测的结果;
(3.3)、算法性能评估指标:
评估算法的性能将基于数据集的预测和地面真实性之间的定量比较;对于给定的目标真值框和生成的预测框,根据IoU阈值0.5选择TP、FP、FN,根据如下公式计算精确率和召回率,然后计算每个类别的AP值,所有类别的AP平均值极为模型的精度性能mAP。
CN202210462992.4A 2022-04-28 2022-04-28 一种航空图像目标精细识别系统 Pending CN114863299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210462992.4A CN114863299A (zh) 2022-04-28 2022-04-28 一种航空图像目标精细识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210462992.4A CN114863299A (zh) 2022-04-28 2022-04-28 一种航空图像目标精细识别系统

Publications (1)

Publication Number Publication Date
CN114863299A true CN114863299A (zh) 2022-08-05

Family

ID=82635617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210462992.4A Pending CN114863299A (zh) 2022-04-28 2022-04-28 一种航空图像目标精细识别系统

Country Status (1)

Country Link
CN (1) CN114863299A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363435A (zh) * 2023-04-03 2023-06-30 盐城工学院 一种基于深度学习的遥感图像目标检测系统及方法
CN116453117A (zh) * 2023-02-14 2023-07-18 珠江水利委员会珠江水利科学研究院 一种图像解译图斑定位与精度评估方法
CN116486238A (zh) * 2023-04-26 2023-07-25 北京卫星信息工程研究所 联合点集表示与图分类的目标细粒度识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911429A (zh) * 2017-11-04 2018-04-13 南京奇蛙智能科技有限公司 一种基于视频的无人机云端在线交通流量监测方法
CN111553200A (zh) * 2020-04-07 2020-08-18 北京农业信息技术研究中心 一种图像检测识别方法及装置
CN111832379A (zh) * 2019-10-15 2020-10-27 中国石油化工股份有限公司 基于卷积神经网络的无人机实时视频检测系统
CN114359756A (zh) * 2022-01-06 2022-04-15 中国科学院空天信息创新研究院 一种震后无人机遥感影像损毁房屋快速智能检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911429A (zh) * 2017-11-04 2018-04-13 南京奇蛙智能科技有限公司 一种基于视频的无人机云端在线交通流量监测方法
CN111832379A (zh) * 2019-10-15 2020-10-27 中国石油化工股份有限公司 基于卷积神经网络的无人机实时视频检测系统
CN111553200A (zh) * 2020-04-07 2020-08-18 北京农业信息技术研究中心 一种图像检测识别方法及装置
CN114359756A (zh) * 2022-01-06 2022-04-15 中国科学院空天信息创新研究院 一种震后无人机遥感影像损毁房屋快速智能检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENTONG LI ET AL.: "Oriented RepPoints for Aerial Object Detection", 《ARXIV:2105.11111V4》, 24 March 2022 (2022-03-24), pages 3 - 4 *
夏侯琰: "形状自适应的正负样本分配策略", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/461454563》, 18 March 2022 (2022-03-18), pages 1 - 2 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453117A (zh) * 2023-02-14 2023-07-18 珠江水利委员会珠江水利科学研究院 一种图像解译图斑定位与精度评估方法
CN116453117B (zh) * 2023-02-14 2024-01-26 珠江水利委员会珠江水利科学研究院 一种图像解译图斑定位与精度评估方法
CN116363435A (zh) * 2023-04-03 2023-06-30 盐城工学院 一种基于深度学习的遥感图像目标检测系统及方法
CN116363435B (zh) * 2023-04-03 2023-10-27 盐城工学院 一种基于深度学习的遥感图像目标检测系统及方法
CN116486238A (zh) * 2023-04-26 2023-07-25 北京卫星信息工程研究所 联合点集表示与图分类的目标细粒度识别方法
CN116486238B (zh) * 2023-04-26 2023-09-15 北京卫星信息工程研究所 联合点集表示与图分类的目标细粒度识别方法

Similar Documents

Publication Publication Date Title
CN114863299A (zh) 一种航空图像目标精细识别系统
US10740647B2 (en) Detecting objects using a weakly supervised model
CN108292362B (zh) 用于光标控制的手势识别
JP5352738B2 (ja) 3次元モデルを使用した物体認識
US20180039853A1 (en) Object Detection System and Object Detection Method
US20110206237A1 (en) Recognition apparatus and method thereof, and computer program
US20150016668A1 (en) Settlement mapping systems
CN104685544A (zh) 用于改变视频的视角的方法和装置
WO2020042004A1 (en) Training one-shot instance segmenters using synthesized images
EP3916355A1 (en) Method and apparatus for indoor localization, electronic device, storage medium and computer program
US20230106339A1 (en) 2d and 3d floor plan generation
CN112040198A (zh) 一种基于图像处理的智能水表读数识别系统与方法
CN114387346A (zh) 一种图像识别、预测模型处理方法、三维建模方法和装置
JP7368924B2 (ja) 勾配方向ヒストグラムの演算のためのハードウェアアクセレレータ
CN114612575A (zh) 一种相机参数的标定、三维数据生成方法和系统
JP6399840B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN115274099A (zh) 一种人与智能交互的计算机辅助诊断系统与方法
CN112950759B (zh) 基于房屋全景图的三维房屋模型构建方法及装置
CN117788444A (zh) Smt贴片偏移检测方法、装置及视觉检测系统
CN105631849B (zh) 多边形目标的变化检测方法及装置
Qiu et al. The image stitching algorithm based on aggregated star groups
CN112612714A (zh) 红外目标检测器的安全性测试方法和装置
CN116048682B (zh) 一种终端系统界面布局对比方法及电子设备
CN115170651A (zh) 空间位置的识别方法、装置、系统及存储介质
Yeh et al. GPU acceleration of UAV image splicing using oriented fast and rotated brief combined with PCA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination