CN112364843A - 插拔式航拍图像目标定位检测方法、系统、设备 - Google Patents

插拔式航拍图像目标定位检测方法、系统、设备 Download PDF

Info

Publication number
CN112364843A
CN112364843A CN202110029055.5A CN202110029055A CN112364843A CN 112364843 A CN112364843 A CN 112364843A CN 202110029055 A CN202110029055 A CN 202110029055A CN 112364843 A CN112364843 A CN 112364843A
Authority
CN
China
Prior art keywords
target
aerial image
anchor
category
anchor frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110029055.5A
Other languages
English (en)
Inventor
兰晓松
李书晓
朱承飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110029055.5A priority Critical patent/CN112364843A/zh
Publication of CN112364843A publication Critical patent/CN112364843A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,具体涉及一种插拔式航拍图像目标定位检测方法、系统、设备,旨在解决航拍图像目标定位检测精度、识别精度及效率较低的问题。本方法包括获取待定位检测的航拍图像,作为输入图像;通过预训练的深度神经网络模型获取输入图像中的各目标的类别、中心位置;基于各目标的类别、中心位置,结合预设目标类别‑设定长宽比例的映射关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;将各第二锚框映射至输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。本发明提高了航拍图像目标定位检测精度、识别精度及效率。

Description

插拔式航拍图像目标定位检测方法、系统、设备
技术领域
本发明属于计算机视觉技术领域,具体涉及一种插拔式航拍图像目标定位检测方法、系统、设备。
背景技术
目前主流的目标检测算法主要是基于深度学习模型,大多是针对通用物体的水平检测识别,大概可以分成两大类别:(1)One-Stage目标检测算法,这类检测算法不需要Region Proposal阶段,可以通过一个阶段直接产生物体的类别概率和位置坐标值,比较典型的算法有YOLO、SSD、RetinaNet、CornerNet和CenterNet等(参见文献:“Zou Z, Shi Z,Guo Y, et al. Object detection in 20 years: A survey[J]. arXiv preprintarXiv:1905.05055, 2019.”与文献:“Wu X, Sahoo D, Hoi S C H. Recent advances indeep learning for object detection[J]. Neurocomputing, 2020.”);(2)Two-Stage目标检测算法,这类检测算法将检测问题划分为两个阶段,第一个阶段首先产生候选区域(Region Proposals),包含目标大概的位置信息,然后第二个阶段对候选区域进行分类和位置精修,这类算法的典型代表有R-CNN,Fast R-CNN,Faster R-CNN等。目标检测模型的主要性能指标是检测准确度和速度,其中准确度主要考虑物体的定位以及分类准确度。一般情况下,Two-Stage算法在准确度上有优势,而One-Stage算法在速度上有优势。
近年来涌现出了一批旋转目标检测方法,主要是针对文字或遥感航拍图像,典型数据库为DOTA(参见文献:“Xia G S, Bai X, Ding J, et al. DOTA: A large-scaledataset for object detection in aerial images[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2018: 3974-3983.”),典型算法有RRPN、RoI Transformer、BBAVectors、R3Det、CSL、SCRDet(参见文献:“Yang X,Yang J, Yan J, et al. Scrdet: Towards more robust detection for small,cluttered and rotated objects[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 8232-8241.”)、S2A-Net(参见文献:“Han J,Ding J, Li J, et al. Align Deep Features for Oriented Object Detection[J].arXiv preprint arXiv:2008.09397, 2020.”)等等,但现有算法都很难很好的解决旋转目标检测的几个难点,比如特征的对齐、旋转角度的精确回归,此外,现有算法还存在网络模型复杂、内存和计算资源需求大、建议锚框多且多无效导致的检测效率与精度低问题、多任务训练导致的模型污染目标定位精度低等问题。
发明内容
为了解决现有技术中的上述问题,即为了解决航拍图像目标定位检测精度、识别精度及效率较低的问题,本发明第一方面,提出了一种插拔式航拍图像目标定位检测方法,该方法包括:
步骤S10,获取待定位检测的航拍图像,作为输入图像;
步骤S20,通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
步骤S30,基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
步骤S40,将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
在一些优选的实施方式中,所述深度神经网络模型基于残差模块、第一卷积分支、 第二卷积分支构建;所述第一卷积分支和第二卷积分支均包括一个
Figure 334321DEST_PATH_IMAGE001
卷积层、一个
Figure 689079DEST_PATH_IMAGE002
卷积层;其中,所述第一卷积分支用于生成目标中心点的热力图;所述第二个卷积分 支用于生成目标中心点的偏移图。
在一些优选的实施方式中,“通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置”,其方法为:
提取所述输入图像的特征,并分别通过第一卷积分支、第二卷积分支进行卷积处理,得到各目标的目标中心点的热力图、偏移图;
基于各目标的目标中心点的热力图,通过非极大值抑制方法NMS得到各目标的类别、中心位置;并根据所述目标中心点的偏移图对中心位置进行调整。
在一些优选的实施方式中,所述深度神经网络模型其在训练过程中的损失函数为:
Figure 90717DEST_PATH_IMAGE003
Figure 581742DEST_PATH_IMAGE004
Figure 764461DEST_PATH_IMAGE005
其中,
Figure 340936DEST_PATH_IMAGE006
表示总损失,
Figure 18036DEST_PATH_IMAGE007
表示目标中心热力图损失,
Figure 97988DEST_PATH_IMAGE008
表示目标中心偏移损失,
Figure 717188DEST_PATH_IMAGE009
为 目标中心点个数,
Figure 515379DEST_PATH_IMAGE010
为Focal Loss的超参,
Figure 996171DEST_PATH_IMAGE011
表示检测到的目标中心点置信度,
Figure 665049DEST_PATH_IMAGE012
表示高斯核函数,
Figure 455151DEST_PATH_IMAGE013
表示每个目标类别的所有目标中心点,
Figure 740639DEST_PATH_IMAGE014
为输出步长,
Figure 759541DEST_PATH_IMAGE015
Figure 548506DEST_PATH_IMAGE016
为预 测的中心点局部偏移。
在一些优选的实施方式中,步骤S30中“对各第一锚框进行旋转处理”,其方法为:以各第一锚框的框中心为旋转中心,长边作为X轴,短边作为Y轴,在0-180°范围内每M度旋转一次;M为每一次旋转的角度,为正整数。
本发明的第二方面,提出了一种插拔式航拍图像目标定位检测系统,该系统包括:图像获取模块、类别及位置获取模块、锚框预处理模块、边界框预测模块:
所述图像获取模块,配置为获取待定位检测的航拍图像,作为输入图像;
所述类别及位置获取模块,配置为通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
所述锚框预处理模块,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块,配置为将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
本发明的第三方面,提出了一种航拍图像目标类别识别系统,该系统包括:图像获取模块、类别及位置获取模块;
所述图像获取模块,配置为获取待识别的航拍图像,作为输入图像;
所述类别及位置获取模块,配置为通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
其中,所述深度神经网络模型基于残差模块、第一卷积分支、第二卷积分支构建;所述 第一卷积分支和第二卷积分支均包括一个
Figure 509508DEST_PATH_IMAGE017
卷积层、一个
Figure 16713DEST_PATH_IMAGE018
卷积层;其中,所述第 一卷积分支用于生成目标中心点的热力图;所述第二个卷积分支用于生成目标中心点的偏 移图。
本发明的第四方面,提出了一种航拍图像目标定位检测系统,该系统包括:提取模块、锚框预处理模块、边界框预测模块;
所述提取模块,配置为获取待目标定位检测的航拍图像,并提取该航拍图像中各目标的类别、中心位置;
所述锚框预处理模块,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块,配置为将各第二锚框映射至所述航拍图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
本发明的第五方面,提出了一种插拔式航拍图像目标定位检测设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的插拔式航拍图像目标定位检测方法。
本发明的第六方面,提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的插拔式航拍图像目标定位检测方法。
本发明的有益效果:
本发明提高了航拍图像目标定位检测精度、识别精度及效率。
(1)本发明深度神经网络模型只对目标中心位置及目标类别进行预测,没有其他回归预测分支,最大化的避免了模型污染以及特征不对齐造成的精度损失,也提高了预测效率,经实验验证,所涉及的模型较CenterNet等多任务回归模型(同时回归目标宽高等)可大大提升了目标中心点位置定位及类别识别的精度,较目前DOTA数据库竞赛中最好算法S2ANet的目标中心位置及类别预测精度都要高,且速度快。
(2)本发明基于深度神经网络模型获取的目标中心点以及类别生成锚框,并结合训练中目标的统计信息及目标类别信息,生成不同比例大小的锚框,不同于额外的RPN(Region Proposal Networks)网络提供的建议锚框,也不同于特征图每个像素遍历生成的密集锚框,不存在大量无效锚框问题,且锚框对感知的不同类别具有特定的统计设定,更接近真实框更容易实现精细回归。
(3)本发明中的深度神经网络模型、精细回归网络模块可针对不同的任务灵活“插拔”组合,充分有效地利用有限的无人机机载计算资源。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的插拔式航拍图像目标定位检测方法的流程示意图;
图2是本发明一种实施例的插拔式航拍图像目标定位检测系统的结构示意图;
图3是本发明一种实施例的深度神经网络模型、精细回归网络模块的训练过程示意图;
图4是本发明一种实施例的航拍图像目标类别识别系统的结构示意图;
图5是本发明一种实施例的航拍图像目标定位检测系统的结构示意图;
图6是本发明一种实施例的通过深度神经网络模型获取的识别结果的示意图;
图7是本发明一种实施例的通过精细回归网络模块获取的检测结果的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明第一实施例的一种插拔式航拍图像目标定位检测方法,如图1所示,包括以下步骤:
步骤S10,获取待定位检测的航拍图像,作为输入图像;
步骤S20,通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
步骤S30,基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
步骤S40,将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
为了更清晰地对本发明插拔式航拍图像目标定位检测方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述实施例中,先对深度神经网络模型、精细回归网络模块的训练过程进行详述,再对通过插拔式航拍图像目标定位检测方法获取目标的预测边界框的过程进行详述。
1、深度神经网络模型、精细回归网络模块的训练过程,如图3所示
步骤A10,深度神经网络模型训练
在本实施例中,利用航拍数据库训练深度神经网络模型。其中,深度神经网络模型主要 包括BackBone部分(神经模型)和Neck部分,其中BackBone部分为残差模块,可以使用但不 限于ResNet、DLA(Deep Layer Aggregation)、Hourglass等网络,Neck部分包含两个卷积分 支,分别作为第一卷积分支、第二卷积分支,每个分支都是
Figure 88574DEST_PATH_IMAGE017
卷积接
Figure 11007DEST_PATH_IMAGE018
卷积,第一卷 积分支生成目标中心点的热力图(Heatmap P)为
Figure 611752DEST_PATH_IMAGE019
大小的输出,其中
Figure 871832DEST_PATH_IMAGE020
Figure 481805DEST_PATH_IMAGE021
分别 为最后一级特征图的宽和高,C为目标类别数目,通过NMS可得到目标的类别及中心点,第二 卷积分支卷积生成目标中心点的偏移图(Offset O)为
Figure 245362DEST_PATH_IMAGE022
大小的输出,对目标中 心点进行精细调整。
利用航拍数据库中的航拍图像以及标注的监督信息(目标中心点位置坐标及目标 类别)对深度卷积神经网络模型进行训练,训练时 的损失函数包括目标中心热图损失
Figure 33320DEST_PATH_IMAGE023
及目标中心偏移损失
Figure 780696DEST_PATH_IMAGE024
,即总的损失
Figure 194360DEST_PATH_IMAGE025
为:
Figure 812423DEST_PATH_IMAGE026
(1)
目标中心热图损失
Figure 36862DEST_PATH_IMAGE023
使用基于Focal Loss的像素级逻辑回归损失,如公式(2)所示:
Figure 5956DEST_PATH_IMAGE027
(2)
其中,预测
Figure 957731DEST_PATH_IMAGE028
对应检测到的目标中心点,预测
Figure 961459DEST_PATH_IMAGE029
对应背景,训练时对 于标注的每个目标类别
Figure 74909DEST_PATH_IMAGE030
的所有目标中心点
Figure 282030DEST_PATH_IMAGE031
,计算一个低分辨率的近似
Figure 37497DEST_PATH_IMAGE032
(R 为输出步长),然后使用Gaussian(高斯)核函数
Figure 895731DEST_PATH_IMAGE033
将标注的 目标中心点生成到热力图
Figure 445661DEST_PATH_IMAGE034
中,
Figure 137149DEST_PATH_IMAGE035
为目标中心点个数,
Figure 430727DEST_PATH_IMAGE036
为Focal Loss 的超参,
Figure 143468DEST_PATH_IMAGE037
Figure 129879DEST_PATH_IMAGE038
表示
Figure 311593DEST_PATH_IMAGE039
对应的坐标值。
目标中心偏移损失主要用于解决在低分辨率上离散化造成的精度损失,如公式(3)所示:
Figure 143282DEST_PATH_IMAGE040
(3)
其中,
Figure 710530DEST_PATH_IMAGE041
为预测的中心局部偏移,
Figure 867842DEST_PATH_IMAGE042
Figure 786119DEST_PATH_IMAGE043
训练后的深度神经网络模型可用于无人机目标快速定位打击等任务。
步骤A20,精细回归网络模块训练
在本实施例中,精细回归网络模块(包括一个特征提取网络、感兴趣区域池化层ROIPooling、全连接层FC256)可插于深度神经网络模型之后,实现快速的回归出目标的预测边界框。本发明利用目标中心点、目标类别、目标旋转框标注信息及训练图像,训练一个单独的精细回归网络模块。现有的算法生成锚框都是遍历整个特征图上的每个像素位置,对每个像素位置生成设定的几种比例、大小的锚框,生成的锚框极多而且对不同类别的目标生成锚框时并不区分,导致速度大大下降且有效锚框少,本发明训练时只在目标标注的中心点位置,利用训练集中目标的统计信息及目标标注的类别信息,对不同的目标类别生成特定比例不同大小的类别感知适应锚框。即基于深度神经网络模型获取的各目标的类别、中心位置,结合预设的目标类别-设定长宽比例的映射关系,生成不同比例大小的锚框(或简称为类别感知适应锚框),作为第一锚框。如图3中的大型交通工具(Large Vehicle)和小型交通工具(Small Vehicle)生成的锚框具有相应特定的长宽比例,不同于以往算法,不需要对每个像素位置生成多种不同长宽比例的锚框。
对生成的类别感知适应锚框进行旋转,生成类别感知适应旋转锚框,作为第二锚 框。具体为:以类别感知适应锚框中心为旋转中心长边作为X轴短边作为Y轴,0-180°范围内 可每M度旋转一次生成不同方向的类别感知适应旋转锚框(因锚框具有类别感知特性,不在 需要对每个点生成多种比例的锚框,只需对特定点特定类别生成特定比例锚框,锚框数大 大降低。本发明中,M优选设置为10,在其他实施例中还可设定提取更多更精细的旋转框,比 如每隔5°旋转生成36个不同方向的类别感知适应旋转锚框),提取第二锚框所对应的网络 特征图(即将第二锚框映射至航拍图像的特征图中)并输入至ROIPooling层进行池化 (Pooling),图3中ROIPooling优选采用
Figure 906653DEST_PATH_IMAGE017
,实际使用时并不限于
Figure 593986DEST_PATH_IMAGE017
,还可设计为
Figure 922200DEST_PATH_IMAGE044
Figure 62194DEST_PATH_IMAGE045
的ROIPooling等,ROIPooling后接全连接层FC-256进行回归,实现对最终目 标旋转框(即边界框)的精细回归。回归后的边界框可支撑更多更高要求的任务。
本发明中的深度神经网络模型、精细回归网络模块耦合度低,对不同的任务可灵活配置,即可以通过深度神经网络模型实现图像类别的识别,也可以通过单独通过训练好的精细回归网络模块实现边界框的预测。
2、插拔式航拍图像目标定位检测方法
步骤S10,获取待定位检测的航拍图像,作为输入图像;
在本实施例中,获取待定位检测的航拍图像。
步骤S20,通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
在本实施例中,通过上述训练好的深度神经网络模型提取所述输入图像的特征,并分别通过第一卷积分支、第二卷积分支进行卷积处理,得到各目标的目标中心点的热力图、偏移图。
基于目标中心点的热力图,通过非极大值抑制方法NMS得到各目标的类别、中心位置,并根据目标中心点的偏移图对中心位置进行调整。对航拍图相中各目标的类别及中心位置的识别结果,如图6所示。
步骤S30,提取所述输入图像的特征;基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
在本实施例中,基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框。以各第一锚框的框中心为旋转中心,长边作为X轴,短边作为Y轴,在0-180°范围内每M度旋转一次;M为每一次旋转的角度,为正整数。
步骤S40,将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
在本实施例中,提取输入图像的特征图,将各第二锚框映射至输入图像的特征图中,并通过ROIPooling和FC-256层进行池化与回归处理,得到各目标对应的预测边界框。获取航拍图像各目标的预测边界框的预测结果,如图7所示。
本发明第二实施例的一种插拔式航拍图像目标定位检测系统,如图2所示,该系统包括:图像获取模块101、类别及位置获取模块102、锚框预处理模块103、边界框预测模块104:
所述图像获取模块101,配置为获取待定位检测的航拍图像,作为输入图像;
所述类别及位置获取模块102,配置为通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
所述锚框预处理模块103,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块104,配置为将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
本发明第三实施例的一种航拍图像目标类别识别系统,如图4所示,该系统包括:图像获取模块201、类别及位置获取模块202;
所述图像获取模块201,配置为获取待识别的航拍图像,作为输入图像;
所述类别及位置获取模块202,配置为通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
其中,所述深度神经网络模型基于残差模块、第一卷积分支、第二卷积分支构建;所述 第一卷积分支和第二卷积分支均包括一个
Figure 501266DEST_PATH_IMAGE017
卷积层、一个
Figure 793838DEST_PATH_IMAGE018
卷积层;其中,所述第 一卷积分支用于生成目标中心点的热力图;所述第二个卷积分支用于生成目标中心点的偏 移图。
本发明第四实施例的一种航拍图像目标定位检测系统,如图5所示,该系统包括:提取模块301、锚框预处理模块302、边界框预测模块303;
所述提取模块301,配置为获取待目标定位检测的航拍图像,并提取该航拍图像中各目标的类别、中心位置;
所述锚框预处理模块302,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块303,配置为将各第二锚框映射至所述航拍图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的插拔式航拍图像目标定位检测系统/航拍图像目标类别识别系统/航拍图像目标定位检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第五实施例的一种插拔式航拍图像目标定位检测设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的插拔式航拍图像目标定位检测方法。
本发明的第六实施例的一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的插拔式航拍图像目标定位检测方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种插拔式航拍图像目标定位检测方法,其特征在于,该方法包括以下步骤:
步骤S10,获取待定位检测的航拍图像,作为输入图像;
步骤S20,通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
步骤S30,基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
步骤S40,将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
2.根据权利要求1所述的插拔式航拍图像目标定位检测方法,其特征在于,所述深度神 经网络模型基于残差模块、第一卷积分支、第二卷积分支构建;所述第一卷积分支和第二卷 积分支均包括一个
Figure 138671DEST_PATH_IMAGE001
卷积层、一个
Figure 765961DEST_PATH_IMAGE002
卷积层;其中,所述第一卷积分支用于生成目 标中心点的热力图;所述第二个卷积分支用于生成目标中心点的偏移图。
3.根据权利要求2所述的插拔式航拍图像目标定位检测方法,其特征在于,“通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置”,其方法为:
提取所述输入图像的特征,并分别通过第一卷积分支、第二卷积分支进行卷积处理,得到各目标的目标中心点的热力图、偏移图;
基于各目标的目标中心点的热力图,通过非极大值抑制方法NMS得到各目标的类别、中心位置;并根据所述目标中心点的偏移图对中心位置进行调整。
4.根据权利要求3所述的插拔式航拍图像目标定位检测方法,其特征在于,所述深度神经网络模型其在训练过程中的损失函数为:
Figure DEST_PATH_IMAGE003
Figure 274303DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中,
Figure 483698DEST_PATH_IMAGE006
表示总损失,
Figure DEST_PATH_IMAGE007
表示目标中心热力图损失,
Figure 684873DEST_PATH_IMAGE008
表示目标中心偏移损失,
Figure 550191DEST_PATH_IMAGE009
为 目标中心点个数,
Figure 331066DEST_PATH_IMAGE010
为Focal Loss的超参,
Figure 50760DEST_PATH_IMAGE011
表示检测到的目标中心点置信度,
Figure 891677DEST_PATH_IMAGE012
表示高斯核函数,
Figure 493560DEST_PATH_IMAGE013
表示每个目标类别的所有目标中心点,
Figure 828857DEST_PATH_IMAGE014
为输出步长,
Figure 199796DEST_PATH_IMAGE015
Figure 477193DEST_PATH_IMAGE016
为预 测的中心点局部偏移。
5.根据权利要求1所述的插拔式航拍图像目标定位检测方法,其特征在于,步骤S30中“对各第一锚框进行旋转处理”,其方法为:以各第一锚框的框中心为旋转中心,长边作为X轴,短边作为Y轴,在0-180°范围内每M度旋转一次;M为每一次旋转的角度,为正整数。
6.一种插拔式航拍图像目标定位检测系统,其特征在于,该系统包括:图像获取模块、类别及位置获取模块、锚框预处理模块、边界框预测模块;
所述图像获取模块,配置为获取待定位检测的航拍图像,作为输入图像;
所述类别及位置获取模块,配置为通过预训练的深度神经网络模型获取所述输入图像中的各目标的类别、中心位置;
所述锚框预处理模块,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块,配置为将各第二锚框映射至所述输入图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
7.一种航拍图像目标定位检测系统,其特征在于,该系统包括:提取模块、锚框预处理模块、边界框预测模块;
所述提取模块,配置为获取待目标定位检测的航拍图像,并提取该航拍图像中各目标的类别、中心位置;
所述锚框预处理模块,配置为基于各目标的类别、中心位置,结合预设第一关系,生成不同比例大小的锚框,作为第一锚框;并对各第一锚框进行旋转处理,得到对应的第二锚框;所述预设的第一关系为目标类别-设定长宽比例的映射关系;
所述边界框预测模块,配置为将各第二锚框映射至所述航拍图像提取的特征图中,并通过感兴趣区域池化与回归处理,得到各目标对应的预测边界框。
8.一种插拔式航拍图像目标定位检测设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-5任一项所述的插拔式航拍图像目标定位检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-5任一项所述的插拔式航拍图像目标定位检测方法。
CN202110029055.5A 2021-01-11 2021-01-11 插拔式航拍图像目标定位检测方法、系统、设备 Pending CN112364843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110029055.5A CN112364843A (zh) 2021-01-11 2021-01-11 插拔式航拍图像目标定位检测方法、系统、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110029055.5A CN112364843A (zh) 2021-01-11 2021-01-11 插拔式航拍图像目标定位检测方法、系统、设备

Publications (1)

Publication Number Publication Date
CN112364843A true CN112364843A (zh) 2021-02-12

Family

ID=74534736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110029055.5A Pending CN112364843A (zh) 2021-01-11 2021-01-11 插拔式航拍图像目标定位检测方法、系统、设备

Country Status (1)

Country Link
CN (1) CN112364843A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861744A (zh) * 2021-02-20 2021-05-28 哈尔滨工程大学 一种基于旋转锚点聚类的遥感图像目标快速检测方法
CN113065400A (zh) * 2021-03-04 2021-07-02 国网河北省电力有限公司 基于无锚框两阶段网络检测发票印章的方法及装置
CN113177460A (zh) * 2021-04-25 2021-07-27 台州智必安科技有限责任公司 基于卷积神经网络的双分支Anchor Free人脸检测方法及系统
CN113743814A (zh) * 2021-09-13 2021-12-03 上海联影医疗科技股份有限公司 医学影像质量评价和处理方法、装置、设备和介质
CN116337087A (zh) * 2023-05-30 2023-06-27 广州健新科技有限责任公司 一种基于ais与摄像头的船只定位方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559504A (zh) * 2013-11-04 2014-02-05 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
CN111814776A (zh) * 2020-09-10 2020-10-23 平安国际智慧城市科技股份有限公司 一种图像处理方法、设备、服务器及存储介质
CN112069910A (zh) * 2020-08-11 2020-12-11 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN112115911A (zh) * 2020-09-28 2020-12-22 安徽大学 一种基于深度学习的轻量型sar图像目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559504A (zh) * 2013-11-04 2014-02-05 北京京东尚科信息技术有限公司 图像目标类别识别方法及装置
CN112069910A (zh) * 2020-08-11 2020-12-11 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN111814776A (zh) * 2020-09-10 2020-10-23 平安国际智慧城市科技股份有限公司 一种图像处理方法、设备、服务器及存储介质
CN112115911A (zh) * 2020-09-28 2020-12-22 安徽大学 一种基于深度学习的轻量型sar图像目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AI算法与图像处理: "ODTK:来自NVIDIA的旋转框物体检测", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1744937》 *
GUI-SONG XIA等: "DOTA: A Large-scale Dataset for Object Detection in Aerial Images", 《ARXIV》 *
YAN ZHAO等: "Attention Receptive Pyramid Network for Ship Detection in SAR Images", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861744A (zh) * 2021-02-20 2021-05-28 哈尔滨工程大学 一种基于旋转锚点聚类的遥感图像目标快速检测方法
CN112861744B (zh) * 2021-02-20 2022-06-17 哈尔滨工程大学 一种基于旋转锚点聚类的遥感图像目标快速检测方法
CN113065400A (zh) * 2021-03-04 2021-07-02 国网河北省电力有限公司 基于无锚框两阶段网络检测发票印章的方法及装置
CN113177460A (zh) * 2021-04-25 2021-07-27 台州智必安科技有限责任公司 基于卷积神经网络的双分支Anchor Free人脸检测方法及系统
CN113743814A (zh) * 2021-09-13 2021-12-03 上海联影医疗科技股份有限公司 医学影像质量评价和处理方法、装置、设备和介质
CN116337087A (zh) * 2023-05-30 2023-06-27 广州健新科技有限责任公司 一种基于ais与摄像头的船只定位方法及系统

Similar Documents

Publication Publication Date Title
CN111222395B (zh) 目标检测方法、装置与电子设备
CN112364843A (zh) 插拔式航拍图像目标定位检测方法、系统、设备
US11328401B2 (en) Stationary object detecting method, apparatus and electronic device
Marcu et al. SafeUAV: Learning to estimate depth and safe landing areas for UAVs from synthetic data
CN110956137A (zh) 点云数据的目标检测方法、系统及介质
CN115546630A (zh) 基于遥感影像特征目标检测的工地提取方法和系统
CN111160202A (zh) 基于ar设备的身份核验方法、装置、设备及存储介质
CN115690765B (zh) 车牌识别方法、装置、电子设备、可读介质和程序产品
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN111881984A (zh) 一种基于深度学习的目标检测方法和装置
CN115493612A (zh) 一种基于视觉slam的车辆定位方法及装置
CN115100741A (zh) 一种点云行人距离风险检测方法、系统、设备和介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN116152576B (zh) 图像处理方法、装置、设备及存储介质
CN114556425A (zh) 定位的方法、设备、无人机和存储介质
CN114627438A (zh) 目标检测模型生成方法、目标检测方法、设备及介质
CN111104965A (zh) 车辆目标识别的方法及装置
CN114429631B (zh) 三维对象检测方法、装置、设备以及存储介质
CN116052097A (zh) 一种地图要素检测方法、装置、电子设备和存储介质
CN112651351B (zh) 一种数据处理的方法和装置
CN113869163B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN112818837B (zh) 一种基于姿态校正和困难样本感知的航拍车辆重识别方法
CN115527187A (zh) 一种障碍物的分类方法以及装置
CN112766068A (zh) 一种基于网格化标注的车辆检测方法及系统
Marine et al. Pothole Detection on Urban Roads Using YOLOv8

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212