CN113033644B - 一种基于凸包特征自适应的旋转密集目标检测方法 - Google Patents
一种基于凸包特征自适应的旋转密集目标检测方法 Download PDFInfo
- Publication number
- CN113033644B CN113033644B CN202110290780.8A CN202110290780A CN113033644B CN 113033644 B CN113033644 B CN 113033644B CN 202110290780 A CN202110290780 A CN 202110290780A CN 113033644 B CN113033644 B CN 113033644B
- Authority
- CN
- China
- Prior art keywords
- convex hull
- feature
- characteristic
- convex
- dense
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 230000003044 adaptive effect Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 3
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/64—Analysis of geometric attributes of convexity or concavity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于凸包特征自适应的旋转密集目标检测方法,所述方法包括训练阶段和测试阶段,其中,所述训练阶段包括以下步骤:步骤1,获得训练图像的特征图;步骤2,利用特征图获得候选凸包分类表征;步骤3,对凸包分类表征进行优化,实现凸包生成;步骤4,获得不同目标的候选凸包集;步骤5,实现凸包与目标之间的自适应匹配。本发明公开的基于凸包特征自适应的旋转密集目标检测方法,实现了最优特征自适应,缓解了特征混叠;对遥感(航空)以及密集自然场景的目标检测具有应用价值。
Description
技术领域
本发明属于目标检测与计算机视觉技术领域,具体涉及一种基于凸包特征自适应的旋转密集检测方法,通过对目标进行重新建模实现更简单有效的旋转且密集的检测。
背景技术
近年来,视觉目标检测取得了巨大进步,主要在于深度网络具有丰富的特征表征和大规模数据集,可以进行预训练。然而大多数检测器和网络面临一些问题,如航空图像中的目标是在任意方向的,并且在训练数据集中有不同的布局,当对象呈现密集分布时,问题会更加严重,从而导致特征的接收场在目标之间出现特征混叠问题。
现有技术中,目标检测的一种解决方案是特征或者候选框的增强,从而为检测器训练提供了多方向的特征,但是这种直观的解决方案存在计算复杂度突增和错误检测的风险;另一种解决方案是定义ROI变换器,将空间变换应用于ROI上,并在旋转目标的监督下学习参数,从而使之能够根据目标特征来自适应排布特征的接收场,然而如何使特征网格适应任意布局的目标仍然是未解决的问题,同时也会导致特征混叠,尤其是在目标密集排布的情况下。
因此,有必要提供一种能够有效解决旋转目标的定位问题及密集目标的特征混叠问题的方法。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种基于凸包特征自适应的旋转密集目标检测方法,其主要目的是调整位于规则卷积网格上的特征以适应不规则布局的目标。具体地,将图像中旋转且密集的目标进行凸包特征建模,利用凸包的分类和定位损失并引入自适应抗混叠算法获得具有强表征的、无特征混叠的凸包样本进行网络训练,从而能够在测试数据上实现良好的目标检测效果,有效地解决了旋转目标的定位问题以及密集目标的特征混叠问题,对遥感(航空)以及密集自然场景的目标检测具有应用价值,从而完成了本发明。
具体来说,本发明的目的在于提供以下方面:
第一方面,提供了一种基于凸包特征自适应的旋转密集目标检测方法,所述方法包括训练阶段和测试阶段,
其中,所述训练阶段包括以下步骤:
步骤1,获得训练图像的特征图;
步骤2,利用特征图获得候选凸包分类表征;
步骤3,对凸包分类表征进行优化,实现凸包生成;
步骤4,获得不同目标的候选凸包集;
步骤5,实现凸包与目标之间的自适应匹配。
第二方面,提供了一种计算机可读存储介质,存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
本发明所具有的有益效果包括:
(1)本发明提供的基于凸包特征自适应的旋转密集目标检测方法,通过可学习的特性配置来表示不规则形状的目标,能够对目标进行准确分类;
(2)本发明提供的基于凸包特征自适应的旋转密集目标检测方法,通过结合CIoU和特征抗混叠策略,包括定义集合内/外抗混叠系数和梯度一致性划分原则,定义了一种系统的方法来实现检测旋转且密集的目标,对遥感(航空)以及密集自然场景的目标检测具有应用价值;
(3)本发明提供的基于凸包特征自适应的旋转密集目标检测方法,通过对相邻目标共享的凸包进行加权,实现了最优特征自适应,缓解了特征混叠;
(4)本发明提供的基于凸包特征自适应的旋转密集目标检测方法,在测试阶段不进行凸包集的构建和自适应,保证了检测方法的简易性和效率。
附图说明
图1示出根据本发明一种优选实施方式的基于凸包特征自适应的旋转密集目标检测方法的结构流程图;
图2示出根据本发明一种优选实施方式的凸包生成和CIoU的示意图;
图3示出根据本发明一种优选实施方式的凸包集构建流程图;
图4示出根据本发明一种优选实施方式的梯度一致性原则划分原理图;
图5示出本发明实施例1中凸包表征随训练的演变图;
图6示出本发明实施例1中抗混叠算法的特征响应图;
图7示出本发明实施例1中DOTA数据集上的检测结果图;
图8示出本发明实施例1中SKU110K-R数据集上的检测结果图;
图9示出本发明实施例1中HRSC2016数据集上的检测结果图;
图10示出实验例1中各部分的分析折线图,其中,(a)、(b)(c)、(d)分别表示CIoU阈值选择、特征自适应影响、抗混叠系数γ选择和凸包集大小I选择的分析折线图。
具体实施方式
下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本发明的第一方面,提供了一种基于凸包特征自适应的旋转密集目标检测方法,所述方法包括训练阶段和测试阶段,
其中,如图1所示,所述训练阶段包括以下步骤:
步骤1,获得训练图像的特征图;
步骤2,利用特征图获得候选凸包分类表征;
步骤3,对凸包分类表征进行优化,实现凸包生成;
步骤4,获得不同目标的候选凸包集;
步骤5,实现凸包与目标之间的自适应匹配。
以下进一步描述所述训练阶段的步骤:
步骤1,获得训练图像的特征图。
根据本发明一种优选的实施方式,利用卷积神经网络基网和特征金字塔网络(Feature Pyramid Network,FPN)对训练图像提取特征图。
其中,所述卷积神经网络基网可以为现有技术中常用的网络,如Resnet50、ResNet152等。
优选地,利用基网Resnet50对训练图像进行特征提取,其自下而上的stage2、stage3、stage4和stage5的输出结果输入特征金字塔网络(FPN),获得自上而下的多尺度融合特征图P6、P5、P4、P3和P2,特征维度均为256,尺度为训练图像尺寸的1/128、1/64、1/32、1/16和1/8;其中,每层特征图分别利用3层3×3卷积层获得其分类和回归特征,维度为256。
在进一步优选的实施方式中,所述训练图像具有旋转框标注。
步骤2,利用特征图获得候选凸包分类表征。
其中,步骤2包括以下子步骤:
步骤2-1,获得特征图每个空间位置的特征点集。
根据本发明一种优选的实施方式,通过卷积网络对图像特征进行预测,获得卷积特征图上每个位置的凸包表征采样偏移,
优选地,利用3×3卷积层对图像特征进行特征提取。
本发明人发现,凸包可以很好地表征目标的外观,并用于准确的目标分类。
其中,对于特征图X上的每一个位置(xi,yi)初始化其凸包表征如下所示:
在获得特征图的采样偏移特征图后,将采样偏移与特征图的空间先验位置结合,获得特征图上每个空间位置的特征点集。
步骤2-2,获得特征点集的候选凸包表征。
优选地,采用Jarvis算法(平面凸包算法)获得特征点集的最小外界凸多边形,即表示候选凸包表征。
根据本发明一种优选的实施方式,特征图上候选凸包的空间表征如下式所示:
本发明人考虑到,凸包的更新可能会破坏凸包的形状,因此,
在进一步优选的实施方式中,引入Jarvis算法Γ获得更新后特征点集的最小外接凸多边形,从而生成最终的凸包表征,即特征点集的候选凸包表征,如下所示:
具体地,Jarvis算法从特征点集的最左边点开始,以逆时针方向旋转保持凸包内的特征点在一个方向。每次迭代当前点时,该算法通过检查其余特征点在当前点的方向来选择下一个迭代的点,具体的做法是:当角度最大时,选择这个点作为当前点;完成所有点后,当下一个点是起点(最左边点)时,停止算法。所选择的特征点即为凸包边界点,其逆时针连线即为凸包表征。
步骤2-3,获得候选凸包表征的分类特征。
根据本发明一种优选的实施方式,利用凸包表征内采样点集对应空间位置的特征进行加权,以获得其分类特征。
在进一步优选的实施方式中,每个凸包表征的分类特征可通过可变卷积网络(Deformable Convolutional Network,DCN)进行提取,获得用于凸包分类的特征,再通过卷积层获得其最终的分类分数。
优选地,每个凸包表征的采样点偏移输入3×3的DCN中并对分类特征进行特征提取;
利用3×3卷积层获得最终的分类分数。
其中,Yj为凸包表征的二值分类标签,FL表示FocalLoss损失函数。
所述FocalLoss损失函数参照文献“Tsung-Yi Lin,PriyaGoyal,RossB.Girshick,KaimingHe,and Piotr Doll′ar.Focal loss for dense objectdetection.InIEEE ICCV,pages 2999–3007,2017.”中所述。
步骤3,对凸包分类表征进行优化,实现凸包生成。
在本发明中,如图2所示,采用匹配策略优化凸包分类表征,实现凸包生成。
优选地,步骤3包括以下子步骤:
步骤3-1,将目标映射至对应尺度的特征层上。
在本发明中,优选通过下述尺度映射公式将目标映射至对应尺度的特征层上:
步骤3-2,选取不同目标最接近的候选凸包表征。
其中,利用中心距离计算出不同目标最接近的候选凸包表征。
优选地,选取凸包中心距离该目标中心最近的凸包作为训练样本。
步骤3-3,利用凸包交并比交CIoU(Convex-hull Interaction-of-Union)损失对凸包表征进行优化。
在本发明中,基于每一个凸包的预测,优选采用下式获得定位损失:
在上式中,CIoU不仅可以度量凸包和目标框的距离,而且当CIoU=0时,其为连续可导的。
本发明所述的方法,通过预测由目标定位损失引起的特征点偏移来生成凸包。
根据本发明一种优选的实施方式,步骤3中,凸包生成的训练损失通过下式获得:
步骤4,获得不同目标的候选凸包集。
在本发明中,如图3所示,优选利用CIoU匹配策略获得不同目标的候选凸包表征,称为凸包集,其中,凸包集与目标是一一对应的,从而有利于凸包自适应优化。
根据本发明一种优选的实施方式,将步骤3生成的凸包与所有目标进行CIoU计算,其中,CIoU大于阈值的凸包为对应目标的正例凸包,其他则为反例凸包,即一个凸包集中含有许多正例凸包表征,且一个凸包集仅对应一个目标,未分配到凸包集的凸包表征为反例。
基于上述,一个目标将对应多个正例凸包,在本发明中将其视为对应目标的凸包集,并且凸包集和目标一一对应。
在进一步优选的实施方式中,所述阈值为0.2。
在本发明中,基于目标定位和分类损失的驱动,利用背景和其他对象对目标进行分类,对凸包进行细化,使其覆盖整个对象范围。同时,为每个目标构造了一个凸包集,从而可以联合优化目标周围的特征。
步骤5,实现凸包与目标之间的自适应匹配。
在本发明中,优选利用自适应特征分配的抗混叠算法实现凸包与目标之间的自适应匹配,优选地,
所述步骤5包括以下子步骤:
步骤5-1,获得一个凸包集中所有的凸包表征的分类损失和定位损失,并加和排序,对凸包表征进行加权,确定其集合内抗混叠系数。
其中,λ为实验的正则化系数。
在进一步优选的实施方式中,一个凸包集Sj的损失通过下式获得:
在本发明中,凸包表征在凸包集中的抗混叠系数ωi可直接利用高斯进行建模,即利用累积误差函数获得,其代表了拥有小的损失的凸包表征则会拥有大的抗混叠系数。
步骤5-2,将抗混叠系数低的凸包表征从凸包集中剔除,并视为反例,划分至反例凸包集S_。
根据本发明一种优选的实施方式,如图4所示,利用梯度一致性原则将抗混叠系数低的凸包表征从凸包集中剔除,
优选地,剔除的条件是凸包表征的更新梯度与凸包集的更新梯度相反。
在进一步优选的实施方式中,所述将抗混叠系数低的凸包表征从凸包集中剔除按照下述过程进行:
经过此步骤,获得凸包集内抗混叠系数高的凸包(即正例凸包)用于训练。
步骤5-3,获得正例凸包的集合外抗混叠系数。
本发明人研究发现,经过上述步骤获得的凸包可能仍存在集合外特征混叠,因此,根据本发明一种优选的实施方式,优选通过下式获得正例凸包的集合外抗混叠系数:
步骤5-4,根据集合内/外的抗混叠系数,对正例损失加权并进行联合优化。
在本发明中,上式是通过增加集合外抗混叠系数获得到的更新后的凸包集合损失。
根据本发明一种优选的实施方式,凸包与目标之间的自适应匹配的训练损失通过下式获得:
其中,S_表示反例凸包集。
其中,上述凸包与目标之间的自适应匹配的训练损失是正例损失结合反例损失获得的总损失。
在本发明中,为了使凸包适应对象,在梯度一致性的原则指导下定义了一种凸包集的划分策略,同时通过对相邻目标共享的凸包进行加权,实现了最优特征自适应,缓解了特征混叠。
根据本发明一种优选的实施方式,所述训练阶段还包括步骤6,更新网络参数,获得训练收敛的网络模型。
其中,通过对整个网络进行梯度反向传播,并更新网络参数,直至网络收敛。
根据本发明一种优选的实施方式,所述基于凸包特征自适应的旋转密集目标检测方法的测试阶段,将训练得到的网络模型直接应用于旋转密集的数据集中以验证模型的有效性。
其中,在测试阶段,为了简单和高效,不再引入凸包集以及凸包自适应的算法,而是直接通过网络预测得到预测结果。
在进一步优选的实施方式中,所述测试阶段的预测结果通过非极大值抑制算法(Non-Maximum Suppress,NMS)删去重复的检测框,以获得最终检测结果。
本发明所述的方法,在测试阶段不进行凸包集的构建和自适应,有利于提高检测效率。
本发明提供的基于凸包特征自适应的旋转密集目标检测方法,将图像中旋转且密集的目标进行凸包特征建模,利用凸包的分类和定位损失并引入自适应抗混叠算法获得具有强表征的、无特征混叠的凸包样本进行网络训练,从而能够在测试数据上实现良好的目标检测效果。通过对目标进行的自适应的凸包建模,有效地解决了旋转目标的定位问题以及密集目标的特征混叠问题,对遥感(航空)以及密集自然场景的目标检测具有应用价值。
本发明还提供了一种计算机可读存储介质,存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
本发明中所述的基于凸包特征自适应的旋转密集目标检测方法可借助软件加必需的通用硬件平台的方式来实现,所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
实施例
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
实施例1
1、数据集
本实施例在常用的DOTA、SKU110K-R和HRSC2016数据集上进行评估。
DOTA数据集是为航空场景中目标设置的,具有2,806幅图像和来自远程化平台的15个目标类别;目标有不同的比例、方向和布局;图像大小在800×800到4000×4000像素之间;目标由旋转框标注,每个框有四个顶点。一半的图像被随机选择用于训练,1/6用于验证,1/3用于测试。
SKU110K-R是由SKU110K进行六个角度(-45度,-30度,-15度,15度,30度,-45度)数据增强并重新标注获得的。SKU110K包括11,762张来自超市的图像,其中有1,733,678个不同尺度、不同方向、不同光照条件和拥挤程度的目标。其中8,233张图像用于训练,584张用于验证,2,941张用于测试。
HRSC2016数据集包含两个场景的图像,包括海上的船只和近海的船只。所有的图像都是从六个著名的港口收集的。图像大小从300×300到1500×900不等。训练集、验证集和测试集分别为436幅图像、181幅图像和444幅图像。
2、性能评测准则
对于DOTA和HRSC2016采用AP50(Average Precision 50%)指标来进行性能评测。而对于SKU110K-R采用mAP度量标准(由IoU=0.5:0.05:0.95的平均AP加权),召回率AR300的定义为一张图像中检测300目标的情况下的目标的召回率。
其中,AP50参照文献“Mark Everingham,Luc Van Gool,ChristopherK.I.Williams,John M.Winn,and Andrew Zisserman.The pascal visual objectclasses(VOC)challenge.Int.J.Comput.Vis.,pages 303–338,2010.”中所述;
mAP参照文献“Tsung-Yi Lin,Michael Maire,Serge J.Belongie,James Hays,Pietro Perona,Deva Ramanan,Piotr Doll′ar,and C.Lawrence Zitnick.MicrosoftCOCO:common objects in context.In ECCV,pages 740–755,2014.”中所述。
3、结果与分析
本实施例中采用Resnet152作为基网,分别在DOTA、SKU110K-R和HRSC2016三个数据集上进行学习和评估,并与其他方法进行对比,结果分别如表1、2、3及图7~9所示。
表1 DOTA数据集的测试性能
表2 SKU110K-R数据集的测试性能
其中,AP75参照文献“Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Doll′ar,and C LawrenceZitnick.Microsoft coco:Common objects in context.In European conference oncomputer vision,pages 740–755.Springer,2014.”中所述。
AR300参照文献“Eran Goldman,Roei Herzig,Aviv Eisenschtat,JacobGoldberger,and Tal Hassner.Precise detection in densely packed scenes.InProceedings ofthe IEEE Conference on ComputerVision and Pattern Recognition,pages 5227–5236,2019.“中所述。
表3 HRSR2016数据集的测试性能
上述表1~3中,RoI-Transformer、SCRDet、DRN、R3Det、VertexGliding和CSL为当前旋转目标检测的最新技术方法:
其中,RoI-Transformer具体如文献“Jian Ding,Nan Xue,Yang Long,Gui-SongXia,and Qikai Lu.Learning roi transformer for oriented object detection inaerial images.In IEEE CVPR,pages 2849–2858,2019.”中所述;
SCRDet具体如文献“Xue Yang,Jirui Yang,Junchi Yan,Yue Zhang,TengfeiZhang,Zhi Guo,Xian Sun,and Kun Fu.Scrdet:Towards more robust detection forsmall,cluttered and rotated objects.In IEEE ICCV,pages 8231–8240,2019.”中所述;
DRN具体如文献“Xingjia Pan,Yuqiang Ren,Kekai Sheng,Weiming Dong,HaoleiYuan,Xiaowei Guo,Chongyang Ma,and Changsheng Xu.Dynamic refinement networkfor oriented and densely packed object detection.In IEEE CVPR,pages11204–11213,2020.”中所述;
R3Det具体如文献“Xue Yang,Qingqing Liu,Junchi Yan,and Ang Li.R3det:Refined single-stage detector with feature refinement for rotatingobject.arXiv preprint arXiv:1908.05612,2019.”中所述;
VertexGliding具体如文献“Yongchao Xu,Mingtao Fu,Qimeng Wang,YukangWang,Kai Chen,Gui-Song Xia,and Xiang Bai.Gliding vertex on the horizontalbounding box for multi-oriented object detection.arXiv preprint arXiv:1911.09358,2019.”中所述;
CSL具体如文献“Xue Yang and Junchi Yan.Arbitrary-oriented objectdetection with circular smooth label.In ECCV,2020.”中所述;
YoloV3-Rotate具体如文献“Joseph Redmon and Ali Farhadi.YOLOv3:Anincremental improvement.arXiv preprint arXiv:1804.02767,2018.”中所述;
CenterNet-4point和CenterNet具体如文献“Xingyi Zhou,DequanWang,andPhilipp Kr¨ahenb¨uhl.Objects as points.arXiv preprint arXiv:1904.07850,2019.”中所述。
表1中,在DOTA数据集上,作为一种无锚检测器,本发明所述的目标检测方法(CFA检测器)相对于目前最先进的DRN检测器来说,检测性能提升较大,具体提升了5.97%(76.67%相较于70.70%)。同时,本实施例所述的CFA仍可以超越包括CSL在内的大多数锚基探测器(76.67%相对于76.16%)。
图5示出了凸包表征随训练的演变图,由图5可以看出,当数据目标类别拥有不规则形状时,本实施例所述的CFA方法中凸包表征可以更适应这种不规则的目标形状和布局。
图6示出了抗混叠算法的特征响应图,由图6可以看出,当目标存在密集分布时,本实施例所述的CFA方法能够很好地减弱特征混叠现象,实现更准确的检测。
表2中,本发明所述方法与SKU110K-R数据集上最先进的方法进行比较,结果显示:当目标存在极密集的排布时,特征混叠问题会更加严重,尽管DRN使用了更大的基网(Hourglass104),但本发明所述方法(CFA)仍能实现57.0%的mAP并提高了1.1%(57.0%相较于DRN的55.9%),验证了本发明提出的抗混叠策略的有效性。
表3中,本发明所述方法与HRSR2016数据集上最先进的方法进行比较,结果显示:本发明所述的方法(CFA)实现了93.90%的AP50,相较于DRN提升了1.2%(93.9%相较于92.7%),说明本发明所述方法对旋转目标进行的凸包表征建模相对于其他表征有着更好的优越性。
实施例2
在DOTA数据集上,按照下述步骤进行目标检测:
训练阶段:
(1)利用基网Resnet50对训练图像进行特征提取;其自下而上的stage2、stage3、stage4和stage5的输出结果输入特征金字塔网络(FPN)获得自上而下的多尺度融合特征图P6、P5、P4、P3和P2,其特征维度均为256,尺度为训练图像尺寸的1/128、1/64、1/32、1/16和1/8;每层特征图分别利用3层3×3卷积层获得其分类和回归特征,维度为256;
(2)利用3×3卷积层对回归特征进行特征提取,预测每个特征位置对应的凸包表征的采样偏移,获得的偏移特征图维度为2×K(K=9),表示采样点的偏移从而获得特征图每个空间位置的特征点集;对点集利用Jarvis算法获得特征点集的最小外界凸多边形,即表示候选凸包θ为网络参数;利用凸包表征内采样点集对应空间位置的特征进行加权,用于获得其分类特征;每个凸包表征的采样点偏移输入3×3的DCN中并对分类特征进行特征提取,获得用于凸包分类的特征;利用3×3卷积层获得其最终的分类分数
(4)由步骤3所生成的凸包与所有目标进行CIoU计算,并选取CIoU大于一定阈值的凸包作为对应目标的正例凸包,其他则为反例凸包,由此一个目标将对应多个正例凸包,我们将其视为对应目标的凸包集,并且凸包集和目标一一对应;
(5)针对一个凸包集中的所有凸包,计算其分类损失和定位损失并获得凸包损失其中λ为实验的正则化因子;将凸包损失进行排序并利用高斯误差累积函数获得集内抗混叠系数并用于加权,则得到了整个凸包集的损失利用梯度一致性原则将关于的导函数小于0对应的凸包从凸包集中剔除并视为反例凸包,从而获得集内抗混叠系数高的凸包用于训练;由此获得的凸包可能仍存在集外特征混叠,因此利用
获得凸包的集外抗混叠系数,其中γ为实验下的抗混叠因子;从而获得整个凸包集的加权损失为
结合反例可获得总损失为
(6)根据步骤3和步骤5中的两个损失函数的梯度,对整个网络进行梯度反向传播,并更新网络参数,直至网络收敛。
测试阶段:
将训练得到的模型直接应用于数据集中以验证模型的有效性,测试过程最终结果需通过非极大值抑制算法。
实验例
实验例1
针对本发明实施例2中提出的凸包表征(Convex-hull Representation)、凸包生成(Convex-hull Generation)和凸包自适应(Convex-hull Adaptation),在DOTA验证集上分别验证其有效性。验证结果如表4所示。
表4各部分性能提升对比表
其中,“√”表示包括此部分。
结果分析:
(1)凸包生成的影响
在本实验例中,选择检测框架RepPoint作为基线结构,为了赋予RepPoint检测旋转目标的能力,在第二阶段添加了一个方向预测,并名为baseline-R。
通过将目标建模作为凸包,本发明所述方法缓解了背景和其他邻近对象的特征混叠,在表4中,凸包生成提高了1.88%的性能(68.18%vs 66.30%)。
图10中示出了各个部分的分析折线图,由其中的(a)可知,在第二阶段分配过程中,通过消融研究获得CIoU最佳阈值为0.2。
(2)凸包集内划分的影响
构造凸包集是定义候选特征的过程,而划分凸包集是为了实现凸包表征的自适应。如表4和图10中的(b)可知,通过对凸包集分割,本发明所述方法的检测性能提高了1.52%(69.70%vs 68.18%),验证了提出的特征抗混叠的梯度一致性原则。
而图10中的(d)验证了在每个层特征金字塔分配六个凸包(即I=6)可以实现最好的检测性能。
(3)凸包抗混叠的影响
由表4和图10中的(c)可知,通过引入集外抗混叠系数,凸包表征能够自适应的消除多个目标的特征混叠现象,从而实现了进一步提高0.43%(70.13%相对于69.70%),而消融实验获得的最佳抗混叠因子为0.75。因此总体来说,本发明提出的CFA将基线结构提升了4.79%。
(4)计算消耗对比
在单个Tesla V100 GPU上使用Resnet50作为基网,CFA需0.080秒处理1024×1024分辨率的输入,而基线检测器(baseline-R)花费0.075秒;利用Hourglass52(参数量大于Resnet50)的DRN检测器花费0.102秒。由于CFA不涉及额外的网络架构,且损失仅应用于训练阶段,因此在推理阶段的计算开销可以忽略不计。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。
Claims (10)
1.一种基于凸包特征自适应的旋转密集目标检测方法,其特征在于,所述方法包括训练阶段和测试阶段,
其中,所述训练阶段包括以下步骤:
步骤1,获得训练图像的特征图;
步骤2,利用特征图获得候选凸包分类表征;
步骤3,对凸包分类表征进行优化,实现凸包生成;
步骤3中,所述凸包生成包括以下子步骤:
步骤3-1,将目标映射至对应尺度的特征层上;
步骤3-2,选取不同目标最接近的候选凸包表征;
步骤3-3,利用凸包交并比交CIoU损失对凸包表征进行优化;
步骤4,获得不同目标的候选凸包集;
步骤5,实现凸包与目标之间的自适应匹配;
步骤5包括以下子步骤:
步骤5-1,获得一个凸包集中所有的凸包表征的分类损失和定位损失,并加和排序,对凸包表征进行加权,确定其集合内抗混叠系数;
步骤5-2,将抗混叠系数低的凸包表征从凸包集中剔除,并视为反例,形成反例凸包集;
步骤5-3,获得正例凸包的集合外抗混叠系数;
步骤5-4,根据集合内/外的抗混叠系数,对正例损失加权并进行联合优化。
2.根据权利要求1所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,
步骤1中,利用卷积神经网络基网和特征金字塔网络对训练图像提取特征图;
其中,所述训练图像具有旋转框标注。
3.根据权利要求1所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,
步骤2包括以下子步骤:
步骤2-1,获得特征图每个空间位置的特征点集;
步骤2-2,获得特征点集的候选凸包表征;
步骤2-3,获得候选凸包表征的分类特征。
4.根据权利要求1所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,
步骤4中,将步骤3生成的凸包与所有目标进行CIoU计算,其中,CIoU大于阈值的凸包为对应目标的正例凸包,其他则为反例凸包。
5.根据权利要求1所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,步骤5-2中,利用梯度一致性原则将抗混叠系数低的凸包表征从凸包集中剔除。
6.根据权利要求5所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,剔除的条件是凸包表征的更新梯度与凸包集的更新梯度相反。
7.根据权利要求1所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,
所述测试阶段为将训练得到的网络模型直接应用于旋转密集的数据集中以验证模型的有效性。
8.根据权利要求7所述的基于凸包特征自适应的旋转密集目标检测方法,其特征在于,在测试阶段不进行凸包集的构建和自适应。
9.一种计算机可读存储介质,其特征在于,存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行权利要求1至8之一所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有基于凸包特征自适应的旋转密集目标检测训练程序,所述程序被处理器执行时,使得处理器执行权利要求1至8之一所述基于凸包特征自适应的旋转密集目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290780.8A CN113033644B (zh) | 2021-03-18 | 2021-03-18 | 一种基于凸包特征自适应的旋转密集目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290780.8A CN113033644B (zh) | 2021-03-18 | 2021-03-18 | 一种基于凸包特征自适应的旋转密集目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033644A CN113033644A (zh) | 2021-06-25 |
CN113033644B true CN113033644B (zh) | 2021-12-07 |
Family
ID=76471450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110290780.8A Active CN113033644B (zh) | 2021-03-18 | 2021-03-18 | 一种基于凸包特征自适应的旋转密集目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033644B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363214A (zh) * | 2023-03-20 | 2023-06-30 | 嘉洋智慧安全科技(北京)股份有限公司 | 图像处理方法、装置、设备、介质及产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259758A (zh) * | 2020-01-13 | 2020-06-09 | 中国矿业大学 | 一种针对密集区域的两阶段遥感图像目标检测方法 |
CN111310824A (zh) * | 2020-02-13 | 2020-06-19 | 中科智云科技有限公司 | 多角度稠密目标检测抑制优化方法及设备 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310458B (zh) * | 2013-06-19 | 2016-05-11 | 北京理工大学 | 结合凸包匹配和多尺度分级策略的医学图像弹性配准方法 |
CN110223302B (zh) * | 2019-05-08 | 2021-11-19 | 华中科技大学 | 一种基于旋转区域提取的舰船多目标检测方法 |
CN110580497B (zh) * | 2019-07-16 | 2023-03-24 | 中国地质大学(武汉) | 一种基于旋转不变性的空间场景匹配方法 |
-
2021
- 2021-03-18 CN CN202110290780.8A patent/CN113033644B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259758A (zh) * | 2020-01-13 | 2020-06-09 | 中国矿业大学 | 一种针对密集区域的两阶段遥感图像目标检测方法 |
CN111310824A (zh) * | 2020-02-13 | 2020-06-19 | 中科智云科技有限公司 | 多角度稠密目标检测抑制优化方法及设备 |
CN111524095A (zh) * | 2020-03-24 | 2020-08-11 | 西安交通大学 | 一种用于旋转物体的目标检测方法 |
Non-Patent Citations (1)
Title |
---|
Convex-Hull-Based Boundary Detection in Unattended Wireless Sensor Networks;A. Pravin Renold et al.;《Sensors Letters》;20170831;第1卷(第4期);第1-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113033644A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113298818B (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
Bai et al. | Deep watershed transform for instance segmentation | |
CN112070729B (zh) | 一种基于场景增强的anchor-free遥感图像目标检测方法及系统 | |
Costea et al. | Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization | |
CN111783523B (zh) | 一种遥感影像旋转目标检测方法 | |
CN111914804A (zh) | 多角度旋转遥感图像小目标检测方法 | |
CN106295613A (zh) | 一种无人机目标定位方法及系统 | |
Wu et al. | GCWNet: A global context-weaving network for object detection in remote sensing images | |
CN108932721A (zh) | 一种用于巡检机器人的红外图像分割与融合方法 | |
CN103578093B (zh) | 图像配准方法、装置及增强现实系统 | |
CN110135438B (zh) | 一种基于梯度幅值预运算的改进surf算法 | |
Li et al. | A comparison of deep learning methods for airborne lidar point clouds classification | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN113610905B (zh) | 基于子图像匹配的深度学习遥感图像配准方法及应用 | |
CN111583276A (zh) | 基于cgan的空间目标isar图像部件分割方法 | |
CN117079132A (zh) | 基于高斯距离损失的遥感图像目标检测方法 | |
CN114565824B (zh) | 基于全卷积网络的单阶段旋转舰船检测方法 | |
CN114332633B (zh) | 雷达图像目标检测识别方法、设备和存储介质 | |
CN113343900A (zh) | 基于cnn与超像素结合的组合核遥感影像目标检测方法 | |
CN113487600A (zh) | 一种特征增强尺度自适应感知船舶检测方法 | |
CN113033644B (zh) | 一种基于凸包特征自适应的旋转密集目标检测方法 | |
Zhou et al. | KLDet: Detecting Tiny Objects in Remote Sensing Images via Kullback-Leibler Divergence | |
CN117078938A (zh) | 基于马尔可夫随机场的遥感图像语义分割方法 | |
Zhou et al. | Ship target detection in optical remote sensing images based on multiscale feature enhancement | |
CN113902744B (zh) | 基于轻量级网络的图像检测方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |