CN115187786A - 一种基于旋转的CenterNet2目标检测方法 - Google Patents

一种基于旋转的CenterNet2目标检测方法 Download PDF

Info

Publication number
CN115187786A
CN115187786A CN202210864923.6A CN202210864923A CN115187786A CN 115187786 A CN115187786 A CN 115187786A CN 202210864923 A CN202210864923 A CN 202210864923A CN 115187786 A CN115187786 A CN 115187786A
Authority
CN
China
Prior art keywords
frame
target
stage
detection
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210864923.6A
Other languages
English (en)
Inventor
王冰路
同磊
肖创柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210864923.6A priority Critical patent/CN115187786A/zh
Publication of CN115187786A publication Critical patent/CN115187786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于旋转的CenterNet2目标检测方法,设计基于CenterNet2的旋转角度检测分支;CenterNet2网络是两阶段的无锚框目标检测算法,通过第一阶段检测得到热力特征图heatmap和边框回归特征图,通过热力图获取目标的中心点大致位置,通过热力图上目标中心点的索引从边框特征图中获取该目标的边框大小,进而获取目标中心点坐标和其边界框的宽高。本发明构建基于CenterNet2的旋转角度检测分支,在CenterNet2的一阶段检测模块中新增一个角度回归分支,用于回归每个目标的旋转角度。利用其多尺度融合的特征金字塔结构,对特征金字塔模块的多个尺度的输出特征图,均增加一个角度回归分支,并且和对应尺度下的热力图像对齐,形成基于多尺度的旋转角度回归分支,进一步提升了角度回归的精度。

Description

一种基于旋转的CenterNet2目标检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于旋转的CenterNet2目标检测方法。
背景技术
计算机视觉技术是使用计算机代替人眼去感知和判断一个事物的各种属性以及空间的相对位置,进而节省人力成本。目标检测是计算机视觉技术的一项重要任务,其任务是从图像中获取目标的位置信息,并识别出预先定义的物体类别。得益于深度学习在近十几年来突飞猛进的发展,使得计算机充分发挥善于存储和计算的能力,让计算机从大量的实际经验中获取知识,而不用人为给计算机形式化的描述知识,通过人为设计并不断增加神经网络(Neural Network)的层数,能使计算机学习更加复杂的经验,从而达到能解决实际背景下的复杂问题。由此优势,目标检测技术在遥感图像、人脸识别、无人驾驶、医疗影像等领域都得到了广泛的应用。
目标检测算法大致可分为传统的目标检测算法和基于深度学习的目标检测算法。由于传统的目标检测算法不仅会产生大量的冗余候选区域的计算,还需要根据不同的任务场景手工设计特征,无法很好地应用在实际复杂的场景,随着深度学习的快速发展,基于深度学习的目标检测算法展现出优于传统目标检测算法的能力。基于深度学习目标检测算法从有无锚框的角度可以分为基于锚框的目标检测算法和基于无锚框的目标检测算法。
基于锚框的目标检测算法主要以RPN网络为起始,图像在经过主干网络的特征提取后,得到具有丰富信息的多通道特征图,然后以特征图上的每个像素为中心,生成多个缩放比和高宽比不同的边界框,这些大量的边界框成为锚框。而基于锚框的目标检测算法需要对每一个锚框进行类别的判别以及宽高偏移量的回归,整个网络在训练和预测阶段都需要承担较大的计算量,对计算机资源的耗费也较为严重,此外,由于真正有效的锚框(属于前景)仅占少数,大量的锚框均属于背景类别,导致出现严重样本不均衡问题,影响模型的检测速度。基于无锚框的目标检测算法能够较好解决上述问题,仅对物体的中心位置以及物体的宽高进行预测,无需人工设计锚框的缩放比和宽高比,使得网络的头分支更加轻量,模型的计算量大幅度减少,更加节省计算资源。
两阶段目标检测算法是目标检测算法的一种,相比一阶段目标检测算法,具有更高的检测精度。一阶段目标检测是将经主干网络进行特征提取后的特征图直接进行多分类以及边框的回归。两阶段目标检测算法是将图像在主干网络进行特征提取后,使用一个轻量级的二分类分支和回归分支,得到粗略的建议框,然后将建议框在特征图上进行截取,经过池化后进行第二阶段的分类和边框回归。整体上讲,两阶段目标检测算法是对一阶段目标检测结果的一次精调,进一步提升模型的检测精度。
CenterNet2网络模型是两阶段无锚框目标检测算法,目前两阶段目标检测中的RPN网络是以最大化召回为目标,会产生较多冗余的建议框(Proposals),增加第二阶段的检测负担。基于无锚框的两阶段目标检测模型CenterNet2采用基于概率的思想,以无锚框的单阶段检测器CenterNet网络作为第一阶段,进行前景和背景的二分类预测,进而生成较为精准的建议框,减少第二阶段网络的计算量。基于概率的两阶段检测器将第一阶段和第二阶段的概率估计与损失和梯度计算联系在一起,能够较为明显降低模型的训练速度,在实际效果中,在保证两阶段检测精度的同时,具有和一阶段检测器YOLOv4相同的检测速度。
发明内容
本发明为更好地解决旋转目标检测问题,提供了一种基于旋转的CenterNet2目标检测方法,包含两个部分:
第一部分是设计基于CenterNet2的旋转角度检测分支;
CenterNet2网络是两阶段的无锚框目标检测算法,通过第一阶段检测得到热力特征图heatmap和边框回归特征图,通过热力图获取目标的中心点大致位置,通过热力图上目标中心点的索引可以从边框特征图中获取该目标的边框大小,进而获取目标中心点坐标和其边界框的宽高。在第一阶段检测过程中,新增目标的旋转角度预测模块,即在CenterNet2的主干特征提取网络的末尾新增一个角度回归分支,通过卷积操作生成一个与热力图对齐的角度回归特征图,通过目标的中心点索引可以从角度回归特征图中获取目标的旋转角度值。在第一阶段预测建议框Proposals的同时,预测出每个Proposal的边框旋转角度Angle∈[0,180),以y坐标轴正方向为0度,沿顺时针旋转至y坐标轴负方向为180度,然后建议框在第二阶段进一步分类和提升边框回归精度后,最后结合旋转角度进行输出。
S2.设计基于多尺度的旋转角度检测分支;
CenterNet2网络为了兼顾不同尺度的待检测目标,采用特征金字塔结构(FPN),以此融合不同下采样尺度下的目标信息,将旋转回归分支与特征金字塔结果相融合,设计基于多尺度的旋转目标检测分支,不同尺度的特征层,负责不同尺度目标的检测和角度回归。对于一阶段的每个输出分支均进行角度的预测,并且对不同尺度输出的角度预测进行融合,共同产生带有角度的Proposals。在模型的训练阶段,一阶段预测的角度与真实的角度标签进行Loss的计算,由于需要兼顾不同尺度的角度预测,角度标签也需要绑定到对应的边框标签,以进行对应尺度下的角度损失的计算。在模型的推理阶段,基于多尺度生成的角度信息需要绑定到对应的预测框,最后,类别、边框、角度三个目标的信息对应绑定后,进行第二阶段的回归和类别的分类操作。
本发明与现有技术相比有益效果如下:构建基于CenterNet2的旋转角度检测分支,在CenterNet2的一阶段检测模块中新增一个角度回归分支,用于回归每个目标的旋转角度,相比CenterNet2模型,每个检测出的目标框多出一个旋转角度信息,使得目标框能够更加紧凑的包围实际的物体,更准确描述物体在图像中的位置。此外,结合CenterNet2的一阶段检测器特性,充分利用其多尺度融合的特征金字塔结构,对特征金字塔模块的多个尺度的输出特征图,均增加一个角度回归分支,并且和对应尺度下的热力图像对齐,形成基于多尺度的旋转角度回归分支,进一步提升了角度回归的精度。
附图说明
图1是基于多尺度的两阶段CenterNet2目标检测模型结构图。
图2是本发明的角度回归头分支网络模块结构图。
图3是本发明的基于旋转的CenterNet2目标检测模型结构图。
图4是本发明的实验结果与另外三种方法的对比示意图;(a)CenterNet,(b)CenterNet2;(c)R-CenterNet;(d)R-CenterNet2。
图5是本发明的实验结果与另外三种方法的对比示意图。(a)CenterNet,(b)CenterNet2;(c)R-CenterNet;(d)R-CenterNet2。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
如图1,通过第一阶段检测得到热力特征图(heatmap)和边框回归特征图,通过热力图可以获取目标的中心点大致位置,通过热力图上目标中心点的索引可以从边框特征图中获取该目标的边框大小,进而可以获取目标中心点坐标和其边界框的宽高。
如图3,采用特征金字塔结构(FPN),以此融合不同下采样尺度下的目标信息,本发明将旋转回归分支与特征金字塔结果相融合,设计基于多尺度的旋转目标检测分支,不同尺度的特征层,负责不同尺度目标的检测和角度回归。
具体的技术实施分析描述如下:
基于旋转的CenterNet2的目标检测方法实现可以分为以下两个步骤:构建基于旋转的CenterNet2网络模型,训练基于旋转的CenterNet2网络模型。为便于理解,结合说明书附图,下面对本发明实施例的具体步骤进行描述。
步骤一、构建基于旋转的CenterNet2目标检测网络;
步骤1.1.主干网络;
采用Res2Net101模型作为的CenterNet2的主干特征提取网络,进行对输入图像的特征提取。相比ResNet,Res2Net模型的每个构建单元在原有的残差单元结构中增加小的残差块,提升了每一层感受野的大小,利用分组卷积,将输出的通道维数平均分为多组,分别进行卷积,最后输出结果在通道维度进行堆叠,在不增加模型计算量的基础下,使得模型能够捕获更多的细节和全局特性。
常规的卷积操作,是采用从二维平面看是一个正方形的卷积核在特征图上进行滑动,捕获在当前卷积核所覆盖区域(感受野)的特征,但是实际图像中的目标可能是任意形状,且经常伴随不同角度的旋转,所以本发明在Res2Net101模型中采用可变性卷积(Deformable convolution)。相比普通的卷积,可变性卷积的卷积核增加了可学习的位置偏移参数,对于3×3的可变性卷积的卷积核,除9个位置的权重参数外,还包含卷积核各个位置的偏移量,对于规则的感受域的偏移量参数R可用公式(1)表示,当遇到有不同形状的目标时,可以通过学习每个位置的偏移量,调整卷积操作在特征图中的运算位置。
R={(-1,-1),(-1,0),…,(0,1),(1,1)} 式(1)
卷积核实际进行卷积运算时,运算位置可离散的分布在特征图上的多个位置,以适应不同形状目标的特征提取,增强模型的特征提取能力。
步骤1.2.特征金字塔网络;
特征金字塔网络以主干特征提取网络的某几个下采样特征层作为输入,本发明采用Res2Net的第三次、第四次和第五次下采样的特征图作为特征金字塔模块的输入,该模块将三层特征图自底向上(特征图由小至大)进行特征融合,以增强特征图所包含的信息。此外,为了增强模型对大尺度的目标的检测能力,本发明采用将第五次下采样的输入特征再进行两次下采样的方法,生成第六、第七次下采样的特征图。最后将第三、四、五、六、七次下采样的特征图送入模型的下一个阶段。
步骤1.3.CenterNet一阶段检测;
CenterNet2网络在一阶段采用CenterNet网络结构完成对目标的粗略检测,CenterNet网络头分支包括热力图预测分支和物体边框预测分支。在此过程中,模型根据特征金字塔结构输出的5个特征图,生成大量的建议框(Proposals)。本发明在CenterNet一阶段检测头分支中,新增角度预测分支,如图2。
对于每个特征图,首先,特征图经过第一层卷积,其中卷积核大小为3×3,步长stride=1,边界填充padding=1,偏置bias=True,输入通道为256,输出通道为256。其次,经过Relu激活函数,进行非线性映射。再次,经过第二层卷积,其中卷积核大小为1×1,步长stride=1,边界填充padding=0,偏置bias=True,输入通道为256,输出通道为1,然后,再次经过Relu激活函数。最后得到大小和输入分辨率一致的单通道特征图,即为角度预测结果,且该特征图与热力图中的像素点一一对应。
根据热力图获取目标的中心点后,得到该目标在热力图中的坐标索引,通过该坐标索引在角度预测图中获取对应位置的像素值,该像素值即为该目标的旋转角度。为了充分利用多尺度的特征信息,本发明在输入的5个特征图中都应用角度预测分支,每个角度预测分支都与对应尺度下的热力图预测分支对应,即同一索引对应同一目标。通过该阶段,模型会根据5个不同尺度的热力图获取潜在的目标,并且得到目标的中心点坐标、边框宽高以及旋转角度值。
步骤1.4.级联二阶段检测头分支;
级联的二阶段检测头是级联多个检测网络的模型,通过逐步提高Proposal的交并比(IOU)阈值,从而使得前一个检测网络重新采样过的Proposals能够适应下一个有更高阈值的检测网络。在级联检测阶段,每个检测器将在上一个检测器得到的Proposals以及特征金字塔输出的第三和第四次下采样特征图作为输入。由于上一个阶段获取的目标信息是在5个不同尺度特征图下获得,所以首先需要将建议框映射到第三和第四尺度的特征图中,其次,根据目标的坐标信息从特征图中截取特征信息,并将不同大小截取的特征图进行池化,统一为分辨率为7×7的特征图,将每个特征图进行展开后,送入分类分支和边框回归分支,进而得到每个目标的类别信息和精调后的边框。最后经过非极大值抑制(NMS)操作后,去除冗余的检测框,即得到最终的带有旋转的目标框。
步骤二、训练基于旋转的CenterNet2目标检测模型;
步骤2.1.前向传播;
本发明是基于CenterNet2的两阶段目标检测,所以一个批量(batch)的图像需要先经过第一阶段检测得到建议框,然后将建议框映射到特征图中,对感兴趣的区域(ROI)进行截取,经过池化操作将所有感兴趣区域调整为7×7的小特征图,最后将特征图的宽高维度进行展平后,经过全连接操作得出最后的分类信息和更加精确的边框回归信息。
首先,对输入图像进行归一化,RGB三通道的均值为[123.675,116.280,103.530],方差为[58.395,57.12,57.375],其次,对输入图像进行随机裁剪,并将输入图像缩放裁剪,并保证长边不超过640,以避免模型训练过程中对数据集的过拟合。如果输入图像大小640×640,图像经过主干网络Res2Net101完成特征的提取后,将第三、四、五次下采样后的特征图输入特征金字塔网络,三层特征图大小分别为[B,C,80,80]、[B,C,40,40]、[B,C,20,20],特征金字塔网络将深层的语义信息与浅层的纹理信息相融合,得到更加丰富的目标信息,其中,B代表Batch Size,C代表当前特征图的通道数。此外,为了提升大目标的检测能力,将第五次下采样的特征图,再次经过两次下采样,分别得到大小为[B,C,10,10]和[B,C,5,5]的特征图。最后特征金字塔模块将5个不同尺度的特征层输出,用于一阶段的目标检测。
一阶段检测器将五个特征图,分别通过热力图检测分支、坐标偏移分支、宽高回归分支以及角度回归分支,且每个输入特征图对应独立的四个检测分支。其中,五个不同尺度下的角度回归分支输出特征图的大小分别为[B,1,80,80]、[B,1,40,40]、[B,1,20,20]、[B,1,10,10]和[B,1,5,5]。根据真实目标框的大小,将目标映射到符合当前尺度的特征层中,由该特征层负责对物体进行预测。当目标与热力图进行匹配后,会得到在多个尺度下的全局唯一索引坐标,根据索引坐标去获取该预测目标的位置偏移量、宽高回归值以及角度回归值,进而可以获取大量的建议框(Proposals)。
根据CenterNet2基于概率的解释思想,将2000个建议框缩减至512个建议框,减少二阶段检测器的计算量,并且在第二阶段采用级联的检测器,并采用三个级联的检测器,在该级联检测器中,建议框与真实框匹配的IOU为正样本的阈值分别为[0.6,0.7,0.8]。经过三个级联阶段检测后,最后得到每个建议框的分类结果和边框回归值,最后根据阈值进行过滤,并经过NMS对预测框进行冗余去除后,即得到最后预测结果。
步骤2.2.损失函数;
构建模型后,在整个网络的训练过程中,总损失包含两个阶段的损失。第一阶段是一阶段检测损失,分为前背景的二分类损失Lcls、边框回归损失Lbox、角度回归损失Lang,共三个部分,一阶段损失公式表示如式(2)。
Lone=λclsLclsbboxLbboxangLang 式(2)
其中λcls、λbbox、λang分别为分类损失、边框回归损失、角度回归损失的系数,本发明采用的三个超参数系数分别为0.5、1.0、0.05。
对于二分类损失Lcls,本发明采用Focal Loss损失函数,公式如式(3)。
Figure BDA0003758194340000061
其中,α代表正负样本的权重超参数,γ代表难例学习权重,本发明采用α超参数为0.25,γ超参数为2,Focal Loss能够缓解类别不均衡问题,并且能对难学习样本增大损失的贡献。
对于边框回归损失Lbbox,本发明采用GIOU损失函数,公式如式(4)。
Figure BDA0003758194340000062
其中,C代表预测边框和真实边框的最小外接矩形的面积,A∪B代表预测边框和真实边框面积的并集,GIOU损失函数能解决预测边框和真实框没有重叠时,优化方向不明确的问题。
对于角度回归损失Lang,本发明采用Smoooth L1损失函数计算角度的回归误差,公式如式(5)。
Figure BDA0003758194340000063
式中x表示角度预测值与真实值之间的差值。Smooth L1损失函数融合了L1损失函数和L2损失函数的优点,在回归的角度值与真实值差距较大时,梯度不会过大,能保证梯度的稳定,在角度值与真实值差距较小时,梯度能平滑变小,使得角度值能收敛到最优值。
第二阶段的检测损失为级联检测器的损失,包含三个级联部分的损失。对于每个级联部分的损失又分为两个部分,即分类损失Lc和边框回归损失Lreg,公式表示如式(6)。
Figure BDA0003758194340000064
其中,边框回归损失Lreg采用Smooth L1损失函数,分别对边框的中心点偏移量和宽高偏移量进行回归,分类损失采用交叉熵损失函数。
交叉熵损失函数Lc公式表示如式(7)。
Figure BDA0003758194340000065
其中,p表示预测结果经过softmax后,在当前类别下的预测概率值。
第二阶段的总损失包含三个级联部分的损失,公式表示如式(8)。
Figure BDA0003758194340000066
至此,CenterNet2总损失函数表示如式(9)。
Ltotal=Lone+Ltwo 式(9)
步骤2.3.优化器;
随机梯度下降算法(Stochastic GradientDescent,SGD)每次选择一个mini-batch,而不是全部样本,使用梯度下降来更新模型参数。参数更新步骤如下:计算目标函数关于当前参数的梯度,计算当前时刻的下降梯度,根据下降梯度进行更新参数。设定待优化参数为ω,目标函数为f(x),初始学习率为α,迭代期数为epoch,其中gt是当前参数的梯度。参数更新公式如式(10):
Wt+1=Wt-α·gt 式(10)
CenterNet2网络网络模型使用梯度下降进行优化,批处理大小BatchSize设为8,总迭代次数(Max Iteration)为47475,学习率α初始化为0.01,并分别在迭代15000和25000次时,将学习率衰减为当前值的1/10。优化器指引损失函数(目标函数)的各个参数往正确的方向更新合适的大小,使得更新后的各个参数让损失函数值不断逼近全局最小。
下面简要描述实验配置以及分析,通过实验结果比较分析实际检测效果得到了提高。
1.实验条件
本发明的硬件测试平台为处理器Intel(R)Core(TM)i7-10700F CPU,主频为2.90Hz,内存为16GB,显卡为Nvidia GeForce GTX 3060super。软件平台为Ubuntu18.04操作系统,开发环境为Visual Studio Code。编程语言为Python,深度学习网络架构为PyTorch。
2.实验数据
本发明的性能评价主要使用HRSC2016数据集:Google Earth收集用于科学研究的高分辨率船舶数据集。
HRSC2016数据集包含两种场景的图像,分别为海上船舶和近海船舶,所有的图片都是从六个著名的港口搜集,且所有图像中船舶为一个类别,。图像的分辨率在2-m至0.4-m之间,图像大小在300×300至1500×900之间,且其中的大部分超过1000×600。本专利选择626张图像作为训练集,444张图像作为测试集进行实验验证和对比。
3.性能比较
本发明用到的三个现有技术对比分类的方法如下:
(1)ZhouX等人在“Objects as points”提出的基于无锚框的一阶段检测模型CenterNet,通过预测目标的中心点、偏移量、宽高进行对目标的定位,简称CenterNet方法。
(2)基于CenterNet方法,增加边框的角度预测,在CenterNet模型的头分支部分新增角度旋转回归分支,简称R-CenterNet方法。
(3)Zhou等人在“Probabilistic two-stage detection”提出了基于概率的两阶段无锚框目标检测算法,简称CenterNet2方法。
在实验中,由于仅有一个目标类别,所以采用AP(Average Precision)指标来评价本发明的性能,并将本发明提出的方法记为R-CenterNet2。
对于AP的计算,在某一类别下计算,通过设定不同的置信度阈值,将超过置信度的样本认定为正样本,通过将正样本与所有实际的真实框计算交并比(IOU),当最大的交并比超过预设的交并比阈值(0.5、0.75),认定该目标为真阳性(TP),否则该目标框认定为假阳性(FP)。在同一交并比阈值下,AP值越大,代表模型的检测性能越好。
表1是本发明以及另外三种方法在HRSC2016数据集不同交并比阈值下的AP值。
表1
Figure BDA0003758194340000081
从表1可以看出,在HRSC2016数据集的船舶类别(ship)下,本发明提出的检测方法R-CenterNet2,其在不同交并比阈值下的检测AP要优于其他检测方法,并明显高于水平目标框目标检测方法。
实验效果对比如图4、图5。由效果对比图可以看出,由于CenterNet和CenterNet2方法没有旋转的角度值,导致检测框与真实物体的交并比较低,真阳性(TP)样本较少,因此AP值较低。R-CenterNet方法,引入了旋转检测分支,AP值相比前两种方法有较明显的提升,但仅采用单一尺度下的特征图进行目标的检测,导致模型对同一张图像中不同尺寸大小的目标检测效果较差。本专利所提出的R-CenterNet2方法,同时利用多尺度和旋转检测分支,使得模型目标检测框具备旋转角度值的同时,兼顾同一张图像中不同尺度目标的检测,相比R-CenterNet方法,检测效果的AP值提升约30.7%。
综上所述,本发明为了更好地在实际场景中完成对带有旋转角度的目标检测问题,提出了一种基于旋转的CenterNet2目标检测方法。构建基于CenterNet2的旋转角度检测分支,在原始的一阶段检测头分支中增加角度回归分支,输出尺寸与热力图索引对齐,给输出的建议框添加旋转角度,从而提高了检测的性能。采用基于多尺度旋转角度检测分支,通过与CenterNet2网络特征金字塔结构结合,进一步提升了目标旋转角度回归的精度,使得模型对旋转目标检测更加精准。通过实验数据分析,本发明所提出的方法能够有效提升目标检测的AP值,且更优于带旋转的R-CenterNet目标检测网络。

Claims (3)

1.一种基于旋转的CenterNet2目标检测方法,其特征在于:包含两个部分:
第一部分是设计基于CenterNet2的旋转角度检测分支;
CenterNet2网络是两阶段的无锚框目标检测算法,通过第一阶段检测得到热力特征图heatmap和边框回归特征图,通过热力图获取目标的中心点大致位置,通过热力图上目标中心点的索引从边框特征图中获取该目标的边框大小,进而获取目标中心点坐标和其边界框的宽高;在第一阶段检测过程中,新增目标的旋转角度预测模块,即在CenterNet2的主干特征提取网络的末尾新增一个角度回归分支,通过卷积操作生成一个与热力图对齐的角度回归特征图,通过目标的中心点索引从角度回归特征图中获取目标的旋转角度值;在第一阶段预测建议框Proposals的同时,预测出每个Proposal的边框旋转角度Angle∈[0,180),以y坐标轴正方向为0度,沿顺时针旋转至y坐标轴负方向为180度,然后建议框在第二阶段进一步分类和提升边框回归精度后,最后结合旋转角度进行输出;
S2.设计基于多尺度的旋转角度检测分支;
CenterNet2网络为了兼顾不同尺度的待检测目标,采用特征金字塔结构FPN,以此融合不同下采样尺度下的目标信息,将旋转回归分支与特征金字塔结果相融合,设计基于多尺度的旋转目标检测分支,不同尺度的特征层,负责不同尺度目标的检测和角度回归;对于一阶段的每个输出分支均进行角度的预测,并且对不同尺度输出的角度预测进行融合,共同产生带有角度的Proposals;在模型的训练阶段,一阶段预测的角度与真实的角度标签进行Loss的计算;在模型的推理阶段,基于多尺度生成的角度信息需要绑定到对应的预测框,最后,类别、边框、角度三个目标的信息对应绑定后,进行第二阶段的回归和类别的分类操作。
2.根据权利要求1所述的一种基于旋转的CenterNet2目标检测方法,其特征在于:第一部分的实施方法包括如下步骤,
步骤1.1.主干网络;
采用Res2Net模型作为的CenterNet2的主干特征提取网络,进行对输入图像的特征提取;相Res2Net模型的每个构建单元在原有的残差单元结构中增加小的残差块,提升每一层感受野大小,利用分组卷积,将输出的通道维数平均分为多组,分别进行卷积,最后输出结果在通道维度进行堆叠,在不增加模型计算量的基础下捕获更多的细节和全局特性;
在Res2Net模型中采用可变性卷积;对于规则的感受域的偏移量参数R可用公式(1)表示,当遇到有不同形状的目标时,可以通过学习每个位置的偏移量,调整卷积操作在特征图中的运算位置;
R={(-1,-1),(-1,0),…,(0,1),(1,1)} 式(1)
卷积核实际进行卷积运算时,运算位置可离散的分布在特征图上的多个位置,以适应不同形状目标的特征提取,增强模型的特征提取能力;
步骤1.2.特征金字塔网络;
特征金字塔网络以主干特征提取网络的某几个下采样特征层作为输入,采用Res2Net的第三次、第四次和第五次下采样的特征图作为特征金字塔模块的输入,将三层特征图自底向上进行特征融合,以增强特征图所包含的信息;采用将第五次下采样的输入特征再进行两次下采样的方法,生成第六、第七次下采样的特征图;最后将第三、四、五、六、七次下采样的特征图送入模型的下一个阶段;
步骤1.3.CenterNet一阶段检测;
CenterNet2网络在一阶段采用CenterNet网络结构完成对目标的粗略检测,CenterNet网络头分支包括热力图预测分支和物体边框预测分支;在此过程中,模型根据特征金字塔结构输出的5个特征图,生成大量的建议框;在CenterNet一阶段检测头分支中,新增角度预测分支;
对于每个特征图,经过卷积得到大小和输入分辨率一致的单通道特征图,即为角度预测结果,且该特征图与热力图中的像素点一一对应;根据热力图获取目标的中心点后,得到该目标在热力图中的坐标索引,通过该坐标索引在角度预测图中获取对应位置的像素值,该像素值即为该目标的旋转角度;
步骤1.4.级联二阶段检测头分支;
级联的二阶段检测头是级联多个检测网络的模型,通过逐步提高Proposal的交并比IOU阈值,从而使得前一个检测网络重新采样过的Proposals能够适应下一个有更高阈值的检测网络;在级联检测阶段,每个检测器将在上一个检测器得到的Proposals以及特征金字塔输出的第三和第四次下采样特征图作为输入;由于上一个阶段获取的目标信息是在5个不同尺度特征图下获得,所以首先需要将建议框映射到第三和第四尺度的特征图中,其次,根据目标的坐标信息从特征图中截取特征信息,并将不同大小截取的特征图进行池化,统一为分辨率为7×7的特征图,将每个特征图进行展开后,送入分类分支和边框回归分支,进而得到每个目标的类别信息和精调后的边框;最后经过非极大值抑制NMS操作后,去除冗余的检测框,即得到最终的带有旋转的目标框。
3.根据权利要求1所述的一种基于旋转的CenterNet2目标检测方法,其特征在于:第二部分的实施方法包括如下步骤,
步骤二、训练基于旋转的CenterNet2目标检测模型;
步骤2.1.前向传播;
基于CenterNet2的两阶段目标检测,所以一个批量batch的图像需要先经过第一阶段检测得到建议框,然后将建议框映射到特征图中,对感兴趣的区域ROI进行截取,经过池化操作将所有感兴趣区域调整为7×7的小特征图,最后将特征图的宽高维度进行展平后,经过全连接操作得出最后的分类信息和更加精确的边框回归信息;
一阶段检测器将五个特征图,分别通过热力图检测分支、坐标偏移分支、宽高回归分支以及角度回归分支,且每个输入特征图对应独立的四个检测分支;根据真实目标框的大小,将目标映射到符合当前尺度的特征层中,由该特征层负责对物体进行预测;当目标与热力图进行匹配后,会得到在多个尺度下的全局唯一索引坐标,根据索引坐标去获取该预测目标的位置偏移量、宽高回归值以及角度回归值,进而获取建议框Proposals;经过三个级联阶段检测后,最后得到每个建议框的分类结果和边框回归值,最后根据阈值进行过滤,并经过NMS对预测框进行冗余去除后,即得到最后预测结果;
步骤2.2.损失函数;
构建模型后,在整个网络的训练过程中,总损失包含两个阶段的损失;第一阶段是一阶段检测损失,分为前背景的二分类损失Lcls、边框回归损失Lbox、角度回归损失Lang,共三个部分,一阶段损失公式表示如式(2);
Lone=λclsLclsbboxLbboxangLang 式(2)
其中λcls、λbbox、λang分别为分类损失、边框回归损失、角度回归损失的系数,采用三个超参数系数分别为0.5、1.0、0.05;
对于二分类损失Lcls,采用Focal Loss损失函数,公式如式(3);
Figure FDA0003758194330000031
其中,α代表正负样本的权重超参数,γ代表难例学习权重;对于边框回归损失Lbbox,采用GIOU损失函数,公式如式(4);
Figure FDA0003758194330000041
其中,C代表预测边框和真实边框的最小外接矩形的面积,A∪B代表预测边框和真实边框面积的并集,GIOU损失函数能解决预测边框和真实框没有重叠时,优化方向不明确的问题;
对于角度回归损失Lang,采用Smooth L1损失函数计算角度的回归误差,公式如式(5);
Figure FDA0003758194330000042
式中x表示角度预测值与真实值之间的差值;Smooth L1损失函数融合了L1损失函数和L2损失函数的优点,在回归的角度值与真实值差距较大时,梯度不会过大,能保证梯度的稳定,在角度值与真实值差距较小时,梯度能平滑变小,使得角度值能收敛到最优值;
第二阶段的检测损失为级联检测器的损失,包含三个级联部分的损失;对于每个级联部分的损失又分为两个部分,即分类损失Lc和边框回归损失Lreg,公式表示如式(6);
Figure FDA0003758194330000043
其中,边框回归损失Lreg采用Smooth L1损失函数,分别对边框的中心点偏移量和宽高偏移量进行回归,分类损失采用交叉熵损失函数;
交叉熵损失函数Lc公式表示如式(7);
Figure FDA0003758194330000044
其中,p表示预测结果经过softmax后,在当前类别下的预测概率值;
第二阶段的总损失包含三个级联部分的损失,公式表示如式(8);
Figure FDA0003758194330000045
至此,CenterNet2总损失函数表示如式(9);
Ltotal=Lone+Ltwo 式(9)
步骤2.3.优化器;
计算目标函数关于当前参数的梯度,计算当前时刻的下降梯度,根据下降梯度进行更新参数;设定待优化参数为ω,目标函数为f(x),初始学习率为α,迭代期数为epoch,其中gt是当前参数的梯度;参数更新公式如式(10):
Wt+1=Wt-α·gt 式(10)
CenterNet2网络网络模型使用梯度下降进行优化,批处理大小BatchSize设为8,总迭代次数Max Iteration为47475,学习率α初始化为0.01,并分别在迭代15000和25000次时,将学习率衰减为当前值的1/10;优化器指引损失函数的各个参数往正确的方向更新合适的大小,使得更新后的各个参数让损失函数值不断逼近全局最小。
CN202210864923.6A 2022-07-21 2022-07-21 一种基于旋转的CenterNet2目标检测方法 Pending CN115187786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210864923.6A CN115187786A (zh) 2022-07-21 2022-07-21 一种基于旋转的CenterNet2目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210864923.6A CN115187786A (zh) 2022-07-21 2022-07-21 一种基于旋转的CenterNet2目标检测方法

Publications (1)

Publication Number Publication Date
CN115187786A true CN115187786A (zh) 2022-10-14

Family

ID=83521623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210864923.6A Pending CN115187786A (zh) 2022-07-21 2022-07-21 一种基于旋转的CenterNet2目标检测方法

Country Status (1)

Country Link
CN (1) CN115187786A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937672A (zh) * 2022-11-22 2023-04-07 南京林业大学 一种基于深度神经网络的遥感旋转目标检测方法
CN115937497A (zh) * 2023-01-04 2023-04-07 厦门理工学院 基于多尺度特征的车辆检测方法
CN116071773A (zh) * 2023-03-15 2023-05-05 广东电网有限责任公司东莞供电局 检测电网建设类档案中表格的方法、装置、介质和设备
CN116340807A (zh) * 2023-01-10 2023-06-27 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937672A (zh) * 2022-11-22 2023-04-07 南京林业大学 一种基于深度神经网络的遥感旋转目标检测方法
CN115937497A (zh) * 2023-01-04 2023-04-07 厦门理工学院 基于多尺度特征的车辆检测方法
CN116340807A (zh) * 2023-01-10 2023-06-27 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN116340807B (zh) * 2023-01-10 2024-02-13 中国人民解放军国防科技大学 宽带频谱信号检测与分类网络
CN116071773A (zh) * 2023-03-15 2023-05-05 广东电网有限责任公司东莞供电局 检测电网建设类档案中表格的方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN109101897A (zh) 水下机器人的目标检测方法、系统及相关设备
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN114565860B (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN106373146B (zh) 一种基于模糊学习的目标跟踪方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN115223057A (zh) 多模态遥感图像联合学习的目标检测统一模型
CN114241250A (zh) 一种级联回归目标检测方法、装置及计算机可读存储介质
CN109344777A (zh) 基于elm的高光谱遥感影像土地利用覆盖的优化分类方法
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN115331162A (zh) 一种跨尺度红外行人检测方法、系统、介质、设备及终端
CN113609904B (zh) 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
Wang et al. Improvement of non-maximum suppression in RGB-D object detection
CN111582057B (zh) 一种基于局部感受野的人脸验证方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination