CN114494812A - 一种基于改进CenterNet的图像小目标检测方法 - Google Patents

一种基于改进CenterNet的图像小目标检测方法 Download PDF

Info

Publication number
CN114494812A
CN114494812A CN202210141099.1A CN202210141099A CN114494812A CN 114494812 A CN114494812 A CN 114494812A CN 202210141099 A CN202210141099 A CN 202210141099A CN 114494812 A CN114494812 A CN 114494812A
Authority
CN
China
Prior art keywords
image
target
representing
convolution
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210141099.1A
Other languages
English (en)
Inventor
杨科华
谷依
罗嘉明
张曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210141099.1A priority Critical patent/CN114494812A/zh
Publication of CN114494812A publication Critical patent/CN114494812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进CenterNet的图像小目标检测方法,包括获取原始图像,对原始图像进行mosaic数据增强,增加原始图像中小目标的样本量;使用注意力机制增强后的骨干网络提取图像的特征;对骨干网络提取的图像的特征进行多感受野融合,使用可变形卷积上采样;对进行多感受野融合,使用可变形卷积上采样处理后的特征图进行预测,得到热力图,目标的宽、高和中心点坐标;从热力图提取出检测框,得到检测结果。本发明通过对训练数据的增强,增加小目标的样本量;通道注意力增强和空间注意力增强能够有效地区分小目标和背景信息;以及多重感受野融合和高分辨率特征图的结合,能够有效提升小目标检测精度。

Description

一种基于改进CenterNet的图像小目标检测方法
技术领域
本发明属于图像处理领域,具体涉及一种基于改进CenterNet的图像小目标检测方法。
背景技术
目标检测结合了目标定位与目标分类两大任务,被广泛应用于人脸识别,行人检测,自动驾驶,智能监控等计算机领域。近年来基于卷积网络的目标检测算法不断发展,按是否利用锚框产生候选框,分为基于锚框检测算法,如Faster R-CNN、Mask R-CNN等的twostage框架和YOLO、SSD、RetinaNet等的one stage框架;无锚框检测算法,如CornerNet、ExtremeNet、CenterNet、FCOS等。小目标是指图像中尺寸小于32×32像素的目标,由于其像素少的特点,主流目标检测算法对小目标的检测效果都比较差。
基于锚框的算法需要一组非常大的锚框,这是因为检测器被训练用以分类每个锚框是否与真实框尽可能的重叠,所以需要大量的框以确保与大多数的真实框最大程度的重叠.最终只有一小部分框与真实框重合,这会导致正负样本的不平衡,并减慢了训练的速度。由于小目标的像素信息少,和锚框的重叠部分更小,同时需要大量小尺寸的锚框,加剧对小目标的学习难度。
无锚框算法通常采用基于关键点来完成定位目标,避免了锚框难以匹配小目标的缺点,并且由于减少了大量锚框的匹配运算,加速了检测的速度。CenterNet作为无锚框检测算法,直接利用目标物体中心点的特征信息进行目标分类和边界回归,检测精度和实时性都取得了不错的结果。但是由于缺乏对小目标的专门设计,在下采样的过程中小目标的特征信息大量丢失,导致小目标的检测精度不够理想。
发明内容
本发明的目的在于提供一种基于改进CenterNet的图像小目标检测方法,该方法能够有效提升小目标检测精度。
本发明提供的这种基于改进CenterNet的图像小目标检测方法,包括如下步骤:
S1.获取原始图像,对原始图像进行mosaic数据增强,增加原始图像中小目标的样本量;
S2.使用注意力机制增强后的骨干网络提取图像的特征;
S3.对骨干网络提取的图像的特征进行多感受野融合,使用可变形卷积上采样;
S4.对进行多感受野融合,使用可变形卷积上采样处理后的特征图进行预测,得到热力图,目标的宽、高和中心点坐标;
S5.从热力图提取出检测框,得到检测结果。
所述的步骤S1,包括加载数据集,遍历数据集序列,若命中随机数,则进行mosaic扩充,否则直接加载图片和标签信息;从数据集中随机选取3张图像和当前图像增强为新的训练图像,初始化拼接图像的中心点坐标xc和yc,对四张图片进行翻转、缩放或色域变化操作,将四张图片分别填充到拼接图像的四个方向;更新原始图像的标注信息的在拼接图像中的坐标,返回拼接图像,类别信息,标注信息作为训练数据。
所述的步骤S2,包括对原始图像进行卷积得到特征图;将中间特征图依次通过通道和空间两个维度依次推断注意力图,然后将注意力图与输入特征图相乘进行自适应特征优化;通道注意力机制包括利用平均池化和最大池化来聚合特征映射的空间信息,生成被平均池化的特征
Figure BDA0003506965500000021
和被最大池化的特征
Figure BDA0003506965500000022
将被平均池化的特征
Figure BDA0003506965500000023
和被最大池化的特征
Figure BDA0003506965500000024
前向送入一个共享网络,压缩输入特征图的空间维数,逐元素求和合并,产生通道注意力图Mc∈RC×1×1;共享网络包括多层感知机(MLP),MLP包括一个隐藏层;隐藏层的激活大小设置为RC/r×1×1,其中,R表示张量空间;C表示图像的通道数;c表示通道的含义;r表示缩减率;通道注意力机制表示为:
Figure BDA0003506965500000025
其中,σ(·)表示sigmoid函数,MLP的权重尺寸为W0∈RC×1×1和W1∈RC×1×1,R表示张量空间;C表示图像的通道数;W0表示隐藏层的权重;W1表示输出层的权重;AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;
首先沿着通道轴进行平均池化操作和最大池化操作,生成两个2D图,两个2D图包括沿着通道被平均池化的特征
Figure BDA0003506965500000031
和沿着通道被最大池化的特征
Figure BDA0003506965500000032
Figure BDA0003506965500000033
R表示张量空间,H表示图像的高,W表示图像的宽,将两个2D图进行拼接,生成高效特征描述符,使用一个卷积层生成一个空间注意力图空间Ms(F)∈RH×W;获取2通道的空间注意力图空间Ms(F):
Figure BDA0003506965500000034
其中,σ(·)表示sigmoid函数;f7×7表示一个卷积核尺寸为7×7的卷积操作;AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;特征图通过四层残差模块下采样,降低分辨率。
所述的步骤S3,包括如下步骤:
A1.通过三个核为5×5,9×9,13×13的最大池化,拼接得到新的特征图,在特征图大小不变的情况下,进行多重感受野融合;
A2.通过三层可变形卷积对特征图进行上采样,普通卷积包括,以对于每个普通卷积的输出y(p0),p0表示普通卷积采样中心点;都要从x上采样,向四周扩散,(-1,-1)表示x(p0)的左上角,(1,1)表示x(p0)的右下角;x(p0)表示中心点的值;R={(-1,-1),(-1,0),...,(0,1),(1,1)},普通卷积的输出y(p0)如下:
Figure BDA0003506965500000035
其中,pn表示对R中所列位置的枚举;w表示卷积核的参数;x(p0+pn)表示中心点向四周扩散后的点的值;
可变形卷积加入偏移量,给每个采样点添加权重:
Figure BDA0003506965500000036
其中,y(p)表示可变形卷积的输出;pn表示对R中所列位置的枚举;wk表示第k个卷积核的参数;p表示可变形卷积采样中心点;pk表示中心点向四周扩散的位移;Δpk表示偏移量;x(p+pk+Δpk)表示各采样点的值;Δmk表示权重系数;
A3.将反卷积的中间结果和骨干网络提取特征的中间特征进行结合,增强小目标的特征信息。
所述的步骤S4,包括如下步骤:
B1.对于Ground Truth的关键点,位置为p∈R2,计算得到低分辨率上对应的关键点
Figure BDA0003506965500000041
将关键点通过高斯函数
Figure BDA0003506965500000042
计算中心点周围的点权重,其中,x表示周围点x轴坐标;y表示周围点y轴坐标;c表示通道的含义;
Figure BDA0003506965500000043
表示中心点x轴坐标;
Figure BDA0003506965500000044
表示中心点y轴坐标;σp表示目标尺度-自适应的标准方差;将高斯核Yxyc分散到热力图
Figure BDA0003506965500000045
上,H表示图像的高,W表示图像的宽,R表示张量空间,C表示图像的通道数;若对于同个关键点或同个类别c,有两个高斯函数发生重叠,选择元素级最大的,训练目标函数,像素级逻辑回归的焦点损失Lk为:
Figure BDA0003506965500000046
其中,N表示图像关键点个数;α和β表示焦点损失的超参数,x表示x轴坐标;y表示y轴坐标;z表示z轴坐标;Yxyz表示高斯函数结果值;
Figure BDA0003506965500000047
表示热力图的预测值;log表示取对数,用于计算信息量;
B2.设骨干网络输出的偏置值为
Figure BDA0003506965500000048
R表示张量空间,H表示图像的高,W表示图像的宽,C表示通道值;采用L1损失训练骨干网络输出的偏置值
Figure BDA0003506965500000049
Figure BDA00035069655000000410
其中,Loffset表示目标偏移量的损失;N表示图像关键点个数;
Figure BDA00035069655000000411
表示骨干网络输出的偏置值;p表示目标框的中心点;R表示下采样倍数;
Figure BDA0003506965500000051
表示下采样之后的目标框的中心点,
Figure BDA0003506965500000052
Figure BDA0003506965500000053
表示偏差值;
B3.设第k个目标,类别为ck的目标框的表示为
Figure BDA0003506965500000054
则中间点坐标为:
Figure BDA0003506965500000055
目标框的长和宽表示为:
Figure BDA0003506965500000056
Figure BDA0003506965500000057
表示第k个目标的目标框左下角的x坐标;
Figure BDA0003506965500000058
表示第k个目标的目标框左下角的y坐标;
Figure BDA0003506965500000059
表示第k个目标的目标框右上角的x坐标;
Figure BDA00035069655000000510
表示第k个目标的目标框右上角的y坐标;采用L1损失对目标框的长和宽进行训练:
Figure BDA00035069655000000511
其中,Lsize表示目标尺寸的损失;N表示图像关键点个数;
Figure BDA00035069655000000512
表示卷积网络输出的结果,
Figure BDA00035069655000000513
R表示张量空间,H表示图像的高,W表示图像的宽,C表示图像的通道数;sk表示目标框的长或宽;
B4.根据预设权重,获取整体损失函数:
Ldet=LksizeLsizeoffsetLoffset
其中,Lk表示像素级逻辑回归的焦点损失;Lsize表示目标尺寸的损失;Loffset表示目标偏移量的损失;λsize表示Lsize的权重;λoffset表示Loffset的权重。
所述的步骤S5,包括采用sigmoid函数将热力图归一化;使用3×3最大池化,得到热力图中,值比周围8个临近点都大的点;根据热力图的分数筛选出100个点和对应的类别;结合对应的宽、高和中心坐标,通过中心点坐标和目标的宽高计算出目标框的四个角点坐标,得到检测结果。
本发明提供的这种基于改进CenterNet的图像小目标检测方法,利用通过对训练数据的增强,增加小目标的样本量;通道注意力增强和空间注意力增强能够有效地区分小目标和背景信息;以及多重感受野融合和高分辨率特征图的结合,能够有效提升小目标检测精度。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的网络结构示意图。
图3为本发明实施例的mosaic数据增强效果示意图。
图4-5为本发明实施例的检测效果示意图。
具体实施方式
如图1为本发明方法的流程示意图:如图2为本发明方法的网络结构示意图。本发明提供的这种基于改进CenterNet的图像小目标检测方法,包括如下步骤:
S1.获取原始图像,对原始图像进行mosaic数据增强,增加原始图像中小目标的样本量;
S2.使用注意力机制增强后的骨干网络提取图像的特征;
S3.对骨干网络提取的图像的特征进行多感受野融合,使用可变形卷积上采样;
S4.对进行多感受野融合,使用可变形卷积上采样处理后的特征图进行预测,得到热力图,目标的宽、高和中心点坐标;
S5.从热力图提取出检测框,得到检测结果。
所述的步骤S1,包括加载数据集,遍历数据集序列,如果命中随机数则进行mosaic扩充,否则直接加载图片和标签信息,通过命中随机数能保证1/2的训练数据会进行mosaic增强,避免中大目标训练减少,降低整体精度;从数据集中随机选取3张图像和当前图像增强为新的训练图像,初始化拼接图像的中心点坐标xc和yc,对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作,将四张图片分别填充到拼接图像的四个方向;更新原始图像的标注信息的在拼接图像中的坐标,返回拼接图像,类别信息,标注信息作为训练数据。
所述的步骤S2,包括对原始图像进行卷积得到特征图;将中间特征图依次通过通道和空间两个维度依次推断注意力图,然后将注意力图与输入特征图相乘进行自适应特征优化。通道注意力机制是利用平均池化和最大池化来聚合特征映射的空间信息,生成两个不同的空间上下文描述符:被平均池化的特征
Figure BDA0003506965500000061
和被最大池化的特征
Figure BDA0003506965500000062
将被平均池化的特征
Figure BDA0003506965500000063
和被最大池化的特征
Figure BDA0003506965500000064
前向送入一个共享网络,压缩输入特征图的空间维数,逐元素求和合并,产生通道注意力图Mc∈RC×1×1;共享网络包括多层感知机(MLP),多层感知机包括一个隐藏层;为了减少参数开销,隐藏层的激活大小设置为RC/r×1×1,其中,R表示张量空间;C表示图像的通道数;c表示通道的含义;r表示缩减率;通道注意力机制表示为:
Figure BDA0003506965500000071
其中,σ(·)表示sigmoid函数,sigmoid函数表示为
Figure BDA0003506965500000072
MLP的权重尺寸为W0∈RC×1×1和W1∈RC×1×1,R表示张量空间;C表示图像的通道数;W0表示隐藏层的权重;W1表示输出层的权重;MLP由被平均池化的特征
Figure BDA0003506965500000073
和被最大池化的特征
Figure BDA0003506965500000074
的输入共享,在经过ReLU激活函数处理之后为W0,即池化特征在输入到MLP之前,需要经过ReLU函数进行处理。AvgPool(·)表示平均池化,MaxPool(·)表示最大池化。
利用特征的空间相互关系可以生存一个空间注意力图。为了计算空间注意力,首先沿着通道轴进行平均池化操作和最大池化操作,生成两个2D图,两个2D图包括沿着通道被平均池化的特征
Figure BDA0003506965500000075
和沿着通道被最大池化的特征
Figure BDA0003506965500000076
Figure BDA0003506965500000077
R表示张量空间,H表示图像的高,W表示图像的宽,将两个2D图进行拼接,生成高效特征描述符,使用一个卷积层生成一个空间注意力图空间Ms(F)∈RH×W;注意力机制是对通道进行压缩,在通道维度分别进行了平均值池化和最大值池化,接着将提取到的特征图(通道数都为1)合并得到一个2通道的空间注意力图空间Ms(F):
Figure BDA0003506965500000078
其中,σ(·)表示sigmoid函数;f7×7表示一个卷积核尺寸为7×7的卷积操作;AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;特征图通过四层残差模块下采样,降低分辨率。
所述的步骤S3,包括如下步骤:
A1.通过三个核为5×5,9×9,13×13的最大池化,拼接得到新的特征图,在特征图大小不变的情况下,进行多重感受野融合,丰富了特征图的表达能力;
A2.通过三层可变形卷积对特征图进行上采样,可变形卷积的卷积位置可变形,并非在传统的N×N的网格上做卷积,能够准确地提取到所需特征(传统的卷积仅仅只能提取到矩形框的特征)。普通卷积,以3×3卷积为例对于每个普通卷积的输出y(p0),p0表示普通卷积采样中心点;都要从x上采样9个位置,向四周扩散,(-1,-1)表示x(p0)的左上角,(1,1)表示x(p0)的右下角;x(p0)表示中心点的值;R={(-1,-1),(-1,0),...,(0,1),(1,1)},普通卷积的输出y(p0)如下:
Figure BDA0003506965500000081
其中,pn表示对R中所列位置的枚举;w表示卷积核的参数;x(p0+pn)表示中心点向四周扩散的点的值;
可变形卷积在传统卷积上加入偏移量,让卷积变形为不规则卷积。为了避免可变形卷积可能引入无用的上下文区域来干扰特征提取,给每个采样点添加权重:
Figure BDA0003506965500000082
其中,y(p)表示可变形卷积的输出;pn表示对R中所列位置的枚举;wk表示第k个卷积核的参数;p表示可变形卷积采样中心点;pk表示中心点向四周扩散的位移;Δpk表示偏移量;x(p+pk+Δpk)表示各采样点的值;Δmk表示权重系数;
A3.将反卷积的中间结果和backbone(骨干网络)提取特征的中间特征进行结合,增强小目标因下采样而丢失的特征信息。
所述的步骤S4,包括如下步骤:
B1.对于Ground Truth的关键点,位置为p∈R2,计算得到低分辨率上对应的关键点
Figure BDA0003506965500000083
将关键点通过高斯函数
Figure BDA0003506965500000084
计算中心点周围的点权重,其中,x表示周围点x轴坐标;y表示周围点y轴坐标;c表示通道的含义;
Figure BDA0003506965500000091
表示x轴中心点坐标;
Figure BDA0003506965500000092
表示y轴中心点坐标;σp表示与目标大小相关的标准差,在本实施例中为目标尺度-自适应的标准方差;将高斯核Yxyc分散到热力图
Figure BDA0003506965500000093
上,H表示图像的高,W表示图像的宽,R表示张量空间,C表示图像的通道数;若对于同个关键点或同个类别c,有两个高斯函数发生重叠,选择元素级最大的,训练目标函数,像素级逻辑回归的焦点损失Lk为:
Figure BDA0003506965500000094
其中,N表示图像关键点个数;α和β为焦点损失的超参数,在本实施例中α取2,β取4;x表示x轴坐标;y表示y轴坐标;z表示z轴坐标;Yxyz表示高斯函数结果值;
Figure BDA0003506965500000095
表示热力图的预测值;log表示取对数,用于计算信息量。
B2.由于三个骨干网络输出的特征图的空间分辨率变为原来输入图像的四分之一。相当于输出特征图上一个像素点对应原始图像的4×4的区域,这会带来较大的误差,因此引入了偏置值和偏置的损失值。设骨干网络输出的偏置值为
Figure BDA0003506965500000096
R表示张量空间,H表示图像的高,W表示图像的宽,C表示图像的通道数;采用L1损失训练骨干网络输出的偏置值
Figure BDA0003506965500000097
Figure BDA0003506965500000098
其中,Loffset表示目标偏移量的损失;N表示图像关键点个数;
Figure BDA0003506965500000099
表示骨干网络输出的偏置值;p表示目标框的中心点;R表示下采样倍数;
Figure BDA00035069655000000910
表示下采样之后的目标框的中心点,
Figure BDA00035069655000000911
Figure BDA00035069655000000912
表示偏差值;
B3.设第k个目标,类别为ck的目标框的表示为
Figure BDA00035069655000000913
则中间点坐标为:
Figure BDA00035069655000000914
目标框的长和宽表示为:
Figure BDA00035069655000000915
Figure BDA00035069655000000916
表示第k个目标的目标框左下角的x坐标;
Figure BDA0003506965500000101
表示第k个目标的目标框左下角的y坐标;
Figure BDA0003506965500000102
表示第k个目标的目标框右上角的x坐标;
Figure BDA0003506965500000103
表示第k个目标的目标框右上角的y坐标;采用L1损失对目标框的长和宽进行训练:
Figure BDA0003506965500000104
其中,Lsize表示目标尺寸的损失;N表示图像关键点个数;
Figure BDA0003506965500000105
表示卷积网络输出的结果,
Figure BDA0003506965500000106
R表示张量空间,H表示图像的高,W表示图像的宽,C表示图像的通道数;sk表示目标框的长或宽;
B4.根据预设权重,获取整体损失函数:
Ldet=LksizeLsizeoffsetLoffset
其中,Lk表示像素级逻辑回归的焦点损失;Lsize表示目标尺寸的损失;Loffset表示目标偏移量的损失;λsize表示Lsize的权重;λoffset表示Loffset的权重。
所述的步骤S5,包括采用sigmoid函数将热力图归一化;使用3×3最大池化,得到热力图中,值比周围8个临近点都大的点;根据热力图的分数筛选出100个点和对应的类别;结合对应的宽、高和中心坐标,通过中心点坐标和目标的宽高计算出目标框的四个角点坐标,得到检测结果。
在本实施例中:
本案例选择Pascal VOC数据集进行展示。该数据集包含11540张图片,20个类别,27450被标注的物体。假设某一用户希望在该数据集上训练出高精度且小目标识别率高的目标检测模型。
如图3为本发明实施例的mosaic数据增强效果示意图。步骤一、Pascal VOC数据集的图像都是尺寸512×512的图像,获取训练集的annotion文件,得到所有训练集的图像标注信息和id。对命中随机数的图像进行mosaic增强,从训练集中随机获取另外三张图片,进行缩放等操作,之后将四张图片拼接为新的图像。具体效果如图3所示。
步骤二、对图像卷积提取的特征进行通道注意力和空间注意力增强,通道注意力增强表达式为
Figure BDA0003506965500000107
空间注意力增强表达式为,
Figure BDA0003506965500000111
其中,σ(·)表示sigmoid函数,sigmoid函数表示为
Figure BDA0003506965500000112
MLP的权重尺寸为W0∈RC×1×1和W1∈RC×1×1。AvgPool(·)表示平均池化,MaxPool(·)表示最大池化。之后通过四次下采样,特征图的尺度从512×512压缩到64×64。再通过双维度注意力机制增强特征图的特征表现。
步骤三、对当前64×64的特征图分别进行5×5,9×9,13×13的最大池化,拼接得到新的特征图,在特征图大小不变的情况下,进行多重感受野融合,实现了局部特征和全局特征的融合,有利于检测图像中存在多种尺寸目标的情况。之后对64×64的特征图使用三层可变形卷积上采样,可变形卷积的输出为
Figure BDA0003506965500000113
其中,y(p)表示可变形卷积的输出;pn表示对R中所列位置的枚举;wk表示第k个卷积核的参数;p表示可变形卷积采样中心点;pk表示中心点向四周扩散的位移;Δpk表示偏移量;x(p+pk+Δpk)表示各采样点的值;Δmk表示权重系数;得到256*256的特征图。同时为了补充下采样过程中小目标的特征信息损失,在上采样过程中和下采样产生的同分辨率中间特征图进行融合。
步骤四、由特征图获取热力图,目标的宽高和中心点坐标。针对这些设计了由heatmap loss,offset loss,size loss三部分组成的损失函数。
训练数据通过高斯核
Figure BDA0003506965500000114
的高斯函数转化为热力图,高斯函数能够让中心点之外的网格点也有较小的权重。其中,x表示x轴坐标;y表示y轴坐标;c表示通道的含义;
Figure BDA0003506965500000115
表示x轴中心点坐标;
Figure BDA0003506965500000116
表示y轴中心点坐标;σp表示与目标大小相关的标准差。由于下采样之后的特征图的空间分辨率变为原来输入图像的四分之一。相当于输出特征图上一个像素点对应原始图像的4×4的区域,这会带来较大的误差,因此引入了偏置值和偏置的损失值。损失函数使用L1损失函数。
目标框的定位表示为
Figure BDA0003506965500000121
则中间点坐标为:
Figure BDA0003506965500000122
目标框的长和宽表示为:
Figure BDA0003506965500000123
Figure BDA0003506965500000124
表示第k个目标的目标框左下角的x坐标;
Figure BDA0003506965500000125
表示第k个目标的目标框左下角的y坐标;
Figure BDA0003506965500000126
表示第k个目标的目标框右上角的x坐标;
Figure BDA0003506965500000127
表示第k个目标的目标框右上角的y坐标;采用L1损失对目标框进行训练:三个损失函数加权之后得到总的损失,Ldet=LksizeLsizeoffsetLoffset,其中,Lk表示像素级逻辑回归的焦点损失;Lsize表示目标尺寸的损失;Loffset表示目标偏移量的损失;在本实施例中,λsize表示Lsize的权重,λsize取0.1;λoffset表示Loffset的权重,λoffset取1。
如图4-5为本发明实施例的检测效果示意图。步骤五、由于结果得到的是热力图,和常规使用的检测框不同,需要将热力图转换为检测框。通过sigmoid函数将热力图归一化。之后通过3×3卷积筛选出值比周围8个点大的100个点作为关键点。结合对应的宽高和中心坐标,得到检测结果。检测结果如图4-5所示。通过观察,本发明能够准确识别自然场景图片下的小型目标,并且检测框定位精准,从图4的检测结果看,本发明能识别图像中所占像素非常小的船。从图5的检测结果看,本发明对复杂场景的小目标识别效果优秀,并且能在物体存在遮挡的情况下进行精确识别。

Claims (6)

1.一种基于改进CenterNet的图像小目标检测方法,其特征在于包括如下步骤:
S1.获取原始图像,对原始图像进行mosaic数据增强,增加原始图像中小目标的样本量;
S2.使用注意力机制增强后的骨干网络提取图像的特征;
S3.对骨干网络提取的图像的特征进行多感受野融合,使用可变形卷积上采样;
S4.对进行多感受野融合,使用可变形卷积上采样处理后的特征图进行预测,得到热力图,目标的宽、高和中心点坐标;
S5.从热力图提取出检测框,得到检测结果。
2.根据权利要求1所述的基于改进CenterNet的图像小目标检测方法,其特征在于所述的步骤S1,包括加载数据集,遍历数据集序列,若命中随机数,则进行mosaic扩充,否则直接加载图片和标签信息;从数据集中随机选取3张图像和当前图像增强为新的训练图像,初始化拼接图像的中心点坐标xc和yc,对四张图片进行翻转、缩放或色域变化操作,将四张图片分别填充到拼接图像的四个方向;更新原始图像的标注信息的在拼接图像中的坐标,返回拼接图像,类别信息,标注信息作为训练数据。
3.根据权利要求2所述的基于改进CenterNet的图像小目标检测方法,其特征在于所述的步骤S2,包括对原始图像进行卷积得到特征图;将中间特征图依次通过通道和空间两个维度依次推断注意力图,然后将注意力图与输入特征图相乘进行自适应特征优化;通道注意力机制包括利用平均池化和最大池化来聚合特征映射的空间信息,生成被平均池化的特征
Figure FDA0003506965490000011
和被最大池化的特征
Figure FDA0003506965490000012
将被平均池化的特征
Figure FDA0003506965490000013
和被最大池化的特征
Figure FDA0003506965490000014
前向送入一个共享网络,压缩输入特征图的空间维数,逐元素求和合并,产生通道注意力图Mc∈RC×1×1;共享网络包括MLP,MLP包括一个隐藏层;隐藏层的激活大小设置为RC/r×1×1,其中,R表示张量空间;C表示图像的通道数;c表示通道的含义;r表示缩减率;通道注意力机制表示为:
Figure FDA0003506965490000021
其中,σ(·)表示sigmoid函数,MLP的权重尺寸为W0∈RC×1×1和W1∈RC×1×1,R表示张量空间;C表示图像的通道数;W0表示隐藏层的权重;W1表示输出层的权重;AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;
首先沿着通道轴进行平均池化操作和最大池化操作,生成两个2D图,两个2D图包括沿着通道被平均池化的特征
Figure FDA0003506965490000022
和沿着通道被最大池化的特征
Figure FDA0003506965490000023
Figure FDA0003506965490000024
R表示张量空间,H表示图像的高,W表示图像的宽,将两个2D图进行拼接,生成高效特征描述符,使用一个卷积层生成一个空间注意力图空间Ms(F)∈RH×W;获取2通道的空间注意力图空间Ms(F):
Figure FDA0003506965490000025
其中,σ(·)表示sigmoid函数;f7×7表示一个卷积核尺寸为7×7的卷积操作;AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;特征图通过四层残差模块下采样,降低分辨率。
4.根据权利要求3所述的基于改进CenterNet的图像小目标检测方法,其特征在于所述的步骤S3,包括如下步骤:
A1.通过三个核为5×5,9×9,13×13的最大池化,拼接得到新的特征图,在特征图大小不变的情况下,进行多重感受野融合;
A2.通过三层可变形卷积对特征图进行上采样,普通卷积包括,以对于每个普通卷积的输出y(p0),p0表示普通卷积采样中心点;都要从x上采样,向四周扩散,(-1,-1)表示x(p0)的左上角,(1,1)表示x(p0)的右下角;x(p0)表示中心点的值;R={(-1,-1),(-1,0),...,(0,1),(1,1)},普通卷积的输出y(p0)如下:
Figure FDA0003506965490000026
其中,pn表示对R中所列位置的枚举;w表示卷积核的参数;x(p0+pn)表示中心点向四周扩散后的点的值;
可变形卷积加入偏移量,给每个采样点添加权重:
Figure FDA0003506965490000031
其中,y(p)表示可变形卷积的输出;pn表示对R中所列位置的枚举;wk表示第k个卷积核的参数;p表示可变形卷积采样中心点;pk表示中心点向四周扩散的位移;Δpk表示偏移量;x(p+pk+Δpk)表示各采样点的值;Δmk表示权重系数;
A3.将反卷积的中间结果和骨干网络提取特征的中间特征进行结合,增强小目标的特征信息。
5.根据权利要求4所述的基于改进CenterNet的图像小目标检测方法,其特征在于所述的步骤S4,包括如下步骤:
B1.对于Ground Truth的关键点,位置为p∈R2,计算得到低分辨率上对应的关键点
Figure FDA0003506965490000032
将关键点通过高斯函数
Figure FDA0003506965490000033
计算中心点周围的点权重,其中,x表示周围点x轴坐标;y表示周围点y轴坐标;c表示通道的含义;
Figure FDA0003506965490000034
表示中心点x轴坐标;
Figure FDA0003506965490000035
表示中心点y轴坐标;σp表示目标尺度-自适应的标准方差;将高斯核Yxyc分散到热力图
Figure FDA0003506965490000036
上,H表示图像的高,W表示图像的宽,R表示张量空间,C表示图像的通道数;若对于同个关键点或同个类别c,有两个高斯函数发生重叠,选择元素级最大的,训练目标函数,像素级逻辑回归的焦点损失Lk为:
Figure FDA0003506965490000037
其中,N表示图像关键点个数;α和β表示焦点损失的超参数,x表示x轴坐标;y表示y轴坐标;z表示z轴坐标;Yxyz表示高斯函数结果值;
Figure FDA0003506965490000038
表示热力图的预测值;log表示取对数,用于计算信息量;
B2.设骨干网络输出的偏置值为
Figure FDA0003506965490000039
Figure FDA00035069654900000310
R表示张量空间,H表示图像的高,W表示图像的宽,C表示图像的通道数;采用L1损失训练骨干网络输出的偏置值
Figure FDA0003506965490000041
Figure FDA0003506965490000042
其中,Loffset表示目标偏移量的损失;N表示图像关键点个数;
Figure FDA0003506965490000043
表示骨干网络输出的偏置值;p表示目标框的中心点;R表示下采样倍数;
Figure FDA0003506965490000044
表示下采样之后的目标框的中心点,
Figure FDA0003506965490000045
Figure FDA0003506965490000046
表示偏差值;
B3.设第k个目标,类别为ck的目标框的表示为
Figure FDA0003506965490000047
则中间点坐标为:
Figure FDA0003506965490000048
目标框的长和宽表示为:
Figure FDA0003506965490000049
Figure FDA00035069654900000410
表示第k个目标的目标框左下角的x坐标;
Figure FDA00035069654900000411
表示第k个目标的目标框左下角的y坐标;
Figure FDA00035069654900000412
表示第k个目标的目标框右上角的x坐标;
Figure FDA00035069654900000413
表示第k个目标的目标框右上角的y坐标;采用L1损失对目标框的长和宽进行训练:
Figure FDA00035069654900000414
其中,Lsize表示目标尺寸的损失;N表示图像关键点个数;
Figure FDA00035069654900000415
表示卷积网络输出的结果,
Figure FDA00035069654900000416
R表示张量空间,H表示图像的高,W表示图像的宽,C表示图像的通道数;sk表示目标框的长或宽;
B4.根据预设权重,获取整体损失函数:
Ldet=LksizeLsizeoffsetLoffset
其中,Lk表示像素级逻辑回归的焦点损失;Lsize表示目标尺寸的损失;Loffset表示目标偏移量的损失;λsize表示Lsize的权重;λoffset表示Loffset的权重。
6.根据权利要求5所述的基于改进CenterNet的图像小目标检测方法,其特征在于所述的步骤S5,包括采用sigmoid函数将热力图归一化;使用3×3最大池化,得到热力图中,值比周围8个临近点都大的点;根据热力图的分数筛选出100个点和对应的类别;结合对应的宽、高和中心坐标,通过中心点坐标和目标的宽高计算出目标框的四个角点坐标,得到检测结果。
CN202210141099.1A 2022-02-16 2022-02-16 一种基于改进CenterNet的图像小目标检测方法 Pending CN114494812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210141099.1A CN114494812A (zh) 2022-02-16 2022-02-16 一种基于改进CenterNet的图像小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210141099.1A CN114494812A (zh) 2022-02-16 2022-02-16 一种基于改进CenterNet的图像小目标检测方法

Publications (1)

Publication Number Publication Date
CN114494812A true CN114494812A (zh) 2022-05-13

Family

ID=81479535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210141099.1A Pending CN114494812A (zh) 2022-02-16 2022-02-16 一种基于改进CenterNet的图像小目标检测方法

Country Status (1)

Country Link
CN (1) CN114494812A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913423A (zh) * 2022-05-25 2022-08-16 中国电建集团成都勘测设计研究院有限公司 一种围岩裂隙信息的模型训练方法及提取方法
CN115661692A (zh) * 2022-11-01 2023-01-31 广东兆邦智能科技股份有限公司 一种基于改进CenterNet检测网络的无人机检测方法及系统
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN116385814A (zh) * 2023-03-07 2023-07-04 广州市妇女儿童医疗中心 一种检测目标的超声筛查方法、系统、装置及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913423A (zh) * 2022-05-25 2022-08-16 中国电建集团成都勘测设计研究院有限公司 一种围岩裂隙信息的模型训练方法及提取方法
CN115661692A (zh) * 2022-11-01 2023-01-31 广东兆邦智能科技股份有限公司 一种基于改进CenterNet检测网络的无人机检测方法及系统
CN116385814A (zh) * 2023-03-07 2023-07-04 广州市妇女儿童医疗中心 一种检测目标的超声筛查方法、系统、装置及介质
CN116385814B (zh) * 2023-03-07 2023-12-05 广州市妇女儿童医疗中心 一种检测目标的超声筛查方法、系统、装置及介质
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN114494812A (zh) 一种基于改进CenterNet的图像小目标检测方法
CN111210435A (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
CN110770752A (zh) 多尺度特征融合网络结合定位模型的害虫自动计数方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN110781744A (zh) 一种基于多层次特征融合的小尺度行人检测方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN115063425B (zh) 基于读片知识图谱的结构化检查所见生成方法及系统
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及系统
Huang et al. Attention-guided label refinement network for semantic segmentation of very high resolution aerial orthoimages
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
CN116597326A (zh) 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Guo et al. Salient object detection from low contrast images based on local contrast enhancing and non-local feature learning
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
CN116883841A (zh) 一种基于多任务优化的萱草叶片病害检测方法及系统
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination