CN116645523B

CN116645523B - 一种基于改进RetinaNet的快速目标检测方法

Info

Publication number: CN116645523B
Application number: CN202310904296.9A
Authority: CN
Inventors: 李忠涛; 刘圣勇; 刘武军; 刘逸麟; 张玉璘
Original assignee: Jiangxi Lanrui Storage Technology Co ltd
Current assignee: Jiangxi Lanrui Storage Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-12-01
Anticipated expiration: 2043-07-24
Also published as: CN116645523A

Abstract

本申请实施例提供了一种基于改进RetinaNet的快速目标检测方法，涉及计算机视觉领域。用于在保证检测准确率不大幅度下降的同时，大幅提高RetinaNet检测速度，提高计算效率。所述方法包括：针对大、中、小三种尺度目标分别训练三种目标位置检测头，在低分辨率特征图检测目标位置，将位置还原到高分辨率特征图，并在三种不同的分辨率特征图上检测三种尺度的目标，从而避免在高分辨率特征图检测无关背景区域，节约检测目标的计算量，提高计算效率，同时高分辨率特征图检测到的目标位置和相邻低分辨率特征图目标位置基本一致，这样操作得到的检测准确率和直接在高分辨率特征图检测得到的准确率差别较小。

Description

一种基于改进RetinaNet的快速目标检测方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于改进RetinaNet的快速目标检测方法。

背景技术

随着目标检测任务中小目标的重要性日益凸显，FPN（Feature Pyramid Network）成为一种常用的技术，用于提升小目标的检测性能。然而，FPN的浅层特征图通常具有最大的尺度，这导致在进行特征提取和后续计算时，会产生较高的计算量。这样的计算负担可能限制了在实际应用中将FPN扩展到更大的图像尺寸或更深的网络结构。为了减小计算量，同时又不损害FPN的性能，研究人员提出了一些方法和技术。一种常见的方法是通过对浅层特征图进行下采样，降低其分辨率，从而减小计算量。这可以通过使用更大的步长或者池化操作实现。通过减小浅层特征图的分辨率，可以在一定程度上减少每个像素点上的计算量，尤其是针对小目标区域，因为小目标通常不需要高分辨率的特征。另一种方法是通过引入注意力机制，将计算资源更集中地分配给感兴趣的区域。例如，可以使用空间注意力机制或通道注意力机制，根据目标的重要性或区域的显著性，调整不同层次的特征图的权重。这样可以使网络更关注对小目标检测有贡献的特征图，从而减少不必要的计算量。此外，还有一些进一步的优化策略，如网络剪枝、参数量化、硬件加速等，可以进一步降低计算量，提高FPN的计算效率。

发明内容

本发明提供一种基于改进RetinaNet的快速目标检测方法，旨在改进算法的计算效率，并控制检测平均精度AP不会大幅下降。

为解决上述技术问题，本发明对于目标检测网络模型RetinaNet作出了针对性改进，包括以下步骤：

S1、从数据集获得待检测图像，输入到RetinaNet骨干网络，并获得输出P3、P4、P5、P6、P7特征图；

S2、在原有两个用于分类和回归的检测头外，训练额外目标位置查询检测头，设置大目标位置检测头，检测P7和P6特征图，设置中目标位置检测头，检测P6和P5特征图，设置小目标位置检测头，检测P5和P4特征图；

S3、大目标位置检测头训练为只检测目标尺寸大于64的目标，中目标位置检测头训练为只检测目标尺寸在32到64的目标，小目标位置检测头训练为只检测目标尺寸在32以下的目标；检测头输出当前检测特征图每个位置存在的概率，对位置进行阈值筛选，可获得存在目标的位置；

S4、使用大目标位置检测头检测P7特征图，获得存在大目标的位置，然后将这些位置还原到P6特征图，使用大目标位置检测头检测P6特征图，获得存在大目标的位置，并和P7传来的位置合并，然后将合并位置还原到P5特征图，并将还原的位置认为是P5特征图存在大目标的位置；

S5、使用中目标位置检测头检测P6特征图，获得存在中目标的位置，然后将这些位置还原到P5特征图，使用中目标位置检测头检测P5特征图，获得存在中目标的位置，并和P6传来的位置合并，然后将合并位置还原到P4特征图，并将还原的位置认为是P4特征图存在中目标的位置；

S6、使用小目标位置检测头检测P5特征图，获得存在小目标的位置，然后将这些位置还原到P4特征图，使用小目标位置检测头检测P4特征图，获得存在小目标的位置，并和P5传来的位置合并，然后将合并位置还原到P3特征图，并将还原的位置认为是P3特征图存在小目标的位置；

S7、使用原有的分类和回归检测头检测P7和P6特征图的全部位置，使用分类和回归检测头检测P5、P4、P3存在目标的位置;

S8、基于分类和回归检测结果进行目标检测。

优选地，在步骤S4、S5、S6中使用的位置还原方法为，对于一个位置坐标（x,y），位置还原后得到四个位置为（2x，2y）、（2x+1，2y）、（2x，2y+1）、（2x+1，2y+1）。

优选地，如果输入图像大小为H×W时，特征图的大小为, 这里L代表特征图的输出层数，如P3特征图的L为3，而且（，）等于（，）。

优选地，额外的检测头由四个 3×3 卷积层组成，然后是一个额外的 3×3 卷积层用于最终预测，输入步长为的特征图，并输出热图，其中表示L层特征图位置（i，j）包含目标的概率，其中i取值范围为0到，j的取值范围为0到。

本发明同时提供一种大中小目标位置检测头，其特征在于：训练模块和检测模块；所述训练模块，用于训练检测头检测特征图每个位置是否存在不同大小尺度的目标，对于 Retinanet网络，FPN输出有P3、P4、P5、P6、P7，为输出的每层特征图，L代表层数，对于上的真实边界框，计算每个特征位置（x,y）和真实边界框中心的最小距离图，对于大目标检测头，需要检测的目标位置图为，如果大于64，则为1，否则为0，对于中目标检测头，需要检测的目标位置图为，如果小于64而且大于32，则为1，否则为0，对于小目标检测头，需要检测的目标位置图为，如果小于32，则为1，否则为0，对于为1，则代表该位置存在目标，为0则相反，对于损失函数，除原有的分类和回归损失外，增加位置检测损失项，总损失为，其中、、分别代表分类输出、回归输出、检测分数输出，、、分别代表对应的真实边界框回归，代表Focal loss，代表边界框回归损失（smooth L1 loss）；所述检测模块，使用训练的检测头检测特征图每个位置是否存在目标，使用大目标检测头检测大目标，使用中目标检测头检测中目标，使用小目标检测头检测小目标，输入特征图，得到每个位置存在目标的概率，范围为（0,1），使用阈值0.15进行判断，大于0.15则存在相应尺度的目标，小于0.15则不存在目标。

与现有技术相比，本发明具有以下技术效果：

本发明提供的技术方案通过在低分辨率特征图检测目标位置，将位置还原到高分辨率特征图，从而避免在高分辨率特征图检测无关背景区域，节约检测目标的计算量，提高计算效率，同时高分辨率特征图检测到的目标位置和相邻低分辨率特征图目标位置基本一致，这样操作得到的检测平均精度AP和直接在高分辨率特征图检测得到的平均精度AP差别较小。

附图说明

图1是本发明提供的一种基于改进RetinaNet的快速目标检测方法的检测流程图；

图2是本发明提供的Retinanet输出特征图结构；

图3是本发明提供的大目标位置查询检测头检测示意图；

图4是本发明提供的中目标位置查询检测头检测示意图；

图5是本发明提供的小目标位置查询检测头检测示意图；

具体实施方式

本发明旨在提出一种基于改进RetinaNet的快速目标检测方法，通过额外的目标检测头，在低分辨率特征图上预测小物体的粗略位置，然后使用由这些粗略位置转换到高分辨率特征图，并计算准确的检测结果，从而在高分辨率特征图避免检测无关背景区域，节约大量计计算量，同时使得检测平均精度AP不会大幅下降。

对于本申请实施例提到的目标位置查询检测头，其训练过程为：

步骤一、从数据集获得待检测图像，输入到RetinaNet骨干网络，并获得输出P3、P4、P5、P6、P7特征图，保持分类头和回归头的训练与原始 RetinaNet中的相同；

步骤二、对于额外的大、中、小目标位置检测头，单独进行训练，大目标位置检测头使用P7和P6特征图进行检测，中目标位置检测头使用P6和P5特征图进行训练，小目标位置检测头使用P5和P4特征图进行训练；

步骤三、对于上的真实边界框，计算每个特征位置（x,y）和真实边界框中心的最小距离图；

步骤四、对于大目标检测头，需要检测的目标位置图为，如果大于 64，则为1，否则为0；对于中目标检测头，需要检测的目标位置图为，如果小于64而且大于32，则为1，否则为0；对于小目标检测头，需要检测的目标位置图为，如果小于32，则为1，否则为0；对于为1，则代表该位置存在目标，为0则相反；

步骤五、对于损失函数，除原有的分类和回归损失外，增加位置检测损失项，总损失为

，其中、、分别代表分类输出、回归输出、检测分数输出，、、分别代表对应的真实边界框回归，代表Focal loss，代表边界框回归损失使用 smooth L1 loss。

请参见图 1所示，本申请实施例中的基于改进RetinaNet的快速目标检测方法的检测流程描述如下：

步骤S1：获得P3、P4、P5、P6、P7特征图；

如图2所示，从数据集获得待检测图像，输入到RetinaNet骨干网络，并获得输出P3、P4、P5、P6、P7特征图。

步骤S2：设置大、中、小三种目标位置查询检测头；

在原有两个用于分类和回归的检测头外，训练额外目标位置查询检测头，设置大目标位置检测头，检测P7和P6特征图，设置中目标位置检测头，检测P6和P5特征图，设置小目标位置检测头，检测P5和P4特征图。

步骤S3：训练大、中、小三种检测头查询对应目标位置；

大目标位置检测头训练为只检测目标尺寸大于64的目标，中目标位置检测头训练为只检测目标尺寸在32到64的目标，小目标位置检测头训练为只检测目标尺寸在32以下的目标；检测头输出当前检测特征图每个位置存在的概率，对位置进行阈值筛选，可获得存在目标的位置。

步骤S4：大目标检测头检测P7、P6，并将位置传递到P5；

如图3所示，使用大目标位置检测头检测P7特征图，获得存在大目标的位置，然后将这些位置还原到P6特征图，使用大目标位置检测头检测P6特征图，获得存在大目标的位置，并和P7传来的位置合并，然后将合并位置还原到P5特征图，并将还原的位置认为是P5特征图存在大目标的位置。

步骤S5：中目标检测头检测P6、P5，并将位置传递到P4；

如图4所示，使用中目标位置检测头检测P6特征图，获得存在中目标的位置，然后将这些位置还原到P5特征图，使用中目标位置检测头检测P5特征图，获得存在中目标的位置，并和P6传来的位置合并，然后将合并位置还原到P4特征图，并将还原的位置认为是P4特征图存在中目标的位置。

步骤S6：小目标检测头检测P5、P4，并将位置传递到P3；

如图5所示，使用小目标位置检测头检测P5特征图，获得存在小目标的位置，然后将这些位置还原到P4特征图，使用小目标位置检测头检测P4特征图，获得存在小目标的位置，并和P5传来的位置合并，然后将合并位置还原到P3特征图，并将还原的位置认为是P3特征图存在小目标的位置。

步骤S7：使用原分类和回归检测头检测P7、P6全部位置，使用原分类和回归检测头检测P5、P4、P3存在目标的位置；

对P6、P7使用原分类和回归检测头检测完整特征图，得到P6、P7的分类和回归检测结果，根据P5、P4、P3存在目标的位置构建稀疏索引，使得特征图生成稀疏张量，然后使用原分类和回归检测头参数构建稀疏卷积，并将稀疏张量输入稀疏卷积，得到P5、P4、P3的分类和回归检测结果。

步骤S8：基于所有特征图的分类和回归检测结果进行目标检测。

进一步，由于S7、S8、S9位置还原方法为相邻低分辨率特征图向高分辨率特征图还原，其高和宽都为2倍关系，因此对于一个位置坐标（x,y），位置还原后得到四个位置为（2x，2y）、（2x+1，2y）、（2x，2y+1）、（2x+1，2y+1）。

进一步，步骤107中稀疏张量指在一个多维张量中，只有一小部分元素是非零的，而其他元素都是零，本实例中稀疏张量是由特征图通过目标存在位置构成稀疏索引生成的。稀疏卷积仅考虑输入张量中非零元素所对应的位置，并只对这些非零位置进行卷积运算，本实例中根据原分类和回归检测头结构和参数，定义稀疏卷积的结构和参数。P5、P4、P3分类和回归检测为，将稀疏张量作为输入传递给稀疏卷积操作，得到稀疏卷积的输出。输入的稀疏张量中只有非零位置会参与计算，而输出也是一个稀疏张量，其中只有经过计算得到的非零位置会有相应的输出值。这样可以减少计算量和存储需求。

表1 改进 RetinaNet 和 RetinaNet 的平均精度AP及平均推理FPS

	平均精度AP	平均推理FPS
			Retinanet	37.973%	4.9290s
改进Retinanet	37.949%	11.6267s

为了验证本发明提出的一种基于改进RetinaNet的快速目标检测方法的有效性，将原始的RetinaNet目标检测模型与改进RetinaNet快速目标检测模型在coco数据集上做性能对比，其中测试数据集包含5000张图片，算法框架使用MMdetection，学习率设置为0.01，batch设置为16，训练迭代数为90000，训练硬件使用4张3090显卡，其中评价指标选取平均精度AP和平均推理FPS，AP的计算方法是计算Precision-Recall曲线下的面积，衡量模型在不同召回率下的平均精确率，平均推理FPS是通过将总推理时间除以测试样本数量来计算，表示模型在单位时间内能够处理的图像帧数，所得结果如表1所示，可以看出本发明提出的改进RetinaNet的AP为37.949%，虽然比原始RetinaNet的AP值37.973%略有降低，但推理速度大幅度提升,平均推理FPS从4.929秒提升到11.6267秒。

以上仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于改进RetinaNet的快速目标检测方法，其特征在于，包括以下步骤：

S2、在原有两个用于分类和回归的检测头外，使用额外的目标位置查询检测头，设置大目标位置检测头，检测P7和P6特征图，设置中目标位置检测头，检测P6和P5特征图，设置小目标位置检测头，检测P5和P4特征图，对于这三种目标位置查询检测头，设置训练模块和检测模块，在训练模块，训练检测头检测特征图每个位置是否存在不同大小尺度的目标，对于Retinanet网络，FPN输出有P3、P4、P5、P6、P7，P_L为输出的每层特征图，L代表层数，对于P_L上的真实边界框计算P_L每个特征位置(x,y)和真实边界框中心的最小距离图/>对于大目标位置检测头，需要检测的目标位置图为/>如果D_L[x][y]大于64，则/>为1，否则为0，对于中目标位置检测头，需要检测的目标位置图为/>如果D_L[x][y]小于64而且大于32，则/>为1，否则为0，对于小目标位置检测头，需要检测的目标位置图为/>如果D_L[x][y]小于32，则/>为1，否则为0，对于/>为1，则代表该位置存在目标，为0则相反，对于损失函数，除原有的分类和回归损失外，增加位置检测损失项，总损失为其中U_L、R_L、V_L分别代表分类输出、回归输出、检测分数输出，/>分别代表对应的真实边界框回归，Loss_FL代表Focal loss，Loss_r代表边界框回归损失使用smooth L1 loss，在检测模块，使用训练的检测头检测特征图每个位置是否存在目标，使用大目标位置检测头检测大目标，使用中目标位置检测头检测中目标，使用小目标位置检测头检测小目标，输入特征图，得到每个位置存在目标的概率，范围为(0,1)，使用阈值0.15进行判断，大于0.15则存在相应尺度的目标，小于0.15则不存在目标；

S7、使用原有的分类和回归检测头检测P7和P6特征图的全部位置，使用分类和回归检测头检测P5、P4、P3特征图中只存在目标的位置；

S8、基于所有特征图的分类和回归检测结果进行目标检测。

2.根据权利要求1所述的一种基于改进RetinaNet的快速目标检测方法，其特征在于，在步骤S4、S5、S6中使用的位置还原方法为，对于一个位置坐标(x,y)，位置还原后得到四个位置为(2x，2y)、(2x+1，2y)、(2x，2y+1)、(2x+1，2y+1)。

3.根据权利要求1所述的一种基于改进RetinaNet的快速目标检测方法，其特征在于，如果输入图像大小为H×W时，特征图的大小为这里L代表特征图的输出层数，如P3特征图的L为3，而且(H¹，W¹)等于/>

4.根据权利要求1所述的一种基于改进RetinaNet的快速目标检测方法，其特征在于，额外的检测头由四个3×3卷积层组成，然后是一个额外的3×3卷积层用于最终预测，输入步长为2^L的特征图P_L，并输出热图其中/>表示L层特征图位置(i，j)包含目标的概率，其中i取值范围为0到H¹，j的取值范围为0到W¹。