CN114612374A

CN114612374A - 基于特征金字塔的图像检测模型的训练方法、介质和设备

Info

Publication number: CN114612374A
Application number: CN202011449545.2A
Authority: CN
Inventors: 胡庆茂; 张伟烽
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-10
Also published as: WO2022120901A1

Abstract

本发明公开一种基于特征金字塔的图像检测模型的训练方法、存储介质和设备。所述训练方法包括：将获取的原始检测图像输入到所述特征提取网络，得到若干不同尺度的层次化特征图；将所述层次化特征图输入到所述三角特征金字塔融合网络，得到若干不同尺度的融合特征图；将若干不同尺度的融合特征图输入到回归预测网络，得到预测目标值；根据预测目标值和获取的真实目标值更新损失函数；根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。本申请构建了具有至少五种不同融合路径的融合网络，使得不同尺度的特征图之间得到充分融合，保留更多的细节信息和原始信息，提高模型的检测准确率，提升了安检领域检测网络的性能和效率。

Description

基于特征金字塔的图像检测模型的训练方法、介质和设备

技术领域

本发明属于图像处理技术领域，具体地讲，涉及基于特征金字塔的图像检测模型的训练方法、计算机可读存储介质、计算机设备。

背景技术

X射线安检技术被广泛用以地铁、机场等公共交通场所的安全管控，其优势在于能在不接触乘客包裹的情况下检测出是否包含危险品，很好地维护了乘客的隐私权。为了适应日益增长的交通吞吐量和严峻的安全形势，安检工作必须兼具较高的实时性以及准确性。然而在现实生活中，目前主流的工作方式主要由经过一定专业培训的安全工作人员进行肉眼筛选，安检工作的质量和效率很容易受到外部因素如工作状态、情绪波动以及工作强度等负面影响。除此之外，前期的培训支出和高额的人力成本同样是企业不可忽视的固有弊端之一。

基于深度学习的目标检测算法有效克服了以上讨论的现有手段的不足，在X射线安检图像危险品的检测任务中表现出了巨大的潜力。作为一种辅助检测手段，使用算法自动检测危险品一定程度上能保持人类操作员的警觉性，降低误检率和缩短响应时间，还能大幅度降低人力成本。

由于广泛的应用前景和市场价值，基于深度学习的X射线安检图像危险品的自动检测一直是学术界和工业界的研究热点之一。通常来说，基于深度学习的目标检测算法主要根据是否使用了预先设定的锚机制分为anchor-based和anchor-free的网络。常见的目标检测算法中，Faster R-CNN、Mask R-CNN、RetinaNet等网络是anchor-based机制的，而FCOS、CenterNet等网络则属于anchor-free机制的。

上面讨论的目标检测网络(Faster R-CNN、Mask R-CNN、RetinaNet、YOLOv3等等)在公共的X射线安检图像数据集中危险品的自动检测取得了令人印象深刻的性能。但是上述网络都使用的是最基本的特征融合模块FPN，一定程度上起到了融合不同尺度特征的作用，能够带来准确度的提升。但是安检图像性质非常复杂，不仅包含大量大小和形状多变的危险品，还有很大的背景信息干扰以及遮挡、重叠等潜在问题的影响，普通简单的特征融合结构无法进一步地融合多尺度的特征信息和无法为网络提取到更多细节信息用于后续的分类和定位，使得整体性能不如人意。

发明内容

(一)本发明所要解决的技术问题

如何在训练过程中融合更多尺度特征，以获取更多细节信息，以提高模型的分类预测准确性。

(二)本发明所采用的技术方案

本申请公开了一种基于特征金字塔的图像检测模型的训练方法，待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络，其中，三角特征金字塔融合网络包括若干融合单元，且所述三角特征金字塔融合网络至少具有五种不同的融合路径，所述训练方法包括：

将获取的原始检测图像输入到所述特征提取网络，得到若干不同尺度的层次化特征图；

将所述层次化特征图输入到所述三角特征金字塔融合网络，得到若干不同尺度的融合特征图；

将若干不同尺度的融合特征图输入到回归预测网络，得到预测目标值；

根据预测目标值和获取的真实目标值更新损失函数；

根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。

优选地，所述三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度降低而递减。

优选地，所述三角特征金字塔融合网络具有：

第一融合路径，用于融合形成不同比例的特征图；

第二融合路径，用于缩短低级特征向高级特征传输的距离；

第三融合路径，用于融合同一尺度的特征信息；

第四融合路径，用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元的数据；

第五融合路径，用于融合同一层融合层的输入单元和输出单元的特征信息。

优选地，所述三角特征金字塔融合网络包括五层融合层，五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。

优选地，所述待训练的图像检测模型还包括对称三角特征金字塔融合网络，所述对称三角特征金字塔融合网络包括若干融合单元，所述对称三角特征金字塔融合网络至少具有五种不同的融合路径，且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布，其中，所述训练方法还包括：

将所述层次化特征图输入到所述对称三角特征金字塔融合网络，得到若干不同尺度的对称融合特征图；

将相同尺度的所述融合特征图和所述对称融合特征图相加，得到全局特征图；

将不同尺度的所述全局特征图输入到所述回归预测网络，得到全局预测目标值；

根据全局预测目标值和获取的真实目标值更新损失函数；

优选地，所述对称三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度增大而递减。

优选地，所述对称三角特征金字塔融合网络具有：

第六融合路径，用于融合形成不同比例的特征图；

第七融合路径，用于缩短低级特征向高级特征传输的距离；

第八融合路径，用于融合同一尺度的特征信息；

第九融合路径，用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元；

第十融合路径，用于融合同一层融合层的输入单元和输出单元的特征信息。

优选地，所述对称三角特征金字塔融合网络包括五层融合层，五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。

本发明还公开了一种计算机设备，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。

(三)有益效果

本发明公开了一种基于特征金字塔的图像检测模型的训练方法，相对于传统的训练方法，具有如下技术效果：

本申请构建了具有至少五种不同融合路径的融合网络，使得不同尺度的特征图之间得到充分融合，保留更多的细节信息和原始信息，提高模型的检测准确率，提升了安检领域检测网络的性能和效率。

附图说明

图1为本发明的实施例一的基于特征金字塔的图像检测模型的训练方法的流程图；

图2为本发明的实施例一的基于特征金字塔的图像检测模型的框架图；

图3为本发明的实施例一的三角特征金字塔融合网络的结构示意图；

图4为本发明的实施例二的对称三角特征金字塔融合网络的结构示意图；

图5为本发明的实施例二的基于特征金字塔的图像检测模型的训练方法的流程图；

图6为本发明的实施例的计算机设备原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在详细描述本申请的各个实施例之前，首先简单描述本申请的发明构思：现有的目标检测网络基于最简单特征融合模块FPN(特征金字塔网络)，只能实现简单的特征融合，面对安检场景，图像性质复杂，简单的特征融合模块无法融合更多细节特征信息，本申请通过构建具有至少五种不同融合路径的融合网络，使得不同尺度的特征图之间得到充分融合，保留更多的细节信息和原始信息，提高模型的检测准确率。

具体地，如图1和图2所示，本实施例一的待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络，其中，三角特征金字塔融合网络包括若干融合单元，且所述三角特征金字塔融合网络至少具有五种不同的融合路径，基于特征金字塔的图像检测模型的训练方法包括如下步骤：

步骤S10：将获取的原始检测图像输入到所述特征提取网络，得到若干不同尺度的层次化特征图；

步骤S20：将所述层次化特征图输入到所述三角特征金字塔融合网络，得到若干不同尺度的融合特征图；

步骤S30：将若干不同尺度的融合特征图输入到回归预测网络，得到预测目标值；

步骤S40：根据预测目标值和获取的真实目标值更新损失函数；

步骤S50：根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。

示例性地，在步骤S10中，特征提取网络采用ResNet的C3-C5层，将获取的原始检测图像输入到特征提取网络，得到三种尺度依次增加的层次化特征图C3、C4和C5。为了得到更多尺度的层次化特征图，可通过下采样的方式获取，例如对C5进行下采样，得到尺度更高的C6，对C6进行下采样，得到尺度更高的C7，依次类推。本实施例一以五种尺度的层次化特征图为例。

进一步地，所述三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度降低而递减。作为优选实施例，所述三角特征金字塔融合网络包括五层融合层，分别为第一融合层R1、第二融合层R2、第三融合层R3、第四融合层R4、第五融合层R5，五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。如图2所示，每个空白圆圈代表一个融合单元，本实施例一的三角特征金字塔融合网络包括15个融合单元，五层融合层的尺度由上至下依次减小，融合单元的数量由上至下依次减少。每一融合层中的融合单元与相对应层的层次化特征图的尺度相同。每一融合层中的最后一个融合单元叫输出单位(P3-P7)。箭头方向代表数据的传输方向，即融合路径。

作为优选实施例，所述三角特征金字塔融合网络具有：第一融合路径11、第二融合路径12、第三融合路径13、第四融合路径14和第五融合路径15。其中，第一融合路径11自上而下，由大尺度的融合单元指向小尺度的融合单元，第一融合路径11用于融合形成不同比例的特征图。第二融合路径12自下而上，由小尺度的融合单元指向大尺度的融合单元，第二融合路径12用于缩短低级特征向高级特征传输的距离。第三融合路径13水平连接同一层的融合单元，用于融合同一尺度的特征信息。第四融合路径14对角连接相邻两个融合单元，用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元。第五融合路径15用于融合同一层融合层的输入单元和输出单元的特征信息，以保留更多原始信息。需要说明的是，当融合不同尺度的特征时，需要将各个特征的分辨率调整至相同，以输入单元P5为例，由于越高级别的特征的分辨率越低，需要进行放大处理，越低级别的特征的分辨率越高，需要进行压缩处理，例如，从第四融合层R4的融合单元P4传输至P5的特征信息需要进行0.5倍压缩处理，从第二融合层R2的融合单元传输至P5的特征信息需要进行2倍放大处理。

示例性地，在步骤S20中，五种尺度的层次化特征图C3-C7分别输入到对应的输入到上述的三角特征金字塔融合网络，得到五种不同尺度的融合特征图P₃、P₄、P₅、P₆、P₇。

进一步地，在步骤S30中，将五种不同尺度的融合特征图P₃、P₄、P₅、P₆、P₇输入到回归预测网络，得到预测目标值，这里的目标预测值包括类别和位置。示例性地，回归预测网络采用一阶全卷积目标检测网络(Fully Convolutional One-Stage Object Detection，简称FCOS)，图中的五个头部head代表五个不同尺度，分别检测五个不同范围的危险品。例如五个head依次从下到上的输入特征单元分别是P₃、P₄、P₅、P₆、P₇，分别检测的危险品范围是[0，64]、[64，128]、[128，256]、[256，512]、[512，+∞]。如果超过这个范围的样本或者是背景样本都会被认为是负样本。这里采用的是逐像素预测的方式，也就是每个像素点都视作一个关键点都要计算回归预测正样本。如果一个像素点在同一层落到了多个真实标签区域，则使用最小区域来作为回归目标。重复，直至完成整张图片的检测。

进一步地，在步骤S40和步骤S50中，根据预测目标值和获取的真实目标值更新损失函数，并根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。其中，损失函数的更新过程和网络参数的更新过程，均为现有技术，本领域技术人员已熟知，在此不进行赘述。

本实施例一提供的基于特征金字塔的图像检测模型的训练方法，通过构建具有至少五种不同融合路径的融合网络，使得不同尺度的特征图之间得到充分融合，保留更多的细节信息和原始信息，提高模型的检测准确率，提升了安检领域检测网络的性能和效率。

本实施例二公开的基于特征金字塔的图像检测模型的训练方法，在实施例一的基础上增加了一个对称三角特征金字塔融合网络，对称三角特征金字塔融合网络包括若干融合单元，所述对称三角特征金字塔融合网络至少具有五种不同的融合路径，且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布。

所述对称三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度增大而递减。所述对称三角特征金字塔融合网络包括五层融合层，分别是第六融合层R6、第七融合层R7、第八融合层R8、第九融合层R9、第十融合层R10五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。如图所示，本实施例二的对称三角特征金字塔融合网络包括15个融合单元，五层融合层的尺度由上至下依次减小，融合单元的数量由上至下依次增加。每一融合层中的融合单元与相对应层的层次化特征图的尺度相同。每一融合层中的最后一个融合单元叫输出单位(N3-N7)。箭头方向代表数据的传输方向，即融合路径。

作为优选实施例，所述三角特征金字塔融合网络具有：第六融合路径16、第七融合路径17、第八融合路径18、第九融合路径19和第十融合路径20。其中，第六融合路径16自上而下，由大尺度的融合单元指向小尺度的融合单元，第六融合路径16用于融合形成不同比例的特征图。第七融合路径17自下而上，由大尺度的融合单元指向小尺度的融合单元，第七融合路径17用于缩短高级特征向低级特征传输的距离。第八融合路径18水平连接同一层的融合单元，用于融合同一尺度的特征信息。第九融合路径19对角连接相邻两个融合单元，用于融合分别位于相邻两层融合层且分别位于第七融合路径17和第八融合路径18的融合单元。第十融合路径20用于融合同一层融合层的输入单元和输出单元的特征信息，以保留更多原始信息。需要说明的是，当融合不同尺度的特征时，需要将各个特征的分辨率调整至相同。

进一步地，如图5所示，本实施例二的所述训练方法还包括：

步骤S20’：将所述层次化特征图输入到所述对称三角特征金字塔融合网络，得到若干不同尺度的对称融合特征图；

步骤S30’：将相同尺度的所述融合特征图和所述对称融合特征图相加，得到全局特征图；

步骤S40’：将不同尺度的所述全局特征图输入到所述回归预测网络，得到全局预测目标值；

步骤S50’：根据全局预测目标值和获取的真实目标值更新损失函数；

步骤S60’：根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。

具体来说，在步骤S20’中，五种尺度的层次化特征图C3-C7分别输入到对应的输入到上述的对称三角特征金字塔融合网络，得到五种不同尺度的融合特征图N₃、N₄、N₅、N₆、N₇。

在步骤S30’将相同尺度的融合特征图和对称融合特征图相加，得到全局特征图，即P₃+N₃＝M₃，P₄+N₄＝M₄，P₅+N₅＝M₅，P₆+N₆＝M₆，P₇+N₇＝M₇，全局特征图分别为M₃、M₄、M₅、M₆、M₇。在步骤S40’中，将五种不同尺度的融合特征图M₃、M₄、M₅、M₆、M₇输入到回归预测网络，得到预测目标值，这里的目标预测值包括类别和位置。示例性地，回归预测网络采用一阶全卷积目标检测网络(FullyConvolutional One-Stage Object Detection，简称FCOS)，图中的五个头部head代表五个不同尺度，分别检测五个不同范围的危险品。例如五个head依次从下到上的输入特征单元分别是M₃、M₄、M₅、M₆、M₇，分别检测的危险品范围是[0，64]、[64，128]、[128，256]、[256，512]、[512，+∞]。如果超过这个范围的样本或者是背景样本都会被认为是负样本。这里采用的是逐像素预测的方式，也就是每个像素点都视作一个关键点都要计算回归预测正样本。如果一个像素点在同一层落到了多个真实标签区域，则使用最小区域来作为回归目标。重复，直至完成整张图片的检测。

在步骤S50’和步骤S60’中，根据全局预测目标值和获取的真实目标值更新损失函数，并根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。其中，损失函数的更新过程和网络参数的更新过程，均为现有技术，本领域技术人员已熟知，在此不进行赘述。

本实施例二提供的基于特征金字塔的图像检测模型的训练方法，在实施例一的基础上，构建另一个具有至少五种不同融合路径的对称三角特征金字塔融合网络，与三角特征金字塔融合网络相互配合使用，获得全局特征图，对称结构可以有效补充全局特征信息，保留更多的细节信息和原始信息，提高模型的检测准确率，提升了安检领域检测网络的性能和效率。

进一步地，本实施例公开了一种计算机可读存储介质，所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。

进一步地，本申请还公开了一种计算机设备，在硬件层面，如图6所示，该计算机设备包括处理器20、内部总线30、网络接口40、计算机可读存储介质50。处理器20从计算机可读存储介质中读取对应的计算机程序然后运行，在逻辑层面上形成请求处理装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。所述计算机可读存储介质50上存储有基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

为了验证本实施例二的训练方法得到图像检测模型的效果，我们选择了SIXray数据集中的3130张枪支图像和1953张刀图像作为我们实验的评估数据集。所提出的方法是在Python 3.6中使用Pytorch后端实验的。我们将图像缩放为1333×800作为输入，并在24GBRAM的NVIDIA TITAN RTX上训练模型。在训练阶段，我们采用了随机梯度优化器，学习率为0.0001和权重衰减为0.001。将所有数据集随机分为训练集(60％)，验证集(20％)和测试集(20％)，以便每个拆分都有相似的分布。

在训练参数一致的前提下用不同方法对SIXray数据进行枪支和刀具的检测，每个类别的AP值和整体的mAP结果如表1。本训练方法得到的模型(Ours)在单独各个类别的AP值和整体性能mAP结果上均为所列方法中的最优结果，验证了本本训练方法得到的模型在X射线安检图像中危险品的自动检测的优越性。

表1.不同方法在SIXray数据集上的准确度对比

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种基于特征金字塔的图像检测模型的训练方法，其特征在于，待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络，其中，三角特征金字塔融合网络包括若干融合单元，且所述三角特征金字塔融合网络至少具有五种不同的融合路径，所述训练方法包括：

根据预测目标值和获取的真实目标值更新损失函数；

2.根据权利要求1所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度降低而递减。

3.根据权利要求2所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述三角特征金字塔融合网络具有：

第一融合路径，用于融合形成不同比例的特征图；

第二融合路径，用于缩短低级特征向高级特征传输的距离；

第三融合路径，用于融合同一尺度的特征信息；

4.根据权利要求2所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述三角特征金字塔融合网络包括五层融合层，五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。

5.根据权利要求1所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述待训练的图像检测模型还包括对称三角特征金字塔融合网络，所述对称三角特征金字塔融合网络包括若干融合单元，所述对称三角特征金字塔融合网络至少具有五种不同的融合路径，且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布，其中，所述训练方法还包括：

根据全局预测目标值和获取的真实目标值更新损失函数；

6.根据权利要求5所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述对称三角特征金字塔融合网络包括至少三层融合层，且融合层的数量随着融合层的尺度增大而递减。

7.根据权利要求6所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述对称三角特征金字塔融合网络具有：

第六融合路径，用于融合形成不同比例的特征图；

第七融合路径，用于缩短低级特征向高级特征传输的距离；

第八融合路径，用于融合同一尺度的特征信息；

8.根据权利要求6所述的基于特征金字塔的图像检测模型的训练方法，其特征在于，所述对称三角特征金字塔融合网络包括五层融合层，五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现权利要求1至8任一项所述的基于特征金字塔的图像检测模型的训练方法。

10.一种计算机设备，其特征在于，所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于特征金字塔的图像检测模型的训练程序，所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现权利要求1至8任一项所述的基于特征金字塔的图像检测模型的训练方法。