CN114612374A - 基于特征金字塔的图像检测模型的训练方法、介质和设备 - Google Patents

基于特征金字塔的图像检测模型的训练方法、介质和设备 Download PDF

Info

Publication number
CN114612374A
CN114612374A CN202011449545.2A CN202011449545A CN114612374A CN 114612374 A CN114612374 A CN 114612374A CN 202011449545 A CN202011449545 A CN 202011449545A CN 114612374 A CN114612374 A CN 114612374A
Authority
CN
China
Prior art keywords
fusion
feature
network
feature pyramid
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011449545.2A
Other languages
English (en)
Inventor
胡庆茂
张伟烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011449545.2A priority Critical patent/CN114612374A/zh
Priority to PCT/CN2020/136553 priority patent/WO2022120901A1/zh
Publication of CN114612374A publication Critical patent/CN114612374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于特征金字塔的图像检测模型的训练方法、存储介质和设备。所述训练方法包括:将获取的原始检测图像输入到所述特征提取网络,得到若干不同尺度的层次化特征图;将所述层次化特征图输入到所述三角特征金字塔融合网络,得到若干不同尺度的融合特征图;将若干不同尺度的融合特征图输入到回归预测网络,得到预测目标值;根据预测目标值和获取的真实目标值更新损失函数;根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。本申请构建了具有至少五种不同融合路径的融合网络,使得不同尺度的特征图之间得到充分融合,保留更多的细节信息和原始信息,提高模型的检测准确率,提升了安检领域检测网络的性能和效率。

Description

基于特征金字塔的图像检测模型的训练方法、介质和设备
技术领域
本发明属于图像处理技术领域,具体地讲,涉及基于特征金字塔的图像检测模型的训练方法、计算机可读存储介质、计算机设备。
背景技术
X射线安检技术被广泛用以地铁、机场等公共交通场所的安全管控,其优势在于能在不接触乘客包裹的情况下检测出是否包含危险品,很好地维护了乘客的隐私权。为了适应日益增长的交通吞吐量和严峻的安全形势,安检工作必须兼具较高的实时性以及准确性。然而在现实生活中,目前主流的工作方式主要由经过一定专业培训的安全工作人员进行肉眼筛选,安检工作的质量和效率很容易受到外部因素如工作状态、情绪波动以及工作强度等负面影响。除此之外,前期的培训支出和高额的人力成本同样是企业不可忽视的固有弊端之一。
基于深度学习的目标检测算法有效克服了以上讨论的现有手段的不足,在X射线安检图像危险品的检测任务中表现出了巨大的潜力。作为一种辅助检测手段,使用算法自动检测危险品一定程度上能保持人类操作员的警觉性,降低误检率和缩短响应时间,还能大幅度降低人力成本。
由于广泛的应用前景和市场价值,基于深度学习的X射线安检图像危险品的自动检测一直是学术界和工业界的研究热点之一。通常来说,基于深度学习的目标检测算法主要根据是否使用了预先设定的锚机制分为anchor-based和anchor-free的网络。常见的目标检测算法中,Faster R-CNN、Mask R-CNN、RetinaNet等网络是anchor-based机制的,而FCOS、CenterNet等网络则属于anchor-free机制的。
上面讨论的目标检测网络(Faster R-CNN、Mask R-CNN、RetinaNet、YOLOv3等等)在公共的X射线安检图像数据集中危险品的自动检测取得了令人印象深刻的性能。但是上述网络都使用的是最基本的特征融合模块FPN,一定程度上起到了融合不同尺度特征的作用,能够带来准确度的提升。但是安检图像性质非常复杂,不仅包含大量大小和形状多变的危险品,还有很大的背景信息干扰以及遮挡、重叠等潜在问题的影响,普通简单的特征融合结构无法进一步地融合多尺度的特征信息和无法为网络提取到更多细节信息用于后续的分类和定位,使得整体性能不如人意。
发明内容
(一)本发明所要解决的技术问题
如何在训练过程中融合更多尺度特征,以获取更多细节信息,以提高模型的分类预测准确性。
(二)本发明所采用的技术方案
本申请公开了一种基于特征金字塔的图像检测模型的训练方法,待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络,其中,三角特征金字塔融合网络包括若干融合单元,且所述三角特征金字塔融合网络至少具有五种不同的融合路径,所述训练方法包括:
将获取的原始检测图像输入到所述特征提取网络,得到若干不同尺度的层次化特征图;
将所述层次化特征图输入到所述三角特征金字塔融合网络,得到若干不同尺度的融合特征图;
将若干不同尺度的融合特征图输入到回归预测网络,得到预测目标值;
根据预测目标值和获取的真实目标值更新损失函数;
根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
优选地,所述三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度降低而递减。
优选地,所述三角特征金字塔融合网络具有:
第一融合路径,用于融合形成不同比例的特征图;
第二融合路径,用于缩短低级特征向高级特征传输的距离;
第三融合路径,用于融合同一尺度的特征信息;
第四融合路径,用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元的数据;
第五融合路径,用于融合同一层融合层的输入单元和输出单元的特征信息。
优选地,所述三角特征金字塔融合网络包括五层融合层,五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。
优选地,所述待训练的图像检测模型还包括对称三角特征金字塔融合网络,所述对称三角特征金字塔融合网络包括若干融合单元,所述对称三角特征金字塔融合网络至少具有五种不同的融合路径,且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布,其中,所述训练方法还包括:
将所述层次化特征图输入到所述对称三角特征金字塔融合网络,得到若干不同尺度的对称融合特征图;
将相同尺度的所述融合特征图和所述对称融合特征图相加,得到全局特征图;
将不同尺度的所述全局特征图输入到所述回归预测网络,得到全局预测目标值;
根据全局预测目标值和获取的真实目标值更新损失函数;
根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
优选地,所述对称三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度增大而递减。
优选地,所述对称三角特征金字塔融合网络具有:
第六融合路径,用于融合形成不同比例的特征图;
第七融合路径,用于缩短低级特征向高级特征传输的距离;
第八融合路径,用于融合同一尺度的特征信息;
第九融合路径,用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元;
第十融合路径,用于融合同一层融合层的输入单元和输出单元的特征信息。
优选地,所述对称三角特征金字塔融合网络包括五层融合层,五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。
本发明还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。
(三)有益效果
本发明公开了一种基于特征金字塔的图像检测模型的训练方法,相对于传统的训练方法,具有如下技术效果:
本申请构建了具有至少五种不同融合路径的融合网络,使得不同尺度的特征图之间得到充分融合,保留更多的细节信息和原始信息,提高模型的检测准确率,提升了安检领域检测网络的性能和效率。
附图说明
图1为本发明的实施例一的基于特征金字塔的图像检测模型的训练方法的流程图;
图2为本发明的实施例一的基于特征金字塔的图像检测模型的框架图;
图3为本发明的实施例一的三角特征金字塔融合网络的结构示意图;
图4为本发明的实施例二的对称三角特征金字塔融合网络的结构示意图;
图5为本发明的实施例二的基于特征金字塔的图像检测模型的训练方法的流程图;
图6为本发明的实施例的计算机设备原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有的目标检测网络基于最简单特征融合模块FPN(特征金字塔网络),只能实现简单的特征融合,面对安检场景,图像性质复杂,简单的特征融合模块无法融合更多细节特征信息,本申请通过构建具有至少五种不同融合路径的融合网络,使得不同尺度的特征图之间得到充分融合,保留更多的细节信息和原始信息,提高模型的检测准确率。
具体地,如图1和图2所示,本实施例一的待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络,其中,三角特征金字塔融合网络包括若干融合单元,且所述三角特征金字塔融合网络至少具有五种不同的融合路径,基于特征金字塔的图像检测模型的训练方法包括如下步骤:
步骤S10:将获取的原始检测图像输入到所述特征提取网络,得到若干不同尺度的层次化特征图;
步骤S20:将所述层次化特征图输入到所述三角特征金字塔融合网络,得到若干不同尺度的融合特征图;
步骤S30:将若干不同尺度的融合特征图输入到回归预测网络,得到预测目标值;
步骤S40:根据预测目标值和获取的真实目标值更新损失函数;
步骤S50:根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
示例性地,在步骤S10中,特征提取网络采用ResNet的C3-C5层,将获取的原始检测图像输入到特征提取网络,得到三种尺度依次增加的层次化特征图C3、C4和C5。为了得到更多尺度的层次化特征图,可通过下采样的方式获取,例如对C5进行下采样,得到尺度更高的C6,对C6进行下采样,得到尺度更高的C7,依次类推。本实施例一以五种尺度的层次化特征图为例。
进一步地,所述三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度降低而递减。作为优选实施例,所述三角特征金字塔融合网络包括五层融合层,分别为第一融合层R1、第二融合层R2、第三融合层R3、第四融合层R4、第五融合层R5,五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。如图2所示,每个空白圆圈代表一个融合单元,本实施例一的三角特征金字塔融合网络包括15个融合单元,五层融合层的尺度由上至下依次减小,融合单元的数量由上至下依次减少。每一融合层中的融合单元与相对应层的层次化特征图的尺度相同。每一融合层中的最后一个融合单元叫输出单位(P3-P7)。箭头方向代表数据的传输方向,即融合路径。
作为优选实施例,所述三角特征金字塔融合网络具有:第一融合路径11、第二融合路径12、第三融合路径13、第四融合路径14和第五融合路径15。其中,第一融合路径11自上而下,由大尺度的融合单元指向小尺度的融合单元,第一融合路径11用于融合形成不同比例的特征图。第二融合路径12自下而上,由小尺度的融合单元指向大尺度的融合单元,第二融合路径12用于缩短低级特征向高级特征传输的距离。第三融合路径13水平连接同一层的融合单元,用于融合同一尺度的特征信息。第四融合路径14对角连接相邻两个融合单元,用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元。第五融合路径15用于融合同一层融合层的输入单元和输出单元的特征信息,以保留更多原始信息。需要说明的是,当融合不同尺度的特征时,需要将各个特征的分辨率调整至相同,以输入单元P5为例,由于越高级别的特征的分辨率越低,需要进行放大处理,越低级别的特征的分辨率越高,需要进行压缩处理,例如,从第四融合层R4的融合单元P4传输至P5的特征信息需要进行0.5倍压缩处理,从第二融合层R2的融合单元传输至P5的特征信息需要进行2倍放大处理。
示例性地,在步骤S20中,五种尺度的层次化特征图C3-C7分别输入到对应的输入到上述的三角特征金字塔融合网络,得到五种不同尺度的融合特征图P3、P4、P5、P6、P7
进一步地,在步骤S30中,将五种不同尺度的融合特征图P3、P4、P5、P6、P7输入到回归预测网络,得到预测目标值,这里的目标预测值包括类别和位置。示例性地,回归预测网络采用一阶全卷积目标检测网络(Fully Convolutional One-Stage Object Detection,简称FCOS),图中的五个头部head代表五个不同尺度,分别检测五个不同范围的危险品。例如五个head依次从下到上的输入特征单元分别是P3、P4、P5、P6、P7,分别检测的危险品范围是[0,64]、[64,128]、[128,256]、[256,512]、[512,+∞]。如果超过这个范围的样本或者是背景样本都会被认为是负样本。这里采用的是逐像素预测的方式,也就是每个像素点都视作一个关键点都要计算回归预测正样本。如果一个像素点在同一层落到了多个真实标签区域,则使用最小区域来作为回归目标。重复,直至完成整张图片的检测。
进一步地,在步骤S40和步骤S50中,根据预测目标值和获取的真实目标值更新损失函数,并根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。其中,损失函数的更新过程和网络参数的更新过程,均为现有技术,本领域技术人员已熟知,在此不进行赘述。
本实施例一提供的基于特征金字塔的图像检测模型的训练方法,通过构建具有至少五种不同融合路径的融合网络,使得不同尺度的特征图之间得到充分融合,保留更多的细节信息和原始信息,提高模型的检测准确率,提升了安检领域检测网络的性能和效率。
本实施例二公开的基于特征金字塔的图像检测模型的训练方法,在实施例一的基础上增加了一个对称三角特征金字塔融合网络,对称三角特征金字塔融合网络包括若干融合单元,所述对称三角特征金字塔融合网络至少具有五种不同的融合路径,且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布。
所述对称三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度增大而递减。所述对称三角特征金字塔融合网络包括五层融合层,分别是第六融合层R6、第七融合层R7、第八融合层R8、第九融合层R9、第十融合层R10五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。如图所示,本实施例二的对称三角特征金字塔融合网络包括15个融合单元,五层融合层的尺度由上至下依次减小,融合单元的数量由上至下依次增加。每一融合层中的融合单元与相对应层的层次化特征图的尺度相同。每一融合层中的最后一个融合单元叫输出单位(N3-N7)。箭头方向代表数据的传输方向,即融合路径。
作为优选实施例,所述三角特征金字塔融合网络具有:第六融合路径16、第七融合路径17、第八融合路径18、第九融合路径19和第十融合路径20。其中,第六融合路径16自上而下,由大尺度的融合单元指向小尺度的融合单元,第六融合路径16用于融合形成不同比例的特征图。第七融合路径17自下而上,由大尺度的融合单元指向小尺度的融合单元,第七融合路径17用于缩短高级特征向低级特征传输的距离。第八融合路径18水平连接同一层的融合单元,用于融合同一尺度的特征信息。第九融合路径19对角连接相邻两个融合单元,用于融合分别位于相邻两层融合层且分别位于第七融合路径17和第八融合路径18的融合单元。第十融合路径20用于融合同一层融合层的输入单元和输出单元的特征信息,以保留更多原始信息。需要说明的是,当融合不同尺度的特征时,需要将各个特征的分辨率调整至相同。
进一步地,如图5所示,本实施例二的所述训练方法还包括:
步骤S20’:将所述层次化特征图输入到所述对称三角特征金字塔融合网络,得到若干不同尺度的对称融合特征图;
步骤S30’:将相同尺度的所述融合特征图和所述对称融合特征图相加,得到全局特征图;
步骤S40’:将不同尺度的所述全局特征图输入到所述回归预测网络,得到全局预测目标值;
步骤S50’:根据全局预测目标值和获取的真实目标值更新损失函数;
步骤S60’:根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
具体来说,在步骤S20’中,五种尺度的层次化特征图C3-C7分别输入到对应的输入到上述的对称三角特征金字塔融合网络,得到五种不同尺度的融合特征图N3、N4、N5、N6、N7
在步骤S30’将相同尺度的融合特征图和对称融合特征图相加,得到全局特征图,即P3+N3=M3,P4+N4=M4,P5+N5=M5,P6+N6=M6,P7+N7=M7,全局特征图分别为M3、M4、M5、M6、M7。在步骤S40’中,将五种不同尺度的融合特征图M3、M4、M5、M6、M7输入到回归预测网络,得到预测目标值,这里的目标预测值包括类别和位置。示例性地,回归预测网络采用一阶全卷积目标检测网络(FullyConvolutional One-Stage Object Detection,简称FCOS),图中的五个头部head代表五个不同尺度,分别检测五个不同范围的危险品。例如五个head依次从下到上的输入特征单元分别是M3、M4、M5、M6、M7,分别检测的危险品范围是[0,64]、[64,128]、[128,256]、[256,512]、[512,+∞]。如果超过这个范围的样本或者是背景样本都会被认为是负样本。这里采用的是逐像素预测的方式,也就是每个像素点都视作一个关键点都要计算回归预测正样本。如果一个像素点在同一层落到了多个真实标签区域,则使用最小区域来作为回归目标。重复,直至完成整张图片的检测。
在步骤S50’和步骤S60’中,根据全局预测目标值和获取的真实目标值更新损失函数,并根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。其中,损失函数的更新过程和网络参数的更新过程,均为现有技术,本领域技术人员已熟知,在此不进行赘述。
本实施例二提供的基于特征金字塔的图像检测模型的训练方法,在实施例一的基础上,构建另一个具有至少五种不同融合路径的对称三角特征金字塔融合网络,与三角特征金字塔融合网络相互配合使用,获得全局特征图,对称结构可以有效补充全局特征信息,保留更多的细节信息和原始信息,提高模型的检测准确率,提升了安检领域检测网络的性能和效率。
进一步地,本实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。
进一步地,本申请还公开了一种计算机设备,在硬件层面,如图6所示,该计算机设备包括处理器20、内部总线30、网络接口40、计算机可读存储介质50。处理器20从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。所述计算机可读存储介质50上存储有基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现上述的基于特征金字塔的图像检测模型的训练方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
为了验证本实施例二的训练方法得到图像检测模型的效果,我们选择了SIXray数据集中的3130张枪支图像和1953张刀图像作为我们实验的评估数据集。所提出的方法是在Python 3.6中使用Pytorch后端实验的。我们将图像缩放为1333×800作为输入,并在24GBRAM的NVIDIA TITAN RTX上训练模型。在训练阶段,我们采用了随机梯度优化器,学习率为0.0001和权重衰减为0.001。将所有数据集随机分为训练集(60%),验证集(20%)和测试集(20%),以便每个拆分都有相似的分布。
在训练参数一致的前提下用不同方法对SIXray数据进行枪支和刀具的检测,每个类别的AP值和整体的mAP结果如表1。本训练方法得到的模型(Ours)在单独各个类别的AP值和整体性能mAP结果上均为所列方法中的最优结果,验证了本本训练方法得到的模型在X射线安检图像中危险品的自动检测的优越性。
Figure BDA0002826242880000101
表1.不同方法在SIXray数据集上的准确度对比
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。

Claims (10)

1.一种基于特征金字塔的图像检测模型的训练方法,其特征在于,待训练的图像检测模型包括特征提取网络、三角特征金字塔融合网络和回归预测网络,其中,三角特征金字塔融合网络包括若干融合单元,且所述三角特征金字塔融合网络至少具有五种不同的融合路径,所述训练方法包括:
将获取的原始检测图像输入到所述特征提取网络,得到若干不同尺度的层次化特征图;
将所述层次化特征图输入到所述三角特征金字塔融合网络,得到若干不同尺度的融合特征图;
将若干不同尺度的融合特征图输入到回归预测网络,得到预测目标值;
根据预测目标值和获取的真实目标值更新损失函数;
根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
2.根据权利要求1所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度降低而递减。
3.根据权利要求2所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述三角特征金字塔融合网络具有:
第一融合路径,用于融合形成不同比例的特征图;
第二融合路径,用于缩短低级特征向高级特征传输的距离;
第三融合路径,用于融合同一尺度的特征信息;
第四融合路径,用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元的数据;
第五融合路径,用于融合同一层融合层的输入单元和输出单元的特征信息。
4.根据权利要求2所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述三角特征金字塔融合网络包括五层融合层,五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。
5.根据权利要求1所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述待训练的图像检测模型还包括对称三角特征金字塔融合网络,所述对称三角特征金字塔融合网络包括若干融合单元,所述对称三角特征金字塔融合网络至少具有五种不同的融合路径,且所述对称三角特征金字塔融合网络的各个融合单元与所述三角特征金字塔融合网络的各个融合单元呈对称分布,其中,所述训练方法还包括:
将所述层次化特征图输入到所述对称三角特征金字塔融合网络,得到若干不同尺度的对称融合特征图;
将相同尺度的所述融合特征图和所述对称融合特征图相加,得到全局特征图;
将不同尺度的所述全局特征图输入到所述回归预测网络,得到全局预测目标值;
根据全局预测目标值和获取的真实目标值更新损失函数;
根据更新后的损失函数对待训练的图像检测模型的网络参数进行更新。
6.根据权利要求5所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述对称三角特征金字塔融合网络包括至少三层融合层,且融合层的数量随着融合层的尺度增大而递减。
7.根据权利要求6所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述对称三角特征金字塔融合网络具有:
第六融合路径,用于融合形成不同比例的特征图;
第七融合路径,用于缩短低级特征向高级特征传输的距离;
第八融合路径,用于融合同一尺度的特征信息;
第九融合路径,用于融合分别位于相邻两层融合层且分别位于第一融合路径和第二融合路径的融合单元;
第十融合路径,用于融合同一层融合层的输入单元和输出单元的特征信息。
8.根据权利要求6所述的基于特征金字塔的图像检测模型的训练方法,其特征在于,所述对称三角特征金字塔融合网络包括五层融合层,五层融合层的融合单元数量分别为五个、四个、三个、二个和一个。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现权利要求1至8任一项所述的基于特征金字塔的图像检测模型的训练方法。
10.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的基于特征金字塔的图像检测模型的训练程序,所述基于特征金字塔的图像检测模型的训练程序被处理器执行时实现权利要求1至8任一项所述的基于特征金字塔的图像检测模型的训练方法。
CN202011449545.2A 2020-12-09 2020-12-09 基于特征金字塔的图像检测模型的训练方法、介质和设备 Pending CN114612374A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011449545.2A CN114612374A (zh) 2020-12-09 2020-12-09 基于特征金字塔的图像检测模型的训练方法、介质和设备
PCT/CN2020/136553 WO2022120901A1 (zh) 2020-12-09 2020-12-15 基于特征金字塔的图像检测模型的训练方法、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011449545.2A CN114612374A (zh) 2020-12-09 2020-12-09 基于特征金字塔的图像检测模型的训练方法、介质和设备

Publications (1)

Publication Number Publication Date
CN114612374A true CN114612374A (zh) 2022-06-10

Family

ID=81857202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011449545.2A Pending CN114612374A (zh) 2020-12-09 2020-12-09 基于特征金字塔的图像检测模型的训练方法、介质和设备

Country Status (2)

Country Link
CN (1) CN114612374A (zh)
WO (1) WO2022120901A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170883B (zh) * 2022-07-19 2023-03-14 哈尔滨市科佳通用机电股份有限公司 一种制动缸活塞推杆开口销丢失故障检测方法
CN116665088A (zh) * 2023-05-06 2023-08-29 海南大学 一种船舶识别与检测的方法、装置、设备及介质
CN116403180B (zh) * 2023-06-02 2023-08-15 上海几何伙伴智能驾驶有限公司 基于深度学习的4d毫米波雷达目标检测、追踪和测速方法
CN117097876B (zh) * 2023-07-07 2024-03-08 天津大学 基于神经网络的事件相机图像重建方法
CN117315458B (zh) * 2023-08-18 2024-07-12 北京观微科技有限公司 遥感图像的目标检测方法、装置、电子设备及存储介质
CN117789144A (zh) * 2023-12-11 2024-03-29 深圳职业技术大学 一种基于权重融合的交叉网络车道线检测方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582291A (zh) * 2019-02-19 2020-08-25 富士通株式会社 物体识别方法、装置和单步物体识别神经网络
CN111028237B (zh) * 2019-11-26 2023-06-06 中国科学院深圳先进技术研究院 图像分割方法、装置及终端设备
CN111275054B (zh) * 2020-01-16 2023-10-31 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111429466A (zh) * 2020-03-19 2020-07-17 北京航空航天大学 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN111523470B (zh) * 2020-04-23 2022-11-18 苏州浪潮智能科技有限公司 一种行人重识别方法、装置、设备及介质
CN111898432B (zh) * 2020-06-24 2022-10-14 南京理工大学 一种基于改进YOLOv3算法的行人检测系统及方法

Also Published As

Publication number Publication date
WO2022120901A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
CN114612374A (zh) 基于特征金字塔的图像检测模型的训练方法、介质和设备
CN114841972B (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
Siriborvornratanakul An automatic road distress visual inspection system using an onboard in‐car camera
US10832397B2 (en) Method of assisting analysis of radiation image and system using the same
JP2016115331A (ja) 識別器生成装置、識別器生成方法、良否判定装置、良否判定方法、プログラム
CN109815800A (zh) 基于回归算法的目标检测方法及系统
Hoang et al. Fast local Laplacian‐based steerable and Sobel filters integrated with adaptive boosting classification tree for automatic recognition of asphalt pavement cracks
CN111242144A (zh) 电网设备异常的检测方法和装置
CN108961358A (zh) 一种获得样本图片的方法、装置及电子设备
CN109427062A (zh) 道路特征标记方法、装置、计算机设备以及可读存储介质
CN114639102B (zh) 基于关键点与尺寸回归的细胞分割方法和装置
CN110765963A (zh) 车辆制动检测方法、装置、设备及计算机可读存储介质
Lam et al. Real-time traffic status detection from on-line images using generic object detection system with deep learning
CN113221804A (zh) 一种基于监控视频的乱堆物料检测方法、装置及应用
Cano-Ortiz et al. An end-to-end computer vision system based on deep learning for pavement distress detection and quantification
Ibrahim et al. Smart monitoring of road pavement deformations from UAV images by using machine learning
Ashraf et al. Efficient Pavement Crack Detection and Classification Using Custom YOLOv7 Model
CN111325724A (zh) 隧道裂纹区域检测方法和装置
CN114463300A (zh) 钢材表面缺陷检测方法、电子设备、存储介质
Zhang et al. Metamorphic Testing Harness for the Baidu Apollo Perception-Camera Module
Heitzmann A computer vision-assisted approach to automated real-time road infrastructure management
Dhoundiyal et al. Deep Learning Framework for Automated Pothole Detection
McFall et al. Technical feasibility of creating a beach grain size database with citizen scientists
US10012689B2 (en) Method of inspecting a specimen and system thereof
CN114119594A (zh) 一种基于深度学习的油液渗漏检测方法和检测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination