CN117058606A - 一种x射线图像违禁品检测方法 - Google Patents
一种x射线图像违禁品检测方法 Download PDFInfo
- Publication number
- CN117058606A CN117058606A CN202310981239.0A CN202310981239A CN117058606A CN 117058606 A CN117058606 A CN 117058606A CN 202310981239 A CN202310981239 A CN 202310981239A CN 117058606 A CN117058606 A CN 117058606A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- global
- local
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000008447 perception Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 21
- 238000007689 inspection Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000007547 defect Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000002457 bidirectional effect Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种X射线图像违禁品检测方法,属于深度学习以及图像目标检测的技术领域;本发明通过改进特征金字塔网络,利用反向加权特征融合架构改善现有的全局双向融合路径以及等权重的传统拼接方式,弥合了不同层级特征之间的差距,更加高效地融合多尺度特征,有效避免了混叠效应;本发明还添加了多尺度场景感知模块,通过一个可学习的全局上下文权重向量来调制多尺度上下文特征,感知复杂场景下丰富的上下文信息,以有效应对显著的类内变化;并且本发明构建新的损失函数,该损失函数使用边长和角度作为惩罚项,并使用聚焦平衡函数改善高质量预测框在边界框优化过程中贡献较低问题,从而有利于目标边界框回归。
Description
技术领域
本发明涉及深度学习以及图像目标检测的技术领域,更具体的,涉及一种X射线图像违禁品检测方法。
背景技术
X射线安全检查具有实时成像和非侵入性等优点,是公共交通枢纽和边境检查站等常用的安全检查措施。近年来,应用基于计算机视觉的违禁品检测技术协助安全检查,已成为违禁品检测的主流方法。在违禁品检测中,能够准确、快速地定位、分类和识别出违禁品是一项极具挑战性的任务,其在安全检查、快递物流、仓储管理、医疗器械等领域具有广泛的应用价值。
近年来,基于深度学习的X射线安检图像违禁品检测方法取得了突破性的进展。Shao等人为解决X射线图像严重重叠的问题,提出基于前景与背景分离的检测框架;Miao等人关注现有数据集的类不平衡问题,提出了一个CHR模型,该模型整合了多层次的视觉线索,并通过类平衡损失函数实现了类平衡;Wei等人强调了违禁品的边缘信息和材料信息,设计了去遮挡注意力模块;Wu等人将无预测检测器的概念引入违禁品检测任务,提出了基于尺度自适应中心的违禁品检测网络SA-CenterNet;Chang等人统计分析了不同违禁品类别的物理尺寸分布,在训练阶段将物理尺寸约束形式表述为正则化项,设计了两阶段检测违禁品检测网络Xdet。然而,以上提到的这些现有的违禁品检测算法存在混叠效应,并且在类内变化显著的场景下检测精度较低。
发明内容
本发明为弥合不同层级特征之间的差距,更加高效地融合多尺度特征,有效避免混叠效应,同时能够感知复杂场景下丰富的上下文信息,以有效应对显著的类内变化,而提供一种X射线图像违禁品检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种X射线图像违禁品检测方法,包括以下步骤:
S1、收集X射线安检图像数据集,对数据集进行标注,获得YOLO格式的X射线安检图像数据集,并将数据集划分为训练集和测试集;
S2、将数据集作为输入提供给网络主干,网络主干对输入的X射线安检图像进行特征提取,在网络主干与颈部之间添加用于提取图像的多尺度场景信息的多尺度场景感知模块;
S3、将颈部特征金字塔融合结构改为反向加权融合结构,将多尺度场景感知模块输出的特征送入反向加权融合结构,反向加权融合结构通过特征引导加权的方式整合多级特征,并获得加权融合后的特征;
S4、将加权融合后的特征送入网络头部,在网络的头部采用损失函数进行边界框回归;
S5、将步骤S1得到的数据集输入到由步骤S2-S4构建成的YOLOray模型中进行训练、测试,获得参数模型,输出违禁品检测效果图。
进一步,步骤S1具体为:采用Labelimg图像标注工具,对X射线图片进行目标标注,将缺陷分为枪、刀、扳手、钳子、剪刀共五类检测标签,生成与各类违禁品对应的yolo格式标签;将标注后的图片按8:2分为训练集和测试集,以供后期网络的训练与测试。
进一步,步骤S2中的多尺度场景感知模块包括全局自适应感知部分、局部多尺度感知部分、全局到局部调制部分;
所述全局自适应感知部分,包括全局平均池化、全局最大池化和两个多层感知机,用于提取全局场景上下文信息,获得全局权重向量;
所述局部多尺度感知部分,包括三组不同池化核大小的平均池化和最大池化,用于提取局部多尺度上下文信息;
所述全局到局部调制部分,包括七个逐元素相乘单元,用于对局部多尺度特征进行调制,增强网络对局部特征变化的适应能力。
进一步,步骤S3中的反向加权融合结构包括特征引导上采样模块和二阶自适应加权融合模块,各层级间的特征引导上采样模块和二阶自适应加权融合模块组成多级局部反向连接。
进一步,所述特征引导上采样模块使用浅层低级别特征来引导上采样过程,以恢复细节信息。
进一步,特征引导上采样模块使用浅层低级别特征来引导上采样过程的具体步骤为:
S31、设定高级特征和低级特征;
S32、通过亚像素卷积将高级特征上采样到和低级特征一样的大小;
S33、对上采样后的高级特征和原始低级特征应用拼接操作,以丰富特征表示;
S34、对拼接后的特征图分别沿通道方向进行最大池化和平均池化操作,生成最大池化二维特征映射和平均池化二维特征映射;
S35、将特征映射沿着通道维度拼接,并使用一个3×3卷积整合拼接后的特征;
S36、将卷积后的结果经过归一化和激活操作得到空间权重;
S37、将空间权重和经过亚像素卷积输出的高级特征相乘,使高级特征受低级特征引导而恢复细节信息,得到引导特征。
进一步,所述二阶自适应加权融合模块将局部通道上下文添加到全局通道上下文中,从局部和全局两个角度学习不同通道特征的重要程度,用于使网络根据不同通道的贡献度来调整对不同特征的利用和感知能力。
进一步,步骤S4中的损失函数为Focal-SIOU损失函数,Focal-SIOU损失函数将CIOU损失函数的长宽比损失项拆分成单独的宽度损失项和高度损失项,并增加了角度损失,用于加速预测框的收敛,提高预测框的回归精度。
进一步,步骤S5具体为:将数据集的80%作为训练集输入到检测模型中,同时设定训练参数,使用预训练权重文件进行训练,获得最佳参数模型;将数据集的20%作为测试集输入到训练得到的参数模型中进行测试,输出预测效果图。
进一步,所述训练参数包括初始学习率、动量参数、衰减系数、批量大小。
与现有技术相比,本发明技术方案的有益效果是:
一、本发明通过改进特征金字塔网络,利用反向加权特征融合架构改善现有的全局双向融合路径以及等权重的传统拼接方式,弥合不同层级特征之间的差距,更加高效地融合多尺度特征,有效避免混叠效应;
二、本发明添加多尺度场景感知模块,通过一个可学习的全局上下文权重向量来调制多尺度上下文特征,感知复杂场景下丰富的上下文信息,以有效应对显著的类内变化;
三、本发明构建新的损失函数,该损失函数使用边长和角度作为惩罚项,并使用聚焦平衡函数改善高质量预测框在边界框优化过程中贡献较低问题,从而有利于目标边界框回归;
四、本发明与其他基于深度学习的违禁品检测算法相比,有效提高了检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的详细流程图;
图3为本发明中的YOLOray网络的整体框架图;
图4为本发明中的多尺度场景感知模块的结构图;
图5为本发明中的特征引导上采样模块的结构图;
图6为本发明中的二阶自适应加权融合模块的结构图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图和具体较佳实施例对本发明的技术方案做进一步详细的描述。
本发明的描述中,需要理解的是,术语“左侧”、“右侧”、“上部”、“下部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,“第一”、“第二”等并不表示零部件的重要程度,因此不能理解为对本发明的限制。实施例中采用的具体尺寸只是为了举例说明技术方案,并不限制本发明的保护范围。对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
实施例1:
如图1和图3所示,本发明提供一种技术方案:一种X射线图像违禁品检测方法,包括以下步骤:
S1、收集X射线安检图像数据集,对数据集进行标注,获得YOLO格式的X射线安检图像数据集,并将数据集划分为训练集和测试集;
S2、将数据集作为输入提供给网络主干,网络主干对输入的X射线安检图像进行特征提取,在网络主干与颈部之间添加三个用于提取图像的多尺度场景信息的多尺度场景感知模块(Multi-scale Scene Perception Module,MSPM);
S3、将颈部特征金字塔融合结构改为反向加权融合结构,将多尺度场景感知模块输出的特征送入反向加权融合结构(Reverse Weighted Feature Fusion,RWFF),反向加权融合结构通过特征引导加权的方式整合多级特征,并获得加权融合后的特征;
S4、将加权融合后的特征送入网络头部,在网络的头部采用损失函数进行边界框回归;
S5、将步骤S1得到的数据集输入到由步骤S2-S4构建成的YOLOray模型中进行训练、测试,获得满足条件的参数模型,输出违禁品检测效果图;YOLOray的整体框架请参阅图3。
实施例2:
在实施例1的基础上,本发明技术方案的实施基于Pytorch深度学习框架,实施使用的计算机CPU型号为Intel(R)Core I7-13700KF,GPU型号为NVIDIA GeForce RTX4070Ti;
在训练阶段,本模型使用SGD优化器进行参数迭代更新,初始学习率为1e-3,动量参数为0.937,衰减系数设置为5e-4,输入图像的尺寸设置为640×640,批量大小为20,训练周期设置为300;
此外,为使数据内容更加丰富,训练时采用了Mosaic数据增强方法;
在测试阶段,本发明不使用任何预处理手段,只是将输入图像的尺寸设置为640×640,然后送入模型进行推理。
实施例3:
如图2所示,在实施例1的基础上,提供更为详细的步骤:
步骤一、收集X射线安检图像数据集,对数据集进行标注,获得YOLO格式的X射线安检图像数据集,并划分为训练集和测试集;
步骤二、对训练集进行Mosaic数据增强处理,得到增强训练集;
步骤三、增强后的训练集以16张训练图片为一批次进行划分,依次送入网络模型进行训练;
步骤四、假定输入一张单一的RGB图像X∈R3×640×640,将其送入CSPDarknet53骨干网络提取多级特征Ci,i=1,...,5;
步骤五、在网络的主干和颈部之间加入MSPM,并将最后主干网提取的最后三层特征分别送入三个MSPM,得到包含从局部到全局的多尺度上下文信息的特征;
步骤六、将颈部特征金字塔融合结构改为反向加权融合结构,将MSPM输出的特征送入反向加权融合结构结构,反向加权融合结构通过特征引导加权的方式高效地整合多级特征,并获得加权融合后的特征;
步骤七、改进原有的边界框回归损失函数,将加权融合后的特征送入网络头部,由头部特征图Pi,i=1,2,3预测违禁品目标类别和位置;
步骤八、一张图片通过网络训练得到相应的损失,通过随机梯度下降算法对网络各卷积层的权重和偏置进行参数更新;
步骤九、重复步骤四至步骤八直到所有的X射线安检图片训练完,并获得最佳参数模型;
步骤十、将测试集输入最佳参数模型,获得最终预测图和各项检测指标。
实施例4:
在实施例1的基础上,步骤S1具体为:采用Labelimg图像标注工具,对X射线图片进行目标标注,将缺陷分为枪、刀、扳手、钳子、剪刀共五类检测标签,生成与各类违禁品对应的yolo格式标签;将标注后的图片按8∶2分为训练集和测试集,以供后期网络的训练与测试。
实施例5:
如图4所示,在实施例1的基础上,步骤S2中的多尺度场景感知模块包括全局自适应感知部分、局部多尺度感知部分、全局到局部调制部分;
所述全局自适应感知部分,包括全局平均池化、全局最大池化和两个多层感知机,用于提取全局场景上下文信息,获得全局权重向量;
所述局部多尺度感知部分,包括三组不同池化核大小的平均池化和最大池化,用于提取局部多尺度上下文信息;
所述全局到局部调制部分,包括七个逐元素相乘单元,用于对局部多尺度特征进行调制,增强网络对局部特征变化的适应能力。
实施例6:
如图5-6所示,在实施例1的基础上,步骤S3中的反向加权融合结构包括特征引导上采样模块(Feature Guided Upsampling Module,FGUM)和二阶自适应加权融合模块(Second-order Adaptive Weighted Fusion Module,SAWFM),如图3所示,各层级间的特征引导上采样模块和二阶自适应加权融合模块组成多级局部反向连接,多级局部反向连接可以模拟全局双向信息流的效果,并且推理速度相比类特征金字塔架构等显著提高,多级局部反向连接以最小地效率损失双向集成特征并获得更优的性能;
如图5所示,所述特征引导上采样模块使用浅层低级别特征来引导上采样过程,以恢复细节信息;
特征引导上采样模块使用浅层低级别特征来引导上采样过程的具体步骤为:
S31、设定高级特征和低级特征;
S32、通过亚像素卷积将高级特征上采样到和低级特征一样的大小;
S33、对上采样后的高级特征和原始低级特征应用拼接操作,以丰富特征表示;
S34、对拼接后的特征图分别沿通道方向进行最大池化和平均池化操作,生成最大池化二维特征映射和平均池化二维特征映射;
S35、将特征映射沿着通道维度拼接,并使用一个3×3卷积整合拼接后的特征;
S36、将卷积后的结果经过归一化和激活操作得到空间权重;
S37、将空间权重和经过亚像素卷积输出的高级特征相乘,使高级特征受低级特征引导而恢复细节信息,得到引导特征;
具体而言,给定相对而言的高级特征低级特征/>首先,通过亚像素卷积将/>上采样到和/>一样的大小。其次,对上采样后的高级特征和原始低级特征应用拼接操作,以丰富特征表示。拼接后的特征图分别沿通道方向进行最大池化和平均池化操作,生成一组二维特征映射Fmax∈R1×H×w和Fae∈R1×H×w:
式中,Max(·)和Ave(·)分别为最大池化和平均池化操作,PSr=2(·)表示放大系数为2的亚像素卷积上采样操作,通过亚像素卷积可以有效缓解因通道降维导致的信息损失;
接着,再将特征映射沿着通道维度拼接,并使用一个3×3卷积整合拼接后的特征得到特征图F′:
F′=Conv3×3(Cat[Favg;Fmax]), (2)
然后,将卷积后的结果经过归一化和激活操作得到空间权重;最后,将空间权重和经过亚像素卷积输出的高级特征相乘,使较粗糙的高级特征受低级特征引导而恢复精细的细节信息,最终得到引导特征Ui:
式中,B(·)为批归一化,δ(·)为ReLU函数,Sig(·)为Sigmoid函数;
如图6所示,所述二阶自适应加权融合模块将局部通道上下文添加到全局通道上下文中,从局部和全局两个角度自动学习不同通道特征的重要程度,有助于网络根据不同通道的贡献度来增强对不同特征的利用和感知能力;
二阶自适应加权融合模块的结构如图5所示,本发明以三输入融合为例,两输入融合参照一阶段自适应加权融合过程;给定经过特征引导上采样模块处理的高级特征,经过多尺度场景感知模块输出的低级特征以及前一级融合后的输出特征Pl∈RC ×2H×2W;首先,通过逐元素相加操作将两种特征(Uh,Fi)聚合,并使用一个3×3的卷积核进行卷积得到初步细化特征Fsum:
式中,CBR()指卷积、批归一化和ReLU激活函数的组合操作;
其次,聚合后的特征分别通过两个卷积分支,即局部卷积分支和全局卷积分支;局部卷积分支负责计算局部通道上下文特征,全局卷积分支负责计算全局通道上下文特征;对于局部卷积分支而言,特征Fsum通过一个由逐点卷积组成的瓶颈结构,得到上下文特征Flocaul,它代表了每个空间位置上不同通道的重要程度。具体计算用数学公式表示如下:
Flocal=B(PWC2(δ(B(PWC1(Fsum))))), (5)
式中,PWC1(·)和PWC2(·)指逐点卷积操作,卷积核参数分别为C×C/r×1×1和C/r×C×1×1,本发明将r设置为4;
对于全局卷积分支而言,特征Fsum首先通过全局平均池化得到特征层的通道向量Xx∈RC×1×1,用于获取特征的全局表示,接着再通过瓶颈结构建模通道间的相关性;此外,使用ReLU函数可以使网络具有更多的非线性,更好地拟合通道间复杂的相关性;具体计算用数学公式表示如下:
Fglobal=B(PWC2(δ(B(PWC1(GAP(Fsum)))))), (6)
式中,GAP(·)指全局平均池化操作;
然后,通过广播式加法运算将两个上下文特征Flocal和Fglobal进行融合,再由Sigmoid非线性函数将数值映射到0~1的范围内,得到基于全局和局部特征的通道权重ω;具体计算用数学公式表示如下:
式中,表示广播式加法操作;
然后,将原始特征Uh和乘以逐通道权重来获得加权特征图,完成在通道维度上对原始特征的重标定,并通过逐元素加法将两个特征图相加,以获得特征图G′;此外,将特征图通过可变形卷积层,进一步建模不同尺度的几何变换;具体计算用数学公式表示如下:
式中,DCN(·)指ReLU函数、可变形卷积DCNv2以及批归一化的组合操作,本发明将Uh的权重设置为1-ω,这使得网络能够在两种不同的特征之间进行软选择或加权平均;
最后,将经过前一级融合后的输出特征Pl与一阶段输出特征Ph进行二阶段融合,依然使用上述方式构建,具体计算用数学公式表示如下:
式中,Max2×2(·)指池化核大小为2×2的最大池化操作,表示二阶段融合操作。
实施例7:
在实施例1的基础上,步骤S4中采用的损失函数为Focal-SIOU损失函数,Focal-SIOU损失函数将CIOU损失函数的长宽比损失项拆分成单独的宽度损失项和高度损失项,并增加了角度损失,用于加速预测框的收敛,提高预测框的回归精度;
具体而言,本发明为违禁品检测设计了Focal-SIOU损失函数,它将CIOU的长宽比损失项拆分成单独的宽度损失项Lw和高度损失项LH,并额外增加了角度损失LAanD,加速预测框的收敛,提高预测框的回归精度;各损失项如公式(10)所示:
式中,w和wgt分别表示B和Bgt的宽度,h和hgt分别表示B和Bgt的高度,Ph为B和Bgt中心点的高度差,σ为B和Bgt中心点的距离,Cw和Ch分别为包含B和Bgt的最小外接矩形的宽度和长度,为Bgt的中心坐标,(bx,by)为B的中心坐标;此外,在所有损失项之前添加一个聚焦平衡函数Ffocal,用于控制对低质量预测框的抑制程度;最后,Focal-SIOU损失函数如公式(11)所示:
式中,γ是一个超参数,本发明将其设置为0.5。
实施例8:
在实施例1的基础上,步骤S5具体为:将数据集的80%作为训练集输入到检测模型中,同时设定训练参数,使用预训练权重文件进行训练,获得最佳参数模型;将数据集的20%作为测试集输入到训练得到的参数模型中进行测试,输出预测效果图;所述训练参数包括初始学习率、动量参数、衰减系数、批量大小。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种X射线图像违禁品检测方法,其特征在于,包括以下步骤:
S1、收集X射线安检图像数据集,对数据集进行标注,获得YOLO格式的X射线安检图像数据集,并将数据集划分为训练集和测试集;
S2、将数据集作为输入提供给网络主干,网络主干对输入的X射线安检图像进行特征提取,在网络主干与颈部之间添加用于提取图像的多尺度场景信息的多尺度场景感知模块;
S3、将颈部特征金字塔融合结构改为反向加权融合结构,将多尺度场景感知模块输出的特征送入反向加权融合结构,反向加权融合结构通过特征引导加权的方式整合多级特征,并获得加权融合后的特征;
S4、将加权融合后的特征送入网络头部,在网络的头部采用损失函数进行边界框回归;
S5、将步骤S1得到的数据集输入到由步骤S2-S4构建成的YOLOray模型中进行训练、测试,获得参数模型,输出违禁品检测效果图。
2.根据权利要求1所述的X射线图像违禁品检测方法,其特征在于,步骤S1具体为:采用Labelimg图像标注工具,对X射线图片进行目标标注,将缺陷分为枪、刀、扳手、钳子、剪刀共五类检测标签,生成与各类违禁品对应的yolo格式标签;将标注后的图片按比例分为训练集和测试集,以供后期网络的训练与测试。
3.根据权利要求1所述的X射线图像违禁品检测方法,其特征在于,步骤S2中的多尺度场景感知模块包括全局自适应感知部分、局部多尺度感知部分、全局到局部调制部分;
所述全局自适应感知部分,包括全局平均池化、全局最大池化和两个多层感知机,用于提取全局场景上下文信息,获得全局权重向量;
所述局部多尺度感知部分,包括三组不同池化核大小的平均池化和最大池化,用于提取局部多尺度上下文信息;
所述全局到局部调制部分,包括七个逐元素相乘单元,用于对局部多尺度特征进行调制,增强网络对局部特征变化的适应能力。
4.根据权利要求1所述的X射线图像违禁品检测方法,其特征在于,步骤S3中的反向加权融合结构包括特征引导上采样模块和二阶自适应加权融合模块,各层级间的特征引导上采样模块和二阶自适应加权融合模块组成多级局部反向连接。
5.根据权利要求4所述的X射线图像违禁品检测方法,其特征在于,所述特征引导上采样模块使用浅层低级别特征来引导上采样过程,以恢复细节信息。
6.根据权利要求5所述的X射线图像违禁品检测方法,其特征在于,特征引导上采样模块使用浅层低级别特征来引导上采样过程的具体步骤为:
S31、设定高级特征和低级特征;
S32、通过亚像素卷积将高级特征上采样到和低级特征一样的大小;
S33、对上采样后的高级特征和原始低级特征应用拼接操作,以丰富特征表示;
S34、对拼接后的特征图分别沿通道方向进行最大池化和平均池化操作,生成最大池化二维特征映射和平均池化二维特征映射;
S35、将特征映射沿着通道维度拼接,并使用一个3×3卷积整合拼接后的特征;
S36、将卷积后的结果经过归一化和激活操作得到空间权重;
S37、将空间权重和经过亚像素卷积输出的高级特征相乘,使高级特征受低级特征引导而恢复细节信息,得到引导特征。
7.根据权利要求4所述的X射线图像违禁品检测方法,其特征在于,所述二阶自适应加权融合模块将局部通道上下文添加到全局通道上下文中,从局部和全局两个角度学习不同通道特征的重要程度,用于使网络根据不同通道的贡献度来调整对不同特征的利用和感知能力。
8.根据权利要求1所述的X射线图像违禁品检测方法,其特征在于,步骤S4中采用的损失函数是Focal-SIOU损失函数,所述Focal-SIOU损失函数将CIOU损失函数的长宽比损失项拆分成单独的宽度损失项和高度损失项,并增加了角度损失,用于加速预测框的收敛,提高预测框的回归精度。
9.根据权利要求1所述的X射线图像违禁品检测方法,其特征在于,步骤S5具体为:将数据集的一部分作为训练集输入到检测模型中,同时设定训练参数,使用预训练权重文件进行训练,获得最佳参数模型;将数据集的另一部分作为测试集输入到训练得到的参数模型中进行测试,输出预测效果图。
10.根据权利要求9所述的X射线图像违禁品检测方法,其特征在于,所述训练参数包括初始学习率、动量参数、衰减系数、批量大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981239.0A CN117058606A (zh) | 2023-08-04 | 2023-08-04 | 一种x射线图像违禁品检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310981239.0A CN117058606A (zh) | 2023-08-04 | 2023-08-04 | 一种x射线图像违禁品检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058606A true CN117058606A (zh) | 2023-11-14 |
Family
ID=88665575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310981239.0A Pending CN117058606A (zh) | 2023-08-04 | 2023-08-04 | 一种x射线图像违禁品检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058606A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
-
2023
- 2023-08-04 CN CN202310981239.0A patent/CN117058606A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11610082B2 (en) | Method and apparatus for training neural network model used for image processing, and storage medium | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN110555434B (zh) | 一种局部对比和全局指导的立体图像视觉显著性检测方法 | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
EP2374107B1 (en) | Devices and methods for processing images using scale space | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN103914699A (zh) | 一种基于色彩空间的自动唇彩的图像增强的方法 | |
WO2010024265A1 (ja) | 画像処理装置および方法、学習装置および方法、並びにプログラム | |
JP5229575B2 (ja) | 画像処理装置および方法、並びにプログラム | |
CN111402146A (zh) | 图像处理方法以及图像处理装置 | |
CN111563418A (zh) | 一种基于注意力机制的非对称多模态融合显著性检测方法 | |
CN109711268B (zh) | 一种人脸图像筛选方法及设备 | |
CN106251365A (zh) | 多曝光视频融合方法及装置 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
JP2018055470A (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN109948441B (zh) | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112991371B (zh) | 一种基于着色溢出约束的图像自动着色方法及系统 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN104484886A (zh) | 一种mr图像的分割方法及装置 | |
CN117058606A (zh) | 一种x射线图像违禁品检测方法 | |
CN115631344A (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN113935917A (zh) | 一种基于云图运算和多尺度生成对抗网络的光学遥感影像薄云去除方法 | |
JP2023003763A (ja) | 学習装置、画像処理装置、学習処理方法、及びプログラム | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |