CN117765378A

CN117765378A - 多尺度特征融合的复杂环境下违禁物品检测方法和装置

Info

Publication number: CN117765378A
Application number: CN202410197246.6A
Authority: CN
Inventors: 李孝杰; 张烺; 吴锡; 史沧红; 黄占鳌; 杨善敏; 周激流
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2024-02-22
Filing date: 2024-02-22
Publication date: 2024-03-26
Anticipated expiration: 2044-02-22
Also published as: CN117765378B

Abstract

本发明提出一种多尺度特征融合的复杂环境下违禁物品检测方法和装置，通过加强局部特征提取和缓解特征融合的语义冲突来提高对重叠目标和小目标的检测能力，设计多尺度注意力模块主干增强网络对重叠物体的局部特征提取能力，引入挤压激励注意力机制减少目标区域的冗余信息；针对小目标的信息丢失问题，设计自适应融合特征金字塔网络，引入包含细节信息的浅层特征和包含语义信息的深层特征防止小目标信息丢失；采用自适应权重融合策略和通道注意力机制，避免直接融合造成的目标信息丢失。实验结果表明，与现有方法相比，本发明即使在物品遮挡严重、背景复杂的情况下也能准确检测出目标，同时具有更优秀的小目标检测能力。

Description

多尺度特征融合的复杂环境下违禁物品检测方法和装置

技术领域

本发明涉及X光违禁物品检测领域，尤其涉及多尺度特征融合的复杂环境下违禁物品检测方法和装置。

背景技术

违禁物品检测是安全检查中不可或缺的一部分，广泛应用于车站、地铁等人群密集的公共场所。然而日益密集的交通网络和巨大的客流量使得违禁物品检测的工作量激增。目前违禁物品检测工作主要依靠人工依据x光图像的轮廓和颜色进行定位识别。效率低、主观性强，且造成了不必要的人力浪费。近年来，由于深度学习和计算机视觉技术的长足发展，违禁物品自动检测已成为主流发展趋势。

在计算机视觉中，目标检测算法主要分为两类：两阶段检测器和一阶段检测器。两阶段检测器从输入图像中提取候选框，然后基于候选区域细化检测结果。它们可以达到较高的检测精度，但处理速度较慢。两阶段检测器的开山之作是R-CNN，在R-CNN中通过选择性搜索得到区域建议 (RP)，再将RP传入CNN中进行特征提取，导致RP之间的大量重叠，非常耗时。与两级检测器相比，单级检测器具有更快的检测速度，但检测精度相对较低。OverFeat是第一个基于深度学习的单阶段检测器。之后又提出了不同的单级目标检测器，包括SSD、YOLO系步骤423列等。其中，YOLO系列尤其是YOLOV7在目标检测方面表现良好。在这里，与SSD等单阶段模型相比，YOLOV7基于特征金字塔选取了三个输出进行检测，显著提升了小目标的检测性能。因此，本文选择YOLOV7作为基线模型。然而，上诉目标检测算法都是针对自然图像设计的，违禁物品检测任务通常面临复杂的安全环境。由于x射线图像与自然图像的成像原理不同，在自动检测过程中容易遇到重叠和小目标问题。

基于深度学习的x光违禁物品检测发展迅速。Akcay等人首次将CNN应用于x射线行李检测。他们将CNN方法与传统X光图像检测方法BoVW 进行了比较，证明了CNN比传统方法效果更好。随后，Mery等人在GDXray数据集上测试了10多种安防图像识别方法。他们表明，深度学习方法将在大数据集的x射线测试中获得更好的结果。

然后，针对现有x射线违禁物品图像背景复杂，重叠严重的问题;Wei等人提出了去遮挡注意力模块，通过聚焦注意力来增强物体的边缘信息和材质信息。此外，前景背景分离模型(FBS)通过将违禁物品与其他物品分离，来过滤重叠目标的背景信息。Zhang等人利用XMC R-CNN模型通过有机和无机剥离算法实现重叠目标检测。然而，在实际应用中，这些方法缺乏多尺度信息的交互，容易出现小目标漏检。

因此，TB-YOLOV5结合BiFPN和注意力机制来提高小目标的特征信息提取能力，并加入transformer以避免有效信息的丢失。AC-YOLOV4结合注意力机制和空洞空间金字塔池化，以提高模型对不同违禁物品大小的泛化能力。MFFNet 通过跳跃连接的方式融合了网络的高层语义特征和低层细节特征。这些方法虽然通过直接融合提高了特征表达能力，但容易遭受语义冲突和信息损失。

现有技术存在的不足：

1、网络在特征融合部分忽视了包含细节信息的浅层特征和包含语义信息的深层特征，容易造成小目标信息丢失。

一些目标检测方法一般都会使用到多尺度特征融合，但是大多数网络都是通过特征金字塔网络，不断的上采样和下采样从而将特征提取部分的不同尺度的输出进行融合，忽视了图像浅层细节特征和深层语义特征的交互，造成小目标信息在多少上采样和下采样中丢失。因此需要改进网络的特征融合部分，引入更多浅层细节特征和深层语义特征，帮助网络更好的定位和分类目标，避免小尺度目标漏检现象的发生。

2、网络往往直接采用简单的特征融合方法（如逐像素相加,通道拼接），在融合不同尺度到的特征时容易造成语义冲突导致有效信息丢失。

在特征提取后进行多尺度特征融合是提高违禁物品检测性能的常用方法，然而，常见的特征融合结构如FPN、PANet往往直接采用简单的特征融合方法，可能会出现语义冲突和上下文信息丢失等挑战，从而限制了网络性能的进一步提升。因此，需要采用策略来有效的过滤掉空间中其他无用信息，缓解语义冲突。

3、网络缺乏足够的局部特征表达能力，面对复杂背景下的目标的提取能力不足。

与自然图像不同，x射线图像丢失了物体的许多重要细节信息，如纹理和外观信息。大多数目标检测网络往往采用ResNet等结构作为网络的特征提取主干，缺乏足够的局部特征提取能力，造成细节信息的丢失。因此，需要设计局部特征表达能力强的网络有效提取目标的特征，过滤掉空间中其他无用的信息。

发明内容

针对现有技术的不足，本发明提出了一种多尺度特征融合的复杂环境下违禁物品检测方法，所述方法构建了一个针对复杂环境下X光违禁品图像检测网络，所述违禁物品检测网络引入多尺度注意力机制增强重叠物体的局部特征表示能力，同时融合浅层和深层特征，提高网络对小尺度违禁物品的分类和定位能力，采用自适应融合策略和通道注意力机制减少直接融合产生的语义冲突，防止目标信息丢失，所述方法具体包括：

步骤1：准备X光违禁物品检测所需数据集，即Pidray数据集；

步骤2：对步骤1所获取数据集进行预处理，并按照约定比例划分成训练集和测试集；

步骤3：对所述训练集和所述测试集进行数据增强处理，同时构建并初始化基于改进YOLOV7的复杂环境下违禁物品检测网络，所述检测网络由多尺度注意力模块主干、自适应融合特征金字塔网络和检测头部组成，多尺度注意力模块主干以YOLOV7的特征提取主干为基础，设置多尺度特征提取模块增强局部特征的表示能力，所述自适应融合特征金字塔网络包括自适应上下文信息融合模块与特征融合模块，检测头部用于对前面两个网络提取的特征进行解码，输出预测的检测图像；

步骤4：将步骤3处理后的训练集输入构建完成的所述检测网络中，对网络进行训练，训练过程具体包括：

步骤41：将数据增强后的训练集输入多尺度注意力模块主干中提取特征信息，依次通过下采样和高效聚合网络层得到不同尺度的特征图，具体包括第一特征图C1、第二特征图C2、第三特征图C3、第四特征图C4、第五特征图C5，并在第一特征图C1、第三特征图C3、第五特征图C5之后分别插入注意力模块，最后一个注意力模块输出最终的注意力特征图F_in，将注意力特征图F_in传入多尺度特征提取模块中，得到多尺度特征图F_out；

步骤42：将步骤41中不同尺度的特征图输入自适应融合特征金字塔网络中进行特征融合，具体的，将第二特征图C2、第三特征图C3和第四特征图C4输入第一自适应上下文信息融合模块得到第一自适应融合特征图W_out，将第三特征图C3、第四特征图C4、注意力特征图F_in输入第二自适应上下文信息融合模块，得到第二自适应融合特征图W_out2；

步骤43：将步骤41输出的所述多尺度特征图F_out与注意力特征图F_in通过特征求和方法融合得到第一融合特征图F1，将第一融合特征图F1上采样2倍与所述第二自适应融合特征图W_out2进行拼接融合，并通过高效聚合网络层得到第二融合特征图F2，将第二融合特征图F2上采样2倍与所述第一自适应融合特征图W_out进行拼接融合，并通过高效聚合网络层得到第一输出特征图F3；

步骤44：将所述第一输出特征图F3下采样2倍得到特征图L1后，与第一融合特征图F1、第二融合特征图F2一起输入第一特征融合模块中得到特征图L2，并通过高效聚合网络层得到第二输出特征图F4；

将所述第二输出特征图F4下采样2倍得到特征图L3，并与第一融合特征图F1、第二融合特征图F2一起输入第二特征融合模块中得到特征图L4，并通过高效聚合网络层得到第三输出特征图F5；

步骤45：将第一输出特征图F3、第二输出特征图F4和第三输出特征图F5分别传入所述检测头部，所述检测头部通过3×3卷积调整输出特征图的通道数，得到不同尺度下的输出结果P1、输出结果P2、输出结果P3；

步骤5：通过非极大值抑制对三个输出结果P1、输出结果P2、输出结果P3进行融合，得到预测违禁物品位置和类别信息，并计算预测违禁物品位置和类别信息和真实违禁物品位置和类别信息的损失值；

步骤6：步骤4和步骤5依次经过10轮训练后，将测试集传入训练完成的所述图像检测网络进行测试，判断所述图像检测网络当前测试的所有类标签在10个阈值下的平均精确率指标是否最高，若是，则保存当前模型参数，接着跳转至步骤4进行下一轮训练，若否，则直接跳转至步骤4进行下一轮训练，直至完成300轮训练；

步骤7：选取测试过程中表现最好的网络，然后将测试集送入该网络，计算精确率、找回率，所有类标签在10个阈值下的平均精确率和所有类标签的平均精确率指标，并保存最终的检测效果图。

根据一种优选的实施方式，所述多尺度特征提取模块的数据处理流程包括：

步骤411：所述多尺度特征提取模块包括四个分支，具体为第一分支B1、第二分支B2、第三分支B3和第四分支B4组成，每个分支利用卷积核为1×1的卷积调整输入的注意力特征图F_in；

步骤412：每个分支依次采用扩展率为1、2、3、5的空洞卷积来聚合局部上下文信息；

步骤413：接着将每个分支提取到的信息进行通道拼接得到包含更丰富上下文信息的特征图F；

步骤414：最后采用元素相加的融合方式将特征图F整合到输入的注意力特征图F_in的每个位置上，并使用1×1卷积调整输出特征的通道以获得多尺度特征图F_out。

根据一种优选的实施方式，所述第一自适应上下文信息融合模块的数据处理包括：

步骤421：所述第一自适应上下文信息融合模块输入特征为第二特征图C2、第三特征图C3和第四特征图C4，首先，针对当前层的第三特征图C3，额外引入包含更多细节信息的浅层特征，即第二特征图C2，和包含更多语义信息的深层特征，即第四特征图C4，对第二特征图C2使用3×3卷积下采样2倍和对第四特征图C4使用双线性插值操作上采样2倍来对齐特征大小，获得相同大小的特征图W1、特征图W1和特征图W3；

步骤422：将特征图W2传入与所述多尺度特征提取模块结构相同的模块中，从而获取包含更丰富的上下文信息的特征图M；

步骤423：为每层特征图W1、特征图M、特征图W2添加额外的权重特征W_α，W_β，W_γ以区分特征，具体的，分别对特征图W1、特征图W2和特征图W3采用通道数为8的1×1卷积调整通道数，并将结果通过通道拼接得到融合权重特征W，然后采用通道数为3的1×1卷积调整融合权重特征W的形状，并在通道上采用Softmax方法约束每层权重的大小，得到权重特征W_α，W_β，W_γ；

步骤424：最后，将每层的特征图W1、特征图M、特征图W2分别与对应的权重W_α，W_β，W_γ相乘，得到第一自适应融合特征图W_out。

根据一种优选的实施方式，特征融合模块的数据处理具体包括：

步骤441：在第一特征融合模块中，将所述特征图L1与第二融合特征图F2和第一融合特征图F1融合，将第二融合特征图F2视为当前层特征，第一融合特征图F1视为深层特征，首先，分别对第二融合特征图F2和第一融合特征图F1采用1×1卷积调整通道大小，同时分别对第一融合特征图F1使用双线性插值上采样2倍，对特征图L1使用最大池化下采样2倍从而得到与第二融合特征图F2大小相同的特征，并通过通道拼接的方式得到融合特征图L；

在第二特征融合模块中，将所述特征图L3与第一融合特征图F1、第二融合特征图F2进行融合，将第一融合特征图F1视为当前层特征，第二融合特征图F2视为浅层特征，首先，分别对第一融合特征图F1和第二融合特征图F2采用1×1卷积调整通道大小，接着对第二融合特征图F2和特征图L3分别采用3×3卷积和最大池化操作下采样2倍得到与第一融合特征图F1大小相同的特征，并通过通道拼接的方式得到融合特征图L；

步骤442：对所述融合特征图L先使用全局平均池化层来获取全局通道信息，接着采用两个全连接层获取特征图的通道注意力权重，并通过元素相乘方式将权重反馈回所述融合特征图L，第一特征融合模块输出特征图L2，第二特征融合模块输出特征图L4。

基于多尺度特征融合的复杂环境下违禁物品检测装置，其特征在于，所述检测装置包括数据预处理模块、多尺度注意力模块、自适应特征融合模块和检测头部，其中，

所述数据预处理模块用于对准备的数据集进行预处理和数据增强；

所述多尺度注意力模块包括三个注意力模块和多尺度特征提取模块，用于对输入的图像进行多尺度特征提取；

所述自适应特征融合模块包括两个自适应上下文信息融合模块和两个特征融合模块，用于对所述多尺度注意力模块输出的特征图进行深层的提取和多尺度融合，最后输出三个不同尺度的输出结果；

所述检测头部对三个不同尺度的输出结果进行融合，得到预测违禁物品位置和类别信息，所述检测头部包括损失值计算模块，用于计算预测违禁物品位置和类别信息和真实违禁物品位置和类别信息的损失值。

与现有技术相比，本发明的有益效果在于：

1、本发明设计了一种基于YOLOV7改进的网络架构，实现复杂环境下的违禁物品检测，该网络可以在物体遮挡严重、尺度小、背景环境复杂的X光违禁品图像中准确检测出目标。

2、针对X光违禁物目标重叠的问题，本发明设计了一种结合SE注意力机制和多尺度特征提取模块的多尺度注意力主干，提高重叠目标的局部特征表达能力，使网络在复杂背景下专注于目标区域。针对小目标的信息丢失问题，设计了自适应融合特征金字塔网络（AF-FPN），AF-FPN结合自适应上下文信息融合模块（ACIFM）与特征融合模块（FFM)）引入更丰富的信息，减少直接融合带来的语义冲突。

3、经过大量的实验证明，本发明提出的基于改进YOLOV7的复杂环境下违禁物品检测网络在面对重叠遮挡环境和小尺度违禁品时，在众多主流目标检测算法中取得了最好的效果。

附图说明

图1是本发明所提出的检测网络结构示意图；

图2是多尺度特征提取模块的结构示意图；

图3是自适应上下文信息融合模块的结构示意图；

图4是第一特征融合模块的结构示意图；

图5是本发明在PIDray数据集上对重叠遮挡目标的结果对比图；

图6是本发明在PIDray数据集上对小尺度目标的效果对比图；

图7是本发明检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明的MAM是指：Multi-scale Attention Module，多尺度注意力模块主干。

本发明的MFEM是指：Multi-scale Feature Extraction Module，多尺度特征提取模块。

本发明的AF-FPN是指：Adaptive Fusion Feature Pyramid Network，自适应融合特征金字塔网络。

本发明的ACIFM是指：Adaptive Context Information Fusion Module，自适应上下文信息融合模块。

本发明的FFM是指：Feature Fusion Module，特征融合模块。

本发明的SE是指：Squeezeand Excitation Mechanism，挤压激励注意力机制。

本发明涉及图像目标检测研究领域，尤其涉及X光违禁品图像目标的检测，它主要解决的是X光违禁品图像检测精度不高的问题。深度学习作为违禁物品检测任务中的主流方法之一，表现出了远超传统违禁物品检测方法的优越性能。然而，深度学习中的大多数神经网络架构对重叠小目标仍缺乏足够的局部特征表示能力，忽略了直接特征融合带来的语义冲突问题。

针对现有X光违禁品图像检测精度不高的问题，本发明提出了一种基于多尺度特征融合的复杂环境下违禁物品检测网络，图1为本发明所提出的网络结构示意图。它的输入数据为原始图像，输出为三个不同尺度的预测结果P1、P2、P3。其中，原始图像的分辨率为3×640×640，3表示通道数，640分别表示图像的高度和宽度。

本发明目标检测网络的核心及主要创新点在于多尺度特征提取模块MFEM，自适应上下文信息融合模块ACIFM与特征融合模块FFM。

本发明提出的方法构建了一个针对复杂环境下X光违禁品图像的检测网络，构建的检测网络包括三部分：多尺度注意力模块主干MAM、自适应融合特征金字塔网络AF-FPN和检测头，其中所述主干MAM用于过滤目标区域的冗余信息和增强重叠物体的局部特征表示能力，从而更准确的提取目标特征；所述自适应融合特征金字塔模块AF-FPN结合自适应上下文信息融合模块ACIFM与特征融合模块FFM，用于融合不同层次的特征图，通过引入浅层和深层特征聚合更丰富的上下文信息，从而加强网络对小尺度违禁品的分类和定位能力，并采用自适应融合策略和通道注意力机制减少直接融合产生的语义冲突，防止目标信息丢失；检测头负责解码AF-FPN输出的特征，预测边界框的位置和大小，随后对每个边界框执行类预测以获得检测结果，所述方法具体包括：

步骤1：准备X光违禁物品检测所需数据集，即PIDray数据集，这是迄今为止最大的x射线违禁物品检测数据集。同时，这也是第一个针对违禁物品被故意隐藏在凌乱物品中的情况的数据集；

步骤11：从SDAnet论文下载所划分好的PIDray数据集，数据集分辨率大小为3×500×500。

针对测试集，按检测难度分为简单，困难，隐藏三个子集。简单子集表示每个图像只包含一个目标，困难子集表示每个图像包含多个目标，隐藏子集表示图像包含被有意隐藏的违禁品。其中，训练集29457张，测试集18220张。测试集中简单子集9482张，困难子集3733张，隐藏子集5005张。

步骤3：对所述训练集和所述测试集进行数据增强处理。同时，构建并初始化基于改进YOLOV7的复杂环境下违禁物品检测网络，具体包括：

针对Pidray数据集，采用MixUP和Mosaic方法进行数据增强的预处理。

构建违禁物品检测网络，对原始的YOLOV7进行了修改，优化了其在复杂环境下检测违禁物品的应用。所述检测网络由多尺度注意力模块(MAM)主干，自适应融合特征金字塔网络(AF-FPN)和检测头(Head)组成。MAM主干以YOLOV7的特征提取主干为基础，引入SE注意力机制过滤背景，使其能够专注于目标信息的学习，并进一步设计了多尺度特征提取模块增强局部特征的表示能力，用于提取输入图像的多尺度特征信息；AF-FPN用于融合不同层的特征信息，由自适应上下文信息融合模块(ACIFM)与特征融合模块(FFM)组成；检测头部分与YOLOV7相同，通过调整特征图的通道数，输出目标的类别、置信度和位置。

步骤4：将步骤3处理后的训练集输入构建完成的所述检测网络中，对网络进行训练，具体包括：

步骤41：将所述训练集中的原始图像传入MAM主干提取特征信息，依次通过下采样和高效层聚合网络层（ELAN）得到不同尺度的特征图，具体包括第一特征图C1、第二特征图C2、第三特征图C3、第四特征图C4、第五特征图C5，上述特征图较输入图像分别进行下采样2，4，8，16，32倍，并在第一特征图C1、第三特征图C3、第五特征图C5之后分别插入注意力模块，最后一个注意力模块输出最终的注意力特征图F_in，将注意力特征图F_in传入多尺度特征提取模块MFFM中，得到多尺度特征图F_out。注意力模块融合了挤压激励注意力机制。

图2为本发明提出的多尺度特征提取模块MFEM的结构示意图，该模块将主干最底层的注意力特征图F_in作为输入，多尺度特征图F_out作为输出，用于融合不同感受野下的特征信息，完成多尺度语义信息的整合，提高局部特征表达能力。

步骤411：多尺度特征提取模块MFEM包括四个分支，将注意力特征图F_in分别传入：第一分支B1、第二分支B2、第三分支B3和第四分支B4中，首先，每个分支利用卷积核为1×1的卷积调整输入注意力特征图F_in，来降低维度并引入更多的非线性信息以增强网络的泛化能力。

步骤412：然后，每个分支分别采用扩展率为1、2、3、5的空洞卷积来聚合局部上下文信息，以获取不同感受野下的特征信息，加强网络的局部特征表达能力。

步骤413：接着将每个分支提取到的信息进行通道拼接得到包含更丰富上下文信息的特征图F，完成多尺度语义信息的整合。

步骤414：最后采用元素相加的融合方式将F整合到输入注意力特征图F_in的每个位置以防止网络退化，并使用1×1卷积调整输出特征的通道以获得多尺度特征图F_out。

步骤42：然后将不同尺度的特征图传入自适应融合特征金字塔网络AF-FPN中进行特征融合。具体来说，将第二特征图C2、第三特征图C3和第四特征图C4输入第一自适应上下文信息融合模块，得到第一自适应融合特征图W_out，将第三特征图C3、第四特征图C4、注意力特征图F_in输入第二自适应上下文信息融合模块，得到第二自适应融合特征图W_out2。

图3为本发明设计的自适应上下文信息融合模块（ACIFM）的结构示意图。特征融合往往是提高X光违禁品目标检测精度的有效方法，然而，常见的特征融合结构通常直接聚合不同尺度的特征。不同尺度特征的直接融合会因不可忽略的语义差异而导致有价值线索的丢失。此外，相邻尺度的特征所包含的信息往往被忽略。自适应上下文信息融合模块ACIFM通过引入相邻尺度的特征从而丰富网络的上下文信息，并通过自适应融合策略缓解语义冲突。

步骤421：第一自适应上下文信息融合模块输入特征为第二特征图C2、第三特征图C3和第四特征图C4，首先，针对当前层的第三特征图C3，额外引入包含更多细节信息的浅层特征，即第二特征图C2，和包含更多语义信息的深层特征，第四特征图C4，以防止多次下采样后小目标信息的丢失。由于相邻特征的大小不一致，对第二特征图C2使用3×3卷积下采样2倍和对第四特征图C4使用双线性插值操作上采样2倍来对齐特征大小，获得相同大小的特征图W1、特征图W2和特征图W3；

如图3所示，第二自适应上下文信息融合模块与第一自适应上下文融合模块具有相同的处理流程，只是输入数据为第三特征图C3、第四特征图C4和第五特征图C5，经过处理获得相同大小的特征图W1、特征图W2和特征图W3。

步骤422：然后，为了更好的利用目标周围的上下文信息来获取额外的背景信息和上下文语义线索，将特征图W2传入与所述多尺度特征提取模块结构相同的模块中，从而获取包含更丰富的上下文信息的特征图M；

步骤423：在特征融合部分，为了减少直接融合带来的语义冲突，为每层的特征图W1、特征图M、特征图W2添加额外的权重W_α，W_β，W_γ以区分特征，自适应地学习每个特征的重要性，防止有效信息的丢失。具体来说，分别对特征图W1、特征图W2和特征图W3采用通道数为8的1×1卷积调整通道数，并将结果通过通道拼接得到融合权重特征W，然后采用通道数为3的1×1卷积调整W的形状，并在通道上采用Softmax方法约束每层权重的大小，得到形状为H×W×1的权重特征W_α，W_β，W_γ；

同理，经过上述相同的操作，第二自适应上下文信息融合模块得到第二自适应融合特征图W_out2。

步骤43：将步骤41输出的多尺度特征图F_out与注意力特征图F_in通过特征求和方法融合得到第一融合特征图F1，将第一融合特征图F1上采样2倍与所述第二自适应融合特征图W_out2进行拼接融合，并通过高效层聚合网络（ELAN）层得到第二融合特征图F2，将第二融合特征图F2上采样2倍与所述第一自适应融合特征图W_out进行拼接融合，并通过高效层聚合网络层（ELAN）得到第一输出特征图F3；

步骤44：将所述第一输出特征图F3下采样2倍得到特征图L1后，与第一融合特征图F1、第二融合特征图F2一起传入第一特征融合模块FFM中输出特征图L2，并通过高效层聚合网络层（ELAN）得到第二输出特征图F4；如图4所示的第一特征融合模块结构示意图。

将第二输出特征图F4下采样2倍得到特征图L3，并与第一融合特征图F1、第二融合特征图F2一起输入第二特征融合模块FFM中得到特征图L4，并通过高效层聚合网络层（ELAN）得到第三输出特征图F5。

图4为本发明设计的第一特征融合模块（FFM）示意图。在传统的特征金字塔网络中，特征融合通常直接融合目标的同层特征，忽视了相邻特征之间的信息交互，在实际中，这种操作没有充分利用目标的上下文信息，对小目标的检测能力有限。违禁物品检测任务中，目标尺度变化较大，包含大量小目标。因此，设计了特征融合模块FFM来融合不同阶段生成的特征图。该模块将AF-FPN融合过程中的不同尺度特征图F1、特征图F2、特征图L1（特征图L3）作为输入，融合特征图L2（特征图L4）作为输出。

步骤441：在每个特征融合模块中，额外引入浅层特征或深层特征来丰富语义信息，具体的，

在第一特征融合模块中，为了充分利用周围的语境信息，将所述特征图L1与第二融合特征图F2和第一融合特征图F1融合，将第二融合特征图F2视为当前层特征，第一融合特征图F1视为深层特征。首先，分别对当前层特征F2和深层特征F1采用1×1卷积调整通道大小。由于特征图大小不同，分别对第一融合特征图F1使用双线性插值上采样2倍，对特征图L1使用最大池化下采样2倍从而得到与第二融合特征图F2大小相同的特征，并通过通道拼接的方式得到融合特征L；

在第二特征融合模块中，将所述特征图L4与第一融合特征图F1、第二融合特征图F2进行融合，将第一融合特征图F1视为当前层特征，第二融合特征图F2视为浅层特征，首先，分别对当前层特征F1和浅层特征F2采用1×1卷积调整通道大小，接着对第二融合特征图F2和特征图L3分别采用3×3卷积和最大池化操作下采样2倍得到与特征图F1大小相同的特征，并通过通道拼接的方式得到融合特征图L；

步骤442：以所述融合特征图L为基础，利用通道注意力机制减少干扰信息，缓解语义冲突。具体来说，先使用全局平均池化(GAP)层来获取全局通道信息，接着采用两个全连接层自适应地获取特征图的通道注意力权重，并通过乘法方式将权重反馈回融合特征图L得到最终结果，第一特征融合模块输出特征图L2，第二特征融合模块输出特征图L4，从而防止所需信息在信息融合过程中被淹没，提高网络的可靠性和抗干扰能力。

步骤45：将第一输出特征图F3、第二输出特征图F4和第三输出特征图F5分别传入所述检测头部，通过3×3卷积调整输出特征图的通道数，得到不同尺度下的输出结果P1、输出结果P2和输出结果P3；

步骤5：通过非极大值抑制对三个输出结果P1、输出结果P2和输出结果P3进行融合，得到预测违禁物品位置和类别信息，并计算预测违禁物品位置和类别信息和真实违禁物品位置和类别信息的损失值；

步骤6：步骤4和步骤5依次经过10轮训练后，将测试集传入训练完成的所述图像检测网络进行测试，判断所述图像检测网络当前测试的所有类标签在10个阈值下的平均精确率mAP指标是否最高，若是，则保存当前模型参数，接着跳转至步骤4进行下一轮训练，直至完成300轮训练；

步骤7：选取测试过程中表现最好的网络，然后将测试集送入该网络，计算精确率Precision、找回率Recall，所有类标签在10个阈值下的平均精确率mAP和所有类标签平均精确率AP50指标，并保存最终的检测效果图。

为了进一步说明本发明方法的有效性，将本发明方法与其他现有方法进行比较。为了进行公平的比较，使用其他方法官方发布的代码，并遵循其的实验设置，其中所有方法都是在相同的计算环境中实现的，并同时进行定量和定性分析。8个方法具体为：方法1为Retinanet方法，针对目标检测模型中前景(positive)和背景(negatives)类别的不平衡问题，提出Focal Loss损失函数实现目标检测；方法2为FCOS是一种基于FCN的逐像素目标检测算法，实现了无锚点、无提议的解决方案，并且提出了中心度的思想；方法3为SDAnet在Cascade Mask R-CNN的基础上加入了选择性密集注意网络，增加模型检测的准确性；方法4为TOOD针对目标检测任务中分类和定位任务不统一的现象，采用基于学习的方式显式地对齐这两个任务从而提高检测准确率；方法5为YOLOV4是经典的目标检测网络，通过CSPDarknet53主干加强网络的特征提取能力，并且结合了当时大量的优化方法加强网络的计算效率。方法6为YOLOV5在YOLOV4的基础上采用了自适应锚定框策略，并且改善了网络的损失函数，从而获得更好的检测精度。方法7为YOLOV7在YOLOV5的基础上采用高效聚合网络、重参数化卷积、辅助头检测和模型缩放等技术，在大大减少参数的同时增加了检测精度。

由于本发明方法主要针对的是复杂环境下的违禁品检测，因此在隐藏子集上对各种方法进行测试对比。

表1给出了8个不同网络结构在隐藏子集上的推理时间、召回率、所有类标签在10个阈值下的平均精度mAP（IOU阈值为0.5：0.95，间隔0.05）、平均精度AP50（IOU阈值为0.5）和针对小目标的平均精度AP_small指标定量比较结果。

表1 不同方法在隐藏子集上的比较结果

此外，为了测试模型的泛化能力，表2给出了8个不同网络结构在所有子集上的定量比较结果。其中，平均精度指标用于计算所有类的平均精确率，阈值设置为0.5，10个阈值下的平均精度指标用于计算平均精度在10个阈值下（IOU阈值为0.5：0.95，间隔0.05））的平均值，小目标的平均精度用来计算面积占比在5%以下的目标的所有类的平均精确率，召回率用来计算样本中的正例有多少被正确预测，用于评估网络对所有待检测目标的检测覆盖率。上述指标一般值域为[0，1]，越接近1越好。

表2不同方法在PIDray测试集上的平均精度mAP比较结果

在表1和表2中，采用百分数计数法，将测量指标扩大了100倍。从表1和表2的结果对比可以看出本发明的方法相比其他所有方法，检测精度更高，对待检测目标的检测覆盖率更好。

为了验证该方法在目标检测上的准确性，在PIDray数据集上对比了不同方法对12类违禁物品的平均精度。检测结果如表3所示，本发明方法对比其他方法取得了最好的效果。

表3不同方法在PIDray测试集上的不同类别的平均精度mAP比较结果

为了更加直观的说明本发明方法的有效性，对比现有方法和本发明方法在处理重叠遮挡目标和小目标时的检测结果图。图5是本发明针对重叠遮挡目标的定性结果，各列分别表示不同方法在同一数据集上不同原始图像的检测结果，其中图5（a）代表真实值，图5（b）代表TOOD方法，图5（c）代表YOLOV7方法，图5（d）代表本发明方法。对比各图，第一行的其他方法将背景误认为目标，第二行的YOLOV7和第三行的TOOD均有漏检，而所提方法能够在复杂背景下更准确地检测违禁物品。

图6是本发明针对小目标的定性结果，其中图6（a）代表真实值，图6（b）代表TOOD方法，图6（c）代表YOLOV7方法，图6（d）代表本发明方法，可以看出本发明的方法相比其他所有方法定位和分类更加准确。

通过消融实验验证了所提出的每个模块的有效性。消融实验的评估数据集使用了PIDray数据集的隐藏子集。定量评价结果如表4所示，本发明方法选择YOLOV7作为基线模型，当在基线模型上逐个添加模块时，验证所提出的方法有明显的改进。此外，测试了添加单个模块对基线模型的影响，实验结果表明，添加本发明的任意模块都提高了检测性能。由此证明了所提出模块的有效性。

表4 消融实验结果。表示该模块使用，×表示该模块没有使用。/>

本发明还提出多尺度特征融合的复杂环境下违禁物品检测装置，其结构示意图如图7所示，检测装置包括数据预处理模块、多尺度注意力模块、自适应特征融合模块和检测头部，其中，

数据预处理模块用于对准备的数据集进行预处理和数据增强。

多尺度注意力模块包括三个注意力模块和多尺度特征提取模块，用于对输入的图像进行多尺度特征提取。

自适应特征融合模块包括两个自适应上下文信息融合模块和两个特征融合模块，用于对多尺度注意力模块输出的特征图进行深层的提取和多尺度融合，最后输出三个不同尺度的输出结果。

检测头部对三个不同尺度的输出结果进行融合，得到预测违禁物品位置和类别信息，检测头部包括损失值计算模块，用于计算预测违禁物品位置和类别信息和真实违禁物品位置和类别信息的损失值。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.基于多尺度特征融合的复杂环境下违禁物品检测方法，其特征在于，所述方法构建了一个针对复杂环境下X光违禁物品图像检测网络，所述图像检测网络引入多尺度注意力机制增强重叠物体的局部特征表示能力，同时融合浅层和深层特征，提高网络对小尺度违禁物品的分类和定位能力，采用自适应融合策略和通道注意力机制减少直接融合产生的语义冲突，防止目标信息丢失，所述检测方法具体包括：

步骤1：准备X光违禁物品检测所需数据集，即Pidray数据集；

步骤45：将第一输出特征图F3、第二输出特征图F4和第三输出特征图F5分别传入所述检测头部，所述检测头部通过3×3卷积调整输出特征图的通道数，得到不同尺度下的输出结果P1、输出结果P2和输出结果P3；

2.如权利要求1所述的违禁物品检测方法，其特征在于，所述多尺度特征提取模块的数据处理流程包括：

3.如权利要求2所述的违禁物品检测方法，其特征在于，所述第一自适应上下文信息融合模块的数据处理包括：

步骤421：所述第一自适应上下文信息融合模块输入特征为第二特征图C2、第三特征图C3和第四特征图C4，首先，针对当前层的第三特征图C3，额外引入包含更多细节信息的浅层特征，即第二特征图C2，和包含更多语义信息的深层特征，即第四特征图C4，对第二特征图C2使用3×3卷积下采样2倍和对第四特征图C4使用双线性插值操作上采样2倍来对齐特征大小，获得相同大小的特征图W1、特征图W2和特征图W3；

步骤423：为每层特征图W1、特征图M、特征图W2添加额外的权重特征W_α，W_β，W_γ以区分特征；具体的，分别对特征图W1、特征图W2和特征图W3采用通道数为8的1×1卷积调整通道数，并将结果通过通道拼接得到融合权重特征W，然后采用通道数为3的1×1卷积调整所述融合权重特征W的形状，并在通道上采用Softmax方法约束每层权重的大小，得到权重特征W_α，W_β，W_γ；

步骤424：最后，将每层的特征图W1、特征图M、特征图W2分别与对应的权重W_α，W_β，W_γ相乘，得到第一自适应融合特征图W_outt。

4.如权利要求3所述的违禁物品检测方法，其特征在于，特征融合模块的数据处理具体包括：

在第二特征融合模块中，将所述特征图L3与第一融合特征图F1、第二融合特征图F2进行融合，将第一融合特征图F1视为当前层特征，第二融合特征图F2视为浅层特征，首先，分别对第一融合特征图F1和第二融合特征图F2采用1×1卷积调整通道大小，接着对第二融合特征图F2和L3分别采用3×3卷积和最大池化操作下采样2倍得到与第一融合特征图F1大小相同的特征，并通过通道拼接的方式得到融合特征图L；

步骤442：对所述融合特征图L先使用全局平均池化层来获取全局通道信息，接着采用两个全连接层获取特征图的通道注意力权重，并通过元素相乘方式将权重反馈回所述融合特征图L，第一特征融合模块得到特征图L2，第二特征融合模块得到特征图L4。

5.多尺度特征融合的复杂环境下违禁物品检测装置，其特征在于，所述检测装置包括数据预处理模块、多尺度注意力模块、自适应特征融合模块和检测头部，其中，