CN113723553A - 一种基于选择性密集注意力的违禁物品检测方法 - Google Patents

一种基于选择性密集注意力的违禁物品检测方法 Download PDF

Info

Publication number
CN113723553A
CN113723553A CN202111043125.9A CN202111043125A CN113723553A CN 113723553 A CN113723553 A CN 113723553A CN 202111043125 A CN202111043125 A CN 202111043125A CN 113723553 A CN113723553 A CN 113723553A
Authority
CN
China
Prior art keywords
features
feature
scale
attention
selective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111043125.9A
Other languages
English (en)
Inventor
王伯英
汲如意
张立波
武延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202111043125.9A priority Critical patent/CN113723553A/zh
Publication of CN113723553A publication Critical patent/CN113723553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于选择性密集注意力的违禁物品检测方法。本方法为:1)将待检测图像输入骨干网络中提取多尺度特征;所述多尺度特征包括高层语义特征和低层细节特征;2)选择性密集注意力网络通过自适应的学习不同尺度特征的权重,然后将高层语义特征与低层细节特征进行加权相加,得到融合后的特征图;3)对于融合后的特征图中的每一个点,生成不同尺度和宽高比的检测框;4)提取每一所述检测框的特征;5)将提取到的检测框特征输入到头部检测模块中进行分类和偏移值的预测;然后根据偏移值修正对应检测框的位置;然后通过非极大值抑制方法获得所述检测框中违禁物品的类别和位置。本方法能够显著提升违禁物品的检测效率。

Description

一种基于选择性密集注意力的违禁物品检测方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及违禁物品的检测方法,尤其涉及基于选择性密集注意力的违禁物品检测方法。
背景技术
随着利用携带违禁物品实施恐怖袭击事件的逐渐增多,安检已经成为反恐体系中的重要环节。在实际工作中,检查人员需要对安检机采集的X光图像进行监控,以发现枪支、弹药、爆炸物、腐蚀性物质、有毒和放射性物质等违禁物品。然而,现有的金属门、手持金属探测器、人工判图等安检方法存在查验能力不足、检查速度慢、方式不够友好以及人力成本高等局限,这对安全构成了极大威胁。
近年来,由于深度学习和计算机视觉技术的迅猛发展,实现对违禁物品的自动安全检查成为可能。借助计算机视觉技术,安检人员可以快速识别违禁物品的位置和类别。但是,以往的计算机视觉中的目标检测算法大多是针对自然图像中的目标进行检测的,对于X射线图像中的目标检测并不理想。另外,X射线具有很强的穿透力,物体中不同的物质吸收X射线的程度不同,产生不同的颜色。同时,将x射线中的遮挡物与遮挡物的轮廓混合在一起。与自然图像相比,X射线图像的外观、物体和背景的边缘都有很大的不同,这给X光图像的检测带来了新的挑战。
发明内容
为了克服上述问题,本发明设计出一种基于选择性密集注意力的违禁物品检测方法,及电子设备和刻度存储介质,其采用选择性密集注意力的方法自适应学习不同尺度特征的权重,并利用依赖增强的方法进一步增强特征,使得网络获得显著的性能增益,从而完成了本发明。
为了实现本方面的目的,拟采用以下步骤:
1)将待检测图像输入骨干网络中提取多尺度特征,骨干网络包含多层输出,浅层输出包含细节特征,而高层包含语义特征;
2)选择性密集注意力网络通过自适应的学习不同尺度特征的权重,可以将高层语义特征与低层细节特征进行加权相加,从而获得更均衡的特征。
3)将融合后的特征输入到候选区域生成网络中生成不同尺度和宽高比的检测框。
4)对上述生成的检测框进行ROI Align操作,提取检测框特征。
5)将提取到的检测框特征输入到头部检测模块中进行分类和偏移值的预测,其中偏移值用于修正检测框的位置。最后,通过非极大值抑制方法获得最终的检测结果,即违禁物品的类别和位置。
头部检测模块包括:分类模块和位置回归模块,分类模块用于输出分类结果;位置回归模块用于输出目标的位置信息。
本发明所具有的有益效果包括:
1)在特征金字塔网络结构中,引入选择性密集注意力机制,在训练过程中,从空间和通道两个角度自适应的学习不同尺度的权重,使得网络注意有效的特征,而抑制不重要的特征,更好的融合高层语义特征和浅层细节特征;
2)在特征金字塔网络结构中,引入依赖增强模块,可以进一步捕获特征的长距离依赖,从而增强原始特征;
3)本发明提供的基于选择性密集注意力的违禁物品检测方法,可以显著提升违禁物品检测的性能。
附图说明
图1为本发明实施例所述的基于选择性密集注意力的违禁物品检测方法流程图。
图2为本发明所述的基于选择性密集注意力的违禁物品检测框架,其中b)为选择性密集注意力模块,c)为依赖增强模块;
图3为选择性通道注意力模块网络结构图;
图4为选择性空间注意力模块网络结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明做进一步的详细描述。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
本发明实施例1提供了一种基于选择性密集注意力的违禁物品检测方法,其特征在于,所述的方法包括以下步骤:
步骤S1:构建骨干网络,并在大规模分类数据集上进行预训练;经过训练的骨干网络可以用于提取训练图像的多尺度特征。所述骨干网络可以选择现有的基于深度学习的神经网络,如残差网络(ResNet)或多支路残差网络(ResNeXt)等。骨干网络在大规模分类数据集(如ImageNet或者Microsoft COCO)上进行预训练。骨干网络包含多层,不同层级的输出为多尺度特征。距离输入较近的层为浅层,距离较远的为深层。深层包含丰富的语义特征,而浅层包含更多的细节特征。
步骤S2:构建选择性密集注意力特征金字塔网络,它用于将骨干网络提取到的多尺度特征进行融合。选择性密集注意力网络包含选择性通道注意力模块、选择性空间注意力模块和依赖增强模块,其结构如图1所示,通过以下子步骤构建:
1.通过自上而下(将高层特征进行上采样操作,然后与浅层特征进行元素相加融合)的方式将骨干网络提取到的高层语义特征传播到浅层,从而得到增强后的多尺度特征;
2.使用选择性注意力模块自适应学习不同层级的权重;
如图3和图4分别为选择性通道注意力模块和选择性空间注意力模块的结构,详细流程如下所示:
由于步骤1得到不同层级的特征尺度不同,因此需要将他们调整为对应层级尺度大小(例如,当前所处第1层,需要将{X2,X3,X4}的尺度调整为X1的大小)。
将调整后的特征分别输入到选择性通道注意力模块和选择性空间注意力模块。
选择性通道注意力模块:如图3所示,选择性通道注意力模块对每一尺度特征进行处理,其中对于所述骨干网络第i层级提取的第i尺度特征进行处理时,首先将多尺度特征的大小统一为第i尺度特征的大小,然后将统一大小后的多尺度特征进行相加,得到待检测图像的全局语义信息并输入全局平均池层,然后全局平均池层根据输入的全局语义信息获得待检测图像的全局通道信息,然后使用全连接层压缩全局通道信息,然后通过全连接网络作用于压缩后的全局通道信息,自适应地学习到第i层级的通道注意权重;其中i=1~N;N为所述骨干网络的层级数;然后根据各通道的注意权重对多尺度特征进行加权求和得到增强特征图。
我们使用元素相加的方式获得不同尺度特征的全局语义信息(对各层调整后的特征作为元素,进行相加)。接着,通过全局平均池(GAP)层来获得它们的全局通道信息。之后,我们使用全连接(FC)层压缩全局通道信息。进一步,我们通过N层(上述提到的特征层级数,或者说与尺度数N相同)全连接网络作用于压缩后的全局通道信息,从而自适应地学习到各通道的注意权重。最后,根据各层对应的通道注意权重对不同层级的特征进行加权求和得到通道指导的特征图。
选择性空间注意力模块:如图4所示,首先对每一尺度特征进行处理,其中对于所述骨干网络第i层级提取的第i尺度特征进行处理时,首先将多尺度特征的大小统一为第i尺度特征的大小,然后将统一大小后的多尺度特征进行相加,得到待检测图像的全局语义信息;然后对该全局语义信息分别进行平均池化、最大池化,生成两个不同的上下文信息;然后在通道维度上对两所述上下文信息进行融合;然后将融合后的两上下文信息依次进行卷积操作、SoftMax操作,获得第i层的空间注意权重,其中i=1~N,N为所述骨干网络的层级数;然后根据各层的空间注意权重对多尺度特征进行加权求和得到空间指导的特征图并输入依赖增强模块。
我们使用元素相加的方式获得不同尺度特征的全局语义信息。接着,我们使用平均池化和最大池化操作来生成两个不同的上下文信息。之后,我们在通道维度上使用Concatenation操作融合两个上下文信息。进一步,通过使用卷积层和SoftMax操作可以获得每层的空间注意权重。最后,通过每层的注意权重获得空间指导的特征图。
在获得同时具有通道和空间注意力指导的特征之后,我们通过元素相加的方式融合获得的特征。
3.通过依赖增强模块建立长距离依赖;
进一步,我们提出了依赖增强(Dependency Refinement)模块来增强融合后的特征。如图2所示,假定融合后的特征为F,特征F的尺度为C×H×W,其中C为特征通道数,W为特征宽度,H为特征高度。我们首先对特征F进行自注意力增强,获得聚合全局上下文信息的特征M,步骤如下:1)通过卷积层对特征F进行通道降维。2)将降维后的特征进行尺度转换。3)我们将上述获得的特征与特征F进行矩阵乘法运算。
然后通过卷积层将特征M依次降维(r为降维率)和升维获得特征T,这个过程中建立不同通道之间的关系。
最后,通过元素相加的方式将特征T融合到各个位置的特征中。依赖增强模块可以有效地捕获长距离依赖,进一步提高了精度。
步骤S3:构建候选区域生成网络。候选区域生成网络可以生成检测框。对于步骤2得到的特征图上的每一个点,它可以生成具有不同尺度和宽高比的检测框。然后对每个检测框进行分类和回归。分类即判断该框包含的物体是否属于前景;回归用来输出检测框相对于真实物体框的偏移值。通过预测的偏移值可以初步修正上述生成的检测框。
步骤S4:通过ROI Align层提取实例(修正后的检测框)特征。
步骤S5:构建头部检测模块,对步骤S4获取到的实例特征进行进一步的分类和回归。头部检测模块包括:分类模块和位置回归模块,分类模块用于输出每个检测框的分类结果;位置回归模块用于输出每个检测框相对于真实目标的偏移。
步骤S6:网络训练。
步骤S7:网络测试。
实施例2
本发明实施例2提供一种电子设备,包括存储器和处理器,其特征在于,存储有基于选择性密集注意力的违禁物品检测程序被处理器执行时,使得处理器执行基于选择性密集注意力的违禁物品检测方法,该方法包括如下步骤:
1)将图像输入骨干网络中提取多尺度特征;
2)选择性密集注意力网络将高层语义特征与低层细节特征进行融合,它通过自适应的学习不同尺度特征的权重,从而获得更均衡的特征。
3)将融合后的特征输入到头部检测模块进行预测。
实施例3
本发明实施例3提供一种计算机可读存储介质,其特征在于,所述程序被处理器执行时,使得处理器执行基于选择性密集注意力的违禁物品检测方法,该方法包括如下步骤:
1)将图像输入骨干网络中提取多尺度特征;
2)选择性密集注意力网络将高层语义特征与低层细节特征进行融合,它通过自适应的学习不同尺度特征的权重,从而获得更均衡的特征。
3)将融合后的特征输入到头部检测模块进行预测。
以上所述仅为本公开的优选实例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种基于选择性密集注意力的违禁物品检测方法,其步骤包括:
1)将待检测图像输入骨干网络中提取多尺度特征;所述多尺度特征包括高层语义特征和低层细节特征;
2)选择性密集注意力网络通过自适应的学习不同尺度特征的权重,然后将高层语义特征与低层细节特征进行加权相加,得到融合后的特征图;
3)对于融合后的特征图中的每一个点,生成不同尺度和宽高比的检测框;
4)提取每一所述检测框的特征;
5)将提取到的检测框特征输入到头部检测模块中进行分类和偏移值的预测;然后根据偏移值修正对应检测框的位置;然后通过非极大值抑制方法获得所述检测框中违禁物品的类别和位置。
2.如权利要求1所述的方法,其特征在于,所述选择性密集注意力网络包含选择性通道注意力模块、选择性空间注意力模块和依赖增强模块;其中,
所述选择性通道注意力模块首先对每一尺度特征进行处理,其中对于所述骨干网络第i层级提取的第i尺度特征进行处理时,首先将多尺度特征的大小统一为第i尺度特征的大小,然后将统一大小后的多尺度特征进行相加,得到待检测图像的全局语义信息并输入全局平均池层,然后全局平均池层根据输入的全局语义信息获得待检测图像的全局通道信息,然后使用全连接层压缩全局通道信息,然后通过全连接网络作用于压缩后的全局通道信息,自适应地学习到第i层级的通道注意权重;其中i=1~N,N为所述骨干网络的层级数;然后根据各层级对应的通道注意权重对多尺度特征进行加权求和得到通道指导的特征图并输入依赖增强模块;
选择性空间注意力模块首先对每一尺度特征进行处理,其中对于所述骨干网络第i层级提取的第i尺度特征进行处理时,首先将多尺度特征的大小统一为第i尺度特征的大小,然后将统一大小后的多尺度特征进行相加,得到待检测图像的全局语义信息;然后对该全局语义信息分别进行平均池化、最大池化,生成两个不同的上下文信息;然后在通道维度上对两所述上下文信息进行融合;然后将融合后的两上下文信息依次进行卷积操作、SoftMax操作,获得第i层的空间注意权重,其中i=1~N,N为所述骨干网络的层级数;然后根据各层的空间注意权重对多尺度特征进行加权求和得到空间指导的特征图并输入依赖增强模块;
依赖增强模块首先对通道指导的特征图、空间指导的特征图进行融合,得到融合后的特征为F,然后对特征F进行自注意力增强,获得聚合全局上下文信息的特征M;然后通过卷积层将特征M依次降维和升维获得特征T;然后通过元素相加的方式将特征T融合到各个位置的特征中。
3.如权利要求2所述的方法,其特征在于,获得聚合全局上下文信息的特征M的步骤为:1)通过卷积层对特征F进行通道降维;2)将降维后的特征进行尺度转换;3)将尺度转换获得的特征与特征F进行矩阵乘法运算,得到特征M。
4.如权利要求2所述的方法,其特征在于,对融合后的特征图上的每一个点,生成具有不同尺度和宽高比的检测框;然后对每个检测框进行分类和回归,其中分类即判断检测框包含的物体是否属于前景,回归即预测检测框相对于真实物体框的偏移值;然后通过预测的偏移值修正上述对应的检测框。
5.如权利要求1或2或3所述的方法,其特征在于,通过ROIAlign层提取检测框的特征。
6.如权利要求1所述的方法,其特征在于,所述骨干网络为基于深度学习的神经网络。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN202111043125.9A 2021-09-07 2021-09-07 一种基于选择性密集注意力的违禁物品检测方法 Pending CN113723553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111043125.9A CN113723553A (zh) 2021-09-07 2021-09-07 一种基于选择性密集注意力的违禁物品检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111043125.9A CN113723553A (zh) 2021-09-07 2021-09-07 一种基于选择性密集注意力的违禁物品检测方法

Publications (1)

Publication Number Publication Date
CN113723553A true CN113723553A (zh) 2021-11-30

Family

ID=78682130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111043125.9A Pending CN113723553A (zh) 2021-09-07 2021-09-07 一种基于选择性密集注意力的违禁物品检测方法

Country Status (1)

Country Link
CN (1) CN113723553A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963009A (zh) * 2021-12-22 2022-01-21 中科视语(北京)科技有限公司 基于可形变划块的局部自注意力的图像处理方法和模型
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112884755A (zh) * 2021-03-11 2021-06-01 北京理工大学 违禁品的检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN112884755A (zh) * 2021-03-11 2021-06-01 北京理工大学 违禁品的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOYING WANG等: "Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark", HTTPS://ARXIV.ORG/ABS/2108.07020, pages 1 - 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963009A (zh) * 2021-12-22 2022-01-21 中科视语(北京)科技有限公司 基于可形变划块的局部自注意力的图像处理方法和模型
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117765378B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置

Similar Documents

Publication Publication Date Title
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
US10242289B2 (en) Method for analysing media content
CN111507370B (zh) 获得自动标注图像中检查标签的样本图像的方法和装置
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN108280455B (zh) 人体关键点检测方法和装置、电子设备、程序和介质
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN113723553A (zh) 一种基于选择性密集注意力的违禁物品检测方法
CN114821282B (zh) 一种基于域对抗神经网络的图像检测装置及方法
CN115797357B (zh) 一种基于改进YOLOv7的输电通道隐患检测方法
CN112149533A (zh) 一种基于改进ssd模型的目标检测方法
CN110895814A (zh) 一种基于上下文编码网络的航空发动机孔探图像损伤智能分割方法
CN111815576B (zh) 金属部件腐蚀状况检测方法、装置、设备和存储介质
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN116012722A (zh) 一种遥感影像场景分类方法
CN113239914A (zh) 课堂学生表情识别及课堂状态评估方法、装置
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
CN113743521B (zh) 一种基于多尺度上下文感知的目标检测方法
Li et al. Attention‐guided multiscale neural network for defect detection in sewer pipelines
Zhao et al. NAS-kernel: Learning suitable Gaussian kernel for remote sensing object counting
CN115700737A (zh) 一种基于视频监控的溢油检测方法
CN112837281A (zh) 基于级联卷积神经网络的销钉缺陷识别方法、装置和设备
Li et al. Structural health monitoring response reconstruction based on UAGAN under structural condition variations with few-shot learning [J]
Zan et al. Defect Identification of Power Line Insulators Based on a MobileViT‐Yolo Deep Learning Algorithm
CN115205793B (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置
CN116385876A (zh) 基于yolox的光学遥感影像地物检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211130