CN113159120A - 一种基于多尺度跨图像弱监督学习的违禁物检测方法 - Google Patents

一种基于多尺度跨图像弱监督学习的违禁物检测方法 Download PDF

Info

Publication number
CN113159120A
CN113159120A CN202110275640.3A CN202110275640A CN113159120A CN 113159120 A CN113159120 A CN 113159120A CN 202110275640 A CN202110275640 A CN 202110275640A CN 113159120 A CN113159120 A CN 113159120A
Authority
CN
China
Prior art keywords
image
feature
scale
cross
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110275640.3A
Other languages
English (en)
Inventor
徐照程
田彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202110275640.3A priority Critical patent/CN113159120A/zh
Publication of CN113159120A publication Critical patent/CN113159120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度跨图像弱监督学习的违禁物检测方法,该方法首先构建违禁物检测模型,所述违禁物检测模型由用于图像多尺度特征提取与融合的特征交互模型、学习目标语义信息的跨图像弱监督语义分析模型以及分割掩码辅助检测模型复合而成;本发明方法通过编码器提取多尺度特征、持续特征交互强化深层语义信息,残差学习网络整合上下文信息,使用联合注意力机制学习跨图像相似性矩阵,运用解码器结构获得高层次语义分割掩码辅助检测,获得最终检测结果。本发明方法能够有效提高物品严重遮挡、高度重叠情况下的违禁物检测的准确率。

Description

一种基于多尺度跨图像弱监督学习的违禁物检测方法
技术领域
本发明涉及违禁物检测技术,具体涉及一种基于多尺度跨图像弱监督学习的违禁物检测 方法。
背景技术
智能X光包裹违禁物检测方法,能够自动识别乘客包裹中是否有违禁物品,与其他非破 坏性的检测方法(如超声波、超频成像、热成像等)相比,X光的优点在于优秀的辨识力、 清楚度和可视化能力,因此,在过去近十年里,X光包裹违禁物检测一直是研究的热点领域。
近年来,深度学习特别是深度卷积神经网络(deep convolutional neuralnetworks,DCNNs) 在包裹违禁物检测任务中得到了成功应用,并使得安检自动化取得显著地进展。但是,目前 在物品高度重叠、相互遮挡的包裹中,违禁物检测的准确率仍有待提高。针对这个问题,一 些现有方法利用Canny、Sobel算子得到边缘线索来提高辨识度,但是低层梯度信息引入过多 的噪声(如其它安全物品的边缘细节信息等),不利于违禁物的检测。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于多尺度跨图像弱监督学习的违禁 物检测方法,该方法能够有效提高物品严重遮挡、高度重叠情况下的违禁物检测的准确率。
本发明的目的是通过以下技术方案来实现的:一种基于多尺度跨图像弱监督学习的违禁 物检测方法,该方法包括以下步骤:
(1)构建违禁物检测模型,包括用于图像多尺度特征提取与融合的特征交互模型、学习 目标语义信息的跨图像弱监督语义分析模型、分割掩码辅助检测模型;
所述特征交互模型的构建方法如下:
输入原始图像I,通过编码器提取多尺度初始特征图
Figure BDA0002976524040000011
编码器是由C个残 差块组成的残差学习网络,C即为特征图的尺度数;相邻尺度下的特征图进行特征交互,即 对低层特征图
Figure BDA0002976524040000012
中层特征图
Figure BDA0002976524040000013
和高层特征图
Figure BDA0002976524040000014
进行采样得到相同分辨率的特征图,之 后进行像素加和,得到对应尺度下的多尺度交互图f1 i;将第k-1轮特征交互图作为新一轮特 征交互的初始特征图
Figure BDA0002976524040000015
K为总迭代次数,得到第k轮特征交互 的输出特征图
Figure BDA0002976524040000016
对每个尺度i下生成的K轮特征交互图f1 i,...,
Figure BDA0002976524040000017
进行像素加和, 得到每个尺度i下的上下文信息特征图{fi},i=1,2,...,C;将各尺度下的上下文信息特征图通 过门限卷积网络进行融合,得到原始图像的多尺度上下文融合特征图F;
所述跨图像弱监督语义分析模型的构建方法如下:
从训练集中随机抽样图像对(Im,In),图像In根据物体外接框标注信息裁剪图像内容,并 缩放至固定尺寸,且ln∈{0,1}K为图像对应的one-hot格式的图像类别标签,K为违禁物候选类 别数加1;使用特征交互模型输出特征图(Fm,Fn)∈RU×H×W作为模型输入,其中U,H,W分别 为特征图的通道数、高度、宽度;特征图通过CFC操作获得类别感知的激活特征图(Sm,Sn)∈RQ×H×W,Q为激活特征图的通道数,通过GAP操作获得类别置信度向量(sm,sn)∈RQ,利用Sigmoid函数进行归一化,并根据归一化结果计算交叉熵损失函数Lce(·),得到单张图像 Ij的分类损失:Lce(sj,lj),并将单张图像的分类损失加和得到图像对(Im,In)的分类损失:
Figure BDA0002976524040000021
假设对特征图(Fm,Fn)作形状调整,得到展平特征图
Figure BDA0002976524040000022
其中HW是输入特征图中的像素数目,计算跨图像联合注意力相似性矩阵
Figure BDA0002976524040000023
来度量不同特征图任意位置间的相似性,其 中,WP∈RU×U是需要学习的权值矩阵;将softmax函数应用于Pmn、Pnm进行归一化,得到跨图像联合注意力图(Am,An)∈RHW×HW;将
Figure BDA0002976524040000024
与(Am,An)作矩阵乘法,得到展平的跨图像 环境特征图
Figure BDA0002976524040000025
Figure BDA0002976524040000026
Figure BDA0002976524040000027
作形状调整,获得环境特征图
Figure BDA0002976524040000028
环境特征图通过CFC操作得到类别感知的激活特征图
Figure BDA0002976524040000029
通过GAP操作获得类别置信度向量
Figure BDA00029765240400000210
利用Sigmoid函数进行归一化,并根据归一化结果计算交叉熵损失函数Lce(·),从而构造跨图像联 合注意力分类损失函数:
Figure BDA00029765240400000211
其中,lm∩ln是图像对(Im,In)的共有类别标签集合;总分类损失函数
Figure BDA00029765240400000212
其 中α为跨图像联合注意力分类损失函数的权重;
所述分割掩码辅助检测模型包括分割模块和检测模块,构建方法如下:
将训练集中的任一图像Ij通过跨图像弱监督语义分析模型生成的类别感知激活图
Figure BDA00029765240400000213
输入解码器,解码器由与编码器相对应的C个残差块组成,通过解码器得到语义分割掩码
Figure BDA00029765240400000214
其中,θ是解码器网络权重,fd(·)为映射函数,Oj与输入图像Ij的分辨率 相同;对跨图像弱监督语义分析模型中的类别置信度向量sj∈RQ进行上采样、二值化处理,将 处理结果作为前景目标伪掩码,使用显著性概率图作为背景伪掩码,从而构成伪分割掩码Ej; 优化分割模块损失函数:Lseg=∑jLbce(Oj,Ej),其中Lbce(·)为二值化交叉熵损失函数;将
Figure BDA0002976524040000031
与下采样到
Figure BDA0002976524040000032
的分辨率的语义分割掩码O'j进行级联,级联结果O”j分别输入分类分支和定 位分支,分类分支由一层全连接层实现,用于预测分类置信度向量;定位分支由两层全连接 层实现,用于定位目标位置pj=(xj,yj,wj,hj),其中(xj,yj)为目标中心位置坐标,(wj,hj)为 目标外接框的像素宽度、高度;使用交叉熵损失函数Lce(·)优化模型分类分支,L1范式损失函 数L1(·)优化目标定位分支,分割掩码辅助检测模型的检测模块总损失函数为:Ldet= ∑j(Lce(rj,tj)+βL1(pj,dj)),其中,tj,dj分别为分类分支、定位分支的真实标签,rj为预测 类别,β为混合平衡因子;
(2)得到检测结果:利用训练样本训练违禁物检测模型;测试时将待检测图像输入违禁 物检测模型,得到违禁物位置和种类。
进一步地,本发明特征交互模型中:
特征融合是从图像或视频提取高层次信息的一种机制,它利用不同特征图中的区域或位 置来获取信息。在多尺度分析中,相邻尺度特征图并非相互独立,而是相互关联的。并且多 尺度特征融合是提升检测性能的重要手段。
在特征交互模型中,通过残差学习网络提取多尺度初始特征图,加强多尺度特征,残差 学习网络使用了C个残差块分别得到C个特征尺度,每个残差块由批归一化(BatchNormalization,BN)层、线性整流单元(Rectified Linear Unit,ReLU)、卷积核大小为3x3的卷积 层组成。同时添加额外的卷积层、解卷积层,对各尺度下的特征图进行持续特征交互,缓和 不同尺度特征的语义鸿沟(总迭代次数K可取2)。特征交互模型中编码器的残差块与分割 掩码辅助检测模型中解码器的残差块是对应的。
所述特征交互模型能够判别含有相近对象情景信息的特征图,其中所有上下文信息可以 从较低感知层面中获得的特征图或较高感知层面中获得的特征图中获得,并且该方法是高效 且易于训练的;这种上下文信息获取方法可用一个简单的网络结构实现,即可以通过使用一 个新型的特征交互模型来深入获取。也就是说,在相邻的尺度上,上下文信息可以被选择性 地引入到当前的特征图中。
特征交互模型中,多尺度交互图
Figure BDA0002976524040000033
公式为:
Figure BDA0002976524040000034
其中f为基于后融合的特征融合函数,
Figure BDA0002976524040000035
为第i-1层、第i层、第i+1层特征图。
Figure BDA0002976524040000036
能被表示为如下和的形式:
Figure BDA0002976524040000037
或者可以表示为投影加和的形式:
Figure BDA0002976524040000041
其中
Figure BDA0002976524040000042
为实现特征图上采样的反卷积层参数,
Figure BDA0002976524040000043
为实现特征图下采样的卷积层参数,
Figure BDA0002976524040000044
为使得特征图分辨率不变的卷积层参数;上采样通过步长为2的反卷积实现,下采样通过 步长为2的卷积实现。
进一步地,本发明的跨图像弱监督语义分析模型中:
注意力是一种信息提取机制,它能自适应地选择一系列区域或位置并仅处理所选区域来 获取信息。利用注意力机制能够高效重分配可用信息,弱化复杂多样的背景带来的干扰,自 主聚焦感兴趣区域。
在跨图像弱监督语义分析模型中,所述联合注意力机制,其突破常规的联合训练模式, 海量的数据组合方式,能够产生等同于数据增强的增益效果,获得足以驱动弱监督学习的语 义信息。
进一步地,所述违禁物检测模型采用端到端End-to-End学习模式。
进一步地,所述违禁物检测模型训练阶段采用GPU进行计算。
进一步地,本发明可采用SIXRay数据集或OPIXray数据集作为违禁物检测模型的训练 集。因为SIXray100数据集正负样本比接近真实分布,故采用SIXray100作为验证集。在SIXray 数据集上,采用平均精度均值(mean Average Precision,mAP)作为分类评估标准,采用命中率 作为定位评估标准。在分类分支中,所有检测图像根据检测目标的置信度排序,并计算平均 精度均值(mean Average Precision,mAP)。在定位分支中,
Figure BDA0002976524040000045
(#Hits为命中 数,#Misses为未命中数),若激活特征图中最大值对应的像素位置落在违禁物真实区域中, 则记为一次命中,否则记为一次未命中。在OPIXray数据集上,采用平均精度均值(mean Average Precision,mAP)作为评估标准。
相比于现有技术,本发明具有的有益效果为:
(1)提出特征交互模型,持续融合尺度相邻、语义相近的局部信息,共享多尺度信息, 最小化语义差距,编码高辨识度的多层次语义信息,强化模型多分辨率高效特征表达、目标 定位能力;同时该模型具备高移植性,高效且易于训练。
(2)运用联合注意力机制,联合感知相似目标,聚焦全局上下文信息,全面理解目标模 式,消除复杂的背景干扰,突破单张图像孤立进行目标检测的信息瓶颈,结合跨图像显著性 概率图,构造伪分割掩码。
(3)提出分割掩码辅助检测模型,采用双支路分别执行分割、检测双重任务,利用高层 信息获得分割掩码,从而提供像素层面的目标语义、外观信息,辅助检测模块输出最终结果。
(4)采用SIXray、OPIXray数据集上的实验结果表明,与其他先进检测方法相比,本发 明方法具有可观的竞争力。
附图说明
图1是本发明实施例提供的违禁物检测模型的框架示意图;
图2是本发明实施例提供的特征交互模型结构示意图;
图3是本发明实施例提供的跨图像弱监督语义分析模型结构示意图;
图4是本发明实施例在SIXray数据集上的结果实例图。
图5是本发明实施例在OPIXray数据集上的结果实例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明实施例提出的一种基于多尺度跨图像弱监督学习的违禁物检测方法,该方法通过 编码器提取多尺度特征、持续特征交互强化深层语义信息,残差连接整合上下文信息,使用 联合注意力机制学习跨图像相似性矩阵,运用解码器结构获得高层次语义分割掩码辅助检测, 获得最终检测结果。该方法具体包括以下步骤:
(1)构建违禁物检测模型:所述违禁物检测模型由用于图像多尺度特征提取与融合的特 征交互模型、学习目标语义信息的跨图像弱监督语义分析模型、分割掩码辅助检测模型复合 而成;
所述特征交互模型(Scale Interaction Module,SIM)的构建方法如下:
输入原始图像I(来自于训练集),通过编码器提取多尺度初始特征图
Figure BDA0002976524040000051
编码器是由C个残差块组成的残差学习网络,C即为特征图的尺度数,一般通过实验获得。 为在特征融合时缓和不同尺度特征的语义鸿沟,相邻尺度下的特征图进行特征交互,即对高 分辨率的低层特征图
Figure BDA0002976524040000052
(对
Figure BDA0002976524040000053
进行下采样)、中等分辨率的中层特征图
Figure BDA0002976524040000054
低分辨率的 高层特征图
Figure BDA0002976524040000055
(对
Figure BDA0002976524040000056
进行上采样),进行采样得到相同分辨率的特征图,之后进行像素加 和,得到对应尺度下的多尺度交互图f1 i;为进一步挖掘不同尺度间特征图的依赖关系,该特 征交互过程可持续进行,将第k-1轮特征交互图作为新一轮特征交互的初始特征图
Figure BDA0002976524040000057
K为总迭代次数,从而得到第k轮特征交互的输出特征图
Figure BDA0002976524040000058
为改善模型训练的有效性、缓解梯度消失问题,引入残差学习策略,对每 个尺度i下生成的K轮特征交互图f1 i,...,
Figure BDA0002976524040000059
进行像素加和,得到每个尺度i下的上下文信息特 征图{fi},i=1,2,...,C;最后,将各尺度下的上下文信息特征图通过门限卷积网络(Gated CNN) 进行融合,得到原始图像的多尺度上下文融合特征图F;
所述跨图像弱监督语义分析模型(Cross-image Analysis Module,CAM)的构建方法如下:
从训练集中随机抽样图像对(Im,In),其中m和n是图像标号,其中,图像In根据物体外 接框标注信息裁剪图像内容,并缩放至固定尺寸,且ln∈{0,1}K为图像对应的one-hot格式的图 像类别标签,K为违禁物候选类别数加1;m的含义与n相同;使用特征交互模型输出特征图 (Fm,Fn)∈RU×H×W作为本模型输入,其中U,H,W分别为特征图的通道数、高度、宽度;特征 图通过类别感知的全卷积(class-aware fully convolution,CFC)操作获得类别感知的激活特征图 (Sm,Sn)∈RQ×H×W,Q为激活特征图的通道数,然后通过全局平均池化(globalaverage pooling, GAP)获得类别置信度向量(sm,sn)∈RQ,利用Sigmoid函数进行归一化,并根据归一化结果计 算交叉熵损失函数Lce(·),得到单张图像Ij的分类损失:Lce(sj,lj),并将单张图像的分类损失 加和得到图像对(Im,In)的分类损失:
Figure BDA0002976524040000061
从而评估单图像分类 部分预测结果与真实标签间的差异程度。假设对特征图(Fm,Fn)作形状调整,得到展平特征图
Figure BDA0002976524040000062
其中HW是输入特征图中的像素数目,然后计算跨图像联合注意力相似性 矩阵
Figure BDA0002976524040000063
来度量不同特征图任意位置间的相似性,其中,WP∈RU×U是需要学习的权值矩阵;接着,将softmax函数应用于Pmn、Pnm进行归一化, 得到跨图像联合注意力图(Am,An)∈RHW×HW;最后,将展平特征图
Figure BDA0002976524040000064
与归一化的跨图像 联合注意力图(Am,An)作矩阵乘法,得到展平的跨图像环境特征图
Figure BDA0002976524040000065
Figure BDA0002976524040000066
将展平的跨图像环境特征图
Figure BDA0002976524040000067
作形状调整,获得环境特 征图
Figure BDA0002976524040000068
环境特征图通过CFC操作得到类别感知的激活特征图
Figure BDA0002976524040000069
通过GAP操作获得类别置信度向量
Figure BDA00029765240400000610
利用Sigmoid 函数进行归一化,并根据归一化结果计算交叉熵损失函数Lce(·),从而构造跨图像联合注意力 分类损失函数:
Figure BDA00029765240400000611
其中,lm∩ln是图像 对(Im,In)的共有类别标签集合;总分类损失函数
Figure BDA00029765240400000612
其中α为 跨图像联合注意力分类损失函数的权重,用于调节单张图像分类损失与跨图像联合注意力分 类损失的贡献比重;
所述分割掩码辅助检测模型(Multitask Learning Module,MLM)包括分割模块和检测模块, 模型构建方法如下:
将训练集中的任一图像Ij通过跨图像弱监督语义分析模型生成的类别感知激活图
Figure BDA0002976524040000071
输入解码器,解码器由与编码器相对应的C个残差块组成,通过解码器得到语义分割掩码
Figure BDA0002976524040000072
其中,θ是解码器网络权重,fd(·)为映射函数,Oj与输入图像Ij的分辨率 相同;对跨图像弱监督语义分析模型中的类别置信度向量sj∈RQ进行上采样、二值化处理,将 处理结果作为前景目标伪掩码,使用显著性概率图作为背景伪掩码,从而构成伪分割掩码Ej; 优化分割模块损失函数:Lseg=∑jLbce(Oj,Ej),其中Lbce(·)为二值化交叉熵损失函数;将类 别感知激活图
Figure BDA0002976524040000073
与下采样到
Figure BDA0002976524040000074
的分辨率的语义分割掩码O'j进行级联,级联结果O”j分 别输入分类分支和定位分支,分类分支由一层全连接层实现,用于预测分类置信度向量(分 类置信度向量的维度为违禁物候选类别数加1,1代表背景类别);定位分支由两层全连接层 实现(第一层的通道数为128,第二层的通道数为4),用于定位目标位置pj=(xj,yj,wj,hj),其 中(xj,yj)为目标中心位置坐标,(wj,hj)为目标外接框的像素宽度、高度;
使用交叉熵损失函数Lce(·)优化模型分类分支,L1范式损失函数L1(·)优化目标定位分支, 分割掩码辅助检测模型的检测模块总损失函数为:Ldet=∑j(Lce(rj,tj)+βL1(pj,dj)),其中, tj,dj分别为分类分支、定位分支的真实标签,rj为预测类别,β为混合平衡因子;
(2)得到检测结果:利用训练样本训练违禁物检测模型;测试时将安检X光机采集的 待检测的图像输入违禁物检测模型,得到违禁物位置和种类。
本实施例提供的违禁物检测方法可以对图像中的违禁物位置、类别检测,且能应用到其 他安全检测的方面。采用本实施方式对图像中的违禁物进行检测的过程包括训练和测试两个 部分。下面结合附图介绍本实施例所采用的检测模型。
图1是本发明实施例提供的违禁物检测模型的框架示意图,该模型框架由用于图像多尺 度特征提取与融合的特征交互模型、学习目标语义信息的跨图像弱监督语义分析模型以及分 割掩码辅助检测模型复合而成;本发明方法将所有图像尺寸调整为1200x1000像素来使用全 连接层。
整个网络采用随机梯度下降算法(Stochastic Gradient Descent,SGD)进行训练,动量对 数为0.9,权重衰减系数0.0007。学习率设定方法:在前45000个迭代中为0.005,并根据模 型在验证集的表现自动衰减。批次数目(Batch Size)均为6。训练周期为T轮(在SIXray中T 为150,在OPIXray中,T为120)。并在训练阶段使用水平翻转、垂直翻转的数据增强方法。 检测阶段,IoU阈值为0.5。
本实施例中测试方法具体为:给定测试图像,将训练得到的违禁物检测模型执行一次前 向传播得到若干个置信度高的区域候选框,在特定阈值下采用非极大抑制(Non-Maximum Suppression,NMS),得到基于本实施例提出的违禁物检测模型的测试结果。
图2是本发明实施例提供的特征交互模型结构示意图,特征交互模型(ScaleInteraction Module,SIM)使用了5个残差块分别得到5个特征尺度,各尺度特征图的通道数分别为64, 256,512,1024,2048;其中,SIM3对应的虚线框部分,表示第三个特征尺度下的SIM模块; 特征交互过程共迭代2轮。并对输入特征图使用类别感知的全卷积(class-aware fully convolution,CFC)、全局平均池化(global average pooling,GAP)得到类别置信度向量。
图3是本发明实施例提供的跨图像弱监督语义分析模型结构示意图,在跨图像弱监督语 义分析模型(Cross-image Analysis Module,CAM)中,从训练集中随机抽样图像对;在SIXray 数据集中违禁物候选类别数为7,在OPIXray中,因为其他非违禁物被视为背景,故违禁物 候选类别数为6。跨图像联合注意力分类损失函数的权重α设为0.01。
在分割掩码辅助检测模型(Multitask Learning Module,MLM)中,解码器各尺度特征图的通 道数分别为1024,512,256,64和E(E与各数据集违禁物候选类别数相关)。两个全连接层的通道 数分别为128,D(D在SIXray数据集中为11,OPIXray为10)。参数β为0.1(由网格搜索 确定)。
图4是本发明实施例在SIXray数据集上的结果实例图,1号标识、2号标识、3号标识分 别对应去遮挡注意力模块(De-occlusion Attention Module,DOAM)方法,本发明所用方法以及 真实标签(Ground Truth)。其中,(a)为无遮挡或轻微遮挡的违禁物预测结果,(b)为部分遮挡的 违禁物预测结果;本发明方法在多种遮挡程度上均能取得鲁棒的检测结果,相对于去遮挡注 意力模块(De-occlusion Attention Module,DOAM)使用带噪声的低层次边缘抽取信息辅助检测, 本发明方法基于语义分割信息辅助违禁物检测,改善了检测准确率。
图5是本发明实施例在OPIXray数据集上的结果实例图,1号标识、2号标识、3号标识 分别对应去遮挡注意力模块(De-occlusion Attention Module,DOAM)方法,本发明所用方法以 及真实标签(Ground Truth)。其中,(a)、(b)均为违禁物预测结果。本发明所用方法对不同物体 有较强的鲁棒性。
结果表明,本实施例提出的方法与其他先进的检测方法相比更具有竞争力。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是 以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做 的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,包括以下步骤:
(1)构建违禁物检测模型,包括用于图像多尺度特征提取与融合的特征交互模型、学习目标语义信息的跨图像弱监督语义分析模型、分割掩码辅助检测模型;
所述特征交互模型的构建方法如下:
输入原始图像I,通过编码器提取多尺度初始特征图
Figure FDA0002976524030000011
编码器是由C个残差块组成的残差学习网络,C即为特征图的尺度数;相邻尺度下的特征图进行特征交互,即对低层特征图
Figure FDA0002976524030000012
中层特征图
Figure FDA0002976524030000013
和高层特征图
Figure FDA0002976524030000014
进行采样得到相同分辨率的特征图,之后进行像素加和,得到对应尺度下的多尺度交互图f1 i;将第k-1轮特征交互图作为新一轮特征交互的初始特征图
Figure FDA0002976524030000015
K为总迭代次数,得到第k轮特征交互的输出特征图
Figure FDA0002976524030000016
对每个尺度i下生成的K轮特征交互图
Figure FDA0002976524030000017
进行像素加和,得到每个尺度i下的上下文信息特征图{fi},i=1,2,...,C;将各尺度下的上下文信息特征图通过门限卷积网络进行融合,得到原始图像的多尺度上下文融合特征图F;
所述跨图像弱监督语义分析模型的构建方法如下:
从训练集中随机抽样图像对(Im,In),图像In根据物体外接框标注信息裁剪图像内容,并缩放至固定尺寸,且ln∈{0,1}K为图像对应的one-hot格式的图像类别标签,K为违禁物候选类别数加1;使用特征交互模型输出特征图(Fm,Fn)∈RU×H×W作为模型输入,其中U,H,W分别为特征图的通道数、高度、宽度;特征图通过CFC操作获得类别感知的激活特征图(Sm,Sn)∈RQ×H×W,Q为激活特征图的通道数,通过GAP操作获得类别置信度向量(sm,sn)∈RQ,利用Sigmoid函数进行归一化,并根据归一化结果计算交叉熵损失函数Lce(·),得到单张图像Ij的分类损失:Lce(sj,lj),并将单张图像的分类损失加和得到图像对(Im,In)的分类损失:
Figure FDA0002976524030000018
假设对特征图(Fm,Fn)作形状调整,得到展平特征图
Figure FDA0002976524030000019
其中HW是输入特征图中的像素数目,计算跨图像联合注意力相似性矩阵
Figure FDA00029765240300000110
来度量不同特征图任意位置间的相似性,其中,WP∈RU×U是需要学习的权值矩阵;将softmax函数应用于Pmn、Pnm进行归一化,得到跨图像联合注意力图(Am,An)∈RHW×HW;将
Figure FDA00029765240300000111
与(Am,An)作矩阵乘法,得到展平的跨图像环境特征图
Figure FDA00029765240300000112
Figure FDA00029765240300000113
Figure FDA00029765240300000114
作形状调整,获得环境特征图
Figure FDA0002976524030000021
环境特征图通过CFC操作得到类别感知的激活特征图
Figure FDA0002976524030000022
通过GAP操作获得类别置信度向量
Figure FDA0002976524030000023
利用Sigmoid函数进行归一化,并根据归一化结果计算交叉熵损失函数Lce(·),从而构造跨图像联合注意力分类损失函数:
Figure FDA0002976524030000024
其中,lm∩ln是图像对(Im,In)的共有类别标签集合;总分类损失函数
Figure FDA0002976524030000025
其中α为跨图像联合注意力分类损失函数的权重;
所述分割掩码辅助检测模型包括分割模块和检测模块,构建方法如下:
将训练集中的任一图像Ij通过跨图像弱监督语义分析模型生成的类别感知激活图
Figure FDA0002976524030000026
输入解码器,解码器由与编码器相对应的C个残差块组成,通过解码器得到语义分割掩码
Figure FDA0002976524030000027
其中,θ是解码器网络权重,fd(·)为映射函数,Oj与输入图像Ij的分辨率相同;对跨图像弱监督语义分析模型中的类别置信度向量sj∈RQ进行上采样、二值化处理,将处理结果作为前景目标伪掩码,使用显著性概率图作为背景伪掩码,从而构成伪分割掩码Ej;优化分割模块损失函数:Lseg=∑jLbce(Oj,Ej),其中Lbce(·)为二值化交叉熵损失函数;将
Figure FDA0002976524030000028
与下采样到
Figure FDA0002976524030000029
的分辨率的语义分割掩码O′j进行级联,级联结果O″j分别输入分类分支和定位分支,分类分支由一层全连接层实现,用于预测分类置信度向量;定位分支由两层全连接层实现,用于定位目标位置pj=(xj,yj,wj,hj),其中(xj,yj)为目标中心位置坐标,(wj,hj)为目标外接框的像素宽度、高度;使用交叉熵损失函数Lce(·)优化模型分类分支,L1范式损失函数L1(·)优化目标定位分支,分割掩码辅助检测模型的检测模块总损失函数为:Ldet=∑j(Lce(rj,tj)+βL1(pj,dj)),其中,tj,dj分别为分类分支、定位分支的真实标签,rj为预测类别,β为混合平衡因子;
(2)得到检测结果:利用训练样本训练违禁物检测模型;测试时将待检测图像输入违禁物检测模型,得到违禁物位置和种类。
2.如权利要求1所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,所述多尺度交互图
Figure FDA00029765240300000210
公式为:
Figure FDA00029765240300000211
其中f为基于后融合的特征融合函数,
Figure FDA00029765240300000212
分别为第i-1层、第i层、第i+1层特征图。
3.如权利要求2所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,
Figure FDA00029765240300000213
表示为如下和的形式:
Figure FDA0002976524030000031
4.如权利要求2所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,
Figure FDA0002976524030000032
表示为投影加和的形式:
Figure FDA0002976524030000033
其中
Figure FDA0002976524030000034
为实现特征图上采样的反卷积层参数,
Figure FDA0002976524030000035
为实现特征图下采样的卷积层参数,
Figure FDA0002976524030000036
为使得特征图分辨率不变的卷积层参数。
5.如权利要求1所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,所述特征交互模型中,残差学习网络使用C个残差块分别得到C个特征尺度,每个残差块由批归一化层、线性整流单元、卷积核大小为3x3的卷积层组成;同时添加额外的卷积层、解卷积层,对各尺度下的特征图进行持续特征交互,缓和不同尺度特征间的语义鸿沟。
6.如权利要求1所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,所述违禁物检测模型采用端到端End-to-End学习模式。
7.如权利要求1所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,所述违禁物检测模型训练阶段采用GPU进行计算。
8.如权利要求1所述的基于多尺度跨图像弱监督学习的违禁物检测方法,其特征在于,采用SIXRay数据集或OPIXray数据集作为违禁物检测模型的训练集。
CN202110275640.3A 2021-03-15 2021-03-15 一种基于多尺度跨图像弱监督学习的违禁物检测方法 Pending CN113159120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275640.3A CN113159120A (zh) 2021-03-15 2021-03-15 一种基于多尺度跨图像弱监督学习的违禁物检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275640.3A CN113159120A (zh) 2021-03-15 2021-03-15 一种基于多尺度跨图像弱监督学习的违禁物检测方法

Publications (1)

Publication Number Publication Date
CN113159120A true CN113159120A (zh) 2021-07-23

Family

ID=76887102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275640.3A Pending CN113159120A (zh) 2021-03-15 2021-03-15 一种基于多尺度跨图像弱监督学习的违禁物检测方法

Country Status (1)

Country Link
CN (1) CN113159120A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505771A (zh) * 2021-09-13 2021-10-15 华东交通大学 一种双阶段物品检测方法及装置
CN113610807A (zh) * 2021-08-09 2021-11-05 西安电子科技大学 基于弱监督多任务学习的新冠肺炎分割方法
CN113657493A (zh) * 2021-08-17 2021-11-16 北京理工大学 基于风格特征通道注意力的x光安检图像违禁品检测方法
CN113744153A (zh) * 2021-09-02 2021-12-03 深圳大学 双分支图像修复伪造检测方法、系统、设备及存储介质
CN113780305A (zh) * 2021-08-10 2021-12-10 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法
CN114092422A (zh) * 2021-11-11 2022-02-25 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统
CN115049817A (zh) * 2022-06-10 2022-09-13 湖南大学 一种基于跨图像一致性的图像语义分割方法及其系统
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法
CN116309446A (zh) * 2023-03-14 2023-06-23 浙江固驰电子有限公司 用于工业控制领域的功率模块制造方法及系统
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN116311254A (zh) * 2023-05-23 2023-06-23 暨南大学 一种恶劣天气情况下的图像目标检测方法、系统及设备
CN117593517A (zh) * 2024-01-19 2024-02-23 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法
CN118314333A (zh) * 2024-06-07 2024-07-09 南开大学 一种基于Transformer架构的红外图像目标检测方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610807B (zh) * 2021-08-09 2024-02-09 西安电子科技大学 基于弱监督多任务学习的新冠肺炎分割方法
CN113610807A (zh) * 2021-08-09 2021-11-05 西安电子科技大学 基于弱监督多任务学习的新冠肺炎分割方法
CN113780305A (zh) * 2021-08-10 2021-12-10 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法
CN113780305B (zh) * 2021-08-10 2024-03-12 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法
CN113657493A (zh) * 2021-08-17 2021-11-16 北京理工大学 基于风格特征通道注意力的x光安检图像违禁品检测方法
CN113744153B (zh) * 2021-09-02 2023-08-25 深圳大学 双分支图像修复伪造检测方法、系统、设备及存储介质
CN113744153A (zh) * 2021-09-02 2021-12-03 深圳大学 双分支图像修复伪造检测方法、系统、设备及存储介质
CN113505771B (zh) * 2021-09-13 2021-12-03 华东交通大学 一种双阶段物品检测方法及装置
CN113505771A (zh) * 2021-09-13 2021-10-15 华东交通大学 一种双阶段物品检测方法及装置
CN114092422A (zh) * 2021-11-11 2022-02-25 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统
CN114092422B (zh) * 2021-11-11 2024-06-07 长沙理工大学 一种基于深度循环注意力的图像多目标提取方法及系统
CN115049817A (zh) * 2022-06-10 2022-09-13 湖南大学 一种基于跨图像一致性的图像语义分割方法及其系统
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法
CN116309446A (zh) * 2023-03-14 2023-06-23 浙江固驰电子有限公司 用于工业控制领域的功率模块制造方法及系统
CN116309446B (zh) * 2023-03-14 2024-05-07 浙江固驰电子有限公司 用于工业控制领域的功率模块制造方法及系统
CN116311254A (zh) * 2023-05-23 2023-06-23 暨南大学 一种恶劣天气情况下的图像目标检测方法、系统及设备
CN116311254B (zh) * 2023-05-23 2023-09-15 暨南大学 一种恶劣天气情况下的图像目标检测方法、系统及设备
CN116311106B (zh) * 2023-05-24 2023-08-22 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN117593517A (zh) * 2024-01-19 2024-02-23 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法
CN117593517B (zh) * 2024-01-19 2024-04-16 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法
CN118314333A (zh) * 2024-06-07 2024-07-09 南开大学 一种基于Transformer架构的红外图像目标检测方法

Similar Documents

Publication Publication Date Title
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
Xu et al. Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark
Zhao et al. Building outline delineation: From aerial images to polygons with an improved end-to-end learning framework
US11475660B2 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
WO2023015743A1 (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN112183414A (zh) 一种基于混合空洞卷积的弱监督遥感目标检测方法
Li et al. A robust instance segmentation framework for underground sewer defect detection
Raghavan et al. Optimized building extraction from high-resolution satellite imagery using deep learning
AU2020272936B2 (en) Methods and systems for crack detection using a fully convolutional network
CN106373146A (zh) 一种基于模糊学习的目标跟踪方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
CN116883933A (zh) 一种基于多尺度注意力与数据增强的安检违禁品检测方法
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
CN113657225B (zh) 一种目标检测方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
Li et al. Deep Learning-based Model for Automatic Salt Rock Segmentation
Sahragard et al. Semantic Segmentation of Aerial Imagery: A Novel Approach Leveraging Hierarchical Multi-scale Features and Channel-based Attention for Drone Applications
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN115984712A (zh) 基于多尺度特征的遥感图像小目标检测方法及系统
CN115331254A (zh) 一种免锚框的实例人像语义解析方法
CN115439926A (zh) 一种基于关键区域和场景深度的小样本异常行为识别方法
CN116758363A (zh) 一种权重自适应与任务解耦的旋转目标检测器
CN114170625A (zh) 一种上下文感知、噪声鲁棒的行人搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination