CN113642646A

CN113642646A - 一种基于多注意力和语义的图像威胁物品分类及定位方法

Info

Publication number: CN113642646A
Application number: CN202110931990.0A
Authority: CN
Inventors: 李国权; 夏瑞阳; 黄正文; 文凌云; 林金朝; 庞宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-12
Anticipated expiration: 2041-08-13
Also published as: CN113642646B

Abstract

本发明涉及一种基于多注意力和语义的图像威胁物品分类及定位方法，属于图像处理领域。本发明包括以下步骤：1、对安检图像的数据集进行数据预处理；2、设计基于多注意力机制和高语义及高分辨率特征结合的威胁物品分类网络结构3、对最终的结果进行分类及定位。本发明提出一种针对安检过程中的威胁物品分类及定位网络模型，基于多注意力机制提出的新方法。并且获得了目前在威胁物品分类及定位领域中的较好效果。本发明对安检过程产生的X光图像，利用深度学习网络，通过设计空间注意力网络模块，通道注意力网络模块，以及高语义和高分辨率特征结合网络模块，对安检图像中存在的威胁物品进行分类及定位。辅助并提升安检人员的工作效率。

Description

一种基于多注意力和语义的图像威胁物品分类及定位方法

技术领域

本发明属于图像处理领域，涉及一种基于多注意力和语义的图像威胁物品分类及定位方法。

背景技术

分析复杂安检图像信息是安检员获取安全信息程度的主要方式。然而，由于需要在短促有限的时间内对紧凑且杂乱的旅客行李进行检查，不免导致安检员对不易察觉的危险物品产生疏漏的风险。已有的研究指出，安检人员根据X光的图片判定一个行李中是否包含限制物品至少需要两秒的时间，且准确率不足90％，容易产生漏检与误判现象。

为了保障公民乘坐公共交通工具的安全性，世界各国都加大了安检力度和资金投入，研究研制更先进的技术和设备，用于行李检测的X射线设备得到了快速的发展。现在X射线安检设备已被广泛部署在车站、机场、海关和各类封闭的公共场所，成为人们日常生活的一部分。目前的各安检设备制造商已经针对不同的应用场景研发了针对的X射线安检系统，如针对人体随身携带物品检测的能量型X射线人体检查设备用于集装箱的集装箱探测设备和应用于常规包裹检测但精度和速度不一的多视角X射线探测设备、X射线康普顿散射设备、X射线CT探测设备等等。未来，X射线设备制造商将会继续细化设备的应用领域，针对特定的应用场景研发侧重点不同的设备，但不论哪种场景，设备的精度、速度和智能化都是必须要考虑的。未来的X射线安检设备在人工智能的加持下，能够实现在无人员控制情况下自动识别被检测物体中的限制物品。

相比于日常的生活图像，经过X射线生成的图像存在以下问题，首先，由于图像本身是通过穿透形成并且扫描的物品以行李等小而密的物品为主，因此，这些物品的重叠度非常高，此外，这些物品区域内部会存在与其他重叠物品的情况，这提升了背景的复杂性，加大了识别难度；其次，同一类下的威胁物品差别大，即同类数据的内部高方差加剧模型对同类物品的识别难度；最后，X射线数据量远远小于前者，导致对威胁物品的精确检测和识别再次产生负面影响。所以，设计符合该特殊情况下的智能设备对X射线下的威胁物品实时精确检测成为了近年来计算机视觉方向的研究热点。

发明内容

有鉴于此，本发明的目的在于提供一种基于多注意力和语义的图像威胁物品分类及定位方法，从而提高模型对相关威胁物品的识别准确性及定位精确性。

为达到上述目的，本发明提供如下技术方案：

一种基于多注意力和语义的图像威胁物品分类及定位方法，该方法包括以下步骤：

S1：数据处理；

S2：设计基于多注意力机制及高语义与高分辨率特征的威胁物品分类网络结构；

根据特征的空间信息，设计多头空间注意力模型，并将其嵌入至浅层网络，根据特征的通道信息，设计多头通道注意力模型，并将其嵌入至深层网络，将不同网络层提取的特征信息进行结合从而形成高语义及高分辨率特征；

S3：威胁物品分类及定位；

对于分类任务，将带有威胁物品区域的图像进行类别标记并将处理完成的数据输入到网络中，最后对每张图像得到一个多分类的结果，根据模型的多分类预测结果最大值判断对应输入图像的威胁物品类别；对于定位任务，将包含其他物品的完整图像数据输入到网络中，得到网络对威胁物品的区域响应，根据模型的区域响应最大值判断对应威胁物品的相应位置。

可选的，所述S1具体包括以下步骤：

S11：对原始数据集进行预处理；

对SIXray数据集中数据进行预处理，即对图像数据的RGB数值大小分别进行标准化，然后将标准化后的图像统一至相同大小；

S12：对处理好的数据进行数据增强；

对处理好的数据进行数据增强，从而提升模型的泛化能力。

可选的，所述S11具体为：

SIXray数据集中包含1059231张X光安检图像，其中8929张中包含6个不同类别的威胁物品：手枪、刀具、扳手、钳子和剪刀，取其中20％作为测试集，其余80％作为训练集；将原始数据加载到网络中，对其进行重新采样，将数据归一化至[0，1]数值范围，然后对数据进行标准化处理，使得RGB空间数值服从正态分布；根据SIXray提供的数据标记信息，通过矩形剪裁数据，除去大部分与威胁物品无关的图像区域；将每张裁剪后的X光图像的长度，宽度以及通道维度调整为112×112×3大小的三维数据；

所述S12具体为：在数据加载到网络训练之前，将数据加入大小为4的padding，再随机剪裁成112×112×3的大小，通过将图像进行随机水平翻转、垂直翻转、镜像翻转，并将图片随机取大小为4的矩阵置零，为模型的训练提供更多数据。

可选的，所述S2中，网络模块分为三个部分，第一部分是空间注意力网络模块SAM，第二部分是通道注意力网络CAM，第三部分是高语义和高分辨率特征结合网络模块HRHSM，空间多头注意力网络通过构建自注意力矩阵，对网络提取的空间特征进行全局信息挖掘，通道多头注意力网络通过对空间信息进行聚类，只对通道特征进行全局信息挖掘，最后，通过对主干网络不同层的信息进行结合，使得输出特征具有高语义及高分辨率信息。

可选的，所述空间注意力网络模块由最大池化以及平均池化所构成的两个网络分支组成，不同分支会对主干网络提取的特征建立其索引q，键值k及向量v，建立自注意力特征矩阵，其中，矩阵的每行元素代表单个特征与其余特征响应，将得到的自注意力特征矩阵与变量v进行矩阵相乘得到每个特征值的全局响应，公式如下：

其中，q，k，v分别代表特征的索引，键值及变量，softmax函数将每个特征与其余特征得到的响应值限制在[0，1]数值范围，d_head表示多头注意力中每个头所含有的通道特征维度；

将得到的特征全局响应与池化后的局部特征进行相加，其中，对于全局响应部分，会乘以初始化为0的可学习参数，公式如下：

O_AP＝β(Attention_AP)+F_AP

O_MP＝α(Attention_MP)+F_MP

其中，Attention_AP和Attention_MP分别代表平均池化和最大池化网络分支的空间全局响应，F_AP和F_MP代表平均池化和最大池化网络分支的局部特征，β和α代表初始化为0的可学习参数；

将两个网络分支得到的特征进行级联，再将级联结果上采样后与主干网络输入进行级联结合，公式如下：

O_SAM＝U(Concat[O_AP，O_MP])

O＝σ(f(Concat[O_SAM，Input|）)

其中，O_AP和O_MP分别表示平均池化以及最大池化网络分支得到的空间注意力响应，U(·)代表上采样函数，f(·)代表卷积融合操作，σ(·)代表ReLU非线性激活函数。

可选的，所述通道注意力网络由最大池化以及平均池化所构成的两个网络分支组成，不同于空间多头注意力网络，通道多头注意力网络应用最大池化及平均池化函数，将主干网络提取特征的空间进行聚类，使得提取特征空间大小变为1×1，通过各个分支的多层感知机，将两个网络分支的聚类后的通道特征信息进行运算，再将不同分支的结果进行级联然后进行交互运算，最后将得到的全局响应与主干特征信息进行结合，公式如下：

O_CAM＝σ(W×Concat[W_0AP×F_AP，W_0MP×F_MP])

F_AP和F_MP代表平均池化分支及最大池化分支聚类后的特征，W_OAP与W_0MP代表相应分支的多层感知机权重，W代表不同分支结合下的多层感知机权重，σ(·)代表sigmoid非线性激活函数。

可选的，所述高语义和高分辨率特征结合网络模块将不同层的主干网络提取特征结果进行合并，对于深层网络的特征，会进行通道特征压缩以及空间特征上采样从而与浅层网络特征进行特征融合，公式如下：

O_HRHSM＝D(Concat[O_s，U(O_m)，U(O_d)])

O_s，O_m和O_d分别表示浅层，中层以及深层网络提取的特征，U(·)表示空间信息上采样及通道信息压缩函数，D(·)表示下采样及特征融合函数，对于特征融合函数，采用分组瓶颈结构的卷积集组成，分别用于通道维度变换及空间维度融合。

可选的，所述S3具体为：将包含其他物品的完整安检图像输入至网络模型，提取网络最后一层的特征响应结果，将该结果的尺度大小调整为输入数据大小，根据响应的最大值进行威胁物品定位。

本发明的有益效果在于：本发明对安检过程产生的X光图像，利用深度学习网络，通过多注意力机制和高语义及高分辨率的特征结合，对威胁物品进行有效分类及定位。将该算法嵌入至安检X光设备系统中，可以辅助并提升安检人员的工作效率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明网络整体框架示意图；

图2为空间多头注意力网络框架示意图；

图3为通道多头注意力网络框架示意图；

图4为融合多层特征网络框架示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明实例提供了一种基于多注意力机制和高语义及高分辨率特征结合方法，该方法可以由终端或服务器实现，该方法包括：

在浅层主干网络中，通过利用空间注意力网络构建自注意力矩阵，从而对网络提取的空间特征进行全局信息挖掘；

在深层主干网络中，通过利用通道注意力网络对空间信息进行全局聚类，从而对通道特征进行全局信息挖掘；

在多层主干网络，通过对多层主干网络提取特征进行融合，从而使得输出特征同时具有高语义及高分辨率特性。

如图2所示的空间注意力网络，在得到浅层主干网络提取的特征后，将其输入至最大池化网络分支及平均池化网络分支，分别构建两个不同的自注意力矩阵，将自注意力矩阵与相应的特征进行内积操作得到特征的空间全局响应，两个分支的局部特征与全局响应结合后，分别进行上采样然后级联，级联后的特征与主干网络特征进一步级联，通过33大小的卷积核进行特征融合，从而使得提取的特征包含全局特性。

如图3所示的通道注意力网络，在得到深层主干网络提取的特征后，将其输入至最大池化网络分支及平均池化网络分支，分别对空间特征进行全局聚类，使得空间特征大小为11，将聚类后的特征输入至多层感知机，从而使得通道间特征得到全局交互，再将每个分支的特征级联后输入至另一个多层感知机并经过sigmoid非线性激活函数，最后与主干网络的特征进行相乘，使得主干网络的通道特征具有全局特性。

如图4所示的高语义和高分辨率特征结合网络，在得到多层主干网络提取的特征后，对深层特征进行上采样及通道特征压缩，使得深层特征空间大小与浅层相同，通道特征通过11卷积压缩至原来一半，利用瓶颈结构的分组卷积集对多层级联的特征进行融合，输出的特征进行后续的分类及定位。

为了验证本发明实例提供的基于多注意力机制和高语义及高分辨率特征结合网络的方法有效性，采用VGG19，ResNet50，ResNet101和ResNeXt29分别作为主干特征提取网络进行实验，并使用SIXray数据集中80％作为训练样本集和20％作为测试集，没有使用任何预训练权重作为初始权重；使用Pytorch深度学习框架，训练环境为：Ubuntu 16.04，Cuda10.0，Cudnn 7.6.5，GPU(Titan V)，12GB显存，python 3.6.14。

实验结果

在本实例中，使用准确率(P)，召回率(R)以及F1-score(F1)对模型的威胁物品分类性能进行评估，如表1所示，本发明的网络结构在对威胁物品的分类的准确率，召回率及F1-score评价指标上均有提升。

表1 各个模型最终分类结果以及评价标准

(*表示主干网络中加入了本专利提出的网络模块)

在本实例中，使用正确率(Accuracy)对模型的威胁物品定位性能进行评估，如表2所示，本发明的网络结构能够明显提升对威胁物品定位正确率。

表2 各个模型最终定位结果以及评价标准

(*表示主干网络中加入了本专利提出的网络模块)

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：该方法包括以下步骤：

S1：数据处理；

S3：威胁物品分类及定位；

2.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述S1具体包括以下步骤：

S11：对原始数据集进行预处理；

S12：对处理好的数据进行数据增强；

对处理好的数据进行数据增强，从而提升模型的泛化能力。

3.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述S11具体为：

SIXray数据集中包含1059231张X光安检图像，其中8929张中包含6个不同类别的威胁物品：手枪、刀具、扳手、钳子和剪刀，取其中20％作为测试集，其余80％作为训练集；将原始数据加载到网络中，对其进行重新采样，将数据归一化至[0,1]数值范围，然后对数据进行标准化处理，使得RGB空间数值服从正态分布；根据SIXray提供的数据标记信息，通过矩形剪裁数据，除去大部分与威胁物品无关的图像区域；将每张裁剪后的X光图像的长度，宽度以及通道维度调整为112×112×3大小的三维数据；

4.根据权利要求1所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述S2中，网络模块分为三个部分，第一部分是空间注意力网络模块SAM，第二部分是通道注意力网络CAM，第三部分是高语义和高分辨率特征结合网络模块HRHSM，空间多头注意力网络通过构建自注意力矩阵，对网络提取的空间特征进行全局信息挖掘，通道多头注意力网络通过对空间信息进行聚类，只对通道特征进行全局信息挖掘，最后，通过对主干网络不同层的信息进行结合，使得输出特征具有高语义及高分辨率信息。

5.根据权利要求4所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述空间注意力网络模块由最大池化以及平均池化所构成的两个网络分支组成，不同分支会对主干网络提取的特征建立其索引q，键值k及向量v，建立自注意力特征矩阵，其中，矩阵的每行元素代表单个特征与其余特征响应，将得到的自注意力特征矩阵与变量v进行矩阵相乘得到每个特征值的全局响应，公式如下：

O_AP＝β(Attention_AP)+F_AP

O_MP＝α(Attention_MP)+F_MP

O_SAM＝U(Concat[O_AP，O_MP])

O＝σ(f(Concat[O_SAM，Input]))

6.根据权利要求5所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述通道注意力网络由最大池化以及平均池化所构成的两个网络分支组成，不同于空间多头注意力网络，通道多头注意力网络应用最大池化及平均池化函数，将主干网络提取特征的空间进行聚类，使得提取特征空间大小变为1×1，通过各个分支的多层感知机，将两个网络分支的聚类后的通道特征信息进行运算，再将不同分支的结果进行级联然后进行交互运算，最后将得到的全局响应与主干特征信息进行结合，公式如下：

O_CAM＝σ(W×Concat[W_0AP×F_AP，W_0MP×F_MP])

F_AP和F_MP代表平均池化分支及最大池化分支聚类后的特征，W_0AP与W_0MP代表相应分支的多层感知机权重，W代表不同分支结合下的多层感知机权重，σ(·)代表sigmoid非线性激活函数。

7.根据权利要求6所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述高语义和高分辨率特征结合网络模块将不同层的主干网络提取特征结果进行合并，对于深层网络的特征，会进行通道特征压缩以及空间特征上采样从而与浅层网络特征进行特征融合，公式如下：

O_HRHSM＝D(Concat[O_s，U(O_m)，U(O_d)])

O_s，O_m和O_d分别表示浅层，中层以及深层网络提取的特征，U(·）表示空间信息上采样及通道信息压缩函数，D(·)表示下采样及特征融合函数，对于特征融合函数，采用分组瓶颈结构的卷积集组成，分别用于通道维度变换及空间维度融合。

8.根据权利要求7所述的一种基于多注意力和语义的图像威胁物品分类及定位方法，其特征在于：所述S3具体为：将包含其他物品的完整安检图像输入至网络模型，提取网络最后一层的特征响应结果，将该结果的尺度大小调整为输入数据大小，根据响应的最大值进行威胁物品定位。