CN110533045A

CN110533045A - 一种结合注意力机制的行李x光违禁品图像语义分割方法

Info

Publication number: CN110533045A
Application number: CN201910700738.1A
Authority: CN
Inventors: 张海刚; 安久远; 杨金锋
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-12-03
Anticipated expiration: 2039-07-31
Also published as: CN110533045B

Abstract

一种结合注意力机制的行李X光违禁品图像语义分割方法。其包括获得原始违禁品图像并进行标注，构成安检图像语义分割数据集；构建安检图像语义分割编码模块，生成特征图；构建通道注意力模块，生成通道注意力；构建空洞空间金字塔池化模块，处理特征图的多尺度问题；构建空间注意力模块生成空间注意力；构建解码模块，生成最终的预测分割图等步骤。本发明提供的结合注意力机制的行李X光违禁品图像语义分割方法是利用语义分割网络实现对违禁品的类别进行精确的判断，同时，获得其在原始违禁品图像中精确的位置，方便安检人员进行开包检查。另外，本发明方法还结合了注意力机制，因此能够进一步改善网络的性能。

Description

一种结合注意力机制的行李X光违禁品图像语义分割方法

技术领域

本发明属于X光安检图像检测和计算机视觉领域，特别是涉及一种结合注意力机制的行李X光违禁品图像语义分割方法。

背景技术

在安检任务中，X光扫描技术被大规模使用，有力的保证了公共空间的安全，有效的阻止了恐怖袭击等恶性事件的发生，能够防患于未然。然而，目前大多数的安检任务，主要依靠安检员来完成。这项工作繁重且无聊，如果工作时间过长，安检人员极易出现分心，从而导致对违禁品的漏检误检。另外，安检图像与自然图像有着很大的不同，它没有自然图像那么丰富的特征，单单依靠人眼识别违禁品的效率较低，因此，这项工作适合交由计算机来处理。

随着深度学习的进一步发展，计算机视觉领域也出现了较大的突破，目标检测、语义分割等任务的精度不断提升。其中，语义分割是一种更为严格的分类任务，它不仅可以识别出目标的类别，还可以精确的标明目标的位置，有着较为明显的优势。另外，研究发现，注意力机制可以帮助网络理解图像，进一步提升精度。然而，目前在安检违禁品的检测中，还尚未出现使用语义分割的方法，更无从谈起结合注意力机制的语义分割。

发明内容

为了解决上述问题，本发明的目的在于提供一种结合注意力机制的行李X光违禁品图像语义分割方法。

为了达到上述目的，本发明提供的结合注意力机制的行李X光违禁品图像语义分割方法包括按顺序进行的下列步骤：

步骤一，采用X光安检机获得原始违禁品图像，然后将原始违禁品图像使用标注工具进行标注而得到原始违禁品图像对应的标签，由每一张原始违禁品图像和对应的标签构成一个违禁品图像标签对，由所有违禁品图像标签对构成安检图像语义分割数据集；

步骤二，构建安检图像语义分割编码模块并输入原始违禁品图像，利用该编码模块不断提取原始违禁品图像的特征，生成特征图，用于违禁品的识别与定位；

步骤三，在上述安检图像语义分割编码模块之后构建通道注意力模块并输入特征图，对特征图的通道生成对应的权重，即通道注意力，由此对特征图进行加权，使特征图中与违禁品种类有关的语义信息更加突出；

步骤四，在通道注意力模块之后构建空洞空间金字塔池化模块并输入经过步骤三处理后的特征图，利用特征图的尺度信息来处理违禁品大小不一的尺度问题；

步骤五，在空洞空间金字塔池化模块之后构建空间注意力模块并输入经过步骤四处理后的特征图，对特征图的位置生成对应的权重，即生成空间注意力，由此对特征图进行加权，使特征图中与违禁品位置有关的语义信息更加突出，以便更好地利用全局语义信息；

步骤六，在空间注意力模块之后构建解码模块并输入经过步骤五处理后的特征图，生成最终的预测分割图。

在步骤一中，所述的标注工具采用labelme标注工具。

在步骤二中，所述的构建安检图像语义分割编码模块并输入原始违禁品图像，利用该编码模块不断提取原始违禁品图像的特征，生成特征图的方法是：所述的安检图像语义分割编码模块采用MobileNet网络；当原始违禁品图像被送入安检图像语义分割编码模块后，首先要经过多个卷积层，每经过一次卷积操作，都会提取出一部分特征，生成特征图，之后特征图会被输入到倒置残差块中；由倒置残差块处理这些特征图时，首先需要扩展特征图的通道，以增加冗余度，之后使用深度可分离卷积来替代普通的卷积操作；通过安检图像语义分割编码模块对原始违禁品图像进行特征提取，生成已经提取了高级语义信息的特征图。

在步骤三中，所述的在上述安检图像语义分割编码模块之后构建通道注意力模块并输入特征图，对特征图的通道生成对应的权重，即通道注意力，由此对特征图进行加权的方法是：

1)将输入到通道注意力模块中的特征图进行空间信息聚合；

同时使用平均池化与最大池化这两种池化方法，得到两种空间信息描述算子；将平均池化后得到的算子记为C_a，最大池化后得到的算子记为C_m，之后将这两种算子进行加和，得到加和算子C_s；将这三个算子在通道上进行连接而得到空间聚合信息，用来生成通道注意力；

2)将上述得到的空间聚合信息送入下一层的多层感知机；之后经过激活函数的映射，得到初步的通道注意力I′；这里激活函数选用sigmoid函数，整个计算过程如下：

I′＝σ(M(F_max(I)+F_avg(I),F_max(I),F_avg(I))) (1)

其中，I表示输入到通道注意力模块中的特征图，F_max表示最大池化操作，F_avg表示平均池化操作，M表示多层感知机，σ表示sigmoid函数；

3)得到初步的通道注意力I′后，将得到的初步的通道注意力I′进行扩展，以便能与特征图进行求和操作，得到最终的通道注意力I″，并且这里设置了一个参数α来调整权重：

I″＝αI+(1-α)I′ (2)。

在步骤五中，所述的在空洞空间金字塔池化模块之后构建空间注意力模块并输入经过步骤四处理后的特征图，对特征图的位置生成对应的权重，即生成空间注意力，由此对特征图进行加权的方法是：

1)在空间注意力模块中输入特征图之后，利用卷积核大小为1的卷积层对特征图进行降维操作，降维之后，特征图的大小不变，但通道数量减少；

2)利用上述得到的降维之后的特征图，获得特征图的全局语义信息依赖；首先将降维之后的特征图复制成相同的三份，将其中两份复制的特征图改变形状，分别记为然后将复制的特征图S₁与S₂作为输入，进行矩阵的乘法操作，得到全局语义信息依赖，用A来表示，其中在全局语义信息依赖A中，每一点都代表了特征图中两个位置的内积：

其中R表示改变形状的操作；

3)将最后一份复制的特征图记为对全局语义信息依赖A与复制的特征图G进行矩阵的乘法操作，生成最终的空间注意力B，如式(4)所示：

其中Conv代表卷积操作；

得到空间注意力B之后利用卷积核为1的卷积层对其进行降维操作得到降维后的空间注意力S，之后将降维后的空间注意力S与复制的特征图G进行点乘操作，由此对特征图进行加权，得到用于输入到解码模块中的特征图G′，用式(5)表示：

G′＝Conv(G⊙S) (5)。

在步骤六中，所述的在空间注意力模块之后构建解码模块并输入经过步骤五处理后的特征图，生成最终的预测分割图的方法是采用上采样操作，将较低分辨率的特征图转换为较高分辨率的预测分割图。

本发明提供的结合注意力机制的行李X光违禁品图像语义分割方法是利用语义分割网络实现对违禁品的类别进行精确的判断，同时，获得其在原始违禁品图像中精确的位置，方便安检人员进行开包检查。另外，本发明方法还结合了注意力机制，因此能够进一步改善网络的性能。

附图说明

图1为安检图像语义分割数据集示例。

图2为安检图像语义分割编码模块示意图。

图3为生成通道注意力过程示意图。

图4为空洞空间金字塔池化过程示意图。

图5为生成空间注意力过程示意图。

图6为单违禁品图像的预测分割图。

图7为多违禁品图像的预测分割图。

具体实施方式

下面结合附图和具体实施例对本发明提供的结合注意力机制的行李X光违禁品图像语义分割方法进行详细说明。

本发明提供的结合注意力机制的行李X光违禁品图像语义分割方法包括按顺序进行的下列步骤：

在安检图像语义分割数据集的构建过程中，本发明人考虑了违禁品的材质、尺寸，最终选择了七类违禁品，包括充电宝、打火机、叉子、刀具、手枪、钳子以及剪刀。为了获取真实的违禁品图像，将七类违禁品分别放入不同的行李中，并进行了一定的姿态变换，以保证违禁品在行李中位置的随机性，之后经过X光安检机获取原始违禁品图像。为了更加贴近现实，本发明还将违禁品进行自由排列组合，使得同一个行李中出现多个违禁品，用来制作多违禁品的数据集。在得到原始违禁品图像后，利用labelme标注工具对原始违禁品图像进行语义标注，由每一张原始违禁品图像和对应的标签构成一个违禁品图像标签对，如图1所示。其中，原始违禁品图像用于送入下面构建的网络中进行训练，生成预测分割图，标签用于与预测分割图进行比较，不断对网络进行优化。至此，安检图像语义分割数据集构建完成。

在本发明中，安检图像语义分割编码模块采用MobileNet网络。由于安检任务是一种实时性要求很高的检测任务，因此对网络性能具有一定的要求，即网络的参数量不能过大，因此选用了MobileNet网络这种轻量化的网络结构。相较于普通的残差网络结构，这种网络的参数量可大大减少。在安检图像语义分割编码模块中，使用了多个倒置残差块，这样可以大大提高编码的效果，如图2所示。当原始违禁品图像被送入安检图像语义分割编码模块后，首先要经过多个卷积层，每经过一次卷积操作，都会提取出一部分特征，生成特征图，之后特征图会被输入到倒置残差块中。由倒置残差块处理这些特征图时，首先需要扩展特征图的通道，以增加冗余度，之后使用深度可分离卷积来替代普通的卷积操作，这样可以大大减少网络的参数量。为了减少训练安检图像语义分割编码模块的时间，使其更加适用于安检任务，可以下载原来在Imagenet数据集上已经训练好的模型，在此基础上微调即可。通过安检图像语义分割编码模块对原始违禁品图像进行特征提取，可以生成已经提取了高级语义信息的特征图。

在上述安检图像语义分割编码模块提取原始违禁品图像中特征的过程中，特征图的尺寸会越来越小，同时深度即通道会越来越深，丰富的信息会弥漫在这些较深的特征图中。然而，这些通道并不是同等重要的，有些特征或许对违禁品的检测具有十分重要的作用，例如颜色、轮廓等，其它的特征或许就没有那么重要。因此，有必要设计一个通道注意力模块来判断特征图中各个通道的重要程度，对特征图的通道生成对应的权重，即通道注意力，由此对特征图进行加权，使特征图中与违禁品种类有关的语义信息更加突出，如图3所示。具体操作过程如下：

1)将输入到通道注意力模块中的特征图进行空间信息聚合。经过研究发现，平均池化与最大池化两种方法都具有比较好的空间信息聚合效果，因此同时使用了这两种池化方法，得到两种空间信息描述算子。

将平均池化后得到的算子记为C_a，最大池化后得到的算子记为C_m，之后将这两种算子进行加和，得到加和算子C_s。为了增加信息的冗余度，这里并不单单使用加和算子C_s，还利用了平均池化算子C_a与最大池化算子C_m，将这三个算子在通道上进行连接而得到空间聚合信息，用来生成通道注意力。

2)将上述得到的空间聚合信息送入下一层的多层感知机。此多层感知机是一种神经网络，只由一层隐藏层构成，用来对空间聚合信息进行充分的混合，并提取相关特征信息。之后经过激活函数的映射，得到初步的通道注意力I′。这里激活函数选用sigmoid函数，整个计算过程如下：

I′＝σ(M(F_max(I)+F_avg(I),F_max(I),F_avg(I))) (1)

其中，I表示输入到通道注意力模块中的特征图，F_max表示最大池化操作，F_avg表示平均池化操作，M表示多层感知机，σ表示sigmoid函数。

3)得到初步的通道注意力I′后，利用其给特征图进行加权，以判断特征图中各个通道的重要程度。首先需要将得到的初步的通道注意力I′进行扩展，以便能与特征图进行求和操作，得到最终的通道注意力I″，如式(2)所示。比较特别的是，这里设置了一个参数α来调整权重。

I″＝αI+(1-α)I′ (2)

参数α由整个模型自己学习，不需要人为设置。

在实际中，由于不同违禁品的尺寸具有较大的差别，这为违禁品的语义分割增加了难度，这就是目标的多尺度问题。空洞空间金字塔池化方法善于处理多尺度问题，因此，这里构建了空洞空间金字塔池化模块来处理特征图的多尺度问题。如图4所示，这种方法堆叠了不同空洞率的卷积，可以充分利用不同尺度的信息来提升分割效果。

上述通道注意力可以帮助网络学习到违禁品的种类，而空间注意力则可以帮助网络学习到违禁品的位置，因此，有必要为网络设计一个空间注意力模块。过去的研究已经表明，利用全局语义信息，可以更好地辅助网络进行分割，使得分割的结果更为精确。因此，本步骤利用全局语义信息来生成空间注意力，如图5所示。由于空间注意力是一种点注意力，为了不占用太多的计算资源，将空间注意力模块放置在编码模块之后，解码模块之前。具体操作过程如下：

1)为了减少计算量，需要对输入的特征图进行降维操作。在空间注意力模块中输入特征图之后，利用卷积核大小为1的卷积层对特征图进行降维操作，降维之后，特征图的大小不变，但通道数量减少；

2)利用上述得到的降维之后的特征图，获得特征图的全局语义信息依赖。首先将降维之后的特征图复制成相同的三份，将其中两份复制的特征图改变形状，分别记为然后将复制的特征图S₁与S₂作为输入，进行矩阵的乘法操作，如式(3)所示，可以得到全局语义信息依赖，用A来表示，其中在全局语义信息依赖A中，每一点都代表了特征图中两个位置的内积。

其中R表示改变形状的操作。

3)利用上述全局语义信息依赖A生成空间注意力，之后利用空间注意力给上述特征图进行加权，用来改善分割效果。为了生成最终的空间注意力，需要利用最后一份复制的特征图，记为对全局语义信息依赖A与复制的特征图G进行矩阵的乘法操作，生成最终的空间注意力B，如式(4)所示：

其中Conv代表卷积操作。

得到空间注意力B之后利用卷积核为1的卷积层对其进行降维操作得到降维后的空间注意力S，之后即可将降维后的空间注意力S与复制的特征图G进行点乘操作，由此对特征图进行加权，得到用于输入到下述解码模块中的特征图G′，可用式(5)表示。

G′＝Conv(G⊙S) (5)

步骤六，在空间注意力模块之后构建解码模块并输入经过步骤五处理后的特征图，生成最终的预测分割图；

在解码模块中，采用一些上采样操作，将较低分辨率的特征图转换为较高分辨率的预测分割图。获得预测分割图之后，可在计算机的屏幕上自动通过预测分割图上不同的颜色来判别出违禁品的类别，而且违禁品的位置也一目了然，因此可以指导安检人员进行开包检查。

实验结果

为了验证本发明方法的效果，本发明人选取了采用X光安检机获得的原始违禁品图像3571张，每张图像大小为512*512，总共含有七类违禁品。将这3571张原始违禁品图像分为两类，一类中每张原始违禁品图像只含有一个违禁品，另一类中每张原始违禁品图像含有多个违禁品，将这两类原始违禁品图像作为本实验的测试集。测试集制作完成之后，本发明人按照上述本发明方法获得预测分割图，并对最终获得的预测分割图进行了评估，选取了识别率以及定位IoU精度作为评价指标。结果如表1和图6、图7所示。

表1测试集识别率及定位IoU精度

在本实验中，无论是单违禁品的图像，还是多违禁品的图像，本发明方法均能实现较高的识别率，其定位的精度也较高。上述结果证明，本发明方法可有效对原始违禁品图像中的违禁品进行语义分割，具有一定的可行性。

Claims

1.一种结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：所述的结合注意力机制的行李X光违禁品图像语义分割方法包括按顺序进行的下列步骤：

2.根据权利要求1所述的结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：在步骤一中，所述的标注工具采用labelme标注工具。

3.根据权利要求1所述的结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：在步骤二中，所述的构建安检图像语义分割编码模块并输入原始违禁品图像，利用该编码模块不断提取原始违禁品图像的特征，生成特征图的方法是：所述的安检图像语义分割编码模块采用MobileNet网络；当原始违禁品图像被送入安检图像语义分割编码模块后，首先要经过多个卷积层，每经过一次卷积操作，都会提取出一部分特征，生成特征图，之后特征图会被输入到倒置残差块中；由倒置残差块处理这些特征图时，首先需要扩展特征图的通道，以增加冗余度，之后使用深度可分离卷积来替代普通的卷积操作；通过安检图像语义分割编码模块对原始违禁品图像进行特征提取，生成已经提取了高级语义信息的特征图。

4.根据权利要求1所述的结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：在步骤三中，所述的在上述安检图像语义分割编码模块之后构建通道注意力模块并输入特征图，对特征图的通道生成对应的权重，即通道注意力，由此对特征图进行加权的方法是：

1)将输入到通道注意力模块中的特征图进行空间信息聚合；

I′＝σ(M(F_max(I)+F_avg(I),F_max(I),F_avg(I))) (1)

I″＝αI+(1-α)I′ (2)。

5.根据权利要求1所述的结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：在步骤五中，所述的在空洞空间金字塔池化模块之后构建空间注意力模块并输入经过步骤四处理后的特征图，对特征图的位置生成对应的权重，即生成空间注意力，由此对特征图进行加权的方法是：

其中R表示改变形状的操作；

其中Conv代表卷积操作；

G′＝Conv(G⊙S) (5)。

6.根据权利要求1所述的结合注意力机制的行李X光违禁品图像语义分割方法，其特征在于：在步骤六中，所述的在空间注意力模块之后构建解码模块并输入经过步骤五处理后的特征图，生成最终的预测分割图的方法是采用上采样操作，将较低分辨率的特征图转换为较高分辨率的预测分割图。