CN110018524A

CN110018524A - 一种基于视觉-属性的x射线安检违禁品识别方法

Info

Publication number: CN110018524A
Application number: CN201910077811.4A
Authority: CN
Inventors: 赵才荣; 陈康; 傅佳悦
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-07-16
Anticipated expiration: 2039-01-28
Also published as: CN110018524B

Abstract

本发明涉及计算机视觉领域，采用深度学习框架，具体涉及一种基于视觉—属性的X射线安检违禁品识别方法，包括以下步骤：1)采集标注训练样本，获取原始的单通道16位高、低能X射线灰度图，经过基于视觉‑属性的预处理，得到16位三通道彩色图像作为数据集，用于模型训练和测试；2)将训练集图像输入网络中进行训练：使用darknet网络从输入图像中提取特征，输出特征图谱；采用yolo层在多个尺度对特征图谱进行边界框预测。经过训练，该模型支持对已标注的12类违禁品进行识别；3)将测试集图像输入模型中进行测试，输出识别结果，并在输入图像上标记违禁品显示；根据IoU和R‑P曲线计算得到mAP。与现有技术相比，本发明具有高准确性、高智能化、高通配性等优点。

Description

一种基于视觉-属性的X射线安检违禁品识别方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于视觉-属性的X射线安检违禁品识别方法。

背景技术

在人流量较大的公共场所，人员密集且复杂，经常会有不法分子携带刀枪、炸弹等违禁物品伺机作案。为了避免重大的人员伤亡和财产损失，这些公共场所都会设置安检系统，其中最普遍的就是X射线安检系统。

对于X射线安检系统生成的行李图像，现在大多数监测方法是采用人工识别，靠工作人员用肉眼对行李中的违禁品进行识别和定位。但这种方法存在很明显的弊端：1.工作人员长时间进行物体识别，势必会产生疲劳，导致注意力下降。这会对监测结果产生一定的影响，降低违禁品的识别率，给不法分子以可乘之机。2.工作人员用肉眼识别的速度较为缓慢，造成安检工作效率较低。3.担任安检监测工作的工作人员在上岗前需要进行长时间的培训，会消耗大量的人力物力。

如何找出一种方法模仿人工效果成为安全监测的关键问题。而深度学习的动机恰恰在于建立、模拟人脑进行分析学习，它通过模仿人脑的机制来解释数据。因此使用深度学习的方法来进行安检违禁品识别成为可能。违禁品识别问题大体可分为两个部分：目标分类和违禁品定位。

专利CN 106250936 A提出了一种基于机器学习的多特征多线程安检违禁品识别方法，使用Adaboost分类器结合LBP+HOG特征提取对人工识别方法进行了改进，克服了人工检测的低效和出错率。但是训练前期的预处理和特征提取过程过于复杂，并且输出结果仅仅是违禁品的分类，没有实现违禁品的定位，这种分两步走的方法缺少端到端的能力，难以部署到安检机上。

专利CN 108519625 A提出了一种基于射线技术与深度学习的安检违禁品识别方法，引入了深度学习的概念，能够使用更简单有效的模型来实现违禁品识别。但是整个方法需要基于大量物理条件，比如核密度计、光谱分析仪等，训练过程复杂，当类别增加时需要重新训练整个分类器并修改模型，这种每类单独训练分类器的方法在实际运用过程中不易实现。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉-属性的X射线安检违禁品识别方法，可以部署到安检机上进行使用。

本发明的目的可以通过以下技术方案来实现：

一种基于视觉-属性的X射线安检违禁品识别方法，包括以下步骤：

1)采集标注训练样本，获取原始的单通道16位高、低能X射线灰度图，经过基于视觉-属性的预处理，得到16位三通道彩色图像作为数据集，用于模型训练和测试；。

2)将训练集图像输入网络中进行训练：使用darknet网络从输入图像中提取特征，输出特征图谱；采用yolo层在多个尺度对特征图谱进行边界框预测。使用darknet网络的输出作为yolo层的输入，得到检测模型。经过训练，该模型支持对已标注的12类违禁品进行识别。

3)将测试集图像输入模型中进行测试，输出识别结果，并在输入图像上标记违禁品显示；根据IoU和R-P曲线计算得到mAP。

所述的步骤1)图像预处理具体包括以下步骤(此处理过程为原创)：

11)为了得到物体的属性特征，由于高、低能X光透过物体后生成的高、低能图像的比值在一定程度上与物体的相对原子系数有关，表示了物体不同位置的属性特征，为了增强属性间差异的影响并消除空白负值，故对高能图进行偏移，使用低能图与偏移后的高能图相除，生成表示属性的通道中每个像素点取值的计算式为：

其中，w,h表示图像的宽和高，对于图像中的每个像素点(i，j)：imVaccum_ij表示该点属性值，imLow_ij表示低能图该点像素值，imHigh_ij表示高能图该点像素值；θ表示高能图的偏移值，默认为10000。

12)将16位的低能图、高能图和生成的属性值图谱分别作为16位RGB图像的三个通道，处理成一个新的png格式图像，作为数据集。

13)对处理后的数据集图像进行人工标注，生成包含人工标注边界框的xml文件，边界框保存为(x_min,y_min,x_max,y_max)格式作为实际标记框；根据xml文件生成标签文件，边界框转换为(class,x,y,w,h)格式得到训练模型所用标记框，对x,y,w,h均进行归一化：

x＝((x_min+x_max)/2-1)/width

y＝((y_min+y_max)/2-1)/height

w＝(x_max-x_min)/width

h＝(y_max-y_min)/hright

其中x_min,x_max,y_min,y_max是边界框的四边坐标，width,height为输入图像的宽、高。

所述的步骤2)中，将训练集图像输入网络中进行训练，具体包括以下步骤：

21)网络的0-74层使用darknet-53网络，将输入的图像裁剪为416*416后送入网络中进行特征提取，输出为13*13*1024的特征图谱。网络的参数使用在ImageNet图像数据集上预训练得到的权重进行初始化。(常规过程)

22)将13*13*1024特征层输入yolo层进行多尺度预测，使用9个预测原点，三个为一组分别在三个尺度的网格单元(13*13，26*26，52*52)上进行检测，总的网格单元数量为13*13+26*26+52*52，每个网格单元输出维度为N×N×[3*(4+1+n)]的边界框特征图谱，其中，N为网格单元大小，3为每个网格单元预测边界框数量，4是边界框坐标数量，1是边框置信度，n是预测类别数量。

23)对经过yolo层输出的边界框(t_x,t_y,t_w,t_h,t_o)进行处理：结合聚类方法得到的初始中心点和每个网格左上角坐标(c_x,c_y)可对边界框按如下方法进行处理：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b,object)＝σ(t_o)

其中σ()是归一化函数，p_w、p_h为边界框的宽和高，b_x,b_y,b_w,b_h为预测框的相对位置和大小。Pr(object)为物体存在的置信度，IOU(b,object)为预测框和实际框的重叠率。其中物体存在的置信度使用逻辑回归策略预测。若边界框与实际标记框的重合度大于其他边界框，则置信度置1；若重合度不是最大，但大于阈值(默认0.5)，则忽略这个预测。

24)对整个网络设计了混合损失函数，采用梯度下降算法对网络参数进行优化，主要损失函数如下：

坐标预测损失：

置信度损失：

分类损失：

L_{cross-entropy}(x,y)＝-((xlogy)+(1-x)log(1-y))

其中，S²为网格数，B为预测边界框数量，C为预测类别的数量，表示判断第i个网格中第j个预测框是否负责这个物体的检测，λ为人为设定的比例系数，x_i，y_i，w_i，h_i，C_i为实际标记框的四个坐标参数和置信度，b_xi，b_yi，b_wi，b_hi，C_i为网络预测的四个坐标参数和置信度，P_i(j)为实际预测属于类别j的概率，为网络预测物体属于类别j的概率，L_{cross-entropy}为二元交叉熵损失，总的混合损失为上述三类损失的线性叠加。

所述的步骤3)中，将测试集图像输入模型中进行测试，输出预测数据，根据预测数据计算模型性能具体步骤如下：

31)计算真实边界框与标记区域的IoU值：

其中为ground truth边界框，为预测边界框，为二者相交面积，为二者总面积，计算的是相交面积占总面积的百分比。

32)将IoU大于0.5的预测认定为真阳性，IoU小于0.5的预测认定为假阳性：

由b_i值计算出TP值和FP值：

TP_i＝TP_i-1+b_i

FP_i＝TP_i-1+(1-b_i)

33)根据TP,FP值计算Precision和Recall值，得到P-R曲线：

其中P是精准度，R是召回值，TP为真阳性，FP为假阳性,FN为假阴性。

34)对P-R曲线进行积分得到每一类的AP值：

AP＝∫p·dr

对所有AP值求平均值得到性能衡量指标mAP：

其中C为测试过程中检测到的物体类别个数。

本发明技术方案思路独创，对原始数据经过基于视觉-属性的预处理，构建三个通道合成图像的数据集，对数据集图像进行人工标注，利用现有的网络模型将图像输入网络中进行训练、测试和识别。由于技术方案设计的独特，以及对原始数据经过基于视觉-属性方面公开了特有的预处理手段，本发明技术方案实施效果显著：通用性强、精度高、高度智能化。

本发明采用深度学习技术，结合图像的视觉特征和属性特征，使用端到端的深度神经网络对X射线图像进行训练，实现对违禁品的分类和准确定位。该方法对安检机的原始高、低能图像进行操作，可以保证其通用性，使用16位视觉-属性合成图代替常用的8位伪彩图，提升了准确率和细分能力，如区分水和油等，为携带物安检的智能化和算法落地提供了理论指导和技术支持。

与现有技术相比，本发明具有以下优点：

一、本发明使用的输入图像采用16位RGB图像，相比于其他发明使用8位RGB图像，在特征提取过程中可以获取更多的信息，模型的训练更有优势，分类检测的结果准确性更高。

二、本发明结合物体的视觉-属性特征，通过统一的预处理方法，避免了常用人工观测伪彩图的配色方案不统一的问题，也避免了不同安检机训练模型无法复用的问题，具有通用性。

三、本发明实现多尺度预测，相比其他方法，提升了对小物体检测的性能，更适合安检违禁物的识别。

四、本发明仅需使用X射线安检系统生成的图像即可进行预测，和其他方法相比，不需要以额外的物理器材为前提，方法简单易行，可以快速部署到安检机上，投入到实际应用当中。

附图说明

图1为本发明方法的系统流程图。

图2为本发明合成的16位RGB图像。

图3为本发明进行违禁物检测的输出图像。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1所示算法流程图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：收集目标样本，制作数据集，具体描述如下：收集到的X射线安检图像分为高能图和低能图两种，本发明使用这两类图像生成一种新的图像作为训练的数据集，具体实施如下：

(1)本发明创建一个新的图像层，该图像层的每一个像素点都是由高能图和低能图进行计算和偏移得到的，其定义如下：

(2)本发明将创建的新图像层定义为偏移图，获得偏移图后，将低能图、高能图和偏移图依次融合，产生一个16位RGB图像如图2所示，作为本发明使用的数据集。

步骤二：将训练集图像输入网络中进行训练，使用darknet网络(模型本身，为本领域已有技术)从输入图像中提取特征，输出特征图谱；采用yolo层在多个尺度对特征图谱进行边界框预测。使用darknet网络的输出作为yolo层的输入，得到检测模型。使用在Imagenet上预训练的参数初始化该模型，经过端到端的训练，得到支持安检危险品检测的最终识别模型，该模型支持对已标注的12类违禁品进行识别。

具体操作如下：

(1)首先使用基于darknet-53(本领域已有模型)的卷积网络进行特征提取，具体实现如下：输入为416*416的图像，经过卷积网络，输出为13*13*1024的特征层。

其中网络的权重使用darknet-53基于ImageNet数据集预训练得到的数值。

(2)将特征层输入yolo层进行边界框提取，总的网格单元数量为13*13+26*26+52*52，每个网格单元输出维度为N×N×[3*(4+1+n)]的边界框特征图谱，参数为(t_x,t_y,t_w,t_h,t_o)，其中，N为网格单元大小，3为每个网格单元预测边界框数量，4是边界框坐标数量，1是边框置信度，n是预测类别数量。

(3)对经过yolo层输出的边界框(t_x,t_y,t_w,t_h,t_o)进行处理：结合聚类方法得到的初始中心点和每个网格左上角坐标(c_x,c_y)可对边界框按如下方法进行处理：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b,object)＝σ(t_o)

其中σ()是归一化函数，p_w、p_h为边界框的宽和高，b_x,b_y,b_w,b_h为预测框的相对位置和大小。Pr(object)为物体存在的置信度，IOU(b,object)为预测框和实际框的重叠率。其中物体存在的置信度使用逻辑回归策略预测。具体方法为：对每个边界框通过逻辑回归预测一个物体的得分，如果预测的这个边界框与真实的边框值重合的部分比其他所有预测的要好，那么这个值就为1。如果重叠的部分没有达到一个阈值(本发明设定的阈值是0.5)，那么就忽略这个预测的边界框，即计作没有损失值。

(4)对整个网络设计了混合损失函数，采用梯度下降算法对网络参数进行优化，主要损失函数如下：

坐标预测损失：

置信度损失：

分类损失：

L_{cross-entropy}(x,y)＝-((xlogy)+(1-x)log(1-y))

步骤三：最终，对训练得到的模型进行性能测试，本发明选用mAP作为对模型性能的衡量标准，具体操作如下：

(1)本发明采用的训练集-测试集比例为7:3。将测试集输入训练好的模型中，可以直接得到输出图片如图3所示，使用边界框对违禁品进行分类和定位。

(2)根据输出结果，计算真实边界框与标记区域的IoU值，具体定义如下：

(3)根据得到的IoU值，将IoU大于0.5的预测认定为真阳性，IoU小于0.5的预测认定为假阳性，定义一个逻辑值b_i，具体定义如下：

由b_i值计算出真阳性TP值和假阳性FP值，具体定义如下：

TP_i＝TP_i-1+b_i

FP_i＝TP_i-1+(1-b_i)

(4)根据TP,FP值计算Precision和Recall值，得到P-R曲线：

(5)对P-R曲线进行积分得到每一类的AP值：

AP＝∫p·dr

对所有AP值求平均值得到性能衡量指标mAP：

其中C为测试过程中检测到的物体类别个数

本发明具体实现步骤为：

图1是本发明的实现流程图，具体实施方式如下：

1.对X射线安检原始图进行预处理，得到新的基于视觉-属性的16位彩图作为数据集；

2.将训练集图像输入darknet-53网络进行特征提取，得到特征层；

3.将特征层输入yolo层进行候选框参数提取

4.将候选框参数送入损失计算层，采用梯度下降算法反向传播，对网络参数进行优化

5.将测试集图像输入训练好的模型进行测试

6.根据测试结果计算模型mAP值,评估模型性能

图2：实施例合成16位三通道图(灰度化显示)

图3：违禁物检测的输出图像(灰度化显示)

显然，上述实例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于视觉-属性的X射线安检违禁品识别方法，其特征在于，包括以下步骤：

1)采集标注训练样本，获取原始的单通道16位高、低能X射线灰度图，经过基于视觉-属性的预处理，得到16位三通道彩色图像作为数据集，用于模型训练和测试；

2)将训练集图像输入网络中进行训练：使用darknet网络从输入图像中提取特征，输出特征图谱；采用yolo层在多个尺度对特征图谱进行边界框预测。使用darknet网络的输出作为yolo层的输入，得到检测模型。使用在Imagenet上预训练的参数初始化该模型，经过端到端的训练，得到支持安检危险品检测的最终识别模型；

2.根据权利要求1所述的一种基于视觉-属性的X射线安检违禁品识别方法，其特征在于，所述的步骤1)图像预处理具体包括以下步骤：

13)对处理后的数据集图像进行人工标注，生成包含人工标注边界框的xml文件，边界框保存为(x_min,y_min,x_max,y_max)格式作为实际标记框；根据xml文件生成标签文件，边界框转换为(class，x，y，w，h)格式得到训练模型所用标记框，对x，y，w，h均进行归一化：

x＝((x_min+x_max)/2-1)/width

y＝((y_min+y_max)/2-1)/height

w＝(x_max-x_min)/width

h＝(y_max-y_min)/height

其中x_min，x_max，y_min，y_max是边界框的四边坐标，width，height为输入图像的宽、高。

3.根据权利要求1所述的一种基于视觉-属性的X射线安检违禁品识别方法，其特征在于，所述的步骤2)中，将训练集图像输入网络中进行训练，具体包括以下步骤：

21)网络的0-74层使用darknet-53网络，将输入的图像裁剪为416*416后送入网络中进行特征提取，输出为13*13*1024的特征图谱。网络的参数使用在ImageNet图像数据集上预训练得到的权重进行初始化。

23)对经过yolo层输出的边界框(t_x，t_y，t_w，t_h，t_o)进行处理：结合聚类方法得到的初始中心点和每个网格左上角坐标(c_x，c_y)可对边界框按如下方法进行处理：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU(b，object)＝σ(t_o)

其中σ()是归一化函数，p_w、p_h为边界框的宽和高，b_x，b_y，b_w，b_h为预测框的相对位置和大小。Pr(object)为物体存在的置信度，IOU(b，object)为预测框和实际框的重叠率。其中物体存在的置信度使用逻辑回归策略预测。若边界框与实际标记框的重合度大于其他边界框，则置信度置1；若重合度不是最大，但大于阈值(默认0.5)，则忽略这个预测。

坐标预测损失：

置信度损失：

分类损失：

L_{cross-entropy}(x，y)＝-((xlogy)+(1-x)log(1-y))

4.根据权利要求1所述的一种基于视觉-属性的X射线安检违禁品识别方法，其特征在于，所述的步骤3)中，将测试集图像输入模型中进行测试，输出预测数据，根据预测数据计算模型性能具体步骤如下：

31)计算真实边界框与标记区域的IoU值：

由b_i值计算出TP值和FP值：

TP_i＝TP_i-1+b_i

FP_i＝TP_i-1+(1-b_i)

33)根据TP,FP值计算Precision和Recall值，得到P-R曲线：

34)对P-R曲线进行积分得到每一类的AP值：

AP＝∫p·dr

对所有AP值求平均值得到性能衡量指标mAP：

其中C为测试过程中检测到的物体类别个数。