CN109740588A

CN109740588A - 基于弱监督和深度响应重分配的x光图片违禁品定位方法

Info

Publication number: CN109740588A
Application number: CN201811582841.2A
Authority: CN
Inventors: 焦建彬; 朱艺; 叶齐祥; 韩振军; 张如飞
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-10
Anticipated expiration: 2038-12-24
Also published as: CN109740588B

Abstract

本发明提供了基于深度卷积神经网络的弱监督X光图片违禁品定位方法，该方法设计了一个可与传统深度卷积神经网络联合学习的深度响应重分配模块，在深度特征空间无监督地计算目标概率，重新分配深度响应，过滤反例样本，引导网络集中学习正例样本。在训练好的定位模型中增加全连接层，将增加的全连接层转换为卷积层作为新的目标定位分支；全连接层转换后的卷积层输出类别响应图，原始全连接层输出目标类别的预测得分，一次前向传播可同时获得图片目标类别预测得分和类别响应图，完成目标定位。本发明方法通过无监督的深度响应重分配模块实现基于弱监督的深度学习框架，在海量X光图片违禁品定位的实际应用中灵活性大，效率高，实用性强。

Description

基于弱监督和深度响应重分配的X光图片违禁品定位方法

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种公共安全检测领域的基于弱监督深度学习和深度响应重分配的类不均衡X光图片违禁品检测方法。

背景技术

X光图片违禁品检测是公共安全领域的一个关键问题，它的主要目的是在伪彩色处理后的X光图片中准确检测其是否包含违禁品，如刀和枪，并能在复杂的遮挡干扰情况下定位违禁品，为人工开箱查验提供线索。这在目前交通枢纽安检、物流安检等应用中具有重要意义。随着X光机安检设备的发展普及，以及国内物流运输量的扩大，数以万计的设备在全天不停歇地采集数据，形成了海量数据库。

目前，X光图片中的违禁品检测以人工查验为主，相关工作人员需要时刻监视画面，并在较短的时间内给出人工判定结果。这不仅费时费力，而且人工查验若遗漏违禁品，则可能会引发严重后果。因此，自动化违禁品检测技术以其成本低、效率高、稳定性强等优点受到了人们的广泛关注。如何利用各种技术手段如计算机视觉、深度学习等有效地解决X光图片违禁品检测在实际应用中面临的各种问题，从而能够在实际场景中稳定高效地输出准确结果是研究人员的主要探索方向。

X光图片违禁品定位主要的挑战有：视角固定、容错率低、速度要求高、目标形态变化多样、目标遮挡情况严重、正反例样本(存在违禁品和不存在违禁品的图片)极不均衡等。这些因素极大地阻碍了传统目标定位方法在实际场景中的应用。针对这些问题，研究者们提出了许多算法和解决方案，大部分目标定位方法主要由预选框提取和预选框分类两部分组成。

目标定位本质上是要确定一个包含指定类别目标的图片子区域，大部分方法是首先根据颜色、纹理、边缘、梯度等信息计算目标预选框，即可能存在目标的区域，再判定每个区域所包含目标的类别，从而筛选出最符合的预选框。

现有方法存在的主要问题有：

(i)监督学习标注成本高。现有大部分X光图片违禁品检测方法是基于监督学习的，即通过标定违禁品的具体目标位置来学习得到检测器模型。虽然这类方法能够依靠大量的标注信息学习目标识别和定位信息，但是对数据的标注提出了非常高的要求。对图片数据集中的每一个目标精确标注的这一过程耗时耗力，这很大程度上影响了算法在海量数据上的扩展，限制了深度学习算法对大数据集的利用。

(ii)预选框质量差。目前的预选框提取算法主要是根据颜色纹理相似性或边缘闭合性等局部特征，计算得出可能包含目标的预选框。然而，在X光图片中如果出现违禁品，往往有刻意遮挡的情况出现，虽然X光图片在成像过程中会将相同材质的物体投影为相同的颜色，若安检时立体的物体向一个方向投影导致生成的图片中有很多遮挡的情况，在X光图片中被遮挡的相同材质的物体无法通过颜色或边缘闭合性直观体现其同类性，此时提取的预选框将主要包含违禁品目标的局部区域，较难包含目标主体区域，从而影响违禁品目标识别精度。

(iii)速度慢。现有技术中，首先要对每副图片提取约2000个预选框，平均每幅图耗时约2秒，接着需要对每个预选框判定类别得分，再筛选出类得分较高的预选框融合后作为目标检测结果。

发明内容

为了克服上述问题，本发明人进行了锐意研究，为了克服上述问题，提出了一种基于弱监督深度学习和深度响应重分配的X光图片违禁品定位方法。针对数据标定问题，本发明中方法基于弱监督学习，只需要标定图片类别，即图片中是否存在某类违禁品，无需逐个标定违禁品目标的具体位置，实用性大大提高；针对预选框质量问题，本发明中方法首次提出深度响应重分配模块，基于图片的深度特征计算不同位置的响应关系，将不同位置的响应重新分配，无需基于颜色边缘等信息计算目标框；由于本发明方法中的深度响应重分配模块可直接插入到深度学习框架中，与原网络联合优化，在实际检测时，一幅图片只需前向传播一次即可得到目标定位结果，时间效率大大提升。实验表明，该本发明方法取得了优越的分类性能，提高了定位的稳定性和精度，从而完成本发明。

本发明的目的在于提供以下技术方案：

(1)一种基于弱监督和深度响应重分配的X光图片违禁品定位方法，该方法包括以下定位模型的训练步骤：

步骤1)，将深度响应重分配模块插入到传统卷积神经网络中任意卷积层后，得到优化后的卷积神经网络，即深度响应重分配网络；

步骤2)，将X光图片输入到深度响应重分配网络，深度响应重分配模块基于前层卷积层输出的特征图计算图片中每个位置的目标响应关系，得到深度响应重分配矩阵；

步骤3)，将深度响应重分配矩阵与特征图融合以更新特征图，将该更新后的特征图继续前向传播至全局均值聚合层与全连接层，得到图片的分类预测结果，获得训练后的定位模型。

(2)根据上述(1)所述的方法，所述步骤3)还包括对定位模型优化的过程，该过程包括以下步骤：

步骤3.1)，设计加权损失函数，根据损失函数计算分类结果相对于标注的误差E，误差E以梯度δ形式反向传播，深度响应重分配模块将前向传播时计算得到的深度响应重分配矩阵F作用于梯度矩阵，重新分配梯度，进一步更新卷积层网络参数；

步骤3.2)，根据加权损失函数计算得到的分类误差判定网络是否收敛即误差值不再减小，或者判定是否已经达到最大迭代次数，如果网络收敛或已经达到最大迭代次数，停止模型训练，否则跳转至步骤2)。

特别地，定位模型优化的过程还包括：在训练好的定位模型中增加全连接层，将增加的全连接层转换为卷积层作为新的目标定位分支；全连接层转换后的卷积层与原始全连接层作为定位模型的两个输出分支，全连接层转换后的卷积层输出类别响应图，原始全连接层输出目标类别的预测得分；

优选地，全连接层转换为卷积层的步骤为：将全连接层转换为K×C个1×1卷积核的卷积层，并将偏置项设为0，其中，K为输入维度(即通道数)，C为输出维度(即目标类别数)，K×C为全连接层参数总量，将全连接层参数根据特征向量每一维和目标类别之间的连接关系赋值给卷积核。

(3)根据上述(1)所述的方法，所述方法还包括测试部分，利用训练好的定位模型，预测未知图片中出现的目标类别并实施目标定位，具体步骤如下：

步骤3.1)，将给定的未知图片输入到训练好的深度响应重分配网络，深度响应重分配模块基于前层卷积层输出的特征图计算得到深度响应重分配矩阵；

步骤3.2)，将深度响应重分配矩阵与特征图融合以更新特征图，将该更新后的特征图继续前向传播得到每个类的类别响应图和/或分类预测得分；

如果判断图片中存在某类违禁品，根据类别响应图计算X光图片目标定位结果，目标定位结果包括锚点定位、框定位和分割定位中的一种或多种。

根据本发明提供的一种基于弱监督和深度响应重分配的X光图片违禁品定位方法，具有包括以下的有益效果：

(1)本发明方法基于弱监督学习，只需要标注图片中是否出现违禁品，无需标注违禁品的具体位置，可行性和实用性大大提高；

(2)针对传统弱监督方法中预选框质量和提取速度的限制，本发明方法提出基于深度特征的深度响应重分配矩阵，以二维矩阵的形式动态重分配目标响应位置，并与卷积神经网络联合优化，使得深度响应位置更加贴合实际任务的需求；

(3)本发明方法中的深度响应重分配模块基于随机游走算法，测试时每幅图像前向传播一次的平均耗时约0.9毫秒，相比传统预选框提取算法约200～2000毫秒的耗时，大大降低了时间成本；

(4)本发明方法根据类别响应图可得到点定位和框定位等多种不同精细程度的定位结果，可灵活应对不同的实际应用场景，进一步增强了本发明方法的实用性；

(5)本发明中深度响应重分配模块可结合到任意的卷积神经网络中并对其进行升级，该卷积神经网络包括VGG16、GoogLeNet和ResNet，大幅改善弱监督定位的最新技术水平。

附图说明

图1示出本发明中违禁品定位方法构建流程图；

图2示出训练样本集和测试样本集图片示例；

图3示出本发明所提出的方法在测试样本集上的实际检测结果示意图。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明提供了一种基于弱监督深度学习和深度响应重分配的X光图像目标识别方法，通过设计一种深度响应重分配算法，将其作为一个可学习模块插入到卷积神经网络的标准卷积体系结构中(任意卷积层后)，在卷积神经网络的前向传播过程中，深度响应重分配模块根据前一层的输出特征图计算深度响应重分配矩阵，该深度响应重分配矩阵将直接作用在卷积层的输出特征上，将目标响应聚集在可能是目标的区域；

该方法实质上是在训练样本集上使用深度响应重分配网络训练定位模型的过程，如图1所示，具体地，包括以下过程：

本发明步骤1)中，将深度响应重分配模块插入到传统卷积神经网络中任意卷积层后，得到优化后的卷积神经网络，即深度响应重分配网络。

本发明中，基于现有技术中预选框质量差、提取速度慢以及基于图片分类定位思想的传统弱监督目标检测方法运算时间长的问题，设计出深度响应重分配模块。该深度响应重分配模块可结合到任意卷积神经网络中并对其进行升级，该卷积神经网络包括VGG16、GoogLeNet和ResNet。

该深度响应重分配模块基于图片的输出特征计算得到图片中每个位置的目标响应关系，进而得到重分配矩阵。在卷积神经网络训练过程中，该模块通过引导卷积神经网络聚焦学习目标响应更高的位置，可以抑制背景对深度卷积神经网络学习的干扰，平衡正反例样本不均衡的情况。

本发明步骤2)中，将X光图片输入到深度响应重分配网络，深度响应重分配模块基于前层卷积层输出的特征图计算图片中每个位置的目标响应关系，得到深度响应重分配矩阵。

本发明中，步骤2)包括以下两个子步骤：

步骤2.1)构建训练样本集：获取X光图片数据，确定图片类别，形成训练样本集。优选定位模型训练阶段，输入到深度响应重分配网络的X光图片源于训练样本集。

训练样本集中图片(或者说，定位模型训练阶段，输入到深度响应重分配网络的X光图片)只给定图片标号、不标注目标位置，其中图片标号只表明该图片中是否含有违禁品。假定训练样本集共有D张X光图片，用表示，x_d为输入图片，y_d＝(y_d1,y_d2,...,y_dc,...,y_dC)为输入图片x_d的类别标注信息。如果输入图片x_d至少包含第c个类别(如刀类、枪类)的一个违禁品，则y_dc＝1否则y_dc＝0。实际安检中获得的X光图片也仅是涉及是否包含违禁品而未具体说明违禁品位置，图片标号和安检中X光图片的标注一致，显著降低了标注工作量。

为了实验的准确性和可比性，训练样本集的反例图片(即不包含违禁品的图片)和正例图片(即包含违禁品的图片)比例相近，如反例图片和正例图片的比例为1:1或2:1。该训练样本集中的图片可以是模拟的，同时训练样本集中的图片有比较少的遮挡情况，用来调整算法中的参数。

在步骤2.1)还可同时构建测试样本集，用于对训练完成的定位模型进行测试，根据定位模型的测试结果以确定该定位模型是否仍需要进行调整。

测试样本集中的图片优选来自于真实场景，反例图片和正例图片的比例相差较大，如反例和正例比例达到50:1或100:1，该测试样本集中图片背景复杂并且遮挡情况比较严重，用来验证模型的有效性。

在一种优选的实施方式中，获取X光图片数据后进行预处理，所述预处理包括归一化处理。优选地，归一化处理通过获得图片像素平均值以及方差，将图片中每个像素减去像素平均值后再除以方差进行。经预处理后的X光图片，噪声小，便于后续的特征提取。

步骤2.2)生成深度响应重分配矩阵。

深度响应重分配矩阵F∈R^N×N是深度响应重分配模块基于特征图生成。考虑在第l个卷积层之后插入深度响应重分配模块。U^l∈R^K×N×N表示第l个卷积层的特征图，其中K为特征图的维度，N×N表示特征图的空间大小。在卷积神经网络的前向传播过程中，生成深度响应重分配矩阵F：

(i)首先，基于特征图U^l构建一个连通带权图G，连通带权图G中每个结点代表特征图U^l中的每个像素位置，结点(i,j)和(p,q)之间的有向边权值表示为d_i,j；p,q，该有向边权值通过一种自定义的相似度度量方法计算得到：

其中，||·||表示L2正则化，∈是距离系数，控制相邻像素点距离对相似度的影响，表示连通带权图上结点(i,j)具有的特征向量，表示连通带权图上结点(p,q)具有的特征向量。

通过上述对结点间有向边权值的定义，构建拉普拉斯矩阵L：

其中，s_i,j为顶点(i,j)的出度，s_i,j＝∑_p,qd_i,j；p,q，拉普拉斯矩阵L可分解为A^TCA，其中，A是边-顶点的关联矩阵，代表任意两个顶点之间是否存在边，从而指示边的方向，维度为N²×N²，定义为：

C是一个对角矩阵，维度N²×N²，代表对应边的权值；v_xy代表顶点(x,y)。

由以上定义可以知道，结点间的有向边权值的计算基于两个假设：深层特征中的邻近像素呈现出语义相关性；同一个类别的像素有相似的特征向量。

这样，连通带权图G的构建成功将特征图U^l上像素点对应于原图的感受野建立了关联。

(ii)然后，通过上述对结点之间有向边权值的定义，可得到连通带权图G的拉普拉斯矩阵L，拉普拉斯矩阵L为结点之间有向边权值的组合即权值矩阵。

通过以下几种方式求解深度响应重分配矩阵：

方式一：基于拉普拉斯矩阵L在连通带权图G上通过随机游走算法迭代地更新每个像素位置的目标概率，从而得到最终每个像素位置的目标概率：

F←L·F 式(4)

深度响应重分配矩阵F，F中每个元素值代表该位置的目标概率。为了便于随机游走操作，矩阵L将被按列归一化，F初始化时将被展开为1×N²的向量且元素值均被设为1/N²，通过迭代乘以矩阵L来更新F，当F的更新幅度非常小时，我们认为随机游走达到了稳定状态，即满足停止条件，得到深度响应重分配矩阵F。随机游走算法迭代地在与周围环境具有高度不相似性的节点上累积对象置信度。迭代地求解可以根据事先设定的终止条件决定最终随机游走停留的状态。该方法简单易行，可控程度高，但在代码实现层面并行程度略低。

方式二：利用马尔可夫矩阵的特殊结构。式(4)的迭代方程写成：

F＝(ρAD+δee^T)F 式(5)

其中e为全为1的N维向量，D是由各个出度的倒数构成的对角矩阵，ρ为系数项；A是边-顶点的关联矩阵；δ为系数项。我们希望有e^TF＝1，因此式(5)变为：

(I-ρAD)F＝δe 式(6)

只要ρ严格小于1，系数矩阵I-ρAD就是非奇异矩阵，可根据这个方程解出F。此方法保留了A的稀疏性，可以直接通过求解线性方程组得到解析解，但当ρ→1和δ→0时则无法使用。

方式三：求深度响应重分配矩阵F的过程可以转化为求解狄利克雷问题，狄利克雷积分的离散形式可表示为：

其中，A表示是边-顶点的关联矩阵；x是顶点；C表示对应边的权值，为维度N²×N²对角矩阵；L表示拉普拉斯矩阵；e_ij；pq表示顶点(i,j)到(p,q)的边；d_ij；pq表示顶点(i,j)和(p,q)之间有向边权值；

所求解为使上式最小化的离散调和函数x。由于L是半正定矩阵，故D(x)存在唯一极小值点，即为F。

方式一的优势在于易于实现，仅借助标准的卷积操作即可，但迭代过程并行程度低。方式二将迭代过程建模，可求得解析解，但因其求解过程对系数有着一定的值域要求，故对于一些数据可能无法求解。方式三以狄利克雷积分形式求解，代码复杂度较高。本发明目前的实现中优选采用方式一和方式二结合的方案，若当前数据值域不满足方式二的要求，则切换到方式一进行计算。

本发明步骤3)中，将深度响应重分配矩阵与特征图进行融合以更新特征图，将该更新后的特征图继续前向传播至全局均值聚合层(GAP)与全连接层(FC)，得到图片分类预测结果，获得训练后的定位模型。

其中，全局均值聚合层将每个特征图聚合为其均值，得到特征向量；全连接层作为分类器将深度特征向量映射到图片类别得分。全连接层的输出节点数是训练样本集中所有目标的类别总数。在完成神经网络的前向传播后就会得到给定图片中每个类别的得分。

以弱监督方式利用特征图生成的深度响应重分配矩阵F，从图像表示的角度来看，其聚焦了对图像分类有益的“感兴趣区域”。在卷积神经网络的前向传播过程中，深度响应重分配矩阵F将作用于特征图上，抑制背景噪声从而使得神经网络专注于对目标区域的学习。更新后的特征图其公式化表示如式(8)：

其中，表示第l个卷积层的特征图U^l的第j个二维特征图，表示第l-1个卷积层的特征图U^l-1的第i个二维特征图，S_j是输入特征图的组合，是可加性偏置，是连接特征图U^l-1的第i个二维特征图和特征图U^l的第j个二维特征图的卷积核；表示逐元素相乘。

在本发明中，所述步骤3)还包括对定位模型优化的过程，该过程包括以下步骤：

步骤3.2)，根据加权损失函数计算得到的分类误差判定网络是否收敛(即误差值不再减小)，或者判定是否已经达到最大迭代次数，如果网络收敛或已经达到最大迭代次数，停止模型训练，否则跳转至步骤2)。

在本发明步骤3.1)中，考虑到在一幅图片中存在多标号的情况，对于图片x_d采用多类软间隔交叉熵的损失函数计算分类预测结果相对于标注的误差E。

在传统的反向传播算法中，误差信息通过误差对输入的梯度δ来传递；而本发明方法中，创造性的采用提出的深度响应重分配模块对δ作用，引导卷积神经网络将误差信息按目标响应关系进行重新分配，如下式(9)所示，从而引导卷积神经网络避免学习过多杂乱的背景和反例区域：

由上述梯度反传递推公式可知，深度响应重分配矩阵F将随着梯度的流动对整个神经网络中的参数都产生影响，因此，一个神经网络结构中不必处处引入深度响应重分配模块，另外，较深层的特征图能够反映图片中更加抽象的语义信息，因此只需在最后一层卷积层后引入即可。计算得到梯度δ^l后，结合式(8)可知，深度卷积神经网络的权值(滤波器的梯度)和偏置的梯度也将被更新，如下式(10)和式(11)所示：

其中，表示深度卷积神经网络中第l+1层中用于计算的权值，表示前向传播的卷积操作中上以(p,q)为中心的卷积窗口。

可见，深度响应重分配模块前向传播时计算得到的深度响应重分配矩阵F能够与弱监督反向传播过程中的梯度矩阵组合，更新卷积层网络参数，驱动深度响应重分配网络以学习更多有用的图案。

在本发明中，定位模型的优化过程还包括：在训练好的定位模型中增加全连接层，将增加的全连接层转换为卷积层作为新的目标定位分支；全连接层转换后的卷积层与原始全连接层作为定位模型的两个输出分支，全连接层转换后的卷积层输出类别响应图，原始全连接层输出目标类别的预测得分。

具体地，全连接层转换为卷积层的步骤为：将全连接层转换为K×C个1×1卷积核的卷积层，并将偏置项设为0，其中，K为输入维度(即通道数)，C为输出维度(即目标类别数)，K×C为全连接层参数总量，将全连接层参数根据特征向量每一维和目标类别之间的连接关系赋值给卷积核。

也就是说，假设全连接层输入为1×1024，输出为1×C，其中K为通道数，C为目标类别数，则全连接层参数总量为1024×C个，首先构造一个有1024×C个1×1卷积核的卷积层，并将偏置项设为0，将全连接层参数根据通道和目标类别之间的连接关系赋值给卷积核。

本发明中方法还可以包括测试部分：利用训练好的定位模型，预测未知图片(未在训练样本集中出现过的图片)中出现的目标类别并实施目标定位，具体步骤如下：

步骤3.2)，将深度响应重分配矩阵与特征图融合以更新特征图，将该更新后的特征图继续前向传播得到每个类的类别响应图和分类预测得分；

如果违禁品类别的分类得分大于零，则判断图片中存在该类违禁品，根据其对应的类别响应图计算X光图片目标定位结果包括锚点定位、框定位和分割定位中的一种或多种。

根据目标类别预测得分，可知图片中是否存在某类违禁品，进一步，基于该类的类别响应图可计算得锚点定位结果和框定位结果，甚至是更加精细的分割定位结果。本方法相比于传统弱监督目标定位方法的优势不仅在于避免了预选框提取这一费时费力的预处理操作，而且在于本方法可提供不同精细程度的定位结果，具有很强的灵活性，大大提高了实际应用价值。

具体的，锚点定位、框定位和分割定位的方法如下：

锚点定位：对二维的类别响应图检测局部极大值点，局部极大值点表示该类别在该位置的响应值强于邻域，极大可能是潜在的目标位置。具体地，如果一个像素值在以其为中心的r×r(r表示像素距离)区域内是最大值，则该像素值是一个局部极大值点，作为锚点定位的预备种子点。对于二维类响应图中的所有局部极大值点，我们将其按响应值大小排序，取前50％的点作为锚点定位的结果。

框定位：框定位算法满足获得更具体的目标范围这一需求。首先通过预设的阈值将类别响应图二值化，再对二值化的图进行连通域检测，可恰好包含一个连通域的目标框即为一个框定位预测结果。

分割定位：将类别响应图进行双线性插值到原图尺寸，再将该类别响应图和原图一起输入到密集条件随机场模型中，该模型根据原图中提供的颜色、边缘梯度信息，修正类别响应图中每个像素的值，最终得到精细的分割图，可以准确地反映出目标的形状和轮廓。

以上不同形式的定位结果，从锚点定位到框定位再到分割定位，目标定位结果的精细程度越来越高，但是相对地，定位准确度会下降，因为对目标定位的要求更加严格了。在我们开发的面向实际应用的X光目标定位系统中，主要使用锚点定位。锚点定位虽然是一种粗糙定位，但由于其易获得、准确性高等特点，十分符合X光机违禁品目标检测之类辅有人工开箱查验的实际场景，因为一旦算法预测有违禁品存在，则需人工开箱排查，因此定位算法只需提供大致的目标位置即可，且违禁品目标常常会被其他目标遮挡，较难准确定位其完整的目标范围，给框定位和分割定位带来许多干扰，因此锚点定位最为合适，提供较准确的目标锚点位置信息辅助人工筛查。

实施例

实施例1

1、数据库、样本分类和定位模型的构建

如图2所示，采用两个数据集，训练样本集SIXRay-S和测试样本集SIXRay-L。其中，SIXRay-S共23496幅图片，其中包含违禁品(枪、刀子、扳手、钳子、剪刀、锤子)的正例样本图片共9658幅，安全图片即反例样本13838幅，正例-反例样本比约为1：1.4，由于SIXRay-S数据集是使用违禁品样品人工模拟实际X光安检时可能遇到的情况，数据集中的图片有比较少的遮挡情况，其正反例样本比例较为均衡。

SIXRay-L数据集是在实际X光安检系统中采集所得，共1086725幅图片，其中包含违禁品的图片共15767幅，安全图片为1070958幅，SIXRay-L数据集的正例-反例样本比约为1：70，因为在实际安检场景中违禁品出现的概率非常低，SIXRay-L数据集中图片背景复杂、遮挡情况比较严重且正例反例比例失衡，用来验证算法有效性。

表1.SIXRay-S和SIXRay-L数据集信息

本发明方法没有使用目标定位的标注信息，取而代之的是图片的标号。在SIXray-S和SIXray-L数据集中，每一类图片都只有图片级的标号，某类目标的标号为1表示该图片包含该类目标，0则表示不包含。实验中反例是指该图片标号中所有类别对应的标号都是0，即该图片中不包含任何目标类别。

定位模型的构建：将深度响应重分配模块插入到传统卷积神经网络的最后一层卷积层后，得到优化后的卷积神经网络，即深度响应重分配网络；

通过方式(二)中方程求解得到深度响应重分配矩阵F。将深度响应重分配矩阵聚合到特征图上对深度特征图进行响应重排，将重排后的特征图继续前向传播得到图片分类预测结果，计算预测结果与弱监督标注(即图片类别标注)之间的损失，将深度响应重分配矩阵作用于损失梯度矩阵，重分配梯度后进行反向传播，直至收敛，即可获得基于深度卷积神经网络的弱监督X光违禁目标定位模型。在训练好的定位模型中增加全连接层，将增加的全连接层转换为卷积层，作为新的目标定位分支，全连接层转换后的卷积层与原始全连接层作为定位模型的两个输出分支，全连接层转换后的卷积层输出类别响应图，原始全连接层输出目标类别的预测得分；一次前向传播可同时获得图片目标类别预测得分和类别响应图。

2、性能评测准则

2.1、图像分类

在实际应用场景中，一幅X光图片往往会包含多个违禁品类别，故使用多标签分类任务中最常用的评测准则，平均精度均值mAP(mean average precision)来衡量。对每个违禁品目标类首先计算AP(average precision)：

AP＝∑_n(R_n-R_n-1)P_n

其中P_n和R_n分别为第n个阈值下的准确率(precision rate)和召回率(recallrate)，R_n-1为第n-1个阈值下的准确率。准确率反映方法预测图片中是否存在该类违禁品的正确率，召回率反映方法是否将能所有包含该类违禁品的图片预测正确，即查全率。mAP为所有类别的AP的平均值。

召回率和准确率的计算过程如下：

在训练样本集上学习到分类模型之后，测试集上的每一个样本都会由分类模型计算出一个得分，根据样本的得分可以判断样本是正例还是反例，对所有样本的正反例评判有如下四种情况：

a)True Positive(TP)：正确的正例，也就是正例样本被分类器正确的判定为正例样本。

b)False Positive(FP)：错误的正例，也就是反例样本被分类器错误的判定为正例样本。

c)True Negative(TN)：正确的反例，也就是反例样本被分类器正确的判定为反例样本。

d)False Negative(FN)：错误的反例，也就是正例样本被分类器错误的判定为反例样本。

有了上述四个定义之后，Recall和Precision可以用如下公式计算：

Recall＝TP/(TP+FN)

Precision＝TP/(TP+FP)

实验中对所有测试样本的得分排序，并且通过不断的调整正反例样本的得分阈值形成不同的Recall和Precision。本发明中由于实验数据类别太多，实验中没有给出每一类目标对应的Recall-Precision曲线，而是采用了图片分类使用最为广泛的AP值，通过多组Recall和Precision计算出平均性能AP。

2.2、违禁品目标锚点定位

当某类的锚点落在某类的目标矩形框(容忍15像素的偏移)内时，则定位正确，反之则定位错误。

该类的锚点定位精度PointAcc＝定位正确目标数/总目标数。

2.3、违禁品目标框定位

当某类的目标预测框与实际目标框的交并比IOU(inter-over-union)大于0.5时，则该预测框定位正确，否则定位错误，

该类的框定位精度CorLoc(correct localization)＝该类定位正确的图片数/该类总图片数。

3、实验结果与分析

为了评测深度响应重分配网络在X光图像分类和定位任务上的有效性，我们首先在不同的基网络GoogleNet和VGG16上插入深度响应重分配模块，分别形成深度响应重分配网络，再分别与不含深度响应重分配模块的普通卷积神经网络以及传统的基于预选框的弱监督目标定位方法进行对比。

在规模较小的数据集SIXRay-S上，使用深度响应重分配模块在网络训练过程中抑制背景，大大减少了需要学习的模式，但并没有影响深度卷积神经网络中分类器的学习。传统卷积神经网络和深度响应重分配网络的分类性能几乎一致，见表2。

表2.SIXRay-S图片分类AP-mAP结果

在定位任务中，由于深度响应重分配模块在网络学习过程中引导梯度按照目标概率更新，聚焦学习目标概率高的区域，使得其挖掘更多的目标信息，从而实现更加准确的目标定位。在传统卷积神经网络中引入深度响应重分配模块后，锚点定位准确率提高1％～2％，框定位准确率在GoogleNet上提高1％，在VGG16上提高11％。这是因为VGG16网络中使用小滤波器，因而滤波器感受野较小，深度响应重分配模块中将所有感受野区域作为图模型的结点，通过设置边的权值将全图的感受野建立连接，促进了感受野间的目标概率信息流动，因而在定位完整目标区域时深度响应重分配网络具有绝对优势，见表3和表4。

表3.SIXRay-S锚点定位结果

表4.SIXRay-S框定位结果

对于大规模数据集SIXRay-L，在图片分类和锚点定位上，深度响应重分配网络相比于传统卷积神经网络也取得了一定的提升，实际检测结果见图3和表5。

表5.SIXRay-L图片分类和锚点定位结果(GoogleNet)

深度响应重分配网络和传统的卷积神经网络以及基于预选框的弱监督目标定位方法(Weakly Supervised Deep Detection Networks，CVPR2016)相比大大缩短了用时，见表6。

表6.VGG16框架下深度响应重分配网络与其他方法耗时对比

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种基于深度卷积神经网络的弱监督X光图片违禁品定位方法，其特征在于，该方法包括以下定位模型的训练步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2)中，X光图片只给定图片类别标号，即图片中是否含有某类违禁品，不标注违禁品目标的具体位置。

3.根据权利要求1所述的方法，其特征在于，步骤2)中，通过以下步骤生成深度响应重分配矩阵：

基于特征图构建连通带权图，连通带权图中每个结点代表特征图中的每个像素位置，计算任意两个节点之间的有向边权值；

根据有向边权值得到连通带权图的权值矩阵；

基于权值矩阵求解深度响应重分配矩阵。

4.根据权利要求3所述的方法，其特征在于，两个结点之间的有向边权值通过相似度度量方法计算得到：

其中，(i,j)和(p,q)为连通带权图上的两个结点，d_i,j；p,q为两结点之间的有向边权值，||·||表示L2正则化，∈为距离系数，控制相邻像素点距离对相似度的影响，表示连通带权图上结点(i,j)具有的特征向量，表示连通带权图上结点(p,q)具有的特征向量。

5.根据权利要求3所述的方法，其特征在于，求解深度响应重分配矩阵的方式为：在连通带权图上通过随机游走算法迭代地更新每个像素位置的目标概率，具体为：

深度响应重分配矩阵初始化，被展开为1×N²的向量且元素值均被设为1/N²，通过迭代乘以连通带权图的权值矩阵来更新深度响应重分配矩阵，当深度响应重分配矩阵的更新幅度非常小时，认为随机游走达到了稳定状态，即满足停止条件，得到深度响应重分配矩阵。

任选地，深度响应重分配矩阵还可以通过求解下式直接得到：

(I-ρAD)F＝δe 式(6)

其中，F为深度响应重分配矩阵；e为全为1的N维向量；D是由各个出度的倒数构成的对角矩阵；ρ为系数项，e^TF＝1；A为边-顶点的关联矩阵；δ为系数项。

6.根据权利要求1所述的方法，其特征在于，所述步骤3)还包括对定位模型优化的过程，该过程包括以下步骤：

步骤3.2)，根据加权损失函数计算得到的分类误差判定网络是否收敛，即误差值不再减小，或者判定是否已经达到最大迭代次数，如果网络收敛或已经达到最大迭代次数，停止模型训练，否则跳转至步骤2)。

7.根据权利要求1所述的方法，其特征在于，步骤3.1)中，采用多类软间隔交叉熵的损失函数计算分类预测结果相对于标注的误差。

8.根据权利要求1所述的方法，其特征在于，步骤3)中定位模型的优化过程还包括：在训练好的定位模型中增加全连接层，将增加的全连接层转换为卷积层作为新的目标定位分支；全连接层转换后的卷积层与原始全连接层作为定位模型的两个输出分支，全连接层转换后的卷积层输出类别响应图，原始全连接层输出目标类别的预测得分；

9.根据权利要求1所述的方法，其特征在于，利用训练好的定位模型，预测未知图片中出现的目标类别并实施目标定位，具体步骤如下：

10.根据权利要求9所述的方法，其特征在于，锚点定位的方法为：以r×r的窗口大小在类别响应图上进行滑窗，如果窗口的中心位置像素是该窗口内的最大值，则该像素点被检测为目标种子点；滑窗结束后，将这些点按照像素值进行从高到低排序，取前50％的点作为锚点定位的结果。