CN111062252A

CN111062252A - 一种实时危险物品语义分割方法、装置及存储装置

Info

Publication number: CN111062252A
Application number: CN201911121145.6A
Authority: CN
Inventors: 付建海; 熊剑平; 赵诗云
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-04-24
Anticipated expiration: 2039-11-15
Also published as: CN111062252B

Abstract

本发明公开了一种实时危险物品语义分割方法、装置和存储装置。该实时危险物品语义分割方法包括：获取X光视频帧图像，对所述X光视频帧图像进行包裹切割，以获得切包图像；将所述切包图像输入训练好的双支U‑Net网络模型中进行语义分割，以对所述切包图像中的危险物品进行分类和标识。通过上述方式，本发明能够提高安检过程中危险物品的检测精度，同时又对包裹中的危险物品类别和危险物品在包裹中的具体位置直接呈现，便于快速确定包裹中的危险物品。

Description

一种实时危险物品语义分割方法、装置及存储装置

技术领域

本申请涉及属于X光安检图像检测和深度学习技术领域，特别是涉及一种实时危险物品语义分割方法、装置及存储装置。

背景技术

目前国内大部分安检机都是采用人工检查的方式，消耗了大量的人力物力，随着人工智能的发展，人工智能算法已经广泛应用于各行各业。在安检行业，通过分析安检图像，可以进行违禁品识别并自动报警，有效减少了安检人员的工作压力，降低了人为因素导致的漏检误检问题。

目前利用深度学习方法进行x光机的目标检测，主要有如下几种方案：方案一，利用大中小3个尺度训练的方式，通过浅层网络检测小物体，深层网络检测大物体的方式进行目标检测。提高了尺度覆盖范围，减少了漏检现象。

方案二，通过卷积神经网络(Convolutional Neural Networks，简称CNN)模型，构建注意力机制模型，对于违禁物品目标注意力图中的噪声和背景信息干扰进行抑制，利用抑制后的违禁品目标注意力图获取违禁品目标检测图。

方案三，通过安检违禁品的姿态差异对于原始安检违禁品x光图进行分类，构建生成式对抗网络将已经分类的原始安检违禁品x光图输入上述生成式对抗网络当中，分类别生成新安检违禁品x光图像，基于目标检测模型进行分类以及检测，最终验证结果。

这些技术均存在的共同问题：仅仅使用目标检测的2个坐标点信息作为算法的输入，从而导致预测精度低，并且漏检严重。

因此，如何提高x光机目标检测的预测精度，并且减少漏检现象，达到实时性语义分割的效果是人们日益关心的问题。

发明内容

本申请提供一种实时危险物品语义分割方法、装置及存储装置，能够提高安检过程中危险物品的检测精度，同时又对包裹中的危险物品类别和危险物品在包裹中的具体位置直接呈现，便于快速确定包裹中的危险物品。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种实时危险物品语义分割方法，包括：

获取X光视频帧图像，对所述X光视频帧图像进行包裹切割，以获得切包图像；

将所述切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对所述切包图像中的危险物品进行分类和标识。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种实时危险物品语义分割装置，包括：

切包模块，用于获取X光视频帧图像，对所述X光视频帧图像进行包裹切割，以获得切包图像；

危险物品分类和分割模块，用于将所述切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对所述切包图像中的危险物品进行分类和标识。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种实时危险物品语义分割装置，包括：

存储器、以及与所述存储器耦合的处理器，其中，

所述存储器存储有用于实现上述实时危险物品语义分割方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述实时危险物品语义分割方法的程序文件。

本申请的有益效果是：本发明的一种实时危险物品语义分割方法、装置和存储装置，该实时危险物品语义分割方法包括：获取X光视频帧图像，对所述X光视频帧图像进行包裹切割，以获得切包图像；将所述切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对所述切包图像中的危险物品进行分类和标识。通过上述方式，本发明能够提高安检过程中危险物品的检测精度，同时又对包裹中的危险物品类别和危险物品在包裹中的具体位置直接呈现，便于快速确定包裹中的危险物品。

附图说明

图1是本发明第一实施例的实时危险物品语义分割方法流程示意图；

图2是本发明第二实施例的实时危险物品语义分割方法流程示意图；

图3是本发明实施例的双支U-Net网络模型结构示意图；

图4是本发明第三实施例的实时危险物品语义分割方法流程示意图；

图5是本发明实施例的实时危险物品语义分割装置第一结构示意图；

图6是本发明实施例的实时危险物品语义分割装置第二结构示意图；

图7是本发明实施例的存储装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

实施例一

图1是本发明第一实施例的实时危险物品语义分割方法流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。

如图1所示，第一实施例的实时危险物品语义分割方法包括以下步骤：

在步骤S110中，获取X光视频帧图像，对X光视频帧图像进行包裹切割，以获得切包图像。

举例说明，包裹切割方法可以利用直方图阈值划分的方法，主要包括以下步骤：

在步骤S111中，根据X光视频帧图像计算图像直方图；

在步骤S112中，根据图像直方图中的峰值，对X光视频帧图像中的包裹进行切割，以获得切包图像。

具体的，根据X光视频帧图像计算出对应的图像直方图，然后根据图像直方图的峰值对包裹进行切割，使得图像中的包裹都有其对应的子图像。如此可以将当前视频帧图像内所有的包裹进行一定的划分，从而可以将包裹区分出来，方便后续对包裹进行数据分析。

其中，图像直方图是反映一个图像像素分布的统计表，图像像素的种类，可以是灰度的，可以是彩色的，也可以是像素值在某函数下的映射值。横坐标代表了统计变量，可以是像素类别或者像素点的位置等，纵坐标代表了每一种像素在图像中的总数或者占所有像素个数的百分比，代表了画面中有多少像素是某个种类的，由此可以看出来画面中不同种像素的分布和比例。

在步骤S120中，将切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对切包图像中的危险物品进行分类和标识。

其中，双支U-Net网络模型包括二分类分支网络和分割分支网络，二分类分支用来对于危险物品进行分类，识别出危险物品的类别，分割分支更加精准的输出危险物品的位置。

具体的，危险物品的轮廓内区域的所有像素点均被标注(比如可以用颜色标注)为匹配的危险类别，并用文字的形式标记出来该危险物品类别。由此，能够直观的分辨危险物品的类别以及该危险物品在包裹中的具体位置。

举例说明，比如包裹里面存在刀具，而双支U-Net网络模型中包含刀具这个危险物品类别，最后得到被标注的刀具的轮廓，且该轮廓内的像素点均被涂成红色(属于刀具这个类别的颜色)，且在该刀具的旁边用文字标记出刀具。

具体的，步骤S120包括以下过程：

在步骤S121，提取切包图像的特征。具体的，请参阅图3，从左到右，image代表的为待检测的切包图像，采取上采样进行切包图像特征提取。

在步骤S122中，在二分类分支网络中，根据特征对切包图像进行危险物品识别，以获取危险物品类别。

具体的，请参阅图3，从提取特征层中，一个分支连接二分类分支，在二分类分支中，将提取的特征与分类分支中的危险物品种类的特征进行比对，如果与危险物品种类匹配，输出结果1，继续进行分割分支，将下采样换成上采样还原原来输入图像大小；否则输出结果2，停止检测，认为包裹中并不存在危险物品。

在步骤S123中，在分割分支网络中，进行语义分割，分割出危险物品，获取危险物品的定位和类别，在切包图像上按照与危险物品的类别对应的显示策略显示危险物品。请参阅图3，采用上采样将提取的特征进行拼接融合，还原原来输入图像大小，最后，mask得到危险物品的类别以及该危险物品在包裹中的具体位置。

本发明第一实施例的实时危险物品语义分割方法，通过将X光视频帧图像进行包裹切割获得切包图像，采用双支U-Net网络模型对切包图像进行语义分割，基于深度学习的方式，以对切包图像中的危险物品进行分类和标识。通过上述方式，本发明能够提高安检过程中危险物品的检测精度，同时又包裹中的危险物品类别和危险物品在包裹中的具体位置直接呈现，便于快速确定包裹中的危险物品。

实施例二

图2是本发明第二实施例的实时危险物品语义分割方法流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。

在本发明实施例一的基础上，还包括构建双支U-Net网络模型。请参阅图2，其中实施例二中的步骤S230和S240分别相当于实施例一中的步骤S110和S120。该部分内容请参阅实施例一，这里不再赘述。

在步骤S230和S240之前包括以下双支U-Net网络模型训练步骤：

在步骤S210中，利用resnet34结构的encoder-decoder学习框架对训练集进行危险物品分类和危险物品分割训练。

具体的，请参阅图3，采用U-Net的encoder-decoder结构对于输入图片进行学习数据分布特征,其中encoder部分使用resnet34结构，decoder采用和encoder一样结构，将下采样换为上采样还原为原来输入图像大小。

在步骤S220中，采用focal loss损失函数对分类训练结果进行评价，采用diceloss损失函数对分割训练结果进行评价，得到双支U-Net网络模型，双支U-Net网络模型的整体损失函数为focal loss损失函数和dice loss损失函数的加权平均和。

具体的，对于每一个网络预测结果和正确的标注计算损失函数，主要是二分类分支网络损失函数采用Focal loss损失函数，避免样本不均衡而产生的类别预测偏向某一类别问题。Focal loss损失函数表示为：

分割分支网络损失函数采用dice loss损失函数，其中p表示预测点集，r表示标注点集，dice loss损失函数表示为：

最终双支U-Net网络模型的整体损失函数表示如下：

Loss＝w1*focal loss+w2*dice loss，其中w1，w2为focal loss损失函数和diceloss损失函数的权重参数。

本发明使用focal loss损失函数对分类结果进行评价，避免因为训练样本不均衡而产生预测类别偏向某一个特定类别结果。使用dice loss损失函数对于语义分割结果进一步优化，使得预测结果接近标注结果。

本发明第二实施例的实时危险物品语义分割方法，建立在第一实施例的基础上，通过resnet34结构的encoder-decoder学习框架对训练集进行危险物品分类和危险物品分割训练，采用focal loss损失函数对分类训练结果进行评价，采用dice loss损失函数对分割训练结果进行评价，来构建双支U-Net网络模型。通过上述方式，除了实施例一中得到的效果，本发明还能够避免因为训练样本不均衡而产生预测类别偏向某一个特定类别结果，同时对语义分割结果进一步优化，使得预测结果接近标注结果。

实施例三

图4是本发明第三实施例的实时危险物品语义分割方法流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。

在本发明实施例一和实施例二的基础上，通过设置安检过程中常见的五种危险物品类别，对切包图像进行五种危险物品类别标注，并根据该五种危险物品类别选出最优的focal loss损失函数和dice loss损失函数的权重得到的最终整体损失函数，对训练结果进行评价，来得到精确的检测结果。

请参阅图4，其中，实施例三中的步骤S330和S340分别相当于实施例二中的步骤S230和S240，该部分内容请参阅实施例一和实施例二，这里不再赘述。

对于实施例二中的步骤S210中的危险物品设置安检过程中经常涉及的类别，对切包图像进行该常见的危险物品类别标注获得训练集，获得步骤S310。

在步骤S310中，利用resnet34结构的encoder-decoder学习框架对训练集进行危险物品分类和危险物品分割训练,危险物品类别标注包括以下至少之一：刀具类别标注、塑料打火机类别标注、金属打火机和打火机油类别标注、剪刀类别标注和充电宝类别标注。

相应的，设置整体损失函数中的权重，得到步骤S320。

在步骤S320中，采用focal loss损失函数对分类训练结果进行评价，采用diceloss损失函数对分割训练结果进行评价，得到双支U-Net网络模型，双支U-Net网络模型的整体损失函数为focal loss损失函数和dice loss损失函数的加权平均和，focal loss损失函数的权重为0.1-0.5，dice loss损失函数的权重为0.5。

具体的，最终双支U-Net网络模型的整体损失函数表示如下：

Loss＝w1*focal loss+w2*dice loss，其中w1，w2为focal loss损失函数和diceloss损失函数的权重参数，w1为0.1-0.5，w2为0.5。

本发明第三实施例的实时危险物品语义分割方法，建立在第二实施例的基础上，通过设置五种安检过程中常见危险物品类别，来对切包图像进行该五种危险物品类别标注得到训练集，相应的，双支U-Net网络模型的整体损失函数中focal loss损失函数的权重为0.1-0.5，dice loss损失函数的权重为0.5。通过上述方式，除了实施例一和实施例二中得到的效果，本发明还能够对安检过程中包裹内的常见危险物品类别进行准确检测，以保证安检的安全。

请参阅图5，图5是本发明实施例的实时危险物品语义分割装置第一结构示意图；装置40包括：

切包模块41，用于获取X光视频帧图像，对X光视频帧图像进行包裹切割，以获得切包图像。

可选的，切包模块41，是利用直方图阈值划分的方法，从X光视频图像中切割出包裹。具体的，根据X光视频帧图像计算出对应的图像直方图，然后根据图像直方图的峰值对包裹进行切割，使得图像中的包裹都有其对应的子图像。如此可以将当前视频帧图像内所有的包裹进行一定的划分，从而可以将包裹区分出来，方便后续对包裹进行数据分析。

危险物品分类和分割模块42，用于将切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对切包图像中的危险物品进行分类和标识。

可选的，其中，双支U-Net网络模型包括二分类分支网络和分割分支网络，二分类分支用来对于危险物品进行分类，识别出危险物品的类别，分割分支更加精准的输出危险物品的位置。具体的，危险物品的轮廓内区域的所有像素点均被标注(比如可以用颜色标注)为匹配的危险类别，并用文字的形式标记出来该危险物品类别。由此，能够直观的分辨危险物品的类别以及该危险物品在包裹中的具体位置。比如包裹里面存在刀具，而双支U-Net网络模型中包含刀具这个危险物品类别，最后得到被标注的刀具的轮廓，且该轮廓内的像素点均被涂成红色(属于刀具这个类别的颜色)，且在该刀具的旁边用文字标记出刀具。

请参阅图6，图6是本发明实施例的实时危险物品语义分割装置第二结构示意图。如图6所示，该装置50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述实时危险物品语义分割方法的程序指令。

处理器51用于执行存储器52存储的程序指令。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图7，图7为本发明实施例的存储装置的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种实时危险物品语义分割方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述双支U-Net网络模型包括二分类分支网络和分割分支网络，

所述将所述切包图像输入训练好的双支U-Net网络模型中进行语义分割，以对所述切包图像中的危险物品进行分类和标识包括：

提取所述切包图像的特征；

在所述二分类分支网络中，根据所述特征对所述切包图像进行危险物品识别，以获取危险物品类别；

在所述分割分支网络中，进行语义分割，分割出危险物品，获取危险物品的定位和类别，在所述切包图像上按照与所述危险物品的类别对应的显示策略显示所述危险物品。

3.如权利要求1或2所述的方法，其特征在于，所述将所述切包图像输入训练好的双支U-Net网络模型中进行语义分割之前包括：

利用resnet34结构的encoder-decoder学习框架对训练集进行危险物品分类和危险物品分割训练；

采用focal loss损失函数对所述分类训练结果进行评价，采用dice loss损失函数对所述分割训练结果进行评价，得到所述双支U-Net网络模型，所述双支U-Net网络模型的整体损失函数为focal loss损失函数和dice loss损失函数的加权平均和。

4.如权利要求3所述的方法，其特征在于，所述利用resnet34结构的encoder-decoder学习框架对训练集进行危险物品分割和危险物品分类训练之前包括：

获取多张X光视频帧图像，对每张X光视频帧图像进行包裹切割处理以得到对应的切包图像；

对所述切包图像进行危险物品类别标注以获得所述训练集。

5.如权利要求4所述的方法，其特征在于，所述危险物品类别标注包括以下至少之一：刀具类别标注、塑料打火机类别标注、金属打火机和打火机油类别标注、剪刀类别标注和充电宝类别标注。

6.如权利要求5所述的方法，其特征在于，所述focal loss损失函数的权重为0.1-0.5，所述dice loss损失函数的权重为0.5。

7.如权利要求1所述的方法，其特征在于，所述获取X光视频帧图像，对所述X光视频帧图像进行包裹切割，以获得切包图像包括：

根据所述X光视频帧图像计算图像直方图；

根据所述图像直方图中的峰值，对所述X光视频帧图像中的包裹进行切割，以获得所述切包图像。

8.一种实时危险物品语义分割装置，其特征在于，所述装置包括：

9.一种实时危险物品语义分割装置，其特征在于，所述装置包括存储器、以及与所述存储器耦合的处理器，其中，

所述存储器存储有用于实现如权利要求1-7中任一项所述实时危险物品语义分割方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

10.一种存储装置，其特征在于，存储有能够实现如权利要求1-7中任一项所述实时危险物品语义分割方法的程序文件。