CN112819001B

CN112819001B - 基于深度学习的复杂场景卷烟烟包识别方法和装置

Info

Publication number: CN112819001B
Application number: CN202110245146.2A
Authority: CN
Inventors: 单宇翔; 陆海良; 龙涛; 李轩
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2024-02-23
Anticipated expiration: 2041-03-05
Also published as: CN112819001A

Abstract

本发明公开了一种基于深度学习的复杂场景卷烟烟包识别方法和装置，包括以下步骤：获取含有烟包的陈列图像，采用MaskRCNN模型从含有烟包的陈列图像中提取出烟包的可视区域；对烟包的可视区域进行图像正则化得到烟包图片；基于改进的DocFace模型构建烟包识别模型，利用烟包识别模型对正则化后的烟包图片进行识别，得到烟包规格。以解决现有技术存在烟包图像的角度随意性大、前景和背景不易区分造成的复杂场景下烟包图像难以识别的问题。

Description

基于深度学习的复杂场景卷烟烟包识别方法和装置

技术领域

本发明属于图像识别技术领域，涉及陈列卷烟烟包的识别，具体来说，是一种基于深度学习的复杂场景卷烟烟包识别方法和装置。

背景技术

卷烟烟包作为烟草行业面向消费者的终端产品，是企业营销推广和零售户销售业务的核心关注点。在烟草工商业企业和零售户的众多工作内容中，例如品牌培育、陈列分析、上柜率检查、库存盘点、销售优化等，都需要对卷烟烟包进行识别和分析。

传统的卷烟烟包识别流程采用人工识别、判读或者提取关键信息的方式，工作量巨大且容易出差错，也很难对市场上的数量巨大的所有卷烟产品实现准确的辨别。近年来，图像识别算法得到了快速的发展，特别是基于深度学习的方法，在很多场景得到了广泛应用，例如根据图像内容进行分类，无人驾驶场景进行车辆或者行人的检测以及广泛应用的人脸识别。在上述这些领域，深度学习技术极大地降低了人力成本，提升了任务精度和速度。但在烟草领域，除了在工业生产和零售支付场景中的烟包条码识别，深度学习技术并未得到广泛和有效的应用。

造成这一局面的主要原因在于：深度学习的主流应用场景与烟草应用场景存在着较大的差异，现有技术无法直接有效地应用到烟草的相关场景中。以烟包陈列识别为例，由于不同业务的差异，烟包图像会以各种形态出现，比如在终端陈列时烟包会在零售前柜和背柜中成行成列地密集摆放，在宣传样品中会独立存在于品宣牌里。由于零售终端本身业态情况复杂，夫妻店、超市、便利店、烟草直营店等多种类型，店铺条件差异大，使得烟包图像本身的差异巨大；加之受到拍摄人员、拍摄设备、拍摄条件等影响，使得拍摄的烟包图像无法标准化，出现较多的玻璃反光、遮挡、不同角度摆放等情况；另外烟包规格本身数量多，新品更新迭代快，存在同一品牌不同规格之间在外包装上差异非常小，不同品牌的规格之间也有很多具有较强的相似性。可见，卷烟烟包的识别具有一定的复杂性。

采用主流的深度学习图像识别方法(如人脸识别的框架模型)来进行烟包识别，面临以下几个方面的挑战：1)烟包图像的角度随意性更大，而人脸识别、车辆识别的目标对象所呈现的姿态相对固定，基本都以正立的方式出现在图片中。非常流行的目标检测算法例如FasterRCNN和YOLO，对于大部分处于正立状态的目标对象，通过大规模的数据对深度学习模型进行训练后，都可以实现较好的检测，而对于任意摆放和拍摄的烟包对象，这些方法都存在着识别能力弱的问题；2)烟包图像往往会密集出现，相邻摆放，使得识别和检测的难度增大。在其它识别任务中，即使对物体没有进行很好的定位，目标周围基本都以背景为主；而烟包识别，特别是在陈列条件下，如果将相邻烟包的图像信息包含到图片区域后，会引入较大的干扰，给烟包的识别带来极大的挑战，所以在进行烟包检测和识别的过程中，非常关键的问题是如何对属于该烟包的区域信息进行有效的提取，保证属于本烟包的图像内容包含在内又不引入相邻烟包图像的干扰信息；3)烟包识别的应用场景本身较为复杂，使得烟包图像与周围商品很难区分，给识别带来较大的干扰，而烟包图像识别属于细粒度识别的问题，对标注人员的要求非常高，同一个烟包规格很难获取大量的标注数据用于深度学习模型的训练，这对于构建烟包识别深度学习模型提出了很大的挑战。

发明内容

针对现有技术存在烟包图像的角度随意性大、前景和背景不易区分造成的复杂场景下烟包图像难以识别的问题，本发明提供了一种鲁棒性强、精确度高的基于深度学习的复杂场景卷烟烟包识别方法和装置。

为实现上述技术目的，本发明采用的技术方案如下：

第一方面，一种基于深度学习的复杂场景卷烟烟包识别方法，包括以下步骤：

获取含有烟包的陈列图像，采用MaskRCNN模型从含有烟包的陈列图像中提取出烟包的可视区域；

对烟包的可视区域进行图像正则化得到烟包图片；

基于改进的DocFace模型构建烟包识别模型，利用烟包识别模型对正则化后的烟包图片进行识别，得到烟包规格。

优选地，所述MaskRCNN模型被用于烟包的可视区域前，需要采用对烟包的可视区域进行标记的陈列图像作为样本来优化MaskRCNN模型的模型参数，以使MaskRCNN模型能够对每个烟包的最小外接矩形进行像素点级别的分割，从而将烟包的可视区域和干扰像素分开。

优选地，所述对烟包的可视区域进行图像正则化得到烟包图片包括：

对烟包的可视区域进行轮廓检测后，提取所有轮廓点的坐标；

根据轮廓点的坐标拟合轮廓线后，根据轮廓线获得烟包的顶点坐标；

将烟包的顶点坐标所构成的四边形区域通过透视变换投射到烟包纹理区域，得到烟包图片。

优选地，所述将烟包的顶点坐标所构成的四边形区域通过透视变换投射到烟包纹理区域包括：

根据烟包的四个顶点坐标以及被投射的烟包纹理区域的四个顶点坐标建立映射关系，获得烟包的可视区域与烟包纹理区域之间的透视变换矩阵；

根据所得透视变换矩阵将烟包的顶点坐标所构成的四边形区域中的所有像素点坐标映射到烟包纹理区域。

优选地，所述烟包纹理区域为正方形区域。

优选地，所述基于改进的DocFace模型构建烟包识别模型包括：

建立两个通道，第一个通道将正则化后的烟包图片缩放到设定尺寸后，经过轻量级卷积神经网络产生第一子特征；第二通道将正则化后的烟包图片先填充再缩放到设定尺寸后，经过轻量级卷积神经网络产生第二子特征，将第一子特征和第二子特征进行组合后送入误差函数进行训练，从而获得烟包识别模型。

优选地，所述误差函数为diam_softmax误差函数。

优选地，对正则化处理后的烟包图片进行数据增广后作为构建烟包识别模型的样本数据。

第二方面，一种基于深度学习的复杂场景卷烟烟包识别装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于深度学习的复杂场景卷烟烟包识别方法。

与现有技术相比，本发明提供的基于深度学习的复杂场景卷烟烟包识别方法和装置具有如下有益效果：

1、本发明提出的烟包可视区域检测将目标检测问题转化为实例化区域分割问题，有效克服多角度拍摄烟包和相邻太近的问题。

2、本发明根据实例分割结果，拟合烟包图片关键点，根据可见区域的关键点实现图像变换，将烟包视区域变换到正立的烟包图像模板，实现烟包图像的正则化。

3、本发明采用基于人类知识的烟包图像仿真增强方法，对于单一规格的单张图片，实现各种复杂场景的图像模拟，实现大规模的数据增广，基于数据增广后的仿真图像大数据实现深度学习模型的训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为实施例提供的基于深度学习的复杂场景卷烟烟包识别方法的流程图；

图2为实施例提供的采用主流目标检测算法检测烟包得到的结果；

图3为实施例提供的采用MaskRCNN模型的处理流程图；

图4为实施例提供的采用MaskRCNN模型的烟包检测结果示意图；

图5为实施例提供的烟包可视区域的正则化流程图；

图6为实施例提供的烟包的可视区域与正则化后的对比示意图；

图7为实施例提供的改进的DocFace模型流程图；

图8为实施例提供的检测结果的分布直方图，横坐标代表检测精度，纵坐标代表对应精度样本的数量；

图9为实施例提供的样本烟包的识别精度示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，实施例提供的基于深度学习的复杂场景卷烟烟包识别方法，包括烟包可视区域检测、烟包图像正则化和基于仿真图像训练的烟包识别三个步骤。具体过程为：

S1：获取含有烟包的陈列图像，采用MaskRCNN模型从含有烟包的陈列图像中提取出烟包的可视区域，从而将烟包从背景图片中区分出来。

在行人、车辆以及人脸等通用检测任务中，被检测目标通常比较稀疏，也不存在太多的角度旋转，因此通常采用FasterRCNN和YOLO等只输出对角两个顶点坐标的算法进行目标检测。但在烟包检测任务中，由于环境的复杂多变，烟品的密集摆放、陈列角度的多变都会导致上述算法对非正立的烟包检测效果欠佳，并容易漏掉部分有效区域或者将其它规格烟包区域包含在里面。

在图2中，由于烟盒拍摄角度有倾斜，导致矩形框都无可避免地将不属于自己的区域划入了自己范围内，这种干扰引入势必影响到烟盒识别的精度。

为了解决上述问题，本实施例手工标注了30万张烟盒陈列图片，每张图片都对每一个像素点进行了标定，指明该像素属于前景，还是属于背景。

本实施例通过MaskRCNN模型在8块RTX 2080Ti显卡服务器上，利用手工标注的30万烟盒对模型进行训练。与FasterRCNN、YOLO等算法相比，MaskRCNN模型不再是输出一个典型的正立矩形框，而是将目标检测问题转化为一个示例分割问题，对于每个图像的像素点进行赋值实现区域分割。

本实施例中利用MaskRCNN模型的处理流程图如图3所示，当含有烟包的陈列图像输入MaskRCNN网络后，首先检测出每个烟包的最小外接矩形，而后再对每个烟包的最小外接矩形进行像素点级别的分割，将烟盒区域和其它干扰像素完全分开。与主流的正立矩形框目标检测算法相比，基于MaskRCNN的检测模型不受烟包旋转、排列以及朝向等因素的影响，对相互交叠的烟包也能给出较为精准的判断，图4示出了部分可视区域的检测结果，从图中可以看出，本申请采用的目标检测方法不受烟包摆放的影响，能够准确预测出每一个烟包的位置。

S2：将烟包的可视区域进行图像正则化得到烟包图片。

由于步骤S1得到的烟包可视区域是不规则的分割结果，如果直接进行识别，即使同种烟包的外观都会呈现出多种变化，影响识别效果。

为了消除这种差异性，该步骤需要将可视区域的图像进行图像正则化得到正立的烟包图片，即将每一个烟包的形状修正为正方形，再进行后续的识别。

如图5所示，正则化过程包括计算烟包顶点、计算透视变换矩阵和透视变换。其中计算烟包顶点具体过程为：

S21、对S10输出的烟包的前景区域进行轮廓检测；

S22、提取前景区域所有轮廓点的坐标；

S23、根据所有轮廓点的坐标拟合出四条包围前景区域的轮廓线，这四条轮廓线构成四边形；

S24、根据上述四条轮廓线获得烟包即四边形的四个顶点坐标。

将烟包的四个顶点坐标所构成的四边形区域通过透视变换投射到指定的烟包纹理区域中，具体包括：

S25：计算透视变换矩阵

首先定义一个边长为256像素的正方形作为需要投射到的指定烟包纹理区域，其四个顶点坐标分别为(0，0)，(0，255)，(255，255)，(255，0)，通过如下计算，求解出不规则烟包四边形区域投射到正方形烟包纹理区域的透视变换矩阵。

根据透视变换原理，在3D空间中两个平面上的点进行变换满足下列关系：

而空间中的点(x，y，z)在屏幕上的投影(x′，y′)，可通过下列公式计算：

令烟包四个顶点的3D空间坐标为屏幕投影坐标为正方形四个顶点的3D空间坐标为/>屏幕投影坐标为/>则易知：

根据公式(1)和(3)，可以进一步推理出不规则烟包四边形区域顶点坐标与正方形烟包纹理区域顶点坐标之间的关系：

进一步化简得：

为了方便，引入8个新变量β₁₁,β₁₂,β₁₃,…,β₃₂，最终方程表示为：

其中：

因为烟包和正方形4个顶点之间映射关系构建了8个方程(x坐标和y坐标分别都有映射关系)，而方程中的未知数a₁₁～a₃₂刚好也是8个，所以不规则烟包四边形区域与正方形烟包纹理区域的映射关系求解出β₁₁～β₃₂这8个未知参数。

S26、根据透视变换矩阵对应的β₁₁～β₃₂这8个未知参数可以将不规则烟包四边形区域中所有像素点坐标映射到正方形烟包纹理区域内

根据计算得到的透视变换参数β₁₁～β₃₂，对整个烟包四边形区域进行透视变化，就能得到最终正则化的烟包图片，部分效果如图6所示。可以看出：正则化后的烟包在相似度上有了很大的改进，更利于后续的识别任务。

S3：根据正则化后得到的烟包图片识别出烟包的规格。

如图7所示，本申请改进了在人脸识别领域性能优异的DocFace模型，从而构建出烟包识别模型，将正则化后的烟包图片送入烟包识别模型，就能得到烟包图片中对应的烟包规格，构建烟包识别模型具体过程如下：

建立两个通道，第一个通道先将正则化后的烟包图片缩放到224x224大小，然后经过MobilenetV2网络产生长度为128的第一子特征，而第二通道将正则化后的烟包图片先经过黑色填充再缩放到224x224大小，然后仍然经过MobilenetV2网络产生长度为128的第二子特征，将第一子特征和第二子特征进行组合，构成长度为256的组合特征，送入diam_softmax误差函数进行训练，从而获得烟包识别模型。

将待识别的烟包图片送入烟包识别模型，可以获得烟包的产品属性信息。

烟包识别模型利用改进后的DocFace模型能够在保留烟包原始长宽比例信息的同时，也保证输入图片的信息足够丰富，对同品牌香烟的中支、细支和普通版的区分上有显著帮助。

将改进后的DocFace模型在GPU服务器集群(8片英伟达高性能显卡)上对增广后的1000万近1000类图片数据进行大规模的训练后得到了烟包识别模型。训练得到的烟包识别模型可以准确地区分不同规格的烟包，无论是在外观上只有细微的差异，还是实际场景中造成了烟包部分的遮挡，智能图像识别系统均可以高精度的识别。同时与构建的规格数据库实现关联，准确地输出产品属性信息，包括厂商信息、品牌信息、规格名称信息等。

烟包识别模型所识别范围可以覆盖中国市场上流通的国内卷烟品牌规格和国外进口的卷烟品牌和规格。同时，可以处理各种复杂的陈列情况，包括光照变化、遮挡、角度大等实际情形。

在样本数据增广这部分，可以采用现有增广技术，通过设定不同的光照、角度等控制参数，来获得各种外观不同的训练样本，有效地解决了训练数据不充足的问题。

实验验证

我们用公式(5)来评估单个烟包的检测精度：

其中area_pred表示预测模型给出单烟包前景区域预测值，area_truth表示人工标注的单烟包前景区域准确值，通过对二者的交集除以二者的并集，就得到了单烟包的检测准确率。容易理解：当预测结果和真实结果完全不重叠时，精度为0；当预测结果和真实结果完全重叠时，精度为1。

按照公式(6)计算整个测试集的平均检测精度

通过计算在测试集合上获得了95.1％的平均精度，精度分布情况如图8所示。可以看出，检测结果在绝大多数样本上都取得了很好的检测精度，只有极少数样本的检测精度低于0.2左右，通过观察得知：这部分样本存在严重遮挡、不完整、模糊等问题，即使手工标注出了烟盒区域，但其内容也无法支持后续的品名识别，属于无效数据。如果除去这部分数据，本系统的平均检测精度达到了96.9％，完全满足了烟包自动化检测的需求。

烟包识别性能测试

将200张测试样本中10000张左右的烟包纹理根据其真实标签进行分类，最终得到550类烟品。将其中225类烟品样本注册入库，剩下225类样本当作未知品类，使用人脸识别领域常用的误识率(FAR)和误拒率(FFR)对系统识别模块的性能进行评估。测试结果如图9所示，从图中可以看出，当FAR＝0.01时，1-FRR约为0.987，表明了该模型在烟盒识别上有非常高的精度，完全满足了烟包自动化识别的需求。

综上所述，本实施例通过先进的人工智能图像识别方法，实现烟包图像识别的可行性，构建了图像感知、智能识别和数据分析三级系统，实现从前端采集到数据价值分析的完整架构。在智能识别这一核心层，研究了通过图片质量评估、烟包检测和烟包识别的深度学习智能图像处理模型。通过图片质量评估可以快速的判断不合格的烟包原始图像，烟包检测和烟包识别模型从图片中实时检测出陈列图像中每个烟包的坐标位置，同时识别出烟包对应的规格、厂商、品牌及数量，还可以通过可视化技术，将统计分析结果进行实时展示。通过前期对烟包数据库的构建(已包含国内外卷烟规格2700多个)，该方法能够智能识别公司所有的在销卷烟和主要竞品，通过大量的真实烟包图像数据测试，识别准确率在95％以上。其中无法识别的烟包图像，大部分为拍摄过于模糊或遮挡过于严重，人眼也无法判断的情形。

实施例还提供了一种基于深度学习的复杂场景卷烟烟包识别装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于深度学习的复杂场景卷烟烟包识别方法。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于深度学习的复杂场景卷烟烟包识方法步骤。

本实施例提供的基于深度学习的复杂场景卷烟烟包识别方法可以稳定可靠运行，可以为烟草营销数字化智能化转型提供有力的技术支撑。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，包括以下步骤：

对烟包的可视区域进行图像正则化得到烟包图片；

基于改进的DocFace模型构建烟包识别模型，利用烟包识别模型对正则化后的烟包图片进行识别，得到烟包规格，其中，所述基于改进的DocFace模型构建烟包识别模型包括：

2.如权利要求1所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，所述MaskRCNN模型被用于烟包的可视区域前，需要采用对烟包的可视区域进行标记的陈列图像作为样本来优化MaskRCNN模型的模型参数，以使MaskRCNN模型能够对每个烟包的最小外接矩形进行像素点级别的分割，从而将烟包的可视区域和干扰像素分开。

3.如权利要求1所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，所述对烟包的可视区域进行图像正则化得到烟包图片包括：

4.如权利要求3所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，所述将烟包的顶点坐标所构成的四边形区域通过透视变换投射到烟包纹理区域包括：

5.如权利要求3或4所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，所述烟包纹理区域为正方形区域。

6.如权利要求1所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，所述误差函数为diam_softmax误差函数。

7.如权利要求1所述的基于深度学习的复杂场景卷烟烟包识别方法，其特征在于，对正则化处理后的烟包图片进行数据增广后作为构建烟包识别模型的样本数据。

8.一种基于深度学习的复杂场景卷烟烟包识别装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1~7任一项所述的基于深度学习的复杂场景卷烟烟包识别方法。