CN113780087A

CN113780087A - 一种基于深度学习的邮政包裹文本检测方法及设备

Info

Publication number: CN113780087A
Application number: CN202110919567.9A
Authority: CN
Inventors: 康琦; 郑宇�; 徐其慧
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-10
Anticipated expiration: 2041-08-11
Also published as: CN113780087B

Abstract

本发明涉及一种基于深度学习的邮政包裹文本检测方法及设备，所述检测方法包括以下步骤：图像调整步骤，获取待检测的邮政包裹图像，通过预训练的目标检测模型检测图像中条形码位置，基于所述条形码的倾斜角度对邮政包裹图像进行旋转矫正，获得矫正后图像；收件地址位置检测步骤，将所述矫正后图像再次作为所述目标检测模型的输入，获取收件地址关键信息位置框；文本检测步骤，利用训练好的文本检测模型对所述收件地址关键信息位置框进行文本检测。与现有技术相比，本发明使用深度学习的方法，解决了邮政包裹在自动分拣时收件地址难以检测的问题，进而和邮政包裹收件地址文本识别任务对接，最终实现邮政包裹的自动分拣。

Description

一种基于深度学习的邮政包裹文本检测方法及设备

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的邮政包裹文本检测方法及设备。

背景技术

如今，随着快递单样式不断趋于标准化，许多快递公司已完成了手写快递单到印刷体电子表单的转变。而目前大多数快递公司主要通过识别表单条形码对快递邮件包裹进行分拣，即利用联网的自动分拣机器或者快递员手持的联网移动设备对快递包裹邮件上的条形码进行扫描，识别出条形码对应的单号，然后在数据库中搜索匹配识别单号所对应的全部信息，从中得到收件人地址信息。然而通过定位条形码的分拣方法存在一定的问题，首先该方法只能在线进行，一旦网络出现状况，或者数据库出现故障，则分拣将无法进行；第二，当条形码存在遮挡、污染和缺失问题时，分拣系统将无法工作，只能借助快递员人工介入才能完成，费时又费力；此外，快递包裹运单上文字信息较多，大量无关的表格、图案和文字区域导致收件地址难以检测，不同种类的运单的收件地址位置在运单上的位置不同，增加检测难度。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可靠性高的基于深度学习的邮政包裹文本检测方法及设备。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的邮政包裹文本检测方法，包括以下步骤：

图像调整步骤，获取待检测的邮政包裹图像，通过预训练的目标检测模型检测图像中条形码位置，基于所述条形码的倾斜角度对邮政包裹图像进行旋转矫正，获得矫正后图像；

收件地址位置检测步骤，将所述矫正后图像再次作为所述目标检测模型的输入，获取收件地址关键信息位置框；

文本检测步骤，利用训练好的文本检测模型对所述收件地址关键信息位置框进行文本检测。

进一步地，所述目标检测模型的训练过程包括：

采集包含多张高质量邮政包裹图像的初始数据集，对每张图像进行数据标注，所述数据标注包括收件地址关键信息标注和条形码标注；

从所述初始数据集中划分出训练集、测试集和验证集，通过所述训练集实现对目标检测模型的训练，通过所述测试集和验证集实现对目标检测模型的性能测试。

进一步地，通过开源标注工具Labelme进行所述数据标注。

进一步地，所述目标检测模型采用单阶段式目标检测模型。

进一步地，所述目标检测模型采用YOLOV5结构，包括依次连接的输入端、Backbone网络、Neck部分和Head部分，其中，Backbone网络用于生成不同尺寸的特征图，Neck部分基于不同尺寸的特征图实现深层语义信息和浅层语义信息的聚合。

进一步地，训练所述YOLOV5结构时采用的损失函数如下：

L_yolo＝w_clsl_cls+w_objl_obj+w_bboxl_bbox

其中，l_cls、l_obj和l_bbox分别为分类损失、置信度损失和检测框损失，w_cls、w_obj和w_bbox为三种损失对应的权重，所述分类损失和置信度损失采用Focal loss损失函数，检测框损失采用GIoU损失函数。

进一步地，所述旋转矫正利用OpenCV实现，具体包括以下步骤：

对包含条形码的检测框进行灰度处理；

通过高斯滤波对X轴方向求导，提取竖向特征；

通过腐蚀膨胀操作使得条形码连接成一个整体；

利用OpenCV寻找条形码的最大轮廓，进而获得条形码的倾斜角度；

按照条形码的倾斜角度进行旋转，得到矫正后图像。

进一步地，所述收件地址关键信息位置框经阈值放大后再进行所述文本检测步骤。

进一步地，所述文本检测模型采用基于像素扩张的快速文本检测模型，包括基于ResNet18的特征提取网络和基于目标分割的像素扩张后处理网络。

本发明方法可应用的问题场景为可见光照射下，邮政包裹上收件地址的检测。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储器；和

被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述邮政包裹文本检测方法的指令。

与现有技术相比，本发明具有以下有益效果：

1、本发明基于深度学习实现自动化的邮政包裹文本检测，能够有效地解决如今快递包裹自动分拣普遍存在的问题，极大程度上降低邮政快递包裹自动分拣这一环节投入的时间成本与人力成本。

2、本发明采用单阶段检测性能优异的YOLOV5结构作为目标检测模型，实现邮政包裹收件地址定位，解决邮政包裹收件地址定位的时效性问题。

3、本发明先利用目标检测模型检测条形码的位置，采用OpenCV识别条形码的最大外接矩形，计算最大外接矩形与条形码矩形检测框的旋转角度，从而实现邮政包裹图像的垂直对齐矫正，提高了地址位置提取的可靠性。

4、本发明采用的文本检测模型包括基于ResNet18的特征提取网络和基于目标分割的像素扩张后处理网络，有效克服了邮政包裹图像存在的倾斜、模糊、文本行间距较小难以分割等问题。大部分图像中文本行间距较小，如果采用基于目标检测的文本检测模型，很容易出现文本重叠的问题，这对文本识别的准确度影响极大。本发明通过采用基于目标分割技术的文本检测模型，以解决文本行倾斜、间距小、检测存在重叠的问题。文本检测模型采用ResNet中模型参数量最小的ResNet18来设计特征提取网络，保证了文本检测框架的快速性；利用FPN网络进行特征融合，很好地融合深层和浅层文字特征，提高检测精度；在FPN上采样过程中引入MoblieNet中的深度可分离卷积，降低了模型参数；最终通过改进渐进尺度扩张算法设计的快速像素扩张算法RPE，实现行间距小的文本的实时准确检测。

5、本发明有效地为邮件自动分拣提供新的方法，用计算机视觉技术为现有的利用条形码识别进行快递分拣提供新的解决方案，克服因网络故障、数据库崩溃、条形码遮挡或污染等问题出现时只能人工分拣的弊端，解决了快递包裹自动分拣需投入大量人力、物力和财力的痛点，提高快递物流行业的分拣效率，使快递行业的服务质量更有保障，对目前以及将来的快递包裹分拣都具有重要意义。

6、可通过带有摄像头的设备拍摄的邮政包裹图像作为输入，在极短时间内自动完成迅速高效准确的收件地址检测；检测过程中的涉及的相关算法具有极高的适应性与鲁棒性，对邮政场景下各类型快递包裹的收件地址检测都可适用，如要检测其他公司快递运单，仅需针对该公司运单的特点，对代表收件地址的关键信息进行标注，然后重新进行训练即可使用，简单方便，易于操作。

附图说明

图1为本发明的总体框图；

图2为本发明采用的邮政包裹收件地址定位模型示意图；

图3为本发明采用的邮政包裹收件地址定位模型训练精度指标变化示意图；

图4为本发明的文本检测模型框架示意图；

图5为本发明实施例中对高分辨率邮政包裹文本检测效果示意图；

图6为本发明实施例中对低分辨率邮政包裹文本检测效果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种基于深度学习的邮政包裹文本检测方法，包括图像调整步骤、收件地址位置检测步骤和文本检测步骤，在图像调整步骤中，获取待检测的邮政包裹图像，通过预训练的目标检测模型检测图像中条形码位置，基于所述条形码的倾斜角度对邮政包裹图像进行旋转矫正，获得矫正后图像；在收件地址位置检测步骤中，将所述矫正后图像再次作为所述目标检测模型的输入，获取收件地址关键信息位置框；在文本检测步骤中，利用训练好的文本检测模型对所述收件地址关键信息位置框进行文本检测。上述方法利用计算机视觉技术对邮政包裹的收件地址的自动检测，使用深度学习的方法，依靠轻量的目标检测神经网络对邮政包裹的收件地址进行获取，并利用基于目标分割的文本检测模型对收件地址图片进行文本检测，解决了邮政包裹在自动分拣时收件地址难以检测的问题，进而和邮政包裹收件地址文本识别任务对接，形成项目闭环，从而最终实现邮政包裹的自动分拣，具有较高的实用性。

具体地，目标检测模型的训练过程包括：

采集包含多张高质量邮政包裹图像的初始数据集，通过开源标注工具Labelme对每张图像进行数据标注，所述数据标注包括收件地址关键信息(“TO”、“To”、“to”等)标注和条形码标注，其中，邮政包裹图像拍摄于邮政快递包裹分拣场景，图像内容为真实的，可由可选一切配置摄像头的、能适应邮政场景下用于包裹分拣的设备获取；

从所述初始数据集中划分出训练集、测试集和验证集，通过所述训练集实现对目标检测模型的训练，通过所述测试集和验证集实现对目标检测模型的性能测试，最终生成鲁棒性较高的目标检测模型，作为邮政包裹收件地址定位模型。

初始数据集中使用的邮政包裹图像应清晰、有较高的辨识力，所有邮政包裹图像均具备收件位置关键信息，拍摄的光照环境随机。训练集、测试集和验证集三者的数据量比例可以采用8:1:1。

考虑到邮政包裹分拣对模型的实时性要求较高，目标检测模型可以采用单阶段式目标检测模型(You Only Look Once，简称YOLO)。单阶段式目标检测方法是指在对图像的第一次特征提取结果上直接预测，相较处理两次图片的双阶段检测方法而言，单阶段检测方法具有更高的实时性，更能贴合邮政包裹自动分拣时效性要求。

如图2所示，本实施例中，单阶段式目标检测模型采用YOLO的V5版本，以下简称YOLOV5。对输出的检测结果非极大值抑制，计算与之匹配的真实值的交并比，得到检测框损失，并与分类损失和置信度损失进行加权得到总体误差，然后根据反向传播算法推进训练，最终完成训练的目标检测模型应具备MAP@0.5>90％的检测性能。

YOLOV5的设计遵循大幅度降低计算量的同时保证网络表征能力的原则，在多个设计细节中体现其轻量化设计技巧，首先在特征提取网络的设计中引入了跨阶段局部网络(Cross Stage Partial，以下简称CSP)；引入Focus操作，并利用步长为2的卷积层来代替步长为1的卷积加步长为2的最大池化层的组合；引入空间金字塔(Spatial PyramidPooling，以下简称SPP结构)来降低计算量；使用了特征金字塔网络(FPN)和路径聚合结构(Path Aggregate Network，以下简称PANet)的融合深层和浅层的语义信息，使其在各个尺寸的目标检测任务上的表现都很全面。通过以上设计使模型具备较快的检测速度，同时模型较为轻量，可在处理性能不太好的边缘设备进行部署。

如图2所示，YOLOV5网络主要分为输入端、Backbone、Neck、Head四个部分，通过利用三个尺寸的特征图对检测目标的位置和类别进行预测。其中Backbone网络可以用于生成不同尺寸大小的特征图作为特征金字塔网络的输入，YOLOV5使用CSPDarkNet作为Backbone网络，通过Backbone网络生成3个尺寸的特征图，3个尺寸分别为输入图片尺寸的1/8，1/16，1/32；Neck部分主要将BackBone网络生成的不同尺寸的特征图作为特征金字塔的输入，用于聚合深层语义信息和浅层语义信息，YOLOV5采用PANet网络来聚合特征，该网络的特征提取器采用了一种新的增强自下向上路径的FPN结构，增强了浅层特征的传递。第三条通路的每个阶段都将前一阶段的特征映射作为输入，并利用3×3卷积层进行处理。输出通过横向连接被添加到自上而下通路的同一阶段特征图中，这些特征图为下一阶段提供信息，同时使用自适应特征池化(Adaptive feature pooling)恢复每个候选区域和所有特征层次之间被破坏的信息路径，聚合每个特征层次上的每个候选区域，避免被任意分配；Head主要用于最终检测部分，从网络输入到检测Head后得到三个不同尺寸的特征图，其下采样倍数分别为1/8，1/16，1/32，Head仅改变其通道数，不改变其高和宽的比例。每个特征图的每一个像素位置代表了原图上尺寸上以其为中心的3个锚框，3个锚框类别的偏移和放缩量隐藏在Head输出结果此像素位置的通道维度中，Head输出每个锚框的置信度(用于区分前景和背景)、类别、4个偏移放缩值。Head输出的通道数计算如下：

n_channel＝n_class+5 (1)

其中，n_channel为输出通道的个数，n_class为分类的类别数。置信度和偏移放缩量共5个数。特别地，因为标记邮政图像中共有四个类别，分别是条形码、“To”、“DZ”、“Tel”，故邮政包裹收件地址模型的Head输出的通道数为9。锚框偏移和放缩量的计算公式如下：

其中，o_x，o_y，o_w，o_h为YoloV5输出的四个偏移量。c_x，c_y，p_w，p_h为锚框的中心坐标和预设宽高。

邮政包裹收件地址定位模型的输出为多个检测框，包括条形码框及相应置信度、“To”框及相应置信度、“DZ”框及相应置信度以及“Tel”框及相应置信度。

邮政包裹收件地址定位模型的对四个类别的分类和置信度损失函数均采用RetinaNet中针对类别不平衡分类设计的Focal loss损失函数：

邮政包裹地址定位模型的检测框bbox损失为GIoU损失如下：

其中，IoU为检测框与真值的交并比，A_c为两个框最小闭包区域面积，U为两个框并集。YOLOV5的损失函数如下：

L_yolo＝w_clsl_cls+w_objl_obj+w_bboxl_bbox (5)

其中，l_cls，l_obj，l_bbox分别为分类损失、置信度损失、检测框损失，w_cls，w_obj，w_bbox为三种损失对应的权重。

为了解决小尺度目标的检测问题，需要在训练过程中增加数据增强手段，大大提高了模型的泛化能力和训练收敛速度，其中Mosaic数据增强是其最重要的数据增强方式，能够有效提升准确率。YOLOV5是在COCO数据集上进行训练，在COCO数据集下预定了固定的锚点框，其锚点框的尺寸如下：[116，90，156，198，373，326]、[30，61，62，45，59，119]、[10，13，16，30，33，23]。

在模型的训练方面，受限于计算机显卡的显存，在普通显卡上只能使用较小的批量大小影响训练过程稳定性和最终精度。为了解决这样的问题，在模型训练的过程中使用了梯度积累的方法，取目标批量大小为64，训练中按实际批量大小最接近64的倍数积累梯度。例如批量大小为16时会积累四次，前三次输入数据进入网络中获得输出，与标签一起计算损失，反传梯度但不更新参数，根据Pytorch框架的机制，不更新参数时其梯度会保存并累计。第四次数据输入模型并反传梯度后才按这四次累计的梯度一并更新模型。利用这种方法即可在显存仅够塞下16张图片的显卡上实现相当于64的批量大小，降低了显卡门槛要求。

训练初始阶段模型损失往往较大，直接使用较高学习率可能导致模型梯度爆炸，使用较小学习率又会导致训练中期收敛慢，为了解决这个问题，模型的训练在训练的前三轮和前1000个批次中取总批次数较大值进行Warm up，这个过程中学习率线性增长，梯度积累次数也按线性插值后取整增长，逐步达到预设目标学习率和积累次数。在warm up完成后到最终训练结束的过程中，学习率需要逐渐地衰减以使得网络充分收敛。

模型训练默认使用余弦退火算法衰减学习率，公式如下：

其中l_{r_new}为新的学习率，l_{r_initial}为初始学习率，本模型训练时将该参数设置为0.01，η_min表示最小学习率，本模型训练时将该参数设置为0.002。epoch_current当前epoch数，T_max代表总epoch数。

最后，模型训练时采用的优化器采用SGD进行反向传播推进训练，训练效果如图3所示，bbox回归损失用GLOU来衡量，置信度损失用objectness显示，分类损失用Classification显示，精度用MAP@0.5和MAP@0.5-0.95来定量衡量。最终完成训练的模型在测试集与验证集上达到了MAP@0.5>90％，在MAP@0.5-0.95>60％的结果，证明了邮政包裹收件地址定位模型具备优异的检测效果。

在优选的实施方式中，收件地址关键信息位置框先经阈值放大并切割后再进行所述文本检测步骤，阈值放大的阈值需根据邮政包裹图像的样式进行设定，不同样式图像的阈值设定不同。

文本检测模型可以采用基于像素扩张的快速文本检测模型，如图4所示，该模型的特征提取网络由残差网络(ResNet18)和特征金字塔(Feature Pyramid Network，以下简称FPN)设计而成，在设计过程中引入MobileNet中深度可分离卷积的思想以降低模型的参数量，通过特征提取网络得到三个尺度的特征图，利用基于目标分割的像素扩张后处理算法(Rapid Pixel Expansion,以下简称RPE)对三个尺度的特征图进行文本检测，通过计算三个尺度的预测误差并进行反向传播进行训练，最终得到文本检测模型。

本实施例的文本检测模型中，根据ResNet18中conv2层、conv3层、conv4层、conv5层提取4层feature map，然后利用FPN的方式将4层feature map(f2，f3，f4，f5)进行特征融合，为了进一步降低模型参数，在FPN上采样过程中引入MoblieNet中的深度可分离卷积思想；为了解决因文本行倾斜、间距小导致的检测存在重叠的问题，采用基于目标分割的像素扩张后处理算法(Rapid Pixel Expansion,以下简称RPE)对特征提取网络输出的三个尺度的特征图进行预测，三个尺度的特征图分别对应最小核文本实例S_min、最大核文本实例S_max、整体文本实例S的预测，其中最小核和最大核文本实例相对于文本实例真值的大小比例分别为0.5，0.9。

文本检测模型训练方法为：首先，在ICDAR2019数据集上进行预训练，得到预训练模型；然后，将部分邮政包裹数据按照ICDAR2019数据集的格式进行标注，利用预训练模型对标注的数据集模型微调；最终，得到适合邮政场景的文本检测模型。

在具体的模型训练方面，首先，由于训练文本检测模型需要有三个比例文本实例的图片标签，故采用Vatti clipping algorithm根据标注好的文本实例真值标签生成最小核和最大核标签；然后，计算文本检测模型对三个比例文本实例的预测误差，通过反向传播、参数更新等一系列降低预测误差损失；最终完成模型的训练。文本检测模型的损失函数L设计如下：

L_s＝γL_smin+(1γ)L_smax (8)

其中，L_c代表整个文本实例的损失，L_s为最小核文本实例S_min的损失L_smin和最大核S_max的损失L_smax的加权和，

设置为0.8，γ设置为0.9。

由于文本实例可能只占图片中很小的一部分，如果采用二进制交叉熵损失会造成预测结果更加偏向于非文本区域，为了解决这样的问题，采用dice coefficent损失函数：

其中，P_i,x,y和G_i,x,y分别为分割结果的P_i和真值G_i在(x,y)位置处的像素值。

L_c,s＝1-D(P_i·W,G_i·W) (10)

其中，L_c,s为L_c、L_smin、L_smax的统称。

最后，在ICDAR2019数据集下训练的模型准确率为91.05％，召回率为86.73％，利用该模型对标注的邮政包裹数据集进行微调，经过验证集和测试集测试，其检测准确率均达到90％以上，证明该文本检测模型具备优异的文本检测效果。图5和图6分别为文本检测模型对高分辨率和低分辨率图片的文本检测效果。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述方法涉及的数据标注、图像处理、模型训练完全在计算机上进行，不会对分拣设备产生影响。

上述方法有效地为快递包裹自动分拣提供新的思路和方法，通过对接可靠准确的文本识别模型，对检测的收件地址进行识别，即可与快递包裹的自动分拣项目形成整体闭环，这将大大提升快递物流业分拣效率和服务质量，让快递更有保障，这对现代快递物流业来说具有重要意义。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于深度学习的邮政包裹文本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述目标检测模型的训练过程包括：

3.根据权利要求2所述的基于深度学习的邮政包裹文本检测方法，其特征在于，通过开源标注工具Labelme进行所述数据标注。

4.根据权利要求1所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述目标检测模型采用单阶段式目标检测模型。

5.根据权利要求4所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述目标检测模型采用YOLOV5结构，包括依次连接的输入端、Backbone网络、Neck部分和Head部分，其中，Backbone网络用于生成不同尺寸的特征图，Neck部分基于不同尺寸的特征图实现深层语义信息和浅层语义信息的聚合。

6.根据权利要求5所述的基于深度学习的邮政包裹文本检测方法，其特征在于，训练所述YOLOV5结构时采用的损失函数如下：

L_yolo＝w_clsl_cls+w_objl_obj+w_bboxl_bbox

7.根据权利要求1所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述旋转矫正利用OpenCV实现，具体包括以下步骤：

对包含条形码的检测框进行灰度处理；

通过高斯滤波对X轴方向求导，提取竖向特征；

通过腐蚀膨胀操作使得条形码连接成一个整体；

按照条形码的倾斜角度进行旋转，得到矫正后图像。

8.根据权利要求1所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述收件地址关键信息位置框经阈值放大后再进行所述文本检测步骤。

9.根据权利要求1所述的基于深度学习的邮政包裹文本检测方法，其特征在于，所述文本检测模型采用基于像素扩张的快速文本检测模型，包括基于ResNet18的特征提取网络和基于目标分割的像素扩张后处理网络。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；和

被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述邮政包裹文本检测方法的指令。