CN114724157A

CN114724157A - 一种基于改进深度学习ocr的工业文本检测识别方法

Info

Publication number: CN114724157A
Application number: CN202210419980.3A
Authority: CN
Inventors: 李勃; 赵宇迪; 张卓凡; 胡斌浩
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-08

Abstract

一种基于改进深度学习OCR的工业文本检测识别方法，通过分级式训练检测识别模型，以预训练的文本检测模型为基础模型，由验证集进行检验，如果基础模型达不到所要求的识别精度，则将现场采集的图片进行标注后作为训练集，在基础模型基础上冻结特征层，通过迁移学习继续训练，提升精度，如果仍未达到所要求的识别精度，再通过蒸馏学习继续训练，提升精度。本发明通过现有的工业图集训练出更加准确的基础模型，并通过分级处理方法解决复杂困难图集上精度不够的问题，在工业场景下不需要过多的图集就可以在短时间内训练出更准确的模型，及时投入生产，操作成本低。

Description

一种基于改进深度学习OCR的工业文本检测识别方法

技术领域

本发明属于计算机图像处理技术领域，涉及文本识别，为一种基于改进深度学习OCR的工业文本检测识别方法。

背景技术

在目前的工业生产场景下，有很多需要对文本内容进行检测识别的步骤，比如信息采集过程，例如电表读数；信息生产过程，产品生产日期保质期喷印是否清楚等等。

文本检测与识别，顾名思义就是对文本区域的划分，划分出的文本区域当中的文本内容识别，将这些文本信息从图片中的一些像素转化为机器能编码利用的文字。

对于检测部分，已有的方案包括传统算法，基于anchor做的boundingbox的回归的目标检测方法(CTPN,TextBoxes系列，seglink，EAST)，像素级别的细粒度回归的CRAFT方法和SA-Text方法，基于实例分割的pixellink，DBnet方法等。

对于识别部分，已有的方案包括CNN+RNN+CTC方法，CNN+RNN+Attention方法。

以及还有一些端到端的检测与识别方法包括Fots，MaskTextSpotter等。

对于人工方法，成本高，效率低，准确率低，在一些特定的环境下会受到限制。

对于传统文本检测识别算法，需要根据不同的使用场景，由具有经验的传统视觉算法工程师设计特征，成本高，不通用，鲁棒性差，极易受到干扰而影响效果，精度差。

现有的深度学习技术的缺点主要是追求自然场景下的效果性能而忽视了工业场景下的特性，导致这部分技术直接应用在工业场景表现不佳，同时很多现有技术在耗时上过长，难以在追求效率的工业场景上直接应用，同时现有的图集主要都是自然图集，与工业场景下的图集有着特征上的差异，所以直接应用效果不好。

发明内容

本发明的目的是在针对更加追求精度与耗时的工业场景上，通过特有的工业图集和根据工业场景特征合成的工业数据集训练出更加准确的基础模型，并通过一系列方法解决精度不够的问题。

本发明的技术方案为：一种基于改进深度学习OCR的工业文本检测识别方法，通过分级式训练检测识别模型，对工业检测场景下文本进行识别，采集工业检测现场的文本图片，将图片分为训练集和验证集，训练集用于分级式训练，验证集用于检验每轮训练效果，具体为：以预训练的文本检测模型为基础模型，由验证集进行检验，如果基础模型达不到所要求的识别精度，则将现场采集的文本图片进行标注后作为训练集，在基础模型基础上冻结特征层，通过迁移学习继续训练，提升精度，如果仍未达到所要求的识别精度，再通过蒸馏学习继续训练，提升精度。

进一步的，蒸馏学习训练后仍未达到所要求的识别精度，则将蒸馏学习中的教室模型替换为迁移模型继续训练。

进一步的，通过合成仿工业场景方式得到数据集预训练基础模型，采集各种工业场景图片，截取识别的关键区域，得到背景图库，将文字变换后粘贴到背景图，合成为图片构成数据集。

进一步的，合成仿工业场景方式包括以下步骤：

1)文本生成，选用多种字体，文本的内容通过在需要训练的字符中随机生成，长度在5-25不等，通过生成足够多的样本，确保字符的分布均匀与全面多样；

2)背景裁切，从背景图中随机裁剪出尺寸一致的背景小块，用于后续将文本粘贴在上面，随机裁剪用于获得不同光照角度和强度的各种背景图，丰富数据集；

3)合成图片，将背景小块分为明暗两个部分，在暗色背景上随机生成像素值在230-255的文字，在亮色背景上随机生成像素值在0-25之间的文字；

4)在合成图片随机生成文字时进行数据增强，包括：

制造文本间隔仿造工业场景中经常出现的空格情况；

投影变换仿造工业场景中经常出现的相机角度有偏差的情况；

通过扩充边界模拟检测部分效果不佳的情况；

通过横竖线条污染仿造工业场景中有时出现的干扰情况；

通过浮雕效果仿造工业场景中有时出现的文本凹凸情况；

通过运动模糊仿造工业场景中有时出现的流水线过快相机拍摄不清楚情况。

本发明通过基础模型+迁移模型+蒸馏模型三个处理级别，应对工业场景下简单、复杂、困难的图集，基础模型可以解决简单的工业场景文本检测识别，精度若达不到要求，可以通过少量的现场图片对模型迁移，若依然达不到要求，则可以通过蒸馏模型进一步提高精度。对于基础模型，本发明进一步利用现有工业场景数据，合成制作了仿工业场景的工业数据集，并辅以全方面、多种类、更接近实际的数据增强，训练出表现更好的基础模型。对于各种检测现场的不同检测条件及检测要求，本发明通过已经拥有足够特征信息的基础模型，实现少量现场图片的快速迁移，来满足不同检测识别现场的具体要求。

附图说明

图1为本发明检测模型训练流程图。

图2为本发明在工业生产中实施的流程图。

图3为本发明基础模型检测部分的原理图。

图4为本发明基础模型的识别部分的原理图。

图5为本发明中迁移学习的原理示意图。

图6为本发明中蒸馏学习的原理示意图。

图7为本发明基础模型检测部分的一个具体网络结果实施例。

图8为本发明识别模型检测部分的一个具体网络结果实施例。

图9为本发明合成仿工业场景样本的一个示例。

具体实施方式

本发明方法是属于深度学习OCR体系的相关方法，所以首先要执行训练模型的过程。如图1所示，相机采集到一定数量的待检图片后，就要进行数据集的制作。将图片分为训练集、验证集和测试集。其中训练集是用于算法模型进行特征提取等一系列学习行为的开展；验证集则是检验每轮训练效果，从而调整权重继续训练。测试集是检验最终模型的表现。

本发明方法通过基础模型、迁移学习、蒸馏学习三级处理不同难度的图集。如图2所示，本发明通过分级式训练检测识别模型，对工业检测场景下文本进行识别，以预训练的文本检测模型为基础模型，由验证集进行检验，如果基础模型达不到所要求的识别精度，则将现场采集的文本图片进行标注后作为训练集，在基础模型基础上冻结特征层，通过迁移学习继续训练，提升精度，如果仍未达到所要求的识别精度，再通过蒸馏学习继续训练，提升精度。其中迁移学习和蒸馏学习的训练集来源于检测现场采集的图像，并以现场采集的图像作为验证集，检验精度的样本。

另外，对于特别困难的图集还可以通过将蒸馏模型当中的教师模型先做一轮迁移再蒸馏，以提高精度。

基础模型包括检测部分和识别部分，检测和识别基本原理如图3和图4所示，现有深度学习有各种文本识别网络，如图7的文本检测算法DB(Differentiable Binarization)模型，以及图8所示的由CNN+RNN+CTC构成的识别模型。

迁移学习如图5，卷积神经网络的前端部分是提取特征用的，这些提取出的特征在不同的应用场景下都是差不多的。本发明在基础模型基础上冻结特征层，通过迁移学习继续训练。迁移学习将源域中训练好的网络参数、网络结构在目标域中加以利用，如同人脑处理信息这样一个迭代连续的抽象过程，网络的前端层可以当作特征提取器，所提取出的特征是通用的，那么可以将更强大的源域模型提取出的网络前端部分给到目标域模型。迁移之后可以在一些复杂图集上获得更好的效果。

进一步的，如果迁移学习没有使检测识别达到所需精度，则对基础模型进一步进行蒸馏学习。

在数据丰富全面的前提下，更大的骨干网络有更多的参数量，能够提取更多的特征信息，有效提升模型性能，但是却带来了更多的计算量和计算耗时；另一方面，更大的骨干网络带来了更多的参数冗余，有很多参数在计算中同样产生了耗时却没有起到作用，所以引申出了很多对模型的精简工作，比如网络剪枝，网络量化，网络蒸馏等，以降低模型的耗时。在工业场景下，模型的耗时和工业生产的效率是息息相关的，同时又不能过于舍弃模型精度追求高速生产，基于对模型精度和效率两方面的要求，本发明将模型进一步蒸馏，以达到兼顾效率与精度的目的。

模型蒸馏，也被称为知识蒸馏，是指将教师网络的知识教给学生网络，让学生网络可以获得和教师网络更接近的模型性能，而另一方面学生网络一般选用更为轻量的骨干，所以效率会比教师网络更快。此外，模型蒸馏还有互相学习的训练方法，通过多个学生模型在同一个教师模型的监督下同时训练，互相监督，可以有效提高训练效果。

对于检测识别的基础模型，本发明还针对更加追求精度与耗时的工业场景上，进行仿工业场景数据集合成，以预训练得到更适用的基础模型。

考虑到在工业光源打光下，工业相机拍摄出的照片光照很相似，所以即使检测识别场景不同，直接通过其他行业线拍摄的图片作为背景来学习也是可行的，且行业线众多，背景图丰富，所以将这部分图片的关键区域截取出来，再从不同角度截取同样大小的图片，可以形成丰富的背景图库。提取背景还有另一种方法：直接从图片中切块“抹去”文本部分，考虑到光照并不均匀，从两端切出同样大小的矩形块，按照距离两端的tiles数量进行加权，再通过高斯滤波使得图片更加平滑。

如图9所示，本发明通过合成仿工业场景方式得到数据集预训练基础模型，采集各种工业场景图片，截取识别的关键区域，得到背景图库，将文字变换后粘贴到背景图，合成为图片构成数据集。

合成仿工业场景方式包括以下步骤：

1)文本生成，为了确保文本足够丰富多样，选用了几十种字体，文本的内容通过在需要训练的字符中随机生成，长度从5-25不等。通过生成足够多的样本，确保字符的分布均匀与全面多样。

2)背景裁切，从之前制作出的背景图中随机裁剪出高度一致的小块，用于后续将文本打印在上面，随机裁剪可以获得不同光照角度和强度的各种背景图，有利于丰富数据集。

3)合成图片，将这部分背景小块分为明暗两个部分，在暗色背景上随机生成像素值在230-255的文字，在亮色背景上随机生成像素值在0-25之间的文字。

因为一些字符之间非常相似，在不同场景不同字体下可能几乎一样，所以对这部分字符进行了去除，比如大写的I，O等，以及一些大小写非常接近的字符，比如C和c等。

4)在合成图片随机生成文字时进行数据增强，包括：

制造文本间隔仿造工业场景中经常出现的空格情况；

通过扩充边界模拟检测部分效果不佳的情况；

通过横竖线条污染仿造工业场景中有时出现的干扰情况；

通过浮雕效果仿造工业场景中有时出现的文本凹凸情况；

本发明主要是在针对更加追求精度与耗时的工业场景上，通过现有的工业图集训练出更加准确的基础模型，并通过基础模型+迁移模型+蒸馏模型三级处理方法解决复杂困难图集上精度不够的问题。在工业场景下不需要过多的图集就可以在短时间内训练出更准确的模型，及时投入生产，操作成本低。

Claims

1.一种基于改进深度学习OCR的工业文本检测识别方法，其特征是通过分级式训练检测识别模型，对工业检测场景下文本进行识别，采集工业检测现场的文本图片，将图片分为训练集和验证集，训练集用于分级式训练，验证集用于检验每轮训练效果，具体为：以预训练的文本检测模型为基础模型，由验证集进行检验，如果基础模型达不到所要求的识别精度，则将现场采集的文本图片进行标注后作为训练集，在基础模型基础上冻结特征层，通过迁移学习继续训练，提升精度，如果仍未达到所要求的识别精度，再通过蒸馏学习继续训练，提升精度。

2.根据权利要求1所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是蒸馏学习训练后仍未达到所要求的识别精度，则将蒸馏学习中的教室模型替换为迁移模型继续训练。

3.根据权利要求1或2所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是通过合成仿工业场景方式得到数据集预训练基础模型，采集各种工业场景图片，截取识别的关键区域，得到背景图库，将文字变换后粘贴到背景图，合成为图片构成数据集。

4.根据权利要求3所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是合成仿工业场景方式包括以下步骤：

4)在合成图片随机生成文字时进行数据增强，包括：

制造文本间隔仿造工业场景中经常出现的空格情况；

通过扩充边界模拟检测部分效果不佳的情况；

通过横竖线条污染仿造工业场景中有时出现的干扰情况；

通过浮雕效果仿造工业场景中有时出现的文本凹凸情况；