CN112115949B

CN112115949B - 一种烟草证件以及订单的光学文字识别方法

Info

Publication number: CN112115949B
Application number: CN202011018802.7A
Authority: CN
Inventors: 龙涛
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-05-28
Anticipated expiration: 2040-09-24
Also published as: CN112115949A

Abstract

本发明公开一种烟草证件以及订单的光学文字识别方法，它包括训练阶段和推理阶段，训练阶段采集用于训练的烟草证件以及订单的训练图片，通过算法处理后送入神经网络中训练，获得光学文字识别预训练模型，推理阶段则将采集的待识别图片经过处理后送入光学文字识别预训练模型中，得到推理结果，对推理结果进行结构化分类，得到不同的文字内容最终得到不同要素的内容信息。本发明利用少量数据即可训练神经网络，且能够有效提高识别的精准度，极大地提升烟草证件及订单录入的效率，从而赋能烟草零售。

Description

一种烟草证件以及订单的光学文字识别方法

技术领域

本发明属于机器视觉技术领域，具体来说，涉及一种利用特征提取和机器学习技术对烟草证件以及订单上的文字进行高精度识别的方法。

背景技术

我国烟草零售监管需要对零售商的相关烟草证件进行查验核对，这需要监管部门人工对零售商持有的证件信息进行手工录入。在大规模的查验中，人工录入的方法存在效率低，准确率稳定性难以得到保证等问题。同样地，在烟草库存管理和追踪中，需要将大量的烟草订单信息录入及计算机，人工录入的方式难以快速、准确地将相关信息录入至计算机中。因此需要一种高精度的自动化信息录入方式。

采用光学文字识别能够对烟草证件以及订单图片中的文字信息进行提取，并根据结构化要素录入到计算机的技术，其可以实现自动，快速的信息录入。然而，目前的光学文字识别大多采用深度学习的方式，需要大量数据对神经网络进行训练迭代。烟草行业与传统行业不同，难以找到大量的烟草证件以及订单信息供网络训练使用，故网络难以学习到准确的特征信息，难以获得较高的识别精度。为解决以上问题，需要一种不需要大量数据训练，便可达到高精度识别的方法。

发明内容

针对现有技术存在的烟草行业训练样本少导致识别精度差的问题，本发明提供了一种低训练样本、鲁棒、高精度的烟草证件以及订单的文字识别方法，该识别方法不需要依赖大量数据作为训练样本，同样也能够达到较高的识别精度。

为实现上述技术目的，本发明采用的技术方案如下：

一种烟草证件以及订单的光学文字识别方法，包括如下步骤：

1)、采集用于训练的烟草证件及订单的训练图片；

2)、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息；

3)、随机抽取步骤2)中获得的特征信息作为特征图送入生成对抗网络中，生成数据母版；

4)、将步骤3)中获得的数据母版送入目标检测网络中，获得文字区域；

5)、将步骤4)中得到的文字区域作为感兴趣区域添加相应的文字信息，从而获得母版生成图像群；

6)、将步骤5)获得的母版生成图像群进行随机伸缩和透视变换，进行明暗调整后得到增强后的虚拟图像群；

7)、将步骤6)中获得的虚拟图像群与真实图像群作为数据一同送入神经网络中训练，获得光学文字识别预训练模型；

8)、采集烟草证件及订单的待识别图片；

9)、将步骤8)中采集的待识别图片送入目标检测网络中，得到证件内容区域四边形角点信息，并计算得到透视矩阵；

10)、利用步骤9)中得到的透视矩阵将待识别图片进行透视变换，使得证件的有效内容区域充满整个屏幕，进行明暗调整后得到新的待识别图片；

11)、将步骤10)中得到的新的待识别图片送入步骤7)中的光学文字识别预训练模型中，得到推理结果；

12)、对步骤11)中的推理结果进行结构化分类，得到不同的文字内容最终得到不同要素的内容信息。

进一步限定，步骤1)与步骤8)中所采集的训练图片和待识别图片分辨率不得小于800×600，步骤1)中的训练图片数量不小于50张。

进一步限定，所述步骤2)中卷积神经网络采用深度残差网络。

进一步限定，步骤3)中的生成对抗网络为深度卷积生成对抗网络。

进一步限定，步骤4)中的目标检测网络采用预训练的YOLO模型。

进一步限定，步骤5)中的文字信息从本地数据库中随机抽取生成，文字信息的添加使用OpenCV开源库。

进一步限定，步骤6)中所述透视变换使用OpenCV库，所述步骤6)和步骤10)中的明暗调整过程具体为：先对图片的全局像素进行测光计算，从而得到一个表征图片曝光程度的变量L，其中L的计算公式如下：

其中，i∈[0,W),j∈[0,H),c∈[0,C),n＝W×H×C，H为图像的长度，W为图像的宽度，C为图像的通道数，p(i,j,c)指图片通道中坐标位置为(i,j)的像素值；

记明暗调整后的曝光量为L₀，其满足L₀＝L±dL，其中dL是随机选择的；

则明暗调整过程中图片每个像素的变化值dp满足：

dp＝255L₀-p(i,j,c)

将图片中每个像素加上dp便可得到明暗调整后的图片。

本申请相比现有技术，旨在利用少量真实数据，模拟生成大量与真实数据相仿，内容各异的模拟数据供神经网络训练，从而使神经网络可以学习到准确的特征信息，从而有效提高烟草证件及订单光学文字识别的精准度。经测试，本发明在800*600分辨率下，识别准确率高达98％，识别速度为12帧，数据输出波动性小于1％，可以高速便捷地替代人工完成烟草证件及订单的识别及录入工作。

附图说明

图1为本申请一种烟草证件以及订单的文字识别流程图；

图2为本申请训练阶段的流程图；

图3为本申请推理阶段的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

图1示出了一种烟草证件以及订单的文字识别方法流程图，包括训练阶段和推理阶段，图2示出了训练阶段的流程图，图3示出了推理阶段的流程图。本申请中训练阶段使用较少的训练数据即可完成网络的训练使其学习到稳定准确的特征信息，具体过程如下：

S1：通过高清摄像头采集烟草证件及订单的照片作为训练图片，训练图片分辨率最好不得小于800×600，训练图片数量不小于50张。

现有技术中对图像的识别一般都要选取几百上千张有明显差异的图片作为样本进行训练，本申请所需训练图片数量大大低于一般对样本数据的要求。

S2、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息，其中所述卷积神经网络采用深度残差网络算法，该算法是由来自微软研究院的4位学者提出的卷积神经网络，其可以提取高度抽象的图像CNN特征信息，本申请使用50层残差网络提取高度抽象的特征作为我们母版生成的参考信息。

S3：随机抽取图像的特征信息作为特征图送入生成对抗网络中，生成GAN数据母版。其中生成对抗网络为深度卷积生成对抗网络，可以根据特征生成与真实图像特征高度相似的合成图像。

S4：将获得的数据母版送入目标检测网络中，获得文字区域，其中目标检测网络采用预训练的YOLO(目标检测网络)模型，其可以快速获得文字区域。

S5：将得到的文字区域作为感兴趣区域(ROI，region of interest)添加相应的文字信息，从而获得母版生成图像群。感兴趣区域是图像处理中从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，这里的文字信息从本地数据库中随机抽取生成，文字信息的添加使用OpenCV(开源计算机视觉库)开源库。

S6：将获得的母版生成图像群进行随机伸缩和透视变换，进行明暗调整后得到增强后的虚拟图像群。所述透视变换使用OpenCV库，明暗调整具体方法为：

为了使得图片曝光准确，先对图片的全局像素进行测光计算，从而得到一个表征图片曝光程度的变量L，其中L的计算公式如下：

其中，i∈[0,W),j∈[0,H),c∈[0,C),n＝W×H×C，H为图像的长度，W为图像的宽度，C为图像的通道数，p(i,j,c)指图片通道中坐标位置为(i,j)的像素值。

设明暗调整后的曝光量为L₀，其满足L₀＝L±dL，其中dL是随机选择的，则明暗调整过程中图片每个像素的变化值dp通过如下公式计算：

dp＝255L₀-p(i,j,c)

将母版生成图像群中每张图片中每个像素加上dp即可得到明暗调整后的图片。

S7：将虚拟图像群与真实图像群作为数据一同送入神经网络中训练，获得光学文字识别(OCR)预训练模型。

上述OCR预训练模型可以通过不断增加有效的训练图片来提升模型的准确率。

推理阶段：

所谓推理(Inference)，即是将学习训练成果投入使用的过程，具体过程如下：

S8：通过高清摄像头采集烟草证件及订单的待识别图片，同样地，所采集的待识别图片分辨率不得小于800×600。

S9：将采集的待识别图片送入目标检测网络中，得到证件内容区域四边形角点信息，并由此计算得到透视矩阵。

S10：利用透视矩阵将将待识别图片进行透视变换，使得证件的有效内容区域充满整个屏幕，并进行明暗调整，得到新的待识别图片。其中本步骤中的明暗调整与步骤S60中的具体明暗调整方法相同。

S11：将新的待识别图片送入训练阶段得到的光学文字识别预训练模型中，得到推理结果；

S12：对推理结果进行结构化分类，得到不同的文字内容最终得到不同要素的内容信息。比如在烟草证件以及订单识别出字号名、经营者姓名、供货单位、许可证号、经营场所以及店名等信息。

本申请先是通过较少的训练数据完成训练使其学习到稳定准确的特征信息，获得相应的OCR预训练模型，然后通过该OCR预训练模型识别烟草证件以及订单中的文字信息，该方法具有良好的泛化能力。

以上对本申请提供的一种烟草证件以及订单的光学文字识别方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种烟草证件以及订单的光学文字识别方法，其特征在于，包括如下步骤：

1)、采集用于训练的烟草证件及订单的训练图片；

8)、采集烟草证件及订单的待识别图片；

12)、对步骤11)中的推理结果进行结构化分类，得到不同的文字内容最终得到不同要素的内容信息；

步骤6)中所述透视变换使用OpenCV库，所述步骤6)和步骤10)中的明暗调整过程具体为：先对图片的全局像素进行测光计算，从而得到一个表征图片曝光程度的变量L，其中L的计算公式如下：

其中，i∈[0,W),j∈[0,H),c∈[0,C),n＝W×H×C,H为图像的长度，W为图像的宽度，C为图像的通道数，p(i,j,c)指图片通道中坐标位置为(i,j)的像素值；

则明暗调整过程中图片每个像素的变化值dp满足：

dp＝255L₀-p(i,j,c)

将图片中每个像素加上dp便可得到明暗调整后的图片。

2.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法，其特征在于，步骤1)与步骤8)中所采集的训练图片和待识别图片分辨率不得小于800×600，步骤1)中的训练图片数量不小于50张。

3.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法，其特征在于，所述步骤2)中卷积神经网络采用深度残差网络。

4.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法，其特征在于，步骤3)中的生成对抗网络为深度卷积生成对抗网络。

5.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法，其特征在于，步骤4)中的目标检测网络采用预训练的YOLO模型。

6.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法，其特征在于，步骤5)中的文字信息从本地数据库中随机抽取生成，文字信息的添加使用OpenCV开源库。