CN112115949B - 一种烟草证件以及订单的光学文字识别方法 - Google Patents

一种烟草证件以及订单的光学文字识别方法 Download PDF

Info

Publication number
CN112115949B
CN112115949B CN202011018802.7A CN202011018802A CN112115949B CN 112115949 B CN112115949 B CN 112115949B CN 202011018802 A CN202011018802 A CN 202011018802A CN 112115949 B CN112115949 B CN 112115949B
Authority
CN
China
Prior art keywords
training
picture
tobacco
network
orders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011018802.7A
Other languages
English (en)
Other versions
CN112115949A (zh
Inventor
龙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aimo Technology Co ltd
Original Assignee
Shenzhen Aimo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aimo Technology Co ltd filed Critical Shenzhen Aimo Technology Co ltd
Priority to CN202011018802.7A priority Critical patent/CN112115949B/zh
Publication of CN112115949A publication Critical patent/CN112115949A/zh
Application granted granted Critical
Publication of CN112115949B publication Critical patent/CN112115949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种烟草证件以及订单的光学文字识别方法,它包括训练阶段和推理阶段,训练阶段采集用于训练的烟草证件以及订单的训练图片,通过算法处理后送入神经网络中训练,获得光学文字识别预训练模型,推理阶段则将采集的待识别图片经过处理后送入光学文字识别预训练模型中,得到推理结果,对推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息。本发明利用少量数据即可训练神经网络,且能够有效提高识别的精准度,极大地提升烟草证件及订单录入的效率,从而赋能烟草零售。

Description

一种烟草证件以及订单的光学文字识别方法
技术领域
本发明属于机器视觉技术领域,具体来说,涉及一种利用特征提取和机器学习技术对烟草证件以及订单上的文字进行高精度识别的方法。
背景技术
我国烟草零售监管需要对零售商的相关烟草证件进行查验核对,这需要监管部门人工对零售商持有的证件信息进行手工录入。在大规模的查验中,人工录入的方法存在效率低,准确率稳定性难以得到保证等问题。同样地,在烟草库存管理和追踪中,需要将大量的烟草订单信息录入及计算机,人工录入的方式难以快速、准确地将相关信息录入至计算机中。因此需要一种高精度的自动化信息录入方式。
采用光学文字识别能够对烟草证件以及订单图片中的文字信息进行提取,并根据结构化要素录入到计算机的技术,其可以实现自动,快速的信息录入。然而,目前的光学文字识别大多采用深度学习的方式,需要大量数据对神经网络进行训练迭代。烟草行业与传统行业不同,难以找到大量的烟草证件以及订单信息供网络训练使用,故网络难以学习到准确的特征信息,难以获得较高的识别精度。为解决以上问题,需要一种不需要大量数据训练,便可达到高精度识别的方法。
发明内容
针对现有技术存在的烟草行业训练样本少导致识别精度差的问题,本发明提供了一种低训练样本、鲁棒、高精度的烟草证件以及订单的文字识别方法,该识别方法不需要依赖大量数据作为训练样本,同样也能够达到较高的识别精度。
为实现上述技术目的,本发明采用的技术方案如下:
一种烟草证件以及订单的光学文字识别方法,包括如下步骤:
1)、采集用于训练的烟草证件及订单的训练图片;
2)、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息;
3)、随机抽取步骤2)中获得的特征信息作为特征图送入生成对抗网络中,生成数据母版;
4)、将步骤3)中获得的数据母版送入目标检测网络中,获得文字区域;
5)、将步骤4)中得到的文字区域作为感兴趣区域添加相应的文字信息,从而获得母版生成图像群;
6)、将步骤5)获得的母版生成图像群进行随机伸缩和透视变换,进行明暗调整后得到增强后的虚拟图像群;
7)、将步骤6)中获得的虚拟图像群与真实图像群作为数据一同送入神经网络中训练,获得光学文字识别预训练模型;
8)、采集烟草证件及订单的待识别图片;
9)、将步骤8)中采集的待识别图片送入目标检测网络中,得到证件内容区域四边形角点信息,并计算得到透视矩阵;
10)、利用步骤9)中得到的透视矩阵将待识别图片进行透视变换,使得证件的有效内容区域充满整个屏幕,进行明暗调整后得到新的待识别图片;
11)、将步骤10)中得到的新的待识别图片送入步骤7)中的光学文字识别预训练模型中,得到推理结果;
12)、对步骤11)中的推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息。
进一步限定,步骤1)与步骤8)中所采集的训练图片和待识别图片分辨率不得小于800×600,步骤1)中的训练图片数量不小于50张。
进一步限定,所述步骤2)中卷积神经网络采用深度残差网络。
进一步限定,步骤3)中的生成对抗网络为深度卷积生成对抗网络。
进一步限定,步骤4)中的目标检测网络采用预训练的YOLO模型。
进一步限定,步骤5)中的文字信息从本地数据库中随机抽取生成,文字信息的添加使用OpenCV开源库。
进一步限定,步骤6)中所述透视变换使用OpenCV库,所述步骤6)和步骤10)中的明暗调整过程具体为:先对图片的全局像素进行测光计算,从而得到一个表征图片曝光程度的变量L,其中L的计算公式如下:
其中,i∈[0,W),j∈[0,H),c∈[0,C),n=W×H×C,H为图像的长度,W为图像的宽度,C为图像的通道数,p(i,j,c)指图片通道中坐标位置为(i,j)的像素值;
记明暗调整后的曝光量为L0,其满足L0=L±dL,其中dL是随机选择的;
则明暗调整过程中图片每个像素的变化值dp满足:
dp=255L0-p(i,j,c)
将图片中每个像素加上dp便可得到明暗调整后的图片。
本申请相比现有技术,旨在利用少量真实数据,模拟生成大量与真实数据相仿,内容各异的模拟数据供神经网络训练,从而使神经网络可以学习到准确的特征信息,从而有效提高烟草证件及订单光学文字识别的精准度。经测试,本发明在800*600分辨率下,识别准确率高达98%,识别速度为12帧,数据输出波动性小于1%,可以高速便捷地替代人工完成烟草证件及订单的识别及录入工作。
附图说明
图1为本申请一种烟草证件以及订单的文字识别流程图;
图2为本申请训练阶段的流程图;
图3为本申请推理阶段的流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
图1示出了一种烟草证件以及订单的文字识别方法流程图,包括训练阶段和推理阶段,图2示出了训练阶段的流程图,图3示出了推理阶段的流程图。本申请中训练阶段使用较少的训练数据即可完成网络的训练使其学习到稳定准确的特征信息,具体过程如下:
S1:通过高清摄像头采集烟草证件及订单的照片作为训练图片,训练图片分辨率最好不得小于800×600,训练图片数量不小于50张。
现有技术中对图像的识别一般都要选取几百上千张有明显差异的图片作为样本进行训练,本申请所需训练图片数量大大低于一般对样本数据的要求。
S2、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息,其中所述卷积神经网络采用深度残差网络算法,该算法是由来自微软研究院的4位学者提出的卷积神经网络,其可以提取高度抽象的图像CNN特征信息,本申请使用50层残差网络提取高度抽象的特征作为我们母版生成的参考信息。
S3:随机抽取图像的特征信息作为特征图送入生成对抗网络中,生成GAN数据母版。其中生成对抗网络为深度卷积生成对抗网络,可以根据特征生成与真实图像特征高度相似的合成图像。
S4:将获得的数据母版送入目标检测网络中,获得文字区域,其中目标检测网络采用预训练的YOLO(目标检测网络)模型,其可以快速获得文字区域。
S5:将得到的文字区域作为感兴趣区域(ROI,region of interest)添加相应的文字信息,从而获得母版生成图像群。感兴趣区域是图像处理中从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,这里的文字信息从本地数据库中随机抽取生成,文字信息的添加使用OpenCV(开源计算机视觉库)开源库。
S6:将获得的母版生成图像群进行随机伸缩和透视变换,进行明暗调整后得到增强后的虚拟图像群。所述透视变换使用OpenCV库,明暗调整具体方法为:
为了使得图片曝光准确,先对图片的全局像素进行测光计算,从而得到一个表征图片曝光程度的变量L,其中L的计算公式如下:
其中,i∈[0,W),j∈[0,H),c∈[0,C),n=W×H×C,H为图像的长度,W为图像的宽度,C为图像的通道数,p(i,j,c)指图片通道中坐标位置为(i,j)的像素值。
设明暗调整后的曝光量为L0,其满足L0=L±dL,其中dL是随机选择的,则明暗调整过程中图片每个像素的变化值dp通过如下公式计算:
dp=255L0-p(i,j,c)
将母版生成图像群中每张图片中每个像素加上dp即可得到明暗调整后的图片。
S7:将虚拟图像群与真实图像群作为数据一同送入神经网络中训练,获得光学文字识别(OCR)预训练模型。
上述OCR预训练模型可以通过不断增加有效的训练图片来提升模型的准确率。
推理阶段:
所谓推理(Inference),即是将学习训练成果投入使用的过程,具体过程如下:
S8:通过高清摄像头采集烟草证件及订单的待识别图片,同样地,所采集的待识别图片分辨率不得小于800×600。
S9:将采集的待识别图片送入目标检测网络中,得到证件内容区域四边形角点信息,并由此计算得到透视矩阵。
S10:利用透视矩阵将将待识别图片进行透视变换,使得证件的有效内容区域充满整个屏幕,并进行明暗调整,得到新的待识别图片。其中本步骤中的明暗调整与步骤S60中的具体明暗调整方法相同。
S11:将新的待识别图片送入训练阶段得到的光学文字识别预训练模型中,得到推理结果;
S12:对推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息。比如在烟草证件以及订单识别出字号名、经营者姓名、供货单位、许可证号、经营场所以及店名等信息。
本申请先是通过较少的训练数据完成训练使其学习到稳定准确的特征信息,获得相应的OCR预训练模型,然后通过该OCR预训练模型识别烟草证件以及订单中的文字信息,该方法具有良好的泛化能力。
以上对本申请提供的一种烟草证件以及订单的光学文字识别方法进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (6)

1.一种烟草证件以及订单的光学文字识别方法,其特征在于,包括如下步骤:
1)、采集用于训练的烟草证件及订单的训练图片;
2)、将采集到的训练图片通过卷积神经网络中获得图片群的特征信息;
3)、随机抽取步骤2)中获得的特征信息作为特征图送入生成对抗网络中,生成数据母版;
4)、将步骤3)中获得的数据母版送入目标检测网络中,获得文字区域;
5)、将步骤4)中得到的文字区域作为感兴趣区域添加相应的文字信息,从而获得母版生成图像群;
6)、将步骤5)获得的母版生成图像群进行随机伸缩和透视变换,进行明暗调整后得到增强后的虚拟图像群;
7)、将步骤6)中获得的虚拟图像群与真实图像群作为数据一同送入神经网络中训练,获得光学文字识别预训练模型;
8)、采集烟草证件及订单的待识别图片;
9)、将步骤8)中采集的待识别图片送入目标检测网络中,得到证件内容区域四边形角点信息,并计算得到透视矩阵;
10)、利用步骤9)中得到的透视矩阵将待识别图片进行透视变换,使得证件的有效内容区域充满整个屏幕,进行明暗调整后得到新的待识别图片;
11)、将步骤10)中得到的新的待识别图片送入步骤7)中的光学文字识别预训练模型中,得到推理结果;
12)、对步骤11)中的推理结果进行结构化分类,得到不同的文字内容最终得到不同要素的内容信息;
步骤6)中所述透视变换使用OpenCV库,所述步骤6)和步骤10)中的明暗调整过程具体为:先对图片的全局像素进行测光计算,从而得到一个表征图片曝光程度的变量L,其中L的计算公式如下:
其中,i∈[0,W),j∈[0,H),c∈[0,C),n=W×H×C,H为图像的长度,W为图像的宽度,C为图像的通道数,p(i,j,c)指图片通道中坐标位置为(i,j)的像素值;
记明暗调整后的曝光量为L0,其满足L0=L±dL,其中dL是随机选择的;
则明暗调整过程中图片每个像素的变化值dp满足:
dp=255L0-p(i,j,c)
将图片中每个像素加上dp便可得到明暗调整后的图片。
2.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,步骤1)与步骤8)中所采集的训练图片和待识别图片分辨率不得小于800×600,步骤1)中的训练图片数量不小于50张。
3.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,所述步骤2)中卷积神经网络采用深度残差网络。
4.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,步骤3)中的生成对抗网络为深度卷积生成对抗网络。
5.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,步骤4)中的目标检测网络采用预训练的YOLO模型。
6.根据权利要求1所述的一种烟草证件以及订单的光学文字识别方法,其特征在于,步骤5)中的文字信息从本地数据库中随机抽取生成,文字信息的添加使用OpenCV开源库。
CN202011018802.7A 2020-09-24 2020-09-24 一种烟草证件以及订单的光学文字识别方法 Active CN112115949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011018802.7A CN112115949B (zh) 2020-09-24 2020-09-24 一种烟草证件以及订单的光学文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011018802.7A CN112115949B (zh) 2020-09-24 2020-09-24 一种烟草证件以及订单的光学文字识别方法

Publications (2)

Publication Number Publication Date
CN112115949A CN112115949A (zh) 2020-12-22
CN112115949B true CN112115949B (zh) 2024-05-28

Family

ID=73800719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011018802.7A Active CN112115949B (zh) 2020-09-24 2020-09-24 一种烟草证件以及订单的光学文字识别方法

Country Status (1)

Country Link
CN (1) CN112115949B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080076433A (ko) * 2007-02-16 2008-08-20 하순호 해마 신경망 학습 알고리즘을 이용한 문자인식방법 및시스템
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统
CN111291619A (zh) * 2020-01-14 2020-06-16 支付宝(杭州)信息技术有限公司 一种在线识别理赔单据中文字的方法、装置及客户端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080076433A (ko) * 2007-02-16 2008-08-20 하순호 해마 신경망 학습 알고리즘을 이용한 문자인식방법 및시스템
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统
CN111291619A (zh) * 2020-01-14 2020-06-16 支付宝(杭州)信息技术有限公司 一种在线识别理赔单据中文字的方法、装置及客户端

Also Published As

Publication number Publication date
CN112115949A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN108428229A (zh) 一种基于深度神经网络提取表观和几何特征的肺部纹理识别方法
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN111325203A (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110765907A (zh) 一种基于深度学习的视频中试卷纸质文档信息提取系统及方法
CN111967313B (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN112686258A (zh) 体检报告信息结构化方法、装置、可读存储介质和终端
CN114140665A (zh) 一种基于改进YOLOv5的密集小目标检测方法
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN111680577A (zh) 人脸检测方法和装置
CN104484679B (zh) 非制式枪射击弹头痕迹图像自动识别方法
CN117422970A (zh) 基于YOLOv8改进的缺陷PCB检测方法
CN114998905A (zh) 一种复杂结构化文档内容的校验方法、装置与设备
CN110728269A (zh) 一种高铁接触网支柱杆号牌识别方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN112200182A (zh) 基于深度学习的晶圆id识别方法和装置
CN112115949B (zh) 一种烟草证件以及订单的光学文字识别方法
CN110443277A (zh) 基于注意力模型的少量样本分类方法
CN115909493A (zh) 一种面向课堂实录视频的教师不当手势检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Long Tao

Inventor before: Yang Heng

Inventor before: Long Tao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant