CN111507349B - 一种ocr识别模型训练中的动态数据增强方法 - Google Patents
一种ocr识别模型训练中的动态数据增强方法 Download PDFInfo
- Publication number
- CN111507349B CN111507349B CN202010294700.1A CN202010294700A CN111507349B CN 111507349 B CN111507349 B CN 111507349B CN 202010294700 A CN202010294700 A CN 202010294700A CN 111507349 B CN111507349 B CN 111507349B
- Authority
- CN
- China
- Prior art keywords
- data
- initial training
- training data
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种OCR识别模型训练中的动态数据增强方法,步骤:S1:对原始数据进行标注处理,形成初始训练数据;S2:对初始训练数据进行文本识别的模型训练,获得文本识别模型;S3:在模型训练中使用文本识别模型对初始训练数据进行评估,划分不同类型,并根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合转到步骤S5,不符合继续;S4:对设定类型的初始训练数据进行数据增强处理,与没有进行数据增强处理的其他类型的初始训练数据,作为下一轮的初始训练数据,返回步骤S2;S5:对每一轮文本识别模型的评估中,根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则认为已经形成目标模型,结束训练。
Description
技术领域
本发明涉及一种OCR识别方法,尤其是涉及一种OCR识别模型训练中的动态数据增强方法。
背景技术
使用数据增强技术主要是在训练数据上增加微小的扰动或者变化,一方面可以增加训练数据,提升模型的泛化能力,另一方面可以增加噪声数据,从而增加模型的鲁棒性。
针对OCR文本数据增强,目前主要有两种思路:I.采用基于几何变换的方法(如空间几何变换、像素颜色变换、模糊)的固定组合或者随机组合对已有的训练样本进行数据增强,获取更为丰富的样本;II.由于OCR识别文本的内容非常广泛,如票据和行驶证中姓名和医院中的生僻字,通过样本的图像变换并不能增加该类样本的多样性,因此需要利用样本合成的思路进行数据增强,从而获得生僻字对应的训练样本。
发明内容
本发明提供了一种OCR识别模型训练中的动态数据增强方法,用于解决OCR识别模型训练的文本数据增强方式,通过深度学习中结合离线增强和在线增强来提升模型的泛化能力,从而克服以下问题:
(1)目前的数据增强都是在训练模型之前操作的,训练集通常是十万甚至百万数量级别,这对计算机的存储能力有很高的要求;
(2)在训练模型之前进行数据增强具有一定的盲目性,数据增强的目的不仅是获得更多数量的训练样本,而是获得和真实样本更像的更多数量的样本。
其技术方案如下所述:
一种OCR识别模型训练中的动态数据增强方法,包括下列步骤:
S1:对原始数据进行标注处理,形成初始训练数据,全部的初始训练数据作为总样本数据;
S2:对初始训练数据进行文本识别的模型训练,获得文本识别模型;
S3:在模型训练的过程中,使用文本识别模型对初始训练数据进行评估,将初始训练数据划分不同类型,并根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则转到步骤S5,如果不符合则继续向下处理;
S4:对设定类型的初始训练数据进行数据增强处理,然后与没有进行数据增强处理的其他类型的初始训练数据,作为下一轮的初始训练数据,返回步骤S2;
S5:对每一轮文本识别模型的评估中,根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则认为已经形成目标模型,结束训练。
进一步的,步骤S1中,所述原始数据是将多行文本图片按照每行的排布进行分割处理,将多行文本图片切成的长条的文本图片。
步骤S1中,每个长条的文本图片和其对应标注的文字形成一个初始训练数据。
进一步的,步骤S3中,所述评估是使用文本识别模型与初始训练数据对应标注的文字进行比对。
步骤S3中,初始训练数据在模型训练中的连续识别错误超过设定次数,划为困难级别的数据,否则为简单级别的数据。
进一步的,步骤S4中的数据增强处理包括以下步骤:
S41:统计困难级别的初始训练数据的文本信息,使用OpenCV的putText方法,绘制对应文本的原始干净图像;
S42:对原始干净图像进行增强处理,获得增强后的困难级别的初始训练数据。
步骤S42中的增强处理包括:(1)空间几何变换类处理;(2)模糊类处理;(3)像素颜色变换类处理;(4)边界变换类处理。
进一步的,步骤S4中,简单级别的初始训练数据,进行如步骤S42的增强处理后,再加入到训练数据的队列中正常进行训练。
进一步的,步骤S1中,所述初始训练数据采用单个字的图片和其对应标注文字。
进一步的,步骤S5中,困难级别的数据的设定占比,设定为少于10%。
所述OCR识别模型训练中的动态数据增强方法是面向文本检测的信息整理方法,具有以下优点:
(1)在训练模型之前进行图像几何和颜色类的变换,获取分布更具有广泛性的样本,通过样本和成的方法,可以解决实际测试样本中的生僻字及印章、竖线干扰的问题。
(2)在训练的过程中动态的进行数据增强,可以提高模型对于检测效果的鲁棒性。
(3)本发明结合了训练之前的离线增强和训练过程中的动态增强,不仅减少了样本在本地的存储空间,提高了训练样本的丰富性及模型的学习能力和鲁棒性,使文本的识别率更高!
附图说明
图1是所述OCR识别模型训练中的动态数据增强方法的流程示意图。
具体实施方式
深度学习是基于大数据的一种方法,因此深度学习网络的表现一般是和数据量成正比的,使用者当然希望数据的规模越大、质量越高越好,模型才有更好的泛化能力,但是在实际采集数据的过程中,往往很难覆盖全部的场景,此外数据的获取也需要大量的成本,而数据增强是扩充数据样本规模的一种有效方法。目前数据增强可以分为两类,一类是离线增强,一类是在线增强。
本发明提供的OCR识别模型训练中的动态数据增强方法,是结合离线和在线的增强方法,能够对文本数据进行更有效的增强,如图1所示,包括以下步骤:
S1:对原始数据进行标注处理,形成初始训练数据;
对于存在多行文本的文本图片,按照每行的排布进行分割处理,将文本图片切成长条,形成原始数据。
对每个长条的文本图片标注出对应的文字,每个长条的文本图片和其对应的文字形成一个初始训练数据,所有长条的文本图片和标注出的对应文字形成全部的初始训练数据,并作为总样本数据。
S2:对初始训练数据进行文本识别的模型训练,获得文本识别模型;
对长条的文本图片进行文本识别,然后将识别后的文字对应保存,形成文本识别模型。
S3:在模型训练的过程中,使用文本识别模型对初始训练数据进行评估,将初始训练数据划分不同类型,并根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则转到步骤S5,如果不符合则继续向下处理;
评估是使用文本识别模型与初始训练数据对应标注的文字进行比对,如果比对符合,则说明该初始训练数据为容易识别的,如果不符合,说明该初始训练数据需要重新识别。
其中,模型训练是多次的训练次数,次数可以设定n1,每次模型训练获取的文本识别模型都会与对应标注的文字进行比对,如果初始训练数据在模型训练中的连续识别错误超过设定次数n2,且n2小于n1,比如可以设定n2为10次,则连续识别错误低于10次的初始训练数据被划为简单级别的数据,连续识别错误不小于10次的初始训练数据被划为困难级别的数据。
S4:对设定类型的初始训练数据进行数据增强处理,然后与没有进行数据增强处理的其他类型的初始训练数据,作为下一轮的初始训练数据,返回步骤S2;
比如简单级别的初始训练数据,可以直接加入到训练数据的队列中正常进行训练;而困难级别的初始训练数据会进行数据增强处理后,再加入到训练数据的队列中正常进行训练。
S5:对每一轮文本识别模型的评估中,根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则认为已经形成目标模型;
所述困难级别的数据的设定占比,设定为少于10%,这样当初始训练数据达到易错样本占总样本数据的比例小于10%时,则认为符合目标模型的需求,停止训练,不再进入步骤S4,得到的训练数据作为目标训练数据。
进一步的,步骤S4中,困难级别的初始训练数据进行的数据增强处理包括以下几个步骤:
S41:统计困难级别的初始训练数据的文本信息,使用OpenCV的putText方法,绘制对应文本的原始干净图像;
所述原始干净图像是干净、无干扰、只有黑色文字的图像。
所述OpenCV的putText方法支持将某个字体库里文本对应的字绘制在某张图片上。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
OpenCV用C++语言编写,它的主要接口也是C++语言,但是依然保留了大量的C语言接口。该库也有大量的Python、Java and MATLAB/OCTAVE(版本2.5)的接口。这些语言的API接口函数可以通过在线文档获得。如今也提供对于C#、Ch、Ruby,GO的支持。OpenCV致力于真实世界的实时应用,通过优化的C代码的编写对其执行速度带来了可观的提升,并且可以通过购买Intel的IPP高性能多媒体函数库(Integrated Performance Primitives)得到更快的处理速度。右图为OpenCV与当前其他主流视觉函数库的性能比较。opencv中除了提供绘制各种图形的函数外,还提供了一个特殊的绘制函数——在图像上绘制文字。这个函数即是cv::putText()。
S42:对原始干净图像进行增强处理,获得增强后的困难级别的初始训练数据。
增强处理包括以下几种方法:
S421:空间几何变换类:对文本图片进行水平和垂直的翻转、随机裁剪、旋转、平移变换、仿射变换、透视变换。
S422:模糊类处理:如高斯模糊处理。
S423:像素颜色变换类处理:色彩抖动(RGB值做随机的增减)处理、对比度增强处理、高斯和椒盐噪声处理。
S424:边界变换类处理:样本锐化处理、样本浮雕处理。
通过以上处理后,将增强后的困难级别的初始训练数据,加入到训练数据的队列中正常进行训练,从而提高生僻字、易错字的准确率,提高复杂环境下的准确率。
进一步的,本发明中总样本数据采用的初始训练数据,除了可以使用长条的文本图片和标注出的对应文字,也可以针对单个字的图片和其对应文字。
并且,所述简单级别的初始训练数据,除了可以直接加入到训练数据的队列中正常进行训练,也可以进行如步骤S42的增强处理后,再加入到训练数据的队列中正常进行训练。
所述OCR识别模型训练中的动态数据增强方法可以解决实际测试样本中的生僻字及印章、竖线干扰的问题,可以提高模型对于检测效果的鲁棒性,减少样本在本地的存储空间,提高训练样本的丰富性及模型的学习能力和鲁棒性,使文本的识别率更高。
Claims (8)
1.一种OCR识别模型训练中的动态数据增强方法,包括下列步骤:
S1:对原始数据进行标注处理,形成初始训练数据,全部的初始训练数据作为总样本数据;
S2:对初始训练数据进行文本识别的模型训练,获得文本识别模型;
S3:在模型训练的过程中,使用文本识别模型对初始训练数据进行评估,将初始训练数据划分不同类型,并根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则转到步骤S5,如果不符合则继续向下处理;其中,初始训练数据在模型训练中的连续识别错误超过设定次数,划为困难级别的数据,否则为简单级别的数据;
S4:对设定类型的初始训练数据进行数据增强处理,然后与没有进行数据增强处理的其他类型的初始训练数据,作为下一轮的初始训练数据,返回步骤S2;
其中,数据增强处理包括以下步骤:
S41:统计困难级别的初始训练数据的文本信息,使用OpenCV的putText方法,绘制对应文本的原始干净图像;
S42:对原始干净图像进行增强处理,获得增强后的困难级别的初始训练数据;
S5:对每一轮文本识别模型的评估中,根据评估结果判断初始训练数据的不同类型占比是否符合设定占比条件,符合则认为已经形成目标模型,结束训练。
2.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S1中,所述原始数据是将多行文本图片按照每行的排布进行分割处理,将多行文本图片切成的长条的文本图片。
3.根据权利要求2所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S1中,每个长条的文本图片和其对应标注的文字形成一个初始训练数据。
4.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S3中,所述评估是使用文本识别模型与初始训练数据对应标注的文字进行比对。
5.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S42中的增强处理包括:(1)空间几何变换类处理;(2)模糊类处理;(3)像素颜色变换类处理;(4)边界变换类处理。
6.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S4中,简单级别的初始训练数据,进行如步骤S42的增强处理后,再加入到训练数据的队列中正常进行训练。
7.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S1中,所述初始训练数据采用单个字的图片和其对应标注文字。
8.根据权利要求1所述的OCR识别模型训练中的动态数据增强方法,其特征在于:步骤S5中,困难级别的数据的设定占比,设定为少于10%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294700.1A CN111507349B (zh) | 2020-04-15 | 2020-04-15 | 一种ocr识别模型训练中的动态数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294700.1A CN111507349B (zh) | 2020-04-15 | 2020-04-15 | 一种ocr识别模型训练中的动态数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507349A CN111507349A (zh) | 2020-08-07 |
CN111507349B true CN111507349B (zh) | 2023-05-23 |
Family
ID=71874245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010294700.1A Active CN111507349B (zh) | 2020-04-15 | 2020-04-15 | 一种ocr识别模型训练中的动态数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507349B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464781B (zh) * | 2020-11-24 | 2023-06-02 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN112580696A (zh) * | 2020-12-03 | 2021-03-30 | 星宏传媒有限公司 | 一种基于视频理解的广告标签分类方法、系统及设备 |
CN112560846B (zh) * | 2020-12-23 | 2022-03-15 | 北京百度网讯科技有限公司 | 纠错语料的生成方法、装置及电子设备 |
CN113095400A (zh) * | 2021-04-09 | 2021-07-09 | 安徽芯纪元科技有限公司 | 一种用于机器视觉缺陷检测的深度学习模型训练方法 |
CN115035510B (zh) * | 2022-08-11 | 2022-11-15 | 深圳前海环融联易信息科技服务有限公司 | 文本识别模型训练方法、文本识别方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN110674815A (zh) * | 2019-09-29 | 2020-01-10 | 四川长虹电器股份有限公司 | 基于深度学习关键点检测的发票图像畸变校正方法 |
CN110837870A (zh) * | 2019-11-12 | 2020-02-25 | 东南大学 | 基于主动学习的声呐图像目标识别方法 |
CN110837832A (zh) * | 2019-11-08 | 2020-02-25 | 深圳市深视创新科技有限公司 | 基于深度学习网络的快速ocr识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10515265B2 (en) * | 2016-12-27 | 2019-12-24 | Captricity, Inc. | Generating variations of a known shred |
US10936863B2 (en) * | 2017-11-13 | 2021-03-02 | Way2Vat Ltd. | Systems and methods for neuronal visual-linguistic data retrieval from an imaged document |
-
2020
- 2020-04-15 CN CN202010294700.1A patent/CN111507349B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN110674815A (zh) * | 2019-09-29 | 2020-01-10 | 四川长虹电器股份有限公司 | 基于深度学习关键点检测的发票图像畸变校正方法 |
CN110837832A (zh) * | 2019-11-08 | 2020-02-25 | 深圳市深视创新科技有限公司 | 基于深度学习网络的快速ocr识别方法 |
CN110837870A (zh) * | 2019-11-12 | 2020-02-25 | 东南大学 | 基于主动学习的声呐图像目标识别方法 |
Non-Patent Citations (1)
Title |
---|
徐富勇 ; .基于注意力增强网络的场景文字识别.现代计算机.2020,(第09期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111507349A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507349B (zh) | 一种ocr识别模型训练中的动态数据增强方法 | |
US20200210773A1 (en) | Neural network for image multi-label identification, related method, medium and device | |
CN111563502B (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
US8750619B2 (en) | Character recognition | |
CN111626297A (zh) | 文字书写质量评价方法、装置、电子设备和记录介质 | |
CN111291840A (zh) | 一种学生课堂行为识别系统、方法、介质及终端设备 | |
CN110443235B (zh) | 一种智能纸质试卷总分识别方法及系统 | |
CN111563512A (zh) | 一种答案自动涂抹的方法、装置、电子设备及存储介质 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
Suponenkovs et al. | Application of image recognition and machine learning technologies for payment data processing review and challenges | |
Smelyakov et al. | Effectiveness of Modern Text Recognition Solutions and Tools for Common Data Sources. | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN116012860B (zh) | 一种基于图像识别的教师板书设计水平诊断方法及装置 | |
CN112836467B (zh) | 一种图像处理方法及装置 | |
Atasoy et al. | Webcam based real-time robust optical mark recognition | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
Surong et al. | Application and effect simulation of image recognition technology based on machine vision feature parameters in art teaching | |
CN108573253B (zh) | 车牌字符二值图的生成方法 | |
Morita et al. | Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments | |
CN113139533B (zh) | 一种快速识别手写矢量的方法及装置、介质和设备 | |
CN110610194B (zh) | 一种针对少量数据视频分类任务的数据增强方法 | |
Sharma | Traffic Sign Recognition & Detection using Transfer learning | |
CN111161250B (zh) | 一种多尺度遥感图像密集房屋检测方法及装置 | |
Castro et al. | Restoration of double-sided ancient music documents with bleed-through |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing Applicant after: Beijing Shenzhi Hengji Technology Co.,Ltd. Address before: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing Applicant before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |