CN110610175A - 一种ocr数据误标注清洗方法 - Google Patents

一种ocr数据误标注清洗方法 Download PDF

Info

Publication number
CN110610175A
CN110610175A CN201910723109.0A CN201910723109A CN110610175A CN 110610175 A CN110610175 A CN 110610175A CN 201910723109 A CN201910723109 A CN 201910723109A CN 110610175 A CN110610175 A CN 110610175A
Authority
CN
China
Prior art keywords
data
model
text
samples
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910723109.0A
Other languages
English (en)
Inventor
张欢
李爱林
张仕洋
周先得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huafu Information Technology Co Ltd
Original Assignee
Shenzhen Huafu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huafu Information Technology Co Ltd filed Critical Shenzhen Huafu Information Technology Co Ltd
Priority to CN201910723109.0A priority Critical patent/CN110610175A/zh
Publication of CN110610175A publication Critical patent/CN110610175A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Abstract

本发明公开的属于OCR数据清洗技术领域,具体为一种OCR数据误标注清洗方法,该OCR数据误标注清洗方法的具体步骤如下:S1:人工对文本框和字符进行标注,S2:训练文本定位模型,S3:用文本定位模型对训练数据进行文本框定位,S4:输出IoU低的样本人工复查修正,训练集中发生标注错误的样本一般只是整个集合较小的一部分,相对于人工复核的全盘检查,本方法能够自动筛除掉大部分不需清查的样本,只需人工复核小部分样本,省时省力;相对于人工复核大量样本时可能造成疲劳出错的情况,训练得当的模型对错误样本的筛查能力会更强,得益于人工待清查样本数量的减少,最终清洗质量也会提高。

Description

一种OCR数据误标注清洗方法
技术领域
本发明涉及OCR数据清洗技术领域,具体为一种OCR数据误标注清洗方法。
背景技术
OCR数据标注是一项繁琐易错的工作,当标注样本数量过大,标注人员技术良莠不齐时,经常会有数据标注错误的情况出现,有些是文本框的位置标注错误,如标错了文本框的属性或是标注边框时没有很好的贴合文本。有些是字符发生标注错误,在工作量较大时,标注员手动输入字符信息出错是比较常见的现象。在实际算法设计时,错误数据会对算法的效果造成不同程度的影响。
现有方法之一是采取人工复核的方法,在安排数个人标注的同时安排其他人员对这些人的标注结果进行复核,清洗标注错误的样本。但由于复核本身也要浏览一遍复杂的票面信息,工作量比标注少不了多少,且同样容易出现纰漏。
发明内容
本发明的目的在于提供一种OCR数据误标注清洗方法,以解决上述背景技术中提出的现有方法之一是采取人工复核的方法,在安排数个人标注的同时安排其他人员对这些人的标注结果进行复核,清洗标注错误的样本。但由于复核本身也要浏览一遍复杂的票面信息,工作量比标注少不了多少,且同样容易出现纰漏的问题。
为实现上述目的,本发明提供如下技术方案:一种OCR数据误标注清洗方法,该OCR数据误标注清洗方法的具体步骤如下:
S1:人工对文本框和字符进行标注:通过人工预先对需要处理的文本框和字符输入标注处理;
S2:训练文本定位模型:用原始标注数据训练一个文本定位模型,文本定位模型包括但不限于用深度学习方法或传统机器学习方法训练得来的模型;
S3:用文本定位模型对训练数据进行文本框定位:用训练好的文本定位模型对训练数据进行文本框预测,并求出每个文本框的标注框与模型输出预测框的交并比IoU,大部分标注良好的样本IoU会接近1,标注不好的样本IoU则会接近0;
S4:输出IoU低的样本人工复查修正:设定一个阈值,对于包含IoU比较低标注框的样本,统一收集交由人工复查修改,对于模型预测失误造成的IoU过低情况不用处理,只修改标注不良的样本;
S5:用清洗后的文本框标注信息重新裁剪制作字符识别模型训练数据:S4中人工处理完成后,得到清理完成的文本框标注数据,该文本框标注数据用于文本定位模型的再次训练;
S6:训练字符识别模型:用原始字符识别训练数据来训练字符识别模型;
S7:用训练好的字符识别模型对训练数据进行字符识别:与文本定位模型情况相似,字符标注如果发生错误,与文本识别模型输出字符串则大概率是不同的,因此,将字符标注信息与模型预测信息进行比对可以有效筛选出可能标注错误的数据;
S8:输出结果与标注不一致的样本人工复查修正:不一致数据中有的是模型识别错误造成,有的是标注错误造成,人工只需修正标注错误即可,修正完成后即可得到清洗好的数据。
优选的,所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据,用现有的所有字符数据先训练一个字符识别模型,训练手段包括但不限于深度学习或传统机器学习方法,识别方式包括但不限于单字识别或者多字识别。
优选的,所述IoU的计算公式为:
优选的,所述S6中训练字符识别模型的训练数据由两部分得来,一是通用字符图像数据库,二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。
优选的,所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。
与现有技术相比,本发明的有益效果是:
1)训练集中发生标注错误的样本一般只是整个集合较小的一部分,相对于人工复核的全盘检查,本方法能够自动筛除掉大部分不需清查的样本,只需人工复核小部分样本,省时省力;
2)相对于人工复核大量样本时可能造成疲劳出错的情况,训练得当的模型对错误样本的筛查能力会更强,得益于人工待清查样本数量的减少,最终清洗质量也会提高。
附图说明
图1为本发明清洗方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例:
请参阅图1,本发明提供一种技术方案:一种OCR数据误标注清洗方法,该OCR数据误标注清洗方法的具体步骤如下:
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR任务一般由两部分组成,文本定位与文本识别,文本定位是文本识别的基础,因此要先对文本定位的训练数据(文本框标注)进行清理,这样做可以减少因文本框标注错误而引发的后续问题
S1:人工对文本框和字符进行标注:通过人工预先对需要处理的文本框和字符输入标注处理;
S2:训练文本定位模型:用原始标注数据训练一个文本定位模型,文本定位模型包括但不限于用深度学习方法或传统机器学习方法训练得来的模型;
S3:用文本定位模型对训练数据进行文本框定位:用训练好的文本定位模型对训练数据进行文本框预测,并求出每个文本框的标注框与模型输出预测框的交并比IoU,在基础数据足够多、训练方法正确、模型没有发生过拟合的情况下(建议使用深度学习方法训练模型,容易达到此要求),少量甚至一定量的误标注数据不会对算法模型的性能产生根本上的影响,此时模型仍有基本正确的文本框定位能力,误标注的文本框和预测框会有比较大的差别并在IoU上体现出来,大部分标注良好的样本IoU会接近1,标注不好的样本IoU则会接近0;
S4:输出IoU低的样本人工复查修正:设定一个阈值,对于包含IoU比较低标注框的样本,统一收集交由人工复查修改,对于模型预测失误造成的IoU过低情况不用处理,只修改标注不良的样本;
S5:用清洗后的文本框标注信息重新裁剪制作字符识别模型训练数据:S4中人工处理完成后,得到清理完成的文本框标注数据,该文本框标注数据用于文本定位模型的再次训练,得益于标注可靠性的提高,再次训练后的模型性能将会更好;
S6:训练字符识别模型:用原始字符识别训练数据来训练字符识别模型;
S7:用训练好的字符识别模型对训练数据进行字符识别:与文本定位模型情况相似,字符标注如果发生错误,与文本识别模型输出字符串则大概率是不同的,因此,将字符标注信息与模型预测信息进行比对可以有效筛选出可能标注错误的数据;
S8:输出结果与标注不一致的样本人工复查修正:不一致数据中有的是模型识别错误造成,有的是标注错误造成,人工只需修正标注错误即可,修正完成后即可得到清洗好的数据。
利用所训练模型本身对训练数据有一定的筛选能力,先分出标注与预测结果不一致的样本再交由人工复查修正,具有以下特点:
清洗效率高:训练集中发生标注错误的样本一般只是整个集合较小的一部分,相对于人工复核的全盘检查,本方法能够自动筛除掉大部分不需清查的样本,只需人工复核小部分样本,省时省力。
清洗效果好:相对于人工复核大量样本时可能造成疲劳出错的情况,训练得当的模型对错误样本的筛查能力会更强,得益于人工待清查样本数量的减少,最终清洗质量也会提高。
所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据,用现有的所有字符数据先训练一个字符识别模型,训练手段包括但不限于深度学习或传统机器学习方法,识别方式包括但不限于单字识别或者多字识别,由于第一步的清洗,已经避免了大部分由于文本框标注失误造成的字符脏数据。
所述IoU的计算公式为:
所述S6中训练字符识别模型的训练数据由两部分得来,一是通用字符图像数据库,二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。
所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。
应用:用于财务工作中票据字符的位置是否正确检测和票据字符的正确与否检测。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种OCR数据误标注清洗方法,其特征在于:该OCR数据误标注清洗方法的具体步骤如下:
S1:人工对文本框和字符进行标注:通过人工预先对需要处理的文本框和字符输入标注处理;
S2:训练文本定位模型:用原始标注数据训练一个文本定位模型,文本定位模型包括但不限于用深度学习方法或传统机器学习方法训练得来的模型;
S3:用文本定位模型对训练数据进行文本框定位:用训练好的文本定位模型对训练数据进行文本框预测,并求出每个文本框的标注框与模型输出预测框的交并比IoU,大部分标注良好的样本IoU会接近1,标注不好的样本IoU则会接近0;
S4:输出IoU低的样本人工复查修正:设定一个阈值,对于包含IoU比较低标注框的样本,统一收集交由人工复查修改,对于模型预测失误造成的IoU过低情况不用处理,只修改标注不良的样本;
S5:用清洗后的文本框标注信息重新裁剪制作字符识别模型训练数据:S4中人工处理完成后,得到清理完成的文本框标注数据,该文本框标注数据用于文本定位模型的再次训练;
S6:训练字符识别模型:用原始字符识别训练数据来训练字符识别模型;
S7:用训练好的字符识别模型对训练数据进行字符识别:与文本定位模型情况相似,字符标注如果发生错误,与文本识别模型输出字符串则大概率是不同的,因此,将字符标注信息与模型预测信息进行比对可以有效筛选出可能标注错误的数据;
S8:输出结果与标注不一致的样本人工复查修正:不一致数据中有的是模型识别错误造成,有的是标注错误造成,人工只需修正标注错误即可,修正完成后即可得到清洗好的数据。
2.根据权利要求1所述的一种OCR数据误标注清洗方法,其特征在于:所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据,用现有的所有字符数据先训练一个字符识别模型,训练手段包括但不限于深度学习或传统机器学习方法,识别方式包括但不限于单字识别或者多字识别。
3.根据权利要求1所述的一种OCR数据误标注清洗方法,其特征在于:所述IoU的计算公式为:
4.根据权利要求1所述的一种OCR数据误标注清洗方法,其特征在于:所述S6中训练字符识别模型的训练数据由两部分得来,一是通用字符图像数据库,二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。
5.根据权利要求1所述的一种OCR数据误标注清洗方法,其特征在于:所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。
CN201910723109.0A 2019-08-06 2019-08-06 一种ocr数据误标注清洗方法 Pending CN110610175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723109.0A CN110610175A (zh) 2019-08-06 2019-08-06 一种ocr数据误标注清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723109.0A CN110610175A (zh) 2019-08-06 2019-08-06 一种ocr数据误标注清洗方法

Publications (1)

Publication Number Publication Date
CN110610175A true CN110610175A (zh) 2019-12-24

Family

ID=68890474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723109.0A Pending CN110610175A (zh) 2019-08-06 2019-08-06 一种ocr数据误标注清洗方法

Country Status (1)

Country Link
CN (1) CN110610175A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027640A (zh) * 2019-12-25 2020-04-17 厦门市美亚柏科信息股份有限公司 一种视频数据的标注方法、装置、终端设备及存储介质
CN111444945A (zh) * 2020-03-20 2020-07-24 北京每日优鲜电子商务有限公司 样本信息过滤方法、装置、计算机设备及存储介质
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法
CN113434491A (zh) * 2021-06-18 2021-09-24 深圳市曙光信息技术有限公司 面向深度学习ocr识别的字模数据清洗方法、系统及介质
CN116303382A (zh) * 2023-02-10 2023-06-23 重庆见芒信息技术咨询服务有限公司 一种多维大数据清洗方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
US20190147239A1 (en) * 2017-04-11 2019-05-16 Ping An Technology (Shenzhen) Co., Ltd. Method, device and server for recognizing characters of claim document, and storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147239A1 (en) * 2017-04-11 2019-05-16 Ping An Technology (Shenzhen) Co., Ltd. Method, device and server for recognizing characters of claim document, and storage medium
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027640A (zh) * 2019-12-25 2020-04-17 厦门市美亚柏科信息股份有限公司 一种视频数据的标注方法、装置、终端设备及存储介质
CN111444945A (zh) * 2020-03-20 2020-07-24 北京每日优鲜电子商务有限公司 样本信息过滤方法、装置、计算机设备及存储介质
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法
CN113033380B (zh) * 2021-03-23 2024-03-26 金科览智科技(北京)有限公司 一种文本标注方法
CN113434491A (zh) * 2021-06-18 2021-09-24 深圳市曙光信息技术有限公司 面向深度学习ocr识别的字模数据清洗方法、系统及介质
CN113434491B (zh) * 2021-06-18 2022-09-02 深圳市曙光信息技术有限公司 面向深度学习ocr识别的字模数据清洗方法、系统及介质
CN116303382A (zh) * 2023-02-10 2023-06-23 重庆见芒信息技术咨询服务有限公司 一种多维大数据清洗方法和系统

Similar Documents

Publication Publication Date Title
CN110610175A (zh) 一种ocr数据误标注清洗方法
US11645826B2 (en) Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
CN103488711B (zh) 一种快速制作矢量字库的方法及系统
CN110751143A (zh) 一种电子发票信息的提取方法及电子设备
CN111709349A (zh) 一种针对带表格合同的ocr识别方法
CN109241894A (zh) 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN103995904B (zh) 一种影像档案电子资料的识别系统
CN109190630A (zh) 字符识别方法
CN114005123A (zh) 一种印刷体文本版面数字化重建系统及方法
CN110717492B (zh) 基于联合特征的图纸中字符串方向校正方法
US11379690B2 (en) System to extract information from documents
CN110647956A (zh) 一种联合二维码识别的发票信息提取方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
CN111539417B (zh) 一种基于深度神经网络的文本识别训练优化方法
US20220036063A1 (en) Document information extraction for computer manipulation
CN113901933A (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN110796210A (zh) 一种标签信息的识别方法及装置
CN116740723A (zh) 一种基于开源Paddle框架的PDF文档识别方法
CN115543915A (zh) 人事档案目录自动化建库方法及系统
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN115063784A (zh) 票据图像的信息提取方法和装置、存储介质及电子设备
CN115457585A (zh) 作业批改的处理方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination