CN110610175A

CN110610175A - 一种ocr数据误标注清洗方法

Info

Publication number: CN110610175A
Application number: CN201910723109.0A
Authority: CN
Inventors: 张欢; 李爱林; 张仕洋; 周先得
Original assignee: Shenzhen Huafu Information Technology Co Ltd
Current assignee: Shenzhen Huafu Information Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-12-24

Abstract

本发明公开的属于OCR数据清洗技术领域，具体为一种OCR数据误标注清洗方法，该OCR数据误标注清洗方法的具体步骤如下：S1：人工对文本框和字符进行标注，S2：训练文本定位模型，S3：用文本定位模型对训练数据进行文本框定位，S4：输出IoU低的样本人工复查修正，训练集中发生标注错误的样本一般只是整个集合较小的一部分，相对于人工复核的全盘检查，本方法能够自动筛除掉大部分不需清查的样本，只需人工复核小部分样本，省时省力；相对于人工复核大量样本时可能造成疲劳出错的情况，训练得当的模型对错误样本的筛查能力会更强，得益于人工待清查样本数量的减少，最终清洗质量也会提高。

Description

一种OCR数据误标注清洗方法

技术领域

本发明涉及OCR数据清洗技术领域，具体为一种OCR数据误标注清洗方法。

背景技术

OCR数据标注是一项繁琐易错的工作，当标注样本数量过大，标注人员技术良莠不齐时，经常会有数据标注错误的情况出现，有些是文本框的位置标注错误，如标错了文本框的属性或是标注边框时没有很好的贴合文本。有些是字符发生标注错误，在工作量较大时，标注员手动输入字符信息出错是比较常见的现象。在实际算法设计时，错误数据会对算法的效果造成不同程度的影响。

现有方法之一是采取人工复核的方法，在安排数个人标注的同时安排其他人员对这些人的标注结果进行复核，清洗标注错误的样本。但由于复核本身也要浏览一遍复杂的票面信息，工作量比标注少不了多少，且同样容易出现纰漏。

发明内容

本发明的目的在于提供一种OCR数据误标注清洗方法，以解决上述背景技术中提出的现有方法之一是采取人工复核的方法，在安排数个人标注的同时安排其他人员对这些人的标注结果进行复核，清洗标注错误的样本。但由于复核本身也要浏览一遍复杂的票面信息，工作量比标注少不了多少，且同样容易出现纰漏的问题。

为实现上述目的，本发明提供如下技术方案：一种OCR数据误标注清洗方法，该OCR数据误标注清洗方法的具体步骤如下：

S1：人工对文本框和字符进行标注：通过人工预先对需要处理的文本框和字符输入标注处理；

S2：训练文本定位模型：用原始标注数据训练一个文本定位模型，文本定位模型包括但不限于用深度学习方法或传统机器学习方法训练得来的模型；

S3：用文本定位模型对训练数据进行文本框定位：用训练好的文本定位模型对训练数据进行文本框预测，并求出每个文本框的标注框与模型输出预测框的交并比IoU，大部分标注良好的样本IoU会接近1，标注不好的样本IoU则会接近0；

S4：输出IoU低的样本人工复查修正：设定一个阈值，对于包含IoU比较低标注框的样本，统一收集交由人工复查修改，对于模型预测失误造成的IoU过低情况不用处理，只修改标注不良的样本；

S5：用清洗后的文本框标注信息重新裁剪制作字符识别模型训练数据：S4中人工处理完成后，得到清理完成的文本框标注数据，该文本框标注数据用于文本定位模型的再次训练；

S6：训练字符识别模型：用原始字符识别训练数据来训练字符识别模型；

S7：用训练好的字符识别模型对训练数据进行字符识别：与文本定位模型情况相似，字符标注如果发生错误，与文本识别模型输出字符串则大概率是不同的，因此，将字符标注信息与模型预测信息进行比对可以有效筛选出可能标注错误的数据；

S8：输出结果与标注不一致的样本人工复查修正：不一致数据中有的是模型识别错误造成，有的是标注错误造成，人工只需修正标注错误即可，修正完成后即可得到清洗好的数据。

优选的，所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据，用现有的所有字符数据先训练一个字符识别模型，训练手段包括但不限于深度学习或传统机器学习方法，识别方式包括但不限于单字识别或者多字识别。

优选的，所述IoU的计算公式为：

优选的，所述S6中训练字符识别模型的训练数据由两部分得来，一是通用字符图像数据库，二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。

优选的，所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。

与现有技术相比，本发明的有益效果是：

1)训练集中发生标注错误的样本一般只是整个集合较小的一部分，相对于人工复核的全盘检查，本方法能够自动筛除掉大部分不需清查的样本，只需人工复核小部分样本，省时省力；

2)相对于人工复核大量样本时可能造成疲劳出错的情况，训练得当的模型对错误样本的筛查能力会更强，得益于人工待清查样本数量的减少，最终清洗质量也会提高。

附图说明

图1为本发明清洗方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例：

请参阅图1，本发明提供一种技术方案：一种OCR数据误标注清洗方法，该OCR数据误标注清洗方法的具体步骤如下：

OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

OCR任务一般由两部分组成，文本定位与文本识别，文本定位是文本识别的基础，因此要先对文本定位的训练数据(文本框标注)进行清理，这样做可以减少因文本框标注错误而引发的后续问题

S3：用文本定位模型对训练数据进行文本框定位：用训练好的文本定位模型对训练数据进行文本框预测，并求出每个文本框的标注框与模型输出预测框的交并比IoU，在基础数据足够多、训练方法正确、模型没有发生过拟合的情况下(建议使用深度学习方法训练模型，容易达到此要求)，少量甚至一定量的误标注数据不会对算法模型的性能产生根本上的影响，此时模型仍有基本正确的文本框定位能力，误标注的文本框和预测框会有比较大的差别并在IoU上体现出来，大部分标注良好的样本IoU会接近1，标注不好的样本IoU则会接近0；

S5：用清洗后的文本框标注信息重新裁剪制作字符识别模型训练数据：S4中人工处理完成后，得到清理完成的文本框标注数据，该文本框标注数据用于文本定位模型的再次训练，得益于标注可靠性的提高，再次训练后的模型性能将会更好；

利用所训练模型本身对训练数据有一定的筛选能力，先分出标注与预测结果不一致的样本再交由人工复查修正，具有以下特点：

清洗效率高：训练集中发生标注错误的样本一般只是整个集合较小的一部分，相对于人工复核的全盘检查，本方法能够自动筛除掉大部分不需清查的样本，只需人工复核小部分样本，省时省力。

清洗效果好：相对于人工复核大量样本时可能造成疲劳出错的情况，训练得当的模型对错误样本的筛查能力会更强，得益于人工待清查样本数量的减少，最终清洗质量也会提高。

所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据，用现有的所有字符数据先训练一个字符识别模型，训练手段包括但不限于深度学习或传统机器学习方法，识别方式包括但不限于单字识别或者多字识别，由于第一步的清洗，已经避免了大部分由于文本框标注失误造成的字符脏数据。

所述IoU的计算公式为：

所述S6中训练字符识别模型的训练数据由两部分得来，一是通用字符图像数据库，二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。

所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。

应用：用于财务工作中票据字符的位置是否正确检测和票据字符的正确与否检测。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种OCR数据误标注清洗方法，其特征在于：该OCR数据误标注清洗方法的具体步骤如下：

2.根据权利要求1所述的一种OCR数据误标注清洗方法，其特征在于：所述S6中用S4中人工复查修正后的文本框裁剪并制作字符识别训练数据，用现有的所有字符数据先训练一个字符识别模型，训练手段包括但不限于深度学习或传统机器学习方法，识别方式包括但不限于单字识别或者多字识别。

3.根据权利要求1所述的一种OCR数据误标注清洗方法，其特征在于：所述IoU的计算公式为：

4.根据权利要求1所述的一种OCR数据误标注清洗方法，其特征在于：所述S6中训练字符识别模型的训练数据由两部分得来，一是通用字符图像数据库，二是在自己拥有的OCR图像数据上根据文本标注框裁剪下来的字符数据。

5.根据权利要求1所述的一种OCR数据误标注清洗方法，其特征在于：所述S8中修正完成后得到的清洗好的数据用于字符识别模型的再次训练。