CN112288039B

CN112288039B - 一种用于ocr模型训练的样本标注方法及系统

Info

Publication number: CN112288039B
Application number: CN202011355381.7A
Authority: CN
Inventors: 宛侠; 夏光子; 黄贤俊; 侯进
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Beijing Shenzhi Hengji Technology Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2024-01-23
Anticipated expiration: 2040-11-26
Also published as: CN112288039A

Abstract

本发明公开了一种用于OCR模型训练的样本标注方法及系统，包括：获取原始样本；从原始样本中选出部分样本，进行标题区域的“画框”和“打字”，并训练得到标题模型；基于标题模型对原始样本进行预处理，得到不同标题的分类样本；从分类样本中选出部分样本，进行样本中所有文本的“画框”，并训练得到初版检测模型；基于初版检测模型对该标题的分类样本进行预处理，得到带有检测框的初版检测分类样本；从初版检测分类样本中选出部分样本，进行检测框质检调整，并训练得到再版检测模型；基于再版检测模型对该标题的分类样本进行预处理，得到带有检测框的再版检测分类样本；利用识别模型对再版检测分类样本预处理出文本识别样本。

Description

一种用于OCR模型训练的样本标注方法及系统

技术领域

本发明涉及样本标注技术领域，具体涉及一种用于OCR模型训练的样本标注方法及系统。

背景技术

OCR模型是图片识别为文本的常用识别模型，OCR模型的识别精度取决于训练样本的数量以及每个样本的标注质量。

现有的OCR模型的训练需要人工对整张票据或其他图片样本的文本以“行”为单位进行“画框”及“打字”，如图1所示；同时，需进行大量样本的“画框”及“打字”。

现有的标注生产方法通常耗时较长、所需人力较多；标注员对票据等样本的标注存在非常多的重复性的工作，时间过长难免出现视觉上的疲劳从而导致产出样本质量的下降，质检周期较长，整体标注成本过高。

发明内容

针对现有技术中存在的上述问题，本发明提供一种用于OCR模型训练的样本标注方法及系统，其提高了标注的数据质量以及标注效率。

本发明公开了一种用于OCR模型训练的样本标注方法，包括：

获取原始样本；

从所述原始样本中选出部分样本，进行标题区域的“画框”和“打字”，并训练得到标题模型；

基于所述标题模型对所述原始样本进行预处理，得到不同标题的分类样本；

从每个标题的分类样本中选出部分样本，进行样本中所有文本的“画框”，并训练得到初版检测模型；

基于所述初版检测模型对该标题的分类样本进行预处理，得到带有检测框的初版检测分类样本；

从所述初版检测分类样本中选出部分样本，进行检测框质检调整，并训练得到再版检测模型；

基于所述再版检测模型对该标题的分类样本进行预处理，得到带有检测框的再版检测分类样本；

当所述再版检测分类样本的检测框满足要求后，利用识别模型对再版检测分类样本预处理出文本识别样本。

作为本发明的进一步改进，在利用所述标题模型对所述原始数据进行预处理后，还包括：

对每个标题的分类数据进行清洗质检处理，得到模板统一的分类数据。

作为本发明的进一步改进，还包括：

判断所述再版检测分类样本的检测框是否在标准检测框的范围内；

若在范围内，则所述再版检测分类样本的检测框满足要求；

若不在范围内，则所述再版检测分类样本的检测框不满足要求。

作为本发明的进一步改进，当所述再版检测分类样本的检测框不满足要求，则增大从分类样本或初版检测分类样本中选出的部分样本的数量，并进行训练。

作为本发明的进一步改进，从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1％～5％。

作为本发明的进一步改进，还包括：

对满足要求的再版检测分类样本的检测框进行检测框质检调整；

调整后，利用识别模型对再版检测分类样本预处理出文本识别样本。

作为本发明的进一步改进，所述检测框质检调整的方法，包括：

调整一列文本的检测框；

与该列文本平齐的一列或多列文本，采用与调节后检测框对齐的方式调整检测框。

作为本发明的进一步改进，所述利用识别模型对再版检测分类样本预处理出文本识别样本，包括：

利用识别模型预处理再版检测分类样本；

从处理后的再版检测分类样本中选出部分样本进行“打字”标注，得到文本识别样本。

作为本发明的进一步改进，还包括：

整理药品名称存入医保库；

标注人员进行打字时，工具会自动从医保局中关联相似或类似药品名称。

本发明还公开了一种实现上述样本标注方法的系统，包括：

采集模块，用于获取原始样本；

第一训练模块，用于从所述原始样本中选出部分样本，进行标题区域的“画框”和“打字”，并训练得到标题模型；

第一处理模块，用于基于所述标题模型对所述原始样本进行预处理，得到不同标题的分类样本；

第二训练模块，用于从每个标题的分类样本中选出部分样本，进行样本中所有文本的“画框”，并训练得到初版检测模型；

第二处理模块，用于基于所述初版检测模型对该标题的分类样本进行预处理，得到带有检测框的初版检测分类样本；

第三训练模块，用于从所述初版检测分类样本中选出部分样本，进行检测框质检调整，并训练得到再版检测模型；

第三处理模块，用于基于所述再版检测模型对该标题的分类样本进行预处理，得到带有检测框的再版检测分类样本；

识别模块，用于当所述再版检测分类样本的检测框满足要求后，利用识别模型对再版检测分类样本预处理出文本识别样本。

与现有技术相比，本发明的有益效果为：

本发明的标注方法及系统可节约标注人力成本，节省标注生产周期，提升标注数据质量，使数据生产流程清晰，实现数据与算法更大程度的融合。

附图说明

图1为现有对整张票据的标注的示意图；

图2为本发明一种实施例公开的样本标注方法的流程图；

图3为本发明一种实施例公开的样本标注系统的框架图；

图4～图6为不同省(市)的票据差异图；

图7～图9为实施例1的票据示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

本发明的目的为：一个OCR模型的检测及识别效果通常需要大量的样本作为基础，如何更好的保证标注后的数据质量以及提升标注过程中的效率，减少更多的人力成本，最终实现数据质量的统一和安全管理。

为此，如图1所示，本发明提供一种用于OCR模型训练的样本标注方法，包括：

步骤1、获取大量的原始样本；

其中，该样本可为票据等，获取的原始样本数量为可数万张；

步骤2、从原始样本中选出部分样本，进行标题区域的“画框”和“打字”，并训练得到标题模型；

其中，本发明通过训练标题模型可方便对原始样本进行分类，选出的部分样本的数量优选为样本总数的1％～5％；

例如，不同省(市)的医院报销票据不同，但同省(市)的医院报销票据多为一致；因此，可按照地域将将大量的票据进行分类，方便后期针对同一省(市)医院报销票据的统一处理。

步骤3、基于标题模型对原始样本进行预处理，得到不同标题的分类样本；

其中，由于同一省(市)的医院报销票据也可能存在模板的不一致，因此，在利用标题模型对原始样本进行预处理，实现按标题的自动分类后；还包括通过人工对每个标题的分类数据进行清洗质检处理，得到同一省(市)的模板统一的票据。

步骤4、从每个标题的分类样本中选出部分样本，进行样本中所有文本的人工“画框”，并训练得到初版检测模型；

其中，本发明选出的部分样本的数量优选为样本总数的1％～5％，降低人工处理量；

步骤5、基于初版检测模型对该标题的所有分类样本进行预处理，得到带有检测框的初版检测分类样本；

其中，上述步骤4、5处理方法中通过选用少量的部分样本来训练出初版检测模型，基于初版检测模型自动处理出带有检测框的初版检测分类样本，降低人工处理量；

步骤6、从所有初版检测分类样本中选出部分样本，进行检测框质检调整，并训练得到再版检测模型；

检测框质检调整的方法，包括：调整一列文本的检测框；与该列文本平齐的一列或多列文本，采用与调节后检测框对齐的方式调整检测框。

步骤7、基于再版检测模型对该标题的所有分类样本进行再处理，得到带有检测框的再版检测分类样本；

其中，上述步骤6、7处理方法中通过选用少量的部分样本进行人工调整检测框，并进一步来训练出再版检测模型，基于再版检测模型自动处理出带有检测框的再版检测分类样本，降低人工处理量；

步骤8、判断，再版检测分类样本的检测框是否在标准检测框的范围内；其中，上述判断可为人工判断或通过程序自动判断，可设定标准检测框，若再版检测分类样本的检测框在标准检测框的范围内内，则，再版检测分类样本的检测框满足要求；若不在范围内，则，再版检测分类样本的检测框不满足要求；

步骤9、当再版检测分类样本的检测框满足要求时，进行检测框质检调整，利用识别模型对再版检测分类样本预处理出文本识别样本；

当，再版检测分类样本的检测框不满足要求，则增大从分类样本或初版检测分类样本中选出的部分样本的数量，并进行训练。

进一步，，利用识别模型对再版检测分类样本预处理出文本识别样本，包括：利用识别模型预处理再版检测分类样本；从处理后的再版检测分类样本中选出部分样本进行“打字”标注，得到文本识别样本。

进一步，还包括：整理药品名称存入医保库；标注人员进行打字时，工具会自动从医保局中关联相似或类似药品名称。

如图3所示，本发明提供一种实现上述样本标注方法的系统，包括：

采集模块，用于实现上述步骤1；

第一训练模块，用于实现上述步骤2；

第一处理模块，用于实现上述步骤3；

第二训练模块，用于实现上述步骤4；

第二处理模块，用于实现上述步骤5；

第三训练模块，用于实现上述步骤6；

第三处理模块，用于实现上述步骤7；

判断模块，用于实现上述步骤8；

识别模块，用于实现上述步骤9。

实施例1：

S1、如图4～6所示的不同省市的票据，不难发现各省(市)票据之间的样式虽然存在较大的差异，但是单省的样式基本一致，发票“标题”带有各省(市)地域名称；因而为了达到样本数据分布的均匀性，可先通过训练标题识别模型，来筛选样本。

具体的：从大初始票据中任意选出一部分票据后只做“标题”区域的“画框”及“打字”，从而获得“标题模型”的训练数据，并训练得到标题模型，为下一步的样本“分类”做好准备。

S2、基于标题模型对全国各省(市)庞大的数据源做自动化的“分类”，按票据中的地域名称选择出备选样本。

S3、备选样本的选出后，进行人工清洗质检后完成“准确分类数据”；确保每个文件内的样本都来自同一个省(市)，也确保各省(市)内的票据“模板”样式的统一(本环节可单独保存)。

S4、先指定一个整张票据检测所需要的数据总量，例如算法工程师现在需要总量为2万张样本的数据，因此可以先把备选数据随机分为两份，取其中500左右张(第一份)样本做人工的全字段检测标注，(此时可以先不打字)，如图7所示。

S5、500张的检测样本完成后可以先交付算法，等待一个“初版”的检测模型；随后用“初版”检测模型对余下样本进行一个“预标注”处理，如图8所示；在图8中，“初版”预处理的检测票据通常检测框效果还不理想，会存在“漏框”、“重框”、“压框”等问题。

S6、“预处理”的样本不直接投入到人工标注环节中，本发明将样本先分为两份作为备选数据，再取其中500张(预标注)样本进行人工检测框的修正；

其中，通过对样本的观察，、发现标注样本中其实存在较多的“重复”及“相似”处，例如图8方框所示：第一框与第三框内的文本列在“距离”与“内容”上存在较多相似处，假如只是“调整”那只需要人工修正一列当中的一个“矩形框”采取“对齐”的方法即可完成本列中距离相同的文本框的调整，这个方法类似表格中的“对齐”功能，可以较大的节约人力不用重复“画框”，质量标准也得到较大统一。

S7、第二次人工参与标注的500张样本的检测框经过调整后，可继续交付给算法用作训练，等待新版本模型的再去预测剩余样本；这样迭代过程的同时可以清晰的观察出样本中哪类区域存在问题较多，可以根据每一次样本的预处理结果配合算法合理有效的添加标注数据，这样循环多次后最终完成2万张检测标注样本的产出。

S8、对已完成的检测样本中的文字做识别标注，这里主要为“打字”，检测框的精准通常会直接影响到后面模型“识别”的效果，这一环节可以预先准备一个初版“识别模型”作为打字标注的辅助，来处理已经已完成的检测样本。

S9、经过“识别模型”预处理后的样本同样不用马上进入打字环节，这里需把样本分成若干份来备用，只需要取出其中一部分做人工打字即可，打字环节通常在标注生产中非常容易出现问题，根据样本中的错误覆盖范围得到一些总结，如图9所示；

门诊票据票面结构通常可以分为两个区域：一个是“印刷体”、一个是“打印体”；相同两个区域内的门诊样本除打印体外的印刷体基本可以保证样板的统一，而打印体通常是人为所致，尤其是上图红框内的“细目”区域，由于增加了许多非常见“字符”、“字母”及“医学术语”所以内容较为复杂，标注生产中也较容易出现错误；在分析各家医院的打印体信息的时，发现虽然打印体内容较复杂，但是门诊票据中的“药品名称”基本可以做到各省(市)之间的统一；所以事先整理了大量的药品名称来作为医保库使用，当标注人员进行打字时，工具会自动关联相似或类似药品名称，从而减少录入的错误，提高标注的质量。

本发明的优点为：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于OCR模型训练的样本标注方法，其特征在于，包括：

获取原始样本；

从所述原始样本中选出部分样本，进行标题区域的画框和“打字”，并训练得到标题模型；

基于所述标题模型对所述原始样本进行分类处理，得到不同标题的分类样本；

从每个标题的分类样本中选出部分样本，进行样本中所有文本的画框，并训练得到初版检测模型；

基于所述初版检测模型对该标题的分类样本进行预标注处理，得到带有检测框的初版检测分类样本；

基于所述再版检测模型对该标题的剩余分类样本进行再标注处理，得到带有检测框的再版检测分类样本；

当所述再版检测分类样本的检测框满足要求后，利用识别模型对再版检测分类样本处理出文本识别样本。

2.如权利要求1所述的样本标注方法，其特征在于，在利用所述标题模型对所述原始样本进行分类处理后，还包括：

对每个标题的分类样本进行清洗质检处理，得到模板统一的分类数据。

3.如权利要求1所述的样本标注方法，其特征在于，还包括：

若在范围内，则所述再版检测分类样本的检测框满足要求；

4.如权利要求1或3所述的样本标注方法，其特征在于，当所述再版检测分类样本的检测框不满足要求，则增大从分类样本或初版检测分类样本中选出的部分样本的数量，并进行训练。

5.如权利要求4所述的样本标注方法，其特征在于，从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1％～5％。

6.如权利要求1所述的样本标注方法，其特征在于，还包括：

调整后，利用识别模型对再版检测分类样本处理出文本识别样本。

7.如权利要求1或6所述的样本标注方法，其特征在于，所述检测框质检调整的方法，包括：

调整一列文本的检测框；

8.如权利要求1或6所述的样本标注方法，其特征在于，所述利用识别模型对再版检测分类样本处理出文本识别样本，包括：

利用识别模型处理再版检测分类样本；

9.如权利要求8所述的样本标注方法，其特征在于，所述从处理后的再版检测分类样本中选出部分样本进行“打字”标注，包括：

整理药品名称存入医保库；

10.一种实现如权利要求1～9中任一项所述的样本标注方法的系统，其特征在于，包括：

采集模块，用于获取原始样本；

第一训练模块，用于从所述原始样本中选出部分样本，进行标题区域的画框和“打字”，并训练得到标题模型；

第一处理模块，用于基于所述标题模型对所述原始样本进行分类处理，得到不同标题的分类样本；

第二训练模块，用于从每个标题的分类样本中选出部分样本，进行样本中所有文本的画框，并训练得到初版检测模型；

第二处理模块，用于基于所述初版检测模型对该标题的分类样本进行预标注处理，得到带有检测框的初版检测分类样本；

第三处理模块，用于基于所述再版检测模型对该标题的剩余分类样本进行再标注处理，得到带有检测框的再版检测分类样本；

识别模块，用于当所述再版检测分类样本的检测框满足要求后，利用识别模型对再版检测分类样本处理出文本识别样本。