CN111539309A

CN111539309A - 一种基于ocr的数据处理方法、系统、平台、设备及介质

Info

Publication number: CN111539309A
Application number: CN202010315759.4A
Authority: CN
Inventors: 姚志强; 周曦; 司法; 许梅芳; 李继伟
Original assignee: Guangzhou Yuncong Dingwang Technology Co Ltd
Current assignee: Guangzhou Yuncong Dingwang Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-14

Abstract

本发明提供一种基于OCR的数据处理方法、系统、平台、设备及介质，首先通过对预先标注的数据进行训练，生成预训练模型；再通过所述预训练模型对未标注的数据进行标注，生成训练数据集；最后根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。本发明能够用极少的标注数据完成边训练边标注，并且能够通过该识别模型来识别真实产线环境下的目标数据，其中目标数据包括但不限于证件图像、单据图像、票据图像，使得本发明中的识别模型能够识别真实产线环境中的证件、单据、票据等。同时，本发明的训练过程是端对端的开发，而端对端的开发只需要2天，在开发周期方面比现有技术提升了一个量级。

Description

一种基于OCR的数据处理方法、系统、平台、设备及介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于OCR的数据处理方法、系统、平台、设备及介质。

背景技术

如今，信息及数据能够产生重大影响，获取纸面上的结构化信息对于行业的发展及服务的优化有着至关重要的影响。因此，图像化信息录入过程繁琐笨重，浪费人力物力，成为数据应用的瓶颈。

由于地域、主题、领域的不同，各地各种功能的证件、票据、单据呈现出种类纷杂、没有固定版式特征，且由于版式不统一导致票据结构化信息提取的难度相当大。此外，由于没有统一的标准，油墨纸张及印刷质量也参差不齐，经常会出现印刷错位及印章干扰等，保存过程种也会出现折痕或褶皱等，拍照过程也可能出现阴影或反光等问题。而目前的OCR(Optical Character Recognition,光学字符识别)识别算法开发方式开发周期长(一般长达一个月或数个月)、代价大、成本高、落地几无可能。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于OCR的数据处理方法、系统、平台、设备及介质，用于解决现有技术中存在的问题。

为实现上述目的及其他相关目的，本发明提供一种基于OCR的数据处理方法，包括以下步骤：

对预先标注的数据进行训练，生成预训练模型；

通过所述预训练模型对未标注的数据进行标注，生成训练数据集；

根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。

可选地，预先标注的数据包括以下至少之一：票据图像、票证图像、证件图像、单据图像。

可选地，预先标注数据的方式包括以下至少之一：通过人工进行标注、通过自定义模板自动生成标注、通过爬取进行标注。

可选地，所述标注包括以下至少之一：框选原始图像中待识别区域、记录原始图像中文本框的内容。

可选地，所述目标数据包括以下至少之一：真实产线环境中的票据、真实产线环境中的票证、真实产线环境中的证件、真实产线环境中的单据。

可选地，对预先标注的数据进行训练和/或根据训练数据集进行训练，所述训练包括以下至少之一：版式分析、文本检测、文本识别。

可选地，对预先标注的数据进行训练，获取文字像素级的特征；

根据所述文字像素级的特征定位待识别的文本行，获取文本行切片；

识别所述文本行切片，生成多个预训练数据；

将所述多个预训练数据进行合成，根据合成后的预训练数据训练出预训练模型。

可选地，所述版式分析包括以下至少之一：预处理、转正、矫正。

可选地，识别所述文本行切片，通过在线数据增强方法、生成对抗神经网络生成多个预训练数据。

可选地，调度生成的预训练模型；

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

将本轮训练数据集与原训练数据集进行合并，生成下一轮训练数据集；

根据所述下一轮训练数据集进行训练，生成用于识别目标数据的识别模型。

可选地，训练过程中，通过配置训练参数，并根据准确率和/或时间控制训练过程。

可选地，还包括根据预先限定的多组特征集、模型参数、函数范围自动搜索最优模型训练组合，根据所述最优模型训练组合生成用于识别目标数据的识别模型。

可选地，生成用于识别目标数据的识别模型后，还包括：

导出所述识别模型，并对导出的识别模型进行集成；和/或，调用所述识别模型。

本发明还提供一种基于OCR的数据处理系统，包括有：

第一训练模块，用于对预先标注的数据进行训练，生成预训练模型；

标注模块，用于通过所述预训练模型对未标注的数据进行标注，生成训练数据集；

第二训练模块，根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。

识别所述文本行切片，生成多个预训练数据；

可选地，调度生成的预训练模型；

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

可选地，生成用于识别目标数据的识别模型后，还包括：

本发明还提供一种基于OCR的数据处理平台，包括有：

对预先标注的数据进行训练，生成预训练模型；

本发明还提供一种基于OCR的数据处理设备，包括有：

对预先标注的数据进行训练，生成预训练模型；

本发明还提供一种设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如上述中一个或多个所述的方法。

本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如上述中一个或多个所述的方法。

如上所述，本发明提供的一种基于OCR的数据处理方法、系统、平台、设备及介质，具有以下有益效果：首先通过对预先标注的数据进行训练，生成预训练模型；再通过所述预训练模型对未标注的数据进行标注，生成训练数据集；最后根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。本发明采用少量的标注数据训练来生成预训练模型，再根据预训练模型对未标注的数据进行标注，生成训练数据集；使得本发明能够用极少的标注数据完成边训练边标注。再根据训练数据集进行训练，生成用于识别目标数据的识别模型；通过该识别模型来识别真实产线环境下的目标数据，其中目标数据包括但不限于证件图像、单据图像、票据图像，使得本发明中的识别模型能够识别真实产线环境中的证件、单据、票据等，解决了现有技术中在识别证件、单据、票据时的各种问题。同时，本发明的训练过程是端对端的开发，而端对端的开发只需要2天，与现有技术中长达一个月或数个月的开发周期相比，本发明在开发周期方面比现有技术提升了一个量级。由于本发明只需要少量的标注数据既可以生成识别模型，因此本发明的成本低、代价低；而且本发明的开发周期短，生成的识别模型能够更快地落地实施。

附图说明

图1为一实施例提供的基于OCR的数据处理方法的流程示意图；

图2为一实施例提供的基于OCR的数据处理系统的硬件结构示意图；

图3为一实施例提供的终端设备的硬件结构示意图；

图4为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 第一训练模块

M20 标注模块

M30 第二训练模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 语音组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种基于OCR的数据处理方法，包括以下步骤：

S100，对预先标注的数据进行训练，生成预训练模型；

S200，通过所述预训练模型对未标注的数据进行标注，生成训练数据集；

S300，根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。

本方法采用少量的标注数据训练来生成预训练模型，再根据预训练模型对未标注的数据进行标注，生成训练数据集；使得本方法能够用极少的标注数据完成边训练边标注。再根据训练数据集进行训练，生成用于识别目标数据的识别模型；通过该识别模型来识别真实产线环境下的目标数据。本方法的训练过程是端对端的开发，而端对端的开发只需要2天，与现有技术中长达一个月或数个月的开发周期相比，本方法在开发周期方面比现有技术提升了一个量级。而且本方法只需要使用少量的标注数据就能够生成识别模型，成本低、代价低；同时开发周期短，生成的识别模型能够更快地落地实施。

在一些示例性实施例中，预先标注的数据包括以下至少之一：票据图像、票证图像、证件图像、单据图像。目标数据包括以下至少之一：真实产线环境中的票据、真实产线环境中的票证、真实产线环境中的证件、真实产线环境中的单据。作为示例，例如通过预先标注的票据图像进行训练生成预训练模型，再根据预训练模型对未标注的票据图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的票据的识别模型。作为示例，例如通过预先标注的票证图像进行训练生成预训练模型，再根据预训练模型对未标注的票证图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的票证的识别模型。作为示例，例如通过预先标注的证件图像进行训练生成预训练模型，再根据预训练模型对未标注的证件图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的证件的识别模型。作为示例，例如通过预先标注的单据图像进行训练生成预训练模型，再根据预训练模型对未标注的单据图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的单据的识别模型。根据上述示例的记载，使得本方法中的识别模型能够识别真实产线环境中的证件、单据、票据等，解决了现有技术中在识别证件、单据、票据时的各种问题。例如可以通过200-1000张真实样本数据建立样本数据库，从样本数据库中的多种样式及自定义样式进行风格合成、字体合成，从而产生大量多类样式的预训练数据，根据生成预训练模型。同时，还可以将这200-1000张真实样本数据对生成的识别模型进行验证。

在一些示例性实施例中，本申请实施例中，根据标注任务和训练任务进行人员和权限分配，将人员设置为方法管理员、标注任务管理员、训练任务管理员、标注人员及训练人员等，通过设定不同的人员角色完成不同任务。同时，也可以将一个任务分配到多名人员同步进行，比如支持多人同时标注。在预先标注数据时，可以采用的方式例如包括：上传采集到的数据，然后对其少量的数据进行人工标注；通过编辑自定义模板自动生成标注数据；通过集成的爬虫模块，对网络上相关数据进行爬取并进行标注。本申请实施例中，还可以对预先标注后的数据进行复核，例如在标注的同时进行人工复核，保证标注数据的质量。

在一些示例性实施例中，所述标注包括以下至少之一：框选原始图像中待识别区域、记录原始图像中文本框的内容。本申请实施例中，数据标注是为了给训练数据提供标签来源，标注的内容和数据量依赖于选用的算法。本方法可以采用具有通用、高效标注能力的智能算法，从而只需要很少量的数据就可以实现准确预测。本申请实施例中，数据标注操作从流程上分为三个部分：一是标注模板，模板可以提供标注依据和参考；二是标注过程，即根据模板对原始图像进行标注，包括框选原始图像中待识别区域和记录原始图像中文本框的内容；三是标注复核，即根据标注模板对标注结果进行审核，保证标注数据的质量。作为示例，本申请实施例为减少标注代价，可以集成文本预识别算法和版式生成算法。首先，根据真实的票据特点，配置其模板参数，自动生成海量类似于真实票据的图片，用于预训练版式模型，使得用户只需标注少量的真实数据即可得到极高准确率的版式模型。其次，用户在框选出识别区域后，通过强大的通用识别模型对标注内容进行预识别，同时给出该识别结果的置信度，用户可以设置阈值仅仅关注置信度较低的识别结果，大大简化标注的工作量。

在一些示例性实施例中，对预先标注的数据进行训练和/或根据训练数据集进行训练，所述训练包括以下至少之一：版式分析、文本检测、文本识别。

根据上述实施例的记载，对预先标注的数据进行版式分析，包括对票据图像、证件图像、单据图像进行预处理、转正和矫正；获取票据、证件、单据等样本的4个角点，即获取票据、证件、单据中的文字像素级的特征；

对标注数据进行文本行检测，根据所述文字像素级的特征定位待识别的文本行，获取文本行切片及响应坐标；

识别所述文本行切片，通过在线数据增强方法、生成对抗神经网络生成多个预训练数据；保证识别的高精度和泛化性；

将所述多个预训练数据进行合成，根据合成后的预训练数据训练出预训练模型。在数据合成后，还可以对数据进行增强、自动调参，将增强和调参后的预训练数据用于训练预训练模型。通过对数据进行增强、自动调参实现数据的精准迁移学习。

具体地，数据标注完成后，可以生成OCR(Optical Character Recognition,光学字符识别)训练数据。训练数据生成之后，可以启动训练任务。本方法的训练过程包括3个子任务：版式分析任务、文本检测任务、文本识别任务。其中，版式分析任务的目的是为了从一大批混合的证件、票据、单据里面筛选出同一种类型的待识别样本，同时给出其所处的有效区域，即票据、证件、单据等样本的4个角点，算法上会根据角点对样本进行旋转、透视、畸变矫正等处理。同时，版式分析算法集成了强大的通用图像处理算法，比如模糊检测、阴影曝光处理、灰度均衡、图像去噪等，保证了即使是低质量的图像，也具有很好的适应性，为后续的文本检测和文本识别提供了高质量的图像输入。文本检测任务的目的是从证件、票据、单据模板中检测出各个待识别要素的文本行，同时为每个文本行分配标签属性。本方法中的文本检测和版式分析算法统一，实现了真正的“所标即所得”，不必标注参考点，在无人工参与的条件下也可以进行自动化训练。文本检测算法采用“Pixel-Anchor”文本检测框架，基于海量数据训练获得基础的文本检测模型，结合图像、文本的高级特征，以及文字像素级的细微特征，可快速的定位到待识别的文本行，并且文本的边界具有超高的精确度。本方法集成的文本检测算法对真实产线环境如复杂的细节，目标多姿态，图像的亮度变化及获得途径，有很好的鲁棒性。和目前需要进行模版对齐的方法不同，本方法中的文本检测检测算法采用卷积神经网络描述了待识别字段和背景间，字段和字段间一种更为弹性的几何关系，它对旋转，透视畸变，或票据等样本间的少许差异具有良好的鲁棒性。文本识别任务的目的是识别出各检测出的文本行的内容。文本识别采用“Attention-RNN”文本识别框架，基于从海量数据获得的通用文本识别模型进行迁移学习。首先，文本识别算法可以根据标注的少量字段切片，自动判断字体类型。并采用自定义的27种图像增强模型，通过增强学习算法从超参空间搜索最合适的增强组合，进行在线增强，自动合成训练样本。然后，通过使用生成对抗神经网络，对合成样本的风格进行迁移，使得生成的样本与真实字段切片的成像质量、背景纹理相匹配。据此，生成了海量的高质量的文本识别训练数据集，提升了识别模型对光照，模糊，复杂背景的鲁棒性。整个过程中几乎所有迁移学习的操作都是自动完成，即使无人工参与也能进行自动化训练。另外，识别结果集成了通用语言模型，通过NLP技术纠正一些图像层级的形近字混淆，对识别错误不合语言规则的结果进行纠错，保证识别结果具有极高的准确率。本方法中的各个子任务可独立配置资源参数，使得不同类型的机器学习任务可以分布运行在不同的异构服务器中，从而最优化计算效率；其中，资源参数如CPU/GPU/NPU/FPGA的异构计算平台等。同时本方法还可通过可视化界面实时监控训练状态，并根据准确率、训练时间等控制训练任务的停止节点。本方法使用的训练算法包括版式分析算法、文本检测算法、文本识别算法及参数优化等，本方法可以将训练算法封装成docker镜像，避免对物理环境产生依赖，简化部署流程。

在一些实施例中，调度生成的预训练模型。

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

再将本轮训练数据集与原训练数据集进行合并，生成下一轮训练数据集；

具体地，在本申请实施例集成了配套的推理引擎，可以使用推理引擎调度生成的预训练模型；并且通过预训练模型对未标注数据进行自动标注时，还可以对标注结果给出置信度评分。同时对标注后的数据可以进行人工复核，通过人工修改，获得新的训练数据集，即本轮训练数据集。其中，推理引擎还可以对数据进行自动标注，极大的减少标注工作量。首先，通过人工标注少量数据，据此训练出基础模型(即预训练模型)；然后使用当前模型自动推理标注数据集中余下未标注的数据，并快速复核推理结果；最后，复核完成的数据可合并到之前的数据集中，在基础模型上继续训练，得到优化后的模型(即用于识别目标数据的识别模型)。可以将数据标注、模型训练、模型推理集成于一体，完全打通了从原始数据到识别结果的所有流程，实现了端到端的快速开发。

在一些实施例中，还包括根据预先限定的多组特征集、模型参数、函数范围自动搜索最优模型训练组合，根据所述最优模型训练组合生成用于识别目标数据的识别模型。本申请实施例中，通过多组组合对应的模型的并行训练，能成倍减少模型训练所用的时间，缩短开发周期。

在一些实施例中，生成用于识别目标数据的识别模型后，还包括：导出所述识别模型，并对导出的识别模型进行集成；和/或，调用所述识别模型。作为示例，本申请实施例中，可以将生成的识别模型导出为一个识别模块，集成到现有的方法中，再通过离线推理引擎进行调用。通过推理引擎可以快速、直观地看到识别模型在测试集上的真实表现，从而据此直观地评价生成的识别模型。同时，还可以通过使用离线推理引擎调用识别模型，再利用识别模型进行推理预测，对待识别证件、票据、单据样本进行识别。本方法中的集成封装支持TensorFlow、MxNet等主流学习框架，集成Python开发环境，支持PySpark等；集成成熟的开发工具如Jupyter Notebook等。可将封装好的算法及模型打包部署进行对外发布，也可导出生成XML文件的形式供其他用户导入使用，同时提供“检入/检出”功能来实现版本管理。

本发明提供一种基于OCR的数据处理方法，通过对预先标注的数据进行训练，生成预训练模型；再通过所述预训练模型对未标注的数据进行标注，生成训练数据集；根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。本方法可以采用少量的标注数据训练来生成预训练模型，再根据预训练模型对未标注的数据进行标注，生成训练数据集；使得本方法能够用极少的标注数据完成边训练边标注，与现有标注方法相比，能够减少90％的标注工作量。再根据训练数据集进行训练，生成用于识别目标数据的识别模型；通过该识别模型来识别真实产线环境下的目标数据，且在真实产线环境下的准确率能够达到95％-100％。本方法的训练过程是端对端的开发，而端对端的开发只需要2天，与现有技术中长达一个月或数个月的开发周期相比，本方法在开发周期方面比现有技术提升了一个量级。而且本方法只需要使用少量的标注数据就能够生成识别模型，成本低、代价低；同时开发周期短，生成的识别模型能够更快地落地实施。同时，传统的OCR识别算法，一般会经过模糊去噪、二值化、字符分割、特征提取、特征匹配、文字类型检测等诸多操作，流程长而繁杂。每个环节涉及到不同的算法，需要大量人工调参的过程，开发周期长且泛化性差，而且不同票据之间不能通用。相对于传统开发方法，本方法抽象出一套统一的OCR算法流程，通过对各类票据等图片等自定义模板，生成标注数据；并通过训练出的基础模型对未标注数据进行自动标注；边训练边标注，从而建立模型并实现准确预测。只需要很少量(几百张)的人工标注数据，或全部基于自定义模板而无需人工标注数据。不需要再针对每种票据，单独开发训练过程和模型推理引擎，避免繁重的算法调试过程，减少对开发人员知识经验的依赖。同时能够针对各种证件/票据的个性化定制开发的需求，对各类票据等样本图片通过自定义模板进行自动标注并完成训练，建立模型并实现准确预测；实现用最少的标注代价和训练过程自动化来解决目前存在的问题。

如图2所示，本发明还提供一种基于OCR的数据处理系统，包括有：

第一训练模块M10，用于对预先标注的数据进行训练，生成预训练模型；

标注模块M20，用于通过所述预训练模型对未标注的数据进行标注，生成训练数据集；

第二训练模块M30，根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。

本系统采用少量的标注数据训练来生成预训练模型，再根据预训练模型对未标注的数据进行标注，生成训练数据集；使得本系统能够用极少的标注数据完成边训练边标注。再根据训练数据集进行训练，生成用于识别目标数据的识别模型；通过该识别模型来识别真实产线环境下的目标数据。本系统的训练过程是端对端的开发，而端对端的开发只需要2天，与现有技术中长达一个月或数个月的开发周期相比，本系统在开发周期方面比现有技术提升了一个量级。而且本系统只需要使用少量的标注数据就能够生成识别模型，成本低、代价低；同时开发周期短，生成的识别模型能够更快地落地实施。

在一些示例性实施例中，预先标注的数据包括以下至少之一：票据图像、票证图像、证件图像、单据图像。目标数据包括以下至少之一：真实产线环境中的票据、真实产线环境中的票证、真实产线环境中的证件、真实产线环境中的单据。作为示例，例如通过预先标注的票据图像进行训练生成预训练模型，再根据预训练模型对未标注的票据图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的票据的识别模型。作为示例，例如通过预先标注的票证图像进行训练生成预训练模型，再根据预训练模型对未标注的票证图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的票证的识别模型。作为示例，例如通过预先标注的证件图像进行训练生成预训练模型，再根据预训练模型对未标注的证件图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的证件的识别模型。作为示例，例如通过预先标注的单据图像进行训练生成预训练模型，再根据预训练模型对未标注的单据图像进行标注，生成训练数据集；最后根据训练数据集生成用于识别真实产线环境中的单据的识别模型。根据上述示例的记载，使得本系统中的识别模型能够识别真实产线环境中的证件、单据、票据等，解决了现有技术中在识别证件、单据、票据时的各种问题。例如可以通过200-1000张真实样本数据建立样本数据库，从样本数据库中的多种样式及自定义样式进行风格合成、字体合成，从而产生大量多类样式的预训练数据，根据生成预训练模型。同时，还可以将这200-1000张真实样本数据对生成的识别模型进行验证。

在一些示例性实施例中，本申请实施例中，根据标注任务和训练任务进行人员和权限分配，将人员设置为系统管理员、标注任务管理员、训练任务管理员、标注人员及训练人员等，通过设定不同的人员角色完成不同任务。同时，也可以将一个任务分配到多名人员同步进行，比如支持多人同时标注。在预先标注数据时，可以采用的方式例如包括：上传采集到的数据，然后对其少量的数据进行人工标注；通过编辑自定义模板自动生成标注数据；通过集成的爬虫模块，对网络上相关数据进行爬取并进行标注。本申请实施例中，还可以对预先标注后的数据进行复核，例如在标注的同时进行人工复核，保证标注数据的质量。

在一些示例性实施例中，所述标注包括以下至少之一：框选原始图像中待识别区域、记录原始图像中文本框的内容。本申请实施例中，数据标注是为了给训练数据提供标签来源，标注的内容和数据量依赖于选用的算法。本系统可以采用具有通用、高效标注能力的智能算法，从而只需要很少量的数据就可以实现准确预测。本申请实施例中，数据标注操作从流程上分为三个部分：一是标注模板，模板可以提供标注依据和参考；二是标注过程，即根据模板对原始图像进行标注，包括框选原始图像中待识别区域和记录原始图像中文本框的内容；三是标注复核，即根据标注模板对标注结果进行审核，保证标注数据的质量。作为示例，本申请实施例为减少标注代价，可以集成文本预识别算法和版式生成算法。首先，根据真实的票据特点，配置其模板参数，自动生成海量类似于真实票据的图片，用于预训练版式模型，使得用户只需标注少量的真实数据即可得到极高准确率的版式模型。其次，用户在框选出识别区域后，通过强大的通用识别模型对标注内容进行预识别，同时给出该识别结果的置信度，用户可以设置阈值仅仅关注置信度较低的识别结果，大大简化标注的工作量。

识别所述文本行切片，通过在线数据增强系统、生成对抗神经网络生成多个预训练数据；保证识别的高精度和泛化性；

具体地，数据标注完成后，可以生成OCR(Optical Character Recognition,光学字符识别)训练数据。训练数据生成之后，可以启动训练任务。本系统的训练过程包括3个子任务：版式分析任务、文本检测任务、文本识别任务。其中，版式分析任务的目的是为了从一大批混合的证件、票据、单据里面筛选出同一种类型的待识别样本，同时给出其所处的有效区域，即票据、证件、单据等样本的4个角点，算法上会根据角点对样本进行旋转、透视、畸变矫正等处理。同时，版式分析算法集成了强大的通用图像处理算法，比如模糊检测、阴影曝光处理、灰度均衡、图像去噪等，保证了即使是低质量的图像，也具有很好的适应性，为后续的文本检测和文本识别提供了高质量的图像输入。文本检测任务的目的是从证件、票据、单据模板中检测出各个待识别要素的文本行，同时为每个文本行分配标签属性。本系统中的文本检测和版式分析算法统一，实现了真正的“所标即所得”，不必标注参考点，在无人工参与的条件下也可以进行自动化训练。文本检测算法采用“Pixel-Anchor”文本检测框架，基于海量数据训练获得基础的文本检测模型，结合图像、文本的高级特征，以及文字像素级的细微特征，可快速的定位到待识别的文本行，并且文本的边界具有超高的精确度。本系统集成的文本检测算法对真实产线环境如复杂的细节，目标多姿态，图像的亮度变化及获得途径，有很好的鲁棒性。和目前需要进行模版对齐的系统不同，本系统中的文本检测检测算法采用卷积神经网络描述了待识别字段和背景间，字段和字段间一种更为弹性的几何关系，它对旋转，透视畸变，或票据等样本间的少许差异具有良好的鲁棒性。文本识别任务的目的是识别出各检测出的文本行的内容。文本识别采用“Attention-RNN”文本识别框架，基于从海量数据获得的通用文本识别模型进行迁移学习。首先，文本识别算法可以根据标注的少量字段切片，自动判断字体类型。并采用自定义的27种图像增强模型，通过增强学习算法从超参空间搜索最合适的增强组合，进行在线增强，自动合成训练样本。然后，通过使用生成对抗神经网络，对合成样本的风格进行迁移，使得生成的样本与真实字段切片的成像质量、背景纹理相匹配。据此，生成了海量的高质量的文本识别训练数据集，提升了识别模型对光照，模糊，复杂背景的鲁棒性。整个过程中几乎所有迁移学习的操作都是自动完成，即使无人工参与也能进行自动化训练。另外，识别结果集成了通用语言模型，通过NLP技术纠正一些图像层级的形近字混淆，对识别错误不合语言规则的结果进行纠错，保证识别结果具有极高的准确率。本系统中的各个子任务可独立配置资源参数，使得不同类型的机器学习任务可以分布运行在不同的异构服务器中，从而最优化计算效率；其中，资源参数如CPU/GPU/NPU/FPGA的异构计算平台等。同时本系统还可通过可视化界面实时监控训练状态，并根据准确率、训练时间等控制训练任务的停止节点。本系统使用的训练算法包括版式分析算法、文本检测算法、文本识别算法及参数优化等，本系统可以将训练算法封装成docker镜像，避免对物理环境产生依赖，简化部署流程。

在一些实施例中，调度生成的预训练模型。

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

在一些实施例中，生成用于识别目标数据的识别模型后，还包括：导出所述识别模型，并对导出的识别模型进行集成；和/或，调用所述识别模型。作为示例，本申请实施例中，可以将生成的识别模型导出为一个识别模块，集成到现有的系统中，再通过离线推理引擎进行调用。通过推理引擎可以快速、直观地看到识别模型在测试集上的真实表现，从而据此直观地评价生成的识别模型。同时，还可以通过使用离线推理引擎调用识别模型，再利用识别模型进行推理预测，对待识别证件、票据、单据样本进行识别。本系统中的集成封装支持TensorFlow、MxNet等主流学习框架，集成Python开发环境，支持PySpark等；集成成熟的开发工具如Jupyter Notebook等。可将封装好的算法及模型打包部署进行对外发布，也可导出生成XML文件的形式供其他用户导入使用，同时提供“检入/检出”功能来实现版本管理。

本发明提供一种基于OCR的数据处理系统，通过对预先标注的数据进行训练，生成预训练模型；再通过所述预训练模型对未标注的数据进行标注，生成训练数据集；根据所述训练数据集进行训练，生成用于识别目标数据的识别模型。本系统可以采用少量的标注数据训练来生成预训练模型，再根据预训练模型对未标注的数据进行标注，生成训练数据集；使得本系统能够用极少的标注数据完成边训练边标注，与现有标注方法相比，能够减少90％的标注工作量。再根据训练数据集进行训练，生成用于识别目标数据的识别模型；通过该识别模型来识别真实产线环境下的目标数据，且在真实产线环境下的准确率能够达到95％-100％。本系统的训练过程是端对端的开发，而端对端的开发只需要2天，与现有技术中长达一个月或数个月的开发周期相比，本系统在开发周期方面比现有技术提升了一个量级。而且本系统只需要使用少量的标注数据就能够生成识别模型，成本低、代价低；同时开发周期短，生成的识别模型能够更快地落地实施。同时，传统的OCR识别算法，一般会经过模糊去噪、二值化、字符分割、特征提取、特征匹配、文字类型检测等诸多操作，流程长而繁杂。每个环节涉及到不同的算法，需要大量人工调参的过程，开发周期长且泛化性差，而且不同票据之间不能通用。相对于传统开发系统，本系统抽象出一套统一的OCR算法流程，通过对各类票据等图片等自定义模板，生成标注数据；并通过训练出的基础模型对未标注数据进行自动标注；边训练边标注，从而建立模型并实现准确预测。只需要很少量(几百张)的人工标注数据，或全部基于自定义模板而无需人工标注数据。不需要再针对每种票据，单独开发训练过程和模型推理引擎，避免繁重的算法调试过程，减少对开发人员知识经验的依赖。同时能够针对各种证件/票据的个性化定制开发的需求，对各类票据等样本图片通过自定义模板进行自动标注并完成训练，建立模型并实现准确预测；实现用最少的标注代价和训练过程自动化来解决目前存在的问题。

本申请实施例还提供了一种基于OCR的数据处理设备，包括有：

对预先标注的数据进行训练，生成预训练模型；

在本实施例中，该基于OCR的数据处理设备执行上述系统或方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种基于OCR的数据处理平台，包括有：

对预先标注的数据进行训练，生成预训练模型；

在本实施例中，该基于OCR的数据处理平台执行上述系统或方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中所述方法所包含步骤的指令(instructions)。

图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图4为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述基于OCR的数据处理方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于OCR的数据处理方法，其特征在于，包括以下步骤：

对预先标注的数据进行训练，生成预训练模型；

2.根据权利要求1所述的基于OCR的数据处理方法，其特征在于，预先标注的数据包括以下至少之一：票据图像、票证图像、证件图像、单据图像。

3.根据权利要求1所述的基于OCR的数据处理方法，其特征在于，预先标注数据的方式包括以下至少之一：通过人工进行标注、通过自定义模板自动生成标注、通过爬取进行标注。

4.根据权利要求3所述的基于OCR的数据处理方法，其特征在于，所述标注包括以下至少之一：框选原始图像中待识别区域、记录原始图像中文本框的内容。

5.根据权利要求1或2所述的基于OCR的数据处理方法，其特征在于，所述目标数据包括以下至少之一：真实产线环境中的票据、真实产线环境中的票证、真实产线环境中的证件、真实产线环境中的单据。

6.根据权利要求1所述的基于OCR的数据处理方法，其特征在于，对预先标注的数据进行训练和/或根据训练数据集进行训练，所述训练包括以下至少之一：版式分析、文本检测、文本识别。

7.根据权利要求6所述的基于OCR的数据处理方法，其特征在于，

对预先标注的数据进行训练，获取文字像素级的特征；

识别所述文本行切片，生成多个预训练数据；

8.根据权利要求6所述的基于OCR的数据处理方法，其特征在于，所述版式分析包括以下至少之一：预处理、转正、矫正。

9.根据权利要求7所述的基于OCR的数据处理方法，其特征在于，识别所述文本行切片，通过在线数据增强方法、生成对抗神经网络生成多个预训练数据。

10.根据权利要求1或7所述的基于OCR的数据处理方法，其特征在于，

调度生成的预训练模型；

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

11.根据权利要求6所述的基于OCR的数据处理方法，其特征在于，训练过程中，通过配置训练参数，并根据准确率和/或时间控制训练过程。

12.根据权利要求1所述的基于OCR的数据处理方法，其特征在于，还包括根据预先限定的多组特征集、模型参数、函数范围自动搜索最优模型训练组合，根据所述最优模型训练组合生成用于识别目标数据的识别模型。

13.根据权利要求1或12所述的基于OCR的数据处理方法，其特征在于，生成用于识别目标数据的识别模型后，还包括：

14.一种基于OCR的数据处理系统，其特征在于，包括有：

15.根据权利要求14所述的基于OCR的数据处理方法，其特征在于，预先标注的数据包括以下至少之一：票据图像、票证图像、证件图像、单据图像。

16.根据权利要求14所述的基于OCR的数据处理方法，其特征在于，预先标注数据的方式包括以下至少之一：通过人工进行标注、通过自定义模板自动生成标注、通过爬取进行标注。

17.根据权利要求16所述的基于OCR的数据处理方法，其特征在于，所述标注包括以下至少之一：框选原始图像中待识别区域、记录原始图像中文本框的内容。

18.根据权利要求14或15所述的基于OCR的数据处理方法，其特征在于，所述目标数据包括以下至少之一：真实产线环境中的票据、真实产线环境中的票证、真实产线环境中的证件、真实产线环境中的单据。

19.根据权利要求14所述的基于OCR的数据处理方法，其特征在于，对预先标注的数据进行训练和/或根据训练数据集进行训练，所述训练包括以下至少之一：版式分析、文本检测、文本识别。

20.根据权利要求19所述的基于OCR的数据处理方法，其特征在于，

对预先标注的数据进行训练，获取文字像素级的特征；

识别所述文本行切片，生成多个预训练数据；

21.根据权利要求19所述的基于OCR的数据处理方法，其特征在于，所述版式分析包括以下至少之一：预处理、转正、矫正。

22.根据权利要求21所述的基于OCR的数据处理方法，其特征在于，识别所述文本行切片，通过在线数据增强方法、生成对抗神经网络生成多个预训练数据。

23.根据权利要求14或20所述的基于OCR的数据处理方法，其特征在于，

调度生成的预训练模型；

通过所述预训练模型对未标注数据进行自动标注；

对自动标注后的数据进行复核，生成本轮训练数据集；

24.根据权利要求19所述的基于OCR的数据处理方法，其特征在于，训练过程中，通过配置训练参数，并根据准确率和/或时间控制训练过程。

25.根据权利要求14所述的基于OCR的数据处理方法，其特征在于，还包括根据预先限定的多组特征集、模型参数、函数范围自动搜索最优模型训练组合，根据所述最优模型训练组合生成用于识别目标数据的识别模型。

26.根据权利要求14或25所述的基于OCR的数据处理方法，其特征在于，生成用于识别目标数据的识别模型后，还包括：

27.一种基于OCR的数据处理平台，其特征在于，包括有：

对预先标注的数据进行训练，生成预训练模型；

28.一种基于OCR的数据处理设备，其特征在于，包括有：

对预先标注的数据进行训练，生成预训练模型；

29.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-13中一个或多个所述的方法。

30.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-13中一个或多个所述的方法。