CN109684957A

CN109684957A - 一种自动按照纸质表单展现系统数据的方法及系统

Info

Publication number: CN109684957A
Application number: CN201811533895.XA
Authority: CN
Inventors: 吕军震; 李长松; 胥洪锋; 于国方; 刘杰; 武佳
Original assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Current assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-26

Abstract

本发明提供一种自动按照纸质表单展现系统数据的方法及系统，其中方法包括利用图像识别技术获取纸质表单中的表格信息，还包括以下步骤：利用OCR和/或文本分析识别所述纸质表单中的字符；判断所述字符在数据库存储的位置，记录所述字符所有可能的位置；生成产生表单的所有模型组合；读入N个表单样本进行数据训练，记录各字段存储在数据库位置的最大概率；根据选取的模型生成2N+3个数据表单进行对比，选取能够完全匹配的模型作为唯一解；输入表单的业务单号生成业务表单。本发明利用综合利用OCR、图像识别、文本分析等技术将纸质表单进行录入，自动分析、整理并与业务系统数据库中的数据建立关联，达到按照纸质表单自动生成展示页面的目的。

Description

一种自动按照纸质表单展现系统数据的方法及系统

技术领域

本发明涉及医疗诊断的技术领域，特别是一种自动按照纸质表单展现系统数据的方法及系统。

背景技术

软件技术发展至今，我们都是将纸质单据结构化存储到软件系统中，将数据展现为各种表格。对于特殊展现要求的数据，需要用户提供模板，软件工程师根据模板样式进行开发，费时费力。成本决定了软件系统不能够提供与物理表单同样的样式给用户。

随着行业内对于OCR、图像识别、文本分析等技术的应用已经非常成熟，让我们看到了将软件系统中的数据自动以纸质表单格式展现的可能。

申请号为CN107025452A的发明专利公开了一种图像识别方法和图像识别设备，一种用于对具有表格结构的输入图像进行识别的图像识别方法，其中输入图像包括有一个或多个预打印字符串以及一个或多个后打印字符串，该图像识别方法包括：提取步骤，用于从输入图像中提取出表格结构；定位步骤，用于基于表格结构的先验知识，获得一个或多个后打印字符串中的至少一个后打印字符串的位置信息；以及识别步骤，对于至少一个后打印字符串中的每一个后打印字符，采用基于二值化图像的第一字符分类器和基于灰度图像的第二字符分类器来对该后打印字符串进行识别。该方法只能应用于分次打印的数据中，不能处理一次打印成形的数据表格。

发明内容

为了解决上述的技术问题，本发明提出一种自动按照纸质表单展现系统数据的方法及系统，利用综合利用OCR、图像识别、文本分析等技术将纸质表单进行录入，自动分析、整理并与业务系统数据库中的数据建立关联，达到按照纸质表单自动生成展示页面的目的。

本发明的第一目的是提供了一种自动按照纸质表单展现系统数据的方法，包括利用图像识别技术获取纸质表单中的表格信息，还包括以下步骤：

步骤1：利用OCR和/或文本分析识别所述纸质表单中的字符；

步骤2：判断所述字符在数据库存储的位置，记录所述字符所有可能的位置；

步骤3：生成产生表单的所有模型组合；

步骤4：读入N个表单样本进行数据训练，记录各字段存储在数据库位置的最大概率；

步骤5：根据选取的模型生成2N+3个数据表单进行对比，选取能够完全匹配的模型作为唯一解；

步骤6：输入表单的业务单号生成业务表单。

优选的是，所述获取纸质表单中的表格信息的步骤还包括将表格的位置信息同步还原成电子文档。

在上述任一方案中优选的是，所述还原成电子文档的方法包括以下子步骤：

步骤01：按照图像大小同比例生成电子模板纸张大小；

步骤02：根据图像识别出来的边框同步生成到所述电子模板中。

在上述任一方案中优选的是，所述步骤1还包括对比元数据定义，分别字符内容中的标题及内容。

在上述任一方案中优选的是，所述字符包括文字和/或数字。

在上述任一方案中优选的是，所述步骤2包括以下子步骤：

步骤21：利用元数据判断所述内容存储在那些表中；

步骤22：通过所述内容进行筛选。。

在上述任一方案中优选的是，所述步骤4还包括选取概率最高的所述模型进行数据展现。

在上述任一方案中优选的是，所述步骤5还包括利用图像相对比技术对所述数据表单进行确认，如果无误则表单生成完毕。

在上述任一方案中优选的是，所述步骤5还包括当比对出现问题时返回步骤1重新对所述模型进行确认。

本发明的第二目的是一种自动按照纸质表单展现系统数据的系统，包括用于利用图像识别技术获取纸质表单中的表格信息的信息获取模块，还包括以下模块：

信息识别模块：用于利用OCR和/或文本分析识别所述纸质表单中的字符；

位置判断模块：用于判断所述字符在数据库存储的位置，记录所述字符所有可能的位置；

模型生成模块：用于生成产生表单的所有模型组合；

辅助计算模块：用于读入N个表单样本进行数据训练，记录各字段存储在数据库位置的最大概率；

校验模块：用于根据选取的模型生成2N+3个数据表单进行对比，选取能够完全匹配的模型作为唯一解；

输出模块：用于输入表单的业务单号生成业务表单。

优选的是，所述信息获取模块还用于将表格的位置信息同步还原成电子文档。

步骤01：按照图像大小同比例生成电子模板纸张大小；

在上述任一方案中优选的是，所述信息识别模块还用于对比元数据定义，分别字符内容中的标题及内容。

在上述任一方案中优选的是，所述字符包括文字和/或数字。

在上述任一方案中优选的是，所述位置判断模块还用于利用元数据判断所述内容存储在那些表中。

在上述任一方案中优选的是，所述位置判断模块还用于通过所述内容进行筛选。

在上述任一方案中优选的是，所述辅助计算模块还用于选取概率最高的所述模型进行数据展现。

在上述任一方案中优选的是，所述校验模块还用于利用图像相对比技术对所述数据表单进行确认，如果无误则表单生成完毕。

在上述任一方案中优选的是，所述校验模块还用于当比对出现问题时重新对所述模型进行确认。

本发明提出了一种自动按照纸质表单展现系统数据的方法及系统，降低软件开发成本并改善用户的使用体验，为用户提供与现实纸质表单相同的展示。

附图说明

图1为按照本发明的自动按照纸质表单展现系统数据的方法的一优选实施例的流程图。

图2为按照本发明的自动按照纸质表单展现系统数据的系统的一优选实施例的模块图。

图3为按照本发明的自动按照纸质表单展现系统数据的方法的另一优选实施例的流程图。

图4按照本发明的自动按照纸质表单展现系统数据的方法的纸质表单的一实施例的样式图。

图5按照本发明的自动按照纸质表单展现系统数据的方法的如图4所示实施例的处理过程图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1、2所示，执行步骤100，利用图像识别技术获取纸质表单中的表格信息，将表格的位置信息同步还原成电子文档。还原成电子文档的方法包括以下子步骤：1)按照图像大小同比例生成电子模板纸张大小；2)根据图像识别出来的边框同步生成到电子模板中。执行步骤110，利用OCR和/或文本分析识别纸质表单中的字符并对比元数据定义，分别字符内容中的标题及内容，字符包括文字和/或数字。执行步骤120，判断所述字符在数据库存储的位置，记录所述字符所有可能的位置，包括1)利用元数据判断所述内容存储在那些表中，2)通过所述内容进行筛选。执行步骤130，生成产生表单的所有模型组合。执行步骤140，读入N个表单样本进行数据训练(基于Apriori算法和FP Growth算法)，记录各字段存储在数据库位置的最大概率，选取概率最高的所述模型进行数据展现。执行步骤150，根据选取的模型生成2N+3个数据表单进行对比，选取能够完全匹配的模型作为唯一解，利用图像相对比技术对所述数据表单进行确认，如果无误则表单生成完毕；当比对出现问题时返回步骤110重新对所述模型进行确认。执行步骤160，输入表单的业务单号生成业务表单。

在步骤150中，对于不能完全匹配的情况，增大样本数据进行计算或人为进行微调整。

实施例二

如图2所示，一种自动按照纸质表单展现系统数据的系统包括的信息获取模块200、信息识别模块210、位置判断模块220、模型生成模块230、辅助计算模块240、校验模块250和输出模块260。

信息获取模块200用于利用图像识别技术获取纸质表单中的表格信息，将表格的位置信息同步还原成电子文档。还原成电子文档的方法包括以下子步骤：1)按照图像大小同比例生成电子模板纸张大小；2)根据图像识别出来的边框同步生成到电子模板中。

信息识别模块210用于利用OCR和/或文本分析识别所述纸质表单中的字符，对比元数据定义，分别字符内容中的标题及内容，字符包括文字和/或数字。

位置判断模块220用于判断所述字符在数据库存储的位置，记录所述字符所有可能的位置，利用元数据判断所述内容存储在那些表中，并通过所述内容进行筛选。

模型生成模块230用于生成产生表单的所有模型组合。

辅助计算模块240用于读入N个表单样本进行数据训练(基于Apriori算法和FPGrowth算法)，记录各字段存储在数据库位置的最大概率，选取概率最高的所述模型进行数据展现。

校验模块250用选取的模型生成2N+3个数据表单进行对比，选取能够完全匹配的模型作为唯一解，利用图像相对比技术对所述数据表单进行确认，如果无误则表单生成完毕；当比对出现问题时重新对所述模型进行确认。对于不能完全匹配的情况，增大样本数据进行计算或人为进行微调整。

输出模块260用于输入表单的业务单号生成业务表单。

实施例三

本发明主要利用综合利用OCR、图像识别、文本分析等技术将纸质表单进行录入，自动分析、整理并与业务系统数据库中的数据建立关联，达到按照纸质表单自动生成展示页面的目的。

本发明的目的是希望降低软件开发成本并改善用户的使用体验，为用户提供与现实纸质表单相同的展示。

如图3所示，工作流程如下：

(1)利用图像识别技术获取纸质表单中的表格信息，将表格的位置信息同步还原成电子文档。

1.1系统按照图像大小同比例生成电子模板纸张大小

1.2系统根据图像识别出来的边框，同步生成到电子模板中

(2)利用OCR技术及文本分析技术识别纸质表单中的数值。

2.1系统识别出文档中的字符(文字、数字)

2.2系统自动对比元数据定义，分别字符内容中的标题(Caption)及内容(Value)

(3)系统自动利用“元数据”及“内容”判断该数值出现在数据库存储的位置，系统记录所有可能。

3.1系统利用元数据可以判断出，“内容”会存储在哪些表

3.2再通过内容进行筛选

(4)系统生成产生表单的所有模型组合

(5)利用步骤1、2读入N个的表单样本进行辅助计算，选取概率最高的模型进行数据展现

(6)系统根据选取的模型生成2N+3个数据表单进行校验，利用图像对比技术进行确认，如果没有问题则表单生成完毕。如果存在问题，需要认购对2.2产生的模型进行确认。

使用者可以设定表单的业务单号，输入单号系统将根据单号生成业务表单。

实施例四

按照传统方式开发一个表单展现需要1人/天，利用本发明不需要使用者具备编程能力，并且一天可以完成20+的表单展现。

如图4所示的是一张员工入职申请登记表。处理过程如图5所示，原始的解决步骤如下：

1、业务人员向IT人员提供表单样式。

2、IT人员根据表单样式进行表单开发。

3、IT人员编写程序简历表单内容与数据库中存储数据的关系。

4、IT人员编写完程序测试无误后提交给业务人员。

5、表单样式变更后，重复步骤1～4。

应用本发明后的步骤如下：

1、业务人员建立表单样式，并制作多份样本数据如图4。

2、业务人员将样本数据提交给系统进行处理。

3、系统根据图5中2～6进行计算，完成原有需要IT人员所做的工作。

a)“刘禹彤入职申请”将纸质表单制作成图片。

b)利用图像识别技术(如OpenCV)对图片进行分析，获取表单样式(图片、符号、表格/线)，获取表单文字内容。

c)利用OCR对表单文字内容识别。

d)计算文字内容在数据库中存储的位置(表、字段)的概率

e)输入多个表单进行数据训练。

f)确定最终表单与存储位置对应的模型。

g)录入刘禹彤工号“08152”，系统生成“入职申请单”，系统将图片内容与系统生成内容进行匹配，如果完全匹配则完成，不完全匹配的话需要加大样本数据的训练。

通过上述步骤，发现反向实施可以解决大量人工录入问题。

1、应聘人员填写“入职申请表”，数据如图4。

2、业务人员将“入职申请表”扫描入系统。

3、系统根据图5中2～6进行计算，完成数据录入的工作。

a)“刘禹彤入职申请”将纸质表单制作成图片。

c)利用OCR对表单文字内容识别。

d)通过实施例四已经计算好的结果(实施例四3.d)，将“入职申请表”内容存储到数据库中。

利用实施例四，展现“刘禹彤入职申请”。

实施例五

在现有技术当中，能够处理的是表格和文字分别进行输入的，表格和文字有着明显的颜色、粗细、字体上的不同(例如发票等)，解决的是数据录入问题。而对于同时打印或展现出来的带有文字的表格(例如登记表、简历等等)，这种处理方法显然是不能够实现的。

本发明的对象正是这个带有文字和表格且文字和表格同时被展现或打印出来的文档，解决IT系统(数据库)中内容展现问题，减少IT人员投入，降低相关成本及提供实施效率。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种自动按照纸质表单展现系统数据的方法，包括利用图像识别技术获取纸质表单中的表格信息，其特征在于，还包括以下步骤：

步骤1：利用OCR和/或文本分析识别所述纸质表单中的字符；

步骤3：生成产生表单的所有模型组合；

步骤6：输入表单的业务单号生成业务表单。

2.如权利要求1所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述获取纸质表单中的表格信息的步骤还包括将表格的位置信息同步还原成电子文档。

3.如权利要求2所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述还原成电子文档的方法包括以下子步骤：

步骤01：按照图像大小同比例生成电子模板纸张大小；

4.如权利要求3所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述步骤1还包括对比元数据定义，分别字符内容中的标题及内容。

5.如权利要求4所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述字符包括文字和/或数字。

6.如权利要求5所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述步骤2包括以下子步骤：

步骤21：利用元数据判断所述内容存储在那些表中；

步骤22：通过所述内容进行筛选。

7.如权利要求6所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述步骤4还包括选取概率最高的所述模型进行数据展现。

8.如权利要求7所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述步骤5还包括利用图像相对比技术对所述数据表单进行确认，如果无误则表单生成完毕。

9.如权利要求7所述的自动按照纸质表单展现系统数据的方法，其特征在于，所述步骤5还包括当比对出现问题时返回步骤1重新对所述模型进行确认。

10.一种自动按照纸质表单展现系统数据的系统，包括用于利用图像识别技术获取纸质表单中的表格信息的信息获取模块，其特征在于，还包括以下模块：

模型生成模块：用于生成产生表单的所有模型组合；

辅助计算模块：读入N个表单样本进行数据训练，记录各字段存储在数据库位置的最大概率；

输出模块：用于输入表单的业务单号生成业务表单。