CN111695566B

CN111695566B - 一种对固定格式文档的识别处理方法及处理系统

Info

Publication number: CN111695566B
Application number: CN202010561793.XA
Authority: CN
Inventors: 郭纯一; 郝天然; 朱阿静; 王俊淇; 方俊; 吕培; 周兵
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2023-03-14
Anticipated expiration: 2040-06-18
Also published as: CN111695566A

Abstract

本发明公开了一种对固定格式文档的识别处理方法。本发明根据关键词将待识别图像迅速与固定格式文档进行匹配，提高识别效率和准确度，并且根据固定字符将待识别图像划分为多个独立的固定格式区，根据固定字符设定每个固定格式区内的内容属性和校正规则，对固定格式区内的待识别字符进行独立的识别校正，能够有效的提高识别效率和识别的准确度，由固定格式区中识别出的内容信息集合到一个整体，从而快速得出一个准确度高的识别处理结果。

Description

一种对固定格式文档的识别处理方法及处理系统

技术领域

本发明涉及计算机信息处理领域的后处理技术领域，尤其涉及一种对固定格式文档的识别处理方法及处理系统。

背景技术

后处理是OCR(光学字符识别)技术应用的一个重要部分，目前OCR文字识别结果存在误识的问题，尤其是质量较低、字迹模糊、字符倾斜、手写字符的文本识别，后处理方法的应用在一定程度上提高了识别的准确率。

传统后处理方法采用人工校正，将识别后的字符进行一一检查，标记出误识字符，然后进行人工纠正。人工校正不能自动处理，对于批量处理识别结果需要依次校正，费时耗力，工作量巨大。

现有技术中后处理方法引入NLP(Natural Languange Process)技术，将识别结果进行词法切分和语法匹配，及对句子进行分词，然后以待识词为中心，通过与上下文进行语法匹配检查来识别待识字符。该方法能够完成自动的识别并一定程度上提高识别的准确率。但是在对固定格式文档进行识别时，每次识别均需要对固定格式文档中的内容进行全面识别，不能对固定格式文档类别进行匹配。并且在识别时不能对固定格式文档中固定格式区域内的字符进行独立的识别校正；而造成识别效率较低，容易出现识别错误的情况。

发明内容

本发明主要解决的技术问题是提供一种对固定格式文档的识别处理方法及处理系统，解决对固定格式文档的字符识别过程中不能准确识别文档类别，对固定区域的字符不能独立识别，以及缺乏文档纠偏校正的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种对固定格式文档的识别处理方法，包括步骤：

建立模板标识，针对不同类型的固定格式文档，分别从中提取多个用于表征固定格式文档的关键词，用多个关键词作为固定格式文档的标识；

设定校正规则，对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的字符的依据；

输入图像匹配，输入待识别图像，从待识别图像中识别出其中的字符，再从字符中筛选出关键词，通过对关键词检索分析，将待识别图像与对应的固定格式文档相匹配；

输出识别结果，根据固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对待识别图像中识别出的字符对应进行校正，最终输出待识别图像的识别处理结果。

优选的，在建立模板标识步骤中，多个关键词离散分布在固定格式文档中的不同位置，并且多个关键词所在位置连线组成区域的面积大于或等于固定格式文档整体区域面积的二分之一。

优选的，多个关键词所在位置组成的几何拓扑结构也作为固定格式文档的标识。

优选的，在设定校正规则步骤中，内容属性包括字符类型、字符数量，校正规则包括相似校正、关联校正、选择校正。

优选的，在输入图像匹配步骤中，还包括对输入的待识别图像进行版面倾斜矫正，当待识别图像与对应的固定格式文档匹配后，根据待识别图像中的关键词的坐标位置与对应的固定格式文档中的关键词的坐标位置映射，矫正待识别图像的版面。

优选的，在输出识别结果步骤中，包括对固定格式文档中的固定字符进行匹配，以及对固定格式区中的待识别字符进行校正识别。

一种对固定格式文档的识别处理系统，包括：

前期处理单元，针对不同类型的固定格式文档，分别从中提取多个用于表征固定格式文档的关键词，用多个关键词作为固定格式文档的标识；对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的文字的依据；

图像匹配单元，输入待识别图像，从待识别图像中识别出其中的字符，再从字符中筛选出关键词，通过对关键词检索分析，将待识别图像与前期处理单元中对应的固定格式文档相匹配；

识别输出单元，根据前期处理单元中的固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对待识别图像中识别出的字符对应进行校正，最终输出待识别图像的识别处理结果。

优选的，前期处理单元包括关键词设定模块，将多个关键词及其所在位置组成的几何拓扑结构作为固定格式文档的标识。

优选的，前期处理单元包括校正规则设定模块，对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的字符的依据。

优选的，图像匹配单元包括版面倾斜矫正模块，根据待识别图像中的关键词的坐标位置与对应的固定格式文档中的关键词的坐标位置映射，矫正待识别图像的版面。

本发明的有益效果是：通过关键词作为固定格式文档的标识；能够快速将待识别图像与固定格式文档进行匹配，提高识别效率和准确度；将固定格式文档分成多个固定格式区，并且给每一个固定格式区对应设定的内容属性和校正规则，将待识别图像中的待识别字符与固定格式区内的内容属性和校正规则进行关联，有效的对固定格式区内的待识别字符进行独立识别并进行校正，提高了识别效率和识别的准确率。

附图说明

图1是根据本发明对固定格式文档的识别处理方法的一实施例的流程图；

图2是根据本发明对固定格式文档的识别处理方法的一实施例的输入图像示例图；

图3是根据本发明对固定格式文档的识别处理方法对图2的实例图像进行校正后的示例图；

图4是根据本发明对固定格式文档的识别处理系统的一实施例的结构示意图；

图5是根据本发明对固定格式文档的识别处理系统的另一实施例的结构示意图；

图6是根据本发明对固定格式文档的识别处理系统的另一实施例的结构示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明对固定格式文档的识别处理方法一实施例的流程图。在图1中，包括：

步骤S1：建立模板标识，针对不同类型的固定格式文档，分别从中提取多个用于表征固定格式文档的关键词，用多个关键词作为固定格式文档的标识；

步骤S2：设定校正规则，对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的字符的依据；

步骤S3：输入图像匹配，输入待识别图像，从待识别图像中识别出其中的字符，再从字符中筛选出关键词，通过对关键词检索分析，将待识别图像与对应的固定格式文档相匹配；

步骤S4：输出识别结果，根据固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对待识别图像中识别出的字符对应进行校正，最终输出待识别图像的识别处理结果。

由此可见，通过上述实施例中的步骤S1和步骤S2为不同类型的固定格式文档构建了模板标识和校正规则，这种方式适用于固定格式文档，例如表格文档、试卷文档等。有利于按类别来为这些固定格式文档建立识别模板，这样可以根据模板上印制的图案、字符等进行识别匹配，增强了识别判断的鲁棒性。步骤S3和步骤S4则是对输入的图像进行匹配，对应找到相匹配的固定格式文档模板，当确认好对应的固定格式文档后，就可以利用该固定格式文档对其中的各个功能区进行识别判断。这种方式实际上是利用了固定格式文档中填写内容的固定性和有限性进行快速识别和准确识别，有利于提高识别速度和准确率。

优选的，如图2所示，在建立模板标识步骤中，多个关键词离散分布在固定格式文档中的不同位置，并且多个关键词所在位置连线组成区域的面积大于或等于固定格式文档整体区域面积的二分之一。这里，关键词的选取通常是选择该固定格式文档中的印刷体格式的关键词，因为这种关键词易于准确识别出来作为识别的依据。另外，就是要使得这些关键词尽可能选择使用的频度不相同，并且分布在该固定格式文档的多个位置，并且这些位置也是尽可能占据到文档的主要区域，因此这里有多个关键词所在位置连线组成区域的面积大于或等于固定格式文档整体区域面积的二分之一，其目的就是要从整体上对该文档进行格式匹配，增强匹配的准确度。这是因为，如果关键词分布位置相对比较集中的话，在一些相似的表格中则难以区分，例如关键词包括“姓名”、“性别”、“民族”、“生日”，这些关键词通常都是分布在文档的上部，并且多种类型的文档都具有这些关键词，也就是说这些关键词属于高频关键词，因此在选择时不能都选择高频关键词，而是对使用频度不同的关键词进行组合选取。这样能够减少校正时的误差，提高识别准确度。

优选的，如图2所示，选取关键词时，每个固定格式的文档中均具有特有的关键词，关键词具有唯一性，不含有相同的字符。可以选取3-5关键词，选取的关键词有：S₁籍贯，S₂致富技能，S₃备，S₄原件，多个关键词所在位置连线组成区域的面积大于固定格式文档整体的二分之一。

优选的，这里的关键词并不限定为文字，还可以选取二维码、logo图案、通用的表头信息等，通过二维码或表头信息可以直接获得该固定格式文档的固定字符信息，例如发票上的二维码信息，当识别二维码信息以后获得该固定格式文档为发票，即可得出固定格式文档中包括的内容有：名称、纳税人识别号、地址、电话、开户行及账号、金额、税率等字符信息。

优选的，多个关键词所在位置组成的几何拓扑结构也作为固定格式文档的标识。如图2所示，四个关键词组成直角梯形的结构，可以判断出四个关键词中，直角梯形斜边上的关键词不在同一行中，给固定格式文档的标识提供更多的识别信息。还可以由三个关键词组成三角形、等边三角形、直角三角形等，还可以由四个关键词组成正方形、长方形、平行四边形、菱形、梯形等结构，还可以由五个关键词组成正五边形等，根据这些几何拓扑结构得出关键词之间的位置关系，是否在同一行、同一列等位置关系，从而有利于准确识别固定格式文档的类型。

以上是通过关键词的字符含义、关键词所在位置的几何特征信息来建立不同类型的固定格式文档的特征标识，后续在对输入图像的识别过程中，就是要根据这些特征标识来判断输入图像是匹配哪一种固定格式文档，并且具有准确度高和匹配速度快的优点，有利于快速准确的找到该输入图像对应的固定格式文档模板。

如图2所示，对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的字符的依据；优选的，在设定校正规则步骤中，内容属性包括字符类型、字符数量，校正规则包括相似校正、关联校正、选择校正。例如以Z₁、Z₂和Z₃固定格式区为例，这些区域也是待识别字符的所在区域，Z₁固定格式区所对应的固定字符为性别，则Z₁固定格式区所填内容的字符类型为汉字，字符数量为一个，并且只有男、女两个选项，如果识别为其他字符，将其根据男、女字符的相似度进行相似修正和选择修正，如果识别出为“思”、“胃”等字符或“思了”、“胃1”等词组时校正为“男”，“交”、“艾”、“文”等字符或词组时修正为女；Z₂固定格式区所对应的固定字符为民族，Z₂固定格式区所填内容为56个民族汉字组成的字符集合，识别为此字符集合外的字符，将其进行相似校正，例如“士”校正为“土”，“日”校正为“白”等；还可以进行关联校正，例如“致别克”关联校正为“乌孜别克”，“湿克”关联校正为“鄂温克”等。Z₃固定格式区所对应的固定字符为本人身份证号，Z₃固定格式区所填内容为0-9阿拉伯数字和英文字符x，识别为此字符集合外的字符，将其校正，例如汉字“了”校正为“3”，汉字“日”校正为“8”等。

如图2和图3所示，固定格式文档关键词为S₁，S₂，S₃，S₄，分别以固定格式区的中点作为固定格式区的坐标值。

设固定格式文档图像为f(x，y)，待识别图像为F(X',Y'),映射变换的表达式为：

R(m)＝PM+Q, (1)

式(1)中m＝(x,y)是固定格式文档图像中的像素的坐标位置，M＝(X',Y')是待识别图像的像素的坐标位置，P是2*2的旋转矩阵，Q是2*1的平移向量，P、Q即为映射变换参数，即：

x＝aX'+b Y'+c，y＝dX'+eY'+f, (2)

将固定格式文档图像与待识别图像中对应的坐标值代入公式(2)，求得系数a，b，c，d，e，f的值，即求得映射变换的表达式。通过映射变换的表达式确定固定格式区的图像中各个区域的内容属性。

优选的，在输出识别结果步骤中，包括对固定格式文档中的固定字符进行匹配，以及对固定格式区中的待识别字符进行校正识别。固定格式文档中包括有多个固定字符和多个固定格式区，固定格式区内为待识别字符，固定字符可以是印刷体、手写体等，固定字符第一次识别进行校正后作为固定格式文档的模板，下次的固定格式文档识别时可以直接进行匹配，不需要再次对固定字符进行识别，从而提高效率和准确度。固定格式区中的待识别字符可以是打印体、手写体等，待识别字符根据对应的固定字符设定内容属性和校正规则进行校正，最终获得准确的识别结果。基于同一构思，如图4所示，本发明还给出了一种对固定格式文档的识别处理系统，包括：

前期处理单元10，针对不同类型的固定格式文档，分别从中提取多个用于表征固定格式文档的关键词，用多个关键词作为固定格式文档的标识；对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的文字的依据。

图像匹配单元20，输入待识别图像，从待识别图像中识别出其中的字符，再从字符中筛选出关键词，通过对关键词检索分析，将待识别图像与前期处理单元中对应的固定格式文档相匹配。

识别输出单元30，根据前期处理单元中的固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对待识别图像中识别出的字符对应进行校正，最终输出待识别图像的识别处理结果。

优选的，如图5所示，前期处理单元10包括关键词设定模块101，将多个关键词及其所在位置组成的几何拓扑结构作为固定格式文档的标识。

优选的，如图5所示，前期处理单元10包括校正规则设定模块102，对固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别固定格式区中的字符的依据。

优选的，如图6所示，图像匹配单元20包括版面倾斜矫正模块201，根据待识别图像中的关键词的坐标位置与对应的固定格式文档中的关键词的坐标位置映射，矫正待识别图像的版面。

由此可见，本发明根据关键词将待识别图像迅速与固定格式文档进行匹配，提高识别效率和准确度，并且根据固定字符将待识别图像划分为多个独立的固定格式区，根据固定字符设定每个固定格式区内的内容属性和校正规则，对固定格式区内的待识别字符进行独立的识别校正，能够有效的提高识别效率和识别的准确度，由固定格式区中识别出的内容信息集合到一个整体，从而快速得出一个准确度高的识别处理结果。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种对固定格式文档的识别处理方法，其特征在于，包括步骤：

建立模板标识，针对不同类型的固定格式文档，分别从中提取多个用于表征所述固定格式文档的关键词，用多个所述关键词作为所述固定格式文档的标识；

设定校正规则，对所述固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别所述固定格式区中的字符的依据；

输入图像匹配，输入待识别图像，从所述待识别图像中识别出其中的字符，再从所述字符中筛选出关键词，通过对所述关键词检索分析，将所述待识别图像与对应的所述固定格式文档相匹配；

输出识别结果，根据所述固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对所述待识别图像中识别出的字符对应进行校正，最终输出所述待识别图像的识别处理结果；

在所述建立模板标识步骤中，多个所述关键词离散分布在所述固定格式文档中的不同位置，并且多个所述关键词所在位置连线组成区域的面积大于或等于所述固定格式文档整体区域面积的二分之一；

在所述设定校正规则步骤中，所述内容属性包括字符类型、字符数量，所述校正规则包括相似校正、关联校正、选择校正。

2.根据权利要求1所述的对固定格式文档的识别处理方法，其特征在于，多个所述关键词所在位置组成的几何拓扑结构也作为所述固定格式文档的标识。

3.根据权利要求1所述的对固定格式文档的识别处理方法，其特征在于，在所述输入图像匹配步骤中，还包括对输入的待识别图像进行版面倾斜矫正，当所述待识别图像与对应的所述固定格式文档匹配后，根据待识别图像中的关键词的坐标位置与对应的所述固定格式文档中的关键词的坐标位置映射，矫正待识别图像的版面。

4.根据权利要求1所述的对固定格式文档的识别处理方法，其特征在于，在所述输出识别结果步骤中，包括对所述固定格式文档中的固定字符进行匹配，以及对固定格式区中的待识别字符进行校正识别。

5.一种对固定格式文档的识别处理系统，其特征在于，包括：

前期处理单元，针对不同类型的固定格式文档，分别从中提取多个用于表征所述固定格式文档的关键词，用多个所述关键词作为所述固定格式文档的标识；多个所述关键词离散分布在所述固定格式文档中的不同位置，并且多个所述关键词所在位置连线组成区域的面积大于或等于所述固定格式文档整体区域面积的二分之一；

对所述固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别所述固定格式区中的文字的依据；所述内容属性包括字符类型、字符数量，所述校正规则包括相似校正、关联校正、选择校正；

图像匹配单元，输入待识别图像，从所述待识别图像中识别出其中的字符，再从所述字符中筛选出关键词，通过对所述关键词检索分析，将所述待识别图像与所述前期处理单元中对应的所述固定格式文档相匹配；

识别输出单元，根据所述前期处理单元中的所述固定格式文档中的每一个固定格式区对应设定的内容属性和校正规则，对所述待识别图像中识别出的字符对应进行校正，最终输出所述待识别图像的识别处理结果。

6.根据权利要求5所述的对固定格式文档的识别处理系统，其特征在于，所述前期处理单元包括关键词设定模块，将多个所述关键词及其所在位置组成的几何拓扑结构作为所述固定格式文档的标识。

7.根据权利要求6所述的对固定格式文档的识别处理系统，其特征在于，所述前期处理单元包括校正规则设定模块，对所述固定格式文档分成多个固定格式区，针对每一个固定格式区设定内容属性和校正规则，作为识别所述固定格式区中的字符的依据。

8.根据权利要求7所述的对固定格式文档的识别处理系统，其特征在于，所述图像匹配单元包括版面倾斜矫正模块，根据待识别图像中的关键词的坐标位置与对应的所述固定格式文档中的关键词的坐标位置映射，矫正待识别图像的版面。