CN113191348A

CN113191348A - 一种基于模板的文本结构化提取方法及工具

Info

Publication number: CN113191348A
Application number: CN202110603169.6A
Authority: CN
Inventors: 王本强; 王建华; 李锐
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-07-30
Anticipated expiration: 2041-05-31
Also published as: CN113191348B

Abstract

本发明公开一种基于模板的文本结构化提取方法，涉及信息提取技术领域，为快速提取文本信息，采用方案包括：制作模板图片；通过字符定位算法定位模板图片中固定信息区域内每个字符的精确位置；获取待识别图片，利用ocr算法对待识别图片进行文字识别，得到多个字符；匹配待识别图片和模板图片，针对两图片中匹配成功的字符串区域，通过字符定位算法抽取匹配成功的字符精确位置，并比对找到相同字符的坐标值，矫正待识别图片，对矫正后的待识别图片再次进行文字识别，得到多个字符；求矫正后字符所在区域与模板图片可变信息区域的交集，选出交集面积最大的区域，并输出该区域的文字信息。本发明还公开一种实现前述方法的文本结构化提取工具。

Description

一种基于模板的文本结构化提取方法及工具

技术领域

本发明涉及信息提取技术领域，具体的说是一种基于模板的文本结构化提取方法及工具。

背景技术

随着行业发展及深度学习技术的落地，文字识别已经在多个行业得到广泛的应用，如金融行业的票据识别，快递物流行业的快速分拣，交通行业的车牌识别、出租车票识别，以及日常生活中的卡证、票据识别等等。OCR(文字识别)已经作为了一种人工智能的能力，节约了大量的人力物力，也提高效率及准确率。

当前，针对不同的业务场景，业务人员收集数据，研发人员对数据进行整理，利用识别相关的技术开发出不同的算法，来满足不同的业务需求。这种处理方法来一个需求就要开发出一种识别算法，费时费力，对公司及相关人员提出了很大的考验。

日常生活中，有很多的文档、票据、卡证，它们都有固定的格式，只是有些区域是不同的，比如身份证，姓名后面具体某个人的名字，性别后面的具体性别，男或女。针对这种有固定格式的文档、票据、卡证，可以设计研发一种，完成想要提取的文字信息。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于模板的文本结构化提取方法及工具。

首先，本发明公开一种基于模板的文本结构化提取方法，解决上述技术问题采用的技术方案如下：

一种基于模板的文本结构化提取方法，其实现过程包括：

步骤S1、基于具有固定格式的样本图片，制作模板图片，并标记模板图片中的固定信息区域和可变信息区域；

步骤S2、通过字符定位算法，定位模板图片中固定信息区域内每个字符的精确位置；

步骤S3、获取待识别图片，调整待识别图片的尺寸，使其与模板图片的大小一致，调整完成后，利用深度学习的ocr算法对待识别图片进行文字识别，得到多个字符；

步骤S4、基于识别字符在待识别图片的位置、以及相邻字符之间的距离，匹配待识别图片和模板图片；

步骤S5、待识别图片和模板图片匹配成功后，针对待识别图片和模板图片中匹配成功的字符串区域，首先通过字符定位算法，定位待识别图片中匹配成功的字符串区域内每个字符的精确位置，随后把待识别图片中定位的字符位置与模板图片中定位的字符位置进行比对，找到相同字符对应的坐标值；

步骤S6、根据相同字符对应的坐标值，基于模板图片矫正待识别图片，对矫正好的待识别图片执行步骤S3，得到多个字符；

步骤S7、求步骤S6识别字符所在可变信息区域与模板图片中可变信息区域的交集，选出交集面积最大的区域作为输出区域，待识别图片的识别结果位于输出区域内；

步骤S8、设定每个字符所属区域的输出规则，对输出区域的字符进行正则化处理后输出。

具体的，执行步骤S2或步骤S5时，通过字符定位算法定位字符精确位置的具体操作流程为：

(1)裁剪模板图片中/待识别图片中的固定信息区域，得到多个文本行；

(2)通过craft的OCR算法，生成文本行所包含字符的热力图；

(3)分割文本行的热力图，得到文本行的前景图像；

(4)通过分割算法，分割文本行的前景图像，得到字符区域所在小框的位置信息；

(5)计算文本行所包含的小框数量和字符数量，在两者相等时，裁剪文本行上的小框，对小框的字符进行灰度及二值化处理，找到字符的边缘外框，将相邻边缘外框合并为一个大框，大框的中心点坐标即为字符在模板图片/待识别图片的中心点位置信息。

具体的，执行步骤S3，利用深度学习的ocr算法对待识别图片进行文字识别，并根据设置的过滤参数过滤掉识别出的小框、太大框、竖框，得到多个字符。

具体的，执行步骤S5，待识别图片和模板图片匹配成功后，求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域。

优选的，对输出区域的字符进行正则化处理后，以json格式输出。

其次，本发明公开一种基于模板的文本结构化提取工具，解决上述技术问题采用的技术方案如下：

一种基于模板的文本结构化提取工具，其结构包括：

模板制作模块，用于基于具有固定格式的样本图片，制作模板图片，并标记模板图片中的固定信息区域和可变信息区域；

信息抽取模块，用于通过字符定位算法，定位模板图片中/待识别图片中固定信息区域内每个字符的精确位置；

获取调整模块，用于获取待识别图片，调整待识别图片的尺寸，使其与模板图片的大小一致；

文字识别模块，用于利用深度学习的ocr算法对调整完成的待识别图片进行文字识别，得到多个字符；

匹配计算模块，用于利用识别字符在待识别图片的位置、以及相邻字符之间的距离，匹配待识别图片和模板图片，还用于在待识别图片和模板图片匹配成功后，将待识别图片中匹配成功的字符串区域输入信息抽取模块；

精确定位模块，用于将信息抽取模块输出的待识别图片中定位的字符位置与模板图片中定位的字符位置进行比对，找到相同字符对应的坐标值；

矫正再识别模块，用于获取相同字符对应的坐标值，并基于模板图片矫正待识别图片，基于深度学习的ocr算法对矫正后的待识别图片进行文字识别，得到多个字符；

识别区域确定模块，用于求矫正再识别模块输出字符所在可变信息区域与模板图片可变信息区域的交集，选出交集面积最大的区域作为输出区域，待识别图片的识别结果位于输出区域内；

正则处理模块，用于设定每个字符所属区域的输出规则，对输出区域的字符进行正则化处理；

结构化输出模块，用于对正则化处理后的字符进行规范化整理并输出。

具体的，所涉及信息抽取模块通过字符定位算法定位模板图片中/待识别图片中固定信息区域内每个字符的精确位置，具体流程为：

裁剪模板图片中/待识别图片中的固定信息区域，得到多个文本行；

通过craft的OCR算法，生成文本行所包含字符的热力图；

分割文本行的热力图，得到文本行的前景图像；

通过分割算法，分割文本行的前景图像，得到字符区域所在小框的位置信息；

计算文本行所包含的小框数量和字符数量，在两者相等时，裁剪文本行上的小框，对小框的字符进行灰度及二值化处理，找到字符的边缘外框，将相邻边缘外框合并为一个大框，大框的中心点坐标即为字符在模板图片/待识别图片的中心点位置信息。

具体的，所涉及文字识别模块利用深度学习的ocr算法对待识别图片进行文字识别时，根据设置的过滤参数过滤掉识别出的小框、太大框、竖框后，得到多个字符。

具体的，所涉及匹配计算模块在待识别图片和模板图片匹配成功后，首先求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域，随后将待识别图片中匹配成功的字符串区域输入信息抽取模块。

具体的，所涉及结构化输出模块对正则化处理后的字符进行规范化整理后以json格式输出。

本发明的一种基于模板的文本结构化提取方法及工具，与现有技术相比具有的有益效果是：

(1)本发明通过制作模板、以模板的固定信息与待识别图片的固定信息进行比对定位，确定待识别区域，进而识别并提取待识别区域的文字信息，具有简单快速提取文本信息的优点；

(2)本发明可以适用于具有固定格式的文件，不限于票据文件和卡证文件。

附图说明

附图1是本发明实施例一的方法流程图；

附图2是本发明实施例二的模块连接框图；

附图3是本发明抽取模板图片中字符精确位置的流程图。

附图中各标号信息表示：

1、模板制作模块，2、信息抽取模块，3、获取调整模块，

4、文字识别模块，5、匹配计算模块，6、精确定位模块，

7、矫正再识别模块，8、识别区域确定模块，9、正则处理模块，

10、结构化输出模块。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1、3，本实施例提出一种基于模板的文本结构化提取方法，其实现过程包括：

步骤S1、基于具有固定格式的样本图片，制作模板图片，并标记模板图片中的固定信息区域和可变信息区域。

步骤S2、通过字符定位算法，定位模板图片中固定信息区域内每个字符的精确位置，具体操作流程为：

步骤S2.1、裁剪模板图片中的固定信息区域，得到多个文本行；

步骤S2.2、通过craft的OCR算法，生成文本行所包含字符的热力图；

步骤S2.3、分割文本行的热力图，得到文本行的前景图像；

步骤S2.4、通过分割算法，分割文本行的前景图像，得到字符区域所在小框的位置信息；

步骤S2.5、计算文本行所包含的小框数量和字符数量，在两者相等时，裁剪文本行上的小框，对小框的字符进行灰度及二值化处理，找到字符的边缘外框，将相邻边缘外框合并为一个大框，大框的中心点坐标即为字符在模板图片/待识别图片的中心点位置信息。

步骤S3、获取待识别图片，调整待识别图片的尺寸，使其与模板图片的大小一致，调整完成后，利用深度学习的ocr算法对待识别图片进行文字识别，得到多个字符。

执行本步骤时，应当首先过滤掉尺寸与模板图片尺寸相差较大的待识别图片，并设置过滤参数，以过滤掉识别出的小框、太大框、竖框，得到多个字符。

步骤S4、基于识别字符在待识别图片的位置、以及相邻字符之间的距离，匹配待识别图片和模板图片。

步骤S5、待识别图片和模板图片匹配成功后，求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域，针对匹配成功的字符串区域，其应当从属于固定信息区域，

步骤S5.1、首先通过字符定位算法，抽取待识别图片中固定信息区域内每个字符的精确位置，具体操作流程为：

步骤S5.1.1、裁剪待识别图片中的固定信息区域，得到多个文本行；

步骤S5.1.2、通过craft的OCR算法，生成文本行所包含字符的热力图；

步骤S5.1.3、分割文本行的热力图，得到文本行的前景图像；

步骤S5.1.4、通过分割算法，分割文本行的前景图像，得到字符区域所在小框的位置信息；

步骤S5.1.5、计算文本行所包含的小框数量和字符数量，在两者相等时，裁剪文本行上的小框，对小框的字符进行灰度及二值化处理，找到字符的边缘外框，将相邻边缘外框合并为一个大框，大框的中心点坐标即为字符在模板图片/待识别图片的中心点位置信息。

步骤S5.2、随后把待识别图片中定位的字符位置与模板图片中定位的字符位置进行比对，找到相同字符对应的坐标值。

步骤S6、根据相同字符对应的坐标值，基于模板图片矫正待识别图片，对矫正好的待识别图片执行步骤S3，得到多个字符。

步骤S7、求步骤S6识别字符所在可变信息区域与模板图片中可变信息区域的交集，选出交集面积最大的区域作为输出区域，待识别图片的识别结果位于输出区域内。

步骤S8、设定每个字符所属区域的输出规则，对输出区域的字符进行正则化处理，最后以json格式输出。

实施例二：

结合附图2、3，本实施例提出一种基于模板的文本结构化提取工具，其结构包括模板制作模块1、信息抽取模块2、获取调整模块3、文字识别模块4、匹配计算模块5、精确定位模块6、矫正再识别模块7、识别区域确定模块8、正则处理模块9、结构化输出模块10。

模板制作模块1基于具有固定格式的样本图片，制作模板图片，并标记模板图片中的固定信息区域和可变信息区域。

信息抽取模块2通过字符定位算法，定位模板图片中/待识别图片中固定信息区域内每个字符的精确位置，具体执行流程包括：

(2)通过craft的OCR算法，生成文本行所包含字符的热力图；

(3)分割文本行的热力图，得到文本行的前景图像；

获取调整模块3获取待识别图片，调整待识别图片的尺寸，使其与模板图片的大小一致。

文字识别模块4利用深度学习的ocr算法对调整完成的待识别图片进行文字识别，根据设置的过滤参数过滤掉识别出的小框、太大框、竖框后，得到多个字符。

匹配计算模块5一方面利用识别字符在待识别图片的位置、以及相邻字符之间的距离，匹配待识别图片和模板图片，另一方面在待识别图片和模板图片匹配成功后，首先求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域，随后将待识别图片中匹配成功的字符串区域，即固定信息区域，输入信息抽取模块2。

精确定位模块6，用于将信息抽取模块2输出的待识别图片中定位的字符位置与模板图片中定位的字符位置进行比对，找到相同字符对应的坐标值。

矫正再识别模块7，用于获取相同字符对应的坐标值，并基于模板图片矫正待识别图片，基于深度学习的ocr算法对矫正后的待识别图片进行文字识别，得到多个字符。

识别区域确定模块8，用于求矫正再识别模块7输出字符所在可变信息区域与模板图片可变信息区域的交集，选出交集面积最大的区域作为输出区域，待识别图片的识别结果位于输出区域内。

正则处理模块9，用于设定每个字符所属区域的输出规则，对输出区域的字符进行正则化处理。

结构化输出模块10对正则化处理后的字符进行规范化整理后以json格式输出。

综上可知，采用本发明的一种基于模板的文本结构化提取方法及工具，可以快速识别并提取待识别区域的文字信息，尤其适用于具有固定格式为文件。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于模板的文本结构化提取方法，其特征在于,其实现过程包括：

2.根据权利要求1所述的一种基于模板的文本结构化提取方法，其特征在于，执行步骤S2或步骤S5时，通过字符定位算法定位字符精确位置的具体操作流程为：

(2)通过craft的OCR算法，生成文本行所包含字符的热力图；

(3)分割文本行的热力图，得到文本行的前景图像；

3.根据权利要求1所述的一种基于模板的文本结构化提取方法，其特征在于，执行步骤S3，利用深度学习的ocr算法对待识别图片进行文字识别，并根据设置的过滤参数过滤掉识别出的小框、太大框、竖框，得到多个字符。

4.根据权利要求1所述的一种基于模板的文本结构化提取方法，其特征在于，执行步骤S5，待识别图片和模板图片匹配成功后，求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域。

5.根据权利要求1所述的一种基于模板的文本结构化提取方法，其特征在于，对输出区域的字符进行正则化处理后，以json格式输出。

6.一种基于模板的文本结构化提取工具，其特征在于，其结构包括：

7.根据权利要求6所述的一种基于模板的文本结构化提取工具，其特征在于，所述信息抽取模块通过字符定位算法定位模板图片中/待识别图片中固定信息区域内每个字符的精确位置，具体流程为：

通过craft的OCR算法，生成文本行所包含字符的热力图；

分割文本行的热力图，得到文本行的前景图像；

8.根据权利要求6所述的一种基于模板的文本结构化提取工具，其特征在于，所述文字识别模块利用深度学习的ocr算法对待识别图片进行文字识别时，根据设置的过滤参数过滤掉识别出的小框、太大框、竖框后，得到多个字符。

9.根据权利要求6所述的一种基于模板的文本结构化提取工具，其特征在于，所述匹配计算模块在待识别图片和模板图片匹配成功后，首先求待识别图片和模板图片中匹配成功的字符串区域所构成的最大四边形面积所在的区域，并将该区域作为匹配成功的字符串区域，随后将待识别图片中匹配成功的字符串区域输入信息抽取模块。

10.根据权利要求6所述的一种基于模板的文本结构化提取工具，其特征在于，所述结构化输出模块对正则化处理后的字符进行规范化整理后以json格式输出。