CN116844182A

CN116844182A - 一种版式自动识别的卡证文字识别方法

Info

Publication number: CN116844182A
Application number: CN202310762287.0A
Authority: CN
Inventors: 仇恒坦; 潘震; 吴俊雄; 宁方刚; 陈兆亮
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-10-03

Abstract

本发明涉及计算机视觉和深度学习技术领域，具体为一种版式自动识别的卡证文字识别方法，包括如下步骤：对卡证的图像进行版式识别；对每一块区域进行文本检测；对区域内的每个文本区域进行文字识别；将文字识别信息与标签识别信息输入到识别器；有益效果为：本发明提出的版式自动识别的卡证文字识别方法，采用深度学习技术实现版式自动识别，避免了人工指定版式带来错误输出的问题；结合文字识别、语义关联等技术，自动建立字段与信息的关系，避免自定义字段需要大量人力成本和时间成本的问题。

Description

一种版式自动识别的卡证文字识别方法

技术领域

本发明涉及计算机视觉和深度学习技术领域，具体为一种版式自动识别的卡证文字识别方法。

背景技术

文字识别技术在政务系统数字化建设中的应用非常广泛，可以提高行政效能和服务水平，尤其是在政府公文数字化处理、表格信息数字化录入、智慧城市建设、数据文本化和自动分类等应用场景，加快了政务处理速度，降低政务处理成本。

现有技术中，常用的文字识别技术包括传统方法和深度学习方法。传统的文字识别技术主要基于模式匹配和特征提取算法，如边缘检测、二值化、投影法等。但是，这些方法对于不同的文本样式和噪声都很敏感，因此准确率有限。

发明内容

本发明的目的在于提供一种版式自动识别的卡证文字识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种版式自动识别的卡证文字识别方法，所述卡证文字识别方法包括如下步骤：

对卡证的图像进行版式识别；

对每一块区域进行文本检测；

对区域内的每个文本区域进行文字识别；

将文字识别信息与标签识别信息输入到识别器。

优选的，对卡证的图像进行版式识别时，采用深度学习技术，经过多层卷积，识别出文本的版式。

优选的，对每一块区域进行文本检测时，逐行确定区域内文本的位置信息。

优选的，采用深度学习技术实现，训练一个用于文本检测的模型，文本位置信息采用矩形框的四个角点或者多边形的角点表示。

优选的，对区域内的每个文本区域进行文字识别时，进行标签识别，确定字段标签、信息标签或者隐式信息标签。

优选的，对区域内的每个文本区域进行文字识别时，采用自然语言处理技术对识别的文字进行标签定义，建立文字与标签信息的关联。

优选的，将文字识别信息与标签识别信息输入到识别器时，通过规则算法进行信息提取，确定卡证类型。

优选的，将文字识别信息与标签识别信息输入到识别器时，借助文字信息和标签信息内容，输出结构化卡证信息，实现卡证信息结构化输出。

与现有技术相比，本发明的有益效果是：

本发明提出的版式自动识别的卡证文字识别方法，采用深度学习技术实现版式自动识别，避免了人工指定版式带来错误输出的问题；结合文字识别、语义关联等技术，自动建立字段与信息的关系，避免自定义字段需要大量人力成本和时间成本的问题；面对多样且不确定的卡证识别场景，该方法在一定程度上实现了自动识别卡证文字并输出结构化信息，相比传统的逐一定制化开发，提高了开发效率；采用明确且统一的算法，减少甚至避免了人工干预造成不确定性增加的问题，保证了产品质量稳定，提升了产品体验；部署简单，一套系统可适用于政务系统中绝大多数的卡证识别场景，提高了政务系统服务商的开发效率。

附图说明

图1为本发明方法流程图；

图2为本发明识别器工作流程图；

图3为本发明卡证识别实例图。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述，及优点更加清楚明白，以下结合附图对本发明实施例进行进一步详细说明。应当理解，此处所描述的具体实施例是本发明一部分实施例，而不是全部的实施例，仅仅用以解释本发明实施例，并不用于限定本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，本发明提供一种技术方案：一种版式自动识别的卡证文字识别方法，所述卡证文字识别方法包括如下步骤：

首先，对卡证的图像进行版式识别(layout recognition)，采用深度学习技术，经过多层卷积，识别出文本的版式。当输入一张营业执照图像时，识别整体版式为竖版还是横版。以横版营业执照为例，可识别出营业执照名字区域、统一社会信用代码区域、左侧信息区域、右侧信息区域等，其他文字区域可不作识别，最后可得到一个版式信息的区域坐标集。

接着，对每一块区域进行文本检测，逐行确定该区域内文本的位置信息。

然后，对区域内的每个文本区域进行文字识别；

同时，进行标签识别，确定字段标签、信息标签或者隐式信息标签，可以采用自然语言处理技术对识别的文字进行标签定义，建立文字与标签信息的关联。

以上文提到的左侧信息区域为例，此区域包括(公司)名称、(公司)类型、法定代表人、经营范围等信息，分别识别“名称”、“类型”、“法定代表人”、“经营范围”为字段标签，其后面信息为信息标签，结合位置信息关联策略和语义关联策略，建立信息之间的关联关系。

最后，将文字识别信息与标签识别信息输入到识别器(recognizer)，通过规则算法进行信息提取，确定卡证类型，同时借助文字信息和标签信息等内容，输出结构化卡证信息，实现卡证信息结构化输出。以上文提到的左侧信息区域为例，在该区域内，输出的结构化信息如下：

实施例二

如附图1所示，描述了该方法的整体流程图。首先，对卡证的图像进行版式识别(layout recognition)，采用深度学习技术，经过多层卷积，识别出文本的版式；接着，对每一块区域进行文本检测，逐行确定该区域内文本的位置信息；然后，对区域内的每个文本区域进行文字识别；同时，进行标签识别，确定字段标签、信息标签或者隐式信息标签，可以采用自然语言处理技术对识别的文字进行标签定义，建立文字与标签信息的关联；最后，将文字识别信息与标签识别信息输入到识别器(recognizer)，通过规则算法进行信息提取，确定卡证类型，同时借助文字信息和标签信息等内容，输出结构化卡证信息，实现卡证信息结构化输出。

实施例三

如附图2所示为识别器工作流程，描述了识别器在获取到卡证信息后生成卡证结构化信息的过程。首先，进行卡证识别，分别获取版式信息、文字信息以及标签信息；接着，对版式信息进行解析，依次对版式的每个区域进行K-V归纳，即根据区域信息、文字位置信息以及附带的标签信息归纳为“key-value”的字段信息；最后，将所有字段信息按照定义格式输出，最终生成卡证结构化信息。

实施例四

如附图3所示，介绍了一种卡证识别实例，其中虚线框内为基于该方法构建的系统。首先，读入卡证图像，进行卡证识别，将获取的信息输入到系统的处理机(processor)，最终生成该卡证的结构化信息。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种版式自动识别的卡证文字识别方法，其特征在于：所述卡证文字识别方法包括如下步骤：

对卡证的图像进行版式识别；

对每一块区域进行文本检测；

对区域内的每个文本区域进行文字识别；

将文字识别信息与标签识别信息输入到识别器。

2.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：对卡证的图像进行版式识别时，采用深度学习技术，经过多层卷积，识别出文本的版式。

3.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：对每一块区域进行文本检测时，逐行确定区域内文本的位置信息。

4.根据权利要求3所述的一种版式自动识别的卡证文字识别方法，其特征在于：采用深度学习技术实现，训练一个用于文本检测的模型，文本位置信息采用矩形框的四个角点或者多边形的角点表示。

5.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：对区域内的每个文本区域进行文字识别时，进行标签识别，确定字段标签、信息标签或者隐式信息标签。

6.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：对区域内的每个文本区域进行文字识别时，采用自然语言处理技术对识别的文字进行标签定义，建立文字与标签信息的关联。

7.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：将文字识别信息与标签识别信息输入到识别器时，通过规则算法进行信息提取，确定卡证类型。

8.根据权利要求1所述的一种版式自动识别的卡证文字识别方法，其特征在于：将文字识别信息与标签识别信息输入到识别器时，借助文字信息和标签信息内容，输出结构化卡证信息，实现卡证信息结构化输出。