CN114299528B

CN114299528B - 一种针对扫描文档的信息提取和结构化方法

Info

Publication number: CN114299528B
Application number: CN202111610235.9A
Authority: CN
Inventors: 林涵; 孔子详; 周靖靖; 张健; 孔令闯; 童庆; 周栋
Original assignee: WONDERS INFORMATION CO Ltd
Current assignee: WONDERS INFORMATION CO Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2024-03-22
Anticipated expiration: 2041-12-27
Also published as: CN114299528A

Abstract

本发明公开了一种针对扫描文档的信息提取和结构化方法，用于实现基于图像识别算法的非结构化文档处理和图片区域信息的文本结构化处理，其特征在于，包括图像监测；图像分类；图像预处理；文本检测；文本识别；版式识别；表格线检测；表格线生成；结构化处理；结构化输出。本发明通过将人工智能的图像识别技术与业务需求深度融合，利用图像识别中的OCR技术及文本结构处理技术，实现了申请材料自动化识别和校验，构建了全流程无人化服务运营模式，减轻工作人员的人工机械化工作，实现泛在的、全天候的无人化服务。

Description

一种针对扫描文档的信息提取和结构化方法

技术领域

本发明涉及一种针对扫描文档的信息提取和结构化方法，属于图像识别和自然语言处理技术领域。

背景技术

现有OCR识别技术对于理想情况下的样本(如电子版、扫描版)具有很好的识别效果。但是实际项目中，针对图像褶皱、文本扭曲/形变、印章水印干扰、背景嘈杂、针打字体等复杂场景的文本识别，现有技术的实际效果并不理想。这时需要对大量原生图文本进行人工干预(如准备高拍仪、图片铺平)，才能实现一定的效果。同时由于图片的多样性，也很难通过一个通用模型达到普遍较好的结构化结果。

发明内容

本发明要解决的技术问题是：现有OCR识别技术对于复杂场景的文本识别实际效果并不理想。

为了解决上述技术问题，本发明的技术方案是提供了一种针对扫描文档的信息提取和结构化方法，用于实现基于图像识别算法的非结构化文档处理和图片区域信息的文本结构化处理，其特征在于，包括以下步骤：

步骤1、图像监测：

对获取的图文本的图像质量进行评估，对图像质量不符合OCR文本工作基本要求标准的图文本进行拦截；

步骤2、图像分类：对未被拦截的图文本进行图像分类操作，将图文本按照图像类型以及图片样式进行分类；

步骤3、图像预处理：对已分类的图文本进行预处理，包括：

底图分离，将底图和文本信息分离开；

将图文本按照不同类型进行图像倾斜校正，包括：

对于发票类图文本：边缘检测后，按照直线角度对图文本进行校正；

对于表格类图文本：进行图像角度判断后进行图像倾斜校正，其中：对于线形表格类图文本：先利用大角度对图文本进行第一次校正后再利用小角度对图文本进行第二次校正；对于存在曲面褶皱的表格类图文本，通过透视矫正图像算法进行图像倾斜校正；

对于纯文本类图文本：按照平均角度对整个纯文本类图文本进行摆正处理；

图像去噪；

印章水印去除，还原被印章遮挡的文字或数字信息，进行版式恢复；

步骤4、文本检测：

识别出图文本中文本行出现的所有位置，以文本框的形式将所有文本行标记出来，从而将分离开的字符级的文本进行区域限定；

步骤5、文本识别：

对被文本框标记出来的文本行的文本内容进行文字识别，获得识别出的文本以及文本所对应的坐标信息；

步骤6、版式识别：对比识别前的原图文本，对每个原图文本中识别出的所有文本所对应的字符块结构进行版式分析，将图文本识别为模板式图文本、列表式图文本、表格式图文本或纯文本式图文本；

步骤7、表格线检测，包括横线检测和竖线检测，其中：横线检测通过检测图文本中出现的横线，将文本行分隔开；竖线检测用于检测图文本中的竖线；将检测出的横线和竖线相结合，将各个字段区域分开；

步骤8、表格线生成：

基于步骤5所获得的文本坐标位置信息，使用表格线生成模型，通过文本坐标的正态分布模型和文本框边际距离分析，自动生成用于将各个字段区域分开的横线和竖线；

步骤9、结构化处理：

利用步骤4及步骤5所记载的实体识别方法以及步骤7所记载的表格线检测方法或者步骤8所记载的表格线生成方法，对经过步骤1至步骤3处理的图文本进行图片文本区域划分；随后通过关系抽取模型，进行文本结构化处理，同时利用文本纠错模型，针对不同样本中存在一种含义的多种命名字段名词进行处理，保证输出结构化字段的统一性，针对步骤6所确定的不同版式，结构化处理有不同的处理方式：

针对模板式图文本：设定关键区域坐标作为模板锚点，形成模板；当前图文本中较好的识别文本部分使用模板定位找到区域对应坐标信息，实现结构化处理；而结构化失败的字段，采用以下方法处理：

1)针对图文本存在褶皱、凸起的情况，使用TPS薄板样条插值算法进行处理；

2)针对图文本存在倾斜形变的情况，通过透视投影变换算法可实现较好铺平效果；

3)针对文本错位的情况，先对偏移文本做位置偏移距离计算，根据锚点匹配，进行正则匹配；

针对列表式图文本，该类图文本存在多页表格的情况，则处理方法如下：

步骤901、对多页表格进行排序和拼接；

步骤902、对每一页中的数据行进行排序处理；

步骤903、找到关键字段行、列信息，进行范围定位及抽取；

针对表格式图文本，有：

A)对于有空白模板的表格，通过对空白模板进行字段抽取，并进行字段类型判断；以及抽取OCR输出文档信息，通过匹配策略，输出结构化文档，以达到表格自动结构化目的：

B)对于无空白模板的的表格，先利用实体识别模型和业务知识库进行字段和值的区分，形成模板，再根据方法A)进行结构化输出；

针对纯文本式图文本：首先创建模板，再对纯文本段落进行段落切分，区分基础信息和项目信息，基础信息和项目信息确认以后，进行数据提取，再对结构化失败的文本内容进行模糊匹配纠错处理；

步骤10、结构化输出：整合步骤9的输出结果作为最终输出结果，用API接口的形式接入到平台。

优选的，步骤1中，还对图像大小进行评估，对图像大小不符合OCR文本工作基本要求标准的图文本进行拦截。

优选的，所述步骤2具体包括以下步骤：

步骤201、对图文本的格式及页数进行检测，检测后，按照格式以及页数分割图文本；

步骤202、利用小样本学习模型和文本特征提取相结合的方式对分割后的图文本进行分类。

优选的，步骤5中，所识别的文本内容包括单字符识别和文本行识别。

优选的，步骤5中，利用文字间的语义信息对被文本框标记出来的文本行的文本内容做文本区域切割，被切割出的每个文本区域所包含的文本内容对应所述识别出的文本。

本发明通过将人工智能的图像识别技术与业务需求深度融合，利用图像识别中的OCR技术及文本结构处理技术，实现了申请材料自动化识别和校验，构建了全流程无人化服务运营模式，减轻工作人员的人工机械化工作，实现泛在的、全天候的无人化服务。

附图说明

图1示意了本发明的核心处理流程；

图2示意了本发明的核心处理架构。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种针对扫描文档的信息提取和结构化方法具体包括以下步骤：

步骤1、图像监测：

针对复杂场景下的扫描文本进行OCR文本工作之前，先评估图文本质量是否符合OCR文本工作基本要求标准，对质量不能达到OCR文本工作基本要求的，需要重新导入图文本。评估内容包括：图像文本质量评估、图像大小限制。表1是图像监测评估标准，参考如下：

表1：《图像监测评估标准》

步骤2、图像分类：针对质量符合OCR工作标准的图文本，将所有图文本基于小样本训练的深度学习模型和文本特征抽取模型进行分类，包括以下步骤：

步骤201、对图文本格式及页数进行检测，检测后分割图文本：对图文本格式及页数进行检测，主要存在单页混贴、单页单文本、单份PDF包含单页、单页PDF包含多页；

步骤202、对分割后的图文本进行分类：将分割后的图文本送入正确的API接口，从而进行文本识别。

步骤3、图像预处理：

对质量符合OCR工作标准和已正确分类的图文本进行预处理，包括：

步骤301、底图分离：

在识别处理之前，对彩色图像(特别是黄底、蓝底、红底)进行灰度化处理，再对灰度图像进行二值化处理，本实施例采取自适应二值化算法，并支持亮度和对比度自动调节功能。

步骤302、图像倾斜校正：

(1)对于发票类图文本：先进行边缘检测，利用霍夫变换算法，检测到图文本中衬纸的边框直线后，再通过直线角度对整个图文本进行水平旋转处理，同时过滤掉部分干扰直线。

(2)对于表格类图文本：进行图像角度判断，图文本分为水平倾斜的线性图片和曲面褶皱两种情况：

1)对于水平倾斜的线性图片：先进行图文本大角度(90°、180°、270°)的校正，然后进行图文本小角度(小于30°)的二次校正。通过两次校正方法，可有效提升校正准确率。

2)对于曲面褶皱：利用透视矫正图像算法做图文本拉平处理。此部分难点在于褶皱、折叠痕迹较大导致文本歪斜的情况不能很好处理，通过此方法可将以上问题优化。

(3)对于纯文本类图文本：通过文本信息方向，利用聚类图像算法计算平均角度，按照平均角度对整个图文本进行摆正处理。该方法主要针对线性图片具有较好的校正结果。

步骤303、图像去噪：对图文本中印刷体字符进行识别处理前，根据噪声特征对待识别图文本进行降噪处理(本实施例采用自适应阈值去噪方法)，以去除原图文本中影响识别的地方，包括污点、黑边、打印机墨迹等影响图像质量的杂质，从而提升文本检测和文本识别的精确度。

步骤304、印章水印去除：检测每张图文本中的印章区域，使用大津阈值分割算法，对印章进行三通道分离(主要是红色印章)，将印章部分去除，但同时保留清单/发票中文本信息，还原了印章遮挡文字或数字信息，进行版式恢复。此方法可以很好地解决印章遮挡原图文本信息的问题。

步骤4、文本检测，包括以下步骤：

步骤401、识别出图文本中文本行出现的所有位置，以文本框的形式将文本行标记出来；

步骤402、对文本框进行检测，然后在每个文本框内端到端地进行文本检测；

这里分别使用了单词级别的文本检测模型处理方法和文本行级别的文本检测模型处理方法；

步骤403、对文本框中存在噪声的部分进行二次过滤。

本步骤将分离开的字符级的文本进行区域限定，给后续结构化处理提供很大便利。

步骤5、文本识别：

对检测出来的文本内容进行文字识别，主要包括单字符识别和文本行识别。为了更好更准确地识别文本，针对形变、褶皱的文本进行文本聚焦；利用文字间的语义信息做文本区域切割，按照区域进行对文本内容进行切分，最后保留文本和坐标信息。

步骤6、版式识别：对比识别前，对图文本中的字符块结构进行版式分析。版式分析可采取多种分析方法，自动检测各版块类型，对图文本的文本内容进行逻辑归类。不同版式拥有不同的文本识别处理方法，包括：

(1)模板式：针对固定格式的图文本，使用模板创建。通过文本检测模型和坐标信息相对位置评测，自动找到关键字段的区域坐标，作为模板锚点，形成模板。较好的识别文本部分使用模板定位找到区域对应坐标信息，实现结构化处理。而结构化失败的字段，通常有以下情况的处理：

3)针对文本错位的情况，先对偏移文本做位置偏移距离计算，根据锚点匹配，进行正则匹配。可以有效解决错行、错列导致无法结构化的问题。

(2)列表式：此类图文本较明显的特征在于，存在多页表格的情况。针对多页表格，采用以下步骤处理：

步骤6A01、对每一页进行排序和拼接；

步骤6A02、对单页中的数据行进行排序处理；

步骤6A03、找到关键字段行、列信息，进行范围定位及抽取，主要针对结构化目前的难点(针对错列干扰、单双排)进行优化，包括以下内容：

1)对于错列情况，使用最优行匹配法，进行数据匹配；

2)对于检测框断裂、检测框前后字段干扰导致匹配失败和定位失败的问题，使用先列后行匹配法，进行数据匹配。

(3)表格式：通过以下方法进行

1)对于有空白模板的表格，通过对空白模板进行字段抽取，并进行字段类型判断；以及抽取OCR输出文档信息，通过匹配策略，输出结构化文档，以达到表格自动结构化目的；

2)对于无空白模板的表格，先利用实体识别模型和业务知识库进行字段和值的区分，形成模板，再根据方法1)进行结构化输出。

(4)纯文本式：首先创建模板，再对纯文本段落进行段落切分，区分基础信息和项目信息，从而确认数据层级；数据层级确认以后，进行数据提取，再对结构化失败的文本内容进行模糊匹配纠错处理，主要表现在将置信度低的字段内容做了二次自动纠错处理。

步骤7、表格线检测：

对图文本中的表格线进行测试，包括横线和竖线检测，其中：

横线检测主要通过检测图文本中出现的水平线，将文本行分隔开；

竖线检测是将表格中的竖线进行检测；

将横线和竖线结合，将各个字段区域分开，从而有效地辅助提升生成的结构化处理的正确结果。

步骤8、表格线生成：基于文本坐标位置信息的表格线生成模型，通过文本坐标的正态分布模型和文本框边际距离分析，可自动生成横线和竖线，用于辅助结构化处理。

步骤9、结构化处理：

利用实体识别模型和表格线检测/生成模型，进行图片区域划分，通过关系抽取模型，进行文本结构化处理。将提取的数据分段对应字段对照表，进行格式输出。针对不同样本中存在一种含义的多种命名字段名词，采取字段映射的处理方法进行同义词合计，以此适用于更多字段匹配，从而输出完整正确的结构化结果。

步骤10、结构化输出：

整合步骤9的输出结果作为最终输出结果，用API接口的形式接入到平台。OCR结构化结果同时保存为纯文本形式，以纸质档案的件或页为单位进行输出、保存纯文本形式档案OCR结构化结果。针对图文本OCR结构化结果命名方式的选择，要确保命名的唯一性。一件文本保存为多页文本OCR结构化结果文件时，应按照文本结合OCR结构化结果顺序流水号为文本OCR结构化结果命名，命名示例如下：

(1)示例1：一件文本保存为一个文件：文本为A1000.PDF的单页pdf格式的图文本文件，对应的OCR结构化结果文件名为A10000.json；如PDF格式文件存在多页文件时，对应的文件名分别为A10000_01.json和A10000_02.json。

(2)示例2：一件文本分不同类型：文本为B10000.jpg(.jpg/.png/.JPG/.GIFf)的单页jpg图片格式的图文本文件，包含多类型的发票/清单，对应的OCR结构化结果文件名为B10000_01_发票.json；B10000_02_火车票.json；B10000_03_出租车票.json……

(3)示例3：一件文本按页保存为多页文件：某用户提供的文本分C10000.jpg、C10001.jpg、C10002.jpg按页分开的图文本文件，对应的OCR结构化结果文件名分别为C10000.json、C10001.json、C10002.json。

表2OCR结构化结果的文件命名规则

本发明所采用的OCR智能识别技术是优化审核机制，提升审批效率的关键。通过OCR智能文字识别技术实现证照、材料的智能识别及信息化提取更是起到颠覆性效果。本发明替代原有繁杂的证件审核、信息录入、资料人工周转等业务流程，解决周期长、效率低、信息提取难、追溯难等痛点，真正意义上实现将行政审批从模式单一、步骤繁琐转向智能化、简单便捷化、快速化转变。

以上只是本发明根据实际情况的一个优选实例，并非因此限制本发明的专利范围，是利用本发明说明书及附图内容所作的等效结构或等效功能变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims

1.一种针对扫描文档的信息提取和结构化方法，用于实现基于图像识别算法的非结构化文档处理和图片区域信息的文本结构化处理，其特征在于，包括以下步骤：

步骤1、图像监测：

步骤3、图像预处理：对已分类的图文本进行预处理，包括：

底图分离，将底图和文本信息分离开；

将图文本按照不同类型进行图像倾斜校正，包括：

图像去噪；

步骤4、文本检测：

步骤5、文本识别：

步骤8、表格线生成：

步骤9、结构化处理：

步骤901、对多页表格进行排序和拼接；

步骤902、对每一页中的数据行进行排序处理；

步骤903、找到关键字段行、列信息，进行范围定位及抽取；

针对表格式图文本，有：

2.如权利要求1所述的一种针对扫描文档的信息提取和结构化方法，其特征在于，步骤1中，还对图像大小进行评估，对图像大小不符合OCR文本工作基本要求标准的图文本进行拦截。

3.如权利要求1所述的一种针对扫描文档的信息提取和结构化方法，其特征在于，所述步骤2具体包括以下步骤：

4.如权利要求1所述的一种针对扫描文档的信息提取和结构化方法，其特征在于，步骤5中，所识别的文本内容包括单字符识别和文本行识别。

5.如权利要求4所述的一种针对扫描文档的信息提取和结构化方法，其特征在于，步骤5中，利用文字间的语义信息对被文本框标记出来的文本行的文本内容做文本区域切割，被切割出的每个文本区域所包含的文本内容对应所述识别出的文本。