CN115546817A

CN115546817A - 一种文档解析的方法及装置

Info

Publication number: CN115546817A
Application number: CN202211154950.0A
Authority: CN
Inventors: 郑博文
Original assignee: Pacific Insurance Technology Co Ltd
Current assignee: Pacific Insurance Technology Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-30

Abstract

本申请公开了一种文档解析的方法及装置。通过OCR模型识别图像中文字内容和坐标，版式模型识别图像中版式结构类别和坐标，并对各部分版式结构的坐标进行校准，可实现对文字的精准分类，最终得到更加准确、完整的解析结果。在操作中，使用者可根据版式结构类别有针对性的解析文件信息，本申请所提供的文档解析的方法及装置可识别多种版式结构，可针对不同版式类别定制个性化的数据解析方案，更加灵活、专业。

Description

一种文档解析的方法及装置

技术领域

本申请涉及目标检测与图像识别领域，特别是一种文档解析的方法及装置。

背景技术

随着数字化进程的加快，文档、图像等载体的结构化分析和内容提取成为数字化转型成败的关键。而文档结构有多种，相同的版式也存在不同类型，如表格可以分为有线表和无线表，图片可以分为柱状图饼状图折线图等。在文档分析任务中,文档的图片、文本和各版式间的关系都对分析过程具有很重要的作用。

现有技术中的文档解析方法大多只针对文字内容，通过文本内容赋予其标签，但在不同的广义语境下，相同的文本所代表的含义并不一定相同。故此类方法对文档的解析效果不太理想。且并不能根据不同的需求，有针对性的提取文档中的关键信息。如何更灵活、准确的解析文档内容成为亟待解决的问题。

发明内容

基于上述问题，本申请提供了一种文档解析的方法及装置。目的是解决文档解析中不准确、没有针对性的困境，提供更准确和具有针对性的文档信息抽取解决方案。

本申请公开了一种文档解析的方法，所述方法包括：

将文档逐页拆解为图片；

利用光学字符识别OCR模型识别所述图片的文字部分，得到文字内容和文字坐标；

利用版式模型识别所述图片的版式结构，得到版式结构的类别和版式结构的坐标；

对所述版式结构的坐标进行后处理。

可选的，文档解析的方法还包括：

在所述利用OCR模型识别所述图片文字部分前，对所述图片进行倾斜矫正；

根据倾斜矫正时使用的角度对所述后处理后的版式结构的坐标进行还原。

可选的，所述利用版式模型识别所述图片版式结构前，还包括：

在Yolox-l版式分析模型上，配合归一化指数函数，使用多类别版式数据集进行训练；

保存训练过程中生成的模型权重值文件以及模型网络结构文件，得到可检测多种版式类别的所述版式模型。

可选的，对所述版式结构的坐标进行后处理，包括：

根据所述文字坐标调整所述版式结构的坐标；

对识别出的多个版式结构的重叠部分进行类间非极大值抑制NMS，以置信度最高的版式结构为准。

可选的，所述根据所述文字坐标调整所述版式结构的坐标，包括：对版式结构的坐标进行扩充或收缩，补全漏检的版式。

基于上述方法，本申请还公开了一种文档解析的装置，包括：文档拆解模块、文字识别模块、版式结构识别模块和后处理模块；

所述文档拆解模块，用于将文档逐页拆解为图片；

所述文字识别模块，用于识别所述图片的文字部分，得到文字内容和文字坐标；

所述版式结构识别模块，用于识别所述图片的版式结构，得到版式结构的类别和版式结构的坐标；

所述后处理模块，用于对所述版式结构的坐标进行后处理。

可选的，所述文档解析的装置还包括：

倾斜矫正模块，用于在所述文字识别模块识别所述图片文字部分前，对所述图片进行倾斜矫正；

还原模块，用于根据倾斜矫正时使用的角度对所述后处理后的版式结构的坐标进行还原。

可选的，所述文档解析的装置还包括：

训练模块，用于训练所述版式模型；

存储模块，用于保存训练过程中生成的模型权重值文件以及模型网络结构文件。

可选的，所述后处理模块包括：

调整子模块，用于调整所述版式结构的坐标；

非极大值抑制子模块，用于对识别出的多个版式结构的重叠部分进行类间非极大值抑制NMS，以置信度最高的版式结构为准。

可选的，所述调整子模块用于：对版式结构的坐标进行扩充或收缩，补全漏检的版式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种文档解析的方法的流程示意图；

图2为本申请实施例公开的另一种文档解析的方法的流程示意图；

图3为本申请实施例公开的一种文档解析的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：本申请公开了一种文档解析的方法，应用于目标检测与图像识别领域，通过OCR模型识别图像中文字内容和坐标，版式模型识别图像中版式结构类别和坐标。

具体的，请参阅图1，本实施例公开的一种文档解析的方法包括以下步骤：

步骤101：将文档逐页拆解为图片。

所述逐页拆解的目的是为了统一待解析文件的格式，且图片格式可避免不兼容的问题，以便后续解析。所述文档可以是PDF格式文件，也可以是其他格式文件，能够逐页拆解即可。所述图片可以是JPG格式文件，也可以是其他格式文件。其中，所述文档和图片的内容部分可以有文本、流程图、柱状图、饼状图、表格、签名等。

此步骤后，针对一些图片可能有倾斜的情况，为了提升解析的准确性，如果图片有倾斜，可以在拆解后进行倾斜校正。具体而言，可以针对倾斜角度的大或小采取相应的矫正方式。

此处，可选地，倾斜角度的大或小可以通过设定角度阈值来进行衡量，例如倾斜角度大于该角度阈值，则确认为大角度倾斜，反之，如果倾斜角度小于或等于该角度阈值，则确认为小角度倾斜。

作为一种可行的方法，所述大角度倾斜矫正可以采用resnet18对文字方向进行分类，根据分类结果对图片进行90°、180°等角度的转向调整。所述大角度倾斜矫正使用的方法是经过千张图片格式文件对resnet18训练得到的。本实施例所述方法中，可以采用Python语言开发，并使用Pytorch作为深度学习开发框架。

所述小角度倾斜矫正可以使用opencv库中的canny算法检测出图像中的边缘轮廓线，再用霍夫变换检测出图像中的所有直线，筛选出接近水平方向上的直线并求出他们偏移角度的平均值，再根据这个角度平均值进行小角度倾斜矫正，最后输出图片。

以上矫正倾斜角度的方法仅作为示例，此处不做具体的限制。

步骤102：利用OCR模型识别所述图片的文字部分，得到文字内容和文字坐标。

作为一种可行的方法，所述文字坐标为文字的检测框位置的坐标，格式为[x0,y0,x1,y1]，分别代表检测框左上角点和右下角点在x轴、y轴的坐标。

步骤103：利用版式模型识别所述图片的版式结构，得到版式结构的类别和版式结构的坐标。

作为一种可行的方法，所述版式为文档内容的各个部分，如正文部分、签名部分等，所述版式类别一般分为有线表、无线表、图标题、表标题、图注、表注、文本、卡证、页眉等。所述版式结构的坐标为版式结构的检测框位置的坐标，格式为[x0,y0,x1,y1]，分别代表检测框左上角点和右下角点在x轴、y轴的坐标。

所述版式模型是经过训练得到的。在Yolox-l版式分析模型上，配合归一化指数函数，使用多类别版式数据集进行训练，保存训练过程中生成的模型权重值文件以及模型网络结构文件，最终得到可检测多种版式类别的所述版式模型。

步骤104：对所述版式结构的坐标进行后处理。

作为一种可实施的方法，所述版式分析后处理方法，包括：

根据文字识别结果中的文字坐标，对版式结构的坐标进行扩充或收缩，即对漏检的版式进行补全操作，确保页面中的信息无遗漏。

对多个版式检测框重叠的部分进行类间非极大值抑制NMS。所述非极大值抑制NMS的目的是在模型检测出的多个检测框中，留下一部分。在本申请所述方法中，版式模型识别板式结构时，一个版式结构为一个“类”，类间NMS的处理策略是让来自不同类的检测框不会重叠，使一个类只留下一个检测框。同时NMS还能获得检测框的置信度，便于筛掉置信度低的检测框。本实施例所述方法中，取置信度最高的检测框作为最终版式结构，提高识别结果的准确度。对于某些特定的版式结构，如表格、图片、页眉、页脚等则采用面积最大的检测框。

本实施例所述方法通过OCR模型识别图像中文字内容和坐标，版式模型识别图像中版式结构类别和坐标，并对各部分版式结构的坐标进行校准，可实现对文字的精准分类，最终得到一个准确、完整的解析结果。

实施例二：本申请公开了另一种文档解析的方法，请参阅图2，本实施例所述方法针对模型的训练和一种提取信息的过程做了详细介绍。

步骤201：将PDF文档每页拆解成JPG图片格式。

步骤202：对所述图片进行大角度倾斜矫正。

本实施例所述方法中，作为一种可实施的方法，采用resnet18进行图片大角度矫正，对文字方向进行分类，类别为0度、90度、180度、270度。采用约3000张图片对resnet18进行训练，平均每个类别约为750张。

步骤203：对步骤202得到的结果进行小角度倾斜校正。

本实施例所述方法中，作为一种可实施的方法，使用opencv库中的canny算法检测出图像中的边缘轮廓线，再用霍夫变换检测出图像中的所有直线，筛选出接近水平方向上的直线并求出他们偏移角度的平均值，再根据这个小角度进行倾斜矫正，最后输出图片。

步骤204：OCR模型识别文字内容和坐标，并以JSON格式进行保存。

步骤205：版式模型识别版式结构类型、坐标和置信度。

本实施例所述方法中，作为一种可实施的方法，采用Yolox-l作为主干网络配合Softmax进行版式分析模型的训练：

自行收集约3000个PDF文档，拆解约1.5w张图片，包括企业年报、研报、审计报告、财务报表、合同等不同类型的文档。

在所述Yolox-l版式分析模型上使用所述的1.5万张版式数据集进行训练。保存训练过程中生成的模型权重值文件以及模型网络结构文件，得到可用的版式分析模型。

该模型可检测19个版式类别，分别为标题、有线表、无线表、图标题、表标题、图注、表注、文本、卡证、页眉、页脚、目录、印章、签名、柱状图、饼状图、折线图、混图。

步骤206：选取需要提取的版式类别。

本实施例所述方法中，作为一种可实施的方法，选择文本和签名类别的版式。从步骤205结果中筛选文本和签名版式的检测框，得到的检测框位置坐标的格式为[x0,y0,x1,y1]，分别代表检测框左上角点和右下角点x、y的坐标。忽略置信度小于0.3的检测框以保证检测的类别具有较高的可信度。

步骤207：对版式模型识别结果进行后处理。

本实施例所述方法中，作为一种可实施的方法，所述版式分析后处理方法，包括：根据OCR中字符的位置坐标，对版式结构的坐标进行扩充或收缩，即对漏检的版式进行补全操作，确保页面中的信息无遗漏。对多个版式重叠的部分进行类间NMS，取置信度最高的作为最终结果。对于特定的版式结构，如表格、图片、页眉、页脚等则采用面积最大的边界框。

步骤208：根据倾斜矫正时使用的角度还原矫正结果。

步骤209：保存还原结果。即最终版式结果，以JSON格式进行保存。

本实施例所述方法中，介绍了模型的训练和一种提取信息的过程。使用上万张不同类型的图片文件对模型进行训练，并赋予不同版式结构权重，保证了提取内容的准确性、完整性；版式类别可选，实现个性化定制提取方案，减少不必要的检测，灵活、专业、有针对性地提取文档中的信息。

基于上述实施例公开的一种文档解析的方法，本实施例对应公开了一种文档解析的装置，请参阅图3，该装置包括：文档拆解模块301、文字识别模块302、版式结构识别模块303和后处理模块304；

所述文档拆解模块301，用于将文档逐页拆解为图片；

所述文字识别模块302，用于识别所述图片的文字部分，得到文字内容和文字坐标；

所述版式结构识别模块303，用于识别所述图片的版式结构，得到版式结构的类别和版式结构的坐标；

所述后处理模块304，用于对所述版式结构的坐标进行后处理。

可选的，还包括：

倾斜矫正模块，用于在所述文字识别模块302识别所述图片文字部分前，对所述图片进行倾斜矫正；

可选的，还包括：

训练模块，用于训练所述版式模型；

可选的，所述后处理模块304包括：

调整子模块，用于调整所述版式结构的坐标；

NMS子模块，用于对识别出的多个版式结构的重叠部分进行类间非极大值抑制NMS，以置信度最高的版式结构为准。

本说明书中实施例采用递进的方式描述。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本说明书中实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档解析的方法，其特征在于，所述方法包括：

将文档逐页拆解为图片；

对所述版式结构的坐标进行后处理。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述利用版式模型识别所述图片版式结构前，还包括：

4.根据权利要求1所述的方法，其特征在于，对所述版式结构的坐标进行后处理，包括：

根据所述文字坐标调整所述版式结构的坐标；

5.根据权利要求4所述的方法，其特征在于，所述根据所述文字坐标调整所述版式结构的坐标，包括：对版式结构的坐标进行扩充或收缩，补全漏检的版式。

6.一种文档解析的装置，其特征在于，包括：文档拆解模块、文字识别模块、版式结构识别模块和后处理模块；

所述文档拆解模块，用于将文档逐页拆解为图片；

所述后处理模块，用于对所述版式结构的坐标进行后处理。

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，还包括：

训练模块，用于训练所述版式模型；

9.根据权利要求6所述的装置，其特征在于，所述后处理模块包括：

调整子模块，用于调整所述版式结构的坐标；

10.根据权利要求9所述的装置，其特征在于，所述调整子模块用于：对版式结构的坐标进行扩充或收缩，补全漏检的版式。