CN113688872A

CN113688872A - 一种基于多模态融合的文档版面分类方法

Info

Publication number: CN113688872A
Application number: CN202110854557.1A
Authority: CN
Inventors: 陶提; 许诺; 高翔; 纪达麒; 陈运文
Original assignee: Daguan Data Suzhou Co ltd
Current assignee: Daguan Data Suzhou Co ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-23

Abstract

本发明公开了一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合，提升了文档版面分类的准确率。

Description

一种基于多模态融合的文档版面分类方法

技术领域

本发明属于深度学习领域，具体涉及一种基于多模态融合的文档版面分类方法。

背景技术

分析抽取文档中的信息需要用到文档的版面信息，版面信息一般包括几类：页眉、页脚、标题、段落、目录、表格和图像。

文档一般分为电子文档和图像文档，电子文档可以通过解析获取文档中字符信息，包括文本和位置信息，但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取，需要通过OCR(Optical Character Recognition)技术获取。

电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变，特别对于双栏文档，规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格，图像和目录可以根据图像特征进行较好的分类，而对于其它类别不仅要考虑图像信息，还要涉及到文本和位置信息，用目标检测方法仅考虑图像信息会降低分类的准确率。

对文档中的版面进行分类目前可以用目标检测的方法，但是会存在以下问题：

1、对于页眉页脚目标检测方法不能很好的提取到位置特征，页眉页脚的图像特征与部分段落的图像特征相似，仅根据图像特征不易区分；

2、段落和标题会存在图像特征相似的情况，需要依靠文本才能更好地区分。

发明内容

针对现有技术中存在的问题，本发明提供一种基于多模态融合的文档版面分类方法。

为实现上述目的，本发明采用以下技术方案：

一种基于多模态融合的文档版面分类方法，针对目标文档，所述分类方法包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。

优选地，所述目标文档是图像类型的；获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术(OCR技术)获取目标文档的文本信息和文本坐标信息；根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。

优选地，所述检测框仅采用框内的第一行文本作为其文本信息。

优选地，所述目标文档是可直接读取文本信息类型的；获取检测框的图像特征时需要将所述目标文档转化为图像类型。

优选地，获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。

优选地，以所述文本信息、框坐标信息和图像特征作为输入还包括：将框坐标信息进行位置编码，将文本信息进行分词并进行文本编码，以位置编码信息、文本编码信息和图像特征作为输入。

一种存储介质，存储有计算机程序，所述计算机程序被执行时实现所述的分类方法。

一种基于多模态融合的文档版面分类装置，针对目标文档，所述分类装置包括：目标检测模块，所述检测模块检测目标文档，获取待分类的检测框；信息获取模块，所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征；多模态融合模型模块，所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。

与现有技术相比，本发明的有益效果为：

1、通过将文本、位置和图像信息的多模态融合，提升了文档版面分类的准确率；

2、比较贴合实际情况，标题和段落仅根据图像信息不好区分，页眉、页脚需要加入位置信息才能更好进行判别；

3、不仅能在文档版面分析场景中使用，可以方便扩展到其它需要多模态融合的场景中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

多模态融合的文档版面分类方法主要由四个部分组成：

一、目标检测模块

这个模块主要的功能在于定位到各个版面类型的位置。

目标检测任务包括定位目标和对目标分类。需要检测的目标包括页眉、页脚、段落、标题、表格、图像、目录。

目标检测模型包括特征提取层(backbone)和预测层(head)，特征提取层主要包括卷积操作，不改变相对位置信息。预测层包括对检测框的坐标回归以及类型判别。

二、文本信息获取

对于图像文档数据，需要通过OCR技术来获取文本信息。输入全图到OCR，获取到检测文本框和其对应的文本信息。

对于电子文档数据，此类型数据已包含文本信息以及每个文字的坐标信息，可直接获取。

根据获取的文本信息及坐标和目标检测的框坐标信息，根据坐标框来将文本信息与目标检测框进行匹配，对于表格、目录和图像数据此类文本信息比较特殊且目标检测能较好判别，这三种类型不予考虑。

由于部分段落文本信息较长，这里仅取所有目标检测框中的第一行文本来作为此框的文本信息。

三、图像特征获取

从训练的目标检测模型中获取backbone层输出的图像特征，使用RoIAlign将每个目标检测框转为特定大小的输出，便于后续模型的分类。

四、多模态融合模型

将获取的坐标框信息进行位置编码，文本信息进行分词并进行文本编码，融合位置编码信息、文本编码信息和目标检测网络backbone提取的图像特征，用多模态融合模型完成对检测框的分类。

多模态仅对页眉、页脚、段落和标题进行分类，结合目标检测对表格、图像和目录的结果来作为最终的文档版面分类结果。

五、训练流程

整体的训练流程：

Step1.首先需要训练目标检测模型。

Step2.融合文本、位置和图像信息训练多模态融合模型。

尽管上述实施例已对本发明作出具体描述，但是对于本领域的普通技术人员来说，应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进，这些修改和改进都在本发明的精神以及范围之内。

Claims

1.一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，所述分类方法包括：

检测目标文档，获取待分类的检测框；

获取检测框的文本信息、框坐标信息和图像特征；

采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。

2.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是图像类型的；

获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息；

根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。

3.根据权利要求2所述的基于多模态融合的文档版面分类方法，其特征在于，所述检测框仅采用框内的第一行文本作为其文本信息。

4.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是可直接读取文本信息类型的；

获取检测框前需要将所述目标文档转化为图像类型。

5.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。

6.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，以所述文本信息、框坐标信息和图像特征作为输入还包括：

将框坐标信息进行位置编码，将文本信息进行分词并进行文本编码，以位置编码信息、文本编码信息和图像特征作为输入。

7.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被执行时实现权利要求1-6中任一所述的分类方法。

8.一种基于多模态融合的文档版面分类装置，其特征在于，针对目标文档，所述分类装置包括：

目标检测模块，所述检测模块检测目标文档，获取待分类的检测框；

信息获取模块，所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征；

多模态融合模型模块，所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。