CN117542063A

CN117542063A - 一种多语言多模态多分支文档视觉信息抽取方法

Info

Publication number: CN117542063A
Application number: CN202410033225.0A
Authority: CN
Inventors: 汪嘉鹏; 林泽柠; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-09
Anticipated expiration: 2044-01-10
Also published as: CN117542063B

Abstract

本发明公开了一种多语言多模态多分支文档视觉信息抽取方法，本发明属于模式识别与人工智能领域，包括：获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；对所述文本检测识别结果进行排序，得到已排序检测识别结果；对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练；基于预训练好的多模态特征，分别进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能，显著超越同类具有竞争力的其他现有方法。

Description

一种多语言多模态多分支文档视觉信息抽取方法

技术领域

本发明属于模式识别与人工智能技术领域，尤其涉及一种多语言多模态多分支文档视觉信息抽取方法。

背景技术

深度神经网络以及多模态大模型技术的飞速发展，大大推动了人工智能技术的创新应用。随着新的多模态大模型的不断提出，神经网络的性能有了极大的提升，为诸多实际应用提供了技术基础。

证件、票据、表单等版面内容丰富、结构复杂的视觉文档在实际生产生活中被广泛使用。诸多应用场景例如公安部门的证件识别、财务领域的票据分析、教育领域的智能阅卷等，都需要提取这些视觉文档中的关键信息。设计自动化的视觉信息抽取算法，是目前社会的迫切需求，其对应的视觉信息抽取技术也成为了业界的研究热点之一。

已有的文档视觉信息抽取方法，存在的不足为：（1）现有的文档视觉信息抽取方法往往缺乏对输入的文本检测与识别结果的排列顺序的考虑。相关工作缺乏面向轻量化的快速高效的排序模块的设计；（2）现有的文档视觉信息抽取方法缺乏对不同模态信息的显式多分支设计和显式分支间多模态信息交互的设计；（3）现有的文档视觉信息抽取方法对模型的预训练任务的设计仍不够全面和充分。

发明内容

本发明提出了一种多语言多模态多分支文档视觉信息抽取方法，以解决上述现有技术中存在的技术问题。

为实现上述目的，本发明提供了一种多语言多模态多分支文档视觉信息抽取方法，包括：

获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；

对所述文本检测识别结果进行排序，得到已排序检测识别结果；

对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征；

将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练，得到预训练好的多模态特征；

分别对预训练好的多模态特征进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取。

优选地，对所述文档图像进行检测识别的过程包括：

基于文本检测模型对所述文档图像进行检测，得到文本检测结果；

基于文本识别模型对所述文档图像进行识别，得到文本识别结果。

优选地，对所述文本检测识别结果进行排序的过程包括：

构建单阶段文本框排序模块，所述单阶段文本框排序模块包括：第一线性变换层、位置编码层、特征计算提取层、第二线性变换层、排序层，其中所述特征计算提取层为若干个循环层，循环层为自注意力层-非线性层-线性层-非线性层；

基于所述单阶段文本框排序模块，对所述文本检测识别结果进行排序，得到已排序检测识别结果。

优选地，所述已排序检测识别结果包括：文本信息和位置信息。

优选地，所述多模态特征包括：文本高维特征、位置高维特征、图像高维特征。

优选地，对所述已排序检测识别结果和所述文档图像进行特征提取的过程包括：

将所述文本信息的字符串输入字符拆分器中，得到字符序列，将所述字符序列送入文本映射层中，得到文本高维特征；

将所述位置信息的坐标值进行归一化处理，得到归一化坐标值，对所述归一化坐标值进行位置特征映射，得到位置高维特征；

将所述文档图像进行缩放和切分操作，得到图像块，基于图像线性层对所述图像块进行图像特征映射，得到图像高维特征。

优选地，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练之前还包括：

基于所述多模态特征构建若干个分支模块，若干个分支模块包括：文本信息分支模块、位置信息分支模块和图像信息分支模块；

基于若干个分支模块，引入多模态信息交互模块，基于所述多模态信息交互模块实现若干个分支模块的不同模态信息的交互融合。

优选地，所述文本信息分支模块中的模块权重参数，用于替换不同语言版本，实现对不同语言的适配；在所述图像信息分支模块的自注意力层计算中，设计了细粒度图像信息模块，基于所述细粒度图像信息模块对所述文档图像的细粒度视觉特征进行整合。

优选地，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练的过程包括：

构建预训练任务，设定训练参数；

将所述多模态特征进行拼接，基于所述训练参数，将拼接后的多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练。。

优选地，分别对预训练好的多模态特征进行实体类别预测、实体链接预测的过程包括：

所述实体分类与实体链接模块包括：线性层和双线性映射层

基于所述线性层对预训练好的多模态特征进行实体类别预测，公式为：

其中，⊕是指特征拼接操作，/>是指线性层，为输出的实体类别预测分数；

基于所述双线性映射层和所述线性层对预训练好的多模态特征进行实体链接预测，公式为：

其中，⊕是指特征拼接操作，是第p个多模态特征，/>是第q个多模态特征，/>是指线性层,/>是指双线性映射层，/>为输出的实体链接预测分数。

与现有技术相比，本发明具有如下优点和技术效果：

本发明对输入的文本检测与识别结果进行轻量化的快速且高效的排序过程，排序过程对整个系统性能的提升起到显著的作用；本发明设计的多模态多分支特征计算模块能有效地对各模态的信息进行提取并实现模态间信息的交互；本发明设计的多模态多分支特征计算模块中对文本信息分支实现了语言可替换性的设计，也引入了细粒度图像信息特征；本发明设计的多任务预训练模块能够使用多个预训练任务让模型学习到有效的且鲁棒的多模态特征表示；本发明设计的实体分类与实体链接模块能够让模型较好的完成实体分类和实体链接任务。

本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能，显著超越同类具有竞争力的其他现有方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的流程示意图；

图2为本发明实施例的模型示意图；

图3为本发明实施例的中文文档示意图；

图4为本发明实施例的中文文档的文本检测与识别结果示意图；

图5为本发明实施例的中文文档的实体分类与实体链接结果示意图；

图6为本发明实施例的英文文档示意图；

图7为本发明实施例的英文文档的文本检测与识别结果示意图；

图8为本发明实施例的英文文档的实体分类与实体链接结果示意图；

图9为本发明实施例的德文文档示意图；

图10为本发明实施例的德文文档的文本检测与识别结果示意图；

图11为本发明实施例的德文文档的实体分类与实体链接结果示意图；

其中，H代表“标题”实体，Q代表键值对中的“键”实体，A代表键值对中的“值”实体，黑色虚线代表实体之间具有的链接关系。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本实施例中提供一种多语言多模态多分支文档视觉信息抽取方法，包括：

S1.输入获取：获取输入文档图像，以及其对应的文本检测和识别结果。输入文档图像可以是通过拍摄设备得到的照片，可以是通过扫描工具得到的扫描件，也可以是数字化的文档图像如JPG,PNG,PDF格式等等。对于输入文档图像，使用文本检测与识别模型对其进行文本检测和识别任务，得到文本检测和识别结果。为了方便表示，设输入文档图像为X，设文本检测结果为D={d₁,d₂,...,d_n}和文本识别结果为S={s₁,s₂,...,s_n}。d代表每个检测出的文本框，s代表对应文本框中的文本识别结果，n代表文本框的个数。

S2.文本排序：将文本检测结果送入单阶段文本框排序模块，以此对文本检测和识别结果按照从左上到右下的阅读顺序排序。其具体步骤如下：

S21.构建单阶段文本框排序模块：

所采用的单阶段文本框排序模块结构，如表1所示。

表1

在该单阶段文本框排序模块中，首先将输入文本框通过线性变换得到384维的高维特征。然后使用位置编码层给每个文本框赋予其在整个文本框序列中所处的顺序信息。接着，本发明使用4个堆叠的“自注意力层-非线性层-线性层-非线性层”对特征进行进一步的计算和提取。最后再经过线性变换将384维的特征变为一个输出值，即为每个输入文本框得到了一个输出值。通过对该值进行从小到大的排序，就可以得到重新排序后的文本检测结果D^*={d^* ₁,d^* ₂,...,d^* _n}和文本识别结果为S^*={s^* ₁,s^* ₂,...,s^* _n}。

S22.训练参数的设定：

迭代次数：50000

训练批量大小：64

优化器：AdamW

学习率：0.0001

学习率更新策略：周期性余弦衰减

Weight decay：0.0005

S23.使用领域内现有开源数据集进行训练。此处使用ReadingBank数据集对单阶段文本框排序模块进行训练。

S3.特征提取：将排序后的文本检测与识别结果和文档图像送入多模态多分支特征计算模块，计算多模态特征。对于不同模态的信息，本发明使用各自不同的方式对其进行输入特征的映射。

对于文本信息即文本识别结果，将文本识别结果字符串送入字符拆分器中，将其拆分成单个字符级别的序列，然后使用文本映射层对字符进行文本特征映射：

T = Emb_T(Tokenizer(s^*))

此处，Tokenizer是指字符拆分器，Emb_T是指文本映射层,T是得到的文本高维特征。通过这种方式，输入文本信息被映射成高维特征向量。

对于位置信息即文本检测结果,也就是d^*={x^* ₁,y^* ₁,x^* ₂,y^* ₂}，其中x^* ₁是文本框左上角点的横坐标，y^* ₁是文本框左上角点的纵坐标，x^* ₂是文本框右下角点的横坐标，y^* ₂是文本框右下角点的纵坐标。将文本检测结果中的每个坐标值根据输入文档图像的原始尺寸归一化成0到1000范围内的整数，再使用位置映射层对每个坐标值进行位置特征映射。最后，使用一个位置线性层将映射后的位置特征进行线性变换：

L = Linear_L(Emb_L(Norm(x^* ₁))⊕Emb_L(Norm(y^* ₁))⊕Emb_L(Norm(x^* ₂))⊕Emb_L(Norm(y^* ₂)))

此处，Norm是指坐标值归一化操作，Emb_L是指位置映射层，⊕是指特征拼接操作，Linear_L是指位置线性层，L是得到的位置高维特征。通过这种方式，输入位置信息被映射成高维特征向量。

对于图像信息即原始输入文档，先将图像通过缩放操作转变为高和宽都为224的图像。然后将其平均切分成14×14个图像块，每个图像块的大小是16×16。接着，将每个图像块的元素展平，然后使用一个图像线性层对图像块进行图像特征映射：

I = Linear_I(Flatten(Split(Reize(X))))

此处，Reize是指图像缩放操作，Split是指图像切分操作,Flatten是指图像块展平操作,Linear_I是指图像线性层，I是得到的图像高维特征。通过这种方式，输入图像信息被映射成高维特征向量。

至此，已经获得了文本高维特征T，位置高维特征L，图像高维特征I。接着，本发明为每个模态的信息设计各自的分支模块，即文本信息分支模块、位置信息分支模块和图像信息分支模块。各个分支模块基本享有相同的分支结构，如表2所示。

表2

通过各个模态信息分支模块的计算和提取，可以得到最终的多模态的高维特征向量。值得注意的是，对于文本信息分支，可以替换成不同语言版本的模块参数权重，以适配不同语言或者多语言的应用场景。同时，在各个模态信息分支模块计算的过程中，本发明还引入了多模态信息交互模块，来实现不同模态信息之间的交互和融合。该多模态信息交互模块的具体细节如下：

在每个模态信息分支模块中，自注意力层会通过输入的高维特征向量计算得到查询向量Q∈R^N*c、键向量K∈R^N*c和值向量V∈R^N*c。此处，R是指实数域，N是指当前输入序列的长度，c是当前输入序列变换后的维度。然后，多头注意力机制会将这些向量按照通道方向平均分成12份，那么此时每个注意力头所对应的通道数变为c/12=c^k。接着，在本发明的多模态信息交互模块中，对于文本信息分支，为每个注意力头设计如下的输出计算过程：

其中，右下角的下标t代表文本信息分支，l代表位置信息分支，i代表图像信息分支。右上角的上标代表矩阵转置操作。/>是指从位置查询向量维度到文本查询向量维度的线性变换层，/>是指从图像查询向量维度到文本查询向量维度的线性变换层。是指归一化指数函数。O是指输出向量。另外，/>的计算方式为：

其中，通过计算文本框之间的相对位置信息得到。例如，/>是指第N个文本框与第1个文本框之间的相对位置信息特征向量。/>和/>是线性变换层，/>是非线性激活层。

与文本信息分支类似的，位置信息分支每个注意力头相应的输出计算过程为：

图像信息分支每个注意力头相应的输出计算过程为：

通过这种方式，不同模态的信息得以在不同模态的分支模块中交互和融合。除此之外，在图像信息分支模块中，本发明额外设计了一个细粒度图像信息模块。对于每一个切分后的大小为16×16的图像块，先将其缩放到80×80的大小，然后使用已有的轻量化的ViT-tiny模型为每个图像块得到长度为5×5=25的细粒度的图像特征。接着，在图像信息分支模块的自注意力层计算中，使用额外的注意力计算操作对细粒度的图像特征进行整合：

这里，和/>是指细粒度的图像特征，/>是指线性层。通过这种方式，模型能够对图像中的细粒度特征进行自适应的学习和整合。

S4.预训练：把得到的多模态特征送入多任务预训练模块，对模型系统进行充分的预训练。在上一步骤中得到的各个模态的特征，在这一步骤中被拼接起来，送入不同的预训练任务中进行训练。其具体步骤如下：

S41.预训练任务的构建

S411.掩码语言建模

该任务随机将15%的输入文本信息选中，对它们进行随机的置换或者打乱，然后让模型在输出端预测这些被选中的文本信息是什么。

S412.掩码文本位置建模

该任务随机将15%的输入位置信息选中，对它们进行随机的置换或者打乱，然后让模型在输出端预测这些被选中的位置信息是什么。

S413.相对位置建模

选择成对的序列中的位置信息，让模型在输出端预测这两个位置的文本框之间的相对方位和相对距离。

S414.掩码图像块判定

该任务随机将15%的输入图像信息选中，对它们进行遮盖，然后让模型在输出端预测当前位置的信息所对应的图像区域是否被遮盖。

S42.训练参数的设定：

迭代次数：500000

训练批量大小：256

优化器：AdamW

学习率：0.0001

学习率更新策略：周期性余弦衰减

Weight decay：0.0005

S43.使用领域内现有开源数据集进行训练。此处使用RVL-CDIP数据集通过多任务预训练模块进行训练。

S5.实体分类与链接：预训练结束后，基于得到的多模态特征，使用额外的实体分类模块和实体链接模块进行训练和预测。其具体步骤如下：

S51.实体分类模块和实体链接模块的构建:

对于多模态多分支特征计算模块输出的各模态特征向量T^*、L^*、I^*，实体分类模块将它们拼接在一起，然后使用线性层进行实体类别的预测：

这里，⊕是指特征拼接操作，是指线性层。输出的实体类别预测分数/>的维度即为所有实体类别的总个数。

此外，实体链接模块同样将多模态多分支特征计算模块输出的各模态特征向量拼接在一起，然后使用双线性映射层和线性层进行实体链接的预测：

这里，⊕是指特征拼接操作，是第p个多模态特征，/>是第q个多模态特征，/>是指线性层,/>是指双线性映射层。输出的实体链接预测分数/>的维度为2，即具有链接关系或者没有。

S52.训练参数的设定：

迭代次数：2000

训练批量大小：32

优化器：AdamW

学习率：0.00005

学习率更新策略：周期性余弦衰减

Weight decay：0.0005

S53.使用领域内现有开源数据集进行训练。此处使用FUNSD、XFUND、SROIE、EPHOIE、CORD数据集通过实体分类模块和实体链接进行训练。

本实施例的模型示意图，如图2所示。

本实例中，图3为中文文档示意图，图4显示了输入文档图像和其对应的文本检测与识别结果，在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后，得到的实体分类与实体链接结果，如图5所示；

本实例中，图6为英文文档示意图，图7显示了输入文档图像和其对应的文本检测与识别结果，在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后，得到的实体分类与实体链接结果，如图8所示；

本实例中，图9为德文文档示意图，图10显示了输入文档图像和其对应的文本检测与识别结果，在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后，得到的实体分类与实体链接结果，如图11所示。

本实施例有益效果：

本实施例设计的单阶段文本框排序模块能够对输入的文本检测与识别结果进行轻量化的快速且高效的排序过程，这个排序过程对整个系统性能的提升起到显著的作用。

在本实施例设计的多模态多分支特征计算模块中，各模态信息分支模块能够对各个模态的信息进行充分且高效的提取，多模态信息交互模块能够让不同模态的信息之间进行自适应的交互和融合。

在本实施例设计的多模态多分支特征计算模块中，文本信息分支模块的参数权重可以进行不同语言版本的替换，从而实现不同语言或者多语言的文档视觉信息抽取任务。而图像信息分支模块中的细粒度图像信息模块能够对原始文档图像中的细粒度视觉特征进行较好的整合。

本实施例设计的多任务预训练模块能够使用多个预训练任务让模型学习到有效的且鲁棒的多模态特征表示。

本实施例设计的实体分类与实体链接模块能够让模型较好的完成实体分类和实体链接任务。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多语言多模态多分支文档视觉信息抽取方法，其特征在于，包括：

2.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，对所述文档图像进行检测识别的过程包括：

3.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，对所述文本检测识别结果进行排序的过程包括：

4.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，所述已排序检测识别结果包括：文本信息和位置信息。

5.根据权利要求4所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，所述多模态特征包括：文本高维特征、位置高维特征、图像高维特征。

6.根据权利要求5所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，对所述已排序检测识别结果和所述文档图像进行特征提取的过程包括：

7.根据权利要求5所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练之前还包括：

8.根据权利要求7所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，所述文本信息分支模块中的模块权重参数，用于替换不同语言版本，实现对不同语言的适配；所述图像信息分支模块的自注意力层计算中，设计细粒度图像信息模块，基于所述细粒度图像信息模块对所述文档图像的细粒度视觉特征进行整合。

9.根据权利要求7所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练的过程包括：

构建预训练任务，设定训练参数；

将所述多模态特征进行拼接，基于所述训练参数，将拼接后的多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练。

10.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法，其特征在于，分别对预训练好的多模态特征进行实体类别预测、实体链接预测的过程包括：

所述实体分类与实体链接模块包括：线性层和双线性映射层；

其中，⊕是指特征拼接操作，/>是指线性层，/>为输出的实体类别预测分数；