CN115048906A

CN115048906A - 一种文档结构化方法、装置、电子设备和存储介质

Info

Publication number: CN115048906A
Application number: CN202210983739.3A
Authority: CN
Inventors: 张啸宇
Original assignee: SHANGHAI YICHUANG INFORMATION TECHNOLOGY CO LTD; Beijing Hanyi Innovation Technology Co ltd
Current assignee: SHANGHAI YICHUANG INFORMATION TECHNOLOGY CO LTD; Beijing Hanyi Innovation Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-09-13
Anticipated expiration: 2042-08-17
Also published as: CN115048906B

Abstract

本公开涉及一种文档结构化方法、装置、电子设备和存储介质，所述方法包括如下步骤：通过利用大规模阅读理解任务知识进行预微调，并将其阅读理解能力迁移到文档结构化任务上，从待结构化的多模态或纯文本中提取结构化的键值对信息，设定每个键对应的文本问题，对待结构化的文档图片进行识别，将识别的文字内容拼接为篇章文本，通过数据增强的方式将文本问题集和篇章文本组成多片段阅读理解数据集，对数据集进行训练，抽取与每个文本问题对应的答案片段，输出所有的问题‑答案对作为最终的结构化键值对信息。本公开能够明显提升任务效果，具有一定的0样本推理能力；对于排版异常和键值对错位的情况不敏感,鲁棒性较好。

Description

一种文档结构化方法、装置、电子设备和存储介质

技术领域

本公开涉及智能文档结构化技术领域，特别涉及一种文档结构化方法、装置、电子设备和存储介质。

背景技术

目前主流的文档结构化方法是：首先通过文本检测与识别技术(OCR)检测出文档图片或者PDF中的所有文本及其位置，然后将文本及位置信息送入多模态的结构化模型，将文本分类并组织成结构化信息输出，例如百度提出OCR结构化模型StrucTexT和微软亚洲研究院提出的多模态预训练模型LayoutLM 2.0。

但上述文档结构化方法中的视觉方案比较依赖文档中文本的位置信息，对于特殊位置和排版异常情况精度会明显下降，且需要排版位置信息的视觉方案无法直接应用或迁移到纯文本的任务；而且常规NLP信息抽取的方式难以解决文档中结构化信息断裂以及错位的情况，对于不同类别信息有重叠的情况也不易区分。此外，现有的主流文档结构化模型虽然有利用一些语言或者预训练模型，但是极少利用阅读理解任务的知识来提升任务效果。

发明内容

本公开提供一种文档结构化方法、装置、电子设备和存储介质，以至少解决上述背景技术中存在的至少一个技术问题。

在本公开的较佳实施方式中，本申请实施例提供了一种文档结构化方法，所述方法包括：

在中文语言模型上进行继续预训练，获得接近文档结构化任务的表示；在所述中文语言模型上对大规模中文阅读理解数据集进行预微调；

确定需要从文档图片中抽取的键值对key-value信息，设定每个键key对应的文本问题，将获得的所述文本问题组成问题集合；

对待结构化的文档图片进行文字识别，获取文档图片中所有的文本内容和布局排版信息，根据所述布局排版信息，将获取的所有文本内容拼接为篇章文本，其中，所述布局排版信息包括坐标信息；

根据所述篇章文本和问题集合构建单片段阅读理解数据集；将单片段阅读理解数据集增强为多片段阅读理解数据集；

对预微调后的模型继续训练，将答案的起止点损失Span Loss和序列标注损失Verify Loss作为约束进行训练，并引入对抗训练和梯度中心化，在得到损失Loss之后反向传播，并在正常梯度的基础上，累加对抗训练的梯度；

推理阶段将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段；

将答案片段排序后处理，输出所有的问题-答案对作为最终的键值对结构化信息。

进一步，所述将单片段阅读理解数据集增强为多片段阅读理解数据集包括以下步骤：

随机组合同一个样本的多个单片段问答，构成增强的多片段问答样本，组合方式包括：判断共同主语，随机连接词，句式变换和随机负样本；

将单片段阅读理解数据集、增强的多片段问答样本和随机负样本构成多片段阅读理解数据集。

进一步，所述判断共同主语是指对同一个文档图片的不同的问题判断是否包含共同主语，若包含则在构造增强的问题时合并包含共同主语的问题并省略后面的共同主语；

所述随机连接词是指将常见的并列连词作为候选集合，在构造增强的问题时随机选择并列连词来将两个问题合并为一个联合问题；

所述句式变换时指在问句中加入不影响语义的常见前后缀或者口语化表达；

所述随机负样本是指从拼接的篇章文本中随机删除一个问题对应的答案片段，使该问题变为无答案负样本。

进一步，所述将答案的起止点损失Span Loss和序列标注损失Verify Loss作为约束进行训练,具体是指将多个答案片段的起止点坐标交叉熵损失以及整个片段的序列标注交叉熵损失作为约束进行联合训练；所述对抗训练通过扰动输入embedding的方式，在模型forward时传入扰动，得到损失之后反向传播，并在正常的梯度的基础上，累加对抗训练的梯度。

进一步，所述问题和篇章采用[CLS]question[SEP]context[SEP]方式连接，以预测所有答案在篇章context中的起止点坐标作为训练目标，训练模型采用对所述大规模中文阅读理解数据集进行预微调后的模型，训练指标为F1和EM。

进一步，所述将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段具体包括：

将图片的文本信息按照和训练阶段同样的方式拼接成篇章，然后和问题一起以[CLS]question[SEP]context[SEP]送入训练后的模型进行推理，模型预测篇章context中每个位置作为答案起止点的概率。

进一步，所述将答案片段排序后处理，输出所有的问题-答案对作为最终的键值对结构化信息具体包括：

对于满足条件的答案片段进行排序后处理，并区分有答案和空答案两种情况，得到最终的答案，输出所有的问题-答案对作为最终的键值对结构化信息。

在本公开的较佳实施方式中，本申请实施例还提供了一种文档结构化装置，包括：

继续预训练模块，用于在中文语言模型上进行继续预训练，获得接近文档结构化任务的表示；在所述中文语言模型上对大规模中文阅读理解数据集进行预微调；

问题集合生成模块，用于确定需要从文档图片中抽取的键值对key-value信息，设定每个键key对应的文本问题，将获得的所述文本问题组成问题集合；

篇章文本生成模块，用于对待结构化的文档图片进行文字识别，获取文档图片中所有的文本内容和布局排版信息，根据所述布局排版信息，将获取的所有文本内容拼接为篇章文本，其中，所述布局排版信息包括坐标信息；

多片段阅读理解数据集生成模块，用于根据所述篇章文本和问题集合构建单片段阅读理解数据集；将单片段阅读理解数据集增强为多片段阅读理解数据集；

联合训练模块，用于对预微调后的模型继续训练，将答案的起止点损失Span Loss和序列标注损失Verify Loss作为约束进行训练，并引入对抗训练和梯度中心化，在得到损失之后反向传播，并在正常梯度的基础上，累加对抗训练的梯度；

推理模块，用于将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段；

输出模块，用于将答案片段排序后处理，输出所有的问题-答案对作为最终的键值对结构化信息。

在本公开的较佳实施方式中，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的文档结构化方法。

在本公开的较佳实施方式中，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的文档结构化方法的步骤。

本公开的有益效果是：本公开提供的一种文档结构化方法，有效地利用了大规模阅读理解任务知识进行预微调，并将其能力迁移到文档结构化任务上，大幅提升了任务效果；通过使用统一的方案从多模态或纯文本中提取结构化的信息，方案简洁有效；相较于常规方案只支持每个key单一信息的抽取，该方案支持对每个key的任意多片段答案(包含重复情况)的抽取和组装；使用与key相关的问题和整篇文本作为输入，直接提取出该 key对应的 value，当key没有在训练集中出现时，模型具有一定的0样本推理能力；当有新的键值对需求加入任务时,不同于常规的分类任务需要从头训练；该方案可以直接在原有模型的基础上进行再次微调，只需要将新键值对的数据样本和原有的训练样本混合即可，这样既加快了开发进度，也利用了原有模型的迁移能力；对于排版异常和键值对错位的情况不敏感,鲁棒性较好；创新地使用了大规模阅读理解知识进行预微调,将其领域能力迁移到了文档结构化任务中；设计了一种通用的多片段阅读理解数据增强方案，能够明显提升任务效果。

附图说明

图1为文档结构化流程图；

图2为文档结构化中的数据增强流程图；

图3为文档结构化装置中的各模块组成图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例1

请参阅附图1，根据本公开示例性实施例提出的文档结构化方法，针对背景技术中提到的技术问题，有效地利用了大规模阅读理解任务知识进行预微调，并将其能力迁移到文档结构化任务上，大幅提升了任务效果。

作为示例的文档结构化方法的实现过程包含以下步骤：

S1：首先在中文语言模型上对相关领域进行继续预训练，获得更接近文档结构化任务的表示，所述相关领域包括中文阅读理解领域和银行发票及回单等领域；然后在所述中文语言模型上，对收集的大规模中文阅读理解数据集进行预微调，使模型充分学习各个领域的阅读理解方式的知识；

S2：根据文档结构化的业务需求，确定需要从图片或文档中抽取的键值对key-value信息，然后对于每一个键key，都设定相应的文本问题；

S3：对于待结构化的文档图片，进行文本行检测与识别，获取其中所有文本内容与坐标信息，并将布局排版信息等坐标信息融入到拼接的篇章文本中；

S4：根据步骤S2得到的问题集合与S3得到的篇章内容构建单片段数据集，然后增强为多片段数据集；问题和篇章采用[CLS]question[SEP]context [SEP]方式连接，以预测所有答案在文本 context中的起止点坐标作为训练目标，微调模型使用步骤1中的预微调模型初始化进行训练；

S5：构造多个答案片段的的起止点坐标交叉熵损失以及整个片段的序列标注交叉熵损失进行联合训练，通过同时考虑多个答案片段中每个片段的损失，将多个答案片段的共同损失作为约束，提高了问题之间的关联性，其中，起止点损失可通过阅读理解中常用的起止点损失函数span_loss来构造，而序列标注损失多用在NER任务中，比span_loss的约束更强，在本公开的实施例中用于验证答案，比如答案是某某银行，起止点就是计算开头和结尾的字的位置，序列标注就是答案所在片段所有字符的位置的损失；并使用对抗训练，通过扰动输入embedding的方式，在模型forward时传入扰动，得到loss之后反向传播，并在正常的梯度的基础上，累加对抗训练的梯度，从而增加训练的鲁棒性，提高模型的泛化能力；另外，还在优化器中使用梯度中心化的优化策略来增强训练的稳定性；

S6：推理阶段输入图片文本和对应的问题，首先将图片的文本信息按照和训练阶段同样的方式拼接成篇章，然后和问题一起以 [CLS]question[SEP] context[SEP]的方式送入训练后的模型进行推理，模型预测获取文本context中每个位置作为答案起止点的概率。

S7：对于满足条件的片段进行排序后处理，并区分有答案和空答案两种情况，得到最终的答案，这样所有的问题-答案对就是最终的键值对结构化信息。

实施例2

如图2所示，作为示例的文档结构化中的数据增强方法的实现过程包括：

对于获得的篇章文本，将问题集合中每一个问题，找到其答案在篇章文本中的位置坐标，进行训练和推理。

随机组合同一个样本的多个单片段问答，构成增强的多片段问答样本，通过有效地组合不同的问答对，实现学习问题之间的关联性以及答案之间的关联性。组合方式包括：判断共同主语，随机连接词，句式变换和随机负样本；所述判断共同主语是指对同一个文档图片（如回单）的不同的问题判断是否包含共同主语，若包含则在构造增强的问题时合并包含共同主语的问题并省略后面的共同主语，例如，付款人姓名与付款人账号具有共同主语为“付款人”，在构造增强的问题时，省略后面的共同主语“付款人”，变为“付款人姓名账号”；所述随机连接词是指将常见的并列连词作为候选集合，在构造增强的问题时随机选择并列连词来将两个问题合并为一个联合问题，常见的并列连词包括“和”、“与”、“以及”、“及”、“并”、“且”、“并且”和“又”等，例如，将问题“付款人姓名”和问题“付款人账号”使用连接词“和”合并为一个问题“付款人姓名和付款人账号”；所述句式变换是指在问句中加入不影响语义的常见前后缀或者口语化表达，增强鲁棒性，例如将问题“是什么”和“分别是什么”加上前缀，从而分别变换为“付款人姓名是什么”和“付款人姓名和账号分别是什么”；所述随机负样本是指从拼接的篇章文本中随机删除一个问题对应的答案片段，使该问题变为无答案负样本，例如，从篇章文本中删除付款人开户行的答案，则付款人开户行这个问题变为无答案负样本，这种方式能增强篇章文本构造的鲁棒性，对于变化多样的文档格式有较强的适应性。

实施例3

如图3所示，作为示例的文档结构化装置，包括：

继续预训练模块，用于在中文语言模型上进行继续预训练，获得接近文档结构化任务的表示；在所述中文语言模型上利用大规模中文阅读理解数据集进行预微调；

篇章文本生成模块，用于对待结构化的文档图片进行文字识别，获取文档图片中所有的文本内容和布局排版信息，将获取的文本内容拼接为篇章文本，将所述布局排版信息融入到拼接的篇章文本中，其中，所述布局排版信息包括坐标信息；

联合训练模块，所述联合训练模块用于对预微调后的模型继续训练，将答案的起止点损失Span Loss和序列标注损失Verify Loss作为约束对答案进行训练，并引入对抗训练和梯度中心化，在得到损失Loss之后反向传播，并在正常梯度的基础上，累加对抗训练的梯度；

实施例4

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1中的文档结构化方法。

本公开实施例2仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备的组件可以包括但不限于：至少一个处理器、至少一个存储器、连接不同系统组件（包括存储器和处理器）的总线。

总线包括数据总线、地址总线和控制总线。

存储器可以包括易失性存储器，例如随机存取存储器（RAM）和/或高速缓存存储器，还可以进一步包括只读存储器（ROM）。

存储器还可以包括具有一组（至少一个）程序模块的程序工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器通过运行存储在存储器中的计算机程序，从而执行各种功能应用以及数据处理。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备等）通信。这种通信可以通过输入/输出（I/O）接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID（磁盘阵列）系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例5

一种计算机存储介质，所述可读存储介质存储有计算机程序，所述程序被处理器执行时实现实施例1中的文档结构化方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本公开还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中所述的文档结构化方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

尽管已经示出和描述了本公开的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本公开的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本公开的范围由所附权利要求及其等同物限定。

Claims

1.一种文档结构化方法，其特征在于，包括如下步骤：

确定需要从文档图片中抽取的键值对信息，设定每个键对应的文本问题，将获得的所述文本问题组成问题集合；

对预微调后的模型继续训练，将答案的起止点损失和序列标注损失作为约束进行训练，并引入对抗训练和梯度中心化，在得到损失之后反向传播，并在正常梯度的基础上，累加对抗训练的梯度；

将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段；

2.如权利要求1所述的文档结构化方法，其特征在于，所述将单片段阅读理解数据集增强为多片段阅读理解数据集包括以下步骤：

3.如权利要求2所述的文档结构化方法，其特征在于，所述判断共同主语是指对同一个文档图片的不同的问题判断是否包含共同主语，若包含则在构造增强的问题时合并包含共同主语的问题并省略后面的共同主语；

4.如权利要求1所述的文档结构化方法，其特征在于，所述将答案的起止点损失和序列标注损失作为约束进行训练,具体是指将多个答案片段的起止点坐标交叉熵损失以及整个片段的序列标注交叉熵损失作为约束进行联合训练；所述对抗训练通过扰动输入嵌入的方式，在模型前向时传入扰动，得到损失之后反向传播，并在正常的梯度的基础上，累加对抗训练的梯度。

5.如权利要求1所述的文档结构化方法，其特征在于，所述问题和篇章采用拼接方式连接，以预测所有答案在篇章中的起止点坐标作为训练目标，训练模型采用对所述大规模中文阅读理解数据集进行预微调后的模型，训练指标为F1和EM。

6.如权利要求1所述的文档结构化方法，其特征在于，所述将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段具体包括：

将图片的文本信息按照和训练阶段同样的方式拼接成篇章，然后和问题一起以拼接的方式送入训练后的模型进行推理，模型预测篇章中每个位置作为答案起止点的概率。

7.如权利要求1所述的文档结构化方法，其特征在于，所述将答案片段排序后处理，输出所有的问题-答案对作为最终的键值对结构化信息具体包括：

8.一种文档结构化装置，其特征在于，包括：

问题集合生成模块，用于确定需要从文档图片中抽取的键值对信息，设定每个键对应的文本问题，将获得的所述文本问题组成问题集合；

联合训练模块，用于对预微调后的模型继续训练，将答案的起止点损失和序列标注损失作为约束进行训练，并引入对抗训练和梯度中心化，在得到损失之后反向传播，并在正常梯度的基础上，累加对抗训练的梯度；

推理模块，所述推理模块用于将篇章文本和对应的问题输入到训练后的模型进行推理，获取与问题对应的所有答案片段；

输出模块，所述输出模块用于将答案片段排序后处理，输出所有的问题-答案对作为最终的键值对结构化信息。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文档结构化方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述的文档结构化方法的步骤。