CN115687643A

CN115687643A - 一种训练多模态信息抽取模型的方法及信息抽取方法

Info

Publication number: CN115687643A
Application number: CN202211294201.8A
Authority: CN
Inventors: 薛永福; 姚贡之; 郝东
Original assignee: Shanghai Hongji Information Technology Co Ltd
Current assignee: Shanghai Hongji Information Technology Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-02-03

Abstract

本申请实施例提供一种训练多模态信息抽取模型的方法及信息抽取方法，该方法包括：根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的；根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。本申请一些实施例的多模态信息抽取模型泛化能力更好。

Description

一种训练多模态信息抽取模型的方法及信息抽取方法

技术领域

本申请涉及信息抽取领域，具体而言本申请实施例涉及一种训练多模态信息抽取模型的方法及信息抽取方法。

背景技术

近年来多模态信息抽取成为学术界的研究热点。早期的信息抽取(例如，征信报告领域的信息抽取)是基于规则(rule-based)的方法，方法严重依赖于业务人员或者工程人员预先制定待抽取信息的规则，耗费比较大的时间成本和人力成本。这种方法在实际应用中可能具有较高的准确率，但是泛化能力差，很难达到真正应用水平。

随着深度学习的发展，人们逐渐开始使用自然语言处理技术、计算机视觉技术等技术对待抽取信息的文档(例如，征信报告或者户口页等)进行信息抽取。一种方法是基于固定模板的锚点检测方法，该方法在单证，发票等业务领域上已经取得不错的抽取效果，但是该方法要求数据的版式相同或者基本相同，其对版式变化较大，页面扭曲变形的数据均不能达到理想的抽取效果。一种基于自然语言处理技术的方法，通过OCR(OpticalCharacter Recognition，光学字符识别)或者文档解析工具将待抽取信息的文档(例如，征信报告或者户口页)中的文字提取出来，然后使用传统的实体识别模型进行信息抽取，该方法对部分字段的抽取上有很好的泛化性，如姓名、地址、职业等字段，但对数字类不具有语义信息的字段的抽取效果很差，原因是这些字段依赖数字类信息的上下文信息才能判断出其所属标签。

因此如何提升对文档(例如，既包括文字又包括表格等版式内容的文档)信息抽取的准确性和速度成了亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种训练多模态信息抽取模型的方法及信息抽取方法，本申请的实施例在信息抽取过程中融合了图像特征、布局(layout)特征、文本特征等多模态特征，并基于多模态预训练信息模型对目标领域的文档(例如，征信报告)进行信息抽取，比传统多模态信息抽取模型有更好的泛化能力。

第一方面，本申请实施例提供一种训练多模态信息抽取模型的方法，所述方法包括：根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的；根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。

本申请的一些实施例通过采用目标领域的训练数据对预训练模型进行再次预训练，并根据微调数据对再次预训练得到的模型进行微调得到目标领域的实体信息抽取模型，提升得到的实体信息抽取的泛化能力。

在一些实施例中，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的；将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据。

本申请的一些实施例通过构造第一模态预训练数据和第二模态预训练数据可以使得训练得到的模型具备文本学习能力和目标领域中文档的布局学习能力。

在一些实施例中，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对所述第一文档集合中的一个文档进行文本抽取得到的。

本申请的一些实施例通过构造第一模态预训练数据和第三模态预训练数据可以使得训练得到的模型具备文本学习能力和目标领域中文档的布局学习能力。

在一些实施例中，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据；将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对一个所述第一文档集合中的一个文档进行文本抽取得到的。

在一些实施例中，所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，包括：根据目标损失值确认对所述第一多模态信息抽取模型的训练是否可结束，其中，所述目标损失值与通过所述第一模态预训练数据得到的第一损失值、与通过所述第二模态预训练数据得到的第二损失值以及与通过所述第三模态预训练数据得到的第三损失值相关。

本申请的一些实施例的损失函数值与多任务损失值相关提升得到的模型的泛化能力。

在一些实施例中，所述目标损失值为所述第一损失值、所述第二损失值以及所述第三损失值的加权求和。

本申请的一些实施例提供一种量化多任务损失值的方法，使得目标损失值的计算更加客观准确。

在一些实施例中，在所述根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调之前，所述方法还包括：获取所述第二文档集合中任意文档的图像，得到目标图像；从所述目标图像上识别所有文本得到目标文本文件，并从所述目标图像上获取各段文本所在的文本框；在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签；根据所述实体框和所述文本框得到所述实体标注数据，其中，所述实体标注数据是为至少文本框分配的实体标签。

在一些实施例中，所述根据所述实体框和所述文本框得到所述实体标注数据，包括：若第一文本框与第一实体框在对应图像上的重叠区域的占比大于第一阈值，则将与所述第一实体框对应的实体标签作为与所述第一文本框对应的标签。

本申请的一些实施例通过标注实体框和与各文本框对应的实体标签完成微调数据的标注得到实体训练数据。

在一些实施例中，所述在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签，包括：对于跨行的一个实体标注一个实体框并分配一个实体标签。

本申请的一些实施例对于跨行的多个实体标注一个实体框并标注一个实体标签可以提升跨行实体的识别能力。

第二方面，本申请的一些实施例提供一种实体信息抽取的方法，所述方法包括：根据待提取图像、待提取文本文件、待提取文本框以及所述目标多模态实体信息抽取模型完成实体信息抽取，得到预测实体信息抽取结果，其中，所述待提取图像是与所述待提取文档对应的图像，所述待提取文本文件包括的文本序列是对所述待提取图像进行文本抽取得到的，所述待提取文本框是在所述待提取图像上确定的各段文本所在的位置框，所述预测实体信息抽取结果包括从所述待提取文档上提取的所有目标实体片段、与所述目标实体片段对应的实体标签和实体位置。

本申请的一些实施例通过训练得到的多模态信息抽取模型可以完成对输入文档的实体信息抽取。

在一些实施例中，在所述根据待提取图像、待提取文本文件、待提取文本框以及所述目标多模态实体信息抽取模型完成实体信息抽取之前，所述方法还包括：将所述待提取文档转化为图像得到所述待提取图像；从所述待提取图像上进行文本抽取得到所述待提取文本文件；从所述待提取图像上识别各段文本所覆盖的区域得到所述待提取文本框。

本申请的一些实施例将需要待抽取内容的文档进行预处理，得到文本文件、文本所在文本框以及文档对应图像作为输入模型的数据，提升得到的实体抽取结果的准确性。

在一些实施例中，所述方法还包括：合并属于跨行的多个目标实体片段得到一个实体对象。

本申请的一些实施例针对识别出的跨行实体进行合并提升得到的实体抽取结果的准确性。

在一些实施例中，所述合并属于跨行的多个实体片段得到一个实体对象，包括：至少根据多个目标实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象。

本申请的一些实施例通过多个实体片段的实体标签和实体位置确定多个实体片段是否对应一个实体对象。

在一些实施例中，所述至少根据多个目标实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象，包括：若确认所述多个目标实体片段的实体标签均相同，所述多个目标实体片段的实体位置邻近且将所述多个目标实体片段对应的所有实体标签合并之后满足预定标注规范，则确认所述多个目标实体片段属于一个实体对象。

本申请的一些实施例将多个实体标签相同、实体位置邻接且实体标签合并后完成某个标注规范的确定为一个实体，提升了针对各个跨行实体的提取能力。

第三方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述第一方面或第二方面任意实施例所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面或第二方面任意实施例所述的方法。

第五方面，本申请的一些实施例提供一种训练多模态信息抽取模型的装置，所述装置包括：预训练模块，被配置为根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的；微调模块，被配置为根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的训练多模态信息抽取模型的方法的流程图之一；

图2为本申请实施例提供的对第一多模态信息抽取模型预训练的示意图；

图3为本申请实施例提供的对第二多模态信息抽取模型微调的示意图；

图4为本申请实施例提供的训练多模态信息抽取模型的方法的流程图之二；

图5为本申请实施例提供的采用目标多模态实体信息抽取模型完成实际的实体信息抽取的过程示意图；

图6为本申请实施例提供的训练多模态信息抽取模型的装置的组成框图；

图7为本申请实施例提供的电子设备组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着BERT的问世，预训练模型和微调的范式在少量的数据上便可以取得非常好的效果。本申请的发明人发现如何应用广泛存在的文档进行模型的预训练，并将预训练出来的模型在目标领域的文档(例如，征信报告)数据上微调，从而进一步提升对目标领域的信息抽取效果，是一个非常值得思考的问题。例如，以征信报告领域信息提取为例，该征信报告文档拥有丰富的视觉信息，融入基于计算机视觉技术的视觉特征将会更有利于征信报告的信息抽取。

本申请的一些实施例提出了一种融合了视觉特征、布局(layout)特征、文本特征并基于预训练多模态信息抽取模型(即第一多模态信息抽取模型)的征信报告信息抽取方法，该预训练多模态信息模型是经过大量的视觉丰富的文档数据上进行预训练得到的，因此该预训练多模态信息抽取模型可从文档上学习出通用的文本语义表示、文本与图像的对齐能力。然后使用征信报告数据(作为目标领域的文档数据)对该预训练多模态信息抽取模型进行垂直领域预训练和微调，进而得到第二多模态信息抽取模型。在本申请的一些实施例还提出了针对跨行的实体信息的一种抽取优化方法，例如，使用BIOES(一种NLP中的序列标注方式)的标注方式，在推理阶段将跨行实体片段合并，从而完成对跨行实体的精准抽取。

下面首先示例性阐述对上述预训练多模态信息抽取模型进行再次预训练以及微调得到目标多模态实体信息抽取模型的过程。

请参看图1，图1为本申请实施例提供一种训练多模态信息抽取模型的方法，该方法包括：

S101，根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的。

需要说明的是，第一多模态信息抽取模式是采用通用领域的预训练数据对多模态信息抽取模型进行预训练得到的。例如，经过大量的视觉丰富的文档数据对多模态信息抽取模型进行预训练得到第一多模态信息抽取模式，该第一多模态信息抽取模型具备从文档上学习出通用的文本语义表示、文本与图像的对齐能力。

如图2所示，S101示例性包括将多模态预训练数据输入第一多模态信息抽取模型对该模型进行训练，训练结束后得到第二多模态信息抽取模型。

在本申请的一些实施例中S101所述的多模态预训练数据包括：用于挖掘文本特征的第一模态预训练数据和用于挖掘文本分布特征的第二模态预训练数据。在本申请的一些实施例中S101所述的多模态预训练数据包括：用于挖掘文本特征的第一模态预训练数据和用于挖掘文本分布特征的第三模态预训练数据。在本申请的一些实施例中，S101所述的多模态预训练数据包括：用于挖掘文本特征的第一模态预训练数据、用于挖掘文本分布特征的第二模态预训练数据和第三模态预训练数据。

下面示例性阐述获取多模态预训练数据的方法。

例如，在本申请的一些实施例中，在S101之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的；将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据。

例如，在本申请的一些实施例中，在S101之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对所述第一文档集合中的一个文档进行文本抽取得到的。

例如，在本申请的一些实施例中，在S101之前，所述方法还包括：将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据；将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对一个所述第一文档集合中的一个文档进行文本抽取得到的。

不难理解的是，若多模态预训练数据包括第一模态预训练数据、第二模态预训练数据以及第三模态预训练数据时对第一多模态信息抽取模型的预训练效果相比于其他实施例更优。

需要说明的是，为了得到上述的多模态预训练数据需要首先对第一文档集合中的各文档转化为图像，并从转化得到的图像上进行文本抽取得到与文档对应的文本文件(为抽取得到的文本序列)，并从转化得到的图像上识别各文本段的位置得到对应的文本框。第一模态预训练数据是对文本序列中的某个文本段遮盖并将被遮盖的文本段作为被遮盖部分的标签，第二模态预训练数据是对图像上与某个文本段对应的图像区域(该区域是根据文本框确定的)进行遮盖。

为了判断对第一多模态信息抽取模型的预训练过程是否可结束需要借助标注的各模态预训练数据得到多个损失值来确定。

在本申请的一些实施例中，S101示例包括：根据目标损失值确认对所述第一多模态信息抽取模型的训练是否可结束，其中，所述目标损失值与通过所述第一模态预训练数据得到的第一损失值、与通过所述第二模态预训练数据得到的第二损失值以及与通过所述第三模态预训练数据得到的第三损失值相关。本申请的一些实施例的损失函数值与多任务损失值相关提升得到的模型的泛化能力。

例如，在本申请的一些实施例中，所述目标损失值为所述第一损失值、所述第二损失值以及所述第三损失值的加权求和。本申请的一些实施例提供一种量化多任务损失值的方法，使得目标损失值的计算更加客观准确。

下面结合图4以目标领域的文档属于征信报告为例示例性阐述上述训练过程。

S111，收集适量的征信报告文档，并根据征信报告文档得到预训练数据和微调数据。

收集适量的征信报告文档，将文档转成图片，并使用OCR或者文档解析工具提取征信报告文档中的文本(得到与文本序列对应的文本文件)和文本所对应的矩形框(即识别文本对应的文本框)，然后划分成垂直领域预训练数据和微调数据，划分比例是95：5，分别记为数据A和数据B。

S112，对预训练数据进行标注得到多模态预训练数据。

对数据A实施如下三种标注操作得到多模态预训练数据：对数据A包括的各文本文件(即对一个征信报告文档转化为图像后再对该图像进行文本抽取后得到的文本序列)中的文本进行随机遮盖mask，并将被遮盖mask掉的文本作为标签，得到第一模态预训练数据；从各文本文件中随机选取一段文本，然后对与该段文本所对应的图像区域(该图像区域可以通过文本框的坐标来确定)进行遮盖，具体处理方式是将该区域的像素值置为0，然后该文本的标签设置成“遮盖”，对于图像区域未被遮盖的文本，其标签设置成“未遮盖”；将与各征信报告分别对应的文档所对应的文本和与该文档转成的图像一一对应起来，然后将文本图像对中的图像以一定概率替换成其他任意图像(也可以是将文本文件以一定概率替换成其他任意文本文件)，然后以文本图像对是否一致作为标签，构建好的数据记为数据C(即构建好了多模态预训练数据)。

S113，基于开源的LayoutXLM预训练语言模型(作为第一多模态信息抽取模型的一个具体示例，可以理解的是，该模型也可以替换为DiT或者StrucTexT)，使用数据C对该LayoutXLM预训练语言模型进行垂直领域预训练，输出模型A(作为第二多模态信息抽取模型的一个具体示例)。

S102，根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。

如图3所示，S102示例性包括将实体标注数据输入第二多模态信息抽取模型对该模型进行微调，微调结束后得到目标多模态实体信息抽取模型。

可以理解的是为了对模型进行微调需要首先获取实体标注数据。

在本申请的一些实施例中，在S102之前，所述方法还包括：获取所述第二文档集合中任意文档的图像，得到目标图像；从所述目标图像上识别所有文本得到目标文本文件，并从所述目标图像上获取各段文本所在的文本框；在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签；根据所述实体框和所述文本框得到所述实体标注数据，其中，所述实体标注数据是为至少文本框分配的实体标签。例如，所述根据所述实体框和所述文本框得到所述实体标注数据，包括：若第一文本框与第一实体框在对应图像上的重叠区域的占比大于第一阈值，则将与所述第一实体框对应的实体标签作为与所述第一文本框对应的标签。

也就是说，在本申请的一些实施例中，获取实体标注数据的过程示例性包括：从所述第二文档集合中任一文档对应的文本文件中获取各段文本所在的文本框，其中，所述文本文件是通过对所述第二文档集合中所述任一文档对应的图像进行文本提取得到的；在所述文本文件中标注实体所在的实体框以及与所述实体框对应的实体标签；若第一文本框与第一实体框在对应图像上重叠区域的占比大于第一阈值，则将与所述第一实体框对应的实体标签作为与所述第一文本框对应的标签；重复上述过程对所述第二文档集合中的各文档分别标注实体框并确认各文本框的标注标签得到所述实体标注数据。本申请的一些实施例通过标注实体框和与各文本框对应的实体标签完成微调数据的标注得到实体训练数据。

需要说明的是，为了提升对跨行实体的识别能力，在本申请的一些实施例中，所述在在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签，包括：对于跨行的一个实体标注一个实体框并分配一个实体标签。本申请的一些实施例对于跨行的多个实体标注一个实体框并标注一个实体标签可以提升跨行实体的识别能力。

下面结合图4以征信报告对应的模型微调为例示例性阐述上述过程。

如图4所示，该S102示例性包括：

S114，构建模型微调所需的微调训练数据(作为实体标注数据的一个具体示例)。

构建模型微调所需的训练数据，将数据B以人工标注(或者机器标注等)方式标注出实体，然后把标注结果导出，该数据记为数据D(作为实体标注数据的一个示例)。

S115，将微调训练数据划分为训练集和验证集，以训练集对模型进行进一步微调，并使用验证集验证模型效果。也就是说，将S114的数据D划分训练集和验证集，基于S113的模型A，以训练集对模型进一步微调，并使用验证集验证模型的效果。选取最优的模型作为最终的征信报告信息抽取模型，得到目标多模态实体信息抽取模型。

可以理解的是，上述S114属于S113之后的步骤。

下面示例阐述通过上述目标多模态实体信息抽取模型如何完成实际的实体信息抽取。

本申请的一些实施例提供一种实体信息抽取的方法，所述方法包括：根据待提取图像、待提取文本文件、待提取文本框以及所述目标多模态实体信息抽取模型完成实体信息抽取，得到预测实体信息抽取结果，其中，所述待提取图像是与所述待提取文档对应的图像，所述待提取文本文件包括的文本序列是对所述待提取图像进行文本抽取得到的，所述待提取文本框是在所述待提取图像上确定的各段文本所在的位置框，所述预测实体信息抽取结果包括从所述待提取文档上提取的所有目标实体片段、与所述目标实体片段对应的实体标签和实体位置。本申请的一些实施例通过训练得到的多模态信息抽取模型可以完成对输入文档的实体信息抽取。

如图5所示，获取待提取文档(例如一个征信报告)；将该待提取文档输入预处理模块进行预处理得到文本序列(对应待提取文本文件)、文本所在文本框(对应待提取文本框)以及图像(对应待提取图像)；之后再将文本序列、文本所在文本框以及图像输入目标多模态实体信息抽取模型得到预测实体信息抽取结果。

下面示例性阐述，如何对待提取文档进行预处理的过程。

在本申请的一些实施例中，在所述根据待提取图像、待提取文本文件、待提取文本框以及所述目标多模态实体信息抽取模型完成实体信息抽取之前，所述方法还包括：将所述待提取文档转化为图像得到所述待提取图像；从所述待提取图像上进行文本抽取得到所述待提取文本文件；从所述待提取图像上识别各段文本所覆盖的区域得到所述待提取文本框。本申请的一些实施例将需要待抽取内容的文档进行预处理，得到文本文件、文本所在文本框以及文档对应图像作为输入模型的数据，提升得到的实体抽取结果的准确性。

为了提升对跨行实体的提取能力，本申请的一些实施例还对由目标多模态实体信息抽取模型获取的预测结果进行跨行实体处理的步骤。

如图5所示，通过跨行实体处理模块对由目标多模态实体信息抽取模型获取的预测结果进行跨行合并处理得到所有抽取的感兴趣实体对象。

也就是说，在本申请的一些实施例中，所述实体信息抽取的方法还包括：合并属于跨行的多个目标实体片段得到一个实体对象。本申请的一些实施例针对识别出的跨行实体进行合并提升得到的实体抽取结果的准确性。

例如，在本申请的一些实施例中，所述合并属于跨行的多个目标实体片段得到一个实体对象，包括：至少根据多个目标实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象。本申请的一些实施例通过多个实体片段的实体标签和实体位置确定多个实体片段是否对应一个实体对象。

例如，在本申请的一些实施例中，所述至少根据多个目标实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象，包括：若确认所述多个目标实体片段的实体标签均相同，所述多个目标实体片段的实体位置(即确定的实体片段对应的框的位置)邻近且将所述多个目标实体片段对应的所有实体标签合并之后满足预定标注规范，则确认所述多个目标实体片段属于一个实体对象。本申请的一些实施例将多个实体标签相同、实体位置邻接且实体标签合并后完成某个标注规范的确定为一个实体，提升了针对各个跨行实体的提取能力。

下面以目标领域的文档即征信报告为例示例性阐述训练以及实体提取的整个过程。

在征信报告领域，数据呈现丰富的语义信息、版面信息和视觉信息，因此使用一种集成这些模态信息的预训练模型，将能够更好的对征信报告信息抽取任务进行更好的建模。LayoutXLM模型建模了数据的语义信息、版面信息和视觉信息，非常适合应用在征信报告的信息抽取任务上。LayoutXLM是一种多语言的多模态预训练语言模型，其在公开的大量的视觉丰富的文档数据集上进行了预训练，并在表格型数据或者视觉丰富型文档数据的信息抽取上取得很好的效果。但由于该模型预训练的数据集和征信报告数据有较大的差异，直接像相关技术一样使用该模型进行微调并不能取得理想的效果，因此本申请的一些实施例需要在征信报告数据对该预训练模型上进行垂直领域预训练之后再微调。下面示例性阐述本申请一些实施例的再次预训练和微调的过程。

首先，需要收集尽可能多的征信报告数据，鉴于在微调阶段模型评估的准确性，需要将收集到的数据集划分成垂直领域预训练数据和微调数据，划分比例是95：5，分别记为数据A和数据B(可参考上述步骤S111)。

其次，对数据A进一步处理，方法是对数据A的文本进行随机mask，并将被mask掉的文本作为该预训练目标的标签；随机选取文本，然后对文本所对应的图像区域进行遮盖，具体处理方式是将该区域的像素值置为0，然后该文本的标签设置成“遮盖”，对于图像区域未被遮盖的文本，其标签设置成“未遮盖”；将文本图像对的图像替换成其他图像，以文本图像是否一致作为标签，将数据好的数据记为数据C。

再次，使用数据C对LayoutXLM模型进行垂直领域预训练，模型损失使用预训练中各个子任务损失的加和(也就是将三种模态预训练数据分别得到的损失值求和)，训练的总步数为5万步。

之后，对数据B进行人工标注，根据业务需求对征信报告中的部分字段进行标注。例如，使用labelme(一种标签标注工具)在征信报告转成的图片数据上标注出实体区域(得到实体框)，针对跨行的实体，仅使用一个标注框(即标注一个实体框)将跨行实体标注出来，该标注好的数据记为数据D。

为了获取数据中文字的bounding box(即文本框)信息，还需要将征信文档进行文字提取，对于可以解析的征信报告文档，直接使用文档解析工具获取文字和文字的bounding box(文本框)信息，对于不可解析的征信报告文档，使用OCR对该不可解析文档进行识别，提取文字和文字的bounding box信息。由于文档转图片过程中，对宽高进行了等比例扩张，因此需要根据扩张的比例，将数据D的bounding box(即实体框)信息和提取的文字bounding box转换成同等的缩放比例。

将抽取的文字bounding box(即文本框)与数据D的bounding box信息(即实体框)进行位置匹配，具体是计算文字bounding box和数据D的bounding box的重叠因子，重叠因子大于0.5，便将数据D的实体标签作为文字的标签。针对跨行的实体，文字bounding box和数据D的bounding box的重叠因子可能低于0.5，但是文字bounding box被完全包裹在数据的D的bounding box中，仍将数据D的标签作为文字的标签。根据以上方法，便对提取的每个文字进行了标签的分配(与一个实体对应的就是实体标签)。实体标签的类型可以为：地址、姓名、性别等。

这里使用BIOES的方法对实体进行打标，针对跨行的实体，比如“上海性别\n浦东男\n三林镇”，该实体在文档中跨了三行，其标签是“B-ADDRESS I-ADDRESS O O\n I-ADDRESS I-ADDRESS O\n I-ADDRESS I-ADDRESS E-ADDRESS”。将该构建好的数据记为数据D。需要说明的是，“B-ADDRESS I-ADDRESS O O\n I-ADDRESS I-ADDRESS O\n I-ADDRESSI-ADDRESS E-ADDRESS”是与跨行实体上海浦东三林镇对应的实体标签，在该实体标签中0表征非地址类的信息(例如，男或者性别等文本)。

然后，将数据D划分成训练集和验证集，根据训练集对预训练好的模型进行微调，具体是对输入的文字序列计算每个位置的标签。微调完成后，选取在验证集上F1值最高的模型保存节点，进行最终的应用模型。

需要说明的是，在模型预测阶段，由于跨行的实体分布在输入文本序列的不同片段，因此根据预测实体的标签和相同位置，判断实体片段是否属于同一个实体。具体是处于相近的y坐标(作为实体位置是否邻近的一个示例)，实体标签相同，并且实体片段合并之后满足BIOES的标注规范(作为预定标注规范的一个示例)，便可以认为这些实体片段属于同一个实体，需要作为一个提取实体进行合并输出。

请参考图6，图6示出了本申请实施例提供的训练多模态信息抽取模型的装置，应理解，该装置与上述图1方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该训练多模态信息抽取模型的装置，包括：预训练模块601以及微调模块602。

预训练模块601，被配置为根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的。

微调模块602，被配置为根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述训练多模态信息抽取模型的方法或者上述实体信息抽取的方法中任意实施例所述的方法。

如图7所示，本申请的一些实施例提供一种电子设备700，包括存储器710、处理器以720及存储在所述存储器710上并可在所述处理器720上运行的计算机程序，其中，所述处理器720通过总线730从存储器710读取程序并执行所述程序时可实现如上述训练多模态信息抽取模型的方法或者上述实体信息抽取的方法中任意实施例所述的方法。

处理器720可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器720可以是微处理器。

存储器710可以用于存储由处理器720执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器720可以用于执行存储器710中的指令以实现图1中所示的方法。存储器710包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种训练多模态信息抽取模型的方法，其特征在于，所述方法包括：

根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，得到第二多模态信息抽取模型，其中，所述多模态预训练数据是对预训练数据进行标注得到的，所述预训练数据是对所述目标领域的第一文档集合中的各文档进行文本抽取和文本框识别后得到的；

根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调，得到目标多模态实体信息抽取模型，其中，所述实体标注数据是对微调数据进行标注得到的，所述微调数据是对所述目标领域的第二文档集合中的各文档进行文本抽取和文本框识别后得到的。

2.如权利要求1所述的方法，其特征在于，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：

将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的；

将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据。

3.如权利要求1所述的方法，其特征在于，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：

将与任一一个文档对应的文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；

将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对所述第一文档集合中的文档进行文本抽取得到的。

4.如权利要求1所述的方法，其特征在于，在所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练之前，所述方法还包括：

将与任一一个文档对应的第一文本文件中的任意一段或多段文本遮盖，并将被遮盖的文本作为标签，构造第一模态预训练数据，其中，所述文本文件是对所述第一文档集合中的所述任一一个文档进行文本抽取得到的，所述第一文档集合共包括N个文档，N为大于1的整数；

将所述任一一个文档中的任意一段或多段文本所对应的图像区域遮盖，并将被遮盖文本段对应的图像区域标注为遮盖，未被遮盖的文本段对应的图像区域标注为未遮盖，得到第二模态预训练数据；

将N对文本文件与图像组合包括的部分组合中的文本文件替换为不同文本文件或者将图像替换为不同图像，并对被替换的组合标注文本与图像不一致的标签，对于未被替换的组合标注文本与图像一致的标签，得到第三模态预训练数据，其中，所述N对文本文件与图像组合包括N个文本文件以及与各文本文件对应的图像，所述文本文件是对一个所述第一文档集合中的文档进行文本抽取得到的。

5.如权利要求4所述的方法，其特征在于，所述根据目标领域的多模态预训练数据对第一多模态信息抽取模型进行预训练，包括：

根据目标损失值确认对所述第一多模态信息抽取模型的训练是否可结束，其中，所述目标损失值与通过所述第一模态预训练数据得到的第一损失值、与通过所述第二模态预训练数据得到的第二损失值以及与通过所述第三模态预训练数据得到的第三损失值相关。

6.如权利要求5所述的方法，其特征在于，所述目标损失值为所述第一损失值、所述第二损失值以及所述第三损失值的加权求和。

7.如权利要求1-6中任一项所述的方法，其特征在于，在所述根据所述目标领域的实体标注数据对所述第二多模态信息抽取模型进行微调之前，所述方法还包括：

获取所述第二文档集合中任意文档的图像，得到目标图像；

从所述目标图像上识别所有文本得到目标文本文件，并从所述目标图像上获取各段文本所在的文本框；

在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签；

根据所述实体框和所述文本框得到所述实体标注数据，其中，所述实体标注数据是为至少文本框分配的实体标签。

8.如权利要求7所述的方法，其特征在于，所述根据所述实体框和所述文本框得到所述实体标注数据，包括：

若第一文本框与第一实体框在对应图像上的重叠区域的占比大于第一阈值，则将与所述第一实体框对应的实体标签作为与所述第一文本框对应的标签。

9.如权利要求7所述的方法，其特征在于，所述在所述目标图像上标注实体所在的实体框并得到与所述实体框对应的实体标签，包括：

对于跨行的一个实体标注一个实体框并分配一个实体标签。

10.一种实体信息抽取的方法，其特征在于，所述方法包括：

根据待提取图像、待提取文本文件、待提取文本框以及目标多模态实体信息抽取模型完成实体信息抽取，得到预测实体信息抽取结果，其中，所述待提取图像是与待提取文档对应的图像，所述待提取文本文件包括的文本序列是对所述待提取图像进行文本抽取得到的，所述待提取文本框是在所述待提取图像上确定的各段文本所在的位置框，所述预测实体信息抽取结果包括从所述待提取文档上提取的所有目标实体片段、与所述目标实体片段对应的实体标签和实体位置。

11.如权利要求10所述的方法，其特征在于，在所述根据待提取图像、待提取文本文件、待提取文本框以及所述目标多模态实体信息抽取模型完成实体信息抽取之前，所述方法还包括：

将所述待提取文档转化为图像得到所述待提取图像；

从所述待提取图像上进行文本抽取得到所述待提取文本文件；

从所述待提取图像上识别各段文本所覆盖的区域得到所述待提取文本框。

12.如权利要求10-11任一项所述的方法，其特征在于，所述方法还包括：合并属于跨行的多个目标实体片段得到一个实体对象。

13.如权利要求12所述的方法，其特征在于，所述合并属于跨行的多个目标实体片段得到一个实体对象，包括：至少根据多个目标实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象。

14.如权利要求13所述的方法，其特征在于，所述至少根据多个实体片段的实体标签和实体位置确定所述多个目标实体片段属于一个待提取的实体对象，包括：

若确认所述多个目标实体片段的实体标签均相同，所述多个目标实体片段的实体位置邻近且将所述多个目标实体片段对应的所有实体标签合并之后满足预定标注规范，则确认所述目标多个实体片段属于一个实体对象。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现如权利要求1-14中任意一项权利要求所述的方法。

16.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如权利要求1-14中任意一项权利要求所述的方法。