CN117151223A

CN117151223A - 一种基于可学习提示的多模态实体识别和关系抽取方法

Info

Publication number: CN117151223A
Application number: CN202311423976.5A
Authority: CN
Inventors: 吴艳; 雷阳; 徐雅静; 李阳; 李志慧
Original assignee: Beijing Xinguangshitong Technology Group Co ltd
Current assignee: Beijing Xinguangshitong Technology Group Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-01
Anticipated expiration: 2043-10-31
Also published as: CN117151223B

Abstract

本发明公开了一种基于可学习提示的多模态实体识别和关系抽取方法，属于多模态处理技术领域，步骤如下：基于获取的图像和文本，利用CLIP预训练模型，完成特征信息生成；利用Transformer编码器、对比学习辅助网络和Linear层神经网络，进行图文对齐；将获取的文本输入BERT嵌入模块，得到文本全部Token的编码；利用BERT编码器进行编码预测；构建概率预测ER矩阵；计算得到实体及实体间关系抽取损失；采用joint联合方式计算文本实体及实体间关系的概率，完成基于可学习提示的多模态实体识别和关系抽取。本发明解决了难以提取到图文信息弱关联的有用信息以准确预测文本中的实体及实体间关系的问题。

Description

一种基于可学习提示的多模态实体识别和关系抽取方法

技术领域

本发明属于多模态处理技术领域，尤其涉及一种基于可学习提示的多模态实体识别和关系抽取方法。

背景技术

多模态实体识别和关系抽取任务是指给定一段文本和一张与文本相关的图片，识别文本中存在的所有实体以及实体之间的相互关系。文本实体识别和关系抽取有两个主要的应用场景。其一，需要为知识图谱提供必要的信息，知识图谱的搭建往往需要从冗杂的信息中提取到必要的实体，作为知识图谱中的节点，并找到每个节点之间的关系连接，从而达到通过知识图谱总结和检索信息的能力，这需要耗费大量的人力精力，且知识图谱的搭建往往也需要技术人员对相关领域的熟悉，而通过使用模型生成实体和关系，人工只需要稍作修改，整个过程相比人工标注更加高效，也更准确；其二，在信息检索领域中，需要从大量文本中提取关键信息，例如新闻文章中的人名、地点、日期和事件，从而精准更快的检索相似文本，为之后的下游任务如摘要生成等，提供更准确的数据。

但现有的传统方法采用的大部分模型将实体识别和关系抽取作为两个单独的任务来实现，且在多模态领域，数据集多为新闻数据集，图像中的信息和文本信息的匹配度很高，在提取图像信息辅助模型预测时，往往会直接将图像中的实体识别并剪裁出来作为图像信息给予模型。因此，现有方法存在对数据集差异性难以有效拟合、提取图像特征不够全面、数据图文匹配度不高、判别预测不够准确等问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法，通过可学习提示框架提取图像信息作为提示，辅助文本信息，有效帮助了预训练模型预测文本中的所有实体与实体之间关系的方法，解决了难以提取到图文信息弱关联的有用信息以准确预测文本中的实体以及实体间关系的问题。

为了达到上述发明目的，本发明采用的技术方案为：

本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法，包括如下步骤：

S1、基于获取的图像和文本，利用CLIP预训练模型，得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量；

S2、根据图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量，利用Transformer编码器、对比学习辅助网络和Linear层神经网络，得到文本信息特征、第一图像信息特征、第二图像信息特征、可学习提示特征和二分类置信度向量的关联损失；

S3、将获取的文本输入BERT嵌入模块，得到文本全部Token的编码；

S4、基于文本信息特征、第一图像信息特征、可学习提示特征、第二图像信息特征和文本全部Token的编码，利用BERT编码器进行编码预测，得到编码预测结果；

S5、基于编码预测结果，构建概率预测ER矩阵；

S6、基于概率预测ER矩阵和二分类置信度向量的关联损失，计算得到实体及实体间关系抽取损失；

S7、基于实体及实体间关系抽取损失，采用joint联合方式计算文本实体及实体间关系的概率，完成基于可学习提示的多模态实体识别和关系抽取。

本发明的有益效果为：本发明提供的一种基于可学习提示的多模态实体识别和关系抽取方法，通过CLIP预训练模型提取图像全部信息和图文关联信息，并利用Transformer编码器使可学习提示特征学习到更好的图文关系线索，既能提取信息特征所包含的图文关系，又能使可学习提示特征之间实现相互映射，保证每个可学习提示特征不会学到重复的信息，能够给予预训练模型更加丰富的提示信息；本发明通过对比学习辅助网络通过更好的提升了可学习提示特征的有效表示，并通过Linear层神经网络将图像全部Token信息向量降噪对齐，实现了图像和文本的语义对齐，提升了BERT预训练模型进行实体及实体间关系预测的准确性；本发明采用joint联合方式计算文本实体及实体间关系的概率，能够在模型学习训练时实现相互辅助，互相提供信息，以提高每个多模态实体识别和关系抽取任务的准确率。

进一步地，所述S1包括如下步骤：

S11、将获取的图像输入CLIP预训练模型，得到图像分类向量和图像全部Token信息向量；

所述图像分类向量和图像全部Token信息向量的计算表达式如下：

其中，v表示图像分类向量，z表示图像全部Token信息向量，表示CLIP预训练模型中的图像编码器，I表示获取的图像，/>表示第m个Token的向量化信息，m表示图像中Token的总数；

S12、将获取的文本输入CLIP预训练模型，得到文本分类向量；

所述文本分类向量的计算表达式如下；

其中，t表示文本分类向量，表示CLIP预训练模型中的文本编码器，表示获取的文本；

S13、随机初始化n个长度与图像分类向量和文本分类向量相同，且能够根据梯度回传的权重参数，并将各权重参数拼接，得到可学习提示向量；

其中，表示可学习提示向量，/>表示第n个权重参数，其中，n为第一超参数。

采用上述进一步方案的有益效果为：本发明通过多模态预训练模型CLIP，直接提取出了全图的图像信息，提供了单一实体部分提取所不能提供的更丰富和更准确的提示信息，并通过随机初始化能够根据梯度回传的权重参数，得到了可学习提示向量，为多模态实体识别和关系抽取的准确实现提供了基础。

进一步地，所述S2包括如下步骤：

S21、拼接图像分类向量、文本分类向量和可学习提示向量，并同时输入到Transformer编码器中，得到待学习向量和二分类置信度向量的关联损失；

所述待学习向量的计算表达式如下：

其中，表示Transformer编码器，/>表示文本信息特征，/>表示第一图像信息特征，/>表示可学习提示特征；

其中，Transformer编码器中的注意力层依次学习文本分类向量、图像分类向量和可学习提示向量中各向量分别与其他向量间的关系；

所述注意力层进行学习的自注意力计算表达式如下：

其中，表示注意力函数，/>分别表示查询矩阵、键矩阵、值矩阵，/>表示转置，/>表示softmax函数，/>表示向量的维度；

S22、基于可学习提示特征，利用对比学习辅助网络通过预测图文关联程度，提升可学习提示特征的有效表示；

S23、利用Linear层神经网络将图像全部Token信息向量降噪对齐，得到第二图像信息特征；

所述第二图像信息特征的计算表达式如下：

其中，表示第二图像信息特征，/>表示Linear层神经网络。

采用上述进一步方案的有益效果为：本发明设计了可学习提示特征，并通过Transformer自注意力机制，计算了可学习提示和图文信息之间的相似度，且通过重新编码的方式，提取了图文关系，帮助图文对齐，缓解了多模态领域图文信息对齐困难的情况，且为解决单一神经网络难以有效将图像信息拟合到文本大模型领域的问题，本发明通过可学习提示的方式，将图像信息和文本预训练模型更高效合理的实现了对接。

进一步地，所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵，并将可学习提示特征作为输入，进行图文关联程度的关联判别，得到二分类置信度向量，其中，当二分类置信度判别结果为0时，则为弱关联，当二分类置信度判别结果为1时，则为强关联；

所述对比学习辅助网络通过对比学习的方式确定图文关联程度；所述图文关联程度的关联判别是将每张图片与同一批处理batch下的所有文本计算余弦相似度，若图片与对应文本的余弦相似度最大，则为强关联，否则为弱关联；

所述二分类置信度向量的关联损失的计算表达式如下：

其中，Lass表示关联损失，b表示二分类置信度，表示文本分类向量和图像分类向量的点积形成的VT关联矩阵生成的标签。。

采用上述进一步方案的有益效果为：本发明提供的对比学习辅助网络将可学习提示特征作为输入，进行图文关联程度的关联判别，并基于二分类置信度向量，确定了文本与图片间的强弱关联程度，使得可学习提示特征能够更精准的学习有效信息，提升模型的训练效率。

进一步地，所述S3中文本全部Token的编码的计算表达式如下：

其中，表示文本全部Token的编码，/>表示BERT嵌入模块，/>表示获取的文本。

采用上述进一步方案的有益效果为：本发明中采用BERT预训练模型进行实体关系预测，BERT预训练模型的编码器与CLIP预训练模型的编码器相似，输入为文本，得到的也为文本分类向量和文本全部Token的编码，本发明通过BERT预训练模型得到文本的全部Token的编码，为进行实体识别及实体间关系抽取提供原获取的文本的待预测信息。

进一步地，所述S4包括如下步骤：

S41、依次将文本信息特征、第一图像信息特征、可学习提示特征和第二图像信息特征拼接在文本全部Token的编码，得到待预测输入编码特征；

所述待预测输入编码特征的计算表达式如下：

其中，input表示待预测输入编码特征，表示待预测文本起始符，/>表示待预测文本分隔终止符；

S42、将待预测输入编码特征输入至BERT编码器中进行编码，得到编码预测结果；

所述编码预测结果的计算表达式如下：

其中，表示编码预测结果，/>表示BERT编码器。

进一步地，所述S5包括如下步骤：

S51、将编码预测结果对应的一维概率矩阵按行复制行，得到长度为（/>，/>）的概率向量，其中，/>为概率向量长度，概率向量长度对应获取的文本中的词的数量；

S52、将概率向量转置后与概率向量本身相加，得到概率预测ER矩阵。

采用上述进一步方案的有益效果为：本发明通过对一维概率矩阵进行二维概率矩阵的拓展，以满足同时计算文本实体和实体间关系的概率。

所述S6包括如下步骤：

S61、获取概率预测ER矩阵生成的概率和标签；

S62、基于概率预测ER矩阵生成的概率和标签，计算得到预测损失；

所述预测损失的计算表达式如下：

其中，表示预测损失，/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个概率，/>表示概率预测ER矩阵中实体关系或类别对应生成的第i个标签；

S63、将预测损失和二分类置信度向量的关联损失累加，得到实体及实体间关系抽取损失；

所述实体及实体间关系抽取损失的计算表达式如下：

其中，表示实体及实体间关系抽取损失，/>为第三超参数。

采用上述进一步方案的有益效果为：本发明采用了joint联合方式计算文本实体及实体间关系的概率，同时考虑了预测损失和二分类置信度向量的关联损失，相比pipeline管道模式的独立实现，能够在模型学习训练时相互辅助，提供信息，提高每个任务的准确率，从而提升实体识别和关系抽取的性能。

针对于本发明还具有的其他优势将在后续的实施例中进行更细致的分析。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中一种基于可学习提示的多模态实体识别和关系抽取方法的步骤流程图。

图2为本发明实施例中可学习提示的多模态实体识别和关系抽取模型框架流程图。

图3为本发明实施例中对比学习辅助网络的示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的一个实施例中，本发明提供一种基于可学习提示的多模态实体识别和关系抽取方法，所述方法针对图像信息提取和图文信息对齐两个方面做出了优化，对于各类图文信息弱关联的新类型数据集具有很好的效果。

如图1和图2所示，所述基于可学习提示的多模态实体识别和关系抽取方法包括如下步骤：

CLIP预训练模型作为多模态预训练模型，由两个Transformer编码器组成，分别为文本编码器和图像编码器，其输入分别对应为获取的文本和图像，输出则为编码向量，其输出的编码向量分为两类，一类为图像或文本的分类信息，即长度为768的一维向量，另一类为图像或文本中Token的向量化信息，即由256个长度为1024的一维向量信息构成的二维向量（256,1024），其中，文本的全部信息由上述两类向量信息拼接形成。CLIP预训练模型是通过大量图文本对计算余弦相似度得到的预训练大模型，余弦相似度是一种用于比较两个向量之间相似性的度量方法，经常在信息检索、自然语音处理和推荐系统等领域使用，在图文关系上有着很好的效果。

所述S1包括如下步骤：

其中，v表示图像分类向量，z表示图像全部Token信息向量，表示CLIP预训练模型中的图像编码器，I表示获取的图像，/>表示第m个Token的向量化信息，m表示图像中Token的总数；图像全部Token信息为多个向量的组合。

S12、将获取的文本输入CLIP预训练模型，得到文本分类向量；

所述文本分类向量的计算表达式如下；

其中，t表示文本分类向量，表示CLIP预训练模型中的文本编码器，表示获取的文本；本实施例中获取的文本内容为“The latest Arkham Horror LCGdeluxe expansion the Circle Undone has been released :”。

其中，表示可学习提示向量，/>表示第n个权重参数，其中，n为第一超参数。本实施例中，经多次实验验证，n=20时效果最好。在得到图像分类向量、图像全部Token信息向量、文本分类向量和可学习提示向量后，即完成了特征信息生成。

所述S2包括如下步骤：

所述待学习向量的计算表达式如下：

其中，Transformer编码器中的注意力层依次学习文本分类向量、图像分类向量和可学习提示向量中各向量分别与其他向量间的关系，从而保证每个可学习提示向量都会与图文关系特征计算相似度，并与其他可学习提示向量计算相似度；

所述注意力层进行学习的自注意力计算表达式如下：

其中，表示注意力函数，/>分别表示查询矩阵、键矩阵、值矩阵，/>表示转置，/>表示softmax函数，/>表示向量的维度；在每个向量分别与其他向量计算相似度后，既可以使可学习提示特征提取到信息特征所包含的图文关系，又可以使可学习提示特征之间相互映射，保证到每个可学习提示特征不会学到重复的信息，使可学习提示特征可以给予预训练模型更加丰富的提示信息。

如图3所示，为了更好的提升可学习提示特征的有效表示，本发明设计了S22中的对比学习辅助网络，所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵，并将可学习提示特征作为输入，进行图文关联程度的关联判别，得到二分类置信度向量，其中，当二分类置信度判别结果为0时，则为弱关联，当二分类置信度判别结果为1时，则为强关联；

所述二分类置信度向量的关联损失的计算表达式如下：

其中，Lass表示关联损失，b表示二分类置信度，表示文本分类向量和图像分类向量的点积形成的VT关联矩阵生成的标签。

所述第二图像信息特征的计算表达式如下：

其中，表示第二图像信息特征，/>表示Linear层神经网络。本实施例中，图像全部Token信息向量为Linear层神经网络的输入，其信息特征大小为（256,1024），作为Linear层的输出图像信息特征，第二图像信息特征的大小为（R，768），此处的R为第二超参数，经实验验证，R=20时效果最好。由于最终输入到BERT预训练模型中的待预测的文本特征向量的大小为（70，768），二第二图像信息特征的大小远远大于待预测的文本特征向量，且输入向量差异过大会降低模型预测的准确度，因此，本发明中使用Linear层神经网络将图像全部Token信息向量转化为了向量个数更少，长度对齐到768的第二图像信息特征，进一步地将图像与文本的语义进行了对齐。经过Transformer编码器处理、对比学习辅助网络提升和Linear层神经网络对齐，完成了图文对齐。

所述S3中文本全部Token的编码的计算表达式如下：

其中，表示文本全部Token的编码，/>表示BERT嵌入模块，/>表示获取的文本。本实施例中经文本全部的Token的编码作为待预测的文本特征向量。

S4、基于文本信息特征、第一图像信息特征、可学习提示特征、第二图像信息特征和文本全部Token的编码，利用BERT编码器进行编码预测，得到编码预测结果；BERT编码器会对全部输入的向量进行编码，但本实施例中仅取待预测的文本特征向量的输出作为编码预测结果。

所述S4包括如下步骤：

所述待预测输入编码特征的计算表达式如下：

所述编码预测结果的计算表达式如下：

其中，表示编码预测结果，/>表示BERT编码器。

S5、基于编码预测结果，构建概率预测ER矩阵；

所述S5包括如下步骤：

所述概率预测ER矩阵的计算表达式如下：

其中，表示概率预测ER矩阵，/>表示概率向量的转置，表示概率向量，/>表示复制函数。

本实施例中，BERT预训练模型的输出是关于待预测的文本特征向量生成的一维概率矩阵，由于本方案中需要同时计算文本实体和实体间关系的概率，因此概率预测ER矩阵是二维概率矩阵，其对角线的数值为每一个输入Token是否为实体的概率，非对角线位置则为不同实体之间关系的概率。

所述S6包括如下步骤：

S61、获取概率预测ER矩阵生成的概率和标签；

所述预测损失的计算表达式如下：

所述实体及实体间关系抽取损失的计算表达式如下：

其中，表示实体及实体间关系抽取损失，/>为第三超参数。本实施例中，经实验验证，/>时效果最好。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，包括如下步骤：

S5、基于编码预测结果，构建概率预测ER矩阵；

2.根据权利要求1所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S1包括如下步骤：

S12、将获取的文本输入CLIP预训练模型，得到文本分类向量；

所述文本分类向量的计算表达式如下；

其中，t表示文本分类向量，表示CLIP预训练模型中的文本编码器，/>表示获取的文本；

3.根据权利要求2所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S2包括如下步骤：

所述待学习向量的计算表达式如下：

所述注意力层进行学习的自注意力计算表达式如下：

所述第二图像信息特征的计算表达式如下：

其中，表示第二图像信息特征，/>表示Linear层神经网络。

4.根据权利要求3所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S22中的对比学习辅助网络基于文本分类向量和图像分类向量的点积形成VT关联矩阵，并将可学习提示特征作为输入，进行图文关联程度的关联判别，得到二分类置信度向量，其中，当二分类置信度判别结果为0时，则为弱关联，当二分类置信度判别结果为1时，则为强关联；

所述二分类置信度向量的关联损失的计算表达式如下：

5.根据权利要求3所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S3中文本全部Token的编码的计算表达式如下：

6.根据权利要求5所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S4包括如下步骤：

所述待预测输入编码特征的计算表达式如下：

所述编码预测结果的计算表达式如下：

其中，表示编码预测结果，/>表示BERT编码器。

7.根据权利要求6所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S5包括如下步骤：

8.根据权利要求6所述的基于可学习提示的多模态实体识别和关系抽取方法，其特征在于，所述S6包括如下步骤：

S61、获取概率预测ER矩阵生成的概率和标签；

所述预测损失的计算表达式如下：

所述实体及实体间关系抽取损失的计算表达式如下：

其中，表示实体及实体间关系抽取损失，/>为第三超参数。