CN115080766A

CN115080766A - 基于预训练模型的多模态知识图谱表征系统及方法

Info

Publication number: CN115080766A
Application number: CN202210980815.5A
Authority: CN
Inventors: 李超; 张钊; 姚远舟
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-20
Anticipated expiration: 2042-08-16
Also published as: CN115080766B

Abstract

本发明公开了基于预训练模型的多模态知识图谱表征系统及方法，结合知识图谱实体的相关语义信息与对应图像信息辅助知识图谱进行实体向量表征。由于文本预训练模型经过大规模语料进行了充分的训练学习，具有一定的语义表征能力，同时基于图像的预训练模型也经过大规模数据集进行了初步训练，对于实体对应的图片也可以生成较好的表征向量，再通过几种不同的组合方式将语义表征向量和图形表征向量进行结合从而代替实体向量的初始化，将该实体向量输入知识图谱表征模型进行训练，同时对文本和图像预训练模型进行微调。增加了实体的信息量，同时也引入了大量用于预训练的数据集信息。使得知识图谱的表征得到更好的结果，同时提升了整体方法的鲁棒性。

Description

基于预训练模型的多模态知识图谱表征系统及方法

技术领域

本发明涉及自然语言处理和知识图谱应用技术领域，尤其是涉及基于预训练模型的多模态知识图谱表征系统及方法。

背景技术

知识图谱是一种关于关系事实的存储，其对各种任务(如问答系统和信息检索)至关重要。知识图谱是由知识三元组所组成的，其结构形式为(头实体，关系，尾实体)。并且由于知识在实际上是无限的，而且随时在变化的过程中。这就产生了知识图谱不完整的问题。为了解决此类问题，许多知识图谱补全的方法应运而生。近年来，基于转换的方法取得了巨大的成功。它们的主要思想是将实体及其关系建模为低维向量表示，反过来可以用于对知识图谱执行不同类型的推理。这包括识别新的事实或验证现有的事实。然而，基于转换的方法依赖于知识图谱的丰富结构，通常忽略其实体的任何外部信息。

现如今许多应用程序可以用知识图谱来建模。例如，一个产品推荐系统可以表示为一个知识图谱，其中节点代表客户和产品，键入的边缘代表客户评论和购买事件。在医学领域，图谱可以模拟疾病、症状、药物、基因及其相互作用。同时，此类知识图谱中的实体与可视化数据相关联的程度越来越频繁。例如，在线零售领域，有产品和所对应的广告图像，而在医疗领域，有与患者相关的成像数据集(核磁共振成像、CT图像等)。此外，视觉数据在社交网络和万维网中也占据相当大一部分。知识图谱促进结构化数据的集成、组织和检索，并支持各种形式的搜索应用程序。近年来，知识图谱在问答系统、语言建模和文本生成等领域发挥着越来越重要的作用。

尽管在构造和维护知识图谱方面有大量的工作，但引入实体的外部数据并未受到过多关注。例如可利用实体关联的大量图像与实体所关联的文本用以辅助知识图谱的实体表征。传统的多模态知识图谱表征方法主要为单一模态的处理，即只引入图像模态信息或者文本模态信息，而并没有将两者信息进行融合处理。同时，传统的方法大部分采用卷积层对图像进行处理，而针对文本则采用长短期记忆网络。这两种处理方法都有其所对应的局限性。

近年来，基于attention机制的预训练模型在文本和图像处理领域展现了巨大的成功。文本预训练模型受到众多关注，其代表为以Transformer encoder为基本模块的BERT(Bidirectional Encoder Representations from Transformers，基于Transformers的双向编码器)，由于transform引入了注意力机制，从而根本上解决了长记忆丢失问题。注意力机制会以遍历的方式计算序列中任意两词之间的相关性，因此不论两词相隔多远，都能捕捉到其之间的依赖关系，从根本上解决难以建立长时依赖的问题。同时Transformer 摒弃了顺序输入的方式，一次性输入序列的所有词进行计算。这给模型带来了极高的可并行性，可批量的对多个序列进行计算。但同时设计了对序列中词的相对位置的建模，而Transformer 采用函数式绝对位置的方式，使用三角函数为每个词计算一个唯一的位置向量表示，然后将其与对应词向量进行相加。由于transformer这些突出的特性，使得基于该模块的文本预训练模型BERT在各个NLP（Natural Language Processing，自然语言处理）任务取得巨大成功

同时基于注意力机制的预训练模型也开始在图像领域大放异彩：图像分类，目标检测，语义分割，图像生成等。而从深度学习暴发以来，卷积神经网络一直是图像领域的主流模型，而且取得了不错的效果。对于图像问题，卷积具有天然的先天优势：平移等价性和局部性。而transformer虽然不并具备这些优势，但是transformer的自注意力机制的核心优势并不像卷积那样有固定且有限的感受野，自注意力操作可以获得广泛的信息，而相比之下卷积神经网络需要通过不断堆积卷积层来获取更大的感受野。其中最具代表性的工作为VIT模型（Vision Transformer）。其也采用transformer encoder作为其基本模块，并引入了庞大的图像预训练数据集。

发明内容

为解决现有技术的不足，引入实体的多模态信息用于知识图谱的表征，实现充分利用实体图像和文本信息，达到多模态融合，提高表征精度的目的，本发明采用如下的技术方案：

一种基于预训练模型的多模态知识图谱表征系统，包括知识图谱表征模型，实体信息获取模块分别与知识图谱表征模型、文本转换模块和图像转换模块连接，融合模块分别与文本转换模块、图像转换模块和知识图谱表征模型连接；

所述实体信息获取模块，用于从知识图谱表征模型获取实体对应的文本描述信息及其对应的一组图像信息；

所述文本转换模块，获取文本描述信息并转换为对应的文本向量；

所述图像转换模块，获取图像信息并转换为对应的图像向量；

所述融合模块，将文本向量与图像向量进行融合，将融合后的向量作为知识图谱表征模型中实体所表征的向量的初始值，并基于正确和错误的实体表征，对知识图谱表征模型进行训练，得到训练好的知识图谱表征模型。

预处理模块，对文本描述信息进行预处理操作，包括非文本剔除单元、去除停用词单元、词干提取和词型还原单元；非文本剔除单元，用于剔除文本描述信息中的非文本部分；去除停用词单元，用于去除文本描述信息中对文本分析不起作用的词；如果句子中大量出现虚词、代词或没有特定含义的动名词等对文本分析不起作用的词汇，则会影响正常的分析，因此需要去除此类停用词；词干提取和词型还原单元，提取词的主干，去掉词缀。

预处理模块，对图像信息进行预处理操作，包括图像扩增单元和图像尺度统一单元；图像扩增单元，使每个实体含有相同的图像数量；图像尺度统一单元，使获取的图像具有相同的大小，便于后续输入参数为固定值的模型。

进一步地，所述文本转换模块包括分词单元、文本位置编码单元、文本片段拆分单元、单词向量生成单元和文本向量转换单元；

所述分词单元，将文本描述信息进行分词，将分词后的结果对应词典；找到各个单词所对应的词元向量；

所述文本位置编码单元，获取各个单词的位置编码向量；

所述文本片段拆分单元，根据文本描述信息进行片段拆分，得到段向量；

所述单词向量生成单元，将词元向量及其对应的位置编码向量、段向量相加，得到单个单词向量；

所述文本向量转换单元，将各个单词向量组合成句子的矩阵表示，进行基于注意力机制训练得到的文本向量转换单元，输出词元向量，并将文本标志位对应输出的向量作为最终的文本向量表征。

进一步地，所述文本向量转换单元采用转换transformer模型的编码器作为基本单元，进行基于多头注意力机制的计算：

其中

，

分别表示句子矩阵所映射的查询矩阵、键值矩阵和内容矩阵，其计算过程采用多头注意力机制：

其中Concat表示拼接操作，head表示多头注意力向量，h表示注意力头的数量，W表示权重矩阵，W的上标O表示BERT模型中第O层的权重矩阵。

进一步地，所述图像转换模块包括序列转换单元、图像位置编码单元和图像向量转换单元；

所述序列转换单元，图像切分成图像块，再将其展平，形成展平的图像块序列；

所述图像位置编码单元，为图像块序列加上位置编码；

所述图像向量转换单元，将图像块序列及其对应的位置编码，输入基于注意力机制训练得到的图像向量转换单元，输出单张图像向量；将一组图像信息对应的单张图像向量融合成实体的图像向量。

进一步地，所述序列转换单元，将

的图像，转化为一个

的序列，该序列中一共包含了

个图像块，每个图像块的维度为

，其中，

和

分别表示图像的长和宽，P表示图像块的大小，

表示通道数量。

进一步地，所述图像向量融合，采用注意力机制的融合方式，构建所述图像向量和所述文本向量的注意力权重，基于该注意力权重，生成实体的图像向量：

其中

表示图像向量

和文本向量

的注意力权重，j表示除第i张图像外的其他图像的索引，其具体执行公式如下：

其中exp(·)表示指数函数。

进一步地，所述文本向量与图像向量进行融合，是将图像向量和文本向量基于简单操作进行融合，得到融合后的向量，简单操作包括：相加，求平均，相乘；

和/或采用注意力机制，将图像向量与文本向量分别与该注意力向量求得其权重，随后再相乘并相加，融合后的向量e，具体执行公示如下：

其中α表示注意力向量，

表示图像向量，

表示文本向量，exp(·)表示指数函数；

和/或采用双模转换transformer模型，将图像向量和文本向量进行拼接，构建矩阵，输入基于注意力机制训练得到的双模转换transformer模型，使自注意力机制交互图像向量和文本向量中的各个参数，输出融合后的向量。

进一步地，所述知识图谱表征模型是由头实体节点h、关系l、尾实体节点t构成的三元组的集合，将融合后的向量，作为知识图谱表征模型中，头实体节点和/或尾实体节点所表征的向量的初始值，并基于正确和错误的实体表征进行训练；

构建损失函数：

其中S表示数据图谱的三元组数据集，h’、t’、S’分别表示错误的头实体节点、错误的尾实体节点和错误的数据图谱三元组数据集，[·]₊表示当[]内数值小于0时，取0，否则取[]内数值，γ为超参数，表示正负三元组的间隔，d表示三元组的能量值，三元组为真的可能性越大，能量值越低；

将得到的损失值用于优化知识图谱表征模型参数，和/或对文本转换模块进行调整，和/或对图像转换模块进行调整，由于e是可倒的，因此可以将梯度传到预训练模型中进行微调。

一种基于预训练模型的多模态知识图谱表征方法，包括如下步骤：

S1，获取知识图谱表征实体对应的文本描述信息及文本描述信息对应的一组图像信息；

S2，根据文本描述信息，进行文本转换，得到文本向量；

S3，根据图像信息，进行图像转换，得到图像向量；

S4，对文本向量与图像向量进行融合，得到融合后的向量；

S5，将融合后的向量作为知识图谱表征实体对应的向量的初始值，并基于正确和错误的实体表征，对对知识图谱进行训练，得到训练好的知识图谱。

进一步地，知识图谱是由头实体节点h、关系l、尾实体节点t构成的三元组的集合，包括如下步骤：

步骤S5.1：将融合后的向量作头实体节点和/或尾实体节点所表征的向量的初始值；

步骤S5.2：基于正确和错误的实体表征进行训练，构建损失函数：

将得到的损失值用于优化知识图谱参数，和/或对文本转换进行调整，和/或图像转换进行调整，由于e是可倒的，因此可以将梯度传到预训练模型中进行微调。

本发明的优势和有益效果在于：

本发明考虑到了知识图谱中实体包含有众多的语义信息和图像信息，使用预训练模型对实体的多模态信息进行处理和表征，并使用了多种多模态向量融合方式。对每一个实体都充分学习它所对应的语义信息、图像信息和结构信息，从而更好的进行表征。增加了实体的信息量，同时也引入了大量用于预训练的数据集信息，使得知识图谱的表征得到更好的结果。

附图说明

图1是本发明实施例中系统的整体框架示意图。

图2是本发明实施例的转换Transformer模型架构图。

图3是本发明实施例的BERT模型架构图。

图4是本发明实施例的图像转换Vision Transformer单元架构图。

图5是本发明实施例的多模态融合过程示意图。

图6是本发明实施例的方法流程图。

图7是本发明实施例的装置结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明运用了多模态预训练模型来提升知识图谱的表征，具体地，利用基于自注意力机制的预训练模型BERT(Bidirectional Encoder Representations fromTransformers)和VIT（Vision Transformer）模型对实体的文本模态和图像模态进行处理，然后结合多种融合方法，融合两种模态向量来代替原有的实体随机初始化的方法；最后融合的向量作为该实体的向量表征；通过加载预训练参数并在模型训练过程中对其预训练模型进行微调，从而实现结合多模态信息的知识图谱表征。

如图1所示，基于预训练模型的多模态知识图谱表征系统，首先采用文本和图像预训练模型对多模态信息进行表征，然后融合用于表征实体向量，再将得到的实体向量用于传统知识图谱得到进一步的结构表征；具体包括：知识图谱表征模型、实体信息获取模块、文本转换模块、图像转换模块和融合模块，实体信息获取模块分别与知识图谱表征模型、文本转换模块和图像转换模块连接，融合模块分别与文本转换模块、图像转换模块和知识图谱表征模型连接；

实体信息获取模块，用于从知识图谱表征模型获取实体的文本描述信息及其对应的一组图像信息；

预处理模块，对文本描述信息进行预处理操作，包括非文本剔除单元、去除停用词单元、词干提取和词型还原单元；非文本剔除单元，用于剔除文本描述信息中的非文本部分；去除停用词单元，用于去除文本描述信息中对文本分析不起作用的词；如果句子中大量出现虚词、代词或没有特定含义的动名词等对文本分析不起作用的词汇，则会影响正常的分析，因此需要去除此类停用词；词干提取和词型还原单元，提取词的主干，去掉词缀。预处理模块，还对图像信息进行预处理操作，包括图像扩增单元和图像尺度统一单元；图像扩增单元，使每个实体含有相同的图像数量；图像尺度统一单元，使获取的图像具有相同的大小，便于后续输入参数为固定值的模型。

文本转换模块，获取文本描述信息并转换为对应的文本向量；如图2所示，文本转换模块包括分词单元、文本位置编码单元、文本片段拆分单元、单词向量生成单元和文本向量转换单元；分词单元，将文本描述信息进行分词，将分词后的结果对应词典；找到各个单词所对应的词元向量；文本位置编码单元，获取各个单词的位置编码向量；文本片段拆分单元，根据文本描述信息进行片段拆分，得到段向量；单词向量生成单元，将词元向量及其对应的位置编码向量、段向量相加，得到单个单词向量；文本向量转换单元，将各个单词向量组合成句子的矩阵表示，进行基于注意力机制训练得到的文本向量转换单元，输出词元向量，并将文本标志位对应输出的向量作为最终的文本向量表征。如图3所示，Tok表示token，token为句子分词的最小单位，N表示句子A的token数量，M表示句子B的token数量，E为句子A中token的向量表示，E'为句子B中token的向量表示，[CLS]表示类别标识符，[SEP]表示分割标识符，T表示E经过BERT编码后的向量表示，T'表示E'经过BERT编码后的向量表示，C为A和B这个句子对的表征向量；文本向量转换单元采用转换transformer模型的编码器作为基本单元，进行基于多头注意力机制的计算：

其中

，

图像转换模块，如图4所示，获取图像信息并转换为对应的图像向量；图像转换模块包括序列转换单元、图像位置编码单元和图像向量转换单元；序列转换单元，图像切分成图像块，再将其展平，形成展平的图像块序列；序列转换单元，将

的图像，转化为一个

的序列，该序列中一共包含了

个图像块，每个图像块的维度为

，其中，

和

分别表示图像的长和宽，P表示图像块的大小，

表示通道数量；图像位置编码单元，为图像块序列加上位置编码，如图4中0、1、2…9表示批次，与其相邻的块为位置编码，*表示额外的可学习分类编码；图像向量转换单元，将图像块序列及其对应的位置编码，输入基于注意力机制训练得到的图像向量转换单元，输出单张图像向量；将一组图像信息对应的单张图像向量融合成实体的图像向量。图像向量融合，采用注意力机制的融合方式，构建所述图像向量和所述文本向量的注意力权重，基于该注意力权重，生成实体的图像向量：

其中

表示图像向量

和文本向量

其中exp(·)表示指数函数。

融合模块，如图5所示，将文本向量与图像向量进行融合，将融合后的向量作为知识图谱表征模型中实体表征向量的初始值，并基于正确和错误的实体表征，对知识图谱表征模型进行训练，得到训练好的知识图谱表征模型。

文本向量与图像向量进行融合，是将图像向量和文本向量基于简单操作进行融合，得到融合后的向量，简单操作包括：相加，求平均，相乘；

其中α表示注意力向量，

表示图像向量，

表示文本向量，exp(·)表示指数函数；

知识图谱表征模型是由头实体节点h、关系l、尾实体节点t构成的三元组的集合，将融合后的向量，作为知识图谱表征模型中，头实体节点和/或尾实体节点所表征的向量的初始值，并基于正确和错误的实体表征进行训练；

构建损失函数：

如图6所示，基于预训练模型的多模态知识图谱表征方法，获取知识图谱相关数据集，该数据集用大量的三元组进行表示，表示结构为

，

代表为头节点，

代表关系，

代表尾节点，将所有实体编号对应其所属名称，并依次执行以下步骤：

步骤S1：获取知识图谱表征实体对应的文本描述信息及文本描述信息对应的一组图像信息；

具体地，通过相关程序爬取知识图谱中实体的文本描述信息以及其所对应的图像信息，每个实体应包含有一段不小于五个单词的描述性语句以及不少于五张图片的图像信息；

对爬取的文本描述信息和图像信息进行预处理操作，以方便后续对其进行向量表征，其包括以下几个分步骤：

步骤S1.1：剔除爬取文本信息中的非文本部分，采用Python的正则化对特殊的非英文字符和标点符号进行删除；

步骤S1.2：去除停用词。在文本中，会存在大量的虚词、代词或者没有特定含义的动词、名词，这些词语对文本分析不起任何作用，如果句子中大量出现该类型词汇会影响正常的分析，因此有必要去除此类停用词；

步骤S1.3：词干提取和词型还原。词形还原就是去掉单词的词缀，提取单词的主干部分，通常提取后的单词会是字典中的单词，不同于词干提取，提取后的单词不一定会出现在词典中。而词干提取相对更激进，它在寻找词干的时候可以得到并非词的词干；

同时，该方法爬取了大量的实体图像信息，也需要经过一系列预处理操作后才可以进行下一步表征工作，图像信息的主要预处理操作为以下步骤：

步骤S1.4：图像扩增，由于部分实体的图像信息较少，为了保证每个实体含有相同的图片数量，因此需要对图像进行数据扩增，主要扩增方式包括但不限于以下操作：图像翻转、图像旋转、图像缩放、图像压缩、图像随机crop、图像随机padding、图像模糊等；

步骤S1.5：图像尺度统一，由于后续模型对输入参数为固定值，而爬取的图像大小不定，因此需要对图像进行resize或crop操作以使得所有图像具有相同大小。例如：本发明实施例中统一将图像resize成224*224。

步骤S2：根据文本描述信息，进行文本转换，得到文本向量；

具体地，将文本清洗后的文本信息输入进BERT模型得到其所对应的向量表征，其主要执行过程分为以下几个步骤：

步骤S2.1：首先将文本数据进行分词，将分词后的结果对应词典找到各个单词所对应的词元token向量；例如：本发明实施例中得到一段文本数据“他是一名篮球运动员”，对文本数据进行分词，得到分词结果“他”，“是”，“一名”，“篮球”，“运动员”。

步骤S2.2：获取各个单词的位置编码向量，其位置编码向量采用如下公式：

该公式为三角函数式位置编码，也称为Sinusoidal位置编码。其中

表示单词在句子中的所处位置，

表示向量纬度，

表示模型维度。

此外再根据文本的片段拆分得到其所对应的段向量segment embedding。将得到的位置编码向量与词元token向量以及段向量segment embedding三者相加后得到单个单词向量并输入进BERT模型以进一步操作；

步骤S2.3：BERT模型中采用了transformer的Encoder作为基本单元，将步骤S2.2所得到的各个单词向量组合（拼接）成句子的矩阵表示，将其输入进Transformer Encoder进行操作，其主要计算如前述公式（1）、公式（2）。

步骤S2.4：BERT模型中，将步骤S2.3操作执行十二次后输出所有词元token向量。并将[CLS]的输出向量作为最终文本的向量表征

，[CLS]表示在文本前插入的标志位，该标志位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等；

步骤S3：根据图像信息，进行图像转换，得到图像向量；

具体地，将图像预处理后的图片输入进VIT模型得到对应的图像向量表征，其主要操作步骤如下：

步骤S3.1：将

的图像，转化为一个

的序列。该序列为一系列展平的图像块，即将图像切分成小块后，再将其展平。该序列中一共包含了

个图像块，每个图像块的维度为

。其中，

和

分别为图像的长和宽，P为图像块的大小，

是通道数量；

步骤S3.2：同样通过公式（7）、公式（8）得到序列的位置编码，将步骤S3.1得到的序列向量加上位置编码输入进VIT模型做进一步处理；

步骤S3.3：VIT模型采用主要架构为Transformer，因此其总体执行过程见步骤 S2.3，最后得到每张图片的向量特征

，其用于表征实体的第i张图片向量。

步骤S3.4：将得到的图片向量融合成实体的图像向量

，采用注意力机制的融合方式，其主要执行如前述公式（3）、公式（4）。

步骤S4：对文本向量与图像向量进行融合，得到融合后的向量；

具体地，将得到的图像向量和文本向量进行融合，得到实体向量表征

，融合方式采用多种方式：

1、基于简单操作的方法，包括相加，求平均，相乘等，例如相加的公式如下：

2、基于注意力机制的方法，引入注意力向量，将图像向量与文本向量分别与该注意力向量求得其权重，随后再相乘并相加，其具体执行如前述公示（5）。

3、双模的transformer注意力机制，将图像向量和文本向量进行拼接，随后输入到transformer模型中，让模型自带的自注意力机制交互图像和文本向量中的各个参数，其主要执行步骤等同于步骤S2.3和步骤S2.4。最终输出e；

步骤S5：将融合后的向量作为知识图谱表征实体对应的向量的初始值，并基于正确和错误的实体表征，对对知识图谱进行训练，得到训练好的知识图谱

具体地，将得到的实体向量接入后续传统的知识图谱表征方法，包括如下步骤：

具体地，将步骤S4最终得到的e作为知识图谱表征模型中的实体的表征向量的初始值，具体表示知识图谱中的头实体节点和/或尾实体节点；

步骤S5.2：基于正确和错误的实体表征进行训练，具体采用例如TransE，DisMult等方法。以TransE方法为例进行说明，构建损失函数如前述公式（6）。

将得到的损失值用于优化知识图谱表征模型参数，和/或对文本转换进行调整，和/或图像转换进行调整（对注意力融合向量以及对预训练模型进行微调），由于e是可倒的，因此可以将梯度传到预训练模型中进行微调。

与前述基于预训练模型的多模态知识图谱表征方法的实施例相对应，本发明还提供了基于预训练模型的多模态知识图谱表征装置的实施例。

参见图7，本发明实施例提供的基于预训练模型的多模态知识图谱表征装置，包括一个或多个处理器，用于实现上述实施例中的基于预训练模型的多模态知识图谱表征方法。

本发明基于预训练模型的多模态知识图谱表征装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明基于预训练模型的多模态知识图谱表征装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于预训练模型的多模态知识图谱表征方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。