CN116341655A

CN116341655A - 一种基于多模态协同表示学习的实体对齐方法

Info

Publication number: CN116341655A
Application number: CN202211630607.9A
Authority: CN
Inventors: 黄杨琛; 王立才; 李孟书; 孙雨航
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-06-27

Abstract

一种基于多模态协同表示学习的实体对齐方法，在增强后的数据上，基于BERT模型和深度残差网络提取文本和图像的初始语义信息，并将文本和图像特征投影到相同的语义空间；结合triplet loss损失使得在该空间中，文本与图像正样本更相似，而与图像负样本更相异。训练完成后，对未标注的文本和图像数据进行特征提取和相似性计算，将高置信度的实体对齐结果加入到种子数据集中，对模型进行迭代更新，完成多模态数据集中所有文本和图像的对齐。该方法使用基于预训练模型调优的多模态表示学习方法进行实体表征，不需要人工构造实体特征，同时采用的迭代式数据更新和网络训练过程也大大减少了对初始种子数据集中人工标注数据量的要求，节约了大量人力和成本，同时能获得更准确的特征表示和对齐结果。

Description

一种基于多模态协同表示学习的实体对齐方法

技术领域

本公开涉及自然语言处理中的知识图谱技术领域，特别涉及一种基于多模态协同表示学习的实体对齐方法。

背景技术

实体对齐(Entity Alignment,EA)又称为实体匹配，是知识融合过程中的关键技术，旨在判断两个实体是否指向真实世界中的同一个对象。由于知识的内容来源丰富，并且存在人为理解的不同，因此指代同一实体的表达会有差异，由此导致相同或不同知识图谱中存在知识的异构和冗余问题，需要通过实体对齐技术进行合并，这对于数据融合和知识共享的技术探索具有重要意义。

实体对齐的研究主要可以分为两个大类。一类是传统的实体对齐方法，研究者们主要使用人工构造特征的方式对实体的字符特征、属性特征、关系特征等进行表示，然后通过特征相似度的计算来判断实体是否能够对齐。采用的相似性度量方法有词频-逆文档频率(Term Frequency-Inverse Document Frequency,TFIDF)，主动学习和机器学习分类器以及NGram匹配/编辑距离/数字匹配等，还可以在相似性计算的基础上通过同义词集和语义验证以及过滤机等来提高实体对齐算法的性能。但由于领域不同以及实体的各种属性也不同，这类方法很难给出统一的相似计算函数，并且离散型的属性信息忽略了隐含的语义信息，导致对齐效果有限。

另一类是基于知识表示学习的实体对齐方法，主要通过知识表示学习技术将不同实体表示为同一空间的低维向量，然后通过计算向量空间中实体之间的距离或相似度来进行实体对齐。显然，这一类方法的重点在于对实体的知识表示学习方法上。表示学习(Representation Learning)又称为表征学习、嵌入式表示等，其目的是利用机器学习技术将描述对象表示为低维稠密的向量，两个向量之间的距离反映的是对应两个对象之间的语义关系。将表示学习用于知识表示中，即知识表示学习(Knowledge RepresentationLearning)，可以实现知识图谱中实体及实体间关系的向量表示。

得益于深度学习技术的飞速发展，目前基于知识表示学习的实体对齐方法已经成为主流方法。根据知识表示学习的方式不同，这类方法可分为两种框架。一种实体对齐的框架首先利用翻译模型、GNN等知识表示学习技术对知识图谱进行嵌入，此时不同知识图谱的嵌入空间是不同的。之后根据已对齐的实体对将不同知识图谱的嵌入空间映射到同一个向量空间中，再进行实体相似度的计算从而判断能否对齐；另一种实体对齐框架则通过在数据准备阶段融合不同知识图谱中的元素,进而直接将不同知识图谱映射到同一个向量空间中，最后根据向量空间中实体之间的距离或者相似度得到实体对齐结果。

目前基于知识表示学习的实体对齐方法大多关注的是单个知识图谱且单模态的实体对齐问题。然而随着知识图谱技术的应用范围扩大，多来源、多模态的实体对齐成为学术界和工业界亟待解决的问题。现有工作的问题在于仅关注单一模态的数据(例如文本)，导致其他模态数据(例如图像)中的实体特征信息未被有效利用。多模态实体对齐的困难在于如何消除不同模态数据间的异构性，由此多模态知识表示学习成为该研究的关键问题。已有研究中主要通过翻译模型或神经网络来进行相关知识的表示学习，这些模型的计算成本较大，且比较依赖标注数据集。

发明内容

针对多模态实体对齐过程中的多模态知识表示学习所需计算开销大的问题，本公开提供了一种基于多模态协同表示学习的实体对齐方法，采用BERT预训练语言模型和ResNet-200深度残差网络模型分别提取文本和图像的初始语义信息，避免了传统实体对齐方法中人工构造特征的繁琐，并且无需从头训练实体的知识表征，只需要对少量特定任务的标注数据进行微调即可，标注数据的利用率较高。

针对多模态实体对齐研究的标注数据少的问题，本公开采用数据增强的方式，将图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作，使得数据量成倍数增长，同时增强了模型的鲁棒性，确保学习到了图片数据的有效特征表示。另外，本公开使用了迭代机制，将高置信度的新对齐的实体对加入已对齐的种子集数据中，帮助下一轮次的对齐学习，以此达到扩展标注数据集的目的。

本公开提供的基于多模态协同表示学习的实体对齐方法，包括以下步骤：

步骤1，取文本和图像两种模态的数据进行人工标注，将语义上相同的文本和图像对齐，获得初始种子数据集；

步骤2，利用中文预训练语言模型BERT在本工作的所有文本数据上，采用MaskedLM语言学习模型进行网络调优，学习到适合多模态实体的网络参数，从而得到多模态实体的BERT模型，利用所述多模态实体BERT模型的输出为文本的语义信息；

步骤3，基于初始种子数据集，采用data augmentation对数据集中的图像进行增强，在此基础上，构建<文本-图像正样本-图像负样本>三元组，并利用调优后的BERT模型提取文本的语义特征，利用ResNet-200深度残差网络提取图像正样本和图像负样本的特征，通过单层感知机分别将文本的语义特征和图像正负样本的特征投影到新的低维语义特征空间中，基于向量的cosine值度量语义特征和图像特征的相似度，在此基础上，构建triplet loss损失函数，使得文本与图像正样本在低维语义空间中更相似，而与图像负样本更相异；

步骤4，在步骤3训练所得模型的基础上，对未标注的文本和图像数据进行特征提取和cosine值相似性计算，将高置信度的<文本-图像>对添加到种子数据集中，基于步骤3重新训练模型，实现数据的迭代扩展与模型的迭代更新，直至完成所有数据的迭代标注与在此基础上的模型训练。

与现有技术相比，本公开的有益效果是：1、避免了人工构造特征工程的繁琐，采用BERT预训练语言模型和ResNet-200深度残差网络模型获取文本和图像数据的原始特征表示，并且通过空间变换和训练调优，将文本和图片的特征向量投影到同一空间，因而得以提取到多模态数据在同一低维空间中的知识表示，从而进行进一步的相似性判断；

2、引入triplet loss函数作为损失函数对正负样本进行约束，同时通过设置margin阈值控制正负样本的距离，使得多模态数据的低维表征空间中相似样本的距离更近，不同样本之间的距离更远；

3、在原标注数据集上采用数据增强的方法，结合实际任务中大量通过文本检索图片的需求，将图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作，使得训练数据成倍增长，并且这种变换能够确保训练中学习到有效的特征表示，达到变换前后都能找到同一实体进行对齐的效果；

4、引入了迭代机制，将高置信度的对齐结果加入到已对齐数据集中，指导下一轮次的训练，同时实现了增加标注数据集的目的。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例方式中，相同的参考标号通常代表相同部件。

图1为根据本公开的基于多模态协同表示学习的实体对齐方法框架图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开提供了一种基于多模态协同表示学习的实体对齐方法，在增强后的数据上，基于BERT预训练语言模型和ResNet-200深度残差网络模型提取文本和图像的初始语义信息，通过空间变换的方式将文本和图像特征投影到相同的语义空间。结合triplet loss损失使得在该空间中，文本与图像正样本更相似，而与图像负样本更相异。训练完成后，对未标注的文本和图像数据进行特征提取和cosine值相似性计算，将高置信度的实体对齐结果加入到种子数据集中，对模型进行迭代更新。通过迭代更新种子数据集和网络模型，直到完成多模态数据集中所有文本和图像的对齐。

根据本公开的示例性实施例算法框架如附图1所示，具体包括：

步骤1，通过人工手动标注得到种子数据集。

步骤2，利用中文预训练语言模型BERT在多模态文本数据集上，采用Masked LM语言学习模型进行网络调优，具体为：

在全部的多模态文本数据集上使用Masked LM对BERT模型的参数进行调优，在训练时采用如下策略，随机选择句子中15％的词语进行Mask，在选择为Mask的词语中，有80％使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机词语替换。

多模态文本数据集合

T₁～T_p为所有的多模态文本数据；BERT模型中的epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoch；BERT基础模型为Bert_base_chinese，每个句子的最大长度为max_len；

针对BERT模型中的所有的epoch，执行如下训练流程得到调优后的BERT模型参数：

针对epoch中的每个batch，执行S201～S205：

S201，将多模态文本数据集合

按照80％-10％-10％的比例划分为训练集、测试集、验证集；

S202，将训练集中的输入句子补零或截取到长度为max_len，获取句子分词的索引I1；

S203，随机选择句子中15％的词语进行Mask，在选择为Mask的词语中，有80％使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机词语替换；

S204，获取Mask后的句子输入到BERT基础模型Bert_base_chinese中，获得特征向量，后接θ₀预测句子每个位置对应的分词的索引I2；

S205，使用Adam优化器最小化I1与I2之间的差异，定义为第一损失函数L(θ,θ₀)；当验证集上的第一损失函数在一定epoch内不再下降时采取early stopping策略；

第一损失函数L(θ,θ₀)定义如下：

其中，θ是BERT模型中的Encoder部分的参数，输入经过θ得到特征向量，θ₀是在Masked LM任务中，接在θ后面的参数，|V|是被mask的词所构成词典的大小；m_i表示被mask的词；p(m＝m_i|θ,θ₀)表示在给定所学习到的参数θ和θ₀的情况下，预测的词m就是被mask的词m_i的概率；

在所述训练流程中，在BERT模型的前两个epoch中，固定θ，以学习速率为lr＝5e^-4调整θ₀，在随后的epoch中，以lr＝1e^-5的学习速率同时调整θ和θ₀，直至达到停止条件。其中，e为科学计数法，e^-5＝1*10^-5。

步骤3具体为：对于种子数据集中的图像，采用data augmentation对数据集中的图像进行增强，增强方式包括水平翻转、垂直翻转、随机裁剪、随机擦除等。数据增强后的图像与原始图像所对齐的文本信息组成新的<文本-图像>对，加入到种子数据集中，构成数据增强后的种子数据集。

数据增强后的种子数据集合

D₁～D_N为所有已对齐的<文本-图像>对；种子数据集合中的文本信息集合为/>

Ts₁～_N分别为所有已对齐的<文本-图像>对中的文本信息；种子数据集合中的图像信息集合为/>

Is₁～_N为所有已对齐的<文本-图像>对中的图像信息；在此基础上，构建<文本-图像正样本-图像负样本>三元组数据集合，其中<文本-图像正样本>为种子数据集合/>

中已对齐的<文本-图像>对，<图像负样本>则从种子数据集合/>

中没有与当前<文本-图像>对中的<文本>对齐的其他任意图像中随机选取，最终得到<文本-图像正样本-图像负样本>三元组数据集合/>

DT₁～DT_M为所有的<文本-图像正样本-图像负样本>三元组。其中，M是N的整数倍：如果给每个<文本-图像正样本>对选取一个图像负样本，则M＝N，如果给每个<文本-图像正样本>对选取两个图像负样本，则M＝2N，如果给每个<文本-图像正样本>对选取三个图像负样本，则M＝3N，依此类推。实际情况可根据需求做自由调整。

设epoch的最大值为Epoches1，每个epoch的batch数为batch_per_epoch1。调优后的BERT模型Bert_fine_tune，每个句子的最大长度为max_len；图像特征提取模型为ResNet-200，每张图片的输入尺寸为input*input；文本和图像对齐后的特征空间维度为d；针对本模型中的所有的epoch，基于执行如下训练流程得到所学到模型参数，实现将文本和图像在同一低维空间中所得到特征的对齐：

针对epoch中的每个batch，执行SS1～SS11：

SS1.将<文本-图像正样本-图像负样本>中的文本t补零或截取到长度为max_len；

SS2.将文本输入到Bert_fine_tune中，获得文本特征向量

SS3.特征向量

后接单层感知机网络θ_t，将文本特征投影到维度为d的特征空间中得到特征向量/>

SS4.将<文本-图像正样本-图像负样本>中的图像正样本image_p resize为ResNet-200网络的输入尺寸input*input；

SS5.将resize后的图像正样本输入到ResNet-200中，其网络参数为θ_R，获得图像特征向量

SS6.特征向量

后接单层感知机网络θ_I，将图像正样本特征投影到维度为d的特征空间中得到特征向量/>

SS7.将<文本-图像正样本-图像负样本>中的图像负样本image_n resize为ResNet-200网络的输入尺寸input*input；

SS8.将resize后的图像负样本输入到ResNet-200中，其网络参数为θ_r，获得图像特征向量

SS9.特征向量

SS10.构建第二损失函数L_T(θ,θ_t,θ_R,θ_I)，使用Adam优化器最小化第二损失函数。

SS11.当验证集上的loss在一定epoch内不再下降时采取early stopping策略。

具体的，第二损失函数定义如下：

其中，

这里涉及两个单层感知机网络，一个是文本的单层感知机网络θ_t，一个是图像的单层感知机网络，图像正样本和图像负样本共享同一个单层感知机网络θ_I。

步骤4具体为：在步骤3训练所得模型的基础上，分别提取多模态数据中所有文本与所有图片在低维空间中的特征，遍历所有的<文本-图像>对，计算其相似度E_w，基于该相似度对文本-图片进行对齐，并将高置信度的<文本-图像>对加入到种子数据集内，重复步骤3的工作，生成新的三元组数据集合，迭代更新训练θ_t,,θ_I网络参数。

迭代更新后的已对齐多模态<文本-图像>对所构成的种子集合

为迭代更新后的种子集合中所有已对齐的<文本-图像>对；多模态文本数据集合/>

T₁～T_p为所有的多模态文本数据；多模态文本图像集合

I₁～I_Q为所有的多模态图像数据；置信阈值τ；调优后的网络参数θ,θ_t,θ_R,θ_I。

执行SSS1～SSS11：

SSS1.将多模态文本数据集合

中的文本T_i补零或截取到长度为max_len；

SSS2.将文本输入θ和θ_t，获得文本特征向量

SSS3.将多模态图像数据集合

中的图像I_jresize为ResNet-200网络的输入尺寸input*input；

SSS4.将resize后的图像输入θ_R和θ_I，获得图像特征向量

SSS5.遍历多模态文本数据集合

中的文本T_i,i＝1,...,P和多模态图像数据集合/>

中的图像I_j,j＝1,...,Q，获取对应的文本特征向量集合

和图像特征向量集合/>

SSS6.根据步骤3中的公式计算

中P个文本与/>

中Q个图片两两的cosine相似度，得到相似性集合/>

SSS7.提取相似性集合

中相似度大于置信阈值τ的数值所对应的<文本-图像>对，构成/>

其中K为所有相似度大于置信阈值τ的<文本-图像>对；

SSS8.将

合并到前一轮迭代更新后的已对齐多模态<文本-图像>对所构成的种子集合/>

中，若有新增的种子数据，则先执行步骤3迭代训练模型，进而执行SSS1-SSS8更新迭代数据；否则结束，得到最终的文本-图像对齐结果和多模态数据对齐模型的网络参数。

可见，本公开使用基于预训练模型调优的多模态表示学习方法进行实体表征，不需要人工构造实体特征，同时采用的迭代式数据更新和网络训练过程也大大减少了对初始种子数据集中人工标注数据量的要求，节约了大量人力和成本；

引入triplet loss函数通过对输入中两个差异性样本的比较和度量，实现对样本细节更好的建模，从而学习更准确的特征表示；

对图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作，可使训练数据量成倍数增长，弥补标注数据不足的问题；同时，在模型中引入迭代机制，将实体对齐结果添加至已对齐的实体对中，实现自动扩展标注数据的目的。

上述技术方案只是本发明的示例性实施例，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施例所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种基于多模态协同表示学习的实体对齐方法，包括以下步骤：

S1，通过人工标注对齐，建立初始的<文本-图像>对种子数据集；

S2，获取适合多模态文本数据的BERT模型；

S3，包括：

S31，基于图像的进行增强扩展，对种子集中的<文本-图像>对进行扩充；

S32，将种子集中的<文本-图像>对扩展为<文本-图像正样本-图像负样本>三元组；

S33，用步骤S2的BERT模型提取文本的语义特征，利用深度残差网络分别提取图像正样本和图像负样本的特征；通过单层感知网络分别将这些特征投影到低维语义特征空间中；以文本与图像正样本在低维语义特征空间中更相似、而与图像负样本更相异为目标构建损失函数，利用种子集中的数据，对用于特征投影的单层感知网络进行训练；

S4，对未标注的文本和图像进行特征提取和相似性计算，将高置信度的<文本-图像>对添加到种子数据集中，基于步骤S3重新训练模型，进行数据的迭代扩展与模型的迭代更新，直至完成所有数据的迭代标注。

2.根据权利要求1所述的对齐方法，其特征在于，所述步骤S2的方法包括：使用BERT模型中的Masked LM语言学习任务工具，利用多模态文本数据集，对BERT模型参数进行训练调优，得到适合多模态文本数据的BERT模型，具体包括：

设多模态文本数据集合

针对epoch中的每个batch，执行S201～S205：

S201，将多模态文本数据集合

按照80％-10％-10％的比例划分为训练集、测试集、验证集；

S205，使用Adam优化器最小化I1与I2之间的差异，定义为第一损失函数L(θ,θ₀)；当验证集上的第一损失函数在一定epoch内不再下降时提前停止训练；

第一损失函数L(θ,θ₀)定义如下：

其中，θ是BERT模型中的Encoder部分的参数，输入经过θ得到特征向量，θ₀是在MaskedLM任务中，接在θ后面的参数；|V|是被mask的词所构成词典的大小；m_i表示被mask的词；p(m＝m_i|θ,θ₀)表示在给定所学习到的参数θ和θ₀的情况下，预测的词m就是被mask的词m_i的概率；

在所述训练流程中，在BERT模型的前两个epoch中，固定θ，以第一学习速率调整θ₀，在随后的epoch中，以第二学习速率同时调整θ和θ₀，直至达到停止条件。

3.根据权利要求2所述的对齐方法，其特征在于，所述第一学习速率取5^-4，第二学习速率取1^-5，e为科学计数法符号。

4.根据权利要求1所述的对齐方法，其特征在于，所述步骤S31的具体方法包括：

对初始种子数据集中的图像进行增强扩展，以扩展后的图像与原始图像所对齐的文本信息组成新的<文本-图像>对，加入到种子数据集中；其中，对图像进行增强扩展的方法包括水平翻转、垂直翻转、随机裁剪、以及随机擦除。

5.根据权利要求1或4所述的对齐方法，其特征在于，所述步骤S32中，将种子集中的<文本-图像>对扩展为<文本-图像正样本-图像负样本>三元组的具体方法包括：

设数据增强扩展后的种子数据集合