CN116341655A - 一种基于多模态协同表示学习的实体对齐方法 - Google Patents

一种基于多模态协同表示学习的实体对齐方法 Download PDF

Info

Publication number
CN116341655A
CN116341655A CN202211630607.9A CN202211630607A CN116341655A CN 116341655 A CN116341655 A CN 116341655A CN 202211630607 A CN202211630607 A CN 202211630607A CN 116341655 A CN116341655 A CN 116341655A
Authority
CN
China
Prior art keywords
image
text
data
model
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211630607.9A
Other languages
English (en)
Inventor
黄杨琛
王立才
李孟书
孙雨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202211630607.9A priority Critical patent/CN116341655A/zh
Publication of CN116341655A publication Critical patent/CN116341655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多模态协同表示学习的实体对齐方法,在增强后的数据上,基于BERT模型和深度残差网络提取文本和图像的初始语义信息,并将文本和图像特征投影到相同的语义空间;结合triplet loss损失使得在该空间中,文本与图像正样本更相似,而与图像负样本更相异。训练完成后,对未标注的文本和图像数据进行特征提取和相似性计算,将高置信度的实体对齐结果加入到种子数据集中,对模型进行迭代更新,完成多模态数据集中所有文本和图像的对齐。该方法使用基于预训练模型调优的多模态表示学习方法进行实体表征,不需要人工构造实体特征,同时采用的迭代式数据更新和网络训练过程也大大减少了对初始种子数据集中人工标注数据量的要求,节约了大量人力和成本,同时能获得更准确的特征表示和对齐结果。

Description

一种基于多模态协同表示学习的实体对齐方法
技术领域
本公开涉及自然语言处理中的知识图谱技术领域,特别涉及一种基于多模态协同表示学习的实体对齐方法。
背景技术
实体对齐(Entity Alignment,EA)又称为实体匹配,是知识融合过程中的关键技术,旨在判断两个实体是否指向真实世界中的同一个对象。由于知识的内容来源丰富,并且存在人为理解的不同,因此指代同一实体的表达会有差异,由此导致相同或不同知识图谱中存在知识的异构和冗余问题,需要通过实体对齐技术进行合并,这对于数据融合和知识共享的技术探索具有重要意义。
实体对齐的研究主要可以分为两个大类。一类是传统的实体对齐方法,研究者们主要使用人工构造特征的方式对实体的字符特征、属性特征、关系特征等进行表示,然后通过特征相似度的计算来判断实体是否能够对齐。采用的相似性度量方法有词频-逆文档频率(Term Frequency-Inverse Document Frequency,TFIDF),主动学习和机器学习分类器以及NGram匹配/编辑距离/数字匹配等,还可以在相似性计算的基础上通过同义词集和语义验证以及过滤机等来提高实体对齐算法的性能。但由于领域不同以及实体的各种属性也不同,这类方法很难给出统一的相似计算函数,并且离散型的属性信息忽略了隐含的语义信息,导致对齐效果有限。
另一类是基于知识表示学习的实体对齐方法,主要通过知识表示学习技术将不同实体表示为同一空间的低维向量,然后通过计算向量空间中实体之间的距离或相似度来进行实体对齐。显然,这一类方法的重点在于对实体的知识表示学习方法上。表示学习(Representation Learning)又称为表征学习、嵌入式表示等,其目的是利用机器学习技术将描述对象表示为低维稠密的向量,两个向量之间的距离反映的是对应两个对象之间的语义关系。将表示学习用于知识表示中,即知识表示学习(Knowledge RepresentationLearning),可以实现知识图谱中实体及实体间关系的向量表示。
得益于深度学习技术的飞速发展,目前基于知识表示学习的实体对齐方法已经成为主流方法。根据知识表示学习的方式不同,这类方法可分为两种框架。一种实体对齐的框架首先利用翻译模型、GNN等知识表示学习技术对知识图谱进行嵌入,此时不同知识图谱的嵌入空间是不同的。之后根据已对齐的实体对将不同知识图谱的嵌入空间映射到同一个向量空间中,再进行实体相似度的计算从而判断能否对齐;另一种实体对齐框架则通过在数据准备阶段融合不同知识图谱中的元素,进而直接将不同知识图谱映射到同一个向量空间中,最后根据向量空间中实体之间的距离或者相似度得到实体对齐结果。
目前基于知识表示学习的实体对齐方法大多关注的是单个知识图谱且单模态的实体对齐问题。然而随着知识图谱技术的应用范围扩大,多来源、多模态的实体对齐成为学术界和工业界亟待解决的问题。现有工作的问题在于仅关注单一模态的数据(例如文本),导致其他模态数据(例如图像)中的实体特征信息未被有效利用。多模态实体对齐的困难在于如何消除不同模态数据间的异构性,由此多模态知识表示学习成为该研究的关键问题。已有研究中主要通过翻译模型或神经网络来进行相关知识的表示学习,这些模型的计算成本较大,且比较依赖标注数据集。
发明内容
针对多模态实体对齐过程中的多模态知识表示学习所需计算开销大的问题,本公开提供了一种基于多模态协同表示学习的实体对齐方法,采用BERT预训练语言模型和ResNet-200深度残差网络模型分别提取文本和图像的初始语义信息,避免了传统实体对齐方法中人工构造特征的繁琐,并且无需从头训练实体的知识表征,只需要对少量特定任务的标注数据进行微调即可,标注数据的利用率较高。
针对多模态实体对齐研究的标注数据少的问题,本公开采用数据增强的方式,将图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作,使得数据量成倍数增长,同时增强了模型的鲁棒性,确保学习到了图片数据的有效特征表示。另外,本公开使用了迭代机制,将高置信度的新对齐的实体对加入已对齐的种子集数据中,帮助下一轮次的对齐学习,以此达到扩展标注数据集的目的。
本公开提供的基于多模态协同表示学习的实体对齐方法,包括以下步骤:
步骤1,取文本和图像两种模态的数据进行人工标注,将语义上相同的文本和图像对齐,获得初始种子数据集;
步骤2,利用中文预训练语言模型BERT在本工作的所有文本数据上,采用MaskedLM语言学习模型进行网络调优,学习到适合多模态实体的网络参数,从而得到多模态实体的BERT模型,利用所述多模态实体BERT模型的输出为文本的语义信息;
步骤3,基于初始种子数据集,采用data augmentation对数据集中的图像进行增强,在此基础上,构建<文本-图像正样本-图像负样本>三元组,并利用调优后的BERT模型提取文本的语义特征,利用ResNet-200深度残差网络提取图像正样本和图像负样本的特征,通过单层感知机分别将文本的语义特征和图像正负样本的特征投影到新的低维语义特征空间中,基于向量的cosine值度量语义特征和图像特征的相似度,在此基础上,构建triplet loss损失函数,使得文本与图像正样本在低维语义空间中更相似,而与图像负样本更相异;
步骤4,在步骤3训练所得模型的基础上,对未标注的文本和图像数据进行特征提取和cosine值相似性计算,将高置信度的<文本-图像>对添加到种子数据集中,基于步骤3重新训练模型,实现数据的迭代扩展与模型的迭代更新,直至完成所有数据的迭代标注与在此基础上的模型训练。
与现有技术相比,本公开的有益效果是:1、避免了人工构造特征工程的繁琐,采用BERT预训练语言模型和ResNet-200深度残差网络模型获取文本和图像数据的原始特征表示,并且通过空间变换和训练调优,将文本和图片的特征向量投影到同一空间,因而得以提取到多模态数据在同一低维空间中的知识表示,从而进行进一步的相似性判断;
2、引入triplet loss函数作为损失函数对正负样本进行约束,同时通过设置margin阈值控制正负样本的距离,使得多模态数据的低维表征空间中相似样本的距离更近,不同样本之间的距离更远;
3、在原标注数据集上采用数据增强的方法,结合实际任务中大量通过文本检索图片的需求,将图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作,使得训练数据成倍增长,并且这种变换能够确保训练中学习到有效的特征表示,达到变换前后都能找到同一实体进行对齐的效果;
4、引入了迭代机制,将高置信度的对齐结果加入到已对齐数据集中,指导下一轮次的训练,同时实现了增加标注数据集的目的。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例方式中,相同的参考标号通常代表相同部件。
图1为根据本公开的基于多模态协同表示学习的实体对齐方法框架图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本公开提供了一种基于多模态协同表示学习的实体对齐方法,在增强后的数据上,基于BERT预训练语言模型和ResNet-200深度残差网络模型提取文本和图像的初始语义信息,通过空间变换的方式将文本和图像特征投影到相同的语义空间。结合triplet loss损失使得在该空间中,文本与图像正样本更相似,而与图像负样本更相异。训练完成后,对未标注的文本和图像数据进行特征提取和cosine值相似性计算,将高置信度的实体对齐结果加入到种子数据集中,对模型进行迭代更新。通过迭代更新种子数据集和网络模型,直到完成多模态数据集中所有文本和图像的对齐。
根据本公开的示例性实施例算法框架如附图1所示,具体包括:
步骤1,通过人工手动标注得到种子数据集。
步骤2,利用中文预训练语言模型BERT在多模态文本数据集上,采用Masked LM语言学习模型进行网络调优,具体为:
在全部的多模态文本数据集上使用Masked LM对BERT模型的参数进行调优,在训练时采用如下策略,随机选择句子中15%的词语进行Mask,在选择为Mask的词语中,有80%使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机词语替换。
多模态文本数据集合
Figure BDA0004005590720000051
T1~Tp为所有的多模态文本数据;BERT模型中的epoch的最大值为Epoches,每个epoch的batch数为batch_per_epoch;BERT基础模型为Bert_base_chinese,每个句子的最大长度为max_len;
针对BERT模型中的所有的epoch,执行如下训练流程得到调优后的BERT模型参数:
针对epoch中的每个batch,执行S201~S205:
S201,将多模态文本数据集合
Figure BDA0004005590720000052
按照80%-10%-10%的比例划分为训练集、测试集、验证集;
S202,将训练集中的输入句子补零或截取到长度为max_len,获取句子分词的索引I1;
S203,随机选择句子中15%的词语进行Mask,在选择为Mask的词语中,有80%使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机词语替换;
S204,获取Mask后的句子输入到BERT基础模型Bert_base_chinese中,获得特征向量,后接θ0预测句子每个位置对应的分词的索引I2;
S205,使用Adam优化器最小化I1与I2之间的差异,定义为第一损失函数L(θ,θ0);当验证集上的第一损失函数在一定epoch内不再下降时采取early stopping策略;
第一损失函数L(θ,θ0)定义如下:
Figure BDA0004005590720000061
其中,θ是BERT模型中的Encoder部分的参数,输入经过θ得到特征向量,θ0是在Masked LM任务中,接在θ后面的参数,|V|是被mask的词所构成词典的大小;mi表示被mask的词;p(m=mi|θ,θ0)表示在给定所学习到的参数θ和θ0的情况下,预测的词m就是被mask的词mi的概率;
在所述训练流程中,在BERT模型的前两个epoch中,固定θ,以学习速率为lr=5e-4调整θ0,在随后的epoch中,以lr=1e-5的学习速率同时调整θ和θ0,直至达到停止条件。其中,e为科学计数法,e-5=1*10-5
步骤3具体为:对于种子数据集中的图像,采用data augmentation对数据集中的图像进行增强,增强方式包括水平翻转、垂直翻转、随机裁剪、随机擦除等。数据增强后的图像与原始图像所对齐的文本信息组成新的<文本-图像>对,加入到种子数据集中,构成数据增强后的种子数据集。
数据增强后的种子数据集合
Figure BDA0004005590720000064
D1~DN为所有已对齐的<文本-图像>对;种子数据集合中的文本信息集合为/>
Figure BDA0004005590720000062
Ts1N分别为所有已对齐的<文本-图像>对中的文本信息;种子数据集合中的图像信息集合为/>
Figure BDA0004005590720000063
Is1N为所有已对齐的<文本-图像>对中的图像信息;在此基础上,构建<文本-图像正样本-图像负样本>三元组数据集合,其中<文本-图像正样本>为种子数据集合/>
Figure BDA0004005590720000065
中已对齐的<文本-图像>对,<图像负样本>则从种子数据集合/>
Figure BDA0004005590720000066
中没有与当前<文本-图像>对中的<文本>对齐的其他任意图像中随机选取,最终得到<文本-图像正样本-图像负样本>三元组数据集合/>
Figure BDA0004005590720000067
Figure BDA0004005590720000068
DT1~DTM为所有的<文本-图像正样本-图像负样本>三元组。其中,M是N的整数倍:如果给每个<文本-图像正样本>对选取一个图像负样本,则M=N,如果给每个<文本-图像正样本>对选取两个图像负样本,则M=2N,如果给每个<文本-图像正样本>对选取三个图像负样本,则M=3N,依此类推。实际情况可根据需求做自由调整。
设epoch的最大值为Epoches1,每个epoch的batch数为batch_per_epoch1。调优后的BERT模型Bert_fine_tune,每个句子的最大长度为max_len;图像特征提取模型为ResNet-200,每张图片的输入尺寸为input*input;文本和图像对齐后的特征空间维度为d;针对本模型中的所有的epoch,基于执行如下训练流程得到所学到模型参数,实现将文本和图像在同一低维空间中所得到特征的对齐:
针对epoch中的每个batch,执行SS1~SS11:
SS1.将<文本-图像正样本-图像负样本>中的文本t补零或截取到长度为max_len;
SS2.将文本输入到Bert_fine_tune中,获得文本特征向量
Figure BDA0004005590720000071
SS3.特征向量
Figure BDA0004005590720000072
后接单层感知机网络θt,将文本特征投影到维度为d的特征空间中得到特征向量/>
Figure BDA0004005590720000073
SS4.将<文本-图像正样本-图像负样本>中的图像正样本image_p resize为ResNet-200网络的输入尺寸input*input;
SS5.将resize后的图像正样本输入到ResNet-200中,其网络参数为θR,获得图像特征向量
Figure BDA0004005590720000074
SS6.特征向量
Figure BDA0004005590720000075
后接单层感知机网络θI,将图像正样本特征投影到维度为d的特征空间中得到特征向量/>
Figure BDA0004005590720000076
SS7.将<文本-图像正样本-图像负样本>中的图像负样本image_n resize为ResNet-200网络的输入尺寸input*input;
SS8.将resize后的图像负样本输入到ResNet-200中,其网络参数为θr,获得图像特征向量
Figure BDA0004005590720000077
SS9.特征向量
Figure BDA0004005590720000078
后接单层感知机网络θI,将图像正样本特征投影到维度为d的特征空间中得到特征向量/>
Figure BDA0004005590720000079
SS10.构建第二损失函数LT(θ,θtRI),使用Adam优化器最小化第二损失函数。
SS11.当验证集上的loss在一定epoch内不再下降时采取early stopping策略。
具体的,第二损失函数定义如下:
Figure BDA0004005590720000081
其中,
Figure BDA0004005590720000082
Figure BDA0004005590720000083
Figure BDA0004005590720000084
Figure BDA0004005590720000085
Figure BDA0004005590720000086
这里涉及两个单层感知机网络,一个是文本的单层感知机网络θt,一个是图像的单层感知机网络,图像正样本和图像负样本共享同一个单层感知机网络θI
步骤4具体为:在步骤3训练所得模型的基础上,分别提取多模态数据中所有文本与所有图片在低维空间中的特征,遍历所有的<文本-图像>对,计算其相似度Ew,基于该相似度对文本-图片进行对齐,并将高置信度的<文本-图像>对加入到种子数据集内,重复步骤3的工作,生成新的三元组数据集合,迭代更新训练θt,,θI网络参数。
迭代更新后的已对齐多模态<文本-图像>对所构成的种子集合
Figure BDA0004005590720000087
Figure BDA0004005590720000088
为迭代更新后的种子集合中所有已对齐的<文本-图像>对;多模态文本数据集合/>
Figure BDA0004005590720000089
T1~Tp为所有的多模态文本数据;多模态文本图像集合
Figure BDA00040055907200000810
I1~IQ为所有的多模态图像数据;置信阈值τ;调优后的网络参数θ,θtRI
执行SSS1~SSS11:
SSS1.将多模态文本数据集合
Figure BDA00040055907200000811
中的文本Ti补零或截取到长度为max_len;
SSS2.将文本输入θ和θt,获得文本特征向量
Figure BDA0004005590720000091
SSS3.将多模态图像数据集合
Figure BDA0004005590720000092
中的图像Ijresize为ResNet-200网络的输入尺寸input*input;
SSS4.将resize后的图像输入θR和θI,获得图像特征向量
Figure BDA0004005590720000093
SSS5.遍历多模态文本数据集合
Figure BDA00040055907200000912
中的文本Ti,i=1,...,P和多模态图像数据集合/>
Figure BDA0004005590720000094
中的图像Ij,j=1,...,Q,获取对应的文本特征向量集合
Figure BDA0004005590720000095
和图像特征向量集合/>
Figure BDA0004005590720000096
SSS6.根据步骤3中的公式计算
Figure BDA0004005590720000097
中P个文本与/>
Figure BDA0004005590720000098
中Q个图片两两的cosine相似度,得到相似性集合/>
Figure BDA0004005590720000099
SSS7.提取相似性集合
Figure BDA00040055907200000913
中相似度大于置信阈值τ的数值所对应的<文本-图像>对,构成/>
Figure BDA00040055907200000910
其中K为所有相似度大于置信阈值τ的<文本-图像>对;
SSS8.将
Figure BDA00040055907200000914
合并到前一轮迭代更新后的已对齐多模态<文本-图像>对所构成的种子集合/>
Figure BDA00040055907200000911
中,若有新增的种子数据,则先执行步骤3迭代训练模型,进而执行SSS1-SSS8更新迭代数据;否则结束,得到最终的文本-图像对齐结果和多模态数据对齐模型的网络参数。
可见,本公开使用基于预训练模型调优的多模态表示学习方法进行实体表征,不需要人工构造实体特征,同时采用的迭代式数据更新和网络训练过程也大大减少了对初始种子数据集中人工标注数据量的要求,节约了大量人力和成本;
引入triplet loss函数通过对输入中两个差异性样本的比较和度量,实现对样本细节更好的建模,从而学习更准确的特征表示;
对图片数据进行水平翻转、垂直翻转、随机裁剪、随机擦除等操作,可使训练数据量成倍数增长,弥补标注数据不足的问题;同时,在模型中引入迭代机制,将实体对齐结果添加至已对齐的实体对中,实现自动扩展标注数据的目的。
上述技术方案只是本发明的示例性实施例,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施例所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。

Claims (7)

1.一种基于多模态协同表示学习的实体对齐方法,包括以下步骤:
S1,通过人工标注对齐,建立初始的<文本-图像>对种子数据集;
S2,获取适合多模态文本数据的BERT模型;
S3,包括:
S31,基于图像的进行增强扩展,对种子集中的<文本-图像>对进行扩充;
S32,将种子集中的<文本-图像>对扩展为<文本-图像正样本-图像负样本>三元组;
S33,用步骤S2的BERT模型提取文本的语义特征,利用深度残差网络分别提取图像正样本和图像负样本的特征;通过单层感知网络分别将这些特征投影到低维语义特征空间中;以文本与图像正样本在低维语义特征空间中更相似、而与图像负样本更相异为目标构建损失函数,利用种子集中的数据,对用于特征投影的单层感知网络进行训练;
S4,对未标注的文本和图像进行特征提取和相似性计算,将高置信度的<文本-图像>对添加到种子数据集中,基于步骤S3重新训练模型,进行数据的迭代扩展与模型的迭代更新,直至完成所有数据的迭代标注。
2.根据权利要求1所述的对齐方法,其特征在于,所述步骤S2的方法包括:使用BERT模型中的Masked LM语言学习任务工具,利用多模态文本数据集,对BERT模型参数进行训练调优,得到适合多模态文本数据的BERT模型,具体包括:
设多模态文本数据集合
Figure FDA0004005590710000011
T1~Tp为所有的多模态文本数据;BERT模型中的epoch的最大值为Epoches,每个epoch的batch数为batch_per_epoch;BERT基础模型为Bert_base_chinese,每个句子的最大长度为max_len;
针对BERT模型中的所有的epoch,执行如下训练流程得到调优后的BERT模型参数:
针对epoch中的每个batch,执行S201~S205:
S201,将多模态文本数据集合
Figure FDA0004005590710000022
按照80%-10%-10%的比例划分为训练集、测试集、验证集;
S202,将训练集中的输入句子补零或截取到长度为max_len,获取句子分词的索引I1;
S203,随机选择句子中15%的词语进行Mask,在选择为Mask的词语中,有80%使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机词语替换;
S204,获取Mask后的句子输入到BERT基础模型Bert_base_chinese中,获得特征向量,后接θ0预测句子每个位置对应的分词的索引I2;
S205,使用Adam优化器最小化I1与I2之间的差异,定义为第一损失函数L(θ,θ0);当验证集上的第一损失函数在一定epoch内不再下降时提前停止训练;
第一损失函数L(θ,θ0)定义如下:
Figure FDA0004005590710000021
其中,θ是BERT模型中的Encoder部分的参数,输入经过θ得到特征向量,θ0是在MaskedLM任务中,接在θ后面的参数;|V|是被mask的词所构成词典的大小;mi表示被mask的词;p(m=mi|θ,θ0)表示在给定所学习到的参数θ和θ0的情况下,预测的词m就是被mask的词mi的概率;
在所述训练流程中,在BERT模型的前两个epoch中,固定θ,以第一学习速率调整θ0,在随后的epoch中,以第二学习速率同时调整θ和θ0,直至达到停止条件。
3.根据权利要求2所述的对齐方法,其特征在于,所述第一学习速率取5-4,第二学习速率取1-5,e为科学计数法符号。
4.根据权利要求1所述的对齐方法,其特征在于,所述步骤S31的具体方法包括:
对初始种子数据集中的图像进行增强扩展,以扩展后的图像与原始图像所对齐的文本信息组成新的<文本-图像>对,加入到种子数据集中;其中,对图像进行增强扩展的方法包括水平翻转、垂直翻转、随机裁剪、以及随机擦除。
5.根据权利要求1或4所述的对齐方法,其特征在于,所述步骤S32中,将种子集中的<文本-图像>对扩展为<文本-图像正样本-图像负样本>三元组的具体方法包括:
设数据增强扩展后的种子数据集合
Figure FDA0004005590710000031
<文本-图像正样本>为种子数据集合
Figure FDA0004005590710000032
中已对齐的<文本-图像>对;
<图像负样本>则从种子数据集合
Figure FDA0004005590710000033
中没有与当前<文本-图像>对中的<文本>对齐的其他任意图像中随机选取;
最终得到对应每个<文本>的<文本-图像正样本-图像负样本>三元组数据集合。
6.根据权利要求2所述的对齐方法,其特征在于,所述步骤S33的具体方法包括:
设调优后的BERT模型为Bert_fine_tune,每个句子的最大长度为max_len;图像特征提取模型采用ResNet-200,每张图片的输入尺寸为input*input;文本和图像对齐后的特征空间维度d;
则针对epoch中的每个batch,执行SS1~SS11:
SS1.将<文本-图像正样本-图像负样本>中的文本t补零或截取到长度为max_len;
SS2.将文本输入到Bert_fine_tune中,获得文本特征向量
Figure FDA0004005590710000034
SS3.特征向量
Figure FDA0004005590710000035
后接θt单层感知机网络,将文本特征投影到维度为d的特征空间中得到特征向量/>
Figure FDA0004005590710000036
SS4.将<文本-图像正样本-图像负样本>中的图像正样本image_p调整尺寸为ResNet-200网络的输入尺寸input*input;
SS5.将调整尺寸后的图像正样本输入到ResNet-200中,其网络参数为θR,获得图像特征向量
Figure FDA0004005590710000041
SS6.特征向量
Figure FDA0004005590710000042
后接θI单层感知网络,将图像正样本特征投影到维度为d的特征空间中得到特征向量/>
Figure FDA0004005590710000043
SS7.将<文本-图像正样本-图像负样本>中的图像负样本image_n调整尺寸为ResNet-200网络的输入尺寸input*input;
SS8.将调整尺寸后的图像负样本输入到ResNet-200中,其网络参数为θR,获得图像特征向量
Figure FDA0004005590710000044
SS9.特征向量
Figure FDA0004005590710000045
后接θI单层感知网络,将图像正样本特征投影到维度为d的特征空间中得到特征向量/>
Figure FDA0004005590710000046
SS10.构建第二损失函数LT(θ,θtRI),使用Adam优化器最小化第二损失函数;
SS11.当验证集上的loss在一定epoch内不再下降时提前停止训练;
其中,第二损失函数的定义包括:
Figure FDA0004005590710000047
式中,
Figure FDA0004005590710000048
Figure FDA0004005590710000049
Figure FDA00040055907100000410
Figure FDA00040055907100000411
Figure FDA00040055907100000412
7.根据权利要求6所述的对齐方法,其特征在于,所述步骤S4具体包括:
SSS1.将多模态文本数据集合
Figure FDA00040055907100000413
中的文本Ti补零或截取到长度为max_len;
SSS2.将文本输入θ和θt,获得文本特征向量
Figure FDA0004005590710000051
SSS3.将多模态图像数据集合
Figure FDA0004005590710000052
中的图像Ij调整尺寸为ResNet-200网络的输入尺寸input*input;
SSS4.将调整尺寸后的图像输入θR和θI,获得图像特征向量
Figure FDA0004005590710000053
SSS5.遍历多模态文本数据集合
Figure FDA0004005590710000054
中的文本Ti,i=1,...,P和多模态图像数据集合/>
Figure FDA0004005590710000055
中的图像Ij,j=1,...,Q,获取对应的文本特征向量集合
Figure FDA0004005590710000056
和图像特征向量集合/>
Figure FDA0004005590710000057
SSS6.计算
Figure FDA0004005590710000058
中P个文本与/>
Figure FDA0004005590710000059
中Q个图片两两的余弦相似度,得到相似性集合
Figure FDA00040055907100000510
SSS7.提取相似性集合
Figure FDA00040055907100000511
中相似度大于置信阈值τ的数值所对应的<文本-图像>对,构成
Figure FDA00040055907100000512
其中K为所有相似度大于置信阈值τ的<文本-图像>对;
SSS8.将
Figure FDA00040055907100000514
合并到前一轮迭代更新后的已对齐多模态<文本-图像>对所构成的种子集合/>
Figure FDA00040055907100000513
中,若有新增的种子数据,则先执行步骤S3迭代训练模型,进而执行SSS1-SSS8更新迭代数据;否则结束,得到最终的文本-图像对齐结果和多模态数据对齐模型的网络参数。
CN202211630607.9A 2022-12-19 2022-12-19 一种基于多模态协同表示学习的实体对齐方法 Pending CN116341655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211630607.9A CN116341655A (zh) 2022-12-19 2022-12-19 一种基于多模态协同表示学习的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211630607.9A CN116341655A (zh) 2022-12-19 2022-12-19 一种基于多模态协同表示学习的实体对齐方法

Publications (1)

Publication Number Publication Date
CN116341655A true CN116341655A (zh) 2023-06-27

Family

ID=86881024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211630607.9A Pending CN116341655A (zh) 2022-12-19 2022-12-19 一种基于多模态协同表示学习的实体对齐方法

Country Status (1)

Country Link
CN (1) CN116341655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407689A (zh) * 2023-12-14 2024-01-16 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407689A (zh) * 2023-12-14 2024-01-16 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置
CN117407689B (zh) * 2023-12-14 2024-04-19 之江实验室 一种面向实体对齐的主动学习方法、装置和电子装置

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN104915340B (zh) 自然语言问答方法及装置
CN108763376B (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109033129B (zh) 基于自适应权重的多源信息融合知识图谱表示学习方法
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN106844518B (zh) 一种基于子空间学习的不完整跨模态检索方法
CN108681557A (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN110110116B (zh) 一种整合深度卷积网络和语义分析的商标图像检索方法
CN113111657B (zh) 一种跨语言知识图谱对齐与融合方法、装置及存储介质
CN112347761B (zh) 基于bert的药物关系抽取方法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
CN116341655A (zh) 一种基于多模态协同表示学习的实体对齐方法
Sun et al. GEDIT: geographic-enhanced and dependency-guided tagging for joint POI and accessibility extraction at baidu maps
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN113902764A (zh) 基于语义的图像-文本的跨模态检索方法
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
CN117150069A (zh) 基于全局与局部语义对比学习的跨模态检索方法及系统
CN115860119A (zh) 基于动态元学习的少样本知识图谱补全方法和系统
Wei Recommended methods for teaching resources in public English MOOC based on data chunking
CN107491814B (zh) 一种用于知识推送的过程案例分层知识模型构建方法
CN112784018A (zh) 一种用于人物实体库的文本相似度实体消歧方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination