CN115186110A - 基于关系增强负采样的多模态知识图谱补全方法与系统 - Google Patents

基于关系增强负采样的多模态知识图谱补全方法与系统 Download PDF

Info

Publication number
CN115186110A
CN115186110A CN202211093805.6A CN202211093805A CN115186110A CN 115186110 A CN115186110 A CN 115186110A CN 202211093805 A CN202211093805 A CN 202211093805A CN 115186110 A CN115186110 A CN 115186110A
Authority
CN
China
Prior art keywords
knowledge
samples
sample
negative
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211093805.6A
Other languages
English (en)
Other versions
CN115186110B (zh
Inventor
徐童
陈恩红
许德容
吴世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Publication of CN115186110A publication Critical patent/CN115186110A/zh
Application granted granted Critical
Publication of CN115186110B publication Critical patent/CN115186110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于关系增强负采样的多模态知识图谱补全方法与系统,提出了一种新的知识指导跨模态注意力机制,该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重,并通过相互力注意对关系无关特征进行总结,进而通过嵌入关系指导特征对多模态注意进行双向推理,同时,引入对比损失来训练对比语义采样器,从而得到更合适的采样分布。并且,将masked操作与gumbel‑softmax相结合,以确保有效的梯度反向传播。通过本发明公开的方案,可以采样出多模态知识图谱补全任务所需的高质量负样本,从而有效保障多模态知识图谱的应用质量。

Description

基于关系增强负采样的多模态知识图谱补全方法与系统
技术领域
本发明涉及多模态知识图谱技术领域,尤其涉及一种基于关系增强负采样的多模态知识图谱补全方法与系统。
背景技术
近年来,多模态知识图谱蓬勃发展,它通过补充多模态数据(如视觉和音频属性)来扩展传统知识图谱(KG),为传统知识图谱的符号提供物理世界意义。各种下游应用,例如多模态命名体识别、视觉问答和推荐系统等都有一些相关研究。然而,由于多模态语料库的累积不足,现有的多模态知识图谱可能会比传统知识图谱遭受更严重的不完整性,这会严重影响其可用性和有效性。在这种情况下,以自动推断缺失事实为目标的多模态场景知识图补全(KGC)解决方案引起了广泛关注。与此同时,以前的KGC方法主要尝试通过均匀采样来构造负样本,在训练的后期会遇到消失梯度问题。因此,迫切需要针对多模态知识图谱专门设计的负采样策略。
目前为止,已有少许相关的技术方案与研究成果,部分代表性的公开技术方法涉及以下三种类型:
一、传统的知识图谱补全方法。
传统的知识图谱补全方法最具有代表性的是基于翻译的模型,最早的TransE模型假设实体和关系的向量满足“头实体+关系=尾实体”,据此来学习每个实体和关系的向量表示。后续在翻译模型上的方法,如TransD模型,TransH模型和TransR模型则是对TransE模型的优化和改进,进一步考虑到了不同关系的一对多、多对一的特性。另一种技术是基于语义匹配的方法,包括RESCAL(一种双线性模型),DistMult(一种简化的双线性模型),ComplEx(Distmul的改进模型)等等。然而这些方法只注重于构建一个更好的评分函数,而忽略了负采样策略的重要性。
二、针对知识图谱补全的负采样策略.
近年来,一些有效的抽样策略被提出来。例如,TransH模型定义了一个伯努利分布来代替头部或尾部以考虑复杂的关系,如1对多关系等,但它仍然是一个固定的抽样分布,因此缺乏灵活性。此外,IGAN模型和KBGAN模型都引入了生成对抗网络(GAN),以获得高质量的负样本,其中生成器接收正三元组作为输入并生成负采样分布,而鉴别器从生成器接收负三元组以产生回报,并通过策略梯度优化生成器。然而,这种基于GAN的方法更难训练,而且鉴别器产生的回报在训练过程中总是会发生变化,导致性能不稳定。为了解决这些问题,NScaching模型提出了一种高效的采样方案,使用额外的内存来缓存得分较大的负样本,并按权重对负三元组进行采样。此外,RotatE模型提出了一种自我对抗的负抽样,它使用每个负样本的得分函数来产生概率,作为相应负样本的损失权重。SAN考虑在KG中使用结构知识,并认为彼此邻域内的实体更有可能相互关联,因此使用仅限于实体k-hop邻域(k-邻)的实体子集作为困难样本。
总的来说,前面的方法已经证明了它们的有效性。核心点是利用KG的结构知识或利用负样本分数的信息来判断困难样本。然而,它们仍然存在两个问题:1)由于KG的不完全性,用结构知识训练的模型只能提供有限的得分信息;2)需要一种更有效的参数优化策略以利用KGC模型的负样本loss(损失)。尽管这些技术在传统知识图谱上取得了不错的性能,但它们还无法应用于多模态知识图谱。
三、多模态知识图谱。
近年来,与多模态知识图谱相关的任务越来越多。例如,IKRL模型和RSME模型试图将图像与结构化知识结合起来进行知识嵌入学习。此外,TransAE模型,以及MoussellySergieh等人提出的模型均将TransE扩展到多模态评分函数以整合视觉和文本信息。KBLRN模型还从潜在的、关系的和数字的特征中学习了知识库的表示。尽管它们都具有不错的性能,但仍然缺乏专门设计的针对多模态知识图谱补全的负采样策略,这会导致在训练后期梯度消失的问题。
发明内容
本发明的目的是提供一种基于关系增强负采样的多模态知识图谱补全方法与系统,可以采样出多模态知识图谱补全任务所需的高质量负样本,从而有效保障多模态知识图谱的应用质量。
本发明的目的是通过以下技术方案实现的:
一种基于关系增强负采样的多模态知识图谱补全方法,包括:
构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;
训练阶段:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel-softmax表示耿贝尔softmax;
测试阶段,利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
一种基于关系增强负采样的多模态知识图谱补全系统,包括:
模型构建单元,用于构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;
训练单元,应用于训练阶段;所述训练阶段包括:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel-softmax表示耿贝尔softmax;
测试单元,应用于测试阶段;所述测试阶段包括:利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,提出了一种新的知识指导跨模态注意力机制,该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重,并通过相互力注意力对关系无关特征进行总结,进而通过嵌入关系指导特征对多模态注意进行双向推理,同时,引入对比损失来训练对比语义采样器,从而得到更合适的采样分布。并且,将masked操作与gumbel-softmax相结合,以确保有效的梯度反向传播。通过本发明公开的方案,可以采样出多模态知识图谱补全任务所需的高质量负样本,从而有效保障多模态知识图谱的应用质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于关系增强负采样的多模态知识图谱补全方法的流程图;
图2为本发明实施例提供的多模态知识图谱中的不同关系对应的负样本的示意图;
图3为本发明实施例提供的一种多模态关系增强的负采样模型的示意图;
图4为本发明实施例提供的知识指导跨模态注意力机制的原理图;
图5为本发明实施例提供的一种基于关系增强负采样的多模态知识图谱补全系统的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的基于关系增强负采样的多模态知识图谱补全方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种基于关系增强负采样的多模态知识图谱补全方法,如图1所示,主要包括:
步骤1、构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元。
步骤2、训练阶段。
对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本。
需要说明的是,知识图谱是目前已有的数据结构,是人类对于世界知识的表达和存储的一种方式,其中的实体(包含头尾实体)、实体之间的关系,以及头尾实体及关系构成的三元组均为本领域通用术语。实体可以表示自然界中任何一类客观存在的对象或任何一种约定俗成的概念,关系则用于描述不同对象之间的相互作用、依赖关系。
本发明实施例中,对于每一正样本都可以通过知识图谱补全模型采样出多个负样本,具体数目可以由用户进行设定(例如,20个)。考虑到,知识图谱补全模型采样负样本的流程可通过常规技术实现,因此,不做赘述。本发明实施例中,正负样本都通过对比语义采样器计算出相应尾实体的结构特征、知识指导的视觉表征与知识指导的文本表征。正负样本中的头实体与关系是相同的,仅有尾实体不同,此外,正样本是指头尾实体及其关系正确,反之头尾实体及其关系不正确则为负样本,示例性的:(手机,用途,打电话),(手机,用途,发短信)均为正样本,(手机,用途,做饭)为负样本。
步骤3、测试阶段,利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
具体的,将给定的正样本中的尾实体替换成知识图谱实体集合中其它所有实体得到的所有样本,所有样本均输入至训练后的知识图谱补全模型,由知识图谱补全模型对每一样本进行评分,获得每一样本的得分,并选出得分最高的若干样本作为困难负样本,选出的具体数目可以由用户根据实际情况或者经验进行设定。
根据选出的样本结果,可以对训练后的知识图谱补全模型的性能进行评估,性能指标可以选择MRR(Mean Reciprocal Rank,平均倒数排名)指标或者其他现有指标,评估过程可参照常规技术,本发明不做赘述。
本发明实施例提供的上述方案主要包括两个核心部分:
(1)提出了一种新的知识指导跨模态注意力机制(KCA),该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重。具体来说,设计了两个部分,其中一部分通过相互注意力对关系无关特征进行总结,另一部分通过嵌入关系指导特征(例如,歌手、音乐和相关视觉因素)对多模态注意进行双向推理。此外,考虑到KG中广泛存在的一对多关系,例如,关系‘获奖’可能会将某奖项和相当多的著名歌手联系起来作为该奖项的获奖者,这自然会在KG中产生一些正三元组,即两个相似的实体可能都是正样本。这一现象促使学习正样本之间更相似的语义特征表示,以及1对多关系下正负样本之间差异更大的语义特征表示。因此,基于知识指导跨模态注意力机制,进一步引入对比损失来训练对比语义采样器,其目的是学习正样本和负样本之间的多模态语义相似/差异表示,以得到更合适的采样分布。
(2)设计了一个多模态关系增强的负采样(MMRNS)模型,通过联合利用多模态数据和复杂的知识图谱关系来增强实体的语义表示,从而计算出困难负样本(模型难以学习的样本)。具体来说,通过对比语义采样器增强知识指导跨模态注意力机制,可以学习正样本之间更相似的语义特征表示,以及不同关系下困难样本之间更差异化的语义特征表示。与此同时,考虑到不可微采样过程可能导致难以通过优化KGC模型(知识图谱补全模型)来端到端地更新采样网络参数,进一步引入maskedgumbel-softmax技术,以实现负采样模型的可微分。具体而言,在gumbel-softmax的基础上集成了masked操作,以确保前向传播的采样过程中过滤掉某些样本,反向传播过程中可以返回梯度。此外,引入随迭代次数变化的因子,动态处理早期和后期训练阶段的探索-开发的权衡。
本领域技术人员可以理解,gumbel-softmax为专有名称,它是一种重参数化技巧,可以称为耿贝尔softmax。
本领域技术人员可以理解,困难负样本为专有名称,属于模型难以学习的样本,困难负样本为与正样本具有相似属性和语义信息的负样本。
为了便于理解,下面针对本发明上述方案做详细的介绍。
一、负采样问题定义。
如图2所示,为多模态知识图谱中的不同关系对应的负样本案例。经研究发现,当联合学习多模态属性时,知识图谱中的关系可能起到重要作用,因为它们可以作为额外的上下文指导多模态之间互补语义的学习。通过图2所示的示例可以说明知识图谱中关系的影响。通常,具有相似属性和语义信息的负样本与正样本更可能是困难负样本。因此,在为实体“女歌手”(具体为一个女歌手的人名)选择困难负样本时,考虑到女性和歌手的属性,应该尝试突出在视觉和文本信息中反映这些属性的特征。然而,不同的属性应该通过考虑不同的关系来强调。例如,关于“获奖”的关系,希望注重与歌手和音乐相关的多模态属性,比如在音乐会上弹吉他的歌手(无论男女)。相应地,对于关系“女朋友”来说,具有女性属性的例子可能是更好的选择。在这种情况下,需要一个更全面的解决方案,以学习与知识图谱关系紧密耦合的多模态属性特征。
给定一个知识图谱
Figure 226788DEST_PATH_IMAGE001
,其中,
Figure 143928DEST_PATH_IMAGE002
表示实体集合,
Figure 110616DEST_PATH_IMAGE003
表示关系集合。
Figure 505825DEST_PATH_IMAGE004
表示一个三元组(一个样本),头实体
Figure 320198DEST_PATH_IMAGE005
和尾部实体
Figure 142660DEST_PATH_IMAGE006
通过一个有向的关系
Figure 347376DEST_PATH_IMAGE007
连接。KGC任务可以建模为一个排序问题,即给定一个正三元组
Figure 546277DEST_PATH_IMAGE008
和多个负三元组
Figure 215155DEST_PATH_IMAGE009
,KGC模型通过有效的评分函数来提高正三元组的分数,降低负三元组的分数。而本发明的负采样策略的目标是利用三元组和相应的多模态数据来最大化困难负样本的采样概率,困难负样本在语义上与正三元组的实体具有高的相似度。
二、特征预处理。
本发明实施例中,对比语义采样器中使用预训练模型从样本的图像与文本对中分别提取出视觉特征与文本特征。
如图3所示,为多模态关系增强的负采样模型的示意图,提供了两种预训练模型的示例。其中,通过BEiT模型提取初步的视觉特征,BEiT模型是一种用来学习语义区域和对象边界的预训练模型,将平均池化应用于视觉特征,以降低计算复杂度。通过SBERT模型提取了初步的文本特征,SBERT模型是一个对语义-文本相似性任务有显著的改进的预训练模型,由于不同长度单词的文本特征长度是不同的,因此还使用切割和填充来得到相同维数的文本特征。
由于尾实体t和关系r一样是结构知识表示,只需将它们拼接并输入到一个全连接网络中,以集成关系信息,获得结构特征:
Figure 896935DEST_PATH_IMAGE010
其中,
Figure 651264DEST_PATH_IMAGE011
表示结构特征,concat表示拼接操作,
Figure 388276DEST_PATH_IMAGE012
表示激活函数;本发明实施例中,所有Wb都分别表示可训练的权重和偏置参数,具体的,此处的
Figure 911661DEST_PATH_IMAGE013
Figure 279189DEST_PATH_IMAGE014
表示上一公式中所涉及的全连接网络的权重和偏置参数。
图3中,Pos表示正样本,Neg表示负样本,e i 表示尾实体的视觉特征,e t 表示尾实体的文本特征。
三、知识指导跨模态注意力机制(KCA)。
本发明实施例提出的知识指导跨模态注意力机制,通过整合复杂关系来学习跨模态双向注意力权重(涵盖了四个分支部分,具体在后文进行介绍)。
具体来说,知识指导跨模态注意力机制首先尝试捕捉不同模态之间的交互,即视觉特征和文本特征的交互,其目的是同时突出跨模态数据之间的相同语义特征,以学习关系无关的特征。本发明实施例中,定义关系无关的特征为在不同关系下对识别困难样本都很重要的特征。例如,在图2中,无论关系是什么,女歌手的负样本预计是一个与人相关的实体,其中包含更多与人体或面部相关的属性,而不是其他不相关的实体,如位置、区域等信息。
同时,知识指导跨模态注意力机制在捕捉多模态交互后进一步整合关系信息,以指导模型应该突出哪些多模态语义特征。例如,当关系是“获奖”时,KCA旨在增强歌手和音乐等属性的跨模态注意力权重。当关系是“女朋友”时,KCA旨在增强女性相关属性的跨模态注意力权重。值得注意的是,关系作为一种分类数据,包含粗粒度标签信息,通常与图像和文本没有语义相似性或相关性。因此,在引入关系指导时,首先对文本和视觉特征的交互进行建模,然后引入关系嵌入来分别指导图像和文本的跨模态注意权重,主要流程包括:
(1)对文本特征和视觉特征的交互进行建模,获得跨模态矩阵。具体的:将文本特征和视觉特征分别输入至全连接网络,进行处理非线性映射和维度统一;将全连接网络针对文本特征的输出进行转置后与全连接网络针对视觉特征的输出相乘,获得跨模态矩阵。
(2)跨模态矩阵输入至四个支路:第一支路中利用跨模态矩阵生成视觉特征的第一注意力权重,结合视觉特征的第一注意力权重与视觉特征生成关系无关的视觉表征,第二支路中使用知识图谱中的关系指导跨模态矩阵生成视觉特征的第二注意力权重,结合视觉特征的第二注意力权重与视觉特征生成关系指导的视觉表征,结合第一支路与第二支路生成的视觉表征,获得知识指导的视觉表征;第三支路中使用知识图谱中的关系指导跨模态矩阵生成文本特征的第一注意力权重,结合文本特征的第一注意力权重与文本特征生成关系指导的文本表征,第四支路中利用跨模态矩阵生成文本特征的第二注意力权重,结合文本特征的第二注意力权重与文本特征生成关系无关的文本表征,结合第三支路与第四支路生成的文本表征,获得知识指导的文本表征。
具体的:在第一支路与第二支路中,输入的是转置后的跨模态矩阵;第一支路中,转置后的跨模态矩阵通过softmax函数生成视觉特征的第一注意力权重,第二支路中,将知识图谱中的关系与转置后的跨模态矩阵逐元素相乘生成视觉特征的第二注意力权重;第三支路中,将知识图谱中的关系与跨模态矩阵逐元素相乘生成文本特征的第一注意力权重;第四支路中,跨模态矩阵通过softmax函数生成文本特征的第二注意力权重;其中,应用于第二支路与四支路的知识图谱中的关系是通过两个全连接网络针对同一个关系进行处理,获得的两个不同的关系表征。
图4展示了上述知识指导跨模态注意力机制的主要原理,下面结合图4提供以上(1)~(2)两个流程中所涉及的计算过程。
如图4左侧部分,视觉特征与文本特征分别输入至全连接网络(FC),用于非线性映射和维度统一,表示为:
Figure 520814DEST_PATH_IMAGE015
Figure 795938DEST_PATH_IMAGE016
其中,d i 为特征数目,d t 为单词数目,d att 为特征向量的长度,R为实数集符号;R(.)表示激活函数LeakyRELU,
Figure 439408DEST_PATH_IMAGE017
Figure 961526DEST_PATH_IMAGE018
分别表示视觉特征与文本特征,
Figure 690447DEST_PATH_IMAGE019
Figure 769262DEST_PATH_IMAGE020
分别表示全连接网络输出的视觉特征与文本特征;
Figure 267239DEST_PATH_IMAGE021
Figure 976569DEST_PATH_IMAGE022
表示处理视觉特征的全连接网络中的权重与偏置参数,
Figure 927208DEST_PATH_IMAGE023
Figure 809713DEST_PATH_IMAGE024
表示处理文本特征的全连接网络中的权重与偏置参数。
跨模态矩阵M通过下面公式计算可得:
Figure 162197DEST_PATH_IMAGE025
其中,T为转置符号。
跨模态矩阵M旨在捕捉并突出图像和文本中相同的语义特征,输入至分为四个分支。
在分支①中,利用softmax函数规范化跨模态矩阵M以生成受文本每个句子指导的视觉区域的注意力权重(视觉特征的第一注意力权重),再乘以全连接网络输出的视觉特征
Figure 790231DEST_PATH_IMAGE019
以生成关系无关的视觉表征
Figure 228165DEST_PATH_IMAGE026
,视觉表征
Figure 648782DEST_PATH_IMAGE026
包含的信息对于任何关系类型都是通用的,相关计算过程表示为:
Figure 121352DEST_PATH_IMAGE027
其中,参数dim表示维度索引。
在分支②中,旨在进一步将关系嵌入与跨模态指导语义信息相结合。分支②与分支①的区别在于,分支②使用了知识图谱中的关系来引导标准化的注意力权重。在这种情况下,注意力权重与全连接网络输出的视觉特征
Figure 172485DEST_PATH_IMAGE019
相乘,以生成有关系指导的视觉表征
Figure 97715DEST_PATH_IMAGE028
Figure 322023DEST_PATH_IMAGE029
其中,
Figure 383520DEST_PATH_IMAGE030
为利用知识图谱中的关系计算出的关系表征,如图4中间虚线部分所示,利用知识图谱中的关系r被输入至上下两个全连接网络,计算出两个关系表征分别应用于分支②与分支③,计算方式如下:
Figure 854822DEST_PATH_IMAGE031
Figure 267349DEST_PATH_IMAGE032
其中,
Figure 295347DEST_PATH_IMAGE012
表示激活函数;
Figure 414613DEST_PATH_IMAGE033
Figure 604286DEST_PATH_IMAGE034
表示上方全连接网络的权重与偏置参数,上方全连接网络输出的关系表征应用于分支②;
Figure 504109DEST_PATH_IMAGE035
Figure 70220DEST_PATH_IMAGE036
表示下方全连接网络的权重与偏置参数,下方全连接网络输出的关系表征应用于分支③。
分支③与分支②类似,跨模态矩阵M与相应的关系表征
Figure 60303DEST_PATH_IMAGE037
逐元素相乘,再与全连接网络输出的文本特征
Figure 420878DEST_PATH_IMAGE038
相乘生成关系指导的文本表征,表示为:
Figure 807997DEST_PATH_IMAGE039
分支④与分支①类似,跨模态矩阵M经过softmax函数,得到文本特征的第二注意力权重,再与全连接网络输出的文本特征
Figure 115481DEST_PATH_IMAGE040
相乘以生成关系无关的文本表征
Figure 193027DEST_PATH_IMAGE041
分支①与分支②获得的表征
Figure 990082DEST_PATH_IMAGE042
Figure 598918DEST_PATH_IMAGE043
送入至一个层规范化来统一分布,然后求和以获得知识指导的视觉表征
Figure 710093DEST_PATH_IMAGE044
,分支③与分支④获得的表征
Figure 720775DEST_PATH_IMAGE045
Figure 688731DEST_PATH_IMAGE046
送入至一个层规范化来统一分布,然后求和以获得知识指导的文本表征
Figure 784863DEST_PATH_IMAGE047
,表示为:
Figure 181953DEST_PATH_IMAGE048
Figure 47141DEST_PATH_IMAGE049
其中,
Figure 123681DEST_PATH_IMAGE050
表示层规范化操作。
对于每一正负样本中的尾实体都通过上述方式进行处理,获得对应的知识指导的视觉表征以及获得知识指导的文本表征。
四、对比损失函数。
本发明实施例中计算的对比损失函数是以相似度作为输入,因此,先介绍相似度的计算方式,本发明主要涉及三类相似度:知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度,三类相似度都是有预先相似性来衡量,区别主要在于衡量的对象不同。
本发明实施例中,所有样本的视觉特征与文本特征都通过前文介绍的知识指导跨模态注意力机制进行处理(所有样本均共享图4所示知识指导跨模态注意力机制中的所有参数),获得相应的知识指导的视觉表征与知识指导的文本表征,结构特征也通过前文介绍的方式计算。
相似度
Figure 707109DEST_PATH_IMAGE051
计算公式表示为:
Figure 143775DEST_PATH_IMAGE052
其中,
Figure 129049DEST_PATH_IMAGE053
为一个设定值,
Figure 438808DEST_PATH_IMAGE054
Figure 509532DEST_PATH_IMAGE055
表示两个样本(当前正样本与其他样本)中尾实体的知识指导的视觉表征、知识指导的文本表征或者结构特征(都通过前面介绍的方式计算),即带入不同类别的
Figure 500622DEST_PATH_IMAGE054
Figure 340402DEST_PATH_IMAGE055
获得不同类别的相似度,令
Figure 821061DEST_PATH_IMAGE056
Figure 801918DEST_PATH_IMAGE057
为知识指导的视觉表征之间的相似度,
Figure 659016DEST_PATH_IMAGE058
为知识指导的文本表征之间的相似度,
Figure 353302DEST_PATH_IMAGE059
为结构特征之间的相似度。
基于计算出的三类相似度,构建对比损失函数,用以缩小正样本之间的差距,扩大正样本和负样本之间的差距,并且,集成了一种自我对抗技术,以进一步提高模型性能。
所述对比损失函数表示为:
Figure 4863DEST_PATH_IMAGE060
其中,
Figure 987863DEST_PATH_IMAGE061
表示对比损失函数,
Figure 383072DEST_PATH_IMAGE062
表示视觉表征相似度的对比损失函数,
Figure 931865DEST_PATH_IMAGE063
表示文本表征相似度的对比损失函数,
Figure 19907DEST_PATH_IMAGE064
表示结构表征相似度的对比损失函数。
令相似度的对比损失函数
Figure 473891DEST_PATH_IMAGE065
,计算公式表示为:
Figure 672791DEST_PATH_IMAGE066
其中,P是正样本集合,N是负样本集合;
Figure 76091DEST_PATH_IMAGE051
表示相似度,当
Figure 335034DEST_PATH_IMAGE067
时,
Figure 27046DEST_PATH_IMAGE068
表示知识指导的视觉表征之间的相似度,z表示当前正样本尾实体的知识指导的视觉表征,
Figure 764058DEST_PATH_IMAGE069
表示正样本j尾实体的知识指导的视觉表征,
Figure 287443DEST_PATH_IMAGE070
表示负样本n尾实体的知识指导的视觉表征;当
Figure 717287DEST_PATH_IMAGE071
时,
Figure 378820DEST_PATH_IMAGE072
表示知识指导的文本表征之间的相似度,z表示当前正样本尾实体的知识指导的文本表征,
Figure 919522DEST_PATH_IMAGE069
表示正样本j尾实体的知识指导的文本表征,
Figure 562993DEST_PATH_IMAGE070
表示负样本n尾实体的知识指导的文本表征;当
Figure 898160DEST_PATH_IMAGE073
时,
Figure 564764DEST_PATH_IMAGE074
表示结构特征之间的相似度,z表示当前正样本尾实体的结构特征,
Figure 643579DEST_PATH_IMAGE069
表示正样本j尾实体的结构特征,
Figure 141556DEST_PATH_IMAGE070
表示负样本n尾实体的结构特征;、
Figure 647624DEST_PATH_IMAGE075
Figure 50792DEST_PATH_IMAGE076
分别表示正样本j与负样本n的权重。
样本的权重通过如下公式计算:
Figure 933298DEST_PATH_IMAGE077
其中,S表示采样的负样本集合,它属于负样本集合N的子集,
Figure 285782DEST_PATH_IMAGE078
Figure 228330DEST_PATH_IMAGE079
表示均表示采样的负样本集合中的样本,il表示相应样本的序号;KGC(.)表示多模态场景知识图谱补全模型输出样本的得分;
Figure 603947DEST_PATH_IMAGE080
表示样本i的权重,
Figure 24565DEST_PATH_IMAGE081
是采样温度,
Figure 497134DEST_PATH_IMAGE082
表示知识图谱中实体数目。
五、masked Gumbel-Softmax重参数化技巧。
本发明实施例中,masked Gumbel-Softmax是指集成有masked操作的Gumbel-Softmax重参数化技巧。
此部分主要解释如何使用本发明提供的可微采样方法,即:将masked操作与Gumbel-Softmax相结合,以确保有效的梯度反向传播。masked操作旨在克服将Gumbel-Softmax引入KG采样过程的问题。
1、Gumbel-Softmax。
由于分类分布的采样过程独立于优化过程,KGC模型的梯度不能反向传播到采样网络。因此,对比语义采样器的可训练参数不能与KGC模型的训练阶段以端到端的方式进行优化。为了实现梯度反向传播,引入了gumbel-softmax重参数化技巧,它通过使用softmax函数作为argmax的可微近似,产生了一个连续分布,可以从离散概率分布中逼近样本p的概率分布:
Figure 345004DEST_PATH_IMAGE083
,其中,向量
Figure 270235DEST_PATH_IMAGE084
中的每个元素都服从标准的Gumbel(耿贝尔)分布,
Figure 182959DEST_PATH_IMAGE085
为一个伸缩因子,用于调整softmax的尺度。
2、masked向量。
考虑到图像、文本和结构中正样本和负样本的语义相似性,利用softmax将相似性转化为抽样概率,分别计算概率分布再求平均:
Figure 510035DEST_PATH_IMAGE086
其中,sim i sim t sim s 分别表示知识指导的视觉表征之间的相似度、知识指导的文本表征之间的相似度、结构特征之间的相似度;
Figure 794386DEST_PATH_IMAGE087
为平衡因子。
然而p不是最终的抽样概率分布。由于1对多关系在知识图谱中十分常见,因此并非所有实体都可以被视为负样本。大多数方法都会过滤掉非训练样本的正样本。实现这一点的办法是设置采样概率分布p中正样本的位置为零。但这将使gumbel-softmax不可微,这与本发明目的相矛盾。因此,本发明引入masked向量(长度等于实体数目
Figure 206912DEST_PATH_IMAGE082
),masked向量中负样本尾实体位置的值被设置为1.0,正样本尾实体位置的值被设置为趋近于零的数值;将概率分布p逐元素乘以masked向量,并将log函数中的乘法替换为加法,masked Gumbel-Softmax的计算公式如下:
Figure 907015DEST_PATH_IMAGE088
其中,向量
Figure 88598DEST_PATH_IMAGE084
中的每一个元素都服从Gumbel分布,
Figure 543850DEST_PATH_IMAGE089
表示单个负样本的采样分布。
根据计算出的负样本的采样分布采样出相应的负样本,将采样出的负样本与所有正样本输入至KGC模型,可以计算出KGC模型的损失
Figure 443673DEST_PATH_IMAGE090
,此部分计算过程可参照常规技术,KGC模型可根据需要选择目前已有的模型,例如,TransE模型或者DistMult模型等,此部分与常规技术的主要区别是:常规技术使用的负样本是随机得到的,而本发明是通过计算采样分布采样出的。
六、总的训练损失。
本发明实施例中,结合前述第四~第五两个部分计算出的损失,构造总的训练损失L,表示为:
Figure 196734DEST_PATH_IMAGE091
其中,
Figure 232823DEST_PATH_IMAGE092
为设定的权重系数。
通过上述损失函数训练多模态关系增强的负采样模型与KGC模型,直至收敛。
本发明实施例中,所述多模态关系增强的负采样模型可以理解为一种辅助工具,用于KGC模型的辅助训练,训练完毕后,直接使用KGC模型对构造的所有样本进行评分,根据得分大小选出困难负样本。
实施例二
本发明还提供一种基于关系增强负采样的多模态知识图谱补全系统,其主要基于前述实施例提供的方法实现,如图5所示,该系统主要包括:
模型构建单元,用于构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;
训练单元,应用于训练阶段;所述训练阶段包括:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel-softmax表示耿贝尔softmax;
测试单元,应用于测试阶段;所述测试阶段包括:利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,包括:
构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;
训练阶段:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel-softmax表示耿贝尔softmax;
测试阶段,利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
2.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述利用尾实体与关系的结构知识获得样本尾实体的结构特征包括:
将尾实体t和关系r拼接后,输入至全连接网络,再结合尾实体t获得结构特征,表示为:
Figure 524992DEST_PATH_IMAGE001
其中,
Figure 912111DEST_PATH_IMAGE002
表示结构特征,concat表示拼接操作,
Figure 16333DEST_PATH_IMAGE003
表示激活函数,
Figure 110191DEST_PATH_IMAGE004
Figure 907246DEST_PATH_IMAGE005
表示全连接网络的权重和偏置参数。
3.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征包括:
对文本特征和视觉特征的交互进行建模,获得跨模态矩阵;
跨模态矩阵输入至四个支路:第一支路中利用跨模态矩阵生成视觉特征的第一注意力权重,结合视觉特征的第一注意力权重与视觉特征生成关系无关的视觉表征,第二支路中使用知识图谱中的关系指导跨模态矩阵生成视觉特征的第二注意力权重,结合视觉特征的第二注意力权重与视觉特征生成关系指导的视觉表征,结合第一支路与第二支路生成的视觉表征,获得知识指导的视觉表征;第三支路中使用知识图谱中的关系指导跨模态矩阵生成文本特征的第一注意力权重,结合文本特征的第一注意力权重与文本特征生成关系指导的文本表征,第四支路中利用跨模态矩阵生成文本特征的第二注意力权重,结合文本特征的第二注意力权重与文本特征生成关系无关的文本表征,结合第三支路与第四支路生成的文本表征,获得知识指导的文本表征。
4.根据权利要求3所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,
在第一支路与第二支路中,输入的是转置后的跨模态矩阵;第一支路中,转置后的跨模态矩阵通过softmax函数生成视觉特征的第一注意力权重,第二支路中,将知识图谱中的关系与转置后的跨模态矩阵逐元素相乘生成视觉特征的第二注意力权重;
第三支路中,将知识图谱中的关系与跨模态矩阵逐元素相乘生成文本特征的第一注意力权重;第四支路中,跨模态矩阵通过softmax函数生成文本特征的第二注意力权重;
其中,应用于第二支路与四支路的知识图谱中的关系是通过两个全连接网络针对同一个关系进行处理,获得的两个不同的关系表征。
5.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述对比损失函数表示为:
Figure 516082DEST_PATH_IMAGE006
其中,
Figure 689574DEST_PATH_IMAGE007
表示对比损失函数,
Figure 385741DEST_PATH_IMAGE008
表示视觉表征相似度的对比损失函数,
Figure 353697DEST_PATH_IMAGE009
表示文本表征相似度的对比损失函数,
Figure 449829DEST_PATH_IMAGE010
表示结构表征相似度的对比损失函数;
令相似度的对比损失函数
Figure 895854DEST_PATH_IMAGE011
,计算公式表示为:
Figure 964304DEST_PATH_IMAGE012
其中,P是正样本集合,N是负样本集合;
Figure 103162DEST_PATH_IMAGE013
表示相似度,当
Figure 686590DEST_PATH_IMAGE014
时,
Figure 936306DEST_PATH_IMAGE013
表示知识指导的视觉表征之间的相似度,z表示当前正样本尾实体的知识指导的视觉表征,
Figure 108530DEST_PATH_IMAGE015
表示正样本j尾实体的知识指导的视觉表征,
Figure 418288DEST_PATH_IMAGE016
表示负样本n尾实体的知识指导的视觉表征;当
Figure 489013DEST_PATH_IMAGE017
时,
Figure 542419DEST_PATH_IMAGE013
表示知识指导的文本表征之间的相似度,z表示当前正样本尾实体的知识指导的文本表征,
Figure 319882DEST_PATH_IMAGE015
表示正样本j尾实体的知识指导的文本表征,
Figure 800542DEST_PATH_IMAGE016
表示负样本n尾实体的知识指导的文本表征;当
Figure 92983DEST_PATH_IMAGE018
时,
Figure 950081DEST_PATH_IMAGE013
表示结构特征之间的相似度,z表示当前正样本尾实体的结构特征,
Figure 332783DEST_PATH_IMAGE015
表示正样本j尾实体的结构特征,
Figure 984344DEST_PATH_IMAGE016
表示负样本n尾实体的结构特征;
Figure 29661DEST_PATH_IMAGE019
Figure 424870DEST_PATH_IMAGE020
分别表示正样本j与负样本n的权重。
6.根据权利要求1或5所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,样本权重的计算公式表示为:
Figure 911346DEST_PATH_IMAGE021
其中,S表示采样的负样本集合,
Figure 999388DEST_PATH_IMAGE022
Figure 266421DEST_PATH_IMAGE023
表示均表示采样的负样本集合中的样本,il表示相应样本的序号;KGC(.)表示多模态场景知识图谱补全模型输出样本的得分;
Figure 199742DEST_PATH_IMAGE024
表示样本i的权重,
Figure 55571DEST_PATH_IMAGE025
是采样温度,
Figure 314514DEST_PATH_IMAGE026
表示知识图谱中实体数目。
7.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布包括:
利用softmax函数将三类相似度转化为抽样概率,求取平均后计算概率分布:
Figure 803264DEST_PATH_IMAGE027
其中,sim i sim t sim s 分别表示知识指导的视觉表征之间的相似度、知识指导的文本表征之间的相似度、结构特征之间的相似度;
Figure 805856DEST_PATH_IMAGE028
为平衡因子;
引入masked向量,masked向量中负样本尾实体位置的值被设置为1.0,正样本尾实体位置的值被设置为趋近于零的数值;将概率分布
Figure 266924DEST_PATH_IMAGE029
逐元素乘以masked向量,并将log函数中的乘法替换为加法,最终每一负样本的采样分布通过下式计算得出:
Figure 431189DEST_PATH_IMAGE030
其中,向量
Figure 672814DEST_PATH_IMAGE031
中的每一个元素都服从耿贝尔分布,
Figure 213517DEST_PATH_IMAGE032
表示单个负样本的采样分布。
8.一种基于关系增强负采样的多模态知识图谱补全系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
模型构建单元,用于构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;
训练单元,应用于训练阶段;所述训练阶段包括:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel-softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel-softmax表示耿贝尔softmax;
测试单元,应用于测试阶段;所述测试阶段包括:利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202211093805.6A 2022-08-04 2022-09-08 基于关系增强负采样的多模态知识图谱补全方法与系统 Active CN115186110B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210930349X 2022-08-04
CN202210930349.XA CN115048538A (zh) 2022-08-04 2022-08-04 基于关系增强负采样的多模态知识图谱补全方法与系统

Publications (2)

Publication Number Publication Date
CN115186110A true CN115186110A (zh) 2022-10-14
CN115186110B CN115186110B (zh) 2022-12-30

Family

ID=83167548

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210930349.XA Pending CN115048538A (zh) 2022-08-04 2022-08-04 基于关系增强负采样的多模态知识图谱补全方法与系统
CN202211093805.6A Active CN115186110B (zh) 2022-08-04 2022-09-08 基于关系增强负采样的多模态知识图谱补全方法与系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210930349.XA Pending CN115048538A (zh) 2022-08-04 2022-08-04 基于关系增强负采样的多模态知识图谱补全方法与系统

Country Status (1)

Country Link
CN (2) CN115048538A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774788B (zh) * 2022-11-21 2024-04-23 电子科技大学 一种用于知识图谱嵌入模型的负采样方法
CN116361476B (zh) * 2022-11-21 2024-05-17 电子科技大学 一种基于插值法的知识图谱负样本合成方法
CN116127319B (zh) * 2023-01-16 2024-03-29 北京百度网讯科技有限公司 多模态负样本构建、模型预训练方法、装置、设备及介质
CN117271803B (zh) * 2023-11-20 2024-01-30 北京大学 知识图谱补全模型的训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法
CN111506714A (zh) * 2019-01-30 2020-08-07 百度(美国)有限责任公司 基于知识图嵌入的问题回答
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN114254117A (zh) * 2021-11-14 2022-03-29 北京工业大学 一种基于数据增强和自适应负采样技术的知识图谱推理方法
CN114564593A (zh) * 2022-02-21 2022-05-31 北京百度网讯科技有限公司 多模态知识图谱的补全方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918503A (zh) * 2019-01-29 2019-06-21 华南理工大学 基于动态窗口自注意力机制提取语义特征的槽填充方法
CN111506714A (zh) * 2019-01-30 2020-08-07 百度(美国)有限责任公司 基于知识图嵌入的问题回答
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN114254117A (zh) * 2021-11-14 2022-03-29 北京工业大学 一种基于数据增强和自适应负采样技术的知识图谱推理方法
CN114564593A (zh) * 2022-02-21 2022-05-31 北京百度网讯科技有限公司 多模态知识图谱的补全方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIYI CHEN ET AL.: "MMEA: Entity Alignment for Multi-modal Knowledge Graph", 《KSEM 2020: KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829058A (zh) * 2022-12-23 2023-03-21 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质

Also Published As

Publication number Publication date
CN115048538A (zh) 2022-09-13
CN115186110B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN114117075B (zh) 基于语义对齐及对称结构编码的知识图谱补全方法及装置
JP7247878B2 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN106383875B (zh) 基于人工智能的人机交互方法和装置
Kumar Machine Learning Quick Reference: Quick and essential machine learning hacks for training smart data models
CN114357127A (zh) 基于机器阅读理解及常用问题解答模型的智能问答方法
CN109086265A (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN109145085A (zh) 语义相似度的计算方法及系统
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN109710760A (zh) 短文本的聚类方法、装置、介质及电子设备
CN115601772A (zh) 一种基于多模态学习的美学质量评价模型和方法
CN111046655B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
Zhou et al. Test-time distribution normalization for contrastively learned visual-language models
CN110543551B (zh) 一种问题语句处理方法和装置
CN115510193B (zh) 查询结果向量化方法、查询结果确定方法及相关装置
Wang et al. Multimodal adaptive distillation for leveraging unimodal encoders for vision-language tasks
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN115391534A (zh) 文本情感原因识别方法、系统、设备及存储介质
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
Begy et al. Error-guided likelihood-free MCMC
Kusumaningrum et al. Long Short-Term Memory for Non-Factoid Answer Selection in Indonesian Question Answering System for Health Information
CN116882450B (zh) 问答模型的编辑方法、装置、电子设备和存储介质
CN116977892A (zh) 多媒体数据的优质度识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant