CN113407759A - 一种基于自适应特征融合的多模态实体对齐方法 - Google Patents

一种基于自适应特征融合的多模态实体对齐方法 Download PDF

Info

Publication number
CN113407759A
CN113407759A CN202110948340.7A CN202110948340A CN113407759A CN 113407759 A CN113407759 A CN 113407759A CN 202110948340 A CN202110948340 A CN 202110948340A CN 113407759 A CN113407759 A CN 113407759A
Authority
CN
China
Prior art keywords
entity
picture
visual
feature
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110948340.7A
Other languages
English (en)
Other versions
CN113407759B (zh
Inventor
赵翔
郭浩
唐九阳
曾维新
李欣奕
潘岩
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110948340.7A priority Critical patent/CN113407759B/zh
Publication of CN113407759A publication Critical patent/CN113407759A/zh
Application granted granted Critical
Publication of CN113407759B publication Critical patent/CN113407759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:获取两个多模态知识图谱的数据;在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;在视觉特征处理模块中,分别生成各自实体的视觉特征表示;通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐。本发明针对视觉信息利用差的问题,计算实体‑图片的相似度得分,过滤噪声图片,并基于相似度获得更准确的实体视觉特征表示;设计了自适应特征融合机制,以可变注意力融合实体的结构特征和视觉特征,充分利用多模态信息的互补性,提升了对齐效果。

Description

一种基于自适应特征融合的多模态实体对齐方法
技术领域
本发明涉及自然语言处理中的知识图谱技术领域,尤其涉及一种基于自适应特征融合的多模态实体对齐方法。
背景技术
近年来,知识图谱成为了结构化数据广泛使用的表示方式。它以三元组的形式来表示现实世界的知识或事件,并且广泛应用于各类人工智能的下游任务。当前,多模态知识图谱往往从有限的数据源构建而得,存在信息缺失、覆盖率低的问题,使得知识利用率不高。考虑到人工补全知识图谱开销大且效率低,为了提高知识图谱的覆盖程度,一种可行的方法是自动地整合来自其他知识图谱的有用知识。实体作为链接不同知识图谱的枢纽,对于整合各个多模态知识图谱而言至关重要。识别不同的多模态知识图谱中表达同一含义的实体的过程,称为多模态实体对齐。
多模态实体对齐需要利用和融合多个模态的信息。然而,现有的多模态实体对齐方法遇到两个瓶颈:第一,图谱结构差异性难以处理。不同知识图谱中对等的实体通常具有对等的邻居实体,基于这一假设,目前的主流实体对齐方法主要依赖知识图谱的结构信息。然而真实世界中,由于构建方式的不同,不同知识图谱可能存在着较大结构差异。针对此类问题,可基于链接预测生成三元组以丰富结构信息,虽然在一定程度上缓和了结构差异性的问题,但生成的三元组可靠性有待考量,并且对于三元组数量相差多倍的情况补全难度很大。第二,视觉信息利用差。当前自动化构建多模态知识图谱的方法通常基于现有知识图谱补全其他模态的信息。为获取视觉信息,这些方法主要是利用爬虫从互联网获取与实体的相关图片。然而获取的图片中不可避免地存在部分相关程度较低的图片,即噪声图片。当前方法无法判别实体相关图片中的噪声图片,使得实体的视觉信息中混有部分噪声,进而降低了视觉信息进行实体对齐的准确率。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于自适应特征融合的多模态实体对齐方法。所述方法针对目前多模态知识图谱视觉信息利用差的问题,利用预训练的图像-文本匹配模型,计算实体-图片的相似度得分,设置相似度阈值以过滤噪声图片,并基于相似度赋予图片不同权重,最终生成实体的视觉特征表示;此外,为捕获结构信息动态变化的置信度,充分利用不同模态信息的互补性,设计了自适应特征融合机制,基于实体的度以及实体与种子实体之间的距离,动态融合实体的结构信息和视觉信息,这种机制能够应对长尾实体数量占比大且结构信息相对匮乏的挑战。
本发明的技术方案如下,一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:
步骤1,获取两个多模态知识图谱的数据,
Figure 963647DEST_PATH_IMAGE001
以及
Figure 952332DEST_PATH_IMAGE002
,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合;
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
步骤4,所述的自适应特征融合模块,对于每个实体对
Figure 704387DEST_PATH_IMAGE003
Figure 641031DEST_PATH_IMAGE004
Figure 376906DEST_PATH_IMAGE005
计算
Figure 169281DEST_PATH_IMAGE006
Figure 651210DEST_PATH_IMAGE007
之间的相似度得分,利用该相似度得分来预测潜在的对齐实体,所述的相似度得分为:
Figure 378994DEST_PATH_IMAGE008
,
Figure 726799DEST_PATH_IMAGE009
Figure 932652DEST_PATH_IMAGE010
分别表示实体的结构特征表示和视觉特征表示的相似度,
Figure 33201DEST_PATH_IMAGE011
Figure 931887DEST_PATH_IMAGE012
分别代表结构特征表示和视觉特征表示的贡献率权重;
Figure 501409DEST_PATH_IMAGE013
,
Figure 510953DEST_PATH_IMAGE014
.
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
Figure 233052DEST_PATH_IMAGE015
,
其中,
Figure 161694DEST_PATH_IMAGE016
Figure 359457DEST_PATH_IMAGE017
分别表示距离种子实体1跳和2跳的数量;w1、w2为超参数。
具体地,在步骤3的视觉特征处理模块中包括,步骤301,采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;步骤302,设置相似度阈值过滤噪声图片;步骤303,基于图片与实体相似度赋予图片相应的权重,生成实体的视觉特征表示。
更进一步地,在步骤301中,使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分,采用预训练的共识感知视觉语义嵌入模型CVSE,CVSE模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入
Figure 15435DEST_PATH_IMAGE018
,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度,输入模型的实体文本信息ti通过将实体名拓展为句子:ti={A photo of EntityName.}得到;接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
Figure 982254DEST_PATH_IMAGE019
,
其中,CVSE的Softmax层被移除,模型输入为图片嵌入pi和文本信息ti,生成多张图片的相似度得分
Figure 81797DEST_PATH_IMAGE020
,n为实体对应图片集中图片的数量;
在步骤302中,设置相似度阈值α,以过滤噪声图片:
Figure 766857DEST_PATH_IMAGE021
,
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分;
在步骤303中,生成实体ei更精确的视觉特征表示Vi:
Figure 673950DEST_PATH_IMAGE023
,
其中,
Figure 85340DEST_PATH_IMAGE024
表示实体i的视觉特征;
Figure 366017DEST_PATH_IMAGE025
为Resnet模型生成的图像特征,n’为去除噪声后的图片数量,Atti表示图片注意力权重:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
具体地,步骤2所述的结构特征学习模块采用图卷积神经网络捕捉实体邻接结构信息并生成实体结构特征表示:
Figure 55942DEST_PATH_IMAGE026
,
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵;
Figure 372653DEST_PATH_IMAGE027
表示标准化的邻接矩阵,D为度矩阵,
Figure 376513DEST_PATH_IMAGE028
,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵;
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将不同知识图谱的实体结构向量映射到同一空间中,具体的训练目标为最小化下述损失值:
Figure 194296DEST_PATH_IMAGE029
,
其中,(x)+=max{0,x},
Figure 990214DEST_PATH_IMAGE030
代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,
Figure 845869DEST_PATH_IMAGE031
代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。
更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组,其中h代表头实体,t代表尾实体,r代表关系。
具体地,在所述的三元组筛选模块中,首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图,定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er),基于关系对偶图,使用PageRank算法计算关系得分:
Figure 727237DEST_PATH_IMAGE032
其中,PR(r)为关系的PageRank评分;Br表示关系r的邻居关系集合,关系
Figure 83132DEST_PATH_IMAGE033
,L(v)代表关系v的连接关系数量;
由此计算三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
与现有方法相比,本发明方法的优点在于:针对视觉信息利用差的问题,本工作基于预训练图像-文本匹配模型,计算实体-图片的相似度得分,过滤噪声图片,并基于相似度得分获得更准确的实体视觉特征表示;设计了自适应特征融合机制,以可变注意力融合实体的结构特征和视觉特征,充分利用多模态信息的互补性,提升对齐效果。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例的多模态实体对齐框架示意图;
图3示出了本发明实施例的视觉特征处理模块流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:
步骤1,获取两个多模态知识图谱的数据;
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
步骤4,通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐。
多模态知识图谱通常包含多个模态的信息。在不失一般性的前提下,本工作仅关注知识图谱的结构信息和视觉信息。给定两个多模态知识图谱,
Figure 733556DEST_PATH_IMAGE034
以及
Figure 267437DEST_PATH_IMAGE002
,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合。种子实体对集合
Figure 760735DEST_PATH_IMAGE035
,表示用于训练的已经对齐的实体对集合。多模态实体对齐任务旨在利用已知的实体对信息找到新的实体对,并预测潜在的对齐结果
Figure 795687DEST_PATH_IMAGE036
,其中等号代表两个实体指向真实世界中同一实体。
给定某一实体,寻找其在另一知识图谱中对应实体的过程可视为排序问题。即在某一特征空间下,计算给定实体与另一知识图谱中所有实体的相似程度(距离)并给出排序,而相似程度最高(距离最小)的实体可被视为对齐结果。
如图2所示,本发明首先设计了多模态实体对齐框架:利用图卷积神经网络学习实体的结构向量,生成实体结构特征;设计视觉特征处理模块,生成实体视觉特征;接着基于自适应特征融合机制,结合两种模态的信息进行实体对齐。此外,为缓和知识图谱的结构差异性,本实施例设计了三元组筛选机制,融合关系评分及实体的度,过滤部分三元组。图2中MG1、MG2表示不同的多模态知识图谱;KG1、KG2表示知识图谱,KG1’表示三元组筛选模块处理后的知识图谱。
视觉特征处理模块:为解决多模态实体对齐方法存在的视觉信息利用差的问题,受图像-文本匹配模型的启发,本工作设计了视觉特征处理模块,为实体生成更精确的视觉特征以帮助实体对齐。图3详细描述了实体视觉特征的生成过程。在缺乏监督数据的情况下,本文采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;接下来设置相似度阈值过滤噪声图片;并基于相似度得分赋予图片相应的权重,最终生成实体的视觉特征表示。
计算图片-实体相似度得分。本步骤使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分。采用预训练的共识感知视觉语义嵌入模型CVSE(Consensus-aware Visual Semantic Embedding),模型参数在MSCOCO和Flickr30k数据集上训练而得到。模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入
Figure 674519DEST_PATH_IMAGE018
,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度。输入模型的实体文本信息ti 通过将实体名[Entity Name]拓展为句子: ti={A photo of Entity Name.}得到。
接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
Figure 503935DEST_PATH_IMAGE019
其中,CVSE的Softmax层被移除,模型输入为图片嵌入pi和文本信息ti,生成多张图片的相似度得分
Figure 484529DEST_PATH_IMAGE020
,n为实体对应图片集中图片的数量。
过滤噪声图片。考虑到实体的图片集中存在部分相似度很低的图片,影响视觉信息的精度。鉴于此,设置相似度阈值α,以过滤噪声图片:
Figure 57593DEST_PATH_IMAGE021
,
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分。
实体视觉特征表示生成。通过图片过滤机制生成的实体图片集合,并基于图片相似度得分赋予权重,最终生成实体ei更精确的视觉特征表示Vi:
Figure 682927DEST_PATH_IMAGE023
,
其中,
Figure 760604DEST_PATH_IMAGE024
表示实体i的视觉特征;
Figure 776839DEST_PATH_IMAGE025
为Resnet模型生成的图像特征,n’为去除噪声后的图片数量,Atti表示图片注意力权重:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
结构特征学习模块:本实施例采用图卷积神经网络(GCN)捕捉实体邻接结构信息并生成实体结构表示向量。GCN 是一种直接作用在图结构数据上的卷积网络,通过捕捉节点周围的结构信息生成相应的节点结构向量:
Figure 552214DEST_PATH_IMAGE026
,
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵;
Figure 117188DEST_PATH_IMAGE027
表示标准化的邻接矩阵,D为度矩阵,
Figure 907420DEST_PATH_IMAGE028
,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵。
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将它们映射到同一空间中。具体的训练目标为最小化下述损失值:
Figure 366084DEST_PATH_IMAGE029
,
其中,(x)+=max{0,x},
Figure 973782DEST_PATH_IMAGE030
代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,
Figure 399953DEST_PATH_IMAGE031
代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。
自适应特征融合模块:多模态知识图谱包含至少两个模态的信息,多模态实体对齐需要融合不同模态的信息。已有的方法将不同的嵌入合并到一个统一的表示空间中,这需要额外的训练来统一表示不相关的特征。更可取的策略是首先计算每个特征特定空间内的相似度矩阵,然后组合特征相似度得分。
形式上,给定结构特征向量表示S,视觉特征表示V。对于每个实体对(e1,e2),
Figure 118511DEST_PATH_IMAGE037
Figure 431680DEST_PATH_IMAGE038
计算e1和e2之间的相似度得分,然后利用该相似度得分来预测潜在的对齐实体。为了计算总体相似度,我们首先计算实体对之间的特定特征相似度得分,即
Figure 210281DEST_PATH_IMAGE039
Figure 625212DEST_PATH_IMAGE040
。 接下来,组合上述相似度得分:
Figure 147461DEST_PATH_IMAGE041
其中,Atts、Attv分别代表结构信息和视觉信息的贡献率权重。
不同模态的特征从不同视角表征实体,具有一定相关性和互补性。而当前方法以固定的贡献率权重结合结构信息和视觉信息,忽略了不同实体之间结构信息的贡献率差异性。对于结构信息匮乏的实体,应更多地信任视觉特征表示。并且,直觉来看,实体与种子实体关联的密切程度与其结构特征的准确性也成正相关。
为了捕捉不同模态信息的贡献率动态变化,受基于度感知的联合注意机制的启发,在实体度的基础上,进一步结合实体与种子实体关联的密切程度,设计了自适应特征融合机制:
Figure 315137DEST_PATH_IMAGE013
,
Figure 644399DEST_PATH_IMAGE014
.
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
Figure 405682DEST_PATH_IMAGE015
,
其中,
Figure 856255DEST_PATH_IMAGE016
Figure 753803DEST_PATH_IMAGE017
分别表示距离种子实体1跳和2跳的数量;w1、w2为超参数。
更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组。
知识图谱的结构信息表现为三元组,(h,r,t),其中其中h代表头实体,t代表尾实体,r代表关系。不同知识图谱三元组的数量差异较大,导致基于结构信息进行实体对齐的效果大打折扣。为缓和不同知识图谱的结构差异性,本工作设计了无监督的三元组筛选模块,量化三元组重要性,并基于重要性得分过滤部分无效三元组。其中三元组重要性得分结合了关系r的PageRank得分,以及实体h、t的度。
关系PageRank评分计算。首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图。定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee 为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er)。
基于上述生成的关系对偶图,本实施例使用PageRank算法计算关系得分。PageRank算法是图数据上链接分析的代表性算法,属于无监督学习方法。其基本想法是在有向图上定义一个随机游走模型,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其PageRank值,表示结点的重要度。受该算法的启发,基于知识图谱关系对偶图,计算关系的PageRank值以表示关系的重要性:
Figure 749572DEST_PATH_IMAGE032
其中,PR(r)为关系的PageRank评分;Br表示关系r的邻居关系集合,关系
Figure 263730DEST_PATH_IMAGE033
,L(v)代表关系v的连接关系数量(即度)。
三元组评分机制。对三元组的筛选,一方面要过滤掉冗余或无效的关系,另一方面要保护知识图谱的结构特征。由于结构信息缺乏的长尾实体仅有少量相关三元组,若基于关系重要性评分直接过滤一种关系可能会加剧长尾实体的结构信息匮乏问题。为此,本实施例提供了两种三元组的评分函数,一种是直接采用PageRank评分,设计三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
在实验中,本实施例使用了数据集MMKG,分别从知识库FreeBase、DBpedia和Yago中抽取得到。这些数据集基于FB15K,使用知识图谱间的SameAs(等价)链接将FB15K中的实体与其他知识图谱中的等效实体对齐,从而生成DB15K和Yago15K。本文在FB15K-DB15K和FB15K-YAGO15K两对多模态知识图谱上进行实验。
由于数据集不提供图片,为获取实体相关图片,本实施例使用URI数据,并设计了网络爬虫,解析来自图像搜索引擎(即Google Images、Bing Images和Yahoo ImageSearch)的查询结果。然后,将不同搜索引擎获取的图片分配给不同的MMKG。为模拟真实世界多模态知识图谱的构建过程,去除了等效实体图像集中相似度过高的图片,并引入一定数量的噪声图片。表1描述了数据集的详细信息。在实验中,已知的等效实体对被用于模型训练和测试。
表1 多模态知识图谱统计信息
数据集 实体 关系 三元组 图片 等价
FB15K 14,951 1,345 592,213 13,444
DB15K 14,777 279 99,028 12,841 12,846
Yago15K 15,404 32 122,886 11,194 11,199
评价指标:实验使用Hits@k(k=1,10)和平均排序倒数(mean reciprocal rank,MRR)作为评价指标。对于测试集中每个实体,另一个图谱中的实体根据它们与该实体的相似度得分以降序排列。Hits@k表示前k个实体中包含正确的实体的数量占总数量的百分比。另一方面,MRR表示正确对齐实体的倒数排序的平均值,Hits@1代表对齐的准确率,是最重要的评价指标,Hits@10以及MRR提供补充信息。注意,Hits@k和MRR数值越高表示性能更好,Hits@k的结果以百分比表示。我们在表格中用粗体标注最好的效果。
实验利用图卷积神经网络生成实体结构特征,设定负例数量为15,γ=3,训练400轮,维度ds=300;视觉特征由视觉特征处理模块生成,维度dv=2048。将种子实体的比例设置为20%和50%,并且选取10%的实体作为验证集,用于调整公式中超参数,其中b=1.5,a=1,参数K的取值与种子实体的比例相关,在seed=0.2时取0.6;seed=0.5时取0.8。对于超参数w1和w2分别取0.8和0.1。
表2 多模态实体对齐结果
Figure 252415DEST_PATH_IMAGE042
将本实施例方法以及本实施例方法中去除三元组筛选模块的方法与2种方法进行对比:(1)GCN-align,利用GCN生成实体结构和视觉特征矩阵,以固定权重结合两种特征以对齐实体;(2)HMEA,利用双曲图卷积神经网络(HGCN)生成实体的结构和视觉特征矩阵,并在双曲空间中以权重结合结构特征和视觉特征,进行实体对齐。本实施例方法取得了当前最好的多模态实体对齐效果。
另外,为验证本发明提出的三元组筛选模块的有效性,我们对比了FPageRank、FRandom、Four三种筛选机制,分别代表直接采用PageRank评分筛选、随机筛选,以及改进的PageRank评分筛选。为控制实验变量,本实验使用上述3种筛选机制筛选了相同数量的三元组,约29万;均基于图卷积神经网络学习结构特征,并保持各参数一致。
实验结果表明,随机筛选FRandom相较于保留所有三元组的基线,其Hits@1在seed=0.2和0.5的情况下分别提升了约1.5%和2.5%,表明图谱结构差异性对于实体对齐存在一定的影响。基于PageRank评分的筛选机制相比于随机筛选,在种子实体比例为50%的情况下,提升3%左右。由结果可知,本发明提出的改进的PageRank评分筛选的三元组筛选机制取得了最优对齐结果,在FB15K-DB15K上与基线对比,其Hits@1分别提升了超8%,3%;在FB15K-Yago15K上,Hits@1分别提升约9%,5%。
由于结构信息的丰富程度与实体的度相关,我们按照实体度的数量将实体划分为三类,在这三类实体上分别测试本实施例提出的自适应融合机制和固定权重机制下多模态实体对齐的准确率。本实验种子实体比例设置为20%,分别在FB15K-DB15K与FB15K-Yago15K上进行,其余参数与前述实验保持一致。
表3展示了自适应特征融合与固定权重融合的多模态实体对齐结果。其中Fixed(固定),Adaptive(自适应)分别代表固定权重融合机制和自适应特征融合机制;组1、组2、组3分别表示前1/3、中间1/3和后1/3部分实体,基于实体度从小到大划分。由表3可知,自适应特征融合机制相比固定权重融合,在各类实体上均取得了更好的实体对齐效果。可以清晰地得出,在组1上提升显著高于组2和组3,证明本实施例的自适应特征融合机制可显著提升结构信息匮乏的实体即长尾实体的对齐准确率。
表3 自适应特征融合与固定权重融合多模态实体对齐结果
Figure 378372DEST_PATH_IMAGE044
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (6)

1.一种基于自适应特征融合的多模态实体对齐方法,其特征在于,包括以下步骤:
步骤1,获取两个多模态知识图谱的数据,
Figure 977207DEST_PATH_IMAGE001
以及
Figure 726333DEST_PATH_IMAGE002
,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合;
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
步骤4,通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐;
步骤4中所述的自适应特征融合模块,对于每个实体对
Figure 955320DEST_PATH_IMAGE003
Figure 753512DEST_PATH_IMAGE004
Figure 93358DEST_PATH_IMAGE005
计算
Figure 965499DEST_PATH_IMAGE006
Figure 490021DEST_PATH_IMAGE007
之间的相似度得分,利用该相似度得分来预测潜在的对齐实体,所述的相似度得分为:
Figure 182033DEST_PATH_IMAGE008
,
Figure 591149DEST_PATH_IMAGE009
Figure 380114DEST_PATH_IMAGE010
分别表示实体的结构特征表示和视觉特征表示的相似度,
Figure 747641DEST_PATH_IMAGE011
Figure 395791DEST_PATH_IMAGE012
分别代表结构特征表示和视觉特征表示的贡献率权重;
Figure 467652DEST_PATH_IMAGE013
,
Figure 977700DEST_PATH_IMAGE014
.
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
Figure 109604DEST_PATH_IMAGE015
,
其中,
Figure 776209DEST_PATH_IMAGE016
Figure 527128DEST_PATH_IMAGE017
分别表示距离种子实体1跳和2跳的数量;w1、w2为超参数。
2.根据权利要求1所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在步骤3的视觉特征处理模块中包括,步骤301,采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;步骤302,设置相似度阈值过滤噪声图片;步骤303,基于图片与实体相似度赋予图片相应的权重,生成实体的视觉特征表示。
3.根据权利要求2所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在步骤301中,使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分,采用预训练的共识感知视觉语义嵌入模型CVSE,CVSE模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入
Figure 290684DEST_PATH_IMAGE018
,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度,输入模型的实体文本信息ti通过将实体名拓展为句子:ti={A photo of Entity Name.}得到;接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
Figure 203277DEST_PATH_IMAGE019
,
其中,CVSE的Softmax层被移除,模型输入为图片嵌入pi和文本信息ti,生成多张图片的相似度得分
Figure 622757DEST_PATH_IMAGE020
,n为实体对应图片集中图片的数量;
在步骤302中,设置相似度阈值α,以过滤噪声图片:
Figure 36420DEST_PATH_IMAGE021
,
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分;
在步骤303中,生成实体ei更精确的视觉特征表示Vi:
Figure 737977DEST_PATH_IMAGE023
,
其中,
Figure 379174DEST_PATH_IMAGE024
表示实体i的视觉特征;
Figure 471895DEST_PATH_IMAGE025
为Resnet模型生成的图像特征,n’为去除噪声后的图片数量,Atti表示图片注意力权重:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
4.根据权利要求2或3所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,步骤2所述的结构特征学习模块采用图卷积神经网络捕捉实体邻接结构信息并生成实体结构特征表示:
Figure 461509DEST_PATH_IMAGE026
,
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵;
Figure 590002DEST_PATH_IMAGE027
表示标准化的邻接矩阵,D为度矩阵,
Figure 345469DEST_PATH_IMAGE028
,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵;
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将不同知识图谱的实体结构向量映射到同一空间中,具体的训练目标为最小化下述损失值:
Figure 79069DEST_PATH_IMAGE029
,
其中,(x)+=max{0,x},
Figure 628999DEST_PATH_IMAGE030
代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,
Figure 979209DEST_PATH_IMAGE031
代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。
5.根据权利要求4所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组,其中h代表头实体,t代表尾实体,r代表关系。
6.根据权利要求5所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在所述的三元组筛选模块中,首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图,定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee 为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er),基于关系对偶图,使用PageRank算法计算关系得分:
Figure 413733DEST_PATH_IMAGE032
其中,PR(r)为关系的PageRank评分;Br表示关系r的邻居关系集合,关系
Figure 126474DEST_PATH_IMAGE033
,L(v)代表关系v的连接关系数量;
由此计算三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
CN202110948340.7A 2021-08-18 2021-08-18 一种基于自适应特征融合的多模态实体对齐方法 Active CN113407759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110948340.7A CN113407759B (zh) 2021-08-18 2021-08-18 一种基于自适应特征融合的多模态实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110948340.7A CN113407759B (zh) 2021-08-18 2021-08-18 一种基于自适应特征融合的多模态实体对齐方法

Publications (2)

Publication Number Publication Date
CN113407759A true CN113407759A (zh) 2021-09-17
CN113407759B CN113407759B (zh) 2021-11-30

Family

ID=77688599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110948340.7A Active CN113407759B (zh) 2021-08-18 2021-08-18 一种基于自适应特征融合的多模态实体对齐方法

Country Status (1)

Country Link
CN (1) CN113407759B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN115062783A (zh) * 2022-08-08 2022-09-16 科大讯飞(苏州)科技有限公司 实体对齐方法及相关装置、电子设备、存储介质
CN116090360A (zh) * 2023-04-12 2023-05-09 安徽思高智能科技有限公司 一种基于多模态实体对齐的rpa流程推荐方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质
CN117195894A (zh) * 2023-07-18 2023-12-08 安徽省交通规划设计研究总院股份有限公司 一种多维特征融合的桥梁康养领域实体对齐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112287126A (zh) * 2020-12-24 2021-01-29 中国人民解放军国防科技大学 一种适于多模态知识图谱的实体对齐方法及设备
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
US20210103706A1 (en) * 2019-10-04 2021-04-08 Nec Laboratories America, Inc. Knowledge graph and alignment with uncertainty embedding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103706A1 (en) * 2019-10-04 2021-04-08 Nec Laboratories America, Inc. Knowledge graph and alignment with uncertainty embedding
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN112287126A (zh) * 2020-12-24 2021-01-29 中国人民解放军国防科技大学 一种适于多模态知识图谱的实体对齐方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO GUO等: ""Multi-modal entity alignment in hyperbolic space"", 《NEUROCOMPUTING》 *
HAORAN WANG等: ""Consensus-Aware Visual-Semantic Embedding for Image-Text Matching"", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
王会勇等: ""基于联合知识表示学习的多模态实体对齐"", 《控制与决策》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114416941B (zh) * 2021-12-28 2023-09-05 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114357193B (zh) * 2022-01-10 2024-04-02 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114417845B (zh) * 2022-03-30 2022-07-12 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN115062783A (zh) * 2022-08-08 2022-09-16 科大讯飞(苏州)科技有限公司 实体对齐方法及相关装置、电子设备、存储介质
CN116090360A (zh) * 2023-04-12 2023-05-09 安徽思高智能科技有限公司 一种基于多模态实体对齐的rpa流程推荐方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法
CN117195894A (zh) * 2023-07-18 2023-12-08 安徽省交通规划设计研究总院股份有限公司 一种多维特征融合的桥梁康养领域实体对齐方法
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质
CN116610820B (zh) * 2023-07-21 2023-10-20 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113407759B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113407759B (zh) 一种基于自适应特征融合的多模态实体对齐方法
CN113656596B (zh) 一种基于三元组筛选融合的多模态实体对齐方法
Qi et al. Attentive relational networks for mapping images to scene graphs
Zhao et al. Meta-graph based recommendation fusion over heterogeneous information networks
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN111737551B (zh) 一种基于异构图注意力神经网络的暗网线索检测方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
Wang et al. Neural architecture search for robust networks in 6G-enabled massive IoT domain
Kumar Knowledge discovery in data using formal concept analysis and random projections
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN107590139B (zh) 一种基于循环矩阵翻译的知识图谱表示学习方法
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
Feng et al. Computational social indicators: a case study of chinese university ranking
CN107391577B (zh) 一种基于表示向量的作品标签推荐方法和系统
CN113239168B (zh) 一种基于知识图谱嵌入预测模型的可解释性方法和系统
Liu et al. Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!
Chu et al. Variational cross-network embedding for anonymized user identity linkage
Adler et al. Real-time claim detection from news articles and retrieval of semantically-similar factchecks
Huang et al. Global-local fusion based on adversarial sample generation for image-text matching
Han et al. GA-GWNN: Detecting anomalies of online learners by granular computing and graph wavelet convolutional neural network
CN116628341A (zh) 一种基于多类型视图知识对比学习模型的推荐方法
Gao et al. Constrained Local Latent Variable Discovery.
CN113392334B (zh) 冷启动环境下的虚假评论检测方法
CN113761337B (zh) 基于事件隐式要素与显式联系的事件预测方法和装置
CN111062484B (zh) 基于多任务学习的数据集选取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant