CN113407759A - 一种基于自适应特征融合的多模态实体对齐方法 - Google Patents
一种基于自适应特征融合的多模态实体对齐方法 Download PDFInfo
- Publication number
- CN113407759A CN113407759A CN202110948340.7A CN202110948340A CN113407759A CN 113407759 A CN113407759 A CN 113407759A CN 202110948340 A CN202110948340 A CN 202110948340A CN 113407759 A CN113407759 A CN 113407759A
- Authority
- CN
- China
- Prior art keywords
- entity
- picture
- visual
- feature
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:获取两个多模态知识图谱的数据;在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;在视觉特征处理模块中,分别生成各自实体的视觉特征表示;通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐。本发明针对视觉信息利用差的问题,计算实体‑图片的相似度得分,过滤噪声图片,并基于相似度获得更准确的实体视觉特征表示;设计了自适应特征融合机制,以可变注意力融合实体的结构特征和视觉特征,充分利用多模态信息的互补性,提升了对齐效果。
Description
技术领域
本发明涉及自然语言处理中的知识图谱技术领域,尤其涉及一种基于自适应特征融合的多模态实体对齐方法。
背景技术
近年来,知识图谱成为了结构化数据广泛使用的表示方式。它以三元组的形式来表示现实世界的知识或事件,并且广泛应用于各类人工智能的下游任务。当前,多模态知识图谱往往从有限的数据源构建而得,存在信息缺失、覆盖率低的问题,使得知识利用率不高。考虑到人工补全知识图谱开销大且效率低,为了提高知识图谱的覆盖程度,一种可行的方法是自动地整合来自其他知识图谱的有用知识。实体作为链接不同知识图谱的枢纽,对于整合各个多模态知识图谱而言至关重要。识别不同的多模态知识图谱中表达同一含义的实体的过程,称为多模态实体对齐。
多模态实体对齐需要利用和融合多个模态的信息。然而,现有的多模态实体对齐方法遇到两个瓶颈:第一,图谱结构差异性难以处理。不同知识图谱中对等的实体通常具有对等的邻居实体,基于这一假设,目前的主流实体对齐方法主要依赖知识图谱的结构信息。然而真实世界中,由于构建方式的不同,不同知识图谱可能存在着较大结构差异。针对此类问题,可基于链接预测生成三元组以丰富结构信息,虽然在一定程度上缓和了结构差异性的问题,但生成的三元组可靠性有待考量,并且对于三元组数量相差多倍的情况补全难度很大。第二,视觉信息利用差。当前自动化构建多模态知识图谱的方法通常基于现有知识图谱补全其他模态的信息。为获取视觉信息,这些方法主要是利用爬虫从互联网获取与实体的相关图片。然而获取的图片中不可避免地存在部分相关程度较低的图片,即噪声图片。当前方法无法判别实体相关图片中的噪声图片,使得实体的视觉信息中混有部分噪声,进而降低了视觉信息进行实体对齐的准确率。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于自适应特征融合的多模态实体对齐方法。所述方法针对目前多模态知识图谱视觉信息利用差的问题,利用预训练的图像-文本匹配模型,计算实体-图片的相似度得分,设置相似度阈值以过滤噪声图片,并基于相似度赋予图片不同权重,最终生成实体的视觉特征表示;此外,为捕获结构信息动态变化的置信度,充分利用不同模态信息的互补性,设计了自适应特征融合机制,基于实体的度以及实体与种子实体之间的距离,动态融合实体的结构信息和视觉信息,这种机制能够应对长尾实体数量占比大且结构信息相对匮乏的挑战。
本发明的技术方案如下,一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
具体地,在步骤3的视觉特征处理模块中包括,步骤301,采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;步骤302,设置相似度阈值过滤噪声图片;步骤303,基于图片与实体相似度赋予图片相应的权重,生成实体的视觉特征表示。
更进一步地,在步骤301中,使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分,采用预训练的共识感知视觉语义嵌入模型CVSE,CVSE模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度,输入模型的实体文本信息ti通过将实体名拓展为句子:ti={A photo of EntityName.}得到;接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
在步骤302中,设置相似度阈值α,以过滤噪声图片:
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分;
在步骤303中,生成实体ei更精确的视觉特征表示Vi:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
具体地,步骤2所述的结构特征学习模块采用图卷积神经网络捕捉实体邻接结构信息并生成实体结构特征表示:
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵; 表示标准化的邻接矩阵,D为度矩阵,,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵;
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将不同知识图谱的实体结构向量映射到同一空间中,具体的训练目标为最小化下述损失值:
其中,(x)+=max{0,x},代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。
更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组,其中h代表头实体,t代表尾实体,r代表关系。
具体地,在所述的三元组筛选模块中,首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图,定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er),基于关系对偶图,使用PageRank算法计算关系得分:
由此计算三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
与现有方法相比,本发明方法的优点在于:针对视觉信息利用差的问题,本工作基于预训练图像-文本匹配模型,计算实体-图片的相似度得分,过滤噪声图片,并基于相似度得分获得更准确的实体视觉特征表示;设计了自适应特征融合机制,以可变注意力融合实体的结构特征和视觉特征,充分利用多模态信息的互补性,提升对齐效果。
附图说明
图1示出了本发明实施例的流程示意图;
图2示出了本发明实施例的多模态实体对齐框架示意图;
图3示出了本发明实施例的视觉特征处理模块流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:
步骤1,获取两个多模态知识图谱的数据;
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
步骤4,通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐。
多模态知识图谱通常包含多个模态的信息。在不失一般性的前提下,本工作仅关注知识图谱的结构信息和视觉信息。给定两个多模态知识图谱,以及,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合。种子实体对集合,表示用于训练的已经对齐的实体对集合。多模态实体对齐任务旨在利用已知的实体对信息找到新的实体对,并预测潜在的对齐结果,其中等号代表两个实体指向真实世界中同一实体。
给定某一实体,寻找其在另一知识图谱中对应实体的过程可视为排序问题。即在某一特征空间下,计算给定实体与另一知识图谱中所有实体的相似程度(距离)并给出排序,而相似程度最高(距离最小)的实体可被视为对齐结果。
如图2所示,本发明首先设计了多模态实体对齐框架:利用图卷积神经网络学习实体的结构向量,生成实体结构特征;设计视觉特征处理模块,生成实体视觉特征;接着基于自适应特征融合机制,结合两种模态的信息进行实体对齐。此外,为缓和知识图谱的结构差异性,本实施例设计了三元组筛选机制,融合关系评分及实体的度,过滤部分三元组。图2中MG1、MG2表示不同的多模态知识图谱;KG1、KG2表示知识图谱,KG1’表示三元组筛选模块处理后的知识图谱。
视觉特征处理模块:为解决多模态实体对齐方法存在的视觉信息利用差的问题,受图像-文本匹配模型的启发,本工作设计了视觉特征处理模块,为实体生成更精确的视觉特征以帮助实体对齐。图3详细描述了实体视觉特征的生成过程。在缺乏监督数据的情况下,本文采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;接下来设置相似度阈值过滤噪声图片;并基于相似度得分赋予图片相应的权重,最终生成实体的视觉特征表示。
计算图片-实体相似度得分。本步骤使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分。采用预训练的共识感知视觉语义嵌入模型CVSE(Consensus-aware Visual Semantic Embedding),模型参数在MSCOCO和Flickr30k数据集上训练而得到。模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度。输入模型的实体文本信息ti 通过将实体名[Entity Name]拓展为句子: ti={A photo of Entity Name.}得到。
接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
过滤噪声图片。考虑到实体的图片集中存在部分相似度很低的图片,影响视觉信息的精度。鉴于此,设置相似度阈值α,以过滤噪声图片:
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分。
实体视觉特征表示生成。通过图片过滤机制生成的实体图片集合,并基于图片相似度得分赋予权重,最终生成实体ei更精确的视觉特征表示Vi:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
结构特征学习模块:本实施例采用图卷积神经网络(GCN)捕捉实体邻接结构信息并生成实体结构表示向量。GCN 是一种直接作用在图结构数据上的卷积网络,通过捕捉节点周围的结构信息生成相应的节点结构向量:
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵; 表示标准化的邻接矩阵,D为度矩阵,,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵。
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将它们映射到同一空间中。具体的训练目标为最小化下述损失值:
其中,(x)+=max{0,x},代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。
自适应特征融合模块:多模态知识图谱包含至少两个模态的信息,多模态实体对齐需要融合不同模态的信息。已有的方法将不同的嵌入合并到一个统一的表示空间中,这需要额外的训练来统一表示不相关的特征。更可取的策略是首先计算每个特征特定空间内的相似度矩阵,然后组合特征相似度得分。
形式上,给定结构特征向量表示S,视觉特征表示V。对于每个实体对(e1,e2),,计算e1和e2之间的相似度得分,然后利用该相似度得分来预测潜在的对齐实体。为了计算总体相似度,我们首先计算实体对之间的特定特征相似度得分,即和。 接下来,组合上述相似度得分:
其中,Atts、Attv分别代表结构信息和视觉信息的贡献率权重。
不同模态的特征从不同视角表征实体,具有一定相关性和互补性。而当前方法以固定的贡献率权重结合结构信息和视觉信息,忽略了不同实体之间结构信息的贡献率差异性。对于结构信息匮乏的实体,应更多地信任视觉特征表示。并且,直觉来看,实体与种子实体关联的密切程度与其结构特征的准确性也成正相关。
为了捕捉不同模态信息的贡献率动态变化,受基于度感知的联合注意机制的启发,在实体度的基础上,进一步结合实体与种子实体关联的密切程度,设计了自适应特征融合机制:
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组。
知识图谱的结构信息表现为三元组,(h,r,t),其中其中h代表头实体,t代表尾实体,r代表关系。不同知识图谱三元组的数量差异较大,导致基于结构信息进行实体对齐的效果大打折扣。为缓和不同知识图谱的结构差异性,本工作设计了无监督的三元组筛选模块,量化三元组重要性,并基于重要性得分过滤部分无效三元组。其中三元组重要性得分结合了关系r的PageRank得分,以及实体h、t的度。
关系PageRank评分计算。首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图。定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee 为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er)。
基于上述生成的关系对偶图,本实施例使用PageRank算法计算关系得分。PageRank算法是图数据上链接分析的代表性算法,属于无监督学习方法。其基本想法是在有向图上定义一个随机游走模型,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其PageRank值,表示结点的重要度。受该算法的启发,基于知识图谱关系对偶图,计算关系的PageRank值以表示关系的重要性:
三元组评分机制。对三元组的筛选,一方面要过滤掉冗余或无效的关系,另一方面要保护知识图谱的结构特征。由于结构信息缺乏的长尾实体仅有少量相关三元组,若基于关系重要性评分直接过滤一种关系可能会加剧长尾实体的结构信息匮乏问题。为此,本实施例提供了两种三元组的评分函数,一种是直接采用PageRank评分,设计三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
在实验中,本实施例使用了数据集MMKG,分别从知识库FreeBase、DBpedia和Yago中抽取得到。这些数据集基于FB15K,使用知识图谱间的SameAs(等价)链接将FB15K中的实体与其他知识图谱中的等效实体对齐,从而生成DB15K和Yago15K。本文在FB15K-DB15K和FB15K-YAGO15K两对多模态知识图谱上进行实验。
由于数据集不提供图片,为获取实体相关图片,本实施例使用URI数据,并设计了网络爬虫,解析来自图像搜索引擎(即Google Images、Bing Images和Yahoo ImageSearch)的查询结果。然后,将不同搜索引擎获取的图片分配给不同的MMKG。为模拟真实世界多模态知识图谱的构建过程,去除了等效实体图像集中相似度过高的图片,并引入一定数量的噪声图片。表1描述了数据集的详细信息。在实验中,已知的等效实体对被用于模型训练和测试。
表1 多模态知识图谱统计信息
数据集 | 实体 | 关系 | 三元组 | 图片 | 等价 |
FB15K | 14,951 | 1,345 | 592,213 | 13,444 | |
DB15K | 14,777 | 279 | 99,028 | 12,841 | 12,846 |
Yago15K | 15,404 | 32 | 122,886 | 11,194 | 11,199 |
评价指标:实验使用Hits@k(k=1,10)和平均排序倒数(mean reciprocal rank,MRR)作为评价指标。对于测试集中每个实体,另一个图谱中的实体根据它们与该实体的相似度得分以降序排列。Hits@k表示前k个实体中包含正确的实体的数量占总数量的百分比。另一方面,MRR表示正确对齐实体的倒数排序的平均值,Hits@1代表对齐的准确率,是最重要的评价指标,Hits@10以及MRR提供补充信息。注意,Hits@k和MRR数值越高表示性能更好,Hits@k的结果以百分比表示。我们在表格中用粗体标注最好的效果。
实验利用图卷积神经网络生成实体结构特征,设定负例数量为15,γ=3,训练400轮,维度ds=300;视觉特征由视觉特征处理模块生成,维度dv=2048。将种子实体的比例设置为20%和50%,并且选取10%的实体作为验证集,用于调整公式中超参数,其中b=1.5,a=1,参数K的取值与种子实体的比例相关,在seed=0.2时取0.6;seed=0.5时取0.8。对于超参数w1和w2分别取0.8和0.1。
表2 多模态实体对齐结果
将本实施例方法以及本实施例方法中去除三元组筛选模块的方法与2种方法进行对比:(1)GCN-align,利用GCN生成实体结构和视觉特征矩阵,以固定权重结合两种特征以对齐实体;(2)HMEA,利用双曲图卷积神经网络(HGCN)生成实体的结构和视觉特征矩阵,并在双曲空间中以权重结合结构特征和视觉特征,进行实体对齐。本实施例方法取得了当前最好的多模态实体对齐效果。
另外,为验证本发明提出的三元组筛选模块的有效性,我们对比了FPageRank、FRandom、Four三种筛选机制,分别代表直接采用PageRank评分筛选、随机筛选,以及改进的PageRank评分筛选。为控制实验变量,本实验使用上述3种筛选机制筛选了相同数量的三元组,约29万;均基于图卷积神经网络学习结构特征,并保持各参数一致。
实验结果表明,随机筛选FRandom相较于保留所有三元组的基线,其Hits@1在seed=0.2和0.5的情况下分别提升了约1.5%和2.5%,表明图谱结构差异性对于实体对齐存在一定的影响。基于PageRank评分的筛选机制相比于随机筛选,在种子实体比例为50%的情况下,提升3%左右。由结果可知,本发明提出的改进的PageRank评分筛选的三元组筛选机制取得了最优对齐结果,在FB15K-DB15K上与基线对比,其Hits@1分别提升了超8%,3%;在FB15K-Yago15K上,Hits@1分别提升约9%,5%。
由于结构信息的丰富程度与实体的度相关,我们按照实体度的数量将实体划分为三类,在这三类实体上分别测试本实施例提出的自适应融合机制和固定权重机制下多模态实体对齐的准确率。本实验种子实体比例设置为20%,分别在FB15K-DB15K与FB15K-Yago15K上进行,其余参数与前述实验保持一致。
表3展示了自适应特征融合与固定权重融合的多模态实体对齐结果。其中Fixed(固定),Adaptive(自适应)分别代表固定权重融合机制和自适应特征融合机制;组1、组2、组3分别表示前1/3、中间1/3和后1/3部分实体,基于实体度从小到大划分。由表3可知,自适应特征融合机制相比固定权重融合,在各类实体上均取得了更好的实体对齐效果。可以清晰地得出,在组1上提升显著高于组2和组3,证明本实施例的自适应特征融合机制可显著提升结构信息匮乏的实体即长尾实体的对齐准确率。
表3 自适应特征融合与固定权重融合多模态实体对齐结果
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (6)
1.一种基于自适应特征融合的多模态实体对齐方法,其特征在于,包括以下步骤:
步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;
步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;
步骤4,通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐;
其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:
2.根据权利要求1所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在步骤3的视觉特征处理模块中包括,步骤301,采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;步骤302,设置相似度阈值过滤噪声图片;步骤303,基于图片与实体相似度赋予图片相应的权重,生成实体的视觉特征表示。
3.根据权利要求2所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在步骤301中,使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分,采用预训练的共识感知视觉语义嵌入模型CVSE,CVSE模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度,输入模型的实体文本信息ti通过将实体名拓展为句子:ti={A photo of Entity Name.}得到;接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:
在步骤302中,设置相似度阈值α,以过滤噪声图片:
其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分;
在步骤303中,生成实体ei更精确的视觉特征表示Vi:
Atti = Softmax(Simv’),
其中 Simv’为图片集set(i)’的相似度得分。
4.根据权利要求2或3所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,步骤2所述的结构特征学习模块采用图卷积神经网络捕捉实体邻接结构信息并生成实体结构特征表示:
其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵; 表示标准化的邻接矩阵,D为度矩阵,,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵;
由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将不同知识图谱的实体结构向量映射到同一空间中,具体的训练目标为最小化下述损失值:
5.根据权利要求4所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组,其中h代表头实体,t代表尾实体,r代表关系。
6.根据权利要求5所述的一种基于自适应特征融合的多模态实体对齐方法,其特征在于,在所述的三元组筛选模块中,首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图,定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee 为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er),基于关系对偶图,使用PageRank算法计算关系得分:
由此计算三元组评分函数:
Score(h,r,t) = PR(r),
基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948340.7A CN113407759B (zh) | 2021-08-18 | 2021-08-18 | 一种基于自适应特征融合的多模态实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948340.7A CN113407759B (zh) | 2021-08-18 | 2021-08-18 | 一种基于自适应特征融合的多模态实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113407759A true CN113407759A (zh) | 2021-09-17 |
CN113407759B CN113407759B (zh) | 2021-11-30 |
Family
ID=77688599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948340.7A Active CN113407759B (zh) | 2021-08-18 | 2021-08-18 | 一种基于自适应特征融合的多模态实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113407759B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
CN114416941A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
CN115062783A (zh) * | 2022-08-08 | 2022-09-16 | 科大讯飞(苏州)科技有限公司 | 实体对齐方法及相关装置、电子设备、存储介质 |
CN116090360A (zh) * | 2023-04-12 | 2023-05-09 | 安徽思高智能科技有限公司 | 一种基于多模态实体对齐的rpa流程推荐方法 |
CN116452939A (zh) * | 2023-05-11 | 2023-07-18 | 河海大学 | 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 |
CN116610820A (zh) * | 2023-07-21 | 2023-08-18 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
CN117195894A (zh) * | 2023-07-18 | 2023-12-08 | 安徽省交通规划设计研究总院股份有限公司 | 一种多维特征融合的桥梁康养领域实体对齐方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN110955780A (zh) * | 2019-10-12 | 2020-04-03 | 中国人民解放军国防科技大学 | 一种用于知识图谱的实体对齐方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112287126A (zh) * | 2020-12-24 | 2021-01-29 | 中国人民解放军国防科技大学 | 一种适于多模态知识图谱的实体对齐方法及设备 |
CN112417159A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 一种上下文对齐增强图注意力网络的跨语言实体对齐方法 |
US20210103706A1 (en) * | 2019-10-04 | 2021-04-08 | Nec Laboratories America, Inc. | Knowledge graph and alignment with uncertainty embedding |
-
2021
- 2021-08-18 CN CN202110948340.7A patent/CN113407759B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103706A1 (en) * | 2019-10-04 | 2021-04-08 | Nec Laboratories America, Inc. | Knowledge graph and alignment with uncertainty embedding |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN110955780A (zh) * | 2019-10-12 | 2020-04-03 | 中国人民解放军国防科技大学 | 一种用于知识图谱的实体对齐方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112417159A (zh) * | 2020-11-02 | 2021-02-26 | 武汉大学 | 一种上下文对齐增强图注意力网络的跨语言实体对齐方法 |
CN112287126A (zh) * | 2020-12-24 | 2021-01-29 | 中国人民解放军国防科技大学 | 一种适于多模态知识图谱的实体对齐方法及设备 |
Non-Patent Citations (3)
Title |
---|
HAO GUO等: ""Multi-modal entity alignment in hyperbolic space"", 《NEUROCOMPUTING》 * |
HAORAN WANG等: ""Consensus-Aware Visual-Semantic Embedding for Image-Text Matching"", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
王会勇等: ""基于联合知识表示学习的多模态实体对齐"", 《控制与决策》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416941A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
CN114416941B (zh) * | 2021-12-28 | 2023-09-05 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
CN114357193A (zh) * | 2022-01-10 | 2022-04-15 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114357193B (zh) * | 2022-01-10 | 2024-04-02 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
CN114417845B (zh) * | 2022-03-30 | 2022-07-12 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
CN115062783A (zh) * | 2022-08-08 | 2022-09-16 | 科大讯飞(苏州)科技有限公司 | 实体对齐方法及相关装置、电子设备、存储介质 |
CN116090360A (zh) * | 2023-04-12 | 2023-05-09 | 安徽思高智能科技有限公司 | 一种基于多模态实体对齐的rpa流程推荐方法 |
CN116452939A (zh) * | 2023-05-11 | 2023-07-18 | 河海大学 | 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 |
CN117195894A (zh) * | 2023-07-18 | 2023-12-08 | 安徽省交通规划设计研究总院股份有限公司 | 一种多维特征融合的桥梁康养领域实体对齐方法 |
CN116610820A (zh) * | 2023-07-21 | 2023-08-18 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
CN116610820B (zh) * | 2023-07-21 | 2023-10-20 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113407759B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113407759B (zh) | 一种基于自适应特征融合的多模态实体对齐方法 | |
CN113656596B (zh) | 一种基于三元组筛选融合的多模态实体对齐方法 | |
Qi et al. | Attentive relational networks for mapping images to scene graphs | |
Zhao et al. | Meta-graph based recommendation fusion over heterogeneous information networks | |
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN111737551B (zh) | 一种基于异构图注意力神经网络的暗网线索检测方法 | |
CN110674850A (zh) | 一种基于注意力机制的图像描述生成方法 | |
Wang et al. | Neural architecture search for robust networks in 6G-enabled massive IoT domain | |
Kumar | Knowledge discovery in data using formal concept analysis and random projections | |
CN112685597B (zh) | 一种基于擦除机制的弱监督视频片段检索方法和系统 | |
CN107590139B (zh) | 一种基于循环矩阵翻译的知识图谱表示学习方法 | |
CN113140254B (zh) | 元学习药物-靶点相互作用预测系统及预测方法 | |
Feng et al. | Computational social indicators: a case study of chinese university ranking | |
CN107391577B (zh) | 一种基于表示向量的作品标签推荐方法和系统 | |
CN113239168B (zh) | 一种基于知识图谱嵌入预测模型的可解释性方法和系统 | |
Liu et al. | Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! | |
Chu et al. | Variational cross-network embedding for anonymized user identity linkage | |
Adler et al. | Real-time claim detection from news articles and retrieval of semantically-similar factchecks | |
Huang et al. | Global-local fusion based on adversarial sample generation for image-text matching | |
Han et al. | GA-GWNN: Detecting anomalies of online learners by granular computing and graph wavelet convolutional neural network | |
CN116628341A (zh) | 一种基于多类型视图知识对比学习模型的推荐方法 | |
Gao et al. | Constrained Local Latent Variable Discovery. | |
CN113392334B (zh) | 冷启动环境下的虚假评论检测方法 | |
CN113761337B (zh) | 基于事件隐式要素与显式联系的事件预测方法和装置 | |
CN111062484B (zh) | 基于多任务学习的数据集选取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |