CN113486190A - 一种融合实体图像信息和实体类别信息的多模态知识表示方法 - Google Patents
一种融合实体图像信息和实体类别信息的多模态知识表示方法 Download PDFInfo
- Publication number
- CN113486190A CN113486190A CN202110687397.6A CN202110687397A CN113486190A CN 113486190 A CN113486190 A CN 113486190A CN 202110687397 A CN202110687397 A CN 202110687397A CN 113486190 A CN113486190 A CN 113486190A
- Authority
- CN
- China
- Prior art keywords
- entity
- image
- knowledge
- information
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 52
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 239000013604 expression vector Substances 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 9
- 239000002585 base Substances 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种融合实体图像信息和实体类别信息的多模态知识表示方法,该模型将实体基于结构,基于图像以及基于类别的知识表示统一进行联合训练,完成多模态知识图谱表示。包括:实体图像信息的嵌入方法,负责实体图像特征信息的抽取以及从图像空间到知识空间的转换;实体类别信息的嵌入方法,对实体类别和对应三元组关系的语义联系进行建模,构建实体基于类别下的表示;融合实体图像信息和实体类别信息的多模态知识表示模型,负责融合实体图像信息和实体类别信息多模态的知识表示学习。本发明通过构造多模态知识表示方法,为解决知识图谱推理技术中的数据稀疏问题,高效计算实体和关系的语义联系,融合和推理的性能提供了新的思路。
Description
技术领域
本发明属于知识图谱推理技术,尤其涉及信息检索、问答系统和智能对话等人工智能相关领域。
背景技术
随着第五代移动通信(Fifth Generation,5G)时代的到来,互联网技术得到了快速发展,数据的体量和维度爆炸性增长,面对海量数据,用户对搜索的精准化和智能化的需求日益增长,为用户提供能够读懂用户需求的智能服务,这一问题亟待解决。知识图谱作为一种直观的发现、管理和利用知识的知识表达方式应运而生。要理解知识图谱,首先要对知识库做出说明。知识库(knowledge base,KB)是将人类知识结构化形成的知识系统,其中包含了基本事实、通用规则和其它有关信息,在知识库中,将世界上的具象事物与抽象概念等表示为实体(entity),将实体之间的联系表示为关系(relation)。
在知识库中,知识通常是以三元组的形式对实体与实体之间的关系进行表示。不同实体之间根据不同的关系连接在一起,通过众多三元组的链接,知识库中储存的知识最终构成错综复杂的知识图谱 (Knowledge graph,KG),其中实体用知识图谱中的节点表示,而关系则用连接节点的边来表示。
为了提高搜索速度和准确性、改善用户搜索体验,知识图谱这一概念最早于2012年被美国GOOGLE公司提出。GOOGLE公司从多来源进行信息收集,并进行数据整合完成知识抽取,再经过知识融合等步骤最终完成知识图谱的构建。知识图谱在GOOGLE搜索上的成功应用激起了很多国内外互联网公司对于知识图谱的研究兴趣,越来越多的公司开始尝试将知识图谱应用到具体业务上,例如微软开发的用于智能搜索和广告业务的Probase,Facebook用于智能搜索和个性化推荐的社交图谱,阿里巴巴用于智能导购、智能搜索、个性化推荐以及智能问答的电商知识图谱,美团用于多种生活场景智能搜索和个性化推荐的AI大脑知识图谱等等,知识图谱已经在多个领域展现出了良好的应用前景。
在信息爆炸的时代,越来越多的大型知识图谱被构建出来用来存储知识,如Freebase、DBpedia、WordNet和Wikidata等,一方面知识库中已经存在了海量的数据,另一方面,每天又会有大量的新知识产生,如何有效地将新知识与已有知识融合,更好地利用海量知识中存在的有价值信息,是我们如今亟待解决的问题。基于网络形式的知识表示在大规模的知识图谱下存在着计算效率低下和数据稀疏等问题。目前大部分开放的知识图谱主要是由人工或者半自动化的方式构建,导致这些图谱面临着严重的知识缺失问题,同时由于知识图谱本身图结构的存储方式,导致计算效率低下。
为解决这些问题,知识推理方法应运而生,作为知识图谱的研究热点之一,可以应对上述问题,完成知识图谱的补全。知识表示学习的目的是希望通过一定的方法实现知识图谱中实体和关系的分布式表示,完成知识图谱中实体和关系低维连续向量空间的转换。知识表示学习方法旨在解决计算效率低下和数据稀疏的问题,捕获实体和关系之间的语义联系时可以采用计算低维稠密向量之间相似度的方法,使得知识表示学习各项任务的性能得到了显著提升,因此在知识图谱补全、智能搜索等任务中得到了广泛应用。
随着深度学习技术的不断发展,深度学习算法逐渐被应用到知识表示学习领域,在很多场景下都取得了很好的效果。知识推理技术已在信息检索、推荐系统、电子商务等应用领域发挥了重要的作用,知识推理能够更好地理解用户搜索意图,提供更精准的搜索答案,回答复杂的推理问题。同时知识推理也在疾病诊断、金融反欺诈、数据异常分析等诸多不同的领域已展示出良好的应用前景。基于知识表示的知识推理能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,应用前景十分广阔,但目前仍然面临一些挑战,因此,对于基于知识表示的知识推理方法研究是十分有必要的。
发明内容
本发明提出一种融合实体图像信息和实体类别信息的多模态知识表示方法,将多模态信息的知识表示与改进的GAT模型相结合。该模型不仅仅关注三元组结构特点,同时将知识图谱中实体类别信息和知识图谱外部丰富的视觉信息考虑进去,将实体基于结构的知识表示、基于图像的知识表示以及基于类别的知识表示统一进行联合训练,完成多模态知识图谱表示。包括以下步骤:
1.在融合实体图像时,我们通过设计图编码器来完成实体图像特征信息的抽取以及从图像空间到知识空间的转换,并使用注意力机制进行实体的多图像学习模型,构建实体基于图像的表示;
2.在融合实体类别信息时,我们通过注意力机制对实体类别和对应三元组关系的语义联系进行建模,构建实体基于类别下的表示;
3.在对模型进行训练时,我们采用改进的图注意力网络更深层次地挖掘实体特征,得到稳定的知识表达,用于后续相关任务的使用。
对于实体图像视觉信息的抽取我们设计了一种基于神经网络的实体图像编码器,我们首先会使用图像方面经典的神经网络模型抽取实体图像中蕴含的丰富知识细节,由于图像特征和知识图谱知识处于不同的语义空间,存在空间异质性,我们还需要通过映射矩阵来完成实体基于图像的知识表示。实体图像信息的嵌入旨在充分挖掘实体图像当中的知识细节,从多方面丰富实体特征信息,构建实体基于图像信息的知识表示,以此来提升知识表示学习模型的性能。
实体图像信息的融合存在两个主要问题:一是图像与知识图谱当中知识存储结构不同,如何构建合理的模型完成两种不同表达形式知识的融合,实现异质信息的融合,二是描述实体信息的图像往往又成千上百张,图像本身的质量也良莠不齐,描述图像特征的角度和粒度也多种多样,如何从这些海量图片中挑选出合适的图像来进行训练也是很大的挑战。
针对上述提到的难点问题,我们设计了一种融合实体图像信息的方法,将实体图像信息通过一系列操作转化为实体基于图像的知识表示,完成知识从图像空间到知识空间的映射。对于实体图像,我们使用实体图像编码器从实体图像当中抽取特征信息,形成一个实体对应的基于图像的表示。我们首先使用了神经网络完成图像特征的抽取,这些特征中包含了丰富的实体视觉信息,接下来我们使用映射矩阵将处于图像空间的特征表示映射到知识空间中,建立实体基于图像的表示。最后引入注意力机制为实体的一系列图像表示赋予权重,经过加权求和操作得到实体基于图像信息的知识表示。
附图说明
图1实体图像编码器流程图。
图2注意力机制构建实体基于图像的表示流程示意图。
图3注意力机制构建实体基于类别的表示流程示意图。
图4融合实体图像信息和实体类别信息多模态的知识表示模型示意图。
具体实施方式
为使本发明的上述特点和优点更明显易懂,下面结合具体实施方式和附图对本发明作进一步详细说明。
本发明设计的实体图像信息的嵌入方法,其中实体图像编码器流程如图1所示,图2为注意力机制构建实体基于图像的表示流程示意图,其主要步骤包括:
步骤101、图像特征提取。对于视觉知识,我们使用在ImageNet 上预先训练的VGG16 Net模型,我们使用来自最后一个全连接层的向量作为我们所需的图像特征向量。对于图像输入imgi,我们使用fi表示实体图像的特征向量。
步骤102、图像特征映射。为将实体图像特征表示向量从图像空间映射到知识空间。我们构造了一个图像映射模块,使用映射矩阵完成实体图像特征表示向量从图像空间到知识空间的转换,得到图像在知识空间中的表示。图像映射模块具体定义为pi=tanh(W·fi+b)。实体图像通过图像特征提取模块得到实体在图像空间的特征表示fi,再通过图像映射模块完成实体图像特征向量从图像空间到知识空间的转换,得到实体图像在知识空间的表示pi。
步骤103、图像特征选择。首先通过TransE模型训练得到知识图谱中实体基于结构的实体表示向量和关系表示向量。对于第k个实体的第i个图像的注意力权值计算公式如下:
对于注意力打分函数,我们采用了缩放点积模型,来计算每个实体对应的多个图像表示向量的注意力分数。注意力打分函数具体计算公式如下:
最后,我们将计算出的注意力分数为实体的不同图像表示表示向量赋予权重,做加权求和操作,得到最终的实体基于图像的表示向量。
通过以上方式,我们可以看出,当实体的图像表示向量与实体本身的结构表示向量以及对应的关系表示向量越相似时,该图像对应的注意力分数就会越高,该图像在最后的实体基于图像的表示向量中占比重就越大,也说明该图像所包含的信息更加丰富。
本发明设计的实体类别信息的嵌入方法,注意力机制构建实体基于类别的表示流程如图3所示,其主要步骤包括:
步骤201、实体类别编码器。首先根据实体的freebaseID找到对应的WikiDataID,然后将实体类别信息与当前WikiDataID对应页面中的语句进行匹配,通过计算实体类别信息与当前实体对应页面中语句的莱文斯坦距离得到相似度最高的语句作为实体类别信息的文本说明语句,再通过卷积神经网络CNN对类别说明文本进行特征提取,最终得到实体类别特征向量。使用对于类别输入ci,我们使用qi表示实体类别的特征向量。
步骤202、多类别的注意力机制。为了更好地丰富知识表示的语义信息,我们通过注意力机制来计算实体类别与实体关系之间的相关性大小,最终形成实体基于类别信息的知识表示。
我们给出具体的多类别注意力模型定义,对于实体的第i个类别的注意力权值计算公式如下:
其中,αic代表实体的第i个类别的注意力权值,qi代表实体的第i 个类别的表示向量,rs代表和当前实体的第i个类别出现在同一个三元组中的关系表示向量。
最后,我们将计算出的注意力分数为实体的不同类别表示向量赋予权重,做加权求和操作,得到最终的实体基于类别的表示向量。
通过以上方式,我们可以看出,当实体的类别表示向量与对应三元组中关系表示向量越相似时,该类别对应的注意力分数就会越高,该类别表示向量在最后的实体基于类别的表示中所占比重就越大,也说明该类别所包含的信息更接近当前实体以及对应的关系信息。
本发明设计的融合实体图像信息和实体类别信息的多模态图注意力网络知识表示模型,其中融合实体图像信息和实体类别信息多模态的知识表示模型如图4所示,其主要步骤包括:
步骤301、知识图谱注意力层。首先对知识图谱中的三元组(h,r,t) 构建对应的向量表示,具体定义为:
cijk=W1·concat(hM,rs,tM)
其中,cijk是三元组(h,r,t)的特征表示向量,由对应的实体和关系特征向量经过拼接和线性变换得到,W1是线性变换矩阵。
score(h,r,t)=a(cijk)
其中score(h,r,t)表示的邻居节点ej对于ei的注意力分数,也就是重要程度,a是选择的注意力计算函数。
接下来使用LeakyReLU作为激活函数,注意力机制表示为:
bijk=Leaky Re L U(W2cijk)
该模型利用注意力机制为当前节点的邻居节点赋予不同的权值,为了更好地利用得到的注意力值进行后续操作,对注意力值采用了归一化操作,这一操作通过softmax函数来实现,使得最后的注意力值满足概率分布,得到的注意力分数表示为:
从而,实体的新嵌入通过由邻居节点通过注意力机制分数进行加权求和汇总得出,具体定义如下:
最后,为了能够使得模型能够学习到丰富稳定的邻居特征,增强模型的表达效果,此模型引入了多头注意力机制,同时也在一定程度上缓解了随机初始化可能带来的影响。多头注意力的公式定义如下:
步骤302、模型损失函数设计。我们借鉴平移模型的思想来构建此模型的损失函数,对于给定有效三元组(h,r,t),通过此模型学习到的实体和关系的嵌入使得实体t是实体h通过关系r连接的最近邻居,得分函数定义为:
fr(h,t)=||h+r-t||
对于给定有效三元组(h,r,t),模型的损失函数定义如下:
L(Ω)=∑(h,r,t)∈G∑(h,r,t)′∈G′[fr′(h,t)-fr(h,t)+γ]+
其中,[x]+表示x的正部分,γ表示边缘超参数。
步骤303、模型解码器设计。为了得到知识表示的平移特征,在对学习到的特征向量进行解码时,我们采用了基于卷积神经网络 ConvKB模型作为解码器网络,同时也可以挖掘到三元组(h,r,t)更深层次更多方面的特征,通过获取此模型训练收敛后节点和关系向量,在ConvKB模型中,每个三元组的元素由一个列向量表示,因此,每个3列矩阵组成一个三元组。随后向卷积层输入由3列矩阵表示的三元组,为了得到更深层次的知识表示,采用多个过滤器操作生成不同的特征图。在此之后,输入三元组的单个特征向量就可以通过这些特征图的串联操作得到。将权重向量和特征向量进行点乘之后得到一个分数结果,以此结果对三元组的有效性进行预测。
本发明FB55K-C数据集上进行了训练和验证,实验选取TransE, IKRL,ConvKB,ConvE和KBGAT模型作为基线模型,为保证公平,均采用任务中的最佳参数进行训练,并保证所有模型的知识向量维数一致。实验结果表明该模型在性能上较之前的算法都有较好的表现,主要原因体现在两个方面:一方面,此模型融合了丰富的实体特征,增强了模型的知识表示性能,不仅仅包括三元组结构信息,还根据实体视觉信息和类别信息构建了实体基于图像的表示和实体基于类别的表示;另一方面,我们改进了知识表示学习模型,在融合实体视觉信息时,我们设计了图像编码器实现对实体图像特征的抽取;在融合实体类别信息时,我们利用了类别信息和对应三元组关系之间的语义联系,利用注意力机制来抽取实体类别信息;图注意力网络层利用注意力机制动态地为当前节点的邻居节点赋予不同的权重,同时引入多头注意力机制来挖掘更深层次的特征表示;最后利用ConvKB模型对图注意力层输出的知识表示进行解码,从而应用到更多的任务当中。
本发明在知识图谱的框架下提出一种融合实体图像信息和实体类别信息的多模态知识表示方法,将多模态信息的知识表示与改进的 GAT模型相结合。该模型不仅仅关注三元组结构特点,同时将知识图谱中实体类别信息和知识图谱外部丰富的视觉信息考虑进去,将实体基于结构的知识表示、基于图像的知识表示以及基于类别的知识表示统一进行联合训练,完成多模态知识图谱表示。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种融合实体图像信息和实体类别信息的多模态知识表示方法,其特征在于,包括:
A、实体图像信息的嵌入方法:通过设计图编码器来完成实体图像特征信息的抽取以及从图像空间到知识空间的转换,利用注意力机制来对图像信息进行筛选组合,使用图像特征和实体以及对应关系特征的相关性大小作为注意力分数计算依据,构建实体基于图像的表示;
B、实体类别信息的嵌入方法:通过注意力机制对实体类别和对应三元组关系的语义联系进行建模,构建实体基于类别下的表示;
C、融合实体图像信息和实体类别信息的多模态图注意力网络知识表示:将实体类别信息,将实体结构特征、实体图像特征和实体类别特征结合起来,使用GAT模型进行训练,实现多模态知识表示模型的构建。
2.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法,其特征在于,步骤A进一步包括以下步骤:
A1、实体图像编码器:使用VGG16 Net模型从实体图像中抽取图像特征,并使用图像映射矩阵完成实体图像特征表示向量从图像空间到知识空间的转换,图像映射矩阵定义如下:
pi=tanh(W·fi+b)
A2、多图像的注意力机制:通过TransE模型训练得到实体基于结构的实体表示向量和关系表示向量,采用缩放点积模型来计算每个实体对应的多个图像表示向量的注意力分数,并在缩放点积模型引入了除以的操作,可以避免当输入向量维度较高时结果方差过大的问题;注意力打分函数具体计算公式如下:
其中,pi代表实体的第i个图像的表示向量,vs代表实体基于结构的实体表示向量和该实体对应的关系表示向量的拼接向量。
3.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法,其特征在于,步骤B进一步包括以下步骤:
B1、实体类别编码器:首先确定实体类别对应的说明文本语句,然后使用卷积神经网络完成对实体类别说明文本语句特征的抽取,最终得到实体类别特征向量;
B2、多类别的注意力机制:通过注意力机制来计算实体类别与实体关系之间的相关性大小,最终形成实体基于类别信息的知识表示;将计算出的注意力分数为实体的不同类别表示向量赋予权重,做加权求和操作,得到最终的实体基于类别的表示向量:
其中,αic代表实体的第i个类别的注意力权值,qi代表实体的第i个类别的表示向量,rs代表和当前实体的第i个类别出现在同一个三元组中的关系表示向量。
4.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法,其特征在于,步骤C进一步包括以下步骤:
C1、多头注意力神经网络层:将无向图中的边进行扩展,表示为知识图谱中的有向关系路径;然后对关系路径进行知识表示,并对当前实体节点的n跳邻居的语义信息进行挖掘;最后,在每个图注意力层之后标准化当前得到的实体表示向量;
C2、损失函数设计:对于给定有效三元组(h,r,t),通过学习到的实体和关系的嵌入使得实体t是实体h通过关系r连接的最近邻居,得分函数定义为:fr(h,t)=‖h+r-t‖对于给定有效三元组,模型的损失函数定义如下:
L(Ω)=∑(h,r,t)∈G∑(h,r,t)′∈G′[fr′(h,t)-fr(h,t)+γ]+
其中,[x]+表示x的正部分,γ表示边缘超参数;
C3、解码器设计:将卷积神经网络ConvKB模型作为解码器网络,获取训练收敛后节点和关系向量,每个三元组的元素由一个列向量表示,每个3列矩阵组成一个三元组;为了得到更深层次的知识表示,采用多个过滤器操作生成不同的特征图,通过特征图的串联得到单个特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687397.6A CN113486190B (zh) | 2021-06-21 | 2021-06-21 | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687397.6A CN113486190B (zh) | 2021-06-21 | 2021-06-21 | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486190A true CN113486190A (zh) | 2021-10-08 |
CN113486190B CN113486190B (zh) | 2024-01-12 |
Family
ID=77935693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110687397.6A Active CN113486190B (zh) | 2021-06-21 | 2021-06-21 | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486190B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064926A (zh) * | 2021-11-24 | 2022-02-18 | 国家电网有限公司大数据中心 | 多模态电力知识图谱构建方法、装置、设备及存储介质 |
CN114707005A (zh) * | 2022-06-02 | 2022-07-05 | 浙江建木智能系统有限公司 | 一种舰船装备的知识图谱构建方法和系统 |
CN115526293A (zh) * | 2022-09-13 | 2022-12-27 | 深圳市规划和自然资源数据管理中心 | 一种顾及语义和结构信息的知识图谱推理方法 |
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及系统 |
CN115797737A (zh) * | 2022-06-28 | 2023-03-14 | 合肥工业大学 | 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法 |
CN116028654A (zh) * | 2023-03-30 | 2023-04-28 | 中电科大数据研究院有限公司 | 知识节点的多模态融合更新方法 |
CN116385841A (zh) * | 2023-02-28 | 2023-07-04 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
-
2021
- 2021-06-21 CN CN202110687397.6A patent/CN113486190B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
Non-Patent Citations (1)
Title |
---|
杜文倩;李弼程;王瑞;: "融合实体描述及类型的知识图谱表示学习方法", 中文信息学报, no. 07 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064926A (zh) * | 2021-11-24 | 2022-02-18 | 国家电网有限公司大数据中心 | 多模态电力知识图谱构建方法、装置、设备及存储介质 |
CN114707005A (zh) * | 2022-06-02 | 2022-07-05 | 浙江建木智能系统有限公司 | 一种舰船装备的知识图谱构建方法和系统 |
CN114707005B (zh) * | 2022-06-02 | 2022-10-25 | 浙江建木智能系统有限公司 | 一种舰船装备的知识图谱构建方法和系统 |
CN115797737A (zh) * | 2022-06-28 | 2023-03-14 | 合肥工业大学 | 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法 |
CN115797737B (zh) * | 2022-06-28 | 2023-11-28 | 合肥工业大学 | 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法 |
CN115526293A (zh) * | 2022-09-13 | 2022-12-27 | 深圳市规划和自然资源数据管理中心 | 一种顾及语义和结构信息的知识图谱推理方法 |
CN115526293B (zh) * | 2022-09-13 | 2024-06-21 | 深圳市规划和自然资源数据管理中心 | 一种顾及语义和结构信息的知识图谱推理方法 |
CN115617956A (zh) * | 2022-12-16 | 2023-01-17 | 北京知呱呱科技服务有限公司 | 一种基于多模态注意力图谱的专利检索方法及系统 |
CN116385841A (zh) * | 2023-02-28 | 2023-07-04 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
CN116385841B (zh) * | 2023-02-28 | 2023-11-21 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
CN116028654A (zh) * | 2023-03-30 | 2023-04-28 | 中电科大数据研究院有限公司 | 知识节点的多模态融合更新方法 |
CN116028654B (zh) * | 2023-03-30 | 2023-06-13 | 中电科大数据研究院有限公司 | 知识节点的多模态融合更新方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113486190B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN113221969A (zh) | 一种基于物联网感知的双特征融合的语义分割系统及方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN114817663B (zh) | 一种基于类别感知图神经网络的服务建模与推荐方法 | |
CN109712108B (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN114265986B (zh) | 一种融合知识图谱结构与路径语义的信息推送方法和系统 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN112988917A (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN112100486B (zh) | 一种基于图模型的深度学习推荐系统及其方法 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN114942998B (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
CN115270007A (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
Sun et al. | Graph force learning | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN112508181A (zh) | 一种基于多通道机制的图池化方法 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN113836319B (zh) | 融合实体邻居的知识补全方法及系统 | |
CN115098646B (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
CN116050523A (zh) | 一种基于混合知识图的注意力引导增强的常识推理框架 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及系统 | |
CN114911930A (zh) | 一种全局与局部互补的双向注意的视频问答方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |