CN112036182A - 多角度引入属性语义的知识表示学习方法和系统 - Google Patents
多角度引入属性语义的知识表示学习方法和系统 Download PDFInfo
- Publication number
- CN112036182A CN112036182A CN202010757468.0A CN202010757468A CN112036182A CN 112036182 A CN112036182 A CN 112036182A CN 202010757468 A CN202010757468 A CN 202010757468A CN 112036182 A CN112036182 A CN 112036182A
- Authority
- CN
- China
- Prior art keywords
- representation
- attribute
- embedded
- nodes
- semantics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003058 natural language processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 53
- 238000012512 characterization method Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 1
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中,采用以下两种方式中的至少一种对结点的属性语义进行表征:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。本发明提供了两种引入属性语义的角度,对数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
Description
技术领域
本发明涉及知识表示学习领域,特别涉及融合数字外部信息的知识表示的建模,具体涉及一种多角度引入属性语义的知识表示学习方法和系统。
背景技术
近些年,知识图谱(Knowledge Graph,KG)推动了许多知识驱动的应用,如问答和数据集成。DBpedia、Freebase、YAGO3是知识图谱中应用最广泛,也最为人们熟知的数据集。它们将知识存储在包含两个实体及其关系的三元组中。面向知识图谱的表示学习是知识工程领域中十分重要的一项工作,这项工作促进了一些下游任务的开展,如链路预测和实体分类等。
知识表示学习(KG representation Learning)也称为知识嵌入学习(KGEmbedding),目的是将知识图谱的元素编码为低维的嵌入式表示。这些量化的嵌入式表示可以捕获全局模式(也称为基于结构的信息),并使计算给定三元组的存在性成为可能。
目前,基于实体和关系之间连接关系(结构信息)的知识表示学习方法可以分为基于翻译的模型、基于语义匹配的模型和基于神经网络的模型三类。TransE及其引申模型等基于翻译的模型把关系看作两个实体之间的翻译操作,并以此作为训练的目标。语义匹配模型,如RESCAL、DistMult、ComplEx,利用三维矩阵来表示图谱,此矩阵中的值代表是否存在该三元组,他们通过矩阵分解来得到实体和关系的表示。ConvE和ConvKB等神经网络模型则是引入神经网络作为其核心结构。
近年来,越来越多的工作试图在传统的包含结构信息的数据库中添加额外的信息,以更详细地描述实体或关系。这些外部信息往往通过具体的属性与实体或关系进行连接。根据这些外部信息的数据类型,模型可分为四类:基于文本外部信息的模型(DKRL,KDCoE),基于图像外部信息的模型(IKRL),基于数字外部信息的模型(LiteralE,MT-KGNN,KBLRN)以及基于多模态外部信息的模型(EAKGAE,MKBE)。它们对这些外部信息进行编码,并将它们与实体或关系的嵌入式表示相结合,得到了更佳的实体表示。如在融合图像信息的工作中,IKRL为现有知识图谱中的实体添加相应的图片,利用CNN或注意力模型对图片信息进行表征,并将其与实体表征结合,利用TransE的思想学习实体和关系的向量表示,该工作将图片中的包含关系或是视觉上的相似关系加入到知识图谱表示当中;在融合文本的工作中,DKRL利用自然语言处理方法对文本数据进行表征并与结点表征进行融合,同样在TransE的框架下对三元组的表征进行学习;在融合数字外部信息的工作中,LiteralE对结点的数字描述依据其属性构造表征向量,并同样与结点表征进行融合输入到表示学习框架中(该方法将会在方法原理部分作细致说明)。但是已有的引入数字外部信息的方法仅将属性作为构造表示向量时维度划分的依据,而忽略了属性本身的语义。
因此,属性语义信息的编码以及语义信息同数字外部信息的融合是十分必要的工作。这将会使得外部数据信息得到充分利用,并提升表示学习效果,从而为下游任务提供帮助。
发明内容
本发明的主要目的在于提供两种引入属性语义信息的角度,即通过不同的方法对语义信息进行编码,并利用两种方式将其与结点的嵌入式表示以及数字外部信息的嵌入式表示进行结合。这两个角度都对先前的数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
本发明的另一目的在于利用更优的嵌入式表示结果进行基于知识图谱的链接预测。
本发明采用的技术方案如下:
一种多角度引入属性语义的知识表示学习方法,包括以下步骤:
对结点的属性语义进行表征,得到属性文本的嵌入式表示;
将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;
通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。
进一步地,所述对结点的属性语义进行表征,采用以下两种方式中的至少一种:
利用词袋模型对属性的语义进行表征;
将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。
进一步地,所述利用词袋模型对属性的语义进行表征,包括:
提取属性的描述性词汇,构造属性语义的嵌入式向量,该向量的各个维度为各个描述性词汇;
当某个属性包含某个描述性词汇时,则该描述性词汇对应的维度处数值表示为1,不存在的描述性词汇所对应维度处表示为0,即构成属性的词袋特征。
进一步地,将属性的词袋特征与数字外部信息的嵌入式表示结合,形成新的数字外部信息的嵌入式表示;将新的数字外部信息的嵌入式表示与结点的嵌入式表示融合,代入到融合数字外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。
进一步地,所述将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征,包括:
将属性预处理为文本形式,并针对结点进行汇总,每个结点都得到一个描述性文段;
通过自然语言处理工具对描述性文段进行处理,得到文段的嵌入式表示。
进一步地,将文段的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合,代入到融合文本外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。
进一步地,所述将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中,包括:将三部分嵌入式表示通过方程g进行融合,并得到同结点表征维度相同的表征向量;其中方程g为线性映射或非线性映射;在线性映射中,三部分嵌入式表征向量首先通过收尾连接得到一个新的衔接表征向量,该衔接表征向量通过乘以映射乘积矩阵变换到指定空间,而非线性映射则对三部分单独的表征向量和其首尾连接得到的衔接表征向量都予以考虑,各个部分均乘以其各自的映射矩阵,并将最终结果通过sigmoid函数和双曲非线性函数进行变换,从而得到指定空间下的向量;最终三元组各个元素的表征同时输入目标函数进行计算,计算结果为代表该三元组存在性的概率值。
进一步地,在训练神经网络的过程中,输入为经过空间映射后的表征向量,输出为表示三元组存在可能性的概率值,训练过程中所计算得到的概率值与真实的标签之间的差距将作为反向迭代的依据,通过训练使得计算得到的概率值逐渐逼近真实的标签;通过反向传播,结点和关系的表征向量和参与运算的矩阵将进行迭代,每轮迭代过程包括根据与真实标签差距的反馈进行反向迭代更新,再利用更新后的向量重新正向计算概率值,在每步的迭代过程都使得结点和关系的表征向量得到调整,从而使其正向计算结果与真实标签接近,训练得到的三元组表征即为最终结点和关系的表征向量。
一种多角度引入属性语义的知识表示学习系统,其包括:
属性语义表征模块,用于对结点的属性语义进行表征,得到属性文本的嵌入式表示;
融合模块,用于将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;
知识表示学习模块,用于通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。
一种基于知识图谱的链接预测方法,利用上述方法得到的实体和关系的嵌入式表示构成知识图谱,基于该知识图谱进行链接预测。
本发明的有益效果如下:
本发明解决了属性语义未被充分利用而造成的实体和关系的嵌入式表示不足够精确的问题,提供了两种引入属性语义信息的角度,这两个角度都对先前的数字形式的外部数据进行了更充分的利用,并最终提高了知识表示学习效果。本发明所得到的三元组的嵌入式表示可以应用于一些表示学习的下游工作,如链接预测和实体分类等。
本发明将原始的引入外部信息的数据进行了扩充,通过提取数字外部信息数据中属性的描述性词语扩充了属性的语义描述数据;并通过将同一实体的所有描述性词语进行汇合构造针对实体的文本描述数据。
附图说明
图1是知识表示学习系统框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰明了,以下将参照附图及实例,对本发明作进一步详细说明。
1.方法原理部分:
引入属性语义的知识表示学习方法的核心是对属性语义进行表征及将其与结点的嵌入式表示及数字外部信息的嵌入式表示结合。下面分别介绍本发明提出的两种语义表征方法及所对应的两种融合方式。
第一种方法利用词袋模型对属性的语义进行表征(称为LiteralE-AN)。在原始的数字外部信息数据中,每个结点都由特定的属性与其对应的数值相连接。如:
</m/0n5c9,http://rdf.freebase.com/ns/location.location.area,1245.78>,表示国家/m/0n5c9的面积为1245.78,而location.location.area则是一条具有“面积”的语义含义的属性。在传统的融合数字外部信息的知识表示方法,如LiteralE中,模型将不同的属性作为构造表征向量时维度划分的依据:每个属性对应一个维度,而该维度处所对应的数值则为该属性对应的数字。具体过程如下所示:
/m/01dvry 属性1:tv.tv_program.number_of_seasons 9
/m/020trj 属性2:people.person.height_meters 1.74
/m/0n5c9 属性3:location.location.area 1245.78
/m/0n5c9 属性4:location.dated_location.date_founded 1739
/m/0fczy 属性5:topic_server.population_number 214845
所列数据为不同结点针对不同属性的数字外部信息,其中属性部分已删除了网址中相同的部分,保留了能够代表其语义含义的部分。在数字外部信息的表征过程中,依据结点及属性进行了如表1所示的构造(此处假设只包含所列数据的结点和属性)。
表1数字外部信息表征向量构造方式
结点\属性 | 属性1 | 属性2 | 属性3 | 属性4 | 属性5 |
/m/01dvry | 9 | 0 | 0 | 0 | 0 |
/m/020trj | 0 | 1.74 | 0 | 0 | 0 |
/m/0n5c9 | 0 | 0 | 1245.78 | 1739 | 0 |
/m/0fczy | 0 | 0 | 0 | 0 | 214845 |
在这个过程中LiteralE并未考虑属性本身具备的语义信息。本发明的第一个方法,考虑属性所具有的语义信息,并利用类似数字外部信息表征的构造方式对其进行表征,即提取所有属性的描述性词汇(在本例中,如location、area),并依据他们构造新的向量,每一维对应一个词汇,该处数值则为0或1,1代表该属性具有该词汇,0代表不具有。这种表征方法被称为词袋模型。而后将每个结点对应的所有属性的词袋特征接入数字外部信息嵌入式表示之后得到新的嵌入式表示。依据上文例子,构造属性语义的表征过程如表2所示(此处只引用部分词汇)。
表2属性语义信息表征向量构造方式
结点\词汇 | program | number | people | location | dated | population |
/m/01dvry | 1 | 1 | 0 | 0 | 0 | 0 |
/m/020trj | 0 | 0 | 1 | 0 | 0 | 0 |
/m/0n5c9 | 0 | 0 | 0 | 1 | 1 | 0 |
/m/0fczy | 0 | 1 | 0 | 0 | 0 | 1 |
最后,这些结点关于外部信息的嵌入式表示与传统的结点表征进行融合,并在统一的知识表示学习框架系进行学习,得到训练后的结点和关系的表征。
本发明的第二种方法是将属性看作结点的描述性文本(称为LiteralE-AT),利用自然语言处理工具Doc2Vec对文本的语义进行表征。为了得到结点的描述性文本,需要先对该结点的所有属性进行描述性词汇的提取。由于属性为网址形式的文本,在预处理过程中,需将不具有任何含义的重复部分删除,并对具有描述意义的词语,如日期、人口数、地理信息等进行提取。并将这些词语汇总成为文段的形式,如表3所示。
最后,利用Doc2Vec将这种人为构造的描述文本进行表征,得到的嵌入式表示再与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合,并共同输入统一的表示学习框架。此处所提及的表示学习框架将在系统原理中进行详细描述。
表3结点的表述性文本
此外,由于两种语属性语义的引入角度截然不同,即前者将词袋特种接入数字外部信息的表征后再同结点的表征融合,后者是将文本的语义表征同结点和数字表征共同进行融合,所以可将两种角度进行结合(称为LiteralE-Combine),并在同一个训练过程中进行学习。
2.系统描述部分:
本发明基于知识表示学习对外部信息的引入方式进行研究,提出了两种引入属性语义的方法,并将融合后的结点的嵌入式表示输入到统一的知识表示学习框架中。该框架具有一致的思路和结构,如图1所示。
本框架为同时利用两种属性语义引入方法的流程表示。该框架的嵌入式表示有三个部分:三元组的嵌入式表示、数字外部信息的嵌入式表示和属性文本的嵌入式表示。本发明的第一个角度即丰富数字外部信息表示的方法,将属性的词袋特征接入数字外部信息表征后得到新的数字外部信息的表征,并同结点的表征进行融合;第二个角度则为引入属性文本表征的模块,此模块作为单独的部分可同结点和数字外部信息的表征同时进行融合。该三部分嵌入式表示通过方程g进行融合(只考虑单一角度的流程与之类似,即去掉另一角度,此时只有两部分嵌入式表征通过g进行融合),并得到同结点表征维度相同的表征向量。在此映射过程中,方程g具有多种选择,即线性映射和非线性映射。在线性映射中,三部分嵌入式表征向量首先通过收尾连接得到一个新的表征向量,这个衔接表征向量通过乘以映射乘积矩阵变换到指定空间。而非线性映射则对三部分单独的表征向量和其首尾连接得到的衔接表征向量都予以考虑,各个部分均乘以其各自的映射矩阵,并将最终结果通过sigmoid函数和双曲非线性函数进行变换,从而得到指定空间下的向量。该映射的结果为新的实体的表征。最终三元组各个元素的表征同时输入目标函数f进行计算,计算结果为代表该三元组存在性的概率值y。此目标函数可为知识表示学习中的任何一种,如DistMult、ComplEx、ConvE等工作中所构造的目标函数。
训练的核心是一个神经网络,训练的输入为经过空间映射后的表征向量,输出为表示三元组存在可能性的概率值。在训练过程中,所计算得到的概率值与真实的标签之间的差距将作为反向迭代的依据。这些标签区别于所得到的概率数值,其代表三元组是否存在的准确信息,它包括两个元素,即0或1,0代表三元组不存在,1代表存在。通过训练使得计算得到的概率值逐渐逼近真实的标签。而通过反向传播,结点和关系的表征向量和参与运算的矩阵将进行迭代,每轮迭代过程包括根据与真实标签差距的反馈进行反向迭代更新,再利用更新后的向量重新正向计算概率值。所以在每步的迭代过程都会使得结点和关系的表征向量得到调整,从而使其正向计算结果与真实标签接近。训练得到的三元组表征即为最终结点和关系的表征向量。
最终,所得到的三元组的嵌入式表示将应用于一些表示学习的下游工作,如链接预测和实体分类。这些下游任务也真实地对表征结果的质量进行衡量。链接预测的任务是根据三元组中的两个元素预测另一个元素,如通过一个实体和关系预测另一个实体,或通过两个实体预测他们的关系。在该过程中,沿用上述目标函数计算三元组的存在性,并对得到的针对所有结点或关系的概率值进行排序,样本标签1所对应的结点或关系在排序中的排名将作为链接预测任务及表征结果的评价指标。实体分类任务是依据实体的嵌入式表示对实体进行聚类,并依据其真实的类别划分对其进行评价。
表4、表5总结了在链接预测实验中的结果。链接预测是指根据给定的一个实体和关系来预测另一个实体。计算得到的各个实体的概率会根据大小进行排名,其真实标签所在的位置会作为实验的评价指标。在本实验中,指标包含两部分,一个是平均排名(MeanRank),即所有样本排名的平均值;另一个是排名在所有样本中前N个的比例(Hits@N),这里N为1或10。
由表格可以得到本发明在两个数据集中均取得了最好成绩。整体上,LiteralE-Combine提高了基础模型(DistMult-LiteralE,ComplEx-LiteralE和ConvE-LiteralE)的效果。比如Hits@10(avg)在FB15k和FB15k-237数据集上分别提高了03%和10.9%。
从表4中可以看出,基于ComplEx的模型取得了更好的结果。其中本发明中的模型ComplEx-Combine是最优的,基础模型ComplEx-LiteralE是次优的。但是在FB15k-237数据集上,以DistMult为基础的模型表现地更好。ConvE-Combine在两个数据集上在MR这个指标上取得了最好的结果。MR指标比对比模型中最好的结果相比,在两个数据集上分别提高了20.3%和6.7%。
为了评价组合体各部分的性能及其对最终结果的贡献,我们在三种基础模型上进行了烧蚀实验。表6总结了这一部分的结果。这里的评估指标是Hits@10分数。
从表6可以看出,LiteralE-AN,LiteralE-AT和LiteralE-Combine都要比LiteralE好。除了一个数据,即在FB15k数据集上基于ComplEx的模型。本发明的最好结果相较于LiteralE分别提高3.1%、0.9%、1.0%、0.6%、0.5%、10.9%。通过对三个模型进行比较。可以看到,除了基于DistMult的模型外,大多数组合模型都比其单一模型好。在这两个模型中,LiteralE AN的得分最高。在大多数情况下,AN和AT的贡献是差不多的,但是AN更好一些。
表4在FB15k数据集上的链接预测结果(最优结果用粗体表示)
表5在FB15k-237数据集上的链接预测结果(最优结果用粗体表示)
表6烧灼实验结果
数据集/基础模型 | LiteralE | LiteralE-AN | LiteralE-AT | LiteralE-Combine |
FB15k/DistMult | 0.737 | 0.768 | 0.752 | 0.741 |
FB15k/ComplEx | 0.849 | 0.852 | 0.759 | 0.858 |
FB15k/ConvE | 0.816 | 0.822 | 0.825 | 0.826 |
FB15k-237/DistMult | 0.481 | 0.487 | 0.484 | 0.484 |
FB15k-237/ComplEx | 0.427 | 0.43 | 0.43 | 0.432 |
FB15k-237/ConvE | 0.378 | 0.464 | 0.463 | 0.467 |
本发明在对于文本外部信息编码时,不是必须采用Dov2Vec,任何能够将文本表示为向量形式的工具均可使用,如LSTM,N-gram等。其他变形方式如将模型中的两个角度进行简单的组合方式的变换均包含在本发明思想中,如将用词袋方法表示的属性语义信息放在外部,即文本的编码向量处,与结点和数字外部信息的向量通过函数相融合;或将文本编码向量接在数字外部信息后等。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (10)
1.一种多角度引入属性语义的知识表示学习方法,其特征在于,包括以下步骤:
对结点的属性语义进行表征,得到属性文本的嵌入式表示;
将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;
通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。
2.根据权利要求1所述的方法,其特征在于,所述对结点的属性语义进行表征,采用以下两种方式中的至少一种:
利用词袋模型对属性的语义进行表征;
将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。
3.根据权利要求2所述的方法,其特征在于,所述利用词袋模型对属性的语义进行表征,包括:
提取属性的描述性词汇,构造属性语义的嵌入式向量,该向量的各个维度为各个描述性词汇;
当某个属性包含某个描述性词汇时,则该描述性词汇对应的维度处数值表示为1,不存在的描述性词汇所对应维度处表示为0,即构成属性的词袋特征。
4.根据权利要求3所述的方法,其特征在于,将属性的词袋特征与数字外部信息的嵌入式表示结合,形成新的数字外部信息的嵌入式表示;将新的数字外部信息的嵌入式表示与结点的嵌入式表示融合,代入到融合数字外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。
5.根据权利要求2所述的方法,其特征在于,所述将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征,包括:
将属性预处理为文本形式,并针对结点进行汇总,每个结点都得到一个描述性文段;
通过自然语言处理工具对描述性文段进行处理,得到文段的嵌入式表示。
6.根据权利要求5所述的方法,其特征在于,将文段的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示进行融合,代入到融合文本外部信息的知识表示学习模型中,得到实体和关系的嵌入式表示。
7.根据权利要求1所述的方法,其特征在于,所述将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中,包括:将三部分嵌入式表示通过方程g进行融合,并得到同结点表征维度相同的表征向量;其中方程g为线性映射或非线性映射;在线性映射中,三部分嵌入式表征向量首先通过收尾连接得到一个新的衔接表征向量,该衔接表征向量通过乘以映射乘积矩阵变换到指定空间,而非线性映射则对三部分单独的表征向量和其首尾连接得到的衔接表征向量都予以考虑,各个部分均乘以其各自的映射矩阵,并将最终结果通过sigmoid函数和双曲非线性函数进行变换,从而得到指定空间下的向量;最终三元组各个元素的表征同时输入目标函数进行计算,计算结果为代表该三元组存在性的概率值。
8.根据权利要求7所述的方法,其特征在于,在训练神经网络的过程中,输入为经过空间映射后的表征向量,输出为表示三元组存在可能性的概率值,训练过程中所计算得到的概率值与真实的标签之间的差距将作为反向迭代的依据,通过训练使得计算得到的概率值逐渐逼近真实的标签;通过反向传播,结点和关系的表征向量和参与运算的矩阵将进行迭代,每轮迭代过程包括根据与真实标签差距的反馈进行反向迭代更新,再利用更新后的向量重新正向计算概率值,在每步的迭代过程都使得结点和关系的表征向量得到调整,从而使其正向计算结果与真实标签接近,训练得到的三元组表征即为最终结点和关系的表征向量。
9.一种采用权利要求1~8中任一权利要求所述方法的多角度引入属性语义的知识表示学习系统,其特征在于,包括:
属性语义表征模块,用于对结点的属性语义进行表征,得到属性文本的嵌入式表示;
融合模块,用于将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;
知识表示学习模块,用于通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。
10.一种基于知识图谱的链接预测方法,其特征在于,利用权利要求1~8中任一权利要求所述方法得到的实体和关系的嵌入式表示构成知识图谱,基于该知识图谱进行链接预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757468.0A CN112036182A (zh) | 2020-07-31 | 2020-07-31 | 多角度引入属性语义的知识表示学习方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757468.0A CN112036182A (zh) | 2020-07-31 | 2020-07-31 | 多角度引入属性语义的知识表示学习方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112036182A true CN112036182A (zh) | 2020-12-04 |
Family
ID=73583666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010757468.0A Pending CN112036182A (zh) | 2020-07-31 | 2020-07-31 | 多角度引入属性语义的知识表示学习方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036182A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2518946C1 (ru) * | 2012-11-27 | 2014-06-10 | Александр Александрович Харламов | Способ автоматизированной семантической индексации текста на естественном языке |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110362817A (zh) * | 2019-06-04 | 2019-10-22 | 中国科学院信息工程研究所 | 一种面向产品属性的观点倾向性分析方法及系统 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和系统 |
-
2020
- 2020-07-31 CN CN202010757468.0A patent/CN112036182A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2518946C1 (ru) * | 2012-11-27 | 2014-06-10 | Александр Александрович Харламов | Способ автоматизированной семантической индексации текста на естественном языке |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和系统 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110362817A (zh) * | 2019-06-04 | 2019-10-22 | 中国科学院信息工程研究所 | 一种面向产品属性的观点倾向性分析方法及系统 |
CN111143479A (zh) * | 2019-12-10 | 2020-05-12 | 浙江工业大学 | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 |
Non-Patent Citations (5)
Title |
---|
AGUSTINUS KRISTIADI, ET AL.: "Incorporating Literals into Knowledge Graph Embeddings", INTERNATIONAL SEMANTIC WEB CONFERENCE ISWC 2019: THE SEMANTIC WEB – ISWC 2019, vol. 11778, 17 October 2019 (2019-10-17), pages 347 - 363, XP047524268, DOI: 10.1007/978-3-030-30793-6_20 * |
JIONG WANG, NENG GAO, ET AL.: "Attributed Network Embedding via a Siamese Neural Network", 2019 IEEE SMARTWORLD/SCALCOM/UIC/ATC/CBDCOM/IOP/SCI, 9 April 2020 (2020-04-09), pages 1101 - 1108 * |
KRISTINA TOUTANOVA, DANQI CHEN: "Observed versus latent features for knowledge base and text inference", PROCEEDINGS OF THE 3RD WORKSHOP ON CONTINUOUS VECTOR SPACE MODELS AND THEIR COMPOSITIONALITY, 31 July 2015 (2015-07-31), pages 57 - 66 * |
QUOC LE, TOMAS MIKOLOV: "Distributed representations of sentences and documents", ICML\'14: PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON INTERNATIONAL CONFERENCE ON MACHINE LEARNING, vol. 32, 21 June 2014 (2014-06-21), pages 1188 - 1196 * |
杜文倩;李弼程;王瑞;: "融合实体描述及类型的知识图谱表示学习方法", 中文信息学报, no. 07, 15 July 2020 (2020-07-15), pages 54 - 63 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN110826336B (zh) | 一种情感分类方法、系统、存储介质及设备 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN111784081B (zh) | 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法 | |
CN111522965A (zh) | 一种基于迁移学习的实体关系抽取的问答方法及系统 | |
CN113704546A (zh) | 基于空间时序特征的视频自然语言文本检索方法 | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN110599592A (zh) | 一种基于文本的三维室内场景重建方法 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112100486B (zh) | 一种基于图模型的深度学习推荐系统及其方法 | |
CN112966091A (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
CN113240046A (zh) | 一种基于知识的视觉问答任务下的多模态信息融合方法 | |
Sun et al. | Graph force learning | |
CN113010690B (zh) | 一种基于文本信息增强实体嵌入的方法 | |
Wu et al. | Visual Question Answering | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
CN116302088B (zh) | 一种代码克隆检测方法、存储介质及设备 | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
CN112036182A (zh) | 多角度引入属性语义的知识表示学习方法和系统 | |
CN115269984A (zh) | 一种专业情报推荐方法和系统 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |