CN105824802B - 一种获取知识图谱向量化表示的方法以及装置 - Google Patents
一种获取知识图谱向量化表示的方法以及装置 Download PDFInfo
- Publication number
- CN105824802B CN105824802B CN201610197184.4A CN201610197184A CN105824802B CN 105824802 B CN105824802 B CN 105824802B CN 201610197184 A CN201610197184 A CN 201610197184A CN 105824802 B CN105824802 B CN 105824802B
- Authority
- CN
- China
- Prior art keywords
- entity
- embedded
- text
- knowledge mapping
- indicates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种获取知识图谱向量化表示的方法以及装置。其中,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。
Description
技术领域
本发明涉及语义万维网领域,具体地,涉及一种获取知识图谱向量化表示的方法以及装置。
背景技术
语义万维网是当前万维网的扩展,含有精确语义信息的数据的网络是语义万维网的核心。万维网之父Tim Berners-Lee提出的开放链接数据项目(Linking Open DataProject)旨在构建这样一个数据网络,语义知识库是构成该数据网络的根本。
在语义万维网环境下,知识图谱的向量化表示计算旨在将知识图谱中的实体表示成一个分布的、低维度的向量,进一步赋予知识图谱可计算的性质,已被证明在知识图谱补充、文本分类和信息抽取上有重要提升作用。将知识图谱的关系视为一个翻译操作,TransE是第一个简单、高效的知识图谱表示学习方法,TransH和TransR分别通过超平面映射和向量空间变换进一步允许一个实体在给定不同的关系时拥有不同的嵌入表示,使一对多、多对一和多对多关系的表示能力进一步提高。
然而,现有的知识图谱向量化表示计算中仍存在如下问题:
1、一对多、多对一和多对多关系的表示能力低下:TransH和TransR从模型的角度对TransE进行优化,没有扩展表示学习中可用的信息来源,对关系表示能力的提高有限。
2、知识图谱稀疏性导致表示效果不足:TransE、TransH和TransR均从知识图谱的结构关系中对嵌入表示进行学习,受限于当前知识图谱通常比较稀疏,表示学习的效果依然无法令人满意。
发明内容
本发明的目的是提供一种获取知识图谱向量化表示的方法以及装置。其中,所述方法不仅能够提高一对多、多对一以及多对多关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。
为了实现上述目的,本发明提供一种获取知识图谱向量化表示的方法。所述方法包括:
根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;
基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。
可选地,所述实体标注工具为以下中的至少一者:
AIDI、TAGME以及Wikify!。
可选地,所述基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示,包括:
根据所述共现网络分别定义一元文本上下文和二元文本上下文;
以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;
根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
可选地,所述根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型,包括:
采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;
根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
可选地,所述使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示,包括:
根据所述嵌入表示模型定义基于边缘的损失函数;
使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
相应地,本发明还提供一种获取知识图谱向量化表示的装置。所述装置包括:
标注单元,用于根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;
构建单元,用于基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
建模单元,用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
训练单元,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。
可选地,所述实体标注工具为以下中的至少一者:
AIDI、TAGME以及Wikify!。
可选地,所述构建单元,具体用于:
根据所述共现网络分别定义一元文本上下文和二元文本上下文;
以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;
根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
可选地,所述建模单元,具体用于:
采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;
根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
可选地,所述训练单元,具体用于:
根据所述嵌入表示模型定义基于边缘的损失函数;
使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
通过上述技术方案,采用文本辅助的方法,在知识图谱的实体和关系嵌入表示建模过程中,引入文本上下文嵌入表示,使得一种关系在给定不同的实体对时可以拥有不同的表示,大大提高对一对多、多对一和多对多关系的表示能力。另一方面,文本上下文嵌入表示的引入,极大地丰富了现有知识图谱的信息,有效解决了知识图谱稀疏性带来的表示效果不足的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图;
图2是本发明一实施例提供的知识图谱向量化表示计算的示意图;
图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图。如图1所示,本发明一实施例提供的获取知识图谱向量化表示的方法包括:
在步骤S101中,根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料。
对于辅助文本语料,形式化表示为一个由词组成的有序序列其中wi表示单个的词,m为该有序序列的长度。给定知识图谱,形式化表示为一个由三元组组成的集合其中(h,r,t)表示一个语义三元组,h和t分别表示头实体和尾实体,r表示头实体和尾实体之间的关系。
给定辅助文本语料使用实体标注工具自动地在给定辅助文本语料中标注知识图谱中存在的实体,得到实体标注的文本语料其中,xi表示中的一个词或者中的一个实体。由于多个连续的词可能被标注为一个实体,的长度m'小于的长度m。通用的实体标注工具均可用于以上的实体标注,如AIDI、TAGME和Wikify!等,也即是实体标注工具为以下中的至少一者:AIDI、TAGME以及Wikify!。
接着,在步骤S102中,基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示。
具体地,该步骤包括:根据所述共现网络分别定义一元文本上下文和二元文本上下文;以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
给定实体标注的文本语料构建一个由词和实体组成的共现网络以将文本信息和实体信息进行关联。其中,表示共现网络中的点,为一个词或者一个实体,表示点xi和点xj之间的共现频率,而且共现网络构造中的共现窗口设置为5。
基于共现网络分别定义一元文本上下文和二元文本上下文。具体地,给定共现网络中任意一点xi,考虑到其邻居节点可以反映其上下文信息,因此,xi的一元文本上下文n(xi)定义为其在共现网络中关联程度较高的邻居节点:
n(xi)={xj|yij>θ} (1)
其中,θ表示共现频率的阈值。图2是本发明一实施例提供的知识图谱向量化表示计算的示意图。如图2所示,n(Avatar)={film,movie,directed}和n(James_Cameron)={director}分别揭示了头实体和尾实体的背景知识。类似地,给定共现网络中任意两点xi和xj,该两点的二元文本上下文n(xi,xj)定义为二者的公共邻居节点:
n(xi,xj)={xk|xk∈n(xi)∩n(xj)} (2)
如图2所示,n(Avatar,James_Cameron)={direct}描述了两个实体之间“direct”(“导演”)的隐含关系。
由于共现网络和实体标注的文本语料同构,以语料为输入,采用Skip-gramWord2Vec进行词嵌入表示学习,进而对于共现网络中的任意一点xi得到一个k维的词向量嵌入表示。根据上述对文本上下文的定义,给定共现网络中任意一点xi,其一元文本上下文嵌入表示n(xi)定义为n(xi)中词向量嵌入表示的加权平均向量:
若n(xi)为空,则n(xi)为零向量0。类似地,给定网络中任意两点xi和xj,其二元文本上下文嵌入表示n(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量:
其中公共邻居节点xk的权重定义为yik和yjk的最小值,为所有权重之和。若n(xi,xj)为空,则n(xi,xj)为零向量0。
紧接着,在步骤S103中,根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型。
具体地,该步骤包括:采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
基于上述所得的文本上下文嵌入表示,分别对知识图谱中实体和关系的嵌入表示进行建模,定义基于翻译方法的模型优化目标。更为具体地,实体的嵌入表示模型定义为该实体的一元文本上下文嵌入表示的线性变换:
其中,和分别表示头实体h和尾实体t的嵌入表示模型,A是一个k×k的矩阵,h和t分别表示偏置向量。类似地,关系r的嵌入表示模型定义为头实体h和尾实体t的二元文本上下文嵌入表示的线性变换:
其中,表示关系的嵌入表示模型,B是一个k×k的矩阵,r表示偏置向量。
进一步地,实体/关系(知识图谱)的嵌入表示模型的目标为该模型的优化即最小化以下损失函数:
对于实体/关系(知识图谱)的嵌入表示模型中的向量和权重矩阵作规范化限制,包括:||h||2≤1、||r||2≤1、||n(h)A||2≤1、||t||2≤1、||n(t)A||2≤1、||n(h,t)B||2≤1、以及
为了进一步提高对一对多、多对一和多对多关系的表示能力,可以令实体在给定不同的关系时拥有不同的嵌入表示,包括基于超平面映射的方法和基于空间变换的方法。
其中,基于超平面映射的方法将实体嵌入表示和首先映射到向量wr对应的超平面上,得到映射后的嵌入表示和其损失函数为基于空间变换的方法使用变换矩阵Mr将实体嵌入表示和首先映射另一个向量空间,得到变换后的嵌入表示和其损失函数为
最后,在步骤S104中,使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。
具体地,该步骤包括:根据所述嵌入表示模型定义基于边缘的损失函数;使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
根据上述所得的知识图谱的嵌入表示模型,定义基于边缘的损失函数为:
其中,max(·,·)表示两个输入的最大值,γ表示边缘值,表示知识图谱中已知的正确的三元组集合,是通过采用随机替换方法从中生成的错误的三元组集合,f(h,r,t)表示损失函数。训练过程采用随机梯度下降的方法,使得上述损失函数(9)最小化,从而得到知识图谱中实体和关系的嵌入表示。
采用本发明实施例提供的方法进行了实验,具体实验过程如下:
1、数据集介绍。实验采用2个在知识图谱表示学习中使用的通用数据集,其中WN11来源于由词的义项组成的知识图谱WordNet,FB15K来源于实体组成的世界知识图谱FreeBase。数据集的相关信息如表1所示。
表1数据集相关统计
辅助文本语料采用2015年8月的维基百科词条描述文本,共包括4,919,463篇文档。实体标注仅以维基百科中已标注的超链接作为候选,若维基百科所标注链接和给定知识图谱中实体的名称相同,则标注为实体,否则不予标注。
2、实验设置。实验评测使用知识图谱表示学习中的通用评测任务——链接预测:即给定一个实体(头实体或尾实体)和一个关系,预测缺失的另一个实体(尾实体或头实体)。链接预测任务首先对所有候选实体通过计算损失函数值的大小进行排序,进而以正确的实体所在位置作为评测指标,包括平均排序和前10命中率。平均排序(Mean Rank)即正确实体排序位置的平均值,前10命中率(Hits@10)即正确实体排序位置位居前10的百分比。考虑到除了该正确实体外,其他实体也可能构成正确的三元组,以上指标会低估表示学习的性能。进一步对实体排序列表中除该正确实体以外其他构成正确三元组的实体过滤,得到矫正的评估指标。我们将未矫正的评估指标记为原始指标(Raw),矫正后的评估指标记为过滤指标(Filter)。易知,更低的平均排序和更高的前10命中率体现了更优秀的表示学习方法。
3、实验结果与分析
采用以上数据集和实验设置,同当前知识图谱表示学习主流方法TransE、TransH和TransR进行对比。除了基于线性变换的文本辅助的知识图谱表示学习方法,本申请人还实现了基于超平面映射和基于空间变换的文本辅助的知识图谱表示学习方法,分别将线性变换方法、超平面映射方法和空间变换方法记为TEKE_E、TEKE_H和TEKE_R。其中,unif和bern表示知识图谱表示学习中通用的两种错误训练三元组样本生成策略。
如表2、表3所示,为链接预测任务的评测结果。在WN18数据集上,本发明实施例提供的方法明显优于对比方法。在FB15K上,本发明实施例提供的方法在前10命中率上明显优于对比方法,考虑到平均排序易受个别极端靠后排序的影响,认为前10命中率更能体现方法的效果对比。
表2 WN18结果分析
表3 FB15K结果分析
一对多、多对一和多对多关系的表示能力对比分析。对于FB15K数据集,分析得到包含一对一、一对多、多对一和多对多关系比例分别为24.2%、22.9%、28.9%和24.0%。如表4、表5所示,分别为预测头实体和预测尾实体的前10命中率对比分析。可知当待预测的实体可能为多个时(预测头实体时多对一和多对多关系,以及预测尾实体时一对多和多对多关系),本发明实施例提供的方法大幅度提高了前10命中率,而仅仅在一对一关系上有轻微的降幅。
表4预测头实体前10命中率分析(%)
表5预测尾实体前10命中率分析(%)
知识图谱稀疏性对表示学习效果的影响。基于FB15K数据集,随机抽取3,000实体及其相关的三元组,进而得到数据集FB3K和2,238个测试三元组以及2,106个验证三元组。在FB3K的基础上,进一步随机扩充3,000个实体得到FB6K数据集,类似地在FB6K的基础上得到FB9K数据集。FB3K、FB6K和FB9K平均每个实体相关的三元组分别为6.45、12.56和18.58个,其稀疏程度逐步降低。为了公平对比,基于FB3K的3,000实体集合和2,238个测试三元组,对比分析了TransE和TEKE_E在平均排序上的效果,如表6所示,当知识图谱稀疏程度降低时,知识表示的效果逐步上升,本发明实施例提供的方法的效果均优于对比方法,且在知识图谱稀疏性强时提升更加明显。
表6知识图谱稀疏性对表示学习效果的影响
本发明实施例通过采用文本辅助的方法,在知识图谱的实体和关系嵌入表示建模过程中,引入文本上下文嵌入表示,使得一种关系在给定不同的实体对时可以拥有不同的表示,大大提高对一对多、多对一和多对多关系的表示能力。另一方面,文本上下文嵌入表示的引入,极大地丰富了现有知识图谱的信息,有效解决了知识图谱稀疏性带来的表示效果不足的问题。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。如图3所示,本发明一实施例提供的获取知识图谱向量化表示的装置包括:
标注单元201,用于根据预设的知识图谱,使用实体标注工具标注辅助文本语料中存在的实体,得到实体标注的文本语料;
构建单元202,用于基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
建模单元203,用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
训练单元204,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。
在本发明一实施例中,所述实体标注工具为以下中的至少一者:
AIDI、TAGME以及Wikify!。
在本发明一实施例中,所述构建单元202,具体用于:
根据所述共现网络分别定义一元文本上下文和二元文本上下文;
以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;
根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
在本发明一实施例中,所述建模单元203,具体用于:
采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;
根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
在本发明一实施例中,所述训练单元204,具体用于:
根据所述嵌入表示模型定义基于边缘的损失函数;
使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
对于本发明一实施例提供的获取知识图谱向量化表示的装置中还涉及的具体细节已在本发明一实施例提供的获取知识图谱向量化表示的方法中作了详细的描述,在此不再赘述。
应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (8)
1.一种获取知识图谱向量化表示的方法,其特征在于,所述方法包括:
根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;
基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示;
所述基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示,包括:
根据所述共现网络分别定义一元文本上下文和二元文本上下文;
以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;
根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示;
对于共现网络中任意一点xi,该点的一元文本上下文n(xi)定义为其在共现网络中关联程度较高的邻居节点:n(xi)={xj|yij>θ},其中,θ表示共现频率的阈值,yij表示点xi和点xj之间的共现频率;该点的一元文本上下文嵌入表示N(xi)定义为n(xi)中词向量嵌入表示的加权平均向量:
对于共现网络中任意两点xi和xj,该两点的二元文本上下文n(xi,xj)定义为该两点xi和xj在共现网络中均具有较高关联程度的公共邻居节点:n(xi,xj)={xk|xk∈n(xi)∩n(xj)};该两点的二元文本上下文嵌入表示N(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量:其中公共邻居节点xk的权重定义为yik和yjk的最小值,为所有权重之和。
2.根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述实体标注工具为以下中的至少一者:
AIDI、TAGME以及Wikify!。
3.根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型,包括:
采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;
根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
4.根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示,包括:
根据所述嵌入表示模型定义基于边缘的损失函数;
使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
5.一种获取知识图谱向量化表示的装置,其特征在于,所述装置包括:
标注单元,用于根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;
构建单元,用于基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
建模单元,用于根据所述文本上下文嵌入表示对所述知识图谱中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
训练单元,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示;
所述构建单元,具体用于:
根据所述共现网络分别定义一元文本上下文和二元文本上下文;
以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共现网络中任意一点的词向量嵌入表示;
根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示;
对于共现网络中任意一点xi,该点的一元文本上下文n(xi)定义为其在共现网络中关联程度较高的邻居节点:n(xi)={xj|yij>θ},其中,θ表示共现频率的阈值,yij表示点xi和点xj之间的共现频率;该点的一元文本上下文嵌入表示N(xi)定义为n(xi)中词向量嵌入表示的加权平均向量:
对于共现网络中任意两点xi和xj,该两点的二元文本上下文n(xi,xj)定义为该两点xi和xj在共现网络中均具有较高关联程度的公共邻居节点:n(xi,xj)={xk|xk∈n(xi)∩n(xj)};该两点的二元文本上下文嵌入表示N(xi,xj)定义为n(xi,xj)中词向量嵌入表示的加权平均向量:其中公共邻居节点xk的权重定义为yik和yjk的最小值,为所有权重之和。
6.根据权利要求5所述的获取知识图谱向量化表示的装置,其特征在于,所述实体标注工具为以下中的至少一者:
AIDI、TAGME以及Wikify!。
7.根据权利要求5所述的获取知识图谱向量化表示的装置,其特征在于,所述建模单元,具体用于:
采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入表示模型;
根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入表示模型。
8.根据权利要求5所述的获取知识图谱向量化表示的装置,其特征在于,所述训练单元,具体用于:
根据所述嵌入表示模型定义基于边缘的损失函数;
使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中实体和关系的嵌入表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610197184.4A CN105824802B (zh) | 2016-03-31 | 2016-03-31 | 一种获取知识图谱向量化表示的方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610197184.4A CN105824802B (zh) | 2016-03-31 | 2016-03-31 | 一种获取知识图谱向量化表示的方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105824802A CN105824802A (zh) | 2016-08-03 |
CN105824802B true CN105824802B (zh) | 2018-10-30 |
Family
ID=56525508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610197184.4A Active CN105824802B (zh) | 2016-03-31 | 2016-03-31 | 一种获取知识图谱向量化表示的方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824802B (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372118B (zh) * | 2016-08-24 | 2019-05-03 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 |
CN107871158A (zh) * | 2016-09-26 | 2018-04-03 | 清华大学 | 一种结合序列文本信息的知识图谱表示学习方法及装置 |
CN106528609A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种向量约束嵌入转换的知识图谱推理方法 |
CN107888644A (zh) * | 2016-09-30 | 2018-04-06 | 中国电子科技集团公司信息科学研究院 | 基于物体能力的物联网开放体系架构和平台系统 |
CN106649550B (zh) * | 2016-10-28 | 2019-07-05 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
CN106815310B (zh) * | 2016-12-20 | 2020-04-21 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN107885760B (zh) * | 2016-12-21 | 2021-06-08 | 桂林电子科技大学 | 一种基于多种语义的知识图谱表示学习方法 |
CN106649878A (zh) * | 2017-01-07 | 2017-05-10 | 陈翔宇 | 基于人工智能的物联网实体搜索方法及系统 |
CN106909622A (zh) * | 2017-01-20 | 2017-06-30 | 中国科学院计算技术研究所 | 知识图谱向量表示方法、知识图谱关系推理方法及系统 |
CN108694201A (zh) * | 2017-04-10 | 2018-10-23 | 华为软件技术有限公司 | 一种实体对齐方法和装置 |
CN107391623B (zh) * | 2017-07-07 | 2020-03-31 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
CN107545033B (zh) * | 2017-07-24 | 2020-12-01 | 清华大学 | 一种基于表示学习的知识库实体分类的计算方法 |
CN107590139B (zh) * | 2017-09-21 | 2020-10-27 | 桂林电子科技大学 | 一种基于循环矩阵翻译的知识图谱表示学习方法 |
CN107894986B (zh) * | 2017-09-26 | 2021-03-30 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107729497B (zh) * | 2017-10-20 | 2020-08-14 | 同济大学 | 一种基于知识图谱的词嵌入深度学习方法 |
CN110019982B (zh) * | 2017-12-05 | 2021-07-06 | 航天信息股份有限公司 | 节点坐标的确定方法以及装置 |
CN108509654B (zh) * | 2018-04-18 | 2021-12-28 | 上海交通大学 | 动态知识图谱的构建方法 |
CN110609902B (zh) * | 2018-05-28 | 2021-10-22 | 华为技术有限公司 | 一种基于融合知识图谱的文本处理方法及装置 |
CN108984745B (zh) * | 2018-07-16 | 2021-11-02 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109064313A (zh) * | 2018-07-20 | 2018-12-21 | 重庆富民银行股份有限公司 | 基于知识图谱技术的贷后预警监测系统 |
CN109344295B (zh) * | 2018-08-24 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 分布式图嵌入方法、装置、设备及系统 |
CN110874387B (zh) * | 2018-08-31 | 2022-01-14 | 浙江大学 | 移动设备识别符共现关系稀疏图的构建方法及装置 |
CN109299284B (zh) * | 2018-08-31 | 2021-07-20 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
CN109165278B (zh) * | 2018-09-07 | 2021-11-09 | 桂林电子科技大学 | 一种基于实体和关系结构信息的知识图谱表示学习方法 |
CN109828965B (zh) * | 2019-01-09 | 2021-06-15 | 千城数智(北京)网络科技有限公司 | 一种数据处理的方法及电子设备 |
CN109729171B (zh) * | 2019-01-10 | 2021-07-30 | 七彩安科智慧科技有限公司 | 一种小镇认知矩阵物联网的构建方法 |
CN109840283B (zh) * | 2019-03-01 | 2020-09-01 | 东北大学 | 一种基于传递关系的本地自适应知识图谱优化方法 |
CN110275959B (zh) * | 2019-05-22 | 2023-04-28 | 广东工业大学 | 一种面向大规模知识库的快速学习方法 |
CN110147414B (zh) * | 2019-05-23 | 2022-05-13 | 北京金山数字娱乐科技有限公司 | 一种知识图谱的实体表征方法及装置 |
CN112148883A (zh) * | 2019-06-29 | 2020-12-29 | 华为技术有限公司 | 一种知识图谱的嵌入表示方法及相关设备 |
CN110413790B (zh) * | 2019-08-02 | 2020-04-28 | 上海云绅智能科技有限公司 | 一种场景分类方法及装置 |
CN110688489B (zh) * | 2019-09-09 | 2022-08-16 | 中国电子科技集团公司电子科学研究院 | 基于交互注意力的知识图谱推演方法、装置和存储介质 |
CN110647620B (zh) * | 2019-09-23 | 2022-07-01 | 中国农业大学 | 一种基于置信超平面和词典信息的知识图谱表示学习方法 |
CN110704640A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种知识图谱的表示学习方法及装置 |
US11080491B2 (en) | 2019-10-14 | 2021-08-03 | International Business Machines Corporation | Filtering spurious knowledge graph relationships between labeled entities |
CN111159485B (zh) * | 2019-12-30 | 2020-11-13 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111241412B (zh) * | 2020-04-24 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 一种确定用于信息推荐的图谱的方法、系统、及装置 |
CN111966836A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 知识图谱向量表示方法、装置、计算机设备及存储介质 |
CN112434812B (zh) * | 2020-11-26 | 2023-09-05 | 中山大学 | 一种基于对偶四元数的知识图谱链接预测方法及系统 |
CN113051006B (zh) * | 2021-03-31 | 2023-02-03 | 上海天旦网络科技发展有限公司 | 基于应用服务及关系向量化的辅助配置方法及系统 |
CN113033914B (zh) * | 2021-04-16 | 2022-03-25 | 哈尔滨工业大学 | 一种面向机械加工工艺知识图谱的实体和关系预测方法 |
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
CN114818681B (zh) * | 2022-06-24 | 2022-10-11 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
CN116796007B (zh) * | 2023-08-03 | 2024-05-03 | 苏州浪潮智能科技有限公司 | 目标知识图谱嵌入方法、其装置及电子设备 |
CN116705338B (zh) * | 2023-08-08 | 2023-12-08 | 中国中医科学院中医药信息研究所 | 基于规则和路径的中医药多模态知识图谱推理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN103886046A (zh) * | 2014-03-11 | 2014-06-25 | 中国信息安全测评中心 | 一种面向Web数据交换的自动语义抽取的方法 |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
US8938385B2 (en) * | 2006-05-15 | 2015-01-20 | Panasonic Corporation | Method and apparatus for named entity recognition in chinese character strings utilizing an optimal path in a named entity candidate lattice |
-
2016
- 2016-03-31 CN CN201610197184.4A patent/CN105824802B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8938385B2 (en) * | 2006-05-15 | 2015-01-20 | Panasonic Corporation | Method and apparatus for named entity recognition in chinese character strings utilizing an optimal path in a named entity candidate lattice |
CN103488724A (zh) * | 2013-09-16 | 2014-01-01 | 复旦大学 | 一种面向图书的阅读领域知识图谱构建方法 |
CN103886046A (zh) * | 2014-03-11 | 2014-06-25 | 中国信息安全测评中心 | 一种面向Web数据交换的自动语义抽取的方法 |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
Non-Patent Citations (3)
Title |
---|
"Knowledge Graph and Text Jointly Embedding;Zhen Wang et al.;《Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP)》;20141029;第2-3节 * |
Distant supervision for relation extraction without labeled data;M. Mintz et al.;《In ACL/IJCNLP》;20091231;第1003-1011页 * |
Learning entity and relation embeddings for knowledge graph completion;Yankai Lin et al.;《In AAAI》;20150131;第2181页右栏第4-5段,第2183页左栏第3段-右栏第5段 * |
Also Published As
Publication number | Publication date |
---|---|
CN105824802A (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105824802B (zh) | 一种获取知识图谱向量化表示的方法以及装置 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
Xie et al. | Representation learning of knowledge graphs with entity descriptions | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
Bansal et al. | Structured learning for taxonomy induction with belief propagation | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN109002845A (zh) | 基于深度卷积神经网络的细粒度图像分类方法 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN108846017A (zh) | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 | |
CN106570513A (zh) | 大数据网络系统的故障诊断方法和装置 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN101561805A (zh) | 文档分类器生成方法和系统 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN109189926A (zh) | 一种科技论文语料库的构建方法 | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN113343690B (zh) | 一种文本可读性自动评估方法及装置 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN109460420A (zh) | 结构化数据的知识挖掘方法及系统 | |
Aliane et al. | A genetic algorithm feature selection based approach for Arabic sentiment classification | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
Hamim et al. | Student profile modeling using boosting algorithms | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |