CN108197290B - 一种融合实体和关系描述的知识图谱表示学习方法 - Google Patents
一种融合实体和关系描述的知识图谱表示学习方法 Download PDFInfo
- Publication number
- CN108197290B CN108197290B CN201810053803.1A CN201810053803A CN108197290B CN 108197290 B CN108197290 B CN 108197290B CN 201810053803 A CN201810053803 A CN 201810053803A CN 108197290 B CN108197290 B CN 108197290B
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- vector
- entities
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种融合实体和关系描述的知识图谱表示学习方法,考虑了实体与关系的文本描述信息,很好地融合了三元组的结构化信息与文本描述信息两大信息源,通过基于神经网络的端到端模型对实体和关系联合抽取,设置一个平衡因子来平衡结构化信息和文本描述信息,并根据预测对象的不同定义不同的得分函数;然后利用损失函数把实体向量和关系向量关联起来,并优化该损失函数,当达到优化目标时,就可以学得知识图谱及文本描述信息中每个实体的向量和关系的向量。本发明解决了知识库中实体和关系的稀疏性和不平衡性,更精确有效地表示实体和关系及其之间的相互联系,并将其应用于大规模知识图谱中,具有较好的实用性。
Description
技术领域
本发明涉及知识图谱以及深度学习技术领域,具体涉及一种融合实体和关系描述的知识图谱表示学习方法。
背景技术
随着科技和时代的进步,当今社会以惊人的速度发展,我们逐渐进入一个智能化、信息化时代。每天都有海量新的数据和多样的信息以不同的形式出现。互联网已成为当今社会最有效便捷的信息获取平台,随着互联网用户对真实信息获取的需求日益迫切,如何从海量数据中获取更加准确有效的信息已成为众多领域关注的焦点,知识图谱也由此产生。
Google公司于2012年5月将知识图谱引入搜索引擎,开启了大规模知识图谱的研究和应用的热潮。知识图谱的本质是一个由节点和边组成的有向图,通常人们会用网络的形式来组织知识图谱中的知识,网络中的每个节点代表实体(人名、地名、机构名、概念等),每条边代表实体间的关系。因此,大部分知识一般都可以用三元组(h,r,t)来表示,h,t分别表示头实体和尾实体,r表示头尾实体间的关系。例如,巴黎是法国的首都这一事实,在知识图谱中即可用三元组关系(巴黎,是……首都,法国)来表示。目前,常用知识图谱均使用这种表示方式,如万维网(W3C)公布的资源描述框架(resource description framework,RDF)技术标准。与基于关键词搜索的传统搜索引擎所不同的是,我们可以利用知识图谱更有效地查找复杂的关联信息,从语义层面上体会用户意图,改善查询质量。例如,若在Google的搜索框里输入杜兰特,页面右侧将会出现杜兰特的相关信息,如出生年月、家庭情况等。
大规模知识图谱可以被广泛用于许多实际任务,但其正确性和完整性不能保证,且面临着严重的数据稀疏和计算效率的问题。通过研究知识图谱补全方法来找出缺失或错误的关系来提升知识图谱的整体质量,能够改善或创造有趣的下游应用。近年来,以深度学习为代表的表示学习异军突起,在语音识别、图像分析及自然语言处理等众多领域广受关注。虽然知识表示学习实现了对实体和关系的分布式表示,显著提升了计算效率,有效缓解数据稀疏问题并且可以实现异质信息的融合。但是现有知识表示学习模型有些过于简单不能很好地表示知识图谱中的实体及其之间的关系,有些过于复杂不能将其应用到大规模知识图谱中。
发明内容
本发明所要解决的是现有知识图谱表示学习方法所存在的不能将实体与关系的文本描述信息与结构化信息有效结合的问题,提供一种融合实体和关系描述的知识图谱表示学习方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种融合实体和关系描述的知识图谱表示学习方法,具体包括步骤如下:
步骤1.通过基于神经网络的端到端模型对网络中实体和关系的文本描述信息进行联合抽取,并利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合,通过实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数:
当预测的是头实体或尾实体时,则得分函数f(h,r,t)定义为:
当预测的是关系时,则得分函数f(h,r,t)定义为:
其中,μ是平衡因子,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs是头实体的结构化向量,ts是尾实体的结构化向量,rs是关系的结构化向量,hd是头实体的文本描述向量,td是尾实体的文本描述向量,rd是关系的文本文本描述向量,L1是范式,L2是L2范式;
步骤2.基于得分函数建立实体与关系的损失函数,并通过最小化损失函数来学习结构化信息与文本信息融合之后的实体和关系,以达到优化目标。
上述步骤1中,平衡因子μ的取值范围为[0,1]。
上述步骤2中,所建立的损失函数L为:
其中,[f(h,r,t)+γ-f(h',r,t')]+=max(0,f(h,r,t)+γ-f(h',r,t'));γ为设定的边界值;(h,r,t)表示知识图谱的三元组即正例三元组,h表示头实体,t表示尾实体,r表示头实体和尾实体之间的关系,f(h,r,t)表示正例三元组的得分函数,S(h,r,t)表示正例三元组集合;(h',r,t')表示随机替换掉头实体h和尾实体t所构建的负例三元组,f(h',r,t')表示负例三元组的得分函数,S′(h,r,t)表示负例三元组集合。
上述步骤2中,采用随机梯度下降算法最小化损失函数。
与现有技术相比,本发明考虑了实体与关系的文本描述信息,很好地融合了三元组的结构化信息与文本描述信息两大信息源,首先通基于神经网络的端到端模型对实体和关系联合抽取,设置一个平衡因子来平衡结构化信息和文本描述信息,并根据预测对象的不同定义不同的得分函数;然后利用损失函数把实体向量和关系向量关联起来,并优化该损失函数,当达到优化目标时,就可以学得知识图谱及文本描述信息中每个实体的向量和关系的向量。本发明解决了知识库中实体和关系的稀疏性和不平衡性,更精确有效地表示实体和关系及其之间的相互联系,并将其应用于大规模知识图谱中,具有较好的实用性。
附图说明
图1为知识图谱中关系三元组的示例图。
图2为文本描述中实体与关系联合抽取的示例图。
图3为本发明知识图谱表示学习方法的流程图。
图4为根据现有技术知识图谱表示学习方法得到的三元组表示知识的示例图。
图5为根据本发明知识图谱表示学习方法得到的三元组表示知识的示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
针对现有知识图谱表示学习方法仅考虑知识图谱中三元组的结构化信息,并没有将与实体和关系相关的文本描述信息有效地结合起来的问题,本发明充分考虑了实体与关系的文本描述信息。本发明采用典型的(头实体,关系,尾实体)三元组的形式与文本描述信息结合来共同表示知识。图1为知识图谱中典型三元组的示例图。其中,方框表示的节点“巴黎”和“法国”分别为头实体和尾实体,他们之间的连边“首都”为两个实体之间的关系。图2为Freebase网站中实体与关系文本描述的示例图。
一种融合实体和关系描述的知识图谱表示学习方法,如图3所示,包括如下步骤:
步骤1、通过基于神经网络的端到端模型对实体和关系的文本描述信息进行联合抽取;通过设置一个平衡因子来平衡结构化信息和文本描述信息,将文本描述信息与结构化信息结合;通过预测对象的不同来定义得分函数将实体与关系联系起来。
步骤11、定义优化目标为:
(μ·hs+(1-μ)·hd)+r=μ·ts+(1-μ)·td
其中,hs和ts分别是头实体和尾实体的结构化向量;hd和td分别是头实体和尾实体的文本向量;μ是平衡结构化信息和文本描述信息两个信息源的平衡因子,用逻辑符号函数来计算该平衡因子的大小,即参数μ的取值范围为[0,1];
步骤12、利用实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数f(h,r,t)。
由基于翻译的模型中使用统一的得分函数模式,并根据预测对象的不同,定义不同的得分函数(距离函数):
如果预测的是头实体和尾实体,那么得分函数定义为:
如果预测的是关系,那么得分函数可定义为:
其中,(h,r,t)表示知识图谱的三元组即正例三元组,h表示头实体,t表示尾实体,r表示头实体和尾实体之间的关系,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs和hd分别是头实体的结构化向量和文本描述向量,ts和td分别是尾实体的结构化向量和文本描述向量,rs和rd分别是关系的结构化向量和文本描述向量,μ是平衡因子,L1为L1距离即L1范式,L2为L2距离即L2范式。
步骤2、建立实体向量与关系向量的得分函数的损失函数,并通过最小化损失函数来学习实体和关系的向量表示,以达到优化目标。
步骤21、定义损失函数为:
其中,[f(h,r,t)+γ-f(h',r,t')]+=max(0,f(h,r,t)+γ-f(h',r,t'));γ为设定的边界值;(h,r,t)表示知识图谱的三元组即正例三元组,h表示头实体,t表示尾实体,r表示头实体和尾实体之间的关系,f(h,r,t)表示正例三元组的得分函数,S(h,r,t)表示正例三元组集合;(h',r,t')表示随机替换掉头实体h和尾实体t所构建的负例三元组,f(h',r,t')表示负例三元组的得分函数,S′(h,r,t)表示负例三元组集合。
步骤22、最小化损失函数,学习并得到结构化信息与文本描述信息融合之后的每一个实体向量和关系向量及其之间的相互联系。在本发明中采用随机梯度下降算法最小化损失函数。
本发明通过LSTM神经网络对文本描述信息进行抽取,并将其与知结构化信息源融合到一起时,通过门控机制平衡结构化信息和文本描述信息。并通过不断调整h,t,r,hs,ts,rs,hd,td和rd,在预测实体时,尽可能使(μ·hs+(1-μ)·hd)+r和μ·ts+(1-μ)·td相等;预测关系时,尽可能使t-h和(μ·rs+(1-μ)·rd)相等。由此方法学习并得到实体和关系的相关文本描述信息,并将其与结构化信息相结合,可以更精确有效地表示实体和关系及其之间的相互联系。
本发明知识图谱中三元组的结构化信息与文本信息融合,通过得分函数将实体向量与关系向量联系起来(使用双向LSTM神经网络更好地处理词向量),更精确有效地预测实体及实体之间的关系。
图4为现有知识表示学习模型中由结构化表示得到的实体与关系表示的示例图,图中没有与实体及关系的文本描述信息相结合,预测过程相对比较复杂。图5为依据本发明融合实体和关系描述的知识图谱表示学习方法得到的三元组表示,图中考虑了知识图谱中所没有的与实体和关系相关的文本描述信息,并对其进行联合抽取,然后与知识图谱中结构化信息相结合,根据预测对象的不同定义得分函数,使预测更加精确有效。由此可见,本发明的知识图谱表示学习方法,解决了知识库中实体和关系的稀疏性和不平衡性,更精确有效地表示实体和关系及其之间的相互联系,并将其应用于大规模知识图谱中。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (4)
1.一种融合实体和关系描述的知识图谱表示学习方法,其特征是,具体包括步骤如下:
步骤1.通过基于神经网络的端到端模型对网络中实体和关系的文本描述信息进行联合抽取,并利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合,通过实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数:
当预测的是头实体或尾实体时,则得分函数f(h,r,t)定义为:
当预测的是关系时,则得分函数f(h,r,t)定义为:
其中,μ是平衡因子,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs是头实体的结构化向量,ts是尾实体的结构化向量,rs是关系的结构化向量,hd是头实体的文本描述向量,td是尾实体的文本描述向量,rd是关系的文本文本描述向量,L1是范式,L2是L2范式;
步骤2.基于得分函数建立实体与关系的损失函数,并通过最小化损失函数来学习结构化信息与文本信息融合之后的实体和关系,以达到优化目标。
2.根据权利要求1所述的一种融合实体和关系描述的知识图谱表示学习方法,其特征是,步骤1中,平衡因子μ的取值范围为[0,1]。
4.根据权利要求1或3所述的一种融合实体和关系描述的知识图谱表示学习方法,其特征是,步骤2中,采用随机梯度下降算法最小化损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810053803.1A CN108197290B (zh) | 2018-01-19 | 2018-01-19 | 一种融合实体和关系描述的知识图谱表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810053803.1A CN108197290B (zh) | 2018-01-19 | 2018-01-19 | 一种融合实体和关系描述的知识图谱表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197290A CN108197290A (zh) | 2018-06-22 |
CN108197290B true CN108197290B (zh) | 2021-08-03 |
Family
ID=62590221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810053803.1A Active CN108197290B (zh) | 2018-01-19 | 2018-01-19 | 一种融合实体和关系描述的知识图谱表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197290B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063021B (zh) * | 2018-07-12 | 2021-10-15 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN108984745B (zh) * | 2018-07-16 | 2021-11-02 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN110851609A (zh) * | 2018-07-24 | 2020-02-28 | 华为技术有限公司 | 表示学习方法及装置 |
CN109241199B (zh) * | 2018-08-08 | 2022-09-23 | 上海旭荣网络科技有限公司 | 一种面向金融知识图谱发现的方法 |
CN109389151B (zh) * | 2018-08-30 | 2022-01-18 | 华南师范大学 | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 |
CN109165278B (zh) * | 2018-09-07 | 2021-11-09 | 桂林电子科技大学 | 一种基于实体和关系结构信息的知识图谱表示学习方法 |
CN109871542B (zh) * | 2019-03-08 | 2024-03-08 | 广东工业大学 | 一种文本知识提取方法、装置、设备及存储介质 |
CN110069638B (zh) * | 2019-03-12 | 2021-01-05 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
CN110275960B (zh) * | 2019-06-11 | 2021-09-14 | 中国电子科技集团公司电子科学研究院 | 基于指称句的知识图谱和文本信息的表示方法及系统 |
CN111008186A (zh) * | 2019-06-11 | 2020-04-14 | 中央民族大学 | 一种藏文知识库的表示方法 |
CN110378489B (zh) * | 2019-07-30 | 2022-10-25 | 哈尔滨工程大学 | 基于实体超平面投影的知识表示学习模型 |
CN110909172B (zh) * | 2019-10-22 | 2022-08-16 | 中国船舶重工集团公司第七0九研究所 | 一种基于实体距离的知识表示学习方法 |
CN111046187B (zh) * | 2019-11-13 | 2023-04-18 | 山东财经大学 | 基于对抗式注意力机制的一样本知识图谱关系学习方法及系统 |
CN111090740B (zh) * | 2019-12-05 | 2023-09-29 | 北京轮子科技有限公司 | 一种用于对话系统的知识图谱生成方法 |
CN111680163A (zh) * | 2020-04-21 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种面向电力科技成果的知识图谱可视化方法 |
CN111666418B (zh) * | 2020-04-23 | 2024-01-16 | 北京三快在线科技有限公司 | 文本重生成方法、装置、电子设备和计算机可读介质 |
CN112163092B (zh) * | 2020-10-10 | 2022-07-12 | 成都数之联科技股份有限公司 | 实体及关系抽取方法及系统、装置、介质 |
CN112528046B (zh) * | 2020-12-25 | 2023-09-15 | 网易(杭州)网络有限公司 | 新的知识图谱的构建方法、装置和信息检索方法、装置 |
CN113157882B (zh) * | 2021-03-31 | 2022-05-31 | 山东大学 | 以用户语义为中心的知识图谱路径检索方法及装置 |
CN113434626B (zh) * | 2021-08-27 | 2021-12-07 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN113744891B (zh) * | 2021-09-15 | 2024-05-10 | 浙江工商大学 | 一种药品知识图谱表示学习方法 |
CN114357198B (zh) * | 2022-03-15 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 一种针对多个知识图谱的实体融合方法及装置 |
CN114817424A (zh) * | 2022-05-27 | 2022-07-29 | 中译语通信息科技(上海)有限公司 | 一种基于语境信息的图表征方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407387A (zh) * | 2016-09-18 | 2017-02-15 | 华南师范大学 | 一种针对医疗诊断文本的概念连接方法 |
CN106570191A (zh) * | 2016-11-11 | 2017-04-19 | 浙江大学 | 基于维基百科的中英文跨语言实体匹配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050050030A1 (en) * | 2003-01-30 | 2005-03-03 | Decode Genetics Ehf. | Set definition language for relational data |
US9218427B1 (en) * | 2015-01-21 | 2015-12-22 | Maana, Inc. | Dynamic semantic models having multiple indices |
-
2018
- 2018-01-19 CN CN201810053803.1A patent/CN108197290B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407387A (zh) * | 2016-09-18 | 2017-02-15 | 华南师范大学 | 一种针对医疗诊断文本的概念连接方法 |
CN106570191A (zh) * | 2016-11-11 | 2017-04-19 | 浙江大学 | 基于维基百科的中英文跨语言实体匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108197290A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197290B (zh) | 一种融合实体和关系描述的知识图谱表示学习方法 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN111625659B (zh) | 知识图谱处理方法、装置、服务器及存储介质 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
CN109033129B (zh) | 基于自适应权重的多源信息融合知识图谱表示学习方法 | |
CN104239501B (zh) | 一种基于Spark的海量视频语义标注方法 | |
CN101814067B (zh) | 对自然语言内容中的信息含量进行定量估算的系统和方法 | |
WO2017076205A1 (zh) | 一种获取聊天发起句的回复提示内容的方法及装置 | |
CN108897778B (zh) | 一种基于多源大数据分析的图像标注方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN108052625B (zh) | 一种实体精细分类方法 | |
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN107526819A (zh) | 一种面向短文本主题模型的大数据舆情分析方法 | |
WO2019192120A1 (zh) | 轨迹查询方法、电子设备及存储介质 | |
Benavent et al. | Multimedia information retrieval based on late semantic fusion approaches: Experiments on a wikipedia image collection | |
CN110659357A (zh) | 一种基于本体语义相似度的地理知识问答系统 | |
CN113220904A (zh) | 数据处理方法及数据处理装置、电子设备 | |
CN114707516A (zh) | 一种基于对比学习的长文本语义相似度计算方法 | |
CN111782817A (zh) | 一种面向信息系统的知识图谱构建方法、装置及电子设备 | |
CN108153818B (zh) | 一种基于大数据的聚类方法 | |
CN102063497A (zh) | 一种开放式知识共享平台及其词条处理方法 | |
Premalatha et al. | Text processing in information retrieval system using vector space model | |
Abimbola et al. | A noun-centric keyphrase extraction model: Graph-based approach | |
CN117171355A (zh) | 一种文化基因知识图谱的构建方法及装置 | |
CN114065770B (zh) | 一种基于图神经网络构建语义知识库的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |