CN108681544A - 一种基于图谱拓扑结构和实体文本描述的深度学习方法 - Google Patents

一种基于图谱拓扑结构和实体文本描述的深度学习方法 Download PDF

Info

Publication number
CN108681544A
CN108681544A CN201810187010.9A CN201810187010A CN108681544A CN 108681544 A CN108681544 A CN 108681544A CN 201810187010 A CN201810187010 A CN 201810187010A CN 108681544 A CN108681544 A CN 108681544A
Authority
CN
China
Prior art keywords
entity
knowledge mapping
text
completion
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810187010.9A
Other languages
English (en)
Inventor
卓汉逵
荣二虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810187010.9A priority Critical patent/CN108681544A/zh
Publication of CN108681544A publication Critical patent/CN108681544A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方法在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知识图谱补全问题。

Description

一种基于图谱拓扑结构和实体文本描述的深度学习方法
技术领域
本发明涉及文本处理算法领域,更具体地,涉及一种基于图谱拓扑结构和实 体文本描述的深度学习方法。
背景技术
知识图谱是(Knowledge Graph)当前大数据时代的研究热点,自从2012年 Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。 在知识图谱的研究中,知识图谱补全问题(Knowledge Graph Completion)占据 了极为重要的位置。知识图谱补全的目标是将现有不完全的知识图谱尽可能地补 全,以便丰富知识图谱包含的信息。
目前,关于知识图谱补全的相关技术有:基于众包的知识图补全、基于知识 图谱拓扑结构语义深度学习模型、基于关系推理规则的推理模型等。
开放世界知识图谱补全问题(Open-World Knowledge Graph Completion)与 封闭世界知识图谱补全问题(Close-World Knowledge Graph Completion)不同的 是,它能够将现有知识图谱中不存在的实体加入到知识图谱中来,而非仅限于当 前知识图谱中已存在的实体。开放世界知识图谱补全问题可形式化定义如下:给 定一个不完备的知识图谱G=(E,R,T),其中E,R,T分别为头部实体集、关系 集、尾部实体集,开放世界知识图谱补全问题的目标是找到这样的缺失三元组集 合其中Ei和Ti分别是E和T的超 集。
发明内容
本发明提供一种解决知识图谱补全的能力的基于图谱拓扑结构和实体文本 描述的深度学习方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于图谱拓扑结构和实体文本描述的深度学习方法,包括以下步骤:
S1:构建基于图拓扑结构的预测模型M1;
S2:构建基于注意力机制的文本处理模型M2;
S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的 知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分 别得到M1的输出和M2的输出;
S4:根据词向量字典查询,即可得出预测实体的名称。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型方法,该方法 在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现), 也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下 的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任 务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息, 为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知 识图谱补全问题。
附图说明
图1为本发明流程图;
图2为引入注意力机制的权重分配示意图;
图3为模型M2处理三元组补全问题的流程示意图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实 际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本发明提出了一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方 法基于深度学习理论,一方面,在实体文本信息处理上,加入注意力机制,引入 循环卷积网络处理文本,能够更加充分地利用了知识图谱中实体的描述文本信息。 另一方面,将知识图谱本身的拓扑结构所蕴含的丰富信息挖掘出来,从而提升模 型对残缺三元组<h,r,?>或<?,r,t>中“?”预测的准确性,并且随着预测正 确的三元组的不断加入,知识图谱的拓扑结构也将变得更加复杂,所能提供的信 息也将更加丰富,从而该模型解决知识图谱补全的能力也将更为强大。
总的来讲,该模型分为两个子模型的联合模型:基于图拓扑结构的预测模型 M1和基于注意力机制的文本处理模型M2,如图1所示。M2处理的文本信息包 括了实体描述文本、实体名称文本、关系名称文本、词向量字典等信息。
模型构建好以后,通过大量的训练数据训练该模型,得出图1中w1和w2 的值以及两个子模型内部的参数。待新问题来到时,将现有的知识图谱结构作为 子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出 O1和M2的输出O2,此步骤输出皆为一个固定维度的向量,预测实体名称的词 向量W由公式:
W=w1*N1+w2*N2+…+wn*Nn
其中,N1=Wm11*O1+Wm21*O2
N2=Wm12*O1+Wm22*O2
N3=Wm13*O1+Wm23*O2
Nn=Wm1n*O1+Wm2n*O2
得出。(其中,w1,w2,wn和Wm11,Wm21等为模型的参数)最后根据词向 量字典查询,即可得出预测实体的名称(需要指出的是,这里用到的词向量字典 既包含了模型M2输入中的词向量字典,也包含了模型M1训练出来的词向量)
下面,分别介绍子模型M1、M2的实现方案。
首先是子模型M1,该模型的思想可直接借鉴封闭环境假设下的知识图谱补 全问题的语义模型,如TransE,HolE等。在TransE模型中,对于头部实体h,关 系r,尾部实体t,基于公式:
h+r=t(2)
利用从知识图谱结构中得到的三元组,训练得到知识图谱中实体和关系的词 向量表示,用于预测缺失的三元组。HolE在TranE思想下进行了改进,并在预 测准确率上取得了较大的突破。在M1模型的实现上,可以用HolE的方法,对 知识图谱中的信息进行处理,得到知识图谱中实体、关系的词向量表示。需注意 的是,此部分词向量由知识图谱结构信息训练所得,跟基于语料的词向量如 GlovE等可能才在较大差异。这一步训练所得的词向量与实体的对应关系,应保 存成字典形式。
其次,子模型M2实现部分。子模型M2的输入为文本信息,包括:实体名 称、关系名称、实体描述文本以及预训练好的词向量字典如GloVe等。M2的实 现可以借鉴图1中ConMask的结构,所不同的是,实体描述文本截取部分,不 再是简单的截取指示词(Indicator Word)之后的单词,而是以指示词为中心,截 取一个大小为k的文本片段。这样可避免指示词出现过早导致的截取片段过长问 题以及应对目标词(Target Word)出现在指示词之前的情况。k的大小应设置自 然语句的普遍长度为宜。
借用上面的例子<Michelle Obama,Spouse,?>,若设置k=13,此策略将截 取实体“Michelle Obama”的描述文本“Michelle LaVaughn Robinson Obama born January 171964American lawyer writer who First Lady United States married 44thPresident United States,Barack Obama”中的片段为“writer who First Lady UnitedStates married 44th President United States Barack Obama”。
在截取到文本片段后,ConMask模型得到|kc|×200的矩阵(kc为截取文本 长度,200为词向量维度),作为全卷积网络(FCN)的输入。我们的模型不同 的是,在得到截取的文本之后,充分考虑单词之于关系、实体重要性之不同以及 自然语言词序之间的关系,并且考虑片段中的单词与实体单词的语义距离,引入 注意力机制,给截取的文本片段中每个单词赋予不同的权重,引入循环神经网络 (RNN)处理这个带权重的文本片段。
在这一步,赋予权重的策略是:越靠近指示词的单词具有越大的权重。文本 片段中,首先,给每个单词赋予的权重为其与指示词词序距离的倒数。之后,度 量片段中每个单词跟实体单词的语义距离,找出其中最相似的单词,并以此单词 为新的指示词(NewIndicator Word),再给每个单词赋予的第二个权重,即为其 与新指示词词序距离的倒数。最后每个单词取两个权重中较大者最为最终权重。
举例来说,片段“writer who First Lady United States married 44thPresident United States Barack Obama”中,在引入注意力机制后,每个单词对应的权重如图 2所示。
权重分配完毕后,将此带权重的序列作为循环神经网络(RNN)的输入,以 提取文本的高层特征表示,经循环神经网络处理后,得到的输出再作为全卷积网 络(FCN)的输入,经全卷积网络卷积、池化等操作后,得到模型M2的输出, 即为一个预测出的词向量表示。模型M2的整体架构类似于ConMask模型,所 不同的是在将截取文本序列输入到全卷积网络前,加入了注意力分配机制并通过 循环卷积网络,此举的目的在于利用循环神经网络处理序列文本的强大能力,充 分发掘文本中蕴含的信息,提升模型的准确性。
模型M2解决三元组补全问题的流程如图3所示。
总结来说,本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型的 原因在于:在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱 中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作 是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于 需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地 发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够 解决开放世界知识图谱补全问题。
知识图谱在信息检索、用户兴趣挖掘、智能问答系统等领域有着广泛的应用, 知识图谱的质量如何直接影响了这些应用的发展。本发明提出的方案关注知识图 谱补全问题,是知识图谱包含信息多少、信息质量的核心问题所在,将为知识图 谱在这些领域的应用提供有力的支撑。
目前,许多知名公司如Google、百度等都在建立自己的知识图谱,知识图 谱的好坏对于其搜索产品的好坏起到了基础支撑作用,本发明提出的方案操作性 强,能够为构建完备的知识图谱提供解决方案。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种基于图谱拓扑结构和实体文本描述的深度学习方法,其特征在于,包括以下步骤:
S1:构建基于图拓扑结构的预测模型M1;
S2:构建基于注意力机制的文本处理模型M2;
S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出和M2的输出;
S4:根据词向量字典查询,即可得出预测实体的名称。
CN201810187010.9A 2018-03-07 2018-03-07 一种基于图谱拓扑结构和实体文本描述的深度学习方法 Pending CN108681544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810187010.9A CN108681544A (zh) 2018-03-07 2018-03-07 一种基于图谱拓扑结构和实体文本描述的深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810187010.9A CN108681544A (zh) 2018-03-07 2018-03-07 一种基于图谱拓扑结构和实体文本描述的深度学习方法

Publications (1)

Publication Number Publication Date
CN108681544A true CN108681544A (zh) 2018-10-19

Family

ID=63799302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810187010.9A Pending CN108681544A (zh) 2018-03-07 2018-03-07 一种基于图谱拓扑结构和实体文本描述的深度学习方法

Country Status (1)

Country Link
CN (1) CN108681544A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法
CN110196896A (zh) * 2019-05-23 2019-09-03 华侨大学 一种面向对外汉语口语学习的智能问题生成方法
CN110727806A (zh) * 2019-12-17 2020-01-24 北京百度网讯科技有限公司 基于自然语言和知识图谱的文本处理方法及装置
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN111241410A (zh) * 2020-01-22 2020-06-05 深圳司南数据服务有限公司 一种行业新闻推荐方法及终端
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN114860952A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于数据统计和知识指导的图拓扑学习方法及系统
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
US12019990B2 (en) 2019-12-17 2024-06-25 Beijing Baidu Netcom Science Technology Co., Ltd. Representation learning method and device based on natural language and knowledge graph

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN107145744A (zh) * 2017-05-08 2017-09-08 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAOXU SHI ET AL: "Open-World Knowledge Graph Completion", 《HTTPS://ARXIV.ORG/PDF/1711.03438.PDF》 *
JIACHENG XU ET AL: "Knowledge Graph Representation with Jointly Structural and Textual Encoding", 《PROCEEDINGS OF THE TWENTY-SIXTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
RUOBING XIE ET AL: "Representation Learning of Knowledge Graphs with Entity Descriptions", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
丁建辉等: "知识图谱补全算法综述", 《信息通信技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法
CN109918640B (zh) * 2018-12-22 2023-05-02 浙江工商大学 一种基于知识图谱的中文文本校对方法
CN109902183B (zh) * 2019-02-13 2023-03-31 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN110196896A (zh) * 2019-05-23 2019-09-03 华侨大学 一种面向对外汉语口语学习的智能问题生成方法
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110765235B (zh) * 2019-09-09 2023-09-05 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
WO2021120543A1 (zh) * 2019-12-17 2021-06-24 北京百度网讯科技有限公司 基于自然语言和知识图谱的表示学习方法及装置
CN110727806A (zh) * 2019-12-17 2020-01-24 北京百度网讯科技有限公司 基于自然语言和知识图谱的文本处理方法及装置
US12019990B2 (en) 2019-12-17 2024-06-25 Beijing Baidu Netcom Science Technology Co., Ltd. Representation learning method and device based on natural language and knowledge graph
CN111241410A (zh) * 2020-01-22 2020-06-05 深圳司南数据服务有限公司 一种行业新闻推荐方法及终端
CN111241410B (zh) * 2020-01-22 2023-08-22 深圳司南数据服务有限公司 一种行业新闻推荐方法及终端
CN111949764A (zh) * 2020-08-18 2020-11-17 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN111949764B (zh) * 2020-08-18 2021-06-29 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN114860952A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于数据统计和知识指导的图拓扑学习方法及系统

Similar Documents

Publication Publication Date Title
CN108681544A (zh) 一种基于图谱拓扑结构和实体文本描述的深度学习方法
Shafiq et al. Selection of effective machine learning algorithm and Bot-IoT attacks traffic identification for internet of things in smart city
Rong et al. A fast pruned-extreme learning machine for classification problem
CN107633005A (zh) 一种基于课堂教学内容的知识图谱构建、对比系统及方法
Niu et al. A kind of parameters self-adjusting extreme learning machine
KR20210030068A (ko) 앙상블 질의 응답을 위한 시스템 및 방법
CN113360604B (zh) 基于认知推理的知识图谱多跳问答方法及模型
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
WO2017026303A1 (ja) 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
Pandey et al. Correlation analysis of big data to support machine learning
Yan et al. Exkgr: Explainable multi-hop reasoning for evolving knowledge graph
Wang et al. Emotion analysis of microblog based on emotion dictionary and Bi-GRU
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
Ren et al. ABML: attention-based multi-task learning for jointly humor recognition and pun detection
Gao et al. A hybrid and regenerative model chat robot based on LSTM and attention model
CN108280153B (zh) 一种碎片化知识智能化聚合方法
Liu English translation model design based on neural network
Li et al. Using big data from the web to train chinese traffic word representation model in vector space
Zhu et al. Information extraction research review
Hu et al. Semantic sequence labeling model of power dispatching based on deep long short term memory network
Chen et al. Llama-lora neural prompt engineering: A deep tuning framework for automatically generating chinese text logical reasoning thinking chains
Sri Neha et al. A Comparative Analysis on Image Caption Generator Using Deep Learning Architecture—ResNet and VGG16
WO2015042930A1 (zh) 结合知识库的深层数据处理方法和系统
Lakshmi et al. Search for social smart objects constituting sensor ontology, social iot and social network interaction
Li et al. Named Entity Recognition Based on Bi-LSTM and CRF-CEL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019