CN108681544A - 一种基于图谱拓扑结构和实体文本描述的深度学习方法 - Google Patents
一种基于图谱拓扑结构和实体文本描述的深度学习方法 Download PDFInfo
- Publication number
- CN108681544A CN108681544A CN201810187010.9A CN201810187010A CN108681544A CN 108681544 A CN108681544 A CN 108681544A CN 201810187010 A CN201810187010 A CN 201810187010A CN 108681544 A CN108681544 A CN 108681544A
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge mapping
- text
- completion
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 abstract description 4
- 239000012634 fragment Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000396377 Tranes Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方法在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知识图谱补全问题。
Description
技术领域
本发明涉及文本处理算法领域,更具体地,涉及一种基于图谱拓扑结构和实 体文本描述的深度学习方法。
背景技术
知识图谱是(Knowledge Graph)当前大数据时代的研究热点,自从2012年 Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。 在知识图谱的研究中,知识图谱补全问题(Knowledge Graph Completion)占据 了极为重要的位置。知识图谱补全的目标是将现有不完全的知识图谱尽可能地补 全,以便丰富知识图谱包含的信息。
目前,关于知识图谱补全的相关技术有:基于众包的知识图补全、基于知识 图谱拓扑结构语义深度学习模型、基于关系推理规则的推理模型等。
开放世界知识图谱补全问题(Open-World Knowledge Graph Completion)与 封闭世界知识图谱补全问题(Close-World Knowledge Graph Completion)不同的 是,它能够将现有知识图谱中不存在的实体加入到知识图谱中来,而非仅限于当 前知识图谱中已存在的实体。开放世界知识图谱补全问题可形式化定义如下:给 定一个不完备的知识图谱G=(E,R,T),其中E,R,T分别为头部实体集、关系 集、尾部实体集,开放世界知识图谱补全问题的目标是找到这样的缺失三元组集 合其中Ei和Ti分别是E和T的超 集。
发明内容
本发明提供一种解决知识图谱补全的能力的基于图谱拓扑结构和实体文本 描述的深度学习方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于图谱拓扑结构和实体文本描述的深度学习方法,包括以下步骤:
S1:构建基于图拓扑结构的预测模型M1;
S2:构建基于注意力机制的文本处理模型M2;
S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的 知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分 别得到M1的输出和M2的输出;
S4:根据词向量字典查询,即可得出预测实体的名称。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型方法,该方法 在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱中(需发现), 也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作是封闭环境下 的知识图补全问题,模型M1能够很好地“发现”这个实体;对于需要发现的任 务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地发掘文本信息, 为“生成”这个实体提供有力保障。这两个子模型的联合,能够解决开放世界知 识图谱补全问题。
附图说明
图1为本发明流程图;
图2为引入注意力机制的权重分配示意图;
图3为模型M2处理三元组补全问题的流程示意图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实 际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理 解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本发明提出了一种基于图谱拓扑结构和实体文本描述的深度学习方法,该方 法基于深度学习理论,一方面,在实体文本信息处理上,加入注意力机制,引入 循环卷积网络处理文本,能够更加充分地利用了知识图谱中实体的描述文本信息。 另一方面,将知识图谱本身的拓扑结构所蕴含的丰富信息挖掘出来,从而提升模 型对残缺三元组<h,r,?>或<?,r,t>中“?”预测的准确性,并且随着预测正 确的三元组的不断加入,知识图谱的拓扑结构也将变得更加复杂,所能提供的信 息也将更加丰富,从而该模型解决知识图谱补全的能力也将更为强大。
总的来讲,该模型分为两个子模型的联合模型:基于图拓扑结构的预测模型 M1和基于注意力机制的文本处理模型M2,如图1所示。M2处理的文本信息包 括了实体描述文本、实体名称文本、关系名称文本、词向量字典等信息。
模型构建好以后,通过大量的训练数据训练该模型,得出图1中w1和w2 的值以及两个子模型内部的参数。待新问题来到时,将现有的知识图谱结构作为 子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出 O1和M2的输出O2,此步骤输出皆为一个固定维度的向量,预测实体名称的词 向量W由公式:
W=w1*N1+w2*N2+…+wn*Nn
其中,N1=Wm11*O1+Wm21*O2
N2=Wm12*O1+Wm22*O2
N3=Wm13*O1+Wm23*O2
…
Nn=Wm1n*O1+Wm2n*O2
得出。(其中,w1,w2,wn和Wm11,Wm21等为模型的参数)最后根据词向 量字典查询,即可得出预测实体的名称(需要指出的是,这里用到的词向量字典 既包含了模型M2输入中的词向量字典,也包含了模型M1训练出来的词向量)
下面,分别介绍子模型M1、M2的实现方案。
首先是子模型M1,该模型的思想可直接借鉴封闭环境假设下的知识图谱补 全问题的语义模型,如TransE,HolE等。在TransE模型中,对于头部实体h,关 系r,尾部实体t,基于公式:
h+r=t(2)
利用从知识图谱结构中得到的三元组,训练得到知识图谱中实体和关系的词 向量表示,用于预测缺失的三元组。HolE在TranE思想下进行了改进,并在预 测准确率上取得了较大的突破。在M1模型的实现上,可以用HolE的方法,对 知识图谱中的信息进行处理,得到知识图谱中实体、关系的词向量表示。需注意 的是,此部分词向量由知识图谱结构信息训练所得,跟基于语料的词向量如 GlovE等可能才在较大差异。这一步训练所得的词向量与实体的对应关系,应保 存成字典形式。
其次,子模型M2实现部分。子模型M2的输入为文本信息,包括:实体名 称、关系名称、实体描述文本以及预训练好的词向量字典如GloVe等。M2的实 现可以借鉴图1中ConMask的结构,所不同的是,实体描述文本截取部分,不 再是简单的截取指示词(Indicator Word)之后的单词,而是以指示词为中心,截 取一个大小为k的文本片段。这样可避免指示词出现过早导致的截取片段过长问 题以及应对目标词(Target Word)出现在指示词之前的情况。k的大小应设置自 然语句的普遍长度为宜。
借用上面的例子<Michelle Obama,Spouse,?>,若设置k=13,此策略将截 取实体“Michelle Obama”的描述文本“Michelle LaVaughn Robinson Obama born January 171964American lawyer writer who First Lady United States married 44thPresident United States,Barack Obama”中的片段为“writer who First Lady UnitedStates married 44th President United States Barack Obama”。
在截取到文本片段后,ConMask模型得到|kc|×200的矩阵(kc为截取文本 长度,200为词向量维度),作为全卷积网络(FCN)的输入。我们的模型不同 的是,在得到截取的文本之后,充分考虑单词之于关系、实体重要性之不同以及 自然语言词序之间的关系,并且考虑片段中的单词与实体单词的语义距离,引入 注意力机制,给截取的文本片段中每个单词赋予不同的权重,引入循环神经网络 (RNN)处理这个带权重的文本片段。
在这一步,赋予权重的策略是:越靠近指示词的单词具有越大的权重。文本 片段中,首先,给每个单词赋予的权重为其与指示词词序距离的倒数。之后,度 量片段中每个单词跟实体单词的语义距离,找出其中最相似的单词,并以此单词 为新的指示词(NewIndicator Word),再给每个单词赋予的第二个权重,即为其 与新指示词词序距离的倒数。最后每个单词取两个权重中较大者最为最终权重。
举例来说,片段“writer who First Lady United States married 44thPresident United States Barack Obama”中,在引入注意力机制后,每个单词对应的权重如图 2所示。
权重分配完毕后,将此带权重的序列作为循环神经网络(RNN)的输入,以 提取文本的高层特征表示,经循环神经网络处理后,得到的输出再作为全卷积网 络(FCN)的输入,经全卷积网络卷积、池化等操作后,得到模型M2的输出, 即为一个预测出的词向量表示。模型M2的整体架构类似于ConMask模型,所 不同的是在将截取文本序列输入到全卷积网络前,加入了注意力分配机制并通过 循环卷积网络,此举的目的在于利用循环神经网络处理序列文本的强大能力,充 分发掘文本中蕴含的信息,提升模型的准确性。
模型M2解决三元组补全问题的流程如图3所示。
总结来说,本发明提出基于图谱拓扑结构和实体文本描述的深度学习模型的 原因在于:在解决知识图谱补全问题中,要补全的实体可能已经存在于知识图谱 中(需发现),也可能不在知识图谱中(需生成)。对于需要发现的任务,可视作 是封闭环境下的知识图补全问题,模型M1能够很好地“发现”这个实体;对于 需要发现的任务,模型M2在注意力机制和循环卷积网络的帮助下,能够充分地 发掘文本信息,为“生成”这个实体提供有力保障。这两个子模型的联合,能够 解决开放世界知识图谱补全问题。
知识图谱在信息检索、用户兴趣挖掘、智能问答系统等领域有着广泛的应用, 知识图谱的质量如何直接影响了这些应用的发展。本发明提出的方案关注知识图 谱补全问题,是知识图谱包含信息多少、信息质量的核心问题所在,将为知识图 谱在这些领域的应用提供有力的支撑。
目前,许多知名公司如Google、百度等都在建立自己的知识图谱,知识图 谱的好坏对于其搜索产品的好坏起到了基础支撑作用,本发明提出的方案操作性 强,能够为构建完备的知识图谱提供解决方案。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非 是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明 的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施 方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进 等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于图谱拓扑结构和实体文本描述的深度学习方法,其特征在于,包括以下步骤:
S1:构建基于图拓扑结构的预测模型M1;
S2:构建基于注意力机制的文本处理模型M2;
S3:通过大量的训练数据训练该模型,得出两个模型内部的参数,将现有的知识图谱结构作为子模型M1输入,相关的文本信息作为子模型M2的输入,分别得到M1的输出和M2的输出;
S4:根据词向量字典查询,即可得出预测实体的名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187010.9A CN108681544A (zh) | 2018-03-07 | 2018-03-07 | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810187010.9A CN108681544A (zh) | 2018-03-07 | 2018-03-07 | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108681544A true CN108681544A (zh) | 2018-10-19 |
Family
ID=63799302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810187010.9A Pending CN108681544A (zh) | 2018-03-07 | 2018-03-07 | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108681544A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902183A (zh) * | 2019-02-13 | 2019-06-18 | 北京航空航天大学 | 一种基于多样图注意力机制的知识图谱嵌入方法 |
CN109918640A (zh) * | 2018-12-22 | 2019-06-21 | 浙江工商大学 | 一种基于知识图谱的中文文本校对方法 |
CN110196896A (zh) * | 2019-05-23 | 2019-09-03 | 华侨大学 | 一种面向对外汉语口语学习的智能问题生成方法 |
CN110727806A (zh) * | 2019-12-17 | 2020-01-24 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
CN110765235A (zh) * | 2019-09-09 | 2020-02-07 | 深圳市人马互动科技有限公司 | 训练数据的生成方法、装置、终端及可读介质 |
CN111241410A (zh) * | 2020-01-22 | 2020-06-05 | 深圳司南数据服务有限公司 | 一种行业新闻推荐方法及终端 |
CN111949764A (zh) * | 2020-08-18 | 2020-11-17 | 桂林电子科技大学 | 一种基于双向注意力机制的知识图谱补全方法 |
CN114860952A (zh) * | 2022-04-29 | 2022-08-05 | 华侨大学 | 一种基于数据统计和知识指导的图拓扑学习方法及系统 |
WO2022178950A1 (zh) * | 2021-02-25 | 2022-09-01 | 平安科技(深圳)有限公司 | 预测语句实体的方法、装置和计算机设备 |
US12019990B2 (en) | 2019-12-17 | 2024-06-25 | Beijing Baidu Netcom Science Technology Co., Ltd. | Representation learning method and device based on natural language and knowledge graph |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
-
2018
- 2018-03-07 CN CN201810187010.9A patent/CN108681544A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
Non-Patent Citations (4)
Title |
---|
BAOXU SHI ET AL: "Open-World Knowledge Graph Completion", 《HTTPS://ARXIV.ORG/PDF/1711.03438.PDF》 * |
JIACHENG XU ET AL: "Knowledge Graph Representation with Jointly Structural and Textual Encoding", 《PROCEEDINGS OF THE TWENTY-SIXTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
RUOBING XIE ET AL: "Representation Learning of Knowledge Graphs with Entity Descriptions", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
丁建辉等: "知识图谱补全算法综述", 《信息通信技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918640A (zh) * | 2018-12-22 | 2019-06-21 | 浙江工商大学 | 一种基于知识图谱的中文文本校对方法 |
CN109918640B (zh) * | 2018-12-22 | 2023-05-02 | 浙江工商大学 | 一种基于知识图谱的中文文本校对方法 |
CN109902183B (zh) * | 2019-02-13 | 2023-03-31 | 北京航空航天大学 | 一种基于多样图注意力机制的知识图谱嵌入方法 |
CN109902183A (zh) * | 2019-02-13 | 2019-06-18 | 北京航空航天大学 | 一种基于多样图注意力机制的知识图谱嵌入方法 |
CN110196896A (zh) * | 2019-05-23 | 2019-09-03 | 华侨大学 | 一种面向对外汉语口语学习的智能问题生成方法 |
CN110765235A (zh) * | 2019-09-09 | 2020-02-07 | 深圳市人马互动科技有限公司 | 训练数据的生成方法、装置、终端及可读介质 |
CN110765235B (zh) * | 2019-09-09 | 2023-09-05 | 深圳市人马互动科技有限公司 | 训练数据的生成方法、装置、终端及可读介质 |
WO2021120543A1 (zh) * | 2019-12-17 | 2021-06-24 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的表示学习方法及装置 |
CN110727806A (zh) * | 2019-12-17 | 2020-01-24 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
US12019990B2 (en) | 2019-12-17 | 2024-06-25 | Beijing Baidu Netcom Science Technology Co., Ltd. | Representation learning method and device based on natural language and knowledge graph |
CN111241410A (zh) * | 2020-01-22 | 2020-06-05 | 深圳司南数据服务有限公司 | 一种行业新闻推荐方法及终端 |
CN111241410B (zh) * | 2020-01-22 | 2023-08-22 | 深圳司南数据服务有限公司 | 一种行业新闻推荐方法及终端 |
CN111949764A (zh) * | 2020-08-18 | 2020-11-17 | 桂林电子科技大学 | 一种基于双向注意力机制的知识图谱补全方法 |
CN111949764B (zh) * | 2020-08-18 | 2021-06-29 | 桂林电子科技大学 | 一种基于双向注意力机制的知识图谱补全方法 |
WO2022178950A1 (zh) * | 2021-02-25 | 2022-09-01 | 平安科技(深圳)有限公司 | 预测语句实体的方法、装置和计算机设备 |
CN114860952A (zh) * | 2022-04-29 | 2022-08-05 | 华侨大学 | 一种基于数据统计和知识指导的图拓扑学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681544A (zh) | 一种基于图谱拓扑结构和实体文本描述的深度学习方法 | |
Shafiq et al. | Selection of effective machine learning algorithm and Bot-IoT attacks traffic identification for internet of things in smart city | |
Rong et al. | A fast pruned-extreme learning machine for classification problem | |
CN107633005A (zh) | 一种基于课堂教学内容的知识图谱构建、对比系统及方法 | |
Niu et al. | A kind of parameters self-adjusting extreme learning machine | |
KR20210030068A (ko) | 앙상블 질의 응답을 위한 시스템 및 방법 | |
CN113360604B (zh) | 基于认知推理的知识图谱多跳问答方法及模型 | |
CN114519356B (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
WO2017026303A1 (ja) | 未来シナリオ生成装置及び方法、並びにコンピュータプログラム | |
Pandey et al. | Correlation analysis of big data to support machine learning | |
Yan et al. | Exkgr: Explainable multi-hop reasoning for evolving knowledge graph | |
Wang et al. | Emotion analysis of microblog based on emotion dictionary and Bi-GRU | |
CN114579605B (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
Ren et al. | ABML: attention-based multi-task learning for jointly humor recognition and pun detection | |
Gao et al. | A hybrid and regenerative model chat robot based on LSTM and attention model | |
CN108280153B (zh) | 一种碎片化知识智能化聚合方法 | |
Liu | English translation model design based on neural network | |
Li et al. | Using big data from the web to train chinese traffic word representation model in vector space | |
Zhu et al. | Information extraction research review | |
Hu et al. | Semantic sequence labeling model of power dispatching based on deep long short term memory network | |
Chen et al. | Llama-lora neural prompt engineering: A deep tuning framework for automatically generating chinese text logical reasoning thinking chains | |
Sri Neha et al. | A Comparative Analysis on Image Caption Generator Using Deep Learning Architecture—ResNet and VGG16 | |
WO2015042930A1 (zh) | 结合知识库的深层数据处理方法和系统 | |
Lakshmi et al. | Search for social smart objects constituting sensor ontology, social iot and social network interaction | |
Li et al. | Named Entity Recognition Based on Bi-LSTM and CRF-CEL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181019 |