CN113076743A - 一种基于网络结构和表示学习的知识图多跳推理方法 - Google Patents
一种基于网络结构和表示学习的知识图多跳推理方法 Download PDFInfo
- Publication number
- CN113076743A CN113076743A CN202110341351.9A CN202110341351A CN113076743A CN 113076743 A CN113076743 A CN 113076743A CN 202110341351 A CN202110341351 A CN 202110341351A CN 113076743 A CN113076743 A CN 113076743A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- entity
- paths
- entities
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004931 aggregating effect Effects 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000005295 random walk Methods 0.000 claims 1
- 238000003672 processing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于网络结构和表示学习的知识图多跳推理方法,包括使用数据集,数据集包含知识图和问答对;对数据集进行预处理:为每一个问题,将其身份实体和尾巴实体通过检查单词匹配中的实体知识图;对问题中的单词进行过滤,只保留问题中出现频率最高的若干单词;分析出路径并进行赋权值并进行运算,运算结束之后将路径进行聚合;对结果进行分析比较得出是否有优化的结论;本发明通过在模型中引入注意机制,利用了分散在实体间所有路径上的知识,进而学习给定查询的嵌入表示,然后针对知识图进行问题回答,特别是处理复杂的逻辑查询和挖掘知识图中包含的多跳路径,实现一种更细粒度的知识图数据处理方法。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于网络结构和表示学习的知识图多跳推理方法。
背景技术
知识图在人工智能的许多相关领域发展迅速,广泛的应用于问答系统、知识抽取、推荐系统、命名实体消歧、语言处理模型、语义分析、数据分析和知识管理系统等等领域,可以方便的发现实体之间的关系。而知识推理中多跳推理是知识图的基本问题之一,其目的是基于所存储的知识,对给定的知识图中不直接存储的实体和关系进行推理。在解决计算问题时,一种解决方法是表示学习,将实体和关系表示为低维向量,然后利用机器学习来处理知识计算。同时,为了确定实体的重要度指标,还可以从网络的角度对知识图的实体和关系进行了观察。本地网络结构中包含的语义信息可以决定实体的重要性。其次,基于类型化分类理论的结构化知识表示方法是一种既关注结构又关注逻辑的知识表示的尝试性方法,其表示单元是具有分类结构的知识块。这种分类知识结构是某些术语与专门的逻辑结构的整合。这种分类知识结构要么是语义分类,要么是像微型本体那样的特定图,显示了更高的知识可视化能力。
分类知识结构维护了所包含的逻辑关系,可被计算机视为一种有效的面向语义的知识推理模式,并具有使知识推理过程可视化的能力。
发明内容
本发明所要解决的技术问题是:提供一种找出分类理论与知识推理之间的相似性,并从联想和推理两方面提出一种新的基于分类结构的知识推理机制,以促进推理的形象化的基于网络结构和表示学习的知识图多跳推理方法。
为了解决上述技术问题,本发明采用的技术方案为:一种基于网络结构和表示学习的知识图多跳推理方法,包括
使用数据集,所述数据集包含一个知识图和问答对;所述问答对包括问题和答案,所述问题关于一个实体,所述答案为知识图的实体集合;
对数据集进行预处理:
为每一个问题,将其身份实体和尾巴实体通过检查单词匹配中的实体知识图;
对问题中的单词进行过滤,只保留问题中出现频率最高的若干单词;
分析出路径并进行赋权值并进行运算,运算结束之后将路径进行聚合;
对结果进行分析比较得出是否有优化的结论。
本发明的有益效果在于:本申请提出了一种基于局部网络结构和表示学习的知识推理算法,并从网络和分布式表示的角度实现了知识图的推理计算,同时,提出了一种新的基于组合方法的知识图多跳推理方法,通过在模型中引入注意机制,有效地利用了分散在实体间所有路径上的知识,进而学习给定查询的嵌入表示,然后针对知识图进行问题回答,特别是处理复杂的逻辑查询和挖掘知识图中包含的多跳路径,实现一种更细粒度的知识图数据处理方法。
附图说明
图1为本发明具体实施方式的一种基于网络结构和表示学习的知识图多跳推理方法的部分架构图;
图2为为本发明具体实施方式的一种基于网络结构和表示学习的知识图多跳推理方法的引入节点进行权值分配的示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1以及图2,一种基于网络结构和表示学习的知识图多跳推理方法,包括
使用数据集,所述数据集包含一个知识图和问答对;所述问答对包括问题和答案,所述问题关于一个实体,所述答案为知识图的实体集合;
对数据集进行预处理:
为每一个问题,将其身份实体和尾巴实体通过检查单词匹配中的实体知识图;
对问题中的单词进行过滤,只保留问题中出现频率最高的若干单词;
分析出路径并进行赋权值并进行运算,运算结束之后将路径进行聚合;
对结果进行分析比较得出是否有优化的结论。
从上述描述可知,本申请提出了一种基于局部网络结构和表示学习的知识推理算法,并从网络和分布式表示的角度实现了知识图的推理计算,同时,提出了一种新的基于组合方法的知识图多跳推理方法,通过在模型中引入注意机制,有效地利用了分散在实体间所有路径上的知识,进而学习给定查询的嵌入表示,然后针对知识图进行问题回答,特别是处理复杂的逻辑查询和挖掘知识图中包含的多跳路径,实现一种更细粒度的知识图数据处理方法。
进一步的,所述知识图包含三元组,所述三元组包括头部实体h、身体实体r、尾部实体t,通过随机行走,在头部实体h和尾部实体t之间找到多条推理路径;所述推理路径包含若干的关系或实体。
进一步的,所述知识图还包括与身体实体r相对的反r-1。
进一步的,引入节点重要性来实现三元组内的权值分配,通过度中心性来定义节点重要度;采用有向图分析和无向图分析来分析网络结构;在有向图分析方法中,以头实体的向外度和尾实体的向内度作为计算因子。
进一步的,所述聚合包括
对于任一三元组(h,r,t),找到n条路径,每条路径由若干实体和关系组成,记第i条路径为pi,表示为有序关系和实体的列表:=h,r1,e1,r2,e2,…,rm,t;其中路径活塞从头部实体h,通过实体e1,e2,…通过关系r1,r2,…,最后到达尾部t;
该三元组的所有找到路径集合记为S=p1,p2,…pn;
对于一个查询q,用实体和关系来表示;
对于事实预测任务,查询用qi=(h,r,t)的形式表示,该路径为具有两个实体、只有一个关系;
对于其他任务,查询的结果形式表示为由实体和关系组成的路径。
进一步的,使用预先训练的嵌入来初始化实体和关系表示;
预先训练前采用基本表示学习方法,基于嵌入计算每条路径的关注度;
路径根据关注程度进行组合,通过路径嵌入的平均或总和得到聚合的嵌入;
根据聚合嵌入和查询的嵌入,得到特定任务的最终答案。
实施例一
一种基于网络结构和表示学习的知识图多跳推理方法,包括
使用数据集,所述数据集包含一个知识图和问答对;所述问答对包括问题和答案,所述问题关于一个实体,所述答案为知识图的实体集合;
对数据集进行预处理:
为每一个问题,将其身份实体和尾巴实体通过检查单词匹配中的实体知识图;
对问题中的单词进行过滤,只保留问题中出现频率最高的若干单词;
分析出路径并进行赋权值并进行运算,运算结束之后将路径进行聚合;
对结果进行分析比较得出是否有优化的结论。
具体的
1、初始阶段
为了提高知识推理算法的性能,引入了知识图的局部网络结构的语义。
2、问题和原因
在知识图表示学习中,三元组是不可分割的最小元素。但是,三元组的头尾实体之间的差异所包含的语义信息被忽略了。三者之间的关系可以看作是头实体对尾实体的影响。由于头尾实体权重不同,关系对实体施加的影响也不同。在表示学习中引入实体权重差异的语义信息,提高模型性能。
同时还可以提出一个方法,其整个架构如图1所示。在第一阶段,对于每个三元组(h,r,t),通过随机行走,可以在头部实体h和尾部实体t之间找到多条推理路径。这些路径通常包含一个以上的关系或实体,因此被称为“多跳”路径。总的来说,每条路径在语义上都与目标关系“r”在不同层次上相关,同时又相互补充。为了给寻径过程带来更多的灵活性和多样性,我们还考虑了关系r的反r-1,从尾部实体t到头部实体h。因此,对于每一个三元组(h,r,t),我们添加一个三元组(t,r-1,h)到知识图中,这允许每个实体在需要时可以访问几次。
3、引入节点进行权值分配
我们引入节点重要性来实现三元组内的权值分配。知识图本质上是一个多关系网络,具有无标度和小世界的特性,使得网络的结构不平衡。节点重要性可以反映网络的这种不平衡性。
网络科学中存在特征向量中心性、中介中心性、密切中心性、度中心性、k-壳与k-核、权威与枢纽等节点重要指标。本文采用度中心性来定义节点重要度,采用有向图分析和无向图分析来分析网络结构。在有向图分析方法中,以头实体的向外度和尾实体的向内度作为计算因子。
由于节点的度分布不均匀,按照度的比例进行权重分配可能会忽略一些节点。
4、对路径进行预测并聚合
参照图2,对于一个三元组(h,r,t),假设我们找到n条路径,每条路径由若干实体和关系组成,记第i条路径为,pi可以表示为有序关系和实体的列表:=h,r1,e1,r2,e2,…,rm,t.其中路径活塞从头部h,通过实体e1,e2,…通过关系r1,r2,…,最后到达尾部t。该三元组的所有找到路径集合记为S=p1,p2,…pn。对于一个查询,比如q,可以用实体和关系来表示它。对于事实预测任务,查询可以用qi=(h,r,t)的形式表示,这是一条有两个实体、只有一个关系的路径(事实预测任务的输出为1/0,表示三元组为真或为假)。对于其他任务,查询的结果形式仍然可以表示为由实体和关系组成的路径,但可能彼此不同。这种结构不仅为解决不同的任务提供了统一的体系结构,增加了模型的灵活性,而且提供了通过查询指导学习过程以达到更好结果的机会。为了更好地表示不同路径的语义知识,可以使用预先训练的嵌入来初始化实体和关系表示。训练前通常采用基本表示学习方法。接下来,我们基于嵌入计算每条路径的关注度。然后将这些路径根据关注程度进行组合,通过路径嵌入的平均或总和得到聚合的嵌入。根据这个聚合嵌入和查询的嵌入,可以得到特定任务的最终答案。
由于不同的路径携带不同的知识,每条路径都与查询在不同的级别相关。因此,在梳理它们时,自然会对每条路径给予不同的关注。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于网络结构和表示学习的知识图多跳推理方法,其特征在于,包括
使用数据集,所述数据集包含一个知识图和问答对;所述问答对包括问题和答案,所述问题关于一个实体,所述答案为知识图的实体集合;
对数据集进行预处理:
为每一个问题,将其身份实体和尾巴实体通过检查单词匹配中的实体知识图;
对问题中的单词进行过滤,只保留问题中出现频率最高的若干单词;
分析出路径并进行赋权值并进行运算,运算结束之后将路径进行聚合;
对结果进行分析比较得出是否有优化的结论。
2.根据权利要求1所述的基于网络结构和表示学习的知识图多跳推理方法,其特征在于,所述知识图包含三元组,所述三元组包括头部实体h、身体实体r、尾部实体t,通过随机行走,在头部实体h和尾部实体t之间找到多条推理路径;所述推理路径包含若干的关系或实体。
3.根据权利要求2所述的基于网络结构和表示学习的知识图多跳推理方法,其特征在于,所述知识图还包括与身体实体r相对的反r-1。
4.根据权利要求2所述的基于网络结构和表示学习的知识图多跳推理方法,其特征在于,引入节点重要性来实现三元组内的权值分配,通过度中心性来定义节点重要度;采用有向图分析和无向图分析来分析网络结构;在有向图分析方法中,以头实体的向外度和尾实体的向内度作为计算因子。
5.根据权利要求2所述的基于网络结构和表示学习的知识图多跳推理方法,其特征在于,所述聚合包括
对于任一三元组(h,r,t),找到n条路径,每条路径由若干实体和关系组成,记第i条路径为pi,表示为有序关系和实体的列表:=h,r1,e1,r2,e2,…,rm,t;其中路径活塞从头部实体h,通过实体e1,e2,…通过关系r1,r2,…,最后到达尾部t;
该三元组的所有找到路径集合记为S=p1,p2,…pn;
对于一个查询q,用实体和关系来表示;
对于事实预测任务,查询用qi=(h,r,t)的形式表示,该路径为具有两个实体、只有一个关系;
对于其他任务,查询的结果形式表示为由实体和关系组成的路径。
6.根据权利要求5所述的基于网络结构和表示学习的知识图多跳推理方法,其特征在于,使用预先训练的嵌入来初始化实体和关系表示;
预先训练前采用基本表示学习方法,基于嵌入计算每条路径的关注度;
路径根据关注程度进行组合,通过路径嵌入的平均或总和得到聚合的嵌入;
根据聚合嵌入和查询的嵌入,得到特定任务的最终答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341351.9A CN113076743A (zh) | 2021-03-30 | 2021-03-30 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341351.9A CN113076743A (zh) | 2021-03-30 | 2021-03-30 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076743A true CN113076743A (zh) | 2021-07-06 |
Family
ID=76611639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110341351.9A Pending CN113076743A (zh) | 2021-03-30 | 2021-03-30 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076743A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017007740A1 (en) * | 2015-07-06 | 2017-01-12 | Microsoft Technology Licensing, Llc | Learning word embedding using morphological and contextual knowledge |
CN107122455A (zh) * | 2017-04-26 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 一种基于微博的网络用户增强表示方法 |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
US20190318032A1 (en) * | 2018-04-12 | 2019-10-17 | Microsoft Technology Licensing, Llc | Computerized assistance using artificial intelligence knowledge base |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
CN112116069A (zh) * | 2020-09-03 | 2020-12-22 | 山东省人工智能研究院 | 一种基于Attention-LSTM的强化学习Agent知识推理方法 |
-
2021
- 2021-03-30 CN CN202110341351.9A patent/CN113076743A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017007740A1 (en) * | 2015-07-06 | 2017-01-12 | Microsoft Technology Licensing, Llc | Learning word embedding using morphological and contextual knowledge |
CN107122455A (zh) * | 2017-04-26 | 2017-09-01 | 中国人民解放军国防科学技术大学 | 一种基于微博的网络用户增强表示方法 |
US20190318032A1 (en) * | 2018-04-12 | 2019-10-17 | Microsoft Technology Licensing, Llc | Computerized assistance using artificial intelligence knowledge base |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
CN112116069A (zh) * | 2020-09-03 | 2020-12-22 | 山东省人工智能研究院 | 一种基于Attention-LSTM的强化学习Agent知识推理方法 |
Non-Patent Citations (2)
Title |
---|
JINKUI YAO等: "A Knowledge Reasoning Algorithm Based on Network Structure and Representation Learning", 《2020 THE 8TH INTERNATIONAL CONFERENCE ON INFORMATION, COMMUNICATION AND NETWORKS》 * |
ZIKANG WANG等: "Attention-based Multi-hop Reasoning for Knowledge Graph", 《ISI 2018》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shang et al. | Democratizing data science through interactive curation of ml pipelines | |
CN106055549B (zh) | 利用加速器的概念分析操作的方法和系统 | |
Yang et al. | Learn to explain efficiently via neural logic inductive learning | |
US7636697B1 (en) | Method and system for rapid evaluation of logical expressions | |
US20180240043A1 (en) | Model and pattern structure online unital learning: mapsoul | |
Komer et al. | Hyperopt-Sklearn: Automatic Hyperparameter Configuration for Scikit-Learn. | |
Sun et al. | Atp: Directed graph embedding with asymmetric transitivity preservation | |
Song et al. | Does preprocessing help training over-parameterized neural networks? | |
Pulgar-Rubio et al. | MEFASD-BD: multi-objective evolutionary fuzzy algorithm for subgroup discovery in big data environments-a mapreduce solution | |
Przybyła-Kasperek et al. | Global decision-making in multi-agent decision-making system with dynamically generated disjoint clusters | |
Wu et al. | Temporal interaction and causal influence in community-based question answering | |
Kalia et al. | Surrogate-assisted multi-objective genetic algorithms for fuzzy rule-based classification | |
Jiao et al. | Coevolutionary computation and multiagent systems | |
Sosnowski | Framework of compound object comparators | |
Kovács et al. | Conceptualization with incremental bron-kerbosch algorithm in big data architecture | |
Breskvar et al. | Multi-target regression rules with Random Output Selections | |
Tazaree et al. | A semantic image classifier based on hierarchical fuzzy association rule mining | |
Huang et al. | An efficient inductive learning method for object-oriented database using attribute entropy | |
Priya et al. | Partitioning OWL knowledge bases for parallel reasoning | |
CN113076743A (zh) | 一种基于网络结构和表示学习的知识图多跳推理方法 | |
Vashishtha et al. | Revisiting interestingness measures for knowledge discovery in databases | |
Anuradha et al. | Mining generalized positive and negative inter-cross fuzzy multiple-level coherent rules | |
Mirhosseini et al. | Metaheuristic search algorithms in solving the n-similarity problem | |
Bobillo et al. | On the generalization of the discovery of subsumption relationships to the fuzzy case | |
García et al. | Subgroup Discovery with Evolutionary Fuzzy Systems in R: The SDEFSR Package. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210706 |
|
RJ01 | Rejection of invention patent application after publication |