CN108304519B

CN108304519B - 一种基于图数据库的知识森林构建方法

Info

Publication number: CN108304519B
Application number: CN201810068490.7A
Authority: CN
Inventors: 刘均; 任若清; 段海梦; 刘文强; 郑元浩; 石磊; 杨宽
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2020-08-18
Anticipated expiration: 2038-01-24
Also published as: CN108304519A

Abstract

一种基于图数据库的知识森林构建方法，包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤。本发明根据采集到的各类课程数据，通过查询主题、分面和关系数据库，以及对知识碎片集合多层分类构建实例化知识主题分面树，然后通过计算不同主题下文本知识碎片间相似度生成主题间认知关系，最后基于图数据库设计知识森林数据存储格式，从而实现知识森林的构建和存储。本发明构建实例化知识主题分面树的过程缓解了认知过载问题，生成知识主题间认知关系的过程缓解了认知迷航问题，存储知识森林数据的步骤保证了数据的持久化，也解决了关系型数据库无法很好支持大规模数据和复杂关系存储的问题。

Description

一种基于图数据库的知识森林构建方法

技术领域

本发明涉及知识图谱构建存储领域，具体涉及一种基于图数据库的知识森林构建方法。

背景技术

随着信息技术发展，人类知识也呈现爆炸性增长，知识倍增周期缩短，加剧了知识碎片化现象。为缓解知识碎片SOD三特性(位置分散-Scattered，内容片面-One-sided，结构无序-Disordered)引发的认知过载和学习迷航问题，提出了“知识森林”碎片知识聚合模式：将多源、片面、无序的碎片化知识聚合成结构化、有序化且符合人类认知特点的组织形式。知识森林作为知识图谱的一种，数据量巨大且关系复杂，需要一定的方法实现其构建及存储。

现有技术已经公开的相关内容中，如专利号为CN2016102676060的中国专利“一种基于垂直领域的知识图谱的构建方法”包括三个步骤：(1)抽取在线百科的类的词汇实现和类之间的上下位关系；(2)将领域知识的信息进行归并，定义领域的数据属性和关系属性，并且进一步规约属性的定义域和值域；(3)实体层的学习，即抽取实体和填充实体的属性值。

以上述专利为代表的现有技术在进行知识图谱构建时依赖格式化的数据表，基于关系型数据库存储知识图谱，而关系型数据库随着数据量的增大和关系的复杂，会出现数据冗余、执行效率下降等问题，上述专利无法很好的支持知识图谱中大规模数据和复杂的关系。

发明内容

本发明的目的在于针对上述现有技术中的问题，提供一种基于图数据库的知识森林构建方法，此构建方法能够较好的支持知识图谱大规模数据和复杂关系的存储和操作。

为了实现上述目的，本发明采用的技术方案为：包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤；

构建实例化知识主题分面树的步骤为：

采集不同课程的数据，构建课程数据集；根据知识主题及分面数据集，构建知识主题分面树；对课程知识碎片数据集基于层次进行多次分类，确定课程知识碎片和知识主题分面树叶子节点之间的映射关系，由此构建出实例化知识主题分面树；

生成知识主题间认知关系的步骤为：

以经过预处理的各知识主题下知识碎片文本内容为输入，输出课程内任意两个知识主题间具有认知关系的可能性；根据人工设置的阈值，若两个知识主题间具有认知关系的可能性大于阈值，则在这两个知识主题间生成认知关系；以课程数据目录为补充数据源对认知关系进行补充，最终生成课程内知识主题间所有的认知关系；

存储知识森林数据的步骤为：

制定知识森林数据三元组存储格式，将知识森林数据按照对应存储格式构建为三元组形式并存入图数据库，从而得到存储各课程数据的知识森林数据库。

构建实例化知识主题分面树时以课程书籍和百科类、社区问答类网站内容作为信息来源。

构建实例化知识主题分面树时，首先对课程内每一个知识主题，依据该主题的分面及该主题分面间的语义关系，构建以该知识主题名为树根、以该主题各分面名为树干的知识主题分面树；然后对课程知识碎片基于知识主题和分面信息进行多次分类，建立知识主题分面树叶子节点与课程知识碎片之间的映射关系集合，从而构建得到实例化知识主题分面树。

构建实例化知识主题分面树具体包括以下步骤：

1.1将采集到的课程相关数据分类构建数据集，分别为知识主题数据集Topic，分面数据集Facet，分面间语义关系集合的数据集FRelation，知识碎片数据集Fragment；

1.2对构建好的知识主题数据集Topic中的每一个知识主题，构建三元组KT＝(ku,TF,R)，其中根节点ku表示知识主题，TF表示知识主题的分面集合，

表示知识主题的分面间语义关系集合，开始TF和R为空；对知识主题ku，遍历数据集Facet和FRelation，将ku的所有分面加入集合TF，把ku所有分面间语义关系加入集合R；为每个知识主题ku，以该知识主题的三元组KT＝(ku,TF,R)为基础，构建以主题名ku为树根、主题各分面TF为树干的主题分面树；

1.3对知识碎片数据集Fragment中每一个碎片fg，构造长度为Topic数组大小的向量，向量每一维对应Topic中相同位置的主题，每一维的值置为fg碎片内容中出现该维对应主题名的次数；向量构造完成后，将fg分类到向量值最大的维对应的知识主题；类似的，将fg继续按知识主题分面分类；

1.4对已构建的知识主题分面树集合KFT，根据对知识碎片数据集Fragment中每一个知识碎片的分类，得到知识主题分面树叶子节点Leaf(KFT)与知识碎片间的对应关系MP，即

从而完成实例化知识主题分面树的构建，实例化的知识主题分面树表示为三元组KTI＝(KFT,Fragment,MP)。

生成知识主题间认知关系时，首先对各知识主题下知识碎片的文本内容进行抽取、合并和预处理；其次以LDA文档主题生成模型，向量化已预处理过的各知识主题文本内容，利用向量的余弦相似度确定任意两个知识主题文本内容的相似性，将该相似性认为是两个知识主题间具有认知关系的可能性；再次根据人工设定的可能性阈值，在具有认知关系可能性大于阈值的知识主题间生成认知关系；最后利用课程相关书籍的目录信息，对认知关系进行补充。

生成知识主题间认知关系具体包括以下步骤：

2.1根据知识碎片的分类，对各知识主题下知识碎片的文本内容进行抽取合并，并利用工具包进行分词、过滤停用词和低频词语，使每个知识主题对应一个文本文档；

2.2对知识主题数据集Topic中每一个主题ku，基于LDA文档主题生成模型，将ku对应文本文档表示为一个向量v，从而使各知识主题对应一个向量；

2.3对知识主题数据集Topic中任意两个知识主题ku₁和ku₂，利用余弦相似度计算对应向量v₁和v₂间的相似度，将该相似度sim(v₁,v₂)视为两个知识主题间具有认知关系的可能性；

2.4根据人工设定的阈值λ，若两个知识主题ku₁和ku₂间具有认知关系的可能性大于该阈值，则在这两个知识主题间生成认知关系；

2.5根据课程相关书籍目录信息，对知识主题间的认知关系进行补充；

2.6根据生成的所有认知关系构建知识主题间的认知关系集合LD，完成知识森林的构建，知识森林表示为二元组KF＝(FT,LD),FT表示实例化知识主题分面树集合，

存储知识森林数据时，首先根据所生成知识森林数据的特点，制定知识森林数据三元组存储格式；其次将课程下的知识主题、分面、知识碎片和认知关系按对应的格式进行转换，构建得到三元组形式的知识森林数据；最后将构建好三元组的数据存入图数据库。

存储知识森林数据具体包括如下步骤；

3.1基于资源描述框架，结合知识森林数据特点，制定知识森林数据三元组存储格式；

3.2对课程domain，遍历其知识主题数据集Topic，对其中每一个主题ku，构建三元组格式的知识主题数据＜ku,subject_to,domain＞；

3.3对碎片数据集Fragment中每一个碎片fg，确定碎片fg对应的知识主题ku和分面facet，构建三元组格式的知识碎片数据＜ku,facet,fg＞；

3.4根据所生成的知识主题间认知关系数据，对其中每一条认知关系构建三元组格式的认知关系数据＜ku₁,dependence,ku₂＞；

3.5将构建好的三元组知识森林数据存入图数据库，完成知识森林数据的构建。

与现有技术相比，本发明具有如下的有益效果：根据采集到的各类课程数据，通过查询主题、分面和关系数据库，以及对知识碎片集合多层分类构建实例化知识主题分面树，然后通过计算不同主题下文本知识碎片间相似度生成主题间认知关系，最后基于图数据库设计知识森林数据存储格式，从而实现知识森林的构建和存储，方便用户学习。本发明构建实例化知识主题分面树的过程能够将采集到的课程数据以知识主题分面树的形式展示给学习者，展示过程形象，方便学习者了解知识间的关系，缓解认知过载问题。生成知识主题间认知关系的过程，将知识主题之间认知关系这个抽象的概念转化为主题向量间的相似度问题，简化了构建工作，主题间认知关系的存在缓解了认知迷航问题。存储知识森林数据的步骤保证了数据的持久化，也解决了关系型数据库无法很好支持大规模数据和复杂关系存储的问题。

附图说明

图1本发明知识森林构建方法流程框图；

图2本发明实例化知识主题分面树构建流程图；

图3本发明认知关系生成流程图；

图4本发明“数据结构”课程下以“树状数组”为根的知识主题分面树示意图；

图5本发明“数据结构”课程下以“树状数组”为根的实例化知识主题分面树示意图；

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明所述的知识森林是指一种碎片化知识聚合模式，将碎片化知识聚合过程看作是“知识主题分面树生成—碎片化知识装配—认知关系挖掘”三阶段的知识森林生成过程，知识森林能够将多源、片面、无序的碎片化知识(如中英文的文本以及图片、视频等多媒体资源)聚合成符合人类认知学习时具有多维性、关联性、整合性等特点的模式。本发明所述的知识主题分面树是指描述某一知识主题组织结构的层次结构树，知识主题分面树的数据主要包括分枝数据。实例化知识主题分面树是指包含描述某一知识主题所有知识碎片的知识主题分面树，即分枝数据中还包含叶子数据，叶子数据的内容就是知识碎片的数据。

认知关系：指在学习过程中知识主题间由于认知需要而形成的依赖关系。

知识森林初始化：将知识森林表示为二元组KF＝(FT,LD)，其中FT表示实例化的知识主题分面树集合，LD表示知识主题之间的认知关系集合，即

实例化的知识主题分面树可进一步表示为三元组KTI＝(KFT,KFS,MP)，其中KFT表示为知识主题分面树集合，KFS表示知识碎片集合，MP表示知识主题分面树叶子节点Leaf(KFT)与知识碎片之间的映射关系集合，即

知识主题分面树可表示为三元组KT＝(ku,FR,R)，其中根节点ku表示一个知识主题，如“线性表”。中间节点集合FR表示知识主题的分面集合，例如对于“线性表”，其分面包括“定义”、“存储结构”等。

是知识主题的分面间语义关系集合，例如“存储结构”与“顺序存储结构”之间存在上下位关系。

资源描述框架(Resource Description Framework)：指WWW提出的一种用于描述Web资源的标记语言，它用三元组(S,P,O)描述资源，S，P，O分别表示主语、谓语和宾语。

本发明基于图数据库的知识森林构建方法实现了知识森林数据的构建和存储，包括：

(1)构建实例化知识主题分面树：

通过分析采集到的课程数据构成的数据集，得到课程下主题、分面、知识碎片间对应关系，最终构建多棵以主题名为树根，以分面名为树干、以知识碎片为树叶的树，将其命名为实例化的知识主题分面树。首先，依据课程数据集中主题、分面和关系，对每个主题构建知识主题分面树KT＝(ku,FR,R)，其中ku表示知识主题，FR表示知识主题的分面集合，它是由数据集中与具有关系的分面构成的集合，

表示知识主题的分面间语义关系的集合；其次，根据对知识碎片集合的多层分类，生成知识主题分面树叶子节点和知识碎片之间的映射关系，从而构建实例化知识主题分面树KTI＝(KFT,KFS,MP)，其中KFT表示为知识主题分面树集合，KFS表示知识碎片集合，MP表示知识主题分面树叶子节点Leaf(KFT)与知识碎片之间的映射关系集合，即

(2)生成知识主题间认知关系：

首先，根据(1)中对知识碎片的分类，对各主题下知识碎片文本内容进行合并和预处理。然后，基于LDA主题模型向量化各主题下知识碎片的文本内容。利用余弦相似度计算任意两个主题间知识碎片文本内容的相似度，将该相似度看做主题间具有认知关系的可能性。根据人工设置的可能性阈值，在可能性大于阈值的主题分面树间生成认知关系。

(3)存储知识森林数据：

负责将(1)和(2)中生成的知识森林数据保存到课程对应的图数据库中，首先，基于课程对应的主题信息，构建<主题，属于，课程>形式三元组存入数据库；其次，基于知识碎片与主题、分面的对应关系，构建<主题，分面，碎片内容>形式三元组存入数据库；最后，基于主题间生成的认知关系，构建<主题1，认知关系，主题2>形式三元组存入数据库。

参见图1，本发明具体的可以分为如下三个过程：

(1)构建实例化知识主题分面树，包括4个步骤。

第1步：对每个课程domain采集到的数据分类构建数据集，分别为知识主题数据集Topic，分面数据集Facet，分面间语义关系集合的数据集FRelation，知识碎片数据集Fragment；

第2步：对知识主题数据集Topic中每一个知识主题t，遍历数据集Facet和FRelation，将t的所有分面加入集合TF，把t所有分面间语义关系加入集合R，从而得到三元组KT＝(ku,TF,R)。从而以知识主题t的三元组KT为基础，构建以知识主题名t为树根、主题各分面TF为树干的知识主题分面树；

第3步：对知识碎片数据集Fragment中每一个碎片fg，构造长度为Topic数组大小的向量，向量每一维对应Topic中相同位置的主题，每一维的值置为碎片fg内容中出现该维对应主题名的次数。向量构造完成后，将碎片fg分类到向量值最大的维对应的知识主题中；

类似的，将fg继续按知识主题分面分类；

第4步：对已构建的知识主题分面树集合KFT，根据对知识碎片数据集Fragment中每一个知识碎片的分类，得到知识主题分面树叶子节点Leaf(KFT)与知识碎片间的对应关系MP，即

从而完成实例化知识主题分面树的构建，实例化的知识主题分面树可表示为三元组KTI＝(KFT,Fragment,MP)。

这四个步骤的流程如图2所示，比如图4及图5分别给出“数据结构”课程下以“树状数组”为根的知识主题分面树和实例化知识主题分面树示意图。

(2)生成知识主题间认知关系，包括6个步骤。

第1步：根据过程(1)基于知识主题对知识碎片的分类，对知识主题数据集Topic中每一个知识主题t下知识碎片的文本内容进行抽取合并，并利用工具包进行分词、过滤停用词和低频词语，从而使知识主题t对应一个文本文档d_t；

第2步：对知识主题数据集Topic中每一个主题t，基于LDA文档主题生成模型，将t对应文本文档d_t表示为一个向量v_t，从而使各知识主题对应一个向量；

第3步：对知识主题数据集Topic中任意两个知识主题t₁和t₂，利用向量间的余弦相似度计算其对应向量v_t1和v_t2之间的相似度

将该相似度sim_t1t2视为两个知识主题t₁和t₂间具有认知关系的可能性。

第4步：人工设定阈值sim_d，若两个知识主题t₁和t₂间具有认知关系的可能性sim_t1t2大于阈值sim_d，即sim_t1t2＞sim_d，则在这两个知识主题t₁和t₂间生成认知关系，用(t₁,t₂)表示；

第5步：根据课程相关书籍目录信息，对知识主题间的认知关系进行补充；

第6步：根据生成的所有认知关系构建知识主题间的认知关系集合Dependence，从而完成知识森林的构建，知识森林可以表示为二元组KF＝(FT,Dependence)，其中FT表示实例化的知识主题分面树集合，

这七个步骤的流程如图3所示。

(3)存储知识森林数据，包括5个步骤。

第1步：基于资源描述框架，结合知识森林数据特点，制定数据三元组存储格式；

第2步：对课程domain，遍历其知识主题数据集Topic，对其中每一个主题t，构建三元组格式的知识主题数据＜t,subject_to,domain＞；

第3步：对碎片数据集Fragment中每一个碎片fg，根据其与知识主题分面树叶子节点间的对应关系，确定知识主题t和分面facet，构建三元组格式的知识碎片数据＜t,facet,fg＞；

第4步：对知识主题间的认知关系集合Dependence，对其中每一条认知关系(t₁,t₂)构建三元组格式的认知关系数据＜t₁,dependence,t₂＞；

第5步：将构建好的三元组知识森林数据存入图数据库，从而完成数据构建。

Claims

1.一种基于图数据库的知识森林构建方法，其特征在于，包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤；

构建实例化知识主题分面树的步骤为：

构建实例化知识主题分面树时，首先对课程内每一个知识主题，依据该主题的分面及该主题分面间的语义关系，构建以该知识主题名为树根、以该主题各分面名为树干的知识主题分面树；然后对课程知识碎片基于知识主题和分面信息进行多次分类，建立知识主题分面树叶子节点与课程知识碎片之间的映射关系集合，从而构建得到实例化知识主题分面树；

构建实例化知识主题分面树具体包括以下步骤：

从而完成实例化知识主题分面树的构建，实例化的知识主题分面树表示为三元组KTI＝(KFT,Fragment,MP)；

生成知识主题间认知关系的步骤为：

存储知识森林数据的步骤为：

制定知识森林数据三元组存储格式，将知识森林数据按照对应存储格式构建为三元组形式并存入图数据库，从而得到存储各课程数据的知识森林数据库；

存储知识森林数据时，首先根据所生成知识森林数据的特点，制定知识森林数据三元组存储格式；其次将课程下的知识主题、分面、知识碎片和认知关系按对应的格式进行转换，构建得到三元组形式的知识森林数据；最后将构建好三元组的数据存入图数据库；

存储知识森林数据具体包括如下步骤；

2.根据权利要求1所述基于图数据库的知识森林构建方法，其特征在于：构建实例化知识主题分面树时，以课程书籍和百科类、社区问答类网站内容作为信息来源。

3.根据权利要求1所述基于图数据库的知识森林构建方法，其特征在于：生成知识主题间认知关系时，首先对各知识主题下知识碎片的文本内容进行抽取、合并和预处理；其次以LDA文档主题生成模型，向量化已预处理过的各知识主题文本内容，利用向量的余弦相似度确定任意两个知识主题文本内容的相似性，将该相似性认为是两个知识主题间具有认知关系的可能性；再次根据人工设定的可能性阈值，在具有认知关系可能性大于阈值的知识主题间生成认知关系；最后利用课程相关书籍的目录信息，对认知关系进行补充。

4.根据权利要求1或3所述基于图数据库的知识森林构建方法，其特征在于，生成知识主题间认知关系具体包括以下步骤：