CN108304519B - 一种基于图数据库的知识森林构建方法 - Google Patents

一种基于图数据库的知识森林构建方法 Download PDF

Info

Publication number
CN108304519B
CN108304519B CN201810068490.7A CN201810068490A CN108304519B CN 108304519 B CN108304519 B CN 108304519B CN 201810068490 A CN201810068490 A CN 201810068490A CN 108304519 B CN108304519 B CN 108304519B
Authority
CN
China
Prior art keywords
knowledge
topic
data
cognitive
facet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810068490.7A
Other languages
English (en)
Other versions
CN108304519A (zh
Inventor
刘均
任若清
段海梦
刘文强
郑元浩
石磊
杨宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810068490.7A priority Critical patent/CN108304519B/zh
Publication of CN108304519A publication Critical patent/CN108304519A/zh
Application granted granted Critical
Publication of CN108304519B publication Critical patent/CN108304519B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于图数据库的知识森林构建方法,包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤。本发明根据采集到的各类课程数据,通过查询主题、分面和关系数据库,以及对知识碎片集合多层分类构建实例化知识主题分面树,然后通过计算不同主题下文本知识碎片间相似度生成主题间认知关系,最后基于图数据库设计知识森林数据存储格式,从而实现知识森林的构建和存储。本发明构建实例化知识主题分面树的过程缓解了认知过载问题,生成知识主题间认知关系的过程缓解了认知迷航问题,存储知识森林数据的步骤保证了数据的持久化,也解决了关系型数据库无法很好支持大规模数据和复杂关系存储的问题。

Description

一种基于图数据库的知识森林构建方法
技术领域
本发明涉及知识图谱构建存储领域,具体涉及一种基于图数据库的知识森林构建方法。
背景技术
随着信息技术发展,人类知识也呈现爆炸性增长,知识倍增周期缩短,加剧了知识碎片化现象。为缓解知识碎片SOD三特性(位置分散-Scattered,内容片面-One-sided,结构无序-Disordered)引发的认知过载和学习迷航问题,提出了“知识森林”碎片知识聚合模式:将多源、片面、无序的碎片化知识聚合成结构化、有序化且符合人类认知特点的组织形式。知识森林作为知识图谱的一种,数据量巨大且关系复杂,需要一定的方法实现其构建及存储。
现有技术已经公开的相关内容中,如专利号为CN2016102676060的中国专利“一种基于垂直领域的知识图谱的构建方法”包括三个步骤:(1)抽取在线百科的类的词汇实现和类之间的上下位关系;(2)将领域知识的信息进行归并,定义领域的数据属性和关系属性,并且进一步规约属性的定义域和值域;(3)实体层的学习,即抽取实体和填充实体的属性值。
以上述专利为代表的现有技术在进行知识图谱构建时依赖格式化的数据表,基于关系型数据库存储知识图谱,而关系型数据库随着数据量的增大和关系的复杂,会出现数据冗余、执行效率下降等问题,上述专利无法很好的支持知识图谱中大规模数据和复杂的关系。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于图数据库的知识森林构建方法,此构建方法能够较好的支持知识图谱大规模数据和复杂关系的存储和操作。
为了实现上述目的,本发明采用的技术方案为:包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤;
构建实例化知识主题分面树的步骤为:
采集不同课程的数据,构建课程数据集;根据知识主题及分面数据集,构建知识主题分面树;对课程知识碎片数据集基于层次进行多次分类,确定课程知识碎片和知识主题分面树叶子节点之间的映射关系,由此构建出实例化知识主题分面树;
生成知识主题间认知关系的步骤为:
以经过预处理的各知识主题下知识碎片文本内容为输入,输出课程内任意两个知识主题间具有认知关系的可能性;根据人工设置的阈值,若两个知识主题间具有认知关系的可能性大于阈值,则在这两个知识主题间生成认知关系;以课程数据目录为补充数据源对认知关系进行补充,最终生成课程内知识主题间所有的认知关系;
存储知识森林数据的步骤为:
制定知识森林数据三元组存储格式,将知识森林数据按照对应存储格式构建为三元组形式并存入图数据库,从而得到存储各课程数据的知识森林数据库。
构建实例化知识主题分面树时以课程书籍和百科类、社区问答类网站内容作为信息来源。
构建实例化知识主题分面树时,首先对课程内每一个知识主题,依据该主题的分面及该主题分面间的语义关系,构建以该知识主题名为树根、以该主题各分面名为树干的知识主题分面树;然后对课程知识碎片基于知识主题和分面信息进行多次分类,建立知识主题分面树叶子节点与课程知识碎片之间的映射关系集合,从而构建得到实例化知识主题分面树。
构建实例化知识主题分面树具体包括以下步骤:
1.1将采集到的课程相关数据分类构建数据集,分别为知识主题数据集Topic,分面数据集Facet,分面间语义关系集合的数据集FRelation,知识碎片数据集Fragment;
1.2对构建好的知识主题数据集Topic中的每一个知识主题,构建三元组KT=(ku,TF,R),其中根节点ku表示知识主题,TF表示知识主题的分面集合,
Figure GDA0002448467600000021
表示知识主题的分面间语义关系集合,开始TF和R为空;对知识主题ku,遍历数据集Facet和FRelation,将ku的所有分面加入集合TF,把ku所有分面间语义关系加入集合R;为每个知识主题ku,以该知识主题的三元组KT=(ku,TF,R)为基础,构建以主题名ku为树根、主题各分面TF为树干的主题分面树;
1.3对知识碎片数据集Fragment中每一个碎片fg,构造长度为Topic数组大小的向量,向量每一维对应Topic中相同位置的主题,每一维的值置为fg碎片内容中出现该维对应主题名的次数;向量构造完成后,将fg分类到向量值最大的维对应的知识主题;类似的,将fg继续按知识主题分面分类;
1.4对已构建的知识主题分面树集合KFT,根据对知识碎片数据集Fragment中每一个知识碎片的分类,得到知识主题分面树叶子节点Leaf(KFT)与知识碎片间的对应关系MP,即
Figure GDA0002448467600000031
从而完成实例化知识主题分面树的构建,实例化的知识主题分面树表示为三元组KTI=(KFT,Fragment,MP)。
生成知识主题间认知关系时,首先对各知识主题下知识碎片的文本内容进行抽取、合并和预处理;其次以LDA文档主题生成模型,向量化已预处理过的各知识主题文本内容,利用向量的余弦相似度确定任意两个知识主题文本内容的相似性,将该相似性认为是两个知识主题间具有认知关系的可能性;再次根据人工设定的可能性阈值,在具有认知关系可能性大于阈值的知识主题间生成认知关系;最后利用课程相关书籍的目录信息,对认知关系进行补充。
生成知识主题间认知关系具体包括以下步骤:
2.1根据知识碎片的分类,对各知识主题下知识碎片的文本内容进行抽取合并,并利用工具包进行分词、过滤停用词和低频词语,使每个知识主题对应一个文本文档;
2.2对知识主题数据集Topic中每一个主题ku,基于LDA文档主题生成模型,将ku对应文本文档表示为一个向量v,从而使各知识主题对应一个向量;
2.3对知识主题数据集Topic中任意两个知识主题ku1和ku2,利用余弦相似度计算对应向量v1和v2间的相似度,将该相似度sim(v1,v2)视为两个知识主题间具有认知关系的可能性;
2.4根据人工设定的阈值λ,若两个知识主题ku1和ku2间具有认知关系的可能性大于该阈值,则在这两个知识主题间生成认知关系;
2.5根据课程相关书籍目录信息,对知识主题间的认知关系进行补充;
2.6根据生成的所有认知关系构建知识主题间的认知关系集合LD,完成知识森林的构建,知识森林表示为二元组KF=(FT,LD),FT表示实例化知识主题分面树集合,
Figure GDA0002448467600000041
存储知识森林数据时,首先根据所生成知识森林数据的特点,制定知识森林数据三元组存储格式;其次将课程下的知识主题、分面、知识碎片和认知关系按对应的格式进行转换,构建得到三元组形式的知识森林数据;最后将构建好三元组的数据存入图数据库。
存储知识森林数据具体包括如下步骤;
3.1基于资源描述框架,结合知识森林数据特点,制定知识森林数据三元组存储格式;
3.2对课程domain,遍历其知识主题数据集Topic,对其中每一个主题ku,构建三元组格式的知识主题数据<ku,subject_to,domain>;
3.3对碎片数据集Fragment中每一个碎片fg,确定碎片fg对应的知识主题ku和分面facet,构建三元组格式的知识碎片数据<ku,facet,fg>;
3.4根据所生成的知识主题间认知关系数据,对其中每一条认知关系构建三元组格式的认知关系数据<ku1,dependence,ku2>;
3.5将构建好的三元组知识森林数据存入图数据库,完成知识森林数据的构建。
与现有技术相比,本发明具有如下的有益效果:根据采集到的各类课程数据,通过查询主题、分面和关系数据库,以及对知识碎片集合多层分类构建实例化知识主题分面树,然后通过计算不同主题下文本知识碎片间相似度生成主题间认知关系,最后基于图数据库设计知识森林数据存储格式,从而实现知识森林的构建和存储,方便用户学习。本发明构建实例化知识主题分面树的过程能够将采集到的课程数据以知识主题分面树的形式展示给学习者,展示过程形象,方便学习者了解知识间的关系,缓解认知过载问题。生成知识主题间认知关系的过程,将知识主题之间认知关系这个抽象的概念转化为主题向量间的相似度问题,简化了构建工作,主题间认知关系的存在缓解了认知迷航问题。存储知识森林数据的步骤保证了数据的持久化,也解决了关系型数据库无法很好支持大规模数据和复杂关系存储的问题。
附图说明
图1本发明知识森林构建方法流程框图;
图2本发明实例化知识主题分面树构建流程图;
图3本发明认知关系生成流程图;
图4本发明“数据结构”课程下以“树状数组”为根的知识主题分面树示意图;
图5本发明“数据结构”课程下以“树状数组”为根的实例化知识主题分面树示意图;
具体实施方式
下面结合附图对本发明做进一步的详细说明。
本发明所述的知识森林是指一种碎片化知识聚合模式,将碎片化知识聚合过程看作是“知识主题分面树生成—碎片化知识装配—认知关系挖掘”三阶段的知识森林生成过程,知识森林能够将多源、片面、无序的碎片化知识(如中英文的文本以及图片、视频等多媒体资源)聚合成符合人类认知学习时具有多维性、关联性、整合性等特点的模式。本发明所述的知识主题分面树是指描述某一知识主题组织结构的层次结构树,知识主题分面树的数据主要包括分枝数据。实例化知识主题分面树是指包含描述某一知识主题所有知识碎片的知识主题分面树,即分枝数据中还包含叶子数据,叶子数据的内容就是知识碎片的数据。
认知关系:指在学习过程中知识主题间由于认知需要而形成的依赖关系。
知识森林初始化:将知识森林表示为二元组KF=(FT,LD),其中FT表示实例化的知识主题分面树集合,LD表示知识主题之间的认知关系集合,即
Figure GDA0002448467600000051
实例化的知识主题分面树可进一步表示为三元组KTI=(KFT,KFS,MP),其中KFT表示为知识主题分面树集合,KFS表示知识碎片集合,MP表示知识主题分面树叶子节点Leaf(KFT)与知识碎片之间的映射关系集合,即
Figure GDA0002448467600000052
知识主题分面树可表示为三元组KT=(ku,FR,R),其中根节点ku表示一个知识主题,如“线性表”。中间节点集合FR表示知识主题的分面集合,例如对于“线性表”,其分面包括“定义”、“存储结构”等。
Figure GDA0002448467600000061
是知识主题的分面间语义关系集合,例如“存储结构”与“顺序存储结构”之间存在上下位关系。
资源描述框架(Resource Description Framework):指WWW提出的一种用于描述Web资源的标记语言,它用三元组(S,P,O)描述资源,S,P,O分别表示主语、谓语和宾语。
本发明基于图数据库的知识森林构建方法实现了知识森林数据的构建和存储,包括:
(1)构建实例化知识主题分面树:
通过分析采集到的课程数据构成的数据集,得到课程下主题、分面、知识碎片间对应关系,最终构建多棵以主题名为树根,以分面名为树干、以知识碎片为树叶的树,将其命名为实例化的知识主题分面树。首先,依据课程数据集中主题、分面和关系,对每个主题构建知识主题分面树KT=(ku,FR,R),其中ku表示知识主题,FR表示知识主题的分面集合,它是由数据集中与具有关系的分面构成的集合,
Figure GDA0002448467600000062
表示知识主题的分面间语义关系的集合;其次,根据对知识碎片集合的多层分类,生成知识主题分面树叶子节点和知识碎片之间的映射关系,从而构建实例化知识主题分面树KTI=(KFT,KFS,MP),其中KFT表示为知识主题分面树集合,KFS表示知识碎片集合,MP表示知识主题分面树叶子节点Leaf(KFT)与知识碎片之间的映射关系集合,即
Figure GDA0002448467600000063
(2)生成知识主题间认知关系:
首先,根据(1)中对知识碎片的分类,对各主题下知识碎片文本内容进行合并和预处理。然后,基于LDA主题模型向量化各主题下知识碎片的文本内容。利用余弦相似度计算任意两个主题间知识碎片文本内容的相似度,将该相似度看做主题间具有认知关系的可能性。根据人工设置的可能性阈值,在可能性大于阈值的主题分面树间生成认知关系。
(3)存储知识森林数据:
负责将(1)和(2)中生成的知识森林数据保存到课程对应的图数据库中,首先,基于课程对应的主题信息,构建<主题,属于,课程>形式三元组存入数据库;其次,基于知识碎片与主题、分面的对应关系,构建<主题,分面,碎片内容>形式三元组存入数据库;最后,基于主题间生成的认知关系,构建<主题1,认知关系,主题2>形式三元组存入数据库。
参见图1,本发明具体的可以分为如下三个过程:
(1)构建实例化知识主题分面树,包括4个步骤。
第1步:对每个课程domain采集到的数据分类构建数据集,分别为知识主题数据集Topic,分面数据集Facet,分面间语义关系集合的数据集FRelation,知识碎片数据集Fragment;
第2步:对知识主题数据集Topic中每一个知识主题t,遍历数据集Facet和FRelation,将t的所有分面加入集合TF,把t所有分面间语义关系加入集合R,从而得到三元组KT=(ku,TF,R)。从而以知识主题t的三元组KT为基础,构建以知识主题名t为树根、主题各分面TF为树干的知识主题分面树;
第3步:对知识碎片数据集Fragment中每一个碎片fg,构造长度为Topic数组大小的向量,向量每一维对应Topic中相同位置的主题,每一维的值置为碎片fg内容中出现该维对应主题名的次数。向量构造完成后,将碎片fg分类到向量值最大的维对应的知识主题中;
类似的,将fg继续按知识主题分面分类;
第4步:对已构建的知识主题分面树集合KFT,根据对知识碎片数据集Fragment中每一个知识碎片的分类,得到知识主题分面树叶子节点Leaf(KFT)与知识碎片间的对应关系MP,即
Figure GDA0002448467600000071
从而完成实例化知识主题分面树的构建,实例化的知识主题分面树可表示为三元组KTI=(KFT,Fragment,MP)。
这四个步骤的流程如图2所示,比如图4及图5分别给出“数据结构”课程下以“树状数组”为根的知识主题分面树和实例化知识主题分面树示意图。
(2)生成知识主题间认知关系,包括6个步骤。
第1步:根据过程(1)基于知识主题对知识碎片的分类,对知识主题数据集Topic中每一个知识主题t下知识碎片的文本内容进行抽取合并,并利用工具包进行分词、过滤停用词和低频词语,从而使知识主题t对应一个文本文档dt
第2步:对知识主题数据集Topic中每一个主题t,基于LDA文档主题生成模型,将t对应文本文档dt表示为一个向量vt,从而使各知识主题对应一个向量;
第3步:对知识主题数据集Topic中任意两个知识主题t1和t2,利用向量间的余弦相似度计算其对应向量vt1和vt2之间的相似度
Figure GDA0002448467600000081
将该相似度simt1t2视为两个知识主题t1和t2间具有认知关系的可能性。
第4步:人工设定阈值simd,若两个知识主题t1和t2间具有认知关系的可能性simt1t2大于阈值simd,即simt1t2>simd,则在这两个知识主题t1和t2间生成认知关系,用(t1,t2)表示;
第5步:根据课程相关书籍目录信息,对知识主题间的认知关系进行补充;
第6步:根据生成的所有认知关系构建知识主题间的认知关系集合Dependence,从而完成知识森林的构建,知识森林可以表示为二元组KF=(FT,Dependence),其中FT表示实例化的知识主题分面树集合,
Figure GDA0002448467600000082
这七个步骤的流程如图3所示。
(3)存储知识森林数据,包括5个步骤。
第1步:基于资源描述框架,结合知识森林数据特点,制定数据三元组存储格式;
第2步:对课程domain,遍历其知识主题数据集Topic,对其中每一个主题t,构建三元组格式的知识主题数据<t,subject_to,domain>;
第3步:对碎片数据集Fragment中每一个碎片fg,根据其与知识主题分面树叶子节点间的对应关系,确定知识主题t和分面facet,构建三元组格式的知识碎片数据<t,facet,fg>;
第4步:对知识主题间的认知关系集合Dependence,对其中每一条认知关系(t1,t2)构建三元组格式的认知关系数据<t1,dependence,t2>;
第5步:将构建好的三元组知识森林数据存入图数据库,从而完成数据构建。

Claims (4)

1.一种基于图数据库的知识森林构建方法,其特征在于,包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤;
构建实例化知识主题分面树的步骤为:
采集不同课程的数据,构建课程数据集;根据知识主题及分面数据集,构建知识主题分面树;对课程知识碎片数据集基于层次进行多次分类,确定课程知识碎片和知识主题分面树叶子节点之间的映射关系,由此构建出实例化知识主题分面树;
构建实例化知识主题分面树时,首先对课程内每一个知识主题,依据该主题的分面及该主题分面间的语义关系,构建以该知识主题名为树根、以该主题各分面名为树干的知识主题分面树;然后对课程知识碎片基于知识主题和分面信息进行多次分类,建立知识主题分面树叶子节点与课程知识碎片之间的映射关系集合,从而构建得到实例化知识主题分面树;
构建实例化知识主题分面树具体包括以下步骤:
1.1将采集到的课程相关数据分类构建数据集,分别为知识主题数据集Topic,分面数据集Facet,分面间语义关系集合的数据集FRelation,知识碎片数据集Fragment;
1.2对构建好的知识主题数据集Topic中的每一个知识主题,构建三元组KT=(ku,TF,R),其中根节点ku表示知识主题,TF表示知识主题的分面集合,
Figure FDA0002490322960000011
表示知识主题的分面间语义关系集合,开始TF和R为空;对知识主题ku,遍历数据集Facet和FRelation,将ku的所有分面加入集合TF,把ku所有分面间语义关系加入集合R;为每个知识主题ku,以该知识主题的三元组KT=(ku,TF,R)为基础,构建以主题名ku为树根、主题各分面TF为树干的主题分面树;
1.3对知识碎片数据集Fragment中每一个碎片fg,构造长度为Topic数组大小的向量,向量每一维对应Topic中相同位置的主题,每一维的值置为fg碎片内容中出现该维对应主题名的次数;向量构造完成后,将fg分类到向量值最大的维对应的知识主题;类似的,将fg继续按知识主题分面分类;
1.4对已构建的知识主题分面树集合KFT,根据对知识碎片数据集Fragment中每一个知识碎片的分类,得到知识主题分面树叶子节点Leaf(KFT)与知识碎片间的对应关系MP,即
Figure FDA0002490322960000021
从而完成实例化知识主题分面树的构建,实例化的知识主题分面树表示为三元组KTI=(KFT,Fragment,MP);
生成知识主题间认知关系的步骤为:
以经过预处理的各知识主题下知识碎片文本内容为输入,输出课程内任意两个知识主题间具有认知关系的可能性;根据人工设置的阈值,若两个知识主题间具有认知关系的可能性大于阈值,则在这两个知识主题间生成认知关系;以课程数据目录为补充数据源对认知关系进行补充,最终生成课程内知识主题间所有的认知关系;
存储知识森林数据的步骤为:
制定知识森林数据三元组存储格式,将知识森林数据按照对应存储格式构建为三元组形式并存入图数据库,从而得到存储各课程数据的知识森林数据库;
存储知识森林数据时,首先根据所生成知识森林数据的特点,制定知识森林数据三元组存储格式;其次将课程下的知识主题、分面、知识碎片和认知关系按对应的格式进行转换,构建得到三元组形式的知识森林数据;最后将构建好三元组的数据存入图数据库;
存储知识森林数据具体包括如下步骤;
3.1基于资源描述框架,结合知识森林数据特点,制定知识森林数据三元组存储格式;
3.2对课程domain,遍历其知识主题数据集Topic,对其中每一个主题ku,构建三元组格式的知识主题数据<ku,subject_to,domain>;
3.3对碎片数据集Fragment中每一个碎片fg,确定碎片fg对应的知识主题ku和分面facet,构建三元组格式的知识碎片数据<ku,facet,fg>;
3.4根据所生成的知识主题间认知关系数据,对其中每一条认知关系构建三元组格式的认知关系数据<ku1,dependence,ku2>;
3.5将构建好的三元组知识森林数据存入图数据库,完成知识森林数据的构建。
2.根据权利要求1所述基于图数据库的知识森林构建方法,其特征在于:构建实例化知识主题分面树时,以课程书籍和百科类、社区问答类网站内容作为信息来源。
3.根据权利要求1所述基于图数据库的知识森林构建方法,其特征在于:生成知识主题间认知关系时,首先对各知识主题下知识碎片的文本内容进行抽取、合并和预处理;其次以LDA文档主题生成模型,向量化已预处理过的各知识主题文本内容,利用向量的余弦相似度确定任意两个知识主题文本内容的相似性,将该相似性认为是两个知识主题间具有认知关系的可能性;再次根据人工设定的可能性阈值,在具有认知关系可能性大于阈值的知识主题间生成认知关系;最后利用课程相关书籍的目录信息,对认知关系进行补充。
4.根据权利要求1或3所述基于图数据库的知识森林构建方法,其特征在于,生成知识主题间认知关系具体包括以下步骤:
2.1根据知识碎片的分类,对各知识主题下知识碎片的文本内容进行抽取合并,并利用工具包进行分词、过滤停用词和低频词语,使每个知识主题对应一个文本文档;
2.2对知识主题数据集Topic中每一个主题ku,基于LDA文档主题生成模型,将ku对应文本文档表示为一个向量v,从而使各知识主题对应一个向量;
2.3对知识主题数据集Topic中任意两个知识主题ku1和ku2,利用余弦相似度计算对应向量v1和v2间的相似度,将该相似度sim(v1,v2)视为两个知识主题间具有认知关系的可能性;
2.4根据人工设定的阈值λ,若两个知识主题ku1和ku2间具有认知关系的可能性大于该阈值,则在这两个知识主题间生成认知关系;
2.5根据课程相关书籍目录信息,对知识主题间的认知关系进行补充;
2.6根据生成的所有认知关系构建知识主题间的认知关系集合LD,完成知识森林的构建,知识森林表示为二元组KF=(FT,LD),FT表示实例化知识主题分面树集合,
Figure FDA0002490322960000031
CN201810068490.7A 2018-01-24 2018-01-24 一种基于图数据库的知识森林构建方法 Expired - Fee Related CN108304519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810068490.7A CN108304519B (zh) 2018-01-24 2018-01-24 一种基于图数据库的知识森林构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810068490.7A CN108304519B (zh) 2018-01-24 2018-01-24 一种基于图数据库的知识森林构建方法

Publications (2)

Publication Number Publication Date
CN108304519A CN108304519A (zh) 2018-07-20
CN108304519B true CN108304519B (zh) 2020-08-18

Family

ID=62865969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810068490.7A Expired - Fee Related CN108304519B (zh) 2018-01-24 2018-01-24 一种基于图数据库的知识森林构建方法

Country Status (1)

Country Link
CN (1) CN108304519B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033438B (zh) * 2018-08-15 2022-06-21 邢鲁华 一种记录用户学习内容的方法及装置
CN109885693B (zh) * 2019-01-11 2021-08-03 武汉大学 基于知识图谱的快速知识对比方法及系统
CN112818263B (zh) * 2021-01-22 2023-08-18 西安交通大学 一种基于增强现实技术知识森林导航学习系统实现方法
CN113886652B (zh) * 2021-10-09 2022-06-17 北京欧拉认知智能科技有限公司 一种内存优先的多模图数据存储与计算方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106484754A (zh) * 2016-07-28 2017-03-08 西安交通大学 基于层次数据与图数据可视化技术的知识森林布局方法
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094874A1 (en) * 2008-10-15 2010-04-15 Siemens Aktiengesellschaft Method and an apparatus for retrieving additional information regarding a patient record

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332031A (zh) * 2011-10-18 2012-01-25 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106484754A (zh) * 2016-07-28 2017-03-08 西安交通大学 基于层次数据与图数据可视化技术的知识森林布局方法
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Knowledge Forest: A Novel Model to Organize Knowledge Fragments";Qinghua ZHENG 等;《Science China Information Sciences》;20191214;1-8 *
"基于分面主题图探索式搜索研究";赵金海;《情报杂志》;20120131;第31卷(第1期);175-179 *
"高校教育大数据的分析挖掘与利用";郑庆华;《中国教育信息化》;20161231;28-31 *

Also Published As

Publication number Publication date
CN108304519A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304519B (zh) 一种基于图数据库的知识森林构建方法
CN103646032B (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN108647244B (zh) 思维导图形式的主题教学资源集成方法、网络存储系统
CN107491476B (zh) 一种适用于多种大数据管理系统的数据模型转换及查询分析方法
CN107992608B (zh) 一种基于关键字上下文的sparql查询语句自动生成方法
CN113094449B (zh) 基于分布式键值库的大规模知识图谱存储方法
CN111190900A (zh) 一种云计算模式下json数据可视化优化方法
JP7266658B2 (ja) データペア生成方法、装置、電子デバイス及び記憶媒体
CN110532358A (zh) 一种面向知识库问答的模板自动生成方法
CN114218472A (zh) 基于知识图谱的智能搜索系统
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN112732932A (zh) 一种基于知识图谱嵌入的用户实体群组推荐方法
Drakopoulos et al. A semantically annotated JSON metadata structure for open linked cultural data in Neo4j
CN113190645A (zh) 一种索引结构建立方法、装置、设备及存储介质
CN103294791A (zh) 一种可扩展标记语言模式匹配方法
Weingart From trees to webs: uprooting knowledge through visualization
CN109460467B (zh) 一种网络信息分类体系构建方法
KR101897760B1 (ko) 링크드 오픈 데이터 클라우드 정보 서비스를 위한 트리플 변환 및 저장 시스템 및 그 방법
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
Gayathri et al. Semantic search on summarized RDF triples
Zhang Construction and application of big data analysis platform for ideological and political education in colleges
Qingjie et al. Research on domain knowledge graph based on the large scale online knowledge fragment
CN110147393B (zh) 面向电影信息数据集中数据空间的实体解析方法
CN107291875A (zh) 一种基于元数据图的元数据组织管理方法和系统
Ni An Intelligent Retrieval Algorithm for Digital Literature Promotion Information Based on TRS Information Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Liu Jun

Inventor after: Ren Ruoqing

Inventor after: Duan Haimeng

Inventor after: Liu Wenqiang

Inventor after: Zheng Yuanhao

Inventor after: Shi Lei

Inventor after: Yang Kuan

Inventor after: Ma Kunming

Inventor before: Liu Jun

Inventor before: Ren Ruoqing

Inventor before: Duan Haimeng

Inventor before: Liu Wenqiang

Inventor before: Zheng Yuanhao

Inventor before: Shi Lei

Inventor before: Yang Kuan

CB03 Change of inventor or designer information
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200818

CF01 Termination of patent right due to non-payment of annual fee