CN109086434B

CN109086434B - 一种基于主题图的知识聚合方法及系统

Info

Publication number: CN109086434B
Application number: CN201810917658.7A
Authority: CN
Inventors: 李�浩; 杜旭; 林炳; 杨娟; 马燕峰
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2021-07-13
Anticipated expiration: 2038-08-13
Also published as: CN109086434A

Abstract

本发明属于教育技术领域，公开了一种基于主题图的知识聚合方法及系统，进行主题图基于标准知识库的元素知识元构建；构成以某个主题为基础的主题图；进行直接关联关系的知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算；进行聚合关联关系的知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；进行个性化主题图偏差程度的定义和主题图之间相似性的计算。本发明具有实现用户个性化知识结构与知识、以及主题与学习资源的有机关联，通过对知识元或知识元组进行关联，进而提供准确的、有针对性的知识服务，提高知识的利用效率，实现知识聚合的积极效果。

Description

一种基于主题图的知识聚合方法及系统

技术领域

本发明属于教育技术领域，尤其涉及一种基于主题图的知识聚合方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

知识聚合是近年来教育领域、图书情报领域的一个新的研究方向，通过数据挖掘、分析等方法对可能存在关联的知识进行凝聚，来提取知识间内在关联的手段，从而构建起多维度的知识体系，依据学习资源中的关联关系对知识进行合理组织。在学习过程中，我们需要对知识进行个性化的归纳，从而形成学习者个性化的知识结构。

结合已有的相关研究，目前知识聚合的研究方法主要包括以下几个方面：

基于情报检索语言的聚合。一般用于进行知识聚合的情报检索语言包括元数据、主题词和分众分类法。在当前海量知识资源背景下，基于情报检索的知识聚合方法格式规范、结构性强，但同时存在高成本、可扩展性弱等问题，不能够满足当前教育大数据的计算要求。

基于知识网络的聚合。对相关知识或学习资源进行特征分析、结构发现，相比于基于情报检索方式，该方法具有较强的开放性和动力性特征。基于网络的聚合方法的主要缺点是语义表现的力度不够，如何进一步实现聚合对象语义显性化是该方法的一个改进方向。

基于语义网的知识聚合。通过语义网，可以理解词条的含义以及它们之间的逻辑关系。语义网的相关技术标准分为严格逻辑规范和简单结构规范，前者代表有XML、RDF等，后者主要由微格式、RDF和微数据等。实现的重点是在本体层和关联数据层，如何对涉及多个本体的关联数据实现基于自然语言的问答式检索是需要解决的核心问题。

综上所述，现有技术存在的问题是：

(1)当前海量知识资源背景下，基于情报检索的知识聚合方法格式规范、结构性强，但同时存在高成本、可扩展性弱等问题，不能够满足当前教育大数据的计算要求；

(2)基于网络的聚合方法的语义表现的力度不够；

(3)不能解决涉及多个本体的关联数据实现基于自然语言的问答式检索。

(4)不能够利用常用的信息科学技术快速构建基于关系型数据库和可视化工具等常用信息技术快速构建主题图。

解决上述技术问题的意义：

整体的主题图构建基于三种库源，分别是知识库、关联关系库、资源库，这两种库是所有构建主题图的基础，知识库主要存储的是所有可语义表述的知识而关系库所表示的是构建的主题图中关联关系其中包括知识与资源的关联关系以及知识元与元组之间的关联关系。并且利用语义计算所有知识库中语义表示知识元之间的相似性，构成语料库，表示成向量，此种方式就可以较为准确表示知识元之间的相似性。

因为是基于知识库、关联关系库、资源库这三种库源，使得其所构建工作变得更为简单易行，系统将提供可视化的操作方法，用来构建个性化的主题图来实现个人个性化的知识聚合。此系统将所有的基础性工作都处理好放置在知识库、关联关系库和资源库中，这使得在给学习者使用构建主题图聚合知识时更显得方便易用其高效。

发明内容

针对现有技术存在的问题，本发明提供了一种基于主题图的知识聚合方法及系统，

本发明是这样实现的，一种基于主题图的知识聚合方法，所述的基于主题图的知识聚合方法包括：

通过标准知识库构建主题图；构建个性化主题图是在标准的知识库的基础上构建而来的，所有的主题图都是基于某个学习主题所构建的，其主题图基础是基于知识库的元素即知识元所构建的。而构成知识元的父节点即知识元组是由知识元所构成的，再由众多父节点知识元组组合成多层父节点构成以某个主题为基础的主题图。

进行主题图的相似度计算：进行直接关联关系的知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算；进行聚合关联关系的知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；

进行主题图的差异化程度计算，进行个性化主题图偏差程度的定义和主题图之间相似性的计算。

进一步，进行主题图的相似度计算中，知识元与学习资源的关联权重计算，包括：

自动关联方法：

其中R，K表示经过特征提取映射到语料库中的学习资源向量和知识点向量；首先将待关联的学习资源和知识点映射到语料库中，形成词频向量，然后对该向量进行特征化提取如TF-IDF特征提取以及LSA特征提取等，将处理后的向量利用向量余弦公式计算两者间的相似度；

众智关联方法：

其中m表示不同用户标注的关联度，Credit表示不同用户的置信度；用户的置信度与用户标注的准确率有关，标注正确的数量越多，用户贡献越多，用户的置信度会提高，反之用户的置信度会减少。

进一步，学习资源与知识元的关联度计算方法进一步包括：

Relation(knowledge，resource)＝k₁*PeopleRelation+k₂*AutoRealtion

PeopleRelation表示众智方式计算得到的关联度，AutoRelation表示自动方式计算得到的关联度，k₁，k₂表示不同的权重系数，取值为0-1。学习资源与知识元间的关联权重为上述两者关联权重的加权和；根据关联权重进行排序，取得与该知识元最相关的学习资源，进行学习资源层面的聚合。

进一步，知识元组与知识元的关联权重计算方法：

得到与用户手动关联知识元最相关的其他知识元，关联权重记为R(N1,A),根据知识元计算方法还计算出R(N2,A),R(N3,A),将这些关联权重之和记为该知识元与对应知识元组的关联权重，

对计算得到知识元与元组间的关联度进行排序，得出与该知识元组最相关的知识元；

知识元组与知识元组的关联权重计算方法：

知识元组间的关联权重计算方法如下所示：

其中N，M表示两个知识元组中所包含的知识元，知识元组间的关联权重即为各自所包含的知识元间的关联权重之和。

进一步，进行主题图的差异化程度计算包括：

Deviation(TopicGraph1，TpoicGraph2)＝1-Similarity(TopicGraphl，TopicGraph2)的计算。

Deviation(TopicGraph1,TopicGraph2)表示的是主题图TopicGraph1和TopicGraph2的整体主题图所聚合知识与资源内容的偏差程度。而采用1-Similarity(TopicGraph1,TopicGraph2)表示的意思是偏差程度即可以表示成相似度的反面。而Similarity(TopicGraph1,TopicGraph2)表示的是主题图TopicGraph1和主题图TopicGraph2的相似程度。

本发明另一目的在于提供一种实现所述基于主题图的知识聚合方法的计算机程序。

本发明另一目的在于提供一种实现所述基于主题图的知识聚合方法的信息数据处理终端。

本发明另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于主题图的知识聚合方法。

本发明另一目的在于提供一种实现所述基于主题图的知识聚合方法的基于主题图的知识聚合系统，所述基于主题图的知识聚合系统包括：

主题图构建模块，用于通过标准知识库构建主题图；

主题图相似度计算模块，用于进行主题图的相似度计算：进行直接关联关系的知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算；进行聚合关联关系的知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；

差异化程度计算模块，用于进行主题图的差异化程度计算，进行个性化主题图偏差程度的定义和主题图之间相似性的计算。

本发明另一目的在于提供一种搭载所述基于主题图的知识聚合系统的教育平台

综上所述，本发明的优点及积极效果为：

提供了一套较为完整的具有可操作性的构建知识聚合方法及系统。其最大的优点在于利用知识与资源的关联关系来实现知识与资源的聚合，也正是通过构建这种层级的组织关系可以实现知识与资源松耦合性，是的系统的构建更为快速简单易实施。

本发明提供的一种基于主题图的知识聚合方法及系统，具有实现用户个性化知识结构与知识、以及主题与学习资源的有机关联，通过对知识元或知识元组进行关联，进而提供准确的、有针对性的知识服务，提高知识的利用效率，实现知识聚合的积极效果。各类技术实现知识聚合构建对比图如下：

附图说明

图1是本发明实施例提供的基于主题图的知识聚合方法流程图。

图2是本发明实施例提供的增加主题图节点示意图。

图3是本发明实施例提供的删除知识元组的流程图。

图4是本发明实施例提供的删除知识元节点的流程图。

图5是本发明实施例提供的增加主题图节点示意图。

图6是本发明实施例提供的基于主题图的知识聚合系统示意图。

图中：1、主题图构建模块；2、主题图相似度计算模块；3、差异化程度计算模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理做详细描述。

如图1所示，本发明实施例提供的基于主题图的知识聚合方法包括：

S101：通过标准知识库构建主题图，包括相关概念和标准知识结构库，主题图由知识元组向上抽象得到，由多个知识元组组合而成，主题图的知识结构包括学习主题、知识关联、学习资源，在构建主题图之前需要构建标准知识库，用来存放需要关联的知识元；

S102：主题图的相似度计算以，直接关联关系包括知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算，聚合关联关系包括知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；

S103：主题图的差异化程度，包括个性化主题图偏差程度的定义和主题图之间相似性的计算方法。

步骤S101中，本发明实施例提供的标准知识库构建主题图具体包括：

主题图由知识元组向上抽象得到，由多个知识元组组合而成，主题图的知识结构包括学习题、知识关联、学习资源；

其中，构建个性化主题图是在标准的知识库的基础上构建而来的，所有的主题图都是基于某个学习主题所构建的，其主题图基础是基于知识库的元素即知识元所构建的。而构成知识元的父节点即知识元组是由知识元所构成的，再由众多父节点知识元组组合成多层父节点构成以某个主题为基础的主题图。

标准知识结构库，在构建主题图之前需要构建标准知识库，用来存放需要关联的知识元；

步骤S102中，本发明实施例提供的主题图的相似度计算以，从直接关联关系和聚合关联关系出发，实现基于主题图的知识聚合。其中直接关联关系包括知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算，聚合关联关系包括知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；具体包括：

(1)直接关联关系：

知识元与知识元的关联关系以及知识元与资源间的关联关系计算是主题图关联权重计算的基础，知识元和学习资源都是主题图中的最小单位，具有原子性和唯一性，是不可再分的。其中知识元与知识元间的关联权重计算包括：

①知识元与资源间的关联关系计算；

自动关联方法：

其中R，K表示经过特征提取映射到语料库中的学习资源向量和知识点向量。该方法的原理是首先将待关联的学习资源和知识点映射到语料库中，形成词频向量，然后对该向量进行特征化提取如TF-IDF特征提取以及LSA特征提取等，将处理后的向量利用向量余弦公式计算两者间的相似度。

众智关联方法：

其中m表示不同用户标注的关联度，Credit表示不同用户的置信度。用户的置信度与用户标注的准确率有关，标注正确的数量越多，用户贡献越多，用户的置信度会提高，反之用户的置信度会减少。

②学习资源与知识元的关联度计算方法；

Relation(knowledge，resource)＝k₁*PeopleRelation+k₂*AutoRealtion

PeopleRelation表示众智方式计算得到的关联度，AutoRelation表示自动方式计算得到的关联度，k₁，k₂表示不同的权重系数，取值为0-1。学习资源与知识元间的关联权重为上述两者关联权重的加权和。根据这个关联权重进行排序，取得与该知识元最相关的学习资源，完成学习资源层面的聚合。

(2)聚合关联关系

聚合关联关系包括知识元组与知识元的关联权重计算，知识元组与知识元组的关联权重计算，其表征的是知识关联层的聚合关系，包括

①知识元组与知识元的关联权重计算方法：

通过上述提出的知识元关联度计算方法，得到与用户手动关联知识元最相关的其他知识元，关联权重记为R(N1，A)，根据知识元计算方法还可以计算出R(N2，A)，，R(N3，A)，将这些关联权重之和记为该知识元与对应知识元组的关联权重，即

对计算得到知识元与元组间的关联度进行排序，得出与该知识元组最相关的知识元。

②知识元组与知识元组的关联权重计算方法：

知识元组间的关联权重计算方法如下所示：

步骤S103中，本发明实施例提供的主题图的个性化差异包括：

(1)个性化主题图偏差程度的定义

Deviation(TopicGraph1，TpoicGraph2)＝1-Similarity(TopicGraph1，TopicGraph2)

简写：Dev(TG1，TG2)＝1-Sim(TG1，TG2)

(2)主题图之间相似性的计算方法

主题图主要包括知识元组，知识元，知识元关联的资源。在以上三个构成要素中知识元组主要是用户根据自已的理解提出的名词和建立的体系，且其中的每个元组都有关联的知识元，所以最终决定个性化主题图的相似性决定因素还是在知识元和与知识元所关联的资源上。所以以下提出的算法主要是通过计算构成个性化主题图中的知识元和知识元关联的资源的相似性来决定个性化主题图之间的相似性。

下面结合实施例对本发明的应用作进一步描述。

本发明公开了一种基于知识关联的主题图构建及资源聚合的解决方案，包括：

1.基于知识关联的主题图构建：提出主题图的定义以及概念描述，包括主题图的节点描述，通过关联计算为主，主题图各节点提供候选关联相关知识点，提供方便编辑界面以及知识点浏览功能以便修改和完善主题图及其所关联的知识点；

2.基于主题图各级节点关联的资源选择、合并或分级处理，然后层次化呈现。

在实现主题图的构建过程中最重要的也是最基本的功能就是如何能够实现对主题图的增删改查功能。基于主题图的定义以及概念描述，实现主题图构建的数据库表结构的设计主要包括六层结构设计，分别为主题图的索引表、主题图的知识元组表、主题图的知识元组和知识点关联表、知识点表、知识点关联资源表和资源表。所有的操作逻辑都是基于此六层结构设计。

下面基于上述的表结构设计可以实现的增删改查的功能，对操作逻辑作进一步描述。

如图2所示，本发明实施例提供的增加节点：

在增加节点的时候有权限的限制，如果操作者是普通用户，只能对知识元组节点进行编辑操作，如果操作者是超级用户，可以对知识元进行编辑操作，所以对应的有两套逻辑。

如图3是本发明实施例提供的删除知识元组的流程图。

如图4是本发明实施例提供的删除知识元节点的流程图。

删除节点具体包括：删除节点的操作逻辑包含两部分：

<1>如果删除的节点为知识元组时，需要进行的操作是先查询此知识元组是否关联了知识点，如果关联了知识点则删除其中关联的记录，并判断此知识元组是否包含子节点，如果包含子节点则更新此知识元组的父节点为其子节点的父节点。

<2>如果删除的节点为知识元，需要首先进行的操作是先查询此知识元是否有关联的资源，如果有，则删除与此知识元关联的记录，再删除知识元记录。

图5所示，本发明实施例提供的修改及查询节点：

编辑节点的逻辑主要是对具体选中的节点的详情进行编辑,根据传入过来的节点查询并根据传入过来的参数进行修改调整。查询节点逻辑主要根据查询节点唯一id获取知识元组或知识元的详细信息。

系统技术架构：

主题图的层次化呈现技术主要包括：前端基于React的JS框架并使用echart组件来进行数据呈现、后端采用NodeJS+Express构建RESTfulAPI接口来用于数据交换、构建具体数据关系存储的是MySQL数据库。此系统主要采用JS语言开发，前端使用Facebook开源JS语言框架React进行开发，后端主要采用NodeJS构建服务，Express的Web框架构建RESTfulAPI对前端请求的数据进行逻辑处理和封装，并以JSON格式形式通过http的形式返回给前端请求的组件，实现前后端数据沟通交流。

下面是介绍两种方式如何来构建主题图：

1.手动构建：

<1>构建根节点即索引层

手动构建开始的第一步就是从主题图索引层的根节点开始，添加主题图的基本属性，其中主要包括名称、领域、年级、学科等基本信息。如图

<2>构建知识元组层

知识元组层主要是类似于书本的章节的标题，可以是建立主题图的自己创建独立的知识体系结构，可以是不止一层知识元组结构，也可以多层知识元组结构。

<3>知识元组关联知识点

知识元组是由创建者自己来构建一层知识体系网络结构，对于每个元组都会有相对应的知识点，这样才有一个较为完整的模块化知识体系。关联的方式主要是可以通过系统的全局检索的方式用来检索相应的知识元组对应的知识点的关键词来匹配出与之相关的知识点内容。

<4>知识点关联资源

知识点关联资源是添加方式是选中相应的知识点后选择添加资源，此资源可以是多种类型，可以添加压缩包、视频或者试题等多种类型资源。其中此类添加方式不仅有单条添加，同时也支持通过手动添加Excel表格关联关系。

2.从已有的教材体系中另存修改

从已有的教材体系中构建方式是属于对知识结构做微调整型的，主要从已有的教材体系结构目录中获取层次结构关系，对于大纲目录大部分结构不动，对细节部分进行调整和修改。

针对知识资源的海量、异构等特点，采用基于主题图对知识、学习资源进行了融合，对知识进行了多层次、多粒度的管理。将学习资源关联到知识元组，再向上抽象到主题图，实现了实体学习资源与个性化抽象的语义关联与组织，使得原本存储分散的知识资源变为具有知识关联的、并且可以被透明访问的知识资源库，从而更容易实现主题图、知识元组、知识元、资源之间的可视化呈现，提供给用户基于知识关联的知识导航，方便用户使用。

主题图的呈现最关键的部分是对于主题图层次结构关系数据的封装。在此系统中采用的数据结构形式主要包括两部分：“数据+关系”。数据部分存放是主题图的节点信息如下图所示的存放主题图节点信息的data部分：

关系部分主要存放的是主题图知识元组和知识元直接的关联关系信息，主要将前驱节点和后驱节点分别放进“source”、“target”中，在主题图中echart组件读取其中结构关系后呈现。如下：

采用此种数据结构也是为了更好的适配echart主题图所采用组件的呈现方式。

如图6所示，本发明实施例提供的基于主题图的知识聚合系统包括：

主题图构建模块1，用于通过标准知识库构建主题图；

主题图相似度计算模块2，用于进行主题图的相似度计算：进行直接关联关系的知识元与知识元的关联权重计算、知识元与学习资源的关联权重计算；进行聚合关联关系的知识元组与知识元的关联权重计算、知识元组和知识元组间的关联权重计算；

差异化程度计算模块3，用于进行主题图的差异化程度计算，进行个性化主题图偏差程度的定义和主题图之间相似性的计算。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题图的知识聚合方法，其特征在于，所述的基于主题图的知识聚合方法包括：

通过标准知识库构建主题图：主题图基于标准知识库的元素知识元构建；构成知识元的父节点知识元组由知识元构成，再由众多父节点知识元组组合成多层父节点，构成以某个主题为基础的主题图；

进行主题图的差异化程度计算：进行个性化主题图偏差程度的定义和主题图之间相似性的计算；

进行主题图的相似度计算中，知识元与学习资源的关联权重计算，包括：

自动关联方法：

其中R，K表示经过特征提取映射到语料库中的学习资源向量和知识点向量；首先将待关联的学习资源和知识点映射到语料库中，形成词频向量，然后对该向量进行特征化提取如TF-IDF特征提取以及LSA特征提取，将处理后的向量利用向量余弦公式计算两者间的相似度；

众智关联方法：

其中m表示不同用户标注的关联度，Credit表示不同用户的置信度；用户的置信度与用户标注的准确率有关，标注正确的数量越多，用户贡献越多，用户的置信度会提高，反之用户的置信度会减少；

学习资源与知识元的关联度计算方法进一步包括：

Relation(knowledge，resource)＝k₁*PeopleRelation+k₂*AutoRealtion

PeopleRelation表示众智方式计算得到的关联度，AutoRelation表示自动方式计算得到的关联度，k₁，k₂表示不同的权重系数，取值为0-1；学习资源与知识元间的关联权重为上述两者关联度的加权和；根据关联权重进行排序，取得与该知识元最相关的学习资源，进行学习资源层面的聚合。

2.如权利要求1所述的基于主题图的知识聚合方法，其特征在于，

知识元组与知识元的关联权重计算方法：

知识元组与知识元组的关联权重计算方法：

知识元组间的关联权重计算方法如下所示：

3.如权利要求1所述的基于主题图的知识聚合方法，其特征在于，

进行主题图的差异化程度计算包括：

Deviation(TopicGraph1，TpoicGraph2)＝1-Similarity(TopicGraph1，TopicGraph2)的计算；

Deviation(TopicGraph1,TopicGraph2)表示的是主题图TopicGraph1和TopicGraph2的整体主题图所聚合知识与资源内容的偏差程度；采用1-Similarity(TopicGraph1,TopicGraph2)表示偏差程度，相似度的反面；Similarity(TopicGraph1,TopicGraph2)表示主题图TopicGraph1和主题图TopicGraph2的相似程度。

4.一种实现权利要求1～3任意一项所述基于主题图的知识聚合方法的信息数据处理终端。

5.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-3任意一项所述的基于主题图的知识聚合方法。

6.一种实现权利要求1～3任意一项所述基于主题图的知识聚合方法的基于主题图的知识聚合系统，其特征在于，所述基于主题图的知识聚合系统包括：

主题图构建模块，用于通过标准知识库构建主题图；