CN105608067B

CN105608067B - 用于网络教学系统的知识自动提取方法及装置

Info

Publication number: CN105608067B
Application number: CN201410625252.3A
Authority: CN
Inventors: 王肃; 郑骏; 陈志云; 胡文心; 王明亚
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2020-05-01
Anticipated expiration: 2034-11-07
Also published as: CN105608067A

Abstract

本发明涉及一种用于网络教学系统的知识自动提取方法及装置，所述方法包括：建立知识库，该知识库存储有所述网络教学系统相关课程的所有知识点；接收教学文档，对所述教学文档进行预处理，将教学文档转化为提取源文件；知识库中的知识点作为所述教学文档的候选知识点，对每条候选知识点进行分词处理，提取各候选知识点的知识词元；根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度；计算候选知识点的信用度阈值；判断各候选知识点的信用度是否大于或者等于所述信用度阈值，若是，则将对应的知识点作为所述教学文档的关联知识输出。与现有技术相比，本发明具有可以有效地提取出教学文档中的知识、查准率高等优点。

Description

用于网络教学系统的知识自动提取方法及装置

技术领域

本发明涉及计算机科学技术领域，尤其是涉及一种用于网络教学系统的知识自动提取方法及装置。

背景技术

随着信息技术的飞速发展，越来越多的网络教学系统产生。目前的网络教学系统主要功能包括在线课件演示、在线作业、在线考试、在线视频教学等功能。其中老师上传课件和相关文档供学生学习和分享是其中的一个重要功能，几乎所有的网络教学系统都具有该功能。

但是随着上传的课件和文档越来越多，学生想要找到自己所需的文档将会花费更多的时间。目前，很多学习系统都是对文件进行关键词提取，便于学生查询和浏览所需用的资源。但是简单的关键词并不能准确的表述课件和教学文档的内容。大多数和课程相关的课件及文件都是和该课程的教学知识点相关的，知识点是由多个词语组成的短句，它可以准确、系统地表述课件或资源文件的主要学习内容，方便用户找到所需课件，并且有利于学生学习，这些都是关键词做不到的。

目前，现有的网络教学系统中很少具有教学文档的知识自动提取功能。知识点大多是由上传课件和文档的教师手工输入，或者从系统已有的知识点库中选择。但是这种方式存在着问题，知识点可能存在输入错误，不一致等问题。因此，在网络教学系统中，对上传的教学课件及其他相关文档自动提取知识点是一项非常必要并且重要的工作。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可以有效地提取出教学文档中的知识、查准率高的用于网络教学系统的知识自动提取方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种用于网络教学系统的知识自动提取方法，对教师在网络教学系统中上传的教学文档进行关联知识的自动提取，包括以下步骤：

1)建立知识库，该知识库存储有所述网络教学系统相关课程的所有知识点；

2)接收教学文档，对所述教学文档进行预处理，将教学文档转化为提取源文件；

3)知识库中的知识点作为所述教学文档的候选知识点，对每条候选知识点进行分词处理，提取各候选知识点的知识词元；

4)根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度；

5)计算候选知识点的信用度阈值；

6)判断各候选知识点的信用度是否大于或者等于所述信用度阈值，若是，则将对应的知识点作为所述教学文档的关联知识输出，若否，则舍弃对应的知识点。

所述教学文档包括PPT文件、WORD文件和文本文件。

所述步骤2)中，预处理包括文档格式转换和分词处理，所述文档格式转换是指将PPT文档、WORD文档转化为文本文件。

所述步骤4)中，计算并调整每条候选知识点在提取源文件中的信用度具体为：

401)计算候选知识点中每个知识词元的信用度：

v(WE_j|D)＝c1×ft_j+c2×loc_j (1)

式中，v(WE_j|D)表示知识词元WE_j在提取源文件D中的信用度，tf_j表示知识词元WE_j在提取源文件中的词频重要度，loc_j表示知识词元WE_j的位置重要度，c1、c2分别表示tf_j和loc_j的权重系数，其中，词频重要度tf_j定义为

式中，fre_j是知识词元WE_j在提取源文件中出现的次数；

位置重要度loc_j定义为

402)计算候选知识点KP_i在提取源文件D中的信用度V(KP_i|D)：

式中，n是候选知识点KP_i中的知识词元个数，ω为信用度惩罚因子，信用度惩罚因子通过以下公式计算：

ω＝ρ^m (6)

式中，m是候选知识点所包含的提取源文件中没有出现的知识词元的个数，ρ的取值如下：

。

所述步骤5)中，候选知识点的信用度阈值的计算公式为：

k为知识库中知识点的个数，α为信用度阈值系数，取值为大于或者等于1的整数。

所述信用度阈值系数α的取值范围为6-8。

一种用于网络教学系统的知识自动提取装置，包括：

知识库建立模块，用于建立存储有所述网络教学系统相关课程的所有知识点的知识库；

教学文档接收模块，用于接收教学文档，并对所述教学文档进行预处理，将教学文档转化为提取源文件；

知识词元提取模块，用于对知识库中的每条知识点进行分词处理，提取知识词元，知识库中的知识点作为所述教学文档的候选知识点；

信用度计算调整模块，用于根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度；

信用度阈值计算模块，用于计算候选知识点的信用度阈值；

关联知识输出模块，用于判断各候选知识点的信用度是否大于或者等于所述信用度阈值，将大于或等于信用度阈值的知识点作为所述教学文档的关联知识输出。

所述教学文档接收模块包括：

文档格式转换单元，用于将接收的教学文档转化为文本文件；

分词处理单元，用于对转化后文本文件进行分词处理。

所述信用度计算调整模块包括：

知识词元信用度计算单元，用于计算候选知识点中每个知识词元的信用度；

候选知识点信用度计算单元，用于计算各候选知识点在提取源文件中的信用度。

与现有技术相比，本发明具有以下有益效果：

(1)本发明对知识点和教学文档进行分词处理后进行知识点的匹配，可以有效地提取出教学文档中的知识，方便用户快速查找所需课件；

(2)本发明在计算候选知识点在提取源文件中的信用度时引入惩罚因子，提高了信用度计算的准确性，进一步提高了知识提取的查准率；

(3)本发明自动提取教师上传的教学文档的知识点，可以有效地避免教师在教学系统中共享课件时人工输入课件关联知识点的错误和不一致，减少教师工作量；并且方便学生查找课件，快速准确地获取课件的关联知识点。

附图说明

图1为本发明的原理示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种用于网络教学系统的知识自动提取方法(Automatic Knowledge Extraction Algorithm，AKEA)，对教师在网络教学系统中上传的教学文档进行关联知识的自动提取，从而简化教师工作，方便学生学习和查找课程课件和教学文档。

1、教学文档类型

教师上传的教学课件或文档主要包括PPT、WORD、文本文件等。本发明可以对PPT文件(.ppt，.pptx)、WORD文件(.doc，.docx)以及文本文件(.txt)等多种类型的文档进行知识自动提取。

2、方法具体流程

在进行知识提取之前，必须建立知识库，知识库和教学系统中的课程相关，存储了课程中的所有知识点。本发明的原理框架如图1所示，其中，知识自动提取算法根据输入的教学文档在知识点库中进行查找，并输出和该教学文档匹配的关联知识，分词器用来对教学文档和知识库中的知识进行分词。

定义1.知识点：是一个短句，由多个词或词组组成。知识库包含多个知识点。知识库中的知识点成为文档的候选知识点。

定义2.知识词元：是将知识点进行分词，除去停用词、虚词、标点后的实词。每一个实词称为该知识的一个词元。知识由多个知识词元组成。

定义3.知识点信用度：表示知识点在文档中的重要程度。文档的候选知识点信用度越高，该知识点成为文档的关联知识点的概率越大。

本发明对知识自动提取过程如下：

Step1.接收教学文档，对教学文档进行预处理，将教学文档转化为提取源文件。预处理包括文档格式转换和分词处理：

(1)格式转换使用Apache的POI开源包将PPT和WORD文件都转换为文本文件。

(2)分词使用中科院开源中文分词器ICTCLAS，将格式转化后的文本文件进行分词，分词后的文件称为提取源文件。

Step2.对知识点库中的每条知识点提取知识词元。

利用中科院中文分词器ICTCLAS对知识点进行分词，每一条知识点可以分为一个或多个知识词元。

Step3.对每条候选知识点计算该候选知识点在提取源文件中的信用度值。

(1)计算候选知识点中每个知识词元的信用度。

知识词元WE_j在提取源文件D中的信用度表示为v(WE_j|D)，知识词元在提取源文件中的信用度由两个因素决定，一是该词元在文档中出现的频率，二是该词元在提取源文件中出现的位置。

v(WE_j|D)＝c1×tf_j+c2×loc_j (1)

tf_j表示知识词元WE_j在提取源文件中的词频重要度，loc_j表示知识词元WE_j的位置重要度，c1、c2分别表示tf_j和loc_j的权重系数，其中，词频重要度tf_j定义为

式中，fre_j是知识词元WE_j在提取源文件中出现的次数；

位置重要度loc_j定义为

(2)计算候选知识点KP_i在提取源文件D中的信用度V(KP_i|D)：

ω＝ρ^m (6)

式中，m是候选知识点所包含的提取源文件中没有出现的知识词元的个数，一般认为知识点中的第一个词元是比较重要的词元，因此，ρ的取值如下：

由公式(5)可知候选知识点的信用度越高，表示该候选知识点是在该文档中越重要，成为该文档关联知识点的概率越高。

通常，文档关联知识点中的词元在文档中都会出现。因此，如果一个知识点中的词元在文档中没有出现，那么这个知识点成为该文档关联知识点的概率就很小。本发明定义信用度惩罚因子ω对知识点的信用度进行调整。如果候选知识点中的某个词元在文档中没有出现，则需要降低该候选知识点的信用度值。

Step4.计算候选知识点的信用度阈值ε。

Step8.当候选知识点的信用度大于或者等于信用度阈值ε，则该知识点为文档的关联知识点。否则，该知识点和该文档无关。输出文档的所有关联知识点。

3、实验及结果分析

本实施例的实验环境为Eclipse，算法使用java语言编写，知识库中有120个候选知识点，对三种不同的类型的教学文件PPT、WORD以及文本文件各30个进行测试。每个文档的知识点数规定最少为3个，最多为10个，采用上述知识自动提取方法对90个文档进行知识点提取。

方法的评估参数为查准率P、召回率R以及两者的综合指标F。

知识自动提取的查准率P，记为：

其中A为人工和本发明都判断为关联知识点的数量，B为人工判断不是知识点而本发明判断是关联知识点的数量。

知识自动提取的召回率R，记为：

其中C为人工判断是知识点而算法判断不是关联知识点的数量。

知识自动提取的综合指标F是的查准率和召回率的调和，记为：

查准率和查全率反映了知识自动提取性能的两个不同方面，两者的关系是相互制约的，可以通过降低查全率来提高查准率，反之亦可。对于评估提取算法的性能，必须综合考虑这两个指标，即综合指标F，其值越高代表知识自动提取的性能越好。

为了证明本发明方法(AKEA)的优越性，我们将该方法与不进行信用度值调整，即不使用信用度惩罚因子ω的方法进行对比。表1显示了这两种方法的查准率P、召回率R以及综合指标F在不同的信用度阈值系数α下的结果。

表1 实验结果对比

从表1可知，本发明得到的评价参数变化规律符合实际，并且比无信用度惩罚方法在综合指标方面有了一定的提高。另外，可知信用度阈值系数α对评价参数具有较大的影响，一般取值6-8可以取得较好的查准率、召回率和综合指标。实验表明本发明可以有效地提取出文档中的知识，并取得较好的性能指标，可以应用于网络教学系统中的教学文档关联知识提取。