CN105608067B - 用于网络教学系统的知识自动提取方法及装置 - Google Patents

用于网络教学系统的知识自动提取方法及装置 Download PDF

Info

Publication number
CN105608067B
CN105608067B CN201410625252.3A CN201410625252A CN105608067B CN 105608067 B CN105608067 B CN 105608067B CN 201410625252 A CN201410625252 A CN 201410625252A CN 105608067 B CN105608067 B CN 105608067B
Authority
CN
China
Prior art keywords
knowledge
credit
document
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410625252.3A
Other languages
English (en)
Other versions
CN105608067A (zh
Inventor
王肃
郑骏
陈志云
胡文心
王明亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410625252.3A priority Critical patent/CN105608067B/zh
Publication of CN105608067A publication Critical patent/CN105608067A/zh
Application granted granted Critical
Publication of CN105608067B publication Critical patent/CN105608067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于网络教学系统的知识自动提取方法及装置,所述方法包括:建立知识库,该知识库存储有所述网络教学系统相关课程的所有知识点;接收教学文档,对所述教学文档进行预处理,将教学文档转化为提取源文件;知识库中的知识点作为所述教学文档的候选知识点,对每条候选知识点进行分词处理,提取各候选知识点的知识词元;根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度;计算候选知识点的信用度阈值;判断各候选知识点的信用度是否大于或者等于所述信用度阈值,若是,则将对应的知识点作为所述教学文档的关联知识输出。与现有技术相比,本发明具有可以有效地提取出教学文档中的知识、查准率高等优点。

Description

用于网络教学系统的知识自动提取方法及装置
技术领域
本发明涉及计算机科学技术领域,尤其是涉及一种用于网络教学系统的知识自动提取方法及装置。
背景技术
随着信息技术的飞速发展,越来越多的网络教学系统产生。目前的网络教学系统主要功能包括在线课件演示、在线作业、在线考试、在线视频教学等功能。其中老师上传课件和相关文档供学生学习和分享是其中的一个重要功能,几乎所有的网络教学系统都具有该功能。
但是随着上传的课件和文档越来越多,学生想要找到自己所需的文档将会花费更多的时间。目前,很多学习系统都是对文件进行关键词提取,便于学生查询和浏览所需用的资源。但是简单的关键词并不能准确的表述课件和教学文档的内容。大多数和课程相关的课件及文件都是和该课程的教学知识点相关的,知识点是由多个词语组成的短句,它可以准确、系统地表述课件或资源文件的主要学习内容,方便用户找到所需课件,并且有利于学生学习,这些都是关键词做不到的。
目前,现有的网络教学系统中很少具有教学文档的知识自动提取功能。知识点大多是由上传课件和文档的教师手工输入,或者从系统已有的知识点库中选择。但是这种方式存在着问题,知识点可能存在输入错误,不一致等问题。因此,在网络教学系统中,对上传的教学课件及其他相关文档自动提取知识点是一项非常必要并且重要的工作。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可以有效地提取出教学文档中的知识、查准率高的用于网络教学系统的知识自动提取方法及装置。
本发明的目的可以通过以下技术方案来实现:
一种用于网络教学系统的知识自动提取方法,对教师在网络教学系统中上传的教学文档进行关联知识的自动提取,包括以下步骤:
1)建立知识库,该知识库存储有所述网络教学系统相关课程的所有知识点;
2)接收教学文档,对所述教学文档进行预处理,将教学文档转化为提取源文件;
3)知识库中的知识点作为所述教学文档的候选知识点,对每条候选知识点进行分词处理,提取各候选知识点的知识词元;
4)根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度;
5)计算候选知识点的信用度阈值;
6)判断各候选知识点的信用度是否大于或者等于所述信用度阈值,若是,则将对应的知识点作为所述教学文档的关联知识输出,若否,则舍弃对应的知识点。
所述教学文档包括PPT文件、WORD文件和文本文件。
所述步骤2)中,预处理包括文档格式转换和分词处理,所述文档格式转换是指将PPT文档、WORD文档转化为文本文件。
所述步骤4)中,计算并调整每条候选知识点在提取源文件中的信用度具体为:
401)计算候选知识点中每个知识词元的信用度:
v(WEj|D)=c1×ftj+c2×locj (1)
式中,v(WEj|D)表示知识词元WEj在提取源文件D中的信用度,tfj表示知识词元WEj在提取源文件中的词频重要度,locj表示知识词元WEj的位置重要度,c1、c2分别表示tfj和locj的权重系数,其中,词频重要度tfj定义为
Figure BDA0000603244620000021
式中,frej是知识词元WEj在提取源文件中出现的次数;
位置重要度locj定义为
Figure BDA0000603244620000022
Figure BDA0000603244620000023
402)计算候选知识点KPi在提取源文件D中的信用度V(KPi|D):
Figure BDA0000603244620000024
式中,n是候选知识点KPi中的知识词元个数,ω为信用度惩罚因子,信用度惩罚因子通过以下公式计算:
ω=ρm (6)
式中,m是候选知识点所包含的提取源文件中没有出现的知识词元的个数,ρ的取值如下:
Figure BDA0000603244620000031
所述步骤5)中,候选知识点的信用度阈值的计算公式为:
Figure BDA0000603244620000032
k为知识库中知识点的个数,α为信用度阈值系数,取值为大于或者等于1的整数。
所述信用度阈值系数α的取值范围为6-8。
一种用于网络教学系统的知识自动提取装置,包括:
知识库建立模块,用于建立存储有所述网络教学系统相关课程的所有知识点的知识库;
教学文档接收模块,用于接收教学文档,并对所述教学文档进行预处理,将教学文档转化为提取源文件;
知识词元提取模块,用于对知识库中的每条知识点进行分词处理,提取知识词元,知识库中的知识点作为所述教学文档的候选知识点;
信用度计算调整模块,用于根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度;
信用度阈值计算模块,用于计算候选知识点的信用度阈值;
关联知识输出模块,用于判断各候选知识点的信用度是否大于或者等于所述信用度阈值,将大于或等于信用度阈值的知识点作为所述教学文档的关联知识输出。
所述教学文档接收模块包括:
文档格式转换单元,用于将接收的教学文档转化为文本文件;
分词处理单元,用于对转化后文本文件进行分词处理。
所述信用度计算调整模块包括:
知识词元信用度计算单元,用于计算候选知识点中每个知识词元的信用度;
候选知识点信用度计算单元,用于计算各候选知识点在提取源文件中的信用度。
与现有技术相比,本发明具有以下有益效果:
(1)本发明对知识点和教学文档进行分词处理后进行知识点的匹配,可以有效地提取出教学文档中的知识,方便用户快速查找所需课件;
(2)本发明在计算候选知识点在提取源文件中的信用度时引入惩罚因子,提高了信用度计算的准确性,进一步提高了知识提取的查准率;
(3)本发明自动提取教师上传的教学文档的知识点,可以有效地避免教师在教学系统中共享课件时人工输入课件关联知识点的错误和不一致,减少教师工作量;并且方便学生查找课件,快速准确地获取课件的关联知识点。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种用于网络教学系统的知识自动提取方法(Automatic Knowledge Extraction Algorithm,AKEA),对教师在网络教学系统中上传的教学文档进行关联知识的自动提取,从而简化教师工作,方便学生学习和查找课程课件和教学文档。
1、教学文档类型
教师上传的教学课件或文档主要包括PPT、WORD、文本文件等。本发明可以对PPT文件(.ppt,.pptx)、WORD文件(.doc,.docx)以及文本文件(.txt)等多种类型的文档进行知识自动提取。
2、方法具体流程
在进行知识提取之前,必须建立知识库,知识库和教学系统中的课程相关,存储了课程中的所有知识点。本发明的原理框架如图1所示,其中,知识自动提取算法根据输入的教学文档在知识点库中进行查找,并输出和该教学文档匹配的关联知识,分词器用来对教学文档和知识库中的知识进行分词。
定义1.知识点:是一个短句,由多个词或词组组成。知识库包含多个知识点。知识库中的知识点成为文档的候选知识点。
定义2.知识词元:是将知识点进行分词,除去停用词、虚词、标点后的实词。每一个实词称为该知识的一个词元。知识由多个知识词元组成。
定义3.知识点信用度:表示知识点在文档中的重要程度。文档的候选知识点信用度越高,该知识点成为文档的关联知识点的概率越大。
本发明对知识自动提取过程如下:
Step1.接收教学文档,对教学文档进行预处理,将教学文档转化为提取源文件。预处理包括文档格式转换和分词处理:
(1)格式转换使用Apache的POI开源包将PPT和WORD文件都转换为文本文件。
(2)分词使用中科院开源中文分词器ICTCLAS,将格式转化后的文本文件进行分词,分词后的文件称为提取源文件。
Step2.对知识点库中的每条知识点提取知识词元。
利用中科院中文分词器ICTCLAS对知识点进行分词,每一条知识点可以分为一个或多个知识词元。
Step3.对每条候选知识点计算该候选知识点在提取源文件中的信用度值。
(1)计算候选知识点中每个知识词元的信用度。
知识词元WEj在提取源文件D中的信用度表示为v(WEj|D),知识词元在提取源文件中的信用度由两个因素决定,一是该词元在文档中出现的频率,二是该词元在提取源文件中出现的位置。
v(WEj|D)=c1×tfj+c2×locj (1)
tfj表示知识词元WEj在提取源文件中的词频重要度,locj表示知识词元WEj的位置重要度,c1、c2分别表示tfj和locj的权重系数,其中,词频重要度tfj定义为
Figure BDA0000603244620000051
式中,frej是知识词元WEj在提取源文件中出现的次数;
位置重要度locj定义为
Figure BDA0000603244620000052
Figure BDA0000603244620000053
(2)计算候选知识点KPi在提取源文件D中的信用度V(KPi|D):
Figure BDA0000603244620000061
式中,n是候选知识点KPi中的知识词元个数,ω为信用度惩罚因子,信用度惩罚因子通过以下公式计算:
ω=ρm (6)
式中,m是候选知识点所包含的提取源文件中没有出现的知识词元的个数,一般认为知识点中的第一个词元是比较重要的词元,因此,ρ的取值如下:
Figure BDA0000603244620000062
由公式(5)可知候选知识点的信用度越高,表示该候选知识点是在该文档中越重要,成为该文档关联知识点的概率越高。
通常,文档关联知识点中的词元在文档中都会出现。因此,如果一个知识点中的词元在文档中没有出现,那么这个知识点成为该文档关联知识点的概率就很小。本发明定义信用度惩罚因子ω对知识点的信用度进行调整。如果候选知识点中的某个词元在文档中没有出现,则需要降低该候选知识点的信用度值。
Step4.计算候选知识点的信用度阈值ε。
Figure BDA0000603244620000063
k为知识库中知识点的个数,α为信用度阈值系数,取值为大于或者等于1的整数。
Step8.当候选知识点的信用度大于或者等于信用度阈值ε,则该知识点为文档的关联知识点。否则,该知识点和该文档无关。输出文档的所有关联知识点。
3、实验及结果分析
本实施例的实验环境为Eclipse,算法使用java语言编写,知识库中有120个候选知识点,对三种不同的类型的教学文件PPT、WORD以及文本文件各30个进行测试。每个文档的知识点数规定最少为3个,最多为10个,采用上述知识自动提取方法对90个文档进行知识点提取。
方法的评估参数为查准率P、召回率R以及两者的综合指标F。
知识自动提取的查准率P,记为:
Figure BDA0000603244620000064
其中A为人工和本发明都判断为关联知识点的数量,B为人工判断不是知识点而本发明判断是关联知识点的数量。
知识自动提取的召回率R,记为:
Figure BDA0000603244620000071
其中C为人工判断是知识点而算法判断不是关联知识点的数量。
知识自动提取的综合指标F是的查准率和召回率的调和,记为:
Figure BDA0000603244620000072
查准率和查全率反映了知识自动提取性能的两个不同方面,两者的关系是相互制约的,可以通过降低查全率来提高查准率,反之亦可。对于评估提取算法的性能,必须综合考虑这两个指标,即综合指标F,其值越高代表知识自动提取的性能越好。
为了证明本发明方法(AKEA)的优越性,我们将该方法与不进行信用度值调整,即不使用信用度惩罚因子ω的方法进行对比。表1显示了这两种方法的查准率P、召回率R以及综合指标F在不同的信用度阈值系数α下的结果。
表1 实验结果对比
Figure BDA0000603244620000073
从表1可知,本发明得到的评价参数变化规律符合实际,并且比无信用度惩罚方法在综合指标方面有了一定的提高。另外,可知信用度阈值系数α对评价参数具有较大的影响,一般取值6-8可以取得较好的查准率、召回率和综合指标。实验表明本发明可以有效地提取出文档中的知识,并取得较好的性能指标,可以应用于网络教学系统中的教学文档关联知识提取。

Claims (7)

1.一种用于网络教学系统的知识自动提取方法,其特征在于,对教师在网络教学系统中上传的教学文档进行关联知识的自动提取,包括以下步骤:
1)建立知识库,该知识库存储有所述网络教学系统相关课程的所有知识点;
2)接收教学文档,对所述教学文档进行预处理,将教学文档转化为提取源文件;
3)知识库中的知识点作为所述教学文档的候选知识点,对每条候选知识点进行分词处理,提取各候选知识点的知识词元;
4)根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度;
5)计算候选知识点的信用度阈值;
6)判断各候选知识点的信用度是否大于或者等于所述信用度阈值,若是,则将对应的知识点作为所述教学文档的关联知识输出,若否,则舍弃对应的知识点;
所述步骤4)中,计算并调整每条候选知识点在提取源文件中的信用度具体为:
401)计算候选知识点中每个知识词元的信用度:
v(WEj|D)=c1×tfj+c2×locj (1)
式中,v(WEj|D)表示知识词元WEj在提取源文件D中的信用度,tfj表示知识词元WEj在提取源文件中的词频重要度,locj表示知识词元WEj的位置重要度,c1、c2分别表示tfj和locj的权重系数,其中,词频重要度tfj定义为
Figure FDA0002316366650000011
式中,frej是知识词元WEj在提取源文件中出现的次数;
位置重要度locj定义为
Figure FDA0002316366650000012
Figure FDA0002316366650000013
402)计算候选知识点KPi在提取源文件D中的信用度V(KPi|D):
Figure FDA0002316366650000014
式中,n是候选知识点KPi中的知识词元个数,ω为信用度惩罚因子,信用度惩罚因子通过以下公式计算:
ω=ρm (6)
式中,m是候选知识点所包含的提取源文件中没有出现的知识词元的个数,ρ的取值如下:
Figure FDA0002316366650000021
2.根据权利要求1所述的一种用于网络教学系统的知识自动提取方法,其特征在于,所述教学文档包括PPT文件、WORD文件和文本文件。
3.根据权利要求2所述的一种用于网络教学系统的知识自动提取方法,其特征在于,所述步骤2)中,预处理包括文档格式转换和分词处理,所述文档格式转换是指将PPT文档、WORD文档转化为文本文件。
4.根据权利要求1所述的一种用于网络教学系统的知识自动提取方法,其特征在于,所述步骤5)中,候选知识点的信用度阈值的计算公式为:
Figure FDA0002316366650000022
k为知识库中知识点的个数,α为信用度阈值系数,取值为大于或者等于1的整数。
5.根据权利要求4所述的一种用于网络教学系统的知识自动提取方法,其特征在于,所述信用度阈值系数α的取值范围为6-8。
6.一种用于网络教学系统的知识自动提取装置,其特征在于,包括:
知识库建立模块,用于建立存储有所述网络教学系统相关课程的所有知识点的知识库;
教学文档接收模块,用于接收教学文档,并对所述教学文档进行预处理,将教学文档转化为提取源文件;
知识词元提取模块,用于对知识库中的每条知识点进行分词处理,提取知识词元,知识库中的知识点作为所述教学文档的候选知识点;
信用度计算调整模块,用于根据所述知识词元计算并调整每条候选知识点在提取源文件中的信用度;
信用度阈值计算模块,用于计算候选知识点的信用度阈值;
关联知识输出模块,用于判断各候选知识点的信用度是否大于或者等于所述信用度阈值,将大于或等于信用度阈值的知识点作为所述教学文档的关联知识输出;
所述信用度计算调整模块包括:
知识词元信用度计算单元,用于计算候选知识点中每个知识词元的信用度,所述候选知识点中每个知识词元的信用度为:
v(WEj|D)=c1×tfj+c2×locj (1)
式中,v(WEj|D)表示知识词元WEj在提取源文件D中的信用度,tfj表示知识词元WEj在提取源文件中的词频重要度,locj表示知识词元WEj的位置重要度,c1、c2分别表示tfj和locj的权重系数,其中,词频重要度tfj定义为
Figure FDA0002316366650000031
式中,frej是知识词元WEj在提取源文件中出现的次数;
位置重要度locj定义为
Figure FDA0002316366650000032
Figure FDA0002316366650000033
候选知识点信用度计算单元,用于计算各候选知识点在提取源文件中的信用度,所述候选知识点KPi在提取源文件D中的信用度V(KPi|D):
Figure FDA0002316366650000034
式中,n是候选知识点KPi中的知识词元个数,ω为信用度惩罚因子,信用度惩罚因子通过以下公式计算:
ω=ρm (6)
式中,m是候选知识点所包含的提取源文件中没有出现的知识词元的个数,ρ的取值如下:
Figure FDA0002316366650000035
7.根据权利要求6所述的一种用于网络教学系统的知识自动提取装置,其特征在于,所述教学文档接收模块包括:
文档格式转换单元,用于将接收的教学文档转化为文本文件;
分词处理单元,用于对转化后文本文件进行分词处理。
CN201410625252.3A 2014-11-07 2014-11-07 用于网络教学系统的知识自动提取方法及装置 Active CN105608067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410625252.3A CN105608067B (zh) 2014-11-07 2014-11-07 用于网络教学系统的知识自动提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410625252.3A CN105608067B (zh) 2014-11-07 2014-11-07 用于网络教学系统的知识自动提取方法及装置

Publications (2)

Publication Number Publication Date
CN105608067A CN105608067A (zh) 2016-05-25
CN105608067B true CN105608067B (zh) 2020-05-01

Family

ID=55988013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410625252.3A Active CN105608067B (zh) 2014-11-07 2014-11-07 用于网络教学系统的知识自动提取方法及装置

Country Status (1)

Country Link
CN (1) CN105608067B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909679B (zh) * 2017-03-03 2020-02-07 东北大学 基于多路分块的渐近式实体识别方法
CN107424100B (zh) * 2017-07-21 2021-01-01 深圳市鹰硕技术有限公司 信息提供方法及系统
CN108196880A (zh) * 2017-12-11 2018-06-22 北京大学 软件项目知识图谱自动构造方法与系统
CN111091733B (zh) * 2020-03-19 2020-06-30 浙江正元智慧科技股份有限公司 一种教师实时教学成果辅助检验系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN103593336A (zh) * 2013-10-30 2014-02-19 中国运载火箭技术研究院 一种基于语义分析的知识推送系统及方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN103593336A (zh) * 2013-10-30 2014-02-19 中国运载火箭技术研究院 一种基于语义分析的知识推送系统及方法
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Interpreting TF-IDF Terms Weights as Making Relevance Decisions;HO CHUNG WU et al.;《ACM Transactions on Information Systems》;20080630;第26卷(第3期);第1-37页 *
基于TF统计和语法分析的关键词提取算法;战学刚 等;《计算机应用与软件》;20140131;第31卷(第1期);第47-49、92页 *

Also Published As

Publication number Publication date
CN105608067A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN111027331B (zh) 用于评估翻译质量的方法和装置
US9721205B2 (en) Clarification of submitted questions in a question and answer system
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
US20170178028A1 (en) Contextual text adaptation
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US10157174B2 (en) Utilizing a dialectical model in a question answering system
US20160350406A1 (en) User interface for a query answering system
US9766868B2 (en) Dynamic source code generation
US9619209B1 (en) Dynamic source code generation
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
US11954594B1 (en) Training recurrent neural networks to generate sequences
CN105608067B (zh) 用于网络教学系统的知识自动提取方法及装置
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
US11532333B1 (en) Smart summarization, indexing, and post-processing for recorded document presentation
WO2023273598A1 (zh) 文本搜索方法、装置、可读介质及电子设备
US11379527B2 (en) Sibling search queries
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN109657046B (zh) 内容分析处理方法、装置、电子设备及存储介质
CN112784600B (zh) 信息排序方法、装置、电子设备和存储介质
CN111523310B (zh) 数据处理方法、数据处理装置、存储介质和电子设备
CN112836523B (zh) 一种单词翻译方法、装置、设备和一种可读存储介质
Yi et al. Improving Relation Extraction with Relation-Based Gated Convolutional Selector

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant