CN111428052B - 一种从多源数据构建具有多重关系的教育概念图方法 - Google Patents
一种从多源数据构建具有多重关系的教育概念图方法 Download PDFInfo
- Publication number
- CN111428052B CN111428052B CN202010235272.5A CN202010235272A CN111428052B CN 111428052 B CN111428052 B CN 111428052B CN 202010235272 A CN202010235272 A CN 202010235272A CN 111428052 B CN111428052 B CN 111428052B
- Authority
- CN
- China
- Prior art keywords
- concept
- concepts
- key
- representing
- education
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010586 diagram Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000012706 support-vector machine Methods 0.000 claims abstract description 24
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000007418 data mining Methods 0.000 claims abstract description 6
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 71
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 241000196324 Embryophyta Species 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种从多源数据构建具有多重关系的教育概念图方法,包括:爬取多源数据,使用数据挖掘方法,提取出概念文本,构成训练数据集;获取专家对训练数据集的标注结果,按照概念的来源以及概念的标签,提取概念以及概念之间的相关特征;利用标注后的训练数据集结合传统机器学习方法,训练用于预测教育关键概念的支持向量机,以及基于训练数据集中标注出的教育关键概念及教育关键概念对之间的先决条件关系和共同学习关系,结合传统机器学习方法,训练用于预测教育关键概念对的先决条件关系和共同学习关系的混合模型;利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建。该方法可以精准地构建具有多重关系的教育概念图。
Description
技术领域
本发明涉及教育数据挖掘技术领域,尤其涉及一种从多源数据构建具有多重关系的教育概念图方法。
背景技术
概念图由各种概念及其关系组成,是一种广泛使用的组织和表示知识的图形工具。在各种概念图中,教育概念图主要关注概念之间的教学关系。因此,它有利于学生组织和获得一个学科的知识。构建教育概念图不仅有利于学生增强自主学习策略,而且在很大程度上有助于教师提高科学教育、教学评价、课程规划等任务,还可以根据教育概念图为学生实现试题或者学习资源的推荐任务(统称为后续任务)。
教育概念图能帮助学生高效的、个性化的学习,是智能化个性教学的重要基石。自动准确的构建概念图,可以帮助学生清楚地了解自身的学习路径,同时可以辅助家长和老师为学生制定个性化的学习策略。因此,如何自动的、准确的构建概念图,一直是教育数据挖掘领域探索的一个重要问题。
在目前的研究工作和专利中,关于教育概念图构建的方法主要有以下方法:
1)基于人工构建的教育概念图方法。
目前,基于人工构建的教育概念图方法主要着重于不同学科,由教师或助教提供。
2)基于机器学习的教育概念图构建方法。
基于机器学习的教育概念图构建方法结合了传统机器学习中常用的分类(如支持向量机)算法,有学者利用此方法抽取维基百科中的概念图。
上述两种方法都存在着一些不足,第一种方法费时的,而且,教师和助教只能根据自己的经验为学生开发个性化的概念图。因此,手工概念图难免存在一些错误和遗漏。第二种方法并没有考虑多源信息对构建教育概念图的帮助,而且它们均只关注一种教育学关系,因此构建的图谱是不完善的。教育概念图做后续任务的参考数据,当教育概念图不够准确时,也将影响后续任务的效果。
发明内容
本发明的目的是提供一种从多源数据构建具有多重关系的教育概念图方法,通过对不同数据源进行准确的建模分析处理,从而提高预测结果的准确性,进而可以精准地构建具有多重关系的教育概念图。
本发明的目的是通过以下技术方案实现的:
一种从多源数据构建具有多重关系的教育概念图方法,包括:
步骤11、爬取多源数据,使用数据挖掘方法,提取出概念文本,构成训练数据集;
步骤12、获取专家对训练数据集的标注结果,标注结果包括:根据概念重要程度为各个概念标注的教育关键概念或非教育关键概念的标签,以及教育关键概念对之间的先决条件关系和共同学习关系;按照概念的来源以及概念的标签,提取概念以及概念之间的相关特征;
步骤13、利用标注后的训练数据集结合传统机器学习方法,训练用于预测教育关键概念的支持向量机,以及基于训练数据集中标注出的教育关键概念及教育关键概念对之间的先决条件关系和共同学习关系,结合传统机器学习方法,训练用于预测教育关键概念对的先决条件关系和共同学习关系的混合模型;
由上述本发明提供的技术方案可以看出,该方法针对多种不同的数据源,通过不同的数据集特点,提取出不同的特征;在此基础上,对于三大不同的任务,首先基于相关特征对关键概念进行抽取,之后对分别对两种不同的关系:先决条件关系以及共同学习关系进行抽取。通过对多种数据源的利用以及对多种关系的抽取,弥补了现有方法关系单一以及分类效果不理想的问题,进而更加准确的构建了教育概念图,进而可以更为准确的实现学生个性化试题或者学习资源的推荐。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种从多源数据构建具有多重关系的教育概念图方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种从多源数据构建具有多重关系的教育概念图方法的流程图,如图1所示,其主要包括如下步骤:
步骤11、爬取多源数据,使用数据挖掘方法,提取出概念文本,构成训练数据集。
本发明实施例中,所爬取的多源数据至少包括:相关学科的课本数据与历史答题信息、以及相应的维基百科中的相关数据。
1)相关学科的课本数据包含了n本相同学科的电子课本,表示为:S={B1,…,Bx,…,Bn},其中Bx表示第x本电子课本;对于每一电子课本B,其包含H个子章节,表示为B={C1,…,Ch,…,CH},其中Ch表示第h个子章节;对于每一子章节包含标题CT以及Y个句子,表示为C={ct,s1,…,sy,…,sY},其中,sy表示子章节C的第y个句子。
示例性的,电子课本可以通过互联网下载,再通过OCR工具将下载的课本数据(小学、初中和高中的电子课本)转换为txt格式。
2)试题答题记录包括:学生答题分数、答题时间以及题目信息;一个试题答题记录是一个五元组(u,q,suq,tuq,conq),其中,u∈U表示学生,U为学生集合;q∈Q表示试题,Q为试题集合;suq表示答题分数;tuq表示答题时间;conq表示试题文本,包含试题内容以及题目解析/>
示例性的,每一学生的试题答题记录可以从在线学习平台智学网获得。
3)维基百科中的相关数据对应了M个页面,表示为P={p1,…,pm,…,pM},其中pm表示第m个页面,每个页面p包含了标题pt、摘要pabs以及页面内容,表示为p=(pt,pabs,pcon)。
通过分词工具对数据集中的文本内容进行分词,之后将分词内容与百科标题进行匹配,从而提取出不同的概念文本,构成概念集合,从概念集合中随机挑选指定数目的概念(具体数目可以根据实际需要来设定),构成训练数据集。
本领域技术人员可以理解,概念主要是指数学上通用的概念形式,例如“一元二次方程”、“函数”、“小数”等。
步骤12、获取专家对训练数据集的标注结果,标注结果包括:根据概念重要程度为各个概念标注的教育关键概念或非教育关键概念的标签,以及教育关键概念对之间的先决条件关系和共同学习关系;按照概念的来源以及概念的标签,提取概念以及概念之间的相关特征。
本发明实施例中,以概念的重要程度为指标来衡量一个概念是教育关键概念或非教育关键概念,重要程度可以多种常规方式来确定,例如,可以通过概念在数学教材标题中出现的次数来判别,如果出现此处超过规定数值,则认为其重要程度较高,属于教育关键概念;例如,前文提到的“小数”等,还可以由专家根据经验来确定。
本发明实施例中,通过多源数据集的特点,根据概念的数据来源,分别提取以下特征:
(1)对于每一数据源的概念语义相似度特征,包括:标题匹配特征,用来表示概念是否出现在标题中;概念匹配特征,用来表示概念对之间的关系;词表征相似度,用来表示概念对在向量空间的相似性与距离。
(2)维基百科链接特征,包括:概念对在维基百科页面中的出入度、概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离以及引用距离。
(3)课本结构化特征以及概念共现程度,其中,课本结构化特征包括:目录结构化特征以及课本间结构化特征,概念共现程度用来表示一个概念对在一个句子中同时出现的次数。
(4)试题答题记录特征,包括:概念频率特征、概念难度距离、试题内容分析距离以及学生答题记录特征。
以上各项特征中,标题匹配特征、概念频率特征以及概念对在维基百科页面中的出入度是针对单个概念而言,因而无需区分概念是否是教育关键概念,而其余特征是针对概念对而言,因此,只针对教育关键概念对进行提取(同样考虑数据来源);为了便于说明,下面统一使用wi,wj来表示训练数据集中的概念,不区分数据来源,也不区分对应的标签。
下面针对每一类型的特征做详细的介绍。
1、概念语义相似度特征。
1)标题匹配特征。
标题是对分章内容的总结,指出了分章的要点。如果一个概念出现在标题中,它很可能是一个关键的概念。标题匹配特征表示为:
TM(wi,ct)∈{0,1}
其中,ct∈{CT,pt,q′},q′表示试题q的标题,wi表示一个概念,当概念wi出现在相应的标题中,则TM(wi,ct)=1;否则,TM(wi,ct)=0。
2)概念匹配特征。
给定一个概念对<wi,wj>,如果概念wi出现在概念wj中,则wi更有可能与wj存在先决条件关系。概念匹配特征表示为:
其中,||.||表示数目统计符号;
3)概念共现程度。
4)词表征相似度。
词表征相似度包括:余弦相似度WEcs(wi,wj)以及欧几里得距离WEed(wi,wj):
余弦相似度WEcs(wi,wj)反映了概念对(wi,wj)之间的语义关联,表示为:
欧几里得距离WEed(wi,wj)表示向量空间中概念对(wi,wj)的欧氏距离,表示为:
2、维基百科链接特征。
1)概念对在维基百科页面中的出入度。
通过维基百科页面计算概念的出入度,将概念对(wi,wj)的出入度分别定义为:IN(wi)、OUT(wi)、IN(wj)、OUT(wj)。
2)概念对的公共邻居程度。
概念对的公共邻居程度:对于概念对(wi,wj),概念对(wi,wj)的公共邻居越多,则概念对(wi,wj)的语义相似度越高,表示为:
3)维基百科摘要定义。
维基百科摘要定义:如果概念wi在概念wj的摘要定义中,那么概念wi为概念wj的先序概念,表示为:
4)归一化的谷歌页面距离。
归一化的谷歌页面距离:通过对谷歌网页中概念之间的超链接,得到概念之间的关联程度,表示为:
5)引用距离。
引用距离:如果与wi最关联的概念都指向wj,那么wi更有可能是wj的先序概念,表示为:
其中,O1表示概念wi所在维基百科页面中其他概念的数目,O2表示概念wi所在维基百科页面中其他概念被概念wj所在维基百科页面中其他概念所链接的数目,O3表示概念wj所在维基百科页面中其他概念的数目,O4表示概念wj所在维基百科页面中其他概念被概念wi所在维基百科页面中其他概念所链接的数目;与/>均表示维基百科中相应页面的概念;/>表示概念/>是否指向概念wi所在维基百科页面,1表示指向,0表示未指向;/>表示概念/>在概念wj所在维基百科页面的重要程度,/>表示概念/>是否指向概念wi所在维基百科页面;/>表示概念/>在概念wi所在维基百科页面的重要程度,/>表示概念/>是否指向概念wj所在维基百科页面。
3、课本结构化特征以及概念共现程度。
概念共现程度用来表示一个概念对在一个句子中同时出现的次数,计算公式如下:
其中,r(s,wi)∈{0,1}表示概念wi是否出现在句子s中,若出现在句子s中,则取值为1,否则,取值为0。r(s,wj)的含义也是如此。
课本目录(TOC)和教材结构表明了概念之间的内在联系,因为教师的课程规划是基于这些信息。定义了两种教科书的层次结构特征,包括目录化结构特征和课本间结构化特征,以帮助推断概念之间的关系。
1)目录结构化特征。子章节C中概念对(wi,wj)的关系,表示为:
其中,|B|表示课本的数量,|S|表示书本的数量,f(wi,C)是指包含有概念wi的子章节C的数目,最终得到的结果是一个数目;同理,f(wj,C)表示包含有概念wj的子章节C的数目。
2)课本间结构化特征。
与目录结构化特征类似的,课本间结构化特征,体现了课本中概念对(wi,wj)的关系,表示为:
其中,f(wi,B)是指包含有概念wi的课本B的数目。
4、试题答题记录特征。
1)概念频率特征。
如果概念wi经常被试题内容提到,那么wi更有可能是一个关键的概念。在此假设的基础上,可以通过该特征来提取关键概念。
概念频率特征定义为概念wi的出现频率,表示为:
2)概念难度距离。
概念难度距离表示包含概念wi试题的平均难度与包含概念wj试题的平均难度的距离,表示为:
CDD(wi,wj)=CD(wi)-CD(wj)
其中,CD(wi)、CD(wj)表示概念wi、wj的平均难度;一般来说,试题难度是指答对试题的学生所占的比例,概念wi的平均概念难度CD(wi)是包含概念wi的所试题的平均难度,CD(wi)的计算公式如下:
同理,CD(wj)也是类似计算方式,区别仅在将下标i更换为j。
3)试题内容分析距离:一般试题内容出现的概念会在试题分析出现的概念之后学,基于这种特性,使用试题内容分析距离来衡量两个概念的先后序关系。
试题内容分析距离,计算公式为:
Qcad(wi,wj)=Qcaw(wj,wi)-Qcaw(wi,wj)
其中:
其中,表示试题内容/>中概念wj出现的次数;/>表示概念wj是否出现在试题分析/>中,/>表示概念wi是否出现在试题分析/>中,出现取值为1,否则取值为0;当然,如果wi(或者wj)出现在试题内容中,而wj(或者wi)出现在试题分析中,那么Qcaw(wi,wj)(Qcaw(wj,wi))就会变大,这符合实际的情况。
4)学生答题记录特征。
定义学生u的试题集合为Q,将I(Q;wi)定义为试题集合Q中包含概念wi的试题索引,I(Q;wj)为试题集合Q中包含概念wj的试题索引。例如,wi出现在试题集合Q第一个和第三个试题中,则I(Q;wi)∈{1,3}。假设wj是wi的先序概念,在学生u的答案序列中,如果学生答错了包含概念wi的试题,那么学生u更有可能回答错包含概念wj的试题。基于这一观察,对于给定的概念对<wi,wj>,定义S(Q)={(i1,j1)│i1∈I(Q;wi),j1∈I(Q;wj),i1<j1},学生答题记录特征如下:
步骤13、利用标注后的训练数据集结合传统机器学习方法,训练用于预测教育关键概念的支持向量机,以及基于训练数据集中标注出的教育关键概念及教育关键概念对之间的先决条件关系和共同学习关系,结合传统机器学习方法,训练用于预测教育关键概念对的先决条件关系和共同学习关系的混合模型。
由于概念图构建中缺少大规模标签数据集,本发明实施例中,基于传统机器学习方法训练三个二元分类器;使用第一个分类器(即支持向量机)结合标题匹配特征、概念频率特征以及概念对在维基百科页面中的出入度,来抽取教育关键概念集合C’;将另外两个二元分类器作为混合模型,在得到教育关键概念集合C’的基础上,预测教育关键概念集合C’中关键概念对(wi′,wj′)之间的先决条件关系和共同学习关系,训练阶段的优选实施方式如下:
1)训练支持向量机。
利用标注后的训练数据集,根据各个概念的标签,以及之前提取的概念特征,即标题匹配特征、以及根据概念对来源提取的概念频率特征、和/或概念对在维基百科页面中的出入度,对支持向量机进行训练,获得支持向量机的完整参数W1,以及第一阈值K*;训练的目标是最小化预测标签与实际标签Xi间的误差:
其中,M1表示训练数据集中概念的数目,表示支持向量机预测到的第i个概念的标签(即概念为教育关键概念或非教育关键概念),/>为第i个概念的相关特征,/>为对于第i个概念的参数,角标T为矩阵转置符号,M1个参数/>构成支持向量机的完整参数W1;Xi表示专家为第i个概念标注的标签(即实际标签);λ1||W1||2是正则化项,λ1是手动调节的参数。
2)训练用于预测先决条件关系的二分类器。
关键概念对(wi′,wj′)之间的先决条件关系通过概念匹配特征、词表征相似度、概念难度距离、试题内容分析距离、学生答题记录特征、目录结构化特征、课本间结构化特征、概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离以及引用距离来预测。
训练阶段,根据训练数据集中概念的标签选出其中的教育关键概念,利用专家标注的教育关键概念对之间的先决条件关系,结合教育关键概念对之间的概念匹配特征与词表征相似度,以及根据概念对来源提取的概念难度距离、试题内容分析距离与学生答题记录特征,目录结构化特征与课本间结构化特征,和/或概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离与引用距离,来训练用于预测先决条件关系的二分类器,获得二分类器的完整参数W2及第二阈值P1;训练的目标是最小化预测标签与实际标签X′l之间的误差:
其中,M2表示教育关键概念对的数目,表示对于二分类器预测到的第l个教育关键概念对的标签,即教育关键概念对是否存在先决条件关系,/>为第l个教育关键概念对的相关特征,W2 l为对于第l个教育关键概念对的参数,M2和参数W2 l构成了二分类器的完整参数W2;X′l表示专家为第l个教育关键概念对标注的先决条件关系(即实际标签),λ2||W2||2是正则化项,λ2是手动调节的参数。
3)训练用于预测共同学习关系的二分类器。
如果概念对(wi,wj)具有共同学习关系,则它应具有以下属性:
语义相似性:它们共享相同的语义信息;
共现:它们可能出现在同一个句子中;
概念匹配:它们可能包含常用词;
类似的难度:包含wi的问题A和包含wj的问题B可能具有相同的难度;
类似的邻居:他们可能在维基百科链接中共享相同的邻居;
共享定义:wi可能出现在wj的定义中,反之亦然。
基于这些假设,教育关键概念对(wi′,wj′)之间的共同学习关系通过概念匹配特征、词表征相似度、概念共现程度、概念难度距离、概念对的公共邻居程度以及维基百科摘要定义来预测。
训练阶段,根据训练数据集中概念的标签选出其中的教育关键概念,利用专家标注的教育关键概念对之间的共同学习关系,结合教育关键概念对之间的概念匹配特征与词表征相似度,以及根据概念对来源提取的概念共现程度,概念难度距离,和/或概念对的公共邻居程度以及维基百科摘要定义,来训练二分类器,获得用于预测共同学习关系的二分类器的完整参数W3及第二阈值P3;训练的目标是最小化预测标签与实际标签X″l之间的误差:
其中,M2表示教育关键概念对的数目,表示对于二分类器预测到的第l个教育关键概念对的标签,即教育关键概念对是否存在共同学习关系,/>为第l个教育关键概念对的相关特征,W3 l为对于第l个教育关键概念对的参数,M2和参数W3 l构成了二分类器的完整参数W3;X″l表示专家为第l个教育关键概念对标注的共同学习关系(即实际标签),λ3||W3||2是正则化项,λ3是手动调节的参数。
本发明实施例中,第一阈值K*的数值可以根据需要做适当调整;例如,想要筛选出较多教育关键概念时,可以适当降低第一阈值K*的数值;反之,可以适当增加第一阈值K*的数值。
本领域技术人员可以理解,概念对的各项特征是根据其所在数据源的相关信息来计算的,因此,此处提到的概念对主要是指相同数据源中的两个概念。在大多数情况下,相同的一个概念对,在三个数据源都存在,也就是说,一个相同内容的概念对,可以根据三个数据源中的相关信息计算出步骤12所提到的四类特征;但是,还考虑概念对只出现在一个或者两数据源的情况,此时,一个相同内容的概念对,只能够提取出步骤12所提到的两类或者三类特征,因此,上述训练过程中,根据概念对来源提取的特征之间使用了“和/或”的描述形式。
步骤14、利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建。
对于一个未发布的新数据集,按照步骤11的方式提取出各个概念文本,按照步骤12提取概念与概念之间的相关特征;然后,利用训练好的支持向量机与混合模型的参数及相关阈值,构造概念图G,步骤如下:
在得到关键概念集合C′的基础上,根据混合模型的参数W2与W3,以及两个阈值P2与P3,分别预测关键概念对{(wi′,wj′)|wi′,wj′∈C′}之间是否有先决条件关系以及共同学习关系:
其中,<wi′,wj′>=0表示概念wi′和概念wj′之间没有先决条件以及共同学习关系,<wi′,wj′>=1表示概念概念wi′和概念wj′之间有先决条件关系,<wi′,wj′>=2表示概念wi′和概念wj′之间有共同学习关系;分别表示关键概念集合C′中第l′个概念对(wi′,wj′)之间的用于预测先决条件关系、共同学习关系的相关特征,与步骤13中的/>是类似的含义,即/>包含的特征有:概念匹配特征与词表征相似度,以及根据概念对来源提取的概念难度距离、试题内容分析距离与学生答题记录特征,或者目录结构化特征与课本间结构化特征,或者概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离与引用距离;/>包含的特征有:概念匹配特征与词表征相似度,以及根据概念对来源提取的概念共现程度,或者概念难度距离,或者概念对的公共邻居程度以及维基百科摘要定义;以筛选出的关键概念集合C′中的每一教育关键概念作为节点,根据教育关键概念对之间是否存在先决条件关系与共同学习关系,来构造相应节点之间的连接关系,从而构建教育概念图。
由于未发布的新数据集通常是与学生对应的,因此,在教育概念图可以反应学生的知识掌握情况,将教育概念图与试题进行链接后,根据教育概念图上的信息,可以生成试题推荐列表,并推荐给相应的学生。比如,通过教育概念图上的信息,发现学生对于二次函数这个教育关键概念的理解能够不足,则可以生成相应的试题推荐列表,来测试学生对二次函数的先序概念(一次函数)以及共同学习概念(二次方程)是否理解,通过这种方式可以对学生的能力进行层层排查,最终找到学生不明白的症结,再通过这些症结来实现试题或者学习资源的个性化推荐等。
本发明实施例上述方案,针对多种不同的数据源,通过不同的数据集特点,提取出不同的特征;在此基础上,对于三大不同的任务,首先基于相关特征对关键概念进行抽取,之后对分别对两种不同的关系:先决条件关系以及共同学习关系进行抽取。通过对多种数据源的利用以及对多种关系的抽取,弥补了现有方法关系单一以及分类效果不理想的问题,从而更加准确的构建了教育概念图。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,包括:
步骤11、爬取多源数据,使用数据挖掘方法,提取出概念文本,构成训练数据集;
步骤12、获取专家对训练数据集的标注结果,标注结果包括:根据概念重要程度为各个概念标注的教育关键概念或非教育关键概念的标签,以及教育关键概念对之间的先决条件关系和共同学习关系;按照概念的来源以及概念的标签,提取概念以及概念之间的相关特征;
步骤13、利用标注后的训练数据集结合传统机器学习方法,训练用于预测教育关键概念的支持向量机,以及基于训练数据集中标注出的教育关键概念及教育关键概念对之间的先决条件关系和共同学习关系,结合传统机器学习方法,训练用于预测教育关键概念对的先决条件关系和共同学习关系的混合模型;
步骤14、利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建;
其中,按照概念的来源,所要提取的特征包括:对于每一数据源的概念语义相似度特征,包括:标题匹配特征,用来表示概念是否出现在标题中;概念匹配特征,用来概念对之间的关系;词表征相似度,用来表示概念对在向量空间的相似性与距离;
维基百科链接特征,包括:概念对在维基百科页面中的出入度、概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离以及引用距离;
课本结构化特征与概念共现程度,其中,课本结构化特征包括:目录结构化特征以及课本间结构化特征;概念共现程度,用来表示一个概念对在一个句子中同时出现的次数;
试题答题记录特征,包括:概念频率特征、概念难度距离、试题内容分析距离以及学生答题记录特征;
上述的标题匹配特征、概念频率特征以及概念对在维基百科页面中的出入度是针对单个概念而言,不区分概念是否是教育关键概念;而其余特征是针对概念对而言,只针对教育关键概念对进行提取;
标题匹配特征表示为:
TM(wi,ct)∈{0,1}
其中,ct∈{CT,pt,q′},q′表示试题q的标题,wi表示一个概念,当概念wi出现在相应的标题中,则TM(wi,ct)=1;否则,TM(wi,xt)=0;
概念匹配特征表示为:
其中,(wi,wj)为一个概念对,||.||表示数目统计符号;
词表征相似度包括:余弦相似度WEcs(wi,wj)以及欧几里得距离WEed(wi,wj);
余弦相似度WEcs(wi,wj)反映了概念对(wi,wj)之间的语义关联,表示为:
欧几里得距离WEed(wi,wj)表示向量空间中概念对(wi,wj)的欧氏距离,表示为:
利用训练好的支持向量机与混合模型对新的数据集进行教育概念图的构建包括:
对于一个未发布的新数据集,按照步骤11的方式提取出各个概念文本,按照步骤12提取概念与概念之间的相关特征;然后,利用训练好的支持向量机与混合模型的参数及相关阈值,构造概念图G,步骤如下:
在得到关键概念集合C′的基础上,根据混合模型的参数W2与W3,以及两个阈值P2与P3,分别预测关键概念对{(wi′,wj′)|wi′,wj′∈C′}之间是否有先决条件关系以及共同学习关系:
其中,<wi′,wj′>=0表示概念wi′和概念wj′之间没有先决条件以及共同学习关系,<wi′,wj′>=1表示概念概念wi′和概念wj′之间有先决条件关系,<wi′,wj′>=2表示概念wi′和概念wj′之间有共同学习关系;分别表示关键概念集合C′中第l′个概念对(wi′,wj′)之间的用于预测先决条件关系、共同学习关系的相关特征;
以筛选出的关键概念集合C′中的每一教育关键概念作为节点,根据教育关键概念对之间是否存在先决条件关系与共同学习关系,来构造相应节点之间的连接关系,从而构建教育概念图。
2.根据权利要求1所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,所爬取的多源数据至少包括:相关学科的课本数据与历史答题信息、以及相应的维基百科中的相关数据;其中:
相关学科的课本数据包含了n本相同学科的电子课本,表示为:S={Β1,…,Βx,…,Βn},其中Βx表示第x本电子课本;对于每一电子课本Β,其包含H个子章节,表示为B={C1,…,Ch,…,CH},其中Ch表示第h个子章节;对于每一子章节包含标题CT以及Y个句子,表示为C={ct,s1,…,sy,…,sY},其中,sy表示子章节C的第y个句子;
试题答题记录包括:学生答题分数、答题时间以及题目信息;一个试题答题记录是一个五元组(u,q,suq,tuq,conq),其中,u∈U表示学生,U为学生集合;q∈Q表示试题,Q为试题集合;suq表示答题分数;tuq表示答题时间;conq表示试题文本,包含试题内容以及题目解析/>
维基百科中的相关数据对应了M个页面,表示为P={p1,…,pm,…,pM},其中pm表示第m个页面,每个页面p包含了标题pt、摘要pabs以及页面内容,表示为p=(pt,pabs,pcon);
通过分词工具对数据源中的文本内容进行分词,之后将分词内容与百科标题进行匹配,从而提取出不同的数学概念,构成概念集合,从概念集合中随机挑选指定数目的概念,构成训练数据集。
3.根据权利要求1所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,
概念对在维基百科页面中的出入度:将概念对(wi,wj)的出入度分别定义为,IN(wi)、OUT(wi)、IN(wj)、OUT(wj);
概念对的公共邻居程度:对于概念对(wi,wj),概念对(wi,wj)的公共邻居越多,则概念对(wi,wj)的语义相似度越高,表示为:
维基百科摘要定义:如果概念wi在概念wj的摘要定义中,那么概念wi为概念wj的先序概念,表示为:
归一化的谷歌页面距离:通过对谷歌网页中概念之间的超链接,得到概念之间的关联程度,表示为:
引用距离,表示为:
其中,O1表示概念wi所在维基百科页面中其他概念的数目,O2表示概念wi所在维基百科页面中其他概念被概念wj所在维基百科页面中其他概念所链接的数目,O3表示概念wj所在维基百科页面中其他概念的数目,O4表示概念wj所在维基百科页面中其他概念被概念wi所在维基百科页面中其他概念所链接的数目;与/>均表示维基百科中相应页面的概念;/>表示概念/>是否指向概念wi所在维基百科页面,1表示指向,0表示未指向;/>表示概念/>在概念wj所在维基百科页面的重要程度,/>表示概念/>是否指向概念wi所在维基百科页面;/>表示概念/>在概念wi所在维基百科页面的重要程度,/>表示概念/>是否指向概念wj所在维基百科页面。
4.根据权利要求1所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,
目录结构化特征,体现了子章节C中概念对(wi,wj)的关系,表示为:
其中,|B|表示课本的数量,|S|表示书本的数量,f(wi,C)是指包含有概念wi的子章节C的数目,f(wj,C)表示包含有概念wj的子章节C的数目;
课本间结构化特征,体现了课本中概念对(wi,wj)的关系,表示为:
其中,f(wi,B)是指包含有概念wi的课本B的数目;
概念共现程度,计算公式如下:
其中,r(s,wi)∈{0,1表示概念wi是否出现在句子s中,若出现在句子s中,则取值为1,否则,取值为0;r(s,wj)∈{0,1}表示概念wj是否出现在句子s中,若出现在句子s中,则取值为1,否则,取值为0。
5.根据权利要求1所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,
概念频率特征,表示概念wi的出现频率,表示为:
概念难度距离,表示包含概念wi试题的平均难度与包含概念wj试题的平均难度的距离,表示为:
CDD(wi,wj)=CD(wi)CD(wj)
其中,CD(wi)、CD(wj)表示概念wi、wj的平均难度;CD(wi)的计算公式如下:
试题内容分析距离,计算公式为:
Qcad(wi,wj)=Qcaw(wj,wi)-Qcaw(wi,wj)
其中:
学生答题记录特征,表示为:
6.根据权利要求1所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,训练用于预测教育关键概念的支持向量机的方式包括:
利用标注后的训练数据集,根据各个概念的标签,以及提取的概念特征,即标题匹配特征、以及根据概念对来源提取的概念频率特征、和/或概念对在维基百科页面中的出入度,对支持向量机进行训练,获得支持向量机的完整参数W1,以及第一阈值K*;训练的目标是最小化预测标签与实际标签Xi间的误差:
7.根据权利要求6所述的一种从多源数据构建具有多重关系的教育概念图方法,其特征在于,混合模型包括用于预测先决条件关系的二分类器、以及用于预测共同学习关系的二分类器;其中:
训练用于预测先决条件关系的二分类器包括:
训练阶段,根据训练数据集中概念的标签选出其中的教育关键概念,利用专家标注的教育关键概念对之间的先决条件关系,结合教育关键概念对之间的概念匹配特征与词表征相似度,以及根据概念对来源提取的概念难度距离、试题内容分析距离与学生答题记录特征,目录结构化特征与课本间结构化特征,和/或概念对的公共邻居程度、维基百科摘要定义、归一化的谷歌页面距离与引用距离,来训练用于预测先决条件关系的二分类器,获得二分类器的完整参数W2及第二阈值P1;训练的目标是最小化预测标签与实际标签X′l之间的误差:
其中,M2表示教育关键概念对的数目,表示对于二分类器预测到的第l个教育关键概念对的标签,即教育关键概念对是否存在先决条件关系,/>为第l个教育关键概念对的相关特征,W2 l为对于第l个教育关键概念对的参数,M2和参数W2 l构成了二分类器的完整参数W2;X′l表示专家为第l个教育关键概念对标注的先决条件关系,λ2||W2||2是正则化项,λ2是手动调节的参数;
训练用于预测共同学习关系的二分类器的方式包括:
训练阶段,根据训练数据集中概念的标签选出其中的教育关键概念,利用专家标注的教育关键概念对之间的共同学习关系,结合教育关键概念对之间的概念匹配特征与词表征相似度,以及根据概念对来源提取的概念共现程度,概念难度距离,和/或概念对的公共邻居程度以及维基百科摘要定义,来训练二分类器,获得用于预测共同学习关系的二分类器的完整参数W3及第二阈值P3;训练的目标是最小化预测标签与实际标签X″l之间的误差:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235272.5A CN111428052B (zh) | 2020-03-30 | 2020-03-30 | 一种从多源数据构建具有多重关系的教育概念图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235272.5A CN111428052B (zh) | 2020-03-30 | 2020-03-30 | 一种从多源数据构建具有多重关系的教育概念图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428052A CN111428052A (zh) | 2020-07-17 |
CN111428052B true CN111428052B (zh) | 2023-06-16 |
Family
ID=71549179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010235272.5A Active CN111428052B (zh) | 2020-03-30 | 2020-03-30 | 一种从多源数据构建具有多重关系的教育概念图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428052B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949843B (zh) * | 2020-07-21 | 2023-11-03 | 江苏海洋大学 | 一种基于概念图构建的智能学习诊断方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
CN106875014A (zh) * | 2017-03-02 | 2017-06-20 | 上海交通大学 | 基于半监督学习的软件工程知识库的自动化构建实现方法 |
CN109299282A (zh) * | 2018-08-16 | 2019-02-01 | 山东女子学院 | 基于文本分析及关联规则挖掘的概念图自动生成方法 |
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN110532328A (zh) * | 2019-08-26 | 2019-12-03 | 哈尔滨工程大学 | 一种文本概念图构造方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI221989B (en) * | 2002-12-24 | 2004-10-11 | Ind Tech Res Inst | Example-based concept-oriented data extraction method |
RU2487403C1 (ru) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Способ построения семантической модели документа |
US9378647B2 (en) * | 2013-08-20 | 2016-06-28 | Chegg, Inc. | Automated course deconstruction into learning units in digital education platforms |
US10380145B2 (en) * | 2016-02-24 | 2019-08-13 | Microsoft Technology Licensing, Llc | Universal concept graph for a social networking service |
-
2020
- 2020-03-30 CN CN202010235272.5A patent/CN111428052B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
CN106875014A (zh) * | 2017-03-02 | 2017-06-20 | 上海交通大学 | 基于半监督学习的软件工程知识库的自动化构建实现方法 |
CN109299282A (zh) * | 2018-08-16 | 2019-02-01 | 山东女子学院 | 基于文本分析及关联规则挖掘的概念图自动生成方法 |
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN110532328A (zh) * | 2019-08-26 | 2019-12-03 | 哈尔滨工程大学 | 一种文本概念图构造方法 |
Non-Patent Citations (2)
Title |
---|
向芳玉 ; 郝建江 ; 顾文玲 ; 黄冬明 ; .基于概念图的可视化教学整合研究――以地理概念为例.中国教育信息化.2018,(16),全文. * |
涂新辉 ; 何婷婷 ; 李芳 ; 王建文 ; .基于排序学习的文本概念标注方法研究.北京大学学报(自然科学版).2012,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111428052A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110264091B (zh) | 学生认知诊断方法 | |
US11631338B2 (en) | Deep knowledge tracing with transformers | |
Rahman et al. | NLP-based automatic answer script evaluation | |
Reddy et al. | Analyzing student reviews on teacher performance using long short-term memory | |
Chanaa et al. | BERT and prerequisite based ontology for predicting learner’s confusion in MOOCs discussion forums | |
Geetha et al. | Prediction of the academic performance of slow learners using efficient machine learning algorithm | |
José-García et al. | C3-IoC: A career guidance system for assessing student skills using machine learning and network visualisation | |
Sharma et al. | Feature enhanced capsule networks for robust automatic essay scoring | |
CN111428052B (zh) | 一种从多源数据构建具有多重关系的教育概念图方法 | |
Sahu et al. | Automatic question tagging using multi-label classification in community question answering sites | |
Nehyba et al. | Applications of deep language models for reflective writings | |
CN116860978B (zh) | 基于知识图谱和大模型的小学语文个性化学习系统 | |
Jones et al. | An exploration of automated narrative analysis via machine learning | |
Ouyang et al. | A systematic review of AI-driven educational assessment in STEM education | |
CN113283488A (zh) | 一种基于学习行为的认知诊断方法及系统 | |
Fortino et al. | Application of Text Data Mining To STEM Curriculum Selection and Development | |
Weegar et al. | Reducing workload in short answer grading using machine learning | |
CN107274077B (zh) | 课程先后序计算方法和设备 | |
Shaukat et al. | Semantic similarity–based descriptive answer evaluation | |
Mardini G et al. | A deep-learning-based grading system (ASAG) for reading comprehension assessment by using aphorisms as open-answer-questions | |
Patil et al. | Automated evaluation of short answers: A systematic review | |
Shin et al. | Evaluating coherence in writing: Comparing the capacity of automated essay scoring technologies | |
Singh et al. | Analysis of Student Sentiment Level using Perceptual Neural Boltzmann Machine Learning Approach for E-learning Applications | |
Cox | More than diplomatic: functional requirements for evidence in recordkeeping | |
Bhaduri | NLP in Engineering Education-Demonstrating the use of Natural Language Processing Techniques for Use in Engineering Education Classrooms and Research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |