CN106779166A - 一种基于数据驱动的知识点掌握状态的预测系统及方法 - Google Patents
一种基于数据驱动的知识点掌握状态的预测系统及方法 Download PDFInfo
- Publication number
- CN106779166A CN106779166A CN201611046483.4A CN201611046483A CN106779166A CN 106779166 A CN106779166 A CN 106779166A CN 201611046483 A CN201611046483 A CN 201611046483A CN 106779166 A CN106779166 A CN 106779166A
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- test
- data
- training data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 239000010410 layer Substances 0.000 claims description 76
- 238000000605 extraction Methods 0.000 claims description 19
- 230000000295 complement effect Effects 0.000 claims description 17
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims 2
- 210000005036 nerve Anatomy 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract 1
- 238000003066 decision tree Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013477 bayesian statistics method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于数据驱动的知识点掌握状态的预测系统及方法,包括测试题目的生成和属性标注模块、训练数据采集模块、基于训练数据的多维度特征提取模块、数据驱动的预测模型建立模块。本发明可以解决对学习者知识掌握程度的预测,适用于一般在线学习平台和系统,也可以应用于实际教学评估和诊断中,为学习者提供个性化的教学服务,提高学习针对性和学习效率。
Description
技术领域
本发明涉及一种基于数据驱动的知识点掌握状态的预测系统及方法,属于数据挖掘技术,特别是涉及教育领域的数据挖掘。
背景技术
数据挖据是一种基于大量数据进行信息提取和知识发现的方法,已经被广泛应用于互联网、工业制造、交通等各个领域。数据挖掘在教育领域的应用相对比较新颖,主要涉及概率统计、机器学习与自然语言等学科,主要的方法包括聚类、关联规则学习、相关性分析、回归性分析以及分类等,常用的模型包括贝叶斯模型、决策树、隐形马尔可夫模型等。贝叶斯预测模型是运用贝叶斯统计进行的一种预测,需要掌握先验信息和总体分布信息进行建模和预测。决策树模型可以看作是对象属性和对象值之间的一种映射,树中的节点表示对象属性的判断条件,其分支是符合节点条件的对象,其叶子节点表示对象所属的预测结果。隐形马尔可夫模型基于隐含未知参数的马尔可夫过程,需要从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。在教育领域,数据挖据的应用目前主要用来支持教育决策、对学生进行信息和课程内容的推荐等。
发明内容
本发明要解决的问题是:克服现有技术的不足,提供一种基于数据驱动的知识点掌握状态的预测系统及方法,对学习者知识点掌握状态进行预测和估计,从而为学习者提供个性化的教学服务,提高学习针对性和学习效率。
本发明解决其问题所采用的方案是:一种基于数据驱动的知识点掌握状态的预测系统,包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块,其中:
测试题目的生成和属性标注模块:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集模块:基于测试题目的生成和属性标注模块生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取模块:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;
数据驱动的预测模型建立模块:标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的单一预测模型,预测出知识点A的掌握程度YA。所述单一预测模型是指基于单个预测模型,包括人工神经网络、随机森林或逻辑回归的经典模型。先对各个预测模型进行准确度评估,根据评估结果,最终决定其中一种模型作为预测模型。
所述标注已知知识点掌握程度YA的多个等级包括卓越、优秀、良好、合格以及不合格。
所述数据驱动的预测模型建立模块的实现如下:
步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度,生成训练数据,训练数据的输出为任一给定知识点A的掌握程度。分别利用多个不同的经典模型进行训练,包括单层或者多层结构神经网络模型(Artificial Neural Network)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型,其中对于单层神经网络模型,训练算法采用反向传播算法(Backpropagation);
步骤(2)通过独立训练得到m个不同的模型后,利用K次交叉验证方法,计算所得模型的准确率A1,A2,…Am,取准确率最高的模型为最终预测模型Ω。最终预测模型Ω的输出为{P(j)|j=1,2,3……},其中P(j)是最终预测模型对知识点第j级掌握程度的预测概率。最终,取P(j)中预测概率数值最大者所对应的等级为该知识点的预测掌握程度。
一种基于数据驱动的知识点掌握状态的预测方法,包括测试题目的生成和属性标注模块、训练数据采集步骤、基于测试数据的多维度特征提取步骤、数据驱动的预测模型建立步骤,其中:
测试题目的生成和属性标注步骤:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集步骤:基于测试题目的生成和属性标注步骤生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取步骤:对训练数据采集步骤得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成测试数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;
数据驱动的预测模型建立步骤:标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的单一预测模型,预测出知识点A的掌握程度YA。所述单一预测模型是指基于单个预测模型,例如人工神经网络、随机森林或逻辑回归的经典模型。先对各个预测模型进行准确度评估,根据评估结果,最终决定其中一种模型作为预测模型。
本发明与现有方法相比的有益效果为:
(1)本发明可以解决对学习者知识掌握程度的预测,为学习者提供个性化的教学服务,提高了学习针对性和学习效率。
(2)本发明方法针对学习者的知识点掌握状态预测问题,提出了利用测试数据结合知识点结构进行多维特征提取,然后,建立多个预测模型进行并行多元分类,最终建立预测模型,给出知识点掌握程度的预测结果,预测准确,适用于一般在线学习平台和系统,也可以应用于实际教学评估和诊断中。
附图说明
图1为本发明一种基于数据驱动的知识点掌握状态的预测系统的结构图;
图2为本发明的测试题目的属性标注;
图3为本发明的已知知识点掌握状态的计算实现流程;
图4为本发明的神经网络预测模型的建立流程。
图5为本发明的预测模型的使用流程。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
如图1所示,本发明为一种基于数据驱动的知识点掌握状态的预测系统,包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块。
如图2所示,本发明中对测试题目的属性标注模块具体实现如下:测试题目生成后,根据课程标准按照所属学科、所属年级、知识点名称、知识点之间的父子关系四个要素进行知识点梳理。根据具体测试题目的内容,确定该题目在树形结构中的节点位置,然后标记给测试题目。例如题目一被标记为BIK020103,即为生物学科(BIK),第一层级的第二主题知识点(02)下,第二层级的第一子知识点(01)下,第三层级的第三子知识点(03);同时,根据课程标准和专家经验,系统对所给测试题目所考察的能力水平进行分级,例如题目一的水平能力可以标记为合格、良好、优秀或者卓越。对于每个最底层知识点,此处为第三层知识点,生成的测试题目的数量需不少于最少题目要求。一般情况下,最少题目在5到10题,根据不同学科和主题进行确定。
测试题目生成及属性标注完成后,进行训练数据的采集,具体实现如下:组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群。例如,可以是同一年级所有的在籍学生;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试和收集;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据集;对于每个学科,训练数据的规模应保持在一定规模以上,例如300个学习者对于生物学科10个第三层知识点的独立测试结果。
基于所收集的训练数据,进行多维度特征提取,其具体实现如下:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G。
由于预测模型基于监督式学习算法,因此需要标注训练数据中已知知识点掌握程度YA。如图3所示,已知知识点掌握程度YA的计算具体实现如下:测试数据收集后,根据测试题目所标记的能力水平等级和已知知识点的分布情况,可以根据判定规则计算已知知识点的掌握状态。例如,对于生物学科第一层级的第二主题知识点BIK02,如果其下辖的第二层级和第三层级的所有知识点均有测试数据,并且被标注有卓越和优秀的题目的得分率均在50%以上,则可以根据设定的判定规则判断该学习者在BIK02知识点的掌握程度为卓越。最终标注的知识点掌握程度可以分为多个等级,例如卓越、良好、合格、不合格等。
基于已经标注知识点掌握程度的训练数据,建立数据驱动的预测模型,其具体实现如下:对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,首先分别建立三种不同的经典预测模型,包括神经网络模型、随机森林模型以及逻辑回归模型,上述三种模型的输出(目标)都是给定需预测的知识点的掌握程度,输入是其余已知知识点的基本特征向量VN,VN-1,…,V1和学习者补充特征向量G。例如给定需知识点BIK02,预测模型的输出(目标)是该知识点的掌握程度Y,输入是除知识点BIK02外的其它已知知识点的基本特征向量和学习者补充特征向量。
三种模型训练的过程依据各自的经典算法进行,属于本领域公知技术,以下仅简要叙述各自原理:
单层神经网络模型,对于每一组特征向量和标注的知识点掌握程度,利用神经网络的反向传播算法自动更新一遍网络内的权值矩阵,其过程可以概括为两个阶段:第一阶段为激励传播,也就是将训练输入送入网络以获得激励相应,然后将激励相应同训练输入对应的目标输出求差,从而获得隐层和输出层的相应误差;第二阶段为权值更新阶段,将输入激励和相应误差相乘,从而获得权重的梯度,将该梯度乘上训练因子并且取反后加到原始权重上。经过足够的训练数据和训练回合后,得到所需神经网络预测模型。上述的基本过程如图4所示。
随机森林模型是一个包含多个决策树的分类器,其输出的类别是由所含树的输出的类别的众数而定。其中每棵树的建造过程是:用Y来表示训练样本的个数,Z表示特征数目;输入特征数目z,用于确定决策树上一个节点的决策结果,其中z应远小于Z。从Y个训练样本中以有放回抽样的方式,取样Y次,形成一个训练集(即bootstrap取样),并用未抽到的样本作预测,评估其误差;对于每一个节点,随机选择z个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这z个特征,计算其最佳的分裂方式;每棵树都会完整成长而不会剪枝。决策树的生成可以采用任一经典分类决策树的算法。
逻辑回归模型主要针对多元分类问题,其基本方法是:训练多个基本二元分类逻辑回归模型,每个模型均对应一种需要预测的类别,也即是模型可以给出该类别相应的预测概率以及非该类别的预测概率。对于一个新学习者的特征数据,用上述多个模型分别得到各个类别的预测概率,取概率值大的类别为本发明中逻辑回归模型的最终预测结果。基本二元分类逻辑回归模型可以采用经典的逻辑函数和梯度下降法进行构建。
神经网络的反向传播算法、随机森林和逻辑回归模型的训练算法是本领域公知技术,本申请对此不作限制。
经过训练,分别得到三种训练模型后,开始进行模型评估,从而确定最终的单一预测模型,其具体实现如下:
1)利用K次交叉验证方法(其中K一般大于等于5),得到三种模型的准确率分别为A1,A2以及A3。取A1,A2及A3中数值最高者所对应的模型Ω为最终采用的预测模型。
2)对给定知识点A有5个等级的掌握程度(例如卓越、优秀、良好、合格以及不合格),预测模型Ω的输出为{P(j)|j=1,2,3,4,5},其中P(j)是最终预测模型对该知识点第j个等级掌握程度的预测概率。
3)取P(j)中概率数值最大者所对应的等级,作为该知识点最终预测的掌握程度。
所得到的预测模型,可以用来对新学习者的知识掌握状态进行预测,其具体实现如下:如图5所示,基于已经生成的测试题目,对于新学习者进行相应测试并收集和过滤数据。对新收集的数据进行如前所述的多维度特征提取,将提取的特征向量作为预测模型的输入。运行已经训练好的预测模型,可以得到新学习者的知识点掌握程度的预测结果。
本发明未详细阐述的部分属于本领域公知技术。
Claims (4)
1.一种基于数据驱动的知识点掌握状态的预测系统,其特征在于:包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块,其中:
测试题目的生成和属性标注模块:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集模块:基于测试题目的生成和属性标注模块生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取模块:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;
数据驱动的预测模型建立模块:对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的单一预测模型,预测出知识点A的掌握程度YA;所述单一预测模型是指基于单个预测模型,包括人工神经网络、随机森林或逻辑回归的经典模型,先对所述各个预测模型进行准确度评估,根据评估结果,最终决定其中一种模型作为预测模型。
2.根据权利要求1所述的一种基于数据驱动的知识点掌握状态的预测系统,其特征在于:所述标注已知知识点掌握程度YA的多个等级包括卓越、优秀、良好、合格以及不合格。
3.根据权利要求1所述的一种基于数据驱动的知识点掌握状态的预测系统,其特征在于:所述数据驱动的预测模型建立模块实现如下:
步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度,生成训练数据,训练数据的输出为任一给定知识点A的掌握程度;分别利用多个不同的经典模型进行训练,包括单层或者多层结构人工神经网络模型(Artificial Neural Network)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型,其中对于单层神经网络模型,训练算法采用反向传播算法(Backpropagation);
步骤(2)通过独立训练得到m个不同的模型后,利用K次交叉验证方法,计算所得模型的准确率A1,A2,…Am,取准确率最高的模型为最终预测模型Ω;最终预测模型Ω的输出为{P(j)|j=1,2,3……},其中P(j)是最终预测模型对知识点第j级掌握程度的预测概率,最后取P(j)中预测概率数值最大者所对应的等级为该知识点的预测掌握程度。
4.一种基于数据驱动的知识点掌握状态的预测方法,其特征在于:包括测试题目的生成和属性标注步骤、训练数据采集步骤、基于测试数据的多维度特征提取步骤、数据驱动的预测模型建立步骤,其中:
测试题目的生成和属性标注步骤:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集步骤:基于测试题目的生成和属性标注步骤生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取步骤:对训练数据采集步骤得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成测试数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;
数据驱动的预测模型建立步骤:根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的单一预测模型,预测出知识点A的掌握程度YA。所述单一预测模型是指基于单个预测模型,包括人工神经网络、随机森林或逻辑回归的经典模型;先对各个预测模型进行准确度评估,根据评估结果,最终决定其中一种模型作为预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611046483.4A CN106779166A (zh) | 2016-11-23 | 2016-11-23 | 一种基于数据驱动的知识点掌握状态的预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611046483.4A CN106779166A (zh) | 2016-11-23 | 2016-11-23 | 一种基于数据驱动的知识点掌握状态的预测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106779166A true CN106779166A (zh) | 2017-05-31 |
Family
ID=58974242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611046483.4A Pending CN106779166A (zh) | 2016-11-23 | 2016-11-23 | 一种基于数据驱动的知识点掌握状态的预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779166A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274020A (zh) * | 2017-06-15 | 2017-10-20 | 北京师范大学 | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 |
CN108257052A (zh) * | 2018-01-16 | 2018-07-06 | 中南大学 | 一种在线学生知识评估方法及其系统 |
CN108932593A (zh) * | 2018-07-24 | 2018-12-04 | 华中师范大学 | 一种认知影响因素分析方法及装置 |
CN110599375A (zh) * | 2019-08-15 | 2019-12-20 | 深圳市莱法照明通信科技有限公司 | 一种用于个性化学习优化的方法、装置、系统和存储介质 |
WO2020007287A1 (zh) * | 2018-07-05 | 2020-01-09 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN111445153A (zh) * | 2020-03-31 | 2020-07-24 | 华中师范大学 | 面向教育测量的客观试题属性模式估计与校正方法及系统 |
CN112232657A (zh) * | 2020-10-14 | 2021-01-15 | 高岩峰 | 一种多功能智能题库系统 |
CN112446558A (zh) * | 2021-01-29 | 2021-03-05 | 北京世纪好未来教育科技有限公司 | 模型训练方法、学习结果获取方法、装置、设备及介质 |
CN113254629A (zh) * | 2021-06-07 | 2021-08-13 | 重庆第二师范学院 | 一种基于人工智能的学习内容推荐方法及系统 |
CN113421175A (zh) * | 2021-07-05 | 2021-09-21 | 赛飞特工程技术集团有限公司 | 一种能力测试分级方法和装置 |
CN116227729A (zh) * | 2023-03-20 | 2023-06-06 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
CN117540108A (zh) * | 2024-01-10 | 2024-02-09 | 人民卫生电子音像出版社有限公司 | 基于考点数据分布式总结的智能推荐答题系统 |
-
2016
- 2016-11-23 CN CN201611046483.4A patent/CN106779166A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274020A (zh) * | 2017-06-15 | 2017-10-20 | 北京师范大学 | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 |
CN107274020B (zh) * | 2017-06-15 | 2020-05-22 | 北京师范大学 | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 |
CN108257052A (zh) * | 2018-01-16 | 2018-07-06 | 中南大学 | 一种在线学生知识评估方法及其系统 |
CN108257052B (zh) * | 2018-01-16 | 2022-04-22 | 中南大学 | 一种在线学生知识评估方法及其系统 |
WO2020007287A1 (zh) * | 2018-07-05 | 2020-01-09 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN108932593B (zh) * | 2018-07-24 | 2021-02-12 | 华中师范大学 | 一种认知影响因素分析方法及装置 |
CN108932593A (zh) * | 2018-07-24 | 2018-12-04 | 华中师范大学 | 一种认知影响因素分析方法及装置 |
CN110599375A (zh) * | 2019-08-15 | 2019-12-20 | 深圳市莱法照明通信科技有限公司 | 一种用于个性化学习优化的方法、装置、系统和存储介质 |
CN111445153B (zh) * | 2020-03-31 | 2023-04-14 | 华中师范大学 | 面向教育测量的客观试题属性模式估计与校正方法及系统 |
CN111445153A (zh) * | 2020-03-31 | 2020-07-24 | 华中师范大学 | 面向教育测量的客观试题属性模式估计与校正方法及系统 |
CN112232657A (zh) * | 2020-10-14 | 2021-01-15 | 高岩峰 | 一种多功能智能题库系统 |
CN112446558A (zh) * | 2021-01-29 | 2021-03-05 | 北京世纪好未来教育科技有限公司 | 模型训练方法、学习结果获取方法、装置、设备及介质 |
CN113254629A (zh) * | 2021-06-07 | 2021-08-13 | 重庆第二师范学院 | 一种基于人工智能的学习内容推荐方法及系统 |
CN113254629B (zh) * | 2021-06-07 | 2022-07-26 | 重庆第二师范学院 | 一种基于人工智能的学习内容推荐方法及系统 |
CN113421175A (zh) * | 2021-07-05 | 2021-09-21 | 赛飞特工程技术集团有限公司 | 一种能力测试分级方法和装置 |
CN116227729A (zh) * | 2023-03-20 | 2023-06-06 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
CN116227729B (zh) * | 2023-03-20 | 2023-10-10 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
CN117540108A (zh) * | 2024-01-10 | 2024-02-09 | 人民卫生电子音像出版社有限公司 | 基于考点数据分布式总结的智能推荐答题系统 |
CN117540108B (zh) * | 2024-01-10 | 2024-04-02 | 人民卫生电子音像出版社有限公司 | 基于考点数据分布式总结的智能推荐答题系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779166A (zh) | 一种基于数据驱动的知识点掌握状态的预测系统及方法 | |
CN106779079A (zh) | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 | |
Kabra et al. | Performance prediction of engineering students using decision trees | |
Osmanbegovic et al. | Data mining approach for predicting student performance | |
CN103824115B (zh) | 面向开放网络知识库的实体间关系推断方法及系统 | |
Mimis et al. | A framework for smart academic guidance using educational data mining | |
CN109242149A (zh) | 一种基于教育数据挖掘的学生成绩早期预警方法及系统 | |
CN107274020A (zh) | 一种基于协同过滤思想的学习者学科总测成绩预测系统及方法 | |
CN106373057B (zh) | 一种面向网络教育的成绩不良学习者识别方法 | |
CN108256102A (zh) | 一种基于聚类的独立学院学生评教数据分析方法 | |
CN110263979A (zh) | 基于强化学习模型预测样本标签的方法及装置 | |
Siddiqui et al. | ANALYZING STUDENTS'ACADEMIC PERFORMANCE THROUGH EDUCATIONAL DATA MINING. | |
Fong et al. | Applying a hybrid model of neural network and decision tree classifier for predicting university admission | |
Adak et al. | An elective course suggestion system developed in computer engineering department using fuzzy logic | |
Hu et al. | Research on XGboost academic forecasting and analysis modelling | |
Bhusal | Predicting Student's Performance Through Data Mining | |
Cannistrà et al. | Not the magic algorithm: modelling and early-predicting students dropout through machine learning and multilevel approach | |
OROZOVA et al. | Generalized net model for dynamic decision making and prognoses | |
CN117473041A (zh) | 一种基于认知策略的编程知识追踪方法 | |
Valsamidis et al. | An approach for LMS assessment | |
Sghir et al. | Using learning analytics to improve students' enrollments in higher education | |
Asril et al. | Prediction of students study period using K-Nearest Neighbor algorithm | |
Sethi et al. | Machine learning based performance evaluation system based on multi-categorial factors | |
JP7439914B2 (ja) | 予測装置、予測方法、及び、プログラム | |
Yildiz et al. | Statistical and clustering based rules extraction approaches for fuzzy model to estimate academic performance in distance education |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |
|
WD01 | Invention patent application deemed withdrawn after publication |