CN106779079A - 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 - Google Patents
一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 Download PDFInfo
- Publication number
- CN106779079A CN106779079A CN201611056283.7A CN201611056283A CN106779079A CN 106779079 A CN106779079 A CN 106779079A CN 201611056283 A CN201611056283 A CN 201611056283A CN 106779079 A CN106779079 A CN 106779079A
- Authority
- CN
- China
- Prior art keywords
- knowledge point
- test
- model
- training data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 239000002131 composite material Substances 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 19
- 230000000295 complement effect Effects 0.000 claims description 16
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 230000001149 cognitive effect Effects 0.000 claims 2
- 230000001537 neural effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 46
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000007418 data mining Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Educational Technology (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于多模型数据驱动的知识点掌握状态的预测系统及方法,包括:测试题目的生成和属性标注模块、训练数据采集模块、基于训练数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块。本发明可以解决对学习者知识掌握程度的预测,适用于一般在线学习平台和系统,也可以应用于实际教学评估和诊断中,为学习者提供个性化的教学服务,提高学习针对性和学习效率。
Description
技术领域
本发明涉及一种基于多模型数据驱动的知识点掌握状态的预测系统及方法,属于数据挖掘技术,特别是涉及教育领域的数据挖掘。
背景技术
数据挖据是一种基于大量数据进行信息提取和知识发现的方法,已经被广泛应用于互联网、工业制造、交通等各个领域。数据挖掘在教育领域的应用相对比较新颖,主要涉及概率统计、机器学习与自然语言等学科,主要的方法包括聚类、关联规则学习、相关性分析、回归性分析以及分类等,常用的模型包括贝叶斯模型、决策树、隐形马尔可夫模型等。复合预测模型主要基于以上所述的各类常用模型,在相同的训练数据集上进行分别建模,然后综合各个模型的输出,得到最终复合预测模型的预测结果。在教育领域,数据挖据的应用目前主要用来支持教育决策、对学生进行信息和课程的推荐等。
发明内容
本发明要解决的问题是:克服现有技术的不足,提供一种基于多模型数据驱动的知识点掌握状态的预测系统及方法,对学习者知识点掌握状态进行预测和估计,从而为学习者提供个性化的教学服务,提高学习针对性和学习效率。
本发明解决其问题所采用的方案是:一种基于多模型数据驱动的知识点掌握状态的预测系统,包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块,其中:
测试题目的生成和属性标注模块:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集模块:基于测试题目的生成和属性标注模块生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取模块:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;
多模型数据驱动的预测模型建立模块:标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的复合模型,预测出知识点A的掌握程度YA,所述复合模型是指不是基于单一分类模型,而是用多种分类模型进行并行预测,最后综合各个分类模型预测的结果,最终给出该知识点掌握程度的预测。
所述标注已知知识点掌握程度YA的多个等级包括卓越、优秀、良好、合格以及不合格。
所述多模型数据驱动的预测模型建立模块的实现如下:
步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度,生成训练数据,训练数据的输出为任一给定知识点A的掌握程度,模型的建立采用复合模型,也就是同时建立多个训练模型,包括单层或者多层结构神经网络模型(Artificial NeuralNetwork)、K-近邻模型(K-Nearest Neighbors)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型;
步骤(2)通过独立训练,得到m个不同的模型后,利用复合模型进行预测;所述复合模型的基本形式为:其中P(k,i)是第i个预测模型对该知识点第k级掌握程度的预测概率,Wi是第i个预测模型在复合模型中的权重;P(k)是复合模型最终对该知识点第k级掌握程度的预测概率;
步骤(3)对给定知识点A有K个等级的掌握程度,上述复合模型会给出K个预测的概率数值,也就是P(1),P(2),….,P(K),取概率数值最大的等级为所预测的该知识点的掌握程度。其中K一般大于等于5。
一种基于多模型数据驱动的知识点掌握状态的预测方法,包括测试题目的生成和属性标注步骤、训练数据采集步骤、基于训练数据的多维度特征提取步骤、多模型数据驱动的预测模型建立步骤,其中:
测试题目的生成和属性标注步骤:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集步骤:基于测试题目的生成和属性标注步骤生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取步骤:对训练数据采集步骤得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成测试数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;
多模型数据驱动的预测模型建立步骤:标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的复合模型,预测出知识点A的掌握程度YA,所述复合模型是指不是基于单一分类模型,而是用多种分类模型进行并行预测,最后综合各个分类模型预测的结果,最终给出该知识点掌握程度的预测。
本发明与现有方法相比的有益效果为:
(1)本发明可以解决对学习者知识掌握程度的预测,为学习者提供个性化的教学服务,提高了学习针对性和学习效率。
(2)本发明方法针对学习者的知识点掌握状态预测问题,提出了利用测试数据结合知识点结构进行多维特征提取,然后,建立多个预测模型进行并行多元分类,最终建立复合模型,给出知识点掌握程度的预测结果,预测准确,适用于一般在线学习平台和系统,也可以应用于实际教学评估和诊断中。
(3)本发明建立的复合模型,建立在各个常用的多元分类模型的基础上,综合各个训练算法的输出,从而有效避免了单一模型可能产生的偏差和缺陷,提高预测模型的可靠性与准确率。
附图说明
图1为本发明一种基于多模型数据驱动的知识点掌握状态的预测系统的结构图;
图2为本发明的测试题目的属性标注;
图3为本发明的已知知识点掌握状态的计算实现流程;
图4为本发明的神经网络预测模型的建立流程。
图5为本发明的预测模型的使用流程。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
如图1所示,本发明为一种基于多模型数据驱动的知识点掌握状态的预测系统,测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块。
如图2所示,本发明中对测试题目的属性标注模块具体实现如下:测试题目生成后,根据课程标准按照所属学科、所属年级、知识点名称、知识点之间的父子关系四个要素进行知识点梳理。根据具体测试题目的内容,确定该题目在树形结构中的节点位置,然后标记给测试题目。例如题目一被标记为BIK020103,即为生物学科(BIK),第一层级的第二主题知识点(02)下,第二层级的第一子知识点(01)下,第三层级的第三子知识点(03);同时,根据课程标准和专家经验,对所给测试题目所考察的能力水平进行分级,例如题目一的水平能力可以标记为合格、良好、优秀或者卓越。对于每个最底层知识点,此处为第三层知识点,生成的测试题目的数量需不少于最少题目要求。一般情况下,最少题目在5到10题,根据不同学科和主题进行确定。
测试题目生成及属性标注完成后,进行训练数据的采集,具体实现如下:组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群。例如,可以是同一年级所有的在籍学生;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试和收集;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据集;对于每个学科,训练数据的规模应保持在一定规模以上,例如300个学习者对于生物学科10个第三层知识点的独立测试结果。
基于所收集的训练数据,进行多维度特征提取,其具体实现如下:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G。
由于预测模型基于监督式学习算法,因此需要标注训练数据中已知知识点掌握程度YA。如图3所示,已知知识点掌握程度YA的计算具体实现如下:测试数据收集后,根据测试题目所标记的能力水平等级和已知知识点的分布情况,可以根据设计的判定规则计算已知知识点的掌握状态。例如,对于生物学科第一层级的第二主题知识点BIK02,如果其下辖的第二层级和第三层级的所有知识点均有测试数据,并且被标注有卓越和优秀的题目的得分率均在50%以上,则可以根据设定的判定规则判断该学习者在BIK02知识点的掌握程度为卓越。最终标注的知识点掌握程度可以分为多个等级,例如卓越、良好、合格、不合格等。
基于已经标注知识点掌握程度的训练数据,建立数据驱动的预测模型,其具体实现如下:对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,首先分别建立四种不同的经典预测模型,包括神经网络模型、随机森林模型以及逻辑回归模型,上述四种模型的输出(目标)都是给定需预测的知识点的掌握程度,输入是其余已知知识点的基本特征向量VN,VN-1,…,V1和学习者补充特征向量G。例如给定需知识点BIK02,预测模型的输出(目标)是该知识点的掌握程度Y,输入是除知识点BIK02外的其它已知知识点的基本特征向量和学习者补充特征向量。
四种模型训练的过程依据各自的经典算法进行,属于本领域公知技术,以下仅简要叙述各自原理:
单层神经网络模型,对于每一组特征向量和标注的知识点掌握程度,利用神经网络的反向传播算法自动更新一遍网络内的权值矩阵,其过程可以概括为两个阶段:第一阶段为激励传播,也就是将训练输入送入网络以获得激励相应,然后将激励相应同训练输入对应的目标输出求差,从而获得隐层和输出层的相应误差;第二阶段为权值更新阶段,将输入激励和相应误差相乘,从而获得权重的梯度,将该梯度乘上训练因子并且取反后加到原始权重上。经过足够的训练数据和训练回合后,得到所需神经网络预测模型。上述的基本过程如图4所示。
K-近邻模型的基本思想是如果一个样本在特征空间中的KN个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。其基本的计算过程是:设定参数KN后(一般选取小于20的整数),设立一个大小为KN的按距离由大到小的优先级队列,用于存储最近邻训练样本组;随机从训练样本集中选取KN个样本作为初始的最近邻样本组,分别计算要预测实例到这KN个初始样本的距离,将KN个初始样本的标号和距离存入优先级队列;遍历所有训练样本,计算当前训练样本与要预测实例的距离,将所得距离L与优先级队列中的最大距离Lmax进行比较。若L>=Lmax,则舍弃该训练样本,遍历下一个训练样本。若L<Lmax,删除优先级队列中最大距离的样本,将当前训练样本存入优先级队列。遍历完毕,计算优先级队列中KN个样本的多数类,并将其作为要预测实例的类别。
随机森林模型是一个包含多个决策树的分类器,其输出的类别是由所含树的输出的类别的众数而定。其中每棵树的基本建造过程是:用Y来表示训练样本的个数,Z表示特征数目;输入特征数目z,用于确定决策树上一个节点的决策结果,其中z应远小于Z。从Y个训练样本中以有放回抽样的方式,取样Y次,形成一个训练集(即bootstrap取样),并用未抽到的样本作预测,评估其误差;对于每一个节点,随机选择z个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这z个特征,计算其最佳的分裂方式;每棵树都会完整成长而不会剪枝。决策树的生成可以采用经典分类决策树的算法。
逻辑回归模型主要针对多元分类问题,其基本方法是:训练多个基本二元分类逻辑回归模型,每个模型均对应一种需要预测的类别,也即是模型可以给出该类别相应的预测概率以及非该类别的预测概率。对于一个新学习者的特征数据,用上述多个模型分别得到各个类别的预测概率,取概率值大的类别为本发明中逻辑回归模型的最终预测结果。基本二元分类逻辑回归模型可以采用经典的逻辑函数和梯度下降法进行构建。
神经网络的反向传播算法、K-近邻、随机森林和逻辑回归模型的训练算法是本领域公知技术,本申请对此不作限制。
经过训练,分别得到四种训练模型后,开始建立复合模型,从而最终预测知识点A的掌握程度YA。所述复合模型的基本思想是用多种分类模型进行并行预测,最后综合各个分类模型预测的结果,最终给出该知识点掌握程度的预测,其具体实现如下:
1)复合模型的输出为其中P(k)是复合模型对第k级掌握程度(例如卓越)的预测概率,P(k,i)是第i个预测模型对第k级掌握程度的预测概率,Wi是不同预测模型所占的权重值,m为单个预测模型的个数(此处为4)。
2)权值Wi可以根据单个预测模型的准确率的比例进行确定。例如,四个模型单独预测的准确率分别为A1,A2,A3和A4,则权值Wi可以用如下原则确定其具体数值:
3)单个预测模型准确率的计算一般利用K次交叉验证方法得到,其中K一般大于等于5。
所得到的预测模型,可以用来对新学习者的知识掌握状态进行预测,其具体实现如下:如图5所示,基于已经生成的测试题目,对于新学习者进行相应测试并收集和过滤数据。对新收集的数据进行如前所述的多维度特征提取,将提取的特征向量作为预测模型的输入。运行已经训练好的复合预测模型,模型输出新学习者的知识点掌握程度的预测结果。
本发明未详细阐述的部分属于本领域公知技术。
Claims (4)
1.一种基于多模型数据驱动的知识点掌握状态的预测系统,其特征在于:包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块,其中:
测试题目的生成和属性标注模块:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,即每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集模块:基于测试题目的生成和属性标注模块生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取模块:对训练数据采集模块得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成训练数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;
多模型数据驱动的预测模型建立模块:对于标注的已知知识点掌握程度YA,根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的复合模型,预测出知识点A的掌握程度YA,所述复合模型是指不是基于单一分类模型,而是用多种分类模型进行并行预测,最后综合各个分类模型预测的结果,最终给出该知识点掌握程度的预测。
2.根据权利要求1所述的一种基于多模型数据驱动的知识点掌握状态的预测系统,其特征在于:所述标注已知知识点掌握程度YA的多个等级包括卓越、优秀、良好、合格以及不合格。
3.根据权利要求1所述的一种基于多模型数据驱动的知识点掌握状态的预测系统,其特征在于:所述多模型数据驱动的预测模型建立模块实现如下:
步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度,生成训练数据,训练数据的输出为任一给定知识点A的掌握程度,模型的建立采用复合模型,也就是同时建立多个训练模型,包括单层或者多层结构神经网络模型(Artificial NeuralNetwork)、K近邻模型(K-Nearest Neighbors)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型;
步骤(2)通过独立训练,得到m个不同的模型后,利用复合模型进行预测;所述复合模型的基本形式为:其中P(k,i)是第i个预测模型对该知识点第k级掌握程度的预测概率,Wi是第i个预测模型在复合模型中的权重;P(k)是复合模型最终对该知识点第k级掌握程度的预测概率;
步骤(3)对给定知识点A有K个等级的掌握程度,上述复合模型会给出K个预测的概率数值,也就是P(1),P(2),….,P(K),取概率数值最大的等级为所预测的知识点的掌握程度。
4.一种基于多模型数据驱动的知识点掌握状态的预测方法,其特征在于包括:测试题目的生成和属性标注步骤、训练数据采集步骤、基于训练数据的多维度特征提取步骤、多模型数据驱动的预测模型建立步骤,其中:
测试题目的生成和属性标注步骤:根据课程标准按照所属学科及知识点之间的父子关系进行整理,对每个学科形成N层知识点结构;同时,根据学习者进行相应学科的认知活动能力和心理调节能力,将学科能力进行分级;根据所述的N层知识点结构和学科能力分级,生成所需测试题目;对于所述生成的所有测试题目,进行水平等级划分,将测试题目划分为多个等级;对于需测试题目的每个第N层知识点,也就是每个最底层知识点,生成的测试题目数量需满足最少题目要求;
训练数据采集步骤:基于测试题目的生成和属性标注步骤生成的测试题目,组织学习者进行测试,测试可以采用线上系统电子化测试或者线下试卷测试;学习者应涵盖同一年龄各层次水平的人群;测试过程应在独立且无干扰的条件下进行;训练数据可以分多次、不同时段进行收集,但是不可以在同一学习者上进行反复测试;同时,如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征,应该从训练数据集中移除,最终得到有效的训练数据;
基于训练数据的多维度特征提取步骤:对训练数据采集步骤得到的每位学习者的数据,首先进行基本特征的逐级特征提取,对测试所涉及的每个第N层知识点,分别计算得分率,所有得分率作为第N层知识点基本特征向量VN;对于每个第N-1层知识点,如果其下辖的所有第N层知识点均有得分率,则称为已知知识点,计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值;如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失,则该第N-1层知识点称为未知知识点;未知知识点的基本特征值为空;对所有第N-1层已知知识点,得到其基本特征向量VN-1;同理,能够得到各层已知知识点的基本特征向量VN-2,VN-3,…,V1;同时,将学习者的性别、年龄个人特征作为补充特征向量G,从而完成测试数据的多维度特征提取,多维度特征包括各层已知知识点的基本特征向量VN-2,VN-3,…,V1和补充特征向量G;标注训练数据中已知知识点掌握程度YA,标注根据各项得分率结合经验规则进行,标注的知识点掌握程度可以分为多个等级;
多模型数据驱动的预测模型建立步骤:根据各层已知知识点的基本特征向量VN-2,VN-3,…,V1及补充特征向量G,建立多元分类算法的复合模型,预测出知识点A的掌握程度YA,所述复合模型是指不是基于单一分类模型,而是用多种分类模型进行并行预测,最后综合各个分类模型预测的结果,最终给出该知识点掌握程度的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611056283.7A CN106779079A (zh) | 2016-11-23 | 2016-11-23 | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611056283.7A CN106779079A (zh) | 2016-11-23 | 2016-11-23 | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106779079A true CN106779079A (zh) | 2017-05-31 |
Family
ID=58910733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611056283.7A Pending CN106779079A (zh) | 2016-11-23 | 2016-11-23 | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779079A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
CN107862230A (zh) * | 2017-11-14 | 2018-03-30 | 安徽虚境科技有限公司 | 一种等级决定及录入方法 |
CN108805187A (zh) * | 2018-05-29 | 2018-11-13 | 北京佳格天地科技有限公司 | 天文光谱序列自动分类系统及方法 |
CN108921349A (zh) * | 2018-07-04 | 2018-11-30 | 北京希子教育科技有限公司 | 一种基于贝叶斯网络预测做题错误位置的方法 |
CN109886756A (zh) * | 2019-03-04 | 2019-06-14 | 深圳微品致远信息科技有限公司 | 基于集成模型的通讯用户升档预测概率识别方法及系统 |
CN110033402A (zh) * | 2019-04-12 | 2019-07-19 | 上海乂学教育科技有限公司 | 基于能力分级的思维数学学习方法及计算机学习系统 |
CN110309300A (zh) * | 2018-08-23 | 2019-10-08 | 北京慧经知行信息技术有限公司 | 一种识别理科试题知识点的方法 |
CN110599375A (zh) * | 2019-08-15 | 2019-12-20 | 深圳市莱法照明通信科技有限公司 | 一种用于个性化学习优化的方法、装置、系统和存储介质 |
WO2020007287A1 (zh) * | 2018-07-05 | 2020-01-09 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN111241243A (zh) * | 2020-01-13 | 2020-06-05 | 华中师范大学 | 面向知识测量的试题、知识、能力张量构建与标注方法 |
CN112232657A (zh) * | 2020-10-14 | 2021-01-15 | 高岩峰 | 一种多功能智能题库系统 |
CN112270614A (zh) * | 2020-09-29 | 2021-01-26 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN112446558A (zh) * | 2021-01-29 | 2021-03-05 | 北京世纪好未来教育科技有限公司 | 模型训练方法、学习结果获取方法、装置、设备及介质 |
CN112818196A (zh) * | 2019-11-18 | 2021-05-18 | 香港科技大学 | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 |
CN116227729A (zh) * | 2023-03-20 | 2023-06-06 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
-
2016
- 2016-11-23 CN CN201611056283.7A patent/CN106779079A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729378A (zh) * | 2017-07-13 | 2018-02-23 | 华中科技大学 | 一种数据标注方法 |
CN107862230A (zh) * | 2017-11-14 | 2018-03-30 | 安徽虚境科技有限公司 | 一种等级决定及录入方法 |
CN108805187A (zh) * | 2018-05-29 | 2018-11-13 | 北京佳格天地科技有限公司 | 天文光谱序列自动分类系统及方法 |
CN108921349A (zh) * | 2018-07-04 | 2018-11-30 | 北京希子教育科技有限公司 | 一种基于贝叶斯网络预测做题错误位置的方法 |
WO2020007287A1 (zh) * | 2018-07-05 | 2020-01-09 | 第四范式(北京)技术有限公司 | 执行机器学习过程的方法、装置、设备以及存储介质 |
CN110309300B (zh) * | 2018-08-23 | 2021-05-11 | 北京慧经知行信息技术有限公司 | 一种识别理科试题知识点的方法 |
CN110309300A (zh) * | 2018-08-23 | 2019-10-08 | 北京慧经知行信息技术有限公司 | 一种识别理科试题知识点的方法 |
CN109886756A (zh) * | 2019-03-04 | 2019-06-14 | 深圳微品致远信息科技有限公司 | 基于集成模型的通讯用户升档预测概率识别方法及系统 |
CN110033402A (zh) * | 2019-04-12 | 2019-07-19 | 上海乂学教育科技有限公司 | 基于能力分级的思维数学学习方法及计算机学习系统 |
CN110599375A (zh) * | 2019-08-15 | 2019-12-20 | 深圳市莱法照明通信科技有限公司 | 一种用于个性化学习优化的方法、装置、系统和存储介质 |
CN112818196A (zh) * | 2019-11-18 | 2021-05-18 | 香港科技大学 | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 |
CN112818196B (zh) * | 2019-11-18 | 2023-12-22 | 香港科技大学 | 基于电子学习平台的数据处理方法、设备、电子装置及存储介质 |
CN111241243A (zh) * | 2020-01-13 | 2020-06-05 | 华中师范大学 | 面向知识测量的试题、知识、能力张量构建与标注方法 |
CN112270614A (zh) * | 2020-09-29 | 2021-01-26 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN112270614B (zh) * | 2020-09-29 | 2024-05-10 | 广东工业大学 | 一种面向制造企业全系统优化设计的设计资源大数据建模方法 |
CN112232657A (zh) * | 2020-10-14 | 2021-01-15 | 高岩峰 | 一种多功能智能题库系统 |
CN112446558A (zh) * | 2021-01-29 | 2021-03-05 | 北京世纪好未来教育科技有限公司 | 模型训练方法、学习结果获取方法、装置、设备及介质 |
CN116227729A (zh) * | 2023-03-20 | 2023-06-06 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
CN116227729B (zh) * | 2023-03-20 | 2023-10-10 | 广州工程技术职业学院 | 基于机器学习的学习评价方法及装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779079A (zh) | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 | |
CN106779166A (zh) | 一种基于数据驱动的知识点掌握状态的预测系统及方法 | |
Hamsa et al. | Student academic performance prediction model using decision tree and fuzzy genetic algorithm | |
Osmanbegovic et al. | Data mining approach for predicting student performance | |
Mimis et al. | A framework for smart academic guidance using educational data mining | |
CN107180284A (zh) | 一种基于学习行为特征的spoc学生每周表现预测方法及装置 | |
CN106779087A (zh) | 一种通用机器学习数据分析平台 | |
CN107103384A (zh) | 一种基于三维知识网络的学习者学习轨迹量化方法 | |
CN114567815B (zh) | 一种基于预训练的慕课自适应学习系统构建方法和装置 | |
Fong et al. | Applying a hybrid model of neural network and decision tree classifier for predicting university admission | |
Siddiqui et al. | ANALYZING STUDENTS'ACADEMIC PERFORMANCE THROUGH EDUCATIONAL DATA MINING. | |
CN104656620A (zh) | 重型机床再制造综合评价系统 | |
Hu et al. | Research on XGboost academic forecasting and analysis modelling | |
CN113239211A (zh) | 一种基于课程学习的强化学习知识图谱推理方法 | |
Thuy et al. | Optimize the combination of categorical variable encoding and deep learning technique for the problem of prediction of vietnamese student academic performance | |
CN112256869B (zh) | 一种基于题意文本的同知识点试题分组系统和方法 | |
OROZOVA et al. | Generalized net model for dynamic decision making and prognoses | |
Yauri et al. | A Machine Learning Approach in Predicting Student’s Academic Performance Using Artificial Neural Network | |
Sghir et al. | Using learning analytics to improve students' enrollments in higher education | |
Zhao et al. | Hybrid fuzzy rule-based classification system for MOODLE LMS system | |
Xi | Modern Education: Advanced Prediction Techniques for Student Achievement Data. | |
Dhingra et al. | Educational data mining: a review to its future vision | |
Triayudi et al. | New Framework of Educational Data Mining to Predict Student Learning Performance | |
Mougérou | Knowledge diffusion, bridging institutions and the scientific labour market in the French innovation system | |
Razak et al. | Prediction of Secondary Students Performance: A Case Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |