CN106779079A

CN106779079A - 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法

Info

Publication number: CN106779079A
Application number: CN201611056283.7A
Authority: CN
Inventors: 余胜泉; 卢宇; 陈阳
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-31

Abstract

本发明涉及一种基于多模型数据驱动的知识点掌握状态的预测系统及方法，包括：测试题目的生成和属性标注模块、训练数据采集模块、基于训练数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块。本发明可以解决对学习者知识掌握程度的预测，适用于一般在线学习平台和系统，也可以应用于实际教学评估和诊断中，为学习者提供个性化的教学服务，提高学习针对性和学习效率。

Description

一种基于多模型数据驱动的知识点掌握状态的预测系统及方法

技术领域

本发明涉及一种基于多模型数据驱动的知识点掌握状态的预测系统及方法，属于数据挖掘技术，特别是涉及教育领域的数据挖掘。

背景技术

数据挖据是一种基于大量数据进行信息提取和知识发现的方法，已经被广泛应用于互联网、工业制造、交通等各个领域。数据挖掘在教育领域的应用相对比较新颖，主要涉及概率统计、机器学习与自然语言等学科，主要的方法包括聚类、关联规则学习、相关性分析、回归性分析以及分类等，常用的模型包括贝叶斯模型、决策树、隐形马尔可夫模型等。复合预测模型主要基于以上所述的各类常用模型，在相同的训练数据集上进行分别建模，然后综合各个模型的输出，得到最终复合预测模型的预测结果。在教育领域，数据挖据的应用目前主要用来支持教育决策、对学生进行信息和课程的推荐等。

发明内容

本发明要解决的问题是：克服现有技术的不足，提供一种基于多模型数据驱动的知识点掌握状态的预测系统及方法，对学习者知识点掌握状态进行预测和估计，从而为学习者提供个性化的教学服务，提高学习针对性和学习效率。

本发明解决其问题所采用的方案是：一种基于多模型数据驱动的知识点掌握状态的预测系统，包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块，其中：

测试题目的生成和属性标注模块：根据课程标准按照所属学科及知识点之间的父子关系进行整理，对每个学科形成N层知识点结构；同时，根据学习者进行相应学科的认知活动能力和心理调节能力，将学科能力进行分级；根据所述的N层知识点结构和学科能力分级，生成所需测试题目；对于所述生成的所有测试题目，进行水平等级划分，将测试题目划分为多个等级；对于需测试题目的每个第N层知识点，也就是每个最底层知识点，生成的测试题目数量需满足最少题目要求；

训练数据采集模块：基于测试题目的生成和属性标注模块生成的测试题目，组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征，应该从训练数据集中移除，最终得到有效的训练数据；

基于训练数据的多维度特征提取模块：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；

多模型数据驱动的预测模型建立模块：标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的复合模型，预测出知识点A的掌握程度Y_A，所述复合模型是指不是基于单一分类模型，而是用多种分类模型进行并行预测，最后综合各个分类模型预测的结果，最终给出该知识点掌握程度的预测。

所述标注已知知识点掌握程度Y_A的多个等级包括卓越、优秀、良好、合格以及不合格。

所述多模型数据驱动的预测模型建立模块的实现如下：

步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度，生成训练数据，训练数据的输出为任一给定知识点A的掌握程度，模型的建立采用复合模型，也就是同时建立多个训练模型，包括单层或者多层结构神经网络模型(Artificial NeuralNetwork)、K-近邻模型(K-Nearest Neighbors)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型；

步骤(2)通过独立训练，得到m个不同的模型后，利用复合模型进行预测；所述复合模型的基本形式为：其中P(k,i)是第i个预测模型对该知识点第k级掌握程度的预测概率，W_i是第i个预测模型在复合模型中的权重；P(k)是复合模型最终对该知识点第k级掌握程度的预测概率；

步骤(3)对给定知识点A有K个等级的掌握程度，上述复合模型会给出K个预测的概率数值，也就是P(1),P(2),….,P(K),取概率数值最大的等级为所预测的该知识点的掌握程度。其中K一般大于等于5。

一种基于多模型数据驱动的知识点掌握状态的预测方法，包括测试题目的生成和属性标注步骤、训练数据采集步骤、基于训练数据的多维度特征提取步骤、多模型数据驱动的预测模型建立步骤，其中：

测试题目的生成和属性标注步骤：根据课程标准按照所属学科及知识点之间的父子关系进行整理，对每个学科形成N层知识点结构；同时，根据学习者进行相应学科的认知活动能力和心理调节能力，将学科能力进行分级；根据所述的N层知识点结构和学科能力分级，生成所需测试题目；对于所述生成的所有测试题目，进行水平等级划分，将测试题目划分为多个等级；对于需测试题目的每个第N层知识点，也就是每个最底层知识点，生成的测试题目数量需满足最少题目要求；

训练数据采集步骤：基于测试题目的生成和属性标注步骤生成的测试题目，组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征，应该从训练数据集中移除，最终得到有效的训练数据；

基于训练数据的多维度特征提取步骤：对训练数据采集步骤得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成测试数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；

多模型数据驱动的预测模型建立步骤：标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的复合模型，预测出知识点A的掌握程度Y_A，所述复合模型是指不是基于单一分类模型，而是用多种分类模型进行并行预测，最后综合各个分类模型预测的结果，最终给出该知识点掌握程度的预测。

本发明与现有方法相比的有益效果为：

(1)本发明可以解决对学习者知识掌握程度的预测，为学习者提供个性化的教学服务，提高了学习针对性和学习效率。

(2)本发明方法针对学习者的知识点掌握状态预测问题，提出了利用测试数据结合知识点结构进行多维特征提取，然后，建立多个预测模型进行并行多元分类，最终建立复合模型，给出知识点掌握程度的预测结果，预测准确，适用于一般在线学习平台和系统，也可以应用于实际教学评估和诊断中。

(3)本发明建立的复合模型，建立在各个常用的多元分类模型的基础上，综合各个训练算法的输出，从而有效避免了单一模型可能产生的偏差和缺陷，提高预测模型的可靠性与准确率。

附图说明

图1为本发明一种基于多模型数据驱动的知识点掌握状态的预测系统的结构图；

图2为本发明的测试题目的属性标注；

图3为本发明的已知知识点掌握状态的计算实现流程；

图4为本发明的神经网络预测模型的建立流程。

图5为本发明的预测模型的使用流程。

具体实施方式

下面结合附图及具体实施方式详细介绍本发明。

如图1所示，本发明为一种基于多模型数据驱动的知识点掌握状态的预测系统，测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块。

如图2所示，本发明中对测试题目的属性标注模块具体实现如下：测试题目生成后，根据课程标准按照所属学科、所属年级、知识点名称、知识点之间的父子关系四个要素进行知识点梳理。根据具体测试题目的内容，确定该题目在树形结构中的节点位置，然后标记给测试题目。例如题目一被标记为BIK020103，即为生物学科(BIK)，第一层级的第二主题知识点(02)下，第二层级的第一子知识点(01)下，第三层级的第三子知识点(03)；同时，根据课程标准和专家经验，对所给测试题目所考察的能力水平进行分级，例如题目一的水平能力可以标记为合格、良好、优秀或者卓越。对于每个最底层知识点，此处为第三层知识点，生成的测试题目的数量需不少于最少题目要求。一般情况下，最少题目在5到10题，根据不同学科和主题进行确定。

测试题目生成及属性标注完成后，进行训练数据的采集，具体实现如下：组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群。例如，可以是同一年级所有的在籍学生；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试和收集；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征，应该从训练数据集中移除，最终得到有效的训练数据集；对于每个学科，训练数据的规模应保持在一定规模以上，例如300个学习者对于生物学科10个第三层知识点的独立测试结果。

基于所收集的训练数据，进行多维度特征提取，其具体实现如下：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G。

由于预测模型基于监督式学习算法，因此需要标注训练数据中已知知识点掌握程度Y_A。如图3所示，已知知识点掌握程度Y_A的计算具体实现如下：测试数据收集后，根据测试题目所标记的能力水平等级和已知知识点的分布情况，可以根据设计的判定规则计算已知知识点的掌握状态。例如，对于生物学科第一层级的第二主题知识点BIK02,如果其下辖的第二层级和第三层级的所有知识点均有测试数据，并且被标注有卓越和优秀的题目的得分率均在50％以上，则可以根据设定的判定规则判断该学习者在BIK02知识点的掌握程度为卓越。最终标注的知识点掌握程度可以分为多个等级，例如卓越、良好、合格、不合格等。

基于已经标注知识点掌握程度的训练数据，建立数据驱动的预测模型，其具体实现如下：对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，首先分别建立四种不同的经典预测模型，包括神经网络模型、随机森林模型以及逻辑回归模型，上述四种模型的输出(目标)都是给定需预测的知识点的掌握程度，输入是其余已知知识点的基本特征向量V_N，V_N-1,…,V₁和学习者补充特征向量G。例如给定需知识点BIK02，预测模型的输出(目标)是该知识点的掌握程度Y，输入是除知识点BIK02外的其它已知知识点的基本特征向量和学习者补充特征向量。

四种模型训练的过程依据各自的经典算法进行，属于本领域公知技术，以下仅简要叙述各自原理：

单层神经网络模型，对于每一组特征向量和标注的知识点掌握程度，利用神经网络的反向传播算法自动更新一遍网络内的权值矩阵，其过程可以概括为两个阶段：第一阶段为激励传播，也就是将训练输入送入网络以获得激励相应，然后将激励相应同训练输入对应的目标输出求差，从而获得隐层和输出层的相应误差；第二阶段为权值更新阶段，将输入激励和相应误差相乘，从而获得权重的梯度，将该梯度乘上训练因子并且取反后加到原始权重上。经过足够的训练数据和训练回合后，得到所需神经网络预测模型。上述的基本过程如图4所示。

K-近邻模型的基本思想是如果一个样本在特征空间中的K_N个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。其基本的计算过程是：设定参数K_N后(一般选取小于20的整数)，设立一个大小为K_N的按距离由大到小的优先级队列，用于存储最近邻训练样本组；随机从训练样本集中选取K_N个样本作为初始的最近邻样本组，分别计算要预测实例到这K_N个初始样本的距离，将K_N个初始样本的标号和距离存入优先级队列；遍历所有训练样本，计算当前训练样本与要预测实例的距离，将所得距离L与优先级队列中的最大距离Lmax进行比较。若L>＝Lmax，则舍弃该训练样本，遍历下一个训练样本。若L<Lmax，删除优先级队列中最大距离的样本，将当前训练样本存入优先级队列。遍历完毕，计算优先级队列中K_N个样本的多数类，并将其作为要预测实例的类别。

随机森林模型是一个包含多个决策树的分类器，其输出的类别是由所含树的输出的类别的众数而定。其中每棵树的基本建造过程是：用Y来表示训练样本的个数，Z表示特征数目；输入特征数目z，用于确定决策树上一个节点的决策结果,其中z应远小于Z。从Y个训练样本中以有放回抽样的方式，取样Y次，形成一个训练集(即bootstrap取样)，并用未抽到的样本作预测，评估其误差；对于每一个节点，随机选择z个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这z个特征，计算其最佳的分裂方式；每棵树都会完整成长而不会剪枝。决策树的生成可以采用经典分类决策树的算法。

逻辑回归模型主要针对多元分类问题，其基本方法是：训练多个基本二元分类逻辑回归模型，每个模型均对应一种需要预测的类别，也即是模型可以给出该类别相应的预测概率以及非该类别的预测概率。对于一个新学习者的特征数据，用上述多个模型分别得到各个类别的预测概率，取概率值大的类别为本发明中逻辑回归模型的最终预测结果。基本二元分类逻辑回归模型可以采用经典的逻辑函数和梯度下降法进行构建。

神经网络的反向传播算法、K-近邻、随机森林和逻辑回归模型的训练算法是本领域公知技术，本申请对此不作限制。

经过训练，分别得到四种训练模型后，开始建立复合模型，从而最终预测知识点A的掌握程度Y_A。所述复合模型的基本思想是用多种分类模型进行并行预测，最后综合各个分类模型预测的结果，最终给出该知识点掌握程度的预测，其具体实现如下：

1)复合模型的输出为其中P(k)是复合模型对第k级掌握程度(例如卓越)的预测概率，P(k,i)是第i个预测模型对第k级掌握程度的预测概率，W_i是不同预测模型所占的权重值,m为单个预测模型的个数(此处为4)。

2)权值W_i可以根据单个预测模型的准确率的比例进行确定。例如，四个模型单独预测的准确率分别为A₁,A₂,A₃和A₄，则权值W_i可以用如下原则确定其具体数值：

3)单个预测模型准确率的计算一般利用K次交叉验证方法得到，其中K一般大于等于5。

所得到的预测模型，可以用来对新学习者的知识掌握状态进行预测，其具体实现如下：如图5所示，基于已经生成的测试题目，对于新学习者进行相应测试并收集和过滤数据。对新收集的数据进行如前所述的多维度特征提取，将提取的特征向量作为预测模型的输入。运行已经训练好的复合预测模型，模型输出新学习者的知识点掌握程度的预测结果。

本发明未详细阐述的部分属于本领域公知技术。

Claims

1.一种基于多模型数据驱动的知识点掌握状态的预测系统，其特征在于：包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、多模型数据驱动的预测模型建立模块，其中：

测试题目的生成和属性标注模块：根据课程标准按照所属学科及知识点之间的父子关系进行整理，对每个学科形成N层知识点结构；同时，根据学习者进行相应学科的认知活动能力和心理调节能力，将学科能力进行分级；根据所述的N层知识点结构和学科能力分级，生成所需测试题目；对于所述生成的所有测试题目，进行水平等级划分，将测试题目划分为多个等级；对于需测试题目的每个第N层知识点，即每个最底层知识点，生成的测试题目数量需满足最少题目要求；

基于训练数据的多维度特征提取模块：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；

多模型数据驱动的预测模型建立模块：对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的复合模型，预测出知识点A的掌握程度Y_A，所述复合模型是指不是基于单一分类模型，而是用多种分类模型进行并行预测，最后综合各个分类模型预测的结果，最终给出该知识点掌握程度的预测。

2.根据权利要求1所述的一种基于多模型数据驱动的知识点掌握状态的预测系统，其特征在于：所述标注已知知识点掌握程度Y_A的多个等级包括卓越、优秀、良好、合格以及不合格。

3.根据权利要求1所述的一种基于多模型数据驱动的知识点掌握状态的预测系统，其特征在于：所述多模型数据驱动的预测模型建立模块实现如下：

步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度，生成训练数据，训练数据的输出为任一给定知识点A的掌握程度，模型的建立采用复合模型，也就是同时建立多个训练模型，包括单层或者多层结构神经网络模型(Artificial NeuralNetwork)、K近邻模型(K-Nearest Neighbors)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型；

步骤(3)对给定知识点A有K个等级的掌握程度，上述复合模型会给出K个预测的概率数值，也就是P(1),P(2),….,P(K),取概率数值最大的等级为所预测的知识点的掌握程度。

4.一种基于多模型数据驱动的知识点掌握状态的预测方法，其特征在于包括：测试题目的生成和属性标注步骤、训练数据采集步骤、基于训练数据的多维度特征提取步骤、多模型数据驱动的预测模型建立步骤，其中：

基于训练数据的多维度特征提取步骤：对训练数据采集步骤得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成测试数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；

多模型数据驱动的预测模型建立步骤：根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的复合模型，预测出知识点A的掌握程度Y_A，所述复合模型是指不是基于单一分类模型，而是用多种分类模型进行并行预测，最后综合各个分类模型预测的结果，最终给出该知识点掌握程度的预测。