CN106779166A

CN106779166A - 一种基于数据驱动的知识点掌握状态的预测系统及方法

Info

Publication number: CN106779166A
Application number: CN201611046483.4A
Authority: CN
Inventors: 余胜泉; 卢宇; 陈阳
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-31

Abstract

本发明涉及一种基于数据驱动的知识点掌握状态的预测系统及方法，包括测试题目的生成和属性标注模块、训练数据采集模块、基于训练数据的多维度特征提取模块、数据驱动的预测模型建立模块。本发明可以解决对学习者知识掌握程度的预测，适用于一般在线学习平台和系统，也可以应用于实际教学评估和诊断中，为学习者提供个性化的教学服务，提高学习针对性和学习效率。

Description

一种基于数据驱动的知识点掌握状态的预测系统及方法

技术领域

本发明涉及一种基于数据驱动的知识点掌握状态的预测系统及方法，属于数据挖掘技术，特别是涉及教育领域的数据挖掘。

背景技术

数据挖据是一种基于大量数据进行信息提取和知识发现的方法，已经被广泛应用于互联网、工业制造、交通等各个领域。数据挖掘在教育领域的应用相对比较新颖，主要涉及概率统计、机器学习与自然语言等学科，主要的方法包括聚类、关联规则学习、相关性分析、回归性分析以及分类等，常用的模型包括贝叶斯模型、决策树、隐形马尔可夫模型等。贝叶斯预测模型是运用贝叶斯统计进行的一种预测，需要掌握先验信息和总体分布信息进行建模和预测。决策树模型可以看作是对象属性和对象值之间的一种映射，树中的节点表示对象属性的判断条件，其分支是符合节点条件的对象，其叶子节点表示对象所属的预测结果。隐形马尔可夫模型基于隐含未知参数的马尔可夫过程，需要从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析。在教育领域，数据挖据的应用目前主要用来支持教育决策、对学生进行信息和课程内容的推荐等。

发明内容

本发明要解决的问题是：克服现有技术的不足，提供一种基于数据驱动的知识点掌握状态的预测系统及方法，对学习者知识点掌握状态进行预测和估计，从而为学习者提供个性化的教学服务，提高学习针对性和学习效率。

本发明解决其问题所采用的方案是：一种基于数据驱动的知识点掌握状态的预测系统，包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块，其中：

测试题目的生成和属性标注模块：根据课程标准按照所属学科及知识点之间的父子关系进行整理，对每个学科形成N层知识点结构；同时，根据学习者进行相应学科的认知活动能力和心理调节能力，将学科能力进行分级；根据所述的N层知识点结构和学科能力分级，生成所需测试题目；对于所述生成的所有测试题目，进行水平等级划分，将测试题目划分为多个等级；对于需测试题目的每个第N层知识点，也就是每个最底层知识点，生成的测试题目数量需满足最少题目要求；

训练数据采集模块：基于测试题目的生成和属性标注模块生成的测试题目，组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征，应该从训练数据集中移除，最终得到有效的训练数据；

基于训练数据的多维度特征提取模块：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；

数据驱动的预测模型建立模块：标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的单一预测模型，预测出知识点A的掌握程度Y_A。所述单一预测模型是指基于单个预测模型，包括人工神经网络、随机森林或逻辑回归的经典模型。先对各个预测模型进行准确度评估，根据评估结果，最终决定其中一种模型作为预测模型。

所述标注已知知识点掌握程度Y_A的多个等级包括卓越、优秀、良好、合格以及不合格。

所述数据驱动的预测模型建立模块的实现如下：

步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度，生成训练数据，训练数据的输出为任一给定知识点A的掌握程度。分别利用多个不同的经典模型进行训练，包括单层或者多层结构神经网络模型(Artificial Neural Network)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型，其中对于单层神经网络模型，训练算法采用反向传播算法(Backpropagation)；

步骤(2)通过独立训练得到m个不同的模型后，利用K次交叉验证方法，计算所得模型的准确率A₁,A₂,…A_m,取准确率最高的模型为最终预测模型Ω。最终预测模型Ω的输出为{P(j)|j＝1,2,3……}，其中P(j)是最终预测模型对知识点第j级掌握程度的预测概率。最终，取P(j)中预测概率数值最大者所对应的等级为该知识点的预测掌握程度。

一种基于数据驱动的知识点掌握状态的预测方法，包括测试题目的生成和属性标注模块、训练数据采集步骤、基于测试数据的多维度特征提取步骤、数据驱动的预测模型建立步骤，其中：

测试题目的生成和属性标注步骤：根据课程标准按照所属学科及知识点之间的父子关系进行整理，对每个学科形成N层知识点结构；同时，根据学习者进行相应学科的认知活动能力和心理调节能力，将学科能力进行分级；根据所述的N层知识点结构和学科能力分级，生成所需测试题目；对于所述生成的所有测试题目，进行水平等级划分，将测试题目划分为多个等级；对于需测试题目的每个第N层知识点，也就是每个最底层知识点，生成的测试题目数量需满足最少题目要求；

训练数据采集步骤：基于测试题目的生成和属性标注步骤生成的测试题目，组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案特征，应该从训练数据集中移除，最终得到有效的训练数据；

基于训练数据的多维度特征提取步骤：对训练数据采集步骤得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成测试数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；

数据驱动的预测模型建立步骤：标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的单一预测模型，预测出知识点A的掌握程度Y_A。所述单一预测模型是指基于单个预测模型，例如人工神经网络、随机森林或逻辑回归的经典模型。先对各个预测模型进行准确度评估，根据评估结果，最终决定其中一种模型作为预测模型。

本发明与现有方法相比的有益效果为：

(1)本发明可以解决对学习者知识掌握程度的预测，为学习者提供个性化的教学服务，提高了学习针对性和学习效率。

(2)本发明方法针对学习者的知识点掌握状态预测问题，提出了利用测试数据结合知识点结构进行多维特征提取，然后，建立多个预测模型进行并行多元分类，最终建立预测模型，给出知识点掌握程度的预测结果，预测准确，适用于一般在线学习平台和系统，也可以应用于实际教学评估和诊断中。

附图说明

图1为本发明一种基于数据驱动的知识点掌握状态的预测系统的结构图；

图2为本发明的测试题目的属性标注；

图3为本发明的已知知识点掌握状态的计算实现流程；

图4为本发明的神经网络预测模型的建立流程。

图5为本发明的预测模型的使用流程。

具体实施方式

下面结合附图及具体实施方式详细介绍本发明。

如图1所示，本发明为一种基于数据驱动的知识点掌握状态的预测系统，包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块。

如图2所示，本发明中对测试题目的属性标注模块具体实现如下：测试题目生成后，根据课程标准按照所属学科、所属年级、知识点名称、知识点之间的父子关系四个要素进行知识点梳理。根据具体测试题目的内容，确定该题目在树形结构中的节点位置，然后标记给测试题目。例如题目一被标记为BIK020103，即为生物学科(BIK)，第一层级的第二主题知识点(02)下，第二层级的第一子知识点(01)下，第三层级的第三子知识点(03)；同时，根据课程标准和专家经验，系统对所给测试题目所考察的能力水平进行分级，例如题目一的水平能力可以标记为合格、良好、优秀或者卓越。对于每个最底层知识点，此处为第三层知识点，生成的测试题目的数量需不少于最少题目要求。一般情况下，最少题目在5到10题，根据不同学科和主题进行确定。

测试题目生成及属性标注完成后，进行训练数据的采集，具体实现如下：组织学习者进行测试，测试可以采用线上系统电子化测试或者线下试卷测试；学习者应涵盖同一年龄各层次水平的人群。例如，可以是同一年级所有的在籍学生；测试过程应在独立且无干扰的条件下进行；训练数据可以分多次、不同时段进行收集，但是不可以在同一学习者上进行反复测试和收集；同时，如果单一学习者的训练数据不完整或者有明显抄袭、重复答案等特征，应该从训练数据集中移除，最终得到有效的训练数据集；对于每个学科，训练数据的规模应保持在一定规模以上，例如300个学习者对于生物学科10个第三层知识点的独立测试结果。

基于所收集的训练数据，进行多维度特征提取，其具体实现如下：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G。

由于预测模型基于监督式学习算法，因此需要标注训练数据中已知知识点掌握程度Y_A。如图3所示，已知知识点掌握程度Y_A的计算具体实现如下：测试数据收集后，根据测试题目所标记的能力水平等级和已知知识点的分布情况，可以根据判定规则计算已知知识点的掌握状态。例如，对于生物学科第一层级的第二主题知识点BIK02,如果其下辖的第二层级和第三层级的所有知识点均有测试数据，并且被标注有卓越和优秀的题目的得分率均在50％以上，则可以根据设定的判定规则判断该学习者在BIK02知识点的掌握程度为卓越。最终标注的知识点掌握程度可以分为多个等级，例如卓越、良好、合格、不合格等。

基于已经标注知识点掌握程度的训练数据，建立数据驱动的预测模型，其具体实现如下：对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，首先分别建立三种不同的经典预测模型，包括神经网络模型、随机森林模型以及逻辑回归模型，上述三种模型的输出(目标)都是给定需预测的知识点的掌握程度，输入是其余已知知识点的基本特征向量V_N，V_N-1,…,V₁和学习者补充特征向量G。例如给定需知识点BIK02，预测模型的输出(目标)是该知识点的掌握程度Y，输入是除知识点BIK02外的其它已知知识点的基本特征向量和学习者补充特征向量。

三种模型训练的过程依据各自的经典算法进行，属于本领域公知技术，以下仅简要叙述各自原理：

单层神经网络模型，对于每一组特征向量和标注的知识点掌握程度，利用神经网络的反向传播算法自动更新一遍网络内的权值矩阵，其过程可以概括为两个阶段：第一阶段为激励传播，也就是将训练输入送入网络以获得激励相应，然后将激励相应同训练输入对应的目标输出求差，从而获得隐层和输出层的相应误差；第二阶段为权值更新阶段，将输入激励和相应误差相乘，从而获得权重的梯度，将该梯度乘上训练因子并且取反后加到原始权重上。经过足够的训练数据和训练回合后，得到所需神经网络预测模型。上述的基本过程如图4所示。

随机森林模型是一个包含多个决策树的分类器，其输出的类别是由所含树的输出的类别的众数而定。其中每棵树的建造过程是：用Y来表示训练样本的个数，Z表示特征数目；输入特征数目z，用于确定决策树上一个节点的决策结果,其中z应远小于Z。从Y个训练样本中以有放回抽样的方式，取样Y次，形成一个训练集(即bootstrap取样)，并用未抽到的样本作预测，评估其误差；对于每一个节点，随机选择z个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这z个特征，计算其最佳的分裂方式；每棵树都会完整成长而不会剪枝。决策树的生成可以采用任一经典分类决策树的算法。

逻辑回归模型主要针对多元分类问题，其基本方法是：训练多个基本二元分类逻辑回归模型，每个模型均对应一种需要预测的类别，也即是模型可以给出该类别相应的预测概率以及非该类别的预测概率。对于一个新学习者的特征数据，用上述多个模型分别得到各个类别的预测概率，取概率值大的类别为本发明中逻辑回归模型的最终预测结果。基本二元分类逻辑回归模型可以采用经典的逻辑函数和梯度下降法进行构建。

神经网络的反向传播算法、随机森林和逻辑回归模型的训练算法是本领域公知技术，本申请对此不作限制。

经过训练，分别得到三种训练模型后，开始进行模型评估，从而确定最终的单一预测模型，其具体实现如下：

1)利用K次交叉验证方法(其中K一般大于等于5)，得到三种模型的准确率分别为A₁,A₂以及A₃。取A₁,A₂及A₃中数值最高者所对应的模型Ω为最终采用的预测模型。

2)对给定知识点A有5个等级的掌握程度(例如卓越、优秀、良好、合格以及不合格)，预测模型Ω的输出为{P(j)|j＝1,2,3,4,5}，其中P(j)是最终预测模型对该知识点第j个等级掌握程度的预测概率。

3)取P(j)中概率数值最大者所对应的等级，作为该知识点最终预测的掌握程度。

所得到的预测模型，可以用来对新学习者的知识掌握状态进行预测，其具体实现如下：如图5所示，基于已经生成的测试题目，对于新学习者进行相应测试并收集和过滤数据。对新收集的数据进行如前所述的多维度特征提取，将提取的特征向量作为预测模型的输入。运行已经训练好的预测模型，可以得到新学习者的知识点掌握程度的预测结果。

本发明未详细阐述的部分属于本领域公知技术。

Claims

1.一种基于数据驱动的知识点掌握状态的预测系统，其特征在于：包括测试题目的生成和属性标注模块、训练数据采集模块、基于测试数据的多维度特征提取模块、数据驱动的预测模型建立模块，其中：

基于训练数据的多维度特征提取模块：对训练数据采集模块得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成训练数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；

数据驱动的预测模型建立模块：对于标注的已知知识点掌握程度Y_A，根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的单一预测模型，预测出知识点A的掌握程度Y_A；所述单一预测模型是指基于单个预测模型，包括人工神经网络、随机森林或逻辑回归的经典模型，先对所述各个预测模型进行准确度评估，根据评估结果，最终决定其中一种模型作为预测模型。

2.根据权利要求1所述的一种基于数据驱动的知识点掌握状态的预测系统，其特征在于：所述标注已知知识点掌握程度Y_A的多个等级包括卓越、优秀、良好、合格以及不合格。

3.根据权利要求1所述的一种基于数据驱动的知识点掌握状态的预测系统，其特征在于：所述数据驱动的预测模型建立模块实现如下：

步骤(1)基于所述的测试数据的多维度特征和训练所用的知识点掌握程度，生成训练数据，训练数据的输出为任一给定知识点A的掌握程度；分别利用多个不同的经典模型进行训练，包括单层或者多层结构人工神经网络模型(Artificial Neural Network)、随机森林(Random Forest)模型以及逻辑回归(Logistic Regression)模型，其中对于单层神经网络模型，训练算法采用反向传播算法(Backpropagation)；

步骤(2)通过独立训练得到m个不同的模型后，利用K次交叉验证方法，计算所得模型的准确率A₁,A₂,…A_m,取准确率最高的模型为最终预测模型Ω；最终预测模型Ω的输出为{P(j)|j＝1,2,3……}，其中P(j)是最终预测模型对知识点第j级掌握程度的预测概率，最后取P(j)中预测概率数值最大者所对应的等级为该知识点的预测掌握程度。

4.一种基于数据驱动的知识点掌握状态的预测方法，其特征在于：包括测试题目的生成和属性标注步骤、训练数据采集步骤、基于测试数据的多维度特征提取步骤、数据驱动的预测模型建立步骤，其中：

基于训练数据的多维度特征提取步骤：对训练数据采集步骤得到的每位学习者的数据，首先进行基本特征的逐级特征提取，对测试所涉及的每个第N层知识点，分别计算得分率，所有得分率作为第N层知识点基本特征向量V_N；对于每个第N-1层知识点，如果其下辖的所有第N层知识点均有得分率，则称为已知知识点，计算已知知识点所下辖的所有知识点的平均得分率作为该N-1层知识点的基本特征值；如果该N-1层知识点下辖知识点的得分率部分缺失或者全部缺失，则该第N-1层知识点称为未知知识点；未知知识点的基本特征值为空；对所有第N-1层已知知识点，得到其基本特征向量V_N-1；同理，能够得到各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁；同时，将学习者的性别、年龄个人特征作为补充特征向量G，从而完成测试数据的多维度特征提取，多维度特征包括各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁和补充特征向量G；标注训练数据中已知知识点掌握程度Y_A，标注根据各项得分率结合经验规则进行，标注的知识点掌握程度可以分为多个等级；

数据驱动的预测模型建立步骤：根据各层已知知识点的基本特征向量V_N-2,V_N-3,…,V₁及补充特征向量G，建立多元分类算法的单一预测模型，预测出知识点A的掌握程度Y_A。所述单一预测模型是指基于单个预测模型，包括人工神经网络、随机森林或逻辑回归的经典模型；先对各个预测模型进行准确度评估，根据评估结果，最终决定其中一种模型作为预测模型。