CN106373057A

CN106373057A - 一种面向网络教育的成绩不良学习者识别方法

Info

Publication number: CN106373057A
Application number: CN201610864980.9A
Authority: CN
Inventors: 陈妍; 田锋; 朱海萍; 刘敏; 郑庆华; 姬曙光
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-02-01
Anticipated expiration: 2036-09-29
Also published as: CN106373057B

Abstract

本发明公开了一种面向网络教育的成绩不良学习者识别方法：根据学习者个体特质数据以及在线行为日志数据，抽取出与成绩不良学习者识别相关的个体特质特征和在线行为特征。针对学习者在线行为特征所具有的特点，提出基于时间窗口划分的特征约束策略和基于学习时长划分的特征约束策略；基于特征约束策略，选取随机森林方法通过十折交叉验证进行模型训练，建立了学期过程中不同阶段成绩不良学习者识别模型。本发明解决了面向网络教育学习者的学习特征抽取、学习过程中的阶段性学习效果预测问题，为及时发现成绩不良学习者并进行有针对性的指导提供了支持。

Description

一种面向网络教育的成绩不良学习者识别方法

技术领域

本发明涉及一种面向网络教育的成绩不良学习者识别方法，特别涉及一种可在学习者的不同学习阶段，对成绩不良学习者进行识别的方法。

背景技术

网络远程教育的学习者需要通过每门课程的考试才能获得学历，但是远程教育存在教学分离、距离远、监控难的特点，目前教师只能在学习者期末考试成绩不及格时才能发现问题，而此时后果已经难以弥补。因此有必要对学习者的学习过程进行监督，及时发现潜在的成绩不良学习者，并提供有针对性的帮助和辅导，这是保障远程教育教学质量的关键。

现有研究中较多采用学习者单一维度的特征或学习者的静态特征进行综合分析之后进行预测，较少考虑学习过程的动态性，缺乏在学习者课程学习的学期过程中进行阶段性学习效果预测的研究，即缺乏成绩不良学习者的阶段性识别方法。

发明内容

本发明的目的在于提供一种面向网络教育的成绩不良学习者识别方法，该方法可以随着学期时间的推进预测某门课程可能成绩不良的学习者。

为达到以上目的，本发明采用了以下技术方案：

1)特征抽取

根据网络教育学习者个体特质数据以及在线行为日志数据，通过分析确定与成绩不良学习者识别相关的个体特质特征和在线行为特征；

2)成绩不良学习者识别

将成绩不良学习者的识别抽象为对于网络教育学习者中成绩不良学习者和成绩合格学习者的分类问题，采用分类器对所述分类问题进行分类模型训练，训练采用的样本集由学习同一课程的不同网络教育学习者的特征样本以及课程成绩组成，每个网络教育学习者的特征样本包括课程特征、与成绩不良学习者识别相关的个体特质特征以及与成绩不良学习者识别相关的在线行为特征，其中，所述在线行为特征由给定的特征约束策略控制采样的时间范围及深度，通过所述训练得到对应时间范围下的成绩不良学习者识别模型。

所述分类模型表示为：

假设研究样本的大小为n，每个样本具有p个特征，则用X表示所有样本的特征矩阵：

X＝{X₁,...,X_p}∈R^n×p

用x_i表示第i个样本的特征向量：

x_{i} = (x_{i}^{(1)}, ..., x_{i}^{(j)}, ..., x_{i}^{(p)})

其中，表示第i个样本的第j个特征，j＝1,2,...,p；

预测值为：

Y＝f(X)∈Rⁿ,y∈{0,1}

其中，y＝1表示成绩不良学习者；y＝0表示成绩合格学习者。

所述个体特质特征和在线行为特征分别表示为：

F_b＝(sex,semster,bg,sp,prov,marriage,lc)

其中：F_b表示所述个体特质特征的集合，sex表示性别，semster表示所处学期，bg表示学历背景，sp表示专业，prov表示所在省份，marriage表示婚姻状况，lc表示所在学习中心；

F_o＝(lec Times,lecNum,lecDur,lecCov,perlDur,pertDur,forumTimes,cforumTimes,down Time,up Time,down Times,up Times,login Times,obq,olbq,lastTime)

其中：F_o表示所述在线行为特征的集合，lec Times表示视频课件学习的总次数，lecNum表示视频课件学习的总个数，lec Dur表示视频课件的累计学习时长，lecCov表示视频课件学习的覆盖率，perlDur表示平均单个视频课件的学习时长，pertDur表示平均单次学习时长，forum Times表示参与论坛的总次数，cforum Times表示本门课程参与论坛的总次数，down Time表示下载作业时间，up Times表示上传作业的时间，down Times表示下载作业的次数，up Times表示上传作业的次数，login Times表示登录学习平台的总次数，obq表示在线行为数量，olbq表示在线学习行为数量，lastTime表示最后一次在线行为的时间；

所述课程特征包括课程编号以及课程类型。

所述特征约束策略包括基于时间窗口划分的特征约束策略和基于学习时长阈值划分的特征约束策略；

基于时间窗口划分的特征约束策略通过将学期进行时间窗口划分，产生w个独立的时间窗口，并将在线行为特征的采样时间范围约束在对应时间窗口内，从而得到学期中与时间窗口对应的阶段内的在线行为特征；

基于学习时长阈值划分的特征约束策略通过设定短时长阈值c₁和长时长阈值c₂，将与学习频次相关的在线行为特征按照学习时长较短、学习时长中等和学习时长较长的约束条件进行细分，从而形成新的在线行为特征。

所述阈值c₁和c₂采用三分位数方法确定。

选取基于时间窗口划分和学习时长阈值划分的综合约束策略，采用随机森林方法进行分类模型训练，训练后得到针对学期过程中不同阶段的成绩不良学习者识别模型规则库。

所述分类模型在训练中按照十折交叉验证对所述样本集进行训练样本和测试样本划分。

所述识别模型规则库表示为：

当j＝1时，F_b+C+F′_j+F′_{j_T}+F′_{j_N}

当j>1时，

其中，F_b表示所述个体特质特征的集合，C表示课程特征集合，F_i表示第i个时间窗口下所述在线行为特征的集合，F′_j表示前j个时间窗口所辖时间范围内所述在线行为特征的集合，F′_{j_T}＝{lect_l,lect_m,lect_s}，lect_l、lect_m及lect_s分别表示前j个时间窗口所辖时间范围内视频课件单次学习时长较长、中等及较短的次数，F′_{j_N}＝{lecn_l,lecn_m,lecn_s}，lecn_l、lecn_m及lecn_s分别表示前j个时间窗口所辖时间范围内视频课件单次学习时长较长、中等及较短的视频个数。

与现有技术对比，本发明的有益效果体现在：

本发明通过对学习者个体特质数据和在线行为数据的统计分析，构建了用以识别成绩不良学习者的个体特质特征集和在线行为特征集。针对成绩不良学习者的识别问题，根据学习者的在线行为特征，提出了基于时间窗口划分和基于学习时长阈值划分的特征约束策略；基于约束策略对学习者特征进行了组合，采用随机森林方法建立了成绩不良学习者的阶段性分类模型。本发明解决了面向网络学习者的学习特征抽取、学习过程中的阶段性学习效果预测问题，为及时发现成绩不良学习者并进行有针对性的指导提供了支持。

附图说明

图1为本发明处理流程示意图。

图2为识别模型训练流程图。

具体实施方式

为了更清楚的理解本发明，以下结合附图和实施例作详细描述，所述是对本发明的解释而不是限定。

网络教育中成绩不良学习者识别的基础是不良学习者的特征分析，其目的是发现并抽取出用于识别成绩不良学习者的特征，其本质是特征抽取与选择的工作。但由于网络学习平台中收集到的学习者在线行为日志数据量大、类型复杂，如何从中抽取出能准确反映学习者学习模式的特征，并进行有机融合是目前尚未解决的一个难点问题。为此，本发明提出了一种基于学习行为的时间特征对抽取出的特征进行表示及组合的方法，首先从多个数据源中选取出与学习者相关的特征数据，通过对视频课件单次学习时长分布的统计分析，总结一般性规律，删除不符合规律的离群点与噪声点数据，从而筛选出有效的学习者在线行为数据。其次，从学习者个体特质和在线学习行为数据两方面着手，分别进行统计分析。在学习者个体特质特征方面，采用卡方检验的方法筛选出与成绩不良学习者识别相关的特征；在学习者在线行为特征方面，首先基于目前已有的研究对学习者的在线行为进行分类，基于各类在线行为的统计差异，抽取出学习者在线行为特征，并采取单因素Logistic回归方法选取出与成绩不良学习者识别相关的在线行为特征。最后，从学习者动态特征，即在线行为特征所具有的特点出发，提出了时间窗口划分和学习时长阈值划分的特征约束策略，以及基于这两种特征约束策略的特征表示方法，在多种分类算法进行特征组合实验的基础上选取出成绩不良学习者识别模型。

本发明基于网络教育学习者个体数据以及在线行为日志，目的是在学习者学期不同阶段发现潜在的成绩不良学习者。

下面举例说明本发明的数据处理流程(参见图1)。

1)成绩不良学习者识别问题描述

将成绩不良学习者的识别抽象为一个分类问题，假设研究样本的大小为n(即n个学习者)，每个样本具有p个特征，即：

X＝{X₁,...,X_p}∈R^n×p

用x_i表示第i个样本的特征向量：

x_{i} = (x_{i}^{(1)}, ..., x_{i}^{(j)}, ..., x_{i}^{(p)})

其中，表示第i个样本的第j个特征：

x_{i}^{T} = (\begin{matrix} x_{i}^{(1)} \\ x_{i}^{(2)} \\ ... \\ ... \\ ... \cdot \\ x_{i}^{(p)} \end{matrix})

预测值为：

Y＝f(X)∈Rⁿ,y∈{0,1}

其中，y＝1表示该学习者为成绩不良学习者；y＝0表示该学习者为成绩合格学习者。

由于我国绝大多数的课程评价采用百分制，并且以60分作为及格标准，因此在本发明中将成绩不良学习者定义为某门课程上学习成绩低于60分的学习者，潜在的成绩不良学习者定义为根据学习者当前的学习数据预测其在该门课程上未来的学习成绩可能低于60分的学习者。学习者是否是成绩不良学习者具有课程相关的特性，即某一学习者在某一门课程上是成绩不良学习者，但是在另外一门课程上可能并不是成绩不良学习者。对于其他课程评价打分制度(例如5分制)，可以按对应成绩及格的标准将学习者划分为上述两类。

2)特征抽取

将学习者的特征分为两大类，即：学习者个体特质特征和在线行为特征。通过统计分析学习者的个体基本信息和在线行为数据，抽取出用以识别成绩不良学习者的特征，并基于卡方检验、单因素Logistic回归方法进行特征的初步选择，最后构建出学习者个体特质特征集F_b和在线行为特征集F_o。

对于学习者个体特质特征，通过卡方检验方法，确定与成绩不良学习者识别相关的特征(F_b)共7项，包括性别sex、所处学期semster、学历背景bg、专业sp、所在省份prov、婚姻状况marriage、所在学习中心lc。

将学习者在线行为分为六类，包括：视频学习类、资料查看类、个人资料类、登录退出类、课程论坛类、作业类，如表1所示。

表1.学习者在线行为类别分类表

网络教育学习者的在线行为有与学习直接相关的行为，如第1、5、6三类在线行为；有与学习可能间接相关的行为，如第2、3、4三类在线行为，但以上几类在线行为均蕴含着学习者的某些特点。这里学习行为定义为1、5、6类在线行为。

其中：

(1)视频学习类在线行为抽取出6项特征，包括：视频课件学习的总次数lecTimes、视频课件学习的总个数lecNum、视频课件的累计学习时长lecDur、视频课件暂停次数lecPause、视频课件拖动次数lecDrag、视频课件学习的覆盖率lecCov。

(2)课程论坛类在线行为抽取出2项特征，包括：参与论坛的总次数forumTimes、该门课程参与论坛的总次数cforumTimes。后者是前者的子集，前者的某些行为与该门课程无关。

(3)作业类在线行为抽取出4项特征，包括：下载作业时间down Time、提交作业时间upTime、下载作业次数down Times、提交作业次数upTimes。

(4)其他在线行为抽取出5项特征，包括：登录学习平台的总次数login Times、在线行为数量obq、在线学习行为数量olbq、首次在线行为时间first Time、最后一次在线行为时间last Time。

以上特征进行简单的数学计算，又产生如表2所示的6项特征。

表2.在线行为特征计算公式说明

通过单因素Logistic回归方法确定与成绩不良学习者识别相关的在线行为特征集F_o，共16项。如表3所示。

表3.学习者的在线行为特征

如下所示，对于一个样本，其特征空间为{F_b∪F_o∪C}，其中，C表示课程特征集合，cid表示课程编号，ctyp表示课程类型，包括公共课和专业课。

3)成绩不良学习者识别(参见图2)

3.1)经过步骤2)可获得与成绩不良学习者识别相关的特征集合，考虑到其中某些特征的时间特性，采用基于时间窗口划分和学习时长阈值划分的特征约束策略，构建基于特征约束策略的特征表示方法。具体方法如下：

(1)基于时间窗口划分的特征约束策略

学习是一个动态发展的过程，学习者的在线行为具有时间特征，即在学期内的不同阶段是波动的。比如，学期初学习者的学习动力较大，积极性较高，登陆学习平台的次数较多；学期末学习者突击学习的可能性较大，视频课件学习次数较多。因此有必要对学习者的在线行为特征进行时间约束，本发明提出了基于时间窗口划分的特征约束策略。时间窗口可以根据研究粒度选择不同大小，比如以周、以月、以季度为时间窗口进行划分，也可以自定义时间窗口大小进行划分。单个时间窗口内衍生出来的学习者在线行为特征更能反映学习的集中性、突击性等特点，多个连续时间窗口衍生出来的学习者在线行为特征之间具有时间序列特性，一定程度上反应了学习的动态演化过程。

若以月为单位对成绩不良学习者进行阶段性识别，在学习者一个完整学期内进行时间窗口划分后共产生6个独立的时间窗口，每一个时间窗口内衍生出对应的在线行为特征集，具体如表4所示。

表4.完整学期内时间窗口划分特征约束策略下的特征集

在F_o的基础上选择lecTimes、lecNum等特征进行时间窗口约束，第i个时间窗口内(i＝1,2,3,4,5,6)的在线行为特征集F_i如表5所示。

表5.第i个时间窗口内的特征集F_i

由于作业类在线行为特征一般在学期内形成于第3个月，并且发生次数较少，所以进行时间窗口划分约束的意义不大，只在前j个时间窗口内的特征集中考虑作业类行为。如果每个月(即每个时间窗口)的作业类行为比较多，也可以在每个月的特征集中考虑作业类行为。

另外，F_j′表示前j个时间窗口内(指前j个时间窗口所辖时间范围内。由于F₁'表示的内容包括F₁，所以在第一个时间窗口时省略了F₁。)的在线行为特征，具体特征如表6所示。

表6.前j个时间窗口内的特征集F_j′

(2)基于学习时长阈值划分的特征约束策略

“视频课件学习”是反应学习者学习最直观的一个行为。单次视频课件学习时长在一定程度上反映了学习者学习投入的程度，学习者只有投入时间才能引发深度学习。以往的研究并未考虑单次学习时长长短不同的特点，即并未对“由于学习时长不同，而学习效果可能有所不同”加以区别对待。学习者的学习时间长短极不均匀，因此有必要对学习时长进行划分。

本发明定义三种学习时长类型，即学习时长较短、学习时长中等、学习时长较长。

学习时长较短：若学习者的单次学习时长t≤c₁，其中c₁为短时长阈值，那么该学习者本次学习时长为学习时长较短类型。

学习时长中等：若学习者的单次学习时长t＞c₁且t≤c₂，其中c₂为长时长阈值，那么该学习者本次学习时长为学习时长中等类型。

学习时长较长：若学习者的单次学习时长t＞c₂，那么该学习者本次学习时长为学习时长较长类型。

短时长阈值c₁和长时长阈值c₂需要通过统计分析得到，本发明使用三分位数方法寻找上述两个阈值。根据上述两个阈值对F′_j的lecTimes、lecNum特征进行约束，即衍生出两个新的特征集：F′_{j_T}和F′_{j_N}，具体如表7和表8所示。

表7.F′_{j_T}特征集

表8.F′_{j_N}特征集

3.2)基于特征约束策略的特征组合

为确定针对成绩不良学习者识别的特征组合模式，本发明对经过抽取以及约束后的特征进行组合实验，以学习者基本信息特征集F_b为基础，每部分实验的具体步骤如下：

Step1：组合学习者个人特质特征集F_b、课程特征集C；

Step2：组合在线行为特征，分别为学习者第一个月在线行为特征集F′₁、前两个月在线行为特征集F′₂、前三个月在线行为特征集F′₃、前四个月在线行为特征集F′₄、前五个月在线行为特征集F′₅，前六个月在线行为特征集F′₆，在F_b的基础上分别加入以上在线行为特征，即F_b+C+F′₁、F_b+C+F′₂、F_b+C+F′₃、F_b+C+F′₄、F_b+C+F′₅、F_b+C+F′₆，应用多种机器学习方法在以上各组合特征上进行分类实验；

Step3：基于时间窗口划分的特征约束策略来抽取学习者在线行为的衍生特征，分别为学习者第二、第三、第四、第五、第六个月(即时间窗口)的在线行为特征集F₂、F₃、F₄、F₅、F₆。实验即随着时间的推演，在Step2不断地加入以上特征，即F_b+C+F′₁、F_b+C+F′₂+F₁+F₂、F_b+C+F′₃+F₁+F₂+F₃、F_b+C+F′₄+F₁+F₂+F₃+F₄、F_b+C+F′₅+F₁+F₂+F₃+F₄+F₅、F_b+C+F′₆+F₁+F₂+F₃+F₄+F₅+F₆，应用多种机器学习方法在以上各组合特征上进行分类实验；

Step4：基于学习时长阈值划分的特征约束策略来抽取学习者在线行为特征F′₁,…,F′₆中的视频课件学习次数和视频课件学习个数特征，即产生新的衍生特征集F′_{1_T}和F′_{1_N}、F′_{2_T}和F′_{2_N}、F′_{3_T}和F′_{3_N}、F′_{4_T}和F′_{4_N}、F′_{5_T}和F′_{5_N}、F′_{6_T}和F′_{6_N}，在Step2的基础上加入以上衍生特征，应用多种机器学习方法在以上各组合特征上进行分类实验；

Step5：将基于时间窗口划分和学习时长阈值划分的特征约束策略相结合，即在Step3的基础上加入Step4中的衍生特征，应用多种机器学习方法在以上各组合特征上进行分类实验。

具体而言，每一步的组合特征如表9所示。

表9.特征组合实验特征集说明

通过以上特征组合试验，本发明确定选取随机森林方法(RandomForest)作为识别算法，采用十折交叉验证训练最终得到一组识别模型，分别对应于学期过程中6个阶段(学期中每个月)的成绩不良学习者识别模型，各个识别模型所使用的特征集(即识别模型规则)如表10中第二列所示。

表10.成绩不良学习者识别模型规则库说明

4)关于样本大小范围的说明

采取过度抽样和分层抽样相结合的方法选取研究样本。

具体如下：完全保留成绩不及格部分的样本，对于及格部分采取分层抽样，抽样规模为成绩不及格样本的3到5倍(以下选择4倍)，其中及格部分按照成绩区段分为4层，对于每一层按比例抽样，在及格部分每一层的抽样比例如表11所示。

采取过度抽样可以提高不及格样本在总样本中的占比；采取分层抽样可以控制每层样本的占比，适当提高高分段的占比有利于区分不及格者与及格者。

表11.及格部分每一层的抽样比例表

为保证结果的准确性，样本大小及日志数据不能过低。推荐，样本大小不低于500，其日志数据不低于10000条。(以下第5部分结果基于的样本大小为8240，其在线行为日志数据共计4,419,661条)

5)关于效果的说明。

(1)无约束下的特征组合实验(step2)的分类结果如表12所示；

(2)时间窗口划分特征约束策略下的特征组合实验(step3)的分类结果如表13所示；

(3)学习时长阈值划分特征约束策略下的特征组合实验(step4)的分类结果如表14所示；

(4)时间窗口划分和学习时长阈值划分特征约束策略下的特征组合实验(step5)的分类结果如表15所示。

其中，P是准确率，R是召回率，F1是P和R的综合。

表12.无约束下的特征组合实验的分类结果

表13.时间窗口划分特征约束策略下的特征组合实验的分类结果

表14.学习时长阈值划分特征约束策略下的特征组合实验的分类结果

表15.时间窗口划分和学习时长阈值划分特征约束策略下的特征组合实验的分类结果

可以看出，随着时间的推移，表12～表15所对应四种特征组合下的分类效果均基本呈上升趋势，反应在具体的问题中：即随着学期时间的推进，成绩不良学习者识别的准确度会越来越高；时间窗口划分特征约束策略和学习时长阈值划分特征约束策略下的分类效果基本优于无约束策略下的分类效果，并且时间窗口划分约束策略对于分类效果的提升较学习时长阈值划分约束策略更高，而且将两种特征约束策略相结合之后分类效果提升更为明显。

Claims

1.一种面向网络教育的成绩不良学习者识别方法，其特征在于：包括以下步骤：

1)特征抽取

2)成绩不良学习者识别

2.如权利要求1所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述分类模型表示为：

X＝{X₁,...,X_p}∈R^n×p

用x_i表示第i个样本的特征向量：

x_{i} = (x_{i}^{(1)}, ..., x_{i}^{(j)}, ..., x_{i}^{(p)})

其中，表示第i个样本的第j个特征，j＝1,2,...,p；

预测值为：

Y＝f(X)∈Rⁿ,y∈{0,1}

其中，y＝1表示成绩不良学习者；y＝0表示成绩合格学习者。

3.如权利要求1所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述个体特质特征和在线行为特征分别表示为：

F_b＝(sex,semster,bg,sp,prov,marriage,lc)

F_o＝(lecTimes,lecNum,lecDur,lecCov,perlDur,pertDur,forumTimes,cforumTimes,downTime,upTime,downTimes,upTimes,loginTimes,obq,olbq,lastTime)

其中：F_o表示所述在线行为特征的集合，lecTimes表示视频课件学习的总次数，lecNum表示视频课件学习的总个数，lecDur表示视频课件的累计学习时长，lecCov表示视频课件学习的覆盖率，perlDur表示平均单个视频课件的学习时长，pertDur表示平均单次学习时长，forumTimes表示参与论坛的总次数，cforumTimes表示本门课程参与论坛的总次数，downTime表示下载作业时间，upTimes表示上传作业的时间，downTimes表示下载作业的次数，upTimes表示上传作业的次数，loginTimes表示登录学习平台的总次数，obq表示在线行为数量，olbq表示在线学习行为数量，lastTime表示最后一次在线行为的时间；

所述课程特征包括课程编号以及课程类型。

4.如权利要求1所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述特征约束策略包括基于时间窗口划分的特征约束策略和基于学习时长阈值划分的特征约束策略；

5.如权利要求4所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述阈值c₁和c₂采用三分位数方法确定。

6.如权利要求4所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：选取基于时间窗口划分和学习时长阈值划分的综合约束策略，采用随机森林方法进行分类模型训练，训练后得到针对学期过程中不同阶段的成绩不良学习者识别模型规则库。

7.如权利要求1或6所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述分类模型在训练中按照十折交叉验证对所述样本集进行训练样本和测试样本划分。

8.如权利要求6所述的一种面向网络教育的成绩不良学习者识别方法，其特征在于：所述识别模型规则库表示为：

当j＝1时，F_b+C+F′_j+F′_{j_T}+F′_{j_N}

当j>1时，