CN113077100A - 一种基于自动编码机的在线学习潜在退出者预测方法 - Google Patents

一种基于自动编码机的在线学习潜在退出者预测方法 Download PDF

Info

Publication number
CN113077100A
CN113077100A CN202110409484.5A CN202110409484A CN113077100A CN 113077100 A CN113077100 A CN 113077100A CN 202110409484 A CN202110409484 A CN 202110409484A CN 113077100 A CN113077100 A CN 113077100A
Authority
CN
China
Prior art keywords
network
learning
data
layer
learner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110409484.5A
Other languages
English (en)
Inventor
董博
徐一明
赵锐
阮建飞
郑庆华
师斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110409484.5A priority Critical patent/CN113077100A/zh
Publication of CN113077100A publication Critical patent/CN113077100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自动编码机的在线学习潜在退出者预测方法,包括:首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。

Description

一种基于自动编码机的在线学习潜在退出者预测方法
技术领域
本发明属于在线学习的动态监测与评价领域,特别涉及一种基于自动编码机的在线学习潜在退出者预测方法。
背景技术
随着互联网技术快速发展以及个人移动计算终端设备的广泛普及,在线学习已经成为补充专业知识、拓展职业技能、提升学历水平、实现自我发展、以及实现终身教育的重要途径和手段。在这个过程中,在线学习行为数据的规模呈现指数级增长,并与整个在线学习过程相互交织影响。一方面,在线视频、学生论坛、虚拟实验以及在线测验考试等多样化的在线教学活动不断涌现,海量的教育数据随之源源不断产生。以麻省理工学院2012年发布的电路与电子学课程为例,仅在2012年春季一个学期就吸引了超过15万的全球学习者注册学习。在随后的4年里麻省理工学院联合哈佛大学又发布了290门课程,吸引超过450万的全球学习者注册学习,然而完成整个课程的学习者只有52%。与传统教育不同,在线教育中授课老师和学生无法进行及时的沟通交流,授课教师很难了解学生的学习状态和对知识的吸收程度。因此无法针对性地给学生提供指导和帮助。学生在学习过程中遇到问题不能及时解决导致学生在线学习效率低下,因此许多学习状态不好的在线学习者会中途退出。如何基于在线学习行为数据分析学习者的学习状态,发现在线学习潜在退出者,并提供个性化的帮助和指导已成为一个亟待解决的问题。
目前在线学习行为数据分析方法主要是通过获取在线学习平台的学习者日志数据、学习成绩、学习者的在线学习笔记以及问卷调查等方式,然后利用数据挖掘的方法对学习者的学习状态进行预测。学习者的状态由学习日志的特征决定,在本发明的范围内,我们研究学习者的两种学习状态:潜在退出学习状态和正常学习状态。本发明的学习状态定义为一个[0,1]之间的异常值,该异常值越接近于1,学习者属于潜在退出学习状态的概率越大,越接近于0则为正常学习状态的概率越大。潜在退出状态在学习日志中具体表现为作业未按时完成,在线视频学习时间不足,模拟测试成绩下滑等。然而,由于在线学习中退出者在中途退出后就不会再产生日志数据,导致学习日志信息不完整,而且退出者没有最终学习成绩,只有完成者具有完整的学习日志数据和最终学习成绩。如何利用这部分在线学习完成者的日志数据训练模型并且预测潜在退出者已成为一个重要且具有挑战性的问题。
以下文献提供了可参考的在线学习者行为分析的技术解决方案:
文献1.一种基于在线学习行为分析的个性化学习推荐方法(CN201711417283.X);
文献2.基于在线学习的学情分析系统及方法(CN201510778991.0);
文献1提出了一种基于在线学习行为分析的个性化学习推荐方法,该方法收集学习者的历史学习数据并利用这些数据训练一个神经网络模型,训练好的模型可以对新的学习者进行成绩预测并且对学习者进行性格分析,为学习者做出个性化学习方法推荐。
文献2提出了一种基于在线学习的学情分析系统及方法,首先采集与学生学习相关的数据,并对记录的数据进行预处理后存入数据库,通过监督学习的机器学习算法训练模型,修正测评指标体系的观测点参数,并根据构建的数据模型和修改后的参数对相关数据进行计算与分析,根据模型的结果预测学习者状态。
以上文献所述方法主要存在以下问题:首先,文献1与文献2都依赖于监督学习,前期不仅仅需要花费大量的工作收集学习者的学习状态相关的日志数据,包括学习成绩、性格,学习笔记等,并且给这些收集好的数据做标注需要耗费大量的人力成本和时间成本;其次,两者需要完整的学习日志数据,而中途退出者的学习日志数据是不完整的,因此无法利用现有数据资源和模型识别潜在退出者。
发明内容
本发明旨在提供一种基于自动编码机的在线学习潜在退出者预测方法。首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。
本发明采用以下技术方案来实现的:
一种基于自动编码机的在线学习潜在退出者预测方法,包括以下步骤:
1)将学习平台学习日志数据中的文本和非文本信息并进行预处理;
2)构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;
3)基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;
4)利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。
本发明进一步的改进在于,步骤1)的具体实现方法为:
Step1.清理编码异常数据
将所有数据的编码转换为可变长的字符统一编码,然后再针对乱码数据单独从数据源重新采集或删除;
Step2.删除无关数据
删除学习日志数据中包含的浏览器、操作系统和网络状态,以及涉及学生个人隐私信息的一些记录;
Step3.处理异常学习时间的数据
针对异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代;
Step4.统一数据格式
由于不同类型的数据量纲数量级不同,在进行模型训练前将同种类型的数据进行标准化。
本发明进一步的改进在于,Step4中,使用z-score标准化方法对数值型属性进行处理,具体步骤为:
对数值型数据进行标准化处理
根据前述两个步骤计算的数值型属性的均值和方差对样本数据进行标准化,具体形式为:
Figure BDA0003023590970000041
其中,
Figure BDA0003023590970000042
是z-score处理后的结果,Xi是第i个数值型属性对应的列向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方差;
使用One-Hot对学习者的类别型属性进行编码,详细步骤为:
a.设置K位的数组,每一个状态编码只有一位是1其余都是0,通过这种设置方式将类别型数据的差异转化为欧式空间中的距离;
b.将K种状态编码分别和K种离散值一一对应,确定每个属性的取值都为一个K位数组,该向量表示属性取值的One-Hot编码。
本发明进一步的改进在于,步骤2)的具体实现方法为:
网络结构确定后,确定具体的网络参数;其中,所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为:
Figure BDA0003023590970000051
第三层层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:
f(x)=max(0.02x,x)
第五层输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为:
Figure BDA0003023590970000052
本发明进一步的改进在于,步骤3)的具体实现方法为:
为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化,Xavier初始化以均匀分布的方式实施初始化,具体形式为:
Figure BDA0003023590970000053
其中ni是参数所在层的输入维度,ni+1是参数所在层的输出维度,θ是参数矩阵;
训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括第一层和第二层网络用fφ表示,解码网络包括第四层和第五层网络用fπ表示;训练的过程就是优化网络参数,学习编码网络参数φ和解码网络参数π,形式化表达如下:
Figure BDA0003023590970000061
其中X表示学习完成者的特征矩阵;在实际训练中先初始化参数,然后利用BP算法更新编码网络和解码网络参数,更新方法如下:
Figure BDA0003023590970000062
其中u是梯度下降算法的学习率。
本发明进一步的改进在于,步骤4)的具体实现方法如下:
由步骤3)得到具备对学习者信息数据进行自编码能力的网络模型,然后对测试样本对样本进行自编码处理,计算重构误差,其形式化表示为:
Figure BDA0003023590970000063
其中,N表示学习者的数量,xi表示第i个学习者的特征在,fθ表示训练好的自动编码网络;最终把计算出来的每个学习者的重构误差作为异常指标;由上面公式得到的异常值是[0,1]之间的连续数值,该异常值越接近于1代表该学习者为潜在退出状态的概率越大,异常值越接近于0代表该学习者是正常学习状态的概率越大;在潜在退出者检测评估中,设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为潜在退出者。
本发明至少具有如下有益的技术效果:
针对以上文献中存在的不足,为了解决因学习退出者的学习日志不完整,现有技术无法从日志中学习到潜在退出者的特征,导致无法及时对学习者的学习状态进行预测并发现潜在退出者的问题,本发明引入了深度自编码网络模型,该模型包括网络编码和网络解码两个过程。网络编码过程利用学习者特征对学习状态进行表征,网络解码过程还原学习者的特征。利用学习完成者的数据训练网络,使得网络具有还原学习完成者特征的能力,但是无法还原中途退出者的特征。因此,该模型利用原始特征数据和还原出来的特征数据之间的差异可以判断学习者当前时间段的学习状态,发现潜在退出者。
本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。本发明改进了现有的技术,使其适用于解决潜在退出者检测问题。与现有技术相比,本发明的优点是:
(1)本发明提出了完全无监督的潜在在线学习退出者预测方法,解决了现有技术需要耗费大量人力和时间进行学习者样本标注的难题。
(2)本发明巧妙地结合了深度学习中的自动编码网络特性,只需要学习完成者的日志数据就能够训练出检测模型,解决了现有技术依赖学习退出者数据,在学习退出者日志数据不完整情况下无法训练出有效检测模型的问题。
附图说明
图1为整体框架流程图。
图2为数据预处理流程图。
图3为统一数据格式流程图。
图4为潜在退出者检测模型示意图。
图5为潜在退出者检测模型实施流程图。
具体实施方式
以下结合附图和实施例对本发明做出进一步的说明。
从某在线教育平台中2017年的所有学习者中选取成绩为优的所有学习者为样本数据。以下参照附图,结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,本专利的具体实施中,对在线学习中潜在退出者的检测过程包括以下步骤:
S100.数据预处理
原始的在线学习行为数据主要以学习日志数据为主,其中包含了大量冗余字段和记录,具体包括学习系统记录的会话编号、浏览器信息、客户端信息、多端时间戳等字段,以及与本次课程学习无关的缴费、学籍管理等记录。除了上述冗余字段与记录以外,原始学习日志数据中也包含了许多异常数据。例如,由于字符编码引起的异常编码文本数据、异常学习时间、不同版本客户端的数据格式不一致等问题。针对这些问题,数据预处理按以下步骤对学习日志数据进行了清理:
在线学习行为数据主要以学习日志数据为主,其中包含了大量冗余字段和记录,具体包括学习系统记录的会话编号、浏览器信息、客户端信息、多端时间戳等字段,以及与本次课程学习无关的缴费、学籍管理等记录。除了上述冗余字段与记录以外,原始学习日志数据中也包含了许多异常数据。数据预处理实施过程如图2,具体包括以下步骤:
S101.清理编码异常数据
在处理数据时容易产生由于编码不兼容引起的乱码造成数据丢失,特别是涉及中文字符和特殊符号时。因此,在数据预处理时需要先处理编码问题。具体的实施包括:(1)将所有数据的编码转换为统一编码Unicode Transformation Format;(2)删除乱码字符。
S102.选取学习相关字段
学习日志数据中包含了浏览器、操作系统、网络状态等与本研究关注的在线学习行为分析无关的字段,另外也包含了涉及学生个人隐私信息的一些记录,该步骤会将这些字段和记录删除,在数据库中选取仅与学生学习相关的字段,比如各课程的学习时长,课程笔记内容,学生互动信息等。
S103.处理异常学习时间的数据
在学习日志中记录了学生观看视频、阅读材料等活动的学习时间,若其学习时长超过合理范围或给定阈值,将无法代表学生实际的学习时间,影响对后续学习参与度的分析。针对这些异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代。
S104.统一数据格式
在线学习者信息数据库中包含数值信息和类别信息,这些信息对于潜在退出者的检测具有重要价值。
如图3所示,本实施例对预处理后信息详细的处理步骤包括:
S104-1.数值型属性处理
数值型属性的取值虽然可以直接用来计算,但是由于不同属性的性质不同,通常具有不同的量纲和数量级。为了保证经过处理后的数据的分布尽量符合正态分布,且消除不同量纲带来的影响。本实施例采用z-score方法对数值型属性进行处理。
查询在线学习者信息数据库。提取出数值型属性{学生-教师交互次数量,学生-系统交互次数,学生-学生交互次数,在线天数,单日时长,总时长,阅读数量,观看数量,观看时长},然后对上述9个数值型属性进行z-score处理。
具体的,在本实施例中,z-score过程的具体计算形式为:
Figure BDA0003023590970000101
其中,Xi是学习者信息的第i个数值型属性取值的向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方差,
Figure BDA0003023590970000102
是z-score处理后的向量。
S104-2.类别型属性特征处理
在异常检测算法中,数据之间距离的度量是必要的,然而类别型属性的取值是离散的,离散型取值具体代表一种标识而非数值大小,需要对类别型属性重新进行编码,编码后的属性值可以进行距离的度量。
查询在线学习者信息数据库中学习者的信息,提取6维类别型属性:{课程号,学生类型,学生性别,所属专业,考试类型,所属地区,所属学科}对上述类别型属性进行编码处理。本实施例采用One-Hot技术对上述6种类别型属性进行编码。所述One-Hot编码的过程以属性所属学科为例,编码详细步骤为:
(1)判断所属学科的离散取值个数,该属性取值有13种,分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。
(2)设置13位的数组,每一个数组只有一位是1其余都是0,设置的13位状态码分别是{0000000000001,0000000000010,0000000000100,0000000001000,0000000010000,0000000100000,0000001000000,0000010000000,0000100000000,0001000000000,0010000000000,0100000000000,1000000000000},将哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学这13个属性分别对应上述的One-Hot编码。
S104-3.合并特征向量
将经过步骤S201和S202处理后得到得特征合并到一个空间,构成完整的样本特征。
S200.潜在退出者检测网络的构建
潜在退出者检测过程中,通过构建自动编码网络实现潜在退出者的检测目的,训练好的自动编码网络有非常好的特征重构能力,并且是完全非监督的模型,因此不需要对数据进行标注,节省了大量的人力物力。在自动编码网络中,把重构误差作为学习退出者的异常指标。异常指标生成和分析的构建步骤如图5所示,详细的构建流程包括:
S201.网络结构设计
首先确定网络结构,根据步骤S100得到的样本特征空间的维数确定网络的输入和输出神经元个数,样本特征空间的维数和图4中N相等,本发明设计了5层的网络。输入层和输出层都是N个神经元,本实施例最终确定N为65。第二层是隐层网络,网络中神经元个数为M,本实施例中经过实验最终确定M为30。第三层是中间隐层网络,网络神经元个数为K,本实施例中确定K为12。第四层网络和第二层网络结构相同。输出层结构和输入层相同,各层网络均采用全连接的方式连接。
本发明构建的潜在学习退出者检测模型具备对样本空间中完成学习任务的学生特征的编码和解码的能力,完成学习任务的学生特征更容易被网络从输入端复制到输出端,而潜在退出者的数据和正常数据分布差异较大,网络对其重构的效果不显著,故利用该模型的这个特点可以进行潜在退出者的检测和识别。
S202.网络参数设定
网络结构确定后,需要确定具体的网络参数。本实施例中所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为:
Figure BDA0003023590970000121
中间层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:
f(x)=max(0.02x,x)
输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为:
Figure BDA0003023590970000122
S300.网络训练策略
本实施例选取某在线教育平台中2017年的所有学习者中选取成绩为优的所有完成学习的学习者数据为样本数据。网络训练的过程将数据按照6∶1∶1的比例划分训练集、验证集和测试集,然后利用交叉验证法训练网络。
神经网络的训练过程中参数调整是基于梯度下降法进行优化的,梯度下降法需要在训练开始给每一个参数赋予初始值,当网络层数较深时,初值的选取对模型的性能影响很大,所以设置的初值是非常必要的。为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化。Xavier初始化以均匀分布的方式实施初始化,具体形式如下:
Figure BDA0003023590970000123
其中ni是参数所在层的输入维度,ni+1是参数所在层的输出维度,θ是参数矩阵。
训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括步骤S201中的第一层和第二层网络用fφ表示,解码网络包括步骤S201中的第四层和第五层网络用fπ表示。训练的过程就是优化网络参数,学习编码网络参数φ和解码网络参数π,形式化表达如下:
Figure BDA0003023590970000131
其中X表示学习完成者的特征矩阵。在实际训练中先初始化参数,然后利用BP算法更新编码网络参数和解码网络参数,更新方法为:
Figure BDA0003023590970000132
其中u是梯度下降算法给定的学习率。
S400.潜在退出者的检测
由步骤S203得到具备对学习者信息数据进行自编码的能力网络模型,利用该模型对样本进行自编码处理,计算重构误差,其形式化表示为:
Figure BDA0003023590970000133
其中,N表示学习者的数量,xi表示第i个学习者的特征在,fθ表示训练好的自动编码网络。最终把计算出来的每个学习者的重构误差作为异常指标。
在本实施例中,上述异常值是[0,1]之间的连续数值,该异常值越接近于1代表该学生为潜在退出状态的概率越大,异常值越接近于0代表该学生是正常学习状态的概率越大。但是模型得出的异常值并不能直接给出数据是否异常的结论,需要对结果做进一步的评估。
在潜在退出者检测评估中,设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为潜在退出者。本实施例中根据实际的数据对阈值进行微调并确定ε的最终取值为0.08。
本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,包括以下步骤:
1)将学习平台学习日志数据中的文本和非文本信息并进行预处理;
2)构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;
3)基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;
4)利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。
2.根据权利要求1所述的一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,步骤1)的具体实现方法为:
Step1.清理编码异常数据
将所有数据的编码转换为可变长的字符统一编码,然后再针对乱码数据单独从数据源重新采集或删除;
Step2.删除无关数据
删除学习日志数据中包含的浏览器、操作系统和网络状态,以及涉及学生个人隐私信息的一些记录;
Step3.处理异常学习时间的数据
针对异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代;
Step4.统一数据格式
由于不同类型的数据量纲数量级不同,在进行模型训练前将同种类型的数据进行标准化。
3.根据权利要求2所述的一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,Step4中,使用z-score标准化方法对数值型属性进行处理,具体步骤为:
对数值型数据进行标准化处理
根据前述两个步骤计算的数值型属性的均值和方差对样本数据进行标准化,具体形式为:
Figure FDA0003023590960000021
其中,
Figure FDA0003023590960000022
是z-score处理后的结果,Xi是第i个数值型属性对应的列向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方差;
使用One-Hot对学习者的类别型属性进行编码,详细步骤为:
a.设置K位的数组,每一个状态编码只有一位是1其余都是0,通过这种设置方式将类别型数据的差异转化为欧式空间中的距离;
b.将K种状态编码分别和K种离散值一一对应,确定每个属性的取值都为一个K位数组,该向量表示属性取值的One-Hot编码。
4.根据权利要求3所述的一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,步骤2)的具体实现方法为:
网络结构确定后,确定具体的网络参数;其中,所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为:
Figure FDA0003023590960000023
第三层层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:
f(x)=max(0.02x,x)
第五层输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为:
Figure FDA0003023590960000031
5.根据权利要求4所述的一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,步骤3)的具体实现方法为:
为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化,Xavier初始化以均匀分布的方式实施初始化,具体形式为:
Figure FDA0003023590960000032
其中ni是参数所在层的输入维度,ni+1是参数所在层的输出维度,θ是参数矩阵;
训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括第一层和第二层网络用fφ表示,解码网络包括第四层和第五层网络用fπ表示;训练的过程就是优化网络参数,学习编码网络参数φ和解码网络参数π,形式化表达为:
Figure FDA0003023590960000033
其中X表示学习完成者的特征矩阵;在实际训练中先初始化参数,然后利用BP算法更新编码网络和解码网络参数,更新方法为:
Figure FDA0003023590960000034
其中u是梯度下降算法的学习率。
6.根据权利要求5所述的一种基于自动编码机的在线学习潜在退出者预测方法,其特征在于,步骤4)的具体实现方法为:
由步骤3)得到具备对学习者信息数据进行自编码能力的网络模型,然后对测试样本对样本进行自编码处理,计算重构误差,其形式化表示为:
Figure FDA0003023590960000041
其中,N表示学习者的数量,xi表示第i个学习者的特征在,fθ表示训练好的自动编码网络;最终把计算出来的每个学习者的重构误差作为异常指标;由上面公式得到的异常值是[0,1]之间的连续数值,该异常值越接近于1代表该学习者为潜在退出状态的概率越大,异常值越接近于0代表该学习者是正常学习状态的概率越大;在潜在退出者检测评估中,设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为潜在退出者。
CN202110409484.5A 2021-04-16 2021-04-16 一种基于自动编码机的在线学习潜在退出者预测方法 Pending CN113077100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110409484.5A CN113077100A (zh) 2021-04-16 2021-04-16 一种基于自动编码机的在线学习潜在退出者预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110409484.5A CN113077100A (zh) 2021-04-16 2021-04-16 一种基于自动编码机的在线学习潜在退出者预测方法

Publications (1)

Publication Number Publication Date
CN113077100A true CN113077100A (zh) 2021-07-06

Family

ID=76617731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110409484.5A Pending CN113077100A (zh) 2021-04-16 2021-04-16 一种基于自动编码机的在线学习潜在退出者预测方法

Country Status (1)

Country Link
CN (1) CN113077100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429281A (zh) * 2021-12-30 2022-05-03 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN112116137A (zh) * 2020-09-06 2020-12-22 桂林电子科技大学 一种基于混合深度神经网络的学生辍课预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN112116137A (zh) * 2020-09-06 2020-12-22 桂林电子科技大学 一种基于混合深度神经网络的学生辍课预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN Y 等: "MOOC student dropout: pattern and prevention", PROCEEDINGS OF THE ACM TURING 50TH CELEBRATION CONFERENCE *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429281A (zh) * 2021-12-30 2022-05-03 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法
CN114429281B (zh) * 2021-12-30 2022-11-15 华中师范大学 一种基于深度聚类算法的在线学习者活跃度测评方法

Similar Documents

Publication Publication Date Title
CN111460249B (zh) 一种基于学习者偏好建模的个性化学习资源推荐方法
Haiyang et al. A time series classification method for behaviour-based dropout prediction
Tang et al. An exploratory analysis of the latent structure of process data via action sequence autoencoders
CN110377814A (zh) 题目推荐方法、装置及介质
Chai et al. Predicting the Risk of Attrition for Undergraduate Students with Time Based Modelling.
CN113793239B (zh) 融合学习行为特征的个性化知识追踪方法与系统
CN112687374B (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN114881331A (zh) 一种面向在线教育的学习者异常学习状态预测方法
CN112527821A (zh) 一种学生布鲁姆掌握度评估方法、系统及存储介质
CN112800323A (zh) 一种基于深度学习的智能教学系统
Chen et al. Behavioral Analysis at Scale: Learning Course Prerequisite Structures from Learner Clickstreams.
Müller et al. Scientific machine and deep learning investigations of the local buckling behaviour of hollow sections
CN113077100A (zh) 一种基于自动编码机的在线学习潜在退出者预测方法
CN110807693A (zh) 专辑的推荐方法、装置、设备和存储介质
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
Bessadok et al. Exploring students digital activities and performances through their activities logged in learning management system using educational data mining approach
Grzeszczyk Mixed intelligent systems: developing models for project management and evaluation
Huang et al. Learning consistent representations with temporal and causal enhancement for knowledge tracing
Moon et al. Rich representations for analyzing learning trajectories: Systematic review on sequential data analytics in game-based learning research
CN117473041A (zh) 一种基于认知策略的编程知识追踪方法
Zhang et al. Revealing at-risk learning patterns and corresponding self-regulated strategies via LSTM encoder and time-series clustering
CN114863341B (zh) 一种在线课程学习监督方法及系统
CN116226410A (zh) 一种知识元联结学习者状态的教学评估与反馈方法及系统
CN115660060A (zh) 一种模型训练方法以及检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Rui

Inventor after: Dong Bo

Inventor after: Li Yong

Inventor after: Shi Bin

Inventor after: Zheng Qinghua

Inventor after: Xu Yiming

Inventor after: Zhao Rui

Inventor after: Ruan Jianfei

Inventor before: Dong Bo

Inventor before: Xu Yiming

Inventor before: Zhao Rui

Inventor before: Ruan Jianfei

Inventor before: Zheng Qinghua

Inventor before: Shi Bin