CN117132003B - 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 - Google Patents
一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 Download PDFInfo
- Publication number
- CN117132003B CN117132003B CN202311397307.5A CN202311397307A CN117132003B CN 117132003 B CN117132003 B CN 117132003B CN 202311397307 A CN202311397307 A CN 202311397307A CN 117132003 B CN117132003 B CN 117132003B
- Authority
- CN
- China
- Prior art keywords
- student
- feature
- self
- mask
- academic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 title claims abstract description 30
- 230000006399 behavior Effects 0.000 claims abstract description 67
- 238000012512 characterization method Methods 0.000 claims abstract description 10
- 238000013256 Gubra-Amylin NASH model Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000003862 health status Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 229940060587 alpha e Drugs 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Educational Technology (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于自训练半监督学习的学生学业表现早预测办法,属于学生表现预测领域。步骤为:Step1:收集已完结课程中,学生“行为特征T1‑学业表现Y”标签数据;Step2:收集未完结课程中,学业表现待预测的学生行为特征T2;Step3:在GAN模型基础上加上了一个分类器,形成修订后的模型CTAB‑GAN,针对Step1中的学生“行为特征T1‑学业表现Y”标签数据,利用CTAB‑GAN生成一组带标签的辅助数据集;Step4:设计自训练编码器,实现学生行为特征T2的语义表征;Step5:利用Step3得到的带标签的辅助数据集及Step4得到的语义表征,设计半监督学习模型,实现学生学业表现早预测。本发明可实现学业表现的早预测,为在线平台的管理者提供后续的决策依据。
Description
技术领域
本发明涉及一种在线学习平台环境下,基于自训练与半监督学习的学生学业表现提前预测方法,属于学生学业表现预测领域。
背景技术
为实现学习方式的灵活性、公平性和普遍性,越来越多的教学机构先后开发了适用于在线学习环境的开放式教学课程,旨在为学生量身打造符合其实际需求的网络教育资源。但最近的研究表明,学生普遍存在的高辍学率和低完成率,使得在线资源难以被充分利用,从而导致学生对于在线学习平台的保留率相对较低。受早期预警系统的启发,如果能够利用学生早期的学习行为(即:点击流、论坛发言、小测验分数等)对其最终的学业表现进行早预测,那么对于管理者及时为有风险的学习者提供帮助、并提高平台的学生保留率,将是意义重大的。
然而,实现在线学习平台下学生学业表现早预测时,主要存在的挑战在于,在线课程面向的是来自世界各地的学习者,因此平台的系统管理端必然存在大量的学生学习行为特征。然而,在课程结束前,所有学习者的行为特征都是无标签的。也就是说,除非等到在线课程的结束,否则在学期中,是没有任何学习者的学业表现标签与其行为特征相匹配的。这就使得研究者们无法利用现有的监督式机器学习或深度学习算法来直接进行预测。同时,大量无标签数据的存在,也会导致学习者行为特征与其最终表现之间难以形成映射关系,从而导致早预测困难。
现有技术中,针对在线平台学生的学业表现预测主要分为两种,其一是针对学生的辍学行为预测;其二是针对学生的学业成绩进行预测。
对于学生的辍学预测而言,《一种CNN-LSTM-SVM网络模型的构建及MOOC辍学预测方法》,中国发明专利(No.CN110059716B,2023),通过将学生的在线行为数据处理为时间序列数据后,基于一种名为CNN-LSTM-SVM的机器学习与深度学习相结合的辍学预测模型,实现学生辍学与否的有效预测。《一种利用数据增强和特征加权实现的MOOC辍学预测方法》,中国发明专利(No.CN114358135A,2022)则以视频帧为单位,基于一个CNN-GRU辍学模型,通过数据增强、信息提取特征、加权三个步骤来预测学生辍学行为发生的概率。
而对于学业成绩的预测而言,《基于数据挖掘的MOOC学习者学业成绩预测与群体特征分析》,重庆高教研究,2021,利用数据挖掘的方法发现了界面交互、内容交互、人际交互、参与考核这四类学习行为与学业成绩之间的强相关性后,利用人工神经网络、决策树、贝叶斯网等多种机器学习算法实现学业成绩的准确预测。《一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统》,中国发明专利(No.CN106127634A,2016)则是通过学生学习行为的获取和转化后,输入到朴素贝叶斯模型中进行学业成绩的后验概率计算,从而实现学业成绩的精准分类。
上述公知表明,无论是针对在线平台的辍学预测,还是学生学业成绩预测,当前大多方案采取的仍然是在一门课程结束后,收集学生的行为特征和对应的标签数据(包括:辍学与否,学业分数等)后,建立相应的机器学习或是深度学习模型,从而根据模型的输出来判断学生的最终表现。而对于在课程还未完结时,利用无标签的学生行为特征来进行学生学业表现早预测的研究,则相对较少。
学生学业表现预测近年来被广泛应用于在线学习领域。然而,利用自训练-半监督学习模型来进行学业表现早预测的解决方案,目前仍然未见报道。
发明内容
本发明提供一种针对在线学习平台下,利用自训练-半监督学习模型的学生学业表现早预测办法,用以解决当某一门在线课程尚未结束且存在大量无标签的学生行为特征存在时,也能够准确预测其最终的学业表现,为平台管理者提供决策依据。图1为本发明的具体流程。
本发明采用的技术方案是:一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,包括如下步骤:
Step1:收集已完结课程中,学生“行为特征T1-学业表现Y”标签数据,然后进入Step3;
Step2:收集未完结课程中,学业表现待预测的学生行为特征T2,然后进入Step4;
Step3:在GAN模型基础上加上了一个分类器C,形成修订后的模型CTAB-GAN,针对Step1中的学生“行为特征T1-学业表现Y”标签数据,利用CTAB-GAN生成一组带标签的辅助数据集;
Step4:设计自训练编码器,实现Step2中学生行为特征T2的语义表征;
Step5:利用Step3得到的带标签的辅助数据集及Step4得到的语义表征,设计半监督学习模型,实现学生学业表现早预测。
Step1和Step2可先后进行也可以同时进行。
具体地,Step1的具体步骤如下:
首先,从在线学习平台管理端的多门已完结课程中,收集学生的基础信息、与课程的多项交互信息,以及所对应的学业表现情况数据,随后,将所有的学生行为特征T1分为4类,分别是人口统计学特征FD-T1、学生参与度特征FE-T1、学生能力特征FC-T1,以及学生态度特征FA-T1,其中,每一项特征的具体取值为:
(9)FD-T1={性别,年龄,健康状况,地区,受教程度}
(10)FE-T1={点击次数,注册时长}
(11)FC-T1={先前学习次数,测验提交次数,小测最高成绩}
(12)FA-T1={测验提交时间间隔}
随后,收集学生所对应的学业表现,并记结果为Y,确定Y的取值有4类,即:Y={优秀,通过,不及格,辍学}。
具体地,Step2的具体步骤如下:
从在线平台的管理端,采集目前正在进行的、表现待预测的多门课程的学生行为特征T2,同样地,将其所对应的特征分为:人口统计学特征FD-T2、学生参与度特征FE-T2、学生能力特征FC-T2,以及学生态度特征FA-T2这4类,其中,每一项特征的具体取值为:
(13)FD-T2={性别,年龄,健康状况,地区,受教程度}
(14)FE-T2={点击次数,注册时长}
(15)FC-T2={先前学习次数,测验提交次数,小测最高成绩}
(16)FA-T2={测验提交时间间隔}。
具体地,Step3中形成修订后的模型CTAB-GAN的具体步骤如下:
在GAN模型基础上加上了一个分类器C,从而更好地识别学生行为特征之间存在的语义连续性,修订后的模型被记为CTAB-GAN,其结构如图2所示。CTAB-GAN包含3个深度神经网络,即:生成器G,判别器D,以及分类器C,其中G负责生成与原始的学生“行为特征T1-学业表现Y”呈一致性的高斯分布数据集,而D则负责识别真实数据“行为特征T1-学业表现Y”与生成数据集中对应数据之间的差异性,C则用于判断生成数据集中多个行为特征之间,是否存在语义不一致的情况。
具体地,Step3中利用CTAB-GAN生成一组带标签的辅助数据集的具体步骤如下:
Step3.1:数据转化:学生的学习行为特征T1包括连续型特征和离散型特征;对于连续型特征而言,将其视作一个包含了多个高斯分布、且每一个分布都具备其独特的平均值和标准差的连续变量;随后,该变量的概率分布便可利用混合高斯分布GMM(GaussianMixed Model)来进行拟合,记第i个连续变量为Fi,假设其由m个独立的高斯分布构成,且这m个分布的平均值和标准差分别为和/>那么,当连续变量Fi取值为Fij时,其概率便可通过EM算法来求出,且Fij的每一个概率取值结果被分别记为:接下来,通过公式/>将Fij的取值归一化后,使其服从正态分布N~(0,1),由此完成连续特征数据的转化,而对于离散型特征Fj,则通过独热编码的方式直接将其进行转化,并记最终的转化结果为γi,最终,学生行为特征T1的转化结果被记为gx,且其被用公式表示为:/>其中nz表示特征T1的总个数;
Step3.2:生成器G和判别器D的优化:G和D均采用卷积神经网CNN来进行构建与优化,其中,G由一个双层的CNN(Convolutional Neural Networks)构成,其输入为Step3.1中特征数据转化的结果gx,以及一个随机采样的噪声向量,该噪声向量的概率分布被记为gz;而G的输出则作为D的输入,G的损失函数如公式(1):
其中,x1表示从gx中采样的任一结果向量,z1表示从gz中采样的任一结果向量,preal(x)和P(z)是原有数据和噪声数据的先验分布,E[·]和SD[·]分别为两个分布之间的期望和方差,其结果通过L2范数来计算;
对于D而言,其包含一个4层CNN,且每一层的卷积核大小为3×3,每一层的连接包含一个LeakyReLU函数,而最后一层的激活函数为Sigmoid,D采取反向传播的优化方式,且其损失函数如公式(2)所示。
LD=(Ex2′~P(G)[D(x2′)]-Ex2~P(r)[D(x2)])+λEx2′~P(x2′)(|Δx2′D(x2′)|2-1)2 (2)
其中,P(G)表示根据生成器G所生成的一个概率分布,P(r)表示根据随机向量r所生成的一个概率分布,x2′表示从概率分布P(G)中采样的一个结果向量,x2表示从概率分布P(r)中采样的一个结果向量,D(·)是D的输出,而P(x2′)是从概率分布P(G)中通过均匀采样所得出的概率分布,(Ex2′~P(G)[D(x2′)]-Ex2~P(r)[D(x2)])度量了D的损失;
Step3.3:分类器C的优化:C的输入为带标签的学生行为特征T1与学业表现Y的原始数据集,其通过一个4层多层感知机MLP来实现,C的损失函数如公式(3)所示。
其中,定义从学生行为特征T1中所选取的任意一个特征为Fx,而l(x1)为特征Fx的取值,remove(·)则表示从特征Fx中删除特定取值,C(·)则表示MLP的输出,即为:学生学业表现Y的预测结果,分类器C的输入与生成器G的输入一致,因此公式(3)中的x1和preal(x)同公式(1)中含义一致。
Step3.4:重复Step3.2-Step3.3中步骤,不断进行数据的生成、判别与分类,直至判别器D根据公式(2)所计算的损失函数值小于判别收敛阈值ηD,则CTAB-GAN的优化结束。此时,CTAB-GAN的输出即为与原始的学生“行为特征T1-学业表现Y”呈一致性的高斯分布的带标签的辅助数据集。
具体地,Step4的具体步骤如下:
对于学业表现待预测的学生来说,其每一次小测验的学习行为特征为T2,其被当作无标签数据输入到自训练编码器e后,返回的结果z=e(T2)即为学习者的学习行为语义表征,自编码器e的具体构建步骤如下:
Step4.1:Mask矩阵构建:为保证e(T2)结果的有效性,首先构造一个Mask矩阵mask,其的取值总个数被表示为|T2|,而mask矩阵可被表示为:mask=[m1,m2,…mi,…m|T2|],(mi∈{0,1},i∈{1,2,…,|T2|}),该矩阵中每一个元素的取值均服从Bernoulli二项分布,随后,从无标签数据集中随机选取其中某一个特征T2x,并用Mask矩阵与其做点乘运算后,得到该特征的屏蔽值矩阵
Step4.2:Mask矩阵mask与特征T2x的重构:给定待重构的Mask矩阵为以及特征屏蔽值矩阵/>如果能够从/>和/>中,尽可能地还原原始的Mask矩阵mask以及原有特征值T2x,则证明本发明所设计的自训练编码器是有效的,因此,设计一个如公式(4)所示的优化函数:
其中,P(T2)表示特征T2的概率分布,Pmask则表示mask矩阵的概率分布,由于mask的取值仅为0和1,因此表示矩阵/>与mask之间的二分类交叉熵,则表示原始特征T2x与重构特征/>之间的重构误差;α(α∈[0,1])是与/>之间的惩罚系数,控制了两个误差在模型中的重要程度;
具体而言,的计算方法如公式(5)所示:
其中,nU为无标签数据集中的数据条数,maski为第i个屏蔽特征的取值,为根据当前所训练的自编码器e进行特征语义表征后,Mask矩阵的重构损失;
而的计算方式如公式(6)所示。
其中,为根据当前所训练的自编码器e进行特征语义表征后,原始特征矩阵的重构损失,/>同时也可被看作是当原始特征T2x的取值为/>时,它们之间的均方根误差。
所有无标签的学生行为特征T2被输入到本步骤所设计的自训练器中,并返回相应的特征语义表征向量e(T2)。
当给定学业表现待预测的学生行为特征时,基于本发明的Step1-Step5,可实现其学业表现的早预测,从而为在线平台的管理者提供后续的决策依据。
本发明的有益效果是:
(1)本发明针对在线课程尚未结束时,利用现有的学生行为特征对其最终的学业表现进行提前预测,从而在一定程度上为其规避了在线课程的辍学风险,并有效促进了各类网络在线学习资源的利用率。
(2)本发明所采用的CTAB-GAN模型能够拟合带标签的学生行为特征与其学业表现之间的混合式高斯分布,并能在有限数量的带标签数据集基础上,生成同分布的大量标签化辅助数据集,从而更好地帮助半监督学习模型来提升学业表现早预测时的准确性。
(3)本发明所提出的基于自训练-半监督的预测模型,一方面能够利用深度神经网络,发现人工难以捕捉的学习者行为特征之间的潜在语义关系;另一方面也能够充分利用大量的无标签数据,更好地实现学业表现的早预测。
附图说明
图1为本发明的整体流程图;
图2为本发明CTAB-GAN的结构图;
图3为本发明半监督学习的模型的框架图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步说明。
实施例1:本发明针对大量无标签学生行为特征存在时的学业表现早预测,提出了一种基于自训练-半监督学习的解决办法。首先,从当前多门已完结的课程中收集有限的带标签数据集,然后基于生成对抗网络(Generative Adversarial Network,GAN)的方法,来模拟生成与带标签数据集具有相同混合高斯分布的一组辅助训练数据集。随后,收集学业表现待预测的学生行为特征,并利用深度神经网络(Deep Neural Network,DNN)生成一个自训练编码器,该编码器能够在无标签的学生行为特征数据集中,及时捕捉多特征之间的潜在语义关系,并将这种关系表征为特征向量。最后,利用DNN设计一个半监督学习预测器,该预测器的输入为带标签的辅助训练数据集与无标签的学生行为特征向量,而输出则为其学业表现的早预测结果。
Step1:收集已完结课程中,学生“行为特征T1-学业表现Y”标签数据。
某一门课程中共有10名学生选修,并完成了对这门课的学习。当课程结束后,采集这10个学生的“行为特征T1-学业表现Y”标签数据,具体如表1所示。
表1.学生“行为特征T1-学业表现Y”标签数据
Step2:收集未完结课程中,学业表现待预测的学生行为特征T2。
某一门课程共有12名学生选修,且该课程尚未完结,当前共进行了1小测。因此,收集该门课程从开课至今的学生各项行为特征T2,并按照Step1中所提出的方法将其分类后,呈现数据如表2所示。
表2学业表现待预测的学生行为特征T2
Step3:利用GAN生成一组带标签的辅助数据集。
首先,根据Step3.1完成对表1中学生的“行为特征T1-学业表现Y”数据的转化。
以连续特征“年龄”为例,假设该特征由4个具有独立分布的高斯混合变量组成,那么首先计算该变量所对应的平均值η年龄和标准差σ年龄,并利用EM算法得出4个变量的混合式概率分布值后,利用该结果将每一个“年龄”变量的取值归一化,使其服从正态分布N~(0,1)。经计算,学生ID1~ID10的“年龄”平均值η年龄=36.3,标准差σ年龄=6.096。以学生ID1为例,其“年龄”特征归一化的计算方式为: 且通过这种方式可以计算出10个学生的行为特征T1归一化结果。接下来,用独热编码的方式处理“性别”这一离散型特征。记“性别=男”为1,“性别=女”为0,以学生ID1为例,其“性别”特征编码后的结果为二维向量[1,0]。通过上述方式,分别将每一个学生的特征处理后,输入到CTAB-GAN模型。经过Step3.2-Step3.3,可得到如表3所示的,与原始特征同高斯分布、且数量与表1一致的一组合成数据集。其中,合成数据的ID用S1-S10表示。
表3基于CTAB-GAN的合成数据集
其中,FD、FE、FC、FA分别为基于CTAB-GAN的合成数据集中的人口统计学特征、学生参与度特征、学生能力特征,以及学生态度特征。
Step4:设计自训练编码器,实现学生行为特征的语义表征。
初始的自训练编码器e由一个4层的全连接神经网络构成。其中,输入层包含11个神经元节点,每一个节点分别接受特定的学生行为特征T2;e包含两个隐含层,且它们的神经元个数分别为4和8;最后是e的输出层,它包含了11个节点,分别输出学生行为特征T2的高维向量表示形式。初始自训练编码器中,每一个神经元节点的参数值为[2,1],即:y=2x+1;设置训练的迭代次数为10,并通过公式(4)-(6)可实现神经元节点的参数优化。最终,将表2中的无标签学生行为特征T2输入优化后的自训练编码器e中,可得到如表4的学生行为特征T2的语义表征:
表4学生行为特征语义T2表征
Step5:设计半监督学习模型,实现学生学业表现早预测。
将Step1-3中所有的标签、无标签数据集均输入到Step4中优化完成的自训练编码器中,得到所有数据的高维特征向量。随后,这些向量作为预测器f的输入,并通过反向传播算法来对其进行参数优化。训练器f由一个4层神经网络构成,其中输入层包含11个神经元节点;中间的两个隐藏层中神经元节点的个数分别为4和8;最后一层是输出层,包含4个节点,每一个节点的输出分别为预测为优秀、通过、不合格以及辍学的概率值。初始预测器中,每一个神经元节点的参数值为[1,1],即:y=1x+1;设置训练的迭代次数为10。最后,根据优化后的预测器可实现对表2中12名学生的学业表现预测,如表5所示。
表5学业表现的预测结果
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:包括如下步骤:
Step1:收集已完结课程中,学生“行为特征T1-学业表现Y”标签数据;
Step2:收集未完结课程中,学业表现待预测的学生行为特征T2;
Step3:在GAN模型基础上加上了一个分类器C,形成修订后的模型CTAB-GAN,针对Step1中的学生“行为特征T1-学业表现Y”标签数据,利用CTAB-GAN生成一组带标签的辅助数据集;
Step4:设计自训练编码器,实现Step2中学生行为特征T2的语义表征;
Step5:利用Step3得到的带标签的辅助数据集及Step4得到的语义表征,设计半监督学习模型,实现学生学业表现早预测;
Step1和Step2可先后进行也可以同时进行;
Step3中利用CTAB-GAN生成一组带标签的辅助数据集的具体步骤如下:
Step3.1:数据转化:学生的学习行为特征T1包括连续型特征和离散型特征;对于连续型特征而言,将其视作一个包含了多个高斯分布、且每一个分布都具备其独特的平均值和标准差的连续变量;随后,该变量的概率分布便可利用混合高斯分布GMM来进行拟合,记第i个连续变量为Fi,假设其由m个独立的高斯分布构成,且这m个分布的平均值和标准差分别为和/>那么,当连续变量Fi取值为Fij时,其概率便可通过EM算法来求出,且Fij的每一个概率取值结果被分别记为:/>接下来,通过公式/>将Fij的取值归一化后,使其服从正态分布N~(0,1),由此完成连续特征数据的转化,而对于离散型特征Fj,则通过独热编码的方式直接将其进行转化,并记最终的转化结果为γi,最终,学生行为特征T1的转化结果被记为gx,且其被用公式表示为:/>其中nz表示特征T1的总个数;
Step3.2:生成器G和判别器D的优化:G和D均采用卷积神经网CNN来进行构建与优化,其中,G由一个双层的CNN构成,其输入为Step3.1中特征数据转化的结果gx,以及一个随机采样的噪声向量,该噪声向量的概率分布被记为gz;而G的输出则作为D的输入,G的损失函数如公式(1):
其中,x1表示从gx中采样的任一结果向量,z1表示从gz中采样的任一结果向量,preal(x)和P(z)是原有数据和噪声数据的先验分布,E[·]和SD[·]分别为两个分布之间的期望和方差,其结果通过L2范数来计算;
对于D而言,其包含一个4层CNN,且每一层的卷积核大小为3×3,每一层的连接包含一个LeakyReLU函数,而最后一层的激活函数为Sigmoid,D采取反向传播的优化方式,且其损失函数如公式(2)所示:
LD=(Ex2′~P(G)[D(x2′)-Ex2~P(r)[D(x2)])+λEx2′~P(x2′)(|Δx2′D(x2′)|2-1)2 (2)
其中,P(G)表示根据生成器G所生成的一个概率分布,P(r)表示根据随机向量r所生成的一个概率分布,x2′表示从概率分布P(G)中采样的一个结果向量,x2表示从概率分布P(r)中采样的一个结果向量,D(·)是D的输出,而P(x2′)是从概率分布P(G)中通过均匀采样所得出的概率分布,(Ex2'~P(G)[D(x2′)]-Ex2~P(r)[D(x2)])度量了D的损失;
Step3.3:分类器C的优化:C的输入为带标签的学生行为特征T1与学业表现Y的原始数据集,其通过一个4层多层感知机MLP来实现,C的损失函数如公式(3)所示:
其中,定义从学生行为特征T1中所选取的任意一个特征为Fx,而l(x1)为特征Fx的取值,remove(·)则表示从特征Fx中删除特定取值,C(·)则表示MLP的输出,即为:学生学业表现Y的预测结果,分类器C的输入与生成器G的输入一致,因此公式(3)中的x1和preal(x)同公式(1)中含义一致;
Step3.4:重复Step3.2-Step3.3中步骤,不断进行数据的生成、判别与分类,直至判别器D根据公式(2)所计算的损失函数值小于判别收敛阈值ηD,则CTAB-GAN的优化结束,此时,CTAB-GAN的输出即为与原始的学生“行为特征T1-学业表现Y”标签数据呈一致性的高斯分布的带标签的辅助数据集。
2.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:Step1的具体步骤如下:
首先,从在线学习平台管理端的多门已完结课程中,收集学生的基础信息、与课程的多项交互信息,以及所对应的学业表现情况数据,随后,将所有的学生行为特征T1分为4类,分别是人口统计学特征FD-T1、学生参与度特征FE-T1、学生能力特征FC-T1,以及学生态度特征FA-T1,其中,每一项特征的具体取值为:
(1)FD-T1={性别,年龄,健康状况,地区,受教程度}
(2)FE-T1={点击次数,注册时长}
(3)FC-T1={先前学习次数,测验提交次数,小测最高成绩}
(4)FA-T1={测验提交时间间隔}
随后,收集学生所对应的学业表现,并记结果为Y,确定Y的取值有4类,即:Y={优秀,通过,不及格,辍学}。
3.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:Step2的具体步骤如下:
从在线平台的管理端,采集目前正在进行的、表现待预测的多门课程的学生行为特征T2,同样地,将其所对应的特征分为:人口统计学特征FD-T2、学生参与度特征FE-T2、学生能力特征FC-T2,以及学生态度特征FA-T2这4类,其中,每一项特征的具体取值为:
(5)FD-T2={性别,年龄,健康状况,地区,受教程度}
(6)FE-T2={点击次数,注册时长}
(7)FC-T2={先前学习次数,测验提交次数,小测最高成绩}
(8)FA-T2={测验提交时间间隔}。
4.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:Step3中形成修订后的模型CTAB-GAN的具体步骤如下:
在GAN模型基础上加上了一个分类器C,修订后的模型被记为CTAB-GAN,CTAB-GAN包含3个深度神经网络,即:生成器G,判别器D,以及分类器C,其中G负责生成与原始的学生“行为特征T1-学业表现Y”标签数据呈一致性的高斯分布数据集,而D则负责识别真实数据“行为特征T1-学业表现Y”与生成数据集中对应数据之间的差异性,C则用于判断生成数据集中多个行为特征之间,是否存在语义不一致的情况。
5.根据权利要求1所述的一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:Step4的具体步骤如下:
对于学业表现待预测的学生来说,其每一次小测验的学习行为特征为T2,其被当作无标签数据输入到自训练编码器e后,返回的结果z=e(T2)即为学习者的学习行为语义表征,自编码器e的具体构建步骤如下:
Step4.1:Mask矩阵构建:为保证e(T2)结果的有效性,首先构造一个Mask矩阵mask,其的取值总个数被表示为|T2|,而mask矩阵可被表示为:mask=[m1,m2,…mi,...m|T2|],mi∈{0,1},i∈{1,2,...,|T2|},该矩阵中每一个元素的取值均服从Bernoulli二项分布,随后,从无标签数据集中随机选取其中某一个特征T2x,并用Mask矩阵与其做点乘运算后,得到该特征的屏蔽值矩阵
Step4.2:Mask矩阵mask与特征T2x的重构:给定待重构的Mask矩阵为以及特征屏蔽值矩阵/>如果能够从/>和/>中,尽可能地还原原始的Mask矩阵mask以及原有特征值T2x,则证明本发明所设计的自训练编码器是有效的,因此,设计一个如公式(4)所示的优化函数:
其中,P(T2)表示特征T2的概率分布,Pmask则表示mask矩阵的概率分布,由于mask的取值仅为0和1,因此表示矩阵/>与mask之间的二分类交叉熵,/>则表示原始特征T2x与重构特征/>之间的重构误差;
α是与/>之间的惩罚系数,α∈[0,1],控制了两个误差在模型中的重要程度;
具体而言,的计算方法如公式(5)所示:
其中,nU为无标签数据集中的数据条数,maski为第i个屏蔽特征的取值,为根据当前所训练的自编码器e进行特征语义表征后,Mask矩阵的重构损失;
而的计算方式如公式(6)所示:
其中,为根据当前所训练的自编码器e进行特征语义表征后,原始特征矩阵的重构损失;
所有无标签的学生行为特征T2被输入到本步骤所设计的自训练器中,并返回相应的特征语义表征向量e(T2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311397307.5A CN117132003B (zh) | 2023-10-26 | 2023-10-26 | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311397307.5A CN117132003B (zh) | 2023-10-26 | 2023-10-26 | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117132003A CN117132003A (zh) | 2023-11-28 |
CN117132003B true CN117132003B (zh) | 2024-02-06 |
Family
ID=88856778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311397307.5A Active CN117132003B (zh) | 2023-10-26 | 2023-10-26 | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132003B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197340A (zh) * | 2019-06-06 | 2019-09-03 | 哈尔滨工业大学 | 一种面向在线教育平台的学习者学习能力评估方法 |
CN112132149A (zh) * | 2020-09-10 | 2020-12-25 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
CN114187493A (zh) * | 2021-12-08 | 2022-03-15 | 大连理工大学 | 一种基于生成对抗网络的零样本学习算法 |
KR102405828B1 (ko) * | 2021-12-03 | 2022-06-07 | 주식회사 대교씨엔에스 | 가우시안 혼합 모델을 이용한 클러스터링과 인공지능을 동시에 활용한 학습량 추천 방법 및 장치 |
CN115982586A (zh) * | 2023-01-09 | 2023-04-18 | 东南大学 | 针对少样本文本转sql任务流的半监督持续学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11663486B2 (en) * | 2020-06-23 | 2023-05-30 | International Business Machines Corporation | Intelligent learning system with noisy label data |
-
2023
- 2023-10-26 CN CN202311397307.5A patent/CN117132003B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110197340A (zh) * | 2019-06-06 | 2019-09-03 | 哈尔滨工业大学 | 一种面向在线教育平台的学习者学习能力评估方法 |
CN112132149A (zh) * | 2020-09-10 | 2020-12-25 | 武汉汉达瑞科技有限公司 | 一种遥感影像语义分割方法及装置 |
KR102405828B1 (ko) * | 2021-12-03 | 2022-06-07 | 주식회사 대교씨엔에스 | 가우시안 혼합 모델을 이용한 클러스터링과 인공지능을 동시에 활용한 학습량 추천 방법 및 장치 |
CN114187493A (zh) * | 2021-12-08 | 2022-03-15 | 大连理工大学 | 一种基于生成对抗网络的零样本学习算法 |
CN115982586A (zh) * | 2023-01-09 | 2023-04-18 | 东南大学 | 针对少样本文本转sql任务流的半监督持续学习方法 |
Non-Patent Citations (5)
Title |
---|
Collaborative Learning of Label Semantics and Deep Label-Specific Features for Multi-Label Classification;Jun-Yi Hang 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;第44卷(第12期);9860 - 9871 * |
Fine-grained semantic ethnic costume high-resolution image colorization with conditional GAN;Wu, Di 等;《International Journal of Intelligent Systems》;第37卷(第5期);2952-2968 * |
基于标签外信息的医疗图像语义分割;房康;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》(第05期);E060-10 * |
基于标签语义的多标签文本分类模型研究;罗兆慈;《中国优秀硕士学位论文全文数据库信息科技辑》(第02期);I138-4530 * |
多阶段时序和语义信息增强的问题生成模型;周菊香 等;《计算机工程与科学》;第45卷(第10期);1847-1857 * |
Also Published As
Publication number | Publication date |
---|---|
CN117132003A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wilson et al. | Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation | |
Hartono et al. | Implementation of Artifical Neural Networks with Multilayer Perceptron for Analysis of Acceptance of Permanent Lecturers | |
CN113902129A (zh) | 多模态的统一智能学习诊断建模方法、系统、介质、终端 | |
Kumar et al. | Advanced prediction of performance of a student in an university using machine learning techniques | |
Rahman et al. | Predicting human design decisions with deep recurrent neural network combining static and dynamic data | |
CN113591988B (zh) | 知识认知结构分析方法、系统、计算机设备、介质、终端 | |
CN114898121A (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
CN113947262A (zh) | 基于异构图学习融合学习参与状态的知识追踪方法 | |
Rahman et al. | A deep learning based approach to predict sequential design decisions | |
Gao et al. | Modeling the effort and learning ability of students in MOOCs | |
CN112766339A (zh) | 一种轨迹识别模型训练方法及轨迹识别方法 | |
CN111881299A (zh) | 基于复制神经网络的离群事件检测与识别方法 | |
CN116227716A (zh) | 一种基于Stacking的多因素能源需求预测方法及系统 | |
Leke et al. | Proposition of a theoretical model for missing data imputation using deep learning and evolutionary algorithms | |
CN113378581A (zh) | 一种基于多元概念注意力模型的知识追踪方法及系统 | |
Hagedoorn et al. | Massive open online courses temporal profiling for dropout prediction | |
CN117540104A (zh) | 一种基于图神经网络的学习群体差异评价方法与系统 | |
CN117132003B (zh) | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 | |
Zhang et al. | Neural Attentive Knowledge Tracing Model for Student Performance Prediction | |
Huang et al. | Deep learning for continuous multiple time series annotations | |
CN114840679A (zh) | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 | |
CN115619363A (zh) | 一种面试方法及装置 | |
Bi et al. | Multi-indicator water time series imputation with autoregressive generative adversarial networks | |
Yang | Construction of Evaluation Model of University Student Education Evaluation System and Its MATLAB Simulation Based on BP Neural Network Algorithm. | |
Cheng et al. | Metacognitive ability evaluation based on behavior sequence of online learning process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |