CN113408576A - 基于融合标签和堆叠机器学习模型的学习风格识别方法 - Google Patents

基于融合标签和堆叠机器学习模型的学习风格识别方法 Download PDF

Info

Publication number
CN113408576A
CN113408576A CN202110517025.9A CN202110517025A CN113408576A CN 113408576 A CN113408576 A CN 113408576A CN 202110517025 A CN202110517025 A CN 202110517025A CN 113408576 A CN113408576 A CN 113408576A
Authority
CN
China
Prior art keywords
learning
model
style
learning style
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110517025.9A
Other languages
English (en)
Inventor
倪琴
徐宇辉
张波
樊卓
魏廷江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
University of Shanghai for Science and Technology
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202110517025.9A priority Critical patent/CN113408576A/zh
Publication of CN113408576A publication Critical patent/CN113408576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法,包括步骤:1)利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格,将两种计算结果取交集获取已划分和未划分的学习风格;2)对已划分和未划分的学习风格进行聚类处理,确定学习风格并标注标签,并对未划分的学习风格进行补充;3)对得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验;4)选择训练数据和测试数据,利用堆叠机器学习模型进行训练,得到完整的堆叠模型;5)对训练后的堆叠模型进行综合性能评估。与现有技术相比,本发明具有减少模型训练难度、提高识别准确率等优点。

Description

基于融合标签和堆叠机器学习模型的学习风格识别方法
技术领域
本发明涉及信息识别技术领域,尤其是涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法。
背景技术
在线教育消除了传统教育的时间和空间的限制,允许教师和学生随时随地进行交流,这给孔子提出的“因材施教”的实现带来了可能性。诸如Dunn,Kolb,Felder和Keefe之类的学者早已认识到,学生有着不同的学习新知识的风格,学生的差异包括人格特征、知识水平、学习能力和学习风格等。其中,学习风格包括学习偏好和学习特点。找到适合学生的学习风格可以指导学生学习,因此学习风格的自动识别任务对于促进在线教育环境中的个性化学习至关重要。
识别学习风格的传统方法是要求学习者填写学习风格量表。尽管这类方法是有效的,但仍然存在一些不足。首先,传统的学习风格量表设计者在准备问题时无法避免主观因素;其次,学习者在填写量表时对自己的认知不够清晰,会直接导致学习风格识别的不准确;再次,当多种学习风格的评价指标具有一致的分数时,量表可能无法识别学习方式;最后,学生的学习风格存在动态变化的特性,而基于量表的识别是一种静态的方法。因此,当前形势下,利用多源异构的在线教育数据隐式且动态地识别学习者的学习风格,从而解决无法识别、识别不精确、主观性高、静态识别等一系列传统学习风格识别中的问题,为在线教育背景下个性化学习的实现提供方法支撑。
目前,国内外学者对于学习风格的识别有着各种各样的研究,识别学习风格的方法有两条路线:基于自定义规则的量表识别方法和基于机器学习技术的自动识别方法。当不方便收集学习者的在线学习行为数据时,量表识别方法是一种传统方法。自动识别方法能够通过清理和整合学生的在线学习行为数据从而划分出学习者的学习风格,BrahimHmedna等人设计了一种能够利用MOOC中学生产生的学习行为数据来自动识别学习风格的方法,该模型的本质是将数据聚类以获得学习风格标签,随后使用分类算法来预测学习风格。该方法的问题在于可解释性不足,因为聚类结果的实际意义需要采用人工方法说明,而该方法直接利用数据本身的分布获得的聚类结果去作为学习者的学习风格标签。Chia-Cheng Hsu等人提出了一种基于神经元模糊推理的FIS模型,用于识别在线学习者的学习风格;其本质是使用自定义规则通过单个隐藏层神经网络识别学习风格,由于实验验证部分的学习者人数只有102人,导致学习风格分布不均匀时该方法的可解释性不足。Song Lai等人提出的EENN-PSO模型在识别学习风格方面达到了很高的准确率,但是该研究的问题在于仅使用NEO-FFI量表获取学习风格标签,单个量表的使用存在主观性过高。此外,深度学习最近已应用于识别学习风格。张浩等人构建了一种用于学习风格检测的深度信念神经网络,并且在单个学习风格的最高识别准确率(Vis/Vrb)为0.89。但是深度学习方法需要大量数据来训练模型,这将花费大量时间的同时无法保证数据的可解释性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于融合标签和堆叠机器学习模型的学习风格识别方法。
本发明的目的可以通过以下技术方案来实现:
基于融合标签和堆叠机器学习模型的学习风格识别方法,该方法包括如下步骤:
S1:利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格,将两种计算结果取交集获取已划分和未划分的学习风格。
S2:对已划分和未划分的学习风格进行聚类处理,确定学习风格并标注标签,并对未划分的学习风格进行补充。
S3:对步骤S2:得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验。
S4:对相关性检验合格的在线学习行为特征,选择训练数据和测试数据,利用堆叠机器学习模型进行训练,得到完整的堆叠模型。
S5:对训练后的堆叠模型进行综合性能评估,优化堆叠模型,利用优化后的堆叠模型进行实际学习者的学习风格预测。
步骤S1的具体步骤包括:
11)获取学习者的Kolb学习风格量表,计算各学习风格分数;
12)获取学习者的在线学习行为调查量表,计算各学习风格分数,与基于学习者的Kolb学习风格量表得到的各学习风格分数取交集,获取成功划分出学习风格的集合和未能成功划分出学习风格的集合。
所述的学习风格分数的计算式为:
Figure BDA0003061948860000031
式中:LSk为学习风格分数,ai,j为第i个问题的第j个选项的分数,k代表学习者所有学习方式中的一种。
步骤S2的具体内容为:
对在线学习行为调查量表数据进行特征降维后,利用K-Means++对降维后的数据进行聚类,得到四个聚类簇,随后构建基于专家标注的簇含义确定方法以确定每一簇的质心的位置,随后计算从其余点到质心的欧几里得距离,利用质心选择方法选择聚类中最接近质心的阈值内的样本点,根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签,并对未划分的学习风格进行补充。
进一步地,根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签,并对未划分的学习风格进行补充的具体内容为:
若确定样本点有超50%的样本为同一种学习风格,则集群的内在含义被确定为该学习风格,若不满足超50%的条件,则将以阈值扩大1个的速度扩大阈值直至能够成功划分学习风格为止;最后对未能划分出的学习风格进行补充。
步骤S3中,对步骤S2得到的学习风格标签与在线学习平台收集的在线学习行为特征通过Spearman相关系数进行相关性检验。
步骤S4中,利用堆叠机器学习模型进行训练的具体步骤包括:
41)对学习者于在线教学平台中产生的行为数据进行预处理;
42)结合步骤S2得到的学习风格标注结果,构建堆叠机器学习模型;
43)对构建的堆叠机器学习模型进行模型训练与参数调整,获取完整的堆叠模型。
所述堆叠机器学习模型为基于两层模型的融合模型,第一层包括四个基本分类器:随机森林、梯度提升决策树、支持向量机和多层感知器,第一层的输入为原始训练集和测试集;第二层为逻辑回归器,第二层采用第一层基本分类器的输出作为输入,通过加入训练集进行再训练,进而获取完整的堆叠模型。
进一步地,在步骤43)前,还包括利用SMOTE算法进行样本重采样步骤。
步骤S5中,采用准确率、召回率、精准率、F1分数和曲线下面积对训练后的堆叠模型进行综合性能评估,优化堆叠模型。
本发明提供的基于融合标签和堆叠机器学习模型的学习风格识别方法,相较于现有技术至少包括如下有益效果:
1)本发明提出了一种能够动态识别学习风格的方法,该方法通过处理学习者填写的两份量表获得学习者的学习风格标签,随后采用学生在在线教学平台上产生的数据预测其学习风格,所处理的数据量大且丰富,且数据结构为二阶张量,能够减少模型训练的难度,减少识别所需的时间;
2)本发明方法采用了基于融合标签的学习风格聚类,通过融合两份量表的标注结果能够减少单份量表引起的高度主观性问题,通过利用Spearman相关系数对比由LSDM、Kolb学习风格量表、在线学习行为量表划分出的学习风格标签和在线学习平台上学习行为特征作相关性分析,有利于更加客观、准确地获取识别结果;
3)本发明方法基于重采样技术构建两层堆叠模型,可以通过将学习者的学习行为数据整合到在线教学平台上来预测学习风格,进而可以减少类别不均衡导致的预测性能不佳的问题,同时与传统的机器学习方法相比具有更高的识别准确率。
4)本发明基于机器学习模型,所涉及的数据量较大,且结构为二阶张量,实验的所有特征均有可解释性,即无需使用现有技术深度学习的模型进行实验,避免了采用深度学习而破坏解释性的问题。
附图说明
图1为实施例中基于融合标签和堆叠机器学习模型的学习风格识别方法的流程示意图;
图2为实施例中基于融合标签和堆叠机器学习模型的学习风格识别方法的原理框图;
图3为实施例中本发明构建的学习风格标签划分方法总体框架示意图;
图4为实施例中本发明构建的聚类簇含义确定方法示意图;
图5为实施例中本发明构建的在线学习行为量表示意图;
图6为实施例中本发明构建的学习风格预测方法总体框架示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
本发明的目的是针对学习风格识别的应用领域,所提出的基于融合标签和堆叠机器学习模型的方法可以隐式且动态地识别学习者在线学习过程中的学习风格。学习者的学习风格依据Kolb学习风格理论划分为4种:发散型、集中型、顺应型、同化型,由于学习风格会随着学习者年龄的提升、认知水平和所处环境等因素的改变而发生变化,这种易变性使得量表静态获取学习风格的方法变得不可靠。此外,因为无法保证所收集到的数据样本的具有平衡的学习风格标签,为了保证识别的准确率,利用堆叠机器学习模型识别学习风格的同时采用一种重采样技术来改善数据样本不平衡的问题,以获得更高的识别率。
本发明涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法,该方法的基本流程如图1所示,整体方法主要分成学习者学习风格的标签获取和学习者学习风格的动态识别两个步骤,具体内容如下:
步骤1:起初学习者的学习风格处于未知状态,利用本发明提出的学习风格标签获取方法(Learning Style Dividing Method),以下采用LSDM表示,来解决学习者学习风格的标注问题,方法具体流程如图3所示。图3中,首先由多名学习者各填写两份量表得到对应的量表数据后分别采用客观和主观的方法进行学习风格的划分,主观方法描述为一种基于给定规则的学习风格划分方法,当学习风格得分有多项最高时,两种规则都无法有效划分学习风格,采用取交集的方式获取主观方法下的学习风格;客观方法描述为一种基于聚类算法的学习风格划分方法,根据调整后的轮廓系数(Silhouette score)选择最优的聚类算法,随后将聚类出的簇根据EAM确定每个簇具体含义的方法,得到客观方法下的学习风格。最后对主观方法和客观方法的学习风格划分结果取交集得到最终的学习风格标签。即LSDM通过融合两份量表基于规则的标注结果和聚类算法的标注结果,减少由单份量表获取标签带来的主观性过高问题,学习者在该方法中需要填写两份量表:Kolb学习风格量表和在线学习行为调查量表(如图4所示),接着分别阐述在线学习行为量表的设计思想和融合学习风格标签的具体方法。
1)Kolb学习风格量表设计思想
由于学习风格和学习能力有着密不可分的关系,因此本发明设计了一份新的在线学习行为量表作为Kolb学习风格量表的补充,在线学习行为量表总共包含27个问题。每个预设问题的背后对应着学生不同的学习能力,这些学习能力可以反映出学生的内隐学习行为。该量表使用Likert5级量表结构(非常同意,同意,不确定,不同意,非常不同意)作为每个预设问题的回答。Kolb学习风格背后隐藏了四种基本能力:特定和体验能力(解决力、想象力、执行力)、动作和应用能力(注意力、目的性、独立性)、反思和观察能力(解释力、意志力、反馈性)、抽象和总结能力(抽象力、逻辑性、实践力),根据量表设计的合理性原则,每种学习能力至少有3个问题进行衡量。总体遵循“保证量表质量的同时尽可能减少问题的数量”的原则,具体量表见图4。
2)融合学习风格标签的方法
对于Kolb学习风格量表中共计12个问题,学习者需要根据他们的匹配程度对每个问题中的四个选项进行排序,随后使用给定的规则计算学习者每种学习风格对应的分数。学习风格分数LSk的计算公式如下:
Figure BDA0003061948860000061
其中ai,j代表第i个问题的第j个选项的分数,k代表四种学习方式中的一种。每种学习风格的分数是12个问题的相应选项的分数之和,接着,将得分最高的学习风格确认为学习者的学习风格,但是当多种学习风格获得相同的最高得分时,该方式无法划分学习风格,比如发散型和顺应型的得分都为33,均大于其他两种学习风格。由计算学习风格分数的方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。对于在线学习行为量表以同样的方式进行计算,随后对两者得到的结果取交集,对于两者均成功划分出相同的学习风格,则视为该学习者此刻的学习风格。剩余未能成功的采用基于聚类的学习风格标签划分方法进行补充。
首先,过高的特征数量对聚类效果会产生不良的影响。因此,有必要在聚类之前使用线性变换来减小在线学习行为量表数据的特征维数,同时保留数据的原始含义。优选地,原量表有27个维度,减少到24个维度时,聚类效果最佳。由此选择主成分分析作为特征降维算法,对降维后的数据利用K-Means++进行聚类实验,得到四个聚类簇,随后构建一种基于专家标注的簇含义确定方法(Expert annotation method,EAM),见图5。质心是在迭代过程中由K-Means++算法连续调整的值。聚类算法在完成聚类后可以确定每一簇的质心的位置。假设将群集C划分为{c1,c2,...,cm},m为群集划分数量,则K-Means++的目标是使平方误差E最小:
Figure BDA0003061948860000071
其中,un是群集cn的质心,x是群集cn中的采样,||*||2表示两个向量之间的欧几里得距离。质心的公式如下:
Figure BDA0003061948860000072
获得聚类的质心后,计算从其余点到质心的欧几里得距离。随后,设定初始距离阈值为5,即选择聚类中距离质心最近的5个样本点,接着,专家需要根据这5个样本点的Kolb学习风格量表数据和在线学习行为量表数据来确定它们各自的学习风格。如果专家确定样本点有大于半数的样本是同一种学习风格,则集群的内在含义将被确定为该学习风格,如不满足上述条件质心选择方法,将以阈值扩大1个的速度扩大阈值直到能够成功划分学习风格为止,该方法称为EAM,见图5。最后,将该部分划分出的学习风格对基于规则的方法中未能划分出的学习风格进行补充。
步骤2:根据步骤1得到的学习风格标签,利用在线学习平台中收集的数据构建合理的特征,随后对两者之间利用Spearman相关系数进行相关性检验,随后选择合适的训练和测试数据,对堆叠机器学习模型进行初始化训练,模型具体结构及训练过程如图6所示。图6中,首先对学习者在在线教学平台中产生的行为数据进行预处理,随后结合LSDM模型的学习风格标注结果利用SMOTE解决样本不平衡问题,整个堆叠机器学习模型(以下简称SMLM)包括两层,包括4个基本分类器和1个回归器。并且详细展示了模型的训练方法。堆叠是集成学习中的模型融合策略,可通过融合多个单模型来提高整体性。SMLM模型是基于两层模型的融合模型,第一层由四个基本分类器组成:随机森林(RF)、梯度提升决策树(GBDT)、支持向量机(SVM)和多层感知器(MLP)。输入是原始训练集和测试集。第二层的逻辑回归器(LR)使用第一层基本分类器的输出作为输入来加入训练集进行再训练,从而获得完整的堆叠模型。整体过程分为数据预处理、模型的训练与参数调整、模型的评估。具体地:
1)数据预处理
该部分包括日志处理、数据标准化和重采样。首先,日志表示学生在在线教学平台上留下的互动记录,根据指定的规则处理日志记录(标注行为标签),以获取学生的在线学习行为特征,此时将在线学习行为日志数据转换为基于时长和次数的统计数据可以减少堆叠模型的训练难度。接着,由于在线学习行为特征的结构不同,对每一个特征采用如下公式对其进行标准化:
Figure BDA0003061948860000081
式中,y表示某个在线学习行为向量,y*为标准化后的值,ymean是y中的采样ya的均值,ystd是y中的采样ya的标准差。
此外,根据LSDM获得的学习风格的分布来决定是否使用重采样方法,利用SMOTE算法通过分析几种类型的样本分布规律合成新的示例,能够减少由于重复样本的随机过度采样而导致的过度拟合问题。具体而言,对于每个样本,少数类中的样本y′,使用欧几里得距离计算从该类到少数类样本集中所有样本的距离,以获得其n个最近邻居,随后将随机选择的相邻样本
Figure BDA0003061948860000082
与原始样本一起构建新样本,公式如下:
Figure BDA0003061948860000083
式中,y′表示所有在线学习行为记录样本,y′new为新生成的样本,rand(0,1)为0到1之间的随机数。
这些合成数据将添加到原始数据集的训练集中解决类别不平衡的问题。最后,将数据集按照70%、30%划分为训练集、测试集。
2)模型的训练与调整
模型训练的可视化过程如图6所示。具体而言,首先,将预处理后的数据用5折交叉验证策略在堆叠模型中进行训练,该模型将输入训练集分为五个训练集子集traini,i∈[1,5]。然后,对第一层的每个基本分类器进行操作:在5折交叉验证中,每折使用序列i作为验证集,其余四个序列j,j∈[1,5]∧j≠i作为训练集。通过该数据对分类器进行训练。同时,将训练后的模型用于预测测试集。此时,第一层的每个基本分类器将获得五个不同的预测结果。然后,通过垂直堆叠这五个预测结果来获得Pn1,并且通过对验证集的预测数据取平均获取Pn1。最后,将带有相应标签的Pn1用作训练集,并将带有相应标签的Pn2用作测试集,通过元分类器Logistic进行最后的分类,并获得最终的预测结果。
模型的参数调整则采用逐一调优的方法,对于第一层除多层感知器外的单个分类器的参数采用“随机搜索粗调”与“网格搜索细调”相结合的方式,寻找当前数据集下的最优参数,多层感知器则通过反向传播算法来优化网络参数,以提升模型的预测效果。
3)模型的评估
采用准确率(Accuracy)、召回率(Recall)、精准率(Precision)、F1分数和曲线下面积(AUC)对训练所得的堆叠分类模型进行性能评估。
为证明本发明方法的有效性,本实施例进行了实际实验,该实验在在线教学平台上选择了来自某大学的大学生的学习数据,其中包括来自4个年级和18个学院的学生。数据考虑了尽可能多具有不同学习背景的学生。由于学生的学习方式是动态变化的,因此本实验中收集的“量表数据和学习平台数据”是连续的教学学期,以确保研究的及时性。学生在线学习数据的期限为2020年3月1日至2020年7月1日。量表数据整理过程中发现有些反复填写量表、有些学生没有完全填写量表以及有些学生在教学平台上无法匹配。根据心理学研究,人们在填写量表时的第一印象是有效的,因此本实验仅选择学生第一次填写量表的信息,而在后两种情况下将删除学生的信息。最终收集的有效学生数量为2056名,实验共设计了4种学习风格:发散型、集中型、顺应型、同化型。
下面给出本发明的基于融合标签和堆叠机器学习模型的学习风格识别方法,具体步骤为:
一、学习风格标签标注:用两种规则计算得到两份量表对应的学习风格,并取交集得到已划分和未划分的学习风格,随后对在线学习行为量表进行聚类确定学习风格,对未划分的学习风格进行补充。
1.1、下发两份量表给某大学的学生进行回答,回收数据后,针对Kolb学习风格量表,利用如下公式计算各学习风格分数:
Figure BDA0003061948860000091
其中ai,j代表第i个问题的第j个选项的分数,k代表四种学习方式中的一种。每种学习风格的分数是12个问题的相应选项的分数之和,由该方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。针对在线学习行为量表,利用如下公式计算各学习风格分数:
Figure BDA0003061948860000101
其中wi代表研究者设定的i问题的权重,并且将
Figure BDA0003061948860000102
最高的学习风格确定为学生的学习风格,同样由该方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。对于上述两个集合取交集得到LSknow和LSunknow
1.2、在在线学习行为量表数据中对比低方差滤波、皮尔逊相关系数、因子分析和主成分分析的四种降维方法后,得到主成分分析对本数据集的降维效果最好。随后,通过对比K-Means++、Birch、Agglomerative和K-Means的聚类效果,所使用的效果评估指标为Silhouette系数、Calinski-Harabasz系数、Davies-Bouldin指数和簇平衡指数。簇平衡指数是一种评估指标,用于衡量群集数量的波动性,因为群集数量的不平衡会导致学习风格类别的不平衡,具体公式如下:
CBI=std<count(c1)|...|count(c4)>
式中,CBI代表簇平衡指数,std<*|...|*>代表对集合中的所有值求标准差,count(ck)代表对属于同一簇ck的样本求和。
综合评价后得到K-Means++的聚类效果最好,能够较好满足簇间距离尽可能大,簇内距离尽可能小的要求。随后采用EAM对KMeans++得到的4个簇进行簇含义的确定,其中选定质心周围5个样本点作为阈值,通过专家标注成功得到由聚类算法描绘出的学习风格,通过再次取交集的形式,最终划分出2056名学生的学习风格分布为:顺应型为32.93%,分散型为19.94%,同化型为10.51%,集中性为36.62%。
二、学习风格的动态预测:首先利用Spearman相关系数对步骤一得到的学习风格标签和在线学习平台中收集的数据构建合理的特征进行相关性检验,随后选择合适的训练和测试数据,对堆叠机器学习模型进行训练,并构建参数合理的模型。
2.1、首先,根据指定的规则处理日志记录(标注行为标签),以获取学生的在线学习行为特征,此时将在线学习行为日志数据转换为基于时长和次数的统计数据可以减少堆叠模型的训练难度。利用Spearman相关系数对比由LSDM、Kolb学习风格量表、在线学习行为量表划分出的学习风格标签和在线学习平台上学习行为特征作相关性分析,即对学习行为特征x与LSDM得到的标签Y、Kolb量表Y2、在线学习行为量表Y3,分别做Spearman相关性分析,即x与y*之间。
以学习行为特征x与LSDM得到的标签Y为例,Spearman相关系数ρ的计算公式如下:
Figure BDA0003061948860000111
式中,di表示对特征和标签经过Pearson相关系数计算后得到的两个变量分别排序后成对的变量位置差,n表示样本数量。
随后相关性结果显示基于LSDM的学习风格划分方法可以得到4个显著相关的指标(该数量高于Kolb学习风格量表和在线学习行为量表),说明LSDM方法在获取学习风格方面这是更合理的。尽管相关系数在识别重要指标方面很有价值,但是数据之间的关系却非常复杂。描述两个变量如何一起变化的相关系数不能直接确定学生的学习风格。
2.2、随后进入数据预处理部分。由于在线学习行为特征的结构不同,采用如下公式对其进行标准化:
Figure BDA0003061948860000112
此外,根据LSDM获得的学习风格的分布不平衡,需要使用重采样方法,对比5种重采样技术包括随机欠采样、簇质心采样、随机过采样和BorderLine SMOTE和SMOTE的效果,选定SMOTE作为更适合本发明样本的重采样方法。具体而言,对于每个样本,少数类中的y′,使用欧几里得距离计算从该类到少数类样本集中所有样本的距离,以获得其k个最近邻居,随后将随机选择的相邻样本
Figure BDA0003061948860000113
与原始样本一起构建新样本,公式如下:
Figure BDA0003061948860000114
这些合成数据将添加到原始数据集的训练集中解决类别不平衡的问题。最后,将数据集按照70%、30%划分为训练集、测试集。
2.3、接着,构建两层的堆叠机器学习融合模型,第一层由四个基本分类器组成:随机森林、梯度提升决策树、支持向量机和多层感知器,第二层的逻辑回归器。输入是原始训练集和测试集,使用第一层基本分类器的输出作为输入来加入训练集进行再训练。具体而言,首先,将预处理后的数据用5折交叉验证策略在堆叠模型中进行训练,该模型将输入训练集分为五个训练集子集traini,i∈[1,5]。然后,对第一层的每个基本分类器进行操作:在5折交叉验证中,每折使用序列i作为验证集,其余四个序列j,j∈[1,5]∧j≠i作为训练集。通过该数据对分类器进行训练。同时,将训练后的模型用于预测测试集。此时,第一层的每个基本分类器将获得五个不同的预测结果。然后,通过垂直堆叠这五个预测结果来获得Pn1,并且通过对验证集的预测数据取平均获取Pn1。最后,将带有相应标签的Pn1用作训练集,并将带有相应标签的Pn2用作测试集,通过元分类器Logistic进行最后的分类,并获得最终的预测结果。
2.4、随后,将为了进一步评估所提出模型的性能,与基线机器学习方法进行比较:K最近邻分类算法(KNN)、基于高斯的朴素贝叶斯(Gaussian NB)、基于伯努利的朴素贝叶斯(Bernoulli NB)、基于熵的决策树、基于基尼的决策树、支持向量机(SVM)、随机森林(RF)、Adaboost、随机梯度下降分类器(SGD)、带有随机森林的装袋方法(Bagging)、极端随机树(ET)、梯度增强决策树(GBDT)、投票方法和多层感知器(MLP)。同时这些方法均用SMOTE处理后数据进行训练。投票方法中使用的基本分类器与堆叠机器学习模型第一层的分类器相同,参数设置也一致。其余方法都使用sklearn中的相应默认参数。与基线机器学习方法相比,所提出的堆叠机器学习模型具有更好的预测性能。
2.5、然后,模型的参数调整则采用逐一调优的方法,对于第一层除多层感知器外的单个分类器的参数采用“随机搜索粗调”与“网格搜索细调”相结合的方式,寻找当前数据集下的最优参数,多层感知器则通过反向传播算法来优化网络参数,以提升模型的预测效果。
2.6、最后,采用准确率(Accuracy)、召回率(Recall)、精准率(Precision)、F1分数和曲线下面积(AUC)对训练所得的堆叠分类模型进行综合性能评估,获取最优模型后,将在线学习行为数据输入模型进行识别,在线学习行为数据可采用观看视频次数、观看视频时长、参与讨论次数、举手次数等。相比于传统机器学习方法,相同情况下,本发明的模型能够产生准确度更高的结果。
综上所述,本发明所构建的学习风格预测模型基于5种机器学习分类模型和经典聚类算法,它们都是在不同场景下久经考验的机器学习算法,利用这些机器学习算法的特点和优势,构建整体的用于学习者学习风格识别的框架,其中获取学习风格标注时所使用的Kolb学习风格量表也是以往的研究中存在的,且被证明有较高的信效度;因此本发明充分利用了已有的研究成果,针对以往研究未考虑单份量表主观性过高、静态识别无法满足学习风格动态变化特性以及识别精度不足的问题,提出了基于融合标签和堆叠机器学习模型的学习者学习风格识别方法。该方法利用堆叠分类模型的特点通过重构数据和提取重要特征,去除数据中的冗余信息,融合性地训练数据,同时针对样本不平衡造成的准确率下降问题,提出使用SMOTE技术来改善该问题,最终模型在4种学习风格上都取得了精确的识别结果,即本实施例在发散型、集中型、顺应型、同化型的识别准确率可达到97.6%、96.3%、96.1%、95.4%,因此具有实际的应用前景。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,包括下列步骤:
1)利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格,将两种计算结果取交集获取已划分和未划分的学习风格;
2)对已划分和未划分的学习风格进行聚类处理,确定学习风格并标注标签,并对未划分的学习风格进行补充;
3)对步骤2)得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验;
4)对相关性检验合格的在线学习行为特征,选择训练数据和测试数据,利用堆叠机器学习模型进行训练,得到完整的堆叠模型;
5)对训练后的堆叠模型进行综合性能评估,优化堆叠模型,利用优化后的堆叠模型进行实际学习者的学习风格预测。
2.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,步骤1)的具体步骤包括:
11)获取学习者的Kolb学习风格量表,计算各学习风格分数;
12)获取学习者的在线学习行为调查量表,计算各学习风格分数,与基于学习者的Kolb学习风格量表得到的各学习风格分数取交集,获取成功划分出学习风格的集合和未能成功划分出学习风格的集合。
3.根据权利要求2所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,所述的学习风格分数的计算式为:
Figure FDA0003061948850000011
式中:LSk为学习风格分数,ai,j为第i个问题的第j个选项的分数,k代表学习者所有学习方式中的一种。
4.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,步骤2)的具体内容为:
对在线学习行为调查量表数据进行特征降维后,利用K-Means++对降维后的数据进行聚类,得到四个聚类簇,随后构建基于专家标注的簇含义确定方法以确定每一簇的质心的位置,随后计算从其余点到质心的欧几里得距离,利用质心选择方法选择聚类中最接近质心的阈值内的样本点,根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签,并对未划分的学习风格进行补充。
5.根据权利要求4所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签,并对未划分的学习风格进行补充的具体内容为:
若确定样本点有超50%的样本为同一种学习风格,则集群的内在含义被确定为该学习风格,若不满足超50%的条件,则将以阈值扩大1个的速度扩大阈值直至能够成功划分学习风格为止;最后对未能划分出的学习风格进行补充。
6.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,步骤3)中,对步骤2)得到的学习风格标签与在线学习平台收集的在线学习行为特征通过Spearman相关系数进行相关性检验。
7.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,步骤4)中,利用堆叠机器学习模型进行训练的具体步骤包括:
41)对学习者于在线教学平台中产生的行为数据进行预处理;
42)结合步骤2)得到的学习风格标注结果,构建堆叠机器学习模型;
43)对构建的堆叠机器学习模型进行模型训练与参数调整,获取完整的堆叠模型。
8.根据权利要求7所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,所述堆叠机器学习模型为基于两层模型的融合模型,第一层包括四个基本分类器:随机森林、梯度提升决策树、支持向量机和多层感知器,第一层的输入为原始训练集和测试集;第二层为逻辑回归器,第二层采用第一层基本分类器的输出作为输入,通过加入训练集进行再训练,进而获取完整的堆叠模型。
9.根据权利要求7所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,在步骤43)前,还包括利用SMOTE算法进行样本重采样步骤。
10.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法,其特征在于,步骤5)中,采用准确率、召回率、精准率、F1分数和曲线下面积对训练后的堆叠模型进行综合性能评估,优化堆叠模型。
CN202110517025.9A 2021-05-12 2021-05-12 基于融合标签和堆叠机器学习模型的学习风格识别方法 Pending CN113408576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110517025.9A CN113408576A (zh) 2021-05-12 2021-05-12 基于融合标签和堆叠机器学习模型的学习风格识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110517025.9A CN113408576A (zh) 2021-05-12 2021-05-12 基于融合标签和堆叠机器学习模型的学习风格识别方法

Publications (1)

Publication Number Publication Date
CN113408576A true CN113408576A (zh) 2021-09-17

Family

ID=77678346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517025.9A Pending CN113408576A (zh) 2021-05-12 2021-05-12 基于融合标签和堆叠机器学习模型的学习风格识别方法

Country Status (1)

Country Link
CN (1) CN113408576A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236572A (zh) * 2023-11-14 2023-12-15 深圳市共安实业发展有限公司 一种基于数据分析的干粉灭火设备性能评估方法及系统
CN117577214A (zh) * 2023-05-19 2024-02-20 广东工业大学 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
KR20120114802A (ko) * 2011-04-08 2012-10-17 (주)디유넷 감성기반 학습모형 관리 시스템 및 그 제어방법
CN105512349A (zh) * 2016-02-23 2016-04-20 首都师范大学 一种用于学习者自适应学习的问答方法及装置
CN107423851A (zh) * 2017-07-20 2017-12-01 上海理工大学 基于学习风格情境感知的自适应学习方法
US20180232644A1 (en) * 2017-02-14 2018-08-16 Cognitive Scale, Inc. Temporal Topic Machine Learning Operation
CN109213863A (zh) * 2018-08-21 2019-01-15 北京航空航天大学 一种基于学习风格的自适应推荐方法及系统
CN110085203A (zh) * 2019-04-18 2019-08-02 东华大学 一种基于对偶生成对抗网络的音乐风格融合方法
US20200051450A1 (en) * 2018-08-13 2020-02-13 Facil Ltd.Co. Audio-visual teaching platform and recommendation subsystem, analysis subsystem, recommendation method, analysis method thereof
CN111125640A (zh) * 2019-12-23 2020-05-08 江苏金智教育信息股份有限公司 一种知识点学习路径推荐方法和装置
CN111783826A (zh) * 2020-05-27 2020-10-16 西华大学 一种基于预分类与集成学习的驾驶风格分类方法
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112231557A (zh) * 2020-03-20 2021-01-15 张明 在线学习挖掘方法、在线学习系统及服务器
CN112559968A (zh) * 2020-12-09 2021-03-26 深圳大学 一种基于多情境数据的驾驶风格表征学习方法
CN112660140A (zh) * 2020-12-28 2021-04-16 华北科技学院 基于机器学习的驾驶风格分类方法、装置和电子设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
KR20120114802A (ko) * 2011-04-08 2012-10-17 (주)디유넷 감성기반 학습모형 관리 시스템 및 그 제어방법
CN105512349A (zh) * 2016-02-23 2016-04-20 首都师范大学 一种用于学习者自适应学习的问答方法及装置
US20180232644A1 (en) * 2017-02-14 2018-08-16 Cognitive Scale, Inc. Temporal Topic Machine Learning Operation
CN107423851A (zh) * 2017-07-20 2017-12-01 上海理工大学 基于学习风格情境感知的自适应学习方法
US20200051450A1 (en) * 2018-08-13 2020-02-13 Facil Ltd.Co. Audio-visual teaching platform and recommendation subsystem, analysis subsystem, recommendation method, analysis method thereof
CN109213863A (zh) * 2018-08-21 2019-01-15 北京航空航天大学 一种基于学习风格的自适应推荐方法及系统
CN110085203A (zh) * 2019-04-18 2019-08-02 东华大学 一种基于对偶生成对抗网络的音乐风格融合方法
CN111125640A (zh) * 2019-12-23 2020-05-08 江苏金智教育信息股份有限公司 一种知识点学习路径推荐方法和装置
CN112231557A (zh) * 2020-03-20 2021-01-15 张明 在线学习挖掘方法、在线学习系统及服务器
CN111783826A (zh) * 2020-05-27 2020-10-16 西华大学 一种基于预分类与集成学习的驾驶风格分类方法
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112559968A (zh) * 2020-12-09 2021-03-26 深圳大学 一种基于多情境数据的驾驶风格表征学习方法
CN112660140A (zh) * 2020-12-28 2021-04-16 华北科技学院 基于机器学习的驾驶风格分类方法、装置和电子设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BRAHIM HMEDNA等: "A predictive model for the identification of learning styles in MOOC environments", 《CLUSTER COMPUTING》, vol. 23, 12 October 2019 (2019-10-12), pages 1303 - 1328, XP037195991, DOI: 10.1007/s10586-019-02992-4 *
HAO ZHANG等: "A learning style classification approach based on deep belief network for large-scale online education", 《JOURNAL OF CLOUD COMPUTING》, vol. 9, 18 May 2020 (2020-05-18), pages 1 - 17, XP021276762, DOI: 10.1186/s13677-020-00165-y *
JIE HU等: "Abnormal driving detection with normalized driving behavior data: A deep learning approach", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》, vol. 69, no. 7, 8 May 2020 (2020-05-08), pages 6943 - 6951, XP011798510, DOI: 10.1109/TVT.2020.2993247 *
QIN NI等: "Design and Implementation of the Reliable Learning Style Recognition Mechanism Based on Fusion Labels and Ensemble Classification", 《IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES》, vol. 17, 24 April 2023 (2023-04-24), pages 241 - 257, XP011957477, DOI: 10.1109/TLT.2023.3263568 *
XIANGXIANG ZHENG等: "Comparison of Machine Learning Methods for Potential Active Landslide Hazards Identification with Multi-Source Data", 《ISPRS INTERNATIONAL JOURNAL O F GEO-INFORMATION》, vol. 10, no. 4, 9 April 2021 (2021-04-09), pages 1 - 22 *
冯小妹: "在线课程中学习风格自动识别方法研究", 《中国优秀硕士学位论文全文数据库:社会科学Ⅱ辑》, no. 2020, 15 January 2020 (2020-01-15), pages 127 - 284 *
赵金青: "基于学习风格的E-Learning推荐算法研究", 《中国优秀硕士学位论文全文数据库:信息科技辑》, no. 2019, 15 May 2019 (2019-05-15), pages 138 - 1732 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577214A (zh) * 2023-05-19 2024-02-20 广东工业大学 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
CN117577214B (zh) * 2023-05-19 2024-04-12 广东工业大学 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法
CN117236572A (zh) * 2023-11-14 2023-12-15 深圳市共安实业发展有限公司 一种基于数据分析的干粉灭火设备性能评估方法及系统
CN117236572B (zh) * 2023-11-14 2024-03-29 深圳市共安实业发展有限公司 一种基于数据分析的干粉灭火设备性能评估方法及系统

Similar Documents

Publication Publication Date Title
Sikder et al. Predicting students yearly performance using neural network: A case study of BSMRSTU
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN111831905A (zh) 基于团队科研影响力及可持续性建模的推荐方法和装置
CN113408576A (zh) 基于融合标签和堆叠机器学习模型的学习风格识别方法
CN112756759A (zh) 点焊机器人工作站故障判定方法
CN114649075A (zh) 一种基于机器学习的抑郁症评级系统及方法
Chen et al. LogCF: Deep Collaborative Filtering with Process Data for Enhanced Learning Outcome Modeling.
Bama et al. Efficient classification using average weighted pattern score with attribute rank based feature selection
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
Saha et al. The Corporeality of Infotainment on Fans Feedback Towards Sports Comment Employing Convolutional Long-Short Term Neural Network
Zhang et al. Credit risk control algorithm based on stacking ensemble learning
Livieris et al. A semi-supervised self-trained two-level algorithm for forecasting students’ graduation time
Ruiz-Rodríguez et al. Classification of student success using random forest and neural networks
Sghir et al. Using learning analytics to improve students' enrollments in higher education
Purnomo et al. Synthesis ensemble oversampling and ensemble tree-based machine learning for class imbalance problem in breast cancer diagnosis
Alajlan Model-based approach for anEarly diabetes PredicationUsing machine learning algorithms
Assegaf Student academic performance prediction on problem based learning using support vector machine and K-nearest neighbor
Zhang et al. Multiple Classification Models Based Student's Phobia Prediction Study
Medina et al. Automatic detection of students at risk of dropping out of school using mRMR and Late Fusion
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
Uvaliyeva et al. The Development of the Staking-Ensemble of Methods for Analyzing Academic Data
Lavesson Evaluation of classifier performance and the impact of learning algorithm parameters
Krishna et al. Parkinson's Disease Detection from Speech Signals Using Explainable Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination