CN113408576A

CN113408576A - 基于融合标签和堆叠机器学习模型的学习风格识别方法

Info

Publication number: CN113408576A
Application number: CN202110517025.9A
Authority: CN
Inventors: 倪琴; 徐宇辉; 张波; 樊卓; 魏廷江
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University; University of Shanghai for Science and Technology
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-09-17

Abstract

本发明涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法，包括步骤：1)利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格，将两种计算结果取交集获取已划分和未划分的学习风格；2)对已划分和未划分的学习风格进行聚类处理，确定学习风格并标注标签，并对未划分的学习风格进行补充；3)对得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验；4)选择训练数据和测试数据，利用堆叠机器学习模型进行训练，得到完整的堆叠模型；5)对训练后的堆叠模型进行综合性能评估。与现有技术相比，本发明具有减少模型训练难度、提高识别准确率等优点。

Description

基于融合标签和堆叠机器学习模型的学习风格识别方法

技术领域

本发明涉及信息识别技术领域，尤其是涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法。

背景技术

在线教育消除了传统教育的时间和空间的限制，允许教师和学生随时随地进行交流，这给孔子提出的“因材施教”的实现带来了可能性。诸如Dunn，Kolb，Felder和Keefe之类的学者早已认识到，学生有着不同的学习新知识的风格，学生的差异包括人格特征、知识水平、学习能力和学习风格等。其中，学习风格包括学习偏好和学习特点。找到适合学生的学习风格可以指导学生学习，因此学习风格的自动识别任务对于促进在线教育环境中的个性化学习至关重要。

识别学习风格的传统方法是要求学习者填写学习风格量表。尽管这类方法是有效的，但仍然存在一些不足。首先，传统的学习风格量表设计者在准备问题时无法避免主观因素；其次，学习者在填写量表时对自己的认知不够清晰，会直接导致学习风格识别的不准确；再次，当多种学习风格的评价指标具有一致的分数时，量表可能无法识别学习方式；最后，学生的学习风格存在动态变化的特性，而基于量表的识别是一种静态的方法。因此，当前形势下，利用多源异构的在线教育数据隐式且动态地识别学习者的学习风格，从而解决无法识别、识别不精确、主观性高、静态识别等一系列传统学习风格识别中的问题，为在线教育背景下个性化学习的实现提供方法支撑。

目前，国内外学者对于学习风格的识别有着各种各样的研究，识别学习风格的方法有两条路线：基于自定义规则的量表识别方法和基于机器学习技术的自动识别方法。当不方便收集学习者的在线学习行为数据时，量表识别方法是一种传统方法。自动识别方法能够通过清理和整合学生的在线学习行为数据从而划分出学习者的学习风格，BrahimHmedna等人设计了一种能够利用MOOC中学生产生的学习行为数据来自动识别学习风格的方法，该模型的本质是将数据聚类以获得学习风格标签，随后使用分类算法来预测学习风格。该方法的问题在于可解释性不足，因为聚类结果的实际意义需要采用人工方法说明，而该方法直接利用数据本身的分布获得的聚类结果去作为学习者的学习风格标签。Chia-Cheng Hsu等人提出了一种基于神经元模糊推理的FIS模型，用于识别在线学习者的学习风格；其本质是使用自定义规则通过单个隐藏层神经网络识别学习风格，由于实验验证部分的学习者人数只有102人，导致学习风格分布不均匀时该方法的可解释性不足。Song Lai等人提出的EENN-PSO模型在识别学习风格方面达到了很高的准确率，但是该研究的问题在于仅使用NEO-FFI量表获取学习风格标签，单个量表的使用存在主观性过高。此外，深度学习最近已应用于识别学习风格。张浩等人构建了一种用于学习风格检测的深度信念神经网络，并且在单个学习风格的最高识别准确率(Vis/Vrb)为0.89。但是深度学习方法需要大量数据来训练模型，这将花费大量时间的同时无法保证数据的可解释性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于融合标签和堆叠机器学习模型的学习风格识别方法。

本发明的目的可以通过以下技术方案来实现：

基于融合标签和堆叠机器学习模型的学习风格识别方法，该方法包括如下步骤：

S1：利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格，将两种计算结果取交集获取已划分和未划分的学习风格。

S2：对已划分和未划分的学习风格进行聚类处理，确定学习风格并标注标签，并对未划分的学习风格进行补充。

S3：对步骤S2：得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验。

S4：对相关性检验合格的在线学习行为特征，选择训练数据和测试数据，利用堆叠机器学习模型进行训练，得到完整的堆叠模型。

S5：对训练后的堆叠模型进行综合性能评估，优化堆叠模型，利用优化后的堆叠模型进行实际学习者的学习风格预测。

步骤S1的具体步骤包括：

11)获取学习者的Kolb学习风格量表，计算各学习风格分数；

12)获取学习者的在线学习行为调查量表，计算各学习风格分数，与基于学习者的Kolb学习风格量表得到的各学习风格分数取交集，获取成功划分出学习风格的集合和未能成功划分出学习风格的集合。

所述的学习风格分数的计算式为：

式中：LS_k为学习风格分数，a_i,j为第i个问题的第j个选项的分数，k代表学习者所有学习方式中的一种。

步骤S2的具体内容为：

对在线学习行为调查量表数据进行特征降维后，利用K-Means++对降维后的数据进行聚类，得到四个聚类簇，随后构建基于专家标注的簇含义确定方法以确定每一簇的质心的位置，随后计算从其余点到质心的欧几里得距离，利用质心选择方法选择聚类中最接近质心的阈值内的样本点，根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签，并对未划分的学习风格进行补充。

进一步地，根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签，并对未划分的学习风格进行补充的具体内容为：

若确定样本点有超50％的样本为同一种学习风格，则集群的内在含义被确定为该学习风格，若不满足超50％的条件，则将以阈值扩大1个的速度扩大阈值直至能够成功划分学习风格为止；最后对未能划分出的学习风格进行补充。

步骤S3中，对步骤S2得到的学习风格标签与在线学习平台收集的在线学习行为特征通过Spearman相关系数进行相关性检验。

步骤S4中，利用堆叠机器学习模型进行训练的具体步骤包括：

41)对学习者于在线教学平台中产生的行为数据进行预处理；

42)结合步骤S2得到的学习风格标注结果，构建堆叠机器学习模型；

43)对构建的堆叠机器学习模型进行模型训练与参数调整，获取完整的堆叠模型。

所述堆叠机器学习模型为基于两层模型的融合模型，第一层包括四个基本分类器：随机森林、梯度提升决策树、支持向量机和多层感知器，第一层的输入为原始训练集和测试集；第二层为逻辑回归器，第二层采用第一层基本分类器的输出作为输入，通过加入训练集进行再训练，进而获取完整的堆叠模型。

进一步地，在步骤43)前，还包括利用SMOTE算法进行样本重采样步骤。

步骤S5中，采用准确率、召回率、精准率、F1分数和曲线下面积对训练后的堆叠模型进行综合性能评估，优化堆叠模型。

本发明提供的基于融合标签和堆叠机器学习模型的学习风格识别方法，相较于现有技术至少包括如下有益效果：

1)本发明提出了一种能够动态识别学习风格的方法，该方法通过处理学习者填写的两份量表获得学习者的学习风格标签，随后采用学生在在线教学平台上产生的数据预测其学习风格，所处理的数据量大且丰富，且数据结构为二阶张量，能够减少模型训练的难度，减少识别所需的时间；

2)本发明方法采用了基于融合标签的学习风格聚类，通过融合两份量表的标注结果能够减少单份量表引起的高度主观性问题，通过利用Spearman相关系数对比由LSDM、Kolb学习风格量表、在线学习行为量表划分出的学习风格标签和在线学习平台上学习行为特征作相关性分析，有利于更加客观、准确地获取识别结果；

3)本发明方法基于重采样技术构建两层堆叠模型，可以通过将学习者的学习行为数据整合到在线教学平台上来预测学习风格，进而可以减少类别不均衡导致的预测性能不佳的问题，同时与传统的机器学习方法相比具有更高的识别准确率。

4)本发明基于机器学习模型，所涉及的数据量较大，且结构为二阶张量，实验的所有特征均有可解释性，即无需使用现有技术深度学习的模型进行实验，避免了采用深度学习而破坏解释性的问题。

附图说明

图1为实施例中基于融合标签和堆叠机器学习模型的学习风格识别方法的流程示意图；

图2为实施例中基于融合标签和堆叠机器学习模型的学习风格识别方法的原理框图；

图3为实施例中本发明构建的学习风格标签划分方法总体框架示意图；

图4为实施例中本发明构建的聚类簇含义确定方法示意图；

图5为实施例中本发明构建的在线学习行为量表示意图；

图6为实施例中本发明构建的学习风格预测方法总体框架示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本发明的目的是针对学习风格识别的应用领域，所提出的基于融合标签和堆叠机器学习模型的方法可以隐式且动态地识别学习者在线学习过程中的学习风格。学习者的学习风格依据Kolb学习风格理论划分为4种：发散型、集中型、顺应型、同化型，由于学习风格会随着学习者年龄的提升、认知水平和所处环境等因素的改变而发生变化，这种易变性使得量表静态获取学习风格的方法变得不可靠。此外，因为无法保证所收集到的数据样本的具有平衡的学习风格标签，为了保证识别的准确率，利用堆叠机器学习模型识别学习风格的同时采用一种重采样技术来改善数据样本不平衡的问题，以获得更高的识别率。

本发明涉及一种基于融合标签和堆叠机器学习模型的学习风格识别方法，该方法的基本流程如图1所示，整体方法主要分成学习者学习风格的标签获取和学习者学习风格的动态识别两个步骤，具体内容如下：

步骤1：起初学习者的学习风格处于未知状态，利用本发明提出的学习风格标签获取方法(Learning Style Dividing Method)，以下采用LSDM表示，来解决学习者学习风格的标注问题，方法具体流程如图3所示。图3中，首先由多名学习者各填写两份量表得到对应的量表数据后分别采用客观和主观的方法进行学习风格的划分，主观方法描述为一种基于给定规则的学习风格划分方法，当学习风格得分有多项最高时，两种规则都无法有效划分学习风格，采用取交集的方式获取主观方法下的学习风格；客观方法描述为一种基于聚类算法的学习风格划分方法，根据调整后的轮廓系数(Silhouette score)选择最优的聚类算法，随后将聚类出的簇根据EAM确定每个簇具体含义的方法，得到客观方法下的学习风格。最后对主观方法和客观方法的学习风格划分结果取交集得到最终的学习风格标签。即LSDM通过融合两份量表基于规则的标注结果和聚类算法的标注结果，减少由单份量表获取标签带来的主观性过高问题，学习者在该方法中需要填写两份量表：Kolb学习风格量表和在线学习行为调查量表(如图4所示)，接着分别阐述在线学习行为量表的设计思想和融合学习风格标签的具体方法。

1)Kolb学习风格量表设计思想

由于学习风格和学习能力有着密不可分的关系，因此本发明设计了一份新的在线学习行为量表作为Kolb学习风格量表的补充，在线学习行为量表总共包含27个问题。每个预设问题的背后对应着学生不同的学习能力，这些学习能力可以反映出学生的内隐学习行为。该量表使用Likert5级量表结构(非常同意，同意，不确定，不同意，非常不同意)作为每个预设问题的回答。Kolb学习风格背后隐藏了四种基本能力：特定和体验能力(解决力、想象力、执行力)、动作和应用能力(注意力、目的性、独立性)、反思和观察能力(解释力、意志力、反馈性)、抽象和总结能力(抽象力、逻辑性、实践力)，根据量表设计的合理性原则，每种学习能力至少有3个问题进行衡量。总体遵循“保证量表质量的同时尽可能减少问题的数量”的原则，具体量表见图4。

2)融合学习风格标签的方法

对于Kolb学习风格量表中共计12个问题，学习者需要根据他们的匹配程度对每个问题中的四个选项进行排序，随后使用给定的规则计算学习者每种学习风格对应的分数。学习风格分数LS_k的计算公式如下：

其中a_i,j代表第i个问题的第j个选项的分数，k代表四种学习方式中的一种。每种学习风格的分数是12个问题的相应选项的分数之和，接着，将得分最高的学习风格确认为学习者的学习风格，但是当多种学习风格获得相同的最高得分时，该方式无法划分学习风格，比如发散型和顺应型的得分都为33，均大于其他两种学习风格。由计算学习风格分数的方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。对于在线学习行为量表以同样的方式进行计算，随后对两者得到的结果取交集，对于两者均成功划分出相同的学习风格，则视为该学习者此刻的学习风格。剩余未能成功的采用基于聚类的学习风格标签划分方法进行补充。

首先，过高的特征数量对聚类效果会产生不良的影响。因此，有必要在聚类之前使用线性变换来减小在线学习行为量表数据的特征维数，同时保留数据的原始含义。优选地，原量表有27个维度，减少到24个维度时，聚类效果最佳。由此选择主成分分析作为特征降维算法，对降维后的数据利用K-Means++进行聚类实验，得到四个聚类簇，随后构建一种基于专家标注的簇含义确定方法(Expert annotation method，EAM)，见图5。质心是在迭代过程中由K-Means++算法连续调整的值。聚类算法在完成聚类后可以确定每一簇的质心的位置。假设将群集C划分为{c₁,c₂,...,c_m}，m为群集划分数量，则K-Means++的目标是使平方误差E最小：

其中，u_n是群集c_n的质心，x是群集c_n中的采样，||*||₂表示两个向量之间的欧几里得距离。质心的公式如下：

获得聚类的质心后，计算从其余点到质心的欧几里得距离。随后，设定初始距离阈值为5，即选择聚类中距离质心最近的5个样本点，接着，专家需要根据这5个样本点的Kolb学习风格量表数据和在线学习行为量表数据来确定它们各自的学习风格。如果专家确定样本点有大于半数的样本是同一种学习风格，则集群的内在含义将被确定为该学习风格，如不满足上述条件质心选择方法，将以阈值扩大1个的速度扩大阈值直到能够成功划分学习风格为止，该方法称为EAM，见图5。最后，将该部分划分出的学习风格对基于规则的方法中未能划分出的学习风格进行补充。

步骤2：根据步骤1得到的学习风格标签，利用在线学习平台中收集的数据构建合理的特征，随后对两者之间利用Spearman相关系数进行相关性检验，随后选择合适的训练和测试数据，对堆叠机器学习模型进行初始化训练，模型具体结构及训练过程如图6所示。图6中，首先对学习者在在线教学平台中产生的行为数据进行预处理，随后结合LSDM模型的学习风格标注结果利用SMOTE解决样本不平衡问题，整个堆叠机器学习模型(以下简称SMLM)包括两层，包括4个基本分类器和1个回归器。并且详细展示了模型的训练方法。堆叠是集成学习中的模型融合策略，可通过融合多个单模型来提高整体性。SMLM模型是基于两层模型的融合模型，第一层由四个基本分类器组成：随机森林(RF)、梯度提升决策树(GBDT)、支持向量机(SVM)和多层感知器(MLP)。输入是原始训练集和测试集。第二层的逻辑回归器(LR)使用第一层基本分类器的输出作为输入来加入训练集进行再训练，从而获得完整的堆叠模型。整体过程分为数据预处理、模型的训练与参数调整、模型的评估。具体地：

1)数据预处理

该部分包括日志处理、数据标准化和重采样。首先，日志表示学生在在线教学平台上留下的互动记录，根据指定的规则处理日志记录(标注行为标签)，以获取学生的在线学习行为特征，此时将在线学习行为日志数据转换为基于时长和次数的统计数据可以减少堆叠模型的训练难度。接着，由于在线学习行为特征的结构不同，对每一个特征采用如下公式对其进行标准化：

式中，y表示某个在线学习行为向量，y^*为标准化后的值，y_mean是y中的采样y_a的均值，y_std是y中的采样y_a的标准差。

此外，根据LSDM获得的学习风格的分布来决定是否使用重采样方法，利用SMOTE算法通过分析几种类型的样本分布规律合成新的示例，能够减少由于重复样本的随机过度采样而导致的过度拟合问题。具体而言，对于每个样本，少数类中的样本y′，使用欧几里得距离计算从该类到少数类样本集中所有样本的距离，以获得其n个最近邻居，随后将随机选择的相邻样本

与原始样本一起构建新样本，公式如下：

式中，y′表示所有在线学习行为记录样本，y′_new为新生成的样本，rand(0,1)为0到1之间的随机数。

这些合成数据将添加到原始数据集的训练集中解决类别不平衡的问题。最后，将数据集按照70％、30％划分为训练集、测试集。

2)模型的训练与调整

模型训练的可视化过程如图6所示。具体而言，首先，将预处理后的数据用5折交叉验证策略在堆叠模型中进行训练，该模型将输入训练集分为五个训练集子集train_i,i∈[1,5]。然后，对第一层的每个基本分类器进行操作：在5折交叉验证中，每折使用序列i作为验证集，其余四个序列j,j∈[1,5]∧j≠i作为训练集。通过该数据对分类器进行训练。同时，将训练后的模型用于预测测试集。此时，第一层的每个基本分类器将获得五个不同的预测结果。然后，通过垂直堆叠这五个预测结果来获得P_n1,并且通过对验证集的预测数据取平均获取P_n1。最后，将带有相应标签的P_n1用作训练集，并将带有相应标签的P_n2用作测试集，通过元分类器Logistic进行最后的分类，并获得最终的预测结果。

模型的参数调整则采用逐一调优的方法，对于第一层除多层感知器外的单个分类器的参数采用“随机搜索粗调”与“网格搜索细调”相结合的方式，寻找当前数据集下的最优参数，多层感知器则通过反向传播算法来优化网络参数，以提升模型的预测效果。

3)模型的评估

采用准确率(Accuracy)、召回率(Recall)、精准率(Precision)、F1分数和曲线下面积(AUC)对训练所得的堆叠分类模型进行性能评估。

为证明本发明方法的有效性，本实施例进行了实际实验，该实验在在线教学平台上选择了来自某大学的大学生的学习数据，其中包括来自4个年级和18个学院的学生。数据考虑了尽可能多具有不同学习背景的学生。由于学生的学习方式是动态变化的，因此本实验中收集的“量表数据和学习平台数据”是连续的教学学期，以确保研究的及时性。学生在线学习数据的期限为2020年3月1日至2020年7月1日。量表数据整理过程中发现有些反复填写量表、有些学生没有完全填写量表以及有些学生在教学平台上无法匹配。根据心理学研究，人们在填写量表时的第一印象是有效的，因此本实验仅选择学生第一次填写量表的信息，而在后两种情况下将删除学生的信息。最终收集的有效学生数量为2056名，实验共设计了4种学习风格：发散型、集中型、顺应型、同化型。

下面给出本发明的基于融合标签和堆叠机器学习模型的学习风格识别方法，具体步骤为：

一、学习风格标签标注：用两种规则计算得到两份量表对应的学习风格，并取交集得到已划分和未划分的学习风格，随后对在线学习行为量表进行聚类确定学习风格，对未划分的学习风格进行补充。

1.1、下发两份量表给某大学的学生进行回答，回收数据后，针对Kolb学习风格量表，利用如下公式计算各学习风格分数：

其中a_i,j代表第i个问题的第j个选项的分数，k代表四种学习方式中的一种。每种学习风格的分数是12个问题的相应选项的分数之和,由该方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。针对在线学习行为量表，利用如下公式计算各学习风格分数：

其中w_i代表研究者设定的i问题的权重，并且将

最高的学习风格确定为学生的学习风格，同样由该方式得到成功划分出学习风格的集合和未能成功划分出学习风格的集合。对于上述两个集合取交集得到LS_know和LS_unknow。

1.2、在在线学习行为量表数据中对比低方差滤波、皮尔逊相关系数、因子分析和主成分分析的四种降维方法后，得到主成分分析对本数据集的降维效果最好。随后，通过对比K-Means++、Birch、Agglomerative和K-Means的聚类效果，所使用的效果评估指标为Silhouette系数、Calinski-Harabasz系数、Davies-Bouldin指数和簇平衡指数。簇平衡指数是一种评估指标，用于衡量群集数量的波动性，因为群集数量的不平衡会导致学习风格类别的不平衡，具体公式如下：

CBI＝std<count(c₁)|...|count(c₄)>

式中，CBI代表簇平衡指数，std<*|...|*>代表对集合中的所有值求标准差，count(c_k)代表对属于同一簇c_k的样本求和。

综合评价后得到K-Means++的聚类效果最好，能够较好满足簇间距离尽可能大，簇内距离尽可能小的要求。随后采用EAM对KMeans++得到的4个簇进行簇含义的确定，其中选定质心周围5个样本点作为阈值，通过专家标注成功得到由聚类算法描绘出的学习风格，通过再次取交集的形式，最终划分出2056名学生的学习风格分布为：顺应型为32.93％，分散型为19.94％，同化型为10.51％，集中性为36.62％。

二、学习风格的动态预测：首先利用Spearman相关系数对步骤一得到的学习风格标签和在线学习平台中收集的数据构建合理的特征进行相关性检验，随后选择合适的训练和测试数据，对堆叠机器学习模型进行训练，并构建参数合理的模型。

2.1、首先，根据指定的规则处理日志记录(标注行为标签)，以获取学生的在线学习行为特征，此时将在线学习行为日志数据转换为基于时长和次数的统计数据可以减少堆叠模型的训练难度。利用Spearman相关系数对比由LSDM、Kolb学习风格量表、在线学习行为量表划分出的学习风格标签和在线学习平台上学习行为特征作相关性分析，即对学习行为特征x与LSDM得到的标签Y、Kolb量表Y2、在线学习行为量表Y3，分别做Spearman相关性分析，即x与y^*之间。

以学习行为特征x与LSDM得到的标签Y为例，Spearman相关系数ρ的计算公式如下：

式中，d_i表示对特征和标签经过Pearson相关系数计算后得到的两个变量分别排序后成对的变量位置差，n表示样本数量。

随后相关性结果显示基于LSDM的学习风格划分方法可以得到4个显著相关的指标(该数量高于Kolb学习风格量表和在线学习行为量表)，说明LSDM方法在获取学习风格方面这是更合理的。尽管相关系数在识别重要指标方面很有价值，但是数据之间的关系却非常复杂。描述两个变量如何一起变化的相关系数不能直接确定学生的学习风格。

2.2、随后进入数据预处理部分。由于在线学习行为特征的结构不同，采用如下公式对其进行标准化：

此外，根据LSDM获得的学习风格的分布不平衡，需要使用重采样方法，对比5种重采样技术包括随机欠采样、簇质心采样、随机过采样和BorderLine SMOTE和SMOTE的效果，选定SMOTE作为更适合本发明样本的重采样方法。具体而言，对于每个样本，少数类中的y′，使用欧几里得距离计算从该类到少数类样本集中所有样本的距离，以获得其k个最近邻居，随后将随机选择的相邻样本

与原始样本一起构建新样本，公式如下：

2.3、接着，构建两层的堆叠机器学习融合模型，第一层由四个基本分类器组成：随机森林、梯度提升决策树、支持向量机和多层感知器，第二层的逻辑回归器。输入是原始训练集和测试集，使用第一层基本分类器的输出作为输入来加入训练集进行再训练。具体而言，首先，将预处理后的数据用5折交叉验证策略在堆叠模型中进行训练，该模型将输入训练集分为五个训练集子集train_i,i∈[1,5]。然后，对第一层的每个基本分类器进行操作：在5折交叉验证中，每折使用序列i作为验证集，其余四个序列j,j∈[1,5]∧j≠i作为训练集。通过该数据对分类器进行训练。同时，将训练后的模型用于预测测试集。此时，第一层的每个基本分类器将获得五个不同的预测结果。然后，通过垂直堆叠这五个预测结果来获得P_n1,并且通过对验证集的预测数据取平均获取P_n1。最后，将带有相应标签的P_n1用作训练集，并将带有相应标签的P_n2用作测试集，通过元分类器Logistic进行最后的分类，并获得最终的预测结果。

2.4、随后，将为了进一步评估所提出模型的性能，与基线机器学习方法进行比较：K最近邻分类算法(KNN)、基于高斯的朴素贝叶斯(Gaussian NB)、基于伯努利的朴素贝叶斯(Bernoulli NB)、基于熵的决策树、基于基尼的决策树、支持向量机(SVM)、随机森林(RF)、Adaboost、随机梯度下降分类器(SGD)、带有随机森林的装袋方法(Bagging)、极端随机树(ET)、梯度增强决策树(GBDT)、投票方法和多层感知器(MLP)。同时这些方法均用SMOTE处理后数据进行训练。投票方法中使用的基本分类器与堆叠机器学习模型第一层的分类器相同，参数设置也一致。其余方法都使用sklearn中的相应默认参数。与基线机器学习方法相比，所提出的堆叠机器学习模型具有更好的预测性能。

2.5、然后，模型的参数调整则采用逐一调优的方法，对于第一层除多层感知器外的单个分类器的参数采用“随机搜索粗调”与“网格搜索细调”相结合的方式，寻找当前数据集下的最优参数，多层感知器则通过反向传播算法来优化网络参数，以提升模型的预测效果。

2.6、最后，采用准确率(Accuracy)、召回率(Recall)、精准率(Precision)、F1分数和曲线下面积(AUC)对训练所得的堆叠分类模型进行综合性能评估，获取最优模型后，将在线学习行为数据输入模型进行识别，在线学习行为数据可采用观看视频次数、观看视频时长、参与讨论次数、举手次数等。相比于传统机器学习方法，相同情况下，本发明的模型能够产生准确度更高的结果。

综上所述，本发明所构建的学习风格预测模型基于5种机器学习分类模型和经典聚类算法，它们都是在不同场景下久经考验的机器学习算法，利用这些机器学习算法的特点和优势，构建整体的用于学习者学习风格识别的框架，其中获取学习风格标注时所使用的Kolb学习风格量表也是以往的研究中存在的，且被证明有较高的信效度；因此本发明充分利用了已有的研究成果，针对以往研究未考虑单份量表主观性过高、静态识别无法满足学习风格动态变化特性以及识别精度不足的问题，提出了基于融合标签和堆叠机器学习模型的学习者学习风格识别方法。该方法利用堆叠分类模型的特点通过重构数据和提取重要特征，去除数据中的冗余信息，融合性地训练数据，同时针对样本不平衡造成的准确率下降问题，提出使用SMOTE技术来改善该问题，最终模型在4种学习风格上都取得了精确的识别结果，即本实施例在发散型、集中型、顺应型、同化型的识别准确率可达到97.6％、96.3％、96.1％、95.4％，因此具有实际的应用前景。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，包括下列步骤：

1)利用Kolb学习风格量表和在线学习行为调查量表分别计算学习者对应的学习风格，将两种计算结果取交集获取已划分和未划分的学习风格；

2)对已划分和未划分的学习风格进行聚类处理，确定学习风格并标注标签，并对未划分的学习风格进行补充；

3)对步骤2)得到的学习风格标签与在线学习平台收集的在线学习行为特征进行相关性检验；

4)对相关性检验合格的在线学习行为特征，选择训练数据和测试数据，利用堆叠机器学习模型进行训练，得到完整的堆叠模型；

5)对训练后的堆叠模型进行综合性能评估，优化堆叠模型，利用优化后的堆叠模型进行实际学习者的学习风格预测。

2.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，步骤1)的具体步骤包括：

11)获取学习者的Kolb学习风格量表，计算各学习风格分数；

3.根据权利要求2所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，所述的学习风格分数的计算式为：

4.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，步骤2)的具体内容为：

5.根据权利要求4所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，根据样本点的Kolb学习风格量表数据和在线学习行为量表数据确定样本的学习风格并标注标签，并对未划分的学习风格进行补充的具体内容为：

6.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，步骤3)中，对步骤2)得到的学习风格标签与在线学习平台收集的在线学习行为特征通过Spearman相关系数进行相关性检验。

7.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，步骤4)中，利用堆叠机器学习模型进行训练的具体步骤包括：

41)对学习者于在线教学平台中产生的行为数据进行预处理；

42)结合步骤2)得到的学习风格标注结果，构建堆叠机器学习模型；

8.根据权利要求7所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，所述堆叠机器学习模型为基于两层模型的融合模型，第一层包括四个基本分类器：随机森林、梯度提升决策树、支持向量机和多层感知器，第一层的输入为原始训练集和测试集；第二层为逻辑回归器，第二层采用第一层基本分类器的输出作为输入，通过加入训练集进行再训练，进而获取完整的堆叠模型。

9.根据权利要求7所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，在步骤43)前，还包括利用SMOTE算法进行样本重采样步骤。

10.根据权利要求1所述的基于融合标签和堆叠机器学习模型的学习风格识别方法，其特征在于，步骤5)中，采用准确率、召回率、精准率、F1分数和曲线下面积对训练后的堆叠模型进行综合性能评估，优化堆叠模型。