CN110555459A

CN110555459A - 基于模糊聚类和支持向量回归的成绩预测方法

Info

Publication number: CN110555459A
Application number: CN201910673472.6A
Authority: CN
Inventors: 琚生根; 申航杰; 孙界平
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-12-10

Abstract

本发明公开了基于模糊聚类和支持向量回归的成绩预测方法，属于成绩预测技术领域，现提出如下方案，其包括以下成绩预测步骤，预处理原始数据并划分训练集和测试集；基于隶属度最大的原则进行聚类，对每个聚类簇使用支持向量回归算法建模，确定最终成绩与历史成绩记录之间的关系；根据测试集学生自身的学习行为属性，找到与其具有相同或者相似行为的学生，对目标学生最终成绩做出调整；通过在S2中获得的模糊隶属度矩阵，在S3中确定的关系以及S4中对成绩的调整，来获得目标学生的最终成绩。本发明提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本发明提出方法的有效性。

Description

基于模糊聚类和支持向量回归的成绩预测方法

技术领域

本发明涉及成绩预测技术领域，尤其涉及基于模糊聚类和支持向量回归的成绩预测方法。

背景技术

近年来，计算机技术已经在教育领域被广泛应用。学生学业成绩预测一直是教育和学习中的重要环节。例如，当前挂科现象在学生中非常普遍，然而挂科可能会造成学生无法按时毕业或者无法找到心仪工作的后果。如果能提前发现学生的学习异常，通过引导和干预就有可能阻止这些不幸事情的发生^[1]。再者教育机构也可以通过预测学生表现，为学生定制合适的辅导手段，以适应他们的需求。因此，准确地预测学生的成绩在教育管理中就显得十分重要。

目前许多数据挖掘和机器学习的方法已经应用于教育领域。现有的成绩预测方法大致可以分为两类，一是使用人工神经网络，二是建立概率统计模型。现有技术介绍了一种用神经网络做成绩预测并对学生进行分类的方法。一些概率模型，例如多变量线性回归模型、稀疏因子分析模型等都被用于预测学生成绩。文献[4]提出了基于规则的概率软逻辑模型，通过半自动的构建规则辅以决策树算法进行建模。这些工作都大量使用两种属性，一是学生以前的课程成绩，用历史成绩预测他们在后续课程中的表现。除历史成绩外，第二种属性是学生的基础行为属性，包括学生的年龄和性别，课堂出勤率，自习频率，图书馆门禁记录，座位选择情况，社会关系等等。但是过度使用不同类型的属性可能导致过于复杂的分数预测方法，其结果往往会难以解释。

本发明引入模糊逻辑来计算隶属度矩阵，提出一种融合模糊聚类和支持向量回归的成绩预测方法。首先利用模糊C均值算法(fuzzy C-means clustering，FCM)对学生历史成绩属性做聚类，接着对每个聚类簇单独进行支持向量回归(Support VectorRegression，SVR)，并根据学生行为对最终预测结果做出调整。本方法结合了学生历史成绩和行为习惯等属性进行综合预测，在三个数据集上进行实验，结果表明本方法在成绩预测精度方面有明显性能提升。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的基于模糊聚类和支持向量回归的成绩预测方法。

为了实现上述目的，本发明采用了如下技术方案：

基于模糊聚类和支持向量回归的成绩预测方法，包括以下成绩预测步骤，

S1，预处理原始数据并划分训练集和测试集；

S2，对训练集和测试集的所有学生历史成绩进行模糊聚类，通过相似性将他们分为不同类别，并计算每个样本关于不同类别的模糊隶属度值；

S3，基于隶属度最大的原则进行聚类，对每个聚类簇使用支持向量回归算法建模，确定最终成绩与历史成绩记录之间的关系；

S4，根据测试集学生自身的学习行为属性，找到与其具有相同或者相似行为的学生，对目标学生最终成绩做出调整；

S5，通过在S2中获得的模糊隶属度矩阵，在S3中确定的关系以及S4中对成绩的调整，来获得目标学生的最终成绩。

优选的，所述模糊聚类中，对训练集和测试集的所有学生进行模糊聚类，其中的每个记录包括学生的历史成绩和最终成绩，使用模糊 C均值聚类算法，根据学生的历史成绩，将他们划分为不同的类别，具有相似历史成绩的学生将被划分到同一组，然而不同类别之间具有相关性，某个实例难以被确切地分为某个类，因此模糊聚类对处理这种不确定性有天然的优势，得到的模糊隶属度矩阵将被用于最后的预测。

优选的，模糊C均值聚类采用模糊划分，为每个样本确定它属于各个组的隶属度，用0到1之间的数表示；该算法的优化准则为：

其中P＝[θ_i]_c×d为聚类中心矩阵，U＝[u_ij]_c×n表示模糊隶属度矩阵， d_ij＝||x_j-θ_i||表示样本与聚类中心的距离，m(m＞1)表示模糊指标，采用模糊C均值聚类算法，它在处理不确定问题方面有着天然优势；

支持向量回归：

考虑样本集(x₁,y₁),(x₂,y₂)...(x_n,y_n)，引入敏感度ε的损失函数为：

优选的，历史成绩模糊聚类：

输入：所有样本记录R＝{r₁,r₂,...,r_n}；初始聚类中心C＝{c₁,c₂,...,c_k}；聚类个数K；模糊指标m(m＞1)；控制迭代地最小阈值ε；

输出：K个聚类簇以及样本模糊隶属度矩阵：

a：计算初始模糊隶属度值||*||表示欧式距离；

b：loop；

c：计算聚类中心

d：更新模糊隶属度矩阵；

e：计算目标函数

f：until|Jⁱ-J^i-1|＜ε。

优选的，所述支持向量回归中，回归分析是在预测问题中常用的一种统计方法，用于估计变量之间的关系，支持向量回归的损失函数自带L2正则项，对数据有普适性，给出数据集 {y_i,x_i1,x_i2,...,x_im},(i＝1,...,n)，希望找到变量y_i和变量x_ij(1≤j≤m)之间的关系，支持向量回归的基本思想就是找到一个函数f(x)＝wx+b，使其与 y有最大偏差ε，该问题可写成一个凸优化问题：

s.t.-ε-ξ≤y_n-W^Tz_n-b≤ε+ξ^*；

对于每一个聚类簇，分别计算相应的回归系数，记为w(1≤i≤K),b_i(1≤i≤K)。

优选的，最终成绩预测：

输入：训练集U＝{r₁,r₂,...,r_n}；测试集T＝{r₁,r₂,...,r_d}；超参数N、α；

输出：最终成绩的预测值；

a：根据模糊隶属度矩阵，针对测试样本在每一聚类簇中计算SVR 回归的结果，表示为其中K是聚类簇的个数；

b：计算测试样本与每个归属同一个类的训练样本之间的欧式距离d_i(1≤i≤|c_t|)，|c_t|表示该测试样本所属类里实例数；

c：将b中计算的欧式距离从小到大排序，选择前N个训练样本，记为S_n；

d：对于S_n中的每一个实例，使用学生的学习行为等相关属性，计算其与测试样本的余弦相似度其中 A_i(1≤i≤m)表示学生行为属性，表示测试样本属性，表示V_n中的第T个实例；

e：引入超参数α来灵活地控制学生行为属性对最终预测成绩的影响，计算对成绩的修正其中s_n表示第n个训练样本最终成绩，s_i表示测试集中第i个样本利用SVR和隶属度值计算得到的预测成绩；

f：得到最终成绩的预测值score_i＝temp_score_i+b_i(10)，temp_score_i表示步骤a中支持向量回归的结果。

与现有技术相比，本发明的有益效果是：本发明分析了当前研究的不足，提出了一种基于模糊聚类和支持向量回归的成绩预测方法。该方法能有效利用学生历史成绩和行为习惯两种属性，提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本发明提出方法的有效性。

附图说明

图1为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法的流程图。

图2为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的R2系数对比图。

图3为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的分类准确率对比。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，包括以下成绩预测步骤，

S1，预处理原始数据并划分训练集和测试集；

本实施方式中，所述模糊聚类中，对训练集和测试集的所有学生进行模糊聚类，其中的每个记录包括学生的历史成绩和最终成绩，使用模糊C均值聚类算法，根据学生的历史成绩，将他们划分为不同的类别，具有相似历史成绩的学生将被划分到同一组，然而不同类别之间具有相关性，某个实例难以被确切地分为某个类，因此模糊聚类对处理这种不确定性有天然的优势，得到的模糊隶属度矩阵将被用于最后的预测。

本实施方式中，模糊C均值聚类采用模糊划分，为每个样本确定它属于各个组的隶属度，用0到1之间的数表示；该算法的优化准则为：

支持向量回归：

本实施方式中，历史成绩模糊聚类：

输出：K个聚类簇以及样本模糊隶属度矩阵：

a：计算初始模糊隶属度值||*||表示欧式距离；

b：loop；

c：计算聚类中心

d：更新模糊隶属度矩阵；

e：计算目标函数

f：until|Jⁱ-J^i-1|＜ε。

本实施方式中，所述支持向量回归中，回归分析是在预测问题中常用的一种统计方法，用于估计变量之间的关系，支持向量回归的损失函数自带L2正则项，对数据有普适性，给出数据集 {y_i,x_i1,x_i2,...,x_im},(i＝1,...,n)，希望找到变量y_i和变量x_ij(1≤j≤m)之间的关系，支持向量回归的基本思想就是找到一个函数f(x)＝wx+b，使其与y有最大偏差ε，该问题可写成一个凸优化问题：

s.t.-ε-ξ≤y_n-W^Tz_n-b≤ε+ξ^*；

对于每一个聚类簇，分别计算相应的回归系数，记为 w(1≤i≤K),b_i(1≤i≤K)。

本实施方式中，最终成绩预测：

输出：最终成绩的预测值；

时间复杂度分析：

首先使用FCM进行聚类，其时间复杂度为O(nktd)，其中n表示样本数目，k表示聚类簇数目，t表示算法迭代次数，d表示样本维度。随后使用SVR对学生成绩进行拟合，支持向量回归是一个凸二次规划问题，其训练结果只与支持向量有关。算法的复杂度也只与训练样本的数目有关，与样本维度无关，具有O(n³)以上的时间复杂度，n表示样本数目。最后预测最终成绩只需要线性复杂度的计算O(nk)，k表示聚类簇数目，n表示样本数目。

数据集与评价指标

本发明使用3个成绩预测数据集来对模型进行评估。

1)葡萄牙中学生数据集，包含葡萄牙两所中学的1064条学生数据，属性包括学生成绩、父母受教育程度、家庭情况以及学生行为习惯等相关特征。数据由UCI机器学习库提供 (http://archive.ics.uci.edu/ml/datasets/Student+Perform ance)，两个文件分别提供数学(UCI-Math)和葡萄牙语 (UCI-Portuguese)成绩。

2)中国高校学生日常数据集(Stu-Common)，包含某高校学生的60多万条活动记录，属性包括图书馆进出记录、消费记录、借阅书籍记录以及学生学期排名信息等。数据来自 http://www.dcjingsai.com/common/cmpt网站提供的学生排名预测竞赛数据集。

实验采用评价回归中常用的均方差(Mean squared error，MSE) 平均绝对值误差(Mean absolute error，MAE)、R2决定系数(R2 score， R2)三个评价指标对本发明提出的方法进行考察。MSE、MAE的值越小说明预测的精度越高，模型被接受的可能性越大。R2决定系数越接近于1，说明回归方程的拟合程度越好。

本发明提出的方法主要用于学生成绩预测，该方法也可以应用为分类模型。将本发明的方法用作对目标学生进行二分类，分为合格和不合格两类。对于UCI-Math和UCI-Portuguese两个数据集，将分数大于10分(总分20分)的学生记为合格。对于Stu-Common数据集，将排名在前345名(共538人)的学生记为合格。对于此二分类问题，可以用准确率(Precision)来度量。

3.2参数设定

在进行实验之前需要对数据进行预处理，并设定超参数。例如学生的学习时间、缺席次数等等属性值都被归一化为0到1之间的范围。对于“YES”和“NO”的属性值分别被设置为1和0。

在实验中左右的结果都取10次实验结果的平均。由于学生最后阶段的成绩是一个0到20的整数，但是预测的最终成绩是以浮点数的形式得出，预测数据将以四舍五入的形式转换回整数，从而计算预测结果的准确率，也能更好地支持科解释性。

实验过程中将聚类个数K设为5，模糊指标m设为2，最大偏差ε设置为10^-6，V_n中最大训练样本数N设置为5。在UCI-Math、 UCI-Portuguese两个数据集中，系数α设为0.2，在Stu-Common数据集，系数α设为0.05。训练集和测试集的比例为7:3。

为了分析本发明提出的方法，在三个数据集上进行了实验。该工作还与其他三种方法进行了比较，实验配置如下。

1)FCSVR：本发明提出的方法。

2)MLR：标准的多变量线性回归方法。

3)BR：贝叶斯岭回归方法。

4)EN：弹性网络回归方法。

5)SVR：支持向量回归方法。

表1五种方法的均方差对比

Tab.1 Mean squared error comparison of five methods

表2五种方法的平均绝对值误差对比

Tab.2 Mean absolute error comparison of five methods

表1、表2展示了五种方法的均方差MSE和平均绝对值误差MAE 的实验对比结果。整体上看，本发明提出的方法(FCSVR)误差都要低于其他三种方法(MLR、BR、EN、SVR)。这五种方法在UCI-Math、 UCI-Portuguese两个数据集上效果比较好，而Stu-Common数据集由于拥有更多的数据量以及较为复杂的属性关系，总体效果稍差。其中，多变量线性回归方法和贝叶斯岭回归方法效果相等，弹性网络回归方法效果最差。

对比方法一和方法五这组消融实验，只使用支持向量回归的效果远不及本发明提出的FCSVR模型，证明了本发明方法的有效性。

图2显示了FCSVR方法、MLR方法、BR方法、SVR方法、EN方法在UCI-Portuguese、UCI-Math、Stu-Common在这3个数据集上关于 R2决定系数的对比实验结果。可以看到，FCSVR方法在3个数据集上的R2系数值均要高于其他四种算法。R2决定系数表示拟合优度，越接近1越好，这表明了本方法的有效性。

图3显示了FCSVR方法、MLR方法、BR方法、SVR方法、EN方法在UCI-Portuguese、UCI-Math、Stu-Common在这3个数据集上关于分类准确率的对比实验结果。在五种方法里，SVR总体效果最差，在 Stu-Common数据集的准确率只有66.7％，与其他方法差距明显。这说明仅仅使用SVR用于分类模型是不够的。FCSVR方法在3个数据集上的分类准确率均高于其他四种算法，说明将成绩预测应用于分类问题，FCSVR方法也能取得很好的效果，进一步表明了本发明方法的优势与潜力。

本发明提出的基于模糊聚类和支持向量回归的成绩预测模型，首先对所有样本进行模糊聚类，将样本空间划分为若干个簇(子空间)，使同一个簇中的对象有很大相似性，不同簇间的对象有很大差异性。传统的聚类分析是一种硬划分，将样本严格划分到某个类中，类之间的界限是明确的。在成绩预测问题中，样本没有严格的类属划分，某些样本可能具有“亦此亦彼”的性质，因此本发明采用模糊C均值聚类，使系统有更好的灵活性。然后，针对每一个簇构造SVR模型来拟合学生成绩，经过划分后的样本空间数据量减少，SVR能很好地适用于小样本问题。同时，聚类之后使用SVR可以改善SVR训练时间过长的不足，而且能提高模型预测精度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，包括以下成绩预测步骤，

S1，预处理原始数据并划分训练集和测试集；

2.根据权利要求1所述的基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，所述模糊聚类中，对训练集和测试集的所有学生进行模糊聚类，其中的每个记录包括学生的历史成绩和最终成绩，使用模糊C均值聚类算法，根据学生的历史成绩，将他们划分为不同的类别，具有相似历史成绩的学生将被划分到同一组，然而不同类别之间具有相关性，某个实例难以被确切地分为某个类，因此模糊聚类对处理这种不确定性有天然的优势，得到的模糊隶属度矩阵将被用于最后的预测。

3.根据权利要求2所述的基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，模糊C均值聚类采用模糊划分，为每个样本确定它属于各个组的隶属度，用0到1之间的数表示；该算法的优化准则为：

其中P＝[θ_i]_c×d为聚类中心矩阵，U＝[u_ij]_c×n表示模糊隶属度矩阵，d_ij＝||x_j-θ_i||表示样本与聚类中心的距离，m(m＞1)表示模糊指标，采用模糊C均值聚类算法，它在处理不确定问题方面有着天然优势；

支持向量回归：

4.根据权利要求3所述的基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，历史成绩模糊聚类：

输出：K个聚类簇以及样本模糊隶属度矩阵：

a：计算初始模糊隶属度值||*||表示欧式距离；

b：loop；

c：计算聚类中心

d：更新模糊隶属度矩阵；

e：计算目标函数

f：until|Jⁱ-J^i-1|＜ε。

5.根据权利要求4所述的基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，所述支持向量回归中，回归分析是在预测问题中常用的一种统计方法，用于估计变量之间的关系，支持向量回归的损失函数自带L2正则项，对数据有普适性，给出数据集{y_i,x_i1,x_i2,...,x_im},(i＝1,...,n)，希望找到变量y_i和变量x_ij(1≤j≤m)之间的关系，支持向量回归的基本思想就是找到一个函数f(x)＝wx+b，使其与y有最大偏差ε，该问题可写成一个凸优化问题：

s.t.-ε-ξ≤y_n-W^Tz_n-b≤ε+ξ^*；

6.根据权利要求5所述的基于模糊聚类和支持向量回归的成绩预测方法，其特征在于，最终成绩预测：

输出：最终成绩的预测值；

a：根据模糊隶属度矩阵，针对测试样本在每一聚类簇中计算SVR回归的结果，表示为其中K是聚类簇的个数；

d：对于S_n中的每一个实例，使用学生的学习行为等相关属性，计算其与测试样本的余弦相似度其中A_i(1≤i≤m)表示学生行为属性，表示测试样本属性，表示V_n中的第T个实例；