CN110555459A - 基于模糊聚类和支持向量回归的成绩预测方法 - Google Patents
基于模糊聚类和支持向量回归的成绩预测方法 Download PDFInfo
- Publication number
- CN110555459A CN110555459A CN201910673472.6A CN201910673472A CN110555459A CN 110555459 A CN110555459 A CN 110555459A CN 201910673472 A CN201910673472 A CN 201910673472A CN 110555459 A CN110555459 A CN 110555459A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- clustering
- students
- final
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 title claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims 1
- 238000004393 prognosis Methods 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 10
- 230000000052 comparative effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 8
- 230000007547 defect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于模糊聚类和支持向量回归的成绩预测方法,属于成绩预测技术领域,现提出如下方案,其包括以下成绩预测步骤,预处理原始数据并划分训练集和测试集;基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。本发明提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本发明提出方法的有效性。
Description
技术领域
本发明涉及成绩预测技术领域,尤其涉及基于模糊聚类和支持向量回归的成绩预测方法。
背景技术
近年来,计算机技术已经在教育领域被广泛应用。学生学业成绩预测一直是教育和学习中的重要环节。例如,当前挂科现象在学生中非常普遍,然而挂科可能会造成学生无法按时毕业或者无法找到心仪工作的后果。如果能提前发现学生的学习异常,通过引导和干预就有可能阻止这些不幸事情的发生[1]。再者教育机构也可以通过预测学生表现,为学生定制合适的辅导手段,以适应他们的需求。因此,准确地预测学生的成绩在教育管理中就显得十分重要。
目前许多数据挖掘和机器学习的方法已经应用于教育领域。现有的成绩预测方法大致可以分为两类,一是使用人工神经网络,二是建立概率统计模型。现有技术介绍了一种用神经网络做成绩预测并对学生进行分类的方法。一些概率模型,例如多变量线性回归模型、稀疏因子分析模型等都被用于预测学生成绩。文献[4]提出了基于规则的概率软逻辑模型,通过半自动的构建规则辅以决策树算法进行建模。这些工作都大量使用两种属性,一是学生以前的课程成绩,用历史成绩预测他们在后续课程中的表现。除历史成绩外,第二种属性是学生的基础行为属性,包括学生的年龄和性别,课堂出勤率,自习频率,图书馆门禁记录,座位选择情况,社会关系等等。但是过度使用不同类型的属性可能导致过于复杂的分数预测方法,其结果往往会难以解释。
本发明引入模糊逻辑来计算隶属度矩阵,提出一种融合模糊聚类和支持向量回归的成绩预测方法。首先利用模糊C均值算法(fuzzy C-means clustering,FCM)对学生历史成绩属性做聚类,接着对每个聚类簇单独进行支持向量回归(Support VectorRegression,SVR),并根据学生行为对最终预测结果做出调整。本方法结合了学生历史成绩和行为习惯等属性进行综合预测,在三个数据集上进行实验,结果表明本方法在成绩预测精度方面有明显性能提升。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的基于模糊聚类和支持向量回归的成绩预测方法。
为了实现上述目的,本发明采用了如下技术方案:
基于模糊聚类和支持向量回归的成绩预测方法,包括以下成绩预测步骤,
S1,预处理原始数据并划分训练集和测试集;
S2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;
S3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;
S4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;
S5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。
优选的,所述模糊聚类中,对训练集和测试集的所有学生进行模糊聚类,其中的每个记录包括学生的历史成绩和最终成绩,使用模糊 C均值聚类算法,根据学生的历史成绩,将他们划分为不同的类别,具有相似历史成绩的学生将被划分到同一组,然而不同类别之间具有相关性,某个实例难以被确切地分为某个类,因此模糊聚类对处理这种不确定性有天然的优势,得到的模糊隶属度矩阵将被用于最后的预测。
优选的,模糊C均值聚类采用模糊划分,为每个样本确定它属于各个组的隶属度,用0到1之间的数表示;该算法的优化准则为:
其中P=[θi]c×d为聚类中心矩阵,U=[uij]c×n表示模糊隶属度矩阵, dij=||xj-θi||表示样本与聚类中心的距离,m(m>1)表示模糊指标,采用模糊C均值聚类算法,它在处理不确定问题方面有着天然优势;
支持向量回归:
考虑样本集(x1,y1),(x2,y2)...(xn,yn),引入敏感度ε的损失函数为:
优选的,历史成绩模糊聚类:
输入:所有样本记录R={r1,r2,...,rn};初始聚类中心C={c1,c2,...,ck};聚类个数K;模糊指标m(m>1);控制迭代地最小阈值ε;
输出:K个聚类簇以及样本模糊隶属度矩阵:
a:计算初始模糊隶属度值||*||表示欧式距离;
b:loop;
c:计算聚类中心
d:更新模糊隶属度矩阵;
e:计算目标函数
f:until|Ji-Ji-1|<ε。
优选的,所述支持向量回归中,回归分析是在预测问题中常用的一种统计方法,用于估计变量之间的关系,支持向量回归的损失函数自带L2正则项,对数据有普适性,给出数据集 {yi,xi1,xi2,...,xim},(i=1,...,n),希望找到变量yi和变量xij(1≤j≤m)之间的关系,支持向量回归的基本思想就是找到一个函数f(x)=wx+b,使其与 y有最大偏差ε,该问题可写成一个凸优化问题:
s.t.-ε-ξ≤yn-WTzn-b≤ε+ξ*;
对于每一个聚类簇,分别计算相应的回归系数,记为w(1≤i≤K),bi(1≤i≤K)。
优选的,最终成绩预测:
输入:训练集U={r1,r2,...,rn};测试集T={r1,r2,...,rd};超参数N、α;
输出:最终成绩的预测值;
a:根据模糊隶属度矩阵,针对测试样本在每一聚类簇中计算SVR 回归的结果,表示为其中K是聚类簇的个数;
b:计算测试样本与每个归属同一个类的训练样本之间的欧式距离di(1≤i≤|ct|),|ct|表示该测试样本所属类里实例数;
c:将b中计算的欧式距离从小到大排序,选择前N个训练样本,记为Sn;
d:对于Sn中的每一个实例,使用学生的学习行为等相关属性,计算其与测试样本的余弦相似度其中 Ai(1≤i≤m)表示学生行为属性,表示测试样本属性,表示Vn中的第T个实例;
e:引入超参数α来灵活地控制学生行为属性对最终预测成绩的影响,计算对成绩的修正其中sn表示第n个训练样本最终成绩,si表示测试集中第i个样本利用SVR和隶属度值计算得到的预测成绩;
f:得到最终成绩的预测值scorei=temp_scorei+bi(10),temp_scorei表示步骤a中支持向量回归的结果。
与现有技术相比,本发明的有益效果是:本发明分析了当前研究的不足,提出了一种基于模糊聚类和支持向量回归的成绩预测方法。该方法能有效利用学生历史成绩和行为习惯两种属性,提高成绩预测的准确率。在三个标准数据集上的对比实验展现了本发明提出方法的有效性。
附图说明
图1为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法的流程图。
图2为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的R2系数对比图。
图3为本发明提出的基于模糊聚类和支持向量回归的成绩预测方法中五种方法的分类准确率对比。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,包括以下成绩预测步骤,
S1,预处理原始数据并划分训练集和测试集;
S2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;
S3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;
S4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;
S5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。
本实施方式中,所述模糊聚类中,对训练集和测试集的所有学生进行模糊聚类,其中的每个记录包括学生的历史成绩和最终成绩,使用模糊C均值聚类算法,根据学生的历史成绩,将他们划分为不同的类别,具有相似历史成绩的学生将被划分到同一组,然而不同类别之间具有相关性,某个实例难以被确切地分为某个类,因此模糊聚类对处理这种不确定性有天然的优势,得到的模糊隶属度矩阵将被用于最后的预测。
本实施方式中,模糊C均值聚类采用模糊划分,为每个样本确定它属于各个组的隶属度,用0到1之间的数表示;该算法的优化准则为:
其中P=[θi]c×d为聚类中心矩阵,U=[uij]c×n表示模糊隶属度矩阵, dij=||xj-θi||表示样本与聚类中心的距离,m(m>1)表示模糊指标,采用模糊C均值聚类算法,它在处理不确定问题方面有着天然优势;
支持向量回归:
考虑样本集(x1,y1),(x2,y2)...(xn,yn),引入敏感度ε的损失函数为:
本实施方式中,历史成绩模糊聚类:
输入:所有样本记录R={r1,r2,...,rn};初始聚类中心C={c1,c2,...,ck};聚类个数K;模糊指标m(m>1);控制迭代地最小阈值ε;
输出:K个聚类簇以及样本模糊隶属度矩阵:
a:计算初始模糊隶属度值||*||表示欧式距离;
b:loop;
c:计算聚类中心
d:更新模糊隶属度矩阵;
e:计算目标函数
f:until|Ji-Ji-1|<ε。
本实施方式中,所述支持向量回归中,回归分析是在预测问题中常用的一种统计方法,用于估计变量之间的关系,支持向量回归的损失函数自带L2正则项,对数据有普适性,给出数据集 {yi,xi1,xi2,...,xim},(i=1,...,n),希望找到变量yi和变量xij(1≤j≤m)之间的关系,支持向量回归的基本思想就是找到一个函数f(x)=wx+b,使其与y有最大偏差ε,该问题可写成一个凸优化问题:
s.t.-ε-ξ≤yn-WTzn-b≤ε+ξ*;
对于每一个聚类簇,分别计算相应的回归系数,记为 w(1≤i≤K),bi(1≤i≤K)。
本实施方式中,最终成绩预测:
输入:训练集U={r1,r2,...,rn};测试集T={r1,r2,...,rd};超参数N、α;
输出:最终成绩的预测值;
a:根据模糊隶属度矩阵,针对测试样本在每一聚类簇中计算SVR 回归的结果,表示为其中K是聚类簇的个数;
b:计算测试样本与每个归属同一个类的训练样本之间的欧式距离di(1≤i≤|ct|),|ct|表示该测试样本所属类里实例数;
c:将b中计算的欧式距离从小到大排序,选择前N个训练样本,记为Sn;
d:对于Sn中的每一个实例,使用学生的学习行为等相关属性,计算其与测试样本的余弦相似度其中 Ai(1≤i≤m)表示学生行为属性,表示测试样本属性,表示Vn中的第T个实例;
e:引入超参数α来灵活地控制学生行为属性对最终预测成绩的影响,计算对成绩的修正其中sn表示第n个训练样本最终成绩,si表示测试集中第i个样本利用SVR和隶属度值计算得到的预测成绩;
f:得到最终成绩的预测值scorei=temp_scorei+bi(10),temp_scorei表示步骤a中支持向量回归的结果。
时间复杂度分析:
首先使用FCM进行聚类,其时间复杂度为O(nktd),其中n表示样本数目,k表示聚类簇数目,t表示算法迭代次数,d表示样本维度。随后使用SVR对学生成绩进行拟合,支持向量回归是一个凸二次规划问题,其训练结果只与支持向量有关。算法的复杂度也只与训练样本的数目有关,与样本维度无关,具有O(n3)以上的时间复杂度,n表示样本数目。最后预测最终成绩只需要线性复杂度的计算O(nk),k表示聚类簇数目,n表示样本数目。
数据集与评价指标
本发明使用3个成绩预测数据集来对模型进行评估。
1)葡萄牙中学生数据集,包含葡萄牙两所中学的1064条学生数据,属性包括学生成绩、父母受教育程度、家庭情况以及学生行为习惯等相关特征。数据由UCI机器学习库提供 (http://archive.ics.uci.edu/ml/datasets/Student+Perform ance),两个文件分别提供数学(UCI-Math)和葡萄牙语 (UCI-Portuguese)成绩。
2)中国高校学生日常数据集(Stu-Common),包含某高校学生的60多万条活动记录,属性包括图书馆进出记录、消费记录、借阅书籍记录以及学生学期排名信息等。数据来自 http://www.dcjingsai.com/common/cmpt网站提供的学生排名预测竞赛数据集。
实验采用评价回归中常用的均方差(Mean squared error,MSE) 平均绝对值误差(Mean absolute error,MAE)、R2决定系数(R2 score, R2)三个评价指标对本发明提出的方法进行考察。MSE、MAE的值越小说明预测的精度越高,模型被接受的可能性越大。R2决定系数越接近于1,说明回归方程的拟合程度越好。
本发明提出的方法主要用于学生成绩预测,该方法也可以应用为分类模型。将本发明的方法用作对目标学生进行二分类,分为合格和不合格两类。对于UCI-Math和UCI-Portuguese两个数据集,将分数大于10分(总分20分)的学生记为合格。对于Stu-Common数据集,将排名在前345名(共538人)的学生记为合格。对于此二分类问题,可以用准确率(Precision)来度量。
3.2参数设定
在进行实验之前需要对数据进行预处理,并设定超参数。例如学生的学习时间、缺席次数等等属性值都被归一化为0到1之间的范围。对于“YES”和“NO”的属性值分别被设置为1和0。
在实验中左右的结果都取10次实验结果的平均。由于学生最后阶段的成绩是一个0到20的整数,但是预测的最终成绩是以浮点数的形式得出,预测数据将以四舍五入的形式转换回整数,从而计算预测结果的准确率,也能更好地支持科解释性。
实验过程中将聚类个数K设为5,模糊指标m设为2,最大偏差ε设置为10-6,Vn中最大训练样本数N设置为5。在UCI-Math、 UCI-Portuguese两个数据集中,系数α设为0.2,在Stu-Common数据集,系数α设为0.05。训练集和测试集的比例为7:3。
为了分析本发明提出的方法,在三个数据集上进行了实验。该工作还与其他三种方法进行了比较,实验配置如下。
1)FCSVR:本发明提出的方法。
2)MLR:标准的多变量线性回归方法。
3)BR:贝叶斯岭回归方法。
4)EN:弹性网络回归方法。
5)SVR:支持向量回归方法。
表1五种方法的均方差对比
Tab.1 Mean squared error comparison of five methods
表2五种方法的平均绝对值误差对比
Tab.2 Mean absolute error comparison of five methods
表1、表2展示了五种方法的均方差MSE和平均绝对值误差MAE 的实验对比结果。整体上看,本发明提出的方法(FCSVR)误差都要低于其他三种方法(MLR、BR、EN、SVR)。这五种方法在UCI-Math、 UCI-Portuguese两个数据集上效果比较好,而Stu-Common数据集由于拥有更多的数据量以及较为复杂的属性关系,总体效果稍差。其中,多变量线性回归方法和贝叶斯岭回归方法效果相等,弹性网络回归方法效果最差。
对比方法一和方法五这组消融实验,只使用支持向量回归的效果远不及本发明提出的FCSVR模型,证明了本发明方法的有效性。
图2显示了FCSVR方法、MLR方法、BR方法、SVR方法、EN方法在UCI-Portuguese、UCI-Math、Stu-Common在这3个数据集上关于 R2决定系数的对比实验结果。可以看到,FCSVR方法在3个数据集上的R2系数值均要高于其他四种算法。R2决定系数表示拟合优度,越接近1越好,这表明了本方法的有效性。
图3显示了FCSVR方法、MLR方法、BR方法、SVR方法、EN方法在UCI-Portuguese、UCI-Math、Stu-Common在这3个数据集上关于分类准确率的对比实验结果。在五种方法里,SVR总体效果最差,在 Stu-Common数据集的准确率只有66.7%,与其他方法差距明显。这说明仅仅使用SVR用于分类模型是不够的。FCSVR方法在3个数据集上的分类准确率均高于其他四种算法,说明将成绩预测应用于分类问题,FCSVR方法也能取得很好的效果,进一步表明了本发明方法的优势与潜力。
本发明提出的基于模糊聚类和支持向量回归的成绩预测模型,首先对所有样本进行模糊聚类,将样本空间划分为若干个簇(子空间),使同一个簇中的对象有很大相似性,不同簇间的对象有很大差异性。传统的聚类分析是一种硬划分,将样本严格划分到某个类中,类之间的界限是明确的。在成绩预测问题中,样本没有严格的类属划分,某些样本可能具有“亦此亦彼”的性质,因此本发明采用模糊C均值聚类,使系统有更好的灵活性。然后,针对每一个簇构造SVR模型来拟合学生成绩,经过划分后的样本空间数据量减少,SVR能很好地适用于小样本问题。同时,聚类之后使用SVR可以改善SVR训练时间过长的不足,而且能提高模型预测精度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,包括以下成绩预测步骤,
S1,预处理原始数据并划分训练集和测试集;
S2,对训练集和测试集的所有学生历史成绩进行模糊聚类,通过相似性将他们分为不同类别,并计算每个样本关于不同类别的模糊隶属度值;
S3,基于隶属度最大的原则进行聚类,对每个聚类簇使用支持向量回归算法建模,确定最终成绩与历史成绩记录之间的关系;
S4,根据测试集学生自身的学习行为属性,找到与其具有相同或者相似行为的学生,对目标学生最终成绩做出调整;
S5,通过在S2中获得的模糊隶属度矩阵,在S3中确定的关系以及S4中对成绩的调整,来获得目标学生的最终成绩。
2.根据权利要求1所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,所述模糊聚类中,对训练集和测试集的所有学生进行模糊聚类,其中的每个记录包括学生的历史成绩和最终成绩,使用模糊C均值聚类算法,根据学生的历史成绩,将他们划分为不同的类别,具有相似历史成绩的学生将被划分到同一组,然而不同类别之间具有相关性,某个实例难以被确切地分为某个类,因此模糊聚类对处理这种不确定性有天然的优势,得到的模糊隶属度矩阵将被用于最后的预测。
3.根据权利要求2所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,模糊C均值聚类采用模糊划分,为每个样本确定它属于各个组的隶属度,用0到1之间的数表示;该算法的优化准则为:
其中P=[θi]c×d为聚类中心矩阵,U=[uij]c×n表示模糊隶属度矩阵,dij=||xj-θi||表示样本与聚类中心的距离,m(m>1)表示模糊指标,采用模糊C均值聚类算法,它在处理不确定问题方面有着天然优势;
支持向量回归:
考虑样本集(x1,y1),(x2,y2)...(xn,yn),引入敏感度ε的损失函数为:
4.根据权利要求3所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,历史成绩模糊聚类:
输入:所有样本记录R={r1,r2,...,rn};初始聚类中心C={c1,c2,...,ck};聚类个数K;模糊指标m(m>1);控制迭代地最小阈值ε;
输出:K个聚类簇以及样本模糊隶属度矩阵:
a:计算初始模糊隶属度值||*||表示欧式距离;
b:loop;
c:计算聚类中心
d:更新模糊隶属度矩阵;
e:计算目标函数
f:until|Ji-Ji-1|<ε。
5.根据权利要求4所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,所述支持向量回归中,回归分析是在预测问题中常用的一种统计方法,用于估计变量之间的关系,支持向量回归的损失函数自带L2正则项,对数据有普适性,给出数据集{yi,xi1,xi2,...,xim},(i=1,...,n),希望找到变量yi和变量xij(1≤j≤m)之间的关系,支持向量回归的基本思想就是找到一个函数f(x)=wx+b,使其与y有最大偏差ε,该问题可写成一个凸优化问题:
s.t.-ε-ξ≤yn-WTzn-b≤ε+ξ*;
对于每一个聚类簇,分别计算相应的回归系数,记为w(1≤i≤K),bi(1≤i≤K)。
6.根据权利要求5所述的基于模糊聚类和支持向量回归的成绩预测方法,其特征在于,最终成绩预测:
输入:训练集U={r1,r2,...,rn};测试集T={r1,r2,...,rd};超参数N、α;
输出:最终成绩的预测值;
a:根据模糊隶属度矩阵,针对测试样本在每一聚类簇中计算SVR回归的结果,表示为其中K是聚类簇的个数;
b:计算测试样本与每个归属同一个类的训练样本之间的欧式距离di(1≤i≤|ct|),|ct|表示该测试样本所属类里实例数;
c:将b中计算的欧式距离从小到大排序,选择前N个训练样本,记为Sn;
d:对于Sn中的每一个实例,使用学生的学习行为等相关属性,计算其与测试样本的余弦相似度其中Ai(1≤i≤m)表示学生行为属性,表示测试样本属性,表示Vn中的第T个实例;
e:引入超参数α来灵活地控制学生行为属性对最终预测成绩的影响,计算对成绩的修正其中sn表示第n个训练样本最终成绩,si表示测试集中第i个样本利用SVR和隶属度值计算得到的预测成绩;
f:得到最终成绩的预测值scorei=temp_scorei+bi(10),temp_scorei表示步骤a中支持向量回归的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673472.6A CN110555459A (zh) | 2019-07-24 | 2019-07-24 | 基于模糊聚类和支持向量回归的成绩预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673472.6A CN110555459A (zh) | 2019-07-24 | 2019-07-24 | 基于模糊聚类和支持向量回归的成绩预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110555459A true CN110555459A (zh) | 2019-12-10 |
Family
ID=68735760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910673472.6A Pending CN110555459A (zh) | 2019-07-24 | 2019-07-24 | 基于模糊聚类和支持向量回归的成绩预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555459A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179675A (zh) * | 2019-12-30 | 2020-05-19 | 安徽知学科技有限公司 | 个性化练习题推荐方法、系统、计算机设备以及存储介质 |
CN111695680A (zh) * | 2020-06-15 | 2020-09-22 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
CN111754097A (zh) * | 2020-06-18 | 2020-10-09 | 上海交通大学 | 基于多视图编码器-解码器架构的学生成绩预测系统 |
CN111784134A (zh) * | 2020-06-22 | 2020-10-16 | 温州大学 | 一种数据驱动的多模态学业水平预测方法及系统 |
CN112085947A (zh) * | 2020-07-31 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习和模糊聚类的交通拥堵预测方法 |
CN113160646A (zh) * | 2021-04-14 | 2021-07-23 | 国家电网有限公司 | 一种面向有线接入网仿真培训的学员模型构建与更新方法 |
CN116128121A (zh) * | 2022-12-31 | 2023-05-16 | 中国长江电力股份有限公司 | 一种基于特征选择和贝叶斯岭回归的水电站非弃水期日均出力预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0681249B1 (en) * | 1994-04-29 | 2002-08-28 | International Business Machines Corporation | Fuzzy logic entity behavior profiler |
CN106094513A (zh) * | 2016-05-31 | 2016-11-09 | 广东工业大学 | 在线模糊最小二乘支持向量机的烧结过程动力学建模算法 |
CN106557846A (zh) * | 2016-11-30 | 2017-04-05 | 成都寻道科技有限公司 | 基于大学生在校数据的毕业去向预测方法 |
CN109147875A (zh) * | 2018-08-08 | 2019-01-04 | 合肥学院 | 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法 |
CN109828997A (zh) * | 2019-01-03 | 2019-05-31 | 温州医科大学 | 一种大学生行为数据分析及学业预警方法 |
-
2019
- 2019-07-24 CN CN201910673472.6A patent/CN110555459A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0681249B1 (en) * | 1994-04-29 | 2002-08-28 | International Business Machines Corporation | Fuzzy logic entity behavior profiler |
CN106094513A (zh) * | 2016-05-31 | 2016-11-09 | 广东工业大学 | 在线模糊最小二乘支持向量机的烧结过程动力学建模算法 |
CN106557846A (zh) * | 2016-11-30 | 2017-04-05 | 成都寻道科技有限公司 | 基于大学生在校数据的毕业去向预测方法 |
CN109147875A (zh) * | 2018-08-08 | 2019-01-04 | 合肥学院 | 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法 |
CN109828997A (zh) * | 2019-01-03 | 2019-05-31 | 温州医科大学 | 一种大学生行为数据分析及学业预警方法 |
Non-Patent Citations (3)
Title |
---|
刘博鹏 等: "基于数据挖掘技术的学生成绩预警应用研究", 《四川大学学报(自然科学版)》 * |
孙杨博: "基于大数据挖掘的高校学生行为数据分析系统的研究与开发", 《万方学位论文数据库》 * |
张国兵 等: "基于模糊核聚类的支持向量分类", 《计算机应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179675A (zh) * | 2019-12-30 | 2020-05-19 | 安徽知学科技有限公司 | 个性化练习题推荐方法、系统、计算机设备以及存储介质 |
CN111179675B (zh) * | 2019-12-30 | 2022-09-06 | 安徽知学科技有限公司 | 个性化练习题推荐方法、系统、计算机设备以及存储介质 |
CN111695680A (zh) * | 2020-06-15 | 2020-09-22 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
CN111695680B (zh) * | 2020-06-15 | 2023-11-10 | 北京百度网讯科技有限公司 | 成绩预测方法、成绩预测模型训练方法、装置及电子设备 |
CN111754097A (zh) * | 2020-06-18 | 2020-10-09 | 上海交通大学 | 基于多视图编码器-解码器架构的学生成绩预测系统 |
CN111784134A (zh) * | 2020-06-22 | 2020-10-16 | 温州大学 | 一种数据驱动的多模态学业水平预测方法及系统 |
CN112085947A (zh) * | 2020-07-31 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习和模糊聚类的交通拥堵预测方法 |
CN112085947B (zh) * | 2020-07-31 | 2023-10-24 | 浙江工业大学 | 一种基于深度学习和模糊聚类的交通拥堵预测方法 |
CN113160646A (zh) * | 2021-04-14 | 2021-07-23 | 国家电网有限公司 | 一种面向有线接入网仿真培训的学员模型构建与更新方法 |
CN116128121A (zh) * | 2022-12-31 | 2023-05-16 | 中国长江电力股份有限公司 | 一种基于特征选择和贝叶斯岭回归的水电站非弃水期日均出力预测方法 |
CN116128121B (zh) * | 2022-12-31 | 2024-01-02 | 中国长江电力股份有限公司 | 一种基于特征选择和贝叶斯岭回归的水电站非弃水期日均出力预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555459A (zh) | 基于模糊聚类和支持向量回归的成绩预测方法 | |
Dastile et al. | Statistical and machine learning models in credit scoring: A systematic literature survey | |
Majumder et al. | 500+ times faster than deep learning: A case study exploring faster methods for text mining stackoverflow | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
Hamoud et al. | Student’s success prediction model based on artificial neural networks (ANN) and a combination of feature selection methods | |
US20150161232A1 (en) | Noise-enhanced clustering and competitive learning | |
Stevens et al. | Explainability and fairness in machine learning: Improve fair end-to-end lending for kiva | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
WO2024031891A1 (zh) | 知识表征解耦的分类模型的微调方法、装置和应用 | |
Iqbal et al. | Early student grade prediction: an empirical study | |
Dinov et al. | Black box machine-learning methods: Neural networks and support vector machines | |
Jayasundara et al. | Interpretable student performance prediction using explainable boosting machine for multi-class classification | |
Jenul et al. | A user-guided Bayesian framework for ensemble feature selection in life science applications (UBayFS) | |
Bhavatarini et al. | Deep learning: Practical approach | |
Delima | An enhanced K-nearest neighbor predictive model through metaheuristic optimization | |
US20220405640A1 (en) | Learning apparatus, classification apparatus, learning method, classification method and program | |
Suzuki | Sparse Estimation with Math and R: 100 Exercises for Building Logic | |
CN114692746A (zh) | 一种基于信息熵的模糊半监督支持向量机的分类方法 | |
Shujaaddeen et al. | A New Machine Learning Model for Detecting levels of Tax Evasion Based on Hybrid Neural Network | |
CN114091961A (zh) | 一种基于半监督svm的电力企业供应商评价方法 | |
Hulley et al. | Genetic algorithm based incremental learning for optimal weight and classifier selection | |
Heath et al. | New global optimization algorithms for model-based clustering | |
Gholamnezhad et al. | A model-based many-objective evolutionary algorithm with multiple reference vectors | |
Kazemi | Support vector machine in ultrahigh-dimensional feature space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191210 |
|
RJ01 | Rejection of invention patent application after publication |