发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种高校招生信息推荐,利用多种预测模型对院校录取分数线进行预测,根据预测的院校录取分数线利用改进的K-means算法进行多层次院校推荐,准确率高且推荐信息全面。
本发明采用的技术方案,
一种高校招生信息推荐方法,包括,
获取院校数据集L中的学校名称;
以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;
通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;
输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;
根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐。
具体地,通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择,所述后验差法具体为:
设e(i)为原始数列x(i)和预测数列x’(i)的残差,即e(i)=x(i)-x’(i);
后验差比C公式为:
C=S2/S1;
其中,S1为原始数列的标准差,S2是预测数列的残差的标准差;
小误差概率P公式为:
P=P{|e(i)-E|}<0.6745S1;
其中,E为残差的均值;
利用后验差比和小误差概率P进行精度检验,选择精度高的模型预测结果作为预测录取分数线。
具体地,利用后验差比和小误差概率P进行精度检验,具体为:
首先对比后验差比C的值,选择值小的预测结果作为最终的院录取分数线预测值,如果后验差比C的值相同,则通过小误差概率P进行精度检验,选择P值大的预测结果作为最终的录取分数线预测值。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:
SS1:在数据集D中随机选取一个院校预测分数线点a1作为初始质心;
SS2:计算数据集D中每一个院校录取分数线点与当前质心的欧式距离的d(r),;
SS3:根据的概率选取新的质心;
SS4重复步骤SS2-SS3,直至获取K个质心;
SS5:对于K个质心再采用K-means算法得到聚类结果。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:在得到聚类结果后,
采用欧式距离公式计算应届考生高考分数点与聚类结果中各簇心的距离,选择距离最小的簇A,并计算应届考生高考分数点与簇A中所有数据点的距离;
按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级;
以不同的层级进行院校推荐。
具体地,按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级,具体为:
Sort(A)
t=len(Aj)/3
u=len(Aj)%3
Aj表簇A中第j个数据点;(0,t+u)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险低”的层级;当j∈(t+u+1,2t)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险中”的层级;当j∈(2t+1,3t)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险高”的层级。
本发明实施例另一方面提供一种高校招生信息推荐系统,包括,
院校数据集获取单元:获取院校数据集L中的学校名称;
院校录取分数线预测单元:以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;
预测分数线校验单元:通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;
录取分数线数据集获取单元:输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;
院校推荐单元:根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐。
本发明再一方面提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种高校招生信息推荐方法步骤。
本发明又一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种高校招生信息推荐方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供了一种高校招生信息推荐方法,包括,获取院校数据集L中的学校名称;以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐;本发明提出了一种高校招生信息推荐系统,利用多种预测模型对院校录取分数线进行预测,根据预测的院校录取分数线利用改进的K-means算法进行多层次院校推荐,准确率高且推荐信息全面。
具体实施方式
本发明提出了一种高校招生信息推荐方法,利用多种预测模型对院校录取分数线进行预测,根据预测的院校录取分数线利用改进的K-means算法进行多层次院校推荐,准确率高且推荐信息全面。
如图1,为一种高校招生信息推荐方法流程图,具体方法如下:
一种高校招生信息推荐方法,包括,
S101:获取院校数据集L中的学校名称;
S102:以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;
预测模型中,常用的预测模型有GM(1,1)预测模型、GM(1,n)预测模型和Verhulst预测模型。其中GM(1,1)预测模型用于对无规则的数据序列进行处理,从而得到具有一定规律的序列,以曲线进行逼近,最终得到预测结果GM(1,n)预测模型适合处理多维数据。本发明输入的数据只有一维的录取分数线,因此采用GM(1,1)预测模型预测各院校的录取分数线。Verhulst预测模型适用于处理呈S型增长的数据,S型增长是指数据前期呈指数增长,当周围环境变化时,增长速度逐渐放慢,最终稳定在一个固定值。由于部分院校扩招、某些院校的报考热度忽高忽低,导致录取分数线波动大,因此评估具体的应用场景特点,本发明同时采用Verhulst预测模型同时对各院校的录取分数线进行预测;再对GM(1,1)预测模型的预测结果和Verhulst预测模型的预测结果校验,准确率大大提高。
S103:通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;
设e(i)为原始数列x(i)和预测数列x’(i)的残差,即e(i)=x(i)-x’(i);
后验差比C公式为:
C=S2/S1;
其中,S1为原始数列的标准差,S2是预测数列的残差的标准差;
小误差概率P公式为:
P=P{|e(i)-E|}<0.6745S1;
其中,E为残差的均值;
利用后验差比和小误差概率P进行精度检验,选择精度高的模型预测结果作为预测录取分数线。
具体地,利用后验差比和小误差概率P进行精度检验,具体为:
首先对比后验差比C的值,选择值小的预测结果作为最终的院录取分数线预测值,如果后验差比C的值相同,则通过小误差概率P进行精度检验,选择P值大的预测结果作为最终的录取分数线预测值。
一般后验差比C小于0.35为良好,小误差概率P大于0.95为良好;后验差比C大于0.65为不及格,小误差概率P小于0.7为不及格。
S104:输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;
S105:根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:
SS1:在数据集D中随机选取一个院校预测分数线点a1作为初始质心;
SS2:计算数据集D中每一个院校录取分数线点与当前质心的欧式距离的d(r),;
SS3:根据的概率选取新的质心;
SS4重复步骤SS2-SS3,直至获取K个质心;
SS5:对于K个质心再采用K-means算法得到聚类结果。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:在得到聚类结果后,
采用欧式距离公式计算应届考生高考分数点与聚类结果中各簇心的距离,选择距离最小的簇A,并计算应届考生高考分数点与簇A中所有数据点的距离;
按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级;
以不同的层级进行院校推荐。
具体地,按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级,具体为:
Sort(A)
t=len(Aj)/3
u=len(Aj)%3
Aj表簇A中第j个数据点;(0,t+u)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险低”的层级;当j∈(t+u+1,2t)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险中”的层级;当j∈(2t+1,3t)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险高”的层级。
例如,某考生的高考分数为520分。首先选择K值为6,通过K-means++算法计算得到6个簇心,分别为349、437、505、568、627和665。与该考生的高考分数距离最近的簇心是505,该簇的区间为(478,532)。计算该分数与簇中所有数据点的距离len(Aj)。预测录取分数线为502的数据点排在34位,且len(B34)为63,则t为21,u为0,则预测录取分数线为502的院校以“风险中”的层级进行推荐。
K-means算法可以简单高效的对数据型的数据进行聚类,但是存在如下问题:一旦初始点选择不恰当,容易导致聚类时间增加和聚类精度降低。为了解决初始点难以准确选择的问题,本发明提出了改进的K-means算法进行优化,改进的K-means的聚类效果远优于K-means算法。
如图2为一种高校招生信息推荐系统架构图,具体包括:
院校数据集获取单元201:获取院校数据集L中的学校名称;
院校录取分数线预测单元202:以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;
预测模型中,常用的预测模型有GM(1,1)预测模型、GM(1,n)预测模型和Verhulst预测模型。其中GM(1,1)预测模型用于对无规则的数据序列进行处理,从而得到具有一定规律的序列,以曲线进行逼近,最终得到预测结果GM(1,n)预测模型适合处理多维数据。本发明输入的数据只有一维的录取分数线,因此采用GM(1,1)预测模型预测各院校的录取分数线。Verhulst预测模型适用于处理呈S型增长的数据,S型增长是指数据前期呈指数增长,当周围环境变化时,增长速度逐渐放慢,最终稳定在一个固定值。由于部分院校扩招、某些院校的报考热度忽高忽低,导致录取分数线波动大,因此评估具体的应用场景特点,本发明同时采用Verhulst预测模型同时对各院校的录取分数线进行预测;再对GM(1,1)预测模型的预测结果和Verhulst预测模型的预测结果校验,准确率大大提高。
预测分数线校验单元203:通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;
设e(i)为原始数列x(i)和预测数列x’(i)的残差,即e(i)=x(i)-x’(i);
后验差比C公式为:
C=S2/S1;
其中,S1为原始数列的标准差,S2是预测数列的残差的标准差;
小误差概率P公式为:
P=P{|e(i)-E|}<0.6745S1;
其中,E为残差的均值;
利用后验差比和小误差概率P进行精度检验,选择精度高的模型预测结果作为预测录取分数线。
具体地,利用后验差比和小误差概率P进行精度检验,具体为:
首先对比后验差比C的值,选择值小的预测结果作为最终的院录取分数线预测值,如果后验差比C的值相同,则通过小误差概率P进行精度检验,选择P值大的预测结果作为最终的录取分数线预测值。
一般后验差比C小于0.35为良好,小误差概率P大于0.95为良好;后验差比C大于0.65为不及格,小误差概率P小于0.7为不及格。
录取分数线数据集获取单元204:输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;
院校推荐单元205:根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:
SS1:在数据集D中随机选取一个院校预测分数线点a1作为初始质心;
SS2:计算数据集D中每一个院校录取分数线点与当前质心的欧式距离的d(r),;
SS3:根据的概率选取新的质心;
SS4重复步骤SS2-SS3,直至获取K个质心;
SS5:对于K个质心再采用K-means算法得到聚类结果。
具体地,根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐,具体为:在得到聚类结果后,
采用欧式距离公式计算应届考生高考分数点与聚类结果中各簇心的距离,选择距离最小的簇A,并计算应届考生高考分数点与簇A中所有数据点的距离;
按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级;
以不同的层级进行院校推荐。
具体地,按照距离大小对簇中的数据点进行排序并对排序结果进行划分层级,具体为:
Sort(A)
t=len(Aj)/3
u=len(Aj)%3
Aj表簇A中第j个数据点;(0,t+u)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险低”的层级;当j∈(t+u+1,2t)时,预测分数线数据点xj对应的院校处于推荐列表中的“风险中”的层级;当i∈(2t+1,3t)时,预测分数线数据点xi对应的院校处于推荐列表中的“风险高”的层级。
例如,某考生的高考分数为520分。首先选择K值为6,通过K-means++算法计算得到6个簇心,分别为349、437、505、568、627和665。与该考生的高考分数距离最近的簇心是505,该簇的区间为(478,532)。计算该分数与簇中所有数据点的距离len(Aj)。预测录取分数线为502的数据点排在34位,且len(B34)为63,则t为21,u为0,则预测录取分数线为502的院校以“风险中”的层级进行推荐。
图3所示,本发明实施例提供了一种电子设备300,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机代码311,处理器320执行计算机代码311时实现本发明实施例提供的一种高校招生信息推荐方法。
由于本实施例所介绍的电子设备为实施本发明实施例中所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图4,图4为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图4所示,本实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现本发明实施例提供的一种高校招生信息推荐方法。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明提供了一种高校招生信息推荐方法,包括,获取院校数据集L中的学校名称;以各院校近四年的录取分数线作为输入,分别通过GM(1,1)预测模型和Verhulst预测模型对各院校录取分数线进行预测;通过后验差法对各院校的GM(1,1)模型预测结果和Verhulst模型预测结果进行检验并择优选择;输出各院校所对应的预测录取分数线,得到院校预测录取分数线数据集D;根据院校预测录取分数线数据集D、应届考生高考分数,利用改进的K-means算法进行院校推荐;本发明提出了一种高校招生信息推荐方法,利用多种预测模型对院校录取分数线进行预测,根据预测的院校录取分数线利用改进的K-means算法进行多层次院校推荐,准确率高且推荐信息全面。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均属于侵犯本发明保护范围的行为。