CN113051469A

CN113051469A - 一种基于k-聚类算法的学科选择推荐方法

Info

Publication number: CN113051469A
Application number: CN202110247202.6A
Authority: CN
Inventors: 鲁仁全; 蔡展锐; 任鸿儒; 王志宏; 张子荣
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-29

Abstract

本发明涉及信息技术的领域，提供一种基于K‑聚类算法的学科选择推荐方法；本发明获取调查对象的个人信息作为样本数据，然后对样本数据与处理后，方便分析与计算，保证了后续学科推荐的可靠合理性，利用K‑means++算法对预处理样本数据进行特征分析，获得最终聚类中心和最终聚类中心所处的簇，而簇根据学科设置；计算样本数据与每个最终聚类中心的欧氏距离，将样本数据分配到欧氏距离最近的最终聚类中心，即可获得最终聚类中心所处的簇对应的推荐学科。本发明以调查对象的个人信息作为最直接的样本数据，匹配学生的真实情况，具有针对性和目的性，推荐的学科更合理，帮助学校及学生避免面临学科选择时的盲目无助性。

Description

一种基于K-聚类算法的学科选择推荐方法

技术领域

本发明涉及信息技术的领域，更具体地，涉及一种基于K-聚类算法的学科选择推荐方法。

背景技术

在网络技术不断更新、大数据覆盖的时代大背景下，大学生面对的是多元化的学习方向。在各种眼花缭乱的选择面前，学生普遍对自己的学习方向感到十分迷惘。建于专业选择，发展前景，就业情况等因素，很多人不知道该如何去选择适合的专业，不清楚可以向什么方向发展。一旦选择错误，可能对自己的专业不满意，甚至产生厌学、弃学等问题。大数据分析对于大学生学习行为的分析与研究有着积极的辅助性及推动性作用，并且大数据分析结论可为教学管理部门如何高大学生的学习目的和学术方向出谋划策。

2019年11月5日公开的中国专利CN110414769A提供了一种学生生涯测评系统，涉及教育职业分析技术领域；包括后台服务器，所述后台服务器用于获取学生的指定行业、指定学科和指定学科对应的学习情况，并根据指定学科生成兴趣行业，并根据学习情况生成能力分析表，并根据指定行业、兴趣行业和能力分析表生成推荐职业列表，并根据推荐职业列表筛选推荐学科生成推荐学科列表，并根据能力分析表、推荐职业列表和推荐学科列表生成该学生的生涯测评报告。该方案依据指定行业、指定学科和指定学科的学习情况生成推荐学科列表，考虑的因素均是客观因素，考虑因素单一，无法匹配学生的真实情况，针对性和目的性差，最终导致推荐的学科不合理

发明内容

本发明为克服上述现有技术无法具有针对性和目的性的合理推荐学科的缺陷，提供一种基于K-聚类算法的学科选择推荐方法，能构根据调查对象的个人信息，更具针对性和目的性的推荐合理的学科。

本发明的技术方案如下：

本发明提供一种基于K-聚类算法的学科选择推荐方法，所述方法包括以下步骤：

获取调查对象的个人信息；

S2：将所述个人信息转化为样本数据y_i，组成样本数据集Y；

S3：对样本数据y_i进行预处理，获得预处理样本数据x_i；

S4：利用K-means++算法对预处理样本数据进行分析，选取出k个初始聚类中心；

S5：计算每个预处理样本数据到每个初始聚类中心的欧式距离，将每个预处理样本数据按照最小距离原则分配到距离最近的初始聚类中心；

S6：分配完成后，计算每个初始聚类中心内分配的预处理样本数据到该初始聚类中心的欧氏距离的均值点，将均值点作为新聚类中心；

S7：确认每个新聚类中心与初始聚类中心的位置是否相同；若位置相同，执行S8；若位置不相同，将新聚类中心更新为初始聚类中心，重复步骤S5-S6，直到位置不再变化；

S8：将位置不再变化的新聚类中心作为最终聚类中心，获得最终聚类中心所处的簇；所述簇根据学科设置；

S9：计算样本数据与每个最终聚类中心的欧氏距离，将样本数据分配到欧氏距离最近的最终聚类中心，输出该最终聚类中心所处的簇对应的推荐学科。

优选地，所述S1中，调查对象为不同学校不同专业的毕业生和在校生；所述个人信息包括调查对象的性别、年龄、学历、专业、学习习惯、个人性格和选择动机；

调查对象的性别分为男和女；调查对象的学历分为本科和分本科；调查对象的专业分为理科类、工科类和文科类；调查对象的学习习惯分为偏向钻研和偏向记忆记；调查对象的调查对象的分为偏向理性和偏向感性；调查对象的选择动机分为偏向就业、偏向薪资和偏向前景。

优选地，所述S2中，将个人信息转化为样本数据的具体方法为：调查对象的性别为女记为0，调查对象的性别为男记为1；调查对象的学历为本科记为3，调查对象的学历为非本科记为4；调查对象的专业为理科类记为5，工科类记为6，文科类记为7；调查对象的学习习惯偏向钻研记为8，偏向记忆记为9；调查对象的个人性格偏向理性记为10，偏向感性记为11；调查对象的选择动机偏向就业记为12，偏向薪资记为13，偏向前景记为14。

优选地，所述S3中，对样本数据进行预处理具体包括：去除重复的样本数据、去除无关的样本数据、去除错误的样本数据、去除或补全缺失的样本数据、样本数据离差标准化。

对样本数据进行预处理的作用是将冗杂的数据去除，避免因数据的重复带来不必要的偏差；对不符合规则，逻辑上不合理的数据进行去除，保证数据的准确性；去除无关的数据：避免分析时出现逻辑错误，保证每一项均可正确参与预算分析

优选地，预处理中，样本数据离差标准化的具体方法为：将样本数据集Y中的样本数据y_i变换到区间[a,b]内，则：

其中，x_i为预处理样本数据，y_i为样本数据，Y为样本数据集，a为变换区间的最小值，b为变换区间的最大值。

样本数据离差标准化的作用是使数据按照一定规则缩放，落入一个小的特点区间，方便计算。

使用TipDM-HB数据挖掘平台对预处理样本数据进行分析。

优选地，所述S4中，选取出k个初始聚类中心的具体方法为：

S4.1：随机选择一个预处理样本数据作为第一初始聚类中心；

S4.2：计算每个预处理样本数据x_i到第一初始聚类中心的距离D(x_i)；

S4.3：根据D(x_i)计算每个预处理样本数据x_i的选择概率P(x_i)；

S4.4：根据选择概率P(x_i)计算每个预处理样本数据x_i的累积概率Q(x_i)，并生成一个随机数r，选出第二初始聚类中心；

S4.5：重复步骤S4.4，直到选取出k个初始聚类中心。

优选地，所述S4.2中，每个预处理样本数据x_i到第一初始聚类中心的距离D(x_i)为欧式距离。

优选地，所述S4.3中，计算预处理样本数据x_i的选择概率P(x_i)的具体方法为：

其中，P(x_i)表示第i个预处理样本数据的选择概率，x_i表示第i个预处理样本数据，D(x_i)表示第i个预处理样本数据到第一初始聚类中心的距离。

优选地，所述S4.4中，选择第二初始聚类中心的具体方法为：

Q(x_i)＝P(x₁)+P(x₂)+…+P(x_i)

其中Q(x_i)表示第i个预处理样本数据的累积概率，P(x₁)表示第1个预处理样本数据的选择概率，P(x₂)表示第2个预处理样本数据的选择概率；

生成一个随机数r,r∈[0,1]，若Q(x_i-1)≤r＜Q(x_i)，则将累积概率Q(x_i)对应的第i个预处理样本数据选为第二初始聚类中心。

优选地，所述k的取值利用肘部法则确定。具体方法为：计算多个k的取值对应的误差平方和，绘制误差平方和与k的取值的关系曲线，选择使误差平方和的变化缓慢时对应的k的取值。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过收集调查对象的个人信息作为样本数据，然后对样本数据与处理后，方便分析与计算，保证了后续学科推荐的可靠合理性；通过K-means++算法对预处理样本数据进行特征分析，获得最终聚类中心和最终聚类中心所处的簇，而簇根据学科设置；计算样本数据与每个最终聚类中心的欧氏距离，将样本数据分配到欧氏距离最近的最终聚类中心，即可获得最终聚类中心所处的簇对应的推荐学科；其中，以调查对象的个人信息作为最直接的样本数据，匹配学生的真实情况，具有针对性和目的性，避免现有仅以调查对象面对的客观因素作为样本数据的单一性，推荐的学科更合理，帮助学校及学生避免面临学科选择时的盲目无助性。

附图说明

图1为实施例1所述的一种基于K-聚类算法的学科选择推荐方法的流程图；

图2为实施例1所述的对样本数据进行预处理的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明提供一种基于K-聚类算法的学科选择推荐方法，如图1所示，所述方法包括以下步骤：

获取调查对象的个人信息；

S2：将所述个人信息转化为样本数据y_i，组成样本数据集Y；

S3：对样本数据y_i进行预处理，获得预处理样本数据x_i；

所述S1中，调查对象为不同学校不同专业的毕业生和在校生；所述个人信息包括调查对象的性别、年龄、学历、专业、学习习惯、个人性格和选择动机；

所述S2中，将个人信息转化为样本数据的具体方法为：调查对象的性别为女记为0，调查对象的性别为男记为1；调查对象的学历为本科记为3，调查对象的学历为非本科记为4；调查对象的专业为理科类记为5，工科类记为6，文科类记为7；调查对象的学习习惯偏向钻研记为8，偏向记忆记为9；调查对象的个人性格偏向理性记为10，偏向感性记为11；调查对象的选择动机偏向就业记为12，偏向薪资记为13，偏向前景记为14。

在本实施例中，调查对象的个人信息如下：性别：男，年龄：20，学历：本科，专业：工科类，学习习惯：偏向钻研，个人性格：偏理性，选择动机：偏向就业；将以上个人信息转化为样本数据为[1,20,3,6,8,10,12]。

如图2所示，所述S3中，对样本数据进行预处理具体包括：去除重复的样本数据、去除无关的样本数据、去除错误的样本数据、去除或补全缺失的样本数据、样本数据离差标准化。

所述预处理中，样本数据离差标准化的具体方法为：将样本数据集Y中的样本数据y_i变换到区间[a,b]内，则：

所述S4中，选取出k个初始聚类中心的具体方法为：

S4.1：随机选择一个预处理样本数据作为第一初始聚类中心；

S4.3：根据D(x_i)计算每个预处理样本数据x_i的选择概率P(x_i)；

S4.5：重复步骤S4.4，直到选取出k个初始聚类中心。

所述S4.2中，每个预处理样本数据x_i到第一初始聚类中心的距离D(x_i)为欧式距离。欧式距离公式为:

收敛系数为0.5，阈值为0.5。

所述S4.3中，计算预处理样本数据x_i的选择概率P(x_i)的具体方法为：

所述S4.4中，选择第二初始聚类中心的具体方法为：

Q(x_i)＝P(x₁)+P(x₂)+…+P(x_i)

所述k的取值利用肘部法则确定。具体方法为：计算多个k的取值对应的误差平方和，绘制误差平方和与k的取值的关系曲线，选择使误差平方和的变化缓慢时对应的k的取值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于K-聚类算法的学科选择推荐方法，其特征在于，所述方法包括以下步骤：

S1：获取调查对象的个人信息；

S2：将所述个人信息转化为样本数据y_i，组成样本数据集Y；

S3：对样本数据y_i进行预处理，获得预处理样本数据x_i；

S5：计算每个预处理样本数据到每个初始聚类中心的欧式距离，按照最小距离原则，将每个预处理样本数据分配到距离最近的初始聚类中心；

2.根据权利要求1所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S1中，调查对象为不同学校不同专业的毕业生和在校生；所述个人信息包括调查对象的性别、年龄、学历、专业、学习习惯、个人性格和选择动机；

3.根据权利要求2所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S2中，将个人信息转化为样本数据的具体方法为：调查对象的性别为女记为0，调查对象的性别为男记为1；调查对象的学历为本科记为3，调查对象的学历为非本科记为4；调查对象的专业为理科类记为5，工科类记为6，文科类记为7；调查对象的学习习惯偏向钻研记为8，偏向记忆记为9；调查对象的个人性格偏向理性记为10，偏向感性记为11；调查对象的选择动机偏向就业记为12，偏向薪资记为13，偏向前景记为14。

4.根据权利要求3所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S3中，对样本数据进行预处理具体包括：去除重复的样本数据、去除无关的样本数据、去除错误的样本数据、去除或补全缺失的样本数据、样本数据离差标准化。

5.根据权利要求4所述的基于K-聚类算法的学科选择推荐方法，其特征在于，预处理中，样本数据离差标准化的具体方法为：将样本数据集Y中的样本数据y_i变换到区间[a，b]内，则：

6.根据权利要求5所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S4中，选取出k个初始聚类中心的具体方法为：

S4.1：随机选择一个预处理样本数据作为第一初始聚类中心；

S4.3：根据D(x_i)计算每个预处理样本数据x_i的选择概率P(x_i)；

S4.5：重复步骤S4.4，直到选取出k个初始聚类中心。

7.根据权利要求6所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S4.2中，每个预处理样本数据x_i到第一初始聚类中心的距离D(x_i)为欧式距离。

8.根据权利要求7所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S4.3中，计算预处理样本数据x_i的选择概率P(x_i)的具体方法为：

9.根据权利要求8所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述S4.4中，选择第二初始聚类中心的具体方法为：

Q(x_i)＝P(x₁)+P(x₂)+…+P(x_i)

生成一个随机数r，r∈[0，1]，若Q(x_i-1)≤r＜Q(x_i)，则将累积概率Q(x_i)对应的第i个预处理样本数据选为第二初始聚类中心。

10.根据权利要求9所述的基于K-聚类算法的学科选择推荐方法，其特征在于，所述k的取值利用肘部法则确定。