CN111625576A

CN111625576A - 一种基于t-SNE的成绩聚类分析方法

Info

Publication number: CN111625576A
Application number: CN202010410844.9A
Authority: CN
Inventors: 李波; 白双霞; 翟玉媛; 何瑞寅
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-04
Anticipated expiration: 2040-05-15
Also published as: CN111625576B

Abstract

本发明提供了一种基于t‑SNE的成绩聚类分析方法，导入原始数据，对高维成绩数据进行t‑SNE降维，对t‑SNE降维后的成绩数据进行K‑Means聚类处理，得到聚类结果。本发明对原始数据进行预处理之后，利用t‑SNE算法将高维空间上的数据降维后，再用K‑Means算法对原始数据进行聚类，有效的解决了数据维度过高带来的聚类效果不理想的问题。由于t‑sne降维法较完整的保留了高维数据的分布特征，用降维后数据的聚类结果还原得到高维数据的聚类结果。通过比较先降维后聚类和直接对高维数据的聚类的结果，可以看出降维算法在学生成绩分析算法上的优越性。

Description

一种基于t-SNE的成绩聚类分析方法

技术领域

本发明涉及成绩分析领域，尤其是一种聚类算法的成绩分析方法。

背景技术

成绩分析是学校评估在校学生学习情况的重要手段之一。学校一般采用及格率、平均分、总分排名等指标进行分析，希望通过这些指标反应学生近期的各科学习状况。但这些指标所反映的内容之间缺乏关联性，难以得出学生的综合表现情况。如今，随着大数据分析技术快速发展，学校可以利用数据挖掘技术和数据可视化技术对学生学习情况进行更高效、准确的分析。

现有一些基于数据挖掘的成绩分析方法。专利《基于粗糙集的学生单科成绩决策分析方法及分析器》(中国专利公布号：CN 105677854 A，公开时间2016.06.15)使用了粗糙集理论对成绩进行分析，减小了传统成绩平均值计算带来的较大误差，模糊了在计算成绩时影响微小的因素，提高了成绩分析的科学性和准确性。但是，此发明只涉及分析单科成绩，在分析学生整体成绩，把握学生整体学习情况等方面有一定的局限性。专利《一种基于改进的C4.5算法的学生成绩分析方法》(中国专利公布号：CN 109409644 A,公开时间2019.03.01)使用了改进的C4.5算法，能够对多个科目成绩进行分析，实现学生分类，从而减轻了教学管理工作。但是C4.5算法作为一种有监督学习方法，需要对所有非类别属性计算信息增益率，并从中选择信息增益率最大的属性作为测试属性。在选择分类属性的过程中可能会出现漏选等情况，影响分类准确性。同时，C4.5需要对数据集进行多次的顺序扫描和排序，当数据集较大时，会严重影响分类效率。

发明内容

为了克服现有技术的不足，本发明提供一种基于t-SNE的成绩聚类分析方法。本发明为一种基于t-SNE降维和K-Means聚类的成绩分析方法，t-SNE是由Laurens van derMaaten和Geoffrey Hinton在2008年提出的一种高维数据降维的算法，K-Means是一种经典的无监督聚类分析方法，结合两者，可以提升数据分析的效果并便于可视化。本发明为解决多科成绩分析和多维数据可视化的问题并克服现有技术中的不足，提出一种基于t-SNE的成绩聚类分析方法，将学生成绩先通过t-SNE算法降维再通过K-Means算法聚类，以提高多科成绩分析的效率和效果。

本发明解决其技术问题所采用的技术方案是：

步骤一：导入原始数据；

步骤二：对高维成绩数据进行t-SNE降维；

(2-1)计算不同学生成绩的欧氏距离；

设所有学生成绩为一个m×n的矩阵，

即有m名同学，n科成绩，行向量x_i＝[x_i1 x_i2 ... x_in]表示第i名同学的各科成绩，x_j同理；利用公式||x_i-x_j||²，计算每两个行向量之间的欧氏距离，得到m×m矩阵：

d_ij表示第i名同学和第j名同学成绩行向量的欧氏距离，矩阵中其他元素同理；

(2-2)计算高维成绩条件分布概率p_j|i；

将行向量x_i与x_j之间的高维欧氏距离转换为表示相似性的条件概率p_j|i，p_j|i表示在以x_i为中心的高斯分布下，如果按高维数据点之间概率密度的比例选取邻点时，x_i会选择x_j作为它的邻点的概率；p_j|i计算公式如下：

σ_i是以数据点x_i为中心的正态分布的方差；

(2-3)计算困惑度P_x和最优高维成绩条件分布概率p_j|i；

引入困惑度P_x，以便寻找最优的单个值σ_i，定义困惑度如下：

该分布具有随着σ_i增加而增加的熵，其中H(P_i)为香农熵，定义为：

H(P_i)＝-∑p_j|ilog₂ p_j|i (3)

定义P_x的标准值为

取值范围为30.0-50.0，初始化σ_i，带入式(1)和式(2)，求得概率分布p_j|i和困惑度P_x，将困惑度与标准值

做差，进行二分法迭代，更新σ_i和P_x；当P_x与

的差值小于设定的限值s_xb，或迭代次数大于i_dd时，停止迭代，并求得此时的σ_i，即为最优σ_i；将该σ_i值带入式(1)，求得最优高维成绩条件分布概率p_j|i；

(2-4)初始化低维成绩矩阵Y，计算低维成绩条件分布概率q_ij；

低维成绩矩阵Y是高维成绩的低维映射，随机初始化低维学生成绩矩阵Y，

行向量y_i＝[y_i1 y_i2]表示低维成绩中第i名同学的成绩，y_j同理；

低维成绩条件分布概率采用t分布，设为q_ij，计算公式如下：

(2-5)对称化p_j|i，求p_ij；

由于低维成绩分布采用t分布，对p_j|i对称化：

(2-6)计算损失函数L和梯度

定义P_i为x_i与其他所有点之间的条件概率构成的条件概率分布，同理在低维空间存在一个条件概率分布Q_i且应该与P_i一致；用KL距离衡量两个分布之间的相似性，最终目标就是对所有数据点最小化KL距离；

定义降维前后损失函数为：

损失函数求梯度如下：

(2-7)基于梯度下降算法最小化代价函数，更新低维成绩矩阵Y；

根据式(7)求得梯度函数

进行梯度下降最小化损失函数L，不断更新低维学生成绩矩阵Y，并在损失函数L最小时，得到最终降维后的成绩数据，具体公式如下：

其中，更新后的低维成绩定义为Y^(t)，η表示步长，上一次迭代产生的低维成绩矩阵为Y^(t-1)，上上次迭代产生的低维成绩矩阵Y^(t-2)，学习率为α(t)；α(t)(Y^(t-1)-Y^(t-2))是为了增强梯度下降效果的而加上的动量梯度，α(t)由用户自己设定，第一次迭代时Y^(t-1)-Y^(t-2)默认为0；

步骤三：利用公式(8)得到t-SNE降维后的成绩数据Y^(t)，并对Y^(t)进行K-Means聚类处理：

(3-1)确定初始聚类中心；

确定需要划分簇的个数k，并随机选择成绩数据中k个样本点Y_i，即随机选k行，作为初始聚类中心，标记为向量Y_c＝(y₁,y₂)，c＝0,1,2,3,…,k-1；

(3-2)依据初始聚类中心Y_c划分簇；

(a)计算样本中各个样本点Y_i与每个聚类中心Y_c的欧式距离d_y；

设样本点为向量Y_i＝(y_i1,y_i2)，y_i1，y_i2为样本点中每个特征的值，设l为样本点的标号，用向量表示为l＝[0,1,2,…,m-1]，m为学生人数，计算欧式距离的公式为：d_y＝||Y_i-Y_c||²，其中i＝0,1,2,3,...,m-1，c＝0,1,2,...,k-1；

(b)更新样本标号；

找出与每个样本点Y_i最近的聚类中心，以距离每个样本点最近的聚类中心的中心标记c代替原本样本标号l，以此更新样本标号，进而划分簇；

(3-3)更新聚类中心；

计算各簇中所有样本点的平均值作为新的聚类中心，其中每个簇中样本点个数为v_c,c＝0,1,2,…,k-1,同一簇中所有向量和为S_c,c＝0,1,2,…,k-1；

新聚类中心的公式如下：

(3-4)依据新的聚类中心，重新划分簇；依据步骤(3-3)中计算出的新的聚类中心，采用步骤(3-2)中的方法更新簇；

(3-5)重复步骤(3-3)与(3-4)直到聚类中心不再变化，得到此时的聚类结果。

本发明的有益效果在于对原始数据进行预处理之后，利用t-SNE算法将高维空间上的数据降维后，再用K-Means算法对原始数据进行聚类，有效的解决了数据维度过高带来的聚类效果不理想的问题。由于t-sne降维法较完整的保留了高维数据的分布特征，用降维后数据的聚类结果还原得到高维数据的聚类结果。通过比较先降维后聚类和直接对高维数据的聚类的结果，可以看出降维算法在学生成绩分析算法上的优越性。

附图说明

图1为基于t-SNE的成绩聚类分析方法的总框架。

图2为t-SNE的算法流程图。

图3为K-Means的算法流程图。

图4为基于t-SNE的成绩聚类分析方法的结果图。

图5为对成绩直接聚类的结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明解决其技术问题所采用的技术方案是：

步骤一：导入原始数据；

步骤二：对高维成绩数据进行t-SNE降维；

(2-1)计算不同学生成绩的欧氏距离；

设所有学生成绩为一个m×n的矩阵，

(2-2)计算高维成绩条件分布概率p_j|i；

σ_i是以数据点x_i为中心的正态分布的方差；

(2-3)计算困惑度P_x和最优高维成绩条件分布概率p_j|i；

对于以每一个高维数据点x_i为中心的高斯分布的方差参数σ_i，因为数据的密度可能是变化的，所以不可能只存在一个单独的σ_i对于数据列表中的所有数据点来说都是最优的；相比于数据稀疏的区域，较小的σ_i通常更适用于数据密集的区域；任何一个特定的σ_i值都会诱发一个相对于其他所有数据点的概率分布P_i，分布P_i的熵随着σ_i的增加而增加；

H(P_i)＝-∑p_j|ilog₂ p_j|i (3)

由公式(2)可知，困惑度随着熵增而变大，如果概率分布P_i的熵较大，那么其分布的形状就相对平坦，该分布中每个元素p_ji更相近，即以x_i为中心的点的数量更多。在应用的过程中，我们将困惑度参数等同于所需要的邻近数量。定义P_x的标准值为

做差，进行二分法迭代，更新σ_i和P_x；当P_x与

的差值小于设定的限值s_xb，或迭代次数大于i_dd时，停止迭代，并求得此时的σ_i，即为最优σ_i；最终求得符合所有数据点之间的距离分布关系的最优σ_i，使得困惑度趋近于一个稳定的值；将该σ_i值带入式(1)，求得最优高维成绩条件分布概率p_j|i；

(2-4)初始化低维成绩矩阵Y，计算低维成绩条件分布概率q_ij；

(2-5)对称化p_j|i，求p_ij；

由于低维成绩分布采用t分布，对p_j|i对称化：

(2-6)计算损失函数L和梯度

定义降维前后损失函数为：

损失函数求梯度如下：

根据式(7)求得梯度函数

其中，更新后的低维成绩定义为Y^(t)，η表示步长，上一次迭代产生的低维成绩矩阵为Y^(t-1)，上上次迭代产生的低维成绩矩阵Y^(t-2)，学习率为α(t)；η由用户自己通过多次试验，选择适当的值进行设定；在选择时应注意，η既不能太大也不能太小，太小会使拟合时间过长，太大则会导致过拟合；α(t)(Y^(t-1)-Y^(t-2))是为了增强梯度下降效果的而加上的动量梯度，也可以不设置，它引入了上一次迭代产生的Y^(t-1)和上上次迭代产生的Y^(t-2)和学习率α(t)，其中α(t)的选择与已进行的迭代次数有关，即刚开始迭代时设为较大参数值，随着迭代的进行，应适当减小，以提高拟合精度；与η类似，α(t)由用户自己通过多次实验设定；另外，第一次迭代时Y^(t-1)-Y^(t-2)默认为0；

(3-1)确定初始聚类中心；

(3-2)依据初始聚类中心Y_c划分簇；

(b)更新样本标号；

(3-3)更新聚类中心；

新聚类中心的公式如下：

步骤(3-5)的聚类结果实际上相当于把学生依据成绩之间的相似性进行了分类，每一个簇代表了一类学生；根据步骤(3-5)得到的低维聚类结果，如果反向找到对应的高维数据点，就找到高维数据中对应低维数据每一个簇的数据，进而进行分析每一个簇的特点。对于高维数据中相对应的簇，从不同的角度对成绩进行分析，可以挖掘出更多有价值的信息，全面地了解不同类别学生的成绩特点，从而实现对不同类别的学生个性化指导和学校教学方案的改进。例如分析不同类别学生的优势和弱势学科，进而根据不同类别同学的特点进行针对性的指导来帮助学生提升成绩。

下面结合附图和表，对本发明的技术方案作进一步清晰和完整的描述。

步骤一：导入原始数据，数据包含535名同学，16科成绩，如下表：

表1基于t-SNE的成绩聚类分析方法的结果图

学号	C理论	概率论	高数上	高数下	...	线代	数电	模电
									2011301845	64	45	33	33	...	78	28	73
2011301857	66	53	40	62	...	70	49	65
									2011301871	74	53	32	44	...	76	78	79
2011301877	35	60	37	30	...	75	49	60
									...	...	...	...	...	...	...	...	...
2011301890	23	43	76	32	...	66	37	63
									2011301892	32	38	25	42	...	74	41	63

步骤二：对高维成绩数据进行t-SNE降维：

(2-1)计算不同学生成绩的欧氏距离

导入学生成绩，转换为一个535×16的矩阵，

即有m＝535名同学，n＝16科成绩。行向量x_i＝[x_i1 x_i2 ... x_i16]表示第i名同学的各科成绩，x_j同理。利用公式：||x_i-x_j||²，计算每两个行向量之间的欧氏距离，得到535×535矩阵：

矩阵中第i行j列的值表示第i名同学和第j名同学成绩行向量的欧氏距离，矩阵中其他元素同理。

(2-2)计算高维成绩条件分布概率p_j|i

设高维成绩条件分布概率为p_j|i，它表示如果邻域被选择与在以x_i为中心的正态分布的概率密度成比例，x_i将选择x_j作为其邻域的概率。p_j|i计算公式如下：

σ_i以数据点x_i为中心的正态分布的方差。

(2-3)计算困惑度P_x和最优高维成绩条件分布概率p_j|i

引入困惑度P_x的概念，以便寻找最优的σ_i。定义困惑度：

该分布具有随着σ_i增加而增加的熵。其中H(P_i)为香农熵，定义为：

H(P_i)＝-Σp_j|ilog₂ p_j|i (3)

P_i为x_i与其他所有点之间的条件概率构成的条件概率分布。设P_x的标准值为

初始化σ_i，令σ_i＝1。将σ_i＝1带入式(1)，求得初始概率分布p_j|i和困惑度P_x，将困惑度P_x与标准值

取对数后，前者减后者得

进行二分法迭代，更新σ_i。由于

是的减函数。因此，当

时，σ_i用替代

当

时，σ_i用

替代。当P_x与

的差值小于设定的限值s_xb＝10^-5，或迭代次数大于i_dd，取i_dd＝50时，停止迭代，并求得此时的σ_i带入式(1)，求得最优高维成绩条件分布概率p_j|i：

(2-4)初始化降维后学生成绩矩阵Y，计算低维成绩条件分布概率q_ij

随机初始化降维后学生成绩矩阵Y

行向量y_i＝[y_i1 y_i2]表示降维后第i名同学的成绩，y_j同理。

(2-5)对称化p_j|i，求p_ij

由于低维成绩分布采用t分布，因此需要对p_j|i对称化：

(2-6)计算损失函数L和梯度

P_i为x_i与其他所有点之间的条件概率构成的条件概率分布。同理在低维空间存在一个条件概率分布Q_i且应该与P_i一致。用KL距离衡量两个分布之间的相似性，最终目标就是对所有数据点最小化这个KL距离。

定义降维前后损失函数：

针对损失函数求梯度如下：

(2-7)梯度下降算法最小化代价函数，更新低维成绩矩阵Y

降维后随机初始化Y，经过上述步骤后，计算损失函数L和梯度

按(8)式进行梯度下降。

其中，更新后的低维成绩定义为Y^(t)，η表示步长，上一次迭代产生的低维成绩矩阵为Y^(t-1)，上上次迭代产生的低维成绩矩阵Y^(t-2)，学习率为α(t)。我们设定步长η的初值为5，并引入调整因子g(初值为0.01)与η相乘，当

和(Y^(t-1)-Y^(t-2))均为正时，g＝0.8，否则g＝g+0.2。同时规定，当迭代次数小于20次时，α(t)＝0.5此后α(t)＝0.8。

最终得到以下结果：

步骤三：对进行过t-SNE降维后的成绩数据Y进行K-Means聚类处理：

(3-1)确定初始聚类中心

首先确定需要划分簇的个数k＝5，而后随机选择成绩数据中5个样本点Y_i作为初始聚类中心，即随机选5行作为初始聚类中心，标记为向量Y_c＝(y₁,y₂)，c＝0,1,2,3,4。把初始聚类中心合并成矩阵C得到：

(3-2)依据初始聚类中心Y_c划分簇

(a)计算样本中各个样本点Y_i与每个聚类中心Y_c的欧式距离d_y：

设样本点为向量Y_i＝(y_i1,y_i2)，y_i1，y_i2为样本点中每个特征的值，设l为样本点的标号，用向量表示为l＝[0,1,2,…,534]，计算欧式距离的公式为：d_y＝||Y_i-Y_c||²，其中i＝0,1,2,3,…,534，c＝0,1,2,3,4；得到结果l＝[2 3 1 1 1 4 ... 0 0 4 4 3 0]；

(b)更新样本标号。找出与每个样本点Y_i最近的聚类中心，以此中心标记c标记样本点，更新样本标号l，进而划分簇。

(3-3)更新聚类中心

计算各簇中所有样本点的平均值作为新的聚类中心，其中每个簇中样本点个数为v_c,c＝0,1,2,3,4，同一簇中所有向量和为S_c,c＝0,1,2,3,4；

新聚类中心的公式为

(3-4)依据新的聚类中心，重新划分簇。依据(3-3)中计算出的新的聚类中心，采用(2)中的方法更新簇。

(3-5)重复步骤(3-3)与(3-4)1000次，聚类中心不再变化，得到最后的聚类结果：l＝[1 3 1 1 1 4 ... 0 0 4 4 4 0]。

根据步骤(3-5)得到的低维聚类结果，根据成绩之间的相似性，学生被分成了五类。如果反向找到对应的原始成绩数据点，就可以针对不同的学生类别，进行不同的角度的数据分析，从数据中挖掘出更多有价值的信息，全面地了解不同类别学生的成绩特点，从而实现对不同类别的学生个性化指导和学校教学方案的改进。例如对这五类同学的各科成绩进行可视化处理，直观地观察不同类学生在各科成绩中的表现，方便教师们进行分析和指导。