CN117828377B

CN117828377B - 一种基于公平加权因子的教育感知聚类方法及系统

Info

Publication number: CN117828377B
Application number: CN202410231341.3A
Authority: CN
Inventors: 潘奕霖; 郭龙坤
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-10
Anticipated expiration: 2044-03-01
Also published as: CN117828377A

Abstract

本发明提出了一种基于公平加权因子的教育感知聚类方法及系统，涉及教育数据科学领域，获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；本发明引入公平加权因子，使用上下界保护每个元素被公平的权衡，更好地强化公平保护效果，解决了现有公平聚类技术的不够准确保护敏感对象的问题，提高了系统的性能与实用性。

Description

一种基于公平加权因子的教育感知聚类方法及系统

技术领域

本发明属于教育数据科学领域，尤其涉及一种基于公平加权因子的教育感知聚类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

教育感知系统中常常存在着因地域、经济状况或其他社会因素所导致的发展不平衡现象，此类现象可能导致学生群体在获取教育资源方面处于有待加强的地位，限制了其发展与成长的机会；为了解决这一问题，教育感知系统采用数据驱动的方法，通过收集和分析学生各种行为信息，以便更好地理解学生的需求、潜力和背景。

在教育感知系统中确保公平是至关重要的，随着机器学习在教育系统和教育数据科学领域的应用越来越多，从决策公平到教育活动和学习分析，都涉及机器学习；聚类是此领域中常用的机器学习技术，通过挖掘数据隐含的信息来生成结果，聚类在教育数据科学中的应用包括分析学生行为表现、成绩预测、分析心理健康等方面；学生的数据可以来自传统课堂和学生管理系统等多种来源，最终教育者可以针对学生的不同群体制定相应的教学策略和辅助措施。

现有教育感知系统中的聚类算法，尽管使用聚类技术来分析学生行为、监督任务执行有着较好的归纳总结作用，但现有的聚类可能会忽视公平性这一问题，导致对学生评估的偏见；例如某算法会受到特定特征的影响，将学生划分到不符合实际情况的群体，影响资源的合理分配。

公平性约束始于Dwork等人的早期开创工作，也是一种对机器学习算法添加的约束，Chierichetti基于disparate impact原则首次提出公平聚类的概念，使用fairlets将数据预处理为多个较小的多个平衡聚类子集，然后再使用k-center方法聚类，从而保证公平性约束，是快速处理聚类结果的常用方法之一，然而此类方法寻找公平子集的时间代价很高，而且存在着方法单一和保护属性较少的缺陷；实验评估公平聚类的指标可以使用多个度量方法来评估公平性，例如平衡度、欧氏距离、Wasserstein距离等。

因此，现有教育感知系统中的聚类算法，尽管涉及公平聚类技术，但不能准确保护敏感属性，而且性能与实用性不高。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于公平加权因子的教育感知聚类方法及系统，引入公平加权因子，使用上下界保护每个元素被公平的权衡，更好地强化公平保护效果，解决了现有公平聚类技术的不够准确保护敏感对象的问题，提高了系统的性能与实用性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种基于公平加权因子的教育感知聚类方法。

一种基于公平加权因子的教育感知聚类方法，包括：

获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；

基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；

使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，评估结果不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；

其中，所述第一公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值小于阈值，所述第二公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值在公平加权因子限定的上下界中。

进一步的，所述统计班级学生数据集在受公平性约束的属性上的数据分布比例，是根据受公平性约束的属性，将班级学生分为几个分组，同一个分组的学生在受公平性约束的属性上具有相同的属性值。

进一步的，所述受公平性约束的属性，是在聚类算法执行时保持公平对象；

所述公平性约束的理想状态是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例保持一致。

进一步的，所述初级聚类结果的计算过程，包括：

随机选取学生初始化聚类中心，将其他学生分配到距离聚类中心最近的簇，首次生成初始聚类簇；

迭代更新聚类中心和聚类簇。

进一步的，所述迭代更新聚类中心和聚类簇，具体为：

每一轮分配检查是否符合第一公平性约束的要求；当聚类结果满足第一公平性约束的要求时，结束聚类的操作；不满足时选取与聚类中心距离最大的学生数据点作为新的聚类中心，交换不平衡分布的敏感对象数据点。

进一步的，所述交换不平衡分布的敏感对象数据点，是将聚类簇划分为多个簇子集，在簇子集之间进行分组交换。

进一步的，所述迭代更新聚类中心和聚类簇，是通过图拉普拉斯矩阵和指示矩阵，对班级学生数据集构建的无向图进行迭代的顶点划分，得到最终的聚类结果。

本发明第二方面提供了一种基于公平加权因子的教育感知聚类系统。

一种基于公平加权因子的教育感知聚类系统，包括数据获取模块、初级聚类模块和终极模块：

数据获取模块，被配置为：获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；

初级聚类模块，被配置为：基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；

终极模块，被配置为：使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，评估结果不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明在保护数据可用性的基础上，基于公平子集分组交换的公平性约束策略，添加带上下界的公平加权因子，在保持较小开销的前提下，获得了更具精确度的公平性保护效果，解决现有算法对公平性约束的限制主要由公平子集簇来实现导致的开销过大问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

聚类目标对象（Clustering Targets）：与聚类任务相关的对象。

敏感对象（Sensitive Targets）：希望在聚类算法执行时保持公平的对象，即在本发明所述的受公平性约束的属性上对学生进行保护，受公平性约束的属性如种族或性别等。

公平性约束（FairConstraint）：保护聚类结果中来自不同群体的元素的分布比例，使其该元素群体在现实中的比例尽可能保持一致。

教育感知系统对公平性聚类方法的需求，要求在处理学生数据的同时维护公平性和公正性；这有利于创造一个更具有包容性与公平性的教育环境，为每个学生提供更好的学习体验与发展机会，针对原有方法的弱保护性，由对聚类结果施加公平加权因子对敏感属性（例如种族或性别）做了保护。

公平性聚类在教育感知系统中的目标包括确保每个学生都有平等的机会获得高质量的教育资源，不受到其个人特征的影响；如果公平约束的效力过强，势必会影响到聚类结果的可信性，比如使得聚类结果偏离于客观事实；而针对这一问题，本发明对聚类结果的评估时添加公平加权因子，将公平性预算量化可控，从图谱聚类的角度满足任务要求，大大地提高了数据的可用性和可靠性。

实施例一

在公平聚类中，往往假设数据集中存在两种对象，其中一组是与聚类任务相关的聚类目标对象（Clustering Targets），另外一组是希望在算法输出时保持公平的敏感对象（Sensitive Targets）；而实现公平的客观意义是确保每个簇中被保护对象的分布接近于其在数据集中的分布。

本实施例提出了一种基于公平加权因子的教育感知聚类方法，引入公平加权因子，使用上下界保护每个元素被公平的权衡，更好地强化公平保护效果，解决了现有公平聚类技术不能准确保护敏感对象的问题，提高系统的性能与实用性，如图1所示，包括如下步骤：

步骤S1：获取待聚类的班级学生数据集，统计班级学生数据集在受公平性约束的属性上的数据分布比例；

步骤S2：基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，直到聚类簇满足第一公平性约束，得到初级聚类结果；

步骤S3：使用引入公平加权因子的第二公平性约束，对初级聚类结果进行评估，评估结果不满足要求则迭代更新聚类中心和聚类簇，直到聚类簇满足第二公平性约束，得到最终的聚类结果；

下面对本实施例一种基于公平加权因子的教育感知聚类方法的实现过程进行详细说明。

本实施例具体采用了公平加权因子结合公平子集fairlet子图划分的公平聚类方法，选取了定量目标，在规定次数的聚类迭代过程中，每次迭代更新簇时都降低了公平的开销，并且计算和使用公平加权因子来调整聚类中心，平衡结果的公平性和客观可用性。

在引入带有公平上下界的加权因子以后，提高对关键对象的保护，平衡公平约束的开支，提升可用性。

先对本实施例中用到的参数进行定义，如表1所示：

表1 参数表

问题示例：

输入一个班级学生数据集，内含有/>个学生分组/>，同一个分组的学生在受公平性约束的属性（例如种族或性别）上具有相同的属性值，目标是将班级学生数据集中所有学生，使用基于最小圆覆盖算法的聚类算法划分到聚类簇/>中；聚类簇中心的数目设定为/>，最终获得/>个覆盖所有学生数据点的聚类簇/>，且使得所有学生数据点到中心的距离都尽可能近。

在聚类任务的执行过程中，将学生数据点分配到簇时，都会检查分组内元素是否符合公平性约束，所述公平性约束，其理想状态用公式表示为：

这也就意味着聚类簇中元素数据点的分布比例应当与其在分组中的比例保持一致，即聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例保持一致；若不满足要求，则需要计算出需要进行交换的目标对象，交换后返回更新后的中心；最终，根据递归调用的结果输出带有公平性约束的样本聚类簇。

在上述过程中，由于簇内元素点太多，导致对元素点进行调整时所花费的时间代价太高，不利于问题的快速解决，为了解决这个问题，本实施例提供的聚类方法，如图1所示，有以下步骤组成：

步骤一：聚类簇中心的初始化与初始聚类簇的首次生成

输入班级数据集，/>有/>个学生分组/>。

随机选取个学生数据点作为聚类的初始中心/>，从/>中选取所有元素学生数据点作为划分簇的对象，将所有学生数据点划分到拥有/>个中心的簇/>中。

参考标准的k中心聚类问题的定义可知，聚类问题可以被转化为一个分配数据集拥有的学生数据点到与其聚类中心/>距离最小化的问题，用公式表示为：

对班级数据集中的所有学生数据点与簇/>的距离应尽可能小，而不同簇/>之间的距离应该保持尽可能的大，用公式表示为：

其中，表示寻找/>班级数据集里的一个数据点，使其与最新生成的簇距离最大。

聚类中心的产生定义了对的学生数据点的聚类，通过将/>的所有学生数据点分配到与其距离最近的中心/>，一种快速的策略是聚类簇子集的划分，某一聚类簇的子集必须包含某些元素，同样可以使用距离矩阵的问题实例来进行阐述，由此可以定义簇子集，子集的数量往往限定在3，/>，实现较为简易的公平约束，簇子集对数据点，通过划分矩阵，公平k中心问题被表述为拟阵中心问题，用公式表示为：

步骤二：迭代更新带公平性约束的聚类中心和聚类簇，完成初级聚类

聚类算法的迭代更新过程中，选取与聚类中心距离最大的学生数据点作为新的中心，用公式表示为：

将每个所包含的学生数据点分配到与它距离最近的中心/>，完成一轮的数据点分配以后,再次使用新的中心重新进行样本点的分配，每一轮分配都检查是否符合第一公平性约束的要求，当聚类结果满足第一公平性约束的要求时，结束聚类的操作，获得符合一定公平性约束的聚类簇。

因为所表示的公平性约束是一种理想状态，在实际聚类过程中很难达到，所以本实施例将第一公平性约束定义为：聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值小于阈值/>，从而保证初级聚类的可控性。

第一公平性约束是一个给定好参数的约束性数学度量，用公式表示为：

在公平聚类中，一种常见的问题是：容易在某个分组（例如，性别为男的分组）中选取过多的学生数据点，而在/>（例如，性别为女的分组）中选取的学生过少，这种情况下，为了保持公平性，通过采用的处理方式为分组交换，使用属于/>的簇中的元素来交换属于的簇中的元素，从而减少/>的学生的数量，当所有可用的交换完成时，所有剩余的学生在/>中的簇就完全包含在/>之中。

步骤三：对聚类的学生数据检查带上下界的公平加权约束，最终实现更精准的教育感知数据聚类，实现对教育行为的分析总结。

参考无向图的矩阵思想，将公平性约束精细化构建，以便于减小调整聚类结果的开销，对于任意，构造了一个用于表示点与点之间相似程度的矩阵/>，/>是一个的单位矩阵。

给定一个松弛的的簇指示矩阵/>，代表数据点与聚类簇之间的关系，且/>；若数据点/>不在数据点/>的簇/>中，/>，否则。

代表了一个无向图，含所有学生顶点的合集/>拥有/>个节点，/>包含所有学生，将所有学生作为节点在无向图上表示，图主要表达了顶点之间的距离与相似程度，/>是节点/>和节点/>的边，令/>表示/>的权重，并使用余弦相似度公式计算，使用这一指标来表示节点/>与/>相似性的高低，权重的具体计算公式为：

给定度矩阵，其中/>，给定相似矩阵。

通过度矩阵对相似矩阵做差，可以获得图拉普拉斯矩阵，且，它的值更加精确的代表了矩阵内点与点之间的分布与相似情况。

公平约束的实现可以表示在更精确的范围内，提高约束的效率，节省系统时间开销，公平加权因子的公平约束表示为如下形式：

。

公平加权因子控制着公平约束的上界和下界，可以根据保护力度的需要调整数值。

在聚类生成簇的过程，使用加权因子的公平性约束进行检查，重复迭代直到最终得到满足公平约束的教育数据簇，实现了对教育数据的受公平保护的分析与总结，最终的教育数据簇/>用公式表示为：

实施例二

本公开的一种实施例中提供了一种基于公平加权因子的教育感知聚类系统，包括数据获取模块、初级聚类模块和终极模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的一种基于公平加权因子的教育感知聚类方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于公平加权因子的教育感知聚类方法，其特征在于，包括：

其中，所述第一公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值小于阈值，所述第二公平性约束是聚类簇中在受公平性约束的属性上的数据分布比例与班级学生数据集在受公平性约束的属性上的数据分布比例的差值在公平加权因子限定的上下界中；

所述第二公平性约束，用公式表示为：

其中，表示班级学生数据集在受公平性约束的属性上的数据分布比例，/>表示聚类簇中在受公平性约束的属性上的数据分布比例，/>表示班级学生数据集拥有的全部学生分组，/>表示全部学生分组中的一个学生分组，/>表示聚类簇，/>表示公平加权因子，表示阈值；

所述公平加权因子采用图拉普拉斯矩阵计算得到，具体为：/>，且

其中，为聚类簇的指示矩阵，/>、/>分别为基于学生无向图构建的度矩阵和相似矩阵，表示聚类簇集合。

2.如权利要求1所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述统计班级学生数据集在受公平性约束的属性上的数据分布比例，是根据受公平性约束的属性，将班级学生分为几个分组，同一个分组的学生在受公平性约束的属性上具有相同的属性值。

3.如权利要求1所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述受公平性约束的属性，是在聚类算法执行时保持公平对象；

4.如权利要求1所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述初级聚类结果的计算过程，包括：

迭代更新聚类中心和聚类簇。

5.如权利要求1所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述基于最短路径算法的聚类算法，迭代更新聚类中心和聚类簇，具体为：

6.如权利要求5所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述交换不平衡分布的敏感对象数据点，是将聚类簇划分为多个簇子集，在簇子集之间进行分组交换。

7.如权利要求1所述的一种基于公平加权因子的教育感知聚类方法，其特征在于，所述评估结果不满足要求则迭代更新聚类中心和聚类簇，是通过图拉普拉斯矩阵和指示矩阵，对班级学生数据集构建的无向图进行迭代的顶点划分，得到最终的聚类结果。

8.一种基于公平加权因子的教育感知聚类系统，其特征在于，包括数据获取模块、初级聚类模块和终极模块：

所述第二公平性约束，用公式表示为：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述的方法。