CN115114988A

CN115114988A - 一种面向不均衡数据分布的隐私保护k均值聚类方法

Info

Publication number: CN115114988A
Application number: CN202210783598.0A
Authority: CN
Inventors: 陆林
Original assignee: China Electronic System Technology Co ltd; CLP Cloud Digital Intelligence Technology Co Ltd
Current assignee: China Electronic System Technology Co ltd; CLP Cloud Digital Intelligence Technology Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-27

Abstract

本发明涉及数据处理技术领域，提供一种面向不均衡数据分布的隐私保护K均值聚类方法，本发明的方法包括：服务器端选择参与的客户端，设置均值聚类输入参数；客户端对自身本地数据进行贝叶斯高斯混合聚类，得到局部中心点和权重；服务器端对所有客户端的局部中心点加权聚类，得到初始化的全局中心点；客户端对初始化的全局中心点局部迭代训练，获得局部求和项；服务器端对局部求和项汇总求和，更新全局中心点。根据本发明示例性实施例的面向不均衡数据分布的隐私保护K均值聚类方法，可以在隐私保护的前提下对不均衡分布在不同客户端的数据样本进行有效的全局分组。

Description

一种面向不均衡数据分布的隐私保护K均值聚类方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种面向不均衡数据分布的隐私保护K均值聚类方法。

背景技术

针对无标签的数据，无监督联邦学习旨在从分散且隐私敏感的数据中发现总体的规律。比如，对跨医疗机构的诊断病例图片进行表征学习，有助于更全面地对发病表征机理进行评估；对不同车辆用户的轨迹数据进行联邦聚类，可以在不泄露个体位置隐私的同时发现城市道路的风险区域。联邦聚类是无监督联邦学习中重要的研究之一，其目标是将全局彼此相似的(本地)数据点分组在一起。即将分布在多个客户端之间的数据点基于全局相似度进行度量聚类，所有数据在客户端设备上保持可用不可见。

虽然联邦聚类也属于分布式聚类，但是其与传统的分布式聚类方法有所区别。传统的完全分布式聚类方法不以隐私保护为首要目标，且数据的分布相对均衡。针对客户端数据不均衡分布下的横向联邦聚类，如何将以K-Means(K均值)为代表的划分式聚类扩展到联邦学习场景下成为了研究重点。

众所周知，中心点初始化是决定聚类效果的关键之一。集中式聚类的初始化可以从数据集中进行采样来生成很好的初始中心点，然而在可信的服务器端无数据集的限制下，采样会导致隐私泄露问题。随机初始化是一种可行的方法，但是由于忽略了客户端数据的分布情况，会导致病态的分组结果。

此外，不均衡数据分布会使得客户端数据包含的类别数目小于总体的类别数目，且客户端之间包括的类别不尽相同。这种情况下，客户端利用全局中心点按照总体类别数强制划分，反而给不属于其中类别的中心点添加了“噪声”，使得各客户端局部训练得到中心点偏差较大，影响全局聚合中心点一致性，造成联邦训练收敛性不足。

因此，如何针对聚类问题中隐私敏感以及数据不均衡分布，提供一种隐私保护K均值聚类方法，成为亟待解决的技术问题。

发明内容

有鉴于此，本发明提供一种改进的隐私保护K均值聚类方法，通过联邦初始化轮询获得比随机初始化更好的全局中心点，再通过多轮服务器与客户端联合训练提升聚类的效果。

本发明提供一种面向不均衡数据分布的隐私保护K均值聚类方法，包括：

步骤S1：服务器端选择参与的客户端，设置均值聚类输入参数；

步骤S2：客户端对自身本地数据进行贝叶斯高斯混合聚类，得到局部中心点和权重；

步骤S3：服务器端对所有客户端的局部中心点加权聚类，得到初始化的全局中心点；

步骤S4：客户端对初始化的全局中心点局部迭代训练，获得局部求和项；

步骤S5：服务器端对局部求和项汇总求和，更新全局中心点。

进一步地，本发明方法步骤S1中的均值聚类输入参数，包括：聚类目标类别数K、最大轮询次数、全局中心迭代终止阈值。

进一步地，本发明方法的步骤S2，包括：

步骤S21：服务器端将聚类目标类别数K广播至N个客户端；

步骤S22：客户端接收聚类目标类别数K，采用贝叶斯高斯混合算法对本地数据集进行局部聚类直到收敛，将得到的由N对K个中心点的均值向量和中心点对应的权重组成的混合元组返回值服务器端。

进一步地，本发明方法的步骤S3，包括：

步骤S31：服务器端接收所有客户端的混合元组，将中心点的均值向量拼接成均值向量矩阵，将对应的权重拼接成权重向量；

步骤S32：服务器端采用加权K均值算法对均值向量矩阵和权重向量进行聚类，输出K个新的均值向量，即为初始化的全局中心点。

进一步地，本发明方法的步骤S4，包括：

步骤S41：服务器端将步骤S32得到初始化的全局中心点广播至所有客户端；

步骤S42：客户端根据初始化的全局中心点对K均值模型进行初始化，并对数据集进行局部迭代训练，得到新的局部中心点；

步骤S43：客户端统计数据集中属于每一类的样本数以及样本和，得到局部求和项。

进一步地，本发明方法步骤S42中，对数据集进行局部迭代训练，包括：计算客户端数据集中每个点到K个全局中心点的距离并将该点分配到与其距离最小的索引所对应的类中。

进一步地，本发明方法的步骤S5，包括：服务器端收集所有客户端的求和项，对每一类的求和项进行汇总求和，用全局样本和除以全局样本数，得到新的全局中心点向量，更新全局中心点。

进一步地，本发明方法中，客户端在每一轮次局部迭代训练结束后，采用步骤S5的方法通过服务器端更新该轮次的全局中心点。

进一步地，本发明方法中，客户端在进行不高于5次的局部迭代训练后，服务器端按类别索引计算对应的全局中心点均值。

最后，本发明还提供一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述方法的步骤。

本发明的面向不均衡数据分布的隐私保护K均值聚类方法，具有以下有益效果：

1)整个过程中，所有客户端数据始终未分享流通，一直保留在本地，有效地避免的敏感信息的泄露；

2)解决了不同客户端样本的类别不均衡问题，有助于得到更优的全局聚类模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明第一实施例面向不均衡数据分布的隐私保护K均值聚类方法的流程图。

图2为本发明第二实施例面向不均衡数据分布的隐私保护K均值聚类方法的步骤S2的流程图。

图3为本发明第二实施例面向不均衡数据分布的隐私保护K均值聚类方法的步骤S3的流程图。

图4为本发明第三实施例面向不均衡数据分布的隐私保护K均值聚类方法的流程图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

图1为根据本发明示例性第一实施例的一种面向不均衡数据分布的隐私保护K均值聚类方法的流程图，如图1所示，本实施例所述方法，包括：

本实施例方法步骤S1中的均值聚类输入参数，包括：聚类目标类别数K、最大轮询次数、全局中心迭代终止阈值。

本实施例方法中，重复图1所示方法的步骤S2到步骤S5，直到训练轮次t大于最大轮询次数T，或者满足以下条件：

其中，ε为全局中心迭代终止阈值，μ^t-1和μ^t分别为第t-1轮和第t轮的全局中心；

则按以下方式，输出结果：

其中，k表示第k个类别，μ^*表示最终的全局K均值模型的最优中心，包括K个中心点向量。

本发明示例性第二实施例提供一种面向不均衡数据分布的隐私保护K均值聚类方法。本实施例是图1所示方法的优选实施例，如图2所示，本实施例所述方法的步骤S2，包括：

步骤S21：服务器端将聚类目标类别数K广播至N个客户端；

如图3所示，本实施例所述方法的步骤S3，包括：

步骤S32：服务器端采用加权K均值算法对均值向量矩阵和权重向量进行聚类，输出K个新的均值向量，即为初始化的全局中心点；

本实施例方法中，初始化的全局中心点，可按以下方式表示：

其中，上标0表示初始化的结果，

表示第k个类的中心点向量。

本实施例方法，对于局部得到的中心向量，定义一个激活权重向量π来评估这K个中心向量的有效性。比如假设K为3，给定一个客户端i，其k⁽ⁱ⁾为1，如果权重向量为[1,0,0]，则表示第一个均值向量才是有效的。本实施例方法中，使用贝叶斯高斯混合(BayesianGaussian Mixture，BGM)确定这个权重。

本实施例中，客户端i的本地数据集D_i中的局部数据点x(x∈D_i)是K个高斯分布的加权混合，按以下公式表示：

其中，N(x|μ_k，Σ_k)为高斯分布；

Θ＝{π_k,μ_k,Σ_k}_k＝1,...,K是由期望最小化算法估计的未知参数，包括混合权值π_k∈[0,1]，且Σ_kπ_k＝1，还包括第k个分量的均值μ_k和方差Σ_k；

本实施例采用近似的Dirichlet过程推理算法来来估计权重分布。由于BGM的贝叶斯性质，该过程需要提供一个权重浓度先验参数，为浓度先验参数指定一个较低的值将使模型将大部分权重放在少数主成分(中心点)上，并将其余主成分的权重设置为非常接近于零。从而达到对局部中心进行有效性评估的目的。

本实施例中，客户端各自进行贝叶斯高斯混合聚类后输出由N对K个中心点的均值向量和中心点对应的权重(激活权重)组成的混合元组。服务器端收集所有客户端贝叶斯高斯混合的结果，将中心点均值向量拼接为大小为(N×K)×d的均值矩阵，对应的权重拼接为N×K维的向量，利用加权K均值算法输出K个新的均值向量。加权K均值算法支持样本权重功能，该功能允许计算簇中心时考虑权重更大一些样本。

根据本实施例的方法，如果聚类异构性越强，那么通过局部贝叶斯高斯混合聚类和全局加权K-Means得到的联邦聚类初始点质量越好。假如参与初始化过程有至少K个客户端，每个客户端实际只有一个簇，且不同客户端的簇分布是各不相同，那么各客户端局部贝叶斯推断得到激活权重中只有某一位为1，其余为0。服务器端进行加权K-Means聚类时，会摒弃掉权重为0的中心点，从而刚好得到对应这K个来自不同类别的初始化中心。

图4为根据本发明示例性第三实施例的一种面向不均衡数据分布的隐私保护K均值聚类方法的流程图，本实施例是图1所示方法的优选实施例，如图4所示，本实施例所述方法的步骤S4，包括：

步骤S41：服务器端将步骤S32得到初始化的全局中心点广播至所有客户端。

本实施例方法的步骤S42中，对数据集进行局部迭代训练，包括：计算客户端数据集中每个点到K个全局中心点的距离并将该点分配到与其距离最小的索引所对应的类中。在实际应用中，数据集中每个点到K个全局中心点的距离可按以下公式计算获得：

其中，C_k表示类别k的样本集合，假设在K个全局中心点中，样本x与第k个全局中心

的距离最小，那么x就属于C_k。

本实施例方法的步骤S43中，第z个客户端第k类的样本数表示为

样本和按以下方式表示：

其中，z表示客户端，k_t表示第t轮下的类别k，该式将所有属于C_k的样本进行按位求和，得到样本和向量。

本实施例方法中，局部迭代训练由服务器端发起，当服务端发起第t(t＞0)轮局部迭代训练，将上一轮次的全局中心点发送给客户端，上一轮次的全局中心点按以下方式表示：

其中，该式表示第t-1轮K个全局中心点向量的集合。

本发明示例性第四实施例的提供一种面向不均衡数据分布的隐私保护K均值聚类方法，本实施例是图1所示方法的优选实施例，本实施例方法的步骤S5，包括：服务器端收集所有客户端的求和项，对每一类的求和项进行汇总求和，用全局样本和除以全局样本数，得到新的全局中心点向量，更新全局中心点。

本实施例方法中的新的全局中心点向量按以下方式表示：

其中，k表示第k个类别，K表示聚类目标类别数，该式表示第t轮K个全局中心点向量的集合。

本实施例方法中，客户端在每一轮次局部迭代训练结束后，采用步骤S5的方法通过服务器端更新该轮次的全局中心点。在实际应用中，第k个全局中心点可按以下公式计算获得：

其中，

表示第t轮第k类的全局中心点，它通过首先对所有N个客户端属于第k类的局部样本和求和，得到全局求和向量(即

)，接着对所有N个客户端属于第k类的局部样本数求和，得到全局样本计数(即

)，再将两者进行向量除法得到。

本实施例方法中，为了避免局部中心不一致问题，可以首先令客户端只进行较少的局部迭代训练，比如局部迭代训练次数从1到5中选择，以避免跨客户端中心过分偏离；然后在服务器端按类别索引计算对应的全局中心点均值，使前后两轮次的全局中心点均值不产生较大的更新差异，以保证局部迭代训练过程的收敛性。

本发明提供一种终端设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述方法的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，所述方法，包括：

2.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S1中的均值聚类输入参数，包括：聚类目标类别数K、最大轮询次数、全局中心迭代终止阈值。

3.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S2，包括：

步骤S21：服务器端将聚类目标类别数K广播至N个客户端；

4.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S3，包括：

5.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S4，包括：

6.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S42中，对数据集进行局部迭代训练，包括：计算客户端数据集中每个点到K个全局中心点的距离并将该点分配到与其距离最小的索引所对应的类中。

7.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，步骤S5，包括：服务器端收集所有客户端的求和项，对每一类的求和项进行汇总求和，用全局样本和除以全局样本数，得到新的全局中心点向量，更新全局中心点。

8.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，客户端在每一轮次局部迭代训练结束后，采用步骤S5的方法通过服务器端更新该轮次的全局中心点。

9.根据权利要求1所述的面向不均衡数据分布的隐私保护K均值聚类方法，其特征在于，客户端在进行不高于5次的局部迭代训练后，服务器端按类别索引计算对应的全局中心点均值。

10.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-9任一所述方法的步骤。