CN113222181A

CN113222181A - 一种面向k-means聚类算法的联邦学习方法

Info

Publication number: CN113222181A
Application number: CN202110473993.4A
Authority: CN
Inventors: 刘健; 田志华; 张睿; 侯潇扬; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113222181B

Abstract

本发明公开了一种面向k‑means聚类算法的联邦学习方法，该方法包括纵向联邦学习与横向连邦学习。横向联邦学习，包括如下步骤：1)初始化K个聚类，不同参与者将本地样本分给距离该样本最近的聚类2)对每个聚类，计算该聚类的新的聚类中心。3)如果聚类中心发生变化，那么回到步骤1)；纵向联邦学习，包括如下步骤：1)L个参与者分别在本地运行k‑means聚类算法得到T个聚类且做交集得到新的T^L个聚类或AP聚类算法得到T_i个聚类且做交集得到新的

个聚类。2)将新的

个聚类中心作为输入样本，初始化K个聚类。3)将每个样本分给距离它最近的聚类。4)对每个聚类，计算该类的新的聚类中心。5)如果聚类中心发生变化，那么回到步骤3)。

Description

一种面向k-means聚类算法的联邦学习方法

技术领域

本发明涉及联邦学习领域，尤其涉及一种面向k-means聚类算法的联邦学习方法。

背景技术

联邦学习又称为集成学习，是一种在多个分散的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习不同，该方式不需要将数据合并在一起，因此数据之间是独立存在的。

联邦学习的概念首先于2017年由Google所提出(Brendan McMahan,Eider Moore,Daniel Ramage,SethHampson,and Blaise Aguera y Arcas.Communication-efficientlearning of deep networks from decentralizeddata.In Aarti Singh and JerryZhu,editors,Proceedingsof the 20th International Conference on ArtificialIntelli-gence and Statistics,volume 54,pages 1273–1282,FortLauderdale,FL,USA,20–22Apr 2017.PMLR.)，现如今已经得到了巨大的发展，应用场景也越来越广泛。根据数据划分方式的不同，其主要分为纵向联邦学习和横向联邦学习。在纵向联邦学习中，研究人员将神经网络的训练过程分布在多个参与者上，迭代地将本地的训练模型聚合为一个联合的全局模型。在这个过程中，主要存在两种角色：中心服务器以及多个参与者。在训练开始阶段，中心服务器将模型初始化并将其发送给所有参与者。在每次迭代过程中，每个参与者利用本地数据训练接收到的模型，并将训练梯度发送给中心服务器。中心服务器聚合接收到的梯度来更新全局模型。得益于这种传输中间结果而不是原始数据的方式，联邦学习具有以下优势：(1)保护隐私：训练过程中，数据仍保存在本地设备上；(2)低延迟：更新的模型可用于用户在设备上预测；(3)减轻计算负担：训练过程分布在多个设备上而不用一个设备承担。

尽管联邦学习已经成为当前科学领域的研究中心之一，将聚类算法应用于联邦学习场景中仍然有所缺失。

发明内容

本发明的目的是针对现有技术的不足，提供一种面向k-means聚类算法的联邦学习方法，该方法利用安全聚合算法，使得经典聚类算法k-means可应用于横向联邦学习与纵向联邦学习领域。并且，本发明中的算法使得不同参与者之间的通信量与数据库大小无关，其算法复杂度为O(t)，t是一个常数。从而在大规模的应用场景中，本发明也同样具有实用价值。

本发明的目的是通过以下技术方案来实现的：一种面向k-means聚类算法的联邦学习方法，该方法主要包括两个部分，纵向联邦学习与横向连邦学习；

所述横向联邦学习包括以下步骤：

(1.1)初始化K个聚类中心，并将这K个聚类中心发送给所有参与者：每个参与者都是具有相同特征、不同样本的数据库，所有参与者共同构成总数据库；所述样本指该数据库中的一条数据。

(1.2)分别计算所述所有参与者的每一个样本与聚类中心的欧几里得距离的平方，找到每个样本欧几里得距离平方最小的聚类中心，并将该样本分到距离该聚类中心所对应的聚类；

(1.3)在参与者本地统计该参与者中每个聚类的样本数量和样本之和，然后使用安全聚合方法计算总体数据库中每个聚类的样本数量、样本之和、平均值，将计算得到的平均值作为该聚类的新的聚类中心；如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数，那么回到步骤(1.2)，迭代次数加一；所述样本之和指的是样本所对应的几条数据按特征对应求和，并不改变样本的维度。

所述纵向联邦学习包括以下步骤：

(2.1)每个参与者都是具有相同样本、不同特征的数据库，所有参与者共同构成总数据库，每个参与者中的样本指该数据库中的一条数据，L个参与者分别在本地运行k-means聚类算法得到T个在该参与者本地的聚类和对应的中心并且每个参与者将这T个聚类中样本的标号及对应聚类标号发送给最后一个参与者，或者这L个参与者分别在本地运行AP聚类算法，得到一些该参与者本地的聚类和对应的中心，聚类数目由算法确定记为T_i，随后每个参与者将这聚类中样本的标号及对应聚类标号发送给最后一个参与者；

(2.2)在最后一个参与者中，将每个参与者得到得聚类做交集得到新的

个聚类，将新的

个聚类结果即将每个样本所属的新的聚类标号发送给所有参与者，在每个参与者上计算每一个聚类的样本数量、样本和、平均值，计算得到的平均值作为该聚类在当前参与者所持有的特征上的聚类中心，从而得到这

个聚类的聚类中心，此时聚类中心的特征均存储在不同的参与者上；所述样本和指的是样本所对应的几条数据按特征对应求和，并不改变样本的维度。

(2.3)将新的

个聚类中心作为新的数据库，所述样本均为该新数据库中的样本，同时将该

个聚类中的样本数量作为权重，初始化K个聚类及其K个聚类中心；

(2.4)在每个参与者中计算每个样本到每个聚类中心存储在当前参与者的对应特征的欧几里得距离的平方，然后使用安全聚合计算每个样本与聚类中心的欧几里得距离的平方，将距离输入样本欧几里得距离的平方最小的聚类中心所对应的聚类作为该样本所属的聚类；

(2.5)在不同参与者上计算每个聚类的对应特征

将其作为新的聚类中心的对应特征，如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数，那么回到步骤(2.4)。

本发明的的有益效果如下：

(1)本发明的方法的通信量是O(t),t是一个常数，与数据库大小无关，在大规模的应用场景中十分高效。

(2)在所有的通信过程中使用安全聚合算法，保护了本地数据，并且在纵向联邦学习中只传递了聚类结果的标号，使得不同参与者的隐私得到保证。

附图说明

图1是横向联邦学习对应的流程图；

图2是纵向联邦学习步骤(2.1)，(2.2)对应的流程图；

图3是纵向联邦学习步骤(2.3)，(2.4)，(2.5)对应的流程图。

具体实施方式

本发明的核心技术是在横向分割和纵向分割的联邦学习情况下，通过安全聚合算法(Keith Bonawitz,Vladimir Ivanov,Ben Kreuter,Antonio Marcedone,H BrendanMcMahan,Sarvar Patel,Daniel Ramage,Aaron Segal,and Karn Seth.2017.Practicalsecure aggregation for privacy-preserving machine learning.In Proceedings ofthe 2017ACM SIGSAC Conference on Computer and Communications Security.ACM,1175–1191.)，代替k-means算法(S.Lloyd.1982.Least squares quantization inPCM.IEEE Transactions on Information Theory 28,2(1982),129–137)中涉及不同参与者的计算。为使本方法得到更清楚，完整的描述，下面结合具体实例对本方法进行阐述.

图1是本方法包含的横向联邦学习对应的流程图，具体包括以下步骤：

对于横向联邦学习：

实例中有三个参与银行，每个银行拥有不同的两个用户。三个银行均持有其用户的收入和年龄数据，某银行的两个用户及其收入、年龄构成该银行的数据库，所述三个银行构成总数据库。最终需要两个聚类C1,C2，其对应的聚类中心为c1,c2。银行为所述参与者，用户为所述样本，收入、年龄为两个特征。

(1.1)随机初始化两个聚类中心c1＝(c1_x,c1_y)和c2＝(c2_x,c2_y)，这两个聚类中心是二维数组，并将这两个聚类中心发送给所有参与银行。

(1.2)分别计算这六个用户数据与聚类中心的欧几里得距离的平方，对每个用户，找到距离该用户更近的聚类中心，并将该聚类中心分给聚类C1和聚类C2。具体地，对用户I，分别计算它到c1，c2的距离，d1＝(I_x-C1_x)²+(I_y-C1_y)²，d2＝(I_x-C2_x)²+(I_y-C2_y)²，其中特征x，y为收入和年龄；I_x,I_y是用户I在特征x和特征y下对应的数据，即用户I的收入和年龄。若d1,d2中最小的是d1，则用户I属于聚类C1。

(1.3)若第一个银行拥有I,J两个用户属于聚类C1，第二个银行的用户K属于聚类C1，第三个银行的用户均不属于聚类C1。则在第一个银行本地计算用户I，J的收入和S1＝I_x+J_x以及年龄和A1＝I_y+J_y，和属于聚类C1的用户数量2，第二个银行只有一个用户属于聚类C1，因此其收入和S2＝K_x，年龄和A2＝K_y。然后通过第一个、第二个银行提供的属于聚类C1的用户的两个收入和S1,S2、两个年龄和A1,A2，以及两个用户数量2和1，使用安全聚合算法，计算全体用户中属于聚类C1的用户的收入和S＝S1+S2以及年龄和K＝K1+K2，计算输入聚类C1的样本数量N＝2+1，用收入和以及年龄和分别除以样本数量，得到收入平均值与年龄平均值，将其作为聚类C1的新的聚类中心c1。同理计算聚类C2的新的聚类中心c2。若如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数，那么回到步骤(1.2)，迭代次数加一。

图2是纵向联邦学习步骤(2.1)，(2.2)对应的流程图；图3是纵向联邦学习步骤(2.3)，(2.4)，(2.5)对应的流程图，包括以下步骤：

实例中有两个银行，这两个银行共享相同的十个用户，这十个用户唯一标识为1,2,3，…,9,0。这两个银行分别持有全体用户的收入、年龄对应的数据。最终需要两个聚类C1,C2，其对应的聚类中心为c1,c2。银行一持有所有用户及其收入为银行一的数据库，银行二持有所有用户及其年龄为银行二的数据库，所述两个银行构成总数据库。银行为所述参与者，用户为所述样本，收入、年龄为两个特征，并记为特征x、特征y。

(2.1)两个银行分别在本地运行k-means聚类算法，分别得到2个聚类：甲，乙，和对应的聚类中心：中心甲，中心乙。将第一个银行中，聚类甲，乙中的用户和用户对应的聚类以编号形式发给银行二，或者这两个银行分别在本地运行AP聚类算法，银行一得到2个聚类：甲，乙，和对应的聚类中心：中心甲，中心乙，银行二同样得到2个聚类：甲，乙，和对应的聚类中心：中心甲，中心乙，。

(2.2)若对银行一，甲包含用户1,2,3,4,5，乙包含用户6,7,8,9,0。对银行二，甲包含用户1,3,5,7,9，乙包含用户2,4,6,8,0。在银行二中，对银行一的聚类结果和银行二的聚类结果做交集，得到新的4和聚类为：聚类甲甲包含用户1,3,5，聚类甲乙包含用户2,4，聚类乙甲包含用户7,9，聚类乙乙包含用户6,8,0。将这4个新的聚类传递给其它所有银行，在这里为银行一。接着计算这四个新得到的类的聚类中心，以聚类甲甲为例，在银行一中，计算中心甲甲在特征x下的平均值，即聚类甲甲中用户的平均收入，

在银行二中，计算中心甲甲在特征y下的平均值，即聚类甲甲中用户的平均年龄，

则聚类甲甲的聚类中心为(中心甲甲_x,中心甲甲_y)，此时中心甲甲_x存放在银行一，中心甲甲_y存放在银行二。

(2.3)将新得到的4个聚类中心作为新的银行三中的4个样本：甲甲，甲乙，乙甲，乙乙，这4个聚类中的用户的数量分别作为这4个样本的权重，在本实例中其权重分别为3,2,2,3。初始化两个聚类C1,C2及其聚类中心c1,c2。

(2.4)在银行一中，计算这四个样本到两个聚类中心c1,c2的第一个特征：收入的欧几里得距离的平方，以样本甲甲为例，d1_x甲甲＝(中心甲甲_x-c1_x)²,d2_x甲甲＝(中心甲甲_x-c2_x)²。在银行二中，同样的计算这四个样本到两个聚类中心c1,c2的第二个特征：年龄的欧几里得距离的平方，以样本甲甲为例，d1_y甲甲＝(中心甲甲_y-c1_y)²,d2_y甲甲＝(中心甲甲_y-c2_y)²。然后用安全聚合算法分别计算这4个输入样本与两个聚类中心c1,c2的欧几里得距离的平方，仍然以样本甲甲为例d1_甲甲＝(d1_x甲甲+d1_y甲甲)²,d2_甲甲＝(d2_x甲甲+d2_y甲甲)²。对每个输入样本，找到距离输入样本欧几里得距离平方最小的聚类中心，作为该样本所属的类，对于样本甲甲，如果d1_甲甲更小，那么样本甲甲被分到聚类C1。

(2.5)若聚类C1中包含样本甲甲和样本乙乙，因为样本甲甲包含3个用户，样本乙乙也包含3个用户，则在银行一中计算聚类C1特征x下的样本甲甲与样本乙乙的平均值，即聚类C1中样本收入的平均值为

在银行二中计算聚类C1特征y下输入样本甲甲与输入样本乙乙的平均值，即聚类C1中样本年龄的平均值为

将

作为C1的新的聚类中心c1。同样的，计算聚类C2的新的聚类中心c2。如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数，那么回到步骤(4)。

使用本方法在T取不同数值时测得精度与k-means算法精度在三个公开数据集上的比较如下表1所示：

表1

由上表1可见，在T取不同数值时，该面向k-means聚类算法的联邦学习方法(vertical FederMeans和horizontal FederMeans)与作为基线方法的k-means算法的运行结果的精度比较。其中，Brest Cancer是一个乳腺癌检测的二分类数据集，其中包括569个样本,每个样本有29个特征。HIGGS是希格斯玻色字的二分类数据集，其中包括11000000个样本，每个样本有28个特征。PenDigits是一个手写数字数据集，包括了10992个样本，每个样本有16特征，该数据集有10个类。这里本算法的横向联邦学习部分与k-means聚类算法完全相同，该结果说明了该联邦学习方法的准确率达到了与k-means聚类算法相同的水平，具有实用价值。

本方法的运行时间与k-means算法运行时间在三个公开数据集上测试结果的比较如下表2所示。

表2

由上表2可见，本方法的横向联邦学习部分在大数据集上消耗的时间比较少，纵向联邦学习部分也与k-means聚类算法相近，具有应用价值。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种面向k-means聚类算法的联邦学习方法，其特征在于，该方法主要包括两个部分，纵向联邦学习与横向连邦学习；

所述横向联邦学习包括以下步骤：

(1.2)分别计算所述所有参与者的每一个样本与聚类中心的欧几里得距离的平方，找到每个样本欧几里得距离平方最小的聚类中心，并将该样本分到距离该聚类中心所对应的聚类。

所述纵向联邦学习包括以下步骤：

(2.1)每个参与者都是具有相同样本、不同特征的数据库，所有参与者共同构成总数据库，每个参与者中的样本指该数据库中的一条数据，L个参与者分别在本地运行k-means聚类算法得到T个在该参与者本地的聚类和对应的中心并且每个参与者将这T个聚类中样本的标号及对应聚类标号发送给最后一个参与者，或者这L个参与者分别在本地运行AP聚类算法，得到一些该参与者本地的聚类和对应的中心，聚类数目由算法确定记为T_i，随后每个参与者将这聚类中样本的标号及对应聚类标号发送给最后一个参与者。

(2.2)在最后一个参与者中，将每个参与者得到得聚类做交集得到新的T^L或

个聚类，将新的T^L或

个聚类结果即将每个样本所属的新的聚类标号发送给所有参与者，在每个参与者上计算每一个聚类的样本数量、样本和、平均值，计算得到的平均值作为该聚类在当前参与者所持有的特征上的聚类中心，从而得到这T^L或

(2.3)将新的T^L或

个聚类中心作为新的数据库，所述样本均为该新数据库中的样本，同时将该T^L或

个聚类中的样本数量作为权重，初始化K个聚类及其K个聚类中心。

(2.4)在每个参与者中计算每个样本到每个聚类中心存储在当前参与者的对应特征的欧几里得距离的平方，然后使用安全聚合计算每个样本与聚类中心的欧几里得距离的平方，将距离输入样本欧几里得距离的平方最小的聚类中心所对应的聚类作为该样本所属的聚类，将；

(2.5)