CN113222181A - 一种面向k-means聚类算法的联邦学习方法 - Google Patents

一种面向k-means聚类算法的联邦学习方法 Download PDF

Info

Publication number
CN113222181A
CN113222181A CN202110473993.4A CN202110473993A CN113222181A CN 113222181 A CN113222181 A CN 113222181A CN 202110473993 A CN202110473993 A CN 202110473993A CN 113222181 A CN113222181 A CN 113222181A
Authority
CN
China
Prior art keywords
cluster
sample
participant
new
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110473993.4A
Other languages
English (en)
Other versions
CN113222181B (zh
Inventor
刘健
田志华
张睿
侯潇扬
任奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110473993.4A priority Critical patent/CN113222181B/zh
Publication of CN113222181A publication Critical patent/CN113222181A/zh
Application granted granted Critical
Publication of CN113222181B publication Critical patent/CN113222181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向k‑means聚类算法的联邦学习方法,该方法包括纵向联邦学习与横向连邦学习。横向联邦学习,包括如下步骤:1)初始化K个聚类,不同参与者将本地样本分给距离该样本最近的聚类2)对每个聚类,计算该聚类的新的聚类中心。3)如果聚类中心发生变化,那么回到步骤1);纵向联邦学习,包括如下步骤:1)L个参与者分别在本地运行k‑means聚类算法得到T个聚类且做交集得到新的TL个聚类或AP聚类算法得到Ti个聚类且做交集得到新的
Figure DDA0003046672670000011
个聚类。2)将新的
Figure DDA0003046672670000012
个聚类中心作为输入样本,初始化K个聚类。3)将每个样本分给距离它最近的聚类。4)对每个聚类,计算该类的新的聚类中心。5)如果聚类中心发生变化,那么回到步骤3)。

Description

一种面向k-means聚类算法的联邦学习方法
技术领域
本发明涉及联邦学习领域,尤其涉及一种面向k-means聚类算法的联邦学习方法。
背景技术
联邦学习又称为集成学习,是一种在多个分散的设备或存储有数据的服务器上共同训练模型的机器学习技术。与传统的中心化学习不同,该方式不需要将数据合并在一起,因此数据之间是独立存在的。
联邦学习的概念首先于2017年由Google所提出(Brendan McMahan,Eider Moore,Daniel Ramage,SethHampson,and Blaise Aguera y Arcas.Communication-efficientlearning of deep networks from decentralizeddata.In Aarti Singh and JerryZhu,editors,Proceedingsof the 20th International Conference on ArtificialIntelli-gence and Statistics,volume 54,pages 1273–1282,FortLauderdale,FL,USA,20–22Apr 2017.PMLR.),现如今已经得到了巨大的发展,应用场景也越来越广泛。根据数据划分方式的不同,其主要分为纵向联邦学习和横向联邦学习。在纵向联邦学习中,研究人员将神经网络的训练过程分布在多个参与者上,迭代地将本地的训练模型聚合为一个联合的全局模型。在这个过程中,主要存在两种角色:中心服务器以及多个参与者。在训练开始阶段,中心服务器将模型初始化并将其发送给所有参与者。在每次迭代过程中,每个参与者利用本地数据训练接收到的模型,并将训练梯度发送给中心服务器。中心服务器聚合接收到的梯度来更新全局模型。得益于这种传输中间结果而不是原始数据的方式,联邦学习具有以下优势:(1)保护隐私:训练过程中,数据仍保存在本地设备上;(2)低延迟:更新的模型可用于用户在设备上预测;(3)减轻计算负担:训练过程分布在多个设备上而不用一个设备承担。
尽管联邦学习已经成为当前科学领域的研究中心之一,将聚类算法应用于联邦学习场景中仍然有所缺失。
发明内容
本发明的目的是针对现有技术的不足,提供一种面向k-means聚类算法的联邦学习方法,该方法利用安全聚合算法,使得经典聚类算法k-means可应用于横向联邦学习与纵向联邦学习领域。并且,本发明中的算法使得不同参与者之间的通信量与数据库大小无关,其算法复杂度为O(t),t是一个常数。从而在大规模的应用场景中,本发明也同样具有实用价值。
本发明的目的是通过以下技术方案来实现的:一种面向k-means聚类算法的联邦学习方法,该方法主要包括两个部分,纵向联邦学习与横向连邦学习;
所述横向联邦学习包括以下步骤:
(1.1)初始化K个聚类中心,并将这K个聚类中心发送给所有参与者:每个参与者都是具有相同特征、不同样本的数据库,所有参与者共同构成总数据库;所述样本指该数据库中的一条数据。
(1.2)分别计算所述所有参与者的每一个样本与聚类中心的欧几里得距离的平方,找到每个样本欧几里得距离平方最小的聚类中心,并将该样本分到距离该聚类中心所对应的聚类;
(1.3)在参与者本地统计该参与者中每个聚类的样本数量和样本之和,然后使用安全聚合方法计算总体数据库中每个聚类的样本数量、样本之和、平均值,将计算得到的平均值作为该聚类的新的聚类中心;如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(1.2),迭代次数加一;所述样本之和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度。
所述纵向联邦学习包括以下步骤:
(2.1)每个参与者都是具有相同样本、不同特征的数据库,所有参与者共同构成总数据库,每个参与者中的样本指该数据库中的一条数据,L个参与者分别在本地运行k-means聚类算法得到T个在该参与者本地的聚类和对应的中心并且每个参与者将这T个聚类中样本的标号及对应聚类标号发送给最后一个参与者,或者这L个参与者分别在本地运行AP聚类算法,得到一些该参与者本地的聚类和对应的中心,聚类数目由算法确定记为Ti,随后每个参与者将这聚类中样本的标号及对应聚类标号发送给最后一个参与者;
(2.2)在最后一个参与者中,将每个参与者得到得聚类做交集得到新的
Figure BDA0003046672650000021
个聚类,将新的
Figure BDA0003046672650000022
个聚类结果即将每个样本所属的新的聚类标号发送给所有参与者,在每个参与者上计算每一个聚类的样本数量、样本和、平均值,计算得到的平均值作为该聚类在当前参与者所持有的特征上的聚类中心,从而得到这
Figure BDA0003046672650000023
个聚类的聚类中心,此时聚类中心的特征均存储在不同的参与者上;所述样本和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度。
(2.3)将新的
Figure BDA0003046672650000024
个聚类中心作为新的数据库,所述样本均为该新数据库中的样本,同时将该
Figure BDA0003046672650000025
个聚类中的样本数量作为权重,初始化K个聚类及其K个聚类中心;
(2.4)在每个参与者中计算每个样本到每个聚类中心存储在当前参与者的对应特征的欧几里得距离的平方,然后使用安全聚合计算每个样本与聚类中心的欧几里得距离的平方,将距离输入样本欧几里得距离的平方最小的聚类中心所对应的聚类作为该样本所属的聚类;
(2.5)在不同参与者上计算每个聚类的对应特征
Figure BDA0003046672650000031
将其作为新的聚类中心的对应特征,如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(2.4)。
本发明的的有益效果如下:
(1)本发明的方法的通信量是O(t),t是一个常数,与数据库大小无关,在大规模的应用场景中十分高效。
(2)在所有的通信过程中使用安全聚合算法,保护了本地数据,并且在纵向联邦学习中只传递了聚类结果的标号,使得不同参与者的隐私得到保证。
附图说明
图1是横向联邦学习对应的流程图;
图2是纵向联邦学习步骤(2.1),(2.2)对应的流程图;
图3是纵向联邦学习步骤(2.3),(2.4),(2.5)对应的流程图。
具体实施方式
本发明的核心技术是在横向分割和纵向分割的联邦学习情况下,通过安全聚合算法(Keith Bonawitz,Vladimir Ivanov,Ben Kreuter,Antonio Marcedone,H BrendanMcMahan,Sarvar Patel,Daniel Ramage,Aaron Segal,and Karn Seth.2017.Practicalsecure aggregation for privacy-preserving machine learning.In Proceedings ofthe 2017ACM SIGSAC Conference on Computer and Communications Security.ACM,1175–1191.),代替k-means算法(S.Lloyd.1982.Least squares quantization inPCM.IEEE Transactions on Information Theory 28,2(1982),129–137)中涉及不同参与者的计算。为使本方法得到更清楚,完整的描述,下面结合具体实例对本方法进行阐述.
图1是本方法包含的横向联邦学习对应的流程图,具体包括以下步骤:
对于横向联邦学习:
实例中有三个参与银行,每个银行拥有不同的两个用户。三个银行均持有其用户的收入和年龄数据,某银行的两个用户及其收入、年龄构成该银行的数据库,所述三个银行构成总数据库。最终需要两个聚类C1,C2,其对应的聚类中心为c1,c2。银行为所述参与者,用户为所述样本,收入、年龄为两个特征。
(1.1)随机初始化两个聚类中心c1=(c1x,c1y)和c2=(c2x,c2y),这两个聚类中心是二维数组,并将这两个聚类中心发送给所有参与银行。
(1.2)分别计算这六个用户数据与聚类中心的欧几里得距离的平方,对每个用户,找到距离该用户更近的聚类中心,并将该聚类中心分给聚类C1和聚类C2。具体地,对用户I,分别计算它到c1,c2的距离,d1=(Ix-C1x)2+(Iy-C1y)2,d2=(Ix-C2x)2+(Iy-C2y)2,其中特征x,y为收入和年龄;Ix,Iy是用户I在特征x和特征y下对应的数据,即用户I的收入和年龄。若d1,d2中最小的是d1,则用户I属于聚类C1。
(1.3)若第一个银行拥有I,J两个用户属于聚类C1,第二个银行的用户K属于聚类C1,第三个银行的用户均不属于聚类C1。则在第一个银行本地计算用户I,J的收入和S1=Ix+Jx以及年龄和A1=Iy+Jy,和属于聚类C1的用户数量2,第二个银行只有一个用户属于聚类C1,因此其收入和S2=Kx,年龄和A2=Ky。然后通过第一个、第二个银行提供的属于聚类C1的用户的两个收入和S1,S2、两个年龄和A1,A2,以及两个用户数量2和1,使用安全聚合算法,计算全体用户中属于聚类C1的用户的收入和S=S1+S2以及年龄和K=K1+K2,计算输入聚类C1的样本数量N=2+1,用收入和以及年龄和分别除以样本数量,得到收入平均值与年龄平均值,将其作为聚类C1的新的聚类中心c1。同理计算聚类C2的新的聚类中心c2。若如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(1.2),迭代次数加一。
图2是纵向联邦学习步骤(2.1),(2.2)对应的流程图;图3是纵向联邦学习步骤(2.3),(2.4),(2.5)对应的流程图,包括以下步骤:
实例中有两个银行,这两个银行共享相同的十个用户,这十个用户唯一标识为1,2,3,…,9,0。这两个银行分别持有全体用户的收入、年龄对应的数据。最终需要两个聚类C1,C2,其对应的聚类中心为c1,c2。银行一持有所有用户及其收入为银行一的数据库,银行二持有所有用户及其年龄为银行二的数据库,所述两个银行构成总数据库。银行为所述参与者,用户为所述样本,收入、年龄为两个特征,并记为特征x、特征y。
(2.1)两个银行分别在本地运行k-means聚类算法,分别得到2个聚类:甲,乙,和对应的聚类中心:中心甲,中心乙。将第一个银行中,聚类甲,乙中的用户和用户对应的聚类以编号形式发给银行二,或者这两个银行分别在本地运行AP聚类算法,银行一得到2个聚类:甲,乙,和对应的聚类中心:中心甲,中心乙,银行二同样得到2个聚类:甲,乙,和对应的聚类中心:中心甲,中心乙,。
(2.2)若对银行一,甲包含用户1,2,3,4,5,乙包含用户6,7,8,9,0。对银行二,甲包含用户1,3,5,7,9,乙包含用户2,4,6,8,0。在银行二中,对银行一的聚类结果和银行二的聚类结果做交集,得到新的4和聚类为:聚类甲甲包含用户1,3,5,聚类甲乙包含用户2,4,聚类乙甲包含用户7,9,聚类乙乙包含用户6,8,0。将这4个新的聚类传递给其它所有银行,在这里为银行一。接着计算这四个新得到的类的聚类中心,以聚类甲甲为例,在银行一中,计算中心甲甲在特征x下的平均值,即聚类甲甲中用户的平均收入,
Figure BDA0003046672650000051
在银行二中,计算中心甲甲在特征y下的平均值,即聚类甲甲中用户的平均年龄,
Figure BDA0003046672650000052
则聚类甲甲的聚类中心为(中心甲甲x,中心甲甲y),此时中心甲甲x存放在银行一,中心甲甲y存放在银行二。
(2.3)将新得到的4个聚类中心作为新的银行三中的4个样本:甲甲,甲乙,乙甲,乙乙,这4个聚类中的用户的数量分别作为这4个样本的权重,在本实例中其权重分别为3,2,2,3。初始化两个聚类C1,C2及其聚类中心c1,c2。
(2.4)在银行一中,计算这四个样本到两个聚类中心c1,c2的第一个特征:收入的欧几里得距离的平方,以样本甲甲为例,d1x甲甲=(中心甲甲x-c1x)2,d2x甲甲=(中心甲甲x-c2x)2。在银行二中,同样的计算这四个样本到两个聚类中心c1,c2的第二个特征:年龄的欧几里得距离的平方,以样本甲甲为例,d1y甲甲=(中心甲甲y-c1y)2,d2y甲甲=(中心甲甲y-c2y)2。然后用安全聚合算法分别计算这4个输入样本与两个聚类中心c1,c2的欧几里得距离的平方,仍然以样本甲甲为例d1甲甲=(d1x甲甲+d1y甲甲)2,d2甲甲=(d2x甲甲+d2y甲甲)2。对每个输入样本,找到距离输入样本欧几里得距离平方最小的聚类中心,作为该样本所属的类,对于样本甲甲,如果d1甲甲更小,那么样本甲甲被分到聚类C1。
(2.5)若聚类C1中包含样本甲甲和样本乙乙,因为样本甲甲包含3个用户,样本乙乙也包含3个用户,则在银行一中计算聚类C1特征x下的样本甲甲与样本乙乙的平均值,即聚类C1中样本收入的平均值为
Figure BDA0003046672650000053
在银行二中计算聚类C1特征y下输入样本甲甲与输入样本乙乙的平均值,即聚类C1中样本年龄的平均值为
Figure BDA0003046672650000054
Figure BDA0003046672650000055
作为C1的新的聚类中心c1。同样的,计算聚类C2的新的聚类中心c2。如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(4)。
使用本方法在T取不同数值时测得精度与k-means算法精度在三个公开数据集上的比较如下表1所示:
表1
Figure BDA0003046672650000061
由上表1可见,在T取不同数值时,该面向k-means聚类算法的联邦学习方法(vertical FederMeans和horizontal FederMeans)与作为基线方法的k-means算法的运行结果的精度比较。其中,Brest Cancer是一个乳腺癌检测的二分类数据集,其中包括569个样本,每个样本有29个特征。HIGGS是希格斯玻色字的二分类数据集,其中包括11000000个样本,每个样本有28个特征。PenDigits是一个手写数字数据集,包括了10992个样本,每个样本有16特征,该数据集有10个类。这里本算法的横向联邦学习部分与k-means聚类算法完全相同,该结果说明了该联邦学习方法的准确率达到了与k-means聚类算法相同的水平,具有实用价值。
本方法的运行时间与k-means算法运行时间在三个公开数据集上测试结果的比较如下表2所示。
表2
Figure BDA0003046672650000062
由上表2可见,本方法的横向联邦学习部分在大数据集上消耗的时间比较少,纵向联邦学习部分也与k-means聚类算法相近,具有应用价值。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims (1)

1.一种面向k-means聚类算法的联邦学习方法,其特征在于,该方法主要包括两个部分,纵向联邦学习与横向连邦学习;
所述横向联邦学习包括以下步骤:
(1.1)初始化K个聚类中心,并将这K个聚类中心发送给所有参与者:每个参与者都是具有相同特征、不同样本的数据库,所有参与者共同构成总数据库;所述样本指该数据库中的一条数据。
(1.2)分别计算所述所有参与者的每一个样本与聚类中心的欧几里得距离的平方,找到每个样本欧几里得距离平方最小的聚类中心,并将该样本分到距离该聚类中心所对应的聚类。
(1.3)在参与者本地统计该参与者中每个聚类的样本数量和样本之和,然后使用安全聚合方法计算总体数据库中每个聚类的样本数量、样本之和、平均值,将计算得到的平均值作为该聚类的新的聚类中心;如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(1.2),迭代次数加一;所述样本之和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度。
所述纵向联邦学习包括以下步骤:
(2.1)每个参与者都是具有相同样本、不同特征的数据库,所有参与者共同构成总数据库,每个参与者中的样本指该数据库中的一条数据,L个参与者分别在本地运行k-means聚类算法得到T个在该参与者本地的聚类和对应的中心并且每个参与者将这T个聚类中样本的标号及对应聚类标号发送给最后一个参与者,或者这L个参与者分别在本地运行AP聚类算法,得到一些该参与者本地的聚类和对应的中心,聚类数目由算法确定记为Ti,随后每个参与者将这聚类中样本的标号及对应聚类标号发送给最后一个参与者。
(2.2)在最后一个参与者中,将每个参与者得到得聚类做交集得到新的TL
Figure FDA0003046672640000011
个聚类,将新的TL
Figure FDA0003046672640000012
个聚类结果即将每个样本所属的新的聚类标号发送给所有参与者,在每个参与者上计算每一个聚类的样本数量、样本和、平均值,计算得到的平均值作为该聚类在当前参与者所持有的特征上的聚类中心,从而得到这TL
Figure FDA0003046672640000013
个聚类的聚类中心,此时聚类中心的特征均存储在不同的参与者上;所述样本和指的是样本所对应的几条数据按特征对应求和,并不改变样本的维度。
(2.3)将新的TL
Figure FDA0003046672640000014
个聚类中心作为新的数据库,所述样本均为该新数据库中的样本,同时将该TL
Figure FDA0003046672640000021
个聚类中的样本数量作为权重,初始化K个聚类及其K个聚类中心。
(2.4)在每个参与者中计算每个样本到每个聚类中心存储在当前参与者的对应特征的欧几里得距离的平方,然后使用安全聚合计算每个样本与聚类中心的欧几里得距离的平方,将距离输入样本欧几里得距离的平方最小的聚类中心所对应的聚类作为该样本所属的聚类,将;
(2.5)
Figure FDA0003046672640000022
将其作为新的聚类中心的对应特征,如果新的聚类中心与原来的聚类中心不同并且迭代次数小于设定次数,那么回到步骤(2.4)。
CN202110473993.4A 2021-04-29 2021-04-29 一种面向k-means聚类算法的联邦学习方法 Active CN113222181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110473993.4A CN113222181B (zh) 2021-04-29 2021-04-29 一种面向k-means聚类算法的联邦学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110473993.4A CN113222181B (zh) 2021-04-29 2021-04-29 一种面向k-means聚类算法的联邦学习方法

Publications (2)

Publication Number Publication Date
CN113222181A true CN113222181A (zh) 2021-08-06
CN113222181B CN113222181B (zh) 2022-05-17

Family

ID=77090181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110473993.4A Active CN113222181B (zh) 2021-04-29 2021-04-29 一种面向k-means聚类算法的联邦学习方法

Country Status (1)

Country Link
CN (1) CN113222181B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657525A (zh) * 2021-08-23 2021-11-16 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
CN115048590A (zh) * 2022-05-31 2022-09-13 北京交通大学 一种面向隐私保护的基于联邦分析的班车定制方法
WO2023134070A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 去中心的联邦聚类方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967615A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 基于特征抽取的多模型训练方法及系统、电子设备和介质
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
US20210051169A1 (en) * 2019-08-15 2021-02-18 NEC Laboratories Europe GmbH Thwarting model poisoning in federated learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210051169A1 (en) * 2019-08-15 2021-02-18 NEC Laboratories Europe GmbH Thwarting model poisoning in federated learning
CN111967615A (zh) * 2020-09-25 2020-11-20 北京百度网讯科技有限公司 基于特征抽取的多模型训练方法及系统、电子设备和介质
CN112308157A (zh) * 2020-11-05 2021-02-02 浙江大学 一种面向决策树的横向联邦学习方法
CN112364908A (zh) * 2020-11-05 2021-02-12 浙江大学 一种面向决策树的纵向联邦学习方法
CN112101579A (zh) * 2020-11-18 2020-12-18 杭州趣链科技有限公司 基于联邦学习的机器学习方法、电子装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LAIZHONG CUI ET AL.: "ClusterGrad: Adaptive Gradient Compression by Clustering in Federated Learning", 《GLOBECOM2020-2020 IEEE GLOBAL COMMUNICATIONS CONFERENCE》 *
吴俊杰等: "数据智能:趋势与挑战", 《系统工程理论与实践》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657525A (zh) * 2021-08-23 2021-11-16 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
CN113657525B (zh) * 2021-08-23 2024-04-26 同盾科技有限公司 基于KMeans的跨特征联邦聚类方法及相关设备
WO2023134070A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 去中心的联邦聚类方法、装置、电子设备及存储介质
CN115048590A (zh) * 2022-05-31 2022-09-13 北京交通大学 一种面向隐私保护的基于联邦分析的班车定制方法

Also Published As

Publication number Publication date
CN113222181B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN113222181B (zh) 一种面向k-means聚类算法的联邦学习方法
Wu et al. Unsupervised Deep Hashing via Binary Latent Factor Models for Large-scale Cross-modal Retrieval.
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
Guo et al. Multiple kernel learning based multi-view spectral clustering
CN102364498B (zh) 一种基于多标签的图像识别方法
CN112364908A (zh) 一种面向决策树的纵向联邦学习方法
CN106845536A (zh) 一种基于图像缩放的并行聚类方法
CN104216974A (zh) 基于词汇树分块聚类的无人机航拍图像匹配的方法
CN110489585A (zh) 基于监督学习的分布式图像搜索方法
CN111861756A (zh) 一种基于金融交易网络的团伙检测方法及其实现装置
CN107944465A (zh) 一种适用于大数据的无监督快速聚类方法及系统
CN104834709B (zh) 一种基于负载均衡的并行余弦模式挖掘方法
Babu et al. A survey of nature-inspired algorithm for partitional data clustering
Liu et al. Immunodomaince based clonal selection clustering algorithm
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
CN104778205B (zh) 一种基于异构信息网络的移动应用排序和聚类方法
Chander et al. A parallel fractional lion algorithm for data clustering based on MapReduce cluster framework
WO2022226903A1 (zh) 一种面向k-means聚类算法的联邦学习方法
Mei et al. An efficient graph clustering algorithm by exploiting k-core decomposition and motifs
CN111160077A (zh) 一种大规模人脸动态聚类方法
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法
CN108256083A (zh) 基于深度学习的内容推荐方法
WO2022094888A1 (zh) 一种面向决策树的纵向联邦学习方法
CN108256086A (zh) 数据特征统计分析方法
CN108717551A (zh) 一种基于最大隶属度的模糊层次聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant