CN115081626B - 基于表征学习的个性化联邦少样本学习系统及方法 - Google Patents
基于表征学习的个性化联邦少样本学习系统及方法 Download PDFInfo
- Publication number
- CN115081626B CN115081626B CN202210860048.4A CN202210860048A CN115081626B CN 115081626 B CN115081626 B CN 115081626B CN 202210860048 A CN202210860048 A CN 202210860048A CN 115081626 B CN115081626 B CN 115081626B
- Authority
- CN
- China
- Prior art keywords
- model
- aggregation
- models
- client
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012512 characterization method Methods 0.000 title abstract description 15
- 230000002776 aggregation Effects 0.000 claims abstract description 114
- 238000004220 aggregation Methods 0.000 claims abstract description 114
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种基于表征学习的个性化联邦少样本学习系统及方法,所述方案包括服务器端和若干客户端;其中:所述客户端,其被配置为:接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合;每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端;服务器端,其被配置为:接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行下一轮次优化;联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
Description
技术领域
本公开属于数据挖掘分类及安全人工智能技术领域,尤其涉及一种基于表征学习的个性化联邦少样本学习系统及方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在保护数据隐私安全和数据不可共享的背景下,多个客户端可以通过联邦学习的方式来进行深度模型的协同训练。但如何在各个客户端仅有少量训练数据的情况下进行更加有效的深度模型训练以及各个客户端因为所处环境不同导致各个客户端数据集具有非独立同分布(Non-i.i.d.)的特性,是当前联邦学习技术在分布式机器学习场景应用中仍待提升的难点。
发明人发现,针对多个客户端之间的数据呈现非独立同分布问题的处理方法有:采用个性化联邦学习,协同地为每个客户端学习拟合相应客户端数据分布的深度模型等;目前对于仅有少量数据可用于训练模型的处理方法有:采用少样本学习,例如将在其它数据集中学习到的知识,迁移到当前少量样本的任务中等。而在一个更为常见的现实场景中,多个参与方通常只有少量的样本可以用来训练深度模型,并且它们之间的数据具有非独立同分布的特点,针对这样一个场景进行联邦学习,目前还没有较好的解决方案。
同时,由于每个参与方仅有少量的数据可以用来训练,并且存在客户端之间数据非独立同分布的特点等问题,使得个性化地协同训练在联邦学习技术中还存在较多的改进空间,也是本领域人员目前急需解决的技术问题。
发明内容
本公开为了解决上述问题,提供了一种基于表征学习的个性化联邦少样本学习系统及方法,所述方案通过表征学习到的表征空间将同一类的样本嵌入到靠近的位置,不同类别的样本远离彼此;将基于表征学习训练的模型看作一种可迁移的知识,用其来处理相关的任务,进而有效地促进多个客户端之间的合作。
根据本公开实施例的第一个方面,提供了一种基于表征学习的个性化联邦少样本学习系统,包括服务器端和若干客户端;其中:
所述客户端,其被配置为:
接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合;每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端;
服务器端,其被配置为:
接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行下一轮次优化;
联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
进一步的,所述接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合,具体为:对每个客户端,计算收到的一组模型在本地数据集上的损失;根据计算得到的损失,计算相应模型在进行模型聚合时的权重;利用得到的聚合权重进行模型聚合。
进一步的,每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端,具体为:
针对当前客户端,计算模型在本地数据集上的损失;
针对当前模型,计算正则化约束下的损失;
利用计算得到的损失,对本地模型使用梯度下降的方式进行模型的优化;
将优化后的聚合模型和聚合权重返回至服务器端。
进一步的,所述针对当前客户端,计算模型在本地数据集上的损失,具体采用基于表征学习的方式进行计算,使相同类别的样本相互靠近,不同类别的样本相互远离。
进一步的,所述针对当前模型,计算正则化约束下的损失,具体采用正则化约束模型,减少模型中非零参数,降低通信开销的同时,保护本地数据隐私。
进一步的,所述接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行优化,具体为:
服务器端接收所有来自客户端的聚合模型和聚合权重,并利用所述聚合权重更新模型的历史表现信息;
根据更新后的历史表现信息,服务器端为相应的客户端发送预设数量的深度模型。
根据本公开实施例的第二个方面,提供了一种基于表征学习的个性化联邦少样本学习方法,其基于上述的一种基于表征学习的个性化联邦少样本学习系统,包括:
每个客户端接收从服务器端发来的一组深度模型,并根据这些模型在本地数据集的表现进行模型聚合;
每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的模型和聚合权重返回给服务器端;
服务器端接收来自所有客户端的模型和聚合权重后,根据聚合权重更新模型的过往表现,并根据更新后的信息针对相应客户端选择预设数量的模型发送至相应客户端;
联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于表征学习的个性化联邦少样本学习方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于表征学习的个性化联邦少样本学习方法。
与现有技术相比,本公开的有益效果是:
(1)本公开提供了一种基于表征学习的个性化联邦少样本学习系统及方法,所述方案通过自适应地模型聚合,以在客户端进行聚合模型的方式,得到更加个性化的、性能更好的局部模型,为局部模型的更新提供一个更好的起点。此外,在本地更新时,局部模型采用基于距离的损失优化方式,通过减小同类样本之间的距离,增大不同类别样本之间的距离的方式来优化深度模型,使得学习到的模型能够更有效地应对客户端之间标记空间不同的情况,并且根据表征学习到的模型具有较好的迁移性。
(2)在服务器进行选择性地发送模型时,通过评估模型的历史表现信息,本公开所述方案为相应客户端发送最有效的一组模型,降低了系统的通信开销和加强了相似客户端之间的合作。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例中所述的基于表征学习的个性化联邦少样本学习系统的功能模块示意图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于表征学习的个性化联邦少样本学习系统。
一种基于表征学习的个性化联邦少样本学习系统,包括服务器端和若干客户端;其中:
所述客户端,其被配置为:
接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合;每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端;
服务器端,其被配置为:
接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行下一轮次优化;
联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
进一步的,所述接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合,具体为:对每个客户端,计算收到的一组模型在本地数据集上的损失;根据计算得到的损失,计算相应模型在进行模型聚合时的权重;利用得到的聚合权重进行模型聚合。
进一步的,每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端,具体为:
针对当前客户端,计算模型在本地数据集上的损失;
针对当前模型,计算正则化约束下的损失;
利用计算得到的损失,对本地模型使用梯度下降的方式进行模型的优化;
将优化后的聚合模型和聚合权重返回至服务器端。
进一步的,所述针对当前客户端,计算模型在本地数据集上的损失,具体采用基于表征学习的方式进行计算,使相同类别的样本相互靠近,不同类别的样本相互远离。
进一步的,所述针对当前模型,计算正则化约束下的损失,具体采用正则化约束模型,减少模型中非零参数,降低通信开销的同时,保护本地数据隐私。
进一步的,所述接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行优化,具体为:
服务器端接收所有来自客户端的聚合模型和聚合权重,并利用所述聚合权重更新模型的历史表现信息;
根据更新后的历史表现信息,服务器端为相应的客户端发送预设数量的深度模型。
进一步的,所述每个客户端基于获得的模型对本地数据进行处理,得到处理结果,具体为:每个客户端基于获得的模型对本地数据进行数据分类,获得分类结果。
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
如图1所示,基于表征学习的个性化联邦少样本学习系统,包括:服务器端和若干客户端;其中:
模型聚合模块,其被配置为:每个客户端接收从服务器端发来的一组深度模型,并根据这些模型在本地数据集的表现进行模型聚合;
本地更新模块,其被配置为:每个客户端利用自己本地的数据对聚合后的模型进行优化,并将优化后的模型和聚合权重发回给服务器端;
模型选择和发送模块,其被配置为:服务器在接收到来自所有客户端的模型和聚合权重后,根据聚合权重更新模型的过往表现,并根据更新后的信息针对相应客户端选择最有效的一部分模型发送到相应客户端;
样本分类模块,其被配置为:联邦学习过程结束后,客户端利用学习到的模型来对本地的待分类数据进行分类,得到分类结果。
进一步地,每个客户端接收从服务器端发来的一组深度模型,并根据这些模型在本地数据集的表现进行模型聚合;具体包括:
对每个客户端,计算收到的一组模型在本地数据集上的损失;
根据计算得到的损失,来计算相应模型在进行模型聚合时的权重;
利用得到的聚合权重,来进行模型聚合,得到客户端在相应通信轮次的模型起点;
本公开将模型聚合放在客户端来完成,通过计算损失的大小,按照损失越小,聚合权重越大的原则来完成模型聚合。这种自适应地模型聚合充分利用了本地数据集的信息,有助于得到一个较优的局部模型优化起点。
示例性地,模型聚合阶段,每个客户端接收从服务器端发来的一组深度模型,并根据这些模型在本地数据集的表现进行模型聚合;具体包括:
S1011,每个客户端ci接收到由服务器端发来的一组深度模型其中表示在第t次通信轮次中所接收到的第i个模型的参数。此外,每个客户端共接收到m个模型,这些模型将用于后续的模型聚合。
S1012,进行模型聚合,将得到的聚合模型用来作为后续进行本地更新的模型初始点。具体步骤如下:
首先,每个客户端ci计算由服务器端发来的一组深度模型在本数据集上/>的损失/>其中/>表示模型/>在数据集/>上的损失。
其次,利用为这组深度模型计算得的损失来计算相应的聚合损权重,定义如下:
其中,表示模型/>在客户端ci的第t次通信轮次的聚合权重。通过该Softmax公式,可以得到聚合的权重。此外,当模型/>的表现越好,即对应损失/>小,其对应的聚合权重/>就会越大。这可能是因为客户端ci与客户端/>有着较相同的数据分布,这导致模型/>对数据/>的拟合程度更高,那么它对最终聚合生成模型的影响也就会越大。
最后,利用计算得到的一组聚合权重以聚合权重与对应模型加权求和的方式来完成最终的模型聚合,得到聚合模型/>定义如下:
其中,是客户端ci在第t次通信轮次时聚合得到的模型。接下来客户端ci以该模型/>为起点进行本地更新,以产生一个更具有表达力和个性化的深度模型。
应理解地,指的是深度模型的参数,例如多层感知机(MLP)或卷积神经网络(CNN)的参数等。此外,每个客户端所采用的神经网络结构应是相似的,即它们的参数空间的维度是相同的。此外,在进行模型聚合时,本公开是基于模型按照对应位置进行加权求和的方式。
进一步地,每个客户端利用自己本地的数据对聚合后的模型进行优化,并将优化后的模型和聚合权重发回给服务器端;具体包括:
针对当前客户端,计算模型在本地数据集上的损失;
针对当前模型,进一步计算正则化约束下的损失;
利用计算得到的损失,对本地模型使用梯度下降的方式进行模型的优化;
将优化后的模型和聚合权重发回给服务器端;
本公开在计算模型在数据集上的损失时,采用基于表征学习的方式计算模型的损失,其优化目标是使得相同类别的样本尽量靠在一起,不同类别的样本远离彼此,这样使得学习到的模型能够适应客户端之间标记空间不同的情况。此外,基于表征学习得到的模型,在知识迁移方面也具有较好的可迁移性。此外,本公开借用正则化约束模型,极大减少模型中非零参数,在极大地降低通信开销的同时,也在一定程度上保护本地数据的隐私。
示例性地,本地更新模块,每个客户端利用自己本地的数据对聚合后的模型进行优化,并将优化后的模型和聚合权重发回给服务器端;具体包括:
S1021,每个客户端ci计算聚合得到的模型在本地数据集/>上的损失。首先,我们学习到的模型/>相当于一个由d维空间向h维空间映射的函数/> 其中d指样本x原始特征空间的维度,h指样本x经过/>后产生的新的特征空间的维度。我们希望能够使得同类样本在新的特征空间中距离更近,不同类别的样本在新的空间中更加远离彼此。
给定客户端ci中的任意一个样本本公开评估这个样本被分类为类别/>的概率为这个样本到所有类别为/>的样本的平均距离与到其他类别样本的平均距离的Softmax,定义如下:
其中,指样本x通过深度模型/>后在新的h维空间中的表示,表示样本/>与样本x在新的特征空间中的Euc/idean距离,/>表示客户端ci中所有标记为/>的样本的集合,Ni表示客户端ci的标记空间的维度,/>表示当深度模型参数为/>时,样本/>具有标记/>均概率。本公开采用基于距离的分类方式,能够自适应地应对客户端之间标记空间不同的情况。为了获得一个更具有表示力的深度模型,本公开最小化/>具有其真值标记/>的负对数概率,定义如下:
其中,指深度模型/>在样本/>上的损失。对于客户端ci,他的数据集共有Ni*Ki个样本,其中Ni表示类别的数量,Ki表示每个类别样本的数量。接下来,本公开计算深度模型/>在数据集/>上的损失定义如下:
本公开通过最小化深度模型在数据集/>上的平均损失,可以为客户端ci获得一个更具有表示力的深度模型/>
S1022,然而由于每个客户端仅有少量的训练样本,采用公式(5)优化会引起过拟合的问题。为了解决这个问题,本公开通过服务器向每个客户端发送多个深度模型,来提升模型的泛化性能。但是在客户端之间共享神经网络的参数也会引起一定程度隐私泄露的问题。
为了解决这个问题,本公开通过引入对深度模型的正则化约束来减少深度模型中的非零参数,从而减少传递的信息量,进而在一定程度上保护客户端的数据隐私。本公开采用l1范数正则化约束对深度模型进行非零参数的约束,定义如下:
其中表示带有正则化约束的损失,λ为正则化约束的参数。
S1023,通过公式(6)计算得到的损失,本公开使用梯度下降算法对深度模型进行优化,定义如下:
其中表示优化后的深度模型参数,μ表示学习率。经过优化后的深度模型会具有更好的表示力和较少的非零参数。
S1024,通过公式(7)完成本地更新后,客户端会将优化得到的模型以及模型聚合参数/>发送给服务器。
应理解地,在进行本地更新时,通常会进行多次损失的计算和深度模型优化。此外,每次进行模型优化时,本公开只会用到数据集中的一部分数据进行计算损失。
进一步地,服务器在接收到来自所有客户端的模型和聚合权重后,根据聚合权重更新模型的过往表现,并根据更新后的信息针对相应客户端选择最有效的一部分模型发送到相应客户端;具体包括:
服务器收到所有来自客户端的模型和聚合权重,利用聚合权重更新模型的历史表现信息;
根据更新后的信息,服务器为相应的客户端发送尽可能多有效的一组深度模型;
本公开通过记录模型过往的表现信息,即聚合权重,来评估这些模型对相应客户端的有效性,有效地加强了联邦学习系统中相似客户端之间的合作。此外,本公开为相应客户端只发送一部分深度模型,有效地降低了联邦学习过程中的通信开销。
示例性地,模型选择发送阶段,服务器在接收到来自所有客户端的模型和聚合权重后,根据聚合权重更新模型的过往表现,并根据更新后的信息针对相应客户端选择最有效的一部分模型发送到相应客户端;具体包括:
S1031,服务器在接收到来自所有客户端的深度模型以及模型聚合参数后,将对相应客户端发送一部分深度模型。如果简单地将所有深度模型都发给所有客户端,将会引起通信开销过高的问题。这时可以通过简单地随机发送一部分深度模型给相应客户端解决这个问题。但是由于客户端之间的数据不同,简单的随机发送一部分深度模型会导致模型收敛效果差。为了解决这个问题,本公开采用了自适应的采样方式来为相应客户端选择一组最有效的深度模型。
具体地,令矩阵记录模型过往的表现信息,其中n表示客户端的数目,Qij记录θi在客户端ci的表现信息。其值越大,表现越好。那么当为客户端ci选择发送模型时,本公开发送第i行前m大的值所对应的列下标的深度模型,这样就做到了尽可能为相应客户端发送有效的深度模型。本公开初始化矩阵Q为单位矩阵,Q1=diag(1,...,1),这样在开始时,每个深度模型都有被发送的机会。在通信过程中,本公开利用收到的聚合权重来更新矩阵Q,定义如下:
其中,m为发送模型的数量,β为平衡参数。通过此更新方式,本公开能够有效地促进相似客户端之间的合作,最终为每个客户端学习到个性化并具有分辨力的深度模型。
S1032,当更新完矩阵Q后,服务器为每个客户端ci,选择发送第i行前m大的值所对应的列下标的深度模型。
应理解地,模型聚合模块、本地更新模块和模型选择和发送模块共同组成一个通信轮次。在本公开的系统中,一次学习过程通常由多个通信轮次组成。在完成学习后,本公开会进行样本分类。
进一步地,联邦学习过程结束后,客户端利用学习到的模型对本地的待分类数据进行分类,得到分类结果。具体包括:
在进行多个通信轮次后,即联邦学习过程结束后,本公开利用学习到的深度模型来进行本地样本的分类;
在进行分类时,采用基于距离的方式进行样本的分类。
示例性地,样本分类模块,联邦学习过程结束后,客户端利用学习到的模型对本地的待分类数据进行分类,得到分类结果。具体包括:
S1041在最后一次通信轮次中,在进行完本地更新后,客户端ci得到了最终学习到的深度模型给定任意一个待分类样本x,本公开通过在新的特征空间中,基于样本距离的方式进行分类,定义如下:
其中j为该样本预测的标记。
应理解地,样本分类阶段是在联邦学习过程结束后,即进行多个通信轮次之后进行得。
综上所述,在实施例中,首先每个客户端利用收到的深度模型,以模型表现越好权重越高的原则进行个性化地模型聚合。然后根据本地的训练数据集进行模型优化,使得本地的样本在模型产生的表征空间中:相同类别的样本靠在一起,而不同类别的样本远离彼此。此外,本公开通过正则化的约束限定深度模型中非零参数的数量。然后,客户端将优化后的模型以及聚合参数发回给服务器端。服务器在收到所有来自客户端的模型和聚合权重后,利用聚合权重更新模型的表现信息;根据更新后的信息选择并发送模型到相应的客户端。以上过程迭代循环进行。在完成联邦学习的过程后,每个客户端利用学习到的深度模型对本地的待分类样本进行分类。
本实施例所述方案可以自适应地促进联邦学习中相似的客户端进行合作,通过增强相似客户端之间的合作为客户端提供更优的深度模型。本公开中基于模型损失计算的个性化聚合权重使得聚合模型具有更好的泛化能力。此外,本公开采用基于距离的分类方式,能够使得深度模型有效地应对各个客户端之间的标记空间不同的情况。本公开在进行模型优化时,使用正则化来约束模型中非零参数的数量,减少传输的信息量,能够有效地较低通信开销,并在一定程度上保护客户端的数据隐私。
实施例二:
本实施例的目的是提供一种基于表征学习的个性化联邦少样本学习方法。
一种基于表征学习的个性化联邦少样本学习方法,其基于上述的一种基于表征学习的个性化联邦少样本学习系统,包括:
每个客户端接收从服务器端发来的一组深度模型,并根据这些模型在本地数据集的表现进行模型聚合;
每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的模型和聚合权重返回给服务器端;
服务器端接收来自所有客户端的模型和聚合权重后,根据聚合权重更新模型的过往表现,并根据更新后的信息针对相应客户端选择预设数量的模型发送至相应客户端;
联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
进一步的,本实施例所述方法与实施例一所述系统相对应,其技术细节在实施例一中进行了详细说明,故此处不再赘述。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例二中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例二中所述的方法。
实施例二中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
上述实施例提供的一种基于表征学习的个性化联邦少样本学习系统及方法可以实现,具有广阔的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于表征学习的个性化联邦少样本学习系统,其特征在于,包括服务器端和若干客户端;其中:
所述客户端,其被配置为:
接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合;每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端;
服务器端,其被配置为:
接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行下一轮次优化;
联邦学习过程迭代结束后,每个客户端基于获得的模型对本地数据进行处理,得到处理结果。
2.如权利要求1所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,所述接收从来自服务器端的一组深度模型,并根据模型在本地数据集的表现信息进行模型聚合,具体为:对每个客户端,计算收到的一组模型在本地数据集上的损失;根据计算得到的损失,计算相应模型在进行模型聚合时的权重;利用得到的聚合权重进行模型聚合。
3.如权利要求1所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,每个客户端利用其本地的数据对聚合后的模型进行优化,并将优化后的聚合模型和聚合权重返回给服务器端,具体为:
针对当前客户端,计算模型在本地数据集上的损失;
针对当前模型,计算正则化约束下的损失;
利用计算得到的损失,对本地模型使用梯度下降的方式进行模型的优化;
将优化后的聚合模型和聚合权重返回至服务器端。
4.如权利要求3所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,所述针对当前客户端,计算模型在本地数据集上的损失,具体采用基于表征学习的方式进行计算,使相同类别的样本相互靠近,不同类别的样本相互远离。
5.如权利要求3所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,所述针对当前模型,计算正则化约束下的损失,具体采用正则化约束模型,减少模型中非零参数。
6.如权利要求1所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,所述接收到来自所有客户端的聚合模型和聚合权重,根据聚合权重更新聚合模型的历史表现信息,并根据更新后的历史表现信息,从来自若干客户端的聚合模型中选择预设数量的聚合模型发送到相应客户端进行优化,具体为:
服务器端接收所有来自客户端的聚合模型和聚合权重,并利用所述聚合权重更新模型的历史表现信息;
根据更新后的历史表现信息,服务器端为相应的客户端发送预设数量的深度模型。
7.如权利要求1所述的一种基于表征学习的个性化联邦少样本学习系统,其特征在于,所述每个客户端基于获得的模型对本地数据进行处理,得到处理结果,具体为:每个客户端基于获得的模型对本地数据进行数据分类,获得分类结果。
8.一种基于表征学习的个性化联邦少样本学习方法,其特征在于,包括:应用于如权利要求1-7任一项所述的一种基于表征学习的个性化联邦少样本学习系统。
9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于表征学习的个性化联邦少样本学习系统。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于表征学习的个性化联邦少样本学习系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860048.4A CN115081626B (zh) | 2022-07-21 | 2022-07-21 | 基于表征学习的个性化联邦少样本学习系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860048.4A CN115081626B (zh) | 2022-07-21 | 2022-07-21 | 基于表征学习的个性化联邦少样本学习系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115081626A CN115081626A (zh) | 2022-09-20 |
CN115081626B true CN115081626B (zh) | 2024-05-31 |
Family
ID=83242161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210860048.4A Active CN115081626B (zh) | 2022-07-21 | 2022-07-21 | 基于表征学习的个性化联邦少样本学习系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115081626B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435604A (zh) * | 2021-06-16 | 2021-09-24 | 清华大学 | 一种联邦学习优化方法及装置 |
CN113568740A (zh) * | 2021-07-16 | 2021-10-29 | 开放智能机器(上海)有限公司 | 基于联邦学习的模型聚合方法、系统、设备及介质 |
CN114169543A (zh) * | 2021-12-06 | 2022-03-11 | 东北大学 | 一种基于模型陈旧性与用户参与度感知的联邦学习算法 |
CN114595831A (zh) * | 2022-03-01 | 2022-06-07 | 北京交通大学 | 融合自适应权重分配和个性化差分隐私的联邦学习方法 |
-
2022
- 2022-07-21 CN CN202210860048.4A patent/CN115081626B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435604A (zh) * | 2021-06-16 | 2021-09-24 | 清华大学 | 一种联邦学习优化方法及装置 |
CN113568740A (zh) * | 2021-07-16 | 2021-10-29 | 开放智能机器(上海)有限公司 | 基于联邦学习的模型聚合方法、系统、设备及介质 |
CN114169543A (zh) * | 2021-12-06 | 2022-03-11 | 东北大学 | 一种基于模型陈旧性与用户参与度感知的联邦学习算法 |
CN114595831A (zh) * | 2022-03-01 | 2022-06-07 | 北京交通大学 | 融合自适应权重分配和个性化差分隐私的联邦学习方法 |
Non-Patent Citations (1)
Title |
---|
"Federated Few-Shot Learning with Adversarial Learning";Chenyou Fan etc.;《2021 19th International Symposium on Modeling and Optimization in Mobile, Ad hoc, and Wireless Networks》;20211108;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115081626A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191791B (zh) | 基于机器学习模型的图片分类方法、装置及设备 | |
Ando et al. | Deep over-sampling framework for classifying imbalanced data | |
Sommer et al. | Towards probabilistic verification of machine unlearning | |
US9524461B1 (en) | Conceptual computation system using a hierarchical network of modules | |
WO2022006919A1 (zh) | 基于激活定点拟合的卷积神经网络训练后量化方法及系统 | |
CN115731424B (zh) | 基于强化联邦域泛化的图像分类模型训练方法及系统 | |
WO2021034932A1 (en) | Automated path-based recommendation for risk mitigation | |
CN113222139B (zh) | 神经网络训练方法和装置、设备,及计算机存储介质 | |
Liu et al. | Stock prices prediction using deep learning models | |
CN111104831B (zh) | 一种视觉追踪方法、装置、计算机设备以及介质 | |
KR20200063041A (ko) | 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치 | |
CN114519185A (zh) | 检测深度神经网络(dnn)上的对抗攻击 | |
CN116229170A (zh) | 基于任务迁移的联邦无监督图像分类模型训练方法、分类方法及设备 | |
CN112598062A (zh) | 一种图像识别方法和装置 | |
CN116996272A (zh) | 一种基于改进的麻雀搜索算法的网络安全态势预测方法 | |
CN112990387B (zh) | 模型优化方法、相关设备及存储介质 | |
CN115081626B (zh) | 基于表征学习的个性化联邦少样本学习系统及方法 | |
CN115965078A (zh) | 分类预测模型训练方法、分类预测方法、设备及存储介质 | |
US11615320B1 (en) | Method, product, and apparatus for variable precision weight management for neural networks | |
CN114861936A (zh) | 一种基于特征原型的联邦增量学习方法 | |
CN113420879A (zh) | 多任务学习模型的预测方法及装置 | |
WO2020075462A1 (ja) | 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム | |
CN116957067B (zh) | 公共安全事件预测模型的强化联邦学习方法及装置 | |
CN113191527A (zh) | 一种基于预测模型进行人口预测的预测方法及装置 | |
Saravanan et al. | Workload prediction for enhancing power efficiency of cloud data centers using optimized self‐attention‐based progressive generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |