CN113033819B

CN113033819B - 基于异构模型的联邦学习方法、装置及介质

Info

Publication number: CN113033819B
Application number: CN202110318174.2A
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-11-11
Anticipated expiration: 2041-03-25
Also published as: CN113033819A

Abstract

本说明书实施例公开了基于异构模型的联邦学习方法、装置及设备，方法包括：获取客户端上多个目标模型的特征；根据多个目标模型的特征，对多个目标模型聚类得到目标模型组，并确定目标模型组对应的代表模型；确定根据目标模型的层结构训练得到的代表模型的跨模型梯度预测模型；根据训练数据确定代表模型的梯度，以便根据代表模型的跨模型梯度预测模型，将代表模型的梯度转换为目标梯度，用于在客户端上更新目标模型组中的目标模型。

Description

基于异构模型的联邦学习方法、装置及介质

技术领域

本说明书涉及机器学习的技术领域，尤其涉及基于异构模型的联邦学习方法、装置及介质。

背景技术

联邦学习技术是通过一个可信第三方(比如，云端)，将各个互不信任的机构(比如，客户端)联合起来，从而大大增加了各自的可训练数据，在互不干涉隐私的前提下，提升了各自机构的模型性能。

在异构模型的联邦学习的场景下，所有的梯度计算都集中在云端，每个客户端都有不同的模型，这些模型的总量可能很大，云端在每次训练时需要对这些大量不同的模型分别进行梯度计算。

基于此，针对异构模型需要更高效的学习方法。

发明内容

本说明书一个或多个实施例提供了一种基于异构模型的联邦学习方法、装置及介质，用于解决如下技术问题：针对异构模型需要更高效的学习方法。

本说明书一个或多个实施例采用下述技术方案：

本说明书一个或多个实施例提供的一种基于异构模型的联邦学习方法，包括：

获取客户端上多个目标模型的特征；

根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，并确定所述目标模型组对应的代表模型；

确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型；

根据训练数据确定所述代表模型的梯度，以便根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度，用于在所述客户端上更新所述目标模型组中的目标模型。

本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习方法，包括：

确定在本地属于目标模型组的目标模型，所述目标模型组在云端具有对应的代表模型；

接收所述云端发送的所述代表模型的梯度；

根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度；

根据所述目标梯度，更新本地的所述目标模型。

本说明书一个或多个实施例提供的一种基于异构模型的联邦学习装置，包括：

特征获取单元，获取客户端上多个目标模型的特征；

模型聚类单元，根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，并确定所述目标模型组对应的代表模型；

模型确定单元，确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型；

梯度转换单元，根据训练数据确定所述代表模型的梯度，以便根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度，用于在所述客户端上更新所述目标模型组中的目标模型。

本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习装置，包括：

第一确定单元，确定在本地属于目标模型组的目标模型，所述目标模型组在云端具有对应的代表模型；

接收单元，接收所述云端发送的所述代表模型的梯度；

第二确定单元，确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型；

转换单元，根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度；

更新单元，根据所述目标梯度，更新本地的所述目标模型。

本说明书一个或多个实施例提供的一种基于异构模型的联邦学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取客户端上多个目标模型的特征；

本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

获取客户端上多个目标模型的特征；

本说明书一个或多个实施例提供的另一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过在云端将多个目标模型聚类成目标模型组，在目标模型组中选出代表模型，通过目标模型的层结构训练的代表模型的跨模型梯度预测模型，并利用该代表模型的梯度，预测目标模型组内目标模型的梯度，期间云端可以只计算出代表模型的梯度，而无需计算全部目标模型的梯度，从而能够有效缓解云端的压力，提高模型的学习效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习方法的流程示意图；

图2为本说明书一个或多个实施例提供的基于异构模型的联邦学习方法的简化流程示意图；

图3为本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习方法的流程示意图；

图4为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习装置的结构示意图；

图5为本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习装置的结构示意图；

图6为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习设备的结构示意图。

具体实施方式

本说明书实施例提供基于异构模型的联邦学习方法、装置及介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

联邦学习是一种人工智能基础技术，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。异构模型是指不同结构的模型，不同结构的模型难以共享一套梯度，在联邦学习中会增加较多的云端计算资源和带宽资源。

异构模型的联邦学习存在一个明显的问题，所有的梯度计算都集中在云端的可信第三方，但每个客户端往往有不同的模型，云端在每次训练时需要对大量不同的模型进行梯度计算(很有可能是成百上千个模型)。这就使得联邦学习会随着接入的模型和客户端的增加而变得缓慢，难以规模化。另外，针对这样大量不同类型梯度的管理成本也很高，会进一步恶化联邦学习速度慢的问题。

在本说明书一个或多个实施例中，通过在云端将多个目标模型聚类成目标模型组，在目标模型组中选出代表模型，通过目标模型的层结构训练的代表模型的跨模型梯度预测模型，并利用该代表模型的梯度，预测目标模型组内目标模型的梯度，期间云端仅需要计算出代表模型的梯度，极大程度地缓解了云端的压力，下面详细说明本说明书提供的技术方案。

图1为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习方法的流程示意图，该流程可以由云端执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程可以包括以下步骤：

S102：获取客户端上多个目标模型的特征。

在本说明书一个或多个实施例中，客户端是为客户提供本地服务的程序，包括但不限于万维网使用的网页浏览器、收寄电子邮件时的电子邮件客户端以及即时通讯的客户端软件等。目标模型可以是运行在客户端上的神经网络模型。多个目标模型可以同时运行在同一个客户端。这多个目标模型可以是异构的，比如，某些目标模型中的部分层结构不同等。

在本说明书一个或多个实施例中，目标模型的特征包括目标模型的层数、参数值、卷积核大小、全连接层数量、残差模块数量、是否为残差网络(ResNets)、稠密块数量与是否为稠密连接网络(DenseNet)中的一项或多项。其中，目标模型的参数值比如包括目标模型中每一层的参数值与平均参数值(按每一层求平均)，目标模型的卷积核大小可以包括目标模型中每一层的卷积核大小与平均卷积核大小(按每一层求平均)等。

若目标模型已经一定程度上训练过，则目标模型的特征还可以包括其所使用过的训练数据，以及训练方式，相似的训练数据和相似的训练方式能够给不同的目标模型带来相似性，因此是有参考价值的。

S104：根据多个目标模型的特征，对多个目标模型聚类得到目标模型组，并确定目标模型组对应的代表模型。

在本说明书一个或多个实施例中，对多个目标模型聚类得到多个目标模型组，后面的流程可以针对每个目标模型组分别执行。

在聚类时，比如确定多个目标模型的特征，将确定的特征作为源数据，并通过对源数据进行综合处理(比如，对源数据拼接或者格式化为多维向量等结合处理、对源数据进行非线性计算等融合处理，等等)，得到目标模型的第一表示特征，第一表示特征能够更全面地反应目标模型，基于此，可以根据第一表示特征进行聚类，得到多个目标模型所属的目标模型组，有助于提高聚类准确性。

以结合处理得到第一表示特征为例，比如通过如下示例具体实施：确定多个目标模型的特征包括目标模型的层数(L)、平均参数值(P)、平均卷积核大小(M)、全连接层数量(N)、残差模块数量(R)、是否为残差网络(R’)、稠密块数量(D)与是否为稠密连接网络(D’)，将上述特征作为源数据，并通过对该源数据进行串联处理，得到目标模型的第一表示特征F＝[L,P,M,N,R,R’,D,D’]。

根据第一表示特征进行聚类时，可以通过KMeans聚类或者层次聚类等方式对第一表示特征进行聚类，聚类的度量比如为特征的欧式距离。完成聚类后，可以得到k个目标模型组(k为大于等于1的正整数)，每个目标模型组可以表示一类相似的模型结构。在每一组目标模型中，可以选择离第一表示特征中心点最近的一个模型作为代表模型。

在本说明书一个或多个实施例中，为了提高聚类准确性，可以对第一表示特征进一步地细化处理，之后再进行聚类。

例如，根据第一表示特征，确定目标模型之间的相似度；根据第一表示特征与相似度构建图结构数据；根据图结构数据中的局部拓扑对应的多个目标模型的第一表示特征，确定单个目标模型的第二表示特征；根据第二表示特征进行聚类，得到多个目标模型所属的目标模型组。这里得到的第二表示特征，能够凸显多个相似的目标模型的一些共性，同时也柔化了部分个性，有助于消除个别目标模型的明显差异对聚类中心带来的不利影响。

更具体地，上一段的方案比如通过如下示例具体实施：根据第一表示特征F＝[L,P,M,N,R,R’,D,D’]，确定目标模型之间两两的余弦相似度，余弦相似度越高，可以说明两个目标模型越相似。根据第一表示特征与相似度构建图结构数据时，可以采用图卷积网络(Graph Convolutional Network，GCN)训练，具体为：将第一表示特征作为初始点特征，将余弦相似度作为初始边特征，构建图结构数据。然后利用GCN进行模型特征更新，确定单个目标模型的第二表示特征，更新过程可以根据公式F’＝fully_connected([F,F_neighbour1,F_neighbour2])，其中，F’为第二表示特征，F_neighbour1与F_neighbour2为两个相似度高的目标模型的第一表示特征。需要说明的是，第二表示特征中相似度高的目标模型的第一表示特征并不限定为两个，可以根据实际需求进行调整。

关于得到多个目标模型所属的目标模型组，可以通过如下示例实施：利用KMeans聚类算法对第二表示特征进行聚类，聚类的度量可以为特征的欧式距离。完成KMeans聚类后，可以得到m个目标模型组(m为大于等于1的正整数)，每个目标模型组可以表示一类相似的模型结构。

关于确定目标模型组对应的代表模型，可以通过如下示例实施：在每一组目标模型中，可以选择离第二表示特征中心点最近的一个模型作为代表模型。

当然，确定第二表示特征的具体方案还有更多，比如，针对单个客户端上的多个目标模型，通过采用高维隐藏层网络将这些目标模型的第一表示特征进行扩维，得到第二表示特征，利用第二表示特征对这些目标模型进行聚类。

上一段的方案是考虑到：单个客户端上的各目标模型虽然用途有区别，但都是为该客户端服务的，则这些目标模型所涉及业务领域和业务内容是一致的或者有较明显的关联性，在这种情况下，这些目标模型本身就具有了很多相似性，则在针对多个客户端的目标模型依据第一表示特征进行聚类时，对这些目标模型之间区别的识别能力未必符合预期，针对这个问题，扩维后的第二表示特征更精细地表现了目标模型的特征，能够将这些目标模型的区别扩大化，从而有助于更准确地对这些目标模型进行聚类。基于同样的思路，若不同客户端的业务领域和业务内容相似，则可以将这些客户端的目标模型一起进行上述的特征扩维聚类处理。

在上面的一些例子中，代表模型本身是其对应的目标模型组中的模型。除此之外，代表模型也可以是根据目标模型组内共性新构造的模型，需要能够较好地反映目标模型组内的模型特征。

S106：确定根据目标模型的层结构训练得到的代表模型的跨模型梯度预测模型。

在本说明书一个或多个实施例中，根据目标模型的层结构训练得到代表模型的跨模型梯度预测模型，具体可以包括：确定目标模型中模型层的多个层结构；根据代表模型，为多个层结构确定对应的多层感知器并训练多层感知器；根据训练的多层感知器，得到代表模型的跨模型梯度预测模型。

其中，层结构可以为目标模型中每个模型层，也可以是通过总结目标模型中多个模型层的共性得到的代表模型层，代表模型层本身可以不与这多个模型层中的任何一个模型层相同，比如，代表模型层可以不用确定具体的节点权重参数值。

多层感知器，除了输入输出层，中间可以有多个隐层。比如使用二层感知器，其有输入层、输出层和一个隐藏层，二层感知器能够直观地反应单层与单层之间的数据映射，与单个层结构比较接近，方案实施的开销也较小。

在本说明书一个或多个实施例中，根据代表模型，训练多层感知器，具体可以包括：根据层结构相似性，在代表模型中确定出与层结构相匹配的层，作为对应层；根据对应层训练层结构对应的多层感知器。

若层结构为目标模型中每个模型层，根据层结构相似性，对于目标模型中的每一层搜索代表模型，搜索出相匹配的层，作为对应层；若层结构为目标模型中不同类型的模型层，根据层结构相似性，对于目标模型中的层结构搜索代表模型，搜索出相匹配的层，作为对应层。

需要说明的是，可以根据层结构参数与代表模型中层参数的余弦相似性，在代表模型中选取出余弦相似性最高的层，作为层结构的对应层。其中，层结构参数与代表模型中层参数可以为卷积核大小、参数值和输入输出维度中的一项或多项。

进一步的，在本说明书一个或多个实施例中，为了提高层结构相似性的比对效率，可以选择一些典型直观的参数进行预筛选，再在筛剩下的层中更具体地比较相似性。比如，选择卷积核大小、参数数量、输入输出维度等参数作为预筛选参数，在这种情况下，在确定层结构与代表模型中的层相匹配前，前提是要确定层结构与代表模型中的该层的以下至少一项层参数相同：卷积核大小、参数数量、输入输出维度。若相同(代表模型中的符合该条件的层可能有多个)，则进一步地比较层结构与该层的相似性。

在本说明书一个或多个实施例中，根据对应层训练层结构对应的多层感知器，具体包括：将样本分别输入目标模型及其代表模型进行处理，得到层结构的梯度和对应层的梯度；将层结构的参数值与对应层的梯度及参数值输入至对应的多层感知器，输出针对层结构的预测梯度；根据层结构的预测梯度，在层结构的梯度的监督下，对该多层感知器进行训练。

样本为训练数据的每一组样本数据，将样本分别输入目标模型及其代表模型，得到目标模型及其代表模型梯度的真实值，可以将层结构的参数值与对应层的梯度及参数值输入至多层感知器，输出针对层结构的预测梯度，此时的预测梯度可能不准确值，需要在层结构的梯度的监督下，对该多层感知器进行训练。在训练过程中，可以使用欧式距离损失函数进行监督训练。完成模型训练后，还需要进行模型测试，具体为：利用训练数据中的测试集进行模型测试，当损失函数小于预先设定的阈值后，结束训练。

S108：根据训练数据确定代表模型的梯度，以便根据代表模型的跨模型梯度预测模型，将代表模型的梯度转换为目标梯度，用于在客户端上更新目标模型组中的目标模型。

在本说明书一个或多个实施例中，云端接收到训练数据后，在代表模型上计算对应的梯度。同时，跨模型梯度预测模型可以放置于云端或客户端，确定出代表模型的梯度后，可以根据跨模型梯度预测模型将代表模型梯度转换为适应目标模型的目标梯度，用于在客户端上更新目标模型组中的目标模型。

进一步的，根据训练数据确定代表模型的梯度后，方法还包括：将代表模型的梯度和代表模型的跨模型梯度预测模型发送给客户端，用于在客户端上更新目标模型组中的目标模型。

跨模型梯度预测模型可以放置于客户端，确定出代表模型的梯度后，在客户端通过跨模型梯度预测模型将代表模型的梯度转换为适应目标模型的目标梯度，用于在客户端上更新目标模型组中的目标模型。通过上述方案可以进一步缓解云端的压力，使得云端可以接入更多的客户端。

在本说明书一个或多个实施例中，预先构建并训练类似的跨模型梯度预测模型，用于将第一个目标模型组的梯度转换为另一个目标模型组的梯度，这种情况情况下，云端可以只计算部分代表模型的梯度，并下发至对应的客户端，而客户端内部或者客户端之间，通过利用跨模型梯度预测模型，将代表模型的梯度向其他目标模型进行转换，以及将其他目标模型之间进行梯度转换，从而有助于减轻云端的压力。

在本说明书一个或多个实施例中，云端将训练过的代表模型下发给相应的客户端，客户端根据代表模型，将本地的一些目标模型进行基于相似性的整合，以减少目标模型数量，利用整合后得到的模型执行多样的业务，有助于降低业务成本，而且又有助于挖掘出客户端上业务之间的隐藏联系。

进一步的，参见图2，示出了基于异构模型的联邦学习方法的简化流程示意图，对于多个异构的目标模型，先进行异构模型聚类，确定出结构较为相似的目标模型组，并在目标模型组中选择代表模型。再针对代表模型进行跨模型梯度预测模型训练，之后在云端进行梯度计算(可以为代表模型的梯度，也可以为目标模型的梯度)，并下发到对应的客户端，客户端对目标模型进行更新。

与图1对应的实施例相对应的是，图3为本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习方法的流程示意图，该流程可以由客户端执行。

图3中的流程可以包括以下步骤：

S202：确定在本地属于目标模型组的目标模型，目标模型组在云端具有对应的代表模型。

在本说明书一个或多个实施例中，有关目标模型组、目标模型与代表模型，同S104，不再赘述。

S204：接收云端发送的代表模型的梯度。

在本说明书一个或多个实施例中，云端接收到训练数据后，在代表模型上计算梯度，并将代表模型的梯度下发到客户端。

S206：确定根据目标模型的层结构训练得到的代表模型的跨模型梯度预测模型。

在本说明书一个或多个实施例中，有关跨模型梯度预测模型，同S106，不再赘述。

S208：根据代表模型的跨模型梯度预测模型，将代表模型的梯度转换为目标梯度。

在本说明书一个或多个实施例中，将代表模型的梯度转换为目标梯度，具体包括：确定目标模型中的模型层的多个层结构，并根据层结构相似性，在代表模型中确定出与层结构相匹配的层，作为对应层；将层结构的参数值与对应层的梯度及参数值输入至跨模型梯度预测模型中对应层结构的多层感知器，输出针对层结构的梯度，并根据层结构的梯度确定出目标梯度。

需要说明的是，有关跨模型梯度预测模型，同S106，不再赘述。

S210：根据目标梯度，更新本地的目标模型。

基于同样的思路，与图1对应的实施例相对应的是，图4为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习装置的结构示意图，包括：特征获取单元302、模型聚类单元304、模型确定单元306与梯度转换单元308。

特征获取单元302获取客户端上多个目标模型的特征；

模型聚类单元304根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，并确定所述目标模型组对应的代表模型；

模型确定单元306确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型；

梯度转换单元308根据训练数据确定所述代表模型的梯度，以便根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度，用于在所述客户端上更新所述目标模型组中的目标模型。

进一步的，模型聚类单元304具体用于：

确定所述多个目标模型的以下至少一项特征：层数、参数值、卷积核大小、全连接层数量、残差模块数量、是否为残差网络、稠密块数量、是否为稠密连接网络；

将所述确定的特征作为源数据，并通过对所述源数据进行综合处理，得到所述目标模型的第一表示特征；

根据所述第一表示特征进行聚类，得到所述多个目标模型所属的目标模型组。

进一步的，模型聚类单元304具体用于：

根据所述第一表示特征，确定所述目标模型之间的相似度；

根据所述第一表示特征与所述相似度构建图结构数据；

根据所述图结构数据中的局部拓扑对应的多个所述目标模型的所述第一表示特征，确定单个所述目标模型的第二表示特征；

根据所述第二表示特征进行聚类，得到所述多个目标模型所属的目标模型组。

进一步的，模型确定单元306具体用于：

确定所述目标模型中模型层的多个层结构；

根据所述代表模型，为所述多个层结构确定对应的多层感知器并训练所述多层感知器；

根据所述训练的多层感知器，得到所述代表模型的跨模型梯度预测模型。

进一步的，模型确定单元306具体用于：

根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层；

根据所述对应层训练所述层结构对应的所述多层感知器。

进一步的，模型确定单元306具体用于：

确定所述层结构与所述代表模型中的该层的以下至少一项层参数相同：卷积核大小、参数数量、输入输出维度。

进一步的，模型确定单元306具体用于：

将样本分别输入所述目标模型及其所述代表模型进行处理，得到所述层结构的梯度和所述对应层的梯度；

将所述层结构的参数值与所述对应层的梯度及参数值输入至对应的所述多层感知器，输出针对所述层结构的预测梯度；

根据所述层结构的预测梯度，在所述层结构的梯度的监督下，对该多层感知器进行训练。

进一步的，梯度转换单元308具体用于：

将所述代表模型的梯度和所述代表模型的跨模型梯度预测模型发送给所述客户端，用于在所述客户端上更新所述目标模型组中的目标模型。

与图3对应的实施例相对应的是，图5为本说明书一个或多个实施例提供的另一种基于异构模型的联邦学习装置的结构示意图，包括：第一确定单元402、接收单元404、第二确定单元406、转换单元408与更新单元410。

第一确定单元402确定在本地属于目标模型组的目标模型，所述目标模型组在云端具有对应的代表模型；

接收单元404接收所述云端发送的所述代表模型的梯度；

第二确定单元406确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型；

转换单元408根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度；

更新单元410根据所述目标梯度，更新本地的所述目标模型。

进一步的，转换单元408具体用于：

确定所述目标模型中的模型层的多个层结构，并根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层；将所述层结构的参数值与所述对应层的梯度及参数值输入至跨模型梯度预测模型中对应所述层结构的多层感知器，输出针对所述层结构的梯度，并根据所述层结构的梯度确定出所述目标梯度。

图6为本说明书一个或多个实施例提供的一种基于异构模型的联邦学习设备的结构示意图，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取客户端上多个目标模型的特征；

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。

获取客户端上多个目标模型的特征；

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于异构模型的联邦学习方法，包括：

获取客户端上多个目标模型的特征；

根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，并确定所述目标模型组对应的代表模型，所述代表模型能够反映所述目标模型组内的模型特征；

确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型，所述训练包括：确定所述目标模型中模型层的多个层结构，根据所述代表模型，为所述多个层结构确定对应的多层感知器，根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层，将样本分别输入所述目标模型及其所述代表模型进行处理，得到所述层结构的梯度和所述对应层的梯度，将所述层结构的参数值与所述对应层的梯度及参数值输入至对应的所述多层感知器，输出针对所述层结构的预测梯度，根据所述层结构的预测梯度，在所述层结构的梯度的监督下，对该多层感知器进行训练，根据所述训练的多层感知器，得到所述代表模型的跨模型梯度预测模型；

2.如权利要求1所述的方法，所述根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，具体包括：

3.如权利要求2所述的方法，所述根据所述第一表示特征进行聚类，得到所述多个目标模型所属的目标模型组，具体包括：

根据所述第一表示特征，确定所述目标模型之间的相似度；

根据所述第一表示特征与所述相似度构建图结构数据；

4.如权利要求1所述的方法，确定所述层结构与所述代表模型中的层相匹配前，所述方法还包括：

5.如权利要求1所述的方法，所述根据训练数据确定所述代表模型的梯度后，所述方法还包括：

6.一种基于异构模型的联邦学习方法，包括：

确定在本地属于目标模型组的目标模型，所述目标模型组在云端具有对应的代表模型，所述代表模型能够反映所述目标模型组内的模型特征；

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。

7.如权利要求6所述的方法，所述根据所述代表模型的跨模型梯度预测模型，将所述代表模型的梯度转换为目标梯度，具体包括：

确定所述目标模型中的模型层的多个层结构，并根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层；

将所述层结构的参数值与所述对应层的梯度及参数值输入至跨模型梯度预测模型中对应所述层结构的多层感知器，输出针对所述层结构的梯度，并根据所述层结构的梯度确定出所述目标梯度。

8.一种基于异构模型的联邦学习装置，包括：

特征获取单元，获取客户端上多个目标模型的特征；

模型聚类单元，根据所述多个目标模型的特征，对所述多个目标模型聚类得到目标模型组，并确定所述目标模型组对应的代表模型，所述代表模型能够反映所述目标模型组内的模型特征；

模型确定单元，确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型，所述训练包括：确定所述目标模型中模型层的多个层结构，根据所述代表模型，为所述多个层结构确定对应的多层感知器，根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层，将样本分别输入所述目标模型及其所述代表模型进行处理，得到所述层结构的梯度和所述对应层的梯度，将所述层结构的参数值与所述对应层的梯度及参数值输入至对应的所述多层感知器，输出针对所述层结构的预测梯度，根据所述层结构的预测梯度，在所述层结构的梯度的监督下，对该多层感知器进行训练，根据所述训练的多层感知器，得到所述代表模型的跨模型梯度预测模型；

9.如权利要求8所述的装置，所述模型聚类单元具体用于：

10.如权利要求9所述的装置，所述模型聚类单元具体用于：

根据所述第一表示特征，确定所述目标模型之间的相似度；

根据所述第一表示特征与所述相似度构建图结构数据；

11.如权利要求8所述的装置，所述模型确定单元具体用于：

12.如权利要求8所述的装置，所述梯度转换单元具体用于：

13.一种基于异构模型的联邦学习装置，包括：

第一确定单元，确定在本地属于目标模型组的目标模型，所述目标模型组在云端具有对应的代表模型，所述代表模型能够反映所述目标模型组内的模型特征；

接收单元，接收所述云端发送的所述代表模型的梯度；

第二确定单元，确定根据所述目标模型的层结构训练得到的所述代表模型的跨模型梯度预测模型，所述训练包括：确定所述目标模型中模型层的多个层结构，根据所述代表模型，为所述多个层结构确定对应的多层感知器，根据层结构相似性，在所述代表模型中确定出与所述层结构相匹配的层，作为对应层，将样本分别输入所述目标模型及其所述代表模型进行处理，得到所述层结构的梯度和所述对应层的梯度，将所述层结构的参数值与所述对应层的梯度及参数值输入至对应的所述多层感知器，输出针对所述层结构的预测梯度，根据所述层结构的预测梯度，在所述层结构的梯度的监督下，对该多层感知器进行训练，根据所述训练的多层感知器，得到所述代表模型的跨模型梯度预测模型；

更新单元，根据所述目标梯度，更新本地的所述目标模型。

14.如权利要求13所述的装置，所述转换单元具体用于：

15.一种基于异构模型的联邦学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取客户端上多个目标模型的特征；

16.一种基于异构模型的联邦学习设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

接收所述云端发送的所述代表模型的梯度；

根据所述目标梯度，更新本地的所述目标模型。