CN113971090A

CN113971090A - 分布式深度神经网络的分层联邦学习方法及装置

Info

Publication number: CN113971090A
Application number: CN202111228043.1A
Authority: CN
Inventors: 包卫东; 钟正仪; 王吉; 朱晓敏; 周文; 张雄涛; 周敬轩; 闫辉; 牛莅原; 邹明胤; 张亮; 严春; 严可逸
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-25
Anticipated expiration: 2041-10-21
Also published as: CN113971090B

Abstract

本发明一个或多个实施例提供一种分布式深度神经网络的分层联邦学习方法及装置，包括：多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点；边缘节点对分支下的多个终端传输的前端模型进行聚合，得到聚合后的新的前端模型；基于新的前端模型，边缘节点协同终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至云端；云端对多个边缘节点传输的整体模型进行聚合，迭代多次后得到全局统一的新的整体模型。通过以上方式，本发明能够显著降低任务计算的时间消耗，增强了实时性要求，能够解决不同层级的数据倾斜问题，具有广泛应用前景。

Description

分布式深度神经网络的分层联邦学习方法及装置

技术领域

本发明属于一种边缘计算技术领域，具体是涉及到一种分布式深度神经网络的分层联邦学习方法及装置。

背景技术

随着智能设备的发展，移动手机等便携终端设备的计算能力大大增强，同时传统云计算由于存在用户隐私泄露和计算时延的问题，面临极大挑战，因此，将原本在云端的计算模型部署到边缘或终端设备正越来越成为趋势。然而，由于计算资源地限制，单凭一个终端设备很难完成复杂的计算任务。

近年来，深度学习技术凭借其对事物特征的深度挖掘优势，得到了广泛的应用。在现实生活中，通常选择分层的方式，将神经网络的大部分部署在具备更大资源储备的边缘端或云端，小部分部署在地理空间分散的终端设备上，以减小终端负荷，从而形成了模型分层部署的分布式架构，但同时这种方式带来的是任务计算的延迟。

发明内容

本发明要解决的技术问题是提供一种分布式深度神经网络的分层联邦学习方法及装置，以解决分层部署模型的更新，计算资源受限，计算延迟的问题。

基于上述目的，本发明一个或多个实施例提供了一种分布式深度神经网络的分层联邦学习方法，所述分层联邦学习方法应用于多层级分布式计算系统，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端；所述分层联邦学习方法包括：多个所述终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的所述边缘节点；所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型；基于所述新的前端模型，所述边缘节点协同所述终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至所述云端；所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型。

可选的，所述多个所述终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的所述边缘节点，包括：多个所述终端利用本地数据分别进行模型训练，计算第一训练次数；如果所述第一训练次数为第一预设次数的整数倍，则将训练得到的所述前端模型传输至同一分支的所述边缘节点。

可选的，所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型，包括：所述边缘节点采用加权平均的方式对分支下的多个所述终端传输的所述前端模型参数进行聚合，得到聚合后的所述新的前端模型，计算第一聚合次数；如果所述第一聚合次数小于第一预设聚合次数，则将所述新的前端模型下发至分支下的多个所述终端。

可选的，所述将所述新的前端模型下发至分支下的多个所述终端之后，包括：所述终端应用本地数据对从所述边缘节点下发的所述新的前端模型进行模型训练，计算所述第一训练次数；如果所述第一训练次数为所述第一预设次数的整数倍，则将当前训练更新的前端模型上传至所述边缘节点以进行进一步的聚合。

可选的，所述基于所述新的前端模型，所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端之前，包括：如果所述前端模型的第一聚合次数达到第一预设聚合次数，所述终端判断是否满足提前退出条件，其中所述提前退出条件为在所述终端训练过程中以交叉熵作为所述前端模型的损失函数，计算得到的第一损失小于预设阈值；如果满足所述提前退出条件，则在第一出口输出计算结果，所述计算结果为所述前端模型应用的输出结果；如果不满足所述提前退出条件，则将模型训练的所述中间结果和所述前端模型传输至所述边缘节点。

可选的，所述基于所述新的前端模型，所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端，包括：所述边缘节点将所述中间结果作为后端模型的参数输入计算所述后端模型的第二损失；应用所述新的前端模型对所述边缘节点上的前端模型进行初始化；所述边缘节点基于所述新的前端模型和所述后端模型对所述整体模型进行训练，将所述整体模型的第三损失确定为所述第一损失和所述第二损失的加权求和，计算第二训练次数；如果所述第二训练次数为第二预设次数的整数倍，则将训练得到的所述整体模型传输至云端。

可选的，所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型，包括：所述云端采用加权平均的方式对多个所述边缘节点传输的所述整体模型进行聚合，得到全局统一的所述新的整体模型，并计算第二聚合次数，所述整体模型的参数包括前端模型参数、后端模型的参数；如果所述第二聚合次数小于预设第二聚合次数，则将所述新的整体模型下发至多个所述边缘节点；如果所述第二聚合次数等于所述预设第二聚合次数，则得到最终的全局统一的所述整体模型。

可选的，所述将所述新的整体模型下发至多个所述边缘节点之后，包括：所述边缘节点对从所述云端下发的所述新的整体模型进行多次迭代训练，并计算所述第二训练次数；如果第二训练次数为所述第二预设次数的整数倍，则将训练更新的整体模型上传至所述云端以进行进一步的聚合。

基于同一发明构思，本发明一个或多个实施例还提出了一种分布式深度神经网络的分层联邦学习装置，所述分层联邦学习装置应用于多层级分布式计算系统，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端；所述装置包括：终端训练单元，用于在多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点；边缘聚合单元，用于在所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型；边缘训练单元，用于基于所述新的前端模型，在所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端；云端聚合，用于在所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型。

基于同一发明构思，本发明一个或多个实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上任意一项中所述的分布式深度神经网络的分层联邦学习方法。

从上面所述可以看出，本发明一个或多个实施例提供的一种分布式深度神经网络的分层联邦学习方法及装置，通过多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点；边缘节点对分支下的多个终端传输的前端模型进行聚合，得到聚合后的新的前端模型；基于所述新的前端模型，所述边缘节点协同所述终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至云端；云端对多个边缘节点传输的整体模型进行聚合，迭代多次后得到全局统一的新的整体模型，能够显著降低任务计算的时间消耗，增强了实时性要求，能够解决不同层级的数据倾斜问题，具有广泛应用前景。

附图说明

为了更清楚地说明本发明一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明明一个或多个实施例中的多层级分布式计算系统的结构示意图；

图2为本发明明一个或多个实施例中的分布式深度神经网络的分层联邦学习方法的流程示意图；

图3为本发明明一个或多个实施例中的分布式深度神经网络的分层联邦学习方法示意图；

图4为本发明明一个或多个实施例中的图像分类任务的整体模型的结构示意图；

图5为本发明明一个或多个实施例中的文本分类任务的整体模型的结构示意图；

图6为本发明明一个或多个实施例中的不同阈值的模型准确率示意图；

图7为本发明明一个或多个实施例中的不同模型框架的准确率示意图；

图8为本发明明一个或多个实施例中的图像分类任务中不同数据分布的准确率示意图；

图9为本发明明一个或多个实施例中的终端和边缘节点之间均为非独立同分布的不同分类任务的准确率示意图；

图10为本发明明一个或多个实施例中的不同模型框架的计算资源开销比较示意图；

图11为本发明明一个或多个实施例中的分布式深度神经网络的分层联邦学习装置的结构示意图；

图12为本发明一个或多个实施例中电子设备示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本发明一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

传统的联邦学习一般是两层的，一层为中央服务器，一层为数量为N的客户机。在联邦学习中，每个客户机在传输模型参数到服务器进行聚合前，都要经过若干次训练，此过程反复多次迭代，直到模型达到一个令人满意的准确率或资源耗尽。

以分类任务为例，我们假设N个客户机的数据总量为D，每个样本可以表示为

每个客户机的数据集数量为D_i(i＝1,2,…,N)，模型参数为θ，在进行联邦聚合前，每个客户机要进行E次本地更新，在此过程中，学习步长用η表示，l_ij(x_j，y_j，θ_i(t))表示第i个客户机在第t轮训练中第j个样本的损失，简化用l_ij(θ_i(t))表示。因此，客户机的一次训练过程可以表示为：

其中，

那么，整体模型的全局损失L可以表示为：

该损失整合了所有客户机模型的参数特征。联邦学习优化的关键在于找到一个能够使得全局损失L最小的整体模型的模型参数θ^*：

一般而言，当学习率、优化器等其他条件确定时，在经过一定次数的训练迭代后，全局损失将会下降收敛到一个最小值。一旦满足条件t E＝0且t/E＝k时，各个客户机将本地模型参数上传到中央服务器进行聚合。以联邦平均算法FedAvg为例，采用加权平均的方式对模型参数进行聚合，具体公式如下：

本发明一个或多个实施例提供了一种分布式深度神经网络的分层联邦学习方法。所述分层联邦学习方法应用于多层级分布式计算系统。如图1所示，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端。本发明实施例分层部署的多出口模型的更新采用以下算法1所示的方法进行训练。算法1中，首先用γ初始化整体模型的模型参数，其中前端模型(模型1)和第一出口(出口1)的参数用θ表示。接下来，整个算法1的训练过程可以分为两个层次的联邦学习。一个是边缘节点层次的，此时，终端被视作客户机，每个边缘节点是一个中央服务器。在终端进行本地训练(第6行)之后，其对应的边缘节点j将聚合K₁次(第9行)，最终得到θ^j(K₁)；另一个则为云端层次的联邦学习，此时与前面的边缘节点聚合不同，边缘j被视为客户机，云端为中央服务器，在云端聚合前，边缘节点j将利用其下所有终端产生的数据Dⁱ协同训练整体模型E₂次(第19行)，整体模型包括前端模型(模型1)、后端模型(模型2)、第一出口(出口1)和第二出口(出口2)，其中前端模型和第一出口的初始化参数为θ^j(K₁)(第15行)，整个云端聚合(第22行)过程迭代K₂次，最终输出整体模型的更新参数γ(K₂)。在整个算法1的迭代过程中，边缘节点和云端的聚合采用的是联邦平均算法FedAvg。

联邦平均算法FedAvg的输入包含客户机的数量，客户机本地更新次数E，训练的批量大小B，学习率η以及总的聚合次数K。首先，每个客户机将从服务器上下载参数G₀对模型进行初始化；接着，将在本地进行更新E次后，将模型参数上传到服务器进行聚合；之后，服务器将基于各个客户机的数据比例对各个模型参数进行加总聚合，将聚合后的模型参数G^j ⁺¹再次分发至各个客户机进行进一步训练，以此迭代K次。值得注意的是，在每次迭代过程中，只有一部分客户机参与训练，整个训练过程采用梯度下降的方法。

本发明实施例的分布式深度神经网络的分层联邦学习方法具体流程如附图2所示，包括：

步骤S11：多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点。

可选地，多个所述终端利用本地数据分别进行模型训练，计算第一训练次数；如果所述第一训练次数为第一预设次数的整数倍，则将训练得到的所述前端模型传输至同一分支的所述边缘节点，参见图3中的步骤①。终端进行一次模型更新，前端模型的模型参数就更新一次，因此第一预设次数即为在终端的前端模型的更新次数。其中，第一预设次数可以根据用户需要设置，在此不作具体限制。

步骤S12：所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型。

此时，每个终端相当于客户机，其对应的边缘节点相当于中央服务器。每个客户机在传输模型参数到中央服务器进行聚合前，都要经过若干次训练，此过程反复多次迭代，直到模型达到一个令人满意的准确率或资源耗尽。各个终端在利用本地数据对前端模型进行训练，此时，由于前端模型出口只有一个，所有的样本都将从第一出口离开，并利用第一出口出的第一损失进行反向传播计算梯度，实现前端模型更新，按此法迭代一定次数以后，各终端将前端模型的模型参数传输到边缘节点进行聚合，再从边缘节点下载聚合完毕后的前端模型，此时，每个终端得到的前端模型都含有同一个边缘节点下其他终端的前端模型的特征。在步骤S12中，可选地，所述边缘节点采用加权平均的方式对分支下的多个所述终端传输的所述前端模型参数进行聚合，得到聚合后的所述新的前端模型，计算第一聚合次数；如果所述第一聚合次数小于第一预设聚合次数，则将所述新的前端模型下发至分支下的多个所述终端，参见图3中的步骤②。其中，第一预设聚合次数可以根据用户需要设置，在此不作具体限制。

在本发明实施例中，假设整个网络包含M个出口，即一个边缘节点分支下包括M个终端，通过上式得出每一个终端的第一损失后，得到加权损失：

其中，

是从第m个终端的第一出口退出的样本的估计值，

是这些样本对应的标签，ω_m是计算权重：

将所述新的前端模型下发至分支下的多个所述终端之后，所述终端应用本地数据对从所述边缘节点下发的所述新的前端模型进行模型训练，计算所述第一训练次数；如果第一训练次数为第一预设次数的整数倍，则将当前训练更新的前端模型上传至所述边缘节点以进行进一步的聚合。可见，终端接收到同一分支的边缘节点下发的前端模型的模型参数后，每次都进行第一预设次数的训练，并将训练了第一预设次数后的前端模型的模型参数上传边缘节点以进行聚合。

步骤S13：基于所述新的前端模型，所述边缘节点协同所述终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至所述云端。

在本发明实施例中，为了满足不同任务计算的实时性要求，应用了提前退出机制(Early Exit of Inference，EEoI)。将在终端计算的具有较高可信度的结果提前退出神经网络，不再把中间结果传到边缘节点甚至云端进一步训练，而将那些具有较低可信度的中间结果传输到边缘节点甚至云端进行进一步计算。

在步骤S13之前，可选地，如果所述前端模型的第一聚合次数达到第一预设聚合次数，所述终端判断是否满足提前退出条件，其中所述提前退出条件为在所述终端训练过程中以交叉熵作为所述前端模型的损失函数，计算得到的第一损失小于预设阈值；如果满足所述提前退出条件，则在第一出口(出口1)输出计算结果，所述计算结果为所述前端模型应用的输出结果；如果不满足所述提前退出条件，则将模型训练的中间结果和前端模型传输至所述边缘节点，参见图3中的步骤③。

本发明实施例绝大多数推理任务在终端就能获得一个较好的结果，仅有少部分任务需要进一步计算，如此显著降低了任务计算的时间消耗，增强了实时性要求。

在步骤S13中，可选地，所述边缘节点将所述中间结果作为后端模型(模型2)的参数输入计算得到所述后端模型的第二损失；应用所述新的前端模型对所述边缘节点上的前端模型进行初始化；所述边缘节点基于所述新的前端模型和所述后端模型对所述整体模型进行训练，将所述整体模型的第三损失确定为所述第一损失和所述第二损失的加权求和，计算第二训练次数；如果所述第二训练次数为第二预设次数的整数倍，则将训练得到的所述整体模型传输至云端，参见图3中的步骤③和④。第一损失的权重为从第一出口(出口1)退出的样本量占样本总量的比例，第二损失的权重为从第二出口(出口2)退出的样本量占样本总量的比例。

在本发明实施例中，在每一次边缘节点训练过程中，终端的样本数据不再全部从本地第一出口退出，而是有选择地从终端(第一出口)或边缘节点(第二出口)退出，从第一出口退出的样本得到第一损失,没能从第一出口退出的样本的中间值和第一损失以及此时的前端模型的模型参数都将被传输到对应的边缘节点。

根据提前退出机制，一个模型有多个分支，对应的计算结果有多个出口。其关键点在于：样本在每个出口是否退出模型的判断机制；多个出口对整个模型的协同训练机制。本发明实施例可以交叉熵作为损失函数，计算在所述终端训练过程中模型的损失；如果模型的损失小于预设阈值，则确定满足提前退出条件。用l_j表示每个样本的损失，假设y_c为将样本标签y_j进行独热编码后的一个独热向量，在分类问题中，常用交叉熵作为模型的损失函数，则：

其中，

是第j个样本在第t次训练过程中的损失，C是分类是类型数量，

的计算公式如下：

其中，

是样本{x_j，y_j}在第m个出口处的输出。采用交叉熵作为判断计算结果是否可信、能否退出模型的依据，其定义如下：

当某一出口处的熵值小于设定阈值T时，认为在该出口处的计算结果足够可靠，可以提前退出网络，反之则不能，需要进入更深一层的网络进行计算。

在本发明实施例中，边缘节点将以中间值为后端模型的输入计算得到第二损失，以终端上传的前端模型的模型参数对边缘节点上的前端模型进行初始化，最后基于各出口样本退出数量权重，对第一损失和第二损失进行加权求和。进而在边缘节点对整体模型反向传播更新模型，得到的前端模型的模型参数再分发到各个终端，至此完成一次边缘训练。如此训练一定次数后，将整体模型的模型参数上传到云端以进行聚合。

步骤S14：所述云端对多个所述边缘节点传输的所述整体模型进行多次迭代聚合，得到全局统一的新的整体模型。

所述云端采用加权平均的方式对多个所述边缘节点传输的所述整体模型进行聚合，得到全局统一的所述新的整体模型，并计算第二聚合次数，所述整体模型的参数包括前端模型参数、后端模型的参数；如果所述第二聚合次数小于预设第二聚合次数，则将所述新的整体模型下发至多个所述边缘节点；如果所述第二聚合次数等于所述预设第二聚合次数，则得到最终的全局统一的所述整体模型，参见图3中的步骤④。

在本发明实施例中，将所述新的整体模型下发至多个所述边缘节点之后，所述边缘节点对从所述云端下发的所述新的整体模型进行训练，并计算所述第二训练次数；如果第二训练次数为第二预设次数的整数倍，则将训练更新的整体模型上传至所述云端以进行进一步的聚合，其中所述第二预设次数为预设的在所述边缘节点的模型训练次数。

以下对本发明实施例分布式深度神经网络的分层联邦学习方法(FLEE)进行完整说明。假设有

个边缘节点，每个边缘节点下有

个终端节点

整体模型的前半部分和后半部分分别被部署在终端和边缘节点。

在训练过程中，每个终端在边缘节点聚合之前，都会在本地进行E₁次模型更新，直到在边缘汇聚K₁次。接着，边缘节点将协同终端对整体模型进行训练，同样在每次云端聚合之前，每个边缘节点训练E₂次，最后在云端聚合了K₂次。假设终端的前端模型(模型1)的模型参数为θ，用

表示第j个边缘节点下第i个终端的前端模型的模型参数，

为其数据量，同时前端模型的损失函数为F₁，对于整模型而言，F₁也是第一出口(出口1)的损失函数，同样，F₂为第二出口(出口2)的损失函数。此外，假设边缘节点协同终端的全局的整体模型参数为γ，用γ^j表示第j个边缘节点的整体模型的模型参数，t₁表示终端的迭代次数，t₂则为边缘节点的迭代次数。

当t₁|E₁≠0时，终端的训练过程如下：

其中，η为学习率。

在终端经过E₁次本地更新后，它们将在各自的边缘节点j进行聚合：

在前端模型训练完毕后，利用训练完成后的前端模型的模型参数对边缘节点训练时对应的终端训练的前端模型进行初始化，进而各边缘节点协同终端进行训练更新整体模型，更新过程如下：

F(γ^j(t₂))＝ω₁F₁(t₂)+ω₂F₂(t₂)，

其中，ω₁为从第一出口退出的样本量占样本总量的比例，ω₂为从第二出口退出的样本量占样本总量的比例，n₁为从出口1退出的样本数量，n₂为从第二出口退出的样本数量。

每个边缘节点都完成了E₂次训练后，将在云端进行聚合：

为了验证本发明实施例的分布式深度神经网络的分层联邦学习方法的有效性，将本发明实施例的分层联邦学习方法(FLEE)与其他方法进行了性能比较。其他方法包括：终端训练(Local Training)、边缘联邦(Edge Fed)、边缘训练(Edge Training)以及云端联邦(Cloud Fed)。终端训练是指每个终端仅仅利用自身产生的数据对前半部分模型(即前端模型)进行更新。边缘联邦是指终端在进行本地训练之后，将各自训练得到的前端模型的模型参数传到边缘节点进行联邦聚合，边缘节点再将聚合后的前端模型的模型参数分发到各终端。边缘训练是指单个边缘节点利用其下所有终端的数据对整体模型(包括前端模型和后端模型)进行训练。云端联邦是基于前期预训练的模型，各个边缘节点在上一阶段的边缘节点训练之后，将整体模型的模型参数(包括前端模型和后端模型)上传至云端进行联邦聚合，此时，各个边缘节点相当于客户机，云端相当于中央服务器。

利用pytorch构建了一个包含6个终端节点、2个边缘节点和1个云端组成的“云边端”分层架构模型，即每个边缘端下属有3个终端节点。选择FashionMNIST数据集进行图像分类任务和MR影评文本数据集进行文本情感分类任务，二者的验证的整体模型都是由CNN卷积神经网络构成的模型，其中FashionMNIST有60000张训练图片和10000张图片构成，每一张图片的标签都可能T恤、牛仔裤、外套等十种服饰；MR数据集包含9600个训练语句和1066个测试语句，每一句话都有正面和负面两种可能的情感态度，即1和2两种标签。首先利用FashionMNIST中6000张图片和MR中1536个句子预训练模型，同时对各个模型出口1的阈值进行了初步探索，得出能够使得整个模型准确率较高的同时使得计算时间较少的阈值；然后基于前面得到的阈值，针对图像分类和文本分类任务，分别验证了分层联邦学习方法在终端和边缘节点数据分布为独立同分布IID(independent and identicallydistributed，iid)情形下的有效性；除了以上边缘节点和终端均为iid的情形外，还考虑了另外三种边缘节点和终端两个层级分别为非独立同分布(non-iid)的情况，并进行图像分类实验验证；最后计算了在不同数据分布情形下分层联邦学习方法计算资源的消耗，并验证了其在计算资源消耗上的显著优越性。

基于FashionMNIST数据集对应的图像分类任务的整体模型如图4所示，由3个的卷积层和两个全连接层构成，每个卷积层后面接一个的最大池化层和一个Relu激活函数，最后的全连接层输出为10维，其中在第一个卷积层后接第一个出口，该出口由一个最大池化层和两个全连接层组成，与第一个卷积层构成了前端模型(模型1)。基于MR数据集的用于文本分类任务的整体模型如图5所示，是一个CNN轻微变体结构，包含一个具有多个卷积宽度和特征图的卷积层，最大池化层以及全连接层。其中，Conv2d为卷积层，Entropy表示交叉熵，Maxpool1d、Maxpool2d表示最大池化层，Flatten为降维函数，Linear为全连接层，Sigmoid和Relu为激活函数，LogSoftmax为输出层，Embbeding为嵌入层，Dropout为舍弃层。

在训练过程中各个网络的超参数设置参见表1。

表1参数设置

五种方法在不同数据分布情况下的模型表现参见表2，其中li代表终端数据分布为iid，ln代表终端数据分布为non-iid，同理，ei代表边缘节点数据分布为iid，en为边缘节点数据分布为non-iid。

表2试验结果

在FLEE中，关键在于提前退出的标准的选择，为此，在终端节点的网络出口1处设置了一个判断机制。在该机制下，以样本交叉熵损失函数为判断依据，设置一个阈值T。当出口1处的交叉熵大于阈值T时，认为损失较大，推理结果不值得信赖，需要进一步传输到边缘节点进行计算。反之，当交叉熵小于阈值T时，样本退出网络，得到分类结果。针对不同的阈值T，模型训练后得到的测试准确率和消耗的计算资源也不尽相同。为了选取一个合适的阈值T，使得准确率尽可能高，消耗的计算资源尽可能少，对FashionMNIST数据集和MR数据集进行分别实验，得到在不同阈值T下的准确率和测试计算时间。

图6中图a和图b分别代表图像和文本分类任务在不同阈值T下的测试准确率和计算开销，计算开销应用消耗的计算时间表示。图6中横坐标代表不同的阈值T，图中的两条曲线，一条代表计算开销，另一条代表测试准确率。在图像分类任务中，从0.0001到10之间抽取了17个值进行了测试，不难发现，当阈值T为2时，模型不仅准确率高，而且计算开销明显降低，因此，选取2作为图像分类模型的提前退出阈值；同样，在图b中，当阈值大于0.7之后，模型测试准确率陡然上升，计算开销明显减少，因此0.7是文本分类模型的一个理想退出阈值。

接下来，将基于本实验得到的阈值展开进一步实验。首先从训练集中抽取一部分数据对模型进行训练，并将预训练的模型前后两部分分别部署到终端和边缘节点，再将剩下的数据分配到各个终端上，作为终端设备新产生的数据。为了使模型随实践不断演化，利用新数据进行更新，将利用这些剩下的数据对预训练的模型进行更新。由于数据产生在终端设备，故每个边缘节点对应的数据为其下所有终端数据的总和，当终端和终端、边缘节点和边缘节点之间的数据均为独立同分布时，分别利用FLEE和其他四种方法对模型进行训练，得到如图7所示的结果。其中，图a是利用FashionMNIST数据集对卷积神经网络进行训练得到的结果，其中横坐标代表迭代次数，纵坐标代表通过每种方法训练得到模型的准确率。我们从60000张训练图片抽取6000张进行预训练后，模型的准确率可以达到81％，在预训练模型的基础上，利用剩下的数据进一步训练，可以看到，在终端和边缘节点数据分布均为独立同分布(iid)的情形下，所有的框架都会使模型准确率上升，除了终端训练方法达到的准确率是86％以外，FLEE同其他方法一样，得到的模型准确率都可以达到90％左右；同样，在图b的文本分类任务当中，相较于其他方法，FLEE框架仍处于优势地位。这说明了本发明实施例提出的FLEE方法在执行在图片分类和文本分类任务上表现较好，可行性高。

本发明实施例进一步进行了数据分布不平衡情形下的准确率比较。除了预训练数据以外的训练集切分并部署成多种分布，在FashionMNIST数据集中，当数据分布情况为lnoniid-eiid时，首先将54000张图片平均随机分配给各个边缘节点，接着我把将每个边缘节点下27000张图片按照标签进行排序，此时将排序后的样本按照顺序切分为9份，每份包含3000张图片，每个终端任意从中挑选出3份，共计9000张图片，形成了边缘节点层次的iid，终端层次的non-iid；当分布为liid-enoniid时，首先将54000张图片的标签(label)从小到大进行排列，并按顺序平均分给各个边缘节点，接着边缘节点将得到的样本随机平均分给各个终端；当分布为lnoniid-enoniid时，则将排序后的样本按顺序平均分给各个终端即可。针对MR数据集，当数据分布为lnoniid-enoniid时，同样也是将排序后的样本进行平均分配，最终得到如下FLEE在不同分布下的表现。

试验结果参见图8和图9，其中，图8a表示图像分类任务中终端与终端之间非独立同分布，边缘节点与边缘节点之间独立同分布的情况，图8b表示图像分类任务中终端之间独立同分布，边缘之间非独立同分布的情况，图9表示终端之间非独立同分布，边缘节点之间非独立同分布的情况，图9a表示图像分类任务，图9b表示文本分类任务。在图像分类任务中，无论是在终端非独立同分布(non-iid)、边缘节点non-iid或者二者均non-iid的情形，相比于其他对照框架，FLEE的曲线一直高于其他方法或与Cloud Fed相近。其中，当终端和边缘节点其中一个呈现出non-iid分布，另一个为iid分布时(图8a和图8b)，FLEE训练的模型测试准确率与仅仅进行云端联邦的方法(Cloud fed)接近，二者的表现都明显优于其他三种框架。但是，当边缘节点和终端都呈现出non-iid分布时(图9a)，利用其他四种方法对模型进行训练更新，不仅不会提升模型表现，反而会使得准确率降低，只有FLEE框架能够明显地提升模型准确率，实现模型的更新。同样，在文本分类任务中，当终端和边缘节点的数据都呈现出non-iid的分布(图9b)时，如果使用Local Training、Edge Fed或者EdgeTraining的方法，由于各个终端数据分布的不平衡性，导致模型在测试数据集上的准确率与预训练模型相近甚至更差，模型更新失败，仅有Cloud Fed和FLEE两种框架能够明显提升预训练模型的准确率，充分发挥新产生数据的对模型演化的作用。

从以上实验结果图像中均可以看到，无论是在图像分类还是文本分类实验中，无论是在什么样的数据分布情形下，经过FLEE训练的模型都可以有较好的稳定的准确率，即便是在图9a中一向表现较好的Cloud Fed只能达到65％的准确率的时候，FLEE仍然能够达到80％的准确率。这是因为，FLEE框架下，模型会经过两个层级的联邦，对于边缘节点层级的联邦，每一次聚合都发生在各个终端训练模型100次之后，且每个边缘节点一共进行100次联邦聚合，能够充分平衡终端之间的数据倾斜问题；云端层级的联邦则发生在边缘节点将整个模型(模型1和模型2)训练了100次之后，同样，云端也进行了100次聚合，该过程解决了边缘节点之间的数据倾斜问题。因此，无论是终端还是边缘节点的non-iid，经过FLEE训练后的模型都有较高的准确率和较好的泛化能力。

本发明实施例还对计算资源的消耗进行比较，利用推理过程需要的时间来衡量计算资源的消耗，计算需要的时间越久，则消耗的资源越多。图10中(a)、(b)、(c)、(d)为图像分类任务在四种数据分布情形下的计算资源开销，(e)和(f)为文本分类任务的计算资源消耗，其中，箱型图上方的点为异常点。为了对比不同的框架对的资源消耗情况，利用测试数据集，对训练后的模型进行测试，得到推理需要的时间，从箱型图可以发现，无论是在图像或者文本分类任务中，FLEE推理过程消耗的时间中位数都是最小的，且上下四分位数距离最小。相比于其他框架，FLEE训练得到的模型，在应用过程中消耗的计算资源最少且变化幅度较小。这因为“终端训练”和“边缘联邦”框架仅对模型1进行训练，而不对模型2训练，然而由于模型1模型较小，计算能力有限，对于损失函数大于阈值的样本只能送到边缘节点进行计算，从而增加了计算开销；同样地，“边缘训练”和“云端联邦”框架仅对整个模型(模型1和模型2)进行联合训练，着眼于提高整个模型的准确率，而没有充分考虑模型1的准确率，训练模型1参数，从而导致一些本可以提前从出口1退出网络的样本被继续计算，进而增加了计算时间。与之不同的是，本发明实施例提出的FLEE，在先进行模型1训练的基础上，再对整个模型进行训练，充分考虑了终端和边缘节点上模型的效果，最终得到的模型参数，能够使得样本的计算开销最少。

本发明实施例的分布式深度神经网络的分层联邦学习方法能够解决计算资源受限，计算延迟的问题。针对在边缘计算中终端设备资源有限问题和任务计算时效性要求，本发明实施例将复杂任务的计算模型进行分割部署在终端和边缘节点，并在每个终端的模型都设置了一个提前退出的出口，形成一个分布式提前退出推理架构。基于该架构，提出了一个动态的模型更新框架，采用边缘节点和云端两个层次的联邦训练方法，能够在不改变模型部署的情况下，利用新产生的数据，训练新的模型，实现模型的演化。本发明实施例通过图像分类和文本分类实验，将分层联邦学习方法与仅进行本地训练或仅进行一次联邦的训练方法相比较，得出无论是在哪种数据分布下，分层联邦学习方法训练后的模型都表现较好，尤其是当终端和边缘节点的数据都呈现出非独立同分布(non-iid)时，其他几类方法几乎失效，只有本发明实施例的分层联邦学习方法能够使得模型表现优异；此外，通过对测试数据的推理时间计量发现，在同样的测试数据集和退出阈值下，分层联邦学习方法训练得到的模型推理时间更短，计算开销更少，大大降低了资源的消耗。

本发明通过通过多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点；边缘节点对分支下的多个终端传输的前端模型进行聚合，得到聚合后的新的前端模型；基于所述新的前端模型，所述边缘节点协同所述终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至云端；云端对多个边缘节点传输的整体模型进行聚合，迭代多次后得到全局统一的新的整体模型，能够显著降低任务计算的时间消耗，增强了实时性要求，能够解决不同层级的数据倾斜问题，具有广泛应用前景。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，本发明一个或多个实施例还提供了一种分布式深度神经网络的分层联邦学习装置，分层联邦学习装置应用于多层级分布式计算系统，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端。如图11所示，分层联邦学习包括：终端训练单元、边缘聚合单元、边缘训练单元以及云端聚合单元。其中，

终端训练单元，用于在多个终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的边缘节点；

边缘聚合单元，用于在所述边缘节点对分支下的多个所述终端传输的所述前端模型进行多次迭代聚合，得到聚合后的新的前端模型；

边缘训练单元，用于基于所述新的前端模型，在所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端；

云端聚合单元，用于在所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本发明一个或多个实施例还提供了一种电子设备，该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的方法。

图12示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1201、存储器1202、输入/输出接口1203、通信接口1204和总线1205。其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。

处理器1201可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案。

存储器1202可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1202可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器1202中，并由处理器1201来调用执行。

输入/输出接口1203用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1204用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1205包括一通路，在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1201、存储器1202、输入/输出接口1203、通信接口1204以及总线1205，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请中一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请中一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请中一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种分布式深度神经网络的分层联邦学习方法，其特征是，所述分层联邦学习方法应用于多层级分布式计算系统，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端；所述分层联邦学习方法包括：

多个所述终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的所述边缘节点；

所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型；

基于所述新的前端模型，所述边缘节点协同所述终端对包含后端模型在内的整体模型进行训练，并将得到的整体模型传输至所述云端；

所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型。

2.如权利要求1所述的方法，其特征是，所述多个所述终端利用本地数据分别进行模型训练，并将训练得到的前端模型传输至同一分支的所述边缘节点，包括：

多个所述终端利用本地数据分别进行模型训练，计算第一训练次数；

如果所述第一训练次数为第一预设次数的整数倍，则将训练得到的所述前端模型传输至同一分支的所述边缘节点。

3.如权利要求2所述的方法，其特征是，所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型，包括：

所述边缘节点采用加权平均的方式对分支下的多个所述终端传输的所述前端模型参数进行聚合，得到聚合后的所述新的前端模型，计算第一聚合次数；

如果所述第一聚合次数小于第一预设聚合次数，则将所述新的前端模型下发至分支下的多个所述终端。

4.如权利要求3所述的方法，其特征是，所述将所述新的前端模型下发至分支下的多个所述终端之后，包括：

所述终端应用本地数据对从所述边缘节点下发的所述新的前端模型进行模型训练，计算所述第一训练次数；

如果所述第一训练次数为所述第一预设次数的整数倍，则将当前训练更新的前端模型上传至所述边缘节点以进行进一步的聚合。

5.如权利要求1所述的方法，其特征是，所述基于所述新的前端模型，所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端之前，包括：

如果所述前端模型的第一聚合次数达到第一预设聚合次数，所述终端判断是否满足提前退出条件，其中所述提前退出条件为在所述终端训练过程中以交叉熵作为所述前端模型的损失函数，计算得到的第一损失小于预设阈值；

如果满足所述提前退出条件，则在第一出口输出计算结果，所述计算结果为所述前端模型应用的输出结果；

如果不满足所述提前退出条件，则将模型训练的中间结果和所述前端模型传输至所述边缘节点。

6.如权利要求5所述的方法，其特征是，所述基于所述新的前端模型，所述边缘节点协同所述终端对包含所述后端模型在内的整体模型进行训练，并将训练得到的整体模型传输至云端，包括：

所述边缘节点将所述中间结果作为后端模型的参数输入计算所述后端模型的第二损失；

应用所述新的前端模型对所述边缘节点上的前端模型进行初始化；

所述边缘节点基于所述新的前端模型和所述后端模型对所述整体模型进行训练，将所述整体模型的第三损失确定为所述第一损失和所述第二损失的加权求和，计算第二训练次数；

如果所述第二训练次数为第二预设次数的整数倍，则将训练得到的所述整体模型传输至云端。

7.如权利要求6所述的方法，其特征是，所述云端对多个所述边缘节点传输的所述整体模型进行聚合，迭代多次后得到全局统一的新的整体模型，包括：

所述云端采用加权平均的方式对多个所述边缘节点传输的所述整体模型进行聚合，得到全局统一的所述新的整体模型，并计算第二聚合次数，所述整体模型的参数包括前端模型参数、后端模型的参数；

如果所述第二聚合次数小于预设第二聚合次数，则将所述新的整体模型下发至多个所述边缘节点；

如果所述第二聚合次数等于所述预设第二聚合次数，则得到最终的全局统一的所述整体模型。

8.如权利要求7所述的方法，其特征是，所述将所述新的整体模型下发至多个所述边缘节点之后，包括：

所述边缘节点对从所述云端下发的所述新的整体模型进行训练，并计算所述第二训练次数；

如果所述第二训练次数为所述第二预设次数的整数倍，则将训练更新的整体模型上传至所述云端以进行进一步的聚合。

9.一种分布式深度神经网络的分层联邦学习装置，其特征是，所述分层联邦学习装置应用于多层级分布式计算系统，所述多层级分布式计算系统包括云端、多个边缘节点以及每个所述边缘节点分支下的多个终端；所述装置包括：

边缘聚合单元，用于在所述边缘节点对分支下的多个所述终端传输的所述前端模型进行聚合，得到聚合后的新的前端模型；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的分布式深度神经网络的分层联邦学习方法。