CN116187429A

CN116187429A - 一种基于切分学习的端边云协同同步联邦学习训练算法

Info

Publication number: CN116187429A
Application number: CN202211606093.3A
Authority: CN
Inventors: 刘燕; 刘童杰; 蔡君
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-30

Abstract

本发明涉及训练算法技术领域，且公开了一种基于切分学习的端边云协同同步联邦学习训练算法，包括以下步骤：S1、定义六元组描述神经网络子模型，对基于切分学习的端边云协同同步联邦学习问题进行建模；S2、将模型分割和卸载问题建模为马尔科夫决策过程，并利用多智能体强化学习进行求解；S3、定义多智能体强化学习模型中的状态、动作和奖励函数，利用切分学习和端边云架构，对神经网络模型进行分割，解决了各个设备发送的模型参数无法同时到达服务器从而影响模型训练速度的问题。将神经网络模型分割为多个子模型，并卸载到合适的计算节点训练，可以解决用户设备计算资源不足的问题，降低训练时延。

Description

一种基于切分学习的端边云协同同步联邦学习训练算法

技术领域

本发明涉及训练算法技术领域，具体为一种基于切分学习的端边云协同同步联邦学习训练算法。

背景技术

联邦学习作为一种新兴的分布式学习范式，旨在提高模型性能，保护用户隐私。多个终端设备利用本地数据进行本地模型的训练，训练完成后将模型参数发送到服务器，服务器根据多个终端设备发送来的模型更新全局模型，并将更新后的模型分发给终端设备。在同步聚合中，服务器需要在接收到所有设备上传的模型参数后才能进行模型更新。然而在异构的网络中，设备间计算能力不同，网络通信状态不同，导致各个设备发送的模型参数无法同时到达服务器，影响模型训练速度。现有研究大多从异步聚合角度优化联邦学习算法。在异步分布式学习中，服务器在收集到少量本地模型后立即进行全局聚合，避免受到速度较慢设备的影响，然而异步聚合存在非独立同分布数据收敛、参数难调等问题。此外现有的联邦学习算法大多没有充分利用边缘计算服务器和云服务器的计算资源。

由于本地终端设备资源有限，将部分模型训练任务卸载到算力充足的计算节点可以降低计算完成时延，提升模型训练效率。云服务器具有充沛的计算资源，但向云服务器传输海量数据会消耗大量网络带宽，带来额外的时延。此外，物联网数据通常包含私人信息，将数据上传到云服务器会带来隐私泄露等安全性问题。因此，数据应该保存在本地设备上以保护用户隐私。通过在边缘节点部署计算资源，可以降低计算完成时延，缓解云服务器压力。切分学习可以将神经网络模型分割为多个子模型，这些子模型可以在不同计算节点训练，包括用户设备、边缘计算服务器和云服务器。每个节点仅训练部分模型，然后将子模型的输出传输给下一个节点，进行后续子模型的训练。

为此，本发明提出一种基于切分学习的端边云协同同步联邦学习训练算法。利用切分学习将模型分割为多个子模型，根据网络的计算和通信资源将不同子模型的训练任务卸载到合适的节点，使得分布式训练的多个模型参数可以同时到达聚合服务器，提高模型收敛速度。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于切分学习的端边云协同同步联邦学习训练算法，解决了上述背景技术中的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于切分学习的端边云协同同步联邦学习训练算法，包括以下步骤：

S1、定义六元组描述神经网络子模型，对基于切分学习的端边云协同同步联邦学习问题进行建模；

S2、将模型分割和卸载问题建模为马尔科夫决策过程，并利用多智能体强化学习进行求解；

S3、定义多智能体强化学习模型中的状态、动作和奖励函数；

S4、问题建模；

S5、基于多智能体深度强化学习的模型分割及卸载算法。

优选的，S4中令U＝{1,2,…,N}表示参与联邦学习模型训练的终端设备，L＝{l₁,l₂,…,l_M}表示神经网络模型最小粒度子层，其中l₁和l_M分别表示模型的输入层和输出层，为保证用户数据隐私，模型的输入层必须部署在终端节点，对于任意子层l_i∈L的信息用六元组表示ξ_i＝{I_i,ω_i,P_i,O_i,δ_i,φ_i}，其中I_i表示第i层的输入数据量，ω_i表示第i层的计算密度，P_i表示第i层的参数量，O_i表示第i层的输出结果，δ_i表示第i层反向传播的计算密度，φ_i表示第i层反向传播的梯度数据量。

优选的，在联邦学习训练过程中，当终端设备计算资源不足时，可将除输入层外其他子层卸载到边缘服务器和云服务器训练，云服务器负责模型参数的聚合及更新，模型训练分为前向传播和反向传播两个阶段，模型训练时延包含计算时延和传输时延两部分，其中计算时延

主要由本地计算时延、边缘计算时延和云计算时延三部分组成，定义为：

其中，f_D、f_E和f_C分别表示终端、边缘服务器和云服务器分配给模型训练任务的计算资源，a₁、a₂分别表示模型在端-边和边-云的切分点，即，第1层到第a₁层在终端训练，第a₁+1层到第a₂层在边缘服务器训练，第a₂+1层到第M层在云服务器训练。

优选的，模型训练过程中的传输时延

由端-边时延和边-云时延两部分组成，定义为：

其中，

和/>

分别为第a₁和a₂层的输出数据量，r_DE和r_EC分别为端-边和边-云链路的传输速率；

在神经网络模型前向传播后，模型训练需要进行反向传播，求出一个梯度值，从而用梯度下降去更新模型参数，模型反向传播训练时延包含计算时延和传输时延两部分，其中计算时延

由本地计算时延、边缘计算时延和云计算时延三部分组成，定义为：

其中，f_D、f_E和f_C分别表示终端、边缘服务器和云服务器分配给模型训练任务的计算资源，δ_i表示第i层反向传播的计算密度，P_i表示第i层的参数量；

模型反向传播训练过程中的传输时延

由边-端时延和云-边时延两部分组成：/>

其中，

和/>

分别为第a₁+1和第a₂+1层的梯度数据量，r_ED和r_CE分别为边-端和云-边链路的传输速率；

当一轮训练完成后，各个终端设备需要将本地模型上传到云服务器，由云服务器进行聚合，聚合更新后，云服务器将新的模型下发给各个终端，开始新一轮的训练。

优选的，由于利用切分学习将模型分割为多个子层，并将部分子层卸载到边缘服务器和云服务器训练，因此，卸载到其他节点的子层参数由处理节点负责上传，终端只上传本地训练的部分模型，上传模型时延T_up由终端上传时延

和边缘服务器/>

上传时延组成：

其中，P_i为第i层的参数量大小；

因此，终端j完成一轮训练及聚合的总时延为T_j为：

为保证同步聚合的同时性，减少云服务器收到来自各个终端发送的模型的时间差，本发明的优化目标为最小化各终端聚合时延的方差，表示模型训练的同步程度，数值越小，同步性越高，即：

C2:a₁≥1,M≥a₂≥a₁,#(8)

其中约束条件C1表示分配给计算任务的计算资源不得超过处理节点的可用计算资源，约束条件C2表示输入层必须在终端处理，且子层卸载需满足模型层次顺序关系。

优选的，S5中将基于切分学习的模型分割及卸载问题建模为马尔科夫决策过程，并利用多智能体深度强化学习进行求解，为每条设备所在链路部署一个智能体，智能体根据网络资源和任务信息进行模型分割及卸载决策，以保证联邦学习同步聚合的同步性，多智能体深度强化学习模型中状态、动作和奖励定义如下：

定义一：将智能体状态S(t)定义为网络资源与任务状态信息：

S(t)＝{F,R,ξ₁,ξ₂,…,ξ_M}#(9)

其中，

·F为N×3矩阵，表示网络的计算资源，其中第j行表示链路j上端、边和云的可用计算资源；

·R为N×4矩阵，表示网络的通信资源，其中第j行表示链路j上端-边、边-端、边-云和云-边的可用通信资源；

·ξ₁,ξ₂,…,ξ_M表示模型各个子层的任务信息。

优选的，定义二：智能体根据网络资源和任务信息进行模型分割和卸载决策，将模型子层卸载到端、边或云处理，采用1×2二进制向量表示卸载决策，每个智能体的动作a(t)定义为：

a(t)＝{a₁,a₂},a_i∈{1,…,L}#(10)

其中，a₁表示第一个分割节点，即第1,2,…,a₁层在终端训练；a₂表示第二个分割节点，即第a₁+1,a₁+2…,a₂层在边缘服务器训练，第a₂+1,a₂+2…,a₃层在云服务器训练，若a₁＝0表示没有子层卸载到边缘服务器训练，同理，若a₂＝0则表示没有子层卸载到云服务器训练。

优选的，当智能体执行动作a(t)后，接收到即时奖励，为了实现联邦学习同步聚合的实时性，将智能体的全局奖励r(t)定义为多个终端聚合时延的方差的负值，即：

其中，N表示参与模型训练的终端数量，T_j表示终端j训练及上传模型的总时延。

与现有技术相比，本发明提供了一种基于切分学习的端边云协同同步联邦学习训练算法，具备以下有益效果：

1、本发明中：该基于切分学习的端边云协同同步联邦学习训练算法，首先，对子模型训练任务进行建模，利用六元组描述神经网络子模型特征，定义各终端模型训练及聚合总时延；然后，以最小化各终端聚合时延方差为优化目标，将模型分割和卸载问题建模为马尔科夫决策过程，并利用多智能体强化学习进行求解；最后定义多智能体深度强化学习模型中的状态、动作和奖励函数，与现有技术相比，本发明提出一种端边云协同的同步式联邦学习训练算法，利用切分学习和端边云架构，对神经网络模型进行分割，解决了各个设备发送的模型参数无法同时到达服务器从而影响模型训练速度的问题。将神经网络模型分割为多个子模型，并卸载到合适的计算节点训练，可以解决用户设备计算资源不足的问题，降低训练时延；将奖励函数定义为多个本地模型的聚合时延方差，可以保证联邦学习同步聚合的同步性，提高训练性能和模型收敛速度。

具体实施方式

一种基于切分学习的端边云协同同步联邦学习训练算法，包括以下步骤：

S4、问题建模；

S5、基于多智能体深度强化学习的模型分割及卸载算法；

S4中令U＝{1,2,…,N}表示参与联邦学习模型训练的终端设备，L＝{l₁,l₂,…,l_M}表示神经网络模型最小粒度子层，其中l₁和l_M分别表示模型的输入层和输出层，为保证用户数据隐私，模型的输入层必须部署在终端节点，对于任意子层l_i∈L的信息用六元组表示ξ_i＝{I_i,ω_i,P_i,O_i,δ_i,φ_i}，其中I_i表示第i层的输入数据量，ω_i表示第i层的计算密度，P_i表示第i层的参数量，O_i表示第i层的输出结果，δ_i表示第i层反向传播的计算密度，φ_i表示第i层反向传播的梯度数据量；

在联邦学习训练过程中，当终端设备计算资源不足时，可将除输入层外其他子层卸载到边缘服务器和云服务器训练，云服务器负责模型参数的聚合及更新，模型训练分为前向传播和反向传播两个阶段，模型训练时延包含计算时延和传输时延两部分，其中计算时延

其中，f_D、f_E和f_C分别表示终端、边缘服务器和云服务器分配给模型训练任务的计算资源，a₁、a₂分别表示模型在端-边和边-云的切分点，即，第1层到第a₁层在终端训练，第a₁+1层到第a₂层在边缘服务器训练，第a₂+1层到第M层在云服务器训练；

模型训练过程中的传输时延

由端-边时延和边-云时延两部分组成，定义为：

其中，

和/>

模型反向传播训练过程中的传输时延

由边-端时延和云-边时延两部分组成：

其中，

和/>

当一轮训练完成后，各个终端设备需要将本地模型上传到云服务器，由云服务器进行聚合，聚合更新后，云服务器将新的模型下发给各个终端，开始新一轮的训练；

由于利用切分学习将模型分割为多个子层，并将部分子层卸载到边缘服务器和云服务器训练，因此，卸载到其他节点的子层参数由处理节点负责上传，终端只上传本地训练的部分模型，上传模型时延T_up由终端上传时延

和边缘服务器/>

上传时延组成：

其中，P_i为第i层的参数量大小；

因此，终端j完成一轮训练及聚合的总时延为T_j为：

C2:a₁≥1,M≥a₂≥a₁,#(8)

其中约束条件C1表示分配给计算任务的计算资源不得超过处理节点的可用计算资源，约束条件C2表示输入层必须在终端处理，且子层卸载需满足模型层次顺序关系；

S5中将基于切分学习的模型分割及卸载问题建模为马尔科夫决策过程，并利用多智能体深度强化学习进行求解，为每条设备所在链路部署一个智能体，智能体根据网络资源和任务信息进行模型分割及卸载决策，以保证联邦学习同步聚合的同步性，多智能体深度强化学习模型中状态、动作和奖励定义如下：

定义一：将智能体状态S(t)定义为网络资源与任务状态信息：

S(t)＝{F,R,ξ₁,ξ₂,…,ξ_M}#(9)

其中，

·ξ₁,ξ₂,…,ξ_M表示模型各个子层的任务信息；

定义二：智能体根据网络资源和任务信息进行模型分割和卸载决策，将模型子层卸载到端、边或云处理，采用1×2二进制向量表示卸载决策，每个智能体的动作a(t)定义为：

a(t)＝{a₁,a₂},a_i∈{1,…,L}#(10)

其中，a₁表示第一个分割节点，即第1,2,…,a₁层在终端训练；a₂表示第二个分割节点，即第a₁+1,a₁+2…,a₂层在边缘服务器训练,第a₂+1,a₂+2…,a₃层在云服务器训练，若a₁＝0表示没有子层卸载到边缘服务器训练，同理，若a₂＝0则表示没有子层卸载到云服务器训练；

当智能体执行动作a(t)后，接收到即时奖励，为了实现联邦学习同步聚合的实时性，将智能体的全局奖励r(t)定义为多个终端聚合时延的方差的负值，即：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于切分学习的端边云协同同步联邦学习训练算法，包括以下步骤：

S4、问题建模；

S5、基于多智能体深度强化学习的模型分割及卸载算法。

2.根据权利要求1所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：S4中令U＝{1,2,…,N}表示参与联邦学习模型训练的终端设备，L＝{l₁,l₂,…,l_M}表示神经网络模型最小粒度子层，其中l₁和l_M分别表示模型的输入层和输出层，为保证用户数据隐私，模型的输入层必须部署在终端节点，对于任意子层l_i∈L的信息用六元组表示ξ_i＝{I_i,ω_i,P_i,O_i,δ_i,φ_i}，其中I_i表示第i层的输入数据量，ω_i表示第i层的计算密度，P_i表示第i层的参数量，O_i表示第i层的输出结果，δ_i表示第i层反向传播的计算密度，φ_i表示第i层反向传播的梯度数据量。

3.根据权利要求2所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：在联邦学习训练过程中，当终端设备计算资源不足时，可将除输入层外其他子层卸载到边缘服务器和云服务器训练，云服务器负责模型参数的聚合及更新，模型训练分为前向传播和反向传播两个阶段，模型训练时延包含计算时延和传输时延两部分，其中计算时延

4.根据权利要求3所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：模型训练过程中的传输时延

由端-边时延和边-云时延两部分组成，定义为：

其中，

和/>

由本地计算时延、边缘计算时延和云计算时延三部分组成，定义为：/>

模型反向传播训练过程中的传输时延

由边-端时延和云-边时延两部分组成：

其中，

和/>

5.根据权利要求4所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：由于利用切分学习将模型分割为多个子层，并将部分子层卸载到边缘服务器和云服务器训练，因此，卸载到其他节点的子层参数由处理节点负责上传，终端只上传本地训练的部分模型，上传模型时延T_up由终端上传时延

和边缘服务器/>

上传时延组成：

其中，P_i为第i层的参数量大小；

因此，终端j完成一轮训练及聚合的总时延为T_j为：

C2:a₁≥1,M≥a₂≥a₁,#(8)

6.根据权利要求1所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：S5中将基于切分学习的模型分割及卸载问题建模为马尔科夫决策过程，并利用多智能体深度强化学习进行求解，为每条设备所在链路部署一个智能体，智能体根据网络资源和任务信息进行模型分割及卸载决策，以保证联邦学习同步聚合的同步性，多智能体深度强化学习模型中状态、动作和奖励定义如下：

定义一：将智能体状态S(t)定义为网络资源与任务状态信息：

S(t)＝{F,R,ξ₁,ξ₂,…,ξ_M}#(9)

其中，

·ξ₁,ξ₂,…,ξ_M表示模型各个子层的任务信息。

7.根据权利要求6所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：定义二：智能体根据网络资源和任务信息进行模型分割和卸载决策，将模型子层卸载到端、边或云处理，采用1×2二进制向量表示卸载决策，每个智能体的动作a(t)定义为：

a(t)＝{a₁,a₂},a_i∈{1,…,L}#(10)

其中，a₁表示第一个分割节点，即第1,2,…,a₁层在终端训练；a₂表示第二个分割节点，即第a₁+1,a₁+2…,a₂层在边缘服务器训练；第a₂+1,a₂+2…,M层在云服务器训练，若a₁＝0表示没有子层卸载到边缘服务器训练，同理，若a₂＝0则表示没有子层卸载到云服务器训练。

8.根据权利要求6所述的一种基于切分学习的端边云协同同步联邦学习训练算法，其特征在于：当智能体执行动作a(t)后，接收到即时奖励，为了实现联邦学习同步聚合的实时性，将智能体的全局奖励r(t)定义为多个终端聚合时延的方差的负值，即：