CN113238867B

CN113238867B - 一种基于网络卸载的联邦学习方法

Info

Publication number: CN113238867B
Application number: CN202110548178.XA
Authority: CN
Inventors: 吴哲奕; 张春林; 许重九; 邢焕; 赵琛迪
Original assignee: Zhejiang Fanshuang Technology Co ltd
Current assignee: Zhejiang Fanshuang Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-01-19
Anticipated expiration: 2041-05-19
Also published as: CN113238867A

Abstract

本发明公开了一种基于网络卸载的联邦学习方法，用于在保证(提升)终端数据隐私性的同时，提升该联邦学习方法的性能。包括：在具有多个终端和一个边缘服务器的无线通信系统，利用终端和边缘服务器共同训练一个人工智能网络；与传统联邦学习工作模式相比，部分网络的训练由终端卸载到边缘服务器进行；训练过程中选择无线通信网络环境较好、计算和传输负荷较小的终端参与网络模型的训练。本发明有效减轻了通信终端的计算负荷，减少了联邦学习方法带来的通信负载。

Description

一种基于网络卸载的联邦学习方法

技术领域

本发明涉及人工智能与通信领域，具体涉及一种基于网络卸载的联邦学习方法。

背景技术

近年来，人工智能(AI)技术快速发展并被广泛应用，并开始期待更复杂、更尖端的人工智能技术应用在许多领域，包括无人驾驶汽车、医疗、金融等。数据是人工智能技术的基础，然而在大多数行业中，由于行业竞争、隐私安全、行政手续复杂等问题，数据常常是以孤岛的形式存在的。在现实中想要将分散在各地、各个机构的数据进行整合是十分困难的。而联邦学习技术，能够有效应对上述困难，利用孤岛形式的数据进行学习。

联邦学习(Federated Learning，FL)框架在2016年首次由谷歌提出，其主要思想是基于分布在多个设备上的数据集的机器学习模型，同时防止数据泄露。具体来说，联邦学习与传统的机器学习技术将所有的数据放在一起进行训练不同，在一个联邦学习系统中，所有的数据所有者使用相同的网络结构共同训练一个模型，不需要将原始数据发送至服务器，取而代之的是模型的参数或者梯度信息，服务器对这些梯度进行聚合并返回给每一个数据所有者。

随着工业领域万物互联时代的来临，基于5G通信的物联网、车联网、智慧医疗等场景被全面部署，针对这类具有分布式结构的网络，使用联邦学习技术代替传统的机器学习的工作模式能有效地应对孤岛式数据带来的困难并保障其中各类终端数据的隐私性。在5G通信系统中应用联邦学习技术将成为5G未来的发展方向之一。

然而，在无线通信场景中使用联邦学习仍然面临着很多挑战。首先，在传统联邦学习应用场景中，服务器和终端之间的数据通常采用有限连接，因此其通信开销可忽略不计，然而在5G无线通信场景中，原本存在大量通信需求，并对传输速率有较高要求，联邦学习引入的通信开销将会对网络性能产生影响，影响原有传输的速率、时延、可靠性等性能。其次，联邦学习将在通信终端产生大量的计算开销，尤其是在万物互联场景下，各类通信终端的计算能力参差不齐，本地计算会为终端带来较大的计算负荷。

发明内容

本发明旨在提供一种基于网络卸载的联邦学习方法并应用于无线通信网络，该方法将部分机器学习网络模型由终端卸载到边缘服务器，有效减轻了通信终端的计算负荷，减少了联邦学习方法带来的通信负载。

本发明的目的是通过以下技术方案实现的：一种基于网络卸载的联邦学习方法，实现所述联邦学习方法的系统包括边缘服务器、与所述边缘服务器无线连接的多个终端，所述终端和所述边缘服务器分别进行部分网络模型的训练，该方法具体包括以下步骤：

S1：初始化，确定需要训练的人工智能网络模型，假设该网络包括输入层、隐藏层和输出层，共N层网络；确定分别在终端和边缘服务器进行训练的网络层数，假设该网络模型的前n层在终端进行训练，其余N-n层由终端卸载到边缘服务器处进行训练；在边缘服务器为该网络产生随机的初始参数值；边缘服务器将初始化信息和需要在终端进行训练的前n层网络模型下发给每个终端；

S2：参与训练的终端进行前n层网络的前馈计算，并得到第n层网络激活函数的输出值；终端将激活函数输出值上传给边缘服务器；

S3：边缘服务器接收到终端上传的激活函数输出值，利用该值继续剩余N-n层网络的前馈计算，得到最终输出层结果，计算Loss函数值；

S4：边缘服务器开始网络的后向传播，得到在边缘服务器处进行训练的后N-n层网络参数的更新梯度值，并更新后N-n层网络参数；计算Loss函数关于第n层激活函数输出值的梯度值，并将其下发给参与训练的终端；

S5：参与训练的终端接收到边缘服务器传输的Loss函数关于第n层激活函数输出值的梯度值，利用该梯度值继续进行网络的后向传播，得到前n层网络参数的本地更新梯度值；并将前n层网络参数的更新梯度值上传给边缘服务器；

S6：边缘服务器接收到各终端的前n层网络参数的更新梯度值，对接收到的梯度值进行平均；将平均后的前n层网络参数梯度值下发给所有终端；

S7：所有终端接收到平均后的前n层络参数梯度值，更新前n层网络参数；

S8：重复步骤S2-S7，直到Loss函数值收敛到设定阈值。

进一步地，所述步骤S1中，所述边缘服务器根据所述终端的计算能力选择卸载到边缘服务器处进行训练的网络层数。

进一步地，所述步骤S2至步骤S7的一轮训练中，选择通信系统中部分或全部终端进行本地训练；根据所述终端当前所处网络环境及本地计算负荷、传输压力等信息，选择部分终端进行训练；对当前所处网络环境过差或具有较大的其他计算负荷或传输压力的终端，可以选择暂停其本地训练，等待终端状况改善后再开启该终端的训练。

进一步地，所述步骤S4中，在边缘服务器处采用以下公式更新模型：

其中，t表示当前迭代轮数，和/>分别表示第t轮和第t+1轮迭代时边缘服务器处n+1～N层的网络参数，/>表示第t轮时n+1～N层的网络参数梯度值，η表示学习率。

进一步地，所述步骤S5中，在终端k采用以下公式获得其本地更新梯度值：

其中，表示终端k的前1～n层的模型参数，/>表示终端k处网络第1～n层的模型参数的梯度值，/>表示终端k的第n层网络激活函数的输出；/>表示终端k的第n层网络激活函数的输出关于前1～n层的模型参数的梯度值，在终端k本地计算得到；Lⁿ表示Loss函数关于第n层网络激活函数的输出的梯度值，由终端k从边缘服务器处接收得到。

进一步地，所述步骤S6中，在所述边缘服务器处采用以下公式获得梯度平均值：

其中，G^1～n表示边缘服务器处得到的第1～n层网络参数的梯度平均值，K表示参与训练的终端数。

进一步地，所述步骤S7中，在终端k采用以下公式更新模型：

其中，和/>分别表示第t轮和第t+1轮迭代时终端k处的1～n层的网络参数，表示第t轮时终端k处1～n层的网络参数的本地更新梯度值，η表示学习率。

进一步地，所述步骤S2至步骤S7的一轮训练中，带来的传输负载包括：

终端向边缘服务器，本地前馈计算得到的第n层网络激活函数输出值；

边缘服务器向终端，完成整个网络前馈计算后，计算得到的Loss函数关于第n层网络激活函数输出值的梯度值；

终端向边缘服务器，终端得到的前n层网络参数的本地更新梯度值；

边缘服务器向所有终端，前n层网络参数的梯度平均值。

进一步地，当系统内存在一个云服务器、若干边缘服务器和大量终端时，终端和边缘服务器共同训练一个人工智能网络，每个边缘服务器完成其下终端的梯度平均，并将梯度传输给云服务器，云服务器完成整个网络的梯度平均。

本发明提供一种基于网络卸载的联邦学习方法并应用于无线通信网络，具有以下优点：联邦学习避免了数据的直接传输，以传输梯度和部分激活函数值代替，有效保障了数据的隐私性和安全性；与传统联邦学习方式相比，本发明将部分网络模型的训练由终端卸载到边缘服务器，有效减轻了对终端带来的计算负荷；与传统的联邦学习模式需要传输网络模型中所有的梯度值相比，终端仅需要向边缘服务器传输前1～n网络的梯度值和第n层网络激活函数的输出值，减少了由训练带来的通信开销，减轻对无线通信系统造成的通信压力；迭代过程中有选择地在部分终端进行训练，避免在附近信道状况差、传输压力大或计算负荷大的终端进行训练，缓解这些终端的传输和计算压力，减小了传输带来的时延，提升可靠性。

附图说明

图1为本申请实施例中一种基于网络卸载的联邦学习方法应用于无线通信系统的示意图；

图2为本申请实施例中提供的整体训练交互示意图；

图3为本申请实施例中提供的选择卸载网络层数的流程图；

图4为本申请实施例中提供的基于一个云服务器下多个边缘服务器共同训练的系统示意图；

图5为本申请实施例中提供的基于一个云服务器下多个边缘服务器共同训练的交互示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本实施例提出的一种基于网络卸载的联邦学习方法应用于无线通信系统的示意图。如图1所示，在该无线通信系统中包含大量通信终端和一个边缘服务器，在终端和边缘服务器的协作下完成人工智能网络模型的训练。人工智能网络被分为两部分，多个终端利用本地数据在终端处进行前n层人工智能网络的训练，其余网络在边缘服务器训练，并由边缘服务器对前n层网络的梯度值进行平均，平均后的梯度用于终端网络模型的更新。具体的，终端完成前n层网络前馈计算后得到的第n层网络激活函数值、边缘服务器后向传播得到的Loss函数关于第n层网络激活函数输出的梯度值、终端后向传播得到的前n层网络参数更新梯度、边缘服务器进行梯度平均后的平均梯度值，将在该无线通信系统的终端与边缘服务器之间进行传输。其中，终端可以是网络中的手机、电脑及其他拥有一定计算能力的智能终端，边缘服务器具有较强数据处理能力，可以是通信网络中的基站(BS)、微基站(MBS)或其他特定设备。整个无线通信系统基于传统的无线通信系统，如4G LTE网络、5G NR网络和WiFi网络等。

实施例一

本实施例提供一种基于网络卸载的联邦学习方法，应用于存在多个智能终端和一个边缘服务器的无线通信网络，终端和边缘服务器共同训练一个人工智能网络模型。

本实施例中，该人工智能网络模型被分割为两部分，分别在移动终端侧和边缘服务器侧进行训练。每单轮训练选择部分移动终端进行。特别的，根据移动终端所处网络环境、传输负荷和计算负荷选择状态良好的移动终端。

本实施例中，为了选择当前状态良好的移动终端进行训练，在每轮训练后，将重新选择新的状态良好的移动终端。具体的，选择状态良好的终端进行的基于网络卸载的联邦学习方法流程如图2所示，包括以下部分：

201、初始化，边缘服务器确定网络模型、卸载网络层数(假设网络共N层，其中前n层在终端处进行训练，其余N-n层在边缘服务器处进行训练)以及相关基本参数，边缘服务器为人工智能网络产生随机的初始参数值，并将上述参数和在终端进行训练的部分网络模型下发给所有终端；

202、每个终端根据所处信道状况以及本地设备的计算负荷和传输负荷判断终端状态，若终端计算和传输负荷良好则确定终端状态为“激活”，参与本轮训练(假设当前迭代轮数为t)；

203、处于“激活”状态的终端对本地数据进行初始化，进行前n层网络的前馈运算；在终端k得到本轮第n层网络激活函数输出值并上传给边缘服务器；

204、边缘服务器接收到终端发来的激活函数输出值，并继续进行后N-n层网络的前馈计算；得到本轮的Loss函数值；

205、边缘服务器进行后N-n层网络的后向传播，得到本轮后N-n层参数的更新梯度值并更新后N-n层网络参数；计算得到本轮Loss函数关于第n层网络激活函数输出的梯度值/>将该值发送给处于“激活”状态的终端；

206、处于“激活”状态的终端接收到第n层网络激活函数输出的梯度值，利用该梯度值进行前n层网络的后向传播；在终端k得到本轮前n层网络参数的本地更新梯度值将该本地更新梯度值上传给边缘服务器；

207、边缘服务接收到来自终端的前n层网络参数的本地更新梯度值，进行梯度平均，得到本轮前n层网络的平均梯度值将平均梯度值发送给所有终端；

208、所有终端根据接收到的前n层网络参数的平均梯度值，更新网络参数；

209、重复步骤202到208，直到Loss函数值收敛到设定阈值。

使用该方法，各终端和边缘服务器共同训练人工智能网络，保证了终端数据的隐私性，避免了所处无线信道状态或传输负荷和计算负荷较大的终端进行训练，提升数据可靠性，减小传输和计算带来的时延。

实施例二

本实施例提供一种基于网络卸载的联邦学习方法，应用于存在多个移动终端和一个边缘服务器的无线通信网络，移动终端和边缘服务器共同训练一个人工智能网络模型。

本实施例中，该人工智能网络模型被分割为两部分，分别在移动终端侧和边缘服务器侧进行训练。特别的，边缘服务器根据网络中参与训练的移动终端的计算能力，选择由终端卸载到边缘服务器进行训练的网络层数。

具体的，一种基于网络卸载的联邦学习方法，选择由终端卸载到边缘服务器进行训练的网络层数，过程如图3所示，具体包括：

301、边缘服务器明确需要进行训练的人工智能的网络模型，并向各终端发送获取其本地计算能力的请求；

302、各终端接收到来自边缘服务器的请求，向边缘服务器发送本地计算能力信息；

303、边缘服务器接收到各终端的计算能力信息，统计所有需要参与训练的终端的计算能力；

304、边缘服务器根据对各终端计算能力的统计结果，在允许的卸载网络层数范围内，确定由终端卸载到边缘服务器进行训练的网络层数；

305、边缘服务器确定的卸载层数结果下发给各终端，并将需要在终端进行训练的部分的网络结构下发给各终端。

上述选择由终端卸载到边缘服务器进行训练的网络层过程，在图2的初始化阶段完成，后续该基于网络卸载的联邦学习方法按图2所示步骤进行。

使用该方法，根据终端实际计算能力，选择实际由终端卸载到边缘服务器进行训练的网络层数，以提升系统训练性能，避免该联邦学习方法为终端带来较大的计算负荷。基于确定的卸载网络层数在终端和边缘服务器共同训练一个人工智能网络。

实施例三

本实施例提供一种基于网络卸载的联邦学习方法，应用于存在多个边缘服务器的无线通信系统，利用所有边缘服务器下终端内的数据共同训练一个人工智能网络。如图4所示，系统内存在一个云服务器、若干边缘服务器和大量终端，终端和边缘服务器共同训练一个人工智能网络，并在云服务器完成梯度平均。

本实施例中，人工智能网络模型被分割为两部分，分别在终端侧和边缘服务器侧进行训练。每个边缘服务器完成其下终端的梯度平均，并将梯度传输给云服务器，云服务器完成整个网络的梯度平均。

具体的，一种基于网络卸载的联邦学习方法应用于存在云服务器的边缘服务器大规模通信网络，其过程如图5所示，具体包括：

501、初始化，云服务器统一网络模型及网络基本参数、各边缘服务器确定卸载网络层数(假设网络共N层，其中前n层在终端处进行训练，其余N-n层在边缘服务器处进行训练)；云服务器为人工智能网络产生随机的初始参数值，并将上述参数和网络模型下发给所有边缘服务器；边缘服务器将接收到的参数和在终端进行训练的部分网络模型下发给所有终端；

502、参与训练的终端对本地数据进行初始化，进行前n层网络的前馈运算。终端k得到本轮(假设当前迭代轮数为t)第n层网络激活函数输出值并上传给对应的边缘服务器；

503、每个边缘服务器接收到终端发来的第n层网络激活函数输出值，从而进行后N-n层网络的前馈计算，并得到本轮Loss函数值；

504、每个边缘服务器进行后N-n层网络的后向传播；边缘服务器j得到本轮后N-n层网络参数的更新梯度值计算得到本轮Loss函数关于第n层网络激活函数输出的梯度值/>并将该值下发给其下的终端；

505、参与训练的终端接收到第n层网络激活函数输出的梯度值，利用该梯度值进行前n层网络的后向传播。终端k得到本轮前n层网络参数的本地更新梯度值并将该本地更新梯度值上传给对应边缘服务器；

506、每个边缘服务器接收到来自终端的前n层网络参数的本地更新梯度值，进行梯度平均；边缘服务器j得到本轮其下终端的平均梯度值并将前n层网络的平均梯度值、后N-n层的梯度值/>和其下参与训练的终端数K_j，发送给云服务器；

507、云服务器根据来自各边缘服务器的前n层平均梯度值、终端数和后N-n层梯度值，进行梯度值的加权平均，得到本轮的总平均梯度值，采用以下公式进行加权平均：

前1～n层的总平均梯度值，

后n+1～N层的总平均梯度值，

完成加权平均后，将本轮的总平均梯度值下发给各边缘服务器；

508、每个边缘服务器接收所有网络参数的总平均梯度值，更新后N-n层网络，并将前n层网络参数的总平均梯度值下发给其下所有终端；

509、所有终端根据接收到的前n层网络参数的总平均梯度值，更新本地网络参数；

510、重复步骤502至509，直到Loss函数值收敛到设定阈值。

使用该方法，在存在一个云服务器、若干边缘服务器和大量终端的无线通信网络中，利用一个云服务下各终端的数据，在终端、边缘服务器和云服务器共同训练一个人工智能网络，实现多个边缘服务器间的联合训练。边缘服务器首先对终端上传的本地更新梯度值进行平均，从而仅需传输平均后的梯度值给云服务器，减少了边缘服务器和云服务器之间的传输开销。

实施例四

本实施例提供一种基于网络卸载的联邦学习方法，应用于基于5G NR网络的物联网系统，利用物联网内终端设备采集的数据进行网络模型训练，进一步利用该网络实现物联网的数据分析、分类等需求。在该系统内，5G NR网络中的基站作为边缘服务器，物联网中具有无线传输功能的智能终端均可作为参与训练的终端。5G NR基站和物联网终端设备共同训练人工智能网络，并在5G NR基站完成梯度平均。完成训练后，网络模型被下发到所有终端，物联网终端使用该人工智能网络进行数据分析、分类等工作。

使用该方法，在基于5G NR网络的物联网系统中，实现物联网的数据分析、分类等功能。联邦学习方法中终端上传梯度值而无需上传本地数据，满足物联网对数据隐私性的要求。将部分网络卸载到边缘服务器进行训练，减少了需要传输的梯度值，减小了联邦学习方法给物联网带来的传输负荷。仅需在终端进行部分网络参数更新的计算，减小了终端的计算负荷。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于网络卸载的联邦学习方法，实现所述联邦学习方法的系统包括边缘服务器、与所述边缘服务器无线连接的多个终端，其特征在于，所述终端和所述边缘服务器分别进行部分网络模型的训练，所述方法包括：

S8：重复步骤S2-S7，直到Loss函数值收敛到设定阈值。

2.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S1中，所述边缘服务器根据所述终端的计算能力选择卸载到边缘服务器处进行训练的网络层数。

3.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S2至步骤S7的一轮训练中，选择通信系统中部分或全部终端进行本地训练；根据所述终端当前所处网络环境及本地计算负荷、传输压力等信息，选择部分终端进行训练；对当前所处网络环境过差或具有较大的其他计算负荷或传输压力的终端，可以选择暂停其本地训练，等待终端状况改善后再开启该终端的训练。

4.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S4中，在边缘服务器处采用以下公式更新模型：

5.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S5中，在终端k采用以下公式获得其本地更新梯度值：

6.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S6中，在所述边缘服务器处采用以下公式获得梯度平均值：

7.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S7中，在终端k采用以下公式更新模型：

8.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，所述步骤S2至步骤S7的一轮训练中，带来的传输负载包括：

边缘服务器向所有终端，前n层网络参数的梯度平均值。

9.如权利要求1所述的一种基于网络卸载的联邦学习方法，其特征在于，当系统内存在一个云服务器、若干边缘服务器和大量终端时，终端和边缘服务器共同训练一个人工智能网络，每个边缘服务器完成其下终端的梯度平均，并将梯度传输给云服务器，云服务器完成整个网络的梯度平均。