CN114462573A

CN114462573A - 一种面向边缘智能的高效层次化参数传输时延优化方法

Info

Publication number: CN114462573A
Application number: CN202210068559.2A
Authority: CN
Inventors: 刘利民; 王婧; 许志伟; 刘广文
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-10
Anticipated expiration: 2042-01-20
Also published as: CN114462573B

Abstract

一种面向边缘智能的高效层次化参数传输时延优化方法，中央服务器将数据处理模型训练参数发送至多个边缘服务器；每个客户端设备利用训练参数训练其数据处理模型，初始训练时，从其对应的边缘服务器下载训练参数；非初始训练时，根据超时机制选择利用其之前的训练参数或从其对应的边缘服务器下载训练参数；各客户端设备将更新后的参数发送到对应边缘服务器；边缘服务器对客户端设备更新的参数进行局部聚合，再发送到中央服务器，中央服务器对收集到的参数进行全局聚合，获得全局的参数发送回边缘服务器，边缘设备再下载这些参数进行本地更新。本发明客户端设备向边缘服务器发送参数时，超时机制将会更早实现参数汇聚，提高了训练的效率。

Description

一种面向边缘智能的高效层次化参数传输时延优化方法

技术领域

本发明属于计算机技术领域，涉及在客户端设备、边缘服务器、中央服务器三层结构中对参数传输延时的优化方法。

背景技术

目前，在联邦学习环境中进行模型训练存在很多挑战，由于联邦学习具有异构性，在异构联邦学习中，当联邦学习将同一神经网络模型部署到异构边缘设备时，计算能力较弱的设备(孤立设备)可能会大大延迟全局模型的聚合。虽然可以对训练模型进行优化以加快训练速度，但由于异构设备资源有限，优化后的模型往往会导致结构分化，很难收敛。

鉴于上述异构性，联邦学习将面临几个方面的问题。首先，在进行边缘训练时，通信效率是必需的，因为客户端设备通常通过慢速连接(1Mbps)连接到中央聚合器。其次，客户必须是无状态的，因为通常情况下，所有的训练过程没有客户端设备参加一次以上。第三，跨客户收集的数据通常不是独立的和相同分布的。例如，当在智能手机用户的打字数据上训练下一词预测模型时，位于不同地理区域的客户从不同的分布生成数据，但分布之间存在足够的共性，我们仍然希望训练单一的模型；不同客户端设备可能存在的异构通信条件和计算能力也可能影响全局模型聚合；还存在对用户隐私的保护等。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种面向边缘智能的高效层次化参数传输时延优化方法，以期节约客户端设备等待边缘服务器聚合的时间。

为了实现上述目的，本发明采用的技术方案是：

一种面向边缘智能的高效层次化参数传输时延优化方法，包括如下步骤：

步骤1，中央服务器将数据处理模型训练参数发送至多个边缘服务器；

步骤2，每个客户端设备利用训练参数训练其数据处理模型，其中，在初始训练时，从其对应的边缘服务器下载训练参数；在非初始训练时，根据超时机制选择利用其之前的训练参数或从其对应的边缘服务器下载训练参数；

步骤3，各客户端设备将更新后的参数发送到其对应的边缘服务器；

步骤4，边缘服务器对客户端设备更新的参数进行局部聚合，再将局部聚合的参数发送到中央服务器，中央服务器对收集到的参数进行全局聚合。

在一个实施例中，所述步骤1，数据处理模型为神经网络，训练参数包括权重，梯度以及训练周期。

在一个实施例中，所述步骤2，客户端设备和边缘服务器上均设置超时机制，所述超时机制是指：当边缘服务器没有接收到其所管控的全部客户端设备的训练参数以致无法进行聚合时，客户端设备使用其之前的训练参数进行新一轮次的训练。

在一个实施例中，所述步骤3，边缘服务器所管控的全部客户端设备均完成一次训练参数更新，即完成了一轮迭代，每轮迭代后，边缘服务器所管控的全部客户端设备将更新得到的训练参数发送至对应的边缘服务器。

在一个实施例中，所述步骤4，边缘服务器记录其所管控的每一个客户端设备的迭代次数，待收到所有客户端设备同一迭代轮次得到的训练参数，将该迭代轮次的所有训练参数进行平均化，得到该边缘服务器在该迭代轮次的局部聚合训练参数。

在一个实施例中，所述中央服务器收到所有边缘服务器同一迭代轮次得到的局部聚合训练参数后，将该迭代轮次的所有局部聚合训练参数进行平均化，得到全局聚合训练参数，并将得到的全局聚合训练参数通过边缘服务器下发到各客户端设备。

在一个实施例中，所述中央服务器全局聚合时进行收敛。

与现有技术相比，本发明中客户端设备向边缘服务器发送参数时，在边缘服务器和客户端设备分别设置超时机制，从而更早地实现参数的汇聚，提高训练的效率，减少延时等待。

附图说明

图1为本发明流程示意图。

图2为深度学习模型上传示意图。

图3为本发明的实施例的示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的面向边缘智能的高效层次化分布式训练方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明所描述的架构，是客户端设备-边缘服务器-中央服务器三层架构，其中，一个中央服务器管控多个边缘服务器，一个边缘服务器管控多个客户端设备，一个边缘服务器只能聚合其所管控各客户端设备上传的参数，即，各边缘服务器之间不互通数据，以保证安全性。

示例地，在硬件上，中央服务器可以是云服务器或者其它具有较大计算能力的设备等；边缘服务器可以是高速缓存服务器、DNS服务器等。

而客户端设备一般可为手机、电脑以及其他智能穿戴设备等可入网的设备。

如图1所示，本发明面向边缘智能的高效层次化参数传输时延优化方法，包括如下步骤：

步骤1，中央服务器将数据处理模型训练参数下发至多个边缘服务器，以便客户端设备下载。

本发明中，数据处理模型指的是各客户端设备中的软件模型，在具体形式上可采用神经网络模型，例如部署在客户端设备上的Alex-Net，模型大小为233MB，包括24个网络层，其中有5个卷积层，3个全连接层，其训练参数一般包括权重、梯度以及训练周期等。

具体来说，在第一次训练时，初始的训练参数已经存储于中央服务器。从第二次训练开始，中央服务器将开始汇聚从边缘服务器上传的同一迭代轮次的训练参数，作为更新参数下发至边缘服务器。

步骤2，每个客户端设备利用训练参数训练其数据处理模型。

与步骤1相对应，在初始训练时，客户端设备仅拥有自身的数据，而没有训练所需要的参数，因此需要从其对应的边缘服务器下载训练参数。而在非初始训练时，根据超时机制选择利用其之前的训练参数或从其对应的边缘服务器下载训练参数。即，如果客户端设备在等待边缘服务器进行汇聚时，等待超过一定时间，那么意味着边缘服务器没有汇聚完成各个客户端设备上传的数据，客户端设备将使用其前几次的训练参数进行训练，等待边缘设备汇聚参数。

客户端设备在每轮迭代完成以后训练参数得到了更新，将更新后的训练参数发送到边缘服务器，由于设备的异构性，客户端设备训练的时间不同，传输训练参数的速度不同。如果边缘服务器单纯的等待聚合就会大大影响训练的效率。所以将在客户端设备和边缘服务器上设置超时机制，超时机制是指：当边缘服务器没有接收到其所管控的全部客户端设备的训练参数以致无法进行聚合时，客户端设备使用其之前的训练参数进行新一轮次的训练。

对于在客户端设备要训练数据所需要的参数，客户端设备获取训练参数有两种情况：一是每个客户端设备可以在规定时间内完成训练并将更新好的训练参数发送至边缘服务器，边缘服务器进行聚合后供客户端设备使用；二是客户端设备有部分可以按时发送更新的参数，在等待其他客户端设备上传更新的参数时，超出了等待时间，就使用自己之前的训练参数进行训练。这样可以更加高效的进行整体模型的训练。

步骤3，各客户端设备将更新后的参数发送到其对应的边缘服务器。

本发明中，定义边缘服务器所管控的全部客户端设备均完成一次训练参数更新为完成了一轮迭代，每轮迭代后，边缘服务器所管控的全部客户端设备将更新得到的训练参数发送至对应的边缘服务器。

步骤4，边缘服务器对客户端设备更新的参数进行局部聚合，再将局部聚合的参数发送到中央服务器，中央服务器对收集到的参数进行全局聚合，获得全局的参数发送回边缘服务器，边缘设备再下载这些参数进行本地更新。

在一个实施例中，边缘服务器记录其所管控的每一个客户端设备的迭代次数，待收到所有客户端设备同一迭代轮次得到的训练参数，将该迭代轮次的所有训练参数进行平均化，得到该边缘服务器在该迭代轮次的局部聚合训练参数。若边缘服务器在聚合时，没有接收到它所管控的全部客户端设备发来的参数，那么边缘服务器将会进行等待，直至全部客户端设备将参数发来后再聚合。同样地，中央服务器收到所有边缘服务器同一迭代轮次得到的局部聚合训练参数后，将该迭代轮次的所有局部聚合训练参数进行平均化，得到全局聚合训练参数，并将得到的全局聚合训练参数通过边缘服务器下发到各客户端设备。中央服务器在聚合边缘服务器发来的参数时，也将像边缘服务器一样，等待同一迭代轮次的参数全部上传才进行聚合，否则将一直等待直至参数全部上传。

全局聚合训练参数将被再次下发至各边缘服务器，然后继续执行步骤2，直至各客户端设备所训练模型的损失函数低于设定阈值，完成模型的训练。

本发明采用超时机制的机理在于，客户端设备在第N轮迭代更新的训练参数和小于第N轮的迭代更新的训练参数具有相似性，因此在边缘服务器未达成参数局部聚合时，客户端设备可以使用本地之前的训练参数进行模型训练，并且在某轮迭代更新训练参数后并不影响其收敛性。

为证明训练过程中第N轮迭代更新的更新的与第小于第N轮的迭代更新的训练参数相似性以及训练的收敛性，假设在迭代t时，客户端设备i只收到t-τ(t,i)及其之前的更新，此时计算：

如果允许的延迟τ足够大，那么所有客户端设备将持续计算梯度，而无需等待来自服务器的更新。通常，当x(t)接近一个驻点时，其变化很小。因此x(t-τ(t,i))将与x(t)相似，则s(t)是精确梯度的一个很好的近似。

假设梯度函数f的变化率有界，存在正常数Li，使得b，x，y∈X,且x_-b＝y_-b，

对所有的i和b′都成立。所以当集合的约束发生变化时，定义

可以得出：如果τ(t)有界，那么优化方法将以合适的学习率收敛。

假设

如果τ最大，也就是对于任意的t和i,τ(t,i)<τ，选择U(t)使得M_tI≤U(t)，令∈>0，如果对于所有的t≥0，学习率

那么这个算法收敛到一个点。

在本发明的一个实例中，利用深度神经网络(DNN)模型Alex-Net，数据集采用ImageNet dataset，该数据集包括1400万张256*256的图像，共两万多个类别，从中抽取10个类别，每个类别抽取100张图片进行测试。

步骤1：客户端设备(GPU1：工作站ubuntu16.04；GPU2：工作站ubuntu16.04，采用相同的配置：Intel(R)Core(TM)i7-9700 CPU@3.00GHz 3.00GHz，内存：16GB，显卡NVIDIAGeForce RTX 2060，系统环境为ubuntu 16.04；树莓派1：4b+2G ubuntu 20.10。树莓派2：4b+2G ubuntu 20.10，树莓派3：4b+2G ubuntu 20.10，硬件为树莓派4b,4核的Arm Cortex-A72处理器，主频为1.5GHZ，内存：2GB，系统环境为ubuntu 20.10；)利用数据集对应的标签预处理数据集并加载，载入相关配置文件，例如用于配置网络模型的文件、用于提高准确率的均值文件等。根据边缘服务器(2个i5-3470(3.20GHz 3.20GHz)，显卡：GTX 1070，内存：8GB)和中央服务器的IP建立三层连接。

预处理后的数据集信息如下：

n01484850:great white shark,white shark,man-eater,man-eating shark,Carcharodon carcharias

n01491361:tiger shark,Galeocerdo cuvieri

n01494475:hammerhead,hammerhead shark

n01496331:electric ray,crampfish,numbfish,torpedo

n01498041:stingray

n01514668:cock

n01514859:hen

n01518878:ostrich,Struthio camelus

n01440764:tench,Tinca tinca

n01443537:goldfish,Carassius auratus。

步骤2：初始化完成以后，输入要识别的图片(即数据集中用于训练的图片)。Alex-Net模型共包括24个DNN层，其中有多个卷积层和relu层，还有三个全连接层，输入输出层各一个，如图2中Alex-Net模型的示意图，Alex-Net模型层和层之间有输入输出的对应关系，例如conv1需要接收数据层的数据才能开始运算，norm1需要利用conv1的输出结果作为输入，以此类推。

如图3所示为建立的实例执行图，硬件具体配置如下：第一类边缘设备：i5-5200U(2.20GHz 2.20GHz)，没有GPU，内存：8GB,，系统为ubuntu 16.04 LTS；第二类边缘设备：树莓派4b+2G，系统为ubuntu mate。边缘服务器i5-3470(3.20GHz 3.20GHz)，显卡：GTX 1070，内存：8GB数据中心服务器i7-9700(3.00GHz 3.00GHz)，显卡：RTX 2060，内存：16GB,系统为ubuntu16.04 LTS。

本实施例共进行两类迭代，首先是初始状态的迭代。在初始状态时，客户端设备仅拥有各自的数据，中央服务器拥有初始训练参数(例如神经网络中各层的权重和偏置值、学习率、超时机制中的阈值等)。训练开始时，中央服务器先将训练参数下发至每个边缘服务器，然后客户端设备从对应的边缘服务器上下载训练所需要的参数，进行训练，训练结束后完成参数更新，将参数上传至边缘服务器，边缘服务器将这些客户端设备上传的参数进行平均化，方法例如：

其中

表示k个客户端设备第t+1次的参数，再进行局部聚合，方法例如：

接着将聚合好的参数上传至中央服务器，中央服务器将这些边缘服务器聚合好的参数再次进行平均化，方法例如：

之后再进行聚合，方法例如：

这样就完成一次参数更新。

接下来进行之后的迭代，中央服务器将全局聚合训练参数下发至边缘服务器，客户端设备将从边缘服务器下载这些更新的参数，再次进行训练。此时，将会出现训练速度快的客户端设备面临长时间的等待，等待更新参数的聚合。由于客户端设备具有异构性，它们在训练数据时时间不相同，而边缘服务器在汇聚参数时遵循需将对应客户端设备的同一迭代轮次训练更新的参数汇聚，所以为了避免训练速度较快的客户端设备长时间的等待，提出超时机制。也就是说，当客户端设备从边缘服务器等待下载新的参数时，如果等待时间超过一个值，那么客户端设备将利用自身之前的参数进行下一轮次的训练，而不是一直等下去，待边缘服务器完成汇聚，中央服务器下发更新的参数后，再将客户端设备上该轮次的参数进行更新。

利用本发明，在多层结构下训练Alexnet模型时，500轮消的执行时间为2103.48s，而对比实验(FedAvg算法)中的执行时间为2296.1s。在训练的过程中本发明的方案充分利用了等待时延，在等待的过程中训练，大大提高了训练效率，所以训练的时间更短，尤其是在DNN模型参数较多时，传输时延过高很容易超过阈值，得到的延时改善更大。

以上，对本发明的具体实施方式做了具体描述，但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说，在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述步骤1，数据处理模型为神经网络，训练参数包括权重，梯度以及训练周期。

3.根据权利要求1所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述步骤2，客户端设备和边缘服务器上均设置超时机制，所述超时机制是指：当边缘服务器没有接收到其所管控的全部客户端设备的训练参数以致无法进行聚合时，客户端设备使用其之前的训练参数进行新一轮次的训练。

4.根据权利要求1所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述步骤3，边缘服务器所管控的全部客户端设备均完成一次训练参数更新，即完成了一轮迭代，每轮迭代后，边缘服务器所管控的全部客户端设备将更新得到的训练参数发送至对应的边缘服务器。

5.根据权利要求4所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述步骤4，边缘服务器记录其所管控的每一个客户端设备的迭代次数，待收到所有客户端设备同一迭代轮次得到的训练参数，将该迭代轮次的所有训练参数进行平均化，得到该边缘服务器在该迭代轮次的局部聚合训练参数。

6.根据权利要求1或5所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，各边缘服务器之间不互通数据。

7.根据权利要求1所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述中央服务器收到所有边缘服务器同一迭代轮次得到的局部聚合训练参数后，将该迭代轮次的所有局部聚合训练参数进行平均化，得到全局聚合训练参数，并将得到的全局聚合训练参数通过边缘服务器下发到各客户端设备。

8.根据权利要求1所述面向边缘智能的高效层次化参数传输时延优化方法，其特征在于，所述中央服务器全局聚合时进行收敛。