CN114924868A

CN114924868A - 一种基于强化学习的自适应多信道分布式深度学习方法

Info

Publication number: CN114924868A
Application number: CN202210322064.8A
Authority: CN
Inventors: 杜海舟; 冯晓杰
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-08-19

Abstract

本发明公开了一种基于强化学习的自适应多信道分布式深度学习方法，称为分层梯度压缩(LGC)，包括如下步骤，建立基于强化学习的自适应多信道分布式深度学习框架；框架内部每个设备计算局部梯度；框架内部的压缩器压缩梯度；通过多个通道将压缩梯度的编码层发送到边缘服务器；服务器接收所有客户端的梯度数据并进行结果计算，而后发送至框架内所有设备；每个设备使用更新后结果数据更新本地模型，利用所提出的基于学习的控制算法评估了LGC的性能，结果表明，与基准方法相比，使用此算法，LGC显着减少了训练时间，提高了资源利用率，同时实现了相似的准确性。

Description

一种基于强化学习的自适应多信道分布式深度学习方法

技术领域

本发明涉及分布式深度学习的技术领域，尤其涉及一种基于强化学习的自适应多信道分布式深度学习方法。

背景技术

近年来，研究人员和工程师已经将深度学习技术应用到包括计算机视觉、自然语言处理、语音识别等在内的诸多领域,并取得了广泛的成功。对于移动设备数据通常以孤岛的形式存在，收集数据进行集中训练会导致严重的隐私问题，甚至可能被法规禁止。

跨移动设备的分布式深度学习已成为一种有效的解决方案，它可以用于分析和处理移动边缘计算(MEC)中的数据驱动任务(例如，自动驾驶，虚拟现实，图像分类等)的分布式数据。通过在边缘设备(例如，手机和平板电脑) 上执行训练任务并在边缘服务器上聚合学习的参数，跨设备分布式深度学习显着减少了应用程序的网络带宽使用，并保护了边缘设备的数据隐私。

然而，要在边缘网络中实际部署分布式深度学习仍然面临一些困难。1)动态边缘网络中，客户端和服务器之间的通信可能非常不可用、缓慢且成本高昂。 2)MEC系统中的资源(例如，带宽和电池寿命)通常会受到限制。现代边缘设备通常可以通过多个通信通道(例如，4G，LTE和5G)连接到边缘服务器，从而缓解这些问题。但是，拥有一个边缘设备，用于沿多个通道以一个固定的方式将本地模型的副本发送到服务器是多余的、耗时的，并且会浪费资源 (例如，带宽、电池寿命和货币成本)。

已经提出了一些开创性的工作来管理系统资源，以实现边缘网络中的高效分布式深度学习。然而，这些研究的重点是减少资源消耗，提高资源利用率和训练效率。在最近的工作中提出的一个有希望的解决方案是将梯度压缩策略整合到分布式深度学习算法中，这可以大大降低通信成本，而对学习成果几乎没有影响。但是，这些压缩技术没有调整到底层的通信通道，并且可能无法充分利用通道资源。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有基于强化学习的自适应多信道分布式深度学习方法存在的问题，提出了本发明。

因此，本发明目的是提供一种基于强化学习的自适应多信道分布式深度学习方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于强化学习的自适应多信道分布式深度学习方法，包括如下步骤，

建立基于强化学习的自适应多信道分布式深度学习框架；

框架内部每个设备计算局部梯度；

框架内部的压缩器压缩梯度；

通过多个通道将压缩梯度的编码层发送到边缘服务器；

服务器接收所有客户端的梯度数据并进行结果计算，而后发送至框架内所有设备；

每个设备使用更新后结果数据更新本地模型。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：自适应多信道分布式深度学习框架包含边缘服务器和若干个设备，若干个设备通过迭代计算和通信与边缘服务器协作训练学习模型。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：在进行数据传输之前，自适应多信道分布式深度学习框架在进行信息传输之前压缩本地计算的梯度，并通过多个通道发送给各个设备。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：利用Top_k运算符压缩梯度，将Top_k扩展到Top_α，β(1≤α＜β≤D)，以获得稀疏的top-(α，β)梯度。具体来说，对于向量

和 Top_α，β(x)的i(i＝1，2，...，D)个元素被定义为：

其中x_i是x的第i个元素，thr_α是x中元素的第α最大绝对值，thr_β是x中元素的第β大绝对值。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：需要连接到C数量个通道的设备，这些通道之间的流量分配由向量

表示，设备使用Topα，β压缩器将渐变元素编码到不同的层中，并获取

而后每个层通过不同的通道发送到服务器。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：制定资源约束下最小化全局损失的函数：

使得，

其中

是设备m在t轮迭代对于r资源本地计算的总资源消耗和

是设备m在t轮迭代对于r资源的通信消耗系数，

表示设备m在t轮通信时的本地更新步骤数，

表示在t轮通信时设备m的通道n处的流量分配， B_m，r表示设备m中的资源r的总预算。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：服务器建立深度强化学习控制算法，并指定状态空间、动作空间以及奖励函数，进而实现公式化，进行计算。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：公式化指定状态空间：

每个代理的状态都包含每种类型的资源的当前资源消耗，状态空间表示为

并且定义

其中

状态变量描述如下：

表示在轮次t设备m处通信资源r的消耗因子。

表示在轮次t设备m处本地计算资源r的。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：在每个设备m内都指定有表示为

的动作空间，在接收状态

时，代理m需要选择其本地计算和通信决策，操作可以表示为：

其中

操作变量描述如下：

表示轮次t设备m处的本地迭代次数。

表示轮次t通过设备n的通道n的梯度分量数。

作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种优选方案，其中：将奖励函数定义为迭代轮次t时设备m处R类资源的加权平均效用函数，如下所示：

其中α_r是效用函数

的权重。

本发明的有益效果：在视频流中分层编码技术的启发下下，提出了一种称为分层梯度压缩(LGC)的新型分布式深度学习框架，具体而言，在LGC中，来自设备的局部梯度被编码为多个层，并且每个层都沿着不同的通道发送到服务器。服务器聚合从设备接收的本地梯度以更新全局模型，并将结果发送回设备。定义了与LGC的资源效率联合学习问题。然后，为每个设备提出一种基于学习的算法，以动态调整其梯度计算(即局部梯度的数量)和通信决策(即不同层的压缩水平和梯度到信道映射)。利用所提出的基于学习的控制算法评估了LGC的性能，结果表明，与基线相比，使用此算法，LGC显着减少了训练时间，提高了资源利用率，同时实现了相似的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于强化学习的自适应多信道分布式深度学习方法的框架示意图。

图2为本发明基于强化学习的自适应多信道分布式深度学习方法所述的自适应控制算法图。

图3为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不同方法的训练精度对比图。

图4为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不同方法的能量消耗对比图。

图5为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不同方法的通信成本对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1-5，本发明公开了一种基于强化学习的自适应多信道分布式深度学习方法，主要依赖于分层梯度压缩(LGC)的新型分布式深度学习框架，LGC 的框架遵循典型的分布式深度学习架构，如图1所示，由边缘服务器和M个设备两部分组成。在LGC中，M边缘设备

通过迭代计算和通信与边缘服务器协作训练学习模型。为了缓解通信瓶颈，LGC在传输之前压缩本地计算的梯度，并通过多个通道发送它们。

在LGC中，每个设备计算局部梯度，通过LGC压缩器压缩梯度，并通过多个通道将压缩梯度的编码层发送到边缘服务器，服务器将一直等待，直到收到来自所有客户端的渐变，然后，它们将它们相加并将结果发送到所有设备，然后，设备使用它们来更新本地模型，多个通道由不同的颜色指示。

S1，每个设备计算局部梯度；

S2，LGC压缩器压缩梯度；

S3，通过多个通道将压缩梯度的编码层发送到边缘服务器；

S4，服务器将一直等待，直到收到来自所有客户端的梯度，将它们相加；并将结果发送到所有设备

S5，设备使用它们来更新本地模型。

1.LGC算法

为了压缩梯度，我们考虑Top_k运算符，这是分布式训练中稀疏化运算符的一个重要示例。我们将其扩展到LGC_k，用于多个通信通道。对于任何

Top

是一个D长度向量，其最多具有k个非零分量，其索引对应于x的最大k个分量(绝对值)的指数。在给出LGC_k的定义之前，我们将Top_k扩展到 Top_α，β(1≤α＜β≤D)，以获得稀疏的top-(α，β)梯度。具体来说，对于向量

和Top_α，β(x)的i(i＝1，2，...，D)个元素被定义为

现代边缘设备通常可以连接多个通信通道。考虑到连接到C个通道的设备，这些通道之间的流量分配由向量

表示。设备使用Topα，β压缩器将渐变元素编码到不同的层中，并获取

然后，每个层通过不同的通道发送到服务器。服务器从所有通道收集梯度，对其进行解码并获取 LGC_k(x)。For a vector

和LGC_k(x)。对于向量

和 LGC_k(x)的第i(i＝1，2，...，d)元素，LGC_k(x)被定义为

与之前要求所有参与者具有相同数量的局部计算和压缩级别的研究不同，我们提出并分析了一种特定形式的异步操作，其中设备在任意时间与主设备同步。我们还允许参与设备以不同的压缩系数执行梯度稀疏化。这确实有助于适应通道条件较差的离群者，从而减轻过时更新的影响。根据定义，我们还允许设备配备不同数量和类型的通信通道。

设

表示设备m与服务器通信的一组索引。我们假设

对于每个

都成立，这意味着每个设备的更新时间的最大延迟都有一个统一的界限。每个设备

都维护一个本地参数向量

该参数向量在每次迭代t中更新。如果

则错误补偿更新

将发送到服务器，客户端将更新其本地累积错误

从发送其梯度的每个设备

接收

后，服务器将聚合它们，更新全局模型，并将新模型w^(t+1)发送到所有客户端；在收到后，他们设置了他们的本地模型

等于全局模型w^(t ⁺¹⁾。

2.资源高效的LGC分布式深度学习的定义

我们使用定义了资源高效的LGC分布式深度学习。考虑到不同移动设备的资源不同，我们制定了资源约束下最小化全局损失函数的优化问题，如下所示。

使得，

其中

是设备m在t轮迭代对于r资源本地计算的总资源消耗和

是设备m在t轮迭代对于r资源的通信消耗系数。

表示设备m在t轮通信时的本地更新步骤数。

表示在t轮通信时设备m的通道n处的流量分配。B_m，r表示设备m中的资源r的总预算。

由于通常部署在高度动态的边缘网络中，因此基于学习的方法可用于自适应地调整本地计算和通信决策，同时满足MEC中每个迭代的资源约束。

3.深度强化学习控制算法

DRL方法的工作流程如图2所示。在每个迭代t时，对于每个设备m，它测量其状态

计算相应的奖励

并根据其策略

选择其操作

在设备m，将其状态更新为

在下一个epocht+1后，它将元组

放在经验回放缓冲区中，用于累积经验。然后，Critic网络从回放缓冲区读取数据，并将策略与优化程序一起更新为

特别是，更新了

目标是最大累积奖励

其中γ∈(0，1]是未来的奖励折扣系数。

为了使用DRL技术实现公式化的问题，我们首先指定状态空间，动作空间和奖励函数。

1)状态空间

每个代理的状态都包含每种类型的资源的当前资源消耗。我们表示状态空间表示为

并且我们定义

如下：

其中

状态变量描述如下：

表示在轮次t设备m处通信资源r的消耗因子。

表示在轮次t设备m处本地计算资源r的。

2)动作空间

每个设备m都有一个表示为

的动作空间。在接收状态

时，代理m需要选择其本地计算和通信决策。具体而言，操作可以表示为

其中

操作变量描述如下：

表示轮次t设备m处的本地迭代次数。

表示轮次t通过设备n的通道n的梯度分量数。

3)奖励函数

在每个训练轮次t时，代理m在特定状态

执行操作

后将获得奖励

目标函数是最小化资源约束下的全局损失函数

因此，我们对于每个设备m在其资源约束下最小化

我们首先定义在迭代轮次t时设备m的资源r上的效用函数，如下所示：

其中

然后，我们将奖励函数定义为迭代轮次t时设备m处R类资源的加权平均效用函数，如下所示：

其中α_r是效用函数

的权重。

为了检验本发明能在提升资源利用率的同时还能保证模型精度，本实施例子还设计了以下实验。对于所有实验，我们将学习率和批大小设置为0.01和 64，并为分布式深度学习设置3个不同的通信通道。

本实例数据集为CIFAR-10数据集，如表1所示。CNN在CIFAR-10上都经过训练。CIFAR-10包括50000张用于训练的图像和10000张用于测试的图像，并具有10种不同类型的对象。

表1数据集的信息

数据集	分类数	训练集大小	测试集大小
				CIFAR-10	10	50000	10000

我们基于强化学习控制算法的LGC分布式深度学习与基线进行比较。模型精度的收敛曲线，如图3。可以发现，本发明提出的方法对模型精度损失影响可以忽略不计。通过图4和图5最后两个图的结果，LGC在达到目标精度时可以大大减少电池能耗和通信花费的金钱成本。

重要的是，应注意，在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案，但参阅此公开内容的人员应容易理解，在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下，许多改型是可能的(例如，各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如，温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如，示出为整体成形的元件可以由多个部分或元件构成，元件的位置可被倒置或以其它方式改变，并且分立元件的性质或数目或位置可被更改或改变。因此，所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中，任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构，且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下，可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此，本发明不限制于特定的实施方案，而是扩展至仍落在所附的权利要求书的范围内的多种改型。

此外，为了提供示例性实施方案的简练描述，可以不描述实际实施方案的所有特征(即，与当前考虑的执行本发明的最佳模式不相关的那些特征，或于实现本发明不相关的那些特征)。

应理解的是，在任何实际实施方式的开发过程中，如在任何工程或设计项目中，可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的，但对于那些得益于此公开内容的普通技术人员来说，不需要过多实验，所述开发努力将是一个设计、制造和生产的常规工作。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。