CN114924868A - 一种基于强化学习的自适应多信道分布式深度学习方法 - Google Patents

一种基于强化学习的自适应多信道分布式深度学习方法 Download PDF

Info

Publication number
CN114924868A
CN114924868A CN202210322064.8A CN202210322064A CN114924868A CN 114924868 A CN114924868 A CN 114924868A CN 202210322064 A CN202210322064 A CN 202210322064A CN 114924868 A CN114924868 A CN 114924868A
Authority
CN
China
Prior art keywords
gradient
adaptive multi
deep learning
distributed deep
channel distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210322064.8A
Other languages
English (en)
Inventor
杜海舟
冯晓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Electric Power University
Original Assignee
Shanghai Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Electric Power University filed Critical Shanghai Electric Power University
Priority to CN202210322064.8A priority Critical patent/CN114924868A/zh
Publication of CN114924868A publication Critical patent/CN114924868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的自适应多信道分布式深度学习方法,称为分层梯度压缩(LGC),包括如下步骤,建立基于强化学习的自适应多信道分布式深度学习框架;框架内部每个设备计算局部梯度;框架内部的压缩器压缩梯度;通过多个通道将压缩梯度的编码层发送到边缘服务器;服务器接收所有客户端的梯度数据并进行结果计算,而后发送至框架内所有设备;每个设备使用更新后结果数据更新本地模型,利用所提出的基于学习的控制算法评估了LGC的性能,结果表明,与基准方法相比,使用此算法,LGC显着减少了训练时间,提高了资源利用率,同时实现了相似的准确性。

Description

一种基于强化学习的自适应多信道分布式深度学习方法
技术领域
本发明涉及分布式深度学习的技术领域,尤其涉及一种基于强化学习的自 适应多信道分布式深度学习方法。
背景技术
近年来,研究人员和工程师已经将深度学习技术应用到包括计算机视觉、 自然语言处理、语音识别等在内的诸多领域,并取得了广泛的成功。对于移动设 备数据通常以孤岛的形式存在,收集数据进行集中训练会导致严重的隐私问 题,甚至可能被法规禁止。
跨移动设备的分布式深度学习已成为一种有效的解决方案,它可以用于分 析和处理移动边缘计算(MEC)中的数据驱动任务(例如,自动驾驶,虚拟现 实,图像分类等)的分布式数据。通过在边缘设备(例如,手机和平板电脑) 上执行训练任务并在边缘服务器上聚合学习的参数,跨设备分布式深度学习显 着减少了应用程序的网络带宽使用,并保护了边缘设备的数据隐私。
然而,要在边缘网络中实际部署分布式深度学习仍然面临一些困难。1)动 态边缘网络中,客户端和服务器之间的通信可能非常不可用、缓慢且成本高昂。 2)MEC系统中的资源(例如,带宽和电池寿命)通常会受到限制。现代边 缘设备通常可以通过多个通信通道(例如,4G,LTE和5G)连接到边缘服务 器,从而缓解这些问题。但是,拥有一个边缘设备,用于沿多个通道以一个固 定的方式将本地模型的副本发送到服务器是多余的、耗时的,并且会浪费资源 (例如,带宽、电池寿命和货币成本)。
已经提出了一些开创性的工作来管理系统资源,以实现边缘网络中的高效 分布式深度学习。然而,这些研究的重点是减少资源消耗,提高资源利用率和 训练效率。在最近的工作中提出的一个有希望的解决方案是将梯度压缩策略整 合到分布式深度学习算法中,这可以大大降低通信成本,而对学习成果几乎没 有影响。但是,这些压缩技术没有调整到底层的通信通道,并且可能无法充分 利用通道资源。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较 佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或 省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略 不能用于限制本发明的范围。
鉴于上述现有基于强化学习的自适应多信道分布式深度学习方法存在的 问题,提出了本发明。
因此,本发明目的是提供一种基于强化学习的自适应多信道分布式深度学 习方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于强化学习的自 适应多信道分布式深度学习方法,包括如下步骤,
建立基于强化学习的自适应多信道分布式深度学习框架;
框架内部每个设备计算局部梯度;
框架内部的压缩器压缩梯度;
通过多个通道将压缩梯度的编码层发送到边缘服务器;
服务器接收所有客户端的梯度数据并进行结果计算,而后发送至框架内所 有设备;
每个设备使用更新后结果数据更新本地模型。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:自适应多信道分布式深度学习框架包含边缘服务器和若干 个设备,若干个设备通过迭代计算和通信与边缘服务器协作训练学习模型。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:在进行数据传输之前,自适应多信道分布式深度学习框架 在进行信息传输之前压缩本地计算的梯度,并通过多个通道发送给各个设备。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:利用Topk运算符压缩梯度,将Topk扩展到Topα,β(1≤α<β≤D), 以获得稀疏的top-(α,β)梯度。具体来说,对于向量
Figure BDA0003570519790000021
和 Topα,β(x)的i(i=1,2,...,D)个元素被定义为:
Figure BDA0003570519790000022
其中xi是x的第i个元素,thrα是x中元素的第α最大绝对值,thrβ是x中元素 的第β大绝对值。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:需要连接到C数量个通道的设备,这些通道之间的流量分 配由向量
Figure BDA0003570519790000031
表示,设备使用Topα,β压缩器将渐变元素编码到不同的层中, 并获取
Figure BDA0003570519790000032
而后每个层通过不同的通道发送到服务器。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:制定资源约束下最小化全局损失的函数:
Figure BDA0003570519790000033
使得,
Figure BDA0003570519790000034
Figure BDA0003570519790000035
Figure BDA0003570519790000036
Figure BDA0003570519790000037
其中
Figure BDA0003570519790000038
是设备m在t轮迭代对于r资源本地计算的总资源消耗和
Figure BDA0003570519790000039
是设备m在t轮迭代对于r资源的通信消耗系数,
Figure BDA00035705197900000310
表示设备m在t轮 通信时的本地更新步骤数,
Figure BDA00035705197900000311
表示在t轮通信时设备m的通道n处的流量分配, Bm,r表示设备m中的资源r的总预算。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:服务器建立深度强化学习控制算法,并指定状态空间、动 作空间以及奖励函数,进而实现公式化,进行计算。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一 种优选方案,其中:公式化指定状态空间:
每个代理的状态都包含每种类型的资源的当前资源消耗,状态空间表示为
Figure BDA0003570519790000041
并且定义
Figure BDA0003570519790000042
Figure BDA0003570519790000043
其中
Figure BDA0003570519790000044
Figure BDA0003570519790000045
状态变量描述如下:
Figure BDA0003570519790000046
表示在轮次t设备m处通信资源r的消耗因子。
Figure BDA0003570519790000047
表示在轮次t设备m处本地计算资源r的。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种 优选方案,其中:在每个设备m内都指定有表示为
Figure BDA0003570519790000048
的动作空间, 在接收状态
Figure BDA0003570519790000049
时,代理m需要选择其本地计算和通信决策,操作可以表示为:
Figure BDA00035705197900000410
其中
Figure BDA00035705197900000411
操作变量描述如下:
Figure BDA00035705197900000412
表示轮次t设备m处的本地迭代次数。
Figure BDA00035705197900000413
表示轮次t通过设备n的通道n的梯度分量数。
作为本发明所述基于强化学习的自适应多信道分布式深度学习方法的一种 优选方案,其中:将奖励函数定义为迭代轮次t时设备m处R类资源的加权平均效 用函数,如下所示:
Figure BDA00035705197900000414
其中αr是效用函数
Figure BDA00035705197900000415
的权重。
本发明的有益效果:在视频流中分层编码技术的启发下下,提出了一种称 为分层梯度压缩(LGC)的新型分布式深度学习框架,具体而言,在LGC中, 来自设备的局部梯度被编码为多个层,并且每个层都沿着不同的通道发送到服 务器。服务器聚合从设备接收的本地梯度以更新全局模型,并将结果发送回设 备。定义了与LGC的资源效率联合学习问题。然后,为每个设备提出一种基 于学习的算法,以动态调整其梯度计算(即局部梯度的数量)和通信决策(即 不同层的压缩水平和梯度到信道映射)。利用所提出的基于学习的控制算法评 估了LGC的性能,结果表明,与基线相比,使用此算法,LGC显着减少了训 练时间,提高了资源利用率,同时实现了相似的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下, 还可以根据这些附图获得其它的附图。其中:
图1为本发明基于强化学习的自适应多信道分布式深度学习方法的框架示 意图。
图2为本发明基于强化学习的自适应多信道分布式深度学习方法所述的自 适应控制算法图。
图3为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不 同方法的训练精度对比图。
图4为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不 同方法的能量消耗对比图。
图5为本发明基于强化学习的自适应多信道分布式深度学习方法所述的不 同方法的通信成本对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书 附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明 还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不 违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例 的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少 一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在 一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施 例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便 于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图 只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长 度、宽度及深度的三维空间尺寸。
实施例1
参照图1-5,本发明公开了一种基于强化学习的自适应多信道分布式深度 学习方法,主要依赖于分层梯度压缩(LGC)的新型分布式深度学习框架,LGC 的框架遵循典型的分布式深度学习架构,如图1所示,由边缘服务器和M个 设备两部分组成。在LGC中,M边缘设备
Figure BDA0003570519790000061
通过迭代计算和 通信与边缘服务器协作训练学习模型。为了缓解通信瓶颈,LGC在传输之前 压缩本地计算的梯度,并通过多个通道发送它们。
在LGC中,每个设备计算局部梯度,通过LGC压缩器压缩梯度,并通 过多个通道将压缩梯度的编码层发送到边缘服务器,服务器将一直等待,直到 收到来自所有客户端的渐变,然后,它们将它们相加并将结果发送到所有设备, 然后,设备使用它们来更新本地模型,多个通道由不同的颜色指示。
S1,每个设备计算局部梯度;
S2,LGC压缩器压缩梯度;
S3,通过多个通道将压缩梯度的编码层发送到边缘服务器;
S4,服务器将一直等待,直到收到来自所有客户端的梯度,将它们相加; 并将结果发送到所有设备
S5,设备使用它们来更新本地模型。
1.LGC算法
为了压缩梯度,我们考虑Topk运算符,这是分布式训练中稀疏化运算符的 一个重要示例。我们将其扩展到LGCk,用于多个通信通道。对于任何
Figure BDA0003570519790000071
Top
Figure BDA0003570519790000072
是一个D长度向量,其最多具有k个非零分量,其索引对应于x的最 大k个分量(绝对值)的指数。在给出LGCk的定义之前,我们将Topk扩展到 Topα,β(1≤α<β≤D),以获得稀疏的top-(α,β)梯度。具体来说,对于向量
Figure BDA0003570519790000073
Figure BDA0003570519790000074
和Topα,β(x)的i(i=1,2,...,D)个元素被定义为
Figure BDA0003570519790000075
其中xi是x的第i个元素,thrα是x中元素的第α最大绝对值,thrβ是x中元素 的第β大绝对值。
现代边缘设备通常可以连接多个通信通道。考虑到连接到C个通道的设 备,这些通道之间的流量分配由向量
Figure BDA0003570519790000076
表示。设备使用Topα,β压缩器将渐 变元素编码到不同的层中,并获取
Figure BDA0003570519790000077
然后,每个层通过不同 的通道发送到服务器。服务器从所有通道收集梯度,对其进行解码并获取 LGCk(x)。For a vector
Figure BDA0003570519790000078
和LGCk(x)。对于向量
Figure BDA0003570519790000079
和 LGCk(x)的第i(i=1,2,...,d)元素,LGCk(x)被定义为
Figure BDA00035705197900000710
与之前要求所有参与者具有相同数量的局部计算和压缩级别的研究不同, 我们提出并分析了一种特定形式的异步操作,其中设备在任意时间与主设备同 步。我们还允许参与设备以不同的压缩系数执行梯度稀疏化。这确实有助于适 应通道条件较差的离群者,从而减轻过时更新的影响。根据定义,我们还允许 设备配备不同数量和类型的通信通道。
Figure BDA0003570519790000081
Figure BDA0003570519790000082
表示设备m与服务器通信的一组索引。我们假设
Figure BDA0003570519790000083
对于每个
Figure BDA0003570519790000084
都成立,这意味着每个设备的更新时间的最大延迟都 有一个统一的界限。每个设备
Figure BDA0003570519790000085
都维护一个本地参数向量
Figure BDA0003570519790000086
该参数向量 在每次迭代t中更新。如果
Figure BDA0003570519790000087
则错误补偿更新
Figure BDA0003570519790000088
将发送到服务器,客户端 将更新其本地累积错误
Figure BDA0003570519790000089
从发送其梯度的每个设备
Figure BDA00035705197900000810
接收
Figure BDA00035705197900000811
后,服务器 将聚合它们,更新全局模型,并将新模型w(t+1)发送到所有客户端;在收到后, 他们设置了他们的本地模型
Figure BDA00035705197900000812
等于全局模型w(t +1)
2.资源高效的LGC分布式深度学习的定义
我们使用定义了资源高效的LGC分布式深度学习。考虑到不同移动设备的 资源不同,我们制定了资源约束下最小化全局损失函数的优化问题,如下所示。
Figure BDA00035705197900000813
使得,
Figure BDA00035705197900000814
Figure BDA00035705197900000815
Figure BDA00035705197900000816
Figure BDA00035705197900000817
其中
Figure BDA00035705197900000818
是设备m在t轮迭代对于r资源本地计算的总资源消耗和
Figure BDA00035705197900000819
是设备m在t轮迭代对于r资源的通信消耗系数。
Figure BDA00035705197900000820
表示设备m在t轮通 信时的本地更新步骤数。
Figure BDA00035705197900000821
表示在t轮通信时设备m的通道n处的流量分配。Bm,r表示设备m中的资源r的总预算。
由于通常部署在高度动态的边缘网络中,因此基于学习的方法可用于自适 应地调整本地计算和通信决策,同时满足MEC中每个迭代的资源约束。
3.深度强化学习控制算法
DRL方法的工作流程如图2所示。在每个迭代t时,对于每个设备m,它测 量其状态
Figure BDA0003570519790000091
计算相应的奖励
Figure BDA0003570519790000092
并根据其策略
Figure BDA0003570519790000093
选择其操作
Figure BDA0003570519790000094
在设备m, 将其状态更新为
Figure BDA0003570519790000095
在下一个epocht+1后,它将元组
Figure BDA0003570519790000096
放在 经验回放缓冲区中,用于累积经验。然后,Critic网络从回放缓冲区读取数据, 并将策略与优化程序一起更新为
Figure BDA0003570519790000097
特别是,更新了
Figure BDA0003570519790000098
目标是最大累积奖 励
Figure BDA0003570519790000099
其中γ∈(0,1]是未来的奖励折扣系数。
为了使用DRL技术实现公式化的问题,我们首先指定状态空间,动作空间 和奖励函数。
1)状态空间
每个代理的状态都包含每种类型的资源的当前资源消耗。我们表示状态空 间表示为
Figure BDA00035705197900000910
并且我们定义
Figure BDA00035705197900000911
如下:
Figure BDA00035705197900000912
其中
Figure BDA00035705197900000913
Figure BDA00035705197900000914
状态变量描述如下:
Figure BDA00035705197900000915
表示在轮次t设备m处通信资源r的消耗因子。
Figure BDA00035705197900000916
表示在轮次t设备m处本地计算资源r的。
2)动作空间
每个设备m都有一个表示为
Figure BDA00035705197900000917
的动作空间。在接收状态
Figure BDA00035705197900000918
时, 代理m需要选择其本地计算和通信决策。具体而言,操作可以表示为
Figure BDA00035705197900000919
其中
Figure BDA00035705197900000920
操作变量描述如下:
Figure BDA0003570519790000101
表示轮次t设备m处的本地迭代次数。
Figure BDA0003570519790000102
表示轮次t通过设备n的通道n的梯度分量数。
3)奖励函数
在每个训练轮次t时,代理m在特定状态
Figure BDA0003570519790000103
执行操作
Figure BDA0003570519790000104
后将获得奖励
Figure BDA0003570519790000105
目标函数是最小化资源约束下的全局损失函数
Figure BDA0003570519790000106
因 此,我们对于每个设备m在其资源约束下最小化
Figure BDA0003570519790000107
我们首先定义在迭代轮次t时 设备m的资源r上的效用函数,如下所示:
Figure BDA0003570519790000108
其中
Figure BDA0003570519790000109
Figure BDA00035705197900001010
然后,我们将奖励函数定义为迭代轮次t时设备m处R类资源的加权平均效用 函数,如下所示:
Figure BDA00035705197900001011
其中αr是效用函数
Figure BDA00035705197900001012
的权重。
为了检验本发明能在提升资源利用率的同时还能保证模型精度,本实施例 子还设计了以下实验。对于所有实验,我们将学习率和批大小设置为0.01和 64,并为分布式深度学习设置3个不同的通信通道。
本实例数据集为CIFAR-10数据集,如表1所示。CNN在CIFAR-10上都 经过训练。CIFAR-10包括50000张用于训练的图像和10000张用于测试的图像, 并具有10种不同类型的对象。
表1数据集的信息
数据集 分类数 训练集大小 测试集大小
CIFAR-10 10 50000 10000
我们基于强化学习控制算法的LGC分布式深度学习与基线进行比较。模型 精度的收敛曲线,如图3。可以发现,本发明提出的方法对模型精度损失影响可 以忽略不计。通过图4和图5最后两个图的结果,LGC在达到目标精度时可以 大大减少电池能耗和通信花费的金钱成本。
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和 布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅 此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖 教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结 构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使 用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或 元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围 内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺 序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的 执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明 的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他 替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展 至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的 所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于 实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项 目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时 的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所 述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参 照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可 以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精 神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于强化学习的自适应多信道分布式深度学习方法,其特征在于:包括如下步骤,
建立基于强化学习的自适应多信道分布式深度学习框架;
框架内部每个设备计算局部梯度;
框架内部的压缩器压缩梯度;
通过多个通道将压缩梯度的编码层发送到边缘服务器;
服务器接收所有客户端的梯度数据并进行结果计算,而后发送至框架内所有设备;
每个设备使用更新后结果数据更新本地模型。
2.如权利要求1所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:自适应多信道分布式深度学习框架包含边缘服务器和若干个设备,若干个设备通过迭代计算和通信与边缘服务器协作训练学习模型。
3.如权利要求1或2所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:在进行数据传输之前,自适应多信道分布式深度学习框架在进行信息传输之前压缩本地计算的梯度,并通过多个通道发送给各个设备。
4.如权利要求3所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:利用Topk运算符压缩梯度,将Topk扩展到Topα,β(1≤α<β≤D),以获得稀疏的top-(α,β)梯度。具体来说,对于向量
Figure FDA0003570519780000011
和Topα,β(x)的i(i=1,2,...,D)个元素被定义为:
Figure FDA0003570519780000012
其中xi是x的第i个元素,thrα是x中元素的第α最大绝对值,thrβ是x中元素的第β大绝对值。
5.如权利要求4所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:需要连接到C个通道的设备,这些通道之间的流量分配由向量
Figure FDA0003570519780000013
表示,设备使用Topα,β压缩器将渐变元素编码到不同的层中,并获取
Figure FDA0003570519780000014
而后每个层通过不同的通道发送到服务器。
6.如权利要求1所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:制定资源约束下最小化全局损失的函数:
Figure FDA0003570519780000021
使得,
Figure FDA0003570519780000022
Figure FDA0003570519780000023
Figure FDA0003570519780000024
其中
Figure FDA0003570519780000025
是设备m在t轮迭代对于r资源本地计算的总资源消耗和
Figure FDA0003570519780000026
是设备m在t轮迭代对于r资源的通信消耗系数,
Figure FDA0003570519780000027
表示设备m在t轮通信时的本地更新步骤数,
Figure FDA0003570519780000028
表示在t轮通信时设备m的通道n处的流量分配,Bm,r表示设备m中的资源r的总预算。
7.如权利要求1所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:服务器建立深度强化学习控制算法,并指定状态空间、动作空间以及奖励函数,进而实现公式化,进行计算。
8.如权利要求7所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:公式化指定状态空间:
每个代理的状态都包含每种类型的资源的当前资源消耗,状态空间表示为
Figure FDA0003570519780000029
并且定义
Figure FDA00035705197800000210
Figure FDA00035705197800000211
其中
Figure FDA00035705197800000212
Figure FDA00035705197800000213
状态变量描述如下:
Figure FDA0003570519780000031
表示在轮次t设备m处通信资源r的消耗因子。
Figure FDA0003570519780000032
表示在轮次t设备m处本地计算资源r的。
9.如权利要求7所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:在每个设备m内都指定有表示为
Figure FDA0003570519780000033
的动作空间,在接收状态
Figure FDA0003570519780000034
时,代理m需要选择其本地计算和通信决策,操作可以表示为:
Figure FDA0003570519780000035
其中
Figure FDA0003570519780000036
操作变量描述如下:
Figure FDA0003570519780000037
表示轮次t设备m处的本地迭代次数。
Figure FDA0003570519780000038
表示轮次t通过设备n的通道n的梯度分量数。
10.如权利要求7所述的基于强化学习的自适应多信道分布式深度学习方法,其特征在于:将奖励函数定义为迭代轮次t时设备m处R类资源的加权平均效用函数,如下所示:
Figure FDA0003570519780000039
其中αr是效用函数
Figure FDA00035705197800000310
的权重。
CN202210322064.8A 2022-03-29 2022-03-29 一种基于强化学习的自适应多信道分布式深度学习方法 Pending CN114924868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210322064.8A CN114924868A (zh) 2022-03-29 2022-03-29 一种基于强化学习的自适应多信道分布式深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210322064.8A CN114924868A (zh) 2022-03-29 2022-03-29 一种基于强化学习的自适应多信道分布式深度学习方法

Publications (1)

Publication Number Publication Date
CN114924868A true CN114924868A (zh) 2022-08-19

Family

ID=82804452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210322064.8A Pending CN114924868A (zh) 2022-03-29 2022-03-29 一种基于强化学习的自适应多信道分布式深度学习方法

Country Status (1)

Country Link
CN (1) CN114924868A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644802A (zh) * 2023-07-19 2023-08-25 支付宝(杭州)信息技术有限公司 模型训练方法及装置

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN112860350A (zh) 一种边缘计算中基于任务缓存的计算卸载方法
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN113515351B (zh) 一种基于能耗与QoS协同优化的资源调度实现方法
CN113222179A (zh) 一种基于模型稀疏化与权重量化的联邦学习模型压缩方法
CN112633316A (zh) 一种基于边界估值理论的负荷预测方法和装置
CN112118312A (zh) 一种面向边缘服务器的网络突发负载疏散方法
CN104023216B (zh) 人脸视频压缩方法
CN113595993B (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN110764885A (zh) 一种多移动设备的dnn任务的拆分和卸载方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN114924868A (zh) 一种基于强化学习的自适应多信道分布式深度学习方法
WO2021092796A1 (zh) 神经网络模型部署方法、装置及设备
CN114723057A (zh) 一种用于多接入边缘计算系统的神经网络协同推理方法
CN115952832A (zh) 自适应模型量化方法及装置、存储介质及电子装置
CN116016519A (zh) 一种面向QoE的边缘计算资源分配方法
CN116489708A (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN114154626B (zh) 一种用于图像分类任务的滤波器剪枝方法
CN110263917B (zh) 一种神经网络压缩方法及装置
CN113342504A (zh) 基于缓存的智能制造边缘计算任务调度方法及系统
CN116760722A (zh) 一种存储辅助mec任务卸载系统及资源调度方法
CN111488981A (zh) 基于高斯分布估计选取深度网络参数稀疏阈值的方法
CN114449536B (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法
CN109618156A (zh) 一种视频编码码率调整方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination