CN117195728A - 一种基于图到序列强化学习的复杂移动任务部署方法 - Google Patents
一种基于图到序列强化学习的复杂移动任务部署方法 Download PDFInfo
- Publication number
- CN117195728A CN117195728A CN202311173555.1A CN202311173555A CN117195728A CN 117195728 A CN117195728 A CN 117195728A CN 202311173555 A CN202311173555 A CN 202311173555A CN 117195728 A CN117195728 A CN 117195728A
- Authority
- CN
- China
- Prior art keywords
- representing
- task
- graph
- node
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 68
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 230000006854 communication Effects 0.000 claims abstract description 12
- 238000005265 energy consumption Methods 0.000 claims description 53
- 238000004422 calculation algorithm Methods 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002829 reductive effect Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- GEKLDGQKEZAPFZ-UHFFFAOYSA-N 2-(ethylamino)-1-(3-methylphenyl)propan-1-one Chemical compound CCNC(C)C(=O)C1=CC=CC(C)=C1 GEKLDGQKEZAPFZ-UHFFFAOYSA-N 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于图到序列强化学习的复杂移动任务部署方法,包括以下步骤:S1,在考虑硬件约束以及通信过程中的带宽和时延约束构的基础上,构建混合整数线性规划模型的目标函数;S2,采用图到序列结构的神经网络模型求解构建的目标函数,输出一个部署决策Y,该序列表示了每个子任务部署到MEC节点的状况。本发明方法能够快速获得部署策略,并且部署策略在有效性、质量方面均优于现有的复杂任务部署方法。
Description
技术领域
本发明涉及边缘计算技术领域,特别是涉及一种基于图到序列强化学习的复杂移动任务部署方法。
背景技术
随着物联网和第5代移动通信网络的快速部署,各类网络终端设备的规模持续激增并由此涌现出丰富多样的移动业务场景和应用。受限于移动应用的服务质量、数据安全与隐私、云端网络带宽资源瓶颈等方面的局限,基于云计算的移动应用服务模式很难满足用户的服务需求。为应对这一挑战,以移动边缘计算为代表的近端计算范式应运而生,其目的是在移动网络边缘、无线接入网内以及移动用户附近提供IT服务环境,在为终端用户提供强大的计算能力、能源效率和存储容量的同时,具备低延迟和高带宽特点,从而提高用户体验质量,使系统和业务的运营更具成本效益和竞争力。在基于MEC的框架中,无线终端设备可以通过将各类IT资源敏感型任务(如:基于边缘端的大模型推理、算力敏感的区块链应用以及基于数字孪生的交互类应用等)卸载到边缘服务节点,从而实现更好的业务体验。
从边缘服务商的角度而言,在接受了用户的任务卸载请求之后,需要根据任务的资源请求规模和边缘区域中多个节点的可用资源状况对任务进行合理的分配部署,并进而选择适合的边缘节点执行任务。与此同时,为了支持各种泛在应用,边缘服务节点被越来越广泛地部署,部分部署位置甚至难以通过电网供电。因此,如何在保证边缘服务质量的前提下有效控制边缘服务所产生的能耗显得尤其重要。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别是面向越来越多的复杂移动任务请求,创新地提出了一种基于图到序列强化学习的任务部署方法。
为了实现本发明的上述目的,本发明提供了一种基于图到序列强化学习的复杂移动任务部署方法,包括以下步骤:
S1,在考虑硬件约束以及通信过程中的带宽和时延约束构的基础上,构建混合整数线性规划(MILP)模型的目标函数:
其中,min表示求最小值;
表示任务部署集合;
表示MEC节点集合
表示MEC节点空闲时的能耗;
表示MEC节点满载时的能耗;
Fh表示节点负载率;
S2,采用图到序列结构的神经网络模型求解构建的目标函数,输出一个部署决策Y,该序列表示了每个子任务部署到MEC节点的状况。
进一步地,所述混合整数线性规划模型的约束包括:
其中fvh=1表示表示子任务v成功部署到节点h上;
表示复杂任务即任务集合;
表示节点集合;
分别代表子任务v执行需要的计算资源、内存资源和存储资源;
分别代表MEC节点h可以提供的计算资源、内存资源和存储资源;
bl v表示子任务v执行需要的带宽使用量;
bl表示该链路的最大带宽;
dh s、分别表示MEC节点的链路延迟,子任务在MEC节点上的执行延迟,复杂任务允许的最大延迟;
l表示一条通信链路;
L表示通信链路集合。
式(5)表明对于复杂任务中的任意子任务v,在同一时间只能在一个MEC节点上执行。其次,式(6)~(8)分别表示所有子任务在某一个MEC节点上使用的CPU、内存和存储资源不会超过该MEC节点的可用资源。再次,式(9)表明每条链路中的总带宽使用量不会超过该链路的最大带宽bl。最后,在式(10)中,本发明考虑了一个简单的延迟模型,复杂任务部署问题中的延迟包括子任务传输到MEC节点的链路延迟dl v和子任务在MEC节点上的执行延迟dh v,其延迟之和不超过复杂任务允许的最大延迟
进一步地,所述图到序列结构的神经网络模型包括图编码器和循环神经网络解码器;
基于所述图编码器,从子任务序列中构建依赖关系,包括:
S01,构造任务图;
S02,使用双向门控图神经网络(BiGGNN)处理任务图,以交错的方式从输入边和输入边学习子任务节点的特征表示,得到节点嵌入
S03,对节点嵌入应用线性映射,然后对所有的节点嵌入应用最大池化,得到图嵌入
图编码器采用一种动态图构造方法从子任务序列中构建依赖关系,以确保神经网络模型能够适应不断变化的MEC环境,从而提高任务执行的效率和满足时延要求。
基于所述循环神经网络解码器,生成部署序列的概率分布,包括:
将图嵌入作为解码器初始隐藏层状态,同时利用节点嵌入计算注意力得分;在每一步中,解码器生成一个MEC节点编号,然后通过一个全连接层和Softmax函数输出部署序列的概率分布。
进一步地,所述任务图的求解过程包括:
S000,计算子任务稠密邻接矩阵:任务序列X={x1,x2,...,xM}经过嵌入层得到一个任务嵌入矩阵其中M表示复杂任务中的子任务数量,D表示嵌入向量的维度;然后对该任务嵌入矩阵应用自注意力机制计算出子任务稠密邻接矩阵
A=ReLU(WE)TReLU(WE) (11)
其中,是一个可训练的权重矩阵;
F是隐藏层的维度;
ReLU是激活函数;
T表示矩阵的转置;
E表示任务嵌入矩阵;
S001,提取相对重要的信息:使用K最近邻法对稠密邻接矩阵A进行稀疏化处理,每个子任务节点只保留与其依赖关系最强的K个子任务及注意力分数(依赖关系较弱的会被掩码掉),从而得到一个稀疏邻接矩阵即任务图;
S002,对图进行归一化,并将原来每个节点的双向图划分为传入方向和传出方向:通过对稀疏邻接矩阵及其转置分别进行Softmax运算,并根据它们的传入和传出方向计算出两个归一化邻接矩阵
其中,Softmax函数是归一化指数函数。
单一邻接矩阵只能得出传出方向信息,其转置是传入方向信息。因此考虑传入方向和传出方向的效果就是吸收节点的双向信息来表征节点。
进一步地,所述S02包括:
首先使用双向门控递归单元(BiGRU)从任务嵌入矩阵E中提取任务序列中的所有子任务节点信息作为初始节点嵌入h(0),其中每个子任务的节点嵌入为hv;在跳值为k时,对于图中的每个节点v应用一个聚合函数,该函数将一组传入或传出的邻近节点v'权重向量作为输入,并输出一个向后或向前的聚合向量;
然后计算聚合的加权平均值,其中权重向量来自规一化后的邻接矩阵,其定义如下:
其中v'表示一组传入或传出的邻近节点;
分别表示节点v的相邻的传入节点的集合和相邻的传出节点的集合;
表示一组传入的邻近节点v'权重向量;
表示一组传出的邻近节点v'权重向量;
表示输出的向后的聚合向量;
表示输出的向前的聚合向量;
选择在每一跳k融合两个方向上聚合信息:
Fuse(a,b)=z⊙a+(1-z)⊙b,z=σ(Wz[a;b;a⊙b;a-b]+bz) (16)
其中,表示融合两个方向后的结果;
Fuse是融合函数,具体见公式(16);
⊙代表元素逐个相乘;
σ代表Sigmoid函数;
Wz[]表示权重;
z是门控向量;
bz表示偏置;
最后使用GRU,通过合并聚合信息来更新节点嵌入:
表示节点第k跳的状态嵌入;
表示节点第k-1跳的状态嵌入;
经过n跳的计算,得到节点的最终状态嵌入
进一步地,通过强化学习及策略梯度优化训练图到序列结构的神经网络模型(策略网络):
首先,在给定复杂任务序列的所有可能部署决策中,定义产生的期望能耗从而消除不同部署决策带来的影响:
其中表示求E(Y)的期望,Y∈πθ(·|X),表示其中的部署决策Y来自于πθ(·|X),πθ(·|X)表示在任务X下产生的所有可能策略;
E(Y)表示部署决策Y所产生的总能耗;
然后,为了从所有可能的任务组合中推断出子任务部署的策略,对上述公式再求期望,去除不同任务组合带来的影响:
其中表示求的期望,其中的X来自于
表示输入任务序列的分布;
X表示其中的一个任务序列;
优化问题就转化为了寻找使期望能耗最小的策略:
其中,表示环境返回的第i个约束不满足信号,所述信号包括CPU、内存、存储、带宽和延迟累计约束不满足;
利用拉格朗日松弛技术,将该问题转化为一个不受约束的问题,如式(22)所示:
其中,是拉格朗日目标函数;
g(λ)是拉格朗日对偶函数;
λi是拉格朗日乘子,也是惩罚系数;
为期望惩罚,其值是所有约束不满足信号的期望加权和。
对偶函数是一个凸函数,因此可以据此找到产生最下界的拉格朗日系数,从而求得原始问题的最优值,拉格朗日对偶问题如下所示:
然后手动选择拉格朗日乘子,由此产生的拉格朗日函数为最终目标函数;我们希望对策略网络中的参数θ进行更新,使得目标函数越来越小。
经过梯度下降更新,得到神经网络模型参数θnew:
其中θnow表示神经网络模型的参数;
β表示学习率;
表示对拉格朗日函数求导。
进一步地,在神经网络模型参数θnew求取过程中,除了梯度下降之外,还使用策略梯度定理,包括:
使用蒙特卡洛近似方法去近似策略梯度,从状态空间中随机抽出B个样本;同时,使用一个不依赖于动作Y的基线减少梯度的方差,加快收敛速度;
L(Yj|Xj)表示第j次迭代得到的期望能耗惩罚;
表示输入为Xj的预测值;
Xj表示第j个任务序列;
▽θlogπθ(Yj|Xj)表示对策略网络πθ(Yj|Xj)的对数求导。
进一步地,还包括采用带基线的REINFORCE算法加快神经网络模型训练速度,包括:
使用一个只与状态(任务序列)X相关的价值网络去近似基线,价值网络的输入与策略网络相同,为状态空间价值网络参数θc使用随机梯度下降训练,价值网络的损失函数为预测值和从环境中获得的实际惩罚期望的均方误差:
其中B表示状态空间中的样本数量;
表示输入为Xj的预测值;
Xj表示第j个任务序列;
L(Yj|Xj)表示第j次迭代得到的期望能耗惩罚;
||||2表示二范数的平方。
综上所述,由于采用了上述技术方案,本发明方法能够快速获得部署策略,并且部署策略在有效性、质量方面均优于现有的复杂任务部署方法。具体优点为:
(1)本发明设计了一种新的融合了强化学习框架和策略梯度的方法来解决MILP问题。该方法通过神经网络与多个边缘节点的持续交互来学习最优部署策略,同时在搜索空间中自动寻找最优解绝方案。
(2)为处理并提取多个子任务之间潜在的图结构依赖,本发明设计了一个新的图到序列模型,该模型先对子任务的依赖关系图进行编码,然后使用循环神经网络对部署序列进行解码以提高求解效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是MEC环境下的复杂任务部署场景示意图。
图2是本发明DRL-G2S方法模型框架示意图。
图3是图到序列方法学习历史曲线图。
图4是图到序列方法损失函数图。
图5是不同算法下的子任务部署错误率比较图。
图6是不同算法下的MEC节点总能耗比较图。
图7是不同算法下的求解时间比较图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
1相关工作
在MEC环境中,边缘网络的拓扑结构和计算能力存在较大差异,边缘节点所能提供的资源相对有限。因此,MEC环境下的调度问题具有特殊性,主要以能耗和延迟为优化目标。针对MEC中已决定卸载的任务,根据其相关资源需求情况进行任务部署,可以概括为单计算节点和多计算节点两大类。对于任务分配到单个计算节点问题,Sun等人针对多用户单MEC节点,引入了一个名为计算效率的新指标,并提出了一个结合本地计算和数据卸载的联合计算算法。优化问题的目的是使用户之间的计算效率加权和最大化,并使用迭代和梯度下降方法进行求解。Yang等人研究了在一个具有单一MEC节点的多用户非正交多址MEC系统中最小化卸载延迟的问题。通过采用深度Q网络强化学习算法,在不事先了解其他用户行动的情况下确定了最佳用户组合状态,从而在多用户场景下将非正交多址应用于MEC时显著降低了系统卸载延迟。更进一步地,Wang等人将复杂任务用有向无环图结构加以表示,提出了一个基于DRL的MEC系统的卸载框架,通过使用循环神经网络来解决动态场景下的任务卸载。Li等人在多用户多MEC节点的场景下,将计算卸载和资源分配的联合优化问题表述为一个混合整数非线性优化模型,并提出了基于遗传算法的两阶段优化算法以获得优化解。Cui等人为MEC中的物联网提出了一种改进的细粒度调度算法,对子任务的执行位置和调度顺序进行优化决策,从而减少服务延迟。然而,随着各种对计算能力要求较高的智能化应用或区块链应用的不断涌现,越来越多的计算任务可以从逻辑上划分为多个关联的子任务并在多个服务节点上部署执行,而现有技术尚缺乏针对复杂任务进行高效部署决策进行探讨。
基于深度学习方法来解决组合优化问题目前已经取得了一些初步的结果,但由于主要沿用了监督学习的模式,样本的获取限制了求解问题的规模。而强化学习通过自学习的方式,让智能体不断地与环境进行交互并执行反馈动作从而搜索优化解,这使得该方法所学习到的策略能够充分利用问题的结构从而获得质量更好的优化解。但在实际场景下,对于日益复杂的各类任务请求,如何在满足边缘服务质量的同时进行任务的高效部署决策并改善系统能耗开销仍需深入研究。
2系统框架与建模
2.1场景描述及形式化定义
本发明研究的MEC场景如图1所示,多个移动设备(如:异构物联网终端、移动设备或者智能车等)通过物联网网关或基站就近连接了多个资源异构的MEC服务节点。在移动设备上运行了不同的复杂任务。复杂任务可以从逻辑上分解为多个相互关联的子任务,子任务之间的关系可以是一般化的图结构。由于虚拟化技术的引入,MEC服务节点可以实例化出多个虚拟服务节点(Virtualized Service Node,VN),如:虚拟机(Virtual Machine,VM)或轻量化容器(Container)。这使得边缘服务商可以灵活地对请求任务的部署进行决策。边缘服务商接收到来自移动设备的任务卸载请求后,根据子任务执行所需资源、子任务之间的逻辑连接关系以及MEC服务节点当前可用的计算、存储和存储等IT资源等,通过虚拟架构管理器(Virtual Infrastructure Managers,VIMs)的控制系统实现对子任务在VN上的映射部署。本发明以MEC节点总能耗最小化为优化目标,同时将VN中的网络链路带宽和延迟约束纳入考虑。
为了详细描述该问题,移动设备的复杂任务表示为一个图结构,用表示。其中,顶点集合由M个子任务组合而成,定义为每一个子任务可以用一个三元组表示,分别代表子任务v执行需要的计算资源、内存资源和存储资源。ε表示图结构中边的集合,定义为其中e(v,v′)表示子任务v和子任务v′之间存在依赖关系。MEC网络由N个MEC节点组成,定义为其中每个MEC节点可以用一个三元组表示,分别代表MEC节点h可以提供的计算资源、内存资源和存储资源。因此本发明的复杂任务部署问题转化为寻找一个最优的任务部署集合其中表示子任务v是否成功部署到节点h上(1表示成功部署,0表示未部署)。
在MEC节点能耗方面,现有技术只考虑节点能耗与CPU利用率呈线性关系,不同的是本发明从多个维度考虑节点的能耗,将内存和存储也纳入其中。为此,本发明定义了节点负载率Fh,为MEC节点中各个组件赋予了不同的权重比例,然后通过加权求和的方式得到每个节点的负载率,如公式(1)所示:
其中,分别代表MEC节点h的CPU、内存、存储的利用率。ω1、ω2、ω3分别代表CPU、内存、存储在MEC节点中的负载占比,其值在0到1之间。利用率定义如公式(2)所示:
其中分别代表子任务v执行需要的计算资源、内存资源和存储资源;
分别代表MEC节点h可以提供的计算资源、内存资源和存储资源;
表示子任务v是否成功部署到节点h上。
本发明将MEC节点满载时的能耗定义为Eh max,MEC节点空闲时的能耗定义为Eh idle,由此可以得到所有MEC节点执行子任务时的总能耗如公式(3)所示:
其中Fh表示节点负载率;
此外,本发明考虑移动设备与MEC节点之间的通信链路资源。假设如果移动设备的子任务部署到MEC节点上,则两者之间存在一条通信链路l(1≤l≤N),所有链路组成的集合定义为L,N表示通信链路总数。
2.2模型建立
本发明针对MEC环境中的复杂任务在多个边缘节点部署问题进行建模分析。该模型充分考虑了诸如CPU、内存、存储资源等硬件约束,以及通信过程中的带宽和时延约束。模型目标是通过找到复杂任务的多个子任务的部署策略,使得边缘系统在服务过程中所产生的总能耗最优。该模型为一个MILP模型,结合前文中的相关定义,目标函数及相关约束条件如下:
约束于:
在上述的约束条件之中,首先,式(5)表明对于复杂任务中的任意子任务v,在同一时间只能在一个MEC节点上执行。其次,式(6)~(8)分别表示所有子任务在某一个MEC节点上使用的CPU、内存和存储资源不会超过该MEC节点的可用资源。再次,式(9)表明每条链路中的总带宽使用量不会超过该链路的最大带宽bl。最后,在式(10)中,本发明考虑了一个简单的延迟模型,复杂任务部署问题中的延迟包括子任务传输到MEC节点的链路延迟dl v和子任务在MEC节点上的执行延迟dh v,其延迟之和不超过复杂任务允许的最大延迟
此外,式(4)中定义的优化问题可以进一步分类为MILP问题。具体来说每个子任务被视为多维装箱问题(Multi-dimensional Bin Packing Problem,MDBPP)中的一个“物品”,其所需的资源,包括CPU、内存、存储、带宽和延迟,对应于物品的不同维度或属性。同时,MEC节点被视为具有有限资源能力的“容器”。通过将每个子任务分配到资源有限的MEC节点中,我们可以将所有子任务放置在MEC节点上,在满足资源限制的同时,使整体能耗最小。这可以被看作是解决一个MDBPP,目标是将所有物品打包到最少的容器中,同时不超过任何容器中任何维度的容量。由于MDBPP是一个NP-hard问题,因此式(4)继承了MDBPP的NP-hard属性,难以在多项式时间内找到全局最优解。为了克服这一困难并寻求一种有效的解决方案,本发明引入了融合了G2S的DRL方法来求解(4)中定义的MILP问题。
3融合了图到序列的深度强化学习求解方法
本发明利用DRL框架解决MEC环境中复杂的任务部署问题。通过将深度学习与强化学习相结合,运用神经网络来表示策略和值函数,我们能够有效地处理高维度且复杂的问题在DRL智能体内,子任务间的关系可以表示为图结构,因此我们采用图神经网络来捕捉这些依赖关系。同时,根据子任务需要生成一个相应的部署决策序列,因此我们对经典编码-解码结构进行改进,构建了一个图到序列模型。整个DRL框架首先利用马尔科夫决策过程(MDP)对该优化问题进行建模,然后使用蒙特卡洛策略梯度方法(REINFORCE)去解决问题。图2详细地展示了本发明所提出的DRL-G2S方法的相关细节。
3.1图到序列模型框架
在本发明中提出的DRL方法中,Agent采用了一个图到序列结构的神经网络模型,它主要由图编码器和循环神经网络解码器两部分组成。在这个神经网络模型中,一开始就给出固定的子任务依赖关系图作为模型输入进行训练是不合理的。这是因为在复杂的MEC环境中,子任务之间的依赖关系可能并非固定不变。相反,它们可能需要根据任务的实际情况进行动态调整。因此,在图编码器中,采用一种动态图构造方法从子任务序列中构建依赖关系,以确保神经网络模型能够适应不断变化的MEC环境,从而提高任务执行的效率和满足时延要求。
在这种方法中,任务序列X={x1,x2,...,xM}经过嵌入层得到一个任务嵌入矩阵其中M表示复杂任务中的子任务数量,D表示嵌入向量的维度。然后对该任务嵌入矩阵应用自注意力机制计算出子任务稠密邻接矩阵
A=ReLU(WE)TReLU(WE) (11)
其中,是一个可训练的权重矩阵,F是隐藏层的维度,ReLU是一个常用的激活函数,T表示矩阵的转置。
使用K最近邻法(K-Nearest Neighbor,KNN)的思想对稠密邻接矩阵A进行稀疏化处理,即每个子任务节点只保留与其依赖关系最强的K个子任务及注意力分数(依赖关系较弱的会被掩码掉),从而得到一个稀疏邻接矩阵
受双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)的启发,通过对所得到的稀疏邻接矩阵及它的转置分别进行Softmax运算,并根据它们的传入和传出方向计算出两个归一化邻接矩阵
其中,Softmax函数是归一化指数函数,将一组输入值(通常称为logits)映射到一个概率分布,使得所有输出值的和为1。
在构造好任务图(动态图)之后,本发明使用双向门控图神经网络(BidirectionalGated Graph Neural Network,BiGGNN)来处理任务图,以交错的方式从输入边和输入边学习子任务节点的特征表示。与传统的图神经网络相比,如图卷积网络(GCN)和图注意力网络(GAT),BiGGNN并不依赖于卷积运算,而是利用循环神经网络实现节点表示向量的更新。通过在节点之间沿有向边进行信息传递和状态更新,可以更好地捕捉图结构中的复杂关系和依赖。
在本发明的BiGGNN中,我们首先使用双向门控递归单元(Bidirectional GatedRecurrent Unit,BiGRU)从任务嵌入E中提取任务序列中的所有子任务节点信息作为初始节点嵌入h(0),其中每个子任务的节点嵌入为hv。在跳值为k时,对于图中的每个节点v应用一个聚合函数,该函数将一组传入(或传出)的邻近节点v'权重向量(或)作为输入,并输出一个向后(或向前)的聚合向量(或)。然后计算聚合的加权平均值,其中权重向量来自规一化后的邻接矩阵,其定义如下。
其中v'表示一组传入或传出的邻近节点;
分别表示节点v的相邻的传入节点的集合和相邻的传出节点的集合;
在这里,本发明选择在每一跳k融合两个方向上聚合信息。其中,Fuse是一个自定义的融合函数,其意义为两个信息源的门控和,具体见公式(16)。⊙代表元素逐个相乘,σ代表Sigmoid函数,z是门控向量。
Fuse(a,b)=z⊙a+(1-z)⊙b,z=σ(Wz[a;b;a⊙b;a-b]+bz) (16)
其中表示融合两个方向后的结果;
bz表示偏置;
Wz[]表示权重;
最后使用GRU,通过合并聚合信息来更新节点嵌入。
经过n跳的计算,得到节点的最终状态嵌入其中n是一个超参数。为了计算图嵌入我们首先对节点嵌入应用线性映射(linear projection),然后对所有的节点嵌入应用最大池化(max pooling),从而获得一个F维的向量
在循环神经网络解码器方面,本发明采用序列到序列模型架构,并使用了基于注意力机制的GRU解码器。解码器将图嵌入作为GRU初始隐藏层状态,同时利用节点嵌入来计算注意力得分。在每一步中,解码器生成一个MEC节点编号,然后通过一个全连接层和Softmax函数输出部署序列的概率分布。图到序列模型的算法设计可参见表1。
表1图到序列模型算法
3.2强化学习及策略梯度优化
在强化学习的框架中,强化学习由智能体(Agent)和环境(Environment)组成。Agent从Environment获取某个状态后,利用该状态输出一个动作(Action),Action会在环境中被执行,然后Environment根据Agent所采取的动作,输出下一个状态(State)以及当前动作所带来的奖励(Rewards)。强化学习的目的就是寻找一个策略,使得累计奖励(也称为回报)的期望最大化。这个策略称为最优策略。在本发明所研究的场景中,移动设备、MEC节点以及无线链路组成了强化学习的环境,Agent是一个深度神经网络。首先移动设备发送的复杂任务作为状态被Agent接收,然后Agent根据所制定的策略给出相应的部署决策作为动作,最后由环境执行该部署决策并给出一个奖励反馈。同时,移动设备发送新的任务作为下一个状态。在该任务部署模型中,状态空间、动作空间以及奖励函数的详细定义如下:
状态空间:移动设备发送的复杂任务可以表示为一个任务序列X={x1,x2,...,xM},其中1≤xv≤M,该序列是MEC环境传递给Agent的一个状态,所有可能的任务序列构成的空间称为状态空间,定义为
动作空间:经过Agent中神经网络的训练,Agent将输出一个部署决策序列Y={y1,y2,...,yN},其中1≤yh≤N,该序列是表示了每个子任务部署到MEC节点的状况,所有可能得到的部署决策构成的空间称为动作空间,定义为
奖励函数:复杂任务部署的目标是最小化MEC系统的总能耗,在假设的多MEC节点环境中,每次执行任务部署决策后,会根据每个子任务部署到相应MEC节点以及链路通信情况,计算复杂任务部署的总能耗。如果总能耗较大,环境就会给出一个负反馈作为奖励;相反,如果总能耗较低,环境就会给出一个正反馈作为奖励。因此,我们将部署序列为Y时所产生的总能耗E(Y)作为奖励函数。
在复杂任务部署问题中,可行解的组合数量极多,其解的空间规模庞大,基于价值的学习方法很难学到一个较好的结果。因此本发明选择使用深度神经网络π(Y|X;θ)去近似策略函数,该神经网络被称为策略网络,θ表示神经网络的参数。每当观测到一个状态X,就用策略网络计算出每个动作的概率值,然后做随机抽样,得到一个动作Y,最后交由环境执行该动作。
为了找到一个良好的策略函数,策略的质量应仅依赖于神经网络参数θ,而不受任何时刻的状态和动作的影响。为此,本发明使用策略梯度方法定义一个目标函数,该目标函数代表每个权值θ向量所获得的期望回报。通过不断地迭代更新,使任务部署模型Agent能够适应各种情况。首先,在给定复杂任务序列的所有可能部署方案Y∈πθ(·|X)中,定义产生的期望能耗从而消除不同部署方案带来的影响:
其中表示求E(Y)的期望,其中的部署决策Y来自于π;
E(Y)表示部署决策(部署序列)Y所产生的总能耗;
神经网络一次训练中有batch个样本,产生的决策是不同的,所以要对决策求期望消除不同决策的影响。
然后,Agent需要从所有可能的任务组合中推断出子任务部署的策略。因此,对上述公式再求期望,去除不同任务组合带来的影响:
其中表示求的期望,其中的X来自于
表示输入任务序列的分布;
X表示其中的一个任务序列;
神经网络需要从所有输入任务序列中推断出部署决策,其能耗来自任务序列分布的期望,所以要对任务序列分布求期望消除任务序列的影响。
此时,策略函数只受权重θ影响。同时,需要考虑与策略相关联的约束不满足情况,其可以表示为:
其中表示环境返回的约束不满足信号;
至此,上节所描述的优化问题就转化为了寻找使期望能耗最小的策略:
其中,表示环境返回的第i个约束不满足信号。在本发明的场景中,有五个信号,它们分别代表CPU、内存、存储、带宽和延迟累计约束不满足。
考虑式(21)中描述的原始问题的最优值,即目标函数在满足约束条件下可以获得的最小值。利用拉格朗日松弛技术,将该问题转化为一个不受约束的问题,其中不可行的解决方案受到惩罚,如式(22)所示:
其中,是拉格朗日目标函数,g(λ)是拉格朗日对偶函数,λi是拉格朗日乘子,也是惩罚系数。同时,定义为期望惩罚,其值是所有约束不满足信号的期望加权和。
对偶函数是一个凸函数,因此可以据此找到产生最下界的拉格朗日系数,从而求得原始问题的最优值。拉格朗日对偶问题如下所示:
在本发明中,我们手动选择拉格朗日乘子,由此产生的拉格朗日函数变成了我们需要推导策略的最终目标函数。我们希望对策略网络中的参数θ进行更新,使得目标函数越来越小。因此我们采用蒙特卡洛策略梯度以及梯度下降更新θ。设当前策略网络的参数为θnow,经过梯度下降更新,得到新的参数θnew:
其中β表示学习率;
表示对拉格朗日函数求导;
我们使用策略梯度定理,用对数似然法导出了拉格朗日梯度:
其中,L(Y|X)定义为每次迭代得到的期望能耗惩罚,它是能耗信号E(Y|X)和所有约束不满足信号C(Y|X)之和。
在实际操作中,通过连加或者定积分求出期望计算量非常大,解析出该期望几乎是不可能的。为此,本发明使用蒙特卡洛近似方法去近似策略梯度,从状态空间中随机抽出B个样本同时,使用一个不依赖于动作Y的基线减少梯度的方差,加快收敛速度。
L(Yj|Xj)表示第j次迭代得到的期望能耗惩罚;
其中,本发明使用一个只与状态X相关的状态价值网络去近似基线,网络的输入与策略网络相同,是策略梯度的一个无偏估计。该神经网络参数θc使用随机梯度下降训练,损失函数为预测值和从环境中获得的实际惩罚期望的均方误差。
||||2表示二范数的平方;
B表示状态空间中的样本数量。
本发明提出的基于DRL的复杂任务部署算法如表2所述。
表2基于带基线的REINFORCE算法的复杂任务部署训练算法
5实验与结果分析
5.1实验环境搭建
本发明通过模拟了一个包含单个移动设备和多个MEC节点的复杂任务部署场景。实验在一台深度学习服务器上进行,其硬件配置包括I9处理器(主频3.0GHz),NVIDIAGeForce RTX3090 GPU,64GB内存以及2TB固态硬盘。同时,实验利用了Pytorch 1.8实现深度学习和神经网络部分,并在Pycharm平台上实现了实验代码。MEC节点随机分布在多个移动设备周围半径为1kM的范围内。为了深入评估不同网络规模下子任务部署的情况,本发明设计了小型规模和大型规模两种实现环境。其中,不同规模下的MEC节点的数量分别为10和20。
为模拟真实的复杂任务,本发明实现了一个复杂任务图结构生成器来随机生成任务序列。生成器包括的参数如下:(1)任务长度:每个图中的子任务数量。小规模环境下,任务长度从12增加到24,步长为2;大规模环境下,任务长度从20到32,以步长为2逐渐增加。(2)资源需求量:包括CPU、内存和存储的需求量。鉴于子任务是在MEC节点的虚拟机或容器中执行,本发明对物理节点资源进行抽象,将CPU、内存、存储等物理资源转换为可管理、调度、分发的逻辑资源。其中从{1,2,4}中随机选择CPU核心数量,从{1,2,4,8}中随机选择内存大小,从{50,100,150,250}中随机选择存储容量。(3)子任务需求带宽:子任务部署到MEC节点上时,每个子任务执行的带宽需求量,服从[10,100]的均匀分布。(4)子任务容忍时延:为了简化时延问题,部署问题中每个子任务都有一个从上传数据到执行完成的最大容忍时延,服从[1,10]的均匀分布。
在MEC节点的参数设置方面,本发明模拟了真实环境中的节点异构性,即:节点的参数规格以及可提供的IT资源规模存在差异。其中,MEC节点的满载功耗因具体规格、配置和应用场景而异。通常MEC节点会根据其处理能力、内存、存储和其他硬件组件的需求进行设计,以确保能效比(性能与功耗之比)达到最佳。假设了四种类型的MEC节点,每个节点的闲置功耗为100瓦。针对大规模环境,我们选择Type1型8台,Type2型6台,Type3型4台,Type4型2台;针对小规模环境,我们选择Type1型4台,Type2型3台,Type3型2台,Type4型1台。MEC节点参数详情见表3。
表3 MEC节点参数
此外,在模型训练方面,针对深度强化学习框架和图神经网络的部分网络参数设置,见表4所示。
表4 MEC节点参数
节点类型 | 取值范围 |
学习率(智能体) | 0.001 |
批处理大小 | 128 |
嵌入层维度 | 3 |
图神经网络计算跳数 | {1,2,3} |
学习率(基线) | 0.1 |
温度超参数 | 2 |
推理模型数 | 6 |
温度超参数抽样数量 | 16 |
5.2对比算法介绍
在本实验中,为了验证所提出的方法,本发明将其与三种不同的基线方法进行比较。以下是这些算法的相关描述:
(1)首次适应算法(First Fit,FF):FF及其变种算法是经典的资源分配和任务调度算法,广泛应用于数据中心及云计算等领域。FF算法的核心思想是按照一定的顺序(例如:任务到达顺序)对任务进行处理,将每个任务分配给第一个能够满足任务需求的资源。在实验中,该启发式算法能够遍历MEC环境中的所有节点节点,探索出各种可能的部署情况。
(2)神经组合优化算法(Neural Combinatorial Optimization,NCO):这是一种神经组合优化方法,用于解决组合优化问题。该算法使用神经网络来建模优化问题,并采用基于强化学习的方法来训练网络,以获得最优解。NCO算法在组合优化问题上求解质量较好,但模型训练和实现需要较高的计算资源。
(3)Gurobi求解器:Gurobi是一款高性能的商用数学优化求解器,主要用于解决各类优化问题。无论求解速度还是解的质量,Gurobi求解器都有很好的表现。本发明选择其求解结果作为理论最优结果。尽管Gurobi求解器具有卓越的性能,但在MEC环境下,用户对任务的服务时间要求很高,许多时候需要秒级的反应时间给出良好的调度策略。因此,实验中将求解器求解出有效的调度策略的时间限制在1秒以内。
5.3评价指标
本发明选取了以下几个关键指标作为评价标准,从多个角度对比了各种不同的算法。
(1)模型稳定性:评估模型训练过程中的历史学习曲线的收敛性。通过分析模型在训练过程中损失曲线的波动情况来判断模型是否足够稳定。
(2)任务部署错误率:能够直接评估各种部署策略的有效性。复杂任务的多个子任务在各个不同边缘节点上部署所产生的期望惩罚为部署错误率。如果调度结束后期望惩罚为0,则认为调度方案有效,否则部署失败。
(3)期望能耗:评估在不同部署策略下系统的能耗开销。该指标是能耗优化的最重要指标,良好的部署算法应在满足其他约束条件下,尽量降低系统整体能耗。该指标直接影响边缘服务商的运营开销。
(4)策略求解时间:评估不同部署策略获得部署决策解的时间开销。MEC中用户向边缘节点发起任务卸载后边缘服务商得到调度策略的时间尤为关键,因此该指标直接影响用户的业务体验。
5.4结果分析
在本节中,我们将通过应用上述的各种评价标准,在小规模和大规模环境下对提出的方法进行实验,并对实验结果进行深入分析。首先,我们对所提出的图到序列模型的性能进行了评估。通过研究图到序列模型在不同任务长度下的学习历史,来分析模型的稳定性以及适用性。如图3所示,以小规模环境为例,主要对比了任务长度分别为12、16、20以及24的四种任务序列。随着子任务数量的不断增加,可用资源数量将会从空间充足的状态变得越来越有限,为了更加清楚的了解相关的状态,我们引进了期望能耗基线b、惩罚系数和拉格朗日函数的近似值来进行衡量。其中图4展示了神经网络训练的损失函数。
从单一任务长度来看,在学习开始时,智能体生成较多违反约束的随机放置序列,导致惩罚系数较高。然而,在学习过程中,智能体通过随机梯度下降不断调整神经网络参数权重值,使基线值从0增加并逼近拉格朗日函数,从而加速拉格朗日函数的最小化速度。在大量迭代过程后,智能体持续改进其策略,减少约束不满足情况的出现,寻找局部极小值或鞍点,直至达到最终的稳定状态。在不同任务长度中,经过20000轮的迭代,我们可以从图中发现,当任务长度较小时,边缘节点所能提供的资源相对充足,与之相关的惩罚系数在训练后接近0,模型迅速趋于稳定,可以推断出较优的调度策略。然而,随着任务长度的增加,边缘节点所能提供的资源逐渐有限,模型需要更长的时间才能达到稳定状态,同时约束不满足的概率增大,惩罚系数相应提高。
为了验证所提出DRL-G2S的有效性,我们在小规模和大规模环境下,通过应用上述的多种评价标准,将模型的结果与FF算法、Gurobi求解器以及NCO算法进行实时比较。针对不同任务长度,我们分别随机抽取了1000个任务进行测试,根据可行解的数量和最优性来评估结果。在这个实验中,Gurobi求解器在不同规模下的最大执行限制时间分别为1秒和10秒。
针对子任务部署错误率方面。图5显示了在大小两种规模下,通过NCO、Gurobi求解器和FF算法得到的错误率指标。整体来看,随着任务长度的不断增加,不同调度策略的部署错误率也在逐渐增长,这是因为边缘节点所能提供的资源环境更加受限,有效解的空间变得越来越小。从图5(a)中可以看出,在小规模环境下DRL-G2S算法明显优于求解器,NCO和FF算法。同时,求解器,NCO以及FF算法在某些任务长度上几近重合,更加体现了实验环境的稳定性。而当任务长度适中(如任务长度为18时),求解器提供的解决方案和DRL-G2S算法差不多,但相对于另外两种算法有着32.7%的提升。总的来说,在解的有效性上DRL-G2S算法有着更加良好的表现。而在大规模环境下,如图5(b)所示,Gurobi求解器的错误率较高,这是因为受到了求解时间的限制,Gurobi求解器不能再短时间内获得有效解。FF启发式算法接近NCO算法,但是还是有一定的差距。而DRL-G2S算法在有效解的数量上具有明显优势。
系统能耗开支是本发明关注的重点指标。图6展示了不同调度策略在不同任务长度下的期望能耗对比情况。在图6(a)小规模场景下,两种采用神经网络的算法(DRL-G2S和NCO)的能耗相较于另外两种算法都较低,其中FF算法的能耗始终保持最高,这表明启发式算法所得解的质量并不理想。在图6(b)大规模场景下,Gurobi求解器在任务长度较短(即资源约束较小时)的情况下期望能耗较低,但随着任务长度的不断增加,由于求解时间限制,与其他三种算法相比,其期望能耗变成最高。而FF算法在求解过程中,始终保持较高的期望能耗。在大规模环境中,DRL-G2S算法在能耗效率方面相较于NCO表现更为出色。
最后,我们对不同算法的求解时间进行了比较,如图7所示。由于启发式算法的时间复杂度较低,此处不进行比较。我们计算了整个任务调度的平均求解时间。在小规模场景下,两种神经网络算法(DRL-G2S和NCO)为每个任务给出相应调度策略的平均时间在0.25s到0.5s之间,而Gurobi求解器给出调度策略的平均时间是前者的3倍。在大规模环境下,Gurobi求解器的求解时间甚至达到了5倍之多,基本都接近了处理的时间限制。虽然启发式算法FF在满足条件的解下能够快速给出相应方案,但其解的质量远不及神经网络算法。
综上所述,本发明深入探讨了MEC环境中具有挑战性的多资源约束下的复杂任务部署问题。在考虑多种资源限制条件的同时,以最小化总能耗为目标建立了MILP模型。利用图神经网络方法动态建模子任务间的关系,设计了一个融合图到序列的深度强化学习求解策略。实验结果表明,在相同实验环境下,本发明所提出的求解方法通过持续学习和主动推理部署策略,在综合任务部署错误率、MEC系统总能耗以及算法平均求解时间等关键评价指标方面优于对比算法9.72%、4.82%和10.2%以上。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,包括以下步骤:
S1,在考虑硬件约束以及通信过程中的带宽和时延约束构的基础上,构建混合整数线性规划模型的目标函数:
其中,min表示求最小值;
表示任务部署集合;
表示MEC节点集合
表示MEC节点空闲时的能耗;
表示MEC节点满载时的能耗;
Fh表示节点负载率;
S2,采用图到序列结构的神经网络模型求解构建的目标函数,输出一个部署决策Y,该序列表示了每个子任务部署到MEC节点的状况。
2.根据权利要求1所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,所述混合整数线性规划模型的约束包括:
其中fvh=1表示表示子任务v成功部署到节点h上;
表示复杂任务即任务集合;
表示节点集合;
分别代表子任务v执行需要的计算资源、内存资源和存储资源;
分别代表MEC节点h可以提供的计算资源、内存资源和存储资源;
bl v表示子任务v执行需要的带宽使用量;
bl表示该链路的最大带宽;
分别表示MEC节点的链路延迟,子任务在MEC节点上的执行延迟,复杂任务允许的最大延迟;
l表示一条通信链路;
L表示通信链路集合。
3.根据权利要求1所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,所述图到序列结构的神经网络模型包括图编码器和循环神经网络解码器;
基于所述图编码器,从子任务序列中构建依赖关系,包括:
S01,构造任务图;
S02,使用双向门控图神经网络处理任务图,以交错的方式从输入边和输入边学习子任务节点的特征表示,得到节点嵌入
S03,对节点嵌入应用线性映射,然后对所有的节点嵌入应用最大池化,得到图嵌入
基于所述循环神经网络解码器,生成部署序列的概率分布,包括:
将图嵌入作为解码器初始隐藏层状态,同时利用节点嵌入计算注意力得分;在每一步中,解码器生成一个MEC节点编号,然后通过一个全连接层和Softmax函数输出部署序列的概率分布。
4.根据权利要求3所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,所述任务图的求解过程包括:
S000,计算子任务稠密邻接矩阵:任务序列X={x1,x2,...,xM}经过嵌入层得到一个任务嵌入矩阵其中M表示复杂任务中的子任务数量,D表示嵌入向量的维度;然后对该任务嵌入矩阵应用自注意力机制计算出子任务稠密邻接矩阵
A=ReLU(WE)TReLU(WE) (11)
其中,是一个可训练的权重矩阵;
F是隐藏层的维度;
ReLU是激活函数;
T表示矩阵的转置;
E表示任务嵌入矩阵;
S001,提取信息:使用K最近邻法对稠密邻接矩阵A进行稀疏化处理,每个子任务节点只保留与其依赖关系最强的K个子任务及注意力分数,从而得到一个稀疏邻接矩阵即任务图;
S002,对图进行归一化,并将原来每个节点的双向图划分为传入方向和传出方向:通过对稀疏邻接矩阵及其转置分别进行Softmax运算,并根据它们的传入和传出方向计算出两个归一化邻接矩阵
其中,Softmax函数是归一化指数函数。
5.根据权利要求3所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,所述S02包括:
首先使用双向门控递归单元从任务嵌入矩阵E中提取任务序列中的所有子任务节点信息作为初始节点嵌入h(0),其中每个子任务的节点嵌入为hv;在跳值为k时,对于图中的每个节点v应用一个聚合函数,该函数将一组传入或传出的邻近节点v'权重向量作为输入,并输出一个向后或向前的聚合向量;
然后计算聚合的加权平均值,其中权重向量来自规一化后的邻接矩阵,其定义如下:
其中v'表示一组传入或传出的邻近节点;
分别表示节点v的相邻的传入节点的集合和相邻的传出节点的集合;
表示一组传入的邻近节点v'权重向量;
表示一组传出的邻近节点v'权重向量;
表示输出的向后的聚合向量;
表示输出的向前的聚合向量;
选择在每一跳k融合两个方向上聚合信息:
Fuse(a,b)=z⊙a+(1-z)⊙b,z=σ(Wz[a;b;a⊙b;a-b]+bz) (16)
其中,表示融合两个方向后的结果;
Fuse是融合函数;
⊙代表元素逐个相乘;
σ代表Sigmoid函数;
Wz[]表示权重;
z是门控向量;
bz表示偏置;
最后使用GRU,通过合并聚合信息来更新节点嵌入:
表示节点第k跳的状态嵌入;
表示节点第k-1跳的状态嵌入;
经过n跳的计算,得到节点的最终状态嵌入
6.根据权利要求1所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,通过强化学习及策略梯度优化训练图到序列结构的神经网络模型:
首先,在给定复杂任务序列的所有可能部署决策中,定义产生的期望能耗从而消除不同部署决策带来的影响:
其中表示求E(Y)的期望,Y∈πθ(·|X),表示其中的部署决策Y来自于πθ(·|X),πθ(·|X)表示在任务X下产生的所有可能策略;
E(Y)表示部署决策Y所产生的总能耗;
然后,为了从所有可能的任务组合中推断出子任务部署的策略,对上述公式再求期望,去除不同任务组合带来的影响:
其中表示求的期望,其中的X来自于
表示输入任务序列的分布;
X表示其中的一个任务序列;
优化问题就转化为了寻找使期望能耗最小的策略:
其中,表示环境返回的第i个约束不满足信号,所述信号包括CPU、内存、存储、带宽和延迟累计约束不满足;
利用拉格朗日松弛技术,将该问题转化为一个不受约束的问题,如式(22)所示:
其中,是拉格朗日目标函数;
g(λ)是拉格朗日对偶函数;
λi是拉格朗日乘子,也是惩罚系数;
为期望惩罚,其值是所有约束不满足信号的期望加权和;
对偶函数是一个凸函数,因此可以据此找到产生最下界的拉格朗日系数,从而求得原始问题的最优值,拉格朗日对偶问题如下所示:
然后手动选择拉格朗日乘子,由此产生的拉格朗日函数为最终目标函数;
经过梯度下降更新,得到神经网络模型参数θnew:
其中θnow表示神经网络模型的参数;
β表示学习率;
表示对拉格朗日函数求导。
7.根据权利要求6所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,在神经网络模型参数θnew求取过程中,除了梯度下降之外,还使用策略梯度定理,包括:
使用蒙特卡洛近似方法去近似策略梯度,从状态空间中随机抽出B个样本;同时,使用一个不依赖于动作Y的基线减少梯度的方差,加快收敛速度;
L(Yj|Xj)表示第j次迭代得到的期望能耗惩罚;
表示输入为Xj的预测值;
Xj表示第j个任务序列;
表示对策略网络πθ(Yj|Xj)的对数求导。
8.根据权利要求6所述的一种基于图到序列强化学习的复杂移动任务部署方法,其特征在于,还包括采用带基线的REINFORCE算法加快神经网络模型训练速度,包括:
使用一个只与状态X相关的价值网络去近似基线,价值网络的输入与策略网络相同,为状态空间价值网络参数θc使用随机梯度下降训练,价值网络的损失函数为预测值和从环境中获得的实际惩罚期望的均方误差:
其中B表示状态空间中的样本数量;
表示输入为Xj的预测值;
Xj表示第j个任务序列;
L(Yj|Xj)表示第j次迭代得到的期望能耗惩罚;
||||2表示二范数的平方。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311173555.1A CN117195728A (zh) | 2023-09-12 | 2023-09-12 | 一种基于图到序列强化学习的复杂移动任务部署方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311173555.1A CN117195728A (zh) | 2023-09-12 | 2023-09-12 | 一种基于图到序列强化学习的复杂移动任务部署方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117195728A true CN117195728A (zh) | 2023-12-08 |
Family
ID=88984621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311173555.1A Pending CN117195728A (zh) | 2023-09-12 | 2023-09-12 | 一种基于图到序列强化学习的复杂移动任务部署方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117195728A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649027A (zh) * | 2024-01-25 | 2024-03-05 | 深圳宇翊技术股份有限公司 | 基于智慧车站的数据处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
CN116185523A (zh) * | 2023-01-09 | 2023-05-30 | 北方工业大学 | 一种任务卸载和部署的方法 |
-
2023
- 2023-09-12 CN CN202311173555.1A patent/CN117195728A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
CN116185523A (zh) * | 2023-01-09 | 2023-05-30 | 北方工业大学 | 一种任务卸载和部署的方法 |
Non-Patent Citations (1)
Title |
---|
操民涛: "融合图神经网络与深度强化学习的边缘计算复杂任务部署研究", 万方数据知识服务平台, 8 September 2023 (2023-09-08), pages 2 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649027A (zh) * | 2024-01-25 | 2024-03-05 | 深圳宇翊技术股份有限公司 | 基于智慧车站的数据处理方法及系统 |
CN117649027B (zh) * | 2024-01-25 | 2024-05-07 | 深圳宇翊技术股份有限公司 | 基于智慧车站的数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | A survey on computation offloading modeling for edge computing | |
Liu et al. | Resource allocation with edge computing in IoT networks via machine learning | |
Ho et al. | Joint server selection, cooperative offloading and handover in multi-access edge computing wireless network: A deep reinforcement learning approach | |
Wei et al. | Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning | |
CN113225377B (zh) | 物联网边缘任务卸载方法及装置 | |
CN113873022A (zh) | 一种可划分任务的移动边缘网络智能资源分配方法 | |
CN113778648A (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
Chen et al. | Cache-assisted collaborative task offloading and resource allocation strategy: A metareinforcement learning approach | |
CN117195728A (zh) | 一种基于图到序列强化学习的复杂移动任务部署方法 | |
Qi et al. | Vehicular edge computing via deep reinforcement learning | |
Dong et al. | Content caching-enhanced computation offloading in mobile edge service networks | |
Li et al. | Computation offloading strategy for improved particle swarm optimization in mobile edge computing | |
Zhang et al. | Multi-agent deep reinforcement learning for online request scheduling in edge cooperation networks | |
CN116009990A (zh) | 基于宽注意力机制的云边协同元强化学习计算卸载方法 | |
Chen et al. | Traffic prediction-assisted federated deep reinforcement learning for service migration in digital twins-enabled MEC networks | |
Aliyu et al. | Dynamic partial computation offloading for the metaverse in in-network computing | |
Li et al. | DQN-based computation-intensive graph task offloading for internet of vehicles | |
Li et al. | A multi-objective task offloading based on BBO algorithm under deadline constrain in mobile edge computing | |
Chai et al. | Multi-Task Computation Offloading Based On Evolutionary Multi-Objective Optimization in Industrial Internet of Things | |
Han et al. | Dynamic task offloading and service migration optimization in edge networks | |
CN117880122A (zh) | 一种基于madfpg的任务卸载和资源分配联合优化方法 | |
Xiong et al. | An energy aware algorithm for edge task offloading | |
CN115103338A (zh) | 一种d2d环境下基于深度强化学习的交接卸载方法及装置 | |
Liu et al. | Computation offloading optimization in mobile edge computing based on HIBSA | |
Masdari et al. | Energy-aware computation offloading in mobile edge computing using quantum-based arithmetic optimization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |