CN116467009A - 一种基于深度强化学习的动态资源分配的任务卸载方法 - Google Patents
一种基于深度强化学习的动态资源分配的任务卸载方法 Download PDFInfo
- Publication number
- CN116467009A CN116467009A CN202310352565.5A CN202310352565A CN116467009A CN 116467009 A CN116467009 A CN 116467009A CN 202310352565 A CN202310352565 A CN 202310352565A CN 116467009 A CN116467009 A CN 116467009A
- Authority
- CN
- China
- Prior art keywords
- network
- criticizing
- actor
- environment
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000013468 resource allocation Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 27
- 230000007613 environmental effect Effects 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000006399 behavior Effects 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000005265 energy consumption Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种基于深度强化学习的动态资源分配的任务卸载方法,包括:构建智能体和决策网络;对环境和决策网络进行随机初始化,得到环境初始状态;对环境初始状态进行预处理;对智能体进行训练时将经验重放池进行初始化,并将预处理后的环境初始状态的数据输入至演员‑批评家网络,得到相关的结果,并将结果保存在经验重放池中;对决策网络进行训练,从经验重放池载入指定大小的数据对决策网络进行训练,得到训练过程中的误差,再以后向传播方式对演员‑批评家网络和决策网络的参数进行更新,直到所有数据训练完毕,得到决策网络模型;采用决策网络模型得到任务卸载方案,并根据得到的任务卸载方案对任务进行卸载。本发明能够提高系统的稳定性。
Description
技术领域
本发明涉及边缘计算技术领域,特别是涉及一种基于深度强化学习的动态资源分配的任务卸载方法。
背景技术
随着移动通信技术的发展和智能终端的普及,各种网络服务和应用不断出现,出现了许多具有低延迟要求的计算密集型应用。尽管移动设备的中央处理单元的计算能力越来越强大,但对于计算密集型应用,处理能力还是稍显不足,移动设备自身的算力并不足以在短时间内处理如此巨大的计算任务。此外,本地处理这些任务还面临着设备电池电量快速消耗的问题。因此,在这种背景下,“边缘计算”作为一种新的模型出现,它能够在靠近感知层附近,利用周围可以提供网络、计算、存储、应用等能力的边缘服务器,就近提供各种服务和应用。边缘计算的出现,为物联网提供了很多优势,比如减小物联网应用程序中的延迟问题,提高网络性能,降低营运成本,保证资源的合理使用等等。如果将设备的计算任务适当地划分,部分计算任务卸载到边缘服务器中,可以进一步地提高物联网设备的工作效率。
计算任务卸载技术是指受资源约束的设备完全或者部分的将计算密集型任务卸载到资源充足的云环境中,主要解决了移动设备在存储资源、计算资源以及能量资源等方面不足的问题。计算任务中包含了该任务的信息,如所需计算资源和任务复杂度等。鉴于在边缘计算环境复杂多变,且任务卸载过程中需考虑参数多为高维数据,所以可以利用深度强化学习的优势来进行计算卸载系统的设计。
当前,不同的研究机构公布了不同的任务卸载系统及方法。专利公开文献CN113904947A中公开了一种任务卸载方法,可以解决通信开销大、用户隐私泄露等问题,但是使用的是传统的优化方法,在不同环境下需要重新求得最优解。专利公开文献CN113891477A公开了一种车联网中基于MEC计算卸载的资源分配方法,将计算资源分配子问题建模为凸优化问题,降低系统开销,但是对于不同系统,所要考虑的环境不同,导致该方法难以移植。专利公开文献CN113873660A公开了一种无人机辅助的服务缓存边缘计算最优计算卸载决策与资源分配方法,采用遗传算法框架对目标问题进行求解,但是在针对不同问题时,需要重新设定编码,而过于复杂的编码对于用户设备来说存在计算复杂度过高的问题。专利公开文献CN113905049A公开了一种基于分布式强化学习的卸载决策优化方法,但是由于边缘计算复杂的环境,导致传统强化学习难以解决如此高复杂度的问题。专利公开文献CN113867843A公开了一种基于深度强化学习的移动边缘计算任务卸载方法,但是该方法未考虑不同设备所卸载任务的计算复杂度和所需系统资源等,未能考虑资源的合理分配。
综上,现有的移动计算任务卸载技术应用于边缘计算任务卸载需要改进的地方。第一,每个不同的移动设备可以得到其他移动设备的一部分历史卸载信息,如服务器给分配的资源等。第二,移动卸载算法应能在长期的任务卸载过程中能够自适应的进行优化,减少工作量。第三,考虑到在一定的时间范围内卸载任务具有时序特点,从而优化自身的网络模型以达到更好的决策效率。
发明内容
本发明所要解决的技术问题是提供一种基于深度强化学习的动态资源分配的任务卸载方法,能够合理分配资源,尽可能减少任务的处理时延和能量消耗。
本发明解决其技术问题所采用的技术方案是:提供一种基于深度强化学习的动态资源分配的任务卸载方法,包括以下步骤:
(1)构建智能体和决策网络,所述智能体包括一个根据环境当前状态输出卸载决策的演员-批评家网络和一个记录历史卸载信息以便训练所述决策网络的经验重放池;所述决策网络为LSTM网络;
(2)对环境和所述决策网络进行随机初始化,得到环境初始状态;
(3)对所述环境初始状态进行预处理,得到所述智能体能够接受的输入数据;
(4)对智能体进行训练,训练时将所述经验重放池进行初始化,并将预处理后的环境初始状态的数据输入至演员-批评家网络,得到相关的结果,并将结果保存在经验重放池中;
(5)对决策网络进行训练,从所述经验重放池载入指定大小的数据对所述决策网络进行训练,得到训练过程中的误差,再以后向传播方式对演员-批评家网络和决策网络的参数进行更新,直到所有数据训练完毕,得到决策网络模型;
(6)基于当前环境状态采用所述决策网络模型得到任务卸载方案,并根据得到的任务卸载方案对任务进行卸载。
所述步骤(3)具体包括:
计算所有的所述环境初始状态的数据的均值和标准差;
通过所述均值和标准差对所有的所述环境初始状态的数据进行标准化处理。
所述步骤(4)具体包括:
(41)将用于存储演员-批评家网络的输出行为、该时刻环境的状态、下一时刻环境的状态、演员-批评家网络产生的评价值的容器初始化为空;
(42)将用于存储和选择数据包的所述经验重放池填充为值0;
(43)将该时刻的环境状态输入到演员-批评家网络中产生行为,并将该行为应用于环境得到下一时刻的环境状态,同时,将环境状态和行为输入到演员-批评家网络中得到评价值,并将这些输入输出存储到所述经验重放池中。
所述评价值R通过得到,其中,/>表示在k时隙分配给用户n的计算资源,/>表示在k时隙用户n的卸载策略,/>表示在k时隙除了用户n的其他用户的卸载策略,/>和/>则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗;ρt和ρe分别表示时延和能耗的权重,其值范围是0和1之间的浮点数,并且满足ρt+ρe=1。
所述步骤(5)具体包括:
(51)将经验重放池中保存的结果作为一个批次进行决策网络训练;
(52)根据经验重放池保存的结果计算所述决策网络在第m个数据包的误差Lossm,并根据所有数据包的误差计算所述决策网络的整体误差;
(53)基于所述决策网络的整体误差采取异策回合更新方法对决策网络的评价值进行更新;
(54)根据演员-批评家网络中批评家部分的输出得到的总奖励和总评价的误差,并根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分;
(55)根据经验重放池中存储的演员-批评家网络的行为计算对应的熵值;
(56)基于所述熵值利用损失函数计算演员-批评家网络的更新误差,并根据所述演员-批评家网络的更新误差,用向后传播的的方式对演员-批评家网络的演员部分的参数进行更新,得到新的演员-批评家网络模型。
所述第m个数据包的误差Lossm通过计算得到,其中,ym为标签值,/>为所述决策网络的输出值;所述决策网络的整体误差为:其中,N为数据包的个数。
所述决策网络的评价值更新方式为:v=(1-α)vtr+αvta,其中,α为超参数,vtr表示训练部分的累计值函数,vta表示目标部分的累计价值函数。
所述步骤(54)中根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分,具体为:
定义演员-批评家网络的批评家部分的目标函数为:其中,Jn(ωn)为目标函数,ωn为所述演员-批评家网络的批评家部分的内部参数;/>表示对方括号内的内容求期望;/>表示当前时刻的环境状态,/>表示初始的环境状态,/>表示当前时刻的环境状态下的值函数,r表示做出动作的奖励值;
对目标函数进行梯度优化,得到梯度函数
基于梯度函数对所述演员-批评家网络的批评家部分进行更新,更新策略为:/>其中,τ为超参数,/>为演员-批评家网络的批评家部分更新后的网络参数,lrc表示批评家网络的学习率。
所述步骤(55)中的熵值通过计算得到,其中,H(·)为熵值,ai表示第i个可供选择的动作,s表示当前的环境状态,θ表示演员-批评家网络的演员部分的内部参数,π(ai|s;θ)表示演员-批评家网络在环境状态s下产生的动作分布。
所述步骤(56)中的演员-批评家网络的更新误差通过L=-log(π(a|s;θ))-βH(·)计算得到,其中,β表示熵权重系数。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过深度强化学习,实现了系统的自动学习能力而不需要外部人员干涉,增加了在环境发生变化的时候边缘计算架构计算任务卸载系统的稳定性。本发明将长短期记忆网络的数据长期记忆和演员-批评家网络自主进行学习的特点进行整合,保证了在处理高维数据的时候既可以得到较好的卸载决策,又能使得得到决策的时间缩短,提高边缘计算架构计算任务卸载系统的性能。本发明利用深度强化学习的训练方式,借鉴演员-批评家网络的架构设计,充分利用了用户卸载历史信息,对系统可用资源进行合理的分配,解决了传统边缘计算架构计算任务卸载系统难以解决的问题——求解过程困难、难以处理高维问题且不能随着环境的改变而自主学习,在环境改变时需人工重新进行求解,同时提高了边缘计算架构计算任务卸载系统的性能。
附图说明
图1是本发明实施方式中智能体的结构示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于深度强化学习的动态资源分配的任务卸载方法,包括以下步骤:
步骤1,构建智能体和决策网络,如图1所示,所述智能体包括一个根据环境当前状态输出卸载决策的演员-批评家网络和一个记录历史卸载信息以便训练所述决策网络的经验重放池;所述决策网络为LSTM网络。本实施方式中的决策网络能够根据其他用户的可见历史信息和该时刻自己本身的信息输出卸载决策,即任务的卸载率和边缘计算服务器的资源的分配量等。同时,该决策会被经验重放池记录,以便更新决策网络,使之有着良好的自适应性。经验重放池会定时删除记录时间过长的卸载决策,只记录最近的信息,这样能够进一步提高决策系统的效率,避免久远的历史信息影响决策系统的输出。
步骤2,对环境和决策网络进行随机初始化,得到环境初始状态。
步骤3,对所述环境初始状态进行预处理,得到所述智能体能够接受的输入数据。由于初始状态是随机产生的,对其进行预处理可保证决策网络不会受到异常初始状态的影响。本步骤中的预处理具体包括:
计算所有的所述环境初始状态的数据的均值μi和标准差δi;
通过所述均值μi和标准差δi对所有的所述环境初始状态的数据进行标准化处理,得到标准化数据,其中,处理方式为:其中,fi为环境初始状态的某个数据,/>为标准化处理后的数据。
步骤4,对智能体进行训练,训练时将所述经验重放池进行初始化,并将预处理后的环境初始状态的数据输入至演员-批评家网络,得到相关的结果,并将结果保存在经验重放池中。本步骤具体包括:
步骤41,运行初始化程序,得到容器Oa,Os,Ons,Or并将各容器初始化为空,容器Oa,Os,Ons,Or用于存储训练过程中的输入数据和输出数据,分别包括决策网络输出的行为、该时刻环境的状态、下一时刻环境的状态、批评家网络产生的评价值(即奖励值)。
步骤42,运行初始化程序,得到一个用于存储和选择数据包的容器,并将该容器填充为值0,该容器作为经验重放池。
步骤43,将该时刻的环境状态输入到演员-批评家网络中产生行为,并将该行为应用于环境得到下一时刻的环境状态,同时,将环境状态和行为输入到演员-批评家网络中得到评价值,并将这些输入输出存储到所述经验重放池中。具体地说,将经过预处理的环境状态S输入到决策网络中,得到智能体对于该状态所做出的动作A;将动作A应用于环境,得到下一时刻的环境状态NS;根据输出动作A计算该行为的奖励值R;最后,将环境状态S、动作A、下一时刻的环境状态NS、奖励值R存储到经验重放池中,以备后续更新网络参数。其中,奖励值R通过奖励函数得到,奖励函数作为强化学习理论中驱动智能体做出决策的核心机制,可以在不需要人为辅助的情况下让智能体在不断的训练中找到最合适的动作策略,因此本实施方式中为了实现演员-批评家网络的自我更新机制,定义奖励函数为:其中,/>表示在k时隙分配给用户n的计算资源,/>表示在k时隙用户n的卸载策略,/>表示在k时隙除了用户n的其他用户的卸载策略,/>和则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗;ρt和ρe分别表示时延和能耗的权重,其值范围是0和1之间的浮点数,并且满足ρt+ρe=1。
步骤5,对决策网络进行训练,从所述经验重放池载入指定大小的数据对所述决策网络进行训练,得到训练过程中的误差,再以后向传播方式对演员-批评家网络的参数进行更新,直到所有数据训练完毕,得到决策网络模型。本步骤具体包括:
步骤51,将经验重放池中保存的结果作为一个批次进行决策网络训练,本实施方式中载入64条数据作为一个批次进行训练。
步骤52,根据经验重放池保存的结果计算所述决策网络在第m个数据包的误差Lossm,并根据所有数据包的误差计算所述决策网络的整体误差。其中,第m个数据包的误差Lossm的计算方式为:ym为标签值,/>为所述决策网络的输出值;所述决策网络的整体误差的计算方式为:/>其中,N为数据包的个数。
步骤53,基于所述决策网络的整体误差采取异策回合更新方法对决策网络的评价值进行更新。本实施方式中根据网络结构,采取异策回合更新方法,即分为训练部分train和目标部分target,得到的决策的评价值可以按照v=(1-α)vtr+αvta进行更新,其中,α表示决策网络的超参数,用来控制边缘计算架构计算任务卸载系统对决策空间的探索程度,其取值范围在0到1之间,vtr表示训练部分的累计值函数,vta表示目标部分的累计价值函数。
步骤54,根据演员-批评家网络中批评家部分的输出得到的总奖励和总评价的误差,并根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分。其中,总奖励和总评价的误差表示为:J=(R-v)2,其中,R为奖励值,v为决策网络的评价值,在进行更新时,具体包括以下步骤:
首先,定义演员-批评家网络的批评家部分的目标函数为:其中,,Jn(ωn)为目标函数,ωn为所述演员-批评家网络的批评家部分的内部参数;/>表示对方括号内的内容求期望;/>表示当前时刻的环境状态,/>表示初始的环境状态,/>表示当前时刻的环境状态下的值函数,r表示做出动作的奖励值;
然后,对目标函数进行梯度优化,其中,梯度函数为:Z表示每一次从经验池中选择的数据条数。
最后,基于梯度函数对所述演员-批评家网络的批评家部分进行更新,更新策略为:/>其中,τ为超参数,表示对行为空间的探索程度,τ越大,探索程度越大,并且0<τ<1,/>为演员-批评家网络的批评家部分更新后的网络参数,lrc表示批评家网络的学习率。
步骤55,根据经验重放池中存储的演员-批评家网络的行为计算对应的熵值,计算方式为:其中,H(·)为熵值,ai表示第i个可供选择的动作,s表示当前的环境状态,θ表示演员-批评家网络的演员部分的内部参数,π(ai|s;θ)表示演员-批评家网络在环境状态s下产生的动作分布。
步骤56,基于所述熵值利用损失函数计算演员-批评家网络的更新误差,并根据所述演员-批评家网络的更新误差,用向后传播的的方式对演员-批评家网络的演员部分的参数进行更新,得到新的演员-批评家网络模型。其中,所述演员-批评家网络的更新误差为L=-log(π(a|s;θ))-βH(·),其中,β表示熵权重系数。
步骤6,训练完成后,得到决策网络模型,基于当前环境状态采用所述决策网络模型得到任务卸载方案,并根据得到的任务卸载方案对任务进行卸载。
本实施方式实施软硬件环境如下:英伟达Titan 5GPU、CUDA 11.2、Ubuntu18.04LST、anaconda 4.9.2、pytorch 1.1.0。最终的模拟实验结果基于下面超参数配置表:
不难发现,本发明通过深度强化学习,实现了系统的自动学习能力而不需要外部人员干涉,增加了在环境发生变化的时候边缘计算架构计算任务卸载系统的稳定性。本发明将长短期记忆网络的数据长期记忆和演员-批评家网络自主进行学习的特点进行整合,保证了在处理高维数据的时候既可以得到较好的卸载决策,又能使得得到决策的时间缩短,提高边缘计算架构计算任务卸载系统的性能。本发明利用深度强化学习的训练方式,借鉴演员-批评家网络的架构设计,充分利用了用户卸载历史信息,对系统可用资源进行合理的分配,解决了传统边缘计算架构计算任务卸载系统难以解决的问题——求解过程困难、难以处理高维问题且不能随着环境的改变而自主学习,在环境改变时需人工重新进行求解,同时提高了边缘计算架构计算任务卸载系统的性能。
Claims (10)
1.一种基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,包括以下步骤:
(1)构建智能体和决策网络,所述智能体包括一个根据环境当前状态输出卸载决策的演员-批评家网络和一个记录历史卸载信息以便训练所述决策网络的经验重放池;所述决策网络为LSTM网络;
(2)对环境和所述决策网络进行随机初始化,得到环境初始状态;
(3)对所述环境初始状态进行预处理,得到所述智能体能够接受的输入数据;
(4)对智能体进行训练,训练时将所述经验重放池进行初始化,并将预处理后的环境初始状态的数据输入至演员-批评家网络,得到相关的结果,并将结果保存在经验重放池中;
(5)对决策网络进行训练,从所述经验重放池载入指定大小的数据对所述决策网络进行训练,得到训练过程中的误差,再以后向传播方式对演员-批评家网络和决策网络的参数进行更新,直到所有数据训练完毕,得到决策网络模型;
(6)基于当前环境状态采用所述决策网络模型得到任务卸载方案,并根据得到的任务卸载方案对任务进行卸载。
2.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(3)具体包括:
计算所有的所述环境初始状态的数据的均值和标准差;
通过所述均值和标准差对所有的所述环境初始状态的数据进行标准化处理。
3.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(4)具体包括:
(41)将用于存储演员-批评家网络的输出行为、该时刻环境的状态、下一时刻环境的状态、演员-批评家网络产生的评价值的容器初始化为空;
(42)将用于存储和选择数据包的所述经验重放池填充为值0;
(43)将该时刻的环境状态输入到演员-批评家网络中产生行为,并将该行为应用于环境得到下一时刻的环境状态,同时,将环境状态和行为输入到演员-批评家网络中得到评价值,并将这些输入输出存储到所述经验重放池中。
4.根据权利要求3所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述评价值R通过得到,其中,/>表示在k时隙分配给用户n的计算资源,/>表示在k时隙用户n的卸载策略,/>表示在k时隙除了用户n的其他用户的卸载策略,/>和/>则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗;ρt和ρe分别表示时延和能耗的权重,其值范围是0和1之间的浮点数,并且满足ρt+ρe=1。
5.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(5)具体包括:
(51)将经验重放池中保存的结果作为一个批次进行决策网络训练;
(52)根据经验重放池保存的结果计算所述决策网络在第m个数据包的误差Lossm,并根据所有数据包的误差计算所述决策网络的整体误差;
(53)基于所述决策网络的整体误差采取异策回合更新方法对决策网络的评价值进行更新;
(54)根据演员-批评家网络中批评家部分的输出得到的总奖励和总评价的误差,并根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分;
(55)根据经验重放池中存储的演员-批评家网络的行为计算对应的熵值;
(56)基于所述熵值利用损失函数计算演员-批评家网络的更新误差,并根据所述演员-批评家网络的更新误差,用向后传播的的方式对演员-批评家网络的演员部分的参数进行更新,得到新的演员-批评家网络模型。
6.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述第m个数据包的误差Lossm通过计算得到,其中,ym为标签值,/>为所述决策网络的输出值;所述决策网络的整体误差为:其中,N为数据包的个数。
7.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述决策网络的评价值更新方式为:v=(1-α)vtr+αvta,其中,α为决策网络的超参数,vtr表示训练部分的累计值函数,vta表示目标部分的累计价值函数。
8.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(54)中根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分,具体为:
定义演员-批评家网络的批评家部分的目标函数为:其中,Jn(ωn)为目标函数,ωn为所述演员-批评家网络的批评家部分的内部参数;/>表示对方括号内的内容求期望;/>表示当前时刻的环境状态,/>表示初始的环境状态,/>表示当前时刻的环境状态下的值函数,r表示做出动作的奖励值;
对目标函数进行梯度优化,得到梯度函数
基于梯度函数对所述演员-批评家网络的批评家部分进行更新,更新策略为:其中,τ为超参数,/>为演员-批评家网络的批评家部分更新后的网络参数,lrc表示批评家网络的学习率。
9.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(55)中的熵值通过计算得到,其中,H(·)为熵值,ai表示第i个可供选择的动作,s表示当前的环境状态,θ表示演员-批评家网络的演员部分的内部参数,π(ai|s;θ)表示演员-批评家网络在环境状态s下产生的动作分布。
10.根据权利要求9所述的基于深度强化学习的动态资源分配的任务卸载方法,其特征在于,所述步骤(56)中的演员-批评家网络的更新误差通过L=-log(π(a|s;θ))-βH(·)计算得到,其中,β表示熵权重系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310352565.5A CN116467009A (zh) | 2023-04-04 | 2023-04-04 | 一种基于深度强化学习的动态资源分配的任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310352565.5A CN116467009A (zh) | 2023-04-04 | 2023-04-04 | 一种基于深度强化学习的动态资源分配的任务卸载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467009A true CN116467009A (zh) | 2023-07-21 |
Family
ID=87178207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310352565.5A Pending CN116467009A (zh) | 2023-04-04 | 2023-04-04 | 一种基于深度强化学习的动态资源分配的任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467009A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117580105A (zh) * | 2024-01-15 | 2024-02-20 | 南京信息工程大学 | 一种面向电网巡检的无人机任务卸载优化方法 |
-
2023
- 2023-04-04 CN CN202310352565.5A patent/CN116467009A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117580105A (zh) * | 2024-01-15 | 2024-02-20 | 南京信息工程大学 | 一种面向电网巡检的无人机任务卸载优化方法 |
CN117580105B (zh) * | 2024-01-15 | 2024-04-19 | 南京信息工程大学 | 一种面向电网巡检的无人机任务卸载优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111835827B (zh) | 物联网边缘计算任务卸载方法及系统 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN111556461B (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN114143346B (zh) | 一种车联网任务卸载和服务缓存的联合优化方法及系统 | |
CN110531996B (zh) | 一种多微云环境下基于粒子群优化的计算任务卸载方法 | |
CN113485826B (zh) | 一种边缘服务器负载均衡方法、系统 | |
Heidari et al. | A QoS-aware technique for computation offloading in IoT-edge platforms using a convolutional neural network and Markov decision process | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN116467009A (zh) | 一种基于深度强化学习的动态资源分配的任务卸载方法 | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN115686846B (zh) | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 | |
CN114546608A (zh) | 一种基于边缘计算的任务调度方法 | |
CN115934344A (zh) | 异构分布式强化学习计算方法、系统及存储介质 | |
CN116016538A (zh) | 面向动态环境的边端协同推理任务卸载优化方法与系统 | |
CN114936708A (zh) | 基于边云协同任务卸载的故障诊断优化方法及电子设备 | |
CN115134778A (zh) | 一种基于多用户博弈与联邦学习的车联网计算卸载方法 | |
CN116938323B (zh) | 一种基于强化学习的卫星转发器资源分配方法 | |
CN113905049A (zh) | 一种基于多分类和分布式强化学习的卸载决策优化方法 | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN114025017B (zh) | 基于深度循环强化学习的网络边缘缓存方法、装置及设备 | |
CN115865914A (zh) | 车辆边缘计算中基于联邦深度强化学习的任务卸载方法 | |
CN115604853A (zh) | 边缘计算的车辆依赖任务卸载方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |