CN114756294B - 一种基于深度强化学习的移动边缘计算卸载方法 - Google Patents

一种基于深度强化学习的移动边缘计算卸载方法 Download PDF

Info

Publication number
CN114756294B
CN114756294B CN202210314986.4A CN202210314986A CN114756294B CN 114756294 B CN114756294 B CN 114756294B CN 202210314986 A CN202210314986 A CN 202210314986A CN 114756294 B CN114756294 B CN 114756294B
Authority
CN
China
Prior art keywords
user
mobile edge
edge server
task
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210314986.4A
Other languages
English (en)
Other versions
CN114756294A (zh
Inventor
王睿
史敏燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210314986.4A priority Critical patent/CN114756294B/zh
Publication of CN114756294A publication Critical patent/CN114756294A/zh
Application granted granted Critical
Publication of CN114756294B publication Critical patent/CN114756294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1023Server selection for load balancing based on a hash applied to IP addresses or costs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信领域,具体涉及一种基于深度强化学习的移动边缘服务器的任务卸载方法。假定用户具有移动性的情况下,本发明通过对用户移动性建模和推导任务在不同端处理速率来达到优化系统卸载能耗最小的目的。本发明采用深度强化学习算法来解决任务在本地端、移动边缘服务器端进行处理的功率分配问题,从而改善系统最小能耗。本发明优化了系统的最小计算能耗,以进一步提高系统的性能。对比传统方案,本发明方法收敛速度快,性能更好,更加突显其实际应用价值。

Description

一种基于深度强化学习的移动边缘计算卸载方法
技术领域
本发明属于无线通信领域,具体涉及一种基于深度强化学习的移动边缘服务器的任务卸载方法。
背景技术
移动边缘计算通过将环境中的基站部署在更加接近终端设备的位置,从而减少数据传输所带来的时间延迟和能量消耗,以满足短时间内处理大量移动用户数据量的需求,保障用户的使用体验和服务质量。在移动边缘计算网络中进行计算卸载,需要遵循卸载策略。场景图1示意。目前主要的任务卸载优化算法有博弈算法、凸优化算法、动态规划算法等。然而,这些方法计算复杂度大,造成了一定程度上的资源浪费。强化学习用于学习不同信道状态下的任务卸载策略可以获得优于传统方法的性能,但传统的强化学习算法在状态集和动作集维度大的情况下,其学习速度会快速下降。移动边缘服务器任务卸载的方案还需要进一步优化。
发明内容
针对现有技术的问题,本发明公开了一种基于深度强化学习的移动边缘计算卸载方法,采用深度强化学习算法来处理任务在本地端、移动边缘服务器端进行处理的功率分配问题,通过使系统计算能耗最小,解决了在用户具有移动性的情况下,移动边缘服务器任务卸载的优化问题。
本发明技术方案:
一种基于深度强化学习的移动边缘计算卸载方法,其特征在于,包括以下步骤:
步骤1.构造深度卷积神经网络
步骤2.在t时刻,将用户当前任务到达速率,用户当前任务数、用户和移动边缘服务器的信道状态、移动边缘服务器和核心网的信道状态作为当前系统状态
st=[lk(t),gk,q(t),gq,C(t)]
其中,k为用户编号,q为边缘服务器编号,lk(t)为用户k需要处理的任务量;gk,q(t)为用户k和边缘服务器q之间的信道状态;gq,c(t)为边缘服务器q和核心网之间的信道状态
步骤3.在t时刻,用户以1-ε的概率根据状态st所对应的最大状态动作值函数Q值选择动作at,以ε的概率随机选取其他动作,其中,贪婪因子ε为0~1常数;
其中,为任务在本地进行处理的功率,/>为任务在用户k和移动边缘服务器q进行传输的功率,/>为任务在移动边缘服务器q进行传输的功率,/>为移动边缘服务器q处理用户k卸载的任务的功率,αq(t)为任务在移动边缘服务器q处理的权重。
步骤4.执行动作之后根据公式(1)计算当前奖励值rt
其中,为用户在本地处理的任务大小,m为用户卸载到移动边缘服务器端的任务大小,Pk(m)为用户k向移动边缘服务器卸载m个比特任务的概率,αq为任务在移动边缘服务器q处理的权重,Cuser、Cmec和Ccloud分别为任务在本地、移动边缘服务器端以及核心网处理的能耗,ω为任务未在时间限制内处理完的惩罚。
步骤5.用户获取下一时刻状态st+1
步骤6.将t时刻的经验(st,at,rt,st+1)放入经验池D中;
步骤7.随机从经验池D中抽取样本对卷积神经网络的权重参数θ进行更新,根据公式(2)计算损失函数:
其中,QT为目标Q值,其计算方式如公式(3)所示,Q(s,a,θ)为当前Q值。
其中,r为奖励,γ折扣因子为0~1常数,s′为跳转的下一个动作,a′为在状态s′下执行的动作;
步骤8.根据公式(2)计算损失函数的梯度:
步骤9.采用随机梯度下降法,使得梯度值最小,更新神经网络的权重参数。
步骤10.根据环境变化,用户重复步骤3~9,直到用户学习到稳定的动作选择策略。
进一步的,步骤1中的深度卷积神经网络由一个输入层、两个卷积层、一个全连接层以及一个输出层构成;输入层用于输入系统当前的状态;卷积层用于提取特征;全连接层和输出层结合来构成一个深层网络。
本发明的有益效果:
(1)本发明采用的系统模型适用于用户具有移动性的情况,并对移动性进行建模,推导用户在移动时的卸载情形,符合实际生活中的应用场景;
(2)本发明所提出的移动边缘计算卸载模型考虑了在移动边缘服务器资源不足的情况,将任务传送到核心网进行计算,增强了该算法的适应环境的能力,拓展了应用空间。
(3)本发明所提出的基于深度强化学习的移动边缘计算卸载算法,给任务设置了处理时限,通过对在给定时限内未处理完任务的情形施加惩罚,来确保任务尽可能在给定处理时限内完成,适用于对时延敏感的应用场景。
(4)本发明所提出的基于深度强化学习的移动边缘计算卸载算法,迭代次数少,收敛速度快,比传统优化方法有更好的性能。
附图说明
图1为具有移动性的移动边缘计算卸载系统模型框架图
图2为基于深度强化学习的移动边缘计算卸载优化算法流程图
图3为本发明实施例深度卷积神经网络结构示意图
具体实施方式
下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明,本申请的优点和特征将更加清楚。
需要说明的是,本申请的实施例并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现,且这应被本申请实施例所属技术领域的技术人员所理解。
如图1,移动用户在每一时刻都收到需要处理的任务,若移动边缘服务器资源充足,那么任务在移动边缘服务器在计算完成之后将结果返回给用户,任务在本地和移动边缘服务器这两部分进行处理。若此时该移动边缘服务器没有足够的资源处理移动用户发送的计算任务,那么该服务器将自身无法完成的任务传输到核心网进行处理。计算完成后,移动边缘服务器和核心网各自将结果返回给用户,任务在本地、移动边缘服务器和核心网这三部分进行处理。
一种基于深度强化学习的移动边缘计算卸载方法,如图2,包括以下步骤:
1)构造深度卷积神经网络,该网络包含一个输入层、两个卷积层、一个全连接层以及一个输出层,采用ReLU函数作为激活函数。如图3所示。
初始化深度卷积神经网络的权重参数θ,初始化用户的所有动作的Q值;初始化折扣因子γ=0.5,贪婪因子ε=0.1;移动边缘服务器数量q=3。
2)在t时刻,将用户当前任务到达速率,用户当前任务数、用户和移动边缘服务器的信道状态、移动边缘服务器和核心网的信道状态作为当前系统状态st=[lk(t),gk,q(t),gl.k(t)];
3)在t时刻,用户根据观察量使用贪婪算法选取选择动作
以0.9的概率选取具有最大Q值的动作,以0.1的概率随机选取其他动作。其中,为任务在本地进行处理的功率,/>为任务在用户k和移动边缘服务器q进行传输的功率,/>为任务在移动边缘服务器q进行传输的功率,/>为移动边缘服务器q处理用户k卸载的任务的功率,αq(t)为任务在移动边缘服务器q处理的权重。
4)执行动作之后根据公式(1)计算当前奖励值:
其中,为用户在本地处理的任务大小,m为用户卸载到移动边缘服务器端的任务大小,Pk(m)为用户k向移动边缘服务器卸载m个比特任务的概率,本实施例取为常数,αq为任务在移动边缘服务器q处理的权重,Cuser、Cmec和Ccloud分别为任务在本地、移动边缘服务器端以及核心网处理的能耗,ω为任务未在时间限制内处理完的惩罚。
5)用户获取下一时刻状态st+1
6)将t时刻的经验(st,at,rt,st+1)放入经验池D中;
7)随机从经验池D中抽取样本对网络的权重参数θ进行更新,根据公式(2)计算损失函数:
L(θ)=E[(QT-Q(s,a,θ))2] (2)
其中,QT为目标Q值,其计算方式如公式(3)所示,Q(s,a,θ)为当前Q值。
8)根据公式(2)计算损失函数的梯度:
9)采用随机梯度下降法,使得梯度值最小,更新神经网络的权重参数。
10)根据环境变化,用户重复步骤2)~9),直到用户学习到稳定的动作选择策略。
上述描述仅是对本申请较佳实施例的描述,并非是对本申请范围的任何限定。任何熟悉该领域的普通技术人员根据上述揭示的技术内容做出的任何变更或修饰均应当视为等同的有效实施例,均属于本申请技术方案保护的范围。

Claims (2)

1.一种基于深度强化学习的移动边缘计算卸载方法,其特征在于,包括以下步骤:
步骤1.构造深度卷积神经网络;
步骤2.在t时刻,将用户当前任务到达速率,用户当前任务数、用户和移动边缘服务器的信道状态、移动边缘服务器和核心网的信道状态作为当前系统状态;
st=[lk(t),gk,q(t),gq,c(t)]
其中,k为用户编号,q为边缘服务器编号,lk(t)为用户k需要处理的任务量;gk,q(t)为用户k和边缘服务器q之间的信道状态;gq,c(t)为边缘服务器q和核心网之间的信道状态;
步骤3.在t时刻,用户以1-ε的概率根据状态st所对应的最大状态动作值函数Q值选择动作at,以ε的概率随机选取其他动作,其中,贪婪因子ε为0~1常数;
其中,为任务在本地进行处理的功率,/>为任务在用户k和移动边缘服务器q进行传输的功率,/>为任务在移动边缘服务器q进行传输的功率,/>为移动边缘服务器q处理用户k卸载的任务的功率,αq(t)为任务在移动边缘服务器q处理的权重;
步骤4.执行动作之后根据公式(1)计算当前奖励值rt
其中,为用户在本地处理的任务大小,m为用户卸载到移动边缘服务器端的任务大小,Pk(m)为用户k向移动边缘服务器卸载m个比特任务的概率,αq为任务在移动边缘服务器q处理的权重,Cuser、Cmec和Ccloud分别为任务在本地、移动边缘服务器端以及核心网处理的能耗,ω为任务未在时间限制内处理完的惩罚;
步骤5.用户获取下一时刻状态st+1
步骤6.将t时刻的经验(st,at,rt,st+1)放入经验池D中;
步骤7.随机从经验池D中抽取样本对卷积神经网络的权重参数θ进行更新,根据公式(2)计算损失函数:
其中,QT为目标Q值,其计算方式如公式(3)所示,Q(s,a,θ)为当前Q值;
其中,r为奖励,γ折扣因子为0~1常数,s′为跳转的下一个动作,a′为在状态s′下执行的动作;
步骤8.根据公式(2)计算损失函数的梯度:
步骤9.采用随机梯度下降法,使得梯度值最小,更新神经网络的权重参数;
步骤10.根据环境变化,用户重复步骤3~9,直到用户学习到稳定的动作选择策略。
2.如权利要求1所述一种基于深度强化学习的移动边缘计算卸载方法,其特征在于,步骤1中的深度卷积神经网络由一个输入层、两个卷积层、一个全连接层以及一个输出层构成;输入层用于输入系统当前的状态;卷积层用于提取特征;全连接层和输出层结合来构成一个深层网络。
CN202210314986.4A 2022-03-22 2022-03-22 一种基于深度强化学习的移动边缘计算卸载方法 Active CN114756294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210314986.4A CN114756294B (zh) 2022-03-22 2022-03-22 一种基于深度强化学习的移动边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210314986.4A CN114756294B (zh) 2022-03-22 2022-03-22 一种基于深度强化学习的移动边缘计算卸载方法

Publications (2)

Publication Number Publication Date
CN114756294A CN114756294A (zh) 2022-07-15
CN114756294B true CN114756294B (zh) 2023-08-04

Family

ID=82326392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210314986.4A Active CN114756294B (zh) 2022-03-22 2022-03-22 一种基于深度强化学习的移动边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN114756294B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766496A (zh) * 2021-01-28 2021-05-07 浙江工业大学 基于强化学习的深度学习模型安全性保障压缩方法与装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909B (zh) * 2019-03-18 2022-11-08 中南大学 边缘计算网络中基于学习的低延时任务调度方法
US11804050B1 (en) * 2019-10-31 2023-10-31 Nvidia Corporation Processor and system to train machine learning models based on comparing accuracy of model parameters
US11206221B1 (en) * 2021-06-04 2021-12-21 National University Of Defense Technology Online task dispatching and scheduling system and method thereof
CN114090108B (zh) * 2021-09-16 2024-02-06 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN113867843B (zh) * 2021-10-08 2023-09-01 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766496A (zh) * 2021-01-28 2021-05-07 浙江工业大学 基于强化学习的深度学习模型安全性保障压缩方法与装置

Also Published As

Publication number Publication date
CN114756294A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN108920280B (zh) 一种单用户场景下的移动边缘计算任务卸载方法
CN111240701B (zh) 一种端-边-云协同计算的任务卸载优化方法
CN112512056B (zh) 一种移动边缘计算网络中多目标优化的计算卸载方法
CN110351754B (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN112911648A (zh) 一种空地结合的移动边缘计算卸载优化方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN113626104B (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
CN114626298A (zh) 无人机辅助车联网中高效缓存和任务卸载的状态更新方法
CN114756294B (zh) 一种基于深度强化学习的移动边缘计算卸载方法
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN109561129B (zh) 一种基于光纤-无线网络的协同计算卸载方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN111148155A (zh) 一种基于移动边缘计算的任务卸载方法
CN116567651A (zh) 基于粒子群的mec任务卸载与迁移的决策方法及系统
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN116405493A (zh) 一种基于mogwo策略的边缘云协同任务卸载方法
CN112910716B (zh) 一种基于分布式dnn的移动雾计算损耗联合优化系统和方法
CN113342529B (zh) 基于强化学习的无小区大规模多天线架构下移动边缘计算卸载方法
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant