CN111586696A - 一种基于多智能体架构强化学习的资源分配及卸载决策方法 - Google Patents

一种基于多智能体架构强化学习的资源分配及卸载决策方法 Download PDF

Info

Publication number
CN111586696A
CN111586696A CN202010358378.4A CN202010358378A CN111586696A CN 111586696 A CN111586696 A CN 111586696A CN 202010358378 A CN202010358378 A CN 202010358378A CN 111586696 A CN111586696 A CN 111586696A
Authority
CN
China
Prior art keywords
resource allocation
user
constraint
task
unloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010358378.4A
Other languages
English (en)
Other versions
CN111586696B (zh
Inventor
陈前斌
谭颀
贺兰钦
唐伦
刘占军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Goufen Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010358378.4A priority Critical patent/CN111586696B/zh
Publication of CN111586696A publication Critical patent/CN111586696A/zh
Application granted granted Critical
Publication of CN111586696B publication Critical patent/CN111586696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于多智能体架构强化学习的资源分配及卸载决策方法,属于移动通信技术领域。该方法在考虑激励约束、能量约束、以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立最大化系统总用户QoE的随机优化模型,并转化为MDP问题。其次,该方法将原MDP问题进行因式分解,并建立马尔科夫博弈模型。然后,该方法基于行动者‑评判家算法提出一种集中式训练、分布式执行机制。在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载。本发明可以有效提升用户QoE,并降低了时延及能耗。

Description

一种基于多智能体架构强化学习的资源分配及卸载决策方法
技术领域
本发明属于移动通信技术领域,涉及一种基于多智能体架构强化学习的资源分配及卸载决策方法。
背景技术
随着网络服务的发展,大量的计算密集型应用如移动购物、人脸识别以及增强现实等获得了大量的关注,这些先进的应用需要低时延。同时,由于物理大小的限制,当前的物联网设备如可穿戴设备的计算资源及电池容量有限,从而不能很好的支持先进应用运行。因此,其不能为用户提供满意的QoE。为了解决这个问题,当前已有大量研究卸载全部或者部分任务到资源丰富的云中心。然而,云服务器部署的位置通常距离用户端很远,这不可避免的会造成较大的端到端时延。
为了解决上述问题,雾计算作为更贴近于终端用户的微云在网络边缘为物联网设备提供计算服务,其不仅可以减轻由于IoT设备大量增加带来的影响,还可以降低到云的流量,并进一步降低IoT设备应用的卸载时。同时,每个雾节点可以作为一个控制器来控制计算和无线资源,从而联合优化这些资源,最终带来计算资源及无线资源利用率的提升。然而,由于雾节点的资源是有限的,因此,本文考虑采用云雾混合架构,使得IoT用户可以将计算密集的任务卸载到近距离的雾节点或者资源丰富的云处理中心以满足用户的QoE。D2D底层通信可以进一步降低通信时延,一方面由于网络运营商可以得到所有用户的信任,另一方面通过D2D通信可以减轻蜂窝网络的负担,因此可以通过将D2D技术和MEC技术联合使得用户之间可以在保证真实性的前提下直接共享计算资源和无线资源。然而,由于D2D底层通信可能带来更严重的同信道干扰,因此这需要合理的资源分配进行干扰协调。
发明内容
有鉴于此,本发明的目的在于提供一种基于多智能体架构强化学习的资源分配及卸载决策方法。应用该方法能够在考虑激励约束、能量约束、以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,最大化系统总用户QoE。
为达到上述目的,本发明提供如下技术方案:
一种基于多智能体架构强化学习的资源分配及卸载决策方法,在设备到设备通信D2D辅助的云雾混合架构下,考虑激励约束、能量约束和网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,最大化系统总用户QoE;然后,基于行动者-评判家算法提出一种集中式训练、分布式执行机制;
在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载;
所述D2D辅助的云雾混合架构包含三层:
用户层,由多个支持D2D技术的IoT设备组成,IoT设备通过无线接入链路发送服务请求给相应的雾节点,并根据雾节点的决策采取相应的行为;
雾节点层,由多个部署在小区边缘的雾节点组成;
云层,作为集中式架构为用户提供丰富的资源及强大的计算能力。
可选的,所述激励约束为只有当用户贡献更多资源给其他用户时,用户才能享受更多其他用户贡献的资源;
所述能量约束为避免用户过度牺牲自己来帮助他人;
所述网络资源为通信资源和计算资源。
可选的,所述系统总用户QoE为通过计算卸载节省的长期平均通信成本。
可选的,所述全局信息为信道状态、用户设备上产生的任务特征和权重信息。
可选的,所述资源分配为功率分配、信道分配以及雾节点计算频率。
可选的,所述通信成本表示执行一个任务需要的能耗和时延的加权和。
可选的,所述信道状态为智能体服务的IoT设备到连接到雾节点的其他IoT设备的信道状态以及IoT设备到雾节点的信道状态。
可选的,所述能耗为传输能耗与计算能耗,所述时延为传输时延与计算时延。
可选的,根据所述全局信息进行资源分配和卸载任务,在每个离散的时隙上,最大化系统总用户QoE,具体步骤如下:
初始化各参数以及系统状态;
在每个调度时隙开始时,收集当前时隙的状态,即全局信息;
根据下式选取近似最优的资源分配动作和卸载决策:
Figure BDA0002474212190000021
其中A为:行动空间,即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频率;
其中γ为:折扣因子,所述Qπ(st+1,at+1)为:下一时隙的行为值函数;
其中rt为:时隙t时的即时回报函数,表示为:
Figure BDA0002474212190000031
其中
Figure BDA0002474212190000032
为用户Kn,m的QoE;
给定资源分配和卸载决策,判断当前所述的资源分配和任务卸载策略是否满足所述的激励约束、能量约束以及通信资源和计算资源约束;
如果不满足,则重复上述选择最优行为的步骤;如果当前资源分配和任务卸载策略满足约束条件,则将资源分配和任务卸载策略通知给每个智能体;
经过数次迭代,判断是否满足收敛条件;
如果不满足收敛条件,则观察下一时隙状态st+1,重复上述步骤;
按照资源分配和任务卸载策略,分配给每个用户无线资源和信道,以及将任务卸载到D2D设备、卸载到雾节点或者云端;
等待下一个调度时隙。
本发明的有益效果在于:本发明在每个离散资源调度时隙上,系统根据所述全局信息,联合优化无线资源分配、计算资源分配以及卸载决策,实现系统总用户QoE的最大化,有效地提升用户QoE,并降低了时延及能耗。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为D2D辅助的云雾混合网络架构图;
图2为资源分配及卸载决策算法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
参见图1,图1为本发明的基于D2D辅助的云雾混合网络架构图。
在本发明中的D2D辅助的云雾混合架构下,我们考虑有M个雾节点,定义接入点集合为M={1,2,...,M},接入点可以建模为具有计算和通信能力的雾节点,所有雾节点通过高速有线链路连接到远端云数据中心。假定网络中有N个IoT设备,定义IoT用户设备集合为N={1,2,...,N},每个IoT设备在接入网络时连接到距离最近的接入点,进一步的,定义接入点m服务的用户集合为
Figure BDA0002474212190000041
且|Nm|=Nm
Figure BDA0002474212190000042
因此有
Figure BDA0002474212190000043
本发明考虑同信道干扰,假设系统内有个正交的信道,信道集合表示为W={1,2,...,W},每个信道的带宽为B。定义信道分配因子
Figure BDA0002474212190000044
Figure BDA0002474212190000045
表示对于连接到雾接入点m的用户Kn,m分配了信道w。
由上文可知,对于连接到接入点m的用户Kn,m会受到来自连接到相同信道上的其他用户的干扰,表达式为:
Figure BDA0002474212190000046
其中
Figure BDA0002474212190000047
以及
Figure BDA0002474212190000048
分别表示连接到同一雾节点m的用户设备在信道w上的功率以及连接到其他雾接入点m'的用户Kn,m'在信道w上的功率,其中
Figure BDA0002474212190000051
表示其他雾节点m'服务的用户设备Kn,m'到用户设备Kn,m的信道增益。值得注意的是,当
Figure BDA0002474212190000052
时,
Figure BDA0002474212190000053
即当信道w没有分配给用户设备Kn,m时,用户设备Kn,m在信道w上的功率为0。
在时隙t,若IoT用户Kn,m将任务卸载到服务于他的雾节点m,则需要在IoT用户设备Kn,m与雾节点m之间建立一个蜂窝链路。在时隙t开始时,IoT设备给蜂窝链路分配蜂窝发送功率
Figure BDA0002474212190000054
由上文中干扰模型可知,在本文中
Figure BDA0002474212190000055
则蜂窝传输速率定义为:
Figure BDA0002474212190000056
其中
Figure BDA0002474212190000057
表示设备Kn,m与雾节点m之间的信道增益,
Figure BDA0002474212190000058
表示在时隙t连接到雾节点m的IoT设备Kn,m在链路w上受到通信到干扰,σ2表示信道噪声功率。
当IoT设备Kn,m在时隙t将通过D2D链路卸载到相应的D2D接收端,则需要与接收端用户设备建立D2D链路。类似于蜂窝通信链路,在每个时隙开始时,用户Kn,m分配一个D2D链路发射功率
Figure BDA0002474212190000059
类似于蜂窝链路,有
Figure BDA00024742121900000510
则选择D2D通信的IoT用户设备Kn,m将计算任务卸载到用户Kj,m的传输速率定义为:
Figure BDA00024742121900000511
不失一般性的,定义IoT用户设备Kn,m在时隙t产生的任务为
Figure BDA00024742121900000512
其中
Figure BDA00024742121900000513
表示t时刻到达IoT设备Kn,m的任务的数据大小,单位是bits,
Figure BDA00024742121900000514
表示完成t时刻到达IoT设备Kn,m的任务需要的计算资源强度(CPU周期数/bit)。另外,我们合理的假设通过部分卸载使得执行计算任务的时间不大于一个时隙的长度。
本方法假定在每个时隙内,IoT用户设备可以将自己的计算任务进行全部或者部分卸载到其他设备、雾节点或者云端执行,剩下部分在本地执行。因此,本方法定义调度因子
Figure BDA0002474212190000061
表示连接到基站m的用户设备Kn,m在时隙t决定连接到设备x,设备x可以是雾节点m服务的任意一个用户设备,也可以是其连接到的雾节点。另外,本方法考虑到雾节点资源有限,因此用户设备还可以将计算任务卸载到云处理中心,因此当
Figure BDA0002474212190000062
时定义用户设备Kn,m将时隙t产生的计算任务卸载到云处理中心。
进一步的,由于本方法采用部分卸载,因此定义
Figure BDA0002474212190000063
表示IOT设备Kn,m对时隙t产生的任务的卸载率,即用户Kn,m卸载的数据大小与t时隙到达的数据大小之比,且有约束
Figure BDA0002474212190000064
值得注意的是,当
Figure BDA0002474212190000065
时,表示用户设备Kn,m在本地执行计算,此时
Figure BDA0002474212190000066
本方法假定每个IoT设备的计算能力是固定的,其计算能力定义为
Figure BDA0002474212190000067
根据上文的任务模型及调度因子可得本地计算的数据大小为
Figure BDA0002474212190000068
则本地的计算时延为:
Figure BDA0002474212190000069
本地计算能耗表达式为:
Figure BDA00024742121900000610
其中
Figure BDA00024742121900000611
是一个与硬件有关的有效电容常数。
由上述可知,IoT用户设备可以将时隙t产生的计算任务卸载到D2D设备或者雾节点、云处理中心进行计算,由于本方法定义时隙t时对于IoT用户Kn,m产生的任务的卸载比率为
Figure BDA00024742121900000612
因此进行卸载的数据大小为
Figure BDA00024742121900000613
在下文中,本方法将分别对不同卸载方案的时延及能耗进行描述。
卸载到D2D设备,即IoT用户设备Kn,m通过D2D链路将计算任务卸载到相邻的IoT用户设备
Figure BDA00024742121900000614
Kj,m Kn,m Nm。由于本方法考虑的是系统内所有用户设备的QoE最大化,因此当用户设备选择进行D2D卸载时,不仅要考虑发送端的传输时延以及传输能耗,还要考虑一个D2D对中接收端的计算能耗。首先,IoT用户设备Kn,m需要传输卸载的数据量给用户Kj,m,则用户Kn,m卸载到D2D设备Kj,m的传输时延表达式为:
Figure BDA0002474212190000071
用户Kn,m卸载到D2D设备Kj,m的传输能耗为:
Figure BDA0002474212190000072
另外,由上文可得,
Figure BDA0002474212190000073
表示IoT用户Kj,m的计算能力(CPU cycles/s),则用户Kn,m卸载到用户Kj,m的任务量的计算时延为:
Figure BDA0002474212190000074
相应的,用户Kn,m卸载到用户Kj,m的计算能耗为:
Figure BDA0002474212190000075
不失一般性的,由于计算结果远远小于输入数据大小,因此时延及能耗远远小于输入数据的时延及能耗,因此本文不考虑计算结果的传输时延及能耗。
另外,考虑到在D2D卸载模式时,帮助者可能同时也有本地计算任务时,假定参与D2D计算卸载的设备都有限计算自己的本地任务,因此,在进行D2D卸载时,当设备Kn,m将部分计算任务卸载到设备Kj,m且设备Kj,m同时有自己的本地计算任务时,设备Kn,m在D2D卸载时的总时延应为:
Figure BDA0002474212190000076
当用户设备Kn,m卸载计算任务到用户设备Kj,m时,总能耗为:
Figure BDA0002474212190000077
由上文可知,当
Figure BDA0002474212190000078
时表示t时刻,IoT设备Kn,m选择将
Figure BDA0002474212190000079
卸载到其关联的雾节点m。由于本文只考虑系统内用户设备的QoE,因此本文对用户Kn,m卸载到雾节点的时延和能耗只考虑用户设备Kn,m的传输时延、计算时延及用户设备的传输能耗。综上所述,IoT设备Kn,m卸载到雾节点m的传输时延为:
Figure BDA00024742121900000710
IoT设备Kn,m卸载到雾节点m的传输能耗为:
Figure BDA00024742121900000711
定义雾节点m在时隙t分配给IoT用户设备Kn,m的计算能力为
Figure BDA00024742121900000712
(CPU cycles/s),则IoT用户设备Kn,m在时隙t卸载到雾节点m的计算时延为:
Figure BDA0002474212190000081
综上所述,卸载到雾节点的总时延及总能耗为:
Figure BDA0002474212190000082
Figure BDA0002474212190000083
若雾节点m决定将用户设备Kn,m在时隙t产生的任务卸载到云,则从雾节点m上传到云的传输时延为:
Figure BDA0002474212190000084
其中Rm(t)表示雾节点m的传输速率,将雾节点m到云端的传输速率Rm(t)定义为常数。
定义
Figure BDA0002474212190000085
表示云处理中心分配给用户设备Kn,m的计算能力,假定每个用户设备在云端享有相同的计算能力,即
Figure BDA0002474212190000086
为一个常数。对于时隙t用户设备Kn,m卸载的计算任务在云端的计算时延为:
Figure BDA0002474212190000087
综上所述,对于时隙t时IoT用户设备的计算任务卸载到云端时的时延表达式为:
Figure BDA0002474212190000088
其中
Figure BDA0002474212190000089
表示用户设备Kn,m将任务卸载到相应的雾节点m的传输时延。
类似地,对于时隙t时IoT用户设备Kn,m卸载任务到云处理中心的能耗表达式为:
Figure BDA00024742121900000810
考虑通过部分卸载来执行时隙t到达用户设备Kn,m的任务ΓKn,m(t),因此,对于用户设备Kn,m在t时隙产生的任务,总执行时延以及总执行能耗表达式分别为:
Figure BDA00024742121900000811
Figure BDA00024742121900000812
Figure BDA00024742121900000813
对于用户设备Kn,m时隙t产生的任务的总加权时延及能耗和表达式为:
Figure BDA0002474212190000091
其中
Figure BDA0002474212190000092
分别表示能耗和时延的权重。
进一步的,当IoT用户不进行计算卸载,其在本地计算所有到达的任务,则对于时隙t时的用户设备产生的任务,其计算成本为:
Figure BDA0002474212190000093
综上所述,对于用户Kn,m的QoE表达式为:
Figure BDA0002474212190000094
参见图2,图2为本发明在每个离散时隙上的资源分配及卸载决策算法流程图,步骤如下:
步骤401:令t=0。初始化系统参数,其中所述系统参数包括折扣因子γ、最大迭代次数Tmax以及神经网络权重值等。进一步地,初始化系统状态s0,即随机初始化,信道状态、任务特征和权重信息。
步骤402:在每个调度时隙开始时,收集当前时隙的状态st,即所述的全局信息;
步骤403:根据下式选取近似最优的资源分配动作和任务卸载决策:
Figure BDA0002474212190000095
其中所述A为:行动空间,即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频率;
其中所述γ为:折扣因子,所述
Figure BDA0002474212190000096
为:下一时隙的行为值函数;
其中所述rt为:时隙t时的即时回报函数,表示为:
Figure BDA0002474212190000097
其中所述
Figure BDA0002474212190000098
为用户Kn,m的QoE;
步骤404:定所述资源分配和卸载决策,判断当前所述的资源分配和任务卸载策略是否满足所述的激励约束、能量约束以及通信资源和计算资源约束;如果不满足当前所述的资源分配和任务卸载策略,则转到步骤403;如果当前所述资源分配和任务卸载策略满足约束条件,则执行步骤405;
步骤405:按照所述资源分配和任务卸载策略,分配给每个用户无线资源和信道,以及将任务卸载到D2D设备、卸载到雾节点或者云端,并根据决策更新状态xt+1
步骤406:经过数次迭代,判断是否满足收敛条件。如果没有满足收敛条件,转到步骤402;如果满足收敛条件,则执行步骤407;
步骤407:判断算法迭代次数是否达到最大迭代次数Tmax,若不满足,则令t=t+1,并跳转到步骤401继续执行,否则算法结束。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:在设备到设备通信D2D辅助的云雾混合架构下,考虑激励约束、能量约束和网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,最大化系统总用户QoE;然后,基于行动者-评判家算法提出一种集中式训练、分布式执行机制;
在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载;
所述D2D辅助的云雾混合架构包含三层:
用户层,由多个支持D2D技术的IoT设备组成,IoT设备通过无线接入链路发送服务请求给相应的雾节点,并根据雾节点的决策采取相应的行为;
雾节点层,由多个部署在小区边缘的雾节点组成;
云层,作为集中式架构为用户提供丰富的资源及强大的计算能力。
2.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述激励约束为只有当用户贡献更多资源给其他用户时,用户才能享受更多其他用户贡献的资源;
所述能量约束为避免用户过度牺牲自己来帮助他人;
所述网络资源为通信资源和计算资源。
3.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述系统总用户QoE为通过计算卸载节省的长期平均通信成本。
4.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述全局信息为信道状态、用户设备上产生的任务特征和权重信息。
5.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述资源分配为功率分配、信道分配以及雾节点计算频率。
6.根据权利要求3所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述通信成本表示执行一个任务需要的能耗和时延的加权和。
7.根据权利要求4所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述信道状态为智能体服务的IoT设备到连接到雾节点的其他IoT设备的信道状态以及IoT设备到雾节点的信道状态。
8.根据权利要求6所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:所述能耗为传输能耗与计算能耗,所述时延为传输时延与计算时延。
9.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法,其特征在于:根据所述全局信息进行资源分配和卸载任务,在每个离散的时隙上,最大化系统总用户QoE,具体步骤如下:
初始化各参数以及系统状态;
在每个调度时隙开始时,收集当前时隙的状态,即全局信息;
根据下式选取近似最优的资源分配动作和卸载决策:
Figure FDA0002474212180000021
其中A为:行动空间,即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频率;
其中γ为:折扣因子,所述Qπ(st+1,at+1)为:下一时隙的行为值函数;
其中rt为:时隙t时的即时回报函数,表示为:
Figure FDA0002474212180000022
其中
Figure FDA0002474212180000023
为用户Kn,m的QoE;
给定资源分配和卸载决策,判断当前所述的资源分配和任务卸载策略是否满足所述的激励约束、能量约束以及通信资源和计算资源约束;
如果不满足,则重复上述选择最优行为的步骤;如果当前资源分配和任务卸载策略满足约束条件,则将资源分配和任务卸载策略通知给每个智能体;
经过数次迭代,判断是否满足收敛条件;
如果不满足收敛条件,则观察下一时隙状态st+1,重复上述步骤;
按照资源分配和任务卸载策略,分配给每个用户无线资源和信道,以及将任务卸载到D2D设备、卸载到雾节点或者云端;
等待下一个调度时隙。
CN202010358378.4A 2020-04-29 2020-04-29 一种基于多智能体架构强化学习的资源分配及卸载决策方法 Active CN111586696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010358378.4A CN111586696B (zh) 2020-04-29 2020-04-29 一种基于多智能体架构强化学习的资源分配及卸载决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010358378.4A CN111586696B (zh) 2020-04-29 2020-04-29 一种基于多智能体架构强化学习的资源分配及卸载决策方法

Publications (2)

Publication Number Publication Date
CN111586696A true CN111586696A (zh) 2020-08-25
CN111586696B CN111586696B (zh) 2022-04-01

Family

ID=72111900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010358378.4A Active CN111586696B (zh) 2020-04-29 2020-04-29 一种基于多智能体架构强化学习的资源分配及卸载决策方法

Country Status (1)

Country Link
CN (1) CN111586696B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112187823A (zh) * 2020-10-13 2021-01-05 绍兴文理学院 雾计算架构下面向恶意程序扩散的物联网可用度评估方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112584351A (zh) * 2020-12-08 2021-03-30 重庆邮电大学 一种面向车联雾计算的“通信-计算”一体化资源分配方法
CN112866939A (zh) * 2021-01-15 2021-05-28 大连理工大学 一种基于边缘智能的5g-u物联网协同资源分配方法
CN113301656A (zh) * 2021-05-20 2021-08-24 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113406974A (zh) * 2021-08-19 2021-09-17 南京航空航天大学 一种面向无人机集群联邦学习的学习与资源联合优化方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114051205A (zh) * 2021-11-08 2022-02-15 南京大学 基于强化学习动态多用户无线通信场景下边缘优化方法
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114500524A (zh) * 2021-12-13 2022-05-13 广东电网有限责任公司 一种边缘计算的云边资源协同卸载方法
CN114553662A (zh) * 2022-02-16 2022-05-27 北京电子科技学院 一种雾物联网物理层安全的资源分配方法及装置
CN116339955A (zh) * 2023-05-25 2023-06-27 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备
WO2023142402A1 (zh) * 2022-01-27 2023-08-03 南京邮电大学 基于d2d通信的多任务联合计算卸载与资源分配方法
US11838930B2 (en) 2022-01-27 2023-12-05 Nanjing University Of Posts And Telecommunications Multi-task joint computing unloading and resource allocation method based on D2D communication

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191576A1 (en) * 2009-01-28 2010-07-29 Gregory G. Raleigh Verifiable device assisted service usage billing with integrated accounting, mediation accounting, and multi-account
US20160050589A1 (en) * 2014-08-13 2016-02-18 Samsung Electronics Co., Ltd. Ambient network sensing and handoff for device optimization in heterogeneous networks
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN110301143A (zh) * 2016-12-30 2019-10-01 英特尔公司 用于无线电通信的方法和设备
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110519849A (zh) * 2019-07-25 2019-11-29 中国矿业大学 一种针对移动边缘计算的通信和计算资源联合分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
US20200059496A1 (en) * 2009-01-28 2020-02-20 Headwater Research Llc Wireless Network Service Interfaces

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191576A1 (en) * 2009-01-28 2010-07-29 Gregory G. Raleigh Verifiable device assisted service usage billing with integrated accounting, mediation accounting, and multi-account
US20200059496A1 (en) * 2009-01-28 2020-02-20 Headwater Research Llc Wireless Network Service Interfaces
US20160050589A1 (en) * 2014-08-13 2016-02-18 Samsung Electronics Co., Ltd. Ambient network sensing and handoff for device optimization in heterogeneous networks
WO2016024809A1 (en) * 2014-08-13 2016-02-18 Samsung Electronics Co., Ltd. Ambient network sensing and handoff for device optimization in heterogeneous networks
CN110301143A (zh) * 2016-12-30 2019-10-01 英特尔公司 用于无线电通信的方法和设备
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法
CN110519849A (zh) * 2019-07-25 2019-11-29 中国矿业大学 一种针对移动边缘计算的通信和计算资源联合分配方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BOYUAN YAN: "Actor-Critic-Based Resource Allocation for Multimodal Optical Networks", 《 2018 IEEE GLOBECOM WORKSHOPS (GC WKSHPS)》 *
FANG FU: "An actor‑critic reinforcement learning‑based resource management in mobile edge computing systems", 《SPRINGER》 *
HAN QIE: "Joint Optimization of Multi-UAV Target Assignment and Path Planning Based on Multi-Agent Reinforcement Learning", 《IEEE ACCESS》 *
JIE FENG: "Cooperative Computation Offloading and Resource Allocation for Blockchain-Enabled Mobile-Edge Computing: A Deep Reinforcement Learning Approach", 《IEEE INTERNET OF THINGS JOURNAL》 *
JINGJING CUI: "Multi-Agent Reinforcement Learning Based Resource Allocation for UAV Networks", 《IEEE》 *
YAWEN ZHANG: "Multi-agent Reinforcement Learning for Joint Wireless and Computational Resource Allocation in Mobile Edge Computing System", 《ICST INSTITUTE FOR COMPUTER SCIENCES》 *
周龙雨: "一种能效优先的物联网任务协同迁移策略", 《物联网学报》 *
李政: "密集异构认知网络中D2D通信的资源分配研究", 《信息科技辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112187823B (zh) * 2020-10-13 2022-04-19 绍兴文理学院 雾计算架构下面向恶意程序扩散的物联网可用度评估方法
CN112187823A (zh) * 2020-10-13 2021-01-05 绍兴文理学院 雾计算架构下面向恶意程序扩散的物联网可用度评估方法
CN112584351A (zh) * 2020-12-08 2021-03-30 重庆邮电大学 一种面向车联雾计算的“通信-计算”一体化资源分配方法
CN112584351B (zh) * 2020-12-08 2022-07-22 重庆邮电大学 一种面向车联雾计算的“通信-计算”一体化资源分配方法
CN112866939A (zh) * 2021-01-15 2021-05-28 大连理工大学 一种基于边缘智能的5g-u物联网协同资源分配方法
CN113301656A (zh) * 2021-05-20 2021-08-24 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113434212B (zh) * 2021-06-24 2023-03-21 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113726858B (zh) * 2021-08-12 2022-08-16 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113406974B (zh) * 2021-08-19 2021-11-02 南京航空航天大学 一种面向无人机集群联邦学习的学习与资源联合优化方法
CN113406974A (zh) * 2021-08-19 2021-09-17 南京航空航天大学 一种面向无人机集群联邦学习的学习与资源联合优化方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113821346B (zh) * 2021-09-24 2023-09-05 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114051205B (zh) * 2021-11-08 2022-09-13 南京大学 基于强化学习动态多用户无线通信场景下边缘优化方法
CN114051205A (zh) * 2021-11-08 2022-02-15 南京大学 基于强化学习动态多用户无线通信场景下边缘优化方法
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114205353B (zh) * 2021-11-26 2023-08-01 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114500524A (zh) * 2021-12-13 2022-05-13 广东电网有限责任公司 一种边缘计算的云边资源协同卸载方法
CN114500524B (zh) * 2021-12-13 2023-12-01 广东电网有限责任公司 一种边缘计算的云边资源协同卸载方法
WO2023142402A1 (zh) * 2022-01-27 2023-08-03 南京邮电大学 基于d2d通信的多任务联合计算卸载与资源分配方法
US11838930B2 (en) 2022-01-27 2023-12-05 Nanjing University Of Posts And Telecommunications Multi-task joint computing unloading and resource allocation method based on D2D communication
CN114553662A (zh) * 2022-02-16 2022-05-27 北京电子科技学院 一种雾物联网物理层安全的资源分配方法及装置
CN114553662B (zh) * 2022-02-16 2023-11-24 北京电子科技学院 一种雾物联网物理层安全的资源分配方法及装置
CN116339955A (zh) * 2023-05-25 2023-06-27 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备
CN116339955B (zh) * 2023-05-25 2023-08-11 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111586696B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN109391681B (zh) 基于mec的v2x移动性预测与内容缓存卸载方案
CN108809695B (zh) 一种面向移动边缘计算的分布上行链路卸载策略
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN107766135B (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN109151864B (zh) 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN110098969B (zh) 一种面向物联网的雾计算任务卸载方法
CN111010684B (zh) 一种基于mec缓存服务的车联网资源分配方法
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN111132191A (zh) 移动边缘计算服务器联合任务卸载、缓存及资源分配方法
CN111182570A (zh) 提高运营商效用的用户关联和边缘计算卸载方法
CN113286317B (zh) 一种基于无线供能边缘网络的任务调度方法
CN111641973A (zh) 一种雾计算网络中基于雾节点协作的负载均衡方法
CN111757361B (zh) 一种雾网络中基于无人机辅助的任务卸载方法
CN112969163B (zh) 一种基于自适应任务卸载的蜂窝网络计算资源分配方法
CN114138373A (zh) 一种基于强化学习的边缘计算任务卸载方法
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
Wu et al. A mobile edge computing-based applications execution framework for Internet of Vehicles
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Mensah et al. A game-theoretic approach to computation offloading in software-defined D2D-enabled vehicular networks
CN111526526B (zh) 基于服务混搭的移动边缘计算中的任务卸载方法
CN116916386A (zh) 一种考虑用户竞争和负载的大模型辅助边缘任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240313

Address after: Building A, Building 1003, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518083

Patentee after: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Country or region after: China

Address before: 400065 Chongqing Nan'an District huangjuezhen pass Chongwen Road No. 2

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240328

Address after: Room 214-424, 2nd Floor, East Card, No. 349 Zongbao Road, Dula Buyi Township, Guiyang Comprehensive Bonded Zone, Guiyang City, Guizhou Province, 550017 (for office use only)

Patentee after: Guizhou Goufen Technology Co.,Ltd.

Country or region after: China

Address before: Building A, Building 1003, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518083

Patentee before: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Country or region before: China