CN115658251A - 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质 - Google Patents

联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质 Download PDF

Info

Publication number
CN115658251A
CN115658251A CN202211135297.3A CN202211135297A CN115658251A CN 115658251 A CN115658251 A CN 115658251A CN 202211135297 A CN202211135297 A CN 202211135297A CN 115658251 A CN115658251 A CN 115658251A
Authority
CN
China
Prior art keywords
task
vehicle
logistics
assistant
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211135297.3A
Other languages
English (en)
Inventor
李琦琦
郑林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202211135297.3A priority Critical patent/CN115658251A/zh
Publication of CN115658251A publication Critical patent/CN115658251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开联邦多智能体Actor‑Critic学习智慧物流任务卸载和资源分配系统及介质,系统包括若干物流车辆、若干助手仓库、若干助手车辆;所述物流车辆的车载服务器存储有时延目标计算模型、能耗目标计算模型、任务卸载与资源分配优化模型、优化模型计算框架;所述物流车辆的车载服务器将时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,解算得到任务序列
Figure DDA0003851734000000011
的卸载策略;所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。本发明提出多智能体深度确定性策略梯度的任务卸载策略,物流车辆智能体独立采取行动,但通过协作探索环境来完善其策略,从而确定任务卸载路径和资源分配,提高系统整体性能。

Description

联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分 配系统及介质
技术领域
本发明涉及物流领域,具体是联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质。
背景技术
物流供应链是国家和企业竞争的重要驱动力,对经济增长起着至关重要的作用。人工智能赋能下的智慧物流已经成为现代物流发展的必然趋势,因此便捷高效的物流系统受到了人们的广泛关注。
目前,随着现代先进的信息和通信技术(Information and CommunicationTechnology,ICT)的不断发展,工业互联网(Industry Internet of Things,IIoT)已经改变了物流系统的运行模式和体系结构,智慧物流已经成为现代物流发展的必然趋势。
IIoT通过对海量的物流数据和信息进行分析和处理,并结合云计算、大数据、人工智能等先进技术实现物流对象的智能控制。其中,人工智能(Artificial Intelligence,AI)作为一项重要的技术已经应用到智慧物流的多个领域,包括物流运输、仓储、装卸、配送加工、信息服务等,有助于节省时间和成本,极大的提高了物流的运输效率,促进了智慧物流的发展。
随着部署在智慧物流中的传感器节点不断增加,数据量也呈指数增长。然而由于物流车辆的计算和通信资源有限,很难满足智慧物流中计算密集型和时延敏感型的任务的服务质量需求(Quality of Service,QoS)需求。
因此,如何使用人工智能在资源受限的物流车辆上执行计算密集型应用仍面临巨大的挑战。
为了解决上述问题,物流车辆可以通过优化任务卸载,并从其他计算范式中获得协助来减轻传感器节点的负载,如移动边缘计算(Mobile Edge Computing,MEC)通过将边缘服务器放在离车辆更近的地方,将计算转移到靠近车辆的网络边缘,以提供比车辆高得多的计算能力,可以获得更低的通信时延。此外,多级协同任务卸载也常被考虑,多级协同任务卸载通常指不同的协作处理节点共同处理卸载任务,其中包括端-边、边-云和端-边-云协同等。基于应用程序的不同QoS需求,以及不同协作处理节点的应用场景,将时延敏感的计算密集型应用从物流车辆卸载到具有额外计算资源的协作处理节点,在很大程度上弥补了物流车辆计算能力不足的问题。
在以上分析的基础上,如何卸载任务,卸载哪些任务成为需要解决的关键问题之一。IIoT中物流系统的任务卸载问题通常不可避免地涉及到计算和传输资源的分配。因此,这个问题可以很容易地转化为一个有限资源分配问题。
其中,任务建模是探索这一最佳化问题的重要前提。但智慧物流将根据实际的技术和应用进行相应的改变,标识解析为任务提供了实时可追溯环境,多任务之间通常都具有依赖性。因此,上述方法容易造成资源浪费,不符合实际情况。考虑到当前IIoT中物流系统的动态性和异质性,大多数利用一次性优化的传统方法可能无法达到稳定的长期优化性能。
发明内容
本发明的目的是提供联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,包括若干物流车辆、若干助手仓库、若干助手车辆;
所述助手仓库搭载有仓库服务器;
所述物流车辆、助手车辆均搭载有车载服务器;
其中,第m个物流车辆的车载服务器产生任务序列
Figure BDA0003851733980000021
并传输至助手仓库的仓库服务器;U为任务总数;
所述物流车辆的车载服务器存储有时延目标计算模型、能耗目标计算模型、任务卸载与资源分配优化模型、优化模型计算框架;
所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure BDA0003851733980000022
的时延目标Tm和能耗目标Em
所述物流车辆的车载服务器将任务序列
Figure BDA0003851733980000023
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure BDA0003851733980000024
的卸载策略;
所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
进一步,所述任务序列
Figure BDA0003851733980000025
为线性序列;其中,第u个子任务Tm,u={dm,u,cm,um,u};dm,u表示任务Tm,u的输入数据大小,cm,u表示完成任务Tm,u所需要的总CPU周期,τm,u表示任务Tm,u的容忍时延。
进一步,所述时延目标Tm如下所示:
Figure BDA0003851733980000026
式中,
Figure BDA0003851733980000027
为仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延;
Figure BDA0003851733980000028
为任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延。
进一步,所述仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延
Figure BDA0003851733980000029
如下所示:
Figure BDA00038517339800000210
式中,αm,u、βm,u、γm,u为卸载指示变量;αm,u=1表示任务Tm,u在第m个物流车辆本地执行,αm,u=0表示任务Tm,u不在第m个物流车辆本地执行;βm,u,b=1表示任务Tm,u卸载到第b个助手仓库执行;βm,u,b=0表示任务Tm,u不在第b个助手仓库执行;γm,u,n=1表示任务Tm,u卸载到第n个助手车辆执行;γm,u,n=0表示任务Tm,u不在第n个助手车辆执行;
其中,任务Tm,u在第m个物流车辆本地执行的计算时延
Figure BDA00038517339800000211
任务Tm,u卸载到第b个助手仓库执行的计算时延
Figure BDA00038517339800000212
任务Tm,u卸载到第n个助手车辆执行的计算时延
Figure BDA00038517339800000213
分别如下所示:
Figure BDA00038517339800000214
Figure BDA0003851733980000031
Figure BDA0003851733980000032
式中,
Figure BDA0003851733980000033
Figure BDA0003851733980000034
分别表示第m个物流车辆、第b个助手仓库和第n个助手车辆分配给任务Tm,u的计算资源;cm,u表示完成任务Tm,u所需要的总CPU周期。
进一步,任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延
Figure BDA0003851733980000035
如下所示:
Figure BDA0003851733980000036
式中,车辆o表示执行第m个物流车辆第u-1个子任务的助手车辆;αm,u、γm,u-1,n、γm,u,o为卸载指示变量;
其中,任务Tm,u从第m个物流车辆卸载到第b个助手仓库的传输速率
Figure BDA0003851733980000037
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的传输速率
Figure BDA0003851733980000038
分别如下所示:
Figure BDA0003851733980000039
Figure BDA00038517339800000310
式中,w为物流车辆的带宽;
Figure BDA00038517339800000311
是LVm的发送功率;δ2是高斯白噪声功率。
Figure BDA00038517339800000312
表示任务Tm,u从第m个物流车辆卸载到第b个助手仓库的路径损耗;
Figure BDA00038517339800000313
表示任务Tm,u从第m个物流车辆卸载到第n个助手车辆的路径损耗;hm是信道衰落系数。
进一步,能耗目标Em如下所示:
Figure BDA00038517339800000314
其中,本地计算能量消耗
Figure BDA00038517339800000315
任务Tm,u从第m个物流车辆卸载到第b个助手仓库的能量消耗
Figure BDA00038517339800000316
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的能量消耗
Figure BDA00038517339800000317
分别如下所示:
Figure BDA00038517339800000318
Figure BDA0003851733980000041
Figure BDA0003851733980000042
式中,k代表与车辆服务器的处理器芯片相关的计算能效系数。
进一步,任务卸载与资源分配优化模型min O如下所示:
Figure BDA0003851733980000043
式中,卸载指示变量α、β、γ为二进制变量;分配计算资源
Figure BDA0003851733980000044
为实数。
Figure BDA0003851733980000045
分别表示助手仓库的服务器计算能力、助手车辆服务器的计算能力;αm,u、βm,u,b、γm,u,n为卸载指示变量;ωm为加权因子;
Figure BDA0003851733980000046
为能耗上限;τm,u为容忍时延上限;
Figure BDA0003851733980000047
分别表示助手仓库集合、物流车辆集合、助手车辆集合、任务集合。
进一步,建立优化模型计算框架的步骤包括:
1)本地训练Actor网络参数
Figure BDA0003851733980000048
和Critic网络参数
Figure BDA0003851733980000049
步骤包括:
1.1)将每个物流车辆建模为一个DDPG智能体,包括Actor网络Actor和Critic网络Critic;其中,Actor网络的输入是LV智能体观察物流系统的网络环境得到的本地状态,输出是任务卸载动作;Critic网络将本地状态和选定的动作作为输入,并输出当前状态的估计值;其中,第m个物流车辆的Actor网络参数、Critic网络参数分别表示为
Figure BDA00038517339800000410
Figure BDA00038517339800000411
1.2)每隔t周期,使用经验重放策略,通过最小化损失函数
Figure BDA00038517339800000412
来更新Critic网络;
损失函数
Figure BDA00038517339800000413
如下所示:
Figure BDA00038517339800000414
式中,
Figure BDA00038517339800000415
表示第m个物流车辆的小批量样本大小;
Figure BDA00038517339800000416
表示本地状态和任务执行动作;Qm为动作价值;
其中,Critic网络生成的目标值
Figure BDA00038517339800000417
如下所示:
Figure BDA0003851733980000051
式中,Q'm为动作价值;
Figure BDA0003851733980000052
表示本地状态和任务执行动作;
Figure BDA0003851733980000053
表示奖励;γ为计算系数;
1.3)计算第m个物流车辆的Actor网络的预期奖励梯度更新量
Figure BDA0003851733980000054
即:
Figure BDA0003851733980000055
式中,Dm为批量样本数;
Figure BDA0003851733980000056
为梯度;
Figure BDA0003851733980000057
为动作价值;
Figure BDA0003851733980000058
表示本地状态和任务执行动作;
Figure BDA0003851733980000059
为Critic网络参数;
Figure BDA00038517339800000510
为任务执行动作;
其中,Actor网络的参数
Figure BDA00038517339800000511
更新如下:
Figure BDA00038517339800000512
式中,δ为更新系数;
1.4)更新Actor网络参数
Figure BDA00038517339800000513
和Critic网络参数
Figure BDA00038517339800000514
即:
Figure BDA00038517339800000515
Figure BDA00038517339800000516
式中,τ为权重参数;
2)每个物流车辆智能体将本地训练得到Actor网络参数
Figure BDA00038517339800000517
和Critic网络参数
Figure BDA00038517339800000518
上传到仓库服务器,以执行优化模型计算框架聚合;
其中,第j轮的全局优化模型计算框架权重更新为:
Figure BDA00038517339800000519
式中,θj
Figure BDA00038517339800000520
分别是第j轮的优化模型计算框架参数和物流车辆智能体m处本地优化模型计算框架的参数;
Figure BDA00038517339800000521
是所有物流车辆智能体的总批量样本大小;
3)所述仓库服务器将聚合的全局模型分发给所有的物流车辆智能体,以更新本地优化模型计算框架。
进一步,所述优化模型计算框架包括状态空间、动作空间和奖励函数;
状态空间存储物流车辆智能体的本地状态Sm(t),即:
Sm(t)={Sm,1+N(t),Sm,B(t)} (21)
式中,Sm,1+N(t)={Taskm(t),Fm,1+N(t),Im(t),Ym,1+N(t)}表示第m个物流车辆和N辆助手车辆的信息集合;Sm,B(t)={FB(t),YB(t)}表示B个助手仓库的信息集合;Taskm(t)表示第m个物流车辆的任务,Fm,1+N(t)包括第m个物流车辆的计算能力
Figure BDA00038517339800000522
和N辆助手车辆的计算能力
Figure BDA00038517339800000523
Im(t)包括第m个物流车辆的信道增益和发送功率;Ym,1+N(t)包括第m个物流车辆m和N辆助手车辆的实时地理位置;FB(t)表示助手仓库的仓库服务器的计算能力
Figure BDA00038517339800000524
YB(t)表示助手仓库的地理位置;
所述动作空间存储任务的卸载策略Am(t),即:
Am(t)={Km(t),Fm,B(t)} (22)
式中,Km(t)=[Km,u(t)]决定第m个物流车辆中子任务计算节点;
Figure BDA0003851733980000061
表示助手仓库的仓库服务器为第m个物流车辆分配的计算资源;
Figure BDA0003851733980000062
Km,u(t)表示各子任务在本地执行、卸载到助手车辆和卸载到助手仓库执行的二进制操作集;
Figure BDA0003851733980000063
表示第b个助手仓库分配给任务Tm,u的计算资源;
奖励函数Rm(t)如下所示:
Figure BDA0003851733980000064
式中,Om(t)为任务卸载与资源分配优化模型的目标函数。
进一步,所述物流车辆集合记为
Figure BDA0003851733980000065
助手仓库集合记为
Figure BDA0003851733980000066
助手车辆集合记为
Figure BDA0003851733980000067
M、B、N分别表示一个物流调度区域内物流车辆、助手仓库、助手车辆的数量。
一种计算机可读介质,所述计算机可读介质存储有上述联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统的计算机程序;
所述计算机程序用于生成联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配方案;
所述计算机程序被处理器执行时,实现以下步骤:
1)第m个物流车辆的车载服务器产生任务序列
Figure BDA0003851733980000068
并传输至助手仓库的仓库服务器;U为任务总数;
2)所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure BDA0003851733980000069
的时延目标Tm和能耗目标Em
3)所述物流车辆的车载服务器将任务序列
Figure BDA00038517339800000610
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure BDA00038517339800000611
的卸载策略;
4)所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
本发明的技术效果是毋庸置疑的,本发明面向智慧物流中依赖型的应用程序,考虑任务间的依赖关系,研究端-边协同的动态任务卸载策略,以满足物流车辆对时延和能耗的服务质量需求(Quality of Service,QoS)。首先,对依赖型应用ARCore进行建模,转化为具有线性执行序列的模型。其次,使用ARCore模型,建立任务卸载和资源分配的联合优化问题,并提出了一种多智能体深度确定性策略梯度(Multi-Agent Deep DeterministicPolicy Gradient,MADDPG)的任务卸载策略,其目标是保证每辆携带任务的物流车辆在满足QoS的情况下最小化时延和能耗的系统总成本。最后,为了降低多智能体训练过程的计算复杂性和信令开销,设计了一个联邦学习辅助MADDPG学习架构,只需要每个智能体共享其模型参数,而不需要共享本地训练数据。数值结果表明,与基准策略相比,所提策略在系统总成本方面具有明显的优越性,其时延和能耗的系统平均成本至少降低了9.63%。
为了满足IIoT中依赖型应用在时延和能耗方面的差异化需求,任务卸载策略的设计应该将物流车辆的QoS需求、应用的内部依赖结构、各级计算范式的优劣势相结合,对任务卸载决策和各级计算资源进行联合管理和分配,进而将任务与协作处理节点相关联,本发明提出一种面向依赖型应用的智能协同卸载策略,该策略首先将具有依赖约束的计算密集型应用卸载到端-边协同的计算架构,并把该任务卸载问题表述为由时延和能耗组成的系统总成本最小化问题。然后利用多智能体DRL算法根据任务间的依赖关系和端-边各级的计算资源选择协作处理节点和分配计算资源。
本发明主要面向依赖型的物流应用,该应用由几个固定的模块组成,不能进行任意分区。以ARCore应用模型为例,可以分解并建模为具有线性序列执行的任务模型,包含多个模块,当前子模块依赖于前一个子模块的输出。
本发明将智慧物流系统的联合任务卸载和资源分配问题建模为一个多智能体DRL问题,以最小化系统的时延和能耗。提出了一种多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)的任务卸载策略,其中物流车辆智能体根据其本地观察独立采取行动,但通过协作探索环境来完善其策略,从而确定任务卸载路径和资源分配,提高系统整体性能。
为了降低智能体间交换彼此的本地信息和动作值造成的信令开销,本发明设计了一个联邦学习辅助的多智能体DRL架构,只需要每个任务车辆智能体共享其模型参数到仓库,而不需要共享本地训练数据。
附图说明
图1为系统模型;
图2为任务模型;
图3为单物流车辆任务调度的示例;
图4为F-MADDPG学习框架。
图5为F-MADDPG模型收敛图;
图6为不同任务数据大小的平均成本;
图7为不同物流车辆计算能力下的平均成本;
图8为不同MEC服务器计算能力下的平均成本;
图9为不同物流车辆数量下的平均成本。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图9,联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,包括若干物流车辆、若干助手仓库、若干助手车辆;
所述助手仓库搭载有仓库服务器;
所述物流车辆、助手车辆均搭载有车载服务器;
其中,第m个物流车辆的车载服务器产生任务序列
Figure BDA0003851733980000081
并传输至助手仓库的仓库服务器;U为任务总数;
所述物流车辆的车载服务器存储有时延目标计算模型、能耗目标计算模型、任务卸载与资源分配优化模型、优化模型计算框架;
所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure BDA0003851733980000082
的时延目标Tm和能耗目标Em
所述物流车辆的车载服务器将任务序列
Figure BDA0003851733980000083
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure BDA0003851733980000084
的卸载策略;
所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
所述任务序列
Figure BDA0003851733980000085
为线性序列;其中,第u个子任务Tm,u={dm,u,cm,um,u};dm,u表示任务Tm,u的输入数据大小,cm,u表示完成任务Tm,u所需要的总CPU周期,τm,u表示任务Tm,u的容忍时延。
所述时延目标Tm如下所示:
Figure BDA0003851733980000086
式中,
Figure BDA0003851733980000087
为仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延;
Figure BDA0003851733980000088
为任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延。
所述仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延
Figure BDA0003851733980000089
如下所示:
Figure BDA00038517339800000810
式中,αm,u、βm,u、γm,u为卸载指示变量;αm,u=1表示任务Tm,u在第m个物流车辆本地执行,αm,u=0表示任务Tm,u不在第m个物流车辆本地执行;βm,u,b=1表示任务Tm,u卸载到第b个助手仓库执行;βm,u,b=0表示任务Tm,u不在第b个助手仓库执行;γm,u,n=1表示任务Tm,u卸载到第n个助手车辆执行;γm,u,n=0表示任务Tm,u不在第n个助手车辆执行;
其中,任务Tm,u在第m个物流车辆本地执行的计算时延
Figure BDA00038517339800000811
任务Tm,u卸载到第b个助手仓库执行的计算时延
Figure BDA00038517339800000812
任务Tm,u卸载到第n个助手车辆执行的计算时延
Figure BDA00038517339800000813
分别如下所示:
Figure BDA0003851733980000091
Figure BDA0003851733980000092
Figure BDA0003851733980000093
式中,
Figure BDA0003851733980000094
Figure BDA0003851733980000095
分别表示第m个物流车辆、第b个助手仓库和第n个助手车辆分配给任务Tm,u的计算资源;cm,u表示完成任务Tm,u所需要的总CPU周期。
任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延
Figure BDA0003851733980000096
如下所示:
Figure BDA0003851733980000097
式中,车辆o表示执行第m个物流车辆第u-1个子任务的助手车辆;αm,u、γm,u-1,n、γm,u,o为卸载指示变量;
其中,任务Tm,u从第m个物流车辆卸载到第b个助手仓库的传输速率
Figure BDA0003851733980000098
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的传输速率
Figure BDA0003851733980000099
分别如下所示:
Figure BDA00038517339800000910
Figure BDA00038517339800000911
式中,w为物流车辆的带宽;
Figure BDA00038517339800000912
是LVm的发送功率;δ2是高斯白噪声功率。
Figure BDA00038517339800000913
表示任务Tm,u从第m个物流车辆卸载到第b个助手仓库的路径损耗;
Figure BDA00038517339800000914
表示任务Tm,u从第m个物流车辆卸载到第n个助手车辆的路径损耗;hm是信道衰落系数。
能耗目标Em如下所示:
Figure BDA00038517339800000915
其中,本地计算能量消耗
Figure BDA00038517339800000916
任务Tm,u从第m个物流车辆卸载到第b个助手仓库的能量消耗
Figure BDA00038517339800000917
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的能量消耗
Figure BDA00038517339800000918
分别如下所示:
Figure BDA0003851733980000101
Figure BDA0003851733980000102
Figure BDA0003851733980000103
式中,k代表与车辆服务器的处理器芯片相关的计算能效系数。
任务卸载与资源分配优化模型min O如下所示:
Figure BDA0003851733980000104
式中,卸载指示变量α、β、γ为二进制变量;分配计算资源
Figure BDA0003851733980000105
为实数。
Figure BDA0003851733980000106
分别表示助手仓库的服务器计算能力、助手车辆服务器的计算能力;αm,u、βm,u,b、γm,u,n为卸载指示变量;ωm为加权因子;
Figure BDA0003851733980000107
为能耗上限;τm,u为容忍时延上限;
Figure BDA0003851733980000108
分别表示助手仓库集合、物流车辆集合、助手车辆集合、任务集合。
建立优化模型计算框架的步骤包括:
1)本地训练Actor网络参数
Figure BDA0003851733980000109
和Critic网络参数
Figure BDA00038517339800001010
步骤包括:
1.1)将每个物流车辆建模为一个DDPG智能体,包括Actor网络Actor和Critic网络Critic;其中,Actor网络的输入是LV智能体观察物流系统的网络环境得到的本地状态,输出是任务卸载动作;Critic网络将本地状态和选定的动作作为输入,并输出当前状态的估计值;其中,第m个物流车辆的Actor网络参数、Critic网络参数分别表示为
Figure BDA00038517339800001011
Figure BDA00038517339800001012
1.2)每隔t周期,使用经验重放策略,通过最小化损失函数
Figure BDA00038517339800001013
来更新Critic网络;
损失函数
Figure BDA00038517339800001014
如下所示:
Figure BDA00038517339800001015
式中,
Figure BDA00038517339800001016
表示第m个物流车辆的小批量样本大小;
Figure BDA00038517339800001017
表示本地状态和任务执行动作;Qm为动作价值;
其中,Critic网络生成的目标值
Figure BDA0003851733980000111
如下所示:
Figure BDA0003851733980000112
式中,Q'm为动作价值;
Figure BDA0003851733980000113
表示本地状态和任务执行动作;
Figure BDA0003851733980000114
表示奖励;γ为计算系数;
1.3)计算第m个物流车辆的Actor网络的预期奖励梯度更新量
Figure BDA0003851733980000115
即:
Figure BDA0003851733980000116
式中,Dm为批量样本数;
Figure BDA0003851733980000117
为梯度;
Figure BDA0003851733980000118
为动作价值;
Figure BDA0003851733980000119
表示本地状态和任务执行动作;
Figure BDA00038517339800001110
为Critic网络参数;
Figure BDA00038517339800001111
为任务执行动作;
其中,Actor网络的参数
Figure BDA00038517339800001112
更新如下:
Figure BDA00038517339800001113
式中,δ为更新系数;
1.4)更新Actor网络参数
Figure BDA00038517339800001114
和Critic网络参数
Figure BDA00038517339800001115
即:
Figure BDA00038517339800001116
Figure BDA00038517339800001117
式中,τ为权重参数;
2)每个物流车辆智能体将本地训练得到Actor网络参数
Figure BDA00038517339800001118
和Critic网络参数
Figure BDA00038517339800001119
上传到仓库服务器,以执行优化模型计算框架聚合;
其中,第j轮的全局优化模型计算框架权重更新为:
Figure BDA00038517339800001120
式中,θj
Figure BDA00038517339800001121
分别是第j轮的优化模型计算框架参数和物流车辆智能体m处本地优化模型计算框架的参数;
Figure BDA00038517339800001122
是所有物流车辆智能体的总批量样本大小;
3)所述仓库服务器将聚合的全局模型分发给所有的物流车辆智能体,以更新本地优化模型计算框架。
所述优化模型计算框架包括状态空间、动作空间和奖励函数;
状态空间存储物流车辆智能体的本地状态Sm(t),即:
Sm(t)={Sm,1+N(t),Sm,B(t)} (21)
式中,Sm,1+N(t)={Taskm(t),Fm,1+N(t),Im(t),Ym,1+N(t)}表示第m个物流车辆和N辆助手车辆的信息集合;Sm,B(t)={FB(t),YB(t)}表示B个助手仓库的信息集合;Taskm(t)表示第m个物流车辆的任务,Fm,1+N(t)包括第m个物流车辆的计算能力
Figure BDA00038517339800001123
和N辆助手车辆的计算能力
Figure BDA00038517339800001124
Im(t)包括第m个物流车辆的信道增益和发送功率;Ym,1+N(t)包括第m个物流车辆m和N辆助手车辆的实时地理位置;FB(t)表示助手仓库的仓库服务器的计算能力
Figure BDA0003851733980000121
YB(t)表示助手仓库的地理位置;
所述动作空间存储任务的卸载策略Am(t),即:
Am(t)={Km(t),Fm,B(t)} (22)
式中,Km(t)=[Km,u(t)]决定第m个物流车辆中子任务计算节点;
Figure BDA0003851733980000122
表示助手仓库的仓库服务器为第m个物流车辆分配的计算资源;
Figure BDA0003851733980000123
Km,u(t)表示各子任务在本地执行、卸载到助手车辆和卸载到助手仓库执行的二进制操作集;
Figure BDA0003851733980000124
表示第b个助手仓库分配给任务Tm,u的计算资源;
奖励函数Rm(t)如下所示:
Figure BDA0003851733980000125
式中,Om(t)为任务卸载与资源分配优化模型的目标函数。
所述物流车辆集合记为
Figure BDA0003851733980000126
助手仓库集合记为
Figure BDA0003851733980000127
助手车辆集合记为
Figure BDA0003851733980000128
M、B、N分别表示一个物流调度区域内物流车辆、助手仓库、助手车辆的数量。
一种计算机可读介质,所述计算机可读介质存储有上述联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统的计算机程序;
所述计算机程序用于生成联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配方案;
所述计算机程序被处理器执行时,实现以下步骤:
1)第m个物流车辆的车载服务器产生任务序列
Figure BDA0003851733980000129
并传输至助手仓库的仓库服务器;U为任务总数;
2)所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure BDA00038517339800001210
的时延目标Tm和能耗目标Em
3)所述物流车辆的车载服务器将任务序列
Figure BDA00038517339800001211
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure BDA00038517339800001212
的卸载策略;
4)所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
实施例2:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,包括若干物流车辆、若干助手仓库、若干助手车辆;
所述助手仓库搭载有仓库服务器;
所述物流车辆、助手车辆均搭载有车载服务器;
其中,第m个物流车辆的车载服务器产生任务序列
Figure BDA0003851733980000131
并传输至助手仓库的仓库服务器;U为任务总数;
所述物流车辆的车载服务器存储有时延目标计算模型、能耗目标计算模型、任务卸载与资源分配优化模型、优化模型计算框架;
所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure BDA0003851733980000132
的时延目标Tm和能耗目标Em
所述物流车辆的车载服务器将任务序列
Figure BDA0003851733980000133
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure BDA0003851733980000134
的卸载策略;
所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
实施例3:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,所述任务序列
Figure BDA0003851733980000135
为线性序列;其中,第u个子任务Tm,u={dm,u,cm,um,u};dm,u表示任务Tm,u的输入数据大小,cm,u表示完成任务Tm,u所需要的总CPU周期,τm,u表示任务Tm,u的容忍时延。
实施例4:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,所述时延目标Tm如下所示:
Figure BDA0003851733980000136
式中,
Figure BDA0003851733980000137
为仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延;
Figure BDA0003851733980000138
为任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延。
实施例5:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,所述仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延
Figure BDA0003851733980000139
如下所示:
Figure BDA00038517339800001310
式中,αm,u、βm,u、γm,u为卸载指示变量;αm,u=1表示任务Tm,u在第m个物流车辆本地执行,αm,u=0表示任务Tm,u不在第m个物流车辆本地执行;βm,u,b=1表示任务Tm,u卸载到第b个助手仓库执行;βm,u,b=0表示任务Tm,u不在第b个助手仓库执行;γm,u,n=1表示任务Tm,u卸载到第n个助手车辆执行;γm,u,n=0表示任务Tm,u不在第n个助手车辆执行;
其中,任务Tm,u在第m个物流车辆本地执行的计算时延
Figure BDA00038517339800001311
任务Tm,u卸载到第b个助手仓库执行的计算时延
Figure BDA0003851733980000141
任务Tm,u卸载到第n个助手车辆执行的计算时延
Figure BDA0003851733980000142
分别如下所示:
Figure BDA0003851733980000143
Figure BDA0003851733980000144
Figure BDA0003851733980000145
式中,
Figure BDA0003851733980000146
Figure BDA0003851733980000147
分别表示第m个物流车辆、第b个助手仓库和第n个助手车辆分配给任务Tm,u的计算资源;cm,u表示完成任务Tm,u所需要的总CPU周期。
实施例6:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延
Figure BDA0003851733980000148
如下所示:
Figure BDA0003851733980000149
式中,车辆o表示是执行第m个物流车辆第u-1个子任务的助手车辆;
其中,任务Tm,u从第m个物流车辆卸载到第b个助手仓库的传输速率rm,u,b、任务Tm,u从第m个物流车辆卸载到第n个助手车辆的传输速率rm,u,n分别如下所示:
Figure BDA00038517339800001410
Figure BDA00038517339800001411
式中,w为物流车辆的带宽;
Figure BDA00038517339800001412
是LVm的发送功率;δ2是高斯白噪声功率。
实施例7:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,能耗目标Em如下所示:
Figure BDA00038517339800001413
其中,本地计算能量消耗
Figure BDA00038517339800001414
任务Tm,u从第m个物流车辆卸载到第b个助手仓库的能量消耗
Figure BDA0003851733980000151
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的能量消耗
Figure BDA0003851733980000152
分别如下所示:
Figure BDA0003851733980000153
Figure BDA0003851733980000154
Figure BDA0003851733980000155
式中,k代表与车辆服务器的处理器芯片相关的计算能效系数。
实施例8:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,任务卸载与资源分配优化模型如下所示:
Figure BDA0003851733980000156
式中,卸载指示变量α、β、γ为二进制变量;分配计算资源
Figure BDA0003851733980000157
为实数。
实施例9:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,建立优化模型计算框架的步骤包括:
1)本地训练Actor网络参数
Figure BDA0003851733980000158
和Critic网络参数
Figure BDA0003851733980000159
步骤包括:
1.1)将每个物流车辆建模为一个DDPG智能体,包括Actor网络Actor和Critic网络Critic;其中,Actor网络的输入是LV智能体观察物流系统的网络环境得到的本地状态,输出是任务卸载动作;Critic网络将本地状态和选定的动作作为输入,并输出当前状态的估计值;其中,第m个物流车辆的Actor网络参数、Critic网络参数分别表示为
Figure BDA00038517339800001510
Figure BDA00038517339800001511
1.2)每隔t周期,使用经验重放策略,通过最小化损失函数
Figure BDA00038517339800001512
来更新Critic网络;
损失函数
Figure BDA00038517339800001513
如下所示:
Figure BDA0003851733980000161
式中,
Figure BDA0003851733980000162
表示第m个物流车辆的小批量样本大小;
其中,Critic网络生成的目标值
Figure BDA0003851733980000163
如下所示:
Figure BDA0003851733980000164
式中,Qm为动作价值函数;
1.3)计算第m个物流车辆的Actor网络的预期奖励梯度更新量
Figure BDA0003851733980000165
即:
Figure BDA0003851733980000166
其中,Actor网络的参数
Figure BDA0003851733980000167
更新如下:
Figure BDA0003851733980000168
1.4)更新Actor网络参数
Figure BDA0003851733980000169
和Critic网络参数
Figure BDA00038517339800001610
即:
Figure BDA00038517339800001611
Figure BDA00038517339800001612
2)每个物流车辆智能体将本地训练得到Actor网络参数
Figure BDA00038517339800001613
和Critic网络参数
Figure BDA00038517339800001614
上传到仓库服务器,以执行优化模型计算框架聚合;
其中,第j轮的全局优化模型计算框架权重更新为:
Figure BDA00038517339800001615
式中,θj
Figure BDA00038517339800001616
分别是第j轮的优化模型计算框架参数和物流车辆智能体m处本地优化模型计算框架的参数;
Figure BDA00038517339800001617
是所有物流车辆智能体的总批量样本大小;
3)所述仓库服务器将聚合的全局模型分发给所有的物流车辆智能体,以更新本地优化模型计算框架。
实施例10:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,所述优化模型计算框架包括状态空间、动作空间和奖励函数;
状态空间存储物流车辆智能体的本地状态Sm(t),即:
Sm(t)={Sm,1+N(t),Sm,B(t)} (21)
式中,Sm,1+N(t)={Taskm(t),Fm,1+N(t),Im(t),Ym,1+N(t)}表示第m个物流车辆和N辆助手车辆的信息集合;Sm,B(t)={FB(t),YB(t)}表示B个助手仓库的信息集合;Taskm(t)表示第m个物流车辆的任务,Fm,1+N(t)包括第m个物流车辆的计算能力
Figure BDA00038517339800001618
和N辆助手车辆的计算能力;
Figure BDA00038517339800001619
Im(t)包括第m个物流车辆的信道增益和发送功率;Ym,1+N(t)包括第m个物流车辆m和N辆助手车辆的实时地理位置;FB(t)表示助手仓库的仓库服务器的计算能力;
Figure BDA00038517339800001620
YB(t)表示助手仓库的地理位置;
所述动作空间存储任务的卸载策略,即:
Am(t)={Km(t),Fm,B(t)} (22)
式中,Km(t)=[Km,u(t)]决定第m个物流车辆中子任务计算节点;
Figure BDA0003851733980000171
决定助手仓库的仓库服务器为第m个物流车辆分配的计算资源;
Figure BDA0003851733980000172
Km,u(t)表示各子任务在本地执行、卸载到助手车辆和卸载到助手仓库执行的二进制操作集;
Figure BDA0003851733980000173
表示助手仓库分配给第m个物流车辆各子任务的计算资源;
奖励函数Rm(t)如下所示:
Figure BDA0003851733980000174
式中,Om(t)为任务卸载与资源分配优化模型的目标函数。
实施例11:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,主要内容见实施例2,其中,所述物流车辆集合记为
Figure BDA0003851733980000175
助手仓库集合记为
Figure BDA0003851733980000176
助手车辆集合记为
Figure BDA0003851733980000177
M、B、N分别表示一个物流调度区域内物流车辆、助手仓库、助手车辆的数量。
实施例12:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,内容包括:
1网络模型
本实施例考虑封闭式物流园区场景,如图1所示。由物流车辆(LogisticsVehicles,LVs)和物流协作助手组成。其中物流协作助手分为两类,即助手仓库(HelperWarehouses,HWs)和助手车辆(Helper Vehicles,HVs)。HWs和HVs都能同时进行通信和计算操作。一组HWs
Figure BDA0003851733980000178
均匀分布在两侧,且每个助手仓库均配有服务器与LVs和HVs进行信息交换。LVs和HVs的集合分别使用
Figure BDA0003851733980000179
Figure BDA00038517339800001710
进行表示。所有LVs和HVs沿道路行驶,车辆i的速度用vi表示。LVs可以生成一系列不同需求的计算任务,我们假设每个LV在单个时隙期间最多生成一个任务。任务可以在LVs本地进行计算,也可以卸载给HW或HV进行计算。
2任务模型
与完全卸载应用模型相比,部分卸载应用模型提供了更大的灵活性,可以更好地匹配智慧物流应用场景。一般来说,云服务的应用程序可以分为以下几类:面向数据分区的应用程序、面向代码分区的应用程序、以及连续执行的应用程序。由于复杂的应用程序是由几个固定的组件组成,不能任意分区,因此我们关注面向代码分区的物流应用。近年来,IIoT技术已广泛应用于制造系统,如射频识别(RFID)、无线、移动和传感器设备。本实施例将复杂的应用模块依赖系统简化为线性序列执行模块,如图2所示。以新兴的ARCore应用模型为例,该应用程序可以表示为线性序列执行架构。该应用程序包含多个模块,当前子模块依赖于前一个子模块的输出。此外,本实施例不仅限于ARCore应用,当扩展到具有上述线性序列执行的其它应用时,所提出的模型仍然适用。
如上所述,本实施例将物流应用程序建模为一个由
Figure BDA0003851733980000181
个分量组成的线性序列执行的任务。对于物流车辆m的第u个子任务,即Tm,u,可用三个变量进行描述:Tm,u={dm,u,cm,um,u}。其中,dm,u表示任务Tm,u的输入数据大小,cm,u表示完成任务Tm,u所需要的总CPU周期,τm,u表示任务Tm,u的容忍时延。只要知道第一个子任务的数据大小,根据比例
Figure BDA0003851733980000182
Figure BDA0003851733980000183
就可以知道所有子任务的数据大小。任务Tm,u可以在LVm上执行,即本地执行,或卸载到HWb/HVn上执行。假设任务Tm,u的卸载指示变量为Km,u={αm,um,u,bm,u,n},其中αm,um,um,u∈(0,1),并且αm,um,um,u=1。如果任务Tm,u在LVm上本地执行,则αm,u=1,否则αm,u=0;如果LVm将任务Tm,u卸载到HWb上执行,则βm,u,b=1,否则βm,u,b=0;同理,如果LVm将任务Tm,u卸载到HVn上执行,则γm,u,n=1,否则γm,u,n=0。
3时延模型
在图3中,以LVm某一时隙的任务调度为示例,将ARCore应用的5个子任务调度到相应的计算节点进行计算。每个子任务在前一个子任务结束后执行。上一个子任务的执行结果需要传递给下一个子任务。因此任务Tm,u的计算卸载决策Km,u受到任务间的依赖关系和任务Tm,u等待其前一个子任务Tm,u-1执行时间的影响。本实施例考虑到这种影响,对任务Tm,u的执行过程进行建模。具体来说,每个任务的完成时延由两个部分组成,即数据传输时延和任务计算时延。
(1)计算时延
假设LVm、HWb和HVn都配备了具有恒定计算能力的处理器,可分别表示为
Figure BDA0003851733980000184
Figure BDA0003851733980000185
其中,
Figure BDA0003851733980000186
Figure BDA0003851733980000187
分别表示LV m、HW b和HV n分配给任务Tm,u的计算资源。由于多台车辆可以将任务卸载到同一HW或者HV上,因此
Figure BDA0003851733980000188
分别与HW b和HV n上的空闲计算资源高度相关。如果车辆m在本地处理任务Tm,u,则计算时延
Figure BDA0003851733980000189
可以表示为:
Figure BDA00038517339800001810
当任务Tm,u被卸载到HW b时,计算时延
Figure BDA00038517339800001811
为:
Figure BDA00038517339800001812
如果车辆m将任务Tm,u卸载到HV n上执行时,计算时延
Figure BDA00038517339800001813
为:
Figure BDA00038517339800001814
因此,任务Tm,u的计算时延可以表示为:
Figure BDA0003851733980000191
(2)传输时延
为了提高频谱利用率,我们假设物流车辆与助手车辆的链路复用物流车辆与助手仓库链路的频谱资源。本实施例对计算卸载链路进行建模,将路径损耗表示为Xθ,其中X和θ分别表示LV m到卸载计算节点的距离和路径损耗指数。此外,信道衰落系数用hm表示,使用复高斯随机变量进行建模。当任务Tm,u从LV m卸载到HW b/HV n时,传输速率分别为:
Figure BDA0003851733980000192
Figure BDA0003851733980000193
其中,w为服务器分配给物流车辆的带宽,这里假设服务器均匀分配带宽给每辆车;
Figure BDA0003851733980000194
是LV m的发送功率;δ2是高斯白噪声功率。
如果LV m相邻的两个子任务在同一计算节点进行计算,则不需要将前一个子任务的输出发送到另一个节点,此时的传输时延记为0。由于在HW处服务器上计算任务的输出数据大小要比输入数据大小得多,因此,回程连接的时延开销可以忽略。假设LV m的第u-1个子任务到第u个子任务的传输时延为
Figure BDA0003851733980000195
可表示为:
Figure BDA0003851733980000196
传输时延分为四种情况,箭头表示任务计算节点的转换,tm,u,m→b表示模块u-1本地处理,模块u被卸载到HW b。故公式(7)可分为以下四种情况来计算。
Case 1:模块u-1本地处理,模块u在HW b上执行,其传输时延可表示为:
Figure BDA0003851733980000197
Case 2:模块u-1本地处理,模块u在助手HV n上执行,其传输时延可表示为:
Figure BDA0003851733980000198
Case3:模块u-1在HV n上执行,模块u在LV m上执行,其传输时延可表示为:
Figure BDA0003851733980000199
Case4:模块u-1在HV n上执行,模块u在HW b上执行,其传输时延可表示为:
Figure BDA00038517339800001910
因此,公式(7)中LV m的第u-1个子任务到第u个子任务的传输时延
Figure BDA00038517339800001911
可重新表示成:
Figure BDA0003851733980000201
其中,车辆o表示是LV m的第u-1个子任务的HV。
4能耗模型:
在物流系统中,LV m能量的消耗包括两部分:一是LV m在本地执行任务Tm,u的能耗;二是将LV m将任务Tm,u发送给HW b或者HV n的能耗。
1)本地计算的能耗
已知LV m服务器的计算能力
Figure BDA0003851733980000202
处理器的能耗建模为
Figure BDA0003851733980000203
(焦耳每秒),其中k代表与车辆服务器的处理器芯片相关的计算能效系数。考虑到计算时延(1),本地计算的能量消耗由下式给出:
Figure BDA0003851733980000204
2)卸载任务的能耗
当LV m卸载到HW b或者HV n上的任务Tm,u,其能耗主要来自LV m到HW b或者HV n上行传输。当LVm选择将任务Tm,u卸载到HW b时,其V2I上行传输能耗可表示为:
Figure BDA0003851733980000205
当LV m选择将任务Tm,u卸载到HV n时,其V2V上行传输能耗可表示为:
Figure BDA0003851733980000206
5问题公式化
在物流系统下,需要同时对系统时延和能耗进行双目标优化。对于LV m的时延目标Tm,本实施例考虑计算时延和传输时延的影响。时延目标Tm,可表示为:
Figure BDA0003851733980000207
对于LV m的能耗目标Em,主要考虑本地计算任务的能耗和卸载时发送任务的能耗。能耗目标Em,可表示为:
Figure BDA0003851733980000208
本实施例旨在解决代码分区的物流应用执行的能量消耗和时延成本之间的权衡。为了构建本实施例的目标函数,引入一个加权因子ωm,根据物流车辆用户的任务需求偏好来调整能量消耗和时延成本的权重。本实施例的目标是确定任务卸载决策和资源分配,以最小化多个物流车辆
Figure BDA0003851733980000209
的代码分区应用的执行时延和能量消耗加权成本。因此,任务卸载决策和资源分配问题可以表述为如下优化问题:
Figure BDA0003851733980000211
s.t.
Figure BDA0003851733980000212
C2:αm,um,u,bm,u,n∈{0,1}
Figure BDA0003851733980000213
Figure BDA0003851733980000214
Figure BDA0003851733980000215
Figure BDA0003851733980000216
其中,约束C1和C2确保一个子任务只能在一个计算节点上进行处理,即本地,或者卸载到一个HW或一辆附近的HV上;C3保证HW的服务器中分配的总计算资源不超过其计算能力;C4保证HV中分配的计算资源必须小于其计算能力;C5确保一个子任务必须在其容忍时延内完成;C6确保表示LV的总能耗不应超过其自身总能量。公式(18)中的优化问题为混合整数非线性规划问题(Mixed Integer Nonlinear Programming,MINLP),其中卸载指示变量α、β、γ为二进制变量,而分配的计算资源
Figure BDA0003851733980000217
为实数。另外,在实际的物流系统中,随着时间的推移,物流运输的网络规模不断扩大,其网络拓扑也在变化着,这导致了本实施例优化问题的复杂性显著增加。此外,DRL已被公认为是在复杂动态网络中寻找最优策略的有效方法。基于上述原因,本实施例尝试利用DRL的方案来解决该优化问题。
6F-MADDPG任务卸载和资源分配策略
在这一部分,首先对多智能体的环境进行描述,主要定义多智能体的状态空间、动作空间和奖励函数。然后,给出一个F-MADDPG任务卸载和资源分配策略的学习框架,这是实现多智能体模型训练的核心。最后,基于该框架,详细描述了本实施例提出算法的实现步骤。
6.1多智能体环境描述
在本小节中,我们将优化问题(18)使用马尔可夫决策过程(Markov DecisionProcess,MDP)进行描述。然后,根据多用户的MDP公式,采用多智能体强化学习方法来解决MDP问题。在图1所示的智慧物流场景中,每辆LV根据其本地环境和每个时隙的总资源情况来决定其自身的计算卸载和资源分配方案。不同LV的决策是相互影响的,导致不同LV区域性能的紧耦合。因此,可以被建模为一个多智能体强化学习问题,其中每辆LV作为一个智能体并与环境交互以获得经验,以改进其计算卸载和资源分配的策略。考虑引入策略的方法,即深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG),使用双神经网络分别估计动作和Q值。在该场景中,使用MADDPG算法来解决优化问题,该算法是对DDPG算法的改进,以适应多智能体环境。在本实施例描述的系统中,状态空间、动作空间和奖励函数定义如下。
1)状态空间:
状态是智能体观察自身具体和直接的情况。其设置应充分反映物流系统的网络环境,包括物流车辆的任务、计算能力、通信资源和实时位置状态,以及HW的计算能力和实时位置。定义智能体m的本地状态为一个变量集,可表示为:
Sm(t)={Sm,1+N(t),Sm,B(t)} (19)
其中Sm,1+N(t)表示LVm和N辆HVs的信息集合,Sm,B(t)表示B个HWs的信息集合。具体来说,Sm,1+N(t)={Taskm(t),Fm,1+N(t),Im(t),Ym,1+N(t)},其中,Taskm(t)表示LVm的任务,Fm,1+N(t)包括LVm的计算能力
Figure BDA0003851733980000221
和N辆HVs的计算能力
Figure BDA0003851733980000222
Im(t)包括LVm的信道增益和发送功率,Ym,1+N(t)包括LVm和N辆HVs的实时地理位置。Sm,B(t)={FB(t),YB(t)},其中FB(t)表示HW服务器的计算能力
Figure BDA0003851733980000223
YB(t)表示HW的地理位置。
2)动作空间:
动作是智能体可以做出的所有可能动作的集合。在物流系统中,LVm智能体必须决定任务是在本地执行,还是将任务卸载到哪辆HV或哪个HWS上,并为计算任务分配多少计算资源。复合动作Am(t)可表示为:
Am(t)={Km(t),Fm,B(t)} (20)
其中Km(t)决定LVm中子任务的计算节点,Fm,B(t)决定HW服务器为LVm分配的计算资源。具体来说,Km(t)=[Km,u(t)],
Figure BDA0003851733980000226
其中Km,u(t)表示各子任务在本地执行、卸载到HV和卸载到HW执行的二进制操作集,见2.2小节定义。
Figure BDA0003851733980000224
表示HW分配给LVm各子任务的计算资源。
3)奖励和惩罚:
奖励是衡量智能体在给定状态下的行为成功或失败的反馈。奖励设置在训练神经网络中起着关键作用。公式(18)的主要目标是最小化系统任务执行时延和能耗的加权和,而奖励函数旨在最大化获得的奖励。因此,奖励应该与目标函数成反比。故本实施例考虑以下为奖励函数:
Figure BDA0003851733980000225
6.2联邦学习辅助的多智能体学习架构
每个LV智能体根据其本地状态和用户需求独立采取行动,并通过环境的协作探索,细化其任务卸载和资源分配策略,从而提高系统整体的时延和能耗性能。在多智能体环境中,需要关于所有LV智能体的状态和动作的全局信息来训练每个智能体。然而,LV智能体需要交换彼此的本地信息和动作值,这可能会导致大量的信令开销。缺乏训练数据也可能会对每个智能体的精确DRL模型的训练构成重大挑战。为了在低开销的情况下解决这个问题,可以利用分布式联邦学习来提高单个本地DRL模型的训练性能,而不需要集中训练数据。针对上述问题,本实施例提出了一个联邦学习辅助的多智能体深度确定性策略梯度(Federated Multi-Agent Deep Deterministic Policy Gradient,F-MADDPG)框架。如图4所示,F-MADDPG框架主要包括三部分:本地训练、模型聚合和模型下发。本地训练的目的是利用MADDPG的DRL算法推导适合每个智能体自身的本地模型参数。然后,每个智能体将训练好的模型参数上传到服务器,进行模型聚合,生成适合数据训练的全局模型。最后,服务器将聚合好的全局模型下发至每个智能体。
1)本地训练
在图4中,每个LV被建模为一个DDPG智能体,由演员家(Actor)网络和批评家(Critic)网络两部分组成。其中,Actor网络的输入是LV智能体观察物流系统的网络环境得到的本地状态,输出是其选择的动作。而Critic网络将本地状态和选定的动作作为输入,并输出当前状态的估计值。对于LV智能体m,其Actor和Critic网络参数分别表示为
Figure BDA0003851733980000231
Figure BDA0003851733980000232
此外,为保证训练数据的非相关性,LV智能体m采用经验回放区来存储转换单元{sm(t),am(t),Rm(t),s'm(t)}。每一段时间,Actor和Critic网络可以通过从经验回放区中统一抽样一个小批样来更新。具体来说,使用经验重放策略,通过最小化损失函数
Figure BDA0003851733980000233
来更新Critic网络,其定义为:
Figure BDA0003851733980000234
其中,
Figure BDA0003851733980000235
表示LV智能体m的小批量样本大小。
Figure BDA0003851733980000236
是Critic目标网络生成的目标值,可由(23)表示。
动作价值函数Qm将自身的本地状态和动作作为输入,Critic网络可以根据其本地状态评估所选动作的质量。
Figure BDA0003851733980000237
另一方面,LV智能体m的Actor网络的预期奖励梯度更新由下式给出:
Figure BDA0003851733980000238
相应地,Actor网络的参数
Figure BDA0003851733980000239
更新为:
Figure BDA00038517339800002310
另一方面,目标网络的参数在每个时间周期由主网络缓慢更新。LV智能体m的Actor目标和Critic目标网络的参数
Figure BDA00038517339800002311
Figure BDA00038517339800002312
分别更新为:
Figure BDA00038517339800002313
Figure BDA00038517339800002314
2)模型聚合
在多智能体的学习场景中,需要交互信息来共享不同智能体的策略。然而,观察空间数据的传输和处理会消耗过多的通信和计算资源。因此,为了克服这些困难,受联邦学习概念的启发,所有的LV智能体共享它们的网络参数并执行联合更新。每个LV智能体通过专用回程控制链路,将其本地模型的参数上传到服务器,以执行模型聚合。具体地说,采用小批量随机梯度下降法进行联合平均,其中第j轮的全局模型权重更新为:
Figure BDA00038517339800002315
其中θj
Figure BDA00038517339800002316
分别是第j轮的全局模型参数和LV智能体m处本地模型的参数。
Figure BDA00038517339800002317
是所有LV智能体的总批量样本大小。然后,服务器将聚合的全局模型分发给所有的LV智能体,以相应地更新其本地模型。
6.3 F-MADDPG在线学习算法
根据提出的F-MADDPG学习框架,算法1给出了F-MADDPG的学习算法,包括四个过程:(1)第
1行到第4行是初始化过程;第6行到第11行是探索行为过程,其中智能体选择是随机行为还是遵循动作家网络策略;(2)第12行到第17行是网络的重放训练过程;(3)第18行到第20行周期性的目标网络更新过程;(4)第21行到第23行是联合更新过程。具体见算法1。
Figure BDA0003851733980000241
实施例13:
联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统的验证实验,内容包括:
该实验的仿真环境基于Python 3.7搭建。智慧物流系统中物流车辆的分布符合泊松分布。各个参数的具体设置如表1所示。为了分析上文所提出的F-MADDPG的任务卸载策略的性能,将该策略与其他任务卸载策略进行了对比,描述如下:
(1)联合计算卸载和任务迁移算法(Joint Computation Offloading and TaskMigrationOptimization,JCOTM):提出多智能体深度Q网络的JCOTM算法,来解决最小化系统时延和能耗的联合优化问题。
(2)多智能体自主学习算法(Multi-agent Separate Learning,MASL):车辆用户智能体是不需要任何协作的独立学习者,其中每个智能体根据自己的观察和与环境的交互学习策略,智能体之间不存在模型共享和信息交换。
(3)全部本地计算策略(All Local Computing Strategy,ALCS):在该策略下,所有用户的计算任务都在其本地车辆上进行计算,即不进行任何计算卸载。用户的任务卸载成本由本地执行任务的计算时延和CPU执行任务所产生设备能耗两部分组成。
(4)随机卸载计算策略(Random Offloading Computing Strategy,ROCS):在该策略中,任务随机在MEC层或本地计算层执行。
(5)完全MEC计算策略(All MEC Computing Strategy,AMCS):在该策略中,车辆用户将所有的任务都卸载到MEC服务器上执行。
表1仿真参数
Figure BDA0003851733980000251
图5评估了本实施例所提F-MADDPG算法在模型训练过程中的收敛性。仿真设置模型训练过程有1000轮,每轮100个时间步。在图5中,x轴表示训练的轮数,y轴表示智能体训练过程中的累计奖励,即每辆LV关于时延和能耗的总成本。可以看到,经过150轮次迭代后,累计奖励开始平稳并逐渐接近零损耗。因此,F-MADDPG算法模型的训练逐渐收敛,该模型被认为训练完成。
图6比较了物流车辆任务的不同数据量大小对应的成本的变化。如图6所示,随着任务输入数据量的增加,每种卸载策略的总成本都会增加。这是由于任务的数据量越大,计算时延、传输时延以及能量消耗就越大。从图中的比较来看,所提出的F-MADDPG的任务卸载策略所对应的总成本要低于其他策略,这是因为F-MADDPG优化了任务卸载策略,且优化性能要比JCOTM和MASL好。当任务的数据量较小时,物流车辆在本地就可以执行任务,且比将任务都卸载到边缘服务器的成本要低;当任务的数据量越大时,大部分任务会被卸载到边缘服务器上执行,因为边缘服务器丰富的计算资源足以执行这些数据量大的任务。当任务的数据大小从150Kbit增加到200Kbit时,所提F-MADDPG策略的总成本增加了27.74%,而ALCS、AMCS、ROCS、MASL和JCOTM策略的总成本分别至少增加了36.63%、29.65%、26.32%、24.59%和26.31%。这意味着卸载策略的总成本随着网络负载的增加而增加,且F-MADDPG的总成本始终维持在较低水平。
能力提高的变化趋势:可以看出,随着物流车辆的计算能力的增加,完全MEC执行策略的这条曲线对应的总成本保持不变。这是由于物流车辆的计算能力的变化完全不影响完全MEC执行卸载任务的过程。F-MADDPG、JCOTM、MASL、ROCS和AMCS卸载策略的总成本都随着物流车辆计算能力的增大而下降。例如,当物流车辆的计算能力为1.4GHz时,图7中总成本按照由低到高排序分别为612、647、675、802、1176和1242;且当物流车辆的计算能力为1.6GHz时,F-MADDPG、AMCS和ALCS卸载策略完成任务的总成本分别为576、1242、1080。这是因为物流车辆计算能力的增大使得LV有更多的计算资源,从而减少了物流车辆从MEC服务器获得计算资源,并且在物流车辆上执行任务的时延也减小了。较于计算时延来说,物流车辆计算能力的增大对计算能耗的影响相对较小。因此,所提任务卸载策略的总成本呈现下降的趋势。
图8显示了MEC服务器计算能力的大小对物流系统总成本的影响情况。在图8中,本实施例所提出多智能体DDPG的任务卸载策略的总成本比其他卸载策略都低且呈现下降趋势。可以看出,所提策略的总成本随着MEC服务器计算能力的增大而减小。这是因为MEC服务器计算能力的大小可以节省相应卸载任务的执行时延。当MEC服务器的计算能力增加时,MEC服务器可以利用更多的计算资源来执行来自物流车辆卸载的任务,从而使执行卸载任务的速度更快。当MEC服务器的计算能力为20GHz时,所提F-MADDPG策略完成任务的总成本为777,ALCS、AMCS、ROCS、MASL和JCOTM卸载策略的总成本分别为1432、1222、973、847、807,相对应地比较,总成本分别降低了45.74%、36.42%、20.14%、8.26%和3.72%。此外,ALCS策略的曲线不会随着MEC服务器计算能力的增大而改变,这是因为该策略没有使用到边缘服务器的计算能力。在图9中,我们比较了6种卸载策略在不同车辆数量下的平均系统卸载成本。可以看出,各卸载策略的系统成本随着物流车辆数量的增加而逐渐上升。显然,更多的物流车辆意味着处理更多的任务,从而增加时间和能耗成本。从图9可以看出,与其他卸载策略相比,所提F-MADDPG的卸载成本最低,JCOTM的卸载性能次之。另外,MASL的性能优于ROCS,而ROCS的性能优于AMCS和ALCS。此外,当物流车辆数逐渐增加时,全部在本地计算的卸载成本始终大于边缘计算策略,但AMCS的增长速度比ALCS更快,两者的系统平均成本的差距在逐渐减小。原因是当大量的任务被卸载到同一个MEC服务器上时,每个物流车辆可以分配的计算资源会减少,从而导致计算成本的增加。
本实施例研究了智慧物流系统中任务卸载和资源分配的联合优化问题,其中携带时延敏感的依赖型任务的物流车辆是能量受限的。针对这一问题,本专利在保证QoS需求的同时最小化时延和能耗的系统总成本。此外,设计了联邦学习辅助的DRL框架,以减少由于训练过程而引起的计算复杂度和信令开销通过大量的仿真实验,验证了该策略在不同的任务输入数据大小、边缘服务器计算能力和物流车辆数量下的有效性。由于实际生活中的道路场景和交通情况会更加的复杂和多变。

Claims (10)

1.联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于:包括若干物流车辆、若干助手仓库、若干助手车辆;
所述助手仓库搭载有仓库服务器;
所述物流车辆、助手车辆均搭载有车载服务器;
其中,第m个物流车辆的车载服务器产生任务序列
Figure FDA0003851733970000011
并传输至助手仓库的仓库服务器;U为任务总数;
所述物流车辆的车载服务器存储有时延目标计算模型、能耗目标计算模型、任务卸载与资源分配优化模型、优化模型计算框架;
所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure FDA0003851733970000012
的时延目标Tm和能耗目标Em
所述物流车辆的车载服务器将任务序列
Figure FDA0003851733970000013
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure FDA0003851733970000014
的卸载策略;
所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
2.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于:所述任务序列
Figure FDA0003851733970000015
为线性序列;其中,第u个子任务Tm,u={dm,u,cm,um,u};dm,u表示任务Tm,u的输入数据大小,cm,u表示完成任务Tm,u所需要的总CPU周期,τm,u表示任务Tm,u的容忍时延。
3.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,所述时延目标Tm如下所示:
Figure FDA0003851733970000016
式中,
Figure FDA0003851733970000017
为仓库服务器利用时延计算模型计算得到的第u个子任务Tmu的计算时延;
Figure FDA0003851733970000018
为任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延。
4.根据权利要求3所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,所述仓库服务器利用时延计算模型计算得到的第u个子任务Tm,u的计算时延
Figure FDA0003851733970000019
如下所示:
Figure FDA00038517339700000110
式中,αm,u、βm,u、γm,u为卸载指示变量;αm,u=1表示任务Tm,u在第m个物流车辆本地执行,αm,u=0表示任务Tm,u不在第m个物流车辆本地执行;βm,u,b=1表示任务Tm,u卸载到第b个助手仓库执行;βm,u,b=0表示任务Tm,u不在第b个助手仓库执行;γm,u,n=1表示任务Tm,u卸载到第n个助手车辆执行;γm,u,n=0表示任务Tm,u不在第n个助手车辆执行;
其中,任务Tm,u在第m个物流车辆本地执行的计算时延
Figure FDA0003851733970000021
任务Tm,u卸载到第b个助手仓库执行的计算时延
Figure FDA0003851733970000022
任务Tm,u卸载到第n个助手车辆执行的计算时延
Figure FDA0003851733970000023
分别如下所示:
Figure FDA0003851733970000024
Figure FDA0003851733970000025
Figure FDA0003851733970000026
式中,
Figure FDA0003851733970000027
Figure FDA0003851733970000028
分别表示第m个物流车辆、第b个助手仓库和第n个助手车辆分配给任务Tm,u的计算资源;cm,u表示完成任务Tm,u所需要的总CPU周期。
5.根据权利要求3所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,任务Tm,u从第m个物流车辆卸载到第b个助手仓库或第n个助手车辆的传输时延
Figure FDA0003851733970000029
如下所示:
Figure FDA00038517339700000210
式中,车辆o表示执行第m个物流车辆第u-1个子任务的助手车辆;αm,u、γm,u-1,n、γm,u,o为卸载指示变量;
其中,任务Tm,u从第m个物流车辆卸载到第b个助手仓库的传输速率
Figure FDA00038517339700000211
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的传输速率
Figure FDA00038517339700000212
分别如下所示:
Figure FDA00038517339700000213
Figure FDA00038517339700000214
式中,w为物流车辆的带宽;
Figure FDA00038517339700000215
是LVm的发送功率;δ2是高斯白噪声功率。
Figure FDA00038517339700000216
表示任务Tm,u从第m个物流车辆卸载到第b个助手仓库的路径损耗;
Figure FDA00038517339700000217
表示任务Tm,u从第m个物流车辆卸载到第n个助手车辆的路径损耗;hm是信道衰落系数。
6.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,能耗目标Em如下所示:
Figure FDA0003851733970000031
其中,本地计算能量消耗
Figure FDA0003851733970000032
任务Tm,u从第m个物流车辆卸载到第b个助手仓库的能量消耗
Figure FDA0003851733970000033
任务Tm,u从第m个物流车辆卸载到第n个助手车辆的能量消耗
Figure FDA0003851733970000034
分别如下所示:
Figure FDA0003851733970000035
Figure FDA0003851733970000036
Figure FDA0003851733970000037
式中,k代表与车辆服务器的处理器芯片相关的计算能效系数。
7.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,任务卸载与资源分配优化模型min O如下所示:
Figure FDA0003851733970000038
式中,卸载指示变量α、β、γ为二进制变量;分配计算资源
Figure FDA0003851733970000039
为实数。
Figure FDA00038517339700000310
分别表示助手仓库的服务器计算能力、助手车辆服务器的计算能力;αm,u、βm,u,b、γm,u,n为卸载指示变量;ωm为加权因子;
Figure FDA00038517339700000311
为能耗上限;τm,u为容忍时延上限;
Figure FDA00038517339700000317
分别表示助手仓库集合、物流车辆集合、助手车辆集合、任务集合。
8.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,建立优化模型计算框架的步骤包括:
1)本地训练Actor网络参数
Figure FDA00038517339700000313
和Critic网络参数
Figure FDA00038517339700000314
步骤包括:
1.1)将每个物流车辆建模为一个DDPG智能体,包括Actor网络Actor和Critic网络Critic;其中,Actor网络的输入是LV智能体观察物流系统的网络环境得到的本地状态,输出是任务卸载动作;Critic网络将本地状态和选定的动作作为输入,并输出当前状态的估计值;其中,第m个物流车辆的Actor网络参数、Critic网络参数分别表示为
Figure FDA00038517339700000315
Figure FDA00038517339700000316
1.2)每隔t周期,使用经验重放策略,通过最小化损失函数
Figure FDA0003851733970000041
来更新Critic网络;
损失函数
Figure FDA0003851733970000042
如下所示:
Figure FDA0003851733970000043
式中,
Figure FDA00038517339700000427
表示第m个物流车辆的小批量样本大小;
Figure FDA0003851733970000044
表示本地状态和任务执行动作;Qm为动作价值;
其中,Critic网络生成的目标值
Figure FDA0003851733970000045
如下所示:
Figure FDA0003851733970000046
式中,Q'm为动作价值;
Figure FDA0003851733970000047
表示本地状态和任务执行动作;
Figure FDA0003851733970000048
表示奖励;γ为计算系数;
1.3)计算第m个物流车辆的Actor网络的预期奖励梯度更新量
Figure FDA0003851733970000049
即:
Figure FDA00038517339700000410
式中,Dm为批量样本数;
Figure FDA00038517339700000411
为梯度;
Figure FDA00038517339700000412
为动作价值;
Figure FDA00038517339700000413
表示本地状态和任务执行动作;
Figure FDA00038517339700000414
为Critic网络参数;
Figure FDA00038517339700000415
为任务执行动作;
其中,Actor网络的参数
Figure FDA00038517339700000416
更新如下:
Figure FDA00038517339700000417
式中,δ为更新系数;
1.4)更新Actor网络参数
Figure FDA00038517339700000418
和Critic网络参数
Figure FDA00038517339700000419
即:
Figure FDA00038517339700000420
Figure FDA00038517339700000421
式中,τ为权重参数;
2)每个物流车辆智能体将本地训练得到Actor网络参数
Figure FDA00038517339700000422
和Critic网络参数
Figure FDA00038517339700000423
上传到仓库服务器,以执行优化模型计算框架聚合;
其中,第j轮的全局优化模型计算框架权重更新为:
Figure FDA00038517339700000424
式中,θj
Figure FDA00038517339700000425
分别是第j轮的优化模型计算框架参数和物流车辆智能体m处本地优化模型计算框架的参数;
Figure FDA00038517339700000426
是所有物流车辆智能体的总批量样本大小;
3)所述仓库服务器将聚合的全局模型分发给所有的物流车辆智能体,以更新本地优化模型计算框架。
9.根据权利要求1所述的联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统,其特征在于,所述优化模型计算框架包括状态空间、动作空间和奖励函数;
状态空间存储物流车辆智能体的本地状态Sm(t),即:
Sm(t)={Sm,1+N(t),Sm,B(t)} (21)
式中,Sm,1+N(t)={Taskm(t),Fm,1+N(t),Im(t),Ym,1+N(t)}表示第m个物流车辆和N辆助手车辆的信息集合;Sm,B(t)={FB(t),YB(t)}表示B个助手仓库的信息集合;Taskm(t)表示第m个物流车辆的任务,Fm,1+N(t)包括第m个物流车辆的计算能力
Figure FDA0003851733970000051
和N辆助手车辆的计算能力
Figure FDA0003851733970000052
Im(t)包括第m个物流车辆的信道增益和发送功率;Ym,1+N(t)包括第m个物流车辆m和N辆助手车辆的实时地理位置;FB(t)表示助手仓库的仓库服务器的计算能力
Figure FDA0003851733970000053
YB(t)表示助手仓库的地理位置;
所述动作空间存储任务的卸载策略Am(t),即:
Am(t)={Km(t),Fm,B(t)} (22)
式中,Km(t)=[Km,u(t)]决定第m个物流车辆中子任务计算节点;
Figure FDA0003851733970000054
表示助手仓库的仓库服务器为第m个物流车辆分配的计算资源;
Figure FDA0003851733970000055
Km,u(t)表示各子任务在本地执行、卸载到助手车辆和卸载到助手仓库执行的二进制操作集;
Figure FDA0003851733970000056
表示第b个助手仓库分配给任务Tm,u的计算资源;
奖励函数Rm(t)如下所示:
Figure FDA0003851733970000057
式中,Om(t)为任务卸载与资源分配优化模型的目标函数。
10.一种计算机可读介质,其特征在于:所述计算机可读介质存储有权利要求1至9任一项所述联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统的计算机程序;
所述计算机程序用于生成联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配方案;
所述计算机程序被处理器执行时,实现以下步骤:
1)第m个物流车辆的车载服务器产生任务序列
Figure FDA0003851733970000058
并传输至助手仓库的仓库服务器;U为任务总数;
2)所述物流车辆的车载服务器分别利用时延目标计算模型、能耗目标计算模型计算任务序列
Figure FDA0003851733970000059
的时延目标Tm和能耗目标Em
3)所述物流车辆的车载服务器将任务序列
Figure FDA00038517339700000510
的时延目标Tm和能耗目标Em输入到任务卸载与资源分配优化模型中,并利用优化模型计算框架解算得到任务序列
Figure FDA00038517339700000511
的卸载策略;
4)所述物流车辆的车载服务器根据卸载策略,在本地执行任务或者将任务卸载到助手车辆或助手仓库的服务器中执行。
CN202211135297.3A 2022-09-19 2022-09-19 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质 Pending CN115658251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211135297.3A CN115658251A (zh) 2022-09-19 2022-09-19 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211135297.3A CN115658251A (zh) 2022-09-19 2022-09-19 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质

Publications (1)

Publication Number Publication Date
CN115658251A true CN115658251A (zh) 2023-01-31

Family

ID=84984278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211135297.3A Pending CN115658251A (zh) 2022-09-19 2022-09-19 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质

Country Status (1)

Country Link
CN (1) CN115658251A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112525A (zh) * 2023-02-02 2023-05-12 重庆邮电大学 一种车联网任务卸载方法、系统及电子设备
CN116308000A (zh) * 2023-05-25 2023-06-23 中央军委后勤保障部信息中心 物流方案评估方法、装置、电子设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112525A (zh) * 2023-02-02 2023-05-12 重庆邮电大学 一种车联网任务卸载方法、系统及电子设备
CN116308000A (zh) * 2023-05-25 2023-06-23 中央军委后勤保障部信息中心 物流方案评估方法、装置、电子设备及可读存储介质
CN116308000B (zh) * 2023-05-25 2023-09-08 中央军委后勤保障部信息中心 物流方案评估方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
Chen et al. Efficiency and fairness oriented dynamic task offloading in internet of vehicles
Huang et al. Joint computation offloading and resource allocation for edge-cloud collaboration in internet of vehicles via deep reinforcement learning
CN115658251A (zh) 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
Sun et al. Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning
Liao et al. Online computation offloading with double reinforcement learning algorithm in mobile edge computing
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN115002123B (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
Tran-Dang et al. Dynamic collaborative task offloading for delay minimization in the heterogeneous fog computing systems
Wu et al. Delay-aware edge-terminal collaboration in green internet of vehicles: A multiagent soft actor-critic approach
Zhou et al. Joint multi-objective optimization for radio access network slicing using multi-agent deep reinforcement learning
Huang et al. 6G-empowered offloading for realtime applications in multi-access edge computing
Wang Edge artificial intelligence-based affinity task offloading under resource adjustment in a 5G network
LiWang et al. Energy-aware allocation of graph jobs in vehicular cloud computing-enabled software-defined IoV
Li et al. Dependency-aware vehicular task scheduling policy for tracking service VEC networks
CN112445617B (zh) 一种基于移动边缘计算的负载策略选择方法及系统
Tang et al. Collaborative cloud-edge-end task offloading with task dependency based on deep reinforcement learning
Zhao et al. Reliable DNN partitioning for UAV swarm
CN114640966B (zh) 一种车联网中基于移动边缘计算的任务卸载方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
Malandrino et al. Efficient distributed DNNs in the mobile-edge-cloud continuum
Gao et al. Fast Adaptive Task Offloading and Resource Allocation in Large-Scale MEC Systems via Multiagent Graph Reinforcement Learning
Yadav E-MOGWO Algorithm for Computation Offloading in Fog Computing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination