CN114554458A - 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 - Google Patents

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 Download PDF

Info

Publication number
CN114554458A
CN114554458A CN202210047279.3A CN202210047279A CN114554458A CN 114554458 A CN114554458 A CN 114554458A CN 202210047279 A CN202210047279 A CN 202210047279A CN 114554458 A CN114554458 A CN 114554458A
Authority
CN
China
Prior art keywords
task
unmanned aerial
calculation
aerial vehicle
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210047279.3A
Other languages
English (en)
Inventor
顾术实
郭云开
张智凯
逄博
张钦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202210047279.3A priority Critical patent/CN114554458A/zh
Publication of CN114554458A publication Critical patent/CN114554458A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于多智能体深度强化学习的矩阵‑向量乘法编码计算分配方法,包括如下步骤:步骤一:构建一个多智能体多边缘基站的矩阵‑向量计算任务卸载系统模型;步骤二:将该系统模型的工作流程分为三步:任务编码、任务卸载、分布式计算;步骤三:建立最小化系统成本的优化问题;步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体‑深度确定性策略梯度(MA‑DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。本发明的有益效果是:本发明不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑智能体(无人机)和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点(Straggler)对分布式计算任务的处理延迟影响,从而减小了矩阵‑向量乘法计算任务的处理成本。

Description

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算 分配方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法。
背景技术
无人机作为一种常见的智能体,具有体积小、部署容易、灵活性强等优点,在执行应急型业务服务如紧急救援、监控监测得等方面到了广泛应用。无人机在完成上述应用中经常需要搭载人工智能算法进行路径规划与物体识别,同时运用机器学习或图像处理等技术对收集到的数据进行分析和预测,这个过程存在大量矩阵向量乘法(Matrix VectorMultiplication,MVM)运算,比如在卷积神经网络的训练中,包括大量的梯度下降运算以及神经网络模型数百万参数的更新,其矩阵乘法维度达到105*105
智能体的计算能力有限,限制了其满足计算类业务用户的服务质量。智能体的计算资源由于节点异构性、硬件故障等因素,会导致多智能体网络中慢节点的存在。由于计算任务被分发至多个工作节点处理并等待所有计算结果的返回,部分节点的计算速度过慢导致整体任务处理时延增加,使得服务质量降低。
编码计算是通过冗余策略降低慢节点时延影响加速分布式计算的有效方法,目前分布式编码计算中常用的编码方案主要分为两种,一种是复制(Replication)策略,另一种是纠删码(Erasure-Coding)策略。其中在复制策略中,主节点将计算任务划分成数据块,并复制成多份,然后发送到不同的节点进行计算,当有节点发生计算迟滞的时候,可以从计算速度较快的节点中获取计算结果。这种容错策略将存储数据复制成了多份,存储效率低,大大增加了存储开销,并且对于计算时延的提升并不是特别明显。
当前的分布式编码计算的纠删码主要有两种,一种是最大距离可分码(MDS code)策略,另一种是无速率码(rateless code)策略。其中,(n,k)MDS码策略中是计算任务平均划分成k份并通过编码获得n个子任务,通过获取k个结算结果恢复原始任务的计算结果,这种容错策略可以容忍n-k个慢节点对计算任务的时延影响,但是造成了这部分慢节点所得到计算结果的浪费。无速率码是通过冗余特性降低慢节点影响,相比于MDS码,无速率码由于其特殊的编解码方式在降低慢节点的时延影响的同时也充分利用了慢节点的结算结果,不会造成计算结果的浪费。
发明内容
本发明提供了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,包括如下步骤:
步骤一:构建一个出多智能体(无人机)多边缘基站的矩阵-向量乘法任务卸载系统模型;
步骤二:将该系统模型的工作流程分为如下三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;
步骤三:建立最小化系统成本的优化问题;
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度(MA-DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
本发明的有益效果是:本发明针对多智能体(无人机)多边缘基站的计算卸载问题进行了研究,不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑无人机和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响,从而减小了计算务的处理成本,实现无人机计算任务的高效处理。
附图说明
图1是多无人机多基站计算任务卸载的系统模型图;
图2是深度强化学习MA-DDPG算法流程图;
图3是MA-DDPG算法下迭代次数与回报的关系图;
图4是采用飞行卸载和原地卸载方案的迭代次数和回报的关系图;
图5是采用MDS码和无速率方案的迭代次数和回报的关系图;
图6是不同无人机数量下系统指标及算法性能图;
图7是不同基站数量下系统指标及算法性能图;
图8是不同批采样大小下的迭代次数和回报的关系图。
具体实施方式
智能协作网络中的计算分配问题存在两个关键性问体。第一,多智能体网络慢节点现象,原因是节点能力有限且容易发生临时故障,导致计算任务需要等待最慢的节点完成处理,造成总体时延增加;第二,多智能体网络的动态适应性问题,由于智能体具有移动性,传统的优化算法无法适应环境的改变,不合理的MVM任务分配也会导致系统性能的下降。为解决上述问题,本发明以降低时延-能耗加权成本为目标,利用编码计算技术解决慢节点问题,并且采用MA-DDPG深度强化学习算法使得任务分配方案对多智能体网络的动态环境具有高适应性。
深度强化学习可以通过同时优化多无人机的动作选择即计算分配来降低系统成本,直至收敛,且训练出的网络模型具有适应性,可以对不同的环境都取得良好的效果。
本发明公开了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,以多无人机多基站协作的多智能体网络为例,包括:
步骤一:构建一个出多智能体(无人机)多基站的任务卸载的系统模型;
步骤二:将该系统模型的工作流程分为三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体。
步骤三:建立最小化系统成本的优化问题。
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度(MA-DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
具体为:
步骤一:
系统模型如图1所示,该模型由M个UAV和P个基站组成,UAV的集合表示为
Figure BDA0003472542800000041
基站的集合表示为
Figure BDA0003472542800000042
假设无人机和基站之间是视距传输信道,第m个无人机初始坐标rm=[xm,ym,zm],
Figure BDA0003472542800000043
第p个BS的三维坐标为rp=[xp,yp,0],
Figure BDA0003472542800000044
所以第m个无人机和第p个BS的直线距离可以表示为:
Figure BDA0003472542800000045
那么,信道增益hm,p可以表示为:
hm,p=β0(dm,p)-2
其中,β0代表归一化信道增益;
假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为:
Figure BDA0003472542800000046
其中,ωm,p代表第m个无人机和第p个地面基站之间信道带宽的比例,且满足
Figure BDA0003472542800000047
第m个无人机和第p个地面基站之间的信道传输速率可以表示为:
Figure BDA0003472542800000048
其中,
Figure BDA0003472542800000049
代表第m个无人机的卸载功率,N0代表噪声功率谱密度。
在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为
Figure BDA00034725428000000410
其中Dm代表任务比特数,Fm代表工作负载,
Figure BDA00034725428000000411
代表无人机任务处理的容忍时间;假设无人机的计算任务是以矩阵向量乘法形式表征,即ym=Amx,其中
Figure BDA00034725428000000412
待计算的矩阵行数lm和数据量Dm之间的关系可以表示为:
Figure BDA0003472542800000051
其中b是计算一个长度为k的内积的比特数;
无人机在对任务矩阵进行编码处理,即对Am进行无速率编码得到
Figure BDA0003472542800000052
所以第m个UAV计算任务经过编码后的数据量Dm可以表示为:Dm=αmDm
无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为:
Figure BDA0003472542800000053
其中,γm,p代表第m个无人机分配给第p个边缘基站的计算任务的比例,且满足
Figure BDA0003472542800000054
所以,第m个无人机的任务可以表示为Am=[Am,1;Am,2;…;Am,p;…;Am,P],子矩阵Am,p的行数可以表示为lm,p:lm,p=γm,p·αm·lm
在所述步骤二的步骤2中,对于每个无人机都采用全卸载策略,即无人机将计算任务全部卸载至地面基站;每个无人机先飞行至各自的卸载点,假设第m个无人机的卸载点坐标为
Figure BDA0003472542800000055
所以第m个无人机飞行至卸载点的时延可以表示为:
Figure BDA0003472542800000056
其中vm代表第m个无人机的飞行速度;
无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站,所以第m个无人机将计算任务卸载至第p个基站的传输时间
Figure BDA0003472542800000057
可以表示为:
Figure BDA0003472542800000058
无人机将计算任务卸载完成之后就原地悬停,等待地面基站将计算结果处理返回。
在所述步骤二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;假设地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为
Figure BDA0003472542800000061
其中,λm,p代表第p个基站处理来自于第m个无人机的子任务的计算资源占比,即
Figure BDA0003472542800000062
所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为
Figure BDA0003472542800000063
其中ρn为第n个BS的CPU计算1bit任务的周期数;
所以,第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为
Figure BDA0003472542800000064
由于对计算任务进行LT无速率码编码处理,所以第m个无人机需要接受lm行的计算结果可以认为计算完成,第p个基站处理第m个无人机分配的子任务的计算时间
Figure BDA0003472542800000065
可以表示为
Figure BDA0003472542800000066
其中χ(t)为计数函数,即统计各基站处理矩阵乘法任务的行数;
在所述步骤三中,处理计算任务的总时延分为三部分:飞行时延、卸载时延、悬停时延;第m个无人机的任务完成时间
Figure BDA0003472542800000067
可以表示为:
Figure BDA0003472542800000068
对应地,处理计算任务的总能耗也分为四部分:飞行能耗、卸载能耗、悬停能耗、基站计算能耗,分别可以表示为
Figure BDA0003472542800000071
Figure BDA0003472542800000072
Figure BDA0003472542800000073
Figure BDA0003472542800000074
其中wm代表第m个无人机的质量,κp代表第p个基站的有限CPU开关电容,该参数只与CPU硬件有关;
所以,第m个无人机完成计算任务的系统总能耗可以表示为
Figure BDA0003472542800000075
所以,第m个无人机完成计算任务的成本可以表示为
Figure BDA0003472542800000076
其中,η为成本折中系数,且满足0<η<1,σ是时延能耗的平衡因子;
定义评价系统的指标为系统处理计算任务的归一化成本,所以得到下面的优化问题:
Figure BDA0003472542800000077
Figure BDA0003472542800000078
Figure BDA0003472542800000079
Figure BDA00034725428000000710
Figure BDA00034725428000000711
Figure BDA00034725428000000712
Figure BDA00034725428000000713
该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化;其中,C1代表信道带宽资源分配比例和为1,C2代表每个无人机的计算任务分配比例的和为1,C3代表地面计算资源分配比例之和为1,C4代表无人机接收到lm才认为任务完成,C5代表无人机计算任务要在容忍时间之内完成,C6代表无人机工作的能量损耗不超过无人机电池能量总和。
在所述步骤四中,在所述系统模型中,深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为
Figure BDA0003472542800000081
Figure BDA0003472542800000082
Figure BDA0003472542800000083
P=p[st+1,rt∣st,at]
其中智能体为无人机和边缘基站,动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配;状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗;回报与系统归一化成本呈负相关。
所述多智能体-深度确定性策略梯度(MA-DDPG)算法包括环境、智能体,每个智能体都包括演员网络、评判家网络和一个经验回放池,其中每个网络又包括两个DQN,分别为评估网络和目标网络,每个网络的Q函数:即action-value函数,定义在状态st下at采取动作后,且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]
Q函数的定义是一个递归表达,通过一个函数对Bellman等式表达进行模拟;在DDPG中,用一个卷积神经网络对Q函数进行模拟,这个网络叫做Q网络,其参数为θQ;衡量一个策略μ的表现:用一个准则函数J来衡量,可以表示为
Jβ(μ)=∫Sρβ(s)Qμ(s,μ(s))ds
其中,s是环境的状态,这些状态是基于智能体的行为策略产生的,它们的分布函数为ρβ(s),Qμ(s,μ(s))是在每个状态下,如果都按照μ策略选择动作时,能够产生的Q值;
因此,最优行为策略μ可以认为是准则函数Jβ(μ)的最大似然估计,可以表示为
Figure BDA0003472542800000091
并且,定义网络的LOSS函数为均方误差,它是预测值与目标值之间差值的平方和,是回归损失函数中最常用的误差,因此LOSS函数可以表示为
Figure BDA0003472542800000092
策略网络的策略梯度时在状态s呈ρβ(s)的概率分布下▽aQ·▽θμμ的期望值,可以表示为
Figure BDA0003472542800000093
并且,根据评估网络更新目标网络采用软更新的方式,更新方法如下
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ取值为0.001。
上述优化问题可以通过算法4-1解决,具体算法流程如下所示
算法表4-1.MA-DDPG
Figure BDA0003472542800000094
Figure BDA0003472542800000101
如图3所示,该算法在300次迭代达到收敛,收敛速度是十分可观的。并且无人机的任务处理的奖励从0.73提升至0.86,这意味系统归一化成本降低了0.12,即该系统处理1bit任务的成本降低0.12,提升幅度约17%。
如图4所示,在原地卸载的方案下,只需要100次迭代即可达到收敛,但是收敛后的回报稳定在0.77左右,这是由于无人机作为智能体选择了原地卸载会降低动作的选择方案,越少的动作选择必然会收敛次数降低。但是相比于飞行卸载方案,回报大约少0.08,降低了17%左右。对于深度强化学习来说,100次和300次收敛其实差距并不大,总体来说,无人机飞行卸载要优于原地卸载。
如图5所示,对比MDS码和无速率码的编码计算方案,可以看到二者的收敛速度相差无几,但是MDS码的汇报收敛于0.80,小于无速率码的收敛值0.86,这是由于无速率利用了慢节点的计算结果,而MDS码是没有利用慢节点的计算结果,所以本模型采用无速率码进行任务处理设计明显优于MDS码方案。
为了保证比较的公平性,我们设置随着无人机熟练的增加地面资源、频谱资源等也相应地增加。如图6所示,当无人机数量为3时,MA-DDPG算法在该系统模型下取得了良好的表现,不仅在300次左右迭代下迅速收敛,并且还保证了时延-能耗加权归一化成本较小。当无人机数量为5时,时延-能耗加权归一化成本相比于数量为3时保持稳定,几乎没有变化。并且,由于智能体的数量增加面临动作选择、以及相应的策略呈几何倍数增加,所以收敛的迭代次数增长到500左右,但是我们认为这是可以接受的迭代次数。当当无人机数量为10时,系统归一化成本以及对应的时延能耗增加了一倍,收敛迭代次数陡增至1900次左右。因此,我们可以认为MA-DDPG算法适用于个位数数量级的无人机智能体,超过这个数量级表现会变得很差。
如图7所示,类似于图6的结论,我们可以观察到作为智能体的基站的数量等于4和10的时候,系统指标(时延,能耗,成本)以及收敛迭代次数依然有稳定的表现,当基站的数量等于20的时候,对应的系统指标和收敛迭代次数都成倍地增加。这是由于,基站作为智能体事实上只存在计算资源分配的动作,动作的选择较少,所以相比于无人机,MA-DDPG适应更多的基站智能体并取得稳定的表现。因此,我们可以认为MA-DDPG算法适用于少于20个基站智能体的情况,超过这个数量级表现会变得很差。
如图8所示,我们讨论算法本身的参数对回报的影响,mini-batch主要是为了加快收敛和节省内存,但是同时也会导致陷入局部最优解无法获得全局最优解,可以看出batchsize越大,收敛速度越慢,但是相应的回报值越大。当batch size=64时,算法陷入到了局部最优解,这是因为采样数较小导致的。当batch size=256时,迭代次数达到800次时才收敛,但是收敛后的回报值最高。当batch size=256时,迭代次数达到300次时才收敛,但是收敛后的回报值也相对较高接近当batch size=256的收敛后回报值。所以,batch size在本模型中存在迭代次数和收敛后回报值的折中选择。
通过仿真可以看出,我们所提出的基于无速率码编码计算的任务处理方式明显优于MDS码,系统成本降低了约8%,并且可以看出飞行卸载相对于原地卸载系统成本也有17%左右提升,同时我们综合考虑两种智能体(无人机和基站)的数量对时延、能耗、成本等系统性能和收敛迭代次数的算法指标的影响,讨论了该算法适用的智能体数量,这为我们选择该场景下智能体的数量提供了参考。更进一步地,我们讨论了算法参数batch size对系统性能和算法性能的影响,说明了该参数在本系统模型中存在折中选择。
本发明的有益效果:本发明针对多无人机多基站的计算卸载问题进行了研究,不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑无人机和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响,从而减小了计算务的处理成本,实现无人机计算任务的高效处理。
具体为:
1.应用分布式编码计算方案来处理无人机卸载的计算任务并有效降低慢节点的影响并减小了计算时延,同时采用了不同编码方案,并对这些方案在该场景的成本进行讨论与对比。
2.为了保证公平性,本发明提出归一化处理成本的概念,通过这个指标来衡量整个系统任务处理的好坏。
3.采用深度强化学习对无人机最卸载位置、通信带宽资源分配、无人机计算任务分配、边缘基站计算资源分配进行联合优化,不仅更好地匹配边缘基站计算能力和慢节点参数异构性,并且使得系统计算任务处理的归一化成本极大地减小。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,其特征在于,包括如下步骤:
步骤一:构建一个多智能体多边缘基站的矩阵-向量乘法任务卸载系统模型,智能体为无人机;
步骤二:将该系统模型的工作流程分为如下三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;
步骤三:建立最小化系统成本的优化问题;
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
2.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤一中,系统模型由M个UAV和P个基站组成,UAV的集合表示为
Figure FDA0003472542790000011
基站的集合表示为
Figure FDA0003472542790000012
假设无人机和基站之间是视距传输信道,第m个无人机初始坐标
Figure FDA0003472542790000013
第p个BS的三维坐标为
Figure FDA0003472542790000014
所以第m个无人机和第p个BS的直线距离可以表示为:
Figure FDA0003472542790000015
那么,信道增益hm,p可以表示为:
hm,p=β0(dm,p)-2
其中,β0代表归一化信道增益;
假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为:
Figure FDA0003472542790000021
其中,ωm,p代表第m个无人机和第p个地面基站之间信道带宽的比例,且满足
Figure FDA0003472542790000022
第m个无人机和第p个地面基站之间的信道传输速率可以表示为:
Figure FDA0003472542790000023
其中,
Figure FDA0003472542790000024
代表第m个无人机的卸载功率,N0代表噪声功率谱密度。
3.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为
Figure FDA0003472542790000025
其中Dm代表任务比特数,Fm代表工作负载,
Figure FDA0003472542790000026
代表无人机任务处理的容忍时间;假设无人机的计算任务是以矩阵向量乘法形式表征,即ym=Amx,其中
Figure FDA0003472542790000027
待计算的矩阵行数lm和数据量Dm之间的关系可以表示为:
Figure FDA0003472542790000028
其中b是计算一个长度为k的内积的比特数;
无人机在对任务矩阵进行编码处理,即对Am进行无速率编码得到
Figure FDA0003472542790000029
所以第m个UAV计算任务经过编码后的数据量Dm可以表示为:Dm=αmDm
无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为:
Figure FDA00034725427900000210
其中,γm,p代表第m个无人机分配给第p个边缘基站的计算任务的比例,且满足
Figure FDA0003472542790000031
所以,第m个无人机的任务可以表示为Am=[Am,1;Am,2;…;Am,p;…;Am,P],子矩阵Am,p的行数可以表示为lm,p:lm,p=γm,p·αm·lm
4.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤2中,对于每个无人机都采用全卸载策略,即无人机将计算任务全部卸载至地面基站;每个无人机先飞行至各自的卸载点,假设第m个无人机的卸载点坐标为
Figure FDA0003472542790000032
所以第m个无人机飞行至卸载点的时延可以表示为:
Figure FDA0003472542790000033
其中vm代表第m个无人机的飞行速度;
无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站,所以第m个无人机将计算任务卸载至第p个基站的传输时间
Figure FDA0003472542790000034
可以表示为:
Figure FDA0003472542790000035
无人机将计算任务卸载完成之后就原地悬停,等待地面基站将计算结果处理返回。
5.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;假设地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为
Figure FDA0003472542790000036
其中,λm,p代表第p个基站处理来自于第m个无人机的子任务的计算资源占比,即
Figure FDA0003472542790000037
所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为
Figure FDA0003472542790000041
其中ρn为第n个BS的CPU计算1bit任务的周期数;
所以,第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为
Figure FDA0003472542790000042
由于对计算任务进行LT无速率码编码处理,所以第m个无人机需要接受lm行的计算结果可以认为计算完成,第p个基站处理第m个无人机分配的子任务的计算时间
Figure FDA0003472542790000043
可以表示为
Figure FDA0003472542790000044
其中χ(t)为计数函数,即统计各基站处理矩阵乘法任务的行数;
6.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤三中,处理计算任务的总时延分为三部分:飞行时延、卸载时延、悬停时延;第m个无人机的任务完成时间
Figure FDA0003472542790000045
可以表示为:
Figure FDA0003472542790000046
对应地,处理计算任务的总能耗也分为四部分:飞行能耗、卸载能耗、悬停能耗、基站计算能耗,分别可以表示为
Figure FDA0003472542790000047
Figure FDA0003472542790000048
Figure FDA0003472542790000049
Figure FDA00034725427900000410
其中wm代表第m个无人机的质量,κp代表第p个基站的有限CPU开关电容,该参数只与CPU硬件有关;
所以,第m个无人机完成计算任务的系统总能耗可以表示为
Figure FDA0003472542790000051
所以,第m个无人机完成计算任务的成本可以表示为
Figure FDA0003472542790000052
其中,η为成本折中系数,且满足0<η<1,σ是时延能耗的平衡因子;
定义评价系统的指标为系统处理计算任务的归一化成本,所以得到下面的优化问题:
P0:
Figure FDA0003472542790000053
Figure FDA0003472542790000054
Figure FDA0003472542790000055
Figure FDA0003472542790000056
Figure FDA0003472542790000057
Figure FDA0003472542790000058
Figure FDA0003472542790000059
该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化;其中,C1代表信道带宽资源分配比例和为1,C2代表每个无人机的计算任务分配比例的和为1,C3代表地面计算资源分配比例之和为1,C4代表无人机接收到lm才认为任务完成,C5代表无人机计算任务要在容忍时间之内完成,C6代表无人机工作的能量损耗不超过无人机电池能量总和。
7.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤四中,在所述系统模型中,深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为
Figure FDA00034725427900000510
Figure FDA00034725427900000511
Figure FDA0003472542790000061
P=p[st+1,rt∣st,at]
其中智能体为无人机和边缘基站,动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配;状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗;回报与系统归一化成本呈负相关。
所述多智能体-深度确定性策略梯度算法包括环境、智能体,每个智能体都包括演员网络、评判家网络和一个经验回放池,其中每个网络又包括两个DQN,分别为评估网络和目标网络,每个网络的Q函数:即action-value函数,定义在状态st下at采取动作后,且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]
Q函数的定义是一个递归表达,通过一个函数对Bellman等式表达进行模拟;在DDPG中,用一个卷积神经网络对Q函数进行模拟,这个网络叫做Q网络,其参数为θQ;衡量一个策略μ的表现:用一个准则函数J来衡量,可以表示为
Jβ(μ)=∫Sρβ(s)Qμ(s,μ(s))ds
其中,s是环境的状态,这些状态是基于智能体的行为策略产生的,它们的分布函数为ρβ(s),Qμ(s,μ(s))是在每个状态下,如果都按照μ策略选择动作时,能够产生的Q值;
因此,最优行为策略μ可以认为是准则函数Jβ(μ)的最大似然估计,可以表示为
Figure FDA0003472542790000062
并且,定义网络的LOSS函数为均方误差,它是预测值与目标值之间差值的平方和,是回归损失函数中最常用的误差,因此LOSS函数可以表示为
Figure FDA0003472542790000071
策略网络的策略梯度时在状态s呈ρβ(s)的概率分布下
Figure FDA0003472542790000072
的期望值,可以表示为
Figure FDA0003472542790000073
并且,根据评估网络更新目标网络采用软更新的方式,更新方法如下θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ取值为0.001。
CN202210047279.3A 2022-01-17 2022-01-17 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 Pending CN114554458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210047279.3A CN114554458A (zh) 2022-01-17 2022-01-17 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210047279.3A CN114554458A (zh) 2022-01-17 2022-01-17 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

Publications (1)

Publication Number Publication Date
CN114554458A true CN114554458A (zh) 2022-05-27

Family

ID=81671933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210047279.3A Pending CN114554458A (zh) 2022-01-17 2022-01-17 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

Country Status (1)

Country Link
CN (1) CN114554458A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190050A (zh) * 2022-07-06 2022-10-14 哈尔滨工业大学(深圳) 基于异构多址接入网络慢节点检测的编码计算优化方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858721A (zh) * 2020-08-03 2020-10-30 南京大学 一种基于优先级编码的分布式计算方法
US20200387777A1 (en) * 2019-06-05 2020-12-10 University Of Southern California Lagrange coded computing: optimal design for resiliency, security, and privacy
CN113206701A (zh) * 2021-04-30 2021-08-03 重庆大学 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN113395654A (zh) * 2021-06-11 2021-09-14 广东工业大学 一种边缘计算系统的多无人机任务卸载和资源分配的方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200387777A1 (en) * 2019-06-05 2020-12-10 University Of Southern California Lagrange coded computing: optimal design for resiliency, security, and privacy
CN111858721A (zh) * 2020-08-03 2020-10-30 南京大学 一种基于优先级编码的分布式计算方法
CN113206701A (zh) * 2021-04-30 2021-08-03 重庆大学 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN113395654A (zh) * 2021-06-11 2021-09-14 广东工业大学 一种边缘计算系统的多无人机任务卸载和资源分配的方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG, L 等: "Multi-Agent Deep Reinforcement Learning-Based Trajectory Planning for Multi-UAV Assisted Mobile Edge Computing", 《 IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》, 1 March 2021 (2021-03-01), pages 73 - 84 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190050A (zh) * 2022-07-06 2022-10-14 哈尔滨工业大学(深圳) 基于异构多址接入网络慢节点检测的编码计算优化方法
CN115190050B (zh) * 2022-07-06 2023-07-18 哈尔滨工业大学(深圳) 基于异构多址接入网络慢节点检测的编码计算优化方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置

Similar Documents

Publication Publication Date Title
CN114554458A (zh) 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN109818775B (zh) 一种短期网络流量预测方法
WO2022199032A1 (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN112882815A (zh) 基于深度强化学习的多用户边缘计算优化调度方法
CN110601777B (zh) 一种低轨移动卫星星座下星地下行链路同频干扰估计方法
CN110362380B (zh) 一种面向网络靶场的多目标优化虚拟机部署方法
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN115022937B (zh) 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN112637883A (zh) 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN110531996A (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN114625506A (zh) 一种基于自适应协方差矩阵进化策略的边缘云协同任务卸载方法
CN113886460A (zh) 低带宽分布式深度学习方法
CN114819143A (zh) 一种适用于通信网现场维护的模型压缩方法
CN115118728A (zh) 基于蚁群算法的边缘负载均衡任务调度方法
CN112256422B (zh) 基于q学习的异构平台任务调度方法及系统
Esfahanizadeh et al. Stream iterative distributed coded computing for learning applications in heterogeneous systems
WO2023098860A1 (zh) 通信方法和通信装置
CN116938323A (zh) 一种基于强化学习的卫星转发器资源分配方法
CN116562364A (zh) 基于知识蒸馏的深度学习模型协同推演方法、装置及设备
Baldvinsson et al. Il-gan: Rare sample generation via incremental learning in gans
CN114614878A (zh) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN115499875A (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN114281527A (zh) 一种低复杂度的移动边缘计算资源分配方法
CN115173926A (zh) 基于拍卖机制的星地融合中继网络的通信方法和通信系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination