CN114554458A - 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 - Google Patents
一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 Download PDFInfo
- Publication number
- CN114554458A CN114554458A CN202210047279.3A CN202210047279A CN114554458A CN 114554458 A CN114554458 A CN 114554458A CN 202210047279 A CN202210047279 A CN 202210047279A CN 114554458 A CN114554458 A CN 114554458A
- Authority
- CN
- China
- Prior art keywords
- task
- unmanned aerial
- calculation
- aerial vehicle
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 99
- 239000003795 chemical substances by application Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000007704 transition Effects 0.000 claims abstract description 6
- 238000005265 energy consumption Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013468 resource allocation Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 description 5
- 230000010076 replication Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种基于多智能体深度强化学习的矩阵‑向量乘法编码计算分配方法,包括如下步骤:步骤一:构建一个多智能体多边缘基站的矩阵‑向量计算任务卸载系统模型;步骤二:将该系统模型的工作流程分为三步:任务编码、任务卸载、分布式计算;步骤三:建立最小化系统成本的优化问题;步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体‑深度确定性策略梯度(MA‑DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。本发明的有益效果是:本发明不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑智能体(无人机)和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点(Straggler)对分布式计算任务的处理延迟影响,从而减小了矩阵‑向量乘法计算任务的处理成本。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法。
背景技术
无人机作为一种常见的智能体,具有体积小、部署容易、灵活性强等优点,在执行应急型业务服务如紧急救援、监控监测得等方面到了广泛应用。无人机在完成上述应用中经常需要搭载人工智能算法进行路径规划与物体识别,同时运用机器学习或图像处理等技术对收集到的数据进行分析和预测,这个过程存在大量矩阵向量乘法(Matrix VectorMultiplication,MVM)运算,比如在卷积神经网络的训练中,包括大量的梯度下降运算以及神经网络模型数百万参数的更新,其矩阵乘法维度达到105*105。
智能体的计算能力有限,限制了其满足计算类业务用户的服务质量。智能体的计算资源由于节点异构性、硬件故障等因素,会导致多智能体网络中慢节点的存在。由于计算任务被分发至多个工作节点处理并等待所有计算结果的返回,部分节点的计算速度过慢导致整体任务处理时延增加,使得服务质量降低。
编码计算是通过冗余策略降低慢节点时延影响加速分布式计算的有效方法,目前分布式编码计算中常用的编码方案主要分为两种,一种是复制(Replication)策略,另一种是纠删码(Erasure-Coding)策略。其中在复制策略中,主节点将计算任务划分成数据块,并复制成多份,然后发送到不同的节点进行计算,当有节点发生计算迟滞的时候,可以从计算速度较快的节点中获取计算结果。这种容错策略将存储数据复制成了多份,存储效率低,大大增加了存储开销,并且对于计算时延的提升并不是特别明显。
当前的分布式编码计算的纠删码主要有两种,一种是最大距离可分码(MDS code)策略,另一种是无速率码(rateless code)策略。其中,(n,k)MDS码策略中是计算任务平均划分成k份并通过编码获得n个子任务,通过获取k个结算结果恢复原始任务的计算结果,这种容错策略可以容忍n-k个慢节点对计算任务的时延影响,但是造成了这部分慢节点所得到计算结果的浪费。无速率码是通过冗余特性降低慢节点影响,相比于MDS码,无速率码由于其特殊的编解码方式在降低慢节点的时延影响的同时也充分利用了慢节点的结算结果,不会造成计算结果的浪费。
发明内容
本发明提供了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,包括如下步骤:
步骤一:构建一个出多智能体(无人机)多边缘基站的矩阵-向量乘法任务卸载系统模型;
步骤二:将该系统模型的工作流程分为如下三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;
步骤三:建立最小化系统成本的优化问题;
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度(MA-DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
本发明的有益效果是:本发明针对多智能体(无人机)多边缘基站的计算卸载问题进行了研究,不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑无人机和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响,从而减小了计算务的处理成本,实现无人机计算任务的高效处理。
附图说明
图1是多无人机多基站计算任务卸载的系统模型图;
图2是深度强化学习MA-DDPG算法流程图;
图3是MA-DDPG算法下迭代次数与回报的关系图;
图4是采用飞行卸载和原地卸载方案的迭代次数和回报的关系图;
图5是采用MDS码和无速率方案的迭代次数和回报的关系图;
图6是不同无人机数量下系统指标及算法性能图;
图7是不同基站数量下系统指标及算法性能图;
图8是不同批采样大小下的迭代次数和回报的关系图。
具体实施方式
智能协作网络中的计算分配问题存在两个关键性问体。第一,多智能体网络慢节点现象,原因是节点能力有限且容易发生临时故障,导致计算任务需要等待最慢的节点完成处理,造成总体时延增加;第二,多智能体网络的动态适应性问题,由于智能体具有移动性,传统的优化算法无法适应环境的改变,不合理的MVM任务分配也会导致系统性能的下降。为解决上述问题,本发明以降低时延-能耗加权成本为目标,利用编码计算技术解决慢节点问题,并且采用MA-DDPG深度强化学习算法使得任务分配方案对多智能体网络的动态环境具有高适应性。
深度强化学习可以通过同时优化多无人机的动作选择即计算分配来降低系统成本,直至收敛,且训练出的网络模型具有适应性,可以对不同的环境都取得良好的效果。
本发明公开了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,以多无人机多基站协作的多智能体网络为例,包括:
步骤一:构建一个出多智能体(无人机)多基站的任务卸载的系统模型;
步骤二:将该系统模型的工作流程分为三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体。
步骤三:建立最小化系统成本的优化问题。
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度(MA-DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
具体为:
步骤一:
那么,信道增益hm,p可以表示为:
hm,p=β0(dm,p)-2
其中,β0代表归一化信道增益;
假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为:
第m个无人机和第p个地面基站之间的信道传输速率可以表示为:
在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为其中Dm代表任务比特数,Fm代表工作负载,代表无人机任务处理的容忍时间;假设无人机的计算任务是以矩阵向量乘法形式表征,即ym=Amx,其中待计算的矩阵行数lm和数据量Dm之间的关系可以表示为:
其中b是计算一个长度为k的内积的比特数;
无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为:
所以,第m个无人机的任务可以表示为Am=[Am,1;Am,2;…;Am,p;…;Am,P],子矩阵Am,p的行数可以表示为lm,p:lm,p=γm,p·αm·lm。
在所述步骤二的步骤2中,对于每个无人机都采用全卸载策略,即无人机将计算任务全部卸载至地面基站;每个无人机先飞行至各自的卸载点,假设第m个无人机的卸载点坐标为所以第m个无人机飞行至卸载点的时延可以表示为:其中vm代表第m个无人机的飞行速度;
无人机将计算任务卸载完成之后就原地悬停,等待地面基站将计算结果处理返回。
在所述步骤二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;假设地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为
所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为
其中ρn为第n个BS的CPU计算1bit任务的周期数;
所以,第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为
其中χ(t)为计数函数,即统计各基站处理矩阵乘法任务的行数;
对应地,处理计算任务的总能耗也分为四部分:飞行能耗、卸载能耗、悬停能耗、基站计算能耗,分别可以表示为
其中wm代表第m个无人机的质量,κp代表第p个基站的有限CPU开关电容,该参数只与CPU硬件有关;
所以,第m个无人机完成计算任务的系统总能耗可以表示为
所以,第m个无人机完成计算任务的成本可以表示为
其中,η为成本折中系数,且满足0<η<1,σ是时延能耗的平衡因子;
定义评价系统的指标为系统处理计算任务的归一化成本,所以得到下面的优化问题:
该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化;其中,C1代表信道带宽资源分配比例和为1,C2代表每个无人机的计算任务分配比例的和为1,C3代表地面计算资源分配比例之和为1,C4代表无人机接收到lm才认为任务完成,C5代表无人机计算任务要在容忍时间之内完成,C6代表无人机工作的能量损耗不超过无人机电池能量总和。
在所述步骤四中,在所述系统模型中,深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为
P=p[st+1,rt∣st,at]
其中智能体为无人机和边缘基站,动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配;状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗;回报与系统归一化成本呈负相关。
所述多智能体-深度确定性策略梯度(MA-DDPG)算法包括环境、智能体,每个智能体都包括演员网络、评判家网络和一个经验回放池,其中每个网络又包括两个DQN,分别为评估网络和目标网络,每个网络的Q函数:即action-value函数,定义在状态st下at采取动作后,且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]
Q函数的定义是一个递归表达,通过一个函数对Bellman等式表达进行模拟;在DDPG中,用一个卷积神经网络对Q函数进行模拟,这个网络叫做Q网络,其参数为θQ;衡量一个策略μ的表现:用一个准则函数J来衡量,可以表示为
Jβ(μ)=∫Sρβ(s)Qμ(s,μ(s))ds
其中,s是环境的状态,这些状态是基于智能体的行为策略产生的,它们的分布函数为ρβ(s),Qμ(s,μ(s))是在每个状态下,如果都按照μ策略选择动作时,能够产生的Q值;
因此,最优行为策略μ可以认为是准则函数Jβ(μ)的最大似然估计,可以表示为
并且,定义网络的LOSS函数为均方误差,它是预测值与目标值之间差值的平方和,是回归损失函数中最常用的误差,因此LOSS函数可以表示为
策略网络的策略梯度时在状态s呈ρβ(s)的概率分布下▽aQ·▽θμμ的期望值,可以表示为
并且,根据评估网络更新目标网络采用软更新的方式,更新方法如下
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ取值为0.001。
上述优化问题可以通过算法4-1解决,具体算法流程如下所示
算法表4-1.MA-DDPG
如图3所示,该算法在300次迭代达到收敛,收敛速度是十分可观的。并且无人机的任务处理的奖励从0.73提升至0.86,这意味系统归一化成本降低了0.12,即该系统处理1bit任务的成本降低0.12,提升幅度约17%。
如图4所示,在原地卸载的方案下,只需要100次迭代即可达到收敛,但是收敛后的回报稳定在0.77左右,这是由于无人机作为智能体选择了原地卸载会降低动作的选择方案,越少的动作选择必然会收敛次数降低。但是相比于飞行卸载方案,回报大约少0.08,降低了17%左右。对于深度强化学习来说,100次和300次收敛其实差距并不大,总体来说,无人机飞行卸载要优于原地卸载。
如图5所示,对比MDS码和无速率码的编码计算方案,可以看到二者的收敛速度相差无几,但是MDS码的汇报收敛于0.80,小于无速率码的收敛值0.86,这是由于无速率利用了慢节点的计算结果,而MDS码是没有利用慢节点的计算结果,所以本模型采用无速率码进行任务处理设计明显优于MDS码方案。
为了保证比较的公平性,我们设置随着无人机熟练的增加地面资源、频谱资源等也相应地增加。如图6所示,当无人机数量为3时,MA-DDPG算法在该系统模型下取得了良好的表现,不仅在300次左右迭代下迅速收敛,并且还保证了时延-能耗加权归一化成本较小。当无人机数量为5时,时延-能耗加权归一化成本相比于数量为3时保持稳定,几乎没有变化。并且,由于智能体的数量增加面临动作选择、以及相应的策略呈几何倍数增加,所以收敛的迭代次数增长到500左右,但是我们认为这是可以接受的迭代次数。当当无人机数量为10时,系统归一化成本以及对应的时延能耗增加了一倍,收敛迭代次数陡增至1900次左右。因此,我们可以认为MA-DDPG算法适用于个位数数量级的无人机智能体,超过这个数量级表现会变得很差。
如图7所示,类似于图6的结论,我们可以观察到作为智能体的基站的数量等于4和10的时候,系统指标(时延,能耗,成本)以及收敛迭代次数依然有稳定的表现,当基站的数量等于20的时候,对应的系统指标和收敛迭代次数都成倍地增加。这是由于,基站作为智能体事实上只存在计算资源分配的动作,动作的选择较少,所以相比于无人机,MA-DDPG适应更多的基站智能体并取得稳定的表现。因此,我们可以认为MA-DDPG算法适用于少于20个基站智能体的情况,超过这个数量级表现会变得很差。
如图8所示,我们讨论算法本身的参数对回报的影响,mini-batch主要是为了加快收敛和节省内存,但是同时也会导致陷入局部最优解无法获得全局最优解,可以看出batchsize越大,收敛速度越慢,但是相应的回报值越大。当batch size=64时,算法陷入到了局部最优解,这是因为采样数较小导致的。当batch size=256时,迭代次数达到800次时才收敛,但是收敛后的回报值最高。当batch size=256时,迭代次数达到300次时才收敛,但是收敛后的回报值也相对较高接近当batch size=256的收敛后回报值。所以,batch size在本模型中存在迭代次数和收敛后回报值的折中选择。
通过仿真可以看出,我们所提出的基于无速率码编码计算的任务处理方式明显优于MDS码,系统成本降低了约8%,并且可以看出飞行卸载相对于原地卸载系统成本也有17%左右提升,同时我们综合考虑两种智能体(无人机和基站)的数量对时延、能耗、成本等系统性能和收敛迭代次数的算法指标的影响,讨论了该算法适用的智能体数量,这为我们选择该场景下智能体的数量提供了参考。更进一步地,我们讨论了算法参数batch size对系统性能和算法性能的影响,说明了该参数在本系统模型中存在折中选择。
本发明的有益效果:本发明针对多无人机多基站的计算卸载问题进行了研究,不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑无人机和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响,从而减小了计算务的处理成本,实现无人机计算任务的高效处理。
具体为:
1.应用分布式编码计算方案来处理无人机卸载的计算任务并有效降低慢节点的影响并减小了计算时延,同时采用了不同编码方案,并对这些方案在该场景的成本进行讨论与对比。
2.为了保证公平性,本发明提出归一化处理成本的概念,通过这个指标来衡量整个系统任务处理的好坏。
3.采用深度强化学习对无人机最卸载位置、通信带宽资源分配、无人机计算任务分配、边缘基站计算资源分配进行联合优化,不仅更好地匹配边缘基站计算能力和慢节点参数异构性,并且使得系统计算任务处理的归一化成本极大地减小。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法,其特征在于,包括如下步骤:
步骤一:构建一个多智能体多边缘基站的矩阵-向量乘法任务卸载系统模型,智能体为无人机;
步骤二:将该系统模型的工作流程分为如下三步:
步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;
步骤三:建立最小化系统成本的优化问题;
步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体-深度确定性策略梯度算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
那么,信道增益hm,p可以表示为:
hm,p=β0(dm,p)-2
其中,β0代表归一化信道增益;
假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为:
第m个无人机和第p个地面基站之间的信道传输速率可以表示为:
3.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为其中Dm代表任务比特数,Fm代表工作负载,代表无人机任务处理的容忍时间;假设无人机的计算任务是以矩阵向量乘法形式表征,即ym=Amx,其中待计算的矩阵行数lm和数据量Dm之间的关系可以表示为:
其中b是计算一个长度为k的内积的比特数;
无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为:
所以,第m个无人机的任务可以表示为Am=[Am,1;Am,2;…;Am,p;…;Am,P],子矩阵Am,p的行数可以表示为lm,p:lm,p=γm,p·αm·lm。
5.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;假设地面总计算资源为fmax,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为
所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为
其中ρn为第n个BS的CPU计算1bit任务的周期数;
所以,第p个BS计算第m个无人机所卸载的lmp个内积任务的计算时间为
其中χ(t)为计数函数,即统计各基站处理矩阵乘法任务的行数;
对应地,处理计算任务的总能耗也分为四部分:飞行能耗、卸载能耗、悬停能耗、基站计算能耗,分别可以表示为
其中wm代表第m个无人机的质量,κp代表第p个基站的有限CPU开关电容,该参数只与CPU硬件有关;
所以,第m个无人机完成计算任务的系统总能耗可以表示为
所以,第m个无人机完成计算任务的成本可以表示为
其中,η为成本折中系数,且满足0<η<1,σ是时延能耗的平衡因子;
定义评价系统的指标为系统处理计算任务的归一化成本,所以得到下面的优化问题:
该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化;其中,C1代表信道带宽资源分配比例和为1,C2代表每个无人机的计算任务分配比例的和为1,C3代表地面计算资源分配比例之和为1,C4代表无人机接收到lm才认为任务完成,C5代表无人机计算任务要在容忍时间之内完成,C6代表无人机工作的能量损耗不超过无人机电池能量总和。
7.根据权利要求1所述的矩阵-向量乘法编码计算分配方法,其特征在于,在所述步骤四中,在所述系统模型中,深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为
P=p[st+1,rt∣st,at]
其中智能体为无人机和边缘基站,动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配;状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗;回报与系统归一化成本呈负相关。
所述多智能体-深度确定性策略梯度算法包括环境、智能体,每个智能体都包括演员网络、评判家网络和一个经验回放池,其中每个网络又包括两个DQN,分别为评估网络和目标网络,每个网络的Q函数:即action-value函数,定义在状态st下at采取动作后,且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]
Q函数的定义是一个递归表达,通过一个函数对Bellman等式表达进行模拟;在DDPG中,用一个卷积神经网络对Q函数进行模拟,这个网络叫做Q网络,其参数为θQ;衡量一个策略μ的表现:用一个准则函数J来衡量,可以表示为
Jβ(μ)=∫Sρβ(s)Qμ(s,μ(s))ds
其中,s是环境的状态,这些状态是基于智能体的行为策略产生的,它们的分布函数为ρβ(s),Qμ(s,μ(s))是在每个状态下,如果都按照μ策略选择动作时,能够产生的Q值;
因此,最优行为策略μ可以认为是准则函数Jβ(μ)的最大似然估计,可以表示为
并且,定义网络的LOSS函数为均方误差,它是预测值与目标值之间差值的平方和,是回归损失函数中最常用的误差,因此LOSS函数可以表示为
并且,根据评估网络更新目标网络采用软更新的方式,更新方法如下θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ取值为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047279.3A CN114554458A (zh) | 2022-01-17 | 2022-01-17 | 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047279.3A CN114554458A (zh) | 2022-01-17 | 2022-01-17 | 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114554458A true CN114554458A (zh) | 2022-05-27 |
Family
ID=81671933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210047279.3A Pending CN114554458A (zh) | 2022-01-17 | 2022-01-17 | 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114554458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190050A (zh) * | 2022-07-06 | 2022-10-14 | 哈尔滨工业大学(深圳) | 基于异构多址接入网络慢节点检测的编码计算优化方法 |
CN115396955A (zh) * | 2022-08-24 | 2022-11-25 | 广西电网有限责任公司 | 一种基于深度强化学习算法的资源分配方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858721A (zh) * | 2020-08-03 | 2020-10-30 | 南京大学 | 一种基于优先级编码的分布式计算方法 |
US20200387777A1 (en) * | 2019-06-05 | 2020-12-10 | University Of Southern California | Lagrange coded computing: optimal design for resiliency, security, and privacy |
CN113206701A (zh) * | 2021-04-30 | 2021-08-03 | 重庆大学 | 一种无人机飞行基站的三维部署和功率分配联合优化方法 |
CN113395654A (zh) * | 2021-06-11 | 2021-09-14 | 广东工业大学 | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
-
2022
- 2022-01-17 CN CN202210047279.3A patent/CN114554458A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200387777A1 (en) * | 2019-06-05 | 2020-12-10 | University Of Southern California | Lagrange coded computing: optimal design for resiliency, security, and privacy |
CN111858721A (zh) * | 2020-08-03 | 2020-10-30 | 南京大学 | 一种基于优先级编码的分布式计算方法 |
CN113206701A (zh) * | 2021-04-30 | 2021-08-03 | 重庆大学 | 一种无人机飞行基站的三维部署和功率分配联合优化方法 |
CN113395654A (zh) * | 2021-06-11 | 2021-09-14 | 广东工业大学 | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
Non-Patent Citations (1)
Title |
---|
WANG, L 等: "Multi-Agent Deep Reinforcement Learning-Based Trajectory Planning for Multi-UAV Assisted Mobile Edge Computing", 《 IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》, 1 March 2021 (2021-03-01), pages 73 - 84 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190050A (zh) * | 2022-07-06 | 2022-10-14 | 哈尔滨工业大学(深圳) | 基于异构多址接入网络慢节点检测的编码计算优化方法 |
CN115190050B (zh) * | 2022-07-06 | 2023-07-18 | 哈尔滨工业大学(深圳) | 基于异构多址接入网络慢节点检测的编码计算优化方法 |
CN115396955A (zh) * | 2022-08-24 | 2022-11-25 | 广西电网有限责任公司 | 一种基于深度强化学习算法的资源分配方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114554458A (zh) | 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN109818775B (zh) | 一种短期网络流量预测方法 | |
WO2022199032A1 (zh) | 模型构建方法、任务分配方法、装置、设备及介质 | |
CN112882815A (zh) | 基于深度强化学习的多用户边缘计算优化调度方法 | |
CN110601777B (zh) | 一种低轨移动卫星星座下星地下行链路同频干扰估计方法 | |
CN110362380B (zh) | 一种面向网络靶场的多目标优化虚拟机部署方法 | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN115022937B (zh) | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 | |
CN112637883A (zh) | 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法 | |
CN110531996A (zh) | 一种多微云环境下基于粒子群优化的计算任务卸载方法 | |
CN114625506A (zh) | 一种基于自适应协方差矩阵进化策略的边缘云协同任务卸载方法 | |
CN113886460A (zh) | 低带宽分布式深度学习方法 | |
CN114819143A (zh) | 一种适用于通信网现场维护的模型压缩方法 | |
CN115118728A (zh) | 基于蚁群算法的边缘负载均衡任务调度方法 | |
CN112256422B (zh) | 基于q学习的异构平台任务调度方法及系统 | |
Esfahanizadeh et al. | Stream iterative distributed coded computing for learning applications in heterogeneous systems | |
WO2023098860A1 (zh) | 通信方法和通信装置 | |
CN116938323A (zh) | 一种基于强化学习的卫星转发器资源分配方法 | |
CN116562364A (zh) | 基于知识蒸馏的深度学习模型协同推演方法、装置及设备 | |
Baldvinsson et al. | Il-gan: Rare sample generation via incremental learning in gans | |
CN114614878A (zh) | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 | |
CN115499875A (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
CN114281527A (zh) | 一种低复杂度的移动边缘计算资源分配方法 | |
CN115173926A (zh) | 基于拍卖机制的星地融合中继网络的通信方法和通信系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |