CN114554458A

CN114554458A - 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

Info

Publication number: CN114554458A
Application number: CN202210047279.3A
Authority: CN
Inventors: 顾术实; 郭云开; 张智凯; 逄博; 张钦宇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-05-27

Abstract

本发明提供了一种基于多智能体深度强化学习的矩阵‑向量乘法编码计算分配方法，包括如下步骤：步骤一：构建一个多智能体多边缘基站的矩阵‑向量计算任务卸载系统模型；步骤二：将该系统模型的工作流程分为三步：任务编码、任务卸载、分布式计算；步骤三：建立最小化系统成本的优化问题；步骤四：确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>，通过多智能体‑深度确定性策略梯度（MA‑DDPG）算法求解优化问题，获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。本发明的有益效果是：本发明不仅考虑到边缘基站计算能力和慢节点参数的异构性，同时考虑智能体（无人机）和边缘基站通信的带宽资源的有限性，并且在通过无速率码的分布式编码计算降低了慢节点（Straggler）对分布式计算任务的处理延迟影响，从而减小了矩阵‑向量乘法计算任务的处理成本。

Description

一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法。

背景技术

无人机作为一种常见的智能体，具有体积小、部署容易、灵活性强等优点，在执行应急型业务服务如紧急救援、监控监测得等方面到了广泛应用。无人机在完成上述应用中经常需要搭载人工智能算法进行路径规划与物体识别，同时运用机器学习或图像处理等技术对收集到的数据进行分析和预测，这个过程存在大量矩阵向量乘法(Matrix VectorMultiplication，MVM)运算，比如在卷积神经网络的训练中，包括大量的梯度下降运算以及神经网络模型数百万参数的更新，其矩阵乘法维度达到10⁵*10⁵。

智能体的计算能力有限，限制了其满足计算类业务用户的服务质量。智能体的计算资源由于节点异构性、硬件故障等因素，会导致多智能体网络中慢节点的存在。由于计算任务被分发至多个工作节点处理并等待所有计算结果的返回，部分节点的计算速度过慢导致整体任务处理时延增加，使得服务质量降低。

编码计算是通过冗余策略降低慢节点时延影响加速分布式计算的有效方法，目前分布式编码计算中常用的编码方案主要分为两种，一种是复制(Replication)策略，另一种是纠删码(Erasure-Coding)策略。其中在复制策略中，主节点将计算任务划分成数据块，并复制成多份，然后发送到不同的节点进行计算，当有节点发生计算迟滞的时候，可以从计算速度较快的节点中获取计算结果。这种容错策略将存储数据复制成了多份，存储效率低，大大增加了存储开销，并且对于计算时延的提升并不是特别明显。

当前的分布式编码计算的纠删码主要有两种，一种是最大距离可分码(MDS code)策略，另一种是无速率码(rateless code)策略。其中，(n,k)MDS码策略中是计算任务平均划分成k份并通过编码获得n个子任务，通过获取k个结算结果恢复原始任务的计算结果，这种容错策略可以容忍n-k个慢节点对计算任务的时延影响，但是造成了这部分慢节点所得到计算结果的浪费。无速率码是通过冗余特性降低慢节点影响，相比于MDS码，无速率码由于其特殊的编解码方式在降低慢节点的时延影响的同时也充分利用了慢节点的结算结果，不会造成计算结果的浪费。

发明内容

本发明提供了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法，包括如下步骤：

步骤一：构建一个出多智能体(无人机)多边缘基站的矩阵-向量乘法任务卸载系统模型；

步骤二：将该系统模型的工作流程分为如下三步：

步骤1：任务编码，将计算任务按照无速率码的规则进行编码；

步骤2：任务卸载，无人机飞行至各自的卸载点并按照任务分配的比例进行卸载；

步骤3：分布式计算，边缘基站接收到智能体卸载的任务后，按照计算资源分配的比例进行分布式编码计算，计算完成后将计算结果回传至智能体；

步骤三：建立最小化系统成本的优化问题；

步骤四：确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>，通过多智能体-深度确定性策略梯度(MA-DDPG)算法求解优化问题，获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。

本发明的有益效果是：本发明针对多智能体(无人机)多边缘基站的计算卸载问题进行了研究，不仅考虑到边缘基站计算能力和慢节点参数的异构性，同时考虑无人机和边缘基站通信的带宽资源的有限性，并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响，从而减小了计算务的处理成本，实现无人机计算任务的高效处理。

附图说明

图1是多无人机多基站计算任务卸载的系统模型图；

图2是深度强化学习MA-DDPG算法流程图；

图3是MA-DDPG算法下迭代次数与回报的关系图；

图4是采用飞行卸载和原地卸载方案的迭代次数和回报的关系图；

图5是采用MDS码和无速率方案的迭代次数和回报的关系图；

图6是不同无人机数量下系统指标及算法性能图；

图7是不同基站数量下系统指标及算法性能图；

图8是不同批采样大小下的迭代次数和回报的关系图。

具体实施方式

智能协作网络中的计算分配问题存在两个关键性问体。第一，多智能体网络慢节点现象，原因是节点能力有限且容易发生临时故障，导致计算任务需要等待最慢的节点完成处理，造成总体时延增加；第二，多智能体网络的动态适应性问题，由于智能体具有移动性，传统的优化算法无法适应环境的改变，不合理的MVM任务分配也会导致系统性能的下降。为解决上述问题，本发明以降低时延-能耗加权成本为目标，利用编码计算技术解决慢节点问题，并且采用MA-DDPG深度强化学习算法使得任务分配方案对多智能体网络的动态环境具有高适应性。

深度强化学习可以通过同时优化多无人机的动作选择即计算分配来降低系统成本，直至收敛，且训练出的网络模型具有适应性，可以对不同的环境都取得良好的效果。

本发明公开了一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法，以多无人机多基站协作的多智能体网络为例，包括：

步骤一：构建一个出多智能体(无人机)多基站的任务卸载的系统模型；

步骤二：将该系统模型的工作流程分为三步：

步骤3：分布式计算，边缘基站接收到智能体卸载的任务后，按照计算资源分配的比例进行分布式编码计算，计算完成后将计算结果回传至智能体。

步骤三：建立最小化系统成本的优化问题。

具体为：

步骤一：

系统模型如图1所示，该模型由M个UAV和P个基站组成，UAV的集合表示为

基站的集合表示为

假设无人机和基站之间是视距传输信道，第m个无人机初始坐标r_m＝[x_m,y_m,z_m],

第p个BS的三维坐标为r_p＝[x_p,y_p,0]，

所以第m个无人机和第p个BS的直线距离可以表示为：

那么，信道增益h_m,p可以表示为：

h_m,p＝β₀(d_m,p)^-2

其中，β₀代表归一化信道增益；

假设整个系统M个无人机的总传输带宽是B，并且采用频分多址技术来保证多无人机可以同时进行任务卸载，带宽的分配矩阵Ω可以表示为:

其中，ω_m,p代表第m个无人机和第p个地面基站之间信道带宽的比例，且满足

第m个无人机和第p个地面基站之间的信道传输速率可以表示为：

其中，

代表第m个无人机的卸载功率，N₀代表噪声功率谱密度。

在所述步骤二的步骤1中，无人机将计算任务按照LT无速率码的编码规则进行预处理，并将计算任务按照比例划分多个子任务；第m个无人机的任务可以表示为

其中D_m代表任务比特数，F_m代表工作负载，

代表无人机任务处理的容忍时间；假设无人机的计算任务是以矩阵向量乘法形式表征，即y_m＝A_mx，其中

待计算的矩阵行数l_m和数据量D_m之间的关系可以表示为：

其中b是计算一个长度为k的内积的比特数；

无人机在对任务矩阵进行编码处理，即对A_m进行无速率编码得到

所以第m个UAV计算任务经过编码后的数据量D_m可以表示为：D_m＝α_mD_m

无人机将编码后的矩阵按比例分配给边缘基站，其分配矩阵Γ可以表示为：

其中，γ_m,p代表第m个无人机分配给第p个边缘基站的计算任务的比例，且满足

所以，第m个无人机的任务可以表示为A_m＝[A_m,1；A_m,2；…；A_m,p；…；A_m,P],子矩阵A_m,p的行数可以表示为l_m,p：l_m,p＝γ_m,p·α_m·l_m。

在所述步骤二的步骤2中，对于每个无人机都采用全卸载策略，即无人机将计算任务全部卸载至地面基站；每个无人机先飞行至各自的卸载点，假设第m个无人机的卸载点坐标为

所以第m个无人机飞行至卸载点的时延可以表示为：

其中v_m代表第m个无人机的飞行速度；

无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站，所以第m个无人机将计算任务卸载至第p个基站的传输时间

可以表示为：

无人机将计算任务卸载完成之后就原地悬停，等待地面基站将计算结果处理返回。

在所述步骤二的步骤3中，地面基站接收到无人机所卸载的任务后，进行分布式计算；假设地面总计算资源为f_max,对于处理来自于不同无人机的计算任务分配不同的计算资源，其分配矩阵Λ可以表示为

其中，λ_m,p代表第p个基站处理来自于第m个无人机的子任务的计算资源占比，即

所以，第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为

其中ρ_n为第n个BS的CPU计算1bit任务的周期数；

所以，第p个BS计算第m个无人机所卸载的l_mp个内积任务的计算时间为

由于对计算任务进行LT无速率码编码处理，所以第m个无人机需要接受l_m行的计算结果可以认为计算完成，第p个基站处理第m个无人机分配的子任务的计算时间

可以表示为

其中χ(t)为计数函数，即统计各基站处理矩阵乘法任务的行数；

在所述步骤三中，处理计算任务的总时延分为三部分：飞行时延、卸载时延、悬停时延；第m个无人机的任务完成时间

可以表示为：

对应地，处理计算任务的总能耗也分为四部分：飞行能耗、卸载能耗、悬停能耗、基站计算能耗，分别可以表示为

其中w_m代表第m个无人机的质量，κ_p代表第p个基站的有限CPU开关电容，该参数只与CPU硬件有关；

所以，第m个无人机完成计算任务的系统总能耗可以表示为

所以，第m个无人机完成计算任务的成本可以表示为

其中，η为成本折中系数，且满足0＜η＜1，σ是时延能耗的平衡因子；

定义评价系统的指标为系统处理计算任务的归一化成本，所以得到下面的优化问题：

该问题通过优化无人机的卸载点、信道带宽分配、无人机计算任务分配以及地面基站计算资源分配来实现归一化成本的最小化；其中，C1代表信道带宽资源分配比例和为1，C2代表每个无人机的计算任务分配比例的和为1，C3代表地面计算资源分配比例之和为1，C4代表无人机接收到l_m才认为任务完成，C5代表无人机计算任务要在容忍时间之内完成，C6代表无人机工作的能量损耗不超过无人机电池能量总和。

在所述步骤四中，在所述系统模型中，深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为

P＝p[s_t+1,r_t∣s_t,a_t]

其中智能体为无人机和边缘基站，动作代表无人机的飞行路径选择、信道带宽分配、计算任务分配和计算资源分配；状态包括信道传输速率、无人机飞行时间和飞行能耗、无人机卸载时间和卸载能耗、地面计算时间和计算能耗以及无人机等待计算结果返回的悬停能耗；回报与系统归一化成本呈负相关。

所述多智能体-深度确定性策略梯度(MA-DDPG)算法包括环境、智能体，每个智能体都包括演员网络、评判家网络和一个经验回放池，其中每个网络又包括两个DQN，分别为评估网络和目标网络，每个网络的Q函数:即action-value函数，定义在状态s_t下a_t采取动作后，且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义：

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]

Q函数的定义是一个递归表达，通过一个函数对Bellman等式表达进行模拟；在DDPG中，用一个卷积神经网络对Q函数进行模拟，这个网络叫做Q网络，其参数为θ^Q；衡量一个策略μ的表现：用一个准则函数J来衡量，可以表示为

J_β(μ)＝∫_Sρ^β(s)Q^μ(s,μ(s))ds

其中，s是环境的状态，这些状态是基于智能体的行为策略产生的，它们的分布函数为ρ^β(s)，Q^μ(s,μ(s))是在每个状态下，如果都按照μ策略选择动作时，能够产生的Q值；

因此，最优行为策略μ可以认为是准则函数J_β(μ)的最大似然估计，可以表示为

并且，定义网络的LOSS函数为均方误差，它是预测值与目标值之间差值的平方和，是回归损失函数中最常用的误差,因此LOSS函数可以表示为

策略网络的策略梯度时在状态s呈ρ^β(s)的概率分布下▽_aQ·▽_θμμ的期望值，可以表示为

并且，根据评估网络更新目标网络采用软更新的方式，更新方法如下

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，τ取值为0.001。

上述优化问题可以通过算法4-1解决，具体算法流程如下所示

算法表4-1.MA-DDPG

如图3所示，该算法在300次迭代达到收敛，收敛速度是十分可观的。并且无人机的任务处理的奖励从0.73提升至0.86，这意味系统归一化成本降低了0.12，即该系统处理1bit任务的成本降低0.12，提升幅度约17％。

如图4所示，在原地卸载的方案下，只需要100次迭代即可达到收敛，但是收敛后的回报稳定在0.77左右，这是由于无人机作为智能体选择了原地卸载会降低动作的选择方案，越少的动作选择必然会收敛次数降低。但是相比于飞行卸载方案，回报大约少0.08，降低了17％左右。对于深度强化学习来说，100次和300次收敛其实差距并不大，总体来说，无人机飞行卸载要优于原地卸载。

如图5所示，对比MDS码和无速率码的编码计算方案，可以看到二者的收敛速度相差无几，但是MDS码的汇报收敛于0.80，小于无速率码的收敛值0.86，这是由于无速率利用了慢节点的计算结果，而MDS码是没有利用慢节点的计算结果，所以本模型采用无速率码进行任务处理设计明显优于MDS码方案。

为了保证比较的公平性，我们设置随着无人机熟练的增加地面资源、频谱资源等也相应地增加。如图6所示，当无人机数量为3时，MA-DDPG算法在该系统模型下取得了良好的表现，不仅在300次左右迭代下迅速收敛，并且还保证了时延-能耗加权归一化成本较小。当无人机数量为5时，时延-能耗加权归一化成本相比于数量为3时保持稳定，几乎没有变化。并且，由于智能体的数量增加面临动作选择、以及相应的策略呈几何倍数增加，所以收敛的迭代次数增长到500左右，但是我们认为这是可以接受的迭代次数。当当无人机数量为10时，系统归一化成本以及对应的时延能耗增加了一倍，收敛迭代次数陡增至1900次左右。因此，我们可以认为MA-DDPG算法适用于个位数数量级的无人机智能体，超过这个数量级表现会变得很差。

如图7所示，类似于图6的结论，我们可以观察到作为智能体的基站的数量等于4和10的时候，系统指标(时延，能耗，成本)以及收敛迭代次数依然有稳定的表现，当基站的数量等于20的时候，对应的系统指标和收敛迭代次数都成倍地增加。这是由于，基站作为智能体事实上只存在计算资源分配的动作，动作的选择较少，所以相比于无人机，MA-DDPG适应更多的基站智能体并取得稳定的表现。因此，我们可以认为MA-DDPG算法适用于少于20个基站智能体的情况，超过这个数量级表现会变得很差。

如图8所示，我们讨论算法本身的参数对回报的影响，mini-batch主要是为了加快收敛和节省内存，但是同时也会导致陷入局部最优解无法获得全局最优解，可以看出batchsize越大，收敛速度越慢，但是相应的回报值越大。当batch size＝64时，算法陷入到了局部最优解，这是因为采样数较小导致的。当batch size＝256时，迭代次数达到800次时才收敛，但是收敛后的回报值最高。当batch size＝256时，迭代次数达到300次时才收敛，但是收敛后的回报值也相对较高接近当batch size＝256的收敛后回报值。所以，batch size在本模型中存在迭代次数和收敛后回报值的折中选择。

通过仿真可以看出，我们所提出的基于无速率码编码计算的任务处理方式明显优于MDS码，系统成本降低了约8％，并且可以看出飞行卸载相对于原地卸载系统成本也有17％左右提升，同时我们综合考虑两种智能体(无人机和基站)的数量对时延、能耗、成本等系统性能和收敛迭代次数的算法指标的影响，讨论了该算法适用的智能体数量，这为我们选择该场景下智能体的数量提供了参考。更进一步地，我们讨论了算法参数batch size对系统性能和算法性能的影响，说明了该参数在本系统模型中存在折中选择。

本发明的有益效果：本发明针对多无人机多基站的计算卸载问题进行了研究，不仅考虑到边缘基站计算能力和慢节点参数的异构性，同时考虑无人机和边缘基站通信的带宽资源的有限性，并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响，从而减小了计算务的处理成本，实现无人机计算任务的高效处理。

具体为：

1.应用分布式编码计算方案来处理无人机卸载的计算任务并有效降低慢节点的影响并减小了计算时延，同时采用了不同编码方案，并对这些方案在该场景的成本进行讨论与对比。

2.为了保证公平性，本发明提出归一化处理成本的概念，通过这个指标来衡量整个系统任务处理的好坏。

3.采用深度强化学习对无人机最卸载位置、通信带宽资源分配、无人机计算任务分配、边缘基站计算资源分配进行联合优化，不仅更好地匹配边缘基站计算能力和慢节点参数异构性，并且使得系统计算任务处理的归一化成本极大地减小。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法，其特征在于，包括如下步骤：

步骤一：构建一个多智能体多边缘基站的矩阵-向量乘法任务卸载系统模型，智能体为无人机；

步骤二：将该系统模型的工作流程分为如下三步：

步骤三：建立最小化系统成本的优化问题；

步骤四：确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>，通过多智能体-深度确定性策略梯度算法求解优化问题，获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。

2.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤一中，系统模型由M个UAV和P个基站组成，UAV的集合表示为

基站的集合表示为

假设无人机和基站之间是视距传输信道，第m个无人机初始坐标

第p个BS的三维坐标为

所以第m个无人机和第p个BS的直线距离可以表示为：

那么，信道增益h_m,p可以表示为：

h_m,p＝β₀(d_m,p)^-2

其中，β₀代表归一化信道增益；

其中，

代表第m个无人机的卸载功率，N₀代表噪声功率谱密度。

3.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤二的步骤1中，无人机将计算任务按照LT无速率码的编码规则进行预处理，并将计算任务按照比例划分多个子任务；第m个无人机的任务可以表示为

其中D_m代表任务比特数，F_m代表工作负载，

待计算的矩阵行数l_m和数据量D_m之间的关系可以表示为：

其中b是计算一个长度为k的内积的比特数；

4.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤二的步骤2中，对于每个无人机都采用全卸载策略，即无人机将计算任务全部卸载至地面基站；每个无人机先飞行至各自的卸载点，假设第m个无人机的卸载点坐标为

所以第m个无人机飞行至卸载点的时延可以表示为：

其中v_m代表第m个无人机的飞行速度；

可以表示为：

5.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤二的步骤3中，地面基站接收到无人机所卸载的任务后，进行分布式计算；假设地面总计算资源为f_max,对于处理来自于不同无人机的计算任务分配不同的计算资源，其分配矩阵Λ可以表示为

其中ρ_n为第n个BS的CPU计算1bit任务的周期数；

可以表示为

6.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤三中，处理计算任务的总时延分为三部分：飞行时延、卸载时延、悬停时延；第m个无人机的任务完成时间

可以表示为：

所以，第m个无人机完成计算任务的系统总能耗可以表示为

所以，第m个无人机完成计算任务的成本可以表示为

P0:

7.根据权利要求1所述的矩阵-向量乘法编码计算分配方法，其特征在于，在所述步骤四中，在所述系统模型中，深度强化学习四元组<状态S,动作A,回报R,转移概率P>可以定义为

P＝p[s_t+1,r_t∣s_t,a_t]

所述多智能体-深度确定性策略梯度算法包括环境、智能体，每个智能体都包括演员网络、评判家网络和一个经验回放池，其中每个网络又包括两个DQN，分别为评估网络和目标网络，每个网络的Q函数:即action-value函数，定义在状态s_t下a_t采取动作后，且如果持续执行策略μ的情况下所获得的期望值,用Bellman等式来定义：

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))]

J_β(μ)＝∫_Sρ^β(s)Q^μ(s,μ(s))ds

策略网络的策略梯度时在状态s呈ρ^β(s)的概率分布下

的期望值，可以表示为

并且，根据评估网络更新目标网络采用软更新的方式，更新方法如下θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，τ取值为0.001。