CN116647879A

CN116647879A - 基于双智能体深度强化学习的多类型任务卸载系统及方法

Info

Publication number: CN116647879A
Application number: CN202310711286.3A
Authority: CN
Inventors: 张旭; 冯川; 张鑫; 巩小雪; 马天纯; 郭磊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-25

Abstract

本发明涉及基于双智能体深度强化学习的多类型任务卸载系统及方法，属于通信技术领域。该方法包括以下步骤：S1：将节点特征矩阵输入节点映射智能体；S2：节点映射智能体输出所有节点被选择的概率，选择概率最大的节点映射；S3：判断所有组件是否映射完毕，是则执行S4，否则返回S1；S4：将链路特征矩阵输入链路映射智能体；S5：链路映射智能体输出所有路径被选择的概率，选择概率最大的路径映射；S6：判断所有链路是否映射完毕，是则执行S7，否则返回S4；S7：计算双智能体奖励和损失函数，更新相关参数。本发明对多类型资源均衡分配，提高物理节点资源利用率，降低请求阻塞率，提高边缘云网络的承载量和服务供应商的收益。

Description

基于双智能体深度强化学习的多类型任务卸载系统及方法

技术领域

本发明属于通信技术领域，涉及基于双智能体深度强化学习的多类型任务卸载系统及方法。

背景技术

无线通信从第一代仅为大型商业客户提供基本覆盖，到5G提供增强型移动宽带、大规模机器类型通信和超可靠和低延迟通信功能。多接入边缘计算网络的特点是使用多种接入技术的各种物理设备。5G网络能够提供多维资源，这些资源属于大量地理分布的网络设备，它们在计算、通信和内存方面具有不同的硬件能力。5G基础设施的异构性对优化多维资源提出了挑战。用户对智能化应用需求的不断增长，用户的任务需求变得多种多样。一个多组件的任务请求通常是随机的且存在对于不同资源的请求具有不确定的关系，例如，计算密集型任务对存储和通信要求较低，其他类型任务如视频缓存，则需要大量的存储资源。现有工作主要集中在较少资源类型的任务，无法满足多类型任务请求，这对网络资源管理和优化带来了挑战。

此外，智能应用程序请求的资源类型数量不断增加，考虑到无线网络的复杂性，求解数学模型的解空间显著增长。精确算法不再能够获得最优解，而时间复杂度过高的启发式算法导致寻找可行解的成本很高。深度强化学习侧重于智能体如何响应环境的奖励或惩罚，养成习惯性行为，并能够在边缘云中快速识别任务卸载的最佳解决方法。尽管可以通过单智能体收集系统状态的全部信息进行卸载决策。但是，随着网络规模的不断扩大，单智能体深度强化学习方法将面临巨大的计算压力，求解时间将呈现指数型的增长，很难在短时间内找到可行解。

发明内容

有鉴于此，本发明的目的在于提供基于双智能体深度强化学习的多类型任务卸载系统及方法，解决在使用单智能体深度强化学习方法进行多类型任务卸载时不易在短时间内找到可行解的技术问题。本发明设计的节点映射智能体模块在映射多类型任务请求的多个组件时，充分考虑边缘云网络节点的局部属性和全局属性：节点剩余资源量、节点中介中心性、节点特征向量中心性和节点连接中心性，节点映射的净收益奖励函数；设计的链路映射智能体模块在映射多类型任务请求的链路时，充分考虑边缘云网络链路局部属性和全局属性：链路带宽剩余量、链路丢包率、链路中介中心性和链路剩余带宽均值差，将链路映射的净收益作为奖励函数；对边缘云网络多类型资源进行均衡分配，提高边缘云网络节点各种类型资源的利用率，降低任务阻塞率，提高边缘云网络对任务请求的承载量，提高服务供应商的收益。

为达到上述目的，本发明提供如下技术方案：

基于双智能体深度强化学习的多类型任务卸载方法，该方法包括以下步骤：

S1：边缘云网络模型模块将收集多类型任务请求中的各个组件，利用边缘云网络节点特征构成节点特征矩阵，输入至节点映射智能体模块；

S2：节点映射智能体模块输出所述节点特征矩阵中的所有节点被选中的概率，选择概率最大的物理节点进行映射，更新边缘云网络模型模块资源；

S3：节点映射智能体模块判断多类型任务请求的所有组件是否映射完毕，若所有组件映射完毕则执行S4映射多类型任务请求的链路，否则返回所述S1映射多类型任务请求的下一组件；

S4：边缘云网络模型模块将收集多类型任务请求中的各个组件，利用边缘云网络链路特征构成的链路特征矩阵，输入链路映射智能体模块；

S5：链路映射智能体模块输出所述链路特征矩阵中的所有路径被选中的概率，选择概率最大的路径进行映射，更新边缘云网络模型模块资源；

S6：链路映射智能体模块判断多类型任务请求的所有链路是否映射完毕，若所有链路映射完完毕则执行S7，否则返回所述S4映射多任务请求中的下一链路；

S7：环境模块计算节点映射智能体模块和链路映射智能体模块的奖励和损失函数，并更新节点映射智能体模块和链路映射智能体模块的参数。

进一步的，所述S2中，节点映射智能体模块输出节点特征矩阵中的所有节点被选中的概率，选择概率最大的物理节点进行映射，更新边缘云网络模型模块资源，具体为：

S21：将节点特征矩阵输入到节点映射智能体模块的输入层一，使用离差标准化方法对所述节点特征矩阵执行归一化操作；

S22：将归一化后的节点特征矩阵输入节点映射智能体模块的卷积层一，所述卷积层一生成每个节点的可用资源向量；

S23：将所述每个节点的可用资源向量输入节点映射智能体模块的Softmax层一，所述Softmax层一将每个节点的可用资源向量转化成每个节点被选择的概率；

S24：将所述每个节点被选择的概率输入节点映射智能体模块的过滤层一，所述过滤层一过滤不满足节点资源类型的约束、节点资源量约束、节点一对一约束和流守恒约束的节点，将过滤不满足上述约束之一的节点的概率记为0；

S25：节点映射智能体模块的输出层一重新计算经过过滤层过滤的边缘云网络模型模块中每个节点被选择的概率，输出层一输出每个节点对应的概率，输出层一选择输出概率最大的节点进行映射，更新边缘云网络模型模块资源。

进一步的，所述S5中，链路映射智能体模块输出链路特征矩阵中所有路径被选中的概率，选择概率最大的路径进行映射，更新边缘云网络模型模块资源，具体为：

S31：将链路特征矩阵输入到链路映射智能体模块的输入层二，使用离差标准化方法对所述链路特征矩阵执行归一化操作；

S32：将归一化后的链路特征矩阵输入链路映射智能体模块的卷积层二，所述卷积层二生成每条路径的可用资源向量；

S33：将所述每条路径的可用资源向量输入链路映射智能体模块的Softmax层二，所述Softmax层二将每条路径的可用资源向量转化成每条路径被选择的概率；

S34：所述每条路径被选择的概率输入链路映射智能体模块的过滤层二，所述过滤层二过滤不满足链路方向约束、流守恒约束、带宽容量约束和丢包率约束的路径，并将过滤不满足上述约束之一的路径的概率记为0；

S35：链路映射智能体模块的输出层二重新计算经过过滤层过滤的每条路径被选择的概率，链路映射智能体模块的输出层二输出所有路径及对应的概率，输出层二选择输出概率最大的路径进行映射，更新边缘云网络模型模块资源。

基于双智能体深度强化学习的多类型任务卸载系统，该系统包括环境模块、节点映射智能体模块和链路映射智能体模块，所述环境模块内并列设有边缘云网络模型模块和多任务请求模型模块；环境模块将收集的节点特征矩阵，输入节点映射智能体模块，节点映射智能体模块选择输出每个多类型任务请求中各个组件所对应的概率最大的节点进行映射，更新边缘云网络模型模块资源，节点映射智能体模块将多类型任务请求的所有组件映射完毕后，环境模块将收集的链路特征矩阵，输入链路映射智能体模块，链路映射智能体模块选择输出每个多类型任务请求链路所对应的概率最大的路径进行映射，更新边缘云网络模型模块资源，链路映射智能体模块将多类型任务请求的所有链路映射完毕后，环境模块计算节点映射智能体模块和链路映射智能体模块的奖励和损失函数，并更新节点映射智能体模块和链路映射智能体模块的参数。

进一步的，所述的边缘云网络模型模块表述为：有向图G^s(V^s,E^s)表示边缘云网络；V^s表示边缘云网络中物理节点的集合；E^s表示边缘云网络中物理链路的集合；分别表示边缘云网络中第i^s个物理节点拥有的第t种类型资源的总量和剩余量，其中T表示一个物理节点能够提供的资源类型集合，有Ⅰ、Ⅱ、Ⅲ型资源，即T＝{Ⅰ，Ⅱ，Ⅲ}；/> 和/>分别表示物理节点i^s的中介中心性、特征向量中心性和连接中心性；/>为物理节点i^s的邻居节点集合，/> 分别表示边缘云网络中第j^s个物理链路拥有的带宽资源总量、带宽资源剩余量，/>表示第j^s个物理链路的丢包率，其中和BD_js分别表示物理链路j^s的中介中心性和剩余带宽均值差；/>表示从源物理节点a^s到目的物理节点b^s所经过的第k条物理路径，/>和/>分别表示路径/>的剩余带宽和丢包率，/>P^s(a^s,b^s)表示源物理节点a^s到目的物理节点b^s的无环路径集合，K＝|P^s(a^s,b^s)|，其中/>

公式(1)中，表示第i^s个边缘云网络物理节点的中介中心性，中介中心性表示度量一个节点担任其它两个节点之间最短路径的桥梁的次数，一个节点充当中介的次数越多，它的中介中心度就越大；/>为二进制变量，表示物理节点a^s到b^s之间最短路径的数量，a^s≠b^s，/>表示a^s到b^s之间的最短路径是否经过节点i^s，若经过，值为1，否则值为0；

公式(2)中，表示物理节点i^s的特征向量中心性，特征向量中心性表示一个节点的重要性受其邻居节点的重要性影响，即一个节点连接的节点越重要，该节点也越重要，其中λ为一个常数，/>表示如果a^s是i^s的邻居节点，/>值为1，否则值为0；

公式(3)中，表示物理节点i^s的连接中心性，度量物理节点i^s到网络中所有其他节点的距离远近，其中/>表示节点i^s到节点a^s之间最短路径的跳数；

公式(4)中，表示物理链路j^s的中介中心性，以经过链路j^s的最短路径数目来度量链路重要性的指标；

公式(5)中，表示物理链路j^s的剩余带宽与网络中所有链路剩余带宽均值的差值；

公式(6)中，表示第k条路径/>的剩余带宽大小等于路径中所有链路的最小剩余带宽值；

公式(7)中，表示第k条路径/>的丢包率；

进一步的，所述多类型任务请求模型模块表述为：R表示所有多类型任务请求的集合；R_fail表示映射失败的多类型任务集合；G^r(V^r,E^r)表示一个多类型的任务请求，r∈R；V^r表示第r个多类型任务请求中组件的集合，E^r表示第r个多类型任务请求中组件之间链路的集合；表示第r个多类型任务请求中第i^r个组件请求的第t种类型资源的数量，其中和/>分别表示第r个多类型任务请求中第j^r条链路请求的带宽资源的数量和容忍的最大丢包率，其中/>

卸载多类型任务请求的总收益为映射成功的请求的收入与成本之间的差值，如公式(8)所示：

其中，γ_t表示每个组件请求的第t种类型资源的售卖单价，χ_t表示物理节点中部署第t种类型资源的成本单价，φ和分别表示带宽资源的售卖单价和成本单价；/>是一个二进制变量，如果任务请求的第i^r个组件被放置在边缘云网络中第i^s个物理节点上时其值为1，否则其值等于0；/>是一个二进制变量，如果任务请求的第i^r个组件选择第t种类型资源时其值为1，否则其值等于0；/>是一个二进制变量，如果任务请求的第j^r条链路被放置在边缘云网络中第j^s条物理链路上时其值为1；否则其值等于0；

最大化多类型任务请求的总收益TB，公式为：

max:TB(9)

约束条件有：

其中，公式(10)表示节点一对一约束：多类型任务请求中的一个组件只能被放置在边缘云网络中的一个物理节点上；公式(11)表示节点资源类型约束：多类型任务请求中的一个组件只能请求边缘云网络中物理节点上的一种类型资源；公式(12)表示节点资源量约束：所有请求占用的第t种类型资源容量总和不超过边缘云网络中物理节点第t种类型资源容量的总量；公式(13)表示链路方向约束：多类型任务请求中的一条链路只能选择边缘云网络中一个方向的物理链路；公式(14)表示流守恒约束：边缘云网络中每个物理节点的流入流量等于流出流量；公式(15)表示链路带宽容量约束：所有多类型请求占用边缘云网络中链路带宽总和不超过链路带宽的总量；公式(16)表示丢包率约束：选择映射的边缘云网络中路径的丢包率小于等于多类型任务请求组件间链路可容忍的丢包率；

多类型任务请求的评价指标包括总收益如公式(8)、阻塞率、平均节点资源利用率和平均带宽利用率：

其中，BR表示多类型任务请求的阻塞率，阻塞率越小，边缘云网络所承载的任务请求数量越多；NU^t表示第t类资源边缘云网络的平均节点资源利用率，边缘云网络节点资源利用率越高说明边缘云网络的节点资源利用越充分；LU表示平均带宽资源利用率，多类型任务请求中组件间链路映射到的边缘云网络路径越短，跳数越小，带宽占用率越小。

进一步的，所述的节点映射智能体模块从下至上依次设有输入层一、卷积层一、Softmax层一、过滤层一和输出层一；

所述的输入层一收集边缘云网络模块中每个物理节点有关t种类型资源的特征矩阵将所有物理节点的特征矩阵组合成边缘云网络模块有关第t种类型资源的节点特征矩阵/>对/>使用离差标准化方法，进行归一化，得到归一化后的特征矩阵/>使/>中的值都介于0到1之间；

第i^s个物理节点有关第t种类型资源的特征矩阵为包含节点剩余资源量/>节点中介中心性/>节点特征向量中心性/>和节点连接中心性/>

所有物理节点的有关第t种类型资源的特征矩阵为

离差标准化方法的公式为：

其中x表示原始列表，x'表示计算离差标准化后的列表，x_min表示原始列表中的最小值，x_max表示原始列表中的最大值；

所述卷积层一将归一化后的特征矩阵执行卷积运算ω₁为卷积核权重向量，b₁为偏置项，ReLU函数为激活函数，卷积层生成候选动作的可用资源向量/>ReLU函数，即分段线性函数，如果函数输入大于0，直接返回作为输入提供的值；如果输入是0或者更小值，返回0；

对归一化后的节点特征矩阵进行卷积操作：

所述Softmax层一将候选动作的可用资源向量转化成每个动作被选择的概率

所述过滤层一将所有不满足节点资源类型约束、节点资源量约束、节点一对一映射约束和流守恒约束的动作过滤掉，得到更新后的动作的可用资源向量和候选动作集合；

所述输出层一将过滤层过滤掉的动作对应的概率记为0；重新计算概率，得到新的概率分布为：

进一步的，所述链路映射智能体模块从下至上依次设有输入层二、卷积层二、Softmax层二、过滤层二和输出层二；

所述输入层二收集边缘云网络中每条链路的特征矩阵然后将所有链路的特征矩阵构成边缘云网络的链路特征矩阵/>对/>使用离差标准化方法进行归一化，得到归一化后的链路特征矩阵I_L，使I_L中的值都介于0到1之间；

第j^s个物理链路的特征矩阵包含链路的带宽剩余量/>丢包率/>中介中心性/>和剩余带宽均值差/>

所有物理链路的特征矩阵为

所述卷积层二中ω₂为卷积核权重向量，b₂为偏置项，ReLU函数为激活函数，卷积层生成候选动作的可用资源向量C_L：

所述Softmax层二将候选动作的可用资源向量C_L转化成每个动作被选择的概率

所述过滤层二将所有不满足链路方向约束、流守恒约束、带宽容量约束和丢包率约束的路径动作筛选出来，将其概率记为0，得到更新后所有动作的概率和动作集合；

所述输出层二将过滤层得到的动作概率重新计算，得到新的概率分布P_L：

进一步的，所述环境模块计算节点映射智能体模块和链路映射智能体模块的奖励和损失函数为：

节点映射的总收益作为节点映射智能体模块的奖励函数，公式为：

节点映射智能体模块的损失函数为：

链路映射的总收益作为链路映射智能体模块的奖励函数，公式为：

链路映射智能体模块的损失函数为：

本发明的有益效果在于：

第一，本发明设计节点映射智能体和链路映射智能体对边缘云网络多类型资源进行均衡分配，提高边缘云网络节点各种类型资源的利用率，降低任务阻塞率，提高边缘云网络对任务请求的承载量，提高服务供应商的收益。

第二，本发明相对于单智能体而言，双智能体能够分别提取网络节点属性和链路属性，在智能体学习过程中能够更加快速到达稳定状态。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于双智能体深度强化学习的多类型任务卸载方法的流程图；

图2为本发明基于双智能体深度强化学习的多类型任务卸载系统的整体框架图；

图3为本发明基于双智能体深度强化学习的多类型任务卸载方法所使用的拓扑图；

图4为本发明基于COST239拓扑图组件数量为2-6时的总收益对比图；

图5为本发明基于COST239拓扑图组件数量为2-6时的阻塞率对比图；

图6为本发明基于COST239拓扑图组件数量为2-6时的平均链路带宽资源利用率对比图；

图7为本发明基于COST239拓扑图组件数量为2-6时类型Ⅰ资源的平均节点资源利用率对比图；

图8为本发明基于COST239拓扑图组件数量为2-6时类型Ⅱ资源的平均节点资源利用率对比图；

图9为本发明基于COST239拓扑图组件数量为2-6时类型Ⅲ资源的平均节点资源利用率对比图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图9，为基于双智能体深度强化学习的多类型任务卸载系统及方法。

本发明提出了基于双智能体深度强化学习的多类型任务请求卸载方法，算法整体流程图如图1所示，在相同边缘云网络和多类型任务请求的条件下，相比于先节点后链路映射的单智能体深度强化学习方法(简称NF_L_SA_DRL)、节点链路交叉映射的双智能体深度强化学习方法(简称LF_L_DA_DRL)和节点链路交叉映射的单智能体深度强化学习方法(简称LF_L_SA_DRL)，本方案的平均节点资源利用率和净收益均高于对比方法，并且本方案的任务阻塞率低于所有对比方法。

步骤1：收集边缘云网络节点特征构成节点特征矩阵，输入节点映射智能体；

步骤2：节点映射智能体输出所有节点被选中的概率，选择概率最大的节点进行映射，更新边缘云网络资源；

步骤3：判断多类型任务请求的所有组件是否映射完毕，若是则执行步骤4映射多类型任务请求的链路，否则返回步骤1映射多类型任务请求的下一组件；

步骤4：收集边缘云网络链路特征构成链路特征矩阵，输入链路映射智能体；

步骤5：链路映射智能体输出所有路径被选中的概率，选择概率最大的路径进行映射，更新边缘云网络资源；

步骤6：判断多类型任务请求所有链路是否映射完毕，若是则执行步骤7，否则返回步骤4映射多类型任务请求中的下一链路；

步骤7：计算节点映射模块和链路映射模块的奖励和损失函数，并更新节点映射智能体和链路映射智能体的参数；

进一步，步骤2分为以下步骤：

步骤2.1：将节点特征矩阵输入到节点映射智能体的输入层，使用离差标准化方法执行归一化操作；

步骤2.2：将归一化后的节点特征矩阵输入节点映射智能体的卷积层，生成每个节点的可用资源向量；

步骤2.3：将每个节点的可用资源向量输入Softmax层，将每个节点的可用资源向量转化成每个节点被选择的概率；

步骤2.4：过滤不满足节点资源类型约束、节点资源量约束、节点一对一约束和流守恒约束的节点，并将其概率记为0；

步骤2.5：重新计算边缘云网络中每个节点被选择的概率，并输出每个节点及对应的概率。

进一步，步骤5分为以下步骤：

步骤5.1：将链路特征矩阵输入到链路映射智能体的输入层，使用离差标准化方法执行归一化操作；

步骤5.2：将归一化后的链路特征矩阵输入链路映射智能体的卷积层，生成每条路径的可用资源向量；

步骤5.3：将每条路径的可用资源向量输入Softmax层，将每条路径的可用资源向量转化成每条路径被选择的概率；

步骤5.4：过滤不满足链路方向约束、流守恒约束、带宽容量约束和丢包率约束的路径，并将其概率记为0；

步骤5.5：重新计算每条路径被选择的概率，并输出所有路径及对应的概率。

其中边缘云网络模型表述为：有向图G^s(V^s,E^s)表示边缘云网络；V^s表示边缘云网络中物理节点的集合；E^s表示边缘云网络中物理链路的集合；分别表示边缘云网络中第i^s个物理节点拥有的第t种类型资源的总量和剩余量，其中/>T表示一个物理节点能够提供的资源类型集合，有Ⅰ、Ⅱ、Ⅲ型资源，即T＝{Ⅰ，Ⅱ，Ⅲ}；/>和/>分别表示物理节点i^s的中介中心性、特征向量中心性和连接中心性；/>为物理节点i^s的邻居节点集合，/> 分别表示边缘云网络中第j^s个物理链路拥有的带宽资源总量、带宽资源剩余量，/>表示第j^s个物理链路的丢包率，其中/> 和/>分别表示物理链路j^s的中介中心性和剩余带宽均值差；/>表示从源物理节点a^s到目的物理节点b^s所经过的第k条物理路径，/>和/>分别表示路径/>的剩余带宽和丢包率，/>P^s(a^s,b^s)表示源物理节点a^s到目的物理节点b^s的无环路径集合，K＝|P^s(a^s,b^s)|，其中/>

公式(1)表示第i^s个边缘云网络物理节点的中介中心性，中介中心性表示度量一个节点担任其它两个节点之间最短路径的桥梁的次数，一个节点充当中介的次数越多，它的中介中心度就越大。为二进制变量，表示物理节点a^s到b^s之间最短路径的数量，a^s≠b^s，/>表示a^s到b^s之间的最短路径是否经过节点i^s，若经过，值为1，否则值为0；公式(2)表示物理节点i^s的特征向量中心性，特征向量中心性表示一个节点的重要性受其邻居节点的重要性影响，即一个节点连接的节点越重要，该节点也越重要，其中λ为一个常数，表示如果a^s是i^s的邻居节点，/>值为1，否则值为0。公式(3)表示物理节点i^s的连接中心性，度量物理节点i^s到网络中所有其他节点的距离远近，其中/>表示节点i^s到节点a^s之间最短路径的跳数；公式(4)表示物理链路j^s的中介中心性，以经过链路j^s的最短路径数目来度量链路重要性的指标；公式(5)表示物理链路j^s的剩余带宽与网络中所有链路剩余带宽均值的差值；公式(6)表示第k条路径/>的剩余带宽大小等于路径中所有链路的最小剩余带宽值；公式(7)表示第k条路径/>的丢包率。/>

多组件任务请求的网络模型表述为：R表示所有多类型任务请求的集合；R_fail表示映射失败的多类型任务集合；G^r(V^r,E^r)表示一个多类型的任务请求，r∈R；V^r表示第r个多类型任务请求中组件的集合，E^r表示第r个多类型任务请求中组件之间链路的集合；表示第r个多类型任务请求中第i^r个组件请求的第t种类型资源的数量，其中和/>分别表示第r个多类型任务请求中第j^r条链路请求的带宽资源的数量和容忍的最大丢包率，其中/>

卸载多类型任务请求的总收益为映射成功的请求的收入与成本之间的差值(公式8所示)。

其中，γ_t表示每个组件请求的第t种类型资源的售卖单价，χ_t表示物理节点中部署第t种类型资源的成本单价，φ和分别表示带宽资源的售卖单价和成本单价；/>是一个二进制变量，如果任务请求的第i^r个组件被放置在边缘云网络中第i^s个物理节点上时其值为1，否则其值等于0；/>是一个二进制变量，如果任务请求的第i^r个组件选择第t种类型资源时其值为1，否则其值等于0；/>是一个二进制变量，如果任务请求的第j^r条链路被放置在边缘云网络中第j^s条物理链路上时其值为1；否则其值等于0。

本发明的优化目标是最大化多类型任务请求的总收益TB，公式为：

max:TB (9)

约束条件有：

其中，公式(10)为节点一对一约束：多类型任务请求中的一个组件只能被放置在边缘云网络中的一个物理节点上；公式(11)为节点资源类型约束：多类型任务请求中的一个组件只能请求边缘云网络中物理节点上的一种类型资源；公式(12)为节点资源量约束：所有请求占用的第t种类型资源容量总和不超过边缘云网络中物理节点第t种类型资源容量的总量；公式(13)为链路方向约束：多类型任务请求中的一条链路只能选择边缘云网络中一个方向的物理链路；公式(14)为流守恒约束：边缘云网络中每个物理节点的流入流量等于流出流量；公式(15)为链路带宽容量约束：所有多类型请求占用边缘云网络中链路带宽总和不超过链路带宽的总量；公式(16)为丢包率约束：选择映射的边缘云网络中路径的丢包率小于等于多类型任务请求组件间链路可容忍的丢包率。

本方法的评价指标有总收益(公式8所示)、阻塞率(公式17所示)、平均节点资源利用率(公式18所示)和平均带宽资源利用率(公式19所示)：

公式(17)表示多类型请求的阻塞率，阻塞率越小，边缘云网络所承载的任务数量越多；公式(18)表示第t类资源边缘云网络的平均节点资源利用率，边缘云网络节点资源利用率越高说明边缘云网络的节点资源利用越充分；公式(19)表示平均带宽资源利用率，多类型任务请求中组件间链路映射到的边缘云网络路径越短，跳数越小，带宽占用率越小。

进一步，如图2所示，NL_L_DA_DRL方法的整体框架由环境模块、节点映射智能体模块和链路映射智能体模块构成，其中，环境模块包含边缘云网络模型模块和多类型任务请求模型模块。

节点映射智能体模块

节点映射智能体模块从下至上依次设有输入层一、卷积层一、Softmax层一、过滤层一和输出层一。

输入层一收集边缘云网络中每个物理节点有关第t种类型资源的特征矩阵公式(20)所示，然后将所有物理节点的特征矩阵组合成边缘云网络有关第t种类型资源的节点特征矩阵/>公式(21)所示，对/>使用离差标准化方法公式(21)所示进行归一化，得到归一化后的特征矩阵/>使/>中的值都介于0到1之间。

第i^s个物理节点有关第t种类型资源的特征矩阵为包含节点剩余资源量、节点中介中心性、节点特征向量中心性和节点连接中心性：

所有物理节点的有关第t种类型资源的特征矩阵为/>

离差标准化方法的公式为：

其中x表示原始列表，x'表示计算离差标准化后的列表，x_min表示原始列表中的最小值，x_max表示原始列表中的最大值。

卷积层一的作用是将归一化后的特征矩阵执行卷积运算，ω₁为卷积核权重向量，b₁为偏置项，ReLU函数为激活函数，卷积层一生成候选动作的可用资源向量/>(公式23所示)。ReLU函数，即分段线性函数，如果函数输入大于0，直接返回作为输入提供的值；如果输入是0或者更小值，返回0。

对归一化后的节点特征矩阵进行卷积操作：

Softmax层一将候选动作的可用资源向量转化成每个动作被选择的概率/>

过滤层一将所有不满足节点资源类型约束、节点资源量约束、节点一对一映射约束和流守恒约束的动作过滤掉，得到更新后的动作的可用资源向量和候选动作集合。

输出层一将过滤层过滤掉的动作对应的概率记为0，然后重新计算概率，得到新的概率分布

节点映射智能体模块的损失函数为：

链路映射智能体模块

同节点映射智能体模块类似，链路映射智能体模块从下至上依次设有输入层二、卷积层二、Softmax层二、过滤层二和输出层二。

链路映射智能体模块的输入层二收集边缘云网络中每条链路的特征矩阵(公式28所示)，然后将所有链路的特征矩阵构成边缘云网络的链路特征矩阵/>对/>使用离差标准化方法(公式22所示)进行归一化，得到归一化后的链路特征矩阵I_L，使I_L中的值都介于0到1之间。

第j^s个物理链路的特征矩阵包含链路的带宽剩余量、丢包率、中介中心性和剩余带宽均值差：

所有物理链路的特征矩阵为

链路映射智能体模块的卷积层二中ω₂为卷积核权重向量，b₂为偏置项，ReLU函数为激活函数，卷积层二生成候选动作的可用资源向量C_L：

Softmax层二将候选动作的可用资源向量C_L转化成每个动作被选择的概率

过滤层二将所有不满足链路方向约束、流守恒约束、带宽容量约束和丢包率约束的路径动作筛选出来，将其概率记为0，得到更新后所有动作的概率和动作集合。

输出层二将过滤层二得到的动作概率重新计算，得到新的概率分布P_L：

把链路映射的总收益作为链路映射智能体模块的奖励函数，公式为：

链路映射智能体模块的损失函数为：

/>

NF_L_DA_DRL算法的流程图如图1所示，此处采用PyCharm作为仿真软件，实现本方案并对其进行验证。

边缘云网络模型模块采用COST239网络拓扑图，如图3所示。边缘云网络模型模块包含11个节点，26条链路，节点服务资源类型有3种：Ⅰ，Ⅱ，Ⅲ，具体参数设置如表1所示。

表1边缘云网络参数设置

多类型任务请求模型模块随机生成，组件个数在2到6之间，链路数量在[|V^r|-1,|V^r|(V^r-1)/2]范围内生成。任务请求资源类型有3种：Ⅰ，Ⅱ，Ⅲ；同一个任务请求内，每个组件随机请求一种类型的资源，且各组件的请求类型各不相同，组件请求资源量的范围为(50，150]；请求链路带宽范围为(50，150]；请求链路容忍丢包率范围为[0.3，0.5]。

表2多类型任务请求参数设置

参数名称	数值范围
		节点数量	[2，6]
链路数量	[\|V^r\|-1,\|V^r\|(V^r-1)2]
		请求节点服务资源类型	[Ⅰ，Ⅱ，Ⅲ]
请求节点服务资源量	[50，150]
		请求链路带宽资源	[50，150]
请求链路容忍丢包率	[0.3，0.5]

本实例涉及到的对比方法包含：NF_L_SA_DRL、LF_L_SA_DRL和LF_L_DA_DRL方法。

NF_L_SA_DRL：采用先节点后链路的映射顺序，利用单个智能体完成节点映射和链路映射的动作选择。

LF_L_SA_DRL：采用节点链路交叉映射的映射顺序，每当一个节点映射完成后，需要映射该节点与所有已经映射的节点之间的直连链路，并且节点映射和链路映射采用同一个智能体实现。

LF_L_DA_DRL：与LF_L_SA_DRL类似，采用节点链路交叉映射的映射顺序，但是与LF_L_SA_DRL使用单智能体不同的是，LF_L_DA_DRL算法采用双智能体。

任务请求组件数设置为2-6个

图4-9为任务请求组件个数从2到6的实验结果图。从图4可以看出，NF_L_DA_DRL算法的总收益最高，在150个任务请求之前，四种算法的总收益相差不大，但是任务请求量达到210时，四种算法的总收益达到平稳状态，NF_L_DA_DRL算法的总收益接近120000，比NF_SA_DRL算法高约12.99％，比LF_L_DA_DRL算法高约22.44％，比LF_L_SA_DRL算法高约26.42％。

图5为任务阻塞率，在相同条件下，采用先节点后链路的映射顺序的NF_L_DA_DRL算法和NF_L_SA_DRL算法的阻塞率低于采用节点链路交叉映射的LF_L_DA_DRL算法和LF_L_SA_DRL算法，而在相同映射顺序下，应用双智能体的映射方法的阻塞率要低于应用单智能体的映射方法，在任务请求数量达到150时，NF_L_SA_DRL算法、LF_L_DA_DRL算法和LF_L_SA_DRL算法的阻塞率开始显著增加，任务数量达到300时，NF_L_DA_DRL算法的阻塞率最低，其边缘云网络所能承载的任务请求最多。

图6为平均链路带宽资源利用率，NF_L_DA_DRL算法的平均带宽资源利用率处于中间水平。理论上，平均带宽资源利用率越低，说明边缘云网络链路带宽的使用量越少，在物理节点服务资源充足的情况下，边缘云网络可以承载更多任务请求。由于在图5中NF_L_DA_DRL算法的阻塞率是最低的，其边缘云网络承载的任务请求数量是最多的，所以NF_L_DA_DRL算法映射时能够倾向于选择最优路径，因此NF_L_DA_DRL算法的带宽资源利用率介于对比算法中最高平均带宽资源利用率与最低平均带宽资源利用率之间，在阻塞率一定的情况下，带宽成本较小。

从图7-9的平均节点资源利用率来看，节点优先的两阶段映射顺序要优于节点链路交叉的映射顺序，而相同映射顺序下，应用双智能体卸载算法在平均节点资源利用率上均高于应用单智能体的卸载算法。因为相对于单智能体而言，双智能体能够分别提取网络节点属性和链路属性，在智能体学习过程中能够更加快速到达稳定状态。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于双智能体深度强化学习的多类型任务卸载方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于双智能体深度强化学习的多类型任务卸载方法，其特征在于：所述S2中，节点映射智能体模块输出节点特征矩阵中的所有节点被选中的概率，选择概率最大的物理节点进行映射，更新边缘云网络模型模块资源，具体为：

3.根据权利要求1所述的基于双智能体深度强化学习的多类型任务卸载方法，其特征在于：所述S5中，链路映射智能体模块输出链路特征矩阵中所有路径被选中的概率，选择概率最大的路径进行映射，更新边缘云网络模型模块资源，具体为：

4.基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：该系统包括环境模块、节点映射智能体模块和链路映射智能体模块，所述环境模块内并列设有边缘云网络模型模块和多任务请求模型模块；环境模块将收集的节点特征矩阵，输入节点映射智能体模块，节点映射智能体模块选择输出每个多类型任务请求中各个组件所对应的概率最大的节点进行映射，更新边缘云网络模型模块资源，节点映射智能体模块将多类型任务请求的所有组件映射完毕后，环境模块将收集的链路特征矩阵，输入链路映射智能体模块，链路映射智能体模块选择输出每个多类型任务请求链路所对应的概率最大的路径进行映射，更新边缘云网络模型模块资源，链路映射智能体模块将多类型任务请求的所有链路映射完毕后，环境模块计算节点映射智能体模块和链路映射智能体模块的奖励和损失函数，并更新节点映射智能体模块和链路映射智能体模块的参数。

5.根据权利要求4所述的基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：

所述的边缘云网络模型模块表述为：有向图G^s(V^s,E^s)表示边缘云网络；V^s表示边缘云网络中物理节点的集合；E^s表示边缘云网络中物理链路的集合；分别表示边缘云网络中第i^s个物理节点拥有的第t种类型资源的总量和剩余量，其中/>T表示一个物理节点能够提供的资源类型集合，有Ⅰ、Ⅱ、Ⅲ型资源，即T＝{Ⅰ，Ⅱ，Ⅲ}；/>和分别表示物理节点i^s的中介中心性、特征向量中心性和连接中心性；/>为物理节点i^s的邻居节点集合，/> 分别表示边缘云网络中第j^s个物理链路拥有的带宽资源总量、带宽资源剩余量，/>表示第j^s个物理链路的丢包率，其中/> 和/>分别表示物理链路j^s的中介中心性和剩余带宽均值差；/>表示从源物理节点a^s到目的物理节点b^s所经过的第k条物理路径，/>和/>分别表示路径/>的剩余带宽和丢包率，/>P^s(a^s,b^s)表示源物理节点a^s到目的物理节点b^s的无环路径集合，K＝|P^s(a^s,b^s)|，其中/>b^s∈V^s,a^s≠b^s；

公式(7)中，表示第k条路径/>的丢包率。

6.根据权利要求5所述的基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：所述多类型任务请求模型模块表述为：R表示所有多类型任务请求的集合；R_fail表示映射失败的多类型任务集合；G^r(V^r,E^r)表示一个多类型的任务请求，r∈R；V^r表示第r个多类型任务请求中组件的集合，E^r表示第r个多类型任务请求中组件之间链路的集合；表示第r个多类型任务请求中第i^r个组件请求的第t种类型资源的数量，其中和/>分别表示第r个多类型任务请求中第j^r条链路请求的带宽资源的数量和容忍的最大丢包率，其中/>

最大化多类型任务请求的总收益TB，公式为：

max:TB(9)

约束条件有：

7.根据权利要求6所述的基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：所述的节点映射智能体模块从下至上依次设有输入层一、卷积层一、Softmax层一、过滤层一和输出层一；

所有物理节点的有关第t种类型资源的特征矩阵为

离差标准化方法的公式为：

对归一化后的节点特征矩阵进行卷积操作：

所述Softmax层一将候选动作的可用资源向量转化成每个动作被选择的概率/>

8.根据权利要求7所述的基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：所述链路映射智能体模块从下至上依次设有输入层二、卷积层二、Softmax层二、过滤层二和输出层二；

第j^s个物理链路的特征矩阵包含链路的带宽剩余量/>丢包率/>中介中心性和剩余带宽均值差/>

所有物理链路的特征矩阵为

9.根据权利要求8所述的基于双智能体深度强化学习的多类型任务卸载系统，其特征在于：所述环境模块计算节点映射智能体模块和链路映射智能体模块的奖励和损失函数为：

节点映射智能体模块的损失函数为：

链路映射智能体模块的损失函数为：