CN117376355B

CN117376355B - 基于超图的b5g海量物联网资源分配方法及系统

Info

Publication number: CN117376355B
Application number: CN202311436044.4A
Authority: CN
Inventors: 杨凡; 杨成; 黄杰; 张仕龙; 喻涛; 赵梓杰; 丁睿杰
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Filing date: 2023-10-31
Publication date: 2024-07-09
Anticipated expiration: 2043-10-31

Abstract

本发明涉及B5G技术领域，具体公开了一种基于超图的B5G海量物联网资源分配方法及系统，提出了一种基于超图理论的网络冲突模型，量化整个B5G大规模网络的冲突程度。将具有顺序决策(MDP)特征的网络资源分配问题建模为马尔可夫决策过程，并提出了一种资源高效的协作强化学习解决方案。为了通过将计算负载分布在整个网络中来减少计算负载，并实现分布式协作人工智能，本发明提出了一种联邦平均优势行动者‑评论者(FedAvg‑A2C)算法，用于处理B5G大规模IoT场景中的无冲突网络资源分配问题，并加速学习过程的训练。仿真结果表明，所提出的方案在B5G大规模IoT网络中具有高网络吞吐量和资源效率。

Description

基于超图的B5G海量物联网资源分配方法及系统

技术领域

本发明涉及B5G技术领域，尤其涉及一种基于超图的B5G海量物联网资源分配方法及系统。

背景技术

B5G网络正在迅速扩展，连接数十亿台机器和物联网(IoT)设备，并有望支持各种前所未有的服务，包括智慧城市、智能工业、互联和自主系统、远程医疗等。新兴的应用场景对B5 G网络提出了各种新的要求，如高资源效率、超低延迟、高数据速率和高可靠性。由于终端设备(TD)的大规模密集连接，复用资源已经成为大规模IoT网络中的基本现象。但是网络的不断密集化导致了严重的资源冲突，从而导致大规模的网络冲突，这降低了网络吞吐量。而解决无线和有线通信网络中的网络资源有效性问题是一项具有挑战性的任务，因为底层优化问题是非凸组合。大规模物联网场景中的优化(CO)问题。最近，智能增强的大规模物联网将使用协作强化学习(CRL)来构建，这是一种分布式协作机器学习。由于多个代理同时学习和执行任务，CRL可以更好地处理NRM系统的大规模问题和复杂环境。例如，NRM利用数据分析和人工智能技术来分析大量数据并做出明智的决策，从而实现更好的资源管理决策，从而改善网络性能和用户体验。因此，人工智能辅助的物联网系统可能是一个有前途的解决方案，并提高B5G大规模物联网的资源效率。

物联网系统中的NRM有多种方法，其中主要包括基于优化的方法和启发式方法。然而，多用户NRM通常在理论上被建模为具有求解难特性的问题，这对于通过典型的优化方法来解决具有挑战性。Ghanem等人使用基于离散单调优化理论的分支定界方法来开发NRM问题的全局最优解，并使用凸规划的标准差分形式重新表述优化问题。虽然采用基于凸优化的方法可以解决NRM问题，原始问题必须转换为可解的问题。然而，转换后的问题的最优解通常不是原始问题的最优解，而处理转换后的问题需要大量的计算。现有的研究主要集中在资源管理的优化上，很少考虑大规模网络冲突的影响。物联网设备的密集部署使得大规模的网络冲突，这给大规模物联网网络中的资源管理带来了巨大的挑战。因此，如何采用分布式协作机器学习技术来避免大规模网络冲突，实现无冲突的网络资源管理是一个尚未解决的问题。

发明内容

本发明提供基于超图的B5G海量物联网资源分配方法及系统，解决的技术问题在于：如何采用分布式协作机器学习技术来避免大规模网络冲突，实现无冲突的网络资源管理。

为解决以上技术问题，本发明提供基于超图的B5G海量物联网资源分配方法，包括步骤：

S1、客户端建立其B5G物联网的网络冲突超图模型；

S2、基于所述网络冲突超图模型建立无冲突资源管理分配的基础问题模型；

S3、设计行动价值函数和状态值函数，将所述基础问题模型转化为马尔科夫决策模型；

S4、客户端使用协作强化学习网络对所述马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策。

进一步地，所述网络冲突超图模型表示为G_H＝{V_H,E_H}，其中V_H和E_H分别是G_H的顶点集和超边集，所述网络冲突超图模型的关联矩阵H表示为H∈R^|E|×|V|，|E|、|V|分别表示关联矩阵H的超边集和顶点集，H的元素h(v,e)取值如下：

H的元素h(v,e)取值如下：

v表示|V|中的任一元素，e表示|E|中的任一元素。

进一步地，所述基础问题模型表示为：

s.t.

i∈{1,2,…,N_TD}

其中，max表示最大化，λ₁,λ₂∈(0,1)表示不同的权重系数，表示第i个终端设备在时刻t时的传输速率，N_TD是终端设备的数量，表示时间t使用的资源块数；s.t.表示使成立，表示第i个终端设备在时刻t时的信号与干扰加噪声比，表示对第i个终端设备在时刻t的最小速率要求；表示网络冲突超图模型中节点的冲突度，当节点存在冲突，则反之则当属于相同超边缘的节点被分配相同的颜色或相同的节点被重复地分配不同的颜色，则认为该节点存在冲突。

进一步地，在所述步骤S3中，设计的行动价值函数、状态值函数分别表示为：

其中，s_t表示在时刻t时B5G海量物联网的状态，a_t表示在时刻t时采取的动作，表示在状态s中执行动作a之后的预期回报，表示状态s的预期回报，表示期望算子；s_t定义为其中表示时刻t时的所有终端设备的信号与干扰加噪声比的集合，ψ^t表示时刻t时的B5G海量物联网的冲突度的集合，表示时刻t时对所有终端设备最小速率要求的集合，k^t表示时刻t时为所有终端设备分配的网络资源的集合；

所述马尔科夫决策模型的目标函数相比所述基础问题模型，其目标函数变化为：

J(π)表示时刻t的累积折扣报酬，表示时刻t的累积折扣奖励。

进一步地，由下式计算：

其中，γ∈(0,1)是贴现因子，r_i+1是在时刻i+1采取的动作返回的奖励，时刻t采取的动作返回的奖励由下式计算：

其中，λ₃,λ₄,λ₅,λ₆∈(0,1)表示不同的权重系数，表示第i个终端设备的信号与干扰加噪声比，表示第i个终端设备的最小信号与干扰加噪声比。

进一步地，所述步骤S4中，在训练所述协作强化学习网络中，其参数更新包括步骤：

S41、从服务器获取全局模型最新参数的损失值J(w^t-1)和J(θ^t-1)，t表示当前时刻，t-1表示前一时刻，θ和w表示模型参数，参数w近似行动价值函数Q^π(s,a)，参数θ为网络更新的参数；

S42、客户端k通过计算历史经验的梯度和来更新其协作强化学习网络的模型参数θ和w。

进一步地，在步骤S42中，参数θ通过下式更新：

η是学习速率；

任一客户端在时刻t的模型参数θ损失值的梯度由下式计算：

其中，τ是一个轨迹，它表示从初始状态开始按照策略π采取一系列动作和观察一系列状态的过程，这里是时间0到T；π(a_t|s_t；θ)表示给定状态s_t和参数θ下采取动作a_t的概率；π(a|s_t；θ)表示给定状态s_t和参数θ下采取动作a的概率；表示是一个值函数，它表示在给定参数w下，从状态s_t和动作a_t开始，沿着轨迹τ获得的累积奖励的期望。

进一步地，在步骤S42中，参数w通过下式更新：

任一客户端在时刻t的模型参数w损失值的梯度由下式计算：

其中，π(a|s_t+1；θ)表示给定状态s_t+1和参数θ下采取动作a_t的概率，表示是一个值函数，它表示在给定参数w下，从状态s_t+1和动作a_t开始，沿着轨迹τ获得的累积奖励的期望。

进一步地，服务器的全局模型最新参数由所有客户端在本轮训练结束时的参数加权平均而得。

本发明还提供一种基于超图的B5G海量物联网资源分配系统，应用所述的基于超图的B5G海量物联网资源分配方法，其关键在于：该系统包括服务器和多个与所述服务器连接的客户端；

每个所述客户端用于建立其B5G物联网的网络冲突超图模型并基于所述网络冲突超图模型建立无冲突资源管理分配的基础问题模型，以及设计行动价值函数和状态值函数，将所述基础问题模型转化为马尔科夫决策模型，以及使用协作强化学习网络对所述马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策；

每个所述客户端还用于从所述服务器获取全局模型最新参数损失值，并根据全局模型最新参数损失值和历史经验的参数损失值更新本地模型参数并将历史经验的参数损失值发送到服务器，所述服务器用于将所有所述客户端的参数损失值进行加权平均，得到全局模型最新参数损失值广播至每个所述客户端用于下一次参数更新。

本发明提供的基于超图的B5G海量物联网资源分配方法及系统，提出了一种基于超图理论的网络冲突模型，用于量化整个B5G大规模网络的冲突程度。由于基于冲突超图的网络资源分配是一个NP-hard的组合优化问题，需要大量的计算来处理，本发明将具有顺序决策(MDP)特征的网络资源分配问题建模为马尔可夫决策过程，并提出了一种资源高效的协作强化学习解决方案。为了通过将计算负载分布在整个网络中来减少计算负载，并实现分布式协作人工智能，本发明提出了一种联邦平均优势行动者-评论者(FedAvg-A2C)算法，用于处理B5G大规模IoT场景中的无冲突网络资源分配问题，并加速学习过程的训练。仿真结果表明，所提出的方案在B5G大规模IoT网络中具有高网络吞吐量和资源效率。

附图说明

图1是本发明实施例提供的B5G海量物联网的架构图；

图2是本发明实施例提供的节点之间的通信链路的示例图；

图3是本发明实施例提供的节点之间直接冲突(a)和间接冲突(b)的示例图；

图4是本发明实施例提供的冲突图的示例图；

图5是本发明实施例提供的冲突超图的示例图；

图6是本发明实施例提供的基于FedAvg-A2C的网络服务管理算法在不同学习速率下的收敛图；

图7是本发明实施例提供的基于FedAvg-A2C的网络服务管理算法的收敛性与不同的折扣因子的关系图；

图8是本发明实施例提供的四种算法的最大网络吞吐量的直方图；

图9是本发明实施例提供的四种算法的平均网络吞吐量的直方图；

图10是本发明实施例提供的四种算法的最大网络资源效率的对比图；

图11是本发明实施例提供的四种算法的平均网络资源效率的对比图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

本发明实施例提供的基于超图的B5G海量物联网资源分配方法，包括步骤：

S1、客户端建立其B5G物联网的网络冲突超图模型；

S2、基于网络冲突超图模型建立无冲突资源管理分配的基础问题模型；

S3、设计行动价值函数和状态值函数，将基础问题模型转化为马尔科夫决策模型；

S4、客户端使用协作强化学习网络对马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策。

在本实施例中，在FedAvg-A2C(联邦平均优势行动者-评论者算法)中，因为客户端负责本地网络的训练并将相应的参数发送至服务器进行全局参数的计算然后再广播回各个客户端，如图1所示，如此可将计算负载分布在整个网络中来减少计算负载，并实现分布式协作人工智能，并加速学习过程的训练。

如图1所示，B5G海量物联网是去中心化的，所有交易和相关操作都记录在客户端。B5G大规模IoT包括设备集合和客户端集合L＝l₁,l₂,..,l_K，在该模型中，B5GIoT中的协作机器学习数据分配包括两个阶段：1)具有计算约束的终端设备(TD)将其数据发送到客户端以进行训练。2)客户端将训练数据上传到聚合全局模型服务器进行训练和集成。

对于B5G大规模物联网通信结构，由图G_T＝(V_T,E_T)记录，V_T＝{v_t1,v_t2,..,v_tn}是节点(时刻t时)的集合，并且E_T＝{e_t1,e_t2,..e_tm}是边的集合，其中e_tm＝{(v_ti,v_ti):v_ti,v_tj∈e_tm，对于某个e_tm∈E}，节点和边分别表示TD和TD之间的通信链路。节点之间的通信链路和关系可以用关联矩阵G_TI表示：

图2中给出了一个示例，其包括13个TD和16个通信链路(CL)，表示为TD 1～TD 13和CL1～CL16。为了在B5G海量物联网场景中促进网络资源管理以实现资源高效，TD之间的冲突情况分为直接冲突和间接冲突。直接冲突：两个TD对共享信道并且具有相同的TD，比如图3(a)。间接冲突：两个TD对共享一个信道，并且一个TD对的TD在另一个TD对的通信范围内，比如图3(b)。为了避免通信网络拓扑中的TD冲突，可以通过求解典型的边着色算法来解决直接冲突。然而，由于间接冲突问题偏离了典型边着色问题的核心本质，隐藏TD导致的间接冲突仍然不可避免。因此，有必要进一步分析TD之间CL通信链路的潜在冲突。

针对B5 G大规模物联网资源管理冲突问题，建立了冲突图模型G_C＝(V_C,E_C)，在模型中，V_C＝{e_t1,e_t2,...,e_tm}是节点的集合，E_C是边的集合。冲突图模型中的节点和边分别表示G_T中的CLs和节点之间的冲突关系。

节点之间的冲突关系可用邻接矩阵G_CA表示：

其中：

然后，遵循图3，冲突图可以如图4所示构造。为了便于理解，使用一个示例来说明冲突图上的构造：对于节点CL4和CL5，因为它们包含相同的TD2并使用相同的信道。对于节点CL5和CL15，如在TD2和TD9通信范围中，它们之间的边缘。为了清楚起见，对两种不同类型的冲突使用了不同的颜色。在图4中，节点表示CL，并且边表示CL之间的冲突关系。然而，冲突图的复杂性迅速增长，增加了避免冲突的难度。

为了降低避免资源冲突的难度，本发明基于团超图理论对冲突图进行了简化，如图5所示。团作为图中的一个全连通子图，可以用一个超边表示，然后快速地降低冲突图矩阵的维数。团定义为：冲突图中的子图，其中任意两个节点是连接的。最大团定义为：不是其他团的子图的团。该超图可以表示为G_H＝{V_H,E_H}其中V_H和E_H分别是顶点集和超边集。简单图是超图的一种特殊情况，其中一个超边只与两个顶点相关联。超图可根据h(v,e)的元素的值用关联矩阵H表示为：H∈R^|E|×|V|，其中|E|表示H的超边集，|V|表示H的顶点集，R表示实数。

H的元素h(v,e)取值如下：

v表示|V|中的任一元素，e表示|E|中的任一元素。

根据最大团的定义，冲突图中的最大团如表1所示。团中的节点彼此连接，这可以通过图2中的节点之间的冲突关系来验证图5。

表1

根据超图和团的理论，其中所有节点都是相互连接的，因此任何团都可以形成一个超边，并且由于团中任何节点都相互冲突的特征，因此可以包含有保证的冲突信息而不会丢失。最大团可以包含更多节点(即，超边缘包含多个节点)。获得的所有最大团将冲突图转化为冲突超图，在保证冲突节点间关系不变的情况下，简化了矩阵，降低了冲突避免的难度。冲突超图中的冲突避免问题实质上是超图的节点着色问题。

在本发明中，用公式表示CO问题(即超图的节点着色)，用于B5G大规模IoT场景中的网络资源高效管理。为了避免资源分配冲突，本例定义了节点的冲突度，表示为其包括超图的节点着色中的两类冲突：1)属于相同超边缘的节点被分配相同的颜色。2)相同的节点被重复地分配不同的颜色。如果则资源分配是无冲突的。反之，若则表示节点存在冲突。此外，第i个TD在时刻t处的信号与干扰加噪声比其被定义为：

其中P_i和P_j分别表示第i个TD和第j个TD的传输功率。h_i是对应于第i个TD的信道的功率增益，σ²是噪声功率，h_j是来自第j个TD的冲突功率增益。N_TD是当前客户端下所有TD的数量。N_i表示第i个TD的冲突ID集合。因此，在时刻t的第i个TD的传输速率可以表示为：

其中B是带宽。CO问题可以表述为长期总的无冲突资源效率最大化问题，描述如下：

其中，max表示最大化，λ₁,λ₂∈(0,1)表示不同的权重系数，表示第i个终端设备在时刻t时的传输速率，N_TD是终端设备的数量，表示时间t使用的资源块数；i∈{1,2,…,N_TD}，s.t.表示使成立，表示对第i个终端设备在时刻t的最小速率要求。

为了解决式(8)中复杂的CO优化问题，本实施例提出了B5G大规模IoT中基于CRL的方法，以实现长期的资源高效。因此，应该仔细定义无冲突资源管理MDP(马尔科夫决策)问题，以便在B5G大规模物联网中实现。

通过设计合理的奖励，可以将优化问题建模为MDP问题，其中奖励函数设计与优化目标和约束有关。因此，奖励应涉及吞吐量、资源高效、冲突和SINR要求。通常，基于RL的网络资源管理问题可以被认为是通过在一系列时间内顺序地向所有节点分配资源来学习B5G大规模IoT环境中的资源管理动作。因此，B5G大规模物联网网络的资源管理被建模为MDP问题，该问题具有马尔可夫特性，可以访问决策所需的所有相关信息。在MDP中，代理将从时刻t奖励的累积折扣奖励最大化作为RL优化目标，时刻t奖励的累积折扣奖励表示为：

其中，γ∈(0,1)是折扣因子，r_i+1是在时刻i+1采取的动作返回的奖励。R_t和分别是在时间t的奖励和累积折扣奖励。

在B5G大规模物联网系统中，RL代理(即客户端)的优化目标是在保证网络无冲突约束的前提下，提高资源效率和网络吞吐量。进一步地，通过RL代理获得最优网络资源管理策略π*，其优化目标是最大化累积折扣报酬其中表示期望算子。B5G大规模物联网无冲突网络资源管理MDP问题可以表述为：

最大化累积折扣报酬的MDP问题的求解依赖于行动价值函数和状态值函数s_t表示在时刻t时B5G海量物联网的状态，a_t表示在时刻t时采取的动作，表示在状态s中执行动作a之后的预期回报，表示状态s的预期回报。为了得到最优策略π，使得V^π(s)和Q^π(s,a)最大化，对于给定的任何状态，选择相应的最优行动是其中表示最优策略π的指导的行动价值函数。

B5G大规模IoT网络状态由RL代理在时刻t观察到的以下参数形成：

时刻t时的所有终端设备的信号与干扰加噪声比的集合；

ψ^t：时刻t时的B5G海量物联网的冲突度的集合；

时刻t时对所有终端设备最小速率要求的集合；

H：网络冲突超图模型的关联矩阵；

k^t：时刻t时为所有终端设备分配的网络资源的集合。

在时刻t，系统状态s_t是定义为s_t∈S的向量，其中S表示状态空间，并且s_t定义如下：

B5G大规模IoT环境通过在RL中采取动作从状态s_t转换到状态s_t+1。

在每个时刻t，RL代理在处采取动作，表示动作空间或动作集合，该动作包括通过遵循策略π来选择网络资源因此，当存在用于NRM系统的N_res个资源块时，动作空间的维度是N_res。

为了最大化网络吞吐量和网络资源效率，同时避免冲突并满足最小化SINR的要求，是式(8)中的隐含优化目标。根据式(8)，奖励函数主要由四部分组成，如下：网络吞吐量、资源效率、SINR的要求以及无冲突。因此，当代理最大化的累积折扣奖励，长期的网络吞吐量和资源效率的最大化是通过满足约束的资源分配。网络无冲突的条件表示为一个惩罚，如果RL代理采取网络资源分配行动产生网络冲突。因此，B5G大规模IoT环境将根据代理在时刻t采取的动作返回奖励r_t，其被定义为：

λ₃,λ₄,λ₅,λ₆∈(0,1)表示不同的权重系数，表示第i个终端设备SINR的值，表示第i个终端设备SINR的最小值。

定义值函数以量化B5G海量IoT网络资源管理策略π下的预期回报。RL估计函数包括状态值函数和动作值函数。状态值函数V^π(s)表示状态s的预期回报，而动作值函数Q^π(s,a)表示在状态s中执行动作a之后的预期回报。两种值函数的具体定义如下：

为了简单起见，s和a分别是在时刻t的当前系统状态和动作。而s′是时间t的下一个系统状态。

在FedAvg-A2C(联邦平均优势行动者-评论者算法)中，行动者是一个策略网络，它以状态为输入，输出近似策略模型π(a)的动作s，旨在通过基于由行动者提供的值函数更新其参数来最大化期望的累积奖励。RL代理尝试优化策略π(a|s；θ)，其给出了每个状态的动作的概率分布，以在无冲突约束下获得最大的资源效率。要更新策略π(a|s；θ)，采用DRL的策略梯度法，目标是最大化后续的期望长期贴现报酬。基于策略的优化范围是从期望角度最大化累积折扣奖励，其可以写为：

其中是有限步长折扣预期奖励，τ是采样轨迹。基于策略的优化方法将根据上述目标函数通过基于梯度的方法对策略进行优化(即，使用对累积折扣报酬的梯度估计进行梯度学习，这将获得最优策略并最终使累积折扣报酬最大化)。假设梯度策略π(a|s；θ)在参数θ(θ定义为网络更新的参数)中可微。因此，参数θ的梯度可以表示如下：

可以通过比较平均值和估计值来测量在时刻t对状态s_t采取行动的优势。优势函数由下式给出：

其可以指导RL代理理解如何更新网络参数。具体来说，优势函数评估参与者的策略动作的优点或缺点。为了最小化J_π(θ)，策略参数θ在梯度下降方向上更新，其由下式给出：

η是学习速率。

结合式(16)和(17)，参数θ的梯度可以用式(19)近似：

评论者可以提供动作价值函数来测量资源管理策略网络的损失。Q值由深度神经网络(DNN)估计，即用参数w近似动作值函数Q^π(s,a)，可定义为参数w的更新由下式给出：

针对B5G海量物联网的海量数据，本发明提出了FedAvg-A2 C方法更新价值网络和估计网络的参数。在所考虑的B5G大规模物联网中，全局A2C网络由FedAvg-A2C服务器维护，并且所有RL代理获得FedAvg-A2C服务器的全局模型以构成本地A2C网络。在全局模型训练过程的每一轮中，每个RL代理通过从本地重放器缓冲器D随机采样小批量数据B来更新其自己的本地A2C模型。第k个RL代理的本地更新分别最小化上述策略网络和值网络损失函数和它从重放缓冲器D_k中随机选择小批量样本B_k。然后，FedAvg-A2C全局网络是在一轮结束时的参数的加权平均值，其中包含在这一轮学习过程中涉及的局部A2C。在时刻t，FedAvg-A2C全局策略网络和价值网络损失函数的最小化可以表示为：

其中是第k^th个RL代理的权重。RL代理充当在时刻t处的模型聚合器，如下所示：

其中的global表示全局，local表示本地。

每个RL代理首先从服务器获取全局模型的最新参数J(w^t-1)和J(θ^t-1)。然后，RL代理通过计算历史经验的梯度和来更新其局部模型。在本地训练之后，RL代理将和发送到服务器。并且服务器将全局模型参数广播到所有RL代理。算法1总结了训练过程。

FedAvg-A2C的计算复杂度考虑了A2C代理处的本地模型训练和服务器处的本地模型聚合。由于单个A2C网络模型使用来自其自身本地缓冲器的随机样本进行训练，因此RL本地更新的复杂度为这取决于值网络复杂度T_value、策略网络复杂度T_policy和本地训练数N_lr。模型聚合的复杂度是O(K)，因为它随着代理的数量K线性增长。FedAvg-A2C算法的总复杂度为因此，RL代理的数量越多，FedAvg-A2C算法的训练速度就越快。

本实施例还提供一种基于超图的B5G海量物联网资源分配系统，包括服务器和多个与服务器连接的客户端。与方法对应地，每个客户端用于建立其B5G物联网的网络冲突超图模型并基于网络冲突超图模型建立无冲突资源管理分配的基础问题模型，以及设计行动价值函数和状态值函数，将基础问题模型转化为马尔科夫决策模型，以及使用协作强化学习网络对马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策；

每个客户端还用于从服务器获取全局模型最新参数损失值，并根据全局模型最新参数损失值和历史经验的参数损失值更新本地模型参数并将历史经验的参数损失值发送到服务器，服务器用于将所有客户端的参数损失值进行加权平均，得到全局模型最新参数损失值广播至每个客户端用于下一次参数更新。

从理论上讲，本发明实施例提供的基于超图的B5G海量物联网资源分配方法及系统，提出了一种基于超图理论的网络冲突模型，用于量化整个B5G大规模网络的冲突程度。由于基于冲突超图的网络资源分配是一个NP-hard的组合优化问题，需要大量的计算来处理，本发明将具有顺序决策(MDP)特征的网络资源分配问题建模为马尔可夫决策过程，并提出了一种资源高效的协作强化学习解决方案。为了通过将计算负载分布在整个网络中来减少计算负载，并实现分布式协作人工智能，本发明提出了一种联邦平均优势行动者-评论者(FedAvg-A2C)算法，用于处理B5G大规模IoT场景中的无冲突网络资源分配问题，并加速学习过程的训练。

下面进行实验模拟，来验证所提出的方案的有效性。

本次实验在一台DELL服务器上运行模拟，该服务器配备了一个运行频率为3.1GHz的Gold 6242R CPU和64GB的RAM以及两个GPU(NVTDIA GeForce RTX3080Ti)，运行Ubuntu 18.04LTS操作系统，使用Python 3.9.13环境，Pytorch 2.0.0。FedAvg-A2C算法是用Pytroch实现的。所提出的FedAvg-A2C的超参数如表2所示。

表2

为了验证所提出算法的效率，本例还模拟了以下方法进行性能比较，例如基于PPO的网络资源分配(比较算法1，基于AC算法框架)，基于D3QN的网络资源分配(比较算法2)，随机网络资源分配(比较算法3)。

图6示出了基于FedAvg-A2C的网络服务管理算法在不同学习速率下的收敛。并且TD的数量设置为20。水平轴和垂直轴分别表示训练迭代的次数和接收到的奖励的量。随着学习率的增加，所提出的方法的收敛性增加，而收敛性增强。图6呈现了当η＝0.001时，FedAvg-A2C模型具有更好的奖励。因此，本例选取学习率η＝0.001作为后续实验的参数。

不同折扣因子的收敛性如图7所示。当γ＝0.95时，累积奖励高于其他情况。因此，学习率η设为0.001，折扣因子γ设为0.95。

图8着重比较了FedAvg-A2C算法与三种对比算法在不同网络节点数下的最大网络吞吐量，突出显示了FedAvg-A2C算法的优势。随着网络节点数的增加，导致通信系统内部网络资源冲突加剧，四种算法的最大网络吞吐量都呈现出整体上升的趋势。值得注意的是，FedAvg-A2C算法优于对比算法1、对比算法2和对比算法3，表现出显著更高的网络吞吐量。图8的结果为FedAvg-A2C算法有效提高网络吞吐量和提升系统能力上限的卓越能力提供了有力的证据。

图9明显强调了本例提出的算法与三种对比算法在不同网络节点数下的平均网络吞吐量的比较。随着网络节点数的增加，四种算法的网络吞吐量都呈现出显著的上升趋势。重要的是，本例提出的算法明显优于对比算法1、对比算法2和对比算法3，清楚地突出了它在提高平均网络吞吐量方面的卓越效果。图9所呈现的有力证据有效地验证了FedAvg-A2C算法在显著提高系统性能方面的非凡能力。

图10展示了本例提出的算法与三种对比算法在不同网络节点数下的最大资源效率的比较。从图10可以看出，TDs的数量增加导致网络资源效率下降。本例提出的方法具有更好的性能，可以有效地提高系统的最大网络资源效率。

图11展示了本例提出的算法与三种对比算法在不同网络节点数下的平均资源效率的比较。TDs数量的增加会降低系统稳定性，导致图11中平均网络资源效率下降。本例提出的方法具有更好的性能，可以有效地提高系统的平均网络资源效率。

上述仿真实验验证了FedAvg-A2C算法的有效性，并与其他比较算法进行了比较，验证了FedAvg-A2C算法的优越性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于超图的B5G海量物联网资源分配方法，其特征在于，包括步骤：

S1、客户端建立其B5G海量物联网的网络冲突超图模型；

S3、设计行动价值函数和状态值函数，将所述基础问题模型转化为马尔科夫决策模型；在所述步骤S3中，设计的行动价值函数、状态值函数分别表示为：

其中，s_t表示在时刻t时B5G海量物联网的状态，a_t表示在时刻t时采取的动作，表示在状态s中执行动作a之后的预期回报，表示状态s的预期回报，表示期望算子；s_t定义为其中表示时刻t时的所有终端设备的信号与干扰加噪声比的集合，ψ^t表示时刻t时的B5G海量物联网的冲突度的集合，表示时刻t时对所有终端设备最小速率要求的集合，H表示所述网络冲突超图模型的关联矩阵，k^t表示时刻t时为所有终端设备分配的网络资源的集合；

J(π)表示时刻t的累积折扣报酬，表示时刻t的累积折扣奖励；

S4、客户端使用协作强化学习网络对所述马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策；所述步骤S4中，在训练所述协作强化学习网络中，其参数更新包括步骤：

S41、从服务器获取全局模型最新参数w^t-1和θ^t-1，t表示当前时刻，t-1表示前一时刻，w和θ分别表示全局模型的协作强化学习网络的价值参数和策略参数；所述服务器的全局模型最新参数由所有客户端在本轮训练结束时的参数加权平均而得，服务器得到全局模型最新参数广播至每个所述客户端用于下一次参数更新；

S42、客户端k通过计算损失值和的梯度和来更新自身的协作强化学习网络在t时刻的价值参数和策略参数并发送给全局模型进行聚合，分别表示客户端k在t-1时刻的价值参数和策略参数，表示与相关的损失函数。

2.根据权利要求1所述的基于超图的B5G海量物联网资源分配方法，其特征在于：所述网络冲突超图模型表示为G_H＝{V_H,E_H}，其中V_H和E_H分别是G_H的顶点集和超边集，所述网络冲突超图模型的关联矩阵H表示为H∈R^|E|×|V|，|E|、|V|分别表示关联矩阵H的超边集和顶点集，H的元素h(v,e)取值如下：

v表示|V|中的任一元素，e表示|E|中的任一元素。

3.根据权利要求2所述的基于超图的B5G海量物联网资源分配方法，其特征在于，所述基础问题模型表示为：

s.t.

i∈{1,2,…,N_TD}

4.根据权利要求3所述的基于超图的B5G海量物联网资源分配方法，其特征在于，由下式计算：

5.根据权利要求1所述的基于超图的B5G海量物联网资源分配方法，其特征在于，在步骤S42中，参数通过下式更新：

η是学习速率；

任一客户端在时刻t的模型参数θ损失值的梯度由下式计算：

其中，τ是一个轨迹，它表示从初始状态开始按照策略π采取一系列动作和观察一系列状态的过程，这里是时间0到T；π(a_t|s_t；θ)表示给定状态s_t和参数θ下采取动作a_t的概率；π(a|s_t；θ)表示给定状态s_t和参数θ下采取动作a的概率；表示是一个值函数，它表示在给定参数w下，从状态s_t和动作a开始，沿着轨迹τ获得的累积奖励的期望；表示动作空间。

6.根据权利要求5所述的基于超图的B5G海量物联网资源分配方法，其特征在于，在步骤S42中，参数通过下式更新：

任一客户端在时刻t的模型参数w损失值的梯度由下式计算：

其中，π(a|s_t+1；θ)表示给定状态s_t+1和参数θ下采取动作a的概率，表示是一个值函数，它表示在给定参数w下，从状态s_t+1和动作a开始，沿着轨迹τ获得的累积奖励的期望。

7.基于超图的B5G海量物联网资源分配系统，应用权利要求1～6任一项所述的基于超图的B5G海量物联网资源分配方法，其特征在于：该系统包括服务器和多个与所述服务器连接的客户端；

每个所述客户端用于建立其B5G海量物联网的网络冲突超图模型并基于所述网络冲突超图模型建立无冲突资源管理分配的基础问题模型，以及设计行动价值函数和状态值函数，将所述基础问题模型转化为马尔科夫决策模型，以及使用协作强化学习网络对所述马尔科夫决策模型进行求解，获得在每一时刻无冲突的资源分配决策；

每个所述客户端还用于从所述服务器获取全局模型最新参数损失值，并根据全局模型最新参数损失值和历史经验的参数损失值更新本地模型参数并将历史经验的参数损失值发送到服务器，所述服务器用于将所有所述客户端的参数损失值进行加权平均，得到全局模型最新参数广播至每个所述客户端用于下一次参数更新。