CN115696581A

CN115696581A - 基于约束强化学习的无线网络资源分配方法

Info

Publication number: CN115696581A
Application number: CN202211052231.8A
Authority: CN
Inventors: 祁琦; 邓超平; 林国栋; 唐志军; 陈锦山; 林文彬; 孙鑫; 余斯航; 李兆祥; 刘龙辉
Original assignee: Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-02-03

Abstract

本发明涉及一种基于约束强化学习的无线网络资源分配方法，包括以下步骤：步骤S1:将5G无线网络系统分为增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片三个网络切片；步骤S2:基于增广拉格朗日的方法，将5G无线网络系统优化问题转化为增广拉格朗日的问题；步骤S3:结合增广拉格朗日与SAC算法，构建基于增广拉格朗日强化学习的资源分配的算法模型，并求解增广拉格朗日的问题，得到最优的分配方案。本发明实现在有限带宽资源下最大化吞吐量。

Description

基于约束强化学习的无线网络资源分配方法

技术领域

本发明涉及无线通信领域和计算机技术领域，具体涉及一种基于约束强化学习的无线网络资源分配方法。

背景技术

随着工业物联网(IIoT)和5G的发展，越来越多的设备连接到网络中，这些设备会在短时间内产生海量数据。当前，国际电信联盟(ITU)制定了5G的三大应用场景：增强移动带宽(enhanced Mobile Broadband，eMBB)、高可靠低延时通信(Ultra-Reliable LowLatency Communications，URLLC)、海量机器类通信(massive Machine TypeCommunication，mMTC)。不同的应用场景有不同的网络性能要求，使用网络切片来解决不同场景下的数据是提高网络利用率的一大发展方向。网络切片是利用软件定义网络和网络功能虚拟化技术将单个物理网络划分为多个独立的逻辑(虚拟)网络的过程。切片之间是相互隔离的，只需要一张网络就可以针对不同的场景提供相应的网络切片。在电力行业中，智能电网在发电、输电、变电、配电以及用电的过程中，需要用到各类设备，需要使用网络切片来提高网络性能。

发明内容

有鉴于此，本发明的目的在于提供一种基于约束强化学习的无线网络资源分配方法，不仅对分配的带宽进行了约束，又满足最大的吞吐量。

为实现上述目的，本发明采用如下技术方案：

一种基于约束强化学习的无线网络资源分配方法，包括以下步骤：

步骤S1:将5G无线网络系统分为增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片三个网络切片；

步骤S2:基于增广拉格朗日的方法，将5G无线网络系统优化问题转化为增广拉格朗日的问题；

步骤S3:结合增广拉格朗日与SAC算法，构建基于增广拉格朗日SAC算法模型，并求解增广拉格朗日的问题，得到最优的分配方案。

进一步的，所述步骤S1具体为：设5G无线网络系统中每种类型的设备都被分配到一个指定的切片中；

其中增强移动宽带切片中的设备需要一个具有超高吞吐量的网络，并用集合

表示；海量机器类通信切片中的设备需要一个具有大规模终端的网络，用集合

表示；而超可靠低时延通信切片中的设备需要一个具有超低延迟的网络，用集合

表示；

然后，用

和

表示设备集合和基站集合；对于不同类型的设备，每个基站保留一定的带宽，在第m个基站中可用的带宽用B_m表示，用b_um表示分配给第u个设备的带宽，

考虑到与第u个设备相关的第m个BS，用P_u表示发射功率，用h_um表示连接到第m个基站的设备的信道多路径效应引起的功率增益。进一步的，所述5G无线网络系统中设备的速率要求如下：

1)在增强移动宽带切片下的设备

这些设备的速率要求表示为

其中R₀表示集合

中设备的最低速率要求；

2)在海量机器类通信切片下的设备

连接到

中设备的基站至少会分配一个固定的带宽B₀给设备，公式表示为

3)在高可靠低延时通信切片下的设备

设备的速率要求表示为

其中L表示设备在

中发送单个数据包的长度，T₀表示发送给集合

中设备单个数据包允许的最大传输延迟。

进一步的，所述步骤S2具体为：

使用二进制向量x_um来表示用户的归属，给定设备连接到基站的最小功率P₀要求，以及第m个基站的发射功率为P_m，当基站和设备之间的距离d_um大于某个值，基站和用户不能立即连接，即x_um＝0，这时

当距离d_um小于一定值时，即当

的时候，基站和设备可以被连接；

第u个设备的情况表示为：

由第m个基站分配的总带宽计算为：

将每一类设备的总速率表示为Log(rate)，对于集合

中的第u个用户，速率计算为：

为了衡量整个系统中设备之间的比例公平性，我们将每一类设备的总速率表示为"对数(速率)"。而且，由于三个网络切片的速率要求不同，还采用了加权效用函数来平衡它们对总体效用的贡献。因此，设目标优化公式表示为：

其中w_u分别代表不同切片的权重；

分别代表不同网络切片中设备的集合；R₀表示集合

中设备的最低速率要求；B₀表示分配给集合

中设备的最小带宽；T₀表示发送给集合

中设备单个数据包允许的最大传输延迟。

结合拉格朗日乘数向量λ＝{λ₁,…,λ_M}和惩罚项μ，构建问题增强拉格朗日的无约束的优化问题为

其中

进一步的，所述5G无线网络系统中将基站和其相关设备之间的功率增益作为状态，其次基站所分配的带宽和基站和设备的连接情况作为动作，最后基于以上的优化目标，奖励函数设置为

进一步的，所述基于增广拉格朗日SAC算法包括值网络、Q网络和策略网络，三种网络的参数分别设置为φ,ψ,θ，并增加了若干Q网络用来更新拉格朗日乘子向量λ和惩罚项μ，然后用于更新策略网络，最后在满足带宽约束的情况下达到最大的吞吐量，具体如下：

(1)初始化所有网络的参数，以及拉格朗日乘子向量λ和惩罚项μ；

(2)对于每个episode；

a)观察环境，将状态输入策略网络；

b)策略网络选择动作，并执行；

c)计算奖励，以及分配的总带宽；

d)更新经验回放库；

(3)对于每一次梯度下降的步骤；

a)从经验回放库中随机选择若干样本；

b)更新参数φ,ψ,θ,λ；

c)更新目标值网络参数；

d)带宽约束若不满足，则需要增大；

(4)循环(2)-(3)至满足预设要求。

本发明与现有技术相比具有以下有益效果：

本发明在网络切片系统中，设计了混合动作空间、状态空间以及奖励函数，并将增广拉格朗日与SAC算法相结合，实现对分配的带宽进行了约束，又满足最大的吞吐量。

附图说明

图1是本发明实施例中网络切片系统模型结构示意图；

图2是本发明实施例中所提出的ALM-SAC算法的示意图；

图3是本发明实施例中所提出算法不同带宽约束下的奖励性能对比图；

图4是本发明实施例中所提出算法在不同带宽约束下的约束情况图；

图5是本发明实例中的所提出算法与基准算法的性能对比图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于约束强化学习的无线网络资源分配方法，其特征在于，包括以下步骤：

步骤S1:将5G无线网络系统的设备分为三种典型的网络切片：增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片；

在本实施中，5G无线网络系统包含用于摄像头、VR、无人驾驶、智能电表和智能分布式配电自动化等设备。

在网络切片系统中，我们假设每种类型的设备都被分配到一个指定的切片中，其中增强移动宽带切片中的设备需要一个具有超高吞吐量的网络，并用集合

表示；海量机器类通信切片部分的设备需要一个具有大规模终端的网络，用集合

表示；而超可靠低时延通信切片部分的设备需要一个具有超低延迟的网络，用集合

表示。然后，我们用

和

表示设备集合和基站集合。在这项工作中，对于不同类型的设备，每个基站保留一定的带宽，在第m个基站中可用的带宽用B_m表示，分配给第u设备的带宽用b_um表示，

考虑到与第u个设备相关的第m个BS，用P_u表示发射功率，用h_um表示连接到第m个基站的设备的信道多路径效应引起的功率增益。因此，对于上述不同的网络切片，三个设备的速率要求如下

1)在增强移动宽带切片下的设备

在这些切片中，这些设备需要远程传输实时高清视频内容，这对网络的速率要求相对较高。因此，这些设备的速率要求可以表示为

其中R₀表示集合

中设备的最低速率要求。

2)在海量机器类通信切片下的设备

在这些切片中，这些设备对速率和延迟没有严格的要求，为了保证

中的设备能够正常通信，连接到

3)在超可靠低时延通信切片下的设备

在这些切片中，这些设备需要实现对配电网的监测、控制和快速故障隔离，因此对延迟的要求比较高，设备的速率要求可以表示为

其中L表示设备在

中发送单个数据包的长度，T₀表示设备

发送单个数据包可允许的最大传输延迟。

步骤S2:为实现在有限带宽资源下最大化吞吐量，制定优化目标。然后，将原优化问题转化为增广拉格朗日的问题。针对以上的网络切片系统，定义整个系统的状态空间和混合动作空间，以及基于优化目标设计的奖励函数；

在本实施例中，使用二进制向量x_um来表示用户的归属。给定设备连接到基站的最小功率P₀要求，以及第m个基站的发射功率为P_m，当基站和设备之间的距离d_um大于某个值，基站和用户不能立即连接，即x_um＝0，这时

当距离d_um小于一定值时，即当

的时候，基站和设备可以被连接。由于设备一次只能与一个基站连接，上述第u个设备的情况可以表示为：

此外，由第m个基站分配的总带宽可以计算为

其中

表示为第m个基站所可以服务的设备集合；。

为了衡量整个系统中设备之间的比例公平性，将每一类设备的总速率表示为"Log(rate)"。对于集合

中的第u个用户，速率可以计算为

在本实施例中，目标是在满足三类设备的网络要求的同时，使总速率最大化。由于每种类型的设备对网络有不同的要求，为不同类型的设备的速率添加相应的权重，以进一步确保公平性。另外，为了衡量整个系统中设备之间的比例公平性，我们将每一类设备的总速率表示为"对数(速率)"。优化公式表示为

结合拉格朗日乘数向量λ＝{λ₁,…,λ_M}和惩罚项的参数项μ，我们构建问题增强拉格朗日的无约束的优化问题为

其中

针对网络切片系统，将基站和其相关设备之间的功率增益作为状态，其次基站所分配的带宽和基站和设备的连接情况作为动作，最后基于以上的优化目标，奖励函数设置为

步骤S3：结合增广拉格朗日与SAC算法，构建基于增广拉格朗日SAC算法模型，并求解增广拉格朗日的问题，得到最优的分配方案。

在本实施例中，参考图2，提供一种基于增广拉格朗日SAC算法，考虑三种网络：

1)值网络，用于输出状态的价值；

2)Q网络，用于动作状态对价值的估计；

3)策略网络，用于输出动作概率分布。

这三种网络的参数分别设置为φ,ψ,θ。为了约束带宽，我们额外增加了多个Q网络用来更新λ,μ参数，然后用于更新策略网络，最后在满足带宽约束的情况下达到最大的吞吐量。以上提出的基于增广拉格朗日SAC算法具体流程如下：

1)初始化所有网络的参数，以及拉格朗日乘子向量λ和惩罚项μ；

2)对于每一次迭代；

3)对于每个episode；

a)观察环境，将状态输入策略网络；

b)策略网络选择动作，并执行；

c)计算奖励，以及分配的总带宽；

d)更新经验回放库；

4)对于每一次梯度下降的步骤；

a)从经验回放库中随机选择一堆样本；

b)更新参数φ,ψ,θ,λ；

c)更新目标值网络参数；

d)带宽约束若不满足，则需要增大μ；

5)结束。

参考图2，优选的，LM-SAC算法的架构包括参数为φ的软状态值网络V_φ、参数为ψ_R的软Q值网络

以及参数为θ的策略网络π_θ。为了估计分配的带宽，我们还开发了多个软Q值网络

参数为

在s的状态下，网络切片系统会根据策略网络选择行动。在采取了a的行动后，每个基站中的奖励和约束可以分别计算，然后得到下个状态，最后将这些存于经验回放库中，用于后面的更新迭代。

参考图3，在本实施例中，分别绘制了在BSs中可用的最大带宽10、12.5、15MHz下的奖励。从图中可以看出，带宽为15MHz的ALM-SAC由于有更多的带宽资源，可以获得更多的吞吐量，从而获得更多的奖励。此外，动作空间的大小与可用于分配的带宽有关，因此ALM-SAC算法在带宽为15MHz时的稳定性会降低。

如图4所示，是本发明实例中的算法在不同层数下的帕累托前沿对比图。

显示了在基站中可用的最大带宽10、12.5、15MHz下的带宽约束。可以清楚地看到，所提出的ALM-SAC在100步数后可以满足带宽要求。这也表明，所提出的算法可以为约束性RL问题提供有效的解决方案。

在本实施例中，如图5所示，是不同算法的奖励性能和约束情况对比图。

将所提出的ALM-SAC算法与DDPG算法以及Random算法进行比较。从图中可以看出，由于ALM-SAC算法在处理离散和连续行动空间方面有很强的能力，所以它的性能明显优于DDPG算法和Random。总的来说，所提出的ALM-SAC算法不仅可以满足有限的带宽，还可以更好的找到合理的带宽分配策略。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于约束强化学习的无线网络资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法，其特征在于，所述步骤S1具体为：设5G无线网络系统中每种类型的设备都被分配到一个指定的切片中；

表示；

然后，用

和

考虑到与第u个设备相关的第m个BS，用P_u表示发射功率，用h_um表示连接到第m个基站的设备的信道多路径效应引起的功率增益。

3.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法，其特征在于，所述5G无线网络系统中设备的速率要求如下：

1)在增强移动宽带切片下的设备

这些设备的速率要求表示为

其中R₀表示集合

中设备的最低速率要求；

2)在海量机器类通信切片下的设备

连接到

3)在高可靠低延时通信切片下的设备

设备的速率要求表示为

其中L表示设备在

中发送单个数据包的长度，T₀表示发送给集合

中设备单个数据包允许的最大传输延迟。

4.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法，其特征在于，所述步骤S2具体为：

当距离d_um小于一定值时，即当

的时候，基站和设备可以被连接；

第u个设备的情况表示为：

由第m个基站分配的总带宽计算为：

其中

表示为第m个基站所可以服务的设备集合；

将每一类设备的总速率表示为Log(rate)，对于集合

中的第u个用户，速率计算为：

设目标优化公式表示为：

其中w_u分别代表不同切片的权重；

分别代表不同网络切片中设备的集合；R₀表示集合

中设备的最低速率要求；B₀表示分配给集合

中设备的最小带宽；T₀表示发送给集合

中设备单个数据包允许的最大传输延迟；

其中

5.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法，其特征在于，所述5G无线网络系统中将基站和其相关设备之间的功率增益作为状态，其次基站所分配的带宽和基站和设备的连接情况作为动作，最后基于以上的优化目标，奖励函数设置为

6.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法，其特征在于，所述基于增广拉格朗日SAC算法包括值网络、Q网络和策略网络，三种网络的参数分别设置为φ,ψ,θ，并增加了若干Q网络用来更新拉格朗日乘子向量λ和惩罚项μ，然后用于更新策略网络，最后在满足带宽约束的情况下达到最大的吞吐量，具体如下：

(2)对于每个episode；

a)观察环境，将状态输入策略网络；

b)策略网络选择动作，并执行；

c)计算奖励，以及分配的总带宽；

d)更新经验回放库；

(3)对于每一次梯度下降的步骤；

a)从经验回放库中随机选择若干样本；

b)更新参数φ,ψ,θ,λ；

c)更新目标值网络参数；

d)带宽约束若不满足，则需要增大μ；

(4)循环(2)-(3)至满足预设要求。