CN116996895A

CN116996895A - 一种基于深度强化学习的全网时延和吞吐率联合优化方法

Info

Publication number: CN116996895A
Application number: CN202311252907.2A
Authority: CN
Inventors: 黄川�; 崔曙光; 李然; 符浩
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03
Anticipated expiration: 2043-09-27
Also published as: CN116996895B

Abstract

本发明公开了一种基于深度强化学习的全网时延和吞吐率联合优化方法，包括以下步骤：S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台，并表征全网平均时延和平均吞吐率；S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型，所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块；S3.构建深度强化学习模型，该模型包含一个Actor网络，一个Critic网络和一个缓存模块；S4.基于深度强化学习模型训练确定速率控制模块参数；S5.对5G全网的时延和吞吐率进行联合优化。本发明基于深度强化学习实现了全网时延和吞吐率的联合优化控制。

Description

一种基于深度强化学习的全网时延和吞吐率联合优化方法

技术领域

本发明涉及通信领域，特别是涉及一种基于深度强化学习的全网时延和吞吐率联合优化方法。

背景技术

作为移动通信网络的核心模块，无线接入网、传输网和核心网近些年来不断升级革新，在提升所涉及范畴内性能指标的同时，也间接提升了通信全网的网络吞吐率（Network throughput）和端到端通信时延。如果对无线接入网、传输网和核心网进行联合控制，网络吞吐率和通信时延等指标可以得到进一步提升。然而，该联合控制存在控制变量维度过大、环境因素不确定性过高的困难，如何设计高效可行的联合控制算法仍然是一个科研空区。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度强化学习的全网时延和吞吐率联合优化方法。

本发明的目的是通过以下技术方案来实现的：一种基于深度强化学习的全网时延和吞吐率联合优化方法，包括以下步骤：

S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台，并表征全网平均时延和平均吞吐率；

S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型，所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块；

S3.构建深度强化学习模型，该模型包含一个Actor网络，一个Critic网络和一个缓存模块；

S4.基于深度强化学习模型训练确定速率控制模块参数；

S5.对5G全网的时延和吞吐率进行联合优化。

本发明的有益效果是：本发明区别于传统全网时延或吞吐量优化方法，没有考虑对无线接入网、传输网或核心网进行单独性能提升，而是直接面向全网提出了一种在不同网络交汇处做速率控制的方法。速率控制的实现采用了深度强化学习算法，不仅挖掘了各个网络层级进一步性能提升的可能性，也融会了各个网络层级通过级联产生的深度优化空间，做到了全网时延和吞吐率的大幅深层次优化。此外，本发明也提供了一种基于深度强化学习做级联网络联合控制的思路。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于深度强化学习的全网时延和吞吐率联合优化方法，包括以下步骤：

S101：搭建包含无线接入网、传输网和核心网三层网络结构的5G开放通信平台，并基于5G通信协议完成各层网络的初始化。

S1011：搭建无线接入网，包括接入终端和接入基站。记t时隙时无线终端的输入速率为，接入基站的无线信道增益为/>。其中，/>为无线信道资源数量。给定基于5G通信协议的无线接入网的资源配置方案为/>。联合/>、/>和/>可以得到无线接入网的输出速率，记为/>，并用简写/>表征。最后，无线接入网在t时隙内的平均包时延用/>表征，平均丢包率用/>表征。

S1012：搭建传输网，包括传输网路由和传输网链路。记t时隙时传输网的输入速率为，背景业务流速率为/>。其中，/>为背景业务流维度。给定基于5G通信协议的传输网路由配置和链路分配方案为/>。联合/>、/>和/>可以得到传输网的输出速率，记为/>，并用简写表征。最后，传输网在t时隙内的平均包时延用表征，平均丢包率用/>表征。

S1013：搭建核心网，包括核心网路由和核心网链路。记t时隙时核心网的输入速率为，背景业务流速率为/>。其中，/>为背景业务流维度。给定基于5G通信协议的核心网路由配置和链路分配方案为/>。联合/>、/>和/>可以得到核心网的输出速率，记为/>，并用简写/>表征。最后，核心网在t时隙内的平均包时延用/>表征，平均丢包率用表征。

S102：表征全网平均时延和平均吞吐率。

S1021：全网平均时延可以表征为

（1.1）

其中，为时隙总数，默认值为/>；

S1022：全网平均吞吐率的优化可通过优化平均丢包率来实现，其中平均丢包率可表征为

（1.2）

为了优化(1.1)中的和(1.2)中的/>，本步骤构建速率控制模型，其包含两个速率控制模块：

S201：在无线接入网和传输网中间构建第一个速率控制模块，并记为，该模块的输入为无线接入网的输出，故该模块的输入速率等于/>，该模块的输出为传输网的输入，故该模块的输出速率等于/>；从/>到/>的速率转换可以采用先进先出，Tokenbucket（经典令牌桶算法）等任意经典速率转换方法；

S202：在传输网和核心网中间构建第二个速率控制模块，并记为，该模块的输入为传输网的输出，故该模块的输入速率等于/>，该模块的输出为核心网的输入，故该模块的输出速率等于/>；从/>到/>的速率转换可以采用先进先出，Token bucket（经典令牌桶算法）等任意经典速率转换方法。

S301：构建Actor网络。该网络是一个双层的全连接神经网络，包含参数，其输入包括/>，/>，/>和/>，故输入节点数为/>，其输出包括/>和，节点数等于/>的所有可能的取值数乘上/>的所有可能的取值数，即；

S302：构建Critic网络。该网络是一个双层的全连接神经网络，包含参数，其输入包括/>，/>，/>，/>，/>和/>，故输入节点数为/>，其输出节点数等于1，表征了输入变量值的值函数；

S303：构建缓存模块：该模块是一个具有固定存储空间的缓存，初始状态为空，用于存储深度强化学习在训练过程中生成的经验信息。

S4.基于深度强化学习模型训练确定速率控制模块参数；

S401. 定义状态为，行动为。奖励需要联合考虑了全网平均时延和全网平均吞吐率，定义为；

S402. 确定状态转移关系。即基于和/>值，确定/>的函数关系。

考虑到里的元素都存在马尔可夫性，则基于/>，/>，/>，/>的值和历史统计分布，通过贝叶斯推理，推测出/>，/>，/>和/>的值或分布，由此得到/>的值和分布；

S403：训练强化学习模型

S4031：令；

S4032：观测的值，并送入Actor网络，以0.95的概率将Actor网络的输出赋值给/>，0.05的概率将一组随机值赋值给/>，以保证强化学习算法的训练过程保留了探索；

S4033：执行，即使得传输网和核心网的输入速率分别为/>和/>；

S4034：观测并记录的值；

S4035：观测并记录的值；

S4036：将归档为一条经验，并存入缓存模块；

S4037：记缓存模块的大小为2K，从缓存模块中取出K条经验，计算损失函数

（1.3）其中，/>为Actor网络以/>为输入时的输出，/>为Critic网络以/>和/>为输入时的输出，用损失函数后向传播更新Critic网络中的参数/>；

S4038：最小化来更新Actor网络中的参数/>；

S4039：若，则终止循环并进入步骤S404，否则令/>并返回步骤S4032；

S404：将训练好的Actor网络部署到和/>。

S5.对5G全网的时延和吞吐率进行联合优化；

所述步骤S5包括：

S501：令；

S502：观测的值并送入/>和/>的Actor网络，得到/>和/>的值；

S503：在中执行从/>到/>的速率转换，在/>中执行从/>到/>的速率转换；

S504：判断是否满足；

若，则终止循环，此时完成了全网平均时延和全网平均吞吐率的联合优化；

需要说明的是：整个过程在不断优化和/>的值，而公式（1.1）（1.2）体现的是时延和吞吐率与/>和/>的关系，所以不断优化/>和/>就能够起到优化时延和吞吐量的效果，所以训练结束后，强化学习输出的/>和/>的值对应的时延和吞吐率即为优化后的结果。

否则，令，并返回步骤S502。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：包括以下步骤：

S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率；

S4.基于深度强化学习模型训练确定速率控制模块参数；

S5.对5G全网的时延和吞吐率进行联合优化。

2.根据权利要求1所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：所述步骤S1包括：

S101：搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台，并基于5G通信协议完成各层网络的初始化：

S1011：搭建无线接入网，包括接入终端和接入基站；

记t时隙时无线终端的输入速率为，接入基站的无线信道增益为/>，其中，/>为无线信道资源数量；其中，/>表示复数集合；

给定基于5G通信协议的无线接入网的资源配置方案为，联合/>、/>和/>得到无线接入网的输出速率，记为/>，并用简写/>表征；最后，无线接入网在t时隙内的平均包时延用/>表征，平均丢包率用/>表征；

S1012：搭建传输网，包括传输网路由和传输网链路；

记t时隙时传输网的输入速率为，背景业务流速率为/>，其中，/>为背景业务流维度；/>表示正实数集合；

给定基于5G通信协议的传输网路由配置和链路分配方案为；联合/>、/>和/>得到传输网的输出速率，记为/>，并用简写/>表征，最后，传输网在t时隙内的平均包时延用/>表征，平均丢包率用表征；

S1013：搭建核心网，包括核心网路由和核心网链路；

记t时隙时核心网的输入速率为、背景业务流速率为/>；其中，/>为背景业务流维度；

给定基于5G通信协议的核心网路由配置和链路分配方案为；

联合、/>和/>得到核心网的输出速率，记为/>，并用简写表征；最后，核心网在t时隙内的平均包时延用表征，平均丢包率用/>表征；

S102：表征全网平均时延和平均吞吐率：

S1021：将全网平均时延表征为

（1.1）

其中，为时隙总数；

S1022：将平均丢包率表征为

（1.2）

全网平均吞吐率的优化通过优化平均丢包率来实现。

3.根据权利要求2所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：所述步骤S2包括：

S201：在无线接入网和传输网中间构建第一个速率控制模块，并记为，该模块的输入为无线接入网的输出，故该模块的输入速率等于/>，该模块的输出为传输网的输入，故该模块的输出速率等于/>；从/>到/>的速率转换采用经典速率转换方法，包括先进先出或经典令牌桶算法；

S202：在传输网和核心网中间构建第二个速率控制模块，并记为，该模块的输入为传输网的输出，故该模块的输入速率等于/>，该模块的输出为核心网的输入，故该模块的输出速率等于/>；从/>到/>的速率转换采用经典速率转换方法，包括先进先出或经典令牌桶算法。

4.根据权利要求3所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：所述步骤S3包括：

S301：构建Actor网络：该网络是一个双层的全连接神经网络，包含的网络参数为，Actor网络的输入包括/>，/>，/>和/>，故输入节点数为/>，其输出包括/>和/>，节点数等于/>的所有可能的取值数乘上/>的所有可能的取值数，即/>；

S302：构建Critic网络：该网络是一个双层的全连接神经网络，包含的网络参数为，Critic网络的输入包括/>，/>，/>，/>，/>和/>，故输入节点数为，其输出节点数等于1，表征了输入变量值的值函数；

5.根据权利要求4所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：所述步骤S4包括：

S401. 定义状态为，行动为/>，奖励需要联合考虑了全网平均时延和全网平均吞吐率，定义为/>；

S402. 确定状态转移关系，即基于和/>值，确定/>的值：

S403：训练强化学习模型

S4031：令；

S4032：观测的值，并送入Actor网络，以0.95的概率将Actor网络的输出赋值给，0.05的概率将一组随机值赋值给/>；

S4034：观测并记录的值；

S4035：观测并记录的值；

S4036：将归档为一条经验，并存入缓存模块；

（1.3）

其中，分别对应于取出的K条经验中，第i条经验中包含的，/> ；

为Actor网络以/>为输入时的输出，/>为Critic网络以/>和/>为输入时的输出，用损失函数后向传播更新Critic网络中的参数/>；

S4038：最小化来更新Actor网络中的参数/>；

S404：将训练好的Actor网络部署到和/>。

6.根据权利要求5所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法，其特征在于：所述步骤S5包括：

S501：令；

S502：观测的值并送入/>和/>的Actor网络，得到/>和/>的值；

S504：判断是否满足；

若，则终止循环，此时完成了全网平均时延和全网平均吞吐率的联合优化；否则，令/>，并返回步骤S502。