CN116996895A - 一种基于深度强化学习的全网时延和吞吐率联合优化方法 - Google Patents

一种基于深度强化学习的全网时延和吞吐率联合优化方法 Download PDF

Info

Publication number
CN116996895A
CN116996895A CN202311252907.2A CN202311252907A CN116996895A CN 116996895 A CN116996895 A CN 116996895A CN 202311252907 A CN202311252907 A CN 202311252907A CN 116996895 A CN116996895 A CN 116996895A
Authority
CN
China
Prior art keywords
network
rate
average
input
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311252907.2A
Other languages
English (en)
Other versions
CN116996895B (zh
Inventor
黄川�
崔曙光
李然
符浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Original Assignee
Chinese University of Hong Kong Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202311252907.2A priority Critical patent/CN116996895B/zh
Publication of CN116996895A publication Critical patent/CN116996895A/zh
Application granted granted Critical
Publication of CN116996895B publication Critical patent/CN116996895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的全网时延和吞吐率联合优化方法,包括以下步骤:S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;S4.基于深度强化学习模型训练确定速率控制模块参数;S5.对5G全网的时延和吞吐率进行联合优化。本发明基于深度强化学习实现了全网时延和吞吐率的联合优化控制。

Description

一种基于深度强化学习的全网时延和吞吐率联合优化方法
技术领域
本发明涉及通信领域,特别是涉及一种基于深度强化学习的全网时延和吞吐率联合优化方法。
背景技术
作为移动通信网络的核心模块,无线接入网、传输网和核心网近些年来不断升级革新,在提升所涉及范畴内性能指标的同时,也间接提升了通信全网的网络吞吐率(Network throughput)和端到端通信时延。如果对无线接入网、传输网和核心网进行联合控制,网络吞吐率和通信时延等指标可以得到进一步提升。然而,该联合控制存在控制变量维度过大、环境因素不确定性过高的困难,如何设计高效可行的联合控制算法仍然是一个科研空区。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度强化学习的全网时延和吞吐率联合优化方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度强化学习的全网时延和吞吐率联合优化方法,包括以下步骤:
S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;
S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;
S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;
S4.基于深度强化学习模型训练确定速率控制模块参数;
S5.对5G全网的时延和吞吐率进行联合优化。
本发明的有益效果是:本发明区别于传统全网时延或吞吐量优化方法,没有考虑对无线接入网、传输网或核心网进行单独性能提升,而是直接面向全网提出了一种在不同网络交汇处做速率控制的方法。速率控制的实现采用了深度强化学习算法,不仅挖掘了各个网络层级进一步性能提升的可能性,也融会了各个网络层级通过级联产生的深度优化空间,做到了全网时延和吞吐率的大幅深层次优化。此外,本发明也提供了一种基于深度强化学习做级联网络联合控制的思路。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于深度强化学习的全网时延和吞吐率联合优化方法,包括以下步骤:
S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;
S101:搭建包含无线接入网、传输网和核心网三层网络结构的5G开放通信平台,并基于5G通信协议完成各层网络的初始化。
S1011:搭建无线接入网,包括接入终端和接入基站。记t时隙时无线终端的输入速率为,接入基站的无线信道增益为/>。其中,/>为无线信道资源数量。给定基于5G通信协议的无线接入网的资源配置方案为/>。联合/>、/>和/>可以得到无线接入网的输出速率,记为/>,并用简写/>表征。最后,无线接入网在t时隙内的平均包时延用/>表征,平均丢包率用/>表征。
S1012:搭建传输网,包括传输网路由和传输网链路。记t时隙时传输网的输入速率为,背景业务流速率为/>。其中,/>为背景业务流维度。给定基于5G通信协议的传输网路由配置和链路分配方案为/>。联合/>、/>和/>可以得到传输网的输出速率,记为/>,并用简写表征。最后,传输网在t时隙内的平均包时延用表征,平均丢包率用/>表征。
S1013:搭建核心网,包括核心网路由和核心网链路。记t时隙时核心网的输入速率为,背景业务流速率为/>。其中,/>为背景业务流维度。给定基于5G通信协议的核心网路由配置和链路分配方案为/>。联合/>、/>和/>可以得到核心网的输出速率,记为/>,并用简写/>表征。最后,核心网在t时隙内的平均包时延用/>表征,平均丢包率用表征。
S102:表征全网平均时延和平均吞吐率。
S1021:全网平均时延可以表征为
(1.1)
其中,为时隙总数,默认值为/>
S1022:全网平均吞吐率的优化可通过优化平均丢包率来实现,其中平均丢包率可表征为
(1.2)
S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;
为了优化(1.1)中的和(1.2)中的/>,本步骤构建速率控制模型,其包含两个速率控制模块:
S201:在无线接入网和传输网中间构建第一个速率控制模块,并记为,该模块的输入为无线接入网的输出,故该模块的输入速率等于/>,该模块的输出为传输网的输入,故该模块的输出速率等于/>;从/>到/>的速率转换可以采用先进先出,Tokenbucket(经典令牌桶算法)等任意经典速率转换方法;
S202:在传输网和核心网中间构建第二个速率控制模块,并记为,该模块的输入为传输网的输出,故该模块的输入速率等于/>,该模块的输出为核心网的输入,故该模块的输出速率等于/>;从/>到/>的速率转换可以采用先进先出,Token bucket(经典令牌桶算法)等任意经典速率转换方法。
S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;
S301:构建Actor网络。该网络是一个双层的全连接神经网络,包含参数,其输入包括/>,/>,/>和/>,故输入节点数为/>,其输出包括/>,节点数等于/>的所有可能的取值数乘上/>的所有可能的取值数,即
S302:构建Critic网络。该网络是一个双层的全连接神经网络,包含参数,其输入包括/>,/>,/>,/>,/>和/>,故输入节点数为/>,其输出节点数等于1,表征了输入变量值的值函数;
S303:构建缓存模块:该模块是一个具有固定存储空间的缓存,初始状态为空,用于存储深度强化学习在训练过程中生成的经验信息。
S4.基于深度强化学习模型训练确定速率控制模块参数;
S401. 定义状态为,行动为。奖励需要联合考虑了全网平均时延和全网平均吞吐率,定义为
S402. 确定状态转移关系。即基于和/>值,确定/>的函数关系。
考虑到里的元素都存在马尔可夫性,则基于/>,/>,/>,/>的值和历史统计分布,通过贝叶斯推理,推测出/>,/>,/>和/>的值或分布,由此得到/>的值和分布;
S403:训练强化学习模型
S4031:令
S4032:观测的值,并送入Actor网络,以0.95的概率将Actor网络的输出赋值给/>,0.05的概率将一组随机值赋值给/>,以保证强化学习算法的训练过程保留了探索;
S4033:执行,即使得传输网和核心网的输入速率分别为/>和/>
S4034:观测并记录的值;
S4035:观测并记录的值;
S4036:将归档为一条经验,并存入缓存模块;
S4037:记缓存模块的大小为2K,从缓存模块中取出K条经验,计算损失函数
(1.3) 其中,/>为Actor网络以/>为输入时的输出,/>为Critic网络以/>和/>为输入时的输出,用损失函数后向传播更新Critic网络中的参数/>
S4038:最小化来更新Actor网络中的参数/>
S4039:若,则终止循环并进入步骤S404,否则令/>并返回步骤S4032;
S404:将训练好的Actor网络部署到和/>
S5.对5G全网的时延和吞吐率进行联合优化;
所述步骤S5包括:
S501:令
S502:观测的值并送入/>和/>的Actor网络,得到/>和/>的值;
S503:在中执行从/>到/>的速率转换,在/>中执行从/>到/>的速率转换;
S504:判断是否满足
,则终止循环,此时完成了全网平均时延和全网平均吞吐率的联合优化;
需要说明的是:整个过程在不断优化和/>的值,而公式(1.1)(1.2)体现的是时延和吞吐率与/>和/>的关系,所以不断优化/>和/>就能够起到优化时延和吞吐量的效果,所以训练结束后,强化学习输出的/>和/>的值对应的时延和吞吐率即为优化后的结果。
否则,令,并返回步骤S502。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:包括以下步骤:
S1.搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并表征全网平均时延和平均吞吐率;
S2.构建用于优化全网平均时延和平均吞吐率的速率控制模型,所述速率控制模型包括位于无线接入网和传输网之间的第一个速率控制模块和位于传输网和核心网之间的第二个速率控制模块;
S3.构建深度强化学习模型,该模型包含一个Actor网络,一个Critic网络和一个缓存模块;
S4.基于深度强化学习模型训练确定速率控制模块参数;
S5.对5G全网的时延和吞吐率进行联合优化。
2.根据权利要求1所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:所述步骤S1包括:
S101:搭建包含无线接入网、传输网和核心网三层网络结构的5G通信平台,并基于5G通信协议完成各层网络的初始化:
S1011:搭建无线接入网,包括接入终端和接入基站;
记t时隙时无线终端的输入速率为,接入基站的无线信道增益为/>,其中,/>为无线信道资源数量;其中,/>表示复数集合;
给定基于5G通信协议的无线接入网的资源配置方案为,联合/>、/>和/>得到无线接入网的输出速率,记为/>,并用简写/>表征;最后,无线接入网在t时隙内的平均包时延用/>表征,平均丢包率用/>表征;
S1012:搭建传输网,包括传输网路由和传输网链路;
记t时隙时传输网的输入速率为,背景业务流速率为/>,其中,/>为背景业务流维度;/>表示正实数集合;
给定基于5G通信协议的传输网路由配置和链路分配方案为;联合/>、/>和/>得到传输网的输出速率,记为/>,并用简写/>表征,最后,传输网在t时隙内的平均包时延用/>表征,平均丢包率用表征;
S1013:搭建核心网,包括核心网路由和核心网链路;
记t时隙时核心网的输入速率为、背景业务流速率为/>;其中,/>为背景业务流维度;
给定基于5G通信协议的核心网路由配置和链路分配方案为
联合、/>和/>得到核心网的输出速率,记为/>,并用简写表征;最后,核心网在t时隙内的平均包时延用表征,平均丢包率用/>表征;
S102:表征全网平均时延和平均吞吐率:
S1021:将全网平均时延表征为
(1.1)
其中,为时隙总数;
S1022:将平均丢包率表征为
(1.2)
全网平均吞吐率的优化通过优化平均丢包率来实现。
3.根据权利要求2所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:所述步骤S2包括:
S201:在无线接入网和传输网中间构建第一个速率控制模块,并记为,该模块的输入为无线接入网的输出,故该模块的输入速率等于/>,该模块的输出为传输网的输入,故该模块的输出速率等于/>;从/>到/>的速率转换采用经典速率转换方法,包括先进先出或经典令牌桶算法;
S202:在传输网和核心网中间构建第二个速率控制模块,并记为,该模块的输入为传输网的输出,故该模块的输入速率等于/>,该模块的输出为核心网的输入,故该模块的输出速率等于/>;从/>到/>的速率转换采用经典速率转换方法,包括先进先出或经典令牌桶算法。
4.根据权利要求3所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:所述步骤S3包括:
S301:构建Actor网络:该网络是一个双层的全连接神经网络,包含的网络参数为,Actor网络的输入包括/>,/>,/>和/>,故输入节点数为/>,其输出包括/>和/>,节点数等于/>的所有可能的取值数乘上/>的所有可能的取值数,即/>
S302:构建Critic网络:该网络是一个双层的全连接神经网络,包含的网络参数为,Critic网络的输入包括/>,/>,/>,/>,/>和/>,故输入节点数为,其输出节点数等于1,表征了输入变量值的值函数;
S303:构建缓存模块:该模块是一个具有固定存储空间的缓存,初始状态为空,用于存储深度强化学习在训练过程中生成的经验信息。
5.根据权利要求4所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:所述步骤S4包括:
S401. 定义状态为,行动为/>,奖励需要联合考虑了全网平均时延和全网平均吞吐率,定义为/>
S402. 确定状态转移关系,即基于和/>值,确定/>的值:
考虑到里的元素都存在马尔可夫性,则基于/>,/>,/>,/>的值和历史统计分布,通过贝叶斯推理,推测出/>,/>,/>和/>的值或分布,由此得到/>的值和分布;
S403:训练强化学习模型
S4031:令
S4032:观测的值,并送入Actor网络,以0.95的概率将Actor网络的输出赋值给,0.05的概率将一组随机值赋值给/>
S4033:执行,即使得传输网和核心网的输入速率分别为/>和/>
S4034:观测并记录的值;
S4035:观测并记录的值;
S4036:将归档为一条经验,并存入缓存模块;
S4037:记缓存模块的大小为2K,从缓存模块中取出K条经验,计算损失函数
(1.3)
其中,分别对应于取出的K条经验中,第i条经验中包含的 ,/>
为Actor网络以/>为输入时的输出,/>为Critic网络以/>和/>为输入时的输出,用损失函数后向传播更新Critic网络中的参数/>
S4038:最小化来更新Actor网络中的参数/>
S4039:若,则终止循环并进入步骤S404,否则令/>并返回步骤S4032;
S404:将训练好的Actor网络部署到和/>
6.根据权利要求5所述的一种基于深度强化学习的全网时延和吞吐率联合优化方法,其特征在于:所述步骤S5包括:
S501:令
S502:观测的值并送入/>和/>的Actor网络,得到/>和/>的值;
S503:在中执行从/>到/>的速率转换,在/>中执行从/>到/>的速率转换;
S504:判断是否满足
,则终止循环,此时完成了全网平均时延和全网平均吞吐率的联合优化;否则,令/>,并返回步骤S502。
CN202311252907.2A 2023-09-27 2023-09-27 一种基于深度强化学习的全网时延和吞吐率联合优化方法 Active CN116996895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311252907.2A CN116996895B (zh) 2023-09-27 2023-09-27 一种基于深度强化学习的全网时延和吞吐率联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311252907.2A CN116996895B (zh) 2023-09-27 2023-09-27 一种基于深度强化学习的全网时延和吞吐率联合优化方法

Publications (2)

Publication Number Publication Date
CN116996895A true CN116996895A (zh) 2023-11-03
CN116996895B CN116996895B (zh) 2024-01-02

Family

ID=88525230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311252907.2A Active CN116996895B (zh) 2023-09-27 2023-09-27 一种基于深度强化学习的全网时延和吞吐率联合优化方法

Country Status (1)

Country Link
CN (1) CN116996895B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113395723A (zh) * 2021-06-11 2021-09-14 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN113490184A (zh) * 2021-05-10 2021-10-08 北京科技大学 一种面向智慧工厂的随机接入资源优化方法及装置
CN114884895A (zh) * 2022-05-05 2022-08-09 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN115776443A (zh) * 2021-09-07 2023-03-10 华为技术有限公司 网络优化策略的确定方法、装置及系统
US20230262683A1 (en) * 2020-07-10 2023-08-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for deep reinforcement learning (drl) based scheduling in a wireless system
CN116743669A (zh) * 2023-06-01 2023-09-12 中国电力科学研究院有限公司 一种深度强化学习分组调度方法、系统、终端及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230262683A1 (en) * 2020-07-10 2023-08-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for deep reinforcement learning (drl) based scheduling in a wireless system
CN113490184A (zh) * 2021-05-10 2021-10-08 北京科技大学 一种面向智慧工厂的随机接入资源优化方法及装置
CN113395723A (zh) * 2021-06-11 2021-09-14 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN115776443A (zh) * 2021-09-07 2023-03-10 华为技术有限公司 网络优化策略的确定方法、装置及系统
CN114884895A (zh) * 2022-05-05 2022-08-09 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN116743669A (zh) * 2023-06-01 2023-09-12 中国电力科学研究院有限公司 一种深度强化学习分组调度方法、系统、终端及介质

Also Published As

Publication number Publication date
CN116996895B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN110493360B (zh) 多服务器下降低系统能耗的移动边缘计算卸载方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111930436B (zh) 一种基于边缘计算的随机型任务排队卸载优化方法
Lee et al. An online secretary framework for fog network formation with minimal latency
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN115173923B (zh) 一种低轨卫星网络能效感知路由优化方法和系统
CN114884949B (zh) 基于maddpg算法的低轨卫星物联网任务卸载方法
CN111813539A (zh) 一种基于优先级与协作的边缘计算资源分配方法
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Chen et al. Twin delayed deep deterministic policy gradient-based intelligent computation offloading for IoT
CN116233927A (zh) 一种在移动边缘计算中负载感知的计算卸载节能优化方法
Wang et al. Reinforcement learning based congestion control in satellite Internet of Things
CN113726656B (zh) 时延敏感流转发的方法及装置
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
CN116996895B (zh) 一种基于深度强化学习的全网时延和吞吐率联合优化方法
Tong et al. VNF dynamic scaling and deployment algorithm based on traffic prediction
CN115843083B (zh) 基于多智能体强化学习的水下无线传感器网络路由方法
CN116996921B (zh) 一种基于元强化学习的全网多业务联合优化方法
CN115756873A (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN115484205A (zh) 确定性网络路由与队列调度方法及装置
CN115529632A (zh) 一种面向边缘计算的任务卸载和资源分配方法
CN114980160A (zh) 一种无人机辅助的太赫兹通信网络联合优化方法和装置
CN111813538A (zh) 一种边缘计算资源分配方法
KR102589554B1 (ko) 무선 엣지 컴퓨팅 기반 네트워크에서의 최적의 부분 오프로딩 방법 및 오프로딩을 위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant