CN112770357B - 一种基于深度强化学习的无线网络拥塞控制方法 - Google Patents

一种基于深度强化学习的无线网络拥塞控制方法 Download PDF

Info

Publication number
CN112770357B
CN112770357B CN202110025088.2A CN202110025088A CN112770357B CN 112770357 B CN112770357 B CN 112770357B CN 202110025088 A CN202110025088 A CN 202110025088A CN 112770357 B CN112770357 B CN 112770357B
Authority
CN
China
Prior art keywords
network
ran
matrix
user
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110025088.2A
Other languages
English (en)
Other versions
CN112770357A (zh
Inventor
陈明昊
李荣鹏
赵志峰
张宏纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110025088.2A priority Critical patent/CN112770357B/zh
Publication of CN112770357A publication Critical patent/CN112770357A/zh
Application granted granted Critical
Publication of CN112770357B publication Critical patent/CN112770357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的无线网络拥塞控制方法,属于无线网络资源管理以及强化学习领域。该方法包括:无线接入网信息预测网络的初始化和预训练,奖励函数再分配网络的初始化和预训练,动作控制网络、价值评价网络和表示网络的初始化和训练,最后实现无线网络拥塞控制。本发明得到的拥塞控制方法相较于以往的传统拥塞控制方法,能得到更高的吞吐量和更低的往返时间,并具有更好的公平性。

Description

一种基于深度强化学习的无线网络拥塞控制方法
技术领域
本发明涉及无线网络资源管理以及强化学习领域,更具体地,涉及一种基于深度强化学习的无线网络拥塞控制方法。
背景技术
第五代移动通信(5G)网络因其强大的数据传输能力在学术界和工业界都受到了广泛的关注。5G网络配备了新的网络架构和新兴技术,有望为具有不同性能要求的大量网络服务提供支持。5G网络致力于打造一个真正意义上的多场景融合网络,一个端到端的生态系统,实现万物互联,感知世界的目的。如何在移动数据流量需求巨大的情况下,通过合理的资源调配策略,最大化利用通信网络资源,为不同类型的用户提供最优质的服务,是当下迫切需要解决的问题。
拥塞控制问题是网络资源调度与管理方面的经典问题,也是5G网络时代的重要问题。网络中的所有用户都希望以尽量快的速度传输数据,但网络资源是有限的,不可能允许所有用户完全按需传送数据。如果所有用户均不加限制的高速发送数据,那么数据将在网络的瓶颈处经历巨大的排队时延,甚至可能会因为路由器缓存空间有限而导致不必要的丢包,或者导致发送端产生不必要的超时重传,从而大大降低了网络性能。显然,大量增加网络的物理带宽,同时升级网络设备,可以从根本上解决这一问题,但在实际中并不容易实现。从实际操作的角度来讲,采用拥塞控制方法是当前最优的解决方案。
自从上世纪80年代以来,拥塞控制问题已经经历了数十年的研究。研究人员已经提出了众多的拥塞控制方法,并且在实际网络中取得了广泛应用。但当前广泛使用的拥塞控制方法几乎全部为基于规则的拥塞控制方法,即:此类方法只能通过某些确定的规则进行拥塞控制并尝试对网络环境进行适应。但随着5G网络的快速发展,基于规则的拥塞控制方法开始显现出一定的劣势。首先,5G网络是一种新型的高速无线接入网(Radio AccessNetwork,RAN)。在这一背景下,基于规则的拥塞控制方法不考虑网络特征及其接入方式,从而没有能够将RAN信息充分纳入考虑。其次,随着网络流量和服务类型的增加,网络自身面临的动态特性不断增强。基于规则的方法相对容易部署,但是不能充分适应网络动态;且这类方法往往是基于一些对网络环境的假设,而这些假设在实际中往往不成立。总而言之,实际网络中的复杂情况,使得基于规则的拥塞控制方法往往只能在某一类场景下取得较好效果,而通用性较差。
基于上述两点,研究人员开始考虑将深度强化学习(Deep ReinforcementLearning,DRL)引入拥塞控制问题。DRL可以自定义引入控制的信息,同时几乎不需要对网络做出过度假设。DRL本身具有探索学习周围环境的特点,使其可以在各类环境中进行部署。研究人员只需要指定奖励函数,就可以指导DRL学习的方向和效果。但以往基于DRL的拥塞控制方法具有以下问题:首先,以往的方法未考虑RAN信息,不区分RAN和有线网络,从而忽略了RAN的动态特性。其次,以往的部分方法引入了一个隐藏的假设:一个调整发送速率的动作,即调整拥塞窗口(congestion windows,cwnd)的动作的效果,在一个往返时间(Round Trip Time,RTT)之后,方可在发送端观察到效果。这个假设在实际中很难成立。最后,以往研究难以使用单个智能体同时控制多个连接的cwnd。
奖励函数再分配(Reward Redistribution)是近年来提出的一种新的强化学习技术。该技术的初衷是为了解决强化学习领域的一个典型问题:延迟奖励问题。例如,假定一个智能体玩五子棋游戏。在一局游戏进行过程中,我们不给智能体反馈奖励函数。当一局游戏结束之后,我们给智能体返回一个最终的奖励函数+1(智能体取胜)或者-1(智能体失败)。然而,智能体在一局游戏中采取了若干个动作,而它本身是不能根据最终的奖励函数确定每一步究竟对游戏最终的结果造成多大的影响。因此,奖励函数再分配的根本目的就是将延迟的奖励函数再分配到每一个动作,从而解决上述问题。
发明内容
针对现有技术存在的问题,本发明提出了一种基于深度强化学习的无线网络拥塞控制方法。相较于传统的拥塞控制方法,本发明提出的方法更加高效灵活;对比其他基于强化学习的方法,本发明提出的方法通用性更强,且能够引入RAN信息作为辅助,还能够同时控制多个TCP连接的cwnd。因此,采用本发明提出的拥塞控制方法进行拥塞控制,可显著提高无线网络性能。
为了实现上述目的,本发明采用如下技术方案:一种基于深度强化学习的无线网络拥塞控制方法,包括以下步骤:
(1)无线接入网RAN信息预测网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(1.1)RAN信息预测网络分别记作
Figure BDA0002890075160000021
NRAN表示RAN信息预测网络的数量,i为RAN信息预测网络的索引,通过He-Uniform初始化方法将所有RAN信息预测网络的权重进行随机初始化;
(1.2)所有客户端通过RAN接入,且通过TCP连接与服务端连接的网络环境中,设置网络环境中所有客户端在产生每个ACK报文段时,从所连接的基站或所采用的物理层协议中获取所需的NRAN种RAN信息,并将所有RAN信息和RAN信息被采样的时间记录在ACK报文段内;设置TCP连接服务端每隔tts秒对其所有TCP连接进行一次拥塞窗口cwnd调节,在每次拥塞窗口cwnd调节的决策时刻t,每个TCP连接的拥塞窗口cwnd的更新方法满足:cwndt=caction×cwndt-1;其中,cwndt-1为t-1决策时刻的拥塞窗口,cwndt为t决策时刻的拥塞窗口,c为常数,action为范围为[-1,1]的均匀分布的样本;同时,所有拥塞窗口cwnd的下限为cwndmin个最大报文段长度,上限为cwndmax个最大报文段长度;在每个决策时刻,TCP连接服务端记录过去从每个客户端收到的Lpred个ACK报文段提取得到的每一种RAN信息,以及每一条RAN信息被采样的时间,并按用户进行分类,从而得到Nuser×NRAN个RAN信息序列,其中Nuser为客户端数量;RAN信息序列中的每一个元素记录当前RAN信息序列记载的RAN信息的具体数值和该RAN信息被采样的时间;每条RAN序列按照RAN信息被采样的时间从旧到新排序;TCP连接服务端用决策时刻t和用户编码标记所有RAN信息序列,并按照RAN信息类别对RAN信息序列进行分类,并进行存储;同时,设置与用户连接的基站在每个决策时刻均记录所有用户的RAN信息,分别用记录时刻和用户编码标记,并进行存储;
(1.3)当TCP连接服务端对每一种RAN信息均收集到至少Ndata条信息时,从基站获取所记录的用户的所有RAN信息;对于从TCP连接服务端获取的每一条RAN信息序列,根据其标记中的决策时刻t和用户编码从基站记录中获取当前用户在决策时刻t的RAN信息,并作为该RAN信息序列所对应的标签;将所有RAN信息序列及其对应的标签根据其存储的RAN信息种类进行分类,从而构成了NRAN个数据集;
(1.4)采用上述NRAN个数据集分别对
Figure BDA0002890075160000031
进行训练,采用梯度下降算法对RAN信息预测网络进行训练至收敛,并保存训练后的RAN信息预测网络;
(2)奖励函数再分配网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(2.1)通过He-Uniform初始化方法将奖励函数再分配网络的权重进行随机初始化;
(2.2)在每个决策时刻t,根据子步骤(1.2)得到Nuser×NRAN个RAN信息序列,对于第i种RAN信息序列,输入PNi预测所有用户最新的RAN信息,并拼接成维度为Nuser×NRAN的RAN信息矩阵;同时,所述TCP连接服务端收集所需的核心网CN信息,存入维度为Nuser×NCN的CN信息矩阵,其中,NCN为核心网CN信息的种类数;所述TCP连接服务端将RAN信息矩阵和CN信息矩阵拼接,得到Nuser×Nfeature的状态信息矩阵,其中Nfeature=NRAN+NCN,并存入指定的内存空间;若该决策时刻t为Lseq的正整数倍,其中Lseq为常数,且为正整数,TCP连接服务端接收奖励函数数值
Figure BDA0002890075160000041
同时,建立长度为Lseq,元素为Nuser×Nfeature维矩阵的序列,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差;随后将奖励函数数值
Figure BDA0002890075160000042
作为所述序列对应的标签,并将所述序列和标签进行存储;
(2.3)当TCP连接服务端累计获取到至少Ndata个所述序列以及与其对应的标签时,指定存储空间中的所有序列及其标签即构成数据集;采用该数据集对所述奖励函数再分配网络进行训练,输入为所述序列,输出为一个向量,采用该向量的最后一个元素与标签的均方误差作为损失函数,采用梯度下降算法训练所述奖励函数再分配网络至收敛,并保存预训练后的所述奖励函数再分配网络;
(3)分别通过He-Uniform初始化方法将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重进行随机初始化;同时,分别设置目标动作控制网络
Figure BDA0002890075160000043
目标价值评价网络
Figure BDA0002890075160000044
和目标表示网络
Figure BDA0002890075160000045
其中,目标动作控制网络
Figure BDA0002890075160000046
目标价值评价网络
Figure BDA0002890075160000047
和目标表示网络
Figure BDA0002890075160000048
的结构分别与所述动作控制网络μ、价值评价网络C和表示网络R的结构完全相同,并通过复制动作控制网络μ、价值评价网络C和表示网络R权重的方法完成自身权重初始化;
(4)执行拥塞控制,具体包括以下子步骤:
(4.1)在每个决策时刻t,根据子步骤(2.2)所述方法获取状态信息矩阵,并进行存储,服务端将最近的连续Lrep个状态信息矩阵
Figure BDA0002890075160000049
拼接成状态信息矩阵序列sseq,t,其中Lrep为常数,输入所述表示网络R,得到Nrep维特征向量ft;所述TCP连接服务端反复运行Nuser次动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t和所述特征向量ft,其中状态信息向量en,t是从当前状态信息矩阵中提取的,并输出其拥塞窗口cwnd的控制变量an,t,从OU随机噪声中获取一个采样ω,并将其加到an,t上,随后更新第n个TCP连接的拥塞窗口cwnd:
Figure BDA0002890075160000051
最后,TCP连接服务端将所有控制变量an,t拼接成动作向量at,并将序列sseq,t和动作向量at存入指定的存储空间;
(4.2)在执行子步骤(5.1)所述拥塞控制的过程中,若决策时刻t为Lseq的正整数倍,TCP连接服务端接收奖励函数数值
Figure BDA0002890075160000052
并建立长度为Lseq的序列,其所有元素为Nuser×Nfeature维的矩阵,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差;TCP连接服务端将该序列输入所述奖励函数再分配网络,输出Lseq维向量ht;再分配的Lseq维奖励函数向量rt的第m个元素满足:
Figure BDA0002890075160000053
1≤m≤Lseq;最后,将Lseq个四元组
Figure BDA0002890075160000054
存入一个大小为NB的缓存区B里,其中1≤m≤Lseq;如果B的空间满了,最先存到B中的四元组会被删除,然后存进去最新的四元组;
(5)每执行步骤(4)的拥塞控制K次,将K次拥塞控制过程中子步骤(4.2)获得的奖励函数数值之和存入指定的存储空间;当B中储存的四元组数量大于Nbatch个时,利用B中储存的四元组训练所述动作控制网络μ、价值评价网络C和表示网络R的权重,具体包括以下子步骤:
(5.1)从B中随机选取Nbatch个四元组(sseq,t,at,rt+1,sseq,t+1)作为训练数据;
(5.2)采用根据子步骤(5.1)获取的训练数据训练所述价值评价网络C,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t+1组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述目标表示网络
Figure BDA0002890075160000055
得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵
Figure BDA0002890075160000056
随后,对第n个用户,从所有状态信息矩阵序列sseq,t+1中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t+1,将所述特征矩阵
Figure BDA0002890075160000057
和第n个用户的最新状态信息矩阵sn,t+1输入所述目标动作控制网络
Figure BDA0002890075160000058
得到维度为Nbatch的动作向量an,t+1;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵At+1;随后,从所有sseq,t+1中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St+1;将所述最新状态信息矩阵St+1、动作矩阵At+1和特征矩阵
Figure BDA0002890075160000059
输入所述目标价值评价网络
Figure BDA0002890075160000061
得到维度为Nbatch的目标Q函数向量
Figure BDA0002890075160000062
将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F;将训练数据中的Nbatch个动作向量at组合成维度为Nbatch×Nuser的动作矩阵At;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St;将所述特征矩阵F、动作矩阵At和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q;
将训练数据中的Nbatch个奖励函数rt+1组成奖励函数向量r,并计算Q函数目标值
Figure BDA0002890075160000063
其中γ为折扣因子;所述价值评价网络C的损失函数为Lc=MSE(q,y),其中MSE为均方误差;最后用梯度下降算法训练所述价值评价网络C的权重,完成一次价值评价网络C的训练;
(5.3)采用根据子步骤(5.1)获取的训练数据训练所述表示网络R和动作控制网络μ,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F′。随后,对第n个用户,从所有状态信息矩阵序列sseq,t中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t;将所述特征矩阵F′和第n个用户的最新状态信息矩阵sn,t输入所述动作控制网络μ,得到维度为Nbatch的动作向量an,t;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵A′t;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵;将所述特征矩阵F′、动作矩阵A′t和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q′;
设置所述表示网络R和动作控制网络μ的损失函数为
Figure BDA0002890075160000064
其中
Figure BDA0002890075160000065
为q′的均值;最后用梯度下降算法训练所述表示网络R和动作控制网络μ的权重,完成一次表示网络R和动作控制网络μ的训练;
(5.4)每完成上述训练过程Ncopy次,将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重采用参数为θsoft的软参数更新方法复制给目标动作控制网络
Figure BDA0002890075160000071
目标价值评价网络
Figure BDA0002890075160000072
和目标表示网络
Figure BDA0002890075160000073
实现所有目标网络权重的更新;
(6)重复步骤(4)-(5),直至存储的K次拥塞控制过程中的奖励函数数值之和收敛后,完成对动作控制网络μ、价值评价网络C和表示网络R的训练;在每个决策时刻t,TCP连接服务端按照子步骤(4.1)的方法获取sseq,t,输入所述表示网络R,得到ft;服务端反复运行Nuser次所述动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t,并得到其拥塞窗口cwnd控制变量an,t
进一步地,所述TCP连接服务端从某个用户收到的ACK个数不足RAN信息序列长度,则进行补零操作。
进一步地,子步骤(4.3)中如果rt所有元素之和与
Figure BDA0002890075160000074
不相等,则采用以下方法对rt的第m个元素进行修正:
Figure BDA0002890075160000075
1≤m≤Lseq
进一步地,NRAN的取值为1~3,tts的取值为10~100毫秒。
进一步地,cwndmin的取值为1,cwndmax的取值不小于50。
进一步地,Lpred的取值为5~15,Ndata的取值为100000~300000,NCN的取值为3~10,Lseq的取值为3~10。
进一步地,Lrep的取值为5~15,Nrep的取值为5~20。
进一步地,NB的取值为10000~30000,K的取值为50~200,c的取值为2。
进一步地,Nbatch的取值为64~512,Ncopy的取值为1,θsoft的取值为0.99~0.999,γ的取值为0.99~1。
进一步地,所述梯度下降算法均为Adam,学习率取值为0.001~0.0001。
与现有技术相比,本发明的有益效果是:
(1)本发明引入了RAN信息作为拥塞控制的辅助信息,从而使得服务端可以直接了解RAN的动态变化情况,同时引入了RAN信息预测网络以解决RAN信息的延迟问题和非均匀采样间隔问题。相比于现有技术,本发明提出的方法能够使得服务端更好的针对RAN进行拥塞控制。
(2)本发明采用了奖励函数再分配方法以更加准确地评价服务端的每一个调整拥塞控制cwnd的动作的效果。相比于现有技术,本发明放松了其他技术中的不合理假设,能够更好地适应网络的动态环境。
(3)本发明中的Actor网络采用循环决策的方法对所有TCP连接的拥塞控制cwnd进行调整。相比于现有的基于强化学习的拥塞控制技术,本发明的方法能够在保证网络性能的同时,更好地保证网络的公平性。
(4)本发明得到的拥塞控制策略相较于既有的拥塞控制方法如TCP Reno、TCPCubic、TCP Westwood和TCP BBR,具有较高的吞吐量和较低的循环时间(Round Trip Time,RTT),且具有更好的公平性。
附图说明
图1为本发明基于深度强化学习的无线网络拥塞控制方法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合附图详予说明。
参阅图1,为本发明基于深度强化学习的无线网络拥塞控制方法流程图,所述无线网络拥塞控制方法具体包括以下步骤:
(1)无线接入网RAN信息预测网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(1.1)RAN信息预测网络分别记作
Figure BDA0002890075160000081
NRAN表示RAN信息预测网络的数量,i为RAN信息预测网络的索引,通过He-Uniform初始化方法将所有RAN信息预测网络的权重进行随机初始化。NRAN的取值为1~3,过大会导致客户端生成ACK报文段速度减慢,且客户端不一定能提取到大量的RAN信息。所述RAN信息预测网络的输入长度Lpred的取值为5~15,过小会导致预测准确度不够,不能准确提取动态信息,过大会导致训练缓慢,计算量增大。
(1.2)所有客户端通过RAN接入,且通过TCP连接与服务端连接的网络环境中,设置网络环境中所有客户端在产生每个ACK报文段时,从所连接的基站或所采用的物理层协议中获取所需的NRAN种RAN信息,并将所有RAN信息和RAN信息被采样的时间记录在ACK报文段内;设置TCP连接服务端每隔tts秒对其所有TCP连接进行一次拥塞窗口cwnd调节,tts的取值为10~100毫秒,过小会导致调节速率过高,且可能无法快速完成计算;过大会导致不能及时对网络动态做出响应,降低性能。在每次拥塞窗口cwnd调节的决策时刻t,每个TCP连接的拥塞窗口cwnd的更新方法满足:cwndt=caction×cwndt-1;其中,cwndt-1为t-1决策时刻的拥塞窗口,cwndt为t决策时刻的拥塞窗口,c为2,取值过小将导致拥塞窗口cwnd调节能力不足,取值过大将导致容易出现拥塞;action为范围为[-1,1]的均匀分布的样本;同时,所有拥塞窗口cwnd的下限为cwndmin个最大报文段长度,cwndmin的取值为1;上限为cwndmax个最大报文段长度,cwndmax的取值不小于50,cwndmax取值过小会降低吞吐量,过大会导致拥塞出现的可能性增加。在每个决策时刻,TCP连接服务端记录过去从每个客户端收到的Lpred个ACK报文段提取得到的每一种RAN信息,以及每一条RAN信息被采样的时间,并按用户进行分类,从而得到Nuser×NRAN个RAN信息序列,其中Nuser为客户端数量;每一个序列的长度均为Lpred,RAN信息序列中的每一个元素记录当前RAN信息序列记载的RAN信息的具体数值和这个RAN信息被采样的时间;每条RAN序列按照RAN信息被采样的时间从旧到新排序;特别的,如服务端从某个用户收到的ACK个数不足Lpred个,导致该用户给出的RAN信息序列长度不足,则对序列长度不足的部分补零。TCP连接服务端用决策时刻t和用户编码标记所有RAN信息序列,并按照RAN信息类别对RAN信息序列进行分类,并进行存储;同时,设置与用户连接的基站在每个决策时刻均记录所有用户的RAN信息,分别用记录时刻和用户编码标记,并进行存储。
(1.3)当TCP连接服务端对每一种RAN信息均收集到至少Ndata条信息时,从基站获取所记录的用户的所有RAN信息;Ndata的取值为100000~300000。Ndata过小会导致训练不完善,过大会导致数据收集时间过长,且使得RAN信息预测网络训练速度减慢。对于从TCP连接服务端获取的每一条RAN信息序列,根据其标记中的决策时刻t和用户编码从基站记录中获取当前用户在决策时刻t的RAN信息,并作为该RAN信息序列所对应的标签;将所有RAN信息序列及其对应的标签根据其存储的RAN信息种类进行分类,从而构成了NRAN个数据集。
(1.4)采用上述NRAN个数据集分别对
Figure BDA0002890075160000091
进行训练,采用梯度下降算法对RAN信息预测网络进行训练至收敛,并保存训练后的RAN信息预测网络。
(2)奖励函数再分配网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(2.1)通过He-Uniform初始化方法将奖励函数再分配网络RR的权重进行随机初始化;所述奖励函数再分配网络RR输入长度为Lseq的序列,输出维度为Lseq的向量h。Lseq的取值为3~10,Lseq取值过小会导致奖励函数再分配失效,因为序列过短分配的意义不大,取值过大会导致接收的奖励函数无法反映网络动态变化,同样使得奖励函数再分配失效。
(2.2)在每个决策时刻t,根据子步骤(1.2)得到Nuser×NRAN个RAN信息序列,对于第i种RAN信息序列,输入PNi预测所有用户最新的RAN信息,并拼接成维度为Nuser×NRAN的RAN信息矩阵;同时,所述TCP连接服务端收集所需的核心网CN信息,存入维度为Nuser×NCN的CN信息矩阵,其中,NCN为核心网CN信息的种类数;NCN的取值为3~10,取值过小会导致服务端无法获取足够有效信息,取值过大会导致计算量过大。核心网CN信息是指服务端在传输层层面上可以直接测得的信息。所述TCP连接服务端将RAN信息矩阵和CN信息矩阵拼接,得到Nuser×Nfeature的状态信息矩阵,其中Nfeature=NRAN+NCN,并存入指定的内存空间;若该决策时刻t为Lseq的正整数倍,其中Lseq为常数,且为正整数,TCP连接服务端接收奖励函数数值
Figure BDA0002890075160000101
同时,建立长度为Lseq,元素为Nuser×Nfeature维矩阵的序列,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上决策一时刻状态信息矩阵之差;随后将奖励函数数值
Figure BDA0002890075160000102
作为所述序列对应的标签,并将所述序列和标签进行存储。
(2.3)当TCP连接服务端累计获取到至少Ndata个所述序列以及与其对应的标签时,指定存储空间中的所有序列及其标签即构成数据集;采用该数据集对所述奖励函数再分配网络进行训练,输入为所述序列,输出为一个向量,采用该向量的最后一个元素与标签的均方误差作为损失函数,采用梯度下降算法训练所述奖励函数再分配网络至收敛,并保存预训练后的所述奖励函数再分配网络;
(3)分别通过He-Uniform初始化方法将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重进行随机初始化;同时,分别设置目标动作控制网络
Figure BDA0002890075160000103
目标价值评价网络
Figure BDA0002890075160000104
和目标表示网络
Figure BDA0002890075160000105
其中,目标动作控制网络
Figure BDA0002890075160000106
目标价值评价网络
Figure BDA0002890075160000107
和目标表示网络
Figure BDA0002890075160000108
的结构分别与所述动作控制网络μ、价值评价网络C和表示网络R的结构完全相同,并通过复制动作控制网络μ、价值评价网络C和表示网络R权重的方法完成自身权重初始化。
(4)执行拥塞控制,具体包括以下子步骤:
(4.1)在每个决策时刻t,根据子步骤(2.2)所述方法获取状态信息矩阵,并进行存储,服务端将最近的连续Lrep个状态信息矩阵
Figure BDA0002890075160000111
拼接成状态信息矩阵序列sseq,t,其中Lrep为常数,输入所述表示网络R,得到Nrep维特征向量ft,Nrep的取值为5~20,过小会导致信息表达能力过差,过大会导致运行速度减慢;若当前状态信息数量不足Lrep个,则sseq,t长度不足部分以0填充。所述TCP连接服务端反复运行Nuser次动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t和所述特征向量ft,其中状态信息向量en,t是从当前状态信息矩阵中提取的,并输出其拥塞窗口cwnd的控制变量an,t,从OU随机噪声中获取一个采样ω,并将其加到an,t上,随后更新第n个TCP连接的拥塞窗口cwnd:
Figure BDA0002890075160000112
最后,TCP连接服务端将所有控制变量an,t拼接成动作向量at,并将序列sseq,t和动作向量at存入指定的存储空间;
(4.2)在执行子步骤(5.1)所述拥塞控制的过程中,若决策时刻t为Lseq的正整数倍,TCP连接服务端接收奖励函数数值
Figure BDA0002890075160000113
并建立长度为Lseq的序列,其所有元素为Nuser×Nfeature维的矩阵,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差;TCP连接服务端将该序列输入所述奖励函数再分配网络,输出Lseq维向量ht;再分配的Lseq维奖励函数向量rt的第m个元素满足:
Figure BDA0002890075160000114
1≤m≤Lseq;特别的,如果rt所有元素之和与
Figure BDA0002890075160000115
不相等,则采用以下方法对rt的第m个元素进行修正:
Figure BDA0002890075160000116
1≤m≤Lseq。最后,将Lseq个四元组
Figure BDA0002890075160000117
存入一个大小为NB的缓存区B里,其中1≤m≤Lseq;NB的取值为10000~30000,取值过小会导致数据不能近似满足独立同分布,取值过大会浪费存储空间,且不能及时对最新经验进行学习。如果B的空间满了,最先存到B中的四元组会被删除,然后存进去最新的四元组。
(5)每执行步骤(4)的拥塞控制K次,将K次拥塞控制过程中子步骤(4.2)获得的奖励函数数值之和存入指定的存储空间;当B中储存的四元组数量大于Nbatch个时,利用B中储存的四元组训练所述动作控制网络μ、价值评价网络C和表示网络R的权重,K的取值为50~200,取值过小会导致策略变化过快,不能有效探索环境,取值过大会导致策略更新频率过低。Nbatch的取值为64~512。取值过小会导致参数变化更易受到异常数据的影响,取值过大会显著降低训练速度。具体包括以下子步骤:
(5.1)从B中随机选取Nbatch个四元组(sseq,t,at,rt+1,sseq,t+1)作为训练数据;
(5.2)采用根据子步骤(5.1)获取的训练数据训练所述价值评价网络C,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t+1组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述目标表示网络
Figure BDA0002890075160000121
得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵
Figure BDA0002890075160000122
Nrep的取值为5~20,取值过小会导致特征向量f不能有效包含时变信息,取值过大会显著增加计算量。随后,对第n个用户,从所有状态信息矩阵序列sseq,t+1中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t+1,将所述特征矩阵
Figure BDA0002890075160000123
和第n个用户的最新状态信息矩阵sn,t+1输入所述目标动作控制网络
Figure BDA0002890075160000124
得到维度为Nbatch的动作向量an,t+1;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵At+1;随后,从所有sseq,t+1中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St+1;将所述最新状态信息矩阵St+1、动作矩阵At+1和特征矩阵
Figure BDA0002890075160000125
输入所述目标价值评价网络
Figure BDA0002890075160000126
得到维度为Nbatch的目标Q函数向量
Figure BDA0002890075160000127
将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F;将训练数据中的Nbatch个动作向量at组合成维度为Nbatch×Nuser的动作矩阵At;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St;将所述特征矩阵F、动作矩阵At和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q;
将训练数据中的Nbatch个奖励函数rt+1组成奖励函数向量r,并计算Q函数目标值
Figure BDA0002890075160000131
其中γ为折扣因子;γ的取值为0.99~1,取值过小或过大均不符合理论要求。所述价值评价网络C的损失函数为Lc=MSE(q,y),其中MSE为均方误差;最后用梯度下降算法训练所述价值评价网络C的权重,完成一次价值评价网络C的训练;
(5.3)采用根据子步骤(5.1)获取的训练数据训练所述表示网络R和动作控制网络μ,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F′。随后,对第n个用户,从所有状态信息矩阵序列sseq,t中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t;将所述特征矩阵F′和第n个用户的最新状态信息矩阵sn,t输入所述动作控制网络μ,得到维度为Nbatch的动作向量an,t;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵A′t;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵;将所述特征矩阵F′、动作矩阵A′t和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q′;
设置所述表示网络R和动作控制网络μ的损失函数为
Figure BDA0002890075160000132
其中
Figure BDA0002890075160000133
为q′的均值;最后用梯度下降算法训练所述表示网络R和动作控制网络μ的权重,完成一次表示网络R和动作控制网络μ的训练。
训练RAN信息预测网络
Figure BDA0002890075160000134
奖励函数再分配网络RR、动作控制网络μ、价值评价网络C和表示网络R所使用的梯度下降算法均为Adam,学习率取值为0.001~0.0001,取值过小会减慢收敛速度,取值过大会导致训练过程不稳定。
(5.4)每完成上述训练过程Ncopy次,将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重采用参数为θsoft的软参数更新方法复制给目标动作控制网络
Figure BDA0002890075160000135
目标价值评价网络
Figure BDA0002890075160000136
和目标表示网络
Figure BDA0002890075160000137
实现所有目标网络权重的更新;Ncopy的取值为1,取值过大会导致软参数更新方法更新过慢;θsoft的取值为0.99~0.999,取值过大会导致新参数在更新后的网络中占比过小,从而使得目标网络几乎没有更新,取值过小会导致软参数更新方法失效,退化为近似的硬参数更新方法。
(6)重复步骤(4)-(5),直至存储的K次拥塞控制过程中的奖励函数数值之和收敛后,完成对动作控制网络μ、价值评价网络C和表示网络R的训练;在每个决策时刻t,TCP连接服务端按照子步骤(4.1)的方法获取sseq,t,输入所述表示网络R,得到ft;服务端反复运行Nuser次所述动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t,并得到其拥塞窗口cwnd控制变量an,t
实施例
在配置如表1所示的主机上,采用Python语言编写了仿真环境。仿真环境中共有1台服务器,30个客户端。客户端通过RAN连接至基站,基站通过一条光纤连接至边缘路由器,边缘路由器通过三条独立路径连接至服务器,每条路径上均有一个路由器。三条路径保持完全一致。设置NRAN为2,tts为20毫秒,cwndmin为1,cwndmax为50,Lpred为10,Ndata为200000,NCN为5,Lseq为5,Lrep为10,Nrep为10,c为2,NB为20000,Nbatch为128,K为94,Ncopy为1,θsoft为0.999,γ为0.99。训练RAN信息预测网络PN1和PN2、奖励函数再分配网络RR、Actor网络μ、Critic网络C和表示网络R所使用的梯度下降算法均为Adam,学习率分别为0.001、0.001、0.001、0.0001、0.001、0.001。RAN信息预测网络PN1和PN2均为基于长短时记忆网络(Long-shortTerm Memory,LSTM)的神经网络,具有3个LSTM层,输出层为全连接神经网络(FullyConnected Neural Network,FCNN),隐藏层具有4个神经元,并经过块归一化,采用ELU激活函数。奖励函数再分配网络RR输入层为FCNN,并经过块归一化,采用Tanh激活函数。记忆层具有5个LSTM层,输出层为FCNN。Actor具有两个输入层,分别接收当前用户最新状态信息和特征向量,均为FCNN,并经过块归一化,采用ELU激活函数。输出层为FCNN,隐藏层具有60个神经元,并经过块归一化,采用ELU激活函数。Critic具有三个输入层,分别接收所有用户最新状态信息矩阵、特征向量和动作,均为FCNN,并经过块归一化,采用ELU激活函数。输出层为FCNN,隐藏层具有80个神经元,并经过块归一化,采用ELU激活函数。表示网络的记忆层具有3个LSTM层,输出层为FCNN,具有40个隐藏神经元,并经过块归一化,采用ELU激活函数。通过上述参数设置,采用本发明的方法进行拥塞控制,具有较高的吞吐量,较低的RTT和优异的公平性。
表1系统测试平台参数
Figure BDA0002890075160000141
Figure BDA0002890075160000151

Claims (10)

1.一种基于深度强化学习的无线网络拥塞控制方法,其特征在于,包括以下步骤:
(1)无线接入网RAN信息预测网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(1.1)RAN信息预测网络分别记作PN1,PN2,…,PNi,…,
Figure FDA0003522673890000011
NRAN表示RAN信息预测网络的数量,i为RAN信息预测网络的索引,通过He-Uniform初始化方法将所有RAN信息预测网络的权重进行随机初始化;
(1.2)所有客户端通过RAN接入,且通过TCP连接与服务端连接的网络环境中,设置网络环境中所有客户端在产生每个ACK报文段时,从所连接的基站或所采用的物理层协议中获取所需的NRAN种RAN信息,并将所有RAN信息和RAN信息被采样的时间记录在ACK报文段内;设置TCP连接服务端每隔tts秒对其所有TCP连接进行一次拥塞窗口cwnd调节,在每次拥塞窗口cwnd调节的决策时刻t,每个TCP连接的拥塞窗口cwnd的更新方法满足:cwndt=caction×cwndt-1;其中,cwndt-1为t-1决策时刻的拥塞窗口,cwndt为t决策时刻的拥塞窗口,c为常数,action为范围为[-1,1]的均匀分布的样本;同时,所有拥塞窗口cwnd的下限为cwndmin个最大报文段长度,上限为cwndmax个最大报文段长度;在每个决策时刻,TCP连接服务端记录过去从每个客户端收到的Lpred个ACK报文段提取得到的每一种RAN信息,以及每一条RAN信息被采样的时间,并按用户进行分类,从而得到Nuser×NRAN个RAN信息序列,其中Nuser为客户端数量;RAN信息序列中的每一个元素记录当前RAN信息序列记载的RAN信息的具体数值和该RAN信息被采样的时间;每条RAN序列按照RAN信息被采样的时间从旧到新排序;TCP连接服务端用决策时刻t和用户编码标记所有RAN信息序列,并按照RAN信息类别对RAN信息序列进行分类,并进行存储;同时,设置与用户连接的基站在每个决策时刻均记录所有用户的RAN信息,分别用记录时刻和用户编码标记,并进行存储;
(1.3)当TCP连接服务端对每一种RAN信息均收集到至少Ndata条信息时,从基站获取所记录的用户的所有RAN信息;对于从TCP连接服务端获取的每一条RAN信息序列,根据其标记中的决策时刻t和用户编码从基站记录中获取当前用户在决策时刻t的RAN信息,并作为该RAN信息序列所对应的标签;将所有RAN信息序列及其对应的标签根据其存储的RAN信息种类进行分类,从而构成了NRAN个数据集;
(1.4)采用上述NRAN个数据集分别对PN1,PN2,…,
Figure FDA0003522673890000021
进行训练,采用梯度下降算法对RAN信息预测网络进行训练至收敛,并保存训练后的RAN信息预测网络;
(2)奖励函数再分配网络的初始化、数据集生成和预训练,具体包括以下子步骤:
(2.1)通过He-Uniform初始化方法将奖励函数再分配网络的权重进行随机初始化;
(2.2)在每个决策时刻t,根据子步骤(1.2)得到Nuser×NRAN个RAN信息序列,对于第i种RAN信息序列,输入PNi预测所有用户最新的RAN信息,并拼接成维度为Nuser×NRAN的RAN信息矩阵;同时,所述TCP连接服务端收集所需的核心网CN信息,存入维度为Nuser×NCN的CN信息矩阵,其中,NCN为核心网CN信息的种类数;所述TCP连接服务端将RAN信息矩阵和CN信息矩阵拼接,得到Nuser×Nfeature的状态信息矩阵,其中Nfeature=NRAN+NCN,并存入指定的内存空间;若该决策时刻t为Lseq的正整数倍,其中Lseq为常数,且为正整数,TCP连接服务端接收奖励函数数值
Figure FDA0003522673890000022
同时,建立长度为Lseq,元素为Nuser×Nfeature维矩阵的序列,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差;随后将奖励函数数值
Figure FDA0003522673890000023
作为所述序列对应的标签,并将所述序列和标签进行存储;
(2.3)当TCP连接服务端累计获取到至少Ndata个所述序列以及与其对应的标签时,指定存储空间中的所有序列及其标签即构成数据集;采用该数据集对所述奖励函数再分配网络进行训练,输入为所述序列,输出为一个向量,采用该向量的最后一个元素与标签的均方误差作为损失函数,采用梯度下降算法训练所述奖励函数再分配网络至收敛,并保存预训练后的所述奖励函数再分配网络;
(3)分别通过He-Uniform初始化方法将动作控制网络μ、价值评价网络C和表示网络R的网络权重进行随机初始化;同时,分别设置目标动作控制网络
Figure FDA0003522673890000024
目标价值评价网络
Figure FDA0003522673890000025
和目标表示网络
Figure FDA0003522673890000026
其中,目标动作控制网络
Figure FDA0003522673890000027
目标价值评价网络
Figure FDA0003522673890000028
和目标表示网络
Figure FDA0003522673890000029
的结构分别与所述动作控制网络μ、价值评价网络C和表示网络R的结构完全相同,并通过复制动作控制网络μ、价值评价网络C和表示网络R权重的方法完成自身权重初始化;
(4)执行拥塞控制,具体包括以下子步骤:
(4.1)在每个决策时刻t,根据子步骤(2.2)所述方法获取状态信息矩阵,并进行存储,服务端将最近的连续Lrep个状态信息矩阵
Figure FDA0003522673890000031
拼接成状态信息矩阵序列sseq,t,其中Lrep为常数,输入所述表示网络R,得到Nrep维特征向量ft;所述TCP连接服务端反复运行Nuser次动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t和所述特征向量ft,其中状态信息向量en,t是从当前状态信息矩阵中提取的,并输出其拥塞窗口cwnd的控制变量an,t,从OU随机噪声中获取一个采样ω,并将其加到an,t上,随后更新第n个TCP连接的拥塞窗口cwnd:
Figure FDA0003522673890000032
最后,TCP连接服务端将所有控制变量an,t拼接成动作向量at,并将序列sseq,t和动作向量at存入指定的存储空间;
(4.2)在执行子步骤(4.1)的过程中,若决策时刻t为Lseq的正整数倍,TCP连接服务端接收奖励函数数值
Figure FDA0003522673890000033
并建立长度为Lseq的序列,其所有元素为Nuser×Nfeature维的矩阵,其中,所述序列中的所有元素分别对应从t-Lseq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差;TCP连接服务端将该序列输入所述奖励函数再分配网络,输出Lseq维向量ht;再分配的Lseq维奖励函数向量rt的第m个元素满足:
Figure FDA0003522673890000034
最后,将Lseq个四元组
Figure FDA0003522673890000035
存入一个大小为NB的缓存区B里,其中1≤m≤Lseq;如果B的空间满了,最先存到B中的四元组会被删除,然后存进去最新的四元组;
(5)每执行步骤(4)的拥塞控制K次,将K次拥塞控制过程中子步骤(4.2)获得的奖励函数数值之和存入指定的存储空间;当B中储存的四元组数量大于Nbatch个时,利用B中储存的四元组训练所述动作控制网络μ、价值评价网络C和表示网络R的权重,具体包括以下子步骤:
(5.1)从B中随机选取Nbatch个四元组(sseq,t,at,rt+1,sseq,t+1)作为训练数据;
(5.2)采用根据子步骤(5.1)获取的训练数据训练所述价值评价网络C,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t+1组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述目标表示网络
Figure FDA0003522673890000036
得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵
Figure FDA0003522673890000037
随后,对第n个用户,从所有状态信息矩阵序列sseq,t+1中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t+1,将所述特征矩阵
Figure FDA0003522673890000041
和第n个用户的最新状态信息矩阵sn,t+1输入所述目标动作控制网络
Figure FDA0003522673890000042
得到维度为Nbatch的动作向量an,t+1;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵At+1;随后,从所有sseq,t+1中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St+1;将所述最新状态信息矩阵St+1、动作矩阵At+1和特征矩阵
Figure FDA0003522673890000043
输入所述目标价值评价网络
Figure FDA0003522673890000044
得到维度为Nbatch的目标Q函数向量
Figure FDA0003522673890000045
将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F;将训练数据中的Nbatch个动作向量at组合成维度为Nbatch×Nuser的动作矩阵At;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵St;将所述特征矩阵F、动作矩阵At和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q;
将训练数据中的Nbatch个奖励函数rt+1组成奖励函数向量r,并计算Q函数目标值
Figure FDA0003522673890000046
其中γ为折扣因子;所述价值评价网络C的损失函数为Lc=MSE(q,y),其中MSE为均方误差;最后用梯度下降算法训练所述价值评价网络C的权重,完成一次价值评价网络C的训练;
(5.3)采用根据子步骤(5.1)获取的训练数据训练所述表示网络R和动作控制网络μ,具体过程为:将训练数据中的Nbatch个状态信息矩阵序列sseq,t组合成维度为Nbatch×Lrep×Nuser×Nfeature的矩阵,并将其输入所述表示网络R,得到维度为Nbatch×Nrep的由特征向量构成的特征矩阵F′;随后,对第n个用户,从所有状态信息矩阵序列sseq,t中提取其最新状态信息,并拼接成维度为Nbatch×Nfeature的第n个用户的最新状态信息矩阵sn,t;将所述特征矩阵F′和第n个用户的最新状态信息矩阵sn,t输入所述动作控制网络μ,得到维度为Nbatch的动作向量an,t;反复执行上述过程Nuser次,并将得到的所有动作向量拼接成维度为Nbatch×Nuser的动作矩阵A′t;从所有网络状态矩阵sseq,t中提取所有用户的最新状态信息,并拼接成维度为Nbatch×Nuser×Nfeature的最新状态信息矩阵;将所述特征矩阵F′、动作矩阵A′t和最新状态信息矩阵St输入所述价值评价网络C,得到维度为Nbatch的Q函数向量q′;
设置所述表示网络R和动作控制网络μ的损失函数为
Figure FDA0003522673890000051
其中
Figure FDA0003522673890000052
为q′的均值;最后用梯度下降算法训练所述表示网络R和动作控制网络μ的权重,完成一次表示网络R和动作控制网络μ的训练;
(5.4)每完成上述训练过程Ncopy次,将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重采用参数为θsoft的软参数更新方法复制给目标动作控制网络
Figure FDA0003522673890000053
目标价值评价网络
Figure FDA0003522673890000054
和目标表示网络
Figure FDA0003522673890000055
实现所有目标网络权重的更新;
(6)重复步骤(4)-(5),直至存储的K次拥塞控制过程中的奖励函数数值之和收敛后,完成对动作控制网络μ、价值评价网络C和表示网络R的训练;在每个决策时刻t,TCP连接服务端按照子步骤(4.1)的方法获取sseq,t,输入所述表示网络R,得到ft;服务端反复运行Nuser次所述动作控制网络μ,每次输入第n个TCP连接的状态信息向量en,t,并得到其拥塞窗口cwnd控制变量an,t
2.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,所述TCP连接服务端从某个用户收到的ACK个数不足RAN信息序列长度,则进行补零操作。
3.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,子步骤(4.2)中如果rt所有元素之和与
Figure FDA0003522673890000056
不相等,则采用以下方法对rt的第m个元素进行修正:
Figure FDA0003522673890000057
4.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,NRAN的取值为1~3,tts的取值为10~100毫秒。
5.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,cwndmin的取值为1,cwndmax的取值不小于50。
6.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,Lpred的取值为5~15,Ndata的取值为100000~300000,NCN的取值为3~10,Lseq的取值为3~10。
7.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,Lrep的取值为5~15,Nrep的取值为5~20。
8.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,NB的取值为10000~30000,K的取值为50~200,c的取值为2。
9.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,Nbatch的取值为64~512,Ncopy的取值为1,θsoft的取值为0.99~0.999,γ的取值为0.99~1。
10.根据权利要求1所述基于深度强化学习的无线网络拥塞控制方法,其特征在于,所述梯度下降算法均为Adam,学习率取值为0.001~0.0001。
CN202110025088.2A 2021-01-08 2021-01-08 一种基于深度强化学习的无线网络拥塞控制方法 Active CN112770357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110025088.2A CN112770357B (zh) 2021-01-08 2021-01-08 一种基于深度强化学习的无线网络拥塞控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110025088.2A CN112770357B (zh) 2021-01-08 2021-01-08 一种基于深度强化学习的无线网络拥塞控制方法

Publications (2)

Publication Number Publication Date
CN112770357A CN112770357A (zh) 2021-05-07
CN112770357B true CN112770357B (zh) 2022-04-26

Family

ID=75701075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110025088.2A Active CN112770357B (zh) 2021-01-08 2021-01-08 一种基于深度强化学习的无线网络拥塞控制方法

Country Status (1)

Country Link
CN (1) CN112770357B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113518035B (zh) * 2021-05-26 2023-01-31 香港中文大学(深圳) 路由确定方法及装置
CN113938415B (zh) * 2021-09-09 2022-08-02 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN113825171B (zh) * 2021-09-30 2023-07-28 新华三技术有限公司 网络拥塞控制方法、装置、设备及介质
CN114124841A (zh) * 2021-11-19 2022-03-01 青岛信大云谷信息科技有限公司 一种高速转发数据轻量级流量控制的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874154A (zh) * 2019-01-23 2019-06-11 南京邮电大学 一种基于深度强化学习的c-ran用户关联和计算资源分配方法
WO2019211134A1 (en) * 2018-05-02 2019-11-07 Telefonaktiebolaget Lm Ericsson (Publ) First network node, third network node, and methods performed thereby, for handling a performance of a radio access network
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875915B (zh) * 2018-09-04 2021-08-20 华为技术有限公司 数据传输方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019211134A1 (en) * 2018-05-02 2019-11-07 Telefonaktiebolaget Lm Ericsson (Publ) First network node, third network node, and methods performed thereby, for handling a performance of a radio access network
CN109874154A (zh) * 2019-01-23 2019-06-11 南京邮电大学 一种基于深度强化学习的c-ran用户关联和计算资源分配方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning Applied to Congestion Control in Fronthaul Networks;Ingrid Nascimento等;《 2019 IEEE Latin-American Conference on Communications (LATINCOM)》;20200102;全文 *
深度强化学习在典型网络系统中的应用综述;郑莹等;《无线电通信技术》;20201118;全文 *

Also Published As

Publication number Publication date
CN112770357A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112770357B (zh) 一种基于深度强化学习的无线网络拥塞控制方法
CN110267338B (zh) 一种d2d通信中联合资源分配和功率控制方法
CN110531617B (zh) 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN112954385B (zh) 一种基于控制论和数据驱动的自适应分流决策方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
CN111970733A (zh) 超密集网络中基于深度强化学习的协作式边缘缓存算法
Chen et al. Artificial intelligence aided joint bit rate selection and radio resource allocation for adaptive video streaming over F-RANs
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN114205791A (zh) 一种基于深度q学习的社交感知d2d协同缓存方法
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN114116047A (zh) 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN115374853A (zh) 基于T-Step聚合算法的异步联邦学习方法及系统
CN113573320B (zh) 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN113766576B (zh) 服务质量管理方法、电子设备以及存储介质
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
Feng et al. Vabis: Video adaptation bitrate system for time-critical live streaming
CN113132490A (zh) 一种基于强化学习的MQTT协议QoS机制选择方案
Zhang et al. Toward intelligent resource allocation on task-oriented semantic communication
CN114760644A (zh) 基于深度强化学习的多链路传输智能报文调度方法
Sharara et al. A recurrent neural network based approach for coordinating radio and computing resources allocation in cloud-ran
CN113472843A (zh) 一种基于贪婪算法的MQTT协议QoS机制选择方法
CN115189908B (zh) 一种基于网络数字孪生体的随机攻击生存性评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant