CN112770357B

CN112770357B - 一种基于深度强化学习的无线网络拥塞控制方法

Info

Publication number: CN112770357B
Application number: CN202110025088.2A
Authority: CN
Inventors: 陈明昊; 李荣鹏; 赵志峰; 张宏纲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-04-26
Anticipated expiration: 2041-01-08
Also published as: CN112770357A

Abstract

本发明公开了一种基于深度强化学习的无线网络拥塞控制方法，属于无线网络资源管理以及强化学习领域。该方法包括：无线接入网信息预测网络的初始化和预训练，奖励函数再分配网络的初始化和预训练，动作控制网络、价值评价网络和表示网络的初始化和训练，最后实现无线网络拥塞控制。本发明得到的拥塞控制方法相较于以往的传统拥塞控制方法，能得到更高的吞吐量和更低的往返时间，并具有更好的公平性。

Description

一种基于深度强化学习的无线网络拥塞控制方法

技术领域

本发明涉及无线网络资源管理以及强化学习领域，更具体地，涉及一种基于深度强化学习的无线网络拥塞控制方法。

背景技术

第五代移动通信(5G)网络因其强大的数据传输能力在学术界和工业界都受到了广泛的关注。5G网络配备了新的网络架构和新兴技术，有望为具有不同性能要求的大量网络服务提供支持。5G网络致力于打造一个真正意义上的多场景融合网络，一个端到端的生态系统，实现万物互联，感知世界的目的。如何在移动数据流量需求巨大的情况下，通过合理的资源调配策略，最大化利用通信网络资源，为不同类型的用户提供最优质的服务，是当下迫切需要解决的问题。

拥塞控制问题是网络资源调度与管理方面的经典问题，也是5G网络时代的重要问题。网络中的所有用户都希望以尽量快的速度传输数据，但网络资源是有限的，不可能允许所有用户完全按需传送数据。如果所有用户均不加限制的高速发送数据，那么数据将在网络的瓶颈处经历巨大的排队时延，甚至可能会因为路由器缓存空间有限而导致不必要的丢包，或者导致发送端产生不必要的超时重传，从而大大降低了网络性能。显然，大量增加网络的物理带宽，同时升级网络设备，可以从根本上解决这一问题，但在实际中并不容易实现。从实际操作的角度来讲，采用拥塞控制方法是当前最优的解决方案。

自从上世纪80年代以来，拥塞控制问题已经经历了数十年的研究。研究人员已经提出了众多的拥塞控制方法，并且在实际网络中取得了广泛应用。但当前广泛使用的拥塞控制方法几乎全部为基于规则的拥塞控制方法，即：此类方法只能通过某些确定的规则进行拥塞控制并尝试对网络环境进行适应。但随着5G网络的快速发展，基于规则的拥塞控制方法开始显现出一定的劣势。首先，5G网络是一种新型的高速无线接入网(Radio AccessNetwork,RAN)。在这一背景下，基于规则的拥塞控制方法不考虑网络特征及其接入方式，从而没有能够将RAN信息充分纳入考虑。其次，随着网络流量和服务类型的增加，网络自身面临的动态特性不断增强。基于规则的方法相对容易部署，但是不能充分适应网络动态；且这类方法往往是基于一些对网络环境的假设，而这些假设在实际中往往不成立。总而言之，实际网络中的复杂情况，使得基于规则的拥塞控制方法往往只能在某一类场景下取得较好效果，而通用性较差。

基于上述两点，研究人员开始考虑将深度强化学习(Deep ReinforcementLearning,DRL)引入拥塞控制问题。DRL可以自定义引入控制的信息，同时几乎不需要对网络做出过度假设。DRL本身具有探索学习周围环境的特点，使其可以在各类环境中进行部署。研究人员只需要指定奖励函数，就可以指导DRL学习的方向和效果。但以往基于DRL的拥塞控制方法具有以下问题：首先，以往的方法未考虑RAN信息，不区分RAN和有线网络，从而忽略了RAN的动态特性。其次，以往的部分方法引入了一个隐藏的假设：一个调整发送速率的动作，即调整拥塞窗口(congestion windows,cwnd)的动作的效果，在一个往返时间(Round Trip Time,RTT)之后，方可在发送端观察到效果。这个假设在实际中很难成立。最后，以往研究难以使用单个智能体同时控制多个连接的cwnd。

奖励函数再分配(Reward Redistribution)是近年来提出的一种新的强化学习技术。该技术的初衷是为了解决强化学习领域的一个典型问题：延迟奖励问题。例如，假定一个智能体玩五子棋游戏。在一局游戏进行过程中，我们不给智能体反馈奖励函数。当一局游戏结束之后，我们给智能体返回一个最终的奖励函数+1(智能体取胜)或者-1(智能体失败)。然而，智能体在一局游戏中采取了若干个动作，而它本身是不能根据最终的奖励函数确定每一步究竟对游戏最终的结果造成多大的影响。因此，奖励函数再分配的根本目的就是将延迟的奖励函数再分配到每一个动作，从而解决上述问题。

发明内容

针对现有技术存在的问题，本发明提出了一种基于深度强化学习的无线网络拥塞控制方法。相较于传统的拥塞控制方法，本发明提出的方法更加高效灵活；对比其他基于强化学习的方法，本发明提出的方法通用性更强，且能够引入RAN信息作为辅助，还能够同时控制多个TCP连接的cwnd。因此，采用本发明提出的拥塞控制方法进行拥塞控制，可显著提高无线网络性能。

为了实现上述目的，本发明采用如下技术方案：一种基于深度强化学习的无线网络拥塞控制方法，包括以下步骤：

(1)无线接入网RAN信息预测网络的初始化、数据集生成和预训练，具体包括以下子步骤：

(1.1)RAN信息预测网络分别记作

N_RAN表示RAN信息预测网络的数量，i为RAN信息预测网络的索引，通过He-Uniform初始化方法将所有RAN信息预测网络的权重进行随机初始化；

(1.2)所有客户端通过RAN接入，且通过TCP连接与服务端连接的网络环境中，设置网络环境中所有客户端在产生每个ACK报文段时，从所连接的基站或所采用的物理层协议中获取所需的N_RAN种RAN信息，并将所有RAN信息和RAN信息被采样的时间记录在ACK报文段内；设置TCP连接服务端每隔t_ts秒对其所有TCP连接进行一次拥塞窗口cwnd调节，在每次拥塞窗口cwnd调节的决策时刻t，每个TCP连接的拥塞窗口cwnd的更新方法满足：cwnd_t＝c^action×cwnd_t-1；其中，cwnd_t-1为t-1决策时刻的拥塞窗口，cwnd_t为t决策时刻的拥塞窗口，c为常数，action为范围为[-1,1]的均匀分布的样本；同时，所有拥塞窗口cwnd的下限为cwnd_min个最大报文段长度，上限为cwnd_max个最大报文段长度；在每个决策时刻，TCP连接服务端记录过去从每个客户端收到的L_pred个ACK报文段提取得到的每一种RAN信息，以及每一条RAN信息被采样的时间，并按用户进行分类，从而得到N_user×N_RAN个RAN信息序列，其中N_user为客户端数量；RAN信息序列中的每一个元素记录当前RAN信息序列记载的RAN信息的具体数值和该RAN信息被采样的时间；每条RAN序列按照RAN信息被采样的时间从旧到新排序；TCP连接服务端用决策时刻t和用户编码标记所有RAN信息序列，并按照RAN信息类别对RAN信息序列进行分类，并进行存储；同时，设置与用户连接的基站在每个决策时刻均记录所有用户的RAN信息，分别用记录时刻和用户编码标记，并进行存储；

(1.3)当TCP连接服务端对每一种RAN信息均收集到至少N_data条信息时，从基站获取所记录的用户的所有RAN信息；对于从TCP连接服务端获取的每一条RAN信息序列，根据其标记中的决策时刻t和用户编码从基站记录中获取当前用户在决策时刻t的RAN信息，并作为该RAN信息序列所对应的标签；将所有RAN信息序列及其对应的标签根据其存储的RAN信息种类进行分类，从而构成了N_RAN个数据集；

(1.4)采用上述N_RAN个数据集分别对

进行训练，采用梯度下降算法对RAN信息预测网络进行训练至收敛，并保存训练后的RAN信息预测网络；

(2)奖励函数再分配网络的初始化、数据集生成和预训练，具体包括以下子步骤：

(2.1)通过He-Uniform初始化方法将奖励函数再分配网络的权重进行随机初始化；

(2.2)在每个决策时刻t，根据子步骤(1.2)得到N_user×N_RAN个RAN信息序列，对于第i种RAN信息序列，输入PN_i预测所有用户最新的RAN信息，并拼接成维度为N_user×N_RAN的RAN信息矩阵；同时，所述TCP连接服务端收集所需的核心网CN信息，存入维度为N_user×N_CN的CN信息矩阵，其中，N_CN为核心网CN信息的种类数；所述TCP连接服务端将RAN信息矩阵和CN信息矩阵拼接，得到N_user×N_feature的状态信息矩阵，其中N_feature＝N_RAN+N_CN，并存入指定的内存空间；若该决策时刻t为L_seq的正整数倍，其中L_seq为常数，且为正整数，TCP连接服务端接收奖励函数数值

同时，建立长度为L_seq，元素为N_user×N_feature维矩阵的序列，其中，所述序列中的所有元素分别对应从t-L_seq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差；随后将奖励函数数值

作为所述序列对应的标签，并将所述序列和标签进行存储；

(2.3)当TCP连接服务端累计获取到至少N_data个所述序列以及与其对应的标签时，指定存储空间中的所有序列及其标签即构成数据集；采用该数据集对所述奖励函数再分配网络进行训练，输入为所述序列，输出为一个向量，采用该向量的最后一个元素与标签的均方误差作为损失函数，采用梯度下降算法训练所述奖励函数再分配网络至收敛，并保存预训练后的所述奖励函数再分配网络；

(3)分别通过He-Uniform初始化方法将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重进行随机初始化；同时，分别设置目标动作控制网络

目标价值评价网络

和目标表示网络

其中，目标动作控制网络

目标价值评价网络

和目标表示网络

的结构分别与所述动作控制网络μ、价值评价网络C和表示网络R的结构完全相同，并通过复制动作控制网络μ、价值评价网络C和表示网络R权重的方法完成自身权重初始化；

(4)执行拥塞控制，具体包括以下子步骤：

(4.1)在每个决策时刻t，根据子步骤(2.2)所述方法获取状态信息矩阵，并进行存储，服务端将最近的连续L_rep个状态信息矩阵

拼接成状态信息矩阵序列s_seq,t，其中L_rep为常数，输入所述表示网络R，得到N_rep维特征向量f_t；所述TCP连接服务端反复运行N_user次动作控制网络μ，每次输入第n个TCP连接的状态信息向量e_n,t和所述特征向量f_t，其中状态信息向量e_n,t是从当前状态信息矩阵中提取的，并输出其拥塞窗口cwnd的控制变量a_n,t，从OU随机噪声中获取一个采样ω，并将其加到a_n,t上，随后更新第n个TCP连接的拥塞窗口cwnd：

最后，TCP连接服务端将所有控制变量a_n,t拼接成动作向量a_t，并将序列s_seq,t和动作向量a_t存入指定的存储空间；

(4.2)在执行子步骤(5.1)所述拥塞控制的过程中，若决策时刻t为L_seq的正整数倍，TCP连接服务端接收奖励函数数值

并建立长度为L_seq的序列，其所有元素为N_user×N_feature维的矩阵，其中，所述序列中的所有元素分别对应从t-L_seq+1到t的每一个决策时刻的状态信息矩阵与其上一决策时刻状态信息矩阵之差；TCP连接服务端将该序列输入所述奖励函数再分配网络，输出L_seq维向量h_t；再分配的L_seq维奖励函数向量r_t的第m个元素满足：

1≤m≤L_seq；最后，将L_seq个四元组

存入一个大小为N_B的缓存区B里，其中1≤m≤L_seq；如果B的空间满了，最先存到B中的四元组会被删除，然后存进去最新的四元组；

(5)每执行步骤(4)的拥塞控制K次，将K次拥塞控制过程中子步骤(4.2)获得的奖励函数数值之和存入指定的存储空间；当B中储存的四元组数量大于N_batch个时，利用B中储存的四元组训练所述动作控制网络μ、价值评价网络C和表示网络R的权重，具体包括以下子步骤：

(5.1)从B中随机选取N_batch个四元组(s_seq,t,a_t,r_t+1,s_seq,t+1)作为训练数据；

(5.2)采用根据子步骤(5.1)获取的训练数据训练所述价值评价网络C，具体过程为：将训练数据中的N_batch个状态信息矩阵序列s_seq,t+1组合成维度为N_batch×L_rep×N_user×N_feature的矩阵，并将其输入所述目标表示网络

得到维度为N_batch×N_rep的由特征向量构成的特征矩阵

随后，对第n个用户，从所有状态信息矩阵序列s_seq,t+1中提取其最新状态信息，并拼接成维度为N_batch×N_feature的第n个用户的最新状态信息矩阵s_n,t+1，将所述特征矩阵

和第n个用户的最新状态信息矩阵s_n,t+1输入所述目标动作控制网络

得到维度为N_batch的动作向量a_n,t+1；反复执行上述过程N_user次，并将得到的所有动作向量拼接成维度为N_batch×N_user的动作矩阵A_t+1；随后，从所有s_seq,t+1中提取所有用户的最新状态信息，并拼接成维度为N_batch×N_user×N_feature的最新状态信息矩阵S_t+1；将所述最新状态信息矩阵S_t+1、动作矩阵A_t+1和特征矩阵

输入所述目标价值评价网络

得到维度为N_batch的目标Q函数向量

将训练数据中的N_batch个状态信息矩阵序列s_seq,t组合成维度为N_batch×L_rep×N_user×N_feature的矩阵，并将其输入所述表示网络R，得到维度为N_batch×N_rep的由特征向量构成的特征矩阵F；将训练数据中的N_batch个动作向量a_t组合成维度为N_batch×N_user的动作矩阵A_t；从所有网络状态矩阵s_seq,t中提取所有用户的最新状态信息，并拼接成维度为N_batch×N_user×N_feature的最新状态信息矩阵S_t；将所述特征矩阵F、动作矩阵A_t和最新状态信息矩阵S_t输入所述价值评价网络C，得到维度为N_batch的Q函数向量q；

将训练数据中的N_batch个奖励函数r_t+1组成奖励函数向量r，并计算Q函数目标值

其中γ为折扣因子；所述价值评价网络C的损失函数为L_c＝MSE(q,y)，其中MSE为均方误差；最后用梯度下降算法训练所述价值评价网络C的权重，完成一次价值评价网络C的训练；

(5.3)采用根据子步骤(5.1)获取的训练数据训练所述表示网络R和动作控制网络μ，具体过程为：将训练数据中的N_batch个状态信息矩阵序列s_seq,t组合成维度为N_batch×L_rep×N_user×N_feature的矩阵，并将其输入所述表示网络R，得到维度为N_batch×N_rep的由特征向量构成的特征矩阵F′。随后，对第n个用户，从所有状态信息矩阵序列s_seq,t中提取其最新状态信息，并拼接成维度为N_batch×N_feature的第n个用户的最新状态信息矩阵s_n,t；将所述特征矩阵F′和第n个用户的最新状态信息矩阵s_n,t输入所述动作控制网络μ，得到维度为N_batch的动作向量a_n,t；反复执行上述过程N_user次，并将得到的所有动作向量拼接成维度为N_batch×N_user的动作矩阵A′_t；从所有网络状态矩阵s_seq,t中提取所有用户的最新状态信息，并拼接成维度为N_batch×N_user×N_feature的最新状态信息矩阵；将所述特征矩阵F′、动作矩阵A′_t和最新状态信息矩阵S_t输入所述价值评价网络C，得到维度为N_batch的Q函数向量q′；

设置所述表示网络R和动作控制网络μ的损失函数为

其中

为q′的均值；最后用梯度下降算法训练所述表示网络R和动作控制网络μ的权重，完成一次表示网络R和动作控制网络μ的训练；

(5.4)每完成上述训练过程N_copy次，将所述动作控制网络μ、价值评价网络C和表示网络R的网络权重采用参数为θ_soft的软参数更新方法复制给目标动作控制网络

目标价值评价网络

和目标表示网络

实现所有目标网络权重的更新；

(6)重复步骤(4)-(5)，直至存储的K次拥塞控制过程中的奖励函数数值之和收敛后，完成对动作控制网络μ、价值评价网络C和表示网络R的训练；在每个决策时刻t，TCP连接服务端按照子步骤(4.1)的方法获取s_seq,t，输入所述表示网络R，得到f_t；服务端反复运行N_user次所述动作控制网络μ，每次输入第n个TCP连接的状态信息向量e_n,t，并得到其拥塞窗口cwnd控制变量a_n,t。

进一步地，所述TCP连接服务端从某个用户收到的ACK个数不足RAN信息序列长度，则进行补零操作。

进一步地，子步骤(4.3)中如果r_t所有元素之和与

不相等，则采用以下方法对r_t的第m个元素进行修正：

1≤m≤L_seq。

进一步地，N_RAN的取值为1～3，t_ts的取值为10～100毫秒。

进一步地，cwnd_min的取值为1，cwnd_max的取值不小于50。

进一步地，L_pred的取值为5～15，N_data的取值为100000～300000，N_CN的取值为3～10，L_seq的取值为3～10。

进一步地，L_rep的取值为5～15，N_rep的取值为5～20。

进一步地，N_B的取值为10000～30000，K的取值为50～200，c的取值为2。

进一步地，N_batch的取值为64～512，N_copy的取值为1，θ_soft的取值为0.99～0.999，γ的取值为0.99～1。

进一步地，所述梯度下降算法均为Adam，学习率取值为0.001～0.0001。

与现有技术相比，本发明的有益效果是：

(1)本发明引入了RAN信息作为拥塞控制的辅助信息，从而使得服务端可以直接了解RAN的动态变化情况，同时引入了RAN信息预测网络以解决RAN信息的延迟问题和非均匀采样间隔问题。相比于现有技术，本发明提出的方法能够使得服务端更好的针对RAN进行拥塞控制。

(2)本发明采用了奖励函数再分配方法以更加准确地评价服务端的每一个调整拥塞控制cwnd的动作的效果。相比于现有技术，本发明放松了其他技术中的不合理假设，能够更好地适应网络的动态环境。

(3)本发明中的Actor网络采用循环决策的方法对所有TCP连接的拥塞控制cwnd进行调整。相比于现有的基于强化学习的拥塞控制技术，本发明的方法能够在保证网络性能的同时，更好地保证网络的公平性。

(4)本发明得到的拥塞控制策略相较于既有的拥塞控制方法如TCP Reno、TCPCubic、TCP Westwood和TCP BBR，具有较高的吞吐量和较低的循环时间(Round Trip Time,RTT)，且具有更好的公平性。

附图说明

图1为本发明基于深度强化学习的无线网络拥塞控制方法流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合附图详予说明。

参阅图1，为本发明基于深度强化学习的无线网络拥塞控制方法流程图，所述无线网络拥塞控制方法具体包括以下步骤：

(1.1)RAN信息预测网络分别记作

N_RAN表示RAN信息预测网络的数量，i为RAN信息预测网络的索引，通过He-Uniform初始化方法将所有RAN信息预测网络的权重进行随机初始化。N_RAN的取值为1～3，过大会导致客户端生成ACK报文段速度减慢，且客户端不一定能提取到大量的RAN信息。所述RAN信息预测网络的输入长度L_pred的取值为5～15，过小会导致预测准确度不够，不能准确提取动态信息，过大会导致训练缓慢，计算量增大。

(1.2)所有客户端通过RAN接入，且通过TCP连接与服务端连接的网络环境中，设置网络环境中所有客户端在产生每个ACK报文段时，从所连接的基站或所采用的物理层协议中获取所需的N_RAN种RAN信息，并将所有RAN信息和RAN信息被采样的时间记录在ACK报文段内；设置TCP连接服务端每隔t_ts秒对其所有TCP连接进行一次拥塞窗口cwnd调节，t_ts的取值为10～100毫秒，过小会导致调节速率过高，且可能无法快速完成计算；过大会导致不能及时对网络动态做出响应，降低性能。在每次拥塞窗口cwnd调节的决策时刻t，每个TCP连接的拥塞窗口cwnd的更新方法满足：cwnd_t＝c^action×cwnd_t-1；其中，cwnd_t-1为t-1决策时刻的拥塞窗口，cwnd_t为t决策时刻的拥塞窗口，c为2，取值过小将导致拥塞窗口cwnd调节能力不足，取值过大将导致容易出现拥塞；action为范围为[-1,1]的均匀分布的样本；同时，所有拥塞窗口cwnd的下限为cwnd_min个最大报文段长度，cwnd_min的取值为1；上限为cwnd_max个最大报文段长度，cwnd_max的取值不小于50，cwnd_max取值过小会降低吞吐量，过大会导致拥塞出现的可能性增加。在每个决策时刻，TCP连接服务端记录过去从每个客户端收到的L_pred个ACK报文段提取得到的每一种RAN信息，以及每一条RAN信息被采样的时间，并按用户进行分类，从而得到N_user×N_RAN个RAN信息序列，其中N_user为客户端数量；每一个序列的长度均为L_pred，RAN信息序列中的每一个元素记录当前RAN信息序列记载的RAN信息的具体数值和这个RAN信息被采样的时间；每条RAN序列按照RAN信息被采样的时间从旧到新排序；特别的，如服务端从某个用户收到的ACK个数不足L_pred个，导致该用户给出的RAN信息序列长度不足，则对序列长度不足的部分补零。TCP连接服务端用决策时刻t和用户编码标记所有RAN信息序列，并按照RAN信息类别对RAN信息序列进行分类，并进行存储；同时，设置与用户连接的基站在每个决策时刻均记录所有用户的RAN信息，分别用记录时刻和用户编码标记，并进行存储。

(1.3)当TCP连接服务端对每一种RAN信息均收集到至少N_data条信息时，从基站获取所记录的用户的所有RAN信息；N_data的取值为100000～300000。N_data过小会导致训练不完善，过大会导致数据收集时间过长，且使得RAN信息预测网络训练速度减慢。对于从TCP连接服务端获取的每一条RAN信息序列，根据其标记中的决策时刻t和用户编码从基站记录中获取当前用户在决策时刻t的RAN信息，并作为该RAN信息序列所对应的标签；将所有RAN信息序列及其对应的标签根据其存储的RAN信息种类进行分类，从而构成了N_RAN个数据集。

(1.4)采用上述N_RAN个数据集分别对

进行训练，采用梯度下降算法对RAN信息预测网络进行训练至收敛，并保存训练后的RAN信息预测网络。

(2.1)通过He-Uniform初始化方法将奖励函数再分配网络RR的权重进行随机初始化；所述奖励函数再分配网络RR输入长度为L_seq的序列，输出维度为L_seq的向量h。L_seq的取值为3～10，L_seq取值过小会导致奖励函数再分配失效，因为序列过短分配的意义不大，取值过大会导致接收的奖励函数无法反映网络动态变化，同样使得奖励函数再分配失效。

(2.2)在每个决策时刻t，根据子步骤(1.2)得到N_user×N_RAN个RAN信息序列，对于第i种RAN信息序列，输入PN_i预测所有用户最新的RAN信息，并拼接成维度为N_user×N_RAN的RAN信息矩阵；同时，所述TCP连接服务端收集所需的核心网CN信息，存入维度为N_user×N_CN的CN信息矩阵，其中，N_CN为核心网CN信息的种类数；N_CN的取值为3～10，取值过小会导致服务端无法获取足够有效信息，取值过大会导致计算量过大。核心网CN信息是指服务端在传输层层面上可以直接测得的信息。所述TCP连接服务端将RAN信息矩阵和CN信息矩阵拼接，得到N_user×N_feature的状态信息矩阵，其中N_feature＝N_RAN+N_CN，并存入指定的内存空间；若该决策时刻t为L_seq的正整数倍，其中L_seq为常数，且为正整数，TCP连接服务端接收奖励函数数值

同时，建立长度为L_seq，元素为N_user×N_feature维矩阵的序列，其中，所述序列中的所有元素分别对应从t-L_seq+1到t的每一个决策时刻的状态信息矩阵与其上决策一时刻状态信息矩阵之差；随后将奖励函数数值

作为所述序列对应的标签，并将所述序列和标签进行存储。

目标价值评价网络

和目标表示网络

其中，目标动作控制网络

目标价值评价网络

和目标表示网络

的结构分别与所述动作控制网络μ、价值评价网络C和表示网络R的结构完全相同，并通过复制动作控制网络μ、价值评价网络C和表示网络R权重的方法完成自身权重初始化。

(4)执行拥塞控制，具体包括以下子步骤：

拼接成状态信息矩阵序列s_seq,t，其中L_rep为常数，输入所述表示网络R，得到N_rep维特征向量f_t，N_rep的取值为5～20，过小会导致信息表达能力过差，过大会导致运行速度减慢；若当前状态信息数量不足L_rep个，则s_seq,t长度不足部分以0填充。所述TCP连接服务端反复运行N_user次动作控制网络μ，每次输入第n个TCP连接的状态信息向量e_n,t和所述特征向量f_t，其中状态信息向量e_n,t是从当前状态信息矩阵中提取的，并输出其拥塞窗口cwnd的控制变量a_n,t，从OU随机噪声中获取一个采样ω，并将其加到a_n,t上，随后更新第n个TCP连接的拥塞窗口cwnd：

1≤m≤L_seq；特别的，如果r_t所有元素之和与

不相等，则采用以下方法对r_t的第m个元素进行修正：

1≤m≤L_seq。最后，将L_seq个四元组

存入一个大小为N_B的缓存区B里，其中1≤m≤L_seq；N_B的取值为10000～30000，取值过小会导致数据不能近似满足独立同分布，取值过大会浪费存储空间，且不能及时对最新经验进行学习。如果B的空间满了，最先存到B中的四元组会被删除，然后存进去最新的四元组。

(5)每执行步骤(4)的拥塞控制K次，将K次拥塞控制过程中子步骤(4.2)获得的奖励函数数值之和存入指定的存储空间；当B中储存的四元组数量大于N_batch个时，利用B中储存的四元组训练所述动作控制网络μ、价值评价网络C和表示网络R的权重，K的取值为50～200，取值过小会导致策略变化过快，不能有效探索环境，取值过大会导致策略更新频率过低。N_batch的取值为64～512。取值过小会导致参数变化更易受到异常数据的影响，取值过大会显著降低训练速度。具体包括以下子步骤：

得到维度为N_batch×N_rep的由特征向量构成的特征矩阵

N_rep的取值为5～20，取值过小会导致特征向量f不能有效包含时变信息，取值过大会显著增加计算量。随后，对第n个用户，从所有状态信息矩阵序列s_seq,t+1中提取其最新状态信息，并拼接成维度为N_batch×N_feature的第n个用户的最新状态信息矩阵s_n,t+1，将所述特征矩阵

输入所述目标价值评价网络

得到维度为N_batch的目标Q函数向量

其中γ为折扣因子；γ的取值为0.99～1，取值过小或过大均不符合理论要求。所述价值评价网络C的损失函数为L_c＝MSE(q,y)，其中MSE为均方误差；最后用梯度下降算法训练所述价值评价网络C的权重，完成一次价值评价网络C的训练；

设置所述表示网络R和动作控制网络μ的损失函数为

其中

为q′的均值；最后用梯度下降算法训练所述表示网络R和动作控制网络μ的权重，完成一次表示网络R和动作控制网络μ的训练。

训练RAN信息预测网络

奖励函数再分配网络RR、动作控制网络μ、价值评价网络C和表示网络R所使用的梯度下降算法均为Adam，学习率取值为0.001～0.0001，取值过小会减慢收敛速度，取值过大会导致训练过程不稳定。

目标价值评价网络

和目标表示网络

实现所有目标网络权重的更新；N_copy的取值为1，取值过大会导致软参数更新方法更新过慢；θ_soft的取值为0.99～0.999，取值过大会导致新参数在更新后的网络中占比过小，从而使得目标网络几乎没有更新，取值过小会导致软参数更新方法失效，退化为近似的硬参数更新方法。

实施例

在配置如表1所示的主机上，采用Python语言编写了仿真环境。仿真环境中共有1台服务器，30个客户端。客户端通过RAN连接至基站，基站通过一条光纤连接至边缘路由器，边缘路由器通过三条独立路径连接至服务器，每条路径上均有一个路由器。三条路径保持完全一致。设置N_RAN为2,t_ts为20毫秒，cwnd_min为1，cwnd_max为50，L_pred为10，N_data为200000，N_CN为5，L_seq为5，L_rep为10，N_rep为10，c为2，N_B为20000，N_batch为128，K为94，N_copy为1，θ_soft为0.999，γ为0.99。训练RAN信息预测网络PN₁和PN₂、奖励函数再分配网络RR、Actor网络μ、Critic网络C和表示网络R所使用的梯度下降算法均为Adam，学习率分别为0.001、0.001、0.001、0.0001、0.001、0.001。RAN信息预测网络PN₁和PN₂均为基于长短时记忆网络(Long-shortTerm Memory,LSTM)的神经网络，具有3个LSTM层，输出层为全连接神经网络(FullyConnected Neural Network,FCNN)，隐藏层具有4个神经元，并经过块归一化，采用ELU激活函数。奖励函数再分配网络RR输入层为FCNN，并经过块归一化，采用Tanh激活函数。记忆层具有5个LSTM层，输出层为FCNN。Actor具有两个输入层，分别接收当前用户最新状态信息和特征向量，均为FCNN，并经过块归一化，采用ELU激活函数。输出层为FCNN，隐藏层具有60个神经元，并经过块归一化，采用ELU激活函数。Critic具有三个输入层，分别接收所有用户最新状态信息矩阵、特征向量和动作，均为FCNN，并经过块归一化，采用ELU激活函数。输出层为FCNN，隐藏层具有80个神经元，并经过块归一化，采用ELU激活函数。表示网络的记忆层具有3个LSTM层，输出层为FCNN，具有40个隐藏神经元，并经过块归一化，采用ELU激活函数。通过上述参数设置，采用本发明的方法进行拥塞控制，具有较高的吞吐量，较低的RTT和优异的公平性。

表1系统测试平台参数

Claims

1.一种基于深度强化学习的无线网络拥塞控制方法，其特征在于，包括以下步骤：

(1.1)RAN信息预测网络分别记作PN₁,PN₂,…,PN_i,…,

(1.4)采用上述N_RAN个数据集分别对PN₁，PN₂，…，

作为所述序列对应的标签，并将所述序列和标签进行存储；

(3)分别通过He-Uniform初始化方法将动作控制网络μ、价值评价网络C和表示网络R的网络权重进行随机初始化；同时，分别设置目标动作控制网络

目标价值评价网络

和目标表示网络

其中，目标动作控制网络

目标价值评价网络

和目标表示网络

(4)执行拥塞控制，具体包括以下子步骤：

(4.2)在执行子步骤(4.1)的过程中，若决策时刻t为L_seq的正整数倍，TCP连接服务端接收奖励函数数值

最后，将L_seq个四元组

得到维度为N_batch×N_rep的由特征向量构成的特征矩阵

输入所述目标价值评价网络

得到维度为N_batch的目标Q函数向量

(5.3)采用根据子步骤(5.1)获取的训练数据训练所述表示网络R和动作控制网络μ，具体过程为：将训练数据中的N_batch个状态信息矩阵序列s_seq,t组合成维度为N_batch×L_rep×N_user×N_feature的矩阵，并将其输入所述表示网络R，得到维度为N_batch×N_rep的由特征向量构成的特征矩阵F′；随后，对第n个用户，从所有状态信息矩阵序列s_seq,t中提取其最新状态信息，并拼接成维度为N_batch×N_feature的第n个用户的最新状态信息矩阵s_n,t；将所述特征矩阵F′和第n个用户的最新状态信息矩阵s_n,t输入所述动作控制网络μ，得到维度为N_batch的动作向量a_n,t；反复执行上述过程N_user次，并将得到的所有动作向量拼接成维度为N_batch×N_user的动作矩阵A′_t；从所有网络状态矩阵s_seq,t中提取所有用户的最新状态信息，并拼接成维度为N_batch×N_user×N_feature的最新状态信息矩阵；将所述特征矩阵F′、动作矩阵A′_t和最新状态信息矩阵S_t输入所述价值评价网络C，得到维度为N_batch的Q函数向量q′；

设置所述表示网络R和动作控制网络μ的损失函数为