CN114189937A

CN114189937A - 基于深度强化学习的实时集中式无线网络调度方法和设备

Info

Publication number: CN114189937A
Application number: CN202111327752.5A
Authority: CN
Inventors: 王琪; 何晨涛; 黄建辉; 徐勇军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-03-15

Abstract

本发明提出一种基于深度强化学习的实时集中式无线网络调度方法和系统，包括：获取由一个接入点和多个用户节点互连组成的无线网络，在每个时隙，接入点根据所有数据流对应的发送队列信息，得到各数据流的状态，集合所有数据流的状态构成当前时隙的环境状态，接入点获取所有数据流的流量模型与链路质量作为环境特征信息，将环境状态和环境特征信息输入至决策模型，接入点执行决策模型输出结果对应的调度决策；接入点执行调度决策后，收到网络环境的反馈；将交互信息和环境状态和环境特征信息作为经验，存储至子区域；从经验回放池中抽取经验，以训练更新当前决策模型。本发明训练时间不会随数据流数量增加而快速增长，能够快速的收敛到最优实时吞吐量。

Description

基于深度强化学习的实时集中式无线网络调度方法和设备

技术领域

本发明属于信息技术中路由网络信息调度技术领域，并特别涉及一种基于深度强化学习的实时集中式无线网络调度方法和设备。

背景技术

近年来，实时无线网络越来越广泛地被使用在各种需要时延约束的应用中。这种类型的典型应用包括工业物联网和网络运输系统中使用的信息物理系统(CPSs)，或者用于实况视频传输的多媒体通信系统。这些系统通常要求数据包在截止期限内被目的节点所接收，否则数据包将会从发送队列当中被移除。衡量实时无线网络的重要指标是实时吞吐量，其定义为被目的节点成功接收的数据包数量与网络中产生的数据包数量的总和的比值。

近年来，如何调度受时延期限约束的实时网络以达到更高的实时吞吐量的问题引起了人们广泛的关注。目前已经提出的调度策略只考虑帧同步流量模型，在这种模型下，网络中数据流的数据包截止期限与到达周期是相等的。帧同步流量模型往往无法对许多重要的实际场景进行建模。例如，对于一个典型的移动视频会议场景，时延期限通常比帧生成周期短很多。在这种场景下，前面提到的调度方法不能满足这种实时数据流的时延期限。

对于通用流量模型的调度算法的研究，其往往因为计算复杂度过高或无法到达最优实时吞吐量而在现实场景中无法取得很好的效果。此外，传统的方法，如贪心算法、动态规划等，其调度策略不能自动适应动态网络环境，因此，现有研究工作无法提供高效、自适应的实时网络调度策略。

发明内容

具体来说，本申请提出了一种基于深度强化学习的实时集中式无线网络调度方法，其中包括：

步骤1、获取由一个接入点和多个用户节点互连组成的无线网络，接入点调度该无线网络中的所有数据流，该无线网络中接入点在与网络环境交互前，在经验回放池中新建一个子区域；

步骤2、该接入点与网络环境交互时，在每个时隙，该接入点根据所有数据流对应的发送队列信息，得到各数据流的状态，集合所有数据流的状态构成当前第t个时隙的环境状态s_t，同时，该接入点获取所有数据流的流量模型与链路质量作为环境特征信息，将该环境状态和该环境特征信息输入至决策模型，该接入点执行该决策模型输出结果对应的调度决策a_t；

步骤3、该接入点执行调度决策a_t后，收到网络环境的反馈r_t和终止标识end_t，所有数据流的状态更新至s_t+1；将交互信息(s_t,a_t,r_t,s_t+1,end_t)和该环境状态和该环境特征信息作为经验，存储至该子区域；

步骤4、从该经验回放池中抽取经验，以训练更新当前该决策模型。

所述的基于深度强化学习的实时集中式无线网络调度方法，其中该决策模型的训练过程包括：

创建两个具有相同结构的神经网络，分别为当前网络和目标网络，当接入点需要做出调度决策时，会将当前时隙t的环境状态和环境特征信息输入至该目标网络，得到各调度动作的价值，接入点以ε的概率随机选取一个动作执行调度，以1-ε的概率选择价值最高的动作执行调度，ε为0到1之间的小数，

当接入点执行动作a_t后，得到反馈r_t和终止标识end_t，环境状态更新至s_t+1；将交互信息(s_t,a_t,r_t,s_t+1,end_t)存储到该经验回放池，其中，end_t是终止表示符，当t≥L*Prd且t％Prd＝0时，end_t＝true，否则end_t＝false，L是恒定的正整数，满足：

L*Prd≥max_k∈[1,K](offset_k+D_k)

其中，Prd是所有数据流周期的最小公倍数，D_k表示数据流k中数据包的截止期限，offset_k表示数据流k的首个数据包到达时间与网络开始时间的偏移量，当end_t＝true时，接入点与当前训练环境的交互过程结束，开始与另一个训练环境进行交互；

从经验回放池中随机抽取部分交互信息后，通过最小化损失函数来更新该当前网络的参数，目标网络的参数θ_target每隔预定时间，会被该当前网络的参数θ_current所覆盖，达到预设训练时长后，保存当前目标网络作为该决策模型。

所述的基于深度强化学习的实时集中式无线网络调度方法，其中ε的计算方法如下：

其中，ε₀＝0.99，ε_min＝0.001，train_time指接入点已经交互的环境的数量，初始值为0，当接入点与一个环境交互结束后，该值加1。

所述的基于深度强化学习的实时集中式无线网络调度方法，其中该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。

本发明还提出了一种基于深度强化学习的实时集中式无线网络调度系统，其中包括：

准备模块，用于获取由一个接入点和多个用户节点互连组成的无线网络，接入点调度该无线网络中的所有数据流，该无线网络中接入点在与网络环境交互前，在经验回放池中新建一个子区域；

调度决策模块，用于在该接入点与网络环境交互时，在每个时隙，该接入点根据所有数据流对应的发送队列信息，得到各数据流的状态，集合所有数据流的状态构成当前第t个时隙的环境状态s_t，同时，该接入点获取所有数据流的流量模型与链路质量作为环境特征信息，将该环境状态和该环境特征信息输入至决策模型，该接入点执行该决策模型输出结果对应的调度决策a_t；

存储模块，用于该接入点执行调度决策a_t后，收到网络环境的反馈r_t和终止标识end_t，所有数据流的状态更新至s_t+1；将交互信息(s_t,a_t,r_t,s_t+1,end_t)和该环境状态和该环境特征信息作为经验，存储至该子区域；

更新模块，用于从该经验回放池中抽取经验，以训练更新当前该决策模型。

所述的基于深度强化学习的实时集中式无线网络调度系统，其中该决策模型的训练过程包括：

L*Prd≥max_k∈[1,K](offset_k+D_k)

所述的基于深度强化学习的实时集中式无线网络调度系统，其中ε的计算系统如下：

所述的基于深度强化学习的实时集中式无线网络调度系统，其中该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。

本发明提出了一种计算机可读存储介质，用于存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现所述的任意一种基于深度强化学习的实时集中式无线网络调度方法。

本发明提出了一种客户端，用于所述的任意一种基于深度强化学习的实时集中式无线网络调度系统。

本发明与现有技术相比，具有以下优点：

1.本发明提出了基于深度强化学习的集中式调度方法和分布式调度方法。现有的方法如RAC方法，具有很高的复杂度，求解最优问题得到最优调度策略花费的时间成本随着数据流数量的增加呈指数级增长。本发明提出的方法训练时间不会随着数据流数量的增加快速增长，且能够快速的收敛到最优实时吞吐量。

2.为了适应无线实时网络的动态变化，本发明对深度强化学习中的Q函数进行了修改，使其不仅与状态和动作有关，而且与环境特征有关。与现有技术相比，本发明能够更好的适应新环境，在动态实时无线网络环境下具有更高的泛化能力。泛化能力的强弱决定了本发明提出的方法能否推广到具有不同流量模型和链路质量的网络。

3.本发明的分布式调度方法采用了集中式训练，分布式执行的框架。基于深度强化学习的分布式实时无线网络调度方法在每个发送节点上分布式执行，而在训练时，智能体允许使用全局信息来简化训练过程。

4.本发明奖每个流的状态通过指数函数进行转化，使得状态能够在数值上直观反应调度数据流k的紧急程度。与现有的方法提出的二进制字符串表示方法相比，本发明陈述的状态表示方法能够使得深度强化学习方法能快的收敛，并达到最优实时吞吐量。

附图说明

图1是本发明基于深度强化学习的集中式实时无线网络调度方法实现框架。

图2是本发明基于深度强化学习的分布式实时无线网络调度方法实现框架。

图3是本发明适用的两种经典场景的网络拓扑图。

图4是根据本发明实施例的用于深度强化学习的实时无线网络调度的设备的功能配置框图；

图5至图12是本发明实例的仿真实验结果图。

具体实施方式

本发明涉及一种基于深度强化学习的实时无线网络调度方法和设备，旨在解决数据流在动态网络条件和通用流量模型下，无法提供自适应动态调度策略的技术问题。所述方法包括集中式方法和分布式方法。

集中式方法包括：单跳网络存在一个接入点(AP)和多个用户节点，接入点在每个时隙可以获取全局信息，并决定为哪个用户节点服务。设计通用流量模型表示方法，建立基于深度强化学习的集中式实时无线网络调度方法框架，并设计各个模块交互的内容；设计基于深度强化学习的集中式实时无线网络调度方法结构。

分布式方法包括：单跳网络存在多个接入点(AP)和多个用户节点，每个接入点独立负责服务多个不同的用户节点，每个接入点在每个时隙开始时可以获取局部信息，结合无线信道所观测到的信息，决定为哪个用户节点服务，当同一时隙，有多个接入点要服务用户节点时，网络中就会发生传输冲突，导致传输失败。建立基于深度强化学习的分布式实时无线网络调度方法框架，并设计基于深度强化学习的分布式实时无线网络调度方法结构。本发明具有良好的模型泛化能力，且能够快速的收敛到最优实时吞吐量，能够在动态网络环境和通用流量模型场景下取得较好性能。

针对现有技术的不足，根据本发明的第一方面，提出一种基于深度强化学习的实时无线网络调度方法，以提供一个在动态网络条件和通用流量模型下，高效的自适应动态调度策略。本发明的所采用的技术方案分为集中式调度方法和分布式调度方法两部分。

(1)集中式调度方法，包括如下步骤：

集中式调度方法适用于如下场景：单跳网络中存在一个接入点(AP)和多个用户节点。

网络中存在多个数据流，每个数据流都属于通用流量模型，每个数据流有一个发送队列，数据包按照数据流的流量模型依次到达发送队列当中，等待被发送节点发送，当数据包成功被目的节点成功接收或者数据包超过了截止期限后尚未被目的节点成功接收，则数据包会从发送队列中移除。其中数据流若在AP上，则AP作为发送队列，若数据流在用户节点上，则用户节点作为发送节点。

数据流中的数据包可以由用户节点传输到接入点或者由接入点传输到用户节点。当数据流位于用户节点上时，用户节点作为发送节点，接入点作为接收节点(即：目的节点)，用户节点与接入点之间构成一条上行链路。当数据流位于接入点上时，用户节点作为接收节点，接入点作为发送节点(即：目的节点)。用户节点与接入点之间构成一条下行链路。上行链路与下行链路统称为链路。数据包在链路上进行传输时会受到链路质量的影响而发生丢包，发送节点在每个时隙发送数据包后，接收节点会发送ACK信息给发送节点告知是否成功接收到数据包，在本发明中不考虑ACK的传输受链路质量的影响。

在每个时隙，接入点可以获取环境的全局信息，即：每个数据流的发送队列中各个数据包的信息以及每个数据流的流量模型信息。接入点根据全局信息决定调度哪个数据流，然后发送该数据流对应发送队列中的数据包。由于接入点与用户节点之间构成一条链路，因此，调度某个数据流等价于调度某条链路。假设网络中存在K个数据流，每个数据流都属于通用流量模型，即：数据包周期性到达发送队列中，每个数据流中的数据包有统一的截止期限，数据流的通用流量模型可以通过以下向量表示：

(offset_k，prd_k，D_k，B_k，pro_k)，k∈K

其offset_k表示数据流k的首个数据包到达时间与网络开始时间的偏移量；prd_k表示第k条数据流中数据包的到达周期；D_k表示数据流k中数据包的截止期限；B_k∈[1，0]表示数据流k中数据包的到达概率，应用层的数据流产生的数据包在进入发送队列时会受到到达概率的影响从而无法进入发送队列当中；pro_k表示链路k的链路质量，数据包在链路上进行传输时会受到无线信道干扰和噪声的影响从而产生丢包现象，则目的节点将无法成功接收数据包；

建立基于深度强化学习的实时无线网络调度方法框架，包括深度强化学习的智能体和环境两大模块，并设计各个模块交互的内容；

进一步地，深度强化学习的智能体和环境两大模块设计如下：

(1)实时无线网络中的接入点视为深度强化学习的智能体；

(2)抽象环境为实时无线网络，包括网络中所有的数据流信息以及对应的发送队列中数据包的状态信息；

(3)对于集中式调度方法，网络中仅存在一个接入点，即：一个智能体，接入点在每个时刻获取全局信息，即：环境状态，并执行动作，环境收到动作将反馈于智能体一个奖励值，从而实现接入点与环境的交互，接入点与环境的交互过程被建模为马尔可夫决策过程。

(4)对于分布式调度方法，网络中同时存在多个接入点，即：多个智能体，每个接入点在每个时刻获取局部信息，即：部分环境状态，并执行动作，环境接收到动作后会反馈奖励值，从而实现接入点与环境的交互。接入点与环境的交互过程被建模为部分可观测马尔可夫决策过程。

进一步地，在集中式调度方法中，马尔可夫决策过程中的状态定义如下，数据流在时隙t下的状态由一个二维向量(q_t(k),l_t(k))表示，环境在时隙t下的状态s_t是所有数据在时隙t下的状态的集合，即：s_t＝((q_t(1),l_t(1)),...,(q_t(k),l_t(k)),...,(q_t(K),l_t(K)))表示。

其中，l_t(k)表示时隙t时数据流k的数据包到达因子。若数据流k在下一时隙t+1可能会有新的数据包可能到达发送队列，则l_t(k)＝1，否则l_t(k)＝0。

l_t(k)可由数据流的流量模型计算得出。即：

q_t(k)表示在时隙t时数据流k的待调度紧急程度:

其中，G是在时隙t时，数据流k的发送队列中未过期的数据包数量。g是数据包在G个数据中的到达顺序，数据流k中第g个数据包的到达时间和过期时间可以表示为

和

数据包的过期时间可以根据数据流k的流量模型由以下公式计算得出：

则数据包距离过期的剩余时间

可以表示为：

进一步地，在集中式调度方法中，马尔可夫决策过程中的动作定义如下，接入点在时隙t的动作a_t是选择某个发送队列并发送队列当中距离过期时间最短的数据包。a_t是被调度的数据流的编号。接入点的动作空间可以表示为A＝{0，1，2，....，K}且a_t∈A。

进一步地，在集中式调度方法中，马尔可夫决策过程的奖励函数定义如下，有两种奖励函数可以选择，第一种奖励函数是根据数据包的发送结果设计，当发送节点发送的数据包被目的节点成功接收，则r_t＝1，否则r_t＝0。第二种奖励函数是根据所调度的数据流的链路质量设计，如果所调度的数据流的发送队列中有数据包，则r_t＝pro_k，否则r_t＝0。在实际应用中，可以根据是否已知链路的质量来选择其中一种奖励函数。

进一步地，基于深度强化学习的集中式实时无线网络调度方法结构如下：基于双重深度Q网络DDQN(Double Deep Q-Network)的调度策略在接入点执行，同时，DDQN被一个预先设置的优化器集中式训练。DDQN的输入为数据流的流量模型信息，环境状态信息，输出为采取不同动作的价值(即：Q值)，可以表示如下：

q(env feas,s,a；θ)

其中，env feas表示所有数据流的流量模型信息，又称为当前环境的环境特征，每个时隙接入点获取当前状态s_t及所有数据流的流量模型信息env feas作为DDQN网络的输入，从而得到采取不同动作的Q值。

集中式实时无线网络调度方法结构成为两个主要部分，训练过程与执行过程。

在训练过程中，接入点会与多个训练环境进行交互，不同的训练环境由不同的环境特征所描述。在每个时隙，接入点获取环境状态s_t，然后执行动作a_t，接入点会随机地选择动作空间中的某个动作进行执行或者执行DDQN网络输出的最大Q值对应的动作。当接入点执行动作a_t后，环境会给出反馈r_t和end_t。环境状态会更新至s_t+1。接入点与环境的交互信息(s_t,a_t,r_t,s_t+1,end_t)将会被存储到经验回放池中。其中，end_t是终止表示符，经验回放池的具体位置可根据需要进行指定，在最优实施例中其位于接入点即智能体。当t≥L*Prd且t％Prd＝0时，end_t＝true,否则end_t＝false。L是一个恒定的正整数，满足：

L*Prd≥max_k∈[1,K](offset_k+D_k)

其中，Prd＝Least Common Multiple(prd₁,prd₂,…,prd_K)，即：Prd是所有数据流的周期的最小公倍数，当end_t＝true时，接入点与当前训练环境的交互过程结束，开始与另一个新的训练环境进行交互。

接入点的经验回放池会被划分为多个子区域，每个子区域存储接入点与某个特定环境的交互信息。在每个时隙，会从所有经验回放池中随机抽取一定数量的交互信息，每个交互信息都属于某个特定环境，该特定环境用环境特征来描述，交互信息与环境特征共同用于训练并更新神经网络的参数，所抽取的信息的数量不宜过大，也不宜过小，如果过大，会导致内存空间不够，神经网络可能会收敛到局部最优点，如果过小，训练时间过长，相邻两次训练之间的网络参数震荡幅度较大，在本实验中，所抽取的交互信息的数量，即：batch_size设置为64。

建立两个具有相同结构的神经网络，分别为当前网络和目标网络。其中，当前网络用于训练，目标网络用于选择动作。每隔一段固定的时间，目标网络的参数θ_target会从当前网络参数θ_current中复制。

在训练的过程中，从经验回放池中随机抽取一定数量(batch_size＝64)的交互信息后，对于所提取的交互信息，用(s_j,a_j,r_j,s′_j,end_j)表示，其中j∈[1,batch_size]表示每个交互信息的序号，s′_j表示s_j采取动作a_j后的下一个状态，即：前面所述的s_t+1。通过最小化一个预先设置的损失函数来更新当前网络的参数：

其中，y_j为目标网络的Q值，当end_t＝true时，y_j＝R_j；当end_t＝false时，y_j＝R_j+γQ(s_j+1,a′；θ_{tar get})。

在测试过程中，接入点在每个时隙接收环境的状态s_t及所有数据流的流量模型信息，作为目标网络的输入，目标网络输出采取不同动作的Q值，接入点选择Q值最大的动作进行执行，环境接收到动作后，更新到下一个状态s_t+1。

分布式调度方法，包括如下步骤：

(2)分布式调度方法适用于如下场景：单跳网络中存在多个接入点(AP)和多个用户节点。

数据流的特点与集中式调度方法中的描述的一样，不同的地方在于，在集中式调度方法中，网络中仅存在一个接入点，即：一个智能体。该接入点可以获取所有数据流的状态信息，而在分布式调度方法中，网络中存在多个接入点，即：多个智能体，每个接入点只能获取环境状态的部分信息，即：获取部分数据流的状态信息，且每个接入点所能获取的数据流信息互不相交，各自独立。

接入点在每个时隙选择数据流对应的发送队列并发送其中一个数据包，由于存在多个接入点，而每个接入点都是独立做出调度决策，因此，如果在同一时隙，有多个接入点同时选择所管理的数据流发送数据包，则会发生碰撞，从而导致数据包传输失败。本发明默认在分布式调度方法中，一个完整的数据包传输过程包括发送RTS，CTS，DATA(即：数据包)和ACK包，且控制数据包RTS，CTS，ACK的传输不受链路质量的影响。DATA，即：数据包的传输则会受到链路质量的影响从而产生丢包现象。

进一步地，在分布式调度方法中，部分可观测马尔可夫决策过程中的状态定义与集中式调度方法中的状态定义相同，分布式调度方法与集中式调度方法的区别在于，在分布式调度方法中，每个接入点都无法获取网络中所有数据流发送队列的状态信息，只能获取属于自己管理的数据流的状态信息及数据流的流量模型信息。

进一步地，在分布式调度方法中，部分可观测马尔可夫决策过程中的观测信息定义如下：在每个时隙，接入点通过无线共享信息可以监听数据包的传输情况，具体可以分为三种情况：

(1)没有任何数据包进行传输，此时，可能是发生了冲突或者没有接入点所管理的数据流发送数据包；

(2)某个发送节点成功发送了数据包，但该数据包受链路质量的影响发生丢包，从而导致目的节点没有接收到；

(3)某个发送节点成功发送了数据包，并被目的节点成功接收。

以上三种情况，节点可以通过接收到的RTS，CTS，DATA及ACK的情况进行区分。将接入点i(假设分布式调度方法中，接入点的总量为I个)在时隙t观测到的信息定义为

对于情况(1)，

对于情况(2)和情况(3)，如果数据包的发送节点是节点i，则

否则，对于情况(2),

对于情况(3)，

历史信息

定义为发送节点i从时隙t-Prd直到时隙t-1的观测信息的集合。即：历史信息

可以表示为

进一步地，在分布式调度方法中，部分可观测马尔可夫决策过程的动作定义与集中式调度方法中的马尔可夫决策过程定义类似，每个接入点的动作

是调度其管理的一个数据流或者不调度任何一个数据流。例如接入点i要管理N_i个数据流，那么接入点i动作空间A_i的大小即为N_i+1。在每一个时隙，每个接入点独立地做出调度决策，所有接入点的动作组合成联合动作。联合动作空间大小为

进一步地，基于深度强化学习的分布式实时无线网络调度方法：使用集中式训练，分布式执行的框架。在集中式训练阶段，允许智能体获取全局信息，在执行阶段，智能体仅根据局部信息独立做出调度决策。具体细节如下：

在分布式调度算法中，在每个接入点上创建学徒网络，并创建各自的经验回放池，同时在整个网络中创建一个专家网络。在集中式训练阶段，专家网络可以收集所有数据流的发送队列的状态信息，并给出每个接入点的最优调度决策动作，每个接入点在训练阶段会执行专家网络给出的最优调度决策动作，并将局部信息与对应的最优调度决策动作所组成的交互信息

放入各自的经验回放池。

对于每个接入点，在每个时隙，会从各自的经验回放池中随机抽取一定数量的交互信息用于更新接入点上的学徒网络参数

与集中式中的设置一样，所提取的交互信息的数量，即：batch_size设置为64。对所提取的交互信息，用(h_j,s_j,opt_a_j)来表示，其中j∈[1,batch_size]表示每个交互信息的序号，通过最小化一个预先设置的损失函数来更新学徒网络的参数：

其中，p_jc是学徒网络的输出，表示在输入为h_j，s_j的情况下采取动作c的概率。y_jc的值当动作c为最优动作时，y_jc＝1，否则y_jc＝0。

根据本发明的第二方面，提供一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现本发明的实时无线网络调度方法。

根据本发明的第三方面，提供一种网络编码的计算系统，包括存储装置、以及一个或者多个处理器；其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现本发明的实时无线网络调度方法。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明基于深度强化学习的集中式实时无线网络调度方法实现框架如图1所示，主要包括如下步骤：

发送节点在与一个新的环境交互前，会在经验回放池中新建一个新的子区域，用于存放发送节点与该环境的交互信息。

接入点在与环境交互时，在每个时隙，接入点将所有数据流对应的发送队列的队列信息进行状态转换，每个数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子共同组成，所有数据流的状态的集合构成当前时隙的环境状态s_t，同时，接入点可以获取到环境特征信息，即：所有数据流的流量模型信息与链路质量信息(offset,prd,D,B,pro)_1～K，智能体根据环境状态和环境特征信息执行调度决策a_t。智能体执行调度决策a_t后，会收到环境的反馈，包括回报值r_t和终止标志end_t。所有数据流的状态会更新至s_t+1。交互信息(s_t,a_t,r_t,s_t+1,end_t)将会被存储到经验回放池的对应区域。

在每个时隙，接入点从经验回放池中随机抽取一定数量的交互信息，每个交互信息属于某个特定的环境，环境由环境特征所描述，在本实验中，抽取的信息数量设置为64，交互信息与环境特征共同用于训练并更新网络参数。神经网络参数的更新采用双重Q学习(DDQN)方法。

具体来说，接入点会创建两个具有相同结构的神经网络，分别为当前网络和目标网当前网络用于更新网络参数，而目标网络用于选择动作。无论在训练阶段还是测试阶段，当接入点需要做出调度决策时，会获取当前时隙的环境状态以及当前所处环境的环境特征作为目标网络的输入，目标网络获得输入后，输出采取不同动作的价值。接入点再根据当前阶段是训练阶段和测试阶段采取不同的动作选择策略，如果当前阶段是训练阶段，接入点以ε的概率从动作空间中随机选取一个动作执行，以1-ε的概率选择目标网络的输出中最大值所对应的调度动作进执行。其中，ε是一个介于0到1之间的小数，ε用于平衡利用与探索之间的比例，利用是指智能体在选择动作时选取价值最大的动作执行，探索是指智能体在选择动作时在动作空间中随机执行动作。利用从短期角度上看，可以最大化当前时刻的期望收益，而探索从长远角度上看，可能最大化总收益。在智能体的训练初期阶段，会设置较大的ε值，从而让智能体充分获得不同动作的价值信息，随着训练过程的进行，为了保证智能体所采取的动作能够收敛到具有最大价值的动作，ε会逐渐减小到一个非常接近于0的小数。因此，ε的计算公式如下：

其中，ε₀＝0.99，ε_min＝0.001，train_time指接入点已经交互的环境的数量，初始值为0，当接入点每与一个环境交互完成后，该值加1。如果当前阶段是测试阶段，则接入点选择目标网络的输出中最大值所对应的调度动作。目标网络的参数θ_target每隔一定的时间，就会被当前网络的参数θ_current所覆盖。

本发明基于深度强化学习的分布式实时无线网络调度方法实现框架如图2所示，主要包括如下步骤：

分布式实现框架采用集中式训练，分布式执行的方式，具体如下。

在集中式训练阶段，存在一个专家网络，专家网络可以获取全局信息，包括：所有数据流的状态信息，所有数据流的流量模型信息及链路质量信息，专家网络根据全局信息做出最优调度决策，由于专家网络可以获取全局信息，因此，它可以使用集中式调度方法提前预训练得到。在每个时隙，专家网络输出的最优调度决策

传输给每个接入点，每个接入点执行所接收到的最优调度决策动作，然后，将该时隙下，接入点所能获得的局部信息：包括历史信息

和所调度的数据流的状态信息

与最优调度决策动作

组合成交互信息，存放到经验回放池中，每个接入点存在一个学徒网络，学徒网络由两种类型的神经网络组成，分别是长时序列网络LSTM和全连接神经网络FCN，LSTM网络用于处理历史信息

FCN网络用来处理所调度的数据流的状态信息

在每个时隙，接入点从经验回放池中随机抽取小批量经验用于更新学徒网络的参数。

在分布式执行阶段，专家网络会被移除，接入点在进行调度决策时，不再会有专家网络输出的最优调度决策做指导，每个接入点的学徒网络根据局部信息输出每个调度决策的价值，接入点会选取价值最大的调度决策进行执行。

下面将通过具体的实例对本发明所述的基于深度强化学习实时无线网络调度方法进行仿真实验并给予说明。

图3展示了两种典型的网络拓扑。分别为单跳单接入点服务多个用户节点的网络和单跳多接入点服务多个用户节点的网络。

本实验中，将本发明实例中的集中式调度方法与现有的LDF、RAC和RAC-Approx方法进行了比较，分布式调度方法与现有的DB_DP方法进行比较，同时将两个方法所得到的实时吞吐量与理论最优值进行比较。同时比较了不同算法在动态环境下的适应性，还比较了算法中某些改进措施的重要性。用上述实验对本发明所述的基于深度强化学习的实时无线网络调度方法进行评估。

图4展示了根据本发明实施例的基于深度强化学习的实时无线网络调度的设备功能配置框图。该设备包括：网络状态转化单元，配置为将当前网络状态转化为特定格式传入神经网络；智能调度单元，配置为根据网络状态选择最优调度策略；数据包转发单元，配置为转发被调度的数据流对应的数据队列中的数据包。

图5展示了集中式调度方法和现有方法在不同数据流数量下的实时吞吐量。数据流数量K∈[2,10]，每个数据流的流量模型(offset_k,prd_k,D_k,B_k,pro_k)的设置如下：当k为奇数时，offset_k＝k-1，B_k＝0.8，pro_k＝0.9，D_k＝5。当k为偶数时，offset_k＝k-1，B_k＝0.8，pro_k＝0.7，D_k＝4。根据不同的到达周期又分别设置了两组不同的实验，一组实验中，数据流的到达周期会大于数据流的截止期限，另一组实验中，数据流的到达周期会小于数据流的截止期限。对于第一组实验，如果k为奇数，则prd_k＝6，如果k为偶数，则prd_k＝7。对于第二组实验，如果k为奇数，则prd_k＝2，如果k为偶数，则prd_k＝3。图5中结果显示，集中式调度方法的实时吞吐量与RAC方法都能达到最优实时吞吐量，但随着数据流数量的增加，由于状态数量呈指数级上涨，RAC在数据流数量为6和8的情况下无法给出调度策略，而集中式调度方法依然能给出调度策略，同时集中式调度方法在不同数据流数量下的实时吞吐量也要高于启发式方法RAC-Approx方法和LDF方法。

图6展示了集中式调度方法和现有方法在不同截止期限下的实时吞吐量。数据流数量K＝4，截止期限的变化范围为D∈[2,6]，每个数据流的流量模型offset_k,prd_k,D_k,B_k,pro_k)的设置如下：当k为奇数时，offset_k＝k-1，B_k＝0.8，pro_k＝0.9，D_k＝D+1。当k为偶数时，offset_k＝k-1，B_k＝0.8，pro_k＝0.7，D_k＝D。根据不同的到达周期又分别设置了两组不同的实验，一组实验中，数据流的到达周期会大于数据流的截止期限，另一组实验中，数据流的到达周期会小于数据流的截止期限。对于第一组实验，如果k为奇数，则prd_k＝6，如果k为偶数，则prd_k＝7。对于第二组实验，如果k为奇数，则prd_k＝2，如果k为偶数，则prd_k＝3。图5中结果显示，集中式调度方法的实时吞吐量与RAC方法都能达到最优实时吞吐量，同时，集中式调度方法在不同数据流数量下的实时吞吐量也要高于启发式方法RAC-Approx方法和LDF方法。

图7展示了分布式调度方法和现有方法在不同数据流数量下的实时吞吐量，实验设置与图5中的一样，不过，每个数据流的B_k＝1。图7中结果显示，分布式调度方法的实时吞吐量能达到最优实时吞吐量，同时，分布式调度方法在不同数据流数量下的实时吞吐量也要高于DB-DP方法。

图8展示了分布式调度方法和现有方法在不同截止期限下的实时吞吐量，实验设置与图6中的一样，不过，每个数据流的B_k＝1。图8中结果显示，分布式调度方法的实时吞吐量能达到最优实时吞吐量，同时，分布式调度方法在不同截止期限下的实时吞吐量也要高于DB-DP方法。

图9展示了集中式调度方法中状态转换的作用与采用不同回报函数定义的影响。比较两种状态定义方式，分别是采用二进制字符串序列的状态定义(用类型1表示)，与本发明中的状态转换定义(用类型2表示)。比较两种回报函数，分别是根据数据包的发送结果设置的回报函数(用类型1表示)，与根据所调度链路的链路质量设置的回报函数(用类型2表示)。图9表示，在采用相同的回报函数时，采用类型1的状态定义时，方法不能收敛到最优实时吞吐量，采用类型2的状态定义时，方法能够收敛到最优实时吞吐量。这表明，本发明中所提出的状态表示要优于现有的状态表示方法。同时，根据图9，在采用相同的状态定义时，采用不同的回报函数不会影响方法收敛后的实时吞吐量，但会影响方法的收敛时间，采用类型1的回报函数设计会延长方法的收敛时间，在实际情况中，如果发送节点可以知道链路的链路质量，则可以采用类型2的回报函数，否则可以采用类型1的回报函数。

图10展示了分布式调度方法中专家网络的重要性，比较两种情况下分布式调度方法在训练过程中实时吞吐量的变化情况。根据图10可知，使用专家网络可以使分布式调度方法的实时吞吐量随着训练次数的增加逐步增长到最优实时吞吐量，而不使用专家网络的情况下，每个发送节点的学徒网络独自训练，则会使分布式调度方法的实时吞吐量随着训练次数的增加发生不稳定的变化情况，最终变为0.

图11与图12展示了集中式调度方法与分布式调度方法在动态无线网络环境下实时吞吐量的变化情况，图11与图12在两个不同的阶段存在两个不同的网络环境。图11表明，集中式调度方法能够在网络环境发生变化时及时调整调度策略，使实时吞吐量恢复到新的环境下的最优实时吞吐量，而其他方法LDF与RAC-Approx尽管能在较短时间内调度调度策略，但不能达到最优实时吞吐量，而RAC方法在环境发生变化后，需要较多的时间计算新环境下的最优调度策略，

因此，在一段时间内，RAC方法的实时吞吐量均为0.图12表示，分布式调度方法在环境发生变化后，尽管不能快速恢复到最优实时吞吐量，但可以在原有的网络参数上继续进行训练，使实时吞吐量逐渐达到最优实时吞吐量，而DB-DP方法尽管能够迅速调整调度策略，但不能达到最优实时吞吐量。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

L*Prd≥max_k∈[1,K](offset_k+D_k)

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的实时集中式无线网络调度方法，其特征在于，包括：

步骤3、该接入点执行调度决策a_t后，收到网络环境的反馈r_t和终止标识end_t，所有数据流的状态更新至s_t+1；将交互信息(s_t，a_t，r_t，s_t+1，end_t)和该环境状态和该环境特征信息作为经验，存储至该子区域；

2.如权利要求1所述的基于深度强化学习的实时集中式无线网络调度方法，其特征在于，该决策模型的训练过程包括：

当接入点执行动作a_t后，得到反馈r_t和终止标识end_t，环境状态更新至s_t+1；将交互信息(s_t，a_t，r_t，s_t+1，end_t)存储到该经验回放池，其中，end_t是终止表示符，当t≥L*Prd且t％Prd＝0时，end_t＝true，否则end_t＝false，L是恒定的正整数，满足：

L*Prd≥max_k∈[1，K](offset_k+D_k)

3.如权利要求2所述的基于深度强化学习的实时集中式无线网络调度方法，其特征在于，ε的计算方法如下：

4.如权利要求1所述的基于深度强化学习的实时集中式无线网络调度方法，其特征在于，该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。

5.一种基于深度强化学习的实时集中式无线网络调度系统，其特征在于，包括：

存储模块，用于该接入点执行调度决策a_t后，收到网络环境的反馈r_t和终止标识end_t，所有数据流的状态更新至s_t+1；将交互信息(s_t，a_t，r_t，s_t+1，end_t)和该环境状态和该环境特征信息作为经验，存储至该子区域；

6.如权利要求5所述的基于深度强化学习的实时集中式无线网络调度系统，其特征在于，该决策模型的训练过程包括：

L*Prd≥max_k∈[1，K](offset_k+D_k)

7.如权利要求6所述的基于深度强化学习的实时集中式无线网络调度系统，其特征在于，ε的计算系统如下：

8.如权利要求5所述的基于深度强化学习的实时集中式无线网络调度系统，其特征在于，该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。

9.一种计算机可读存储介质，用于存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现如权利要求1到4所述的任意一种基于深度强化学习的实时集中式无线网络调度方法。

10.一种客户端，用于权利要求5至8所述的任意一种基于深度强化学习的实时集中式无线网络调度系统。