CN114189937A - 基于深度强化学习的实时集中式无线网络调度方法和设备 - Google Patents

基于深度强化学习的实时集中式无线网络调度方法和设备 Download PDF

Info

Publication number
CN114189937A
CN114189937A CN202111327752.5A CN202111327752A CN114189937A CN 114189937 A CN114189937 A CN 114189937A CN 202111327752 A CN202111327752 A CN 202111327752A CN 114189937 A CN114189937 A CN 114189937A
Authority
CN
China
Prior art keywords
access point
network
environment
scheduling
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111327752.5A
Other languages
English (en)
Inventor
王琪
何晨涛
黄建辉
徐勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202111327752.5A priority Critical patent/CN114189937A/zh
Publication of CN114189937A publication Critical patent/CN114189937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明提出一种基于深度强化学习的实时集中式无线网络调度方法和系统,包括:获取由一个接入点和多个用户节点互连组成的无线网络,在每个时隙,接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前时隙的环境状态,接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将环境状态和环境特征信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;接入点执行调度决策后,收到网络环境的反馈;将交互信息和环境状态和环境特征信息作为经验,存储至子区域;从经验回放池中抽取经验,以训练更新当前决策模型。本发明训练时间不会随数据流数量增加而快速增长,能够快速的收敛到最优实时吞吐量。

Description

基于深度强化学习的实时集中式无线网络调度方法和设备
技术领域
本发明属于信息技术中路由网络信息调度技术领域,并特别涉及一种基于深度强化学习的实时集中式无线网络调度方法和设备。
背景技术
近年来,实时无线网络越来越广泛地被使用在各种需要时延约束的应用中。这种类型的典型应用包括工业物联网和网络运输系统中使用的信息物理系统(CPSs),或者用于实况视频传输的多媒体通信系统。这些系统通常要求数据包在截止期限内被目的节点所接收,否则数据包将会从发送队列当中被移除。衡量实时无线网络的重要指标是实时吞吐量,其定义为被目的节点成功接收的数据包数量与网络中产生的数据包数量的总和的比值。
近年来,如何调度受时延期限约束的实时网络以达到更高的实时吞吐量的问题引起了人们广泛的关注。目前已经提出的调度策略只考虑帧同步流量模型,在这种模型下,网络中数据流的数据包截止期限与到达周期是相等的。帧同步流量模型往往无法对许多重要的实际场景进行建模。例如,对于一个典型的移动视频会议场景,时延期限通常比帧生成周期短很多。在这种场景下,前面提到的调度方法不能满足这种实时数据流的时延期限。
对于通用流量模型的调度算法的研究,其往往因为计算复杂度过高或无法到达最优实时吞吐量而在现实场景中无法取得很好的效果。此外,传统的方法,如贪心算法、动态规划等,其调度策略不能自动适应动态网络环境,因此,现有研究工作无法提供高效、自适应的实时网络调度策略。
发明内容
具体来说,本申请提出了一种基于深度强化学习的实时集中式无线网络调度方法,其中包括:
步骤1、获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;
步骤2、该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at
步骤3、该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;
步骤4、从该经验回放池中抽取经验,以训练更新当前该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度方法,其中该决策模型的训练过程包括:
创建两个具有相同结构的神经网络,分别为当前网络和目标网络,当接入点需要做出调度决策时,会将当前时隙t的环境状态和环境特征信息输入至该目标网络,得到各调度动作的价值,接入点以ε的概率随机选取一个动作执行调度,以1-ε的概率选择价值最高的动作执行调度,ε为0到1之间的小数,
当接入点执行动作at后,得到反馈rt和终止标识endt,环境状态更新至st+1;将交互信息(st,at,rt,st+1,endt)存储到该经验回放池,其中,endt是终止表示符,当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false,L是恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd是所有数据流周期的最小公倍数,Dk表示数据流k中数据包的截止期限,offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个训练环境进行交互;
从经验回放池中随机抽取部分交互信息后,通过最小化损失函数来更新该当前网络的参数,目标网络的参数θtarget每隔预定时间,会被该当前网络的参数θcurrent所覆盖,达到预设训练时长后,保存当前目标网络作为该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度方法,其中ε的计算方法如下:
Figure BDA0003347813900000031
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点与一个环境交互结束后,该值加1。
所述的基于深度强化学习的实时集中式无线网络调度方法,其中该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。
本发明还提出了一种基于深度强化学习的实时集中式无线网络调度系统,其中包括:
准备模块,用于获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;
调度决策模块,用于在该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at
存储模块,用于该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;
更新模块,用于从该经验回放池中抽取经验,以训练更新当前该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中该决策模型的训练过程包括:
创建两个具有相同结构的神经网络,分别为当前网络和目标网络,当接入点需要做出调度决策时,会将当前时隙t的环境状态和环境特征信息输入至该目标网络,得到各调度动作的价值,接入点以ε的概率随机选取一个动作执行调度,以1-ε的概率选择价值最高的动作执行调度,ε为0到1之间的小数,
当接入点执行动作at后,得到反馈rt和终止标识endt,环境状态更新至st+1;将交互信息(st,at,rt,st+1,endt)存储到该经验回放池,其中,endt是终止表示符,当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false,L是恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd是所有数据流周期的最小公倍数,Dk表示数据流k中数据包的截止期限,offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个训练环境进行交互;
从经验回放池中随机抽取部分交互信息后,通过最小化损失函数来更新该当前网络的参数,目标网络的参数θtarget每隔预定时间,会被该当前网络的参数θcurrent所覆盖,达到预设训练时长后,保存当前目标网络作为该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中ε的计算系统如下:
Figure BDA0003347813900000041
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点与一个环境交互结束后,该值加1。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。
本发明提出了一种计算机可读存储介质,用于存储有一个或者多个计算机程序,所述计算机程序在被执行时用于实现所述的任意一种基于深度强化学习的实时集中式无线网络调度方法。
本发明提出了一种客户端,用于所述的任意一种基于深度强化学习的实时集中式无线网络调度系统。
本发明与现有技术相比,具有以下优点:
1.本发明提出了基于深度强化学习的集中式调度方法和分布式调度方法。现有的方法如RAC方法,具有很高的复杂度,求解最优问题得到最优调度策略花费的时间成本随着数据流数量的增加呈指数级增长。本发明提出的方法训练时间不会随着数据流数量的增加快速增长,且能够快速的收敛到最优实时吞吐量。
2.为了适应无线实时网络的动态变化,本发明对深度强化学习中的Q函数进行了修改,使其不仅与状态和动作有关,而且与环境特征有关。与现有技术相比,本发明能够更好的适应新环境,在动态实时无线网络环境下具有更高的泛化能力。泛化能力的强弱决定了本发明提出的方法能否推广到具有不同流量模型和链路质量的网络。
3.本发明的分布式调度方法采用了集中式训练,分布式执行的框架。基于深度强化学习的分布式实时无线网络调度方法在每个发送节点上分布式执行,而在训练时,智能体允许使用全局信息来简化训练过程。
4.本发明奖每个流的状态通过指数函数进行转化,使得状态能够在数值上直观反应调度数据流k的紧急程度。与现有的方法提出的二进制字符串表示方法相比,本发明陈述的状态表示方法能够使得深度强化学习方法能快的收敛,并达到最优实时吞吐量。
附图说明
图1是本发明基于深度强化学习的集中式实时无线网络调度方法实现框架。
图2是本发明基于深度强化学习的分布式实时无线网络调度方法实现框架。
图3是本发明适用的两种经典场景的网络拓扑图。
图4是根据本发明实施例的用于深度强化学习的实时无线网络调度的设备的功能配置框图;
图5至图12是本发明实例的仿真实验结果图。
具体实施方式
本发明涉及一种基于深度强化学习的实时无线网络调度方法和设备,旨在解决数据流在动态网络条件和通用流量模型下,无法提供自适应动态调度策略的技术问题。所述方法包括集中式方法和分布式方法。
集中式方法包括:单跳网络存在一个接入点(AP)和多个用户节点,接入点在每个时隙可以获取全局信息,并决定为哪个用户节点服务。设计通用流量模型表示方法,建立基于深度强化学习的集中式实时无线网络调度方法框架,并设计各个模块交互的内容;设计基于深度强化学习的集中式实时无线网络调度方法结构。
分布式方法包括:单跳网络存在多个接入点(AP)和多个用户节点,每个接入点独立负责服务多个不同的用户节点,每个接入点在每个时隙开始时可以获取局部信息,结合无线信道所观测到的信息,决定为哪个用户节点服务,当同一时隙,有多个接入点要服务用户节点时,网络中就会发生传输冲突,导致传输失败。建立基于深度强化学习的分布式实时无线网络调度方法框架,并设计基于深度强化学习的分布式实时无线网络调度方法结构。本发明具有良好的模型泛化能力,且能够快速的收敛到最优实时吞吐量,能够在动态网络环境和通用流量模型场景下取得较好性能。
针对现有技术的不足,根据本发明的第一方面,提出一种基于深度强化学习的实时无线网络调度方法,以提供一个在动态网络条件和通用流量模型下,高效的自适应动态调度策略。本发明的所采用的技术方案分为集中式调度方法和分布式调度方法两部分。
(1)集中式调度方法,包括如下步骤:
集中式调度方法适用于如下场景:单跳网络中存在一个接入点(AP)和多个用户节点。
网络中存在多个数据流,每个数据流都属于通用流量模型,每个数据流有一个发送队列,数据包按照数据流的流量模型依次到达发送队列当中,等待被发送节点发送,当数据包成功被目的节点成功接收或者数据包超过了截止期限后尚未被目的节点成功接收,则数据包会从发送队列中移除。其中数据流若在AP上,则AP作为发送队列,若数据流在用户节点上,则用户节点作为发送节点。
数据流中的数据包可以由用户节点传输到接入点或者由接入点传输到用户节点。当数据流位于用户节点上时,用户节点作为发送节点,接入点作为接收节点(即:目的节点),用户节点与接入点之间构成一条上行链路。当数据流位于接入点上时,用户节点作为接收节点,接入点作为发送节点(即:目的节点)。用户节点与接入点之间构成一条下行链路。上行链路与下行链路统称为链路。数据包在链路上进行传输时会受到链路质量的影响而发生丢包,发送节点在每个时隙发送数据包后,接收节点会发送ACK信息给发送节点告知是否成功接收到数据包,在本发明中不考虑ACK的传输受链路质量的影响。
在每个时隙,接入点可以获取环境的全局信息,即:每个数据流的发送队列中各个数据包的信息以及每个数据流的流量模型信息。接入点根据全局信息决定调度哪个数据流,然后发送该数据流对应发送队列中的数据包。由于接入点与用户节点之间构成一条链路,因此,调度某个数据流等价于调度某条链路。假设网络中存在K个数据流,每个数据流都属于通用流量模型,即:数据包周期性到达发送队列中,每个数据流中的数据包有统一的截止期限,数据流的通用流量模型可以通过以下向量表示:
(offsetk,prdk,Dk,Bk,prok),k∈K
其offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量;prdk表示第k条数据流中数据包的到达周期;Dk表示数据流k中数据包的截止期限;Bk∈[1,0]表示数据流k中数据包的到达概率,应用层的数据流产生的数据包在进入发送队列时会受到到达概率的影响从而无法进入发送队列当中;prok表示链路k的链路质量,数据包在链路上进行传输时会受到无线信道干扰和噪声的影响从而产生丢包现象,则目的节点将无法成功接收数据包;
建立基于深度强化学习的实时无线网络调度方法框架,包括深度强化学习的智能体和环境两大模块,并设计各个模块交互的内容;
进一步地,深度强化学习的智能体和环境两大模块设计如下:
(1)实时无线网络中的接入点视为深度强化学习的智能体;
(2)抽象环境为实时无线网络,包括网络中所有的数据流信息以及对应的发送队列中数据包的状态信息;
(3)对于集中式调度方法,网络中仅存在一个接入点,即:一个智能体,接入点在每个时刻获取全局信息,即:环境状态,并执行动作,环境收到动作将反馈于智能体一个奖励值,从而实现接入点与环境的交互,接入点与环境的交互过程被建模为马尔可夫决策过程。
(4)对于分布式调度方法,网络中同时存在多个接入点,即:多个智能体,每个接入点在每个时刻获取局部信息,即:部分环境状态,并执行动作,环境接收到动作后会反馈奖励值,从而实现接入点与环境的交互。接入点与环境的交互过程被建模为部分可观测马尔可夫决策过程。
进一步地,在集中式调度方法中,马尔可夫决策过程中的状态定义如下,数据流在时隙t下的状态由一个二维向量(qt(k),lt(k))表示,环境在时隙t下的状态st是所有数据在时隙t下的状态的集合,即:st=((qt(1),lt(1)),...,(qt(k),lt(k)),...,(qt(K),lt(K)))表示。
其中,lt(k)表示时隙t时数据流k的数据包到达因子。若数据流k在下一时隙t+1可能会有新的数据包可能到达发送队列,则lt(k)=1,否则lt(k)=0。
Figure BDA0003347813900000071
lt(k)可由数据流的流量模型计算得出。即:
Figure BDA0003347813900000081
qt(k)表示在时隙t时数据流k的待调度紧急程度:
其中,G是在时隙t时,数据流k的发送队列中未过期的数据包数量。g是数据包在G个数据中的到达顺序,数据流k中第g个数据包的到达时间和过期时间可以表示为
Figure BDA0003347813900000082
Figure BDA0003347813900000083
数据包的过期时间可以根据数据流k的流量模型由以下公式计算得出:
Figure BDA0003347813900000084
则数据包距离过期的剩余时间
Figure BDA0003347813900000085
可以表示为:
Figure BDA0003347813900000086
进一步地,在集中式调度方法中,马尔可夫决策过程中的动作定义如下,接入点在时隙t的动作at是选择某个发送队列并发送队列当中距离过期时间最短的数据包。at是被调度的数据流的编号。接入点的动作空间可以表示为A={0,1,2,....,K}且at∈A。
进一步地,在集中式调度方法中,马尔可夫决策过程的奖励函数定义如下,有两种奖励函数可以选择,第一种奖励函数是根据数据包的发送结果设计,当发送节点发送的数据包被目的节点成功接收,则rt=1,否则rt=0。第二种奖励函数是根据所调度的数据流的链路质量设计,如果所调度的数据流的发送队列中有数据包,则rt=prok,否则rt=0。在实际应用中,可以根据是否已知链路的质量来选择其中一种奖励函数。
进一步地,基于深度强化学习的集中式实时无线网络调度方法结构如下:基于双重深度Q网络DDQN(Double Deep Q-Network)的调度策略在接入点执行,同时,DDQN被一个预先设置的优化器集中式训练。DDQN的输入为数据流的流量模型信息,环境状态信息,输出为采取不同动作的价值(即:Q值),可以表示如下:
q(env feas,s,a;θ)
其中,env feas表示所有数据流的流量模型信息,又称为当前环境的环境特征,每个时隙接入点获取当前状态st及所有数据流的流量模型信息env feas作为DDQN网络的输入,从而得到采取不同动作的Q值。
集中式实时无线网络调度方法结构成为两个主要部分,训练过程与执行过程。
在训练过程中,接入点会与多个训练环境进行交互,不同的训练环境由不同的环境特征所描述。在每个时隙,接入点获取环境状态st,然后执行动作at,接入点会随机地选择动作空间中的某个动作进行执行或者执行DDQN网络输出的最大Q值对应的动作。当接入点执行动作at后,环境会给出反馈rt和endt。环境状态会更新至st+1。接入点与环境的交互信息(st,at,rt,st+1,endt)将会被存储到经验回放池中。其中,endt是终止表示符,经验回放池的具体位置可根据需要进行指定,在最优实施例中其位于接入点即智能体。当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false。L是一个恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd=Least Common Multiple(prd1,prd2,…,prdK),即:Prd是所有数据流的周期的最小公倍数,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个新的训练环境进行交互。
接入点的经验回放池会被划分为多个子区域,每个子区域存储接入点与某个特定环境的交互信息。在每个时隙,会从所有经验回放池中随机抽取一定数量的交互信息,每个交互信息都属于某个特定环境,该特定环境用环境特征来描述,交互信息与环境特征共同用于训练并更新神经网络的参数,所抽取的信息的数量不宜过大,也不宜过小,如果过大,会导致内存空间不够,神经网络可能会收敛到局部最优点,如果过小,训练时间过长,相邻两次训练之间的网络参数震荡幅度较大,在本实验中,所抽取的交互信息的数量,即:batch_size设置为64。
建立两个具有相同结构的神经网络,分别为当前网络和目标网络。其中,当前网络用于训练,目标网络用于选择动作。每隔一段固定的时间,目标网络的参数θtarget会从当前网络参数θcurrent中复制。
在训练的过程中,从经验回放池中随机抽取一定数量(batch_size=64)的交互信息后,对于所提取的交互信息,用(sj,aj,rj,s′j,endj)表示,其中j∈[1,batch_size]表示每个交互信息的序号,s′j表示sj采取动作aj后的下一个状态,即:前面所述的st+1。通过最小化一个预先设置的损失函数来更新当前网络的参数:
Figure BDA0003347813900000101
其中,yj为目标网络的Q值,当endt=true时,yj=Rj;当endt=false时,yj=Rj+γQ(sj+1,a′;θtar get)。
在测试过程中,接入点在每个时隙接收环境的状态st及所有数据流的流量模型信息,作为目标网络的输入,目标网络输出采取不同动作的Q值,接入点选择Q值最大的动作进行执行,环境接收到动作后,更新到下一个状态st+1
分布式调度方法,包括如下步骤:
(2)分布式调度方法适用于如下场景:单跳网络中存在多个接入点(AP)和多个用户节点。
数据流的特点与集中式调度方法中的描述的一样,不同的地方在于,在集中式调度方法中,网络中仅存在一个接入点,即:一个智能体。该接入点可以获取所有数据流的状态信息,而在分布式调度方法中,网络中存在多个接入点,即:多个智能体,每个接入点只能获取环境状态的部分信息,即:获取部分数据流的状态信息,且每个接入点所能获取的数据流信息互不相交,各自独立。
接入点在每个时隙选择数据流对应的发送队列并发送其中一个数据包,由于存在多个接入点,而每个接入点都是独立做出调度决策,因此,如果在同一时隙,有多个接入点同时选择所管理的数据流发送数据包,则会发生碰撞,从而导致数据包传输失败。本发明默认在分布式调度方法中,一个完整的数据包传输过程包括发送RTS,CTS,DATA(即:数据包)和ACK包,且控制数据包RTS,CTS,ACK的传输不受链路质量的影响。DATA,即:数据包的传输则会受到链路质量的影响从而产生丢包现象。
进一步地,在分布式调度方法中,部分可观测马尔可夫决策过程中的状态定义与集中式调度方法中的状态定义相同,分布式调度方法与集中式调度方法的区别在于,在分布式调度方法中,每个接入点都无法获取网络中所有数据流发送队列的状态信息,只能获取属于自己管理的数据流的状态信息及数据流的流量模型信息。
进一步地,在分布式调度方法中,部分可观测马尔可夫决策过程中的观测信息定义如下:在每个时隙,接入点通过无线共享信息可以监听数据包的传输情况,具体可以分为三种情况:
(1)没有任何数据包进行传输,此时,可能是发生了冲突或者没有接入点所管理的数据流发送数据包;
(2)某个发送节点成功发送了数据包,但该数据包受链路质量的影响发生丢包,从而导致目的节点没有接收到;
(3)某个发送节点成功发送了数据包,并被目的节点成功接收。
以上三种情况,节点可以通过接收到的RTS,CTS,DATA及ACK的情况进行区分。将接入点i(假设分布式调度方法中,接入点的总量为I个)在时隙t观测到的信息定义为
Figure BDA0003347813900000111
对于情况(1),
Figure BDA0003347813900000112
对于情况(2)和情况(3),如果数据包的发送节点是节点i,则
Figure BDA0003347813900000113
否则,对于情况(2),
Figure BDA0003347813900000114
对于情况(3),
Figure BDA0003347813900000115
历史信息
Figure BDA0003347813900000116
定义为发送节点i从时隙t-Prd直到时隙t-1的观测信息的集合。即:历史信息
Figure BDA0003347813900000117
可以表示为
Figure BDA0003347813900000118
进一步地,在分布式调度方法中,部分可观测马尔可夫决策过程的动作定义与集中式调度方法中的马尔可夫决策过程定义类似,每个接入点的动作
Figure BDA0003347813900000119
是调度其管理的一个数据流或者不调度任何一个数据流。例如接入点i要管理Ni个数据流,那么接入点i动作空间Ai的大小即为Ni+1。在每一个时隙,每个接入点独立地做出调度决策,所有接入点的动作组合成联合动作。联合动作空间大小为
Figure BDA00033478139000001110
进一步地,基于深度强化学习的分布式实时无线网络调度方法:使用集中式训练,分布式执行的框架。在集中式训练阶段,允许智能体获取全局信息,在执行阶段,智能体仅根据局部信息独立做出调度决策。具体细节如下:
在分布式调度算法中,在每个接入点上创建学徒网络,并创建各自的经验回放池,同时在整个网络中创建一个专家网络。在集中式训练阶段,专家网络可以收集所有数据流的发送队列的状态信息,并给出每个接入点的最优调度决策动作,每个接入点在训练阶段会执行专家网络给出的最优调度决策动作,并将局部信息与对应的最优调度决策动作所组成的交互信息
Figure BDA00033478139000001111
放入各自的经验回放池。
对于每个接入点,在每个时隙,会从各自的经验回放池中随机抽取一定数量的交互信息用于更新接入点上的学徒网络参数
Figure BDA00033478139000001112
与集中式中的设置一样,所提取的交互信息的数量,即:batch_size设置为64。对所提取的交互信息,用(hj,sj,opt_aj)来表示,其中j∈[1,batch_size]表示每个交互信息的序号,通过最小化一个预先设置的损失函数来更新学徒网络的参数:
Figure BDA0003347813900000121
其中,pjc是学徒网络的输出,表示在输入为hj,sj的情况下采取动作c的概率。yjc的值当动作c为最优动作时,yjc=1,否则yjc=0。
根据本发明的第二方面,提供一种计算机可读存储介质,其中存储有一个或者多个计算机程序,所述计算机程序在被执行时用于实现本发明的实时无线网络调度方法。
根据本发明的第三方面,提供一种网络编码的计算系统,包括存储装置、以及一个或者多个处理器;其中,所述存储装置用于存储一个或者多个计算机程序,所述计算机程序在被所述处理器执行时用于实现本发明的实时无线网络调度方法。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明基于深度强化学习的集中式实时无线网络调度方法实现框架如图1所示,主要包括如下步骤:
发送节点在与一个新的环境交互前,会在经验回放池中新建一个新的子区域,用于存放发送节点与该环境的交互信息。
接入点在与环境交互时,在每个时隙,接入点将所有数据流对应的发送队列的队列信息进行状态转换,每个数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子共同组成,所有数据流的状态的集合构成当前时隙的环境状态st,同时,接入点可以获取到环境特征信息,即:所有数据流的流量模型信息与链路质量信息(offset,prd,D,B,pro)1~K,智能体根据环境状态和环境特征信息执行调度决策at。智能体执行调度决策at后,会收到环境的反馈,包括回报值rt和终止标志endt。所有数据流的状态会更新至st+1。交互信息(st,at,rt,st+1,endt)将会被存储到经验回放池的对应区域。
在每个时隙,接入点从经验回放池中随机抽取一定数量的交互信息,每个交互信息属于某个特定的环境,环境由环境特征所描述,在本实验中,抽取的信息数量设置为64,交互信息与环境特征共同用于训练并更新网络参数。神经网络参数的更新采用双重Q学习(DDQN)方法。
具体来说,接入点会创建两个具有相同结构的神经网络,分别为当前网络和目标网当前网络用于更新网络参数,而目标网络用于选择动作。无论在训练阶段还是测试阶段,当接入点需要做出调度决策时,会获取当前时隙的环境状态以及当前所处环境的环境特征作为目标网络的输入,目标网络获得输入后,输出采取不同动作的价值。接入点再根据当前阶段是训练阶段和测试阶段采取不同的动作选择策略,如果当前阶段是训练阶段,接入点以ε的概率从动作空间中随机选取一个动作执行,以1-ε的概率选择目标网络的输出中最大值所对应的调度动作进执行。其中,ε是一个介于0到1之间的小数,ε用于平衡利用与探索之间的比例,利用是指智能体在选择动作时选取价值最大的动作执行,探索是指智能体在选择动作时在动作空间中随机执行动作。利用从短期角度上看,可以最大化当前时刻的期望收益,而探索从长远角度上看,可能最大化总收益。在智能体的训练初期阶段,会设置较大的ε值,从而让智能体充分获得不同动作的价值信息,随着训练过程的进行,为了保证智能体所采取的动作能够收敛到具有最大价值的动作,ε会逐渐减小到一个非常接近于0的小数。因此,ε的计算公式如下:
Figure BDA0003347813900000131
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点每与一个环境交互完成后,该值加1。如果当前阶段是测试阶段,则接入点选择目标网络的输出中最大值所对应的调度动作。目标网络的参数θtarget每隔一定的时间,就会被当前网络的参数θcurrent所覆盖。
本发明基于深度强化学习的分布式实时无线网络调度方法实现框架如图2所示,主要包括如下步骤:
分布式实现框架采用集中式训练,分布式执行的方式,具体如下。
在集中式训练阶段,存在一个专家网络,专家网络可以获取全局信息,包括:所有数据流的状态信息,所有数据流的流量模型信息及链路质量信息,专家网络根据全局信息做出最优调度决策,由于专家网络可以获取全局信息,因此,它可以使用集中式调度方法提前预训练得到。在每个时隙,专家网络输出的最优调度决策
Figure BDA0003347813900000132
传输给每个接入点,每个接入点执行所接收到的最优调度决策动作,然后,将该时隙下,接入点所能获得的局部信息:包括历史信息
Figure BDA0003347813900000133
和所调度的数据流的状态信息
Figure BDA0003347813900000134
与最优调度决策动作
Figure BDA0003347813900000135
组合成交互信息,存放到经验回放池中,每个接入点存在一个学徒网络,学徒网络由两种类型的神经网络组成,分别是长时序列网络LSTM和全连接神经网络FCN,LSTM网络用于处理历史信息
Figure BDA0003347813900000141
FCN网络用来处理所调度的数据流的状态信息
Figure BDA0003347813900000142
在每个时隙,接入点从经验回放池中随机抽取小批量经验用于更新学徒网络的参数。
在分布式执行阶段,专家网络会被移除,接入点在进行调度决策时,不再会有专家网络输出的最优调度决策做指导,每个接入点的学徒网络根据局部信息输出每个调度决策的价值,接入点会选取价值最大的调度决策进行执行。
下面将通过具体的实例对本发明所述的基于深度强化学习实时无线网络调度方法进行仿真实验并给予说明。
图3展示了两种典型的网络拓扑。分别为单跳单接入点服务多个用户节点的网络和单跳多接入点服务多个用户节点的网络。
本实验中,将本发明实例中的集中式调度方法与现有的LDF、RAC和RAC-Approx方法进行了比较,分布式调度方法与现有的DB_DP方法进行比较,同时将两个方法所得到的实时吞吐量与理论最优值进行比较。同时比较了不同算法在动态环境下的适应性,还比较了算法中某些改进措施的重要性。用上述实验对本发明所述的基于深度强化学习的实时无线网络调度方法进行评估。
图4展示了根据本发明实施例的基于深度强化学习的实时无线网络调度的设备功能配置框图。该设备包括:网络状态转化单元,配置为将当前网络状态转化为特定格式传入神经网络;智能调度单元,配置为根据网络状态选择最优调度策略;数据包转发单元,配置为转发被调度的数据流对应的数据队列中的数据包。
图5展示了集中式调度方法和现有方法在不同数据流数量下的实时吞吐量。数据流数量K∈[2,10],每个数据流的流量模型(offsetk,prdk,Dk,Bk,prok)的设置如下:当k为奇数时,offsetk=k-1,Bk=0.8,prok=0.9,Dk=5。当k为偶数时,offsetk=k-1,Bk=0.8,prok=0.7,Dk=4。根据不同的到达周期又分别设置了两组不同的实验,一组实验中,数据流的到达周期会大于数据流的截止期限,另一组实验中,数据流的到达周期会小于数据流的截止期限。对于第一组实验,如果k为奇数,则prdk=6,如果k为偶数,则prdk=7。对于第二组实验,如果k为奇数,则prdk=2,如果k为偶数,则prdk=3。图5中结果显示,集中式调度方法的实时吞吐量与RAC方法都能达到最优实时吞吐量,但随着数据流数量的增加,由于状态数量呈指数级上涨,RAC在数据流数量为6和8的情况下无法给出调度策略,而集中式调度方法依然能给出调度策略,同时集中式调度方法在不同数据流数量下的实时吞吐量也要高于启发式方法RAC-Approx方法和LDF方法。
图6展示了集中式调度方法和现有方法在不同截止期限下的实时吞吐量。数据流数量K=4,截止期限的变化范围为D∈[2,6],每个数据流的流量模型offsetk,prdk,Dk,Bk,prok)的设置如下:当k为奇数时,offsetk=k-1,Bk=0.8,prok=0.9,Dk=D+1。当k为偶数时,offsetk=k-1,Bk=0.8,prok=0.7,Dk=D。根据不同的到达周期又分别设置了两组不同的实验,一组实验中,数据流的到达周期会大于数据流的截止期限,另一组实验中,数据流的到达周期会小于数据流的截止期限。对于第一组实验,如果k为奇数,则prdk=6,如果k为偶数,则prdk=7。对于第二组实验,如果k为奇数,则prdk=2,如果k为偶数,则prdk=3。图5中结果显示,集中式调度方法的实时吞吐量与RAC方法都能达到最优实时吞吐量,同时,集中式调度方法在不同数据流数量下的实时吞吐量也要高于启发式方法RAC-Approx方法和LDF方法。
图7展示了分布式调度方法和现有方法在不同数据流数量下的实时吞吐量,实验设置与图5中的一样,不过,每个数据流的Bk=1。图7中结果显示,分布式调度方法的实时吞吐量能达到最优实时吞吐量,同时,分布式调度方法在不同数据流数量下的实时吞吐量也要高于DB-DP方法。
图8展示了分布式调度方法和现有方法在不同截止期限下的实时吞吐量,实验设置与图6中的一样,不过,每个数据流的Bk=1。图8中结果显示,分布式调度方法的实时吞吐量能达到最优实时吞吐量,同时,分布式调度方法在不同截止期限下的实时吞吐量也要高于DB-DP方法。
图9展示了集中式调度方法中状态转换的作用与采用不同回报函数定义的影响。比较两种状态定义方式,分别是采用二进制字符串序列的状态定义(用类型1表示),与本发明中的状态转换定义(用类型2表示)。比较两种回报函数,分别是根据数据包的发送结果设置的回报函数(用类型1表示),与根据所调度链路的链路质量设置的回报函数(用类型2表示)。图9表示,在采用相同的回报函数时,采用类型1的状态定义时,方法不能收敛到最优实时吞吐量,采用类型2的状态定义时,方法能够收敛到最优实时吞吐量。这表明,本发明中所提出的状态表示要优于现有的状态表示方法。同时,根据图9,在采用相同的状态定义时,采用不同的回报函数不会影响方法收敛后的实时吞吐量,但会影响方法的收敛时间,采用类型1的回报函数设计会延长方法的收敛时间,在实际情况中,如果发送节点可以知道链路的链路质量,则可以采用类型2的回报函数,否则可以采用类型1的回报函数。
图10展示了分布式调度方法中专家网络的重要性,比较两种情况下分布式调度方法在训练过程中实时吞吐量的变化情况。根据图10可知,使用专家网络可以使分布式调度方法的实时吞吐量随着训练次数的增加逐步增长到最优实时吞吐量,而不使用专家网络的情况下,每个发送节点的学徒网络独自训练,则会使分布式调度方法的实时吞吐量随着训练次数的增加发生不稳定的变化情况,最终变为0.
图11与图12展示了集中式调度方法与分布式调度方法在动态无线网络环境下实时吞吐量的变化情况,图11与图12在两个不同的阶段存在两个不同的网络环境。图11表明,集中式调度方法能够在网络环境发生变化时及时调整调度策略,使实时吞吐量恢复到新的环境下的最优实时吞吐量,而其他方法LDF与RAC-Approx尽管能在较短时间内调度调度策略,但不能达到最优实时吞吐量,而RAC方法在环境发生变化后,需要较多的时间计算新环境下的最优调度策略,
因此,在一段时间内,RAC方法的实时吞吐量均为0.图12表示,分布式调度方法在环境发生变化后,尽管不能快速恢复到最优实时吞吐量,但可以在原有的网络参数上继续进行训练,使实时吞吐量逐渐达到最优实时吞吐量,而DB-DP方法尽管能够迅速调整调度策略,但不能达到最优实时吞吐量。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于深度强化学习的实时集中式无线网络调度系统,其中包括:
准备模块,用于获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;
调度决策模块,用于在该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at
存储模块,用于该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;
更新模块,用于从该经验回放池中抽取经验,以训练更新当前该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中该决策模型的训练过程包括:
创建两个具有相同结构的神经网络,分别为当前网络和目标网络,当接入点需要做出调度决策时,会将当前时隙t的环境状态和环境特征信息输入至该目标网络,得到各调度动作的价值,接入点以ε的概率随机选取一个动作执行调度,以1-ε的概率选择价值最高的动作执行调度,ε为0到1之间的小数,
当接入点执行动作at后,得到反馈rt和终止标识endt,环境状态更新至st+1;将交互信息(st,at,rt,st+1,endt)存储到该经验回放池,其中,endt是终止表示符,当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false,L是恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd是所有数据流周期的最小公倍数,Dk表示数据流k中数据包的截止期限,offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个训练环境进行交互;
从经验回放池中随机抽取部分交互信息后,通过最小化损失函数来更新该当前网络的参数,目标网络的参数θtarget每隔预定时间,会被该当前网络的参数θcurrent所覆盖,达到预设训练时长后,保存当前目标网络作为该决策模型。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中ε的计算系统如下:
Figure BDA0003347813900000181
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点与一个环境交互结束后,该值加1。
所述的基于深度强化学习的实时集中式无线网络调度系统,其中该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。
本发明提出了一种计算机可读存储介质,用于存储有一个或者多个计算机程序,所述计算机程序在被执行时用于实现所述的任意一种基于深度强化学习的实时集中式无线网络调度方法。
本发明提出了一种客户端,用于所述的任意一种基于深度强化学习的实时集中式无线网络调度系统。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度强化学习的实时集中式无线网络调度方法,其特征在于,包括:
步骤1、获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;
步骤2、该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at
步骤3、该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;
步骤4、从该经验回放池中抽取经验,以训练更新当前该决策模型。
2.如权利要求1所述的基于深度强化学习的实时集中式无线网络调度方法,其特征在于,该决策模型的训练过程包括:
创建两个具有相同结构的神经网络,分别为当前网络和目标网络,当接入点需要做出调度决策时,会将当前时隙t的环境状态和环境特征信息输入至该目标网络,得到各调度动作的价值,接入点以ε的概率随机选取一个动作执行调度,以1-ε的概率选择价值最高的动作执行调度,ε为0到1之间的小数,
当接入点执行动作at后,得到反馈rt和终止标识endt,环境状态更新至st+1;将交互信息(st,at,rt,st+1,endt)存储到该经验回放池,其中,endt是终止表示符,当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false,L是恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd是所有数据流周期的最小公倍数,Dk表示数据流k中数据包的截止期限,offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个训练环境进行交互;
从经验回放池中随机抽取部分交互信息后,通过最小化损失函数来更新该当前网络的参数,目标网络的参数θtarget每隔预定时间,会被该当前网络的参数θcurrent所覆盖,达到预设训练时长后,保存当前目标网络作为该决策模型。
3.如权利要求2所述的基于深度强化学习的实时集中式无线网络调度方法,其特征在于,ε的计算方法如下:
Figure FDA0003347813890000021
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点与一个环境交互结束后,该值加1。
4.如权利要求1所述的基于深度强化学习的实时集中式无线网络调度方法,其特征在于,该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。
5.一种基于深度强化学习的实时集中式无线网络调度系统,其特征在于,包括:
准备模块,用于获取由一个接入点和多个用户节点互连组成的无线网络,接入点调度该无线网络中的所有数据流,该无线网络中接入点在与网络环境交互前,在经验回放池中新建一个子区域;
调度决策模块,用于在该接入点与网络环境交互时,在每个时隙,该接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前第t个时隙的环境状态st,同时,该接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将该环境状态和该环境特征信息输入至决策模型,该接入点执行该决策模型输出结果对应的调度决策at
存储模块,用于该接入点执行调度决策at后,收到网络环境的反馈rt和终止标识endt,所有数据流的状态更新至st+1;将交互信息(st,at,rt,st+1,endt)和该环境状态和该环境特征信息作为经验,存储至该子区域;
更新模块,用于从该经验回放池中抽取经验,以训练更新当前该决策模型。
6.如权利要求5所述的基于深度强化学习的实时集中式无线网络调度系统,其特征在于,该决策模型的训练过程包括:
创建两个具有相同结构的神经网络,分别为当前网络和目标网络,当接入点需要做出调度决策时,会将当前时隙t的环境状态和环境特征信息输入至该目标网络,得到各调度动作的价值,接入点以ε的概率随机选取一个动作执行调度,以1-ε的概率选择价值最高的动作执行调度,ε为0到1之间的小数,
当接入点执行动作at后,得到反馈rt和终止标识endt,环境状态更新至st+1;将交互信息(st,at,rt,st+1,endt)存储到该经验回放池,其中,endt是终止表示符,当t≥L*Prd且t%Prd=0时,endt=true,否则endt=false,L是恒定的正整数,满足:
L*Prd≥maxk∈[1,K](offsetk+Dk)
其中,Prd是所有数据流周期的最小公倍数,Dk表示数据流k中数据包的截止期限,offsetk表示数据流k的首个数据包到达时间与网络开始时间的偏移量,当endt=true时,接入点与当前训练环境的交互过程结束,开始与另一个训练环境进行交互;
从经验回放池中随机抽取部分交互信息后,通过最小化损失函数来更新该当前网络的参数,目标网络的参数θtarget每隔预定时间,会被该当前网络的参数θcurrent所覆盖,达到预设训练时长后,保存当前目标网络作为该决策模型。
7.如权利要求6所述的基于深度强化学习的实时集中式无线网络调度系统,其特征在于,ε的计算系统如下:
Figure FDA0003347813890000031
其中,ε0=0.99,εmin=0.001,train_time指接入点已经交互的环境的数量,初始值为0,当接入点与一个环境交互结束后,该值加1。
8.如权利要求5所述的基于深度强化学习的实时集中式无线网络调度系统,其特征在于,该数据流的状态由该数据流待调度的紧急程度与该数据流的数据包到达因子组成。
9.一种计算机可读存储介质,用于存储有一个或者多个计算机程序,所述计算机程序在被执行时用于实现如权利要求1到4所述的任意一种基于深度强化学习的实时集中式无线网络调度方法。
10.一种客户端,用于权利要求5至8所述的任意一种基于深度强化学习的实时集中式无线网络调度系统。
CN202111327752.5A 2021-11-10 2021-11-10 基于深度强化学习的实时集中式无线网络调度方法和设备 Pending CN114189937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111327752.5A CN114189937A (zh) 2021-11-10 2021-11-10 基于深度强化学习的实时集中式无线网络调度方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111327752.5A CN114189937A (zh) 2021-11-10 2021-11-10 基于深度强化学习的实时集中式无线网络调度方法和设备

Publications (1)

Publication Number Publication Date
CN114189937A true CN114189937A (zh) 2022-03-15

Family

ID=80539889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111327752.5A Pending CN114189937A (zh) 2021-11-10 2021-11-10 基于深度强化学习的实时集中式无线网络调度方法和设备

Country Status (1)

Country Link
CN (1) CN114189937A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037689A (zh) * 2022-06-06 2022-09-09 西安明赋云计算有限公司 一种网络流量智能调度的方法及系统
WO2024065423A1 (zh) * 2022-09-29 2024-04-04 西门子股份公司 通信方法、通信装置、通信系统、计算设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037689A (zh) * 2022-06-06 2022-09-09 西安明赋云计算有限公司 一种网络流量智能调度的方法及系统
WO2024065423A1 (zh) * 2022-09-29 2024-04-04 西门子股份公司 通信方法、通信装置、通信系统、计算设备和存储介质

Similar Documents

Publication Publication Date Title
US10142909B2 (en) Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN110505099B (zh) 一种基于迁移a-c学习的服务功能链部署方法
Lin et al. Autonomic and distributed joint routing and power control for delay-sensitive applications in multi-hop wireless networks
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN114189937A (zh) 基于深度强化学习的实时集中式无线网络调度方法和设备
CN114138373B (zh) 一种基于强化学习的边缘计算任务卸载方法
CN109474960B (zh) 一种基于q学习的双连接流量分配方法
Shiang et al. Online learning in autonomic multi-hop wireless networks for transmitting mission-critical applications
CN111601398B (zh) 一种基于增强学习的自组织网介质访问控制方法
WO2023245835A1 (zh) 一种基于栅格时延预测的卫星传输优化方法
Jiang et al. Deep reinforcement learning for discrete and continuous massive access control optimization
CN115714741A (zh) 一种基于协同多智能体强化学习的路由决策方法及系统
CN114173418A (zh) 基于深度强化学习的实时分布式无线网络调度方法和系统
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法
CN114599115A (zh) 一种无人机自组织网络信道接入方法
Dutta et al. Towards multi-agent reinforcement learning for wireless network protocol synthesis
Bagaa et al. On using Deep Reinforcement Learning to dynamically derive 5G New Radio TDD pattern
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Bao et al. AI-Augmented, ripple-diamond-chain shaped, rateless routing in wireless mesh networks with multibeam directional antennas
CN116828548A (zh) 一种针对电力无线网络的基于强化学习的最佳路由调度方法
CN115484205A (zh) 确定性网络路由与队列调度方法及装置
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
Ouferhat et al. A QoS scheduler packets for wireless sensor networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination