CN113254197B

CN113254197B - 一种基于深度强化学习的网络资源调度方法及系统

Info

Publication number: CN113254197B
Application number: CN202110485657.1A
Authority: CN
Inventors: 何先灯; 叶剑; 权风光; 易运晖; 陈南; 朱畅华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-02-03
Anticipated expiration: 2041-04-30
Also published as: CN113254197A

Abstract

本发明属于无线通信技术领域，公开了一种基于深度强化学习的网络资源调度方法及系统，所述基于深度强化学习的网络资源调度系统中人机交互显示平台与智能控制平台连接，智能控制平台与通信模块连接，通信模块与数据传输介质连接；数据传输介质为有线或者无线通信信道，智能控制平台基于深度强化学习算法对不同网络数据流传输任务的通信带宽进行调度，控制整个系统进行数据收发。本发明中，深度强化学习算法嵌入在智能控制平台中，可以更加灵活方便的实现不同的资源调度算法。由于该发明提出的基于深度强化学习网络资源调度算法，在与外界环境不断进行交互与学习，具有较好的自适应能力。

Description

一种基于深度强化学习的网络资源调度方法及系统

技术领域

本发明属于无线通信技术领域，尤其涉及一种基于深度强化学习的网络资源调度方法及系统。

背景技术

目前，在自组织网络系统中，通信节点具有移动性，且随着网络中节点数的增加，通信网络环境和质量在不断变化，导致通信网络的传输带宽变化剧烈。现有的网络资源调度策略主要适用于因特网、蜂窝网络等网络带宽资源丰富、网络拓扑结构稳定的情景，没有考虑自组织网络中节点移动和用户增多带来的链路稳定性差及网络速率变化较大的特点。

无线通信使人们之间的联系沟通变得愈发的简单快捷，无线自组织网络在网络结构、组网方式、网络资源等方面与有线通信或者蜂窝无线网络具有较大区别，针对不同网络之间的差异性，网络资源调度机制也需要根据不同的场景不断的提出新的方法与系统。

常见的网络资源调度方法，主要有五类：第一类是先来先服务方法，第二类是短作业优先方法，第三类是时间片轮询方法，第四类是优先级方法，第五类是基于机器学习算法自适应调度算法。

第一类方法，主要应用于网络数据传输时的帧或包长度大小没有较大的区别，所有网络资源在传输时，每次传输数据的长度基本一致。使用通信网络传输数据帧，先来到的数据，先发送，后来到的数据，后发送。

第二类方法，主要应用于网络数据帧的长度大小有明显的差异，有很长的数据帧，也有很短的数据帧。在进行数据传输之前，先事先计算好传输的时间，然后在实际传输时，根据计算的时间，从中选择传输时间较短的数据帧优先传输，确定所有数据帧的先后传输次序。

第三类方法，主要应用于保证网络资源调度公平性。在进行数据传输时，按照数据帧来到的次序，将所有数据帧排成一个队列，在数据传输时，发送队列中第一个数据帧一定时间(时间片)，当这个时间片结束时，该数据帧还没发送完毕，将中断此数据帧的传输，并将它送到队列的末尾，然后再发送队列队首的数据帧一个时间片，否则如果数据帧全部发送完毕，则直接发送队列下个位置的数据帧一个时间片，这样不断轮询重复，直到所有的数据都发送完成。

第四类方法，主要针对网络资源根据实际需要有不同优先级的场景。每个网络数据流会设置一个优先级，在数据进行传输时，当有高优先级的数据需要发送时，当前低优先级的数据就会中止发送，发送优先级高的数据，直到高优先级数据全部发送完成，低优先级数据接着进行发送。并在此基础上又可以分为动态优先级方法和静态优先级方法，区别在于在数据发送的过程中，不同数据流的优先级是否可以改变。

第五类方法，主要基于现代机器学习等先进算法，该类方法需要根据场景的不同，选择合适的调度方法。在视频传输中，可以使用机器学习算法进行网络流的反馈调节，提高视频传输的速度和流畅度(基于机器学习的视频传输和资源调度技术研究-王琪)。在车间生产调度中，使用神经网络深度学习调度算法用于作业车间智能调度，并对柔性作业车间智能调度问题以线缆车间为研究对象进行了研究(基于神经网络深度学习的智能调度算法研究-段世豪)。

现有第一类方法，只能适用与传输数据帧长短差距不大的情况，但是在自组织网络中，网络请求种类复杂，数据帧的长度不一，并且具有较大差别，使用该方法，如果短数据帧位于长数据帧后面，则会增大平均周转时间。

第二类方法，比较长的数据帧可能长期得不到发送，对长数据帧不利；另外发送数据的服务时间是用户向系统提交时设定好的，难免有些用户为了让自己数据优先发送，会把发送数据时间缩短，也就是有人为的因素在里面。

第三类方法，由于需要一直轮转切换发送的数据，会降低发送数据的效率，尤其当设定的时间片较短时；而将时间片设定的太长，又会短的交互请求响应性能较差。

第四类方法，主要问题是无穷阻塞或饥饿。已经提交数据进行但是在等待数据被发送可以认为是阻塞的。优先级调度算法可让某个低优先级进程无穷等待这被发送。对于一个超载的数据发送系统，稳定的更高优先级的数据流可以阻止低优先级的数据进行发送。一般来说，有两种情况会发生。要么这个低优先级数据最终会被发送(在系统最后为轻负荷时)，要么系统最终崩溃并失去所有未完成的低优先级数据。

第五类方法，主要使用最新的一些算法和理论基础，对不同场景下的资源调度选择合适的策略，相较于传统的方法取得了一些进步，但是此类方法不具有普遍适应性，需要根据各种情况，单独的分析并选择合适的方法，目前在网络通信中使用机器学习算法，一般都在路由层中对路由规划和路径进行优化，还没有在网络层中通过对网络资源调度达到网络优化的方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术只能适用与传输数据帧长短差距不大的情况，在自组织网络中，网络请求种类复杂，数据帧的长度不一，并且具有较大差别；并且如果短数据帧位于长数据帧后面，则会增大平均周转时间。

(2)现有技术中比较长的数据帧可能长期得不到发送，对长数据帧不利；同时发送数据的服务时间是用户向系统提交时设定好的，难免有些用户为了让自己数据优先发送，会把发送数据时间缩短，即存在人为因素。

(3)现有技术中由于需要一直轮转切换发送的数据，会降低发送数据的效率，尤其当设定的时间片较短时；而将时间片设定的太长，又会短的交互请求响应性能较差。

(4)现有技术中会存在低优先级数据最终会被发送，或系统最终崩溃并失去所有未完成的低优先级数据。

(5)现有技术中主要使用最新的一些算法和理论基础，对不同场景下的资源调度选择合适的策略，相较于传统的方法取得了一些进步，但是不具有普遍适应性，需要根据各种情况，单独的分析并选择合适的方法，现阶段在网络通信中使用机器学习算法，一般都在路由层中对路由规划和路径进行优化，还没有在网络层中通过对网络资源调度达到网络优化的方法。

解决以上问题及缺陷的难度为：目前各种网络资源调度方法不能够在自组织网络中根据网络环境状态的变化合理的调度系统网络资源；现有算法采取的恒定分配资源策略方法，在网络资源受限或网络业务变化时会导致用户使用体验极差，网络服务质量差；现有算法采用机器学习方法对网络资源调度进行优化大多数从路由路径进行考虑，没有从网络层对不同网络任务进行资源调度优化。解决以上问题及缺陷的意义为：结合深度强化学习理论，在对网络资源调度时充分考虑当前网络系统和用户业务状态，实现了一种网络服务质量好，用户满意度高的网络资源调度方法，使自组织网络可以得到更加广泛的应用。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度强化学习的网络资源调度方法及系统。

本发明是这样实现的，一种基于深度强化学习的网络资源调度方法，所述的基于深度强化学习的网络资源调度方法，包括

步骤一，在智能调度平台上初始化经验回放缓存器，并设置其容量，通过经验缓存器，智能体在进行调度时不仅可以学习当前经历以及过去的经历，还可以对其他智能平台的经历进行学习，可以更好的对网络资源进行调度；

步骤二，对网络资源调度策略利用随机数初始化其动作-奖励值函数训练模型Q₁，并以给定常数初始化其动作-奖励值函数目标模型Q₂；Q₁负责不断与实际环境进行交互学习，Q₁经过一定轮次的迭代后将参数传递给Q₂，由于Q₂在没有变化的一段时间内回报的估计值是相对固定的，可以避免不断变化的样本输入来调整网络参数造成预估值失控风险，增加了学习的稳定性。

步骤三，利用训练样本，对上述两个模型Q₁和Q₂进行训练，Q₁模型负责和实际网络环境进行交互，得到交互样本；该不断与环境交互进行学习的过程，使网络资源调度方法在当前网络状态下是最优的。

步骤四，在学习阶段时，奖励值由Q₂模型计算得到，然后用它和Q₁模型的估计值进行比较得到新的Q₁奖励值并更新Q₁模型；使得Q₁模型的更新更可靠。

步骤五，每当上述步骤三和步骤四训练完成一定轮次的迭代后，Q₁模型的参数就会同步给Q₂模型，继续进行下一阶段的训练学习；将学习一定轮次后的经验结果反馈给Q₂，更新Q₂模型。

步骤六，通过步骤三～步骤五过程，目标模型Q₂一段时间内固定，减少模型波动性；得到了一个在当前网络环境下最优的网络资源调度方法。

步骤七，在智能调度平台上使用经过步骤二～步骤五训练好的目标模型进行网络资源调度以及通信数据的分发控制；从而得到更好的网络资源调度策略，为实现更好的用户体验提供基础。

步骤八，智能调度平台根据通信模块反馈数据，不断进行步骤二～步骤五训练-学习的过程，根据实际网络环境不断自适应调整。通过该方式可以保证无论外界环境如何变化，网络资源调度方法的性能一直较好。

进一步，所述在训练和学习阶段，利用探索-平衡方式选择资源调度动作为：

在训练阶段每次选择调度策略动作时，以1-ε的概率去执行奖励值最大的动作，以ε的概率在所有可选择的资源调度动作中均匀随机的选取动作。

进一步，所述步骤八中，智能调度平台与环境的交互为离散时间马尔可夫决策过程模型；

在离散时间智能调度平台与环境的接口中，在t时刻，依次会发生一下事件

1)智能调度平台观察状态S_t∈S的环境，得到观测结果O_t∈O，其中S代表状态空间集合，O代表观测空间集合；

2)智能调度平台根据观测决定动作A_t∈A，其中A是动作集合；

3)环境根据智能调度平台的动作，给予智能平台奖励R_t∈R，并进入下一个状态S_t+1，其中R代表奖励空间的集合；

一个时间离散化的智能调度平台和环境之间的交互用一下数学序列表示

S₀,O₀,A₀,R₁,S₁,O₁,A₁,R₂,S₂,O₂,A₂...(2)

在上述基础上，假设认为奖励R_t+1和下一个状态S_t+1仅仅依赖与当前的状态S_t和动作A_t，而不依赖于更早的状态和动作，定义在t，从状态S_t＝s和动作A_t＝a跳转到下一状态S_t+1＝s'和奖励R_t+1＝r的概率为

Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (3)

对于上述马尔可夫决策过程，定义函数p:S×R×S×A→[0,1]为马尔可夫决策过程的动力：

p(s',r|s,a)＝Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (4)

利用动力的定义，推出其他导出量

状态转移概率：

给定“状态-动作”的期望奖励：

给定“状态-动作-下一个状态”的期望奖励：

进一步，所述在马尔可夫决策过程中，定义策略为从状态到动作的转移概率，对于马尔可夫决策过程，其策略为从状态到动作的转移概率，其策略π:S×A→[0,1]定义为

π(a|s)＝Pr[A_t＝a|S_t＝s],s∈S,a∈A (8)

对于动作集为连续的情况，可以用概率分布来定义策略；

对于回报G_t的定义，在连续性的任务没有终止时间，所以G_t会包括t时刻后的所有奖励信息，如果对未来所有的奖励简单求和，会导致总和往往是无穷大，针对这个问题，引入折扣的概念，定义回报为

折扣因子γ决定了在最近的奖励和未来的奖励间进行折中，基于回报的定义，进一步定义价值函数；对于给定的策略π，定义价值函数。

进一步，所述价值函数为：

状态价值函数：状态价值函数v_π(s)表示从状态s开始采用策略π的预期回报，

v_π(s)＝E_π[G_t|S_t＝s] (10)

状态价值函数：动作价值函数q_π(s,a)表示在状态s采取动作a后，采用策略π的预期回报，

q_π(s,a)＝E_π[G_t|S_t＝s,A_t＝a] (11)

最优策略和最优价值函数，对于一个动力，存在一个策略π_*使得所有策略的回报都小于等于这个策略，此时这个策略π_*被称作最优策略；最有优价值函数具有一个重要的信息-Bellman最优方程，Bellman最优方程求解最优价值函数，

进一步，所述Bellman最优方程有以下两个部分：

A、用最优动作价值函数表示最优状态价值函数

v_π(s)＝maxq_*(s,a),s∈S (12)

B、用最优状态价值函数表示最优动作价值函数

Q学习(Q-learning)是一种的基础强化学习算法，它使用二维表格来记录智能体的环境-动作-奖励值的之间的映射关系，表格的行、列、单元格分别对应着环境状态S、可执行动作A、当前环境状态S下选择动作A得到估计Q值；

当智能体需要根据当前环境状态选择动作，将计算所有动作的Q值，根据计算出来Q值选择下一个执行动作，Q-learning中Q值更新表达式定义如公式(14)所示：

Q(S_t,A_t)←Q(S_t,A_t)+α[R_t+1+γmax_aQ(S_t+1,a)-Q(S_t,A_t)] (14)

其中α∈(0,1]，α表示学习率，值越大表示越重视当前训练的结果；γ∈[0,1]，γ是折扣因子表示对信息的学习程度，值越大表示越重视以往的经验。

Q-learning采用表格形式来表示从环境获取的状态以及可选择的动作，故又称之为表格型强化学习，表格行列数有限；

对于环境状态集合S、选择动作集合A和值函数集合Q，存在S×A→Q这样的映射关系，将求解值函数的问题转化为监督学习形式；使用神经网络来充当Q-learning的查询表，将深度学习引入到强化学习中，从而开创了深度强化学习模型DQN理论；

在Q-learning中，通过当前时刻的回报和下一时刻的Q值估计进行更新，由于数据本身存在着不稳定性，每一轮迭代都可能产生一些波动，这些波动会立刻反映到下一个迭代的计算中，引入目标网络DQN算法；

DQN算法使用目标神经网络与评估神经网络双网络架构，初始化时在原有的Q评估网络基础上，又搭建了结构相同的Q-target目标网络，通过最小化误差函数来更新神经网络权重值参数w，DQN算法基于Q学习理论来定义Loss函数：

L(w)＝E[(r+γmax_a'Q_eval(s',a'；w')-Q_eval(s,a；w))²] (15)

在初始参数w₀已知的条件下，由公式(15)有：

通过优化目标最小化Loss函数得到w₁，类推最终实现参数w收敛：

沿着Loss函数对w的梯度反方向来更新w，就能有机会减小损失，因此利用随机梯度下降法不断更新神经网络权重值w完成训练过程，最终可得到最优价值函数；

参数w更新公式为：

在DQN资源调度模型训练学习过程中，评估网络每次训练后都更新神经网络权重值w，它使用最新权重值w来评估当前状态动作对应的值函数Q(s,a；w)；目标网络在评估网络权重值w完成一定次数的更新后，将评估网络的权重值w赋给目标网络的权重值w^-，接着进行下一批更新；目标网络在没有变化的一段时间内回报的估计值是相对固定的；

强化学习通过内部智能体在外部环境交互过程中不断试错，通过最大化积累函数来实现最优决策，是一种无监督的机器学习方法；在通信网络资源调度时，根据当前智能体对网络状态的观测，为不同网络业务流传输分配网络带宽资源也就是选择行为，同时得到该行为的期望累计奖励，为后续决策和行动的选择提供依据；

强化学习DQN算法消除样本之间的相关性，使模型具有稳定的收敛性，引入了经验回放机制，使用经验库T来学习之前的经历实现经验回放，学习当前经历以及过去的经历，并且对其他智能体的经历进行学习，是一种离线学习法；在t时刻智能体与环境交互得到转移样本(s_t,a_t,r_t,s_t+1)并存储到经验库，当经过一定时间的交互过程后，经验库中存储一定数量的样本，然后随机抽取一批样本进行训练；经验回放可以消除转移样本时间的相关性，使得样本更符合独立同分布条件，减少参数更新的方差，加快收敛；

结合DQN深度强化学习算法的网络资源调度机制需要明确环境的调度空间、调度选择的动作空以及资源调度的奖励函数；选择合适的环境状态空间对强化学习DQN算法非常重要；将网络传输带宽作为网络状态环境，通过通信模块获取当前用户通信业务状态，包括紧急通话业务、短消息通信业务、语音通信业务和多媒体通信业务，定义环境的状态空间为：

S＝[TB,EC,MC,VC,SC] (19)

其中TB表示实时网络可用的带宽资源，EC、MC、VC、SC分别是紧急通话、短消息通信、语音通信、多媒体通信请求占据传输带宽；

对当前通信系统中网络资源进行调度的决策动作空间可以表示为：

A＝[EB,MB,VB,SB] (20)

其中EB、MB、VB、SB对应网络资源调度模块为紧急通信、短消息通信、语音通信、多媒体通信分配的网络带宽资源。

进一步，所述通信系统中最优的网络资源分配策略为：

奖励是智能体执行某一动作后，当前网络环境对该动作的反馈信号，以检验动作的有效程度，其有效程度通过户服务满意度QoE来表示，构建用户服务满意度QoE函数如下：

其中α₁,α₂,α₃,α₄为业务优先级权重系数，有α₁＞α₂＞α₃＞α₄，F为归一化系数，j代表b_i≠0的个数，b₁、b₂、b₃、b₄分别表示紧急通信、短消息通信、语音通信、多媒体通信分别占据网络带宽资源，b_i满足公式(22)条件；

b_i,min≤b_i≤b_i,max(i＝1,2,3,4) (22)

当b_i＝b_i,max时，业务i拥有充足带宽传输数据，用户满意度最好，此时QoE值最大，同理b_i＝b_i,min用户满意度较差，此时QoE值最小；当强化学习资源调度智能体在时刻t时执行动作获得环境反馈奖励值，定义奖励函数r_t表达式如公式(23)所示：

r_t＝(QoE_t+1-QoE_t)/QoE_t+1 (23)

当执行某个动作后，用户服务满意度变大，即动作得到较好的结果，此时Qoe_t+1＞Qoe_t，返回一个正值奖励；如果动作执行效果不好，则会返回一个负值奖励；通过该奖励函数，网络资源调度可以在该反馈交互过程不断调整自己调度策略，经过一定轮次的迭代学习将会收敛达到网络资源调度最优状态。

本发明的另一目的在于提供一种实施所述基于深度强化学习的网络资源调度方法的基于深度强化学习的网络资源调度系统，所述基于深度强化学习的网络资源调度系统包括：人机交互显示平台、智能控制平台、通信模块、数据传输介质；

人机交互显示平台与智能控制平台连接，智能控制平台与通信模块连接，通信模块与数据传输介质连接；

数据传输介质为有线或者无线通信信道，智能控制平台基于深度强化学习算法对不同网络数据流传输任务的通信带宽进行调度，控制整个系统进行数据收发；

人机交互显示平台通过串口、USB或者网口中的一种连接至智能控制平台，完成通信数据的收发，实现整个通信过程中人机交互功能；人机交互将用户在通信过程中产生的数据发送到智能控制平台，并对智能控制平台返回的数据处理后进行显示；

智能控制平台通过串口、USB或者网口连接至通信模块，完成通信数据的收发，并接收通信模块发送当前网络状态信息，对从人机交互平台传输来的通信数据采用深度强化学习算法进行调度，从通信模块得到的网络状态作为反馈，对整个调度算法进行不断的调整；通信模块最终将数据流通过缆线或者无线电波的方式发送数据传输介质当中。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述基于深度强化学习的网络资源调度方法包括下列步骤：

步骤一，在智能调度平台上初始化经验回放缓存器，并设置其容量；

步骤二，对网络资源调度策略利用随机数初始化其动作-奖励值函数训练模型Q₁，并以给定常数初始化其动作-奖励值函数目标模型Q₂；

步骤三，利用训练样本，对上述两个模型Q₁和Q₂进行训练，Q₁模型负责和实际网络环境进行交互，得到交互样本；

步骤四，在学习阶段时，奖励值由Q₂模型计算得到，然后用它和Q₁模型的估计值进行比较得到新的Q₁奖励值并更新Q₁模型；

步骤五，每当上述步骤三和步骤四训练完成一定轮次的迭代后，Q₁模型的参数就会同步给Q₂模型，继续进行下一阶段的训练学习；

步骤六，通过步骤三～步骤五过程，目标模型Q₂一段时间内固定，减少模型波动性；

步骤七，在智能调度平台上使用经过步骤二～步骤五训练好的目标模型进行网络资源调度以及通信数据的分发控制；

步骤八，智能调度平台根据通信模块反馈数据，不断进行步骤二～步骤五训练-学习的过程，根据实际网络环境不断自适应调整。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的基于深度强化学习的网络资源调度方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为发明中基于深度强化学习网络资源调度算法，在执行网络资源调度决策时，本质是一个马尔可夫决策的过程。

本发明中结合深度强化学习技术的自适应调整的网络资源调度方法，可以在自组织网络中实现用户满意度较高的服务质量。本发明采用深度强化学习技术，将网络中的用户节点作为智能体，赋予决策和学习的能力，在通信的过程中，节点智能体调度结果会反馈得到一个奖励值(用户满意度的度量)，所有节点在与环境的交互学习中使奖励最大化，不断优化通信系统的网络资源调度策略，为自组织网络中的服务质量优化的实现提供了条件。本发明对发送数据帧长短无任何要求，并保证了长短帧的公平性，对于阻塞或者饥饿问题，由于采取反馈控制的方法，也可很好的解决，并对网络质量也有一定的优化。

本发明网络资源调度方法系统，基于深度强化学习算法，实现了对自组织网络资源调度系统的优化。本发明使用人机交互与显示平台、智能控制平台和通信模块构成的优化网络用户满意度的网络资源调度系统；在智能控制平台中嵌入深度强化学习等机器学习方法，对通信系统中网络资源进行调度；将网络资源调度，网络数据收发控制作为单独做一个平台模块实现，可以更好的去调度不同网络数据占据的网络带宽资源，也为在该平台上嵌入设计的算法提供了基础。

同时本发明相较于传统网络资源调度机制，不同于先来先发送和短作业有线对发送数据帧长短有一定要求，该发明提出的资源调度机制对系统发送数据帧长短无任何要求，同时和轮询调度算法一样保证了公平性，并相较于优先级算法，对于阻塞或者饥饿问题，由于采取反馈控制的方法，也可很好的解决。本发明系统将网络资源调度功能放在智能调度平台中进行实现，与通信模块分离开来，这样可以更加灵活方便的实现不同的资源调度算法，在本发明中以平台嵌入了深度强化学习算法为例。由于该发明提出的基于深度强化学习网络资源调度算法，在与外界环境不断进行交互，进行自我调整学习，在各种网络环境下，具有较好的自适应能力。

附图说明

图1是本发明实施例提供的基于深度强化学习的网络资源调度系统结构示意图。

图1中：1、人机交互显示平台；2、智能控制平台；3、通信模块；4、数据传输介质。

图2是本发明实施例提供的调度方法的结构图。

图3是本发明实施例提供的基于深度强化学习的网络资源调度方法流程图。

图4是本发明实施例提供的DQN强化学习参数更新原理示意图。

图5是本发明实施例提供的强化学习调度机制收敛性分析示意图。

图6是本发明实施例提供的网络资源调度机制用户满意度对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于深度强化学习的网络资源调度方法及系统，下面结合附图对本发明作详细的描述。

本发明提供的基于深度强化学习的网络资源调度方法及系统业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的基于深度强化学习的网络资源调度方法及系统仅仅是一个具体实施例而已。

如图1所示，本发明实施例提供的基于深度强化学习的网络资源调度系统包括：人机交互显示平台1、智能控制平台2、通信模块3、数据传输介质4；

人机交互显示平台1与智能控制平台2连接，智能控制平台2与通信模块3连接，通信模块3与数据传输介质4连接。

数据传输介质为有线或者无线通信信道，通常为同轴电缆或者电波。智能控制平台基于深度强化学习算法对不同网络数据流传输任务的通信带宽进行调度，控制整个系统进行数据收发。

节点内，各模块的功能与连接关系描述如下：

人机交互与显示平台通过串口、USB或者网口中的一种连接至智能控制平台，完成通信数据的收发，实现整个通信过程中人机交互功能。人机交互将用户在通信过程中产生的数据(语音数据、邮件短信数据、视频数据等)发送到智能控制平台，并对智能控制平台返回的数据处理后进行显示；智能控制平台通过串口、USB或者网口连接至通信模块，完成通信数据的收发，并接收通信模块发送当前网络状态信息，对从人机交互平台传输来的通信数据采用深度强化学习算法进行调度，从通信模块得到的网络状态作为反馈，对整个调度算法进行不断的调整；通信模块最终将数据流通过缆线或者无线电波的方式发送数据传输介质当中。

在本发明实施例中，人机交互显示平台可以由任何其他具有输入输出功能设备构成；深度强化学习作为机器学习中一种，因此也可以采用其他机器学习方法来作为该发明中网络资源调度的基础，比如时间差学习等方法。智能控制平台包括任何具有操作系统、可嵌入机器学习算法的设备，比如计算机，手机，小型嵌入式设备等。

如图2所示，所提出的基于深度强化学习的网络资源调度方法，由智能控制平台和通信模块配合完成。智能控制平台负责对人机交互产生的不同网络数据流占据带宽资源进行调度，并将完成调度后的通信数据通过通信模块进行有线或者无线收发，同时不断接收通信模块反馈的网络当前状态，通过深度强化学习的方法不断调整优化自己的网络资源调度策略。通信模块负责将接收的通信数据转换为数据流，并将接收到的数据流转换成智能控制平台可以识别的数据发送到智能控制平台。

智能调度平台通过通信模块获得当前网络环境网络状态，然后根据用户的请求状态(人机交互平台产生)和网络流数据分析后，选择能够使网络服务质量最优的策略进行发送通信数据的发送，也就是选择动作α，最终根据动作α会产生对应此动作的延时奖励R，通过奖励R更新调度策略和知识信息。

如图3所示，本发明实施例提供的基于深度强化学习的网络资源调度方法，包括：

S101：在智能调度平台上初始化经验回放缓存器，并设置其容量；

S102：对网络资源调度策略利用随机数初始化其动作-奖励值函数训练模型Q₁，并以给定常数初始化其动作-奖励值函数目标模型Q₂；

S103：利用训练样本，对上述两个模型Q₁和Q₂进行训练，Q₁模型负责和实际网络环境进行交互，得到交互样本；

S104：在学习阶段时，奖励值由Q₂模型计算得到，然后用它和Q₁模型的估计值进行比较得到新的Q₁奖励值并更新Q₁模型；

S105：每当上述S103和S104训练完成一定轮次的迭代后，Q₁模型的参数就会同步给Q₂模型，继续进行下一阶段的训练学习；

S106：通过S103～S105过程，目标模型Q₂一段时间内是固定了，减少了模型波动性；

S107：在智能调度平台上使用经过S102～S105训练好的目标模型进行网络资源调度以及通信数据的分发控制；

S108：智能调度平台根据通信模块反馈数据，不断进行S102～S105训练-学习的过程，保证的该调度方法根据实际网络环境不断自适应调整。

本发明实施例提供的在训练和学习阶段，利用探索-平衡(ε-greedy)方式选择资源调度动作

在训练阶段每次选择调度策略动作时，以1-ε的概率去执行奖励值最大的动作，以ε的概率在所有可选择的资源调度动作中均匀随机的选取动作，这样既能够尽可能使网络服务质量好，又能不失去找到更好网络服务质量的机会。

本发明实施例提供的S108中，智能调度平台与环境的交互为离散时间马尔可夫决策过程模型；

2)智能调度平台根据观测决定动作A_t∈A，其中A是动作集合；

一个时间离散化的智能调度平台和环境之间的交互可以用一下数学序列表示

S₀,O₀,A₀,R₁,S₁,O₁,A₁,R₂,S₂,O₂,A₂...(2)

Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (3)

对于上述马尔可夫决策过程，可以定义函数p:S×R×S×A→[0,1]为马尔可夫决策过程的动力：

p(s',r|s,a)＝Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (4)

利用动力的定义，可以推出其他导出量

状态转移概率：

给定“状态-动作”的期望奖励：

给定“状态-动作-下一个状态”的期望奖励：

在马尔可夫决策过程中，定义策略为从状态到动作的转移概率。对于马尔可夫决策过程，其策略为从状态到动作的转移概率。其策略π:S×A→[0,1]可以定义为

π(a|s)＝Pr[A_t＝a|S_t＝s],s∈S,a∈A (8)

对于动作集为连续的情况，可以用概率分布来定义策略。

折扣因子γ决定了如何在最近的奖励和未来的奖励间进行折中，基于回报的定义，可以进一步定义价值函数。对于给定的策略π，可以定义以下的价值函数。

v_π(s)＝E_π[G_t|S_t＝s] (10)

q_π(s,a)＝E_π[G_t|S_t＝s,A_t＝a] (11)

最优策略和最优价值函数，对于一个动力来说，总是存在一个策略π_*使得所有策略的回报都小于等于这个策略，此时这个策略π_*被称作最优策略。最优策略的价值函数称为最优价值函数，最有优价值函数具有一个重要的信息-Bellman最优方程(Bellmanoptimal equation)，Bellman最优方程可以求解最优价值函数，

Bellman最优方程有以下两个部分。

A、用最优动作价值函数表示最优状态价值函数

v_π(s)＝max q_*(s,a),s∈S (12)

B、用最优状态价值函数表示最优动作价值函数

Q学习(Q-learning)是一种的基础强化学习算法，它使用二维表格来记录智能体的环境-动作-奖励值的之间的映射关系，表格的行、列、单元格分别对应着环境状态S、可执行动作A、当前环境状态S下选择动作A得到估计Q值。当智能体需要根据当前环境状态选择动作，将计算所有动作的Q值，根据计算出来Q值选择下一个执行动作，Q-learning中Q值更新表达式定义如公式(14)所示：

Q(S_t,A_t)←Q(S_t,A_t)+α[R_t+1+γmax_aQ(S_t+1,a)-Q(S_t,A_t)] (14)

其中α∈(0,1]，α表示学习率，值越大表示越重视当前训练的结果。γ∈[0,1]，γ是折扣因子表示对信息的学习程度，值越大表示越重视以往的经验。

Q-learning采用表格形式来表示从环境获取的状态以及可选择的动作，故又称之为表格型强化学习，表格行列数有限，现实中有很多问题的状态和动作空间维度较大，采用Q-learning无法解决此类问题会导致维度灾难。事实上，对于环境状态集合S、选择动作集合A和值函数集合Q，存在S×A→Q这样的映射关系，因此可以将求解值函数的问题转化为监督学习形式，而监督学习是一种常见且易于解决的问题。使用神经网络来充当Q-learning的查询表，将深度学习引入到强化学习中，从而开创了深度强化学习模型DQN理论，这些算法对环境的假设很少，因此可以推广到其他环境。

在Q-learning中，通过当前时刻的回报和下一时刻的Q值估计进行更新，由于数据本身存在着不稳定性，每一轮迭代都可能产生一些波动，这些波动会立刻反映到下一个迭代的计算中，这样很难得到一个平稳的模型。为了减轻该问题的影响，需要将两个部分尽可能地解耦，由此引入目标网络，DQN算法中相关参数更新原理如图4所示。

L(w)＝E[(r+γmax_a'Q_eval(s',a'；w')-Q_eval(s,a；w))²] (15)

在初始参数w₀已知的条件下，由公式(15)有：

通过优化目标最小化Loss函数得到w₁，类推可最终实现参数w收敛：

沿着Loss函数对w的梯度反方向来更新w，就能有机会减小损失，因此利用随机梯度下降法不断更新神经网络权重值w完成训练过程，最终可得到最优价值函数。

参数w更新公式为：

在DQN资源调度模型训练学习过程中，评估网络每次训练后都更新神经网络权重值w，因此它使用最新权重值w来评估当前状态动作对应的值函数Q(s,a；w)；目标网络在评估网络权重值w完成一定次数的更新后，将评估网络的权重值w赋给目标网络的权重值w^-，接着进行下一批更新。由于目标网络在没有变化的一段时间内回报的估计值是相对固定的，可以避免不断变化的样本输入来调整网络权重值造成预估值失控风险，增加了学习的稳定性。

强化学习不需要在学习的过程中给定各种标注数据，它通过内部智能体在外部环境交互过程中不断试错，通过最大化积累函数来实现最优决策，是一种无监督的机器学习方法。在通信网络资源调度时，根据当前智能体对网络状态的观测，为不同网络业务流传输分配网络带宽资源也就是选择行为，同时得到该行为的期望累计奖励，为后续决策和行动的选择提供依据。

强化学习DQN算法为了消除样本之间的相关性，保证相互独立，同时使模型具有稳定的收敛性，引入了经验回放机制，使用经验库T来学习之前的经历实现经验回放，这样不仅可以学习当前经历以及过去的经历，还可以对其他智能体的经历进行学习，是一种离线学习法。在t时刻智能体与环境交互得到转移样本(s_t,a_t,r_t,s_t+1)并存储到经验库，当经过一定时间的交互过程后，经验库中存储一定数量的样本，然后随机抽取一批样本进行训练。经验回放可以消除转移样本时间的相关性，使得样本更符合独立同分布条件，减少参数更新的方差，加快收敛。

结合DQN深度强化学习算法的网络资源调度机制需要明确环境的调度空间、调度选择的动作空以及资源调度的奖励函数。选择合适的环境状态空间对强化学习DQN算法非常重要。将网络传输带宽作为网络状态环境，通过通信模块获取当前用户通信业务状态，包括紧急通话业务、短消息通信业务、语音通信业务和多媒体通信业务，定义环境的状态空间为：

S＝[TB,EC,MC,VC,SC] (19)

其中TB表示实时网络可用的带宽资源，EC、MC、VC、SC分别是紧急通话、短消息通信、语音通信、多媒体通信请求占据传输带宽。

A＝[EB,MB,VB,SB] (20)

本发明的目的是找到当前通信系统中最优的网络资源分配策略。奖励是智能体执行某一动作后，当前网络环境对该动作的反馈信号，以检验动作的有效程度，其有效程度可以通过户服务满意度QoE来表示，构建用户服务满意度QoE函数如下：

其中α₁,α₂,α₃,α₄为业务优先级权重系数，有α₁＞α₂＞α₃＞α₄，F为归一化系数，j代表b_i≠0的个数，b₁、b₂、b₃、b₄分别表示紧急通信、短消息通信、语音通信、多媒体通信分别占据网络带宽资源，b_i满足公式(22)条件。

b_i,min≤b_i≤b_i,max(i＝1,2,3,4) (22)

当b_i＝b_i,max时，业务i拥有充足带宽传输数据，用户满意度最好，此时QoE值最大，同理b_i＝b_i,min用户满意度较差，此时QoE值最小。当强化学习资源调度智能体在时刻t时执行动作获得环境反馈奖励值，定义奖励函数r_t表达式如公式(23)所示：

r_t＝(QoE_t+1-QoE_t)/QoE_t+1 (23)

表1基于强化学习的网络资源调度机制流程

下面结合具体实施例对本发明的技术方案作进一步的描述。

采用DQN方法作为智能体中环境-动作网络资源调度策略，使用Python构建仿真网络环境模型并实现强化学习网络资源调度机制，使用TensorFlow、Keras与Gym框架训练学习的网络资源调度机制，分析发明的网络资源调度机制的收敛性和有效性。自组织网络模型参数如表2所示，强化学习DQN模型参数如表3所示；

表2网络模型仿真参数设置

表3强化学习DQN模型参数设置

为验证发明资源调度机制的收敛性，记录每个回合结束时定义的回报G_t奖励累计值，结果如图5所示。

将发明的资源调度机制性能与轮询(BR)调度机制和先来先服务(FCFS)调度机制性能进行对比，使用网络中用户QoE满意度函数对调度机制性能进行评估，仿真结果如图6所示。

由图6可得在网络中业务数从0到40变化过程中，DQN，BR，FCFS三种调度机制的用户满意度平均值约为87％，78％和61％，说明本发明的网络资源调度机制方法对用户满意度有一定提升。对比BR调度机制用户满意度提升11％，对比FCFS调度机制用户满意度提高42％，因为发明的资源调度机制在资源分配时充分考虑了不同业务优先级，向优先级高业务逐渐分配更多网络资源，尽管网络中业务数不断增多，网络通信速率不断变化，但优先级高业务任能够较好传输，用户满意度较高。而BR尽管保证了业务的公平性，但是并没有对优先级高的业务分配更多资源，所以用户满意度一般。FCFS调度机制在业务数增多时，网络带宽资源大部分被邮件、流媒体等带宽资源消耗大且低优先级业务占据，而高优先级业务无法进行传输，所以网络中业务数增多时用户满意度急剧下降。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的网络资源调度方法，其特征在于，所述的基于深度强化学习的网络资源调度方法，包括

步骤八，智能调度平台根据通信模块反馈数据，不断进行步骤二～步骤五训练-学习的过程，根据实际网络环境不断自适应调整；

所述步骤八中，智能调度平台与环境的交互为离散时间马尔可夫决策过程模型；

在离散时间智能调度平台与环境的接口中，在t时刻，依次会发生以下事件

2)智能调度平台根据观测决定动作A_t∈A，其中A是动作集合；

S₀,O₀,A₀,R₁,S₁,O₁,A₁,R₂,S₂,O₂,A₂... (2)

Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (3)

p(s',r|s,a)＝Pr[S_t+1＝s',R_t+1＝r|S_t＝s,A_t＝a] (4)

利用动力的定义，推出其他导出量，

状态转移概率：

给定“状态-动作”的期望奖励：

给定“状态-动作-下一个状态”的期望奖励：

所述在马尔可夫决策过程中，定义策略为从状态到动作的转移概率，对于马尔可夫决策过程，其策略为从状态到动作的转移概率，其策略π:S×A→[0,1]定义为

π(a|s)＝Pr[A_t＝a|S_t＝s],s∈S,a∈A (8)

对于动作集为连续的情况，可以用概率分布来定义策略；

折扣因子γ决定了在最近的奖励和未来的奖励间进行折中，基于回报的定义，进一步定义价值函数；对于给定的策略π，定义价值函数；

所述价值函数为：

v_π(s)＝E_π[G_t|S_t＝s] (10)

动作价值函数：动作价值函数q_π(s,a)表示在状态s采取动作a后，采用策略π的预期回报，

q_π(s,a)＝E_π[G_t|S_t＝s,A_t＝a] (11)

最优策略和最优价值函数：对于一个动力，存在一个策略π_*使得所有策略的回报都小于等于这个策略，此时这个策略π_*被称作最优策略；最有优价值函数具有一个重要的信息-Bellman最优方程，Bellman最优方程求解最优价值函数；

所述Bellman最优方程有以下两个部分：

A、用最优动作价值函数表示最优状态价值函数

v_π(s)＝maxq_*(s,a),s∈S (12)

B、用最优状态价值函数表示最优动作价值函数

Q(S_t,A_t)←Q(S_t,A_t)+α[R_t+1+γmax_aQ(S_t+1,a)-Q(S_t,A_t)] (14)

其中α∈(0,1]，α表示学习率，值越大表示越重视当前训练的结果；γ∈[0,1]，γ是折扣因子表示对信息的学习程度，值越大表示越重视以往的经验；

L(w)＝E[(r+γmax_a'Q_eval(s',a'；w')-Q_eval(s,a；w))²] (15)

在初始参数w₀已知的条件下，由公式(15)有：

沿着Loss函数对w的梯度反方向来更新w，就能有机会减小损失，因此利用随机梯度下降法不断更新神经网络权重值w完成训练过程，最终可得到最优价值函数：

其中，参数w更新公式为：

在DQN资源调度模型训练学习过程中，评估网络每次训练后都更新神经网络权重值w，它使用最新权重值w来评估当前状态动作对应的值函数Q(s,a；w)；目标网络在评估网络权重值w完成一定次数的更新后，将评估网络的权重值w赋给目标网络的权重值w^-，接着进行下一批更新；目标网络在没有变化的一段时间内回报的估计值是相对固定的；强化学习通过内部智能体在外部环境交互过程中不断试错，通过最大化积累函数来实现最优决策，是一种无监督的机器学习方法；在通信网络资源调度时，根据当前智能体对网络状态的观测，为不同网络业务流传输分配网络带宽资源也就是选择行为，同时得到该行为的期望累计奖励，为后续决策和行动的选择提供依据，强化学习DQN算法消除样本之间的相关性，使模型具有稳定的收敛性，引入了经验回放机制，使用经验库T来学习之前的经历实现经验回放，学习当前经历以及过去的经历，并且对其他智能体的经历进行学习，是一种离线学习法；在t时刻智能体与环境交互得到转移样本(s_t,a_t,r_t,s_t+1)并存储到经验库，当经过一定时间的交互过程后，经验库中存储一定数量的样本，然后随机抽取一批样本进行训练；经验回放可以消除转移样本时间的相关性，使得样本更符合独立同分布条件，减少参数更新的方差，加快收敛；

S＝[TB,EC,MC,VC,SC] (19)

A＝[EB,MB,VB,SB] (20)

2.如权利要求1所述基于深度强化学习的网络资源调度方法，其特征在于，所述在训练和学习阶段，利用探索-平衡方式选择资源调度动作为：

3.如权利要求1所述基于深度强化学习的网络资源调度方法，其特征在于，所述通信系统中最优的网络资源分配策略为：

b_i,min≤b_i≤b_i,max(i＝1,2,3,4) (22)

r_t＝(QoE_t+1-QoE_t)/QoE_t+1 (23)

4.一种实施如权利要求1～3任意一项所述基于深度强化学习的网络资源调度方法的基于深度强化学习的网络资源调度系统，其特征在于，所述基于深度强化学习的网络资源调度系统包括：人机交互显示平台、智能控制平台、通信模块、数据传输介质；

5.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求1～3任意一项所述基于深度强化学习的网络资源调度方法包括下列步骤：

6.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1～3任意一项所述的基于深度强化学习的网络资源调度方法。