CN109413707B - 无线网络环境下基于深度强化学习技术的智能路由方法 - Google Patents

无线网络环境下基于深度强化学习技术的智能路由方法 Download PDF

Info

Publication number
CN109413707B
CN109413707B CN201810876747.1A CN201810876747A CN109413707B CN 109413707 B CN109413707 B CN 109413707B CN 201810876747 A CN201810876747 A CN 201810876747A CN 109413707 B CN109413707 B CN 109413707B
Authority
CN
China
Prior art keywords
node
routing
network
experience
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810876747.1A
Other languages
English (en)
Other versions
CN109413707A (zh
Inventor
万夕里
沙鑫磊
管昕洁
白光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201810876747.1A priority Critical patent/CN109413707B/zh
Publication of CN109413707A publication Critical patent/CN109413707A/zh
Application granted granted Critical
Publication of CN109413707B publication Critical patent/CN109413707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种无线网络环境下基于深度强化学习的智能路由方法,属于计算机通信网络领域。本发明所述方法首先经过初始化阶段,然后判断全部节点经验池是否大于预设阈值,若符合则进入神经网络选择下一跳节点,若不符合则依据距离矢量选择;转发包;收集结果数据;判断指定经验池是否大于预设阈值,若大于则进行经验回放并更新神经网络参数,然后返回至所述初始化阶段之后;否则直接返回所述初始化阶段之后;形成循环。本发明通过学习过去的状态和结果生成适合当前的路由策略。有效降低网络的延迟、丢包率,提高网络性能。由于没有传统的路由表的存在,即不用存储大量的路由条目,大大节省了节点的存储空间,降低了节点的成本和网络的部署成本。

Description

无线网络环境下基于深度强化学习技术的智能路由方法
技术领域
本发明属于计算机通信网络领域,尤其涉及一种无线网络环境下基于深度强化学习的智能路由方法。
背景技术
近年来,由于联网移动设备数量的不断增加,异构、有线和无线通信网络基础设施的快速发展,互联网流量急剧增加。网络流量的快速增长和网络环境日益复杂,给通信网络带来了巨大的压力,导致了通信资源配置和管理的巨大困难,严重影响了用户的消费质量(QoE)。这主要是因为现在的网络仍运行在几十年前设计的路由框架上。实际上,随着无线网络的不断发展,高效的网络流量控制将成为一个关键的挑战。这种网路中使用的现有路由协议最初是为固定的有线网络设计的,这些路由协议依赖于根据距离矢量或链路成本计算从源到目的地的最短路径。当传统路由协议遇到高网络负载情况时,最短路径上的节点往往会承担较大负载,反而导致了包转发的延迟增加,降低了网络的性能。传统路由方法无学习能力,不能从过去的拥塞、延迟和丢包率上升等情况学习经验,下次仍然会做出同样的路由决策。因此,有必要以一种智能的方式来学习这样的场景,根据历史转发经验做出合适的路由决策,以便更好的管理大规模增长的网络流量。
强化学习(Reinforcement Learning)是一种高效的机器学习方法,它通过与环境的交互进行试错(trial and error)学习,最终得到最优策略。它强调的是基于当前环境状态(state)而行动,目标是使agent在与环境的交互过程中获得最大的累计奖赏。该目标与路由策略的目标一致:基于当前网络环境,选择合适的下一跳节点,以期最小的网络延迟。所以路由决策是强化学习的一种自然应用。它无需先验知识可自行从网络转发经验中学习合适的路由策略。现有的基于强化学习的Q Routing路由方法利用Q Learning中的Q表替代了节点中的路由表,Q Routing通过与环境的交互不断更新Q表至稳定,即代表路由策略收敛。
但随着网络规模日益增大,传统的强化学习方法无法解决伴随而来的大状态空间(state space)问题,也限制了此类路由算法使用的网络规模。此外,传统的强化学习的状态的表示能力较弱,无法引入更多的网络参数进行路由决策。因此本发明引入深度强化学习,利用深度强化学习中的神经网络来拟合Q表的功能,替代Q Routing这种基于表的路由策略。
发明内容
本发明所要解决的技术问题是:提供一种基于深度强化学习的智能路由方法,将深度强化学习技术与路由决策相结合,在无线网络中构建一个智能路由系统。
本发明为解决上述技术问题采用以下技术方案:
本发明提出无线网络环境下基于深度强化学习技术的智能路由方法,具体包括如下步骤:
步骤1、初始化阶段:根据距离矢量方法,分别计算网络中每个节点Rn到达网络中所有可能的目的地节点Rd的最短距离;
步骤2、当有包到达网络中时,比较每个节点的经验池中经验条数与预设阈值tin,如果经验条数小于等于预设阈值tin,则进入步骤3;如果经验条数大于预设阈值tin,则进入步骤4;
步骤3、冷启动阶段:当前节点Rn采用距离矢量方法,以最小化转发跳数为目标,选择下一跳路由节点Rnext
步骤4、智能运行阶段:当前节点Rn中,将当前网络状态St输入神经网络,选择下一跳路由节点Rnext
步骤5、令步骤3、4中所选择的路由节点Rnext执行包的转发,并将下一个网络状态St+1和本次路由转发的Cost值发送给当前的Rn节点;
步骤6、收集转发的结果数据,将所述结果数据作为一条路由经验Ex存储至节点Rn的路由经验池中;
步骤7、比较节点Rn的路由经验池中路由经验数目与预设阈值tin,若路由经验数目达到所述预设阈值tin,则进入步骤8;若未达到,则返回步骤2;
步骤8、节点Rn的路由经验数目大小达到预设阈值tin,进入当前节点的神经网络进行训练,执行经验回放,更新当前节点Rn中的神经网络参数θ;
步骤9、循环执行步骤1至步骤8。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤1所述分别计算每个节点Rn到达所有可能的目的地节点Rd的最短距离的具体流程为:
步骤1.1、在网络中设置一个节点Rsup,用于收集各个节点上的最短路径信息;
步骤1.2、节点Rsup汇集最短路径的大小并记录为一个二维矩阵Distance;
步骤1.3、节点Rsup汇集步骤1.2中最短路径对应的下一跳节点并记录为一个二维矩阵Shortest;其中,这两个矩阵行索引和列索引分别是源节点Rn和目的地节点Rd
步骤1.4、节点Rsup将步骤1.3中得到的Shortest矩阵信息发送至网络内其他节点。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤3冷启动阶段所述的距离矢量方法指,当一个以Rd节点为目的地的包到达Rn节点时,Rn节点选择Shortest矩阵中第Rn行Rd列对应的值为下一跳节点。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤2所述的经验池是定长的双头队列,用于存储路由经验,所述经验池的集合用于步骤8所述神经网络的训练集;网络中每个节点的经验池拥有相同的预设阈值tin.
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤4所述的当前网络状态St包括两个特征,即包所在当前节点Rn,和用于表示当前网络中每个节点中被占用的缓存大小的Cache向量。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤5所述Cost值为一段延迟,表示为:
Cost=dqu+dtr
其中dqu表示当前节点的队列延迟,dtr表示当前节点和下一跳节点间的传输延迟,所述Cost值用于描述本次转发延迟代价。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,在步骤五所述包的转发过程中,被转发的包记录下包括它的源节点在内所有经过的节点,并将所记录的节点依次添加到包内的有序队列Path中去。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤6中,首先由节点Rsup收集网络内包转发后的结果并封装为一条路由经验Ex,路由经验Ex定义如下:
Ex=(St,action,St+1,Cost)
其中St+1为执行完本次转发后的网络状态、action为本次转发的下一跳节点、St为执行转发前的网络状态,Cost为本次转发的延迟代价;
然后Rsup负责将本条路由经验Ex存储至执行本次转发的Rn节点的路由经验池中。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,步骤8所述神经网络为简单多层感知机MLP;所述神经网络的输入为代表网络状态的S向量,输出为代表当前状态下可选下一跳节点对应的Q值向量,从此Q值向量中选出最大值,其对应的节点即当前网络状态下合适的下一跳节点;用于拟合传统Q Routing中的Q表。
如前所述的无线网络环境下基于深度强化学习技术的智能路由方法,进一步地,在步骤8中,依次训练达到预设阈值的节点的神经网络,具体步骤包括:
a.从节点Rn的经验池中随机抽取一定数量的样本路由经验;
b.将Cost作为Q Learning中的reward,构造每条样本路由经验对应的标签Qtarget,即目标Q值,所述
Figure DEST_PATH_IMAGE002
其中Cost为步骤5中的延迟值,γ∈[0,1]表示折扣因子,St+1表示下一个网络状态,a′选表示St+1状态下选择的下一跳节点,θ为神经网络的内部参数,
Figure DEST_PATH_IMAGE004
表示在状态St+1下选择下一跳节点为actioin′时的最小Q值;
c.将所述样本路由经验输入所述神经网络,计算所述神经网络的实际输出Q(S,action;θ),其中S为当前网络状态,action为状态S下选择的下一跳节点,θ为神经网络的内部参数;
d.计算误差L(θ)=E[(Qtarget-Q(S,action;θ))2];
其中Qtarget即步骤b中得到的目标Q值,Q(S,action;θ)即步骤c中得到的神经网络的实际输出Q值,E为数学期望;
e.求梯度,使用随机梯度下降方法更新所述神经网络内部参数θ。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、冷启动阶段(Cold Start Period)使用传统的距离矢量方法计算下一跳,避免因智能路由方法在弱经验状态下做出错误的路由决策而降低网络性能。
2、使用深度强化学习中的神经网络作为非线性函数逼近器替代了Q Routing中的Q表,促使路由方法可以汇集除目的地节点(Destination Node)外更多的网络参数做出路由决策。
3、使用神经网络替代了传统意义上的路由表功能,节点中不再需要存储路由条目,减少节点需要存储的路由信息,扩大了智能路由算法使用的网络规模,降低了网络节点的存储成本及网络部署成本。
4、优化目标为最小化包转发延迟,针对网络流量控制,具有低时延,高自适应的特点。
附图说明
图1是本发明所设计基于深度强化学习的智能路由方法流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
深度强化学习是将深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新算法。在普通的Q-learning中,当状态空间维度很高时,使用Q table存储每个状态动作对的Q值是不现实的。但通过将深度学习与强化学习结合,agent就可以直接从高维原始数据学习控制策略。
本发明提出的无线网络环境下基于深度强化学习的智能路由方法将深度强化学习技术与路由决策相结合,以最小化包转发延迟为目标进行路由决策。针对网络流量控制,具有低延时,高自适应的特点。
如图1所示,本发明设计了一种无线网络中基于深度强化学习的智能路由方法,具体步骤如下:
步骤1、初始化阶段,节点之间互相交换链路信息,并建立对应的链路信息数据库,根据建立的链路信息数据库,每个节点Rs计算到所有可能目的地Rd的最短路径(最小化转发跳数)并发送至Rsup节点,由Rsup节点构建最短距离矩阵Distance和最短距离的对应的下一跳矩阵Shortest,这两个矩阵的行索引和列索引分别是Rs和Rd,即源节点和目的地节点。
步骤2、比较每个节点路由经验池中路由经验条数和预设阈值,确定接下来是执行冷启动阶段(Cold Start Period)还是智能运行阶段(Intelligent Running Period)。路由经验池中的路由经验条数决定了路由经验池的大小。作为一个分布式的路由算法,网络中每个节点都是智能体,都含有各自独立的深度强化学习模块。路由经验池是智能决策模块的记忆单元,存储每次包转发后的路由经验,整个路由经验池将用于作为本节点智能决策模块中神经网络的训练集。本实施例中,预设阈值tin是依据网络规模而确定的一个数值,代表后续进入智能阶段的路由经验池大小,网络中的每个节点的tin是一致的。
步骤3、当每个节点当前路由经验池大小未达到预设阈值要求时下一步进入冷启动阶段,这个阶段主要是为了避免节点在弱经验条件下做出错误路由决策而影响网络性能的情况。所以这个阶段网络将最优路径定义为转发跳数最小(minimum hop),并采用传统的距离矢量方法选择下一跳路由节点。
步骤4、当每个节点当前路由经验池大小达到预设阈值要求时下一步进入智能运行阶段,这个阶段整个网络的路由决策都由当前节点的神经网络完成。神经网络采用当前网络状态St作为输入,所有邻居节点的Q值向量输出,取此向量中Q值最小的节点作为下一跳节点Rnext。本实施例中,网络状态St是由能代表网络状态的两个特征构造而成:
Figure DEST_PATH_IMAGE006
其中Rn表示packet所在的当前节点,
Figure DEST_PATH_IMAGE008
表示当前网络每个节点上被占用的缓存大小的向量,
Figure DEST_PATH_IMAGE010
表示当前网络每个节点的平均延迟Test:
Figure DEST_PATH_IMAGE012
其中D表示当前节点Rn已知的目的地节点集合,nD表示集合D的大小,N(Rn)是节点Rn的邻居节点集合,Rd表目的地节点,Rnext为下一跳节点。
步骤5、根据步骤3,4中选择的下一跳节点Rnext执行包(packet)转发,转发成功后将下一个网络状态和本次路由转发的Cost值发送给节点Rn
其中
Cost=dqu+dtr (3)
其中,dqu表示当前节点的队列延迟,dtr表示当前节点和下一跳节点间的传输延迟.
这里以排队延迟与传输延迟之和作为强化学习中执行动作后的即时奖励(reward)。
为避免出现路由环路,本实施例中参照RIP协议中毒性逆转方式为包(packet)增加了记忆功能,即包在转发过程中不会被转发到已经经过的节点。这就要求在转发过程中,包将记录下这个包括它的源节点在内所有经过的节点,并将其依次添加到这个包的Path队列中去,在后续的下一跳选择中,排除已经经过的节点再进行选择.
步骤6、收集转发的结果数据,将其作为一条路由经验(experience)存储至节点Rn的路由经验池中。节点Rsup收集包(packet)转发后的结果并封装为一条经验:
Ex=(St,action,St+1,Cost) (4)
其中St+1为执行完本次转发后的网络状态、action为本次转发的下一跳节点、St为执行转发前的网络状态,Cost为本次转发的时延代价;
然后节点Rsup负责将本条路由经验Ex存储至执行本次转发的节点Rn的路由经验池中。
步骤7、根据步骤5中有序队列Path中记录的节点,判断每个节点的路由经验池大小是否达到预设阈值tin的要求。达到要求的节点继续后续步骤,否则,直接回到步骤2;
步骤8、当步骤7中路由经验池大小达到预设阈值,则进入神经网络学习阶段,执行经验回放,更新当前节点Rn中的神经网络参数。
本实施例中,使用深度神经网络来拟合传统Q Routing中的Q表,这里的神经网络设计为简单多层感知机MLP,该网络的输入为代表网络状态的S向量,输出为代表当前状态下可选下一跳的Q值向量,从此Q值向量中选出最大值,其对应的节点即当前网络状态下合适的下一跳节点;
其中,Q Routing是一种基于Q-learning的智能路由策略。Q Routing以目的地节点作为强化学习的状态(state)、以下一跳节点作为动作(action)、以步骤5中执行packet转发后Rnext返回的Cost值作为reward。每个节点会计算其每一个状态-动作对(即目的地-下一跳邻居节点对)的Q值。这个Q值就表示从当前节点Rn传输一个packet到目的地节点St的端到端延迟的估计值。
本实施例中,依次训练达到预设阈值的节点的神经网络的具体步骤如下:
a.从节点的经验池中随机抽取一定数量的样本;
b.利用Q Learning中的reward(这里是Cost)构造每条样本对应的标签Qtarget,即目标Q值;
Figure DEST_PATH_IMAGE014
c.将样本输入神经网络,计算网络的实际输出Q(S,action;θ);
d.计算误差:
L(θ)=E[(Qtarget-Q(S,action;θ))2] (6)
其中,E为数学期望;
f.求梯度,使用随机梯度下降方法更新网络参数θ。其中,参数θ是神经网络的内部参数,一般用于计算神经网络输出值,其在训练神经网络模型中起到主要作用。通过随机梯度方法更新和计算影响模型训练和输出的网络参数θ,使其逼近最优值,从而达到提高神经网络模型的拟合能力的目的。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,具体包括如下步骤:
步骤1、初始化阶段:根据距离矢量方法,分别计算网络中每个节点Rn到达网络中所有可能的目的地节点Rd的最短距离;
步骤2、当有包到达网络中时,比较每个节点的经验池中经验条数与预设阈值tin,如果经验条数小于等于预设阈值tin,则进入步骤3;如果经验条数大于预设阈值tin,则进入步骤4;
步骤3、冷启动阶段:当前节点Rn采用距离矢量方法,以最小化转发跳数为目标,选择下一跳路由节点Rnext
步骤4、智能运行阶段:当前节点Rn中,将当前网络状态St输入神经网络,选择下一跳路由节点Rnext
步骤5、令步骤3、4中所选择的路由节点Rnext执行包的转发,并将下一个网络状态St+1和本次路由转发的Cost值发送给当前的Rn节点;
步骤6、收集转发的结果数据,将所述结果数据作为一条路由经验Ex存储至节点Rn的路由经验池中;
步骤7、比较节点Rn的路由经验池中路由经验数目与预设阈值tin,若路由经验数目达到所述预设阈值tin,则进入步骤8;若未达到,则返回步骤2;
步骤8、节点Rn的路由经验数目大小达到预设阈值tin,进入当前节点的神经网络进行训练,执行经验回放,更新当前节点Rn中的神经网络参数θ;所述神经网络为简单多层感知机MLP;所述神经网络的输入为代表网络状态的S向量,输出为代表当前状态下可选下一跳节点对应的Q值向量,从此Q值向量中选出最大值,其对应的节点即当前网络状态下合适的下一跳节点;用于拟合传统Q Routing中的Q表;
其中,依次训练达到预设阈值的节点的神经网络,具体步骤包括:
a.从节点Rn的经验池中随机抽取一定数量的样本路由经验;
b.将Cost作为Q Learning中的reward,构造每条样本路由经验对应的标签Qtarget,即目标Q值,所述
Figure FDA0003166184690000011
其中Cost为步骤5中的延迟值,γ∈[0,1]表示折扣因子,St+1表示下一个网络状态,a′选表示St+1状态下选择的下一跳节点,θ为神经网络的内部参数,
Figure FDA0003166184690000012
表示在状态St+1下选择下一跳节点为actioin′时的最小Q值;
c.将所述样本路由经验输入所述神经网络,计算所述神经网络的实际输出Q(S,action;θ),其中S为当前网络状态,action为状态S下选择的下一跳节点,θ为神经网络的内部参数;
d.计算误差L(θ)=E[(Qtarget-Q(S,action;θ))2];
其中Qtarget即步骤b中得到的目标Q值,Q(S,action;θ)即步骤c中得到的神经网络的实际输出Q值,E为数学期望;
e.求梯度,使用随机梯度下降方法更新所述神经网络内部参数θ;
步骤9、循环执行步骤1至步骤8。
2.如权利要求1所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤1所述分别计算每个节点Rn到达所有可能的目的地节点Rd的最短距离的具体流程为:
步骤1.1、在网络中设置一个节点Rsup,用于收集各个节点上的最短路径信息;
步骤1.2、节点Rsup汇集最短路径的大小并记录为一个二维矩阵Distance;
步骤1.3、节点Rsup汇集步骤1.2中最短路径对应的下一跳节点并记录为一个二维矩阵Shortest;其中,这两个矩阵行索引和列索引分别是源节点Rn和目的地节点Rd
步骤1.4、节点Rsup将步骤1.3中得到的Shortest矩阵信息发送至网络内其他节点。
3.如权利要求2所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤3冷启动阶段所述的距离矢量方法指,当一个以Rd节点为目的地的包到达Rn节点时,Rn节点选择Shortest矩阵中第Rn行Rd列对应的值为下一跳节点。
4.如权利要求1所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤2所述的经验池是定长的双头队列,用于存储路由经验,所述经验池的集合用于步骤8所述神经网络的训练集;网络中每个节点的经验池拥有相同的预设阈值tin
5.如权利要求1所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤4所述的当前网络状态St包括两个特征,即包所在当前节点Rn,和用于表示当前网络中每个节点中被占用的缓存大小的Cache向量。
6.如权利要求1所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤5所述Cost值为一段延迟,表示为:
Cost=dqu+dtr
其中dqu表示当前节点的队列延迟,dtr表示当前节点和下一跳节点间的传输延迟,所述Cost值用于描述本次转发延迟代价。
7.如权利要求1所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,在步骤5所述包的转发过程中,被转发的包记录下包括它的源节点在内所有经过的节点,并将所记录的节点依次添加到包内的有序队列Path中去。
8.如权利要求1或2所述的无线网络环境下基于深度强化学习技术的智能路由方法,其特征在于,步骤6中,首先由节点Rsup收集网络内包转发后的结果并封装为一条路由经验Ex,路由经验Ex定义如下:
Ex=(St,action,St+1,Cost)
其中St+1为执行完本次转发后的网络状态、action为本次转发的下一跳节点、St为执行转发前的网络状态,Cost为本次转发的延迟代价;
然后Rsup负责将本条路由经验Ex存储至执行本次转发的Rn节点的路由经验池中。
CN201810876747.1A 2018-08-03 2018-08-03 无线网络环境下基于深度强化学习技术的智能路由方法 Active CN109413707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810876747.1A CN109413707B (zh) 2018-08-03 2018-08-03 无线网络环境下基于深度强化学习技术的智能路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810876747.1A CN109413707B (zh) 2018-08-03 2018-08-03 无线网络环境下基于深度强化学习技术的智能路由方法

Publications (2)

Publication Number Publication Date
CN109413707A CN109413707A (zh) 2019-03-01
CN109413707B true CN109413707B (zh) 2021-10-08

Family

ID=65463513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810876747.1A Active CN109413707B (zh) 2018-08-03 2018-08-03 无线网络环境下基于深度强化学习技术的智能路由方法

Country Status (1)

Country Link
CN (1) CN109413707B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110635973B (zh) * 2019-11-08 2022-07-12 西北工业大学青岛研究院 一种基于强化学习的骨干网络流量确定方法及系统
CN111163011B (zh) * 2020-01-19 2022-05-13 烟台持久钟表有限公司 一种基于ptp协议的无线路由器的数据处理方法
CN111617479B (zh) * 2020-04-13 2021-12-24 上海交通大学 游戏人工智能系统的加速方法及系统
CN112491712B (zh) * 2020-11-30 2021-08-17 复旦大学 一种基于多智能体深度强化学习的数据包路由算法
CN113518035B (zh) * 2021-05-26 2023-01-31 香港中文大学(深圳) 路由确定方法及装置
CN114328669B (zh) * 2021-12-30 2023-05-16 北京诺司时空科技有限公司 基于深度学习的自动化时序数据库索引推荐方法及设备
CN114979014A (zh) * 2022-06-30 2022-08-30 国网北京市电力公司 数据转发路径规划方法、装置以及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320825A (zh) * 2014-11-20 2015-01-28 重庆邮电大学 一种基于重复博弈的Ad hoc网络路由选择方法
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586173B2 (en) * 2016-01-27 2020-03-10 Bonsai AI, Inc. Searchable database of trained artificial intelligence objects that can be reused, reconfigured, and recomposed, into one or more subsequent artificial intelligence models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320825A (zh) * 2014-11-20 2015-01-28 重庆邮电大学 一种基于重复博弈的Ad hoc网络路由选择方法
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BP神经网络的双层启发式强化学习方法;刘智斌;曾晓勤;刘惠义;储荣;《计算机研究与发展》;20150315;全文 *

Also Published As

Publication number Publication date
CN109413707A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109413707B (zh) 无线网络环境下基于深度强化学习技术的智能路由方法
CN109039942B (zh) 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN112491712B (zh) 一种基于多智能体深度强化学习的数据包路由算法
Yao et al. Machine learning aided load balance routing scheme considering queue utilization
CN108667734A (zh) 一种基于q学习和lstm神经网络的快速路由决策算法
CN112202672A (zh) 一种基于业务服务质量需求的网络路由转发方法和系统
CN106059811B (zh) 通信系统、控制装置、分组转发路径控制方法
US20150256417A1 (en) Admission control in a self aware network
CN106789648A (zh) 基于内容存储与网络状况的软件定义网络路由决策方法
CN103348639B (zh) 路径选择方法以及控制服务器
US20210099378A1 (en) Optimizing Border Gateway Protocol (BGP) traffic using Reinforcement Learning
CN113194034A (zh) 基于图神经网络和深度强化学习的路由优化方法及系统
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
CN113162800B (zh) 一种基于强化学习的网络链路性能指标异常定位方法
CN109511123A (zh) 一种基于时间信息的软件定义车辆网络自适应路由方法
CN107689919A (zh) Sdn网络的动态调整权重模糊选路方法
CN114710437B (zh) 一种结合区块链的物联网边缘网络路由系统
CN113612692A (zh) 基于dqn算法的集中式光片上网络自适应路由规划方法
Houidi et al. Constrained deep reinforcement learning for smart load balancing
CN116527565A (zh) 基于图卷积神经网络的互联网路由优化方法及装置
JP5723334B2 (ja) ネットワークトポロジの推定方法及びトポロジ推定装置
US11552858B2 (en) Reinforcement learning for optical network re-grooming
CN106789642A (zh) 一种基于sdn的动态负载均衡方法
CN111865789B (zh) 一种基于段路由的sr路径约束方法
CN108880894A (zh) 一种网络带宽的规划方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant