CN116527567A

CN116527567A - 一种基于深度强化学习的智能网络路径优选方法与系统

Info

Publication number: CN116527567A
Application number: CN202310788324.5A
Authority: CN
Inventors: 潘成胜; 曹康宁; 石怀峰; 王英植; 李昕芮
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-08-01
Anticipated expiration: 2043-06-30
Also published as: CN116527567B

Abstract

本发明公开了一种基于深度强化学习的智能网络路径优选方法与系统，包括：采集目标网络的原始数据，计算目标网络的每条可执行路径的状态信息，构建深度强化学习模型，获取目标网络当前时刻的网络状态、执行最优路径动作、下一时刻的网络状态、当前奖励，并存储在经验回放池中，对深度强化学习模型进行迭代训练和参数更新，获得目标网络的最优路径，下发至目标网络的交换机设备中进行路径安装，本发明所设计的方法提高了智能体提取显著奖励经验的概率，加快了智能体学习最优策略的速度，算法的收敛速度显著提高，有效提高了网络吞吐量，降低了端到端时延和丢包率。

Description

一种基于深度强化学习的智能网络路径优选方法与系统

技术领域

本发明涉及网络流量控制领域，具体涉及一种基于深度强化学习的智能网络路径优选方法，还涉及一种基于深度强化学习的智能网络路径优选系统。

背景技术

近年来，针对多域联合作战、马赛克作战、分布式作战、无人机蜂群作战等新型作战样式，相应战争模式从平台中心战到网络中心战，正向智能化战争飞速转变。智能化作战的战术通信网络系统结构动态可变，战场通信环境具有高复杂性和强对抗性，气象、地形、电磁等要素会对通信质量以及链路状态产生一定影响，因此链路状态对网络传输性能的影响不容忽视。与此同时，复杂战场通信网络中，话音、图像、视频等异质业务并存，其对于时延、带宽等服务质量（Quality of Service，QoS）的需求也有所区别，因此，复杂战场通信网络不仅要满足不同业务传输的QoS需求，而且要尽可能提高网络传输性能。

在传统网络架构的发展过程中，开放式最短路径优先（Open Shortest PathFirst，OSPF）、路由信息协议（Routing Information Protocol，RIP）、负载均衡（LoadBalancing，LB）等传统路径选择算法已经成功应用于许多领域。然而，随着网络规模的不断扩大，网络流量呈现复杂多维，瞬时涌现的特点，使得传统算法对动态流量变化适应缓慢，无法根据网络的实时状态做出适应流量变化的路由策略，限制了其对于满足服务质量要求的支持，同时也降低了网络传输性能。

随着软件定义网络（Software Defined Network，SDN）的发展，这种新型网络架构的出现实现了网络控制和数据包转发的解耦，使得网络的可编程性、全局视图、逻辑集中控制得到了改善，为流量工程的实现和端到端的QoS研究提供了新的契机，在基于SDN架构的智能路由算法研究领域，启发式算法仍然是主要基础。但启发式算法对于网络场景要求较为严苛，网络拓扑和链路状态的变化可能会导致启发式算法出现较大的波动和误差，从而导致潜在的可扩展性问题，影响网络性能。深度强化学习（Deep ReinforcementLearning，DRL）技术的快速发展使得智能算法在解决复杂高维问题上表现出显著优势，在大容量数据处理、复杂战略决策等方面取得了良好的效果。但是在面向强对抗高机动的复杂战场环境时，由于战场要素的数量、异构性，尤其是智能化程度迅速增长，相应的战术通信网络呈现出庞大的网络规模、时变的网络流量、复杂的决策空间等新特征，这导致现有的基于DRL的路径优选算法表现出不稳定，收敛慢的缺点，从而影响网络传输性能，无法保障信息的实时可靠传输。

发明内容

本发明目的：在于提供一种基于深度强化学习的智能网络路径优选方法与系统，解决了针对网络流量复杂多维、瞬时涌现导致现有的路径优选方法难以有效适应的问题。

为实现以上功能，本发明设计一种基于深度强化学习的智能网络路径优选方法，针对目标网络，执行如下步骤S1-步骤S5，完成目标网络的最优路径选择，并进行流量转发：

步骤S1：以预设周期采集目标网络的原始数据，包括拓扑结构、交换机端口数据信息；

步骤S2：分别针对目标网络的拓扑结构中的每个源-目的节点对，通过执行K条最短路径算法，计算各源-目的节点对的k条可执行路径，并计算每条可执行路径的状态信息，包括剩余带宽、时延、丢包率；

步骤S3：智能体基于DuelingDQN算法，构建深度强化学习模型，将步骤S2所获得的各可执行路径及其对应的状态信息输入智能体，获取目标网络当前时刻的网络状态s _t，执行最优路径动作a _t，然后获取目标网络下一时刻的网络状态s _t+1，同时获取当前奖励r _t，并以四元组的形式存储在基于SumTree结构的经验回放池中；

步骤S4：基于经验回放池，智能体采用基于SumTree结构的优先经验回放机制，对深度强化学习模型进行迭代训练和参数更新，直至深度强化学习模型达到预设收敛条件，以此时的可执行路径作为目标网络的最优路径；

步骤S5：根据步骤S4所获得的最优路径，生成流表，下发至目标网络的交换机设备中进行路径安装，并进行流量转发。

本发明还设计一种基于深度强化学习的智能网络路径优选系统，其特征在于，包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块，以实现所述的一种基于深度强化学习的智能网络路径优选方法；

网络感知模块用于以预设周期采集目标网络的拓扑结构，网络监测模块用于以预设周期采集目标网络的交换机端口数据信息，网络感知模块和网络监测模块将所采集的目标网络的原始数据上传至数据处理模块；

数据处理模块用于根据所接收的目标网络的原始数据，通过执行K条最短路径算法，计算各源-目的节点对的k条可执行路径，并计算每条可执行路径的状态信息，包括剩余带宽、时延、丢包率，存储并上传至智能优选模块；

智能优选模块中的智能体基于DuelingDQN算法，构建深度强化学习模型，将所接收的各可执行路径及其对应的状态信息输入智能体，获取目标网络当前时刻的网络状态s _t，执行最优路径动作a _t，然后获取目标网络下一时刻的网络状态s _t+1，同时获取当前奖励r _t，并以四元组的形式存储在基于SumTree结构的经验回放池中；

基于经验回放池，智能优选模块中的智能体采用基于SumTree结构的优先经验回放机制，对深度强化学习模型进行迭代训练和参数更新，直至深度强化学习模型达到预设收敛条件，以此时的可执行路径作为目标网络的最优路径，将目标网络的最优路径上传至路径安装模块；

路径安装模块根据所接收的最优路径，生成流表，下发至目标网络的交换机设备中进行路径安装，并进行流量转发。

有益效果：相对于现有技术，本发明的优点包括：

本发明采用基于Dueling DQN算法构建深度强化学习模型，解决了传统DQN算法对Q值的估计过高问题，算法的收敛速度和稳定性显著提高。采用基于SumTree存储结构的优先经验回放机制替换传统深度强化学习的随机抽样回放机制，采用优先级抽样方式代替传统的随机抽样方式，提高智能体提取显著奖励经验的概率，加快了智能体学习最优策略的速度，算法的收敛速度显著提高。本发明采用的基于深度强化学习的智能网络路径优选方法能够提升不同QoS业务的传输性能，相较于OSPF算法和DRSIR算法，有效提高了网络吞吐量，降低了端到端时延和丢包率。

附图说明

图1是根据本发明实施例提供的一种基于深度强化学习的智能网络路径优选方法的流程图；

图2是根据本发明实施例提供的Dueling DQN的网络结构图；

图3是根据本发明实施例提供的深度强化学习智能体示意图；

图4是根据本发明实施例提供的SumTree结构图；

图5是根据本发明实施例提供的一种基于深度强化学习的智能网络路径优选系统示意图；

图6是根据本发明实施例提供的指挥控制网络拓扑结构图；

图7是根据本发明实施例提供的模拟网络流量矩阵示意图；

图8是根据本发明实施例提供的三种深度强化学习算法的收敛性对比图；

图9(a)- 图9(c)是根据本发明实施例提供的时延敏感业务下的吞吐量、时延、丢包率对比图；

图10(a)- 图10(c)是根据本发明实施例提供的带宽敏感业务下的吞吐量、时延、丢包率对比图；

图11(a)- 图11(c)是根据本发明实施例提供的可靠性敏感业务下的吞吐量、时延、丢包率对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参照图1，本发明实施例提供的一种基于深度强化学习的智能网络路径优选方法，针对目标网络，执行如下步骤S1-步骤S5，完成目标网络的最优路径选择，并进行流量转发：

步骤S2：分别针对目标网络的拓扑结构中的每个源-目的节点对，通过执行K条最短路径算法（K Shortest Paths Algorithm，KSP），计算各源-目的节点对的k条可执行路径，并计算每条可执行路径的状态信息，包括剩余带宽、时延、丢包率；

Dueling DQN的网络结构参照图2，将深度Q网络的Q值分为两部分，第一部分仅与状态有关，称为价值函数，记为，表示静态的环境本身具有的价值，另一部分与状态和具体动作a相关，称为优势函数，记为/>，表示在某状态下做出某个动作的额外价值，则Q值可表示为

其中，ω为公共部分网络参数，β和α分别为价值函数和优势函数的独有参数，在实际应用中，要将动作价值函数设置为动作价值函数减去该状态下所有动作价值函数的平均值，这样做可以保证该状态下各动作的价值函数相对排序不变，而且可以缩小 Q值的取值范围，防止过高估计Q值，提高算法稳定性。则最终的Q值可表示为：

式中，表示目标网络的Q值，/>为目标网络的价值函数，为目标网络的优势函数，s为目标网络的网络状态，a为目标网络的最优路径动作，/>为目标网络的可执行路径数量，/>为目标网络的可执行路径动作；以此来突出每个动作相对于特定状态下所有动作平均值的优缺点，该方法解决了传统DQN算法对Q值的估计过高问题，提高了算法学习性能，加快了算法的收敛速度，增强了算法的稳定性。

基于Dueling DQN算法建立的深度强化学习智能体示意图参照图3，学习从初始状态到目标状态，即源节点到目的节点，转换过程中所采用的一系列步骤；每个步骤包括选择和执行一个可执行路径动作，改变目标网络的网络状态，以及获得奖励；智能体的三个指标分别设定为：

状态空间：状态空间是智能体可以观察到的一组状态，每个状态代表当前时刻网络的一组流量业务请求信息（源-目的节点）及其对应的可行路径状态信息构成的状态矩阵，由向量s _t表示，其中，s _t=[D,TM]，D为目标网络当前时刻的网络流量业务请求信息（源-目的节点），TM为当前时刻起步长t内状态矩阵，具体如下：

式中，为各路径剩余带宽，/>为各路径时延，/>为各路径丢包率，k为路径总数；

由于状态矩阵的元素值差异较大，无法客观反应各网络路径状态指标的影响，导致智能路由算法在训练过程中波动过大，难以收敛，因此，采用Min−Max方法对状态矩阵中的元素进行归一化处理，根据如下公式所示，将矩阵中的元素归一化到[0,1]区间：

式中，X为待归一化矩阵，min(X)为待归一化矩阵中各元素的最小值，max(X)为待归一化矩阵中各元素的最大值，x _i为待归一化矩阵中第i个元素，为归一化后的矩阵中的第i个元素。

动作空间：动作空间是一组可以对状态空间中的状态采取的动作，针对目标网络当前时刻的网络状态s _t，智能体执行当前时刻的最优路径动作a _t，s _t对应的可执行路径域集合，其中/>为连接源-目的节点对的各可执行路径，智能体从可执行路径域集合P中选择一条路径作为最优路径；

奖励函数：智能体根据奖励来评估动作的优劣，进而改进策略。由于强化学习的目标是持续获得最大奖励，针对智能体执行最优路径动作的奖励函数R如下式：

式中，分别为经过归一化处理后的路径剩余带宽、时延、丢包率，本发明方法将业务类型定义为时延敏感、带宽敏感和可靠性敏感 3 类，因此定义w ₁、w ₂、w ₃分别为路径剩余带宽、时延、丢包率的权值，且满足/>，i=1，2，3；

三类业务权值系数的具体值如下表1所示：

表1

根据奖励函数R，基于目标网络当前时刻的网络状态s _t，计算智能体执行当前时刻的最优路径动作a _t所获得的奖励值r _t，更新并输出下一时刻的Q值，其过程表示如下式：

式中，表示目标网络当前时刻的Q值，决定了新获得的信息相对于先前可获得的信息的权重，γ为折扣因子，决定了未来奖励的重要性，s _t+1为目标网络下一时刻的网络状态，θ和/>分别表示智能体所包含的策略神经网络和目标神经网络的权重参数，表示未更新时到达下一时刻网络状态s _t+1获得最大Q值的估计值。

步骤S4：基于经验回放池，智能体采用基于SumTree结构的优先经验回放机制（Prioritized Experience Replay，PER），对深度强化学习模型进行迭代训练和参数更新，直至深度强化学习模型达到预设收敛条件，以此时的可执行路径作为目标网络的最优路径；

SumTree结构参照图4，为一个二叉树结构，由根节点、父节点和叶子节点组成；基于SumTree结构的优先经验回放机制使用TD误差作为评判优先级的标准，TD误差的形式如下式：

式中，为第i个样本的TD误差，样本表示存储于经验回放池中的各四元组；TD误差/>越大，表示该样本对于深度强化学习模型的预测精度的上升空间越大，回放该样本的收益越大；更多回放/>值较大的样本能够提高网络训练的效率，加速算法收敛速度。

经验回放池中第i个样本的优先级值p _i表示为，μ为预设的正数值，使得TD误差为0的样本也有一定概率被抽取，SumTree结构为二叉树结构，将第i个样本的优先级值p _i存储于SumTree结构中的叶子节点中，叶子节点上级的父节点存储其子节点的优先级值之和，SumTree结构的根节点存储所有叶子节点的优先级值之和。

对深度强化学习模型进行迭代训练和参数更新过程如下：

当经验回放池容量大于采样数N时，从SumTree结构中抽取N个样本，j=1,2,…,N，每个样本被抽取的概率基于下式：

式中，P _i为根据优先级得到的第i个样本被抽取的概率，p _i为经验回放池中第i个样本的优先级值，p _j为经验回放池中第j个样本的优先级值，M为经验回放池容量；

计算目标Q值如下式：

由于优先级高的样本容易被采样并频繁回放，从而导致训练样本多样性下降，因此通过重要性采样权重来纠正；定义基于TD误差的优先级对应的重要性采样权重，具体如下式：

式中，N为采样数，为第j个样本优先级对应的重要性采样权重，/>为第i个样本优先级对应的重要性采样权重；

通过对深度强化学习模型加入重要性采样权重，更新智能体的策略神经网络参数，其均方差损失函数Loss更正为下式：

通过神经网络的梯度下降和反向传播来更新策略神经网络的权重参数θ，并重新计算样本的TD误差，进一步更新SumTree结构中节点的优先级p _i，同时通过周期性传递更新目标神经网络的权重参数/>，完成深度强化学习模型进行迭代训练和参数更新。

具体的深度强化学习算法主要训练参数如下表2所示：

表2

本发明实施例还提供一种基于深度强化学习的智能网络路径优选系统，参照图5，包括数据层、控制层和应用层三层结构，控制层还包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块，以实现所述的一种基于深度强化学习的智能网络路径优选方法；

数据层用于在底层网络部署网络拓扑结构，由一系列可编程交换机和通信链路组成，通过南向接口用以接收控制器发送的控制策略并完成对数据分组的处理、转发工作，以模拟复杂战术通信网络。

控制层连接数据层与应用层，维护网络全局视图，向下通过南向接口将控制策略传递给数据层，向上将底层网络资源信息通过北向接口提供给应用层。定期向数据层发送查询消息。网络感知模块定期向数据层的转发设备（交换机）发送特征请求消息，构建和维护整个网络的拓扑信息；网络监测模块定期向数据层上的转发设备发送状态请求消息，并异步接收请求统计回复信息，获取网络交换机设备的端口状态信息；数据处理模块利用网络感知模块和网络监测模块采集的网络拓扑信息与端口状态信息，计算出网络链路的剩余带宽、时延、丢包率信息，用于描述路径选择的网络链路状态。并根据网络链路信息计算全局网络的端到端路径状态信息，用于向智能优选模块中的智能体发送网络状态s _t和奖励r _t；智能优选模块学习网络的行为，通过智能体将数据处理模块处理得到的全局网络路径状态信息转化为知识，并根据这些知识智能地为网络流量生成相应的路径选择策略。路径安装模块根据智能优选模块生成的最优转发路径找到相应的主机节点，并根据最优转发路径和相应的主机节点生成最优路径，更新流表项，下发至数据层，用于网络流量传输。

应用层实现面向应用程序服务的概念。通过北向接口与控制层进行通信，支持复杂战术通信网络中的各类应用程序服务，网络状态信息（例如路由信息）通过数据层收集并被各种网络应用程序使用。

在一个实施例中，所采用的指挥控制网络拓扑结构参照图6，由骨干网和接入网构成。指挥控制网络拓扑包含44个节点和164条链路，图中数字1-44表示各节点编号；每个节点代表一个支持OpenFlow协议的交换机，每个交换机下搭载一台主机，用于传输和接收流量。其中节点18、19、20和节点32、33、34模拟传感器节点，节点42、43、44模拟指挥控制节点，节点11、12、13，节点25、26、27和节点39、40、41模拟火力打击节点；流量传输路径遵循“传感器—指挥控制—火力打击”的原则；因此，选取6个传感器节点作为源节点，选取9个火力打击节点作为目的节点。指挥控制网络中的链路连接方式如图6中所示，异构链路类型包含微波、光纤、区宽、VHF、UHF、卫星，通过在mininet仿真器中设置不同传输链路带宽来模拟异构链路。实验环境操作系统为4GB内存和2核处理器的Ubuntu 18.04系统，实验利用Mininet2.3.0网络仿真平台来搭建网络拓扑，并采用Ryu 4.34控制器作为整个网络的控制器。

图7是模拟网络流量矩阵示意图。使用流量矩阵生成工具中的重力模型生成10~100分钟内的10个时刻流量矩阵，用于模拟真实网络流量。如图7所示，横坐标为时间，单位为min，纵坐标Mean Traffic Size表示各时刻每个源节点发送至目的节点的平均流量大小，单位为kbps；Iperf工具用于在不同节点对之间发送指定数据大小的UDP报文，并使用Ryu控制器测量网络性能参数。

图8是三种深度强化学习算法的收敛性对比图。为验证本发明算法的性能，将其与传统的DQN算法和采用随机抽样的Dueling DQN算法进行对比，图8中横坐标为迭代次数，纵坐标表示奖励值，图中曲线DQN表示传统的DQN算法，曲线DuelingDQN表示随机抽样的Dueling DQN算法，曲线Dueling DQN with PER表示本发明所设计的方法；本发明方法在稳定性和收敛性方面相较于两种算法提升效果较为明显，本发明方法可以在较短时间内达到收敛状态。

为了验证本发明算法的优势，采用的对比算法如下：

（1）OSPF_DELAY：针对时延敏感业务，通过SDN测量机制实时获取网络中各链路的时延，根据网络全局视图得到所有源目的交换机节点之间的路径，选择链路时延最小的一跳作为路由转发路径。

（2）OSPF_BW：针对带宽敏感业务，通过SDN测量机制实时获取网络中各链路的剩余带宽，根据网络全局视图得到所有源目的交换机节点之间的路径，选择链路剩余带宽最大的一跳作为路由转发路径。

（3）OSPF_LOSS：针对可靠性敏感业务，通过SDN测量机制实时获取网络中各链路的丢包率，根据网络全局视图得到所有源目的交换机节点之间的路径，选择丢包率最小的一跳作为路由转发路径。

（4）DRSIR算法：采用DRSIR中的DQN算法构建深度强化学习智能体，根据网络路径状态学习路由策略。

对于不同业务类型，使用步骤S3中的仿真权值设定，分别针对时延敏感、带宽敏感和可靠性敏感业务进行路径优选。为了公平的比较，DQN算法与本发明算法保持相同的训练设置（例如，状态、动作和奖励）。本发明采用平均网络吞吐量，平均端到端时延和平均网络丢包率来评估不同路径优选算法对网络性能的影响，由于SDN网络长期运行可能会出现一些波动，导致网络吞吐量、时延、丢包率三个性能指标在一次测量中出现一定偏差，不能准确反映当前网络的性能，从而影响评价标准。为减轻网络波动的影响，对每个时刻的流量传输进行5次重复实验，取重复测量的平均值来表示网络性能指标。

图9(a)- 图 9(c)显示当传输时延敏感业务时，三种路径优选算法的吞吐量、时延和丢包率性能比较结果，图9(a)- 图 9(c)中横坐标为时间，单位为min；图9(a)中纵坐标为吞吐量（Throughput），单位为kbps；图9(a)显示本发明方法相较于OSPF_DELAY和DRSIR算法网络吞吐量分别提升16%和6%；图9(b)中纵坐标为时延（Delay），单位为ms；图9(b)显示本发明方法相较于OSPF_DELAY和DRSIR算法端到端时延分别提升36%和24%；图9(c)中纵坐标为丢包率（Packet loss rate），单位为%；图9(c)显示本发明方法相较于OSPF_DELAY和DRSIR丢包率分别提升63%和44%。

图10(a)- 图10(c)显示当传输带宽敏感业务时，OSPF_BW、DRSIR和本发明方法三种路径优选算法的吞吐量、时延和丢包率性能比较结果，图10(a)- 图10(c)横坐标为时间，单位为min；纵坐标分别为吞吐量（Throughput），单位为kbps；时延（Delay），单位为ms；丢包率（Packet loss rate），单位为%；图10(a)显示本发明方法相较于OSPF_BW和DRSIR算法网络吞吐量分别提升10%和3%；图10(b)显示本发明方法相较于两种算法端到端时延分别提升33%和25%；图10(c)显示本发明方法相较于两种算法丢包率分别提升57%和43%。

图11(a)- 图11(c)显示当传输可靠性敏感业务时，OSPF_LOSS、DRSIR和本发明方法三种路径优选算法的吞吐量、时延和丢包率性能比较结果，图11(a)- 图11(c)横坐标为时间，单位为min；纵坐标分别为吞吐量（Throughput），单位为kbps；时延（Delay），单位为ms；丢包率（Packet loss rate），单位为%。图11(a)显示本发明方法相较于OSPF_LOSS和DRSIR算法网络吞吐量分别提升9%和5%；图11(b)显示本发明方法相较于两种算法端到端时延分别提升33%和17%；图11(c)显示本发明方法相较于两种算法丢包率分别提升59%和32%。

结果表明，对于不同QoS业务的传输，本发明方法会根据需求不同选择不同的路径策略，且相较于现有的路径优选算法，无论是哪种业务传输，本方法在网络吞吐量、端到端时延和丢包率方面都有较优的表现，能够极大地提升网络传输性能，保障强对抗战场环境下信息的实时可靠传输。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于深度强化学习的智能网络路径优选方法，其特征在于，针对目标网络，执行如下步骤S1-步骤S5，完成目标网络的最优路径选择，并进行流量转发：

2.根据权利要求1所述的一种基于深度强化学习的智能网络路径优选方法，其特征在于，步骤S3中所述的DuelingDQN算法基于Q值评价各可执行路径的价值，具体如下：

式中，表示目标网络的Q值，/>为目标网络的价值函数，为目标网络的优势函数，s为目标网络的网络状态，a为目标网络的最优路径动作，ω为公共部分网络参数，β和α分别为价值函数和优势函数的独有参数，/>为目标网络的可执行路径数量，/>为目标网络的可执行路径动作。

3.根据权利要求2所述的一种基于深度强化学习的智能网络路径优选方法，其特征在于，步骤S3中获得四元组的方法如下：

智能体执行当前时刻的最优路径动作a _t，改变目标网络当前时刻的网络状态s _t，以获得相应奖励，其中，s _t=[D,TM]，D为目标网络当前时刻的网络流量业务请求信息，TM为当前时刻起步长t内状态矩阵，具体如下：

针对各路径剩余带宽、时延、丢包率进行归一化，并针对目标网络当前时刻的网络状态s _t，智能体执行当前时刻的最优路径动作a _t，s _t对应的可执行路径域集合，其中/>为连接源-目的节点对的各可执行路径，智能体从可执行路径域集合P中选择一条路径作为最优路径；

针对智能体执行最优路径动作的奖励函数R如下式：

式中，分别为经过归一化处理后的路径剩余带宽、时延、丢包率，w ₁、w ₂、w ₃分别为路径剩余带宽、时延、丢包率的权值，且满足/>，i=1，2，3；

式中，表示目标网络当前时刻的Q值，γ为折扣因子，s _t+1为目标网络下一时刻的网络状态，θ和/>分别表示智能体所包含的策略神经网络和目标神经网络的权重参数，/>表示未更新时到达下一时刻网络状态s _t+1获得最大Q值的估计值。

4.根据权利要求3所述的一种基于深度强化学习的智能网络路径优选方法，其特征在于，步骤S4中所述的基于SumTree结构的优先经验回放机制使用TD误差作为评判优先级的标准，TD误差的形式如下式：

式中，为第i个样本的TD误差，样本表示存储于经验回放池中的各四元组；TD误差/>越大，表示该样本对于深度强化学习模型的预测精度的上升空间越大，回放该样本的收益越大；

经验回放池中第i个样本的优先级值p _i表示为，μ为预设的正数值，SumTree结构为二叉树结构，将第i个样本的优先级值p _i存储于SumTree结构中的叶子节点中，叶子节点上级的父节点存储其子节点的优先级值之和，SumTree结构的根节点存储所有叶子节点的优先级值之和。

5.根据权利要求4所述的一种基于深度强化学习的智能网络路径优选方法，其特征在于，步骤S4中对深度强化学习模型进行迭代训练和参数更新过程如下：

计算目标Q值如下式：

定义基于TD误差的优先级对应的重要性采样权重，具体如下式：

6.一种基于深度强化学习的智能网络路径优选系统，其特征在于，包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块，以实现如权利要求1-5任意一项所述的一种基于深度强化学习的智能网络路径优选方法；