CN113595684B

CN113595684B - 一种基于深度强化学习的mptcp动态编码调度方法和系统

Info

Publication number: CN113595684B
Application number: CN202110783870.0A
Authority: CN
Inventors: 廖彬彬; 刘�文; 张广兴; 李振宇
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2022-09-16
Anticipated expiration: 2041-07-12
Also published as: CN113595684A

Abstract

本发明提供一种网络动态编码调度系统，所述网络包括多条子流，所述系统包括编码器、调度器和深度多路径编码调度装置，所述深度多路径编码调度装置包括DDPG深度神经网络和Transformer深度神经网络，其中，所述Transformer深度神经网络用于对所述子流的网络状态空间进行转换，输入到所述DDPG深度神经网络，得到用于数据包的编码率和分配比率，编码器用于根据输入的编码率进行编码，调度器用于根据输入的分配比率将编码后的数据包分配给各子流。基于本发明的实施例，可以实现编码器和调度器能力的完美融合，从而更加适应动态复杂的多路径网络环境。

Description

一种基于深度强化学习的MPTCP动态编码调度方法和系统

技术领域

本发明涉及计算机网络传输控制领域，具体地说，本发明涉及一种基于深度强化学习的MPTCP动态编码调度方法和系统。

背景技术

MPTCP传输协议自2013年由IETF工作组标准化以来，已经受到了工业界和学术界的广泛关注和研究。由于其固有的多链路带宽聚合能力和单链路故障恢复能力，MPTCP已经被应用于加速众多的数据交互场景(如：文件传输、Web浏览、和视频推流等)。尤其在移动互联网的背景下，内核装载MPTCP的移动设备可以同时利用WiFi和蜂窝无线网络来提高移动应用程序的网络服务健壮性和传输质量保障。

影响MPTCP整体性能的一个重要因素是其数据包调度程序的设计和实现，它需要根据特定的策略在有效的TCP子流上分配合适的数据包数量。已有的研究表明，错误的数据包调度决策将会导致MPTCP严重的性能问题。尤其在多变的无线网络环境中，由于TCP子流的状态特别容易遭受网络拥塞和数据包随机丢失的影响，这使得MPTCP连接上的多条TCP子流之间的性能差异变得十分巨大。而这种网络的异构性主要表现为分发到较快子流上的数据包必须等待较慢子流上的数据包，这便造成了发送端数据的队头阻塞现象(Head-of-Line Blocking,HoL)和接收端的数据包的乱序队列(Out-of-order Queue)问题。因此，如何最小化接收端的数据包 OQS(Out-of-order Queue Size)乱序队列大小成为提升MPTCP整体性能的关键。

实际上，当MPTCP所有的子流都相对正常或异构性不太明显时，设计一个合理的数据包调度器便能够实现多子流的正常传输，并缓解MPTCP 的队头阻塞与乱序问题。然而，如果存在某些TCP子流在网络质量上具有很高的多样性时(如：剧烈的丢包损耗、网络拥塞或延迟抖动等)，仅依靠调度器是无法适应这种异构网络的剧烈变化，并实现数据包的快速恢复的。考虑到使用网络编码的方法可以根据TCP子流的网络状态，实现超时或丢包的0-RTT快速恢复，在进行数据包调度之前增加一个网络编码的过程，可以使得MPTCP不仅能够在相对稳定的网络环境中获得可观的性能提升，而且还能快速地适应网络的剧烈变化。

然而，基于网络编码的数据包调度系统将主要面临如下两个挑战，首先数据包的编码率需要随着MPTCP所有TCP子流网络状态的相对变化而改变，例如：当所有的子流都比较稳定时使用较低的编码率，而当部分子流出现明显的拥塞或丢包时则需要提升数据包的编码率。其次，数据包调度器也需要通过衡量所有TCP子流的相对差异来确定分配编码后的数据包到每条子流的数量。也就是说，无论是网络编码器还是数据包调度器都需要根据所有TCP子流的网络状态来决定其采取的动作。然而，决定TCP 子流状态的因素众多(如：丢包率、拥塞窗口、时延抖动等等等)，这将导致MPTCP多TCP子流组成的状态空间十分巨大。而且这些因素随着时间的变化可能是线性的也可能是非线性的，甚至可能不符合任何数学分布规律。因此基于数学建模的方法来人工拟合一个函数模型以匹配MPTCP 的子流状态到其对应的全局最优编码和调度动作几乎是不可能的。

发明内容

本发明针对上述问题，根据本发明的第一方面，提出一种网络动态编码调度系统，所述网络包括多条子流，所述系统包括编码器、调度器和深度多路径编码调度装置，所述深度多路径编码调度装置包括DDPG深度神经网络和Transformer深度神经网络，其中，

所述Transformer深度神经网络用于对所述子流的网络状态空间进行转换，输入到所述DDPG深度神经网络，得到用于数据包的编码率和分配比率，

编码器用于根据输入的编码率进行编码，

调度器用于根据输入的分配比率将编码后的数据包分配给各子流。

在本发明的一个实施例中，所述深度多路径编码调度装置是通过训练得到的，所述训练包括将多子流实时状态的网络状态空间输入转化为当前状态下的数据包编码率和分配比率，最大化接收端的OQS定义的反馈函数，以及通过梯度下降的方法训练直到收敛。

在本发明的一个实施例中，对于时刻t，Transformer深度神经网络的状态空间为s_t＝(s_t1,s_t2,...s_ti...s_tn)，其中s_ti是第i条子流TCP层的属性参数元组，i＝1,2,…n，n为子流数，s_ti为元组(d_ti,c_ti,b_ti,l_ti,w_ti,k_ti)，其中

d_ti为TCP子流i的往返时延；

c_ti为TCP子流i的拥塞窗口；

b_ti为TCP子流i的数据包交付速率；

l_ti为TCP子流i的数据包丢失率；

w_ti为TCP子流i的接收窗口；

k_ti为TCP子流i的MPTCP连接级别的数据包确认数量。

在本发明的一个实施例中，Transformer深度神经网络将变长的状态空间转换为定长的矩阵后传送给DDPG的神经网络输入层。

在本发明的一个实施例中，其中对于时刻t，DDPG的动作空间a_t为 (e_t,p_t1,p_t2...p_ti...p_tn)，n为子流数，

其中e_t为时刻t，编码器的输入编码率，

p_t1,p_t2...p_ti...p_tn为各子流的数据包的分配比率。

在本发明的一个实施例中，其中对于时刻t，反馈函数r_t为1/OQS，其中OQS为乱序队列的大小。

在本发明的一个实施例中，所述DDPG还包括Actor深度神经网络和 Critic深度神经网络，通过梯度下降的方法训练所述Actor深度神经网络和 Critic深度神经网络直到收敛，其中根据偏导数公式以SGD(θ^μ)和SGD(θ^Q)的随机梯度下降方式训练，θ^μ为Actor的神经网络参数，θ^Q为Critic 的神经网络参数。

在本发明的一个实施例中，所述DDPG还包括目标Actor深度神经网络和目标Critic深度神经网络，所述目标Actor深度神经网络的参数从 Actor深度神经网络定时复制，所述目标Critic深度神经网络的参数从Critic 深度神经网络定时复制。

根据本发明的第二方面，提供一种基于本发明的网络动态编码调度系统的网络动态编码调度方法，所述网络包括多条子流，所述方法包括：

由深度多路径编码调度装置根据所述子流的网络状态空间确定数据包的编码率和分配比率；

由编码器根据所述编码率进行编码，

由调度器根据所述分配比率将编码后的数据包分配给各子流。

根据本发明的第三方面，提供一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被处理器执行时用于实现本发明的网络动态编码调度方法。

根据本发明的第四方面，提供一种计算系统，包括：

存储装置、以及一个或者多个处理器；

其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现本发明的网络动态编码调度方法。

与现有的技术相比，本发明的优点在于通过分析现有的编码器、调度器以及两者的组合在动态多变的异构网络环境中的表现情况，发现了编码器组合调度器在剧烈的异构网络中的性能提升空间。并通过使用深度强化神经网络作为函数模型的估计器，利用Transformer神经网络处理MPTCP 连接动态TCP子流的全部属性，以匹配出编码器和调度器当前最佳的编码动作和调度动作，从而最大化MPTCP整体传输性能。以实现编码器和调度器能力的完美融合，从而更加适应动态复杂的多路径网络环境。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了多路径数据传输的拓扑图。

图2示出了现有技术的编码器和调度器。

图3示出了基于异或的FEC的编码率。

图4示出了基于深度强化学习的MPTCP编码调度系统。

图5示出了DATA ACK的Q-bit标志位。

图6示出了不同方法在动态异构网络下的OQS分布情况。

图7示出了不同方法在不同丢包和子流下的平均OQS。

图8示出了不同方法在动态异构网络下的平均应用延迟。

图9示出了不同方法在动态异构网络下的平均有效吞吐量。

具体实施方式

针对背景技术中提出的问题，发明人进行了研究，针对异构动态的无线网络提出了一种基于深度强化学习的MPTCP动态编码解决方案。

本发明采用了深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)网络,其发展自深度强化学习网络(DQN)。

传统DQN通过训练神经网络，使神经网络可以计算每个环境状态的每个动作对应的Q值。Q值的计算基于反馈，采用如下公式：Q_k＝r_k+ γmaxQ_k+1,k为正整数，第k步的Q值Q_k依赖于k+1步的Q值，具体地，为k+1步所有动作的Q值中的最大值maxQ_k+1，γ为折扣因子，0≤γ≤1， r_k为第k步反馈，而最后一步的Q值即为最后一步的反馈。

DQN还包括：样本回放缓冲区(Replay Buffer)或者叫做经验回放 (Experiencereplay)，以及目标网络(Target Network)。为了减轻相关问题带来的影响，尽可能地将训练与执行两个部分解耦，本发明引入了一个新的网络，仍然命名为目标网络(TargetNetwork)，而将原本的目标网络称为执行网络(Behavior Network)。

在训练开始时，两个网络模型使用完全相同的参数。在执行过程中， BehaviorNetwork负责与环境交互，得到交互样本。在训练过程中，由 Q-Learning得到的目标Q值由Target Network计算得到；然后用它和Behavior Network在与环境交互中获得的Q值进行比较，得出误差，通过减小误差，对Target Network进行训练，不断更新Target Network的模型，再将更新后的模型同步到Behavior Network，更新Behavior Network的模型。

每当训练完成一定轮数的迭代，Behavior Network模型的经验就会同步给TargetNetwork，这样就可以进行下一个阶段的训练了。通过使用Target Network，计算Q值的模型在一段时间内将被固定，这样模型可以减轻模型的波动性。

然而在实际中，控制问题则是连续的，若把取值范围离散化，取值的数量将成倍增加，而且动作的数量将也将呈指数型增长，所以根本无法用传统的DQN方法解决，解决方法为使用Policy-Based方法，通过各种策略梯度方法直接优化用深度神经网络参数化表示的策略，即网络的输出就是动作。深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)。

DDPG采用了Actor-Critic架构，Actor-Critic的Actor为策略网络，输入是状态，输出直接就是动作，这能让它毫不费力地在连续动作中选取合适的动作或者输出动作的概率，Actor-Critic中的Critic为Q-learning 或者其他的以Q值为基础的学习法。Actor是一个Policy Network,它需要反馈信息来进行调节不同状态下采取各种动作的概率，在传统的Policy Gradient算法中，这种奖惩信息是通过走完一个完整的episode来计算得到的。这不免导致了学习速率很慢，需要很长时间才可以学到东西。既然 Critic是一个以Q值为基础的学习法，那么它可以进行单步更新，计算每一步的奖惩值。那么二者相结合，Actor来选择动作，Critic来告诉Actor 它选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖惩值。

图1示出了MPTCP的示意图，在客户端与服务器之间有多条子流：子流1,子流2,…子流n。图中的无线接入设备中包括流量控制(Traffic Control，TC)模块。在现有技术中，流量控制模块包括编码器与调度器，如图2所示。现有的编码算法中，基于异或的前向纠错码(FEC)不仅复杂度低而且数据恢复能力强，因此被广泛应用于TCP-IR、QUIC和MPQUIC 等网络协议的数据包编码恢复中。如图3所示，对于任意一个动态的FEC 编码模块(m，k)，其中k表示应用层的源数据包数量，而m是编码后的总数据包数量，m-k则是冗余的校验数据包数量。这些奇偶校验数据包使得MPTCP的接收端只需要接收任意k个编码数据包，就能恢复应用层的 k个源数据包。在任意的时刻t，数据包的编码率可以表示为e_t＝(m–k) /k。而对于编码后的m个数据包，MPTCP的调度器需要确定分配到每条 TCP子流i上的数据包数量x_ti。如果MPTCP总共维持了n条子流，则在时刻t分配到子流i的包的分配比率表示为p_ti＝x_ti/m，而且p_t1+p_t2+…p_ti…+p_tn＝1，其中n为正整数，i＝1,2,…n。图2中的编码器可按照输入的编码率e_t进行编码，调度器根据输入的p_ti将编码后的数据包分配给各子流i。

图4示出了本发明一个实施例的示意图，本发明包括编码器、调度器和深度多路径编码调度装置(Deep based Multipath Encoding Scheduler, DMES)，本发明通过训练DMES来自适应MPTCP多子流异构网络环境下的状态变化，并将MPTCP的多子流实时状态输入转化为当前状态下的数据包编码率和分配比率，从而最大化接收端的OQS定义的反馈函数，以及通过梯度下降的方法训练DMES的深度神经网络直到收敛。

图4中包括了图2示出的编码器和与调度器，以及由Transformer深度神经网络和Actor-Critic的DDPG深度神经网络组成的DMES。其中 Transformer深度神经网络将变长的状态空间转换为定长的矩阵后传送给 DDPG的神经网络输入层。以下根据本发明的一个实施例，介绍DMES的状态空间、动作空间与反馈函数的设计：

状态空间：每个时刻DMES系统输入的状态空间，实际上是MPTCP 当前网络环境的一次快照。对于任意的时刻t，系统智能体需要输入的状态空间可以表示为s_t＝(s_t1,s_t2,...s_ti...s_tn)，其中s_ti(1≤i≤n)是第i条子流TCP 层的全部属性参数，可以用一个元组表示s_ti＝(d_ti,c_ti,b_ti,l_ti,w_ti,k_ti)，其中：

·d_ti表示TCP子流i的往返时延(RTT)；

·c_ti表示TCP子流i的拥塞窗口(CWND)；

·b_ti表示TCP子流i的数据包交付速率(Packet Delivery Rate,PDR)；

·l_ti表示TCP子流i的数据包丢失率(PLR)；

·w_ti表示TCP子流i的接收窗口(RWND)；

·k_ti表示TCP子流i的MPTCP连接级别的数据包确认数量(Data ACKed)。

使用MPTCP的子流加入选项(MP_JOIN option)和子流关闭选项(RST option)，在MPTCP的客户端和服务器间能够动态地维持n条存活的TCP 子流。而每个时刻的状态s_t由MPTCP当前存活的TCP子流构成，这将会导致状态s_t的长度是随机变化的。但矛盾的是神经网络的输入层却是固定长度的。考虑到基于多头注意力模型的Transformer神经网络可以将变长的输入转换为定长的矩阵，同时还能将输入的子流之间状态的相关性附加到输出的矩阵中，因此本发明将变长的状态空间s_t经过Transformer神经网络转换为定长的矩阵后再传送给DDPG的神经网络输入层。这不仅能够解决状态空间的动态性问题，而且还能够解决属性间的相关性对神经网络模型复杂度的影响。

动作空间：在任意的时刻，DMES根据TCP子流的网络状态空间对即将发送的数据包首先进行编码动作然后进行调度动作。由于编码和调度强耦合在一起，因此用一个集合将DMES的动作空间表示为a_t＝ (e_t,p_t1,p_t2...p_ti...p_tn)。

反馈函数：根据MPTCP的设计原则，应用层的延迟和有效吞吐量是当前MPTCP连接的主要QoS指标。越来越多的研究表明，影响QoS的根本原因便是MPTCP接收端的OQS大小，以及其衍生出来的发送端的HoL 问题。因此，在设计DMES的反馈函数r_t时需要最小化接收端的OQS。由于DMES运行在MPTCP的发送端队列与TCP子流之间，这使得接收端的OQS需要随着连接级别的Data ACK数据包从接收端返回到发送端。如图5所示，在每个Data ACK数据包的数据序列信号字段(Data Sequence Signal option,DSS)新增一个Q-bit信号位来标识向接收端返回OQS，并通过图5中的乱序队列大小字段来携带OQS。为了使得OQS越小越好，DMES的反馈函数定义为r_t＝1/OQS。

根据上述定义，可以发现MPTCP动态编码调度系统的状态空间s_t与动作空间a_t都是高维度且连续变化的。因此如图4所示，根据本发明的一个实施例，使用基于Actor-Critic的DDPG深度神经网络来估计s_t、a_t以及 r_t之间的函数关系模型。DDPG共维持了4个深度神经网络(DNNs)作为函数模型的估计器。其中，两个DNNs是Actor深度神经网络和Critic深度神经网络，分别用θ^μ和θ^Q表示其神经网络的参数。Actor深度网络也被称为策略函数网络，用来估计当前观测到的状态s_t与需要采取的最佳动作a_t间的函数关系：a_t＝μ(s_t；θ^μ)。Critic深度神经网络也被称为值函数网络，用来估计对于任意的“状态-动作”对(s_t,a_t)的反馈函数的值：r_t＝Q(s_t,a_t；θ^Q)。如图4所示，在系统深度强化学习时，通过min-batches的方式从“回放缓存”中找到某个时刻t到下一时刻t+1的状态转换元组(s_t,a_t,s_t+1,a_t+1)，并根据偏导数公式以SGD(θ^μ)和SGD(θ^Q)的随机梯度下降方式训练Actor深度神经网络和Critic深度神经网络。另外目标Actor深度神经网络和目标 Critic深度神经网络的参数θ^μ‘和θ^Q’则是使用跟踪参数τ从θ^μ和θ^Q缓慢更新而来。

为了模拟动态复杂的网络环境，使用图1的流量控制模块TC作为测试平台，对表1中的6种情况(Case)进行测试，每种情况进行20组多路径传输实验。

表1.子流数变化时的网络质量参数

在训练DMES时，使用了6层叠加的多头注意力模型组成Transformer 神经网络，每个注意力模型的输入是一个512维的矩阵。与此同时，Actor 神经网络和Critic神经网络由两个全连接的48*48的神经网络隐藏层和神经网络输出层组成，并使用rectified linear函数作为隐藏层的激励函数，以及hyperbolic tangent函数作为输出层的激励函数。根据Adam方法，Actor 网络和Critic网络的学习率分别被设置为：10^-4和10^-5。反馈函数的discount参数设置为：0.99。

乱序队列分析：

如图6所示，首先分析各种异构网络环境下的MPTCP乱序队列分布情况。实验结果表明，相比于其他的方法DMES在所有的Case中的OQS都是最小的。且在多子流高丢包的环境中，将MPTCP的平均OQS最高降低 20％以上。因为本发明的深度神经网络将编码器和调度器融合到一起，不仅能够基于调度的方式自适应轻微网络异构性而且能够通过编码恢复的方式极大地降低剧烈网络异构性导致的接收端乱序队列。为了更加清楚地描述实验结果，本小节同时分析了在不同的丢包率和TCP子流数量下的 MPTCP接收端的平均OQS情况。如图7(a)所示，与其他的设计方法相比，在15％-20％的高丢包环境中，DMES最高能够将平均的OQS降低17.4％左右，若此时MPTCP同时建立了8条TCP子流，如图7(b)所示，DMES 将平均的OQS降低到24.6％以上。

应用延迟分析：

由于接收端的乱序队列直接导致了数据包的延迟交付，因此在传输实验中测量了MPTCP连接级别的平均应用延迟。如图8所示，可以发现在子流数目较少且丢包不高的Case1中进行多路径传输实验时，由于ECF+dFEC和DMES几乎没有编码开销而且能够通过调度器适应网络的异构性，因此它们的应用延迟明显的低于存在编码开销的dFEC和FMP。当在Case3和Case 4中的丢包率达到10％-15％时，相比较ECF调度器，DMES 却能够自适应的编码，因此将应用延迟降低大约6.3％左右。最后在子流的数量为6-8条且丢包率达到15％-20％的Case 6中，DMES能够将平均的应用延迟最高降低12.2％以上。

有效吞吐量分析：

MPTCP连接的吞吐量是多条TCP子流共同作用的结果。但是由于乱序到达的报文必须按序交付给应用层，使得MPTCP的有效吞吐量并不是 TCP子流吞吐量的简单叠加。因此，通过测量应用程序的实时吞吐量作为 MPTCP的有效吞吐量。如图9所示，在丢包率较低的Case 1和Case 2中，相较于ECF调度器，DMES的有效吞吐量提升了7.4％左右。而在丢包率较高的Case 6中，相比于ECF、FMP和dFEC的设计方法，DMES的有效吞吐量提升能够分别达到18.3％、14.7％和15.2％左右。与此同时，当子流的数目较多时MPTCP的网络虽然变得更加复杂，但DMES的有效吞吐量提升却更加明显。

综上所述，本发明使用深度增强学习的方法，根据MPTCP连接动态 TCP子流的全部属性，匹配出编码器和调度器当前最佳的编码动作和调度动作，从而最大化MPTCP整体传输性能。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。此外，除非另外说明，否则任何方面和/或实施例的所有部分或一部分可以与任何其它方面和/或实施例的所有部分或一部分一起使用。因此，本公开内容并不限于本文所描述的例子和设计方案，而是与本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种网络动态编码调度系统，所述网络包括多条子流，所述系统包括编码器、调度器和深度多路径编码调度装置，所述深度多路径编码调度装置包括DDPG深度神经网络和Transformer深度神经网络，其中，

编码器用于根据输入的编码率进行编码，

调度器用于根据输入的分配比率将编码后的数据包分配给各子流；

其中，所述深度多路径编码调度装置是通过训练得到的，所述训练包括将多子流实时状态的网络状态空间输入转化为当前状态下的数据包编码率和分配比率，最大化接收端的OQS定义的反馈函数，以及通过梯度下降的方法训练直到收敛；其中，对于时刻t：

Transformer深度神经网络的状态空间为s _t =(s _t1, s _t2, ...s _ti ...s _tn)，其中s _ti是第i条子流TCP层的属性参数元组，i=1,2,…n，n为子流数，s _ti为元组(d _ti , c _ti , b _ti , l _ti , w _ti , k _ti)，其中d _ti为TCP子流i的往返时延，c _ti为TCP子流i的拥塞窗口，b _ti为TCP子流i的数据包交付速率，l _ti为TCP子流i的数据包丢失率，w _ti为TCP子流i的接收窗口，k _ti为TCP子流i的MPTCP连接级别的数据包确认数量；以及

DDPG的动作空间a _t为(e _t ,p _t1 ,p _t2 ...p _ti ...p _tn)，n为子流数，其中e _t为时刻t，编码器的输入编码率，p _t1 ,p _t2 ...p _ti ...p _tn为各子流的数据包的分配比率。

2.根据权利要求1所述的系统，Transformer深度神经网络将变长的状态空间转换为定长的矩阵后传送给DDPG的神经网络输入层。

3.根据权利要求1所述的系统，其中对于时刻t，反馈函数r _t为1/OQS，其中OQS为乱序队列的大小。

4.根据权利要求1所述的系统，所述DDPG还包括Actor深度神经网络和Critic深度神经网络，通过梯度下降的方法训练所述Actor深度神经网络和Critic深度神经网络直到收敛，其中根据偏导数公式以SGD(θ ^μ )和SGD(θ ^Q )的随机梯度下降方式训练，θ ^μ为Actor的神经网络参数，θ ^Q为Critic的神经网络参数。

5.根据权利要求1所述的系统，所述DDPG还包括目标Actor深度神经网络和目标Critic深度神经网络，所述目标Actor深度神经网络的参数从Actor深度神经网络定时复制，所述目标Critic深度神经网络的参数从Critic深度神经网络定时复制。

6.一种基于权利要求1-5之一的系统的网络动态编码调度方法，所述网络包括多条子流，所述方法包括：

由编码器根据所述编码率进行编码，

7.一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被处理器执行时用于实现如权利要求6所述的方法。

8.一种计算系统，包括：

存储装置、以及一个或者多个处理器；

其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现如权利要求6所述的方法。