CN117041139B

CN117041139B - 数据包传输方法、装置、计算机设备和存储介质

Info

Publication number: CN117041139B
Application number: CN202311296511.8A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-03-26
Anticipated expiration: 2043-10-09
Also published as: CN117041139A

Abstract

本申请涉及音视频领域，具体涉及一种数据包传输方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息；确定与当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息；根据测定传输质量信息和标准传输质量信息，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态；获取状态路径奖励表；根据传输网络在当前业务类型下当前时刻的网络状态和状态路径奖励表，从传输网络确定当前时刻的传输路径，并通过当前时刻的传输路径传输当前时刻的数据包。采用本方法能够满足数据包的传输要求。

Description

数据包传输方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据包传输方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的发展，出现了音视频通话、网络直播等业务。在进行音视频通话、网络直播等业务时，例如，在进行音频通话时，发送端会将通话方的通话实时产生的数据包发送至接收端，从而通话双方即可收听到对方的语音。

目前，发送端是通过传输网络来发送数据包，发送端会随机选择传输网络中的一条传输路径，通过随机选择的传输路径来传输数据包。由于不同业务类型的数据包的传输对应于不同的传输要求，例如，对于音视频通话、网络直播等业务类型的数据包传输，对应于低延时和低丢包率的传输要求；对于文件传输业务类型的数据包传输，时延和丢包率则没有明确的高传输要求。因此，随机选择一条传输路径进行数据包传输的方式，可能会无法满足相应的传输要求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够满足数据包的传输要求的数据包传输方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种数据包传输方法，所述方法包括：

当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，所述测定传输质量信息是对所述传输网络检测获得的；

根据预设的传输质量信息与业务类型之间的对应关系，确定与所述当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息；

根据所述当前时刻适配的测定传输质量信息和所述当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态；

获取状态路径奖励表；所述状态路径奖励表中，记载有在所述多种网络状态中的任一网络状态下，采用所述传输网络中任一条传输路径传输数据包时，匹配的奖励值；

根据所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述状态路径奖励表记载的所述奖励值，从所述传输网络确定当前时刻的传输路径，并通过所述当前时刻的传输路径传输所述当前时刻的数据包。

第二方面，本申请还提供了一种数据包传输装置，所述装置包括：

传输质量信息确定模块，用于当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，所述测定传输质量信息是对所述传输网络检测获得的；根据预设的传输质量信息与业务类型之间的对应关系，确定与所述当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息。

网络状态确定模块，用于根据所述当前时刻适配的测定传输质量信息和所述当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态。

路径选择模块，用于获取状态路径奖励表；所述状态路径奖励表中，记载有在所述多种网络状态中的任一网络状态下，采用所述传输网络中任一条传输路径传输数据包时，匹配的奖励值；根据所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述状态路径奖励表记载的所述奖励值，从所述传输网络确定当前时刻的传输路径，并通过所述当前时刻的传输路径传输所述当前时刻的数据包。

在其中一个实施例中，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；在所述获取传输网络在当前时刻适配的测定传输质量信息之前，所述数据包传输装置还包括测定模块，用于在当前时刻所在的当前测定周期的起始时刻，从所述数据包传输网络的发送端向所述传输网络的接收端发送多个测试数据包；发送的所述测试数据包，用于触发所述接收端向所述发送端返回响应数据包；根据发送的测试数据包的数量和接收到的响应数据包的数量，确定与所述当前测定周期相对应的测定丢包率；确定所述发送端接收到各所述响应数据包的接收时间，并根据各所述测试数据包的发送时间和各所述响应数据包的接收时间，确定与所述当前测定周期相对应的测定时延。

在其中一个实施例中，所述网络状态确定模块还用于确定所述当前时刻适配的测定传输质量信息与所述当前业务类型所对应的标准传输质量信息之间的信息差异；根据所述信息差异，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态。

在其中一个实施例中，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；所述当前业务类型所对应的标准传输质量信息，包括所述当前业务类型所对应的标准丢包率和标准时延；所述网络状态确定模块用于确定所述当前测定周期所对应的测定丢包率与所述当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；确定所述当前测定周期所对应的测定时延与所述当前业务类型所对应的标准时延之间的差异，得到时延差异；根据所述丢包率差异和所述时延差异，确定信息差异。

在其中一个实施例中，所述网络状态确定模块用于将所述当前测定周期对应的测定丢包率减去所述当前业务类型所对应的标准丢包率，得到初始丢包率差值；在所述初始丢包率差值大于或等于零的情况下，将所述初始丢包率差值作为丢包率差异；在所述初始丢包率差值小零的情况下，将零作为丢包率差异；将所述当前测定周期所对应的测定时延减去所述当前业务类型所对应的标准时延，得到初始时延差值；在所述初始时延差值大于或等于零的情况下，将所述初始时延差值作为时延差异；在所述初始时延差值小零的情况下，将零作为时延差异。

在其中一个实施例中，所述网络状态确定模块还用于根据所述当前业务类型确定与所述丢包率差异相对应的第一权重系数和与所述时延差异相对应的第二权重系数；将所述第一权重系数与所述丢包率差异相乘，得到加权丢包率差异；将所述第二权重系数与所述时延差异相乘，得到加权时延差异；将所述加权丢包率差异与所述加权时延差异进行叠加，得到信息差异。

在其中一个实施例中，所述网络状态确定模块还用于确定所述信息差异所处的数值区间；根据数值区间与网络状态之间的对应关系，确定与所述信息差异所处的数值区间相对应的网络状态，并将确定的网络状态作为所述传输网络在所述当前业务类型下当前时刻的网络状态。

在其中一个实施例中，所述路径选择模块还用于确定所述状态路径奖励表中、与所述传输网络在所述当前业务类型下当前时刻的网络状态相对应的第一目标数据行；确定所述第一目标数据行中的第一最高奖励值，并确定所述状态路径奖励表中所述第一最高奖励值所处的数据列；将与所述第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。

在其中一个实施例中，所述数据包传输装置还包括随机模块，用于获取随机概率模型；所述随机概率模型，为基于预设概率确定是否通过随机的传输路径传输数据包的模型，且所述预设概率随着传输的数据包的数量的增多而减小；当所述随机概率模型指示通过随机的传输路径传输所述当前时刻的数据包时，通过随机的传输路径传输所述当前时刻的数据包。

在其中一个实施例中，所述数据包传输装置还包括表更新模块，用于确定与所述当前时刻的数据包对应的即时奖励值；与所述当前时刻的数据包对应的即时奖励值，是在所述当前时刻的网络状态下，采用所述当前时刻的传输路径，实际传输所述当前时刻的数据包时的奖励值；预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；从所述多种网络状态中，筛选出下一时刻所述传输网络在所述下一业务类型下的网络状态；根据与所述当前时刻的数据包对应的即时奖励值和所述下一时刻所述传输网络在所述下一业务类型下的网络状态，更新所述状态路径奖励表；更新后的状态路径奖励表，用于确定传输所述下一时刻的数据包的传输路径。

在其中一个实施例中，所述表更新模块还用于确定所述当前时刻的传输路径适配的实时传输质量信息；确定所述当前时刻的传输路径的带宽成本信息；根据所述当前时刻的传输路径适配的实时传输质量信息、与所述当前业务类型相对应的标准传输质量信息和所述当前时刻的传输路径的带宽成本信息，确定与所述当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，所述当前时刻的传输路径适配的实时传输质量信息，包括所述当前时刻的传输路径适配的实时时延和实时丢包率；所述当前业务类型所对应的标准传输质量信息，包括所述当前业务类型所对应的标准丢包率和标准时延；所述表更新模块还用于根据所述当前时刻的传输路径适配的实时时延和所述当前业务类型所对应的标准时延，并通过预设的时延奖励函数，确定时延奖励值；基于预设的抗丢包策略，确定将所述当前时刻的传输路径适配的实时丢包率调整至所述当前业务类型所对应的标准丢包率时采用的数据冗余率；根据所述数据冗余率和所述当前时刻的传输路径的带宽成本信息，并通过预设的成本奖励函数，确定成本奖励值；根据所述时延奖励值和所述成本奖励值，确定与所述当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，所述时延奖励函数输出的数值，随着实时时延与标准时延之间的比值的增大而减小；所述成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；所述表更新模块还用于将所述时延奖励值和所述成本奖励值进行叠加，得到叠加奖励值；将所述叠加奖励值的倒数，作为所述当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，所述表更新模块用于确定在所述当前时刻的数据包之前传输的多个历史时刻的数据包；确定每个所述历史时刻的数据包各自所属的业务类型；根据所述当前业务类型和每个所述历史时刻的数据包各自所属的业务类型，确定待传输的下一时刻的数据包所属的业务类型，得到下一业务类型。

在其中一个实施例中，所述表更新模块还用于确定所述状态路径奖励表中、与所述下一时刻所述传输网络在所述下一业务类型下的网络状态相对应的第二目标数据行；确定所述第二目标数据行中的第二最高奖励值；从所述状态路径奖励表中查找当前状态路径组所对应的奖励值；所述当前状态路径组，为包括所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述当前时刻的传输路径传输数据包的组合；根据所述第二最高奖励值、与所述当前时刻的数据包对应的即时奖励值和所述当前状态路径组所对应的奖励值，确定更新奖励值；将所述更新奖励值替换所述状态路径奖励表中所述当前状态路径组所对应的奖励值。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的任一种数据包传输方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种数据包传输方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的任一种数据包传输方法中的步骤。

上述数据包传输方法、装置、计算机设备、存储介质和计算机程序产品，通过获取当前时刻适配的测定传输质量信息，以及与当前时刻的数据包所属的当前业务类型对应的标准传输质量信息，可基于测定传输质量信息和标准传输质量信息，确定传输网络在所述当前业务类型下当前时刻的网络状态。通过获取状态路径奖励表，可从状态路径奖励表中查找在当前时刻的网络状态下，具有最高奖励值的传输路径，并将该传输路径作为当前时刻的传输路径，基于当前时刻的传输路径传输当前时刻的数据包。由于是根据传输网络在当前业务类型下当前时刻的网络状态和状态路径奖励表，来确定当前时刻的传输路径，使得查找得到的当前时刻的传输路径能够更加适配于传输网络在当前业务类型下当前时刻的网络状态。又由于当前业务类型下当前时刻的网络状态，是基于测定传输质量信息和当前业务类型所对应的标准传输质量信息确定得到的，因此，在当前时刻的传输路径能够更加适配于传输网络在当前业务类型下当前时刻的网络状态的情况下，当前时刻的传输路径也就更加适配于当前业务类型所对应的标准传输质量信息，而当前业务类型所对应的标准传输质量信息反映的是当前业务类型的在传输质量上的要求，因此，相比于传输网络中的其余传输网络，从多条传输路径中选择的当前时刻的传输路径也就更能满足当前业务类型的传输要求。

附图说明

图1为一个实施例中数据包传输方法的应用环境图；

图2为一个实施例中数据包传输方法的流程示意图；

图3为一个实施例中传输网络的示意图；

图4为一个实施例中传输质量信息与业务类型之间的对应关系示意图；

图5为一个实施例中状态路径奖励表的示意图；

图6为一个实施例中信息差异的确定示意图；

图7为一个实施例中当前业务类型下当前时刻的网络状态的确定示意图；

图8为一个实施例中强化学习的示意图；

图9为一个实施例中状态路径奖励表的更新示意图；

图10为一个实施例中时延奖励函数的输出示意图；

图11为一个实施例中奖励值更新的示意图；

图12为一个实施例中传输路径的选择示意图；

图13为一个具体实施例中数据包传输方法的流程示意图；

图14为一个实施例中数据包传输装置的结构框图；

图15为一个实施例中计算机设备的内部结构图；

图16为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据包传输方法，可以应用于如图1所示的应用环境中。其中，于如图1所示的应用环境包括第一计算机设备102和第二计算机设备104，第一计算机设备102、第二计算机设备104以及位于第一计算机设备102和第二计算机设备104之间的计算机设备，共同构成了一个传输网络。第一计算机设备为传输网络中的源节点，其用以发送数据包。第二计算机设备104为传输网络中的目的节点，用以接收第一计算机设备102传输的数据包。其中，第一计算机设备102通过第一计算机设备102与第二计算机设备104中的其余计算机设备来将数据包发送至第二计算机设备104。数据存储系统可以存储第一计算机设备104需要处理的数据。数据存储系统可以集成在第一计算机设备104上，也可以放在云上或其他服务器上。第一计算机设备可获取待传输的当前时刻的数据包，并通过上述的数据包传输方法确定传输网络中当前时刻的传输路径，并通过筛选出的当前时刻的传输路径将当前时刻的数据包传输至第二计算机设备104。其中，第一计算机设备102和第二计算机设备104均可为终端或者服务器。终端可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是，本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量，比如，“多个”指“至少两个”，“多份”指“至少两份”。

本申请涉及人工智能领域，例如，本申请可通过机器学习模型预测下一时刻的业务类型。人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在一个实施例中，如图2所示，提供了一种数据包传输方法，以该方法应用于传输网络中的源节点为例进行说，该源节点可例如为图1中的第一计算机设备。数据包传输方法包括以下步骤：

步骤202，当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，测定传输质量信息是对传输网络检测获得的。

其中，数据包可为对在进行音视频通话、网络直播等业务中，对音频或者音视频进行编码压缩得到的数据包。传输网络是指用以对数据包进行传输的网络。参考图3，图3示出了一个实施例中传输网络的示意图。传输网络可包括多条传输路径，例如，可包括由源节点、服务器B、服务器C和目的节点组成的传输路径1；还可包括由源节点、服务器D和目的节点组成的传输路径2。值得注意的，该传输网络中的传输路径，可为预先选定的传输路径。比如，具有100条从源节点至目标节点的传输路径，可从中选择一些符合传输条件的传输路径，选择出的传输路径共同构成了本申请中的传输网络。

源节点是指发送数据包的节点，目的节点是指接收数据包的节点，从而数据包从源节点经由相应的传输路径传输至目的节点。传输质量是指对数据包进行传输的质量，例如，传输质量具体可包括数据包的丢包率和传输时延。测定传输质量信息是指对传输网络的传输质量进行测定获得的信息。比如，可对传输网络的整体丢包率和延时进行测定，从而得到测定传输质量信息。

具体地，当获得待传输的当前时刻的数据包时，可获取预先测定的当前时刻适配的测定传输质量信息。其中，待传输的当前时刻的数据包，是指当前时刻待传输的数据包。例如，在进行语音通话时，由于语音通话是持续进行的，因此，源节点可将持续产生的数据包按照一定的时间间隔均匀地发送至目的节点，而在当前时刻需要发送的数据包，即称作待传输的当前时刻的数据包。其中，当前时刻适配的测定传输质量信息可为最新测定的传输质量信息。源节点可按照预设的测定周期，周期性地对传输网络的传输质量进行测定，从而源节点可将最新测定得到的传输质量信息作为当前时刻适配的测定传输质量信息。例如，可将最新测定得到的丢包率和时延共同作为传输网络在当前时刻适配的测定传输质量信息。

步骤204，根据预设的传输质量信息与业务类型之间的对应关系，确定与当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息。

其中，业务类型是指产生数据包的业务的类型，比如，在对语音通话时产生的数据包进行传输时，则可认为数据包所属的业务类型为语音通话类型；在对文件传输时产生的数据包进行传输时，则可认为数据包所属的业务类型为文件传输类型。又比如，在对网络直播中的连麦环节产生的数据包进行传输时，可认为数据包所属的业务类型为直播连麦类型；在对网络直播中的非连麦环节产生的数据包进行传输时，可认为数据包所属的业务类型为普通直播类型。

具体地，源节点中可预先存储有传输质量信息与业务类型之间的对应关系，比如，该对应关系中可预先记载有{（语音通话类型-传输质量信息1），（文件传输类型-传输质量信息2），（直播连麦类型-传输质量信息3）…}。当确定当前时刻的数据包所属的当前业务类型时，则可从该对应关系中查找与当前业务类型相对应的传输质量信息，并将查找得到的传输质量信息作为与当前业务类型相对应的标准传输质量信息。比如，在当前业务类型为直播连麦类型时，则可确认标准传输质量信息为传输质量信息3。

其中，与当前业务类型相对应的标准传输质量信息，可认为记载有当前业务类型要求的端到端的传输质量，也即为当前业务类型设定的一个传输目标或传输要求。由于不同业务类型对端到端的传输要求是不一样的，因此不同的业务类型所对应的标准传输质量信息是不一样的。例如，视频会议类型、云游戏类型等，要求端到端低时延、低丢包率，以保证数据的可靠性和实时性；而文件传输类型的实时性要求不高，允许多次丢包重传以解决数据传输的可靠性，因此，时延和丢包率没有明确的高要求。基于上述要求，构建了传输质量信息与业务类型间的对应关系，以基于该对应关系明确每种业务类型分别对应的传输质量要求。

在其中一个实施例中，传输质量信息与业务类型之间的对应关系中，记载了每种业务类型各自对应的传输质量信息，该传输质量信息具体可为业务类型对端到端的传输质量要求的下限。例如，参考图4，该对应关系中可预先记载有{（语音通话类型-时延100ms、丢包率10%），（文件传输类型-时延200ms、丢包率30%），（直播连麦类型-时延50ms、丢包率10%）…}。其中，对应关系中记载的（语音通话类型-时延100ms、丢包率10%），可表征对于语音通话类型，其要求的时延下限为100ms，要求的丢包率下限为10%。（文件传输类型-时延200ms、丢包率30%）和（直播连麦类型-时延50ms、丢包率10%）也类似。图4示出了一个实施例中传输质量信息与业务类型之间的对应关系示意图。

步骤206，根据当前时刻适配的测定传输质量信息和当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态。

其中，网络状态是指传输网络所处的环境状态。该环境状态可反映出当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的差异，差异不同时，网络状态也就不同。

具体地，当获取得到当前时刻适配的测定传输质量信息和当前业务类型所对应的标准传输质量信息时，源节点可确定该测定传输质量信息与该标准传输质量信息之间的差异，从而通过差异来确定传输网络在当前业务类型下当前时刻的网络状态。例如，可预先设置有差异与网络状态之间的对应关系{（差异1-网络状态1），（差异2-网络状态2）…}，从而当计算得到当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的差异时，即可从预先的差异与网络状态之间的对应关系中，确定与计算得到的差异相对应的网络状态，并将确定的网络状态作为传输网络在当前业务类型下当前时刻的网络状态。

容易理解地，由于在一定时间段内，业务类型可能不会发生变化，例如，10:00至10:06这段时间内一直在进行文件传输，因此，在这段时间内的业务类型一直时文件传输类型。而在10:00至10:06这段时间内测定传输质量信息可能会发生变化，例如，当每隔两分钟对传输网络进行一次传输质量的测定时，则10:02、10:04和10:06对应的测定传输质量信息可能会各不相同。由于网络状态反映的是当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的差异，因此，在10:00至10:06这段时间内业务类型不变，而测定传输质量信息变化的情况下，10:02、10:04和10:06各自对应的网络状态可能会各不相同，例如10:02的网络状态为状态1、10:04的网络状态为状态2、10:06的网络状态为状态3。而本申请的目标在于在各网络状态下，均寻找一条最优的传输路径来传输相应的数据包，例如，在10:02时刻，网络状态为状态1时，寻找一条最优的传输路径来传输10:02时刻的数据包；在10:04时刻，网络状态为状态2时，寻找一条最优的传输路径来传输10:04时刻的数据包。当然，在一定时间段内，业务类型可能会发生变化，但是本申请的目标依旧是在相应的网络状态下，寻找最优的传输路径。

步骤208，获取状态路径奖励表；状态路径奖励表中，记载有在多种网络状态中的任一网络状态下，采用传输网络中任一条传输路径传输数据包时，匹配的奖励值。

其中，参考图5，图5示出了一个实施例中状态路径奖励表的示意图。由图5可知，状态路径奖励表中记载有在多种网络状态中的任一网络状态下，采用传输网络中任一条传输路径传输数据包时，匹配的奖励值。奖励值越高，则表征传输数据包时采用的传输路径越正确，该采用的传输路径越能够满足相应业务类型的传输要求。容易理解地，状态路径奖励表中记载的多种网络状态，包括传输网络在当前业务类型下当前时刻的网络状态。

步骤210，根据传输网络在当前业务类型下当前时刻的网络状态，和状态路径奖励表记载的奖励值，从传输网络确定当前时刻的传输路径，并通过当前时刻的传输路径传输当前时刻的数据包。

具体地，当确定当前时刻的网络状态时，便可确定状态路径奖励表中，当前时刻的网络状态所在的数据行，并确定该数据行的最高奖励值，将该最高奖励值所对应的传输路径，作为当前时刻的传输路径。例如，参考图5，在当前时刻的网络状态的状态值为2，状态值2所对应的数据行为（0,0,4,0,0,0），该数据行中最高奖励值为4，对应于传输路径3，因此，传输路径3即为当前时刻的传输路径，从而源节点通过当前时刻的传输路径传输当前时刻的数据包。

上述数据包传输方法中，通过获取当前时刻适配的测定传输质量信息，以及与当前时刻的数据包所属的当前业务类型对应的标准传输质量信息，可基于测定传输质量信息和标准传输质量信息，确定传输网络在所述当前业务类型下当前时刻的网络状态。通过获取状态路径奖励表，可从状态路径奖励表中查找在当前时刻的网络状态下，具有最高奖励值的传输路径，并将该传输路径作为当前时刻的传输路径，基于当前时刻的传输路径传输当前时刻的数据包。由于是根据传输网络在当前业务类型下当前时刻的网络状态和状态路径奖励表，来确定当前时刻的传输路径，使得查找得到的当前时刻的传输路径能够更加适配于传输网络在当前业务类型下当前时刻的网络状态。又由于当前业务类型下当前时刻的网络状态，是基于测定传输质量信息和当前业务类型所对应的标准传输质量信息确定得到的，因此，在当前时刻的传输路径能够更加适配于传输网络在当前业务类型下当前时刻的网络状态的情况下，当前时刻的传输路径也就更加适配于当前业务类型所对应的标准传输质量信息，而当前业务类型所对应的标准传输质量信息反映的是当前业务类型的在传输质量上的要求，因此，相比于传输网络中的其余传输网络，从多条传输路径中选择的当前时刻的传输路径也就更能满足当前业务类型的传输要求。

在其中一个实施例中，当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；在获取传输网络在当前时刻适配的测定传输质量信息之前，上述方法还包括：在当前时刻所在的当前测定周期的起始时刻，从传输网络的发送端向数据包传输网络的接收端发送多个测试数据包；发送的测试数据包，用于触发接收端向发送端返回响应数据包；根据发送的测试数据包的数量和接收到的响应数据包的数量，确定与当前测定周期相对应的测定丢包率；确定发送端接收到各响应数据包的接收时间，并根据各测试数据包的发送时间和各响应数据包的接收时间，确定与当前测定周期相对应的测定时延。

具体地，源节点可周期性地对传输网络的传输质量信息进行测定。例如，在当前时刻为10:01，其属于当前测定周期10:00至10:05，因此，在10:00时，源节点即进行一次传输质量信息的测定。当需要在当前测定周期对传输网络进行传输质量的测定时，发送端，也就是源节点可向传输网络的接收端发送多个测试数据包。其中，接收端也即为上述的目的节点。发送的测试数据包会触发目的节点返回相应的响应数据包。

进一步地，源节点可统计发送的测试数据包的数量，得到第一数量。源节点还可统计接收到的响应数据包的数量，得到第二数量，并根据第一数量和第二数量，确定与当前测定周期相对应的丢包率，并将该丢包率称作测定丢包率。例如，源节点可将第二数量除以第一数量，得到与当前测定周期相对应的测定丢包率。源节点可确定每个响应数据包各自对应的测试数据包，得到多个数据包对。其中，一对数据包对包括的测试数据包和响应数据包为，目的节点响应于该数据包对中的测试数据包而返回该数据包对中的响应数据包。对于多个数据包对中的每个数据包对，源节点确定数据包对中的测试数据包的发送时间，以及确定数据包对中的响应数据包的接收时间，将响应数据包的接收时间减去测试数据包的发送时间，以得到数据包对所对应的时延。将各数据包对所对应的时延的平均值，作为测定得到的与当前测定周期相对应的时延，并将测定得到的与当前测定周期相对应的时延，称作与当前测定周期相对应的测定时延。

本实施例中，通过向传输网络的目的节点发送测试数据包，可基于发送的测试数据包准确确定传输网络的测定质量信息。

在其中一个实施例中，根据当前时刻适配的测定传输质量信息和当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态，包括：确定当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的信息差异；根据信息差异，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态。

具体地，在源节点确定当前时刻适配的测定传输质量信息，以及确定当前业务类型相对应的标准传输质量信息时，源节点可确定该测定传输质量信息与该标准传输质量信息之间的信息差异，该信息差异具体可为该测定传输质量信息与该标准传输质量信息之间的正向距离。源节点中部署有以正向距离为输入，以网络状态为输出的映射函数，从而基于该映射函数，输出传输网络在当前业务类型下当前时刻的网络状态。

本实施例中，通过设置映射函数，可基于该映射函数快速输出传输网络在当前业务类型下当前时刻的网络状态。

在其中一个实施例中，当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延；确定当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的信息差异，包括：确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延之间的差异，得到时延差异；根据丢包率差异和时延差异，确定信息差异。

具体地，传输质量信息包括时延和丢包率，因此，当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延。当需要确定当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的信息差异时，参考图6，源节点可确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延，以得到时延差异，该时延差异可为测定时延与标准时延之间的正向差异；源节点还可确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率，以得到丢包率差异，该丢包率差异可为测定丢包率与标准丢包率之间的正向差异。从而源节点基于时延差异和丢包率差异，得到信息差异。图6示出了一个实施例中信息差异的确定示意图。

在其中一个实施例中，确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异，包括：将当前测定周期所对应的测定丢包率减去当前业务类型所对应的标准丢包率，得到初始丢包率差值；在初始丢包率差值大于或等于零的情况下，将初始丢包率差值作为丢包率差异；在初始丢包率差值小零的情况下，将零作为丢包率差异；确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延之间的差异，得到时延差异，包括：将当前测定周期所对应的测定时延减去当前业务类型所对应的标准时延，得到初始时延差值；在初始时延差值大于或等于零的情况下，将初始时延差值作为时延差异；在初始时延差值小零的情况下，将零作为时延差异。

具体地，源节点将当前测定周期所对应的测定丢包率减去当前业务类型所对应的标准丢包率，得到初始丢包率差值。例如，在当前测定周期所对应的测定丢包率为20%，当前业务类型所对应的标准丢包率为10%时，则初始丢包率差值则为20%-10%=10%。由于是确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率之间的正向差异，因此，可将初始丢包率差值与0进行对比，当初始丢包率差值大于或等于零时，将该初始丢包率差值作为丢包率差异。在初始丢包率差值小于零时，将零作为丢包率差异。也即，丢包率差异的最小值为0。

相应的，源节点将当前测定周期所对应的测定时延减去当前业务类型所对应的标准时延，得到初始时延差值。例如，在当前测定周期所对应的测定时延为200ms，当前业务类型所对应的标准时延为100ms时，则初始时延差值则为200ms-100ms=100ms。由于是确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延之间的正向差异，因此，可将初始时延差值与0进行对比，当初始时延差值大于或等于零时，将初始时延差值作为时延差异。在初始时延差值小于零时，将零作为时延差异。也即，时延差异的最小值为0。

本实施例中，通过将丢包率差异和时延差异的最小值设置为0，使得后续可在测定时延等于标准时延、测定丢包率等于标准丢包率，以及测定时延小于标准时延、测定丢包率小于标准丢包率时，均对应于相同的网络状态。

在其中一个实施例中，根据丢包率差异和时延差异，确定信息差异，包括：根据当前业务类型确定与丢包率差异相对应的第一权重系数和与时延差异相对应的第二权重系数；将第一权重系数与丢包率差异相乘，得到加权丢包率差异；将第二权重系数与时延差异相乘，得到加权时延差异；将加权丢包率差异与加权时延差异进行叠加，得到信息差异。

具体地，当得到丢包率差异和时延差异时，可对丢包率差异和时延差异进行加权求和，以得到信息差异。例如，源节点可根据当前业务类型确定与丢包率差异相对应的第一权重系数，以及根据当前业务类型确定与时延差异相对应的第二权重系数，基于第一权重系数和第二权重系数，对丢包率差异和时延差异进行加权求和处理，以得到信息差异。

其中，由于不同的业务类型对时延和丢包率的侧重并不相同，因此，对于不同的业务类型，可为丢包率差异和时延差异设定不同的权重系数。比如，对于音视频通话和游戏业务类型，其更看重时延，因此，在音视频通话和游戏业务类型下，设定的第二权重系数大于第一权重系数；对于网络直播业务类型，时延和丢包率均看重，因此，在网络直播业务类型下设定的第一权重系数与第二权重系数较为接近；对于文件传输业务类型，其更看重丢包率，因此，在文件传输业务类型下设定的第一权重系数大于第二权重系数。

在其中一个实施例中，可通过下述公式来确定信息差异x：

x = a*max(0,(delay-D0)) + b*max(0,(lossrate-L0))

其中，delay表示当前测定周期所对应的测定时延；D0表示当前业务类型所对应的标准时延；lossrate表示当前测定周期所对应的测定丢包率；L0表示当前业务类型所对应的标准丢包率；max(0,(delay-D0)) 表示时延差异；max(0,(lossrate-L0)表示丢包率差异；a表示第二权重系数；b表示第一权重系数。

上述实施例中，由于不同的业务类型所对应的第一权重系数和第二权重系数不同，因此，使得基于与当前业务类型相对应的第一权重系数和第二权重系数计算出的信息差异能够与当前业务类型更为匹配，从而基于更为匹配的信息差异确定出与当前业务类型更为匹配的传输路径，基于更为匹配的传输路径提升数据包传输的传输质量。

在其中一个实施例中，根据信息差异，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态，包括：确定信息差异所处的数值区间；根据数值区间与网络状态之间的对应关系，确定与信息差异所处的数值区间相对应的网络状态，并将确定的网络状态将作为所述传输网络在所述当前业务类型下当前时刻的网络状态。

具体地，信息差异具体可为一个数值，源节点中预先设置有多个数值区域，源节点可确定信息差异所在的数据区间，并将信息差异所在的数值区间称作目标数值区间。进一步地，参考图7，源节点中部署有数值区间与网络状态之间的对应关系。当确定目标数值区间时，源节点即可基于数值区间与网络状态之间的对应关系，确定与目标数值区间相对应的目标网络状态，并将与目标数值区间相对应的目标网络状态，作为传输网络在当前业务类型下当前时刻的网络状态。图7示出了一个实施例中当前业务类型下当前时刻的网络状态的确定示意图。

在其中一个实施例中，源节点可通过下述公式确定传输网络在当前业务类型下当前时刻的网络状态State：

其中，x为信息差异，THR1、THR2、THR3分别为状态划分临界点阈值。且THR1、THR2、THR3可通过历史经验确定得到。比如，在信息差异小于THR1，则确定当前业务类型下当前时刻的网络状态的状态值为0；在信息差异大于或等于THR1，但小于THR2时，则确定当前业务类型下当前时刻的网络状态的状态值为1；当信息差异大于或等于THR2，但小于THR3时，则确定当前业务类型下当前时刻的网络状态为的状态值为2；当信息差异大于或等于THR3时，则确定当前业务类型下当前时刻的网络状态的状态值为3。容易理解地，网络状态可通过状态值来区分，不同状态值的网络状态不同。状态值越小，可认为当前业务类型对丢包率和时延的要求越高。

本实施例中，通过预先设置数值区间与网络状态之间的对应关系，可基于该对应关系快速确定传输网络在当前业务类型下当前时刻的网络状态。

在其中一个实施例中，根据传输网络在当前业务类型下当前时刻的网络状态，和状态路径奖励表记载的奖励值，从传输网络确定当前时刻的传输路径，包括：确定状态路径奖励表中、与传输网络在当前业务类型下当前时刻的网络状态相对应的第一目标数据行；确定第一目标数据行中的第一最高奖励值，并确定状态路径奖励表中第一最高奖励值所处的数据列；将与第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。

具体地，源节点确定状态路径奖励表中、与传输网络在当前业务类型下当前时刻的网络状态相对应的数据行，称作第一目标数据行。例如，参考图5，在当前业务类型下当前时刻的网络状态的状态值为2时，状态值2所对应的数据行为（0,0,4,0,0,0），也即第一目标数据行为（0,0,4,0,0,0）。源节点确定第一目标数据行中的最高奖励值，称作第一最高奖励值，例如，由于（0,0,4,0,0,0）中最高奖励值为4，因此，可确定第一最高奖励值为4。进一步地，源节点确定第一最高奖励值所处的数据列，将与第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。例如，由于第一最高奖励值为4，其对应于传输路径3，因此，将传输路径3作为的当前时刻的传输路径。

本实施例中，由于奖励值越高，则表征传输数据包时采用的传输路径越正确，该采用的传输路径越能够满足相应业务类型的传输质量要求。因此，将第一最高奖励值所对应的传输路径，作为用以传输当前时刻的数据包的传输路径，可使得基于该传输路径传输当前时刻的数据包时，使得传输质量能够尽可能地满足当前业务类型的传输质量要求。

在其中一个实施例中，上述方法还包括：确定与当前时刻的数据包对应的即时奖励值；与当前时刻的数据包对应的即时奖励值，是在当前时刻的网络状态下，采用当前时刻的传输路径，实际传输当前时刻的数据包时的奖励值；预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；从多种网络状态中，筛选出下一时刻传输网络在下一业务类型下的网络状态；根据即时奖励值和下一时刻传输网络在下一业务类型下的网络状态，更新状态路径奖励表；更新后的状态路径奖励表，用于确定传输下一时刻的数据包的传输路径。

具体地，为了提升状态路径奖励表的准确性，可通过强化学习的方式对状态路径奖励表进行更新。如图8所示，强化学习是智能体（agent）通过与环境（Environment）不断地进行交互学习一个从状态（上述的网络状态）到动作（上述的传输路径选择动作）的映射，学习的目标就是使累计回报最大化。强化学习也是一种试错学习，在各种状态下尽量尝试所有可以选择的动作，通过给出的反馈（即奖励值）来判断动作的优劣，最终获得状态和最优动作的映射关系。在强化学习里面涉及几个要素：状态、动作、奖励值。而实际应用强化学习则需要结合实际应用定义好这几个要素，通过反复大量的验证或试错，总结出复杂的强化学习经验库，该经验库在不断的自学习过程中升级和丰富。图8示出了一个实施例中强化学习的示意图。在本申请中，状态为上述的网络状态，动作为从多条传输路径中选择用以传输数据包的传输路径这一动作，当选择的传输路径越正确，则奖励越高。

更具体地，当进行强化学习，以更新状态路径奖励表时，源节点可确定与当前时刻的数据包对应的即时奖励值。即时奖励值，是在当前时刻的网络下，采用当前时刻的传输网络实际传输当前时刻的数据包时获取的实时奖励值。为了平衡传输质量和带宽成本，以传输质量和带宽成本最优为目标，本申请强化学习定义的即时奖励值应该包含如下因素：基于所选传输路径下的丢包情况、时延情况、满足相应业务类型的传输要求时所需使用的抗丢包策略及因此增加的带宽成本。

进一步地，源节点预测待传输的下一时刻的数据包所属的业务类型，并将下一时刻的数据包所属的业务类型称作下一业务类型。源节点确定下一业务类型所对应的标准传输质量信息，并根据传输网络在当前时刻适配的测定传输质量信息和下一业务类型所对应的标准传输质量信息，确定下一时刻传输网络在下一业务类型下的网络状态。其中，根据传输网络在当前时刻适配的测定传输质量信息和下一业务类型所对应的标准传输质量信息，确定下一时刻传输网络在下一业务类型下的网络状态的步骤，可参考根据传输网络在当前时刻适配的测定传输质量信息和当前业务类型所对应的标准传输质量信息，确定当前时刻传输网络在当前业务类型下的网络状态的步骤。

当确定下一时刻所述传输网络在所述下一业务类型下的网络状态时，源节点可根据即时奖励值和下一时刻所述传输网络在下一业务类型下的网络状态，更新状态路径奖励表；更新后的状态路径奖励表，用于确定传输下一时刻的数据包的传输路径。容易理解地，参考图9，每传输一个数据包后，即可基于传输的数据包的即时奖励值来对状态路径奖励表进行更新，以使得状态路径奖励表更为准确。图9示出了一个实施例中状态路径奖励表的更新示意图。

在其中一个实施例中，确定与所述当前时刻的数据包对应的即时奖励值，包括：确定当前时刻的传输路径适配的实时传输质量信息；确定当前时刻的传输路径的带宽成本信息；根据当前时刻的传输路径适配的实时传输质量信息、与当前业务类型相对应的标准传输质量信息和当前时刻的传输路径的带宽成本信息，确定与当前时刻的数据包对应的即时奖励值。

具体地，当需要确定即时奖励值时，源节点可确定当前时刻的传输路径适配的实时传输质量信息。实时传输质量信息为实时测定得到的传输质量信息。例如，在当前时刻为10:00时，实时传输质量信息可为在10:00对当前时刻的传输路径测定得到的传输质量信息。进一步地，源节点可确定当前时刻的传输路径的带宽成本信息，根据当前时刻的传输路径的带宽成本信息、当前时刻适配的实时传输质量信息和当前业务类型相对应的标准传输质量信息，确定即时奖励值。

在其中一个实施例中，可直接将传输网络在当前时刻适配的测定传输质量信息，作为当前时刻适配的实时传输质量信息。

本申请实施例中，由于即时奖励值考虑了传输质量和带宽成本，使得基于即时奖励值更新得到的奖励值也考虑了传输质量和带宽成本，进而能够实现基于奖励值筛选得到的传输路径相较于其余传输路径，能够在尽可能提升传输质量的情况下，节约带宽成本，使得传输质量与带宽成本之间达到了动态平衡。

在其中一个实施例中，当前时刻的传输路径适配的实时传输质量信息，包括当前时刻的传输路径适配的实时时延和实时丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延；根据当前时刻的传输路径适配的实时传输质量信息、与当前业务类型相对应的标准传输质量信息和当前时刻的传输路径的带宽成本信息，确定与当前时刻的数据包对应的即时奖励值，包括：根据当前时刻的传输路径适配的实时时延和当前业务类型所对应的标准时延，并通过预设的时延奖励函数，确定时延奖励值；基于预设的抗丢包策略，确定将当前时刻的传输路径适配的实时丢包率调整至当前业务类型所对应的标准丢包率时采用的数据冗余率；根据数据冗余率和当前时刻的传输路径的带宽成本信息，并通过预设的成本奖励函数，确定成本奖励值；根据时延奖励值和成本奖励值，确定与当前时刻的数据包对应的即时奖励值。

具体地，当前时刻的传输路径适配的实时传输质量信息，包括当前时刻的传输路径适配的实时时延和当前时刻的传输路径适配的实时丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和当前业务类型所对应的标准时延。源节点中预设有时延奖励函数，当需要根据当前时刻的传输路径适配的实时传输质量信息和当前时刻的传输路径的带宽成本信息，确定即时奖励值时，源节点可将当前时刻的传输路径适配的实时时延和当前业务类型所对应的标准时延，输入至时延奖励函数中，以确定时延奖励值。其中，时延奖励函数是一个单调递减函数，在当前时刻的传输路径适配的实时时延越接近当前业务类型所对应的标准时延的情况下，时延奖励函数返回的数值越小，且在当前时刻的传输路径适配的实时时延大于当前业务类型所对应的标准时延的情况下，时延奖励函数返回的数值为负值。

进一步地，源节点基于预设的抗丢包策略，确定将当前时刻的传输路径适配的实时丢包率调整至当前业务类型所对应的标准丢包率时采用的数据冗余率。例如，在当前时刻的传输路径适配的实时丢包率为10%，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为50%，即需要增加50%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻适配的实时丢包率从10%降为2%。又比如，在当前时刻适配的实时丢包率为5%，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为20%，即需要增加20%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻适配的实时丢包率从5%降为2%。

进一步地，源节点中设置有成本奖励函数，源节点将数据冗余率和当前时刻的传输路径的带宽成本信息输入至成本奖励函数，以通过成本奖励函数输出成本奖励值。其中，当数据冗余率越高，则成本奖励函数输出的数值越高；当带宽成本信息表征带宽成本越高时，则成本奖励函数输出的数值越高。

进一步地，源节点根据时延奖励值和成本奖励值，确定即时奖励值。

在其中一个实施例中，源节点可将当前时刻的传输路径适配的实时时延与当前业务类型所对应的标准时延的比值输入至时延奖励函数，通过时延奖励函数输出时延奖励值。

在其中一个实施例中，源节点可通过下述公式确定时延奖励值V：

其中，delay代表当前时刻的传输路径适配的实时时延；D0代表当前业务类型所对应的标准时延；f1代表时延奖励函数，其输入为当前时刻适配的实时时延与当前业务类型所对应的标准时延的比值，是一个单调递减函数，其曲线如图10所示，当delay/D0大于1后f1返回值为负值，且随着delay/D0值越大则f1返回值越小。图10示出了一个实施例中时延奖励函数的输出示意图。

在其中一个实施例中，源节点可通过下述公式确定成本奖励值W：

其中，c为带宽成本系数，其随着传输路径的带宽成本信息所指示的带宽成本的增大而增大；br为数据冗余率；f2为成本奖励函数。

在其中一个实施例中，带宽成本信息所指示的带宽成本可根据数据冗余率确定得到。由于当数据冗余率越高时，则需要增加的带宽就越多，从而带宽成本就越高。比如，对于传输路径1，在当前时刻的传输路径的实时丢包率为10%，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为50%，即需要增加50%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻的传输路径的丢包率从10%降为2%。对于传输路径2，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为20%，即需要增加20%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻适配的实时丢包率从5%降为2%。由于传输路径1需要增加50%的带宽，而传输路径2仅需增加20%的带宽，因此，传输路径1的带宽成本信息所指示的带宽成本高于传输路径2的带宽成本信息所指示的带宽成本。容易理解地，在此情况下，带宽成本越高，则使用的带宽越多。若能够降低带宽成本，则可以节约数据传输时所使用的带宽资源。

在其中一个实施例中，带宽成本信息所指示的带宽成本可根据传输路径的带宽成本单价和数据冗余率确定得到。例如，对于传输路径1，在当前时刻的传输路径的实时丢包率为10%，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为50%，即需要增加50%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻的传输路径的丢包率从10%降为2%。对于传输路径2，当前业务类型所对应的标准丢包率为2%（以内）时，基于预设的抗丢包策略确定数据冗余率为20%，即需要增加20%的带宽将丢失的数据包进行重新发送后，才会使得当前时刻适配的实时丢包率从5%降为2%。然而传输路径2的带宽单价成本为传输路径1的2倍，所以传输路径1的带宽成本是传输路径2的（1+0.5）/（2*（1+0.2））= 0.625倍。

在其中一个实施例中，时延奖励函数输出的数值，随着实时时延与标准时延之间的比值的增大而减小；成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；根据时延奖励值和成本奖励值，确定即时奖励值，包括：将时延奖励值和成本奖励值进行叠加，得到叠加奖励值；将叠加奖励值的倒数，作为当前时刻的数据包对应的即时奖励值。

具体地，源节点将时延奖励值和成本奖励值进行叠加，得到叠加奖励值。由于时延奖励函数输出的数值，随着当前时刻的传输路径适配的实时时延与当前业务类型所对应的标准时延之间的比值的增大而减小；成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；因此，叠加奖励值是随着当前时刻的传输路径适配的实时时延与当前业务类型所对应的标准时延之间的比值的增大而减小，且随着数据冗余率和带宽成本的增大而增大。然而，对于即时奖励值而言，约定的是选择的传输路径的传输质量越高，且带宽成本越低的情况下，基于该选择的传输路径进行数据包传输后获得的即时奖励值越高。因此，需要将叠加奖励值求倒，才会使得基于求倒后得到的即时奖励值满足上述对即时奖励值的定义。

在其中一个实施例中，可通过下述函数得到即时奖励值r：

其中，为叠加奖励值。

上述实施例中，通过将叠加奖励值的倒数作为即时奖励值，可使得在是选择的传输路径的传输质量越高，且带宽成本越低的情况下，基于该选择的传输路径进行数据包传输后获得的即时奖励值越高。从而基于即时奖励值更新得到的路径状态表中的奖励值，也可以随着传输质量的增高且带宽成本的降低，而增大。进而使得后续基于路径状态表选择用以传输数据包的传输路径时，可使得选择的传输路径满足传输质量与带宽成本的平衡，从而达到在尽可能地满足相应业务类型的传输质量要求的情况下，节约带宽资源的目的。

在其中一个实施例中，预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型，包括：确定在当前时刻的数据包之前传输的多个历史时刻的数据包；确定每个历史时刻的数据包各自所属的业务类型；根据当前业务类型和每个历史时刻的数据包各自所属的业务类型，确定待传输的下一时刻的数据包所属的业务类型，得到下一业务类型。

具体地，当需要预测待传输的下一时刻的数据包所属的业务类型时，则可确定在当前时刻的数据包之前传输的多个历史时刻的数据包，比如，在当前时刻为10:10时，则可确定在10：10之前传输的多个数据包，并称作历史时刻的数据包。源节点确定每个历史时刻的数据包各自对应的业务类型，得到历史业务类型。源节点将当前业务类型和确定的历史业务类型作为业务类型集中的业务类型。源节点判断业务类型集中的业务类型是否一致。若不一致，则将当前业务类型，作为待传输的下一时刻的数据包所属的业务类型。若一致，则预测下一时刻业务类型会发生变化的概率值，当概率值大于或等于预设阈值，则源节点获取与当前业务类型相对应的其余业务类型，并将其余业务类型中的任意一个作为待传输的下一时刻的数据包所属的业务类型。其中，可通过机器学习模型来预测下一时刻业务类型会发生变化的概率值。

比如，当前时刻的数据包可为在10:10时刻传输的数据包。多个历史时刻的数据包可为在10：09传输的数据包、在10:08传输的数据包、在10:07传输的数据包。10:07传输的数据包所属的业务类型为普通直播类型，10:08传输的数据包所属的业务类型为普通直播类型，10:09传输的数据包所属的业务类型为直播连麦类型、10:00传输的数据包所属的业务类型为直播连麦类型时，则可确定下一时刻业务类型为直播连麦类型。其中，普通直播类型是指进行网络直播，但未进行直播连麦。又比如，10:07传输的数据包所属的业务类型为普通直播类型，10:08传输的数据包所属的业务类型为普通直播类型，10:09传输的数据包所属的业务类型为普通直播类型、10:10传输的数据包所属的业务类型为普通直播类型时，机器学习模型预测在下一时刻可能会发生直播连麦操作，此时，可确定下一时刻业务类型为直播连麦类型。

或者，业务类型集中的业务类型一致时，源节点可额外再获取多个历史时刻的数据包。比如，在10:07至10:10时刻传输的数据包所属的业务类型一致时，源节点可额外再获取10:04至10:06时刻传输的数据包。源节点确定额外再获取的历史时刻的数据包的业务类型，并将额外再获取的历史时刻的数据包的业务类型存储至业务类型集中，得到更新的业务类型集。在更新的业务类型集中的业务类型一致时，将更新的业务类型集中的任意一个业务类型，作为待传输的下一时刻的数据包所属的业务类型。比如，在10:04至10:10时刻传输的数据包所属的业务类型均为普通直播类型时，则可认为下一时刻也很有可能不进行直播连麦，从而将普通直播类型作为下一时刻的数据包所属的业务类型。在更新的业务类型集中的业务类型不一致时，则源节点获取与当前业务类型相对应的其余业务类型，并将其余业务类型中的任意一个作为待传输的下一时刻的数据包所属的业务类型。比如，在10:04至10:06时刻传输的数据包所属的业务类型为直播连麦类型时，在10:07至10:10时刻传输的数据包所属的业务类型为普通直播类型时，则可认为下一时刻也很有可能进行直播连麦，从而将直播连麦类型作为下一时刻的数据包所属的业务类型。

本实施例中，通过确定历史时刻的数据包所属的业务类型，可基于当前业务类型和历史时刻的数据包所属的业务类型，共同来预测下一时刻的数据包所属的业务类型，从而使得预测得到的下一业务类型更为准确。

在其中一个实施例中，根据即时奖励值和下一时刻传输网络在下一业务类型下的网络状态，更新状态路径奖励表，包括：确定状态路径奖励表中、与下一时刻传输网络在下一业务类型下的网络状态相对应的第二目标数据行；确定第二目标数据行中的第二最高奖励值；从状态路径奖励表中查找当前状态路径组所对应的奖励值；当前状态路径组，为包括传输网络在当前业务类型下当前时刻的网络状态，和当前时刻的传输路径传输数据包的组合；根据第二最高奖励值、即时奖励值和当前状态路径组所对应的奖励值，确定更新奖励值；将更新奖励值替换状态路径奖励表中当前状态路径组所对应的奖励值。

具体地，当确定了下一业务类型时，即可基于下一业务类型和当前时刻适配的测定传输质量信息，计算得到下一时刻传输网络在下一业务类型下的网络状态。为了描述方便，下述将下一时刻传输网络在下一业务类型下的网络状态称作下一网络状态。进一步地，当确定了下一网络状态，源节点便可基于下一网络状态和上述计算得到的即时奖励值，来对状态路径奖励表进行更新。

进一步地，当需要基于下一网络状态和上述计算得到的即时奖励值来对状态路径奖励表进行更新时，源节点确定状态路径奖励表中与下一网络状态相对应的数据行，称作第二目标数据行。例如，参考图5，在下一网络状态的状态值为4时，则第二目标数据行为（0,1,0,2,0,1）。进一步地，源节点确定第二目标数据行中的最高奖励值，称作第二最高奖励值。比如，第二目标数据行（0,1,0,2,0,1）中的最高奖励值为2，也即，第二最高奖励值为2。

进一步地，为了描述方便，下述将传输网络在当前业务类型下当前时刻的网络状态称作当前网络状态。源节点确定由当前网络状态和当前时刻的传输路径组成的当前状态路径组，并从状态路径奖励表中查找当前状态路径组所对应的奖励值。比如，参考图5，在当前网络状态的状态值为2，当前时刻的传输路径为传输路径3时，与（状态值2，传输路径3）相对应的奖励值为4。源节点根据第二最高奖励值、即时奖励值和当前状态路径组所对应的奖励值，确定更新奖励值，将更新奖励值替换对状态路径奖励表中当前状态路径组所对应的奖励值。比如，在即时奖励值为10时，源节点根据第二最高奖励值2、即时奖励值10、当前状态路径对所对应的奖励值2，来对（状态值2，传输路径3）所对应的奖励值进行更新，以得到更新的状态路径奖励表，从而基于更新的状态路径奖励表来确定待传输的下一时刻的数据包的传输路径。

在其中一个实施例中，参考图11，在当前状态路径对为状态路径表中的（状态值2，传输路径3）时，即可基于当前时刻的数据包所对应的即时奖励值、下一网络状态所对应的最高奖励值、当前状态路径对所对应的奖励值确定更新奖励值，通过更新奖励值来对当前状态路径对所对应的奖励值进行更新。例如，计算得到的更新奖励值为5时，则将5替换（状态值2，传输路径3）所对应的奖励值3。图11示出了一个奖励值更新的示意图。

在其中一个实施例中，可通过更新函数来更新状态路径奖励表，更新函数可如下述公式所示：

其中，s代表传输网络在当前业务类型下当前时刻的网络状态；a代表当前时刻的传输路径；代表在网络状态s下选择传输路径a进行数据包的传输时获得的奖励值； φ代表学习率（例如0.01）；代表下一时刻所述传输网络在所述下一业务类型下的网络状态；代表下一时刻的传输路径；r代表当前时刻的数据包的即时奖励值；代表奖励性衰变系数（例如0.9）。这是一种基于时态差分法的增强学习算法，用于学习一个更新函数，表示在网络状态s下采取最优传输路径得到的期望累积的奖励值。

本申请采用时间差分法来对状态路径奖励表进行更新，更新策略总是选择了下一时刻网络状态下使更新函数的值最大化的传输路径。基于该更新策略更新得到的状态路径奖励表中记载的奖励值，可为一个某个时刻在某一网络状态下选取某一传输路径所得到的长期回报。由于是将状态路径奖励表中某一网络状态下的最高奖励值所对应的传输路径，作为用以传输相应数据包的传输路径，因此，可基于选择得到的传输路径得到最高的长期回报。

在其中一个实施例中，上述方法还包括：获取随机概率模型；随机概率模型，为基于预设概率确定是否通过随机的传输路径传输数据包的模型，且预设概率随着传输的数据包的数量的增多而减小；当随机概率模型指示通过随机的传输路径传输当前时刻的数据包时，通过随机的传输路径传输当前时刻的数据包。

具体地，由于在初步的学习中，状态路径奖励表中的奖励值会不准确，如果在这个时候都按照状态路径奖励表中的奖励值来选择，那么会造成错误。另外学习一段时间后（对状态路径奖励表更新一段时间后），可能出现传输路径选择相对固定无法对网络状态进行有效的探索。因此可以考虑不完全按照状态路径奖励表而以一部分的概率随机选择传输路径，而另一部分的概率按照最高的奖励值选择传输路径。同时，这个选择随机传输的概率应当随着训练的过程（状态路径奖励表的更新过程）逐步减小。

在其中一个实施例中，参考图12，对于待传输的当前时刻的数据包，其具有一部分概率随机选择当前时刻的传输路径，而另一部分按照状态路径奖励表来选择当前时刻的传输路径。当通过选择的传输路径对当前时刻的数据包进行传输时，可计算得到当前时刻的数据包所对应的即时奖励值，从而通过当前时刻的数据包所对应的即时奖励值对状态路径奖励表进行更新，得到更新的状态路径奖励表。对于待传输的下一时刻的数据包，其也具有一部分概率随机选择下一时刻的传输路径，而另一部分按照更新的状态路径奖励表来选择下一时刻的传输路径。且随机选择下一时刻的传输路径可小于随机选择当前时刻的传输路径的概率值。从而通过下一时刻的传输路径来传输下一时刻的数据包。图12示出了一个实施例中传输路径的选择示意图。

在其中一个具体实施例中，参考13，提供了一种数据包传输方法：

步骤1302，当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，测定传输质量信息是对传输网络检测获得的；当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率。

步骤1304，根据预设的传输质量信息与业务类型之间的对应关系，确定与当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延。

步骤1306，确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延之间的差异，得到时延差异。

步骤1308，根据当前业务类型确定与丢包率差异相对应的第一权重系数和与时延差异相对应的第二权重系数。

步骤1310，将第一权重系数与丢包率差异相乘，得到加权丢包率差异；将第二权重系数与时延差异相乘，得到加权时延差异；将加权丢包率差异与加权时延差异进行叠加，得到信息差异。

步骤1312，确定信息差异所处的数值区间；根据数值区间与网络状态之间的对应关系，确定与信息差异所处的数值区间相对应的网络状态，并将确定的网络状态作为传输网络在当前业务类型下当前时刻的网络状态。

步骤1314，获取状态路径奖励表，确定状态路径奖励表中、与传输网络在当前业务类型下当前时刻的网络状态相对应的第一目标数据行。

步骤1316，确定第一目标数据行中的第一最高奖励值，并确定状态路径奖励表中第一最高奖励值所处的数据列；将与第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径，并通过当前时刻的传输路径传输当前时刻的数据包。

步骤1318，确定与当前时刻的数据包对应的即时奖励值；与当前时刻的数据包对应的即时奖励值，是在当前时刻的网络状态下，采用当前时刻的传输路径，实际传输当前时刻的数据包时的奖励值。

步骤1320，预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；从多种网络状态中，筛选出下一时刻传输网络在下一业务类型下的网络状态。

步骤1322，根据与当前时刻的数据包对应的即时奖励值和下一时刻传输网络在下一业务类型下的网络状态，更新状态路径奖励表；更新后的状态路径奖励表，用于确定传输下一时刻的数据包的传输路径。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的数据包传输方法。具体地，该数据包传输方法在该应用场景的应用如下：

网络底层传输路径控制策略主要由路由器设备制造厂家决定，按照不同业务数据类型进行分类，并基于不同业务对丢包率和传输时延要求进行路由匹配。而整个传输网络是公共基础设施，其由不同的网络运营商所提供和管理，业务方通常情况下无法控制底层传输路径传输策略和优化，然而业务方为了提高网络传输速度和质量，提供给用户提供更好的服务，业务提供方通常会在不同地区部署数据转发服务器，将数据包转发至离用户更近的服务器后再通过公共网络传输到目的IP地址（目的节点）。而在不同地区转发服务器之间可以采用质量更高的不同运营商的专网进行传输。在这种网络结构下，业务方可以给用户配置从数据发送方的源IP地址（源节点）发往不同的转发服务器，通过不同转发服务器之间路由路径转发后最终到达接收方的目的IP地址（目的节点）。传输路径选择策略决定了传输质量（丢包率、传输时延）、带宽成本（所需带宽量和带宽单价）的差异。现有的传输路径选取方法与业务运营需求脱节，业务运营需要考虑更多的因素，包括网络丢包后的抗丢包策略、不同运营商带宽成本差异、整体网络传输成本、产品业务细分后对传输网络质量指标需求差异等。在多个因素下如何做到传输质量和带宽成本最优，是一个亟待解决的问题。本申请提出一种基于强化学习的传输路径确定策略，介绍一种以传输质量和带宽成本为优化目标的传输路径确定方法，这里引入了强化学习手段，对各可选传输路径的端到端丢包、传输时延程度进行实时监测，对不同业务在不同传输路径下达到目标传输质量所需要的带宽成本、以及质量指标的综合评估，通过实时评估值对状态路径奖励表进行更新，基于强化学习决策下一时刻的传输路径，最终实现带宽成本和传输质量的综合最优。本申请基于业务综合指标为目标，结合强化学习寻优方式，让传输路径选择更匹配业务需求。

在本申请中，当A用户通过第一终端与B用户进行语音通话时，第一终端可获取状态路径奖励表，状态路径奖励表大小为N×M，其中N为网络状态数，M为可选取的传输路径的数量。第一终端周期性的检测传输网络的丢包率和时延，得到测定丢包率和测定时延。第一终端获取当前时刻待传输的语音数据包，并确定当前时刻待传输的语音数据包所属的当前业务类型。第一终端根据测定丢包率、测定时延、当前业务类型和当前业务类型所对应的标准丢包率、当前业务类型和当前业务类型所对应的标准时延，并基于状态路径奖励表，确定当前时刻的传输路径，通过当前时刻的传输路径，将当前时刻的语音数据包发送至用户B的第二终端，从而第二终端可对接收到的当前时刻的语音数据包进行解析播放。第一终端确定当前时刻的语音数据包所对应的即时奖励值，并基于即时奖励值对状态路径奖励表进行更新。当第一终端获取得到下一时刻的语音数据包时，第一终端可基于更新的状态路径奖励表来选取下一时刻的传输路径，并基于下一时刻的传输路径来对下一时刻的语音数据包进行传输，依次循环，直至A用户与B用户的语音通话结束。容易理解地，第二终端也可按照上述方式，将B用户的语音数据包发送至第一为终端，从而A用户便可收听到B用户的语音。

本申请还另外提供一种应用场景，该应用场景应用上述的数据包传输方法。具体地，该数据包传输方法在该应用场景的应用如下：

当多个用户通过在线会议应用进行在线会议时，各用户所对应的终端也可按照上述方式，将相应的语音数据包发送至对方用户的终端，从而对方用户的终端便可收听到语音。

上述应用场景仅为示意性的说明，可以理解，本申请各实施例所提供的数据包传输方法的应用不局限于上述场景。例如，还可应用于网络直播、云游戏、文件传输等等场景。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据包传输方法的数据包传输装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据包传输装置实施例中的具体限定可以参见上文中对于数据包传输方法的限定，在此不再赘述。

在一个实施例中，如图14所示，提供了一种数据包传输装置1400，包括：传输质量信息确定模块1402、网络状态确定模块1404和路径选择模块1406，其中：

传输质量信息确定模块1402，用于当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，测定传输质量信息是对传输网络检测获得的；根据预设的传输质量信息与业务类型之间的对应关系，确定与当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息。

网络状态确定模块1404，用于根据当前时刻适配的测定传输质量信息和当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态。

路径选择模块1406，用于获取状态路径奖励表；状态路径奖励表中，记载有在多种网络状态中的任一网络状态下，采用传输网络中任一条传输路径传输数据包时，匹配的奖励值；根据传输网络在当前业务类型下当前时刻的网络状态，和状态路径奖励表记载的奖励值，从传输网络确定当前时刻的传输路径，并通过当前时刻的传输路径传输当前时刻的数据包。

在其中一个实施例中，当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；在获取传输网络在当前时刻适配的测定传输质量信息之前，数据包传输装置1400还包括测定模块，用于在当前时刻所在的当前测定周期的起始时刻，从数据包传输网络的发送端向传输网络的接收端发送多个测试数据包；发送的测试数据包，用于触发接收端向发送端返回响应数据包；根据发送的测试数据包的数量和接收到的响应数据包的数量，确定与当前测定周期相对应的测定丢包率；确定发送端接收到各响应数据包的接收时间，并根据各测试数据包的发送时间和各响应数据包的接收时间，确定与当前测定周期相对应的测定时延。

在其中一个实施例中，网络状态确定模块1404还用于确定当前时刻适配的测定传输质量信息与当前业务类型所对应的标准传输质量信息之间的信息差异；根据信息差异，从多种网络状态中，筛选出传输网络在当前业务类型下当前时刻的网络状态。

在其中一个实施例中，当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延；网络状态确定模块1404还用于确定当前测定周期所对应的测定丢包率与当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；确定当前测定周期所对应的测定时延与当前业务类型所对应的标准时延之间的差异，得到时延差异；根据丢包率差异和时延差异，确定信息差异。

在其中一个实施例中，网络状态确定模块1404还用于将当前测定周期所对应的测定丢包率减去当前业务类型所对应的标准丢包率，得到初始丢包率差值；在初始丢包率差值大于或等于零的情况下，将初始丢包率差值作为丢包率差异；在初始丢包率差值小零的情况下，将零作为丢包率差异；将当前测定周期所对应的测定时延减去当前业务类型所对应的标准时延，得到初始时延差值；在初始时延差值大于或等于零的情况下，将初始时延差值作为时延差异；在初始时延差值小零的情况下，将零作为时延差异。

在其中一个实施例中，网络状态确定模块1404还用于根据当前业务类型确定与丢包率差异相对应的第一权重系数和与时延差异相对应的第二权重系数；将第一权重系数与丢包率差异相乘，得到加权丢包率差异；将第二权重系数与时延差异相乘，得到加权时延差异；将加权丢包率差异与加权时延差异进行叠加，得到信息差异。

在其中一个实施例中，网络状态确定模块1404还用于确定信息差异所处的数值区间；根据数值区间与网络状态之间的对应关系，确定与信息差异所处的数值区间相对应的网络状态，并将确定的网络状态作为传输网络在当前业务类型下当前时刻的网络状态。

在其中一个实施例中，路径选择模块1406还用于确定状态路径奖励表中、与传输网络在当前业务类型下当前时刻的网络状态相对应的第一目标数据行；确定第一目标数据行中的第一最高奖励值，并确定状态路径奖励表中第一最高奖励值所处的数据列；将与第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。

在其中一个实施例中，数据包传输装置1400还包括随机模块，用于获取随机概率模型；随机概率模型，为基于预设概率确定是否通过随机的传输路径传输数据包的模型，且预设概率随着传输的数据包的数量的增多而减小；当随机概率模型指示通过随机的传输路径传输当前时刻的数据包时，通过随机的传输路径传输当前时刻的数据包。

在其中一个实施例中，数据包传输装置1400还包括表更新模块，用于确定与当前时刻的数据包对应的即时奖励值；与当前时刻的数据包对应的即时奖励值，是在当前时刻的网络状态下，采用当前时刻的传输路径，实际传输当前时刻的数据包时的奖励值；预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；从多种网络状态中，筛选出下一时刻传输网络在下一业务类型下的网络状态；根据与当前时刻的数据包对应的即时奖励值和下一时刻传输网络在下一业务类型下的网络状态，更新状态路径奖励表；更新后的状态路径奖励表，用于确定传输下一时刻的数据包的传输路径。

在其中一个实施例中，表更新模块还用于确定当前时刻的传输路径适配的实时传输质量信息；确定当前时刻的传输路径的带宽成本信息；根据当前时刻的传输路径适配的实时传输质量信息、与当前业务类型相对应的标准传输质量信息和当前时刻的传输路径的带宽成本信息，确定与当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，当前时刻的传输路径适配的实时传输质量信息，包括当前时刻的传输路径适配的实时时延和实时丢包率；当前业务类型所对应的标准传输质量信息，包括当前业务类型所对应的标准丢包率和标准时延；表更新模块还用于根据当前时刻的传输路径适配的实时时延和当前业务类型所对应的标准时延，并通过预设的时延奖励函数，确定时延奖励值；基于预设的抗丢包策略，确定将当前时刻的传输路径适配的实时丢包率调整至当前业务类型所对应的标准丢包率时采用的数据冗余率；根据数据冗余率和当前时刻的传输路径的带宽成本信息，并通过预设的成本奖励函数，确定成本奖励值；根据时延奖励值和成本奖励值，确定与当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，时延奖励函数输出的数值，随着实时时延与标准时延之间的比值的增大而减小；成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；表更新模块还用于将时延奖励值和成本奖励值进行叠加，得到叠加奖励值；将叠加奖励值的倒数，作为当前时刻的数据包对应的即时奖励值。

在其中一个实施例中，表更新模块还用于确定在当前时刻的数据包之前传输的多个历史时刻的数据包；确定每个历史时刻的数据包各自所属的业务类型；根据当前业务类型和每个历史时刻的数据包各自所属的业务类型，确定待传输的下一时刻的数据包所属的业务类型，得到下一业务类型。

在其中一个实施例中，表更新模块还用于确定状态路径奖励表中、与下一时刻传输网络在下一业务类型下的网络状态相对应的第二目标数据行；确定第二目标数据行中的第二最高奖励值；从状态路径奖励表中查找当前状态路径组所对应的奖励值；当前状态路径组，为包括传输网络在当前业务类型下当前时刻的网络状态，和当前时刻的传输路径传输数据包的组合；根据第二最高奖励值、与当前时刻的数据包对应的即时奖励值和当前状态路径组所对应的奖励值，确定更新奖励值；将更新奖励值替换状态路径奖励表中当前状态路径组所对应的奖励值。

上述数据包传输装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据包传输数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据包传输方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种数据包传输方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15至图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据包传输方法，其特征在于，所述方法包括：

根据所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述状态路径奖励表记载的所述奖励值，从所述传输网络确定当前时刻的传输路径，并通过所述当前时刻的传输路径传输所述当前时刻的数据包；

根据所述当前时刻的传输路径适配的实时时延和所述当前业务类型所对应的标准时延，并通过预设的时延奖励函数，确定时延奖励值；

基于预设的抗丢包策略，确定将所述当前时刻的传输路径适配的实时丢包率调整至所述当前业务类型所对应的标准丢包率时采用的数据冗余率；

根据所述数据冗余率和所述当前时刻的传输路径的带宽成本信息，并通过预设的成本奖励函数，确定成本奖励值；

根据所述时延奖励值和所述成本奖励值，确定与所述当前时刻的数据包对应的即时奖励值；

根据与所述当前时刻的数据包对应的即时奖励值和下一时刻所述传输网络在下一业务类型下的网络状态，更新所述状态路径奖励表。

2.根据权利要求1所述的方法，其特征在于，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；在所述获取传输网络在当前时刻适配的测定传输质量信息之前，所述方法还包括：

在当前时刻所在的当前测定周期的起始时刻，从所述数据包传输网络的发送端向所述传输网络的接收端发送多个测试数据包；发送的所述测试数据包，用于触发所述接收端向所述发送端返回响应数据包；

根据发送的测试数据包的数量和接收到的响应数据包的数量，确定与所述当前测定周期相对应的测定丢包率；

确定所述发送端接收到各所述响应数据包的接收时间，并根据各所述测试数据包的发送时间和各所述响应数据包的接收时间，确定与所述当前测定周期相对应的测定时延。

3.根据权利要求1所述的方法，其特征在于，所述根据所述当前时刻适配的测定传输质量信息和所述当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态，包括：

确定所述当前时刻适配的测定传输质量信息与所述当前业务类型所对应的标准传输质量信息之间的信息差异；

根据所述信息差异，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态。

4.根据权利要求3所述的方法，其特征在于，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；所述当前业务类型所对应的标准传输质量信息，包括所述当前业务类型所对应的标准丢包率和标准时延；

所述确定所述当前时刻适配的测定传输质量信息与所述当前业务类型所对应的标准传输质量信息之间的信息差异，包括：

确定所述当前测定周期所对应的测定丢包率与所述当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；

确定所述当前测定周期所对应的测定时延与所述当前业务类型所对应的标准时延之间的差异，得到时延差异；

根据所述丢包率差异和所述时延差异，确定信息差异。

5.根据权利要求4所述的方法，其特征在于，所述确定所述当前测定周期所对应的测定丢包率与所述当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异，包括：

将所述当前测定周期所对应的测定丢包率减去所述当前业务类型所对应的标准丢包率，得到初始丢包率差值；

在所述初始丢包率差值大于或等于零的情况下，将所述初始丢包率差值作为丢包率差异；

在所述初始丢包率差值小于零的情况下，将零作为丢包率差异；

所述确定所述当前测定周期所对应的测定时延与所述当前业务类型所对应的标准时延之间的差异，得到时延差异，包括：

将所述当前测定周期所对应的测定时延减去所述当前业务类型所对应的标准时延，得到初始时延差值；

在所述初始时延差值大于或等于零的情况下，将所述初始时延差值作为时延差异；

在所述初始时延差值小于零的情况下，将零作为时延差异。

6.根据权利要求4所述的方法，其特征在于，所述根据所述丢包率差异和所述时延差异，确定信息差异，包括：

根据所述当前业务类型确定与所述丢包率差异相对应的第一权重系数和与所述时延差异相对应的第二权重系数；

将所述第一权重系数与所述丢包率差异相乘，得到加权丢包率差异；

将所述第二权重系数与所述时延差异相乘，得到加权时延差异；

将所述加权丢包率差异与所述加权时延差异进行叠加，得到信息差异。

7.根据权利要求3所述的方法，其特征在于，所述根据所述信息差异，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态，包括：

确定所述信息差异所处的数值区间；

根据数值区间与网络状态之间的对应关系，确定与所述信息差异所处的数值区间相对应的网络状态，并将确定的网络状态作为所述传输网络在所述当前业务类型下当前时刻的网络状态。

8.根据权利要求1所述的方法，其特征在于，所述根据所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述状态路径奖励表记载的所述奖励值，从所述传输网络确定当前时刻的传输路径，包括：

确定所述状态路径奖励表中、与所述传输网络在所述当前业务类型下当前时刻的网络状态相对应的第一目标数据行；

确定所述第一目标数据行中的第一最高奖励值，并确定所述状态路径奖励表中所述第一最高奖励值所处的数据列；

将与所述第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取随机概率模型；所述随机概率模型，为基于预设概率确定是否通过随机的传输路径传输数据包的模型，且所述预设概率随着传输的数据包的数量的增多而减小；

当所述随机概率模型指示通过随机的传输路径传输所述当前时刻的数据包时，通过随机的传输路径传输所述当前时刻的数据包。

10.根据权利要求1所述的方法，其特征在于，与所述当前时刻的数据包对应的即时奖励值，是在所述当前时刻的网络状态下，采用所述当前时刻的传输路径，实际传输所述当前时刻的数据包时的奖励值；所述根据与所述当前时刻的数据包对应的即时奖励值和下一时刻所述传输网络在下一业务类型下的网络状态，更新所述状态路径奖励表，包括：

预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；

从所述多种网络状态中，筛选出下一时刻所述传输网络在所述下一业务类型下的网络状态；

根据与所述当前时刻的数据包对应的即时奖励值和所述下一时刻所述传输网络在所述下一业务类型下的网络状态，更新所述状态路径奖励表；更新后的状态路径奖励表，用于确定传输所述下一时刻的数据包的传输路径。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述当前时刻的传输路径适配的实时传输质量信息；所述当前时刻的传输路径适配的实时传输质量信息，包括所述当前时刻的传输路径适配的实时时延和实时丢包率；

确定所述当前时刻的传输路径的带宽成本信息。

12.根据权利要求1所述的方法，其特征在于，所述时延奖励函数输出的数值，随着实时时延与标准时延之间的比值的增大而减小；所述成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；

所述根据所述时延奖励值和所述成本奖励值，确定与所述当前时刻的数据包对应的即时奖励值，包括：

将所述时延奖励值和所述成本奖励值进行叠加，得到叠加奖励值；

将所述叠加奖励值的倒数，作为所述当前时刻的数据包对应的即时奖励值。

13.根据权利要求10所述的方法，其特征在于，所述预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型，包括：

确定在所述当前时刻的数据包之前传输的多个历史时刻的数据包；

确定每个所述历史时刻的数据包各自所属的业务类型；

根据所述当前业务类型和每个所述历史时刻的数据包各自所属的业务类型，确定待传输的下一时刻的数据包所属的业务类型，得到下一业务类型。

14.根据权利要求10所述的方法，其特征在于，所述根据与所述当前时刻的数据包对应的即时奖励值和所述下一时刻所述传输网络在所述下一业务类型下的网络状态，更新所述状态路径奖励表，包括：

确定所述状态路径奖励表中、与所述下一时刻所述传输网络在所述下一业务类型下的网络状态相对应的第二目标数据行；

确定所述第二目标数据行中的第二最高奖励值；

从所述状态路径奖励表中查找当前状态路径组所对应的奖励值；所述当前状态路径组，为包括所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述当前时刻的传输路径传输数据包的组合；

根据所述第二最高奖励值、与所述当前时刻的数据包对应的即时奖励值和所述当前状态路径组所对应的奖励值，确定更新奖励值；

将所述更新奖励值替换所述状态路径奖励表中所述当前状态路径组所对应的奖励值。

15.一种数据包传输装置，其特征在于，所述装置包括：

传输质量信息确定模块，用于当获得待传输的当前时刻的数据包，获取传输网络在当前时刻适配的测定传输质量信息，所述测定传输质量信息是对所述传输网络检测获得的；根据预设的传输质量信息与业务类型之间的对应关系，确定与所述当前时刻的数据包所属的当前业务类型相对应的标准传输质量信息；

网络状态确定模块，用于根据所述当前时刻适配的测定传输质量信息和所述当前业务类型相对应的标准传输质量信息，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态；

路径选择模块，用于获取状态路径奖励表；所述状态路径奖励表中，记载有在所述多种网络状态中的任一网络状态下，采用所述传输网络中任一条传输路径传输数据包时，匹配的奖励值；根据所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述状态路径奖励表记载的所述奖励值，从所述传输网络确定当前时刻的传输路径，并通过所述当前时刻的传输路径传输所述当前时刻的数据包；

表更新模块，用于根据所述当前时刻的传输路径适配的实时时延和所述当前业务类型所对应的标准时延，并通过预设的时延奖励函数，确定时延奖励值；基于预设的抗丢包策略，确定将所述当前时刻的传输路径适配的实时丢包率调整至所述当前业务类型所对应的标准丢包率时采用的数据冗余率；根据所述数据冗余率和所述当前时刻的传输路径的带宽成本信息，并通过预设的成本奖励函数，确定成本奖励值；根据所述时延奖励值和所述成本奖励值，确定与所述当前时刻的数据包对应的即时奖励值；根据与所述当前时刻的数据包对应的即时奖励值和下一时刻所述传输网络在下一业务类型下的网络状态，更新所述状态路径奖励表。

16.根据权利要求15所述的装置，其特征在于，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；所述数据包传输装置还包括测定模块，用于在当前时刻所在的当前测定周期的起始时刻，从所述数据包传输网络的发送端向所述传输网络的接收端发送多个测试数据包；发送的所述测试数据包，用于触发所述接收端向所述发送端返回响应数据包；根据发送的测试数据包的数量和接收到的响应数据包的数量，确定与所述当前测定周期相对应的测定丢包率；确定所述发送端接收到各所述响应数据包的接收时间，并根据各所述测试数据包的发送时间和各所述响应数据包的接收时间，确定与所述当前测定周期相对应的测定时延。

17.根据权利要求15所述的装置，其特征在于，所述网络状态确定模块还用于确定所述当前时刻适配的测定传输质量信息与所述当前业务类型所对应的标准传输质量信息之间的信息差异；根据所述信息差异，从多种网络状态中，筛选出所述传输网络在所述当前业务类型下当前时刻的网络状态。

18.根据权利要求17所述的装置，其特征在于，所述当前时刻适配的测定传输质量信息，包括与当前时刻所在的当前测定周期相对应的测定时延和测定丢包率；所述当前业务类型所对应的标准传输质量信息，包括所述当前业务类型所对应的标准丢包率和标准时延；

所述网络状态确定模块还用于确定所述当前测定周期所对应的测定丢包率与所述当前业务类型所对应的标准丢包率之间的差异，得到丢包率差异；确定所述当前测定周期所对应的测定时延与所述当前业务类型所对应的标准时延之间的差异，得到时延差异；根据所述丢包率差异和所述时延差异，确定信息差异。

19.根据权利要求18所述的装置，其特征在于，所述网络状态确定模块还用于将所述当前测定周期所对应的测定丢包率减去所述当前业务类型所对应的标准丢包率，得到初始丢包率差值；在所述初始丢包率差值大于或等于零的情况下，将所述初始丢包率差值作为丢包率差异；在所述初始丢包率差值小于零的情况下，将零作为丢包率差异；将所述当前测定周期所对应的测定时延减去所述当前业务类型所对应的标准时延，得到初始时延差值；在所述初始时延差值大于或等于零的情况下，将所述初始时延差值作为时延差异；在所述初始时延差值小于零的情况下，将零作为时延差异。

20.根据权利要求18所述的装置，其特征在于，所述网络状态确定模块还用于根据所述当前业务类型确定与所述丢包率差异相对应的第一权重系数和与所述时延差异相对应的第二权重系数；将所述第一权重系数与所述丢包率差异相乘，得到加权丢包率差异；将所述第二权重系数与所述时延差异相乘，得到加权时延差异；将所述加权丢包率差异与所述加权时延差异进行叠加，得到信息差异。

21.根据权利要求17所述的装置，其特征在于，所述网络状态确定模块还用于确定所述信息差异所处的数值区间；根据数值区间与网络状态之间的对应关系，确定与所述信息差异所处的数值区间相对应的网络状态，并将确定的网络状态作为所述传输网络在所述当前业务类型下当前时刻的网络状态。

22.根据权利要求15所述的装置，其特征在于，所述路径选择模块还用于确定所述状态路径奖励表中、与所述传输网络在所述当前业务类型下当前时刻的网络状态相对应的第一目标数据行；确定所述第一目标数据行中的第一最高奖励值，并确定所述状态路径奖励表中所述第一最高奖励值所处的数据列；将与所述第一最高奖励值所处的数据列相对应的传输路径，作为当前时刻的传输路径。

23.根据权利要求15所述的装置，其特征在于，所述数据包传输装置还包括随机模块，用于获取随机概率模型；所述随机概率模型，为基于预设概率确定是否通过随机的传输路径传输数据包的模型，且所述预设概率随着传输的数据包的数量的增多而减小；当所述随机概率模型指示通过随机的传输路径传输所述当前时刻的数据包时，通过随机的传输路径传输所述当前时刻的数据包。

24.根据权利要求15所述的装置，其特征在于，与所述当前时刻的数据包对应的即时奖励值，是在所述当前时刻的网络状态下，采用所述当前时刻的传输路径，实际传输所述当前时刻的数据包时的奖励值；所述表更新模块，还用于预测待传输的下一时刻的数据包所属的业务类型，得到下一业务类型；从所述多种网络状态中，筛选出下一时刻所述传输网络在所述下一业务类型下的网络状态；根据与所述当前时刻的数据包对应的即时奖励值和所述下一时刻所述传输网络在所述下一业务类型下的网络状态，更新所述状态路径奖励表；更新后的状态路径奖励表，用于确定传输所述下一时刻的数据包的传输路径。

25.根据权利要求15所述的装置，其特征在于，所述表更新模块还用于确定所述当前时刻的传输路径适配的实时传输质量信息；所述当前时刻的传输路径适配的实时传输质量信息，包括所述当前时刻的传输路径适配的实时时延和实时丢包率；确定所述当前时刻的传输路径的带宽成本信息。

26.根据权利要求15所述的装置，其特征在于，所述时延奖励函数输出的数值，随着实时时延与标准时延之间的比值的增大而减小；所述成本奖励函数输出的数值，随着数据冗余率和带宽成本的增大而增大；

所述表更新模块还用于将所述时延奖励值和所述成本奖励值进行叠加，得到叠加奖励值；将所述叠加奖励值的倒数，作为所述当前时刻的数据包对应的即时奖励值。

27.根据权利要求24所述的装置，其特征在于，所述表更新模块还用于确定在所述当前时刻的数据包之前传输的多个历史时刻的数据包；确定每个所述历史时刻的数据包各自所属的业务类型；根据所述当前业务类型和每个所述历史时刻的数据包各自所属的业务类型，确定待传输的下一时刻的数据包所属的业务类型，得到下一业务类型。

28.根据权利要求24所述的装置，其特征在于，所述表更新模块还用于确定所述状态路径奖励表中、与所述下一时刻所述传输网络在所述下一业务类型下的网络状态相对应的第二目标数据行；确定所述第二目标数据行中的第二最高奖励值；从所述状态路径奖励表中查找当前状态路径组所对应的奖励值；所述当前状态路径组，为包括所述传输网络在所述当前业务类型下当前时刻的网络状态，和所述当前时刻的传输路径传输数据包的组合；根据所述第二最高奖励值、与所述当前时刻的数据包对应的即时奖励值和所述当前状态路径组所对应的奖励值，确定更新奖励值；将所述更新奖励值替换所述状态路径奖励表中所述当前状态路径组所对应的奖励值。

29.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

30.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。