CN113966596A

CN113966596A - 用于数据流量路由的方法和设备

Info

Publication number: CN113966596A
Application number: CN202080042967.XA
Authority: CN
Inventors: 卡洛塔·维拉桑特马科斯; 马克·莫拉
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2019-06-11
Filing date: 2020-04-28
Publication date: 2022-01-21
Anticipated expiration: 2040-04-28
Also published as: US20220240157A1; CN113966596B; EP3984180A1; WO2020249299A1

Abstract

一种用于控制通信网络中的数据流量的数据流量路由方法和设备，该方法包括：在第一代理处从用户平面功能接收通信网络状态信息；由第一代理使用当前路由模型计算数据流量路由指令；由第一代理：将数据流量路由指令发送给用户平面功能；以及将经验信息发送给第二代理；在第二代理处存储经验信息；在第二代理处确定所存储的经验信息的实例的数量是否超过预定阈值；以及如果确定所存储的经验信息的实例的数量超过预定阈值：使用所存储的经验信息的实例来训练神经网络；并使用神经网络训练的结果更新当前路由模型。

Description

用于数据流量路由的方法和设备

技术领域

本公开的实施例涉及用于数据流量路由的方法和设备，尤其是用于控制通信网络中的数据流量的方法和设备。

背景技术

在历史上，通信网络的设计和控制都是旨在最大限度地提高性能标准。因此，网络的主要目标可能与可用带宽的最大化、时滞或延迟的最小化、信号丢失或重传的最小化等有关。除了结合网络整体地将上述目标考虑在内之外，这些目标还可以从单独数据包的角度加以考虑。随着网络复杂性不断地提高，在每个数据包的基础上最大限度地提高性能标准可能变得越来越具有挑战性。

新的第三代合作伙伴计划(3GPP)第五代(5G)架构的关键概念之一是接入网络(AN)的整合。5G系统架构定义了具有通用接口AN-CN的融合核心网络(CN)。该通用接口可以用于集成3GPP网络(如5G网络，或前代的网络)和非3GPP网络(如Wi-Fi或固定接入网络)。网络的集成形成了多接入架构，这可以实现同时使用若干接入网络的新型数据传输场景。

在使用多接入架构的情况下，可以定义新的用例，这些用例可以根据多个接入网络的使用情况进行分类。用例的示例包括：i)聚合用例，所述聚合用例以最终用户仅感知到一种具备底层接入的聚合特征(聚合带宽、延迟等)的接入的方式来聚合接入网络；ii)弹性用例，所述弹性用例当时仅使用一个接入网络，并将其余的接入网络保留来备用，目的是提供冗余。弹性用例的示例包括使用移动电话操作的数字助理，所述数字助理在可用时可能默认使用Wi-Fi接入网络，但也可能出于备份的目的通过移动接入网络开启会话。

截至2019年5月29日，“宽带论坛”的“混合接入宽带网络架构”(TR-348，第1期，2016年7月，可从https://www.broadband-forum.org/download/TR-348.pdf获取)包含对包括固定及无线网络在内的多接入架构的考虑，并论述了诸如提高接入可靠性和更高的吞吐量等主题。

在网络数据流量分布在多个路径上(要么通过单个网络，要么通过多个网络)的情况下，数据流量可以根据多种因素的组合分布在不同的路径上，这些因素可以包括网络提供商策略、数据包流量类别和每个可用接入路径的性能。在将网络提供商策略和流量类别考虑在内的情况下，这样做通常很简单，并且可以通过实施通用的配置或与最终用户相关联的配置来实现。然而，确定接入路径的性能以选择最佳的数据包发送路径可能会更复杂。

现有的基于性能来选择路径的系统往往依赖于数据包调度算法。多路径传输控制协议(MPTCP)可以使用平滑化的往返时间(SRTT)和拥塞窗口作为表征接入路径性能的参数。SRTT是从源向目的地发送信号以及从目的地向源发送确认所花费的时间(往返时间或RTT)，该时间在多个读数的基础上取平均，以提供“平滑化”估计值。拥塞窗口本质上是对在任何一个时刻都可以经由给定连接等待传输的字节数的限制；如果连接的拥塞窗口已满，则必须选择拥塞窗口未满的替代连接。在示例实施方式中，如果该路径的拥塞窗口未满，则MPTCP的内核实现可以在调度数据包时选择SRTT最低的路径。

如果可以完整地了解网络参数，则在理论上有可能构建提供最佳性能的数据包调度程序。然而，在实际应用中，网络接入的延迟会随着时间的推移发生变化，尤其是在移动网络中，带宽也会根据并发连接数而发生变化。TCP拥塞控制和RTT经典估计器(基于Jacobson/Karels算法)的复杂程度通常不足以将此类变化考虑在内，尤其是在可以实施多接入架构的情况下。因此，需要提供改进的数据流量路由控制，其可以更准确地对网络配置进行建模以将延迟和带宽可用性的变化考虑在内，进而实现更有效的数据流量路由。

诸如通过网络的数据流量路由之类的复杂问题可以使用神经网络进行建模。机器学习算法(诸如在神经网络中使用的算法)的运行方式是基于输入来构建模型并使用该模型作出预测或决策，而不是仅遵循明确编程的指令。可以使用深度神经网络来解决复杂的情况，即在输入层与输出层之间具有多层(隐藏层)神经元的神经网络。深度强化学习(DRL)是一种采用强化学习元素的概念，其中，机器学习算法通过尝试利用反复试验使一系列动作的奖励的最大化来学习，而深度学习则使用深度神经网络。可以与深度神经网络结合使用的强化学习技术的一个示例是Q-Learning(质量学习)。Q-Learning的基础在于：从初始状态开始，找到使在连续步骤中获得的累积奖励最大化的策略。尽管深度强化学习可能特别适用于对通过网络的数据流量路由进行建模，但仍可以额外地或替代地采用其他机器学习技术，比如基于随机优化的技术。

图1是已知深度学习架构的概念图。在图1所示的架构中，深度神经网络101将数据传输到它正被用于建模/控制的环境103并从环境103接收数据。对于时间t，深度神经网络接收关于环境s_t的当前状态的信息。然后，深度神经网络对信息s_t进行处理，并生成要采取的动作a_t。然后这个动作被传送回环境并生效。该动作的结果是环境状态随时间发生变化，因此在时间t+1，环境状态为s_t+1。该动作还会产生(数字)奖励r_t+1，这是对动作a_t的影响的量度。然后，将环境s_t+1的变化状态与奖励r_t+1一起从环境传输到深度神经网络。图1示出了奖励r_t与状态s_t一起发送到神经网络；奖励r_t是对状态s_t-1执行的动作a_t-1所产生的奖励。当深度神经网络收到状态信息s_t+1时，该信息会结合奖励r_t+1进行处理，以确定下一动作a_t+1，依次类推。神经网络从许多可用动作中选择动作，目的是使累积奖励最大化。在数据流量路由系统的上下文中，环境的状态可以是网络的当前配置(拥塞级别、可用连接、要发送的数据、存在多个网络的可用接入网络等)。动作可以是确定数据包应选用来通过网络(其可以是整合网络)的路径，而奖励可以是数据包通过网络的影响的度量，这可以考虑对特定数据包(如RTT)以及整个网络(累积吞吐量、延迟、数据包丢失等)的影响。更高的奖励值可以代表更有利的影响(诸如更低的RTT、更高的吞吐量等)。

尽管DRL可以用于通过网络对数据流量路由进行准确建模，但该技术本质上并不适合在数据包路由中直接实施。DRL通常适用于解决以下问题：可以为神经网络的训练建模和模拟，以及支持厘秒级的响应时间。相比之下，对于典型的数据流量管理系统，没有一个很好的模型来模拟真实的网络环境，因而必须研究真实的网络环境响应。此外，数据包调度是一项必须在微秒内完成的任务，以避免在数据传输中出现不可接受的延迟。因此，现有的DRL系统将难以用准确的数据进行训练，并且提供的响应速度太慢，无法用于数据流量管理。

发明内容

本公开的目的是促进通信网络中的数据流量控制，从而可以更有效地对数据流量进行路由。

本公开的实施例旨在提供缓解所明确的一些或全部问题的方法和数据流量路由控制设备。

本公开的一方面提供了一种用于控制通信网络中的数据流量的数据流量路由方法，该方法包括：在第一代理处从用户平面功能接收通信网络状态信息；由第一代理使用当前路由模型计算数据流量路由指令；由第一代理：将数据流量路由指令发送给用户平面功能；以及将经验信息发送给第二代理；在第二代理处存储经验信息；在第二代理处确定所存储的经验信息的实例的数量是否超过预定阈值；以及如果确定所存储的经验信息的实例的数量超过预定阈值：使用所存储的经验信息的实例来训练神经网络；并使用神经网络训练的结果更新当前路由模型。这样，可以及时提供针对数据流量的准确路由指令。

通信网络可以包括由多个网络形成的整合网络，该多个网络包括无线网络和另外的网络。实施例的各方面在为复杂和可变的网络(例如，由多个接入网络的整合而产生的那些网络)提供路由指令时可能是特别有用的。

第二代理可以将用于更新当前路由模型的更新信息发送给第一代理，第一代理和用户平面功能可以位于第一网络装置中，第二代理和神经网络可以位于第二网络装置中。将第一代理与UPF定位可以有助于避免第一代理与UPF之间的传输延迟，而在另一设备中定位第二代理和神经网络可以允许使用定制硬件来支持神经网络。

可以使用神经网络训练的结果来更新当前路由模型的权重和偏置，从而保持当前路由模型的准确性以及使用路由模型而提供的路由指令的准确性。

经验信息可以包括以下项至少之一：实施数据流量路由指令之前的通信网络的状态；数据流量路由指令；实施数据流量路由指令之后的通信网络的状态；以及实施数据流量路由指令之后的通信网络的数据包路由性能。通过使用上述值中的一些或全部值，可以训练神经网络以维持通信网络的准确模型，从而允许使用神经网络来提供有效且准确的路由指令(经由路由模型)。

本公开的另一方面提供了一种用于控制通信网络中的数据流量的数据流量路由控制设备，该设备包括处理电路以及存储指令的非暂时性机器可读介质，该设备被配置为：使用第一代理从用户平面功能接收通信网络状态信息；使用第一代理通过利用当前路由模型计算数据流量路由指令；使用第一代理发送：数据流量路由指令到用户平面功能；并使用第一代理发送经验信息；使用第二代理接收和存储经验信息；以及使用第二代理确定所存储的经验信息的实例的数量是否超过预定阈值；其中，如果第二代理确定所存储的经验信息的实例的数量超过预定阈值，则该设备还被配置为：使用所存储的经验信息的实例来训练神经网络；以及使用第二代理将更新信息发送给第一代理，以使用神经网络训练的结果更新当前路由模型。这样，可以及时提供针对数据流量的准确路由指令。

其他方面提供了包括用于执行上述方法的指令的设备和计算机可读介质，其可以提供与上述方法等效的益处。本发明的范围由权利要求限定。

附图说明

为了更好地理解本公开并示出可以如何实施本公开，现在将仅通过示例的方式参考附图，其中：

图1是已知深度学习架构的概念图；

图2是根据实施例的一方面的数据流量路由控制配置的概念图；

图3A是根据实施例的一方面的由第一代理执行的方法的流程图；

图3B是根据实施例的一方面的由第二代理执行的方法的流程图；

图4A是数据流量路由控制设备的一个示例的示意图；

图4B是数据流量路由控制设备的另一示例的示意图；

具体实施方式

出于解释而非限制目的，在下文中阐述了具体细节，例如特定实施例。本领域技术人员将理解的是，除了这些具体细节之外，还可以采用其他实施例。在某些情况下，省略了对公知的方法、节点、接口、电路和设备的详细描述，以免不必要的细节让描述变得混淆不清。本领域技术人员将理解，所描述的功能可以在一个或多个节点中使用硬件电路(例如，经互连以执行特定功能的模拟和/或离散逻辑门、ASIC、PLA等)和/或使用软件程序和数据与一个或多个数字微处理器或通用计算机相结合地实现，基于此类程序的执行，该一个或多个数字微处理器或通用计算机专门适用于执行本文公开的处理。使用空中接口进行通信的节点也具有合适的无线电通信电路。此外，该技术还可以被认为完全体现在任何形式的计算机可读存储器内，例如固态存储器、磁盘或光盘，其中包含一组适当的计算机指令，这些计算机指令将使处理器执行本文描述的技术。

硬件实现可以包括或涵盖(但不限于)数字信号处理器(DSP)硬件、精简指令集处理器、硬件(例如，数字或模拟)电路(包括但不限于专用集成电路(ASIC)和/或现场可编程门阵列(FPGA))以及(在适当的情况下)能够执行此类功能的状态机。

在计算机实现方面，计算机通常被理解为包括一个或多个处理器、一个或多个处理模块或一个或多个控制器，并且术语计算机、处理器、处理模块和控制器可以互换地使用。当由计算机、处理器或控制器提供时，功能可以由单个专用计算机或处理器或控制器、由单个共享计算机或处理器或控制器或者由多个单独的计算机或处理器或控制器(它们中的一些可以被共享或分发)提供。此外，术语“处理器”或“控制器”还指代能够执行这样的功能和/或执行软件的其他硬件，例如上面列举的示例硬件。

图2是根据本公开的实施例的方面的数据流量路由控制配置的概念图。根据本公开的实施例的方面的方法的流程图在图3A和图3B中示出。这些方法可以由任何合适的设备执行，例如，图4A中示意性示出的数据流量路由控制设备和图4B中示意性示出的数据流量路由控制设备。

在图2概念性地示出的实施例中，本公开的系统包括可以被称为双代理的两个代理。第一代理201占据图1概念图的神经网络的位置；第一代理可以接收通信网络状态信息；该通信网络状态信息可以包括环境的当前状态(s_t)和由先前操作(a_t-1)产生的奖励(r_t)。然后，第一代理可以生成要采取的动作(a_t)，即，第一代理可以生成数据流量路由指令。第一代理也可以称为在线代理；该代理直接负责实时路由决策。代理可以是在现有硬件上运行的软件模块、特定的硬件模块(例如控制器模块)、软件与硬件的组合等。为了简单起见，图2示出了与环境203组合的UPF；这是因为该图的重点是代理的布置。环境的状态可以是网络的当前配置(拥塞级别、可用连接、要发送的数据、存在多个网络的可用接入网络等)。动作可以是确定数据包应选用来通过网络(其可以是整合网络)的路径，而奖励可以是数据包通过网络的影响的度量，这可以考虑对特定数据包(如RTT)以及整个网络(累积吞吐量、延迟、数据包丢失等)的影响。更高的奖励值可以代表更有利的影响(诸如更低的RTT、更高的吞吐量等)。

与图1中概念性地示出的已知配置不同，第一代理不包括机器学习系统，例如深度神经网络。相反，第一代理包括当前路由模型或连接到当前路由模型，该路由模型是神经网络的缓存静态模型。在当前路由模型的上下文中，术语“静态”意味着当前路由模型不会因为从新信息中学习而不断发生变化(如深度神经网络等机器学习系统可能就是这种情况)。缓存路由模型本身不是神经网络或其他机器学习系统，而是基于机器学习系统的结果而被修改，如下所述。

在图2所示的实施例中，第一代理连接到第二代理205。第二代理不负责实时路由决策，并且也可以称为离线代理。第二代理可以连接到神经网络或包括神经网络；通常，使用深度神经网络来模拟网络环境的复杂性，但不包含大量隐藏层的标准神经网络或者其他机器智能系统可能适用于某些网络环境。在图2所示的实施例中，第二代理连接到深度神经网络207。可以使用与环境、动作等有关的信息来训练机器智能(例如深度神经网络)，所述信息由第一代理传递到第二代理，然后可以使用神经网络训练的结果来更新当前路由模型。下面参考图3中的流程图更详细地讨论该过程如何在实施例的一个方面中发挥作用的示例。图3的流程图中所示的方法可以由任何合适的设备执行，例如图4A中示意性示出的数据流量路由控制设备和图4B中示意性示出的数据流量路由控制设备。

图3A示出了由第一(在线)代理执行的方法。在步骤S301中，第一代理接收一个或多个数据包(即数据流量)的路由指令请求。可以从用户平面功能(UPF)接收该路由指令请求；UPF可以负责通过通信网络路由数据流量。在一些实施例中，第一代理可以包含在与UPF相同的物理设备(例如基站)内；这样做可以减少包路由的延迟，否则会因为向远离UPF的第一代理发送请求以及从其接收指令而导致这样的延迟。在实施例的其他方面，特别是在第一代理使用专用硬件的情况下，第一代理可以与UPF分开放置。路由指令请求可以由图4A所示的设备40A的处理器41接收，或者可以由图4B所示的设备40B的第一代理44的接收器45接收，其中处理器41执行存储在存储器42中的指令。

路由指令请求可以包含在来自UPF的通信网络状态信息中或伴随有该通信网络状态信息，或者该通信网络状态信息可以与路由指令请求分开地获得(参见步骤S302)。通信网络状态信息还可以包括诸如网络的当前状态和/或由先前动作产生的奖励之类的信息。网络的当前状态可以包括节点之间哪些连接是活动的、拥塞级别、要传输的数据等。还可以包括诸如连接的可靠性之类的其他信息，这些信息在整合网络(其中组成网络的相应可靠性可以显著不同)中可能特别相关。在适用的情况下，还可以提供备用网络的可用性信息。整合网络可能是特别复杂的且难以有效地使数据流量路由通过，因此特别适合与实施例的方面一起使用。整合网络可以包括一个或多个无线网络(它们可以使用相同或不同的技术，诸如5G、4G、Bluetooth^TM等)，并且可以附加地或替代地包括其他网络，例如WiFi网络、固定接入网络等。替代地，通信网络可以是非整合网络，例如无线网络、WiFi网络、固定接入网络等。

每次在UPF处接收到用于路由的N个数据包时(其中，N是正整数)，第一代理可以接收到路由指令请求和/或通信网络状态信息。因此，在受限场景N＝1中，可以针对每个数据包将路由和/或通信网络状态信息发送给第一代理。替代地，可以将N设置为更高的值，以便为多个数据包的批次获得路由指令。在实施例的一些方面，可以以比通信网络状态信息更高的频率发送请求。作为进一步的替代方式，针对在该周期期间在UPF处累积的任何数据包，可以周期性地发送请求和/或通信网络状态信息。

当第一代理已经接收到通信网络状态信息和路由指令请求时，第一代理随后可以使用此信息中的一些或全部信息来计算一个或多个数据包的数据流量路由指令，然后可以将这些指令发送到UPF(参见步骤S303)。数据流量路由指令可以具体涉及路由指令请求中的数据流量(即，一个或多个数据包)，或者可以是更广泛地适用的指令，诸如在预定时间段内或直至另行通知之前应遵循来用于路由的指令。可以使用当前路由模型来计算数据流量路由指令；如上所述，当前路由模型可以是基于DNN的静态模型，或者可以是从机器智能的训练结果中导出的另一种形式的模型。数据流量路由指令可以由图4A所示的设备40A的执行存储在存储器42中的指令的处理器41计算出并使用接口43发送，或者可以由计算器46计算出并由图4B所示的设备40B的第一代理44的发送器47发送。

除了计算数据流量路由指令并将指令发送给UPF之外，第一代理还可以被配置为向第二离线代理发送信息(如步骤S304所示)。第二代理可以与第一代理和/或UPF位于相同的物理设备中，此举可以帮助减少第一代理与第二代理之间的传输延迟。在实施例的一些方面，第二代理可以位于与第一代理(和/或UPF)不同的物理设备中。可以包括一个或多个服务器的核心网络节点可以包括第二代理，并且可以附加地或替代地包括机器智能。由于机器智能(例如深度神经网络)可能需要大量计算资源(例如处理器时间和存储容量)才能运行，因此，有效的做法可以是：将第二代理和机器智能方便地放置在合适计算资源可用的位置(例如在核心网络节点中)，而第一代理和UPF可以位于基站中，以使UPF与第一代理之间的通信延迟最小化。该信息可以由图4A所示的设备40A的执行存储在存储器42中的指令的处理器41处理，或者可以由发送器47发送并由第二代理48的接收器49接收并存储在图4B所示的设备40B的存储器50中。

由第一代理发送给第二代理的信息可以是与特定时间t有关的经验信息e_t。在发送经验信息e_t的情况下，经验信息的每个实例可以包括以下中的一项或多项：实施数据流量路由指令之前的通信网络的状态s_t、数据流量路由指令a_t、实施数据流量路由指令之后的通信网络的状态s_t+1以及实施数据流量路由指令之后的通信网络的数据包路由性能r_t+1。经验信息e_t可以在第一代理每次提供路由指令时由第一代理发送给第二代理，或者经验信息的实例(例如，e_t、e_t+1…e_t+n)可以存储在第一代理处并批量发送给第二代理。在实施例的方面中，可以将经验信息作为元素的有限有序列表或元组发送。

图3B示出了由第二(离线)代理执行的方法。在实施例的方面中，第二代理可以存储从第一代理接收的经验信息(参见步骤S311)。第二代理可以包括用于存储经验信息的存储器，或者第二代理可以链接到用于存储经验信息的存储器。由第二代理使用的存储器可以被称为重放存储器，因为存储在存储器中的经验信息可以被链接到第二代理的机器智能用来重放由当前路由模型做出的先前路由决策。

第二代理可以被配置为周期性地或当从第一代理接收到经验信息时确定所存储的经验的实例的数量N_e是否超过预定阈值X(参见步骤S312)。预定阈值X是可以在考虑通信网络和/或数据流量路由设备的特定要求的情况下设置的整数值(所存储经验的实例计数)。在适用于实施例的一些方面的极限情况下，预定阈值可以被设置为零(X＝0)，也就是说，每次存储经验的一个或多个实例时，可以超过阈值。然而，第二代理通常被配置为存储经验信息的多个实例，因此，将预定阈值设置为更高的值(例如，X＝99，使得当N_e＝100时超过了阈值)。如下文更详细地解释，将预定阈值设置得较低会导致更频繁的更新，因此系统会更加准确且响应更快，但是，更频繁更新的后果可能包括提供路由指令的延迟和/或第一代理与第二代理之间传输量的增大。通常，预定阈值可以被设置为使得所存储的经验的实例的数量足以用于机器智能的批量训练，因此预定阈值可以被称为批量大小参数。对所存储经验的实例的数量N_e是否超过预定阈值X的确定可以由图4A所示的设备40A的执行存储在存储器42中的指令的处理器41来执行，或者可以由图4B所示的设备40B的第二代理48的确定器51来执行。

当所存储的经验信息的实例的数量超过阈值时，第二代理可以使用所存储的经验信息来训练机器智能(如S313所示)。要遵循的确切训练程序取决于网络的具体被配置和数据流量路由设备；并且示例训练过程如下。下面的示例讨论了包含深度神经网络的系统的训练；如上所述，也可以使用其他机器智能。训练可以由图4A所示的设备40A的执行存储在存储器42中的指令的处理器41来执行，或者可以由图4B所示的设备40B的第二代理48的训练器52执行。

对于存储在重放存储器(经验存储器)中的经验信息的每个实例，第二代理可以将实施数据流量路由指令之前的通信网络的状态s_t传递到神经网络。神经网络对s_t进行处理并输出建议动作a_st，即建议路由指令。该建议路由指令可以与当前路由模型在该路由模型输入状态s_t时所生成的路由指令a_t一致，或者可以是不同的路由指令。建议路由指令a_st与路由指令a_t不同的可能性至少部分地取决于神经网络与当前路由模型之间的差异量(divergence)，并且也可以受其他因素的影响，例如路由指令的生成中的随机元素。

一旦建议路由指令a_st已经通过神经网络输出，则第二代理会将建议路由指令a_st替换为当前路由模型在该路由模型输入状态s_t时所生成的路由指令。随后，第二代理将实施数据流量路由指令之后的通信网络的状态s_t+1以及实施数据流量路由指令之后的通信网络的数据包路由性能r_t+1作为输入传递到神经网络，并且针对存储在重放存储器中的经验信息的每个实例重复该过程。一旦经验信息被用于训练，则可以将其从重复存储器中删除；当经验信息的所有N_e个实例都已被使用时，可以完成训练实例。

通过以这种方式重放当前路由模型所作出的路由决策，神经网络得以能够从当前路由模型的累积经验中进行学习，而不会延迟任何未决的路由决策。神经网络修改分配给形成网络的神经元的权重w(神经元的权重可以增大或减小神经元所发送的信号的强度)，并使偏置b朝向或远离某些连接；由此基于学到的经验改变神经网络。一旦神经网络处理了如上所述的存储在重放存储器中的经验信息的每个实例，则神经网络可能已经基于学到的经验进行了实质性修改。

累积学习可以被表示为网络的y个权重w_y和偏置b_y中的每一个的新值。之后，更新后的权重w_y和偏置b_y可以由第二代理获得(参见步骤S314)并由第二代理发送给第一代理(参见步骤S315)。然后，第一代理可以使用更新后的权重w_y和偏置b_y来更新路由模型(参见步骤S305)。本质上，对当前路由模型进行修改以使其与神经网络一致。更新后的路由模型(即，新的当前路由模型)随后可以被第一代理用于响应于后续的路由指令请求而向UPF提供数据流量路由指令。更新后的权重w_y和偏置b_y可以由图4示出的设备40A的执行存储在存储器42中的指令的处理器41计算出，或者可以由第二代理48的发送器53发送，由第一代理44的接收器45接收并且由更新器54用来更新图4B示出的设备40B的路由模型。

静态当前路由模型可以提供快速的路由决策，因而能够满足通信网络环境中针对路由的苛刻的延迟及数据速率要求(这与机器智能相比是不同的，机器智能可能太慢而无法提供实时路由指令)。然而，随着流量通过通信网络进行路由，并且随着通信网络内连接的建立或断开，静态当前路由模型对通信网络的表示将逐渐变得不太准确，因此路由决策也将逐渐变得低于最佳品质。基于通过经验信息的处理(如上所述)而受到教导的机器智能，对路由模型进行更新，从而使得路由模型可以继续准确地表示通信网络，并且由此可以继续为数据流量的有效路由提供准确的路由决策。

应当理解，以上概述的详细示例仅是示例。根据本文的实施例，可以以与在此描述的顺序不同的顺序来呈现步骤。此外，可以在方法中并入以上未明确列举的附加步骤。为了清楚起见，保护范围由权利要求书限定。

以下陈述提供了附加的信息：

陈述1.一种用于控制通信网络中的数据流量的数据流量路由方法，该方法包括：

在第一代理处从用户平面功能接收通信网络状态信息；

由第一代理使用当前路由模型计算数据流量路由指令；

由第一代理：将数据流量路由指令发送给用户平面功能；以及将经验信息发送给第二代理；

在第二代理处存储经验信息；

在第二代理处确定所存储的经验信息的实例的数量是否超过预定阈值；以及

如果确定所存储的经验信息的实例的数量超过预定阈值：使用所存储的经验信息的实例来训练神经网络；并使用神经网络训练的结果更新当前路由模型。

陈述2.根据陈述1所述的方法，其中通信网络包括无线网络。

陈述3.根据陈述2所述的方法，其中通信网络包括由多个网络形成的整合网络，该多个网络包括无线网络和另外的网络。

陈述4.根据陈述3所述的方法，其中另外的网络为Wi-Fi网络、固定接入网络或另外的无线网络。

陈述5.根据陈述3和4中任一项所述的方法，其中多个网络用于形成聚合网络，或者其中多个网络被划分为主要网络和一个或多个备份网络。

陈述6.根据前述任一陈述所述的方法，其中第二代理将用于更新当前路由模型的更新信息发送给第一代理。

陈述7.根据陈述6所述的方法，其中第一代理和用户平面功能位于第一网络装置中，并且其中第二代理和神经网络位于第二网络装置中。

陈述8.根据陈述7所述的方法，其中第一网络装置是基站，并且第二网络装置是核心网络节点。

陈述9.根据前述任一陈述所述的方法，其中每次在用户平面功能处已经接收到N个数据平面数据包时，在第一代理处接收通信网络状态信息，其中N为正整数。

陈述10.根据陈述9所述的方法，其中N＝1。

陈述11.根据陈述1至8中任一项所述的方法，其中在第一代理处以给定的周期性接收通信网络状态信息。

陈述12.根据前述任一陈述所述的方法，其中使用神经网络训练的结果来更新当前路由模型的权重和偏置。

陈述13.根据前述任一陈述所述的方法，其中神经网络是深度神经网络。

陈述14.根据前述任一陈述所述的方法，其中经验信息包括以下项中的至少一项：

实施数据流量路由指令之前的通信网络的状态；

数据流量路由指令；

实施数据流量路由指令之后的通信网络的状态；以及

实施数据流量路由指令之后的通信网络的数据包路由性能。

陈述15.根据前述任一陈述所述的方法，其中通信网络状态信息包括实施先前数据流量路由指令之后的通信网络的数据包路由性能。

陈述16.根据前述任一陈述所述的方法，还包括：由用户平面功能根据数据流量路由指令在通信网络中路由数据流量。

陈述17.一种用于控制通信网络中的数据流量的数据流量路由控制设备，该设备包括处理电路以及存储指令的非暂时性机器可读介质，该设备被配置为：

使用第一代理从用户平面功能接收通信网络状态信息；

使用第一代理通过利用当前路由模型计算数据流量路由指令；

使用第一代理将数据流量路由指令发送给用户平面功能；并且

使用第一代理发送经验信息；

使用第二代理接收和存储经验信息；以及

使用第二代理确定所存储的经验信息的实例的数量是否超过预定阈值；

其中，如果第二代理确定所存储的经验信息的实例的数量超过预定阈值，则该设备还被配置为：

使用所存储的经验信息的实例来训练神经网络；以及

使用第二代理将更新信息发送给第一代理，以使用神经网络训练的结果更新当前路由模型。

陈述18.根据陈述17所述的设备，其中通信网络包括无线网络。

陈述19.根据陈述18所述的设备，其中通信网络包括由多个网络形成的整合网络，该多个网络包括无线网络和另外的网络。

陈述20.根据陈述19所述的设备，其中另外的网络为Wi-Fi网络或固定接入网络。

陈述21.根据陈述19和20中任一项所述的设备，其中多个网络用于形成聚合网络，或者其中多个网络被划分为主要网络和一个或多个备份网络。

陈述22.根据陈述17至21中任一项所述的设备，其中设备还被配置为使用第二代理将用于更新当前路由模型的更新信息发送给第一代理。

陈述23.根据陈述22所述的设备，还包括第一网络装置和第二网络装置，其中第一代理和用户平面功能位于第一网络装置中，并且其中第二代理和神经网络位于第二网络装置中。

陈述24.根据陈述23所述的设备，其中第一网络装置是基站，并且第二网络装置是核心网络节点。

陈述25.根据陈述17至24中任一项所述的设备，其中第一代理被配置为：每次在用户平面功能处已经接收到N个数据平面数据包时，接收通信网络状态信息，其中N为正整数。

陈述26.根据陈述25所述的设备，其中N＝1。

陈述27.根据陈述17至24中任一项所述的设备，其中设备被配置为使用第一代理以给定的周期性接收通信网络状态信息。

陈述28.根据陈述17至27中任一项所述的设备，其中设备被配置为使用第一代理通过利用神经网络训练的结果来更新当前路由模型的权重和偏置。

陈述29.根据陈述17至28中任一项所述的设备，其中神经网络是深度神经网络。

陈述30.根据陈述17至29中任一项所述的设备，其中经验信息包括以下项中的至少一项：

实施数据流量路由指令之前的通信网络的状态；

数据流量路由指令；

实施数据流量路由指令之后的通信网络的状态；以及

实施数据流量路由指令之后的通信网络的数据包路由性能。

陈述31.根据陈述17至30中任一项所述的设备，其中通信网络状态信息包括实施先前数据流量路由指令之后的通信网络的数据包路由性能。

陈述32.根据陈述17至31中任一项所述的设备，还包括用户平面功能，其中用户平面功能被配置为根据数据流量路由指令在通信网络中路由数据流量。

陈述33.一种用于控制通信网络中的数据流量的数据流量路由控制设备，该设备包括第一代理和第二代理，其中第一代理包括：

接收器，被配置为从用户平面功能接收通信网络状态信息；

计算器，被配置为使用当前路由模型计算数据流量路由指令；

发送器，被配置为将数据流量路由指令发送给用户平面功能；并且

将经验信息发送给第二代理；并且

其中第二代理包括：

接收器，被配置为接收经验信息；

存储器，被配置为存储经验信息；以及

确定器，被配置为确定所存储的经验信息的实例的数量是否超过预定阈值；

其中，如果第二代理确定所存储的经验信息的实例的数量超过预定阈值，则第二代理还被配置为：

使用训练器通过利用所存储的经验信息的实例来训练神经网络；以及

使用发送器将更新信息发送到第一代理，

其中第一代理还被配置为使用更新器通过利用神经网络训练的结果更新当前路由模型。

陈述34.一种包括指令的计算机可读介质，该指令当在计算机上执行时使得该计算机执行根据陈述1至16中任一项所述的方法。

Claims

1.一种用于控制通信网络中的数据流量的数据流量路由方法，所述方法包括：

在第一代理处从用户平面功能接收通信网络状态信息；

由所述第一代理使用当前路由模型计算数据流量路由指令；

由所述第一代理：将所述数据流量路由指令发送给所述用户平面功能；以及将经验信息发送给第二代理；

在所述第二代理处存储所述经验信息；

在所述第二代理处确定所存储的经验信息的实例的数量是否超过预定阈值；以及

如果确定所存储的经验信息的实例的数量超过预定阈值：使用所存储的经验信息的所述实例来训练神经网络；并使用所述神经网络训练的结果更新所述当前路由模型。

2.根据权利要求1所述的方法，其中所述通信网络包括无线网络。

3.根据权利要求2所述的方法，其中所述通信网络包括由多个网络形成的整合网络，所述多个网络包括所述无线网络和另外的网络。

4.根据权利要求3所述的方法，其中所述另外的网络为Wi-Fi网络、固定接入网络或另外的无线网络。

5.根据权利要求3和4中任一项所述的方法，其中所述多个网络用于形成聚合网络，或者其中所述多个网络被划分为主要网络和一个或多个备份网络。

6.根据前述任一权利要求所述的方法，其中所述第二代理将用于更新所述当前路由模型的更新信息发送给所述第一代理。

7.根据权利要求6所述的方法，其中所述第一代理和所述用户平面功能位于第一网络装置中，并且其中所述第二代理和所述神经网络位于第二网络装置中。

8.根据权利要求7所述的方法，其中所述第一网络装置是基站，并且所述第二网络装置是核心网络节点。

9.根据前述任一权利要求所述的方法，其中每次在所述用户平面功能处已经接收到N个数据平面数据包时，在所述第一代理处接收所述通信网络状态信息，其中N为正整数。

10.根据权利要求9所述的方法，其中N＝1。

11.根据权利要求1至8中任一项所述的方法，其中在所述第一代理处以给定的周期性接收所述通信网络状态信息。

12.根据前述任一权利要求所述的方法，其中使用所述神经网络训练的所述结果来更新所述当前路由模型的权重和偏置。

13.根据前述任一权利要求所述的方法，其中所述神经网络是深度神经网络。

14.根据前述任一权利要求所述的方法，其中所述经验信息包括以下项中的至少一项：

实施所述数据流量路由指令之前的所述通信网络的状态；

所述数据流量路由指令；

实施所述数据流量路由指令之后的所述通信网络的状态；以及

实施所述数据流量路由指令之后的所述通信网络的数据包路由性能。

15.根据前述任一权利要求所述的方法，其中所述通信网络状态信息包括实施先前的数据流量路由指令之后的所述通信网络的数据包路由性能。

16.根据前述任一权利要求所述的方法，还包括：由所述用户平面功能根据所述数据流量路由指令在所述通信网络中路由数据流量。

17.一种用于控制通信网络中的数据流量的数据流量路由控制设备，所述设备包括处理电路以及存储指令的非暂时性机器可读介质，所述设备被配置为：

使用第一代理从用户平面功能接收通信网络状态信息；

使用所述第一代理通过利用当前路由模型计算数据流量路由指令；

使用所述第一代理将所述数据流量路由指令发送给所述用户平面功能；并且

使用所述第一代理发送经验信息；

使用第二代理接收并存储所述经验信息；以及

使用所述第二代理确定所存储的经验信息的实例的数量是否超过预定阈值；

其中，如果所述第二代理确定所存储的经验信息的所述实例的数量超过预定阈值，则所述设备还被配置为：

使用所存储的经验信息的实例来训练神经网络；以及

使用所述第二代理将更新信息发送给所述第一代理，以使用所述神经网络训练的结果更新所述当前路由模型。

18.根据权利要求17所述的设备，其中所述通信网络包括无线网络。

19.根据权利要求18所述的设备，其中所述通信网络包括由多个网络形成的整合网络，所述多个网络包括所述无线网络和另外的网络。

20.根据权利要求19所述的设备，其中所述另外的网络为Wi-Fi网络或固定接入网络。

21.根据权利要求19和20中任一项所述的设备，其中所述多个网络用于形成聚合网络，或者其中所述多个网络被划分为主要网络和一个或多个备份网络。

22.根据权利要求17至21中任一项所述的设备，其中所述设备还被配置为使用所述第二代理将用于更新所述当前路由模型的更新信息发送给所述第一代理。

23.根据权利要求22所述的设备，还包括第一网络装置和第二网络装置，其中所述第一代理和所述用户平面功能位于所述第一网络装置中，并且其中所述第二代理和所述神经网络位于所述第二网络装置中。

24.根据权利要求23所述的设备，其中所述第一网络装置是基站，并且所述第二网络装置是核心网络节点。

25.根据权利要求17至24中任一项所述的设备，其中所述第一代理被配置为：每次在所述用户平面功能处已经接收到N个数据平面数据包时，接收所述通信网络状态信息，其中N为正整数。

26.根据权利要求25所述的设备，其中N＝1。

27.根据权利要求17至24中任一项所述的设备，其中所述设备被配置为使用所述第一代理以给定的周期性接收所述通信网络状态信息。

28.根据权利要求17至27中任一项所述的设备，其中所述设备被配置为使用所述第一代理通过利用所述神经网络训练的所述结果来更新所述当前路由模型的权重和偏置。

29.根据权利要求17至28中任一项所述的设备，其中所述神经网络是深度神经网络。

30.根据权利要求17至29中任一项所述的设备，其中所述经验信息包括以下项中的至少一项：

实施所述数据流量路由指令之前的所述通信网络的状态；

所述数据流量路由指令；

31.根据权利要求17至30中任一项所述的设备，其中所述通信网络状态信息包括实施先前的数据流量路由指令之后的所述通信网络的数据包路由性能。

32.根据权利要求17至31中任一项所述的设备，还包括所述用户平面功能，其中所述用户平面功能被配置为根据所述数据流量路由指令在所述通信网络中路由数据流量。

33.一种用于控制通信网络中的数据流量的数据流量路由控制设备，所述设备包括第一代理和第二代理，其中所述第一代理包括：

接收器，被配置为从用户平面功能接收通信网络状态信息；

发送器，被配置为将所述数据流量路由指令发送给所述用户平面功能；并且

所述发送器还被配置为将经验信息发送给所述第二代理；并且

其中所述第二代理包括：

接收器，被配置为接收所述经验信息；

存储器，被配置为存储所述经验信息；以及

其中，如果所述确定器确定所存储的经验信息的所述实例的数量超过预定阈值，则所述第二代理还被配置为：

使用训练器通过利用所存储的经验信息的所述实例来训练神经网络；以及

使用发送器将更新信息发送给所述第一代理，

其中所述第一代理还被配置为使用更新器通过利用所述神经网络训练的结果更新所述当前路由模型。

34.一种包括指令的计算机可读介质，所述指令当在计算机上执行时使得所述计算机执行根据权利要求1至16中任一项所述的方法。