CN115632978A

CN115632978A - 一种多模态网络节点控制方法、装置、设备及存储介质

Info

Publication number: CN115632978A
Application number: CN202211079033.0A
Authority: CN
Inventors: 杨涵铄; 黄宏钦; 张风雨; 王雨; 林厚宏; 游侃民; 王经伟
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-20
Anticipated expiration: 2042-09-05
Also published as: CN115632978B

Abstract

本发明涉及网络通信技术领域，具体是涉及一种多模态网络节点控制方法、装置、设备及存储介质。本发明首先从已分配给业务的原链路中挑选出部分目标链路，以减小业务所占用的链路数量，从而降低了因传输业务而需要的能耗。同时本发明还根据业务的历史流量预测业务的未来流量，根据预测出来的流量与目标链路的带宽利用率之间的关系，控制多模态网络中的节点启闭状态，以防止过多的节点服务于业务而提高能耗。综上所述，本发明采用确定目标链路和预测流量，能够降低能耗。

Description

一种多模态网络节点控制方法、装置、设备及存储介质

技术领域

本发明涉及网络通信技术领域，具体是涉及一种多模态网络节点控制方法、装置、设备及存储介质。

背景技术

现有的互联网传统网络基础架构及由此构建的技术体系存在网络结构难以拓展、IP单一承载、未知威胁难以抑制等问题，多模态智慧网络是新一代网络体系架构，采用技术体制与物理平台分离的网络发展范式，将各种网络技术体制以模态的形式，在多模态网络环境上智慧加载和运行，通过网络结构的全维度可定义和多模态呈现来提升网络的功能、性能、效能、安全等特性，旨在打造一个具有多模态功能，呈现全方位覆盖、全业务承载、智慧化管理控制和内生安全特性的新一代信息基础设施。

尽管多模态智慧网络在网络架构上与传统网络相比有优势，但是在能耗上仍面临着与传统网络一样的问题。随着网络规模不断扩大，能耗也越来越大。同时多模态智慧网络承载着多个模态的网络，人工对这些模态网络进行调控必然开销巨大。因此，如何智慧化调度，如何优化能耗是多模态智慧网络要解决的重要问题。

综上所述，现有的多模态网络能耗较大。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种多模态网络节点控制方法、装置、设备及存储介质，解决了现有的多模态网络能耗较大的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种多模态网络节点控制方法，其中，包括：

依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标链路，链路由多模态网络中的各个节点组成；

对所述业务的历史流量信息应用已训练的图卷积网络模型，得到所述业务的预测流量；

依据所述预测流量和所述路径上的节点的带宽利用率，动态调控所述多模态网络中的节点。

在一种实现方式中，依据所述预测流量、节点邻接情况和所述路径上的节点的带宽利用率，动态调控所述多模态网络中的节点。

在一种实现方式中，所述依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标链路，链路由多模态网络中的各个节点组成，包括：

依据所述各个原链路的当前状态信息，得到所述当前状态信息中的带宽利用率、各个所述原链路所涵盖的节点数量；

依据各个所述原链路的所述带宽利用率、各个所述原链路所涵盖的所述节点数量，构建各个所述原链路的奖励函数；

依据各个所述原链路的奖励函数，从各个所述原链路中挑选出目标链路。

在一种实现方式中，所述依据各个所述原链路的所述带宽利用率、各个所述原链路所涵盖的所述节点数量，构建各个所述原链路的奖励函数，包括：

统计各个所述原链路所构成链路总数；

计算各个所述原链路所涵盖的所述节点数量的倒数；

对各个所述原链路的所述带宽利用率、所述节点数量的倒数、所述链路总数进行加权计算，构建各个所述原链路的奖励函数。

在一种实现方式中，所述依据各个所述原链路的奖励函数，从各个所述原链路中挑选出目标链路，包括：

获取针对所述业务设定的丢包率和时延；

依据各个所述原链路的奖励函数、针对所述业务设定的丢包率和时延，构建第一奖励函数；

将所述第一奖励函数在设定时间段内取最大值时所对应的链路作为目标链路。

在一种实现方式中，所述对所述业务的历史流量信息应用已训练的图卷积网络模型，得到所述业务的预测流量，包括：

获取所述多模态网络用于服务所述业务的拓扑矩阵；

依据所述历史流量信息，得到所述历史流量信息中的与所述拓扑矩阵所对应的历史流量矩阵，所述历史流量矩阵用于记录各个终端和所述目标链路中的各个节点针对所述业务的流量，所述终端为所述业务的使用者；

对所述历史流量矩阵和所述拓扑矩阵应用已训练的图卷积网络模型，得到所述业务的预测流量。

在一种实现方式中，已训练的图卷积网络模型的训练方式包括：

获取所述业务的第一样本流量和第二样本流量，所述业务产生所述第二样本流量的时间位于所述业务产生所述第一样本流量的时间之后；

将所述第一样本流量输入至待训练的图卷积网络模型，得到待训练的图卷积网络模型输出的预测样本流量；

计算所述预测样本流量相对所述第二样本流量的均方误差；

依据所述均方误差，调整待训练的图卷积网络模型的参数，得到已训练的图卷积网络模型。

在一种实现方式中，所述依据所述预测流量、节点连接情况和所述目标路径上的节点的带宽利用率，控制所述多模态网络中的节点，包括：

依据所述预测流量，预测所述业务所需要的带宽利用率，记为预测的带宽利用率；

若预测的带宽利用率小于等于设定阈值，控制所述多模态网络中位于所述目标链路上的所有节点中的设定数量的节点处于休眠状态或控制所述目标链路上的所有节点维持当前状态。

若预测的带宽利用率大于设定阈值，控制所述多模态网络中位于所述目标链路之外的节点传输所述业务。

在一种实现方式中，所述控制所述多模态网络中位于所述目标链路之外的节点传输所述业务，包括：

统计位于所述目标链路之外且处于关闭状态的节点，记为休眠节点；

统计位于所述目标链路之外处于启动状态且空负载的节点，记为空负载节点；

预测所述休眠节点以及与所述休眠节点物理邻接的节点的带宽利用率，记为第一预测带宽利用率；

计算与所述空负载节点物理邻接的节点的带宽利用率，记为第二带宽利用率；

统计与所述休眠节点进行通信的节点总数，记为第一度；

在一种实现方式中，统计与所述休眠节点进行直接通信或邻接的节点总数，记为第一度；

在一种实现方式中，能够与休眠节点直接通信的节点就是与休眠节点构成邻接的节点，互为邻接节点的两个节点不需要第三方就可以直接进行通信。

统计与所述空负载节点进行通信的节点总数，记为第二度；

在一种实现方式中，统计与所述空负载节点进行直接通信或邻接的节点总数，记为第二度；

依据所述第一预测带宽利用率、所述第二带宽利用率、所述第一度、所述第二度，构建第二奖励函数；

依据所述第二奖励函数，控制位于所述目标链路之外的节点传输所述业务。

在一种实现方式中，所述依据所述第二奖励函数，控制位于所述目标链路之外的节点传输所述业务，包括：

将所述第二奖励函数取最大值时所对应的节点，作为目标节点；

控制所述目标节点传输所述业务。

在一种实现方式中，目标节点指用来传输当前模态网络的业务的节点，目标链路为由各个节点构成的目标路径，用来传输当前模态网络的业务。

第二方面，本发明实施例还提供一种多模态网络节点控制装置，其中，所述装置包括如下组成部分：

链路筛选模块，用于依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标链路，链路由多模态网络中的各个节点组成；

流量预测模块，用于对所述业务的历史流量信息应用已训练的图卷积网络模型，得到所述业务的预测流量；

节点控制模块，用于依据所述预测流量和所述目标链路的带宽利用率，控制所述多模态网络中的节点。

或者，节点控制模块，用于依据所述预测流量、节点邻接情况和所述路径上的节点的带宽利用率，动态调控所述多模态网络中的节点。

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多模态网络节点控制程序，所述处理器执行所述多模态网络节点控制程序时，实现上述所述的多模态网络节点控制方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多模态网络节点控制程序，所述多模态网络节点控制程序被处理器执行时，实现上述所述的多模态网络节点控制方法的步骤。

有益效果：本发明首先从已分配给业务的原路径(链路)中挑选出部分目标链路，以减小业务所占用的链路数量，从而降低了因传输业务而需要的能耗。同时本发明还根据业务的历史流量预测业务的未来流量，根据预测出来的流量与目标链路的带宽利用率，控制多模态网络中的节点启闭状态，以防止过多的节点服务于业务而提高能耗。综上所述，本发明采用确定目标链路和预测流量，能够降低能耗。

附图说明

图1为本发明的整体流程图；

图2为本发明实施例中的多条链路示意图；

图3为本发明实施例中的控制节点的架构图；

图4为本发明实施例中的代理1和代理2协同控制多模态网络节点的流程图；

图5为本发明实施例中的目标链路示意图；

图6为本发明实施例中的休眠节点2之后的拓扑图；

图7为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，现有的互联网传统网络基础架构及由此构建的技术体系存在网络结构难以拓展、IP单一承载、未知威胁难以抑制等问题，多模态智慧网络是新一代网络体系架构，采用技术体制与物理平台分离的网络发展范式，将各种网络技术体制以模态的形式，在多模态网络环境上智慧加载和运行，通过网络结构的全维度可定义和多模态呈现来提升网络的功能、性能、效能、安全等特性，旨在打造一个具有多模态功能，呈现全方位覆盖、全业务承载、智慧化管理控制和内生安全特性的新一代信息基础设施。尽管多模态智慧网络在网络架构上与传统网络相比有优势，但是在能耗上仍面临着与传统网络一样的问题。随着网络规模不断扩大，能耗也越来越大。同时多模态智慧网络承载着多个模态的网络，人工对这些模态网络进行调控必然开销巨大。因此，如何智慧化调度，如何优化能耗是多模态智慧网络要解决的重要问题。

为解决上述技术问题，本发明提供了一种多模态网络节点控制方法、装置、设备及存储介质，解决了现有的多模态网络能耗较大的问题。具体实施时，依据各个原路径的当前状态信息，从各个原路径中挑选出目标路径，对业务的历史流量信息应用已训练的图卷积网络模型，得到业务的预测流量；依据预测流量和目标链路上的节点的带宽利用率以及节点的邻接节点的情况，其中邻接节点情况包括邻接节点的数量以及邻接节点的负载，控制多模态网络中的节点。

举例说明，多模态网络是指这一套网络系统上面可以运行多种模态的网络，比如SDN(软件定义网络)是一种模态网络，NDN(命名数据网络)是一种模态的网络，IPv6是一种模态的网络，SDN、NDN、IPv6就构成了多模态网络，每一种模态的网络可以承载多种业务，比如可以承载球赛直播、直播带货、电视节目等多种业务。本实施例以其中的球赛直播这个业务为例说明本实施例控制节点的方法：

如图2所示，终端T1通过节点1、节点2、节点3、节点4、节点5、节点6向终端T2发送球赛直播的数据包，其中终端T1分别通过由节点1和节点5构成的原路径S1，节点1、节点6和节点5构成的原路径S2，节点2、节点3、节点4、节点5构成的原路径S3向终端T2传送球赛直播的数据包，通过对原路径S1、原路径S2、原路径S3的当前状态信息进行分析，发现原路径S2、原路径S3造成冗余，为了确保丢包率低、没有拥塞而只启动原路径S1而休眠原路径S2、原路径S3上的节点，将原路径S1作为目标链路继续传送球赛直播给终端T2。然后图卷积网络会预测球赛直播下一时段(一个小时)会产生多少流量，根据预测的流量以及目标链路的带宽利用率、邻接节点的负载情况(包括邻接节点数量、邻接点的带宽利用率)，判断是否需要开启额外的节点来增加冗余路径还是需要关闭一些冗余路径来减少能耗。本实施例并没有将多模态网络中的所有链路服务于球赛直播这个业务，因此可以降低因使用过多的链路而产生的能耗，另外，本实施例还预测流量，根据预测的流量和目标链路当前的带宽利用率控制节点的启闭，既能保证正常的服务于球赛直播又能防止因使用过多的节点而增加能耗。本实施例中的时间段为一个小时。

示例性方法

本实施例的多模态网络节点控制方法可应用于终端设备中，所述终端设备可为具有计算功能的终端产品，比如电脑等。

本实施例的多模态网络节点控制方法依托于如图3所示的架构图，如图3所示，架构包括多模态网络、模态控制器、由GCN和Agent1(由强化学习DQN算法实现)以及Agent2(由强化学习DDPG算法实现)构成的数据层。

集中式控制的模态控制器用于下发规则以及收集数据平面中各个模态网络的信息，训练好的强化学习代理(Agent1和Agent2)与图卷积网络模型(GCN)与模态控制器进行交互。模态控制器将各模态网络的网络拓扑、当前网络负载、网络与业务的优先级，以及哪些节点对哪些模态网络休眠或激活了服务反馈给强化学习代理与图卷积网络模型，而强化学习代理则通过输出指令到模态控制器，让模态控制器来调控各个模态网络，最终达成优化整个多模态智慧网络环境能耗的目的。

本实施例设置了两个强化学习代理，分别是强化学习代理Agent1和强化学习代理Agent2。训练好的强化学习的代理会运行在环境中，它们的输入是网络的状态(state)，它们的输出是特定的动作(Action)。它们输出动作之后会改变环境中的状态，然后它们会根据状态来计算奖励(reward)，而它们的目标则是尽可能地在环境中拿到更高的累积奖励。在本实施方案中，它们在奖励值的引导下，它们将在保证业务传输的服务质量需求(延迟、丢包、业务优先级)的情况下，使用尽可能少的节点进行传输，从而达到节省网络能耗的目的。

DQN和DDPG均为离线强化学习，它们可以从收集好的数据集上进行学习，同时采用经验回放(experience replay)策略，使得它们的训练更加稳定。记录一段时间内的网络状态信息，并按固定的时间段将这些网络状态信息划分成不同的数据，存入数据集中，在强化学习与图卷积网络训练过程中，直接从数据集中提取数据进行训练。同时，在训练时采用经验回放策略，随机地从数据集中进行采样，以保证训练样本之间的独立分布。

在本实施例中，如图1中所示，所述多模态网络节点控制方法具体包括如下步骤：

S100，依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标链路，链路由多模态网络中的各个节点组成。

假设多模态智慧网络目前只承载了一种模态的网络，然后这一模态网络上运行着“球赛直播”这一业务，Agent2则在这一业务原先已有的路径基础上，根据网络链路的负载情况给此模态网络上的业务规划分流比，使得在满足业务服务质量需求的情况下，模态网络里的流量流经的网元节点数量尽可能少，从而使得部分网元节点上没有此模态网络的流量经过。因为此模态网络上目前只有球赛直播这一业务，因此规划了球赛直播这一业务的流量流经的节点少也意味着此模态网络需要的网元节点少。在Agent2给这一模态网络的所有业务(此例子中只有一个)的所有路径规划好分流比之后，下一个时间段(即下一个小时)网络的负载会发生变化。

步骤S100包括如下的步骤S101至S107：

S101，依据所述各个原链路的当前状态信息，得到所述当前状态信息中的带宽利用率w_l、各个所述原链路所涵盖的节点数量h_l(第l个原链路所涵盖的节点数量为h_l，即业务在链路l中到达目的所需的跳数)。

S102，统计各个所述原链路所构成的链路总数L。

L表示的业务有L条路径，即T1到T2的数据被分配了L条路径。

S103，计算各个所述原链路所涵盖的所述节点数量h_l的倒数

S104，对各个所述原链路的所述带宽利用率η_l、所述节点数量的倒数、所述链路总数进行加权计算，构建各个所述原链路的评估函数

S105，获取针对所述业务的丢包率L和时延D。

S106，依据各个所述原链路的评估函数、针对所述业务设定的丢包率和时延，构建第一奖励函数R₂：

a、b、c、w₁、w₂、w₃都是人为设置的权重。

S107，将所述第一奖励函数取最大值时所对应的链路作为目标链路。

通过Agent2输出每个节点对每个业务的分流比，用[x1,x2,x3,x4,x5,x6]表示每个节点对每个业务的分流比，每个x的取值是[0,1]。Agent2的目的就是输出一个分流比[x1,x2,x3,x4,x5,x6]，然后朝着最高奖励值的方向改变环境(也就是网络负载)。在本例子中，当Agent2的输出为[0.3,0,0,,0,0.3,0]的时候，R2可以取得最大值。

在一个实施例中，将第一奖励函数R₂应用到多模态网络的所有业务，得到Agent2的奖励函数r₂：

式中，f为第f个业务，α_f表示业务f的权重，D_f,L_f分别表示此业务的延迟与丢包率，U(f)为评估函数。

Agent2(由适用于连续型动作的DDPG(Deep Deterministic Policy Gradient)算法训练)的输入除了当前时刻的网络状态，还包括代表流量矩阵与QoS(或优先级)(QoS组成了上述奖励函数R2的a、b、c、w1、w2、w3这些参数的权重，如果某个业务很重要或者优先级很高，那么它的权重a_f就会很高；如果QoS对延迟有高要求，那么权重b的值就可以设置得很高；如果QoS对丢包有高要求，那么权重c的值就可以设置得很高。只不过区别是，上述权重不会随着Agent2输出的动作而改变，也就是说上述权重是一开始就设置好的)，它们共同组成当前环境的状态信息

输入至Agent2中,Agent2输出的动作空间由一个矩阵表示，样例为：a_f＝[x₁,x₂,x₃,...x_l]，其中x_l代表此模态网络上的业务f在第l个节点上的分流比。其中，网络状态(state)包括：每个业务的延迟、丢包率与路径的评估函数，其中评估函数包含了业务每个路径的跳数、带宽利用率以及路径总数。网络状态作为输入进入Agent2，由Agent2在此模态网络的每条链路上输出分配给业务的带宽值，如果不让流量经过这条链路则让在这条链路上给此业务分配0带宽。

U(f)包含了路径负载情况、跳数以及业务被分配的路径数量。假如某个业务f被分配了很多条路径，那么在根据环境状态计算奖励值时，它在某条(或某几条)负载较轻、或者跳数较长的路径上的评估值则为负数，从而使得总体奖励降低。同时由于强化学习的目的是训练代理(Agent)在环境中获取最高的奖励，因此Agent2则会倾向于把这一业务在这些负载较轻或跳数较多的路径上的分流比降为0，从而提高所获取的奖励值r₂。同时，由于每个业务f都有不同的权重α_f，同时评估函数中的权重值ω₁、ω₂、ω₃可以自行调整，优先级较高的业务则可以设置较大的权重从而被优先考虑和满足。延迟与丢包率也被考虑在了奖励函数的设计中，是为了确保Agent2在每个节点上给业务分配资源时，要保证业务的传输顺利。因此权重b和c一般被设计为负值，Agent2如果没能确保数据的顺利传输则会承受较大的惩罚。a,b,c三个权重可以根据QoS进行调整，例如业务更看重更低的延迟，那么可以给b设置一个很大的负值。

S200，对所述业务的历史流量信息应用已训练的图卷积网络模型，得到所述业务的预测流量。

本实施例中，假设多模态智慧网络环境只承载了一个模态网络，然后这一模态网络当前只有球赛直播这一业务的传输。同时，由于不同时间的流量矩阵会有不同，因此一般在一段时间内取一个代表流量矩阵来作为输入，输入到训练好的图卷积网络模型中。本实施例中，“一段时间”为一小时。

图卷积网络模型根据图3中的模态控制器提供的每个模态网络的固定拓扑(网络拓扑图记载了模态控制器收集到的网络节点的连接情况)与负载信息，预测下一时间段的每一模态网络上各个节点会有多少流量流经，并将预测的流量大小提供给强化学习代理Agent1，使得强化学习代理Agent1可以在有需要的时候，提前给对应的模态网络在数量、位置合适的网元节点上激活对它们的服务，从而避免部分模态网络的流量因为网络资源不足导致的拥塞而被丢弃。同时，由于图卷积网络可以在拓扑图中提供精度较高的预测，使得强化学习代理Agent1可以尽量避免过多激活网元节点，从而节省网络的资源与能耗。

将图卷积网络GCN用于网络流量预测的问题可以看作学习基于拓扑图G和流量矩阵的一个映射函数f_gcn，输出为预测的即将到来的流量矩阵：

[X_t+1,X_t+2,X_t+3,...X_t+T]＝f_gcn(G,[X_t-n+1,X_t-n+2,...X_t])

其中，n表示输入时间序列的长度，T表示输出预测序列的长度，拓扑图G即用于记录多模态网络中哪些节点是相互通信的。

步骤S200中包括对图卷积网络模型的训练，训练包括如下的步骤S201至S204：

S201，获取所述业务的第一样本流量X_T和第二样本流量X_T+1，所述业务产生所述第二样本流量的时间位于所述业务产生所述第一样本流量的时间之后。

S202，将所述第一样本流量输入至待训练的图卷积网络模型，得到待训练的图卷积网络模型输出的预测样本流量

S203，计算所述预测样本流量相对所述第二样本流量的均方误差

S204，依据所述均方误差，调整待训练的图卷积网络模型的参数，得到已训练的图卷积网络模型。

式中，X_T+1为t时刻的流量矩阵真实值，

为图卷积网络预测的t时刻的流量矩阵值，L₂为正则化项，防止模型过拟合，λ为正则化项的权重参数。

本实施例中的图卷积网络模型以及针对图卷积网络模型的训练流程为现有技术。

S300，依据所述预测流量和所述目标链路的带宽利用率，控制所述多模态网络中的节点。

在一个实施例中，根据所述预测流量大小以及节点的带宽容量，计算预测的带宽利用率，若预测的带宽利用率小于等于设定阈值，则休眠所述多模态网络中位于所述目标链路上的所有节点中的设定数量的节点处于休眠状态或控制所述目标链路上的所有节点维持当前状态。即，如果预测的下一时间段的带宽利用率(根据预测的流量大小计算而来)小于或等于设定的带宽利用率阈值，那么Agent1不用额外激活其他网元节点，而是根据当下网络负载情况，休眠一部分网元节点或者不做调整。

在一个实施例中，如果预测的带宽利用率(根据预测的流量大小计算得出)大于设定阈值，控制所述多模态网络中位于所述目标链路之外的节点传输所述业务，即由于Agent1在某一时间段内可能将一部分网元节点置于休眠态，在之后的某一个时间段，可能会有逼近甚至超出当下设定的带宽阈值的流量，因此需要GCN来对此模态网络内的下一时刻的流量需求进行预测，从而让Agent1可以提前将一部分处于休眠态的网元节点激活来避免网络中出现拥塞。同时，对未来流量需求的预测也使得Agent1可以开启合适数量的网元节点从而避免能耗浪费。GCN将根据输入的流量矩阵(即负载信息)以及网络拓扑，预测下一个时间段的流量需求。控制器将根据预测的下一时间流量大小计算预测的下一时间带宽利用率，并将预测的带宽利用率与设定的阈值对比，如果预测的带宽利用率比设定的阈值大，那么Agent1则对应地激活一部分处于休眠态的网元节点。当需要激活多模态网络中的更多节点以服务于需要传输的业务，在该实施例中，步骤S300包括如下的步骤S301至S309：

S301，统计位于所述目标链路之外且处于关闭状态的节点，记为休眠节点。

休眠节点即没有参与此模态网络任何业务传输的节点，该节点对模态网络处于休眠状态。

S302，统计位于所述目标链路之外处于启动状态且空负载的节点，记为空负载节点。

空负载节点就是该节点虽然对此模态网络处于开启状态，但是不参与此模态网络任何业务的传送。

S303，预测所述休眠节点以及与所述休眠节点物理邻接的节点的带宽利用率，记为第一预测带宽利用率。

用网线连接的连接节点(交换机)，无论这两个节点处于正在通信的状态还是暂时没有通信，这两个节点都是物理邻接。即具备通信条件的两个节点互为物理邻接的节点。

S304，计算与所述空负载节点物理邻接的节点的带宽利用率，记为第二带宽利用率。

S305，统计与所述休眠节点邻接的节点总数，记为第一度。

S306，统计与所述空负载节点邻接的节点总数，记为第二度。

S307，依据所述第一预测带宽利用率、所述第二带宽利用率、所述第一度、所述第二度，构建第二奖励函数r₁：

k₁表示对当前模态网络空负载的节点集合，e_i为第i个空负载节点，deg(e_i)为第二度(标量，表示此节点与多少节点邻接)，φ_j表示与节点e_i邻接的节点集合，η_j为为标量，取值[0,1]，表示与节点e_i邻接的第j个节点的带宽利用率；k₂表示处于休眠态节点的集合，e_a表示处于休眠态的节点，即e_a为休眠节点，

为标量，取值[0,1]，表示根据图卷积网络预测的流量大小计算的节点e_a的带宽利用率，φ_b表示与节点e_a物理邻接的节点集合，

为标量,取值[0,1]，表示根据图卷积网络预测的流量大小计算的邻接e_a节点的第b个节点的带宽利用率，即

为第一预测带宽利用率，deg(e_a)为第一度。w₁、w₂表示权重，分别为负值和正值，C为二值常量，如果此节点与终端相连，则C＝c₃，否则C＝0奖励函数的第一项，由于w₁为负值，并且有|k₁|个常量c₁，意为当前时刻如果有更多的无负载节点处于激活态，那么Agent1获取的奖励越低，所以Agent1应倾向于休眠更多此类节点；但是，部分无负载节点的度较高(即，邻接了很多其他节点)，或者这些邻接节点都有较高的负载，而这些无负载节点的度越高、它们的邻接节点负载越高，这些节点就越有可能在下一时刻收到流量，因此设置权重α为负值，如果空负载的节点邻接了很多节点并且邻接节点有不小的负载那么让此类节点处于激活态所获得奖励越高，Agent1应尽量避免休眠这一类节点。最后减去一个二值项C是为了尽可能地避免休眠那些与终端直连的节点。

奖励函数的第二项，由于w₂为正值，并且有|k₂|个常量c₂，意为当前时刻如果有更多的节点处于休眠态，那么Agent1获取的奖励越高，Agent1倾向于让更多节点处于休眠态；同时，减去一项

意为：如果此节点被预测为下一时间段将有较高的负载，那么把此节点保持为休眠态将获得更少甚至负值的奖励，应鼓励Agent2将这一类节点激活；此外，部分处于休眠态的节点邻接了即将有高负载的节点(即预测的带宽利用率

有较大的值)，或者度较大(即连接了较多其他节点)，那么下一时刻也很可能需要这些节点开启服务来让流量通过。因此邻接节点数量越多、邻接节点的预测负载越高，则通过让此节点处于休眠态所获得的奖励越低，从而鼓励Agent1激活这一类节点。最后减去一个二值项C是为了尽可能地避免休眠那些与终端直连的节点。

S308，Agent1的输出为动作(Action)，动作空间(即输出格式)为：

a＝[N₁_off,N₂_on,...,N_k_off]，意为节点1对此模态网络关闭服务，节点2对此模态网络开启服务，...节点K对此模态网络关闭服务。Agent1输出动作后，模态控制器会根据输出的动作改变网络的状态(State),Agent1的环境中的状态(State)包括节点对当前模态网络的服务状态(激活/休眠)、节点的带宽利用率、节点的邻接情况、节点的预测带宽利用率。奖励值(reward)根据改变后的网络状态计算得出。因此，奖励值起到引导Agent1去输出最合适的动作从而让网络状态往理想方向改变的作用。本发明中的“理想”便是：在保障各业务的服务质量的情况下，使用尽可能少的节点去传输，从而节省能耗。

S309，控制所述目标节点传输所述业务。

开启目标节点，将目标节点组成路径，用于传输业务。

步骤S100至步骤步骤S300的整体工作过程如图4所示：

整个网络初始化时，多模态智慧网络中所有网元节点都对此模态网络处于激活状态。模态控制器收集网元节点和链路的负载信息，获取设定时长(本例子中为1小时，下同)内每个节点的流量，根据这些流量需求计算流量矩阵。

多模态智慧网络便是Agent2所工作的环境，将当前各模态网络(此例中仅有一个)的状态信息(包括延迟、丢包率、模态网络上承载的业务被分配的路径数量、跳数以及负载情况)输入至Agent2，Agent2则给此模态网络中的业务规划分流比，并且在满足业务服务质量需求的情况下，使流量流通过的网元节点尽可能少；Agent2规划好业务的分流比之后，网络链路中的负载发生变化，控制器再次收集网络中的信息，并将其输入至Agent1，Agent1根据网络状态信息，将一部分没有此模态网络流量流经的网元节点对此模态网络的服务置于休眠态。随着部分节点对此模态网络的服务状态的改变以及新的流量的流入，网络状态会发生改变，在下一个工作周期内，它们作为新的状态信息输入至Agent2和GCN，Agent2再根据新的信息，给业务规划新的分流比，如此反复。

训练好的两个强化学习代理和图卷积网络模型工作于每一个模态网络，它们并不关心各个模态网络中传输的具体内容、传输规则等，只关心网络资源的使用情况。因此，它们在各个模态网络中的工作内容与原理相同，都是根据网络资源的使用信息(即，拓扑、带宽利用率、业务被分配了多少条路径、路径信息等)预测网络负载并以此对网络进行动态调控，同时，它们在各个模态网络中的工作相互独立、互不干扰。所以，对强化学习代理与图卷积网络模型的训练步骤只有一个，训练好后的强化学习代理与图卷积网络模型可以应用于各个模态网络。

下面将以一个例子说明本实施例控制各个节点工作的详细过程：

由于本实施例中使用的深度学习模型在各个模态网络中的工作原理相同，因此为了方便举例说明，假设多模态智慧网络中只承载了一个模态网络，而此模态网络上只有一个业务(比如，球赛直播)在进行传输。同时，为了方便深度学习模型进行操控，本实施例假定每一个小时为一个时间段。网络如图2所示，矩形表示终端，圆表示网络上的节点(交换机、路由器等)，剪头表示数据包的传输方向。

首先利用图3中的模态控制器收集模态网络的信息，将这些信息根据DDPG(训练Agent2的强化学习算法)、DQN(训练Agent1的强化学习算法)、GCN(图卷积网络)的输入需要，反馈相应的网络信息给这三个深度学习模型。模态控制器通过控制层与应用层的接口，与DDPG、DQN、GCN这些处于应用层的应用交互。

其中，网络拓扑以矩阵的形式表示，根据图2可得此例中拓扑图为G：

拓扑图G中，互相连接(可以进行通信的节点)的节点为1，不相连的为0。其中，从左到右分别是T1到T4,然后是节点1到节点6，从上到下的坐标也是从T1到T4,然后是节点1到节点6。

由于不同时间的流量矩阵会有不同，因此在一段时间内统计一个代表流量矩阵来作为输入，输入到模型中。本例子中，“一段时间”为一小时。那么第一个小时内的代表流量矩阵X₁的样例为：

流量矩阵的行和列的意义和拓扑矩阵一样。X₁表达了这一个小时内，T1发了3M的数据给节点1，节点1发了3M的数据给节点5，节点5发了3M的数据给T2。

整个网络初始化时，多模态智慧网络中所有网元节点都对此模态网络处于激活状态，此时网络拓扑就是处于激活态的网络节点组成的拓扑。

如图2所示，假设此模态网络上承载了球赛直播的业务，终端T1要持续发送数据包给终端T2。为了网络的稳定性，网络系统有时会装有某些软件、硬件或算法，给数据包分配多条路径，以确保当某一条路径因各种原因无法通行时，其他路径仍能将数据包送到目的节点。

假设为了稳定性，模态控制器给T1到T2的数据包分配了三条路径{1->5,1->6->5,1->2->3->4->5}，并假设这三条路径当下的带宽利用率分别为0.7,0.5,0.3。

假设此时T3，T4未发送或接受任何数据包，那么可以看到此时T1发往T2的数据包被分配到的资源有冗余：仅仅是T1发往T2的数据包就已经用到了全部6个节点，同时部分路径上带宽的使用率还低。那么可以考虑让数据包无法流经某条或某两条路径，使得部分节点处于不工作状态，从而可以休眠这些不工作的节点来节省能耗。

强化学习的目的是训练代理(或称智能体)在环境中拿到尽可能高的一定时间内的累加奖励。假设“一定时间”为一天，即，Agent2被训练来拿到每一天的累加奖励函数值最高，并且每一个小时根据网络状态计算一次奖励函数值。在此例子中，Agent2给网络进行调控的时间周期为一小时，每一小时Agent2输出一次动作给模态控制器，让模态控制器根据Agent2的输出动作对网络进行调控。

Agent2输出的动作为每个节点对每个业务的分流比。在此例中，网络中有6个节点，1个业务，那么Agent2给模态控制器的输出是一个1*6的矩阵，举个例子，输出可以为：

[0.2,0.2,0.3,0.4,0.6,0.7]

假如此模态网络上有两个业务，那么Agent2给模态控制器输出的则是一个2*6的矩阵，以此类推。

在本实施例中，由DDPG训练的Agent2使用的奖励函数为：

其中，U(f)为评估函数，本实施例将评估函数定义为：

由于当前多模态环境中只承载了一个模态网络，此模态网络上目前只有一条业务(即球赛直播，从T1发往T2)，假设权重α_f为1，评估函数权重a为10，延迟与丢包的权重为b＝-1,c＝-5(延迟较高或者丢包较大就应该遭受较大的惩罚)。由于假设此模态网络中当前只有球赛直播一个业务，同时路径

已经能满足它的传输需求，假设延迟固定为1，丢包率固定为0，则

r₂＝10*U(f)-1

评估函数评估了业务的每条路径，假设其中的权重ω₁,ω₂,ω₃分别为1,2,0.5，那么此时对球赛直播这条业务的评估函数为：

可以看到，对Agent2来说，可以通过输出适当的动作，来让它获得更高的奖励。此时奖励值的计算结果为负主要原因是1->6->5与1->2->3->4->5这两条路径的评估值为负。而如果这个业务只有1->5这一条路径，那么当前这一周期内计算得出的奖励值为1。在所有权重值固定的情况下，1是Agent2输出空间里所能获取的奖励最大值，输出为[0.3,0,0,0,0.3,0]，(假设0.3的节点带宽利用率已经足以让节点1和节点5保证T1到T2的数据包传输，使得延迟为1丢包率为0)，即，节点2，3，4，6不分配任何带宽给此业务，此业务的数据包无法经过2,3,4,6这四个节点前往T2。Agent2给模态控制器输出动作，模态控制器根据Agent2给的动作调整此模态网络，使得最终T1到T2的路径如图5所示。

此外，通过对评估函数中的权重ω₁,ω₂,ω₃的调整，可以确定减少多少条冗余路径。例如需要节省能耗，但是又想保留一条冗余路径来确保当其中一条路径断开时T1的数据仍能到达T2，那么可以改变权重，比如ω₁,ω₂,ω₃设为1,4,0.5，那么评估函数的值为：

可见1->2->3->4->5这条路的评估值为负，其余两条为正，Agent2为了获取更高的奖励值，会将负值的路径关闭而保留正值的。在此例子中，“跳数”这一特性的权重更大，表示在考虑关闭路径时，优先考虑关闭那些路径长的。也可以通过调整另外两个权重，来体现对“带宽利用率”或“路径数量”的重视程度。此外，评估函数是针对此模态网络上的每一个业务进行评估，而每个业务的评估都有一个权重，因此可以根据业务的优先级，设置相应的权重，使得Agent2在调控时更注重优先级跟高的业务。假如此模态网络上除了球赛直播还有一业务，但是那个业务优先级不如球赛直播高，那么可以给球赛直播的业务设置更高的优先级来让Agent2优先保证球赛直播的传输。

随着Agent2给路径进行了带宽的调整，这一个小时内的网络状态发生变化，目前球赛直播这个业务只能走1->5这个路径，另两条路径已经没有了它的流量。此时网络上的流量情况如图5所示。

假设把GCN训练成有一定准确率的可以根据这一小时内的代表流量矩阵与拓扑矩阵预测下一个小时的流量代表矩阵：

在得到流量的预测结果之后，可以计算预测的带宽利用率，Agent1便可以根据当前网络状态与预测结果对网络进行调控。Agent1在此例子中的输出空间样例为：[1,0,0,0,1,1]。0代表关闭节点对此模态网络的服务，1代表开启节点对此模态网络的服务，此样例表示节点1,5,6开启对此模态网络的服务，其余节点休眠。

在本发明中，由DQN训练的Agent1使用的奖励函数为：

由于此时没有节点处于休眠状态，可以暂时忽略第二项。假设权重w₁＝-1，α＝-1，c₁＝1,c₃＝2。那么，此时四个节点(节点2,3,4,6)无负载，则在Agent1没做任何干预的情况下，能拿到的奖励值为；

r₁＝-(1-2*0.3-0)-(1-4*0-2)-(1-4*0.3-2)-(1-4*0.6-0)

r₁＝-0.6+1+2.2+1.4＝4.0

这显然是有提升空间的：Agent1可以把节点2休眠，使得上述计算中省去了负数项，同时增加了休眠节点得到了正数项。假设w₂＝1,c₂＝1,β＝-1结果会变成：

r₁＝-(-1-2.2-1.4)+[1-2*(0.3+0)-0]

r₁＝4.6+0.4＝5.0

r₁＝5.0为当前情况下Agent1通过输出动作所能获取的最大奖励值，对应输出为休眠节点2对此模态网络的服务：[1,0,1,1,1,1]，此时的模态网络的拓扑图如图6所示。

图6虚线表示在此模态网络中，节点2已休眠对此模态网络的服务，但是它们仍保持有物理连接，只是节点2此时不承载此模态网络的业务。随着节点2对此模态网络休眠，可以节省一定能耗。

节点3,4,6也为空负载，但是我们并不想休眠它们：它们要么连接了终端，要么有较高的度并且邻接节点有负载。

随着Agent1休眠了节点2，此模态网络的拓扑发生变化，在下一个周期(下一个小时)，模态控制器再次获取流量矩阵、拓扑矩阵等网络信息(还包括负载信息、数据的丢包率与延迟)，并将其送给Agent2，使系统进入下一个循环。

综上，本发明首先从已分配给业务的原路径(链路)中挑选出部分目标路径，以减小业务所占用的链路数量，从而降低了因传输业务而需要的能耗。同时本发明还根据业务的历史流量预测业务的未来流量，根据预测出来的流量与目标路径的带宽利用率之间的关系，控制多模态网络中的节点启闭状态，以防止过多的节点服务于业务而提高能耗。综上所述，本发明采用确定目标路径和预测流量，能够降低能耗。

另外，本发明应用于多模态智慧网络，在其上承载的多种模态网络均可通过此方法进行动态调控。

本发明考虑调整流量流经的网元节点数量并将没有流量流经的网元节点置于休眠态而不是通过调整裕度比来降低能耗，在应对流量的潮汐效应时会更加灵活。

本发明采用了图卷积网络对下一时间段内的可能流量需求进行预测，并将预测结果输入至强化学习代理中，从而可以提前激活适当数量的节点来避免拥塞与节省能耗。

本发明也考虑了拓扑结构中邻接节点对特定节点的影响：部分节点邻接了数量较多的节点和/或其邻接节点负载较大，那么可以推测这些节点处于较为重要的位置，应倾向于将它们保持为激活态。

示例性装置

本实施例还提供一种多模态网络节点控制装置，所述装置包括如下组成部分：

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图7所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态网络节点控制方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该终端设备的温度传感器是预先在终端设备内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图7中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的多模态网络节点控制程序，处理器执行多模态网络节点控制程序时，实现如下操作指令：

依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标路，链路由多模态网络中的各个节点组成；

依据所述预测流量和所述目标链路的带宽利用率，控制所述多模态网络中的节点。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态网络节点控制方法，其特征在于，包括：

2.如权利要求1所述的多模态网络节点控制方法，其特征在于，所述依据用于传输业务的各个原链路的当前状态信息，从各个所述原链路中挑选出目标链路，链路由多模态网络中的各个节点组成，包括：

3.如权利要求2所述的多模态网络节点控制方法，其特征在于，所述依据各个所述原链路的所述带宽利用率、各个所述原链路所涵盖的所述节点数量，构建各个所述原链路的奖励函数，包括：

统计各个所述原链路所构成的链路总数；

计算各个所述原链路所涵盖的所述节点数量的倒数；

4.如权利要求2所述的多模态网络节点控制方法，其特征在于，所述依据各个所述原链路的奖励函数，从各个所述原链路中挑选出目标链路，包括：

获取针对所述业务设定的丢包率和时延；

将所述第一奖励函数取最大值时所对应的链路作为目标链路。

5.如权利要求1所述的多模态网络节点控制方法，其特征在于，所述对所述业务的历史流量信息应用已训练的图卷积网络模型，得到所述业务的预测流量，包括：

获取所述多模态网络用于服务所述业务的拓扑矩阵；

6.如权利要求1所述的多模态网络节点控制方法，其特征在于，已训练的图卷积网络模型的训练方式包括：

计算所述预测样本流量相对所述第二样本流量的均方误差；

7.如权利要求1所述的多模态网络节点控制方法，其特征在于，所述依据所述预测流量和所述目标链路的带宽利用率，控制所述多模态网络中的节点，包括：

8.如权利要求1所述的多模态网络节点控制方法，其特征在于，所述依据所述预测流量和所述目标链路的带宽利用率，控制所述多模态网络中的节点，包括：

9.如权利要求8所述的多模态网络节点控制方法，其特征在于，所述控制所述多模态网络中位于所述目标链路之外的节点传输所述业务，包括：

统计与所述休眠节点进行通信的节点总数，记为第一度；

统计与所述空负载节点进行通信的节点总数，记为第二度；

10.如权利要求9所述的多模态网络节点控制方法，其特征在于，所述依据所述第二奖励函数，控制位于所述目标链路之外的节点传输所述业务，包括：

控制所述目标节点传输所述业务。

11.一种多模态网络节点控制装置，其特征在于，所述装置包括如下组成部分：

12.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多模态网络节点控制程序，所述处理器执行所述多模态网络节点控制程序时，实现如权利要求1-10任一项所述的多模态网络节点控制方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有多模态网络节点控制程序，所述多模态网络节点控制程序被处理器执行时，实现如权利要求1-10任一项所述的多模态网络节点控制方法的步骤。