CN108880909B

CN108880909B - 一种基于强化学习的网络节能方法及装置

Info

Publication number: CN108880909B
Application number: CN201810753374.9A
Authority: CN
Inventors: 潘恬; 黄韬; 彭小雨; 边子政; 林兴晨; 宋恩格; 刘韵洁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2021-04-30
Anticipated expiration: 2038-07-10
Also published as: CN108880909A

Abstract

本申请实施例提供了一种基于强化学习的网络节能方法及装置，属于通信技术领域。所述方法包括：获取所述SDN网络当前的第一负载矩阵，其中，所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息；通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵，确定第一决策，其中，所述第一决策包括所述SDN网络中待调整的目标交换机的标识，以及所述目标交换机对应的控制指令，所述控制指令为开启指令或关闭指令；基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑。采用本发明，可以减少单次决策的生成时间。

Description

一种基于强化学习的网络节能方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于强化学习的网络节能方法及装置。

背景技术

交换机和路由器等网络设备，是SDN(Software Defined Network，软件定义网络)网络的基础设施及主要能源消耗点。在SDN网络中，为了保障连通的可靠性，网络控制器一般将各交换机和路由器始终保持在开启的状态。然而由于网络运行存在高峰与低谷时段，对网络设备的需求不定，始终满负荷运行网络设备，会造成SDN网络中空闲的冗余链路过多、整体能效差等问题。

针对这一问题，人们提出了Green TE(Green Traffic Enginerring,绿色流量工程)算法模型，Green TE算法模型通过网络控制器对网络进行建模，确定网络拓扑以及负载矩阵。然后根据启发式算法模型，计算可以进入睡眠状态的链路数量的最大值，同时确定要使用的目标链路、每条目标链路上要承载的流量。网络控制器在不影响网络正常工作的前提下，根据Green TE算法模型的计算结果，调整网络的拓扑结构，以减少冗余链路，从而促进网络级别的电源管理，进而允许更多网络设备或组件进入省电模式，最大限度地减少网络的功耗。

然而，由于Green TE算法模型计算复杂度高，计算量大，导致产生单次决策所需的计算时间过长，基于单次决策调整网络拓扑所需时间过长，无法适应大型网络的实时需求。

发明内容

本申请实施例的目的在于提供一种基于强化学习的网络节能方法及装置，以减少决策生成时间。具体技术方案如下：

第一方面，提供了一种基于强化学习的网络节能方法，所述方法应用于SDN网络中的服务器，所述方法包括：

获取所述SDN网络当前的第一负载矩阵，其中，所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息；

通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵，确定第一决策，其中，所述第一决策包括所述SDN网络中待调整的目标交换机的标识，以及所述目标交换机对应的控制指令，所述控制指令为开启指令或关闭指令；

基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑。

可选的，所述获取所述SDN网络当前的第一负载矩阵之前，还包括：

获取当前SDN网络中的各交换机的第一负载信息、以及所述当前SDN网络的第一网络拓扑信息；

基于所述第一负载信息、所述第一网络拓扑信息和预先存储的环境抽象方法，确定所述SDN网络的第一负载矩阵。

可选的，所述方法还包括：

初始化所述SDN网络；

获取初始化后的SDN网络的第二负载矩阵；

基于所述SDN网络的第二负载矩阵，对预设的初始算法模型进行训练，得到所述初始算法模型包含的各参数的目标参数值；

根据所述各参数的目标参数值和所述初始算法模型，确定所述人工智能AI决策算法模型。

可选的，所述初始化所述SDN网络，包括：

接收所述人工智能AI决策算法模型发送的初始化指令，其中，所述初始化指令用于指示开启所述SDN网络中所有交换机；

根据所述初始化指令，在所述SDN网络的多个主机中，启动带内遥测INT生成进程，以使所述多个主机生成并发送带内遥测INT包；

接收所述多个主机发出的带内遥测INT包，并根据接收到的所述带内遥测INT包，确定所述SDN网络的初始负载信息。

可选的，所述基于所述SDN网络的第二负载矩阵，对预设的初始算法模型进行训练，得到所述初始算法模型包含的各参数的目标参数值，包括：

根据预先存储的初始算法模型和所述第二负载矩阵，计算预先存储的策略集合中每个策略的执行概率，其中，所述策略集合包括开启或关闭所述SDN网络中任一交换机，以及空动作，所述空动作代表不开启或关闭任一交换机；

按照执行概率抽样所述策略集合，得到目标策略，并将目标策略作为第二决策；

针对每个第二决策，获取所述SDN网络的第二网络拓扑信息，同时更新所述第二网络拓扑信息对应的第二负载信息；

基于预先存储的网络评估函数，计算所述第二决策的收益值；

针对各第二决策，根据各第二决策对应的收益值、对应的第二负载矩阵、以及预先存储的损失函数，确定所述初始算法模型包含的各参数的目标参数值。

第二方面，提供了一种基于强化学习的网络节能装置，所述装置应用于SDN网络中的服务器，所述装置包括：

第一获取模块，用于获取所述SDN网络当前的第一负载矩阵，其中，所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息；

第一确定模块，用于通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵，确定第一决策，其中，所述第一决策包括所述SDN网络中待调整的目标交换机的标识，以及所述目标交换机对应的控制指令，所述控制指令为开启指令或关闭指令；

发送模块，用于基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑。

可选的，所述装置还包括：

初始化模块，用于初始化所述SDN网络；

第二获取模块，用于获取初始化后的SDN网络的第二负载矩阵；

训练模块，用于基于所述SDN网络的第二负载矩阵，对预设的初始算法模型进行训练，得到所述初始算法模型包含的各参数的目标参数值；

第二确定模块，用于根据所述各参数的目标参数值和所述初始算法模型，确定所述人工智能AI决策算法模型。

可选的，所述训练模块，包括：

第一计算子模块，用于根据预先存储的初始算法模型和所述第二负载矩阵，计算预先存储的策略集合中每个策略的执行概率，其中，所述策略集合包括开启或关闭所述SDN网络中任一交换机，以及空动作，所述空动作代表不开启或关闭任一交换机；

抽样子模块，用于按照执行概率抽样所述策略集合，得到目标策略，并将目标策略作为第二决策；

获取子模块，用于针对每个第二决策，获取所述SDN网络的第二网络拓扑信息，同时更新所述第二网络拓扑信息对应的第二负载信息；

第二计算子模块，用于基于预先存储的网络评估函数，计算所述第二决策的收益值；

确定子模块，用于针对各第二决策，根据各第二决策对应的收益值、对应的第二负载矩阵、以及预先存储的损失函数，确定所述初始算法模型包含的各参数的目标参数值。

第三方面，提供了一种服务器，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现第一方面所述的方法步骤。

第四方面，提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器：实现第一方面所述的方法步骤。

本发明实施例提供了一种基于强化学习的网络节能方法及装置，通过获取SDN网络当前的第一负载矩阵；然后通过预先存储的人工智能AI决策算法模型和第一负载矩阵，确定第一决策，并基于第一决策，向目标交换机发送控制指令，以调整SDN的网络拓扑。由于本方法根据人工智能AI决策算法模型，进行第一决策的计算，能够减少单次决策生成时间。

当然，实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于强化学习的网络节能的方法流程图；

图2为本发明实施例提供的一种基于强化学习的网络节能的方法流程图；

图3为本发明实施例提供的一种基于强化学习的网络节能的方法流程图；

图4为本发明实施例提供的一种基于强化学习的网络节能的装置结构示意图；

图5为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供了一种基于强化学习的网络节能方法，该方法应用于服务器，服务器是SDN(Software Defined Network，软件定义网络)网络中的网络控制器，或者，该方法也可以应用于SDN网络中除网络控制器以外的其他服务器，在该情况下，服务器可以与网络控制器进行交互，以实现本方案。本发明实施例以通过服务器与网络控制器交互来实现上述基于强化学习的网络节能方法为例进行说明，其他情况与之类似。本方法实施例中，服务器能够根据SDN网络的网络环境，调整SDN网络的网络拓扑，满足白天负载需求高，且夜晚负载需求低等网络管理需求，可以应用于数据中心网络，或骨干网。网络环境可以通过网络拓扑信息，以及SDN网络中各网络设备的负载信息等参数来表示。

SDN网络包括服务器、网络控制器、以及底层网络设备组成的数据平面。底层网络设备包括多个交换机、多个主机、多个虚拟交换机以及数据库。其中，服务器中预先存储有AI(Artificial Intelligence，人工智能)决策算法模型；交换机包括支持P4(programmingof protocol-independent packet processors，与协议无关的分组处理器的编程)语言的交换机，例如BMv2(Behavioral Model v2，行为模型v2)；虚拟交换机(Open v Switch，OVS)用于在网络控制器和主机、以及数据库之间预留单独的通信通道，以便安全地传递消息。

需要说明的是，SDN网络的网络拓扑信息包括SDN网络中各交换机的工作状态，以及各交换机间的链路连接状态，交换机的工作状态指该交换机处于开启或关闭状态，负载信息包括SDN网络的各交换机中待转发的数据包的个数。

SDN网络中的链路为以两个交换机为端点，以进行数据包传输为目的搭建的虚拟传输通道，链路的负载信息包括该链路包含的两交换机的负载信息。

SDN网络的工作流程为：SDN网络中的某一主机产生流量，并将流量以数据包的形式发送至与之相连的交换机。SDN网络中的各交换机中均存储有第一流表，第一流表是服务器基于当前SDN网络的网络拓扑信息以及负载信息，通过路由算法模型计算得到的，收到数据包的交换机按照第一流表，将该数据包发送至SDN网络中其他的交换机或主机。其中，服务器通过路由算法模型计算第一流表的过程为本领域的公知技术，此处不再赘述。

本发明实施例中，服务器会根据SDN网络的网络拓扑信息以及负载信息，调整网络拓扑。然后，服务器会根据调整后的网络拓扑计算第二流表，并将第二流表下发至SDN网络中的各交换机。这样，能够减少SDN网络中的冗余链路、节约网络功耗。

其中，SDN网络中各设备间的连接方式可以是多种多样的，例如，网络控制器可以与SDN网络中的每个主机保持TCP(Transmission Control Protocol，传输控制协议)连接。网络控制器与服务器，通过HTTP(HyperText Transfer Protocol，超文本传输协议)交换信息。

如图1所示，一种基于强化学习的网络节能方法的具体处理流程如下：

步骤101，获取SDN网络当前的第一负载矩阵。

其中，第一负载矩阵用于表示SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息。服务器内预先存储有处理周期、以及第一获取时间间隔。其中，处理周期可以根据服务器对SDN网络进行一次网络拓扑调整所需的时间间隔设置。第一获取时间间隔为从每个处理周期开始，至服务器通过网络控制器确定第一负载矩阵为止，所需的时间间隔。

在实施中，在每个处理周期内，服务器按照预设的第一时间间隔，通过AI决策算法模型，获取网络控制器中存储的对应于SDN网络当前处理周期的第一负载矩阵。

可选的，服务器通过网络控制器，确定第一负载矩阵的具体过程如下：

步骤一，获取当前SDN网络中各交换机的第一负载信息、以及当前SDN网络的第一网络拓扑信息。

在实施中，服务器内预先存储有第二获取时间间隔，与第一获取时间间隔类似，第二获取时间间隔为从每个处理周期开始，至服务器通过数据库接收到所有主机发送的第一网络拓扑信息以及第一负载信息为止，所需的时间间隔。

在每个处理周期的开始时刻，服务器通过SDN网络中的各主机，收集当前处理周期内，SDN网络的第一网络拓扑信息，以及SDN网络中各交换机的第一负载信息。然后服务器通过各主机，将第一网络拓扑信息和第一负载信息存储至数据库中。

服务器按照预设的第二获取时间间隔，通过网络控制器，获取数据库中存储的当前处理周期对应的第一网络拓扑信息、以及第一负载信息。

步骤二，基于第一负载信息、第一网络拓扑信息和预先存储的环境抽象方式，确定SDN网络的第一负载矩阵。

在实施中，环境抽象方式是一种将SDN网络的当前网络环境量化为矩阵形式的表示方法。服务器可以预先存储有一种或多种环境抽象方式，并根据调试人员的选择指令，选择某一种环境抽象方式。

服务器通过网络控制器和环境抽象方式，将第一负载信息包含的各交换机的负载情况，以及第一网络拓扑信息包含的各交换机间的链路连接情况，转换为矩阵形式的第一负载矩阵。

本发明实施例提供了一种环境抽象方式，服务器基于环境抽象方式，确定第一负载矩阵的具体处理过程如下：

服务器根据SDN网络中交换机的个数确定初始负载矩阵的维度，针对SDN网络中的每个交换机，将该交换机作为数据包的发送者，将SDN网络中的其他交换机作为数据包的接收者，然后确定相应的链路，以及各链路对应的矩阵元素值在初始负载矩阵中的位置。之后，服务器将对应链路的负载信息量化为整数，作为矩阵元素值。

具体的，如果两个交换机之间不存在连接，那么相应的矩阵元素值记为0。如果两个交换机之间存在连接，且两个交换机均处于开启状态，那么在这两个交换机间存在两条链路，每条链路的矩阵元素值均为正整数。如果一个交换机处于关闭状态，那么以该交换机为端点的任何一条链路的矩阵元素值都记为-1。

由此，服务器可以确定出SDN网络中各链路对应的矩阵元素值。然后，服务器根据各矩阵元素值，以及各矩阵元素值在初始负载矩阵中的相应位置，确定初始负载矩阵。

例如，当SDN网络中存在n个交换机时，初始负载矩阵为n×n的矩阵，用P表示。用s表示交换机，交换机s1与交换机s2均处于开启状态，从交换机s1到交换机s2的链路中存在9个数据包，那么将9作为矩阵元素值写入P₁₂的位置，与它相反的链路，即从交换机s2到交换机s1的链路中存在5个数据包，那么将5作为矩阵元素值写入P₂₁的位置。

服务器可以将初始负载矩阵直接作为第一负载矩阵，也可以将初始负载矩阵转换为列矩阵，并将该列矩阵作为第一负载矩阵。

步骤102，通过预先存储的人工智能AI决策算法模型和第一负载矩阵，确定第一决策。

其中，第一决策包括SDN网络中待调整的目标交换机的标识，以及目标交换机对应的控制指令，控制指令为开启指令或关闭指令。此外，服务器预先存储有多个策略，每个策略包括SDN网络中某一个交换机的标识，以及开启或关闭该交换机的动作标识。

在实施中，服务器通过AI决策算法模型对第一负载矩阵进行计算，得到一个策略。服务器根据该策略中某一交换机的标识，确定该交换机为目标交换机，然后根据该策略中开启或关闭的动作标识，确定对应的开启指令或关闭指令为控制指令。之后，服务器将目标交换机的标识、以及控制指令作为第一决策。

步骤103，基于第一决策，向目标交换机发送控制指令，以调整SDN网络的网络拓扑。

在实施中，服务器基于第一决策中待调整的目标交换机的标识，确定目标交换机，然后通过网络控制器，向目标交换机发送开启指令或关闭指令。服务器通过目标交换机和控制指令，开启或关闭该交换机，以调整SDN网络的网络拓扑。

之后，服务器根据调整后的网络拓扑计算第二流表，并将第二流表下发至SDN网络中的各交换机，以便SDN网络中的各交换机根据第二流表进行数据传输。

可选的，如图2所示，本方案在根据一种基于强化学习的网络节能方法，调整SDN网络的网络拓扑之前，还需要对服务器包含的AI决策算法模型进行训练，本发明实施例提供了训练的过程，具体如下：

步骤201，初始化SDN网络。

在实施中，服务器中预先存储有第一训练周期，其中，第一训练周期为服务器通过网络控制器，初始算法模型以及初始算法模型包含的各参数的目标参数值，确定AI决策算法模型所需的时间。

服务器可以在每个第一训练周期的开始时刻，或者，在接收到调试人员发出的初始化指令时，通过网络控制器，对SDN网络进行初始化。

需要说明的是，服务器还可以在第一次执行本发明实施例所提供的一种基于强化学习的网络节能方法时，对SDN网络进行初始化。

可选的，步骤201的具体处理流程包括以下步骤：

步骤一、接收人工智能AI决策算法模型发送的初始化指令。

其中，初始化指令用于指示开启SDN网络中所有交换机。

在实施中，服务器中预先存储有初始化指令。服务器在每个第一训练周期的开始时刻，或者，在调试人员发出初始化指令时，通过网络控制器接收该初始化指令。

需要说明的是，初始化指令还包含初始网络拓扑信息，初始网络拓扑信息为服务器预设的网络拓扑信息，调试人员可根据调试需求更改初始网络拓扑信息。初始化指令可以是HTTP请求。

步骤二、根据初始化指令，在SDN网络的多个主机中，启动带内遥测INT生成进程，以使多个主机生成并发送带内遥测INT包。

在实施中，服务器基于初始化指令，通过网络控制器，发送预先存储的开启指令至SDN网络的各交换机，以将各交换机置于开启状态。

然后，服务器基于初始化指令包含的初始网络拓扑信息，通过网络控制器，计算每台主机上发送的INT(In-band Network Telemetry，带内遥测)包的转发路径信息，并将该转发路径信息随着INT生成指令一起发送至SDN网络中的各主机。针对每个主机，服务器会通过该主机，启动INT生成进程，以在每个主机内生成INT包，同时将转发路径信息封装进每个INT包中。

之后，服务器通过各主机，以及各主机与其他主机或交换机的连接链路，将各主机对应的INT包发送至SDN网络中。每个INT包根据转发路径信息访问SDN网络中相应的交换机，记录探测路径信息。探测路径信息包括该INT包访问的各交换机的标识，以及各交换机的负载信息。负载信息还包括某一交换机的多个端口信息以及各端口存储的数据包个数。

服务器可以基于各INT包，获取每个INT包探测路径上相应的交换机的负载信息。

需要说明的是，服务器会通过各主机，启动后台流量生成程序，以产生流量。服务器通过每个主机，将该主机产生的流量，根据预先存储的数据协议封装为数据包。然后，服务器通过每个主机，将该主机对应的数据包，发送至与该主机连接的交换机。

本发明实施例中，服务器只需在对服务器包含的AI决策算法模型进行训练时，通过各主机启动后台流量生成程序，以产生流量。训练结束后，在SDN网络的运行期间，服务器不需要执行这一处理。

服务器还会基于初始化指令包含的初始网络拓扑信息，通过网络控制器和预先存储的路由算法模型，计算第一流表，并将第一流表安装到各交换机中。路由算法模型包括OSPF-ECMP(Open Shortest Path First-Equal Cost Multi-Path,开放式最短路径优先-等价路径负载均衡)。各交换机可以根据第一流表，确定接收到的数据包的转发路径。

步骤三、接收多个主机发出的带内遥测INT包，并根据接收到的带内遥测INT包，确定SDN网络的初始负载信息。

在实施中，服务器可以通过各主机，接收SDN网络中其他主机发送的INT包，然后将接收到的INT包写入预先存储的数据库中。

服务器可以按照预设的获取时间，通过网络控制器，获取数据库中存储的各INT包，然后根据各INT包包含的各交换机标识，以及各交换机对应的负载信息，确定SDN网络的初始负载信息。获取时间可以由调试人员预先设置，例如1s。

本发明实施例中，在SDN网络运行期间，各主机可以持续生成INT包、发送INT包、以及接收其他主机发出的INT包，然后存储至数据库，以便实时更新SDN网络的第一负载信息、以及第一网络拓扑信息。

步骤202，获取初始化后的SDN网络的第二负载矩阵。

在实施中，服务器根据网络控制器，SDN网络的初始负载信息，以及初始化指令包含的初始网络拓扑信息，确定初始化后的SDN网络的第二负载矩阵，然后，服务器通过AI决策算法模型，获取第二负载矩阵。

步骤203，基于SDN网络的第二负载矩阵，对预设的初始算法模型进行训练，得到初始算法模型包含的各参数的目标参数值。

在实施中，服务器中预先存储有第二训练周期，其中，第二训练周期为服务器从获取第二负载矩阵开始，到基于第二决策改变SDN网络的网络拓扑为止所需的时间，即，一个第二决策的产生以及执行对应一个第二训练周期。

需要说明的是，服务器中还预先设置有初始算法模型，初始算法模型包括强化学习算法模型，强化学习算法模型包含神经网络，神经网络可以是任一神经网络，比如卷积神经网络、循环神经网络。

在每个第二训练周期中，服务器根据初始算法模型和SDN网络的第二负载矩阵，确定第二决策。然后，服务器基于第二决策改变SDN网络的网络拓扑，获取更改后的网络拓扑对应的第二网络拓扑信息以及第二负载信息，并根据预先存储的收益计算函数，计算第二决策的收益。

之后，服务器根据每个第二训练周期对应的第二负载矩阵、第二决策、以及第二决策的收益，确定相应的训练数据。服务器在达到预设的处理条件时，通过各训练数据和预先存储的损失函数，确定初始算法模型包含的各参数的目标参数值。该处理条件可以是抽样结束，或者每当产生的第二决策数量达到预设的处理阈值。

本发明实施例中，强化学习算法模型的作用是基于网络环境与第二决策的交互进行训练，以使第二决策的收益值最大。其基本原理是：如果某个策略的收益值为正值，强化学习算法模型产生这个策略的趋势便会加强。使用强化学习算法模型的目的，是基于当前网络环境，计算使收益值最大化的最优决策。

步骤204，根据各参数的目标参数值和初始算法模型，确定人工智能AI决策算法模型。

在实施中，服务器将初始算法模型包含的神经网络中的各参数，替换为对应的目标参数值，由此确定AI决策算法模型。

可选的，如图3所示，步骤203的具体处理过程如下：

步骤301，根据预先存储的初始算法模型和第二负载矩阵，计算预先存储的策略集合中每个策略的执行概率。

其中，服务器中预先存储有策略集合。策略集合包括开启或关闭SDN网络中任一交换机，以及空动作，空动作代表不开启或关闭任一交换机。每个策略对应一个动作，服务器可以通过不同的动作标识来表示各策略。

例如，SDN网络的网络拓扑中存在n个交换机，分别用S1、S2、S3……Sn表示。用动作标识S1_on表示开启S1的策略，相应的，用动作标识S1_off表示关闭S1的策略，用动作标识

表示空动作，那么策略集合可以表示为{S1_on,S1_off,S2_on,S2_off…Sn_on,Sn_off,

}，由此可知，策略集合包括的集合元素有2n+1个，即策略集合对应的策略为2n+1个。

在实施中，服务器根据初始算法模型和第二负载矩阵，计算策略集合中每个策略的执行概率。

本发明实施例提供了一种计算策略集合中每个策略的执行概率的公式，具体如下：

其中，ReLU代表神经网络的激活函数，k为神经网络中神经元的层数，

代表神经网络中第k层神经元的权重矩阵，T表示转置，b_k代表第k层神经元的偏置向量；h_k与h_k-1分别代表AI决策算法模型通过神经网络前向传播，计算得到的对应于第k层以及第k-1层神经元的中间变量。π代表策略集合中各策略a的执行概率，s代表网络环境；e为自然底数，i表示第i个决策，N为SDN网络中交换机的总个数，y_i表示神经网络输出层输出的h_k中第i维度的值，h_k的维度有2N+1个，第i维度对应第i决策。

步骤302，按照执行概率抽样策略集合，得到目标策略，并将目标策略作为第二决策。

在实施中，服务器通过初始算法模型，按照执行概率抽样策略集合中所有的动作标识，将抽样出的动作标识对应的关闭或开启某一交换机，作为目标动作，将该交换机作为目标交换机，然后根据目标动作和目标交换机的标识，确定第二决策，并将第二决策发送至网络控制器。

当抽样出的动作标识对应空动作时，服务器结束抽样。

需要说明的是，策略集合中各策略对应的动作分为可执行动作与不可执行动作两种，可执行动作代表执行该动作不会破坏SDN网络中的连通性，不可执行动作代表执行该动作会破坏SDN网络的连通性。服务器可以通过初始算法模型，判断目标动作是否属于可执行动作。当目标动作为可执行动作时，服务器将该目标动作对应的第二决策发送至网络控制器。当目标动作为不可执行动作时，服务器将该目标动作对应的第二决策的收益值记为负值。

本发明实施例中，由于采用了AI决策算法模型，每一个决策的产生，均由服务器根据当前SDN网络的网络环境做出，简化了人力设计成本。

同时，由于AI决策算法模型包含神经网络，每个决策的产生均由神经网络的前向传播得出，能够极大的减少决策的计算时间，加速服务器的网络拓扑调整过程，使服务器能够实时处理SDN网络的流量动态，减小服务器处理的粒度。

步骤303，针对每个第二决策，获取SDN网络的第二网络拓扑信息，同时更新第二网络拓扑信息对应的第二负载信息。

在实施中，在每个第二训练周期中，服务器基于该第二训练周期对应的第二决策，通过网络控制器，以开启或关闭目标交换机的形式改变网络拓扑，然后根据更改后的网络拓扑，获取第二网络拓扑信息。

之后，服务器通过数据库获取当前第二训练周期内，各主机发送的INT包，进而基于各INT包，确定第二网络拓扑信息对应的第二负载信息。

需要说明的是，第一负载信息为执行第二决策前，SDN网络的负载信息，相应的，第一网络拓扑信息为执行第二决策前，SDN网络的网络拓扑信息。

在第一个第二训练周期内，第一负载信息为初始负载信息，第一网络拓扑信息为初始网络拓扑信息。当前第二训练周期内的第二网络拓扑信息，即为下一个第二训练周期的第一网络拓扑信息。相应的，当前第二训练周期内的第二负载信息，即为下一个第二训练周期的第一负载信息。

本发明实施例中，服务器可以通过更改第一流表，模拟开启或关闭目标交换机。具体过程为，当第二决策为关闭目标交换机时，服务器将经过目标交换机的数据包，重新分配至SDN网络中其他处于开启状态的交换机，以进行转发。当第二决策为开启目标交换机时，将经过其他交换机的数据包，重新分配至目标交换机，以进行转发。

服务器可以通过更改第一流表，模拟开启或关闭目标交换机的方法，获取模拟的第二网络拓扑信息、以及模拟的第二负载信息。

步骤304，基于预先存储的网络评估函数，计算第二决策的收益值。

在实施中，服务器内预先存储有网络评估函数。在每个第二训练周期结束时，服务器通过网络控制器，将执行该第二决策前的第一网络拓扑信息，以及执行第二决策后的第二网络拓扑信息带入网络评估函数中进行计算，然后，将计算结果作为该第二决策对应的收益值。

本发明实施例提供了一种网络评估函数的表达式，具体如下：

v(s)＝-n-kN_l (3)

其中，v代表网络评估函数，s代表SDN网络的网络环境，n为SDN网络中处于开启状态的交换机的个数，N_l为SDN网络中拥塞链路的条数，拥塞链路为链路中数据包个数超过设定阈值的链路。k代表拥塞链路的惩罚因子，k可以由调试人员预先设置。服务器可以针对SDN网络的各链路，通过比较该链路中数据包的个数与预设的数据包数量阈值，确定拥塞链路的条数N_l。具体地，如果某一链路中的数据包个数大于预设的数据包数量阈值，则该链路是拥塞链路；如果某一链路中的数据包个数小于或等于预设的数据包数量阈值，则该链路不是拥塞链路。

本发明实施例还提供了一种计算第二决策的收益值的方法，表达式具体如下：

r_i＝v(s_i)-v(s_i-1) (4)

其中，i代表第二决策，r_i为第二决策i的收益值，s_i代表执行第二决策后的网络环境，s_i-1代表执行第二决策前的网络环境。

本发明实施例中，第二决策的收益值，代表了目标动作给SDN网络的功耗带来了多大的改善程度。

步骤305，针对各第二决策，根据各第二决策对应的收益值、对应的第二负载信息、以及预先存储的损失函数，确定初始算法模型包含的各参数的目标参数值。

在实施中，服务器通过初始算法模型，针对第一训练周期内的各第二决策，将每个第二决策的对应的第二负载矩阵、对应的目标动作，以及对应的收益值作为一个单位的训练数据。例如，针对第二决策i，将第二负载矩阵P_i、对应的目标动作a_i，收益值r_i构成一个单位的训练数据，用[P_i，a_i，r_i]表示。

服务器可以选取初始算法模型包含的多个参数中的某一个参数，将各第二决策对应的训练数据，与该参数输入至预先存储的损失函数中，将损失函数的计算结果作为该参数对应的目标参数值。

这样，得到初始算法模型包含的各参数的目标参数值。

服务器可以在训练结束时，也可以在每当产生的第二决策数量达到预设的阈值时，通过初始算法模型，确定初始算法模型包含的各参数的目标参数。

本发明实施例提供了一种损失函数的表达式，具体如下：

其中，L代表损失函数，θ为初始算法模型包含的参数。其他参数的含义文中已经解释，此处不再赘述。

本发明实施例提供了一种基于强化学习的网络节能方法，通过获取SDN网络当前的第一负载矩阵；然后通过预先存储的人工智能AI决策算法模型和第一负载矩阵，确定第一决策，并基于第一决策，向目标交换机发送控制指令，以调整SDN的网络拓扑。由于本方法根据人工智能AI决策算法模型，进行第一决策的计算，能够减少单次决策生成时间。

本发明实施例还提供了一种基于强化学习的网络节能装置，所述装置应用于SDN网络中的服务器，如图4所示，所述装置包括：

第一获取模块410，用于获取所述SDN网络当前的第一负载矩阵，其中，所述第一负载矩阵用于表示所述SDN网络的网络拓扑信息、以及SDN网络中各交换机的负载信息；

第一确定模块420，用于通过预先存储的人工智能AI决策算法模型和所述第一负载矩阵，确定第一决策，其中，所述第一决策包括所述SDN网络中待调整的目标交换机的标识，以及所述目标交换机对应的控制指令，所述控制指令为开启指令或关闭指令；

发送模块430，用于基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑。

可选的，所述装置还包括：

初始化模块，用于初始化所述SDN网络；

可选的，所述训练模块，包括：

本发明实施例提供了一种基于强化学习的网络节能方法及装置，通过获取预先存储的SDN的第一负载矩阵；然后通过预先存储的人工智能AI决策算法模型和第一负载矩阵，确定第一决策；并基于第一决策，向目标交换机发送控制指令，以调整SDN的网络拓扑。由于本方法根据人工智能AI决策算法模型，进行第一决策的计算，能够减少单次决策生成时间。

本发明实施例还提供了一种服务器，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，以使该交换机设备执行如下步骤，该步骤包括：

可选的，所述方法还包括：

初始化所述SDN网络；

获取初始化后的SDN网络的第二负载矩阵；

可选的，所述初始化所述SDN网络，包括：

机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种基于强化学习的网络节能方法，其特征在于，所述方法应用于SDN网络中的服务器，所述方法包括：

基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑；

所述方法还包括：

初始化所述SDN网络；

获取初始化后的SDN网络的第二负载矩阵；

根据所述各参数的目标参数值和所述初始算法模型，确定所述人工智能AI决策算法模型；

所述基于所述SDN网络的第二负载矩阵，对预设的初始算法模型进行训练，得到所述初始算法模型包含的各参数的目标参数值，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述SDN网络当前的第一负载矩阵之前，还包括：

基于所述第一负载信息、所述第一网络拓扑信息和预先存储的环境抽象方式，确定所述SDN网络的第一负载矩阵。

3.根据权利要求1所述的方法，其特征在于，所述初始化所述SDN网络，包括：

4.一种基于强化学习的网络节能装置，其特征在于，所述装置应用于SDN网络中的服务器，所述装置包括：

发送模块，用于基于所述第一决策，向所述目标交换机发送所述控制指令，以调整所述SDN网络的网络拓扑；

所述装置还包括：

初始化模块，用于初始化所述SDN网络；

第二确定模块，用于根据所述各参数的目标参数值和所述初始算法模型，确定所述人工智能AI决策算法模型；

所述训练模块，包括：

5.一种服务器，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-3任一所述的方法步骤。

6.一种机器可读存储介质，其特征在于，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器：实现权利要求1-3任一所述的方法步骤。