CN107547379A

CN107547379A - 软件定义网络中生成路由控制动作的方法和相关设备

Info

Publication number: CN107547379A
Application number: CN201610465236.1A
Authority: CN
Inventors: 简波尼亚斯·乔治; 陈志堂; 耿彦辉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2018-01-05
Anticipated expiration: 2036-06-23
Also published as: WO2017219890A1; US20190123974A1; US10686672B2; CN107547379B

Abstract

本发明实施例提供软件定义网络中生成路由控制动作的方法和相关设备，能够为SDN提供最佳控制动作。该方法包括：获取该SDN的当前网络状态参数；根据该SDN的当前网络状态参数和深度神经网络模型，确定该SDN的Q函数，其中该深度神经网络模型是基于该SDN的当前拓扑结构确定的；根据该Q函数和该SDN的每条链路的链路状态参数，确定该SDN的路由控制动作。上述技术方案将深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。

Description

软件定义网络中生成路由控制动作的方法和相关设备

技术领域

本发明实施例涉及信息技术领域，并且更具体地，涉及软件定义网络中生成路由控制动作的方法和相关设备。

背景技术

现有技术中的网络路由算法是基于固定的网络拓扑结构。该现有技术中的网络路由算法不会考虑网络实时的流量分布情况。典型的现有技术中的网络路由算法包括：最短路径路由，等代价多路径路由等。由于不考虑实时的网络流量分布，现有技术中的网络路由算法很难实现负载均衡，容易导致网络拥塞。此外，现有技术中的网络路由算法自适应性差。当网络拓扑结构发生改变时，需要人工根据新的网络拓扑结构，重新设置路由。

软件定义网络(英文：Software Defined Network，简称“SDN”)通过开放流(英文：OpenFlow)技术将原来完全由交换机/路由器控制的转发过程转化为由SDN交换机(英文：SDN Switch)和控制器(英文：Controller)共同完成，实现数据转发和路由控制的分离。由于数据转发和路由控制的分离，SDN交换机转发表可以通过控制器进行配置，因而可以实现动态更新。控制器具有全局信息观测能力。因此，可以利用SDN的上述特性设计出一种路由控制策略，以便为该SDN提供最佳控制动作。

发明内容

本发明实施例提供软件定义网络中生成路由控制动作的方法和相关设备，能够为SDN提供最佳控制动作。

第一方面，本发明实施例提供一种SDN中生成路由控制动作的方法，该方法包括：获取该SDN的当前网络状态参数，该SDN的当前网络状态参数包括以下中的一种或多种：该SDN的当前最大链路利用率、该SDN的当前最大链路均匀共享、该SDN的当前负归一化流完成时间、该SDN的当前负最大链路活跃大象流数；根据该SDN的当前网络状态参数和深度神经网络模型，确定该SDN的Q函数，其中该深度神经网络模型是基于该SDN的当前拓扑结构确定的；根据该Q函数和该SDN的每条链路的链路状态参数，确定该SDN的路由控制动作，其中该链路状态参数包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。上述技术方案中确定Q函数是使用的网络状态参数可以反映链路中拥塞程度、队列长度等信息。因此，确定出的Q函数可以生成的路由控制动作更好。此外，通过深度神经网络，能够逐层提取抽象出原始网络状态数据的有用信息。综上所述，将深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。

结合第一方面，在第一方面的第一种可能的实现方式中，该根据该SDN的当前网络状态参数和深度神经网络模型，确定该SDN的Q函数之前，该方法还包括：获取该SDN的当前拓扑结构；根据该SDN的当前拓扑结构，确定该深度神经网络模型。上述技术方案中，深度神经网络模型是根据该SDN的当前拓扑结构确定的。也就是说，在SDN结构发生变化的情况下，可以根据SDN结构的变化，更新深度神经网络模型，进而使用更新的深度神经网络模型确定更新的Q函数以及不同链路状态参数下更新的最佳控制动作。因此本技术方案具有自适应鲁棒控制效果。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，该获取该SDN拓扑结构，包括：获取该SDN的层数目N、该SDN的网元数目、该SDN中网元的连接关系以及该SDN中每一层连接结构的对称性，N为大于或等于2的正整数；该根据该SDN拓扑结构，确定该深度神经网络模型，包括：根据该SDN的层数目N，确定该深度神经网络模型的隐藏层数目；根据该SDN的网元数目、该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中的神经元的数目和类型；根据该SDN中网元的连接关系，确定该深度神经网络模型相邻两层的连接结构；根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的连接权重的对称性。上述技术方案在确定深度神经网络模型时考虑到了SDN的拓扑结构以及链路之间的连接关系。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，该根据该SDN的网元数目、该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中的神经元的数目和类型：根据该SDN的网元数目和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中输入层的神经元的数目和类型，其中该输入层的神经元包括至少一个状态神经元、至少一个源神经元、至少一个目的神经元和至少一个中间神经元，其中每个状态神经元对应于该每条链路的每个链路状态参数，每个源神经元对应于进入该SDN的每个边缘交换机，每个目的神经元对应于离开该SDN的每个边缘交换机，每个中间神经元对应于每个路由控制动作选择的中间转发交换机；根据该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中隐藏层的神经元的数目和类型，其中，该隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与该SDN的第二层的交换机对应的神经元，其中，该m₁条链路是该SDN的第一层与第二层之间的链路，该m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数；该隐藏层的第N层中包括该至少一个目的神经元；若N为大于2的正整数，则该隐藏层的第k层还包括与m_k条链路对应的m_k个自关联结构以及与该SDN的第k层和第k+1层的交换机对应的神经元，其中，该m_k条链路是该SDN的第k层与第k+1层之间的链路，该m_k个自关联结构中的每个自关联结构包括多个神经元，k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。上述技术方案能够根据SDN的物理网络层次化结构，构建出具有相同层次化结构的深度神经网络模型。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，该根据该SDN中网元的连接关系，确定该深度神经网络模型相邻两层的连接结构，包括：根据该SDN中网元的连接关系，确定与该隐藏层中的每个自关联结构对应的神经元，以及该隐藏层中的与交换机对应的神经元之间的对应关系；确定该隐藏层中的每个自关联结构与该输入层中对应的神经元相连；该隐藏层的第二层中与该SDN第二层的第一交换机对应的第一神经元与该隐藏层的第一层中对应的自关联结构以及该隐藏层的第一层中与该第一交换机对应的神经元连接，其中该第一交换机为该SDN第二层的任一个交换机；若N为大于2的正整数，则该隐藏层的第k+1层中与该SDN第k+1层的第二交换机对应的第二神经元与该隐藏层的第k层中对应的自关联结构、该隐藏层的第k层中与第二交换机对应的神经元以及该隐藏层的第k层中与该第二神经元对应的神经元连接，该第二交换机为该SDN第n层的任一个交换机。上述技术方案能够根据SDN的物理网络连接特性，构建出具有相同连接特性的深度神经网络模型。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，该根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的连接权重的对称性，包括：根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的隐藏层中每一层的连接权重的对称性，其中该隐藏层中任一自关联结构的权重为该任一自关联结构所属层的连接权重。上述技术方案，根据物理网络的结构对称性采用权重共享机制，大大降低了神经网络的参数搜索空间，加快了深度神经网络模型学习速率。

结合第一方面或第一方面的上述任一种可能的实现方式，在第一方面的第六种可能的实现方式中，该根据该当前网络状态参数和基于该SDN的当前拓扑结构确定的深度神经网络模型，确定Q函数，包括：使用以下公式确定该Q函数：

Q(s,a)←Q(s,a)+η[R(s,a)+γmax_a′Q(s′,a′)-Q(s,a)]，

其中，R(s,a)是当该SDN的状态为s的情况下采取控制动作a的反馈。η表示强化学习速率，γ是折扣常数。Q(s,a)表示当该SDN的状态为s选取控制动作a带来的反馈，Q(s′,a′)表示当该SDN的状态为s^′且选取的控制动作为a′带来的反馈。

第二方面，本发明实施例还提供一种SDN中生成路由控制动作的设备，该设备包括执行第一方面或第一方面的各种可能的实现方式中各个步骤的单元。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的SDN中生成路由控制动作的示意性流程图。

图2是一种SDN的拓扑结构示意图。

图3是与图2所示的SDN对应的深度神经网络模型的示意图。

图4是另一种SDN的拓扑结构示意图。

图5是与图4所示的SDN对应的深度神经网络模型的示意图。

图6是根据本发明实施例提供的另一SDN中生成路由控制动作的方法的示意性流程图。

图7是根据本发明实施例提供的SDN中生成路由控制动作的设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

101，根据该SDN的层数N，确定该深度神经网络模型的隐藏层数目N，其中该SDN为具有多层次拓扑结构的SDN。

除隐藏层外，该深度神经网络模型还包括输入层和输出层。

102，根据该SDN的拓扑结构和该SDN的每条链路的链路状态参数，确定该输入层的神经元的数目和类型。

具体地，链路状态参数可以包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。根据该SDN的拓扑结构，可以确定出进入该SDN的边缘交换机，离开该SDN的边缘交换机，以及在数据在该SDN中经过的中间转发交换机。

该深度神经网络模型输入层的神经元包括对应于链路状态参数的神经元(以下简称：状态神经元)、对应于进入SDN的边缘交换机的神经元(以下简称：源神经元)、对应于离开SDN的边缘交换机的神经元(以下简称：目的神经元)和对应于中间转发交换机的SDN神经元(以下简称：中间神经元)。每个状态神经元对应于每个链路的每个链路状态参数。每个源神经元对应每个进入该SDN的边缘交换机。每个目的神经元对应于每个离开该SDN的边缘交换机。每个中间神经元对应于该SDN中的每个中间转发交换机。

103，确定隐藏层中的神经元的数目和类型以及神经元之间的连接关系。

确定隐藏层的第一层的神经元。该隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与该SDN的第二层交换机对应的神经元。该m₁条链路是该SDN的第一层与第二层之间的链路。该m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数。自关联结构是一个小型神经网络。这个小型神经网络的输入层可以有多个输入神经元。例如，可以有三个输入神经元，这三个输入神经元分别对应于一条链路的状态神经元以及与该链路对应的两个神经元的输出。可以理解，链路是两个交换机之间传输数据的路径。因此，每条链路包括两个端点。这两个端点就是两个交换机。这两个交换机中的每个交换机都有一个对应的神经元。该链路对应的神经元就是与这两个端点的交换机对应的两个神经元。这个小型神经网络的输出层只有一个神经元。这个小型神经网络的隐藏层层数可以自定义。但是，隐藏层的层数一般不会有很多层。例如，隐藏层层数可以是2层或3层。这个小型神经网络的层与层之间可以是全连接，即上一层的所有神经元与下一层的所有神经元都有连接。自关联结构对应的神经元可以包括该自关联结构的输入层所对应的三个神经元，即一条链路的状态神经元以及与该链路对应的两个神经元。因此，该自关联结构可以称为该链路对应的自关联结构。

确定该隐藏层的第N层神经元。该隐藏层的第N层神经元包括至少一个目的神经元。

若N为大于2的正整数，则确定该隐藏层的第k层的神经元。该隐藏层的第k层包括与m_k条链路对应的m_k个自关联结构以及与该SDN的第k层和第k+1层的交换机对应的神经元。该m_k条链路是该SDN的第k层与第k+1层之间的链路。与该隐藏层的第一层类似，该自关联结构也是包括多个神经元的小型神经网络。具体描述可以参见隐藏层第一层中的描述，在此就不必赘述。k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。

在确定了神经元后，该深度神经网络模型的神经元之间的连接关系也可以确定了。

具体地，可以根据个SDN中网元的连接关系，确定隐藏层中每个自关联结构对应的神经元，以及隐藏层中的与交换机对应的神经元之间的连接关系。例如，一个对应于交换机S1到交换机S3之间的链路L13的自关联结构对应的神经元为链路L13对应的状态神经元、交换机S1对应的神经元和交换机S3对应的神经元。假设交换机S3与交换机S1和交换机S5之间均存在链路。那么交换机S3对应的神经元对应的神经元包括交换机S1对应的神经元和交换机S5对应的神经元。

该隐藏层中的每个自关联结构与输入层中对应的神经元相连。

该隐藏层的第二层中与该SDN的第二层的每个交换机对应的每个神经元与该隐藏层的第一层中对应的自关联结构以及该隐藏层的第一层中与该每个交换机对应的神经元连接。

例如，假设神经元3是该隐藏层的第二层中与交换机S3对应的神经元，交换机S3与交换机S1之间具有链路L13，交换机S1是SDN第一层的一个交换机，交换机S3是该SDN的第二层的一个交换机。那么神经元3则与隐藏层第一层中与链路L13对应的自关联结构连接，并与隐藏层的第一层的与交换机S3对应的神经元连接。

若N为大于2的正整数，则该隐藏层的第k+1层中与该SDN第k+1层的每个交换机对应的每个神经元与该隐藏层的第k层中对应的自关联结构、该隐藏层的第k层中与该每个交换机对应的神经元以及该隐藏层的第k层中与该每个神经元对应的神经元连接。

例如，假设神经元5是该隐藏层的第三层中与交换机S5对应的神经元，交换机S5与交换机S3之间具有链路L35，交换机S3是SDN第二层的一个交换机，交换机S5是该SDN的第三层的一个交换机。那么神经元5则与隐藏层第二层中与链路L35对应的自关联结构连接，并与隐藏层的第二层的与交换机S3对应的神经元和隐藏层的第二层的与交换机S5对应的神经元连接。

进一步，隐藏层中同一层中所有的自关联结构的连接权重均相同。连接权重可以通过强化学习得到。不同层的自关联结构采用不同的连接权重。

104，确定该深度神经网络模型输出层的神经元的数目和类型。

该输出层的神经元包括一个神经元，该神经元与该深度神经网络模型隐藏层中的第N层神经元连接。该输出层的神经元输出Q函数值。

该SDN的初始路由规则可以是预设的，例如随机路由规则。若一个交换机处于激活状态为肯定(即该交换机有数据输入或输出)，则该交换机对应的神经元可以得到一个肯定输出信号，该肯定输出信号可以是任意实数，本发明并不限制。相应的，若一个交换机处于激活状态为否定(即该交换机没有数据输入或输出)，则该交换机对应的神经元可以得到一个否定输出信号，该否定输出信号可以是一个不同于肯定输出信号的实数，本发明并不限定。交换机的激活状态以及交换机对应的链路的链路状态参数，可以作为Q函数学习过程中的状态s。数据传输过程中产生的当前网络状态参数可以作为Q函数学习过程中的反馈。

Q函数学习过程可以通过以下公式实现：

Q(s,a)←Q(s,a)+η[R(s,a)+γmax_a′Q(s′,a′)-Q(s,a)]，(公式1.1)

其中，R(s,a)是当SDN的状态为s的情况下采取控制动作a的反馈。η表示强化学习速率，γ是折扣常数。Q(s,a)为行为值函数估计值，即表示当SDN的状态为s选取控制动作a带来的反馈，类似的Q(s′,a′)表示当SDN的状态为s′且选取的控制动作为a′带来的反馈。反馈即为检测的数据传输过程中产生的当前网络状态参数。η、γ可以是预设的。R(s,a)是对网络进行控制之后，根据网络的表现计算得到。

根据上述Q函数学习过程，可以得到不同状态s下不同控制动作的Q函数值。之后，可以通过梯度下降和后向传播方法训练该深度神经网络模型的权重，使得Q函数值与目标Q函数值的差最小。

这样，可以根据得到的Q函数值确定最佳控制动作。

可选的，当SDN的拓扑结构发生改变的情况下，可以继续重复步骤101至步骤104确定更新的深度神经网络模型。

在确定出Q函数值后，可以利用Q函数值确定最佳控制动作。具体地，可以通过步骤105和步骤106实现。

105，获取链路状态参数。

106，根据该链路状态参数和Q函数值，确定最佳控制动作。

图1所示的技术方案能够根据SDN的物理网络层次化结构和连接特性，构建出具有相同层次化结构和连接结构的深度神经网络模型。并根据物理网络的结构对称性采用权重共享机制，大大降低了深度神经网络模型的参数搜索空间，加快了学习速率。同时，通过深度神经网络模型，能够逐层提取抽象出原始网络状态数据的有用信息。将具有上述特性的深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。同时，由于深度神经网络模型可以在SDN的结构发生变化的情况下进行更新。也就是说，在SDN结构发生变化的情况下，可以根据SDN结构的变化，更新深度神经网络模型，进而使用更新的深度神经网络模型确定更新的Q函数以及不同链路状态参数下更新的最佳控制动作。因此本技术方案具有自适应鲁棒控制效果。

为了帮助本领域技术人员更好地理解本发明的技术方案，将结合具体实施例对本发明技术方案进行进一步描述。可以理解的是，该具体实施例仅是为了帮助更好地理解本发明技术方案，而并非是对本发明技术方案的限定。

图2是一种SDN的拓扑结构示意图。如图2所示的SDN 200中包括6个交换机，分别为S1、S2、S3、S4、S5和S6。图2所示的SDN 200中交换机之间的连线表示交换机的连接特征。即交换机S4可以处理来自交换机S1、S2和S3的数据流，交换机S5可以处理来自交换机S1、S2和S3的数据流，交换机S6也可以处理来自交换机S1、S2和S3的数据流。

如图2所示的SDN中，数据可以从交换机S1、S2和S3进入该SDN中，并从交换机S4、S5和S6离开该SDN。因此，在图1所示的SDN中，S1至S6可以称为边缘交换机。

利用图1所示的方法，可以确定出如图3所示的深度神经网络模型。图3是与图2所示的SDN对应的深度神经网络模型。具体确定过程如下所述。

如图2所示的SDN中包括两层交换机，第一层交换机为交换机S1、S2和S3，第二层交换机为S4、S5和S6。更具体地，第一层交换机为进入该SDN的边缘交换机。第二层交换机为离开该SND的边缘交换机。因此，与该SDN对应的深度神经网络模型共包括输入层、两个隐藏层和输出层。

该输入层的神经元可以根据该SDN的拓扑结构和该SDN的每条链路的链路状态参数确定。

具体的，假设该链路状态参数为链路利用率，则确定如图2所示的SDN中共包括以下9个链路状态参数：L14，L15，L16，L24，L25，L26，L34，L35和L36，其中L14表示从交换机S1到交换机S4的链路的链路利用率，L15表示从交换机S1到交换机S5的链路利用率，以此类推。

确定进入SDN的边缘交换机。如图2所示的SDN中共包括三个进入SDN的边缘交换机，即交换机S1、S2和S3。

确定离开SDN的边缘交换机。如图2所示的SDN中共包括三个离开SDN的边缘交换机，即交换机S4、S5和S6。

确定中间转发交换机。中间转发交换机是由路由动作选择的下一个交换机。如图2所示的SDN中，数据通过S1、S2或S3进入SDN后可以路由到交换机S4、S5或S6。因此，交换机S4、S5和S6为中间转发交换机。

综上所述，SDN 200中共包括9个链路状态参数，那么对应的深度神经网络模型的输入层中共包括9个状态神经元。9个状态神经元与9个链路状态参数一一对应。SDN 200中共包括3个进入SDN的边缘交换机，那么对应的深度神经网络模型的输入层中共包括3个源神经元。3个源神经元与3个进入SDN的边缘交换机一一对应。SDN 200中共包括3个离开SDN的边缘交换机，那么对应的深度神经网络模型的输入层中共包括3个目的神经元。3个目的神经元与3个离开SDN的边缘交换机一一对应。SDN 200中共包括3个中间转发交换机，那么对应的深度神经网络模型的输入层中共包括3个中间神经元。3个中间神经元与3个中间转发交换机一一对应。综上所述，与SDN 200对应的深度神经网络模型的输入层中共包括18个神经元。

在确定了输入层神经元后，可以确定隐藏层的第一层的神经元。具体地，该隐藏层的第一层中包括9个自关联结构。该9个自关联结构与9条链路一一对应。为方便描述，可以通过以下La,b/Sa,Sb表示自关联结构。因此，该第一层中包括的9个自关联结构分别为：L14/S1,S4,L15/S1,S5,L16/S1,S6,L24/S2,S4,L25/S2,S5,L26/S2,S6,L34/S3,S4,L35/S3,S5,L36/S3,S6。L14/S1,S4可以表示：该自关联结构是对应于交换机S1与交换机S4之间的链路的，且该自关联结构的输入层的神经元分别对应于L14对应的状态神经元、S1对应的源神经元、S4对应的中间神经元和S4对应的目的神经元的输出；L24/S2,S4可以表示：该自关联结构是对应于交换机S2与交换机S4之间的链路的，且该自关联结构的输入层的神经元分别对应于L24对应的状态神经元、S2对应的源神经元、S4对应的中间神经元和S4对应的目的神经元的输出，依次类推。由于图片大小限制，图3中仅示出了上述9个自关联结构连接中的4个。除了自关联结构外，隐藏层中的第一层中还包括该SDN的第二层的交换机对应的神经元，即中间神经元，包括对应于交换机S4、S5和S6的神经元。隐藏层的第一层中的每个自关联结构与对应的神经元相连。以自关联结构L14/S1,S4为例，L14/S1,S4与输入层中L14应的神经元、S1对应的神经元和S4对应的神经元相连。

在确定了隐藏层的第一层后，可以确定该隐藏层的第二层。由于SDN200仅有两层。因此第二层隐藏层包括三个神经元。三个神经元分别对应于SDN第二层的三个交换机。三个神经元中的每个神经元与在隐藏层的第一层中的对应的自关联结构和在隐藏层的第一层中对应的中间交换机对应的神经元连接。例如，如图3所示，对应于交换机S4的神经元与隐藏层中第一层的L14/S1,S4,L24/S2,S4,L34/S3,S4，和隐藏层的第一层中对应于交换机S4的神经元连接。

确定了隐藏层中的神经元后，可以确定隐藏层中第二层的所有神经元与输出层中的一个神经元连接。该输出层中的神经元输出Q函数值。

当SDN的拓扑结构发生变化时，可以根据变化后的SDN的拓扑结构对深度神经网络进行更新。例如，若图2所示的SDN 200的拓扑结构变换为如图4所示的拓扑结构，则对应的深度神经网络模型可以更新为如图5所示的深度神经网络模型。

根据图4所示的SDN确定如图5所示的深度神经网络模型的具体过程与根据图2所示的SDN确定为如图3所示的深度神经网络模型类似。

具体的，如图4所示的SDN包括三层交换机。第一层交换机为交换机S1和S2，第二层交换机为交换机S3和S4，第三层交换机为交换机S5和S6。更具体地，第一层交换机为进入该SDN的边缘交换机。第三层交换机为离开该SDN的边缘交换机。因此，与该SDN对应的深度神经网络模型共包括输入层、三个隐藏层和输出层。

具体的，假设该链路状态参数为链路利用率，则确定如图4所示的SDN中共包括以下8个链路状态参数：L13、L14、L23、L24、L35、L36、L45、L46，其中L13表示从交换机S1到交换机S3的链路的链路利用率，14表示从交换机S1到交换机S4的链路的链路利用率，以此类推。

确定进入SDN的边缘交换机。如图4所示的SDN中共包括两个进入该SDN的边缘交换机，即交换机S1和S2。

确定离开该SDN的边缘交换机。如图4所示的SDN中共包括两个离开SDN的边缘交换机，即交换机S5和S6。

确定中间转发交换机。中间转发交换机是路由动作选择的下一个交换机。如图4所示的SDN中，数据通过S1或S2进入SDN后可以路由到S3或S4。当数据到达S3或S4后，可以继续路由到S5和S6。因此，如图4所示的SDN中共包括四个中间转发交换机，即交换机S3、S4、S5和S6。

综上所述，SDN 400中共包括8个链路状态参数，那么对应的深度神经网络模型的输入层中共包括8个状态神经元。8个状态神经元与8个链路状态参数一一对应。SDN 400中共包括2个进入SDN的边缘交换机，那么对应的深度神经网络模型的输入层中共包括2个源神经元。2个源神经元与2个进入SDN的边缘交换机一一对应。SDN 400中共包括2个离开SDN的边缘交换机，那么对应的深度神经网络模型的输入层中共包括2个目的神经元。2个目的神经元与2个离开SDN的边缘交换机一一对应。SDN 400中共包括4个中间转发交换机，那么对应的深度神经网络模型的输入层中共包括4个中间神经元。4个中间神经元与4个中间转发交换机一一对应。综上所述，与SDN 400对应的深度神经网络模型的输入层中共包括16个神经元。

该隐藏层的第一层中包括4个自关联结构。该4个自关联结构与SDN的第一层交换机到第二层交换机的4条链路一一对应。为方便描述，可以通过以下La,b/Sa,Sb表示自关联结构。因此，该隐藏层的的第一层中包括的4个自关联结构分别为L13/S1,S3、L14/S1,S4、L13/S1,S3、L24/S2,S4。L13/S1,S3可以表示：该自关联结构是对应于交换机S1与交换机S3之间的链路的，且该自关联结构的输入层的神经元分别对应于L13对应的状态神经元、S1对应的源神经元、S3对应的中间神经元的输出；L14/S1,S4可以表示：该自关联结构是对应于交换机S1与交换机S4之间的链路的，且该自关联结构的输入层的神经元分别对应于L14对应的状态神经元、S1对应的源神经元、S4对应的中间神经元的输出，依次类推。除了自关联结构外，隐藏层中的第一层中还包括该SDN的第二层交换机对应的神经元，即中间神经元，包括对应于交换机S3和S4的神经元。该4个自关联结构中的每个自关联结构与输入层中对应的神经元相连。以自关联结构L13/S1,S3为例，L13/S1,S3与输入层中的L13对应的神经元、S1对应的神经元和S3对应的神经元相连。

隐藏层的第二层包括4个自关联结构。该4个自关联结构与SDN的第二层交换机到第三层交换机的4条链路一一对应。该隐藏层的的第二层中包括的4个自关联结构分别为L35/S3,S5、L45/S4,S5、L36/S3,S6、L46/S4,S6。除了自关联结构外，隐藏层的第二层中还包括该SDN的第二层交换机对应的神经元和该SDN的第三层交换机对应的神经元。该4个自关联结构中的每个自关联结构与输入层中对应的神经元相连。以自关联结构L35/S3,S5为例，L35/S3,S5与输入层中的L35对应的神经元、S3对应的神经元和S5对应的神经元相连。隐藏层的第二层所包括的SDN的第二层交换机对应的神经元与隐藏层的第一层中对应的自关联结构以及隐藏层的第一层中对应的交换机对应的神经元相连。例如，隐藏层的第二层中对应于SDN的第二层交换机S3的神经元与隐藏层的第一层中的自关联结构L13/S1,S3和L23/S2,S3的神经元相连。同时，隐藏层的第二层中对应于SDN的第二层交换机S3的神经元3还与隐藏层的第一层中的对应于交换机S3的神经元相连。

隐藏层的第三层中共包括2个神经元。该2个神经元为对应于目的交换机的神经元，即对应于交换机S5和S6的神经元。隐藏层的第三层中的每个神经元与隐藏层的第二层中对应的自关联结构和对应的交换机对应的神经元相连。以对应于交换机S5的神经元为例。隐藏层的第三层中对应于交换机S5的神经元与隐藏层的第二层中的自关联结构L35/S3,S5和L45/S4,S5相连。隐藏层的第三层中对应于交换机S5的神经元还与隐藏层的第二层中对应于交换机S3和S5的神经元相连。

确定了隐藏层中的神经元后，可以确定隐藏层的第三层的所有神经元与输出层中的一个神经元连接。该输出层中的神经元输出Q函数值。

图6是根据本发明实施例提供的另一SDN中生成路由控制动作的方法的示意性流程图。图6所示的方法可以由SDN控制器执行，也可以由服务器执行。在由服务器执行的情况下，可以通过与SDN控制器进行通信获取需要的数据。

601，获取该SDN的当前网络状态参数，该SDN的当前网络状态参数包括以下中的一种或多种：该SDN的当前最大链路利用率、该SDN的当前最大链路均匀共享、该SDN的当前负归一化流完成时间、该SDN的当前负最大链路活跃大象流数。

602，根据该SDN的当前网络状态参数和深度神经网络模型，确定该SDN的Q函数，其中该深度神经网络模型是基于该SDN的当前拓扑结构确定的。

603，根据该Q函数和该SDN的每条链路的链路状态参数，确定该SDN的路由控制动作，其中该链路状态参数包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。

图6所示的技术方案中确定Q函数是使用的网络状态参数可以反映链路中拥塞程度、队列长度等信息。因此，确定出的Q函数可以生成的路由控制动作更好。此外，通过深度神经网络模型，能够逐层提取抽象出原始网络状态数据的有用信息。综上所述，将深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。

链路利用率(英文：link utilization)指的是某一条链路当前被分配到链路中活跃数据流的带宽百分比。SDN交换机中的计数器可以用来监测交换机中任一端口的即时或平均链路利用率。如果某一个链路处于欠利用状态，那么该状态意味着该链路可以用来传输数据，因为新的数据流可以充分利用该链路的剩余带宽。

链路均匀共享(英文：link fair-share)定义为链路带宽B除以链路中活跃数据流n的商,或者可以定义为链路带宽B除以链路中活跃大象流的商。前者监测了在均匀共享(英文：fair-share)模型下，链路中每一个数据流可以获得的带宽，而后者监测的是链路中每一个活跃大象流(英文：elephant flow)可以获得的带宽。小的链路均匀共享值表明或者是链路的带宽比较小，或者是链路中活跃数据流的个数比较多。在路由决策时，更倾向于选择具有大的链路均匀共享值的链路。

交换机队列长度(英文：Queue sizes)指的是交换机端口的缓存长度。这些队列长度可以很容易地从交换机端口计数器获得。很显然，大的队列长度表明网络存在拥塞。因此在做路由决策时更倾向于小的队列长度。

链路活跃流剩余流长度(英文：Active flows remaining size per link)指的是在链路中所有活跃数据流未完成传输的流长度。大的链路活跃流剩余长度表明该链路在接下来一段时间内仍然处于繁忙状态，因此在路由决策中，应该避免选择这些链路。

最大链路利用率(英文：maximum link utilization)指的是将某个数据流通过某一条路径进行传输后，该路径中所有链路的利用率的最大值。选择该定义的原因是希望选择某一条路径使得数据流能够最大程度地利用路径中链路的带宽。

最大链路均匀共享(英文：maximum link fair-share)指的是将某个数据流通过某一条路径进行传输后，该路径中所有链路的均匀共享最大值。与最大链路利用率相同，选择最大链路均匀共享的原因是希望选择某一条路径使得该路径上的数据流的可用带宽最大。

负归一化流完成时间(英文：negative normalized flow completion time)指的是将某一个数据流通过某一条路径进行传输后，该数据流完成传输的时间(包括传输时间以及延迟)除以该数据流的流长度的商。很显然，归一化的流完成时间越短越好。

负最大链路活跃大象流数(英文：negative maximum number of activeelephant flows over all links)指的是将某一个数据流通过某一条路径进行传输后，该路径中所有链路中大象流数目的最大值的相反数。显然，为数据流选择的路径上的活跃大象流越少越好。这是因为大象流对网络的运行性能有重大的影响。

具体地，在该根据该SDN的当前网络状态参数和深度神经网络模型，确定Q函数之前，该方法还包括：获取该SDN的当前拓扑结构；根据该SDN的当前拓扑结构，确定该深度神经网络模型。上述技术方案中，深度神经网络模型是根据该SDN的当前拓扑结构确定的。也就是说，在SDN结构发生变化的情况下，可以根据SDN结构的变化，更新深度神经网络模型，进而使用更新的深度神经网络模型确定更新的Q函数以及不同链路状态参数下更新的最佳控制动作。因此本技术方案具有自适应鲁棒控制效果。

具体地，该获取该SDN拓扑结构，包括：获取该SDN的层数目N、该SDN的网元数目、该SDN中网元的连接关系以及该SDN中每一层连接结构的对称性，N为大于或等于2的正整数；该根据该SDN拓扑结构，确定该深度神经网络模型，包括：根据该SDN的层数目N，确定该深度神经网络模型的隐藏层数目；根据该SDN的网元数目、该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中的神经元的数目和类型；根据该SDN中网元的连接关系，确定该深度神经网络模型相邻两层的连接结构；根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的连接权重的对称性。上述技术方案在确定深度神经网络模型时考虑到了SDN的拓扑结构以及链路之间的连接关系。

具体地，该根据该SDN的网元数目、该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中的神经元的数目和类型，包括：根据该SDN的网元数目和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中输入层的神经元的数目和类型，其中该输入层的神经元包括至少一个状态神经元、至少一个源神经元、至少一个目的神经元和至少一个中间神经元，其中每个状态神经元对应于该每条链路的每个链路状态参数，每个源神经元对应于进入该SDN的每个边缘交换机，每个目的神经元对应于离开该SDN的每个边缘交换机，每个中间神经元对应于每个路由控制动作选择的中间转发交换机；根据该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中隐藏层的神经元的数目和类型，其中，该隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与该SDN的第二层的交换机对应的神经元，其中，该m₁条链路是该SDN的第一层与第二层之间的链路，该m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数；该隐藏层的第N层中包括该至少一个目的神经元；若N为大于2的正整数，则该隐藏层的第k层还包括与m_k条链路对应的m_k个自关联结构以及与该SDN的第k层和第k+1层的交换机对应的神经元，其中，该m_k条链路是该SDN的第k层与第k+1层之间的链路，该m_k个自关联结构中的每个自关联结构包括多个神经元，k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。。上述技术方案能够根据SDN的物理网络层次化结构，构建出具有相同层次化结构的深度神经网络模型。

具体地，该根据该SDN中网元的连接关系，确定该深度神经网络模型相邻两层的连接结构，包括：根据该SDN中网元的连接关系，确定与该隐藏层中的每个自关联结构对应的神经元，以及该隐藏层中的与交换机对应的神经元之间的对应关系；确定该隐藏层中的每个自关联结构与该输入层中对应的神经元相连；该隐藏层的第二层中与该SDN第二层的第一交换机对应的第一神经元与该隐藏层的第一层中对应的自关联结构以及该隐藏层的第一层中与该第一交换机对应的神经元连接，其中该第一交换机为该SDN第二层的任一个交换机；若N为大于2的正整数，则该隐藏层的第k+1层中与该SDN第k+1层的第二交换机对应的第二神经元与该隐藏层的第k层中对应的自关联结构、该隐藏层的第k层中与第二交换机对应的神经元以及该隐藏层的第k层中与该第二神经元对应的神经元连接，该第二交换机为该SDN第n层的任一个交换机。上述技术方案能够根据SDN的物理网络连接特性，构建出具有相同连接特性的深度神经网络模型。

可以理解的是，每个自关联结构对应一条链路。一条链路包括两个端点(即交换机)。因此，与每个自关联结构对应的神经元包括该自关联结构对应的链路的状态神经元，以及该链路的两个交换机对应的两个神经元。此外可以理解的是，隐藏层中的交换机都是一条或多条链路的端点。因此，每个交换机包括至少一个对应的交换机，该对应的交换机就是该每个交换机所在的链路的另一个端点。这样，每个与交换机对应的神经元都有一个或多个对应的神经元，该对应的神经元就是与该交换机对应的交换机对应的神经元。以图5为例，交换机S3与交换机S5之间存在链路。因此，可以称交换机S5是对应于交换机S3的一个交换机。假设与交换机S3对应的神经元可以称为神经元SW3，与交换机S5对应的神经元可以称为神经元SW5。那么，神经元SW3对应于神经元SW5。可以理解，交换机之间以及神经元之间的对应关系是相互的。因此，也可以称交换机S3对应于交换机S5，神经元SW5对应于神经元SW3。

具体地，该根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的连接权重的对称性，包括：根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的隐藏层中每一层的连接权重的对称性，其中该隐藏层中任一自关联结构的权重为该任一自关联结构所属层的连接权重。上述技术方案，根据物理网络的结构对称性采用权重共享机制，大大降低了神经网络的参数搜索空间，加快了深度神经网络模型学习速率。

当然，本领域技术人员还能够根据该SDN的当前拓扑结构并结合其他参数确定出对应于该SDN的神经网络模型。

具体地，该根据该当前网络状态参数和基于该SDN的当前拓扑结构确定的神经网络模型，确定Q函数，包括：使用公式1.1确定该Q函数。

综上所述，本发明实施例提供的技术方案能够根据SDN的物理网络层次化结构和连接特性，构建出具有相同层次化结构和连接结构的神经网络模型。并根据物理网络的结构对称性采用权重共享机制，大大降低了深度神经网络模型的参数搜索空间，加快了学习速率。同时，通过深度神经网络模型，能够逐层提取抽象出原始网络状态数据的有用信息。将具有上述特性的深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。同时，由于深度神经网络模型可以在SDN的结构发生变化的情况下进行更新。也就是说，在SDN结构发生变化的情况下，可以根据SDN结构的变化，更新深度神经网络模型，进而使用更新的深度神经网络模型确定更新的Q函数以及不同链路状态参数下更新的最佳控制动作。因此本技术方案具有自适应鲁棒控制效果。

图7是根据本发明实施例提供的SDN中生成路由控制动作的设备的结构框图。图7所示的设备700能够执行如图1或图6所示的方法的各个步骤。图7所示的设备可以是SDN控制器，也可以是服务器。

获取单元701，用于获取该SDN的当前网络状态参数，该SDN的当前网络状态参数包括以下中的一种或多种：该SDN的当前最大链路利用率、该SDN的当前最大链路均匀共享、该SDN的当前负归一化流完成时间、该SDN的当前负最大链路活跃大象流数。

确定单元702，用于根据该SDN的当前网络状态参数和深度神经网络模型，确定该SDN的Q函数，其中该深度神经网络模型是基于该SDN的当前拓扑结构确定的。

确定单元702，还用于根据该Q函数和该SDN的每条链路的链路状态参数，确定该SDN的路由控制动作，其中该链路状态参数包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。

图7所示的设备700确定Q函数是使用的网络状态参数可以反映链路中拥塞程度、队列长度等信息。因此，确定出的Q函数可以生成的路由控制动作更好。此外，通过深度神经网络模型，能够逐层提取抽象出原始网络状态数据的有用信息。综上所述，将深度神经网络模型与强化学习中的Q学习算法结合，可以确定最佳控制动作。

可以理解的是，若设备700为SDN控制器，则获取单元701可以直接获取该当前网络状态参数以及其他相关参数或信息。若设备700为服务器，则获取单元701可以从SDN控制器获取该SDN的当前网络状态参数以及其他相关参数或信息。

可选的，作为一个实施例，获取单元701，还用于获取该SDN的当前拓扑结构。确定单元702，还用于根据该SDN的当前拓扑结构，确定该深度神经网络模型。

可选的，作为一个实施例，获取单元701，具体用于获取该SDN的层数目N、该SDN的网元数目、该SDN中网元的连接关系以及该SDN中每一层连接结构的对称性，N为大于或等于2的正整数。确定单元702，具体用于根据该SDN的层数目N，确定该深度神经网络模型的隐藏层数目；根据该SDN的网元数目、该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中的神经元的数目和类型；根据该SDN的连接关系，确定该深度神经网络模型相邻两层的连接结构；根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的连接权重的对称性。

可选的，作为一个实施例，确定单元702，具体用于根据该SDN的网元数目和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中输入层的神经元的数目和类型，其中该输入层的神经元包括至少一个状态神经元、至少一个源神经元、至少一个目的神经元和至少一个中间神经元，其中每个状态神经元对应于该每条链路的每个链路状态参数，每个源神经元对应于进入该SDN的每个边缘交换机，每个目的神经元对应于离开该SDN的每个边缘交换机，每个中间神经元对应于每个路由控制动作选择的中间转发交换机；根据该SDN中网元的连接关系和该SDN的每条链路的链路状态参数，确定该深度神经网络模型中隐藏层的神经元的数目和类型，其中，该隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与该SDN的第二层的交换机对应的神经元，其中，该m₁条链路是该SDN的第一层与第二层之间的链路，该m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数；该隐藏层的第N层中包括该至少一个目的神经元；若N为大于2的正整数，则该隐藏层的第k层还包括与m_k条链路对应的m_k个自关联结构以及与该SDN的第k层和第k+1层的交换机对应的神经元，其中，该m_k条链路是该SDN的第k层与第k+1层之间的链路，该m_k个自关联结构中的每个自关联结构包括多个神经元，k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。

可选的，作为一个实施例，确定单元702，具体用于根据该SDN中网元的连接关系，确定与该隐藏层中的每个自关联结构对应的神经元，以及该隐藏层中的与交换机对应的神经元之间的对应关系；确定该隐藏层中的每个自关联结构与该输入层中对应的神经元相连；该隐藏层的第二层中与该SDN第二层的第一交换机对应的第一神经元与该隐藏层的第一层中对应的自关联结构以及该隐藏层的第一层中与该第一交换机对应的神经元连接，其中该第一交换机为该SDN第二层的任一个交换机；若N为大于2的正整数，则该隐藏层的第k+1层中与该SDN第k+1层的第二交换机对应的第二神经元与该隐藏层的第k层中对应的自关联结构、该隐藏层的第k层中与第二交换机对应的神经元以及该隐藏层的第k层中与该第二神经元对应的神经元连接，该第二交换机为该SDN第n层的任一个交换机。

可选的，作为一个实施例，确定单元702，具体用于根据该SDN中每一层连接结构的对称性，确定该深度神经网络模型的隐藏层中每一层的连接权重的对称性，其中该隐藏层中任一自关联结构的权重为该任一自关联结构所属层的连接权重。

可选的，作为一个实施例，确定单元702，具体用于使用公式1.1确定该Q函数。

可以理解的是，为描述的方便和简洁，图7所描述的装置700中获取单元701和确定单元702具体工作过程以及技术效果，可以参考例如图1或图6的方法实施例中的对应过程以及技术效果，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种软件定义网络SDN中生成路由控制动作的方法，其特征在于，所述方法包括：

获取所述SDN的当前网络状态参数，所述SDN的当前网络状态参数包括以下中的一种或多种：所述SDN的当前最大链路利用率、所述SDN的当前最大链路均匀共享、所述SDN的当前负归一化流完成时间、所述SDN的当前负最大链路活跃大象流数；

根据所述SDN的当前网络状态参数和深度神经网络模型，确定所述SDN的Q函数，其中所述深度神经网络模型是基于所述SDN的当前拓扑结构确定的；

根据所述Q函数和所述SDN的每条链路的链路状态参数，确定所述SDN的路由控制动作，其中所述链路状态参数包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。

2.如权利要求1所述的方法，其特征在于，在所述根据所述SDN的当前网络状态参数和深度神经网络模型，确定所述SDN的Q函数之前，所述方法还包括：

获取所述SDN的当前拓扑结构；

根据所述SDN的当前拓扑结构，确定所述深度神经网络模型。

3.如权利要求2所述的方法，其特征在于，所述获取所述SDN拓扑结构，包括：获取所述SDN的层数目N、所述SDN的网元数目、所述SDN中网元的连接关系以及所述SDN中每一层连接结构的对称性，N为大于或等于2的正整数；

所述根据所述SDN拓扑结构，确定所述深度神经网络模型，包括：

根据所述SDN的层数目N，确定所述深度神经网络模型的隐藏层数目；

根据所述SDN的网元数目、所述SDN中网元的连接关系和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中的神经元的数目和类型；

根据所述SDN中网元的连接关系，确定所述深度神经网络模型相邻两层的连接结构；

根据所述SDN中每一层连接结构的对称性，确定所述深度神经网络模型的连接权重的对称性。

4.如权利要求3所述的方法，其特征在于，所述根据所述SDN的网元数目、所述SDN中网元的连接关系和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中的神经元的数目和类型，包括：

根据所述SDN的网元数目和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中输入层的神经元的数目和类型，其中所述输入层的神经元包括至少一个状态神经元、至少一个源神经元、至少一个目的神经元和至少一个中间神经元，其中每个状态神经元对应于所述每条链路的每个链路状态参数，每个源神经元对应于进入所述SDN的每个边缘交换机，每个目的神经元对应于离开所述SDN的每个边缘交换机，每个中间神经元对应于每个路由控制动作选择的中间转发交换机；

根据所述SDN中网元的连接关系和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中隐藏层的神经元的数目和类型，其中，

所述隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与所述SDN的第二层的交换机对应的神经元，其中，所述m₁条链路是所述SDN的第一层与第二层之间的链路，所述m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数；

所述隐藏层的第N层中包括所述至少一个目的神经元；

若N为大于2的正整数，则所述隐藏层的第k层还包括与m_k条链路对应的m_k个自关联结构以及与所述SDN的第k层和第k+1层的交换机对应的神经元，其中，所述m_k条链路是所述SDN的第k层与第k+1层之间的链路，所述m_k个自关联结构中的每个自关联结构包括多个神经元，k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。

5.如权利要求4所述的方法，其特征在于，所述根据所述SDN中网元的连接关系，确定所述深度神经网络模型相邻两层的连接结构，包括：

根据所述SDN中网元的连接关系，确定与所述隐藏层中的每个自关联结构对应的神经元，以及所述隐藏层中的与交换机对应的神经元之间的对应关系；

确定所述隐藏层中的每个自关联结构与所述输入层中对应的神经元相连；

所述隐藏层的第二层中与所述SDN第二层的第一交换机对应的第一神经元与所述隐藏层的第一层中对应的自关联结构以及所述隐藏层的第一层中与所述第一交换机对应的神经元连接，其中所述第一交换机为所述SDN第二层的任一个交换机；

若N为大于2的正整数，则所述隐藏层的第k+1层中与所述SDN第k+1层的第二交换机对应的第二神经元与所述隐藏层的第k层中对应的自关联结构、所述隐藏层的第k层中与第二交换机对应的神经元以及所述隐藏层的第k层中与所述第二神经元对应的神经元连接，所述第二交换机为所述SDN第n层的任一个交换机。

6.如权利要求5所述的方法，其特征在于，所述根据所述SDN中每一层连接结构的对称性，确定所述深度神经网络模型的连接权重的对称性，包括：

根据所述SDN中每一层连接结构的对称性，确定所述深度神经网络模型的隐藏层中每一层的连接权重的对称性，其中所述隐藏层中任一自关联结构的权重为所述任一自关联结构所属层的连接权重。

7.如权利要求1至6中任一项所述的方法，其特征在于，所述根据所述当前网络状态参数和基于所述SDN的当前拓扑结构确定的深度神经网络模型，确定Q函数，包括：使用以下公式确定所述Q函数：

Q(s,a)←Q(s,a)+η[R(s,a)+γmax_a′Q(s′,a′)-Q(s,a)]，

其中，R(s,a)是当所述SDN的状态为s的情况下采取控制动作a的反馈。η表示强化学习速率，γ是折扣常数。Q(s,a)表示当所述SDN的状态为s选取控制动作a带来的反馈，Q(s′,a′)表示当所述SDN的状态为s′且选取的控制动作为a′带来的反馈。

8.一种软件定义网络SDN中生成路由控制动作的设备，其特征在于，所述设备包括：

获取单元，用于获取所述SDN的当前网络状态参数，所述SDN的当前网络状态参数包括以下中的一种或多种：所述SDN的当前最大链路利用率、所述SDN的当前最大链路均匀共享、所述SDN的当前负归一化流完成时间、所述SDN的当前负最大链路活跃大象流数；

确定单元，用于根据所述SDN的当前网络状态参数和深度神经网络模型，确定所述SDN的Q函数，其中所述深度神经网络模型是基于所述SDN的当前拓扑结构确定的；

所述确定单元，还用于根据所述Q函数和所述SDN的每条链路的链路状态参数，确定所述SDN的路由控制动作，其中所述链路状态参数包括以下中的一个或多个：链路利用率、链路均匀共享、交换机队列长度、链路活跃流剩余流长度。

9.如权利要求8所述的设备，其特征在于，所述获取单元，还用于获取所述SDN的当前拓扑结构；

所述确定单元，还用于根据所述SDN的当前拓扑结构，确定所述深度神经网络模型。

10.如权利要求9所述的设备，其特征在于，所述获取单元，具体用于获取所述SDN的层数目N、所述SDN的网元数目、所述SDN中网元的连接关系以及所述SDN中每一层连接结构的对称性，N为大于或等于2的正整数；

所述确定单元，具体用于根据所述SDN的层数目N，确定所述深度神经网络模型的隐藏层数目；根据所述SDN的网元数目、所述SDN中网元的连接关系和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中的神经元的数目和类型；根据所述SDN中网元的连接关系，确定所述深度神经网络模型相邻两层的连接结构；根据所述SDN中每一层连接结构的对称性，确定所述深度神经网络模型的连接权重的对称性。

11.如权利要求10所述的设备，其特征在于，所述确定单元，具体用于根据所述SDN的网元数目和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中输入层的神经元的数目和类型，其中所述输入层的神经元包括至少一个状态神经元、至少一个源神经元、至少一个目的神经元和至少一个中间神经元，其中每个状态神经元对应于所述每条链路的每个链路状态参数，每个源神经元对应于进入所述SDN的每个边缘交换机，每个目的神经元对应于离开所述SDN的每个边缘交换机，每个中间神经元对应于每个路由控制动作选择的中间转发交换机；根据所述SDN中网元的连接关系和所述SDN的每条链路的链路状态参数，确定所述深度神经网络模型中隐藏层的神经元的数目和类型，其中，所述隐藏层的第一层中包括与m₁条链路对应的m₁个自关联结构以及与所述SDN的第二层的交换机对应的神经元，其中，所述m₁条链路是所述SDN的第一层与第二层之间的链路，所述m₁个自关联结构中的每个自关联结构包括多个神经元，m₁为正整数；所述隐藏层的第N层中包括所述至少一个目的神经元；若N为大于2的正整数，则所述隐藏层的第k层还包括与m_k条链路对应的m_k个自关联结构以及与所述SDN的第k层和第k+1层的交换机对应的神经元，其中，所述m_k条链路是所述SDN的第k层与第k+1层之间的链路，所述m_k个自关联结构中的每个自关联结构包括多个神经元，k为大于或等于2且小于或等于N-1的正整数，m_k为正整数。

12.如权利要求11所述的设备，其特征在于，所述确定单元，具体用于根据所述SDN中网元的连接关系，确定与所述隐藏层中的每个自关联结构对应的神经元，以及所述隐藏层中的与交换机对应的神经元之间的对应关系；确定所述隐藏层中的每个自关联结构与所述输入层中对应的神经元相连；所述隐藏层的第二层中与所述SDN第二层的第一交换机对应的第一神经元与所述隐藏层的第一层中对应的自关联结构以及所述隐藏层的第一层中与所述第一交换机对应的神经元连接，其中所述第一交换机为所述SDN第二层的任一个交换机；若N为大于2的正整数，则所述隐藏层的第k+1层中与所述SDN第k+1层的第二交换机对应的第二神经元与所述隐藏层的第k层中对应的自关联结构、所述隐藏层的第k层中与第二交换机对应的神经元以及所述隐藏层的第k层中与所述第二神经元对应的神经元连接，所述第二交换机为所述SDN第n层的任一个交换机。

13.如权利要求12所述的设备，其特征在于，所述确定单元，具体用于根据所述SDN中每一层连接结构的对称性，确定所述深度神经网络模型的隐藏层中每一层的连接权重的对称性，其中所述隐藏层中任一自关联结构的权重为所述任一自关联结构所属层的连接权重。

14.如权利要求8至13中任一项所述的设备，其特征在于，所述确定单元，具体用于使用以下公式确定所述Q函数：

Q(s,a)←Q(s,a)+η[R(s,a)+γmax_a′Q(s′,a′)-Q(s,a)]，