CN116055324B

CN116055324B - 一种用于数据中心网络自优化的数字孪生方法

Info

Publication number: CN116055324B
Application number: CN202211722211.7A
Authority: CN
Inventors: 胡敏; 宋宝梁; 黄宏程
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-05-07
Anticipated expiration: 2042-12-30
Also published as: CN116055324A

Abstract

本发明涉及一种用于数据中心网络自优化的数字孪生方法，属于数字孪生领域，包括以下步骤：S1：构建孪生网络系统，包括物理数据中心网络层和数字孪生网络层，所述物理数据中心网络层由网元、服务器、链路组成；所述数字孪生网络层包括控制器、数据存储模块、强化学习模块、孪生网络模块、路径计算模块和流表管理模块；S2：数字孪生网络层采集物理数据中心网络层的数据，建立基础模型和功能模型，所述基础模型是由网元模型和链路模型连接组合构建拓扑模型，所述功能模型用于对基础模型作出网络优化策略；S3：对数字孪生网络层的强化学习算法进行训练；S4：部署训练好的数字孪生网络层，实现数据中心网络的自我优化。

Description

一种用于数据中心网络自优化的数字孪生方法

技术领域

本发明属于数字孪生领域，涉及一种用于数据中心网络自优化的数字孪生方法。

背景技术

在互联网、大数据、云计算等信息技术的带动下，数据中心逐渐在世界各地普及和建立，已经成为社会各行各业的必要基础设施。其中，网络优化技术成为了数据中心网络发展关键技术之一，支撑着数据中心网络的高效运行，也是当前的研究热点。在传统的网络优化方法中，大都依赖人的经验对网络做出决策，这会产生很高的劳动力成本。近年来，随着人工智能技术在各行各业的大量应用，在网络优化领域也出现了大量的基于强化学习的人工智能算法，这些算法不需要精确的底层网络数学模型，就可以通过训练快速地计算出接近最优解的网络优化方案，从而为数据中心网络优化决策提出了新思路。

然而，基于强化学习的算法获取训练样本的难度和时间成本是一个巨大的挑战。为了解决这一点，这类算法的代理在策略探索过程中，直接将动作(即网络策略)下发至真实的数据中心网络中，这意味着代理将当前未训练好的策略直接施加到网络中，以获取下一时刻的奖励。由于强化学习的探索问题，代理与真实网络环境直接交互，将会导致数据中心网络的性能降低，甚至会因为数据中心网络流量的复杂性，算法收敛时间更长。因此，在数据中心网络中，基于强化学习的网络优化需要进一步的改进。

发明内容

有鉴于此，本发明的目的在于提供一种用于数据中心网络自优化的数字孪生方法。

为达到上述目的，本发明提供如下技术方案：

一种用于数据中心网络自优化的数字孪生方法，包括以下步骤：

S1：构建孪生网络系统，包括物理数据中心网络层和数字孪生网络层，所述物理数据中心网络层由网元、服务器、链路组成；所述数字孪生网络层包括控制器、数据存储模块、强化学习模块、孪生网络模块、路径计算模块和流表管理模块；

S2：数字孪生网络层采集物理数据中心网络层的数据，建立基础模型和功能模型，所述基础模型是由网元模型和链路模型连接组合构建拓扑模型，所述功能模型用于对基础模型作出网络优化策略；

S3：对数字孪生网络层的强化学习算法进行训练；

S4：部署训练好的数字孪生网络层，实现数据中心网络的自我优化。

进一步，所述对数字孪生网络层的强化学习算法进行训练，包括：

A1：通过控制器采集物理数据中心网络的各类数据，经过预处理后持久化到数据库中，或者将实时数据输入强化学习模块和孪生网络模块；

A2：孪生网络模块根据数据库的数据和实时数据构建基础模型，强化学习模块根据数据库的数据和实时数据构建功能模型；

A3：孪生网络模块通过基础模型模拟物理数据中心网络的网络状态，强化学习模块与孪生网络模块进行交互，对基础模型给出策略动作；

A4：路径计算模块从步骤A3中的策略动作中通过最短加权路径算法计算最优路径；

A5：流表管理模块通过步骤A4计算的路径设置流表项，并将流表下发给孪生网络；

A6：孪生网络通过流表项模拟网络变化，并将变化后的网络状态反馈给强化学习模块，代理从中学习到经验，并优化下次策略动作；

A7：对步骤A2到步骤A4进行多次迭代优化，直至强化学习算法模型收敛。

进一步，步骤S4所述部署训练好的数字孪生网络层，实现数据中心网络的自我优化，具体包括：

B1：控制器通过周期性地调用端口状态请求方法和流状态请求方法向交换机发送相关状态请求报文，进而获取所有交换机端口状态信息以及边缘交换机请求流的统计信息；

B2：对请求流大小进行判断，小流采用ECMP算法进行路径选择，大流使用强化学习模块进行决策，决策动作是网络链路的权重设置；

B3：利用最短加权路径算法计算路径，并将路径转化为流表的形式，并将流表转发给孪生网络模块；

B4：孪生网络模块通过流表模拟网络状态的变化，并分析计算网络产生变化后的影响，即验证策略对网络的影响，最终决定把策略下发至物理数据中心网络；

B5：在下一周期到来时，控制器采集物理数据中心网络的状态，反馈给孪生网络层，用于以后的模型更新和校正。

进一步，控制器通过OpenFlow协议收集物理数据中心网络的数据，并将清晰过滤后的数据存储在Reids数据库中，具体包括：

控制器携带LLDP数据包的packet-out报文发送到交换机的指定端口，收到LLDP数据包的交换机将数据包发送给邻接交换机；

邻接交换机收到LLDP数据包后，通过packet-in报文将数据包发送给控制器；

控制器收到数据包后结合packet-in信息和LLDP数据包的包头信息，最终获取网络拓扑信息，并将网络拓扑数据存储到数据存储模块中；

控制器通过周期性地调用端口状态请求方法和流状态请求方法向交换机发送相关状态请求消息，进而实时获取交换机端口状态信息以及流的统计的信息。

进一步，构建孪生网络系统的具体步骤如下：

在物理数据中心网络中，设有n个网元设备，定义V＝{v₁,v₂,…,v_n}为网元设备集合，设有m条链路，定义E＝{e₁,e₂,…,e_m}为链路集合，则网元模型和链路模型的数字孪生分别表示为：

DT_v(t)＝Θ(C_v,S_v(t),M_v(t)) (9)

DT_e(t)＝Θ(C_e,S_e(t)) (10)

其中，C表示静态配置数据，对于网元设备v来说，可以是最大传输速率、背板带宽、MAC地址容量；对于链路e来说，可以是最大容量；S(t)表示随时间变化的运行状态，由多维特征决定，对于网元设备v而言，其x维状态特征定义为M_v(t)表示网元设备v的运行行为，由y维特征行为表征，定义为/>

拓扑模型的数字孪生表示为：

DT(t)＝Θ(DT_V(t),DT_E(t)) (11)

其中，DT_V(t)表示物理数据中心网络中所有网元模型的集合，即

DT_E(t)表示物理数据中心网络中所有的链路模型的集合，即/>

物理数据中心网络和数字孪生网络的关系形式化定义为：

其中，DCN<V,E>表示物理数据中心网络，V表示所有网络节点集合，E表示网络中所有链路的的集合；SIP表示南向接口协议，通过其实现物理数据中心网络和数字孪生网络的通信。

进一步，所述强化学习模块基于Q学习算法实现数据中心网络自优化，其核心公式如下：

其中，Q(S,A)是当前状态S下选择动作A的Q值；α是学习率，γ是折扣因子，表示未来对现在的影响多少；

首先对到达边缘交换机的新流进行数据采集，数字孪生网络层判断新流是小流还是大流，若是小流则采用轮询机制路由，若是大流则采用数据驱动模型决策路由，对于数据驱动模型的设计如下描述：

状态：状态空间为n×n的流量矩阵TM，其中b_1,n是交换机v₁与交换机v_n相连的链路实际负载，其表达如下所示：

动作：动作空间是一组链路权重，链路权重表达如下所示：

W＝[w₁,w₂,…,w_m]^T (15)

得到一组链路权重后，经过路径计算模块，得到新流的路由路径，再经流表管理模块得到流表项，将流表下发给孪生网络，经验证后下发送给物理网络，最终实现大流的路径选择和转发；

奖励：基于当前的状态和动作，代理从环境中获得奖励，奖励函数为把最大链路利用率取负，最小化最大链路利用率，奖励函数如下：

本发明的有益效果在于：本发明通过数字孪生技术为物理网络构建实时镜像，增强物理网络所缺少的仿真、优化、验证和控制能力，将数字孪生技术应用在数据中心的网络优化中，结合强化学习的自学习机制，通过代理与孪生网络进行交互，孪生网络模拟网络行为，最终实现数据中心网络的自我优化。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为孪生网络系统架构图；

图2为训练阶段流程示意图；

图3为部署阶段流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，一种用于数据中心网络自优化的数字孪生方法，分为训练阶段和部署阶段。

对于训练阶段，如图2所示，其实现包括以下步骤：

步骤1：通过控制器采集物理数据中心网络的各种数据，对各类数据进行清洗、过滤，并持久化到数据库中，或者将实时数据作为输入传送给强化学习模块和孪生网络模块。

步骤2：根据数据库的数据和实时数据，构建基础模型和功能模型。基础模型包括网元模型(路由器、交换机等网络节点)和链路模型，功能模型是数据驱动模型(强化学习模块)。

步骤3：孪生网络模块通过基础模型模拟物理数据中心网络的网络状态，强化学习模块与孪生网络模块进行交互，代理在探索过程中不必将策略动作施加到真实网络中。

步骤4：路径计算模块从步骤3中的策略动作中通过最短加权路径算法计算最优路径。

步骤5：流表管理模块通过步骤4计算的路径设置流表项，并将流表下发给孪生网络。

步骤6：孪生网络通过流表项模拟网络变化，并将变化后的网络状态反馈给强化学习模块，代理从中学习到经验，并优化下次策略动作。

步骤7：对步骤2到步骤4进行多次迭代优化，直至强化学习算法模型收敛。

对于部署阶段，如图3所示，其实现包括以下步骤：

步骤1：控制器模块通过周期性地调用端口状态请求方法和流状态请求方法向交换机发送相关状态请求报文，进而获取所有交换机端口状态信息以及边缘交换机请求流的统计信息。

步骤2：对请求流大小进行判断，小流采用ECMP算法进行路径选择，大流使用强化学习模块进行决策，决策动作是网络链路的权重设置。

步骤3：利用最短加权路径算法计算路径，并将路径转化为流表的形式，并将流表转发给孪生网络模块。

步骤4：孪生网络模块通过流表模拟网络状态的变化，并分析计算网络产生变化后的影响，即验证策略对网络的影响，最终决定把策略下发至物理数据中心网络。

步骤5：在下一周期到来时，控制器采集物理数据中心网络的状态，反馈给孪生网络层，用于以后的模型更新和校正。

本方法的具体步骤如下：

步骤一：设计孪生网络层系统总体架构

孪生网络系统总体架构由“两层三模块”组成，两层指的是物理数据中心网络层和数字孪生网络层，而三模块为数据存储、模型映射和孪生管理。

物理数据中心网络层：物理数据中心网络层由网元、服务器、链路组成。在数据中心网络中，网元可以是交换机、路由器以及配备的应用程序，这些网元设备支撑着网络数据包的过滤和转发。而网元设备和应用程序每天会产生大量的数据，这些数据可能是交换机的背板吞吐量、包缓冲区大小、MAC地址表、接口包转发速率等。那么从这些数据中提取有价值的信息，可以获得实时的物理网络状况，如网元设备的健康状态、流量矩阵、可用带宽变化等，以此检测网络的异常情况。

数字孪生网络层：数字孪生网络层负责建立物理数据中心网络与虚拟孪生网络系统之间的实时映射模型，包括三个关键子模块：数据存储、模型映射、孪生管理。数据存储模块通过南向接口协议(如NETCONF、OpenFlow、XMPP、I2RS等协议)采集物理网络实体的各种配置和运行数据，并存储在数据库中，用于基础模型和功能模型的建立、仿真和优化。具体而言，数据存储模块从物理数据中心网络中收集数据，并将数据分为四种不同类型进行存储：服务器、交换机、链路的配置，服务器、交换机、链路的状态、网络拓扑数据结构、流量矩阵。根据采集的数据，模型映射模块需要提取、定义和描述物理网络各个实体的关键特征。一方面是为了构建数据中心网络的网元模型和拓扑模型，也即基础模型，另一方面能够为功能模型的输入提供训练数据和测试数据。其中，网元模型是对服务器、交换机、链路的实时精确映射，拓扑模型是根据网络拓扑数据结构，将网元模型进行连接、组合得到。功能模型是根据数据库的网络数据，建立网络仿真、分析、优化等数据模型。数字孪生网络的一个主要特点是实现物理网络的实时镜像，那么模型映射模块还需要运作起来。为此，孪生管理模块负责管理和更新网络孪生层中的各个映射模型，具有模型更新、状态同步、模型交互、应用关联等功能，如通过状态同步功能在拓扑模型中进行流量重放，实现孪生网络对物理网络的同步映射，以便功能模型做出相应的网络优化策略。

步骤二：设计数据中心网络数据采集系统

基于软件定义网络的技术，控制器采用支持OpenFlow协议的Ryu控制器实现数据的采集，同时交换机也需要支持OpenFlow协议。本发明实施例通过OpenFlow协议可以收集物理数据中心网络的数据，并将清晰过滤后的数据存储在Reids数据库中。具体来说，采集数据的细节如下描述：

控制器携带LLDP数据包的packet-out报文发送到交换机的指定端口，收到LLDP数据包的交换机将数据包发送给邻接交换机。邻接交换机收到LLDP数据包后，通过packet-in报文将数据包发送给控制器，控制器收到数据包后结合packet-in信息和LLDP数据包的包头信息，最终获取网络拓扑信息，并将网络拓扑数据存储到数据库中。

网络的实时数据需要通过周期性的采集，本发明实施例采集周期为2秒。通过周期性地调用端口状态请求方法和流状态请求方法向交换机发送相关状态请求消息，进而获取交换机端口状态信息以及流的统计的信息。端口的统计信息包含如表1：

表1

名称	描述
		port_no	交换机端口号
rx_packets	接收数据包数量
		tx_packets	发送数据包数量
rx_bytes	接收字节数量
		tx_bytes	发送字节数量
rx_dropped	接收丢包数量
		tx_dropped	发送丢包数量
rx_errors	接收错包数量
		tx_errors	发送错包数量
duration_sec	统计持续时间

步骤三：构建数据中心的孪生网络

在物理数据中心网络中，设有n个网元设备，定义V＝{v₁,v₂,…,v_n}为网元设备集合，设有m条链路，定义E＝{e₁,e₂,…,e_m}为链路集合，则网元模型和链路模型的数字孪生可以分别表示为：

DT_v(t)＝Θ(C_v,S_v(t),M_v(t)) (17)

DT_e(t)＝Θ(C_e,S_e(t)) (18)

其中，C表示静态配置数据，对于网元设备v来说，可以是最大传输速率、背板带宽、MAC地址容量等；对于链路e来说，可以是最大容量。S(t)表示随时间变化的运行状态，而运行状态由多维特征决定，对于网元设备v而言，其x维状态特征定义为如网元设备的CPU使用率、包缓冲区大小、端口状态信息等；同理，链路也具备多维状态特征，但是本文只考虑链路的当前负载特征。M_v(t)表示网元设备v的运行行为，由y维特征行为表征，定义为/>

拓扑模型是根据网络拓扑数据结构，将网元模型和链路模型进行连接、组合得到，那么拓扑模型的数字孪生可以表示为：

DT(t)＝Θ(DT_V(t),DT_E(t)) (19)

DT_E(t)表示物理数据中心网络中所有的链路模型的集合，即/>

网元模型集合和链路模型集合组合即可得到拓扑模型的数字孪生。通过孪生网络层的数据存储模块采集各类数据，以数字化的形式构建网元模型和链路模型，进而构建拓扑模型，实现对物理数据中心网络全面、精确的映射，再辅以功能模型的自适应、自学习能力，最终实现数字孪生网络对物理数据中心网络的实时控制和优化。基于以上分析，物理数据中心网络和数字孪生网络的关系可以形式化定义为：

步骤四：数据驱动模型的设计

本发明实施例基于Q学习算法实现数据中心网络自优化，其核心公式如下：

其中，Q(S,A)是当前状态S下选择动作A的Q值。α是学习率，这决定了Q值更新的快慢。γ是折扣因子，表示未来对现在的影响多少。

首先是对到达边缘交换机的新流进行数据采集，孪生网络层判断新流是小流还是大流，若是小流采用轮询机制路由，否则为大流采用数据驱动模型决策路由。对于数据驱动模型的设计如下描述：

状态(State)：Q学习的状态是反映数据中心网络环境的空间，本发明实施例的状态是n×n的流量矩阵TM，其中b_1,n是交换机v₁与交换机v_n相连的链路实际负载，其表达如下所示：

动作(Action)：在Q学习中，代理将状态空间映射到动作空间，以学习最优策略。在本发明实施例系统中，动作空间是一组链路权重，链路权重表达如下所示：

W＝[w₁,w₂,…,w_m]^T (23)

得到一组链路权重后，经过路径计算模块，可以得到新流的路由路径，再经流表管理模块就可以得到流表项，将流表下发给孪生网络，经验证后下发送给物理网络，最终实现大流的路径选择和转发。

奖励(Reward)：基于当前的状态和动作，代理从环境中获得奖励。在数据中心网络中，由于奖励和网络优化的目标函数有关，在这种情况下，最大链路利用率可以被视为奖励函数，本发明实施例要求最小化最大链路利用率，因此把最大链路利用率取负，则奖励函数如下：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于数据中心网络自优化的数字孪生方法，其特征在于：包括以下步骤：

S3：对数字孪生网络层的强化学习算法进行训练；

S4：部署训练好的数字孪生网络层，实现数据中心网络的自我优化；

所述对数字孪生网络层的强化学习算法进行训练，包括：

A7：对步骤A2到步骤A4进行多次迭代优化，直至强化学习算法模型收敛；

步骤S4所述部署训练好的数字孪生网络层，实现数据中心网络的自我优化，具体包括：

2.根据权利要求1所述的用于数据中心网络自优化的数字孪生方法，其特征在于：控制器通过OpenFlow协议收集物理数据中心网络的数据，并将清晰过滤后的数据存储在Reids数据库中，具体包括：

3.根据权利要求1所述的用于数据中心网络自优化的数字孪生方法，其特征在于：构建孪生网络系统的具体步骤如下：

DT_v(t)＝Θ(C_v,S_v(t),M_v(t)) (1)

DT_e(t)＝Θ(C_e,S_e(t)) (2)

拓扑模型的数字孪生表示为：

DT(t)＝Θ(DT_V(t),DT_E(t)) (3)

DT_E(t)表示物理数据中心网络中所有的链路模型的集合，即/>

物理数据中心网络和数字孪生网络的关系形式化定义为：

4.根据权利要求1所述的用于数据中心网络自优化的数字孪生方法，其特征在于：所述强化学习模块基于Q学习算法实现数据中心网络自优化，其核心公式如下：

动作：动作空间是一组链路权重，链路权重表达如下所示：

W＝[w₁,w₂,…,w_m]^T (7)