CN114244854B

CN114244854B - 基于强化学习的数据中心数据备份方法及系统

Info

Publication number: CN114244854B
Application number: CN202111574948.4A
Authority: CN
Inventors: 王�华; 张国锋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-11-22
Anticipated expiration: 2041-12-21
Also published as: CN114244854A

Abstract

本发明公开了一种基于强化学习的数据中心数据备份方法及系统，包括：获取全局网络的链路状态，确定待备份的源数据中心节点和多个目标数据中心节点；所述待备份的源数据通过组播路由的方式从源数据中心节点传输到各个目标数据中心节点；以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP‑Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案。本发明以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树，能够实现数据备份路径的全局最优，进而以最短的时间和带宽成本传输备份数据。

Description

基于强化学习的数据中心数据备份方法及系统

技术领域

本发明涉及数据中心数据备份技术领域，尤其涉及一种基于强化学习的数据中心数据备份方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着大数据以及云计算技术在全世界范围内的普及，传统数据中心已不能很好地满足日益增长的需求，新应用的发展对网络提出更高效的网络管理需求以及灵活的组网要求，将SDN引入数据中心网络，中央控制器可以将多台核心设备聚合在一起进行高速转发。这极大的提升了数据中心网络的承载能力和服务能力，并且控制器掌握着全局的链路状态，以及负责各种转发规则的控制，为后续算法的部署与应用提供了便利。

当前的数据中心大多分布在不同的地理位置，而因人为或天灾的因素，数据安全越来越受到人们的关注。为保持数据中心网络的稳定工作，需要将每日生成的TB级甚至PB级的重要数据进行备份，避免因数据丢失造成的各方面重大影响；为有效提高数据的可靠性，数据备份的原则是：将备份数据传输至多个地理位置不同的数据中心。

对于目前的数据备份方法，大部分研究采用在源数据节点和单个目标数据节点之间建立单对单最短路径的方式，或者，在源数据节点和多个目标数据节点之间分别建立最短路径，然后再将有重复的路径进行合并的方式，来减少备份带宽的消耗，但是这仅能够实现数据备份路径的局部最优，仍不可避免地会浪费一些带宽。

发明内容

为了解决上述问题，本发明提出了一种基于强化学习的数据中心数据备份方法，基于带宽、时延等指标要求，从一个数据中心节点向多个数据中心节点传输备份数据，以构建组播树；将组播树的构建规约为NP-Hard问题，利用强化学习算法进行求解得到备份成本较优的备份路由方案。

在一些实施方式中，采用如下技术方案：

一种基于强化学习的数据中心数据备份方法，包括：

获取全局网络的链路状态，确定待备份的源数据中心节点和多个目标数据中心节点；所述待备份的源数据通过组播路由的方式从源数据中心节点传输到各个目标数据中心节点；

以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案。

在另一些实施方式中，采用如下技术方案：

一种基于强化学习的数据中心数据备份系统，包括：

全局网络获取模块，用于获取全局网络的链路状态，确定待备份的源数据中心节点和多个目标数据中心节点；所述待备份的源数据通过组播路由的方式从源数据中心节点传输到各个目标数据中心节点；

最优备份路由确定模块，用于以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行上述的基于强化学习的数据中心数据备份方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于强化学习的数据中心数据备份方法。

与现有技术相比，本发明的有益效果是：

(1)本发明以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树，能够实现数据备份路径的全局最优，进而以最短的时间和带宽成本传输备份数据。

(2)本发明将构建组播树的复杂过程规约为NP-Hard问题，然后利用强化学习算法进行求解，能够高效的得到备份成本最优的备份路由方案。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1为本发明实施例中基于强化学习算法进行求解的过程示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语说明：

SDN，软件定义网络(Software Defined Network，SDN)，是一种新型网络创新架构，是网络虚拟化的一种实现方式。

NP问题，其解的正确性可以在多项式时间内被检查的一类问题；

NPC问题，是一个NP问题，且所有的NP问题都可以约化成NPC问题。

NP-Hard问题，比NPC问题的范围广，所有的NP问题都可以约化成NP-Hard问题，但是NP-Hard问题不一定是一个NP问题。

实施例一

在一个或多个实施方式中，公开了一种基于强化学习的数据中心数据备份方法，包括以下过程：

步骤(1)：获取全局网络的链路状态，确定待备份的源数据中心节点和多个目标数据中心节点；所述待备份的源数据通过组播路由的方式从源数据中心节点传输到各个目标数据中心节点；

具体地，数据中心关键数据的可靠性需要得到保障，为达到足够的数据冗余以有效提高数据可靠性，需要将备份数据备份至多个数据中心。

通过数据中心网络中的SDN控制器可以获取全局网络的链路状态，SDN控制器是软件定义网络(SDN)中的控制中心，负责流量控制以确保网络正常运行。

本实施例中，将每一个有备份需求的数据中心节点作为源数据中心节点，将多个有足够存储空间的数据中心节点作为备份的多个目标数据中心节点；需要备份的数据通过组播路由的方式从源数据中心节点传输到各目标数据中心节点。

步骤(2)：以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案。

本实施例中，以全局由带宽和时延组成的指标成本最小为目标，在全局网络拓扑上扩展生成组播树，在其上传输备份数据，从而实现较小的备份时间和成本。另外，考虑到构建组播树的复杂性，将组播树的构建规约为NP-Hard问题，然后利用强化学习算法进行求解，得到备份成本较优的备份路由方案。

组播树的构建过程如下：由源数据中心节点和目标数据中心节点组成的节点集合中，初始时将备份节点当作根节点，之后采用强化学习的决策结果选择合适的邻接节点向外生长，直到结合成为包含节点集合中所有节点的一棵树。

结合图1，将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解的过程具体如下：

(1)确定源数据中心节点和目标数据中心节点组成的节点集合V；

(2)通过SDN控制器得到全局网络拓扑，根据节点集合去除无关的节点和链路，得到图G，即包含节点集合中所有节点以及他们连接的边和点所组成的连通图。

(3)初始化Q表(强化学习Q-Learning方法中非常重要的参数，以此来确定下一动作的选取)的值为0，设定好目标迭代次数和最大收敛次数，使用邻接表来存储路由路径初始化为空，初始化智能体的状态为V中节点进行迭代。

(4)每次迭代中，为当前状态中的节点确定可选动作集，因为树是无环连通图，所以可选动作集中不包含与之前树成环的节点和边，这里使用并查集判断图是否成环辅助确定可选动作集。

(5)在可选动作集中按照ε贪心策略选取下一节点以及对应的边(ε随着迭代的加深而减小)，更新邻接表，计算奖励因子并更新Q值表。Q表的迭代更新公式如下：

其中α_i∈(0,1]表示第i步的学习率，r是在状态s下采取行动a的奖励，而γ∈(0,1]是折扣因子。

(6)判断V中节点是否都已在组播树中出现，若不是则继续下一动作的选择；若是则将可行解进行剪枝，具体步骤为将树中叶子节点不属于V的去除，直到所有叶子节点都属于V，然后将最终的可行解放入解集合中进行比较。

(7)判断是否达到目标迭代次数和最大收敛次数，若不满足，则继续迭代；若满足，则终止迭代，输出解。

(8)算法结束。

最后将近似最优解部署到数据中心网络中，由于SDN的主要思想是将数据的控制和分发分离开来，其中控制功能由控制器实现，控制器本身的北向接口使得网络具有强大的可编程能力，所以将本实施例算法通过此接口写入，设定好相关的参数，最终的输出结果通过控制器向交换机下发路由以转发备份数据。

实施例二

在一个或多个实施方式中，公开了一种基于强化学习的数据中心数据备份系统，包括：

上述模块的具体实现方式已经在实施例一中进行了说明，此处不再详述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于强化学习的数据中心数据备份方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例四

在一个或多个实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行实施例一中所述的基于强化学习的数据中心数据备份方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于强化学习的数据中心数据备份方法，其特征在于，包括：

以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案；

将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，具体包括：

确定源数据中心节点和目标数据中心节点组成的节点集合V；

基于全局网络拓扑结构，根据节点集合去除无关的节点和链路，得到图G；

初始化Q表的值为零，设定目标迭代次数和最大收敛次数，使用邻接表来存储路由路径，初始化为空，初始化智能体的状态为源数据中心节点；

为当前状态中的节点确定可选动作集；在所述可选动作集中按照ε贪心策略选取下一节点以及对应的边，更新邻接表，计算奖励因子并更新Q表；

判断节点集合V中的节点是否都已在组播树中出现，若是则对可行解进行剪枝，输出最优的可行解；否则利用更新后的参数重新确定可选动作集；

所述对可行解进行剪枝，具体包括：

将树中不属于节点集合V的叶子节点去除，直到所有叶子节点都属于节点集合V。

2.如权利要求1所述的一种基于强化学习的数据中心数据备份方法，其特征在于，通过SDN控制器获取全局网络的链路状态。

3.如权利要求1所述的一种基于强化学习的数据中心数据备份方法，其特征在于，所述组播树的构建过程包括：

将源数据中心节点和多个目标数据中心节点组成节点集合，初始时将备份节点当作根节点，然后基于强化学习的决策结果选择邻接节点向外生长，直到成为包含节点集合中所有节点的一棵树。

4.一种基于强化学习的数据中心数据备份系统，其特征在于，包括：

最优备份路由确定模块，用于以全局由带宽和时延组成的指标成本最小为目标，在全局网络的拓扑结构上扩展生成组播树；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，得到备份成本最优的备份路由方案；将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，具体包括：

确定源数据中心节点和目标数据中心节点组成的节点集合V；

所述对可行解进行剪枝，具体包括：

5.如权利要求4所述的一种基于强化学习的数据中心数据备份系统，其特征在于，将源数据中心节点和多个目标数据中心节点组成节点集合，初始时将备份节点当作根节点，然后基于强化学习的决策结果选择邻接节点向外生长，直到成为包含节点集合中所有节点的一棵树。

6.如权利要求4所述的一种基于强化学习的数据中心数据备份系统，其特征在于，将组播树的构建规约为NP-Hard问题，采用强化学习算法对所述问题进行求解，具体包括：

确定源数据中心节点和目标数据中心节点组成的节点集合V；

判断节点集合V中的节点是否都已在组播树中出现，若是则对可行解进行剪枝，输出最优的可行解；否则利用更新后的参数重新确定可选动作集。

7.一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-3任一项所述的基于强化学习的数据中心数据备份方法。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-3任一项所述的基于强化学习的数据中心数据备份方法。