CN112700269A

CN112700269A - 一种基于异向强化学习的分布式数据中心选择方法

Info

Publication number: CN112700269A
Application number: CN202011580622.8A
Authority: CN
Inventors: 彭志平; 李启锐; 崔得龙; 何杰光
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-23

Abstract

本发明涉及云计算资源调度领域，更具体地，涉及一种基于异向强化学习的分布式数据中心选择方法，该方法包括：获取数据中心信息和用户信息；所述数据中心信息包括：数据中心位置信息和数据中心计费信息；所述用户信息包括：用户位置信息和用户需求信息；收集训练样本，建立训练集；所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值；所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值；根据训练样本优化选择器；通过优化后的选择器选择数据中心。本发明能降低云服务成本。

Description

一种基于异向强化学习的分布式数据中心选择方法

技术领域

本发明涉及云计算资源调度领域，更具体地，涉及一种基于异向强化学习的分布式数据中心选择方法。

背景技术

“云计算”是近年来兴起的一种新的商业模式，它使用高速互联网将廉价的低性能的计算机连接起来，形成拥有强大计算能力的计算资源池，并借助虚拟化技术，将资源池中的物理机虚拟为多台虚拟机，为企业、组织或个人提供弹性计算、带宽等资源服务。在这种模式下，企业和个人用户不再需要购买昂贵的计算机硬件，只需通过互联网向云服务提供商购买或租用满足自身需求的计算资源即可，可以节省大量硬件购置和维护费用。而云服务提供商则根据用户的需求收取相应的资源租用费用。各大互联网企业敏锐地嗅到这个商机，纷纷加大对云计算的投入和建设，以争取更多的用户资源，从而占据云计算市场的主动性。云服务提供商的投入主要是用在构建计算资源池上，即数据中心(Data Center，DC)。只有建设具规模的数据中心才能为云用户提供源源不断的计算资源。目前建设数据中心的方式主要有集中式数据中心和分布式数据中心两种。分布式数据中心小而精，一般建设在距离用户较近的地方，终端用户的服务可以选择就近完成，减少长途带宽消耗和时延，提高服务可靠性。目前大多数云服务提供商都是采用了分布式方式进行组网并具有多个跨地域分布的数据中心，每个数据中心都以按需付费的方式配置计算、存储、带宽等资源。

这种分布式云计算基础设施能够提供就近服务，特别适合于跨地域分布的业务处理。在进行业务处理之前，首先要在合适的数据中心租用的虚拟机或虚拟机集群，因此要进行数据中心选择。选择数据中心的主要目标是极小化用户与数据中心之间的距离。这主要归因于以下三点：(1)经济考量。数据中心之间往往通过高速专用网相连接，长途链路流量非常昂贵；(2)可靠性考量。长途线路越多，可靠性可能会越低；(3)服务质量考量。传输线路越长，服务响应时间越长。因此，如何在多个可用的数据中心中选择最优是用户在租用虚拟机时要解决的首要问题。基于上述问题，目前亟需一种能降低云服务成本基于异向强化学习的分布式数据中心选择方法。

发明内容

为了解决上述问题，本发明提供一种基于异向强化学习的分布式数据中心选择方法，该方法与现有技术相比能降低云服务成本。

本发明采取的技术方案是：

一种基于异向强化学习的分布式数据中心选择方法，包括：

获取数据中心信息和用户信息；所述数据中心信息包括：数据中心位置信息和数据中心计费信息；所述用户信息包括：用户位置信息和用户需求信息；

收集训练样本，建立训练集；所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值；所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值；

根据训练样本优化选择器；

通过优化后的选择器选择数据中心。

具体地，首先获取数据中心信息和用户信息，数据中心信息包括：数据中心位置信息和数据中心计费信息。数据中心位置信息为所有可租用的数据中心在地图上的坐标，数据中心计费信息为各数据中心的收费标准。用户信息包括：用户位置信息和用户需求信息。用户位置信息为用户在地图上的坐标，用户需求信息为用户根据自身项目对应需要租用的设备。然后，通过训练样本将数据中心信息和用户信息进行存储，再用根据训练样本建立训练集。最后通过训练样本以及强化学习算法对选择器进行优化；所述选择器用于从所有可租用的数据中心中选出价格最低的数据中心。通过优化后的选择器选择数据中心。

进一步地，所述选择器的目标函数为：

所述u为用户；所述v_i为租用的数据中心；所述G为点线图，G＝(V(G)，E(G))；所述V(G)为地图G中所有的数据中心，|V(G)|＝n；所述E(G)为地图G中所有的数据中心之间的边，|E(G)|＝m；所述边为数据中心之间或数据中心与用户之间的连接路径；所述

所述c(v_i)为租用的数据中心v_i的费用。

具体地，根据上述公式易知，选择器的目标为让用户租用到费用最少的数据中心v_i。为了达到此目标，需要进行以下步骤：首先，将云服务提供商(联盟)所有的数据中心设置为对应的点。然后，根据各个数据中心的坐标获取点与点之间相对的分布位置，根据边的长度获取点与点之间的距离。根据点与点之间相对的分布位置和距离，建立点线图G。最后，根据点线图G、用户信息和数据中心计费信息计算出所有数据中心的租用费用，并且从中找到费用最少的数据中心v_i。

进一步地，所述

所述

为租用数据中心v_i的网络资源费用；所述t(v_i)为租用数据中心v_i的计算资源费用。

具体地，根据上述公式易知数据中心v_i的租用费用分为两部分：网络资源费用和计算资源费用。

进一步地，所述

所述

为设置了用户位置信息的点线图G；所述f(·)为边价值函数；

为用户u与数据中心v_i之间最短的边。

具体地，由上述公式易知，网络资源费用由f(·)和最短的边计算获取。边的长度越长，传输的距离越长，网络资源费越高。根据用户位置信息在点线图G中设置用户对应的点，获取点线图

计算出点线图

内用户对应的点与哪个数据中心对应的点的边最短，拥有与用户之间最短的边的数据中心为网络资源费用最少的数据中心v_i。

进一步地，所述

所述|e_i，j|为v_i和v_j之间的距离；所述v_j为用户u；所述traffic为数据中心v_i的单位流量价格；所述d为租赁的带宽。

具体地，用户对应的点为v_j，|e_i，j|为v_i和v_j之间的距离，即v_i和v_j的边的长度。因为用户与数据中心之间的距离往往难以准确测量，所以|e_i，j|的值为根据经验或调试后，赋予的权重值。在数据中心之间，为了提高数据通信能力和速度，通常有高速专用网络进行连接。网络资源费用一般指的就是高速专用网络的费用，高速专用网络的费用与单位流量价格、传输距离成正比关系。如果有些数据中心之间的传输网络由于特殊原因导致单位流量价格不同，则可以通过延长距离的方式变相使单位流量价格一致。在本方案中，租用时长统一为单位时间(年/月)，则数据中心的流量价格为traffic元/(Mb*km)，租赁的带宽为dMb。

进一步地，所述t(v_i)＝a*p_i+b*m_i+c*d_i；所述a为数据中心v_i的虚拟机CPU的计算能力；p_i为租用数据中心v_i的虚拟机CPU的单位价格；所述b为数据中心v_i的虚拟机内存的大小；所述m_i为租用数据中心v_i的虚拟机内存的单位价格；所述c为数据中心v_i的虚拟机的外存大小；所述d_i为租用数据中心v_i的虚拟机外存的单位价格。

具体地，由于不同的数据中心的硬件设施、管理方式存在一定的差异性，不同数据中心有不同的计费标准。在相同的性能情况下，需要获取到所有数据中心中价格最低的一家，以此降低云服务的成本。计算资源的计费方式通常是单位时间价格、资源数量与租用时长三者之间的乘积。上述租用时长已统一为单位时间，因此在计算需要支付的费用时就可以不考虑时间因子。通常情况下，CPU的计价单位为MIPS或者核心个数，内存的计价单位为MB，外存的计价单位为GB。按照计价单位，租用数据中心v_i的虚拟机CPU的单位价格为p_i元/MIPS，租用数据中心v_i的虚拟机内存单位价格为m_i元/MB，租用数据中心v_i的虚拟机外存单位价格d_i元/GB。

进一步地，所述训练样本为(S_t，α，r，S_t+1)；所述S_t和S_t+1分别为时间步t和时间步t+1的状态；所述状态为代表数据中心位置和用户位置的编号，由状态空间S存储，S＝{0，1，2，……，n-1，n}；所述α为时间步t的采取的动作；所述动作为代表拟传输数据的数据中心位置和用户位置的编号，由动作空间A存储，A＝{0，1，2，……，n-1，n}；所述编号0，1，2，……，n-1代表数据中心位置；所述编号n代表用户位置；所述r为时间步t采取动作α得到的回报值，由奖赏函数计算获取。

具体地，首先将点线图

内的数据中心代表的点和用户代表的点进行编号，其中编号0，1，2，……，n-1代表数据中心位置，编号n代表用户位置。

进一步地，所述奖赏函数为矩阵：

所述e_i，j为v_i和v_j的边；若v_i和v_j在矩阵内没有边，则e_i，j＝-1，否则e_i，j＞0；若e_i，j＞0则e_i，n≥e_i，m(0≤i≤n，0≤m＜n)并且e_i，n＝e_k，n(0≤i≤n，0≤k≤n)。

具体地，状态空间S内的编号代表数据中心位置和用户位置；动作空间A内的编号代表拟传输数据的数据中心位置和用户位置；当状态S_t采取动作α变为S_t+1，状态S_t的编号变更为α的编号，即数据由原来的数据中心位置或用户位置传输到拟传输的数据中心位置或用户位置，矩阵内的e为两个位置连接的边。当边e连接的都是数据中心位置时，回报值r为矩阵内的边e的长度；当边e连接的分别是数据中心位置与用户位置时，回报值r为权重值。因为用户位置难以准确地获取，所以用户位置与数据中心的边e_i，j为根据经验或调试结果计算得到的权重值。若数据中心位置与用户位置存在连接，即e_i，j＞0，为了使状态S往用户位置靠近并且达到后永远停留于用户位置(即数据中心位置最终能与用户位置连接，即获取所有用户可租用的数据中心)，权重值往往大于数据中心之间的边e，即边e对应的回报值r。(因为强化学习的目标是使状态S获取最高奖赏，所以传输到用户位置的回报值最大，则能实现状态S往用户位置靠近并且达到后永远停留于用户位置)。即e_i，j＞0并且e_i，n≥e_i，m(0≤i≤n，0≤m＜n)并且e_i，n＝e_k，n(0≤i≤n，0≤k≤n)。而e＝-1则表示两个位置无法连接，选择了不合理动作，要给予负惩罚。

进一步地，所述优化选择器的目标函数为：

所述γ为折扣因子；所述α_t为时间步t+1采取的动作。

具体地，将上述的训练样本和奖赏函数代入目标函数中，能使选择器从一个状态到另一个状态不断进行探索，直到达到目标状态(永远停留于用户位置)为止。探索过程会产生Q表，所述Q表用于记录探索过程中的数据。由于Q的目标是达到最大回报，而回报值越大代表着两个位置的边越长，两个位置的距离越远。因此，从Q表筛选出与用户位置有连接(即e≠-1，e＞0)并且回报值最小(即边最短)的数据中心，此数据中心就是网络资源费用最小的数据中心。

与现有技术相比，本发明的有益效果为：

(1)通过选择器计算出数据中心的费用，方便用户进行成本预算。

(2)通过训练样本优化了选择器，避免找到距离用户最近的数据中心，有效减少网络资源费用，降低云服务成本。

附图说明

图1为本发明的流程图；

图2为本发明的仿真实验示意图；

图3为本发明的训练过程示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例

本实施例提供一种基于异向强化学习的分布式数据中心选择方法，图1为本发明的流程图，如图所示，包括：

根据训练样本优化选择器；

通过优化后的选择器选择数据中心。

进一步地，所述选择器的目标函数为：

所述c(v_i)为租用的数据中心v_i的费用。

进一步地，所述

所述

进一步地，所述

所述

为设置了用户位置信息的点线图G；所述f(·)为边价值函数；

为用户u与数据中心v_i之间最短的边。

计算出点线图

进一步地，所述

具体地，首先将点线图

进一步地，所述奖赏函数为矩阵：

进一步地，所述优化选择器的目标函数为：

所述γ为折扣因子；所述α_t为时间步t+1采取的动作。

本实施例还进行了仿真实验，实验目标为测试一种基于异向强化学习的分布式数据中心选择方法的有效性。

基于Python开发数据中心选择算法仿真器。假设云服务提供商(联盟)在东北、西北、东南、西南和中部建设有数据中心，其中中部数据中心起来网络枢纽的作用，将其他几个数据中心通过专用高速网络连接起来。在南方有某个用户希望在该服务商中租赁一台虚拟机，将其放置在东北或西北的数据中心，如图2所示。

在图2中，0号点代表西北地区的数据中心，1号点代表东南地区的数据中心，2号点代表东北地区的数据中心，3号点代表中部地区的数据中心，4号点代表西南地区的数据中心，5号点代表用户。0、1、2、4号数据中心以3号数据中心为桥接通过高速专用网络彼此相连，用户与1、4号数据中心通过普通网络连接。现在用户要在0号与2号数据中心之间做出选择。在虚拟机的CPU、内存、外存和带宽等基本配置不变，仅网络资源费用可优化的情况下，根据公式：

可知，网络资源费用与数据中心之间的边长相关。假设云服务提供商的网络流量价格为1元/(Mb*km)，用户需求流量为1Mb，则根据上式，网络资源费用可以转化为用户与数据中心路径上所有边长之和，即

根据图2的边标注数据中心间的长度。在图2中，因为用户点是强化学习的目标点，为了将Agent吸引到目标点，将e_4，5和e_1，5的值设置为比其他边更大，并且两个值相同，都为100。同时，为了将Agent吸收在目标点5当中，建立虚拟网络，权值也是100。

将图2的数值代入奖赏矩阵：

为了考察训练算法的收敛效果，用以下公式来计算相邻两个episodes训练后Q表的误差变化情况：

其中

代表第k个episode训练后Q表中第i行第j列元素的值。将Q表初始化为为6×6的0矩阵，按照

对Q表进行训练。训练过程中Q表的变化情况如图3所示。

从图3可知，经过大约40episodes训练，Q表就已经基本收敛。最终的Q表如下：

用训练好的Q计算最短的边，计算结果如下表所示。

根据图2所示，若用户租用东北或西北的数据中心，用户到数据中心0的边最短，用户到数据中心0的路径有3条：5→1→3→0、5→4→3→0和5→4→0，路径长度分别是210、180和110，其中5→4→0，该路径是3条路径中最短的。与从上表罗列的结果相符，证明了本方法的正确性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于异向强化学习的分布式数据中心选择方法，其特征在于，包括：

根据训练样本优化选择器；

通过优化后的选择器选择数据中心。

2.根据权利要求1所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述选择器的目标函数为：

所述c(v_i)为租用的数据中心v_i的费用。

3.根据权利要求2所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述

所述

4.根据权利要求3所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述

所述

为设置了用户位置信息的点线图G；所述f(·)为边价值函数；

为用户u与数据中心v_i之间最短的边。

5.根据权利要求4所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述

6.根据权利要求5所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述t(v_i)＝a*p_i+b*m_i+c*d_i；所述a为数据中心v_i的虚拟机CPU的计算能力；p_i为租用数据中心v_i的虚拟机CPU的单位价格；所述b为数据中心v_i的虚拟机内存的大小；所述m_i为租用数据中心v_i的虚拟机内存的单位价格；所述c为数据中心v_i的虚拟机的外存大小；所述d_i为租用数据中心v_i的虚拟机外存的单位价格。

7.根据权利要求6所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述训练样本为(S_t，α，r，S_t+1)；所述S_t和S_t+1分别为时间步t和时间步t+1的状态；所述状态为代表数据中心位置和用户位置的编号，由状态空间S存储，S＝{0，1，2，……，n-1，n}；所述α为时间步t的采取的动作；所述动作为代表拟传输数据的数据中心位置和用户位置的编号，由动作空间A存储，A＝{0，1，2，……，n-1，n}；所述编号0，1，2，……，n-1代表数据中心位置；所述编号n代表用户位置；所述r为时间步t采取动作α得到的回报值，由奖赏函数计算获取。

8.根据权利要求7所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述奖赏函数为矩阵：

9.根据权利要求8所述的一种基于异向强化学习的分布式数据中心选择方法，其特征在于，所述优化选择器的目标函数为：

所述γ为折扣因子；所述α_t为时间步t+1采取的动作。