CN112700269A - 一种基于异向强化学习的分布式数据中心选择方法 - Google Patents

一种基于异向强化学习的分布式数据中心选择方法 Download PDF

Info

Publication number
CN112700269A
CN112700269A CN202011580622.8A CN202011580622A CN112700269A CN 112700269 A CN112700269 A CN 112700269A CN 202011580622 A CN202011580622 A CN 202011580622A CN 112700269 A CN112700269 A CN 112700269A
Authority
CN
China
Prior art keywords
data center
user
information
data
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011580622.8A
Other languages
English (en)
Inventor
彭志平
李启锐
崔得龙
何杰光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN202011580622.8A priority Critical patent/CN112700269A/zh
Publication of CN112700269A publication Critical patent/CN112700269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及云计算资源调度领域,更具体地,涉及一种基于异向强化学习的分布式数据中心选择方法,该方法包括:获取数据中心信息和用户信息;所述数据中心信息包括:数据中心位置信息和数据中心计费信息;所述用户信息包括:用户位置信息和用户需求信息;收集训练样本,建立训练集;所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值;所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值;根据训练样本优化选择器;通过优化后的选择器选择数据中心。本发明能降低云服务成本。

Description

一种基于异向强化学习的分布式数据中心选择方法
技术领域
本发明涉及云计算资源调度领域,更具体地,涉及一种基于异向强化学习的分布式数据中心选择方法。
背景技术
“云计算”是近年来兴起的一种新的商业模式,它使用高速互联网将廉价的低性能的计算机连接起来,形成拥有强大计算能力的计算资源池,并借助虚拟化技术,将资源池中的物理机虚拟为多台虚拟机,为企业、组织或个人提供弹性计算、带宽等资源服务。在这种模式下,企业和个人用户不再需要购买昂贵的计算机硬件,只需通过互联网向云服务提供商购买或租用满足自身需求的计算资源即可,可以节省大量硬件购置和维护费用。而云服务提供商则根据用户的需求收取相应的资源租用费用。各大互联网企业敏锐地嗅到这个商机,纷纷加大对云计算的投入和建设,以争取更多的用户资源,从而占据云计算市场的主动性。云服务提供商的投入主要是用在构建计算资源池上,即数据中心(Data Center,DC)。只有建设具规模的数据中心才能为云用户提供源源不断的计算资源。目前建设数据中心的方式主要有集中式数据中心和分布式数据中心两种。分布式数据中心小而精,一般建设在距离用户较近的地方,终端用户的服务可以选择就近完成,减少长途带宽消耗和时延,提高服务可靠性。目前大多数云服务提供商都是采用了分布式方式进行组网并具有多个跨地域分布的数据中心,每个数据中心都以按需付费的方式配置计算、存储、带宽等资源。
这种分布式云计算基础设施能够提供就近服务,特别适合于跨地域分布的业务处理。在进行业务处理之前,首先要在合适的数据中心租用的虚拟机或虚拟机集群,因此要进行数据中心选择。选择数据中心的主要目标是极小化用户与数据中心之间的距离。这主要归因于以下三点:(1)经济考量。数据中心之间往往通过高速专用网相连接,长途链路流量非常昂贵;(2)可靠性考量。长途线路越多,可靠性可能会越低;(3)服务质量考量。传输线路越长,服务响应时间越长。因此,如何在多个可用的数据中心中选择最优是用户在租用虚拟机时要解决的首要问题。基于上述问题,目前亟需一种能降低云服务成本基于异向强化学习的分布式数据中心选择方法。
发明内容
为了解决上述问题,本发明提供一种基于异向强化学习的分布式数据中心选择方法,该方法与现有技术相比能降低云服务成本。
本发明采取的技术方案是:
一种基于异向强化学习的分布式数据中心选择方法,包括:
获取数据中心信息和用户信息;所述数据中心信息包括:数据中心位置信息和数据中心计费信息;所述用户信息包括:用户位置信息和用户需求信息;
收集训练样本,建立训练集;所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值;所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值;
根据训练样本优化选择器;
通过优化后的选择器选择数据中心。
具体地,首先获取数据中心信息和用户信息,数据中心信息包括:数据中心位置信息和数据中心计费信息。数据中心位置信息为所有可租用的数据中心在地图上的坐标,数据中心计费信息为各数据中心的收费标准。用户信息包括:用户位置信息和用户需求信息。用户位置信息为用户在地图上的坐标,用户需求信息为用户根据自身项目对应需要租用的设备。然后,通过训练样本将数据中心信息和用户信息进行存储,再用根据训练样本建立训练集。最后通过训练样本以及强化学习算法对选择器进行优化;所述选择器用于从所有可租用的数据中心中选出价格最低的数据中心。通过优化后的选择器选择数据中心。
进一步地,所述选择器的目标函数为:
Figure BDA0002865886150000021
所述u为用户;所述vi为租用的数据中心;所述G为点线图,G=(V(G),E(G));所述V(G)为地图G中所有的数据中心,|V(G)|=n;所述E(G)为地图G中所有的数据中心之间的边,|E(G)|=m;所述边为数据中心之间或数据中心与用户之间的连接路径;所述
Figure BDA0002865886150000022
所述c(vi)为租用的数据中心vi的费用。
具体地,根据上述公式易知,选择器的目标为让用户租用到费用最少的数据中心vi。为了达到此目标,需要进行以下步骤:首先,将云服务提供商(联盟)所有的数据中心设置为对应的点。然后,根据各个数据中心的坐标获取点与点之间相对的分布位置,根据边的长度获取点与点之间的距离。根据点与点之间相对的分布位置和距离,建立点线图G。最后,根据点线图G、用户信息和数据中心计费信息计算出所有数据中心的租用费用,并且从中找到费用最少的数据中心vi
进一步地,所述
Figure BDA0002865886150000031
所述
Figure BDA0002865886150000032
为租用数据中心vi的网络资源费用;所述t(vi)为租用数据中心vi的计算资源费用。
具体地,根据上述公式易知数据中心vi的租用费用分为两部分:网络资源费用和计算资源费用。
进一步地,所述
Figure BDA0002865886150000033
所述
Figure BDA0002865886150000034
为设置了用户位置信息的点线图G;所述f(·)为边价值函数;
Figure BDA0002865886150000035
为用户u与数据中心vi之间最短的边。
具体地,由上述公式易知,网络资源费用由f(·)和最短的边计算获取。边的长度越长,传输的距离越长,网络资源费越高。根据用户位置信息在点线图G中设置用户对应的点,获取点线图
Figure BDA0002865886150000036
计算出点线图
Figure BDA0002865886150000037
内用户对应的点与哪个数据中心对应的点的边最短,拥有与用户之间最短的边的数据中心为网络资源费用最少的数据中心vi
进一步地,所述
Figure BDA0002865886150000038
所述|ei,j|为vi和vj之间的距离;所述vj为用户u;所述traffic为数据中心vi的单位流量价格;所述d为租赁的带宽。
具体地,用户对应的点为vj,|ei,j|为vi和vj之间的距离,即vi和vj的边的长度。因为用户与数据中心之间的距离往往难以准确测量,所以|ei,j|的值为根据经验或调试后,赋予的权重值。在数据中心之间,为了提高数据通信能力和速度,通常有高速专用网络进行连接。网络资源费用一般指的就是高速专用网络的费用,高速专用网络的费用与单位流量价格、传输距离成正比关系。如果有些数据中心之间的传输网络由于特殊原因导致单位流量价格不同,则可以通过延长距离的方式变相使单位流量价格一致。在本方案中,租用时长统一为单位时间(年/月),则数据中心的流量价格为traffic元/(Mb*km),租赁的带宽为dMb。
进一步地,所述t(vi)=a*pi+b*mi+c*di;所述a为数据中心vi的虚拟机CPU的计算能力;pi为租用数据中心vi的虚拟机CPU的单位价格;所述b为数据中心vi的虚拟机内存的大小;所述mi为租用数据中心vi的虚拟机内存的单位价格;所述c为数据中心vi的虚拟机的外存大小;所述di为租用数据中心vi的虚拟机外存的单位价格。
具体地,由于不同的数据中心的硬件设施、管理方式存在一定的差异性,不同数据中心有不同的计费标准。在相同的性能情况下,需要获取到所有数据中心中价格最低的一家,以此降低云服务的成本。计算资源的计费方式通常是单位时间价格、资源数量与租用时长三者之间的乘积。上述租用时长已统一为单位时间,因此在计算需要支付的费用时就可以不考虑时间因子。通常情况下,CPU的计价单位为MIPS或者核心个数,内存的计价单位为MB,外存的计价单位为GB。按照计价单位,租用数据中心vi的虚拟机CPU的单位价格为pi元/MIPS,租用数据中心vi的虚拟机内存单位价格为mi元/MB,租用数据中心vi的虚拟机外存单位价格di元/GB。
进一步地,所述训练样本为(St,α,r,St+1);所述St和St+1分别为时间步t和时间步t+1的状态;所述状态为代表数据中心位置和用户位置的编号,由状态空间S存储,S={0,1,2,……,n-1,n};所述α为时间步t的采取的动作;所述动作为代表拟传输数据的数据中心位置和用户位置的编号,由动作空间A存储,A={0,1,2,……,n-1,n};所述编号0,1,2,……,n-1代表数据中心位置;所述编号n代表用户位置;所述r为时间步t采取动作α得到的回报值,由奖赏函数计算获取。
具体地,首先将点线图
Figure BDA0002865886150000041
内的数据中心代表的点和用户代表的点进行编号,其中编号0,1,2,……,n-1代表数据中心位置,编号n代表用户位置。
进一步地,所述奖赏函数为矩阵:
Figure BDA0002865886150000042
所述ei,j为vi和vj的边;若vi和vj在矩阵内没有边,则ei,j=-1,否则ei,j>0;若ei,j>0则ei,n≥ei,m(0≤i≤n,0≤m<n)并且ei,n=ek,n(0≤i≤n,0≤k≤n)。
具体地,状态空间S内的编号代表数据中心位置和用户位置;动作空间A内的编号代表拟传输数据的数据中心位置和用户位置;当状态St采取动作α变为St+1,状态St的编号变更为α的编号,即数据由原来的数据中心位置或用户位置传输到拟传输的数据中心位置或用户位置,矩阵内的e为两个位置连接的边。当边e连接的都是数据中心位置时,回报值r为矩阵内的边e的长度;当边e连接的分别是数据中心位置与用户位置时,回报值r为权重值。因为用户位置难以准确地获取,所以用户位置与数据中心的边ei,j为根据经验或调试结果计算得到的权重值。若数据中心位置与用户位置存在连接,即ei,j>0,为了使状态S往用户位置靠近并且达到后永远停留于用户位置(即数据中心位置最终能与用户位置连接,即获取所有用户可租用的数据中心),权重值往往大于数据中心之间的边e,即边e对应的回报值r。(因为强化学习的目标是使状态S获取最高奖赏,所以传输到用户位置的回报值最大,则能实现状态S往用户位置靠近并且达到后永远停留于用户位置)。即ei,j>0并且ei,n≥ei,m(0≤i≤n,0≤m<n)并且ei,n=ek,n(0≤i≤n,0≤k≤n)。而e=-1则表示两个位置无法连接,选择了不合理动作,要给予负惩罚。
进一步地,所述优化选择器的目标函数为:
Figure BDA0002865886150000051
所述γ为折扣因子;所述αt为时间步t+1采取的动作。
具体地,将上述的训练样本和奖赏函数代入目标函数中,能使选择器从一个状态到另一个状态不断进行探索,直到达到目标状态(永远停留于用户位置)为止。探索过程会产生Q表,所述Q表用于记录探索过程中的数据。由于Q的目标是达到最大回报,而回报值越大代表着两个位置的边越长,两个位置的距离越远。因此,从Q表筛选出与用户位置有连接(即e≠-1,e>0)并且回报值最小(即边最短)的数据中心,此数据中心就是网络资源费用最小的数据中心。
与现有技术相比,本发明的有益效果为:
(1)通过选择器计算出数据中心的费用,方便用户进行成本预算。
(2)通过训练样本优化了选择器,避免找到距离用户最近的数据中心,有效减少网络资源费用,降低云服务成本。
附图说明
图1为本发明的流程图;
图2为本发明的仿真实验示意图;
图3为本发明的训练过程示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
本实施例提供一种基于异向强化学习的分布式数据中心选择方法,图1为本发明的流程图,如图所示,包括:
获取数据中心信息和用户信息;所述数据中心信息包括:数据中心位置信息和数据中心计费信息;所述用户信息包括:用户位置信息和用户需求信息;
收集训练样本,建立训练集;所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值;所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值;
根据训练样本优化选择器;
通过优化后的选择器选择数据中心。
具体地,首先获取数据中心信息和用户信息,数据中心信息包括:数据中心位置信息和数据中心计费信息。数据中心位置信息为所有可租用的数据中心在地图上的坐标,数据中心计费信息为各数据中心的收费标准。用户信息包括:用户位置信息和用户需求信息。用户位置信息为用户在地图上的坐标,用户需求信息为用户根据自身项目对应需要租用的设备。然后,通过训练样本将数据中心信息和用户信息进行存储,再用根据训练样本建立训练集。最后通过训练样本以及强化学习算法对选择器进行优化;所述选择器用于从所有可租用的数据中心中选出价格最低的数据中心。通过优化后的选择器选择数据中心。
进一步地,所述选择器的目标函数为:
Figure BDA0002865886150000061
所述u为用户;所述vi为租用的数据中心;所述G为点线图,G=(V(G),E(G));所述V(G)为地图G中所有的数据中心,|V(G)|=n;所述E(G)为地图G中所有的数据中心之间的边,|E(G)|=m;所述边为数据中心之间或数据中心与用户之间的连接路径;所述
Figure BDA0002865886150000071
所述c(vi)为租用的数据中心vi的费用。
具体地,根据上述公式易知,选择器的目标为让用户租用到费用最少的数据中心vi。为了达到此目标,需要进行以下步骤:首先,将云服务提供商(联盟)所有的数据中心设置为对应的点。然后,根据各个数据中心的坐标获取点与点之间相对的分布位置,根据边的长度获取点与点之间的距离。根据点与点之间相对的分布位置和距离,建立点线图G。最后,根据点线图G、用户信息和数据中心计费信息计算出所有数据中心的租用费用,并且从中找到费用最少的数据中心vi
进一步地,所述
Figure BDA0002865886150000072
所述
Figure BDA0002865886150000073
为租用数据中心vi的网络资源费用;所述t(vi)为租用数据中心vi的计算资源费用。
具体地,根据上述公式易知数据中心vi的租用费用分为两部分:网络资源费用和计算资源费用。
进一步地,所述
Figure BDA0002865886150000074
所述
Figure BDA0002865886150000075
为设置了用户位置信息的点线图G;所述f(·)为边价值函数;
Figure BDA0002865886150000076
为用户u与数据中心vi之间最短的边。
具体地,由上述公式易知,网络资源费用由f(·)和最短的边计算获取。边的长度越长,传输的距离越长,网络资源费越高。根据用户位置信息在点线图G中设置用户对应的点,获取点线图
Figure BDA0002865886150000077
计算出点线图
Figure BDA0002865886150000078
内用户对应的点与哪个数据中心对应的点的边最短,拥有与用户之间最短的边的数据中心为网络资源费用最少的数据中心vi
进一步地,所述
Figure BDA0002865886150000079
所述|ei,j|为vi和vj之间的距离;所述vj为用户u;所述traffic为数据中心vi的单位流量价格;所述d为租赁的带宽。
具体地,用户对应的点为vj,|ei,j|为vi和vj之间的距离,即vi和vj的边的长度。因为用户与数据中心之间的距离往往难以准确测量,所以|ei,j|的值为根据经验或调试后,赋予的权重值。在数据中心之间,为了提高数据通信能力和速度,通常有高速专用网络进行连接。网络资源费用一般指的就是高速专用网络的费用,高速专用网络的费用与单位流量价格、传输距离成正比关系。如果有些数据中心之间的传输网络由于特殊原因导致单位流量价格不同,则可以通过延长距离的方式变相使单位流量价格一致。在本方案中,租用时长统一为单位时间(年/月),则数据中心的流量价格为traffic元/(Mb*km),租赁的带宽为dMb。
进一步地,所述t(vi)=a*pi+b*mi+c*di;所述a为数据中心vi的虚拟机CPU的计算能力;pi为租用数据中心vi的虚拟机CPU的单位价格;所述b为数据中心vi的虚拟机内存的大小;所述mi为租用数据中心vi的虚拟机内存的单位价格;所述c为数据中心vi的虚拟机的外存大小;所述di为租用数据中心vi的虚拟机外存的单位价格。
具体地,由于不同的数据中心的硬件设施、管理方式存在一定的差异性,不同数据中心有不同的计费标准。在相同的性能情况下,需要获取到所有数据中心中价格最低的一家,以此降低云服务的成本。计算资源的计费方式通常是单位时间价格、资源数量与租用时长三者之间的乘积。上述租用时长已统一为单位时间,因此在计算需要支付的费用时就可以不考虑时间因子。通常情况下,CPU的计价单位为MIPS或者核心个数,内存的计价单位为MB,外存的计价单位为GB。按照计价单位,租用数据中心vi的虚拟机CPU的单位价格为pi元/MIPS,租用数据中心vi的虚拟机内存单位价格为mi元/MB,租用数据中心vi的虚拟机外存单位价格di元/GB。
进一步地,所述训练样本为(St,α,r,St+1);所述St和St+1分别为时间步t和时间步t+1的状态;所述状态为代表数据中心位置和用户位置的编号,由状态空间S存储,S={0,1,2,……,n-1,n};所述α为时间步t的采取的动作;所述动作为代表拟传输数据的数据中心位置和用户位置的编号,由动作空间A存储,A={0,1,2,……,n-1,n};所述编号0,1,2,……,n-1代表数据中心位置;所述编号n代表用户位置;所述r为时间步t采取动作α得到的回报值,由奖赏函数计算获取。
具体地,首先将点线图
Figure BDA0002865886150000081
内的数据中心代表的点和用户代表的点进行编号,其中编号0,1,2,……,n-1代表数据中心位置,编号n代表用户位置。
进一步地,所述奖赏函数为矩阵:
Figure BDA0002865886150000082
所述ei,j为vi和vj的边;若vi和vj在矩阵内没有边,则ei,j=-1,否则ei,j>0;若ei,j>0则ei,n≥ei,m(0≤i≤n,0≤m<n)并且ei,n=ek,n(0≤i≤n,0≤k≤n)。
具体地,状态空间S内的编号代表数据中心位置和用户位置;动作空间A内的编号代表拟传输数据的数据中心位置和用户位置;当状态St采取动作α变为St+1,状态St的编号变更为α的编号,即数据由原来的数据中心位置或用户位置传输到拟传输的数据中心位置或用户位置,矩阵内的e为两个位置连接的边。当边e连接的都是数据中心位置时,回报值r为矩阵内的边e的长度;当边e连接的分别是数据中心位置与用户位置时,回报值r为权重值。因为用户位置难以准确地获取,所以用户位置与数据中心的边ei,j为根据经验或调试结果计算得到的权重值。若数据中心位置与用户位置存在连接,即ei,j>0,为了使状态S往用户位置靠近并且达到后永远停留于用户位置(即数据中心位置最终能与用户位置连接,即获取所有用户可租用的数据中心),权重值往往大于数据中心之间的边e,即边e对应的回报值r。(因为强化学习的目标是使状态S获取最高奖赏,所以传输到用户位置的回报值最大,则能实现状态S往用户位置靠近并且达到后永远停留于用户位置)。即ei,j>0并且ei,n≥ei,m(0≤i≤n,0≤m<n)并且ei,n=ek,n(0≤i≤n,0≤k≤n)。而e=-1则表示两个位置无法连接,选择了不合理动作,要给予负惩罚。
进一步地,所述优化选择器的目标函数为:
Figure BDA0002865886150000091
所述γ为折扣因子;所述αt为时间步t+1采取的动作。
具体地,将上述的训练样本和奖赏函数代入目标函数中,能使选择器从一个状态到另一个状态不断进行探索,直到达到目标状态(永远停留于用户位置)为止。探索过程会产生Q表,所述Q表用于记录探索过程中的数据。由于Q的目标是达到最大回报,而回报值越大代表着两个位置的边越长,两个位置的距离越远。因此,从Q表筛选出与用户位置有连接(即e≠-1,e>0)并且回报值最小(即边最短)的数据中心,此数据中心就是网络资源费用最小的数据中心。
本实施例还进行了仿真实验,实验目标为测试一种基于异向强化学习的分布式数据中心选择方法的有效性。
基于Python开发数据中心选择算法仿真器。假设云服务提供商(联盟)在东北、西北、东南、西南和中部建设有数据中心,其中中部数据中心起来网络枢纽的作用,将其他几个数据中心通过专用高速网络连接起来。在南方有某个用户希望在该服务商中租赁一台虚拟机,将其放置在东北或西北的数据中心,如图2所示。
在图2中,0号点代表西北地区的数据中心,1号点代表东南地区的数据中心,2号点代表东北地区的数据中心,3号点代表中部地区的数据中心,4号点代表西南地区的数据中心,5号点代表用户。0、1、2、4号数据中心以3号数据中心为桥接通过高速专用网络彼此相连,用户与1、4号数据中心通过普通网络连接。现在用户要在0号与2号数据中心之间做出选择。在虚拟机的CPU、内存、外存和带宽等基本配置不变,仅网络资源费用可优化的情况下,根据公式:
Figure BDA0002865886150000101
可知,网络资源费用与数据中心之间的边长相关。假设云服务提供商的网络流量价格为1元/(Mb*km),用户需求流量为1Mb,则根据上式,网络资源费用可以转化为用户与数据中心路径上所有边长之和,即
Figure BDA0002865886150000102
根据图2的边标注数据中心间的长度。在图2中,因为用户点是强化学习的目标点,为了将Agent吸引到目标点,将e4,5和e1,5的值设置为比其他边更大,并且两个值相同,都为100。同时,为了将Agent吸收在目标点5当中,建立虚拟网络,权值也是100。
将图2的数值代入奖赏矩阵:
Figure BDA0002865886150000103
为了考察训练算法的收敛效果,用以下公式来计算相邻两个episodes训练后Q表的误差变化情况:
Figure BDA0002865886150000104
其中
Figure BDA0002865886150000105
代表第k个episode训练后Q表中第i行第j列元素的值。将Q表初始化为为6×6的0矩阵,按照
Figure BDA0002865886150000106
对Q表进行训练。训练过程中Q表的变化情况如图3所示。
从图3可知,经过大约40episodes训练,Q表就已经基本收敛。最终的Q表如下:
Figure BDA0002865886150000111
用训练好的Q计算最短的边,计算结果如下表所示。
Figure BDA0002865886150000112
根据图2所示,若用户租用东北或西北的数据中心,用户到数据中心0的边最短,用户到数据中心0的路径有3条:5→1→3→0、5→4→3→0和5→4→0,路径长度分别是210、180和110,其中5→4→0,该路径是3条路径中最短的。与从上表罗列的结果相符,证明了本方法的正确性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于异向强化学习的分布式数据中心选择方法,其特征在于,包括:
获取数据中心信息和用户信息;所述数据中心信息包括:数据中心位置信息和数据中心计费信息;所述用户信息包括:用户位置信息和用户需求信息;
收集训练样本,建立训练集;所述训练样本用于存储数据中心位置信息、数据中心计费信息和回报值;所述回报值为奖赏函数通过数据中心信息和用户位置信息计算获取的值;
根据训练样本优化选择器;
通过优化后的选择器选择数据中心。
2.根据权利要求1所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述选择器的目标函数为:
Figure FDA0002865886140000011
所述u为用户;所述vi为租用的数据中心;所述G为点线图,G=(V(G),E(G));所述V(G)为地图G中所有的数据中心,|V(G)|=n;所述E(G)为地图G中所有的数据中心之间的边,|E(G)|=m;所述边为数据中心之间或数据中心与用户之间的连接路径;所述
Figure FDA0002865886140000012
Figure FDA0002865886140000013
所述c(vi)为租用的数据中心vi的费用。
3.根据权利要求2所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述
Figure FDA00028658861400000110
所述
Figure FDA0002865886140000015
为租用数据中心vi的网络资源费用;所述t(vi)为租用数据中心vi的计算资源费用。
4.根据权利要求3所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述
Figure FDA0002865886140000016
所述
Figure FDA0002865886140000017
为设置了用户位置信息的点线图G;所述f(·)为边价值函数;
Figure FDA0002865886140000019
为用户u与数据中心vi之间最短的边。
5.根据权利要求4所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述
Figure FDA0002865886140000018
所述|ei,j|为vi和vj之间的距离;所述vj为用户u;所述traffic为数据中心vi的单位流量价格;所述d为租赁的带宽。
6.根据权利要求5所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述t(vi)=a*pi+b*mi+c*di;所述a为数据中心vi的虚拟机CPU的计算能力;pi为租用数据中心vi的虚拟机CPU的单位价格;所述b为数据中心vi的虚拟机内存的大小;所述mi为租用数据中心vi的虚拟机内存的单位价格;所述c为数据中心vi的虚拟机的外存大小;所述di为租用数据中心vi的虚拟机外存的单位价格。
7.根据权利要求6所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述训练样本为(St,α,r,St+1);所述St和St+1分别为时间步t和时间步t+1的状态;所述状态为代表数据中心位置和用户位置的编号,由状态空间S存储,S={0,1,2,……,n-1,n};所述α为时间步t的采取的动作;所述动作为代表拟传输数据的数据中心位置和用户位置的编号,由动作空间A存储,A={0,1,2,……,n-1,n};所述编号0,1,2,……,n-1代表数据中心位置;所述编号n代表用户位置;所述r为时间步t采取动作α得到的回报值,由奖赏函数计算获取。
8.根据权利要求7所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述奖赏函数为矩阵:
Figure FDA0002865886140000021
所述ei,j为vi和vj的边;若vi和vj在矩阵内没有边,则ei,j=-1,否则ei,j>0;若ei,j>0则ei,n≥ei,m(0≤i≤n,0≤m<n)并且ei,n=ek,n(0≤i≤n,0≤k≤n)。
9.根据权利要求8所述的一种基于异向强化学习的分布式数据中心选择方法,其特征在于,所述优化选择器的目标函数为:
Figure FDA0002865886140000022
所述γ为折扣因子;所述αt为时间步t+1采取的动作。
CN202011580622.8A 2020-12-28 2020-12-28 一种基于异向强化学习的分布式数据中心选择方法 Pending CN112700269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580622.8A CN112700269A (zh) 2020-12-28 2020-12-28 一种基于异向强化学习的分布式数据中心选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580622.8A CN112700269A (zh) 2020-12-28 2020-12-28 一种基于异向强化学习的分布式数据中心选择方法

Publications (1)

Publication Number Publication Date
CN112700269A true CN112700269A (zh) 2021-04-23

Family

ID=75512950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580622.8A Pending CN112700269A (zh) 2020-12-28 2020-12-28 一种基于异向强化学习的分布式数据中心选择方法

Country Status (1)

Country Link
CN (1) CN112700269A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952009A (zh) * 2023-03-15 2023-04-11 北京泰尔英福科技有限公司 基于算网融合特征的数据中心推荐方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103238147A (zh) * 2010-12-08 2013-08-07 日本电气株式会社 通信服务提供系统、提供通信服务的方法和数据中心管理系统
CN109086976A (zh) * 2018-07-11 2018-12-25 陕西师范大学 一种面向群智感知的任务分配方法
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法
CN110308995A (zh) * 2019-07-08 2019-10-08 童晓雯 一种边缘云计算服务系统边缘云节点部署装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103238147A (zh) * 2010-12-08 2013-08-07 日本电气株式会社 通信服务提供系统、提供通信服务的方法和数据中心管理系统
CN109086976A (zh) * 2018-07-11 2018-12-25 陕西师范大学 一种面向群智感知的任务分配方法
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法
CN110308995A (zh) * 2019-07-08 2019-10-08 童晓雯 一种边缘云计算服务系统边缘云节点部署装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIRUI LI 等: ""Data Center Selection Based on Reinforcement Learning"", 《2019 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTERNET OF THINGS (CCIOT)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952009A (zh) * 2023-03-15 2023-04-11 北京泰尔英福科技有限公司 基于算网融合特征的数据中心推荐方法及装置

Similar Documents

Publication Publication Date Title
CN110503396B (zh) 基于多技能的复杂空间众包任务分配方法
CN107464043A (zh) 一种空间众包中多类型任务的分配方法
CN109740870B (zh) 云计算环境下Web应用的资源动态调度方法
Bompard et al. A game theory simulator for assessing the performances of competitive electricity markets
CN105718647A (zh) 一种在线交通仿真方法及系统
Liwang et al. Resource trading in edge computing-enabled IoV: An efficient futures-based approach
CN112700269A (zh) 一种基于异向强化学习的分布式数据中心选择方法
CN115130811A (zh) 电力用户画像的建立方法、装置及电子设备
CN110413722A (zh) 地址选择方法、装置以及非瞬时性存储介质
Gasmi Cost proxy models and telecommunications policy: A new empirical approach to regulation
CN116596640A (zh) 电力零售电费套餐的推荐方法、系统、设备及存储介质
CN107844999A (zh) 基于拍卖机制的网络租车车辆资源分配及定价方法
CN103237072B (zh) 一种基于用户满意度感知的数据中心服务布置方法
CN109523246A (zh) 用户缴费渠道规划方法及装置
CN113543055B (zh) 基于双向拍卖机制的车辆边缘计算中资源分配方法
Li et al. Data center selection based on reinforcement learning
CN110008970A (zh) 一种地址信息生成方法和装置
CN107743074A (zh) 一种组合服务的信任度估算方法
CN107592363A (zh) 基于复合物联网的水费收取方法及物联网系统
CN114500303A (zh) 一种临时云资源的使用计费方法
CN110533334A (zh) 一种电网企业成本先进性评估的方法及系统
CN107360210A (zh) 云计算数据中心兼顾能耗与访问延迟的虚拟机分配方法
CN108900315B (zh) 面向云服务提供商的服务利润优化方法
CN114900556B (zh) 多云异构环境下基于服务偏好学习的云互联方法及系统
Bouamama et al. The new economic environment to manage resources in cloud computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210423