CN109818786B

CN109818786B - 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法

Info

Publication number: CN109818786B
Application number: CN201910050829.5A
Authority: CN
Inventors: 毕敬; 刘恒; 张晓芬
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-20
Filing date: 2019-01-20
Publication date: 2021-11-26
Anticipated expiration: 2039-01-20
Also published as: CN109818786A

Abstract

本发明公开一种云数据中心应用可感知的分布式多资源组合路径最优选取方法，包括：云数据中心应用可感知云资源管理器负责采集基础资源中的网络、CPU等资源状态信息；采用强化学习、价值网络及策略网络相结合的方式形成无监督的深层混合架构模型，对模型训练及各类请求流的节点移动位置进行评估；采用新型的树搜索算法，即并行蒙特卡罗树搜索(Parallel Monte Carlo Tree Search,PMCTS)算法，来给每一类型的请求流加速寻找合适的资源路径，并且联合价值和策略网络，从而给出其最优的资源路径的选择结果。采用本发明的技术方案，可以确保云数据中心各类密集型请求流的总响应时间延迟最小。

Description

一种云数据中心应用可感知的分布式多资源组合路径最优选取方法

技术领域

本发明涉及一种云数据中心应用可感知的分布式多资源组合路径的最优选取方法。

背景技术

近年来，提供应用服务托管的云数据中心(Cloud Data Center,CDC)越来越受企业和用户的欢迎。云架构由于能够快速高效地扩展，并可以比传统数据中心支持更多的工作负载，同时即付即用模式和按需资源分配能力可以为用户构建IT基础架构节省时间和成本，并为云数据中心提供商运行应用程序和部署服务提供更具成本效益的方法。鉴于云提供的优势，越来越多的个人和企业将其应用从传统的个人计算机和内部数据中心逐渐转移到云，而这一趋势将会推动云流量的快速增长。思科发布的第六次年度云产业调研报告中指出到2020年云流量将增长3.7 倍，从2015年的每年3.9ZB增长到每年14.1ZB。目前，由于云数据中心中运行着由计算、存储和网络等各类基础资源构成的资源池，其不仅为大规模、多样化、多终端的云应用服务使用着，而且其所支持的云应用服务本身也包括了计算、存储和网络等不同密集型应用服务。例如，计算密集型应用服务包括了大规模仿真服务、工程分析服务、科学计算服务等；数据密集型应用服务包括了物联网服务、流媒体服务、社交网络服务等。由于云数据中心大量各类密集型应用服务的存在，如何在各类应用服务感知的情况下来有效地管理和优化基础资源的使用，并最小化请求流的延迟时间和节约能耗。因此，预测请求流负载对云数据中心的资源管理至关重要，但这也是一个非常具有挑战性的任务，受许多复杂因素的影响。同时，云数据中心基础环境需要先进的计算处理技术做支撑来提高各类密集型应用服务处理的速度和效率。此外，云数据中心资源管理与优化的根本目的是在满足应用服务消费者需求的前提下，保障云服务提供商的服务质量和成本效益，从而实现云计算的经济优势。

时至今日，低能耗、高效能、软件化、新型体系架构等是云数据中心发展的重要任务，如何有效地根据时间和空间依赖性预测云数据中心中各类密集型应用服务请求流(以下简称“请求流”)负载；如何高效地找到资源路径来流转应用服务所产生的大量各类请求流；如何使得Hadoop/Spark集群在给定资源的前提下协调优化基础资源，从而满足各类密集型应用服务共享资源时的性能需求并降低能耗。以上这些特性要求为云数据中心的资源管理和优化研究带来了新的挑战：

没有针对所有云应用服务资源路径选取一对一的解决方案，因为它们具有不同特性和不确定性。实际云数据中心里运行着大量并发的各类密集型应用服务，其动态性、多约束性、复杂性和相互影响性使得按照某一种资源密集型的应用服务进行资源计划既不可行又效率低下。例如，计算密集型应用服务会长时间占用 CPU资源，这导致长时间占用CPU资源的应用服务浪费了大量的网络I/O和存储资源。即使对于相同的应用服务，资源需求也可能会不同。例如，在处理来自用户的查询时，在线Web服务通常是CPU密集型的，而在Hadoop和Spark中运行的大多数MapReduce作业通常是数据密集型的。但是在线视频Web服务是数据密集型的并且需要高的I/O吞吐量，而一些Map Reduce作业(如K-Means和 Pagerank)是CPU密集型的，通常受CPU容量的限制。

因此，可使一种类型应用服务受益的机制可能对其它应用服务没有帮助，需要以应用可感知的方式研究分布式多资源组合路径最优选取方法，从而实现每一类型应用请求流在云数据中心处理的总响应时间延迟最小。

发明内容

针对以上现有技术的不足，本发明提供一种云数据中心应用可感知的分布式多资源组合路径的最优选取方法，以实现在获得动态请求流和资源状态信息的基础上，研究构建强化学习和无监督的价值网络与策略网络相结合的深层混合架构模型，在此基础上采用新型的树搜索算法，即PMCTS算法联合价值与策略网络，给每一类型的请求流寻找合适的资源路径，从而确保云数据中心各类密集型请求流的总响应时间延迟最小。

根据本发明的一个方面，提供了通过构建的深层混合架构模型对获取到的各类请求流负载预测信息以及网络链路和服务器集群中的当前状态作为特征输入，通过多个卷积层结合强化学习训练网络，并获得下一时间周期内到达的各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)，即选择当前动作a的概率。然后结合价值网络对各类请求流选择合适的节点移动位置，进行评估得到值v。

根据本发明的另一方面，提供了对每一类型的请求流加速寻找合适的资源路径的方法，包括：在前期使用策略网络和价值网络的训练结果的基础上结合新型的树搜索算法，即并列蒙特卡罗树搜索算法。加速对不同类型请求流的合适路径进行加速搜寻。

根据本发明的上述方面，针对不同类型请求流的转发需求，基于强化学习和无监督的价值网络与策略网络相结合的深层混合架构模型，初步获得了不同类型请求流的转发路径，最后根据新型搜索树,即PMCTS算法加速路径的寻优，从而缩短各类密集型请求流的总响应时间，使延迟最小化。

本发明的目的通过以下技术方案来实现：

一种云数据中心应用可感知的分布式多资源组合路径的最优选取方法，该方法包括如下步骤：

i)云数据中心应用可感知云资源管理器负责采集基础资源中的网络、CPU 等资源状态信息；

ii)采用强化学习、价值网络及策略网络相结合的方式由无监督的深层混合架构模型，来对模型训练及对各类请求流的节点移动位置进行评估；

iii)采用新型的树搜索算法，即PMCTS算法，来给每一类型的请求流加速寻找合适的资源路径，并且联合价值和策略网络，从而给出其最优的资源路径的选择结果。

进一步将获取实时的网络链路及服务器集群中的CPU、带宽、I/O等资源的状态信息存储到HBase数据库中。

进一步对问题进行抽象建模，在此我们把解决的问题转化为一个环境，环境需要如下的要素：

i)状态空间S：每个请求流可能流经的交换机等设备的局面，就是一个状态。

S＝[S₁,S₂,S₃,…S_n]，

其中：n代表交换机的个数，即状态个数。

ii)动作空间A：每个请求流可能经过的链路，即请求流从一个交换机流经到下一个交换机的链路，就是一个动作。

iii)状态转移概率P：在给定当前状态和动作下，转移到下一个状态的概率分布：

其中：s′表示下一时刻的可能状态。

iv)折扣因子γ：γ∈[0,1]，若接近于0，则只考虑眼前利益；若接近于1，则该算法可获得最大化的未来回报。

v)回报函数：给定动作当前状态和下一状态得到的回报，正代表奖励，负代表惩罚。假设当前时刻为t,其未来回报函数可定义为：

其中：γ为折扣因子，且γ∈[0,1]。

每次选择R值比较大的那条链路作为最优链路。

进一步网络拓扑图中可能出现环路问题，可考虑当请求流流经过某个交换机后，之后只能选择剩余的未流经过的交换机节点，从而防止环路问题。例如，当请求流流经过S₁后，再次发送只能选择S∈[S₂,S₃,…S_n]。

进一步将获取的数据进行数据预处理，然后使用策略网络将预处理后的各类请求流负载预测信息以及网络链路和服务器集群中的当前状态作为特征输入，通过多个卷积层结合强化学习训练网络，并获得下一时间周期内到达的各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)，即选择当前动作a的概率。

进一步价值网络对各类请求流选择合适的节点移动位置，进行评估得到值v。可通过相关命令来获得QoS的相关质量标准：每个交换机的CPU的利用率和每条链路的可用带宽、延迟抖动和丢包率等。将以上若干参数指标进行归一化处理，将所有的数据全部映射到[0,1]区间，方便后续数据进行处理。可采用min-max 方法来做归一化处理。公式如下：

其中：x^*表示归一化后的目标值，x表示需要归一化的数据，x_min代表数据中的最小值，x_max代表数据中的最大值。

假设下一状态交换机的CPU利用率及连接链路的可用带宽、延迟抖动、丢包率等参数归一化处理后的结果分别为：x_c、x_b、x_j和x_d等。由于不同请求流对QoS的需求不同，所以给每个参数分别赋予不同的权重w_a、w_b、w_c、w_d…，且(w_a,w_b,w_c,w_d…)∈[0,1]。即可得到：

v＝[w_ax_c+w_bx_b+w_cx_j+w_dx_d+…]。

此时v值越大说明此条链路性能越优。

进一步采用新型的树搜索算法，即PMCTS算法，来给每一类型的请求流加速寻找合适的资源路径，结合策略网络、价值网络，构建的模型得出的结果，对模型给出的可能位置进行不断的推演，不断更新不同位置的优劣程度,然后给出最优资源路径的选择结果。此算法是一种决策算法，其并行化，可以大量提高计算速度。在搜素过程中每条边存储4个值，分别为：

i)N(s,a)：此边的访问次数。

ii)W(s,a)：表示行为价值，为搜索路径上所有结点的价值总和，价值由价值网络输出得到。

iii)Q(s,a)：表示搜索路径上总的行为价值与访问次数的比值，即平均行为价值。

iv)P(s,a)：表示此边的先验概率。即策略网络输出的选择当前a的概率

其中，搜索开始时，根节点的每条边初始化，前三项初始值0，P(s,a)的初值为P(a)。其中s表示节点，a表示一条边。

假设模拟到达叶子节点的迭代次数为L，每次模拟分为以下4步：

i)节点的选择。选择一个开始节点作为根节点S₀，在步骤为t<L时选择一个动作a_t，且a_t＝max(Q(s_t,a)+U(s_t,a))，其中：

其中，c为可调参数，决定探索的程度；N代表当前节点的父节点被访问的次数。

ii)节点的扩展。利用U(s,a)公式计算每个子节点的U值，选择最大值的子节点M。

iii)随机模拟。从M节点开始运行一个模拟的输出，直至到达叶子节点结束。

iv)反向传播。N(s,a)加1,W(s,a)增加价值v,价值由价值网络输出得到,

搜索结束后，算法会选择访问次数N(s,a)最大的节点的策略a作为要选择的策略。

本发明的优点在于：

1.该方法能够较其他方法考虑各类密集型请求流的转发条件的不同需求。

2.该方法采用了具有自主学习、不断试错、不断改善能力的强化学习算法，能够考虑到算法对环境的影响，通过与环境的交互学会环境的内在状态和环境打交道的最优策略。

3.该方法采用了新型搜索树算法，进行了优化，加快了最优路径的搜索时间。

附图说明

图1云数据中心应用可感知的分布式多资源路径选取方法概念框架示意图；

图2预防网络环路处理流程图；

图3蒙特卡罗搜索树流程图。

具体实施方式

如图1所示，本发明提供一种云数据中心应用可感知的分布式多资源组合路径最优选取方法，其包括以下步骤：

第一步采集并处理基础资源中的网络、CPU等资源状态信息

从请求流数据仓库RFDH周期性地获取各类请求流在每段资源的流量预测信息；并通过云数据中心应用可感知云资源管理器AACRM获取实时的网络拓扑结构、每一条网络链路和服务器集群中的CPU、Memory、I/O等资源的状态信息，进而将这些资源状态信息实时存储到HBase数据库里。先采用特征工程对采集到的各资源状态信息(网络带宽、延迟、CPU等)进行处理，此步骤为下面构建的模型训练提供数据。

第二步抽象创造强化学习环境，为建模做基础

强化学习算法具有自主学习、不断试错、不断改善能力，能够考虑到算法对环境的影响，通过与环境的交互,学会环境的内在状态和环境打交道的最优策略。在此我们首先要把解决的问题转化为一个环境，为第三步的模型构建做基础，环境需要如下的要素：

S＝[S₁,S₂,S₃,…S_n]，

其中：n代表交换机的个数，即状态个数。

ii)动作空间A：每个请求流可能经过的链路，即请求流从一个交换机流经到下一个交换机的链路，就是一个动作

其中：s′表示下一时刻的可能状态。

iv)折扣因子γ：γ∈[0,1]，若接近于0，则只考虑眼前利益；若接近于1，则该算法可获得最大化的未来回报

v)回报函数：给定当前状态和动作下在下一状态得到的回报，正代表奖励，负代表惩罚。假设当前时刻为t,其未来回报函数可定义为：

其中：γ为折扣因子，且γ∈[0,1]。

每次选择R值比较大的那条链路作为最优链路。

第三步采用强化学习、价值网络及策略网络相结合方式建模，并读取数据进行训练

经过第二步的抽象操作之后，我们对强化学习本方法采用强化学习发挥的作用有了清晰的了解。在此环境中，采用强化学习、价值网络和策略网络相结合的方式由无监督的深层混合架构建模。首先策略网络结合强化学习利用第一步中获取的经特征工程处理过的各类请求流负载预测信息以及网络链路和服务器集群中的当前状态信息作为输入层特征，通过多个卷积层来训练网络，为了加快网络的收敛速度及避免梯度饱和，此网络的前N-1层激活函数为Relu函数，输出层激活函数为Sigmoid函数。定义此网络每一层的权重参数并对其进行初始化，此网络层与层之间为映射关系，即上一层的输出为下一层的输入，对于此网络来说为由输入层的输入数据经过每一层的权重以及该层的激活函数共同计算过后，输出到下一层，直至到达输出层。此时强化学习根据输出的结果，与环境交互，此时根据第二步提出的方法对要执行的环境进行抽象，输出结果根据抽象的环境执行策略a,到达下一个节点S_i，但再次选择下一个节点时，将设置为选择未到达过的节点S_i的动作a,避免环路的产生。每一个动作执行过后将根据第二步的折扣因子γ、当前回报r等对输出动作执行产生的奖惩进行计算，并将每步的回报值进行累加即可得到最后的总回报值

并将此回报值反馈给网络，进行不断地迭代优化。由此得到下一时间周期内到达的各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)，即选择当前动作a 的概率；价值网络结合强化学习类似地使用多个卷积层对策略网络产生的结果，即对即将到达的各类请求流可能选择合适的节点移动位置进行评估，得到评估结果v。可通过相关命令来获得QoS的相关质量标准：每个交换机的CPU的利用率和每条链路的可用带宽、延迟抖动和丢包率等。将以上若干参数指标进行归一化处理，将所有的数据全部映射到[0,1]区间，方便后续数据进行处理。可采用 min-max方法来做归一化处理。公式如下：

假设下一状态交换机的CPU利用率及连接链路的可用带宽、延迟抖动、丢包率等归一化处理后的结果分别为：x_c、x_b、x_j和x_d等。由于不同请求流对QoS 的需求不同，所以给每个参数分别赋予不同的权重w_a、w_b、w_c、w_d…，且 (w_a,w_b,w_c,w_d…)∈[0,1]。即可得到：

v＝[w_ax_c+w_bx_b+w_cx_j+w_dx_d+…]。

此时v值越大说明此条链路性能越优。

第四步采用并行树搜索算法寻找最优路径

在第三步的基础上，获得了混合架构模型的输出结果各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)、评估结果v，此步将采用新型的树搜索算法，即PMCTS算法，来给每一类型的请求流加速寻找合适的资源路径，结合策略网络、价值网络,构建的模型得出的结果P(s,a)、v，对模型给出的可能位置进行不断的推演，不断更新不同位置的优劣程度,然后给出最优资源路径的选择结果。此算法是一种决策算法，其并行化，可以大量提高计算速度。在搜素过程中每条边存储4个值，分别为：

i)N(s,a):此边的访问次数。

ii)W(s,a):表示行为价值，为搜索路径上所有结点的价值总和，价值由价值网络输出得到。

iii)Q(s,a):表示搜索路径上总的行为价值与访问次数的比值，即平均行为价值。

iv)P(s,a):表示此边的先验概率。即策略网络输出的选择当前a的概率。

i)节点的选择。选择一个开始节点作为根节点S₀，在步骤为为t<L时选择一个动作a_t，且a_t＝max(Q(s_t,a)+U(s_t,a))，其中：

v)反向传播。N(s,a)加1,W(s,a)增加价值v,价值由价值网络输出得到,

该处理流程，如图3所示。

本发明的基于一种应用可感知的分布式多资源路径最优选取方法。该方法在获得动态请求流和资源状态信息基础上，研究构建强化学习(RL)和无监督的价值网络与策略网络相结合的深层混合架构模型，在此基础上采用新型的树搜索算法，即PMCTS算法联合价值与策略网络，通过反复模拟和采样多资源路径信息来探索状态空间给每一类型的请求流寻找最合适的资源路径，从而确保云数据中心各类密集型请求流的总响应时间的延迟最小。

显然，本发明的上述实施例是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种构建云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，包括如下步骤：

步骤1)云数据中心应用可感知云资源管理器负责采集基础资源中的网络、CPU资源状态信息；

步骤2)采用强化学习、价值网络及策略网络相结合的方式形成无监督的深层混合架构模型，对模型训练及各类请求流的节点移动位置进行评估；

步骤3)采用新型的树搜索算法，即并行蒙特卡罗树搜索(Parallel Monte Carlo TreeSearch,PMCTS)算法，来给每一类型的请求流加速寻找合适的资源路径，并且联合价值和策略网络，从而给出其最优的资源路径的选择结果。

2.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤1)中首先从请求流数据仓库(Request Flow Data Hive,RFDH)周期性地获取各类请求流在每段资源的流量预测信息；并通过应用可感知云资源管理器(Application-Aware Cloud Resource Management,AACRM)获取实时的网络拓扑结构、每一条网络链路和服务器集群中的CPU、Memory、I/O资源的状态信息，进而将这些资源状态信息实时存储到HBase数据库里。

3.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤2)具体为：

首先，对问题进行抽象建模，将解决的问题转化为一个环境，环境需要如下的要素：

i)状态空间S：每个请求流可能流经的交换机等设备的局面，就是一个状态，S＝[S₁,S₂,S₃,…S_n]，

其中：n代表交换机的个数，即状态个数；

ii)动作空间A：每个请求流可能经过的链路，即请求流从一个交换机流经到下一个交换机的链路，就是一个动作；

其中：s′表示下一时刻的可能状态；

iv)折扣因子γ：γ∈[0,1]，若接近于0，则只考虑眼前利益；若接近于1，则该算法可获得最大化的未来回报；

v)回报函数：给定动作当前状态和下一状态得到的回报，正代表奖励，负代表惩罚；假设当前时刻为t,其未来回报函数可定义为：

其中：γ为折扣因子，且γ∈[0,1]；每次选择R值比较大的那条链路作为最优链路；

其次，策略网络结合强化学习利用步骤1)中获取的经特征工程处理过的各类请求流负载预测信息以及网络链路和服务器集群中的当前状态信息作为输入层特征，通过多个卷积层来训练网络，定义此网络每一层的权重参数并对其进行初始化，此网络层与层之间为映射关系，即上一层的输出为下一层的输入，对于此网络来说为由输入层的输入数据经过每一层的权重以及该层的激活函数共同计算过后，输出到下一层，直至到达输出层；此时强化学习根据输出的结果，与环境交互，此时对要执行的环境进行抽象，输出结果根据抽象的环境执行策略a,到达下一个节点S_i，但再次选择下一个节点时，将设置为选择未到达过的节点S_i的动作a,避免环路的产生；每一个动作执行过后将根据第二步的折扣因子γ、当前回报r等对输出动作执行产生的奖惩进行计算，并将每步的回报值进行累加即可得到最后的总回报值

并将此回报值反馈给网络，进行不断地迭代优化；由此得到下一时间周期内到达的各类请求流在网络链路和服务器集群节点中的激活概率P(s,a)，即选择当前动作a的概率；价值网络结合强化学习使用多个卷积层对策略网络产生的结果，即对即将到达的各类请求流可能选择合适的节点移动位置进行评估，得到评估结果v，可通过相关命令来获得QoS的相关质量标准：每个交换机的CPU的利用率和每条链路的可用带宽、延迟抖动和丢包率；将以上若干参数指标进行归一化处理，将所有的数据全部映射到[0,1]区间，可采用min-max方法来做归一化处理，公式如下：

其中：x^*表示归一化后的目标值，x表示需要归一化的数据，x_min代表数据中的最小值，x_max代表数据中的最大值；

假设下一状态交换机的CPU利用率及连接链路的可用带宽、延迟抖动、丢包率参数归一化处理后的结果分别为：x_c、x_b、x_j和x_d，给每个参数分别赋予不同的权重w_a、w_b、w_c、w_d…，且(w_a,w_b,w_c,w_d…)∈[0,1]，即可得到：

v＝[w_ax_c+w_bx_b+w_cx_j+w_dx_d+…]；

此时v值越大说明此条链路性能越优。

4.根据权利要求1所述的云数据中心应用可感知的分布式多资源组合路径的最优选取方法，其特征在于，步骤3)采用新型的树搜索算法，即PMCTS算法，来给每一类型的请求流加速寻找合适的资源路径，结合策略网络、价值网络，构建的模型得出的结果，对模型给出的可能位置进行不断的推演，不断更新不同位置的优劣程度，后给出最优资源路径的选择结果；在搜素过程中每条边存储4个值，分别为：

i)N(s,a)：该边的访问次数；

ii)W(s,a)：表示行为价值，为搜索路径上所有结点的价值总和，行为价值由价值网络输出得到；

iii)Q(s,a)：表示搜索路径上总的行为价值与访问次数的比值，即平均行为价值；

iv)P(s,a)：表示此边的先验概率；即策略网络输出的选择当前a的概率；

其中，搜索开始时，根节点的每条边初始化，前三项初始值为0，P(s,a)的初值为P(a)；其中s表示节点即状态，a表示一条边；

i)节点的选择，选择一个开始节点作为根节点S₀，在步骤为t<L时选择一个动作a_t，且a_t＝max(Q(s_t,a)+U(s_t,a))，其中：

其中，c为可调参数，决定探索的程度；N代表当前节点的父节点被访问的次数，

ii)节点的扩展，利用U(s,a)公式计算每个子节点的U值，选择最大值的子节点M，

iii)随机模拟，从M节点开始运行一个模拟的输出，直至到达叶子节点结束，

iv)反向传播，N(s,a)加1,W(s,a)增加价值v,行为价值由价值网络输出得到,