CN115460217B

CN115460217B - 一种基于强化学习的云服务高可用决策方法

Info

Publication number: CN115460217B
Application number: CN202211402148.9A
Authority: CN
Inventors: 谢永强; 李忠博; 齐锦; 李少南; 霍启正
Original assignee: Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Current assignee: Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-07-14
Anticipated expiration: 2042-11-10
Also published as: CN115460217A

Abstract

本公开提出一种基于强化学习的云服务高可用决策方法，涉及云服务技术领域。本公开利用智能体对云服务系统的工作状态进行检测并能在云服务器异常时自主做出相应的动作以恢复服务状态；解决了云服务器中高可用机制不能动态适用网络状态的问题，突破了云服务器智能化维护高可用的能力。

Description

一种基于强化学习的云服务高可用决策方法

技术领域

本发明属于云服务技术领域，尤其涉及一种基于强化学习的云服务高可用决策方法。

背景技术

随着高性能计算机和网络的快速发展，信息系统集成度不断增大，一个硬件或软件故障都可能导致网络瘫痪、系统崩溃，因此提高系统的高可用性成为最迫切解决的问题。目前，高可用解决方案主要为集群技术，这是一种将一组独立的服务器硬件和软件连接起来协同完成复杂任务的系统。当集群运行于三个节点以上时，对外便可以提供高可靠性的服务，即便某些节点出现故障，依然能对外提供服务。提高集群高可用的主要途径有容错技术、异地备份技术、服务迁移等，通过资源冗余和合理管理，使系统具备一定的自我修复功能，从而提高系统的可用性。

高可用集群涉及到故障检测、故障诊断处理、心跳技术、异地备份、服务迁移、容灾技术等。故障检测是一种检测系统是否出现故障的方法，一般是在不影响集群运行的情况下进行。故障诊断处理是当检测出故障后，对故障定位，确定故障原因，进行相应处理，一般包括服务迁移、结点重组。心跳技术是集群中各节点定期发送数据包，告诉中心本节点的状态，通过心跳技术，中心可以检测各节点的状态，若需要则启动故障修复操作，一般的检测方法是根据心跳的到达间隔及携带的信息判断节点状态，心跳包到达间隔均匀则说明节点状态良好，心跳包到达间隔突然增大超过阈值或者心跳停止则说明节点出现故障。心跳包中携带的信息包括节点计算、内存、存储、网络质量等指标，当节点此类指标恶化超过阈值则说明节点出现故障。异地备份是将当前服务器中的数据在其他服务器上进行实时备份处理，当正在运行服务器异常是可以快速通过异地备份的数据进行恢复等操作。服务迁移是将异常服务器上服务快速迁移到正常服务器上实现服务的快速恢复达到高可用的状态。容灾技术是在服务器上增加冗余资源当系统某一组件异常时用冗余资源快速替代实验高可用。

目前，上述的高可用机制的应用仍处于通过人工设置的方式来实现，资源的利用率低，造成外的运行开销和大量的人工成本同时对人工的经验依赖很大。例如心跳机制中的心跳阈值需要有经验的工程师根据服务器的运行环境进行合理的设置。因此，需要一种新的云服务算法来实现高可用机制的智能化决策。

发明内容

为了解决上述技术问题，本发明提出了一种基于强化学习的云服务高可用决策方法。

所述方法包括：步骤S1、从当前时刻的云环境中获取云服务器的第一状态空间，所述第一状态空间包括所述当前时刻的云环境下所述云服务器的物理参数向量；步骤S2、通过将所述第一状态空间输入至智能体确定所述云服务器的第一动作空间，所述第一动作空间包括基于所述当前时刻的云环境确定的所述云服务器的调整策略；步骤S3、在下一时刻基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态后，从所述下一时刻的云环境中获取所述云服务器的第二状态空间；步骤S4、将所述第二状态空间输入至智能体，所述智能体基于所述第二状态空间对所述第一动作空间限定的调整策略进行评分，利用评分结果和所述第二状态空间确定所述云服务器的第二动作空间。

其中，所述云环境包括若干网络设备、若干云终端、云服务器、若干云服务以及存储的历史数据，所述云环境变化时，所述云服务器的物理参数随之发生变化；所述第一状态空间包括所述云服务器在所述当前时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分；所述第二状态空间包括所述云服务器在所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分。

其中，在所述步骤S2/S4中，所述智能体在确定动作空间时，从若干调整策略中选择至少一个调整策略，并将选择的调整策略对应的向量位的值置1，其他调整策略对应的向量位的值置0，从而获取由所述智能体确定的动作空间，其中所述若干调整策略包括无操作、服务迁移、启动容灾、改变心跳和异地备份。

其中，所述智能体包括决策模块、评分模块和由Q表和卷积网络构成的记忆模块；在所述步骤S2中：所述第一状态空间被输入至所述卷积网络，所述卷积网络基于所述第一状态空间输出对所述云服务器在所述当前时刻的工作状态的判别结果，所述决策模块基于所述判别结果确定对应的调整策略，以形成所述第一动作空间。

其中，在所述步骤S3中：当所述第一动作空间限定的调整策略为所述无操作时，表征所述云服务器在所述当前时刻的工作状态良好，直接在所述下一时刻获取所述第二状态空间；当所述第一动作空间限定的调整策略不为所述无操作时，表征所述云服务器在所述当前时刻的工作状态异常，则基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态，随后在所述下一时刻获取所述第二状态空间。

其中，在所述步骤S4中：所述评分模块判断所述第二状态空间中所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分是否在期望范围内，并根据判断结果对所述第一动作空间限定的调整策略进行评分，所述评分结果和所述第二状态空间均被输入至所述卷积网络；所述卷积网络基于所述评分结果和所述第二状态空间输出对所述云服务器在所述下一时刻的工作状态的判别结果，所述决策模块基于所述下一时刻的工作状态的判别结果确定对应的调整策略，以形成所述第二动作空间。

其中，当所述第二动作空间限定的调整策略为所述无操作时，表征所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态良好，则无需进一步调整所述云服务器的工作状态；当所述第二动作空间限定的调整策略不为所述无操作时，所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态仍为异常，则基于所述第二动作空间限定的调整策略调整所述云服务器的工作状态；通过不断获取状态空间、确定动作空间、调整所述云服务器的工作状态，使得所述云服务器的工作状态从异常恢复为良好，且每隔固定时间间隔重新获取所述云服务器的状态空间，以检测所述云服务器是否需要调整工作状态。

其中，所述判断结果和所述评分结果被存储在所述Q表中，以用于实时或每隔所述固定时间间隔训练所述卷积网络，通过不断调整所述调整策略，形成不同的动作空间，获取不同的判断结果，来确定最优的评分结果，以不断优化所述卷积网络。

综上，本发明提供的技术方案利用智能体对云服务系统的工作状态进行检测并能在云服务器异常时自主做出相应的动作以恢复服务状态；解决了云服务器中高可用机制不能动态适用网络状态的问题，突破了云服务器智能化维护高可用的能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于强化学习的云服务高可用决策方法的流程示意图；

图2为根据本发明实施例的训练过程的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于强化学习的云服务高可用决策方法。

图1为根据本发明实施例的基于强化学习的云服务高可用决策方法的流程示意图；结合图1所示，所述方法包括：步骤S1、从当前时刻的云环境中获取云服务器的第一状态空间，所述第一状态空间包括所述当前时刻的云环境下所述云服务器的物理参数向量；步骤S2、通过将所述第一状态空间输入至智能体确定所述云服务器的第一动作空间，所述第一动作空间包括基于所述当前时刻的云环境确定的所述云服务器的调整策略；步骤S3、在下一时刻基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态后，从所述下一时刻的云环境中获取所述云服务器的第二状态空间；步骤S4、将所述第二状态空间输入至智能体，所述智能体基于所述第二状态空间对所述第一动作空间限定的调整策略进行评分，利用评分结果和所述第二状态空间确定所述云服务器的第二动作空间。

具体地，基于强化学习的云服务高可用决策算法由智能体、环境、状态空间、动作空间组成，其中智能体包含记忆模块（可有Q表或卷积网络构成）、回报函数（评分模块）、决策模块，环境包含网络设备、云终端、云服务器、云服务、历史数据等。

状态空间：表现云服务器工作状态的一组物理参数向量，例如｛带宽占用率、CPU占用率、系统延迟、内存占用、网络质量等｝，云服务器的工作的状态可以被状态空间唯一表示。

动作空间：能够改变云服务器的工作状态的一组物理参数向量，例如｛无操作（表示服务器状态良好）、提高心跳频率、降低心跳频率、启动容灾服务器、服务迁移等｝。

智能体（Agent）：用于检测当前云服务器状态，并根据当前状态做出动作空进中的相应动作，该变云服务器的服务状态。

环境（Environment）：即云服务系统，在不同时刻产生不同的状态空间向量。

回报函数(Reward)：与云服务恢复时间成反比关系，恢复时间越短回报值越高。

记忆模块：智能体用以记忆和学习不同环境下该选用的最优高可用机制，通过回报函数迭代更新，使智能体逐渐向最优的高可用方案收敛。

决策模块：根据记忆模块和环境输入的状态参数，决策当前该选用的高可用机制。

在一些实施例中，所述云环境包括若干网络设备、若干云终端、云服务器、若干云服务以及存储的历史数据，所述云环境变化时，所述云服务器的物理参数随之发生变化；所述第一状态空间包括所述云服务器在所述当前时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分；所述第二状态空间包括所述云服务器在所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分。

在一些实施例中，在所述步骤S2/S4中，所述智能体在确定动作空间时，从若干调整策略中选择至少一个调整策略，并将选择的调整策略对应的向量位的值置1，其他调整策略对应的向量位的值置0，从而获取由所述智能体确定的动作空间，其中所述若干调整策略包括无操作、服务迁移、启动容灾、改变心跳和异地备份。

在一些实施例中，所述智能体包括决策模块、评分模块和由Q表和卷积网络构成的记忆模块；在所述步骤S2中：所述第一状态空间被输入至所述卷积网络，所述卷积网络基于所述第一状态空间输出对所述云服务器在所述当前时刻的工作状态的判别结果，所述决策模块基于所述判别结果确定对应的调整策略，以形成所述第一动作空间。

在一些实施例中，在所述步骤S3中：当所述第一动作空间限定的调整策略为所述无操作时，表征所述云服务器在所述当前时刻的工作状态良好，直接在所述下一时刻获取所述第二状态空间；当所述第一动作空间限定的调整策略不为所述无操作时，表征所述云服务器在所述当前时刻的工作状态异常，则基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态，随后在所述下一时刻获取所述第二状态空间。

在一些实施例中，在所述步骤S4中：所述评分模块判断所述第二状态空间中所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分是否在期望范围内，并根据判断结果对所述第一动作空间限定的调整策略进行评分，所述评分结果和所述第二状态空间均被输入至所述卷积网络；所述卷积网络基于所述评分结果和所述第二状态空间输出对所述云服务器在所述下一时刻的工作状态的判别结果，所述决策模块基于所述下一时刻的工作状态的判别结果确定对应的调整策略，以形成所述第二动作空间。

在一些实施例中，当所述第二动作空间限定的调整策略为所述无操作时，表征所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态良好，则无需进一步调整所述云服务器的工作状态；当所述第二动作空间限定的调整策略不为所述无操作时，所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态仍为异常，则基于所述第二动作空间限定的调整策略调整所述云服务器的工作状态；通过不断获取状态空间、确定动作空间、调整所述云服务器的工作状态，使得所述云服务器的工作状态从异常恢复为良好，且每隔固定时间间隔重新获取所述云服务器的状态空间，以检测所述云服务器是否需要调整工作状态。

在一些实施例中，所述判断结果和所述评分结果被存储在所述Q表中，以用于实时或每隔所述固定时间间隔训练所述卷积网络，通过不断调整所述调整策略，形成不同的动作空间，获取不同的判断结果，来确定最优的评分结果，以不断优化所述卷积网络。

具体地，训练过程可分为实时训练和离线训练，通过不断的与环境交互，不断的积累经验，最后让智能体学会如何在目标环境中取得最高的得分。在强化学习中被训练的算法为智能体而交互的系统为环，智能体根据环境的状态，通过一个策略函数获得行为的回报矩阵，并根据这一矩阵输出一个行为，将行为作用于环境，环境再给予智能体奖励，同时环境会转移到下一个状态。最终，找到一个最优的策略，使得智能体可以尽可能多的获得来自环境的奖励。

离线训练：通过历史云服务数据作为模拟环境与智能体进行交互，训练智能体。通过线下训练可以让智能体快速学习历史数据并产生决策能力。

实时训练：通过将离线训练的智能体部署在云环境中，提高云服务器高可用的同时，将产生的云服务状态作为训练集继续学习更新智能体，使智能体更加适应当前云服务的运行状态。

图2为根据本发明实施例的训练过程的示意图；结合图2所示，（1）将当前云服务器节点的状态矩阵输入智能体中，St表示当前时刻，St+1表示下一时刻，Rt+1表示下一时刻的评分（回报函数）。（2）智能体选取各种高可用机制中的一种进行输出，作用于云服务系统。（3）记录不同高可用机制下环境的状态变化并输入智能体中，通过回报函数更新智能体记忆模块。把上述实验重复循环多轮后，将云服务器在不同高可用机制下环境的状态变化作为强化学习的输入对智能体进行训练，并记录Q(s,a)用于指导下一次云服务器状态改变时的动作决策。具体有如下变量定义：

Q(s,a)：表示状态空间与动作空间的二维关系矩阵，横向为s表示云服务器的状态，纵向为a表示动作空间，即可执行的故障恢复操作,初始化是为0矩阵。

S：表示当前云服务器的工作状态，云服务器在t时刻的工作状态可表示为St = [M、C、N、B、D、etc]，其中M表示内存占用率∈[0,100], C表示cpu占用率∈[0,100], N表示网络请求数量∈N+, B表示带宽占用率∈[0,100],D表示网络数据平均延时∈R, M表示内存占用率∈[0,100]。

A：表示当前云服务器可进行的异常处理动作，云服务器在t时刻的动作∈｛None、HB_up、HB_down、SD、Mig、etc｝，其中None表示当前服务器工作稳定,不进行任何动作；HB_up表示提高心跳频率,HB_down表示降低心跳频率, SD表示启动容灾服务, Mig表示进行服务迁移。

T: 服务异常恢复的时间阈值（单位s），超过这一阈值则任务服务异常恢复失败。

t: 服务异常恢复的时间（单位s）。

α：常数系数∈｛0,1｝，当服务在阈值内恢复正常。

Function(t)：回报函数，与时间t成反比关系，当t越大回报值越小，t越小回报值越大。

通过伪代码的实现过程如下：

（1）随机初始化Q(s,a)；

（2）进入第一嵌套循环：

（2-1）初始化s；

（2-2）进入第二嵌套循环：

（2-2-1）获取s的期望值；

（2-2-2）基于当前s确定对应的动作a；

（2-2-3）执行动作a，记录回报值r和下一时刻状态s’；

（2-2-4）如果t＞T，则α=0；否则α=1；

（2-2-5）将Q(s,a)+αFunction(t)作为新的Q(s,a)；

（2-2-6）正则化新的Q(s,a)；

（2-3）不断重复第二嵌套循环，直到s趋于稳定；

（3）不断重复第一嵌套循环，直到s趋于稳定。

将训练好的智能体置于云服务中心位置，并分配一定的计算存储资源。对环境中的云服务器等各节点中携带的信息包括节点计算、内存、存储、网络质量等指标进行检测。智能体对云服务器的工作状态信息进行判断，当云服务器的状态发生变化时，由智能体决策是否选择某一高可用机制，若不选用则继续监控云服务器状态，如选用高可用机制则作用于云服务中，等待云服务器下一状态改变，进入下一轮决策循环中，直到云服务器停止工作。

可见，上述方法通过强化学习进行云服务故障检测及恢复。智能体的训练过程：结合强化学习过程，以Q(s,a)矩阵、回报函数、Function(t)联合为智能体（Agent），以故障恢复策略为行为（Action），以云服务系统为环境（Environment），以云服务的服务恢复时间为奖励(Reward)，以云服务器工作中的各项物理参数信息为状态（State），对心跳监测智能体进行训练。智能体的工作流程：智能体对云服务器节点工作状态信息进行判断，如果出现故障则输出故障解决机制，并作用于云服务中，根据云服务恢复时间跟新Q(s,a)，若没有出现故障则不对云服务状态进行调整在动作空间中选择None，之后循环对云服务器的监测。

办发明提供的方法充分利用强化学习的优势，提高高可用系统性能，智能化云服务系统运维管理和故障恢复，降低人工维护成本。本装置通过在云服务系统中使用强化学习算法智能体进行实时训练，置入云服务系统中代替传统阈值，使用训练后的智能体对云服务系统的工作状态进行检测并能在云服务器异常时自主做出相应的动作以恢复服务状态。本发明解决了云服务器中高可用机制不能动态适用网络状态的问题，突破了云服务器智能化维护高可用的能力。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的云服务高可用决策方法，其特征在于，所述方法包括：

步骤S1、从当前时刻的云环境中获取云服务器的第一状态空间，所述第一状态空间包括所述当前时刻的云环境下所述云服务器的物理参数向量；

步骤S2、通过将所述第一状态空间输入至智能体确定所述云服务器的第一动作空间，所述第一动作空间包括基于所述当前时刻的云环境确定的所述云服务器的调整策略；

步骤S3、在下一时刻基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态后，从所述下一时刻的云环境中获取所述云服务器的第二状态空间；

步骤S4、将所述第二状态空间输入至智能体，所述智能体基于所述第二状态空间对所述第一动作空间限定的调整策略进行评分，利用评分结果和所述第二状态空间确定所述云服务器的第二动作空间；

其中，在所述步骤S2和/或所述步骤S4中，所述智能体在确定动作空间时，从若干调整策略中选择至少一个调整策略，并将选择的调整策略对应的向量位的值置1，其他调整策略对应的向量位的值置0，从而获取由所述智能体确定的动作空间，其中所述若干调整策略包括无操作、服务迁移、启动容灾、改变心跳和异地备份；

其中，所述智能体包括决策模块、评分模块和记忆模块构成，所述记忆模块包括卷积网络；在所述步骤S2中：所述第一状态空间被输入至所述卷积网络，所述卷积网络基于所述第一状态空间输出对所述云服务器在所述当前时刻的工作状态的判别结果，所述决策模块基于所述判别结果确定对应的调整策略，以形成所述第一动作空间；

其中，在所述步骤S3中：

当所述第一动作空间限定的调整策略为所述无操作时，表征所述云服务器在所述当前时刻的工作状态良好，直接在所述下一时刻获取所述第二状态空间；

当所述第一动作空间限定的调整策略不为所述无操作时，表征所述云服务器在所述当前时刻的工作状态异常，则基于所述第一动作空间限定的调整策略调整所述云服务器的工作状态，随后在所述下一时刻获取所述第二状态空间；

其中，在所述步骤S4中：

所述评分模块判断所述第二状态空间中所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分是否在期望范围内，并根据判断结果对所述第一动作空间限定的调整策略进行评分，所述评分结果和所述第二状态空间均被输入至所述卷积网络；

所述卷积网络基于所述评分结果和所述第二状态空间输出对所述云服务器在所述下一时刻的工作状态的判别结果，所述决策模块基于所述下一时刻的工作状态的判别结果确定对应的调整策略，以形成所述第二动作空间。

2.根据权利要求1所述的一种基于强化学习的云服务高可用决策方法，其特征在于：

所述云环境包括若干网络设备、若干云终端、云服务器、若干云服务以及存储的历史数据，所述云环境变化时，所述云服务器的物理参数随之发生变化；

所述第一状态空间包括所述云服务器在所述当前时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分；

所述第二状态空间包括所述云服务器在所述下一时刻的带宽占用率、CPU占用率、系统延迟、内存占用量和网络质量评分。

3.根据权利要求1所述的一种基于强化学习的云服务高可用决策方法，其特征在于：

当所述第二动作空间限定的调整策略为所述无操作时，表征所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态良好，则无需进一步调整所述云服务器的工作状态；

当所述第二动作空间限定的调整策略不为所述无操作时，所述云服务器在基于所述第一动作空间调整所述云服务器的工作状态后，所述云服务器的工作状态仍为异常，则基于所述第二动作空间限定的调整策略调整所述云服务器的工作状态；

通过不断获取状态空间、确定动作空间、调整所述云服务器的工作状态，使得所述云服务器的工作状态从异常恢复为良好，且每隔固定时间间隔重新获取所述云服务器的状态空间，以检测所述云服务器是否需要调整工作状态。

4.根据权利要求3所述的一种基于强化学习的云服务高可用决策方法，其特征在于，所述智能体的所述记忆模块还包括Q表；所述判断结果和所述评分结果被存储在所述Q表中，以用于实时或每隔所述固定时间间隔训练所述卷积网络，通过不断调整所述调整策略，形成不同的动作空间，获取不同的判断结果，来确定最优的评分结果，以不断优化所述卷积网络。