CN115421950B

CN115421950B - 一种基于机器学习的自动化系统运维管理方法及系统

Info

Publication number: CN115421950B
Application number: CN202211025330.7A
Authority: CN
Inventors: 张磊; 蒋子文
Original assignee: Guangdong Bocheng Network Technology Co ltd
Current assignee: Guangdong Bocheng Network Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2024-01-23
Anticipated expiration: 2042-08-25
Also published as: CN115421950A

Abstract

本申请涉及一种基于机器学习的自动化系统运维管理方法及系统，其方法包括实时获取系统运行状态下的运维数据信息，将所述运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与所述运维数据信息相匹配的故障匹配信息，对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案，根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查。本申请具有提高系统运维的故障排查效率的效果。

Description

一种基于机器学习的自动化系统运维管理方法及系统

技术领域

本发明涉及系统运维的技术领域，尤其是涉及一种基于机器学习的自动化系统运维管理方法及系统。

背景技术

目前，随着系统用户规模的快速增长，系统的业务需求也越来越复杂多样，为了更好地对系统中的海量数据进行集中统一管理，对系统的运维方式也提出了更高的要求。

现有的系统运维管理方法通常为通过自动化运维平台对系统进行自动化运维，根据运维平台的自动化脚本对系统进行重复性的运维工作，运维平台的自动化脚本能够被重读调用和自动触发，但是，运维平台的运维规则是根据系统数据预先制定好的运维脚本，仅在运维数据达到预设的触发条件时才调用对应的脚本进行运维，在大数据时代下难以很好地适应动态且复杂多变的应用场景，尤其是在爆发大规模运维问题时，难以快速排查出问题根源进行快速维修，从而影响系统的整体运行时间，如，每年的618大促和双十一大促，电商购物系统的在线用户暴增造成系统崩溃的现象屡见不鲜，若不能在海量的业务中快速地排查出系统崩溃的根源，往往延长系统崩溃的时间从而造成大量的财产损失。

针对上述中的相关技术，发明人认为存在有运维平台对故障排查的效率受限于预先制定的运维规则的缺陷。

发明内容

为了提高系统运维的故障排查效率，本申请提供一种基于机器学习的自动化系统运维管理方法及系统。

本申请的上述发明目的一是通过以下技术方案得以实现的：

一种基于机器学习的自动化系统运维管理方法，所述基于机器学习的自动化系统运维管理方法包括：

实时获取系统运行状态下的运维数据信息；

将所述运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与所述运维数据信息相匹配的故障匹配信息；

对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案；

根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查。

通过采用上述技术方案，由于互联网系统数据规模的急剧膨胀，以及业务需求的复杂多样性，通过预先指定的自动化脚本对系统进行重复性的运维，往往是在故障出现并达到预设的运维阈值时，才能触发自动化脚本进行系统运维，存在一定的滞后性，因此，通过实时获取到的运维数据信息与故障模型进行故障匹配，能够快速得到故障匹配信息，提高故障查找的效率，并通过对故障匹配信息的系统故障预测处理，有助于通过运维决策信息快速地对运维数据信息提供故障解决方案，根据系统运维方案对系统的原始系统运维管理规则进行动态的规则更新，从而使系统运维管理规则更加符合系统的运行状态，在系统按照更新后的系统运维管理规则进行运维的过程中，对运维数据信息进行快速的故障排查，从而提高系统运维的故障排查效率，实现系统的自适应运维。

本申请在一较佳示例中可以进一步配置为：所述将所述运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与所述运维数据信息相匹配的故障匹配信息，具体包括：

获取与所述运维数据信息相符合的历史系统运维信息；

将所述历史系统运维信息进行特征画像处理，得到特征画像数据；

对所述特征画像数据中的异常特征进行数据标记，得到运维故障信息；

将所述运维故障信息与所述运维数据信息进行故障特征匹配，根据匹配结果生成故障匹配信息。

通过采用上述技术方案，由于在系统运维的过程中在数据库中存储了大量的用户数据和业务数据，若在系统出现故障时才根据当前故障信息制定对应的故障应对决策，一方面不能很好地利用已存储的系统数据，另一方面也无法为故障应对决策的制定提供一个有效的数据参考，因此，通过特征比对，在系统数据中查找与运维数据信息相符合的历史系统运维信息，并进行特征画像处理，有助于根据特征画像数据之间的快速比对，得到特征画像数据之间的异常特征点，如数据拐点、设备故障以及访问延迟增大等，从而根据特征画像数据对异常特征进行快速的数据标记，得到运维故障信息，有助于为判断运维数据信息是否发生故障提供一个有效的数据参考，通过运维故障信息和运维数据信息的故障特征比对，有助于根据故障匹配信息，快速判断运维数据信息是否发生运维故障，提供运维数据信息的故障判断效率。

本申请在一较佳示例中可以进一步配置为：所述对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案，具体包括：

获取所述故障匹配信息的变化趋势，得到故障变化趋势图谱，其中，所述故障变化趋势图谱包括故障变化趋势信息和对应的时间序列信息；

对所述运维数据信息与所述故障变化趋势图谱进行拟合处理，生成数据拟合结果；

根据所述数据拟合结果，计算所述运维数据信息在所述时间序列信息中的故障发生概率；

根据所述故障发生概率，构建关于所述运维数据信息的故障模拟模型；

将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息。

通过采用上述技术方案，由于在运维数据信息出现运维故障时，再根据运维脚本的触发条件触发运维规则制定运维故障的解决方案，需要一定的反应时间，当解决方案被制定出来之前，系统处于且维持故障状态，尤其是对于大规模用户群的系统，往往造成大规模的用户业务故障，因此，根据历史运维信息得到的故障匹配信息的变化趋势，有助于根据故障变化趋势图谱直观地得到故障发生的走向，并根据运维数据信息和故障发生趋势图谱的数据拟合结果，有助于快速预测运维数据信息的故障发生时间信息，通过运维数据信息的故障发生概率的计算，来构建故障模拟模型，有助于根据故障模拟模型，对运维数据信息进行快速的故障处理，有助于根据运维决策信息，在系统达到对应的时间序列时，调用对应的运维决策信息对运维故障进行及时的处理，提高系统对运维故障的处理效率。

本申请在一较佳示例中可以进一步配置为：所述将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息，具体包括：

获取所述运维数据信息到达下一状态的预期运维时间；

根据所述预期运维时间，对所述运维数据信息进行故障感知处理，得到所述故障发生概率下的运维故障根源信息；

对所述运维故障根源信息进行故障模拟分析，生成所述运维故障根源信息相对应的根因应对策略；

当所述运维数据信息进入所述预期运维时间时，调用所述根因应对策略对所述运维故障根源信息进行故障自愈处理，得到运维决策信息。

通过采用上述技术方案，由于系统运维故障的原因复杂多变，因此，根据预期运维时间对运维数据信息进行故障感知处理，得到运维故障根源信息，有助于帮助机器学习更好地针对运维故障根源信息学习对应的运维领域知识，有助于提高故障根因分析的准确性，通过机器学习算法对运维故障根源信息进行故障模拟分析，得到对应的根因应对策略，有助于在运运维数据信息进入预期运维时间时，能够及时调用根因应对策略对运维故障根源信息进行故障自愈处理，从而根据故障自愈处理结果得到运维决策信息，从而提高系统故障发生的根因分析准确性。

本申请在一较佳示例中可以进一步配置为：所述当所述运维数据信息进入所述预期运维时间时，调用所述根因分析策略对所述运维故障根源信息进行故障自愈处理，得到运维决策信息之后，还包括：

根据所述故障发生概率，对所述运维数据信息进行健康评估处理，得到健康评估结果；

根据所述健康评估结果，判断所述运维数据信息下的系统是否处于健康状态；

若否，则根据所述健康评估结果，调用与所述健康评估结果相对应的运维决策信息。

通过上述技术方案，由于用户量和业务需求的增大，一旦系统出现故障将会导致多个基础业务无法开展，影响系统的整体运行，因此，根据故障发生概率，对运维数据信息进行健康评估处理，有助于根据运维数据信息的健康评估结果判断系统是否处于健康状态，根据健康评估结果可以直观地了解到运维数据信息的宏观情况，从而根据健康评估结果快速地生成对应的运维决策信息，从而根据运维决策信息对运维数据信息进行运维故障处理，并在故障处理过程中不断计算业务系统的健康度权重，从而通过健康度权重判断运维故障信息是否成功解决，从而提高对系统整体运维情况的综合管理效率。

本申请在一较佳示例中可以进一步配置为：所述根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查，具体包括：

根据所述运维决策信息，对所述运维数据信息进行故障定位跟踪处理，得到故障轨迹信息；

对所述运维数据信息按照所述故障轨迹信息进行运维时的故障发生位置进行定位，得到故障位置信息；

对所述故障位置信息和所述运维决策信息进行特征关联，得到特征关联关系，并根据特征关联关系构建系统运维方案；

根据所述系统运维方案，对预先构建的原始运维管理规则进行更新，得到系统运维管理规则，其中，所述原始运维管理规则由若干个历史系统运维方案进行关联存储得到。

通过采用上述技术方案，由于系统的业务需求和用户群体呈动态的复杂多样状态，在海量的系统数据中遍历查找来排查运维故障过于耗费人力物力，因此，通过对于运维数据信息进行故障定位处理，有助于根据故障轨迹判断运维数据信息的下一个故障发生位置，从而得到故障位置信息，有助于根据故障位置信息预先生成对应的运维方案，通过根据故障位置信息和运维决策信息的特征关联，构建系统运维方案，从而对系统原始的运维管理规则进行实时动态更新，使系统运维管理规则更加贴合运维数据信息的实际情况，从而在发生潜在的运维故障时，能够快速对运维数据信息进行故障排查，提高系统运维故障排查的效率。

本申请在一较佳示例中可以进一步配置为：所述根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查，还包括：

实时获取所述运维数据信息所对应的用户活跃度；

将所述用户活跃度与预设的用户活跃峰值进行比较，得到活跃度比对结果；

根据所述活跃度比对结果，分级别调用与所述用户活跃度相对应的所述系统运维管理规则，以便于对系统进行全周期的运维监控。

通过采用上述技术方案，由于系统的用户活跃度存在高峰期和低峰期，如白天时间为系统用户的活跃度高峰期，夜间时间为系统的用户活跃度低峰期，在系统的夜间时间往往处于无人值守状态，不需要调用过多的系统资源对夜间的运维数据信息进行监控，因此，根据用户活跃度的活跃度比对结果，分级别调用相应的系统运维管理规则，实现系统运维规则的动态调用，实现系统资源的合理分配，也便于对系统进行全周期的运维监控。

本申请的上述发明目的二是通过以下技术方案得以实现的：

提供一种基于机器学习的自动化系统运维管理系统，所述基于机器学习的自动化系统运维管理系统包括：

数据获取模块，用于实时获取系统运行状态下的运维数据信息；

数据匹配模块，用于将所述运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与所述运维数据信息相匹配的故障匹配信息；

数据处理模块，用于对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案；

方案构建模块，用于根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查。

通过采用上述技术方案，由于互联网系统数据规模的急剧膨胀，以及业务需求的复杂多样性，通过预先指定的自动化脚本对系统进行重复性的运维，往往是在故障出现并达到预设的运维阈值时，才能触发自动化脚本进行系统运维，存在一定的滞后性，因此，通过实时获取到的运维数据信息与故障模型进行故障匹配，能够快速得到故障匹配信息，提高故障查找的效率，并通过对故障匹配信息的系统故障预测处理，有助于通过运维决策信息快速地对运维数据信息提供故障解决方案，根据系统运维方案对系统的原始系统运维管理规则进行动态的规则更新，从而使系统运维管理规则更加符合系统的运行状态，在系统按照更新后的系统运维管理规则进行运维的过程中，对运维数据信息进行快速的故障排查，从而提高系统运维的故障排查效率，实现系统的自适应运维管理。

本申请在一较佳示例中可以进一步配置为：所述数据匹配模块具体包括：

历史数据获取子模块，用于获取与所述运维数据信息相符合的历史系统运维信息；

特征画像子模块，用于将所述历史系统运维信息进行特征画像处理，得到特征画像数据；

数据标记子模块，用于对所述特征画像数据中的异常特征进行数据标记，得到运维故障信息；

特征匹配子模块，用于将所述运维故障信息与所述运维数据信息进行故障特征匹配，根据匹配结果生成故障匹配信息。

本申请在一较佳示例中可以进一步配置为：所述数据处理模块具体包括：

变化趋势获取子模块，用于获取所述故障匹配信息的变化趋势，得到故障变化趋势图谱，其中，所述故障变化趋势图谱包括故障变化趋势信息和对应的时间序列信息；

数据拟合子模块，用于对所述运维数据信息与所述故障变化趋势图谱进行拟合处理，生成数据拟合结果；

概率计算子模块，用于根据所述数据拟合结果，计算所述运维数据信息在所述时间序列信息中的故障发生概率；

模型构建子模块，用于根据所述故障发生概率，构建关于所述运维数据信息的故障模拟模型；

决策信息生成子模块，用于将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息。

通过采用上述技术方案，由于在运维数据信息出现运维故障时，再根据运维脚本的触发条件触发运维规则制定运维故障的解决方案，当解决方案被制定出来之前，系统处于且维持故障状态，尤其是大规模用户群的系统，往往造成大规模的用户业务故障，因此，根据历史运维信息得到的故障匹配信息的变化趋势，有助于根据故障变化趋势图谱直观地得到故障发生的走向，并根据运维数据信息和故障发生趋势图谱的数据拟合结果，有助于快速预测运维数据信息的故障发生时间信息，对运维数据信息的故障发生概率的计算，来构建故障模拟模型，有助于根据故障模拟模型，对运维数据信息进行快速的故障处理，有助于根据运维决策信息，在系统达到对应的时间序列时，及时调用对应的运维决策信息对运维故障进行及时的处理，提高系统对运维故障的处理效率。

综上所述，本申请包括以下至少一种有益技术效果：

1、通过实时获取到的运维数据信息与故障模型进行故障匹配，能够快速得到故障匹配信息，提高故障查找的效率，并通过对故障匹配信息的系统故障预测处理，有助于通过运维决策信息快速地对运维数据信息提供故障解决方案，根据系统运维方案对系统的原始系统运维管理规则进行动态的规则更新，从而使系统运维管理规则更加符合系统的运行状态，在系统按照更新后的系统运维管理规则进行运维的过程中，对运维数据信息进行快速的故障排查，从而提高系统运维的故障排查效率，实现系统的自适应运维管理；

2、通过特征比对，在系统数据中查找与运维数据信息相符合的历史系统运维信息，并进行特征画像处理，有助于根据特征画像数据之间的快速比对，得到特征画像数据之间的异常特征点，如数据拐点、设备故障以及访问延迟增大等，从而根据特征画像数据对异常特征进行快速的数据标记，得到运维故障信息，有助于为判断运维数据信息是否发生故障提供一个有效的数据参考，通过运维故障信息和运维数据信息的故障特征比对，有助于根据故障匹配信息，快速判断运维数据信息是否发生运维故障，提供运维数据信息的故障判断效率；

3、根据历史运维信息得到的故障匹配信息的变化趋势，有助于根据故障变化趋势图谱直观地得到故障发生的走向，并根据运维数据信息和故障发生趋势图谱的数据拟合结果，有助于快速预测运维数据信息的故障发生时间信息，对运维数据信息的故障发生概率的计算，来构建故障模拟模型，有助于根据故障模拟模型，对运维数据信息进行快速的故障处理，有助于根据运维决策信息，在系统达到对应的时间序列时，及时调用对应的运维决策信息对运维故障进行及时的处理，提高系统对运维故障的处理效率。

附图说明

图1是本申请一实施例中一种基于机器学习的自动化系统运维管理方法的实现流程图。

图2是本申请一实施例中自动化系统运维管理方法步骤S20的实现流程图。

图3是本申请一实施例中自动化系统运维管理方法步骤S30的实现流程图。

图4是本申请一实施例中自动化系统运维管理方法步骤S205的实现流程图。

图5是本申请一实施例中自动化系统运维管理方法步骤S304的另一实现流程图。

图6是本申请一实施例中自动化系统运维管理方法步骤S40的实现流程图。

图7是本申请一实施例中自动化系统运维管理方法步骤S40的另一实现流程图。

图8是本申请一实施例中一种基于机器学习的自动化系统运维管理系统的结构示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

在一实施例中，如图1所示，本申请公开了一种基于机器学习的自动化系统运维管理方法，具体包括如下步骤：

S10：实时获取系统运行状态下的运维数据信息。

具体的，运维数据信息是系统在进行运维过程的全周期系统数据，包括服务器数据和用户端数据，如通过本地服务端采集服务器自身信息和服务器运行程序信息，服务器自身信息包括机器负载情况、机器资源使用情况，通过预设的监控插件采集服务进程信息、日志信息、运维脚本信息和自定义http接口信息等；还通过远程探测的方式监控用户端机器是否发生故障，如通过端口监控、语义监控和结构体监控等多个方式对用户端机器进行综合监控，还可以设置宕机检测实时监控服务端与用户端之间的连接是否出现故障，如通过心跳包检测本地客户端的存活情况，并结合SSH端口的调用获取用户端机器的故障信息。

S20：将运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与运维数据信息相匹配的故障匹配信息。

具体的，为了提高运维数据信息的故障检测效率，通对若干个历史系统运维信息的数据训练，来预先构建好故障模型，便于在对运维数据信息进行故障检测时，直接通过故障模型进行故障匹配来获知对应的运维故障信息，如图2所示，步骤S20具体包括：

S101：获取与运维数据信息相符合的历史系统运维信息。

具体的，通过提取系统的运维日志信息进行数据分析，并提取运维日志信息中与运维数据信息的类型或领域相匹配的运维日志信息，作为历史系统运维信息，包括与运维数据信类型相符合的历史运维日志信息的全周期运维流程、出错日志以及对应的解决方案信息等。

S102：将历史系统运维信息进行特征画像处理，得到特征画像数据。

具体的，通过nlp算法对历史系统运维信息中与运维数据信息进行关键词筛选，包括运维数据信息的属性、分类等，并结合运维数据信息的使用场景进行场景匹配，从而得到特征画像参数，根据特征画像参数与历史系统运维信息的特征契合度，得到特征画像数据。

S103：对特征画像数据中的异常特征进行数据标记，得到运维故障信息。

具体的，特征画像数据中的异常特征设置为与运维数据信息特征契合度较低的特征数据，包括历史系统运维信息中的数据拐点、数据断点以及出错日志所对应的运维信息等，如将历史系统运维信息中的异常特征进行人工标记，得到异常特征训练集，通过主动学习算法对异常特征训练集进行数据训练，得到数据标记模型，通过对数据标记模型的不断学习训练，使数据标记模型识别出异常特征中契合度最优的特征数据，并通过特定的数据标签进行标记，从而得到运维故障数据。

本实施例中的主动学习算法设置为基于置信度的最优试验法，根据人工标记的异常特征训练集作为首轮训练数据进行置信度评估，根据评估结果生成异常特征的标记规则，并根据标记规则对未标记的历史系统运维信息进行特征查询和标记，得到第二轮训练数据，以此类推，并根据标记后的多轮标签特征对数据标记模型进行标记规则的更新优化，并进行下一轮的数据标记。

S104：将运维故障信息与运维数据信息进行故障特征匹配，根据匹配结果生成故障匹配信息。

具体的，根据标记后的故障特征，对运维故障信息和运维数据信息进行故障特征匹配，如对用户集群请求错误的故障特征进行特征匹配，用户集群请求错误的属性特征包括用户端漏洞、服务端配置错误、网络环境突变等，根据运维故障信息中的特征属性与运维数据信息分别进行契合度匹配，根据匹配结果得到故障匹配信息，其中，故障匹配信息包括运维故障信息和运维数据信息的故障特征匹配情况和对应的匹配契合度情况。

S30：对故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，运维决策信息用于向故障匹配信息提供解决方案。

具体的，根据故障匹配信息对数据运维信息进行系统故障预测处理，从而根据预测结果，能够预先对系统运维故障制定对应的解决方案，从而降低运维故障出现时的反应滞后性，如图3所示，步骤S30具体包括：

S201：获取故障匹配信息的变化趋势，得到故障变化趋势图谱，其中，故障变化趋势图谱包括故障变化趋势信息和对应的时间序列信息。

具体的，根据历史系统运维信息和运维数据信息的故障特征契合情况，得到故障匹配信息的变化趋势，并根据故障变化趋势和对应的时间序列，绘制关于故障匹配信息的变化趋势图，从而得到故障变化趋势图谱。如，在预设的时间序列点获取对应的故障匹配信息，如按月度获取每个月的集群点击错误情况，对一年度内的集群点击错误情况的变化趋势进行绘制，得到关于集群点击错误的故障变化趋势图谱。

S202：对运维数据信息与故障变化趋势图谱进行拟合处理，生成数据拟合结果。

具体的，在绘制出故障变化趋势图谱后，按照时间序列的分布情况，通过深度学习算法对运维数据信息和故障变化趋势图谱进行特征拟合处理，并计算每个时间序列点所对应的特征拟合差，从而得到数据拟合结果，如按照历史运维数据信息中的时间序列分为运维初期、运维中期和运维后期，获取每个时间序列点下的历史系统运维信息，并根据运维数据信息的当前运维状态，判断运维数据信息对应的运维时间序列，在对应的运维时间序列下，通过深度学习算法对历史系统运维信息和运维数据信息之间的关联关系进行数据训练，得到运维信息关联关系，如告警信息之间的关联关系或服务进程差距之间的关联关系等，从而根据运维信息关联关系的契合程度，得到数据拟合结果。

本实施例中的深度学习算法设置为卷积神经网络算法，需要说明的是，也可以设置为循环神经网络算法，不局限于本实施例中的一种。

S203：根据数据拟合结果，计算运维数据信息在时间序列信息中的故障发生概率。

具体的，根据数据拟合结果，通过机器学习算法对运维关联关系进行深度学习，得到运维数据信息与历史系统运维信息的运维故障之间的相关性，从而根据故障相关性，在运维数据信息符合时间序列信息时，计算运维数据信息在时间序列信息中的故障发生概率。如通过神经卷积网络算法对每个时间序列节点下的运维关联关系进行数据训练，得到故障关联模型，根据运维关联关系的契合度，通过故障关联模型判断系统的下一运维故障发生的概率。

S204：根据故障发生概率，构建关于运维数据信息的故障模拟模型。

具体的，根据故障发生概率，对相关的运维数据信息进行数据训练，根据训练结果对运维数据信息的每个时间序列下的运维走势进行预测，根据预测结果生成故障模拟模型。如集群点击崩溃的故障发生概率为0.6，获取运维数据信息如设备监控信息、应用监控信息和运维日志信息等作为训练数据，在符合故障发生概率的情况下，对训练数据进行故障模拟，并根据模拟结果得到下一时间序列节点的故障模拟数据，从而根据运维数据信息和故障模拟数据绘制每个时间序列节点下的运维走势，得到故障模拟模型。

S205：将运维数据信息输入到故障模拟模型中，生成用于对运维数据信息进行故障处理的运维决策信息。

具体的，按照系统的运维时间和运维状态，将运维数据信息输入至故障模拟模型中进行故障模拟，从而预测下一运维时间序列节点所对应的故障模拟数据，结合历史系统运维信息中的故障解决方案数据，对故障模拟数据进行故障自愈处理，并根据故障自愈处理结果生成运维决策信息，如图4所示，步骤S205具体包括：

S301：获取运维数据信息到达下一状态的预期运维时间。

具体的，根据运维数据信息的运维走势，预测运维数据信息到达下一运维状态的预期运维时间。如设置每个数据拐点对应一个运维状态，则根据运维走势生成运维走势图谱，获取当前运维状态所对应的数据拐点的运维时间为t1，获取下一个数据拐点的运维时间为t2，则下一运维状态的预期运维时间为t2减去t1的差值。

S302：根据预期运维时间，对运维数据信息进行故障感知处理，得到故障发生概率下的运维故障根源信息。

具体的，根据随机森林算法对预期运维时间下的运维数据信息进行故障感知处理，如当发生集群点击错误时，服务器设备监控插件、网络监控插件、客户端监控插件等多个监控插件同时发出告警信息，将每个监控插件产生的告警信息作为训练集，并根据插件来源的不同，随机采集一定数量的告警信息作为根节点样本，并对剩余的告警信息进行决策树训练，并基于数据拐点等异常特征作为数据划分点，从而寻找到与集群点击错误的契合度最优的告警信息作为运维故障根源信息。

S303：对运维故障根源信息进行故障模拟分析，生成运维故障根源信息相对应的根因应对策略。

具体的，根据运维故障根源信息在历史系统运维信息中查找相符合的历史应对策略，并通过历史应对策略与运维故障根源信息的模拟分析，来判断历史应对策略是否能够解决运维故障根源问题，并将模拟分析结果发送至服务端，便于运维人员根据模拟分析结果对历史应对策略进行进一步的改良或确认，从而得到根因应对策略。

S304：当运维数据信息进入预期运维时间时，调用根因应对策略对运维故障根源信息进行故障自愈处理，得到运维决策信息。

具体的，获取运维数据信息的实际运维时间序列，当实际运维时间序列到达预期运维时间时，调用预先设置好的根因应对策略对运维故障根源信息进行故障自愈处理，如系统到达预期运维时间时，根据运维故障根源信息系统的用户集群ID进行路由，从而将对应的根因应对策略发送至指定的用户队列上，存在运维故障的用户集群ID按照用户队列顺序依次拉取并执行根因应对策略。

本实施中还可以对故障自愈过程设置事件收敛处理，如当在用户集群ID执行根因应对策略进行故障自愈时，产生新的故障节点，根据预设的静默时间，使新的故障节点按照静默时间进行等待或者根据静默时间过滤历史过期故障节点，减少因为新故障节点产生时的不稳定性而导致错误故障自愈的现象。

本实施例中，为了提高对系统整体运维情况的综合管理效率，在得到运维决策信息之后，如图5所示，步骤S304还包括：

S401：根据故障发生概率，对运维数据信息进行健康评估处理，得到健康评估结果。

具体的，根据故障发生概率对运维数据信息下的系统进行健康评估，如根据实际需要，设置概率阈值如0.5，当故障发生概率大于0.5时，判定系统的健康度为“不可用”；当故障发生概率小于0.5时，判定系统的健康度为“可用”；进一步的，对“不可用”状态下的系统的服务器健康度、客户端健康度、网络健康度等分别进行再度划分，根据故障发生概率对“不可用”系统下的多个运维数据进行加权计算，从而得到运维数据信息的综合健康评估结果。

S402：根据健康评估结果，判断运维数据信息下的系统是否处于健康状态。

具体的，若运维数据信息的健康评估结果为“可用”，则判定系统处于健康状态；若运维数据信息的健康评估结果为“不可用”，则判定系统处于非健康状态。

S403：若否，则根据健康评估结果，调用与健康评估结果相对应的运维决策信息。

具体的，当系统处于非健康状态时，即运维数据信息在按照运维时间序列进行运维的过程中，存在出现运维故障的概率大于系统预设的概率值，通过运维数据信息与运维决策信息之间的运维关联关系，调用与健康评估结果相对应的运维决策信息，便于在运维故障发生时，及时对运维故障进行处理。

S404：若是，则继续对运维数据信息进行数据监控。

具体的，当系统处于健康状态时，通过预设的监控插件，对运维数据信息按照运维时间序列进行运维的过程进行实时监控。

S40：根据运维决策信息，构建关于运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过系统运维管理规则对运维数据信息进行快速的故障排查。

具体的，对系统对每个运维故障所制定的运维决策信息进行汇总，并建立运维故障特征之间的故障关联关系，从而根据故障特征关联关系构建系统运维方案，便于通过系统运维方案对系统原始系统运维方案进行更新，如图6所示，步骤S40具体包括：

S501：根据运维决策信息，对运维数据信息进行故障定位跟踪处理，得到故障轨迹信息。

具体的，通过二叉决策树运算对运维决策信息进行数据训练，得到关于运维数据信息的推理树，并根据历史系统运维信息中提炼的故障定位判断逻辑，设定每个推理节点的判决条件，在运维数据信息按照运维时间序列进行运维的过程中，通过推理树得到故障轨迹信息。

S502：对运维数据信息按照故障轨迹信息进行运维时的故障发生位置进行定位，得到故障位置信息。

具体的，在运维数据信息按照故障轨迹信息进行运维的过程中，根据故障根源信息预测故障发生位置，并在系统到达预测的故障发生位置时，对运维数据信息的故障发生位置进行标记，得到故障位置信息。

S503：对故障位置信息和运维决策信息进行特征关联，得到特征关联关系，并根据特征关联关系构建系统运维方案。

具体的，根据故障位置信息对应的运维时间序列节点和对应的运维数据拐点等运维特征，将故障位置信息和运维决策信息进行多维度的特征关联，从而得到特征关联关系，并根据特征关联关系调用对应的运维决策信息进行汇总，得到系统运维方案。

S504：根据系统运维方案，对预先构建的原始运维管理规则进行更新，得到系统运维管理规则，其中，原始运维管理规则由若干个历史系统运维方案进行关联存储得到。

具体的，根据系统运维方案与原始运维管理规则进行特征关联，根据关联关系对相应的运维管理规则进行数据更新，从而得到系统运维管理规则，如对于集群点击错误的运维故障，在原始运维管理规则中查找与集群点击错误的运维故障相符合的原始运维方案，并将集群点击错误的系统运维方案替换掉原始运维方案，从而实现对原始运维管理规则的更新。

本实施例中，为了从多维度地对系统运维情况进行管理，在对原始运维管理规则进行数据更新，得到系统运维管理规则之后，如图7所示，步骤S40还包括：

S601：实时获取运维数据信息所对应的用户活跃度。

具体的，实时拉取一定时间段内的用户点击量，并结合用户浏览记录，得到系统在一定时间段内的用户活跃度。如，白天时间系统用户点击量高，夜间时间系统用户点击量低，则系统的白天时间段的用户活跃度较高。

S602：将用户活跃度与预设的用户活跃峰值进行比较，得到活跃度比对结果。

具体的，如设置用户活跃峰值为1000点击量/小时，若用户点击量在一小时内达到1000次，则判定用户活跃度高，若用户点击量在一小时内低于1000次，则判定用户活跃度低。

S603：根据活跃度比对结果，分级别调用与用户活跃度相对应的系统运维管理规则，以便于对系统进行全周期的运维监控。

具体的，当用户活跃度较低时，调用低活跃度的系统运维管理规则，当用户活跃度较高时，调用用户活跃度较高的系统运维规则，通过分级调用实现系统监控资源的合理分配。应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种基于机器学习的自动化系统运维管理系统，该基于机器学习的自动化系统运维管理系统与上述实施例中基于机器学习的自动化系统运维管理方法一一对应。如图8所示，该基于机器学习的自动化系统运维管理系统包括数据获取模块、数据匹配模块、数据处理模块和方案构建模块。各功能模块详细说明如下：

数据获取模块，用于实时获取系统运行状态下的运维数据信息。

数据匹配模块，用于将运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与运维数据信息相匹配的故障匹配信息。

数据处理模块，用于对故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，运维决策信息用于向故障匹配信息提供解决方案。

方案构建模块，用于根据运维决策信息，构建关于运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过系统运维管理规则对运维数据信息进行快速的故障排查。

可选的，数据匹配模块具体包括：

历史数据获取子模块，用于获取与所述运维数据信息相符合的历史系统运维信息。

特征画像子模块，用于将所述历史系统运维信息进行特征画像处理，得到特征画像数据。

数据标记子模块，用于对所述特征画像数据中的异常特征进行数据标记，得到运维故障信息。

可选的，数据处理模块具体包括：

变化趋势获取子模块，用于获取所述故障匹配信息的变化趋势，得到故障变化趋势图谱，其中，所述故障变化趋势图谱包括故障变化趋势信息和对应的时间序列信息。

数据拟合子模块，用于对所述运维数据信息与所述故障变化趋势图谱进行拟合处理，生成数据拟合结果。

概率计算子模块，用于根据所述数据拟合结果，计算所述运维数据信息在所述时间序列信息中的故障发生概率。

模型构建子模块，用于根据所述故障发生概率，构建关于所述运维数据信息的故障模拟模型。

可选的，决策信息生成子模块具体包括：

运维时间获取单元，用于获取所述运维数据信息到达下一状态的预期运维时间。

故障感知处理单元，用于根据所述预期运维时间，对所述运维数据信息进行故障感知处理，得到所述故障发生概率下的运维故障根源信息。

故障模拟分析单元，用于对所述运维故障根源信息进行故障模拟分析，生成所述运维故障根源信息相对应的根因应对策略。

故障自愈处理单元，用于当所述运维数据信息进入所述预期运维时间时，调用所述根因应对策略对所述运维故障根源信息进行故障自愈处理，得到运维决策信息。

本实施例中，为了提高对系统整体运维情况的综合管理效率，故障自愈处理单元之后，还包括：

健康评估单元，用于根据所述故障发生概率，对所述运维数据信息进行健康评估处理，得到健康评估结果。

健康状态判断单元，用于根据所述健康评估结果，判断所述运维数据信息下的系统是否处于健康状态。

决策调用单元，用于若否，则根据所述健康评估结果，调用与所述健康评估结果相对应的运维决策信息。

可选的，方案构建模块具体包括：

故障跟踪子模块，用于根据所述运维决策信息，对所述运维数据信息进行故障定位跟踪处理，得到故障轨迹信息。

故障定位子模块，用于对所述运维数据信息按照所述故障轨迹信息进行运维时的故障发生位置进行定位，得到故障位置信息。

特征关联子模块，用于对所述故障位置信息和所述运维决策信息进行特征关联，得到特征关联关系，并根据所述特征关联关系构建系统运维方案。

规则更新子模块，用于根据所述系统运维方案，对预先构建的原始运维管理规则进行更新，得到系统运维管理规则，其中，所述原始运维管理规则由若干个历史系统运维方案进行关联存储得到。

本实施例中，为了从多维度地对系统运维情况进行管理，方案构建模块还包括：

活跃度获取子模块，用于实时获取所述运维数据信息所对应的用户活跃度。

活跃度比对子模块，用于将所述用户活跃度与预设的用户活跃峰值进行比较，得到活跃度比对结果。

规则调用子模块，用于根据所述活跃度比对结果，分级别调用与所述用户活跃度相对应的所述系统运维管理规则，以便于对系统进行全周期的运维监控。

关于基于机器学习的自动化系统运维管理系统的具体限定可以参见上文中对于基于机器学习的自动化系统运维管理方法的限定，在此不再赘述。上述基于机器学习的自动化系统运维管理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的自动化系统运维管理方法，其特征在于，所述基于机器学习的自动化系统运维管理方法包括：

实时获取系统运行状态下的运维数据信息；

对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案，具体包括：

将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息；

2.根据权利要求1所述的基于机器学习的自动化系统运维管理方法，其特征在于，所述将所述运维数据信息输入到预先构建的故障模型中进行故障匹配，得到与所述运维数据信息相匹配的故障匹配信息，具体包括：

获取与所述运维数据信息相符合的历史系统运维信息；

3.根据权利要求1所述的基于机器学习的自动化系统运维管理方法，其特征在于，所述将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息，具体包括：

获取所述运维数据信息到达下一状态的预期运维时间；

4.根据权利要求3所述的基于机器学习的自动化系统运维管理方法，其特征在于，所述当所述运维数据信息进入所述预期运维时间时，调用所述根因应对策略对所述运维故障根源信息进行故障自愈处理，得到运维决策信息之后，还包括：

5.根据权利要求1所述的基于机器学习的自动化系统运维管理方法，其特征在于，所述根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查，具体包括：

对所述故障位置信息和所述运维决策信息进行特征关联，得到特征关联关系，并根据所述特征关联关系构建系统运维方案；

6.根据权利要求5所述的基于机器学习的自动化系统运维管理方法，其特征在于，所述根据所述运维决策信息，构建关于所述运维数据信息的系统运维方案，得到系统运维管理规则，以便于通过所述系统运维管理规则对所述运维数据信息进行快速的故障排查，还包括：

实时获取所述运维数据信息所对应的用户活跃度；

7.一种基于机器学习的自动化系统运维管理系统，其特征在于，所述基于机器学习的自动化系统运维管理系统包括：

数据处理模块，用于对所述故障匹配信息进行系统故障预测处理，得到运维决策信息，其中，所述运维决策信息用于向所述故障匹配信息提供解决方案，所述数据处理模块包括：

决策信息生成子模块，用于将所述运维数据信息输入到所述故障模拟模型中，生成用于对所述运维数据信息进行故障处理的运维决策信息；

8.根据权利要求7所述的基于机器学习的自动化系统运维管理系统，其特征在于，所述数据匹配模块具体包括：