CN112181960A

CN112181960A - 一种基于AIOps的智能运维框架系统

Info

Publication number: CN112181960A
Application number: CN202010985939.3A
Authority: CN
Inventors: 王晓光; 张伟; 李先票; 刘东海
Original assignee: Beijing Guangtong Software Ltd By Share Ltd Xinda; Hangzhou Youyun Software Co ltd
Current assignee: Beijing Guangtong Software Ltd By Share Ltd Xinda; Hangzhou Youyun Software Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-01-05
Anticipated expiration: 2040-09-18
Also published as: CN112181960B

Abstract

本发明涉及一种基于AIOps的智能运维框架系统，包括算法模型在线服务模块、可视化建模平台、Notebook建模平台、数据治理模块和计算引擎模块；本发明提供了一种让智能运维技术更加高效、简洁、标准的被开发者使用，解决服务提供中算法黑盒问题、算法部署和调度难的问题，以及自定义算法的兼容的一种基于AIOps的智能运维框架系统。

Description

一种基于AIOps的智能运维框架系统

技术领域

本发明涉及运维系统搭建技术领域，更具体的说，它涉及一种基于AIOps的智能运维框架系统。

背景技术

AIOps是Gartner在2016年提出的概念，即“整合大数据和机器学习能力，通过松耦合、可扩展方式去提取和分析在数据量、种类和速度这三个维度不断增长的IT数据，为所有主流ITOM产品提供支撑。AIOps平台够同时使用多个数据源、数据采集方法及分析和展现技术，广泛增强IT运维流程和事件管理效率，可用于性能分析，异常检测，事件关联分析，ITSM和自动化等应用场景”。

它有三个关键要素：平台、大数据、机器学习(算法)。以三要素为核心进行持续优化输出能力，在监控、服务台、自动化三个方面支撑业务价值创造。

AIOps为IT运维提供了全新的管理思路。AIOps的定义涵盖的两个阶段，可概括为两个层次的提升：数据到信息分析层次的提升；信息到知识提取层次的提升。从数据到信息的分析层次的提升指的是更多的是采用数据统计方法，帮助运维相关人员更好地从众多运维数据中了解系统的运行状态，分析并定位故障，实时获取统计数据。而信息到知识的提升更多的是希望借助人工智能算法，在信息分析的基础上通过机器学习的方式实现异常检测、趋势分析、故障关联和精准告警等，因此如何基于AIOps建立新的更好的运维框架系统成为当下企业的一个攻克难题。

发明内容

本发明克服了现有技术的不足，提供了一种让智能运维技术更加高效、简洁、标准的被开发者使用，解决服务提供中算法黑盒问题、算法部署和调度难的问题，以及自定义算法的兼容和热部署问题的一种基于AIOps的智能运维框架系统。

为了解决上述技术问题，本发明的技术方案如下：

一种基于AIOps的智能运维框架系统，包括算法模型在线服务模块、可视化建模平台、Notebook建模平台、数据治理模块和计算引擎模块；

算法模型在线服务模块提供训练好的模型的部署，提供算法的在线服务；

可视化建模平台集成了算法包，用可视化的方式进行调用，每个节点都是计算组件，包括特征工程、数据预处理、模型训练、结果评估的可视化调用的方式组成工作流；使模型的训练过程白盒化；

Notebook建模平台为基于开源Jupyter Notebook制作定制化内容，实现交互式的建模工作，提高兼容性能；

数据治理模块包括采用类SQL语法来满足各种场景需求，通过UDF实现用户自定义函数，采用Python Script兼顾常规三方库并支持上传自定义Python脚本和Shell,shell指为使用者提供操作界面；

计算引擎模块采用分布式框架提供整个系统数据的运转和调度。

进一步的，数据治理模块具体包括如下运转步骤：

101)原始数据输入步骤：数据的采集模块将数据从数据源采集到本系统中；数据在进入本系统时，由本系统生成统一流水号，且该流水号在本系统中是唯一的关键标识；其中，流水号中包括数据的来源系统、数据的生成时间、数据的类别；

102)数据的标准化处理步骤：被赋予了统一交易流水号后的数据会进入智能运维系统的数据预处理模块；数据预处理包括数据清洗、属性提取、类型转换、指标计算、解码编码，且都采用可拖拽的模式进行；

103)数据存储步骤：将上述处理后的数据存储进实时数据仓库，批处理的数据存储进汇总数据仓库，而实时数据仓库中的数据在处理过程完成后同样存储入汇总数据仓库；

104)数据分析步骤：对步骤103)的数据进行分析处理，经过数据分析处理的数据被转换为能有效被前台运维人员高效运用的数据；其中，分析处理的各个功能模块设计成可拖拽的模式，运维人员根据实际情况所需，选择相对应的功能模块进行分析处理；

105)数据可视化步骤：经过步骤104)处理的数据成为可消费的数据，将数据变成可拖拽的数据展示，其包括仪表盘展示、实时图表展示、历史图表展示、数据导出。

进一步的，步骤101)中在给定流水号时计算数据来源之间的相似性，从而识别具有不同标识但实际拥有同一来源的数据；

相似性通过如下余弦公式计算相似度，来进行度量

其中，θ表示向量X、Y之间的夹角，X_i和Y_i分别代表向量X和Y的各分量。

进一步的，步骤104)数据分析步骤中的数据分析包括数据接入、数据转换、数据验证、模型训练、模型验证、模型评价、大规模训练、模型发布、算法服务、训练监控、建模日志；

数据接入，以kafka方式接入第三方监控平台的指标数据，数据接入后进行预处理操作；

数据转换、数据验证采用系统内置丰富的ETL算法组件，通过拖拽的方式连接成“指标数据ETL处理“的Pipeline；

特征工程通过提供丰富的特征工程组件，用户可以通过拖拽选择使用不同的特征内容；

模型训练、模型验证、模型评价，整体上提供两种方式训练模型，一种是可拖拽Studio建模，另一种是在线交互式Notebook建模，分析不同的指标数据结构，可以训练的模型包括：动态基线、动态上基线、动态下基线、跑批缺失检测、磁盘容量预警；

大规模训练，因一个资源一个模型，在大规模的资源场景下采用多线程并发去训练资源指标模型，然后在汇总训练产生的模型文件上传到模型库；

模型发布，模型训练流程Pipeline保存模型到模型库中，预测流程Pipeline从模型库中加载已经存的模型并可以指定使用的模型版本；默认发布最新模型版本；

算法服务，提供预测流程Pipeline、蓝绿部署、版本控制等服务；

训练监控、建模日志，在可视化Studio建模中，在Pipeline上面实时监控训练任务包括任务运行状态和运行日志，任务运行状态有等待执行、执行中、出错、执行完成，可实时查看训练状态和日志。

本发明相比现有技术优点在于：

本发明针对现有的算法往往是在线下通过Python编写算法包，上传到线上生产环境下执行。或者用开源的算法平台比如Spark Mllib等。其中，Python算法包并不能支持在线编辑的功能，而Spark Mllib的使用者数量并不是非常广泛。更重要的是，现有的机器学习算法并不是针对运维场景而设计和开发，缺少很多运维算法需要的组件。本发明基于运维的基本知识出发，专门开发出适合运维领域的算法和组件库、以及“学件”。可以很好的满足性能分析，异常检测，事件关联分析等运维场景的智能化需求。

本发明包括对于异常检测算法中的单KPI异常检测、多KPI异常检测、信息安全算法；分析算法类中的调用链分析、故障树查询；智能预测算法类中的瓶颈预测、容量预测、传播预测、风险预测；日志与告警算法类的告警压缩、告警提级、日志异常检测、知识图谱；自动化算法类中的脚本生成优化、解决方案建议推荐等。这些方法都内置于本框架系统上，使用者不仅可以修改已经存在的算法包，而且可以上传自己开发定义的算法包，真正做到运维算法开发的白盒化。

附图说明

图1为本发明的框架示意图；

图2为本发明的数据分析流程图；

图3为本发明的运维场景下部分框架示意图；

图4为本发明的平台调度引擎的学习流程图；

图5为本发明的告警压缩场景的处理示意图；

图6为本发明的告警压缩场景的大致处理流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进一步说明。本发明未做详细描述的部分均可采用常规技术方式进行实现，不在进行详细描述。

如图1至图6所示，一种基于AIOps的智能运维框架系统，包括算法模型在线服务模块、可视化建模平台、Notebook建模平台、数据治理模块和计算引擎模块。

算法模型在线服务模块提供训练好的模型的部署，提供算法的在线服务。比如提供模型的定时调用功能。

可视化建模平台集成了大量算法包，用可视化的方式进行调用，每个节点都是计算组件，包括特征工程、数据预处理、模型训练、结果评估等都是可视化调用的方式组成工作流。使模型的训练过程白盒化，直观的呈现在使用者面前，方便模型的再次调用，调参过程直接在页面上进行，不用编程即可训练模型。更重要的是做到了模型训练的可移植和知识传递，避免因为模型原作者的离去而导致模型训练方法的丢失。

Notebook建模平台为基于开源Jupyter Notebook做了大量定制化，可以实现交互式的建模工作；由于大量算法工作人员习惯于直接在页面上通过Python进行参数调优等工作，提供了这种交互式方式，它的优点在于该功能支持Python算法包的上传和热部署，这样该平台就具备了兼容各种第三方开发的算法包上传的能力。其他厂商都可以很方便的上传他们积累和开发的算法包并且进行在线修改和优化。

数据治理模块包括采用类SQL语法来满足各种场景需求即类SQL的语法简易上手，涵盖300多种函数，可以满足各种场景需求。通过UDF(User Define Function)实现用户自定义函数，采用Python Script兼顾常规三方库(NumPy、SciPy、SymPy、pandas、Matplotlib等常规三方库)并支持上传自定义Python脚本和Shell，Shell为使用者提供操作界面，也可认为是命令解析器。

如图2所示，上述数据治理模块具体包括如下运转步骤：

101)原始数据输入步骤：数据的采集模块将数据从数据源采集到智能运维系统中。数据在进入运维系统时，由运维系统生成统一流水号，且该流水号在运维系统中是唯一的关键标识。其中，流水号中包括数据的来源系统、数据的生成时间、数据的类别(指标、日志、事件等)。

避免生成数量过大的流水号，在给定流水号时计算数据来源之间的相似性，从而识别具有不同标识但实际拥有同一来源的数据；

相似性通过如下余弦公式计算相似度，来进行度量

θ表示向量X、Y之间的夹角，X_i和Y_i分别代表向量X和Y的各分量。

102)数据的标准化处理步骤：被赋予了统一交易流水号后的数据会进入智能运维系统的数据预处理模块；数据预处理包括数据清洗、属性提取、类型转换、指标计算、解码编码等，且都采用可拖拽的模式进行，实现运维人员可以根据实际场景选择合适的功能进行组合。

103)数据存储步骤：将上述处理后的数据存储进实时数据仓库，批处理的数据存储进汇总数据仓库，而实时数据仓库中的数据在处理过程完成后同样存储入汇总数据仓库；数据存储技术包括：MySQL，Elastic Search，HDFS，influxDB。

104)数据分析步骤：对步骤103)的数据进行分析处理，经过数据分析处理的数据被转换为能有效被前台运维人员高效运用的数据；即数据不能直接体现价值的原始数据，单被转换的数据能有效转换为被前台运维人员高效运用的数据。数据分析的主要流程包括：数据转换、数据验证、特征工程、模型训练、模型建立、模型验证、大规模训练、模型评价、模型发布、算法服务、训练监控、建模日志。其中，分析处理的各个功能模块设计成可拖拽的模式，运维人员根据实际情况所需，选择相对应的功能模块进行分析处理。

数据分析步骤中的数据分析包括数据接入、数据转换、数据验证、模型训练、模型验证、模型评价、大规模训练、模型发布、算法服务、训练监控、建模日志。

数据接入，以kafka方式接入第三方监控平台(bpc、zabbix等)的指标数据，数据接入后进行预处理操作。因为数据接入后是不能直接给机器学习算法使用的，所以需要对数据做一些预处理操作。

数据转换、数据验证采用系统内置丰富的ETL算法组件，通过拖拽的方式连接成“指标数据ETL处理“的Pipeline；如：指标数据丰富根据采集的ip数据关联CMDB配置库、指标数据采集日期转换成时间缀格式等。

特征工程通过提供丰富的特征工程组件，用户可以通过拖拽选择使用不同的特征内容；其中特征太少，不足以描述数据，造成偏差过高。特征太多，一是增大计算成本，二是造成维度灾难(方差过高导致过拟合)。因此可以实现如：指标时序数据时间列特征包括节假日、时间窗口回滚的变化率等，用户根据自身需要选择部分特征内容进行显示。

模型训练、模型验证、模型评价，整体上提供两种方式训练模型，一种是可拖拽Studio建模，另一种是在线交互式Notebook建模，分析不同的指标数据结构，可以训练的模型包括：动态基线(周期性稳定上下基线)、动态上基线(周期性不明显)、动态下基线(周期性不明显)、跑批缺失检测(有跑批作业的性能数据)、磁盘容量预警(预测N天后的容量使用率)等。

大规模训练，因一个资源一个模型，在大规模的资源场景下采用多线程并发去训练资源指标模型，然后在汇总训练产生的模型文件上传到模型库，这样可以大大节省训练时间。

模型发布，模型训练流程Pipeline保存模型到模型库中，预测流程Pipeline从模型库中加载已经存的模型并可以指定使用的模型版本；默认发布最新模型版本。如：指标异常检测，在Pipeline可以加载模型库中的“动态基线”模型，把预测结果写入到ES中。

算法服务，提供预测流程Pipeline、蓝绿部署、版本控制等服务；如：交易指标数据的异常检测，每天0点运行预测流程Pipeline加载对应的算法模型预测出当天指标对应的动态基线。

训练监控、建模日志，在可视化Studio建模中，在Pipeline上面实时监控训练任务包括任务运行状态和运行日志，任务运行状态有等待执行、执行中、出错、执行完成，可实时查看训练状态和日志。如：指标模型训练，Pipeline节点有数据输入、SQL变换、模型训练组件、模型保存等，系统可实时查看训练状态和日志。

考虑到运维场景的特点，如图3所示以针对运维场景做的框架调整后的图。大致基本相同可在数据治理和计算引擎之间增加编排调度，其它进行适当扩展，形成基于多种大数据架构场景，面向用户业务，智能构建大数据技术平台，实现数据同步、处理、存储、分析流程化编排。具体框架说明如下：

数据管理数据接入：融合业务、运维、公共数据、日志信息等多种数据，支持数据库、API、Kafka推送等多种数据源，简单图形化数据建模及ETL数据处理。

数据治理：从元数据、主数据、数据标准、数据质量再到数据处理、数据资产、数据交换和数据安全，为企业提供全栈的数据治理方案，打通数据治理全流程。

数据分析：基于聚合分析、即席分析规则分析、算法挖掘等多种分析手段，通过智能编排调度引擎，智能化构建数据集市，突破大数据技术壁垒。

应用场景，利用算法分析产生的数据，面向不同业务，提供从大屏、仪表盘、报表等通用数据消费场景，到异常分析、预测分析、根因分析、知识图谱等智能消费场景。

具体的如图4所示，为本系统中形成学习的流程，使用者可通过拖拽的方式设计工作流DAG图，并可调整节点参数；再提交任务到智能编排引擎，通过Yarn调度运行资源；任务运行状态实时返回到前端交互UI；监控者可查看任务节点的运行状态和日志；系统分析数据存入ES或者HDFS，形成本系统的优秀学件，整个类似过程可有效被其它使用者借用。

例如在实际使用中的告警压缩场景，采用本方案后解决海量告警产生时大量告警会掩盖真实的告警根源，给用户排查告警故障，定位告警根源带来的极大的困难和干扰，故需要用本方案中的方法来减少无效告警，噪音告警等，减少告警数量。使用者可通过拖拽的方式，设计智能告警压缩Pipeline流程(数据接入、提取告警主体、jieba分词、降维处理等)，并可调整节点参数；再提交智能告警压缩预测Pipeline任务到智能编排引擎，通过Yarn调度运行资源；任务运行状态实时返回到前端交互UI；监控者可查看任务节点的运行状态和日志；最后通过算法处理的告警数据在写入到ES中，给第三方Monitor平台查询使用。

作为优选，本系统包括对于异常检测算法中的单KPI异常检测、多KPI异常检测、信息安全算法；分析算法类中的调用链分析、故障树查询；智能预测算法类中的瓶颈预测、容量预测、传播预测、风险预测；日志与告警算法类的告警压缩、告警提级、日志异常检测、知识图谱；自动化算法类中的脚本生成优化、解决方案建议推荐等。

实现智能化预测中的瓶颈预测可使用决策树、聚类树、层次聚类等算法实现，为了保证向千万级甚至上亿级用户提供可靠、高效的服务，互联网服务的运维人员通常会使用一些关键性能指标来监测这些应用的服务性能。一般监控数据中的关键指标有很多属性，这些属性可能影响到关键指标，当一些关键指标不理想的情况下，可以找出是哪些组合导致了这个指标不理想。通过对这些组合进行监控和预测，就可预测出关键指标是否即将达到不理想的状态。

容量预测则是因为在系统运维中，存储容量耗尽会导致应用系统负载率过高，最终引起系统故障。为了避免此类问题的发生，需要及时对具体组件进行跟踪和预测，在故障发生前及时给予告警模型的数据预处理模块，首先通过盖帽法对时序数据进行异常值处理，这样可以保证模型的稳定性，接着对时序数据出现观测时间错乱的问题进行观测时间规整，这步操作会增加空值，最后一步就是对时序数据的空值进行处理，模型可使用改进过的LighGBM等。通过一系列处理可以实现对存储容量的动态预测。

传播预测，任何一个异常在监测之后都希望找到其根本原因，根本原因则是通过故障传播链来得到的。通过机器聚类学习在一些随机事件中自动发现属于同一类别的事件；通过异常事件之间的相关性分析，来发现这些事件的相关性有多大；通过异常服务和事件的相关性分析，找到导致异常服务的具体网络事件；通过全链路调用挖掘发现不同组件之间的关系。通过这样一些关系的挖掘，找到故障传播链。得到故障传播链后则可以进行相应的传播预测。

风险预测通过整合大数据和机器学习能力，分析海量IT数据，收集客户人工识别的故障数据和原始告警数据，建立AI模型，使用自然语言处理技术，从告警和故障数据中提取关键的文本特征，训练该AI模型，建立由告警数据到故障数据的映射关系。在面对实时的流式告警数据时，可以使用训练后的AI模型自动识别出故障，并集中呈现出来。准确预测风险，化被动为主动运维。

告警压缩其目的是通过AI机器学习算法，识别IT运维中产生的告警风暴，并对海量告警进行压缩，从而为后续人为识别告警的产生根因提供帮助。本系统模块拟采用多种AI算法相结合的技术，首先通过对告警数据分析，提取出有意义的字段，并对这些字段进行NLP相关技术分析，提取出字段特征，然后通过无监督的聚类算法对告警进行初步分类，最后用滑动时间窗口的方式进行最终的告警压缩。

告警定级主要解决的痛点是：系统按照一定规则自动产生的告警等级不能满足客户的实际生产需求，有时需要对特殊告警进行升级或降级处理，故而需要用AI算法来解决等级不匹配的问题。基本原理：收集客户人工定级后的告警数据，建立AI模型，使用该修改后的数据对模型进行训练，使得模型可以识别出哪些告警的等级会被修改，修改之后的告警等级应该是什么样等特性，在实际应用时，便可以对实时的未来告警进行识别，并将相似的告警自动修改为对应的等级，无需人为干预。

日志异常检测是构建安全可靠系统的关键一步。系统日志记录了系统的各个时段的状态和重要事件，是性能监控和异常检测的重要数据来源。算法可使用深度学习DeepLog等算法做为基础进行处理，DeepLog是将LSTM(长短期记忆模型)应用到基于日志分析的系统异常检测的模型的别称，LSTM(长短期记忆模型)在处理文本数据上十分流行，它在情感分析、机器翻译、和文本生成等方面取得了十分显著的成果。

知识图谱有丰富的语义表达能力，和对计算机友好的表示方法，我们可以建立企业自己的知识图谱，帮助企业不断收集基于实际生产环境的运维知识沉淀，例如硬件属性信息，应用拓扑关系，系统配置信息等。进一步看到数据背后的真实含义和相互关系。如用时序指标来做AIOps，由于用户的数据种类繁多，特征各异，是不可能只使用某种单一算法来解决的。因此我们可以利用知识图谱描述形式统一，便于不同类型知识的集成与融合的特点，在实际生产中，快捷地将时序指标和算法精准地结合起来，大幅提升效率。如果做日志分析。一个典型场景是通过日志数据流来做事件根因分析，知识图谱基于图结构的数据格式，便于计算机系统的存储与检索，能够快速提供生产系统里面应用和组件之间的关联和承载关系，使出来的结果数据更加精确，更为精准。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于AIOps的智能运维框架系统，其特征在于，包括算法模型在线服务模块、可视化建模平台、Notebook建模平台、数据治理模块和计算引擎模块；

2.根据权利要求1所述的一种基于AIOps的智能运维框架系统，其特征在于，数据治理模块具体包括如下运转步骤：

3.根据权利要求2所述的一种基于AIOps的智能运维框架系统，其特征在于，步骤101)中在给定流水号时计算数据来源之间的相似性，从而识别具有不同标识但实际拥有同一来源的数据；

相似性通过如下余弦公式计算相似度，来进行度量

4.根据权利要求2所述的一种基于AIOps的智能运维框架系统，其特征在于，步骤104)数据分析步骤中的数据分析包括数据接入、数据转换、数据验证、模型训练、模型验证、模型评价、大规模训练、模型发布、算法服务、训练监控、建模日志；