CN108337122A

CN108337122A - 基于分布式流计算的运维管理系统

Info

Publication number: CN108337122A
Application number: CN201810164923.9A
Authority: CN
Inventors: 陈希; 陈俊雄; 杨世登; 吴志力
Original assignee: SHENZHEN MASLONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN MASLONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2018-07-27
Anticipated expiration: 2038-02-22
Also published as: CN108337122B

Abstract

一种基于分布式流计算的运维管理系统包括：数据融合模块(100)，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；计算控制模块(200)，用于分布式处理经数据融合模块(100)处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流。本发明的运维管理系统设计巧妙，实用性强。

Description

基于分布式流计算的运维管理系统

技术领域

本发明涉及IT运维领域，尤其涉及一种基于分布式流计算的运维管理系统。

背景技术

随着移动互联网的普及率越来越高，人们生活的方方面面都受到了互联网的影响，当前，人们出行只需带上一部智能手机，就可以完成诸如网上约车、网络购物、网上缴费等业务，既简单又快捷。但在支撑这些应用场景的背后，则是不断产生的海量用户行为数据，并且大部分是实时的非结构化数据，这给传统IT运维人员的工作带来了极大的挑战。如何实时获取海量数据中的关键信息，并实现快速精准分析至关重要。单靠当前传统的批处理以及监控模式很难实现。具体地,大量信息源带来数据规模的爆发式增长。在目前复杂、海量、异构的数据环境中,不仅包含静态的、离线的、结构化的数据,还有实时传输的、持续产生的、非结构化的数据,例如传感器网络实时产生的监控数据,在线服务器产生的统计信息,网站的访问日志,路由器数据报的统计。这些数据时时刻刻都在“运动”。面对这些“无限”运动着的数据,如果不能对其进行高效率的实时处理,将错过数据流中携带的关键信息。整合来自多个异构数据源的“运动”数据,在其“运动”的过程执行复杂的逻辑处理,包括数值计算、数据挖掘和模型预测,实时地给出用户关心的结果,这是传统分布式计算模式所无法做到的。

此外，传统的IT运维通常是运维人员对部分关键业务编写监控脚本。当系统发生故障之后，运维人员紧急联系研发人员一起分析定位问题，并采取相应的补救措施；其运维数据多被孤立地用在运维诊断上，在采集、分析数据，出具预警和处理措施上，暴露出不够全面、统一、综合的问题，仍然倾向于比较孤立地建基在片面的数据源。于是，运维人员日常大部分时间和精力都花在处理简单且重复的问题上，并且由于脚本分散，故障预警机制也非常不完善，往往是故障发生后人工进行处理，没有自愈能力。运维人员如同“消防员”，每天处于被动“救火”状态，这种被动的运维模式让运维人员疲惫不堪。运维质量也无法提高。

发明内容

本发明针对上述技术问题，提出了一种基于分布式流计算的运维管理系统。

本发明所提出的技术方案如下：

本发明提出了一种基于分布式流计算的运维管理系统，包括：

数据融合模块，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

计算控制模块，用于分布式处理经数据融合模块处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流。

本发明上述的运维管理系统中，连接属性包括静态拓扑里两节点间的物理连接，和/或动态网络里节点连接，和/或瞬时的web、tcp连接，和/或网络层次里上下层级的父子关系，和/或虚拟环境里控制器和被控制单元的管理关系。

本发明上述的运维管理系统中，IT运维数据为带时间戳的日志数据。

本发明上述的运维管理系统中，数据融合模块包括：

数据推理核心模块，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

图数据融合模块，用于对具有图数据格式的IT运维数据流进行数据融合，以得到融合数据流；

融合指标检测模块，用于基于数据融合指标算法和融合数据流评估数据融合模块的工作。

本发明上述的运维管理系统中，数据融合指标算法包括源目标批次融合处理时延、和/或源目标批次平均处理时延、和/或源目标批次处理时延方差、和/或源目标批次最小处理时延、和/或源目标批次最大处理时延、和/或源目标批次漏处理率。

本发明上述的运维管理系统中，计算控制模块包括Spark Streaming子系统，该Spark Streaming子系统用于分布式处理经数据融合模块处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流；

Streaming子系统还用于将对IT运维数据流和离散数据流的分布式处理结果保存下来。

本发明上述的运维管理系统中，计算控制模块还包括：

IT运维场景改造和调优异常检测模块，用于根据IT运维场景条件和/或调优条件从具有图数据格式的IT运维数据流和离散数据流筛选出合格的数据。

本发明上述的运维管理系统中，计算控制模块还包括：

数据传递控制模块，用于控制具有图数据格式的IT运维数据流和离散数据流的传输规模和/或速度。

本发明上述的运维管理系统中，计算控制模块还包括：

缓存模块，用于在Spark Streaming子系统处理数据时，预先存储SparkStreaming子系统下一处理周期内需处理的数据。

本发明上述的运维管理系统中，计算控制模块还包括：

周期设定模块，用于设定Spark Streaming子系统处理数据的处理周期。

本申请的运维管理系统基于连接拓扑的异构时序数据融合模型把运维环境里三元组日志扩充为五元组格式，从而可以建立起每个时间片下整个运维环境里各节点间明确而丰富的连接关系，构造出融合它们静态动态网络及隶属关系的拓扑结构与图状数据。一旦把以往孤立的节点通过时间及连接关联成图结构，可以引进和拓展各类图算法，用来发现整个IT环境里的相似节点、薄弱连接群、强联通组件、业务跟吞吐核心权威及核心(Authority&Hub)等等。并可利用扩散模型、压力模型，分析模拟图结构内异常事件的传导，从而在全局、宏观、整体的层面，理解、把握、监控整个IT运维环境。基于连接拓扑的异构时序数据融合模型除了将数据进行节点连接式融合，本申请还在常规数据融合框架下，针对IT运维的数据，进行数据级(特征提取以前)、特征层(属性说明之前)，以及决策层(对数据独立属性说明之后)的融合创新。同时，正因为运维数据具备时序化细颗粒度特性，通过我们的数据融合，根据融合频率的不同，获得的图数据尺度不一。而且因为图结构内节点有的隶属于层级架构内，所以它们还具备分层分片的特征。又可放置在图结构和层次结构下，将图结构引入到流计算的操作DStream单元中。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1示出了本发明优选实施例的运维管理系统的功能模块示意图；

图2示出了图1所示的运维管理系统的数据融合模块的流程架构图；

图3示出了图1所示的运维管理系统的计算控制模块的处理架构的示意图。

具体实施方式

本发明所要解决的技术问题是：在目前复杂、海量、异构的数据环境中,不仅包含静态的、离线的、结构化的数据,还有实时传输的、持续产生的、非结构化的数据,这些数据无法进行高效率的实时处理,容易错过数据流中携带的关键信息。而传统IT运维倾向于比较孤立地建基在片面的数据源，不够全面、统一、综合；运维时所编写的监控脚本分散，从而导致运维质量无法提高。本发明就该技术问题而提出的技术思路是：展开一种全新的基于分布式流计算的架构设计，采用了插件式可配置的设计理念，集成了自动化运维，构建成分布式的运维管理系统。通过可配置化的资源管理，实现新的监控资源自动注册、汇总注册节点、快速分析、自动处理、计算，实现对运维关键数据的实时展现。对处理故障之后的问题进行必要的跟踪与记录，并且准确有效反馈给到相关人员。

为了使本发明的技术目的、技术方案以及技术效果更为清楚，以便于本领域技术人员理解和实施本发明，下面将结合附图及具体实施例对本发明做进一步详细的说明。

如图1所示，图1示出了本发明优选实施例的运维管理系统的功能模块示意图。该运维管理系统包括：

数据融合模块100，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

计算控制模块200，用于分布式处理经数据融合模块100处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流。

从抽象角度来看，IT运维数据的类型通常可界定成带时间戳的日志数据，但其数据类型依然五花八门。有些日志数据(如web log)结构化相对较好，每条日志包含的字段一般约定俗成，集中在客户端(用户)IP地址、访问端口、响应时间、请求时间、url地址、请求方式、状态码、页面大小、来源、浏览器语言、.用户浏览器其他信息，浏览器版本、浏览器类型等。但对于通过syslog、syslog-ng、rsyslog收集的系统日志，通过scribe和fluentd收集的业务日志，基于http(s)post协议定制上报的日志，基于VMware的vSphere Client等虚拟机管理系统、基于ping/traceroute/SNMP等对数据流或者封包的采集工具、SDN软件定义层积累的日志，其schema格式并不统一。许多新技术本身的监控还在发展完善中，比如Vmware有比较完备的API，但许多hypervisor(比如Hyper-V和KVM)，能开放的监测API并不多。这样，就需要将IT运维数据的类型尽可能地统一，以便于有效率地、少遗漏地监控和处理IT运维数据。同时，受IT运维模式向BSM演进的启发，需要把IT运维数据放在网络拓扑、层次架构的综合上下文(context)里，有机而全局地进行考虑，才能把看似纷繁复杂、四处涌现的运维数据流底下真正而主要的力量理解清楚，从而建立起它们跟实际业务的实质关联。这样，在这里，本实施例便采用将IT运维数据的格式修改为图数据格式，实现IT运维数据之间的关联性。

现有的IT运维数据一般都符合三元组格式，如下：

<时间戳，实体或服务ID，多维度多格式日志内容>

其中，时间戳表示IT运维数据的生成时间标识，实体或服务ID为IT运维数据的识别码，多维度多格式日志内容为IT运维数据的正文内容。

鉴于孤立的考察单个IT运维数据(即单笔或者单实体日志)，容易出现见木不见林的的问题，本实施例创新地把IT运维数据相关的其他IT运维数据，放置到它们所属的连接结构里考虑。具体地，对于一个IT运维数据，根据其实体或服务ID(假设将其编号为A节点ID)所属的拓扑结构、服务群组和日志内容，能够将其关联到另外一个IT运维数据的实体或服务ID(假设将其编号为B节点ID)，于是，IT运维数据的格式可以修改为五元组格式，如下：

<时间戳，A节点ID，B节点ID，连接属性，多维度多格式日志内容>

其中，时间戳表示IT运维数据的生成时间标识；连接属性表示A节点关联到B节点的关联方式，其因IT运维场景不同而形成的集合各异，包括但不限于静态拓扑里两节点间的物理连接，和/或动态网络(如SDN)里节点连接，和/或瞬时的web、tcp连接，和/或网络层次里上下层级的父子关系，和/或虚拟环境里控制器和被控制单元的管理关系等。

在本实施例中，一旦将日志扩充为五元组，这些IT运维数据有几大特征：1)因为节点对和连接属性的存在，从而暗含了连接拓扑，或者按照学术定义，它们形成了图(Graph)数据；2)因为日志内容的多维度多格式，数据内容的结构化符合异构特点；3)日志天然带有精细时间戳并不断产生，是相当高频的时序数据。但日志数据形成的图数据相比常规的静态图数据，有其自身特色：节点和连接边是动态变化的；连接边的属性类型及事件内容涉及文本、描述等；时间窗口的大小(比如1秒或者1分钟区间)得到的图结构不一样。需要除了用到常规的各类数据融合、预处理、ETL技术，本实施例还开发针对异构图数据的融合。这包括时序数据指标化、节点间多连接聚合、图连接剪枝等。

进一步地，如图2所示，图2示出了图1所示的运维管理系统的数据融合模块100的流程架构图。该数据融合模块100包括：

数据推理核心模块110，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

图数据融合模块120，用于对具有图数据格式的IT运维数据流进行数据融合，以得到融合数据流；

融合指标检测模块130，用于基于数据融合指标算法和融合数据流评估数据融合模块100的工作。

在这里，数据融合指标算法可以包括源目标批次融合处理时延、和/或源目标批次平均处理时延、和/或源目标批次处理时延方差、和/或源目标批次最小处理时延、和/或源目标批次最大处理时延、和/或源目标批次漏处理率等。

通过数据融合形成的图数据，根据融合频率的不同，获得的图数据尺度不一。而且因为图数据的结构内节点有的隶属于层级架构内，所以它们还具备分层分片的特征。对其进行实时计算的方法流程包括：1)研发离线机器学习训练模型；2)在流计算模式中使用训练好的模型在线处理实时数据；3)拓展到流计算集群分布式计算；4)多尺度多层次图数据汇入流计算系统进行处理。多尺度多层次图数据的流计算的处理架构如图3所示。

在本实施例中，计算控制模块200包括Spark Streaming子系统，该SparkStreaming子系统用于分布式处理经数据融合模块100处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流。Spark Streaming是在2013年被添加到Apache Spark中的，作为核心Spark API的扩展它允许数据工程师和数据科学家实时地处理来自于Kafka、Flume以及Amazon Kinesis等多种源的数据。这种对不同数据的统一处理能力就是Spark Streaming会被大家迅速采用的关键原因之一。

Spark Streaming能够按照批尺寸(batch size，如1秒)将输入数据分成一段段的离散数据流(Discretized Stream，即DStream)，这些离散数据流具有与RDD一致的核心数据抽象，能够与MLlib和Spark SQL等Spark组件无缝集成。

Spark Streaming是Spark核心API的一个扩展，能够高扩展性高吞吐量高容错率的处理实时流数据。可以处理来自多个数据源的数据，比如来自Kafka，Flume，Twitter，ZeroMQ，Kinesis或者TCP sockets。使用各种高级函数比如map，reduce，join和window来处理这些数据。最后把这些处理过的数据输出到文件系统，数据库或者操作界面上。

进一步地，Streaming子系统还用于将对IT运维数据流和离散数据流的分布式处理结果保存下来。具体地，Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照批尺寸(batchsize，如1秒)分成一段一段的数据，每一段数据都转换成Spark中的RDD，然后将SparkStreaming中对DStream的转换(Transformation)操作变为针对Spark中对RDD的转换(Transformation)操作，将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。

对于Spark来说，数据流是在通过将用户定义的一系列的RDD转化成DAG(有向无环图)，然后DAG Scheduler把这个DAG转化成一个TaskSet，而这个TaskSet就可以向集群申请计算资源，集群把这个TaskSet部署到Worker中去运算。当然了，对于开发者来说，他的任务是定义一些RDD，在RDD上做相应的转化动作，最后系统会将这一系列的RDD投放到Spark的集群中去运行。

通过Spark Streaming开发者能够容易地使用一种框架满足所有的处理需求，例如通过MLlib离线训练模型，然后直接在Spark Streaming中使用训练好的模型在线处理实时数据。同时，开发者编写的代码和业务逻辑也能够在流处理、批处理和交互式处理引擎中共享和重用。此外，流数据源中的数据还可以与很多其他的Spark SQL能够访问的静态数据源进行联合。

借助数据融合，部分IT运维数据成为图数据。基于spark的graphX和spark原生的bagel都允许进行图操作。但在graphx上的pageRank每次迭代的时间可以稳定地低于基于spark的原生图算法框架bagel。这是因为现实中很多图结构(比如Internet、电子邮件网络、电影演员合作网络、引文关系网络)的节点的度都符合幂律分布，有的节点持续地获得更多的连接，20％或更少的节点，拥有整个图里超过80％的边，所以数据倾斜是很严重的现象。所以如果要对于现实中存在的“图”进行图计算，针对于无标度网络进行一些存储，通信等优化，graphx就对于有这种特点的图进行优化。对于巨型图，graphx借鉴powerGraph，使用的是点分割(vertexcut)方式存储图。这种存储方式特点是任何一条边只会出现在一台机器上，每个点有可能分布到不同的机器上；当点被分割到不同机器上时，是相同的镜像，但是有一个点作为主点(master)，其他的点作为虚点(ghost)，当一个点的数据发生变化时，先更新该点的master的数据，然后将所有更新好的数据发送到该点的ghost所在的所有机器，更新该点的ghost。这样做的好处是在边的存储上是没有冗余的，而且对于某个点与它的邻居的交互操作，只要满足交换律和结合律，比如求邻居权重的和，求点的所有边的条数这样的操作，可以在不同的机器上并行进行，只要把每个机器上的结果进行汇总就可以了，网络开销也比较小。代价是每个点可能要存储多份，更新点要有数据同步开销。

进一步地，计算控制模块200还包括：

IT运维场景改造和调优异常检测模块210，用于根据IT运维场景条件和/或调优条件从具有图数据格式的IT运维数据流和离散数据流筛选出合格的数据；

数据传递控制模块220，用于控制具有图数据格式的IT运维数据流和离散数据流的传输规模和/或速度；这样，通过数据传递控制模块220可防止由于图处理过程中大规模消息传递而导致的流处理假死情况的发生。

缓存模块230，用于在Spark Streaming子系统处理数据时，预先存储SparkStreaming子系统下一处理周期内需处理的数据。在这里，流计算是以秒为周期级批处理，当一个处理周期的输入数据超过系统处理能力，需要及时跳到下个处理周期进行处理；而缓存模块230的提出便实现了未处理周期的良好缓冲。

周期设定模块240，用于设定Spark Streaming子系统处理数据的处理周期。每个处理周期内数据量差异可能很大，从而导致计算资源需求的波动。为了防范需求过大带来的尖刺，需要在不同计算资源情况下，对较长时间的数据进行测试，计算出系统最佳负荷。必要时需要对连续几个处理周期进行移动平均平滑。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于分布式流计算的运维管理系统，其特征在于，包括：

数据融合模块(100)，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

计算控制模块(200)，用于分布式处理经数据融合模块(100)处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流。

2.根据权利要求1所述的运维管理系统，其特征在于，连接属性包括静态拓扑里两节点间的物理连接，和/或动态网络里节点连接，和/或瞬时的web、tcp连接，和/或网络层次里上下层级的父子关系，和/或虚拟环境里控制器和被控制单元的管理关系。

3.根据根据权利要求1所述的运维管理系统，其特征在于，IT运维数据为带时间戳的日志数据。

4.根据根据权利要求1所述的运维管理系统，其特征在于，数据融合模块(100)包括：

数据推理核心模块(110)，用于将IT运维数据流的IT运维数据的格式修改为包含有其与另一个IT运维数据相关联的连接属性数据的图数据格式；

图数据融合模块(120)，用于对具有图数据格式的IT运维数据流进行数据融合，以得到融合数据流；

融合指标检测模块(130)，用于基于数据融合指标算法和融合数据流评估数据融合模块(100)的工作。

5.根据根据权利要求4所述的运维管理系统，其特征在于，数据融合指标算法包括源目标批次融合处理时延、和/或源目标批次平均处理时延、和/或源目标批次处理时延方差、和/或源目标批次最小处理时延、和/或源目标批次最大处理时延、和/或源目标批次漏处理率。

6.根据根据权利要求1所述的运维管理系统，其特征在于，计算控制模块(200)包括Spark Streaming子系统，该Spark Streaming子系统用于分布式处理经数据融合模块(100)处理后的IT运维数据流，并用于将具有图数据格式的IT运维数据分割为具有图数据格式的离散数据流，然后分布式处理该离散数据流；

7.根据根据权利要求6所述的运维管理系统，其特征在于，计算控制模块(200)还包括：

IT运维场景改造和调优异常检测模块(210)，用于根据IT运维场景条件和/或调优条件从具有图数据格式的IT运维数据流和离散数据流筛选出合格的数据。

8.根据根据权利要求6所述的运维管理系统，其特征在于，计算控制模块(200)还包括：

数据传递控制模块(220)，用于控制具有图数据格式的IT运维数据流和离散数据流的传输规模和/或速度。

9.根据根据权利要求6所述的运维管理系统，其特征在于，计算控制模块(200)还包括：

缓存模块(230)，用于在Spark Streaming子系统处理数据时，预先存储SparkStreaming子系统下一处理周期内需处理的数据。

10.根据根据权利要求9所述的运维管理系统，其特征在于，计算控制模块(200)还包括：

周期设定模块(240)，用于设定Spark Streaming子系统处理数据的处理周期。