CN105357061A - 一种基于大数据流处理技术的运维监控分析系统 - Google Patents

一种基于大数据流处理技术的运维监控分析系统 Download PDF

Info

Publication number
CN105357061A
CN105357061A CN201510926514.4A CN201510926514A CN105357061A CN 105357061 A CN105357061 A CN 105357061A CN 201510926514 A CN201510926514 A CN 201510926514A CN 105357061 A CN105357061 A CN 105357061A
Authority
CN
China
Prior art keywords
monitoring
monitor data
data
task
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510926514.4A
Other languages
English (en)
Other versions
CN105357061B (zh
Inventor
江水
白力
史家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ISOFT INFRASTRUCTURE SOFTWARE CO Ltd
Original Assignee
ISOFT INFRASTRUCTURE SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ISOFT INFRASTRUCTURE SOFTWARE CO Ltd filed Critical ISOFT INFRASTRUCTURE SOFTWARE CO Ltd
Priority to CN201510926514.4A priority Critical patent/CN105357061B/zh
Publication of CN105357061A publication Critical patent/CN105357061A/zh
Application granted granted Critical
Publication of CN105357061B publication Critical patent/CN105357061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Abstract

本发明公开了一种基于大数据流处理技术的运维监控分析系统,属于运维监控技术领域;系统包括:监控端,监控得到客户端中的监控数据并发送至存储端;存储端,保存多条预警处理规则,多条数据挖掘规则以及历史记录;缓存端,根据预设的时间间隔,将存储端中保存的预警处理规则、数据挖掘规则以及历史记录同步到缓存端中,以及接收监控端发送的监控数据流;第一处理组,根据预警规则、历史记录以及监控数据流进行预警监控告警分析;第二处理组,根据数据挖掘规则、历史记录以及监控数据流进行数据挖掘分析,根据分析结果输出监控统计分析。上述技术方案的有益效果是:解决分析实时性不够、处理效率过低及处理崩溃等问题。

Description

一种基于大数据流处理技术的运维监控分析系统
技术领域
本发明涉及运维监控技术领域,尤其涉及一种运维监控分析系统。
背景技术
随着IT行业的不断推进,服务器、网络设备以及存储设备等物理设备在各业务领域承担着越来越重要的责任,其中的各类软件也开始充当越来越重要的角色。当系统整体的效能范围达到一定程度后,对于业务的处理能力更大程度上将会依赖上述软硬件设备,而软硬件设备的整体运行情况和个体性能就将成为业务处理能力的瓶颈。因此,对于软硬件设备的全方位的运维监控成为监测和支撑业务处理能力的一个重要手段。
现有技术中,由于需要监控的监控指标非常多,例如需要监控设备CPU使用率、内存、磁盘等各类软硬件的性能数据,并且对于不同类型的硬件设备存在不同的监控指标,因此当需要监控的设备越来越多,最终监控得到的运维数据也会越来越多,从而呈现一种大数据量的监控和数据分析环境。
采用现有的方法对于大数据量的运维数据进行分析,通常存在以下几个问题:
1)对于一些需要告警的监控信息进行分析的实时性较差;
2)对大数据量的运维数据的数据挖掘非常不足,经过挖掘后向用户呈现的数据通常仍然是比较分散的数据,并不一定能满足用户的需求;
3)对于大数据量的运维数据的存储通常使用mysql等关系型数据库,无法承受数量庞大的运维监控数据。
发明内容
根据现有技术中存在的上述问题,现提供一种运维监控分析系统的技术方案,旨在解决因运维运维数据量巨大导致的数据分析实时性不够、告警实时性不足、处理效率过低、监控数据分散化、无法支撑海量数据以及可能出现任务处理崩溃的问题。
上述技术方案具体包括:
一种基于大数据流处理技术的运维监控分析系统,其中,包括:
监控端,分别远程连接多个客户端,用于监控得到所述客户端中的运维监控数据,并将监控到的处于预设周期内的所述运维监控数据发送至一远程的存储端,以作为历史记录保存;
所述存储端还用于保存预设的多条预警处理规则,以及预设的多条数据挖掘规则,以及所述历史记录;
缓存端,分别远程连接所述存储端和所述监控端,用于根据预设的时间间隔,将所述存储端中保存的所述预警处理规则、所述数据挖掘规则以及所述历史记录同步到所述缓存端中进行保存,以及接收所述监控端发送的实时的包括所述运维监控数据的监控数据流,并根据对应所述监控数据流中包括的所述运维监控数据的不同的类型分别进行缓存;
第一处理组,远程连接所述缓存端,所述第一处理组中包括多个第一处理端,分别用于根据所述预警规则、所述历史记录以及所述监控数据流进行预警监控分析,并输出相应的分析结果;
第二处理组,远程连接所述缓存端,所述第二处理组中包括多个第二处理端,分别用于根据所述数据挖掘规则、所述历史记录以及所述监控数据流进行数据挖掘分析,根据分析结果输出被挖掘出的关联于所述运维监控数据的监控统计结果。
优选的,该运维监控分析系统,其中,一条所述预警处理规则包括:
所述预警处理规则所对应的所述客户端的类型信息;
所述预警处理规则所对应的监控指标的信息;以及
所述预警处理规则所对应的处理表达式的信息。
优选的,该运维监控分析系统,其中,一条所述数据挖掘规则包括:
所述数据挖掘规则所对应的所述客户端的类型信息;
所述数据挖掘规则所对应的监控指标的信息;以及
所述数据挖掘规则所对应的处理模型的信息。
优选的,该运维监控分析系统,其中,所述监控端包括:
接收单元,用于接收所述监控数据流;
分片单元,连接所述接收单元,用于将所有需要发送至所述缓存端的所述监控数据流划分成多个片式数据并输出;
封装单元,连接所述分片单元,用于对每个所述片式数据按照所关联的具体属性进行封装;
处理单元,连接所述接收单元,用于根据所述监控数据流分别形成关联于所述预警监控分析的第一任务,以及关联于所述数据挖掘分析的第二任务;
发送单元,分别连接所述封装单元和所述处理单元,用于依次将经过封装的所述片式数据发送至所述缓存端进行保存,以及将关联于不同的所述监控数据流的所述第一任务以及所述第二任务发送至所述缓存端进行保存。
优选的,该运维监控分析系统,其中,所述第一处理组中的多个所述第一处理端中包括一个第一主处理端和多个第一从处理端,所述第一主处理端分别连接多个所述第一从处理端;
所述缓存端保存有关联于所述预警监控分析的第一任务,每个所述第一任务关联于包括多个所述运维监控数据的所述监控数据流;
所述第一主处理端中包括:
第一监控单元,用于对不同的所述第一从处理端的工作负载进行监控,并输出监控结果;
第一处理单元,连接所述第一监控单元,用于根据所述监控结果,处理得到关联于所有所述第一从处理端的任务拓扑关系并输出;
第一分发单元,连接所述第一处理单元,用于根据所述任务拓扑关系,向不同的所述第一从处理端分发包括于所述缓存端接收到的所述第一任务以及相关联的所述监控数据流。
优选的,该运维监控分析系统,其中,每个所述第一从处理端中包括:
第一解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
第一分析单元,连接所述第一解析单元,用于根据所述解析结果,采用所述预警处理规则以及所述历史记录,对解析得到的所述运维监控数据进行预警监控分析,并输出相应的分析结果。
优选的,该运维监控分析系统,其中,所述第二处理组中的多个所述第二处理端中包括一个第二主处理端和多个第二从处理端,所述第二主处理端分别连接多个所述第二从处理端;
所述缓存端保存有关联于所述数据挖掘分析的第二任务,每个所述第二任务关联于包括多个所述运维监控数据的所述监控数据流;
所述第二主处理端中包括:
第二监控单元,用于对不同的所述第二从处理端的工作负载进行监控,并输出监控结果;
第二处理单元,连接所述第二监控单元,用于根据所述监控结果,处理得到关联于所有所述第二从处理端的任务拓扑关系并输出;
第二分发单元,连接所述第二处理单元,用于根据所述任务拓扑关系,向不同的所述第二从处理端分发包括于所述缓存端接收到的所述第二任务以及相关联的所述监控数据流。
优选的,该运维监控分析系统,其中,每个所述第二从处理端中包括:
第二解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
第二分析单元,连接所述第二解析单元,用于根据所述解析结果,采用所述数据挖掘规则以及所述历史记录,对解析得到的所述运维数据进行数据挖掘分析,并输出相应的分析结果。
优选的,该运维监控分析系统,其中,所述存储端包括多个相互独立的存储单元,所有所述存储单元组合形成一列式的存储集群,以作为所述存储端。
优选的,该运维监控分析系统,其中,所述缓存端和所述第一处理组结合形成一用于进行预警监控分析的第一处理集群。
优选的,该运维监控分析系统,其中,所述缓存端和所述第二处理组结合形成一用于进行数据挖掘分析的第二处理集群。
上述技术方案的有益效果是:提供一种运维监控分析系统,能够解决因运维数据量巨大导致的数据分析实时性不够、告警实时性不足、监控数据过度分散化、底层存储无法支撑、处理效率过低以及可能出现任务处理崩溃等问题。
附图说明
图1是本发明的较佳的实施例中,一种运维监控分析系统的总体流程示意图;
图2-8是本发明的较佳的实施例中,于图1的基础上,运维监控分析系统的分部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种运维监控分析系统,其结构具体如图1所示,包括:
监控端A,分别远程连接多个客户端(图中未示出),用于监控得到客户端中的运维监控数据,并将监控到的运维监控数据发送至一远程的存储端B,以作为历史记录保存;
在上述存储端B中还保存有预设的多条预警处理规则,以及预设的多条数据挖掘规则,以及历史记录;
缓存端C,分别远程连接存储端B和监控端A,用于根据预设的时间间隔,将存储端B中保存的预警处理规则、数据挖掘规则以及历史记录同步到缓存端中进行保存,以及接收监控端A发送的包括实时的运维监控数据的监控数据流,并根据对应所述监控数据流中包括的所述运维监控数据的不同的类型分别进行缓存;换言之,该实施例中,上述缓存端C用于接收包括运维监控数据的流式数据,并根据其中包括的运维监控数据的不同类型,将这些流式数据分别保存到对应类型的数据缓存池中。
第一处理组D,远程连接缓存端C,上述第一处理组D中包括多个第一处理端D1,分别用于根据预警规则、历史记录以及监控数据流进行预警监控分析,通过每道预警规则处理截屏后得到对应的分析数据并输出相应的分析结果;第一处理组D面向的数据存在形式是流式数据,第一处理组D中包含多道流式数据处理截屏,每一道处理截屏中都包含了不同的处理任务和业务分析,每一道截屏都能够产生对应的处理数据,第一处理组得到的分析数据以预警数据为主。
第二处理组E,远程连接缓存端C,上述第二处理组E中同样包括多个第二处理端E1,分别用于根据数据挖掘规则、历史记录以及监控数据流进行数据挖掘分析,通过每道挖掘规则处理截屏后得到对应的挖掘分析数据并输出关联于运维监控数据的监控统计结果。第二处理组E面向的数据存在形式也是流式数据,第二处理组E的处理方式也以处理截屏为主,每一道处理截屏中包含的都是不同类型的挖掘模式,监控数据流每通过移到处理截屏都能够产生对应的挖掘数据,第二处理组得到的分析数据以挖掘统计数据为主。
在一个具体实施例中,上述监控端A即用于对不同的软硬件设备进行监控的功能模块,其监控对象即为运维监控数据采集的对象。该实施例中,上述监控端A可以以多种方式监控并采集上述运维监控数据,以下介绍最常用的三种:1)采集代理方式;2)SNMP方式;3)自陷方式。
所谓采集代理方式,主要分为监控对象以主动形式从监控端A同步监控指标并向监控端A主动发送运维监控数据,以及监控对象以被动形式响应监控端A的监控数据获取请求并发送运维监控数据。
所谓SNMP方式,是指监控端A主动向监控对象发送SNMP监控数据获取请求,以获取响应的运维监控数据。
所谓自陷方式,主要指监控对象TCP连接到监控端A并主动向监控端A发送运维监控数据。
该实施例中,监控端A监控得到运维监控数据后,将运维监控数据保存入存储端B。同时,在存储端B中还保存有预设的多条预警处理规则,以及预设的多条数据挖掘规则,以及历史记录。
所谓预警处理规则,其中可以包括:预警处理规则所对应的客户端的类型信息,预警处理规则所对应的监控指标的信息,以及预警处理规则所对应的处理表达式的信息。即根据上述预警处理规则,可以套用不同的处理表达式,对从不同类型的客户端采集得到的对应不同的监控指标的运维监控数据进行预警监控分析,并得到分析结果。
所谓数据挖掘规则,其中可以包括:数据挖掘规则所对应的客户端的类型信息,数据挖掘规则所对应的监控指标的信息,以及预警处理规则所对应的处理模型的信息。即根据上述数据挖掘规则,可以套用不同的处理模型,对从不同类型的客户端采集得到的对应不同的监控指标的运维监控数据进行数据挖掘分析,并得到分析结果。
所谓历史记录,是指运维监控数据的历史记录。由于在进行预警监控分析以及数据挖掘分析的某些场合下需要用到历史记录的联合评价,因此在存储端B同样需要保存运维监控数据的历史记录,以供上述第一处理组D和第二处理组E调用。上述历史记录具体为处于预设周期内的运维监控数据,即周期性地循环保存运维监控数据,并将被保存的运维监控数据作为历史记录。
该实施例中,上述缓存端C作为存储端B和第一处理组D和第二处理组E之间的缓冲区域。换言之,以监控对象(软硬件设备)以及监控指标两个元素作为主要引导对象,上述存储端B可以作为生产者的角色,将上述预警处理规则、数据挖掘规则以及历史记录等放入缓存端C中。同样地,上述监控端A也可以作为生产者,将监控得到的包括运维监控数据的监控数据流依序放入上述缓存端C中。缓存端C以生产者模式发布各类计算任务消息,由上述第一处理组D和第二处理组E以消费者模式从缓存端C中获取不同类型的处理任务以及根据具体的任务从缓存端C提取不同的数据(包括预警处理规则或者数据挖掘规则,以及历史记录,以及相应的监控数据流)并进行不同的处理。
该实施例中,监控端A同样会将监控得到的运维监控数据保存到上述存储端B中,以作为历史记录保存。
该实施例中,上述第一处理组D用于根据上述预警处理规则、历史记录以及监控数据流进行运维数据的预警监控分析,并根据分析结果判断是否需要发出告警信号,以及最终发出告警信号。上述第一处理组D的处理方式并不一定为简单地将监控数据流中包括的运维监控数据进行阈值比较,而需要根据预警处理规则的不同,可能需要同时应用到上述历史记录以及运维数据,以对一段时期内产生的数据趋势进行预警。上述第一处理组D中包括多个第一处理端D1,每个第一处理端D1可以根据自身的工作负载,承担一定计算量的预警监控分析,上述过程在下文中会详述。
同样地,该实施例中,上述第二处理组E用于根据上述数据挖掘规则、历史记录以及包括运维监控数据的监控数据流进行运维监控数据的数据挖掘分析,并根据分析结果输出被挖掘出的关联于运维监控数据的监控统计结果。上述第二处理组E经过数据挖掘分析,最终可能处理得到用户需要的运维监控数据,或者处理得到用户需要的运维监控数据的不同类型的统计分析结果。上述不同的结果可以通过设定不同的数据挖掘规则实现。同样地,上述第二处理组E中包括多个第二处理端E1,每个第二处理端E1可以根据自身的工作负载,承担一定计算量的数据挖掘分析,上述过程也会在下文中详述。
该实施例中,上述预警处理规则以及数据挖掘规则具体可以由使用者自由设定,以满足使用者期望的监控目的。
本发明的较佳的实施例中,如图2所示,上述监控端A包括:
接收单元A1,用于接收上述监控数据流;
分片单元A2,连接接收单元A1,用于将所有需要发送至缓存端的上述监控数据流划分成多个片式数据并输出;
封装单元A3,连接分片单元A2,用于对每个片式数据按照所关联的具体属性进行封装,生成对应的压缩打包数据;
处理单元A4,连接接收单元A1,用于根据包括运维监控数据的监控数据流分别形成关联于预警监控分析的第一任务,以及关联于数据挖掘分析的第二任务;
发送单元A5,分别连接封装单元A3和处理单元A4,用于依次将经过封装的片式数据发送至缓存端C进行数据缓存,以及将关联于不同的监控数据流的第一任务以及第二任务发送至缓存端C进行数据缓存。
具体地,本发明的较佳的实施例中,上述监控端A采集到运维数据后,以监控对象(不同的软硬件设备)为标识,将接收到的包括运维数据的数据流进行分片处理,并将片式数据进行时间戳等属性的封装处理(具体地可以将每个片式数据中的单元数据进行封装处理),然后将片式数据暂时保存在上述缓存端C的运维监控数据缓存池中。
上述运维数据的分片方式主要由时间周期、监控数据流的数据量以及实时分析得到的上述第一处理组D或者第二处理组E(视不同的处理任务决定)的压力负载三个因素决定,即主要根据上述三个因素计算每个片式数据的分片大小。
本发明的较佳的实施例中,上述片式数据中包括多个单元数据,每个单元数据对应一个监控指标。
本发明的较佳的实施例中,如图3所示,上述第一处理组D中的多个第一处理端D1中包括一个第一主处理端D11和多个第一从处理端D12,第一主处理端D11分别连接多个第一从处理端D12;
相应地,上述缓存端C中保存有关联于预警监控分析的第一任务,每个第一任务关联于包括多个运维监控数据的监控数据流。
则本发明的较佳的实施例中,如图4所示,上述第一主处理端D11中包括:
第一监控单元D111,用于对不同的第一从处理端D12的工作负载进行监控,并输出监控结果;
第一处理单元D112,连接第一监控单元D111,用于根据监控结果,处理得到关联于所有第一从处理端D12的任务拓扑关系并输出;
第一分发单元D113,连接第一处理单元D112,用于根据任务拓扑关系,向不同的第一从处理端D12分发包括于缓存端C接收到的第一任务以及相关联的监控数据流。
具体地,本发明的较佳的实施例中,上述第一处理组D中包括第一主处理端D11(作为主控节点)以及多个第一从处理端D12(作为被控的其他计算节点)。第一主处理端D11的作用主要在于:
1)源源不断地获取上述缓存端C中保存的不同的监控数据流。由于包括在第一处理组D中,因此上述第一主处理端D11只获取关联于预警监控分析的第一任务的监控数据流。
2)监控其下的多个第一从处理端D12的工作负载,判断不同的第一从处理端D12是否能够继续处理新的第一任务,以及接收相应的监控数据流;
3)根据上述监控结果,生成关联于所有计算节点的拓扑关机,即形成相应的拓扑图。该拓扑图上可以表示有所有第一从处理端D12的工作负载以及健康状态(例如是否超负荷运算等),其中工作负载可以采用评分的方式给出。因此上述拓扑图可以很清晰地表示出上述第一处理组D中的每个第一从处理端D12当前的计算能力。
4)根据上述拓扑关系,选择合适的第一从处理端D12,并将新的第一任务以及相应的监控数据流发送给该被选择的第一从处理端D12,即根据不同的第一从处理端D12当前的计算能力,将第一任务以及相应的监控数据流分配给能够胜任该计算任务的第一从处理端D12进行预警监控分析。
综上所述,上述第一主处理端D11的作用实际为上述监控数据流的转发以及其下的第一从处理端D12的计算能力的集群管理。
相应地,本发明的较佳的实施例中,如图5所示,每个第一从处理端D12中包括:
第一解析单元D121,用于对接收到的包括运维监控数据的监控数据流进行解析,并输出解析结果。每个第一从处理端D12在对打包数据进行解析后,先进行数据破损度分析,如果发现数据破损,则直接通过上述缓存端C并根据打包数据标志获取原生数据然后继续执行后续操作;
第一分析单元D122,连接第一解析单元D121,用于根据上述解析结果,采用预警处理规则以及历史记录,对解析得到的运维监控数据进行预警监控分析,并输出相应的分析结果。
具体地,本发明的较佳的实施例中,每个第一从处理端D12的作用主要在于根据上述第一主处理端D11下发的第一任务以及相应的监控数据流,应用上述预警处理规则以及相应的运维监控数据的历史记录,对根据该监控数据流解析得到的运维监控数据进行预警监控分析,并根据相应的分析结果输出/不输出相应的预警信号。例如,通过解析监控数据流还原监控对象、监控指标以及预警处理规则三类数据构建的运行场景,并根据预警处理规则中的处理表达式调用系统内置的相应的规则函数,填充使用者预先设定的阈值变量,并获取上述运行场景下的计算结果。每个第一从处理端D12都会定期向上述第一主处理端D11返回任务计算结果标志,第一主处理端D11获取上述任务计算结果标志后进行判断:如果该任务计算结果标志表示计算未完成,则第一主处理端D11将相应任务交由上述第一从处理端D12继续进行处理;如果该任务计算结果标志表示计算已经完成,则第一主处理端D11在任务池中将对应的任务标记为处于已完成状态。
如果上述第一主处理端D11在预设的接收周期(该周期可以进行配置)内没有得到从上述第一从处理端D12发送的任何任务计算结果标志,则认为上述第一从处理端D12无法进行对应任务的计算,则第一主处理端D11将对应的任务标记为处于原始状态,并重新将其分配其他第一从处理端D12进行计算。
本发明的较佳的实施例中,每个第一从处理端D12计算得到关联于不同的第一任务的分析结果后,可以将这些分析结果进行告警时间戳等属性数据的封装,并且回传至上述存储端B中保存。
本发明的较佳的实施例中,与上述第一处理组D的分布结构类似,如图6所示,上述第二处理组E中的多个第二处理端E1中包括一个第二主处理端E11和多个第二从处理端E12,上述第二主处理端E11分别连接多个第二从处理端E12。
同样地,于上述缓存端C中保存有关联于数据挖掘分析的第二任务,每个第二任务关联于包括多个运维监控数据的监控数据流。
则如图7所示,上述第二主处理端E11中包括:
第二监控单元E111,用于对不同的第二从处理端E11的工作负载进行监控,并输出监控结果;
第二处理单元E112,连接第二监控单元E111,用于根据监控结果,处理得到关联于所有第二从处理端E12的任务拓扑关系并输出;
第二分发单元E113,连接第二处理单元E112,用于根据任务拓扑关系,向不同的第二从处理端E12分发包括于缓存端接收到的第二任务以及相关联的监控数据流。
上文中所述的第二主处理端E11的作用与上述第一主处理端D11的作用类似,都是作为监控数据流转发以及第二从处理端E12的集群管理的功能模块存在,在此不再赘述。
同样地,上述第二从处理端E12向第一主处理端E11返回相应的任务计算结果标志,以及第一主处理端E11根据该任务计算结果标志进行相应的后续操作的过程也与上述第一主处理端D11和第一从处理端D12之间的交互类似,在此也不再赘述。
本发明的较佳的实施例中,如图8所示,每个上述第二从处理端E12中包括:
第二解析单元E121,用于对接收到的包括运维监控数据的监控数据流进行解析,并输出解析结果;
第二分析单元E122,连接第二解析单元E121,用于根据解析结果,采用数据挖掘规则以及历史记录,对解析得到的运维监控数据进行数据挖掘分析,并输出相应的分析结果。
具体地,本发明的较佳的实施例中,与上文中类似,每个第二从处理端E12分别根据上述数据挖掘规则以及历史记录,对下发至该第二从处理端E12的第二任务以及相应的监控数据流进行相应的数据挖掘处理。例如通过解析监控数据流还原监控对象、监控指标以及数据挖掘规则三类数据构建的运行场景,并根据数据挖掘规则中的处理模型调用相应的挖掘函数组合数据,填充使用者预先设定的挖掘变量,并获取上述运行场景下的挖掘结果,随后封装相关属性数据,并将挖掘结果发送至上述存储端B中进行保存。
本发明的较佳的实施例中,由于数据挖掘的计算对象与预警监控的计算对象略有不同,数据挖掘需要以数据准确性为最高目标,因此每个第二从处理端E12需要对发送过来的监控数据流进行数据抽样等处理,力求还原挖掘场景的正确性。
本发明的较佳的实施例中,上述存储端B包括多个相互独立的存储单元(图中未示出),所有存储单元组合形成一列式的存储集群,以作为存储端B。
具体地,本发明的较佳的实施例中,上述存储端B实际为一列式的存储集群,并且为一个分布式的文件存储系统,从而可以解决现有技术中采用行式的存储方式限制大数据读取和存入的问题。
本发明的一个较佳的实施例中,上述缓存端C和第一处理组D结合形成一用于进行预警监控分析的第一处理集群。换言之,上述缓存端C可以设置于上述第一处理组D中的某个服务器上。
本发明的另一个较佳的实施例中,上述缓存端C同样可以和第二处理组E结合形成一用于进行数据挖掘分析的第二处理集群。换言之,上述缓存端C同样可以设置在上述第二处理组E中的某个服务器上。
本发明的另一个较佳的实施例中,上述缓存端C可以同时存在于上述第一处理组D以及第二处理组E中,以便于上述第一处理组D和第二处理组E取用数据。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (11)

1.一种基于大数据流处理技术的运维监控分析系统,其特征在于,包括:
监控端,分别远程连接多个客户端,用于监控得到所述客户端中的运维监控数据,并将监控到的处于预设周期内的所述运维监控数据发送至一远程的存储端,以作为历史记录保存;
所述存储端还用于保存预设的多条预警处理规则,预设的多条数据挖掘规则,以及所述历史记录;
缓存端,分别远程连接所述存储端和所述监控端,用于根据预设的时间间隔,将所述存储端中保存的所述预警处理规则、所述数据挖掘规则以及所述历史记录同步到所述缓存端中进行保存,以及接收所述监控端发送的实时的包括所述运维监控数据的监控数据流,并根据对应所述监控数据流中包括的所述运维监控数据的不同的类型分别进行缓存;
第一处理组,远程连接所述缓存端,所述第一处理组中包括多个第一处理端,分别用于根据所述预警规则、所述历史记录以及所述监控数据流进行预警监控分析,并输出相应的分析结果;
第二处理组,远程连接所述缓存端,所述第二处理组中包括多个第二处理端,分别用于根据所述数据挖掘规则、所述历史记录以及所述监控数据流进行数据挖掘分析,根据分析结果输出被挖掘出的关联于所述运维监控数据的监控统计结果。
2.如权利要求1所述的运维监控分析系统,其特征在于,一条所述预警处理规则包括:
所述预警处理规则所对应的所述客户端的类型信息;
所述预警处理规则所对应的监控指标的信息;以及
所述预警处理规则所对应的处理表达式的信息。
3.如权利要求1所述的运维监控分析系统,其特征在于,一条所述数据挖掘规则包括:
所述数据挖掘规则所对应的所述客户端的类型信息;
所述数据挖掘规则所对应的监控指标的信息;以及
所述数据挖掘规则所对应的处理模型的信息。
4.如权利要求1所述的运维监控分析系统,其特征在于,所述监控端包括:
接收单元,用于接收所述监控数据流;
分片单元,连接所述接收单元,用于将所有需要发送至所述缓存端的所述监控数据流划分成多个片式数据并输出;
封装单元,连接所述分片单元,用于对每个所述片式数据按照所关联的具体属性进行封装;
处理单元,连接所述接收单元,用于根据所述监控数据流分别形成关联于所述预警监控分析的第一任务,以及关联于所述数据挖掘分析的第二任务;
发送单元,分别连接所述封装单元和所述处理单元,用于依次将经过封装的所述片式数据发送至所述缓存端进行保存,以及将关联于不同的所述监控数据流的所述第一任务以及所述第二任务发送至所述缓存端进行保存。
5.如权利要求1所述的运维监控分析系统,其特征在于,所述第一处理组中的多个所述第一处理端中包括一个第一主处理端和多个第一从处理端,所述第一主处理端分别连接多个所述第一从处理端;
所述缓存端保存有关联于所述预警监控分析的第一任务,每个所述第一任务关联于包括多个所述运维监控数据的所述监控数据流;
所述第一主处理端中包括:
第一监控单元,用于对不同的所述第一从处理端的工作负载进行监控,并输出监控结果;
第一处理单元,连接所述第一监控单元,用于根据所述监控结果,处理得到关联于所有所述第一从处理端的任务拓扑关系并输出;
第一分发单元,连接所述第一处理单元,用于根据所述任务拓扑关系,向不同的所述第一从处理端分发包括于所述缓存端接收到的所述第一任务以及相关联的所述监控数据流。
6.如权利要求5所述的运维监控分析系统,其特征在于,每个所述第一从处理端中包括:
第一解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
第一分析单元,连接所述第一解析单元,用于根据所述解析结果,采用所述预警处理规则以及所述历史记录,对解析得到的所述运维监控数据进行预警监控分析,并输出相应的分析结果。
7.如权利要求1所述的运维监控分析系统,其特征在于,所述第二处理组中的多个所述第二处理端中包括一个第二主处理端和多个第二从处理端,所述第二主处理端分别连接多个所述第二从处理端;
所述缓存端保存有关联于所述数据挖掘分析的第二任务,每个所述第二任务关联于包括多个所述运维监控数据的所述监控数据流;
所述第二主处理端中包括:
第二监控单元,用于对不同的所述第二从处理端的工作负载进行监控,并输出监控结果;
第二处理单元,连接所述第二监控单元,用于根据所述监控结果,处理得到关联于所有所述第二从处理端的任务拓扑关系并输出;
第二分发单元,连接所述第二处理单元,用于根据所述任务拓扑关系,向不同的所述第二从处理端分发包括于所述缓存端接收到的所述第二任务以及相关联的所述监控数据流。
8.如权利要求7所述的运维监控分析系统,其特征在于,每个所述第二从处理端中包括:
第二解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
第二分析单元,连接所述第二解析单元,用于根据所述解析结果,采用所述数据挖掘规则以及所述历史记录,对解析得到的所述运维数据进行数据挖掘分析,并输出相应的分析结果。
9.如权利要求1所述的运维监控分析系统,其特征在于,所述存储端包括多个相互独立的存储单元,所有所述存储单元组合形成一列式的存储集群,以作为所述存储端。
10.如权利要求1所述的运维监控分析系统,其特征在于,所述缓存端和所述第一处理组结合形成一用于进行预警监控分析的第一处理集群。
11.如权利要求1所述的运维监控分析系统,其特征在于,所述缓存端和所述第二处理组结合形成一用于进行数据挖掘分析的第二处理集群。
CN201510926514.4A 2015-12-11 2015-12-11 一种基于大数据流处理技术的运维监控分析系统 Active CN105357061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510926514.4A CN105357061B (zh) 2015-12-11 2015-12-11 一种基于大数据流处理技术的运维监控分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510926514.4A CN105357061B (zh) 2015-12-11 2015-12-11 一种基于大数据流处理技术的运维监控分析系统

Publications (2)

Publication Number Publication Date
CN105357061A true CN105357061A (zh) 2016-02-24
CN105357061B CN105357061B (zh) 2018-11-23

Family

ID=55332937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510926514.4A Active CN105357061B (zh) 2015-12-11 2015-12-11 一种基于大数据流处理技术的运维监控分析系统

Country Status (1)

Country Link
CN (1) CN105357061B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105828052A (zh) * 2016-06-02 2016-08-03 中国联合网络通信集团有限公司 基于Storm技术的视频监控方法和监控系统
CN105844543A (zh) * 2016-04-07 2016-08-10 国网天津市电力公司 一种电力企业信息系统自动化运维管理系统
CN106330554A (zh) * 2016-08-31 2017-01-11 山东瑞宁信息技术股份有限公司 监控及管理运维操作过程的运维审计系统及运维审计方法
CN106559231A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 多运维系统间的网元信息共享方法、装置及系统
CN107403005A (zh) * 2017-07-24 2017-11-28 浙江极赢信息技术有限公司 一种网站监控方法及装置
CN107612721A (zh) * 2017-08-31 2018-01-19 网宿科技股份有限公司 运维数据的管理系统及方法、汇聚服务器及处理服务器
CN108092816A (zh) * 2017-12-22 2018-05-29 上海数聚软件系统股份有限公司 一种设备运行质量实时监控方法
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法
CN109871360A (zh) * 2018-12-28 2019-06-11 宁波瓜瓜农业科技有限公司 生产系统的监控方法和监控系统
CN109902107A (zh) * 2019-01-28 2019-06-18 中国石油大学(华东) 一种基于Storm的工业信令数据流式计算框架
TWI723720B (zh) * 2020-01-02 2021-04-01 中華電信股份有限公司 預警規則最佳化配置之監控系統及方法
CN112906373A (zh) * 2021-02-20 2021-06-04 成都新希望金融信息有限公司 告警计算方法、装置、电子设备及存储介质
CN113806374A (zh) * 2021-09-30 2021-12-17 上海健交科技服务有限责任公司 一种面向大数据的数据流式缓存方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523140A (zh) * 2012-01-12 2012-06-27 江苏电力信息技术有限公司 一种用于电力客户服务系统运维的实时监测装置
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
US20150339210A1 (en) * 2014-05-21 2015-11-26 Dynatrace Llc Method And System For Resource Monitoring Of Large-Scale, Orchestrated, Multi Process Job Execution Environments
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523140A (zh) * 2012-01-12 2012-06-27 江苏电力信息技术有限公司 一种用于电力客户服务系统运维的实时监测装置
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
US20150339210A1 (en) * 2014-05-21 2015-11-26 Dynatrace Llc Method And System For Resource Monitoring Of Large-Scale, Orchestrated, Multi Process Job Execution Environments
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106559231A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 多运维系统间的网元信息共享方法、装置及系统
CN105844543A (zh) * 2016-04-07 2016-08-10 国网天津市电力公司 一种电力企业信息系统自动化运维管理系统
CN105828052A (zh) * 2016-06-02 2016-08-03 中国联合网络通信集团有限公司 基于Storm技术的视频监控方法和监控系统
CN106330554B (zh) * 2016-08-31 2024-02-27 山东瑞宁信息技术股份有限公司 监控及管理运维操作过程的运维审计系统及运维审计方法
CN106330554A (zh) * 2016-08-31 2017-01-11 山东瑞宁信息技术股份有限公司 监控及管理运维操作过程的运维审计系统及运维审计方法
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法
CN107403005A (zh) * 2017-07-24 2017-11-28 浙江极赢信息技术有限公司 一种网站监控方法及装置
CN107612721A (zh) * 2017-08-31 2018-01-19 网宿科技股份有限公司 运维数据的管理系统及方法、汇聚服务器及处理服务器
CN108092816A (zh) * 2017-12-22 2018-05-29 上海数聚软件系统股份有限公司 一种设备运行质量实时监控方法
CN109871360A (zh) * 2018-12-28 2019-06-11 宁波瓜瓜农业科技有限公司 生产系统的监控方法和监控系统
CN109902107A (zh) * 2019-01-28 2019-06-18 中国石油大学(华东) 一种基于Storm的工业信令数据流式计算框架
TWI723720B (zh) * 2020-01-02 2021-04-01 中華電信股份有限公司 預警規則最佳化配置之監控系統及方法
CN112906373A (zh) * 2021-02-20 2021-06-04 成都新希望金融信息有限公司 告警计算方法、装置、电子设备及存储介质
CN113806374A (zh) * 2021-09-30 2021-12-17 上海健交科技服务有限责任公司 一种面向大数据的数据流式缓存方法及系统

Also Published As

Publication number Publication date
CN105357061B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN105357061A (zh) 一种基于大数据流处理技术的运维监控分析系统
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
CN111464336B (zh) 一种基于电力通信机房高并发数据处理方法及系统
CN103200046B (zh) 监控网元设备性能的方法及系统
CN107528870B (zh) 一种数据采集方法及其设备
CN109981416B (zh) 一种区块链性能检测方法与系统
KR20150112357A (ko) 센서 데이터 처리 시스템 및 방법
CN103761309A (zh) 一种运营数据处理方法及系统
KR20140119561A (ko) 센서네트워크의 대규모 데이터 수집 장치 및 방법
CN108733531B (zh) 基于云计算的gpu性能监控系统
CN109547240B (zh) 基于边缘计算的智能设备以及接入与设备的解析方法
CN105338027A (zh) 进行视频数据云存储的方法、系统及装置
CN102710465A (zh) 一种监控集群存储接口节点负载的方法
CN102571499A (zh) 一种云端数据库服务器集群的监控方法
CN108599992A (zh) 一种数据处理系统及方法
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN108334556A (zh) 一种分析互联网金融海量日志的方法及系统
CN107357804A (zh) 互联网金融海量日志的分析系统及方法
CN105760459A (zh) 一种分布式数据处理系统及方法
CN104683155A (zh) 网络管理系统中的告警屏蔽机制
CN111221700B (zh) 一种集群节点状态监控方法、装置、设备及可读存储介质
CN111984611A (zh) 电网信息模型在线自动处理及共享方法及应用端
CN108415355A (zh) 一种大数据的高效识别系统
CN106034047A (zh) 数据处理方法及装置
CN104811959A (zh) 基于大数据的移动网络用户感知分析系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant