CN105959130A - 一种基于大数据运维的监控方法和装置 - Google Patents

一种基于大数据运维的监控方法和装置 Download PDF

Info

Publication number
CN105959130A
CN105959130A CN201610229073.7A CN201610229073A CN105959130A CN 105959130 A CN105959130 A CN 105959130A CN 201610229073 A CN201610229073 A CN 201610229073A CN 105959130 A CN105959130 A CN 105959130A
Authority
CN
China
Prior art keywords
data
monitoring
node
user
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610229073.7A
Other languages
English (en)
Inventor
陈抒
檀会娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610229073.7A priority Critical patent/CN105959130A/zh
Publication of CN105959130A publication Critical patent/CN105959130A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于大数据运维的监控方法和系统,由于将监控指标分为三层体系分别进行监控,获取所述监控指标的数据,并存入数据库,从所述数据库中获取所述监控指标的数据,对所述监控指标的数据进行分析和处理,生成报表并在前台显示,或者当接收到用户的获取所述监控指标的数据的指令时,根据所述指令生成对应链接,为用户提供所述监控指标的数据,使开源监控系统监控指标更全面,在一定程度上满足大数据运维以及其他复杂的监控业务。同时,本发明的基于大数据运维的监控方法和系统,支持用户自定义接口,能对用户编写的程序进行监控,在获取目标监控信息时,无需查找并调用对应链接来获取目标监控信息,给用户带来了很多方便。

Description

一种基于大数据运维的监控方法和装置
技术领域
本发明涉及大数据运维监控领域,特别是指一种基于大数据运维的监控方法和装置。
背景技术
在IT运维监控领域,一个有效的监控系统能帮助运维人员及时发现导致系统故障的隐患。监控系统需要包括指标数据的采集、展示,再到数据分析等,各个环节的设计要保障高效稳定,这在大数据运维系统中尤为重要。现有开源监控系统监控指标不全面,大多数只是监控了服务器操作系统层面上的一些底层指标,如基本的CPU,内存利用率等,这种监控指标只能满足一般的监控需求,并不能完全满足大数据运维以及其他复杂的监控业务。同时,现有技术中,大数据运维的监控系统不支持用户自定义接口,不能对用户编写的程序进行监控,在获取目标监控信息时,需要先查找并调用对应链接来获取目标监控信息,这给用户带来个很多不便。
发明内容
有鉴于此,本发明的目的在于提出一种能完全满足大数据运维以及其他复杂的监控业务的大数据运维的监控方法和装置。
基于上述目的,本发明提出一种基于大数据运维的监控方法,包括:
接收网络中每个节点设备定时上报的监控指标数据,并存入数据库,其中所述监控指标数据包括:最底层的通用指标数据,以及中间层的特定服务器指标数据和最外层的外部探测指标数据;
定时从所述数据库获取更新的所述监控指标数据;
分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。
进一步的,所述中间层的特定服务器指标包括大数据中分布式文件系统节点的状况和运行状态以及集群的运行状态;所述最外层的外部探测指标包括用户自定义的API接口,用户通过所述API接口获取系统中对应的API服务是否正常。
进一步的,还包括:
根据所述最底层的通用指标,以及中间层的特定服务器指标和最外层的外部探测指标的数据生成报表;
将单一通用指标数据生成报表并在前台单独显示,或者,将多个通用指标数据生成报表并在前台同一报表中同时显示。
进一步的,所述接收网络中每个节点设备定时上报的中间层的特定服务器指标的过程包括:
在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的探测脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。
进一步的,所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:
获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
基于上述目的,本发明还提出一种基于大数据运维的监控装置,包括:监控指标数据接收模块、数据库数据获取模块、数据库数据处理模块;
所述监控指标数据接收模块,用于接收网络中每个节点设备定时上报的监控指标数据,并存入数据库;
所述数据库数据获取模块,用于定时从所述数据库中获取更新的所述监控指标数据;
所述数据库数据处理模块,用于分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。
进一步的,所述中间层的特定服务器指标包括大数据中分布式文件系统节点的状况和运行状态以及集群的运行状态;所述最外层的外部探测指标包括用户自定义的API接口,用户通过所述API接口获取系统中对应的API服务是否正常。
进一步的,所述数据库数据处理模块还用于,根据所述最底层的通用指标,以及中间层的特定服务器指标和最外层的外部探测指标的数据生成报表;
将单一通用指标数据生成报表并在前台单独显示,或者,将多个通用指标数据生成报表并在前台同一报表中同时显示。
进一步的,所述接收网络中每个节点设备定时上报的中间层的特定服务器指标的过程包括:
在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的第二脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。
进一步的,所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:
获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
从上面所述可以看出,本发明提供的基于大数据运维的监控方法和装置,接收网络中每个节点设备定时上报的监控指标数据,并存入数据库,其中所述监控指标数据包括:最底层的通用指标数据,以及中间层的特定服务器指标数据和最外层的外部探测指标数据;定时从所述数据库获取更新的所述监控指标数据;分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。使开源监控系统监控指标更全面,在一定程度上满足大数据运维以及其他复杂的监控业务。同时,本发明的基于大数据运维的监控方法和系统,支持用户自定义接口,能对用户编写的程序进行监控,在获取目标监控信息时,无需查找并调用对应链接来获取目标监控信息,给用户带来了很多方便。
附图说明
图1为本发明基于大数据运维的监控方法的一个实施例示意图;
图2为本发明基于大数据运维的监控方法的一个优选实施例示意图;
图3为本发明基于大数据运维的监控装置的实施例示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,为本发明基于大数据运维的监控方法的一个实施例示意图。在本实施例中,所示基于大数据运维的监控方法包括以下步骤:
步骤101:将监控指标分为三层体系,接收网络中每个节点设备定时上报的监控指标数据,并存入数据库。
其中所述监控指标数据包括:最底层的通用指标数据,以及中间层的特定服务器指标数据和最外层的外部探测指标数据。
步骤102:定时从所述数据库获取更新的所述监控指标数据。运行数据获取程序,从数据库中获取监控指标的数据。
步骤103:对监控指标的数据进行分析和处理,并生成报表。
所述报表可以包括单一机器的各个监控指标的数据和节点的运行状态,或者,所述报表可以包括多个机器的一个或多个相同监控指标的数据,通过形成对比使可能出现故障或者已经出现故障的机器更容易被发现。在显示上述报表的过程中,可以在不同页面显示不同监控指标数据,或者在同一页面显示同一机器的不同监控指标数据。
步骤104:判断监控指标数据是否异常。根据对监控指标的数据进行分析和处理,判断监控指标数据是否异常,若存在异常,则进入步骤105。
步骤105:查找节点设备并报警。根据所述存在异常的监控指标数据查找存在异常的节点设备,并发出报警,通知用户。
在本实施例中,所述并获取三层体系中的监控指标的数据的频率为每分钟运行一次探测脚本,获取监控指标的数据,并将获取到的监控指标的数据通过调用REST API接口存入数据库,并从所述数据库中获取通过REST API接口存入数据库的监控指标的数据,对所述监控指标的数据进行分析和处理,生成报表并在前台显示,或者当接收到用户的获取所述监控指标的数据的指令时,根据所述指令生成对应链接,为用户提供所述监控指标的数据。
作为本发明的一个实施例,对所述最底层的通用指标的监控过程为:
预先在系统的每台作为节点的服务器或其他设备上部署第一探测脚本,所述第一探测脚本只用于获取通用指标数据,并通过调用REST API的方式将通用指标数据存入MongoDB数据库,并将所述通用指标数据生成报表,在前台显示。
作为本发明的一个实施例,将大数据集群中的机器进行分组,按组别对每组中的机器进行探测,并对每台作为节点的服务器或其他设备的监控指标的数据进行分组显示。
作为本发明的另一个实施例,所述将通用指标数据生成报表在前台显示的过程包括:将单一通用指标数据生成报表并单独显示,或者,将多个通用指标数据生成报表并在同一报表中同时显示。例如,在同一显示页面中,只显示每台作为节点的服务器或其他设备的内存占有量,若有分组显示的需求,则只显示同组机器的内存占有量,或者,在同一显示页面中,只显示单一机器的各个通用指标,或者,在同一显示页面中,显示每台作为节点的服务器或其他设备的相近指标,如显示CPU的运行状态和机器的温度。
作为本发明的又一实施例,对所述中间层的特定服务器指标的监控过程包括:在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的第二脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
作为本发明的有一个实施例,当所述最底层的通用指标和/或中间层的特定服务器指标和/或最外层的外部探测指标发生故障时,所述监控系统会发出报警。
如图2所示,为图2为本发明基于大数据运维的监控方法的一个优选实施例示意图。在本实施例中,包括如下步骤:
步骤201:运行预先设置在每个节点设备中的探测脚本,获取最底层的通用指标数据,所述最底层的通用指标包括CPU、内存、网卡流量、磁盘以及TCP连接数。
所述探测脚本只用于获取最底层的通用指标,并且所述探测脚本的运行频率通常为每分钟一次,具体可根据实际需要进行调整。
步骤202:通过调用REST API接口将获取到的最底层的通用指标的数据存入数据库。
步骤203:运行预先设置在每个节点设备中探测脚本获取每台作为节点的服务器或其他设备的IP和端口号,并判断是否运行正常。
所述探测脚本作为中间层特定服务器指标的探测脚本,只用于获取每台作为节点的服务器或其他设备的IP和端口号。具体过程为:探测脚本对监控中间层特定服务器指标的相关链接发出HTTP协议的请求,接收返回的参数值,并将所述返回的参数值通过链接存入数据库。
步骤204:访问监控界面,获取每个节点的运行状态,并存入数据库。
同时中间层特定服务器指标的探测脚本会每隔一段时间,访问监控界面,所述监控界面中显示有大数据集群中每个节点的运行状态,所述监控界面中的节点的运行状态由探测脚本获取每个节点的运行参数并通过链接存入数据库,再由其他脚本从数据库中获取所述每个节点的运行参数,进一步分析处理得到的。具体过程为:
客户端向所述节点的服务器发出请求信号,所述节点服务器接收所述请求信号后,对所述请求信号进行分析和处理,并向所述客户端发送应答信号,所述客户端接收到所述应答信号后,根据所述应答信号内容判断所述节点是否运行正常;
对所述集群的监控过程包括:接收客户端发送的信息获取请求,集群服务器从所述集群的信息显示界面捕获所述集群的参数信息,并将所述参数信息包装成参数链接反馈给客户端,客户端对所述参数链接进行分析并判断所述集群是否运行正常。
步骤205:获取用户自定义程序的API接口的反应时间,通过反应时间判断用户自定义程序的API接口是否正常。
本实施例的大数据运维的监控方法支持用户自定义链接,用户通过所述连接能够获取监控目标的数据,同时,本实施例的大数据运维的监控方法能够对用户自定义的监控指标进行监控。
步骤206:根据用户指令通过HTTP协议为用户提供监控目标的链接。
当用户需要获取自定义监控目标的数据,并对服务器发送获取指令,当接收到用户的指令时,向服务器发送HTTP请求,服务器对该请求进行解析,返回用户需要获取自定义监控目标的数据的链接,用户点击该链接时,生成显示有监控目标的数据页面,用户通过该页面可直观的获取监控目标的运行状态。
步骤207:从数据库中获取监控目标数据。
步骤208:对监控目标数据进行分析处理并生成报表。
步骤209:对根据监控目标数据生成的报表进行显示。
在显示页面中,可以将单一通用指标数据生成报表并单独显示,或者,将多个通用指标数据生成报表并在同一报表中同时显示。例如,在同一显示页面中,只显示每台作为节点的服务器或其他设备的内存占有量,若有分组显示的需求,则只显示同组机器的内存占有量,或者,在同一显示页面中,只显示单一机器的各个通用指标,或者,在同一显示页面中,显示每台作为节点的服务器或其他设备的相近指标,如显示CPU的运行状态和机器的温度。
步骤210:将报表中监控目标数据与标注阈值对比。
步骤211:判断报表中监控目标数据是否超出阈值。若超出阈值,则报警;若没有超出阈值,则返回步骤207,并重复步骤207之后的操作。
如图3所示,为本发明基于大数据运维的监控装置的实施例示意图。在本实施例的监控装置中,包括:监控指标数据接收模块301、数据库数据获取模块302和数据库数据处理模块303。
所述监控指标数据接收模块301用于网络中接收每个节点设备定时上报的监控指标数据,并存入数据库,其中所述监控指标数据包括:CPU、内存、网卡流量、磁盘以及TCP连接数在内的最底层的通用指标,大数据中分布式文件系统节点和集群的运行状态在内的中间层特定服务器指标,以及用户自定义的API接口。
对所述最底层的通用指标的监控过程包括:在系统的每个节点上部署探测脚本,获取所述监控指标数据,通过调用REST API的方式将通用指标数据存入MongoDB数据库,并将所述通用指标数据生成报表,在前台显示。所述将通用指标数据生成报表在前台显示的过程包括:将单一通用指标数据生成报表并单独显示,或者,将多个通用指标数据生成报表并在同一报表中同时显示。
对所述中间层的特定服务器指标的监控过程包括:在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的探测脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运行状态的过程包括:获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
具体过程包括:
对所述节点的监控过程为:
客户端向所述节点的服务器发出请求信号,所述节点服务器接收所述请求信号后,对所述请求信号进行分析和处理,并向所述客户端发送应答信号,所述客户端接收到所述应答信号后,根据所述应答信号内容判断所述节点是否运行正常;
对所述集群的监控过程为:接收客户端发送的信息获取请求,集群服务器从所述集群的信息显示界面捕获所述集群的参数信息,并将所述参数信息包装成参数链接反馈给客户端,客户端对所述参数链接进行分析并判断所述集群是否运行正常。
对用户自定义的API接口监控的过程为:向用户自定义的API接口发送信号,并接收所述用户自定义的API接口返回的信号,多次重复上述过程,判断用户自定义的API接口的反应时常是否正常。所述用户自定义的API接口可以跳转到监控页面的链接,所述链接为用户根据监控需要创建的链接。
所述数据库数据获取模块302用于定时从所述数据库中获取更新的所述监控指标数据。系统默认每10秒从所述数据库中获取更新的所述监控指标数据,用户也可以根据实际需要自己设定从所述数据库中获取更新的所述监控指标数据的时间间隔。
所述数据库数据处理模块303,用于分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。
具体为:对所述从所述数据库中获取的更新监控指标数据进行分析和处理,并生成报表;所述报表中可以包括单一监控指标数据,也可以包括单一节点的各个监控指标数据。所述报表可以为陈列式报表,将监控指标和响应的数据陈列出来,或者,所述报表可以为图表式,用于将单一监控指标数据显示,方便用户及时发现监控指标运行异常。
作为本发明基于大数据运维的监控装置的一个实施例,所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:
获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户,对所述节点的监控过程包括:客户端向所述节点的服务器发出请求信号,所述节点服务器接收所述请求信号后,对所述请求信号进行分析和处理,并向所述客户端发送应答信号,所述客户端接收到所述应答信号后,根据所述应答信号内容判断所述节点是否运行正常。
作为本发明基于大数据运维的监控装置的另一个实施例,所述外部探测指标监控模块支持用户自定义API接口,所述用户定义的API接口可以跳转到监控页面的链接,所述链接为用户根据监控需要创建的链接,或者,所述用户自定义的API接口为用户自定义程序的接口,通过该接口可以获取所述用户自定义程序的运行数据。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据运维的监控方法,其特征在于,包括:
接收网络中每个节点设备定时上报的监控指标数据,并存入数据库,其中所述监控指标数据包括:最底层的通用指标数据,以及中间层的特定服务器指标数据和最外层的外部探测指标数据;
定时从所述数据库获取更新的所述监控指标数据;
分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。
2.根据权利要求1所述的基于大数据运维的监控方法,其特征在于,
所述中间层的特定服务器指标包括大数据中分布式文件系统节点的状况和运行状态以及集群的运行状态;所述最外层的外部探测指标包括用户自定义的API接口,用户通过所述API接口获取系统中对应的API服务是否正常。
3.根据权利要求1所述的基于大数据运维的监控方法,其特征在于,还包括:
根据所述最底层的通用指标,以及中间层的特定服务器指标和最外层的外部探测指标的数据生成报表;
将单一通用指标数据生成报表并在前台单独显示,或者,将多个通用指标数据生成报表并在前台同一报表中同时显示。
4.根据权利要求1所述的基于大数据运维的监控方法,其特征在于,接收网络中每个节点设备定时上报的中间层的特定服务器指标的过程包括:
在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的探测脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。
5.根据权利要求4所述的基于大数据运维的监控方法,其特征在于,所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:
获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
6.一种基于大数据运维的监控装置,其特征在于,包括:监控指标数据接收模块、数据库数据获取模块、数据库数据处理模块;
所述监控指标数据接收模块,用于接收网络中每个节点设备定时上报的监控指标数据,并存入数据库;
所述数据库数据获取模块,用于定时从所述数据库中获取更新的所述监控指标数据;
所述数据库数据处理模块,用于分析所述监控指标数据判断是否存在异常,若有异常,则查找当前异常监控指标数据对应的节点设备,发送包含有该节点设备信息的报警消息。
7.根据权利要求6所述的基于大数据运维的监控装置,其特征在于,
所述中间层的特定服务器指标包括大数据中分布式文件系统节点的状况和运行状态以及集群的运行状态;所述最外层的外部探测指标包括用户自定义的API接口,用户通过所述API接口获取系统中对应的API服务是否正常。
8.根据权利要求6所述的基于大数据运维的监控装置,其特征在于,所述数据库数据处理模块还用于,根据所述最底层的通用指标,以及中间层的特定服务器指标和最外层的外部探测指标的数据生成报表;
将单一通用指标数据生成报表并在前台单独显示,或者,将多个通用指标数据生成报表并在前台同一报表中同时显示。
9.根据权利要求6所述的基于大数据运维的监控装置,其特征在于,所述所述监控指标数据接收模块,具体用于:
在一段时间内,多次运行预先部署在每台作为节点的服务器或其他设备上的第二脚本,获取每台作为节点的服务器或其他设备的IP和端口号,根据反馈信息判断对应的IP和端口号是否运行正常,以及,访问监控信息界面,获取每个节点的运行状态。
10.根据权利要求109所述的基于大数据运维的监控装置,其特征在于,所述获取每台作为节点的服务器或其他设备的IP和端口号和获取每个节点的运作状态的过程包括:
获取用户向服务器发送监控请求的操作,并根据所述请求为用户分配一个链接,当接收到用户通过所述链接发送的请求时,对所述请求进行解析和处理,将处理结果包装成回应,并将所述回应反馈给用户。
CN201610229073.7A 2016-04-13 2016-04-13 一种基于大数据运维的监控方法和装置 Pending CN105959130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610229073.7A CN105959130A (zh) 2016-04-13 2016-04-13 一种基于大数据运维的监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610229073.7A CN105959130A (zh) 2016-04-13 2016-04-13 一种基于大数据运维的监控方法和装置

Publications (1)

Publication Number Publication Date
CN105959130A true CN105959130A (zh) 2016-09-21

Family

ID=56918035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610229073.7A Pending CN105959130A (zh) 2016-04-13 2016-04-13 一种基于大数据运维的监控方法和装置

Country Status (1)

Country Link
CN (1) CN105959130A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254540A (zh) * 2016-09-26 2016-12-21 国云科技股份有限公司 一种适用于分布式系统的节点服务监控系统及实现方法
CN106611222A (zh) * 2016-12-27 2017-05-03 北京奇艺世纪科技有限公司 一种通用任务管理方法及系统
CN106709057A (zh) * 2017-01-09 2017-05-24 郑州云海信息技术有限公司 一种分布式集群可视化数据库
CN106911510A (zh) * 2017-03-02 2017-06-30 携程旅游网络技术(上海)有限公司 网络准入系统的可用性监测系统及方法
CN107391336A (zh) * 2017-06-21 2017-11-24 华迪计算机集团有限公司 一种用于对服务器的运行状态进行监控的系统及方法
CN107612721A (zh) * 2017-08-31 2018-01-19 网宿科技股份有限公司 运维数据的管理系统及方法、汇聚服务器及处理服务器
CN108415994A (zh) * 2018-02-13 2018-08-17 北京天元创新科技有限公司 一种网络管理系统报表生成方法、装置和设备
CN109583223A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 一种对大数据安全部署的检测方法及装置
CN109766204A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 智能故障处理方法、装置、设备及可读存储介质
CN109783551A (zh) * 2019-01-08 2019-05-21 上海上湖信息技术有限公司 数据展示方法及系统、可读存储介质
CN109901971A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 动态可编程的主机监控系统
CN111258813A (zh) * 2020-01-13 2020-06-09 北京点众科技股份有限公司 一种报表数据自动恢复的方法和设备
CN111372039A (zh) * 2018-12-26 2020-07-03 北京嘀嘀无限科技发展有限公司 监控预警方法、计算机设备和计算机可读存储介质
CN112261119A (zh) * 2020-10-19 2021-01-22 四川长虹电器股份有限公司 一种自动化报表系统
CN112363858A (zh) * 2020-10-28 2021-02-12 北京新数科技有限公司 数据库应用系统的问题定位方法、装置和电子设备
CN113010599A (zh) * 2019-12-19 2021-06-22 中国移动通信集团四川有限公司 Mysql数据库组复制状态监控方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313789A1 (en) * 2010-01-22 2011-12-22 Deka Products Limited Partnership Electronic patient monitoring system
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN104022903A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 一站式自动化运维系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313789A1 (en) * 2010-01-22 2011-12-22 Deka Products Limited Partnership Electronic patient monitoring system
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN104022903A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 一站式自动化运维系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254540A (zh) * 2016-09-26 2016-12-21 国云科技股份有限公司 一种适用于分布式系统的节点服务监控系统及实现方法
CN106254540B (zh) * 2016-09-26 2019-11-15 国云科技股份有限公司 一种适用于分布式系统的节点服务监控系统及实现方法
CN106611222A (zh) * 2016-12-27 2017-05-03 北京奇艺世纪科技有限公司 一种通用任务管理方法及系统
CN106709057A (zh) * 2017-01-09 2017-05-24 郑州云海信息技术有限公司 一种分布式集群可视化数据库
CN106911510A (zh) * 2017-03-02 2017-06-30 携程旅游网络技术(上海)有限公司 网络准入系统的可用性监测系统及方法
CN107391336A (zh) * 2017-06-21 2017-11-24 华迪计算机集团有限公司 一种用于对服务器的运行状态进行监控的系统及方法
CN107612721A (zh) * 2017-08-31 2018-01-19 网宿科技股份有限公司 运维数据的管理系统及方法、汇聚服务器及处理服务器
CN107612721B (zh) * 2017-08-31 2021-07-06 网宿科技股份有限公司 运维数据的管理系统及方法、汇聚服务器及处理服务器
CN109583223A (zh) * 2017-09-29 2019-04-05 北京国双科技有限公司 一种对大数据安全部署的检测方法及装置
CN108415994A (zh) * 2018-02-13 2018-08-17 北京天元创新科技有限公司 一种网络管理系统报表生成方法、装置和设备
CN108415994B (zh) * 2018-02-13 2021-03-02 北京天元创新科技有限公司 一种网络管理系统报表生成方法、装置和设备
CN109766204A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 智能故障处理方法、装置、设备及可读存储介质
CN111372039A (zh) * 2018-12-26 2020-07-03 北京嘀嘀无限科技发展有限公司 监控预警方法、计算机设备和计算机可读存储介质
CN109783551A (zh) * 2019-01-08 2019-05-21 上海上湖信息技术有限公司 数据展示方法及系统、可读存储介质
CN109901971A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 动态可编程的主机监控系统
CN113010599A (zh) * 2019-12-19 2021-06-22 中国移动通信集团四川有限公司 Mysql数据库组复制状态监控方法、装置和系统
CN113010599B (zh) * 2019-12-19 2023-07-21 中国移动通信集团四川有限公司 Mysql数据库组复制状态监控方法、装置和系统
CN111258813A (zh) * 2020-01-13 2020-06-09 北京点众科技股份有限公司 一种报表数据自动恢复的方法和设备
CN112261119A (zh) * 2020-10-19 2021-01-22 四川长虹电器股份有限公司 一种自动化报表系统
CN112363858A (zh) * 2020-10-28 2021-02-12 北京新数科技有限公司 数据库应用系统的问题定位方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN105959130A (zh) 一种基于大数据运维的监控方法和装置
CN104348650B (zh) 网站的监控方法、业务装置及系统
CN112965874B (zh) 一种可配置的监控告警方法及系统
CN106649055A (zh) 一种基于国产cpu和操作系统的软硬件故障告警系统及方法
US20170277727A1 (en) Identification of distinguishing compound features extracted from real time data streams
CN102611565B (zh) 一种基于正则表达式的监控系统告警关联分析方法
CN107645562A (zh) 数据传输处理方法、装置、设备及系统
CN114189430A (zh) 立体化日志全链路监控系统、方法、介质及设备
CN103634149B (zh) 一种用于分布式系统的监测方法
CN109818787A (zh) 业务异常检测方法、装置及存储介质
CN105912443A (zh) 一种获取用户自定义监控指标数据的方法及系统
CN110765189A (zh) 互联网产品的异常管理方法和系统
CN105917625A (zh) 使用附加数据的检测到的网络异常的分类
CN112738040A (zh) 一种基于dns日志的网络安全威胁检测方法、系统及装置
CN108234161A (zh) 用于线上线下多层网络架构的通路检测方法及系统
CN103905219A (zh) 一种业务平台中通信信息的监控存储系统及方法
CN108519948A (zh) 日志驱动的接口自动化测试方法及系统
CN111782477A (zh) 异常日志监控方法、装置、计算机设备及存储介质
CN106023479A (zh) 一种状态显示系统
CN117194142A (zh) 一种基于链路追踪的集成应用性能诊断系统及方法
CN102594897B (zh) 智能分析系统及方法
US20190307386A1 (en) Psychophysical performance measurement of distributed applications
CN114500343B (zh) 业务链条运行监控方法及其装置、设备、介质、产品
CN107426051B (zh) 分布式集群系统中节点的工作状态的监测方法、装置及系统
CN112100239A (zh) 车辆检测设备画像生成方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160921

WD01 Invention patent application deemed withdrawn after publication