CN111510351A - 基于普罗米修斯监控系统的异常检测方法和装置 - Google Patents

基于普罗米修斯监控系统的异常检测方法和装置 Download PDF

Info

Publication number
CN111510351A
CN111510351A CN202010281553.4A CN202010281553A CN111510351A CN 111510351 A CN111510351 A CN 111510351A CN 202010281553 A CN202010281553 A CN 202010281553A CN 111510351 A CN111510351 A CN 111510351A
Authority
CN
China
Prior art keywords
server
monitoring
monitoring data
promishs
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010281553.4A
Other languages
English (en)
Other versions
CN111510351B (zh
Inventor
郑亮
张旭明
王豪迈
胥昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingchen Tianhe Technology Co ltd
Original Assignee
Xsky Beijing Data Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xsky Beijing Data Technology Corp ltd filed Critical Xsky Beijing Data Technology Corp ltd
Priority to CN202010281553.4A priority Critical patent/CN111510351B/zh
Publication of CN111510351A publication Critical patent/CN111510351A/zh
Application granted granted Critical
Publication of CN111510351B publication Critical patent/CN111510351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于普罗米修斯监控系统的异常检测方法和装置。其中,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,该方法包括:检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断;在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常;检测组件向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。本发明解决了现有技术中Prometheus采集数据异常时难以感知的技术问题。

Description

基于普罗米修斯监控系统的异常检测方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种基于普罗米修斯监控系统的异常检测方法和装置。
背景技术
普罗米修斯(Prometheus)监控系统是由SoundCloud公司开发的开源告警系统,其基本原理是通过HTTP周期性地抓取被监控组件的状态,任意组件只要提供对应的HTTP接口并且符合Prometheus定义的数据格式,就可以接入Prometheus监控。
但目前的普罗米修斯监控系统无法监测少量的、十分重要的采集项的上报异常,也无法监测“特征采集项”的上报异常,所谓特征采集项是指能够表征某一监控采集服务数据上报情况的单个采集项。
针对现有技术中Prometheus采集数据异常时难以感知的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于普罗米修斯监控系统的异常检测方法和装置,以至少解决现有技术中Prometheus采集数据异常时难以感知的技术问题。
根据本发明实施例的一个方面,提供了一种基于普罗米修斯监控系统的异常检测方法,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,该方法包括:检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断;在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常;检测组件向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。
进一步地,检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断,包括:如果普罗米修斯服务器在预设时间段内未接收到监控对象的监控数据,则确定普罗米修斯服务器接收监控对象的监控数据产生中断。
进一步地,普罗米修斯监控系统还包括用于从监控对象处采集监控数据的代理服务器,普罗米修斯服务器获取监控数据异常,包括如下一项或多项:代理服务器与普罗米修斯服务器之间的通信链路故障;代理服务器故障;代理服务器的数据格式与普罗米修斯服务器所需的数据格式不匹配。
进一步地,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常,包括:获取预设的阻塞阈值;确定普罗米修斯服务器获取监控数据的异常比例,其中,异常比例用于表示普罗米修斯服务器接收中断的监控数据占所有监控数据的比例;如果异常比例小于或等于阻塞阈值,则确定普罗米修斯服务器获取监控数据异常。
进一步地,如果异常比例大于阻塞阈值,则确定普罗米修斯服务器故障或核心网络故障。
进一步地,普罗米修斯监控系统还包括告警组件,在检测组件向普罗米修斯服务器发送默认标识符之后,上述方法还包括:普罗米修斯服务器向告警组件发送提示信息,其中,告警组件根据提示信息向告警接收端发送告警信息。
进一步地,上述方法还包括:检测组件接收查询请求;检测组件根据查询请求向查询端返回普罗米修斯服务器获取监控数据异常的信息。
根据本发明实施例的一个方面,提供了一种基于普罗米修斯监控系统的异常检测装置,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,该装置包括:检测模块,用于检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断;确定模块,用于在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常;发送模块,用于检测组件向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。
根据本发明实施例的一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的基于普罗米修斯监控系统的异常检测方法。
根据本发明实施例的一个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的基于普罗米修斯监控系统的异常检测方法。
在本发明实施例中,检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常,并向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。上述方案通过在普罗米修斯监控系统中增加用于检测监控数据的上报异常的检测组件,从而当普罗米修斯服务器获取监控数据异常时可以向普罗米修斯服务器发送默认标识符,从而使得普罗米修斯服务器对其获取监控数据异常有所感知,解决了现有技术中Prometheus采集数据异常时难以感知的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是一种普罗米修斯监控系统的示意图;
图2是根据本发明实施例的一种基于普罗米修斯监控系统的异常检测方法的流程图;
图3是根据本发明实施例的一种可选的基于普罗米修斯监控系统的异常检测方法的示意图;以及
图4是根据本发明实施例的一种基于普罗米修斯监控系统的异常检测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
首先对普罗米修斯监控系统进行说明,图1是一种普罗米修斯监控系统的示意图,结合图1所示,Prometheus Server(普罗米修斯服务器)是Prometheus监控系统的核心,Prometheus Server根据配置完成数据采集、数据存储、推送告警,以及提供PromQL查询语言的支持。
Prometheus Server中包含retrieval组件、TSDB(Time Series Database,时序数据库)以及HTTP server,其中,retrieval组件用于发现监控对象并将监控对象加入监控列表中,TSDB连接有HDD/SSD(Hard Disk Drive,硬盘/Solid State Disk,固态驱动器),用于存储监控数据,HTTP server用于与系统中的其他组件通信。
Prometheus Server可以通过Pull的方式获取监控数据,具体过程为,retrieval组件通过exporters(代理服务器)或Pushgataeway(推送网关)定时在目标上抓去监控数据(例如Metrics数据),每个抓取目标都需要暴露一个HTTP服务接口用于Prometheus定时抓取。Pull方式可以降低耦合,通过Pull方式,被采集端无须感知监控系统的存在,完全独立于监控系统之外,这样数据的采集完全由监控系统控制,增强了整个系统的稳定性。
Prometheus Server通过如下两种方式获取监控对象。第一种方式是通过配置文件,文本文件等进行静态配置,另一种方式是支持Kubernetes,file_sd,Consul等方式进行动态发现。
在进行数据存储时,通过一定的规则清理和整理数据,并把得到的结果存储到新的时间序列中,主要有两种存储方式,本地存储和远端存储,本地存储通过Prometheus自带的时序数据库保存到本地磁盘,远端存储通过中间层的适配器的转化,目前Prometheus支持OpenTSDB,InfluxDB,ElasticSearch等后端存储。
另外,Prometheus还通过PromQL和其他API可视化地展示收集的数据。
AlertManager(告警组件)是独立于Prometheus Server的一个组件,在触发了预先设置在Prometheus中的告警规则后,Prometheus便会推送告警信息到AlertManager,AlertManager即可通过pagerduty(页面输出)、email等方式进行告警。
基于上述普罗米修斯监控系统,为了解决现有技术中Prometheus采集数据异常时难以感知的技术问题现有技术中Prometheus采集数据异常时难以感知的技术问题,本申请实施例在系统中增加了检测组件,并提供了一种基于普罗米修斯监控系统的异常检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种基于普罗米修斯监控系统的异常检测方法的流程图,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,如图2所示,该方法包括如下步骤:
步骤S202,检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断。
具体的,上述检测组件可以与普罗米修斯服务器通信,并能够获取用于对检测组件进行配置的配置文件。
上述方案通过在普罗米修斯监控系统中增加检测组件,来实现对接收监控数据是否中断进行检测。
在一种可选的实施例中,检测组件可以为nodata组件,其与普罗米修斯服务器通信,用于检测普罗米修斯接收监控数据的状态,从而确定普罗米修斯接收监控数据是否中断。
需要说明的是,普罗米修斯监控系统通常同时监控多个监控对象,因此检测组件需要检测普罗米修斯服务器对所有监控对象的监控数据的接收状态。
步骤S204,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常。
步骤S206,检测组件向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。
具体的,上述默认标识符可以是检测组件从配置文件中获取的默认值,当检测组件确定普罗米修斯服务器获取监控数据异常时,即可向普罗米修斯服务器发送该默认标识符,普罗米修斯服务器在接收到该默认标识符时,即可确定自身获取监控数据异常。
由上可知,本申请上述实施例检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常,并向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。上述方案通过在普罗米修斯监控系统中增加用于检测监控数据的上报异常的检测组件,从而当普罗米修斯服务器获取监控数据异常时可以向普罗米修斯服务器发送默认标识符,从而使得普罗米修斯服务器对其获取监控数据异常有所感知,解决了现有技术中Prometheus采集数据异常时难以感知的技术问题。
作为一种可选的实施例,检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断,包括:如果普罗米修斯服务器在预设时间段内未接收到监控对象的监控数据,则确定普罗米修斯服务器接收监控对象的监控数据产生中断。
普罗米修斯服务器在获取监控数据时是按照一定周期获取的,因此如果预设时间内普罗米修斯服务器未获取到某项监控数据,则说明普罗米修斯服务器获取监控数据异常。
上述预设时间可以是预先设置在配置文件中的时间参数,检测组件从配置文件中可以获得该预设时间。每个监控项对应的预设时间可以相同,也可以不同。对于采集监控数据的周期较长的监控项,其预设时间可以较长,对于采集监控数据的周期较短的监控项,其预设时间可以较长短。
作为一种可选的实施例,普罗米修斯监控系统还包括用于从监控对象处采集监控数据的代理服务器,普罗米修斯服务器获取监控数据异常,包括如下一项或多项:代理服务器与普罗米修斯服务器之间的通信链路故障;代理服务器故障;代理服务器的数据格式与普罗米修斯服务器所需的数据格式不匹配。
上述几项是引起普罗米修斯服务器获取监控数据异常的原因,当确定普罗米修斯服务器获取监控数据异常时,可以是上述任意一项原因引起的,也可能是多种原因组合引起的。
作为一种可选的实施例,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常,包括:获取预设的阻塞阈值;确定普罗米修斯服务器获取监控数据的异常比例,其中,异常比例用于表示普罗米修斯服务器接收中断的监控数据占所有监控数据的比例;如果异常比例小于或等于阻塞阈值,则确定普罗米修斯服务器获取监控数据异常。
在一些情况下,例如核心网络故障,或由于普罗米修斯服务器自身服务故障,都会导致大量的采集项上报异常,而这些异常与代理服务器并不相关,如果在这些情况下检测组件仍向普罗米修斯服务器发送默认标识符,则会引起误报,因此上述方案在配置文件中设置阻塞阈值,检测组件服务实时计算当前处于接收超时状态的监控数据项的百分比(即上述异常比例),然后将异常百分比与预先配置的阻塞阈值进行比较。如果异常百分比大于阻塞阈值,检测组件服务就会停止发送默认标识符;反之,如果异常百分比不大于阻塞阈值,检测组件服务则正常发送默认标识符。
用户可以手动更改配置文件来修改上述的阻塞阈值。检测组件可以采样较多的数据样本,根据数据样本的分布以及趋势可以通过一定的算法对其进行拟合(例如:线性拟合、二次拟合、多项式拟合、高斯拟合以及对数拟合等拟合方式),从而对其数据走势进行预测,以得到这个阻塞阈值,这种方式适合于数据上报较稳定的场合。此处可以选择高斯拟合的方式,高斯拟合的优势是计算积分十分简单快捷,预测趋势也比较准确,
需要注意的是,处于阻塞期间,所有的数据上报异常将会被忽略,有可能错过一些真实的异常而导致漏报,因此阻塞阈值是否开启可以由用户根据实际情况自行选择,用户可以通过修改配置文件来选择开启阻塞阈值或关闭阻塞阈值。
作为一种可选的实施例,如果异常比例大于阻塞阈值,则确定普罗米修斯服务器故障或核心网络故障。
在用户开启阻塞阈值的情况下,如果异常比例大于阻塞阈值,则确定普罗米修斯服务器故障或核心网络故障,且不触发检测组件上报默认标识符。
作为一种可选的实施例,普罗米修斯监控系统还包括告警组件,在检测组件向普罗米修斯服务器发送默认标识符之后,上述方法还包括:普罗米修斯服务器向告警组件发送提示信息,其中,告警组件根据提示信息向告警接收端发送告警信息。
在上述方案中,普罗米修斯服务器在接收到检测组件上报的默认标识符后,向告警装置发送提示信息,由告警装置向接收端发送告警信息。该接收端可以是用于进行监控的终端设备,告警信息可以以网页、邮件等多种方式发送。
作为一种可选的实施例,上述方法还包括:检测组件接收查询请求;检测组件根据查询请求向查询端返回普罗米修斯服务器获取监控数据异常的信息。
在上述方案中,检测组件向外部提供用于查询的接口,当向检测组件发送查询请求时,检测组件会向查询端返回对应的数据,例如上报默认标识符的次数、时间等信息。
图3是根据本发明实施例的一种基于普罗米修斯监控系统的异常检测装置的示意图,结合图3所示,nodata(检测组件)检测Prometheus sever接收监控数据是否中断,当检测到Prometheus sever接收监控数据中断时,向Prometheus sever发送mock-data(默认标识符),Prometheus sever向AlertManager(告警组件)发送提示信息,告警组件向Receiver(告警接收端)发送告警信息。其中,nodata从db/config(数据库/配置文件)中获取nodata配置信息nodata-cfg,Prometheus sever从db/config中获取Prometheus sever的配置信息cfg,AlertManager从db/config中获取AlertManager的配置信息,该配置信息中至少包括AlertManager的告警条件,该告警条件至少包括确定Prometheus sever接收到mock-data。另外,用户可以通过graph(人机交互界面)向nodata发送query(查询请求),以查询nodata检测到的数据。
实施例2
本申请实施例提供了一种基于普罗米修斯监控系统的异常检测装置的实施例,图4是根据本发明实施例的一种基于普罗米修斯监控系统的异常检测装置的示意图,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,结合图4所示,该装置包括:
检测模块40,用于检测组件检测普罗米修斯服务器接收监控对象的监控数据是否中断。
确定模块42,用于在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定普罗米修斯服务器获取监控数据异常。
发送模块44,用于检测组件向普罗米修斯服务器发送默认标识符,其中,默认标识符用于表示普罗米修斯服务器获取监控数据异常。
作为一种可选的实施例,检测模块包括:第一确定子模块,用于如果普罗米修斯服务器在预设时间段内未接收到监控对象的监控数据,则确定普罗米修斯服务器接收监控对象的监控数据产生中断。
作为一种可选的实施例,普罗米修斯监控系统还包括用于从监控对象处采集监控数据的代理服务器,普罗米修斯服务器获取监控数据异常,包括如下一项或多项:代理服务器与普罗米修斯服务器之间的通信链路故障;代理服务器故障;代理服务器的数据格式与普罗米修斯服务器所需的数据格式不匹配。
作为一种可选的实施例,在确定普罗米修斯服务器接收任意一个监控对象的监控数据产生中断时,确定模块包括:获取子模块,用于获取预设的阻塞阈值;第二确定子模块,用于确定普罗米修斯服务器获取监控数据的异常比例,其中,异常比例用于表示普罗米修斯服务器接收中断的监控数据占所有监控数据的比例;第三确定子模块,用于如果异常比例小于或等于阻塞阈值,则确定普罗米修斯服务器获取监控数据异常。
作为一种可选的实施例,如果异常比例大于阻塞阈值,则确定普罗米修斯服务器故障或核心网络故障。
作为一种可选的实施例,上述装置还包括:第二发送模块,用于普罗米修斯监控系统还包括告警组件,在检测组件向普罗米修斯服务器发送默认标识符之后,普罗米修斯服务器向告警组件发送提示信息,其中,告警组件根据提示信息向告警接收端发送告警信息。
作为一种可选的实施例,上述方法还包括:接收模块,用于检测组件接收查询请求;返回模块,用于检测组件根据查询请求向查询端返回普罗米修斯服务器获取监控数据异常的信息。
实施例3
本申请实施例提供了一种存储介质,存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行实施例1所述的基于普罗米修斯监控系统的异常检测方法。
实施例4
本申请实施例提供了一种处理器,处理器用于运行程序,其中,所述程序运行时执行实施例1所述的基于普罗米修斯监控系统的异常检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于普罗米修斯监控系统的异常检测方法,其特征在于,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,所述方法包括:
所述检测组件检测所述普罗米修斯服务器接收监控对象的监控数据是否中断;
在确定所述普罗米修斯服务器接收任意一个所述监控对象的监控数据产生中断时,确定所述普罗米修斯服务器获取监控数据异常;
所述检测组件向所述普罗米修斯服务器发送默认标识符,其中,所述默认标识符用于表示所述普罗米修斯服务器获取监控数据异常。
2.根据权利要求1所述的方法,其特征在于,所述检测组件检测所述普罗米修斯服务器接收监控对象的监控数据是否中断,包括:
如果所述普罗米修斯服务器在预设时间段内未接收到所述监控对象的监控数据,则确定所述普罗米修斯服务器接收监控对象的监控数据产生中断。
3.根据权利要求1所述的方法,其特征在于,所述普罗米修斯监控系统还包括用于从监控对象处采集监控数据的代理服务器,所述普罗米修斯服务器获取监控数据异常,包括如下一项或多项:
所述代理服务器与所述普罗米修斯服务器之间的通信链路故障;
所述代理服务器故障;
所述代理服务器的数据格式与所述普罗米修斯服务器所需的数据格式不匹配。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,在确定所述普罗米修斯服务器接收任意一个所述监控对象的监控数据产生中断时,确定所述普罗米修斯服务器获取监控数据异常,包括:
获取预设的阻塞阈值;
确定所述普罗米修斯服务器获取监控数据的异常比例,其中,所述异常比例用于表示所述普罗米修斯服务器接收中断的监控数据占所有监控数据的比例;
如果所述异常比例小于或等于所述阻塞阈值,则确定所述普罗米修斯服务器获取监控数据异常。
5.根据权利要求4所述的方法,其特征在于,如果所述异常比例大于所述阻塞阈值,则确定所述普罗米修斯服务器故障或核心网络故障。
6.根据权利要求1所述的方法,其特征在于,所述普罗米修斯监控系统还包括告警组件,在所述检测组件向所述普罗米修斯服务器发送默认标识符之后,所述方法还包括:
所述普罗米修斯服务器向所述告警组件发送提示信息,其中,所述告警组件根据所述提示信息向告警接收端发送告警信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述检测组件接收查询请求;
所述检测组件根据所述查询请求向查询端返回所述普罗米修斯服务器获取监控数据异常的信息。
8.一种基于普罗米修斯监控系统的异常检测装置,其特征在于,普罗米修斯监控系统包括普罗米修斯服务器和检测组件,所述装置包括:
检测模块,用于所述检测组件检测所述普罗米修斯服务器接收监控对象的监控数据是否中断;
确定模块,用于在确定所述普罗米修斯服务器接收任意一个所述监控对象的监控数据产生中断时,确定所述普罗米修斯服务器获取监控数据异常;
发送模块,用于所述检测组件向所述普罗米修斯服务器发送默认标识符,其中,所述默认标识符用于表示所述普罗米修斯服务器获取监控数据异常。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的基于普罗米修斯监控系统的异常检测方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的基于普罗米修斯监控系统的异常检测方法。
CN202010281553.4A 2020-04-10 2020-04-10 基于普罗米修斯监控系统的异常检测方法和装置 Active CN111510351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281553.4A CN111510351B (zh) 2020-04-10 2020-04-10 基于普罗米修斯监控系统的异常检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281553.4A CN111510351B (zh) 2020-04-10 2020-04-10 基于普罗米修斯监控系统的异常检测方法和装置

Publications (2)

Publication Number Publication Date
CN111510351A true CN111510351A (zh) 2020-08-07
CN111510351B CN111510351B (zh) 2021-09-14

Family

ID=71870903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281553.4A Active CN111510351B (zh) 2020-04-10 2020-04-10 基于普罗米修斯监控系统的异常检测方法和装置

Country Status (1)

Country Link
CN (1) CN111510351B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949483A (zh) * 2020-08-13 2020-11-17 星辰天合(北京)数据科技有限公司 监控装置和监控系统
CN112328448A (zh) * 2020-10-30 2021-02-05 中国平安财产保险股份有限公司 基于Zookeeper的监控方法、监控装置、设备及存储介质
CN114064402A (zh) * 2021-11-04 2022-02-18 南方电网大数据服务有限公司 服务器系统监控方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546332A (zh) * 2012-07-16 2014-01-29 赵金保 服务器监控方法和系统
CN203450058U (zh) * 2013-08-15 2014-02-26 郑州宇通客车股份有限公司 混合动力汽车及其智能故障诊断装置、智能报警系统
CN104348907A (zh) * 2014-10-10 2015-02-11 西安理邦科学仪器有限公司 一种多服务器分布式监护方法及其装置
CN105357254A (zh) * 2015-09-25 2016-02-24 宇龙计算机通信科技(深圳)有限公司 远程监控汽车故障的方法、系统及智能终端
CN106921807A (zh) * 2017-03-28 2017-07-04 杭州三为电子技术有限公司 一种话务机系统及其自检方法
CN107426030A (zh) * 2017-08-09 2017-12-01 杭州迪普科技股份有限公司 一种链路故障提醒方法及装置
CN108599977A (zh) * 2018-02-13 2018-09-28 南京途牛科技有限公司 基于统计方法监控系统可用性的系统及方法
CN108920283A (zh) * 2018-08-06 2018-11-30 成都知道创宇信息技术有限公司 基于Prometheus性能监控系统的服务器保护方法
CN109697153A (zh) * 2018-12-28 2019-04-30 浙江省公众信息产业有限公司 监控方法、监控系统及计算机可读存储介质
CN110399274A (zh) * 2019-07-03 2019-11-01 北京智齿博创科技有限公司 Prometheus监控策略的统一监控系统
CN110515702A (zh) * 2019-08-29 2019-11-29 浪潮云信息技术有限公司 一种计算节点故障虚拟机的自动疏散方法及装置
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546332A (zh) * 2012-07-16 2014-01-29 赵金保 服务器监控方法和系统
CN203450058U (zh) * 2013-08-15 2014-02-26 郑州宇通客车股份有限公司 混合动力汽车及其智能故障诊断装置、智能报警系统
CN104348907A (zh) * 2014-10-10 2015-02-11 西安理邦科学仪器有限公司 一种多服务器分布式监护方法及其装置
CN105357254A (zh) * 2015-09-25 2016-02-24 宇龙计算机通信科技(深圳)有限公司 远程监控汽车故障的方法、系统及智能终端
CN106921807A (zh) * 2017-03-28 2017-07-04 杭州三为电子技术有限公司 一种话务机系统及其自检方法
CN107426030A (zh) * 2017-08-09 2017-12-01 杭州迪普科技股份有限公司 一种链路故障提醒方法及装置
CN108599977A (zh) * 2018-02-13 2018-09-28 南京途牛科技有限公司 基于统计方法监控系统可用性的系统及方法
CN108920283A (zh) * 2018-08-06 2018-11-30 成都知道创宇信息技术有限公司 基于Prometheus性能监控系统的服务器保护方法
CN109697153A (zh) * 2018-12-28 2019-04-30 浙江省公众信息产业有限公司 监控方法、监控系统及计算机可读存储介质
CN110399274A (zh) * 2019-07-03 2019-11-01 北京智齿博创科技有限公司 Prometheus监控策略的统一监控系统
CN110515702A (zh) * 2019-08-29 2019-11-29 浪潮云信息技术有限公司 一种计算节点故障虚拟机的自动疏散方法及装置
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘野: "《基于软件定义方法的异常流量监测系统》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949483A (zh) * 2020-08-13 2020-11-17 星辰天合(北京)数据科技有限公司 监控装置和监控系统
CN112328448A (zh) * 2020-10-30 2021-02-05 中国平安财产保险股份有限公司 基于Zookeeper的监控方法、监控装置、设备及存储介质
CN114064402A (zh) * 2021-11-04 2022-02-18 南方电网大数据服务有限公司 服务器系统监控方法

Also Published As

Publication number Publication date
CN111510351B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111510351B (zh) 基于普罗米修斯监控系统的异常检测方法和装置
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
US7165192B1 (en) Fault isolation in large networks
CN106533722A (zh) 网络监测方法和装置
CN110417586B (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
WO2014067439A1 (en) Method, system and device for monitorring data
US9658908B2 (en) Failure symptom report device and method for detecting failure symptom
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN109905262A (zh) 一种cdn设备服务的监控系统及监控方法
CN114036022A (zh) 一种监控告警处理方法、装置、设备和介质
CN117194142A (zh) 一种基于链路追踪的集成应用性能诊断系统及方法
CN111970168A (zh) 全链路服务节点的监控方法、装置和存储介质
CN114301817A (zh) 基于Netconf协议的设备监测阈值设置方法和系统
CN110677304A (zh) 一种分布式问题追踪系统及设备
CN110737565B (zh) 一种数据监控方法、装置、电子设备及存储介质
US20120078565A1 (en) Methods, Systems, and Products for Reflective Maintenance
CN111949483A (zh) 监控装置和监控系统
CN113381884B (zh) 用于监控告警系统的全链路监控方法及装置
CN114328107A (zh) 光磁融合存储服务器集群的监控方法、系统及电子设备
CN114553682A (zh) 实时告警方法、系统、计算机设备及存储介质
US20230359514A1 (en) Operation-based event suppression
CN116662127A (zh) 一种设备告警信息分类并预警的方法、系统、设备和介质
CN112969151B (zh) 一种短信监控方法、装置及设备
CN114466009A (zh) 数据处理方法、边缘超融合端、云端及可读存储介质
CN112181780A (zh) 容器化平台核心组件的检测及告警方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100094 101, floors 1-5, building 7, courtyard 3, fengxiu Middle Road, Haidian District, Beijing

Patentee after: Beijing Xingchen Tianhe Technology Co.,Ltd.

Address before: 100097 room 806-1, block B, zone 2, Jinyuan times shopping center, indigo factory, Haidian District, Beijing

Patentee before: XSKY BEIJING DATA TECHNOLOGY Corp.,Ltd.

CP03 Change of name, title or address