CN109582529A - 一种报警阈值的设置方法及装置 - Google Patents

一种报警阈值的设置方法及装置 Download PDF

Info

Publication number
CN109582529A
CN109582529A CN201811145627.0A CN201811145627A CN109582529A CN 109582529 A CN109582529 A CN 109582529A CN 201811145627 A CN201811145627 A CN 201811145627A CN 109582529 A CN109582529 A CN 109582529A
Authority
CN
China
Prior art keywords
threshold value
alarm threshold
monitoring
monitoring index
target monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811145627.0A
Other languages
English (en)
Inventor
岳远泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811145627.0A priority Critical patent/CN109582529A/zh
Publication of CN109582529A publication Critical patent/CN109582529A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本说明书公开了一种报警阈值的设置方法,包括:获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。同时,本说明书还公开了一种报警阈值的设置装置。

Description

一种报警阈值的设置方法及装置
技术领域
本说明书涉及互联网技术领域,尤其涉及一种报警阈值的设置方法及装置。
背景技术
为了保证服务器的正常运行,需要对服务器上的各种运行数据进行实时监测,由此,专用的服务器监测系统应运而生。例如,Xflush,是“蚂蚁金服”用于线上监测的一个系统,其可以监测服务器上的多种运行数据(例如:CPU使用率、硬盘使用率、等等),针对不同的运行数据,还可以设置不同报警阈值,若某一运行数据达到其报警阈值,则进行报警。
目前在设置报警阈值时,主要是由人工设置,但是这种方式严重依赖设置人员的经验,若人员经验不足,容易出现设置的报警阈值不合理的情况(例如:设置的报警阈值过低或者过高,或者,针对某些特定业务,始终使用同一个报警阈值)。
发明内容
本申请实施例通过提供一种报警阈值的设置方法及装置,解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确或不合理,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性及合理性,提高监测系统的监测效果的技术效果。
第一方面,本申请通过本申请的一实施例提供如下技术方案:
一种报警阈值的设置方法,包括:
获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;
从所述时间序列数据中提取所述第一历史监测数据;
利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
第二方面,本申请通过本申请的一实施例,提供如下技术方案:
一种报警阈值的设置装置,包括:
获取单元,用于获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;
提取单元,用于从所述时间序列数据中提取所述第一历史监测数据;
分析单元,用于利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
第三方面,本申请通过本申请的一实施例,提供如下技术方案:
一种报警阈值的设置装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中一种报警阈值的设置方法的任一方法步骤。
第四方面,本申请通过本申请的一实施例,提供如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中一种报警阈值的设置方法的任一方法步骤,。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本申请实施例中,公开了一种报警阈值的设置方法,包括:获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。由于利用机器学习模型,对第一历史监测数据进行分析,获得目标监测指标在不同时间点或不同时间段内的报警阈值,相比于现有技术中依赖人工经验,本实施例中可以提高设置报警阈值的准确性及合理性。故而解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确或不合理,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性,使得监测系统可以进行更为细致的监测工作,降低出现误报或漏报的几率,提高监测系统的监测效果的技术效果。
附图说明
本申请实施例通过提供一种报警阈值的设置方法及装置,解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确或不合理,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性及合理性,提高监测系统的监测效果的技术效果。
图1为本说明书实施例中一种报警阈值的设置方法的流程图;
图2为本说明书实施例中一种报警阈值的设置装置的结构图;
图3为本说明书实施例中一种报警阈值的设置装置的结构图;
图4为本说明书实施例中一种计算机可读存储介质的结构图。
具体实施方式
本申请实施例通过提供一种报警阈值的设置方法及装置,解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性,提高监测系统的监测效果的技术效果。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种报警阈值的设置方法,包括:获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联指标的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联指标是一种“或”的关系。
实施例一
本实施例提供了一种报警阈值的设置方法,应用于监测系统中,该监测系统用于对服务器上的运行的各种运行数据(例如:CPU使用率、硬盘使用率、各种业务的实时数据、等等)进行实时监测。在本文中,这些被监测的运行数据被统一称作“监测指标”。
具体来讲,如图1所示,所述报警阈值的设置方法,包括:
步骤S101:获取监测系统中存储的时间序列数据,监测系统用于对服务器中的目标监测指标进行监测,时间序列数据中存储有目标监测指标的第一历史监测数据。
时间序列,是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒、5分钟、12小时、7天、1年、等等),因此,时间序列可以作为离散时间数据进行分析处理。时间序列广泛应用于数理统计、信号处理、模式识别、计量经济学、数学金融、天气预报、地震预测、脑电图、控制工程、航空学、通信工程以及绝大多数涉及到时间数据测量的应用合理与工程学。
在具体实施过程中,监测系统用于对服务器中的多项监测指标(例如:CPU使用率,硬盘使用率、各种业务的实时数据、等等)进行监测,并将监测到的监测数据按照时间先后顺序存储起来,即获得上述时间序列数据。同时,每个监测指标都需要一个报警阈值,当某一监测指标达到该报警阈值(可能是高于警阈值,也可能是低于报警阈值),则需要进行报警提示。
本文中的“目标监测指标”是指:服务器中的多项监测指标中的任意一项监测指标。
在具体实施过程中,需要获取监测系统中存储的时间序列数据,该时间序列数据存储有目标监测指标的第一历史监测数据。
在具体实施过程中,本方法是周期性执行的。若每3天执行一次,在每次执行时,则获取前3天的目标监测指标的历史监测数据;若每5天执行一次,在每次执行时,则获取前5天的目标监测指标的历史监测数据。
步骤S102:从时间序列数据中提取第一历史监测数据。
步骤S103:利用机器学习模型,对第一历史监测数据进行分析,获得监测指标在不同时间点和/或不同时间段内的报警阈值。
在具体实施过程中,由于各种不确定的因素导致原先设定的报警阈值可能不合适,或者,原先设定的报警阈值本来就不合理,无法起到报警提示的作用,因此,需要对监测系统中原先设置的报警阈值重新进行设置。此处,目标监测指标是指监测系统中的全部监测指标中的任一监测指标(例如:CPU使用率、或硬盘使用率、或某一业务的实时数据、等等)。
作为一种可选的实施例,步骤S103,包括:
获取一机器学习模型,该机器学习模型是基于预设训练样本训练得到的,预设训练样本中包含目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。该机器学习模型能够基于聚类算法对时间序列数据进行分析,获得监测指标在不同时间点和/或不同时间段内的报警阈值。
在具体实施过程中,需要提前训练一机器学习模型,具体过程如下:
A、准备训练样本:训练样本中存储有目标监测指标在以往一段时间内的历史监测数据(即:第二历史监测数据),以及针对该段时间内(不同时间段和/或不同时间点)的理想报警阈值,该理想报警阈值可以由后台工作人员(例如:本领域专家或经验丰富的后台人员提供),以此作为训练样本。
举例来讲,不同时段,可以为:将一天中的白天和夜间间分为两个不同的时段,或将一天中上午、下午、夜间分为三个不同的时段,等等。其中,每个时段都有明确的起始时间和结束时间。不同时间,可以是:一天中的多个时间点,包含但不限与每个小时的整点。
B,训练机器学习模型:将训练样本输入到机器学习模型中,以此让机器学习模型进行学习(具体地,学习在哪些情况下需要对报警阈值进行设置,以及以及针对不同时间点和/或不同间时段如何设置报警阈值),从而获得我们需要的机器学习模型。
在具体实施过程中,在执行步骤S102时,即可将步骤S101中获取到的时间序列数据输入到事先训练好的机器学习模型中。机器学习模型基于聚类算法(例如:kmeans算法)对时间序列数据进行分析,获得各个监测数据之间的潜在联系,并对目标监测指标设置(在不同时间段和/或不同时间点)的报警阈值。
在具体实施过程中,本实施例中设置的报警阈值不是一成不变的,而是动态变化的,也就是说,需要周期性地执行步骤S101~步骤S103(例如,每3天执行一次,或每5天执行一次,这个可以由后台人员根据实际需要灵活设置),来动态设置报警阈值,这样设置的报警阈值更合理学合理,有利于提高监测系统的监测效果。
举例来讲,在对CPU使用率进行监测时,需要设置一报警阈值,若CPU的使用率过高,则服务器的压力过大,易出现卡机、死机的故障,严重可能会烧毁服务器。在现有技术中,是通过人工方式设置报警阈值。而在本实施例中,则由机器学习模型对步骤S101中获取到的时间序列数据进行分析,并设置报警阈值。例如:可以针对不同时间段和/或不同时间点,分别设置报警阈值。
举例来讲,在对硬盘使用率进行监测时,也需要设置一报警阈值,若硬盘使用率过高,则会影响以后数据的存储,严重时会导致相关业务无法正常进行。在现有技术中,是通过人工方式设置报警阈值。而在本实施例中,则由机器学习模型对步骤S101中获取到的时间序列数据进行分析,并设置报警阈值。例如:可以针对不同时间段和/或不同时间点,分别设置报警阈值。
举例来讲,在监测某一业务的用户使用量时,需要设置了一个报警阈值,若发现某一段时间内(例如:半小时或一小时)用户使用量低于该报警阈值,考虑到可能是服务器出现了故障,则需要报警提示。但是,业务的白天用户使用量和夜间用户使用量,可能存在较大差异,夜间的使用量要明显低于白天,并不是服务器故障,现有技术中只设置一个报警阈值的做法肯定不合理,会出现误报的情况。因此,可以使用机器学习模型,针对白天和夜间这两个不同的时段,分别设置两个不同的报警阈值,从而避免出现误报的情况,提高监测的准确率。
在本实施例中,主要采用机器学习算法来对报警阈值进行设置,相比于传统技术中依靠人的经验来手动优化的方案,本实施例可以提高报警阈值的准确性与合理性,从而提高监测系统的监测效果。
并且,由于可以针对不同时间段和/或不同时间点,分别设置报警阈值,这样设置的报警阈值更合理学合理,更符合实际需求,使得监测系统可以进行更为细致的监测工作,有利于提高监测效果。
作为一种可选的实施例,在步骤S104之前,还包括:
将报警阈值发送给预设终端设备,以使得预设终端设备对应的预设用户对报警阈值进行修正;接收预设终端设备反馈的修正后的报警阈值;此时,基于报警阈值对目标监测指标进行监测,包括:基于修正后的报警阈值对目标监测指标进行监测。
在具体实施过程中,由于机器学习模型需要不断学习更新,才能提高其可靠性,并作出最合理准确的优化。为了避免机器学习模型的可靠性不够高,存在出现故障的可能,导致输出的报警阈值无法达到最优或者和预期偏离太远,因此,此处需要将机器学习模型输出的报警阈值发给预设用户(例如:本领域专家、或经验丰富的后台人员),预设用户在发现机器学习模型输出的报警阈与预期的报警阈值存在偏离(或偏离较大)时,则可以进行修正,并将修正后的报警阈值反馈给监测系统,以使得监测系统基于修正后的报警阈值对目标监测指标进行监测,从而进一步提高监测系统中报警阈值的准确性和合理性,提高监测系统的监测效果。
在具体实施过程中,在机器学习模型运行一段时间后,若发现其优化后的报警阈值合理准确,能够满足预设用户的预期,预设用户进行修正的频率较少(少于某一预设频率),则可以减少预设用户进行人工修正的频率(即:减少将报警阈值发送给预设终端设备的频率),并最终取消由预设用户进行人工修正的环节(即:不再执行将报警阈值发送给预设终端设备的步骤)。
作为一种可选的实施例,在步骤S103之后,还包括:基于报警阈值对目标监测指标进行监测。
作为一种可选的实施例,所述基于报警阈值对目标监测指标进行监测,包括:
对目标监测指标的监测值进行可视化处理,生成可视化图表,并输出可视化图表。
在具体实施过程中,监测系统会将各项监测指标的监测值通过一可视化模块制作成可视化图表,并通过显示器输出可视化图表,从而使得后台人员清楚直观地看到各项监测指标的变化情况。
作为一种可选的实施例,所述基于报警阈值对目标监测指标进行监测,包括:
若发现目标监测指标的监测值达到报警阈值时,则采取应急响应措施。
其中,所述应急响应措施,包括以下措施中的一种或多种:
A、对服务器的访问流量进行限制;
B、控制服务器不去执行第一预设程序代码;
C、控制服务器执行第二预设程序代码;
D、输出报警信息。
在具体实施过程中,“对服务器的访问流量进行限制”可以通过限流技术实现,限流技术可以降低用户对服务器的访问量,从而降低服务器的压力。例如,在服务器的CPU使用率高于报警阈值时,则可以进行限流,从而降低用户对服务器的访问量,以降低CPU使用率。
在具体实施过程中,“控制服务器不去执行第一预设程序代码”可以通过轧点技术实现,轧点技术可以控制某段代码逻辑不去执行。例如,在服务器的CPU使用率高于报警阈值时,可以采用轧点技术,具体地,在服务器进行某一业务时,在原计划中需要打印对应的日志或在数据库中插入一些非关键信息(即:不会影响业务的正常进行的信息),而在CPU使用率高于报警阈值时,说明服务器的压力很大,则可以启动轧点,不去执行打印日志的程序代码(即第一预设程序代码)或不去执行在数据库中插入一些非关键信息的程序代码(即第一预设程序代码),从而降低服务器的压力,降低CPU使用率。
在具体实施过程中,“控制服务器执行第二预设程序代码”可以通过drm推送实现,drm可以嵌入到程序中,控制程序执行逻辑,也可以作为触发器,每次推送drm的值的时候,都可以触发一些事情。例如,在服务器的CPU使用率高于第二报警阈值时,说明服务器的压力很大,可以推送drm来控制服务器刷新一下缓存,从而缓解服务器的压力,降低CPU使用率。
在具体实施过程中,在目标监测指标的监测值达到报警阈值时,还需要向后台人员输出报警信息,以使得后台人员及时获知服务器的运行情况,并在必要时及时人工干预。
作为一种可选的实施例,所述基于报警阈值对目标监测指标进行监测,包括:
对目标监测指标的监测值进行预测;当预测到目标监测指标的监测值在未来的某一时间点将达到报警阈值时,在时间点到来前,对服务器中的数据库缓存进行扩容处理。
举例来讲,在对CPU使用率进行监测时,可以对CPU使用率的趋势进行预测,若预测到在未来的某一时间点(例如:5分钟后,或10分钟后,或20分钟后,等等)CPU使用率将高于报警阈值,则可以在该时间点到来前对服务器中的数据库缓存进行扩容处理,从而提前缓解CPU的压力。
作为一种可选的实施例,在对服务器中数据库的缓存进行扩容处理之后,还包括:
在监测到目标监测指标的监测值恢复正常时,对数据库缓存进行缩容处理。
承接上一个例子,在对服务器中的数据库缓存进行扩容处理后,需要继续对CPU使用率进行监测,若发现其恢复正常(例如:低于报警阈值或低于报警阈值以下的安全值),则对数据库缓存进行缩容处理,恢复原来的缓存大小,从而减少不必要的资源浪费。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
在本申请实施例中,公开了一种报警阈值的设置方法,包括:获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。由于利用机器学习模型,对第一历史监测数据进行分析,获得目标监测指标在不同时间点和/或不同时间段内的报警阈值,相比于现有技术中依赖人工经验,本实施例中可以提高设置报警阈值的准确性及合理性。故而解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确或不合理,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性及合理性,使得监测系统可以进行更为细致的监测工作,降低出现误报或漏报的几率,提高监测系统的监测效果的技术效果。
实施例二
基于同一发明构思,如图2所示,本实施例提供了一种报警阈值的设置装置200,包括:
获取单元201,用于获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;
提取单元202,用于从所述时间序列数据中提取所述第一历史监测数据;
分析单元203,用于利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
作为一种可选的实施例,报警阈值的设置装置200,还包括:
监测单元,用于在所述获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值之后,基于所述报警阈值对所述目标监测指标进行监测。
作为一种可选的实施例,报警阈值的设置装置200,还包括:
发送单元,用于在所述基于所述报警阈值对所述目标监测指标进行监测之前,将所述报警阈值发送给预设终端设备,以使得所述预设终端设备对应的预设用户对所述报警阈值进行修正;
接收单元,用于接收所述预设终端设备反馈的修正后的所述报警阈值;
此时,所述监测单元,具体用于:基于修正后的所述报警阈值对所述目标监测指标进行监测。
作为一种可选的实施例,监测单元,具体用于:
对所述目标监测指标的监测值进行可视化处理,生成可视化图表,并输出所述可视化图表。
作为一种可选的实施例,监测单元,具体用于:
若发现所述目标监测指标的监测值达到所述报警阈值时,则采取应急响应措施。
作为一种可选的实施例,所述应急响应措施,包括以下措施中的一种或多种:
对所述服务器的访问流量进行限制;
暂停所述服务器执行第一预设程序代码;
启动所述服务器执行第二预设程序代码;
输出报警信息。
作为一种可选的实施例,监测单元,具体用于:
对所述目标监测指标的监测值进行预测;当预测到所述目标监测指标的监测值在未来的某一时间点将达到所述报警阈值时,在所述时间点到来前,对所述服务器中的数据库缓存进行扩容处理。
作为一种可选的实施例,监测单元,还用于:
在所述对所述服务器中数据库的缓存进行扩容处理之后,在监测到所述目标监测指标的监测值恢复正常时,对所述数据库缓存进行缩容处理。
由于本实施例所介绍的报警阈值的设置装置为实施本申请实施例中报警阈值的设置方法所采用的装置,故而基于本申请实施例中所介绍的报警阈值的设置方法,本领域所属技术人员能够了解本实施例的报警阈值的设置装置的具体实施方式以及其各种变化形式,所以在此对于该报警阈值的设置装置如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中报警阈值的设置方法所采用的装置,都属于本申请所欲保护的范围。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
在本申请实施例中,公开了一种报警阈值的设置装置,包括:获取单元,用于获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;提取单元,用于从所述时间序列数据中提取所述第一历史监测数据;分析单元,用于利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。由于利用机器学习模型,对第一历史监测数据进行分析,获得目标监测指标在不同时间点和/或不同时间段内的报警阈值,相比于现有技术中依赖人工经验,本实施例中可以提高设置报警阈值的准确性及合理性。故而解决了现有技术中在对监测系统设置报警阈值时,存在设置的报警阈值不准确或不合理,导致监测系统的监测效果较差的技术问题,实现了提高监测系统中报警阈值的准确性及合理性,使得监测系统可以进行更为细致的监测工作,降低出现误报或漏报的几率,提高监测系统的监测效果的技术效果。
实施例三
基于同一发明构思,如图3所示,本实施例提供了一种报警阈值的设置装置300,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时实现以下步骤:
获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
在具体实施过程中,处理器320执行计算机程序311时,可以实现实施例一中任一实施方式。
实施例四
基于同一发明构思,如图4所示,本实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现以下步骤:
获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;从所述时间序列数据中提取所述第一历史监测数据;利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
在具体实施过程中,该计算机程序411被处理器执行时,可以实现实施例一中任一实施方式。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种报警阈值的设置装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种报警阈值的设置方法,包括:
获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;
从所述时间序列数据中提取所述第一历史监测数据;
利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
2.如权利要求1所述的报警阈值的设置方法,在所述获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值之后,还包括:
基于所述报警阈值对所述目标监测指标进行监测。
3.如权利要求2所述的报警阈值的设置方法,在所述基于所述报警阈值对所述目标监测指标进行监测之前,还包括:
将所述报警阈值发送给预设终端设备,以使得所述预设终端设备对应的预设用户对所述报警阈值进行修正;接收所述预设终端设备反馈的修正后的所述报警阈值;
此时,所述基于所述报警阈值对所述目标监测指标进行监测,包括:基于修正后的所述报警阈值对所述目标监测指标进行监测。
4.如权利要求2所述的报警阈值的设置方法,所述基于所述报警阈值对所述目标监测指标进行监测,包括:
对所述目标监测指标的监测值进行可视化处理,生成可视化图表,并输出所述可视化图表。
5.如权利要求1所述的报警阈值的设置方法,所述基于所述报警阈值对所述目标监测指标进行监测,包括:
若发现所述目标监测指标的监测值达到所述报警阈值时,则采取应急响应措施。
6.如权利要求5所述的报警阈值的设置方法,所述采取应急响应措施,包括以下措施中的一种或多种:
对所述服务器的访问流量进行限制;
暂停所述服务器执行第一预设程序代码;
启动所述服务器执行第二预设程序代码;
输出报警信息。
7.如权利要求1~6任一所述的报警阈值的设置方法,所述基于所述报警阈值对所述目标监测指标进行监测,包括:
对所述目标监测指标的监测值进行预测;
当预测到所述目标监测指标的监测值在未来的某一时间点将达到所述报警阈值时,在所述时间点到来前,对所述服务器中的数据库缓存进行扩容处理。
8.如权利要求7所述的报警阈值的设置方法,在所述对所述服务器中数据库的缓存进行扩容处理之后,还包括:
在监测到所述目标监测指标的监测值恢复正常时,对所述数据库缓存进行缩容处理。
9.一种报警阈值的设置装置,包括:
获取单元,用于获取监测系统中存储的时间序列数据,所述监测系统用于对服务器中的目标监测指标进行监测,所述时间序列数据中存储有所述目标监测指标的第一历史监测数据;
提取单元,用于从所述时间序列数据中提取所述第一历史监测数据;
分析单元,用于利用机器学习模型,对所述第一历史监测数据进行分析,获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值;其中,所述机器学习模型是基于预设训练样本训练得到的,所述预设训练样本中包含所述目标监测指标在不同时间点和/或不同间时段的第二历史监测数据、以及每个时间点或每个时间段对应的理想报警阈值。
10.如权利要求9所述的报警阈值的设置装置,还包括:
监测单元,用于在所述获得所述目标监测指标在不同时间点和/或不同时间段内的报警阈值之后,基于所述报警阈值对所述目标监测指标进行监测。
11.如权利要求10所述的报警阈值的设置装置,还包括:
发送单元,用于在所述基于所述报警阈值对所述目标监测指标进行监测之前,将所述报警阈值发送给预设终端设备,以使得所述预设终端设备对应的预设用户对所述报警阈值进行修正;
接收单元,用于接收所述预设终端设备反馈的修正后的所述报警阈值;
此时,所述监测单元,具体用于:基于修正后的所述报警阈值对所述目标监测指标进行监测。
12.如权利要求10所述的报警阈值的设置装置,所述监测单元,具体用于:
对所述目标监测指标的监测值进行可视化处理,生成可视化图表,并输出所述可视化图表。
13.如权利要求9所述的报警阈值的设置装置,所述监测单元,具体用于:
若发现所述目标监测指标的监测值达到所述报警阈值时,则采取应急响应措施。
14.如权利要求5所述的报警阈值的设置装置,所述应急响应措施,包括以下措施中的一种或多种:
对所述服务器的访问流量进行限制;
暂停所述服务器执行第一预设程序代码;
启动所述服务器执行第二预设程序代码;
输出报警信息。
15.如权利要求1~6任一所述的报警阈值的设置装置,所述监测单元,具体用于:
对所述目标监测指标的监测值进行预测;当预测到所述目标监测指标的监测值在未来的某一时间点将达到所述报警阈值时,在所述时间点到来前,对所述服务器中的数据库缓存进行扩容处理。
16.如权利要求7所述的报警阈值的设置装置,所述监测单元,还用于:
在所述对所述服务器中数据库的缓存进行扩容处理之后,在监测到所述目标监测指标的监测值恢复正常时,对所述数据库缓存进行缩容处理。
17.一种报警阈值的设置装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1~8中任一权利要求所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1~8中任一权利要求所述的方法步骤。
CN201811145627.0A 2018-09-29 2018-09-29 一种报警阈值的设置方法及装置 Pending CN109582529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811145627.0A CN109582529A (zh) 2018-09-29 2018-09-29 一种报警阈值的设置方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811145627.0A CN109582529A (zh) 2018-09-29 2018-09-29 一种报警阈值的设置方法及装置

Publications (1)

Publication Number Publication Date
CN109582529A true CN109582529A (zh) 2019-04-05

Family

ID=65920180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811145627.0A Pending CN109582529A (zh) 2018-09-29 2018-09-29 一种报警阈值的设置方法及装置

Country Status (1)

Country Link
CN (1) CN109582529A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489306A (zh) * 2019-08-26 2019-11-22 北京博睿宏远数据科技股份有限公司 一种报警阈值确定方法、装置、计算机设备及存储介质
CN110555004A (zh) * 2019-07-30 2019-12-10 北京奇艺世纪科技有限公司 服务的监控方法、装置、计算机设备及存储介质
CN111258854A (zh) * 2020-01-21 2020-06-09 北京奇艺世纪科技有限公司 模型训练方法、基于预测模型的报警方法和相关装置
CN112150780A (zh) * 2020-08-17 2020-12-29 来邦养老科技有限公司 一种报警阈值修正方法、装置及存储介质
CN112363890A (zh) * 2020-11-18 2021-02-12 合肥城市云数据中心股份有限公司 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法
CN112423031A (zh) * 2019-08-22 2021-02-26 中国电信股份有限公司 基于iptv的kpi监测方法、装置及其系统
CN113377559A (zh) * 2020-03-10 2021-09-10 北京同邦卓益科技有限公司 基于大数据的异常处理方法、装置、设备及存储介质
WO2021184554A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN113505523A (zh) * 2021-06-15 2021-10-15 山东电力高等专科学校 基于神经网络的电缆报警温度阈值预测方法及系统
CN113760637A (zh) * 2020-09-25 2021-12-07 天翼智慧家庭科技有限公司 用于针对阈值类监控数据确定阈值的方法和装置
CN114301817A (zh) * 2021-12-17 2022-04-08 中电信数智科技有限公司 基于Netconf协议的设备监测阈值设置方法和系统
CN115022218A (zh) * 2022-05-27 2022-09-06 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356461A1 (en) * 2014-06-06 2015-12-10 Google Inc. Training distilled machine learning models
US20160267397A1 (en) * 2015-03-11 2016-09-15 Ayasdi, Inc. Systems and methods for predicting outcomes using a prediction learning model
CN106068520A (zh) * 2013-12-13 2016-11-02 微软技术许可有限责任公司 个性化的机器学习模型
CN107608862A (zh) * 2017-10-13 2018-01-19 众安信息技术服务有限公司 监控告警方法、监控告警装置及计算机可读存储介质
CN107742399A (zh) * 2017-11-16 2018-02-27 百度在线网络技术(北京)有限公司 用于发出告警信号的方法及装置
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106068520A (zh) * 2013-12-13 2016-11-02 微软技术许可有限责任公司 个性化的机器学习模型
US20150356461A1 (en) * 2014-06-06 2015-12-10 Google Inc. Training distilled machine learning models
US20160267397A1 (en) * 2015-03-11 2016-09-15 Ayasdi, Inc. Systems and methods for predicting outcomes using a prediction learning model
CN107608862A (zh) * 2017-10-13 2018-01-19 众安信息技术服务有限公司 监控告警方法、监控告警装置及计算机可读存储介质
CN107742399A (zh) * 2017-11-16 2018-02-27 百度在线网络技术(北京)有限公司 用于发出告警信号的方法及装置
CN107885642A (zh) * 2017-11-29 2018-04-06 小花互联网金融服务(深圳)有限公司 基于机器学习的业务监控方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555004A (zh) * 2019-07-30 2019-12-10 北京奇艺世纪科技有限公司 服务的监控方法、装置、计算机设备及存储介质
CN112423031A (zh) * 2019-08-22 2021-02-26 中国电信股份有限公司 基于iptv的kpi监测方法、装置及其系统
CN110489306A (zh) * 2019-08-26 2019-11-22 北京博睿宏远数据科技股份有限公司 一种报警阈值确定方法、装置、计算机设备及存储介质
CN111258854A (zh) * 2020-01-21 2020-06-09 北京奇艺世纪科技有限公司 模型训练方法、基于预测模型的报警方法和相关装置
CN111258854B (zh) * 2020-01-21 2023-10-03 北京奇艺世纪科技有限公司 模型训练方法、基于预测模型的报警方法和相关装置
CN113377559A (zh) * 2020-03-10 2021-09-10 北京同邦卓益科技有限公司 基于大数据的异常处理方法、装置、设备及存储介质
WO2021184554A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN112150780A (zh) * 2020-08-17 2020-12-29 来邦养老科技有限公司 一种报警阈值修正方法、装置及存储介质
CN113760637A (zh) * 2020-09-25 2021-12-07 天翼智慧家庭科技有限公司 用于针对阈值类监控数据确定阈值的方法和装置
CN112363890A (zh) * 2020-11-18 2021-02-12 合肥城市云数据中心股份有限公司 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法
CN113505523A (zh) * 2021-06-15 2021-10-15 山东电力高等专科学校 基于神经网络的电缆报警温度阈值预测方法及系统
CN114301817A (zh) * 2021-12-17 2022-04-08 中电信数智科技有限公司 基于Netconf协议的设备监测阈值设置方法和系统
CN115022218A (zh) * 2022-05-27 2022-09-06 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法
CN115022218B (zh) * 2022-05-27 2024-01-19 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法

Similar Documents

Publication Publication Date Title
CN109582529A (zh) 一种报警阈值的设置方法及装置
CN102282552B (zh) 基于模式的智能控制、监测及自动化的系统、方法和计算机程序
CN107705149A (zh) 数据实时监控方法、装置、终端设备及存储介质
CN104881783A (zh) 电子银行账户欺诈行为及风险检测方法与系统
US20150355923A1 (en) Configuring virtual machines in a cloud computing platform
US20200166921A1 (en) System and method for proactive repair of suboptimal operation of a machine
CN103793853A (zh) 基于双向贝叶斯网络的架空输电线路运行状态评估方法
Baldominos et al. DataCare: Big data analytics solution for intelligent healthcare management.
CN104156296A (zh) 智能监控大规模数据中心集群计算节点的系统和方法
CN110245053A (zh) 故障预测诊断方法及系统
CN109800995A (zh) 一种电网设备故障识别方法及系统
CN114707772B (zh) 基于多特征分解与融合的电力负荷预测方法及系统
CN114493049A (zh) 基于数字孪生的产线优化方法、装置、电子设备及介质
CN117439256A (zh) 一种基于物联网的电站设备管理方法及系统
CN115915708A (zh) 制冷设备控制参数预测方法、装置、电子设备及存储介质
CN110363381A (zh) 一种信息处理方法和装置
CN112148566B (zh) 计算引擎的监控方法、装置、电子设备及存储介质
CN117472511A (zh) 容器资源监控方法、装置、计算机设备和存储介质
CN110413482B (zh) 检测方法和装置
CN112286088A (zh) 一种动力设备故障预测模型在线应用的方法及应用系统
JP7062505B2 (ja) 設備管理支援システム
CN116562120A (zh) 一种基于rve的涡轮发动机系统健康状况评估方法及装置
CN115603955A (zh) 异常访问对象识别方法、装置、设备和介质
EP3846096A1 (en) Systems and methods for identifying an officer at risk of an adverse event
CN114095390A (zh) 区域内对象流量的预测方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190405