CN115794532A - 多指标智能动态阈值监控方法及系统 - Google Patents
多指标智能动态阈值监控方法及系统 Download PDFInfo
- Publication number
- CN115794532A CN115794532A CN202111057936.4A CN202111057936A CN115794532A CN 115794532 A CN115794532 A CN 115794532A CN 202111057936 A CN202111057936 A CN 202111057936A CN 115794532 A CN115794532 A CN 115794532A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- time
- service
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明提供了一种多指标智能动态阈值监控方法及系统,包括:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。本发明无需人工依赖业务经验制定监控策略,稳定性强,节省人力成本,能够自适应地调整监控策略。
Description
技术领域
本发明涉及业务指标和技术指标监控领域,具体地,涉及一种多指标智能动态阈值监控方法及系统。
背景技术
完整的云计算系统包括众多设备,其中任何一台设备出现异常都可能会影响其它设备正常工作,甚至影响整个系统的良好运行。所以云计算系统往往配有设备集中管理平台,其中包含业务指标和技术指标监控告警系统,其作用是采集信息服务系统的众多设备的运行状态,以一定的监控策略判断设备是否正常运行,当识别设备有异常倾向时通知相关运维人员。
目前业界典型的传统监控告警系统通常包含以下流程:1、监控数据采集:在监控目标设备部署监控数据采集软件、脚本,采集数据存储于数据库;2、监控策略制定:制定业务指标阈值和告警判定策略,常见的策略是为业务指标设定一个阈值,监控测点的业务指标超过阈值的数据点称为异常点;设定告警分析联动策略,如连续10个监控数据中有8个以上异常点、连续5个监控数据中有3个异常点等,当监控测点的异常点满足告警判定逻辑,则产生告警;3、告警指示:通过PC端、短信、移动端App推送、移动端公众号推送等方式将告警信息传达至运维人员。
传统业务指标监控告警体系,存在以下问题:1、依赖运维人员依据经验设定固定的监控阈值,难以量化保证阈值的准确性,阈值经常偏高或者偏低。阈值偏低或分析联动策略过于宽松,则会导致报警过于频繁;阈值偏高或分析联动策略过严,则容易在该告警时漏报,忽略性能故障早期现象,使监控告警失去实际意义甚至成为运维负担;2、对于存在长期趋势变化的监控测点,只能在监控出现误告警甚至用户感知系统异常后,才能人工介入调整阈值,无法做到提前发现并及时改变监控策略,防止误告警和系统异常发生。3、业务指标告警体系往往涉及大量监控测点,需要大量人力资源来分析和制订监控运维规则,成本高昂,流程繁琐。
专利文献CN107871190A(申请号:CN201610849587.2)公开了一种业务指标监控方法及装置,可采用对待监控业务指标的历史监控样本数据进行统计分析的方式,自动预测待监控业务指标的待监控数据的上下限阈值,并基于预测得到的上下限阈值,确定待监控数据是否为异常数据;或者,可采用变点检测的方式,识别待监控业务指标的待监控时间序列数据中的异常数据。该发明中,业务指标监控的上下限阈值由监控数据所在的时间点对应的一个或多个历史同期点的历史监控样本数据进行统计分析得到。举例来说,该方案中,一个业务指标数据在今天3:00的阈值上下限可能是由今天3:00的预测值和昨天3:00的历史同期数据决定,或者由今天3:00的预测值和前一周3:00的历史同期数据的统计分析结果决定。这种阈值设定方法在设定一个时刻的阈值相对预测值的上下限时,只考虑了其同期点的特征,忽略了其他时间点。而监控数据作为时间序列,一个时间点的数据往往与其他时间数据有关系,这种做法忽略了这种信息,对同期点数据质量非常敏感,鲁棒性较弱。该发明使用变点检测技术确定异常数据:基于设定的变点检测算法对所述数据获取单元获取待监控时间序列数据进行变点检测,以判断所述带监控时间序列数据中是否存在变点。若存在变点,则将所述待监控时间序列数据汇总的与变点时间点对应的数据作为候选异常数据。这种方法在实际应用中有较大缺陷:一台待监控的设备,很有可能每日定时开展高负荷的作业,当设备正常开展每日作业时,此时刻很可能被检测为变点,被判定为候选异常数据,此检测结论与实际情况产生较大出入。
专利文献CN108921355A(申请号:CN201810752508.5)公开了一种基于时间序列预测模型的告警阈值设定方法及装置,包括:获取待设监控指标的时序监控数据;确定时序监控数据中每一个时间单位下的最大值和最小值,以生成最大值序列和最小值序列;创建最大值序列和最小值序列的时间序列预测模型;利用最大值序列和最小值序列的时间序列预测模型预测待设监控指标在未来q个时间单位的变化情况,以获得最大值预测序列和最小值预测序列;根据确定的待设监控指标告警阈值的初始阈值及最大值预测序列和最小值预测序列获取告警阈值的告警区间序列。该发明用历史数据的最大值序列和最小值序列预测未来的最大值序列和最小值序列,根据确定的待设监控指标告警阈值的初始阈值及最大值预测序列和最小值预测序列获取告警阈值的告警区间序列。该方案足够简便快速,但是在预测准确性上有些缺陷:其用于预测的最大/最小值时间序列由每个周期内的时间点的历史同期点的最大/最小值组成。也就是说,该方案用q时长的时间序列去预测q时长的时间序列序列,历史数据相对预测数据来说太少,预测准确性较低;由于此方案以取同期点最大值/最小值的方式将历史数据聚合至一个周期内,则时间序列多个周期之间的特征被忽略了,导致预测准确性进一步降低。而且该方案很依赖合理的初始告警阈值,需要大量的业务专家制定初始告警阈值。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种多指标智能动态阈值监控方法及系统。
根据本发明提供的一种多指标智能动态阈值监控方法,包括:
步骤S1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
步骤S2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
步骤S3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
步骤S4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
步骤S5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
优选地,在所述步骤S1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
优选地,在所述步骤S2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
优选地,在所述步骤S3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
优选地,在所述步骤S4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块。
优选地,在所述步骤S5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
根据本发明提供的一种多指标智能动态阈值监控系统,包括:
模块M1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
模块M2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
模块M3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
模块M4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
模块M5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
优选地,在所述模块M1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
优选地,在所述模块M2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
优选地,在所述模块M3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
优选地,在所述模块M4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块。
优选地,在所述模块M5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
与现有技术相比,本发明具有如下的有益效果:
1、无需人工依赖业务经验制定监控策略,稳定性强,大幅减少监控部署耗时,节省人力成本;
2、对于监控测点发生业务变更的情况,能够通过分析监控数据的特征变化,自适应地调整监控策略,无需人工持续跟踪监控告警效果并调整策略;
3、适用于多种技术指标和业务指标的监控,集成多种时间序列预测算法,自动选择合适的算法适用于各类技术指标,可扩展性强,易用于大规模监控;
4、使用变点检测技术检测历史数据,检测出上述设备定时开始工作的时间段,并对此时间段采取更宽容的监控策略,监控效果准确,告警的误报漏报情况少,能够发现传统监控系统忽略的性能故障早期现象和设备潜在异常;
5、设定业务指标数据某时刻的监控阈值上下限时,综合考虑了其预测值、历史同期点特征、历史数据整体特征,更加精确,鲁棒性强;
6、使用多个周期的历史数据进行预测,较充分地提取了其中的周期信息。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的一个实施案例的一种可能的整体流程示意图;
图2为本发明的一个实施案例的一种可能的装置布置示意图;
图3为本发明的一个实施例中突变时段检测的一种可能的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
根据本发明提供的一种多指标智能动态阈值监控方法,包括:
步骤S1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
步骤S2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
步骤S3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
步骤S4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
步骤S5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
具体地在所述步骤S1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
具体地在所述步骤S2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
具体地在所述步骤S3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
具体地在所述步骤S4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块。
具体地在所述步骤S5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
实施例2:
实施例2为实施例1的优选例,以更为具体地对本发明进行说明。
本领域技术人员可以将本发明提供的一种多指标智能动态阈值监控方法,理解为多指标智能动态阈值监控系统的具体实施方式,即所述多指标智能动态阈值监控系统可以通过执行所述多指标智能动态阈值监控方法的步骤流程予以实现。
根据本发明提供的一种多指标智能动态阈值监控系统,包括:
模块M1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
模块M2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
模块M3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
模块M4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
模块M5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
具体地在所述模块M1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
具体地在所述模块M2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
具体地在所述模块M3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
具体地在所述模块M4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块。
具体地在所述模块M5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
实施例3:
实施例3为实施例1的优选例,以更为具体地对本发明进行说明。
本发明提出一种多指标智能动态阈值监控系统。其特点如下:
使用时间序列分析技术,分析监控指标过去p个周期的历史数据,提炼数据的技术特征,结合业务特征,按照特征与算法之间的映射规则,自动选择系统内部集成的时间序列预测算法预测业务指标未来q个周期内的取值;
结合业务指标的技术特征、业务特征和预测值,自动地、智能地生成业务指标的最佳监控策略,包括动态监控阈值和告警判定策略;
对于长期趋势发生变化的监控测点,智能识别监控数据的变化,并自适应地改变监控策略;
使用于多种业务指标和技术指标,通用性强。
所述方案包括以下基本步骤:
步骤一:获取过去p时间内的监控历史数据,经数据清洗后转换为标准的时间序列形式。此步骤由数采模块和数据清洗模块完成;
步骤二:此步骤在特征获取模块完成。获取指标的部分业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
步骤三:此步骤在预测模块完成。根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来q个单位时间内的监控指标数据;
步骤四:此步骤在监控策略匹配模块完成。根据技术特征和业务特征,匹配监控策略(包括阈值计算方法和告警判定策略),以预测数据为基准,计算阈值上限和下限,生成未来q个单位时间内的动态阈值序列,保存于数据库;
步骤五:此步骤在监控告警模块完成。从数据库读取需要的监控策略,部署告警判定策略至监控告警模块;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,若满足告警判定判定策略,则触发告警。
进一步的,所述步骤一具体为:
11.获取多个监控测点的历史采集数据,逐个分析。记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
12.获取监控测点设定的采集时间间隔interval;
13.对interval时间窗内的出现多个数据的情况,则认为这一分钟有重复记录,保留i时间窗内的第一个数据点,其余舍去;
14.对interval时间窗口内没有数据的情况,采用朴素预测、插值等方法补齐;
15.对于取值大于/小于监控指标数据取值范围的数据,取对应指标取值范围的上限/下限作为清洗后数据。
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
进一步,所述步骤二具体为:
21.获取监控指标的业务信息,包括不限于取值上限、取值下限、数据时间间隔;
22.使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
23.计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
24.使用变点检测算法检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
26.通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
27.将以上特征保存于特征数据库。
进一步的,所述步骤三具体为:
31.深入研究时间序列预测算法,根据算法特性提炼出各算法适合的场景;
32.获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
33.不同的预测算法需要不同的参数,本申请所述的方案预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
进一步的,所述步骤四具体为:
41.获取监控指标数据特征IQR10,IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
42.以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
43.本申请所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
44.对MP突变时段对应的时间窗口内的数据采用更宽松一级的动态阈值灵敏度和告警判定策略;
45.部署43步骤中推荐的告警判定策略至监控告警模块。
进一步的,所述步骤五具体为:
51.获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
52.每判定一个数据点是是否为异常点后,根据43步骤的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
实施例4:
实施例4为实施例1的优选例,以更为具体地对本发明进行说明。
为了解决传统监控告警体系存在的若干问题,本申请提出一种多指标智能动态阈值监控系统。如图1所示流程为本申请实例提出的多指标智能动态阈值监控系统的一种可能的流程示意图;如图2为这种实施实例中的一种可能的装置结构示意图。
S101步骤涉及2个模块,其一是M1-1数采模块获取监控测点p时长的监控数据,保存至数据库S202;其二是M1-2数据清洗模块清洗数据,转化为标准时间序列,后续流程使用的均为清洗后的时间序列数据,保存至数据库S202。
应理解,上述图2中的M1-1数采模块和M1-2数据清洗模块组成图1所述模块M1;上述数据库中保存所有监控测点对应的监控数据的各项信息,包括采集数据、清洗后的时间序列数据、业务特征、技术特征、预测数据、动态阈值,每个监控测点在数据库中都有唯一标识。
具体地,M1-1数采模块会获取x(x∈N)个监控测点S201-i(i∈[1,x],i∈N)的过去p时间的历史采集数据,分析时则逐个测点进行分析。分析对象测点的采集数据是内采集的原始数据,数据量为n;获取监控测点设定的采集时间间隔interval,以进行数据清洗,清洗数据有三种做法,对应三种不同的情况:
对interval时间内的出现多个数据的情况,则认为这一分钟有重复记录,保留interval时间内的第一条记录,其余删去;
对interval时间内没有数据的情况,采用朴素预测、插值等方法补齐;
对于取值大于/小于监控指标取值范围的数据,取监控指标取值范围的上限/下限作为清洗后数据。
S102步骤获取时序数据的业务特征,计算时序数据技术特征,将特征录入数据库;
具体地,本步骤由M2特征获取模块执行,首先从数据库获取业务特征,包括但不限于取值上限、取值下限、数据时间间隔。业务特征由业务人员人工填写,保存于数据库,这是构建信息服务系统的必要步骤,并不是本申请的监控系统带来的额外工作量。
然后通过数理统计的方式计算技术特征,包括但不限于平稳性、周期性、突变时段、四分位距IQR4、十分位距IQR10和均值。
其中IQR4、IQR10和均值由常规统计方法得出;平稳性由ADF平稳性检验得出;
其中周期性的计算方法具体是,计算时间序列的自相关系数序列acf,通过峰值检测算法获取自相关系数序列峰值点acfpi(i∈N),对比峰值与自相关系数预设阈值,若峰值大于预设阈值,则峰值点对应的时长即为时间序列周期。
如图3,其中突变时段的检测方法步骤具体是,在本申请的一些实施案例中,监控指标历史数据周期为T,则时间序列y对应的时长为p,周期T对应的数据量为m,按周期时长划分为n段时间序列yi(i∈[1,n],i∈N),n为p除以T向下取整。检测yi的突变点,将yi的第一个点和最后一个点也视为突变点。然后按照每两个突变点之间为一段,切分为多段子序列,标记其中偏离其余子序列的离群子序列yij,其中:
i∈[1,n],i∈N
j∈[1,m-1],j∈N
在另一些实施案例中,监控指标历史数据不具有周期性,则此步骤直接输出0,即无突变时段。
进一步的,时间序列的划分为n段的具体方法是:在一些实施案例中,时间序列y对应的时长p为周期T的整数倍,则将y等长划分为n=p/T段子序列;在另一些实施案例中,p不是T的整数倍,则从y的第一时间点数据开始,将y等长划分为时长为T的子序列,直到剩余子序列长度不足T时,舍去剩余子序列,即将y的前n*T个数据点划分为n段分析,n为p/T向下取整。
以每个周期的开始时刻为0时刻,对比所有周期内的突变段相对0时刻的时间,若yi1j1和yi2j2对0时刻的相对时间存在交集,则yi1j1∪yi2j2对应的时间段为筛选突变时段;若一个突变段,与其他周期的所有突变段都没有交集,则舍去此突变段。所有筛选突变时段的集合为监控指标数据的突变时段MP。MP能有效揭示监控测点设备的作业时间规律;MP是一种技术特征。
S103由M3预测模块执行。首先从数据库S202读取时序数据特征,使用预先训练的路由算法,根据特征自动选择适合该监控指标历史数据的预测算法和参数,预测未来q时长的监控数据,保存至数据库。预测算法包括不限于线性回归、指数平滑算法、ARIMA和Prophet;
S104由M4监控策略匹配模块执行。从数据库获取监控指标历史时序数据的特征,根据特征自动匹配监控策略,包括动态阈值上下限敏感度和告警判定策略;从数据库获取业务特征的预测值,根据预测值和动态阈值上下限敏感度,生成监控指标在未来q时间的动态阈值,存入数据库S202;
具体的,首先从数据库获取监控指标历史时序数据的方差σ、四分位距IQR4、十分位距IQR10、取值上限max。在一些实施案例中,监控指标没有明确的取值上限,这种情况下取历史数据最大值为max。
然后计算阈值灵敏度判据k=(IQR10-IQR4)/max,以k为判据,确定业务数据动态阈值上下限宽度margin,则业务数据在未来q个单位时间的动态阈值上限为ypred+margin;动态阈值下限为ypred–margin。在一些实施案例中,判据k与margin的映射关系如下表:
表1某实施例中判据k与margin的映射关系表
应理解,本申请并不局限于上述映射关系,在另一些实施案例中,k至margin的映射关系中不涉及标准差,而是使用了其他技术特征,这由监控指标数据的特征决定。
根据时序数据的快照周期(两数据点之间的时间间隔)为监控指标推荐合适的告警判定策略。对MP突变时段对应的时间段内的阈值,采用更宽松一级的动态阈值灵敏度和告警判定策略。部署推荐的告警判定策略至监控告警模块。
超出动态阈值上下限的数据点称为异常点,在一些实施案例中,本申请可推荐的告警判定策略包含不限于以下策略:
时间间隔是分钟级别的,推荐使用“连续15个数据点中有15个异常点则触发告警”告警判定策略;
时间间隔是小时级别的,推荐使用“连续3个数据点中有3个异常点则触发告警”告警判定策略;
时间间隔是日级别及以上的,推荐使用“连续1个数据点中有1个异常点则触发告警”告警判定策略。
S105由M5监控告警模块执行。模块从数据库S202读取监控指标对应的监控策略,部署告警判定策略至监控服务器S204-i(i∈N),实现策略下发。S204-i监控服务器获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,若满足告警判定判定策略,则触发告警。
应理解,本实施例中M1-2、M2、M3、M4模块部署于S203计算中心,S203计算中心可以是单台计算设备,也可以是服务器集群;可以在计算中心的每台设备内部署M1-2、M2、M3、M4模块全部模块,也可以分布式地每台机器部署若干模块。
同样的,本申请涉及的其他各其它模块均可由单独的服务器实现,必要时也可以以集群的方式实现;可以每台服务器部署全部模块,也可以各模块分布式地部署在多台服务器,本申请对此不做限制。
以上实施例的讲解是为了便于理解本申请的精神和原理,本申请在实施方式方面不受限制。本申请的实施方式可以用于其他的适用场景,如互联网广告业务监控场景、决策支持场景、商业预测场景等,此处不多赘述。
本申请所述实施案例无语言、软硬件限制,在体会本申请的精神和原理的基础上,可以由多种硬件的处理器执行程序指令实现,如可由Windows操作系统的计算机、Linux操作系统的计算机、搭载IOS系统的计算设备、搭载Android系统的计算设备、量子计算机等,执行Java、Python、C++编写的程序指令实现。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种多指标智能动态阈值监控方法,其特征在于,包括:
步骤S1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
步骤S2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
步骤S3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
步骤S4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
步骤S5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
2.根据权利要求1所述的多指标智能动态阈值监控方法,其特征在于,在所述步骤S1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
3.根据权利要求1所述的多指标智能动态阈值监控方法,其特征在于,在所述步骤S2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
4.根据权利要求1所述的多指标智能动态阈值监控方法,其特征在于,在所述步骤S3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库。
5.根据权利要求1所述的多指标智能动态阈值监控方法,其特征在于,在所述步骤S4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块。
6.根据权利要求1所述的多指标智能动态阈值监控方法,其特征在于,在所述步骤S5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
7.一种多指标智能动态阈值监控系统,其特征在于,包括:
模块M1:获取过去时间内的监控历史数据,经数据清洗后转换为时间序列形式;
模块M2:获取业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库;
模块M3:根据技术特征和业务特征,匹配时间序列预测算法,查询参数,使用预测算法预测未来单位时间内的监控指标数据;
模块M4:根据技术特征和业务特征,匹配监控策略,以预测数据为基准,计算阈值上限和下限,生成未来单位时间内的动态阈值序列,保存于数据库;
模块M5:获取监控指标的实时数据,对比实时数据和动态阈值序列,满足告警判定策略,则触发告警。
8.根据权利要求1所述的多指标智能动态阈值监控系统,其特征在于,在所述模块M1中:
获取多个监控测点的历史采集数据,逐个分析,记分析对象测点的采集数据是p时间内采集的原始数据,数据量为n;
获取监控测点设定的采集时间间隔interval;
interval时间窗内的出现多个数据时,则有重复记录,保留interval时间窗内的第一个数据点,其余舍去;
interval时间窗口内没有数据时,采用朴素预测、插值方法补齐;
对于取值大于监控指标数据取值范围的数据,取对应指标取值范围的上限作为清洗后数据;
对于取值小于监控指标数据取值范围的数据,取对应指标取值范围的下限作为清洗后数据;
后续步骤中描述的监控数据均为清洗后的时间序列数据y。
9.根据权利要求1所述的多指标智能动态阈值监控系统,其特征在于,在所述模块M2中:
获取指标的业务信息作为业务特征,计算时间序列的技术特征,将技术特征和业务特征保存于数据库:
获取监控指标的业务信息,包括取值上限、取值下限、数据时间间隔;
使用ADF检验判断清洗后的监控指标时间序列数据是否具备平稳性;
计算监控指标数据的自相关函数值,根据自相关函数值的峰值点和业务特征判定数据的周期T;
检测业务数据突变点,进而检测业务数据的规律性突变子序列,称为突变时段MP;
通过统计方法计算监控指标数据的四分位距IQR4和十分位距IQR10;
将以上特征保存于特征数据库。
10.根据权利要求1所述的多指标智能动态阈值监控系统,其特征在于,在所述模块M3中:
根据指标监控数据对应的技术特征和业务特征,匹配合适的时间序列预测算法,查询技术特征和业务特征得到算法的参数,使用预测算法预测未来单位时间内的监控指标数据:
根据算法特性提炼出各时间序列预测算法适合的场景;
获取监控指标的业务特征和技术特征,建立数据特征至适配算法之间的映射关系,实现自动适配适合监控指标的预测算法;
不同的预测算法需要不同的参数,预先制定监控指标数据特征至预测算法参数的映射关系,自动选择预测算法参数,预测算法预测q个单位时间的预测结果ypred保存至数据库;
在所述模块M4中:
获取监控指标数据特征IQR10、IQR4及取值上限max,以这些特征计算阈值灵敏度判据k,若业务数据上限不明确,则取业务数据的最大值为max;
以k为判据,结合业务数据的特征方差,确定业务数据在未来q个单位时间的动态阈值上下限;
所述监控系统根据时序数据两数据点之间的时间间隔为监控指标推荐合适的告警判定策略;
对MP突变时段对应的时间窗口内的数据采用宽松一级的动态阈值灵敏度和告警判定策略;
部署推荐的告警判定策略至监控告警模块;
在所述模块M5中:
从数据库读取需要的监控策略,部署告警判定策略;获取监控指标的实时数据,对比实时数据和数据库中对应的动态阈值序列,满足告警判定策略,则触发告警:
获取监控指标的实时数据,与对应时间点的动态阈值上下限对比,若超出上下限范围,则将此实时数据点标记为异常点;
每判定一个数据点是是否为异常点后,根据推荐的告警判定策略判定当前时刻是否触发告警,若满足触发条件,则告警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057936.4A CN115794532A (zh) | 2021-09-09 | 2021-09-09 | 多指标智能动态阈值监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057936.4A CN115794532A (zh) | 2021-09-09 | 2021-09-09 | 多指标智能动态阈值监控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794532A true CN115794532A (zh) | 2023-03-14 |
Family
ID=85417009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111057936.4A Pending CN115794532A (zh) | 2021-09-09 | 2021-09-09 | 多指标智能动态阈值监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794532A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982665A (zh) * | 2023-03-21 | 2023-04-18 | 北京东华博泰科技有限公司 | 一种用于水轮机量测数据的质量异常稽核方法及系统 |
CN117252446A (zh) * | 2023-11-15 | 2023-12-19 | 青岛海信信息科技股份有限公司 | 一种过程指标萃取及指标智能运行的方法及系统 |
-
2021
- 2021-09-09 CN CN202111057936.4A patent/CN115794532A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982665A (zh) * | 2023-03-21 | 2023-04-18 | 北京东华博泰科技有限公司 | 一种用于水轮机量测数据的质量异常稽核方法及系统 |
CN117252446A (zh) * | 2023-11-15 | 2023-12-19 | 青岛海信信息科技股份有限公司 | 一种过程指标萃取及指标智能运行的方法及系统 |
CN117252446B (zh) * | 2023-11-15 | 2024-02-13 | 青岛海信信息科技股份有限公司 | 一种过程指标萃取及指标智能运行的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105956734B (zh) | 动态设置it设备的性能的指标阈值的方法及系统 | |
CN108073497B (zh) | 一种基于数据中心数据采集平台的多指标异动分析方法 | |
JP4570527B2 (ja) | システム性能監視プログラム及びシステム性能監視方法 | |
CN110601900B (zh) | 一种网络故障预警方法及装置 | |
CN111262750B (zh) | 一种用于评估基线模型的方法及系统 | |
CN115794532A (zh) | 多指标智能动态阈值监控方法及系统 | |
CN103392176B (zh) | 用于预测网络事件泛滥的装置和方法 | |
WO2023065584A1 (zh) | 设备的剩余使用寿命的确定方法、装置和电子设备 | |
JP2002532799A (ja) | 特にセメントキルンの技術プロセスにおけるセンサ予測のための事例ベース推論システムと方法および装置 | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
JP2000181526A (ja) | プラント状態推定・予測装置及び方法 | |
CN109816136A (zh) | 设备保养预测系统及其操作方法 | |
CN112465237B (zh) | 基于大数据分析的故障预测方法、装置、设备和存储介质 | |
CN116224137A (zh) | 一种ups设备故障预警方法及系统 | |
CN111753875A (zh) | 一种电力信息系统运行趋势分析方法、装置及存储介质 | |
CN112348699A (zh) | 一种供电系统电力设备生命周期管理方法及系统 | |
CN115617606A (zh) | 设备监测方法和系统、电子设备、存储介质 | |
CN116415126A (zh) | 用于造纸机的刮刀的异常检测的方法、装置和计算设备 | |
CN111831447B (zh) | 一种基于性能监控的应用弹性扩容方法及装置 | |
KR102158100B1 (ko) | 이상 감지를 이용한 모니터링 자동화 방법 및 장치 | |
CN113810743A (zh) | 一种直播间流量监控方法和装置 | |
CN115019219A (zh) | 一种智慧工地的施工进度智能管理方法及系统 | |
CN114091238A (zh) | 设备寿命预测方法、装置、电子设备及存储介质 | |
CN114338458A (zh) | 数据安全检测方法及装置 | |
EP3604195B1 (en) | Method, system and computer program product for predicting failure of a noise-emitting apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |