CN109427177B - 一种监控报警方法及装置 - Google Patents

一种监控报警方法及装置 Download PDF

Info

Publication number
CN109427177B
CN109427177B CN201710759645.7A CN201710759645A CN109427177B CN 109427177 B CN109427177 B CN 109427177B CN 201710759645 A CN201710759645 A CN 201710759645A CN 109427177 B CN109427177 B CN 109427177B
Authority
CN
China
Prior art keywords
data
alarm
monitoring
rule
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710759645.7A
Other languages
English (en)
Other versions
CN109427177A (zh
Inventor
吴斌斌
苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Baishancloud Technology Co Ltd
Original Assignee
Guizhou Baishancloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Baishancloud Technology Co Ltd filed Critical Guizhou Baishancloud Technology Co Ltd
Priority to CN201710759645.7A priority Critical patent/CN109427177B/zh
Publication of CN109427177A publication Critical patent/CN109427177A/zh
Application granted granted Critical
Publication of CN109427177B publication Critical patent/CN109427177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/182Level alarms, e.g. alarms responsive to variables exceeding a threshold

Landscapes

  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种监控报警方法及装置,此方法包括:采集监控系统中使用第一报警规则获得报警信息作为第一数据;确定报警阈值低于第一报警规则中报警阈值的第二报警规则,采集监控系统中使用第二报警规则获得报警信息作为第二数据;将人工处理报警记录的数据作为第三数据;对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据,对学习模型进行训练直至训练成功,将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。本发明可以有效监控系统故障发生的可能性,提高报警准确率,改善误报情况。

Description

一种监控报警方法及装置
技术领域
本发明涉及数据监控技术领域,尤其涉及一种监控报警方法及装置。
背景技术
现有的监控报警方案一般包括以下流程:采集整个系统的各项技术指标,执行阈值判断,如果某个技术指标超出阈值后便执行报警通知。监控报警方案中的阈值是很难确定的一个值,对于同一个指标,在不同组件上,由于负载,服务和时间的不同,表示的意义也不同。现有的方案中为了不产生漏报的情况,一般将阈值调整的较低,但这样会导致误报率提高,严重影响用户的使用体验。所以,如何能够提高报警的有效性是需要解决的技术问题。
发明内容
为了解决上述问题,本发明提供了一种监控报警方法及装置。
本发明提供了一种监控报警方法,包括:
采集监控系统中使用第一报警规则获得报警信息作为第一数据;确定报警阈值低于第一报警规则中报警阈值的第二报警规则,采集监控系统中使用第二报警规则获得报警信息作为第二数据;将人工处理报警记录的数据作为第三数据;
对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据,对学习模型进行训练直至训练成功,将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。
上述监控报警方法还具有以下特点:
所述第一报警规则和所述第二报警规则包括监控参数、阈值、报警等级;
所述第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
上述监控报警方法还具有以下特点:
所述根据第三数据确定第一数据的报警价值指数包括:所述第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
上述监控报警方法还具有以下特点:
所述对第一数据、第二数据、第三数据进行格式化处理生成序列包括:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列;设备的类型是以下类型中的一种:服务器、节点。
上述监控报警方法还具有以下特点:
所述方法还包括:根据监控系统的类型确定相应的学习模型;
所述监控系统的类型为服务器时,所述学习模型为长短期记忆网络;
所述监控系统的类型为在线网络时,所述学习模型为循环神经网络。
本发明还提供了一种监控报警装置,包括:
设置模块,用于确定报警阈值低于第一报警规则中报警阈值的第二报警规则;
第一采集模块,用于采集监控系统中使用第一报警规则获得报警信息作为第一数据;
第二采集模块,用于采集监控系统中使用第二报警规则获得报警信息作为第二数据;
第三采集模块,用于采集人工处理报警记录的数据作为第三数据;
预处理模块,用于对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据;
训练模块,用于使用所述输入数据和所述输出数据对学习模型进行训练直至训练成功;
监控模块,用于将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。
上述监控报警装置还具有以下特点:
所述第一报警规则和所述第二报警规则包括监控参数、阈值、报警等级;
所述第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
上述监控报警装置还具有以下特点:
所述预处理模块,用于使用以下方法根据第三数据确定第一数据的报警价值指数:所述第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
上述监控报警装置还具有以下特点:
所述预处理模块,用于使用以下方法对第一数据、第二数据、第三数据进行格式化处理生成序列:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列;设备的类型是以下类型中的一种:服务器、节点。
上述监控报警装置还具有以下特点:
所述装置还包括学习模型选择模块,用于在所述监控系统的类型为服务器时,选择所述学习模型为长短期记忆网络;在所述监控系统的类型为在线网络时,选择所述学习模型为循环神经网络。
本发明可以有效监控系统故障发生的可能性,提高报警准确率,改善误报情况。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中监控报警方法的流程图。
图2是实施例中监控报警装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是实施例中监控报警方法的流程图。此监控报警方法包括:
步骤101,采集监控系统中使用第一报警规则获得报警信息作为第一数据;确定报警阈值低于第一报警规则中报警阈值的第二报警规则,采集监控系统中使用第二报警规则获得报警信息作为第二数据;将人工处理报警记录的数据作为第三数据;
步骤102,对第二数据进行格式化处理后作为输入数据,并且根据第一数据和第三数据确定报警价值指数作为输出数据,对学习模型进行训练直至训练成功;
步骤103,将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。
其中,
第一报警规则包括监控参数、阈值、报警等级。监控参数是以下参数中的至少一种:带宽使用率、CPU负载率、SWAP使用流量、内存占用率、进程个数。例如:第一报警规则包括带宽使用率大于90时对应报警等级为4级。
第二报警规则中的监控参数和报警等级与第一报警规则相同,只是阈值比第一报警规则中相应的阈值小。
第一数据和第二数据中除了包括监控参数和报警等级外,还包括时间、设备标识、持续时间等信息。
第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
步骤102中,所述对第一数据、第二数据、第三数据进行格式化处理生成序列包括:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列;设备的类型是以下类型中的一种:服务器、节点。例如:按服务器类型,针对选取相同服务器的多个监控参数,按固定时间间隔(5分钟)集合成一个分组,生成对应序列。按节点类型,即在ABC数据集中,将相同节点的带宽、丢包、时延、负载、等多个类型的数据,按固定时间间隔组合成一个分组,生成对应序列数据。
根据第三数据确定第一数据的报警价值指数包括:第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
步骤103中运维人员可以根据训练成功的学习模型的输出结果确定报警结果,或者本方法中自动根据训练成功的学习模型的输出结果确定报警结果。输出结果表示相应的监控数据的风险度低于预设值时,可以暂时不报警,收集输出结果,待风险度低于预设值的相应监控数据保存,达到预设数量时,进行报警,输出所收集的所有风险度低于预设值的相应监控数据,从而减少报警的次数,使报警的有效性提高。输出结果表示相应的监控数据的风险度高于预设值时,可以直接报警,输出相应的监控数据。
本方法还包括:根据监控系统的类型确定相应的学习模型。监控系统的类型为服务器时,所述学习模型为长短期记忆网络;监控系统的类型为在线网络时,所述学习模型为循环神经网络。
图2是实施例中监控报警装置的结构图。监控报警装置包括:
设置模块,用于确定报警阈值低于第一报警规则中报警阈值的第二报警规则;
第一采集模块,用于采集监控系统中使用第一报警规则获得报警信息作为第一数据;
第二采集模块,用于采集监控系统中使用第二报警规则获得报警信息作为第二数据;
第三采集模块,用于采集人工处理报警记录的数据作为第三数据;
预处理模块,用于对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据;
训练模块,用于使用所述输入数据和所述输出数据对学习模型进行训练直至训练成功;
监控模块,用于将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。
其中,
第一报警规则和所述第二报警规则包括监控参数、阈值、报警等级;
第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
预处理模块,用于使用以下方法根据第三数据确定第一数据的报警价值指数:所述第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
预处理模块,用于使用以下方法对第一数据、第二数据、第三数据进行格式化处理生成序列:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列;设备的类型是以下类型中的一种:服务器、节点。
装置还包括学习模型选择模块,用于在所述监控系统的类型为服务器时,选择所述学习模型为长短期记忆网络;在所述监控系统的类型为在线网络时,选择所述学习模型为循环神经网络。
本发明可以有效监控系统故障发生的可能性,提高报警准确率,改善误报情况。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种监控报警方法,其特征在于,包括:
采集监控系统中使用第一报警规则获得报警信息作为第一数据;确定报警阈值低于第一报警规则中报警阈值的第二报警规则,采集监控系统中使用第二报警规则获得报警信息作为第二数据;将人工处理报警记录的数据作为第三数据;其中,所述第一报警规则和所述第二报警规则包括监控参数、阈值、报警等级;
对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据,对学习模型进行训练直至训练成功,将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果;其中,所述报警价值指数包括第一数据的报警等级、调高第一数据的报警等级或者调低第一数据的报警等级;
所述对第一数据、第二数据、第三数据进行格式化处理生成序列包括:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列。
2.如权利要求1所述的监控报警方法,其特征在于,
所述第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
3.如权利要求2所述的监控报警方法,其特征在于,
所述根据第三数据确定第一数据的报警价值指数包括:所述第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
4.如权利要求1所述的监控报警方法,其特征在于,
设备的类型是以下类型中的一种:服务器、节点。
5.如权利要求1所述的监控报警方法,其特征在于,
所述方法还包括:根据监控系统的类型确定相应的学习模型;
所述监控系统的类型为服务器时,所述学习模型为长短期记忆网络;
所述监控系统的类型为在线网络时,所述学习模型为循环神经网络。
6.一种监控报警装置,其特征在于,包括:
设置模块,用于确定报警阈值低于第一报警规则中报警阈值的第二报警规则;
第一采集模块,用于采集监控系统中使用第一报警规则获得报警信息作为第一数据;
第二采集模块,用于采集监控系统中使用第二报警规则获得报警信息作为第二数据;其中,所述第一报警规则和所述第二报警规则包括监控参数、阈值、报警等级;
第三采集模块,用于采集人工处理报警记录的数据作为第三数据;
预处理模块,用于对第一数据、第二数据、第三数据进行格式化处理生成序列,选取序列中的第二数据作为输入数据,并且根据第三数据确定第一数据的报警价值指数作为输出数据;其中,所述报警价值指数包括第一数据的报警等级、调高第一数据的报警等级或者调低第一数据的报警等级;
用于使用以下方法对第一数据、第二数据、第三数据进行格式化处理生成序列包括:将同一类型的设备中不同参数的数据,按预设时间间隔集合成同一分组,生成相应的序列;
训练模块,用于使用所述输入数据和所述输出数据对学习模型进行训练直至训练成功;
监控模块,用于将监控系统中使用第二报警规则产生的数据进行格式化处理后输入训练成功的学习模型中得到报警结果。
7.如权利要求6所述的监控报警装置,其特征在于,
所述第三数据包括以下数据中的至少一种:投诉记录、报警处理记录。
8.如权利要求7所述的监控报警装置,其特征在于,
所述预处理模块,用于使用以下方法根据第三数据确定第一数据的报警价值指数:所述第三数据中包括对应于第一数据的投诉记录时,调高第一数据的报警等级后作为报警价值指数;所述第三数据中包括对应于第一数据的误报处理记录时,调低第一数据的报警等级后作为报警价值指数;所述第三数据中不包括对应于第一数据的投诉记录和误报处理记录时,将第一数据的报警等级作为报警价值指数。
9.如权利要求6所述的监控报警装置,其特征在于,
设备的类型是以下类型中的一种:服务器、节点。
10.如权利要求6所述的监控报警装置,其特征在于,
所述装置还包括学习模型选择模块,用于在所述监控系统的类型为服务器时,选择所述学习模型为长短期记忆网络;在所述监控系统的类型为在线网络时,选择所述学习模型为循环神经网络。
CN201710759645.7A 2017-08-25 2017-08-25 一种监控报警方法及装置 Active CN109427177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710759645.7A CN109427177B (zh) 2017-08-25 2017-08-25 一种监控报警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710759645.7A CN109427177B (zh) 2017-08-25 2017-08-25 一种监控报警方法及装置

Publications (2)

Publication Number Publication Date
CN109427177A CN109427177A (zh) 2019-03-05
CN109427177B true CN109427177B (zh) 2020-12-22

Family

ID=65501964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710759645.7A Active CN109427177B (zh) 2017-08-25 2017-08-25 一种监控报警方法及装置

Country Status (1)

Country Link
CN (1) CN109427177B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112602562A (zh) * 2020-12-02 2021-04-06 深圳市农博创新科技有限公司 基于机器学习的灌溉管路故障检测系统及智能灌溉系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9473446B2 (en) * 2014-06-30 2016-10-18 Linkedin Corporation Personalized delivery time optimization
CN104486141B (zh) * 2014-11-26 2018-10-23 国家电网公司 一种误报自适应的网络安全态势预测方法
CN106161060B (zh) * 2015-04-07 2020-11-06 腾讯科技(深圳)有限公司 数据监控方法和装置
CN106708692B (zh) * 2015-11-13 2019-09-27 菜鸟智能物流控股有限公司 建立过滤报警模型的方法和装置以及过滤报警的方法、装置和电子设备
CN106844138A (zh) * 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警系统及方法
CN106961352B (zh) * 2017-03-29 2020-09-25 康朝红 监控系统及监控方法
CN107086944B (zh) * 2017-06-22 2020-04-21 北京奇艺世纪科技有限公司 一种异常检测方法和装置

Also Published As

Publication number Publication date
CN109427177A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN111092757B (zh) 一种异常数据的检测方法、系统及设备
CN108011782B (zh) 用于推送告警信息的方法和装置
US7437281B1 (en) System and method for monitoring and modeling system performance
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN107463904A (zh) 一种确定事件周期值的方法及装置
CN110933115B (zh) 基于动态session的分析对象行为异常检测方法及装置
EP3979416A1 (en) Anomaly detection method and apparatus
CN112751711B (zh) 告警信息处理方法和装置、存储介质和电子设备
CN105068935B (zh) 一种软件测试结果的处理方法及装置
CN112882889A (zh) 异常监控方法、系统、电子设备和存储介质
CN111984495A (zh) 一种大数据监控方法、装置和存储介质
US7617313B1 (en) Metric transport and database load
CN110009347B (zh) 一种区块链交易信息审计的方法及装置
CN104883705B (zh) 一种数据业务投诉的问题定位方法及装置
CN109427177B (zh) 一种监控报警方法及装置
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN114567505A (zh) 一种应用于数字办公的异常会话大数据处理方法及服务器
CN103957230B (zh) 一种客户端用户数确定方法、服务器、客户端及系统
CN113360752A (zh) 一种消息推送的方法、装置、设备及可读介质
CN112365269A (zh) 风险检测方法、装置、设备以及存储介质
CN110598797B (zh) 故障的检测方法及装置、存储介质和电子装置
CN116861480A (zh) 一种敏感数据识别方法、装置、设备及存储介质
CN109598525B (zh) 数据处理方法和装置
CN109656945A (zh) 一种信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant