CN104954178A - 优化系统报警的方法及装置 - Google Patents

优化系统报警的方法及装置 Download PDF

Info

Publication number
CN104954178A
CN104954178A CN201510289743.XA CN201510289743A CN104954178A CN 104954178 A CN104954178 A CN 104954178A CN 201510289743 A CN201510289743 A CN 201510289743A CN 104954178 A CN104954178 A CN 104954178A
Authority
CN
China
Prior art keywords
alarm
type
time interval
monitoring
monitored item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510289743.XA
Other languages
English (en)
Other versions
CN104954178B (zh
Inventor
张振辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510289743.XA priority Critical patent/CN104954178B/zh
Publication of CN104954178A publication Critical patent/CN104954178A/zh
Application granted granted Critical
Publication of CN104954178B publication Critical patent/CN104954178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Alarm Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种优化系统报警的方法,包括:通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;基于当前总报警次数来调整报警方式及报警时间间隔;根据调整后的报警方式及报警时间间隔来发布报警信息。本发明中,由于基于当前总报警次数来调整报警方式及报警时间间隔,使得报警方式多元化,且报警时间间隔与当前总报警次数相关联,避免发布过多的报警信息对系统管理员造成接收干扰;同时,丰富的报警信息可以向系统管理员提供全面的报警信息,从而提高报警信息发布效率,进一步地,为提高系统维护效率提供了可靠保证。

Description

优化系统报警的方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种优化系统报警的方法及装置。
背景技术
现有技术中存在多种网络监控方式,如Ganglia、Zabbix等监控方式。Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,其能监视各种网络参数,保证网络设备的安全运营;且提供了报警机制以让系统管理员快速定位并解决存在的各种问题。但现有的报警机制比较简单,仅可以通过单一的报警方式、固定的报警次数及固定的报警时间间隔来发布报警信息,且报警信息内容单一,无法向系统管理员提供全面的报警信息,同时由于报警方式单一导致报警效率较差,降低系统维护效率。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本方案的实施例中提供了一种优化系统报警的方法,包括:
通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;
当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;
基于当前总报警次数来调整报警方式及报警时间间隔;以及
根据调整后的报警方式及报警时间间隔来发布报警信息。
本方案的另一实施例中提供了一种优化系统报警的装置,包括:
结果采集模块,用于通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;
第一生成模块,用于当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;
调整模块,用于基于当前总报警次数来调整报警方式及报警时间间隔;
发布模块,用于根据调整后的报警方式及报警时间间隔来发布报警信息。
本发明的实施例中,由于基于当前总报警次数来调整报警方式及报警时间间隔,使得报警方式多元化,且报警时间间隔与当前总报警次数相关联,避免发布过多的报警信息对系统管理员造成接收干扰;同时,丰富的报警信息可以向系统管理员提供全面的报警信息,从而提高报警信息发布效率,进一步地,为提高系统维护效率提供了可靠保证。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中数据库数据恢复的方法一个实施例的流程示意图;
图2为本发明中数据库数据恢复的装置一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
图1为本发明中数据库数据恢复的方法一个实施例的流程示意图。
步骤S110:通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;步骤S120:当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;步骤S130:基于当前总报警次数来调整报警方式及报警时间间隔;步骤S140:根据调整后的报警方式及报警时间间隔来发布报警信息。
本发明的实施例中,由于基于当前总报警次数来调整报警方式及报警时间间隔,使得报警方式多元化,且报警时间间隔与总报警次数相关联,避免发布过多的报警信息对系统管理员造成接收干扰;同时,丰富的报警信息可以向系统管理员提供全面的报警信息,从而提高报警信息发布效率,进一步地,为提高系统维护效率提供了可靠保证。
步骤S110:通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据。
具体地,通过Zabbix、Ganglia等监控方式来实时监控多台计算机设备,并以预定的采集频率来采集每一计算机设备多个监控项的监控结果数据。
步骤S120:当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息。
具体地,预设置每一监控项的报警阈值,当任一监控项的监控结果数据达到该监控项的报警阈值时,即该监控项异常,生成报警信息。
其中,报警信息包括但不限于:设备相关信息;监控项的监控类型;监控项的监控结果数据;报警问题的处理状态。
其中,设备相关信息包括但不限于:设备标识,如主机名;分区标识,如分区名;端口号;IP地址;数据库类型,如MySQL数据库、Mongo数据库等;数据库主从角色,如主、从数据库。
其中,监控项的监控类型包括但不限于:CPU使用状态、内存占用状态、分区使用状态、硬盘占用状态、网络状态、数据库状态、端口状态等。相应地,监控项的监控结果数据包括但不限于:CPU使用率、内存占用率、分区使用率、硬盘占用率、网络通断状态、数据库可读写状态、端口通断状态等。
其中,报警问题的处理状态包括但不限于:报警问题已处理,报警问题未处理、未处理的时间长度。
具体地,设备相关信息、监控项的监控类型、监控项的监控结果数据和报警问题的处理状态分别保存于数据库中,如保存在MySQL数据库的多张表中,且多张表通过该监控项的监控项ID相互关联,当任一监控项的监控结果数据达到该监控项的报警阈值时,基于该监控项ID,从数据库的多张表中分别提取与该监控项ID相应的报警参数信息,合并生成报警信息。
例如,当采集到监控项CPU使用状态的监控结果数据为CPU使用率为90%,达到预设的CPU使用状态的报警阈值时,生成报警信息,该报警信息包括如下信息:
主机名:M:db02.add.shgt;
分区名:/data1;
监控项的监控类型及监控结果数据:CPU使用率异常:90%;
报警问题的处理状态:PROBLEM。
步骤S130:基于当前总报警次数来调整报警方式及报警时间间隔。
其中,具体调整方式包括但不限于:
若当前总报警次数未达到第一报警次数阈值时,确定报警方式为第一报警方式,并确定报警时间间隔为第一报警时间间隔;
若当前总报警次数达到第一报警次数阈值时,将报警方式调整为第二报警方式,并将报警时间间隔调整为第二报警时间间隔;
若当前总报警次数达到第二报警次数阈值时,将报警方式调整为第三报警方式,并将前次报警与本次报警之间的时间间隔调整为第三报警时间间隔;
若当前总报警次数达到第三报警次数阈值时,将当前报警方式调整为第四报警方式,并将当前报警时间间隔调整为第四报警时间间隔。
其中,第一报警方式、第二报警方式、第三报警方式和第四报警方式可相同或不同。
其中,报警方式包括但不限于:短信、邮件及电话。
短信:预设置系统管理员的手机号码,通过调用短信发送接口,将报警信息以短信息的方式发布。
邮件:预设置系统管理员的电子邮箱地址,通过调用电子邮箱的邮件发送接口,将报警信息以邮件的方式发布。
电话:将报警信息通过文本语音转换技术转换为语音报警信息,再以电话拨号的方式发布语音报警信息,例如,当用户接听电话时,播放语音报警信息。
例如,若当前总报警次数未达到第一报警次数阈值2次时,确定短信息报警方式为第一报警方式,并确定10分钟报警时间间隔为第一报警时间间隔;若当前总报警次数达到第一报警次数阈值2次,将后续报警方式调整为邮件报警方式,即第二报警方式,并将报警时间间隔调整为15分钟,即为第二报警时间间隔;若当前总报警次数达到第二报警次数阈值8次时,将后续报警方式调整为短信息报警方式,即第三报警方式,并将后续报警之间的时间间隔调整为20分钟,即第三报警时间间隔;若当前总报警次数达到第三报警次数阈值20次,将后续报警方式调整为邮件报警方式,即第四报警方式,并将报警时间间隔调整为1小时,即为第四报警时间间隔。
步骤S140:根据调整后的报警方式及报警时间间隔来发布报警信息。
具体地,持续地对该监控项进行监控,若监控项的监控结果数据持续地达到该监控项的报警阈值,则基于当前总报警次数来调整变换不同的报警方式,并调整变换报警时间间隔。
例如,持续地对该监控项进行监控,若监控项的监控结果数据持续地达到该监控项的报警阈值,调整报警方式及报警时间间隔的具体方式为:
1)第1-2次发布报警信息时,以短信息的方式、且依照报警时间间隔为10分钟来发送报警信息;
2)当当前总报警次数为2次,而监控结果数据依然达到该监控项的报警阈值时,则第3-7次发布报警信息,以邮件的方式、且依照报警时间间隔为15分钟来发送报警信息;
3)当当前总报警次数为8次,而监控结果数据依然达到该监控项的报警阈值时,则第9次发布报警信息,以短信息的方式发送报警信息;优选地,第8次发布报警信息时报警信息中提示已达到最大报警次数;
4)当当前总报警次数为20次,而监控结果数据依然达到该监控项的报警阈值时,则第20-1000次发布报警信息,以邮件的方式、且依照报警时间间隔为1小时来发送报警信息。
优选地(参照图1),当多台计算机设备归属于同一IDC(Internet DataCenter,互联网数据中心)时,该方法还包括步骤S150(图中未示出)。
步骤S150:当监控到IDC的一个监控项为异常状态时,生成与多台计算机设备相应的一条统一报警信息。
具体地,如果多台计算机设备属于同一IDC,该多台计算机设备的某一监控项与该IDC的某一监控项存在依赖关系,当监控到IDC的某一监控项为异常状态时,属于该IDC的多台计算机设备的该监控项也会异常状态,则生成与多台计算机设备相应的一条统一报警信息。
其中,该监控项的监控类型具体为监控IDC的网络状态。
例如,多台计算机设备属于同一IDC,对该IDC网关的网络状态进行实时监控,当监控到该IDC出现网络异常状态时,可确定属于该IDC的全部计算机设备均会出现网络异常状态,则生成一条统一报警信息,该统一报警信息包括IDC网关的IP地址,该IDC中包括的多台计算机设备的IP地址、网络异常信息、报警问题的处理状态等信息。
本优选实施例中,将具有依赖关系的多台计算机设备的同一监控项的报警信息合并为一条统一报警信息,系统管理员收到一条统一报警信息即可获知多台计算机设备的统一的待处理问题,避免发布过多的报警信息对系统管理员造成接收干扰,提高报警效率。
优选地(参照图1),该方法还包括步骤S160(图中未示出);步骤S160:当监控到属于同一监控类型的多个监控项均为异常状态时,生成整合报警信息,整合报警信息包括整合后的多个监控项的监控结果数据。
具体地,属于同一监控类型的多个监控项具体可包括:对同一计算机设备的多个端口进行端口状态监控,每一端口的端口状态为一个监控项,且均属于端口状态监控类型;对具有主从数据库关系的多个计算机设备进行数据库状态监控,如一主三从,则一个数据库主机和三个从数据库从机的端口状态分别为一个监控项,且均属于数据库状态监控类型。
在一个具体实施例中,监控类型为监控端口状态时,当监控到属于同一计算机设备的多个端口状态均为异常状态时,提取与每个端口相应的报警参数信息;对与每个端口相应的报警参数信息进行整合处理,生成整合报警信息。
具体地,设备相关信息、监控项的监控类型、监控项的监控结果数据和报警问题的处理状态分别保存于数据库中,如保存在MySQL数据库的多张表中,且多张表通过该监控项的监控项ID相互关联,监控类型为监控端口状态时,当监控到属于同一计算机设备的多个端口状态均为异常状态时,基于该多个端口状态的监控项ID,从数据库中分别提取与多个端口状态的监控项ID分别相应的报警参数信息,并写入数据库中统一的一张表;对该表中的报警参数信息进行整合处理,生成整合报警信息。例如,整合报警信息中包括主机名、主机IP、多个端口的端口号、状况异常状态等。
在另一具体实施例中,监控类型为监控数据库状态时,当监控到属于同一主数据库的多个从数据库状态均为异常状态时,提取与主、从数据库相应的报警参数信息;对与主、从数据库相应的报警参数信息进行整合处理,生成整合报警信息。
具体地,监控类型为监控数据库状态,当监控到属于同一主数据库的多个从数据库状态均为异常状态时,基于该主数据库的主数据库ID,确定与主数据库ID相应的从数据库ID,并基于主、从数据库ID对应的监控主、从数据库状态的监控项ID,从MySQL数据库的多张表中分别提取与监控主、从数据库状态的监控项ID相应的报警参数信息,并写入数据库中统一的一张表;对该表中的报警参数信息进行整合处理,生成整合报警信息。例如,整合报警信息中包括主、从数据库分别对应的设备IP、主从数据库角色信息、数据库类型等。
本优选实施例中,将属于同一监控类型的多个监控项的报警信息整合为一条整合报警信息,系统管理员收到一条整合报警信息即可获知一台或多台计算机设备上的属于同一监控类型的多个监控项的待处理问题,避免向系统管理员发布过多的报警信息,提高报警效率,提升系统管理员的接收体验。
图2为本发明中数据库数据恢复的装置一个实施例的结构示意图。
结果采集模块210通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;当任一监控项的监控结果数据达到该监控项的报警阈值时,第一生成模块220生成报警信息;调整模块230基于当前总报警次数来调整报警方式及报警时间间隔;发布模块240根据调整后的报警方式及报警时间间隔来发布报警信息。
本发明的实施例中,由于基于当前总报警次数来调整报警方式及报警时间间隔,使得报警方式多元化,且报警时间间隔与当前总报警次数相关联,避免发布过多的报警信息对系统管理员造成接收干扰;同时,丰富的报警信息可以向系统管理员提供全面的报警信息,从而提高报警信息发布效率,进一步地,为提高系统维护效率提供了可靠保证。
结果采集模块210通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据。
具体地,通过Zabbix、Ganglia等监控方式来实时监控多台计算机设备,并以预定的采集频率来采集每一计算机设备多个监控项的监控结果数据。
当任一监控项的监控结果数据达到该监控项的报警阈值时,第一生成模块220生成报警信息。
具体地,预设置每一监控项的报警阈值,当任一监控项的监控结果数据达到该监控项的报警阈值时,即该监控项异常,生成报警信息。
其中,报警信息包括但不限于:设备相关信息;监控项的监控类型;监控项的监控结果数据;报警问题的处理状态。
其中,设备相关信息包括但不限于:设备标识,如主机名;分区标识,如分区名;端口号;IP地址;数据库类型,如MySQL数据库、Mongo数据库等;数据库主从角色,如主、从数据库。
其中,监控项的监控类型包括但不限于:CPU使用状态、内存占用状态、分区使用状态、硬盘占用状态、网络状态、数据库状态、端口状态等。相应地,监控项的监控结果数据包括但不限于:CPU使用率、内存占用率、分区使用率、硬盘占用率、网络通断状态、数据库可读写状态、端口通断状态等。
其中,报警问题的处理状态包括但不限于:报警问题已处理,报警问题未处理、未处理的时间长度。
具体地,设备相关信息、监控项的监控类型、监控项的监控结果数据和报警问题的处理状态分别保存于数据库中,如保存在MySQL数据库的多张表中,且多张表通过该监控项的监控项ID相互关联,当任一监控项的监控结果数据达到该监控项的报警阈值时,基于该监控项ID,从数据库的多张表中分别提取与该监控项ID相应的报警参数信息,合并生成报警信息。
例如,当采集到监控项CPU使用状态的监控结果数据为CPU使用率为90%,达到预设的CPU使用状态的报警阈值时,生成报警信息,该报警信息包括如下信息:
主机名:M:db02.add.shgt;
分区名:/data1;
监控项的监控类型及监控结果数据:CPU使用率异常:90%;
报警问题的处理状态:PROBLEM。
调整模块230基于当前总报警次数来调整报警方式及报警时间间隔。
其中,调整模块230具体调整报警方式及报警时间间隔的方式包括但不限于:
若当前总报警次数未达到第一报警次数阈值时,确定报警方式为第一报警方式,并确定报警时间间隔为第一报警时间间隔;
若当前总报警次数达到第一报警次数阈值时,将报警方式调整为第二报警方式,并将报警时间间隔调整为第二报警时间间隔;
若当前总报警次数达到第二报警次数阈值时,将报警方式调整为第三报警方式,并将前次报警与本次报警之间的时间间隔调整为第三报警时间间隔;
若当前总报警次数达到第三报警次数阈值时,将当前报警方式调整为第四报警方式,并将当前报警时间间隔调整为第四报警时间间隔。
其中,第一报警方式、第二报警方式、第三报警方式和第四报警方式可相同或不同。
其中,报警方式包括但不限于:短信、邮件及电话。
短信:预设置系统管理员的手机号码,通过调用短信发送接口,将报警信息以短信息的方式发布。
邮件:预设置系统管理员的电子邮箱地址,通过调用电子邮箱的邮件发送接口,将报警信息以邮件的方式发布。
电话:将报警信息通过文本语音转换技术转换为语音报警信息,再以电话拨号的方式发布语音报警信息,例如,当用户接听电话时,播放语音报警信息。
例如,若当前总报警次数未达到第一报警次数阈值2次时,确定短信息报警方式为第一报警方式,并确定10分钟报警时间间隔为第一报警时间间隔;若当前总报警次数达到第一报警次数阈值2次,将后续报警方式调整为邮件报警方式,即第二报警方式,并将报警时间间隔调整为15分钟,即为第二报警时间间隔;若当前总报警次数达到第二报警次数阈值8次时,将后续报警方式调整为短信息报警方式,即第三报警方式,并将后续报警之间的时间间隔调整为20分钟,即第三报警时间间隔;若当前总报警次数达到第三报警次数阈值20次,将报警方式调整为邮件报警方式,即第四报警方式,并将报警时间间隔调整为1小时,即为第四报警时间间隔。
发布模块240根据调整后的报警方式及报警时间间隔来发布报警信息。
具体地,持续地对该监控项进行监控,若监控项的监控结果数据持续地达到该监控项的报警阈值,则基于当前总报警次数来调整变换不同的报警方式,并调整变换报警时间间隔。
例如,持续地对该监控项进行监控,若监控项的监控结果数据持续地达到该监控项的报警阈值,调整报警方式及报警时间间隔的具体方式为:
1)第1-2次发布报警信息时,以短信息的方式、且依照报警时间间隔为10分钟来发送报警信息;
2)当当前总报警次数为2次,而监控结果数据依然达到该监控项的报警阈值时,则第3-7次发布报警信息,以邮件的方式、且依照报警时间间隔为15分钟来发送报警信息;
3)当当前总报警次数为8次,而监控结果数据依然达到该监控项的报警阈值时,则第9次发布报警信息,以短信息的方式发送报警信息;优选地,第8次发布报警信息时报警信息中提示已达到最大报警次数;
4)当当前总报警次数为20次,而监控结果数据依然达到该监控项的报警阈值时,则第20-1000次发布报警信息,以邮件的方式、且依照报警时间间隔为1小时来发送报警信息。
其中,报警方式包括但不限于:短信、邮件及电话。
短信:预设置系统管理员的手机号码,通过调用短信发送接口,将报警信息以短信息的方式发布。
邮件:预设置系统管理员的电子邮箱地址,通过调用电子邮箱的邮件发送接口,将报警信息以邮件的方式发布。
电话:将报警信息通过文本语音转换技术转换为语音报警信息,再以电话拨号的方式发布语音报警信息,例如,当用户接听电话时,播放语音报警信息。
优选地(参照图2),当多台计算机设备归属于同一IDC(Internet DataCenter,互联网数据中心)时,该装置还包括第二生成模块(图中未示出)。
当监控到IDC的一个监控项为异常状态时,第二生成模块生成与多台计算机设备相应的一条统一报警信息。
具体地,如果多台计算机设备属于同一IDC,该多台计算机设备的某一监控项与该IDC的某一监控项存在依赖关系,当监控到IDC的某一监控项为异常状态时,属于该IDC的多台计算机设备的该监控项也会异常状态,则生成与多台计算机设备相应的一条统一报警信息。
其中,该监控项的监控类型具体为监控IDC的网络状态。
例如,多台计算机设备属于同一IDC,对该IDC网关的网络状态进行实时监控,当监控到该IDC出现网络异常状态时,可确定属于该IDC的全部计算机设备均会出现网络异常状态,则生成一条统一报警信息,该统一报警信息包括IDC网关的IP地址,该IDC中包括的多台计算机设备的IP地址、网络异常信息、报警问题的处理状态等信息。
本优选实施例中,将具有依赖关系的多台计算机设备的同一监控项的报警信息合并为一条统一报警信息,系统管理员收到一条统一报警信息即可获知多台计算机设备的统一的待处理问题,避免发布过多的报警信息对系统管理员造成接收干扰,提高报警效率。
优选地(参照图2),该装置还包括第三生成模块(图中未示出);当监控到属于同一监控类型的多个监控项均为异常状态时,第三生成模块生成整合报警信息,整合报警信息包括整合后的多个监控项的监控结果数据。
具体地,属于同一监控类型的多个监控项具体可包括:对同一计算机设备的多个端口进行端口状态监控,每一端口的端口状态为一个监控项,且均属于端口状态监控类型;对具有主从数据库关系的多个计算机设备进行数据库状态监控,如一主三从,则一个数据库主机和三个从数据库从机的端口状态分别为一个监控项,且均属于数据库状态监控类型。
在一个具体实施例中,监控类型为监控端口状态时,当监控到属于同一计算机设备的多个端口状态均为异常状态时,提取与每个端口相应的报警参数信息;对与每个端口相应的报警参数信息进行整合处理,生成整合报警信息。
具体地,设备相关信息、监控项的监控类型、监控项的监控结果数据和报警问题的处理状态分别保存于数据库中,如保存在MySQL数据库的多张表中,且多张表通过该监控项的监控项ID相互关联,监控类型为监控端口状态时,当监控到属于同一计算机设备的多个端口状态均为异常状态时,基于该多个端口状态的监控项ID,从数据库中分别提取与多个端口状态的监控项ID分别相应的报警参数信息,并写入数据库中统一的一张表;对该表中的报警参数信息进行整合处理,生成整合报警信息。例如,整合报警信息中包括主机名、主机IP、多个端口的端口号、状况异常状态等。
在另一具体实施例中,监控类型为监控数据库状态时,当监控到属于同一主数据库的多个从数据库状态均为异常状态时,提取与主、从数据库相应的报警参数信息;对与主、从数据库相应的报警参数信息进行整合处理,生成整合报警信息。
具体地,监控类型为监控数据库状态,当监控到属于同一主数据库的多个从数据库状态均为异常状态时,基于该主数据库的主数据库ID,确定与主数据库ID相应的从数据库ID,并基于主、从数据库ID对应的监控主、从数据库状态的监控项ID,从MySQL数据库的多张表中分别提取与监控主、从数据库状态的监控项ID相应的报警参数信息,并写入数据库中统一的一张表;对该表中的报警参数信息进行整合处理,生成整合报警信息。例如,整合报警信息中包括主、从数据库分别对应的设备IP、主从数据库角色信息、数据库类型等。
本优选实施例中,将属于同一监控类型的多个监控项的报警信息整合为一条整合报警信息,系统管理员收到一条整合报警信息即可获知一台或多台计算机设备上的属于同一监控类型的多个监控项的待处理问题,避免向系统管理员发布过多的报警信息,提高报警效率,提升系统管理员的接收体验。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种优化系统报警的方法,其特征在于,包括:
通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;
当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;
基于当前总报警次数来调整报警方式及报警时间间隔;以及
根据调整后的报警方式及报警时间间隔来发布所述报警信息。
2.根据权利要求1所述的优化系统报警的方法,其中,基于当前总报警次数来调整报警方式及报警时间间隔,具体至少包括下列情形中的至少一项:
若当前总报警次数未达到第一报警次数阈值时,确定报警方式为第一报警方式,并确定报警时间间隔为第一报警时间间隔;
若当前总报警次数达到第一报警次数阈值时,将报警方式调整为第二报警方式,并将报警时间间隔调整为第二报警时间间隔;
若当前总报警次数达到第二报警次数阈值时,将报警方式调整为第三报警方式,并将前次报警与本次报警之间的时间间隔调整为第三报警时间间隔;
若当前总报警次数达到第三报警次数阈值时,将当前报警方式调整为第四报警方式,并将当前报警时间间隔调整为第四报警时间间隔。
3.根据权利要求1-2任一项所述的优化系统报警的方法,其中,当所述多台计算机设备归属于同一IDC时,该方法还包括:
当监控到所述IDC的一个监控项为异常状态时,生成与所述多台计算机设备相应的一条统一报警信息。
4.根据权利要求3所述的优化系统报警的方法,其中,该监控项的监控类型为监控IDC的网络状态。
5.根据权利要求1-4任一项所述的优化系统报警的方法,其中,该方法还包括:
当监控到属于同一监控类型的多个监控项均为异常状态时,生成整合报警信息,所述整合报警信息包括整合后的多个监控项的监控结果数据。
6.一种优化系统报警的装置,其特征在于,包括:
结果采集模块,用于通过实时监控多台计算机设备,来采集每一计算机设备多个监控项的监控结果数据;
第一生成模块,用于当任一监控项的监控结果数据达到该监控项的报警阈值时,生成报警信息;
调整模块,用于基于当前总报警次数来调整报警方式及报警时间间隔;
发布模块,用于根据调整后的报警方式及报警时间间隔来发布所述报警信息。
7.根据权利要求6所述的优化系统报警的装置,其中,所述调整模块具体用于以下一种或多种情形:
若当前总报警次数未达到第一报警次数阈值时,确定报警方式为第一报警方式,并确定报警时间间隔为第一报警时间间隔;
若当前总报警次数达到第一报警次数阈值时,将报警方式调整为第二报警方式,并将报警时间间隔调整为第二报警时间间隔;
若当前总报警次数达到第二报警次数阈值时,将报警方式调整为第三报警方式,并将前次报警与本次报警之间的时间间隔调整为第三报警时间间隔;
若当前总报警次数达到第三报警次数阈值时,将当前报警方式调整为第四报警方式,并将当前报警时间间隔调整为第四报警时间间隔。
8.根据权利要求6或7所述的优化系统报警的装置,其中,当所述多台计算机设备归属于同一IDC时,该装置还包括:
第二生成模块,用于当监控到所述IDC的一个监控项为异常状态时,生成与所述多台计算机设备相应的一条统一报警信息。
9.根据权利要求8所述的优化系统报警的装置,其中,该监控项的监控类型为监控IDC的网络状态。
10.根据权利要求6-9任一项所述的优化系统报警的装置,其中,该装置还包括:
第三生成模块,用于当监控到属于同一监控类型的多个监控项均为异常状态时,生成整合报警信息,所述整合报警信息包括整合后的多个监控项的监控结果数据。
CN201510289743.XA 2015-05-29 2015-05-29 优化系统报警的方法及装置 Active CN104954178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510289743.XA CN104954178B (zh) 2015-05-29 2015-05-29 优化系统报警的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510289743.XA CN104954178B (zh) 2015-05-29 2015-05-29 优化系统报警的方法及装置

Publications (2)

Publication Number Publication Date
CN104954178A true CN104954178A (zh) 2015-09-30
CN104954178B CN104954178B (zh) 2019-02-15

Family

ID=54168553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510289743.XA Active CN104954178B (zh) 2015-05-29 2015-05-29 优化系统报警的方法及装置

Country Status (1)

Country Link
CN (1) CN104954178B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549508A (zh) * 2015-12-25 2016-05-04 北京奇虎科技有限公司 一种基于信息合并的报警方法及装置
CN105897491A (zh) * 2016-06-24 2016-08-24 努比亚技术有限公司 一种过滤无效监控报警信息的方法及其装置
CN105957314A (zh) * 2016-04-29 2016-09-21 北京奇虎科技有限公司 一种监控报警方法和系统
CN106161112A (zh) * 2016-08-31 2016-11-23 上海地面通信息网络有限公司 一种基于web界面的分布式idc网络监控系统
WO2017167048A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 异常监控报警方法及装置
CN107579861A (zh) * 2017-10-09 2018-01-12 杭州安恒信息技术有限公司 基于多线路监测的网站可用性告警方法、装置及电子设备
CN108306749A (zh) * 2017-01-12 2018-07-20 阿里巴巴集团控股有限公司 一种监控系统报警方法、监控系统和监控装置
CN108427608A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 事件告警方法及事件告警装置
CN109274526A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 测试缺陷自动预警方法、装置、计算机设备及存储介质
CN109558298A (zh) * 2018-10-12 2019-04-02 平安科技(深圳)有限公司 基于深度学习模型的告警执行频率优化方法及相关设备
CN110990234A (zh) * 2019-11-29 2020-04-10 浙江大搜车软件技术有限公司 报警收敛方法、装置、设备和计算机可读存储介质
CN111770302A (zh) * 2020-07-16 2020-10-13 安徽华速达电子科技有限公司 基于光网络单元设备的视频推流负载均衡方法及系统
CN111899568A (zh) * 2020-07-17 2020-11-06 广州忘平信息科技有限公司 桥梁防撞预警系统、方法、装置和存储介质
CN112116792A (zh) * 2020-09-18 2020-12-22 北京金山云网络技术有限公司 报警信息处理方法、装置及计算机设备
CN112260878A (zh) * 2020-11-04 2021-01-22 罗鑫龙 互联网数据中心机房人工智能管理系统及方法
CN112988504A (zh) * 2021-02-08 2021-06-18 北京奇艺世纪科技有限公司 一种报警策略的设定方法、装置、电子设备及存储介质
CN113032217A (zh) * 2021-03-26 2021-06-25 山东英信计算机技术有限公司 一种集群监控方法及相关装置
CN113346621A (zh) * 2021-06-16 2021-09-03 贵州电网有限责任公司 一种电力监控系统设备告警信号变化预警方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN102201928A (zh) * 2010-03-24 2011-09-28 中兴通讯股份有限公司 告警级别处理方法及告警服务器
CN102497292A (zh) * 2011-11-30 2012-06-13 中国科学院微电子研究所 计算机集群监控的方法及系统
CN102567182A (zh) * 2010-12-27 2012-07-11 无锡华润上华科技有限公司 远程主机的监控方法
US20140283074A1 (en) * 2013-03-15 2014-09-18 Stephen SOHN Method and system for protective distribution system (pds) and infrastructure protection and management
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN102201928A (zh) * 2010-03-24 2011-09-28 中兴通讯股份有限公司 告警级别处理方法及告警服务器
CN102567182A (zh) * 2010-12-27 2012-07-11 无锡华润上华科技有限公司 远程主机的监控方法
CN102497292A (zh) * 2011-11-30 2012-06-13 中国科学院微电子研究所 计算机集群监控的方法及系统
US20140283074A1 (en) * 2013-03-15 2014-09-18 Stephen SOHN Method and system for protective distribution system (pds) and infrastructure protection and management
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549508A (zh) * 2015-12-25 2016-05-04 北京奇虎科技有限公司 一种基于信息合并的报警方法及装置
US20190036762A1 (en) * 2016-03-29 2019-01-31 Alibaba Group Holding Limited Exception monitoring and alarming method and apparatus
WO2017167048A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 异常监控报警方法及装置
CN107241210A (zh) * 2016-03-29 2017-10-10 阿里巴巴集团控股有限公司 异常监控报警方法及装置
CN105957314A (zh) * 2016-04-29 2016-09-21 北京奇虎科技有限公司 一种监控报警方法和系统
CN105957314B (zh) * 2016-04-29 2018-07-10 北京奇虎科技有限公司 一种监控报警方法和系统
CN105897491A (zh) * 2016-06-24 2016-08-24 努比亚技术有限公司 一种过滤无效监控报警信息的方法及其装置
CN106161112A (zh) * 2016-08-31 2016-11-23 上海地面通信息网络有限公司 一种基于web界面的分布式idc网络监控系统
CN108306749B (zh) * 2017-01-12 2021-11-05 阿里巴巴集团控股有限公司 一种监控系统报警方法、监控系统和监控装置
CN108306749A (zh) * 2017-01-12 2018-07-20 阿里巴巴集团控股有限公司 一种监控系统报警方法、监控系统和监控装置
CN108427608A (zh) * 2017-02-15 2018-08-21 腾讯科技(深圳)有限公司 事件告警方法及事件告警装置
CN108427608B (zh) * 2017-02-15 2020-12-01 腾讯科技(深圳)有限公司 事件告警方法及事件告警装置
CN107579861A (zh) * 2017-10-09 2018-01-12 杭州安恒信息技术有限公司 基于多线路监测的网站可用性告警方法、装置及电子设备
CN109274526A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 测试缺陷自动预警方法、装置、计算机设备及存储介质
CN109274526B (zh) * 2018-08-31 2023-04-07 平安科技(深圳)有限公司 测试缺陷自动预警方法、装置、计算机设备及存储介质
CN109558298A (zh) * 2018-10-12 2019-04-02 平安科技(深圳)有限公司 基于深度学习模型的告警执行频率优化方法及相关设备
CN109558298B (zh) * 2018-10-12 2022-07-19 平安科技(深圳)有限公司 基于深度学习模型的告警执行频率优化方法及相关设备
CN110990234A (zh) * 2019-11-29 2020-04-10 浙江大搜车软件技术有限公司 报警收敛方法、装置、设备和计算机可读存储介质
CN111770302A (zh) * 2020-07-16 2020-10-13 安徽华速达电子科技有限公司 基于光网络单元设备的视频推流负载均衡方法及系统
CN111899568A (zh) * 2020-07-17 2020-11-06 广州忘平信息科技有限公司 桥梁防撞预警系统、方法、装置和存储介质
CN111899568B (zh) * 2020-07-17 2021-09-07 广州忘平信息科技有限公司 桥梁防撞预警系统、方法、装置和存储介质
CN112116792A (zh) * 2020-09-18 2020-12-22 北京金山云网络技术有限公司 报警信息处理方法、装置及计算机设备
CN112260878A (zh) * 2020-11-04 2021-01-22 罗鑫龙 互联网数据中心机房人工智能管理系统及方法
CN112988504A (zh) * 2021-02-08 2021-06-18 北京奇艺世纪科技有限公司 一种报警策略的设定方法、装置、电子设备及存储介质
CN113032217A (zh) * 2021-03-26 2021-06-25 山东英信计算机技术有限公司 一种集群监控方法及相关装置
CN113346621A (zh) * 2021-06-16 2021-09-03 贵州电网有限责任公司 一种电力监控系统设备告警信号变化预警方法

Also Published As

Publication number Publication date
CN104954178B (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN104954178A (zh) 优化系统报警的方法及装置
CN107566163B (zh) 一种用户行为分析关联的告警方法及装置
CN101976885B (zh) 远程智能网管电源管理系统
EP2800024A1 (en) System and methods for identifying applications in mobile networks
CN104954184A (zh) 云端后台服务器集群的监控、告警方法及系统
CN105119950B (zh) 一种配电网通信方法
RU2012137104A (ru) Регистрация событий безопастности при управлении технологическим процессом
CN103544093A (zh) 监控报警控制方法及其系统
CN102447570A (zh) 一种基于健康度分析的监控装置及方法
CN108092847B (zh) 一种电力lte无线终端远程在线监控方法
CN110224865A (zh) 一种基于流式处理的日志告警系统
CN102820993A (zh) 网络资源监控系统和网络资源监控方法
CN110891283A (zh) 一种基于边缘计算模型的小基站监控装置及方法
CN103442395A (zh) 一种基于连接池技术的北斗数据发送系统及其方法
CN111400295B (zh) 配电网停电事件分析方法、装置及存储介质
CN104898435B (zh) 家庭服务系统及其故障处理方法、家电设备、服务器
CN112468592A (zh) 一种基于电力信息采集的终端在线状态侦测方法及系统
WO2010145182A1 (zh) 短消息监控方法和系统
CN104767630A (zh) 一种基于告警关联的派单方法及装置
EP3154238A1 (en) Policy-based m2m terminal device monitoring and control method and device
CN110865921A (zh) 数据监控方法、装置、可读存储介质和电子设备
CN109347684A (zh) 一种网络服务器监测系统
CN105678978A (zh) 一种报警控制系统
CN113037549A (zh) 一种运维环境告警方法
CN102629897B (zh) 一种时效判别方法、控制装置及机器装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right