CN107302449B - 智能监控统计与报警处理系统及方法 - Google Patents

智能监控统计与报警处理系统及方法 Download PDF

Info

Publication number
CN107302449B
CN107302449B CN201710441084.6A CN201710441084A CN107302449B CN 107302449 B CN107302449 B CN 107302449B CN 201710441084 A CN201710441084 A CN 201710441084A CN 107302449 B CN107302449 B CN 107302449B
Authority
CN
China
Prior art keywords
data
alarm
server
monitoring
collecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710441084.6A
Other languages
English (en)
Other versions
CN107302449A (zh
Inventor
迟爽
高建华
王雨丝
文静雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201710441084.6A priority Critical patent/CN107302449B/zh
Publication of CN107302449A publication Critical patent/CN107302449A/zh
Application granted granted Critical
Publication of CN107302449B publication Critical patent/CN107302449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种智能监控统计与报警处理系统及方法,其中该系统包括:数据收集装置,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;数据处理装置,用于将所述服务器性能数据进行统一的格式转化和预处理;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;页面展示装置,用于根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;将页面展示数据进行展示。本发明可以保障应急人员及时便捷地获取报警信息,提高监控的智能化,提升报警正确率,防止出现生产潜在隐患。

Description

智能监控统计与报警处理系统及方法
技术领域
本发明涉及数据处理技术领域,尤其涉及智能监控统计与报警处理系统及方法。
背景技术
互联网金融如雨后春笋般蓬勃发展,支持其海量高并发业务对IT科技带来了前所未有的严峻挑战,商业银行数据中心面对与日俱增的业务压力,必须要采取相应的措施才能保证系统安全稳定高效可控连续运行。而监控和报警处理作为数据中心工作中的重中之重,更要持续重点抓好这两个部分,增强商业银行的科技实力。监控要尽可能做到综合化、智能化,一方面减少误报,可以减轻运维一线人员的压力,集中精力进行有效的报警处理,另一方面要确保问题都能及时被发现,没有漏网之鱼的生产隐患。
目前,运维一线人员可能由于专业壁垒,缺乏扎实的其他专业知识,因此在报警处理过程中容易手忙脚乱,埋下了生产安全隐患,由此易引发各类生产故障事件。报警配置往往非常零散,报警的单一凌乱,报警分析缺少一个整体多维度视角,大大降低了应急处理判断效率,同时也不利于问题的综合分析定位。
发明内容
本发明实施例提供一种智能监控统计与报警处理系统,用以保障应急人员及时便捷地获取报警信息,提高监控的智能化,提升报警正确率,防止出现生产潜在隐患,该智能监控统计与报警处理系统包括:
数据收集装置,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
数据处理装置,用于将所述服务器性能数据进行统一的格式转化和预处理;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
页面展示装置,用于根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;将页面展示数据进行展示。
本发明实施例还提供一种智能监控统计与报警处理方法,用以保障应急人员及时便捷地获取报警信息,提高监控的智能化,提升报警正确率,防止出现生产潜在隐患,该智能监控统计与报警处理方法包括:
通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
将所述服务器性能数据进行统一的格式转化和预处理;
根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;
将页面展示数据进行展示。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述智能监控统计与报警处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述智能监控统计与报警处理方法的计算机程序。
本发明实施例中,通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据,可以尽可能的减少报警信息收集可能带来的性能开销,以最小的牺牲获取最大的收益;将所述服务器性能数据进行统一的格式转化和预处理,可以保障应急人员及时便捷地获取报警信息;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息,根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据,将页面展示数据进行展示,可以大大提高监控的智能化,提升报警正确率,实现多维度综合性汇总报警,可为应急和问题分析提供汇总的全视角的综合报警信息,减少误报给运维一线人员带来没有必要的压力,防止由于专业壁垒导致的生产潜在隐患。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中智能监控统计与报警处理系统的示意图;
图2为本发明实施例中数据收集装置的示例图;
图3为本发明实施例中数据处理装置的示例图;
图4为本发明实施例中单台服务器报警信息收集示意图;
图5为本发明实施例中同一应用多台服务器报警信息收集示意图;
图6为本发明实施例中单台服务器CPU使用率高报警信息收集示意图;
图7为本发明实施例中内存溢出报警信息收集示意图;
图8为本发明实施例中页面展示装置的示例图;
图9为本发明实施例中智能监控统计与报警处理方法的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
为了解决上述现有技术中的问题,本发明实施例提供一种智能监控统计与报警处理系统。图1为本发明实施例中智能监控统计与报警处理系统的示意图,如图1所示,该智能监控统计与报警处理系统可以包括:
数据收集装置10,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
数据处理装置20,用于将所述服务器性能数据进行统一的格式转化和预处理;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
页面展示装置30,用于根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;将页面展示数据进行展示。
如前所述,针对监控和报警处理两个方面,本发明实施例提供了多维度、自动化的智能监控统计与报警处理系统,实现报警内容的多视角展现,提供了一个综合平台来实现报警的汇总展示。
具体实施时,问题分析人员常常苦恼于报警瞬间现象或者为夜间等特殊时段,导致缺少收集足够的服务器运行情况数据对报警现象进行分析,因此需要信息收集自动化。对服务器的报警信息收集有一件重要的注意事项,不能影响服务器本身对外提供服务,同时对服务器尽可能减少性能损耗的影响。本发明实施例的智能监控统计与报警处理系统,通过数据收集装置10,以部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据,尽可能的减少报警信息收集可能带来的性能开销,以最小的牺牲获取最大的收益。
在实施例中,数据收集装置10收集的服务器性能数据可以包括:服务器的CPU使用率、内存使用率、HTTP连接数、IO和网络流量等其中之一或任意组合。例如,数据收集装置10可以通过部署自动化脚本、设置定时任务的方式对服务器的CPU使用率、内存使用率、HTTP连接数等性能数据进行采集。
数据收集装置10采用集中式数据收集方式。集中式数据收集通常有两种方式:一种是节点服务器采用主动汇报自身数据的模式;另一种是以集中采集服务器的形式使用某种策略进行抓取的模式。本发明实施例由于适用范围时间间隔要求比较小,节点服务器数量大,集中采集可能会给集中采集服务器造成严重压力。所以采用节点服务器以一定策略主动上传自身数据的方式。例如,在Linux系统中采取用crontab的定时任务执行部署采集数据的脚本形式,脚本通过采集本机的系统性能数据,不同类型的产品使用不同采集数据脚本,将采集的数据以一定格式上传到集中采集机器。目前业界通常使用JSON和XML等方式进行数据传输,其中JSON凭借其效率高和格式简单等特点在互联网金融产品中得到了广泛的应用,本发明实施例中也可以采用JSON键值对的形式,通过SOAP安全端口向集中数据服务器高效传送数据。脚本可以采取统一从集中采集服务器指定目录下载或者灵活定制两种方式。由于是节点服务器的主动上传的模式,所以添加和减少节点服务器非常灵活方便。在实施例中,IBM的监控平台tivoli也可以集成到本发明实施例的智能监控统计与报警处理系统中,通过访问tivoli的数据库,可以方便获取更为详细的数据采集内容,为报警多维度展示打下数据基础。多维度指CPU使用率、HTTP连接数、IO、网络流量等操作系统层面数据收集。
JSON字符串设计示例如下:
Figure GDA0002291105820000041
数据收集步骤示例如下:
步骤一:通过操作系统命令ps-ef截取进程号pid;
步骤二:通过获取的pid结合具体服务器产品和系统命令获取收集服务器性能数据;
步骤三:通过具体服务器产品的指定端口上送本机收集的服务器性能数据。
一个实施例中,数据收集装置10还可以根据服务器压力和监控及时性,选择服务器的上传频率。监控频率设置一方面要注意时效性、确保问题可以及时暴露出来,另一方面不能由于监控数据采集过于频繁,对应用服务器造成性能影响。例如,根据对服务器产生的压力和监控及时性综合考虑选择数据上传频率为5分钟/每次。AIX和SUSE服务器可以使用crontab定时任务实现。有特殊需求的服务器可以根据应用特点,采取个性化的数据上传频率,以满足应用个性化的需求。
crontab格式示例如下:
0,5,10,15,20,25,30,35,40,45,50,55****/usr/mw/wasHttp.sh 1
图2为本发明实施例中数据收集装置10的一个示例图,如图2所示,在本例中,数据收集装置10可以包括:报警收集子系统11,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据。如上所述,其中的服务器性能数据可以包括:服务器的CPU使用率、内存使用率、HTTP连接数、IO和网络流量其中之一或任意组合。报警收集子系统11还用于根据服务器压力和监控及时性,选择服务器的上传频率。
实施例中,数据处理装置20将服务器性能数据进行统一的格式转化和预处理;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息。具体的,在实施例中,数据处理装置20可以完成如下功能:
数据处理装置20:对采集得到的监控数据进行格式化处理、预处理及统计分析,根据分析结果调用不同数据处理子系统对报警进行自动处理或提供辅助处理方法,为报警平台展示提供统一的展示打下良好的基础。
1)数据处理:对于格式不同的服务器性能数据,进行统一的格式转化和预处理,为页面展示装置30提供统一的展示打下良好的数据基础。
2)数据存储:服务器性能数据可以统一存储到数据库中。例如,每次收集节点服务器的上传的数据首先保存在内存中,集中执行写操作存储到数据库中,减轻数据库的压力。
3)监控指标阈值设定:例如可以包含普通监控指标阈值和严重监控指标阈值双阈值模式。根据应用类型不同,对服务器进行分类,根据服务器平时的运行情况(如HTTP连接数平均值、CPU使用率、MEM使用率等)作为标准,根据以往的运维经验,普通监控指标阈值可以首先尝试设定为日常均值除以30%,严重监控指标阈值尝试设定为日常均值除以50%。可以选择静态设定或者动态灵活设定监控指标阈值,使报警更为智能化。
4)报警智能分析和自动化处理:能够根据具体的报警情况自动判断报警严重程度从而采取相应信息收集措施,还可以提供手动收集服务器运行情况的入口,以方便根据二线人员根据运维经验进行数据的二次收集。
图3为本发明实施例中数据处理装置20的一个示例图,如图3所示,本例中数据处理装置20可以包括:
报警存储子系统21,用于存储服务器性能数据;报警存储子系统21对于采集到的服务器性能数据进行集中存储,为历史查询提供数据;
数据格式统一子系统22,用于将服务器性能数据进行统一的格式转化和预处理;数据格式统一子系统22对不同格式的服务器性能数据进行格式统一,为报警信息展示做数据准备;
报警分析处理子系统23,用于设定监控指标阈值;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息。
从数据收集装置10中报警收集子系统11接收的服务器性能数据,复制为两份,一份存储在报警存储子系统21,为历史查询所用,历史查询时候,需要再次通过数据格式统一子系统22进行数据处理,另一份通过数据格式统一子系统22加工处理实现数据格式的统一,为报警信息展示做准备。数据格式统一子系统22将处理好的数据转发给报警分析处理子系统23,为数据展示做准备。报警分析处理子系统23对报警分析条目进行分类,合并,提高报警级别等进一步的数据加工操作。
实施例中,监控阈值设置需要定制化动态化。目前,判断服务器是否出现异常的通用方法是为监控指标设定监控指标阈值,当检测到的监控指标超过监控指标阈值时,判断服务器可能出现异常,进行报警。而监控指标阈值通常是由运维人员根据经验设定,通常是单一阈值,实际生产上同一类型的多台服务器之间是有差异的,如果人工设定单一阈值,操作复杂度高,准确性也较低。设定的阈值过低容易造成频繁的误报,阈值过高则起不到监控作用,监控指标阈值的选择直接影响监控效果。
在本发明的一个实施例中,采用改进的监控指标阈值选取方法,采取同一服务器一个月内的监控指标,通过拟合数据曲线计算截距的方式排除异常散点对平均值造成的影响,确保相对误差小于0.1,以修正后的监控指标截距为基准,并选取五倍标准方差作为合理波动区间,设定监控指标阈值。在本例中,监控指标阈值计算公式为:
F=α+5β
其中,F为监控指标阈值,α为通过拟合函数模型拟合确定的监控指标截距,β为监控指标标准方差,以五倍标准方差5β作为合理波动区间。
实施例中,α通过建立函数模型进行拟合确定,例如通过使用matlab工具遵照最小二乘原理计算离散数据的最佳平方逼近,确定最佳拟合函数模型为一元线性函数:
y=λx+α;
其中,y为服务器的监控采集数据连接数;x为服务器的监控采集数据时间;
拟合参数计算公式如下:
Figure GDA0002291105820000071
Figure GDA0002291105820000072
其中,xi为服务器的监控采集数据时间i;yi为服务器的i时间的监控采集数据连接数;
Figure GDA0002291105820000073
为服务器的监控采集数据时间均值;
Figure GDA0002291105820000074
为服务器的监控采集数据连接数均值;
计算确定α后,通过以下公式计算确定β值:
Figure GDA0002291105820000075
其中,n为拟合点的个数,即监控采集样例个数。
下表是某服务器最近一月连接数监控指标示例:
Figure GDA0002291105820000076
以上表为例,演示α和β的计算方法和公式如下:
拟合一元线性函数,获取监控指标截距α,计算拟合参数:
Figure GDA0002291105820000081
Figure GDA0002291105820000082
拟合函数为:
y=0.0435x+9.2065;
相对误差R2=0.0312,在可接受范围内。
计算修正后的监控指标标准方差β:
Figure GDA0002291105820000083
计算监控指标阈值F:
F=α+5β=20.7685≈21;
利用matlab选定拟合函数阶数代码示例如下:
Figure GDA0002291105820000084
报警分析处理子系统23在设定监控指标阈值后,根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息。下面给出几个根据报警类型收集报警信息的场景实例。
场景一:对于HTTP连接数超过监控指标阈值的服务器报警信息收集。
处理步骤:收集的报警信息可以包括杀javacore保留服务器线程运行的情况快照(由于杀javacore会造成服务器瞬断,因此判断首次报警时自动杀javacore保存现场)、内存回收heapdump信息,CPU和内存使用情况等,可以根据需要灵活添加调用接口。详见图4单台服务器报警信息收集示意图。
步骤一:单台应用服务器HTTP连接数超过监控指标阈值,获取中间件应用程序的进程号,通过ps-ef|grep java命令,并截断字符串获取到pid。详见图4中S401。
步骤二:使用kill-3$pid命令,杀javacore,保留服务器线程运行的情况快照。详见图4中S402。
步骤三:确定是否需要继续收集heapdump,如果需要对jvm进行配置,收集java虚拟机的内存使用情况。详见图4中S403、S404。
步骤四:确定是否需要继续收集CPU信息,如果需要使用top命令将收集结果存储到文件中保存。详见图4中S403、S404。
步骤五:确定是否需要继续收集MEM信息,如果需要使用free命令将收集结果存储到文件中保存。详见图4中S403、S404。
图5为本例中同一应用多台服务器报警信息收集示意图。如果是同一子类服务器批量产生连接数超过监控指标阈值报警的情况,详见图5中S501,选取数据采集的应用服务器,采用轮询比较子类服务器连接数的方法,选取最大连接数的服务器策略自动收集该台服务器的信息,详见图5中S502。执行上述步骤三、四、五,详见图5中S503。
场景二:服务器CPU使用率高的情况。
处理步骤:使用top命令脚本将CPU使用情况存储到文件中,可以快捷清楚的定位CPU使用率高的线程,以便二线人员进行进一步的问题分析,详见图6同一应用多台服务器报警信息收集示意图。
步骤一:单台应用服务器CPU使用率高,通过top获取CPU使用率高的进程号。详见图6中S601。
步骤二:如果单台应用服务器CPU使用率持续高,详见图6中S603,使用top命令脚本将CPU使用情况存储到文件中,将文件通过邮件发送给专业线人员进行分析,详见图6中S604)。如果CPU短时间内使用率高,则自动恢复,属于短期资源紧张,无需处理。详见图6中S602。
场景三:服务器出现内存溢出(Out Of Memory)。
服务器出现内存溢出(详见图7中S701),截取内存记录文件native_stderr.log重命名到gc+IP+日期的形式进行保存,根据服务器IP和日期对收集信息进行区分,也提供自动FTP上传到集中收集服务器上(详见图7中S702),可以在集中收集服务器上实现统一的报警分析。详见图7内存溢出报警信息收集示意图。
如上所述,在实施例中,有必要对报警的基本情况进行梳理分类总结归纳,针对监控发现的负载均衡服务器集群中简单的单机问题系统自动进行报警处理,针对多台同一应用服务器报警或多台多应用服务器报警等更复杂场景,需要对症下药。在实施例中,为了使信息收集内容更加全面,报警分析处理子系统23可以提供可供选择的手动收集入口,提供手动报警处理、信息收集的入口实现灵活应急处理。
页面展示装置30根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据,将页面展示数据进行展示。图8为本发明实施例中页面展示装置30的一个示例图,如图8所示,页面展示装置30可以包括:
变更方案子系统31,用于根据报警类型和报警信息,生成变更方案数据;
应急预案子系统32,用于根据报警类型和报警信息,产生应急预案数据;
报警通知子系统33,用于根据报警类型、报警信息、变更方案数据和应急预案数据,产生页面展示数据;
报警展现子系统34,用于将页面展示数据进行展示。
实施例中,页面展示装置30接收数据处理装置20加工处理后的数据,一式三份,在web页面集中展示已发生的报警事件及处理结果,根据数据库存储的历史变更方案,智能产生变更方案、应急预案。页面展示装置30的主要功能包括:
1)报警信息:例如,包含应用服务器建立的HTTP连接数、web服务器建立的HTTP连接数、CPU使用率高、内存溢出(Out Of Memory)、内存垃圾回收率、数据库连接池连接数、线程数等报警情况,反映服务器的非正常运行情况。实施例中报警信息具有可拓展性,方便报警项的灵活添加删除,可以针对应用的不同,进行定制化的实现。作为页面展示装置30的元数据单元,为子系统变更方案子系统31、应急预案子系统32、报警通知子系统33、报警展现子系统34提供数据服务。
Figure GDA0002291105820000101
Figure GDA0002291105820000111
2)报警信息展示和通知:例如,对于各种的报警信息,使用网页的形式进行统一化管理,集中对报警发生频度、范围及应用相关性进行统计分析和展示。同时展示应急处理方法和变更方案,以供值班人员进行参考。提供手动报警处理(杀javacore)的一键式入口。采用和数据上传相同的频率进行页面自动刷新。并且同时邮件通知相关应用负责人,应用负责人采用配置文件的灵活配置形式,方便修改。为防止信息干扰,提供可以页面标记已处理状态,和补充信息。报警通知子系统33、报警展现子系统34实现该功能。
3)应急处理方案和变更方案:例如建立报警现象和应急处理方法、变更方案三者的映射关系。将内容保存在数据库中,在报警展示的页面进行统一的展示。提供一键式的应用重启应急接口,并提供根本解决问题的变更方案。变更方案子系统31、应急预案子系统32实现该功能。
4)报警信息和历史报警信息查询:例如提供根据服务器ip、应用简称、子应用名、报警类型等方式的分类模糊查询接口。历史报警信息查询:例如对三天前报警信息,提供单独的报警查询入口。报警展现子系统34实现该功能。
在实施例中,变更方案子系统31可以根据报警信息和报警类型在数据库中存储已有的模板变更方案,提高可拓展性,提供添加新增变更方案的接口,根据不同的报警信息智能映射不同的变更方案,从根本上解决生产问题。
在实施例中,应急预案子系统32可以根据不同的报警信息智能映射不同的应急预案,提供自动应急和手动应急两种方式。手动应急可以补充因情况复杂导致特殊的应急手段。
在实施例中,报警通知子系统33可以使用邮件等形式进行报警,通知相应应用负责人,例如可以拓展短信等形式同步通知相应应用负责人。
在实施例中,报警展现子系统34可以使用统一视图展示服务器各类不同的报警信息。可以提供按照ip、应用子类、应用简称、时间等的排序和检索。可以默认以时间倒序展示三天以来的报警信息。可以提供手动应急入口和手动收集报警信息入口。可以以一定频率实现页面刷新。
页面展示装置30接收数据处理装置20中报警分析处理子系统23转发的数据,复制三份,转发给变更方案子系统31、应急预案子系统32、报警通知子系统33,分别用于产生变更方案、应急预案、报警通知。报警通知数据经过报警展现子系统34的二次加工,实现报警页面展示。
由上述实施例可知,本发明实施例的智能监控统计与报警处理系统可以实现数据收集方式、数据收集频率、数据处理、数据存储、报警阈值的选取设定、报警信息范围、报警展示和通知、报警智能分析和自动化处理、提供应急处理方法和变更方案、报警信息和历史信息查询等功能。
本发明实施例中还提供了一种智能监控统计与报警处理方法,如下面的实施例所述。由于该方法解决问题的原理与智能监控统计与报警处理系统相似,因此该方法的实施可以参见智能监控统计与报警处理系统的实施,重复之处不再赘述。
图9为本发明实施例中智能监控统计与报警处理方法的示意图,如图9所示,该方法可以包括:
步骤901、通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
步骤902、将所述服务器性能数据进行统一的格式转化和预处理;
步骤903、根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
步骤904、根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;
步骤905、将页面展示数据进行展示。
一个实施例中,所述服务器性能数据可以包括:服务器的CPU使用率、内存使用率、HTTP连接数、IO和网络流量其中之一或任意组合。
一个实施例中,该智能监控统计与报警处理方法还可以包括:
按如下公式设定监控指标阈值:
F=α+5β;
其中,F为监控指标阈值,α为通过拟合函数模型拟合确定的监控指标截距,β为监控指标标准方差。
一个实施例中,所述α可以通过如下拟合函数模型确定:
y=λx+α;
其中,y为服务器的监控采集数据连接数;x为服务器的监控采集数据时间;
Figure GDA0002291105820000131
xi为服务器的监控采集数据时间i;yi为服务器的i时间的监控采集数据连接数;
Figure GDA0002291105820000132
Figure GDA0002291105820000133
为服务器的监控采集数据时间均值;
Figure GDA0002291105820000134
为服务器的监控采集数据连接数均值;
所述β可以按如下公式确定:
Figure GDA0002291105820000135
其中,n为拟合点的个数,即监控采集样例个数。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述智能监控统计与报警处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述智能监控统计与报警处理方法的计算机程序。
综上所述,本发明实施例中,通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据,可以尽可能的减少报警信息收集可能带来的性能开销,以最小的牺牲获取最大的收益;将所述服务器性能数据进行统一的格式转化和预处理,可以保障应急人员及时便捷地获取报警信息;根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息,根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据,将页面展示数据进行展示,可以大大提高监控的智能化,提升报警正确率,实现多维度综合性汇总报警,可为应急和问题分析提供汇总的全视角的综合报警信息,减少误报给运维一线人员带来没有必要的压力,防止由于专业壁垒导致的生产潜在隐患。
实施例中,一方面大大提高了监控的智能化,包含报警正确率的提升,报警多维度综合性汇总报警,可为应急和问题分析提供汇总的全视角的综合报警信息,减少误报给运维一线人员带来没有必要的压力。另一方面根据应用特点提供统一和定制化两种方式自动化的应急功能,减轻运维一线人员的工作压力,防止由于专业壁垒导致的生产潜在隐患,同时提供手动的应急入口、应急预案和从根本上解决问题的变更方案。
在实施例中还考虑系统的可拓展性、灵活配置性等,其中包含受管机器的灵活添加剔除、报警信息内容的多样化通过数据格式统一子系统实现数据格式统一,报警通知可以采用邮件、短信等多种形式并行,多重保障应急人员及时便捷获取报警信息。报警应急处理提供自动和手动两种形式,自动实现服务器重启等应急工作。提供手动入口,可以直接执行升级版的应急处理步骤包,也可以直接手动输入命令实施应急。报警分析处理依据设计模式思想指导重用了上述接口,提高代码的开发效率,减少代码的管理开销。同时尽可能的减少报警信息收集可能带来的性能开销,以最小的牺牲获取最大的收益。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种智能监控统计与报警处理系统,其特征在于,包括:数据收集装置、数据处理装置及页面展示装置;其中,
所述数据收集装置,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
所述数据处理装置,用于将所述服务器性能数据进行统一的格式转化和预处理;其中,所述数据处理装置包括:报警分析处理子系统,用于设定监控指标阈值,根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
所述报警分析处理子系统具体用于按如下公式设定监控指标阈值:
F=α+5β;
其中,F为监控指标阈值,α为通过拟合函数模型拟合确定的监控指标截距,β为监控指标标准方差;
所述α通过如下拟合函数模型确定:
y=λx+α;
其中,y为服务器的监控采集数据连接数;x为服务器的监控采集数据时间;
Figure FDA0002383527960000011
xi为服务器的第i个监控采集数据时间;yi为服务器的第i个监控采集数据时间的监控采集数据连接数;
Figure FDA0002383527960000012
Figure FDA0002383527960000013
为服务器的监控采集数据时间均值;
Figure FDA0002383527960000014
为服务器的监控采集数据连接数均值;
所述β按如下公式确定:
Figure FDA0002383527960000015
其中,n为拟合点的个数;
所述页面展示装置,用于根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;将页面展示数据进行展示。
2.如权利要求1所述的智能监控统计与报警处理系统,其特征在于,所述数据收集装置包括:
报警收集子系统,用于通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据,所述服务器性能数据包括:服务器的CPU使用率、内存使用率、HTTP连接数、IO和网络流量其中之一或任意组合;
以及,根据服务器压力和监控及时性,选择服务器的上传频率。
3.如权利要求1所述的智能监控统计与报警处理系统,其特征在于,所述页面展示装置包括:
变更方案子系统,用于根据报警类型和报警信息,生成变更方案数据;
应急预案子系统,用于根据报警类型和报警信息,产生应急预案数据;
报警通知子系统,用于根据报警类型、报警信息、变更方案数据和应急预案数据,产生页面展示数据;
报警展现子系统,用于将页面展示数据进行展示。
4.如权利要求1至3任一项所述的智能监控统计与报警处理系统,其特征在于,所述数据处理装置包括:
报警存储子系统,用于存储所述服务器性能数据;
数据格式统一子系统,用于将所述服务器性能数据进行统一的格式转化和预处理。
5.一种智能监控统计与报警处理方法,其特征在于,包括:
通过部署自动化脚本并设置定时任务的方式,收集服务器上传的服务器性能数据;
将所述服务器性能数据进行统一的格式转化和预处理;
按如下公式设定监控指标阈值:
F=α+5β;
其中,F为监控指标阈值,α为通过拟合函数模型拟合确定的监控指标截距,β为监控指标标准方差;
所述α通过如下拟合函数模型确定:
y=λx+α;
其中,y为服务器的监控采集数据连接数;x为服务器的监控采集数据时间;
Figure FDA0002383527960000021
xi为服务器的第i个监控采集数据时间;yi为服务器的第i个监控采集数据时间的监控采集数据连接数;
Figure FDA0002383527960000022
Figure FDA0002383527960000023
为服务器的监控采集数据时间均值;
Figure FDA0002383527960000024
为服务器的监控采集数据连接数均值;
所述β按如下公式确定:
Figure FDA0002383527960000031
其中,n为拟合点的个数;
根据监控指标阈值对处理后的服务器性能数据进行统计分析,根据统计分析结果确定报警类型,根据报警类型收集报警信息;
根据报警类型和报警信息,生成变更方案数据、应急预案数据和页面展示数据;
将页面展示数据进行展示。
6.如权利要求5所述的智能监控统计与报警处理方法,其特征在于,所述服务器性能数据包括:服务器的CPU使用率、内存使用率、HTTP连接数、IO和网络流量其中之一或任意组合。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求5或6所述智能监控统计与报警处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求5或6所述智能监控统计与报警处理方法。
CN201710441084.6A 2017-06-13 2017-06-13 智能监控统计与报警处理系统及方法 Active CN107302449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710441084.6A CN107302449B (zh) 2017-06-13 2017-06-13 智能监控统计与报警处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710441084.6A CN107302449B (zh) 2017-06-13 2017-06-13 智能监控统计与报警处理系统及方法

Publications (2)

Publication Number Publication Date
CN107302449A CN107302449A (zh) 2017-10-27
CN107302449B true CN107302449B (zh) 2020-07-17

Family

ID=60136319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710441084.6A Active CN107302449B (zh) 2017-06-13 2017-06-13 智能监控统计与报警处理系统及方法

Country Status (1)

Country Link
CN (1) CN107302449B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426600B (zh) * 2017-12-21 2022-04-22 中国平安人寿保险股份有限公司 数据采集处理方法、装置、设备及可读存储介质
CN108055511A (zh) * 2017-12-27 2018-05-18 重庆桦湖山生态农业股份有限公司 一种农产品信息的电子监管方法及系统
CN109800124B (zh) * 2018-12-15 2023-04-11 中国平安人寿保险股份有限公司 Cpu使用率监控方法、装置、电子设备及存储介质
CN110287083A (zh) * 2019-06-12 2019-09-27 达疆网络科技(上海)有限公司 一种基于定时任务的业务系统正确性检查及报警系统
CN111008713A (zh) * 2019-12-12 2020-04-14 江西科益高新技术有限公司 一种基于3d技术的设备故障智能检测与应急处置系统及方法
CN111352807A (zh) * 2020-03-31 2020-06-30 中国建设银行股份有限公司 服务器资源实时监控方法及装置
CN111858573A (zh) * 2020-07-28 2020-10-30 海尔优家智能科技(北京)有限公司 智能设备的性能指标展示方法及装置
CN113177676B (zh) * 2020-08-26 2024-02-06 北京合众伟奇科技股份有限公司 一种基于自然对数函数的运维健康评估系统和评估方法
CN112346934A (zh) * 2020-11-10 2021-02-09 深圳市康必达控制技术有限公司 一种智能告警方法
CN113419807A (zh) * 2021-07-02 2021-09-21 中国工商银行股份有限公司 一种多品牌磁盘机性能融合展示方法及系统
CN113515433B (zh) * 2021-07-28 2023-08-15 中移(杭州)信息技术有限公司 告警日志处理方法、装置、设备及存储介质
CN113613182B (zh) * 2021-08-10 2023-03-21 中国平安财产保险股份有限公司 短信发送方法、计算机设备及可读存储介质
CN113741957A (zh) * 2021-08-31 2021-12-03 江苏东大集成电路系统工程技术有限公司 一种基于物联网的智能设备管理方法和管理系统
CN113920767B (zh) * 2021-10-22 2023-02-24 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质
CN115438756B (zh) * 2022-11-10 2023-04-28 济宁中银电化有限公司 一种用于精馏塔故障根源诊断识别的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控系统的实现装置和方法
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105306234A (zh) * 2014-06-19 2016-02-03 中兴通讯股份有限公司 设备监控方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控系统的实现装置和方法
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种TFT模拟仿真与计算方法;马小龙;《计算机与数字工程》;20160430;全文 *

Also Published As

Publication number Publication date
CN107302449A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107302449B (zh) 智能监控统计与报警处理系统及方法
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN112433919B (zh) 一种信息告警方法、设备及存储介质
CN109284251A (zh) 日志管理方法、装置、计算机设备以及存储介质
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN110351150A (zh) 故障根源确定方法及装置、电子设备和可读存储介质
US20030135382A1 (en) Self-monitoring service system for providing historical and current operating status
CN111581054A (zh) 一种基于elk的日志埋点的业务分析告警系统及方法
CN104820630A (zh) 基于业务变化量的系统资源监控装置
CN105302697A (zh) 一种密集数据模型数据库的运行状态监控方法及系统
CN110598051A (zh) 一种电力行业监控系统、方法及装置
CN112181704A (zh) 一种大数据任务处理方法、装置、电子设备及存储介质
CN110018993B (zh) 一种数据分析系统、方法及监控分析系统
US11422992B2 (en) Auto reinforced anomaly detection
CN110363381B (zh) 一种信息处理方法和装置
CN117453137A (zh) 云化智能运维系统数据管理系统
AU2014200843A1 (en) Automated generation and dynamic update of rules
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
CN115766768A (zh) 一种算力网络操作系统中感知中枢设计方法及装置
CN112667149B (zh) 一种数据热度感知方法、装置、设备及介质
CN112685473B (zh) 一种基于时序分析技术的网络异常流量检测方法及其系统
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN113886179A (zh) 服务器运行状态监控方法、装置、设备及可读存储介质
CN114428812A (zh) 报表数据监控方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant