CN101770419A - 系统健壮性分析器和分析方法 - Google Patents

系统健壮性分析器和分析方法 Download PDF

Info

Publication number
CN101770419A
CN101770419A CN200810205166A CN200810205166A CN101770419A CN 101770419 A CN101770419 A CN 101770419A CN 200810205166 A CN200810205166 A CN 200810205166A CN 200810205166 A CN200810205166 A CN 200810205166A CN 101770419 A CN101770419 A CN 101770419A
Authority
CN
China
Prior art keywords
robustness
sampling
data
analytic target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810205166A
Other languages
English (en)
Other versions
CN101770419B (zh
Inventor
庄晓
吴金坛
陈煜�
鲁志军
吕苏
陆寄豪
黄品良
李正林
尹祥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN 200810205166 priority Critical patent/CN101770419B/zh
Publication of CN101770419A publication Critical patent/CN101770419A/zh
Application granted granted Critical
Publication of CN101770419B publication Critical patent/CN101770419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明提出了一种系统健壮性分析器,包括采样器和分析报告器。其中,采样器对表示分析对象的使用状况的数据进行采样,而分析报告器利用统计分析方法对采样数据进行分析计算,再根据计算结果判断分析对象的健壮性。本发明通过将监控和分析整合在一起,可以有效地分析出系统中中央处理器、内存等部分出现的问题,进而提醒系统管理员及时进行处理,以保证系统上线质量。

Description

系统健壮性分析器和分析方法
技术领域
本发明涉及一种系统健壮性监控分析器和分析方法,尤其涉及一种将采样和分析监控功能集成在一起的设备与方法。
背景技术
银行卡交易清算系统在开发过程中存在一些中央处理器(CPU)、内存、消息队列、文件读写、通讯状态方面的问题,如中央处理器使用率波动异常、内存持续泄漏、消息队列在一定时间段严重阻塞、文件描述符使用过度频繁、通讯状态异常。这些问题会引起非常严重的结果,可能导致系统业务的中断甚至导致系统宕机。
因此,需要在系统长时间不中断运行的条件下,通过对反映系统健壮性的变量进行实时监控和记录分析,从而及时发现问题,保证系统上线安全稳定运行。这就要求在测试阶段就将这些问题排除,以确保系统的上线质量。
目前,在监控方面可采用有一些软件可以对系统资源使用状况进行收集,如PATROL等。PATROL软件主要的功能是对系统资源进行记录,供用户监控。它的不足之处是缺少对这些数据总体趋势的统计分析。而在统计分析方面也有一些软件,如SPSS、SAS等,可以实现一定的统计分析功能,但缺少对实际应用系统数据的输入,无法将这些统计软件直接应用于交易清算系统的资源统计分析。因此,急切需要开发一种集监控与分析于一体的装置和方法,从而快速发现系统在资源使用上存在的缺陷。
发明内容
本发明的一个目的是提供一种系统健壮性监控分析的装置和方法,保证系统上线能够安全稳定运行。
本发明的另一目的是提供一种分析采样数据从而得出健壮性结论的统计分析方法。
根据本发明的一个目的,本发明提出了一种系统健壮性分析器,包括:
采样器,其通过对表示分析对象的使用状况的数据进行采样,获得样本数据;以及
分析报告器,其根据样本数据确定所述分析对象的健壮性。
优选地,在上述系统健壮性分析器中,所述采样器包括参数管理装置、采样监控装置、采样数据存储管理装置、配置文件数据库和采样数据库,其中参数管理装置读取用户配置文件数据库中的采样设置参数,采样监控装置按照参数管理装置传送的采样设置参数获得所述样本数据,所述采样数据存储管理装置对样本数据进行压缩,然后将其存储到采样数据库中。
优选地,在上述系统健壮性分析器中,所述分析报告器被配置为按照下列方式确定所述分析对象的健壮性:
计算样本数据的平均值;
计算每个样本数据与所述平均值的差值;
将每个差值的平方累加后再取平均值;
将该平均值与预设阈值进行比较以确定所述分析对象的健壮性。
优选地,在上述系统健壮性分析器中,所述分析报告器被配置为按照下列方式确定所述分析对象的健壮性:
按先后顺序遍历所有样本数据,计算出上升点的总数;
通过把上升点的总数除以采样点的个数计算出上升率,其中所述上升点表示新加的采样点数值大于先前所有采样点数据的均值;以及
将该上升率与预设阈值进行比较以确定所述分析对象的健壮性。
优选地,在上述系统健壮性分析器中,所述分析报告器包括采样数据解压缩装置、统计分析装置和报告传输装置,其中,所述采样数据解压缩装置对采样数据库中经过压缩的样本数据进行解压缩,所述统计分析装置对所述采样数据采用统计分析方法进行计算并根据计算结果判断分析对象的健壮性,所述报告传输装置将分析对象的健壮性的判断结果输出至显示装置。
优选地,在上述系统健壮性分析器中,所述分析对象包括中央处理器、内存、共享内存、消息队列、通讯端口或者文件描述符。
优选地,在上述系统健壮性分析器中,所述采样数据存储管理装置被配置为按照下列方式对样本数据进行压缩:
如果某次采样到的数据与上一次采样到的数据相同,则本次的数据不加入到采样数据库中;
否则将该次采样得到的数据直接加入到采样数据库中。
优选地,在上述系统健壮性分析器中,所述采样设置参数包括采样时间间隔和分析时间点。
根据本发明的另一个目的,本发明提出了一种系统健壮性分析方法,包括:
采样步骤,通过对表示分析对象的使用状况的数据进行采样,获得样本数据;以及
分析报告步骤,根据样本数据确定所述分析对象的健壮性。
通过本发明,可以分析出系统中中央处理器、文件读写、内存、消息队列、文件描述符、通讯端口等出现的问题,进而提醒系统管理员及时进行处理,从而保证系统上线质量。
附图说明
为便于理解,下面参照附图通过非限定性例子来描述本发明的实施例。在这些附图中:
图1示出了根据本发明的系统健壮性监控分析器的结构图。
图2示出了根据本发明的采样监控装置工作的流程图。
图3示出了根据本发明的基于累计平均值上升的波形分析方法的流程图。
具体实施方式
图1示出了根据本发明的健壮性分析器的结构,它包括采样器11和分析报告器12。采样器11获得表示系统使用状况的样本数据,再由分析报告器12对由采样器11提供的样本数据采用统计分析方法进行计算,根据计算结果判断所述分析对象的健壮性。
这里健壮性是分析对象是否正常工作的指标,通常涉及需要被监控的系统中的中央处理器、内存、消息队列、文件读写、通讯状态等方面。特别需要监控和分析的是中央处理器出现使用率波动异常、内存发生持续泄漏、消息队列在一定时间段严重阻塞、文件描述符使用过度频繁或是通讯状态异常等情况,在出现这些情况时,说明系统处于一种不安全的状态,此时分析对象的健壮性不佳。
在一个实施例中,采样器11包括参数管理装置111,采样监控装置112和采样数据存储管理装置113以及配置文件数据库110和采样数据库114。其中参数管理装置111用于读取用户配置文件数据库110中的采样设置参数;采样监控装置112与参数管理装置111通讯,其按照参数管理装置111传送的采样设置参数获得所述分析对象使用情况的样本数据;采样数据存储管理装置113与采样监控装置112通讯,其对样本数据进行压缩,然后将其存储到采样数据库114中。这里所说的采样设置参数包括采样时间间隔和分析时间点等用于控制采样操作的参数。
采样监控装置的工作步骤如图2所示。具体来讲,包括如下步骤:
在步骤201中,通过串口通信或者TCP/IP通信通道等方式,建立起和被监控系统的连接通道(这里被监控系统包括,但不仅仅限于银行卡交易清算系统);
在步骤202中,根据参数管理装置111传入的采样设置参数,采样监控装置112按照规定的采样时间间隔或者分析时间点对被监控发送查询命令;
此时,被监控系统收到上述查询命令以后,就会向采样监控装置112返回相关的参数值,即样本数据。
为了获得更好的监控效果,监控必须以实时或者准实时的方式进行,就是说采样的时间间隔不能大,加上由于监控的对象较多,这样如果将采样的样本数据直接进行存储就要占用大量的存储空间。因此,在将采样的样本数据存储到采样数据库114之前,有必要进行数据压缩处理。
数据压缩分为有损压缩和无损压缩,为了精确地反映系统健壮性的变动,在对采样的样本数据的压缩过程中,采用无损压缩较为合适。根据本发明的一个方面,下面提供了一种简单有效的压缩方法:
在采集到一个新样本时,首先将该新样本与上一次采集的样本进行比较。如果该新样本和上一次采集的样本完全相同,则丢弃该样本,即不将该样本加入采样数据库114。否则,如果两个样本不同,则将该不同于上一次采集的样本的新样本数据记录到采样数据库114。上述步骤203由采样数据存储管理装置113完成。
这样,采样器11就完成了对监控对象系统的采样和样本存储操作。
接下来,采样器11将样本从采样数据库114中输出到分析报告器12中进行分析,以获得最终对系统健壮性的评估。
首先,在进行分析计算之前,采样数据库114的输出要经过解压缩,这是由采样数据解压缩模块121实现的,该操作是对采样数据存储管理装置113所进行的压缩运算的逆运算。
统计分析装置122对还原以后的采样数据进行分析,在这里,多种统计学方法可以被采用。根据本发明的一个方面,采用基于方差的波形波动分析监控对象,如果数据波动很大,说明系统不够稳定,统计分析装置122能够进行报警并生成分析报告。
在统计学中,样本中各数据与样本平均数的差的平方和的平均数叫做样本方差。在本例中,假设样本S中第i个数据为Pi,并且共有n个采样点,对应的样本S的平均值
Figure G2008102051661D0000051
而样本S的方差为
Figure G2008102051661D0000052
样本方差是衡量一个样本波动大小的量,样本方差越大,样本数据的波动就越大。
在实际应用中,需要预先设定一个阈值,在统计分析装置122计算出来的样本方差超过该阈值时,就说明系统进入不安全的状态。也可以设定多个阈值,以表示系统处于不同程度的不稳定中,在超过一定范围时,系统可以自动报警。
上述方法尤其适用于对中央处理器使用、共享内存关联进程数、文件描述符的监控。一般来说,如果上述对象的数据发生剧烈的波动就必须加以注意,因为这说明系统很可能由于某种原因而发生了故障。
根据本发明的另一个方面,采用基于累计平均值上升的波形分析监控某个参数的上升趋势。如果上升率很大,说明系统不够稳定,基于这一原理,统计分析装置122也能够进行报警并生成分析报告。
在系统中,如果随着时间的推移,分配的内存的数量越来越大,那么内存中很可能出现了内存泄露,下面就以对内存的监控分析为例,说明根据本发明的波形分析方法。
这里首先给出“上升点”的定义:如果一个新加的采样点数值大于先前所有采样点数据的均值,则该新加入的采样点为一个上升点。
如图3所示,首先在步骤301,统计分析装置122从采样数据解压缩装置121中接收一个表示内存分配数量的新采样点;
然后在步骤302,判断新采样到的内存分配数量是否大于之前所采样到的内存分配数量的均值;
如果在步骤302中判断的结论是“是”,那么进入步骤303,将该点计为上升点,然后进入下一步步骤304;
如果在步骤302中判断的结论是“否”,那么跳过步骤303,直接进入步骤304;
在步骤304,判断是否所有期望加入的采样点都已经经过了遍历;
如果还有需要加入并分析的采样点,则回到步骤301中,否则在步骤305,计算累计平均值上升率,其方法例如是把上升点的总数除以采样点的个数;
在步骤306,将累计平均值上升率与预先设定的阀值进行比较,如果步骤305中计算出的上升率大于该阈值,则认定内存的分配存在一定的问题,就是说可能发生了内存泄漏的情况。
与基于方差的统计方法主要监控指标的波动不同,基于累计平均值上升的波形分析只对指标的上升趋势敏感。基于这一特点,除了适用于监控内存使用,该方法也可以用于监控其它指标,例如共享内存大小和文件描述符使用。
回到图1中,在统计分析装置122完成了分析工作之后,它将自动生成报告,给出系统是否健壮的结论,并通过报告传输装置123将结果传输到显示设备上,这里的显示设备可以是显示器,也可以是打印机等其它输出设备。
值得指出的是,上述参数管理装置111、采样监控装置112、采样数据存储管理装置113、采样数据解压缩装置121、统计分析装置122和报告传输装置123可以有多种方式实现,例如可以借助通用计算机系统和可在该通用计算机系统上运行的执行上述各步骤的应用程序的组合来实现,这里的通用计算机系统包括但不限于个人计算机系统和嵌入式计算机系统等;也可以由固化了执行上述各步骤的程序的电路系统实现,这里的电路系统包括但不限于数字信号处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)等。
上文参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (16)

1.一种系统健壮性分析器,包括:
采样器,其通过对表示分析对象的使用状况的数据进行采样,获得样本数据;以及
分析报告器,其根据样本数据确定所述分析对象的健壮性。
2.如权利要求1所述的系统健壮性分析器,其中,所述采样器包括参数管理装置、采样监控装置、采样数据存储管理装置、配置文件数据库和采样数据库,其中参数管理装置读取用户配置文件数据库中的采样设置参数,采样监控装置按照参数管理装置传送的采样设置参数获得所述样本数据,所述采样数据存储管理装置对样本数据进行压缩,然后将其存储到采样数据库中。
3.如权利要求1所述的系统健壮性分析器,其中,所述分析报告器被配置为按照下列方式确定所述分析对象的健壮性:
计算样本数据的平均值;
计算每个样本数据与所述平均值的差值;
将每个差值的平方累加后再取平均值;
将该平均值与预设阈值进行比较以确定所述分析对象的健壮性。
4.如权利要求1所述的系统健壮性分析器,其中,所述分析报告器被配置为按照下列方式确定所述分析对象的健壮性:
按先后顺序遍历所有样本数据,计算出上升点的总数;
通过把上升点的总数除以采样点的个数计算出上升率,其中所述上升点表示新加的采样点数值大于先前所有采样点数据的均值;以及
将该上升率与预设阈值进行比较以确定所述分析对象的健壮性。
5.如权利要求2所述的系统健壮性分析器,其中,所述分析报告器包括采样数据解压缩装置、统计分析装置和报告传输装置,其中,所述采样数据解压缩装置对采样数据库中经过压缩的样本数据进行解压缩,所述统计分析装置对所述采样数据采用统计分析方法进行计算并根据计算结果判断分析对象的健壮性,所述报告传输装置将分析对象的健壮性的判断结果输出至显示装置。
6.如权利要求1-5中任意一项所述的系统健壮性分析器,其中,所述分析对象包括中央处理器、内存、共享内存、消息队列、通讯端口或者文件描述符。
7.如权利要求2所述的系统健壮性分析器,其中,所述采样数据存储管理装置被配置为按照下列方式对样本数据进行压缩:
如果某次采样到的数据与上一次采样到的数据相同,则本次的数据不加入到采样数据库中;
否则将该次采样得到的数据直接加入到采样数据库中。
8.如权利要求2所述的系统健壮性分析器,其中,所述采样设置参数包括采样时间间隔和分析时间点。
9.一种系统健壮性分析方法,包括:
采样步骤,通过对表示分析对象的使用状况的数据进行采样,获得样本数据;以及
分析报告步骤,根据样本数据确定所述分析对象的健壮性。
10.如权利要求9所述的系统健壮性分析方法,其中,所述采样步骤包括:
读取采样设置参数;
按照采样设置参数获得所述分析对象使用情况的样本数据;
对样本数据进行压缩;以及
存储被压缩的样本数据。
11.如权利要求9所述的系统健壮性分析方法,其中,在所述分析报告步骤中,按照下列方式确定所述分析对象的健壮性:
计算样本数据的平均值;
计算每个样本数据与所述平均值的差值;
将每个差值的平方累加后再取平均值;
将该平均值与预设阈值进行比较以确定所述分析对象的健壮性。
12.如权利要求9所述的系统健壮性分析方法,其中,在所述分析报告步骤中,按照下列方式确定所述分析对象的健壮性:
按先后顺序遍历所有样本数据,计算出上升点的总数;
通过把上升点的总数除以采样点的个数计算出上升率,其中所述上升点表示新加的采样点数值大于先前所有采样点数据的均值;以及
将该上升率与预设阈值进行比较以确定所述分析对象的健壮性。
13.如权利要求10所述的系统健壮性分析方法,其中,所述分析报告步骤包括:
对经过压缩的样本数据进行解压缩;
对所述样本数据采用统计分析方法进行计算并根据计算结果判断分析对象的健壮性;
输出分析对象的健壮性的判断结果。
14.如权利要求9-14中任意一项所述的系统健壮性分析方法,其中,所述分析对象包括中央处理器、内存、共享内存、消息队列、通讯端口或者文件描述符。
15.如权利要求10所述的系统健壮性分析方法,其中,按照下列方式对样本数据进行压缩:
如果某次采样到的数据与上一次采样到的数据相同,则本次的数据不加入到采样数据库中;
否则将该次采样得到的数据直接加入到采样数据库中。
16.如权利要求10所述的系统健壮性分析方法,其中,所述采样设置参数包括采样时间间隔和分析时间点。
CN 200810205166 2008-12-31 2008-12-31 系统健壮性分析器和分析方法 Active CN101770419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810205166 CN101770419B (zh) 2008-12-31 2008-12-31 系统健壮性分析器和分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810205166 CN101770419B (zh) 2008-12-31 2008-12-31 系统健壮性分析器和分析方法

Publications (2)

Publication Number Publication Date
CN101770419A true CN101770419A (zh) 2010-07-07
CN101770419B CN101770419B (zh) 2013-03-20

Family

ID=42503292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810205166 Active CN101770419B (zh) 2008-12-31 2008-12-31 系统健壮性分析器和分析方法

Country Status (1)

Country Link
CN (1) CN101770419B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477214A (zh) * 2011-03-01 2013-12-25 赫拉胡克公司 尤其用于汽车应用的气体传感器
CN105812418A (zh) * 2014-12-31 2016-07-27 安徽中科大国祯信息科技有限责任公司 一种基于偏量样本传输的污水处理厂工艺节点数据通信方法
CN106886478A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种数据过滤方法及监控服务器
WO2017118341A1 (zh) * 2016-01-06 2017-07-13 阿里巴巴集团控股有限公司 一种数据的监控方法及装置
CN108696368A (zh) * 2017-04-05 2018-10-23 华为技术有限公司 一种网元健康状态的检测方法及设备
TWI739794B (zh) * 2017-01-23 2021-09-21 香港商阿里巴巴集團服務有限公司 資料的監控方法及裝置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100356729C (zh) * 2004-03-31 2007-12-19 华为技术有限公司 监控网络业务性能的方法及系统
CN1972210A (zh) * 2006-11-21 2007-05-30 华为技术有限公司 网络监控方法及其系统
CN101158916A (zh) * 2007-11-19 2008-04-09 中国移动通信集团浙江有限公司 一种数据库性能监控方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477214A (zh) * 2011-03-01 2013-12-25 赫拉胡克公司 尤其用于汽车应用的气体传感器
CN105812418A (zh) * 2014-12-31 2016-07-27 安徽中科大国祯信息科技有限责任公司 一种基于偏量样本传输的污水处理厂工艺节点数据通信方法
WO2017118341A1 (zh) * 2016-01-06 2017-07-13 阿里巴巴集团控股有限公司 一种数据的监控方法及装置
CN106952106A (zh) * 2016-01-06 2017-07-14 阿里巴巴集团控股有限公司 一种数据的监控方法及装置
TWI739794B (zh) * 2017-01-23 2021-09-21 香港商阿里巴巴集團服務有限公司 資料的監控方法及裝置
CN106886478A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种数据过滤方法及监控服务器
CN108696368A (zh) * 2017-04-05 2018-10-23 华为技术有限公司 一种网元健康状态的检测方法及设备
CN108696368B (zh) * 2017-04-05 2021-04-20 华为技术有限公司 一种网元健康状态的检测方法及设备
US11128548B2 (en) 2017-04-05 2021-09-21 Huawei Technologies Co., Ltd. Network element health status detection method and device

Also Published As

Publication number Publication date
CN101770419B (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN110708204B (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
CN111221702B (zh) 基于日志分析的异常处理方法、系统、终端及介质
CN101770419B (zh) 系统健壮性分析器和分析方法
US20140143304A1 (en) User interaction monitoring
Vazhkudai et al. Predicting the performance of wide area data transfers
US7747988B2 (en) Software feature usage analysis and reporting
EP1806658B1 (en) Analyzing method and device
CN110377569B (zh) 日志监控方法、装置、计算机设备和存储介质
US8176476B2 (en) Analyzing software usage with instrumentation data
US20060074621A1 (en) Apparatus and method for prioritized grouping of data representing events
US20190034815A1 (en) Customer behavior predictive modeling
WO2016188175A1 (zh) 一种硬件故障分析系统和方法
US7681085B2 (en) Software reliability analysis using alerts, asserts and user interface controls
US11106561B2 (en) Method and device for evaluating IO performance of cache servers
Yao et al. A study of the performance of general compressors on log files
CN104881734A (zh) 一种基于灰度发布引导产品改进的方法、装置及系统
US20100180004A1 (en) Apparatus and methods for network analysis
US20070076627A1 (en) Efficient accumulation of performance statistics in a multi-port network
US10708344B1 (en) Continuous performance management in information processing systems
US20120054181A1 (en) Online management of historical data for efficient reporting and analytics
WO2023024679A1 (zh) 一种预测服务器容量的方法及装置
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN115269315A (zh) 一种异常检测方法、装置、设备、介质
CN111882289B (zh) 一种项目数据审核指标区间测算的装置和方法
CN112035159B (zh) 一种稽核模型的配置方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant