CN108304293A - 一种基于大数据技术的软件系统监控方法 - Google Patents
一种基于大数据技术的软件系统监控方法 Download PDFInfo
- Publication number
- CN108304293A CN108304293A CN201711450811.1A CN201711450811A CN108304293A CN 108304293 A CN108304293 A CN 108304293A CN 201711450811 A CN201711450811 A CN 201711450811A CN 108304293 A CN108304293 A CN 108304293A
- Authority
- CN
- China
- Prior art keywords
- big data
- platform
- monitoring
- monitored
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于大数据技术的软件系统监控方法,包括大数据平台、系统运行状态监听、系统监控平台;大数据平台是一个文件存储与处理平台,用来对集群系统运行状态数据的汇总、存储与处理;系统运行状态监听是对系统集群监听,通过在子系统中设置监听程序,监听各项系统业务处理的执行结果,并将监听结果形成监听数据信息,发送至大数据平台存储;系统监控平台,将大数据平台存储的集群运行状态数据读取出来,并加以分析总结,最后以直观的形式展现出来。本发明既能够全面监听系统运行过程,获取系统完整信息,又提供了对监听信息的处理分析和直观展现;同时对高并发和大数据处理能力的支持,使得整个系统的健壮性大大提高。
Description
技术领域
本发明涉及软件系统监控方法,具体涉及一种基于大数据技术的软件系统监控方法。
背景技术
软件集成系统的监控,已经出现了一些比较成熟的技术方案;比较常见软件集成系统监控方案主要有:文件记录型和关系数据库记录型。
文件记录型方案主要是在每个系统中设立专门的监听程序,用以监听软件系统执行过程,并将监听得到的内容形成监听数据,以文本文件的形成输出,形成系统执行日志文件,通常,系统日志是以天为单位来命名,即每天创建一个新的系统日志文件。
文件记录型方案中,系统监控数据与业务数据完全隔离,只需要通过查看当天实时的日志文件,就可以及时了解软件系统的运行状态。当发生故障,只需要取出故障发生时间的系统日志,就可以有效的完成故障分析和定位。
文件记录型方案优点是。
(1)简单易行,资源占用少。通过简单的方法就可以轻易实现对系统运行全过程记录,并且不会占用太多系统资源,即使应用于集群系统之中,也是由各个子系统分别记录日志,不会因此而产生系统瓶颈,因此也有良好的可拓展性。
(2)信息完整,方便故障分析。在理想情况下,可记录所有系统运行信息,因此可查出完整的故障产生过程,轻易完成故障定位。
(3)监听信息易于管理。由于系统运行信息都是以文本文件的形式存储,故在简单的环境下就可以查阅监听信息,也方便监听信息备份和转移。
关系数据库记录型与文件记录型类似,也是设立系统监听程序来监听软件系统的执行过程。不同的是,这里是将监听得到的过程数据记录到关系数据库中,以数据表的形式来管理。
与文件记录型不同的是,监听得到的系统运行数据是以类似业务数据的方式存储在关系数据库中。因此,使得对系统运行状态的监控,可以像业务数据一样直接反馈到平台前端,直观的显示给管理员。故障产生时,可以平台或者工具直接查看数据库中的对应异常记录,就可以完成故障的分析与定位。
关系数据库记录型方案的优点是。
(1)便于运行信息的提取与分析。系统运行信息可像业务数据一样进行提取,使得对系统运行信息的分析和及时处理变得可以实现,即使是集群系统,仍然可以像业务数据一样集中存储。
(2)降低了系统运维的难度。通过对系统运行信息提取、分析和处理,反馈到对应监控平台,形成简单而又直观的结果展现给管理员,使得系统监控和处理变得更加简单易行,效率更高。
(3)提高了故障的发现时效,也提高故障分析的效率,使软件系统的可维护性更高。
尽管现有的两种软件集成系统监控方案都有各自的优点,然而他们却均存在一定程度的不足。
对于文件记录型方案,其存在以下不足。
(1)系统运行信息提取和分析不便。系统到了一定规模以后,日志文件中会记录大量的系统运行数据,需要从中提取有效信息和对数据的分析,都是比较困难,要求分析人员有较高的专业素质。
(2)无法及时发现故障,对故障分析的效率也不高。
关系数据库记录型方案,在一定程度上解决了文件记录型方案的不足,然而它依然存在如下几点不足。
(1)会与系统业务产生资源竞争。由于监听数据的处理方式与系统业务数据处理相同,在业务处理时,两者会产生系统资源竞争。而且随着系统业务规模的增加,资源竞争越激烈,甚至可能会影响到系统业务的正常执行。
(2)比较适合应用于系统业务规模较小的系统,对于系统业务规模较大的场景,则会因为与业务业务竞争资源而产生系统瓶颈。
大数据技术,即是为了应对大数据处理需求而产生的一系列基于新处理模式的数据处理技术和方法,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
随着技术的发展,已经实现的大数据技术有很多。
发明内容
鉴于现有技术所存在的上述不足,本发明的目的是提供一种基于大数据技术的软件系统监控方法,实现系统状态实时监控、系统错误提醒、系统错误快速定位等功能,提高软件集成系统的健壮性,同时降低软件集成系统的运维成本。
本发明的技术解决方案是:一种基于大数据技术的软件系统监控方法,包括大数据平台、系统运行状态监听、系统监控平台;
所述大数据平台是一个文件存储与处理平台,用来对集群系统运行状态数据的汇总、存储与处理;
所述系统运行状态监听是对系统集群监听,即分别对每个子系统进行监听,通过在子系统中设置监听程序,监听各项系统业务处理的执行结果,并将监听结果形成监听数据信息,发送至大数据平台存储;
所述系统监控平台,将大数据平台存储的集群运行状态数据读取出来,并加以分析总结,最后以直观的形式展现出来。
根据本发明实施例,所述大数据平台选择开源生态圈中的Hadoop、Hbase、Zookeeper组成集群构成。
根据本发明实施例,所述大数据平台包括:基于三个节点的Hadoop集群、基于三个节点的Hbase集群和基于三个节点Zookeeper集合体。
根据本发明实施例,所述系统运行状态监听的步骤包括:
第一步:分别在每个子系统中设置监听程序,监听各项系统业务处理的执行结果;
第二步:监听程序监听到各项系统业务处理的执行结果后,立即将监听结果形成监听数据信息,并提交至大数据平台;若监听到异常信息,则向系统监控平台发送异常提醒;
第三步:大数据平台接收到监听数据信息后,经处理后存储于平台;
第四步:系统监控平台从大数据平台获取系统监听数据信息,分门别类进行统计分析,形成图文信息,展现在监控平台前端;如若收到监听程序异常提醒,则从大数据平台获取相应异常数据信息,加以分析识别,然后向用户发出异常报警,以提醒尽快处理。
每个子系统都按照这样的流程,将系统的运行状态提交至大数据平台汇总;整个过程中,运行信息与系统业务处理相互区分,就不会相互之间产生资源竞争,系统业务处理能够正常执行。
根据本发明实施例,所述系统监控平台包括:系统监控服务和用户界面;所述系统监控服务用于监听数据提取、数据分析处理、异常提醒;所述用户界面用于将分析结果呈现给用户。
根据本发明实施例,所述系统集群包括系统管理、统计报表、流程控制。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,由于基于大数据技术,能够取得下列有益效果。
本发明基于大数据技术,通过对软件集成系统运行信息进行登记、处理和分析,既能够全面监听系统运行过程,获取系统完整信息,又提供了对监听信息的处理分析和直观展现,极大的方便了管理员的监控和分析工作。同时,大数据平台对高并发和大数据处理能力的支持,以及系统业务与监听之间的区分,也使得系统监听和系统业务不会产生资源竞争,从而使得整个系统的健壮性大大提高。
本发明大数据平台与关系数据库记录型相比,它能够承载更高的并发;本发明中选择开源生态圈中的Hadoop、Hbase、Zookeeper组成集群构成大数据平台,用以处理监听系统集群所产生的高并发、大量数据的提交。
本发明系统运行监控平台可看作一个独特的子系统,被设计用以将大数据平台存储的集群运行状态数据读取出来,并加以分析总结,最后以比较直观的形式展现出来。在这里,既可以查看集群各子系统的实时运行状态,也可以查看各子系统产生的故障信息,以及各项历史数据统计,从而可以了解每一个子系统的健壮性。
附图说明
图1是基于大数据技术的软件监控总体结构图;
图2是基于大数据的软件系统监控系统架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1,一种基于大数据技术的软件系统监控方法,包括大数据平台、系统运行状态监听、系统监控平台;系统监控平台对系统集群监听,系统集群包括系统管理、统计报表、流程控制,大数据平台是一个文件存储与处理平台,系统监控平台,将大数据平台存储的集群运行状态数据读取出来,并加以分析总结,最后以直观的形式展现出来。
系统运行状态监听的步骤包括:
第一步:分别在每个子系统中设置监听程序,监听各项系统业务处理的执行结果;
第二步:监听程序监听到各项系统业务处理的执行结果后,立即将监听结果形成监听数据信息,并提交至大数据平台;若监听到异常信息,则向系统监控平台发送异常提醒;
第三步:大数据平台接收到监听数据信息后,经处理后存储于平台;
第四步:系统监控平台从大数据平台获取系统监听数据信息,分门别类进行统计分析,形成图文信息,展现在监控平台前端;如若收到监听程序异常提醒,则从大数据平台获取相应异常数据信息,加以分析识别,然后向用户发出异常报警,以提醒尽快处理。
如图2中的的统计报表子系统中有一项定时任务,某天执行一半即结束,导致当天统计数据不完整。
系统监控平台:发出异常报警:统计报表子系统,XXX程序发生异常,产生异常数据是:XXXXXXX,异常信息为:java.lang.ArrayIndexOutOfBoundsException:23。
根据系统监控平台异常报警信息,很快确定为统计报表系统XXX程序,因异常数据而产生数组越界异常,从而导致定时任务执行中断。
在这次统计报表系统突发异常事件中,本发明监控软件系统状态包含以下步骤:
第一步:统计报表系统定时任务开始执行,监听程序监听定时任务执行;
第二步:统计报表系统定时任务出现异常,执行中断,监听程序监听到异常信息,立即生成监听数据信息提交至大数据平台,同时向系统监控平台发出异常提醒;
第三步:大数据平台接收到监听异常数据信息后,经处理然后存储起来;
第四步:系统监控平台收到监听程序异常提醒,立即从大数据平台读取该异常数据信息,加以分析识别,确认非误报,并且向用户发出异常报警。
本实施例表明,本发明所提供的软件系统监控方法,可以迅速监听到软件系统异常并发出提醒,也能够提高异常分析和错误定位的效率。
本发明克服了现有技术的缺点,使得软件集成系统的监控和故障分析变得简单而易于操作,简化了管理员监控的操作流程,提高了管理员运维效率和分析准确率,使得系统监控变得智能化,极大的提高了软件集成系统的健壮性。
在另一方面,大数据技术的引入,使得软件系统监控的数据处理能力得到了极大的提升,使之可以完成更大规模的软件集成系统之监控功能。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (6)
1.一种基于大数据技术的软件系统监控方法,其特征在于包括大数据平台、系统运行状态监听、系统监控平台;
所述大数据平台是一个文件存储与处理平台,用来对集群系统运行状态数据的汇总、存储与处理;
所述系统运行状态监听是对系统集群监听,即分别对每个子系统进行监听,通过在子系统中设置监听程序,监听各项系统业务处理的执行结果,并将监听结果形成监听数据信息,发送至大数据平台存储;
所述系统监控平台,将大数据平台存储的集群运行状态数据读取出来,并加以分析总结,最后以直观的形式展现出来。
2.根据权利要求1所述的一种基于大数据技术的软件系统监控方法,其特征在于所述大数据平台选择开源生态圈中的Hadoop、Hbase、Zookeeper组成集群构成。
3.根据权利要求2所述的一种基于大数据技术的软件系统监控方法,其特征在于所述大数据平台包括:基于三个节点的Hadoop集群、基于三个节点的Hbase集群和基于三个节点Zookeeper集合体。
4.根据权利要求1所述的一种基于大数据技术的软件系统监控方法,其特征在于所述系统运行状态监听的步骤包括:
第一步:分别在每个子系统中设置监听程序,监听各项系统业务处理的执行结果;
第二步:监听程序监听到各项系统业务处理的执行结果后,立即将监听结果形成监听数据信息,并提交至大数据平台;若监听到异常信息,则向系统监控平台发送异常提醒;
第三步:大数据平台接收到监听数据信息后,经处理后存储于平台;
第四步:系统监控平台从大数据平台获取系统监听数据信息,分门别类进行统计分析,形成图文信息,展现在监控平台前端;如若收到监听程序异常提醒,则从大数据平台获取相应异常数据信息,加以分析识别,然后向用户发出异常报警,以提醒尽快处理。
5.根据权利要求1所述的一种基于大数据技术的软件系统监控方法,其特征在于所述系统监控平台包括:系统监控服务和用户界面;所述系统监控服务用于监听数据提取、数据分析处理、异常提醒;所述用户界面用于将分析结果呈现给用户。
6.根据权利要求1所述的一种基于大数据技术的软件系统监控方法,其特征在于所述系统集群包括系统管理、统计报表、流程控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711450811.1A CN108304293A (zh) | 2017-12-27 | 2017-12-27 | 一种基于大数据技术的软件系统监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711450811.1A CN108304293A (zh) | 2017-12-27 | 2017-12-27 | 一种基于大数据技术的软件系统监控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304293A true CN108304293A (zh) | 2018-07-20 |
Family
ID=62867905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711450811.1A Pending CN108304293A (zh) | 2017-12-27 | 2017-12-27 | 一种基于大数据技术的软件系统监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304293A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112737873A (zh) * | 2020-12-14 | 2021-04-30 | 北京同有飞骥科技股份有限公司 | 一种针对docker云服务的端口智能监听方法 |
CN113138898A (zh) * | 2021-04-26 | 2021-07-20 | 上海淇玥信息技术有限公司 | 对业务系统异常进行识别预警的方法、装置和电子设备 |
CN114049065A (zh) * | 2021-11-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 一种数据处理方法、装置及系统 |
CN115963793A (zh) * | 2023-01-03 | 2023-04-14 | 北京广利核系统工程有限公司 | 一种数据监视方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609346A (zh) * | 2012-01-16 | 2012-07-25 | 深信服网络科技(深圳)有限公司 | 基于业务操作的监控方法和装置 |
CN104615526A (zh) * | 2014-12-05 | 2015-05-13 | 北京航空航天大学 | 一种大数据平台的监控系统 |
CN105183609A (zh) * | 2015-09-16 | 2015-12-23 | 焦点科技股份有限公司 | 一种应用于软件系统的实时监控系统及方法 |
US9424156B2 (en) * | 2014-05-13 | 2016-08-23 | Netapp, Inc. | Identifying a potential failure event for a data storage device |
-
2017
- 2017-12-27 CN CN201711450811.1A patent/CN108304293A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609346A (zh) * | 2012-01-16 | 2012-07-25 | 深信服网络科技(深圳)有限公司 | 基于业务操作的监控方法和装置 |
US9424156B2 (en) * | 2014-05-13 | 2016-08-23 | Netapp, Inc. | Identifying a potential failure event for a data storage device |
CN104615526A (zh) * | 2014-12-05 | 2015-05-13 | 北京航空航天大学 | 一种大数据平台的监控系统 |
CN105183609A (zh) * | 2015-09-16 | 2015-12-23 | 焦点科技股份有限公司 | 一种应用于软件系统的实时监控系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112737873A (zh) * | 2020-12-14 | 2021-04-30 | 北京同有飞骥科技股份有限公司 | 一种针对docker云服务的端口智能监听方法 |
CN112737873B (zh) * | 2020-12-14 | 2022-10-18 | 北京同有飞骥科技股份有限公司 | 一种针对docker云服务的端口智能监听方法 |
CN113138898A (zh) * | 2021-04-26 | 2021-07-20 | 上海淇玥信息技术有限公司 | 对业务系统异常进行识别预警的方法、装置和电子设备 |
CN114049065A (zh) * | 2021-11-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 一种数据处理方法、装置及系统 |
CN115963793A (zh) * | 2023-01-03 | 2023-04-14 | 北京广利核系统工程有限公司 | 一种数据监视方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502494B (zh) | 日志处理方法、装置、计算机设备及存储介质 | |
CN108304293A (zh) | 一种基于大数据技术的软件系统监控方法 | |
CN106571960B (zh) | 日志收集管理系统及方法 | |
CN104462121B (zh) | 数据处理方法、装置及系统 | |
CN108600029A (zh) | 一种配置文件更新方法、装置、终端设备及存储介质 | |
CN103999077B (zh) | 包含可管理性子系统以实时监视和管理数据中心资源的方法 | |
WO2019223062A1 (zh) | 系统异常的处理方法和系统 | |
CN101632093A (zh) | 用于使用统计学分析来管理性能故障的系统和方法 | |
CN104917627B (zh) | 一种用于大型服务器集群的日志集群扫描与分析方法 | |
CN106940677A (zh) | 一种应用日志数据告警方法及装置 | |
CN112650762A (zh) | 数据质量监控的方法、装置、电子设备以及存储介质 | |
WO2011017955A1 (zh) | 一种告警数据分析的方法及其系统 | |
CN110224865A (zh) | 一种基于流式处理的日志告警系统 | |
CN110209518A (zh) | 一种多数据源日志数据集中收集存储方法及装置 | |
CN112130999A (zh) | 一种基于边缘计算的电力异构数据处理方法 | |
CN110096683A (zh) | 报表生成方法、系统、计算机装置及计算机可读存储介质 | |
CN105989163A (zh) | 数据实时处理方法及系统 | |
CN112865311B (zh) | 一种电力系统消息总线监视方法和装置 | |
KR20180037342A (ko) | 어플리케이션 에러 모니터링 및 통계관리 서비스 및 방법 | |
CN109800133A (zh) | 一种统一监控告警的方法、一站式监控告警平台及系统 | |
CN110796341B (zh) | 一种催收案件分布式批处理方法、装置和电子设备 | |
CN107257289A (zh) | 一种风险分析设备、监控系统和监控方法 | |
CN107562768A (zh) | 一种数据处理过程动态回溯追踪方法 | |
CN113672452A (zh) | 一种数据采集任务的运行监控方法、系统 | |
CN103326880B (zh) | Genesys呼叫系统高可用性云计算监控系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |
|
RJ01 | Rejection of invention patent application after publication |