CN105227405B - 监控方法及系统 - Google Patents

监控方法及系统 Download PDF

Info

Publication number
CN105227405B
CN105227405B CN201510672918.5A CN201510672918A CN105227405B CN 105227405 B CN105227405 B CN 105227405B CN 201510672918 A CN201510672918 A CN 201510672918A CN 105227405 B CN105227405 B CN 105227405B
Authority
CN
China
Prior art keywords
endpoint
monitor control
control index
index data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510672918.5A
Other languages
English (en)
Other versions
CN105227405A (zh
Inventor
贺安辉
薛大宇
李笠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201510672918.5A priority Critical patent/CN105227405B/zh
Publication of CN105227405A publication Critical patent/CN105227405A/zh
Application granted granted Critical
Publication of CN105227405B publication Critical patent/CN105227405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种监控方法及系统,其中,该监控方法包括:根据待监控系统的业务数据流特点将待监控系统划分为存在依赖关系的至少一个端点,并根据至少一个端点及依赖关系生成配置文件;获取各端点的监控指标数据,每个端点均部署监控代理;对监控指标数据进行格式转换,得到第一格式的监控指标数据;根据第一格式的监控指标数据及配置文件填充页面数据,按照第一格式在显示界面上显示各端点的端点信息,端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。将待监控系统抽象为按照依赖关系连接的一组端点,采集各端点的监控指标数据,当发生故障时,可展示故障的一系列端点及其依赖关系,降低故障定位难度,提高问题排查效率。

Description

监控方法及系统
技术领域
本发明涉及信息监控技术领域,尤其涉及一种监控方法及系统。
背景技术
监控系统作为了解和掌控信息科技系统运行状况的辅助工具,正发挥着越来越重要的作用。
传统监控工具通过在各应用系统上安装监控代理,配置各种不同的监控指标,采集数据并上送后进行集中展现。图1是现有的监控工具故障定位的示意图,如图1所示,监控对象包括:应用1、系统2、网络3、……、组件N,每个监控对象均安装有监控代理,监控服务器实时从监控代理处采集信息,并在显示界面上展示告警信息,在图1中,除了应用1之外,其余监控对象均发生告警(“X”代表故障)。
由于各应用系统或组件的监控数据采集是孤立的,当它们发生告警时,这些告警事件会逐条展示在监控视图上。而运维管理人员看到告警后,将会处理每条告警事件,针对发生告警的每个应用系统或组件一一进行问题排查。但实际上,由于不同应用系统或组件之间存在关联性,产生不同告警事件的本质原因可能是同一个,也就是说,使用现有的监控工具进行问题排查往往付出了很大的精力却达不到快速定位的效果。
综上,现有的监控工具主要存在以下问题:
(1)现有的监控工具展示的告警信息孤立、不全面,增加了故障定位的难度;
(2)当大量的问题单和客户投诉电话转至运维管理部门时,在传统的问题应急处理流程中,一般是对发生故障业务的相关系统进行同步分头排查,往往付出了大量的人力、物力却很难快速找到问题的根源,故障定位和排查问题的效率较低。
发明内容
本发明提供了一种监控方法及系统,以至少解决现有的监控工具展示的告警信息孤立,增加了故障定位的难度,且故障定位和排查问题的效率较低的问题。
根据本发明的一个方面,提供了一种监控方法,包括:根据待监控系统的业务数据流特点将所述待监控系统划分为存在依赖关系的至少一个端点,并根据所述至少一个端点以及端点间的依赖关系生成配置文件;获取各端点的监控指标数据,其中,每个端点均部署监控代理;对所述监控指标数据进行格式转换,得到第一格式的监控指标数据;根据所述第一格式的监控指标数据及所述配置文件填充显示界面的页面数据,按照所述第一格式在所述显示界面上显示各端点的端点信息,其中,所述端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。
在一个实施例中,获取各端点的监控指标数据,包括:从各端点的监控代理处采集共性指标数据;接收各端点的监控代理发送的个性指标数据。
在一个实施例中,在对所述监控指标数据进行格式转换之前,所述方法还包括:存储所述监控指标数据;按照预设的时间间隔对存储的监控指标数据进行计算,并利用计算结果对所述存储的监控指标数据进行更新;对所述监控指标数据进行格式转换,包括:读取更新后的监控指标数据,并对所述更新后的监控指标数据进行格式转换。
在一个实施例中,存储所述监控指标数据,包括:根据预先存储的端点的配置信息对所述监控指标数据中的个性指标数据进行分类存储,其中,所述配置信息包括:端点的应用名称、IP地址、机构名称和机构编码。
在一个实施例中,在按照所述第一格式在所述显示界面上显示各端点的端点信息之后,所述方法还包括:根据预设规则和各端点的监控指标数据生成各端点的端点状态;利用生成的端点状态更新所述显示界面上当前显示的端点状态。
在一个实施例中,所述端点状态包括:所述端点是否可以正常服务以及服务的能力。
根据本发明的另一个方面,提供了一种监控系统,包括:划分单元,用于根据待监控系统的业务数据流特点将所述待监控系统划分为存在依赖关系的至少一个端点;第一生成单元,用于根据所述至少一个端点以及端点间的依赖关系生成配置文件;获取单元,用于获取各端点的监控指标数据,其中,每个端点均部署监控代理;格式转换单元,用于对所述监控指标数据进行格式转换,得到第一格式的监控指标数据;显示单元,用于根据所述第一格式的监控指标数据及所述配置文件填充显示界面的页面数据,按照所述第一格式在所述显示界面上显示各端点的端点信息,其中,所述端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。
在一个实施例中,所述获取单元包括:采集模块,用于从各端点的监控代理处采集共性指标数据;接收模块,用于接收各端点的监控代理发送的个性指标数据。
在一个实施例中,所述监控系统还包括:存储单元,用于存储所述监控指标数据;计算单元,用于按照预设的时间间隔对存储的监控指标数据进行计算;第一更新单元,用于利用计算结果对所述存储的监控指标数据进行更新;所述格式转换单元包括:读取模块,用于读取更新后的监控指标数据;格式转换模块,用于对所述更新后的监控指标数据进行格式转换。
在一个实施例中,所述监控系统还包括:第二生成单元,用于在按照所述第一格式在所述显示界面上显示各端点的端点信息之后,根据预设规则和各端点的监控指标数据生成各端点的端点状态;第二更新单元,用于利用生成的端点状态更新所述显示界面上当前显示的端点状态。
通过本发明的监控方法及系统,分析待监控系统的业务特点,将待监控系统包含的信息科技组件抽象为按照组件间的依赖关系相互连接的一组端点,采集各端点的监控指标数据,对监控指标数据进行丰富和加工处理,处理后的数据按照各端点的连接顺序进行汇聚、展现以及告警,从而实现业务全流程中所涉及的所有组件(即端点)的全貌展示和监控。当发生故障时,可清晰地展示发生故障的一系列端点及其依赖关系,信息科技组件之间的告警信息是不孤立的,降低了故障定位的难度,使得应急处理人员能够快速定位故障模块,缩短问题排查区间,提高问题排查效率,减轻应急处理人员的压力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。在附图中:
图1是现有的监控工具故障定位的示意图;
图2是本发明实施例的监控方法的流程图;
图3是本发明实施例的监控系统的结构框图一;
图4是本发明实施例的监控系统的结构框图二;
图5是本发明实施例的监控系统的结构框图三;
图6是本发明具体实施例的监控系统的结构示意图;
图7是本发明具体实施例的监控方法的详细流程图;
图8是本发明具体实施例的监控方法的故障定位示意图;
图9是本发明具体实施例的监控系统的物理部署图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供了一种监控方法,图2是本发明实施例的监控方法的流程图。如图2所示,该方法包括如下步骤:
步骤S201,根据待监控系统的业务数据流特点将待监控系统划分为存在依赖关系的至少一个端点,并根据至少一个端点以及端点间的依赖关系生成配置文件。
其中,待监控系统可以是信息系统,例如,银行的某应用系统。可选的,可以根据应用系统版本说明书梳理出业务数据流图,进而根据业务数据流图抽象出不同的端点以及端点之间的依赖关系。
步骤S202,获取各端点的监控指标数据,其中,每个端点均部署监控代理。
监控指标数据能够体现端点的健康状况和可用性状态,其中,端点的健康状况表示其对外服务的能力水平(例如CPU、内存等),端点的可用性状态表示其是否可以对外正常服务(例如可用率、响应时间等)。监控指标数据可以包括:各端点之间的共性指标数据,以及各端点的个性指标数据。可以通过以下方式获取监控指标数据:从各端点的监控代理处采集共性指标数据;接收各端点的监控代理发送的个性指标数据。
步骤S203,对监控指标数据进行格式转换,得到第一格式的监控指标数据。
步骤S204,根据第一格式的监控指标数据及配置文件填充显示界面的页面数据,按照第一格式在显示界面上显示各端点的端点信息,其中,端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。端点状态包括:端点是否可以正常服务以及服务的能力。
上述实施例通过分析待监控系统的业务特点,将待监控系统包含的信息科技组件抽象为按照组件间的依赖关系相互连接的一组端点,采集各端点的监控指标数据,对监控指标数据进行丰富和加工处理,处理后的数据按照各端点的连接顺序进行汇聚、展现以及告警,从而实现业务全流程中所涉及的所有组件(即端点)的全貌展示和监控。当发生故障时,可清晰地展示发生故障的一系列端点及其依赖关系,信息科技组件之间的告警信息是不孤立的,降低了故障定位的难度,使得应急处理人员能够快速定位故障模块,缩短问题排查区间,提高问题排查效率,减轻应急处理人员的压力。
实际上,本发明实施例提供了一种端到端的监控方法,其中,端指的是应用系统中的某个应用、某个系统或者某个组件,端到端监控指的是对信息系统的一端到另一端进行业务全流程的监控。
在一个实施例中,在对监控指标数据进行格式转换之前,上述方法还可以包括:存储监控指标数据;按照预设的时间间隔对存储的监控指标数据进行计算,并利用计算结果对存储的监控指标数据进行更新。对监控指标数据进行格式转换,包括:读取更新后的监控指标数据,并对更新后的监控指标数据进行格式转换。
最初存储的监控指标数据是原始数据,可以对这些原始数据进行计算,得到一些利于判断端点状态的值,例如,计算所有端点监控指标一周内和一月内的最大值、最小值、平均值等。存储上述计算值,后续可以直接读取该计算值,简化了流程。
对于监控指标数据中的个性指标数据,可以采用分类存储。具体地,可以根据预先存储的端点的配置信息对个性指标数据进行分类存储,其中,配置信息可以包括:端点的应用名称、IP地址、机构名称和机构编码。分类存储可以按照个性指标数据的时效性、访问频率、更新周期等进行归类,提高了数据读取的性能。
在一个实施例中,在步骤S204按照第一格式在显示界面上显示各端点的端点信息之后,上述方法还可以包括:根据预设规则和各端点的监控指标数据生成各端点的端点状态;利用生成的端点状态更新显示界面上当前显示的端点状态。预设规则有多种形式,比如阀值、关键字、加权等,例如,当某端点下的指标数据超过阀值时就对端点状态置为“一般”或“严重”、当某端点下的指标数据出现了“Error”就对端点状态置为“一般”或“严重”、当某端点下出现了“80%比例的超阀值指标数据”就对端点状态置为“严重”等。本实施例中,可以及时更新端点状态,以便运维管理人员及时获知端点状态的变化,从而进行故障定位和排查。
在显示界面上显示各端点的端点信息时,可以采用分层、集中、钻取相结合的展现模式。分层是将各个端点作为不同的层次进行展现;集中是在同一页面上显示所有端点的状态,用户可以通过点击查看其详情;钻取是用户可以从上层端点逐层下探到最底层端点,查看其运行情况。
基于同一发明构思,本发明实施例还提供了一种监控系统,可以用于实现上述实施例所描述的监控方法,如下面的实施例所述。由于该系统解决问题的原理与监控方法相似,因此该系统的实施可以参见监控方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本发明实施例的监控系统的结构框图,如图3所示,该监控系统包括:划分单元301、第一生成单元302、获取单元303、格式转换单元304和显示单元305,下面对该结构进行具体说明。
划分单元301,用于根据待监控系统的业务数据流特点将待监控系统划分为存在依赖关系的至少一个端点。
第一生成单元302,用于根据至少一个端点以及端点间的依赖关系生成配置文件。
获取单元303,用于获取各端点的监控指标数据,其中,每个端点均部署监控代理。
格式转换单元304,用于对监控指标数据进行格式转换,得到第一格式的监控指标数据。
显示单元305,用于根据第一格式的监控指标数据及配置文件填充显示界面的页面数据,按照第一格式在显示界面上显示各端点的端点信息,其中,端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。
上述实施例通过分析待监控系统的业务特点,将待监控系统包含的信息科技组件抽象为按照组件间的依赖关系相互连接的一组端点,采集各端点的监控指标数据,对监控指标数据进行丰富和加工处理,处理后的数据按照各端点的连接顺序进行汇聚、展现以及告警,从而实现业务全流程中所涉及的所有组件(即端点)的全貌展示和监控。当发生故障时,可清晰地展示发生故障的一系列端点及其依赖关系,信息科技组件之间的告警信息是不孤立的,降低了故障定位的难度,使得应急处理人员能够快速定位故障模块,缩短问题排查区间,提高问题排查效率,减轻应急处理人员的压力。
在一个实施例中,获取单元303包括:采集模块,用于从各端点的监控代理处采集共性指标数据;接收模块,用于接收各端点的监控代理发送的个性指标数据。
如图4所示,在一个实施例中,上述监控系统还可以包括:存储单元306,用于存储监控指标数据;计算单元307,用于按照预设的时间间隔对存储的监控指标数据进行计算;第一更新单元308,用于利用计算结果对存储的监控指标数据进行更新。格式转换单元304包括:读取模块,用于读取更新后的监控指标数据;格式转换模块,用于对更新后的监控指标数据进行格式转换。
在一个实施例中,存储单元306可以根据预先存储的端点的配置信息对监控指标数据中的个性指标数据进行分类存储,其中,配置信息包括:端点的应用名称、IP地址、机构名称和机构编码。
如图5所示,在一个实施例中,上述监控系统还可以包括:第二生成单元309,用于在按照第一格式在显示界面上显示各端点的端点信息之后,根据预设规则和各端点的监控指标数据生成各端点的端点状态;第二更新单元310,用于利用生成的端点状态更新显示界面上当前显示的端点状态。
当然,上述模块划分只是一种示意划分,本发明并不局限于此。只要能实现本发明的目的的模块划分,均应属于本发明的保护范围。
为了对上述监控方法及系统进行更为清楚的解释,下面结合具体的实施例来进行说明,然而值得注意的是该实施例仅是为了更好地说明本发明,并不构成对本发明不当的限定。
图6是本发明具体实施例的监控系统的结构示意图,如图6所示,监控系统包括:业务流程分析装置61(可以实现上述实施例中划分单元301和第一生成单元302的功能)、数据采集装置62(可以实现上述实施例中获取单元303的功能)、数据处理装置63(可以实现上述实施例中格式转换单元304、存储单元306、计算单元307和第一更新单元308的功能)和视图展现装置64(可以实现上述实施例中显示单元305、第二生成单元309和第二更新单元310的功能)。
业务流程分析装置61,用于根据应用系统的业务特点把其包含的系统和组件梳理成有依赖关系的端点,并提供接口以便数据采集装置62和视图展现装置64获取上述信息。具体方法可以是:提取系统版本说明书611中的架构图,以架构图为基础梳理出业务数据流图,根据业务数据流图抽象出不同的端点以及端点之间的依赖关系,生成配置文件612,并传递到视图展现装置64中供视图渲染模块641调用。
其中,系统版本说明书611中通常包括:物理部署图、逻辑架构图、上下游应用依赖关系等图表。业务数据流图通常包括:业务系统、应用系统以及各应用系统之间的访问接口名称、类型、方向等信息。
数据采集装置62,负责从业务流程分析装置61中获取应用系统相关的端点信息和端点之间的依赖关系信息。端点信息包括:端点的名称、指标名称、机构信息等,这些信息以及端点之间的依赖关系信息与配置文件612的内容是一致的,但表现形式不同,端点信息和依赖关系信息作为数据采集装置62的输入,配置文件612作为视图渲染模块641的输入。此外数据采集装置62还负责从各端点621处获取关键的监控指标数据,并传递给数据处理装置63。这些关键的监控指标需能体现该端点的健康状况和可用性状态。端点的健康状况表示其对外服务的能力水平(例如CPU、内存等),端点的可用性状态表示其是否可以对外正常服务(例如可用率、响应时间等)。
数据采集装置62包括:端点621、主动抽取模块622和被动接收模块623。
端点621,是监控指标数据的采集对象,例如,应用系统、网络线路、基础设施等。通过在各端点上部署监控代理可获取每个端点对应的监控指标数据。监控指标数据可以包括采集对象不同维度的衡量数据,例如,对于服务器设备来说,其监控指标数据包含CPU使用率、内存使用率等;对于网络设备来说,其监控指标数据包含线路可用性、负载、丢包率等。上述监控指标数据一部分被主动抽取模块622采集并存储,另一部分则由监控代理将监控指标数据通过网络协议发送给被动接收模块623。
主动抽取模块622,负责从各端点621处获取通用的监控指标数据(即共性指标数据),并保存到数据存储器631中。通用的监控指标对于各端点是相同的,对端点的健康状况起辅助性的判定作用。通用的监控指标数据可以通过各端点上部署的监控代理采集得到。
被动接收模块623,负责侦听端口以接收各端点621发送过来的个性指标数据,并将其传递给数据包拆分模块632。个性指标数据反映了与该端点的功能和特性密切相关的一组考量点。个性指标数据用于判定该端点的可用性状态。个性指标数据的原始报文可以由各端点上部署的监控代理计算得到。从各端点发送给被动接收模块623的数据包字段要求如表1所示。
表1数据包字段要求表
数据字段 说明
IP 指标数据对应业务系统的IP地址
MRETRICID 指标的唯一标识
VALUE 指标数据的值
TIMESTAMP 指标数据采集的时间点
数据处理装置63,用于对数据采集装置62获取的数据进行存储、运算和组装输出,并将输出结果传递给视图展现装置64。
数据处理装置63包括:数据存储器631、数据包拆分模块632、参数表633、定时调度模块634和数据组装模块635。
数据存储器631,负责所有端点监控指标数据的存储。该存储器为满足运算的性能要求,可以进行模型设计和优化设计。数据存储器631中存储监控指标原始值的数据表如表2所示。
表2监控指标原始数据表
字段名称 是否非空 字段描述
Dateslot 非空 日期
Timeslot 非空 采集时间点
BIZNAME 非空 业务名称
MetricNAME 非空 指标名称
Value 指标值
数据包拆分模块632,负责对被动接收模块623传递过来的数据包进行拆分,并经查询参数表633中的配置信息后把数据分类保存到数据存储器631中。该模块可以响应大量的并发请求,并进行容错设计。
参数表633,负责存储所有端点的配置信息,为数据包拆分模块632提供查询和匹配。该参数表633可以包括:各端点的应用名称、IP地址、机构名称、机构编码以及其他参数信息。
定时调度模块634,负责定时执行任务计划,对数据存储器631中的数据执行运算,这些运算可以包括:计算所有端点监控指标一周内和一月内的最大值、最小值、平均值等。
数据组装模块635,负责读取数据存储器631中运算后的数据,输出为视图展现装置64所需要的格式。输出的结果包含:端点指标数据的实时值和历史值、用户的权限信息。其中用户的权限信息定义了哪些用户角色可以看到哪些展现数据。
视图展现装置64,用于对业务流程分析装置61和数据处理装置63输出的结果进行展现,是最终用户直接面对和交互的装置,在该装置上展现了所有端点的汇总信息(包括端点状态、监控指标数据、端点间依赖关系等)。
视图展现装置64包括:视图渲染模块641和状态生成模块642。
视图渲染模块641,用于展示所有端点的汇总信息。较优的,可以采用分层集中展示与钻取相结合的展现模式。首先是分层,各个端点作为不同的层次进行展现,不进行状态叠加,相对于状态层层向上叠加的方法,可以更直观的定位发生故障的端点。状态层层向上叠加方法的效果是仅能看到最终的一个总状态,无法看到每一层的子状态。这个总状态是对子状态的加权叠加,加权的方法可以是取最严重的状态作为总状态或者按比例计算后的状态值作为总状态。其次是集中展示,所有用户可以在一个页面上非常直观地纵览所有端点的状态,并查看各端点的详情。最后是钻取,用户可以查看从最上层的大型主机层层下探一直到柜台微机或ATM机的运行情况。
状态生成模块642,用于根据各端点的监控指标数据和设定的规则生成各端点的状态。端点的状态表示该端点是否可以正常对外服务,其等级可以分为“正常”、“一般”和“严重”三种,其中“一般”表示服务等级下降,“严重”表示无法对外服务。
图7是本发明具体实施例的监控方法的详细流程图,如图7所示,步骤如下:
步骤S701,在各端点621处部署监控代理,为步骤S702和步骤S703做准备。
步骤S702,主动抽取模块622从各端点621处采集通用指标数据(也称为共性指标数据)。
步骤S703,被动接收模块623监听数据接收端口,各应用系统的个性指标数据通过网络协议发送到该端口上。
步骤S704,被动接收模块623判定是否接收到数据,如果没有接收到数据,继续监听端口,否则转到步骤S705。
步骤S705,数据包拆分模块632根据参数表633中的配置信息,对接收到的数据进行拆分处理。
步骤S706,将主动抽取模块622和被动接收模块623获得的数据(包括共性指标数据和个性指标数据)存入数据存储器631中。
步骤S707,刚存入数据存储器631中的数据是原始数据,通过定时调度模块634执行定时任务,对原始数据进行计算,并更新数据存储器631中的内容。
步骤S708,数据组装模块635从数据存储器631中读取数据,输出为视图展现装置64所需格式的结果。
步骤S709,通过系统版本说明书611等文档梳理业务流程,把业务流程包含的信息科技组件抽象为一组存在依赖关系的端点,根据这些端点以及依赖关系生成配置文件612。本步骤可以预先完成,以便在步骤S710中使用配置文件,节省时间。
步骤S710,视图渲染模块641根据数据组装模块635输出的结果以及配置文件612填充页面数据,并展示数据视图和端点状态。
步骤S711,状态生成模块642根据预定义的规则计算各端点的状态,并在视图上更新这些端点的状态。
步骤S712,状态更新完毕后结束本流程。
图8是本发明具体实施例的监控方法的故障定位示意图,如图8所示,从系统数据流的角度拆分出了不同的端点,这些端点可以对应于应用系统或组件,如图中所示的应用1、系统2、网络3、……、组件N、子网络31。此外,还梳理出了不同端点之间的依赖关系,根据依赖关系排列其连接顺序,在图8中,应用1依赖于组件N,组件N依赖于系统2,系统2依赖于网络3,子网络31依赖于网络3。
从图8可以看出,当前业务流程中组件N、系统2和网络3发生了故障(图中“X”表示故障),应用1是正常状态。根据其依赖关系,可以推断网络3可能是问题的根源。从网络3向下钻取,进一步发现子网络31发生了故障。因此利用这种端到端的监控,运维管理人员可以全面考虑告警信息,快速定位问题区间,提高问题排查效率。
图9是本发明具体实施例的监控系统的物理部署图,结合图6所示的监控系统示意图,视图展现装置64和业务流程分析装置61部署在Web服务器上,为最终用户提供页面访问功能;数据处理装置63和数据采集装置62部署在应用服务器上,其中数据采集装置62把从各系统采集的监控指标数据存储到数据存储服务器上,数据处理装置63从数据存储服务器上读取数据并进行加工处理。
综上所述,本发明实施例的监控方法及系统具有如下有益效果:
(1)不同信息科技组件的告警信息经过汇聚整合,可以直观地展示故障的全貌,告警信息不再是孤立的。
(2)信息系统的数据流经过梳理被拆分成了不同的端点,故障具有了范围和区间的属性。当某端点的数据满足设定的规则时触发状态变化,可以快速定位故障区间,提高问题排查效率。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种监控方法,其特征在于,包括:
根据待监控系统的业务数据流特点将所述待监控系统划分为存在依赖关系的至少一个端点,并根据所述至少一个端点以及端点间的依赖关系生成配置文件;其中,待监控系统是银行的应用系统;根据应用系统版本说明书梳理出业务数据流图,进而根据业务数据流图抽象出不同的端点以及端点之间的依赖关系;
获取各端点的监控指标数据,其中,每个端点均部署监控代理;
对所述监控指标数据进行格式转换,得到第一格式的监控指标数据;
根据所述第一格式的监控指标数据及所述配置文件填充显示界面的页面数据,按照所述第一格式在所述显示界面上显示各端点的端点信息,其中,所述端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。
2.根据权利要求1所述的监控方法,其特征在于,获取各端点的监控指标数据,包括:
从各端点的监控代理处采集共性指标数据;
接收各端点的监控代理发送的个性指标数据。
3.根据权利要求1所述的监控方法,其特征在于,在对所述监控指标数据进行格式转换之前,所述方法还包括:
存储所述监控指标数据;
按照预设的时间间隔对存储的监控指标数据进行计算,并利用计算结果对所述存储的监控指标数据进行更新;
对所述监控指标数据进行格式转换,包括:读取更新后的监控指标数据,并对所述更新后的监控指标数据进行格式转换。
4.根据权利要求3所述的监控方法,其特征在于,存储所述监控指标数据,包括:
根据预先存储的端点的配置信息对所述监控指标数据中的个性指标数据进行分类存储,其中,所述配置信息包括:端点的应用名称、IP地址、机构名称和机构编码。
5.根据权利要求1所述的监控方法,其特征在于,在按照所述第一格式在所述显示界面上显示各端点的端点信息之后,所述方法还包括:
根据预设规则和各端点的监控指标数据生成各端点的端点状态;
利用生成的端点状态更新所述显示界面上当前显示的端点状态。
6.根据权利要求1至5中任一项所述的监控方法,其特征在于,所述端点状态包括:所述端点是否可以正常服务以及服务的能力。
7.一种监控系统,其特征在于,包括:
划分单元,用于根据待监控系统的业务数据流特点将所述待监控系统划分为存在依赖关系的至少一个端点;
第一生成单元,用于根据所述至少一个端点以及端点间的依赖关系生成配置文件;其中,待监控系统是银行的应用系统;根据应用系统版本说明书梳理出业务数据流图,进而根据业务数据流图抽象出不同的端点以及端点之间的依赖关系;
获取单元,用于获取各端点的监控指标数据,其中,每个端点均部署监控代理;
格式转换单元,用于对所述监控指标数据进行格式转换,得到第一格式的监控指标数据;
显示单元,用于根据所述第一格式的监控指标数据及所述配置文件填充显示界面的页面数据,按照所述第一格式在所述显示界面上显示各端点的端点信息,其中,所述端点信息包括:端点状态、端点间的依赖关系和端点的监控指标数据。
8.根据权利要求7所述的监控系统,其特征在于,所述获取单元包括:
采集模块,用于从各端点的监控代理处采集共性指标数据;
接收模块,用于接收各端点的监控代理发送的个性指标数据。
9.根据权利要求7所述的监控系统,其特征在于,
所述监控系统还包括:
存储单元,用于存储所述监控指标数据;
计算单元,用于按照预设的时间间隔对存储的监控指标数据进行计算;
第一更新单元,用于利用计算结果对所述存储的监控指标数据进行更新;
所述格式转换单元包括:
读取模块,用于读取更新后的监控指标数据;
格式转换模块,用于对所述更新后的监控指标数据进行格式转换。
10.根据权利要求7所述的监控系统,其特征在于,所述监控系统还包括:
第二生成单元,用于在按照所述第一格式在所述显示界面上显示各端点的端点信息之后,根据预设规则和各端点的监控指标数据生成各端点的端点状态;
第二更新单元,用于利用生成的端点状态更新所述显示界面上当前显示的端点状态。
CN201510672918.5A 2015-10-16 2015-10-16 监控方法及系统 Active CN105227405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510672918.5A CN105227405B (zh) 2015-10-16 2015-10-16 监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510672918.5A CN105227405B (zh) 2015-10-16 2015-10-16 监控方法及系统

Publications (2)

Publication Number Publication Date
CN105227405A CN105227405A (zh) 2016-01-06
CN105227405B true CN105227405B (zh) 2018-12-04

Family

ID=54996115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510672918.5A Active CN105227405B (zh) 2015-10-16 2015-10-16 监控方法及系统

Country Status (1)

Country Link
CN (1) CN105227405B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015901B (zh) * 2016-01-28 2021-01-29 苏宁易购集团股份有限公司 一种日志分析方法及装置
CN106528390A (zh) * 2016-11-04 2017-03-22 智者四海(北京)技术有限公司 一种应用监控方法及装置
CN108234161A (zh) * 2016-12-14 2018-06-29 福建星网视易信息系统有限公司 用于线上线下多层网络架构的通路检测方法及系统
CN108156051A (zh) * 2017-12-12 2018-06-12 上海天旦网络科技发展有限公司 分析网络数据信息的展现方法与系统
CN109067610B (zh) * 2018-07-12 2021-03-02 北京京东金融科技控股有限公司 一种监控方法和装置
CN109284213B (zh) * 2018-08-07 2022-03-04 蚂蚁蓉信(成都)网络科技有限公司 报警方法、装置、电子设备及计算机可读存储介质
CN111950834A (zh) * 2019-05-17 2020-11-17 阿里巴巴集团控股有限公司 信息处理方法、信息展示方法、装置及计算设备
CN112311577A (zh) * 2019-07-31 2021-02-02 中国移动通信集团广东有限公司 一种监控指标数据管理方法、装置、电子设备及存储介质
CN110928942A (zh) * 2019-11-26 2020-03-27 北京天元创新科技有限公司 指标数据监控管理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972210A (zh) * 2006-11-21 2007-05-30 华为技术有限公司 网络监控方法及其系统
CN102238465A (zh) * 2010-04-28 2011-11-09 北京神州泰岳软件股份有限公司 一种移动数据业务端到端质量分析方法及系统
CN102291617A (zh) * 2011-09-03 2011-12-21 四川公用信息产业有限责任公司 Iptv业务端到端故障诊断与定位平台
CN102739802A (zh) * 2012-07-06 2012-10-17 广东电网公司汕头供电局 面向业务应用的it集中运维分析系统
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN104468193A (zh) * 2014-11-11 2015-03-25 上海天玑科技股份有限公司 一种基于组件发现对业务系统进行监控的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972210A (zh) * 2006-11-21 2007-05-30 华为技术有限公司 网络监控方法及其系统
CN102238465A (zh) * 2010-04-28 2011-11-09 北京神州泰岳软件股份有限公司 一种移动数据业务端到端质量分析方法及系统
CN102291617A (zh) * 2011-09-03 2011-12-21 四川公用信息产业有限责任公司 Iptv业务端到端故障诊断与定位平台
CN102739802A (zh) * 2012-07-06 2012-10-17 广东电网公司汕头供电局 面向业务应用的it集中运维分析系统
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN104468193A (zh) * 2014-11-11 2015-03-25 上海天玑科技股份有限公司 一种基于组件发现对业务系统进行监控的方法

Also Published As

Publication number Publication date
CN105227405A (zh) 2016-01-06

Similar Documents

Publication Publication Date Title
CN105227405B (zh) 监控方法及系统
CN105809248B (zh) 一种分布式人工神经网络在sdn上的配置和交互方法
CN105159964B (zh) 一种日志监控方法及系统
US20160359701A1 (en) Parallel coordinate charts for flow exploration
CN106878064A (zh) 数据监控方法和装置
CN110036600A (zh) 网络健康数据汇聚服务
CN109902072A (zh) 一种日志处理系统
US20150149611A1 (en) Centralized Resource Usage Visualization Service For Large-Scale Network Topologies
CN110198555A (zh) 一种网络切片的配置方法和装置
CN108259371A (zh) 一种基于流处理的网络流量数据解析方法和装置
CN109214704A (zh) 一种分布式智能化运维平台、方法、装置及可读存储介质
CN108092813A (zh) 数据中心综合管理系统服务器硬件管理框架及实现方法
CN106789412A (zh) 监测信息采集主站性能的方法、装置及系统
KR20150112357A (ko) 센서 데이터 처리 시스템 및 방법
CN112350854B (zh) 一种流量故障定位方法、装置、设备及存储介质
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和系统
CN109669976A (zh) 基于etl的数据服务方法及设备
US7509414B2 (en) System and method for collection, aggregation, and composition of metrics
CN107993004A (zh) 一种用电信息处理系统和方法
CN110018993B (zh) 一种数据分析系统、方法及监控分析系统
CN110968479B (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN106599120A (zh) 基于流处理框架的数据处理方法及装置
CN107577769A (zh) 一种计量专业数据的挖掘方法及系统
CN108073582A (zh) 一种计算框架选择方法和装置
CN109997337A (zh) 网络健康信息的可视化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant