CN109660407A - 分布式系统监控系统及方法 - Google Patents

分布式系统监控系统及方法 Download PDF

Info

Publication number
CN109660407A
CN109660407A CN201910048949.1A CN201910048949A CN109660407A CN 109660407 A CN109660407 A CN 109660407A CN 201910048949 A CN201910048949 A CN 201910048949A CN 109660407 A CN109660407 A CN 109660407A
Authority
CN
China
Prior art keywords
abnormal
information
distributed system
exception
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910048949.1A
Other languages
English (en)
Inventor
段帅良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Original Assignee
Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xin Yong Computing Power Information Technology (shanghai) Co Ltd filed Critical Xin Yong Computing Power Information Technology (shanghai) Co Ltd
Priority to CN201910048949.1A priority Critical patent/CN109660407A/zh
Publication of CN109660407A publication Critical patent/CN109660407A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种分布式系统监控系统及方法,所述分布式系统监控系统设计及理论完整,系统结构简单,可操作性强,针对所需要采集的信息的标准化方面进行明确定义,落地实施有较大借鉴意义,且更有利于后期问题定位及信息的多维度查询;运用实时计算对所述分布式系统中的监控数据的监控指标进行计算,并预先根据所述监控指标对监控指标的计算结果对处于异常和正常的临界时或所述结果异常时的模型进行建模,得到判断所述监控指标的计算结果为正常或异常的规则,提高了告警质量、准确度及发现问题的效率,建模引入人工智能技术,进一步提高模型的泛化能力及告警准确度。最终提高了系统的稳定性,增强系统的运维能力,大幅降低运维成本。

Description

分布式系统监控系统及方法
技术领域
本公开涉及计算机应用技术领域,尤其是涉及一种分布式系统监控系统及方法。
背景技术
随着计算机技术的快速发展,各种业务不断扩展,业务架构逐渐由集中式向分布式演进,分布式系统的应用越来越广泛。但在分布式系统中,由于业务量比较大,需要搭建很多台业务终端才能支持业务,在业务终端的数量比较多的情况下,监控该分布式系统的运行情况就会变得很复杂。使得高效定位错误异常根因和找出性能瓶颈变得越来越困难。
现今,分布式架构的业务系统在企业、行业的日常管理及业务运作中扮演着越来越重要的角色。行业企业拥有大规模的、组织结构复杂的、数量繁多的分布式业务系统已成为现实,分布式架构的业务系统可以较好的较灵活的支撑庞大的业务模式,并将大量工作人员从原先重复的体力劳动中解脱出来,提高劳动生产效率。但分布式的业务系统由于信息的粒度细化,信息的复杂度极大,信息的数量惊人,使得对分布式的业务系统的整体监控以及异常定位十分困难,不利于维护工作的展开。
现有技术中虽然有一些关于分布式系统监控系统相关的开源方案,但存在系统复杂,不容易落地;系统设计及理论不完整,可操作性不强的问题。
发明内容
本公开的目的在于提供一种分布式系统监控系统及方法,以解决相关技术中的分布式系统监控方法或系统复杂,设计及理论不完整以及不易实施的问题。
根据本公开的第一方面,提供一种分布式系统监控系统,包括:
数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;
处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。
可选的,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储,包括:对所述业务数据的监控指标中监控项进行监控项数值的实时计算,并将所述实时计算得到的监控项数值进行存储。
可选的,所述根据所述建模得到的规则包括根据所述监控指标设置的用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建的监控指标异常的模型规则库中的规则。
可选的,判断所述实时计算得到的结果正常或异常包括:判断所述监控指标中的监控项的监控项数值正常或异常。
可选的,所述处理模块包括告警单元和信息查询分析单元;响应于所述定性模块判断所述监控项数值为异常执行发送告警事件至所述告警单元以及发送告警事件关联信息至所述信息查询分析单元。
可选的,所述发送告警事件关联信息至所述信息查询分析单元包括:响应于所述监控项数值为异常所述指标计算及存储模块执行将与所述告警事件相关联的信息同步更新到所述信息查询分析单元。
可选的,所述与所述异常相关的信息包括所述告警事件关联信息,所述告警事件关联信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。
可选的,响应于所述告警单元接收到所述告警事件执行所述告警单元发出告警信息通知用户处理所述异常。
可选的,所述告警信息包括异常定位链接地址,所述异常定位链接地址指向所述信息查询分析单元,用于查询与所述异常相关的信息和定位所述异常产生的原因。
根据本公开的第二方面,提供一种分布式系统监控方法,包括:
获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;以及
响应于所述结果异常执行发出告警信息通知用户处理所述异常,以及查询与所述异常相关的信息和定位所述异常产生的原因。
可选的,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储的步骤包括:对所述业务数据的监控指标中监控项进行监控项数值的实时计算,并将所述实时计算得到的监控项数值进行存储。
可选的,所述对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模的步骤包括:根据所述监控指标设置用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建监控指标异常的模型规则库。
可选的,所述根据所述建模得到的规则判断所述实时计算得到的结果正常或异常的步骤包括:根据所述一系列规则或所述模型规则库中的规则判断所述监控指标中的监控项的监控项数值正常或异常。
可选的,所述与所述异常相关的信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。
可选的,所述告警信息包括异常定位链接地址,通过所述异常定位链接地址查询与所述异常相关的信息和定位所述异常产生的原因。
综上所述,在本公开提供的分布式系统监控系统及方法,所述分布式系统监控系统包括:数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。本公开提供的所述分布式系统监控系统设计及理论完整,系统结构简单,可操作性强,针对基础信息(所需要采集的信息)标准化方面进行明确定义,落地实施有较大借鉴意义,且更有利于后期问题定位及信息的多维度查询;运用实时计算对所述分布式系统中的监控数据的监控指标进行计算,并预先根据所述监控指标对监控指标的计算结果对处于异常和正常的临界时或所述结果异常时的模型进行建模,从而得到判断所述监控指标的计算结果为正常或异常的规则,大大提高告警质量、准确度及发现问题的效率,极大的改善系统无人值守时候的稳定性,增强系统的运维能力,大幅降低运维成本。
进一步的,定性模块依赖的建模引入人工智能技术,可以极大的提高模型的泛化能力及告警准确度。同时所述信息查询分析单元中同步更新有与所述异常相关的信息,所述告警信息中包括指向所述信息查询分析单元的异常定位链接地址,则用户在处理所述异常时,可以通过所述异常定位链接地址快速的定位和分析所述异常发生的原因。
附图说明
图1是根据本公开一示例性实施例提供的一种分布式系统监控系统的结构框图;
图2是根据本公开一示例性实施例提供的一种分布式系统监控系统的工作流程图;
图3是根据本公开一示例性实施例提供的一种分布式系统监控方法的流程图;
其中,11-各业务终端,12-数据采集模块,13-指标计算及存储模块,14-定性模块,15-处理模块,151-告警模块,152-信息查询分析单元。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
现今,分布式架构的业务系统在企业、行业的日常管理及业务运作中扮演着越来越重要的角色。但分布式架构的业务系统由于信息的粒度细化,信息的复杂度极大,信息的数量惊人,使得对分布式的业务系统的整体监控以及异常定位十分困难,不利于维护工作的展开。现有技术中虽然有一些关于分布式系统监控系统相关的开源方案,但存在系统复杂,不容易落地;系统设计及理论不完整,可操作性不强的问题。
为了解决相关技术中存在的问题,本公开提供了一种分布式系统监控系统。
参阅图1,图1为根据本公开一示例性实施例提供的一种分布式系统监控系统的结构框图。如图1所示,所述分布式系统监控系统包括:
数据采集模块12,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
指标计算及存储模块13,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
定性模块14,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;
处理模块15,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。
参阅图1和图2,下面将结合图1、图2以及具体的实施例对上述模块进行详细的描述。
在一个实施例中,所述数据采集模块12可以采集需要监控的各业务终端11的业务数据,例如,所述业务数据可以是但不仅仅限于分布式系统中各个业务终端(如图1中所示的业务终端A,业务终端B,........)上的日志数据或业务信息数据。
进一步的,所述预定义的数据格式根据用户的实际需求确定,在一个实施例中,用来预定义所述业务数据的数据格式的参数项包括但不仅仅限于发生时间,日志级别,文件类,线程ID,所属系统,发生机器,应用名称,事件类型,事件分类,事件名称,唯一标识和自定义信息。作为示例的,所述预定义的数据格式可以为:[发生时间|日志级别|文件类|线程ID|所属系统|发生机器|应用名称|事件类型|事件分类|事件名称|唯一标识|自定义信息]。
在一个实施例中,所述数据采集模块12将采集到的所述业务数据根据按照预定义的数据格式:[发生时间|日志级别|文件类|线程ID|所属系统|发生机器|应用名称|事件类型|事件分类|事件名称|唯一标识|自定义信息]标准变化后,将标准变化后的业务数据发送给指标计算及存储模块13,指标计算及存储模块13对所述标准变化后的业务数据进行集中化存储,然后对存储的所述业务数据进行监控指标的实时计算,并将所述计算得到的结果进行集中化存储,保证实时计算得到的监控指标数据的信息不丢失。
具体的,所述对存储的所述业务数据进行监控指标的实时计算并将所述计算得到的结果进行集中化存储的步骤包括:对存储的所述业务数据的监控指标中的各监控项进行监控项数值的实时计算,并将实时计算得到的各监控项的监控项数值进行集中化存储,即所述结果为所述各监控项的监控项数值。
在一个实施例中,通过所述定性模块14对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,具体的为根据所述监控指标设置用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建监控指标异常的模型规则库。所述根据所述建模得到的规则包括:根据所述监控指标设置的用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建的监控指标异常的模型规则库中的规则。
在一个实施例中,所述根据所述建模得到的规则判断所述实时计算得到的结果正常或异常,包括:根据所述监控指标设置的用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建的监控指标异常的模型规则库中的规则判断所述监控指标中的监控项的监控项数值正常或异常。若所述监控项数值在正常范围内,则所述监控项数值正常;若否,则所述监控项数值异常。
在一个实施例中,所述处理模块15包括告警单元151和信息查询分析单元152;响应于所述定性模块14判断所述监控项数值为异常执行发送告警事件至所述告警单元151以及发送告警事件关联信息至所述信息查询分析单元152;具体的,所述执行发送告警事件至所述所述告警单元151的步骤包括:当所述定性模块判断出所述监控项数值为异常,触发告警,则所述定性模块14向所述告警单元151发送告警事件。进一步的,所述告警事件中包括告警信息,所述告警单元151会对接收到的所述告警信息进行聚合;具体的,所述告警单元151对相似或同类型的告警信息进行合并。需要说明的是,若同一时间所述告警单元151接收到的同类型的告警信息较多,会造成信息风暴,所述告警单元151将相似或同类型的告警信息进行合并,可以降低无效干扰。
具体的,执行所述发送所述告警关联信息至所述信息查询分析单元152的步骤包括:当所述定性模块14判断出所述监控项的监控项数值为异常时,触发告警,则所述指标计算及存储模块12将会把与本次所述告警事件相关联的信息同步发送到所述信息查询分析单元152中。具体的,所述与本次所述告警事件相关联的信息包括:所述监控项数值异常的信息和所述异常发生时的原始监控信息。即所述告警事件关联信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。具体的,所述异常发生时的原始监控信息包括出现所述异常时的上线文信息。
响应于所述告警单元151接收到所述告警事件执行所述告警单元151发出告警信息通知用户处理所述异常。进一步的,所述告警信息包括异常定位链接地址,所述异常定位链接地址指向所述信息查询分析单元152,用于查询与所述异常相关的信息和定位所述异常产生的原因。
在一个实施例中,所述与所述异常相关的信息包括所述告警事件关联信息,则所述查询与所述异常相关的信息和定位所述异常产生的原因的步骤包括:用户可以通过告警信息里面提供的异常定位链接地址,可以直接打开并获取到所述信息查询分析单元152中的所述监控项数值异常的信息和所述异常发生时的原始监控信息,通过所述监控项数值异常的信息和所述异常发生时的原始监控信息真实还原所述异常发生时候的情况,快速的定位异常发生的原因,从而可以更加有效率的处理所述异常。
本公开还提供了一种分布式系统监控方法,应用于上述实施例中的分布式监控系统,参阅图3,图3是根据本公开一示例性实施例提供的一种分布式系统监控方法的流程图,如图3所示,所述分布式系统监控方法包括以下步骤:
步骤S1:获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
步骤S2:将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
步骤S3:对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;以及
步骤S4:响应于所述结果异常执行发出告警信息通知用户处理所述异常,以及查询与所述异常相关的信息和定位所述异常产生的原因。
参阅图3,下面结合具体的实施例对上述步骤进行详细的描述。
在步骤S1中,获取需要监控的各业务终端的业务数据,所述业务数据可以是但不仅仅限于分布式系统中各个业务终端(即服务节点)上的日志数据或业务信息数据。
进一步的,所述预定义的数据格式根据用户的实际需求确定,在一个实施例中,用来预定义所述业务数据的数据格式的参数项包括但不仅仅限于发生时间,日志级别,文件类,线程ID,所属系统,发生机器,应用名称,事件类型,事件分类,事件名称,唯一标识和自定义信息。作为示例的,所述预定义的数据格式可以为:[发生时间|日志级别|文件类|线程ID|所属系统|发生机器|应用名称|事件类型|事件分类|事件名称|唯一标识|自定义信息]。
在所述步骤S2中,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储的步骤包括:对存储的所述业务数据的监控指标中的各监控项进行监控项数值的实时计算,并将实时计算得到的各监控项的监控项数值进行集中化存储,即所述结果为所述各监控项的监控项数值。
在所述步骤S3中,所述对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模的步骤包括:根据所述监控指标设置用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建监控指标异常的模型规则库。
所述根据所述建模得到的规则判断所述实时计算得到的结果正常或异常的步骤包括:根据所述一系列规则或所述模型规则库中的规则判断所述监控指标中的监控项的监控项数值正常或异常。
在所述步骤S4中,所述结果异常即为监控项的监控项数值异常,所述与所述异常相关的信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。所述告警信息包括异常定位链接地址,通过所述异常定位链接地址查询与所述异常相关的信息和定位所述异常产生的原因。
关于上述实施例中的分布式系统监控方法,其中各步骤执行操作的具体方式已经在有关该系统的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,在本公开提供的分布式系统监控系统及方法,所述分布式系统监控系统包括:数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。本公开提供的所述分布式系统监控系统设计及理论完整,系统结构简单,可操作性强,针对基础信息(所需要采集的信息)标准化方面进行明确定义,落地实施有较大借鉴意义,且更有利于后期问题定位及信息的多维度查询;运用实时计算对所述分布式系统中的监控数据的监控指标进行计算,并预先根据所述监控指标对监控指标的计算结果对处于异常和正常的临界时或所述结果异常时的模型进行建模,从而得到判断所述监控指标的计算结果为正常或异常的规则,大大提高告警质量、准确度及发现问题的效率,极大的改善系统无人值守时候的稳定性,增强系统的运维能力,大幅降低运维成本。
进一步的,定性模块依赖的建模引入人工智能技术,可以极大的提高模型的泛化能力及告警准确度。同时所述信息查询分析单元中同步更新有与所述异常相关的信息,所述告警信息中包括指向所述信息查询分析单元的异常定位链接地址,则用户在处理所述异常时,可以通过所述异常定位链接地址快速的定位和分析所述异常发生的原因。
上述仅为本公开的优选实施例而已,并不对本公开起到任何限制作用。任何所属技术领域的技术人员,在不脱离本公开的技术方案的范围内,对本公开揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本公开的技术方案的内容,仍属于本公开的保护范围之内。

Claims (15)

1.一种分布式系统监控系统,其特征在于,包括:
数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;
处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。
2.如权利要求1所述的分布式系统监控系统,其特征在于,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储,包括:对所述业务数据的监控指标中监控项进行监控项数值的实时计算,并将所述实时计算得到的监控项数值进行存储。
3.如权利要求2所述的分布式系统监控系统,其特征在于,所述根据所述建模得到的规则包括根据所述监控指标设置的用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建的监控指标异常的模型规则库中的规则。
4.如权利要求2所述的分布式系统监控系统,其特征在于,判断所述实时计算得到的结果正常或异常包括:判断所述监控指标中的监控项的监控项数值正常或异常。
5.如权利要求4所述的分布式系统监控系统,其特征在于,所述处理模块包括告警单元和信息查询分析单元;响应于所述定性模块判断所述监控项数值为异常执行发送告警事件至所述告警单元以及发送告警事件关联信息至所述信息查询分析单元。
6.如权利要求5所述的分布式系统监控系统,其特征在于,所述发送告警事件关联信息至所述信息查询分析单元包括:响应于所述监控项数值为异常所述指标计算及存储模块执行将与所述告警事件相关联的信息同步更新到所述信息查询分析单元。
7.如权利要求6所述的分布式系统监控系统,其特征在于,所述与所述异常相关的信息包括所述告警事件关联信息,所述告警事件关联信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。
8.如权利要求5或7所述的分布式系统监控系统,其特征在于,响应于所述告警单元接收到所述告警事件执行所述告警单元发出告警信息通知用户处理所述异常。
9.如权利要求8所述的分布式系统监控系统,其特征在于,所述告警信息包括异常定位链接地址,所述异常定位链接地址指向所述信息查询分析单元,用于查询与所述异常相关的信息和定位所述异常产生的原因。
10.一种分布式系统监控方法,其特征在于,包括:
获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;
将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;
对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;以及
响应于所述结果异常执行发出告警信息通知用户处理所述异常,以及查询与所述异常相关的信息和定位所述异常产生的原因。
11.如权利要求10所述的分布式系统监控方法,其特征在于,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储的步骤包括:对所述业务数据的监控指标中监控项进行监控项数值的实时计算,并将所述实时计算得到的监控项数值进行存储。
12.如权利要求10所述的分布式系统监控方法,其特征在于,所述对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模的步骤包括:根据所述监控指标设置用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建监控指标异常的模型规则库。
13.如权利要求12所述的分布式系统监控方法,其特征在于,所述根据所述建模得到的规则判断所述实时计算得到的结果正常或异常的步骤包括:根据所述一系列规则或所述模型规则库中的规则判断所述监控指标中的监控项的监控项数值正常或异常。
14.如权利要求10所述的分布式系统监控方法,其特征在于,所述与所述异常相关的信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。
15.如权利要求10所述的分布式监控方法,其特征在于,所述告警信息包括异常定位链接地址,通过所述异常定位链接地址查询与所述异常相关的信息和定位所述异常产生的原因。
CN201910048949.1A 2019-01-18 2019-01-18 分布式系统监控系统及方法 Pending CN109660407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910048949.1A CN109660407A (zh) 2019-01-18 2019-01-18 分布式系统监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910048949.1A CN109660407A (zh) 2019-01-18 2019-01-18 分布式系统监控系统及方法

Publications (1)

Publication Number Publication Date
CN109660407A true CN109660407A (zh) 2019-04-19

Family

ID=66120488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910048949.1A Pending CN109660407A (zh) 2019-01-18 2019-01-18 分布式系统监控系统及方法

Country Status (1)

Country Link
CN (1) CN109660407A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677304A (zh) * 2019-10-11 2020-01-10 广州趣丸网络科技有限公司 一种分布式问题追踪系统及设备
CN113157516A (zh) * 2020-12-11 2021-07-23 四川新网银行股份有限公司 一种准实时计算的模型监控系统及方法
CN113268398A (zh) * 2021-06-02 2021-08-17 上海数禾信息科技有限公司 基于云原生数仓的业务监控方法及系统
CN113722187A (zh) * 2021-09-14 2021-11-30 杭州振牛信息科技有限公司 一种面向微服务架构的服务监控系统
CN118012718A (zh) * 2024-04-02 2024-05-10 北京大道云行科技有限公司 一种分布式存储系统的实时监控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN107135119A (zh) * 2017-04-18 2017-09-05 国网福建省电力有限公司 一种业务响应跟踪及接口状态监控开发系统
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法
CN107135119A (zh) * 2017-04-18 2017-09-05 国网福建省电力有限公司 一种业务响应跟踪及接口状态监控开发系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677304A (zh) * 2019-10-11 2020-01-10 广州趣丸网络科技有限公司 一种分布式问题追踪系统及设备
CN113157516A (zh) * 2020-12-11 2021-07-23 四川新网银行股份有限公司 一种准实时计算的模型监控系统及方法
CN113157516B (zh) * 2020-12-11 2023-06-23 四川新网银行股份有限公司 一种准实时计算的模型监测系统及方法
CN113268398A (zh) * 2021-06-02 2021-08-17 上海数禾信息科技有限公司 基于云原生数仓的业务监控方法及系统
CN113268398B (zh) * 2021-06-02 2024-02-27 上海数禾信息科技有限公司 基于云原生数仓的业务监控方法及系统
CN113722187A (zh) * 2021-09-14 2021-11-30 杭州振牛信息科技有限公司 一种面向微服务架构的服务监控系统
CN113722187B (zh) * 2021-09-14 2024-03-26 杭州振牛信息科技有限公司 一种面向微服务架构的服务监控系统
CN118012718A (zh) * 2024-04-02 2024-05-10 北京大道云行科技有限公司 一种分布式存储系统的实时监控方法

Similar Documents

Publication Publication Date Title
CN109660407A (zh) 分布式系统监控系统及方法
CN111158977B (zh) 一种异常事件根因定位方法及装置
EP1921527B1 (en) Adjustable data collection rate for embedded historians
US20170351226A1 (en) Industrial machine diagnosis and maintenance using a cloud platform
US11348023B2 (en) Identifying locations and causes of network faults
CN108989466A (zh) 工业云平台管理系统
CN110493025A (zh) 一种基于多层有向图的故障根因诊断的方法及装置
JP5933463B2 (ja) ログ生起異常検知装置及び方法
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN113010374B (zh) 一种基于监控平台的量子设备监控的方法、系统
CN111459763A (zh) 跨kubernetes集群监控系统及方法
CN109660389A (zh) 一种it资产管理方法及装置
CN105553733A (zh) 资源监控管理系统
CN109245310A (zh) 一种基于实时数据库的电力监控系统
US10466686B2 (en) System and method for automatic configuration of a data collection system and schedule for control system monitoring
CN108809734A (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
CN101408766A (zh) 非时间序列事件的可视化
WO2017213985A1 (en) Detecting and tracking changes in engineering configuration data
CN109284331A (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN114780335A (zh) 监测数据的关联方法、装置、计算机设备和存储介质
CN117422434A (zh) 一种智慧运维调度平台
CN109729073B (zh) 一种电网信息物理系统中的网络异常识别方法及系统
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
CN108334524A (zh) 一种storm日志错误分析方法及装置
CN105956118B (zh) 一种实现实时信息质量戳分布全局数据库的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190419