CN111404735A - 一种分布式应用监控方法及监控系统 - Google Patents

一种分布式应用监控方法及监控系统 Download PDF

Info

Publication number
CN111404735A
CN111404735A CN202010158493.7A CN202010158493A CN111404735A CN 111404735 A CN111404735 A CN 111404735A CN 202010158493 A CN202010158493 A CN 202010158493A CN 111404735 A CN111404735 A CN 111404735A
Authority
CN
China
Prior art keywords
monitoring
distributed application
file
monitoring result
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010158493.7A
Other languages
English (en)
Inventor
刘明仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202010158493.7A priority Critical patent/CN111404735A/zh
Publication of CN111404735A publication Critical patent/CN111404735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Abstract

本发明涉及一种分布式应用监控方法及监控系统,根据预设的分布式应用节点的监控配置信息,监控对应的分布式应用,得到所述分布式应用节点的监控结果数据;根据所述监控配置信息,将所述分布式应用节点的所述监控结果数据制作成监控结果文件;根据所述分布式应用节点的所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。本发明当监控集群中增加了主机,或者分布式应用增加或减少时,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,极大的提高了工作效率,稳定性和可靠性高,有利于提高服务质量。

Description

一种分布式应用监控方法及监控系统
技术领域
本发明涉及分布式应用技术领域,尤其涉及一种分布式应用监控方法及监控系统。
背景技术
分布式应用(DistributedApplication)是指应用程序分布在不同计算机上,这些不同的计算机通过网络来共同完成一项任务的工作方式。为确保分布式应用对外服务发生问题时能及时处理,需要对应的监控系统来对分布式应用进行监控。
在分布式改造中,可以灵活地增加或减少应用节点,同时各应用进程也可以灵活地增加或减少,这就为配置监控系统中各应用数量、各应用日志、和运行状态等增加了大量的工作量。在集群中主机增加,或应用程序增加、减少后,都需要修改大量的已经配置的监控脚本、监控短信配置等等,极大地影响了监控效率。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种分布式应用监控方法及监控系统,当主机增加,或分布式应用程序增加、减少后,只需要在新主机上进行应用部署,并在数据中心进行简单配置,就可以满足分布式应用的监控,极大地提高了工作效率。
本发明解决上述技术问题的技术方案如下:
一种分布式应用监控方法,包括以下步骤:
根据预设的分布式应用节点的监控配置信息,监控对应的分布式应用,得到所述分布式应用节点的监控结果数据;
根据所述监控配置信息,将所述分布式应用节点的所述监控结果数据制作成监控结果文件;
根据所述分布式应用节点的所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
本发明的有益效果是:通过预设的监控配置信息,一方面方便根据对分布式应用节点对应的分布式应用进行监控,另一方面方便将监控得到的监控结果数据制作成监控结果文件,进而方便根据得到的监控结果文件判断分布式应用节点是否发生异常,当发生异常时发出告警信息以提醒维护人员进行维护;其中,分布式应用节点至少包括一个,其对应的分布式应用也至少包括一个;本发明的分布式应用监控方法,当监控集群中增加了主机,或者分布式应用增加或减少时,均不需要与监控中心进行大量的交互,也不需要新增脚本或修改大量的脚本,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,极大的提高了工作效率,稳定性和可靠性高,有利于提高服务质量。
在上述技术方案的基础上,本发明还有如下改进:
进一步:所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
则在根据预设的所述分布式应用节点的所述监控配置信息,监控对应的所述分布式应用之前,还包括:
从所述分布式应用节点的监控集群中选取所述监控主机;
在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
配置所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
上述进一步技术方案的有益效果是:通过选取监控主机、部署运行环境和部署分布式节点对应的分布式应用,一方面保证监控主机对每个分布式应用节点上对应的分布式应用进行监控的顺利进行,获取监控得到的监控结果数据,便于后续判断分布式应用节点是否发生异常,另一方面便于当监控集群中增加了主机,或者分布式应用增加或减少时,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,提高工作效率和监控效率;通过配置的监控输出目录和监控任务,便于按照监控任务对分布式应用进行监控,并按照监控输出目录存储监控后得到的数据(即监控结果数据);通过配置的监控结果文件规范,便于将监控结果数据制作成监控结果文件,为后续对分布式应用节点是否发生异常提供数据基础;通过配置的监控阈值,为后续对分布式应用节点是否发生异常提供依据,实现分布式应用的有效监控。
进一步:所述监控主机为两台,且当其中一台所述监控主机宕机时,自动切换至另一台所述监控主机。
上述进一步技术方案的有益效果是:通过两台监控主机,有效防止分布式应用节点的宕机,保证分布式应用监控的正常进行,提高稳定性。
进一步:将所述监控结果数据制作成所述监控结果文件,包括:
按照所述分布式应用节点对应的所述分布式应用的所述监控结果文件规范,将所述监控结果数据制作成所述监控结果文件,并将所述监控结果文件写入所述分布式应用节点对应的所述分布式应用的所述监控输出目录。
上述进一步技术方案的有益效果是:由于监控结果数据中包括分布式应用节点所对应的所有分布式应用的监控的具体数据,包括对应的应用名称、应用进程以及应用状态等数据,因此按照预设的监控结果文件规范,将这些数据进行分类和汇总,便于后续按照统一的规范在监控结果文件中快速准确地查找到监控主键,进而根据监控主键快速准确地查找到监控结果数据(包含了对应的应用名称、应用进程以及应用状态等数据),进而判断对应的应用是否发生异常,极大地提高了监控效率。
进一步:所述告警信息包括故障告警信息,则判断所述分布式应用节点是否发生异常包括:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据;
将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
上述进一步技术方案的有益效果是:通过定时扫描监控输出目录中的监控结果文件,通过监控结果文件中的监控主键查找到其中包含的监控结果数据,包括对应的应用名称、应用进程以及应用状态等数据,通过这些数据与预设的监控阈值进行对比,可以判断所监控的分布式应用是否发生异常,若超过了监控阈值,说明所监控的分布式应用发生故障,则判定发生异常,并发出对应的故障告警信息,以便维护人员技术采取对应的故障解决措施,监控效率高,保证了分布式应用的正常运行。
进一步:所述告警信息包括还文件告警信息,则判断所述分布式应用节点是否发生异常还包括:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间;
将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
上述进一步技术方案的有益效果是:在对分布式应用系统进行监控的过程中,除了要对所监控的分布式应用的运行状态进行监控,还要对监控状态进行监控,可以通过对监控过程中所产生的监控结果文件进行监控,避免由于监控结果文件长时间未更新,而导致对所监控的分布式应用的状态判断发生错误,从而导致采取了错误的维护措施;当监控结果文件的文件更新时间超过了预设监控时长,说明监控结果文件长时间未更新,可能是监控过程中生成文件相关的环节出现了问题,而不是分布式应用发生故障,则需要发出对应的文件告警信息,通知维护人员从生成文件的相关环节进行处理;通过上述方法,进一步提高监控效率,并提高了监控质量。
进一步:所述告警信息还包括监控告警信息,则判断所述分布式应用节点是否发生异常还包括:
定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间;
将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
上述进一步技术方案的有益效果是:由于判断分布式应用节点是否发生异常是通过扫描监控输出目录中的监控结果文件实现的,因此当扫描过程出现异常时,同样会造成对所监控的分布式应用的状态判断发生错误,从而导致采取了错误的维护措施;因此本发明通过对每相邻两次扫描之间的扫描时间与预设扫描更新时间进行比较,当扫描时间超过了预设扫描更新时间,说明未按照预设的定时扫描进行扫描,则可能是监控过程中扫描相关的环节出现了问题,而不是分布式应用发生故障,则需要发出对应的监控告警信息,通知维护人员从扫描监控输出目录的相关环节进行处理,进一步提高了监控效率和监控质量。
依据本发明的另一方面,还提供了一种分布式应用监控系统,包括数据中心、监控中心和分布式应用节点;
所述数据中心,用于存储预设的所述分布式应用节点的监控配置信息;
所述分布式应用节点,用于读取所述数据中心中的所述监控配置信息,并根据所述监控配置信息监控对应的分布式应用,得到对应的监控结果数据,并将所述监控结果数据发送至所述数据中心;
所述分布式应用节点,还用于根据对应的所述监控配置信息,将所述监控结果数据制作成监控结果文件;
所述监控中心,用于获取所述分布式应用节点的所述监控结果文件,并根据所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
本发明的有益效果是:本发明的分布式应用监控系统,当监控集群中增加了主机,或者分布式应用增加或减少时,均不需要与监控中心进行大量的交互,也不需要新增脚本或修改大量的脚本,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,极大的提高了工作效率,稳定性和可靠性高,有利于提高服务质量。
在上述技术方案的基础上,本发明还有如下改进:
进一步:还包括配置中心;
所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
所述配置中心用于:
从所述分布式应用节点的监控集群中选取所述监控主机;
在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
配置所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
进一步:所述告警信息包括故障告警信息,则所述监控中心包括第一告警单元;
所述第一告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据,将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
进一步:所述告警信息还包括文件告警信息,则所述监控中心还包括第二告警单元;
所述第二告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间,将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
进一步:所述告警信息还包括监控告警信息,则所述监控中心还包括第三告警单元;
所述第三告警单元用于:
定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间,将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
附图说明
图1为本发明实施例一中一种分布式应用监控方法的流程示意图;
图2为本发明实施例一中预先设定监控配置信息的流程示意图;
图3为本发明实施例一中设定的监控配置信息的示意图;
图4为本发明实施例一中得到的监控结果数据的示意图;
图5为本发明实施例一中得到的监控结果文件的示意图;
图6为本发明实施例一中判断分布式应用节点是否发生异常的流程示意图一;
图7为本发明实施例一中判断分布式应用节点是否发生异常的流程示意图二;
图8为本发明实施例一中判断分布式应用节点是否发生异常的流程示意图三;
图9为本发明实施例二中一种分布式应用监控系统的结构示意图;
图10为本发明实施例二中另一种分布式应用监控系统的结构示意图;
图11为本发明实施例二中监控中心的结构示意图.
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面结合附图,对本发明进行说明。
实施例一、如图1所示,一种分布式应用监控方法,包括以下步骤:
S1:根据预设的分布式应用节点的监控配置信息,监控对应的分布式应用,得到所述分布式应用节点的监控结果数据;
S2:根据所述监控配置信息,将所述分布式应用节点的所述监控结果数据制作成监控结果文件;
S3:根据所述分布式应用节点的所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
通过预设的监控配置信息,一方面方便根据对分布式应用节点对应的分布式应用进行监控,另一方面方便将监控得到的监控结果数据制作成监控结果文件,进而方便根据得到的监控结果文件判断分布式应用节点是否发生异常,当发生异常时发出告警信息以提醒维护人员进行维护;其中,分布式应用节点至少包括一个,其对应的分布式应用也至少包括一个;本发明的分布式应用监控方法,当监控集群中增加了主机,或者分布式应用增加或减少时,均不需要与监控中心进行大量的交互,也不需要新增脚本或修改大量的脚本,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,极大的提高了工作效率,有利于提高服务质量。
优选地,所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
则如图2所示,在S1之前,还包括:
S001:从所述分布式应用节点的监控集群中选取所述监控主机;
S002:在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
S003:配置所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
通过选取监控主机、部署运行环境和部署分布式节点对应的分布式应用,一方面保证监控主机对每个分布式应用节点上对应的分布式应用进行监控的顺利进行,获取监控得到的监控结果数据,便于后续判断分布式应用节点是否发生异常,另一方面便于当监控集群中增加了主机,或者分布式应用增加或减少时,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,提高工作效率和监控效率;通过配置的监控输出目录和监控任务,便于按照监控任务对分布式应用进行监控,并按照监控输出目录存储监控后得到的数据(即监控结果数据);通过配置的监控结果文件规范,便于将监控结果数据制作成监控结果文件,为后续对分布式应用节点是否发生异常提供数据基础;通过配置的监控阈值,为后续对分布式应用节点是否发生异常提供依据,实现分布式应用的有效监控。
具体地,本实施例中基于X86平台部署的运行环境为JRE 1.8.0以上版本,监控主机为两台,监控配置信息除了监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值,还包括监控集群主机范围、监控集群中的应用进程启动数量、应用出入口挤压、各监控主机日志信息等,详细的监控配置信息表如表1所示。
表1本实施例的监控配置信息表
Figure BDA0002404936110000101
Figure BDA0002404936110000111
具体地,本实施例按照表1进行配置的数据示意图如图3所示。
优选地,S1中,得到所述分布式应用节点的监控结果数据,包括:
根据所述分布式应用节点对应的所述分布式应用的所述监控任务,监控对应的所述分布式应用,得到所述分布式应用节点的所述监控结果数据。
具体地,本实施例得到的监控结果数据如图4所示。
优选地,S2中,将所述监控结果数据制作成所述监控结果文件,包括:
按照所述分布式应用节点对应的所述分布式应用的所述监控结果文件规范,将所述监控结果数据制作成所述监控结果文件,并将所述监控结果文件写入所述分布式应用节点对应的所述分布式应用的所述监控输出目录。
由于监控结果数据中包括分布式应用节点所对应的所有分布式应用的监控的具体数据,包括对应的应用名称、应用进程以及应用状态等数据,因此按照预设的监控结果文件规范,将这些数据进行分类和汇总,便于后续按照统一的规范在监控结果文件中快速准确地查找到监控主键,进而根据监控主键快速准确地查找到监控结果数据(包含了对应的应用名称、应用进程以及应用状态等数据),进而判断对应的应用是否发生异常,极大地提高了监控效率。
具体地,本实施例得到的监控结果文件如图5所示。
优选地,所述告警信息包括故障告警信息,如图6所示,则S3包括:
S301:定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据;
S302:将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
通过定时扫描监控输出目录中的监控结果文件,通过监控结果文件中的监控主键查找到其中包含的监控结果数据,包括对应的应用名称、应用进程以及应用状态等数据,通过这些数据与预设的监控阈值进行对比,可以判断所监控的分布式应用是否发生异常,若超过了监控阈值,说明所监控的分布式应用发生故障,则判定发生异常,并发出对应的故障告警信息,以便维护人员技术采取对应的故障解决措施,监控效率高,保证了分布式应用的正常运行。
具体地,本实施例通过crontab命令定时启动监控主机,按照表1中的监控配置信息表,将监控结果文件从监控输出目录中导出,定时扫描监控结果文件,并按照表1中的监控配置信息表中的监控进程、监控标签和监控阈值等信息,判断监控结果文件中的监控结果数据是否发生异常。
优选地,所述告警信息包括还文件告警信息,如图7所示,则S3还包括:
S311:定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间;
S312:将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
在对分布式应用系统进行监控的过程中,除了要对所监控的分布式应用的运行状态进行监控,还要对监控状态进行监控,可以通过对监控过程中所产生的监控结果文件进行监控,避免由于监控结果文件长时间未更新,而导致对所监控的分布式应用的状态判断发生错误,从而导致采取了错误的维护措施;当监控结果文件的文件更新时间超过了预设监控时长,说明监控结果文件长时间未更新,可能是监控过程中生成文件相关的环节出现了问题,而不是分布式应用发生故障,则需要发出对应的文件告警信息,通知维护人员从生成文件的相关环节进行处理;通过上述方法,进一步提高监控效率,并提高了监控质量。
优选地,所述告警信息还包括监控告警信息,如图8所示,则S3还包括:
S321:定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间;
S322:将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
由于判断分布式应用节点是否发生异常是通过扫描监控输出目录中的监控结果文件实现的,因此当扫描过程出现异常时,同样会造成对所监控的分布式应用的状态判断发生错误,从而导致采取了错误的维护措施;因此本发明通过对每相邻两次扫描之间的扫描时间与预设扫描更新时间进行比较,当扫描时间超过了预设扫描更新时间,说明未按照预设的定时扫描进行扫描,则可能是监控过程中扫描相关的环节出现了问题,而不是分布式应用发生故障,则需要发出对应的监控告警信息,通知维护人员从扫描监控输出目录的相关环节进行处理,进一步提高了监控效率和监控质量。
实施例二、如图9所示,一种分布式应用监控系统,包括数据中心、监控中心和分布式应用节点;
所述数据中心,用于存储预设的所述分布式应用节点的监控配置信息;
所述分布式应用节点,用于读取所述数据中心中的所述监控配置信息,并根据所述监控配置信息监控对应的分布式应用,得到对应的监控结果数据,并将所述监控结果数据发送至所述数据中心;
所述分布式应用节点,还用于根据对应的所述监控配置信息,将所述监控结果数据制作成监控结果文件;
所述监控中心,用于获取所述分布式应用节点的所述监控结果文件,并根据所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
本实施例的分布式应用监控系统,当监控集群中增加了主机,或者分布式应用增加或减少时,均不需要与监控中心进行大量的交互,也不需要新增脚本或修改大量的脚本,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,极大的提高了工作效率,稳定性和可靠性高,有利于提高服务质量。
具体地,本实施例中的监控中心为BOMC监控中心,即中国移动业务支撑网运营管理系统(Business Operation Management Center)。
优选地,如图10所示,还包括配置中心;
所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
所述配置中心用于:
从所述分布式应用节点的监控集群中选取所述监控主机;
在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
配置所述分布式应用节点对应的所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
通过配置中心,一方面保证监控主机对每个分布式应用节点上对应的分布式应用进行监控的顺利进行,获取监控得到的监控结果数据,便于后续判断分布式应用节点是否发生异常,另一方面便于当监控集群中增加了主机,或者分布式应用增加或减少时,只需要在新增的主机上部署分布式应用,并在数据中心进行简单的配置,就可以满足分布式应用的监控,提高工作效率和监控效率;同时,还便于将监控结果数据制作成监控结果文件,为后续对分布式应用节点是否发生异常提供数据基础;并通过配置的监控阈值,为后续对分布式应用节点是否发生异常提供依据,实现分布式应用的有效监控。
优选地,所述告警信息包括故障告警信息,如图11所示,则所述监控中心包括第一告警单元;
所述第一告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据,将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
通过第一告警单元可以判断所监控的分布式应用是否发生异常,并发出对应的故障告警信息,以便维护人员技术采取对应的故障解决措施,监控效率高,保证了分布式应用的正常运行。
优选地,所述告警信息还包括文件告警信息,如图11所示,则所述监控中心还包括第二告警单元;
所述第二告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间,将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
通过第二告警单元对监控状态进行监控,可以通过对监控过程中所产生的监控结果文件进行监控,避免由于监控结果文件长时间未更新,而导致对所监控的分布式应用的状态判断发生错误,从而导致采取了错误的维护措施,进一步提高监控效率,并提高了监控质量。
优选地,所述告警信息还包括监控告警信息,如图11所示,则所述监控中心还包括第三告警单元;
所述第三告警单元用于:
定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间,将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
通过第三告警单元对每相邻两次扫描之间的扫描时间与预设扫描更新时间进行比较,当扫描时间超过了预设扫描更新时间,说明未按照预设的定时扫描进行扫描,则可能是监控过程中扫描相关的环节出现了问题,而不是分布式应用发生故障,则需要发出对应的监控告警信息,通知维护人员从扫描监控输出目录的相关环节进行处理,进一步提高了监控效率和监控质量。
具体地,本实施例中的第一告警单元、第二告警单元和第三告警单元均分别通过短信网关将对应的告警信息以短信形式发送给维护人员。
需要说明的是,本实施例中的第一告警单元是必需的,第二告警单元和/或第三告警单元可根据实际情况设置,其中,同时包含第一告警单元、第二告警单元和第三告警单元为本实施例更为优化的实施例。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式应用监控方法,其特征在于,包括以下步骤:
根据预设的分布式应用节点的监控配置信息,监控对应的分布式应用,得到所述分布式应用节点的监控结果数据;
根据所述监控配置信息,将所述分布式应用节点的所述监控结果数据制作成监控结果文件;
根据所述分布式应用节点的所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
2.根据权利要求1所述的分布式应用监控方法,其特征在于,所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
则在根据预设的所述分布式应用节点的所述监控配置信息,监控对应的所述分布式应用之前,还包括:
从所述分布式应用节点的监控集群中选取所述监控主机;
在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
配置所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
3.根据权利要求2所述的分布式应用监控方法,其特征在于,所述告警信息包括故障告警信息,则判断所述分布式应用节点是否发生异常包括:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据;
将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
4.根据权利要求3所述的分布式应用监控方法,其特征在于,所述告警信息还包括文件告警信息,则判断所述分布式应用节点是否发生异常还包括:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间;
将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
5.根据权利要求3所述的分布式应用监控方法,其特征在于,所述告警信息包括还监控告警信息,则判断所述分布式应用节点是否发生异常还包括:
定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间;
将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
6.一种分布式应用监控系统,其特征在于,包括数据中心、监控中心和分布式应用节点;
所述数据中心,用于存储预设的所述分布式应用节点的监控配置信息;
所述分布式应用节点,用于读取所述数据中心中的所述监控配置信息,并根据所述监控配置信息监控对应的分布式应用,得到对应的监控结果数据,并将所述监控结果数据发送至所述数据中心;
所述分布式应用节点,还用于根据对应的所述监控配置信息,将所述监控结果数据制作成监控结果文件;
所述监控中心,用于获取所述分布式应用节点的所述监控结果文件,并根据所述监控结果文件判断所述分布式应用节点是否发生异常,若是,则发出告警信息。
7.根据权利要求6所述的分布式应用监控系统,其特征在于,还包括配置中心;
所述监控配置信息包括监控主机、监控输出目录、监控任务、监控结果文件规范和监控阈值;
所述配置中心用于:
从所述分布式应用节点的监控集群中选取所述监控主机;
在所述监控主机上部署运行环境,并根据所述运行环境在所述分布式应用节点上部署对应的所述分布式应用;
配置所述分布式应用所对应的所述监控输出目录、所述监控任务、所述监控结果文件规范和所述监控阈值。
8.根据权利要求7所述的分布式应用监控系统,其特征在于,所述告警信息包括故障告警信息,则所述监控中心包括第一告警单元;
所述第一告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件中包含的所述监控结果数据,将所述监控结果数据与所述监控阈值进行比较,若所述监控结果数据超过所述监控阈值,则判定所述分布式应用节点发生异常,并发出所述故障告警信息。
9.根据权利要求8所述的分布式应用监控系统,其特征在于,所述告警信息还包括文件告警信息,则所述监控中心还包括第二告警单元;
所述第二告警单元用于:
定时扫描所述分布式应用节点对应的所述分布式应用的所述监控输出目录中的所述监控结果文件,获取所述监控结果文件的文件更新时间,将所述文件更新时间与预设监控时长进行比较,若所述文件更新时间超过所述预设监控时长,则判定所述分布式应用节点发生异常,并发出所述文件告警信息。
10.根据权利要求8所述的分布式应用监控系统,其特征在于,所述告警信息还包括监控告警信息,则所述监控中心还包括第三告警单元;
所述第三告警单元用于:
定时扫描所述分布式应用节点对应的所述监控输出目录,获取每相邻两次扫描之间的扫描时间,将所述扫描时间与预设扫描更新时间进行比较,若所述扫描时间超过所述预设扫描更新时间,则判定所述分布式应用节点发生异常,并发出所述监控告警信息。
CN202010158493.7A 2020-03-09 2020-03-09 一种分布式应用监控方法及监控系统 Pending CN111404735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010158493.7A CN111404735A (zh) 2020-03-09 2020-03-09 一种分布式应用监控方法及监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010158493.7A CN111404735A (zh) 2020-03-09 2020-03-09 一种分布式应用监控方法及监控系统

Publications (1)

Publication Number Publication Date
CN111404735A true CN111404735A (zh) 2020-07-10

Family

ID=71413291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158493.7A Pending CN111404735A (zh) 2020-03-09 2020-03-09 一种分布式应用监控方法及监控系统

Country Status (1)

Country Link
CN (1) CN111404735A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112769592A (zh) * 2020-12-09 2021-05-07 北京思特奇信息技术股份有限公司 分布式ocs系统与网元之间的通信监控方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095476A (zh) * 2011-11-02 2013-05-08 中国移动通信集团浙江有限公司 基于网管代理的网络管理方法及装置
CN107766208A (zh) * 2017-10-27 2018-03-06 深圳市中润四方信息技术有限公司 一种监控业务系统的方法、系统及装置
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110309109A (zh) * 2019-05-23 2019-10-08 中国平安财产保险股份有限公司 数据监控方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095476A (zh) * 2011-11-02 2013-05-08 中国移动通信集团浙江有限公司 基于网管代理的网络管理方法及装置
CN107766208A (zh) * 2017-10-27 2018-03-06 深圳市中润四方信息技术有限公司 一种监控业务系统的方法、系统及装置
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN110309109A (zh) * 2019-05-23 2019-10-08 中国平安财产保险股份有限公司 数据监控方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112769592A (zh) * 2020-12-09 2021-05-07 北京思特奇信息技术股份有限公司 分布式ocs系统与网元之间的通信监控方法

Similar Documents

Publication Publication Date Title
US20180067795A1 (en) Systems and methods for automatic replacement and repair of communications network devices
US6859889B2 (en) Backup system and method for distributed systems
CN103248725B (zh) 一种安全可靠的域名解析修复方法和系统
CN105607590B (zh) 用于在过程控制系统中提供冗余性的方法和装置
US7539150B2 (en) Node discovery and communications in a network
CN110611603B (zh) 一种集群网卡监控方法及装置
CN113238913A (zh) 服务器故障智能推送方法、装置、设备及存储介质
CN110618864A (zh) 一种中断任务恢复方法及装置
CN102902615A (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN111026379A (zh) 一种Redis主从分片集群高可用方法
CN102143011B (zh) 一种实现网络保护的装置及方法
CN113489149B (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
CN111404735A (zh) 一种分布式应用监控方法及监控系统
CN110620798A (zh) Ftp连接的控制方法、系统、设备和存储介质
CN109104333B (zh) 基于git的分布式集群的同步方法和装置
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
JP2003345620A (ja) 多ノードクラスタシステムのプロセス監視方法
CN112131201B (zh) 一种网络附加存储高可用性的方法、系统、设备及介质
TWI698741B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法
TWI685740B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(一)
TWI685736B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法(二)
CN115473766B (zh) 一种基于分布式网关的vip实现方法和系统
CN1722627A (zh) 一种通讯设备中主备用单元倒换的实现方法和装置
KR100235570B1 (ko) 2이상의 주전산기를 병립 연결한 시스템의 클러스터 관리 마스터 시스템의 클러스터 관리방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710

RJ01 Rejection of invention patent application after publication