CN110321261B - 一种监控系统及监控方法 - Google Patents

一种监控系统及监控方法 Download PDF

Info

Publication number
CN110321261B
CN110321261B CN201810262825.9A CN201810262825A CN110321261B CN 110321261 B CN110321261 B CN 110321261B CN 201810262825 A CN201810262825 A CN 201810262825A CN 110321261 B CN110321261 B CN 110321261B
Authority
CN
China
Prior art keywords
module
monitoring
data
self
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810262825.9A
Other languages
English (en)
Other versions
CN110321261A (zh
Inventor
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810262825.9A priority Critical patent/CN110321261B/zh
Publication of CN110321261A publication Critical patent/CN110321261A/zh
Application granted granted Critical
Publication of CN110321261B publication Critical patent/CN110321261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种监控系统及监控方法;上述监控系统包括:至少两个日志模块、至少两个计算模块以及至少两个存储模块;其中,至少两个日志模块分别连接至少两个计算模块,至少两个计算模块分别连接至少两个存储模块;至少两个日志模块、至少两个计算模块以及至少两个存储模块分别在物理上隔离。本申请能够确保监控系统的高可用性。

Description

一种监控系统及监控方法
技术领域
本申请涉及但不限于数据处理技术领域,尤其涉及一种监控系统及监控方法。
背景技术
目前,从用户角度看,实时监控系统可以实时地获取被监控系统的当前运行状态,比如在实现上可以提供数据收集、数据分析汇聚以及数据存储等功能。对于大规模的实时监控系统,容易因各方面原因导致上述任一功能不可用,从而造成整个实时监控系统不可用,因此,确保实时监控系统的高可用性非常重要。
目前,实时监控系统的常见高可用方案可以基于对实时监控系统的组件自身可用性的监控实现;其中,当发现某一组件不可用,则通过手工切换该组件;然而,此方案只能提供一个层级的容灾保护,即仅能监控组件本身是否出问题;而且此方案强依赖于组件的监控,如果组件本身的监控出现问题,则不可能发现数据问题,往往导致高可用方案失效。在另一些方案中,可以采用一致性协议来实现高可用性,然而,一致性协议组件(如Zookeeper、etcd等组件)对于运维实力较差的团队来说相对复杂,若团队的运维实力不足,容易出现整个系统崩溃的情况。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供一种监控系统及监控方法,能够确保监控系统的高可用性。
第一方面,本申请实施例提供一种监控系统,包括:
至少两个日志模块、至少两个计算模块以及至少两个存储模块;
其中,所述至少两个日志模块分别连接所述至少两个计算模块,所述至少两个计算模块分别连接所述至少两个存储模块;
所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块分别在物理上隔离。
在示例性实施方式中,上述监控系统还可以包括:自检模块,所述自检模块通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块,并控制将所述监控项的数据流经路径中的第一异常模块切换为与所述第一异常模块同类型的正常模块。
在示例性实施方式中,所述自检模块可以通过以下至少之一方式通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块:
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据丢失,则确定所述监控项的数据流经路径中的计算模块为第一异常模块。
在示例性实施方式中,所述自检模块还可以根据所述日志模块、所述计算模块以及所述存储模块的自身监控结果,确定自身发生问题的第二异常模块,并控制将流经所述第二异常模块的数据切换到与所述第二异常模块同类型的正常模块上。
在示例性实施方式中,所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块可以通过统一接口与所述自检模块进行通信。
第二方面,本申请实施例提供一种监控方法,用于监控监控系统的运行情况,所述监控系统包括至少两个日志模块、至少两个计算模块以及至少两个存储模块;所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块分别在物理上隔离;所述方法包括:
通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块;
将所述监控项的数据流经路径中的第一异常模块切换为与所述第一异常模块同类型的正常模块。
在示例性实施方式中,所述通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块,可以包括以下至少之一:
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据丢失,则确定所述监控项的数据流经路径中的计算模块为第一异常模块。
在示例性实施方式中,上述方法还可以包括:
根据所述日志模块、所述计算模块以及所述存储模块的自身监控结果,确定自身发生问题的第二异常模块,并将流经所述第二异常模块的数据切换到与所述第二异常模块同类型的正常模块上。
第三方面,本申请实施例提供一种监控方法,包括:
周期性从业务系统采集一个或多个监控项的业务数据,并生成所述监控项的自检数据;
传输所述业务数据和所述自检数据给监控系统。
在示例性实施方式中,所述监控项的自检数据可以包括:所述监控项的高可用特征数据。
在示例性实施方式中,所述周期性从业务系统采集一个或多个监控项的业务数据,并生成所述监控项的自检数据之后,上述方法还可以包括:备份采集到的所述业务数据和所述自检数据。
此外,本申请实施例还提供一种计算机可读介质,存储有监控程序,所述监控程序被处理器执行时实现上述第二方面提供的监控方法的步骤。
此外,本申请实施例还提供一种计算机可读介质,存储有监控程序,所述监控程序被处理器执行时实现上述第三方面提供的监控方法的步骤。
在本申请实施例中,监控系统包括:至少两个日志模块、至少两个计算模块以及至少两个存储模块;其中,至少两个日志模块分别连接至少两个计算模块,至少两个计算模块分别连接至少两个存储模块;至少两个日志模块、至少两个计算模块以及至少两个存储模块分别在物理上隔离。本申请实施例中,通过在监控系统部署物理上隔离的至少两个日志模块、至少两个计算模块以及至少两个存储模块,从而确保监控系统的高可用性。
而且,基于本申请实施例提供的监控系统,通过检查流经监控系统的监控项的自检数据,判断监控系统中存在数据处理问题的模块并实现自动地模块切换,从而及时发现监控系统出现的问题,确保监控系统的高可用性。
当然,实施本申请的任一产品并不一定需要同时达到以上所有优点。
附图说明
图1为本申请实施例提供的一种监控系统的示例图;
图2为本申请实施例提供的一种监控方法的流程图;
图3为本申请实施例提供的监控方法的示例流程图;
图4为本申请实施例提供的另一种监控方法的流程图。
具体实施方式
以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一些实施方式中,执行监控方法的计算设备可包括一个或多个处理器(CPU,Central Processing Unit)、输入/输出接口、网络接口和内存(memory)。
内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括模块1,模块2,……,模块N(N为大于2的整数)。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例提供一种监控系统,包括:至少两个日志模块、至少两个计算模块以及至少两个存储模块;其中,至少两个日志模块分别连接至少两个计算模块,至少两个计算模块分别连接至少两个存储模块;至少两个日志模块、至少两个计算模块以及至少两个存储模块分别在物理上隔离。换言之,至少两个日志模块在物理上隔离,至少两个计算模块在物理上隔离,至少两个存储模块在物理上隔离。本实施例通过部署物理隔离的多个模块来确保监控系统的高可用性。
示例性地,至少两个日志模块可以为物理上隔离的不同产品,至少两个计算模块可以为物理上隔离的不同产品,至少两个存储模块可以为物理上隔离的不同产品。其中,产品可以包括云计算产品;比如,至少两个日志模块可以分别为具有日志收集功能的不同云计算产品,至少两个计算模块可以分别为具有数据处理功能的不同云计算产品,至少两个存储模块可以分别为具有存储功能的不同云计算产品。当其中一个产品出现问题时,不会影响另一个产品的运行,从而确保监控系统的高可用性。
在示例性实施方式中,本实施例的监控系统还可以包括:自检模块,其中,至少两个日志模块、至少两个计算模块以及至少两个存储模块可以通过统一接口与自检模块进行通信。比如,日志模块、计算模块和存储模块可以集成后通过统一接口与自检模块实现交互。然而,本申请对此并不限定。在其他实现方式中,自检模块还可以直接与日志模块、计算模块和存储模块分别实现通信。
在示例性实施方式中,自检模块可以通过检查流经日志模块、计算模块以及存储模块的一个或多个监控项的自检数据,确定监控项的数据流经路径中存在数据处理问题的第一异常模块,并控制将该监控项的数据流经路径中的第一异常模块切换为与该第一异常模块同类型的正常模块。比如,自检模块通过检查一个监控项的自检数据,发现该监控项的数据流经路径中存在数据处理问题的第一异常模块为计算模块,则自检模块可以控制将该监控项的数据流经路径中的计算模块切换为另一正常的计算模块。
在示例性实施方式中,自检模块还可以根据日志模块、计算模块以及存储模块的自身监控结果,确定自身发生问题的第二异常模块,并控制将流经第二异常模块的数据切换到与该第二异常模块同类型的正常模块上。比如,自检模块根据至少两个日志模块、至少两个计算模块以及至少两个存储模块的自身监控结果,确定自身发生问题的第二异常模块为其中一个日志模块,则自检模块可以控制将流经该日志模块的数据切换到另一正常的日志模块(即自身没有发生问题的日志模块)上。
下面参照图1以日志模块、计算模块和存储模块通过统一接口与自检模块实现交互为例,对本实施例提供的监控系统进行说明。
图1为本申请实施例提供的监控系统的示例图。如图1所示,本示例提供的监控系统,包括:数据中心10以及自检模块12;其中,数据中心10包括:两个日志模块100a和100b、两个计算模块102a和102b以及两个存储模块104a和104b。在本示例中,日志模块、计算模块以及存储模块的数目均以两个为例,然而,本申请对此并不限定。
在本示例中,数据中心10还可以包括:统一接口106,数据中心10可以通过统一接口106与自检模块12实现通信。
在本示例中,数据中心10还可以包括:多个采集中心,采集中心可以从若干个业务子系统收集数据。如图1所示,在每个业务子系统内部署有主数据采集端和备数据采集端,用于实现数据采集和备份。业务子系统内的主数据采集端(或备数据采集端)会将采集到的数据传输给数据中心10的采集中心。示例性地,采集中心也可以有多个互备,以实现数据的稳定存储。
示例性地,计算模块102a和102b可以包括流式计算模块。其中,流式计算指实时的大数据分析、计算方式,从数据源读取海量的数据后,实时对这些数据进行如汇聚、过滤等操作后,生成结果数据。日志模块100a和100b可以指分布式的日志收集系统,收集日志并汇聚成数据流,作为流式计算的源数据。
在本示例中,日志模块100a和100b可以分别为物理上隔离的具有日志收集功能的不同产品;计算模块102a和102b可以分别为物理上隔离的具有数据处理功能的不同产品;存储模块104a和104b可以分别为物理上隔离的具有存储功能的不同产品。本示例中,任一产品发生问题时,不会影响其他产品的运行,相较于同样的产品部署在不同物理集群的方式,本示例的部署方式更加可靠。
在本示例中,监控系统可以收集并分析多个监控项的业务数据。其中,监控项指真实需要关注的业务指标。比如对天气的监控,监控项可以包括温度,则该监控项的一条具体的业务数据可以为“时间-地点-温度-湿度”。
对于收集和分析多个监控项的业务数据的监控系统,存在以下情况:数据中心的各模块本身没有问题,只是对业务上某些监控项的数据处理时发生了一些问题,比如对于某类数据处理延迟增大或存储写入发生热点等。在上述情况下,不同监控项对于数据中心的三种类型的模块的压力不尽相同。例如,数据量大小决定对日志模块的压力,数据分析、汇聚复杂度决定着对计算模块的压力,数据模型及计算结果粒度决定对存储模块的压力。
针对上述情况,在本示例中,部署在业务子系统的主数据采集端(或备数据采集端)在周期性采集监控项的业务数据的同时,会生成监控项的自检数据(token),然后传输业务数据和自检数据给数据中心10。任一监控项在数据中心10的数据流经路径为:日志模块、计算模块、存储模块;监控项的数据(包括业务数据和自检数据)会保存在存储模块。在数据中心10外部的自检模块12可以通过统一接口106从存储模块获取监控项的自检数据,然后通过检查监控项的自检数据,来判断针对不同的监控项,数据中心10中哪个环节可能存在数据处理问题。
其中,一条自检数据(token)可以是没有业务含义的一条数据,不是业务数据,只是为了便于检测业务特征的“假数据”。比如监控项为温度时,主数据采集端可以每分钟自动插入一条符合设定数据格式的假数据,其中,温度可以设置为9999999(正常温度不可能的值),其他字段则填写一些特征,例如插入时间、距离上次插入自检数据已经采集了多少条业务数据等等。示例性地,自检数据中可以包括监控项的高可用特征数据,以便通过检查这些高可用特征数据,来判断数据中心是否存在数据处理问题。
示例性地,数据中心10可以启用一个定时任务,定期将存储模块104a和104b中存储的一个或多个监控项的自检数据通过统一接口106传输给自检模块12,以便自检模块12检查这些自检数据。或者,数据中心10可以在接收到自检模块12发送的第一检测请求之后,将存储模块104a和104b内存储的一个或多个监控项的自检数据传输给自检模块12。然而,本申请对此并不限定。
在本示例中,自检模块12可以通过检查一个或多个监控项的自检数据,确定监控项的数据流经路径中存在数据处理问题的第一异常模块,并控制将该监控项的数据流经路径中的第一异常模块切换为与该第一异常模块同类型的正常模块。其中,自检模块12可以通过检查监控项的自检数据的一些特征,来推断该监控项的业务数据在数据中心10内的处理是否存在问题。比如,以监控项为温度为例,自检模块12可以根据存储模块内的存储时间以及每条自检数据中的插入时间,来判断是否存在数据处理延迟问题。
示例性地,自检模块12可以通过以下至少之一方式通过检查流经数据中心的一个或多个监控项的自检数据,确定监控项的数据流经路径中存在数据处理问题的第一异常模块:
若检查到第一设定时长内存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定该监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定该监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定该监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定该监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定该监控项的业务数据的流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的部分自检数据丢失,则确定该监控项的数据流经路径中的计算模块为第一异常模块。
其中,第一设定时长和第二设定时长可以相同或不同。在实际应用中,可以根据实际应用场景设置第一设定时长和第二设定时长。本申请对此并不限定。
在本示例的一种实现方式中,自检模块12可以周期性检查数据中心10内存储的第一设定时长内的全部监控项的全部自检数据,根据全部监控项的全部自检数据的检查结果,确定任一监控项的数据流经路径中需要切换的模块。
示例性地,自检模块12在某一周期通过检查发现第一设定时长内的全部监控项的全部自检数据都存在数据处理延迟问题,则可以确定监控项的数据流经路径中的存储模块最有可能出现问题,并控制切换这些监控项的数据流经路径中的存储模块。比如,以监控项A和B为例,监控项A在数据中心10的数据流经路径为:日志模块100a、计算模块102a、存储模块104a;监控项B的在数据中心10的数据流经路径为:日志模块100a、计算模块102b、存储模块104a;则自检模块12在确定监控项A和B的数据流经路径中的第一异常模块为存储模块104a之后,会发送切换通知给数据中心10,以指示数据中心10将监控项A和监控项B的数据流经路径分别从存储模块104a切换到存储模块104b;数据中心10接收到切换通知后,按照切换通知执行切换操作,即后续采集的监控项A和监控项B的业务数据和自检数据会保存到存储模块104b。如此,实现数据中心10内部分模块的自动切换,而不需要全局切换。在本示例中,数据中心10进行模块切换后,若自检模块12在下一周期通过检查发现第一设定时长内的全部监控项的全部自检数据仍都存在数据处理延迟问题,则可以确定监控项的数据流经路径中的计算模块最有可能出现问题,并控制切换这些监控项的数据流经路径中的计算模块。在经过本次的模块切换调整之后,若自检模块12在下一周期通过检查发现第一设定时长内的全部监控项的全部自检数据仍都存在数据处理延迟问题,则可以通知人工进行处理。
在本示例的另一实现方式中,自检模块12还可以周期性检查数据中心10内存储的第二设定时长内的任一监控项的自检数据,并根据该监控项的自检数据的检查结果,确定该监控项的数据流经路径中需要切换的模块。
示例性地,自检模块12在某一周期通过检查发现某一类计算耗时非常大的监控项的全部自检数据都存在数据处理延迟问题,则可以确定该监控项的数据流经路径中的计算模块最有可能出现问题(比如,由于流式计算网络抖动或资源分配波动造成),此时,自检模块12会通知数据中心10优先切换该监控项的数据流经路径中的计算模块,比如,从计算模块102a切换到计算模块102b。若通过上述切换操作之后,自检模块12在下一周期通过检查发现第二设定时长内该监控项的全部自检数据仍存在数据处理延迟,则可以通知数据中心10切换该监控项的数据流经路径中的存储模块,比如,从存储模块104a切换到存储模块104b。在经过本次的模块切换调整后,若自检模块12在下一周期通过检查发现第二设定时长内该监控项的全部自检数据仍存在数据处理延迟,则可以通知人工进行处理。
示例性地,自检模块12在某一周期通过检查发现某一监控项的部分自检数据都存在数据处理延迟问题,则可以确定该监控项的数据流经路径中的存储模块最有可能出现问题,此时,自检模块12会通知数据中心10优先切换该监控项的数据流经路径中的存储模块,比如,从存储模块104a切换到存储模块104b。若通过上述切换操作之后,自检模块12在下一周期通过检查发现第二设定时长内该监控项的部分自检数据仍存在数据处理延迟,则可以通知数据中心10切换该监控项的数据流经路径中的计算模块,比如,从计算模块102a切换到计算模块102b。在经过本次的模块切换调整后,若自检模块12在下一周期通过检查发现第二设定时长内该监控项的部分自检数据仍存在数据处理延迟,则可以通知人工进行处理。
需要说明的是,自检模块12检测出存在丢失问题时的模块切换处理过程类似,故于此不再赘述。
在本示例中,通过定期检查监控项的自检数据,主动发现数据中心10潜在的问题,即使数据中心10的各个模块不可用或者监控没有生效,也能及时发现问题,从而确保了数据中心10的高可用性。
在一种示例性实施方式中,自检模块12还可以根据日志模块100a和100b、计算模块102a和102b以及存储模块104a和104b的自身监控结果,确定自身发生问题的第二异常模块,并控制将流经该第二异常模块的数据切换到与该第二异常模块同类型的正常模块上。
在本示例中,自检模块12可以向数据中心发起第二检测请求,数据中心10接收到第二检测请求后,由各个模块自身判断是否需要进行切换,即是否自身发生问题,并将检测结果通过统一接口106发送给自检模块12;若自检模块12根据检测结果仅发现某一模块(比如,日志模块100a)自身发生问题,则可以确定将流经日志模块100a的数据切换到日志模块100b上,并向数据中心10发送切换通知;数据中心10接收到切换通知后,执行切换操作。
本实施例提供的监控系统可以提供两个层次的数据容灾保护;第一方面,可以在至少两个日志模块、至少两个计算模块、至少两个存储模块中任一个自身发生故障时,及时将故障模块上的负担切换到同类型的正常模块上;第二方面,能通过检查流经数据中心的自检数据,及时发现数据中心存在的数据处理问题,从而保持监控系统的数据稳定、实时输出。
图2为本申请实施例提供的一种监控方法的流程图。本实施例提供的监控方法,用于监控监控系统的运行情况,监控系统包括至少两个日志模块、至少两个计算模块以及至少两个存储模块;至少两个日志模块、至少两个计算模块以及至少两个存储模块分别在物理上隔离。关于监控系统的架构和部署可以参照上述监控系统的实施例说明,故于此不再赘述。
如图2所示,本实施例提供的监控方法包括:
S201、通过检查流经日志模块、计算模块以及存储模块的一个或多个监控项的自检数据,确定监控项的数据流经路径中存在数据处理问题的第一异常模块;
S202、将监控项的数据流经路径中的第一异常模块切换为与该第一异常模块同类型的正常模块。
在示例性实施方式中,S201可以包括以下至少之一:
若检查到第一设定时长内存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定该监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定该监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定该监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定该监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定该监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内存储模块存储的任一监控项的部分自检数据丢失,则确定该监控项的数据流经路径中的计算模块为第一异常模块。
其中,第一设定时长和第二设定时长可以相同或不同。在实际应用中,可以根据实际应用场景设置第一设定时长和第二设定时长。本申请对此并不限定。
在示例性实施方式中,上述方法还可以包括:
根据日志模块、计算模块以及存储模块的自身监控结果,确定自身发生问题的第二异常模块,并将流经第二异常模块的数据切换到与该第二异常模块同类型的正常模块上。
下面基于图1所示的监控系统,参照图3对本实施例提供的监控方法进行举例说明。
图3为本申请实施例提供的监控方法的示例图。如图3所示,本示例提供的监控方法,包括:
S301、自检模块定时从数据中心获取一个或多个监控项的自检数据。
在本步骤中,自检模块可以定时向数据中心发送第一检测请求,然后接收数据中心针对该第一检测请求反馈的自检数据;或者,数据中心可以主动定时向自检模块发送自检数据。然而,本申请对此并不限定。
S302、自检模块检查获取的自检数据。
在本步骤中,若自检模块获取到第一设定时长内数据中心存储的全部监控项的全部自检数据,则检查全部自检数据;若自检模块获取到第二设定时长内某一监控项的自检数据,则检测该监控项的自检数据。
S303、自检模块根据对自检数据的检测结果,确定监控项的数据流经路径中的第一异常模块。
在本步骤中,示例性地,若自检模块第一次检测到第一设定时长内全部监控项的全部自检数据均存在数据处理延迟,则根据预先设置的自动切换优先级,可以确定优先切换任一监控项的数据流经路径中的存储模块,即,确定将任一监控项的当前数据流经路径中的存储模块切换为其他存储模块。
其中,预先设置的自动切换优先级即为上述确定第一异常模块的优先级,故于此不再赘述。
示例性地,若自检模块第一次检测到第二设定时长内某一监控项的全部自检数据均存在数据处理延迟,则根据预先设置的自动切换优先级,可以确定优先切换该监控项的数据流经路径中的计算模块。若自检模块第一次检测到第二设定时长内某一监控项的部分自检数据存在数据处理延迟,则根据预先设置的自动切换优先级,可以确定优先切换该监控项的数据流经路径中的存储模块。
示例性地,在本步骤中,针对任一监控项,若自检模块发现之前某一时刻已经调整过该监控项的数据流经路径,则可以在本次检查发现存在数据处理延迟后,按照预设设置的自动切换优先级,调整该监控项的数据流经路径。比如,自检模块在本次检查发现第二设定时长内该监控项的全部自检数据均存在数据处理延迟,则按照预设设置的自动切换优先级,可以确定切换该监控项的数据流经路径中的存储模块。
S304、自检模块在确定任一监控项的数据流经路径的切换方式之后,向数据中心发送切换通知,通知数据中心执行切换操作。
S305、数据中心接收到切换通知之后,按照切换通知执行切换操作。
示例性地,自检模块还可以接收数据中心主动发送的各模块的自身监控结果,然后在发现自身存在故障的模块之后,确定将流经该存在故障的模块上的数据切换到同类型的另一正常的模块上,并通知数据中心执行切换操作。
本实施例提供的监控方法能通过检查流经数据中心的自检数据,自动及时发现数据中心存在的数据处理问题,从而保持监控系统的高可用性。另外,还可以及时将数据中心的故障模块上的负担切换到同类型的正常模块上。
图4为本申请实施例提供的另一监控方法的流程图。如图4所示,本实施例提供的监控方法,包括:
S401、周期性从业务系统采集一个或多个监控项的业务数据,并生成监控项的自检数据;
S402、传输业务数据和自检数据给监控系统。
本实施例提供的监控方法可以由图1中部署在业务子系统的主数据采集端或备数据采集端执行。
在示例性实施方式中,监控项的自检数据可以包括:监控项的高可用特征数据,以便基于自检数据可以判断数据中心是否存在数据处理问题。比如,自检数据可以包括插入时间信息,以便后续自检模块通过检查自检数据判断数据中心是否存在数据处理延迟问题。
在示例性实施方式中,在S401之后,本实施例的方法还可以包括:备份采集到的业务数据和自检数据。
关于本实施例提供的监控方法的相关说明可以参照上述监控系统中的相关描述,故于此不再赘述。
此外,本申请实施例还提供一种计算机可读介质,存储有监控程序,该监控程序被处理器执行时实现图2对应实施例提供的监控方法的步骤。
此外,本申请实施例还提供一种计算机可读介质,存储有监控程序,该监控程序被处理器执行时实现图4对应实施例提供的监控方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块或单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块或单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制,上述实施例和说明书中描述的只是说明本申请的原理,在不脱离本申请精神和范围的前提下,本申请还会有各种变化和改进,这些变化和改进都落入要求保护的本申请范围内。

Claims (8)

1.一种监控系统,其特征在于,包括:
至少两个日志模块、至少两个计算模块以及至少两个存储模块;
其中,所述至少两个日志模块分别连接所述至少两个计算模块,所述至少两个计算模块分别连接所述至少两个存储模块;
所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块分别在物理上隔离;
所述监控系统还包括:自检模块;所述自检模块通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块,并将所述监控项的数据流经路径中的第一异常模块切换为与所述第一异常模块同类型的正常模块。
2.根据权利要求1所述的监控系统,其特征在于,所述自检模块通过以下至少之一方式通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块:
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据丢失,则确定所述监控项的数据流经路径中的计算模块为第一异常模块。
3.根据权利要求1所述的监控系统,其特征在于,所述自检模块还根据所述日志模块、所述计算模块以及所述存储模块的自身监控结果,确定自身发生问题的第二异常模块,并将流经所述第二异常模块的数据切换到与所述第二异常模块同类型的正常模块上。
4.根据权利要求1所述的监控系统,其特征在于,所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块通过统一接口与所述自检模块进行通信。
5.一种监控方法,其特征在于,用于监控监控系统的运行情况,所述监控系统包括至少两个日志模块、至少两个计算模块以及至少两个存储模块;其中,所述至少两个日志模块分别连接所述至少两个计算模块,所述至少两个计算模块分别连接所述至少两个存储模块;所述至少两个日志模块、所述至少两个计算模块以及所述至少两个存储模块分别在物理上隔离;
所述方法包括:
通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块;
将所述监控项的数据流经路径中的第一异常模块切换为与所述第一异常模块同类型的正常模块。
6.根据权利要求5所述的方法,其特征在于,所述通过检查流经所述日志模块、所述计算模块以及所述存储模块的一个或多个监控项的自检数据,确定所述监控项的数据流经路径中存在数据处理问题的第一异常模块,包括以下至少之一:
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据都存在数据处理延迟,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据都存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据存在数据处理延迟,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:存储模块、计算模块;
若检查到第一设定时长内所述存储模块存储的全部监控项的全部自检数据均丢失,则针对任一监控项,按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的全部自检数据均丢失,则按照以下优先级确定所述监控项的数据流经路径中的第一异常模块:日志模块、计算模块、存储模块;
若检查到第二设定时长内所述存储模块存储的任一监控项的部分自检数据丢失,则确定所述监控项的数据流经路径中的计算模块为第一异常模块。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述日志模块、所述计算模块以及所述存储模块的自身监控结果,确定自身发生问题的第二异常模块,并将流经所述第二异常模块的数据切换到与所述第二异常模块同类型的正常模块上。
8.一种计算机可读介质,其特征在于,存储有监控程序,所述监控程序被处理器执行时实现如权利要求5至7中任一项所述的监控方法的步骤。
CN201810262825.9A 2018-03-28 2018-03-28 一种监控系统及监控方法 Active CN110321261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810262825.9A CN110321261B (zh) 2018-03-28 2018-03-28 一种监控系统及监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810262825.9A CN110321261B (zh) 2018-03-28 2018-03-28 一种监控系统及监控方法

Publications (2)

Publication Number Publication Date
CN110321261A CN110321261A (zh) 2019-10-11
CN110321261B true CN110321261B (zh) 2023-12-22

Family

ID=68109751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810262825.9A Active CN110321261B (zh) 2018-03-28 2018-03-28 一种监控系统及监控方法

Country Status (1)

Country Link
CN (1) CN110321261B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110912738B (zh) * 2019-11-19 2022-04-29 支付宝(杭州)信息技术有限公司 一种业务异常的处理方法、装置、平台及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268068A (zh) * 2014-09-24 2015-01-07 浪潮电子信息产业股份有限公司 一种服务器日志信息的获取方法
CN105119752A (zh) * 2015-09-08 2015-12-02 北京京东尚科信息技术有限公司 一种分布式日志采集方法、装置及系统
CN105589791A (zh) * 2015-12-28 2016-05-18 江苏省电力公司信息通信分公司 一种云计算环境下应用系统日志监控管理的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268068A (zh) * 2014-09-24 2015-01-07 浪潮电子信息产业股份有限公司 一种服务器日志信息的获取方法
CN105119752A (zh) * 2015-09-08 2015-12-02 北京京东尚科信息技术有限公司 一种分布式日志采集方法、装置及系统
CN105589791A (zh) * 2015-12-28 2016-05-18 江苏省电力公司信息通信分公司 一种云计算环境下应用系统日志监控管理的方法

Also Published As

Publication number Publication date
CN110321261A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
US20070288585A1 (en) Cluster system
US20140095925A1 (en) Client for controlling automatic failover from a primary to a standby server
CN110377459A (zh) 一种容灾系统、容灾处理方法、监控节点和备份集群
CN107480014A (zh) 一种高可用设备切换方法及装置
CN111142801B (zh) 分布式存储系统网络亚健康检测方法及装置
US20160036654A1 (en) Cluster system
CN112783792B (zh) 分布式数据库系统的故障检测方法、装置及电子设备
CN108243031B (zh) 一种双机热备的实现方法及装置
CN113595836A (zh) 一种高可用集群的心跳检测方法、存储介质和计算节点
CN111176888A (zh) 云存储的容灾方法、装置及系统
CN107153595A (zh) 分布式数据库系统的故障检测方法及其系统
CN116560889A (zh) 数据链路的管理方法、装置、计算机设备及存储介质
CN114218020A (zh) 一种容灾切换方法及装置
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
US7428655B2 (en) Smart card for high-availability clustering
US20050234919A1 (en) Cluster system and an error recovery method thereof
CN105893176B (zh) 一种网络存储系统的管理方法和装置
CN105302670A (zh) 一种采用多机冗余方式对车站进行监控的方法及装置
US10860411B2 (en) Automatically detecting time-of-fault bugs in cloud systems
CN110321261B (zh) 一种监控系统及监控方法
CN110675614A (zh) 一种电力监控数据的传输方法
CN115686951A (zh) 一种数据库服务器的故障处理方法和装置
JP2009252006A (ja) コンピュータシステムにおけるログ管理システム、ログ管理方法
CN114301763B (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
CN111030871A (zh) 基于双机热备系统的配置信息同步方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant