CN113645099A - 一种高可用监控方法、装置、设备及存储介质 - Google Patents

一种高可用监控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113645099A
CN113645099A CN202110922907.3A CN202110922907A CN113645099A CN 113645099 A CN113645099 A CN 113645099A CN 202110922907 A CN202110922907 A CN 202110922907A CN 113645099 A CN113645099 A CN 113645099A
Authority
CN
China
Prior art keywords
monitoring
master control
script
server
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110922907.3A
Other languages
English (en)
Other versions
CN113645099B (zh
Inventor
何知轶
周劼
印凌潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110922907.3A priority Critical patent/CN113645099B/zh
Publication of CN113645099A publication Critical patent/CN113645099A/zh
Application granted granted Critical
Publication of CN113645099B publication Critical patent/CN113645099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本文提供了一种高可用监控方法、装置、设备及存储介质,其中,方法执行前需预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,所述方法包括:根据监控计划,确定监控任务及对应的探测服务器;对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器。本文能够实时检测探测服务器中监控任务的执行情况,避免出现网络质量监控盲点,并且本文还能够充分利用各总控服务器的资源,保证监控任务的下发速度。

Description

一种高可用监控方法、装置、设备及存储介质
技术领域
本文涉及监控领域,尤其涉及一种高可用监控方法、装置、设备及存储介质。
背景技术
现有的网络传输质量监控场景中,由主用总控服务器向探测服务器下发监控任务,由探测服务器中的监控任务实现网络质量检测,现有技术的该种监控任务下发方式,将会导致备用总控服务器资源浪费,同时也会影响监控任务的下发速度。
另外,现有技术中未对探测服务器中监控任务的执行情况进行检测,将不利于实时掌握探测服务器中监控任务的执行情况,且当监控任务执行异常时,存在网络质量监控盲点的问题。
发明内容
本文用于解决现有技术中网络传输质量检测存在备用总控服务器资源浪费,监控任务下发速度慢,以及当监控任务执行异常时存在网络质量监控盲点的问题。为了解决上述技术问题,本文的第一方面提供一种高可用监控方法,预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,所述方法包括:
根据监控计划,确定监控任务及对应的探测服务器;
对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器。
作为本文的进一步实施例中,高可用监控方法还包括:
获取各总控服务器上监控脚本的执行状态;
对于每一总控服务器监控脚本,若该总控服务器上的监控脚本在第一预定时间段内未更新执行状态,则重启该总控服务器上的监控脚本。
作为本文的进一步实施例中,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,包括:
根据各总控服务器的性能指标,计算各总控服务器的综合指标;
筛选出综合指标最低的总控服务器。
作为本文的进一步实施例中,所述探测服务器中部署有探测脚本、入库脚本及守护脚本,所述探测服务器执行监控任务的过程包括:
由所述探测脚本发出探测数据包,根据探测返回结果确定网络传输质量;
由所述入库脚本将所述探测返回结果存入数据库;
由所述守护脚本检测所在探测服务器的性能信息以及所述探测脚本运行情况,当性能信息及运行情况不满足预设条件时,发出告警信息。
作为本文的进一步实施例中,所述监控脚本检测探测服务器中监控任务的执行情况,包括:
所述监控脚本检测所述入库脚本入库是否正常以及所述守护脚本执行是否正常;
若检测结果为所述入库脚本入库异常或所述守护脚本执行异常,则发出监控任务执行异常的告警信息。
作为本文的进一步实施例中,高可用监控方法还包括:
从所述多个总控服务器中选择一个设置为主用总控服务器,其余为备用总控服务器;
监控所述主用总控服务器的时间戳状态,若第二预定时间段内所述主用总控服务器的时间戳状态未改变,则将其中之一备用总控服务器设置为新的主用总控服务器,原有的主用总控服务器设置为备用总控服务器。
作为本文的进一步实施例中,将其中之一备用总控服务器设置为新的主用总控服务器包括:
根据备用总控服务器的性能指标,计算各备用总控服务器的综合指标;
将综合指标最低的备用总控服务器设置为新的主用总控服务器。
本文的第二方面提供一种高可用监控装置,包括:
监控脚本部署模块,用于在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况;
任务确定模块,用于根据监控计划,确定监控任务及对应的探测服务器;
任务下发模块,用于对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器。
本文的第三方面提供一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行前述任一实施例所述高可用监控方法的指令。
本文的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行前述任一实施例所述高可用监控方法的指令。
本文提供的高可用监控方法、装置、设备及存储介质,通过预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,能够实时检测探测服务器中监控任务的执行情况,避免出现网络质量监控盲点。通过根据监控计划,确定监控任务及对应的探测服务器,对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器,能够充分利用各总控服务器的资源,保证监控任务的下发速度。
为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本文实施例高可用监控方法的第一流程图;
图2示出了本文实例探测服务器执行监控任务的流程图;
图3示出了本文实施例监控脚本监测探测服务器中监控任务过程的流程图;
图4示出了本文实施例高可用监控方法的第二流程图;
图5示出了本文实施例高可用监控方法的第三流程图;
图6示出了本文实施例高可用监控装置的结构图;
图7示出了本文具体实施例高可用监控方法的流程图;
图8示出了本文实施例计算机设备的结构图。
附图符号说明:
610、监控脚本部署模块;
620、任务确定模块;
630、任务下发模块;
802、计算机设备;
804、处理器;
806、存储器;
808、驱动机构;
810、输入/输出模块;
812、输入设备;
814、输出设备;
816、呈现设备;
818、图形用户接口;
820、网络接口;
822、通信链路;
824、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
需要说明的是,本文的高可用监控方法及装置可用于金融领域的网络传输质量检测,也可用于除金融领域之外的任意领域,本文的高可用监控方法及装置的应用领域不做限定。
现有技术中实现网络传输质量监控的系统包括:主用总控服务器、备用总控服务器以及多个探测服务器,主用总控服务器用于向探测服务器下发监控任务,备用总控服务器用于在主用总控服务器故障的情况替换主用总控服务器,探测服务器用于对网络链路进行故障检测。现有的上述网络传输质量检测存在备用总控服务器资源浪费,监控任务下发速度慢,以及当监控任务执行异常时存在网络质量监控盲点的问题。
基于上述技术问题的存在,本文一实施例中,提供一种高可用监控方法,用于解决上述技术问题。本文所述高可用监控方法实施之前需预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,如图1所示,高可用监控方法包括:
步骤110,根据监控计划,确定监控任务及对应的探测服务器;
步骤120,对于每一监控任务及每一探测服务器,根据多个总控服务器的性能指标,从多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至该探测服务器。
步骤120即将每一监控任务逐一下发至每一探测服务器中,每次下发之前,需要确定下发监控任务的总控服务器。例如监控任务X对应的探测服务器包括探测服务器A、探测服务器B及探测服务器C,步骤120实施时,根据多个总控服务器的性能指标,从多个总控服务器中筛选出其中之一,由筛选出的总控服务器下发监控任务至探测服务器A,然后重复上述筛选总控服务器的步骤,由筛选出的总控服务器下发监控任务至探测服务器B,反复重复上述步骤,直至监控任务均下发至探测服务器为止。
本实施例能够实时检测探测服务器中监控任务的执行情况,避免出现网络质量监控盲点,保证各总控服务器资源的合理利用和性能最大化,保证监控任务的下发速度。
预先部署于总控服务器中的监控脚本包含多个监测命令,用于检测探测服务器执行监控任务的执行情况,其中,执行情况包括正常、异常或哪一环节出现异常等。
在步骤110中,监控计划可由人工通过配置界面指定,还可由程序自动确定,本文对此不作限定。具体的,监控计划包括监控任务或生成监控任务的规则、监控时间(包括监控时长或时刻)及监控的探测服务器。
在步骤120中,总控服务器至少包括两个,总控服务器的性能指标包括但不限于CPU占有率、内存、负载量等。具体实施时,步骤120包括:根据各总控服务器的性能指标,计算各总控服务器的综合指标;筛选出综合指标最低的总控服务器。综合指标的计算可采用加权求和、加权平均的方式计算实现,本文对具体计算方法不做限定。通过步骤120的实施能够均衡分配负载,发挥总控服务器的最大性能,保证监控任务的下发速度。
本文一实施例中,探测服务器中部署有探测脚本、入库脚本及守护脚本,这些脚本可部署于监控任务中,随着监控任务一同下发,或预先部署于探测服务器中,监控任务中仅包括触发这些脚本执行的指令,具体的,如图2所示,探测服务器执行监控任务的过程包括:
步骤210,由探测脚本发出探测数据包,根据探测返回结果确定网络传输质量;
步骤220,由入库脚本将所述探测返回结果存入数据库;
步骤230,由守护脚本检测所在探测服务器的性能信息以及探测脚本运行情况,当性能信息及运行情况不满足预设条件时,发出告警信息。其中,探测服务器的性能信息包括CUP占有率、负载量等,运行情况包括网络传输质量情况,预设条件可根据实际情况进行设定,本文对其取值不做具体限定。
进一步的,如图3所示,监控脚本检测探测服务器中监控任务的执行情况,包括:
步骤310,检测入库脚本入库是否正常;
步骤320,检测守护脚本执行是否正常;
步骤330,若步骤310的检测结果为入库脚本入库异常或步骤320的监测结果为守护脚本执行异常,则发出监控任务执行异常的告警信息。
具体的,步骤310可通过检测数据库中是否有数据更新来确定入库脚本入库是否正常,当无数据更新时,则确定入库脚本入库异常。
步骤320中当探测服务器的性能信息及运行情况不满足预设条件时,则认为守护脚本执行异常。
步骤330中,告警信息可通过邮件、短信、信息显示等方式发出,包括异常环节及具体异常信息等。
本实施例利用监控脚本能够实时检测探测服务器中监控任务的执行情况,避免出现网络质量监控盲点。
本文进一步实施例中,为了保证总控服务器中的监控脚本的高可用,如图4所示,高可用监控方法除了包括上述步骤110至步骤120外,还包括:
步骤130,获取各总控服务器上监控脚本的执行状态;
步骤140,对于每一总控服务器监控脚本,若该总控服务器上的监控脚本在第一预定时间段内未更新执行状态,则重启该总控服务器上的监控脚本,其中,第一预定事件单可根据实际需求进行设定。
本实施例能够监控总控服务器上监控脚本的执行状态,实现监控脚本的自愈,保证监控脚本的高可用性。
本文一实施例中,可设置好总控服务器中其中之一为主用总控服务器,其余总控服务器为备用总控服务器,具体的,如图5所示,高可用监控方法还包括:
步骤510,监控主用总控服务器的时间戳状态,若第二预定时间段内主用总控服务器的时间戳状态未改变,则执行步骤520,其中,第二预定时间段可根据实际需求进行设定;
步骤520,将其中之一备用总控服务器设置为新的主用总控服务器,原有的主用总控服务器设置为备用总控服务器。
一具体实施方式中,步骤520将其中之一备用总控服务器设置为新的主用总控服务器包括:根据备用总控服务器的性能指标,计算各备用总控服务器的综合指标;将综合指标最低的备用总控服务器设置为新的主用总控服务器。其中,可采用对备用总控服务器各性能指标进行加权求和、求平均等方法计算备用总控服务器的综合指标,本文对具体计算方法不做限定。
本实施例所述的总控服务器处于主用状态,用于处理大部分工作,本实施例能够保障主用服务器的高可用性。
本文进一步实施例中,监控脚本包括主进程及子进程,监控脚本采用子进行处理业务,由主进程检测子进程的信号,一旦检测到子进程退出,便启动新的子进程进行相关业务处理,保证业务的持续可用性,避免主进程上的bug会导致监控脚本引发错误而导致主程序异常退出,进而导致监控脚本不可用的状态。
基于同一发明构思,本文还提供一种高可用监控装置,如下面的实施例所述。由于装置解决问题的原理与高可用监控方法相似,因此高可用监控装置的实施可以参见高可用监控方法,重复之处不再赘述。
具体的,如图6所示,高可用监控装置包括:
监控脚本部署模块610,用于预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况;
任务确定模块620,用于根据监控计划,确定监控任务及对应的探测服务器;
任务下发模块630,用于对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器。
本文所述的高可用监控装置可部署于调度服务器中,具体实施时,总控服务器中的监控脚本的执行状态会写入redis缓存,调度服务器根据监控脚本的执行状态确定性能指标,根据性能指标来进行监控任务的下发。
本实施例通过监控脚本部署模块610预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,能够实时检测探测服务器中监控任务的执行情况,避免出现网络质量监控盲点。通过任务确定模块620根据监控计划,确定监控任务及对应的探测服务器,任务下发模块630对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器,能够充分利用各总控服务器的资源,保证监控任务的下发速度。
为了更清楚说明本文技术方案,下面以一具体实施例进行详细说明,具体的,预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,如图7所示,高可用监控方法包括:
步骤701,根据监控计划,确定监控任务及对应的探测服务器;
步骤702,将每一监控任务逐一下发至相对应的每一探测服务器中,下发时根据各总控服务器的性能指标,计算各总控服务器的综合指标;
步骤703,筛选出综合指标最低的总控服务器,由筛选出的筛选出的总控服务器将监控任务下发至探测服务器,其中,探测服务器中部署有探测脚本、入库脚本及守护脚本,所述探测服务器执行监控任务的过程包括:
(1)由探测脚本发出探测数据包,根据探测返回结果确定网络传输质量;
(2)由入库脚本将所述探测返回结果存入数据库;
(3)由守护脚本检测所在探测服务器的性能信息以及所述探测脚本运行情况,当性能信息及运行情况不满足预设条件时,发出告警信息;
步骤704,监控脚本检测所述入库脚本入库是否正常以及所述守护脚本执行是否正常,若检测结果为所述入库脚本入库异常或所述守护脚本执行异常,则执行步骤705;
步骤705,发出监控任务执行异常的告警信息;
上述步骤701至步骤705执行过程中,从多个总控服务器中选择一个设置为主用总控服务器,其余为备用总控服务器;监控所述主用总控服务器的时间戳状态,若第二预定时间段内所述主用总控服务器的时间戳状态未改变,则将其中之一备用总控服务器设置为新的主用总控服务器,原有的主用总控服务器设置为备用总控服务器。
本文一实施例中,还提供一种计算机设备,用于实现上述任一实施例所述高可用监控方法,如图8所示,计算机设备802可以包括一个或多个处理器804,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器806可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下,当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备802还可以包括输入/输出模块810(I/O),其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814))。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口818(GUI)。在其他实施例中,还可以不包括输入/输出模块810(I/O)、输入设备812以及输出设备814,仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820,其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。
通信链路822可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
对应于图1-图5中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图1至图5所示的方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

Claims (10)

1.一种高可用监控方法,其特征在于,预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况,所述方法包括:
根据监控计划,确定监控任务及对应的探测服务器;
对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至该探测服务器。
2.如权利要求1所述的高可用监控方法,其特征在于,还包括:
获取各总控服务器上监控脚本的执行状态;
对于每一总控服务器监控脚本,若该总控服务器上的监控脚本在第一预定时间段内未更新执行状态,则重启该总控服务器上的监控脚本。
3.如权利要求2所述的高可用监控方法,其特征在于,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,包括:
根据各总控服务器的性能指标,计算各总控服务器的综合指标;
筛选出综合指标最低的总控服务器。
4.如权利要求2所述的高可用监控方法,其特征在于,所述探测服务器中部署有探测脚本、入库脚本及守护脚本,所述探测服务器执行监控任务的过程包括:
由所述探测脚本发出探测数据包,根据探测返回结果确定网络传输质量;
由所述入库脚本将所述探测返回结果存入数据库;
由所述守护脚本检测所在探测服务器的性能信息以及所述探测脚本运行情况,当性能信息及运行情况不满足预设条件时,发出告警信息。
5.如权利要求4所述的高可用监控方法,其特征在于,所述监控脚本检测探测服务器中监控任务的执行情况,包括:
所述监控脚本检测所述入库脚本入库是否正常以及所述守护脚本执行是否正常;
若检测结果为所述入库脚本入库异常或所述守护脚本执行异常,则发出监控任务执行异常的告警信息。
6.如权利要求1所述的高可用监控方法,其特征在于,所述方法还包括:
从所述多个总控服务器中选择一个设置为主用总控服务器,其余为备用总控服务器;
监控所述主用总控服务器的时间戳状态,若第二预定时间段内所述主用总控服务器的时间戳状态未改变,则将其中之一备用总控服务器设置为新的主用总控服务器,原有的主用总控服务器设置为备用总控服务器。
7.如权利要求6所述的高可用监控方法,其特征在于,将其中之一备用总控服务器设置为新的主用总控服务器包括:
根据备用总控服务器的性能指标,计算各备用总控服务器的综合指标;
将综合指标最低的备用总控服务器设置为新的主用总控服务器。
8.一种高可用监控装置,其特征在于,包括:
监控脚本部署模块,用于预先在多个总控服务器中部署监控脚本,所述监控脚本用于检测探测服务器中监控任务的执行情况;
任务确定模块,用于根据监控计划,确定监控任务及对应的探测服务器;
任务下发模块,用于对于每一监控任务及每一探测服务器,根据所述多个总控服务器的性能指标,从所述多个总控服务器中筛选出其中之一,由筛选出的总控服务器将该监控任务下发至探测服务器。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
CN202110922907.3A 2021-08-12 2021-08-12 一种高可用监控方法、装置、设备及存储介质 Active CN113645099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922907.3A CN113645099B (zh) 2021-08-12 2021-08-12 一种高可用监控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922907.3A CN113645099B (zh) 2021-08-12 2021-08-12 一种高可用监控方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113645099A true CN113645099A (zh) 2021-11-12
CN113645099B CN113645099B (zh) 2024-02-02

Family

ID=78421024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922907.3A Active CN113645099B (zh) 2021-08-12 2021-08-12 一种高可用监控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113645099B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109245962A (zh) * 2018-10-12 2019-01-18 北京信研汇智信息技术有限公司 服务器监控方法、系统、计算机设备及存储介质
KR20190021848A (ko) * 2017-08-24 2019-03-06 삼성에스디에스 주식회사 서버 모니터링 방법과 이를 수행하기 위한 장치 및 시스템
CN110290190A (zh) * 2019-06-18 2019-09-27 深圳前海微众银行股份有限公司 一种采集数据的方法、被监控设备及监控服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190021848A (ko) * 2017-08-24 2019-03-06 삼성에스디에스 주식회사 서버 모니터링 방법과 이를 수행하기 위한 장치 및 시스템
CN109245962A (zh) * 2018-10-12 2019-01-18 北京信研汇智信息技术有限公司 服务器监控方法、系统、计算机设备及存储介质
CN110290190A (zh) * 2019-06-18 2019-09-27 深圳前海微众银行股份有限公司 一种采集数据的方法、被监控设备及监控服务器

Also Published As

Publication number Publication date
CN113645099B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
JP6033985B2 (ja) 性能評価方法及び情報処理装置
US8046466B2 (en) System and method for managing resources
US10462027B2 (en) Cloud network stability
US9921877B2 (en) Intelligent auto-scaling
US11153163B1 (en) Cloud-controlled configuration of edge processing units
CN107870832B (zh) 基于多维度健康诊断方法的多路径存储设备
CN110955586A (zh) 一种基于日志的系统故障预测方法、装置和设备
CN113645099A (zh) 一种高可用监控方法、装置、设备及存储介质
EP3473035B1 (en) Application resilience system and method thereof for applications deployed on a cloud platform
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
CN114036032A (zh) 一种实时程序的监控方法及装置
US10735246B2 (en) Monitoring an object to prevent an occurrence of an issue
CN112269693A (zh) 一种节点自协调方法、装置和计算机可读存储介质
CN107783852B (zh) 一种dump文件生成方法及终端
JP2021033518A (ja) 障害判定装置、及び障害判定方法
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
US20220391277A1 (en) Computing cluster health reporting engine
CN113608963A (zh) 容器存储使用率监控方法、装置、计算机设备及存储介质
CN107124331B (zh) 一种基于网状互联结构的大规模服务器监控方法及装置
JP2000181761A (ja) 端末監視システム及び方法
CN113064923A (zh) 一种黑名单筛查系统的检测方法、装置、设备和存储介质
CN117909111A (zh) 监控数据处理方法、装置、设备及存储介质
KR20030092924A (ko) 에이에이에이 서버 시스템 장애 발생시 오엠피 가시가청경보 방법
CN115858294A (zh) 一种云平台应用的处理方法、系统、存储介质及电子设备
JP5459797B2 (ja) 監視装置、監視方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant