CN112787855B - 一种面向广域分布式服务的主备管理系统及管理方法 - Google Patents

一种面向广域分布式服务的主备管理系统及管理方法 Download PDF

Info

Publication number
CN112787855B
CN112787855B CN202011610364.3A CN202011610364A CN112787855B CN 112787855 B CN112787855 B CN 112787855B CN 202011610364 A CN202011610364 A CN 202011610364A CN 112787855 B CN112787855 B CN 112787855B
Authority
CN
China
Prior art keywords
application
service
state
node
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011610364.3A
Other languages
English (en)
Other versions
CN112787855A (zh
Inventor
武书舟
狄方春
陶蕾
李大鹏
黄运豪
林静怀
夏文岳
王佳琪
马欣欣
冯琼
俞灵
李泽科
范海威
杨清波
陈建洪
张周杰
陈书里
刘�东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Fujian Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011610364.3A priority Critical patent/CN112787855B/zh
Publication of CN112787855A publication Critical patent/CN112787855A/zh
Application granted granted Critical
Publication of CN112787855B publication Critical patent/CN112787855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种面向广域分布式服务的主备管理系统及管理方法,所述系统包括:主备状态监视模块,对应用的应用进程和应用服务进行监视,将采集到的应用状态信息存储到数据库中,所述应用状态信息包括所述应用所在节点的状态、应用进程状态、应用服务状态;主备切换模块,查询所述数据库获取所述应用状态信息,根据所述应用状态信息判断是否执行主备节点切换,并更新所述应用状态信息。本发明通过建立基于Server‑Agent架构的监视机制,实现了集群资源动态监视和微服务状态监视;基于双机热备的主备切换策略,在节点故障或关键服务故障时,不会影响服务的稳定性,保证了主备切换后服务提供的连续性和实时性。

Description

一种面向广域分布式服务的主备管理系统及管理方法
技术领域
本发明属于电力自动化技术领域,涉及一种面向广域分布式服务的主备管理系统及管理方法。
背景技术
随着调控云平台建设的开展和深入,基于不同生产环境、业务应用场景、技术实现架构的软件部署量显著提升,传统的大型系统软件不断被拆分,微服务架构也被广泛应用于各种业务系统中。微服务的去中心化、高度自治、自动化等特点,对电力调度现有系统架构解耦,使应用的版本迭代与后期维护更加稳定快捷,提升了研发效率,规范了系统服务治理。
电力调度服务对其本身可靠性、安全性、实时性有着更高的要求,调度软件正常稳定运行是影响电力调度做出可靠决策的重要影响因素之一。如何保证电力调度服务在各种极端情况下仍可对外提供稳定的服务功能,是电力调度系统正常运行的保障。所以建立主备机管理是电力调度建设过程中面临的新的需求。对于网络、资源以及服务本身内在的逻辑缺陷等情况需要积极响应,随时保证服务的高可用性。同时,对于特定的业务需求,如服务更新,版本回滚等,也需要主备机功能的支持。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种面向广域分布式服务的主备管理系统及管理方法,通过建立基于Server-Agent架构的监视机制,对节点资源信息以及调控云服务的状态进行采集并存储,实现了集群资源动态监视和微服务状态监视;基于双机热备的主备切换策略,在节点故障或关键服务故障时,不会影响服务的稳定性,保证了主备切换后服务提供的连续性和实时性。
根据本发明的一个方面,本发明提供了一种面向广域分布式服务的主备管理系统,所述系统包括:
主备状态监视模块,对应用的应用进程和应用服务进行监视,将采集到的应用状态信息存储到数据库中,所述应用状态信息包括所述应用所在节点的状态、应用进程状态、应用服务状态;
主备切换模块,查询所述数据库获取所述应用状态信息,根据所述应用状态信息判断是否执行主备节点切换,并更新所述应用状态信息。
优选地,所述根据所述应用状态信息判断是否执行主备节点切换,包括:
轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
优选地,所述将所述应用切换至备用节点之前,还包括:
轮询所述应用的主备节点,查看是否存在正常状态的备用节点;当所述应用存在可用的备用节点时,将所述备用节点更新为当前应用的主用节点;如果不存在,则发出预定类型的告警信息。
优选地,所述对应用的应用进程进行监视,包括:
主备状态监视模块周期性地向Agent采集端下发需监视的进程列表,接收所述采集端实时上传的列表中的进程的基本信息与运行数据,所述Agent采集端部署在主用节点和备用节点中。
优选地,所述对应用的应用服务进行监视,包括:
主备状态监视模块实时调用服务总线中的服务监视与服务统计接口,获取服务的基本信息与状态信息,根据所述服务总线返回的数据,实时更新所述服务的基本信息与状态信息。
优选地,所述系统还包括Agent采集端、Server监视服务端和Web可视化展示端,
所述Agent采集端,采集节点的运行数据得到节点的监视数据,所述运行数据包括节点的硬件使用指标和应用服务的运行指标;
Server监视服务端,接收所述Agent采集端上报的监视数据,经过处理后得到监控指标数据,并将所述监控指标数据存储到本地,对外提供监视数据查询汇总服务;
Web可视化展示端,通过调用所述Server监视服务端的监视数据查询服务,查询配置数据或监视数据,提供可视化的数据汇集与展示功能。
根据本发明的另一方面,本发明还提供了一种面向广域分布式服务的主备管理方法,应用于面向广域分布式服务的主备管理系统,所述方法包括:
S1:获取当前节点的服务标识,判断所述节点是否为主用节点;
S2:依次轮询所有应用,获取所述应用所在节点的状态、应用进程状态、应用服务状态;
S3:轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
优选地,所述将所述应用切换至备用节点之前,还包括:
轮询所述应用的主备节点,查看是否存在正常状态的备用节点;当所述应用存在可用的备用节点时,将所述备用节点更新为当前应用的主用节点;如果不存在,则发出预定类型的告警信息。
优选地,所述获取所述应用的应用服务状态,包括:
主备状态监视模块向服务总线请求所有服务数据,根据当前应用节点信息获取该节点下所有服务的基础信息以及所述服务被调用的历史统计信息。
优选地,主备状态监视模块获取到应用节点下所有服务的信息后,与数据库中的服务数据进行比对,更新应用的应用服务状态。
有益效果:本发明通过建立基于Server-Agent架构的监视机制,对节点资源信息以及调控云服务的状态进行采集并存储,实现了集群资源动态监视和微服务状态监视;基于双机热备的主备切换策略,在节点故障或关键服务故障时,不会影响服务的稳定性,保证了主备切换后服务提供的连续性和实时性。
通过参照以下附图及对本发明的具体实施方式的详细描述,本发明的特征及优点将会变得清楚。
附图说明
图1是本发明的管理系统结构示意图;
图2是本发明的主备监视与管理示意图;
图3是本发明的资源采集与展示架构示意图;
图4是本发明的资源指标信息采集方法流程图;
图5是本发明的Agent采集端与Server服务端交互流程示意图;
图6是本发明的管理方法流程示意图;
图7是本发明的应用监视及主备切换流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在本发明的各个实施例中,无特殊说明的情况下,主机、主用节点之间可以互换使用,备机、备用节点之间可以互换使用,主备机、主备节点、主用节点和备用节点之间可以互换使用。
实施例1
图1是本发明的管理系统结构示意图。如图1所示,本发明提供了一种面向广域分布式服务的主备管理系统,所述系统包括:
主备状态监视模块,对应用的应用进程和应用服务进行监视,将采集到的应用状态信息存储到数据库中,所述应用状态信息包括所述应用所在节点的状态、应用进程状态、应用服务状态。
主备切换模块,查询所述数据库获取所述应用状态信息,根据所述应用状态信息判断是否执行主备节点切换,并更新所述应用状态信息。
优选地,所述根据所述应用状态信息判断是否执行主备节点切换,包括:
轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
优选地,所述将所述应用切换至备用节点之前,还包括:
轮询所述应用的主备节点,查看是否存在正常状态的备用节点;当所述应用存在可用的备用节点时,将所述备用节点更新为当前应用的主用节点;如果不存在,则发出预定类型的告警信息。
优选地,所述对应用的应用进程进行监视,包括:
主备状态监视模块周期性地向Agent采集端下发需监视的进程列表,接收所述采集端实时上传的列表中的进程的基本信息与运行数据,所述Agent采集端部署在主用节点和备用节点中。
优选地,所述对应用的应用服务进行监视,包括:
主备状态监视模块实时调用服务总线中的服务监视与服务统计接口,获取服务的基本信息与状态信息,根据所述服务总线返回的数据,实时更新所述服务的基本信息与状态信息。
优选地,所述系统还包括Agent采集端、Server监视服务端和Web可视化展示端,
所述Agent采集端,采集节点的运行数据得到节点的监视数据,所述运行数据包括节点的硬件使用指标和应用服务的运行指标;
Server监视服务端,接收所述Agent采集端上报的监视数据,经过处理后得到监控指标数据,并将所述监控指标数据存储到本地,对外提供监视数据查询汇总服务;
Web可视化展示端,通过调用所述Server监视服务端的监视数据查询服务,查询配置数据或监视数据,提供可视化的数据汇集与展示功能。
以下给出实施例1的具体实施过程。
参考图2,图2是本发明的主备监视与管理示意图。在图2中,各个功能模块的功能如下:
主机-备机:应用做双机热备策略,同时运行于主机与备机上。应用由进程与服务组成,任意一个关键进程或服务出现故障都会影响应用状态。主机与备机上部署指标采集监控中的采集端(Agent),负责进程的守护与监视功能。
服务总线:应用服务均注册于服务总线上,服务总线可对管理服务信息、监视服务状态、统计服务调用数据。
主备状态监视:主备状态监视模块与采集端和服务总线交互,实时获取应用节点、应用进程与应用服务的信息与状态并入库。
主备详情数据库:存储应用主备机的节点、进程、服务以及应用主备信息、应用主备机状态等数据。
主备切换:主备切换模块为主备管理核心模块,制定主备切换策略,依据应用节点、进程、服务状态,实时更新应用状态。实时轮询应用主备机状态,对主机异常应用提供主备切换。并提供统一的应用主机查询接口。根据实际情况提供dubbo服务、restful接口服务以及数据库统一查询接口。
分布式文档管理系统:主备服务注册于分布式文档管理系统中,实现主备leader竞选、查询当前应用主机的功能。提供了主备服务自身的服务冗余功能。
图中数据流交互描述如下:
1-3.应用进程监视与管理:主备状态监视模块通过指标采集监控模块的服务端(Server)与采集端(Agent)进行交互,从而达到对节点数据的实时监控。采集端部署在主机与备机上,对主备节点的进程进行实时监控。主备状态监视周期性的下发需监视的进程列表,采集端实时上送列表进程的基本信息与运行数据。同时采集端还提供进程守护的功能,对配置了自启的进程,当检测到进程离线后,采集端会自动调用启动脚本尝试重启进程。主备状态监视模块会根据采集端上送的数据周期性修改进程状态与运行数据。
4-5.应用服务监视:主备状态监视模块实时调用服务总线中服务监视与服务统计接口,获取服务的基本信息与状态信息。主备状态监视模块根据服务总线返回的数据,实时更新应用服务状态与服务基本信息。
6-8.监视数据入库:应用状态根据应用所在节点的状态、应用进程状态、应用服务状态,主备状态监视模块负责将采集到的三种状态码存储在数据库中,交由主备切换模块进行处理。
9-10.应用状态刷新与主备切换:主备切换模块根据数据库中的节点、进程、服务状态更新应用状态,并实时将主备切换的结果入库。
11-12.主备服务的注册与竞选:主备服务注册于分布式文档管理中,提供主备服务leader竞选以及当前主备服务主机信息的返回。
图3是本发明的资源采集与展示架构示意图。
Agent采集端:部署于系统各个节点中,负责采集节点上硬件使用指标以及应用服务的运行情况,可以采集包括CPU、内存、网卡、磁盘、负载率在内的多项硬件指标以及软件程序的资源使用率、运行时长等进程应用运行情况。
Server监视服务端:接收Agent端上报的监视数据,经过处理后,将监控指标数据存储到本地,对外提供监视数据查询汇总服务。
Web可视化展示端:通过调用Server端的监视数据查询服务,查询配置数据或监视数据,提供可视化的数据汇集与展示功能。
图4是本发明的资源指标信息采集方法流程图。
图4中各主要处理流程所做的工作具体为:
1.确定采集范围和频率:确定需要采集的系统运行信息、资源指标信息,并按需设置采集频率、提交周期,信息统一存储于服务端关系数据库中,由监视服务端统一管理配置;
2.确定监测节点:确定需要监测的机器节点,机器节点需向服务端进行注册后,监视数据方可通过数据过滤进行进一步的处理;
3.部署采集汇总进程:按照监测节点进行采集汇总进程的部署;
4-7:采集处理:通过读系统配置、读存储文件、运行操作系统命令以及读系统日志等不同方式进行系统运行信息的采集;
8:调用指标提交服务:采集汇总进程调用监视服务端统一的指标提交接口,周期性的提交采集数据;
9.汇总存储:监视服务端对提交的指标信息进行解析、入库等操作。
图5是本发明的Agent采集端与Server服务端交互流程示意图。图5展示了服务进程管理中运行指标采集监控模块中采集端(Agent)与服务端(Server)之间的交互流程,包括:
1.心跳周期:采集端在节点部署启动成功后,立即向服务端发送心跳信息,包括节点信息、系统详情等指标信息。服务端在获取到心跳信息后,判断当前IP是否属于监控配置IP网段,如果符合校验规则,则将节点信息存储于关系数据库中,并返回节点注册成功信息。采集端将节点信息存储于缓存中。
2.指标采集周期:采集端定期采集指标,主要分为服务进程状态采集以及服务详情信息采集,服务进程状态采集主要包括服务进程的CPU使用率、内存使用率、打开文件数、运行时间等资源使用信息,以及进程关键字、PID、启动时间、运行状态等运行时间等指标。服务详情信息采集主要包括服务的USI,端口、节点、服务提供者、服务消费者、服务调用历史记录等信息,并存储于提交队列中等待提交。
3.指标提交周期:当检测到提交队列中有数据存在,并且符合提交周期时间,则开始提交采集指标数据。首先检测上送路径是否畅通,上送路径畅通则将提交队列中的数据压缩后开始上传。服务端在接收到上送数据后,解压并进行数据处理,包括对数据的过滤、分索引存储等。若数据未能正常上传,采集端将其临时存放于缓存中,并周期性的尝试提交。
4.下发任务周期:服务端会下发两种任务,第一种周期性的下发监控进程列表,采集控制端根据进程列表轮询节点进程状态并采集对应指标。第二种会根据业务逻辑,自定义的不定时下发采集任务。如进程状态查询、进程远程启动、进程远程停止等操作。采集端和服务端在启动初期会建立通信连接,当出现连接失败时,采集端周期性的进行重连。当采集端接收到服务端下发的检测任务时,则会立即开始采集响应的指标数据。待指标获取完毕后,即刻向服务端提交采集的数据。
5.服务进程守护:进程守护功能主要是对系统关键进程提供的保障机制。采集控制端首先向服务端获取进程列表,待服务端返回后,采集控制端将配置了进程守护逻辑的进程信息存入内存中,并周期性的检查其状态。如果发现离线进程,则尝试进行进程的重启。同时向服务端上报进程的异常状态以及重启后的结果。若进程重启失败,可人工使用Web可视化进程管理工具进行恢复。
实施例2
图6是本发明的管理方法流程示意图。如图6所示,本发明还提供了一种面向广域分布式服务的主备管理方法,应用于面向广域分布式服务的主备管理系统,所述方法包括:
S1:获取当前节点的服务标识,判断所述节点是否为主用节点;
S2:依次轮询所有应用,获取所述应用所在节点的状态、应用进程状态、应用服务状态;
S3:轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
优选地,所述将所述应用切换至备用节点之前,还包括:
轮询所述应用的主备节点,查看是否存在正常状态的备用节点;当所述应用存在可用的备用节点时,将所述备用节点更新为当前应用的主用节点;如果不存在,则发出预定类型的告警信息。
优选地,所述获取所述应用的应用服务状态,包括:
主备状态监视模块向服务总线请求所有服务数据,根据当前应用节点信息获取该节点下所有服务的基础信息以及所述服务被调用的历史统计信息。
优选地,主备状态监视模块获取到应用节点下所有服务的信息后,与数据库中的服务数据进行比对,更新应用的应用服务状态。
以下给出实施例2的一个具体实过程。
图7是本发明的应用监视及主备切换流程示意图。图7为应用监视及主备切换流程图,主要流程描述如下:
1.判断主备服务主节点:进行主备操作之前,首先对主备服务本身的主备进行判断,首先获取分布式文档管理中当主备服务标识,如果与当前节点服务一致,则进行下一步操作,否则继续周期查看节点标识。
2.轮询应用状态:开始对配置的主备节点上所有应用依次轮询。查看其节点、进程、服务状态。
3.轮询应用进程状态:开始对节点下的进程进行轮询检查其运行状态。
4.判断节点网络是否畅通:判断应用所属节点网络是否畅通,若网络断开,则该节点上所有进程均认定为离线。
5.下发监视命令:当节点网络畅通,服务端则向采集端发送进程列表。包括进程关键字、PID等信息,供采集端快速定位监视进程状态以及获取进程运行状况。
6-11.采集端进程状态采集:采集端接收到服务端下发的进程列表信息后,开始逐项检查进程状态。若监测到进程离线,则获取进程配置中是否需提供进程守护功能。如果有则尝试重新启动进程。最后将进程的状态码以及运行数据返回至服务端。
12.进程状态入库:进程状态监视获取到进程状态信息后,入库存储。
13-14.判断应用进程状态并入库:查看当前应用下所有进程信息,根据是否有关键进程离线以及离线进程数量确定应用进程状态并入数据库。
15-17.获取应用服务状态:主备状态监视向服务总线请求所有服务数据,根据当前应用节点信息获取该节点下所有服务的基础信息以及提供者和消费者的调用历史统计信息。
18-20.更新应用服务状态:主备状态监视获取到应用节点下所有服务的信息后,与数据库中服务数据进行比对,从而更新应用服务的状态。在此基础上,根据当前应用下所有服务的状态以及关键服务离线的数量确定应用服务状态。
21.判断应用主节点状态是否正常:轮询所有应用节点,当节点为主节点时,判断其应用状态是否正常,如果存在应用状态为故障或离线状态的主节点,则开始该应用的备节点状态。
22.判断当前应用是否存在可用备机:轮询该应用主备节点,查看是否存在正常状态的备机。
23.切换主备状态:当应用存在可用备机时,更新当前应用主机为该可用备机。如果不存在则发出对应告警信息。
最下层告警服务为整个流程中出现的所有异常信息提供统一的上送接口。告警类型包括节点在线/离线告警、进程在线/离线告警、服务在线/离线告警、主节点/备节点应用状态改变告警、主备切换成功/失败告警等告警类别。告警类别覆盖了应用主备管理过程中的异常与故障,为定位和回溯故障原因提供依据与辅助决策。
本发明通过建立基于Server-Agent架构的监视机制,对节点资源信息以及调控云服务的状态进行采集并存储,实现了集群资源动态监视和微服务状态监视;基于双机热备的主备切换策略,在节点故障或关键服务故障时,不会影响服务的稳定性,保证了主备切换后服务提供的连续性和实时性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种面向广域分布式服务的主备管理系统,其特征在于,所述系统包括:
主备状态监视模块,对应用的应用进程和应用服务进行监视,将采集到的应用状态信息存储到数据库中,所述应用状态信息包括所述应用所在节点的状态、应用进程状态、应用服务状态;
主备切换模块,查询所述数据库获取所述应用状态信息,根据所述应用状态信息判断是否执行主备节点切换,并更新所述应用状态信息;
对应用的应用进程进行监视,包括:主备状态监视模块周期性地向Agent采集端下发需监视的进程列表,接收所述采集端实时上传的列表中的进程的基本信息与运行数据,所述Agent采集端部署在主用节点和备用节点中;
对应用的应用服务进行监视,包括:主备状态监视模块实时调用服务总线中的服务监视与服务统计接口,获取服务的基本信息与状态信息,根据所述服务总线返回的数据,实时更新所述服务的基本信息与状态信息;
所述系统还包括Agent采集端、Server监视服务端;
所述Agent采集端,用于采集节点的运行数据得到节点的监视数据,所述运行数据包括节点的硬件使用指标和应用服务的运行指标;
Server监视服务端,用于接收所述Agent采集端上报的监视数据,经过处理后得到监控指标数据,并将所述监控指标数据存储到本地,对外提供监视数据查询汇总服务。
2.根据权利要求1所述的系统,其特征在于,所述根据所述应用状态信息判断是否执行主备节点切换,包括:
轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
3.根据权利要求2所述的系统,其特征在于,所述将所述应用切换至备用节点之前,还包括:
轮询所述应用的主备节点,查看是否存在正常状态的备用节点;当所述应用存在可用的备用节点时,将所述备用节点更新为当前应用的主用节点;如果不存在,则发出预定类型的告警信息。
4.根据权利要求1所述的系统,其特征在于,所述系统还包括Web可视化展示端,Web可视化展示端,用于通过调用所述Server监视服务端的监视数据查询服务,查询配置数据或监视数据,提供可视化的数据汇集与展示功能。
5.一种面向广域分布式服务的主备管理方法,应用于如权利要求1-4任一项所述的管理系统,其特征在于,所述方法包括:
S1、获取当前节点的主备服务标识,判断所述节点是否为主用节点,是进行下一步操作,否则继续周期查看节点标识;
S2、依次轮询所有应用,获取所述应用所在节点的状态、应用进程状态、应用服务状态;
S3、轮询所有执行所述应用的节点,当节点为主节点时,判断其应用状态是否正常,如果其应用状态为故障或离线状态,则将所述应用切换至备用节点。
6.根据权利要求5所述的管理方法,其特征在于,获取所述应用的应用服务状态,包括:
主备状态监视模块向服务总线请求所有服务数据,根据当前应用节点信息获取该节点下所有服务的基础信息以及所述服务被调用的历史统计信息。
7.根据权利要求5所述的管理方法,其特征在于,主备状态监视模块获取到应用节点下所有服务的信息后,与数据库中的服务数据进行比对,更新应用的应用服务状态。
CN202011610364.3A 2020-12-29 2020-12-29 一种面向广域分布式服务的主备管理系统及管理方法 Active CN112787855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011610364.3A CN112787855B (zh) 2020-12-29 2020-12-29 一种面向广域分布式服务的主备管理系统及管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011610364.3A CN112787855B (zh) 2020-12-29 2020-12-29 一种面向广域分布式服务的主备管理系统及管理方法

Publications (2)

Publication Number Publication Date
CN112787855A CN112787855A (zh) 2021-05-11
CN112787855B true CN112787855B (zh) 2022-07-26

Family

ID=75753903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011610364.3A Active CN112787855B (zh) 2020-12-29 2020-12-29 一种面向广域分布式服务的主备管理系统及管理方法

Country Status (1)

Country Link
CN (1) CN112787855B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890883B (zh) * 2021-07-06 2024-02-13 国电南瑞科技股份有限公司 一种调度应急体系通用人机灵活访问系统及方法
CN113867129A (zh) * 2021-10-27 2021-12-31 珠海格力电器股份有限公司 一种冗余控制方法、装置、系统、计算机设备及存储介质
CN114326511A (zh) * 2021-12-29 2022-04-12 珠海万力达电气自动化有限公司 基于monitor配置工具的工矿企业电力集控系统双机切换方法
CN114978871B (zh) * 2022-04-08 2023-10-24 北京航天飞行控制中心 业务系统的节点切换方法及节点切换装置、电子设备
CN115037652A (zh) * 2022-05-17 2022-09-09 上海金仕达软件科技有限公司 一种套保系统后台模块运行监控系统
CN115277377A (zh) * 2022-05-19 2022-11-01 亿点云计算(珠海)有限公司 基于分布式云的服务获取方法、装置、终端及存储介质
CN115277378B (zh) * 2022-05-19 2024-03-19 亿点云计算(珠海)有限公司 基于有状态服务的服务切换方法、装置、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104124756A (zh) * 2013-04-27 2014-10-29 国家电网公司 一种基于全网数据的省级配电网运行监测系统
CN110149366A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
CN110175451A (zh) * 2019-04-23 2019-08-27 国家电网公司华东分部 一种基于电力云的安全监控方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231681B (zh) * 2011-06-27 2014-07-30 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
CN103152414B (zh) * 2013-03-01 2016-03-30 四川省电力公司信息通信公司 一种基于云计算的高可用系统
CN104579791A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种实现k-db主备自动切换容灾集群的方法
CN104917827A (zh) * 2015-05-26 2015-09-16 浪潮电子信息产业股份有限公司 一种实现oracle负载均衡集群的方法
CN109525436B (zh) * 2018-12-19 2022-09-16 福建新大陆软件工程有限公司 应用程序主备切换方法及系统
CN111858284A (zh) * 2020-07-24 2020-10-30 苏州浪潮智能科技有限公司 一种人工智能服务器的资源监控方法和装置
CN112118130B (zh) * 2020-08-25 2023-07-21 通号城市轨道交通技术有限公司 自适应的分布式缓存主备状态信息切换方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104124756A (zh) * 2013-04-27 2014-10-29 国家电网公司 一种基于全网数据的省级配电网运行监测系统
CN110149366A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 提高集群系统可用性的方法、装置和计算机设备
CN110175451A (zh) * 2019-04-23 2019-08-27 国家电网公司华东分部 一种基于电力云的安全监控方法和系统

Also Published As

Publication number Publication date
CN112787855A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112787855B (zh) 一种面向广域分布式服务的主备管理系统及管理方法
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN112162821B (zh) 容器集群资源监视方法、装置及系统
CN108234170A (zh) 一种服务器集群的监控方法和装置
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN112612545A (zh) 一种服务器集群的配置热加载系统、方法、设备及介质
CN115248826B (zh) 一种大规模分布式图数据库集群运维管理的方法和系统
CN113515316A (zh) 一种新型边缘云操作系统
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN117130730A (zh) 面向联邦Kubernetes集群的元数据管理方法
CN112084004A (zh) 一种面向容器应用的容器探测与维护方法及系统
CN110798339A (zh) 一种基于分布式任务调度框架的任务容灾方法
CN111597079A (zh) 针对MySQL Galera集群故障的检测和恢复方法及系统
CN108445857B (zh) 一种scada系统的1+n冗余机制设计方法
CN113765690A (zh) 集群切换方法、系统、装置、终端、服务器及存储介质
CN115766715A (zh) 一种高可用的超融合集群监控方法和系统
CN112491633B (zh) 一种多节点集群的故障恢复方法、系统及相关组件
CN113946465A (zh) 一种大数据的故障处理方法及其相关设备
CN112260398B (zh) 一种支持动态扩展的电网监控系统
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN112134727A (zh) 基于容器技术的网关机运行数据交换方法
CN112328445B (zh) 一种基于consul的多节点管理系统
CN115225538B (zh) 基于自托管集群的监控方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant