CN115002013B - 运行状态的确定方法、装置、存储介质及电子装置 - Google Patents

运行状态的确定方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN115002013B
CN115002013B CN202210941482.5A CN202210941482A CN115002013B CN 115002013 B CN115002013 B CN 115002013B CN 202210941482 A CN202210941482 A CN 202210941482A CN 115002013 B CN115002013 B CN 115002013B
Authority
CN
China
Prior art keywords
target
service
information
state information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210941482.5A
Other languages
English (en)
Other versions
CN115002013A (zh
Inventor
吕少卿
王克彦
俞鸣园
孙俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN202210941482.5A priority Critical patent/CN115002013B/zh
Publication of CN115002013A publication Critical patent/CN115002013A/zh
Application granted granted Critical
Publication of CN115002013B publication Critical patent/CN115002013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种运行状态的确定方法、装置、存储介质及电子装置,其中,该方法包括:在确定目标节点已启动目标业务的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,其中,第一状态信息用于指示对应的子业务的运行是否发生异常;对多个第一状态信息进行预定处理,以得到第二状态信息,第二状态信息中包括有多个第一状态信息;将包含第二状态信息的心跳信息上报至目标平台。通过本发明,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。

Description

运行状态的确定方法、装置、存储介质及电子装置
技术领域
本发明实施例涉及云计算技术领域,具体而言,涉及一种运行状态的确定方法、装置、存储介质及电子装置。
背景技术
随着技术的不断发展与进步,云计算已经成为IT领域的主流发展趋势。然而随着云计算的规模日益庞大,业务集群不断扩大,如何保证业务集群的稳定运行以及解决业务系统中的异常业务进行快速恢复成为至关重要的核心。
目前,针对云计算环境下节点的异常检测方法,通常从每个物理或虚拟节点上采集各个子系统(如CPU、内存、I/O和网络)的性能指标数据来表征节点的状态,通过节点状态来判断节点是否出现异常。但在大规模节点和业务集群场景中,检测实际业务状态、快速恢复异常业务服务以及节点间心跳风暴成为主要难题,相关技术中主要提供的是对节点的状态进行检测,而没有对节点中的业务服务状态进行检测,更无法有效解决集群业务服务的心跳风暴的问题。因此,提供一种解决大规模场景下的异常检测和恢复的方法已显得尤为重要。
针对相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种运行状态的确定方法、装置、存储介质及电子装置,以至少解决相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题。
根据本发明的一个实施例,提供了一种运行状态的确定方法,包括:在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;将包含所述第二状态信息的心跳信息上报至目标平台。
在一个示例性实施例中,将包含所述第二状态信息的心跳信息上报至目标平台,包括:按照第一预定周期将所述心跳信息上报至所述目标平台,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
在一个示例性实施例中,在将包含所述第二状态信息的心跳信息上报至目标平台之后,所述方法还包括:接收由所述目标平台返回的目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
在一个示例性实施例中,对多个所述第一状态信息进行预定处理,以得到第二状态信息,包括:对多个所述第一状态信息进行打包和/或压缩处理,以得到所述第二状态信息。
在一个示例性实施例中,在检测所述目标业务中包括的多个子业务的运行状态之前,所述方法还包括:在接收到所述目标平台发送的目标业务程序包的情况下,将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
在一个示例性实施例中,基于所述目标业务程序包中包括的目标描述文件启动所述目标业务,包括:解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示启动的所述目标业务中所述子业务的第一启动数量;基于所述启动参数及所述第一启动数量启动所述目标业务。
在一个示例性实施例中,在解析所述目标描述文件以获得目标信息之后,所述方法还包括:将所述目标信息写入第一存储单元中;检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,包括:通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,其中,所述目标信息中还包括所述目标业务接口信息。
在一个示例性实施例中,通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,包括:针对每个所述子业务,均执行以下操作,以获得所述第一状态信息:通过所述目标检测单元调用所述目标业务接口信息对应的业务接口,以检测所述子业务的运行状态,并获得第一检测结果;所述目标检测单元将所述第一检测结果与目标反馈内容进行比较,以确定所述第一状态信息,其中,所述目标信息中还包括所述目标反馈内容,所述目标反馈内容用于指示业务运行正常或者异常情况的描述内容。
在一个示例性实施例中,在基于检测结果确定每个所述子业务的第一状态信息之后,所述方法还包括:在确定多个所述第一状态信息中包括有用于指示对应的所述子业务运行异常的第一状态信息的情况下,获取所述目标信息中包括的第二异常处理模式;按照所述第二异常处理模式对发生异常的所述子业务进行处理。
根据本发明的另一个实施例,还提供了一种运行状态的确定方法,包括:接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息。
在一个示例性实施例中,接收由目标节点控制器上报的心跳信息,包括:接收由所述目标节点控制器按照第一预定周期上报的所述心跳信息,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
在一个示例性实施例中,在接收由目标节点控制器上报的心跳信息之前,所述方法还包括:向所述目标节点控制器发送目标业务程序包,以指示所述目标节点控制器在执行以下操作之后,向目标平台上报所述心跳信息:将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
在一个示例性实施例中,向所述目标节点控制器发送目标业务程序包,包括:接收目标对象上传的所述目标业务程序包;解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示需要启动的节点数量的目标启动数量;在确定所述目标业务程序包对应的所述目标业务未执行的情况下,基于所述目标启动数量确定出一个或多个指定节点,并向一个或多个所述指定节点发送所述目标业务程序包,其中,所述指定节点包括所述目标节点,每个所述指定节点分别对应一个节点控制器,其中,所述目标节点对应的节点控制器为所述目标节点控制器。
在一个示例性实施例中,在接收由目标节点控制器上报的心跳信息之后,所述方法还包括:基于所述第二状态信息向所述目标节点控制器返回目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
在一个示例性实施例中,在接收由目标节点控制器上报的心跳信息之后,所述方法还包括:在基于所述心跳信息确定多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,按照第一异常处理模式对发生异常的所述子业务进行处理,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的。
在一个示例性实施例中,按照第一异常处理模式对发生异常的所述子业务进行处理包括:在所述第一异常处理模式为跨节点恢复模式的情况下,获取所述目标节点的第一业务信息,其中,所述第一业务信息用于指示所述目标节点之前运行的所有业务信息,所述第一业务信息包括所述目标业务的信息;将所述第一业务信息迁移至第一节点中。
根据本发明的又一个实施例,还提供了一种运行状态的确定装置,包括:确定模块,用于在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;第一处理模块,用于对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;上报模块,用于将包含所述第二状态信息的心跳信息上报至目标平台。
根据本发明的又一个实施例,还提供了一种运行状态的确定装置,包括:第一接收模块,用于接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,在确定目标业务已启动的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,即,确定每个子业务的运行是否发生异常;再对多个第一状态信息进行预定处理,以得到第二状态信息,第二状态信息中包括有多个第一状态信息;然后,将包含第二状态信息的心跳信息上报至目标平台。实现了检测目标节点中所运行的多个子业务的运行状态的目的,以及实现了将包含所有子业务的运行状态信息的心跳信息上报给目标平台的目的。避免了相关技术中仅能检测单个节点的状态,而无法解决大规模场景下业务服务多而导致心跳风暴的问题,因此,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。
附图说明
图1是本发明实施例的运行状态的确定方法的移动终端硬件结构框图;
图2是根据本发明实施例的一种运行状态的确定方法的流程图;
图3是根据本发明实施例的另一种运行状态的确定方法的流程图;
图4是根据本发明具体实施例的集群服务管理系统架构图;
图5是根据本发明具体实施例的业务服务状态信息上报流程图;
图6是根据本发明实施例的一种运行状态的确定装置的结构框图;
图7是根据本发明实施例的另一种运行状态的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的运行状态的确定方法的移动终端硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的运行状态的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行状态的确定方法,图2是根据本发明实施例的一种运行状态的确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
步骤S204,对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
步骤S206,将包含所述第二状态信息的心跳信息上报至目标平台。
通过上述步骤,在确定目标业务已启动的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,即,确定每个子业务的运行是否发生异常;再对多个第一状态信息进行预定处理,以得到第二状态信息,第二状态信息中包括有多个第一状态信息;然后,将包含第二状态信息的心跳信息上报至目标平台。实现了检测目标节点中所运行的多个子业务的运行状态的目的,以及实现了将包含所有子业务的运行状态信息的心跳信息上报给目标平台的目的。避免了相关技术中仅能检测单个节点的状态,而无法解决大规模场景下业务服务多而导致心跳风暴的问题,因此,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。
其中,上述步骤的执行主体可以为节点,或节点控制器,例如,可以是节点上的节点控制器,或者为配置在存储设备上的具备人机交互能力的处理器,或者为具备类似处理能力的处理设备或处理单元等,但不限于此。下面以节点控制器执行上述操作为例(仅是一种示例性说明,在实际操作中还可以是其他的设备或模块来执行上述操作)进行说明。
在上述实施例中,节点控制器在确定目标节点已启动目标业务的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,其中,第一状态信息用于指示对应的子业务的运行是否发生异常,例如,节点控制器可以是目标节点上的节点控制器,节点可以是服务器、嵌入式硬件、手机、PC或者虚拟机等等,目标节点上运行的目标业务(或称为目标业务服务)中包含多个子业务,通过检测多个子业务的运行状态,以确定每个子业务的第一状态信息,第一状态信息指子业务的运行是否发生异常,在实际应用中,第一状态信息可以是正常、异常或超时等其中的一种;再对多个第一状态信息进行预定处理,以得到第二状态信息,其中,第二状态信息中包括有多个第一状态信息,例如,对多个第一状态信息进行打包压缩处理,以得到第二状态信息,即第二状态信息中包括多个子业务的运行状态的信息;然后,将包含第二状态信息的心跳信息上报至目标平台,即将包含所有子业务的运行状态的信息的心跳信息一起上报给目标平台,在实际应用中,上述心跳信息中还可包括目标节点的节点状态信息,节点状态信息是指目标节点是否发生异常的信息,此外,在实际应用中,还可按照预定周期向目标平台上报心跳信息,例如,每隔30s(或20s,或5s,或其它时间)向目标平台上报心跳信息。本实施例中,仅以目标节点为例,针对大规模的集群业务服务场景,可能存在多个节点,上述目标节点仅为其中一个节点,而每个节点均可按照上述方式检测每个子业务的运行状态然后向目标平台上报心跳信息。通过本实施例,实现了检测目标节点中所运行的多个子业务的运行状态的目的,以及实现了将包含所有子业务的运行状态信息的心跳信息上报给目标平台的目的。避免了相关技术中仅能检测单个节点的状态,而无法解决大规模场景下业务服务多而导致心跳风暴的问题,因此,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。
在一个可选的实施例中,将包含所述第二状态信息的心跳信息上报至目标平台,包括:按照第一预定周期将所述心跳信息上报至所述目标平台,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。在本实施例中,目标节点控制器可以按照第一预定周期(如30s,或20s,或5s,或其它时间)将心跳信息上报至目标平台,以完成节点与目标平台之间的心跳交互,同时,心跳信息中还可包括目标节点的节点状态信息,例如,节点的网络、系统或硬件状态等相关的状态信息。在实际应用中,针对大规模的集群业务服务场景,可能存在多个节点(包括上述目标节点),每个节点均可将节点上运行的多个子业务的运行状态信息及各自节点自身的状态信息一起上报给目标平台。通过本实施例,实现了将所有子业务的状态信息以及节点的状态信息一起上报给目标平台的目的。避免了将每个子业务的运行状态信息单独上报给目标平台从而造成心跳风暴的问题。
在一个可选的实施例中,在将包含所述第二状态信息的心跳信息上报至目标平台之后,所述方法还包括:接收由所述目标平台返回的目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。在本实施例中,在将心跳信息上报给目标平台之后,节点控制器将接收由目标平台返回的目标应答信息,例如,在确定目标节点上运行的所有子业务均运行正常的情况下,可返回第一确认应答信息,和/或第一心跳间隔时长;在确定目标节点上运行的所有子业务中存在部分业务运行异常的情况下,可返回第二确认应答信息,或第一异常处理模式,和/或第二心跳间隔时长,例如,第一异常处理模式可用于指示在子业务运行发生异常的情况下对子业务的处理方式,在实际应用中,第一异常处理模式可以是仅本节点处理模式,或跨节点处理模式,或混合恢复模式,本节点处理模式是指由发生异常的节点自行处理,例如,重启业务服务,和/或上报给平台,并等待平台下发处理任务,和/或按照用户自定义的处理规则进行处理(例如,多次重启失败上报平台,或者重启直到成功等);而跨节点处理模式是指平台将发生异常的子业务所在节点上的所有业务迁移到另外一个节点上运行,以恢复业务服务,例如,在大规模的集群业务服务场景中,另外一个节点可以是空闲节点。通过本实施例,实现了根据上报的心跳信息返回目标应答信息的目的,以及在业务运行出现异常的情况下返回第一异常处理模式的目的,达到了在检测到业务运行异常后对业务进行恢复的效果。
在一个可选的实施例中,对多个所述第一状态信息进行预定处理,以得到第二状态信息,包括:对多个所述第一状态信息进行打包和/或压缩处理,以得到所述第二状态信息。在本实施例中,可对多个第一状态信息进行打包和/或压缩处理,以得到第二状态信息,实现了将所有子业务的状态信息一起进行打包、压缩处理的目的,从而达到了降低心跳风暴问题发生的概率的效果。
在一个可选的实施例中,在检测所述目标业务中包括的多个子业务的运行状态之前,所述方法还包括:在接收到所述目标平台发送的目标业务程序包的情况下,将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。在本实施例中,接收由目标平台发送的目标业务程序包,并将目标业务的程序安装至目标节点中,目标业务程序包中包括多个子业务的程序,然后,根据目标业务程序包中包括的目标描述文件启动目标业务,在实际应用中,目标描述文件中提供了如何启动目标业务的参数,可选地,目标描述文件中还可提供目标业务服务的启动数量,和/或心跳时长,和/或异常处理模式,以及目标业务需要检测的业务接口信息等。通过本实施例,实现了接收由目标平台发送的目标业务程序包以及基于目标业务程序包中包括的目标描述文件启动目标业务的目的。
在一个可选的实施例中,基于所述目标业务程序包中包括的目标描述文件启动所述目标业务,包括:解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示启动的所述目标业务中所述子业务的第一启动数量;基于所述启动参数及所述第一启动数量启动所述目标业务。在本实施例中,通过解析目标描述文件以获得目标信息,目标信息中可包括目标业务的启动参数以及目标业务中子业务的第一启动数量,然后,基于启动参数及第一启动数量启动相应的目标业务,即启动多个子业务。通过本实施例,实现了通过解析目标描述文件中包含的目标信息以启动目标业务的目的。
在一个可选的实施例中,在解析所述目标描述文件以获得目标信息之后,所述方法还包括:将所述目标信息写入第一存储单元中;检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,包括:通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,其中,所述目标信息中还包括所述目标业务接口信息。在本实施例中,在解析目标描述文件以获得目标信息之后,目标节点控制器可将目标信息写入第一存储单元中,在实际应用中,可由目标节点控制器中包括的节点服务管理单元解析目标描述文件,并将目标信息写入第一存储单元中,然后通知目标节点控制器中所包括的服务检测单元(即上述目标检测单元),对子业务的运行状态进行检测,其中,服务检测单元可从第一存储单元中获取目标业务接口信息,以确定需要检测的目标业务接口,即确定需要检测的多个子业务的业务接口信息,进而获得每个子业务的第一状态信息。通过本实施例,实现了由目标节点控制器中包括的目标检测单元对多个子业务的运行状态进行检测以及确定每个子业务的第一状态信息的目的。
在一个可选的实施例中,通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,包括:针对每个所述子业务,均执行以下操作,以获得所述第一状态信息:通过所述目标检测单元调用所述目标业务接口信息对应的业务接口,以检测所述子业务的运行状态,并获得第一检测结果;所述目标检测单元将所述第一检测结果与目标反馈内容进行比较,以确定所述第一状态信息,其中,所述目标信息中还包括所述目标反馈内容,所述目标反馈内容用于指示业务运行正常或者异常情况的描述内容。在本实施例中,通过目标检测单元调用对应的业务接口,以检测对应子业务的运行状态,并获得第一检测结果,再根据目标信息中包括的目标反馈内容与第一检测结果进行比较,以确定第一状态信息,例如,在前述目标描述文件中有包含目标反馈内容,目标反馈内容可以是关于正常或异常情况的描述,例如,“200 ok”(或其它)表示正常,“400 ok”(或其它)表示异常,若第一检测结果为“200 ok”,则可确定第一状态信息为正常,即对应的子业务的运行状态为正常。通过本实施例,实现了根据对每个子业务的检测结果确定该子业务的第一状态信息的目的。
在一个可选的实施例中,在基于检测结果确定每个所述子业务的第一状态信息之后,所述方法还包括:在确定多个所述第一状态信息中包括有用于指示对应的所述子业务运行异常的第一状态信息的情况下,获取所述目标信息中包括的第二异常处理模式;按照所述第二异常处理模式对发生异常的所述子业务进行处理。在本实施例中,当基于多个第一状态信息确定存在子业务运行异常时,获取第二异常处理模式,在实际应用中,目标节点控制器中包括的节点服务管理单元通过解析目标描述文件,获得目标信息,其中,目标信息中还可包括第二异常处理模式,第二异常处理模式用于指示对发生异常的子业务进行处理的方式,在实际应用中,第二异常处理模式可以是仅本节点处理模式,或跨节点处理模式,或混合恢复模式,本节点处理模式是指由发生异常的节点自行处理,例如,重启业务服务,和/或上报给平台,并等待平台下发处理任务,和/或按照用户自定义的处理规则进行处理(例如,多次重启失败上报平台,或者重启直到成功等);而跨节点处理模式是指平台将发生异常的子业务所在节点上的所有业务迁移到另外一个节点上运行,以恢复业务服务,例如,在大规模的集群业务服务场景中,另外一个节点可以是空闲节点。通过本实施例,实现了在基于检测结果确定存在子业务的运行发生异常的情况下,按照第二异常处理模式对子业务进行处理的目的,达到了在检测到业务运行异常后对业务进行恢复的效果。
在本实施例中还提供了另一种运行状态的确定方法,图3是根据本发明实施例的另一种运行状态的确定方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息。
通过上述步骤,接收由目标节点控制器上报的心跳信息,其中,心跳信息中包含第二状态信息,第二状态信息是由目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,即,确定每个子业务的运行是否发生异常;再对多个第一状态信息进行预定处理,以得到第二状态信息,第二状态信息中包括有多个所述第一状态信息。即,目标节点控制器上报的心跳信息中包含所有子业务的运行状态的信息,实现了检测目标节点中所运行的多个子业务的运行状态的目的,以及实现了将包含所有子业务的运行状态信息的心跳信息上报给目标平台的目的。避免了相关技术中仅能检测单个节点的状态,而无法解决大规模场景下业务服务多而导致心跳风暴的问题,因此,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。
其中,上述步骤的执行主体可以为平台,或管理平台,如上述目标平台,或集群服务管理平台,又或者是运行在服务器上的系统平台,或者为配置在存储设备上的具备人机交互能力的处理器,或者为具备类似处理能力的处理设备或处理单元等,但不限于此。下面以目标平台执行上述操作为例(仅是一种示例性说明,在实际操作中还可以是其他的设备或模块来执行上述操作)进行说明。
在上述实施例中,目标平台接收由目标节点控制器上报的心跳信息,其中,心跳信息中包含第二状态信息,第二状态信息是由目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个子业务的第一状态信息,其中,第一状态信息用于指示对应的子业务的运行是否发生异常,例如,目标节点控制器可以是目标节点上的节点控制器,目标节点可以是服务器、嵌入式硬件、手机、PC或者虚拟机等等,目标节点上运行的目标业务中包含多个子业务,通过检测多个子业务的运行状态,以确定每个子业务的第一状态信息,第一状态信息指子业务的运行是否发生异常,在实际应用中,第一状态信息可以是正常、异常或超时等其中的一种;再对多个第一状态信息进行预定处理,以得到第二状态信息,其中,第二状态信息中包括有多个第一状态信息,例如,对多个第一状态信息进行打包压缩处理,以得到第二状态信息,第二状态信息中包括多个子业务的运行状态的信息,即目标平台接收的心跳信息中包含所有子业务的运行状态的信息,即目标节点控制器是将包含所有子业务的运行状态的信息的心跳信息一起上报给目标平台的,在实际应用中,上述心跳信息中还可包括目标节点的节点状态信息,节点状态信息是指目标节点是否发生异常的信息,此外,在实际应用中,还可按照预定周期向目标平台上报心跳信息,例如,每隔30s(或20s,或5s,或其它时间)向目标平台上报心跳信息。本实施例中,仅以目标节点为例,针对大规模的集群业务服务场景,可能存在多个节点,上述目标节点仅为其中一个节点,而每个节点均可按照上述方式检测每个子业务的运行状态然后向目标平台上报心跳信息。通过本实施例,实现了检测目标节点中所运行的多个子业务的运行状态的目的,以及实现了将包含所有子业务的运行状态信息的心跳信息上报给目标平台的目的。避免了相关技术中仅能检测单个节点的状态,而无法解决大规模场景下业务服务多而导致心跳风暴的问题,因此,解决了相关技术中存在的无法有效解决集群业务服务的心跳风暴的问题,达到了提高集群业务服务系统运行效率的效果。
在一个可选的实施例中,接收由目标节点控制器上报的心跳信息,包括:接收由所述目标节点控制器按照第一预定周期上报的所述心跳信息,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。在本实施例中,目标平台可接收由目标节点控制器按照第一预定周期(如30s,或20s,或5s,或其它时间)上报心跳信息,以完成目标节点与目标平台之间的心跳交互,同时,心跳信息中还可包括目标节点的节点状态信息,例如,节点的网络、系统或硬件状态等相关的状态信息。在实际应用中,针对大规模的集群业务服务场景,可能存在多个节点(包括上述目标节点),每个节点均可将节点上运行的多个子业务的运行状态信息及各自节点自身的状态信息一起上报给目标平台。通过本实施例,实现了将所有子业务的状态信息以及节点的状态信息一起上报给目标平台的目的。避免了将每个子业务的运行状态信息单独上报给目标平台从而造成心跳风暴的问题。
在一个可选的实施例中,在接收由目标节点控制器上报的心跳信息之前,所述方法还包括:向所述目标节点控制器发送目标业务程序包,以指示所述目标节点控制器在执行以下操作之后,向目标平台上报所述心跳信息:将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。在本实施例中,目标平台可预先将目标业务程序包发送给目标节点控制器,以指示目标节点控制器将目标业务的程序安装至目标节点中,并基于目标业务程序包中包括的目标描述文件启动目标业务。在实际应用中,目标描述文件中提供了如何启动目标业务的参数,可选地,目标描述文件中还可提供目标业务服务的启动数量,和/或心跳时长,和/或异常处理模式,以及目标业务需要检测的业务接口信息等。通过本实施例,实现了向目标节点控制器发送目标业务程序包以及指示目标节点控制器基于目标业务程序包中包括的目标描述文件启动目标业务的目的。
在一个可选的实施例中,向所述目标节点控制器发送目标业务程序包,包括:接收目标对象上传的所述目标业务程序包;解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示需要启动的节点数量的目标启动数量;在确定所述目标业务程序包对应的所述目标业务未执行的情况下,基于所述目标启动数量确定出一个或多个指定节点,并向一个或多个所述指定节点发送所述目标业务程序包,其中,所述指定节点包括所述目标节点,每个所述指定节点分别对应一个节点控制器,其中,所述目标节点对应的节点控制器为所述目标节点控制器。在本实施例中,目标平台在确定目标业务未执行的情况下,可基于目标启动数量确定出一个或多个指定节点,例如N个节点,N为正整数,在实际应用中,目标平台可根据节点性能选择N个节点,并将目标业务程序包发送给N个节点所分别对应的节点控制器。通过本实施例,实现了在集群中运行一定冗余数量的业务服务的目的,即实现了支持业务服务的冗余的目的。
在一个可选的实施例中,在接收由目标节点控制器上报的心跳信息之后,所述方法还包括:基于所述第二状态信息向所述目标节点控制器返回目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。在本实施例中,目标平台在接收到目标节点控制器上报的心跳信息之后,可向目标节点控制器返回目标应答信息,例如,在确定目标节点上运行的所有子业务均运行正常的情况下,可返回第一确认应答信息,和/或第一心跳间隔时长;在确定目标节点上运行的所有子业务中存在部分业务运行异常的情况下,可返回第二确认应答信息,或第一异常处理模式,和/或第二心跳间隔时长,例如,第一异常处理模式可用于指示在子业务运行发生异常的情况下对子业务的处理方式,在实际应用中,第一异常处理模式可以是仅本节点处理模式,或跨节点处理模式,或混合恢复模式,本节点处理模式是指由发生异常的节点自行处理,例如,重启业务服务,和/或上报给平台,并等待平台下发处理任务,和/或按照用户自定义的处理规则进行处理(例如,多次重启失败上报平台,或者重启直到成功等);而跨节点处理模式是指平台将发生异常的子业务所在节点上的所有业务迁移到另外一个节点上运行,以恢复业务服务,例如,在大规模的集群业务服务场景中,另外一个节点可以是空闲节点。通过本实施例,实现了根据上报的心跳信息返回目标应答信息的目的,以及在业务运行出现异常的情况下返回第一异常处理模式的目的,达到了在检测到业务运行异常后对业务进行恢复的效果。
在一个可选的实施例中,在接收由目标节点控制器上报的心跳信息之后,所述方法还包括:在基于所述心跳信息确定多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,按照第一异常处理模式对发生异常的所述子业务进行处理,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的。在本实施例中,当基于心跳信息确定多个子业务中存在部分子业务的运行异常的情况下,按照第一异常处理模式对发生异常的子业务进行处理。通过本实施例,实现了在子业务运行出现异常的情况下按照第一异常处理模式进行处理的目的,达到了在检测到子业务运行异常后对子业务进行恢复的效果。
在一个可选的实施例中,按照第一异常处理模式对发生异常的所述子业务进行处理包括:在所述第一异常处理模式为跨节点恢复模式的情况下,获取所述目标节点的第一业务信息,其中,所述第一业务信息用于指示所述目标节点之前运行的所有业务信息,所述第一业务信息包括所述目标业务的信息;将所述第一业务信息迁移至第一节点中。在本实施例中,当第一异常处理模式为跨节点恢复模式时,目标平台可获取包含该目标节点之前运行的所有业务信息的第一业务信息,然后将该第一业务信息迁移至第一节点中,例如,在大规模的集群业务服务场景中,该第一节点可以是空闲节点。通过本实施例,实现了跨节点将发生异常的节点上的业务迁移至第一节点上的目的,达到了在检测到业务运行异常后对业务进行跨节点恢复的效果。
显然,上述所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。下面结合实施例对本发明进行具体说明。
在本实施例中提供了一种集群服务管理系统,图4是根据本发明具体实施例的集群服务管理系统架构图,该系统包括:集群服务管理平台(对应于前述目标平台)、N个节点控制器(图4中仅示出节点N的节点控制器)及N个节点,每个节点对应一个节点控制器,前述目标节点控制器相当于N个节点控制器中的其中一个,其中,
集群服务管理平台包含:
(1)API 接入网关:用于平台和节点控制器的交互;
(2)节点调度服务:用于节点的业务服务调度,比如完成业务服务在各节点中的启动、关闭以及迁移等操作;
(3)业务管理服务:节点和业务服务状态的管理,比如检测节点和业务服务的状态(是否异常),以及业务服务的冗余度,异常恢复以及负载均衡等;
(4)信息存储服务:集群的信息存储仓库;
(5)服务程序仓库:业务服务的程序存储仓库。
节点控制器包含:
(1)节点代理网关:用于和管理平台的交互;
(2)服务检测:用于业务服务的状态检测(是否异常);
(3)节点服务管理:管理实际业务服务在节点中的运行;
(4)节点信息存储:节点的信息存储仓库。
需要说明的是,上述节点可以是服务器、嵌入式硬件、手机、PC或者虚拟机等等;上述管理平台可以是运行在服务器或者虚拟机上的一套系统平台,也可以运行所管理的节点上;上述节点控制器可安装在节点上。
下面结合图4对本发明实施例进行说明。
具体实施例1:管理平台添加节点
具体包括:
1.1 在管理平台中添加节点信息(IP、端口、用户名和密码或者相应的认证证书),信息包含:
a)地址信息,用于平台网络连接到节点;
b)用户账号或者其他认证证书,用于节点的控制器安装;
1.2 平台根据节点信息,向节点安装节点控制器。
1.3 节点控制器部署完成后,会向平台发起加入集群节点。
a)节点的代理网关和平台的接入网关建立TCP链路,即信令通道;
b)节点控制器向平台发起注册;
c)平台认证通过后,返回令牌给节点控制器;
d)控制器拿到令牌后,和平台建立信令通道并将节点信息发送给平台。
1.4 平台和节点通过信令通道进行相互交互。
具体实施例2:管理平台添加业务服务
2.1 用户向平台上传业务服务程序包并添加服务名(平台唯一),包信息包括:
a)可执行程序以及相关配套文件(配置文件,依赖库等);
b)服务接口描述文件,其作用:
i. 提供了如何启动该服务的参数;
ii. 提供了服务需要监测的业务接口(Http API)以及反馈内容(正常或者异常情况描述);
iii. 提供了服务启动数量、心跳时长以及异常处理模式(仅本节点、跨节点或者混合恢复)。
2.2 业务管理服务将程序包存入程序仓库。
2.3 业务管理服务解析接口描述文件,并将该信息写入与服务名一起写入信息存储服务。
具体实施例3:管理平台运行业务服务
3.1 平台从存储服务中获取还未执行的业务服务和描述信息。
3.2 平台选择根据描述信息,选择N(数量:和业务服务启动数以及节点性能有关)个节点传输业务程序包,并指示节点控制器运行业务服务及上报业务状态信息。
图5是根据本发明具体实施例的业务服务状态信息上报流程图,该流程包括:
S502,平台通过API网关,将仓库中程序传输到节点代理网关;
S504,平台下发命令到节点服务管理,安装并运行该服务:
i. 节点服务管理将接收到的程序包安装到节点中;
ii. 节点服务管理解析描述文件,并写入信息存储服务中;
iii. 节点服务管理根据描述文件内容,启动业务服务;
iv. 节点服务管理通知服务检测,监测业务服务状态;
v. 服务检测从信息存储服务获取到新业务服务的接口描述,根据描述内容定期监测服务状态;
vi. 服务检测定期将服务状态写入信息存储服务中;
S506,节点服务管理定期从信息存储服务中获取状态信息,并上报管理平台:
i. 节点服务管理定期从信息存储服务中获取状态信息;
ii. 节点服务管理将获取到所有业务服务状态信息打包压缩;
iii. 节点服务管理通过代理网关,将压缩后的信息上报给管理平台。
具体实施例4:异常检测和恢复
4.1 管理平台和节点异常检测和恢复:
a)节点业务服务状态获取和保存:
i. 检测服务定时监测所有业务服务;
ii. 检测服务定时将服务状态保存到信息存储。
b)平台和节点心跳交互:
i. 节点服务管理从信息库中获取业务服务状态;
ii. 节点服务管理通过代理网关定时向平台的接入网关发送心跳,心跳信息包含:
①业务服务的状态(接口、异常以及业务状态);
②节点的状态(网络、系统以及硬件状态);
iii. 平台接入网关返回ACK给节点服务管理(由代理网关中转),ACK信息包含:
①对异常服务的处理方式;
②下次心跳交互的时间间隔(使不同节点有不同的心跳间隔,用于满足不同业务服务需求);
iv. 平台接入网关更新信息存储服务中该节点的心跳状态(时间戳)。
c)节点内部业务心跳交互:
i. 节点服务管理将所有业务服务信息写入信息存储中;
ii. 服务检测从信息存储服务获取到业务服务的接口描述,并根据描述内容定期监测服务状态;
iii. 服务检测定期将服务状态写入信息存储服务中。
d)节点内业务服务恢复:
i. 服务检测根据业务服务提供的接口进行调用,并获取返回结果;
ii. 通过描述文件信息,检查返回结果:
①返回异常:写入信息存储中并通知节点服务管理;
②返回正常:更新信息存储中状态时间戳;
③返回超时:根据描述文件信息等待超时次数,超过次数的做异常处理;
iii. 节点服务管理根据描述文件中的异常处理模式处理该业务服务,如:
①重启业务服务;
②上报给管理平台,并等待平台下发处理任务;
③用户自定义的处理规则(多次重启失败上报平台或者重启直到成功等)。
e)跨节点业务服务恢复:
i. 平台的业务管理服务根据节点的心跳时间戳,判断节点是否异常;
ii. 业务管理服务将异常节点设置为不可使用、不可调度;
iii. 业务管理服务根据之前节点上运行的业务服务启动恢复流程:
①业务管理服务从信息仓库中获取到异常节点的所有业务服务信息;
②业务管理服务从服务信息中获取到异常处理信息(服务描述文件);
③需要跨节点恢复的业务服务,启动运行业务服务流程(重新选择空闲节点)。
在上述实施例中,通过调用业务服务的API接口,并根据描述文件对比接口反馈情况,完成对业务服务的心跳和运行状态检测;通过解析服务描述文件,在集群中运行一定冗余数量的业务服务;以及在监测到服务异常后,会根据描述文件启动异常处理流程;此外,节点内收集所有业务心跳,并压缩打包后上传到集群中,大大减少了集群业务服务的心跳风暴。
通过本发明实施例,能够检测业务服务运行状态,也能够支持业务服务的冗余,还能够在检测到节点异常后将服务迁移到空闲节点(业务恢复),以及能够支持大规模集群节点和业务服务。
相对于相关技术,本发明实施例具有以下优点:1)可以检测实际业务服务的运行状态;2)可以冗余异常的实际业务服务;3)可以恢复(本节点或者跨节点)异常的实际业务服务;4)可解决集群在大规模服务和节点的情况下,心跳风暴的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种运行状态的确定装置,图6是根据本发明实施例的一种运行状态的确定装置的结构框图,如图6所示,该装置包括:
确定模块602,用于在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
第一处理模块604,用于对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
上报模块606,用于将包含所述第二状态信息的心跳信息上报至目标平台。
在一个可选的实施例中,上述上报模块606包括:第一上报单元,用于按照第一预定周期将所述心跳信息上报至所述目标平台,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
在一个可选的实施例中,上述装置还包括:第二接收模块,用于在将包含所述第二状态信息的心跳信息上报至目标平台之后,接收由所述目标平台返回的目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示所述目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
在一个可选的实施例中,上述第一处理模块604包括:第一处理单元,用于对多个所述第一状态信息进行打包和/或压缩处理,以得到所述第二状态信息。
在一个可选的实施例中,上述装置还包括:安装模块,用于在检测所述目标业务中包括的多个子业务的运行状态之前,在接收到所述目标平台发送的目标业务程序包的情况下,将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;启动模块,用于基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
在一个可选的实施例中,上述启动模块包括:第一解析单元,用于解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示启动的所述目标业务中所述子业务的第一启动数量;启动单元,用于基于所述启动参数及所述第一启动数量启动所述目标业务。
在一个可选的实施例中,上述装置还包括:写入模块,用于在解析所述目标描述文件以获得目标信息之后,将所述目标信息写入第一存储单元中;上述确定模块602包括:第二处理单元,用于通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,其中,所述目标信息中还包括所述目标业务接口信息。
在一个可选的实施例中,上述第二处理单元包括:第一处理子单元,用于针对每个所述子业务,均执行以下操作,以获得所述第一状态信息:通过所述目标检测单元调用所述目标业务接口信息对应的业务接口,以检测所述子业务的运行状态,并获得第一检测结果;所述目标检测单元将所述第一检测结果与目标反馈内容进行比较,以确定所述第一状态信息,其中,所述目标信息中还包括所述目标反馈内容,所述目标反馈内容用于指示业务运行正常或者异常情况的描述内容。
在一个可选的实施例中,上述装置还包括:第一获取模块,用于在基于检测结果确定每个所述子业务的第一状态信息之后,且在确定多个所述第一状态信息中包括有用于指示对应的所述子业务运行异常的第一状态信息的情况下,获取所述目标信息中包括的第二异常处理模式;第二处理模块,用于按照所述第二异常处理模式对发生异常的所述子业务进行处理。
在本实施例中还提供了另一种运行状态的确定装置,图7是根据本发明实施例的另一种运行状态的确定装置的结构框图,如图7所示,该装置包括:
第一接收模块702,用于接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息。
在一个可选的实施例中,上述第一接收模块702包括:第一接收单元,用于接收由所述目标节点控制器按照第一预定周期上报的所述心跳信息,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
在一个可选的实施例中,上述装置还包括:第三处理模块,用于在接收由目标节点控制器上报的心跳信息之前,向所述目标节点控制器发送目标业务程序包,以指示所述目标节点控制器在执行以下操作之后,向目标平台上报所述心跳信息:将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
在一个可选的实施例中,上述第三处理模块包括:第二接收单元,用于接收目标对象上传的所述目标业务程序包;第二解析单元,用于解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示需要启动的节点数量的目标启动数量;第三处理单元,用于在确定所述目标业务程序包对应的所述目标业务未执行的情况下,基于所述目标启动数量确定出一个或多个指定节点,并向一个或多个所述指定节点发送所述目标业务程序包,其中,所述指定节点包括所述目标节点,每个所述指定节点分别对应一个节点控制器,其中,所述目标节点对应的节点控制器为所述目标节点控制器。
在一个可选的实施例中,上述装置还包括:返回模块,用于在接收由目标节点控制器上报的心跳信息之后,基于所述第二状态信息向所述目标节点控制器返回目标应答信息;其中,在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:第一确认应答信息,其中,所述第一确认应答信息用于指示目标平台已接收到所述心跳信息;第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括以下至少之一:第二确认应答信息,其中,所述第二确认应答信息用于指示目标平台已接收到所述心跳信息;第一异常处理模式,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
在一个可选的实施例中,上述装置还包括:第四处理模块,用于在接收由目标节点控制器上报的心跳信息之后,且在基于所述心跳信息确定多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,按照第一异常处理模式对发生异常的所述子业务进行处理,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的。
在一个可选的实施例中,上述第四处理模块包括:获取单元,用于在所述第一异常处理模式为跨节点恢复模式的情况下,获取所述目标节点的第一业务信息,其中,所述第一业务信息用于指示所述目标节点之前运行的所有业务信息,所述第一业务信息包括所述目标业务的信息;迁移单元,用于将所述第一业务信息迁移至第一节点中。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种运行状态的确定方法,其特征在于,包括:
在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
将包含所述第二状态信息的心跳信息上报至目标平台;
其中,在将包含所述第二状态信息的心跳信息上报至所述目标平台之后,所述方法还包括:
接收由所述目标平台返回的目标应答信息;
其中,在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括:
第一异常处理模式,其中,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;
其中,第一异常处理模式包括以下之一:本节点处理模式,跨节点处理模式,混合恢复模式。
2.根据权利要求1所述的方法,其特征在于,将包含所述第二状态信息的心跳信息上报至目标平台,包括:
按照第一预定周期将所述心跳信息上报至所述目标平台,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
3.根据权利要求1所述的方法,其特征在于,
在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:
第一确认应答信息,其中,所述第一确认应答信息用于指示所述目标平台已接收到所述心跳信息;
第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;
在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中还包括以下至少之一:
第二确认应答信息,其中,所述第二确认应答信息用于指示所述目标平台已接收到所述心跳信息;
第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
4.根据权利要求1所述的方法,其特征在于,对多个所述第一状态信息进行预定处理,以得到第二状态信息,包括:
对多个所述第一状态信息进行打包和/或压缩处理,以得到所述第二状态信息。
5.根据权利要求1所述的方法,其特征在于,在检测所述目标业务中包括的多个子业务的运行状态之前,所述方法还包括:
在接收到所述目标平台发送的目标业务程序包的情况下,将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;
基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
6.根据权利要求5所述的方法,其特征在于,基于所述目标业务程序包中包括的目标描述文件启动所述目标业务,包括:
解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示启动的所述目标业务中所述子业务的第一启动数量;
基于所述启动参数及所述第一启动数量启动所述目标业务。
7.根据权利要求6所述的方法,其特征在于,
在解析所述目标描述文件以获得目标信息之后,所述方法还包括:将所述目标信息写入第一存储单元中;
检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,包括:通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,其中,所述目标信息中还包括所述目标业务接口信息。
8.根据权利要求7所述的方法,其特征在于,通过目标节点控制器中包括的目标检测单元从所述第一存储单元中获取目标业务接口信息,基于所述目标业务接口信息检测每个所述子业务的运行状态,以获得多个所述第一状态信息,包括:
针对每个所述子业务,均执行以下操作,以获得所述第一状态信息:
通过所述目标检测单元调用所述目标业务接口信息对应的业务接口,以检测所述子业务的运行状态,并获得第一检测结果;
所述目标检测单元将所述第一检测结果与目标反馈内容进行比较,以确定所述第一状态信息,其中,所述目标信息中还包括所述目标反馈内容,所述目标反馈内容用于指示业务运行正常或者异常情况的描述内容。
9.根据权利要求6所述的方法,其特征在于,在基于检测结果确定每个所述子业务的第一状态信息之后,所述方法还包括:
在确定多个所述第一状态信息中包括有用于指示对应的所述子业务运行异常的第一状态信息的情况下,获取所述目标信息中包括的第二异常处理模式;
按照所述第二异常处理模式对发生异常的所述子业务进行处理。
10.一种运行状态的确定方法,其特征在于,包括:
接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:
在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
其中,在接收由所述目标节点控制器上报的心跳信息之后,所述方法还包括:
基于所述第二状态信息向所述目标节点控制器返回目标应答信息;
其中,在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括:
第一异常处理模式,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;
其中,第一异常处理模式包括以下之一:本节点处理模式,跨节点处理模式,混合恢复模式。
11.根据权利要求10所述的方法,其特征在于,接收由目标节点控制器上报的心跳信息,包括:
接收由所述目标节点控制器按照第一预定周期上报的所述心跳信息,其中,所述心跳信息中还包括所述目标节点的节点状态信息,其中,所述节点状态信息用于指示所述目标节点是否发生异常。
12.根据权利要求10所述的方法,其特征在于,在接收由目标节点控制器上报的心跳信息之前,所述方法还包括:
向所述目标节点控制器发送目标业务程序包,以指示所述目标节点控制器在执行以下操作之后,向目标平台上报所述心跳信息:
将所述目标业务程序包中包括的所述目标业务的程序安装至所述目标节点中;
基于所述目标业务程序包中包括的目标描述文件启动所述目标业务。
13.根据权利要求12所述的方法,其特征在于,向所述目标节点控制器发送目标业务程序包,包括:
接收目标对象上传的所述目标业务程序包;
解析所述目标描述文件以获得目标信息,其中,所述目标信息中包括用于指示启动所述目标业务的启动参数以及用于指示需要启动的节点数量的目标启动数量;
在确定所述目标业务程序包对应的所述目标业务未执行的情况下,基于所述目标启动数量确定出一个或多个指定节点,并向一个或多个所述指定节点发送所述目标业务程序包,其中,所述指定节点包括所述目标节点,每个所述指定节点分别对应一个节点控制器,其中,所述目标节点对应的节点控制器为所述目标节点控制器。
14.根据权利要求10所述的方法,其特征在于,
在所述第二状态信息中包括的多个所述第一状态信息均用于指示对应的子业务运行正常的情况下,所述目标应答信息中包括以下至少之一:
第一确认应答信息,其中,所述第一确认应答信息用于指示目标平台已接收到所述心跳信息;
第一心跳间隔时长,其中,所述第一心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔;
在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中还包括以下至少之一:
第二确认应答信息,其中,所述第二确认应答信息用于指示目标平台已接收到所述心跳信息;
第二心跳间隔时长,其中,所述第二心跳间隔时长用于指示下一次发送所述心跳信息的时间间隔。
15.根据权利要求10所述的方法,其特征在于,在接收由目标节点控制器上报的心跳信息之后,所述方法还包括:
在基于所述心跳信息确定多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,按照第一异常处理模式对发生异常的所述子业务进行处理,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的。
16.根据权利要求15所述的方法,其特征在于,按照第一异常处理模式对发生异常的所述子业务进行处理包括:
在所述第一异常处理模式为跨节点恢复模式的情况下,获取所述目标节点的第一业务信息,其中,所述第一业务信息用于指示所述目标节点之前运行的所有业务信息,所述第一业务信息包括所述目标业务的信息;
将所述第一业务信息迁移至第一节点中。
17.一种运行状态的确定装置,其特征在于,包括:
确定模块,用于在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
第一处理模块,用于对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
上报模块,用于将包含所述第二状态信息的心跳信息上报至目标平台;
其中,上述装置还包括:第二接收模块,用于在将包含所述第二状态信息的心跳信息上报至目标平台之后,接收由所述目标平台返回的目标应答信息;
其中,在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括:
第一异常处理模式,其中,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;
其中,第一异常处理模式包括以下之一:本节点处理模式,跨节点处理模式,混合恢复模式。
18.一种运行状态的确定装置,其特征在于,包括:
第一接收模块,用于接收由目标节点控制器上报的心跳信息,其中,所述心跳信息中包含第二状态信息,所述第二状态信息是由所述目标节点控制器在执行以下操作后所获得的:
在确定目标节点已启动目标业务的情况下,检测所述目标业务中包括的多个子业务的运行状态,并基于检测结果确定每个所述子业务的第一状态信息,其中,所述第一状态信息用于指示对应的所述子业务的运行是否发生异常;
对多个所述第一状态信息进行预定处理,以得到第二状态信息,其中,所述第二状态信息中包括有多个所述第一状态信息;
其中,上述装置还包括:返回模块,用于在接收由目标节点控制器上报的心跳信息之后,基于所述第二状态信息向所述目标节点控制器返回目标应答信息;
其中,在所述第二状态信息中包括的多个所述第一状态信息中存在有用于指示对应的子业务运行异常的第一状态信息的情况下,所述目标应答信息中包括:
第一异常处理模式,其中,所述第一异常处理模式是在对目标业务程序包中包括的目标描述文件进行解析后所获得的,所述目标业务程序包是由目标对象上传至目标平台的,所述第一异常处理模式用于指示在所述第一状态信息所指示的所述子业务的运行发生异常的情况下对所述子业务的处理方式;
其中,第一异常处理模式包括以下之一:本节点处理模式,跨节点处理模式,混合恢复模式。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至9或10至16任一项中所述的方法的步骤。
20.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至9或10至16任一项中所述的方法的步骤。
CN202210941482.5A 2022-08-08 2022-08-08 运行状态的确定方法、装置、存储介质及电子装置 Active CN115002013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210941482.5A CN115002013B (zh) 2022-08-08 2022-08-08 运行状态的确定方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210941482.5A CN115002013B (zh) 2022-08-08 2022-08-08 运行状态的确定方法、装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN115002013A CN115002013A (zh) 2022-09-02
CN115002013B true CN115002013B (zh) 2022-12-06

Family

ID=83022923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210941482.5A Active CN115002013B (zh) 2022-08-08 2022-08-08 运行状态的确定方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN115002013B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797001B (zh) * 2022-11-14 2024-01-26 首约科技(北京)有限公司 报警方法、装置、电子设备及存储介质
CN116089223B (zh) * 2023-03-14 2023-06-16 联动优势电子商务有限公司 一种业务运行监测系统以及监测方法
CN117389725A (zh) * 2023-10-12 2024-01-12 中科驭数(北京)科技有限公司 服务数据节点迁移方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656557A (zh) * 2016-10-31 2017-05-10 网易(杭州)网络有限公司 业务状态处理方法和装置
CN109818787A (zh) * 2019-01-21 2019-05-28 苏州科达科技股份有限公司 业务异常检测方法、装置及存储介质
CN110705893A (zh) * 2019-10-11 2020-01-17 腾讯科技(深圳)有限公司 一种业务节点管理方法、装置、设备以及存储介质
CN111694743A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 业务系统的检测方法及装置
WO2022001313A1 (zh) * 2020-06-30 2022-01-06 展讯通信(上海)有限公司 智能设备及其wcn模块异常恢复的系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389815B (zh) * 2018-04-18 2023-09-12 阿里巴巴集团控股有限公司 任务处理方法、装置及系统
US10868709B2 (en) * 2018-09-10 2020-12-15 Oracle International Corporation Determining the health of other nodes in a same cluster based on physical link information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656557A (zh) * 2016-10-31 2017-05-10 网易(杭州)网络有限公司 业务状态处理方法和装置
CN109818787A (zh) * 2019-01-21 2019-05-28 苏州科达科技股份有限公司 业务异常检测方法、装置及存储介质
CN110705893A (zh) * 2019-10-11 2020-01-17 腾讯科技(深圳)有限公司 一种业务节点管理方法、装置、设备以及存储介质
CN111694743A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 业务系统的检测方法及装置
WO2022001313A1 (zh) * 2020-06-30 2022-01-06 展讯通信(上海)有限公司 智能设备及其wcn模块异常恢复的系统和方法

Also Published As

Publication number Publication date
CN115002013A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN115002013B (zh) 运行状态的确定方法、装置、存储介质及电子装置
US20190324797A1 (en) Task processing method, apparatus, and system
CN107704360B (zh) 监控数据的处理方法、设备、服务器及存储介质
CN110830283B (zh) 故障检测方法、装置、设备和系统
EP1697843B1 (en) System and method for managing protocol network failures in a cluster system
CN111953566B (zh) 一种基于分布式故障监控的方法和虚拟机高可用系统
CN102244669B (zh) 一种堆叠设备中软件升级的方法和堆叠设备
CN112328372A (zh) 一种kubernetes节点自愈方法和系统
CN107528705B (zh) 故障处理方法及装置
JP6421516B2 (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
CN113489149A (zh) 基于实时状态感知的电网监控系统业务主节点选取方法
CN110620798A (zh) Ftp连接的控制方法、系统、设备和存储介质
CN110224872B (zh) 一种通信方法、装置及存储介质
WO2024036043A1 (en) Method and apparatus for controlling electronic devices
CN115640169A (zh) 保障主集群停止提供服务的方法、系统、设备和存储介质
CN113824595B (zh) 链路切换控制方法、装置和网关设备
US20230289203A1 (en) Server maintenance control device, server maintenance system, server maintenance control method, and program
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
CN107920347B (zh) 一种终端设备的数据处理方法及系统、设备
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN110995463B (zh) Ap自恢复的方法及装置
JP2015057685A (ja) 監視システム
US20240056349A1 (en) Method and apparatus for controlling electronic devices
WO2023228233A1 (ja) 障害発生時における自動復旧のためのネットワーク管理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant