CN109697078A - 非高可用性组件的修复方法、大数据集群和容器服务平台 - Google Patents

非高可用性组件的修复方法、大数据集群和容器服务平台 Download PDF

Info

Publication number
CN109697078A
CN109697078A CN201811506060.5A CN201811506060A CN109697078A CN 109697078 A CN109697078 A CN 109697078A CN 201811506060 A CN201811506060 A CN 201811506060A CN 109697078 A CN109697078 A CN 109697078A
Authority
CN
China
Prior art keywords
component
reparation
event
service platform
event information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811506060.5A
Other languages
English (en)
Other versions
CN109697078B (zh
Inventor
尹正军
穆纯进
马骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201811506060.5A priority Critical patent/CN109697078B/zh
Publication of CN109697078A publication Critical patent/CN109697078A/zh
Application granted granted Critical
Publication of CN109697078B publication Critical patent/CN109697078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及一种非高可用性组件的修复方法、大数据集群、容器服务平台、系统及存储介质。其中,该方法包括:大数据集群将事件信息同步至容器服务平台,响应于非HA组件发生故障事件,从容器服务平台获取修复非HA组件对应的修复镜像地址,根据修复镜像地址从容器服务平台获取修复镜像文件,根据修复镜像文件对非HA组件进行修复处理。通过本实施例提供的技术方案,避免了现有技术中存在基于运维人员的手工操作,对于不同故障的响应时间无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的问题的技术问题,实现了快速且精准的对非HA组件是否发生故障进行判断,从而高效且准确的对发生故障的非HA组件进行修复的技术效果。

Description

非高可用性组件的修复方法、大数据集群和容器服务平台
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种非高可用性组件的修复方法、大数据集群、容器服务平台、系统及存储介质。
背景技术
随着互联网技术的不断发展,大数据平台有了新的发展和突破。
在现有技术中,大数据平台的管理节点的规模可能会是成百上千。大数据集群中按照是否高可用可将组件分为高可用组件(HA组件)和非高可用组件(非HA组件)。当大数据集群中的组件发生故障后,故障信息由监控模块采集到并报警,触发工单推送至一线运维人员,进行故障定位和恢复,如果问题较为复杂,进一步推送至二线运维人员进行排障处理。
发明人在实现本发明的过程中,发现通过现有技术中的方案至少存在:基于运维人员的手工操作,对于不同故障的响应时间无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的问题。
发明内容
本发明所要解决的技术问题是针对现有技术中所存在的上述缺陷,提供一种非高可用性组件的修复方法、大数据集群、容器服务平台、系统及存储介质,用以解决现有技术中存在基于运维人员的手工操作,对于不同故障的响应时间无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的问题。
根据本发明实施例的一个方面,本发明实施例提供了一种非高可用性组件的修复方法,应用于大数据集群,所述方法包括:
对非高可用性HA组件的事件信息进行监测,并将所述事件信息同步至容器服务平台;
响应于所述非HA组件发生故障事件,从所述容器服务平台获取修复所述非HA组件对应的修复镜像地址;
根据所述修复镜像地址从所述容器服务平台获取修复镜像文件;
根据所述修复镜像文件对所述非HA组件进行修复处理。
进一步地,所述根据所述修复镜像文件对所述非HA组件进行修复处理,具体包括:
停止所述非HA组件的进程;
基于所述非HA组件的当前部署环境对所述非HA组件进行预修复;
启动所述修复镜像文件,以便对所述非HA组件进行修复,并监听日志输出。
根据本发明实施例的另一个方面,本发明实施例还提供了一种大数据集群,所述大数据集群包括:集群监测模块、集群获取模块和集群修复模块,其中,
所述集群监测模块用于:对非高可用性HA组件的事件信息进行监测,并将所述事件信息同步至容器服务平台;
所述集群获取模块用于:响应于所述非HA组件发生故障事件,从所述容器服务平台获取修复所述非HA组件对应的修复镜像地址,并根据所述修复镜像地址从所述容器服务平台获取修复镜像文件;
所述集群修复模块用于:根据所述修复镜像文件对所述非HA组件进行修复处理。
进一步地,所述集群修复模块具体用于:停止所述非HA组件的进程;基于所述非HA组件的当前部署环境对所述非HA组件进行预修复;启动所述修复镜像文件,以便所述集群修复模块对所述非HA组件进行修复,并由所述集群监听模块监听日志输出。
根据本发明实施例的另一个方面,本发明实施例还提供了一种非高可用性组件的修复方法,应用于容器服务平台,所述方法还包括:
在接收到所述大数据集群同步的事件信息后,响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
进一步地,所述方法还包括:
从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
根据所述事件信息,调用与所述非HA组件对应的修复策略;
基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
根据本发明实施例的另一个方面,本发明实施例还提供了一种容器服务平台,所述容器服务平台包括:容器更新模块,其中,
所述容器更新模块用于:在接收到所述大数据集群同步的事件信息后,响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
进一步地,所述容器服务平台还包括:容器获取模块、容器调用模块和容器生成模块,其中,
所述容器获取模块用于:从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
所述容器调用模块还用于:根据所述事件信息调用与所述非HA组件对应的修复策略;
所述容器生成模块还用于:基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
根据本发明实施例的另一个方面,本发明实施例还提供了一种非高可用性组件的修复方法,所述方法包括:
对非高可用性HA组件的事件信息进行监测;
响应于所述非HA组件发生故障事件,获取修复所述非HA组件对应的修复镜像地址;
根据所述修复镜像地址获取修复镜像文件;
根据所述修复镜像文件对所述非HA组件进行修复处理。
进一步地,所述根据所述修复镜像文件对所述非HA组件进行修复处理,具体包括:
响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
进一步地,所述方法还包括:
从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
根据所述事件信息,调用与所述非HA组件对应的修复策略;
基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
根据本发明实施例的另一个方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
根据本发明实施例的另一个方面,本发明实施例还提供了一种非高可用性组件的修复系统,所述系统包括:监测模块,获取模块和修复模块,其中,
所述监测模块用于:对非高可用性HA组件的事件信息进行监测;
所述获取模块用于:响应于所述非HA组件发生故障事件,获取修复所述非HA组件对应的修复镜像地址,并根据所述修复镜像地址获取修复镜像文件;
所述修复模块用于:根据所述修复镜像文件对所述非HA组件进行修复处理。
进一步地,所述系统还包括更新模块,其中,
所述更新模块用于:响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
进一步地,所述系统还包括:调用模块和生成模块,其中,
所述获取模块还用于:从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
所述调用模块用于:根据所述事件信息调用与所述非HA组件对应的修复策略;
生成模块用于:基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
本发明实施例的有益效果在于,由于采用了大数据集群对非高可用性HA组件的事件信息进行监测,并将事件信息同步至容器服务平台,响应于非HA组件发生故障事件,从容器服务平台获取修复非HA组件对应的修复镜像地址,根据修复镜像地址从容器服务平台获取修复镜像文件,根据修复镜像文件对非HA组件进行修复处理的技术方案,避免了现有技术中存在基于运维人员的手工操作,对于不同故障的响应时间无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的问题的技术问题,实现了快速且精准的对非HA组件是否发生故障进行判断,从而高效且准确的对发生故障的非HA组件进行修复的技术效果。
附图说明
图1为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图;
图2为本发明实施例提供的一种大数据集群的模块示意图;
图3为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图;
图4为本发明实施例提供的一种容器服务平台的模块示意图;
图5为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图;
图6为本发明实施例提供的一种非高可用性组件的修复系统的模块示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例提供了一种非高可用性组件的修复方法和系统、存储介质。
根据本发明实施例的一个方面,本发明实施例提供了一种非高可用性组件的修复方法,应用于大数据集群。
请参阅图1,图1为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图。
如图1所示,该方法包括:
S1:大数据集群对非高可用性HA组件的事件信息进行监测,并将事件信息同步至容器服务平台。
在该步骤中,大数据集群对非HA组件的事件信息进行监测时,可通过实时监测,也可通过设置时间间隔,每隔该时间间隔就对时间信息进行一次监测。具体可根据实际情况进行选择监测的方式,以及监测的频率。
具体地,可通过在大数据集群中内设采集模块的方式,由采集模块对每个非HA组件的事件信息进行监测,并将事件信息发送至容器服务平台,以实现将事件信息同步至容器服务平台。
当然,也可通过在大数据集群中内设采集模块,并内设或外设监控模块,且监控模块可同时对多个大数据集群的事件信息进行监控的方式。
如:当采用内设采集模块和监控模块时,则采集模块对每个非HA组件的事件信息进行采集,并发送至监控模块,由监控模块对采集信息进行监控,并将事件信息发送至容器服务平台。
如:当采用内设采集模块和外设监控模块时,则每个大数据集群中的采集模块均对其对应的大数据集群中的每个非HA组件的事件信息进行采集,并将其对应的事件信息发送至监控模块,由监控模块对每个大数据集群中的事件信息进行监控,并将事件信息发送至容器服务平台。
当然,还可以通过内设采集模块和内设同步模块的方式实现。当然,还可以通过内设采集模块和外设同步模块的方式实现。当然,还可以通过内设采集模块、监控模块和同步模块的方式实现。当然,还可以通过内设采集模块、监控模块,外设同步模块的方式实现。当然,还可以通过内设采集模块、同步模块,外设监控模块的方式实现。具体步骤请参照上述示例,此处不再赘述。
S2:响应于非HA组件发生故障事件,大数据集群从容器服务平台获取修复非HA组件对应的修复镜像地址。
其中,当监测到非HA组件发生故障事件时,则通过调用状态同步接口,基于状态同步接口将故障事件亦同步至容器服务平台。
可以理解的是,当非HA组件发生故障事件时,则说明非HA组件的事件信息发生了改变,即状态变更事件。也就是说,基于监测事件信息,可监测到非HA组件是否正常运行,若非HA组件为正常运行的组件,则说明非HA组件并未发生故障。如非HA组件为非正常运行的组件,则说明非HA组件发生了故障事件。
S3:大数据集群根据修复镜像地址从容器服务平台获取修复镜像文件。
S4:大数据集群根据修复镜像文件对非HA组件进行修复处理。
具体的,可在大数据集群中设置组件修复代理,通过组件修复代理对非HA组件进行修复处理。
在现有技术中,当非HA组件发生故障时,是通过人工的方式进行维护。而在本实施例中,由大数据集群从容器服务平台中获取修复非HA组件的修复镜像地址,以便通过该镜像地址找到修复镜像文件,从而基于修复镜像文件对非HA组件进行修复。因此,本实施例实现了节约人工成本,提高工作效率的技术效果。
在一种可能实现的技术方案中,若在S2中,大数据集群并没有得到非HA组件对应的修复镜像地址。即容器服务平台还没能生成修复镜像地址以及修复镜像文件时,则该方法还包括:
S2-1:大数据集群基于事件信息向容器服务平台发送监控请求消息,以便容器服务平台基于监控请求信息和事件信息生成修复镜像文件和修复镜像地址。
也就是说,通过容器服务平台返回最新的组件修复镜像文件地址,可确保修复镜像文件推送的实时性效果。
大数据集群通过集群监控模块向容器服务平台发送包括故障修复的监控请求信息,以便容器服务平台在生成修复镜像文件后,推送至大数据集群。当然,也可将生成的修复镜像地址推送至大数据集群,以便大数据集群基于修复镜像地址获取修复镜像文件。
在一种可能实现的技术方案中,S4具体包括:
S4-1:大数据集群停止非HA组件的进程。
在该步骤中,通过停止非HA组件的进程,可防止出现多个实例进程共存的现象。
S4-2:大数据集群基于非HA组件的当前部署环境对非HA组件进行预修复。具体地,如:根据组件当前部署环境(物理机、虚拟机、容器)执行预修复流程:
容器:确认绑定IP、端口等配置信息,删除容器实例。
物理机:确认绑定IP、端口等配置信息,停止故障进程。
虚拟机:确认绑定IP、端口等配置信息,停止故障进程。
S4-3:大数据集群修复镜像文件,以便对非HA组件进行修复,并监听日志输出。
具体地,如:
容器:确认绑定IP、端口等配置信息,启动容器实例。
物理机:确认绑定IP、端口等配置信息,启动组件主进程。
虚拟机:确认绑定IP、端口等配置信息,启动组件主进程。
当然,也可以将S4-1至S4-5组成与S4并行的步骤。即,可在获取到修复镜像文件后,直接根据修复镜像文件进行修复。但为了确保修复的可靠性和精准性,通过执行S4-1至S4-5的方案。
在一种可能实现的技术方案中,该方法还包括:
S5:大数据集群启动针对组件进程的定时巡检脚本。
根据本发明实施例的另一个方面,本发明实施例还提供了一种大数据集群。
请参阅图2,图2为本发明实施例提供的一种大数据集群的模块示意图。
如图2所示:该大数据集群包括:集群监测模块、集群获取模块和集群修复模块,其中,
集群监测模块用于:对非高可用性HA组件的事件信息进行监测,并将事件信息同步至容器服务平台。
集群获取模块用于:响应于非HA组件发生故障事件,从容器服务平台获取修复非HA组件对应的修复镜像地址,并根据修复镜像地址从容器服务平台获取修复镜像文件。
集群修复模块用于:根据修复镜像文件对非HA组件进行修复处理。
进一步地,集群修复模块具体用于:停止非HA组件的进程。基于非HA组件的当前部署环境对非HA组件进行预修复。启动修复镜像文件,以便集群修复模块对非HA组件进行修复,并由集群监听模块监听日志输出。
根据本发明实施例的另一个方面,本发明实施例还提供了一种非高可用性组件的修复方法,应用于容器服务平台。
请参阅图3,图3为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图。
如图3所示,该方法还包括:
S10:响应于非HA组件发生安装事件和/或卸载事件,容器服务平台对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,预存的非HA组件列表包括非HA组件的所述事件信息,事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
在该步骤中,当大数据集群对事件信息进行监测,得到有新的非HA组件加入时,则说明非HA组件发生了安装时间,则将该安装事件对应的事件信息发送至容器服务平台。如:
大数据集群中共有M个非HA组件,则容器服务平台中有包含M个非HA组件的事件信息的非HA组件列表。此时监测到新增一个非HA组件,则将该新增的非HA组件的事件信息发送至容器服务平台,由容器服务平台对新增的非HA组件的事件信息进行增添处理,即将新增的事件信息加入非HA组件列表中。
当然,若大数据集群中共有N个非HA组件,则容器服务平台中有包含N个非HA组件的事件信息的非HA组件列表。此时监测到减少一个非HA组件,则将该减少的非HA组件的事件信息发送至容器服务平台,由容器服务平台对减少的非HA组件的事件信息进行去除处理,即将非HA组件列表中该非HA组件的事件信息进行删除。
通过及时调整非HA组件列表,可实现容器服务平台及时获悉大数据集群中非HA组件的动态,从而实现精准且高效的实现修复。
其中,事件信息可包含但不限于以下相关的字段:组件名称、运行时环境类别(物理机、虚拟化、容器实例)、系统资源占用信息(CPU、内存、磁盘IO、网络IO等)、部署时间、最近一次访问时间、卸载时间、进程ID、进程启动和停止信息、用户权限信息、日志目录信息、JVM配置参数、系统网络连接状态信息、组件配置信息、运行时依赖库信息、依赖缓存配置参数、依赖数据库配置参数、绑定IP和端口配置参数、jstack信息、jmap信息、其他运行时维护的有状态类的信息(比如客户端会话连接信息)等。
在当大数据集群监测到非HA组件发生故障事件时,可通过调用状态同步接口,基于状态同步接口将故障事件亦同步至容器服务平台。同理,在当大数据集群监测到非HA组件发生安装事件时,则可通过调用注册接口,基于注册接口将安装事件亦同步至容器服务平台。同理,在当大数据集群监测到非HA组件发生卸载事件时,则可通过调用卸载接口,基于卸载接口将卸载事件亦同步至容器服务平台。
结合图3可知,在一种可能实现的技术方案中,该方法还包括:
S20:容器服务平台从目标非HA组件列表中获取非HA组件的事件信息。
S30:容器服务平台根据事件信息调用与非HA组件对应的修复策略。
S40:容器服务平台基于修复策略和故障事件,生成修复镜像地址和修复镜像文件。
在本实施例中,可在容器服务平台中基于不同的非HA组件创建不同的修复策略模块。不同的修复策略模块对应不同的策略模块接口。当第一非HA组件发生故障事件时,则基于第一非HA组件对应的第一策略模块接口调用第一修复策略模块,以便从第一修复策略模块中获取第一修复策略。如:大数据集群默认管理端组件未实现HA机制,修复策略可包括其连接会话的保持策略、前端负载均衡和故障转移策略、独立进程所支撑最大连接数策略等相关配置。
具体地:容器服务平台根据修复策略和故障事件,可调用容器(比如Docker)生成镜像的接口(比如docker build命令),初始化或更新相关的修复镜像文件和修复镜像地址。
在容器服务平台中包括本地容器镜像仓库(比如Harbor),将修复镜像文件存储到本地容器镜像仓库(比如Harbor)中。同时分析出不同非HA组件对应事件消息中间件和持久化层依赖的细节,进而确定修复镜像文件对应的消息中间件和存储解决方案。
在一种可能实现的技术方案中,为进一步提升修复镜像文件构建效率,镜像仓库可以提前预置一部分基础镜像,比如会话连接保持、负载均衡和故障转移的通用中间件镜像,以方便后续快速构建完整的修复镜像文件解决方案。
其中,预置修复策略说明如下:
容器服务平台针对不同的非HA组件,提前预置对应的修复策略,具体可包括但不限于:连接会话保持策略、负载均衡与故障转移策略、限流熔断策略、最大连接数策略、依赖消息中间件策略、实例网络拓扑策略、依赖缓存中间件策略、依赖数据库中间件策略、实例部署约束策略、进程管理策略、JVM配置策略、仿真测试执行策略、幂等操作策略、流控分发策略、线程池默认配置策略等。
其中,本地容器镜像仓库说明如下:
本地容器镜像仓库主要管理组件修复的镜像文件,可提前预置一部分基础镜像,具体可包括但不限于:Linux OS镜像、MySQL镜像、Nginx镜像、node镜像、Golang镜像、MongoDB镜像、RabbitMQ镜像、Redis镜像、PostgreSQL镜像、LVS镜像、Kafka镜像、SpringCloud基础镜像、Eureka镜像、Hystrix镜像、Turbine镜像、zipkin镜像、Tomcat session镜像、HAProxy镜像、zookeeper镜像等。
根据本发明实施例的另一个方面,本发明实施例还提供了一种容器服务平台。
请参阅图4,图4为本发明实施例提供的一种容器服务平台的模块示意图。
如图4所示,该容器服务平台包括:容器更新模块,其中,
容器更新模块用于:在接收到大数据集群同步的事件信息后,响应于非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,预存的非HA组件列表包括非HA组件的事件信息,事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
结合图4可只,在一种可能实现的技术方案中,该容器服务平台还包括:容器获取模块、容器调用模块和容器生成模块,其中,
容器获取模块用于:从目标非HA组件列表中获取非HA组件的事件信息。
容器调用模块还用于:根据事件信息调用与非HA组件对应的修复策略。
容器生成模块还用于:基于修复策略和故障事件,生成修复镜像地址和修复镜像文件。
根据本发明实施例的一个方面,本发明实施例提供了一种非高可用性组件的修复方法。
请参阅图5,图5为本发明实施例提供的一种非高可用性组件的修复方法的流程示意图。
如图5所示,该方法包括:
S100:对非高可用性HA组件的事件信息进行监测。
S200:响应于非HA组件发生故障事件,获取修复非HA组件对应的修复镜像地址。
当非HA组件为一个时,则对该HA组件进行监测。当非HA组件为多个时,则同时对多个非HA组件进行监测。其中,当非HA组件为多个时,可通过并行机制对多个非HA组件进行监测。即,对应于每一个非HA组件均设置一个监测模块,每个监测模块都对其对应的非HA组件的事件信息进行监测。当然,也可通过对设置一个监测模块,而对每个非HA组件进行标识,基于监测到的标识确定具体某个非HA组件出现了故障事件,需要修复。
不同的非HA组件,对应的事件信息并不相同,对应的修复方法也并不相同。当某个非HA组件出现了故障,即存在故障事件时,则获取该非HA组件对应的修复镜像地址。
S300:根据修复镜像地址获取修复镜像文件。
S400:根据修复镜像文件对非HA组件进行修复处理。
通过本实施例提供的方案,避免了现有技术中依赖运维人员的手工操作,对于不同故障的响应事件无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的弊端,实现了快速且精准的对非HA组件是否发生故障进行判断,从而高效且准确的对发生故障的非HA组件进行修复的技术效果。
在一种可能实现的技术方案中,该方法还包括:
S500:响应于非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,预存的非HA组件列表包括非HA组件的事件信息,事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
需要说明的是,在对事件信息进行监测时,不仅可以监测到各非HA组件是否发生故障,也能监测到某非HA组件的加入,或者某非HA组件的退出。
在该步骤中,当基于事件信息获悉某非HA组件加入时,即存在安装事件时,则对预存的非HA组件列表进行更新处理。
同理,当基于事件信息获悉某非HA组件退出时,即存在卸载事件时,则也对预存的非HA组件列表进行更新处理。
其中,事件信息可包含但不限于以下相关的字段:组件名称、运行时环境类别(物理机、虚拟化、容器实例)、系统资源占用信息(CPU、内存、磁盘IO、网络IO等)、部署时间、最近一次访问时间、卸载时间、进程ID、进程启动和停止信息、用户权限信息、日志目录信息、JVM配置参数、系统网络连接状态信息、组件配置信息、运行时依赖库信息、依赖缓存配置参数、依赖数据库配置参数、绑定IP和端口配置参数、jstack信息、jmap信息、其他运行时维护的有状态类的信息(比如客户端会话连接信息)等。
通过本实施例提供的方案,可及时对非HA组件列表进行更新处理,以便及时对新加入的非HA组件进行相应的监测,实现了监测的全面性和准确性。并不再对已经卸载的非HA组件进行监测,实现了节约资源,降低损耗的技术效果。
在一种可能实现的技术方案中,该方法还包括:
S600:从目标非HA组件列表中获取非HA组件的事件信息。
S700:根据事件信息,调用与非HA组件对应的修复策略。
S800:基于修复策略和故障事件,生成修复镜像地址和修复镜像文件。
根据本发明实施例的另一个方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
根据本发明实施例的另一个方面,本发明实施例提供了一种非高可用性组件的修复系统。
请参阅图6,图6为本发明实施例提供的一种非高可用性组件的修复系统的模块示意图。
如图6所示,该系统包括:监测模块,获取模块和修复模块,其中,
监测模块用于:对非高可用性HA组件的事件信息进行监测。
获取模块用于:响应于非HA组件发生故障事件,获取修复非HA组件对应的修复镜像地址,并根据修复镜像地址获取修复镜像文件。
修复模块用于:根据修复镜像文件对非HA组件进行修复处理。
在一种可能实现的技术方案中,该系统还包括更新模块,其中,
更新模块用于:响应于非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,预存的非HA组件列表包括非HA组件的所述事件信息,事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
在一种可能实现的技术方案中,该系统还包括:调用模块和生成模块,其中,
获取模块还用于:从目标非HA组件列表中获取非HA组件的事件信息。
调用模块用于:根据事件信息,调用与非HA组件对应的修复策略。
生成模块用于:基于修复策略和故障事件,生成修复镜像地址和修复镜像文件。
本发明实施例通过对非高可用性HA组件的事件信息进行监测,响应于非HA组件发生故障事件,获取修复非HA组件对应的修复镜像地址,根据修复镜像地址获取修复镜像文件,根据修复镜像文件对非HA组件进行修复处理的技术方案,避免了现有技术中存在基于运维人员的手工操作,对于不同故障的响应时间无法保证,因此组件故障对于业务的影响无法预估,最终影响对外提供的服务的问题的技术问题,实现了快速且精准的对非HA组件是否发生故障进行判断,从而高效且准确的对发生故障的非HA组件进行修复的技术效果。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
还应理解,在本发明各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种非高可用性组件的修复方法,应用于大数据集群,其特征在于,所述方法包括:
对非高可用性HA组件的事件信息进行监测,并将所述事件信息同步至容器服务平台;
响应于所述非HA组件发生故障事件,从所述容器服务平台获取修复所述非HA组件对应的修复镜像地址;
根据所述修复镜像地址从所述容器服务平台获取修复镜像文件;
根据所述修复镜像文件对所述非HA组件进行修复处理。
2.根据权利要求1所述的非高可用性组件的修复方法,其特征在于,所述根据所述修复镜像文件对所述非HA组件进行修复处理,具体包括:
停止所述非HA组件的进程;
基于所述非HA组件的当前部署环境对所述非HA组件进行预修复;
启动所述修复镜像文件,以便对所述非HA组件进行修复,并监听日志输出。
3.一种大数据集群,其特征在于,所述大数据集群包括:集群监测模块、集群获取模块和集群修复模块,其中,
所述集群监测模块用于:对非高可用性HA组件的事件信息进行监测,并将所述事件信息同步至容器服务平台;
所述集群获取模块用于:响应于所述非HA组件发生故障事件,从所述容器服务平台获取修复所述非HA组件对应的修复镜像地址,并根据所述修复镜像地址从所述容器服务平台获取修复镜像文件;
所述集群修复模块用于:根据所述修复镜像文件对所述非HA组件进行修复处理。
4.一种非高可用性组件的修复方法,应用于容器服务平台,其特征在于,所述方法还包括:
在接收到所述大数据集群同步的事件信息后,响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
5.根据权利要求4所述的非高可用性组件的修复方法,其特征在于,所述方法还包括:
从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
根据所述事件信息,调用与所述非HA组件对应的修复策略;
基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
6.一种容器服务平台,其特征在于,所述容器服务平台包括:容器更新模块,其中,
所述容器更新模块用于:在接收到所述大数据集群同步的事件信息后,响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
7.一种非高可用性组件的修复方法,其特征在于,所述方法包括:
对非高可用性HA组件的事件信息进行监测;
响应于所述非HA组件发生故障事件,获取修复所述非HA组件对应的修复镜像地址;
根据所述修复镜像地址获取修复镜像文件;
根据所述修复镜像文件对所述非HA组件进行修复处理。
8.根据权利要求7所述的非高可用性组件的修复方法,其特征在于,所述方法还包括:
响应于所述非HA组件发生安装事件和/或卸载事件,对预存的非HA组件列表进行更新处理,得到目标非HA组件列表,其中,所述预存的非HA组件列表包括所述非HA组件的所述事件信息,所述事件信息包括:组件名称、环境类别、资源占用信息和配置参数信息中的一种或多种。
9.根据权利要求8所述的非高可用性组件的修复方法,其特征在于,所述方法还包括:
从所述目标非HA组件列表中获取所述非HA组件的所述事件信息;
根据所述事件信息,调用与所述非HA组件对应的修复策略;
基于所述修复策略和所述故障事件,生成所述修复镜像地址和所述修复镜像文件。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求7至9中任一项所述的方法。
11.一种非高可用性组件的修复系统,其特征在于,所述系统包括:监测模块,获取模块和修复模块,其中,
所述监测模块用于:对非高可用性HA组件的事件信息进行监测;
所述获取模块用于:响应于所述非HA组件发生故障事件,获取修复所述非HA组件对应的修复镜像地址,并根据所述修复镜像地址获取修复镜像文件;
所述修复模块用于:根据所述修复镜像文件对所述非HA组件进行修复处理。
CN201811506060.5A 2018-12-10 2018-12-10 非高可用性组件的修复方法、大数据集群和容器服务平台 Active CN109697078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811506060.5A CN109697078B (zh) 2018-12-10 2018-12-10 非高可用性组件的修复方法、大数据集群和容器服务平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811506060.5A CN109697078B (zh) 2018-12-10 2018-12-10 非高可用性组件的修复方法、大数据集群和容器服务平台

Publications (2)

Publication Number Publication Date
CN109697078A true CN109697078A (zh) 2019-04-30
CN109697078B CN109697078B (zh) 2022-02-08

Family

ID=66230452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811506060.5A Active CN109697078B (zh) 2018-12-10 2018-12-10 非高可用性组件的修复方法、大数据集群和容器服务平台

Country Status (1)

Country Link
CN (1) CN109697078B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984396A (zh) * 2019-05-24 2020-11-24 上海擎感智能科技有限公司 一种高可用网络架构的负载均衡方法、系统、介质及设备
CN112817942A (zh) * 2021-02-25 2021-05-18 紫光云技术有限公司 一种数据库批量加入可用性组的方法、电子设备、服务器
CN112988401A (zh) * 2021-05-07 2021-06-18 北京轻松筹信息技术有限公司 进程内信息的收集方法、装置和电子设备
US11379320B2 (en) 2020-07-08 2022-07-05 International Business Machines Corporation Container recovery

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022823A (zh) * 2015-07-20 2015-11-04 陕西红方软件测评实验室有限责任公司 一种基于数据挖掘的云服务性能预警事件生成方法
US20170085419A1 (en) * 2015-09-18 2017-03-23 Le Holdings (Beijing) Co., Ltd. System and method for deploying an application
CN106776212A (zh) * 2016-12-09 2017-05-31 中电科华云信息技术有限公司 容器集群部署多进程应用的监管系统及方法
CN107026760A (zh) * 2017-05-03 2017-08-08 联想(北京)有限公司 一种故障修复方法及监控节点
CN108228170A (zh) * 2017-12-07 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种嵌入式软件构件化定制组装方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022823A (zh) * 2015-07-20 2015-11-04 陕西红方软件测评实验室有限责任公司 一种基于数据挖掘的云服务性能预警事件生成方法
US20170085419A1 (en) * 2015-09-18 2017-03-23 Le Holdings (Beijing) Co., Ltd. System and method for deploying an application
CN106776212A (zh) * 2016-12-09 2017-05-31 中电科华云信息技术有限公司 容器集群部署多进程应用的监管系统及方法
CN107026760A (zh) * 2017-05-03 2017-08-08 联想(北京)有限公司 一种故障修复方法及监控节点
CN108228170A (zh) * 2017-12-07 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种嵌入式软件构件化定制组装方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984396A (zh) * 2019-05-24 2020-11-24 上海擎感智能科技有限公司 一种高可用网络架构的负载均衡方法、系统、介质及设备
US11379320B2 (en) 2020-07-08 2022-07-05 International Business Machines Corporation Container recovery
CN112817942A (zh) * 2021-02-25 2021-05-18 紫光云技术有限公司 一种数据库批量加入可用性组的方法、电子设备、服务器
CN112817942B (zh) * 2021-02-25 2023-03-07 紫光云技术有限公司 一种数据库批量加入可用性组的方法、电子设备、服务器
CN112988401A (zh) * 2021-05-07 2021-06-18 北京轻松筹信息技术有限公司 进程内信息的收集方法、装置和电子设备

Also Published As

Publication number Publication date
CN109697078B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109697078A (zh) 非高可用性组件的修复方法、大数据集群和容器服务平台
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN108270726B (zh) 应用实例部署方法及装置
CN105933137A (zh) 一种资源管理方法、装置及系统
CN108628716B (zh) 信息纳管系统、方法及装置
CN109656569B (zh) 多环境应用部署方法、设备、存储介质及装置
CN109308252A (zh) 一种故障定位处理方法及装置
CN109286529A (zh) 一种恢复RabbitMQ网络分区的方法及系统
EP3396917A1 (en) Method and apparatus for isolating environment
CN111459639B (zh) 一种支持全球多机房部署的分布式任务管理平台及方法
CN111897697A (zh) 服务器硬件故障修复方法和装置
JP4517923B2 (ja) オブジェクト救済システム及び方法
CN112948077A (zh) 批处理方法、装置、设备及存储介质
CN112433830A (zh) 一种基于ZooKeeper的分布式任务调度方法、系统及存储介质
CN113377535A (zh) 分布式定时任务分配方法、装置、设备及可读存储介质
CN116185697B (zh) 容器集群管理方法、装置、系统、电子设备及存储介质
CN108243205A (zh) 一种用于控制云平台资源分配的方法、设备与系统
CN113746676B (zh) 基于容器集群的网卡管理方法、装置、设备、介质及产品
CN111966469B (zh) 一种集群虚拟机高可用方法及系统
CN115391058A (zh) 一种基于sdn的资源事件处理方法、资源创建方法及系统
CN114090211A (zh) 协调单任务主从程序的方法、装置和相关多服务器系统
JP2007096515A (ja) 呼接続監視装置、呼接続監視方法、呼接続監視プログラム及び動作検知システム
CN114398203A (zh) 云灾备系统、方法、电子设备及存储介质
CN104486447A (zh) 基于Big-Cluster的大平台集群系统
CN111597037B (zh) 作业分配方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant