CN110650059B - 故障群集检测方法、装置、计算机设备和存储介质 - Google Patents

故障群集检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110650059B
CN110650059B CN201910970150.8A CN201910970150A CN110650059B CN 110650059 B CN110650059 B CN 110650059B CN 201910970150 A CN201910970150 A CN 201910970150A CN 110650059 B CN110650059 B CN 110650059B
Authority
CN
China
Prior art keywords
cluster
fault
detected
information
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910970150.8A
Other languages
English (en)
Other versions
CN110650059A (zh
Inventor
张宗红
刘勇
张义军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN201910970150.8A priority Critical patent/CN110650059B/zh
Publication of CN110650059A publication Critical patent/CN110650059A/zh
Application granted granted Critical
Publication of CN110650059B publication Critical patent/CN110650059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请涉及开发领域,特别涉及一种故障群集检测方法、装置、计算机设备和存储介质。所述方法包括:通过群集的定时监控组件检测系统中是否存在待检测群集,系统中包含若干个群集,每一群集上设置有定时监控组件;当系统中存在待检测群集时,分别检测待检测群集的应用处理能力以及设备运行状况是否正常;当待检测群集的应用处理能力与设备运行状况中至少有一项不正常时,则判定待检测群集为故障群集;查询故障群集对应的备用群集,从故障群集中获取目标任务,将目标任务发送到备用群集,使得备用群集处理目标任务。采用本方法能够避免故障误判,能够准确检测出故障群集。

Description

故障群集检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种故障群集检测方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术和网络计算的发展,中间件变成了一种常用设备;通常中间件是位于终端或服务器的操作系统上、连接两个独立应用程序或独立系统的软件,其可以用于管理计算机资源。
传统的中间件一般支持群集级别的容错和自动故障转移,然而传统的中间件群集在进行故障检测时往往仅检测节点存活性,无法判断可能的网络问题以及群集是否故障,从而产生故障误判的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够避免故障误判,能够准确检测出故障群集的故障群集检测方法、装置、计算机设备和存储介质。
一种故障群集检测方法,所述方法包括:
通过群集的定时监控组件检测系统中是否存在待检测群集,所述系统中包含若干个群集,每一所述群集上设置有定时监控组件;
当所述系统中存在待检测群集时,分别检测所述待检测群集的应用处理能力以及设备运行状况是否正常;
当所述待检测群集的所述应用处理能力与所述设备运行状况中至少有一项不正常时,则判定所述待检测群集为故障群集;
查询所述故障群集对应的备用群集,从所述故障群集中获取目标任务,将所述目标任务发送到所述备用群集,使得所述备用群集处理所述目标任务。
在其中一个实施例中,所述待检测群集的应用处理能力是否正常的检测方法,包括:
检测应用服务器是否接收到所述待检测群集的应用检测接口发送的应用故障信息,若收到,则所述待检测群集的应用处理能力不正常,否则,所述待检测群集的应用处理能力正常。
在其中一个实施例中,所述待检测群集的设备运行状况是否正常的检测方法,包括:
检测设备服务器是否接收到所述待检测群集的设备检测接口发送的设备故障信息,若收到,则所述待检测群集的设备运行状况不正常,否则,所述待检测群集的设备运行状况正常。
在其中一个实施例中,所述使得所述备用群集处理所述目标任务之后,还包括:
将所述故障群集的信息和所述故障群集对应的备用群集的信息发布到所有群集,使得每个群集将所述故障群集的信息变更为所述故障群集对应的备用群集的信息。
在其中一个实施例中,所述方法还包括:
当群集启动时,从命名服务平台获取启动的群集的名字;
所述将所述故障群集的信息和所述故障群集对应的备用群集的信息发布到所有群集,包括:
将故障信息发送到所述命名服务平台,所述故障信息中携带有所述故障群集的名字,以使所述命名服务平台根据所述故障群集的名字识别所述故障群集,并将所述故障群集广播到每个群集。
在其中一个实施例中,所述使得所述备用群集处理所述目标任务之后,还包括:
根据所述故障群集生成故障提醒;
将所述故障信息发送至管理终端,并接收所述管理终端返回的错误排除信息。
一种故障群集检测装置,所述装置包括:
定时检测模块,用于通过群集的定时监控组件检测系统中是否存在待检测群集,所述系统中包含若干个群集,每一所述群集上设置有定时监控组件;
针对检测模块,用于当所述系统中存在待检测群集时,分别检测所述待检测群集的应用处理能力以及设备运行状况是否正常;
故障群集判定模块,用于当所述待检测群集的所述应用处理能力与所述设备运行状况中至少有一项不正常时,则判定所述待检测群集为故障群集;
故障切换模块,用于查询所述故障群集对应的备用群集,从所述故障群集中获取目标任务,将所述目标任务发送到所述备用群集,使得所述备用群集处理所述目标任务。
在其中一个实施例中,所述装置还包括:
应用检测模块,用于检测应用服务器是否接收到所述待检测群集的应用检测接口发送的应用故障信息,若收到,则所述待检测群集的应用处理能力不正常,否则,所述待检测群集的应用处理能力正常。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述故障群集检测方法、装置、计算机设备和存储介质,定时、持续地检测所有群集的运行状态,发现监控系统中的待检测群集,对待检测群集的应用处理能力和设备运行状况两个层面判断待检测群集是否发生故障,能够更加准确地发现故障群集,避免发生故障误判的情况,在确定某一群集确实发生故障时,将故障群集的处理任务切换到对应的备用群集上执行,避免因为某一群集故障影响其他群集的数据处理。
附图说明
图1为一个实施例中故障群集检测方法的应用场景图;
图2为一个实施例中故障群集检测方法的流程示意图;
图3为一个实施例中故障群集检测装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的故障群集检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。开发人员在各终端102的中间件群集中部署定时监控机制、应用处理数据的检测机制和运行状态的检测机制,通过服务器104管理所有群集的检测结果,并设置故障群集的转移机制。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种故障群集检测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S202,通过群集的定时组件检测系统中是否存在待检测群集,系统中包含若干个群集,每一群集上设置有定时组件。
其中,本申请中的可以针对一个系统场景内进行故障群集的检测,系统指包含了多个群集的操作集合,可以指操作系统或者完成某一功能的系统,系统中包含多个相互配合的群集,群集独自管理其内部的中间件;例如,在一个用户数据管理系统中,包含多个完成不同分立业务的群集,用户数据收集群集、初步清洗群集、再次处理群集、存储群集等等。
具体地,服务器可设置对系统中的所有群集来进行定时监控的机制,在每一群集中设置一个定时监控组件,每个定时监控组件根据设定的检测频次(如可以设置为每3S检测一次)定时启动一次对群集的检测,当在累积若干次检测时都发现其监控的某一群集的工作状态不正常,如群集在这几次检测中都发现有任务执行失败或者内存占用率过高等情况时,则服务器获取监控机制上报的针对此群集检测的异常结果,服务器将这一检测结果异常的群集作为待检测群集,按照下述步骤对此群集进一步检测,判断其是否确实发生故障。其中,定时监控组件对于群集的检测可以是检测群集与外部的数据交互情况,也可以检测群集中中间件的内存占用状况或数据处理效率等等。
可选地,由于每个群集中运行的中间件至少为一个,可以给每个群集设置一个群集客户端,此群集与服务器之间的检测结果的交互、以及此群集中各中间件的运行情况,都由此群集客户端负责管理。
S204,当系统中存在待检测群集时,分别检测待检测群集的应用处理能力以及设备运行状况是否正常。
其中,群集的应用处理能力是待检测群集与外部数据交互能力或者此待检测群集的业务处理能力等等针对应用层面的检测;如,当待检测群集负责一个业务功能时,则服务器在检测此群集的应用处理能力是否正常时,可以检测此业务功能是否正常执行;当待检测群集负责一个业务功能中部分数据的处理时,则服务器在检测此群集的应用处理能力时,可检测此群集处理的部分数据的处理结果是否正确。
具体地,服务器对于待检测群集是否故障的检测包括对群集的应用处理能力的检测,即从应用层面和业务层面来检测群集的运行状况;可选地,可以通过CAT(CentralApplication Tracking,一个基于Java开发的实时应用监控平台,包括实时应用监控,业务监控)监控每一群集的业务处理情况,在每个群集中部署一个客户端的配置文件,在服务器端部署服务端配置文件,使得服务器可以与各群集连接,获取对群集应用处理能力的检测结果。当通过群集客户端来负责群集的数据交互时,则可以将CAT监控的客户端的配置文件设置在群集客户端中。
服务器对待检测群集的检测还包括从待检测群集的设备的层面来对群集是否故障进行评估;可选地,可以通过Zabbix(一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案),在被监控的群集的设备上安装zabbix agent,通过zabbix agent对硬件信息或与操作系统有关的内存,CPU等信息的收集;并将zabbixserver安装在服务器端,实现服务器和群集之间的连接,通过zabbix server监听zabbixagent收集到的信息。当通过群集客户端来负责群集的数据交互时,则可以将zabbix agent设置在群集客户端中。其中,在定时监控机制、群集应用处理能力和设备运行状况三种监控方中,开发人员可以设置监控的细粒度,如调整定时监控的时长或者根据群集业务交互的失败率等判断故障群集,并可以进一步判断故障原因。
S206,当待检测群集的应用处理能力与设备运行状况中至少有一项不正常时,则判定待检测群集为故障群集。
具体地,当服务器对待检测群集进行上述两个层面的检测发现,待检测群集的应用处理能力不正常或者设备运行状况不正常、或者这两个层面的检测结果都不正常时,则可以判定此待检测群集确实发生了故障,则服务器判定这一待检测群集为故障群集。
S208,查询故障群集对应的备用群集,从故障群集中获取目标任务,将目标任务发送到备用群集,使得备用群集处理目标任务。
其中,目标任务是在一群集发生故障时切换到其他群集中执行的任务,可以是故障群集中还未被执行的所有任务,也可以是根据任务的优先级和紧急程度从故障群集中还未被执行的所有任务中选取的部分任务。
具体地,服务器当判定某一群集为故障群集时,为了保证此群集的业务功能不受影响,应将故障群集处理的目标任务切换到其他群集处理。系统可以预先指定每一群集对应的备用群集,在服务器判定某一群集为故障群集时,则根据指定的备用群集进行切换,将原本由故障群集处理的目标任务切换到备用群集中进行处理。
可选地,管理端可以根据每一群集与当其发生故障时的备用群集之间的关系建立一张映射关系表,并将此映射关系表保存在服务器本地或者与服务器可连接的其他位置,服务器可获取此映射关系表并从中查询某一故障群集对应的备用群集。管理端可以通过更新此映射关系表来修改故障群集的业务切换操作。
当服务器查询到故障群集对应的备用群集时,则将原来在故障群集中执行的目标任务切换到备用群集上执行。服务器可以将与故障群集进行数据交互的其他终端的数据交互地址中故障群集的地址变更为备用群集的地址,实现故障切换。进一步地,服务器可以根据故障群集的故障原因,来判定将要切换到备用群集中处理的目标任务。例如,当故障群集中仅有执行一个应用的功能出现故障时,则可以仅将这一个应用功能的任务作为目标任务切换到备用群集中,对于其他任务不进行切换。而服务器判断故障群集的故障原因可以根据上述步骤S206中的检测结果来判定。
上述故障群集检测方法,定时检测所有群集的运行状态,发现监控系统中的待检测群集,对待检测群集的应用处理能力和设备运行状况两个层面判断待检测群集是否发生故障,能够更加准确地发现故障群集,避免发生故障误判的情况,在确定某一群集确实发生故障时,将故障群集的目标任务切换到对应的备用群集上执行,避免因为某一群集故障影响其他群集的数据处理。上述三种监控方式并行,更加及时且准确地发现系统中的故障群集,并快速且智能地实现故障群集的检测。
在一个实施例中,上述步骤S204中的待检测群集的应用处理能力是否正常的检测方法,可以包括:检测应用服务器是否接收到待检测群集的应用检测接口发送的应用故障信息,若收到,则待检测群集的应用处理能力不正常,否则,待检测群集的应用处理能力正常。
其中,每个群集对应的应用检测接口是用于检测每个群集的应用处理能力的接口,通过此应用检测接口获取此群集的应用处理情况,当某一应用检测接口检测到对应的群集的应用处理存在问题时,则生成应用故障信息发送到应用服务端。应用服务端是架构在服务器端或者与服务器连接的、用于汇总所有群集的应用检测接口上报的检测结果的接口。例如,在CAT监控中,将CAT客户端的配置文件配置到群集或者群集客户端中,并通过此配置文件监控此群集的应用处理能力,将CAT的服务端部署到服务器上作为汇总所有客户端检测结果的应用服务端。
应用故障信息是应用检测接口在发现群集的应用处理能力不正常时,向服务器上报的信息;例如,当应用检测接口发现群集在接收到其他中间件或中间件群集发送的数据请求后,超过一定时间未返回请求对应的数据,则应用检测接口认为群集的应用处理能力不正常。
具体地,服务器若想要对群集的应用处理能力进行监控,需要先在每个群集或者群集客户端上设置一个应用检测接口,每个群集的应用检测接口会将群集的应用处理中的故障数据上报到服务器连接的应用服务端中,当服务器通过定时监控机制中发现其所有监控的群集中存在待检测群集时,检测应用服务端中是否接收到此群集的应用检测接口上报的故障数据。
上述实施例中,每个群集中设置有检测群集的应用处理能力的应用检测接口,服务器通过群集的应用检测接口上报的应用故障信息来检测群集的应用处理能力。
在一个实施例中,上述步骤S204中待检测群集的设备运行状况是否正常的检测方法,可以包括:检测设备服务器是否接收到待检测群集的设备检测接口发送的设备故障信息,若收到,则待检测群集的设备运行状况不正常,否则,待检测群集的设备运行状况正常。
其中,每个群集对应的设备检测接口是用于检测每个群集的设备运行状况的接口,通过此应用检测接口获取此群集的应用处理情况,设备服务端是架构在服务器端或者与服务器连接的、用于汇总所有群集的设备检测接口上报的检测结果的接口。例如,将zabbix监控的zabbix agent配置到集群或集群客户端上,实现集群端的应用检测接口,并根据配置启动的设备检测功能;将zabbix server安装在服务器端,作为汇总所有zabbixagent检测结果的设备服务端。
设备故障信息是设备检测接口在发现群集的设备运行状况不正常时,向服务器上报的信息;例如,当设备检测接口发现群集中的中间件或者群集客户端的内存占用率过高、设备断电等情况时,则设备检测接口认为群集的设备运行状况不正常。
具体地,服务器若想要对群集的设备运行状况进行监控,需要在每个群集或者群集客户端上设置一个设备检测接口,每个群集的设备检测接口会将群集的设备故障信息上报到设备服务端中,当服务器通过定时监控机制中发现其所有监控的群集中存在待检测群集时,检测设备服务端是否接收到此群集的设备检测接口上报的设备故障信息,若已接收到,则可判定此群集的设备运行状况不正常。
上述实施例中,每个群集中设置有检测群集的设备运行状况的设备检测接口,服务器通过群集的设备检测接口上报的设备故障信息来了解群集的设备运行状况。
在一个实施例中,上述步骤S208中的使得备用群集处理目标任务之后,还可以包括:将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,使得每个群集将故障群集的信息变更为故障群集对应的备用群集的信息。
具体地,服务器在判定一个群集发生故障后,将此群集故障和故障群集的备用群集以广播或者发送消息的方式发布给服务器管理的所有群集,每一群集在获取到服务器发布的消息后,不再与故障群集进行数据交互,而是将故障群集的地址或者群集名称等信息全部变更为其对应的备用群集。其中,当群集是通过群集客户端管理此群集中的中间件时,则通过群集客户端来执行本实施例中的操作步骤。
上述实施例中,服务器以广播等方式,将故障群集和其对应的备用群集的信息发布到所有的群集,使得各群集不再与故障群集进行数据交互,避免故障群集影响业务系统的业务处理。
在一个实施例中,上述故障群集检测方法还可以包括:当群集启动时,从命名服务平台获取启动的群集的名字;上述步骤将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,可以包括:将故障信息发送到命名服务平台,故障信息中携带有故障群集的名字,以使命名服务平台根据故障群集的名字识别故障群集,并将故障群集广播到每个群集。
在服务器管理的中间件群集数量较多时,可能会由于开发人员无法完全了解服务器管理的每个中间件群集的执行任务,可能会对群集配置错误,从而导致在需要执行某一业务操作时启动错误的群集。若需要在服务器的管理下增加部署新的中间件群集时,需要在服务器端修改群集的配置项,甚至重启服务器对群集的管理系统,才能完成新群集的部署。
基于上述问题,本申请中可以引入命名服务平台来管理服务器下接入的中间件群集;命名服务平台中包括管理服务器接入的群集之间的管理与被管理的层级关系、以及群集之间的数据流转关系的路由规则,和对每一接入服务器的群集进行命名的名字分配规则。服务器端可以通过修改命名服务平台中的路由规则来重设群集之间的关系,而名字分配规则是在每个群集接入服务器时,给群集进行命名,给每个群集定义一个唯一的名字供服务器查询和操作。
在每个群集接入服务器或者每次启动时,群集都会自动向服务器端的命名服务平台获取本群集此次在整个业务系统中的名字,并根据命名服务平台的路由规则来查询本群集执行的处理任务和与其他群集之间的数据交互关系。服务器在向管理的所有群集发布故障群集的信息时,也可以通过命名服务平台来进行广播;服务器在获取故障群集时,将故障群集的故障信息发送给命名服务平台,故障信息中携带有故障群集的名字,即故障群集在本次启动时从命名服务平台获取的名字,命名服务平台可以根据故障群集的名字识别出故障群集,并获取故障群集的地址、执行的业务操作等信息;命名服务平台将故障群集的信息广播给每个被命名服务平台分配了名字的群集,使得可以接收到广播的群集了解故障群集发生了故障。
可选地,当接收到广播的接入服务器的其他群集检测到其与故障群集存在数据交互时,从服务器端查询故障群集对应的备用群集,将原本与故障群集进行的数据交互任务全部切换到备用群集中。其中,当群集是通过群集客户端管理此群集中的中间件时,则通过群集客户端来执行本实施例中与命名服务平台之间的数据交互操作。
命名管理平台可以接收管理终端发送的路由规则更新指令,并根据路由规则更新指令更新命名服务平台中保存的群集路由关系。即当管理终端需要变更已建立的群集关系时,可向命名服务平台发送路由规则更新指令,实现群集关系的新增、修改等操作。
上述实施例中,在服务器端架构或者接入一个命名服务平台,来管理群集的接入、配置以及群集之间的交互和管理关系,在每次群集启动时,给群集分配一个名字,实现平台内部灵活管理,避免群集的使用错误和部署困难等问题。
在一个实施例中,上述步骤S208中的使得备用群集处理目标任务之后,还可以包括:根据故障群集生成故障提醒;将故障信息发送至管理终端,并接收管理终端返回的错误排除信息。
其中,故障提醒是服务器在判定一个群集为故障群集后、告知管理终端某一群集故障的提醒消息,故障提醒可以以邮件、或网络消息等方式发送给管理终端。
错误排除信息是管理终端在将故障群集的故障解决后,返回给服务器的信息;可以以邮件、或网络消息等方式发送给服务器。
具体地,在服务器判定某一群集为故障群集后,即将这一消息生成故障提醒发送到管理终端,使得管理终端去查明故障群集的故障原因,并解决故障;当管理终端解决故障群集的故障、且故障群集可以正常运行后,管理终端向服务器返回一个错误排除信息。
可选地,此错误排除信息中可以包含指示服务器是否恢复故障群集的处理任务的恢复指令,若服务器获取到恢复指令,则将备用群集上切换过去的目标任务切换回原群集进行处理。
上述实施例中,通过管理终端解决故障群集的故障,并指示服务器是否在故障排除后恢复故障群集的处理任务。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种故障群集检测装置,包括:定时检测启动模块100、针对检测模块200、故障群集判定模块300和故障切换模块400,其中:
定时检测模块100,用于通过群集的定时监控组件检测系统中是否存在待检测群集,系统中包含若干个群集,每一群集上设置有定时监控组件。
针对检测模块200,用于当系统中存在待检测群集时,分别检测待检测群集的应用处理能力以及设备运行状况是否正常。
故障群集判定模块300,用于当待检测群集的应用处理能力与设备运行状况中至少有一项不正常时,则判定待检测群集为故障群集。
故障切换模块400,用于查询故障群集对应的备用群集,从故障群集中获取目标任务,将目标任务发送到备用群集,使得备用群集处理目标任务。
在一个实施例中,上述故障群集检测装置还可以包括:
应用检测模块,用于检测应用服务器是否接收到待检测群集的应用检测接口发送的应用故障信息,若收到,则待检测群集的应用处理能力不正常,否则,待检测群集的应用处理能力正常。
在一个实施例中,上述故障群集检测装置还可以包括:
设备检测模块,用于检测设备服务器是否接收到待检测群集的设备检测接口发送的设备故障信息,若收到,则待检测群集的设备运行状况不正常,否则,待检测群集的设备运行状况正常。
在一个实施例中,上述故障群集检测装置还可以包括:
故障发布模块,用于将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,使得每个群集将故障群集的信息变更为故障群集对应的备用群集的信息。
在一个实施例中,上述故障群集检测装置还可以包括:
群集名字分配模块,用于当群集启动时,从命名服务平台获取启动的群集的名字。
上述故障发布模块,还可以用于将故障信息发送到命名服务平台,故障信息中携带有故障群集的名字,以使命名服务平台根据故障群集的名字识别故障群集,并将故障群集广播到每个群集。
在一个实施例中,上述故障群集检测装置还可以包括:
故障提醒生成模块,用于根据故障群集生成故障提醒。
故障提醒处理模块,用于将故障信息发送至管理终端,并接收管理终端返回的错误排除信息。
关于故障群集检测装置的具体限定可以参见上文中对于故障群集检测方法的限定,在此不再赘述。上述故障群集检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储故障群集检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种故障群集检测方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:通过群集的定时监控组件检测系统中是否存在待检测群集,系统中包含若干个群集,每一群集上设置有定时监控组件;当系统中存在待检测群集时,分别检测待检测群集的应用处理能力以及设备运行状况是否正常;当待检测群集的应用处理能力与设备运行状况中至少有一项不正常时,则判定待检测群集为故障群集;查询故障群集对应的备用群集,从故障群集中获取目标任务,将目标任务发送到备用群集,使得备用群集处理目标任务。
在一个实施例中,处理器执行计算机程序时实现的待检测群集的应用处理能力是否正常的检测方法,包括:检测应用服务器是否接收到待检测群集的应用检测接口发送的应用故障信息,若收到,则待检测群集的应用处理能力不正常,否则,待检测群集的应用处理能力正常。
在一个实施例中,处理器执行计算机程序时实现的待检测群集的设备运行状况是否正常的检测方法,包括:检测设备服务器是否接收到待检测群集的设备检测接口发送的设备故障信息,若收到,则待检测群集的设备运行状况不正常,否则,待检测群集的设备运行状况正常。
在一个实施例中,处理器执行计算机程序时实现的使得备用群集处理目标任务之后,还包括:将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,使得每个群集将故障群集的信息变更为故障群集对应的备用群集的信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当群集启动时,从命名服务平台获取启动的群集的名字;处理器执行计算机程序时实现的将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,包括:将故障信息发送到命名服务平台,故障信息中携带有故障群集的名字,以使命名服务平台根据故障群集的名字识别故障群集,并将故障群集广播到每个群集。
在一个实施例中,处理器执行计算机程序时实现的使得备用群集处理目标任务之后,还包括:根据故障群集生成故障提醒;将故障信息发送至管理终端,并接收管理终端返回的错误排除信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:通过群集的定时监控组件检测系统中是否存在待检测群集,系统中包含若干个群集,每一群集上设置有定时监控组件;当系统中存在待检测群集时,分别检测待检测群集的应用处理能力以及设备运行状况是否正常;当待检测群集的应用处理能力与设备运行状况中至少有一项不正常时,则判定待检测群集为故障群集;查询故障群集对应的备用群集,从故障群集中获取目标任务,将目标任务发送到备用群集,使得备用群集处理目标任务。
在一个实施例中,计算机程序被处理器执行时实现的待检测群集的应用处理能力是否正常的检测方法,包括:检测应用服务器是否接收到待检测群集的应用检测接口发送的应用故障信息,若收到,则待检测群集的应用处理能力不正常,否则,待检测群集的应用处理能力正常。
在一个实施例中,计算机程序被处理器执行时实现的待检测群集的设备运行状况是否正常的检测方法,包括:检测设备服务器是否接收到待检测群集的设备检测接口发送的设备故障信息,若收到,则待检测群集的设备运行状况不正常,否则,待检测群集的设备运行状况正常。
在一个实施例中,计算机程序被处理器执行时实现的使得备用群集处理目标任务之后,还包括:将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,使得每个群集将故障群集的信息变更为故障群集对应的备用群集的信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当群集启动时,从命名服务平台获取启动的群集的名字;计算机程序被处理器执行时实现的将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,包括:将故障信息发送到命名服务平台,故障信息中携带有故障群集的名字,以使命名服务平台根据故障群集的名字识别故障群集,并将故障群集广播到每个群集。
在一个实施例中,计算机程序被处理器执行时实现的使得备用群集处理目标任务之后,还包括:根据故障群集生成故障提醒;将故障信息发送至管理终端,并接收管理终端返回的错误排除信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种故障群集检测方法,所述方法包括:
通过群集的定时监控组件检测系统中是否存在待检测群集,所述系统中包含若干个群集,每一所述群集上设置有定时监控组件;
当所述系统中存在待检测群集时,分别检测所述待检测群集的应用处理能力以及设备运行状况是否正常;
当所述待检测群集的所述应用处理能力与所述设备运行状况中至少有一项不正常时,则判定所述待检测群集为故障群集;
查询所述故障群集对应的备用群集,从所述故障群集中获取目标任务,将所述目标任务发送到所述备用群集,使得所述备用群集处理所述目标任务;
所述使得所述备用群集处理所述目标任务之后,还包括:
将所述故障群集的信息和所述故障群集对应的备用群集的信息发布到所有群集,使得每个群集将所述故障群集的信息变更为所述故障群集对应的备用群集的信息。
2.根据权利要求1所述的方法,其特征在于,所述待检测群集的应用处理能力是否正常的检测方法,包括:
检测应用服务器是否接收到所述待检测群集的应用检测接口发送的应用故障信息,若收到,则所述待检测群集的应用处理能力不正常,否则,所述待检测群集的应用处理能力正常。
3.根据权利要求1所述的方法,其特征在于,所述待检测群集的设备运行状况是否正常的检测方法,包括:
检测设备服务器是否接收到所述待检测群集的设备检测接口发送的设备故障信息,若收到,则所述待检测群集的设备运行状况不正常,否则,所述待检测群集的设备运行状况正常。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当群集启动时,从命名服务平台获取启动的群集的名字;
所述将所述故障群集的信息和所述故障群集对应的备用群集的信息发布到所有群集,包括:
将故障信息发送到所述命名服务平台,所述故障信息中携带有所述故障群集的名字,以使所述命名服务平台根据所述故障群集的名字识别所述故障群集,并将所述故障群集广播到每个群集。
5.根据权利要求1所述的方法,其特征在于,所述使得所述备用群集处理所述目标任务之后,还包括:
根据所述故障群集生成故障提醒;
将所述故障提醒发送至管理终端,并接收所述管理终端返回的错误排除信息。
6.一种故障群集检测装置,其特征在于,所述装置包括:
定时检测模块,用于通过群集的定时监控组件检测系统中是否存在待检测群集,所述系统中包含若干个群集,每一所述群集上设置有定时监控组件;
针对检测模块,用于当所述系统中存在待检测群集时,分别检测所述待检测群集的应用处理能力以及设备运行状况是否正常;
故障群集判定模块,用于当所述待检测群集的所述应用处理能力与所述设备运行状况中至少有一项不正常时,则判定所述待检测群集为故障群集;
故障切换模块,用于查询所述故障群集对应的备用群集,从所述故障群集中获取目标任务,将所述目标任务发送到所述备用群集,使得所述备用群集处理所述目标任务;
故障发布模块,用于将故障群集的信息和故障群集对应的备用群集的信息发布到所有群集,使得每个群集将故障群集的信息变更为故障群集对应的备用群集的信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
应用检测模块,用于检测应用服务器是否接收到所述待检测群集的应用检测接口发送的应用故障信息,若收到,则所述待检测群集的应用处理能力不正常,否则,所述待检测群集的应用处理能力正常。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
设备检测模块,用于检测设备服务器是否接收到待检测群集的设备检测接口发送的设备故障信息,若收到,则待检测群集的设备运行状况不正常,否则,待检测群集的设备运行状况正常。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201910970150.8A 2019-10-12 2019-10-12 故障群集检测方法、装置、计算机设备和存储介质 Active CN110650059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910970150.8A CN110650059B (zh) 2019-10-12 2019-10-12 故障群集检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910970150.8A CN110650059B (zh) 2019-10-12 2019-10-12 故障群集检测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110650059A CN110650059A (zh) 2020-01-03
CN110650059B true CN110650059B (zh) 2022-06-10

Family

ID=68993925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910970150.8A Active CN110650059B (zh) 2019-10-12 2019-10-12 故障群集检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110650059B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780214B (zh) * 2022-04-01 2024-01-09 中国电信股份有限公司 任务处理方法、装置、系统及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482829A (zh) * 2009-01-22 2009-07-15 华为技术有限公司 集群系统、处理装置及集群系统冗余方法
CN101715252A (zh) * 2009-10-27 2010-05-26 中兴通讯股份有限公司 一种群集短信中心及其实现容灾分流的方法
CN104144127A (zh) * 2013-05-08 2014-11-12 华为软件技术有限公司 负载均衡方法和负载均衡器
CN109088934A (zh) * 2018-08-22 2018-12-25 深圳市轱辘汽车维修技术有限公司 一种业务处理系统及业务处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101484879B (zh) * 2006-07-06 2012-11-28 日本电气株式会社 群集系统、服务器群集、群集成员、群集成员的冗余化方法、负荷分散方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482829A (zh) * 2009-01-22 2009-07-15 华为技术有限公司 集群系统、处理装置及集群系统冗余方法
CN101715252A (zh) * 2009-10-27 2010-05-26 中兴通讯股份有限公司 一种群集短信中心及其实现容灾分流的方法
CN104144127A (zh) * 2013-05-08 2014-11-12 华为软件技术有限公司 负载均衡方法和负载均衡器
CN109088934A (zh) * 2018-08-22 2018-12-25 深圳市轱辘汽车维修技术有限公司 一种业务处理系统及业务处理方法

Also Published As

Publication number Publication date
CN110650059A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
WO2017140131A1 (zh) 数据写入、读取方法及装置、云存储系统
JP4721195B2 (ja) マルチノード分散データ処理システムにおいてリモート・アクセス可能なリソースを管理する方法
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN112558997A (zh) 一种部署应用的方法及装置
CN110768873B (zh) 分布式心跳检测方法、系统、装置和计算机设备
CN102360324B (zh) 故障恢复方法和用于故障恢复的设备
CN110417600B (zh) 分布式系统的节点切换方法、装置及计算机存储介质
CN112612545A (zh) 一种服务器集群的配置热加载系统、方法、设备及介质
CN112865992B (zh) 分布式主从系统中主节点的切换方法、装置和计算机设备
CN112463448A (zh) 分布式集群数据库同步方法、装置、设备及存储介质
CN107153595B (zh) 分布式数据库系统的故障检测方法及其系统
CN110149366B (zh) 提高集群系统可用性的方法、装置和计算机设备
CN112860386A (zh) 分布式主从系统中节点的切换方法
CN112865995B (zh) 分布式主从系统
CN113946408A (zh) 云原生边缘容器控制方法、系统及存储介质
CN112866408A (zh) 一种集群中业务切换方法、装置、设备及存储介质
CN110650059B (zh) 故障群集检测方法、装置、计算机设备和存储介质
CN116126457A (zh) 容器迁移方法和服务器集群
CN112070585A (zh) 订单状态统一管理方法、装置、计算机设备和存储介质
CN113965576B (zh) 基于容器的大数据采集方法、装置、存储介质和设备
CN111614701B (zh) 一种分布式集群、以及容器状态切换方法、装置
CN117573306A (zh) 批量任务调度系统、方法、装置、计算机设备和存储介质
CN110908824A (zh) 一种故障识别方法、装置及设备
CN113596195B (zh) 公共ip地址管理方法、装置、主节点及存储介质
CN115766715A (zh) 一种高可用的超融合集群监控方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20200210

Address after: 200120 floor 15, 1333 Lujiazui Ring Road, free trade Experimental Zone, Pudong New Area, Shanghai

Applicant after: Weikun (Shanghai) Technology Service Co., Ltd

Address before: 13th Floor, 1333 Lujiazui Ring Road, Shanghai Free Trade Pilot Area, 200120

Applicant before: Lujiazui Shanghai international financial assets market Limited by Share Ltd

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant