CN104410698B - 一种share nothing集群下的发起节点异常处理方法及装置 - Google Patents

一种share nothing集群下的发起节点异常处理方法及装置 Download PDF

Info

Publication number
CN104410698B
CN104410698B CN201410727702.XA CN201410727702A CN104410698B CN 104410698 B CN104410698 B CN 104410698B CN 201410727702 A CN201410727702 A CN 201410727702A CN 104410698 B CN104410698 B CN 104410698B
Authority
CN
China
Prior art keywords
management software
cluster
node
task
cluster management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410727702.XA
Other languages
English (en)
Other versions
CN104410698A (zh
Inventor
李南锋
夏旭东
崔维力
武新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201410727702.XA priority Critical patent/CN104410698B/zh
Publication of CN104410698A publication Critical patent/CN104410698A/zh
Application granted granted Critical
Publication of CN104410698B publication Critical patent/CN104410698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种share nothing集群下的发起节点异常处理方法及装置,所述方法包括:集群中发起节点接收到数据请求任务后,先将其他节点设置为此数据请求任务的接管节点,接管节点向集群管理软件提交注册信息完成信息记录,发起节点继续执行任务;若执行过程无异常,发起节点完成任务并将集群管理软件设置为任务结束并清理资源;若执行过程出现异常,集群管理软件选择一个接管节点继续执行任务,接管节点完成任务之后将集群管理软件设置为任务结束并清理资源;如果任务已不可继续执行,则进行任务的异常处理,进行恢复。本发明能够解决数据库系统在执行任务中并行任务管理软件发生异常时造成集群数据不一致问题,提高了系统的稳定性。

Description

一种share nothing集群下的发起节点异常处理方法及装置
技术领域
本发明涉及分布式系统领域,尤其涉及一种share nothing集群下的发起节点异常处理方法及装置。
背景技术
随着互联网的迅猛发展,软件规模的不断增大,越来越多的数据信息需要存储及处理,以往的单台服务器的模式已经无法满足使用需求,因此产生了由多台机器组成的服务器集群系统,将处理数据的请求转化为执行任务,经过负载均衡计算然后交由不同的节点处理,实现了并行的运算,在这种场景下可以满足超大规模的数据存储及处理任务。
share nothing集群是指集群中的各个节点都有自己的处理器,内存,硬盘,它们之间没有相互共享的硬件设备,这种模式能够使各个节点独立工作,互不干扰,提高并行运算的性能。
集群系统带来运算能力提升的同时,其内部的复杂程度也随之增加,在集群系统中,每一个节点都有这几个主要组件:集群并行任务管理软件,数据信息处理软件,集群管理软件。
集群数据库系统中通过集群并行任务管理软件来完成SQL操作的任务分配和处理,集群管理软件负责监控每一个节点的状态,现有的机制中,如果其中有节点出现异常,将恢复此节点,恢复的机制较为简单,将此节点的软件服务进行重启。
在集群数据库系统中使用这种方式会存在很大的问题,节点在执行任务的过程中出现异常之后,它当前执行的任务没有执行完成就中断了,如果执行的任务是SQL的commit操作,则会使集群数据库中的数据不一致,这将会给接入集群的使用者造成异常,导致执行失败,带来损失,在高可用的集群系统下这是一个迫切需要解决的问题。
发明内容
本发明要解决的问题是提供一种用于share nothing集群下的发起节点异常处理方法及装置,尤其适合于针对分布式数据库的服务要求有高可用性的场景。
为解决上述技术问题,本发明采用的设计思想是:在发起节点的集群并行任务管理软件中,将执行任务的数据信息同时存储在集群管理软件中,直到任务成功执行完成之后才清除这些数据信息。
如果执行过程中集群并行任务管理软件发生异常,集群管理软件探测到之后,选择一个之前注册过的接管节点,将此任务信息发送到接管节点的集群并行任务管理软件,由接管节点进行进一步的处理,包括异常流程处理。
接管的节点上的集群并行任务管理软件可以通过集群管理软件上的记录提取到信息,进行数据状态信息维护,如果发现是SQL操作的commit过程失败,则可以通过集群自动恢复程序,让集群数据达到一致。
本发明采用的技术方案是:一种share nothing集群下的发起节点异常处理方法,其特征在于:包括如下步骤:
步骤一:在一个集群系统中,发起节点为任务请求选择接管节点,接管节点向集群管理软件注册;
步骤二:发起节点向集群管理软件提交数据请求任务信息,开始处理任务,向集群管理软件更改任务状态为开始;
步骤三:发起节点如无异常,向集群管理软件更改任务状态为结束,并清理资源;
步骤四:发起节点如果异常,集群管理软件检测到异常发生,选择一个此任务的接管节点继续处理任务、进行异常处理,任务结束。
进一步的,所述步骤三包括:
(1)在集群并行任务管理软件中初始化操作状态;
(2)在集群管理软件中分配一个操作ID给集群并行任务管理软件;
(3)在集群并行任务管理软件中选择要操作的分片数据;
(4)在集群管理软件中设置此分片数据为开始状态;
(5)在集群并行任务管理软件中处理分片数据内容;
(6)在集群管理软件中设置此分片数据状态为结束。
进一步的,所述步骤四包括:
(1)在集群管理软件中检测到操作过程中的异常节点;
(2)选择之前注册过的接管节点作为新的处理节点;
(3)接管节点的集群并行任务管理软件中从集群管理软件获取操作ID的的分片数据状态信息;
(4)在接管节点的集群并行任务管理软件中检查集群中分片数据的状态,选择出需要进行异常处理的分片数据进行处理;
(5)在集群管理软件中设置结束状态;
(6)集群管理软件通知集群并行任务管理软件结束操作;
(6)在集群管理软件中也结束操作,异常处理流程结束。
进一步的,所述集群管理软件通过集群系统之间的高速网络检测各个节点的运行状态,所有节点都能够一致性地看到节点状态和公用数据。
根据本发明的另一方面,还提供了一种share nothing集群下的发起节点异常处理装置,所述的装置包括:
发起节点用于为任务请求选择接管节点的接管节点选择装置,以及用于接管节点向集群管理软件注册的集群管理软件注册接管节点装置;
发起节点用于向集群管理软件提交数据请求任务信息的发起节点任务请求装置,以及发起节点开始处理任务的发起节点任务处理装置,以及发起节点向集群管理软件更改任务状态为开始的集群管理软件任务状态更改装置;
发起节点用于清理集群管理软件资源的集群管理软件资源清理装置;
集群管理软件用于检测发起节点异常的发起节点异常检测装置,以及用于选择一个此任务的接管节点继续处理任务的选择接管节点装置,以及用于发起节点进行异常处理的发起节点异常处理装置。
进一步的,所述的一种share nothing集群下的发起节点异常处理装置,还包括:
用于初始化集群并行任务管理软件操作状态的集群并行任务管理初始化操作状态装置;
用于分配给集群并行任务管理软件操作ID的集群管理软件分配ID操作装置;
用于在集群并行任务管理软件中选择要操作的分片数据的集群并行任务管理软件分片数据选择装置;
用于在集群管理软件中设置此分片数据为开始状态的集群管理软件分片数据开始状态设置装置;
用于在集群并行任务管理软件中处理分片数据内容集群并行任务管理软件分片数据内容处理装置;
用于在集群管理软件中设置此分片数据状态为结束的集群管理软件分片数据结束状态设置装置。
进一步的,所述的一种share nothing集群下的发起节点异常处理装置,还包括:
用于在集群管理软件中检测操作过程中的异常节点的集群管理软件异常节点检测装置;
用于选择之前注册过的接管节点作为新的处理节点的接管节点选择装置;
用于接管节点的集群并行任务管理软件从集群管理软件获取操作ID的分片数据状态信息获取操作ID的分片数据状态信息的获取装置;
用于在接管节点的集群并行任务管理软件中检查集群中分片数据的状态的集群分片数据状态的检测装置,以及用于选择出需要进行异常处理的分片数据进行处理的分片数据的异常处理的选择及处理装置;
用于在集群管理软件中设置结束状态的集群管理软件结束状态设置装置;
用于集群管理软件通知集群并行任务管理软件结束操作的并行任务管理软件结束操作通知装置;
用于在集群管理软件中结束操作,异常处理流程结束的集群管理软件操作结束装置及异常处理流程结束装置。
进一步的,一种share nothing集群下的发起节点异常处理装置,还包括:
集群管理软件通过集群系统之间的高速网络检测各个节点的运行状态的集群软件各个节点的运行状态的高速网络检测装置。
本发明具有的优点和积极效果是:解决了集群数据库系统在执行过程中集群并行任务管理软件发生异常时,造成集群数据不一致的问题;另一方面,使集群数据库系统能从异常中恢复,提高了系统的稳定性。
附图说明
图1是集群系统工作示意图;
图2是现有技术集群系统中的发起节点异常处理示意图;
图3是本发明一实施例中集群数据库系统设置接管节点处理示意图;
图4是发明一实施例中集群数据库系统正常处理逻辑示意图;
图5是发明一实施例中集群数据库系统异常处理逻辑示意图。
具体实施方式
接收到数据请求之后,集群并行任务管理软件并不会立即去执行此请求任务,而是为此请求任务寻找接管节点,接管节点可以是一个或多个,根据系统的繁忙程度来设定。节点接收到被设置为接管节点的请求之后,还需要向集群管理软件进行注册,注册的信息保留在集群管理软件中直到任务终止之后才进行清理。
集群管理软件的主要作用是对所有节点的状态进行监控,提供共享空间,保证各节点的一致性。
在发起节点处理数据开始处理数据请求时,首先向集群管理软件请求操作ID,将数据分片的状态置为开始并保存到集群管理软件上,如果处理数据的过程中没有遇到异常,最终还是由发起节点根据操作ID在集群管理软件上设置数据分片的状态为结束,然后集群管理软件,集群并行任务管理软件清除相关的资源。
如果处理过程中遇到异常,导致发起节点的上的软件中止了,这个时候其它节点上的集群管理软件将会检测到此错误,将触发接管节点进行工作,接管节点接收到任务处理的请求之后,向集群管理软件上获取分片分数的信息和状态,根据这些信息,接管节点可以完成后续的处理流程,可以撤销之前的分片数据操作,进行恢复,保证集群状态的一致性。
下面结合附图和本发明的一个实例对本发明做进一步的说明,如图2所示,系统中包括了若干个节点,每个节点上都运行着:集群管理软件,集群并行任务管理软件,数据信息处理软件。数据请求是通过接入层到达一个节点,此节点就被称做发起节点。
使用本发明后,数据请求在开始处理之前的执行过程如图2所示:
步骤201,接入层经过负载均衡,选择集群中的一个节点,并将请求发送到此节点;
步骤202,发起节点收到数据请求,然后根据系统运行情况,设置此数据请求任务的接管节点;
步骤203,接管节点向集群管理软件进行注册,表示如果此任务在处理过程中发起节点异常,将接管此任务;
步骤204,发起节点进入到数据请求的处理阶段,处理数据请求。
发起节点处理过程中无异常的执行过程如图3所示:
步骤301,发起节点上的集群并行任务管理软件向集群管理软件请求分配操作ID;
步骤302,集群管理软件返回操作ID给集群并行任务管理软件,然后集群并行任务管理软件开始选择要处理的分片数据;
步骤303,集群并行任务管理软件将选择好的分片数据信息上传到集群管理软件,并设置处理状态为开始;
步骤304,集群管理软件返回设置成功,集群并行任务管理软件开始进行数据的处理,直接控制集群节点上的数据信息处理软件,会涉及到多节点并行处理;
步骤305,集群并行任务管理软件搜集各节点的处理结果,完成之后,向集群管理软件设置分片数据处理状态为结束,集群软件清理此操作ID相关的的信息。
发起节点处理过程中遇到异常后的执行过程如图4所示:
步骤401,发起节点上的集群并行任务管理软件向集群管理软件请求分配操作ID;
步骤402,集群管理软件返回操作ID给集群并行任务管理软件,然后集群并行任务管理软件开始选择要处理的分片数据;
步骤403,集群并行任务管理软件将选择好的分片数据信息上传到集群管理软件,并设置处理状态为开始;
步骤404,集群管理软件返回设置成功,集群并行任务管理软件开始进行数据的处理,直接控制集群节点上的数据信息处理软件,会涉及到多节点并行处理。
处理过程中,发起节点遇到异常,软件宕机。
步骤405,集群管理软件通过异常检测机制,检测到发起节点状态异常;
步骤406,集群管理软件根据任务注册信息选择接管节点,向接管节点发送选择命令;
步骤407,接管节点收到选择命令后,向集群管理软件请求分片数据信息和状态;
步骤408,集群管理软件将分片数据信息状态发送到接管节点,接管节点根据此信息,开始进行数据的异常流程处理;
步骤409,接管节点处理完成,向集群管理软件设置分片数据处理状态为结束,集群软件清理此操作ID相关的的信息。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。

Claims (8)

1.一种share nothing集群下的发起节点异常处理方法,其特征在于:包括如下步骤:
步骤一:在一个集群系统中,发起节点为任务请求选择接管节点,接管节点向集群管理软件注册,注册的信息保留在集群管理软件中直到任务终止之后才进行清理;
步骤二:发起节点向集群管理软件提交数据请求任务信息,开始处理任务,向集群管理软件更改任务状态为开始,即首先向集群管理软件请求操作ID,将数据分片的状态置为开始并保存到集群管理软件上,如果处理数据的过程中没有遇到异常,最终还是由发起节点根据操作ID在集群管理软件上设置数据分片的状态为结束;
步骤三:发起节点如无异常,向集群管理软件更改任务状态为结束,并清理资源;
步骤四:发起节点如果异常,集群管理软件检测到异常发生,选择一个此任务的接管节点继续处理任务、进行异常处理,任务结束,即发起节点异常,其它节点上的集群管理软件将会检测到此错误,将触发接管节点进行工作,接管节点接收到任务处理的请求之后,向集群管理软件上获取分片分数的信息和状态,根据这些信息,接管节点可以完成后续的处理流程,撤销之前的分片数据操作,进行恢复。
2.根据权利要求1所述的一种share nothing集群下的发起节点异常处理方法,其特征在于:所述步骤三包括:
(1)在集群并行任务管理软件中初始化操作状态;
(2)在集群管理软件中分配一个操作ID给集群并行任务管理软件;
(3)在集群并行任务管理软件中选择要操作的分片数据;
(4)在集群管理软件中设置此分片数据为开始状态;
(5)在集群并行任务管理软件中处理分片数据内容;
(6)在集群管理软件中设置此分片数据状态为结束。
3.根据权利要求1所述的一种share nothing集群下的发起节点异常处理方法,其特征在于:所述步骤四包括:
(1)在集群管理软件中检测到操作过程中的异常节点;
(2)选择之前注册过的接管节点作为新的处理节点;
(3)接管节点的集群并行任务管理软件从集群管理软件获取操作ID的分片数据状态信息;
(4)在接管节点的集群并行任务管理软件中检查集群中分片数据的状态,选择出需要进行异常处理的分片数据进行处理;
(5)在集群管理软件中设置结束状态;
(6)集群管理软件通知集群并行任务管理软件结束操作;
(7)在集群管理软件中也结束操作,异常处理流程结束。
4.根据权利要求1所述的一种share nothing集群下的发起节点异常处理方法,其特征在于:所述集群管理软件通过集群系统之间的高速网络检测各个节点的运行状态,所有节点都能够一致性地看到节点状态和公用数据。
5.一种share nothing集群下的发起节点异常处理装置,其特征在于包括:
发起节点用于为任务请求选择接管节点的接管节点选择装置,以及用于接管节点向集群管理软件注册的集群管理软件注册接管节点装置;
发起节点用于向集群管理软件提交数据请求任务信息的发起节点任务请求装置,以及发起节点开始处理任务的发起节点任务处理装置,以及发起节点向集群管理软件更改任务状态为开始的集群管理软件任务状态更改装置,以及发起节点向集群管理软件请求操作ID的发起节点请求操作ID装置,以及将数据分片的状态置为开始并保存到集群管理软件上,如果处理数据的过程中没有遇到异常,最终还是由发起节点根据操作ID在集群管理软件上设置数据分片的状态为结束的数据分片状态处理装置;
发起节点用于清理集群管理软件资源的集群管理软件资源清理装置;
集群管理软件用于检测发起节点异常的发起节点异常检测装置,以及用于选择一个此任务的接管节点继续处理任务的选择接管节点装置,以及用于发起节点进行异常处理的发起节点异常处理装置,以及接管节点接收到任务处理的请求之后,向集群管理软件上获取分片分数的信息和状态,根据这些信息,接管节点可以完成后续的处理流程,撤销之前的分片数据操作,进行恢复的接管节点处理装置。
6.根据权利要求5所述的一种share nothing集群下的发起节点异常处理装置,其特征在于,还包括:
用于初始化集群并行任务管理软件操作状态的集群并行任务管理初始化操作状态装置;
用于分配给集群并行任务管理软件操作ID的集群管理软件分配ID操作装置;
用于在集群并行任务管理软件中选择要操作的分片数据的集群并行任务管理软件分片数据选择装置;
用于在集群管理软件中设置此分片数据为开始状态的集群管理软件分片数据开始状态设置装置;
用于在集群并行任务管理软件中处理分片数据内容集群并行任务管理软件分片数据内容处理装置;
用于在集群管理软件中设置此分片数据状态为结束的集群管理软件分片数据结束状态设置装置。
7.根据权利要求5所述的一种share nothing集群下的发起节点异常处理装置,其特征在于,还包括:
用于在集群管理软件中检测操作过程中的异常节点的集群管理软件异常节点检测装置;
用于选择之前注册过的接管节点作为新的处理节点的接管节点选择装置;
用于接管节点的集群并行任务管理软件从集群管理软件获取操作ID的分片数据状态信息获取操作ID的分片数据状态信息的获取装置;
用于在接管节点的集群并行任务管理软件中检查集群中分片数据的状态的集群分片数据状态的检测装置,以及用于选择出需要进行异常处理的分片数据进行处理的分片数据的异常处理的选择及处理装置;
用于在集群管理软件中设置结束状态的集群管理软件结束状态设置装置;
用于集群管理软件通知集群并行任务管理软件结束操作的并行任务管理软件结束操作通知装置;
用于在集群管理软件中结束操作,异常处理流程结束的集群管理软件操作结束装置及异常处理流程结束装置。
8.根据权利要求5所述的一种share nothing集群下的发起节点异常处理装置,其特征在于,还包括:
集群管理软件通过集群系统之间的高速网络检测各个节点的运行状态的集群软件各个节点的运行状态的高速网络检测装置。
CN201410727702.XA 2014-12-03 2014-12-03 一种share nothing集群下的发起节点异常处理方法及装置 Active CN104410698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410727702.XA CN104410698B (zh) 2014-12-03 2014-12-03 一种share nothing集群下的发起节点异常处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410727702.XA CN104410698B (zh) 2014-12-03 2014-12-03 一种share nothing集群下的发起节点异常处理方法及装置

Publications (2)

Publication Number Publication Date
CN104410698A CN104410698A (zh) 2015-03-11
CN104410698B true CN104410698B (zh) 2019-03-08

Family

ID=52648293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410727702.XA Active CN104410698B (zh) 2014-12-03 2014-12-03 一种share nothing集群下的发起节点异常处理方法及装置

Country Status (1)

Country Link
CN (1) CN104410698B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665158A (zh) * 2017-09-22 2018-02-06 郑州云海信息技术有限公司 一种存储集群恢复方法及设备
CN107704263B (zh) * 2017-10-19 2021-07-02 郑州云海信息技术有限公司 一种云环境下数据库管理方法及其装置
CN109189641A (zh) * 2018-08-29 2019-01-11 郑州云海信息技术有限公司 一种分布式系统的后台任务监控方法及装置
CN110392106A (zh) * 2019-07-19 2019-10-29 深圳前海微众银行股份有限公司 一种作业状态的推送方法及装置
CN110362362A (zh) * 2019-07-24 2019-10-22 北京明略软件系统有限公司 任务调度方法及装置、存储介质、电子装置
CN111381969B (zh) * 2020-03-16 2021-10-26 北京康吉森技术有限公司 一种分布式软件的管理方法及其系统
CN118394562B (zh) * 2024-07-01 2024-10-15 戎行技术有限公司 资源异常处理方法、系统及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1336589A (zh) * 2000-07-28 2002-02-20 国际商业机器公司 数据管理应用程序的故障恢复方法和系统
CN101217402A (zh) * 2008-01-15 2008-07-09 杭州华三通信技术有限公司 一种提高集群可靠性的方法和一种高可靠性通信节点
CN101986272A (zh) * 2010-11-05 2011-03-16 北京大学 一种云计算环境下的任务调度方法
CN102148850A (zh) * 2010-08-09 2011-08-10 华为软件技术有限公司 一种集群系统的业务处理方法及集群系统
CN102970167A (zh) * 2012-11-26 2013-03-13 华为技术有限公司 集群系统中网络节点的故障检测方法、网络节点和系统
CN103189847A (zh) * 2010-11-05 2013-07-03 国际商业机器公司 集群式数据处理系统中的存储装置管理

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4627491B2 (ja) * 2005-01-19 2011-02-09 株式会社イマジオム クラスタコンピュータミドルウェアプログラム、クラスタコンピュータシミュレータプログラム、クラスタコンピュータ用アプリケーションプログラム、およびアプリケーションプログラム開発支援方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1336589A (zh) * 2000-07-28 2002-02-20 国际商业机器公司 数据管理应用程序的故障恢复方法和系统
CN101217402A (zh) * 2008-01-15 2008-07-09 杭州华三通信技术有限公司 一种提高集群可靠性的方法和一种高可靠性通信节点
CN102148850A (zh) * 2010-08-09 2011-08-10 华为软件技术有限公司 一种集群系统的业务处理方法及集群系统
CN101986272A (zh) * 2010-11-05 2011-03-16 北京大学 一种云计算环境下的任务调度方法
CN103189847A (zh) * 2010-11-05 2013-07-03 国际商业机器公司 集群式数据处理系统中的存储装置管理
CN102970167A (zh) * 2012-11-26 2013-03-13 华为技术有限公司 集群系统中网络节点的故障检测方法、网络节点和系统

Also Published As

Publication number Publication date
CN104410698A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104410698B (zh) 一种share nothing集群下的发起节点异常处理方法及装置
US10261853B1 (en) Dynamic replication error retry and recovery
CN108768877B (zh) 一种突发流量的分配方法、装置及代理服务器
EP2972746B1 (en) Storage unit selection for virtualized storage units
EP3335120B1 (en) Method and system for resource scheduling
US11334422B2 (en) System and method for data redistribution in a database
US20150149813A1 (en) Failure recovery system and method of creating the failure recovery system
US20170322826A1 (en) Setting support program, setting support method, and setting support device
TW201535266A (zh) 虛擬機器之資源調整方法及系統
CN112636942B (zh) 业务主机节点的监测方法及装置
CN110674008B (zh) Ssd的问题盘日志信息收集方法、装置、设备及介质
CN110516738B (zh) 一种分布式比对聚类方法、装置、电子设备及存储介质
US11349730B2 (en) Operation device and operation method
WO2015090044A1 (zh) 一种数据扫描的方法及装置
CN105786585A (zh) 在线迁移内存数据的系统和方法
US20210240698A1 (en) Asynchronous remote calls with undo data structures
CN104580498B (zh) 一种自适应云管理平台
JP6904155B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN104503846A (zh) 一种基于云计算系统的资源管理系统
JP7389370B2 (ja) 運用装置、保守管理システム、運用方法およびプログラム
CN104506663B (zh) 一种智能云计算运行管理系统
JP5530810B2 (ja) スケールアウトシステムおよび方法ならびにプログラム
EP4105779A1 (en) Workload aware networking in a microservice architecture
US10999350B2 (en) Supercomputer system, method of data transmission in such supercomputer system and associated computer program product
CN114095514B (zh) 一种数据库访问方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant