CN106027290B - 故障处理方法及装置 - Google Patents

故障处理方法及装置 Download PDF

Info

Publication number
CN106027290B
CN106027290B CN201610316996.6A CN201610316996A CN106027290B CN 106027290 B CN106027290 B CN 106027290B CN 201610316996 A CN201610316996 A CN 201610316996A CN 106027290 B CN106027290 B CN 106027290B
Authority
CN
China
Prior art keywords
node
count value
preset threshold
virtual
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610316996.6A
Other languages
English (en)
Other versions
CN106027290A (zh
Inventor
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yongxing Shenzhen Polytron Technologies Inc
Original Assignee
Yongxing Shenzhen Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongxing Shenzhen Polytron Technologies Inc filed Critical Yongxing Shenzhen Polytron Technologies Inc
Priority to CN201610316996.6A priority Critical patent/CN106027290B/zh
Publication of CN106027290A publication Critical patent/CN106027290A/zh
Application granted granted Critical
Publication of CN106027290B publication Critical patent/CN106027290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种故障处理方法,应用于数据库集群,该故障处理方法包括以下步骤:接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。本发明还公开了一种故障处理装置。本发明能够提高数据库集群工作的稳定性。

Description

故障处理方法及装置
技术领域
本发明涉及数据库技术领域,尤其涉及一种故障处理方法及装置。
背景技术
目前,数据库集群广泛应用于各种领域,用于储存海量数据。通常的,数据库集群由一台主节点和多台从节点组成,其中,主节点和从节点均配置有虚拟IP,使得客户端可以通过虚拟IP访问数据库,以查询数据或操作数据。然而,在实际运行过程中,数据库集群经常面对海量的数据写入或读取,使得数据库集群存在一定的故障率。
现有技术中,对于数据库集群的故障处理并不完善:在主节点发生故障时,通常进行主从倒换,即将一台从节点提升为主节点,并将原主节点的虚拟IP迁移至新的主节点,以维持数据库集群正常运行。但是,当有从节点发生故障时,现有技术并没有对从节点进行维护的策略,随着更多的从节点发生故障,将使得整个数据库集群崩溃,停止服务。现有技术中,存在数据库集群工作稳定性较低的问题。
发明内容
本发明的主要目的在于提供一种故障处理方法及装置,旨在提高数据库集群工作的稳定性。
为实现上述目的,本发明提供一种故障处理方法,应用于包括主节点和多个从节点的数据库集群,该故障处理方法包括以下步骤:
接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
可选地,所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤之前,还包括:
在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;
若否则转入执行所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤,包括:
确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;
将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
可选地,所述确定各从节点的计数值是否均达到所述第一预设阈值的步骤之前,还包括:
在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至所述主节点。
可选地,所述确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点的步骤之后,还包括:
在存在多个当前负载最小的从节点时,将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
可选地,所述接收并统计客户端返回的业务请求失败信息的步骤之后,还包括:
在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
此外,为实现上述目的,本发明还提供一种故障处理装置,应用于包括主节点和多个从节点的数据库集群,该故障处理装置包括:
统计模块,用于接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
迁移模块,用于在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
可选地,所述迁移模块还用于,
在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;以及
在存在计数值未达到所述第一预设阈值的从节点时,确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;以及
将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
可选地,所述迁移模块还用于,在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至主节点。
可选地,所述迁移模块还用于,在存在多个当前负载最小的从节点时,将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
可选地,所述迁移模块还用于,在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
本发明提出的故障处理方法及装置,通过统计客户端返回的业务请求失败信息的数量,对从节点的工作状态进行判断,以在有从节点故障时,将故障从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替故障从节点提供服务,从而维持整个数据库集群的正常工作,提高数据库集群工作的稳定性。
附图说明
图1为本发明故障处理方法第一实施例的流程示意图;
图2为本发明故障处理方法第二实施例的流程示意图;
图3为本发明故障处理方法第三实施例的流程示意图;
图4为本发明故障处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种故障处理方法,应用于数据库集群,该数据库集群包括主节点和多个从节点,参照图1,在本发明故障处理方法的第一实施例中,该故障处理方法包括:
步骤S10,接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
在本发明实施例中,该故障处理方法由故障处理装置执行。通过故障处理装置统计客户端返回的业务请求失败信息,对从节点的工作状态进行判断,以在有从节点故障时,将故障从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替故障从节点提供服务,从而维持整个数据库集群的正常工作。
具体的,客户端用于访问数据库集群的业务请求中携带有具体的从节点或主节点的虚拟IP,以访问指定的从节点或主节点。客户端在发出携带虚拟IP的业务请求的同时,开始计时,若在第一预设时间段内未接收到数据库集群的响应,则确定此次业务请求失败,发送业务请求失败信息至故障处理装置。其中,本实施例并不限定该第一预设时间段的取值,具体可按实际需要进行设置,例如,本实施例将第一预设时间段设置为5秒。
故障处理装置接收各客户端发送的业务请求失败信息,并根据接收的业务请求失败信息中携带的虚拟IP对相应的主节点或从节点进行计数。例如,在接收到的业务请求失败信息所携带的虚拟IP对应主节点时,则对主节点的计数值加1;在接收到的业务请求失败信息携带的虚拟IP对应从节点1时,则对从节点1的计数值加1;在接收到的业务请求失败信息携带的虚拟IP对应从节点2时,则对从节点2的计数值加1。
此外,在其它实施例中,在对客户端返回的业务请求失败信息进行统计时,若在接收到对应主节点或从节点的业务请求失败信息之后第二预设时间段内,未接到对应该同一主节点或从节点的业务请求失败信息,则初始化该主节点或从节点的计数值,重新开始统计。其中,本实施例并不限定该第二预设时间段的取值,具体可按实际需要进行设置,例如,本实施例将第二预设时间段设置为1小时。
步骤S20,在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
基于前述描述,本领域技术人员可以理解的是,本实施例对接收的业务请求失败信息进行统计的目的在于确定是否有从节点或主节点发生故障。
在本发明实施例中,若有从节点的计数值达到第一预设阈值,则确定该 从节点发送故障,不能继续提供服务。此时,将该计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,本领域技术人员可以理解的是,在完成迁移转之后,指向前述虚拟IP的业务请求将被导向至该迁移的其它节点,由该迁移的其它从节点代替计数值达到第一预设阈值的从节点向业务请求的源客户端提供服务。
其中,第一预设阈值用于对从节点是否发生故障进行限定,本实施例对其取值不做限制,具体可按实际需要进行设置,例如,本实施例将该第一预设阈值设置为10,即针对同一从节点,当对应该从节点的业务请求失败信息的计数值为10时,确定该从节点故障,此时将该从节点的虚拟IP迁移至其它从节点。
本实施例提出的故障处理方法,通过统计客户端返回的业务请求失败信息的数量,对从节点的工作状态进行判断,以在有从节点故障时,将故障从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替故障从节点提供服务,从而维持整个数据库集群的正常工作,提高数据库集群工作的稳定性。
进一步地,基于第一实施例,提出了本发明故障处理方法的第二实施例,参照图2,在本实施中,步骤S20之前,还包括:
步骤S30,在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;
若否则转入执行步骤S20,步骤S20包括:
步骤S201,确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;
步骤S202,将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
需要说明的是,以下仅对本实施例与第一实施例的区别进行说明,其他可具体参照第一实施例,此处不再赘述。
在本发明实施例中,在对故障从节点的虚拟IP进行迁移之前,首先对其它从节点的故障状态进行判断,即确定各从节点的计数值是否均达到前述第一预设阈值,在存在计数值未达到第一预设阈值的从节点时,判定此时可以进行迁移。然后确定计数值未达到所述第一预设阈值的从节点中当前负载最 小的从节点,作为迁移节点,再将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
进一步的,在本发明实施例中,前述在确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点时,若存在多个当前负载最小的从节点时,将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
进一步的,为确保数据库集群的服务不中断,在本发明实施例中,步骤S30之后,还包括:
步骤S40,在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至所述主节点。
基于前述描述,本领域技术人员可以理解的是,在各从节点的计数值均达到所述第一预设阈值时,说明此时所有的从节点均发生故障,不能继续提供服务,因此,本实施例在各从节点的计数值均达到前述第一预设阈值时,由故障处理装置将各从节点的虚拟IP均迁移至主节点,由主节点代理故障的各从节点继续提供服务。
本实施例通过在判定有从节点故障时,将故障从节点的虚拟IP迁移至当前负载最小的正常从节点,以维持数据库集群较高的工作效率;并在所有从节点故障时,将各从节点的虚拟IP均迁移至主节点,由主节点继续提供服务,确保服务不中断。
进一步地,基于前述任一实施例,提出了本发明故障处理方法的第三实施例,参照图3,在本实施例中,步骤S10之后,还包括:
步骤S50,在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
需要说明的是,以下仅对本实施例与前述各实施例的区别进行说明,其它可分别参照前述各实施例,此处不再赘述。
参照前述关于迁移从节点虚拟IP的描述,在本发明实施例中,在主节点发生故障时,同样需要将主节点的虚拟IP进行迁移。
具体的,在统计的主节点的计数值达到第二预设阈值时,故障处理装置确定主节点故障,进一步地确定计数值未达到第一预设阈值的从节点,将主节点的虚拟IP迁移至确定的从节点,由迁移的从节点代替故障主节点继续提 供服务。
其中,第二预设阈值用于对主节点是否发生故障进行限定,本实施例对其取值不做限制,具体可按实际需要进行设置,可以设置为与第一预设阈值相同,也可以设置为与第一预设阈值不同,例如,本实施例将该第二预设阈值设置为10,即针对主节点,当对应主节点的业务请求失败信息的计数值为10时,确定该主节点故障,此时将该主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
进一步地,为维持整个数据库集群的工作效率,可选地,在迁移主节点的虚拟IP时,可将主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点中当前负载最小的从节点;其中,若存在多个当前负载最小的从节点,则将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
本实施例通过在主节点故障时,将主节点的虚拟IP迁移至正常工作的从节点,确保数据库集群工作的稳定性。
本发明还提供一种执行前述故障处理方法的故障处理装置,应用于数据库集群,该数据库集群包括主节点和多个从节点,参照图4,在本发明故障处理装置的第一实施例中,该故障处理装置包括:
统计模块10,用于接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
在本发明实施例中,通过故障处理装置统计客户端返回的业务请求失败信息,对从节点的工作状态进行判断,以在有从节点故障时,将故障从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替故障从节点提供服务,从而维持整个数据库集群的正常工作。
具体的,客户端用于访问数据库集群的业务请求中携带有具体的从节点或主节点的虚拟IP,以访问指定的从节点或主节点。客户端在发出携带虚拟IP的业务请求的同时,开始计时,若在第一预设时间段内未接收到数据库集群的响应,则确定此次业务请求失败,发送业务请求失败信息至故障处理装置。其中,本实施例并不限定该第一预设时间段的取值,具体可按实际需要进行设置,例如,本实施例将第一预设时间段设置为5秒。
统计模块10接收各客户端发送的业务请求失败信息,并根据接收的业务 请求失败信息中携带的虚拟IP对相应的主节点或从节点进行计数。例如,在接收到的业务请求失败信息所携带的虚拟IP对应主节点时,则对主节点的计数值加1;在接收到的业务请求失败信息携带的虚拟IP对应从节点1时,则对从节点1的计数值加1;在接收到的业务请求失败信息携带的虚拟IP对应从节点2时,则对从节点2的计数值加1。
此外,在其它实施例中,在对客户端返回的业务请求失败信息进行统计时,若在接收到对应主节点或从节点的业务请求失败信息之后第二预设时间段内,未接到对应该同一主节点或从节点的业务请求失败信息,则统计模块10初始化该主节点或从节点的计数值,重新开始统计。其中,本实施例并不限定该第二预设时间段的取值,具体可按实际需要进行设置,例如,本实施例将第二预设时间段设置为1小时。
迁移模块20,用于在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
基于前述描述,本领域技术人员可以理解的是,本实施例对接收的业务请求失败信息进行统计的目的在于确定是否有从节点或主节点发生故障。
在本发明实施例中,若有从节点的计数值达到第一预设阈值,则迁移模块20确定该从节点发送故障,不能继续提供服务。此时,迁移模块20将该计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,本领域技术人员可以理解的是,在完成迁移转之后,指向前述虚拟IP的业务请求将被导向至该迁移的其它节点,由该迁移的其它从节点代替计数值达到第一预设阈值的从节点向业务请求的源客户端提供服务。
其中,第一预设阈值用于对从节点是否发生故障进行限定,本实施例对其取值不做限制,具体可按实际需要进行设置,例如,本实施例将该第一预设阈值设置为10,即针对同一从节点,当对应该从节点的业务请求失败信息的计数值为10时,迁移模块20确定该从节点故障,此时将该从节点的虚拟IP迁移至其它从节点。
本实施例提出的故障处理装置,通过统计客户端返回的业务请求失败信息的数量,对从节点的工作状态进行判断,以在有从节点故障时,将故障从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替故障从节点提供 服务,从而维持整个数据库集群的正常工作,提高数据库集群工作的稳定性。
进一步地,基于第一实施例,提出了本发明故障处理装置的第二实施例,在本实施中,所述迁移模块20还用于,
在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;以及
在存在计数值未达到所述第一预设阈值的从节点时,确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;以及
将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
需要说明的是,以下仅对本实施例与第一实施例的区别进行说明,其他可具体参照第一实施例,此处不再赘述。
在本发明实施例中,在对故障从节点的虚拟IP进行迁移之前,迁移模块20首先对其它从节点的故障状态进行判断,即确定各从节点的计数值是否均达到前述第一预设阈值,在存在计数值未达到第一预设阈值的从节点时,迁移模块20判定此时可以进行迁移。然后确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点,再将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
进一步的,在本发明实施例中,前述在确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点时,若存在多个当前负载最小的从节点时,迁移模块20将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
进一步的,为确保数据库集群的服务不中断,在本发明实施例中,迁移模块20还用于,在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至所述主节点。
基于前述描述,本领域技术人员可以理解的是,在各从节点的计数值均达到所述第一预设阈值时,说明此时所有的从节点均发生故障,不能继续提供服务,因此,本实施例在各从节点的计数值均达到前述第一预设阈值时,由迁移模块20将各从节点的虚拟IP均迁移至主节点,由主节点代理故障的各从节点继续提供服务。
本实施例通过在判定有从节点故障时,将故障从节点的虚拟IP迁移至当 前负载最小的正常从节点,以维持数据库集群较高的工作效率;并在所有从节点故障时,将各从节点的虚拟IP均迁移至主节点,由主节点继续提供服务,确保服务不中断。
进一步地,基于前述任一实施例,提出了本发明故障处理装置的第三实施例,在本实施例中,所述迁移模块20还用于,在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
需要说明的是,以下仅对本实施例与前述各实施例的区别进行说明,其它可分别参照前述各实施例,此处不再赘述。
参照前述关于迁移从节点虚拟IP的描述,在本发明实施例中,在主节点发生故障时,同样需要迁移模块20将主节点的虚拟IP进行迁移。
具体的,在统计的主节点的计数值达到第二预设阈值时,迁移模块20确定主节点故障,进一步地确定计数值未达到第一预设阈值的从节点,将主节点的虚拟IP迁移至确定的从节点,由迁移的从节点代替故障主节点继续提供服务。
其中,第二预设阈值用于对主节点是否发生故障进行限定,本实施例对其取值不做限制,具体可按实际需要进行设置,可以设置为与第一预设阈值相同,也可以设置为与第一预设阈值不同,例如,本实施例将该第二预设阈值设置为10,即针对主节点,当对应主节点的业务请求失败信息的计数值为10时,迁移模块20确定该主节点故障,此时将该主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
进一步地,为维持整个数据库集群的工作效率,可选地,在迁移主节点的虚拟IP时,迁移模块20可将主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点中当前负载最小的从节点;其中,若存在多个当前负载最小的从节点,则迁移模块20将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
本实施例通过在主节点故障时,将主节点的虚拟IP迁移至正常工作的从节点,确保数据库集群工作的稳定性。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术邻域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种故障处理方法,应用于数据库集群,其特征在于,所述数据库集群包括主节点和多个从节点,所述故障处理方法包括以下步骤:
接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
2.根据权利要求1所述的故障处理方法,其特征在于,所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤之前,还包括:
在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;
若否则转入执行所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤,包括:
确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;
将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
3.根据权利要求2所述的故障处理方法,其特征在于,所述确定各从节点的计数值是否均达到所述第一预设阈值的步骤之后,还包括:
在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至所述主节点。
4.根据权利要求2所述的故障处理方法,其特征在于,所述确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点的步骤之后,还包括:
在存在多个当前负载最小的从节点时,将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
5.根据权利要求1-4任一项所述的故障处理方法,其特征在于,所述接收并对客户端返回的业务请求失败信息进行计数的步骤之后,还包括:
在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
6.一种故障处理装置,应用于数据库集群,其特征在于,所述数据库集群包括主节点和多个从节点,所述故障处理装置包括:
统计模块,用于接收并对客户端返回的业务请求失败信息进行计数,其中,所述业务请求失败信息携带有主节点信息或从节点信息;
迁移模块,用于在有从节点的计数值达到第一预设阈值时,将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点,由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。
7.根据权利要求6所述的故障处理装置,其特征在于,所述迁移模块还用于,
在有从节点的计数值达到第一预设阈值时,确定各从节点的计数值是否均达到所述第一预设阈值;以及
在存在计数值未达到所述第一预设阈值的从节点时,确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点,作为迁移节点;以及
将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。
8.根据权利要求7所述的故障处理装置,其特征在于,所述迁移模块还用于,在各从节点的计数值均达到所述第一预设阈值时,将各从节点的虚拟IP迁移至主节点。
9.根据权利要求7所述的故障处理装置,其特征在于,所述迁移模块还用于,在存在多个当前负载最小的从节点时,将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。
10.根据权利要求6-9任一项所述的故障处理装置,其特征在于,所述迁移模块还用于,在所述主节点的计数值达到第二预设阈值时,将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。
CN201610316996.6A 2016-05-12 2016-05-12 故障处理方法及装置 Active CN106027290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610316996.6A CN106027290B (zh) 2016-05-12 2016-05-12 故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610316996.6A CN106027290B (zh) 2016-05-12 2016-05-12 故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN106027290A CN106027290A (zh) 2016-10-12
CN106027290B true CN106027290B (zh) 2019-03-29

Family

ID=57099806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610316996.6A Active CN106027290B (zh) 2016-05-12 2016-05-12 故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN106027290B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847980A (zh) * 2018-06-21 2018-11-20 郑州云海信息技术有限公司 一种ctdb节点故障虚拟ip迁移的方法及装置
CN110708177B (zh) * 2018-07-09 2022-08-09 阿里巴巴集团控股有限公司 分布式系统中的异常处理方法、系统和装置
CN111385352A (zh) * 2020-02-26 2020-07-07 深信服科技股份有限公司 一种实例的控制方法、节点、终端和分布式存储系统
CN113596195B (zh) * 2021-08-23 2022-11-22 重庆紫光华山智安科技有限公司 公共ip地址管理方法、装置、主节点及存储介质
CN114598711B (zh) * 2022-03-29 2024-04-16 百果园技术(新加坡)有限公司 一种数据迁移方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554055A (zh) * 2001-07-23 2004-12-08 �Ƚ�΢װ�ù�˾ 高可用性集群虚拟服务器系统
US8930539B1 (en) * 2009-03-26 2015-01-06 Symantec Corporation Method and apparatus for optimizing resource utilization within a cluster and facilitating high availability for an application
CN104765889A (zh) * 2015-04-30 2015-07-08 北京奇虎科技有限公司 基于数据库高可用框架的切换方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1554055A (zh) * 2001-07-23 2004-12-08 �Ƚ�΢װ�ù�˾ 高可用性集群虚拟服务器系统
US8930539B1 (en) * 2009-03-26 2015-01-06 Symantec Corporation Method and apparatus for optimizing resource utilization within a cluster and facilitating high availability for an application
CN104765889A (zh) * 2015-04-30 2015-07-08 北京奇虎科技有限公司 基于数据库高可用框架的切换方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Keepalived的动态浮动IP集群实现;钱景辉 等;《化工自动化及仪表》;20120710;全文

Also Published As

Publication number Publication date
CN106027290A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106027290B (zh) 故障处理方法及装置
CN106803790B (zh) 一种集群系统的升级控制方法及装置
CN105429776B (zh) 一种虚拟化网络功能管理的方法和系统
CN105446827B (zh) 一种数据库故障时的数据存储方法和设备
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
CN106301876B (zh) 物理机升级方法、业务迁移方法及装置
CN109525658A (zh) 一种产号方法、服务器、设备、存储介质和业务系统
CN107870948A (zh) 任务调度方法和装置
CN107122271B (zh) 一种恢复节点事件的方法、装置及系统
CN106681839B (zh) 弹性计算动态分配方法
JP7037066B2 (ja) 評価装置、評価方法および評価プログラム
CN110134503B (zh) 一种集群环境下的定时任务处理方法、装置及存储介质
CN112199240B (zh) 一种节点故障时进行节点切换的方法及相关设备
CN108319492B (zh) 复位物理机的方法、装置与系统
CN105589772A (zh) 检测fpga芯片逻辑挂死的方法和装置
CN105208060A (zh) 业务数据同步方法、装置及系统
CN114675957B (zh) 插件熔断方法、装置、终端设备及计算机可读存储介质
CN107193649A (zh) 一种基于numa系统的任务调度方法及装置
CN103827831A (zh) 活动模块诊断测试
CN103995901B (zh) 一种确定数据节点失效的方法
CN105005492A (zh) 一种嵌入式设备以及一种软件升级方法
CN112865995B (zh) 分布式主从系统
CN112506802A (zh) 测试数据的管理方法及系统
JP2011209811A (ja) 仮想マシンシステムおよび仮想マシン配置方法
CN110019372A (zh) 数据监控方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant after: Yongxing Shenzhen Polytron Technologies Inc

Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402

Applicant before: Shenzhen Longrise Technology Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant