CN104283710A - 数据库集群的故障处理方法和管理服务器 - Google Patents

数据库集群的故障处理方法和管理服务器 Download PDF

Info

Publication number
CN104283710A
CN104283710A CN201410406483.5A CN201410406483A CN104283710A CN 104283710 A CN104283710 A CN 104283710A CN 201410406483 A CN201410406483 A CN 201410406483A CN 104283710 A CN104283710 A CN 104283710A
Authority
CN
China
Prior art keywords
machine
main frame
break down
virtual
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410406483.5A
Other languages
English (en)
Inventor
江佳峻
刘�东
李晓东
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201410406483.5A priority Critical patent/CN104283710A/zh
Publication of CN104283710A publication Critical patent/CN104283710A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据库集群的故障处理方法和管理服务器。数据库集群包括主机和多台从机,主机和每一从机均配置有虚拟IP,故障处理方法包括:监控数据库集群的运行状况;根据监控到的运行状况判断数据库集群是否发生故障;如果数据库集群发生故障,确认主机发生故障还是从机发生故障;如果从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。本发明能够在数据库集群的从机发生故障时仍然保证数据库集群正常运行。

Description

数据库集群的故障处理方法和管理服务器
技术领域
本发明涉及数据库维护技术领域,尤其是一种数据库集群的故障处理方法和管理服务器。
背景技术
目前,数据库集群广泛应用于各种领域,尤其是用于存储海量数据。数据库集群的组成通常包括一台主机(Master)和多台从机(Slaver)。主机和从机均配置有虚拟IP(Internet Protocol,因特网互联协议),使得应用服务可以通过虚拟IP访问数据库。在实际运行中,数据库集群常常面对海量的数据写入或读取,这就造成数据库集群存在一定的故障率,如发生内存异常、主板异常、宕机等。
现有技术中,对于数据库集群的故障处理并不完善,所以数据库集群的可用度并不高。以MySQL MHA(Master High Availability)集群为例,数据库集群包括一台主机和两台从机。当主机发生宕机时,系统会将一台从机提升为新的主机,并且将原来的主机的虚拟IP迁移到新的主机上,在这种情况下数据库集群是可以勉强正常运行的。但是,当一台从机发生宕机时,数据库集群没有对从机进行维护的策略,并且从机也没有设置虚拟IP迁移机制,所以这就会导致数据库集群出现问题,难以保证数据库集群的高可用度。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种数据库集群的故障处理方法和管理服务器,能够在数据库集群的从机发生故障时仍然保证数据库集群正常运行。
本发明采用的技术方案是:提供一种数据库集群的故障处理方法,所述数据库集群包括主机和多台从机,所述主机和每一所述从机均配置有虚拟IP,所述故障处理方法包括:监控所述数据库集群的运行状况;根据监控到的运行状况判断所述数据库集群是否发生故障;如果所述数据库集群发生故障,确认所述主机发生故障还是所述从机发生故障;如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。
优选地,所述如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上的步骤具体包括:如果所述从机发生故障,确认是否存在没有发生故障的从机;如果存在没有发生故障的从机,从没有发生故障的从机中选定一台从机,将发生故障的从机的虚拟IP迁移至所述选定的从机上。
优选地,所述如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上的步骤还包括:如果所有从机均发生故障,将发生故障的所有从机的虚拟IP迁移至所述主机。
优选地,所述故障处理方法还包括:如果所述主机发生故障,将所述多台从机中的一台从机提升为备用主机,以代替所述故障的主机;将所述故障的主机的虚拟IP迁移至所述备用主机,并将所述备用主机的虚拟IP迁移至其它从机。
优选地,所述主机仅用于写入数据,所述从机仅用于读取数据。
本发明采用的技术方案是:提供一种数据库集群的管理服务器,所述数据库集群包括主机和多台从机,所述主机和每一所述从机均配置有虚拟IP,所述管理服务器包括:监控模块,用于监控所述数据库集群的运行状况;判断模块,用于根据监控到的运行状况判断所述数据库集群是否发生故障;故障确认模块,用于在所述判断模块判断到所述数据库集群发生故障时,确认所述主机发生故障还是所述从机发生故障;迁移模块,用于在所述故障确认模块确认所述从机发生故障时,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。
优选地,所述迁移模块具体包括:确认单元,用于在所述故障确认模块确认所述从机发生故障时,确认是否存在没有发生故障的从机;迁移单元,用于在所述确认单元确认存在没有发生故障的从机时,从没有发生故障的从机中选定一台从机,将发生故障的从机的虚拟IP迁移至所述选定的从机上。
优选地,所述迁移单元还用于在所述确认单元确认所有从机均发生故障时,将发生故障的所有从机的虚拟IP迁移至所述主机。
优选地,所述管理服务器还包括提升模块,所述提升模块用于在所述故障确认模块确认所述主机发生故障时,将所述多台从机中的一台从机提升为备用主机,以代替所述故障的主机;所述迁移模块还用于将所述故障的主机的虚拟IP迁移至所述备用主机,并将所述备用主机的虚拟IP迁移至其它从机。
优选地,所述主机仅用于写入数据,所述从机仅用于读取数据。
综上所述,由于采用了上述技术方案,本发明的有益效果是:在从机发生故障是,将发生故障的从机的虚拟IP迁移至没有发生故障的从机,通过这种方式,能够在数据库集群的从机发生故障时仍然保证数据库集群正常运行,可以保证数据库集群的正常、稳定运行,实现数据库集群的高可用度。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明实施例的数据库集群的故障处理方法的流程示意图。
图2是图1所示的故障处理方法在从机发生故障时的处理流程图。
图3是本发明实施例的数据库集群的管理服务器的结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,是本发明实施例的本发明实施例的数据库集群的故障处理方法的流程示意图。数据库集群包括主机和多台从机,所述主机和每一所述从机均配置有虚拟IP。本实施例中,主机仅用于写入数据,从机仅用于读取数据。本实施例的故障处理方法包括以下步骤:
S1:监控数据库集群的运行状况。
其中,具体可以监控数据库集群的内存运行状况、主板运行状况等。为了防止以较高的频率监控而浪费系统的资源,本实施例中可以以3分钟到5分钟的周期监控数据库集群的运行状况。譬如根据数据库集群的情况而设置周期为5分钟,接着,每5分钟获取数据库集群的运行状况。
S2:根据监控到的运行状况判断数据库集群是否发生故障。
其中,运行状况是数据库集群的整体运行状况,如果主机或者某台从机发生故障,都会造成数据库集群发生故障。
S3:如果数据库集群发生故障,确认主机发生故障还是从机发生故障。
其中,确认主机或从机发生故障时,可以从主机开始轮询每一台从机是否发生故障。可以通过向主机和从机读取数据或者写入数据的方式确认主机和从机是否发生故障。
S4:如果从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。
其中,由于发生故障的虚拟IP迁移到正常的从机,所以应用服务通过虚拟IP访问数据库时,不会访问到发生故障的从机,从而能够在从机发生故障时仍然保证数据库集群正常运行。
请继续参见图1,在本实施例中,故障处理方法还包括:
S5:如果主机发生故障,将多台从机中的一台从机提升为备用主机,以代替故障的主机。
其中,备用主机可以是多台从机中满足预定策略的从机,预定策略可以是负载最小、网络状况最好、处理速度最快等。
S6:将故障的主机的虚拟IP迁移至备用主机,并将备用主机的虚拟IP迁移至其它从机。
其中,虽然主机已经更换,但是主机的虚拟IP仍然没有改变,应用服务不会发觉已经更改了主机,因此,可以保证数据库系统继续正常、稳定运行。
如图3所示,是本发明实施例的数据库集群的管理服务器的结构示意图。本实施例的数据库集群包括主机和多台从机,主机和每一从机均配置有虚拟IP。本实施例中的主机仅用于写入数据,从机仅用于读取数据。管理服务器包括:
监控模块11,用于监控数据库集群的运行状况。其中,监控模块11具体可以监控数据库集群的内存运行状况、主板运行状况等。为了防止以较高的频率监控而浪费系统的资源,本实施例中监控模块11可以以3分钟到5分钟的周期监控数据库集群的运行状况。譬如根据数据库集群的情况而设置周期为5分钟,接着,每5分钟获取数据库集群的运行状况。
判断模块12,用于根据监控到的运行状况判断数据库集群是否发生故障。其中,运行状况是数据库集群的整体运行状况,如果主机或者某台从机发生故障,都会造成数据库集群发生故障。
故障确认模块13,用于在判断模块12判断到数据库集群发生故障时,确认主机发生故障还是从机发生故障。其中,确认主机或从机发生故障时,可以从主机开始轮询每一台从机是否发生故障。可以通过向主机和从机读取数据或者写入数据的方式确认主机和从机是否发生故障。
迁移模块14,用于在故障确认模块13确认从机发生故障时,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。其中,由于发生故障的虚拟IP迁移到正常的从机,所以应用服务通过虚拟IP访问数据库时,不会访问到发生故障的从机,从而能够在从机发生故障时仍然保证数据库集群正常运行。
在本实施例中,迁移模块14具体包括:确认单元141,用于在故障确认模块13确认从机发生故障时,确认是否存在没有发生故障的从机;迁移单元142,用于在确认单元141确认存在没有发生故障的从机时,从没有发生故障的从机中选定一台从机,将发生故障的从机的虚拟IP迁移至选定的从机上,以及在确认单元141确认所有从机均发生故障时,将发生故障的所有从机的虚拟IP迁移至主机。
请继续参见图3,在本实施例中,管理服务器还包括提升模块15。提升模块15用于在故障确认模块13确认主机发生故障时,将多台从机中的一台从机提升为备用主机,以代替故障的主机;迁移模块14还用于将故障的主机的虚拟IP迁移至备用主机,并将备用主机的虚拟IP迁移至其它从机。其中,备用主机可以是多台从机中满足预定策略的从机,预定策略可以是负载最小、网络状况最好、处理速度最快等。在提升从机为主机后,虽然主机已经更换,但是主机的虚拟IP仍然没有改变,应用服务不会发觉已经更改了主机,因此,可以保证数据库系统继续正常、稳定运行。
本发明实施例的数据库集群的故障处理方法和管理服务器在从机发生故障是,将发生故障的从机的虚拟IP迁移至没有发生故障的从机,通过这种方式,能够在数据库集群的从机发生故障时仍然保证数据库集群正常运行,可以保证数据库集群的正常、稳定运行,实现数据库集群的高可用度
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (10)

1.一种数据库集群的故障处理方法,其特征在于,所述数据库集群包括主机和多台从机,所述主机和每一所述从机均配置有虚拟IP,所述故障处理方法包括:
监控所述数据库集群的运行状况;
根据监控到的运行状况判断所述数据库集群是否发生故障;
如果所述数据库集群发生故障,确认所述主机发生故障还是所述从机发生故障;
如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。
2.根据权利要求1所述的故障处理方法,其特征在于,所述如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上的步骤具体包括:
如果所述从机发生故障,确认是否存在没有发生故障的从机;
如果存在没有发生故障的从机,从没有发生故障的从机中选定一台从机,将发生故障的从机的虚拟IP迁移至所述选定的从机上。
3.根据权利要求2所述的故障处理方法,其特征在于,所述如果所述从机发生故障,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上的步骤还包括:
如果所有从机均发生故障,将发生故障的所有从机的虚拟IP迁移至所述主机。
4.根据权利要求1至3任一项所述的故障处理方法,其特征在于,所述故障处理方法还包括:
如果所述主机发生故障,将所述多台从机中的一台从机提升为备用主机,以代替所述故障的主机;
将所述故障的主机的虚拟IP迁移至所述备用主机,并将所述备用主机的虚拟IP迁移至其它从机。
5.根据权利要求1所述的故障处理方法,其特征在于,所述主机仅用于写入数据,所述从机仅用于读取数据。
6.一种数据库集群的管理服务器,其特征在于,所述数据库集群包括主机和多台从机,所述主机和每一所述从机均配置有虚拟IP,所述管理服务器包括:
监控模块,用于监控所述数据库集群的运行状况;
判断模块,用于根据监控到的运行状况判断所述数据库集群是否发生故障;
故障确认模块,用于在所述判断模块判断到所述数据库集群发生故障时,确认所述主机发生故障还是所述从机发生故障;
迁移模块,用于在所述故障确认模块确认所述从机发生故障时,将发生故障的从机的虚拟IP迁移至没有发生故障的从机上。
7.根据权利要求6所述的管理服务器,其特征在于,所述迁移模块具体包括:
确认单元,用于在所述故障确认模块确认所述从机发生故障时,确认是否存在没有发生故障的从机;
迁移单元,用于在所述确认单元确认存在没有发生故障的从机时,从没有发生故障的从机中选定一台从机,将发生故障的从机的虚拟IP迁移至所述选定的从机上。
8.根据权利要求7所述的管理服务器,其特征在于,所述迁移单元还用于在所述确认单元确认所有从机均发生故障时,将发生故障的所有从机的虚拟IP迁移至所述主机。
9.根据权利要求6至9任一项所述的管理服务器,其特征在于,所述管理服务器还包括提升模块,所述提升模块用于在所述故障确认模块确认所述主机发生故障时,将所述多台从机中的一台从机提升为备用主机,以代替所述故障的主机;
所述迁移模块还用于将所述故障的主机的虚拟IP迁移至所述备用主机,并将所述备用主机的虚拟IP迁移至其它从机。
10.根据权利要求6所述的管理服务器,其特征在于,所述主机仅用于写入数据,所述从机仅用于读取数据。
CN201410406483.5A 2014-08-18 2014-08-18 数据库集群的故障处理方法和管理服务器 Pending CN104283710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410406483.5A CN104283710A (zh) 2014-08-18 2014-08-18 数据库集群的故障处理方法和管理服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410406483.5A CN104283710A (zh) 2014-08-18 2014-08-18 数据库集群的故障处理方法和管理服务器

Publications (1)

Publication Number Publication Date
CN104283710A true CN104283710A (zh) 2015-01-14

Family

ID=52258218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410406483.5A Pending CN104283710A (zh) 2014-08-18 2014-08-18 数据库集群的故障处理方法和管理服务器

Country Status (1)

Country Link
CN (1) CN104283710A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331098A (zh) * 2016-08-23 2017-01-11 东方网力科技股份有限公司 一种服务器集群系统
CN108599996A (zh) * 2018-04-03 2018-09-28 武汉斗鱼网络科技有限公司 数据库集群的故障处理方法、装置及终端
CN108881512A (zh) * 2018-06-15 2018-11-23 郑州云海信息技术有限公司 Ctdb的虚拟ip均衡分配方法、装置、设备及介质
CN109151028A (zh) * 2018-08-23 2019-01-04 郑州云海信息技术有限公司 一种分布式存储系统容灾方法及装置
CN109885016A (zh) * 2017-12-06 2019-06-14 富士迈半导体精密工业(上海)有限公司 半导体加工系统
CN113010599A (zh) * 2019-12-19 2021-06-22 中国移动通信集团四川有限公司 Mysql数据库组复制状态监控方法、装置和系统
CN113760523A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 Redis高热点数据迁移方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101686261A (zh) * 2009-09-01 2010-03-31 卡斯柯信号有限公司 一种基于rac的冗余服务器系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101686261A (zh) * 2009-09-01 2010-03-31 卡斯柯信号有限公司 一种基于rac的冗余服务器系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331098A (zh) * 2016-08-23 2017-01-11 东方网力科技股份有限公司 一种服务器集群系统
WO2018036148A1 (zh) * 2016-08-23 2018-03-01 东方网力科技股份有限公司 一种服务器集群系统
CN106331098B (zh) * 2016-08-23 2020-01-21 东方网力科技股份有限公司 一种服务器集群系统
CN109885016A (zh) * 2017-12-06 2019-06-14 富士迈半导体精密工业(上海)有限公司 半导体加工系统
CN108599996A (zh) * 2018-04-03 2018-09-28 武汉斗鱼网络科技有限公司 数据库集群的故障处理方法、装置及终端
CN108881512A (zh) * 2018-06-15 2018-11-23 郑州云海信息技术有限公司 Ctdb的虚拟ip均衡分配方法、装置、设备及介质
CN108881512B (zh) * 2018-06-15 2021-06-29 郑州云海信息技术有限公司 Ctdb的虚拟ip均衡分配方法、装置、设备及介质
CN109151028A (zh) * 2018-08-23 2019-01-04 郑州云海信息技术有限公司 一种分布式存储系统容灾方法及装置
CN113010599A (zh) * 2019-12-19 2021-06-22 中国移动通信集团四川有限公司 Mysql数据库组复制状态监控方法、装置和系统
CN113760523A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 Redis高热点数据迁移方法

Similar Documents

Publication Publication Date Title
CN104283710A (zh) 数据库集群的故障处理方法和管理服务器
CN202798798U (zh) 基于云计算技术的高可用系统
US9465704B2 (en) VM availability during management and VM network failures in host computing systems
CN102385541B (zh) 受控的数据中心服务的自动复原
CN104408071A (zh) 一种基于集群管理器的分布式数据库高可用方法及系统
CN108023967B (zh) 一种数据平衡方法、装置及分布式存储系统中的管理设备
CN102932409B (zh) 一种虚拟机在线迁移的方法和系统
US20190171442A1 (en) Software update control device, software update control method, and recording medium having software update control program stored thereon
US20140059315A1 (en) Computer system, data management method and data management program
CN109299063B (zh) 一种跨平台数据库迁移方法及系统
JP2011039740A (ja) サーバ管理システム、サーバ管理方法、及びプログラム
CN105357069A (zh) 分布式节点服务状态监测的方法、装置及系统
US9195528B1 (en) Systems and methods for managing failover clusters
CN114531373A (zh) 节点状态检测方法、节点状态检测装置、设备及介质
CN104268032B (zh) 一种多控制器的快照处理方法及装置
EP3316518B1 (en) Method and device for upgrading virtual network element, and computer storage medium
CN111240901A (zh) 分布式块存储系统的节点动态扩展系统、方法及设备
EP2798417B1 (en) A relay interface module for a distributed control system
CN103838642A (zh) 一种数据恢复方法、装置和系统
CN111949384B (zh) 任务调度方法、装置、设备及计算机可读存储介质
CN103442033A (zh) 一种运行状态信息的同步方法和设备
US20140052807A1 (en) Server and method for controlling sharing of fans
EP3719599A1 (en) Network-distributed process control system and method for managing redundancy thereof
CN107506214B (zh) 一种集群系统控制器的更新方法及更新系统
JP6237055B2 (ja) ライセンス管理システム、装置、方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150114