CN116166460A - 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统 - Google Patents

应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统 Download PDF

Info

Publication number
CN116166460A
CN116166460A CN202211474258.6A CN202211474258A CN116166460A CN 116166460 A CN116166460 A CN 116166460A CN 202211474258 A CN202211474258 A CN 202211474258A CN 116166460 A CN116166460 A CN 116166460A
Authority
CN
China
Prior art keywords
database server
slave
initial
master database
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211474258.6A
Other languages
English (en)
Inventor
刘丽华
王懋
曾熠
朱蒙娜
乔宏
韩翠红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211474258.6A priority Critical patent/CN116166460A/zh
Publication of CN116166460A publication Critical patent/CN116166460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

根据本公开的实施例提供了一种应用于集群数据库系统的管理控制方法,所述集群数据库系统包括管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,所述管理控制方法包括:响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;确定与该更新日志最接近的一所述从数据库服务器;利用该更新日志控制修复所述多个从数据库服务器上的数据信息;切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及控制建立所述新主数据库服务器与其他所述从数据库服务器的主从备份连接。本公开地实施例进一步提供了一种集群数据库系统以及管理控制器。

Description

应用于集群数据库系统的管理控制方法、管理控制器以及集 群数据库系统
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统。
背景技术
数据库管理系统是计算机领域非常火热的客户数据管理系统,但当数据库发生内存爆满而导致宕机或者网络连接发生故障时,会使整个系统瘫痪影响客户使用感知。
因此,如何在发生上述故障时能让数据库管理系统正常运行,保证业务处理不会因为数据库的故障而中断是一个亟待解决的问题。
发明内容
在本公开的第一方面,提供了一种应用于集群数据库系统的管理控制方法,所述集群数据库系统包括管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,所述管理控制方法包括:响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;确定与该更新日志最接近的一所述从数据库服务器;利用该更新日志控制修复所述多个从数据库服务器上的数据信息;切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及控制建立所述新主数据库服务器与其他所述从数据库服务器的主从备份连接。
在本公开的第二方面,提供了一种应用于集群数据库系统的管理控制器,所述集群数据库系统包括所述管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,所述管理控制器被配置为:响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;确定与该更新日志最接近的一所述从数据库服务器;利用该更新日志控制修复所述多个从数据库服务器上的数据信息;切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及控制建立所述新主数据库服务器与其他从数据库服务器的主从备份连接。
在本公开的第三方面,提供了一种一种集群数据库系统,其特征在于,包括:管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份;其中,所述管理控制器被配置为执行所述的管理控制方法。
本发明实施例提供的应用于所述集群数据库系统的管理控制方法、管理控制器以及集群数据库系统通过在初始主数据库服务器发生故障之后,可通过主从服务器快速切换的同时,保证同步数据的一致性,进而提升了所述集群数据库系统的高可靠性,另外,故障解决对客户透明,保证客户无感知地正常操作系统,提升了用户地使用体验。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。其中:
图1示出了本公开一实施例中一种应用于集群数据库系统的管理控制方法的流程示意图。
图2示出了本公开一实施例中集群数据库系统的架构示意框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
请参阅图1,本发明实施例提供了一种应用于集群数据库系统的管理控制方法100,所述集群数据库系统包括管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,所述管理控制方法100进一步包括:
S102,响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;
S104,确定与该更新日志最接近的一所述从数据库服务器;
S106,利用该更新日志控制修复所述多个从数据库服务器上的数据信息;
S108,切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及
S110,控制建立所述新主数据库服务器与其他所述从数据库服务器的主从备份连接。
上述管理控制方法100进一步包括:所述管理控制器定期地向所述初始主数据库服务器发送故障探测信号以检测所述初始主数据库服务器是否发生故障。具体地,在一实施例中,所述管理控制方法100进一步包括:当发送所述故障探测信号之后,检测是否在预定时间内接收到所述初始主数据库服务器发送的响应信号,如果接收到所述响应信号则表明所述初始主数据库服务器未发生故障,当未在所述预定时间内接收到所述响应信号,则表明所述初始主数据库服务器发生故障。
在所述步骤102中,响应于检测到所述初始主数据库服务器发生故障时,获取所述初始主数据库服务器的更新日志,所述更新日志包括所述初始主数据库服务器上的数据更新内容以及更新时间节点的信息。
所述初始主数据库服务器与多个所述从数据库服务器为主从备份关系,换言之,所述初始主数据库服务器上的数据信息会定期地同步到多个所述从数据库服务器上进行备份。在所述步骤S104中,当所述初始主数据库服务器发生故障时,可将多个所述从数据库服务器中的更新日志与所述主数据库服务器中的更新日志进行比较,确定更新时间节点与所述主数据库服务器中更新日志的更新时间节点最近或者最新的至少一所述从数据库服务器,该至少一所述从数据库服务器可考虑作为新主数据库服务器执行所述初始主数据库服务器的数据传输管理功能。
所述管理控制方法100进一步包括:当通过所述各个数据库服务器更新日志的比较,确定了多个所述所述从数据库服务器时,可进一步基于所述从数据库服务器的优先级来确定作为候选的所述新主数据库服务器。所述从数据库服务器的优先级可根据所述从数据库服务器的性能、可靠性等来设定。
在所述步骤S106中,可利用发生故障的所述初始主数据库服务器中的最新的更新日志信息来同步或更新其他的多个所述从数据库服务器的数据信息以使所述从数据库服务器上的数据保持最新,进而更好地处理和管理客户的数据信息。
在所述步骤S108中,在所述初始主数据库服务器发生故障后,可将所述步骤S104中确定的从数据库服务器切换为所述新主数据库服务器用于数据的处理和管理,从而能快速地保证集群数据库系统正常运行,而且做到客户无感知操作系统,进而提升了该集群数据库系统的可靠性和用户体验。进一步地,可通过更新与所述初始主数据库服务器的更新日志最接近的从数据库服务器的IP地址和/或该从数据库服务器的标识来切换该从数据库服务器为所述新主数据库服务器。
在所述步骤S110中,所述管理控制器在完成所述从数据库服务器到新主数据库服务器的切换后,建立与其他从数据库服务器的主从备份连接,进而持续可靠地提供数据库服务。
所述管理控制方法100可进一步包括:控制修复所述初始主数据库服务器;当所述初始主数据库服务器修复成功时,切换该初始主数据库服务器为所述从数据库服务器;以及控制建立该初始主数据库服务器与所述新主数据库服务器的从主备份连接。通过该种方式,可进一步有效地利用所述修复后的初始主数据库服务器,进而作为备份数据库服务器,提升了所述集群数据库系统的可靠性。
请进一步参阅图2,本公开的实施例进一步提供了一种集群数据库系统20,该集群数据库系统20可包括一管理控制器22以及至少一个集群数据库服务器24,所述至少一个集群数据库服务器24可包括初始主数据库服务器242以及多个从数据库服务器244,所述初始主数据库服务器242分别与多个所述从数据库服务器244通信以用于数据同步备份。
所述管理控制器22可部署于一与所述集群数据库服务器24独立的服务器或计算机中,从而可进一步避免受到所述集群数据库服务器24故障的影响,提升所述集群数据库服务器24的可靠性。
所述集群数据库服务器24采用主从架构,所述集群数据库服务器中的数据库服务器可以包括部署的关系型数据库管理系统,如MySQL数据库关系系统。所述集群数据库服务器24可进一步包括一初始主数据库服务器242以及多个从数据库服务器244。所述多个从数据库服务器244用于备份和同步所述初始主数据库服务器242或者新主数据库服务器242(由于均为起到主数据库服务器的作用,所以在本公开中采用相同的标号说明)的数据信息。所述初始主数据库服务器242或者新主数据库服务器242可定期地通过单向或双向进行数据同步。
请一并参阅图1和图2,该集群数据库系统20或者所述管理控制器22可实现所述管理控制方法100中的所有步骤或者功能,在此不再赘述。
本发明实施例提供的应用于所述集群数据库系统20的管理控制方法100、管理控制器22以及集群数据库系统20可通过在初始主数据库服务器发生故障之后,可通过主从服务器快速切换的同时,保证同步数据的一致性,进而提升了所述集群数据库系统20的高可靠性,所有的故障解决对客户透明,并且故障解决可以在数十秒内完成,保证客户无感知地正常操作系统,提升了用户地使用体验。
此外,所述集群数据库系统20可以进一步包括但不限于一个或多个处理器或处理单元、存储器、存储设备、一个或多个通信单元、一个或多个输入设备以及一个或多个输出设备。处理单元可以是实际或虚拟处理器并且能够根据存储器中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高集群数据库系统20的并行处理能力。
所述集群数据库系统20通常包括多个计算机存储介质。这样的介质可以是集群数据库系统20可访问的任何可以获取的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (13)

1.一种应用于集群数据库系统的管理控制方法,所述集群数据库系统包括管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,其特征在于,所述管理控制方法包括:
响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;
确定与该更新日志最接近的一所述从数据库服务器;
利用该更新日志控制修复所述多个从数据库服务器上的数据信息;
切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及
控制建立所述新主数据库服务器与其他所述从数据库服务器的主从备份连接。
2.如权利要求1所述的方法,其特征在于,当与该更新日志最接近的所述从数据库服务器为多个时,进一步基于所述从数据库服务器的优先级来确定所述新主数据库服务器。
3.如权利要求1所述的方法,其特征在于,通过更新所述从数据库服务器的IP地址来切换该从数据库服务器为所述新主数据库服务器。
4.如权利要求1所述的方法,其特征在于,周期性地发送故障探测信号到所述初始主数据库服务器或所述新主数据库服务器以检测所述初始主数据库服务器或所述新主数据库服务器是否发生故障。
5.如权利要求1所述的方法,其特征在于,控制所述初始主数据库服务器或所述新主数据库服务器与所述多个从数据库服务器之间进行数据同步。
6.如权利要求1所述的方法,其特征在于,进一步包括:
控制修复所述初始主数据库服务器;
当所述初始主数据库服务器修复成功时,切换该初始主数据库服务器为所述从数据库服务器;以及
控制建立该初始主数据库服务器与所述新主数据库服务器的从主备份连接。
7.一种应用于集群数据库系统的管理控制器,所述集群数据库系统包括所述管理控制器以及至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份,其特征在于,所述管理控制器被配置为:
响应于检测到所述初始主数据库服务器发生故障时,获取该初始主服务器上的更新日志;
确定与该更新日志最接近的一所述从数据库服务器;
利用该更新日志控制修复所述多个从数据库服务器上的数据信息;
切换与所述更新日志最接近的从数据库服务器为新主数据库服务器;以及
控制建立所述新主数据库服务器与其他从数据库服务器的主从备份连接。
8.如权利要求1所述的管理控制器,其特征在于,被配置为当与该更新日志最接近的所述从数据库服务器为多个时,进一步基于所述从数据库服务器的优先级来确定所述新主数据库服务器。
9.如权利要求1所述的管理控制器,其特征在于,被配置为通过更新所述从数据库服务器的IP地址来切换该从数据库服务器为所述新主数据库服务器。
10.如权利要求1所述的管理控制器,其特征在于,被配置为周期性地发送故障探测信号到所述初始主数据库服务器或所述新主数据库服务器以检测所述初始主数据库服务器或所述新主数据库服务器是否发生故障。
11.如权利要求1所述的管理控制器,其特征在于,被配置为控制所述初始主数据库服务器或所述新主数据库服务器与所述多个从数据库服务器之间进行数据同步。
12.如权利要求1所述的管理控制器,其特征在于,进一步被配置为:
控制修复所述初始主数据库服务器;
当修复成功时,切换该初始主数据库服务器为所述从数据库服务器;以及
控制建立该初始主数据库服务器与所述新主数据库服务器的从主备份连接。
13.一种集群数据库系统,其特征在于,包括:
管理控制器;以及
至少一个集群数据库服务器,所述至少一个集群数据库服务器包括初始主数据库服务器以及多个从数据库服务器,所述初始主数据库服务器分别与多个所述从数据库服务器通信以用于数据同步备份;
其中,所述管理控制器被配置为执行如权利要求1-6中任意一项所述的管理控制方法。
CN202211474258.6A 2022-11-23 2022-11-23 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统 Pending CN116166460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211474258.6A CN116166460A (zh) 2022-11-23 2022-11-23 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211474258.6A CN116166460A (zh) 2022-11-23 2022-11-23 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统

Publications (1)

Publication Number Publication Date
CN116166460A true CN116166460A (zh) 2023-05-26

Family

ID=86418917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211474258.6A Pending CN116166460A (zh) 2022-11-23 2022-11-23 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统

Country Status (1)

Country Link
CN (1) CN116166460A (zh)

Similar Documents

Publication Publication Date Title
CN109495312B (zh) 基于仲裁盘和双链路的高可用集群的实现方法和系统
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
CN107291787B (zh) 主备数据库切换方法和装置
EP2434729A2 (en) Method for providing access to data items from a distributed storage system
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
US20130036323A1 (en) Fault-tolerant replication architecture
CN107480014B (zh) 一种高可用设备切换方法及装置
EP3285168A1 (en) Disaster tolerance method and apparatus in active-active cluster system
US10924538B2 (en) Systems and methods of monitoring software application processes
CN112463448B (zh) 分布式集群数据库同步方法、装置、设备及存储介质
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
WO2022088861A1 (zh) 数据库故障处理方法和装置
CN114138732A (zh) 一种数据处理方法及装置
CN110635941A (zh) 一种数据库节点集群故障迁移方法与装置
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN111708668A (zh) 集群故障的处理方法、装置及电子设备
CN111198921A (zh) 数据库的切换方法、装置、计算机设备和存储介质
CN105323271B (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置
CN113765690A (zh) 集群切换方法、系统、装置、终端、服务器及存储介质
CN110351122B (zh) 容灾方法、装置、系统与电子设备
CN116166460A (zh) 应用于集群数据库系统的管理控制方法、管理控制器以及集群数据库系统
CN107087021B (zh) 主从服务器确定方法及装置
CN115686368A (zh) 区块链网络的节点的存储扩容的方法、系统、装置和介质
CN111338848B (zh) 故障应用副本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination