CN111209130B - 基于MySQL主从复制集群的故障处理方法、系统、设备和介质 - Google Patents

基于MySQL主从复制集群的故障处理方法、系统、设备和介质 Download PDF

Info

Publication number
CN111209130B
CN111209130B CN201911376196.3A CN201911376196A CN111209130B CN 111209130 B CN111209130 B CN 111209130B CN 201911376196 A CN201911376196 A CN 201911376196A CN 111209130 B CN111209130 B CN 111209130B
Authority
CN
China
Prior art keywords
knowledge base
state
state data
data
sql
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911376196.3A
Other languages
English (en)
Other versions
CN111209130A (zh
Inventor
王良元
卢星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911376196.3A priority Critical patent/CN111209130B/zh
Publication of CN111209130A publication Critical patent/CN111209130A/zh
Application granted granted Critical
Publication of CN111209130B publication Critical patent/CN111209130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于MySQL主从复制集群的故障处理方法、系统、设备和介质。所述故障处理方法包括:基于从数据库获取第一状态数据;根据所述第一状态数据判断是否存在异常信息;若判断存在异常信息,根据所述异常信息查询知识库,获取对应的问题处置建议;若判断不存在异常信息,基于所述从数据库获取第二状态数据;根据所述第二状态数据查询所述知识库,获取对应的处置建议。实施本发明,能够快速、自动定位出问题并给出处置方法建议。

Description

基于MySQL主从复制集群的故障处理方法、系统、设备和介质
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种基于MySQL(一种关系型数据库)主从复制集群的故障处理方法、系统、设备和介质。
背景技术
目前,MySQL数据库的高可用主要是通过主从复制集群实现的,其实现方法为:当主数据库故障时,应用系统能连接到从数据库,保证业务能继续访问,从而实现业务的高可用。
但是MySQL的主从复制集群中主数据库和从数据库的数据不是共享的,因此,为了保证应用系统在主数据库进行数据增加、删除和修改后,从数据库和主数据库一致,可以采用基于binlog(二进制日志)的主从复制技术。
MySQL主从复制的核心原理为:主数据库与从数据库建立连接后,主数据库将数据增加、删除和修改的操作记录在binlog,然后将binlog传输到从数据库,从数据库接收到binlog后再重新执行一遍,这样就保证一个操作在主数据库和从数据库均执行,进而保证了两边数据的一致性。由于网络的复杂性、传输的不确定性和数据库操作的多样性,主从复制会出现很多问题,而对于这些多样的、复杂的场景,现有的方法是:DBA(DataBaseAdministrator,数据库管理员)人工登录数据库服务器,查询一系列信息,包括查看主从数据库的状态、I/O线程状态、SQL线程状态、I/O线程报错信息、SQL线程报错信息、主数据库binlog日志解析、从数据库binlog日志解析、当前事务状态、当前锁信息、当前活动的sql等,并结合具体场景进行综合分析,定位到问题后,再与业务方进行沟通,给出具体的应急处置方法。
然而,由于当前MySQL主从复制故障场景较多且复杂,往往需要DBA查询各方面信息进行综合诊断,这个过程会消耗大量时间,且受DBA技术能力影响较大,有些重要系统,如果未能在适当时间内处理完毕,会直接影响客户体验,严重的甚至直接对企业造成重大影响。
发明内容
为解决上述现有技术存在的问题,本发明提供了一种基于MySQL主从复制集群的故障处理方法、系统、存储介质和计算机设备,通过自动分析主从复制故障并给出处置建议,避免了人工处置分析慢、分析不全面、人工操作效率低等问题,大大提高了主从复制故障的定位和处理效率。
根据本发明实施方式的第一面,提供了一种基于MySQL主从复制集群的故障处理方法,包括:服务器和防火墙通过长连接保持通信;其中,所述封禁IP的方法包括:基于从数据库获取第一状态数据;根据所述第一状态数据判断是否存在异常信息;若判断存在异常信息,根据所述异常信息查询知识库,获取对应的问题处置建议;若判断不存在异常信息,基于所述从数据库获取第二状态数据;根据所述第二状态数据查询所述知识库,获取对应的处置建议。
根据上述实施方式,可以自动对状态数据进行全面的识别和判断,并根据异常信息、状态数据查询知识库,得到知识库中的处置建议,从而避免了人工处置分析慢、分析不全面、人工操作效率低等问题,能够提高主从复制的故障定位和处理效率。
在本发明的一些实施方式中,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master。
在本发明的一些实施方式中,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
在本发明的一些实施方式中,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型。
在本发明的一些实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。
通过自动识别和判断多项状态数据、异常信息,查询对应的各类知识库,能够得到更加准确的判断结果和故障处置建议,避免了人工分析不全面、效率低等问题,能够提高主从复制的故障定位和处理效率。
在本发明的一些实施方式中,基于从数据库获取第一状态数据包括:从所述第一状态数据中获取第一状态成分的内容和名称;对所述第一状态成分添加标识;存储所述添加标识后的第一状态成分。
在本发明的一些实施方式中,基于所述从数据库获取第二状态数据包括:从所述第二状态数据中获取第二状态成分的内容和名称;对所述第二状态成分添加标识;存储所述添加标识后的第二状态成分。
通过对状态数据添加标识,可以区分多次执行结果,从而方便故障诊断。
根据本发明实施方式的第二方面,提供了一种基于MySQL主从复制集群的故障处理系统,包括:第一数据获取模块,用于基于从数据库获取第一状态数据;第一判断模块,用于根据所述第一状态数据判断是否存在异常信息;第一建议获取模块,用于在所述第一判断模块判断存在异常信息时,根据所述异常信息查询知识库,获取对应的问题处置建议;第二数据获取模块,用于在所述第一判断模块判断不存在异常信息,基于所述从数据库获取第二状态数据;第二建议获取模块,用于根据所述第二状态数据查询所述知识库,获取对应的处置建议。
根据上述实施方式,可以自动对状态数据进行全面的识别和判断,并根据异常信息、状态数据查询知识库,得到知识库中的处置建议,从而避免了人工处置分析慢、分析不全面、人工操作效率低等问题,能够提高主从复制的故障定位和处理效率。
在本发明的一些实施方式中,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master。
在本发明的一些实施方式中,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
在本发明的一些实施方式中,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作对象的类型。
在本发明的一些实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。
通过自动识别和判断多项状态数据、异常信息,查询对应的各类知识库,能够得到更加准确的判断结果和故障处置建议,避免了人工分析不全面、效率低等问题,能够提高主从复制的故障定位和处理效率。
在本发明的一些实施方式中,基于从数据库获取第一状态数据包括:从所述第一状态数据中获取第一状态成分的内容和名称;对所述第一状态成分添加标识;存储所述添加标识后的第一状态成分。
在本发明的一些实施方式中,基于所述从数据库获取第二状态数据包括:从所述第二状态数据中获取第二状态成分的内容和名称;对所述第二状态成分添加标识;存储所述添加标识后的第二状态成分。
通过对状态数据添加标识,可以区分多次执行结果,从而方便故障诊断。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时可以实现如下操作:所述操作包括如上任意一种实施方式所述故障处理方法所包含的步骤。
根据本发明实施例的第四方面,提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述故障处理方法。
本发明实施方式提供的故障处理方法、系统、存储介质和计算机设备,通过自动全面的分析主从复制故障并给出处置建议,避免了人工处置分析慢、分析不全面、人工操作效率低等问题,有效提高了主从复制故障的定位和处理效率。
附图说明
图1是根据本发明一种实施方式的基于MySQL主从复制集群的故障处理方法的流程示意图;
图2是根据本发明另一种实施方式的基于MySQL主从复制集群的故障处理方法的流程示意图;
图3是根据本发明一种实施方式的基于MySQL主从复制集群的故障处理系统的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
Binlog:二进制日志;
relay_log:中继日志;
DBA:DataBase Administrator,数据库管理员;
MySQL:一种关系型数据库
slave:从设备,本发明中指从数据库;
seconds_behind_master:slave上SQL线程与IO线程之间的延迟;
SQL:Structured Query Language,结构化查询语言;
DML:SQL语言中的数据操纵语言;
DDL:SQL语言中的数据定义语言。
图1是根据本发明一种实施方式的基于MySQL主从复制集群的故障处理方法的流程示意图。
如图1所示,在本发明的一种实施方式中,所述基于MySQL主从复制集群的故障处理方法可包括:步骤S11、步骤S12、步骤S13、步骤S14和步骤S15,下面对上述步骤进行具体的描述。
在步骤S11中,基于从数据库获取第一状态数据。在可选的实施方式中,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master等。
在可选的实施方式中,从所述第一状态数据中获取第一状态成分的内容和名称,对所述第一状态成分添加标识,存储所述添加标识后的第一状态成分。由此,可以根据添加的标识区分多次执行结果,方便后续的故障诊断。
在步骤S12中,根据所述第一状态数据判断是否存在异常信息,若存在异常信息,则执行步骤S13,若不存在异常信息,则执行步骤S14。在可选的实施方式中,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
在步骤S13中,根据所述异常信息查询知识库,获取对应的问题处置建议。在可选的实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。可选的,针对上述各类知识库还具备更新和存储的功能,使得所述知识库中的问题及处置信息越来越完善。
根据异常信息在对应的知识库中进行分析查询,获取针对该异常信息的处置方案。
在步骤S14中,基于所述从数据库获取第二状态数据。在可选的实施方式中,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型。
在步骤S15中,根据所述第二状态数据查询所述知识库,获取对应的处置建议。在可选的实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。由此,可以根据第二状态数据确认故障原因,并分析查询对应的知识库,获取相应的处置方案。
采用本发明的上述方法可以自动对状态数据进行全面的识别和判断,并根据异常信息、状态数据查询知识库,得到知识库中的处置建议,从而避免了人工处置分析慢、分析不全面、人工操作效率低等问题,能够提高主从复制的故障定位和处理效率。
在可选的实施方式中,技术人员还可以通过设置,选择自动或手动触发问题诊断功能,使得整个故障处理方法更加灵活。
图2是根据本发明另一种实施方式的基于MySQL主从复制集群的故障处理方法的流程示意图。
如图2所示,在本发明的另一种实施方式中,所述基于MySQL主从复制集群的故障处理方法可包括:步骤S101、步骤S102、步骤S103、步骤S104、步骤S105、步骤S106、步骤S107、步骤S108、步骤S109、步骤S110、步骤S111、步骤S112、步骤S113、步骤S114、步骤S115、步骤S116、步骤S117、步骤S118、步骤S119、步骤S120、步骤S121、步骤S122、步骤S123、步骤S124、步骤S125、步骤S126、步骤S127、步骤S128和步骤S129,下面对上述步骤进行具体的描述。
在步骤S101中,查看slave状态。在可选的实施方式中,在从数据库中执行showslave status命令,查看slave的状态,以取得相关数据。
在可选的实施方式中,相关数据可以包括但不限于:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master、POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型中的一种或多种。
在步骤S102中,判断IO_Thread(IO线程)是否为YES(正常)。具体而言,判断IO_Thread的running(运行状态)是否为YES,当不为YES时,说明IO线程存在问题,则执行步骤S103,当为YES时,执行步骤S107。
在步骤S103中,判断是否有IO_ERROR(IO_ERROR中有具体的IO报错信息),当有IO_ERROR时,执行步骤S104,当没有IO_ERROR时,说明IO线程状态正常,则执行步骤S107。
在步骤S104中,根据IO_ERR_NO,显示报错。由此,可以得到IO线程中具体的报错内容。
在步骤S105中,进入常见问题处理知识库分析。具体的,根据获取到的具体的报错内容,查询常见问题处理知识库。
在步骤S106中,给出问题处置建议。具体的,通过查询常见问题处理知识库对具体的报错内容进行分析,获取对应的处置建议。
在步骤S107中,判断SQL_Thread(SQL线程)是否为YES。具体而言,判断SQL_Thread的running(运行)是否为YES,当不为YES时,说明SQL线程存在问题,则执行步骤S108,当为YES时,执行步骤S110。
在步骤S108中,判断是否有SQL_ERROR(SQL_ERROR中有具体的SQL报错信息),当有SQL_ERROR时,执行步骤S109,当没有SQL_ERROR时,说明SQL线程状态正常,则执行步骤S110。
在步骤S109中,根据SQL_ERR_NO,显示报错。由此,可以得到SQL线程中具体的报错内容,并执行步骤S105和步骤S106。
在步骤S110中,隔2秒采集slave状态,判断执行的POS点是否变化。具体的,间隔2秒再次执行show slave status命令,查看从数据库执行的事务POS点数据是否变大,如果没有变大,则执行步骤S111,如果变大,则执行步骤S117。
在步骤S111中,重复3次(隔2秒采集slave状态),判断(执行的POS点)是否依然无变化。具体的,判断执行的POS点数据是否有变大,如果没有变大,则执行步骤S112,如果变大,说明从数据库在回放主数据库的事务,则执行步骤S117。
在步骤S112中,判断操作系统资源是否到达瓶颈。具体的,通过查看操作系统是否达到硬件资源使用瓶颈判断操作系统资源是否到达瓶颈,如果达到了瓶颈,则执行步骤S113,如果没有到达瓶颈,则需要优化应用来解决,即执行步骤S115。
在步骤S113中,进入硬件处理知识库分析。
在步骤S114中,给出硬件处置建议。
在步骤S115中,进入应用处理知识库分析。
在步骤S116中,给出应用处置建议。
在步骤S117中,解析POS点的relay_log。
在步骤S118中,提取操作SQL。具体的,提取执行的POS点前后的SQL。
在步骤S119中,判断(步骤S118中的)SQL是否为DML/DDL操作,判断结果为否时,说明SQL为查询语句,则执行步骤S120,判断结果为是时,执行步骤S124。
在步骤S120中,显示SQL执行计划。
在步骤S121中,判断执行计划是否可优化,如果不可优化,则执行步骤S115和步骤S116,如果可优化,则执行步骤S122。
在步骤S122中,进入SQL处理知识库分析。
在步骤S123中,给出SQL处置建议。
在步骤S124中,判断记录数是否大于50万。具体的,判断DML/DDL的操作记录数是否大于50万,如果小于等于50万,则执行步骤S125,如果大于50万,则执行步骤S128。
在步骤S125中,判断操作对象是否可优化,如果不可优化,则执行步骤S115和步骤S116,如果可优化,则执行步骤S126。
在步骤S126中,进入对象处理知识库分析。
在步骤S127中,给出对象处置建议。
在步骤S128中,进入大事务处理知识库分析。
在步骤S129中,给出大事务处置建议。
采用本发明的上述方法,可以针对基于MySQL主从复制集群的故障自动定位故障原因,并结合多种类型的知识库给出对应的、具体的处置建议,实现快速、自动的故障定位和处理,避免了人工处置分析慢、分析不全面、人工操作效率低等问题,从而提高主从复制的故障定位和处理效率。
图3是根据本发明一种实施方式的基于MySQL主从复制集群的故障处理系统的架构图。
如图3所示,所述系统包括:
第一数据获取模块21,用于基于从数据库获取第一状态数据。在可选的实施方式中,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master等。
在可选的实施方式中,从所述第一状态数据中获取第一状态成分的内容和名称,对所述第一状态成分添加标识,存储所述添加标识后的第一状态成分。由此,可以根据添加的标识区分多次执行结果,方便后续的故障诊断。
第一判断模块22,用于根据所述第一状态数据判断是否存在异常信息。在可选的实施方式中,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
第一建议获取模块23,用于在所述第一判断模块22判断存在异常信息时,根据所述异常信息查询知识库,获取对应的问题处置建议。在可选的实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。可选的,针对上述各类知识库还具备更新和存储的功能,使得所述知识库中的问题及处置信息越来越完善。
根据异常信息在对应的知识库中进行分析查询,获取针对该异常信息的处置方案。
第二数据获取模块24,用于在所述第一判断模块22判断不存在异常信息,基于所述从数据库获取第二状态数据。在可选的实施方式中,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型。
第二建议获取模块25,用于根据所述第二状态数据查询所述知识库,获取对应的处置建议。在可选的实施方式中,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。由此,可以根据第二状态数据确认故障原因,并分析查询对应的知识库,获取相应的处置方案。
采用本发明的上述系统可以自动对状态数据进行全面的识别和判断,并根据异常信息、状态数据查询知识库,得到知识库中的处置建议,从而避免了人工处置分析慢、分析不全面、人工操作效率低等问题,能够提高主从复制的故障定位和处理效率。
在可选的实施方式中,技术人员还可以通过设置,选择自动或手动触发问题诊断功能,使得故障处理系统更加灵活。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
相应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时可以实现如下操作:所述操作包括如上任意一种实施方式所述故障处理方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的故障处理方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机、平板电脑等。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (10)

1.一种基于关系型数据库MySQL主从复制集群的故障处理方法,其特征在于,所述故障处理方法包括:
基于从数据库获取第一状态数据,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master;
根据所述第一状态数据判断是否存在异常信息;
若判断存在异常信息,根据所述异常信息查询知识库,获取对应的问题处置建议;
若判断不存在异常信息,基于所述从数据库获取第二状态数据,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型;
根据所述第二状态数据查询所述知识库,获取对应的处置建议;
其中,基于从数据库获取第一状态数据包括:
从所述第一状态数据中获取第一状态成分的内容和名称;
对所述第一状态成分添加标识;
存储所述添加标识后的第一状态成分。
2.如权利要求1所述的故障处理方法,其特征在于,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
3.如权利要求1所述的故障处理方法,其特征在于,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。
4.如权利要求1所述的故障处理方法,其特征在于,基于所述从数据库获取第二状态数据包括:
从所述第二状态数据中获取第二状态成分的内容和名称;
对所述第二状态成分添加标识;
存储所述添加标识后的第二状态成分。
5.一种基于MySQL主从复制集群的故障处理系统,其特征在于,所述故障处理系统包括:
第一数据获取模块,用于基于从数据库获取第一状态数据,所述第一状态数据包括:IO线程状态、SQL线程状态、IO错误信息、SQL错误信息、接收日志POS数据、执行日志POS数据、seconds_behind_master;
第一判断模块,用于根据所述第一状态数据判断是否存在异常信息;
第一建议获取模块,用于在所述第一判断模块判断存在异常信息时,根据所述异常信息查询知识库,获取对应的问题处置建议;
第二数据获取模块,用于在所述第一判断模块判断不存在异常信息,基于所述从数据库获取第二状态数据,所述第二状态数据包括:POS点前后的SQL的操作类型、DML/DDL的操作记录的数量、操作系统的状态、操作对象的类型;
第二建议获取模块,用于根据所述第二状态数据查询所述知识库,获取对应的处置建议;
其中,基于从数据库获取第一状态数据包括:
从所述第一状态数据中获取第一状态成分的内容和名称;
对所述第一状态成分添加标识;
存储所述添加标识后的第一状态成分。
6.如权利要求5所述的故障处理系统,其特征在于,所述异常信息包括:IO报错信息、SQL报错信息、POS数无变化。
7.如权利要求5所述的故障处理系统,其特征在于,所述知识库包括:大事务处理知识库、对象处理知识库、SQL处理知识库、应用处理知识库、硬件处理知识库、常见问题处理知识库。
8.如权利要求5所述的故障处理系统,其特征在于,基于所述从数据库获取第二状态数据包括:
从所述第二状态数据中获取第二状态成分的内容和名称;
对所述第二状态成分添加标识;
存储所述添加标识后的第二状态成分。
9.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1-4中任一项所述故障处理方法的步骤。
10.一种计算机设备,包括存储器和处理器,其特征在于,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如权利要求1-4中任一项所述故障处理方法。
CN201911376196.3A 2019-12-27 2019-12-27 基于MySQL主从复制集群的故障处理方法、系统、设备和介质 Active CN111209130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911376196.3A CN111209130B (zh) 2019-12-27 2019-12-27 基于MySQL主从复制集群的故障处理方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911376196.3A CN111209130B (zh) 2019-12-27 2019-12-27 基于MySQL主从复制集群的故障处理方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN111209130A CN111209130A (zh) 2020-05-29
CN111209130B true CN111209130B (zh) 2023-12-29

Family

ID=70785226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911376196.3A Active CN111209130B (zh) 2019-12-27 2019-12-27 基于MySQL主从复制集群的故障处理方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN111209130B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468717A (zh) * 2015-11-20 2016-04-06 北京百度网讯科技有限公司 数据库操作方法和装置
CN106055434A (zh) * 2016-05-31 2016-10-26 浪潮(北京)电子信息产业有限公司 一种高可用服务器的优化方法及系统
CN107368485A (zh) * 2016-05-12 2017-11-21 苏宁云商集团股份有限公司 一种数据库的管理方法及数据库系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189510B2 (en) * 2013-02-26 2015-11-17 Facebook, Inc. System and method for implementing cache consistent regional clusters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468717A (zh) * 2015-11-20 2016-04-06 北京百度网讯科技有限公司 数据库操作方法和装置
CN107368485A (zh) * 2016-05-12 2017-11-21 苏宁云商集团股份有限公司 一种数据库的管理方法及数据库系统
CN106055434A (zh) * 2016-05-31 2016-10-26 浪潮(北京)电子信息产业有限公司 一种高可用服务器的优化方法及系统

Also Published As

Publication number Publication date
CN111209130A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN107678907B (zh) 数据库业务逻辑监控方法、系统、及存储介质
US9294338B2 (en) Management computer and method for root cause analysis
US9170873B2 (en) Diagnosing distributed applications using application logs and request processing paths
CN111539633A (zh) 一种业务数据质量的稽核方法、系统、装置和存储介质
US8756301B2 (en) Systems and methods for organic knowledge base runbook automation
US8667334B2 (en) Problem isolation in a virtual environment
CN105391772B (zh) 业务请求处理方法、日志处理方法及装置
US9122784B2 (en) Isolation of problems in a virtual environment
US20140149568A1 (en) Monitoring alerts in a computer landscape environment
US20180026848A9 (en) Isolation of problems in a virtual environment
US20130018917A1 (en) Selective Storing of Mining Models for Enabling Interactive Data Mining
CN110875853B (zh) 一种基于元数据的自动质量监测方法及终端
CN111209130B (zh) 基于MySQL主从复制集群的故障处理方法、系统、设备和介质
EP3953831A1 (en) Enterprise resource planning system, server and supervision method of sql queries in such a system or server
CN111427736A (zh) 日志监控方法、装置、设备及计算机可读存储介质
US20180052728A1 (en) Root cause candidate determination in multiple process systems
CN112764888A (zh) 一种基于日志分析的分布式事务检查判断方法及系统
CN112434917B (zh) 一种面向服务的孪生制造车间系统重构方法
CN116149969B (zh) 一种数据库模型匹配异常监测处理方法
CN116109112B (zh) 基于聚合接口的业务数据处理方法、装置、介质和设备
CN117591508B (zh) 一种大数据场景下的数据质量保障方法
CN115794574A (zh) 多种平台参数比对的方法、系统、终端设备及存储介质
CN117539834A (zh) 数据处理方法、系统、设备和存储介质
Lu et al. Parallelization Framework of Root Cause Analysis Based on Global Cache and Global Lock
CN117009123A (zh) 数据库故障定位方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant