CN116737444A

CN116737444A - 一种数据库服务器故障处理方法及系统

Info

Publication number: CN116737444A
Application number: CN202310755446.4A
Authority: CN
Inventors: 王源清; 迟玉莹; 宋清刚; 王立军; 王肖嵬; 王颖; 刘华; 赵丽娟; 梁庭辉; 牛昊康
Original assignee: Huaneng Shandong Power Generation Co Ltd; Huaneng Information Technology Co Ltd; Shandong Rizhao Power Generation Co Ltd
Current assignee: Huaneng Shandong Power Generation Co Ltd; Huaneng Information Technology Co Ltd; Shandong Rizhao Power Generation Co Ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-12

Abstract

本发明涉及数据库服务器技术领域，特别是涉及一种数据库服务器故障处理方法及系统，该方法包括：检测服务器集群中的第一服务器的应答状态和应答速度；根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障，当所述第一服务器发生故障时，发送报错日志；第二服务器自动接管所述第一服务器的资源，并根据所述报错日志对所述第一服务器进行故障排查和处理，将处理后的所述第一服务器重新启动并加入所述服务器集群；本发明解决了服务器在故障后，运维人员周期性查看监测系统中的故障列表，对故障设备进行停服和关机之后进行维修，导致故障发生后处理不及时、故障积攒，数据库服务器可用率较低，对业务进度及连续性产生影响的问题。

Description

一种数据库服务器故障处理方法及系统

技术领域

本发明涉及数据库服务器技术领域，更具体地，涉及一种数据库服务器故障处理方法及系统。

背景技术

数据库服务器是指运行数据库系统的专用服务器，其功能就是为数据库系统的高性能运行提供硬件支持和保障。运行在局域网中的一台/多台计算机和数据库管理系统软件共同构成，数据库服务器为客户应用程序提供数据服务。这些服务包括：查询、更新、事务管理、索引、高速缓存、查询优化、安全及多用户存取控制等。

在现有技术中，数据库服务器会出现各种各样的故障，在故障发生后，运维人员周期性查看监测系统中的故障列表，对故障设备进行停服和关机之后进行维修，导致故障发生后处理不及时、故障积攒，数据库服务器可用率较低，对业务进度及连续性产生影响，因此，提出一种数据库服务器故障处理方法及系统来解决上述问题。

发明内容

本发明提供一种数据库服务器故障处理方法及系统，用以解决现有技术中在数据库服务器故障发生后，运维人员周期性查看监测系统中的故障列表，对故障设备进行停服和关机之后进行维修，导致故障处理不及时、故障积攒，数据库服务器可用率较低，对业务进度及连续性产生影响的问题。该方法包括：

检测服务器集群中的第一服务器的应答状态和应答速度；

根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障，当所述第一服务器发生故障时，发送报错日志；

第二服务器自动接管所述第一服务器的资源，并根据所述报错日志对所述第一服务器进行故障排查和处理，将处理后的所述第一服务器重新启动并加入所述服务器集群。

在本申请的一些实施例中，所述根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障时，包括：

向所述第一服务器发送访问请求；

若所述访问请求达到预设请求阈值，所述应答状态为无法应答或所述应答速度低于预设应答速度时，则判断所述第一服务器发生故障。

在本申请的一些实施例中，所述第二服务器自动接管所述第一服务器的资源时，包括：

当所述第一服务器发生故障时，对所述第一服务器进行故障隔离；

所述第二服务器自动接管所述第一服务器的资源，其中，所述资源包括处理器、内存进程和磁盘数据，其中，所述第二服务器中的数据库通过完全镜像方式对所述资源进行备份；

当接管进程为预设进程后，自动更改数据库名称和IP地址，重新连接并启用所述第二服务器。

在本申请的一些实施例中，所述报错日志包括报错提示词、报错日志来源和报错报警等级，根据所述报警提示词和故障字符映射表可得到所述第一服务器当前故障的预设字符，根据所述报错日志来源可得到当前故障的日志文件来源，根据所述报错报警等级对报警等级高的所述报错日志优先进行故障排查。

在本申请的一些实施例中，所述根据所述报错日志对所述第一服务器进行故障排查时，包括：

获取所述报错提示词和报错报警等级；

确定报错报警等级高的所述报错日志，并提取所述报错提示词，根据所述报错提示词和故障字符映射表确定所述预设字符，根据所述预设字符确定当前故障的故障节点；

追溯所述报错日志来源，并根据所述报错日志来源定位当前故障的故障类型；

根据所述故障类型和所述故障节点得到对应的故障处理方法。

在本申请的一些实施例中，所述根据所述报错日志对所述第一服务器进行故障排查后，还包括：

根据当前故障与故障存储库中对应故障的故障频率值T0判断当前故障是否可修复；

预先设定有预设故障频率值T1，根据当前故障的故障频率值T0和预设故障频率值T1之前的关系，判断当前故障是否可修复；

当T0＜T1时，则当前故障可进行修复，根据对应的故障处理方法和所述报错报警等级进行修复；

当T0≥T1时，则当前故障不可进行修复，对所述第一服务器进行更换。

在本申请的一些实施例中，所述将处理后的所述第一服务器重新启动并加入所述服务器集群时，包括：

所述第一服务器与所述服务器集群建立连接后，用户设备每隔预设时长对所述第一服务器发送预设信号；

若在预设时长内，所述第一服务器没有接收到所述预设信号，对所述第一服务器进行降级，并将所述第二服务器设定为主服务器。

在本申请的一些实施例中，所述第一服务器为主服务器，所述第二服务器为从服务器，当所述第一服务器处于工作状态时，所述第二服务器处于空闲状态，当所述第一服务器出现故障时，所述第二服务器自动接管所述第一服务器的工作。

在本申请的一些实施例中，还包括一种数据库服务器故障处理系统：

检测模块，用于检测服务器集群中的第一服务器的应答状态和应答速度；

判断模块，用于根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障，当所述第一服务器发生故障时，发送报错日志；

接管模块，用于自动接管所述第一服务器的资源。

在本申请的一些实施例中，所述判断模块还包括：

故障排查单元，用于根据所述报错日志对所述第一服务器进行故障排查；

故障修复单元，用于根据当前故障与故障存储库中对应故障的故障频率值，判断当前故障是否可修复；

故障处理单元，用于根据故障类型和故障节点得到对应的故障处理方法。

本申请实施例与现有技术相比，带来了以下有益效果：

本发明提供了一种数据库服务器故障处理方法及系统，该方法根据设置主从服务器，当检测到主服务器发生故障后，从服务器自动接管主服务器的工作内容，并根据报错日志对主服务器进行故障排查，得到故障类型及故障节点，根据故障类型及故障节点确定故障处理方法，并根据故障频率值判断当前故障是否可修复，若可修复根据相应的故障处理方法对当前故障进行处理，若不可修复，直接对服务器进行更换，处理完后重新启动服务器并加入服务器集群，解决了在数据库服务器故障发生后，运维人员周期性查看监测系统中的故障列表，对故障设备进行停服和关机之后进行维修，导致故障处理不及时、故障积攒，数据库服务器可用率较低，对业务进度及连续性产生影响的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种数据库服务器故障处理方法的流程示意图；

图2是本发明实施例中一种数据库服务器故障处理系统的示意图；

图3是本发明实施例故障处理系统中判断模块的示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本申请的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内侧的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

如图1所示，本发明实施例的一种数据库服务器故障处理方法，包括：

步骤S101：检测服务器集群中的第一服务器的应答状态和应答速度；

步骤S102：根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障，当所述第一服务器发生故障时，发送报错日志；

步骤S103：第二服务器自动接管所述第一服务器的资源，并根据所述报错日志对所述第一服务器进行故障排查和处理，将处理后的所述第一服务器重新启动并加入所述服务器集群。

在本实施例中，报错日志中包括报错提示词、报错日志来源和报错报警等级，根据报错日志可快速确定故障类型及故障节点，并得到对应的故障处理方法，在短时间内修复数据库服务器故障，提高数据库服务器可用率。

向所述第一服务器发送访问请求；

获取所述报错提示词和报错报警等级；

在本实施例中，故障类型包括操作系统故障、数据库服务故障、网卡及数据传输故障、硬件故障等，故障字符映射表中包括多个故障的提示字符，比如“ERROR”、“WRONG”或“WRANNING”等，不同报错日志来源于不同的日志文件，比如报错提示词为“ ERROR”且此报错日志来源于硬盘运行日志文件，则可表明故障类型为硬盘故障，故障节点为硬盘数据不可修复。

在本实施例中，故障频率值为在预设时段内，服务器发生当前故障的次数，预设故障频率值设定为0.4，预设故障频率值为故障在100天内发送此故障的次数超过40次，若当前故障频率值超过0.4时，不对当前故障进行修复，直接对服务器进行更换。

接管模块，用于自动接管所述第一服务器的资源。

在本申请的一些实施例中，所述判断模块还包括：

本发明提供了一种数据库服务器故障处理方法及系统，该方法包括：步骤S101：检测服务器集群中的第一服务器的应答状态和应答速度；步骤S102：根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障，当所述第一服务器发生故障时，发送报错日志；步骤S103：第二服务器自动接管所述第一服务器的资源，并根据所述报错日志对所述第一服务器进行故障排查和处理，将处理后的所述第一服务器重新启动并加入所述服务器集群，该方法将第一服务器设置为主服务器，第二服务器设置为从服务器，当检测到第一服务器发生故障后，第二服务器自动接管主服务器的工作内容和资源，通过完全镜像方式对第一服务器的数据库进行备份，并根据报错日志对主服务器进行故障排查，得到故障类型及故障节点，根据故障类型及故障节点确定故障处理方法，并根据故障频率值判断当前故障是否可修复，若可修复根据相应的故障处理方法对当前故障进行处理，若不可修复，直接对服务器进行更换，处理完后重新启动服务器并加入服务器集群，并对第一服务器进行信号检测，若在预设时长内没接收到预设信号，将第二服务器设定为主服务器，第一服务器设定为从服务器，解决了在数据库服务器故障发生后，运维人员周期性查看监测系统中的故障列表，对故障设备进行停服和关机之后进行维修，导致故障处理不及时、故障积攒，数据库服务器可用率较低，对业务进度及连续性产生影响的问题。

以上所述仅为本发明的一个实施例子，但不能以此限制本发明的范围，凡依据本发明所做的结构上的变化，只要不失本发明的要义所在，都应视为落入本发明保护范围之内受到制约。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据库服务器故障处理方法，其特征在于，包括：

检测服务器集群中的第一服务器的应答状态和应答速度；

2.如权利要求1所述的数据库服务器故障处理方法，其特征在于，所述根据所述应答状态和所述应答速度判断所述第一服务器是否发生故障时，包括：

向所述第一服务器发送访问请求；

3.如权利要求2所述的数据库服务器故障处理方法，其特征在于，所述第二服务器自动接管所述第一服务器的资源时，包括：

4.如权利要求1所述的数据库服务器故障处理方法，其特征在于，所述报错日志包括报错提示词、报错日志来源和报错报警等级，根据所述报警提示词和故障字符映射表可得到所述第一服务器当前故障的预设字符，根据所述报错日志来源可得到当前故障的日志文件来源，根据所述报错报警等级对报警等级高的所述报错日志优先进行故障排查。

5.如权利要求4所述的数据库服务器故障处理方法，其特征在于，所述根据所述报错日志对所述第一服务器进行故障排查时，包括：

获取所述报错提示词和报错报警等级；

6.如权利要求5所述的数据库服务器故障处理方法，其特征在于，所述根据所述报错日志对所述第一服务器进行故障排查后，还包括：

7.如权利要求1所述的数据库服务器故障处理方法，其特征在于，所述将处理后的所述第一服务器重新启动并加入所述服务器集群时，包括：

8.如权利要求1所述的数据库服务器故障处理方法，其特征在于，所述第一服务器为主服务器，所述第二服务器为从服务器，当所述第一服务器处于工作状态时，所述第二服务器处于空闲状态，当所述第一服务器出现故障时，所述第二服务器自动接管所述第一服务器的工作。

9.一种数据库服务器故障处理系统，其特征在于，包括：

接管模块，用于自动接管所述第一服务器的资源。

10.如权利要求9所述的数据库服务器故障处理系统，其特征在于，所述判断模块还包括：