CN116049146A - 一种数据库故障处理方法、装置、设备及存储介质 - Google Patents

一种数据库故障处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116049146A
CN116049146A CN202310139913.0A CN202310139913A CN116049146A CN 116049146 A CN116049146 A CN 116049146A CN 202310139913 A CN202310139913 A CN 202310139913A CN 116049146 A CN116049146 A CN 116049146A
Authority
CN
China
Prior art keywords
abnormal
self
healing
fault
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310139913.0A
Other languages
English (en)
Other versions
CN116049146B (zh
Inventor
关慧梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youtejie Information Technology Co ltd
Original Assignee
Beijing Youtejie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youtejie Information Technology Co ltd filed Critical Beijing Youtejie Information Technology Co ltd
Priority to CN202310139913.0A priority Critical patent/CN116049146B/zh
Publication of CN116049146A publication Critical patent/CN116049146A/zh
Application granted granted Critical
Publication of CN116049146B publication Critical patent/CN116049146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明实施例提供了一种数据库故障处理方法、装置、设备及存储介质,其中,该方法包括:获取数据库的核心指标数据;对所述核心指标数据进行异常故障检测;针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;基于根因分析结果确定对应的自愈模型进行自愈;对自愈结果进行跟踪以确认是否解决异常故障。本发明实施例提供的技术方案,可以提高运维的效率,可以更快速恢复业务,减少因故障出现的损失,提高系统运行的稳定性。

Description

一种数据库故障处理方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种数据库故障处理方法、装置、设备及存储介质。
背景技术
目前,相关技术中,数据库运维处理流程是出现告警、登陆数据库、排查问题、确认故障方案,处理故障、恢复正常并观察,这些步骤往往需要人工手动处理,需要耗费数小时来处理。数据库又是业务系统主要组成部分,承担着数据存储与查看。当数据库出现故障,影响整个业务的正常运作。当数据库出现异常告警后,业务也会随着崩溃,同时数据库故障种类多,解决难度高。因此,可以将一些经验转换成机器处理,实现数据库故障自我排查与自愈能力,提高数据库的稳定运行,减轻一线运维人员重复工作量,及压力。
相关技术中,数据库故障的自愈方案主要是,对现有数据库的故障类型进行分类,并梳理出对应的数据库处理的命令并放在脚本中,当出现故障进行触发使用,如果没有选择匹配到对应的故障类型,则采用短信通知运维人员进行手动操作,因此,相关技术中数据库故障的处理效率较低。
发明内容
本发明实施例提供了一种数据库故障处理方法、装置、设备及存储介质,可以提高运维的效率,减轻一线运维人员的压力,可以更快速恢复业务,减少因故障出现的损失,提高系统运行的稳定性。
第一方面,本发明实施例提供了一种数据库故障处理方法,包括:
获取数据库的核心指标数据;
对所述核心指标数据进行异常故障检测;
针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;
基于根因分析结果确定对应的自愈模型进行自愈;
对自愈结果进行跟踪以确认是否解决异常故障。
第二方面,本发明实施例提供了一种数据库故障处理装置,包括:
获取模块,用于获取数据库的核心指标数据;
异常故障检测模块,用于对所述核心指标数据进行异常故障检测;
根因分析模块,用于针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;
第一确定模块,用于基于根因分析结果确定对应的自愈模型进行自愈;
第二确定模块,用于对自愈结果进行跟踪以确认是否解决异常故障。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例提供的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明实施例提供的方法。
本发明实施例提供的技术方案,通过获取数据库的核心指标数据,通过核心指标数据进行异常故障检测,针对检测到的异常故障进行告警,匹配对应的诊断模型进行异常故障的根因分析,通过根因分析结果确定对应的自愈模型进行自愈,对自愈结果进行跟踪以确认是否解决异常故障,可以提高数据库运维效率,可以减轻一线运维人员的压力,可以更快速恢复业务,减少因故障出现的损失,提高系统运行的稳定性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据库故障处理方法流程图;
图2是核密度概率分布图;
图3是诊断模型处理会话异常故障的根因分析流程图;
图4是通过诊断模型处理表空间异常故障的根因分析流程图;
图5是会话异常自愈模型处理流程图;
图6是表空间异常自愈模型处理流程图;
图7是本发明实施例提供的一种数据库故障处理方法流程图;
图8是本发明实施例提供的一种数据库故障处理方法流程图;
图9是本发明实施例提供的一种数据库故障处理装置框图;
图10是本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明实施例提供的一种数据库故障处理方法流程图,所述方法可以由数据库故障处理装置来执行,所述装置可以由软件和/或硬件来实现,所述装置可以配置在计算机等电子设备中,所述方法应用于数据库运维的场景中,如图1所示,本发明实施例提供的技术方案包括:
S110:获取数据库的核心指标数据。
在本发明实施例中,可以采集数据库相关日志,并将数据库相关日志中的数据进行清洗,清洗之后并进行存储,从数据库相关日志中获取数据库的核心指标数据,其中,核心指标数据可以包括会话数据、表空间相关数据等。表空间相关数据包括表空间使用率等数据,会话数据可以是理解为应用访问数据库的相关数据。
S120:对所述核心指标数据进行异常故障检测。
在本发明实施例的一个实施方式中,可选的,所述对所述核心指标数据进行异常故障检测,包括:通过核密度分析算法和移动均值算法对所述核心指标数据进行异常故障检测。
具体的,数据库指标数据使用较多算法是核密度分析算法,该算法可作用于明显的按天类比的分段突变数据,在训练数据中,该算法针对每天同一时间点,在相邻范围内获取数据点的集合,并构造核密度模型。保证了算法训练有10080个采样点,提供三周以上数据。
其中,该算法的学习过程:对每天处于同一时刻的数据点,选取其相邻一定范围内的数据点,构成一个点集,对点集做核密度分析,构造一个核密度模型。对一天中的所有时刻构造一个对应的核模型,则得到了最终的KDE(kernel density estimation)模型。该算法的评估过程:首先找到待评估点所属的时刻,使用该时刻代表的核密度模型对数据点进行评估,拟合分布的概率分布给出异常分数,最终根据灵敏度阈值去判断该分数是否符合异常标准,其中概率分布图可以参考图2。
在本发明实施例中,核心指标数据为持续性,且异常值偏离较大的数据可以采用移动均值算法。例如,会话数量,可以对观察值分别给予不同的平滑值,按不同平滑数求得移动平均值,并以最后的移动平均值为基础,确定预测值的方法。采用平滑移动平均法,是因为观察期的近期观察值对预测值有较大影响,它更能反映近期变化的趋势。
其中,该算法的学习过程是:对两个相邻窗口的数据按照窗口分别求和再相除,得到前后窗口的数值商,进而得到训练数据的商序列。如果数据波动越剧烈,那么数值商值就会越大,反之亦反。为了对商序列的分布做简单描述,对其求均值和期望。该期望和均值将作为后面检测所用的阈值。其意义是指如果数据的波动程度在历史数据波动程度内,则认为是正常。该算法的评估过程是:对待预测序列进行窗口化并计算商序列,使用历史学到的均值和方差配合灵敏度构造阈值,数值商在阈值外的被认为是异常。
S130:针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析。
在本发明实施例中,针对检测到的异常故障进行告警,并确认数据非突非降结果后可以将异常故障进行告警。
在本发明实施例中,在匹配对应的诊断模型进行异常故障的根因分析之前还可以包括:配置诊断模型与自愈模型的匹配规则。也就是说针对诊断模型和自愈模型的匹配需要满足的规则配置。
在本发明实施例的一个实施方式中,可选的,所述匹配对应的诊断模型进行异常故障的根因分析,包括:若检测到会话异常故障的告警,通过对应诊断模型将当前时间段的会话数量与前一时间段的会话数量进行对比,判断会话数量是否超过预设阈值;通过所述诊断模型判断数据库最近时间段的性能指标;确认最近时间段内的会话明细;通过所述诊断模型基于会话数量对比结果、性能指标判断结果以及所述会话明细确定会话异常故障的根因分析结果。
其中,不同的核心指标数据关联的诊断模型是不同的,当前时间段可以是当前一小时,前一时间段可以是前一小时,预设阈值可以是20%,最近时间段可以是最近一小时。可选的,将当前一小时的会话数量与前一小时的会话数量进行对比,如果会话数量超过20%,可以判断数据库最近时间段的性能指标,并确认最近时间段的会话明细,通过会话数据对比结果、性能指标判断结果以及会话明细确定会话异常故障的根因分析结果。其中,会话对比结果可以是当前时间段与前一时间的会话数量是否超过预设阈值的结果,性能指标判断结果可以是性能指标是正常或者异常的具体情况,会话明细包括会话数量,会话占比情况等。通过综合判断是连接异常导致的会话异常故障,还是阻塞导致的会话异常故障。例如,若通过会话明细判断是出现阻塞,性能指标中的资源占用会较多,从而可以判断是阻塞导致的会话异常故障。其中,通过诊断模型处理会话异常故障的根因分析流程可以参考图3。
在本发明实施例的一个实施方式中,可选的,所述匹配对应的诊断模型进行异常故障的根因分析,包括:若检测到表空间异常故障的告警,通过对应诊断模型判断表空间使用率是否超过预设使用率;通过所述诊断模型判断表空间在过去时间段是否连续存在,且连续使用超过预设次数;通过所述诊断模型基于所述表空间使用率的判断结果以及所述表空间在过去时间段连续存在、且连续使用的判断结果确定表空间异常故障的根因分析结果。
其中,表空间异常故障表现出无法写入数据,出现数据冗余的问题,出现数据库不可用,同时可能引发数据库夯住出现。其中,预设使用率可以是85%,预设次数可以是5次。其中,表空间使用率的判断结果可以包括表空间使用率超过预设使用率和表空间使用率没有超过预设使用率;其中,表空间在过去时间段连续存在、且连续使用的判断结果包括表空间在过去时间段连续存储,且连续使用的次数超过预设次数,和表空间在过去时间段连续存储,且连续使用的次数没有超过预设次数。其中,通过诊断模型处理表空间异常故障的根因分析流程可以参考图4。
S140:基于根因分析结果确定对应的自愈模型进行自愈。
在本发明实施例的一个实施方式中,可选的,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:若检测到表空间不足导致会话异常故障,通过会话异常自愈模型扩容表空间;若检测到阻塞异常导致会话异常故障,通过会话异常自愈模型输出阻塞报告以及提供给开发人员以进行排查处理;若检测到表空间异常导致会话异常故障,通过所述会话异常自愈模型判断表空间进行的预设操作是否正常,若是,扩容表空间,若否,输出报告以及提供给开发人员以进行排查处理。其中,预设操作包括增删改查操作,会话异常自愈模型处理流程图可以参考图5。
在本发明实施例的一个实施方式中,可选的,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:若检测到表空间进行的预设操作过多导致表空间异常故障,通过表空间异常自愈模型输出报告提供给开发人员以进行排查处理;若检测到表空间不足导致表空间异常故障,通过表空间异常自愈模型进行扩容表空间的操作;若检测到高水位异常导致表空间异常故障,通过表空间异常自愈模型进行回收高水位的操作。其中,表空间异常自愈模型处理流程图可以参考图6。
S150:对自愈结果进行跟踪以确认是否解决异常故障。
在本发明实施例中,可选的,自愈结果可以是异常故障的解决结果,可以通过核心指标数据是否回到正常状态来确认是否解决异常故障。
本发明实施例提供的技术方案,通过获取数据库的核心指标数据,通过核心指标数据进行异常故障检测,针对检测到的异常故障进行告警,匹配对应的诊断模型进行异常故障的根因分析,通过根因分析结果确定对应的自愈模型进行自愈,对自愈结果进行跟踪以确认是否解决异常故障,可以提高数据库运维效率,减轻一线运维人员的压力,可以更快速恢复业务,减少因故障出现的损失,提高系统运行的稳定性。
图7是本发明实施例提供的一种数据库故障处理方法流程图,在本实施例中,所述方法还可以包括:
对异常故障、对应的根因分析结果以及对应的自愈模型保存至知识库;
若再次检测到异常故障,根据异常故障的根因分析结果匹配到知识库,并通过知识库中对应的自愈模型进行自愈。
如图7所示,本发明实施例提供的技术方案包括:
S210:获取数据库的核心指标数据。
S220:对所述核心指标数据进行异常故障检测。
S230:针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析。
S240:基于根因分析结果确定对应的自愈模型进行自愈;
S250:对自愈结果进行跟踪以确认是否解决异常故障。
其中,S210-S250的介绍可以参考上述实施例。
S260:对异常故障、对应的根因分析结果以及对应的自愈模型保存至知识库。
在本发明实施例中,对异常故障、对应的根因分析结果以及对应的自愈模型保存至知识库,当再次使用时,可以直接调用知识库中的自愈模型进行自愈,从而提高效率。
S270:若再次检测到异常故障,根据异常故障的根因分析结果匹配到知识库,并通过知识库中对应的自愈模型进行自愈。
在本发明实施例中,若再次检测到同样的异常故障,根据异常故障的根因分析结果匹配到知识库,通过知识库的自愈模型进行自愈,即诊断完成后,可将当前的异常故障、对应的根因分析结果、对应的自愈模型转为知识库保存,当出现相同的问题可作为直接解决方案执行处理,可以提高效率。
其中,本发明实施例提供的技术方案还可以参考图8。其中,触发诊断模型后,可以将根因分析结果同步到知识库,绑定对应自愈模型,可以根据知识库获取到自愈模型,通过自愈模型进行自愈;或者根因分析结果、对应的自愈模型已经存储到知识库中,则若触发诊断模型后,可以根据根因分析结果获取对应知识库,直接根据知识库获取到自愈模型,通过自愈模型进行自愈。
本发明实施例提供的技术方案,可以将已经成熟的运维经验通过可视化流程固化下来,提高运维效率,同时将运维人员从复杂并且耗时巨大的人工手动处理中解放,同时实现自动化处理流程,更快速恢复业务,减少因为故障出现的损失,提高系统的运行的稳定性。
图9是本发明实施例提供的一种数据库故障处理装置框图,如图9所示,所述装置包括:获取模块310、异常故障检测模块320、根因分析模块330、第一确定模块340和第二确定模块350。
其中,获取模块310,用于获取数据库的核心指标数据;
异常故障检测模块320,用于对所述核心指标数据进行异常故障检测;
根因分析模块330,用于针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;
第一确定模块340,用于基于根因分析结果确定对应的自愈模型进行自愈;
第二确定模块350,用于对自愈结果进行跟踪以确认是否解决异常故障。
可选的,所述装置还包括知识库匹配模块,用于:
对异常故障、对应的根因分析结果以及对应的自愈模型保存至知识库;
若再次检测到异常故障,根据异常故障的根因分析结果匹配到知识库,并通过所述知识库中对应的自愈模型进行自愈。
可选的,所述匹配对应的诊断模型进行异常故障的根因分析,包括:
若检测到会话异常故障的告警,通过对应诊断模型将当前时间段的会话数量与前一时间段的会话数量进行对比,判断会话数量是否超过预设阈值;
通过所述诊断模型判断数据库最近时间段的性能指标;
通过所述诊断模型确认最近时间段内的会话明细;
通过所述诊断模型基于会话数量对比结果、性能指标判断结果以及所述会话明细确定会话异常故障的根因分析结果。
可选的,所述匹配对应的诊断模型进行异常故障的根因分析,包括:
若检测到表空间异常故障的告警,通过对应诊断模型判断表空间使用率是否超过预设使用率;
通过所述诊断模型判断表空间在过去时间段是否连续存在,且连续使用超过预设次数;
通过所述诊断模型基于所述表空间使用率的判断结果以及所述表空间在过去时间段连续存在、且连续使用的判断结果确定表空间异常故障的根因分析结果。
可选的,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:
若检测到表空间不足导致会话异常故障,通过会话异常自愈模型扩容表空间;
若检测到阻塞异常导致会话异常故障,通过所述会话异常自愈模型输出阻塞报告以及提供给开发人员以进行排查处理;
若检测到表空间异常导致会话异常故障,通过所述会话异常自愈模型判断表空间进行的预设操作是否正常,若是,扩容表空间,若否,输出报告以及提供给开发人员以进行排查处理。
可选的,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:
若检测到表空间进行的预设操作过多导致表空间异常故障,通过表空间异常自愈模型输出报告提供给开发人员以进行排查处理;
若检测到表空间不足导致表空间异常故障,通过表空间异常自愈模型进行扩容表空间的操作;
若检测到高水位异常导致表空间异常故障,通过所述表空间异常自愈模型进行回收高水位的操作。
可选的,所述对所述核心指标数据进行异常故障检测,包括:
通过核密度分析算法和移动均值算法对所述核心指标数据进行异常故障检测。
本发明实施例所提供的装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例10
图10示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图10所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据库故障处理方法。
在一些实施例中,数据库故障处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据库故障处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据库故障处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据库故障处理方法,其特征在于,包括:
获取数据库的核心指标数据;
对所述核心指标数据进行异常故障检测;
针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;
基于根因分析结果确定对应的自愈模型进行自愈;
对自愈结果进行跟踪以确认是否解决异常故障。
2.根据权利要求1所述的方法,其特征在于,还包括:
对异常故障、对应的根因分析结果以及对应的自愈模型保存至知识库;
若再次检测到异常故障,根据异常故障的根因分析结果匹配到知识库,并通过所述知识库中对应的自愈模型进行自愈。
3.根据权利要求1所述的方法,其特征在于,所述匹配对应的诊断模型进行异常故障的根因分析,包括:
若检测到会话异常故障的告警,通过对应诊断模型将当前时间段的会话数量与前一时间段的会话数量进行对比,判断会话数量是否超过预设阈值;
通过所述诊断模型判断数据库最近时间段的性能指标;
通过所述诊断模型确认最近时间段内的会话明细;
通过所述诊断模型基于会话数量对比结果、性能指标判断结果以及所述会话明细确定会话异常故障的根因分析结果。
4.根据权利要求1所述的方法,其特征在于,所述匹配对应的诊断模型进行异常故障的根因分析,包括:
若检测到表空间异常故障的告警,通过对应诊断模型判断表空间使用率是否超过预设使用率;
通过所述诊断模型判断表空间在过去时间段是否连续存在,且连续使用超过预设次数;
通过所述诊断模型基于所述表空间使用率的判断结果以及所述表空间在过去时间段连续存在、且连续使用的判断结果确定表空间异常故障的根因分析结果。
5.根据权利要求1所述的方法,其特征在于,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:
若检测到表空间不足导致会话异常故障,通过会话异常自愈模型扩容表空间;
若检测到阻塞异常导致会话异常故障,通过所述会话异常自愈模型输出阻塞报告以及提供给开发人员以进行排查处理;
若检测到表空间异常导致会话异常故障,通过所述会话异常自愈模型判断表空间进行的预设操作是否正常,若是,扩容表空间,若否,输出报告以及提供给开发人员以进行排查处理。
6.根据权利要求1所述的方法,其特征在于,所述基于根因分析结果确定对应的自愈模型进行自愈,包括:
若检测到表空间进行的预设操作过多导致表空间异常故障,通过表空间异常自愈模型输出报告提供给开发人员以进行排查处理;
若检测到表空间不足导致表空间异常故障,通过表空间异常自愈模型进行扩容表空间的操作;
若检测到高水位异常导致表空间异常故障,通过所述表空间异常自愈模型进行回收高水位的操作。
7.根据权利要求1所述的方法,其特征在于,所述对所述核心指标数据进行异常故障检测,包括:
通过核密度分析算法和移动均值算法对所述核心指标数据进行异常故障检测。
8.一种数据库故障处理装置,其特征在于,包括:
获取模块,用于获取数据库的核心指标数据;
异常故障检测模块,用于对所述核心指标数据进行异常故障检测;
根因分析模块,用于针对检测到的异常故障进行告警,并匹配对应的诊断模型进行异常故障的根因分析;
第一确定模块,用于基于根因分析结果确定对应的自愈模型进行自愈;
第二确定模块,用于对自愈结果进行跟踪以确认是否解决异常故障。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的方法。
CN202310139913.0A 2023-02-13 2023-02-13 一种数据库故障处理方法、装置、设备及存储介质 Active CN116049146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139913.0A CN116049146B (zh) 2023-02-13 2023-02-13 一种数据库故障处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139913.0A CN116049146B (zh) 2023-02-13 2023-02-13 一种数据库故障处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116049146A true CN116049146A (zh) 2023-05-02
CN116049146B CN116049146B (zh) 2023-09-01

Family

ID=86113388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139913.0A Active CN116049146B (zh) 2023-02-13 2023-02-13 一种数据库故障处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116049146B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303373A (zh) * 2023-05-22 2023-06-23 湖南三湘银行股份有限公司 一种全自动监控诊断数据库的装置
CN116662059A (zh) * 2023-07-24 2023-08-29 上海爱可生信息技术股份有限公司 MySQL数据库CPU故障诊断及自愈方法及可读存储介质
CN117235051A (zh) * 2023-11-09 2023-12-15 宁波银行股份有限公司 一种数据库的管理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400321A (zh) * 2020-03-23 2020-07-10 上海新炬网络技术有限公司 基于oracle数据库自动回收高水位的方法
CN113590370A (zh) * 2021-08-06 2021-11-02 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN114168375A (zh) * 2021-12-10 2022-03-11 国家电网有限公司信息通信分公司 一种数据库系统异常快速定位与消除的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400321A (zh) * 2020-03-23 2020-07-10 上海新炬网络技术有限公司 基于oracle数据库自动回收高水位的方法
CN113590370A (zh) * 2021-08-06 2021-11-02 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN114168375A (zh) * 2021-12-10 2022-03-11 国家电网有限公司信息通信分公司 一种数据库系统异常快速定位与消除的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303373A (zh) * 2023-05-22 2023-06-23 湖南三湘银行股份有限公司 一种全自动监控诊断数据库的装置
CN116303373B (zh) * 2023-05-22 2023-07-25 湖南三湘银行股份有限公司 一种全自动监控诊断数据库的装置
CN116662059A (zh) * 2023-07-24 2023-08-29 上海爱可生信息技术股份有限公司 MySQL数据库CPU故障诊断及自愈方法及可读存储介质
CN116662059B (zh) * 2023-07-24 2023-10-24 上海爱可生信息技术股份有限公司 MySQL数据库CPU故障诊断及自愈方法及可读存储介质
CN117235051A (zh) * 2023-11-09 2023-12-15 宁波银行股份有限公司 一种数据库的管理方法、装置、电子设备和存储介质
CN117235051B (zh) * 2023-11-09 2024-02-02 宁波银行股份有限公司 一种数据库的管理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN116049146B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN116049146B (zh) 一种数据库故障处理方法、装置、设备及存储介质
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN115686910A (zh) 一种故障分析方法、装置、电子设备及介质
CN115373888A (zh) 故障定位方法、装置、电子设备和存储介质
CN116225769A (zh) 一种系统故障根因的确定方法、装置、设备及介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN116226644A (zh) 设备故障类型的确定方法、装置、电子设备及存储介质
CN114760190A (zh) 一种面向服务的融合网络性能异常检测方法
CN115794473A (zh) 一种根因告警的定位方法、装置、设备及介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN114896418A (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN115829160B (zh) 一种时序异常预测方法、装置、设备及存储介质
CN114513441B (zh) 基于区块链的系统维护方法、装置、设备及存储介质
CN116112339B (zh) 一种根因告警的定位方法、装置、设备及介质
CN117687816A (zh) 一种业务可靠性评价方法、装置、设备及存储介质
CN117608896A (zh) 交易数据处理方法、装置、电子设备及存储介质
CN117851853A (zh) 一种窃电用户定位方法、装置、设备及存储介质
CN117471238A (zh) 一种电网系统稳定性的确定方法、装置及电子设备
CN115774648A (zh) 一种异常定位方法、装置、设备以及存储介质
CN117707899A (zh) 一种微服务异常检测方法、装置、设备及存储介质
CN118170626A (zh) 一种基于全局拓扑图的应用故障排查方法、装置、设备及存储介质
CN117690277A (zh) 阈值确定方法、装置、设备及存储介质
CN116302370A (zh) 一种返回码异常告警的生成方法、装置、设备及介质
CN117493060A (zh) 数据库组件异常检测方法、装置、设备及介质
CN118013303A (zh) 交易检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant