CN113342889A - 分布式数据库的管理方法、装置、设备和介质 - Google Patents

分布式数据库的管理方法、装置、设备和介质 Download PDF

Info

Publication number
CN113342889A
CN113342889A CN202110621726.7A CN202110621726A CN113342889A CN 113342889 A CN113342889 A CN 113342889A CN 202110621726 A CN202110621726 A CN 202110621726A CN 113342889 A CN113342889 A CN 113342889A
Authority
CN
China
Prior art keywords
index
distributed database
abnormal
data
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110621726.7A
Other languages
English (en)
Inventor
陈镛先
黄颢
王君轶
王爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110621726.7A priority Critical patent/CN113342889A/zh
Publication of CN113342889A publication Critical patent/CN113342889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本公开提供了一种分布式数据库的管理方法,可以应用于信息安全和大数据技术领域,其中包括:确定分布式数据库中的当前监控数据中的异常指标;排查与异常指标对应的根因指标信息;以及根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。因此,相对于现有技术中大量依赖人力运维的情况,进一步实现了分布式数据库的管理自治,自动化程度和智能化程度更高,降低了分布式数据库的集群运维人力和时间成本,提高了运维效率。此外,本公开还提供了一种分布式数据库的管理装置、电子设备和计算机可读存储介质。

Description

分布式数据库的管理方法、装置、设备和介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种分布式数据库的管理方法、装置、电子设备和计算机可读存储介质。
背景技术
随着业务数据量不停增长,受限于单台机器配置,单机型数据库已经越来越满足不了当前的需求,于是分布式数据库(Distributed Data Base,简称DDB)被大量使用。分布式数据库系统通常使用较小的计算机系统,每台计算机可单独存放在一个地方,每台计算机都可能有数据库管理系统(Data Base Management System,简称DBMS)的一份完整拷贝副本,或部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整、全局的逻辑上集中、物理上分布的大型数据库,用以支持。
发明内容
(一)要解决的技术问题
为解决现有技术中分布式数据库所存在的技术问题至少之一,本公开提供了一种分布式数据库的管理方法、分布式数据库的管理装置、电子设备和计算机可读存储介质。
(二)技术方案
本公开的一个方面提供了一种分布式数据库的管理方法,其中,包括:确定分布式数据库中的当前监控数据中的异常指标;排查与异常指标对应的根因指标信息;以及根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。
根据本公开的实施例,在确定分布式数据库中的当前监控数据中的异常指标之前,还包括:响应于数据调取指令,查询分布式数据库中的当前监控数据。
根据本公开的实施例,在确定分布式数据库中的当前监控数据中的异常指标之前,还包括:获取分布式数据库中的原始监控数据,通过对原始监控数据进行大数据训练获取基带,其中,基带为当前监控数据中每个监控指标在正常情况下所处的区域。
根据本公开的实施例,在确定分布式数据库中的当前监控数据中的异常指标中,包括:判断当前监控数据中每个指标与基带之间的对应关系;根据对应关系,确定当前监控数据中的异常指标。
根据本公开的实施例,在排查与异常指标对应的根因指标信息中,包括:将异常指标与预设的故障排查指标组进行匹配;根据匹配所产生的匹配结果和根因指标映射关系,排查与异常指标对应的根因指标信息。
根据本公开的实施例,在根据匹配所产生的匹配结果和根因指标映射关系,排查与异常指标对应的根因指标信息中,包括:当匹配结果为异常指标与故障排查指标组中的至少一个指标组完全匹配时,确定异常指标的影响值;根据根因指标映射关系,排查与影响值对应的根因指标信息。
根据本公开的实施例,在根据根因指标信息针对异常指标执行优化操作中,包括:根据根因指标信息和预设异常优化对应规则,生成对应的优化操作指令;执行优化操作指令。
根据本公开的实施例,方法还包括:确定对应优化操作的反馈数据;根据反馈数据,针对异常指标进行自运维操作。
本公开的另一个方面提供了一种分布式数据库的管理装置,其中,包括指标确定模块、根因排查模块和优化执行模块。指标确定模块用于确定分布式数据库中的当前监控数据中的异常指标;根因排查模块用于排查与异常指标对应的根因指标信息;以及优化执行模块用于根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。
本公开的另一个方面提供了一种电子设备,其中,包括一个或多个处理器和存储器;存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
本公开的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,其中,该指令在被执行时用于实现上述的方法。
(三)有益效果
本公开提供了一种分布式数据库的管理方法,其中包括:确定分布式数据库中的当前监控数据中的异常指标;排查与异常指标对应的根因指标信息;以及根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。因此,相对于现有技术中大量依赖人力运维的情况,进一步实现了分布式数据库的管理自治,自动化程度和智能化程度更高,降低了分布式数据库的集群运维人力和时间成本,提高了运维效率。此外,本公开还提供了一种分布式数据库的管理装置、电子设备和计算机可读存储介质。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的分布式数据库集群的一示例性系统架构;
图2示意性示出了根据本公开实施例的可以应用分布式数据库的管理方法的一示例性系统架构;
图3示意性示出了根据本公开实施例的分布式数据库的管理方法的流程图;
图4示意性示出了根据本公开实施例的可以应用分布式数据库的管理方法的另一示例性系统架构;
图5示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图6示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图7示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图8示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图9示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图10示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图11示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图;
图12示意性示出了根据本公开实施例的分布式数据库的管理装置的框图;以及
图13示意性示出了根据本公开实施例的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了上述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
图1示意性示出了根据本公开实施例的分布式数据库集群的一示例性系统架构。
如图1所示,分布式数据库100是指拥有多个副本同时工作,并遵循分布式一致性协议的数据库,其中每个分布式数据库100包括至少三个服务器1-3,每个服务器一般分为三大主要模块:计算模块、管理模块、存储模块,如服务器1中所包括的计算模块1、管理模块1和存储模块1;相似地,服务器2中包括的计算模块2、管理模块2和存储模块2,服务器3中包括的计算模块3、管理模块3和存储模块3。其中,计算模块1-3是无状态节点,负责接收应用端的SQL请求,处理SQL相关的逻辑,并与对应存储模块1-3交互获取数据,最终给应用终端返回结果。管理模块1-3则是有状态节点,负责存储元数据,管理整个集群的信息。存储模块1-3也是有状态节点,负责存储整个数据库集群的数据。其中所谓无状态节点是指不存关键数据,即启即用的节点,相反,对于有状态节点是指存储关键数据,重新启动时需要同步、拉取数据后才能正常服务的节点。
随着分布式数据库集群规模扩大,在实际运维过程中,分布式数据库所出现的问题也越来越多,且现有技术中的这些问题大都只能依赖人力解决。为更加高效地解决这些问题,将直接导致分布式数据库的运维消耗的人力、时间成本也逐渐增加。因此,如何进一步提高分布式数据库的自治能力,减轻运维负担成为当前迫切需要解决的技术问题。
为解决现有技术中分布式数据库中所存在的技术问题至少之一,如在当前分布式数据库所具有的自治能力无法匹配其集群规模日益扩大的情况下,造成分布式数据库运维成本越来越大、运维效率越来越低的情况,本公开提供了一种分布式数据库的管理方法、分布式数据库的管理装置、电子设备和计算机可读存储介质。
需要说明的是,本公开所提供的分布式数据库的管理方法和装置可以应用于信息安全技术领域,也可以应用于大数据技术领域和金融技术领域,也可以应用于上述技术领域之外的任意技术领域,本公开的分布式数据库的管理方法和装置的应用领域具体不作限定。
图2示意性示出了根据本公开实施例的可以应用分布式数据库的管理方法的示例性系统架构。
需要注意的是,图2所示仅为可以应用本公开实施例的应用示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例的分布式数据库的管理方法的不可以用于其他设备、系统、环境或场景。
如图2所示,根据该实施例的系统架构200可以包括数据请求系统210,以及与该数据请求系统210建立数据通信的服务器系统220,其中服务器系统中包括与数据请求系统210建立数据传输通道的服务器M、221、222、223、224以及225,其中服务器M为主访问服务器(即总服务器),可以获取来自用户(如服务器系统的运维人员)的指令信息。服务器221、222、223、224以及225为副访问服务器(即分服务器),数据请求系统110与服务器M、221、222、223、224以及225可以基于一个内部云端网络服务器C实现。或者,服务器M、221、222、223、224以及225中的主服务器M为一网络服务器时,即与其他终端设备211、212、213、214以及215的内网相对,服务器系统220的主服务器M可以位于一外网中。此时,云端网络服务器C此处用以其他终端设备211、212、213、214以及215之间提供通信链路的介质。服务器系统220与多个终端设备之间的数据传输通道具体可以通过各种通信连接类型实现,例如有线、无线通信链路或者光纤电缆等等。其中,云端网络服务器C可以为一web服务器,以向用户提供图形显示和输入界面。
需要说明的是,根据本公开实施例,服务器221、222、223、224以及225可以实现无密互联,应用于能够保证信息安全的大型分布式数据库的管理服务。
用户可以使用终端设备211、212、213、214以及215与服务器系统120交互,以接收或发送消息等,以实现分布式数据库的管理,具体涉及对服务器系统中主服务器M中的数据库的访问。例如,终端设备211向终端设备212发送业务数据等访问请求内容,服务器系统220在接收到终端设备211的数据请求后,会对相应的业务数据执行转发处理,并在特定的需要下对业务数据进行加密,以使得最终到达终端设备211的业务数据得到安全保障。终端设备211、212、213、214以及215上可以安装有各种通讯客户端应用,例如管理类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备211、212、213、214以及215可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机以及各类应用服务器等等。
服务器系统220可以包括提供各种服务的各类型防火墙,例如对用户利用终端设备211、212、213、214以及215所浏览的网站提供支持的过滤型防火墙(仅为示例)。过滤型防火墙可以对接收到的用户请求等数据进行分析等处理,并基于数据源头的地址以及协议类型等标志特征进行分析,确定是否可以通过,从而将不安全因素过滤或阻挡。
需要说明的是,本公开实施例所提供的分布式数据库的管理方法一般可以由服务器系统220执行。相应地,本公开实施例所提供的分布式数据库的管理装置一般可以设置于服务器系统220中。本公开实施例所提供的分布式数据库的管理方法也可以由不同于服务器系统120且能够与终端设备211、212、213、214、215和/或服务器系统220通信的其他服务器系统执行。相应地,本公开实施例所提供的分布式数据库的管理装置也可以设置于不同于服务器系统220且能够与终端设备211、212、213、214、215和/或服务器系统220通信的其他服务器系统中。
应该理解,图2中的终端设备和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、服务器。
以下结合图3-图13,对本公开提供的分布式数据库的管理方法、分布式数据库的管理装置、电子设备及计算机可读存储介质作进一步的详细说明。
图3示意性示出了根据本公开实施例的分布式数据库的管理方法的流程图。
本公开的一个方面提供了一种分布式数据库的管理方法,其中,包括步骤S301-S303。
在步骤S301中,确定分布式数据库中的当前监控数据中的异常指标;
在步骤S302中,排查与异常指标对应的根因指标信息;以及
在步骤S303中,根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。
图4示意性示出了根据本公开实施例的可以应用分布式数据库的管理方法的另一示例性系统架构。
如图4所示,自感知单元410可以实现对当前监控数据中的异常进行发现和定位,主要可以包括监控子单元411和排查子单元412两个组成部分。
监控子单元411可以用于获取分布式数据库中的当前监控数据,并对当前监控数据进行分析处理,以确定当前监控数据中的异常指标数据。其中,当前监控数据是由分布式数据库中的各个服务器的当前运行状态所产生运行日志数据,如对应服务器的CPU、内存等不同指标的当前运行日志数据,其中当前监控数据可以存储于分布式数据库中的数据存储器或存储模块中。
当前述的当前监控数据中某项日志数据出现异常时,则即对应该项日志数据的指标异常。指标异常通常会在一定时间范围内直接或间接地对该项指标所关联的程序造成程度不同的影响,从而易于使得整个分布式数据库的数据存储或处理等功能无法正常运行,产生运行故障。因此,通过监控子单元411可以对整个当前监控数据中的具体日志数据进行逐项确认分析,便可以将其中运行状态异常的异常指标筛选出来。
排查子单元412可以针对上述所确定的异常指标进行数据库问题排查操作。对于异常指标而言,每个指标的异常都有导致其所产生的根本原因。通过预设的指标异常数据和根因指标信息,可以依据指标异常数据对异常指标的根因指标信息进行逐一排查确定,从而获取与上述异常指标相对应的根因指标信息,该根因指标信息可以理解为上述异常指标所对应的异常产生根本原因形成的数据。因此,与直接根据指标来固定优化操作的方式相比,可以第一时间通过异常指标更为准确地排查定位发生异常的根因指标信息,提高优化操作的确认效率和准确性,提高自感知-自优化的运行效率和准确率,使得分布式数据库集群的自管理更加高效、准确。
进一步地,自优化单元420可以用于针对异常指标通过根因指标信息所对应的优化操作,进行对应的故障或问题的自动优化操作,使得本公开实施例的分布式数据库可以实现对自感知单元410所监控排查确定的运行问题优化解决,使得异常指标得以及时处理,即优化根因指标。因此,在异常指标被自优化单元420进行优化处理之后,便实现了对分布式数据库的有效管理。
因此,相对于现有技术中大量依赖人力运维的情况,进一步实现了分布式数据库的管理自治,自动化程度和智能化程度更高,降低了分布式数据库的集群运维人力和时间成本,提高了运维效率。
图5示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图5所示,根据本公开的实施例,在步骤S301确定分布式数据库中的当前监控数据中的异常指标之前,还包括步骤S501。
在步骤S501中,响应于数据调取指令,查询分布式数据库中的当前监控数据。
数据调取指令为用户(如分布式数据库的管理或运维人员)通过终端设备所发出的用于调取监控数据的请求指令,或者是系统根据预设的指令调取规则,在固定周期内向该分布式数据库发送的预设的监控数据的请求指令。监控数据通常是即时产生并即时存储于分布式数据库中的存储模块或相应的存储服务器中,具体可以以依据不同的日志数据的产生时间对其进行分组,以形成当前监控数据。根据该数据调取指令所响应的请求指令,可以执行相应的当前监控数据的查询操作,从而获取当前监控数据。
以此,可以目的性地获取当前监控数据,或者规律性地自动获取当前监控数据,使得本公开实施例的分布式数据库的管理方法自动化、智能化程度更高。
图6示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图6所示,根据本公开的实施例,在步骤S301确定分布式数据库中的当前监控数据中的异常指标之前,还包括步骤S601-步骤S602。
在步骤S601中,获取分布式数据库中的原始监控数据,
在步骤S602中,通过对原始监控数据进行大数据训练获取基带,其中,基带为当前监控数据中每个监控指标在正常情况下所处的区域。
在对异常指标进行确定之前,首先需要获取异常指标的判断依据。
在当前监控数据之外,分布式数据库对应的存储服务器或存储模块中存储有该分布式数据库运行过程中所产生的其他历史监控数据,该历史监控数据构成该分布式数据库的原始监控数据。其中,通过对原始监控数据进行查询调用,可以获取所有原始监控数据。
其中,对该原始监控数据进行大数据训练操作可以获得对应所有监控指标中,每个指标在正常运行状态下所处的正常运行数值范围,即一数值区域,该区域构成上述步骤S602中所提及的“基带”。因此,通过将大量原始监控数据进行大数据训练得出每个监控指标正常情况下应处于的区域,称之为“基带”,并将基带作为本公开实施例中指标异常的判断依据。其中,若某项监控数据超出此基带,则对应该监控数据的指标出现异常,以此可以用于确定该异常指标。
因此,通过基带为异常指标的判断构建了一判断标准,可以实现快速地指标异常判断。
图7示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图7所示,根据本公开的实施例,在步骤S301确定分布式数据库中的当前监控数据中的异常指标中,包括步骤S701-步骤S702。
在步骤S701中,判断当前监控数据中每个指标与基带之间的对应关系;
在步骤S702中,根据对应关系,确定当前监控数据中的异常指标。
对于当前监控数据的每个指标的监测值和基带数据的标准值进行比对,以构成指标监测值与基带数据的标准值之间的对应关系。
通过上述对应关系,若对应指标的监测值超出标准值所定义的数值区域范围(即正常值范围),则可以生成报警,构成问题异常,确定异常监测值对应监测指标。相反,若监测值未超出标准值所定义的数值区域范围,则不构成问题异常。
基于上述异常判断的对应关系,便可以形成当前监控数据中的异常指标的确定数据。
图8示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图8所示,根据本公开的实施例,在步骤S302排查与异常指标对应的根因指标信息中,包括步骤S801-步骤S802。
在步骤S801中,将异常指标与预设的故障排查指标组进行匹配;
在步骤S802中,根据匹配所产生的匹配结果和根因指标映射关系,排查与异常指标对应的根因指标信息。
对于所获取的异常指标而言,有些指标会对分布式数据库的整体运行状态产生直接的影响,易于造成分布式数据库的运行故障,影响正常的运行功能;有些指标则不会对你分布式数据库的整体运行状态产生影响,仅对于一些辅助模块等非核心的运行模块产生影响;还有些指标则会在一定的时间范围内不对分布式数据库的核心运行状态产生影响,超出特定时间则可能会对分布式数据库的正常运行状态造成影响。因此,不同的异常指标其对分布式数据库的运行状态所产生的影响深度也并不相同,影响越大,异常指标对整个分布式数据库的影响值越大,该指标在分布式数据库中的作用越发关键,相反,则影响值越小。
故障排查指标组为针对所有关键或重要的异常指标所设定的匹配对照数据,若该异常指标中所涉及的指标与该故障排查指标组匹配,则确定该异常指标为关键指标,需要尽快执行优化操作,以期尽快解决该异常指标对应系统问题。若确定该异常指标为非关键指标,则可以暂时搁置,或由其他自反馈操作对其进行处理即可。因此,故障排查指标组实际上为分布式数据库的核心指标的异常提供判断依据,使得本公开实施例的方法能够尽快确定影响核心运行功能的异常指标,并据此获取相应的异常指标优化配置,以期更好、更准确地解决运行故障。
当所确定异常指标能够于故障排查指标组实现匹配(即匹配结果),则确定该异常指标涉及关键运行状态的正常执行,需要进行故障优化操作。在此之前,则进一步需要借助异常指标与预设的根因指标映射关系对异常指标进行根因排查操作,最终确定根因指标信息。
预设的根因指标映射关系中涉及关键指标出现异常时的根本原因和对应的关键指标之间的映射数据,即根据关键指标及其所出现的异常数据,则可以确定其对应的异常根本原因,即根因指标信息。
因此,本公开实施例的方法能够进一步自动地根据异常指标直接确定出现该异常的根本原因,从而为下一步针对该异常的优化操作提供判断依据,完成异常根因的定位。
图9示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图9所示,根据本公开的实施例,在步骤S802根据匹配所产生的匹配结果和根因指标映射关系,排查与异常指标对应的根因指标信息中,包括步骤S901-步骤S902。
在步骤S901中,当匹配结果为异常指标与故障排查指标组中的至少一个指标组完全匹配时,确定异常指标的影响值;
在步骤S902中,根据根因指标映射关系,排查与影响值对应的根因指标信息。
对于上述的故障排查指标组而言,可以包括多个子指标组,每个子指标组中包括多个关键核心指标。其中,每个子指标组可以涉及分布式数据库的至少一个关键运行功能,其中可以涉及多个关键运行指标。其中,该关键运行功能在整个分布式数据库中所涉及的运行影响也有所不同,因此,依据关键运行功能,可以对涉及关键运行指标的不同子指标组进行影响等级程度的划分,具体可以体现于影响值,从而形成一影响值和运行指标之间的对应关系。其中,影响值越大,影响等级越高,关键运行指标所对应子指标组越重要,其出现异常的情况对整个分布式数据库的正常运行的影响越大。因此,当异常指标中的所有指标与故障排查指标组中的至少一个指标组中的关键运行指标完全匹配对应时,则确定该异常指标对应的关键运行功能,同时确定了其影响值的大小。
预设的根因指标映射关系可以应用于对异常指标所出现异常的根本原因进行确认。具体在于,预设根因指标映射关系实际为关键指标出现异常时的根本原因和对应的关键指标的影响值之间的映射关系。因此,根据该根因指标映射关系和对应的影响值大小,可以直接确定与该影响值直接对应的根因指标信息,从而确认了关键指标出现异常的根本原因。
因此,基于本公开实施例的上述方案,可以直接确定关键指标出现故障的根本原因,从而使得分布式数据库可以第一时间内更为准确地定位关键问题指标,针对影响核心运行功能的指标异常或运行进行快速优化处理等应对操作,防止分布式数据库的关键功能受到影响,以避免服务器集群的异常扩大化,从而有效保证整个分布式数据库的正常运行,快速、准确、有效,自动化程度更高,管理更加高效。
图10示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图10所示,根据本公开的实施例,在步骤S303根据根因指标信息针对异常指标执行优化操作中,包括步骤S1001-步骤S1002。
在步骤S1001中,根据根因指标信息和预设异常优化对应规则,生成对应的优化操作指令;
在步骤S1002中,执行优化操作指令。
每个指标出现异常时,对应该指标的多种异常中的每个异常出现的根本原因(即根因指标信息),都需要一对应的异常解决方案,即优化操作方案,用于对该指标的异常或故障进行优化。其中,预设异常优化对应规则可以用于决定对应异常指标的根因指标信息和具体的优化操作之间的映射关系。其中,优化操作需要通过执行相应的操作执行指令予以实现。因此,预设异常优化对应规则具体可以是优化操作指令与根因指标信息之间的映射关系。
当获取到对应的异常指标的根因指标信息之后,可以根据该预设异常优化对应规则确定优化操作指令。该优化操作指令为一优化操作执行的请求指令数据。当该优化操作指令被予以执行之后,可以直接实现上述针对异常指标的优化操作。例如,若是异常指标的根因指标信息涉及低效SQL的相关问题,则通过预设异常优化对应规则所确定的优化操作指令可以为调用SQL优化器,通过SQL优化器对低效SQL的问题执行优化。具体地,该低效SQL相关问题涉及故障发生的根因指标信息是数据库存在较多大表的全表扫描SQL。则根据该根因指标信息可以调用相应的SQL优化器,通过SQL优化器去检测此语句执行计划,针对性的进行调整访问索引、建立新索引的优化方案,将其优化为扫描行数更少、效率更高的语句,从而完成异常SQL指标的优化。
因此,本公开实施例的方法可以实现对异常指标的自感知和自优化,自动化完成异常优化的过程,防止异常指标对整体运行状态的影响加深或扩大,几乎无需任何人力成本消耗,高效低廉。
图11示意性示出了根据本公开实施例的分布式数据库的管理方法的另一流程图。
如图11所示,根据本公开的实施例,方法还包括步骤S1101-步骤S1102。
在步骤S1101中,确定对应优化操作的反馈数据;
在步骤S1102中,根据反馈数据,针对异常指标进行自运维操作。
如图4所示,自优化单元420针对异常指标执行优化操作之后,自运维单元430可以接收生成的相应优化反馈数据,该优化反馈数据可以通过当前时刻和优化操作时刻两者之间的监控数据的对比,来确定当前时刻的异常指标是否与优化操作时刻的异常指标相同,进而可以判断自优化单元420的优化操作的成功与否,形成反馈数据。
在反馈数据为优化操作失败的情况下(即自优化单元420无法对异常指标进行优化处理以解决异常或故障),分布式数据库的服务器集群将处于一种健康状态受到影响或威胁的故障突发状态,则自运维单元430可以针对该故障突发状态执行无需人工干预的自运维操作。具体地,可以依据不同的异常指标的根因指标信息,执行不同的自运维操作,如拉起宕机节点、限制问题SQL资源、杀死问题连接线程等。
因此,本公开实施例的上述分布式数据库的管理方法可以通过自感知、自优化、自运维的方式进行数据库集群的自治维护,实现集群的基本自治,减轻运维人员负担,确保集群的正常运行。
图12示意性示出了根据本公开实施例的分布式数据库的管理装置的框图。
如图12所示,本公开的另一个方面提供了一种分布式数据库的管理装置1200,其中,包括指标确定模块1210、根因排查模块1220和优化执行模块1230。指标确定模块1210用于确定分布式数据库中的当前监控数据中的异常指标;根因排查模块1220用于排查与异常指标对应的根因指标信息;以及优化执行模块1230用于根据根因指标信息针对异常指标执行优化操作,以实现分布式数据库的管理。
需要说明的是,图12所示分布式数据库的管理装置1200部分的实施例方式与前述分布式数据库的管理方法部分的实施例方式对应类似,并且所达到的技术效果也对应类似,在此不再赘述。
图13示意性示出了根据本公开实施例的电子设备的框图。其中,图13示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器和存储器;存储器用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现本公开实施例的方法。
如图13所示,根据本公开实施例的计算机系统1300包括处理器1301,其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1303中,存储有系统1300操作所需的各种程序和数据。处理器1301、ROM1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM 1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统1300还可以包括输入/输出(I/0)接口1305,输入/输出(I/O)接口1305也连接至总线1304。系统1300还可以包括连接至I/O接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1308。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,指标确定模块1210、根因排查模块1220和优化执行模块1230中的至少一个可以实现为参考图13描述的计算机程序模块,其在被处理器执行时,可以实现上面描述分布式数据库的管理方法的相应操作。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现本公开实施例的方法。
具体地,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的分布式数据库的管理方法。
或者,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的分布式数据库的管理方法。
本公开的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现本公开实施例分布式数据库的管理方法。
至此,已经结合附图对本公开实施例进行了详细描述。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种分布式数据库的管理方法,其中,包括:
确定所述分布式数据库中的当前监控数据中的异常指标;
排查与所述异常指标对应的根因指标信息;以及
根据所述根因指标信息针对所述异常指标执行优化操作,以实现所述分布式数据库的管理。
2.根据权利要求1所述的方法,其中,在所述确定所述分布式数据库中的当前监控数据中的异常指标之前,还包括:
响应于数据调取指令,查询所述分布式数据库中的当前监控数据。
3.根据权利要求1所述的方法,其中,在所述确定所述分布式数据库中的当前监控数据中的异常指标之前,还包括:
获取所述分布式数据库中的原始监控数据,
通过对所述原始监控数据进行大数据训练获取基带,其中,所述基带为所述当前监控数据中每个监控指标在正常情况下所处的区域。
4.根据权利要求3所述的方法,其中,在所述确定所述分布式数据库中的当前监控数据中的异常指标中,包括:
判断所述当前监控数据中每个指标与所述基带之间的对应关系;
根据所述对应关系,确定所述当前监控数据中的异常指标。
5.根据权利要求1所述的方法,其中,在所述排查与所述异常指标对应的根因指标信息中,包括:
将所述异常指标与预设的故障排查指标组进行匹配;
根据所述匹配所产生的匹配结果和根因指标映射关系,排查与所述异常指标对应的根因指标信息。
6.根据权利要求5所述的方法,其中,在所述根据所述匹配所产生的匹配结果和根因指标映射关系,排查与所述异常指标对应的根因指标信息中,包括:
当所述匹配结果为所述异常指标与所述故障排查指标组中的至少一个指标组完全匹配时,确定所述异常指标的影响值;
根据所述根因指标映射关系,排查与所述影响值对应的根因指标信息。
7.根据权利要求1所述的方法,其中,在所述根据所述根因指标信息针对所述异常指标执行优化操作中,包括:
根据所述根因指标信息和预设异常优化对应规则,生成对应的优化操作指令;
执行所述优化操作指令。
8.根据权利要求7所述的方法,其中,还包括:
确定对应所述优化操作的反馈数据;
根据所述反馈数据,针对所述异常指标进行自运维操作。
9.一种分布式数据库的管理装置,其中,包括:
指标确定模块,用于确定所述分布式数据库中的当前监控数据中的异常指标;
根因排查模块,用于排查与所述异常指标对应的根因指标信息;以及
优化执行模块,用于根据所述根因指标信息针对所述异常指标执行优化操作,以实现所述分布式数据库的管理。
10.一种电子设备,其中,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,存储有计算机可执行指令,其中,所述指令在被执行时用于实现权利要求1至8中任一项所述的方法。
CN202110621726.7A 2021-06-03 2021-06-03 分布式数据库的管理方法、装置、设备和介质 Pending CN113342889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110621726.7A CN113342889A (zh) 2021-06-03 2021-06-03 分布式数据库的管理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110621726.7A CN113342889A (zh) 2021-06-03 2021-06-03 分布式数据库的管理方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113342889A true CN113342889A (zh) 2021-09-03

Family

ID=77473456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110621726.7A Pending CN113342889A (zh) 2021-06-03 2021-06-03 分布式数据库的管理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113342889A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658663A (zh) * 2022-12-27 2023-01-31 金篆信科有限责任公司 分布式数据库的参数调整方法、装置及电子设备
CN115905373A (zh) * 2023-03-09 2023-04-04 北京永洪商智科技有限公司 一种数据查询以及分析方法、装置、设备及存储介质
WO2023061227A1 (zh) * 2021-10-12 2023-04-20 华为技术有限公司 数据库运维方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011015135A1 (zh) * 2009-08-04 2011-02-10 华为技术有限公司 一种系统故障检测的方法及装置
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN112506763A (zh) * 2020-11-30 2021-03-16 清华大学 数据库系统故障根因自动定位方法和装置
CN112579391A (zh) * 2020-12-14 2021-03-30 浪潮云信息技术股份公司 一种基于人工智能的分布式数据库自动运维方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011015135A1 (zh) * 2009-08-04 2011-02-10 华为技术有限公司 一种系统故障检测的方法及装置
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN112506763A (zh) * 2020-11-30 2021-03-16 清华大学 数据库系统故障根因自动定位方法和装置
CN112579391A (zh) * 2020-12-14 2021-03-30 浪潮云信息技术股份公司 一种基于人工智能的分布式数据库自动运维方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023061227A1 (zh) * 2021-10-12 2023-04-20 华为技术有限公司 数据库运维方法和装置
CN115658663A (zh) * 2022-12-27 2023-01-31 金篆信科有限责任公司 分布式数据库的参数调整方法、装置及电子设备
CN115905373A (zh) * 2023-03-09 2023-04-04 北京永洪商智科技有限公司 一种数据查询以及分析方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN113342889A (zh) 分布式数据库的管理方法、装置、设备和介质
CN105740121A (zh) 一种日志文本监控与预警方法、装置
US10795744B2 (en) Identifying failed customer experience in distributed computer systems
EP2485148A1 (en) Method, device and system for displaying analysis result of essential cause analysis of failure
US11329869B2 (en) Self-monitoring
US11656959B2 (en) Disaster recovery region recommendation system and method
CN113760641A (zh) 业务监控方法、装置、计算机系统和计算机可读存储介质
KR20220008736A (ko) 강건성 확정 방법, 장치, 전자 기기 및 판독 가능한 저장 매체
CN113900834A (zh) 基于物联网技术的数据处理方法、装置、设备及存储介质
CN112286774A (zh) 运维监控数据展示方法、装置、存储介质及计算设备
CN110896362B (zh) 一种故障检测方法和装置
CN115037597A (zh) 一种故障检测方法及设备
CN117389843B (zh) 一种智能运维系统、方法、电子设备及存储介质
US9836949B2 (en) Generating recommended maintenance steps for industrial machines based on historical interaction data with a mobile application
CN109582528B (zh) 状态监测方法、装置、电子设备及计算机可读存储介质
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
US11734057B2 (en) Method and apparatus for processing a service of an abnormal server
CN111831503B (zh) 一种基于监控代理的监控方法和监控代理装置
US20110307904A1 (en) Method and apparatus for automation language extension
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
CN115550141A (zh) 事件处理方法、装置、电子设备及可读存储介质
CN115202973A (zh) 应用运行状态的确定方法、装置、电子设备和介质
CN114756301A (zh) 日志处理方法、装置和系统
CN111290870A (zh) 一种检测异常的方法和装置
CN113778780B (zh) 应用稳定性的确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination