CN117389997A - 数据库安装流程的故障检测方法和装置、电子设备、介质 - Google Patents

数据库安装流程的故障检测方法和装置、电子设备、介质 Download PDF

Info

Publication number
CN117389997A
CN117389997A CN202311695270.4A CN202311695270A CN117389997A CN 117389997 A CN117389997 A CN 117389997A CN 202311695270 A CN202311695270 A CN 202311695270A CN 117389997 A CN117389997 A CN 117389997A
Authority
CN
China
Prior art keywords
target
fault
information
weight
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311695270.4A
Other languages
English (en)
Other versions
CN117389997B (zh
Inventor
蔡璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunhe Enmo Beijing Information Technology Co ltd
Original Assignee
Yunhe Enmo Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunhe Enmo Beijing Information Technology Co ltd filed Critical Yunhe Enmo Beijing Information Technology Co ltd
Priority to CN202311695270.4A priority Critical patent/CN117389997B/zh
Publication of CN117389997A publication Critical patent/CN117389997A/zh
Application granted granted Critical
Publication of CN117389997B publication Critical patent/CN117389997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提出的数据库安装流程的故障检测方法和装置、电子设备、介质,涉及数据库技术领域。该方法包括:响应于数据库安装流程发生故障,获取在数据库安装流程中产生的告警信息;对告警信息进行分层,得到目标服务层级;对告警信息与故障之间的关联度进行提取,得到目标关联度;对告警信息进行分类,得到目标分类;其中,目标分类为原子告警类别、或关联告警类别;根据目标服务层级、目标关联度、和目标分类,确定告警信息的目标权重;获取决策树模型,决策树模型用于预测故障原因;将目标权重输入决策树模型,得到故障对应的目标故障原因。本申请实施例能够提高数据库自动化安装流程的故障检测效率,且确保故障检测准确性。

Description

数据库安装流程的故障检测方法和装置、电子设备、介质
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据库安装流程的故障检测方法和装置、电子设备、介质。
背景技术
目前,数据库自动化安装部署的技术已经得到了广泛的应用和发展,例如使用脚本或者ansible实现数据库自动化安装部署。然而,这些技术都存在在数据库运维管理平台中执行数据库创建流程中,会因为环境、依赖、安装介质等等原因导致安装失败。相关技术中,数据库自动化安装流程报错后依赖人工进行手动故障排查和处理,十分依赖处理人员的技能和熟练度,效率低且准确性难以保证。
发明内容
本申请实施例的主要目的在于提出的数据库安装流程的故障检测方法和装置、电子设备、介质,能够提高数据库自动化安装流程的故障检测效率,且确保故障检测准确性。
为实现上述目的,本申请实施例的第一方面提出了一种数据库安装流程的故障检测方法,所述故障检测方法包括:
响应于数据库安装流程发生故障,获取在数据库安装流程中产生的告警信息;
对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;
对所述告警信息与所述故障之间的关联度进行提取,得到目标关联度;
对所述告警信息进行分类,得到目标分类;其中,所述目标分类为原子告警类别、或关联告警类别;
根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重;
获取决策树模型,所述决策树模型用于预测故障原因;
将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因。
可选地,所述决策树模型具有树形结构,所述树形结构包括多层节点和多层分支,多层中的每层分支包括第一分支和第二分支,多层节点包括内部节点和叶子节点,后一层的节点通过第一分支或第二分支与前一层的内部节点连接,内部节点具有分割权重,分割权重按照从最上面一层至最下面一层的顺序递增,叶子节点具有候选故障原因;
所述将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因,包括:
将多层中的最上面一层作为当前层;
执行目标过程,所述目标过程包括:将所述目标权重与当前层的内部节点具有的分割权重进行比较,得到比较结果;若所述比较结果为目标权重大于所述分割权重,则基于当前层与当前层的后一层之间的第一分支找到在所述当前层之后的节点,得到目标节点,若所述比较结果为目标权重小于或等于所述分割权重,则基于当前层与当前层的后一层之间的第二分支找到在所述当前层之后的节点,得到所述目标节点,若所述目标节点不属于叶子节点,则将所述目标节点所在层作为当前层;重复执行目标过程,直至所述目标节点属于叶子节点;
根据所述目标节点的对应的候选故障原因得到目标故障原因。
可选地,所述根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重,包括:
根据所述目标服务层级在多个候选服务层级中的排序,确定所述告警信息的目标层级权重;其中,排序越小,目标层级权重越大;
根据所述目标关联度确定所述告警信息的目标关联权重;其中,目标关联度越大,所述目标关联权重越大;
根据所述目标分类确定所述告警信息的目标类别权重;其中,所述目标分类为原子告警类别的目标类别权重大于所述目标分类为关联告警类别的目标类别权重;
根据所述目标层级权重、所述目标关联权重、和所述目标类别权重进行求和,得到目标权重。
可选地,所述数据库安装流程是由数据库运维管理平台调用中间件及微服务对主机进行数据库安装的流程,
所述获取在数据库安装流程中产生的告警信息,包括:
收集与所述数据库安装流程对应的安装流程信息、中间件及微服务信息、和主机运行信息;其中,所述安装流程信息包括安装流程任务号、安装流程步骤、安装流程服务调用链、安装流程子任务信息、安装流程服务调用执行状态及执行结果、安装流程执行过程日志信息;
将所述安装流程信息、所述中间件及微服务信息、和主机运行信息输入告警系统,得到所述告警信息。
可选地,对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级,包括:
若所述告警信息包括所述主机运行信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第一个候选服务层级;
若所述告警信息包括所述中间件及微服务信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第二个候选服务层级;
若所述告警信息包括所述安装流程信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第三个候选服务层级。
可选地,所述对所述告警信息进行分类,得到目标分类,包括:
获取产生所述告警信息的原因的数目,得到目标原因数目;
若所述目标原因数目等于0,则确定所述目标分类为原子告警类别;
若所述目标原因数目大于或等于1,则确定所述目标分类为关联告警类别。
可选地,在将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因之后,所述故障检测方法还包括:
将所述目标故障原因对预设的知识库进行查找,得到故障处理方案;其中,所述知识库基于数据库安装流程的故障处理案例生成,所述知识库包括目标故障原因与故障处理方案的映射关系;
执行所述故障处理方案。
为实现上述目的,本申请实施例的第二方面提出了一种数据库安装流程的故障检测装置,所述故障检测装置包括:
信息获取模块,用于获取在数据库安装流程中产生的告警信息;
分层模块,用于对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;
提取模块,用于对所述告警信息与所述故障之间的关联度进行提取,得到目标关联度;
分类模块,用于对所述告警信息进行分类,得到目标分类;其中,所述目标分类为原子告警类别、或关联告警类别;
确定模块,用于根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重;
模型获取模块,用于获取决策树模型,所述决策树模型用于预测故障原因;
检测模块,用于将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的数据库安装流程的故障检测方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的数据库安装流程的故障检测方法。
本申请提出了数据库安装流程的故障检测方法和装置、电子设备、介质。在本申请中,在进行故障检测时,并不依赖人工,而是基于在数据库安装流程中产生的告警信息进行故障检测。在具体检测时,一方面对告警信息进行分层,得到告警信息在连续的多个候选服务层级中所处的目标服务层级,且连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务。因此,目标服务层级反应了告警信息对应的故障原因所在的服务层级。另一方面对告警信息与故障之间的关联度进行提取,得到目标关联度。目标关联度反应了告警信息对应的故障原因是否与故障相关。再一方面对告警信息进行分类,得到目标分类;其中,目标分类为原子告警类别、或关联告警类别。原子告警类别指示告警信息对应的故障原因是根源性原因。关联告警类别指示告警信息对应的故障原因是可延伸原因,例如可延伸出下一个可延伸原因或根源性原因。因此,目标分类反应了告警信息对应的故障原因是故障的根源性原因,还是可延伸原因。基于以上三个方面得到的目标服务层级、目标关联度、和目标分类,确定告警信息的目标权重。该目标权重能够指示告警信息对应的故障原因是否为故障的真实故障原因。然后,获取决策树模型,将目标权重输入决策树模型,得到故障对应的目标故障原因。综上,本申请可以自动监控安装流程中的故障并告警,且对告警信息进行故障原因分析,减少对技术人员的依赖,提高故障检测效率,且确保故障检测准确性。另外,在得到目标故障原因之后,可以从知识库匹配出故障处理方案,从而基于故障处理方案增加了数据库安装流程的成功率。
附图说明
图1是本申请一个实施例提供的数据库安装流程的故障检测方法的流程图;
图2是图1中的步骤101获取告警信息的流程图;
图3是图1中的步骤105确定目标权重的流程图;
图4是本申请一个实施例提供的决策树模型的模型结构示意图;
图5是图1中步骤107确定目标故障原因的流程图;
图6是本申请另一个实施例提供的执行故障处理方案的流程图;
图7是本申请实施例提供的数据库安装流程的故障检测装置的模块结构框图;
图8是本申请一个实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
目前,数据库自动化安装部署的技术已经得到了广泛的应用和发展,例如使用脚本或者ansible实现数据库自动化安装部署。然而这些技术都存在在数据库运维管理平台中执行数据库创建流程中,会因为环境、依赖、安装介质等等原因导致安装失败。失败后需要手工处理或者需要手动处理好环境后再重新安装。根本原因安装部署时宿主机或客户环境差异会导致自动化安装流程无法完全覆盖客户环境导致安装失败。
有鉴于此,本申请提出了数据库安装流程的故障检测方法和装置、电子设备、介质。旨在能够自动识别并处理数据库自动化安装流程中的故障,可以缓解环境差异导致的安装失败问题并且缓解手动处理造成的效率低问题,给数据库安装流程带来更多的便利。
本申请实施例提供的数据库安装流程的故障检测方法应用于服务器端中,还可以是运行于服务器端中的软件。服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现数据库安装流程的故障检测方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:服务器计算机、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供数据库安装流程的故障检测方法和装置、电子设备、存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的数据库安装流程的故障检测方法。
图1是本申请实施例提供的数据库安装流程的故障检测方法的一个可选的流程图,数据库包括多个分区,该数据库安装流程的故障检测方法可以包括但不限于包括步骤101至步骤107。
步骤101,响应于数据库安装流程发生故障,获取在数据库安装流程中产生的告警信息;
步骤102,对告警信息进行分层,得到告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;
步骤103,对告警信息与故障之间的关联度进行提取,得到目标关联度;
步骤104,对告警信息进行分类,得到目标分类;其中,目标分类为原子告警类别、或关联告警类别;
步骤105,根据目标服务层级、目标关联度、和目标分类,确定告警信息的目标权重;
步骤106,获取决策树模型,决策树模型用于预测故障原因;
步骤107,将目标权重输入决策树模型,得到故障对应的目标故障原因。
在一些实施例的步骤101中,数据库安装流程又称数据库自动化安装流程,是由数据库运维管理平台调用中间件及微服务对主机进行数据库安装的流程。中间件和微服务在数据库自动化安装流程中扮演着重要的角色,它们的作用主要体现在以下几个方面:(1)环境部署:中间件和微服务可以提供统一的环境部署平台,自动化安装脚本可以在这些平台上运行,从而实现快速、高效的数据库安装。(2)自动化部署:中间件和微服务可以提供自动化部署功能,自动化脚本可以在这些平台上进行部署,从而实现快速、高效的数据库安装。(3)应用部署:中间件和微服务可以提供应用部署功能,自动化脚本可以在这些平台上进行应用部署,从而实现快速、高效的数据库安装。(4)监控和管理:中间件和微服务可以提供监控和管理功能,可以对数据库进行监控和管理,及时发现和解决问题,保证数据库的稳定性和可靠性。总之,中间件和微服务在数据库自动化安装流程中的作用是为自动化安装提供支持,提高安装效率和质量,同时也为数据库的管理和维护提供了更好的平台和工具。
在一实施例中,数据库安装流程具体包括:(1)准备工作:在开始自动化安装之前,需要准备好安装所需的软件包、配置文件和脚本等资源。(2)环境检查:自动化安装脚本通常会进行环境检查,包括操作系统版本、依赖软件包、网络连接等,确保安装环境符合要求。(3)配置文件设置:根据安装需求,自动化安装脚本会对数据库的配置文件进行设置,包括数据库实例名称、端口号、存储路径等参数。(4)安装数据库软件:自动化安装脚本会自动下载或使用预先准备好的数据库安装包,并在目标服务器(主机)上进行安装。(5)创建数据库实例:安装完成后,自动化脚本会自动创建数据库实例,并进行初始化设置,包括创建系统表空间、配置内存参数等。(6)启动数据库:安装完成后,自动化脚本会自动启动数据库实例,并进行必要的配置验证。(7)完成安装:安装完成后,自动化脚本通常会输出安装结果,并进行最后的验证和清理工作。
需要说明的是,数据库安装流程一般会因为安装环境、依赖包、安装介质等等原因导致安装失败,也就是步骤101所指的发生故障。在确定数据库安装流程发生故障之后,可以收集告警信息。目的是基于告警信息自动检测出故障原因。
在一实施例中,使用脚本或命令收集与数据库安装流程对应的安装流程信息、中间件及微服务信息、或主机运行信息,基于安装流程信息、中间件及微服务信息、或主机运行信息获取告警信息。
该实施例的优点在于,提供从单一的安装流程信息、中间件及微服务信息、或主机运行信息中获取告警信息,获取效率较高。
参照图2,在一实施例中,步骤101中的获取在数据库安装流程中产生的告警信息,包括:
步骤201,收集与数据库安装流程对应的安装流程信息、中间件及微服务信息、和主机运行信息;其中,安装流程信息包括安装流程任务号、安装流程步骤、安装流程服务调用链、安装流程子任务信息、安装流程服务调用执行状态及执行结果、安装流程执行过程日志信息;
步骤202,将安装流程信息、中间件及微服务信息、和主机运行信息输入告警系统,得到告警信息。
在一些实施例的步骤201中,可以使用脚本或命令收集安装流程信息、中间件及微服务信息、和主机运行信息。安装流程信息指示与数据库安装流程相关的信息。例如,安装流程信息包括安装流程任务号、安装流程步骤、安装流程服务调用链、安装流程子任务信息、安装流程服务调用执行状态及执行结果、安装流程执行过程日志信息等。中间件及微服务信息是指调用中间件及微服务产生的信息。例如,中间件及微服务信息包括服务调用日志信息、api服务信息、服务中心信息等。主机运行信息是指在对目标主机进行数据库安装时,目标主机的运行信息。例如,主机运行信息包括主机指标、主机安装链路监控指标。
在一些实施例的步骤202中,告警系统是指事先设置的能够进行信息分析得到告警信息的系统。在一些实施例中,告警系统可以是一个深度学习模型,例如卷积神经网络、循环神经网络。例如,告警系统输出的告警信息为:用户登录失败。又例如,告警系统输出的告警信息为:操作系统用户有效期小于3天。再例如,告警系统输出的告警信息为:操作系统用户过期。
需要说明的是,本实施例针对的是数据库安装流程中的故障检测,而发生故障的原因十分复杂,并一定是数据库安装流程本身出现问题。本实施例充分认识到这一点,采取了借助安装流程信息、中间件及微服务信息、以及主机运行信息三者共同确定出告警信息的技术手段。又由于信息量过大,本实施例还引入告警系统进行信息汇总/分析,最终得到告警信息。
综上,该步骤201-202的实施例的优势在于,在确保获取告警信息的效率的同时,大大提高了获取告警信息的准确性。
在一些实施例的步骤102中,连续的多个候选服务层级之间的关系构成服务层级关系。服务层级关系是指不同层级的服务之间存在一定的关系和依赖。在本实施例中,服务层级关系具体是指连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务。
在一例子中,服务层级包括原子服务层级(第一个候选服务层级)、基础服务层级(第二个候选服务层级)、和最终服务层级(第三个候选服务层级)。原子层级服务是最基本的服务单元,通常是系统或软件中的最小功能单元,例如某个特定的功能模块或接口。基础层级服务一般由多个原子层级服务组成,提供更加复杂的功能和服务,通常是对原子层级服务的组合和整合。最终层级服务是指最终为用户提供服务的层级,通常是对基础服务层级的再次整合和增值,是用户直接接触和使用的服务。这些服务层级之间存在着依赖和关系,高层级的服务通常依赖于低层级的服务,而低层级的服务则为高层级的服务提供基础支持。本实施例充分认识到管理服务层级关系对于数据库安装流程的故障检测的重要性,可以确保故障检测的稳定性和可靠性。
需要说明的是,不同服务层级之间存在依赖,从而数据库安装流程发生故障的层级可能不是故障原因真实存在的层级,通过对告警信息进行分层得到目标服务层级,该目标服务层级反应了告警信息对应的故障原因所在的服务层级。
在一实施例中,可以利用分层模型对告警信息进行分层,得到目标服务层级。分层模型是一种深度学习模型,例如卷积神经网络和循环神经网络。分层模型可以基于训练数据集训练得到,训练方式较为常见,此处不再赘述。
该实施例的优点在于,可以提高分层准确性。
在一实施例中,步骤102包括:
若告警信息包括主机运行信息,根据服务层级关系将目标服务层级确定为多个候选服务层级中的第一个候选服务层级;
若告警信息包括中间件及微服务信息,根据服务层级关系将目标服务层级确定为多个候选服务层级中的第二个候选服务层级;
若告警信息包括安装流程信息,根据服务层级关系将目标服务层级确定为多个候选服务层级中的第三个候选服务层级。
例如,将有关磁盘、内存、文件系统、端口等主机运行信息对应的目标服务层级确定为第一个候选服务层级。又例如,将有关api服务信息、服务中心信息等中间件及微服务信息对应的目标服务层级确定为第二个候选服务层级。再例如,将有关流程报错步骤信息、具体报错信息等安装流程信息对应的目标服务层级确定为第三个候选服务层级。
该实施例的优势在于,利用告警信息所包含的不同信息以及服务层级关系,可以确定出告警信息对应的目标服务层级,在确保分层准确性的同时,大大提高了分层效率。
在一些实施例的步骤103中,对告警信息与故障之间的关联度进行提取,得到目标关联度。目标关联度反应了告警信息对应的故障原因是否与故障相关。
需要说明的是,数据库安装流程会发生多种故障。例如,故障为数据库安装失败。又例如,故障为数据库环境配置失败。不同的故障下,产生的告警信息也不同,从而每个故障下的故障原因并不相同。在同一故障下,也可能产生多个告警信息。这多个告警信息对应的故障原因中,有某个故障原因是产生故障的真实原因。为此,本实施例利用目标关联度衡量不同告警信息与故障之间的关联度,有助于找到最终的故障原因。
在一实施例中,可以通过语法语义分析规则/语义分析模型对告警信息与故障之间的关联度进行提取,得到目标关联度。语义分析模型是一个深度学习模型,例如卷积神经网络、循环神经网络。语义分析模型可以基于训练数据集训练得到,训练方式较为常见,此处不再赘述。本申请不限定具体的提取方式,可根据实际需求灵活设置。
在一些实施例的步骤104中,对告警信息进行分类,得到目标分类;其中,目标分类为原子告警类别、或关联告警类别。可以通过分类模型对告警信息进行分类,得到目标分类。分类模型是一个深度学习模型,例如卷积神经网络、循环神经网络。分类模型可以基于训练数据集训练得到,训练方式较为常见,此处不再赘述。
在一实施例中,步骤104包括:
获取产生告警信息的原因的数目,得到目标原因数目;
若目标原因数目等于0,则确定目标分类为原子告警类别;
若目标原因数目大于或等于1,则确定目标分类为关联告警类别。
具体地,可以事先将告警信息与告警原因对应存储至告警原因映射库中,从而可以基于告警信息从告警原因映射库中获取产生告警信息的原因,进而可以获取目标告警原因数目。也可以采取其他查找产生告警信息的原因的方式,本实施例对此不作具体限定。
在一例子中,假定告警信息为“文件系统空间不足”,产生“文件系统空间不足”的原因为空。因此,目标告警原因数目为0,则确定目标分类为原子告警类别。假定告警信息为“端口不通”,获取产生“端口不通”的原因的数目,也为0,则确定目标分类为原子告警类别。
在另一例子中,假定告警信息为“api服务告警”,产生“api服务告警”的原因为“因为端口不通的导致了api执行报错”。因此,目标告警原因数目为1,则确定目标分类为关联告警类别。假定告警信息为“用户无法登录告警”,产生“用户无法登陆告警”的原因为“因为用户密码过期导致用户无法登陆”。因此,目标告警原因数目为1,则确定目标分类为关联告警类别。
该实施例的优势在于,无需分类模型对告警信息进行分类,而是利用产生告警信息的原因的数目进行分类,在确保了分类准确度的同时,提高了分类效率。
在一些实施例的步骤105中,根据目标服务层级、目标关联度、和目标分类,确定告警信息的目标权重。可以采取根据目标层级服务、目标关联度、和目标分类查找权重映射表的方式,得到目标权重。
在一实施例中,参照图3,步骤105包括:
步骤301,根据目标服务层级在多个候选服务层级中的排序,确定告警信息的目标层级权重;其中,排序越小,目标层级权重越大;
步骤302,根据目标关联度确定告警信息的目标关联权重;其中,目标关联度越大,目标关联权重越大;
步骤303,根据目标分类确定告警信息的目标类别权重;其中,目标分类为原子告警类别的目标类别权重大于目标分类为关联告警类别的目标类别权重;
步骤304,根据目标层级权重、目标关联权重、和目标类别权重进行求和,得到目标权重。
具体地,底层告警权重越重:告警从高层向底层,在逻辑层次上面,越是底层的告警权重越重。因此,排序越小,目标层级权重越大。告警关联越明确的告警权重越重:比如,对于故障G对应A1、B1、C1三种告警信息,语法语义分析匹配获取关联度,关联度依次为A1>B1>C1,则A1的权重最大,由此判断故障G的故障原因来自告警信息A1。原子告警类别的权重大于关联告警类别的权重。
在一例子中,假定数据库案子流程发生的故障为“数据库安装失败”。针对告警信息为“用户登录失败”,目标权重为70。针对告警信息为“操作系统用户有效期小于3天”,目标权重为85。针对告警信息为“操作系统用户过期告警”,目标权重为95。
该步骤301-304的实施例优势在于,通过先分别计算目标服务层级对应的目标层级权重、目标关联度对应的目标关联权重、和目标分类对应的目标类别权重再确定目标权重的方式,可以提高确定目标权重的灵活性和正确性。
需要说明的是,上述提及的求和可以是直接求和,也可以是加权求和。如果是加权求和,则目标服务层级、目标分类和目标关联度对应的权重系数可以根据实际需求设置。
在一些实施例的步骤106中,获取决策树模型,决策树模型用于预测故障原因。决策树模型具有树形结构,树形结构包括多层节点和多层分支,多层中的每层分支包括第一分支和第二分支,多层节点包括内部节点和叶子节点,后一层的节点通过第一分支或第二分支与前一层的内部节点连接,内部节点具有分割权重,分割权重按照从最上面一层至最下面一层的顺序递增,叶子节点具有候选故障原因。
参照图4,决策树模型具有树形结构,该树形结构具体是一个二叉树形结构。树形结构包括5层节点。5层节点包括9个节点,具体包括节点J1、节点J2、节点J3、节点J4、节点J5、节点J6、节点J7、节点J8、和节点J9。9个节点中,有4个节点属于内部节点、有5个节点属于叶子节点。具体是节点J1、节点J2、节点J4、和节点J6属于内部节点。节点J3、节点J5、节点J7、节点J8、和节点J9属于叶子节点。树形结构还包括8个分支,具体包括分支Z1、分支Z2、分支Z3、分支Z4、分支Z5、分支Z6、分支Z7、分支Z8。8个分支中,有4个分支属于第一分支,有4个分支属于第二分支。具体是分支Z1、分支Z3、分支Z5、分支Z7属于第一分支。具体是分支Z2、分支Z4、分支Z6、分支Z8属于第二分支。对于第5层与第4层之间,节点J8通过分支Z7与节点J6连接,节点J9通过分支Z8与节点J6连接。对于第4层与第3层之间,节点J6通过分支Z5与节点J4连接,节点J7通过分支Z6与节点J4连接。对于第3层与第2层之间,节点J4通过分支Z3与节点J2连接,节点J5通过分支Z4与节点J2连接。对于第2层与第1层之间,节点J2通过分支Z1与节点J1连接,节点J3通过分支Z2与节点J1连接。
继续参照图4,属于内部节点的节点J1、节点J2、节点J4、和节点J6具有分割权重,且分割权重按照从第1层(最上面一层)至第5层(最下面一层)的顺序递增。具体是节点J1的分割权重为50、节点J2的分割权重为75、节点J4的分割权重为87.5、节点J6的分割权重为92。属于叶子节点的节点J3、节点J5、节点J7、节点J8、和节点J9具有候选故障原因。具体是,节点J3具有候选故障原因Y1、节点J5具有候选故障原因Y2、节点J7具有候选故障原因Y3、节点J8具有候选故障原因Y4、节点J9具有候选故障原因Y5。
在确定决策树模型之后,在步骤107中,将目标权重输入决策树模型,得到故障对应的目标故障原因。
在一些实施例中,参照图5,步骤107包括:
将多层中的最上面一层作为当前层;
执行目标过程,目标过程包括:将目标权重与当前层的内部节点具有的分割权重进行比较,得到比较结果;若比较结果为目标权重大于分割权重,则基于当前层与当前层的后一层之间的第一分支找到在当前层之后的节点,得到目标节点,若比较结果为目标权重小于或等于分割权重,则基于当前层与当前层的后一层之间的第二分支找到在当前层之后的节点,得到目标节点,若目标节点不属于叶子节点,则将目标节点所在层作为当前层;重复执行目标过程,直至目标节点属于叶子节点;
根据目标节点的对应的候选故障原因得到目标故障原因。
下面以具体示例描述上述实施例。
在一例子中,告警信息为“系统用户内存使用率大于80%”,目标权重为45。参照图4,将第1层作为当前层,将目标权重为45与第1层的内部节点(节点J1)的分割权重为50进行比较,得到比较结果为45小于或等于50。响应于比较结果为45小于或等于50,基于第1层与第2层之间的第二分支(分支Z2)找到目标节点是节点J3。由于节点J3属于叶子节点,根据节点J3对应的候选故障原因Y1得到目标故障原因。
在一例子中,告警信息为“数据库安装失败,用户无法登录”,目标权重为65。参照图4,将1层作为当前层。将目标权重为65与第1层的内部节点(节点J1)的分割权重为50进行比较,得到比较结果为65大于50。由于比较结果为65大于50,则基于第1层与第2层之间的第一分支(分支Z1)找到在第1层之后的节点,得到目标节点为节点J2。由于节点J2属于内部节点,因此将节点J2所在的第2层作为当前层。将目标权重为65与第2层的节点J2的分割权重为75进行比较,得到比较结果为65小于75。响应于比较结果为65小于75,基于第2层与第3层之间的第二分支(分支Z4)找到目标节点是节点J5。由于节点J5属于叶子节点,根据节点J5对应的候选故障原因Y2得到目标故障原因。
与上述过程同理,假定告警信息为“系统用户内存使用率大于90%”,目标权重为77,则基于目标权重为77找到节点J7,根据节点J7的候选故障原因Y3得到目标故障原因。假定告警信息为“系统用户免密有效期小于3天”,目标权重为85,则基于目标权重为85找到节点J9,根据节点J9的候选故障原因Y5得到目标故障原因。假定告警信息为“系统用户密码失效”,目标权重为95,则基于目标权重为95找到节点J8,根据节点J8的候选故障原因Y4得到目标故障原因。
该利用决策树模型进行故障原因检测的实施例的优势在于,一方面,决策树模型的应用,为数据库安装流程的故障检测提高较高的支持,准确性和效率都比较高。而且,与常规方式不同,本实施例决策树模型的树形结构可以根据实际需求灵活设置,大大提高了故障检测灵活性。
需要说明的是,决策树的决策过程包括:从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子结点,将叶子结点的存放的类别作为决策结果。简单说来,决策树的总体流程是自根至叶的递归过程,在每个中间结点寻找一个划分(split or test)属性。决策树停止生长的三个条件包括:当前节点包含的样本全属于同一类别,无需划分;当前节点包含的样本集为空,不能划分;当前节点包含的样本集的样本数量小于阈值,无需划分。计算每个特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征建立相应的节点;信息增益就是决策树在进行属性选择划分前和划分后的信息差值。典型的决策树算法ID3就是基于信息增益来挑选每一节点分支用于划分的属性(特征)的。划分数据集:按照最优特征划分数据集,每个分支对应特征的不同取值;递归地构建决策树:对于每个子集,递归地调用步骤选择最优特征和划分数据集,直到所有的特征都被使用,或者每个分支下的所有实例都具有相同的分类。本申请实施例主要是利用决策树的基本原理生成决策树模型,上述决策过程并不唯一,本实施例对此不作具体限定。
在一实施例中,参照图6,在步骤107之后,数据库安装流程的故障检测方法还包括:
步骤601,将目标故障原因对预设的知识库进行查找,得到故障处理方案;其中,知识库基于数据库安装流程的故障处理案例生成,知识库包括目标故障原因与故障处理方案的映射关系;
步骤602,执行故障处理方案。
具体地,现有数据库自动化安装流程报错后依赖与人工进行手动故障排查和处理,依赖处理人员的技能和熟练度,通常来说比较耗费时间。本实施例可以自动监控安装流程流程中的故障并告警,对故障进行故障原因分析并按照知识库匹配进行自愈。除了减少对技术人员的依赖,还能够提高故障处理效率并增加自动化安装流程的成功率。
请参阅图7,本申请实施例还提供数据库安装流程的故障检测装置,可以实现上述数据库安装流程的故障检测方法,图7为本申请实施例提供的数据库安装流程的故障检测装置的模块结构框图,该故障检测装置包括:信息获取模块701、分层模块702、提取模块703、分类模块704、确定模块705、模型获取模块706、和检测模块707。其中,信息获取模块701,用于获取在数据库安装流程中产生的告警信息;分层模块702,用于对告警信息进行分层,得到告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;提取模块703,用于对告警信息与故障之间的关联度进行提取,得到目标关联度;分类模块704,用于对告警信息进行分类,得到目标分类;其中,目标分类为原子告警类别、或关联告警类别;确定模块705,用于根据目标服务层级、目标关联度、和目标分类,确定告警信息的目标权重;模型获取模块706,用于获取决策树模型,决策树模型用于预测故障原因;检测模块707,用于将目标权重输入决策树模型,得到故障对应的目标故障原因。
在一实施例中,故障检测装置还包括:故障处理模块(图未示),用于:
将目标故障原因对预设的知识库进行查找,得到故障处理方案;其中,知识库基于数据库安装流程的故障处理案例生成,知识库包括目标故障原因与故障处理方案的映射关系;
执行故障处理方案。
需要说明的是,该数据库安装流程的故障检测装置的具体实施方式与上述数据库安装流程的故障检测方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述数据库安装流程的故障检测方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图8,图8示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器801,可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器802,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行本申请实施例的数据库安装流程的故障检测方法;
输入/输出接口803,用于实现信息输入及输出;
通信接口804,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线805,在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息;
其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。
本申请实施例还提供了存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述数据库安装流程的故障检测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-3、5-6中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (10)

1.一种数据库安装流程的故障检测方法,其特征在于,所述故障检测方法包括:
响应于数据库安装流程发生故障,获取在数据库安装流程中产生的告警信息;
对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;
对所述告警信息与所述故障之间的关联度进行提取,得到目标关联度;
对所述告警信息进行分类,得到目标分类;其中,所述目标分类为原子告警类别、或关联告警类别;
根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重;
获取决策树模型,所述决策树模型用于预测故障原因;
将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因。
2.根据权利要求1所述的故障检测方法,其特征在于,所述决策树模型具有树形结构,所述树形结构包括多层节点和多层分支,多层中的每层分支包括第一分支和第二分支,多层节点包括内部节点和叶子节点,后一层的节点通过第一分支或第二分支与前一层的内部节点连接,内部节点具有分割权重,分割权重按照从最上面一层至最下面一层的顺序递增,叶子节点具有候选故障原因;
所述将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因,包括:
将多层中的最上面一层作为当前层;
执行目标过程,所述目标过程包括:将所述目标权重与当前层的内部节点具有的分割权重进行比较,得到比较结果;若所述比较结果为目标权重大于所述分割权重,则基于当前层与当前层的后一层之间的第一分支找到在所述当前层之后的节点,得到目标节点,若所述比较结果为目标权重小于或等于所述分割权重,则基于当前层与当前层的后一层之间的第二分支找到在所述当前层之后的节点,得到所述目标节点,若所述目标节点不属于叶子节点,则将所述目标节点所在层作为当前层;重复执行目标过程,直至所述目标节点属于叶子节点;
根据所述目标节点的对应的候选故障原因得到目标故障原因。
3.根据权利要求1所述的故障检测方法,其特征在于,所述根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重,包括:
根据所述目标服务层级在多个候选服务层级中的排序,确定所述告警信息的目标层级权重;其中,排序越小,目标层级权重越大;
根据所述目标关联度确定所述告警信息的目标关联权重;其中,目标关联度越大,所述目标关联权重越大;
根据所述目标分类确定所述告警信息的目标类别权重;其中,所述目标分类为原子告警类别的目标类别权重大于所述目标分类为关联告警类别的目标类别权重;
根据所述目标层级权重、所述目标关联权重、和所述目标类别权重进行求和,得到目标权重。
4.根据权利要求1至3任一项所述的故障检测方法,其特征在于,所述数据库安装流程是由数据库运维管理平台调用中间件及微服务对主机进行数据库安装的流程,
所述获取在数据库安装流程中产生的告警信息,包括:
收集与所述数据库安装流程对应的安装流程信息、中间件及微服务信息、和主机运行信息;其中,所述安装流程信息包括安装流程任务号、安装流程步骤、安装流程服务调用链、安装流程子任务信息、安装流程服务调用执行状态及执行结果、安装流程执行过程日志信息;
将所述安装流程信息、所述中间件及微服务信息、和主机运行信息输入告警系统,得到所述告警信息。
5.根据权利要求4所述的故障检测方法,其特征在于,对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级,包括:
若所述告警信息包括所述主机运行信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第一个候选服务层级;
若所述告警信息包括所述中间件及微服务信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第二个候选服务层级;
若所述告警信息包括所述安装流程信息,根据服务层级关系将所述目标服务层级确定为多个候选服务层级中的第三个候选服务层级。
6.根据权利要求1至3任一项所述的故障检测方法,其特征在于,所述对所述告警信息进行分类,得到目标分类,包括:
获取产生所述告警信息的原因的数目,得到目标原因数目;
若所述目标原因数目等于0,则确定所述目标分类为原子告警类别;
若所述目标原因数目大于或等于1,则确定所述目标分类为关联告警类别。
7.根据权利要求1至3任一项所述的故障检测方法,其特征在于,在将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因之后,所述故障检测方法还包括:
将所述目标故障原因对预设的知识库进行查找,得到故障处理方案;其中,所述知识库基于数据库安装流程的故障处理案例生成,所述知识库包括目标故障原因与故障处理方案的映射关系;
执行所述故障处理方案。
8.一种数据库安装流程的故障检测装置,其特征在于,所述故障检测装置包括:
信息获取模块,用于获取在数据库安装流程中产生的告警信息;
分层模块,用于对所述告警信息进行分层,得到所述告警信息在连续的多个候选服务层级中所处的目标服务层级;其中,连续的多个候选服务层级中的后一个候选服务层级的服务依赖前一个候选服务层级的服务;
提取模块,用于对所述告警信息与所述故障之间的关联度进行提取,得到目标关联度;
分类模块,用于对所述告警信息进行分类,得到目标分类;其中,所述目标分类为原子告警类别、或关联告警类别;
确定模块,用于根据所述目标服务层级、所述目标关联度、和所述目标分类,确定所述告警信息的目标权重;
模型获取模块,用于获取决策树模型,所述决策树模型用于预测故障原因;
检测模块,用于将所述目标权重输入所述决策树模型,得到所述故障对应的目标故障原因。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据库安装流程的故障检测方法。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据库安装流程的故障检测方法。
CN202311695270.4A 2023-12-12 2023-12-12 数据库安装流程的故障检测方法和装置、电子设备、介质 Active CN117389997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311695270.4A CN117389997B (zh) 2023-12-12 2023-12-12 数据库安装流程的故障检测方法和装置、电子设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311695270.4A CN117389997B (zh) 2023-12-12 2023-12-12 数据库安装流程的故障检测方法和装置、电子设备、介质

Publications (2)

Publication Number Publication Date
CN117389997A true CN117389997A (zh) 2024-01-12
CN117389997B CN117389997B (zh) 2024-04-16

Family

ID=89441396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311695270.4A Active CN117389997B (zh) 2023-12-12 2023-12-12 数据库安装流程的故障检测方法和装置、电子设备、介质

Country Status (1)

Country Link
CN (1) CN117389997B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021042843A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 告警信息的决策方法、装置、计算机设备及存储介质
CN113542039A (zh) * 2021-09-16 2021-10-22 浩鲸云计算科技股份有限公司 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN113592343A (zh) * 2021-08-10 2021-11-02 国网河北省电力有限公司电力科学研究院 二次系统的故障诊断方法、装置、设备和存储介质
CN115766402A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN116089224A (zh) * 2023-04-11 2023-05-09 宇动源(北京)信息技术有限公司 告警分析方法、装置、计算节点及计算机可读存储介质
CN116361147A (zh) * 2023-02-03 2023-06-30 广州华多网络科技有限公司 测试用例根因定位方法及其装置、设备、介质、产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021042843A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 告警信息的决策方法、装置、计算机设备及存储介质
CN113592343A (zh) * 2021-08-10 2021-11-02 国网河北省电力有限公司电力科学研究院 二次系统的故障诊断方法、装置、设备和存储介质
CN113542039A (zh) * 2021-09-16 2021-10-22 浩鲸云计算科技股份有限公司 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN115766402A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN116361147A (zh) * 2023-02-03 2023-06-30 广州华多网络科技有限公司 测试用例根因定位方法及其装置、设备、介质、产品
CN116089224A (zh) * 2023-04-11 2023-05-09 宇动源(北京)信息技术有限公司 告警分析方法、装置、计算节点及计算机可读存储介质

Also Published As

Publication number Publication date
CN117389997B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN106250306B (zh) 一种适用于企业级运维自动化平台的性能预测方法
US8719190B2 (en) Detecting anomalous process behavior
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
EP1677213A2 (en) Data object association based on graph theory techniques
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN111782512A (zh) 基于不平衡噪声集的多特征软件缺陷综合预测方法
EP3809269A1 (en) Monitoring a distributed application server environment
CN107545178A (zh) 一种云应用的检测方法及云应用检测装置
CN116089224B (zh) 告警分析方法、装置、计算节点及计算机可读存储介质
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN117389997B (zh) 数据库安装流程的故障检测方法和装置、电子设备、介质
CN107169016B (zh) 一种应用程序日志采集方法及装置
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN113656315B (zh) 数据测试方法、装置、电子设备和存储介质
CN117335998A (zh) 基于行为模式异常检测中样本平衡方法以及装置
CN114676047A (zh) 一种基于故障模式库的无人机软件安全性质分析验证方法
US20200391885A1 (en) Methods and systems for identifying aircraft faults
CN112615434A (zh) 应用于边缘计算和云计算的数据管理方法及边缘计算平台
CN115643196A (zh) 业务云化高可用入网评估方法、装置及计算设备
CN109474445B (zh) 一种分布式系统根源故障定位方法及装置
CN114095081A (zh) 光模块健康度的确定方法、装置及计算机可读存储介质
CN114281311A (zh) 一种模型开发系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant