CN114968727A - 基于人工智能运维的数据库贯穿基础设施的故障定位方法 - Google Patents

基于人工智能运维的数据库贯穿基础设施的故障定位方法 Download PDF

Info

Publication number
CN114968727A
CN114968727A CN202210746736.8A CN202210746736A CN114968727A CN 114968727 A CN114968727 A CN 114968727A CN 202210746736 A CN202210746736 A CN 202210746736A CN 114968727 A CN114968727 A CN 114968727A
Authority
CN
China
Prior art keywords
alarm
database
transaction
key performance
maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210746736.8A
Other languages
English (en)
Other versions
CN114968727B (zh
Inventor
刘睿民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Birui Data Technology Co ltd
Original Assignee
Beijing Birui Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Birui Data Technology Co ltd filed Critical Beijing Birui Data Technology Co ltd
Priority to CN202210746736.8A priority Critical patent/CN114968727B/zh
Publication of CN114968727A publication Critical patent/CN114968727A/zh
Priority to PCT/CN2022/139853 priority patent/WO2024001080A1/zh
Application granted granted Critical
Publication of CN114968727B publication Critical patent/CN114968727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,包括以下步骤:搭建智能运维大数据分布式平台;采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息;进行告警根源标注和划分告警事务;对CNN卷积神经网络进行训练;实时数据故障诊断和根因分析。本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,具有以下优点:将人工智能技术运用到数据库的运营维护中,贯穿数据库到基础设施IaaS层设备的信息,根据数据库告警信息快速进行故障定位和根因分析。

Description

基于人工智能运维的数据库贯穿基础设施的故障定位方法
技术领域
本发明属于信息技术领域,具体涉及一种基于人工智能运维的数据库贯穿基础设施的故障定位方法。
背景技术
随着IT技术的高速发展,现代信息网络化的可交互业务系统已经替代传统的纸书、磁带以及光盘等需要依靠物理媒介的业务传播方式,信息网络化让各行业的业务效率得到极大的提高。随着各行业的相关业务系统的搭建,以及大量的相关计算机网络硬件设备的应用开发,带来成倍增长的运维问题和各行业对IT运维工作的需求。
在大型企业信息化建设以及数智化转型的过程中,传统的运维方式愈发难以满足大数据时代自动、高效和智能的运维需求。传统运维被动式的人工干预解决问题的方式存在成本失控、效率低下等诸多弊端,在当今时代中会导致企业难以估量的损失。为了突破运维方式的瓶颈。数据库作为信息系统的核心和基础数据处理技术得到广泛的应用,已经成为企业信息化建设核心部件。但是,目前,企业和相关运维工作人员对数据库运营维护的认识通常仅限于常规参数设置和设备主动报警。贯穿基础设施层的关键指标数据,利用程度不足,缺少联合分析和相关分析。数据库一旦出现告警,运维人员通常只在数据库浅层次上进行维护,无法深层次挖掘出现问题的根本原因,不能充分发挥整体网络的潜在能力。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,包括以下步骤:
步骤1,搭建智能运维大数据分布式平台,所述智能运维大数据分布式平台,包括分布式存储单元和分布式计算平台;
步骤2,在预设定时间段内,采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息;其中,每个关键性能指标向量为n维向量,包括n个关键性能指标;
步骤3,对IaaS基础设施层的关键性能指标向量进行标准化预处理,得到标准化处理后的关键性能指标向量;
步骤4,对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警信息进行联合分析,得到引起告警信息的告警根源;
步骤5,将一组连续时间内的告警信息划分为一个告警事务,由此得到多个告警事务;标注每个告警事务的告警根源;其中,每个告警事务的告警根源,是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合;
步骤6,将每个告警事务所标注的告警根源作为该告警事务的标签,以告警事务作为输入,以每个告警事务属于每类告警根源的概率作为输出,对CNN卷积神经网络进行训练,得到训练完成的CNN卷积神经网络即为故障定位及根因分析分类模型;
步骤7,实时数据故障诊断和根因分析:
在数据库实时运行时,当产生告警信息时,将连续时间内的告警信息作为一个告警事务,输入到故障定位及根因分析分类模型,输出其对应每类告警根源的概率,获得概率最大的告警根源,完成数据库告警根因分析。
优选的,其特征在于,关键性能指标向量包括6个关键性能指标,分别为:服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。
优选的,其特征在于,数据库运行的告警信息包括39类,分别为:一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。
优选的,步骤3具体为:
将关键性能指标向量表示为:X(t)=(X1,X2,…,Xn),含义为:在采集时刻t,采集到的关键性能指标向量,包括n个关键性能指标,分别为:X1,X2,…,Xn
假设在预设定时间段内,共采集得到u个关键性能指标向量,分别为:X(t1)=(X11,X12,…,X1n),X(t2)=(X21,X22,…,X2n),…,X(tu)=(Xu1,Xu2,…,Xun),含义为:在采集时刻t1,t2…,tu,分别采集到的关键性能指标向量;
对于关键性能指标X11,采用以下方法进行标准化处理,得到标准化处理后的关键性能指标
Figure BDA0003719659400000031
Figure BDA0003719659400000041
其中:
Figure BDA0003719659400000042
为X11,X21,…,Xu1的均值;
σ为X11,X21,…,Xu1的标准差;
对其他关键性能指标,采用同样方法标准化处理。
优选的,步骤5具体为:
步骤5.1,对于某个告警根源Ga,其发生时间为sa,消除时间为fa;
步骤5.2,预设定x和y值;
选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个告警事务,即:将[sa-x,fa+y]时间段内的所有告警信息作为一个告警事务S(1);
步骤5.3,预先为告警事务S(1)时间区间设定阈值y_max,T_max,使得其满足公式(2)和公式(3)的约束:
fa-sa+y<y_max (2)
x+y_max<T_max (3)
步骤5.4,若[sa,fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息,则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1),即:将以下时间区间内的告警信息作为一个告警事务[sa-x,min(max(fa,fb)+y,sa-x+T_max)]。
本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法具有以下优点:
将人工智能技术运用到数据库的运营维护中,贯穿数据库到基础设施IaaS层设备的信息,根据数据库告警信息快速进行故障定位和根因分析。
附图说明
图1为本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法的流程示意图;
图2为本发明提供的告警事物切分示意图;
图3为本发明提供的告警事务Ga和Gb合并为一个告警事务示意图;
图4为本发明提供的CNN卷积申请网络示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
随着IT技术的高速发展,现代信息网络化的可交互业务系统已经替代了传统的纸书、磁带以及光盘等需要依靠物理媒介的业务传播方式,信息网络化让各行业的业务效率得到了极大的提高。随着各行业的相关业务系统的搭建,以及大量的相关计算机网络硬件设备的应用开发,带来了成倍增长的运维问题和各行业对IT运维工作的需求。最近几年随着人工智能的发展,各企业都已经逐渐融入了人工智能算法,为很多企业带来了行业难题的解决办法,当IT运维和人工智能相互结合,于是便产生了智能运维AIOps(ArtificialIntelligence for IT Operations)。利用机器学习和大数据工具,聚焦具体类别设备的关键性能指标KPI数据和日志数据进行建模分析,研究故障预测和诊断以及根因分析等算法模型,提高智能运维故障发现处置效率,助力大型企业IT运维实现精细化和智能化,是未来智能运维发展的重要方向。
与本申请最为接近的技术方案有申请号为CN201610922085.8的发明专利,一种用于分布式数据库的性能故障定位方法,该发明提供一种用于分布式数据库的性能故障定位方法,定位执行速度缓慢的性能故障节点;判断性能故障节点的SQL执行计划是否改变,若是,则性能故障定位完成,并优化性能故障节点的SQL执行计划,若否,则依次查看系统资源负载、协调器性能及用户网络状况,直至完成性能故障的定位。该专利仅利用故障节点的SQL执行计划是否改变的信息,识别数据库性能故障的定位所在。与该专利相比,本发明基于IaaS基础设施层的6类关键性能指标和数据库的39类运行告警信息,创造性地聚合各类告警信息,建立人工智能模型分析故障根因,并使用关联分析深度挖掘问题根因。本发明仅针对数据库开展研究,对数据库告警的分析利用更加充分,对数据库的处理性能提升更加具有实用性。本发明可以充分深入挖掘数据库的数据处理能力,提升数据库运行的稳定性和效率,从根本上提高企业环境下的数据处理能力,进一步提升智能运维工作价值。
基于现有技术现状,本申请旨在将人工智能技术运用到数据库的运营维护中,贯穿数据库到基础设施IaaS层设备的信息,根据数据库告警信息快速进行故障定位和根因分析。
本发明提供一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,参考图1,包括以下步骤:
步骤1,搭建智能运维大数据分布式平台,所述智能运维大数据分布式平台,包括分布式存储单元和分布式计算平台;
该智能运维大数据分布式平台基于开源HDFS、Yarn、Zookeeper、Hive、HBase等Hadoop生态组件、Spark和Python等计算引擎分布式存储单元用于采集关键运行指标向量和系统运行日志数据信息。
步骤2,在预设定时间段内,采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息;其中,每个关键性能指标向量为n维向量,包括n个关键性能指标;
作为一种具体实现方式,关键性能指标向量包括但不限于以下6个关键性能指标,分别为:服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。
数据库运行的告警信息包括但不限于以下39类,分别为:一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。
步骤3,对IaaS基础设施层的关键性能指标向量进行标准化预处理,得到标准化处理后的关键性能指标向量;本步骤目的为方便后续步骤准确提取关键信息,避免无效数据干扰,
具体的,可采用以下方法进行标准化处理:
将关键性能指标向量表示为:X(t)=(X1,X2,…,Xn),含义为:在采集时刻t,采集到的关键性能指标向量,包括n个关键性能指标,分别为:X1,X2,…,Xn
假设在预设定时间段内,共采集得到u个关键性能指标向量,分别为:X(t1)=(X11,X12,…,X1n),X(t2)=(X21,X22,…,X2n),…,X(tu)=(Xu1,Xu2,…,Xun),含义为:在采集时刻t1,t2…,tu,分别采集到的关键性能指标向量;
对于关键性能指标X11,采用以下方法进行标准化处理,得到标准化处理后的关键性能指标
Figure BDA0003719659400000081
Figure BDA0003719659400000082
其中:
Figure BDA0003719659400000083
为X11,X21,…,Xu1的均值;
σ为X11,X21,…,Xu1的标准差;
对其他关键性能指标,采用同样方法标准化处理。
步骤4,对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警信息进行联合分析,得到引起告警信息的告警根源;
步骤5,将一组连续时间内的告警信息划分为一个告警事务,由此得到多个告警事务;
标注每个告警事务的告警根源;其中,每个告警事务的告警根源,是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合;
具体的,采用步骤S1建立的智能运维大数据分布式平台,对对数据库告警信息进行预处理和人工标注,其目的为后续步骤准确提取关键信息,避免无效数据干扰。
参考图2,对于告警信息,将一组连续时间内的告警信息作为一个告警事务,利用告警事务中所标注的告警根源对该告警事务的根源进行分类,可以有效聚合告警信息,提取关键信息,避免干扰。
步骤5具体为:
步骤5.1,对于某个告警根源Ga,其发生时间为sa,消除时间为fa;
步骤5.2,预设定x和y值;
选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个告警事务,即:将[sa-x,fa+y]时间段内的所有告警信息作为一个告警事务S(1);
步骤5.3,预先为告警事务S(1)时间区间设定阈值y_max,T_max,使得其满足公式(2)和公式(3)的约束:
fa-sa+y<y_max (2)
x+y_max<T_max (3)
步骤5.4,参考图3,若[sa,fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息,则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1),即:将以下时间区间内的告警信息作为一个告警事务[sa-x,min(max(fa,fb)+y,sa-x+T_max)]。
在具体实现上,还可以进行以下步骤:
步骤5.5,重复步骤5.2至步骤5.5,直至确定以Ga为时间中心的告警事务。
步骤5.6,针对告警信息中所有标注的告警根源,按照告警产生时间排序,用于提取告警事务。
步骤5.7,从告警信息中第一个标注的告警根源Ga开始,按照以上步骤,确定以Ga为时间中心的告警事务。
步骤5.8,按照时间顺序,确定下一个告警根源Gb为时间中心的告警事务。其中,若告警根源Gb已经包含于上一个告警事务,则忽略告警根源Gb,继续查找下一个告警根源,直至所有告警根源都包含于告警事务中。
步骤6,将每个告警事务所标注的告警根源作为该告警事务的标签,以告警事务作为输入,以每个告警事务属于每类告警根源的概率作为输出,对CNN卷积神经网络进行训练,得到训练完成的CNN卷积神经网络即为故障定位及根因分析分类模型;
通过CNN卷积神经网络计算每一个告警事务属于每一个告警根源的概率。其中,一个告警事务属于某个告警根源的概率越大,则该类告警是这个告警事务的根源的概率越大。CNN卷积神经网络结构如图4所示。
本步骤之后,还可以包括:
在得到每一个告警事务属于每一个告警根源的概率后,根据概率的大小,通过专家人工赋予0到1之间的系数相乘进行修正,最终得到每一个告警事务属于最大概率告警根源的概率。
步骤7,实时数据故障诊断和根因分析:
在数据库实时运行时,当产生告警信息时,将连续时间内的告警信息作为一个告警事务,输入到故障定位及根因分析分类模型,输出其对应每类告警根源的概率,获得概率最大的告警根源,完成数据库告警根因分析。
因此,基于步骤S1建立的智能运维大数据分布式平台,与实时数据进行分类判别,可以得到包括告警事物、服务器定位、服务器CPU、服务器内存、服务器硬盘、网络在内的数据库告警根因分析。
本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法具有以下特点:
1.本发明使用特定方法定义告警事务,原创的计算步骤,提取关键信息,避免无效数据干扰,为后续数据能够应用CNN卷积神经网络进行计算,提升计算效率。此为本申请的关键点之一。
2.相较于传统的人工处理数据库告警信息,本发明应用了CNN卷积申请网络算法并进行了改进。应用CNN卷积申请网络可以快速判断大量数据库告警信息的根因,本专利改进之处在于引入专家人工赋权对CNN卷积神经网络的计算结果进行修正,有效避免了因数据库告警信息采集量不足而导致的计算结果出现偏差。此为本申请的关键点之一。
本发明提供的基于人工智能运维的数据库贯穿基础设施的故障定位方法,将人工智能技术运用到数据库的运营维护中,贯穿数据库到基础设施IaaS层设备的信息,根据数据库告警信息快速进行故障定位和根因分析。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (5)

1.一种基于人工智能运维的数据库贯穿基础设施的故障定位方法,其特征在于,包括以下步骤:
步骤1,搭建智能运维大数据分布式平台,所述智能运维大数据分布式平台,包括分布式存储单元和分布式计算平台;
步骤2,在预设定时间段内,采集得到IaaS基础设施层的关键性能指标向量和数据库运行的告警信息;其中,每个关键性能指标向量为n维向量,包括n个关键性能指标;
步骤3,对IaaS基础设施层的关键性能指标向量进行标准化预处理,得到标准化处理后的关键性能指标向量;
步骤4,对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警信息进行联合分析,得到引起告警信息的告警根源;
步骤5,将一组连续时间内的告警信息划分为一个告警事务,由此得到多个告警事务;标注每个告警事务的告警根源;其中,每个告警事务的告警根源,是告警事务对应时间段采集到的标准化处理后的关键性能指标向量形成的向量组合;
步骤6,将每个告警事务所标注的告警根源作为该告警事务的标签,以告警事务作为输入,以每个告警事务属于每类告警根源的概率作为输出,对CNN卷积神经网络进行训练,得到训练完成的CNN卷积神经网络即为故障定位及根因分析分类模型;
步骤7,实时数据故障诊断和根因分析:
在数据库实时运行时,当产生告警信息时,将连续时间内的告警信息作为一个告警事务,输入到故障定位及根因分析分类模型,输出其对应每类告警根源的概率,获得概率最大的告警根源,完成数据库告警根因分析。
2.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,其特征在于,关键性能指标向量包括6个关键性能指标,分别为:服务器IP地址、服务器CPU占用率、服务器内存占用率、服务器硬盘读写速率、服务器硬盘空间占用率和网络实时速率。
3.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,其特征在于,数据库运行的告警信息包括39类,分别为:一般告警信息、无数据告警、尚未完成的SQL语句、连接异常、触发动作异常、不支持的功能、无效的事务启动、定位器异常、无效的角色规范、诊断异常、违反基数、数据异常、违反完整性约束、无效的游标状态、无效的交易状态、无效的SQL语句名称、触发数据更改违规、无效的授权规范、依赖特权描述符仍然存在、无效的交易终止、SQL例程异常、无效的游标名称、外部例程异常、外部例程调用异常、保存点异常、无效的目录名称、无效的架构名称、事务回滚、语法错误或访问规则违规、违反检查选项、资源不足、超出程序限制、对象未处于先决状态、操作员干预、系统错误、快照失败、配置文件错误、外部数据包装器错误、内部错误告警。
4.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,步骤3具体为:
将关键性能指标向量表示为:X(t)=(X1,X2,…,Xn),含义为:在采集时刻t,采集到的关键性能指标向量,包括n个关键性能指标,分别为:X1,X2,…,Xn
假设在预设定时间段内,共采集得到u个关键性能指标向量,分别为:X(t1)=(X11,X12,…,X1n),X(t2)=(X21,X22,…,X2n),…,X(tu)=(Xu1,Xu2,…,Xun),含义为:在采集时刻t1,t2…,tu,分别采集到的关键性能指标向量;
对于关键性能指标X11,采用以下方法进行标准化处理,得到标准化处理后的关键性能指标
Figure FDA0003719659390000031
Figure FDA0003719659390000032
其中:
Figure FDA0003719659390000033
为X11,X21,…,Xu1的均值;
σ为X11,X21,…,Xu1的标准差;
对其他关键性能指标,采用同样方法标准化处理。
5.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,步骤5具体为:
步骤5.1,对于某个告警根源Ga,其发生时间为sa,消除时间为fa;
步骤5.2,预设定x和y值;
选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个告警事务,即:将[sa-x,fa+y]时间段内的所有告警信息作为一个告警事务S(1);
步骤5.3,预先为告警事务S(1)时间区间设定阈值y_max,T_max,使得其满足公式(2)和公式(3)的约束:
fa-sa+y<y_max (2)
x+y_max<T_max (3)
步骤5.4,若[sa,fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息,则将告警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1),即:将以下时间区间内的告警信息作为一个告警事务[sa-x,min(max(fa,fb)+y,sa-x+T_max)]。
CN202210746736.8A 2022-06-29 2022-06-29 基于人工智能运维的数据库贯穿基础设施的故障定位方法 Active CN114968727B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210746736.8A CN114968727B (zh) 2022-06-29 2022-06-29 基于人工智能运维的数据库贯穿基础设施的故障定位方法
PCT/CN2022/139853 WO2024001080A1 (zh) 2022-06-29 2022-12-19 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210746736.8A CN114968727B (zh) 2022-06-29 2022-06-29 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Publications (2)

Publication Number Publication Date
CN114968727A true CN114968727A (zh) 2022-08-30
CN114968727B CN114968727B (zh) 2023-02-10

Family

ID=82965428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210746736.8A Active CN114968727B (zh) 2022-06-29 2022-06-29 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Country Status (2)

Country Link
CN (1) CN114968727B (zh)
WO (1) WO2024001080A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016120A (zh) * 2023-01-05 2023-04-25 中国联合网络通信集团有限公司 故障处理方法、终端设备和可读存储介质
WO2024001080A1 (zh) * 2022-06-29 2024-01-04 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
US20200042426A1 (en) * 2018-08-03 2020-02-06 Dynatrace Llc Method And System For Automatic Real-Time Causality Analysis Of End User Impacting System Anomalies Using Causality Rules And Topological Understanding Of The System To Effectively Filter Relevant Monitoring Data
CN110932899A (zh) * 2019-11-28 2020-03-27 杭州东方通信软件技术有限公司 一种应用ai智能故障压缩研究方法及其系统
CN110943857A (zh) * 2019-11-20 2020-03-31 国网湖北省电力有限公司信息通信公司 基于卷积神经网络的电力通信网故障分析及定位方法
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003718B (zh) * 2020-09-25 2021-07-27 南京邮电大学 一种基于深度学习的网络告警定位方法
CN111897673B (zh) * 2020-07-31 2022-10-21 平安科技(深圳)有限公司 运维故障根因识别方法、装置、计算机设备和存储介质
US11533216B2 (en) * 2020-08-28 2022-12-20 Ciena Corporation Aggregating alarms into clusters to display service-affecting events on a graphical user interface
CN114968727B (zh) * 2022-06-29 2023-02-10 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098175A (zh) * 2011-01-26 2011-06-15 浪潮通信信息系统有限公司 一种移动互联网告警关联规则获取方法
CN107196804A (zh) * 2017-06-01 2017-09-22 国网山东省电力公司信息通信公司 电力系统终端通信接入网告警集中监控系统及方法
US20200042426A1 (en) * 2018-08-03 2020-02-06 Dynatrace Llc Method And System For Automatic Real-Time Causality Analysis Of End User Impacting System Anomalies Using Causality Rules And Topological Understanding Of The System To Effectively Filter Relevant Monitoring Data
CN110943857A (zh) * 2019-11-20 2020-03-31 国网湖北省电力有限公司信息通信公司 基于卷积神经网络的电力通信网故障分析及定位方法
CN110932899A (zh) * 2019-11-28 2020-03-27 杭州东方通信软件技术有限公司 一种应用ai智能故障压缩研究方法及其系统
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024001080A1 (zh) * 2022-06-29 2024-01-04 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN116016120A (zh) * 2023-01-05 2023-04-25 中国联合网络通信集团有限公司 故障处理方法、终端设备和可读存储介质

Also Published As

Publication number Publication date
WO2024001080A1 (zh) 2024-01-04
CN114968727B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN114968727B (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN111343161B (zh) 异常信息处理节点分析方法、装置、介质及电子设备
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
EP3674918B1 (en) Column lineage and metadata propagation
CN111401914A (zh) 风险评估模型的训练、风险评估方法及装置
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
CN110427298A (zh) 一种分布式日志的自动特征提取方法
CN114564726A (zh) 一种基于大数据办公的软件漏洞分析方法及系统
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN116467674A (zh) 一种配电网智能故障处理融合更新系统及其方法
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与系统
CN115309575A (zh) 基于图卷积神经网络的微服务故障诊断方法、装置及设备
WO2021109874A1 (zh) 拓扑图生成方法、异常检测方法、装置、设备及存储介质
CN113138906A (zh) 一种调用链数据采集方法、装置、设备及存储介质
CN117333038A (zh) 一种基于大数据的经济趋势分析系统
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
Xia et al. Source Code Vulnerability Detection Based On SAR-GIN
CN117149500B (zh) 基于指标数据和日志数据的异常根因获得方法及系统
CN117390090B (zh) 一种rpa流程挖掘方法、存储介质、电子设备
CN116881087B (zh) 数据库运维智能平台
CN114692595B (zh) 一种基于文本匹配的重复冲突方案检测方法
CN113569879B (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
CN112115124A (zh) 一种数据影响度分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Ruimin

Inventor after: Lin Xiufeng

Inventor before: Liu Ruimin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant