CN116414587A - 故障数据获取方法、故障处理方法、电子设备及存储介质 - Google Patents

故障数据获取方法、故障处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116414587A
CN116414587A CN202111644463.8A CN202111644463A CN116414587A CN 116414587 A CN116414587 A CN 116414587A CN 202111644463 A CN202111644463 A CN 202111644463A CN 116414587 A CN116414587 A CN 116414587A
Authority
CN
China
Prior art keywords
fault
database
data
phenomenon
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111644463.8A
Other languages
English (en)
Inventor
王炳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202111644463.8A priority Critical patent/CN116414587A/zh
Priority to PCT/CN2022/139420 priority patent/WO2023125059A1/zh
Publication of CN116414587A publication Critical patent/CN116414587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0718Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an object-oriented system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本申请实施例提供了一种故障数据获取方法、故障处理方法、电子设备及存储介质,通过获取标签故障数据,根据标签故障数据,得到数据库故障现象,并对数据库故障现象进行模拟,得到无标签故障数据,使模拟过程中的环境条件与实际故障现场的环境条件尽可能一致,从而能够提高无标签故障数据的准确性。标签故障数据与无标签故障数据用于故障诊断模型的训练,由此可知,通过本申请实施例的故障数据获取方法进行故障模拟能增加故障诊断模型的数据输入量,进而提升故障诊断模型的训练数据输入的数量和质量,最终提高故障诊断与修复的效率。

Description

故障数据获取方法、故障处理方法、电子设备及存储介质
技术领域
本发明涉及但不限于数据库领域,尤其涉及一种故障数据获取方法、故障处理方法、电子设备及存储介质。
背景技术
随着大数据和智能终端的发展,数据库所承载的数据量越来越多,集中式数据库已不能满足数据的要求,分布式数据库系统应运而生。传统的运维人员通常只需面对几十或者上百台的服务器,但分布式数据库通常由上千台及以上的服务器组成,运维难度较大,出现故障需要付出的代价也越来越大。
在一些场景下,如银行数据库的故障出现概率较低,因此通过实际故障采集的数据无法支撑日常运维工作,其故障数据规模的不足及质量的不确定性,导致在实际运维过程中的故障处理的效率较低,时效性较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种故障数据获取方法、故障处理方法、电子设备及存储介质,能够获取大量的无标签故障数据,结合标签故障数据与无标签故障数据对故障诊断模型进行训练,能够提高故障诊断模型训练的数据数量和质量。
第一方面,本申请实施例提供了一种故障数据获取方法,方法包括:获取数据库故障现象与数据库故障原因;根据所述数据库故障现象与所述数据库故障原因,得到标签故障数据;对所述数据库故障现象进行模拟,得到无标签故障数据,所述标签故障数据与所述无标签故障数据用于故障诊断模型的训练。
第二方面,本申请实施例提供了一种故障处理方法,包括:获取待诊断的数据库故障现象;将所述待诊断的数据库故障现象输入至故障诊断模型,得到所述待诊断的数据库故障现象对应的数据库故障原因,所述故障诊断模型通过如第一方面所述的故障数据获取方法获取的标签故障数据与无标签故障数据训练得到;根据所述数据库故障原因,对所述数据库进行修复。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如第一方面的故障数据获取方法,或如第二方面的故障处理方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:如第一方面的故障数据获取方法,或如第二方面的故障处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如第一方面的故障数据获取方法,或如第二方面的故障处理方法。
本申请实施例提供了一种故障数据获取方法、故障处理方法、电子设备及存储介质,通过获取标签故障数据,根据标签故障数据,得到数据库故障现象,并对数据库故障现象进行模拟,得到无标签故障数据,使模拟过程中的环境条件与实际故障现场的环境条件尽可能一致,从而能够提高无标签故障数据的准确性。标签故障数据与无标签故障数据用于故障诊断模型的训练,由此可知,通过本申请实施例的故障数据获取方法进行故障模拟能增加故障诊断模型的数据输入量,进而提升故障诊断模型的训练数据输入的数量和质量,最终提高故障诊断与修复的效率。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一实施例提供的故障数据获取方法的流程图;
图2是图1中步骤S200的一个具体方法流程图;
图3是图1中步骤S200的另一个具体方法流程图;
图4是图1中步骤S300的一个具体方法流程图;
图5是本申请一实施例提供的故障处理方法的流程图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请实施例。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请实施例的描述。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
还应当理解,在本申请实施例说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请实施例的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以下,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
数据库(Database,DB):是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
分布式数据库:指常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有数据库管理系统(Database Management System,DBMS)的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
DBA运维专家:DBA一般是指数据库管理员,主要职责是运维和管理数据库管理系统,侧重于运维管理。
随着大数据及智能终端的发展,数据库早已成为不可或缺的存在,大数据的出现反应了数据量急剧增长的速度,数据库运维面临着巨大的压力,特别是对于金融级数据库来说,数据的安全问题不容忽视,也因此对数据库运维提出了更高的要求。当数据库运维系统面临硬件故障和软件栈故障时,需要及早做出故障定界和定位,以争取宝贵的故障处理时间,尤其对于分布式数据库来说,运维难度较大。
现有技术中,通常是利用大数据技术,输入故障现象训练模型,得出故障原因,但是在一些场景中,故障出现的概率很低,无法获得足够的数据对模型进行训练,且数据的质量无法保证,导致模型的准确性不足,无法满足实际故障处理的需求。
基于此,本申请提供了一种故障数据获取方法、故障处理方法、电子设备及存储介质,应用于数据库运行维护应用场景,通过获取标签故障数据,根据标签故障数据,得到数据库故障现象,并对数据库故障现象进行模拟,得到无标签故障数据,使模拟过程中的环境条件与实际故障现场的环境条件尽可能一致,从而能够提高无标签故障数据的准确性。标签故障数据与无标签故障数据用于故障诊断模型的训练,由此可知,通过本申请实施例的故障数据获取方法进行故障模拟能增加故障诊断模型的数据输入量,进而提升故障诊断模型的训练数据输入的数量和质量,最终提高故障诊断与修复的效率。
下面结合附图1,对相关技术作进一步阐述。
如图1所示,图1是本申请实施例提供的故障数据获取方法的流程图,本实施例中的故障数据获取方法至少包括但不限于以下步骤:
步骤S100:获取数据库故障现象与数据库故障原因。
在一些实施例中,数据库故障现象与数据库故障原因通过DBA运维专家在故障现场解决故障问题得出,DBA运维专家会根据数据库实际出现的故障问题,查看数据库故障日志,获取到数据库故障现象,并根据数据库故障日志的内容逐步排查定位到问题组件或服务器,从而获取到数据库故障原因。在一些实施例中,还可以根据DBA运维专家定位数据库故障原因的过程,以及DBA运维专家经验,建立运维专家知识库,从运维专家知识库中获取数据库故障现象与对应的数据库故障原因。
在一些实施例中,数据库故障现象的类型包括软件故障、硬件故障或软硬件组合故障,软硬件组合故障指的是软件和硬件同时存在故障,软件故障现象包括网页打开慢、游戏卡顿、网络连接失败等,硬件故障包括磁盘损坏、强磁干扰等。
在一些实施例中,数据库故障原因包括IO故障、网络故障、资源配置不足等。
步骤S200:根据数据库故障现象与数据库故障原因,得到标签故障数据。
在一些实施例中,如图2所示,为步骤S200的一具体流程图,其具体包括:
步骤S210:根据数据库故障现象与数据库故障原因,构建数据库故障现象与数据库故障原因之间的映射关系。
将获取到的数据库故障现象与相应的数据库故障原因建立一个映射关系,通常数据库故障现象与数据库故障原因是一对一的映射关系,在一些场景下,多个数据库故障现象所对应的数据库故障原因均相同,此时数据库故障现象与数据库故障原因是多对一的映射关系。
步骤S220:将具有映射关系的数据库故障现象与数据库故障原因作为第一标签故障数据;
步骤S230:确定第一标签故障数据为标签故障数据。
需要说明的是,第一标签故障数据为有标签的数据库故障现象及数据库故障原因,有标签故障数据指的是DBA运维专家根据实际故障确定出的数据库故障现象与数据库故障原因的映射关系,而第一标签故障数据作为故障诊断模型训练的一部分数据,能使故障诊断模型的构建更准确。
在一些实施例中,如图3所示,为步骤S200的另一具体流程图,其具体包括:
步骤S240:根据数据库故障现象和数据库故障原因获取对应的数据库日志;
步骤S250:根据数据库日志获取日志关键字;
步骤S260:根据日志关键字、数据库故障现象和数据库故障原因,构建日志关键字、数据库故障现象和数据库故障原因之间的映射关系;
步骤S270:将具有映射关系的日志关键字、数据库故障现象和数据库故障原因作为第二标签故障数据;
步骤S280:确定第二标签故障数据为标签故障数据。
需要说明的是,日志关键字可以是数据库故障现象完整的字段,也可以是数据库故障现象中提取出的关键词,将日志关键字与数据库故障现象和数据库故障原因对应在一起,得到标签故障数据。
在本申请实施例中,日志关键字能够标识每一组标签故障数据,在需要查询某一数据库故障现象与数据库故障原因时,可以使用日志关键字对数据库故障现象进行快速定位,能够加快数据库故障现象及数据库故障原因的定位速度。当使用完整的数据库故障现象进行数据库故障原因查询时,若查询不到相应的数据库故障现象,可以使用日志关键字中的某个字段进行模糊查询,提高解决数据库故障的工作效率。
步骤S300:对数据库故障现象进行模拟,得到无标签故障数据,标签故障数据与无标签故障数据用于故障诊断模型的训练;
在一些实施例中,数据库故障现象至少包括以下之一:计算机资源满载、计算机节点断链、数据库节点断链、计算机调用延迟等。
如图4所示,对数据库故障现象进行模拟,得到无标签故障数据,具体包括步骤:
步骤S310:对数据库故障现象进行模拟,得到模拟日志,模拟日志为模拟数据库故障记录;
在一些实施例中,使用混沌测试工具对数据库故障现象进行模拟,混沌测试工具通常使用的是ChaosBl ade工具。需要在标签故障数据的基础上,建立混沌测试工具,从而使混沌测试工具的环境条件与实际故障现场的环境条件最大程度保持一致,其中环境条件包括模块的日志规模、模块日志形式和时间长度等。
通过在标签故障数据的基础上进行数据库模拟,能够使模拟日志与数据库实际故障日志的日志参数尽可能保证一致,提升模拟日志的质量,通过对数据库故障现象进行模拟,能够获得足够规模的无标签故障数据,相较于人工收集标签故障数据,模拟日志的获取过程花费较少人力成本,智能化程度更高。
步骤S320:提取模拟日志中的故障现象,得到模拟故障现象;
步骤S330:确定模拟故障现象为无标签故障数据。
在一些实施例中,模拟日志文件通常包含了事件执行的数据、数据库架构等信息,因此需要对模拟日志的内容进行提取,以获得准确的数据库故障现象的数据。
在一些实施例中,对模拟日志中的模拟故障现象进行提取,得到无标签故障数据,包括:根据提取得到的模拟日志中的模拟故障现象,形成模拟故障现象文本,需要说明的是,模拟日志中包含了不同的数据库信息,因此,需要先对模拟日志的数据进行提取,将与故障现象相关的信息提取出来,这部分的数据为有价值的信息,将其他与故障现象无关的信息剔除。
具体的提取流程为,DBA运维专家根据自身的经验,利用脚本等工具剔除模拟日志中无用的信息,如特殊符号、运行正常的信息等,保留与故障现象相关的数据内容。能够提高无标签故障数据的准确性。
其次,还需要对模拟故障现象文本进行文本向量化处理,得到模拟故障现象向量,最终确定故障现象向量为无标签故障数据。
需要说明的是,从模拟日志中获取的模拟故障现象类型为文本类型,将文本转换为向量形式,模拟故障现象向量的质量直接影响故障诊断模型的表现,通过对模拟故障现象进行文本向量化处理能够使无标签故障数据符合故障诊断模型的参数输入要求。
在一些实施例中,文本向量化处理可以使用TF-IDF等权值计算方法。
本申请的一个实施例还提供了一种故障处理方法,如图5所示,图5是本申请实施例提供的故障处理方法的流程图,应用于数据库运行维护应用场景,本实施例中的故障处理方法至少包括以下步骤:
步骤S400:获取待诊断的数据库故障现象。当数据库出现故障时,数据库日志自动记录数据库的故障现象,因此从数据库日志中可以将待诊断的数据库故障现象提取出来。
步骤S500:将待诊断的数据库故障现象输入至故障诊断模型,得到待诊断的数据库故障现象对应的数据库故障原因。其中,故障诊断模型通过如上述实施例中的故障数据获取方法获取的标签故障数据与无标签故障数据训练得到。
在一些实施例中,故障诊断模型由以下步骤得到:
首先需要获取如故障数据获取方法获取到的标签故障数据和无标签故障数据,标签故障数据和无标签故障数据的获取方法具体如上文中所述,此处不再详述;
其次,需要将标签故障数据与无标签故障数据输入至选取的半监督学习模型,进行模型训练。可以通过尝试不同的思路和方法选取出确定的半监督学习模型,半监督学习模型包括自训练算法、生成模型等。
半监督学习方法是基于标签故障数据,对无标签故障数据进行标记,从而获得大量有标签的故障数据,用于对故障诊断模型进行训练。通过使用半监督学习的方式可以减少人工标注的故障数据的数量,能提升模型的训练效果与效率。
当半监督学习模型的误差值小于预设的误差值时,停止训练,获得故障诊断模型。半监督学习模型的训练与优化技术较成熟,此处不再详述。
在一些实施例中,在经过半监督学习后的无标签故障数据分为训练数据和测试数据,训练数据用于进行故障诊断模型的训练,测试数据用于对故障诊断模型进行测试,通过对测试结果的评估得知故障诊断模型的准确性。
在一些实施例中,训练数据和测试数据的划分方法可为:留出法、交叉验证法或自助法,需要尽可能地保持训练数据和测试数据分布的一致性,以减小故障诊断模型的误差。
步骤S600:根据数据库故障原因,对数据库进行修复。
在故障诊断模型建立后,需要将模型应用在实际故障维护的场景中,即将数据库故障现象输入故障诊断模型,故障诊断模型根据数据库故障现象与数据库故障原因的映射关系,输出相应的数据库故障原因,DBA运维专家根据数据库故障原因,定位到数据库相应的故障位置,对数据库进行修复。
在一些实施例中,根据数据库故障原因,对数据库进行修复后,还包括,根据待诊断的数据库故障现象与待诊断的数据库故障现象对应的数据库故障原因,更新标签故障数据,得到新的标签故障数据。将经过故障诊断模型对待诊断数据库故障现象预测出的数据库故障原因,确定为预测数据库故障原因,若根据预测数据库故障原因无法修复待诊断的数据库故障现象,则需要DBA运维专家查找出真实数据库故障原因,更新待诊断的数据库故障现象与真实数据库故障原因的映射关系,确定为新的标签故障数据。
在一些实施例中,根据新的标签故障数据,得到新的数据库故障现象,对新的数据库故障现象进行模拟,得到新的无标签故障数据,将新的标签故障数据和新的无标签故障数据重新输入至半监督学习模型进行模型训练,当半监督学习模型的误差值小于预设的误差值时,停止训练,获得更新的故障诊断模型。此处的故障诊断模型的训练及更新与上文所述的故障诊断模型的训练方法一致,此处不再详述。
在另一实施例中,根据新的标签故障数据,更新标签故障数据,从而对故障诊断模型的参数进行调整。
通过不断的反馈数据库故障现象与相应的数据库故障原因的映射关系,不断对故障诊断模型进行迭代优化,逐步完善故障诊断模型,能够提高故障诊断模型的精确度。
本申请的一个实施例还提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器能够执行计算机程序实现如上所述的故障数据获取方法和故障处理方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的图像处理方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的故障数据获取方法和故障处理方法。
以上所描述的网元实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请的一个实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述实施例的故障数据获取方法或故障处理方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
以上所描述的移动通信设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
此外,本申请实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,计算机程序或计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机程序或计算机指令,处理器执行计算机程序或计算机指令,使得计算机设备执行如上的故障数据获取方法或故障处理方法,例如,执行以上描述的图1中的方法步骤S100至S300,图2中的方法步骤S210至S230,图3中的方法步骤S240至S280,图4中的方法步骤S310至S330,图5中的方法步骤S400至S600。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (11)

1.一种故障数据获取方法,包括:
获取数据库故障现象与数据库故障原因;
根据所述数据库故障现象与所述数据库故障原因,得到标签故障数据;
对所述数据库故障现象进行模拟,得到无标签故障数据,所述标签故障数据与所述无标签故障数据用于故障诊断模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据库故障现象与所述数据库故障原因,得到标签故障数据,包括:
根据所述数据库故障现象与所述数据库故障原因,构建所述数据库故障现象与所述数据库故障原因之间的映射关系;
将所述具有映射关系的数据库故障现象与数据库故障原因作为第一标签故障数据;
确定所述第一标签故障数据为所述标签故障数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据库故障现象与所述数据库故障原因,得到标签故障数据,包括:
根据所述数据库故障现象与所述数据库故障原因获取对应的数据库日志;
根据所述数据库日志获取日志关键字;
根据所述日志关键字、所述数据库故障现象和所述数据库故障原因,构建所述日志关键字、所述数据库故障现象和所述数据库故障原因之间的映射关系;
将具有映射关系的日志关键字、数据库故障现象和数据库故障原因作为第二标签故障数据;
确定所述第二标签故障数据为所述标签故障数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述数据库故障现象进行模拟,得到无标签故障数据,包括:
对所述数据库故障现象进行模拟,得到模拟日志,所述模拟日志为模拟数据库故障记录;
提取所述模拟日志中的故障现象,得到模拟故障现象;
确定所述模拟故障现象为所述无标签故障数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述模拟故障现象为所述无标签故障数据,包括:
根据所述模拟故障现象,形成模拟故障现象文本;
对所述模拟故障现象文本进行文本向量化处理,得到模拟故障现象向量;
确定所述模拟故障现象向量为所述无标签故障数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述数据库故障现象至少包括以下之一:
计算机资源满载、计算机节点断链、数据库节点断链、计算机调用延迟。
7.一种故障处理方法,包括:
获取待诊断的数据库故障现象;
将所述待诊断的数据库故障现象输入至故障诊断模型,得到所述待诊断的数据库故障现象对应的数据库故障原因,所述故障诊断模型通过如权利要求1至6任一项所述的故障数据获取方法获取的标签故障数据与无标签故障数据训练得到;
根据所述数据库故障原因,对所述数据库进行修复。
8.根据权利要求7所述的方法,其特征在于,所述故障诊断模型由以下步骤得到:
获取如权利要求1至6任一项所述的故障数据获取方法获取的标签故障数据和无标签故障数据;
将所述标签故障数据与所述无标签故障数据输入至选取的半监督学习模型,进行模型训练;
当所述半监督学习模型的误差值小于预设的误差值时,停止训练,获得所述故障诊断模型。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的故障数据获取方法,或如权利要求7至8任一项所述的故障处理方法。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如权利要求1至6任一项所述的故障数据获取方法,
或如权利要求7至8任一项所述的故障处理方法。
11.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如权利要求1至6任一项所述的故障数据获取方法,或如权利要求7至8任一项所述的故障处理方法。
CN202111644463.8A 2021-12-29 2021-12-29 故障数据获取方法、故障处理方法、电子设备及存储介质 Pending CN116414587A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111644463.8A CN116414587A (zh) 2021-12-29 2021-12-29 故障数据获取方法、故障处理方法、电子设备及存储介质
PCT/CN2022/139420 WO2023125059A1 (zh) 2021-12-29 2022-12-15 故障数据获取方法、故障处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111644463.8A CN116414587A (zh) 2021-12-29 2021-12-29 故障数据获取方法、故障处理方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116414587A true CN116414587A (zh) 2023-07-11

Family

ID=86997649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111644463.8A Pending CN116414587A (zh) 2021-12-29 2021-12-29 故障数据获取方法、故障处理方法、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN116414587A (zh)
WO (1) WO2023125059A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117873909B (zh) * 2024-03-13 2024-05-28 上海爱可生信息技术股份有限公司 故障诊断执行方法、故障诊断执行系统、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153603B (zh) * 2017-12-08 2019-03-19 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN108254678A (zh) * 2018-01-19 2018-07-06 成都航空职业技术学院 一种基于正弦余弦算法的模拟电路故障分类方法
US10969429B1 (en) * 2019-08-13 2021-04-06 Cadence Design Systems, Inc. System and method for debugging in concurrent fault simulation
CN111506598B (zh) * 2020-04-13 2021-10-15 中国科学院自动化研究所 基于小样本自学习故障迁移的故障判别方法、系统、装置
CN112799382A (zh) * 2021-04-01 2021-05-14 北京科技大学 一种机器人微机电系统故障诊断方法及系统

Also Published As

Publication number Publication date
WO2023125059A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN111427775B (zh) 一种基于Bert模型的方法层次缺陷定位方法
CN113391943B (zh) 一种基于因果推断的微服务故障根因定位方法及装置
CN111177416A (zh) 事件根因分析模型构建方法、事件根因分析方法及装置
CN110716539B (zh) 一种故障诊断分析方法和装置
US20230032058A1 (en) Ann-based program testing method, testing system and application
CN111026409A (zh) 一种自动监控方法、装置、终端设备及计算机存储介质
CN114692169B (zh) 应用大数据和ai分析的页面漏洞处理方法及页面服务系统
CN111930597B (zh) 基于迁移学习的日志异常检测方法
CN105868956A (zh) 一种数据处理方法及装置
CN111158964A (zh) 一种磁盘故障预测方法、系统、装置及存储介质
CN114968727B (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
WO2023125059A1 (zh) 故障数据获取方法、故障处理方法、电子设备及存储介质
CN116302829A (zh) 数据监控方法、装置、设备及存储介质
CN112115173A (zh) 自动驾驶数据处理跟踪方法、系统及车辆
CN109889258B (zh) 一种光网络故障校验方法和设备
CN110147313A (zh) 一种日志输出方法及装置
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN117236304A (zh) 一种基于模板配置的Excel通用导入的实现方法
CN115587017A (zh) 数据处理方法、装置、电子设备及存储介质
CN113986900A (zh) 数据质量问题分级处理方法、存储介质及系统
CN112561388A (zh) 一种基于物联网的信息处理方法、装置及设备
CN111061632B (zh) 用于报表数据的自动化测试方法和测试系统
WO2024012186A1 (zh) 根因定位方法、通信设备及计算机可读存储介质
CN112612882B (zh) 检阅报告生成方法、装置、设备和存储介质
CN114692382B (zh) 核电仿真模型开发数据的管理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication