CN113656323A - 一种自动化测试、定位及修复故障的方法及存储介质 - Google Patents

一种自动化测试、定位及修复故障的方法及存储介质 Download PDF

Info

Publication number
CN113656323A
CN113656323A CN202110994637.7A CN202110994637A CN113656323A CN 113656323 A CN113656323 A CN 113656323A CN 202110994637 A CN202110994637 A CN 202110994637A CN 113656323 A CN113656323 A CN 113656323A
Authority
CN
China
Prior art keywords
fault
information
repairing
faults
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110994637.7A
Other languages
English (en)
Inventor
颜靖华
邹新宇
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN202110994637.7A priority Critical patent/CN113656323A/zh
Publication of CN113656323A publication Critical patent/CN113656323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Abstract

本发明公开了一种自动化测试、定位及修复故障的方法及存储介质,本发明是基于量化后的日志数据进行推理分析确定故障所在,通过对故障进行正向验证来验证所推理出的故障的正确性,在验证所推理出的故障正确后,自动对故障进行修复,然后对修复后的故障所对应的功能进行检测,如果检测到未对故障进行成功修复,则根据故障修复情况继续对故障进行修复,从而实现快速且准确定位故障并自动修复故障,从而有效解决了现有不能快速定位和解决故障的问题。

Description

一种自动化测试、定位及修复故障的方法及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种自动化测试、定位及修复故障的方法及存储介质。
背景技术
现阶段的互联网公司,服务器规模都比较巨大,尤其是比较大的互联网企业单位,其服务器规模早早迈过百十万台量级,加之业务模式的多样性和IT架构的云化迁移,其IT运维团队面临的挑战与日俱增,常规的系统和经验都需要不断迭代更新。在这些互联网公司中,通常不同的层次都由不同的团队来负责运维管理,同层次不同的硬件/系统/应用都由不同的小组来负责运维管理。以IAAS为例,随着IT设备规模的不断增加,IT设备故障的告警种类与告警数量也随之急剧增加。告警的多面性、冗余性、耦合性,导致某些核心层面的故障会引起大面积告警的现象,而这些告警又有可能分属不同小组,运维人员处理故障会增加排查问题的难度以及增加小组间沟通成本。同时因为对故障信息缺乏统一的管理,无法对告警系统进行反馈优化,致使误报漏报频出。也即,现有无法进行全面的故障信息统计分析,从而不能及时定位和解决故障问题。
发明内容
本发明提供了一种自动化测试、定位及修复故障的方法及存储介质,以解决现有技术中不能快速定位和解决故障的问题。
第一方面,本发明提供了一种自动化测试、定位及修复故障的方法,该方法包括:对采集的待检测设备的日志数据进行预处理,并对预处理后的日志数据进行多维度分析,并将日志数据转换为相应的可量化的值;基于量化后的日志数据,由预设的推理树进行推理分析,以确定故障,并对所确定的故障进行修复;对修复后的故障所对应的功能进行检测,以确定故障修复是否成功,如果修复未成功,则进一步对该故障进行修复,直到故障修复成功。
可选地,所述对预处理后的日志数据进行多维度分析,包括:
对预处理后的日志数据进行横向和纵向两个维度的分析,将所述日志数据转换为横向和纵向的二维数据;
其中,横向维度分析是分析设备同期相同时间段采集到的历史数据信息,纵向维度分析是分析设备预设时间段内的历史信息。
可选地,所述将日志数据转换为相应的可量化的值,包括:将所述二维数据,通过预设算法、加载预设权重进行运算处理,以将所述日志数据转换为对应的量化的值。
可选地,所述推理树采用的是二叉决策树,且所述推理树满足以下原则:对信息分层处理,所述信息分层包括:设备级别、板卡级别以及端口级别,并对每层信息进一步分为原子信息和衍生信息。
可选地,对所述推理树内的不同信息和不同根源问题设有信息优级和根源问题优先级。
可选地,确定故障之后,对所确定的故障进行修复之前,所述方法还包括:
通过预设的验证脚本对推理分析出的故障进行正向验证,以验证所定位的故障是否正确;其中,所述验证脚本是与所被验证的推理结论中的故障相对应的,且每一个故障均有一个对应的验证脚本,每一个验证脚本对应一个或多个故障。
可选地,所述对修复后的故障所对应的功能进行检测,以确定故障修复是否成功,包括:
通过检测来对故障修复情况进行评估,如果检测通过则结束,如果检测未通过,则根据故障修复的情况继续对故障进行修复,其中,每一个故障均设有一个专门的故障处置脚本,以对该故障进行修复。
可选地,在将日志数据转换为相应的可量化的值的过程中、在推理分析故障过程中,以及对修复后的故障所对应的功能进行检测的过程中,均通过机器学习不断更新所述推理树,以提高所述推理树推理分析故障的准确性。
可选地,所述对采集的待检测设备的日志数据进行预处理,包括:
对采集的待检测设备的日志数据进行过筛及分类。
第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一种所述的自动化测试、定位及修复故障的方法。
本发明有益效果如下:
本发明是基于量化后的日志数据进行推理分析确定故障所在,通过对故障进行正向验证来验证所推理出的故障的正确性,在验证所推理出的故障正确后,自动对故障进行修复,然后对修复后的故障所对应的功能进行检测,如果检测到未对故障进行成功修复,则根据故障修复情况继续对故障进行修复,从而实现快速且准确定位故障并自动修复故障,从而有效解决了现有不能快速定位和解决故障的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种自动化测试、定位及修复故障的方法的流程示意图;
图2是本发明实施例提供的另一种自动化测试、定位及修复故障的方法的流程示意图;
图3是本发明实施例提供的再一种自动化测试、定位及修复故障的方法的流程示意图。
具体实施方式
本发明实施例针对现有无法快速且准确地定位系统故障的问题,通过基于量化后的日志数据进行推理分析确定故障所在,通过对故障进行正向验证来验证所推理出的故障的正确性,在验证所推理出的故障正确后,自动对故障进行修复,然后对修复后的故障所对应的功能进行检测,如果检测到未对故障进行成功修复,则根据故障修复情况继续对故障进行修复,从而实现准确定位故障并自动修复故障。并且本发明在推理故障、验证推理结论、修复故障以及对修复后的故障所对应的功能检测的整个过程中,都进行不断地学习,从而提升推理定位故障的准确性和故障修复的成功率。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明第一实施例提供了一种自动化测试、定位及修复故障的方法,参见图1,该方法包括:
S101、对采集的待检测设备的日志数据进行预处理,对预处理后的日志数据进行多维度分析,并将日志数据转换为相应的可量化的值;
具体来说,本发明实施例是对采集的待检测设备的日志数据进行过筛及分类,然后对预处理后的日志数据进行横向和纵向两个维度的分析,将所述日志数据转换为横向和纵向的二维数据,再将所述二维数据,通过预设算法、加载预设权重进行运算处理,以将所述日志数据转换为对应的量化的值。
其中,本发明实施例中的横向维度分析是分析设备同期相同时间段采集到的历史数据信息,纵向维度分析是分析设备预设时间段内的历史信息。
需要说明的是,本发明实施例所述的预处理、多维度分析也可以采用其他的方式进行,只要使得处理后的数据能够方便后续故障推理使用即可,本发明对此不作具体限定。
S102、基于量化后的日志数据,由预设的推理树进行推理分析,以确定故障,并对所确定的故障进行修复;
本发明实施例中所述的推理树采用的是二叉决策树,且所述推理树满足以下原则:对信息分层处理,所述信息分层包括:设备级别、板卡级别以及端口级别,并对每层信息进一步分为原子信息和衍生信息。
并且,在具体实施时,为了获得更好的推理结果,本发明还对所述推理树内的不同信息和不同根源问题设有信息优级和根源问题优先级。
在具体实施时,本发明实施例在确定故障之后,对所确定的故障进行修复之前,所述方法还包括:通过预设的验证脚本对推理分析出的故障进行正向验证,以验证所定位的故障是否正确;
其中,本发明实施例所述验证脚本是与所被验证的推理结论中的故障相对应的,且每一个故障均有一个对应的验证脚本,而每一个验证脚本则可能对应一个或多个故障。
S103、对修复后的故障所对应的功能进行检测,以确定故障修复是否成功,如果修复未成功,则进一步对该故障进行修复,直到故障修复成功。
也就是说,本发明实施例对故障修复后,还需要进一步对修复结果进行验证,如果验证修复故障后,该故障所对应的功能并没有完全恢复,则会根据修复情况进一步对其进行修复,直到故障修复完全成功,从而保证了故障的完全修复。
具体来说,本发明实施例是通过对采集的待检测设备的日志数据进行过筛并分类保存,再进行多维度分析将日志数据转换为相应的可量化的值,通过预设的推理树推理分析故障,然后对推理结论进行正向验证,以验证所定位的故障是否正确,其中,所述对推理结论进行正向验证包括:通过预设的验证脚本来对推理结论进行验证,具体该验证脚本是与所验证的推理结论中的故障相对应的,即每一个故障都有一个对应的验证脚本,而每一个验证脚本则可能被多个故障所共用;
在对推理结论进行正向验证通过后,自动对故障进行修复,并通过预设的检测脚本对修复后的故障所对应的功能进行检测,通过检测来对故障修复情况进行评估,如果检测通过则结束,如果检测未通过,则根据故障修复的情况继续对故障进行修复;其中,每一个故障现象都有一个专门的故障处置脚本与其相对应,以便于将所发现的故障都可以通过自动化处理脚本来实现自行修复,最终提升故障修复的成功率。
在具体实施时,本发明实施例在推理故障的过程、对推理结论验证的过程、对故障进行修复的过程以及对修复后的故障所对应的功能进行验证的过程中,都进行不断地学习,以提升推理定位故障的准确性和故障修复的成功率。
总体来说,本发明实施例是基于量化后的日志数据进行推理分析确定故障所在,通过对故障进行正向验证来验证所推理出的故障的正确性,在验证所推理出的故障正确后,自动对故障进行修复,然后对修复后的故障所对应的功能进行检测,如果检测到未对故障进行成功修复,则根据故障修复情况继续对故障进行修复,从而实现准确定位故障并自动修复故障。并且本发明在推理故障、验证推理结论、修复故障以及对修复后的故障所对应的功能检测的整个过程中,都进行不断地学习,从而提升推理定位故障的准确性和故障修复的成功率。
下面将结合图2和图3通过一个具体的例子来对本发明所述的方法进行详细的解释和说明:
具体实施时,本发明实施例可以通过一个智能运维系统来实现本发明所述方法,将该智能系统建立在已有的自动化运维系统上,将原本自动化运维的数据接入到智能运维系统,智能运维系统通过机器学习对日志信息进行分析推理,便于及早的发现问题以及提前预测可能出现的问题。整个分析和推理的过程需要结合智能分析系统核心的三大功能:“知识库”、“推理机”和“学习机”。
本发明实施例中的知识库本质上就是一个规则集,每一条规则都是平时运维工程师对应不同的故障现象积累的运维处置经验。知识库的全面与否将直接影响智能运维系统的问题处置能力。这需要相当大的运维经验以及相当细微的运维故障才能构建一个通用性更广、实用性更强的智能运维系统,整个规则体呈现的出来的方式是分类和回归树即“二叉决策树”。
具体来说,本发明实施例的推理机由相应的推理算法实现,整个推理算法需要满足以下几个原则:1)信息分层、2)每层信息需要分类分为原子信息和衍生信息。所谓的信息分层,以网络设备为例,则要有:①设备级别(如设备id标识、设备CPU信息等),②板卡级别(如板卡芯片故障、板卡常规故障等),③端口级别(如端口UP/DOWN状态、LINK-NEW等信息)。所谓的信息分类,以端口级别信息为例,端口up/down便属于原子类信息,而LINK-NEW便属于衍生类信息。且整个推理过程需要结合日志信息定义一套完备的处理优先级,整体符合如下原则“重要信息优先定位,根源问题优先处理”。
本发明实施例的学习机由一系列学习算法构成,学习机的功能就是不断的学习处理经验,从而实现快速定位问题的能力。该算法优先选用机器学习中的监督学习,整个监督学习过程需要建立在一个特定的数据集的基础上完成具体的学习功能。常见的监督学习式算法分为如下几种:“决策树”、“朴素贝叶斯分类”、“最小二乘法”、“逻辑回归”、“支持向量机”、“集成方法”,在实际开发系统中需要结合实际情况则需选用。
下面将结合图2和图3对本发明所述方法的各个步骤进行详细的解释和说明:
运维数据采集接入主要用于进行对服务器、网络节点等设备进行运行日志、错误日志、告警日志等信息收集,服务器范围涉及到所有Windows服务器、Unix/Linux服务器、虚拟化集群服务器、Docker服务器、类Unix相关系统的系统和设备,网络节点设备涉及到三层含三层以上的交换机设备、路由器、防火墙、IDS、IPS等连入到网络中的所有节点设备。收集的方式将根据设备不同而采取对应的收集方式,针对Windows服务器、Unix/Linux服务器则采用下载其运行日志、错误日志、告警日志等日志文件的方式完成信息收集,必要的特殊信息,则通过定制开发agent代理程序进行收集,虚拟化集群服务器、Docker服务器可以通过自身管理节点开放的API接口进行相关信息获取,网络节点设备如交换机或者路由器,则采用配置syslog的方式进行收集,至于需要采集交换机或路由器端口流速的,则仍旧采用自动化脚本的方式进行自动登录后进行采集获取,以便于采集所需要的信息。或者直接通过第三方监控平台引入采集数据,如ZABBIX等监控平台。
采集数据处理主要用于信息过筛,对数据消息进行精简化处理,且将处理后的日志消息进行归类以及永久化存储。所谓信息过筛指的是过滤掉无用的数据,比如将相关的描述信息去掉,仅保留所需数据以及相应数据的标识,以便于分类处理。且将最终分类后的数据进行永久化存储以及输出到数据信息量化。
数据信息量化主要用于接收数据处理传过来的数据信息,对数据进行多维度的分析,具体体现在两个维度上,分别是横向和纵向。横向指的是该设备同期该时间段采集到的历史数据信息。纵向值的是该设备短期内的历史信息。数据的组合方式参照编程语言中的二维数组。该也负责将该数据结合相应的算法进行加载相应的权重,并进行运算处理,最终输出量化的信息。该的特点就是可以将各种数据信息最终均转换成相应的可量化的值。
数据量化信息分析对应的功能是驱动推理机进行推理分析,该负责集中调度推理机、结论验证。
推理机对应的功能是通过上述过程获取到的数据信息结合该进行问题分析和故障推理。推理过程需要依赖一个推理树,该推理树需要提前设计好,内含有整个运维系统可能会出现的所有问题。该推理机也是智能运维系统的核心,推理树越大、越详细,那么对应的智能运维系统能够处理的问题就越广泛,能够将问题分析的更加彻底,故障现象定位的也将会更加明确。该推理树的涉及需要积累运维人员的运维经验,推理机负责整合以及学习运维经验,构成推理树,最终形成推理机。
结论验证就是负责验证推理机生成的推理结论,既是一个结合推理结论正向验证的过程。整个结论验证需要严格依赖验证脚本,验证脚本需要体检结合推理树设计好,推理树中每一个推理结论在这个都需要有一个验证脚本,即推理结论和验证脚本有一个明确的对应关系。整体需要符合的原则是每一个推理结论有一个对应的验证脚本,一个验证脚本可被多个推理结论所共用。该的输出将最终决定是否接续执行,若结合推理结论验证通过,则继续执行,由故障处置进行故障修复。若结合推理结论验证未通过,则停止继续运行,并把故障数据上报给运维管理人员,由运维人员根据故障数据结合实际情况手动进行处理。
故障处置负责的故障修复的功能。该依旧与推理机中的推理树节点有严格的对应关系。同时相对推理树和故障验证的对应关系而言,推理树和故障处置的耦合性更高,即每一个故障现象需要有一个专门的故障处置脚本相对应,以便于可以将发现的问题通过系统自动化处理脚本自行修复。
故障恢复验证是验证故障处置的修复情况,输出作为整个智能运维系统的反馈。该验证可能无法对全部故障的修复情况进行验证,具备的是通用故障现象的基本验证。同样的,该验证由一系列验证脚本实现。
学习机是学习从故障发现到故障处理的整个过程,通过对整个过程的数据信息记录,掌握数据信息的特征,对数据信息进行深度学习,从而进一步直接通过经验定位问题,省区推理机推理问题的过程。
图3提供一种基于自动化运维故障定位及处理的智能运维的方法,该方法包括:
步骤一:配置数据采集的方法,该方法对应运维数据采集接入,负责接入所有数据信息,通过rsyslog服务接收服务器以及网络节点的syslog日志信息,通过RESTAPI集中调用Zabbix等监控平台,获取相关节点数据,通过自动化工具如Ansible进行获取相应集群中各个节点的相关数据信息。
步骤二:配置数据分类以及永久化存储的方法,该方法对应系统的采集信息处理,主要通过开发语言中的正则方法,结合数据消息特点,进行消息过滤,保留有意义的信息,并对数据进行基本的格式化处理,同时,将处理后的数据进行永久化存储,存储的方式可以保存在文件中,或者保留在数据库中。例如保留到MogoDB数据库中。
步骤三:数据量化的方法,该方法对应系统的数据量化,负责对数据信息进行量化计算,将各种非量化信息和各种矢量信息,经过数据处理算法处理成一个有明确含义的可量化的标量信息。以便于将该标量信息在推理机中进行推理,生成推理结论。
步骤四:基于知识库的推理机方法或算法,对应系统的推理机,负责对数据量化信息进行故障推理,定位故障原因,依赖于一个完备的推理树,推理树的构建来源于运维经验的积累。
步骤五:配置结论验证的方法,该方法对应系统的结论验证,即调用一系列自动化验证脚本进行验证推理机推理出的结果,理论上该脚本与推理机有强耦合对应关系,即每一个推理结论都需要一个与之对应的验证脚本,脚本的输出值定义为布尔类型,逻辑真代表推理机推理的结论正确,逻辑假代表推理机推理的结论有误,必要时则根据实际情况修改为其它类型的输出,但本质上依旧保留输出值的含义能够表示推理机的推理结论的正确与否。
步骤六:配置结果处置和恢复验证的方法,该方法对应系统的故障处置和故障恢复验证,即调用一系列自动化脚本实现故障修复以及恢复验证。故障修复和恢复验证分别对应不同的脚本。故障修复的脚本和恢复验证的脚本对应的特点是,满足全部自动化处理问题的业务需要,将口令以及密码等通过参数的方式传入,或者将载有自动化处理脚本和验证脚本的服务器,与众多服务器建立免密连接,通过密钥进行运维操作,进一步增加运维便利性。
总体来说,本发明实施例通过对数据的分析,可以预期设备问题态势,通过预定义的问题解决脚本即故障恢复脚本或插件及早的将问题进行解决,以防止酿成更大的问题,整个过程理论上实现完全自动化,彻底不需要人员接入,便可以将基本的常见的问题进行自动解决。并且,本发明通过学习机的引入,主要是简化“量化信息分析”、“推理机”、“结论验证”这三个环节的处理过程,是数据信息量化到故障处置的直接过渡。理论上学习机将量化信息分析的输出数据和推理机输出的推理结论以及结论验证输出的验证情况进行数据信息高度抽象汇总,进行统计分析,将结论验证输出的结论正确性,分别拟合两类映射关系,统筹分析错误结论时的数据特点以及结论正确时的数据特点,将结论正确时的数据进行分析,建立回归模型,系统稳定运行的时间越长则回归模型会愈加完善,学习机便会根据后续新数据和回归模型的契合程度直接快速进行故障定位。
综上,本发明实施例所述的方法至少具有以下的有益效果:首先,本发明是将分析数据和推理结论以及验证情况进行数据信息高度抽象汇总,并进行统计分析,将结论验证输出的结论正确性拟合成两类映射关系,将结论正确时的数据进行分析,建立回归模型;其次,本发明通过学习机简化各的处理过程,可以将整个运维过程进行经验学习,以便进一步提升运维效率;再者,本发明可以根据后续新数据和回归模型的契合程度直接快速进行故障定位,由此,本发明实现了更加快速的问题预测和快速解决,区别于以往的自动化测试系统中针对异常问题的手动修复和人员机械性重复劳动,为工作人员提供极大的便利性,增加工作效率,进而大大提升了用户体验。
本发明第二实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现本发明第一实施例中任一种所述的自动化测试、定位及修复故障的方法。
本发明实施例的相关内容可参见本发明第一实施例进行理解,在此不做详细论述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种自动化测试、定位及修复故障的方法,其特征在于,包括:
对采集的待检测设备的日志数据进行预处理,对预处理后的日志数据进行多维度分析,并将日志数据转换为相应的可量化的值;
基于量化后的日志数据,由预设的推理树进行推理分析,以确定故障,并对所确定的故障进行修复;
对修复后的故障所对应的功能进行检测,以确定故障修复是否成功,如果修复未成功,则进一步对该故障进行修复,直到故障修复成功。
2.根据权利要求1所述的方法,其特征在于,所述对预处理后的日志数据进行多维度分析,包括:
对预处理后的日志数据进行横向和纵向两个维度的分析,将所述日志数据转换为横向和纵向的二维数据;
其中,横向维度分析是分析设备同期相同时间段采集到的历史数据信息,纵向维度分析是分析设备预设时间段内的历史信息。
3.根据权利要求2所述的方法,其特征在于,所述将日志数据转换为相应的可量化的值,包括:
将所述二维数据,通过预设算法、加载预设权重进行运算处理,以将所述日志数据转换为对应的量化的值。
4.根据权利要求1所述的方法,其特征在于,
所述推理树采用的是二叉决策树,且所述推理树满足以下原则:对信息分层处理,所述信息分层包括:设备级别、板卡级别以及端口级别,并对每层信息进一步分为原子信息和衍生信息。
5.根据权利要求4所述的方法,其特征在于,
对所述推理树内的不同信息和不同根源问题设有信息优级和根源问题优先级。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,在确定故障之后,对所确定的故障进行修复之前,所述方法还包括:
通过预设的验证脚本对推理分析出的故障进行正向验证,以验证所定位的故障是否正确;其中,所述验证脚本是与所被验证的推理结论中的故障相对应的,且每一个故障均有一个对应的验证脚本,每一个验证脚本对应一个或多个故障。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述对修复后的故障所对应的功能进行检测,以确定故障修复是否成功,包括:
通过检测来对故障修复情况进行评估,如果检测通过则结束,如果检测未通过,则根据故障修复的情况继续对故障进行修复,其中,每一个故障均设有一个专门的故障处置脚本,以对该故障进行修复。
8.根据权利要求1-5中任意一项所述的方法,其特征在于,
在将日志数据转换为相应的可量化的值的过程中、在推理分析故障过程中,以及对修复后的故障所对应的功能进行检测的过程中,均通过机器学习不断更新所述推理树,以提高所述推理树推理分析故障的准确性。
9.根据权利要求1-5中任意一项所述的方法,其特征在于,所述对采集的待检测设备的日志数据进行预处理,包括:
对采集的待检测设备的日志数据进行过筛及分类。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现权利要求1-9中任意一项所述的自动化测试、定位及修复故障的方法。
CN202110994637.7A 2021-08-27 2021-08-27 一种自动化测试、定位及修复故障的方法及存储介质 Pending CN113656323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110994637.7A CN113656323A (zh) 2021-08-27 2021-08-27 一种自动化测试、定位及修复故障的方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110994637.7A CN113656323A (zh) 2021-08-27 2021-08-27 一种自动化测试、定位及修复故障的方法及存储介质

Publications (1)

Publication Number Publication Date
CN113656323A true CN113656323A (zh) 2021-11-16

Family

ID=78493080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110994637.7A Pending CN113656323A (zh) 2021-08-27 2021-08-27 一种自动化测试、定位及修复故障的方法及存储介质

Country Status (1)

Country Link
CN (1) CN113656323A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116048865A (zh) * 2023-02-21 2023-05-02 海南电网有限责任公司信息通信分公司 一种自动化运维下故障消除核证自动化查证方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343236B1 (en) * 1999-04-02 2002-01-29 General Electric Company Method and system for analyzing fault log data for diagnostics
CN102231686A (zh) * 2011-06-24 2011-11-02 北京天融信科技有限公司 一种实现网络安全设备自动化测试的系统和方法
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111737035A (zh) * 2020-05-28 2020-10-02 苏州浪潮智能科技有限公司 一种基于服务器日志的故障诊断方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343236B1 (en) * 1999-04-02 2002-01-29 General Electric Company Method and system for analyzing fault log data for diagnostics
CN102231686A (zh) * 2011-06-24 2011-11-02 北京天融信科技有限公司 一种实现网络安全设备自动化测试的系统和方法
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111737035A (zh) * 2020-05-28 2020-10-02 苏州浪潮智能科技有限公司 一种基于服务器日志的故障诊断方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DE-QING ZOU 等: "UiLog: Improving Log-Based Fault Diagnosis by Log Analysis", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》, 9 September 2016 (2016-09-09), pages 1038 - 1052, XP036047934, DOI: 10.1007/s11390-016-1678-7 *
李瑞祥 等: "日志服务器网络故障的定位与排除", 《网络安全和信息化》, 5 February 2019 (2019-02-05), pages 147 - 151 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116048865A (zh) * 2023-02-21 2023-05-02 海南电网有限责任公司信息通信分公司 一种自动化运维下故障消除核证自动化查证方法

Similar Documents

Publication Publication Date Title
US10901727B2 (en) Monitoring code sensitivity to cause software build breaks during software project development
CN109800127A (zh) 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
CN110659173A (zh) 一种运维系统及方法
CN111817891A (zh) 网络故障处理方法、装置、存储介质及电子设备
CN113282635B (zh) 一种微服务系统故障根因定位方法及装置
CN113935497A (zh) 智能运维故障处理方法、装置、设备及其存储介质
JP2007516495A (ja) 適応基準モデルの作成及び使用のためのシステム及び方法
JP2007502467A (ja) 自動化されたコンピュータサポートのためのシステム及び方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN111859047A (zh) 一种故障解决方法及装置
CN114528175A (zh) 一种微服务应用系统根因定位方法、装置、介质及设备
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN115114064A (zh) 一种微服务故障分析方法、系统、设备及存储介质
CN113656323A (zh) 一种自动化测试、定位及修复故障的方法及存储介质
CN117056172B (zh) 一种用于系统集成中台的数据集成方法及系统
CN117596119A (zh) 一种基于snmp协议的设备数据采集与监控方法及系统
Jia et al. Machine deserves better logging: A log enhancement approach for automatic fault diagnosis
CN116882756B (zh) 基于区块链的电力安全管控方法
CN113093695A (zh) 一种数据驱动的sdn控制器故障诊断系统
CN117519951B (zh) 基于消息中台的实时数据处理方法及系统
CN113138875B (zh) 一种故障检测方法、终端以及计算机存储介质
CN117668677A (zh) 一种数据检测方法
CN117971337A (zh) 一种基于lstm模型的混合云自动配置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination