CN113935497A - 智能运维故障处理方法、装置、设备及其存储介质 - Google Patents

智能运维故障处理方法、装置、设备及其存储介质 Download PDF

Info

Publication number
CN113935497A
CN113935497A CN202010674492.8A CN202010674492A CN113935497A CN 113935497 A CN113935497 A CN 113935497A CN 202010674492 A CN202010674492 A CN 202010674492A CN 113935497 A CN113935497 A CN 113935497A
Authority
CN
China
Prior art keywords
fault
maintenance
node
matrix
directed graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010674492.8A
Other languages
English (en)
Inventor
任佳伟
刘楠
王洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202010674492.8A priority Critical patent/CN113935497A/zh
Publication of CN113935497A publication Critical patent/CN113935497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请公开了一种智能运维故障处理方法、装置、设备及其存储介质。该方法包括:获得异常运维数据;基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,故障节点集合包括多个故障节点;在故障节点集合中,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。根据本申请实施例的技术方案,将故障传播有向图转换成矩阵,利用矩阵的变化关系溯源查找故障源点,可以有效地提高运维故障定位的精准度。

Description

智能运维故障处理方法、装置、设备及其存储介质
技术领域
本申请一般涉及智能运维技术领域,尤其涉及智能运维故障处理方法、装置、设备及其存储介质。
背景技术
随着工厂信息化发展,智慧工厂将成为制造业发展的新阶段。在智慧工厂中各种软件和硬件系统的安全稳定运行是保障智慧工厂各个流程正常工作的重要因素。对于智慧工厂而言,任何停机都会产生巨大损失。
智慧工厂存在大量的自动化设备和工控系统、各种应用系统、以及应用程序等软件系统,如果采用传统的自动化运维方式,利用人与自动化工具相结合来查找运维故障点,难以满足智慧工厂高复杂性的运维需求。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种的智能运维故障处理方法、装置、设备及其存储介质方案,来解决的智慧工厂的智能运维问题。
第一方面,本申请实施例提供了一种智能运维故障处理方法,该方法包括:
获取异常运维数据;
基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,故障节点集合包括多个故障节点;
在故障节点集合中,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。
第二方面,本申请实施例提供了一种智能运维故障处理装置,该装置包括:
异常获取单元,用于获取异常运维数据;
故障有向图构建单元,用于基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
故障集合处理单元,用于对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,故障节点集合包括多个故障节点;
故障定位单元,用于在故障节点集合中,利用故障节点的当前状态与正常状态的关联度定位故障源。
第三方面,本申请实施例提供了一种计算设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于:
该计算机程序被处理器执行时实现如本申请实施例描述的方法。
本申请实施例提供的一种智能运维故障处理方法、装置、设备及其存储介质,该方法在获得异常运维数据之后,基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;然后再对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,故障节点集合包括多个故障节点;最后,在故障节点集合中,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。本申请通过将故障传播有向图转换成矩阵,利用矩阵的变化关系溯源查找故障源点,可以有效地提高运维故障定位的精准度,从而提高智能运维的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请实施例提供的智慧工厂运维场景示意图;
图2示出了本申请实施例提供的智能运维故障处理方法的流程示意图;
图3示出了本申请实施例提供的故障传播有向图的示意图;
图4示出了本申请实施例提供的智能运维故障处理方法的流程示意图;
图5示出了本申请实施例提供的多级递阶有向图的示意图;
图6示出了本申请实施例提供的智能运维故障处理装置的示例性结构框图;
图7示出了适于用来实现本申请实施例的电子设备的计算系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,图1示出了本申请实施例提供的智慧工厂运维场景示意图。在图1中,智慧工厂的运维基础架构包括现场设备、工控系统、工艺程序架构设计、操作系统、系统软件等,智慧工厂实现硬件设备、软件程序的无缝连接,让制造业工厂的数据信息自动传输,即时流通。
智慧工厂的运维基础架构中的多个现场设备,如图1所示,可以是按照工艺流程组件,多个现场设备的协同合作自动地完成产品流水线。例如,在操作车间内,可以自动地分配生产任务,从物料配送开始,根据预先配置的技术文件、物料、以及工装条件,自动识别是否可以执行生产,在产品生产过程中对半成品的状态进行监控,以检测产品质量,在经过一列工艺生产设备协作生产之后,再根据装配作业要求,对产品的部件进行装配。最后,自动地传输至质量检测平台,由质量检测平台对产品进行质量检测。在操作车间内,每个工序都会由相应的处理设备和处理软件来执行。这些处理设备和处理软件产生大量的基础运维数据或各类工业数据,可以被实时地采集,并上传至数据管理中心102。其中数据管理中心102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
现场操作人员可以利用现场操作终端对需要管控的现场设备进行控制。其中,现场设备、现场操作设备和现场设备、现场操作设备的操作系统、应用程序等产生不同的运维数据。例如,日志数据、工单数据以及管理数据等。这些现场设备、现场操作设备通过有线或无线通信方式直接或间接地传送运维数据至数据管理中心102。可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。
上述制造业智慧工厂的生产线是流水化管理,同一生产线上可能汇集多家不同的设备提供商提供的硬件设备、软件系统。这些不同的硬件设备和软件系统导致智慧工厂的运维管理环境复杂度高、数据庞杂。因此,如何利用智慧工厂的运维管理系统准确定位故障,成为亟待解决的问题。
本申请提出一种用于智慧工厂的智能运维故障处理方法来解决上述问题。本申请提出的智能运维故障处理方法可以由运维数据管理平台的硬件或软件,或者硬件与软件相结合的方式来执行。
请参考图2,图2示出了本申请实施例提供的智能运维故障处理方法的流程示意图。如图2所示,该方法包括:
步骤201,获取异常运维数据;
步骤202,基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
步骤203,对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,该故障节点集合包括多个故障节点;
步骤204,在故障节点集合中,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。
在上述步骤中,异常运维数据包括异常运维工单数据、异常运维日志数据、异常事件、以及其他异常基础管理数据。其中异常运维日志数据是指在程序运行过程中发生的异常事件,通常是由硬件问题或者程序设计问题所导致的。异常运维日志数据可以包括程序运行过程中发生异常的类型、发生位置及异常发生的时间等信息。例如,工单无物料消耗,但是有完工确认,则该工单被认为是异常工单。或者工单所有原材料消耗大于正常消耗的阈值,则会产生成本异常,则该工单被认为是异常工单。
获取异常运维数据可以通过预先训练的机器学习模型对不同的运维数据进行识别判断得到。预先训练的机器学习模型可以是基于对历史异常运维数据进行标注后,按照机器学习算法进行训练学习构建的。例如,针对异常运维日志数据可以通过对获取的实时日志数据进行异常检测和聚类分析得到异常运维日志数据。
运维知识图谱是指在制造业工厂的运维管理范围内,利用符号形式描述被管理运维对象之间的相互关系,所采用的结构化的语义知识库。例如,在制造业工厂的运维管理范围内的被管理运维对象可以包括硬件和软件。其中硬件包括工厂设备、传感器、机房、机群、机架、服务器、虚机、容器、硬盘、交换机、路由器等。软件包括操作系统、中间件、数据库、应用软件、应用实例、模块、服务、微服务、存储服务等。
关系是指用于表示实体对之间数据影响关系。其主要通过监控数据来表征,例如监控数据主要包括运维对象之间的系统调用数据、信号传递数据、指标数据、日志事件数据、进程状态变更数据等。
其中,运维知识图谱可以采用以下步骤来构建:
获取运维对象对应的历史运维数据;
基于历史运维数据抽取运维知识图谱的实体和实体对之间的关联关系,该关联关系用于表示实体对之间数据影响关系;
基于实体和关联关系生成的三元数组构建运维知识图谱。
在上述步骤中,工厂例如是制造业工厂、或者制造业的智慧工厂。工厂的运维对象是指在工厂的运维管理范围内被管理的运维对象。例如,可以是上述硬件设备、上述软件程序等。例如可以是车间系统的管理设备、管理系统、控制系统、现场设备等。其中车间系统对工单、质量操作日志等进行采集,控制系统则对生产过程中数据/环境/耗能等数据进行采集,现场设备则采集仪表读数、设备启动信号灯进行采集。
对于实体和关系的抽取,可以基于串联抽取方法或基于联合抽取方法。其中,串联抽取方法,例如可以基于运维数据、基础管理数据进行识别得到实体对象,然后采用聚类算法对识别出的实体对象进行聚类得到命名实体,作为与运维对象对应的实体。在得到离散的命名实体之后,利用预先构建实体关系分类模型对命名实体之间的关系进行抽取,得到命名实体之间的关系。例如,可以采用人工标记的运维数据作为训练集,按照自监督学习方法进行学习得到实体关系分类模型。然后,利用关系分类模型的输出结果训练朴素贝叶斯模型来识别实体对之间的关系,从而得到三元组。例如,(命名实体1,关系,命名实体2)。
联合抽取方法,例如可以采用端到端模型来抽取命名实体和关系,即在encoder-decoder框架下,利用不同的序列标注方式对被管理运维对象进行标注,得到初始序列+关系+目标序列的三元组。即命名实体可以基于序列标注得到。
故障传播有向图是指在上述构建的运维知识图谱中根据被管理运维对象之间的软硬件之间的连接关系、信号传递关系确定的故障传播关系。如图3所示,故障有向图S包括8个故障节点{V1,V2,V3,V4,V5,V6,V7,V8}。其中,如果故障节点V1出现故障,会影响故障节点V6;如果故障节点V2出现故障,或者故障节点V3出现故障,会影响故障节点V5;如果故障节点V7出现故障,则会影响故障节点V2和V1。如图3所示,故障传播有向图是根据故障节点之间的故障影响关系确定的。
又例如,在显示屏幕生产工厂中,假设显示屏幕的生产环节包括ITO图形的刻蚀、TOP膜的涂布到固化后清洗、涂取向剂到清洗完成、丝网印刷到固化等。在流程线生产过程中,每个工艺步骤可能需要对应的硬件设备和软件程序来支持相应的工艺步骤,相邻工艺步骤或者多个工艺步骤之间的故障,会呈现出一种故障传播关系。基于这种故障传播关系构建的有向图,即故障传播有向图。如图3所示,通过有方向的箭头指示故障节点之间的故障传播关系,即有向边表示故障之间的传播关联关系。有的故障传播关系可能是间接的,例如某个设备的数据经过中间设备传输到目标设备,对目标设备的指标造成影响,则某个设备的故障会影响目标设备的指标生成,但是对中间设备不会造成影响。
在确定故障传播有向图之后,将故障传播有向图转换成矩阵形式,得到邻接矩阵。邻接矩阵中每个元素的取值可以为1或者0,例如aij为1则表示第i个故障节点与第j个故障节点之间存在关系,aij为0则表示第i个故障节点与第j个故障节点之间没有关系或者相同。
然后,基于邻接矩阵计算故障节点之间可达矩阵。对可达矩阵进行层次化处理,来确定故障节点范围。
在确定故障节点范围之后,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。每个故障节点的当前状态可以利用故障节点对应的特征向量来表示的,其中特征向量可以是利用故障发生概率(O)、故障严重程度(S)和故障检测难易程度(D)来表示故障节点的故障属性。
然后,根据故障节点的当前状态与故障节点的正常状态进行关联度判断来溯源故障源点。其中,故障发生概率可以根据历史运维数据计算得到,故障严重程度和故障检测难易程度可以通过专家系统的评定结果来获取,或者根据历史日志数据搜索预先建立的故障属性等级表,来确定故障严重程度和故障检测难易程度对应的取值。
下面结合图4进一步地说明本申请提出的智能运维故障处理方法。请参考图4,图4示出了本申请实施例提供的智能运维故障处理方法的流程示意图。该方法包括:
步骤301,获取异常运维数据;
步骤302,基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
步骤303,根据故障传播有向图生成邻接矩阵;
步骤304,利用邻接矩阵计算故障传播有向图对应的可达矩阵;
步骤305,对可达矩阵进行层次化处理,得到故障节点范围;
步骤306,获取每个故障节点对应的特征向量;
步骤307,基于特征向量构造与故障节点集合对应的比较矩阵;
步骤308,计算比较矩阵与标准矩阵之间的关联度值;
步骤309,根据关联度值确定故障节点集合中的故障源点。
在上述步骤中,在获取大量的日志数据之后,结合用户行为数据筛选异常日志数据,并对这些异常日志数据按照聚类算法进行日志降噪处理,来缩小异常日志数据的聚合范围,然后基于异常日志数据和预先构建的运维知识图谱构建故障传播有向图。
在构建故障传播有向图之后,假设故障传播有向图中包含N个故障节点,每个故障节点与其它故障节点的传播关系,在故障传播有向图中通过有向边来表示。则根据故障传播有向图生成邻接矩阵,可以将故障传播有向图转换成邻接矩阵A,如下述式(1)所示:
Figure BDA0002583555780000081
其中,aij表示第i个故障节点与第j个故障节点之间是否有故障传播关系,其取值可以为1或者0。其中,aij为1表示第i个故障节点与第j个故障节点之间存在故障传播关系。aij为0表示第i个故障节点与第j个故障节点之间不存在故障传播关系。
然后,利用邻接矩阵A计算故障传播有向图对应的可达矩阵B。可达矩阵B可以是基于邻接矩阵A的布尔运算计算得到的矩阵。可达矩阵B中相邻多个元素的取值关系可以表示故障节点之间的可达传播关系。假设N的取值为8,故障传播有向图S包括8个故障节点{V1,V2,V3,V4,V5,V6,V7,V8}。其对应的邻接矩阵进行布尔运算得到可达矩阵B。如下述式(2)所示:
Figure BDA0002583555780000091
对可达矩阵B进行层次化处理,得到故障节点范围。根据可达矩阵的每个行向量所包含的存在故障传播关系的节点数量,对可达矩阵的行向量进行排序得到排序后的可达矩阵B′。例如,存在故障传播关系的节点数量可以是每个行向量所包含的1数量,按照从少到多顺序进行排序处理,得到排序后的可达矩阵B′,如下述式(3)所示:
Figure BDA0002583555780000092
基于排序处理后的可达矩阵B可以得到如图5所示的层次化处理结果,即多级递阶有向图。其中,故障节点V8在多级递阶有向图的第四层,即该故障节点会对其他三层的故障节点造成影响。第三层的故障节点V7和V3分别按照其对应的支路,对其他层的故障节点造成影响。根据溯源方式可以查找故障节点V8为故障源点。
本申请实施例提出的通过将故障传播有向图矩阵化和层次化来准确分析故障传播路径,进一步地利用灰色关联分析方法,在多级递阶有向图中进一步确定故障传播分支,其中故障传播分支中层级越高的位置为故障传播分支对应故障源点。本申请提出基于故障传播有向图矩阵化和层次化,在智慧工厂的复杂运维环境中,可以有效地降低数据处理量,并提高故障定位的精度。
在确定故障节点范围之后,其故障节点范围可以是按照层级结构排列的。对于每个故障节点,可以获取该故障节点的当前状态,当前状态利用故障节点对应的特征向量来表示。特征向量例如可以是故障节点产生故障的影响因素确定的。例如特征向量为[O,S,D]其中,O为故障发生概率,其可以根据历史日志数据统计计算得到,S为故障发生严重程度和D表示故障检测难易程度,这两个指标可以根据专家系统评定获取,或者根据历史日志数据进行分析评分来确定。
假设系统中存在上述N个故障节点范围,在N个故障节点范围内,对于每个故障节点对应的特征向量Xk=[Ok,Sk,Dk],k在[1,N]范围内取值。基于上述N个故障节点的处于当前状态的特征向量构建与故障节点集合对应的比较矩阵C,比较矩阵C如下述式(4)所示:
Figure BDA0002583555780000101
根据每个节点的正常状态按照影响故障产生的上述因素构建标准矩阵。该标准矩阵是指故障节点集合中每个故障节点处于正常状态所对应的特征向量构成的。例如,每个行向量用于表示每个节点的处于正常状态所对应的特征向量,每个特征向量[O,S,D]在正常状态时的取值可以可以采用0表示,即标准矩阵可以用全零矩阵来表示。
然后基于比较矩阵C和标准矩阵计算每个故障节点与其对应的标准状态之间的关联度值。例如可以按照如下述式(5)计算:
Figure BDA0002583555780000102
其中,γ表示故障分辨系数。其取值为[0,1]之间的值。优选地,该值为0.5。X0表示故障节点在正常状态时对应的取值;Xi表示第i个故障节点在比较矩阵中对应的取值。
然后根据下述式(6)计算Xi与X0之间的关联度
Figure BDA0002583555780000113
Figure BDA0002583555780000111
其中m为故障节点的影响因子对应的取值。例如,考虑特征向量所包含的故障影响因子为Xk=[Ok,Sk,Dk],则m的取值为3。
其中
Figure BDA0002583555780000112
L(b)表示在预先构建的运维知识图谱中根据专家经验设置的故障影响因子对应的权重系数。
根据上述公式,根据关联度值和故障影响因子对应的系数计算得到的关联程度,按照关联程度的升序排列,则可以确定故障源点。
在确定故障节点之后,结合层次化处理得到的多级递阶有向图,进行溯源得到故障起因树,从而确定故障源点。
本申请实施例中利用运维知识图谱确定故障传播有向图,再利用故障传播有向图作为分析基础,结合故障节点的特征向量,将故障节点当前状态与标准状态做比较来确定故障源点,其有效地提高了故障定位的精准度,提高了制造业工厂的智能运维管理的管理效率。
在上述实施例基础上,本申请实施例还可以针对故障源点和故障起因树中的故障节点提供相应的故障解决策略来解决故障问题。
可选地,在确定故障源点之后,该方法还包括:
确定故障源点在运维知识图谱中对应的实体名称;
利用所述实体名称查询运维知识图谱,得到与故障源点对应的故障解决策略标识;
按照故障解决策略标识搜索策略数据库,得到与故障解决策略标识对应的推荐内容。
例如,在确定故障起因树之后,可以求出故障起因树的结构函数,通过结构函数对故障起因树和运算法则,确定故障处理分支,针对故障处理分支所包含的节点,对每个故障节点进行故障维护。
例如,对于某个操作系统,若该操作系统为故障源点,则在运维知识图谱中获取该操作系统对应的实体名称。然后,根据实体名称查询运维知识图谱得到故障解决策略标识,该故障解决策略标识可以与故障类型对应设置,例如用户操作导致的该操作系统的故障,则与之对应的故障解决策略标识为RG001,或者,该操作系统由于系统程序bug导致的故障,与之对应的故障解决策略标识BUG002。
在获得故障源点对应的故障解决策略标识之后,根据故障解决策略标识搜索策略数据库,得到与故障解决策略标识对应的推荐内容。推荐内容可以是针对故障的解决方案。例如,推荐内容是根据故障解决策略标识搜索策略数据库得到的提示数据,该提示数据可以是文本提示数据,或者文本提示数据与语音提示数据相结合的内容。如提示用户查询用户操作手册的第几页第几项。或者在显示界面内显示用户操作手册,并语音提示按照用户操作手册第几页第几项的指导对设备进行操作。在本申请实施例中,针对用户操作导致的故障,可以根据实体名称查找到与操作系统对应的软件服务商提供的用户手册,并及时推送给用户来辅助用户克服故障。
或者,在获得故障源点对应的故障解决策略标识之后,根据故障解决策略标识搜索策略数据库,得到与故障解决策略标识对应的推荐内容,该推荐内容可以是预先存储的测试程序,通过调用测试程序对故障源点进行故障测试,来排查故障源点的错误原因,例如获取故障源点的端口地址,通过调用测试程序向故障源点的端口地址发送检测报文来自动检测端口的数据传输功能。
本申请实施例中通过确定故障源点,并查找与故障解决策略标识对应的推荐内容来快速解决故障问题,节省了解决故障耗费的时间,有效地提升了智能运维的管理效率。
在上述实施例基础上,本申请还可以将异常日志数据添加到历史日志数据集合,然后根据历史日志数据集合提出异常特征;再利用异常特征训练故障预测模型,该故障预测模型用于根据实时采集得到的日志数据预测故障发生的属性参数。例如,可以采用机器学习算法中的回归算法对各个节点构建特征提取模型,来提取异常日志数据的异常特征。然后,将异常特征和其他历史异常特征作为训练故障预测模型的训练数据集,按照机器学习算法训练得到故障预测模型。并在硬件设备或者系统正在运行过程中,根据设备或系统产生的当前日志数据预测设备或者系统出现故障的预测概率。在预测概率大于预设阈值时,提示故障风险。或者提示故障风险的同时推送故障解决策略。
本申请实施例,通过上述智能故障策略的推送和故障风险预测有效地提高了智能运维的处理效率。
应当注意,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
进一步参考图6,图6示出了本申请实施例提供的智能运维故障处理装置的示例性结构框图。该装置包括:
异常获取单元601,用于获取异常运维数据;
故障有向图构建单元602,用于基于异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
故障集合处理单元603,用于对故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,故障节点集合包括多个故障节点;
故障定位单元604,用于在故障节点集合中,利用故障节点的当前状态与正常状态的关联度定位故障源点
进一步地,该故障集合处理单元还包括:
邻接矩阵生成子单元,用于根据故障传播有向图图生成邻接矩阵;
可达矩阵生成子单元,用于根据邻接矩阵计算故障传播有向图对应的可达矩阵;
层次处理子单元,用于对可达矩阵进行层次化处理,得到故障节点范围。
层次处理子单元还用于:
根据可达矩阵的每个行向量所包含的存在故障传播关系的节点数量,对可达矩阵的行向量进行排序处理,得到排序后的可达矩阵;
根据排序后的可达矩阵构建多级递阶有向图,得到故障节点范围。
进一步地,故障节点的当前状态为特征向量,则故障定位单元还用于:
获取每个故障节点处于当前状态所对应的特征向量;
基于该特征向量构建与故障节点集合对应的比较矩阵;
计算比较矩阵与标准矩阵之间的关联度值,该标准矩阵是由每个故障节点处于正常状态所对应的特征向量构成的;
根据关联度值确定故障节点集合中的故障源点。
可选地,该装置还包括:故障策略查找单元,用于:
确定故障源点在运维知识图谱中对应的实体名称;
利用实体名称查询运维知识图谱,得到与故障源点对应的故障解决策略标识;
按照故障解决策略标识搜索策略数据库,得到与故障解决策略标识对应的推荐内容。
可选地,该装置还包括:故障预测单元,用于
将异常日志数据添加到历史日志数据集合;
根据历史日志数据集合提取异常特征;
利用异常特征训练故障预测模型,该故障预测模型用于根据实时运维数据预测故障发生的属性参数。
可选地,异常获取单元还用于:
获取实时运维数据;
对实时运维数据进行异常检测和聚类分析,得到异常运维数据。
应当理解,上述装置中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于上述装置及其中包含的单元,在此不再赘述。上述装置可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。上述装置的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
下面参考图7,其示出了适于用来实现本申请实施例的终端设备或服务器的计算系统的结构示意图。
如图7所示,计算系统包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图图2-3描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括异常获取单元、故障有向图构建单元、故障集合处理单元以及故障定位单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,异常获取单元还可以被描述为“用于获取异常运维数据的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的智能运维故障处理方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种智能运维故障处理方法,其特征在于,该方法包括:
获取异常运维数据;
基于所述异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
对所述故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,所述故障节点集合包括多个故障节点;
在所述故障节点集合中,利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点。
2.根据权利要求1所述的方法,其特征在于,所述对所述故障传播有向图进行矩阵化处理和层次化处理,得到故障节点范围包括:
根据所述故障传播有向图生成邻接矩阵;
根据所述邻接矩阵计算所述故障传播有向图对应的可达矩阵;
对所述可达矩阵进行层次化处理,得到故障节点范围。
3.根据权利要求2所述的方法,其特征在于,所述对所述可达矩阵进行层次化处理,得到故障节点范围,包括:
根据所述可达矩阵的每个行向量所包含的存在故障传播关系的节点数量,对所述可达矩阵的行向量进行排序处理,得到排序后的可达矩阵;
根据排序后的可达矩阵构建多级递阶有向图,得到故障节点范围。
4.根据权利要求1所述的方法,其特征在于,所述故障节点的当前状态是利用故障节点对应的特征向量来表示的,则所述利用每个故障节点的当前状态与每个故障节点对应的正常状态之间的关联度定位故障源点,包括:
获取每个所述故障节点处于当前状态所对应的特征向量;
基于所述特征向量构建与所述故障节点集合对应的比较矩阵;
计算所述比较矩阵与标准矩阵之间的关联度值,所述标准矩阵是由每个所述故障节点处于正常状态所对应的特征向量构成的;
根据所述关联度值确定所述故障节点集合中的故障源点。
5.根据权利要求1所述的方法,其特征在于,在确定故障源点之后,该方法还包括:
确定所述故障源点在所述运维知识图谱中对应的实体名称;
利用所述实体名称查询所述运维知识图谱,得到与所述故障源点对应的故障解决策略标识;
按照所述故障解决策略标识搜索策略数据库,得到与所述故障解决策略标识对应的推荐内容。
6.根据权利要求1所述的方法,其特征在于,在确定故障源点之后,该方法还包括:
将所述异常运维数据添加到历史运维数据集合;
根据所述历史运维数据集合提取异常特征;
利用所述异常特征训练故障预测模型,所述故障预测模型用于根据实时运维数据预测故障发生的属性参数。
7.根据权利要求1所述的方法,其特征在于,所述获取异常运维数据包括:
获取实时运维数据;
对所述实时运维数据进行异常检测和聚类分析,得到所述异常运维数据。
8.根据权利要求1所述的方法,其特征在于,所述预先构建运维知识图谱包括以下步骤:
获取运维对象对应的历史运维数据;
基于所述历史运维数据抽取运维知识图谱的实体和实体对之间的关联关系,所述关联关系用于表示实体对之间数据影响关系;
基于所述实体和所述关联关系生成的三元数组构建所述运维知识图谱。
9.一种智能运维故障处理装置,其特征在于,该装置包括:
异常获取单元,用于获取异常运维数据;
故障有向图构建单元,用于基于所述异常运维数据和预先构建的运维知识图谱构建故障传播有向图;
故障集合处理单元,用于对所述故障传播有向图进行矩阵化处理和层次化处理,得到故障节点集合,所述故障节点集合包括多个故障节点;
故障定位单元,用于在所述故障节点集合中,利用故障节点的当前状态与正常状态的关联度定位故障源点。
10.一种计算设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202010674492.8A 2020-07-14 2020-07-14 智能运维故障处理方法、装置、设备及其存储介质 Pending CN113935497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010674492.8A CN113935497A (zh) 2020-07-14 2020-07-14 智能运维故障处理方法、装置、设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010674492.8A CN113935497A (zh) 2020-07-14 2020-07-14 智能运维故障处理方法、装置、设备及其存储介质

Publications (1)

Publication Number Publication Date
CN113935497A true CN113935497A (zh) 2022-01-14

Family

ID=79273950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010674492.8A Pending CN113935497A (zh) 2020-07-14 2020-07-14 智能运维故障处理方法、装置、设备及其存储介质

Country Status (1)

Country Link
CN (1) CN113935497A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723059A (zh) * 2022-06-07 2022-07-08 达而观数据(成都)有限公司 基于知识推理的故障归因系统及方法
CN114781674A (zh) * 2022-06-16 2022-07-22 深圳市信润富联数字科技有限公司 风电设备故障的定位方法及装置、存储介质、电子设备
CN114969163A (zh) * 2022-07-21 2022-08-30 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN115421950A (zh) * 2022-08-25 2022-12-02 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115618273A (zh) * 2022-09-15 2023-01-17 哈尔滨工业大学 一种基于并行图卷积神经网络的铁路轨道状态评估方法及系统
CN115809869A (zh) * 2023-01-16 2023-03-17 南京捷修信息科技有限公司 一种基于云计算的维修流程管理与控制系统
CN115857461A (zh) * 2023-03-02 2023-03-28 东莞正大康地饲料有限公司 小猪预混合饲料生产在线监控方法及系统
CN116050807A (zh) * 2023-03-30 2023-05-02 东莞正大康地饲料有限公司 基于视频监控巡检的饲料生产设备缺陷识别方法及系统
CN116774569A (zh) * 2023-07-25 2023-09-19 博纯材料股份有限公司 基于人工智能的氧氩分离设备运行系统更新方法及系统
CN116842349A (zh) * 2023-08-31 2023-10-03 天津鑫宝龙电梯集团有限公司 一种智能故障识别方法、装置、设备和介质
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统
CN117349126A (zh) * 2023-12-05 2024-01-05 国网辽宁省电力有限公司大连供电公司 一种基于大数据的实时信息网络日志分析方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723059A (zh) * 2022-06-07 2022-07-08 达而观数据(成都)有限公司 基于知识推理的故障归因系统及方法
CN114781674A (zh) * 2022-06-16 2022-07-22 深圳市信润富联数字科技有限公司 风电设备故障的定位方法及装置、存储介质、电子设备
CN114969163A (zh) * 2022-07-21 2022-08-30 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN114969163B (zh) * 2022-07-21 2022-12-09 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN115421950B (zh) * 2022-08-25 2024-01-23 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115421950A (zh) * 2022-08-25 2022-12-02 广东博成网络科技有限公司 一种基于机器学习的自动化系统运维管理方法及系统
CN115618273A (zh) * 2022-09-15 2023-01-17 哈尔滨工业大学 一种基于并行图卷积神经网络的铁路轨道状态评估方法及系统
CN115618273B (zh) * 2022-09-15 2023-06-30 哈尔滨工业大学 一种基于并行图卷积神经网络的铁路轨道状态评估方法及系统
CN115809869A (zh) * 2023-01-16 2023-03-17 南京捷修信息科技有限公司 一种基于云计算的维修流程管理与控制系统
CN115857461A (zh) * 2023-03-02 2023-03-28 东莞正大康地饲料有限公司 小猪预混合饲料生产在线监控方法及系统
CN116050807A (zh) * 2023-03-30 2023-05-02 东莞正大康地饲料有限公司 基于视频监控巡检的饲料生产设备缺陷识别方法及系统
CN116774569A (zh) * 2023-07-25 2023-09-19 博纯材料股份有限公司 基于人工智能的氧氩分离设备运行系统更新方法及系统
CN116774569B (zh) * 2023-07-25 2024-04-05 博纯材料股份有限公司 基于人工智能的氧氩分离设备运行系统更新方法及系统
CN116842349A (zh) * 2023-08-31 2023-10-03 天津鑫宝龙电梯集团有限公司 一种智能故障识别方法、装置、设备和介质
CN116842349B (zh) * 2023-08-31 2023-11-21 天津鑫宝龙电梯集团有限公司 一种智能故障识别方法、装置、设备和介质
CN117094688A (zh) * 2023-10-20 2023-11-21 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统
CN117094688B (zh) * 2023-10-20 2023-12-19 国网信通亿力科技有限责任公司 一种供电所数字化管控方法及系统
CN117349126A (zh) * 2023-12-05 2024-01-05 国网辽宁省电力有限公司大连供电公司 一种基于大数据的实时信息网络日志分析方法及系统
CN117349126B (zh) * 2023-12-05 2024-02-09 国网辽宁省电力有限公司大连供电公司 一种基于大数据的实时信息网络日志分析方法及系统

Similar Documents

Publication Publication Date Title
CN113935497A (zh) 智能运维故障处理方法、装置、设备及其存储介质
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
CN107391369B (zh) 一种基于数据筛选和数据过采样的跨项目缺陷预测方法
CN110659173A (zh) 一种运维系统及方法
US11409962B2 (en) System and method for automated insight curation and alerting
EP3183622B1 (en) Population-based learning with deep belief networks
CN110532152A (zh) 一种基于Kapacitor计算引擎的监控告警处理方法及系统
EP3885854B1 (en) Data analysis method, device and system
CN113516174B (zh) 调用链异常检测方法、计算机设备以及可读存储介质
CN112148733A (zh) 确定故障类型的方法、装置、电子装置和计算机可读介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN116467674A (zh) 一种配电网智能故障处理融合更新系统及其方法
Lyu et al. A data-driven approach for identifying possible manufacturing processes and production parameters that cause product defects: A thin-film filter company case study
CN113313280A (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN115421950A (zh) 一种基于机器学习的自动化系统运维管理方法及系统
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN113918438A (zh) 服务器异常的检测方法、装置、服务器及存储介质
CN111708654A (zh) 一种虚拟机故障修复的方法和设备
CN115169426B (zh) 一种基于相似性学习融合模型的异常检测方法及系统
CN108023740A (zh) 监控中异常信息的风险提示方法和装置
CN115996169A (zh) 一种网络故障分析方法、装置、电子设备及存储介质
Costa et al. GoAT: A Sensor Ranking Approach for IoT Environments.
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination