CN113312197A - 批量故障的确定方法和装置,计算机存储介质和电子设备 - Google Patents

批量故障的确定方法和装置,计算机存储介质和电子设备 Download PDF

Info

Publication number
CN113312197A
CN113312197A CN202010121380.XA CN202010121380A CN113312197A CN 113312197 A CN113312197 A CN 113312197A CN 202010121380 A CN202010121380 A CN 202010121380A CN 113312197 A CN113312197 A CN 113312197A
Authority
CN
China
Prior art keywords
fault
batch
data set
information
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010121380.XA
Other languages
English (en)
Inventor
陈立波
刘毅
邵伯仲
于林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010121380.XA priority Critical patent/CN113312197A/zh
Publication of CN113312197A publication Critical patent/CN113312197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种批量故障的确定方法和装置,监控方法和装置,故障预警系统以及计算机存储介质和电子设备,其中确定方法包括:获取单体故障信息以及用于描述数据中心服务设备的配置信息;根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合,从而降低批量故障定位的复杂度。

Description

批量故障的确定方法和装置,计算机存储介质和电子设备
技术领域
本申请涉及计算机技术领域,具体涉及一种批量故障的确定方法和装置,本申请同时涉及一种批量故障预警系统,计算机存储介质和电子设备。
背景技术
随着云计算和大数据的发展,数据中心的规模越来越庞大,大量服务器被采购和部署使用。为实现大数据的处理会存在大量应用,大量服务器,以及大量的部件,而在数据中心运行过程中存在发生故障的可能性,目前发生的故障形式可以包括单体故障和批量故障。
所谓单体故障是指数据中心中某一独立的应用、独立的服务器或独立的部件等发生的故障,单体故障均可以通过容错技术实现屏蔽。
所谓批量故障是指大范围服务设备或软件应用等发生的故障。例如,同一时间内或同一供应商提供的设备内的大量应用,大量服务器,大量部件中任意一种或多种发生的故障,而且很多故障是在特定业务、特定机房、特定厂家发生,所以故障发生定位变得异常复杂,在故障发生的复杂场景下,简单软件容错技术无法实现对故障的处理。
发明内容
本申请提供一种批量故障的确定方法,以解决现有技术中批量故障定位复杂性的问题。
本申请提供一种批量故障的确定方法,包括:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
在一些实施例中,所述获取单体故障信息,包括:
获取数据中心监测到的单独实体的单体故障信息。
在一些实施例中,还包括:
对所述单体故障信息进行格式化操作,获得单体故障工单;
所述获取用于描述数据中心服务设备的配置信息,包括:
根据所述单体故障工单,获取配置管理数据库中用于描述数据中心服务设备的配置信息,所述配置管理数据库中存储有描述网络环境中实体的配置信息。
在一些实施例中,所述根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合,包括:
根据所述配置信息中的配置项,确定配置维度;
根据所述配置维度和所述单体故障信息,构建所述单体故障维度数据集合。
在一些实施例中,还包括:
根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合;
所述根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合,包括:
根据所述候选故障维度数据集合和设定的批量故障判断条件,确定所述候选故障维度数据集合是否为批量故障的数据集合。
在一些实施例中,所述根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合,包括:
对所述单体故障维度数据集合进行频繁项集挖掘;
将所述频繁项集范围中出现频率满足出现频率要求的频繁项集,确定为候选故障维度数据集合。
在一些实施例中,所述根据所述候选故障维度数据集合和设置的批量故障判断条件,确定所述候选故障维度数据集合是否为批量故障的数据集合,包括:
计算所述候选故障维度数据集合内对应的故障率;
将所述故障率与设置的故障率基线值进行比较,若所述故障率大于或等于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合存在批量故障。
在一些实施例中,还包括:
当所述故障率与所述故障率基线值进行比较,若所述故障率小于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合不存在批量故障。
在一些实施例中,还包括:
当确定所述候选故障维度数据集合为批量故障的数据集合时,发出批量故障告警。
在一些实施例中,还包括:
对确定的批量故障的数据集合进行误判检测。
在一些实施例中,所述对确定的批量故障的数据集合进行误判检测,包括:
拉取网络环境中的黑盒日志;
根据所述黑盒日志中的数据,检测确定的批量故障的数据集合是否存在误判。
本申请还提供一种批量故障的确定装置,包括:
获取单元,用于获取单体故障信息以及用于描述数据中心服务设备的配置信息;
扩展单元,用于根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
确定单元,用于根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
本申请还提供一种批量故障的监控方法,包括:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
在一些实施例中,所述通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息,包括:
通过所述监控服务管理中心对所述监测模块的配置,在所述数据中心部署配置完毕的用于采集所述单体故障信息的所述监测模块。
在一些实施例中,所述通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息,包括:
在所述数据中心的服务器上部署,用于采集所述数据中心单体故障信息的所述监测模块。
本申请还提供一种批量故障的监控装置,包括:
采集单元,用于通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
发送单元,用于将采集的所述单体故障信息发送至监控服务管理中心。
本申请还提供一种故障预警系统,包括:数据中心和监控服务管理中心;其中,所述数据中心用于采集单体故障信息;所述监控服务管理中心用于根据获取的所述单体故障信息和获取的用于描述数据中心服务设备的配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;根据单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
在一些实施例中,所述故障预警系统包括:在所述数据中心的服务器部署监测模块,监测所述数据中心中的单体故障信息。
在一些实施例中,所述故障预警系统包括:所述监控服务管理中心根据确定的批量故障的数据集合发出批量故障告警。
本申请还提供一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
与现有技术相比,本申请具有以下优点:
本申请提供的一种批量故障的确定方法,能够通过获取的用于描述数据中心服务设备的配置信息,对获取的单体故障进行配置维度扩展,获得单体故障维度数据集合,再根据单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。可见,本申请将单体故障信息按照描述数据中心服务设备的配置信息进行维度展开,获得扩展后的单体故障维度数据集合,然后根据所述单体故障维度数据集合和设定的批量故障判断条件,找出在单体故障维度数据集合中存在故障的热点数据集合,该些热点数据集合即为批量故障的数据集合,从而降低批量故障定位的复杂度。
另外,本申请实施例中还通过对确定的批量故障的数据集合进行检测,避免对批量故障发生误判的可能性,降低处理批量故障存在的风险。
附图说明
图1是本申请提供的一种批量故障的确定方法实施例的流程图;
图2是本申请提供的一种批量故障的确定装置实施例的结构示意图;
图3是本申请提供的一种故障预警系统实施例的系统架构示意图;
图4是本申请提供的一种批量故障的监控方法实施例的流程图;
图5是本申请提供的一种批量故障的监控装置实施例的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。
基于上述背景技术的说明,结合本申请提供的批量故障的确定方法的具体应用场景对现有技术进一步展开说明。目前海量数据的处理可以通过数据中心完成,故此,本申请实施例的应用场景可以以数据中心为应用环境,当然,并不限于数据中心这一场景,在针对海量数据进行数据处理的环境均为实现本申请的技术目的。数据中心需要全天候的运行,难免会发生故障,如何迅速找到故障原因并消除故障是数据中心运维效率的最直接体现。数据中心一旦发生故障,将给数据中心带来巨大的经济损失。然而,数据中心在面对海量数据时,由于海量数据所处的环境具有一定复杂性,因此,在面对海量数据处理时,一旦大范围的发生故障,由于故障发生的复杂性,所以导致在短时内找到故障发生的原因较为困难。故此,保证数据中心的正常运行务必需要对大范围发生的故障(即:批量故障)具有一定预知,即先发现后处理。而目前的现有技术对批量故障的定位并没有有效的措施,仅仅是在小范围内发生故障时,进行故障处理,比如:当发生的故障设备大于设定的阈值时,则进行故障的告警。而在大范围出现故障时,由于故障发生的环境复杂,所以导致监测无力应对复杂场景下故障的定位。出于此目的,本申请提供一种批量故障的确定方法,其能够在海量数据的复杂场景下,对批量故障进行定位,从而提前告警,避免由于批量问题的爆发而导致海量数据处理场景无法应对,使得数据处理出于瘫痪。
下面将对本申请提供的一种批量故障的确定方法进行详细介绍,请参考图1所示,图1是本申请提供的一种批量故障的确定方法实施例的流程图。
如图1所示,本申请实施例提供的批量故障的确定方法包括:
步骤S101:获取单体故障信息以及用于描述数据中心服务设备的配置信息。
首先对所述步骤S101中的名词进行解释,其中,在本实施例中,单体故障可以理解为独立硬件设备或部件或独立的软件应用产品发生的故障,例如:CPU发生的故障,存储器发生的故障等。所述单体故障信息为描述独立硬件设备或独立的软件应用产品发生的故障信息,例如:**部件无法访问。
在本实施例中,用于描述数据中心服务设备的配置信息可以通过配置管理数据库(CMDB:Configuration Management Data Base)获取,所述配置管理数据库其可以理解为存储与管理IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。配置管理数据库中包括实体,以及针对实体的配置信息,其中,实体可以理解为配置项。所述实体可以包括硬件设备,例如:网路设备、存储设备、安全设备、机房设备、网络端口等等,以及设备的子配置项等,即配置项可以是层级设置。配置信息可以理解为配置项的属性信息,例如:配置信息可以是设备名称、序列号、型号、产品线、应用分组、生产编号、容量、接口速率等等。
所述步骤S101在获取单体故障信息以及配置管理数据库中的数据的具体实现过程中,获取的先后顺序没有具体限定,可以先获取单体故障信息,再获取配置管理数据库中的数据;也可以先获取配置管理数据库中的数据,再获取单体故障信息;也可以分别获取单体故障信息和配置管理数据库中的数据。
在申请实施例中,所述获取单体故障信息具体可以是获取数据中心监测到的单独实体的单体故障信息。
所述数据中心可以理解为全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。本实施例中,单体故障信息通过数据中心对单独实体的监控获得。可以理解,数据中心包括大量的实体,因此监控的单体故障信息可以来自多个实体。
为了便于计算机对监测到的数据进行处理,因此,对获取数据中监测到的单独实体的单体故障信息进行格式化操作,获得单体故障工单。所述单体故障工单用于描述单体故障的格式化信息。
本实施例中,在获取配置管理数据库中的数据时,可以根据所单体故障工单,获取所述配置管理数据库中的数据,具体获取的方式可以通过数据中心与配置管理数据库之间的接口(API)完成获取。
在配置管理数据库中可以获知实体的配置信息,配置管理数据库中通常包括数据服务过程中涉及到的所有实体,进而能够获知每个实体的配置信息。因此,可以通过配置管理数据库中的配置信息,获知针对海量数据处理的数据中心中的实体信息,进而,可以获知数据中心中所有单体故障具体信息。
步骤S102:根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合。
所述步骤S102的目的在于,将获得的单体故障信息进行高维度的展开,以更全面的获知单体故障信息所涉及的具体故障内容。
因此,所述步骤S102的具体实现过程可以包括:
步骤S102-1:根据所述配置信息中的配置项,确定配置维度;
步骤S102-2:根据所述配置维度和所述单体故障信息,构建单体故障维度数据集合。
基于步骤S101可以知道,配置信息是针对实体(配置项)的属性描述,因此,配置维度可以包括至少如下一种维度:
实体型号,实体产品线,实体的应用分组,实体的固件版本,实体的部件型号,实体的生产编号,实体的序列号,实体的接口速率,实体的容量。
所述步骤S102-2的目的在于,在配置维度上展开单体故障信息,从而构建针对所述单体故障信息的单体故障维度数据集合。为了形象的理解,可以参考下述举例:
单体故障信息可以是存储设备存储数据失败,网络设备访问失败等,格式化后可以是存储设备,存储故障;网络设备,访问故障。根据单体故障信息以及配置管理数据库中的数据,构建的单体故障维度数据集合可以包括存储设备和网络设备在实体型号维度,实体产品线维度,实体的应用分组维度,实体的固件版本维度,实体的部件型号维度,实体的生产编号维度,实体的序列号维度,实体的接口速率维度,实体的容量维度等维度的相关信息,也就是说,根据单体故障信息可以构建出针对多个故障信息的多维度的数据集合。
需要说明的是,在本实施例中,获取的单体故障信息可以实时的,也可以是周期性的获取,数据中心的服务器获取单体故障信息,数据中心的服务器通常情况下会包括多个,因此,每个服务器获取其监测到的单体故障信息。具体数据中心怎样获取单体故障信息在后续的故障预警系统中会具体说明。
步骤S103:根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
所述步骤S103的目的在于,在构建出单体维度数据集合中找出发生批量故障的数据集合。
所述步骤S103的具体实现过程可以包括:
计算单体故障维度数据集合中对应的故障率;将该故障率与设定的故障率基线值比较,根据比较结果确定单体故障维度数据集合中发生批量故障的数据集合,具体发生批量故障的数据集合的确定在下述会详细描述。
为了缩小确定批量故障的范围,本申请实施例中还可以包括:
步骤S10+1:根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合。
所述步骤S10+1的目的在与,对单体故障维度数据集合之间的关联关系进行分析,筛选出候选故障维度数据集合,以缩小确定批量故障的数据集合范围,具体实现过程可以包括:
步骤S10+11:对所述单体故障维度数据集合进行频繁项集挖掘;
步骤S10+12:将所述频繁项集范围中出现频率满足出现频率要求的频繁项集,确定为候选故障维度数据集合。
所述频繁项集中的项集是若干个项的集合,例如本实施例中配置维度的集合可以看做是项集,针对该些项集中找出支持度大于等于最小支持度(min_sup)的集合。其中,支持度是指某个集合在所有事务中出现的频率。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。
频繁项集的挖掘可以采用apriori,FP-growth,FP-Tree等算法。采用FP-growth算法为例进行概述:
步骤a:扫描单体故障维度数据集合,对故障维度进行统计,统计故障维度的次数。
步骤b:根据需求设定最小支持度,例如:最小支持度为2。
步骤c:对步骤a中的统计数据进行排序,可以采用降序方式,对统计后的单体故障维度数据集合进行排序,如果故障维度出现的次数小于2则删除。
步骤d:基于步骤3构建FP树,在基于构建的FP树进行频繁项集的挖掘。
上述内容仅为以FP-growth算法进行频繁项集挖掘的概述。
最后可以将剔除出现次数小于2之后的数据集,确定为候选故障维度数据集合。
基于上述内容可以获知,所述出现频率要求可以是故障出现的次数要求,例如上述的支持度2,当然还可以根据实际情况设置支持度的数值。当统计的故障维度数据小于支持度的数值,则抛出该故障维度,也就是该故障维度可以忽略发生批量故障的可能性。
由此可见,对单体故障维度数据集合之间的关联分析可以通过采用频繁项集挖掘的方式,从而缩小对批量故障定位的范围,即剔除掉发生批量故障概率较小的故障维度信息,使得不论是在降低定位的复杂度上还是在提高定位处理速度上都均有显著的改善。
基于上述候选故障维度数据集合,所述步骤S103的具体实现过程还可以是:
步骤S301-1:计算所述候选故障维度数据集合下对应的故障率;
步骤S301-2:将所述故障率与设置的故障率基线值进行比较,若所述故障率大于或等于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合存在批量故障。
本实施例中,所述故障率可以通过所述候选故障维度数据集合的故障数量与满足候选故障维度数据集合的设备数量的比值。
所述故障率基线值可以是根据行业标准及运营经验,设置的一个基准值。当然也可以是一个根据实际需求设定的门槛值。
当然,在判断时可以设置范围,例如:当计算出的候选故障维度数据集合的故障率大于故障率基线值的N倍时,则确定所述故障率对应的候选故障维度数据集合存在批量故障。其中,N倍可以根据实际需求进行调整,N的具体数值可以确定批量故障的情况来确定。
还包括:
当所述故障率与所述故障率基线值进行比较,若所述故障率小于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合不存在批量故障。
本实施例中,还包括:
当确定所述候选故障维度数据集合为批量故障的数据集合时,发出批量故障告警,以便能够针对发现的批量故障进行预警。
可以理解的是,当确定出批量故障的数据集合后,可能存在误判,因此,本实施例中还可以包括:
对确定的批量故障的数据集合进行误判检测,具体可以是通过拉取网络环境的黑盒日志,根据所述黑盒日志中的数据,检测确定的批量故障的数据集合是否存在误判。例如:基于固件内核数据进行误判的确定,即黑盒日志可以是固件的内核数据,当然也可以是其他数据内容。
以上是本申请提供的一种批量故障的确定方法实施例的描述过程,可见,本实施例通过对获取的单体故障信息进行高维度的展开,获得在多个维度下的单体故障维度数据集合,再通过对单体故障维度数据集合之间的关联分析,筛选出候选故障维度数据集合,再在候选故障维度数据集合内确定出批量故障的热点维度,从而缩小确定批量故障的范围,并通过利用数据中心强大的计算能力将批量问题定位的复杂度大幅降低。
以上是对本申请提供的一种批量故障的确定方法实施例的具体描述,与前述提供的一种批量故障的确定方法实施例相对应,本申请还公开一种批量故障的确定装置实施例,请参看图2,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图2所示,图2是本申请提供的一种批量故障的确定装置实施例的结构示意图。该装置包括:
获取单元201,用于获取单体故障信息以及用于描述数据中心服务设备的配置信息;
所述获取单元201具体用于获取数据中心监测到的单独实体的单体故障信息;以及通过配置管理数据库(CMDB:Configuration Management Data Base)获取,所述配置管理数据库其可以理解为存储与管理IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。配置管理数据库中包括实体,以及针对实体的配置信息,其中,实体可以理解为配置项。所述实体可以包括硬件设备,例如:网路设备、存储设备、安全设备、机房设备、网络端口等等,以及设备的子配置项等,即配置项可以是层级设置。配置信息可以理解为配置项的属性信息,例如:配置信息可以是设备名称、序列号、型号、产品线、应用分组、生产编号、容量、接口速率等等。具体可以参考上述步骤S101的具体描述,此处不再重复赘述。
还包括:格式化单元,用于对所述单体故障信息进行格式化操作,获得单体故障工单。
所述获取单元201在获取配置管理数据库中的数据时,具体可以是根据所述单体故障工单,获取所述配置管理数据库中的数据。
扩展单元202,用于根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
所述扩展单元202具体包括:配置维度确定子单元和构建子单元;
所述配置维度确定子单元,用于根据所述配置信息中的配置项,确定配置维度。
所述构建子单元,用于根据所述配置维度和所述单体故障信息,构建所述单体故障维度数据集合。
确定单元203,用于根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
还包括:分析单元,具体用于根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合。
所述分析单元包括:挖掘子单元和确定子单元;
所述挖掘子单元用于对所述单体故障维度数据集合进行频繁项集挖掘;
所述确定子单元用于将所述频繁项集范围中出现频率满足出现频率要求的频繁项集,确定为候选故障维度数据集合。
所述确定单元203具体用于根据所述候选故障维度数据集合和设定的批量故障判断条件,确定所述候选故障维度数据集合是否为批量故障的数据集合。
所述确定单元203包括:计算子单元和比较子单元;
所述计算子单元,用于计算所述候选故障维度数据集合内对应的故障率;
所述比较子单元,用于将所述故障率与设置的故障率基线值进行比较,若所述故障率大于或等于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合存在批量故障。
所述比较子单元还具体用于当所述故障率与所述故障率基线值进行比较,若所述故障率小于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合不存在批量故障。
该装置实施例还包括:
告警单元,用于当确定所述候选故障维度数据集合为批量故障的数据集合时,发出批量故障告警。
该装置实施例还包括:
检测单元,用于对所述确定单元203中确定的批量故障的数据集合进行误判检测。
所述检测单元可以包括:拉取子单元和检测子单元;
所述拉取子单元用于拉取网络环境中的黑盒日志;
所述检测子单元用于根据所述黑盒日志中的数据,检测确定的批量故障的数据集合是否存在误判。
以上是对本申请提供的一种批量故障的确定装置实施例的概要描述,具体过程可以参考批量故障的确定方法实施例的描述,此处不再赘述。
基于上述内容,本申请还提供一种故障预警系统,请参考图3所示,图3是本申请提供的一种故障预警系统实施例的系统架构示意图。该系统包括:
数据中心301和监控服务管理中心302;其中,所述数据中心301用于采集单体故障信息;所述监控服务管理中心302用于根据获取的所述单体故障信息和获取的配置管理数据库中的数据,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;根据单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
在本实施例中,数据中心301采集单体故障信息可以是通过在数据中心的服务器上部署故障监测模块,监测模块采用agent技术实现对单体故障的监控。所述监控该服务管理中心302可以负责部署agent、配置agent运营策略和监控内容等,并能够根据确定的批量故障的数据集合发出批量故障告警,以及对批量故障的误判检测等。
基于上述内容,从故障产生角度出发,本申请还提供一种批量故障的监控方法实施例,如图4所示,图4是本申请提供的一种批量故障的监控方法实施例的流程图,该监控方法实施例包括:
步骤S401:通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
所述步骤S401的目的在于,实时监控数据中心中服务设备的运行情况,即,当服务设备出现运行异常时,则部署在数据中心的所述监测模块会采集相应的单体故障信息。
在本实施例中,数据中心可以理解为全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。单体故障信息是指数据中心中某一独立的应用、独立的服务器或独立的部件等发生的故障信息,即包括软件故障信息和硬件故障信息中的至少一种故障信息。
所述步骤S401的具体实现过程是,在数据中心的服务设备上部署用于监控故障信息的监测模块(agent),监测模块可以采集服务设备上出现的故障信息。在本实施例中,数据中心服务设备上部署的监测模块可以通过监控服务管理中心对监测模块进行配置,将配置好的监测模块部署在数据中心服务设备内。
在本实施例中,可以在数据中心的服务设备上均部署相应的监测模块,当然,也可以根据实际监测需求进行部署。
步骤S402:将采集的所述单体故障信息发送至监控服务管理中心。
所述步骤S402的目的在于监测模块会将监测采集到的单体故障信息发送到监控服务管理中心,供监控服务管理中心进行相应的处理。
相应的,本申请还提供一种批量故障的监控装置,如图5所示,图5是本申请提供的一种批量故障的监控装置实施例的结构示意图,该监控装置实施例包括:
采集单元501,用于通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;关于采集单元501的具体实现过程可以参考上述步骤S101-步骤S103以及步骤S401-步骤S402的描述,此处不再赘述。
发送单元501,用于将采集的所述单体故障信息发送至监控服务管理中心。同样地,所述发送单元501的具体实现过程可以参考上述步骤S101-步骤S103以及步骤S401-步骤S402的描述,此处不再赘述。
基于上述内容,本申请还提供的一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
基于上述内容,本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (21)

1.一种批量故障的确定方法,其特征在于,包括:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
2.根据权利要求1所述的批量故障的确定方法,其特征在于,所述获取单体故障信息,包括:
获取数据中心监测到的单独实体的单体故障信息。
3.根据权利要求1或2所述的批量故障的确定方法,其特征在于,还包括:
对所述单体故障信息进行格式化操作,获得单体故障工单;
所述获取用于描述数据中心服务设备的配置信息,包括:
根据所述单体故障工单,获取配置管理数据库中用于描述数据中心服务设备的配置信息,所述配置管理数据库中存储有描述网络环境中实体的配置信息。
4.根据权利要求1所述的批量故障的确定方法,其特征在于,所述根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合,包括:
根据所述配置信息中的配置项,确定配置维度;
根据所述配置维度和所述单体故障信息,构建所述单体故障维度数据集合。
5.根据权利要求1所述的批量故障的确定方法,其特征在于,还包括:
根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合;
所述根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合,包括:
根据所述候选故障维度数据集合和设定的批量故障判断条件,确定所述候选故障维度数据集合是否为批量故障的数据集合。
6.根据权利要求5所述的批量故障的确定方法,其特征在于,所述根据对所述单体故障维度数据集合之间的关联分析,确定候选故障维度数据集合,包括:
对所述单体故障维度数据集合进行频繁项集挖掘;
将所述频繁项集范围中出现频率满足出现频率要求的频繁项集,确定为候选故障维度数据集合。
7.根据权利要求5所述的批量故障的确定方法,其特征在于,所述根据所述候选故障维度数据集合和设置的批量故障判断条件,确定所述候选故障维度数据集合是否为批量故障的数据集合,包括:
计算所述候选故障维度数据集合内对应的故障率;
将所述故障率与设置的故障率基线值进行比较,若所述故障率大于或等于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合存在批量故障。
8.根据权利要求7所述的批量故障的确定方法,其特征在于,还包括:
当所述故障率与所述故障率基线值进行比较,若所述故障率小于所述故障率基线值,则确定所述故障率对应的候选故障维度数据集合不存在批量故障。
9.根据权利要求1所述的批量故障的确定方法,其特征在于,还包括:
当确定所述候选故障维度数据集合为批量故障的数据集合时,发出批量故障告警。
10.根据权利要求1或9所述的批量故障的确定方法,其特征在于,还包括:
对确定的批量故障的数据集合进行误判检测。
11.根据权利要求10所述的批量故障的确定方法,其特征在于,所述对确定的批量故障的数据集合进行误判检测,包括:
拉取网络环境中的黑盒日志;
根据所述黑盒日志中的数据,检测确定的批量故障的数据集合是否存在误判。
12.一种批量故障的确定装置,其特征在于,包括:
获取单元,用于获取单体故障信息以及用于描述数据中心服务设备的配置信息;
扩展单元,用于根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
确定单元,用于根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
13.一种批量故障的监控方法,其特征在于,包括:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
14.根据权利要求13所述的批量故障的监控方法,其特征在于,所述通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息,包括:
通过所述监控服务管理中心对所述监测模块的配置,在所述数据中心部署配置完毕的用于采集所述单体故障信息的所述监测模块。
15.根据权利要求13所述的批量故障的监控方法,其特征在于,所述通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息,包括:
在所述数据中心的服务器上部署,用于采集所述数据中心单体故障信息的所述监测模块。
16.一种批量故障的监控装置,其特征在于,包括:
采集单元,用于通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
发送单元,用于将采集的所述单体故障信息发送至监控服务管理中心。
17.一种故障预警系统,其特征在于,包括:数据中心和监控服务管理中心;其中,所述数据中心用于采集单体故障信息;所述监控服务管理中心用于根据获取的所述单体故障信息和获取的用于描述数据中心服务设备的配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;根据单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合。
18.根据权利要求17所述的故障预警系统,其特征在于,包括:在所述数据中心的服务器部署监测模块,监测所述数据中心中的单体故障信息。
19.根据权利要求17所述的故障预警系统,其特征在于,包括:所述监控服务管理中心根据确定的批量故障的数据集合发出批量故障告警。
20.一种计算机存储介质,用于存储网络平台产生数据,以及对应所述网络平台产生数据进行处理的程序;
所述程序在被读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
21.一种电子设备,包括:
处理器;
存储器,用于存储对网络平台产生数据进行处理的程序,所述程序在被所述处理器读取执行时,执行如下步骤:
获取单体故障信息以及用于描述数据中心服务设备的配置信息;
根据所述配置信息,对所述单体故障信息进行配置维度扩展,获得单体故障维度数据集合;
根据所述单体故障维度数据集合和设定的批量故障判断条件,确定批量故障的数据集合;
或者,执行如下步骤:
通过部署的用于监控数据中心的监测模块,采集所述数据中心的单体故障信息;
将采集的所述单体故障信息发送至监控服务管理中心。
CN202010121380.XA 2020-02-26 2020-02-26 批量故障的确定方法和装置,计算机存储介质和电子设备 Pending CN113312197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121380.XA CN113312197A (zh) 2020-02-26 2020-02-26 批量故障的确定方法和装置,计算机存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121380.XA CN113312197A (zh) 2020-02-26 2020-02-26 批量故障的确定方法和装置,计算机存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN113312197A true CN113312197A (zh) 2021-08-27

Family

ID=77369962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121380.XA Pending CN113312197A (zh) 2020-02-26 2020-02-26 批量故障的确定方法和装置,计算机存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113312197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821798A (zh) * 2023-08-23 2023-09-29 北京集度科技有限公司 一种故障预警的服务器、方法及计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821798A (zh) * 2023-08-23 2023-09-29 北京集度科技有限公司 一种故障预警的服务器、方法及计算机程序产品

Similar Documents

Publication Publication Date Title
US20170017537A1 (en) Apparatus and method of leveraging semi-supervised machine learning principals to perform root cause analysis and derivation for remediation of issues in a computer environment
WO2013043170A1 (en) Automated detection of a system anomaly
CN111049705A (zh) 一种监控分布式存储系统的方法及装置
CN105183619B (zh) 一种系统故障预警方法和系统
CN112463543B (zh) 业务数据的监控方法、规则数据生成方法、装置及系统
CN110224874B (zh) 一种设备故障的处理方法及装置
WO2017020725A1 (zh) 一种数据检测方法及装置
US11108621B1 (en) Network performance metrics anomaly detection
CN113641526B (zh) 告警根因定位方法、装置、电子设备及计算机存储介质
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
CN114153646B (zh) 一种运维故障处置方法、装置及存储介质、处理器
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN113312197A (zh) 批量故障的确定方法和装置,计算机存储介质和电子设备
CN112769615B (zh) 一种异常分析方法及装置
CN117608974A (zh) 基于人工智能的服务器故障检测方法、装置、设备及介质
US11675647B2 (en) Determining root-cause of failures based on machine-generated textual data
WO2024066506A1 (zh) 数据监控分析方法、装置、服务器、运维系统及存储介质
CN116738091A (zh) 页面监控方法、装置、电子设备及存储介质
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN114860432A (zh) 一种内存故障的信息确定方法及装置
CN114095394A (zh) 网络节点故障检测方法、装置、电子设备及存储介质
CN113992496A (zh) 基于四分位算法的异动告警方法、装置及计算设备
CN113760856A (zh) 数据库管理方法及装置、计算机可读存储介质、电子设备
CN115776436A (zh) 故障定界方法、装置、设备、存储介质和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40058032

Country of ref document: HK