CN111258798A - 监控数据的故障定位方法、装置、计算机设备及存储介质 - Google Patents

监控数据的故障定位方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111258798A
CN111258798A CN202010037886.2A CN202010037886A CN111258798A CN 111258798 A CN111258798 A CN 111258798A CN 202010037886 A CN202010037886 A CN 202010037886A CN 111258798 A CN111258798 A CN 111258798A
Authority
CN
China
Prior art keywords
information
fault
alarm
application
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010037886.2A
Other languages
English (en)
Inventor
黄河
邹子敬
李梦凡
赵新江
黄俊文
刘为龙
苏跃龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An One Wallet E Commerce Co Ltd
Original Assignee
Ping An One Wallet E Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An One Wallet E Commerce Co Ltd filed Critical Ping An One Wallet E Commerce Co Ltd
Priority to CN202010037886.2A priority Critical patent/CN111258798A/zh
Publication of CN111258798A publication Critical patent/CN111258798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Abstract

本发明公开了监控数据的故障定位方法、装置、计算机设备及存储介质,属于信息处理领域。本发明的监控数据的故障定位方法通过对获取的源告警信息增维生成扩展信息,达到了对源告警信息进行丰富的目的,以便于利用丰富后的扩展信息进行数据关联,提高数据关联的准确性;利用CMDB模型对扩展信息进行识别生成故障定位结果,可提升故障定位的时效性,有效避免无效关联的对故障定位的影响,保证故障定位的准确性。

Description

监控数据的故障定位方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理领域,尤其涉及一种监控数据的故障定位方法及装置。
背景技术
目前在各个领域都存在基础的监控系统,当发生故障(例如:代码的bug,网络波动,硬件设备的故障,操作不当等故障)时,会产生大量有关联性的故障告警。为了能够更快的发现故障根因,提高整个定位效率,目前在各个领域也存在不少故障定位系统的实现方案。例如:将故障类别进行类别细分通过树模型进行训练,将故障定位问题转变为故障类型的多分类问题,从而得到因果关系。然而,现有的故障定位方法不仅无法保证故障处理的时效性,且由于部分故障的根因的多样性强,很多故障事件并不是高概率事件,对于低概率事件在进行故障定位时无法有效的避免无效的关联项的影响,从而导致定位的准确性低。
发明内容
针对现有故障定位准确性低的问题,现提供一种旨在可提高故障定位准确性的监控数据的故障定位方法、装置、计算机设备及存储介质。
为实现上述目的,本发明提供一种监控数据的故障定位方法,包括下述步骤:
获取源告警信息;
基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
根据CMDB模型对所述扩展信息进行识别生成故障定位结果。
优选的,获取源告警信息的步骤,包括:
采集源告警信息,识别所述源告警信息的类型,所述源告警信息的类型包括系统类告警信息和应用类告警信息。
优选的,所述扩展信息包括故障应用扩展信息或告警扩展信息;
基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息的步骤,包括:
当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息;
当所述源告警信息为系统类告警信息时,判断所述源告警信息是否有效;
基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储。
优选的,当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息的步骤,包括:
当所述源告警信息为应用类告警信息时,基于所述源告警信息获取相应的调用链路数据,根据所述调用链路数据获取故障根节点的故障应用信息。
优选的,基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储的步骤,包括:
根据所述故障应用信息中的根节点数据查询所述存储关联数据库,获取与所述根节点数据关联的信息,基于与所述根节点数据关联的信息生成故障应用扩展信息;
依据有效的所述系统类告警信息所属的应用名查询所述存储关联数据库,获取与所述应用名关联的信息,基于与所述应用名关联的信息生成告警扩展信息。
优选的,根据CMDB模型对所述扩展信息进行识别生成故障定位结果的步骤,包括:
所述CMDB模型包括配置管理数据库专家模型;
在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果,将所述关联结果作为所述故障定位结果。
优选的,根据CMDB模型对所述扩展信息进行识别生成故障定位结果的步骤,包括:
所述CMDB模型包括配置管理数据库专家模型和频繁项集模型;
在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果;
判断所述关联结果中是否包括关联关系;
当关联结果中包括关联关系时,将所述关联结果作为所述故障定位结果;
当关联结果中不包括关联关系时,对所述故障应用扩展信息进行泛化,获取所述故障应用泛化信息;
通过频繁项集模型基于预设数据集合对所述故障应用泛化信息进行关联匹配获取所述故障定位结果。
为实现上述目的,本发明还提供一种监控数据的故障定位装置,包括:
获取单元,用于获取源告警信息;
生成单元,用于基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
定位单元,用于根据CMDB模型对所述扩展信息进行识别生成故障定位结果。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述技术方案的有益效果:
本技术方案中,监控数据的故障定位方法、装置、计算机设备及存储介质,通过对获取的源告警信息增维生成扩展信息,达到了对源告警信息进行丰富的目的,以便于利用丰富后的扩展信息进行数据关联,提高数据关联的准确性;利用CMDB模型对扩展信息进行识别生成故障定位结果,可提升故障定位的时效性,有效避免无效关联的对故障定位的影响,保证故障定位的准确性。
附图说明
图1为本发明所述的监控数据的故障定位方法的一种实施例的方法流程图;
图2为本发明中对源告警信息进行增维生成扩展信息的流程图;
图3为本发明中对告警扩展信息进行识别生成故障定位结果的一种实施例的流程图;
图4为本发明中对告警扩展信息进行识别生成故障定位结果的另一种实施例的流程图;
图5为本发明所述监控数据的故障定位装置的一种实施例的模块图;
图6为本发明所述的计算机设备一实施例的硬件架构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的监控数据的故障定位方法、装置、计算机设备及存储介质,适用于银行、金融、保险等业务领域。本发明通过对获取的源告警信息增维生成扩展信息,达到了对源告警信息进行丰富的目的,以便于利用丰富后的扩展信息进行数据关联,提高数据关联的准确性;利用CMDB模型对扩展信息进行识别生成故障定位结果,可提升故障定位的时效性,有效避免无效关联的对故障定位的影响,保证故障定位的准确性。
实施例一
请参阅图1,本实施例的一种监控数据的故障定位方法,所述方法包括下述步骤:
S1.获取源告警信息;
在实际应用中,可以通过监控系统在告警触发时新增告警动作,将告警数据同步发送至Kafka(Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据)从而实现源告警信息的收集。监控系统可采用zabbix(zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源技术),通过在操作(action)中配置新增调用数据采集接口进行数据传输,在应用层可采用开源监控系统在告警发送时调用统一的数据发送接口收集源告警信息;其余变更系统及日志监控系统的也可采用相同的采集方式收集源告警信息。考虑到在告警发生时,可产生庞大的告警数据量,因此可采用吞吐量强大的Kafka作为消息队列进行源告警信息的缓存。
进一步地,步骤S1获取源告警信息的步骤可包括:
采集源告警信息,识别所述源告警信息的类型,所述源告警信息的类型可包括系统类告警信息和应用类告警信息。
其中,应用类告警信息可包括应用告警信息、业务指标告警信息和日志告警信息等。系统类告警信息可包括网络告警信息、服务器告警信息、存储设备告警信息及变更信息等。
在本步骤中,可根据源告警信息携带的标识,识别源告警信息对应的类型,如:系统类告警信息或应用类告警信息。
S2.基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
其中:所述扩展信息可包括故障应用扩展信息或告警扩展信息;
需要说明的是:由于应用系统及业务指标的监控状态直接反映了软件产品的可用性,所以在本实施例中设定应用类告警信息触发故障定位事件,而其余来源告警(系统类告警信息)则不触发故障定位事件,只是作为数据关联项进行存储。
参考图2所示,进一步地,在步骤S2中,基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息的步骤,包括:
S21.当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息;
具体地,在步骤S21中,当所述源告警信息为应用类告警信息时,基于所述源告警信息获取相应的调用链路数据,根据所述调用链路数据获取故障根节点的故障应用信息。
在实际应用中,应用间调用都是通过RPC(全称:Remote Procedure CallProtocol,中文:远程过程调用协议)框架实现的,根据调用链路数据进行应用间的调用,以调用链路数据为message_id,root_id,parent_id,child_id为例,其中message_id表示标记一次调用请求生命周期的全局id;root_id表示标记调用请求起始点;parent_id表示标记上游ip信息;child_id表示标记即将调用方的ip。系统调用时在RPC中间件这层进行数据拦截,获取调用链路数据。当系统异常时,通过调用链路数据可以获取故障根节点的故障应用信息,从而定位应用层的故障根节点。
S22.当所述源告警信息为系统类告警信息时,判断所述源告警信息是否有效;
由于系统类告警信息的告警量庞大,很多时候大量的告警其实只是一种预警,例如磁盘剩余空间不足10%,文件共享系统的剩余空间不足10%等,所以需要对系统类告警信息是否对业务指标产生影响进行分类,过滤掉无效的系统类告警信息,防止过多无效的系统类告警信息对故障定位进行干扰,在后续对扩展信息进行识别时,只考虑会对业务指标产生过影响的应用类告警信息进行关联。
作为举例而非限定,在本步骤中可采用xgboost算法对系统类告警信息是否对业务指标产生影响进行识别。
选取5000条样本告警数据(每一条数据均配置有相应的类别标记)。样本告警数据的特征向量(特征分类表1)可包括告警级别、告警类型、告警来源、处理时效、应用等级、应用类组、所在机房、业务指标是否投诉、是否有效等均采用one-hot的编码格式。通过xgboost算法进行训练,生成离线模型。利用该离线模型对系统类告警信息进行识别判断其是否有效,以便于过滤掉无效的告警关联项。记录无效的系统类告警信息,并将有效的系统类告警信息存储于待关联集合中。
表1
Figure BDA0002366676360000071
S23.基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储。
由于现有的告警信息(如:源告警信息)内容贫瘠,只包括告警级别,告警时间,告警服务器ip,主机名,告警描述,告警阈值,不利于后续的数据关联,所以在本步骤中可基于存储关联数据库(如:CMDB,CMDB存储与管理企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值)以源告警信息中服务器ip为中心进行故障应用信息的增维及系统类告警信息的增维。
具体地,步骤S23的可包括:
根据所述故障应用信息中的根节点数据查询所述存储关联数据库,获取与所述根节点数据关联的信息,基于与所述根节点数据关联的信息生成故障应用扩展信息;
需要说明的是,存储关联数据库预先存有系统数据的关联信息,通过查询存储关联数据库可获取与根节点数据关联的信息,进而基于相应的关联信息生成与故障应用信息对应的故障应用扩展信息。
依据有效的所述系统类告警信息所属的应用名查询所述存储关联数据库,获取与所述应用名关联的信息,基于与所述应用名关联的信息生成告警扩展信息。
作为举例而非限定,获取到源告警信息时,对于系统层的信息可根据源告警信息的ip地址所属宿主机地址获取连接的交换机信息、防火墙信息等;对于应用层的信息可根据源告警信息的ip获取所属的应用名,进而获取容器类型、暴露的端口、对外的域名、连接的数据库地址、缓存地址、告警时段的调度任务信息以及其他系统交互的消息队列名称等,从而将源告警信息丰富到涵盖系统层、网络层、应用层、数据层及中间件层的多维数据,实现增维的目的。
S3.根据CMDB模型对所述扩展信息进行识别生成故障定位结果。
在步骤S3中,当所述CMDB模型包括配置管理数据库专家模型,根据CMDB模型对所述扩展信息进行识别生成故障定位结果的步骤,包括(如图3所示):
S301.在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
需要说明的是:待关联集合为实时更新的集合,该集合由经步骤S22判断后的有效的系统类告警信息组成。
S302.通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果,将所述关联结果作为所述故障定位结果。
配置管理数据库专家模型是一个存储仓库,用于集中存储和管理待关联集合中的所有实体元素,在配置管理数据库专家模型中,配置项、属性和关联关系是配置管理数据库专家模型的三个基本元素,三者结合而成的配置模型是现实待关联集合中的实体元素在监控系统的真实投影。配置项是在配置管理控制下的调用链路数据、源告警信息的类型、告警级别、告警类型、告警来源、处理时效、应用等级、应用类组、所在机房、业务指标是否投诉、是否有效等逻辑资源;属性是是配置项的具体描述;关联关系描述在配置管理数据库中配置项之间存在着各种关系。在实际应用中,将故障应用扩展信息与待关联集合中的配置项进行匹配,获取匹配的配置项,并基于递归方式依据配置项的属性和关联关系获取与该故障应用扩展信息关联的关联关系信息,逐层进行匹配,直至获取关联结果,从而将该关联结果作为故障定位结果。
于本实施例中,以存储有效的系统类告警信息及变更信息的待关联集合为基础,选取预设时间范围内作为关联时间段,假定这个时间段内发生的告警具有关联关系,告警发生时将故障应用信息和待关联集合中的配置项逐个进行匹配,如果匹配成功将被关联告警信息作为关联方继续在对应关联集进行关联,以此递归进行直到没有新的关联关系生成为止。在本实施例中的配置管理数据库专家模型是基于CMDB的数据强关联,关联准确率很高。
在步骤S3中,当所述CMDB模型包括配置管理数据库专家模型和频繁项集模型时,根据CMDB模型对所述扩展信息进行识别生成故障定位结果的步骤,包括(如图4所示):
S311.在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
S312.通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果;
于本实施例中,以存储有效的系统类告警信息及变更信息的待关联集合为基础,选取预设时间范围内作为关联时间段,假定这个时间段内发生的告警具有关联关系,告警发生时将故障应用信息和待关联集合进行两两关联,如果关联成功将被关联告警信息作为关联方继续在对应关联集进行关联,以此递归进行直到没有新的关联关系生成为止。
S313.判断所述关联结果中是否包括关联关系,若是,执行步骤S314;若否,执行步骤S315;
于本步骤中,当关联结果没有关联关系时,需结合频繁项集模型进行故障定位,具体参考步骤S314至步骤S316。
S314.将所述关联结果作为所述故障定位结果;
S315.对所述故障应用扩展信息进行泛化,获取所述故障应用泛化信息;
S316.通过频繁项集模型基于预设数据集合对所述故障应用泛化信息进行关联匹配获取所述故障定位结果。
频繁项集模型的本质是将大量数据分为若干子集,根据每个子集中,各个数据同时出现的频繁度大小判断数据之间是否存在关联性,再根据关联性数据集中的置信度大小来判断关联关系中的因果导向。但是频繁项集算法在故障定位场景中的一个巨大缺点就是关联关系是建立在频繁度上的,只有频繁度很高的告警才能挖掘关联关系,但是告警事件随机性很高,而且对于专业互联网公司来说告警重复度也很低。如果将频繁度阈值调低也会出现很多无效的关联关系,为此在本实施例中是对经泛化后的故障应用扩展信息采用频繁项集模型进行定位,以避免上述缺陷。
于本实施例中,将故障应用扩展信息进行多层泛化,例如:应用A的接口a有调用其他应用某接口不通的告警产生,那么可以泛化成以下几类,基于调用链路数据,所以不考虑接口调用的上下游,范围由小到分别为,报错类型(接口调用是否超时、参数是否合法、数据库操作是否异常等)+接口名+应用名,接口名+应用名。同理系统层告警也可以进行如此泛化,例如,ip1的磁盘空间不足5%,可以泛化为ip1+监控分组(ip1对应的应用分组,应用服务器组、数据库组、中间件组)+磁盘空间(告警类型分类、磁盘空间、cpu使用率、应用进程),剩下的低维泛化方法同应用层一致。然后将每一层的泛化告警都通过apriori算法生成关联多层的频繁项集。泛化后可能出现多对多的因果关系,所以需要计算出各种根因的占比进行故障根因的可能性判断。由于告警内容的泛化处理将频繁项集的阈值实际上降低了,并且由于泛化分类并没有产生因阈值降低而导致的诸多无效关联。相对传统的频繁项集的关联模式有较大关联效果提升。
作为举例而非限定,对频繁项集模型基于预设数据集合对故障应用泛化信息进行关联的具体过程为:提供一预设数据集合,统计预设数据集合中相同数据的出现次数,清除预设数据集合中不满足频繁度阈值的数据,以一定的时间维度切分预设数据集合,生成多个1级数据集合;以两条同一时间范围内的数据作为2级的数据,统计2级数据集合中相同的数据的出现次数,清除不满足频繁度阈值的2级数据;以3条同一时间范围内的数据作为3级数据集合,统计3级数据集合中相同数据的出现次数,清除不满足频繁度阈值的3级数据;计算多级数据间的置信度,输出有向性关联关系。
采用配置管理数据库专家模型和频繁项集模型既可以实现规则模型带来的准确性,也同时也一定程度的避免了大量复杂规则模型的难以维护以及由规则覆盖面不足导致的定位缺失。其中传统的频繁项集模型通过挖掘高概率相同时间维度内的共同事件最为关联事件,其中最大的问题是很多故障事件并不是高概率事件,而如果调低频繁项阈值会增加很多无效关联项影响定位准确性。本实施例通过将每条源告警信息进行分层泛化的形式,其实是对源告警信息的多级分类,并以此生成多级的频繁项模型,由于泛化的过程一定程度上增加事件重复概率,也同时避免了无效关联的影响,而多级泛化可以在即便无法进行准确关联的情况提供出大致的怀疑方向,加速故障发生时的定位及处理过程。
监控数据的故障定位方法能够将根据应用间调用链路获取故障报警时的故障根节点的故障应用信息,并且在数据丰富及预分类,源告警信息泛化后通过配置管理数据库专家模型及频繁项集模进行故障定位;根据调用链路数据能够高效的理清应用间的调用关系,准确的关注到链路中故障节点而不是最顶层的报错应用,而配置管理数据库专家模型在故障定位时的准确性以及频繁项集模型加告警泛化的高覆盖性能够有效的进行互补,并且可以在海量告警中进行准确的关联,在无准确关联的情况下也能提供大致的怀疑方向,极大的加速故障处理过程,减小故障损失。
实施例二
请参阅图5,本实施例的一种监控数据的故障定位装置1包括:获取单元11、生成单元12和定位单元13,其中:
获取单元11,用于获取源告警信息;
在本实施例中,通过获取单元11采集源告警信息,识别所述源告警信息的类型,所述源告警信息的类型可包括系统类告警信息和应用类告警信息。具体地,可根据源告警信息携带的标识,识别源告警信息对应的类型,如:系统类告警信息或应用类告警信息。
其中,应用类告警信息可包括应用告警信息、业务指标告警信息和日志告警信息等。系统类告警信息可包括网络告警信息、服务器告警信息、存储设备告警信息及变更信息等。
生成单元12,用于基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
其中:所述扩展信息可包括故障应用扩展信息或告警扩展信息;
当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息;
具体地,当所述源告警信息为应用类告警信息时,基于所述源告警信息获取相应的调用链路数据,根据所述调用链路数据获取故障根节点的故障应用信息。
当所述源告警信息为系统类告警信息时,判断所述源告警信息是否有效;
由于系统类告警信息的告警量庞大,很多时候大量的告警其实只是一种预警,例如磁盘剩余空间不足10%,文件共享系统的剩余空间不足10%等,所以需要对系统类告警信息是否对业务指标产生影响进行分类,过滤掉无效的系统类告警信息,防止过多无效的系统类告警信息对故障定位进行干扰,在后续对扩展信息进行识别时,只考虑会对业务指标产生过影响的应用类告警信息进行关联。
基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储.
具体地,可根据所述故障应用信息中的根节点数据查询所述存储关联数据库,获取与所述根节点数据关联的信息,基于与所述根节点数据关联的信息生成故障应用扩展信息;
需要说明的是,存储关联数据库预先存有系统数据的关联信息,通过查询存储关联数据库可获取与根节点数据关联的信息,进而基于相应的关联信息生成与故障应用信息对应的故障应用扩展信息。
依据有效的所述系统类告警信息所属的应用名查询所述存储关联数据库,获取与所述应用名关联的信息,基于与所述应用名关联的信息生成告警扩展信息。
定位单元13,用于根据CMDB模型对所述扩展信息进行识别生成故障定位结果。
在本实施例中,定位单元13在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果,将所述关联结果作为所述故障定位结果。
于本实施例中,以存储有效的系统类告警信息及变更信息的待关联集合为基础,选取预设时间范围内作为关联时间段,假定这个时间段内发生的告警具有关联关系,告警发生时将故障应用信息和待关联集合进行两两关联,如果关联成功将被关联告警信息作为关联方继续在对应关联集进行关联,以此递归进行直到没有新的关联关系生成为止。在本实施例中的配置管理数据库专家模型是基于CMDB的数据强关联,关联准确率很高。
在本实施例中,监控数据的故障定位装置1通过对获取的源告警信息增维生成扩展信息,达到了对源告警信息进行丰富的目的,以便于利用丰富后的扩展信息进行数据关联,提高数据关联的准确性;利用CMDB模型对扩展信息进行识别生成故障定位结果,可提升故障定位的时效性,有效避免无效关联的对故障定位的影响,保证故障定位的准确性。
实施例三:
为实现上述目的,本发明还提供一种计算机设备2,该计算机设备2包括多个计算机设备2,实施例二的监控数据的故障定位装置1的组成部分可分散于不同的计算机设备2中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及监控数据的故障定位装置1(参考图6)。需要指出的是,图6仅示出了具有组件-的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例一的监控数据的故障定位方法的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的监控数据的故障定位装置1等。
所述网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如,所述网络接口22用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图6仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述监控数据的故障定位装置1还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器23)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储监控数据的故障定位装置1,被处理器23执行时实现实施例一的监控数据的故障定位方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种监控数据的故障定位方法,其特征在于,包括下述步骤:
获取源告警信息;
基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
根据CMDB模型对所述告警扩展信息进行识别生成故障定位结果。
2.根据权利要求1所述的监控数据的故障定位方法,其特征在于,获取源告警信息的步骤,包括:
采集源告警信息,识别所述源告警信息的类型,所述源告警信息的类型包括系统类告警信息和应用类告警信息。
3.根据权利要求2所述的监控数据的故障定位方法,其特征在于,所述告警扩展信息包括故障应用扩展信息或告警扩展信息;
基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息的步骤,包括:
当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息;
当所述源告警信息为系统类告警信息时,判断所述源告警信息是否有效;
基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储。
4.根据权利要求3所述的监控数据的故障定位方法,其特征在于,当所述源告警信息为应用类告警信息时,根据所述源告警信息获取故障应用信息的步骤,包括:
当所述源告警信息为应用类告警信息时,基于所述源告警信息获取相应的调用链路数据,根据所述调用链路数据获取故障根节点的故障应用信息。
5.根据权利要求3所述的监控数据的故障定位方法,其特征在于,基于存储关联数据库对所述故障应用信息或有效的所述系统类告警信息进行增维,生成故障应用扩展信息或告警扩展信息并存储的步骤,包括:
根据所述故障应用信息中的根节点数据查询所述存储关联数据库,获取与所述根节点数据关联的信息,基于与所述根节点数据关联的信息生成故障应用扩展信息;
依据有效的所述系统类告警信息所属的应用名查询所述存储关联数据库,获取与所述应用名关联的信息,基于与所述应用名关联的信息生成告警扩展信息。
6.根据权利要求3所述的监控数据的故障定位方法,其特征在于,根据CMDB模型对所述告警扩展信息进行识别生成故障定位结果的步骤,包括:
所述CMDB模型为配置管理数据库专家模型;
在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果,将所述关联结果作为所述故障定位结果。
7.根据权利要求3所述的监控数据的故障定位方法,其特征在于,根据CMDB模型对所述告警扩展信息进行识别生成故障定位结果的步骤,包括:
所述CMDB模型包括配置管理数据库专家模型和频繁项集模型;
在预设时间范围内,基于获取的所述告警扩展信息生成待关联集合;
通过所述配置管理数据库专家模型将所述故障应用扩展信息与所述待关联集合中的信息进行匹配、递归获取关联结果;
判断所述关联结果中是否包括关联关系;
当关联结果中包括关联关系时,将所述关联结果作为所述故障定位结果;
当关联结果中不包括关联关系时,对所述故障应用扩展信息进行泛化,获取所述故障应用泛化信息;
通过频繁项集模型基于预设数据集合对所述故障应用泛化信息进行关联匹配获取所述故障定位结果。
8.一种监控数据的故障定位装置,其特征在于,包括:
获取单元,用于获取源告警信息;
生成单元,用于基于所述源告警信息的类型对所述源告警信息进行增维,生成扩展信息;
定位单元,用于根据CMDB模型对所述告警扩展信息进行识别生成故障定位结果。
9.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010037886.2A 2020-01-14 2020-01-14 监控数据的故障定位方法、装置、计算机设备及存储介质 Pending CN111258798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037886.2A CN111258798A (zh) 2020-01-14 2020-01-14 监控数据的故障定位方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037886.2A CN111258798A (zh) 2020-01-14 2020-01-14 监控数据的故障定位方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111258798A true CN111258798A (zh) 2020-06-09

Family

ID=70945216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037886.2A Pending CN111258798A (zh) 2020-01-14 2020-01-14 监控数据的故障定位方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111258798A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN113746663A (zh) * 2021-06-07 2021-12-03 西安交通大学 机理数据双驱动结合的性能劣化故障根因定位方法
CN114257489A (zh) * 2021-12-23 2022-03-29 中国工商银行股份有限公司 实现监控告警内容丰富的方法、装置和计算机设备
CN117155772A (zh) * 2023-10-27 2023-12-01 广州嘉为科技有限公司 一种告警信息丰富方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101212367A (zh) * 2007-12-25 2008-07-02 北京亿阳信通软件研究院有限公司 一种告警信息的处理方法及装置
CN102083116A (zh) * 2011-01-10 2011-06-01 浪潮通信信息系统有限公司 基于元知识的智能化通信告警故障定位专家系统的构建方法
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置
WO2016029570A1 (zh) * 2014-08-28 2016-03-03 北京科东电力控制系统有限责任公司 一种面向电网调度的智能告警分析方法
CN107124299A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 基于资源拓扑的资源预警方法及系统
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警系统
CN108829558A (zh) * 2018-05-22 2018-11-16 郑州云海信息技术有限公司 一种数据中心告警智能运维管理方法及系统
CN109086182A (zh) * 2018-06-27 2018-12-25 平安科技(深圳)有限公司 数据库自动告警的方法及终端设备
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN110351150A (zh) * 2019-07-26 2019-10-18 中国工商银行股份有限公司 故障根源确定方法及装置、电子设备和可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101212367A (zh) * 2007-12-25 2008-07-02 北京亿阳信通软件研究院有限公司 一种告警信息的处理方法及装置
CN102083116A (zh) * 2011-01-10 2011-06-01 浪潮通信信息系统有限公司 基于元知识的智能化通信告警故障定位专家系统的构建方法
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置
WO2016029570A1 (zh) * 2014-08-28 2016-03-03 北京科东电力控制系统有限责任公司 一种面向电网调度的智能告警分析方法
CN107124299A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 基于资源拓扑的资源预警方法及系统
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警系统
CN108829558A (zh) * 2018-05-22 2018-11-16 郑州云海信息技术有限公司 一种数据中心告警智能运维管理方法及系统
CN109086182A (zh) * 2018-06-27 2018-12-25 平安科技(深圳)有限公司 数据库自动告警的方法及终端设备
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN110351150A (zh) * 2019-07-26 2019-10-18 中国工商银行股份有限公司 故障根源确定方法及装置、电子设备和可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN113746663A (zh) * 2021-06-07 2021-12-03 西安交通大学 机理数据双驱动结合的性能劣化故障根因定位方法
CN113746663B (zh) * 2021-06-07 2022-08-16 西安交通大学 机理数据双驱动结合的性能劣化故障根因定位方法
CN114257489A (zh) * 2021-12-23 2022-03-29 中国工商银行股份有限公司 实现监控告警内容丰富的方法、装置和计算机设备
CN117155772A (zh) * 2023-10-27 2023-12-01 广州嘉为科技有限公司 一种告警信息丰富方法、装置、设备及存储介质
CN117155772B (zh) * 2023-10-27 2024-01-30 广州嘉为科技有限公司 一种告警信息丰富方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
US10367827B2 (en) Using network locations obtained from multiple threat lists to evaluate network data or machine data
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
CN102340415B (zh) 一种服务器集群系统的监控方法和一种服务器集群系统
US20140223555A1 (en) Method and system for improving security threats detection in communication networks
CN110232010A (zh) 一种告警方法、告警服务器及监控服务器
CN109684052B (zh) 事务分析方法、装置、设备及存储介质
Jeong et al. Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions
JP2019523952A (ja) ストリーミングデータ分散処理方法及び装置
CN108228322B (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN113328872A (zh) 故障修复方法、装置和存储介质
CN113704065A (zh) 监控方法、装置、设备及计算机存储介质
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN111475369A (zh) 日志监控的添加方法、装置、计算机设备及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN113704790A (zh) 一种异常日志信息汇总方法及计算机设备
CN114780335A (zh) 监测数据的关联方法、装置、计算机设备和存储介质
CN112052134A (zh) 一种业务数据的监控方法及装置
US20180248900A1 (en) Multi-dimensional data samples representing anomalous entities
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN112134719A (zh) 一种分析基站安全日志的方法和系统
CN112506954A (zh) 数据库审计方法和装置
CN111431733A (zh) 服务告警覆盖信息的评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination