CN110287316A - 一种告警分类方法、装置、电子设备及存储介质 - Google Patents

一种告警分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110287316A
CN110287316A CN201910482036.0A CN201910482036A CN110287316A CN 110287316 A CN110287316 A CN 110287316A CN 201910482036 A CN201910482036 A CN 201910482036A CN 110287316 A CN110287316 A CN 110287316A
Authority
CN
China
Prior art keywords
alarm
classification
history
data
alarm data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910482036.0A
Other languages
English (en)
Inventor
黄楷
杨俊杰
卢道和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910482036.0A priority Critical patent/CN110287316A/zh
Publication of CN110287316A publication Critical patent/CN110287316A/zh
Priority to PCT/CN2020/086878 priority patent/WO2020244336A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Abstract

本发明涉及科技金融(Fintech)技术领域,尤其涉及一种告警分类方法、装置、电子设备及存储介质,该方法为,获取网络设备产生的告警数据;提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。

Description

一种告警分类方法、装置、电子设备及存储介质
技术领域
本发明涉及科技金融(Fintech)技术领域,尤其涉及一种告警分类方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向科技金融(Fintech)转变,告警分类技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。
对金融行业的网络运维而言,现有的技术方案都是通过运维人员配置告警关键字来实现对告警信息的分类。
每一个分类都有对应的关键字。严格地利用关键字去匹配告警信息。多IDC的大型金融公司,为了规避风险,经常需要多厂商的网络设备,设备上架之后,由于多厂商带来的复杂性,具体的告警分类需要由以下几部组成,先进行设备的上架操作,检查新设备是否是新的品牌型号,检查品牌型号的告警关键字是否发生了变化,最后按需配置告警关键字。
因此,告警分类需要投入运维开发的人力,告警的配置系统需要运维开发的人力长期维护与更新。新的厂商新的型号新的软件版本甚至更换了网络管理系统的供应商都可能都需要重新配置,极大的浪费了资源。
发明内容
本发明实施例提供一种告警分类方法、装置、电子设备及存储介质,以解决现有技术中内容分类准确、比较复杂的问题。
本发明实施例提供的具体技术方案如下:
本发明一个实施例提供了一种告警分类方法,包括:
获取网络设备产生的告警数据;
提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;
根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
一种可能的实现方式,所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的,包括:
获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;
针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;
针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;
根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
一种可能的实现方式,所述根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练,包括:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;
根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
一种可能的实现方式,所述针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率,为根据以下公式确定:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
一种可能的实现方式,所述方法还包括:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
本发明另一个实施例提供了一种告警分类装置,包括:
收发单元,用于获取网络设备产生的告警数据;
处理单元,用于提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
一种可能的实现方式,所述收发单元,还用于:
获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
所述处理单元,还用于:针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
一种可能的实现方式,所述处理单元,具体用于:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
一种可能的实现方式,所述处理单元,具体用于根据以下公式确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
一种可能的实现方式,所述处理单元,还用于:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
本发明另一个实施例提供了一种电子设备,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述任一种告警分类方法。
本发明另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种告警分类方法。
本发明实施例中,根据网络设备的告警数据,计算获得告警的告警特征向量,对于复杂内容类型的告警,可以更加准确地表示告警的特征,解决了复杂内容的告警的特征提取困难的问题,基于该告警特征向量和分类模型来确定告警的类别,可以很大程度上提高告警分类的准确性,并且,根据网络设备的告警数据确定出的告警特征向量,与告警类别相关,因此,在训练过程中也不需要预先知道非常多的训练样本,减少了人工预先对告警类别进行标注的成本,降低了复杂性。
附图说明
图1为本发明实施例中告警分类方法的应用场景示意图;
图2为本发明实施例中告警分类方法的流程图;
图3为本发明实施例中一种告警分类方法的流程示意图;
图4为本发明实施例中告警分类装置结构示意图;
图5为本发明实施例中电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:
日志告警数据:网络设备按照时间顺序生成的日志中提取的告警数据。
贝叶斯分类器:朴素贝叶斯分类器是NLP常用的一种分类器。从数学角度来说,分类问题可做如下定义:
已知集合:C={y1,y2,...,yn}和I={x1,x2,...,xm,...},确定映射规则y=f(x),使得任意xi∈I有且仅有一个yj∈C使得yj=f(xi)成立。
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
贝叶斯分类器的基础是贝叶斯定理。这个定理解决的是已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。具体包括:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:
由于可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但通常更关心P(B|A),贝叶斯定理给出了从P(A|B)得到P(B|A)的方法。即
参考图1所示,其为本发明实施例中告警分类方法的应用场景示意图。包括网络设备和网管系统,其中,网络设备通过在网络运营过程中,例如,为用户设备提供服务的过程中生成对应的日志,网管系统可以通过网络设备的日志,提取日志中的告警数据,进而确定告警数据的分类,以便于对告警进行分类处理。其中,网络设备可以是任何能够提供互联网服务的设备;用户设备可以是智能手机、平板电脑、便携式个人计算机、智能电视等任何智能设备,网管系统可以为关联网络设备的网管设备。
网络设备与网管系统之间通过互联网相连,实现相互之间的通信,可选地,上述互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
需要说明的是,本发明实施例中提供的告警分类方法可以由网管系统实施,也可以由网络设备中设置的告警分类装置实施,也可以由单独的告警分类装置实施,在此不做限定。
本发明各个实施例中,以告警分类方法用于图1所示的应用场景图为例进行示意性说明。值得说明的是,本发明实施例中的应用场景架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,对于其它的应用场景架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。
对金融行业的网络运维而言,例如银行等金融机构的网络运维,现有的技术方案都是通过运维人员配置告警关键字来实现对告警信息的分类。每一个分类都有对应的关键字。严格地利用关键字去匹配告警信息。大型金融公司若设置了多个IDC,为了规避风险,需要多厂商的网络设备,设备上架之后,由于多厂商带来的复杂性,具体的告警分类需要先进行设备的上架操作,检查新设备是否是新的品牌型号,检查品牌型号的告警关键字是否发生了变化,最后按需配置告警关键字。这样,仅依赖预先设置的告警关键字,对告警的内容特征提取是远远不够的,很容易造成分类不准确,而目前对于这些不同网络设备生成的日志产生的不同类型的告警数据,需要分别设置关键字,告警分类需要投入运维开发的人力,告警的配置系统需要运维开发的人力长期维护与更新,新的厂商新的型号新的软件版本甚至更换了网络管理系统的供应商都可能都需要重新配置,极大的增加了运维的成本。
基于上述问题,参阅图2所示,为本发明实施例中,告警分类方法的流程图,该方法包括:
步骤201:获取网络设备产生的告警数据;
具体的,I={x1,x2,...,xm,...}可以表示为告警数据集,x1,…xm为从网络设备的日志中抓取的告警数据。
步骤202:提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;
其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;
具体的,在该场景中,可以先确定告警数据的有效语句作为告警信息的进一步提取,之后对有效语句进行分词,以提取所述告警数据中的有效语义词。其中,有效语义词可以为与告警分类相关的词汇,也可以通过确定与告警分类无关的词汇确定有效语义词。在具体实施过程中,提取所述告警数据中的有效语义词的方法可以有多种。
一种可能的实施方式,可以为将有效语句中除去时间、语句中的介词等与告警分类无关的词汇,剩余的词汇作为有效语义词。
举例来说,比如告警数据中一个有效语句为:VPN xxx is disconnected。可以确定与告警分类无关的词汇为“is”。进而,可以确定有效语义词为“VPN”,“xxx”,“disconnected”。
另一种实施例中,考虑到现实生产环境中对实时性要求比较高的情况,需要数据经过的回路需要尽可能短,以提高实效性。上述提取所述告警数据中的有效语义词花费的时间不利于提高实效性,特别是告警数据中的有效语句比较长的情况,因此,本发明实施例中提供另一种实施方式,可以将提取所述告警数据中的有效语义词的预先处理动作删除,直接对整个有效语句进行直接分类。为了降低预处理步骤的省略导致的与告警分类无关的词汇对预测结果的影响。提高预测的准确率,一种可能的实现方式,可以在告警数据中的有效语句中加入标记的有效语义词,该有效语义词可以根据该有效语句中确定出的有效语义词确定。例如,端口DOWN告警类别的训练数据是:interface xxx is down.可以将有效语句改为:Interface xxx is down interface。其中,xxx可以表示端口号,这样可以降低“is”这类与告警分类无关的词汇的频率。让训练数据中重要特征元素的概率更高,并降低与告警分类无关的词汇的概率,能够有效减少与告警分类无关的词汇对预测结果的影响。
对于本发明的应用场景来说,类别集合就是告警的类别,以网络设备告警为例,告警可以分为端口down、板卡异常、OSPF异常、BGP异常等类别。
步骤203:根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;
其中,所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
所述分类模型的训练样本,可以人工打标签或者直接获取生产过往的历史告警数据作为训练样本。例如,训练数据可以为:“interface xxx is down”,其标签为端口DOWN告警类别。
本发明实施例以朴素贝叶斯的分类为例,说明本发明实施例中的分类模型,当然,也可以通过其他分类模型,实现本发明实施例的分类,在此不做限定。例如,分类模型可以为支持向量机(Support Vector Machine,SVM)分类模型,也可以为逻辑回归(LogisticRegression)、决策树、神经网络、邻近算法或K最近邻(k-NearestNeighbor,KNN)分类模型等,本发明实施例中并不进行限制。
如图3所示,本发明实施例提供一种朴素贝叶斯分类方法的流程,包括:
步骤301、确定待分类项x,结合上述实施例,待分类项x可以为网络设备产生的历史告警数据,也可以是新获取的告警数据。历史告警数据的标签可以为预先设置的,也可以为训练过程中设置的。
具体的,还可以包括提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;
具体的,告警特征向量可以表示为x={a1,a2,...,am},而每个告警特征向量包括特征元素a1,…am
步骤302、确定训练数据。
在具体实施过程中,训练数据可以为预先设置的历史告警数据及历史告警数据的标签;也可以针对训练或运行分类器后的校验结果,重新生成的新的告警学习数据。
步骤303、确定告警类别集C={y1,y2,...,yn},确定各类别下各个特征元素的预估概率。
对于本发明的应用场景来说,类别集合就是告警类别,以网络设备告警为例,告警可以分为端口down、板卡异常、OSPF异常、BGP异常等类别。
具体的,可以表示为P(y1|x),P(y2|x),...,P(yn|x)。
一种可能的实现方式,在具体实施过程中,可以包括:
步骤一、获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
步骤二、针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;
步骤三、针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;
步骤四、针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;
具体的,条件概率可以包括:
P(a1|y1),P(a2|y1),...,P(am|y1);P(a1|y2),P(a2|y2),...,P(am|y2);...;P(a1|yn),P(a2|yn),...,P(am|yn)
其中,am为x告警特征向量中的特征元素,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;
因此,可以确定:
因为P(x)分母对于所有类别yi(i为任意值)为常数,因为我们只要将分子最大化即可确定P(yi|x)的最大值。由于各特征元素是条件独立的,因此,所述历史告警数据的告警特征向量在每个告警类别下的预估概率,可以根据以下公式确定:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
此处,可以假设每个故障告警发生的概率是一样的,接着对每个特征元素计算针对每个类别的条件概率。具体的,可以依照词频统计实现。每条训练数据中的告警的每个有效语义词都做词频统计。
比如训练数据中类别为VPN异常的告警:“VPN xxx is disconnected”。
去掉与分类无关的词汇“is”。“VPN”,“xxx”,“disconnected”在VPN异常出现的频率都是1/3。
例如,针对所有训练数据,可以确定出VPN在类别为“VPN异常”的概率的统计值。类似的,可以确定出所有有效词汇在类别为“VPN异常”的概率的统计值作为每个特征元素针对每个类别的条件概率。
需要注意的是当P(ai|yj)=0时,当某个类别下某个特征元素没有出现时,就是产生这种现象,这会令分类器质量大大降低。为了解决这个问题,一种可能的实现方式,可以包括:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
具体的,预定偏置项可以为1。
步骤五、根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练;具体的,训练所有训练数据,直至分类器的准确率达到预设阈值。
步骤304、确定预测的分类。
以P(x|yk)P(yk)最大为例,则待分类项x的所属类别为yk
具体的,若P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则确定x∈yk
步骤305、根据训练数据的标签,校验所述分类的预测值。若确定校验通过,则执行步骤306,否则,针对该训练数据生成新的学习数据,执行步骤302;
具体的,可以包括:根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;
根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
步骤306:确定待分类项的分类结果。
需要说明的是,上述校验过程,还可以在分类过程中执行,即如果训练数据十分有限,分类器可能并不能在新的告警第一次出现时就正确分类。那么就需要人工矫正。假设有一条从未出现的、类别是B的告警数据,被分类器判断成了A类,那么就需要人工加入该告警数据的学习数据,例如,通常就是此告警的类似告警,重新生成分类器,进而加强分类器的准确率。
基于相同的发明构思,如图4所示,本发明另一个实施例提供了一种告警分类装置,包括:
收发单元401,用于获取网络设备产生的告警数据;
处理单元402,用于提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
一种可能的实现方式,收发单元401,还用于:
获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
处理单元402,还用于:针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
一种可能的实现方式,处理单元402,具体用于:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
一种可能的实现方式,处理单元402,具体用于根据以下公式确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
一种可能的实现方式,处理单元402,还用于:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
基于相同的发明构思,如图5所示,本发明实施例中,一种电子设备的结构示意图。
本发明实施例提供了一种电子设备,其中,该电子设备可以为服务器或其它计算机装置等,该电子设备可以包括处理器710(Center Processing Unit,CPU)、存储器720、输入设备730和输出设备740等,输入设备730可以包括键盘、鼠标、触摸屏等,输出设备740可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(CathodeRay Tube,CRT)等。
存储器720可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器710提供存储器720中存储的程序指令和数据。在本发明实施例中,存储器720可以用于存储上述实施例中的告警分类方法的程序。
处理器710通过调用存储器720存储的程序指令,处理器710用于按照获得的程序指令执行:
提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
一种可能的实现方式,处理器710,还用于:针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
一种可能的实现方式,处理器710,具体用于:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
一种可能的实现方式,处理器710,具体用于根据以下公式确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
一种可能的实现方式,处理器710,还用于:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种告警分类方法,其特征在于,包括:
获取网络设备产生的告警数据;
提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;
根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
2.如权利要求1所述的方法,其特征在于,所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的,包括:
获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;
针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;
针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;
根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
3.如权利要求2所述的方法,其特征在于,所述根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练,包括:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;
根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
4.如权利要求1所述的方法,其特征在于,所述针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率,为根据以下公式确定:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
6.一种告警分类装置,其特征在于,包括:
收发单元,用于获取网络设备产生的告警数据;
处理单元,用于提取所述告警数据中的有效语义词,并根据所述告警数据的有效语义词确定所述告警数据对应的告警特征向量;其中,每个有效语义词对应所述告警数据的告警特征向量中的一个特征元素;根据所述告警数据的告警特征向量和预先训练的分类模型,确定所述告警数据的告警类别;所述分类模型为根据历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别确定的;所述历史告警数据在各告警类别下的预估概率是根据所述历史告警数据的每个特征元素在每个告警类别的条件概率确定的。
7.如权利要求6所述的装置,其特征在于,所述收发单元,还用于:
获取所述网络设备的历史告警数据集;所述历史告警数据集包括多个历史告警数据及各历史告警数据对应的告警类别;
所述处理单元,还用于:针对每个历史告警数据,提取所述历史告警数据中的有效语义词,将所述有效语义词作为所述历史告警数据的告警特征向量的特征元素;针对同一告警类别,确定每个特征元素在所述告警类别的条件概率;针对每个历史告警数据,根据所述历史告警数据的告警特征向量中的每个特征元素在每个告警类别下的条件概率确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率;根据各历史告警数据在各告警类别下的预估概率和各历史告警数据对应的告警类别进行所述分类模型的训练。
8.如权利要求7所述的装置,其特征在于,所述处理单元,具体用于:
根据各历史告警数据在各告警类别下的预估概率,确定各历史告警数据的预测分类;根据所述预测分类及所述各历史告警数据对应的告警类别,调整所述分类模型的参数,以使所述预测分类的置信度大于预设阈值。
9.如权利要求6所述的装置,其特征在于,所述处理单元,具体用于根据以下公式确定所述历史告警数据的告警特征向量在每个告警类别下的预估概率:
其中,x={a1,a2,...,am}为所述历史告警数据的告警特征向量,am为x告警特征向量中的特征元素,yi为第i个告警类别;P(x|yi)为告警类别为yi出现告警特征向量x的概率;P(yi)为第i个告警类别在历史告警数据集中的发生概率;P(aj|yi)为第aj个特征元素在第i个告警类别的条件概率;为告警类别为yi出现每个特征元素的条件概率的乘积。
10.如权利要求9所述的装置,其特征在于,所述处理单元,还用于:
若确定所述历史告警数据的告警特征向量中的第一特征元素在第一告警类别下的条件概率为零,则将所述历史告警数据的告警特征向量中的所述第一特征元素在所述第一告警类别的条件概率增加预定偏置项;所述第一告警类别为所述告警类别中的任一告警类别;所述第一特征元素为所述历史告警数据的告警特征向量中的任一特征元素。
11.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序指令;
至少一个处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述权利要求1-5任一项所述的方法。
CN201910482036.0A 2019-06-04 2019-06-04 一种告警分类方法、装置、电子设备及存储介质 Pending CN110287316A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910482036.0A CN110287316A (zh) 2019-06-04 2019-06-04 一种告警分类方法、装置、电子设备及存储介质
PCT/CN2020/086878 WO2020244336A1 (zh) 2019-06-04 2020-04-24 一种告警分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910482036.0A CN110287316A (zh) 2019-06-04 2019-06-04 一种告警分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110287316A true CN110287316A (zh) 2019-09-27

Family

ID=68003292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910482036.0A Pending CN110287316A (zh) 2019-06-04 2019-06-04 一种告警分类方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN110287316A (zh)
WO (1) WO2020244336A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244336A1 (zh) * 2019-06-04 2020-12-10 深圳前海微众银行股份有限公司 一种告警分类方法、装置、电子设备及存储介质
CN113778792A (zh) * 2021-08-19 2021-12-10 济南浪潮数据技术有限公司 一种it设备的告警归类方法及系统
CN114567482A (zh) * 2022-02-28 2022-05-31 天翼安全科技有限公司 一种告警分类方法、装置、电子设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114765575A (zh) * 2021-01-04 2022-07-19 中国移动通信有限公司研究院 一种网络故障原因预测方法、装置及电子设备
CN114237962A (zh) * 2021-12-21 2022-03-25 中国电信股份有限公司 告警根因判断方法、模型训练方法、装置、设备和介质
CN114928531B (zh) * 2022-05-06 2023-09-05 广西电网有限责任公司 一种网络安全一体化智能防护方法、装置及机器人、介质
CN115022218B (zh) * 2022-05-27 2024-01-19 中电信数智科技有限公司 一种分布式Netconf协议订阅告警阈值设置方法
CN115001989A (zh) * 2022-05-31 2022-09-02 济南浪潮数据技术有限公司 一种设备预警方法、装置、设备及可读存储介质
CN116976879B (zh) * 2023-09-22 2024-01-09 广州扬盛计算机软件有限公司 自助设备的支付系统异常监控方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108228622A (zh) * 2016-12-15 2018-06-29 平安科技(深圳)有限公司 业务问题的分类方法及装置
CN108595634B (zh) * 2018-04-25 2023-05-30 腾讯科技(深圳)有限公司 短信管理方法、装置及电子设备
CN109165294B (zh) * 2018-08-21 2021-09-24 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN110287316A (zh) * 2019-06-04 2019-09-27 深圳前海微众银行股份有限公司 一种告警分类方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244336A1 (zh) * 2019-06-04 2020-12-10 深圳前海微众银行股份有限公司 一种告警分类方法、装置、电子设备及存储介质
CN113778792A (zh) * 2021-08-19 2021-12-10 济南浪潮数据技术有限公司 一种it设备的告警归类方法及系统
CN113778792B (zh) * 2021-08-19 2023-12-26 济南浪潮数据技术有限公司 一种it设备的告警归类方法及系统
CN114567482A (zh) * 2022-02-28 2022-05-31 天翼安全科技有限公司 一种告警分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020244336A1 (zh) 2020-12-10

Similar Documents

Publication Publication Date Title
CN110287316A (zh) 一种告警分类方法、装置、电子设备及存储介质
EP3985578A1 (en) Method and system for automatically training machine learning model
KR102087959B1 (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
US11645540B2 (en) Deep graph de-noise by differentiable ranking
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
CN107729469A (zh) 用户挖掘方法、装置、电子设备及计算机可读存储介质
CN105468161A (zh) 指令执行方法和装置
CN109873790A (zh) 网络安全检测方法、装置以及计算机可读存储介质
CN107256231B (zh) 一种团队成员识别设备、方法及系统
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN110751354B (zh) 一种异常用户的检测方法和装置
Dong Application of Big Data Mining Technology in Blockchain Computing
US11847599B1 (en) Computing system for automated evaluation of process workflows
CN110830515A (zh) 流量检测方法、装置、电子设备
CN107122464A (zh) 一种辅助决策系统及方法
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
CN115965464A (zh) 空壳企业识别方法、装置、存储介质及电子装置
EP3855316A1 (en) Optimizing breakeven points for enhancing system performance
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN116431319B (zh) 任务处理方法及装置
US20230377004A1 (en) Systems and methods for request validation
US20230044508A1 (en) Data labeling processing
CN117609723A (zh) 一种对象识别方法、装置、电子设备及存储介质
CN113902032A (zh) 业务数据的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination