CN110851321A

CN110851321A - 一种业务告警方法、设备及存储介质

Info

Publication number: CN110851321A
Application number: CN201910961590.7A
Authority: CN
Inventors: 罗刚
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-02-28
Anticipated expiration: 2039-10-10
Also published as: CN110851321B; WO2021068831A1

Abstract

本申请公开了一种业务告警方法、设备及存储介质，其中方法包括：对多条告警记录进行聚类得到多条告警记录中的每条告警记录所属的告警集合；根据多条告警记录和多条告警记录的每条告警记录的业务标签，生成得到训练样本；利用训练样本对支持向量机进行训练，得到业务告警模型；利用业务告警模型对目标告警记录进行分析得到目标告警记录的业务标签，并生成包括目标告警记录和目标告警记录的业务标签的告警信息。本申请先通过聚类来得到包含告警记录和告警记录的业务标签的训练样本，然后利用该训练样本训练支持向量机得到业务告警模型，最后利用业务告警模型分析目标告警记录的业务标签，并生成告警信息，从而实现对异常业务的快速告警。

Description

一种业务告警方法、设备及存储介质

技术领域

本申请涉及数据安全领域，尤其涉及一种业务告警方法、设备及存储介质。

背景技术

业务监控平台每天会接收到数万条告警记录，通过对告警记录进行分析，可以监测到出现异常的业务。

目前对告警记录的分析方法主要是由人工对零碎单条的告警记录进行逐步排查，即系统运维人员根据经验来判断告警记录所告警的可能存在异常的业务。

可见，通过人工逐条排查告警记录来定位异常的业务是十分困难的，并且由于太依赖于系统运维人员的经验，因此效率不高。总的来说，还缺少一种高效的业务告警方法。

发明内容

本申请实施例提供一种业务告警方法，可以实现对异常业务的快速告警。

第一方面，本申请实施例提供了一种业务告警方法，该方法包括：

对多条告警记录进行聚类得到所述多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签，所述业务标签用于指示对应的告警集合中的告警记录所告警的业务；

根据所述多条告警记录和所述多条告警记录的每条告警记录的业务标签，生成得到训练样本；

利用所述训练样本对支持向量机进行训练，得到业务告警模型；

利用所述业务告警模型对目标告警记录进行分析得到所述目标告警记录的业务标签，并生成包括所述目标告警记录和所述目标告警记录的业务标签的告警信息。

第二方面，本申请实施例提供了一种业务告警设备，该业务告警设备包括用于执行上述第一方面的业务告警方法的单元，该业务告警设备包括：

聚类单元，用于对多条告警记录进行聚类得到所述多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签，所述业务标签用于指示对应的告警集合中的告警记录所告警的业务；

生成单元，用于根据所述多条告警记录和所述多条告警记录的每条告警记录的业务标签，生成得到训练样本；

训练单元，用于利用所述训练样本对支持向量机进行训练，得到业务告警模型；

分析单元，用于利用所述业务告警模型对目标告警记录进行分析得到所述目标告警记录的业务标签；

告警单元，用于生成包括所述目标告警记录和所述目标告警记录的业务标签的告警信息。

第三方面，本申请实施例提供了一种业务告警设备，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如第一方面所述的方法。

本申请通过聚类将多条告警记录聚类成数量与业务的数量一致的告警集合，每个告警集合对应于一个业务标签，同个告警集合中的告警记录用于告警同一个业务，然后将告警记录和告警记录的业务标签组合为训练样本来对支持向量机进行训练得到业务告警模型，最后利用业务告警模型对目标告警记录进行分析，便可以快速得到目标告警记录的业务标签，并生成包含该目标告警记录和该目标告警记录的业务标签的告警信息。可见，本申请实施例先通过聚类来得到包含告警记录和告警记录的业务标签的训练样本，然后利用该训练样本训练支持向量机得到业务告警模型，最后利用业务告警模型分析接收到的目标告警记录的业务标签，而业务告警模型分析出的目标告警记录的业务标签指示了目标告警记录的业务标签所对应的业务出现了异常，即该业务标签对应的业务为异常业务，然后生成包含有该目标告警记录以及该目标告警记录的业务标签的告警信息，以实现对异常业务的快速告警。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种业务告警系统示意图；

图2是本申请实施例提供的一种业务告警方法的示意流程图；

图3是本申请另一实施例提供的一种业务告警方法的示意流程图；

图4是本申请实施例提供的一种业务告警设备的示意性框图；

图5是本申请实施例提供的一种业务告警设备的结构性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请主要应用于业务告警设备，该业务告警设备可以是传统业务告警设备、终端设备、服务器或者本申请第三实施例和第四实施例所描述的业务告警设备，本申请对此不做限制。当业务告警设备与其他设备进行数据交互的时候，业务告警设备和其他设备都按照预设格式进行对数据的特性进行记录并传送，并能对接收到的预设格式的数据进行相应的处理和解析等，其中，数据的特性包括时间、地点、类型等。

业务监控平台每天会接收到大量的告警记录，如果通过人工对零碎单条的告警记录逐步排查来发现存在异常的线上业务，效率十分的低，于是目前还缺少一种高效的业务告警方法。

为此解决上述问题，本申请实施例提供一种业务告警方法，可以针对业务实现自动高效的异常检测。具体的，先获取多条告警记录，根据需要告警的业务的数量对该多条告警记录进行聚类，得到数量与业务的数量一致的告警集合，同个告警集合中的告警记录用于对同个业务进行告警，因此给同个告警集合中的告警记录打上同样的业务标签，最后生成包含上述多个告警记录以及该多个告警记录分别对应的业务标签的训练样本。利用训练样本对支持向量机(SVM，Support Vector Machine)进行训练，得到一个可以对任意告警记录进行准确分类的告警分类模型。然后实时获取目标告警记录，并利用上述告警分类模型对该目标告警记录进行分类，从而得到该目标告警记录的业务标签。最后生成包括目标告警记录以及目标告警记录业务标签的告警信息，并将该告警信息发送给运维人员，使得运维人员根据该告警信息对业务进行异常核查以及维护等。

需要说明的是，SVM是一种分类模型，通过将原来线性不可分的数据点映射到一个新的空间，转换为在新空间中线性可分数据来实现分类，且SVM的分类速度和分类效率优于传统分类方法。本申请实施例中利用训练样本来对SVM进行训练，使得SVM可以充分学习训练样本中包含的分类规律，从而得到可以对任意告警记录直接进行分类的业务告警模型。可见，SVM可用于线性/非线性分类，也可以用于回归，泛化错误率低，具有良好的学习能力，训练的结果具有很好的推广性。

可见，本申请不需要人工逐条对告警记录进行核查，而是通过机器学习充分利用历史告警记录，在减少运维人员分析和故障排查时间的情况下，自动对告警记录进行分析，从而大大改善了运维质量以及提高了运维效率。

为了能够更好地理解本发明实施例，下面将结合图1，对应用本发明实施例的方法进行介绍，本发明实施例可以应用于检测业务异常的场景中。

业务告警设备可以从云端服务器中获取多条告警记录，也可以从其他终端设备中获取多条告警记录，本申请实施例对此不作限定。为了便于理解，接下来本申请将结合图1，以业务告警设备从云端服务器中获取多条告警记录为例，来对上述过程进行具体说明。

具体的，业务告警设备先进行数据采集得到多条告警记录，然后通过聚类的方式，将多条告警记录分类为多个告警集合，每个告警集合对应一个业务标签，通过该业务标签可以确定上述多条告警记录分别所告警的业务，最后利用该多个告警记录以及每个告警记录分别对应的业务标签所组成的训练样本来对支持向量机进行训练，得到能够对任意告警记录的业务标签进行准确分析的业务告警模型，当业务告警设备获取得到目标告警记录时，便利用该业务告警模型对目标告警记录进行分析，得到目标告警记录的业务标签，并生成包含该目标告警记录以及该目标告警记录的业务标签的告警信息，以警示业务维护人员进行查看和采取相关的应对措施。

在采集告警记录时，业务告警设备可以将多条告警记录采集到数据库，也可以是先将多条原始告警记录采集到数据库，然后再对该多条原始告警记录进行数字特征化处理，以在保留原始告警记录的数据特征的情况下减少原始告警记录的数据量，从而得到多条告警记录，其中，原始告警记录包含多条告警项，并且数字特征化处理之后得到告警记录中的告警项并无变化，只是原始告警记录中的告警项下对应是告警数据，该告警数据以数值或文字等字符形式表示，不同的告警项下的告警数据可以用不同的字符形式表示，在对原始告警记录进行数字特征化处理时，实际上是对原始告警记录中的告警项下的告警数据进行数字特征化处理。具体的，按照不同的告警项对应的特征化规则，对多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理得到多条告警记录，举例来说，对告警项“中央处理器使用率”下的告警数据进行数值正整化，对告警项“接口调用”下的告警数据进行哈希计算，对告警项“网络连通”下的告警数据进行字符编码。

上述对多条告警记录进行聚类指的是，直接使用模糊C均值聚类、层次聚类、基于密度的聚类以及k值聚类算法(也称为kmeans算法)中的任意一种聚类算法对上述多个告警记录进行聚类得到多个告警集合，或者先确定待预警的业务的数量为预设数量，然后根据多条告警记录中任意两条告警记录之间的相似距离在多条告警记录中确定出与业务的数量一致的预设数量的聚类中心，并确定分别以每条聚类中心为中心的告警集合，得数量与业务的数量一致的告警集合，即告警集合的数量也为预设数量。其中，确定聚类中心的过程是一个多次聚类的过程，具体的，先在获取得到的多条告警记录中随机选出预设数量的告警记录作为中心对上述获取的多条告警记录进行聚类，得到预设数量的告警集合，然后确定每个告警集合中作为实际中心的告警记录，于是确定得到预设数量的为实际中心的告警记录，再然后以该预设数量的为实际中心的告警记录为中心对上述获取的多条告警记录进行聚类，得到预设数量的新的告警集合，再然后又确定出该预设数量的新的告警集合中作为实际中心的告警记录，并以该新的告警集合中为实际中心的告警记录为中心对上述获取的多条告警记录进行聚类.....直到聚类得到的告警集合中作为实际中心的告警记录不再变化，则将最终确定得到的作为实际中心的告警记录作为聚类中心，得到预设数量的聚类中心，然后以该预设数量的聚类中心为中心对上述获取的多个告警记录进行聚类得到预设数量的告警集合，最后根据人工的标注，确定每个告警集合对应的业务标签，相同告警集合中的告警记录的业务标签相同。

需要说明的是，上述对获取的多个告警记录进行聚类指的是，先计算得到各个告警记录分别与作为中心的告警集合之间相似距离，然后将各个告警记录与其相似距离最近的中心划分到一起。上述确定每个告警集合中作为实际中心的告警记录指的是，计算告警集合中每个告警集合与该告警集合中的其他告警记录之间的平均相似距离，将平均相似距离最小的告警记录作为该告警集合中的实际中心。

上述生成训练样本指的是，将获取得到的多条告警记录以及每条告警记录的业务标签组合在一起得到训练样本。此外，还有另一种生成训练样本的方法是，筛选出上述多条告警记录中的有效告警记录，并将该有效告警记录以及该有效告警记录的业务标签组合在一起得到训练样本，具体的，获取每条告警记录中的每个告警项分别对应的有效阈值，然后根据每条告警记录中的每个告警项分别对应的有效阈值，以及每条告警记录中每个告警项下的告警数值，从多条告警记录中筛选出有效告警记录，最后生成包含该有效告警记录和该有效告警记录的业务标签的训练样本。可见，若采用后一种生成训练样本的方法，则生成的训练样本的质量更高，也使得最终训练得到的业务告警模型的分析效率更高。

需要说明的是，若告警记录中存在告警项下的告警数值不为有效数值，则该告警记录为无效告警记录，只有当告警记录中的所有告警项下的告警数值都为有效数值的情况下，该告警记录才为有效告警记录，其中，判断告警项下的告警数值是否为有效告警数值的方法为，在告警项下的告警数值是否满足于该告警项对应的有效阈值。其中，对应于部分告警项，当告警项下的告警数值大于等于该告警项对应的告警数值时，该告警项下的告警数值满足于该告警项对应的有效阈值，对应于另一部分告警项，当告警项下的告警数值小于等于该告警项对应的告警数值时，该告警项下的告警数值满足于该告警项对应的有效阈值。

在利用上述训练样本训练得到业务告警模型之后，还可以在后续对业务告警模型继续进行训练，以对业务告警模型进行修正。具体的，在业务告警模型分析得到目标告警记录的业务标签之后，接收多条反馈信息，该多条反馈信息分别为不同用户标注的目标告警记录的业务标签，确定出在该多条反馈信息中的出现次数最多的业务标签，并将该出现次数最多的业务标签作为目标告警记录的目标业务标签，最后利用该目标业务标签对业务告警模型进行修正，以实现对业务告警模型的修正过程。需要说明的是，业务告警模型的修正过程的实现可以参考上述业务告警模型的训练过程，只是业务告警模型的训练过程旨在得到一个可以应用于广泛不同的业务告警场景的业务告警模型，而后续的修正过程相当于根据当前所应用的业务告警场景对业务告警模型进行适应性的修改，使得业务告警模型根据实际的使用得到比较好的优化，更适用于解决当前的业务告警问题，例如多次利用业务标签为网络连接业务的告警记录对业务告警模型进行修正，得到的业务告警模型则会更准确的对网络连接业务的异常进行告警，于是前后两次分别对业务告警模型的训练和修改的意义不同。

可见，本申请实施例先通过聚类来获得训练样本，并利用该训练样本来对支持向量机进行训练得到业务告警模型，最后利用业务告警模型对目标告警记录进行分析，便可以快速得到目标告警记录的业务标签，并生成包含该目标告警记录和该目标告警记录的业务标签的告警信息，由于业务告警模型分析出的目标告警记录的业务标签指示了目标告警记录的业务标签所对应的业务出现了异常，即该业务标签对应的业务为异常业务，于是生成的告警信息实现了对异常业务的快速告警。

需要说明的是，图1中所示内容为一种举例，并不构成对本发明实施例的限定。因为在本申请中，业务告警设备可以从任意数量的其他设备中获取任意数量的告警记录。

参见图2，是本申请实施例提供一种业务告警方法的示意流程图，如图2所示业务告警方法可包括：

201：对多条告警记录进行聚类得到该多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签。

在本申请实施例中，业务告警设备先将多条告警记录采集到业务告警设备的数据库，然后获取多条告警记录，并对该多条告警记录进行聚类，以将该多个告警记录划分为多个告警集合，每个告警集合对应于一个业务标签，于是同个告警集合中的告警记录的业务标签一致，业务标签用于指示对应的告警集合中的告警记录所告警的业务，业务为不同网点的网络通信业务，一个网点的网络通信业务对应于一个业务标签，业务与业务标签之间的对应关系可以通过查询业务与业务标签之前的映射关系表得到。告警记录用于描述业务运行情况，每条告警记录中包含多条告警项，告警项为业务的详细运行项目，每个告警项下包含有告警数值，告警数值为告警项所指示的项目的具体数值，告警项例如有时间、机房/网络区域、系统、应用名称、节点、主机名称/互联网协议地址(IP，Internet ProtocolAddress)、中央处理器(CPU，Central Processing Unit)使用率、网络中断/延时、网络连通、磁盘空间/输入输出(IO，Input Output)、接口调用、告警等级、业务影响、上游系统、下游系统、处理预案以及处理结果等。需要说明的是，告警项下的告警数值可以为包括空值的任意值，且部分告警项之间存在固定的对应关系，该对应关系预先被保存在数据库的字典中，当其中一个告警项下有确定的告警数值时，与该告警项存在固定的对应关系的告警项下的告警数值也是确定的，例如“上游系统”和“下游系统”两个告警项之间存在固定的对应关系，在“上游系统”下的告警数值确定的情况下，“下游系统”下的告警数值也确定，即“下游系统”下的告警数值为数据库中的字典中“上游系统”下的告警数值所对应的“下游系统”下的告警数值。

进一步的，上述对多条告警记录进行聚类得到多条告警记录中的每条告警记录所属的告警集合指的是，先确定待预警的业务的数量为预设数量，然后根据业务的数量对多条告警记录进行聚类，得到预设数量的告警集合，告警集合的数量与业务的数量一致，一个告警集合对应一个业务的业务标签，同个告警集合中的告警记录的业务标签一致。其中，在聚类的时候，可以采用模糊C均值聚类、层次聚类、基于密度的聚类以及k值聚类算法(也称为kmeans算法)中的一种聚类方法，本申请实施例对此不做限定。

可选的，上述根据业务的数量对多条告警记录进行聚类，得到预设数量的告警集合指的是，根据上述多条告警记录中任意两条告警记录之间的相似距离，在多条告警记录中确定出预设数量的聚类中心，然后确定分别以每条聚类中心为中心的告警集合，得到预设数量的告警集合。其中，相似距离可以是欧式距离、马氏距离、曼哈顿距离和夹角余弦中的一种，告警记录之间的相似距离的大小，反映了告警记录之间的关联度，相似距离越大，代表告警记录之间的关联度越高，相似距离越小，代表告警记录之间的关联度越低。

更具体的，假设业务有p个维度(例如区域、系统、应用节点以及IP段等)，每个维度对应的业务数量分别有p1、p2、.......pp个，于是总共有p1*p2*......*pp＝n个业务，业务告警设备先从m(m>n)条告警记录中随机确定出n条告警记录作为聚类的中心，然后计算剩余的(m-n)条告警记录分别与该n条中心之间的相似距离，将上述剩余的(m-n)条告警记录分别与其相似距离最小的中心划分到一个告警集合内，于是得到分别包含以上述n条中心的告警集合(假设上述m条告警记录中的第i条告警记录分别与上述n条中心之间的相似距离为a1、a2......an，其中最小的相似距离为a2，于是将该第i条告警记录与第2个中心划分到一个告警集合中，直到将(m-n)条告警记录划分到n个告警集合中)。在得到n个告警集合之后，确定该n个告警集合的实际中心，计算每个告警集合中与该告警集合中其他告警记录的平均相似距离最小的告警记录作为该告警集合的实际中心(假设目标告警集合中包含第i条告警记录，以及该第i条告警记录与该目标告警集合中的其他告警记录之间的相似距离分别为b1、b2......bj，于是上述第i条告警记录与目标告警集合中的其他告警记录之间的平均相似距离为(b1+b2......+bj)/j，参考该计算平均相似距离的方法，可以确定出目标告警集合中的所有告警记录的平均相似距离，并将其中平均相似距离最小的告警记录作为目标告警集合的实际中心)，并将该告警集合的实际中心作为上述m条告警记录的中心，重新对该m条告警记录进行聚类得到n个新的告警集合，再在该每个新的告警集合中确定出新的实际中心.......重复上述以告警集合的实际中心为中心对m条告警记录进行聚合得到n个告警集合，以及重新确定该n个告警集合中的实际中心的过程，直到无论再经过几次上述的过程，得到的n个稳定的告警集合，其实际中心都不再变化，且其包含的告警记录也不再变化。最后将该n个稳定的告警集合中的实际中心作为n个聚类中心，并分别以该n个聚类中心为中心对上述m条告警记录进行聚类，得到n个稳定的告警集合。

可选的，在对多个告警记录进行聚类之前，先将各个来源的告警记录通过分布式消息系统kafka统一采集到数据库mongodb，从而采集得到上述多条告警记录。需要说明的是，上述数据库mongodb是一种基于内存的、支持分片的，且具有快速检索速度和高并发访问的数据库。分布式消息系统kafka是一个分布式、支持分区的、多副本的，基于分布式锁的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景。

可选的，在对多个告警记录进行聚类之前，将各个来源的原始告警记录通过分布式消息系统mongodb统一采集到数据库kafka，从而采集得到多条原始告警记录，然后对该多条原始告警记录进行数字特征化处理之后，才得到上述多条告警记录。具体的，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据，实际上原始告警记录与告警记录中包含的告警项都是一致，只是原始告警记录的告警项下对应的是告警数据，而告警记录的告警项下对应的是告警数值，在将原始告警记录的告警项下的告警数据进行数字特征化处理之后，才得到上述告警记录的告警项下的告警数值。其中，在原始告警记录中，不同的告警项的告警数值可以用不同字符形式表示，字符形式包括数值或文字等，且需要注意的是，有些数据不需要进行数字特征化处理，例如时间等维度数据，而有些数据则需要进行数字特征化处理，例如中央处理器使用率、网络连通和接口调用等常规数据。

需要说明的是，数字特征化处理用于按照数字特征化规则对原始告警记录进行处理，使得处理后得到的告警记录不仅能够在保留原始告警记录的数据特征的情况下，减少原始告警记录的数据量。具体的，在对原始告警记录进行数字特征化处理时，按照不同的告警项对应的特征化规则，对多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理，得到多条告警记录，特征化规则包括对告警数据进行数值正整化，哈希计算以及字符编码中的至少一种，相应的，数字特征化处理包括数值正整化处理，哈希计算处理以及字符编码处理中的至少一种。其中，数值正整化处理指的是将告警数据变换为正整数；哈希计算处理指的是将告警数据变换为哈希值；字符编码处理指的是将告警数据变换为数字编码。还需要注意的是，字符编码用于将不便于传输的告警数据，编码为便于传输的告警数值。告警数据与告警数值之间存在映射关系。

举例来说，告警项“中央处理器使用率”对应的特征化规则为对告警数据进行数值正整化，因此对原始告警记录中的告警项“中央处理器使用率”下的告警数据“96％”进行数值正整化处理，即将中央处理器使用率转换为正整数，得到告警数值“96”；告警项“接口调用”对应的特征化规则为对告警数据进行哈希计算，因此对原始告警记录中的告警项“接口调用”下的告警数据“384592546”进行哈希计算处理，得到告警数值“83c278845f00450c4222da1a4e35f408”；告警项“网络连通”对应的特征化规则为对告警数据进行字符编码，因此对原始告警记录中的告警项“网络连通”下的告警数据“接收到ping端的数据包”进行字符编码处理，得到告警数值“1”，相应的，若原始告警记录中的告警项“网络连通”下的告警数据未“未接收到ping端的数据包”，则字符编码处理之后，得到告警数值“0”。

202：根据上述多条告警记录和上述多条告警记录的每条告警记录的业务标签，生成得到训练样本。

在本申请实施例中，将上述多条告警记录和上述多条告警记录的每条告警记录的业务标签组合在一起，得到用于后续训练支持向量机的训练样本。

可选的，上述根据所述多条告警记录和所述多条告警记录的每条告警记录的业务标签，生成得到训练样本指的是，对上述多条告警记录进行筛选，然后将满足筛选条件的告警记录以及该满足筛选条件的告警记录的业务标签组合在一起，得到用于后续训练支持向量机的训练样本。

具体的，获取每条告警记录中的每个告警项分别对应的有效阈值，每条告警记录中包含多条告警项，每个告警项下包含有告警数值；根据每条告警记录中的每个告警项分别对应的有效阈值，以及每条告警记录中每个告警项下的告警数值，从多条告警记录中筛选出有效告警记录；生成包含该有效告警记录和所述有效告警记录的业务标签的训练样本。

在本申请实施例中，筛选出上述多条告警记录中的有效告警记录，并将该有效告警记录以及该有效告警记录的业务标签组合在一起得到训练样本，具体的，获取每条告警记录中的每个告警项分别对应的有效阈值，然后根据每条告警记录中的每个告警项分别对应的有效阈值，以及每条告警记录中每个告警项下的告警数值，从多条告警记录中筛选出有效告警记录，最后生成包含该有效告警记录和该有效告警记录的业务标签的训练样本。

更具体的，告警记录中的每个告警项都分别对应有一个有效阈值，根据该有效阈值可以判断告警记录的告警项下的数据是否满足筛选条件，从而对上述多个告警记录进行筛选。先获取告警记录中的每个告警项分别对应的有效阈值，然后针对每条告警记录中的告警项的告警数值，对比对应的有效阈值，当告警记录中存在一个告警数值不满足对应的有效阈值的情况下，该告警记录则不满足筛选条件，于是被筛除，反之，如果告警数值中的每个告警数值都满足对应的有效阈值的情况下，于是被选中。其中，对比有效阈值判断告警数值是否满足对应的有效阈值指的是，当告警记录中告警项下的告警数值满足大于或者小于对应的有效阈值，对应于不同的告警项，对应的判断告警数值是否满足对应的有效阈值的方法不同，以及告警项分别对应的告警阈值也不同。

需要注意的是，若告警记录中存在至少一个告警项下的告警数值为有效数值，则该告警记录为无效告警记录，只有当告警记录中的所有告警项下的告警数值都为有效数值的情况下，该告警记录才为有效告警记录，其中，判断告警项下的告警数值是否为有效告警数值的方法可以参照本实施例之前所描述的方法，此处不再赘述。

可选的，若告警记录中存在少于预设数量的告警项下的告警数值为有效数值，则该告警记录为无效告警记录，只有当告警记录中存在至少预设数量的告警项下的告警数值为有效数值的情况下，该告警记录为有效告警记录。或者，每个告警项对应有权重，当告警记录中的包含有效数值的告警项的权重总和超过预设权重时，该告警记录为有效告警记录。

203：利用上述训练样本对支持向量机进行训练，得到业务告警模型。

在本申请实施例中，利用上述训练样本对支持向量机进行训练，使得支持向量机充分学习训练样本中的分类规律，即先将训练样本中的目标告警记录输入到支持向量机中，支持向量机分析得到告警记录的理想的业务标签，而训练样本中包含的是告警记录的实际的业务标签，也即是人工标注的正确的业务标签，因此在理想的业务标签与实际的业务标签不一致的情况下，利用损失函数计算支持向量机进行分类的误差，然后利用该误差对支持向量机进行逆向的训练过程，以修改支持向量机中的参数，最后在使用训练样本中的所有告警记录对该支持向量机进行训练之后，该支持向量机便成为了一个能够对其他任意告警记录进行快速且高效分类的成熟的业务告警模型。

204：利用上述业务告警模型对目标告警记录进行分析得到目标告警记录的业务标签，并生成包括目标告警记录和目标告警记录的业务标签的告警信息。

在本申请实施例中，在训练得到业务告警模型之后，利用该业务告警模型对目标告警记录进行分析，从而分析得到目标告警记录的业务标签，然后生成包含有目标告警记录和该目标告警记录的业务标签的告警信息，告警信息用于指示该目标告警记录的业务标签对应的业务出现了异常，其中，目标告警记录是本端的业务告警设备实时的获取得到的告警记录。

进一步的，通过邮件电话或其它方式通知将上述告警信息发送给运维人员的终端设备，以通知运维人员处理或自动关联执行对应的错误处理程序。在另一种方式中，在将上述告警信息发送给运维人员的终端设备之前，判断目标告警记录的业务标签是否为重要业务标签，若是则执行将上述告警信息发送给运维人员的终端设备的操作。

进一步的，上述生成包括所述目标告警记录和所述目标告警记录的业务标签的告警信息之后，本端的业务告警设备还可以接收多条反馈信息，多条反馈信息分别为不同用户标注的目标告警记录的业务标签；确定出在多条反馈信息中的出现次数最多的业务标签，并将出现次数最多的业务标签作为上述目标告警记录的目标业务标签；利用目标业务标签对上述业务告警模型进行修正。

在本申请实施例中，任意多个用户还可以对上述目标告警记录的业务标签进行人工标注，于是本端的业务告警设备会接收到多条来自于不同用户标注的反馈信息，该反馈信息中包含了用户为目标告警记录标注的业务标签，业务告警设备确定出在接收到的多条反馈信息中出现次数最多的业务标签，并将该出现次数最多的标签作为目标告警记录的目标业务标签，最后利用该目标业务标签来对业务告警模型进行训练，从而进一步对业务告警模型进行修正，使得业务告警模型后续能够更准确的分析出告警记录的业务标签，提高分析的准确度。

举例来说，假设本端的业务告警设备接收到用户为目标告警记录标注的n条反馈信息，其中，有n1条反馈信息为第一业务标签s1，有n2条反馈信息为第二业务标签s2，有n3条反馈信息为第三业务标签s3，n1、n2以及n3的总和为n，且n1大于n2以及n3，可见在该n条反馈信息中出现次数最多的业务标签为第一业务标签s1，因此将第一业务标签s1作为目标告警记录的目标业务标签，于是利用第二业务标签s1对业务告警模型进行训练。

参见图3，是本申请实施例提供另一种业务告警方法的示意流程图，如图3所示业务告警方法可包括：

301：通过分布式消息系统将多条原始告警记录采集到数据库，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据。

在本申请实施例中，在对多个告警记录进行聚类之前，将各个来源的原始告警记录通过分布式消息系统mongodb统一采集到数据库kafka，从而采集得到多条原始告警记录。

302：对上述多条原始告警记录中的每个告警项下的告警数据分别进行数字特征化处理，得到多条告警记录。

在本申请实施例中，在采集到多条原始告警记录之后，对该多条原始告警记录进行数字特征化处理之后，才得到上述多条告警记录。

具体的，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据，实际上原始告警记录与告警记录中包含的告警项都是一致，只是原始告警记录的告警项下对应的是告警数据，而告警记录的告警项下对应的是告警数值，在将原始告警记录的告警项下的告警数据进行数字特征化处理之后，才得到上述告警记录的告警项下的告警数值。其中，在原始告警记录中，不同的告警项的告警数值可以用不同字符形式表示，字符形式包括数值或文字等，且需要注意的是，有些数据不需要进行数字特征化处理，例如时间等维度数据，而有些数据则需要进行数字特征化处理，例如中央处理器使用率、网络连通和接口调用等常规数据。

更具体的，在对原始告警记录进行数字特征化处理时，按照不同的告警项对应的特征化规则，对多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理，得到多条告警记录，特征化规则包括对告警数据进行数值正整化，哈希计算以及字符编码中的至少一种，相应的，数字特征化处理包括数值正整化处理，哈希计算处理以及字符编码处理中的至少一种。

303：对上述多条告警记录进行聚类得到多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签。

在本申请实施例中，上述对多条告警记录进行聚类得到多条告警记录中的每条告警记录所属的告警集合指的是，先确定待预警的业务的数量为预设数量，然后根据业务的数量对多条告警记录进行聚类，得到预设数量的告警集合，告警集合的数量与业务的数量一致，一个告警集合对应一个业务的业务标签，同个告警集合中的告警记录的业务标签一致。其中，在聚类的时候，可以采用模糊C均值聚类、层次聚类、基于密度的聚类以及k值聚类算法(也称为kmeans算法)中的一种聚类方法，本申请实施例对此不做限定。

304：根据上述多条告警记录和多条告警记录的每条告警记录的业务标签，生成得到训练样本。

在本申请实施例中，将上述多条告警记录和上述多条告警记录的每条告警记录的业务标签组合在一起，得到用于后续训练支持向量机的训练样本。或者，对上述多条告警记录进行筛选，然后将满足筛选条件的告警记录以及该满足筛选条件的告警记录的业务标签组合在一起，得到用于后续训练支持向量机的训练样本。

具体的，上述第二种生成训练样本的方式指的是，获取每条告警记录中的每个告警项分别对应的有效阈值，每条告警记录中包含多条告警项，每个告警项下包含有告警数值；根据每条告警记录中的每个告警项分别对应的有效阈值，以及每条告警记录中每个告警项下的告警数值，从多条告警记录中筛选出有效告警记录；生成包含该有效告警记录和所述有效告警记录的业务标签的训练样本。

305：利用上述训练样本对支持向量机进行训练，得到业务告警模型。

306：利用上述业务告警模型对目标告警记录进行分析得到目标告警记录的业务标签，并生成包括目标告警记录和目标告警记录的业务标签的告警信息。

307：接收多条反馈信息，多条反馈信息分别为不同用户标注的目标告警记录的业务标签。

在本申请实施例中，任意多个用户还可以对上述目标告警记录的业务标签进行人工标注，于是本端的业务告警设备会接收到多条来自于不同用户标注的反馈信息，该反馈信息中包含了用户为目标告警记录标注的业务标签。

308：确定出在上述多条反馈信息中的出现次数最多的业务标签，并将该出现次数最多的业务标签作为目标告警记录的目标业务标签。

309：利用目标业务标签对业务告警模型进行修正。

在本申请实施例中，利用上述步骤中确定得到的目标业务标签来对业务告警模型进行训练，从而进一步对业务告警模型进行修正，使得业务告警模型后续能够更准确的分析出告警记录的业务标签，提高分析的准确度。

本申请实施例在第一实施例中的基础上，更加详细的本申请中的业务告警方法的实现过程。需要说明的是，上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请实施例还提供一种业务告警设备，该业务告警设备包含用于执行前述任一项的业务告警方法的单元。具体地，参见图4，是本申请实施例提供的一种业务告警设备的示意框图。本实施例的业务告警设备包括：聚类单元410、生成单元420、训练单元430、分析单元440以及告警单元450。具体的：

聚类单元410，用于对多条告警记录进行聚类得到上述多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签，上述业务标签用于指示对应的告警集合中的告警记录所告警的业务；生成单元420，用于根据上述多条告警记录和上述多条告警记录的每条告警记录的业务标签，生成得到训练样本；训练单元430，用于利用上述训练样本对支持向量机进行训练，得到业务告警模型；分析单元440，用于利用上述业务告警模型对目标告警记录进行分析得到上述目标告警记录的业务标签；告警单元450，用于生成包括上述目标告警记录和上述目标告警记录的业务标签的告警信息。

在一种实施中，业务告警设备还包括确定单元460，用于确定待预警的业务的数量；上述聚类单元410，具体用于根据上述业务的数量对上述多条告警记录进行聚类，得到预设数量的告警集合，上述告警集合的数量与上述业务的数量一致。

在一种实施中，上述聚类单元410，具体用于根据上述多条告警记录中任意两条告警记录之间的相似距离，在上述多条告警记录中确定出预设数量的聚类中心；确定分别以每条聚类中心为中心的告警集合，得到预设数量的告警集合。

在一种实施中，上述生成单元420，具体用于获取每条告警记录中的每个告警项分别对应的有效阈值，每条告警记录中包含多条告警项，每个告警项下包含有告警数值；根据上述每条告警记录中的每个告警项分别对应的有效阈值，以及上述每条告警记录中每个告警项下的告警数值，从上述多条告警记录中筛选出有效告警记录；生成包含上述有效告警记录和上述有效告警记录的业务标签的训练样本。

在一种实施中，上述业务告警设备还包括采集单元470，用于通过分布式消息系统将多条原始告警记录采集到数据库，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据；预处理单元480，用于对上述多条原始告警记录中的每个告警项下的告警数据分别进行数字特征化处理，得到上述多条告警记录，上述多条告警记录中的每条告警记录中包含多条告警项，每个告警项下包含有告警数值。

在一种实施中，上述预处理单元480，具体用于按照不同的告警项对应的特征化规则，对上述多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理，得到上述多条告警记录，上述特征化规则包括对上述告警数据进行数值正整化，哈希计算以及字符编码中的至少一种。

在一种实施中，业务告警设备还包括接收单元490，该接收单元用于接收多条反馈信息，上述多条反馈信息分别为不同用户标注的上述目标告警记录的业务标签；业务告警设备还包括确定单元460，该确定单元用于确定出在上述多条反馈信息中的出现次数最多的业务标签，并将上述出现次数最多的业务标签作为上述目标告警记录的目标业务标签；上述训练单元430还用于，利用上述目标业务标签对上述业务告警模型进行修正。

在本申请实施例中，业务告警设备中的聚类单元通过聚类将多条告警记录聚类成个数与业务个数一致的告警集合，每个告警集合用于告警一个业务，同个告警集合中的告警记录对应于一个业务标签，然后生成单元将告警记录和告警记录的业务标签组合为训练样本，训练单元利用该训练样本对支持向量机进行训练得到业务告警模型，最后分析利用业务告警模型对目标告警记录进行分析，便可以快速得到目标告警记录的业务标签，并且告警单元生成包含该目标告警记录和该目标告警记录的业务标签的告警信息。可见，本申请实施例先通过聚类来得到包含告警记录和告警记录的业务标签的训练样本，然后利用该训练样本训练支持向量机得到业务告警模型，最后利用业务告警模型分析其他接收到的告警记录的业务标签，而业务告警模型分析出的目标告警记录的业务标签指示了目标告警记录的业务标签所对应的业务出现了异常，即该业务标签对应的业务为异常业务，然后生成包含有该目标告警记录以及该目标告警记录的业务标签的告警信息，用以实现对异常业务的快速告警。

参见图5，是本申请另一实施例提供的一种业务告警设备示意框图。如图所示的本实施例中的业务告警设备可以包括：处理器510和存储器520。上述处理器510和存储器520通过总线530连接。具体的：

处理器510，用于执行聚类单元410的功能，用于对多条告警记录进行聚类得到上述多条告警记录中的每条告警记录所属的告警集合，不同的告警集合对应于不同的业务标签，上述业务标签用于指示对应的告警集合中的告警记录所告警的业务；处理器510，用于执行生成单元420的功能，用于根据上述多条告警记录和上述多条告警记录的每条告警记录的业务标签，生成得到训练样本；处理器510，用于执行训练单元430的功能，用于利用上述训练样本对支持向量机进行训练，得到业务告警模型；处理器510，用于执行分析单元440的功能，用于利用上述业务告警模型对目标告警记录进行分析得到上述目标告警记录的业务标签；处理器510，用于执行告警单元450的功能，用于生成包括上述目标告警记录和上述目标告警记录的业务标签的告警信息。

在一种实施中，处理器510，还用于执行确定单元460的功能，用于确定待预警的业务的数量；处理器510，具体用于根据上述业务的数量对上述多条告警记录进行聚类，得到预设数量的告警集合，上述告警集合的数量与上述业务的数量一致。

在一种实施中，处理器510，具体用于根据上述多条告警记录中任意两条告警记录之间的相似距离，在上述多条告警记录中确定出预设数量的聚类中心；确定分别以每条聚类中心为中心的告警集合，得到预设数量的告警集合。

在一种实施中，处理器510，具体用于获取每条告警记录中的每个告警项分别对应的有效阈值，每条告警记录中包含多条告警项，每个告警项下包含有告警数值；根据上述每条告警记录中的每个告警项分别对应的有效阈值，以及上述每条告警记录中每个告警项下的告警数值，从上述多条告警记录中筛选出有效告警记录；生成包含上述有效告警记录和上述有效告警记录的业务标签的训练样本。

在一种实施中，处理器510，还用于执行采集单元470的功能，用于通过分布式消息系统将多条原始告警记录采集到数据库，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据；处理器510，还用于执行预处理单元480的功能，用于对上述多条原始告警记录中的每个告警项下的告警数据分别进行数字特征化处理，得到上述多条告警记录，上述多条告警记录中的每条告警记录中包含多条告警项，每个告警项下包含有告警数值。

在一种实施中，处理器510，具体用于按照不同的告警项对应的特征化规则，对上述多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理，得到上述多条告警记录，上述特征化规则包括对上述告警数据进行数值正整化，哈希计算以及字符编码中的至少一种。

在一种实施中，业务告警设备还包括输入设备540，用于执行接收单元490的功能，用于接收多条反馈信息，上述多条反馈信息分别为不同用户标注的上述目标告警记录的业务标签；上述处理器510，还用于执行确定单元460的功能，用于确定出在上述多条反馈信息中的出现次数最多的业务标签，并将上述出现次数最多的业务标签作为上述目标告警记录的目标业务标签；上述处理器510，还用于利用上述目标业务标签对上述业务告警模型进行修正。

应当理解，在本申请实施例中，所称处理器510可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器510还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器520可以包括只读存储器和随机存取存储器，并向处理器510提供指令和数据。存储器520的一部分还可以包括非易失性随机存取存储器。例如，存储器520还可以存储设备类型的信息。

计算机可读存储介质可以是前述任一实施例的业务告警设备的内部存储单元，例如业务告警设备的硬盘或内存。计算机可读存储介质也可以是业务告警设备的外部存储设备，例如业务告警设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，计算机可读存储介质还可以既包括业务告警设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及业务告警设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

具体实现中，本申请实施例中所描述的处理器510可执行本申请实施例提供的业务告警方法的第二实施例和第三实施例中所描述的实现方式，也可执行本申请实施例所描述的业务告警设备的实现方式，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同业务告警方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的业务告警设备和单元的具体工作过程，可以参考前述业务告警方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的业务告警设备和业务告警方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，业务告警设备，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种业务告警方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对多条告警记录进行聚类得到所述多条告警记录中的每条告警记录所属的告警集合，包括：

确定待预警的业务的数量；

根据所述业务的数量对所述多条告警记录进行聚类，得到预设数量的告警集合，所述告警集合的数量与所述业务的数量一致。

3.根据权利要求2所述的方法，其特征在于，所述根据所述业务的数量对所述多条告警记录进行聚类，得到预设数量的告警集合，包括：

根据所述多条告警记录中任意两条告警记录之间的相似距离，在所述多条告警记录中确定出预设数量的聚类中心；

确定分别以每条聚类中心为中心的告警集合，得到预设数量的告警集合。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述根据所述多条告警记录和所述多条告警记录的每条告警记录的业务标签，生成得到训练样本，包括：

获取每条告警记录中的每个告警项分别对应的有效阈值，每条告警记录中包含多条告警项，每个告警项下包含有告警数值；

根据所述每条告警记录中的每个告警项分别对应的有效阈值，以及所述每条告警记录中每个告警项下的告警数值，从所述多条告警记录中筛选出有效告警记录；

生成包含所述有效告警记录和所述有效告警记录的业务标签的训练样本。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对多条告警记录进行聚类之前，还包括：

通过分布式消息系统将多条原始告警记录采集到数据库，每条原始告警记录中包含多条告警项，每个告警项下包含有告警数据；

对所述多条原始告警记录中的每个告警项下的告警数据分别进行数字特征化处理，得到所述多条告警记录，所述多条告警记录中的每条告警记录中包含多条告警项，每个告警项下包含有告警数值。

6.根据权利要求5所述的方法，其特征在于，所述对所述多条原始告警记录中的每个告警项下的告警数据分别进行数字特征化处理，得到所述多条告警记录，包括：

按照不同的告警项对应的特征化规则，对所述多条原始告警记录中的每条原始告警记录中的不同告警项下的告警数据进行数字特征化处理，得到所述多条告警记录，所述特征化规则包括对所述告警数据进行数值正整化，哈希计算以及字符编码中的至少一种。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述生成包括所述目标告警记录和所述目标告警记录的业务标签的告警信息之后，还包括：

接收多条反馈信息，所述多条反馈信息分别为不同用户标注的所述目标告警记录的业务标签；

确定出在所述多条反馈信息中的出现次数最多的业务标签，并将所述出现次数最多的业务标签作为所述目标告警记录的目标业务标签；

利用所述目标业务标签对所述业务告警模型进行修正。

8.一种业务告警设备，其特征在于，包括：

9.一种业务告警设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如权利要求1-7任一项所述的方法。