CN111352808B

CN111352808B - 告警数据处理方法、装置、设备及存储介质

Info

Publication number: CN111352808B
Application number: CN202010140261.9A
Authority: CN
Inventors: 张戎; 董善东; 姚华宁; 黄小龙; 梁晓聪; 张加浪; 黄荣庚; 高传泽; 李雄政; 胡婧茹; 任思宇; 李剑锋
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-04-25
Anticipated expiration: 2040-03-03
Also published as: CN111352808A

Abstract

本申请公开了一种告警数据处理方法、装置、设备及存储介质，该方法包括：获取监测对象集合中各监测对象对应的告警数据；基于合并规则，从该告警数据中提取与该合并规则相对应的告警数据进行合并处理，该合并规则是对该监测对象集合的历史告警数据进行分析确定的；对合并处理后的告警数据进行发送。本申请实施例在对获取到的监测对象的告警数据后，利用通过对监测对象的历史告警数据进行分析确定的合并规则，以将合并规则对应的监测对象的告警数据进行合并发送，以提高告警数据的预处理速度，提高科学性。

Description

告警数据处理方法、装置、设备及存储介质

技术领域

本发明一般涉及计算机技术领域，尤其涉及告警数据处理方法、装置、设备及存储介质。

背景技术

随着互联网的发展，在互联网公司里面，通常都会对成千上万的业务指标，服务器指标，或者流量指标进行监控，从而保证整个系统的稳定性。但是在对这些指标进行监控时，将会产生很多告警，并需要将产生的告警推送到处理设备。

目前，为了减少告警的推送次数，从监测对象的时间序列出发，通过对监测对象的时间序列的波动特征进行分析，将时间序列波动一致的监测对象作为关联对象，以对对应的告警数据进行合并发送；另外，通过经验，人为的设置规则，以将相关的告警数据合并到一起发送。

对于上述的通过对监测对象的时间序列的波动特征的分析，进行相互关联的监测对象的确定，使得计算耗时长；对于利用人工设置规则的方式，来合并告警数据，使得人为因素多，科学性低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种告警数据处理方法、装置、设备及存储介质，利用通过监测对象的历史告警数据进行分析来确定的合并规则，对相关联的监测对象的告警数据进行合并，以减少告警发送量。

第一方面，提供一种告警数据处理方法，该方法包括：

获取监测对象集合中各监测对象对应的告警数据；

基于合并规则，从该告警数据中提取与该合并规则相对应的告警数据进行合并处理，该合并规则是对该监测对象集合的历史告警数据进行分析确定的；

对合并处理后的告警数据进行发送。

第二方面，本申请实施例提供一种告警数据处理装置，该装置包括：

第一获取模块，用于获取监测对象集合中各监测对象对应的告警数据；

合并模块，用于基于合并规则，从该告警数据中提取与该合并规则相对应的告警数据进行合并处理，该合并规则是对该监测对象集合的历史告警数据进行分析确定的；

发送模块，用于对合并处理后的告警数据进行发送。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如第一方面所述的告警数据处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如第一方面所述的告警处理方法。

本申请实施例提供的告警数据处理方法、装置、设备及存储介质，在对获取到的监测对象的告警数据后，利用通过对监测对象的历史告警数据进行分析生成的合并规则，以将合并规则对应的监测对象的告警数据进行合并发送，以提高告警数据的预处理速度，提高合并的科学性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例的监测对象的时间序列示意图；

图2为本申请实施例的告警显示界面示意图；

图3为本申请实施例的告警数据处理方法流程示意图；

图4为本申请实施例的合并规则确定方法的流程示意图；

图5为本申请又一实施例的合并规则确定方法的流程示意图；

图6为本申请又一实施例的合并规则确定方法的流程示意图；

图7为本申请又一实施例的告警数据处理方法流程示意图；

图8为本申请又一实施例的告警数据处理方法流程示意图；

图9为本申请实施例的告警数据处理装置的结构示意图；

图10为本申请实施例提供的一种设备结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在互联网应用场景中，通过设置计算机设备，对系统中成千上万的业务线、服务器、或者流量等进行监控，即可以实时的接收到所上报的监测对象的监测信息。

例如，对于某个客户端对应的系统，待监测的对象有多个，如APP在线用户数、用户访问数据库的时间、用户访问某个页面的成功率、后台服务器的内存、后台服务器的物理硬件故障等。

对于上述场景下，在监控过程中，监测的计算机设备可以获取到各监测对象对应的时间序列，进而对监测到的时间序列进行分析，来产生告警。

可以理解，所获取的监测对象的时间序列，指的是一组按照时间发生先后顺序进行排列的数据点序列。一组时间序列的时间间隔通常为一个恒定值(如10秒钟，1分钟，10分钟，1小时等)。如图1所示，每分钟对应一个监控数据点，按照分钟连续起来的时间序列所对应的数据线。其中，三条数据线分别表示今天、昨天及一周前的数据。

还可以理解，当客户端对应的系统出现某故障的时候，会在相应的监测对象的时间序列上呈现突增或者突降的状况，即时间序列出现异常点。

如图1所示，获取的时间序列中存在异常点，即在时间序列中的某些时间戳上的取值偏离了时间序列整体的趋势，或者与历史的走势明显不相符的点。

进一步，当某个监测对象的时间序列中出现了多个异常点的时候，如连续三分钟异常或者五分钟内有四个点异常，则可以将该异常作为该监测对象的一次告警。

最后，可以将本次告警对应的告警数据向其他设备推送。如通过微信、QQ、小程序及企业微信等方式推送到负责人的终端上。

例如，在一种方式中通过小程序推送，图2表示告警接收界面的示意图，界面内可以显示告警的发生时间、接收时间、告警内容、发送人及操作等关键字段。

可以理解，在另一种情形下，可以不以时间序列的方式上报监测信息，即计算机设备直接可以接收到监测对象的异常信息，如报错字符串等，以表示待监测的对象出现故障，需要告警，即可以将每次接收到的监测对象的报错信息，作为一次告警，如硬件计算机的宕机或者断电等故障。

在实际应用中，为了减少告警数据的发送次数，避免针对每次告警进行一次发送，可以对两个或两个以上的告警对应的告警数据进行合并发送。即在待监测的对象的时间序列出现异常，或者接收到监测对象的报错字符串之后，计算机设备可以把相互关联的的监测对象的告警进行合并发送，以减少告警数据发送次数，实现告警合并。

例如，图1所述的由多个监测对象对应的时间序列所产生的多个告警，则可以将对应的告警数据封装合并成一条告警消息进行发送。

相互关联的监测对象表示彼此的稳定运行相互关联，互相影响。如客户端运行系统中，APP在线用户数与用户访问某个页面的成功率这两个监测对象，如果用户访问某个页面不成功，即成功率降低，则可能导致大量的用户离线，则说明这两个监测对象是相互关联的。或者系统中后台服务器的内存减少，则可以使得数据库访问变慢，出现卡顿等现象，进而可能导致大量的用户离线，即后台服务器内存、数据库访问时间及APP在线用户数这三个监测对象是相互关联的。

可以理解，目前对于合并规则的生成，主要通过对原始的监测对象的时间序列进行分析，将时间序列的波动一致的两个或多个监测对象作为相互关联的监测对象，对应生成一个合并规则，该方法的复杂度高，计算速度慢；另外，根据经验，通过人为来制定相互关联的监测对象，即认为设置合并规则，导致科学性低。

本申请为了提高告警数据的处理速度，减少计算量，提高科学性，预先通过对监测对象的历史告警数据进行分析，来确定相互关联的监测对象，生成对应的合并规则，以对告警数据进行合并处理。

为了便于理解和说明，下面通过图3至图10详细阐述本申请实施例提供的告警数据处理方法、装置、设备及存储介质。

图3所示为本申请实施例提供的告警数据处理方法流程示意图，该方法可以由计算机设备执行，具体包括：

S110，计算机设备获取监测对象集合中各监测对象对应的告警数据；

S120，计算机设备基于合并规则，从该告警数据中提取与该合并规则相对应的告警数据进行合并处理，该合并规则是对该监测对象集合的历史告警数据进行分析确定的。

S130，计算机设备对处理后的告警数据进行发送。

具体的，本申请实施例中，在对系统中各监测对象进行监测的过程中，可以在预设的周期内，如10分钟为一个周期，实时获取系统中所有监测对象的告警数据。

可以理解，为了方便理解和处理，可以将系统大量的监测对象，作为一个集合，即监测对象集合，表示为{obj_i:1≤i≤m}。

其中obj_i表示第i个监测对象。m表示整个系统中监测对象的总数，i和m为自然数。

实际中，所获取的监测对象集合中各监测对象的告警数据可以从接收到的时间序列中提取的，如将监测对象中，连续出现多个异常点作为该监测对象的一次告警；或者，该告警数据是从接收到的报错字符串中提取，进而记录每次告警的发生时间及标识。

每个监测对象对应的每次告警，其发生时间可以为第一个异常点出现的时间，或者接收到报错字符串的时间。其告警标识，即ID可以用alarm来表示，对应的，所有的告警用集合可以表示为：{alarm_j:1≤j≤n}。

其中，alarm_j表示所有告警中的第j次告警，n表示一个监测周期内，整个系统当前的所有告警次数。

如表1所示，获取到的各告警数据可以记录如下：

告警id	告警发生时间	对象名
			1	2020-01-02 02:00:00	XXX
2	2020-01-02 22:00:00	YYY
			3	2020-01-02 02:01:00	ZZZ
4	2020-01-02 22:30:00	TTT

例如，在上述的客户端系统的监测过程中，可以以一定的周期，实时获取到上述监测对象集合中各监测对象的时间序列，或者获取到某监测对象的报错字符串，从而提取到对应的告警数据。如可以从接收到的APP在线用户数、页面打开成功率、数据库访问时间及后台服务器的内存等监测对象的时间序列中，提取到对应的告警数据，如APP在线用户数对应的时间序列中，记录连续出现骤降的时间，及分配的标识；或者记录其他监测对象的时间序列中出现的异常点，对应的时间，及分配的标识。

进一步，在获取到各监测对象的告警数据后，可以利用预先生成的合并规则，对监测对象集合对应的所有告警数据进行预处理。即以合并规则为依据，判断是否存在合并规则中对应的相互关联的监测对象，如果存在，则可以将合并规则对应的相互关联的监测对象的告警数据提取出来，以进行合并处理。

该合并规则，可以为一个合并对象集合，合并对象集合中可以包括至少一个合并规则，该合并规则指的是监测对象集合中相互关联的监测对象，即每个合并规则中可以包含至少两个监测对象，每个合并规则可以理解为其所包含的监测对象将同时出现告警。该合并规则是利用定义的分析策略，对该监测对象集合的各监测对象所对应的历史告警数据分析得到的。

对应的，在监测过程中，如果合并规则中对应的两个或两个以上的待监测对象中的监测对象一起出现了异常，则可以将这些监测对象的告警进行合并发送。

例如，对于上述客户端系统的监测场景中，该合并规则可以包括：“APP在线用户数

数据库访问时间”；“页面打开成功率

后台服务器的内存”；APP在线用户数

页面打开成功率”。

则实时监测到的告警可以包括APP在线用户数的告警、页面打开成功率的告警、数据库访问时间的告警及后台服务器的内存的告警等。

则在基于确定的合并规则，对获取的监测对象的告警数据进行合并的时候，根据上述合并规则，APP在线用户数及数据库访问时间这两个监测对象将同时出现告警，则可以提取该合并规则对应的监测对象的告警数据，然后对提取到的APP在线用户数及数据库访问时间这两个监测对象的告警数据组进行合并处理，生成一条告警消息。

同时，根据确定的合并规则，数据库访问时间及后台服务器内存这两个监测对象将同时出现告警时，则可以提取该合并规则对应的监测对象的告警数据组，然后对提取到的数据库访问时间及后台服务器内存这两个监测对象的告警数据组进行合并处理，生成一条告警消息。

最后，在将监测对象的告警数据合并处理后，可以对合并处理得到的告警消息进行发送，以推送给负责告警处理的负责人的计算机设备，即实现多个告警合并成一条告警进行发送。

例如，可以通过微信、QQ、小程序及企业微信等方式进行告警数据的推送，使得用户在显示界面内，点击查看一条告警之后，会看到与之相关的多条告警。

如图2所示，利用配置的小程序进行推送的告警消息的显示时，可以以列表的形式显示每条告警的关键字，如显示发生时间、接收时间、告警类型、对象类型、对象名、告警内容及操作等。

进一步的，在另一实施例中，为了方便接收端的查看及处理，计算机设备对告警数据进行合并处理后，对告警数据的处理还包括：

S125，计算机设备获取合并规则中所包含监测对象的影响因子。

S126，计算机设备按照影响因子将合并规则中所包含监测对象进行排序处理。

具体的，在对能够合并的告警数据进行合并后，还可以按照监测对象的重要程度进行排序，最后将排序后的告警数据进行发送。使得接收端的用户点击一条告警之后，会看到与之相关的多条告警，并且多条告警按照重要性排序。

实际中，对于重要程度的确定，可以按照影响因子来确定，具体可以获取合并规则中所包含每个监测对象对应的影响因子。进而按照影响因子将该合并规则中所包含监测对象进行排序处理。

例如，在客户端系统中，相对于后台服务器内存，数据库访问时间的告警比较重要，则在将这两个监测对象的告警数据进行合并处理时，可以将数据库访问时间的告警数据放置在前面，而将后台服务器内存的告警数据放置在后面。

可以理解，上述客户端系统中的合并规则及重要程度等只是示例性说明，具体的合并规则根据监测对象的历史告警数据分析来得到。本申请对此不做限制。

本申请实施例的告警数据处理方法，在对告警数据发送的过程中，通过基于历史的告警数据生成的合并规则，来确定能够合并发送的告警数据，进而根据合并规则将能够合并发送的告警数据进行压缩发送，从而降低了发送的告警数据，提高了告警数据的预处理速度，并提高了告警数据合并发送的科学性。

可选的，本申请实施例中，对于通过对监测对象的历史告警数据的分析，来生成合并规则，具体可以通过多种预先定义的分析策略来对历史告警数据进行分析，确定该监测对象集合中相互关联的监测对象。

该预先定义的分析策略可以为关联策略、协同过滤策略及连通图策略中的一种或多种组合。本申请对此不做限制。

可以理解，本申请中的监测对象集合中相互关联的两个或两个以上的一组监测对象，可以作为该监测对象集合的一个合并规则。

可选的，在一种实施例中，如图4所示，确定合并规则的具体方法可以包括如下步骤：

S121，计算机设备获取该监测对象集合中各监测对象对应的历史告警数据；

S122，计算机设备按照预先定义的分析策略对历史告警数据进行分析，确定监测对象集合中相互关联的监测对象，相互关联的两个或两个以上的监测对象作为该监测对象集合的一个合并规则。

具体的，计算机设备在生成监测对象集合对应的合并规则时，可以获取监测对象集合中每个监测对象的历史告警数据，获取的历史告警数据同样可以包括监测对象的名称、告警标识及告警时间。

可以理解，可以通过对象名称和告警时间可以对应一条唯一的告警信息。

另外，所获取的各监测对象的历史告警数据同样可以如表1所示的方式进行存储记录。

可以理解，所获取的监测对象集合中各监测对象的告警数据为过去预设时间段内的告警数据，如过去三天或一周。并且，还可以获取多个预设时间段内的告警数据，如以三天或一周为周期，连续获取过去的多个三天或一周内的监测对象的告警数据。

例如，对于客户端的系统监测，则可以获取过去三天内或一周内的APP在线用户数、用户访问数据库的时间、用户打开某个页面的成功率、后台服务器内存、后台服务器物理硬件等监测对象的历史告警数据。

可以理解，同样为了方便计算，可以将系统的所有监测对象，作为一个集合，即{obj_i:1≤i≤m}。

其中obj_i表示第i个监测对象。m表示整个系统中监测对象的总数。i和m为自然数。

上述所有待监测对象对应的每个告警，告警标识可以用alarm来表示，所有的告警用集合可以表示为：{alarm_j:1≤j≤n}。

其中，alarm_j表示所有告警中的第j个告警，n表示整个系统的预设时间段内的所有告警次数。

进一步，在获取到上述监测对象的历史告警数据后，可以通过对历史告警数据进行分析，来确定该监测对象集合中相互关联的监测对象，进而根据得到的相互关联的两个或两个以上监测对象来确定，并生成合并规则，即将相互关联的两个或两个以上监测对象作为一个合并规则。

在一种实施例中，如图5所示，通过监测对象集合中各监测对象的历史告警数据，来确定该监测对象集合中相互关联的监测对象的方法可以包括如下步骤：

S1221，计算机设备将预设时间段划分成多个分割时间段。

S1222，计算机设备基于该历史告警数据，分别确定该监测对象集合中各个监测对象在预设时间段中的各分割时间段内的告警次数。

S1223，计算机设备基于告警次数确定监测对象集合中相互关联的监测对象。

具体的，在获取到上述监测对象的历史告警数据后，确定监测对象集合中相互关联的监测对象时，首先可以根据应用场景，如监测的客户端系统等场景要求，对预设时间段进行划分，得到多个分割时间段。在划分完以后，则可以确定该监测对象集合中每个监测对象在预设时间段中各分割时间段内的告警次数，进而可以以每个监测对象，在预设时间段内的每个分割时间段内的告警次数为基础，分析所有监测对象的告警次数，以确定相互关联的监测对象，最后生成监测对象集合对应的多个合并规则。

可选的，本申请实施例中，对获取历史告警数据时对应的预设时间段进行划分，可以平均划分成多个分割时间段，如将三天的预设时间段，每隔10分钟或半个小时划分为多个分割时间段。

可以理解，对于不同的监测系统，预设时间段的分割可能不一致，具体根据实际情况确定，本申请对此不做限制。

例如，为了方便理解，所获取的历史告警数据对应的整个时间段可以用[a，b]来表示。其中，时间戳a在时间戳b前面。可以把整个时间段等分或按照一定的规则划分成n个分割时间段，划分时间戳用a＝t₀＜t₁＜…＜t_n-1＜t_n＝b来表示。

在此基础上，为了方便计算，可以根据时间段的划分，以及历史告警数据，构建历史告警数据的历史告警矩阵，该历史告警矩阵中每个元素可以表示每个监测对象在预设时间段内的各分割时间段产生的告警次数。进而可以按照预先定义的分析策略对得到历史告警矩阵中的行向量进行分析，确定监测对象集合中相互关联的监测对象。

所构建上述各监测对象的历史告警矩阵可以如下表示：

其中，a_ij表示第i个监测对象obj_i在分割时间段[t_j-1，t_j]所发生的告警次数。

可以理解，在该告警矩阵中，每一个元素为自然数，且a_ij越大，表示obj_i在分割时间段[t_j-1，t_j]时间段内发生的告警次数越多。

即可以确定得到第i个监测对象obj_i在分割时间段[t_j-1，t_j]所发生的告警次数a_ij。

进一步，在得到每个监测对象在每个分割时间段内的告警次数，进而可以利用该告警次数来确定监测对象集合中相互关联的监测对象。

例如，在对所有的监测对象的各分割时间段的告警数据进行分析时，可以以监测对象集合中的所有的监测对象组中每个监测对象的告警次数为分析对象，确定该监测对象集合中相互关联的监测对象，该监测对象组可以包括两个或两个以上的该监测对象集合中的监测对象。

即在实际分析过程中，可以将监测对象集合中的所有监测对象随机进行两两组合，得到对应的所有的监测对象组。进而可以以监测对象组为分析对象，通过对监测对象组中每个监测对象的在预设时间段内的每个分割时间段内的告警次数，即通过确定两个监测对象是否在某个分割时间段同时发生了告警，来分析哪些监测对象组中的监测对象是相互关联的。

例如，对于关联分析策略及联通子图分析策略，在获取到上述监测对象的历史告警数据后，可以通过计算监测对象集合中各监测对象组在预设时间段内同时发生的总告警次数，即同步告警次数，来确定该监测对象集合中相互关联的监测对象，进而根据得到的相互关联的监测对象来生成合并规则。

可以理解，如果两个监测对象在同一个分割时间段内都发生了告警，则表示两个监测对象同时发生了一次告警，即一次同步告警。

例如，在实际确定是否同时发生了告警，以及同时发生告警的次数的确定，对于上述的历史告警矩阵，可以按照预先定义的分析策略对历史告警矩阵中的任意两个行向量进行分析，以确定与两个行向量一一对应的监测对象之间是否相互关联。

具体的，如图6所示，当预设算法为关联算法时，对于合并规则的确定，可以包括如下步骤：

S01，计算机设备计算该监测对象集合中的各监测对象组中的两个该监测对象在该预设时间段内的同步告警次数。

S02，计算机设备将该同步告警次数大于第一预设阈值时，对应的该监测对象组中两个监测对象确定为相互关联。

具体的，对于整个系统中的多个监测对象，即监测对象集合，在获取到的该监测对象集合的一段时间内的历史告警数据后，可以对该监测对象集合中的任意两个监测对象为分析对象，从所有的监测对象组中确定相互关联的监测对象组合时，可以计算监测对象集合中所有的监测对象组在预设时间段内的同步告警次数。

对于每个监测对象组的同步告警次数的计算，在计算得到所有监测对象组中的两个监测对象在预设时间段内的每个分割时间段发生告警的次数之后，从而可以确定每个监测对象组中两个监测对象在同一分割时间段是否发生告警，如果两个监测对象在同一个分割时间段都发生了告警，则同步告警次数计数一次，即加一，最后将所有分割时间段内同时发生告警的计数进行求和，即可得到监测对象组合在预设时间段内的同步告警次数。

对于上述的告警矩阵中，如对于两个监测对象

和

可以计算

和

在对应的时间段[a,b]内的同步告警次数，即可以分别计算

和

在分割时间段[t_j-1，t_j]内同时发生告警次数，然后确定所有分割时间段内

和

同时发生告警的次数作为监测对象

和

在对应的时间段[a,b]内的同步告警次数。可以用符号

来表示，如下所示：

该计算值表示在时间段[a,b]内，监测对象

和

的同步告警次数。

在利用上述历史告警矩阵进行计算时，如对于监测对象obj_i1和

首先对其对应的两个行向量进行统计，得到与两个行向量对应的监测对象的同步告警次数。即可以统计这两个行向量中相同位置的元素同时出现大于0的次数，以将该次数作为两个行向量对应的监测对象的同步告警次数。

进一步，在得到同步告警次数后，可以将每个监测对象组在预设时间段内同时发生的同步告警次数与第一预设阈值进行比较，如果某个监测对象组的同步告警次数大于该第一预设阈值，则表示该监测对象组中的两个监测对相互关联，即该监测对象为相互关联的监测对象组合，即得到了一个合并规则。

预先设置的第一预设阈值可以为δ₁，则同步告警次数大于该第一预设阈值的监测对象组为相互关联的监测对象组合，即提出所有满足上述条件的监测对象组合，得到监测对象集合中所有的相互关联对象，从而得到如

的合并规则，即得到监测对象集合对应的多个合并规则。

可以理解，通过计算监测对象集合中每个监测对象组的同步告警次数，并与第一预设阈值比较后，可以得到多个相互关联的待监测对象组合，即可以得到多个合并规则。

例如，对于客户端系统的监测，经过上述计算，可以发现APP在线用户数、数据库访问时间在一段时间段内同时发生告警次数大于第一预设阈值，即得到了“APP在线用户数

数据库访问时间”的合并规则。该合并规则表示APP在线用户数及数据库访问时间将在同时出现告警，即这两个监测对象是相互关联的。

可以理解，在实际系统运行过程中，如果数据库访问时间大幅度降低，将导致大量的用户离线，即导致APP在线用户数大幅度降低，从而使得APP在线用户数及数据库访问时间将同时出现告警。

进一步，在得到该合并规则后，在实际监测过程中，当APP在线用户数及数据库访问时间出现告警时，则可以将这两个监测对象的告警数据进行合并发送，以减少告警发送次数。

可以理解，在该算法的计算过程中，是以任意两个监测对象组为分析对象，得到包括两个监测对象的合并规则。在实际中，可能存在两个或两个以上相互关联的监测对象，即得到的合并规则可以为

对应的，在对告警数据合并时，可以将者两个或多个监测对象对应的告警数据进行合并处理发送，即将

及

这三个监测对象的告警数据合并处理发送。

可选的，在另一实施例中，对于协同过滤算法，通过分析监测对象集合中，所有监测对象组中的两个监测对象在每个分割时间段内的告警次数，即在告警矩阵中对应的行向量的相似度，来确定该监测对象集合中的相互关联的监测对象组合。

具体的，如图7所示，该方法可以包括如下步骤：

S03，计算机设备计算该监测对象集合中的每个监测对象组中的两个监测对象在该预设时间段内的告警次数的相似度。

S04，计算机设备将该相似度大于第二预设阈值时，对应的该监测对象组中的两个监测对象确定为相互关联。

具体的，对于监测对象集合中的所有监测对象，首先同样可以进行两两组合，即得到监测对象集合对应的所有监测对象组，进而对于所有监测对象组，计算每个监测对象组中两个监测对象在预设时间内告警次数的相似度。

进而将每个监测组的告警次数的相似度与预设值，即第二预设阈值进行比较，如果大于第二预设阈值，则表示该监测对象组为相互关联的监测对象组合，则将该监测对象组合作为一个合并规则。

可以理解，通过分别计算监测对象集合中所有监测对象组中两个监测对象之间的告警次数相似度，并与第二预设阈值进行对比，可以得到该监测对象集合中所有相互关联的监测对象组合，即得到该监测对象集合的所有合并规则。

例如，在利用上述的历史告警矩阵进行计算时，具体可以计算该历史告警矩阵中任意两个行向量的相似度，得到与这两个行向量对应的监测对象的相似度。若所述相似度大于第二预设阈值，确定与两个行向量对应的监测对象之间相互关联。

例如，对于监测集合中的监测对象

和

考虑它们在告警矩阵中的行向量，即在预设时间段中每个分割时间段内的告警次数：

以及

进而计算这两个向量之间的相似度。即：

其中，“·”表示两个向量的内积，“||·||”表示向量的长度。在实际使用的时候，预先设定第二预设阈值为δ₂，则将

的所有监测对象组包括的监测对象提取出来，作为相互关联的监测对象组合，即可以得到形如

的合并规则。

可以理解，在实际监测过程中，如果相互关联的两个监测对象一起出现了告警，则可以把相互关联的两个监测对象的告警数据进行合并发送。

还可以理解，在该计算过程中，是以任意两个监测对象为分析对象，得到包括两个监测对象的合并规则。在实际中，同样可能存在两个或两个以上相互关联的监测对象，即得到的合并规则可以为

则实际监测过程中，如果这三个监测对象一起出现了告警，就可以把

及

这三个监测对象的告警数据合并处理发送。

例如，对于客户端系统中，经过上述相似度的计算，可以发现页面打开成功率及后台服务器内存在一定时间段内发生的告警次数的相似度大于第二预设阈值，即得到了“页面打开成功率

后台服务器的内存”的合并规则。该合并规则表示页面打开成功率及后台服务器内存将在同时出现告警，即在实际中，这两个监测对象是相互关联的。

可以理解，在系统的实际运行过程中，如果后台服务器的内存大幅度降低，将导致用户查询数据的速度降低，即导致打开页面的成功率降低。

进一步，在得到该合并规则后，在实际监测过程中，当打开成功率及后台服务器内存出现告警时，则可以将这两个监测对象的告警数据进行合并发送，以减少告警发送次数。

可选的，可以通过连通图算法，对监测对象集合中的历史告警数进行分析，确定相互关联的监测对象组合，得到监测对象集合中监测对象对应的合并规则。

具体的，如图8所示，该方法可以包括：

S05，计算机设备生成每个该监测对象组中两监测对象之间的无向边，每个该无向边的权重表示对应的监测对象组中两监测对象在该预设时间段内的同步告警次数；

S06，计算机设备保留该权重大于第三预设阈值的该无向边，得到该监测对象集合的至少一条连通分支，则每条该连通分支中所有无向边对应的监测对象作为相互关联的监测对象。

具体的，在利用该算法进行合并规则生成过程中，首先同样可以计算监测对象集合中每个监测对象在预设时间段内的每个分割时间段内的告警次数，然后将监测集合中的任意组合的监测对象组为分析对象，计算每个监测对象组的同步告警次数，以根据所计算得到的同步告警次数确定至少一个监测对象组为相互关联的监测对象组合。

可以理解，该同步告警次数的计算与上述关联算法中的方法类似，此处不再赘述。

进一步，将每个监测对象作为唯一节点，即连通图中的顶点，进而判断监测集合中任意监测对象组，在预设时间段内是否同时出现了告警，即监测对象组的同步告警次数是否大于零。如果是，则以同时出现告警的两个监测对象为节点，生成无向边。并且，同时出现的同步告警次数就作为该无向边的权重。

可以理解，通过上述方法，将所有同时出现告警的监测对象组合中的两个监测对象之间生成无向边，得到连通图，该连通图可以用符号G表示，即G＝<V,E,w>。

其中，V表示监测对象obj_i的集合，E表示生成的无向边的集合，w表示无向边的权重。

进一步，预先设置一个阈值δ₃。则当无向连通图G中的无向边的权重大于或等于δ₃时，保留该无向边；否则删除该无向边。则当删除所有权重小于δ₃无向边，保留所有权重大于等于δ₃无向边后，可以得到一个新的连通图G^～。

可以理解，通过上述删除处理，得到的连通图可以包括多个连通分支，每个连通分支可以包括至少一条无向边，即每条连通分支包括至少两个监测对象，每一个监测对象将唯一对应到一个连通分支，则每条连通分支中的所有无向边对应的监测对象为相互关联的监测对象组合。

例如，在利用上述得到的历史告警矩阵进行计算时，则在连通图分析策略执行过程中，首先可以将历史告警矩阵转换成无向图，该无向图中每个节点为历史告警矩阵的行向量对应的监测对象，无向图中每条边连接两个节点。然后设置每条边的权重值，该权重值是根据历史告警矩阵中与边对应的两个监测对象的同步告警次数。最后，若该权重值大于第三预设阈值，则在该无向图中保留与权重值对应的边，以利用无向图中保留的边构建连通分支，确定连通分支所包含的监测对象之间相互关联。

例如，对于任意的obj_i，存在唯一的连通分支k，使得obj_i→cluster_k。该cluster_k中所有的监测对象为相互关联的监测对象组合，即该连通分支中的所有监测对象作为一个合并规则。

假如删除处理后的连通分支总数为K个，则{1≤k≤K:cluster_k}可以表示所有的监测对象所聚集成的连通分支集合，即可以得到该监测对象集合的K个合并规则。

基于上述处理结果，对于每一个连通分支，同一个连通分支中的所有监测对象提取出来，可以得到如

的合并规则。则如果这三个监测对象一起出现告警，可以将这三个监测对象的告警数据进行合并发送。

例如，对与上述客户端系统的监测，通过连通图算法，可以得到包括APP在线用户数、数据访问时间及页面打开成功率的连通子图，即得到了“APP在线用户数

数据访问时间

页面打开成功率”的合并规则。该合并规则表示APP在线用户数、数据访问时间及页面打开成功率将在同时出现告警，即在实际中，这三个监测对象是相互关联的监测对象组合。

可以理解，在系统的实际运行过程中，如果访问数据库出现卡顿等现象，导致访问数据库的时间变长，并使得页面打开成功率降低，进而使得在线用户数大幅度降低。

进一步，在得到该合并规则后，在实际监测过程中，当APP在线用户数、数据访问时间及页面打开成功率出现告警时，则可以将这三个监测对象的告警数据进行合并发送，以减少告警发送次数。

可以理解，该客户端的系统的场景的合并规则只是示例性说明，本申请对此不做限制。

还可以理解，对于监测对象集合中相互关联的监测对象组合的确定，可以通过上述任意一种算法来实现，或者通过任意两种或三种算法结合实现，或者还可以通过其他算法来实现，如可以采用社团划分算法等进行计算，具体可以根据实际情况确定，本申请对此不做限制。

本申请实施例提供的告警数据处理方法，对于获取的监测对象的历史告警数据，通过预设的一种或多种算法进行处理，筛选在预设时间段内同时发生告警，且同步告警次数大于一定的预设阈值的两个或多个监测对象，作为相互关联的监测对象组合，以将相互关联的监测对象组合的作为合并规则，得到监测对象集合对应的多个合并规则，提高了合并规则生成效率，保证了合并规则的合理性和科学性。

另一方面，如图9所示，本实施例中还提供一种告警数据处理装置，该装置800包括：

第一获取模块810，用于获取监测对象集合中各监测对象对应的告警数据；

合并模块820，用于基于合并规则，从该告警数据中提取与该合并规则相对应的告警数据进行合并处理，该合并规则是对该监测对象集合的历史告警数据进行分析确定的；

发送模块830，用于对合并处理后的告警数据进行发送。

可选的，本申请实施例提供的告警数据处理装置，该装置还包括：

第二获取模块840，用于获取预设时间段内该监测对象集合中各监测对象对应的历史告警数据；

确定模块850，用于按照预先定义的分析策略对该历史告警数据进行分析，确定该监测对象集合中相互关联的监测对象，每组相互关联的监测对象作为该监测对象集合的一个合并规则。

可选的，本申请实施例提供的告警数据处理装置，该确定模块850包括：

划分单元851，用于将该预设时间段划分成多个分割时间段。

构建单元852，用于将该历史告警数据按照监测对象及该分割时间段，构建该历史告警数据的历史告警矩阵，该历史告警矩阵中每个元素表示每个监测对象在该预设时间段内的各分割时间段产生的告警次数；

确定单元853，用于按照预先定义的分析策略对该历史告警矩阵中的行向量进行分析，确定该监测对象集合中相互关联的监测对象。

可选的，本申请实施例提供的告警数据处理装置，确定单元853具体用于：

按照预先定义的分析策略对该历史告警矩阵中的任意两个行向量进行分析，以确定与该两个行向量一一对应的监测对象之间是否相互关联。

可选的，本申请实施例提供的告警数据处理装置，确定单元853包括：

第一计算子单元11，用于对该历史告警矩阵中任意两个行向量进行统计，得到与该两个行向量对应的监测对象的同步告警次数；

第一确定子单元12，用于若该同步告警次数大于第一预设阈值时，则确定与该两个行向量对应的监测对象之间相互关联。

第二计算子单元13，用于计算该历史告警矩阵中任意两个行向量的相似度，得到与该两个行向量对应的监测对象的相似度；

第二确定子单元14，用于若该相似度大于第二预设阈值，确定与该两个行向量对应的监测对象之间相互关联。

转换子单元15，用于将该历史告警矩阵转换成无向图，该无向图中每个节点为该历史告警矩阵的行向量对应的监测对象，该无向图中每条边连接两个节点；

设置子单元16，用于设置每条边的权重值，该权重值是根据该历史告警矩阵中与该边对应的两个监测对象的同步告警次数；

保留子单元17，用于若该权重值大于第三预设阈值，则在该无向图中保留与该权重值对应的边

第三确定子单元18，用于利用该无向图中保留的边构建连通分支，确定该连通分支所包含的监测对象之间相互关联。

可选的，本申请实施例提供的告警数据处理装置，第一子单元或第二子单元具体用于：

统计该两个行向量中相同位置的元素同时出现大于0的次数，将该次数定义为两个行向量对应的监测对象的同步告警次数。

可选的，本申请实施例提供的告警数据处理装置，该告警数据及该历史告警数据均包括告警标识及告警时间。

可选的，本申请实施例提供的告警数据处理装置，合并模块820具体用于：

将提取的该与该合并规则相对应的告警数据进行统一封装处理。

第三获取模块860，用于获取该合并规则中所包含监测对象的影响因子；

排序模块870，用于按照该影响因子将该合并规则中所包含监测对象进行排序处理；

其中，该合并模块820还用于：

将该合并规则中所包含监测对象对应的告警数据按照排序结果进行排序后，再进行统一封装处理。

另一方面，本申请实施例还提供一种计算机设备，该设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上所述的告警数据处理方法。

下面参考图10，其示出了适于用来实现本申请实施例的设备的计算机系统900的结构示意图。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分903加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本申请公开的数据显示的实施例，上文参考图3至图8描述的过程可以被实现为计算机软件程序。例如，本申请公开的数据显示的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行图3至图8的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种告警数据处理实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取模块、合并模块及发送模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，合并模块还可以被描述为“用于基于合并规则，从所述告警数据中提取与所述合并规则相对应的告警数据进行合并处理，所述合并规则是对所述监测对象集合的历史告警数据进行分析确定的”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的告警数据处理方法，具体执行：

获取监测对象集合中各监测对象对应的告警数据；

基于合并规则，从所述告警数据中提取与所述合并规则相对应的告警数据进行合并处理，所述合并规则是对所述监测对象集合的历史告警数据进行分析确定的；

对合并处理后的告警数据进行发送。

本申请实施例提供的告警数据处理方法、装置、设备及存储介质，在对获取到的监测对象的告警数据后，利用预先通过分析监测对象的历史告警数据进行分析生成的合并规则，以将合并规则对应的监测对象的告警数据进行合并发送，以提高告警数据的预处理速度，提高科学性。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种告警数据处理方法，其特征在于，所述方法包括：

获取监测对象集合中各监测对象对应的告警数据；

对合并处理后的告警数据进行发送；

其中，所述对所述监测对象集合的历史告警数据进行分析包括：

获取预设时间段内所述监测对象集合中各监测对象对应的历史告警数据；

将所述预设时间段划分成多个分割时间段；

将所述历史告警数据按照监测对象及所述分割时间段，构建所述历史告警数据的历史告警矩阵，所述历史告警矩阵中每个元素表示每个监测对象在所述预设时间段内的各分割时间段产生的告警次数；

将所述历史告警矩阵转换成无向图，所述无向图中每个节点为所述历史告警矩阵的行向量对应的监测对象，所述无向图中每条边连接两个节点；

设置每条边的权重值，所述权重值是根据所述历史告警矩阵中与所述边对应的两个监测对象的同步告警次数；

若所述权重值大于第三预设阈值，则在所述无向图中保留与所述权重值对应的边；

利用所述无向图中保留的边构建连通分支，确定所述连通分支所包含的监测对象之间相互关联。

2.根据权利要求1所述的告警数据处理方法，其特征在于，对所述监测对象集合的历史告警数据进行分析还包括：

对所述历史告警矩阵中任意两个行向量进行统计，得到与所述两个行向量对应的监测对象的同步告警次数；

若所述同步告警次数大于第一预设阈值时，则确定与所述两个行向量对应的监测对象之间相互关联。

3.根据权利要求1所述的告警数据处理方法，其特征在于，对所述监测对象集合的历史告警数据进行分析还包括：

计算所述历史告警矩阵中任意两个行向量的相似度，得到与所述两个行向量对应的监测对象的相似度；

若所述相似度大于第二预设阈值，确定与所述两个行向量对应的监测对象之间相互关联。

4.根据权利要求2所述的告警数据处理方法，其特征在于，所述对所述历史告警矩阵中任意两个行向量进行统计得到与所述两个行向量对应的监测对象的同步告警次数包括：

统计所述两个行向量中相同位置的元素同时出现大于0的次数，将所述次数定义为两个行向量对应的监测对象的同步告警次数。

5.根据权利要求1所述的告警数据处理方法，其特征在于，所述告警数据及所述历史告警数据均包括告警标识及告警时间。

6.根据权利要求1所述的告警数据处理方法，其特征在于，所述基于合并规则，从所述告警数据中提取与所述合并规则相对应的告警数据进行合并处理包括：

将提取的所述与所述合并规则相对应的告警数据进行统一封装处理。

7.根据权利要求1所述的告警数据处理方法，其特征在于，基于合并规则，从所述告警数据中提取与所述合并规则相对应的告警数据进行合并处理之后，还包括：

获取所述合并规则中所包含监测对象的影响因子；

按照所述影响因子将所述合并规则中所包含监测对象进行排序处理；

将所述合并规则中所包含监测对象对应的告警数据按照排序结果进行排序后，再进行统一封装处理。

8.一种告警数据处理装置，其特征在于，所述装置包括：

合并模块，用于基于合并规则，从所述告警数据中提取与所述合并规则相对应的告警数据进行合并处理，所述合并规则是对所述监测对象集合的历史告警数据进行分析确定的；

发送模块，用于对合并处理后的告警数据进行发送；

第二获取模块，用于获取预设时间段内所述监测对象集合中各监测对象对应的历史告警数据；

确定模块，用于将所述预设时间段划分成多个分割时间段；

9.一种计算机设备，其特征在于，所述设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的告警数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于实现如权利要求1-7中任一项所述的告警数据处理方法。