CN111984634B - 告警事务提取方法、装置、设备及计算机存储介质 - Google Patents
告警事务提取方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111984634B CN111984634B CN201910430496.9A CN201910430496A CN111984634B CN 111984634 B CN111984634 B CN 111984634B CN 201910430496 A CN201910430496 A CN 201910430496A CN 111984634 B CN111984634 B CN 111984634B
- Authority
- CN
- China
- Prior art keywords
- alarm
- time
- segment difference
- difference
- clustering algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Alarm Systems (AREA)
Abstract
本发明实施例公开了一种告警事务提取方法、装置、设备及计算机存储介质。该方法包括:根据原始告警数据的特点,利用DBSCAN聚类算法将原告警数据划分为多个告警发生比较密集的时间段,并通过约束条件选取DBSCAN最佳输入参数,然后在各个时间段利用滑动时间窗口法提取告警事务。本发明有效地降低了噪声数据对告警事务提取的影响,能够剔除噪声告警,可有效减少计算过程并提高告警数据处理结果的准确性。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种告警事务提取方法、装置、 设备及计算机存储介质。
背景技术
随着计算机技术和移动通信网络的发展,网络中各设备产生的告警信 息对网络风险分析至关重要,由于通信网络中告警传播的复杂性,故障的 发生往往伴随着大量的相关告警出现,为故障的精确定位带来很大的困难。
另外,通信网络时刻均会产生大量的告警数据,由于网络设备的异构 性,且原始告警数据通常存在信息冗余、告警发生时间点不同步、含有噪 声等问题,无法对原始告警数据直接进行关联规则挖掘。
现有技术无法有效的分辨出噪音告警,且算法复杂度较高,影响告警 数据处理的效率以及结果的准确性。
发明内容
为了解决上述中的至少一个技术问题,本发明实施例提供一种告警事 务提取方法、装置、设备及计算机存储介质,能够剔除噪声告警,可有效 减少计算过程并提高告警数据处理结果的准确性。
第一方面,本发明实施例提供一种告警数据提取方法,方法包括:
根据获取的多个原始告警数据,确定告警时间序列;
利用具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)对告警时间序列进行聚类处理,获 得多个第一时间段;
确定每个第一时间段的中心时间点,并根据中心时间点确定相邻两个 第一时间段之间的段间差异和每个第一时间段的段内差异;
根据段间差异、段内差异及预设的噪声数据百分比,优化DBSCAN聚 类算法的参数,得到优化后的DBSCAN聚类算法;
利用优化后的DBSCAN聚类算法对告警时间序列进行聚类处理,获得 多个第二时间段,并利用滑动时间窗口法提取每个第二时间段内的原始告 警数据对应的告警事务。
第二方面,本发明实施例提供了一种告警数据提取装置,装置包括:
数据获取模块,用于根据获取的多个原始告警数据,确定告警时间序 列;
聚类模块,用于利用具有噪声的基于密度的聚类算法DBSCAN对告警 时间序列进行聚类处理,获得多个第一时间段;
约束条件确定模块,用于确定每个第一时间段的中心时间点,并根据 中心时间点确定相邻两个第一时间段之间的段间差异和每个第一时间段的 段内差异;
优化模块,用于根据段间差异、段内差异及预设的噪声数据百分比, 优化DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法;
告警事务提取模块,用于利用优化后的DBSCAN聚类算法对告警时间 序列进行聚类处理,获得多个第二时间段,并利用滑动时间窗口法提取每 个第二时间段中的多个原始告警数据对应的告警事务。
第三方面,本发明实施例提供了一种告警数据提取设备,设备包括: 处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如第一方面所述的告警数 据提取方法。
第四方面,本发明实施例提供了一种计算机存储介质,所述计算机存 储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实 现如第一方面所述的告警数据提取方法。
本发明实施例的告警数据提取方法、装置、设备及计算机存储介质, 根据原始告警数据的特点,利用DBSCAN聚类算法将原告警数据划分为多 个告警发生比较密集的时间段,并通过约束条件选取DBSCAN最佳输入参 数,然后在各个时间段利用滑动时间窗口法提取告警事务。本发明有效地 降低了噪声数据对告警事务提取的影响,能够剔除噪声告警,可有效减少 计算过程并提高告警数据处理结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例 中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的告警事务提取方法的流程示意图;
图2是本发明实施例提供第一邻域半径下的DBSCAN分段总体质量示 意图;
图3是本发明实施例提供第二邻域半径下的DBSCAN分段总体质量示 意图;
图4是本发明实施例提供第三邻域半径下的DBSCAN分段总体质量示 意图;
图5是本发明实施例提供第四邻域半径下的DBSCAN分段总体质量示 意图;
图6是本发明实施例提供第一邻域半径下的DBSCAN分段噪声数据占 比示意图;
图7是本发明实施例提供第二邻域半径下的DBSCAN分段噪声数据占 比示意图;
图8是本发明实施例提供第三邻域半径下的DBSCAN分段噪声数据占 比示意图;
图9是本发明实施例提供第四邻域半径下的DBSCAN分段噪声数据占 比示意图;
图10是本发明实施例提供的均匀滑动时间窗口的示意图;
图11是本发明实施例提供的针对第一数据集的三种滑动时间窗口方法 提取的事务数量示意图;
图12是本发明实施例提供的针对第二数据集的三种滑动时间窗口方法 提取的事务数量示意图;
图13是本发明实施例提供的针对第一数据集的三种滑动时间窗口方法 段内差异示意图;
图14是本发明实施例提供的针对第二数据集的三种滑动时间窗口方法 段内差异示意图;
图15是本发明实施例提供的针对第一数据集的三种滑动时间窗口方法 事务集总体质量示意图;
图16是本发明实施例提供的针对第二数据集的三种滑动时间窗口方法 事务集总体质量示意图;
图17是本发明实施例提供的告警数据提取装置的结构示意图;
图18是本发明实施例提供的告警数据提取设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本 发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例, 对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配 置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说, 本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实 施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用 来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者 暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还 包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定 的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在 另外的相同要素。
由于网络短暂的振动或不稳定产生噪声告警,因此噪声告警可能和正 常告警同时发生,现有技术仅对原始告警数据进行分段无法剔除噪声告警。 另外,告警的发生具有无规律性和不确定性,因此无法提前确定划分告警 时间序列的时间段的个数,提前确定划分的时间段的数量是不合理也是不 科学的,且算法复杂度较高。
因此,目前存在两大难题:第一,怎样有效地从告警数据中发现噪声 告警数据并剔除噪声告警,从而消除噪声告警对告警数据处理的影响。第 二、怎样设计一种告警数据处理算法使其能在仅输入告警数据不输入时间 段划分个数的前提下有效的提取告警频繁发生时间段或告警事物数据,并 降低算法的复杂度。
为了解决上述技术问题中的至少一个,本发明实施例提供了一种告警 事务提取方法、装置、设备及计算机存储介质。下面首先对本发明实施例 所提供的告警事务提取方法进行介绍。
图1示出了本发明一个实施例提供的告警事务提取方法的流程示意图。 如图1所示,本发明实施例提供的告警事务提取方法包括以下步骤:
S110,根据获取的多个原始告警数据,确定告警时间序列;
S120,利用具有噪声的基于密度的聚类算法DBSCAN对告警时间序列 进行聚类处理,获得多个第一时间段;
S130,确定每个第一时间段的中心时间点,并根据中心时间点确定相 邻两个第一时间段之间的段间差异和每个第一时间段的段内差异;
S140,根据段间差异、段内差异及预设的噪声数据百分比,优化 DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法;
S150,利用优化后的DBSCAN聚类算法对告警时间序列进行聚类处理, 获得多个第二时间段,并利用滑动时间窗口法提取每个第二时间段中的多 个原始告警数据对应的告警事务。
本发明根据原始告警数据的特点,利用DBSCAN聚类算法将原告警数 据划分为多个告警发生比较密集的时间段,并通过约束条件选取DBSCAN 最佳输入参数,然后在各个时间段利用滑动时间窗口法提取告警事务。本 发明有效地降低了噪声数据对告警事务提取的影响,能够剔除噪声告警, 可有效减少计算过程并提高告警数据处理结果的准确性。
在S110中,获取的原始告警数据中告警的发生具有随机性、突发性等, 并且原始告警数据存在信息冗余、字段不完整、噪音告警等特点,可以对 原始告警数据进行数据清洗,并提取告警标准名、告警发生时间、告警对 象设备类型、告警类别四个属性来表述告警事件。
在S120中,可以根据原始告警数据对应的告警时间确定告警时间序列, 即告警时间序列是由告警时刻或者告警时间点组成的。利用具有噪声的基 于密度的聚类算法DBSCAN将告警时间序列聚类成多个第一时间段,无需 事先指定告警时间序列的分段数目,且能剔除噪音告警数据,具有更好的 实用性和灵活性。
DBSCAN聚类算法是一种以密度为基础的聚类分析算法,主要由可达 关系导出的最大密度相连的样本集合,即为最终聚类的一个类别。在告警 数据聚类中,以告警时间间隔作为度量距离的标准,同一类告警事件发生 的时间间隔会比较短,因此,密度会相对大,即最大密度相连的告警数据 会被聚到同一个时间段,同时清除噪音告警。
(1)r-邻域:对于xj∈D,r-邻域包含D中与xj的距离不大于r的点, 即Nr(xj)={xj∈D|distance(xi,xj)≤r}。
(2)核心点:若|Nr(xj)|≥MinPts,则xj是核心点。
(3)密度直达:若xi在核心点xj的r-邻域中,称xi有xj密度直达。
(4)密度可达:对于xi和xj,若存在样本序列p1,p2,...,pT,满足 p1=xi,pT=xj,且pt+1由pt密度直达,则xj由xi密度可达。
(5)密度相连:对于xi和xj,若存在核心点xk,使xi和xj均由xk密度 可达,称xi和xj密度相连。
(6)边界点:落在核心点邻域内的非核心点。
(7)噪音点:不与任何点可达的点。
在S130中,为了告警关联规则挖掘的准确性,在分段原始告警数据及 提取告警事务数据过程中,各个时间段或事务之间的中心点距离(段间差 异)越大越好,时间段内或事务内各个告警数据与中心点的距离(段内差 异)越小越好。在本发明中,可以将一个时间段内的告警数据看作一个告 警事务,计算段间差异、段内差异、事物间差异、事务内差异时,均可将 告警时间间隔作为度量距离的标准。
例如,对于一个包含n个原始告警数据的告警时间序列T={(e1,t1), (e2,t2),…(en,tn)}的中心时间点为:
T1/2=t1+(t2-t1)/2 (1)
其中e1,e2…en为告警事件。
段间差异可以是相邻两个时间段或事务中的中心时间点之间的平均距 离。即:
段内差异可以是各时间段或事务内每条告警数据与该时间段或事务中 心时间点的平均距离。即:
其中,k为时间段或事务的告警数量且k≠n,当k=n,每个时间段或告 警事务中仅含一个告警数据,不符合实际情况且无挖掘意义;为第i个时 间段或第i个事务的中心时间点,tij为第i个时间段或第i个事务中第j个告 警数据的发生时间。
在本发明中,可以告警数据分段或事务提取总体质量定义为:
即,告警数据分段或事务提取总体质量为段间差异和段内差异的比 值,总体质量Q越大说明分段或事务提取效果越好。
在S140中,根据段间差异、段内差异及预设的噪声数据百分比,优化 DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法,可以是 DBSCAN聚类算法的参数;利用调整后的DBSCAN聚类算法对告警时间 序列重新进行聚类处理,得到当前段间差异和当前段内差异;若在实际的 噪声数据百分比小于预设的噪声数据百分比的情况下,当前段间差异和当前段内差异的比值大于上一次调整后的段间差异和段内差异的比值,则继 续调整DBSCAN的参数;直至在实际的噪声数据百分比小于预设的噪声数 据百分比的情况下,当前段间差异和当前段内差异的比值不大于上一次调 整后的段间差异和段内差异的比值,得到优化后的DBSCAN聚类算法。
在本发明实施例中,利用段间差异、段内差异及噪声数据百分比不断 优化DBSCAN聚类算法的参数,能够剔除噪声告警,并且有效减少计算过 程,提高告警数据处理结果的准确性。
DBSCAN聚类算法的参数包括邻域半径和邻域阈值,利用段间差异、 段内差异及噪声数据百分比不断优化DBSCAN聚类算法的邻域半径和邻域 阈值,在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,使 当前段间差异和当前段内差异的比值达到最大值。
图2-图5是本发明实施例提供的四种邻域半径下的DBSCAN分段总体 质量示意图。图6-图9是本发明实施例提供的四种邻域半径下的DBSCAN 分段噪声数据占比示意图。其中,第一邻域半径为240s,第二邻域半径为 300s,第三邻域半径为360s,第四邻域半径为420s。在图2-图5中,横坐 标表示邻域阈值,纵坐标表示分段总体质量,即段间差异与段内差异的比 值,曲线表示在同一邻域半径下,设置不同的邻域阈值,分段总体质量的 变化情况。在图6-图9中,横坐标表示邻域阈值,纵坐标表示噪声数据占 比,曲线表示在同一邻域半径下,设置不同的邻域阈值,噪声数据占比的 变化情况。选取某数据集的某天的数据并提取标识符MSG_ID和消息发生 时间表述一条消息。利用DBSCAN算法在邻域半径为240s、300s、360s和 420s下分别设置不同的邻域阈值(MinPts)来计算移动公司告警数据分段 的总体质量和噪音数据百分比。
由图2-图9以看出,在同一邻域半径下,随着邻域阈值增大, DBSCAN聚类密度越大,各聚类时间段内的告警数据越密集,噪音数据随 之增多,分段质量持续增加。在实际应用中,清除过多的噪音数据可能会 同时清除包含有很多信息量的数据。因此本发明根据实际需求,在噪音百 分比小于6%情况下对两个数据集分别选取使分段总体质量最大的邻域半 径和邻域阈值。
在本发明实施例中,预设的噪声数据百分比可以为6%,即,在实际 的噪声数据百分比小于6%的情况下,不断的调整邻域半径和邻域阈值, 以使段间差异和段内差异的比值达到最大,也就是总体质量Q达到最大。
在S150中,采用基于DBSCAN聚类算法的滑动时间窗口法提取各个 时间段内的告警事务。可以是,确定每个第二时间段内的告警事务的事务 间差异及事务内差异;根据事务间差异与所述事务内差异的比值确定滑动 时间窗口的时间窗口宽度和滑动步长。滑动时间窗口主要解决网络设备时 间不同步和告警事件时间间隔过小问题,因此在聚类后的各个时间段用滑 动时间窗口法进行事务提取。由于同一个时间窗内的告警事件为同一事务,时间窗口宽度W的取值范围为Gmax<W<ΔW,其中Gmax为时间段内相邻 告警的最大时间间隔,ΔW为时间段宽度。
为了能充分的利用告警数据,防止将几乎同时发生的告警截断到两个 告警事务集中,选择的滑动步长应该使相邻两个时间窗口应该有足够的重 叠。滑动步长越小,相邻两个窗口重叠的告警数据越多,提取的事务就越 多,滑动步长越大,相邻两个窗口重叠的告警数据越少,提取的事务就会 相对减少。当滑动步长大于时间窗口宽度时,就会遗漏部分告警信息。因 此滑动步长s的取值范围为Gmin<s<W,其中Gmin为相邻告警的最小时间间隔, W为时间窗口宽度。
在本发明实施例中,利用事务间差异和事务内差异调整滑动时间窗口 的时间窗口宽度和滑动步长,并设置时间窗口宽度和滑动步长的取值范围, 能够防止将几乎同时发生的告警截断到两个告警事务集中,提高告警数据 处理结果的准确性。
图10是本发明实施例提供的均匀滑动时间窗口的示意图。如图10所 示,e1,e2,...,e9为告警事件,{(e1,5),(e6,6),(e3,7)...,(e7,34)}是一个告警时间序列。时 间窗口宽度为8,滑动步长为5。
下面结合实验对本发明的应用效果作详细的描述。本发明针对第一数 据集和第二数据集,设定时间窗口宽度均为360s,利用DBSCAN-滑动窗 口法、固定滑动窗口法和基于近邻传播的滑动窗口法分别计算在相同时间 窗口宽度的不同滑动步长下所提取的事务数量、段内差异和事务集总体质 量,得到如图11-图16所示的示意图。
其中,在图11和图12中,横坐标表示滑动步长,纵坐标表示提取的 事务集数量。由图11和图12可以明显看出,DBSCAN-滑动窗口法能有效 的减少所提取的告警事务数,其原因是在DBSCAN对告警分段过程中清除 了噪音告警数据,且在时间窗口提取事务过程中不会因该时间段告警稀疏 而产生空事务集。由于数据集在某时间段内产生消息相对稀疏,因此滑动 窗口法产生了大量空的数据集,DBSCAN算法有效的消除了空事务集对事 务提取的影响使事务集数量大大减少。
其中,在图13和图14中,横坐标表示滑动步长,纵坐标表示段内差 异,曲线表示利用不同的滑动窗口法得到的段内差异的变化情况。在图15 和图16中,横坐标表示滑动步长,纵坐标表示事务集总体质量,曲线表示 利用不同的滑动窗口法得到的事务集总体质量的变化情况。由图13-图16 可看出,DBSCAN-滑动窗口法所提取的事务的段内差异和总体质量均明显 优于固定滑动窗口和基于近邻传播的滑动窗口法。由于段间差异随着滑动 步长的增加而增加,事务提取总体质量也不断增加,在这种情况下,段内 差异越小越好。在实际应用中,为了保证相邻窗口有足够多的重叠,应根 据实际要求和段内差异设置最佳时间窗口宽度和滑动步长。
本发明根据告警数据特点以及固定时间窗口提取事务数据集的不合理 性,提出了一种基于DBSCAN算法和多约束的滑动窗口法。实验结果证 明,与固定的滑动时间窗口法和基于近邻传播的滑动窗口法相比,该 DBSCAN聚类算法在分段过程中能清除噪音告警,有效的减少噪音告警对 事务提取的影响,从而减少事务提取的段内差异,提高事务提取的总体质 量。在实际应用中,可根据实际需求及多约束条件选取最佳参数,更加充 分的利用告警数据。
图17是本发明实施例提供的告警数据提取装置的结构示意图。如图17 所示,本发明实施例提供的告警数据提取装置包括以下模块:
数据获取模块201,用于根据获取的多个原始告警数据,确定告警时 间序列;
聚类模块202,用于利用具有噪声的基于密度的聚类算法DBSCAN对 告警时间序列进行聚类处理,获得多个第一时间段;
约束条件确定模块203,用于确定每个第一时间段的中心时间点,并 根据中心时间点确定相邻两个第一时间段之间的段间差异和每个第一时间 段的段内差异;
优化模块204,用于根据段间差异、段内差异及预设的噪声数据百分 比,优化DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法;
告警事务提取模块205,用于利用优化后的DBSCAN聚类算法对告警 时间序列进行聚类处理,获得多个第二时间段,并利用滑动时间窗口法提 取每个第二时间段中的多个原始告警数据对应的告警事务。
本发明实施例提供的告警事务提取装置,根据原始告警数据的特点,利用 DBSCAN聚类算法将原告警数据划分为多个告警发生比较密集的时间段, 并通过约束条件选取DBSCAN最佳输入参数,然后在各个时间段利用滑动 时间窗口法提取告警事务。本发明有效地降低了噪声数据对告警事务提取 的影响,能够剔除噪声告警,可有效减少计算过程并提高告警数据处理结 果的准确性。
在一个实施方式中,优化模块204具体用于:
根据段间差异和段内差异的比值及实际的噪声数据百分比,调整 DBSCAN聚类算法的参数;
利用调整后的DBSCAN聚类算法对告警时间序列重新进行聚类处理, 得到当前段间差异和当前段内差异;
若在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,当 前段间差异和当前段内差异的比值大于上一次调整后的段间差异和段内差 异的比值,则继续调整DBSCAN聚类算法的参数;
直至在实际的噪声数据百分比小于预设的噪声数据百分比的情况下, 当前段间差异和当前段内差异的比值不大于上一次调整后的段间差异和段 内差异的比值,得到优化后的DBSCAN聚类算法。
在本发明实施例中,利用段间差异、段内差异及噪声数据百分比不断 优化DBSCAN聚类算法的参数,能够剔除噪声告警,并且有效减少计算过 程,提高告警数据处理结果的准确性。
在一个实施方式中,优化模块204具体用于:
DBSCAN聚类算法的参数包括邻域半径和邻域阈值。
利用段间差异、段内差异及噪声数据百分比不断优化DBSCAN聚类算 法的邻域半径和邻域阈值,在实际的噪声数据百分比小于预设的噪声数据 百分比的情况下,使当前段间差异和当前段内差异的比值达到最大值。
在一个实施方式中,告警事务提取模块205具体用于:
确定每个第二时间段内的告警事务的事务间差异及事务内差异;
根据事务间差异与事务内差异的比值确定滑动时间窗口的时间窗口宽 度和滑动步长。
在一个实施方式中,告警事务提取模块205具体用于:
滑动步长小于时间窗口宽度,且大于相邻告警时间间隔中的最小时间 间隔。
在一个实施方式中,告警事务提取模块205具体用于:
时间窗口宽度小于多个第二时间段中的最小时间宽度,且大于相邻告 警时间间隔中的最大时间间隔。
在本发明实施例中,利用事务间差异和事务内差异调整滑动时间窗口 的时间窗口宽度和滑动步长,并设置时间窗口宽度和滑动步长的取值范围, 能够防止将几乎同时发生的告警截断到两个告警事务集中,提高告警数据 处理结果的准确性。
在一个实施方式中,聚类模块202具体用于:
DBSCAN聚类算法以告警时间间隔作为聚类的标准。
图18是本发明实施例提供的告警数据提取设备的结构示意图。
在告警数据提取设备可以包括处理器301以及存储有计算机程序指令 的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集 成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置 成实施本发明实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非 限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱 动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus, USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储 器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储 器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302 是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器 (ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程 ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上 这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以 实现上述实施例中的任意一种告警数据提取方法。
在一个示例中,告警数据提取设备还可包括通信接口303和总线310。 其中,如图3所示,处理器301、存储器302、通信接口303通过总线310 连接并完成相互间的通信。
通信接口303,主要用于实现本发明实施例中各模块、装置、单元和/ 或设备之间的通信。
总线310包括硬件、软件或两者,将告警数据提取设备的部件彼此耦 接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他 图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输 (HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数 (LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连 (PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA) 总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或 更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总 线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该告警数据提取设备可以执行本发明实施例中的告警数据提取方法, 从而实现结合图1和图8描述的告警数据提取方法和装置。
另外,结合上述实施例中的告警数据提取方法,本发明实施例可提供 一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种告警数据 提取方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配 置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实 施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过 程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发 明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或 者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成 电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时, 本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段 可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质 或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任 何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、 闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、 射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机 网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤 或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序, 也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例 中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清 楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具 体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应 理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员 在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修 改或替换都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种告警事务提取方法,其特征在于,包括:
根据所获取的多个原始告警数据,确定告警时间序列;
利用具有噪声的基于密度的聚类算法DBSCAN对所述告警时间序列进行聚类处理,获得多个第一时间段;
确定每个所述第一时间段的中心时间点,并根据所述中心时间点确定相邻两个所述第一时间段之间的段间差异和每个所述第一时间段的段内差异;
根据所述段间差异、所述段内差异及预设的噪声数据百分比,优化所述DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法;
利用所述优化后的DBSCAN聚类算法对所述告警时间序列进行聚类处理,获得多个第二时间段,并利用滑动时间窗口法提取每个所述第二时间段中的多个原始告警数据对应的告警事务;
所述根据所述段间差异、所述段内差异及预设的噪声数据百分比,优化所述DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法,包括:
根据所述段间差异和所述段内差异的比值及实际的噪声数据百分比,调整所述DBSCAN聚类算法的参数;
利用调整后的所述DBSCAN聚类算法对所述告警时间序列重新进行聚类处理,得到当前段间差异和当前段内差异;
若在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,所述当前段间差异和所述当前段内差异的比值大于上一次调整后的段间差异和段内差异的比值,则继续调整所述DBSCAN聚类算法的参数;
直至在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,当前段间差异和当前段内差异的比值不大于上一次调整后的段间差异和段内差异的比值,得到优化后的DBSCAN聚类算法。
2.根据权利要求1所述的告警事务提取方法,其特征在于,所述DBSCAN聚类算法的参数包括邻域半径和邻域阈值。
3.根据权利要求1所述的告警事务提取方法,其特征在于,所述方法还包括:
确定每个所述第二时间段内的告警事务的事务间差异及事务内差异;
根据所述事务间差异与所述事务内差异的比值确定滑动时间窗口的时间窗口宽度和滑动步长。
4.根据权利要求3所述的告警事务提取方法,其特征在于,所述滑动步长小于所述时间窗口宽度,且大于相邻告警时间间隔中的最小时间间隔。
5.根据权利要求3所述的告警事务提取方法,其特征在于,所述时间窗口宽度小于所述多个第二时间段中的最小时间宽度,且大于相邻告警时间间隔中的最大时间间隔。
6.根据权利要求1所述的告警事务提取方法,其特征在于,所述DBSCAN聚类算法以告警时间间隔作为聚类标准。
7.一种告警事务提取装置,其特征在于,所述装置包括:
数据获取模块,用于根据获取的多个原始告警数据,确定告警时间序列;
聚类模块,用于利用具有噪声的基于密度的聚类算法DBSCAN对所述告警时间序列进行聚类处理,获得多个第一时间段;
约束条件确定模块,用于确定每个所述第一时间段的中心时间点,并根据所述中心时间点确定相邻两个所述第一时间段之间的段间差异和每个所述第一时间段的段内差异;
优化模块,用于根据所述段间差异、所述段内差异及预设的噪声数据百分比,优化所述DBSCAN聚类算法的参数,得到优化后的DBSCAN聚类算法;
告警事务提取模块,用于利用所述优化后的DBSCAN聚类算法对所述告警时间序列进行聚类处理,获得多个第二时间段,并利用滑动时间窗口法提取每个所述第二时间段中的多个原始告警数据对应的告警事务;
所述优化模块,具体用于根据所述段间差异和所述段内差异的比值及实际的噪声数据百分比,调整所述DBSCAN聚类算法的参数;
利用调整后的所述DBSCAN聚类算法对所述告警时间序列重新进行聚类处理,得到当前段间差异和当前段内差异;
若在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,所述当前段间差异和所述当前段内差异的比值大于上一次调整后的段间差异和段内差异的比值,则继续调整所述DBSCAN聚类算法的参数;
直至在实际的噪声数据百分比小于预设的噪声数据百分比的情况下,当前段间差异和当前段内差异的比值不大于上一次调整后的段间差异和段内差异的比值,得到优化后的DBSCAN聚类算法。
8.一种告警事务提取设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的告警事务提取方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的告警事务提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910430496.9A CN111984634B (zh) | 2019-05-22 | 2019-05-22 | 告警事务提取方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910430496.9A CN111984634B (zh) | 2019-05-22 | 2019-05-22 | 告警事务提取方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984634A CN111984634A (zh) | 2020-11-24 |
CN111984634B true CN111984634B (zh) | 2023-07-21 |
Family
ID=73437199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910430496.9A Active CN111984634B (zh) | 2019-05-22 | 2019-05-22 | 告警事务提取方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984634B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205568A (zh) * | 2015-10-14 | 2015-12-30 | 广东电网有限责任公司电力调度控制中心 | 告警事务提取方法及系统 |
CN105678457A (zh) * | 2016-01-06 | 2016-06-15 | 成都小步创想畅联科技有限公司 | 基于地点挖掘的用户行为评估方法 |
CN106657007A (zh) * | 2016-11-18 | 2017-05-10 | 北京红马传媒文化发展有限公司 | 识别基于dbscan模型的非正常批量购票行为的方法 |
CN108737147A (zh) * | 2017-04-25 | 2018-11-02 | 中国移动通信集团广东有限公司 | 一种网络告警事件处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412271B2 (en) * | 2013-01-30 | 2016-08-09 | Wavetronix Llc | Traffic flow through an intersection by reducing platoon interference |
US10222959B2 (en) * | 2016-03-31 | 2019-03-05 | Ca, Inc. | Visual modification and training of an anomaly detection image |
-
2019
- 2019-05-22 CN CN201910430496.9A patent/CN111984634B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205568A (zh) * | 2015-10-14 | 2015-12-30 | 广东电网有限责任公司电力调度控制中心 | 告警事务提取方法及系统 |
CN105678457A (zh) * | 2016-01-06 | 2016-06-15 | 成都小步创想畅联科技有限公司 | 基于地点挖掘的用户行为评估方法 |
CN106657007A (zh) * | 2016-11-18 | 2017-05-10 | 北京红马传媒文化发展有限公司 | 识别基于dbscan模型的非正常批量购票行为的方法 |
CN108737147A (zh) * | 2017-04-25 | 2018-11-02 | 中国移动通信集团广东有限公司 | 一种网络告警事件处理方法及装置 |
Non-Patent Citations (4)
Title |
---|
FIMD: Fine-grained Device-free Motion Detection;Jiang Xiao 等;《2012 IEEE 18th International Conference on Parallel and Distributed Systems》;229-235 * |
LMHADC: Lightweight Method for Host based Anomaly Detection in Cloud using Mobile Agents;Tao Qin 等;《2018 IEEE Conference on Communications and Network Security (CNS)》;1-8 * |
基于DBSCAN算法的告警数据聚类研究;邓翠艳 等;《太原理工大学学报》;第52卷(第01期);111-116 * |
面向业务的移动通信网络告警数据关联分析;欧阳亚萌;《中国优秀硕士学位论文全文数据库 信息科技辑》(第08(2015)期);I138-947 * |
Also Published As
Publication number | Publication date |
---|---|
CN111984634A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159243B (zh) | 用户类型识别方法、装置、设备及存储介质 | |
CN104661244A (zh) | 一种评估pci模三干扰的方法及装置 | |
CN114564370B (zh) | 告警阈值的确定方法、装置、设备及计算机存储介质 | |
CN111339211B (zh) | 网络问题分析的方法、装置、设备及介质 | |
CN117170979B (zh) | 一种大规模设备的能耗数据处理方法、系统、设备及介质 | |
CN111984634B (zh) | 告警事务提取方法、装置、设备及计算机存储介质 | |
CN104361259B (zh) | 一种变压器越限运行特征分析方法 | |
CN116668264A (zh) | 一种告警聚类的根因分析方法、装置、设备及存储介质 | |
CN110770753B (zh) | 高维数据实时分析的装置和方法 | |
CN116664335A (zh) | 基于智能监控的半导体生产系统运行分析方法及系统 | |
CN115965296A (zh) | 考核数据的处理方法、装置、设备、产品及可读存储介质 | |
CN109996274B (zh) | Lte小区参数的调整方法、装置、设备及介质 | |
CN109993388B (zh) | 劣化小区主因判断方法、装置、设备及介质 | |
CN111988252A (zh) | 基于深度学习的信号调制方式识别方法 | |
CN112671593B (zh) | 一种服务器的管理方法及相关设备 | |
CN112733869B (zh) | 训练文本识别模型的方法、装置、设备及存储介质 | |
CN113852692B (zh) | 服务确定方法、装置、设备及计算机存储介质 | |
CN107169509A (zh) | 一种面向复杂模式分类的特征选择方法 | |
CN118265081A (zh) | 车联网通信信号的处理方法、装置、设备及介质 | |
CN113627489A (zh) | 一种基于需求的电力消耗预测方法、装置、设备及存储介质 | |
CN112488245A (zh) | 业务模型超参数配置确定方法、装置、设备及存储介质 | |
CN115828174A (zh) | 模型构建方法、装置、设备、介质和产品 | |
CN114428857A (zh) | 一种信息的标注方法、装置、设备以及存储介质 | |
Tajer et al. | Quick search for rare events through adaptive group sampling | |
CN116258568A (zh) | 授信额度推荐方法及系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |