发明内容
本发明针对上述的事件规则挖掘不完备的技术问题,提出一种基于gspan算法的告警事件规则挖掘方法与系统。
第一方面,本申请实施例提供了一种基于gspan算法的告警事件规则挖掘方法,包括:
解析步骤:解析告警信号的空间特征,并根据告警信号的时序特征将所述告警信号进行分组聚类;
模型构建步骤:根据设备的拓扑结构,结合所述空间特征,将所述告警信号转化成若干子图,构成告警信号的图模型;
子图挖掘步骤:根据所述图模型生成候选子图,对所述候选子图使用gspan算法进行频繁子图的挖掘;
筛选步骤:根据业务规则,对挖掘出的子图进行筛选和过滤,得到疑似的事件规则;
审核步骤:对所述事件规则进行判断审核,将通过审核的所述事件规则存入规则知识库中。
上述基于gspan算法的告警事件规则挖掘方法,其中,所述解析步骤包括:
空间解析步骤:通过对告警信号文本内容的解析,得到告警信号的空间特征;
分组聚类步骤:根据所述告警信号的时序特征设置时间阈值,将所述告警信号划分为多个信号集合。
上述基于gspan算法的告警事件规则挖掘方法,其中,所述模型构建步骤包括:
子图转化步骤:根据设备的拓扑结构,结合所述空间特征中所述告警信号与所述设备的关系,通过实体、关系的抽取将所述告警信号转化成若干所述子图;
数据存入步骤:将子图数据存入图数据库,基于所述图数据库构成所述图模型。
上述基于gspan算法的告警事件规则挖掘方法,其中,所述子图挖掘步骤包括:
候选子图生成步骤:根据所述图模型生成所有可能的所述候选子图;
编码步骤:利用DFS编码对每个所述候选子图进行唯一编码;
支持度阈值设置步骤:根据业务知识设置支持度阈值;
支持度筛选步骤:计算每个所述候选子图的支持度,并根据所述支持度阈值进行筛选;
剪枝步骤:对筛选完成的所述候选子图进行剪枝处理,得到频繁子图的挖掘结果。
上述基于gspan算法的告警事件规则挖掘方法,其中,所述业务规则包括:
子图的节点类型要同时包含特定的所述设备和所述告警信号,若缺少任意一种类型的所述设备,则所述子图无效;
子图节点中,不同类型的设备数量之间具有一定的关系,若不满足所述关系,则所述子图无效。
上述基于gspan算法的告警事件规则挖掘方法,其中,所述审核步骤包括:
若所述事件规则与所述规则知识库中已有规则重复,则将所述事件规则去除;
若所述事件规则未出现在所述规则知识库中,但是经审核判断为与所述规则知识库中已有规则冲突,或为不合理的规则,则将所述事件规则标记为不合理;
若所述事件规则未出现在所述规则知识库中,且审核通过,则将所述事件规则放入规则知识库中。
第二方面,本申请实施例提供了一种基于gspan算法的告警事件规则挖掘系统,包括:
解析模块:解析告警信号的空间特征,并根据告警信号的时序特征将所述告警信号进行分组聚类;
模型构建模块:根据设备的拓扑结构,结合所述空间特征,将所述告警信号转化成若干子图,构成告警信号的图模型;
子图挖掘模块:根据所述图模型生成候选子图,对所述候选子图使用gspan算法进行频繁子图的挖掘;
筛选模块:根据业务规则,对挖掘出的子图进行筛选和过滤,得到疑似的事件规则;
审核模块:对所述事件规则进行判断审核,将通过审核的所述事件规则存入规则知识库中。
上述基于gspan算法的告警事件规则挖掘系统,其中,所述解析模块包括:
空间解析单元:通过对告警信号文本内容的解析,得到告警信号的空间特征;
分组聚类单元:根据所述告警信号的时序特征设置时间阈值,将所述告警信号划分为多个信号集合。
上述基于gspan算法的告警事件规则挖掘系统,其中,所述模型构建模块包括:
子图转化单元:根据设备的拓扑结构,结合所述空间特征中所述告警信号与所述设备的关系,通过实体、关系的抽取将所述告警信号转化成若干所述子图;
数据存入单元:将子图数据存入图数据库,基于所述图数据库构成所述图模型。
上述基于gspan算法的告警事件规则挖掘系统,其中,所述子图挖掘模块包括:
候选子图生成单元:根据所述图模型生成所有可能的所述候选子图;
编码单元:利用DFS编码对每个所述候选子图进行唯一编码;
支持度阈值设置单元:根据业务知识设置支持度阈值;
支持度筛选单元:计算每个所述候选子图的支持度,并根据所述支持度阈值进行筛选;
剪枝单元:对筛选完成的所述候选子图进行剪枝处理,得到频繁子图的挖掘结果。
与现有技术相比,本发明的优点和积极效果在于:
本发明提出一种使用频繁子图挖掘算法来实现从海量历史监控告警数据中识别事件规则的方法,可以从历史告警信息中挖掘出告警事件特征,并利用挖掘出的信息帮助人工对告警信号进行快速处理和判断,本方法节省了人力处理成本,避免出现误判、漏判,提高了事件规则的挖掘效率。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明提出一种使用频繁子图挖掘算法来实现从海量历史监控告警数据中识别事件规则的方法,对于告警信息使用gspan算法进行频繁子图的挖掘,经过过滤、筛选、审核得到符合要求告警事件规则。
实施例一:
参照图1所示,图1为本发明提供的一种基于gspan算法的告警事件规则挖掘方法的步骤示意图。如图1所示,本实施例揭示了一种基于gspan算法的告警事件规则挖掘方法(以下简称“方法”)的具体实施方式。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:解析告警信号的空间特征,并根据告警信号的时序特征将所述告警信号进行分组聚类。
参照图2,其中,步骤S1具体包括以下内容:
步骤S11:通过对告警信号文本内容的解析,得到告警信号的空间特征;
步骤S12:根据所述告警信号的时序特征设置时间阈值,将所述告警信号划分为多个信号集合。
具体而言,首先通过对告警信号文本内容的解析,得到告警信号的空间结构信息。例如,从告警信号内容,可以解析出信号所在设备信息。其次,按照设置的时间阈值,将信号数据划分成多个信号集合。每个信号集合可以认为是一个事件群,包含一个或多个告警事件。
步骤S2:根据设备的拓扑结构,结合所述空间特征,将所述告警信号转化成若干子图,构成告警信号的图模型。
参照图3,其中,步骤S2具体包括以下内容:
步骤S21:根据设备的拓扑结构,结合所述空间特征中所述告警信号与所述设备的关系,通过实体、关系的抽取将所述告警信号转化成若干所述子图;
步骤S22:将子图数据存入图数据库,基于所述图数据库构成所述图模型。
具体而言,设备拓扑结构包含设备之间的物理连接关系和层级关系等,结合告警信号解析出的关联关系,就可以将时序的告警信息,通过实体、关系的抽取转化成多个子图,并将全部的子图数据存入图数据库,构成告警信号的图模型。
步骤S3:根据所述图模型生成候选子图,对所述候选子图使用gspan算法进行频繁子图的挖掘。
参照图4,其中,步骤S3具体包括以下内容:
步骤S31:根据所述图模型生成所有可能的所述候选子图;
步骤S32:利用DFS编码对每个所述候选子图进行唯一编码;
步骤S33:根据业务知识设置支持度阈值;
步骤S34:计算每个所述候选子图的支持度,并根据所述支持度阈值进行筛选;
步骤S35:对筛选完成的所述候选子图进行剪枝处理,得到频繁子图的挖掘结果。
步骤S4:根据业务规则,对挖掘出的子图进行筛选和过滤,得到疑似的事件规则。
其中,所述业务规则包括:
子图的节点类型要同时包含特定的所述设备和所述告警信号,若缺少任意一种类型的所述设备,则所述子图无效;
子图节点中,不同类型的设备数量之间具有一定的关系,若不满足所述关系,则所述子图无效。
步骤S5:对所述事件规则进行判断审核,将通过审核的所述事件规则存入规则知识库中。
具体而言,
若所述事件规则与所述规则知识库中已有规则重复,则将所述事件规则去除;
若所述事件规则未出现在所述规则知识库中,但是经审核判断为与所述规则知识库中已有规则冲突,或为不合理的规则,则将所述事件规则标记为不合理;
若所述事件规则未出现在所述规则知识库中,且审核通过,则将所述事件规则放入规则知识库中。
以下,请参照图5。图5为本发明提供的一种基于gspan算法的告警事件规则挖掘方法一实施例流程示意图,结合图5,具体说明本方法的应用流程如下:
1、根据信号的时序特征将信号进行分组聚类,并解析信号的空间拓扑结构特征;
2、根据设备的拓扑结构,结合信号与设备的关系,将大量离散的告警信号构建成告警事件的拓扑图结构;
3、使用频繁子图挖掘技术,结合业务设定相应的阈值,挖掘出支持度较高的子图结构;
4、根据业务规则,对候选的子图结构进行筛选和过滤,得到疑似的事件规则;
5、通过人工审核,对疑似的事件规则进行判断,将通过审核的规则存入知识库。
具体实施方式按照如下步骤依次进行,如图5所示:
1.设备的告警信号具有明显的空间和时间特征。在空间上每个信号数据都可以追溯到确定的发生位置,同时信号发生的位置在设备拓扑中都有明显的结构特征;在时间维度上,同一个事件的信号在时间维度上是相邻的,且不同事件的信号在时间维度上可能是交叉的。因此,首先通过对告警信号文本内容的解析,得到告警信号的空间结构信息。例如,从告警信号内容,可以解析出信号所在设备信息。其次,以60秒为时间阈值,将信号数据划分成多个信号集合。每个信号集合可以认为是一个事件群,包含一个或多个告警事件。
2.设备拓扑结构包含设备之间的物理连接关系和层级关系等,结合信号解析出的关联关系,就可以将时序的告警信息,通过实体、关系的抽取转化成多个子图,并将全部的子图数据存入图数据库。
3.使用gspan算法模型进行频繁子图的挖掘。具体步骤如下,首先根据已有的图模型生成所有可能的候选子图,利用DFS编码对每个候选子集进行唯一编码,然后计算每个候选子图的支持度,并根据业务知识设置的支持度阈值进行筛选,最后进行剪枝处理,得到频繁子图挖掘的结果。
4.由于频繁子图挖掘出的子图没有考虑具体的节点类型和关系类型,因此需要进一步清理和筛选,才能最终得到挖掘出的疑似规则。具体来说,有以下几种子图被认为是无效的,需要去除:
(1)子图的节点类型要同时包含特定的几类设备和信号,缺少任意一种类型的设备,则认为子图无效;
(2)子图节点中,不同类型的设备数量有一定的关系,例如在电力行业中,告警事件的规则要满足:类型为间隔的实体数量少于类型为厂站的实体数量,或者类型为典型间隔的实体少于类型为间隔的实体数量,或者类型为信号的实体少于类型为典型设备的实体数量,则认为子图无效;
根据以上的条件,对频繁子图挖掘的结果进行清理和过滤,得到疑似的事件规则。
5.最后,为验证疑似规则的有效性,引入人工审核。业务人员根据以往经验,对疑似的事件规则进行判断,主要有三种情况:
(1)与规则知识库中已有规则重复,则直接去除;
(2)未出现在规则知识库中,但是经审核判断为与已有规则冲突,或为不合理的规则,则标记为不合理;
(3)未出现在规则知识库中,且审核通过,则放入规则知识库中。
实施例二:
结合实施例一所揭示的一种基于gspan算法的告警事件规则挖掘方法,本实施例揭示了一种基于gspan算法的告警事件规则挖掘系统(以下简称“系统”)的具体实施示例。
参照图6所示,所述系统包括:
解析模块11:解析告警信号的空间特征,并根据告警信号的时序特征将所述告警信号进行分组聚类;
模型构建模块12:根据设备的拓扑结构,结合所述空间特征,将所述告警信号转化成若干子图,构成告警信号的图模型;
子图挖掘模块13:根据所述图模型生成候选子图,对所述候选子图使用gspan算法进行频繁子图的挖掘;
筛选模块14:根据业务规则,对挖掘出的子图进行筛选和过滤,得到疑似的事件规则;
审核模块15:对所述事件规则进行判断审核,将通过审核的所述事件规则存入规则知识库中。
具体而言,所述解析模块11包括:
空间解析单元111:通过对告警信号文本内容的解析,得到告警信号的空间特征;
分组聚类单元112:根据所述告警信号的时序特征设置时间阈值,将所述告警信号划分为多个信号集合。
具体而言,所述模型构建模块12包括:
子图转化单元121:根据设备的拓扑结构,结合所述空间特征中所述告警信号与所述设备的关系,通过实体、关系的抽取将所述告警信号转化成若干所述子图;
数据存入单元122:将子图数据存入图数据库,基于所述图数据库构成所述图模型。
具体而言,所述子图挖掘模块13包括:
候选子图生成单元131:根据所述图模型生成所有可能的所述候选子图;
编码单元132:利用DFS编码对每个所述候选子图进行唯一编码;
支持度阈值设置单元133:根据业务知识设置支持度阈值;
支持度筛选单元134:计算每个所述候选子图的支持度,并根据所述支持度阈值进行筛选;
剪枝单元135:对筛选完成的所述候选子图进行剪枝处理,得到频繁子图的挖掘结果。
本实施例所揭示的一种基于gspan算法的告警事件规则挖掘系统与实施例一所揭示的一种基于gspan算法的告警事件规则挖掘方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本发明使用频繁子图挖掘算法来实现从海量历史监控告警数据中识别事件规则,可以从历史告警信息中挖掘出告警事件特征,并利用挖掘出的信息帮助人工对告警信号进行快速处理和判断,本方法节省了人力处理成本,避免出现误判、漏判,提高了事件规则的挖掘效率。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。