CN114064723A - 关联规则挖掘方法、装置、计算机设备和存储介质 - Google Patents
关联规则挖掘方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114064723A CN114064723A CN202111350220.3A CN202111350220A CN114064723A CN 114064723 A CN114064723 A CN 114064723A CN 202111350220 A CN202111350220 A CN 202111350220A CN 114064723 A CN114064723 A CN 114064723A
- Authority
- CN
- China
- Prior art keywords
- feature
- judgment
- features
- mutual information
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000005065 mining Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 claims abstract description 113
- 238000012216 screening Methods 0.000 claims abstract description 74
- 230000002159 abnormal effect Effects 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012423 maintenance Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000012098 association analyses Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种关联规则挖掘方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取换流站的历史事件集和响应日志;对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集;计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息;基于第一互信息和第二互信息确定特征子集,特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;强关联规则用于确定待分析事件的异常反馈结果。采用本方法能够提高换流站海量事件的关联规则的挖掘效率。
Description
技术领域
本申请涉及电力工程技术领域,特别是涉及一种关联规则挖掘方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着换流站的复杂程度与设备智能化程度的不断提高,对换流站的智能化运维水平提出了更高的要求。当直流系统进行顺控操作或出现故障时,换流站记录系统生成海量异构、多态的数据,这些数据包含了很多典型的事件集及强关联性的特征事件,对其进行数据挖掘与数据分析对提升换流站的运维管控水平具有重要的意义。
但国内外对于换流站故障事件进行数据挖掘的技术较少。当前换流站的运维数据主要依靠事件顺序记录即SER(Sequence Event Recorder)系统记录运维事件,SER系统记录运维事件是运维人员监视换流站设备运行状态最重要的手段之一。目前,对于换流站故障事件的分析方法主要获取换流站事件的数据特征项并基于Apriori算法对换流站事件的数据特征项进行分析,判断换流站事件是否异常。
然而,采用Apriori算法挖掘海量事件的关联规则时,由于需要扫描数据库多次且操作过程中产生大量的候选集,导致算法的挖掘速度较慢。因此,现有方法存在换流站海量事件之间的关联规则的挖掘效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高换流站海量事件的关联规则挖掘效率的关联规则挖掘方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种关联规则挖掘方法。所述方法包括:
获取换流站的历史事件集和响应日志;
对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
在其中一个实施例中,所述包括历史事件集包括多个历史事件,每个历史事件包括历史时间、主机、报警组和事件列表;所述响应日志包括故障内容;所述对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集,包括:以历史时间和主机为索引,对所述历史事件集中每个历史事件的报警组和事件列表进行筛选,得到多个判断特征;对筛选后的多个判断特征进行布尔映射,得到判断特征集;对所述响应日志的故障内容进行实体筛选,得到多个结果特征,并对筛选后的多个结果特征进行布尔映射,得到结果特征集。
在其中一个实施例中,所述计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息,包括:计算所述判断特征集中的每个判断特征分别与所述结果特征集间的第一特征间互信息,并基于对称不确定性对所述第一特征间互信息进行归一化,得到第一对称不确定性互信息;并基于每个判断特征分别与所述结果特征集间的第一对称不确定性互信息,得到所述判断特征集与所述结果特征集间的第一互信息;计算所述判断特征集中的任意两个判断特征之间的第二特征间互信息,并基于对称不确定性对所述第二特征间互信息进行归一化,得到第二对称不确定性互信息;根据判断特征集中的任意两个判断特征之间的第二对称不确定性互信息,得到所述判断特征集中的各判断特征之间的第二互信息。
在其中一个实施例中,所述特征子集为满足公式(1)取最大值并且满足公式(2)取最小值的目标判断特征和目标结果特征的组合;其中,所述公式(1)和公式(2)为:
式中:D是第一互信息,R(S)是第二互信息,xi为第i个目标判断特征,xj为第j个目标判断特征,c为结果特征,S为特征子集,|S|为特征子集维数。
在其中一个实施例中,所述对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则,包括:设置FP-Growth算法的最小支持度阈值和最小置信度阈值;构建频繁模式树,根据频繁模式树得到所述特征子集中每个目标判断特征的支持度、以及目标判断特征与目标结果特征之间的关联规则;将所述目标判断特征的支持度不小于所述最小支持度阈值的目标判断特征提取出来组合成频繁项集;从所述频繁项集中,将所述目标判断特征与目标结果特征之间的关联规则的置信度不小于所述最小置信度阈值的关联规则提取出来,得到强关联规则。
在其中一个实施例中,所述方法还包括:获取待分析事件和待分析响应日志;对所述待分析事件进行特征筛选得到待分析事件的判断特征,对所述待分析响应日志进行特征筛选得到待分析响应日志的结果特征;基于所述强关联规则,并根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,得到待分析事件的异常反馈结果。
第二方面,本申请还提供了一种关联规则挖掘装置。所述装置包括:
获取模块,用于获取换流站的历史事件集和响应日志;
筛选模块,用于对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算模块,用于计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
确定模块,用于基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
所述确定模块,还用于对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取换流站的历史事件集和响应日志;
对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取换流站的历史事件集和响应日志;
对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取换流站的历史事件集和响应日志;
对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
上述关联规则挖掘方法、装置、计算机设备、存储介质和计算机程序产品,涉及换流站海量事件的关联规则挖掘,对换流站的历史事件集进行特征筛选得到判断特征集,并对响应日志进行特征筛选得到结果特征集,进而利用互信息原理与对称不确定性理论得到满足结果特征与判断特征间有强关联、任意两个判断特征间关联较弱的特征子集,对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则。由于特征子集中所包含的目标判断特征和目标结果特征更少,并且目标判断特征和目标结果特征均满足结果特征与判断特征间有强关联、任意两个判断特征间关联较弱,因此通过从特征筛选得到的判断特征集和结果特征集中选出特征子集,相当于减少了待挖掘的特征数据,从而提高了换流站海量事件的关联规则的挖掘效率。
此外,基于挖掘得到的强关联规则可用于进行换流站事件异常反馈,从而提高了换流站事件异常的检测效率,能够更有效地反馈换流站事件异常,方便换流站运维人员及时发现换流站的设备异常动作,减少人工盘查换流站事件漏看、错看的可能性,有效地提升了换流站运维的可靠性。
附图说明
图1为一个实施例中关联规则挖掘方法的应用环境图;
图2为一个实施例中关联规则挖掘方法的流程示意图;
图3为一个实施例中进行特征筛选步骤的流程示意图;
图4为另一个实施例中进行特征筛选步骤的流程示意图;
图5为一个实施例中换流站事件异常反馈的流程示意图;
图6为另一个实施例中关联规则挖掘方法的流程示意图;
图7为一个实施例中关联规则挖掘方法的效果示意图;
图8为一个实施例中关联规则挖掘装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的一种关联规则挖掘方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可单独执行本申请实施例提供的关联规则挖掘方法,终端102和服务器104也可协同执行本申请实施例提供的关联规则挖掘方法。
当终端102单独执行关联规则挖掘方法时,终端102获取换流站的历史事件集和响应日志;对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集;计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息;基于第一互信息和第二互信息确定特征子集,特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
当终端102和服务器104协同执行关联规则挖掘方法时,终端102获取换流站的历史事件集和响应日志,并将历史事件集和响应日志发送至服务器104。服务器104对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集;计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息;基于第一互信息和第二互信息确定特征子集,特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
需要说明的是,本申请实施例涉及关联分析技术领域。关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
在关联分析中,包含零个或多个项的集合称作项集(itemset),表达式为{X}。而用于描述数据集中不同项集之间联系的规则称为关联规则,表达式为{X}→{Y},其中{X}和{Y}是不相交的项集。
在关联分析中,有两个重要的概念:支持度(support)和置信度(confidence)。支持度是针对项集{X}而言,是指项集{X}在整个数据集中出现的概率。例如,数据集有10条事务,包含项集{X}的事务有5条,那么项集{X}的支持度就是5/10=0.5。
置信度是针对关联规则{X}→{Y}而言,是指项集{Y}在包含项集{X}的事务中出现的概率,计算公式为:关联规则{X}→{Y}的置信度=项集{X,Y}的支持度/项集{X}的支持度。例如:数据集有10条事务,包含项集{X}的事务有5条,同时包含项集{X}和项集{Y}的事务有2条,则项集{X,Y}的支持度就是2/10=0.2,那么关联规则{X}→{Y}的置信度为0.2/0.5=0.4。
大多数关联分析算法采用的方法包括:
(1)设置最小支持度阈值和最小置信度阈值;(2)挖掘频繁项集,也就是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集;(3)挖掘强关联规则,也就是基于上一步发现的频繁项集构建所有可能的关联规则,然后计算每条关联规则的置信度,提取满足最小置信度阈值的关联规则,这些关联规则就称作强关联规则。
目前关联分析普遍采用Apriori算法。Apriori算法需要多次扫描数据库,并需要生成指数级的候选项集,导致时间、空间成本过高,性能并不理想。
本申请实施例中涉及到FP-Growth算法。FP-Growth,即Frequent Pattern Growth(频繁模式增长),它通过构建FP树(即Frequent Pattern Tree)这样的数据结构,将数据存储在FP树中,只需要在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库了,同时不需要生成候选项集。因此,这种特性使得FP-growth算法比Apriori算法速度快。
应当理解的是,本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式的“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。
在一个实施例中,如图2所示,提供了一种关联规则挖掘方法,以该方法应用于图1中的计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明,包括以下步骤:
步骤202,获取换流站的历史事件集和响应日志。
其中,历史事件集为换流站故障发生后预设时间内的多个历史事件的集合,每个历史事件包括历史时间、主机、系统告警、事件等级、报警组和事件列表等数据特征项。换流站的历史事件集具有元组特性,计算机设备获取到历史事件集后,能够自动提取出其中的各个数据特征项,包括历史时间、主机、系统告警、事件等级、报警组和事件列表。
其中,历史时间为换流站的历史事件的生成时刻,计算机设备根据该历史时间收集故障发生后产生的数据;主机用于定位产生历史事件的控制保护装置;系统告警用于指示主机的哪一套冗余系统(A/B)产生该历史事件;事件等级用于指示该历史事件需要给予的关注度,分为“正常”、“轻微”、“报警”和“紧急”四个等级;报警组为产生该历史事件的换流站设备组或产生该历史事件的主机的控制软件的模块;事件列表为对该历史事件的内容描述。
响应日志包括多条日志,每条日志包括响应时间、故障区域和故障内容这些数据特征项,用于记录故障发生的时间、地点和内容。例如,响应日志中记录的一条日志为:“在20201007 10:48:10发生线路整流侧出现极1出线金属性接地”,其中,响应时间就是20201007 10:48:10,故障区域就是线路,故障内容就是线路接地。换流站的响应日志并不具备元组特性,需要基于操作人员的业务经验进行实体筛选,采用人工的方式筛选出响应日志中的各个数据特征项,包括响应时间、故障区域和故障内容。
具体地,计算机设备从历史数据库中获取换流站的多个历史事件和响应日志,进行数据整合;并选取历史时间与响应时间满足时间差阈值的历史事件,即选取响应日志中记录的故障发生后时间差阈值内的历史事件,形成历史事件集。
在一个实施例中,由于故障发生后相关设备动作将在0-120秒内完成,因此选取的时间差阈值为120秒,即选取换流站故障发生后120秒内的历史事件形成历史事件集。
步骤204,对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集。
其中,判断特征集和结果特征集均为布尔类型的数据集合。判断特征集包括多个判断特征,判断特征对应历史事件的数据特征项为:报警组和事件列表。结果特征集包括多个结果特征,结果特征对应响应日志的数据特征项为:故障内容。
具体地,计算机设备对历史事件集中每个历史事件的报警组和事件列表依次进行筛选,得到多个判断特征,然后对筛选后的多个判断特征进行布尔映射,将多个判断特征的数据类型转换为布尔类型,得到判断特征集。
计算机设备还对响应日志中的每条日志的故障内容进行筛选,得到多个结果特征,然后对多个结果特征进行布尔映射,将多个结果特征的数据类型转换为布尔类型,得到结果特征集。
步骤206,计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息。
其中,第一互信息是指判断特征与结果特征之间的关联程度,第二互信息是指两个不同的判断特征之间的关联程度。
具体地,计算机设备计算判断特征集中的每个判断特征分别与结果特征集中的每个结果特征之间的互信息,并基于对称不确定性对该互信息进行归一化,将互信息的范围缩放到[0,1],以降低数据特征的计算复杂度和空间复杂度,然后基于归一化后的互信息,计算得到判断特征集与结果特征集间的第一互信息。
计算机设备还计算判断特征集中的任意两个判断特征之间的互信息,并基于对称不确定性对该互信息进行归一化,将互信息的范围缩放到[0,1],以降低数据特征的计算复杂度和空间复杂度,然后基于归一化后的互信息,计算得到计算判断特征集中的各判断特征之间的第二互信息。
需要说明的是,互信息是指两个随机变量之间的关联程度。熵在信息论中用来度量随机变量的不确定性,而互信息则利用其随机变量序列的熵衡量其信息相似程度。
假设有两个特征X与Y,则特征X与Y间的互信息的计算公式如下。
式中:p(x)和p(y)分别为特征X和Y的概率密度函数,p(x,y)为特征X和Y的联合密度函数。
还需要说明的是,互信息在选取特征较多时,其计算复杂度与空间复杂度会成倍增加,为了降低其复杂度,采用了对称不确定性,对互信息进行归一化,将互信息的范围缩放到[0,1],对称不确定性公式如下。
式中:SU(X,Y)为特征X和Y间的对称不确定性互信息,H(X)和H(Y)分别为特征X和Y的信息熵,I(X,Y)为特征X与Y间的互信息。
步骤208,基于第一互信息和第二互信息确定特征子集,特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合。
其中,特征子集为从判断特征集和结果特征集选取的满足第一互信息取最大值并且第二互信息取最小值的判断特征和结果特征的集合。
具体地,为了减少进行关联规则挖掘的特征集,以改进FP-Growth算法,本申请实施例中计算机设备通过计算满足第一互信息取最大值并且第二互信息取最小值的判断特征和结果特征,得到特征子集,特征子集中的目标结果特征与目标判断特征之间有强关联,并且任意两个目标判断特征之间的关联较弱。
步骤210,对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
其中,强关联规则为基于FP-Growth算法确定的目标判断特征和目标结果特征之间的强关联规则。
具体地,计算机设备采用FP-Growth算法挖掘特征子集中目标判断特征与目标结果特征之间的关联规则。根据实际应用场景,首先设置FP-Growth算法的最小支持度阈值和最小置信度阈值。然后构建频繁模式树,根据频繁模式树得到特征子集中每个目标判断特征的支持度、以及目标判断特征与目标结果特征之间的关联规则;将目标判断特征的支持度不小于最小支持度阈值的目标判断特征提取出来组合成频繁项集;从频繁项集中,将目标判断特征与目标结果特征之间的关联规则的置信度不小于最小置信度阈值的关联规则提取出来,得到强关联规则。
得到强关联规则后,计算机设备使用该强关联规则检测换流站海量事件是否异常。具体地,计算机设备从实时数据库中获取待分析事件和待分析响应日志;对待分析事件进行特征筛选得到待分析事件的判断特征,对待分析响应日志进行特征筛选得到待分析响应日志的结果特征;基于强关联规则,并根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,若匹配成功,则反馈该待分析事件无异常,若匹配不成功,则反馈该待分析事件存在异常。
上述关联规则挖掘方法,涉及换流站海量事件的关联规则挖掘,对换流站的历史事件集进行特征筛选得到判断特征集,并对响应日志进行特征筛选得到结果特征集,进而利用互信息原理与对称不确定性理论得到满足结果特征与判断特征间有强关联、任意两个判断特征间关联较弱的特征子集,对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则。由于特征子集中所包含的目标判断特征和目标结果特征更少,并且目标判断特征和目标结果特征均满足结果特征与判断特征间有强关联、任意两个判断特征间关联较弱,因此上述关联规则挖掘方法通过从特征筛选得到的判断特征集和结果特征集中选出特征子集,相当于减少了待挖掘的特征数据,从而提高了换流站海量事件的关联规则的挖掘效率。
基于挖掘得到的强关联规则进行换流站事件异常反馈,从而提高了换流站事件异常的检测效率,能够更有效地反馈换流站事件异常,方便换流站运维人员及时发现换流站的设备异常动作,减少人工盘查换流站事件漏看、错看的可能性,有效地提升了换流站运维的可靠性。
在一个实施例中,如图3和图4所示,对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集,包括:
以历史时间和主机为索引,对历史事件集中每个历史事件的报警组和事件列表进行筛选,得到多个判断特征。
具体地,如图3所示,计算机设备从历史事件集中选择系统告警为指定系统(例如系统A)、事件等级为“轻微”、“报警”和“紧急”的历史事件,然后以历史时间和主机为索引,遍历每个历史事件的报警组和事件列表,将报警组和时间列表作为历史事件的判断特征,得到多个判断特征。
其中,由于换流站故障事件分为直流系统故障与顺控操作,其复杂度不同,故分为两种情况进行关联规则挖掘。具体地,直流系统故障较为复杂,采用“事件列表”数据特征项作为直流系统故障的判断特征,即对应设备动作;顺控操作较为简单,采用“报警组”数据特征项作为顺控操作的判断特征,即对应设备。
参考图4,在以历史时间和主机为索引,对历史事件集中每个历史事件的报警组和事件列表进行筛选,得到多个判断特征之前,对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集,还包括:根据获取到的换流站的历史事件集和响应日志,对历史事件集和响应日志进行质量检验。
由于获取到的换流站的历史事件集和响应日志中的字段可能存在字段有歧义、字段重复或者字段缺失等问题,因此在对历史事件集和响应日志进行特征筛选之前,需要对其进行质量检查。具体地,计算机设备对获取到的换流站的历史事件集和响应日志进行字段检查与初步校对,以保证其字段质量。
对筛选后的多个判断特征进行布尔映射,得到判断特征集。
具体地,由于换流站的历史事件集具备元组特性,计算机设备自动对其中的多个判断特征进行布尔映射,得到判断特征集。具体公式如下。
式中:xi为第i个文本格式的判断特征,B为布尔映射函数,bi为第i个布尔类型的判断特征,Sjud为判断特征集,其中i为大于0的整数。
其中,布尔映射是指将文本格式的数据转换为二进制形式表示的布尔型数据。在本实施例中,也就是将判断特征由原始的文本格式转换为布尔类型,以便于计算机设备进行运算,从而便于后续的关联规则挖掘。
对响应日志的故障内容进行实体筛选,得到多个结果特征,并对筛选后的多个结果特征进行布尔映射,得到结果特征集。
具体地,如图3所示,计算机设备获取实体筛选得到的响应时间、故障区域和故障内容,将故障内容作为响应日志的结果特征,得到多个结果特征。
对筛选后的多个结果特征进行布尔映射,得到结果特征集。具体公式如下。
式中:cj为第j个文本格式的结果特征,B为布尔映射函数,bi+j为第(i+j)个布尔类型的结果特征,Sres为结果特征集,i和j均为大于0的整数。
其中,布尔映射是指将文本格式的数据转换为二进制形式表示的布尔型数据。在本实施例中,也就是将结果特征由原始的文本格式转换为布尔类型,以便于计算机设备进行运算,从而便于后续的关联规则挖掘。
本实施例中,通过对换流站的历史事件集和响应日志进行特征筛选,从历史事件的多个数据特征项中筛选出历史时间、主机、系统告警、事件等级、报警组和事件列表,以及从响应日志中筛选出响应时间、故障区域和故障内容,从而降低了多维度的历史事件集和多维度的响应日志的维度,过滤掉其他相关性较小的字段。此外,通过从历史事件集中选取历史时间与响应时间满足时间差阈值的历史事件,并将报警组和事件列表作为判断特征、将故障内容作为结果特征,实现了历史事件集和响应日志的匹配。
本实施例中,还通过对筛选后的多个判断特征和多个结果特征进行布尔映射,将判断特征和结果特征的数据类型转换为布尔类型,从而便于后续的关联规则挖掘。
在一个实施例中,计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息,包括:
计算判断特征集中的每个判断特征分别与结果特征集间的第一特征间互信息,并基于对称不确定性对第一特征间互信息进行归一化,得到第一对称不确定性互信息。
具体地,计算机设备计算判断特征集中的每个判断特征分别与结果特征集中的每个结果特征间的互信息,得到多个第一特征间互信息;并基于对称不确定性,对多个第一特征间互信息分别进行归一化,得到多个第一对称不确定性互信息。
基于每个判断特征分别与结果特征集间的第一对称不确定性互信息,得到判断特征集与结果特征集间的第一互信息。
具体地,计算机设备基于判断特征集与结果特征集间的多个第一对称不确定性互信息,得到判断特征集与结果特征集间的第一互信息。
以结果特征集仅包括一个结果特征为例进行说明。此时,第一互信息的计算公式如下。
式中:D是判断特征集与结果特征集间的第一互信息,S为判断特征集和结果特征集的集合,|S|为判断特征集和结果特征集的集合的维数,xi为第i个判断特征,c为结果特征,I(xi,c)为第i个判断特征与结果特征的第一对称不确定性互信息。
计算判断特征集中的任意两个判断特征之间的第二特征间互信息,并基于对称不确定性对第二特征间互信息进行归一化,得到第二对称不确定性互信息。
具体地,计算机设备计算判断特征集中的任意两个判断特征之间的互信息,得到多个第二特征间互信息;并基于对称不确定性,对多个第二特征间互信息分别进行归一化,得到多个第二对称不确定性互信息。
根据判断特征集中的任意两个判断特征之间的第二对称不确定性互信息,得到判断特征集中的各判断特征之间的第二互信息。
具体地,计算机设备基于判断特征集中的任意两个判断特征之间的第二对称不确定性互信息,得到判断特征集中的各判断特征之间的第二互信息。第二互信息的计算公式如下。
式中:R(S)是判断特征集中的各判断特征之间的第二互信息,S为判断特征集和结果特征集的集合,|S|为判断特征集和结果特征集的集合的维数,xi为第i个判断特征,xj为第j个判断特征,I(xi,xj)为第i个判断特征与第j个判断特征的第二对称不确定性互信息。
本实施例中,通过互信息表示判断特征与结果特征间的相关性,以及判断特征之间的相关性,并进一步地采用对称不确定性理论,对互信息进行归一化,将互信息的范围缩放到[0,1],能够降低计算的复杂度,以便于后续使用关联规则算法对判断特征和结果特征间的关联规则进行挖掘。
在一个实施例中,基于第一互信息和第二互信息确定特征子集,特征子集为满足上述公式(1)取最大值并且上述公式(2)取最小值的目标判断特征和目标结果特征的组合。
此时,特征子集中的目标结果特征与目标判断特征之间有强关联,并且任意两个目标判断特征之间的关联较弱。
本实施例中,由于特征子集中所包含的目标判断特征和目标结果特征更少,并且目标判断特征和目标结果特征均满足结果特征与判断特征间有强关联、任意两个判断特征间关联较弱,因此通过基于第一互信息和第二互信息确定特征子集,相当于减少了待挖掘的特征数据,能够达到提高换流站海量事件的关联规则挖掘效率的目的。
在一个实施例中,对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则,包括:
设置FP-Growth算法的最小支持度阈值和最小置信度阈值。
其中,FP-Growth算法是常用的关联分析算法。最小支持度阈值和最小置信度阈值的大小由用户根据实际需要进行设置。
设置合理的最小支持度阈值和最小置信度阈值很重要,如果设置得过高,虽然可以减少挖掘时间,但是容易造成一些隐含在数据中非频繁特征项被忽略掉,难以发现足够有用的规则;而如果设置得过低,有可能产生过多的规则,甚至产生大量冗余和无效的规则,从而导致高负荷的计算量,增加了挖掘时间。
构建频繁模式树,根据频繁模式树得到特征子集中每个目标判断特征的支持度、以及目标判断特征与目标结果特征之间的关联规则。
具体地,计算机设备先扫描一遍特征子集,统计各目标判断特征和各目标结果特征出现的次数,以降序的方式排列所有各目标判断特征;并根据各目标判断特征出现的次数,计算每个目标判断特征的支持度。
将目标判断特征的支持度不小于最小支持度阈值的目标判断特征提取出来组合成频繁项集。
具体地,计算机设备删除支持度小于最小支持度阈值的目标判断特征,将目标判断特征的支持度不小于最小支持度阈值的目标判断特征提取出来组合成频繁项集。
从频繁项集中,将目标判断特征与目标结果特征之间的关联规则的置信度不小于最小置信度阈值的关联规则提取出来,得到强关联规则。
具体地,计算机设备根据各目标判断特征和各目标结果特征出现的次数,计算目标判断特征与目标结果特征之间的各关联规则的置信度。删除置信度小于最小置信度阈值的关联规则,将目标判断特征与目标结果特征之间的关联规则的置信度不小于最小置信度阈值的关联规则提取出来,得到强关联规则。
本实施例中,通过利用FP-Growth算法并基于特征子集,对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,能够达到挖掘出换流站海量事件的强关联规则的目的。
在一个实施例中,如图5所示,关联规则挖掘方法还包括:
获取待分析事件和待分析响应日志。
其中,待分析事件和待分析响应日志为实时数据库中存储的换流站数据。
具体地,计算机设备从实时数据库中获取换流站的待分析事件和待分析响应日志。
对待分析事件进行特征筛选得到待分析事件的判断特征,对待分析响应日志进行特征筛选得到待分析响应日志的结果特征。
具体地,计算机设备分别对待分析事件和待分析响应日志进行特征筛选,得到待分析事件的判断特征和待分析响应日志的结果特征。
基于强关联规则,并根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,得到待分析事件的异常反馈结果。
具体地,计算机设备根据换流站事件的强关联规则,判断待分析事件的判断特征与待分析响应日志的结果特征之间的关联规则是否与强关联规则匹配,即根据待分析响应日志的结果特征,确定强关联规则中与该待分析响应日志的结果特征相匹配的判断特征,然后遍历待分析事件的判断特征,判断能否在待分析事件的判断特征中找到该与待分析响应日志的结果特征相匹配的判断特征。如果匹配成功,则反馈待分析事件无异常;如果匹配不成功,则反馈待分析事件存在异常。
本实施例中,通过匹配强关联规则进行换流站海量事件异常反馈。由于强关联规则是基于利用互信息原理和对称不确定性理论得到的特征子集和FP-Growth算法挖掘得到的,能够达到提高换流站事件异常的检测效率,方便换流站运维人员及时发现换流站的设备异常动作,减少人工盘查换流站事件漏看、错看的可能性,有效地提升了换流站运维的可靠性。
参考图6,在另一个实施例中提供了一种考虑换流站海量事件的关联规则挖掘方法,包括以下步骤:
步骤一、换流站事件特征筛选;
步骤二、换流站事件关联挖掘建模;
步骤三、关联规则算法改进;
步骤四、换流站事件关联挖掘分析;
步骤五、换流站事件异常反馈。
其中,参考图3,步骤一换流站事件特征筛选,具体包括:
步骤1.1换流站记录事件特征筛选考虑,其包括:
在原始事件的数据中,时间表征事件的生成时刻,方便收集故障发生后产生的数据;主机方便定位产生事件的控制保护装置;系统告警表明主机的哪一套冗余系统(A/B)产生该事件;事件等级表明该事件需要给予的关注度,分为“正常”、“轻微”、“报警”和“紧急”四个等级;报警组为产生该事件的设备组或产生该事件的主机的控制软件的模块;事件列表为系统对当前运行下进行的动作带有嵌入值的事件内容描述。
通过换流站记录事件特征筛选,可以降低记录事件模型维度,故需从原始事件特征选取有效特征,本方法从原始记录数据中利用时间和事件等级作为索引,报警组和事件作为特征来进行布尔映射。
步骤1.2换流站响应日志特征筛选,其包括:
换流站响应日志包含时间、故障区域与故障等内容,需要在业务经验下进行换流站实体筛选。
其中,参考图4,步骤二换流站事件关联挖掘建模,具体包括:
步骤2.1考虑数据整合、质量检验、特征降维的事件处理,具体包括:
数据整合:将换流站记录事件与换流站响应日志进行数据整合、分类,是其在直流系统故障与顺控操作换流站响应事件后120秒的记录事件进行对应并形成记录事件集;
质量检验:对于记录事件集与换流站响应日志进行字段检查与初步核实,以保证其字段质量;
特征降维:采用前期选择的主机、报警组、事件判断特征项,同时过滤其无意义的字段。
步骤2.2对处理后事件进行记录事件集布尔映射、响应日志布尔映射;
其中,记录事件集布尔映射:其中换流站记录事件集自带元组特性,将其自动进行判断特征的布尔映射;
响应日志布尔映射:由于换流站响应日志不具备元组特性,本方法针对其进行业务经验下的换流站实体筛选,即将响应日志中的时间、故障区域、故障内容基于业务经验进行人工特征筛选,形成结果特征,进而进行布尔映射。
考虑采用布尔数据建模方法,将判断特征进行布尔映射,使其可以进行布尔类数据关联规则挖掘,具体公式如下。
式中:xi为第i个判断特征,cj为第j个结果特征,B为布尔映射函数,Sjud为判断特征集,Sres为结果特征集。
其中,步骤三关联规则算法改进,具体包括:
利用互信息与对称不确定性改进FP-Growth算法,具体包括:
熵在信息论中用来度量随机变量的不确定性,而互信息则利用其随机变量序列的熵衡量其信息相似程度。假设两个特征X与Y,则互信息的公式如下。
式中:p(x)和p(y)分别为特征X和Y的概率密度函数,p(x,y)为其联合密度函数。
互信息在选取特征较多时,其计算复杂度与空间复杂度会成倍增加,为了降低其复杂度,采用了对称不确定性,将互信息的范围缩放到[0,1]使之归一化互信息,对称不确定性公式如下。
式中:SU(X,Y)为特征X和Y的对称不确定性互信息,H(X)和H(Y)分别为特征X和Y的信息熵。
基于对称不确定性互信息,需保证判断特征与结果特征间相关性互信息最大,判断特征间相关性互信息最小,即需要保证以下公式成立。
式中:xi为第i个判断特征,xj为第j个判断特征,c为结果特征,S为特征子集,|S|为特征子集维数。
其中,步骤四换流站事件关联挖掘分析,具体包括:
本申请实施例采用操作系统为Windows 10、内存为8GB、CPU为Intel(R)Core(TM)i3-9100F CPU@3.60GHz、GPU为NVIDIAGeForce GTX 1650的实验环境,使用Python3.8语言开发,实验软件平台为Anacaoda3,编写数据建模程序与算法程序。
数据来源于昆柳龙直流系统2020年5月20日-2020年12月20日调试期间换流站记录的事件/报警信息,由控制保护系统主机及其I\O系统自身产生,经由站LAN网发送到SCADA系统,由SCADA系统处理后保存到实时数据库和历史数据库中。
考虑到昆柳龙直流换流站调试期间数据量较小,单次事件的事件集数据不完善,故本文设置FP-Growth的最小支持度为1%,最小置信度为70%,其最小支持度设置1%的意义为表示此次故障发生次数与总故障次数的比例,本发明选取此次故障出现概率超过1%,最小置信度设置70%的意义为其结果特征出现时其判断特征出现的可能性大于70%,即出现十次结果特征中至少七次出现其判断特征。
由于换流站分为直流系统故障与顺控操作,其复杂度不同,故分为直流系统故障与顺控操作挖掘,直流系统故障较为复杂,故采用记录事件的“事件”布尔映射,即对应设备动作。而顺控操作较为简单,采用“报警组”布尔映射,即对应设备。
换流站直流系统故障关联规则如表一所示。
表一
换流站顺控操作关联规则如表二所示。
表二
其中,步骤五换流站事件异常反馈,具体包括:
通过匹配结果特征为线路接地可得到两组判断特征,并定义为第一判断特征与第二判断特征,如表三所示。
表三
以某次昆柳线直流线路(金属性)接地故障为例,其事件如表四所示,通过进行规则匹配发现满足第一判断特征与第二判断特征,则反馈该次昆柳线直流线路(金属性)接地故障无异常。
表四
参考图7,该考虑换流站海量事件的关联规则挖掘方法还包括步骤六、改进关联规则算法性能分析,具体包括:
在不同样本数下,采用本方法加入对称不确定性互信息的FP-Growth算法与未改进FP-Growth算法和Apriori算法在不同事件数情况下的挖掘速度进行对比分析,分析结果如图7所示。
本申请实施例提供的一种考虑换流站海量事件的关联规则挖掘方法,利用记录事件元组特性进行特征筛选与降维,并对应完成响应日志实体筛选,使之完成布尔映射与建模,进而利用互信息原理与对称不确定性理论改进FP-Growth算法,最后完成基于改进算法进行换流站事件关联分析与异常反馈,其有效地避免了人工检查异常发生漏看错看,同时方便换流站运维人员及时发现换流站的设备异常动作,减少人工盘查换流站事件漏看、错看的可能性,有效提升了换流站运维的可靠性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的关联规则挖掘方法的关联规则挖掘装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个关联规则挖掘装置实施例中的具体限定可以参见上文中对于关联规则挖掘方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种关联规则挖掘装置800,包括:获取模块802、筛选模块804、计算模块806和确定模块808,其中:
获取模块802,用于获取换流站的历史事件集和响应日志;
筛选模块804,用于对历史事件集进行特征筛选得到判断特征集,对响应日志进行特征筛选得到结果特征集;
计算模块806,用于计算判断特征集与结果特征集间的第一互信息,以及计算判断特征集中的各判断特征之间的第二互信息;
确定模块808,用于基于第一互信息和第二互信息确定特征子集,特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
确定模块808,还用于对特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
在一个实施例中,历史事件集包括多个历史事件,每个历史事件包括历史时间、主机、报警组和事件列表;响应日志包括故障内容;筛选模块804还用于以历史时间和主机为索引,对历史事件集中每个历史事件的报警组和事件列表进行筛选,得到多个判断特征;对筛选后的多个判断特征进行布尔映射,得到判断特征集;对响应日志的故障内容进行实体筛选,得到多个结果特征,并对筛选后的多个结果特征进行布尔映射,得到结果特征集。
在一个实施例中,计算模块806还用于计算判断特征集中的每个判断特征分别与结果特征集间的第一特征间互信息,并基于对称不确定性对第一特征间互信息进行归一化,得到第一对称不确定性互信息;并基于每个判断特征分别与结果特征集间的第一对称不确定性互信息,得到判断特征集与结果特征集间的第一互信息;计算判断特征集中的任意两个判断特征之间的第二特征间互信息,并基于对称不确定性对第二特征间互信息进行归一化,得到第二对称不确定性互信息;根据判断特征集中的任意两个判断特征之间的第二对称不确定性互信息,得到判断特征集中的各判断特征之间的第二互信息。
在一个实施例中,特征子集为满足公式(1)取最大值并且满足公式(2)取最小值的目标判断特征和目标结果特征的组合;
其中,公式(1)和公式(2)为:
式中:D是第一互信息,R(S)是第二互信息,xi为第i个目标判断特征,xj为第j个目标判断特征,c为结果特征,S为特征子集,|S|为特征子集维数。
在一个实施例中,确定模块808还用于设置FP-Growth算法的最小支持度阈值和最小置信度阈值;构建频繁模式树,根据频繁模式树得到特征子集中每个目标判断特征的支持度、以及目标判断特征与目标结果特征之间的关联规则;将目标判断特征的支持度不小于最小支持度阈值的目标判断特征提取出来组合成频繁项集;从频繁项集中,将目标判断特征与目标结果特征之间的关联规则的置信度不小于最小置信度阈值的关联规则提取出来,得到强关联规则。
在一个实施例中,关联规则挖掘装置800还用于获取待分析事件和待分析响应日志;对待分析事件进行特征筛选得到待分析事件的判断特征,对待分析响应日志进行特征筛选得到待分析响应日志的结果特征;基于强关联规则,并根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,得到待分析事件的异常反馈结果。
上述关联规则挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种关联规则挖掘方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种关联规则挖掘方法,其特征在于,所述方法包括:
获取换流站的历史事件集和响应日志;
对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
2.根据权利要求1所述的方法,其特征在于,所述历史事件集包括多个历史事件,每个历史事件包括历史时间、主机、报警组和事件列表;所述响应日志包括故障内容;
所述对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集,包括:
以历史时间和主机为索引,对所述历史事件集中每个历史事件的报警组和事件列表进行筛选,得到多个判断特征;
对筛选后的多个判断特征进行布尔映射,得到判断特征集;
对所述响应日志的故障内容进行实体筛选,得到多个结果特征,并对筛选后的多个结果特征进行布尔映射,得到结果特征集。
3.根据权利要求2所述的方法,其特征在于,所述计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息,包括:
计算所述判断特征集中的每个判断特征分别与所述结果特征集间的第一特征间互信息,并基于对称不确定性对所述第一特征间互信息进行归一化,得到第一对称不确定性互信息;
并基于每个判断特征分别与所述结果特征集间的第一对称不确定性互信息,得到所述判断特征集与所述结果特征集间的第一互信息;
计算所述判断特征集中的任意两个判断特征之间的第二特征间互信息,并基于对称不确定性对所述第二特征间互信息进行归一化,得到第二对称不确定性互信息;
根据判断特征集中的任意两个判断特征之间的第二对称不确定性互信息,得到所述判断特征集中的各判断特征之间的第二互信息。
5.根据权利要求1所述的方法,其特征在于,所述对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则,包括:
设置FP-Growth算法的最小支持度阈值和最小置信度阈值;
构建频繁模式树,根据频繁模式树得到所述特征子集中每个目标判断特征的支持度、以及目标判断特征与目标结果特征之间的关联规则;
将所述目标判断特征的支持度不小于所述最小支持度阈值的目标判断特征提取出来组合成频繁项集;
从所述频繁项集中,将所述目标判断特征与目标结果特征之间的关联规则的置信度不小于所述最小置信度阈值的关联规则提取出来,得到强关联规则。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取待分析事件和待分析响应日志;
对所述待分析事件进行特征筛选得到待分析事件的判断特征,对所述待分析响应日志进行特征筛选得到待分析响应日志的结果特征;
基于所述强关联规则,并根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,得到待分析事件的异常反馈结果。
7.一种关联规则挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取换流站的历史事件集和响应日志;
筛选模块,用于对所述历史事件集进行特征筛选得到判断特征集,对所述响应日志进行特征筛选得到结果特征集;
计算模块,用于计算所述判断特征集与所述结果特征集间的第一互信息,以及计算所述判断特征集中的各判断特征之间的第二互信息;
确定模块,用于基于所述第一互信息和所述第二互信息确定特征子集,所述特征子集为满足第一互信息取最大值并且第二互信息取最小值的目标判断特征和目标结果特征的组合;
所述确定模块,还用于对所述特征子集中的目标判断特征和目标结果特征进行关联规则挖掘,得到强关联规则;所述强关联规则用于根据待分析响应日志的结果特征判断待分析事件的判断特征是否匹配,以确定待分析事件的异常反馈结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350220.3A CN114064723A (zh) | 2021-11-15 | 2021-11-15 | 关联规则挖掘方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350220.3A CN114064723A (zh) | 2021-11-15 | 2021-11-15 | 关联规则挖掘方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064723A true CN114064723A (zh) | 2022-02-18 |
Family
ID=80272220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111350220.3A Withdrawn CN114064723A (zh) | 2021-11-15 | 2021-11-15 | 关联规则挖掘方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064723A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470831A (zh) * | 2022-11-03 | 2022-12-13 | 四川中电启明星信息技术有限公司 | 一种基于频繁项集推理的水电信号异常判断方法 |
-
2021
- 2021-11-15 CN CN202111350220.3A patent/CN114064723A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470831A (zh) * | 2022-11-03 | 2022-12-13 | 四川中电启明星信息技术有限公司 | 一种基于频繁项集推理的水电信号异常判断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
Ma et al. | Supervised anomaly detection in uncertain pseudoperiodic data streams | |
CN112016602B (zh) | 电网故障原因与状态量的关联分析方法,设备和存储介质 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
Yang et al. | Directed network community detection: A popularity and productivity link model | |
Savage et al. | Detection of money laundering groups: Supervised learning on small networks | |
Tao et al. | A network intrusion detection model based on convolutional neural network | |
Enriko | Comparative study of heart disease diagnosis using top ten data mining classification algorithms | |
CN110910991B (zh) | 一种医用自动图像处理系统 | |
Castro et al. | Significant motifs in time series | |
Hewapathirana | Change detection in dynamic attributed networks | |
Cai et al. | An efficient outlier detection approach on weighted data stream based on minimal rare pattern mining | |
Zhan et al. | Summary of association rules | |
Adhikari et al. | Advances in knowledge discovery in databases | |
Darrab et al. | Modern applications and challenges for rare itemset mining | |
CN114064723A (zh) | 关联规则挖掘方法、装置、计算机设备和存储介质 | |
Zubi et al. | Using data mining techniques to analyze crime patterns in the libyan national crime data | |
Sönmez et al. | Anomaly detection using data mining methods in it systems: a decision support application | |
KR101666740B1 (ko) | 빅 데이터 환경에서 의미론적 분석에 기반한 데이터마이닝을 위한 연관 규칙 생성 방법 | |
Sudha et al. | Analysis and evaluation of integrated cyber crime offences | |
Chen et al. | Topological transduction for hybrid few-shot learning | |
CN115408186A (zh) | 根因定位方法、装置、计算机设备和存储介质 | |
Xia et al. | A study on the significance of software metrics in defect prediction | |
Zhao et al. | Sparse Bayesian Tensor Completion for Data Recovery in Intelligent IoT Systems | |
CN113296994A (zh) | 一种基于国产计算平台的故障诊断系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220218 |