CN112395605A

CN112395605A - 基于关联规则的电力物联网数据融合方法

Info

Publication number: CN112395605A
Application number: CN202011326341.XA
Authority: CN
Inventors: 吕磊; 刘萧; 黄林; 许珂; 杨旭东; 蒋天宇
Original assignee: State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-23
Anticipated expiration: 2040-11-23
Also published as: CN112395605B

Abstract

本发明涉及数据处理技术领域，提出了一种基于关联规则的电力物联网数据融合方法。主要解决现有的以支持度和置信度作为度量来对规则强度进行判定的不全面性问题，并在此基础之上提出了一种基于关联规则的电力物联网数据融合方法。本发明主要方案包括，提出以不平衡比来代替支持度，然后与置信度共同来对规则的强度进行更加全面的判定，并将在此度量准则下挖掘到的top‑k平衡关联规则应用到泛在电力物联网的健康状况判定中，给出了一套可行和完整的解决方案，达到数据融合的目的。

Description

基于关联规则的电力物联网数据融合方法

技术领域

本发明涉及数据处理技术领域，提出了一种基于关联规则的，针对泛在电力物联网的数据融合方法。

背景技术

在当前的针对电网的各种数据融合方法研究中，主要针对各种物理的监测数据进行分析，包括对电气量、电流、变压器等等监测数据进行分析。但目前还没有合理的、系统的针对电网信息软件系统监测数据的数据融合方法，也就是对各个信息子系统当前的健康状况进行分析，根据所监测到的数据判断当前信息子系统是否有被恶意病毒感染、是否有遭到恶意的远程攻击等等。

发明内容

本发明解决的技术问题：

现有的top-k关联规则挖掘算法主要是以支持度和置信度作为度量来对规则的强度进行判定，在给定minconf阈值(最小置信度)的前提下，挖掘出支持度最大的k个规则。但是以支持度和置信度对规则的强度进行判定是不全面的，有时并不能满足实际的需求，因为某些支持度较低的规则在具体应用中同样发挥着重要作用。同时针对如何分析泛在电力物联网的健康状况目前还没有合理的、系统的方案。

为解决上述技术问题，本发明采用以下技术方案：

一种基于关联规则的电力物联网数据融合方法，包括以下步骤：

步骤1：给定挖掘的条数参数k和最小置信度minconf；

步骤2：构建存储规则的空集合R和L，初始化最小不平衡比minIR＝0，并将分析库的所有项按自定义的排序准则进行排序；

步骤3：遍历分析库，计算各个项的tidset并记录；

步骤4：定义规则为{X}->{Y}，其中{X}代指被监测项，{Y}代指专家结论项，

步骤4a：遍历选取分析库中的单个项{X}和单个项{Y}，生成规则{X}->{Y}；

步骤4b：计算规则{X}->{Y}的不平衡比、置信度和支持度，若规则{X}->{Y}的支持度大于0，则进行步骤4c，否则进行步骤4d；

步骤4c：将规则{X}->{Y}扩展标志expandLR设置为true，并将规则{X}->{Y}存储到集合R中；

若规则{X}->{Y}置信度大于或等于minconf，且不平衡比大于或等于minIR，则将规则{X}->{Y}作为参数调用SAVE程序存储到集合L中，否则不处理；

步骤4d：结束当前规则的处理，继续处理步骤4a遍历分析库生成的下一个规则；

步骤5：若集合R不为空，即存在规则，进行步骤5a，否则进行步骤5d，

步骤5a：选择集合R中不平衡比最高的规则，此处用规则r来代指这个当前集合R中不平衡比最高的规则；

步骤5b：判断规则r扩展标志expandLR，如为true则进行步骤5b1，如为false则进行步骤5b2；

步骤5b1：将规则r作为参数调用EXPAND-L程序对其进行左扩展，将规则r作为参数调用EXPAND-R程序对其进行右扩展；

步骤5b2：将规则r作为参数调用EXPAND-R程序对其进行右扩展；

步骤5c：将规则r移除出集合R，跳转步骤5；

步骤5d：结束，返回集合L，L即为所得到的top-k平衡关联规则；

步骤6：根据得到的top-k平衡关联规则，对信息子系统的健康状况进行分析。

上述技术方案中，定义规则{X}->{Y}为规则P，

{X}的支持度为：

Sup(X)＝包含{X}的条目数/总条目数＝{X}的tidset大小/总条目数

{Y}的支持度为：

sup(Y)＝包含{Y}的条目数/总条目数＝{Y}的tidset大小/总条目数规则P：{X}->{Y}的支持度为：

Sup(P)＝sup(X∪Y)＝包含{X}和{Y}的条目数/总条目数＝{X}的tidset和{Y}的tidset的交集的大小/总条目数

规则P：{X}->{Y}，不平衡比计算公式：

IR(P)＝|sup(x)-sup(Y)|/(sup(X)+sup(Y)-sup(P))

规则P：{X}->{Y}的置信度为：

Conf(P)＝sup(P)/sup(X)。

上述技术方案中，所述SAVE程序实现包括以下步骤：

步骤S-1：将传参得到的规则以Sr代指，首先将规则Sr加入到集合L中；

步骤S-2：如果集合L中包含的规则数小于或等于挖掘的条数参数k则结束本次SAVA程序调用，若集合L中包含的规则数大于k，统计当前集合L中不平衡比等于minIR的规则数并存储在变量count中；

若集合L中包含的规则总数减去count小于挖掘的条数参数k，则结束本次SAVA程序调用，否则，若集合L中包含的规则总数减去count依旧大于或等于挖掘的条数参数k，则此时将L中不平衡比等于minIR的规则全部移除，得到更新后的集合L，然后将minIR的值设置为更新后的集合L中不平衡比最低的规则的不平衡比。

上述技术方案中，所述EXPAND-R程序实现包括以下步骤：

步骤：ER-1：将传参得到的规则以Rr代指，遍历分析库，在分析库专家结论项中构建规则Rr后件的候选项集合；

步骤ER1-1-1：遍历分析库，得到包含规则Rr前件和后件的条目号集合，也就是规则Rr前件的tidset与后件的tidset的交集，然后将这些条目号对应条目的专家结论项做并集，然后将规则Rr后件中已出现的项从并集中移除，得到初步的Rr后件的候选项集合；

步骤ER1-1-2：依据总程序步骤2中自定义的排序准则，将候选项集合中在排序准则上小于maxRight的项移除，得到最终的候选项集合，即Rr后件的候选项集合，其中maxRight为Rr后件中按照自定义的排序准则最大的那个项；

步骤：ER-2：循环遍历候选项集合中的每个项，将候选项集合中的每个项单独加入到规则Rr的后件得到新的规则Rr’，计算Rr’的置信度和不平衡比，将规则Rr’扩展标志expandLR设置为false，并将规则Rr’加入到集合R中，此时，若规则Rr’的不平衡比大于或等于minIR且Rr’的置信度还大于或等于minconf，则将规则Rr’作为参数调用SAVE程序存储到集合L中，否则不做处理。

上述技术方案中，所述EXPAND-L程序实现包括以下步骤：

步骤：EL-1：将传参得到的规则以Lr代指，遍历分析库，在分析库被监测项中构建规则Lr前件的候选项集合；

步骤EL1-1-1：遍历分析库，得到包含Lr前件和后件的条目号集合，也就是规则Lr前件的tidset和后件的tidset的交集，然后将这些条目号对应条目的被监测项做并集，然后将规则Lr前件中已出现的项从并集中移除，得到初步的规则Lr的前件的候选项集合；

步骤EL1-1-2：依据总程序步骤2中自定义的排序准则，将候选项集合中在排序准则上小于maxLeff的项移除，得到最终的候选项集合，即Lr前件的候选项集合，其中maxLeff为Lr前件中按照自定义的排序准则最大的那个项；

步骤：EL-2：循环遍历候选项集合中的每个项，单独加入到规则Lr的前件得到新的规则Lr’，计算Lr’的不平衡比和置信度，将规则Lr’扩展标志expandLR设置为true，并将规则Lr’加入到集合R中。此时，若规则Lr’的不平衡比大于或等于minIR且规则Lr’的置信度还大于或等于minconf，则将Lr’作为参数调用SAVE程序存储到集合L中，否则不做处理。

上述技术方案中，扩展生成的规则Rr’和规则Lr’定义用规则Q：{I}->{J}来代指，其中I可以是一个项也可以是一个项集(项集：多余一个项)，J同I。

{I}和{J}的支持度为：

Sup(I)＝包含{I}的条目数/总条目数＝{I}的tidset大小/总条目数

Sup(J)＝包含{J}的条目数/总条目数＝{J}的tidset大小/总条目数

规则Q：{I}->{J}的支持度为：

Sup(Q)＝sup(I∪J)＝包含{I}和{J}的条目数/总条目数＝{I}的tidset和{J}的tidset的交集的大小/总条目数

规则Q：{I}->{J}，不平衡比计算公式：

IR(Q)＝|sup(I)-sup(J)|/(sup(I)+sup(J)-sup(Q))

规则Q：规则{I}->{J}的置信度为：

Conf(Q)＝sup(Q)/sup(I)。

上述技术方案中，步骤6具体包括以下步骤：

步骤6.1：每隔一定时间间隔对当前信息子系统进行监测，得到相应的监测数据，将实际的数值型数据根据先前定义的各个被监测数据项的数据频段进行对应映射，变为对应的数据频段名；

步骤6.2：将数据频段名组合成为一个待匹配规则的前件，与上述挖掘出的top-k平衡关联规则的前件进行匹配，

匹配成功后即可根据匹配成功的那个top-k平衡关联规则的后件对当前信息子系统的健康状况进行分析和判定；

若匹配不成功，则对此前件进行保留。

上述技术方案中，对此保留的前件，由专家进行分析给出相应的结论，并将结论进行初始归类作为规则的后件，与对应的前件形成新的分析库条目(前件中的项作为新条目的被监测项，后件中的项作为新条目的专家结论项)，等新生成的分析库条目累积到一定数目后，将它们全部添加到初始分析库中形成新的初始分析库，此时再设定新的参数k和minconf阈值依据前述步骤生成新的top-k平衡关联规则，再继续对信息子系统的健康状况进行判定。

因为本发明采用上述技术方案，因此具备以下有益效果：以不平衡比来代替支持度，然后与置信度共同来对规则的强度进行判定会更加的全面，因为在这种度量准则下，支持度低但同样具备参考价值的规则就可以被挖掘出来，并在实际应用中发挥其价值。同时，基于上述度量准则挖掘出来的top-k平衡关联规则应用到泛在电力物联网的健康状况判定中，进行相应的数据融合，可以克服传统人工判定的工作量大、不及时性等问题，极大的提高对泛在电力物联网健康状况进行判定的效率。

具体实施方式

①根据历史泛在电力物联网监测数据，结合专家意见构建初始分析库例如针对单个信息子系统而言，示例构建的初始分析库如下：

说明：上述T1时刻的结论1和T2时刻的结论1是不一定相等的，标号只是为了对当前时刻的多个专家结论进行区分。数据11、数据12很好理解，就是在T1时刻对项目1和项目2进行监测得到的具体数据值，其余部分可依次类推。相同的一个结论可能由不同的项目1到N的监测数据值集合得到。

初始分析库应当具有完备性，也就是涵盖有各种情况(专家结论部分就是可能的各种情况)，并且有一定的发生频率的区分，比如某个结论在整个初始分析库中出现了很多次，某个结论只出现了极少的次数。

②构建各个被监测项目的数据频段，并对专家结论进行相应的初始归类，以优化分析库的结构

构建被监测项目的数据频段：

由于各个被监测的项目变化阈值不尽相同，比如项目1的变化范围为[0，1]，项目2的变化范围为[0，100]，如此等等。为各个被监测项目构建数据频段的目的在于将分析库进行优化，后续则可以针对各个被监测项目的具体数据值所对应的数据频段来进行分析，极大降低分析的复杂性。

例如将项目1、项目2的数据频段划分如下(要进行相应的命名，命名方式自由)：

项目1：

项目2：

对专家结论进行初始归类：

比如T1时刻的结论2和T2时刻的结论3我们认为是属于一类的，如果我们定义类名为ONE，那么在分析库中，T1时刻的结论2和T2时刻的结论3我们就可以用自定义的类名代替，也就是ONE。其余则依次类推。

③根据优化后的分析库，给定参数挖掘出top-k平衡关联规则(创新性部分)

分析库中的无论是针对被监测数据值的数据频段名还是针对专家结论的类名，我们现在统称它们为项。现有的top-k关联规则挖掘算法主要是以支持度和置信度作为度量来对规则的强度进行判定，在给定minconf阈值(最小置信度)的前提下，挖掘出支持度最大的k个规则。但是以支持度和置信度对规则的强度进行判定是不全面的，有时并不能满足实际的需求，因为某些支持度较低的规则在具体应用中同样发挥着重要作用，基于此，我们提出以不平衡比(Imbalance Ratio，IR)来替代支持度(support)，与置信度相结合来更全面的对规则的强度进行判定。于是问题变为对top-k平衡关联规则的挖掘，即在满足给定的minconf阈值的前提下，对当前分析库所能生成的规则中最平衡的k个规则的挖掘。

说明：针对不平衡比度量而言，其值处于0到1之间，越低越平衡，越高越不平衡。此处为方便计算，我们存储规则的IR值实际为1-IR，也就是变为值越高越平衡。

本发明公开了一种基于关联规则的电力物联网数据融合方法包括以下步骤：

步骤1：给定挖掘的条数参数k和最小置信度minconf；

R：规则扩展时候用于存储候选规则的集合，里面的规则后续用来进行左扩展和右扩展。

L：最终挖掘到的top-k平衡关联规则集合。

步骤3：遍历分析库，计算各个项的tidset并记录；

关于计算各个项的tidset。在进行规则的左扩展或者右扩展时候，寻找扩展侧的候选项集合时候会用到tidset。

计算支持度、置信度、不平衡比这些都要用到。

Tidset可以针对项，也可以针对项集，项集就是多余一个项就叫项集。项集的tidset也是一样的计算方式，同时包含项集中所有项的条目的序号，共同组成这个项集的tidset。

比如分析库如下：

条目1：A1 B1 C2 ONE THREE TWO

条目2：A2 B1 C3 ONE TWO

条目3：A2 B3 C2 TWO ONE THREE

条目4：A2 B1 C5 TWO THREE

项A1的tidset为{1}

项B1的tidset为{1，2，4}

项集{A2，TWO}的tidset为{2，3，4}

项集{C2，ONE}的tidset为{1，3}

步骤5b：判断规则r扩展标志expandLR，如为true则进行步骤5b1，如为false则进行步骤562；

步骤562：将规则r作为参数调用EXPAND-R程序对其进行右扩展；

步骤5c：将规则r移除出集合R，跳转步骤5；

在上述技术方案的技术上，定义一个规则P：{X}->{Y}，下面依据规则P来对相关的支持度、置信度和不平衡比进行说明。

{X}的支持度为：

Sup(X)＝包含{X}的条目数/总条目数＝{X}的tidset大小/总条目数

{Y}的支持度为：

Sup(Y)＝包含{Y}的条目数/总条目数＝{Y}的tidset大小/总条目数

规则P：{X}->{Y}的支持度为：

规则P：{X}->{Y}，不平衡比计算公式：

IR(P)＝|sup(X)-sup(Y)|/(sup(X)+sup(Y)-sup(P))

规则P：{X}->{Y}的置信度为：

Conf(P)＝sup(P)/sup(X)。

在上述技术方案的基础上，所述SAVE程序实现包括以下步骤：

在上述技术方案的基础上，所述EXPAND-R程序实现包括以下步骤：

步骤：ER-2：循环遍历候选项集合中的每个项，将候选项集合中的每个项单独加入到规则Rr的后件得到新的规则Rr’，计算Rr’的置信度和不平衡比，将规则Rr’扩展标志expandLR设置为false，并将规则Rr’加入到集合R中。此时，若规则Rr’的不平衡比大于或等于minIR且Rr’的置信度还大于或等于minconf，则将规则Rr’作为参数调用SAVE程序存储到集合L中，否则不做处理。

比如分析库如下：

条目1：A1 B1 C2 ONE THREE TWO

条目2：A2 B1 C3 ONE TWO

条目3：A2 B3 C2 TWO ONE THREE

条目4：A6 B1 C5 TWO THREE

比如一个规则Rr：A2->TWO现在是进行右扩展，那么我们在包含A2和TWO的条目的右侧寻找候选项，比如当前分析库包含A2和TWO的条目为2和3，它们的右侧分别为ONE TWO和TWO ONE THREE那么候选项集合就暂时为{ONE，THREE}，也就是除TWO以外的其他项，这是第一步。

第二步：以一定总顺序，这个总顺序是自定义的，假设这里依据自定义的总顺序，条目2和条目3中右侧出现的所有项由小到大排序为ONE＜TWO＜THREE，然后将规则Rr：A2->TWO的右侧的最大项用maxRight代指。现在规则Rr：A2->TWO的右侧只有TWO，所以现在maxRight为TWO。

第三步：将候选项集合中在自定义顺序上小于maxRight的项移除，剩下即为规则Rr：A2->TWO的后件的候选项集合，这里移除ONE，得到最终的规则Rr：A2->TWO的后件的候选项集合为{THREE}。

在上述技术方案的基础上，所述EXPAND-L程序实现包括以下步骤：

步骤EL1-1-2：依据总程序步骤2中自定义的排序准则，将候选项集合中在排序准则上小于maxLeft的项移除，得到最终的候选项集合，即Lr前件的候选项集合，其中maxLeft为Lr前件中按照自定义的排序准则最大的那个项；

比如分析库如下：

条目1：A1 B1 C2 ONE THREE TWO

条目2：A2 B1 C3 ONE TWO

条目3：A2 B3 C2 TWO ONE THREE

条目4：A6 B1 C5 TWO THREE

比如一个规则Lr：A2->TWO现在是进行左扩展，那么我们在包含A2和TWO的条目的左侧寻找候选项，比如当前分析库包含A2和TWO的条目为2和3，它们的左侧分别为A2 B1 C3和A2 B3 C2那么候选项集合就暂时为{B1，C3，B3，C2}，也就是除A2以外的其他项，这是第一步。

第二步：以一定总顺序，这个总顺序是自定义的，假设这里依据自定义的总顺序，条目2和条目3中左侧出现的所有项由小到大排序为A2＜B1＜B3＜C2＜C3。然后将规则Lr：A2->TWO的左侧的最大项用maxLeft代指。现在规则Lr：A2->TWO的左侧只有A2，所以现在maxLeft为A2。

第三步：将候选项集合中在自定义顺序上小于maxLeft的项移除，剩下即为规则Lr：A2->TWO的前件的候选项集合，在这里没有比maxLeft也就是A2更小的项，所以没有项被移除，最终的规则Lr：A2->TWO的前件的候选项集合为{B1，C3，B3，C2}

④根据得到的top-k平衡关联规则，对信息子系统的健康状况进行分析

例如找到的top-k平衡关联规则如下：

规则1	{A1，D3......}->{ONE，THREE，FIVE......}
		规则2	{B2，C7，D8......}->{ONE，TWO，EIGHT......}
规则3	{A8，B6，C2......}->{SEVEN，TWO，TEN......}
		......	.......
规则k	{C5，D9......}->{ONE，TWO，ELEVEN......}

每隔一定时间间隔对当前信息子系统进行监测，得到相应的监测数据，将实际的数值型数据根据先前定义的各个被监测数据项的数据频段进行对应映射，变为对应的数据频段名，将这些数据频段名组合成为一个待匹配规则的前件，与上述挖掘出的top-k平衡关联规则的前件进行匹配，匹配成功后即可根据匹配成功的那个top-k平衡关联规则的后件对当前信息子系统的健康状况进行分析和判定(此处匹配成功的定义根据实际的情况和需求自拟定)。若匹配不成功，则对此前件进行保留，由专家进行分析给出相应的结论，同样的，我们将这些结论进行初始归类，它们则作为规则的后件，与上述前件形成新的分析库条目(前件中的项作为新条目的被监测项，后件中的项作为新条目的专家结论项)。等新生成的分析库条目累积到一定数目后，将它们全部添加到初始分析库中形成新的初始分析库，此时再设定新的参数k和minconf阈值依据前述步骤生成新的top-k平衡关联规则，再继续对信息子系统的健康状况进行判定。

Claims

1.一种基于关联规则的电力物联网数据融合方法，其特征在于包括以下步骤：

步骤1：给定挖掘的条数参数k和最小置信度minconf；

步骤3：遍历分析库，计算各个项的tidset并记录；

步骤5b2：将规则r作为参数调用EXPAND-R程序对其进行右扩展；

步骤5c：将规则r移除出集合R，跳转步骤5；

2.根据权利要求1所述的一种基于关联规则的电力物联网数据融合方法，其特征在于，定义规则{X}->{Y}为规则P，

{X}的支持度为：

Sup(X)＝包含{X}的条目数/总条目数＝{X}的tidset大小/总条目数

{Y}的支持度为：

sup(Y)＝包含{Y}的条目数/总条目数＝{Y}的tidset大小/总条目数

规则P：{X}->{Y}的支持度为：

Sup(P)＝sup(X∪Y)＝包含{X}和{Y}的条目数/总条目数

＝{X}的tidset和{Y}的tidset的交集的大小/总条目数

规则P：{X}->{Y}，不平衡比计算公式：

IR(P)＝|sup(X)-sup(Y)|/(sup(X)+sup(Y)-sup(P))

规则P：{X}->{Y}的置信度为：

Conf(P)＝sup(P)/sup(X)。

3.根据权利要求1所述的一种基于关联规则的电力物联网数据融合方法，其特征在于：所述SAVE程序实现包括以下步骤：

4.根据权利要求1所述的一种基于关联规则的电力物联网数据融合方法，其特征在于：所述EXPAND-R程序实现包括以下步骤：

5.根据权利要求4所述的一种基于关联规则的电力物联网数据融合方法，其特征在于：所述EXPAND-L程序实现包括以下步骤：

步骤：EL-2：循环遍历候选项集合中的每个项，单独加入到规则Lr的前件得到新的规则Lr’，计算Lr’的不平衡比和置信度，将规则Lr’扩展标志expandLR设置为true，并将规则Lr’加入到集合R中，此时，若规则Lr’的不平衡比大于或等于minIR且规则Lr’的置信度还大于或等于minconf，则将Lr’作为参数调用SAVE程序存储到集合L中，否则不做处理。

6.根据权利要求5所述的一种基于关联规则的电力物联网数据融合方法，扩展生成的规则Rr’和规则Lr’定义用规则Q：{I}->{J}来代指，其中I可以是一个项也可以是一个项集，J同I，项集是指多余一个项，

{I}和{J}的支持度为：

Sup(I)＝包含{I}的条目数/总条目数＝{I}的tidset大小/总条目数

Sup(J)＝包含{J}的条目数/总条目数＝{J}的tidset大小/总条目数

规则Q：{I}->{J}的支持度为：

Sup(Q)＝sup(I∪J)＝包含{I}和{J}的条目数/总条目数

＝{I}的tidset和{J}的tidset的交集的大小/总条目数

规则Q：{I}->{J}，不平衡比计算公式：

IR(Q)＝|sup(I)-sup(J)|/(sup(I)+sup(J)-sup(Q))

规则Q：{I}->{J}的置信度为：

Conf(Q)＝sup(Q)/sup(I)。

7.根据权利要求1所述的一种基于关联规则的电力物联网数据融合方法，其特征在于：步骤6具体包括以下步骤：

若匹配不成功，则对此前件进行保留。

8.根据权利要求7所述的一种基于关联规则的电力物联网数据融合方法，其特征在于：对此保留的前件，由专家进行分析给出相应的结论，并将结论进行初始归类作为规则的后件，与对应的前件形成新的分析库条目，前件中的项作为新条目的被监测项，后件中的项作为新条目的专家结论项，等新生成的分析库条目累积到一定数目后，将它们全部添加到初始分析库中形成新的初始分析库，此时再设定新的参数k和minconf阈值依据前述步骤生成新的top-k平衡关联规则，再继续对信息子系统的健康状况进行判定。