CN112052887A - 一种基于关联规则的电压暂降严重度评估方法及设备 - Google Patents
一种基于关联规则的电压暂降严重度评估方法及设备 Download PDFInfo
- Publication number
- CN112052887A CN112052887A CN202010865705.5A CN202010865705A CN112052887A CN 112052887 A CN112052887 A CN 112052887A CN 202010865705 A CN202010865705 A CN 202010865705A CN 112052887 A CN112052887 A CN 112052887A
- Authority
- CN
- China
- Prior art keywords
- association rule
- characteristic attribute
- voltage sag
- association
- severity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 22
- 238000003064 k means clustering Methods 0.000 claims abstract description 19
- 238000005065 mining Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 19
- 238000013138 pruning Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于关联规则的电压暂降严重度评估方法,包括以下步骤:通过K‑MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
Description
技术领域
本发明涉及一种基于关联规则的电压暂降严重度评估方法及设备,属于电能质量故障监测领域。
背景技术
随着电网中敏感设备的不断增加,电压暂降问题越来越突出,准确评估电压暂降严重度,对电压暂降的分析和治理具有重要意义。
但是,现有的暂降评估方法大多是对电压暂降进行事后分析,对于暂降严重度评估除了事后分析还可以通过事前治理来降低损失。随着现代电网电能质量监测规模的扩大,大量的历史监测数据被存储下来形成一个庞大的数据库,但这些数据仍未得到充分利用。对于每一次电压暂降事件所造成的影响,主要与该节点的电压暂降有关,但节点的电压暂降与诸多因素相关,如故障原因、用户类别等,这些因素形成了对一种电压暂降故障场景的描述。从历史监测数据发现这些因素与节点电压暂降影响程度之间的关联规则,有助于电力部门和用户提前制定对策,以提高供电可靠性和减少损失。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于关联规则的电压暂降严重度评估方法,以电网中的各个节点为描述对象,寻找其所处的故障场景中不同因素与节点电压暂降影响程度之间的关系,准确说明了电压暂降事故对用户造成的影响,也有助于电网管理部门提前制定对策,以提高供电可靠性。
本发明的技术方案如下:
技术方案一:
一种基于关联规则的电压暂降严重度评估方法,包括以下步骤:
通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;
根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;
根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
进一步的,所述通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类的具体步骤为:
选取特征属性的k个值作为初始聚类中心,设置各初始聚类中心所在的聚类为空集;
根据最小距离原则,将特征属性的某个值分配到最近的聚类;
重新计算每个聚类的平均值,并用该平均值作为新的聚类中心;
重复以上步骤,直至每个聚类不再发生变化。
进一步的,所述通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则的具体步骤为:
S1、扫描历史数据库,构造候选1项集;
S2、删除候选i项集中的非频繁项得到频繁i项集(i=1,2,3…n),所述候选i项集包含若干个项目,每个项目中包含i个特征属性;对频繁i项集进行自连接并通过哈希函数进行剪枝,得到候选i+1项集;
S3、重复步骤S2直至无法产生新的频繁i项集;
S4、将最后得到的频繁n项集及其严重度保存至关联规则数据库。
进一步的,所述计算同一特征属性的不同聚类之间的可替换系数的具体步骤为:
特征属性的两个值A、B分属于不同聚类;在关联规则数据库中查找包含特征属性A或者特征属性B的关联规则,关联规则数记为Q1;在不考虑特征属性A和特征属性B的情况下,筛除重复的关联规则,统计得到此时Q1条关联规则中有Q2条不相同的关联规则;计算特征属性A、B之间的可替换系数,公式为:
重复上述步骤直至得到所有同一特征属性的不同聚类之间的可替换系数。
进一步的,所述计算实际场景与关联规则的匹配度的具体步骤为:
根据实际场景与关联规则各特征属性之间的可替换系数,得到隶属度序列ωi={ωi(1),ωi(2),…,ωi(j),…,ωi(n)},i∈[1,m],其中m为的关联规则数,n为关联规则中特征属性的个数,ωi(j)为实际场景的第j个特征属性与第i条关联规则的第j个特征属性之间的可替换系数;
技术方案二:
一种基于关联规则的电压暂降严重度评估方法,包括以下步骤:
通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;
根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;
根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
进一步的,所述通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类的具体步骤为:
选取特征属性的k个值作为初始聚类中心,设置各初始聚类中心所在的聚类为空集;
根据最小距离原则,将特征属性的某个值分配到最近的聚类;
重新计算每个聚类的平均值,并用该平均值作为新的聚类中心;
重复以上步骤,直至每个聚类不再发生变化。
进一步的,所述通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则的具体步骤为:
S1、扫描历史数据库,构造候选1项集;
S2、删除候选i项集中的非频繁项得到频繁i项集(i=1,2,3…n),所述候选i项集包含若干个项目,每个项目中包含i个特征属性;对频繁i项集进行自连接并通过哈希函数进行剪枝,得到候选i+1项集;
S3、重复步骤S2直至无法产生新的频繁i项集;
S4、将最后得到的频繁n项集及其严重度保存至关联规则数据库。
进一步的,所述计算同一特征属性的不同聚类之间的可替换系数的具体步骤为:
特征属性的两个值A、B分属于不同聚类;在关联规则数据库中查找包含特征属性A或者特征属性B的关联规则,关联规则数记为Q1;在不考虑特征属性A和特征属性B的情况下,筛除重复的关联规则,统计得到此时Q1条关联规则中有Q2条不相同的关联规则;计算特征属性A、B之间的可替换系数,公式为:
重复上述步骤直至得到所有同一特征属性的不同聚类之间的可替换系数。
进一步的,所述计算实际场景与关联规则的匹配度的具体步骤为:
根据实际场景与关联规则各特征属性之间的可替换系数,得到隶属度序列ωi={ωi(1),ωi(2),…,ωi(j),…,ωi(n)},i∈[1,m],其中m为的关联规则数,n为关联规则中特征属性的个数,ωi(j)为实际场景的第j个特征属性与第i条关联规则的第j个特征属性之间的可替换系数;
本发明具有如下有益效果:
1、本发明提出了一种切实可行的评估电压暂降严重度的方法,以电网中的各个节点为描述对象,寻找其所处的故障场景中不同因素与节点电压暂降影响程度之间的关系,准确说明了电压暂降事故对用户造成的影响,也有助于电网管理部门提前制定对策,以提高供电可靠性;
2、本发明通过K-MEANS聚类算法对诸如地理位置、时间等需要划分为多个层次的特征属性进行聚类分析,将相似的数据分到同一聚类;
3、本发明通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,利用直接哈希修剪技术,快速发现频繁项集,提高挖掘效率;
4、本发明提供了一种计算同一特征属性的不同聚类之间可替换系数的方法,并根据可替换系数量化实际场景与关联规则的相似度;所述可替换系数根据大量的历史数据生成,反映了特征属性与电压暂降严重度之间的客观规律。
附图说明
图1为本发明的流程图;
图2为实施例1使用的实际场景数据;
图3为K-MEANS聚类算法结果示意图;
图4为DHP算法的流程图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,一种基于关联规则的电压暂降严重度评估方法,包括以下步骤:
通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;
根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;
根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
本实施例根据2016—2019年3年的电能质量监测数据,选取关心节点的地理位置、所连接的用户类别、电压等级、故障原因、暂降发生日期和时间作为电压暂降的特征属性。对于监测期间的每一条暂降记录提取上述特征属性并计算该关心节点电压暂降严重度并将其划分为“优”“良”“中”“较差”“差”五个等级。
将关心节点的地理位置、暂降发生日期和时间通过K-MEANS聚类算法划分为若干个聚类,对划分后的数据通过DHP算法进行数据挖掘(当特征属性不需要划分为多个层次(如用户类别)或者电网内部已经分好层次时(如电压等级),可以不通过K-MEANS聚类算法进行划分)。特征属性个数即为关联规则维度数,设置较低维度的最小支持度为0.1,在较高维(>3)使用递减的最小支持度,并设最小置信度为0.7,挖掘后得到关联规则数据库。(支持度=包含特征属性C的记录数量/总的记录数量,置信度(C→D)=包含特征属性C和D的记录数量/包含特征属性C的记录数量)
对该区域内某行政区域进行观测,根据该区域的地理边界设置经纬度的范围,针对一年中秋季的下午和晚上2个时段,对220kV和35kV 2个电压等级下的包含工、商业用户的节点,分析其受到由短路故障引起的电压暂降的影响,设置故障场景如图2所示。在关联规则库中进行匹配,设置最小匹配度阈值对匹配结果进行筛选,则满足最小匹配度的关联规则所描述的节点受电压暂降影响而产生的变化规律,与当前设置的实际场景中的节点相近。匹配结果如表1所示:
表1关联规则与实际场景匹配结果
根据表1可以得出在此故障场景下的电压暂降严重度。编号1的关联规则具有较高的置信度和匹配度,可以用编号1所示的关联规则中的电压暂降严重度等级衡量该节点在此故障场景下的电压暂降严重程度。即该节点在此故障场景下的电压暂降严重程度为“良”,说明在此故障场景下发生电压暂降对该节点所接用户影响较小。
本实施例的有益效果在于提出了一种切实可行的评估电压暂降严重度的方法,以电网中的各个节点为描述对象,寻找其所处的故障场景中不同因素与节点电压暂降影响程度之间的关系,准确说明了电压暂降事故对用户造成的影响,也有助于电网管理部门提前制定对策,以提高供电可靠性。
实施例二
进一步的,所述通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类的具体步骤为:
选取特征属性的k个值作为初始聚类中心,记为c1,c2,…,ck;设置各初始聚类中心所在的聚类为空集,记为I1=I2=…=Ik=Φ;
重复以上步骤,直至每个聚类不再发生变化。如图3所示,将数据被分为多个聚类。
本实施例的进步之处在于通过K-MEANS聚类算法对诸如地理位置、时间等需要划分为多个层次的特征属性进行聚类分析,将相似的数据分到同一聚类。
实施例三
进一步的,如图4所示,所述通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则的具体步骤为:
S1、扫描历史数据库,构造候选1项集;
S2、删除候选i项集中的非频繁项(即不满足最小支持度的项目)得到频繁i项集(i=1,2,3…n);
对频繁i项集进行自连接,得到i+1项集;根据频繁i项集中的项目设置相应的哈希函数,并得到哈希表Hi+1;根据哈希表Hi+1和最小支持度得到结果位向量;将所述i+1项集带入哈希函数,计算哈希值;根据哈希值对应位向量的值,删去部分项目(即剪枝),得到候选i+1项集;
S3、重复步骤S2直至无法产生新的频繁i项集;
S4、将最后得到的频繁n项集及其严重度保存至关联规则数据库。
以从表1中的数据生成频繁2项集为例:
扫描历史数据库(表2数据库Tid表),构造候选1项集C1={{A},{B},{C},{D},{E},{F}}。
表2数据库Tid表
删除候选1项集中的非频繁项{F}(在本实施例中设定最小支持度为2,亦即项目最少出现次数为2次),得到频繁1项集L1={{A},{B},{C},{D},{E}};
对频繁1项集L1进行自连接,得到L1×L1:{{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E}};根据频繁1项集中的项目设置相应的哈希函数,并得到哈希表H2,步骤如下:
A1、对历史数据库(表2)中的每行事务根据待生成候选2项集的长度进行组合分解,如表3所示。
表3分解后的数据库Tid表
A2、将表3中每行事务的2项集分别带入哈希函数,根据算得的哈希值将其放入哈希表中。
设哈希函数为:h{(x,y)}=(order(x)×10+order(y))mod7
其中,order(x)为x在所有取值序列中的序号。例如,数据库D中包含的事务项为A、B、C、D、E,则order(A)为1,order(C)为3。(m)mod(n)为m相对于n的余数;对于2项集{B,D},带入哈希函数得:
h{(B,D)}=(order(B)×10+order(D))mod7=(2×10+4)mod7=3
则得到的哈希表H2,如表4所示:
表4哈希表H2
根据最小支持度,哈希表H2中具有相同哈希值的元素的数量大于或等于最小支持度的记为1,小于最小支持度的记为0,得到位向量(1,1,0,1,0,0,1)。分别将L1×L1中的2项目带入哈希函数,得到其对应的哈希值。从L1×L1中删去哈希值对应位向量为0的项目,得到候选2项集C2={{A,D},{A,E},{B,D},{C,E},{C,D},{D,E}}。
删除候选2项集中的非频繁项,得到频繁2项集L2={{A,D},{A,E},{B,D},{C,E},{C,D},{D,E}}。
若利用Apriori算法,则候选2项集C2为{{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E}}。因此,DHP算法比Apriori算法产生的候选2项集个数要少,性能更加优越。
本实施例的进步之处在于通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,利用直接哈希修剪技术,快速发现频繁项集,提高挖掘效率。
实施例四
进一步的,所述计算同一特征属性的不同聚类之间的可替换系数的具体步骤为:
在本实施例中,关联规则库中为{A,C,D}、{B,C,D}、{A,D,E}这三条关联规则,特征属性的两个值A、B分属于不同聚类;在关联规则数据库中查找包含特征属性A或者特征属性B的关联规则,记录找到的关联规则数Q1=3;在不考虑特征属性A和特征属性B的情况下,筛除重复的关联规则({C,D}),统计得到此时Q1条关联规则中有Q2=2条不相同的关联规则({C,D}、{D,E});计算特征属性A、B之间的可替换系数,公式为:
重复上述步骤直至得到所有同一特征属性的不同聚类之间的可替换系数。
进一步的,所述计算实际场景与关联规则的匹配度的具体步骤为:
根据实际场景与关联规则各特征属性之间的可替换系数,得到隶属度序列ωi={ωi(1),ωi(2),…,ωi(j),…,ωi(n)},i∈[1,m],其中m为的关联规则数,n为关联规则中特征属性的个数,ωi(j)为实际场景的第j个特征属性与第i条关联规则的第j个特征属性之间的可替换系数;
在本实施例中,假设实际故障场景的各特征属性为{A,C,D},关联规则的各暂降特征属性为{B,C,D},A与B之间的可替换系数为1/3,则隶属度指标序列ωi={ωi(1),…,ωi(n)}={1/3,1,1};
本实施的进步之处在于提供了一种计算同一特征属性的不同聚类之间可替换系数的方法,并根据可替换系数量化实际场景与关联规则的相似度;所述可替换系数根据大量的历史数据生成,反映了特征属性与电压暂降严重度之间的客观规律。
实施例五
参见图1,一种基于关联规则的电压暂降严重度评估设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;
根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;
根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
本实施例根据2016—2019年3年的电能质量监测数据,选取关心节点的地理位置、所连接的用户类别、电压等级、故障原因、暂降发生日期和时间作为电压暂降的特征属性。对于监测期间的每一条暂降记录提取上述特征属性并计算该关心节点电压暂降严重度并将其划分为“优”“良”“中”“较差”“差”五个等级。
将关心节点的地理位置、暂降发生日期和时间通过K-MEANS聚类算法划分为若干个聚类,对划分后的数据通过DHP算法进行数据挖掘(当特征属性不需要划分为多个层次(如用户类别)或者电网内部已经分好层次时(如电压等级),可以不通过K-MEANS聚类算法进行划分)。特征属性个数即为关联规则维度数,设置较低维度的最小支持度为0.1,在较高维(>3)使用递减的最小支持度,并设最小置信度为0.7,挖掘后得到关联规则数据库。(支持度=包含特征属性C的记录数量/总的记录数量,置信度(C→D)=包含特征属性C和D的记录数量/包含特征属性C的记录数量)
对该区域内某行政区域进行观测,根据该区域的地理边界设置经纬度的范围,针对一年中秋季的下午和晚上2个时段,对220kV和35kV 2个电压等级下的包含工、商业用户的节点,分析其受到由短路故障引起的电压暂降的影响,设置故障场景如图2所示。在关联规则库中进行匹配,设置最小匹配度阈值对匹配结果进行筛选,则满足最小匹配度的关联规则所描述的节点受电压暂降影响而产生的变化规律,与当前设置的实际场景中的节点相近。匹配结果如表1所示:
表1关联规则与实际场景匹配结果
根据表1可以得出在此故障场景下的电压暂降严重度。编号1的关联规则具有较高的置信度和匹配度,可以用编号1所示的关联规则中的电压暂降严重度等级衡量该节点在此故障场景下的电压暂降严重程度。即该节点在此故障场景下的电压暂降严重程度为“良”,说明在此故障场景下发生电压暂降对该节点所接用户影响较小。
本实施例的有益效果在于提出了一种切实可行的评估电压暂降严重度的方法,以电网中的各个节点为描述对象,寻找其所处的故障场景中不同因素与节点电压暂降影响程度之间的关系,准确说明了电压暂降事故对用户造成的影响,也有助于电网管理部门提前制定对策,以提高供电可靠性。
实施例六
进一步的,所述通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类的具体步骤为:
选取特征属性的k个值作为初始聚类中心,记为c1,c2,…,ck;设置各初始聚类中心所在的聚类为空集,记为I1=I2=…=Ik=Φ;
重复以上步骤,直至每个聚类不再发生变化。如图3所示,将数据被分为多个聚类。
本实施例的进步之处在于通过K-MEANS聚类算法对诸如地理位置、时间等需要划分为多个层次的特征属性进行聚类分析,将相似的数据分到同一聚类。
实施例七
进一步的,如图4所示,所述通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则的具体步骤为:
S1、扫描历史数据库,构造候选1项集;
S2、删除候选i项集中的非频繁项(即不满足最小支持度的项目)得到频繁i项集(i=1,2,3…n);
对频繁i项集进行自连接,得到i+1项集;根据频繁i项集中的项目设置相应的哈希函数,并得到哈希表Hi+1;根据哈希表Hi+1和最小支持度得到结果位向量;将所述i+1项集带入哈希函数,计算哈希值;根据哈希值对应位向量的值,删去部分项目(即剪枝),得到候选i+1项集;
S3、重复步骤S2直至无法产生新的频繁i项集;
S4、将最后得到的频繁n项集及其严重度保存至关联规则数据库。
以从表1中的数据生成频繁2项集为例:
扫描历史数据库(表2数据库Tid表),构造候选1项集C1={{A},{B},{C},{D},{E},{F}}。
表2数据库Tid表
删除候选1项集中的非频繁项{F}(在本实施例中设定最小支持度为2,亦即项目最少出现次数为2次),得到频繁1项集L1={{A},{B},{C},{D},{E}};
对频繁1项集L1进行自连接,得到L1×L1:{{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E}};根据频繁1项集中的项目设置相应的哈希函数,并得到哈希表H2,步骤如下:
A1、对历史数据库(表2)中的每行事务根据待生成候选2项集的长度进行组合分解,如表3所示。
表3分解后的数据库Tid表
A2、将表3中每行事务的2项集分别带入哈希函数,根据算得的哈希值将其放入哈希表中。
设哈希函数为:h{(x,y)}=(order(x)×10+order(y))mod7
其中,order(x)为x在所有取值序列中的序号。例如,数据库D中包含的事务项为A、B、C、D、E,则order(A)为1,order(C)为3。(m)mod(n)为m相对于n的余数;对于2项集{B,D},带入哈希函数得:
h{(B,D)}=(order(B)×10+order(D))mod7=(2×10+4)mod7=3
则得到的哈希表H2,如表4所示:
表4哈希表H2
根据最小支持度,哈希表H2中具有相同哈希值的元素的数量大于或等于最小支持度的记为1,小于最小支持度的记为0,得到位向量(1,1,0,1,0,0,1)。分别将L1×L1中的2项目带入哈希函数,得到其对应的哈希值。从L1×L1中删去哈希值对应位向量为0的项目,得到候选2项集C2={{A,D},{A,E},{B,D},{C,E},{C,D},{D,E}}。
删除候选2项集中的非频繁项,得到频繁2项集L2={{A,D},{A,E},{B,D},{C,E},{C,D},{D,E}}。
若利用Apriori算法,则候选2项集C2为{{A,B},{A,C},{A,D},{A,E},{B,C},{B,D},{B,E},{C,D},{C,E},{D,E}}。因此,DHP算法比Apriori算法产生的候选2项集个数要少,性能更加优越。
本实施例的进步之处在于通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,利用直接哈希修剪技术,快速发现频繁项集,提高挖掘效率。
实施例八
进一步的,所述计算同一特征属性的不同聚类之间的可替换系数的具体步骤为:
在本实施例中,关联规则库中为{A,C,D}、{B,C,D}、{A,D,E}这三条关联规则,特征属性的两个值A、B分属于不同聚类;在关联规则数据库中查找包含特征属性A或者特征属性B的关联规则,记录找到的关联规则数Q1=3;在不考虑特征属性A和特征属性B的情况下,筛除重复的关联规则({C,D}),统计得到此时Q1条关联规则中有Q2=2条不相同的关联规则({C,D}、{D,E});计算特征属性A、B之间的可替换系数,公式为:
重复上述步骤直至得到所有同一特征属性的不同聚类之间的可替换系数。
进一步的,所述计算实际场景与关联规则的匹配度的具体步骤为:
根据实际场景与关联规则各特征属性之间的可替换系数,得到隶属度序列ωi={ωi(1),ωi(2),…,ωi(j),…,ωi(n)},i∈[1,m],其中m为的关联规则数,n为关联规则中特征属性的个数,ωi(j)为实际场景的第j个特征属性与第i条关联规则的第j个特征属性之间的可替换系数;
在本实施例中,假设实际故障场景的各特征属性为{A,C,D},关联规则的各暂降特征属性为{B,C,D},A与B之间的可替换系数为1/3,则隶属度指标序列ωi={ωi(1),…,ωi(n)}={1/3,1,1};
本实施的进步之处在于提供了一种计算同一特征属性的不同聚类之间可替换系数的方法,并根据可替换系数量化实际场景与关联规则的相似度;所述可替换系数根据大量的历史数据生成,反映了特征属性与电压暂降严重度之间的客观规律。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于关联规则的电压暂降严重度评估方法,其特征在于,包括以下步骤:
通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类;
根据历史数据库,通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则,得到关联规则数据库;
根据关联规则数据库,计算同一特征属性的不同聚类之间的可替换系数;根据所述可替换系数,计算实际场景与关联规则的匹配度;根据匹配度最高的关联规则,评估实际场景的严重度。
2.根据权利要求1所述的一种基于关联规则的电压暂降严重度评估方法,其特征在于,所述通过K-MEANS聚类算法将电压暂降的特征属性划分为若干个聚类的具体步骤为:
选取特征属性的k个值作为初始聚类中心,设置各初始聚类中心所在的聚类为空集;
根据最小距离原则,将特征属性的某个值分配到最近的聚类;
重新计算每个聚类的平均值,并用该平均值作为新的聚类中心;
重复以上步骤,直至每个聚类不再发生变化。
3.根据权利要求1所述的一种基于关联规则的电压暂降严重度评估方法,其特征在于,所述通过DHP算法挖掘电压暂降的特征属性与严重度的关联规则的具体步骤为:
S1、扫描历史数据库,构造候选1项集;
S2、删除候选i项集中的非频繁项得到频繁i项集(i=1,2,3…n),所述候选i项集包含若干个项目,每个项目中包含i个特征属性;对频繁i项集进行自连接并通过哈希函数进行剪枝,得到候选i+1项集;
S3、重复步骤S2直至无法产生新的频繁i项集;
S4、将最后得到的频繁n项集及其严重度保存至关联规则数据库。
6.一种基于关联规则的电压暂降严重度评估设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1-5任一权利要求所述的一种基于关联规则的电压暂降严重度评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010865705.5A CN112052887B (zh) | 2020-08-25 | 2020-08-25 | 一种基于关联规则的电压暂降严重度评估方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010865705.5A CN112052887B (zh) | 2020-08-25 | 2020-08-25 | 一种基于关联规则的电压暂降严重度评估方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052887A true CN112052887A (zh) | 2020-12-08 |
CN112052887B CN112052887B (zh) | 2023-04-07 |
Family
ID=73600182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010865705.5A Active CN112052887B (zh) | 2020-08-25 | 2020-08-25 | 一种基于关联规则的电压暂降严重度评估方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052887B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378901A (zh) * | 2021-05-31 | 2021-09-10 | 国网上海市电力公司 | 一种基于kfcm聚类分析和pmu装置的主动配电网预想故障集筛选方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254242A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Limited | Methods and systems for mining association rules |
CN103400214A (zh) * | 2013-08-22 | 2013-11-20 | 华北电力大学 | 基于多维多层关联规则的电压暂降预测分析方法 |
CN110705824A (zh) * | 2019-08-30 | 2020-01-17 | 广东电网有限责任公司 | 一种基于聚类分析和关联分析的电压暂降分析方法 |
-
2020
- 2020-08-25 CN CN202010865705.5A patent/CN112052887B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254242A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Limited | Methods and systems for mining association rules |
CN103400214A (zh) * | 2013-08-22 | 2013-11-20 | 华北电力大学 | 基于多维多层关联规则的电压暂降预测分析方法 |
CN110705824A (zh) * | 2019-08-30 | 2020-01-17 | 广东电网有限责任公司 | 一种基于聚类分析和关联分析的电压暂降分析方法 |
Non-Patent Citations (3)
Title |
---|
浮生偷闲: ""机器学习-频繁模式挖掘DHP算法详解"", 《公开网址:HTTPS://BAIJIAHAO.BAIDU.COM/S?ID=1591295786408987280&WFR=SPIDER&FOR=PC》 * |
王燕: "基于等价关系的关联规则挖掘算法研究", 《计算机工程与应用》 * |
百度百科: ""K均值聚类算法"", 《公开网址:HTTPS://BAIKE.BAIDU.COM/HISTORY/K%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/15779627/109548596》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378901A (zh) * | 2021-05-31 | 2021-09-10 | 国网上海市电力公司 | 一种基于kfcm聚类分析和pmu装置的主动配电网预想故障集筛选方法 |
CN113378901B (zh) * | 2021-05-31 | 2024-06-07 | 国网上海市电力公司 | 一种基于kfcm聚类分析和pmu装置的主动配电网预想故障集筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112052887B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6625589B1 (en) | Method for adaptive threshold computation for time and frequency based anomalous feature identification in fault log data | |
US6581058B1 (en) | Scalable system for clustering of large databases having mixed data attributes | |
Qiu et al. | Clustering Analysis for Silent Telecom Customers Based on K-means++ | |
CN108550077A (zh) | 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 | |
CN106991446A (zh) | 一种互信息的组策略嵌入式动态特征选择方法 | |
Tang et al. | Recommending resolutions for problems identified by monitoring | |
CN113742489B (zh) | 一种基于时序知识图谱的综合影响力补偿方法 | |
CN114610706B (zh) | 基于过采样和改进随机森林的窃电检测方法、系统及装置 | |
CN112052887B (zh) | 一种基于关联规则的电压暂降严重度评估方法及设备 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN114676749A (zh) | 一种基于数据挖掘的配电网运行数据异常判定方法 | |
CN115374106B (zh) | 一种基于知识图谱技术的数据智能分级方法 | |
CN112035552A (zh) | 一种基于关联规则的电压暂降严重程度预测方法及装置 | |
CN115860572A (zh) | 基于多维度运算灵活配置的供应商评价方法及系统 | |
CN117272995B (zh) | 一种重复工单推荐方法及装置 | |
CN112035527B (zh) | 基于数据挖掘的电压暂降敏感设备故障水平评估方法 | |
CN117474406A (zh) | 电力数据服务综合评价方法及装置 | |
CN117667585A (zh) | 一种基于运维质量管理数据库的运维效率评估方法及系统 | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
CN112329432A (zh) | 一种基于改进Apriori的配电网电压越限问题关联分析方法 | |
CN114665986B (zh) | 一种蓝牙钥匙的测试系统及方法 | |
CN111239516A (zh) | 一种互感器寿命预测方法及装置 | |
RU2745492C1 (ru) | Способ и система поиска аналогов месторождений нефти и газа | |
CN115858939A (zh) | 一种同行召回方法、系统及存储介质 | |
CN112464168B (zh) | 一种综合能源潜力用户靶向评估提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |