CN113239110A - 一种面向新能源大数据的异常检测方法 - Google Patents

一种面向新能源大数据的异常检测方法 Download PDF

Info

Publication number
CN113239110A
CN113239110A CN202110656682.1A CN202110656682A CN113239110A CN 113239110 A CN113239110 A CN 113239110A CN 202110656682 A CN202110656682 A CN 202110656682A CN 113239110 A CN113239110 A CN 113239110A
Authority
CN
China
Prior art keywords
graph
attribute
abnormal
pattern
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110656682.1A
Other languages
English (en)
Inventor
吕清泉
张睿骁
高鹏飞
周强
张彦琪
张健美
张珍珍
王定美
卢卫
侯佳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
State Grid Gansu Electric Power Co Ltd
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Original Assignee
Renmin University of China
State Grid Gansu Electric Power Co Ltd
Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China, State Grid Gansu Electric Power Co Ltd, Electric Power Research Institute of State Grid Gansu Electric Power Co Ltd filed Critical Renmin University of China
Priority to CN202110656682.1A priority Critical patent/CN113239110A/zh
Publication of CN113239110A publication Critical patent/CN113239110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种面向新能源大数据的异常检测方法,数据准备阶段:完成异常图模式数据的初始化;异常图模式的第一步是生成一组不带属性的候选图模式集合;第二,构造图模式匹配并计算不带属性的候选图模式的支持度;第三,计算异常度生成不带属性的异常图模式;第四,构造带属性的候选图模式,计算带属性的候选图模式的支持度和异常度,生成带属性的异常图模式;第五,跳转到第一步进行下一层的异常图模式生成;本发明的挖掘算法,充分利用了新能源数据的多源异构性,以及新能源数据的分布模式变化多端的特点,为新能源异常数据检测提供了灵活、高效的解决方案,对于提升新能源大数据的质量具有积极作用。

Description

一种面向新能源大数据的异常检测方法
技术领域
本发明涉及异常图模式的形式化定义以及挖掘方法,具体涉及频繁子图挖掘算法,此算法可以用来对新能源大数据进行异常数据的检测。
背景技术
随着电力系统规模的日益增大,新能源的不断加入,系统中的知识总量呈爆炸式增长,电力系统运行需基于更高的数据质量实现,以便为系统提供全方位,全周期的数据共享。国内电力信息系统所使用的数据库一般为结构化数据库。而传统关系型数据库在处理大数据复杂关系问题过程中,一系列技术瓶颈日益凸显,传统数据库已经无法满足海量数据的处理建模与分析。
与此同时,知识图谱可以清晰地反映出数据间的现有关系,推理挖掘出隐藏知识,适用于新能源大数据的异常检测。近年来,知识图谱在电力系统中的应用越来越广泛,例如文献[Yachen Tang,方定江,韩海韵,等.基于图数据库和知识图谱的电力设备质量综合管理系统研究[J].供用电,2019(11):35-40.](以下简称文献[1])设计了一种自顶向下的领域知识图谱模型。文献[高泽璞,赵云,余伊兰,等.基于知识图谱的低压配电网拓扑结构辨识方法[J].电力系统保护与控制,2020,048(002):34-43.](以下简称文献[2])提出了一种基于知识图谱的低压配电网拓扑结构辨识方法,该方法首先构建知识图谱,随后运用知识图谱技术对低压配电网信息系统中的户变关系进行辨识。然而该方法依赖于现有的设计规范,需要有目标地在知识图谱中进行异常数据的查找,并且该方法目前只能实现研究电网户变关系中的用电地址关系,尚未设计一种知识图谱数据全自动化异常数据检测技术。现有技术中,知识图谱中的异常数据挖掘可以通过对图数据进行频繁子图的挖掘,找到图中正常的频繁子结构,再通过摒除正常子结构来获取异常子结构生成。然而该技术存在两方面的弊端:1)异常子结构是通过摒除频繁子图间接生成的,这是由于频繁子图技术只挖掘正常的子图结构,不挖掘异常的子图结构,例如文献[严玉良,董一鸿,何贤芒,etal.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(008):1768-1783]提出的FSMBUS,文献[gSpan:Graph-based substructure patternmining.Yan X,Han J.Proceedings of the IEEE International Conference on DataMining.2002.]提出的Gspan算法,文献[Elseidy M,Abdelhamid E,Skiadopoulos S,etal.GRAMI:Frequent Subgraph and Pattern Mining in a Single Large Graph[J].Proceedings of the Vldb Endowment,2014,7(7):517-528.]提出的GRAMI算法等;2)异常子结构只涉及子图拓扑结构,未利用图顶点丰富的属性信息,而顶点属性信息能够对异常数据进行更细粒度的划分,对异常数据的检测更加敏感。
为解决以上问题,本发明基于以上弊端,设计一种全自动化新能源大数据异常检测的技术方法,从而自动发现新能源大数据中的异常数据,保证数据质量。本发明基于频繁子图的基本概念,结合图顶点的属性信息,对异常图模式进行形式化定义以直接挖掘电网拓扑结构中的异常子结构。本发明改进频繁子图挖掘的技术路线,提出一种面向新能源大数据的异常检测方法。该方法可以直接挖掘新能源大数据的异常模式以及各模式下的属性关联,进而完成异常数据检测。图1所示为一个不带属性的异常图模式,该异常图模式表示若新能源大数据中存在一个用户属于5个台区的情况,那么这个数据属于异常数据。在实际场景下,一个用户最多属于4个台区。因为台区一般情况下指一台变压器的供电范围或区域,即使是用户数较多的高楼层用户一般2~4台变压器也能满足用电需求。一个用户拥有5台变压器在现实生活中几乎不存在,该异常图模式挖掘出了文献[2]中不曾发现的数据,且该异常图模式的挖掘不涉及具体规则的应用,是基于数据的规则自动化挖掘。
发明内容
本发明提出一种新的高效率、低成本、全自动化地面向新能源大数据的异常检测方法,通过挖掘富有语义信息的异常图模式,检测新能源大数据中的异常数据,以保证数据的可靠性和准确性,避免错误或无效数据影响电力系统精细化管理和电网安全运行。
一种面向新能源大数据的异常检测方法:异常图模式挖掘算法,对新能源的知识图谱数据进行异常图模式的挖掘,辨识出新能源信息系统中的关系错误,找出新能源中的异常数据。本发明通过在现有频繁子图技术基础上进行改进从而挖掘大规模图数据的异常图模式,以找出大规模图中匹配异常图模式的异常数据。
本发明在频繁子图的基础上,结合图顶点的属性信息,对异常图模式进行形式化定义以直接挖掘图中异常子结构。异常图模式分为两种:不带属性的异常图模式和带属性的异常图模式。
不带属性的图模式即为子图拓扑结构。带属性的图模式表示子图拓扑结构上添加属性约束条件的集合,属性约束条件是对图顶点属性的约束,表达为“顶点[属性名]=属性值”。延续文献[1]中最小支持度的定义,用最小支持度supp(Q,G)表示大图G中匹配子图结构Q的数目,最小支持度supp(A+Q,G)形式化表示在大图G上既满足子图结构Q又满足属性值约束A的数目。
为直接挖掘异常图结构,本发明提出异常度的概念衡量图的异常程度:
其中不带属性的图模式异常度:用公式
Figure BDA0003113204020000041
来衡量图的异常程度,且异常度abn(Q,G)越小,Q的结构越不合理。其中Q'为频繁的图模式(频繁的图拓扑结构、频繁子图),Q为频繁图模式Q'添加一条边扩展生成的子图结构。该公式表示为频繁图模式在扩展边生成新的子图结构时变得不频繁以至于异常。
带属性的图模式异常度:用公式
Figure BDA0003113204020000042
来衡量图的异常程度,且异常度abn(A+Q,G)越小,带有A属性值约束条件的子图结构Q越不合理。其中A表示为图顶点的属性约束条件集合,属性a∈A为图顶点的属性,表达为“顶点[属性名]=属性值”;Q为频繁图模式,A+Q表示为频繁图模式Q上添加属性约束条件集合A的约束,A+Q图模式是在A'+Q图模式上添加a属性约束条件,即A=A'∪a,A'可以为空集,A不为空集。
若图模式满足异常度小于特定的阈值并且其上一层图模式支持度大于特定的阈值,则该图模式为异常图模式。在大图中满足异常图模式的子图即为异常的图数据。
本发明提出了一种异常图模式挖掘技术。该算法对现有频繁子图挖掘的技术路线进行改进,以适用于挖掘异常图模式。该方法包括如下步骤:
步骤1:数据准备阶段,完成异常图模式数据的初始化;
步骤2:生成第i层不带属性的候选图模式集合;
步骤3:计算候选图模式的支持度;
步骤4:获取不带属性的异常图模式;
步骤5:获取带属性的异常图模式;
步骤6:跳转到步骤2进行第i+1层的异常图模式生成,直到没有新的异常图模式生成或者i达到阈值。
与现有技术相比,本发明的技术效果为:
(1)本发明设计了一种面向海量新能源知识图谱数据的异常检测方法:异常图模式挖掘算法,该方法充分利用了新能源数据的多源异构性,以及新能源数据的分布模式变化多端的特点,为新能源异常数据检测提供了灵活、高效的解决方案,对于提升新能源大数据的质量具有积极作用。
(2)本发明的异常检测方法具有通用性,适用于各种电网场景下的图数据,能够处理含有脏数据的各类图数据,挖掘异常数据,保证新能源大数据的质量。
附图说明
图1为本发明的不带属性图模式的框图;
图2为本发明的算法框架图;
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图2所述,在挖掘异常图模式之前,需要对子图拓扑结构进行适当的编码,这样每个子图都有一个唯一的编码,以便更容易地检测同构,例如标准邻接矩阵CAM、Gspan的DFSCode。在对图进行编码后,寻找异常图模式的第一步是生成一组不带属性的候选图模式集合,例如利用FFSM-Join和FFSM-Extend算法添加扩展边生成候选图模式;第二,统计这些子图结构在图形数据集中出现的次数:构造图模式匹配并计算不带属性的候选图模式的支持度;第三,计算异常度生成不带属性的异常图模式;第四,构造带属性的候选图模式,计算带属性的候选图模式的支持度和异常度,生成带属性的异常图模式。第五,跳转到第一步进行下一层的异常图模式生成。
其中,第一步和第二步可以是现有技术中的任一大规模图数据的频繁子图挖掘算法,异常图模式挖掘利用频繁子图技术生成的子图匹配和支持度计算结果生成不带属性或者带属性的异常图模式。
不带属性的异常图模式通过直接计算公式
Figure BDA0003113204020000061
的异常度进行生成,具体的伪代码如下:
Figure BDA0003113204020000062
Figure BDA0003113204020000071
获取带属性的异常图模式
获取带属性的异常图模式是本方法的核心,为在图模式上添加属性约束,定义了如下数据结构:
频繁属性FAMap:各顶点类型下的频繁属性集合;从输入图中筛选频繁的属性值,以[顶点类型:(属性,属性值)]方式进行存储。
频繁属性映射FAIDMap:频繁属性对应的顶点ID集合;存储频繁属性所对应的顶点ID映射,以[顶点类型-属性-属性值:顶点ID集合]方式进行存储。
图模式顶点PIDMap:以[顶点vi:顶点类型]形式进行存储;若图模式拥有i个顶点,vid表示图模式下的第vi个顶点,vi∈[0,i]。
匹配图模式的频繁属性项集PFASet:以二元组[顶点vi-属性,属性值]形式进行存储。对于每一个图模式,利用图模式顶点PIDMap和频繁属性FAMap进行构造频繁属性项集。
随后,进行带属性的异常图模式挖掘:首先,在不带属性的频繁图模式上初始化属性约束条件生成第j=1层的带属性的图模式候选集(第2行);第二,计算第j层的带属性的图模式的最小支持度(第5行);第三,生成带属性的异常图模式(第6-10行);最后,添加属性约束条件以生成第j+1层的带属性的图模式候选集(第11行),跳转执行第二步直到没有新的带属性的异常图模式生成或者j达到阈值。算法的伪代码如下:
Figure BDA0003113204020000072
Figure BDA0003113204020000081
由于每一个图模式对应的子图匹配以及匹配图模式的频繁属性项集都是不同的,因此对于支持度的计算,本发明采用了pay-as-you-go的方式:对于每一个带属性的图模式,计算对应子图匹配nmathes下符合属性约束条件的数目。支持度计算的伪代码如下所示:
Figure BDA0003113204020000082
对于图模式第j+1层的属性约束条件生成,本发明采用如下方式进行生成:对于第j层的每一个属性约束条件A,根据“A.顶点vi-属性”进行分组(第2行);随后,利用组中两个不同属性条件,两两合并形成一个下一层属性约束条件(第3-4行);最后,对于刚生成的Lj+1的属性约束条件进行遍历检查,确定它的属性约束条件的真子集结点是否存于Lj中。若存在,则将其纳入到Lj+1的属性约束集合中(第5-6行)。具体的伪代码如下所示:
Figure BDA0003113204020000091

Claims (11)

1.一种面向新能源大数据的异常检测方法,包括频繁子图挖掘算法,其特征在于,还包括异常图模式挖掘算法、异常图模式,所述异常图模式包括不带属性的异常图模式和带属性的异常图模式;所述异常图模式挖掘算法包括以下步骤:
步骤1:数据准备阶段,完成异常图模式数据的初始化;
步骤2:生成第i层不带属性的候选图模式集合;
步骤3:计算候选图模式的支持度;
步骤4:获取不带属性的异常图模式;
步骤5:获取带属性的异常图模式;
步骤6:跳转到步骤2进行第i+1层的异常图模式生成,直到没有新的异常图模式生成或者i达到阈值。
2.根据权利要求1所述的异常检测方法,其特征在于,所述不带属性的异常图模式即为子图拓扑结构,所述带属性的异常图模式表示子图拓扑结构上添加属性约束条件的集合。
3.根据权利要求2所述的异常检测方法,其特征在于,不带属性的图模式异常度用公式
Figure FDA0003113204010000011
来衡量图的异常程度,带属性的图模式异常度用公式
Figure FDA0003113204010000012
来衡量图的异常程度。
4.根据权利要求3所述的异常检测方法,其特征在于,所述不带属性的图模式的异常度abn(Q,G)越小,Q的结构越不合理。
5.根据权利要求4所述的异常检测方法,其特征在于,所述Q'为频繁的图模式,Q为频繁图模式Q'添加一条边扩展生成的子图结构。
6.根据权利要求5所述的异常检测方法,其特征在于,公式
Figure FDA0003113204010000021
为频繁图模式在扩展边生成新的子图结构时变得不频繁以至于异常。
7.根据权利要求3所述的异常检测方法,其特征在于,所述带属性的图模式的异常度abn(A+Q,G)越小,带有A属性值约束条件的子图结构Q越不合理。
8.根据权利要求7所述的异常检测方法,其特征在于,所述A为图顶点的属性约束条件集合,属性a∈A为图顶点的属性,为“顶点[属性名]=属性值”;Q为频繁图模式,A+Q表示为频繁图模式Q上添加属性约束条件集合A的约束,A+Q图模式是在A'+Q图模式上添加a属性约束条件,即A=A'∪a,A'为空集,A不为空集。
9.根据权利要求6或8所述的异常检测方法,其特征在于,异常图模式为图模式满足异常度小于特定的阈值并且其上一层图模式支持度大于特定的阈值。
10.根据权利要求1所述的异常检测方法,其特征在于,所述步骤1中的异常图模式数据的初始化为对子图拓扑结构进行适当的编码,所述编码为标准邻接矩阵CAM、Gspan的DFSCode。
11.根据权利要求1所述的异常检测方法,其特征在于,所述步骤2中的生成第i层不带属性的候选图模式集合,为利用FFSM-Join和FFSM-Extend算法添加扩展边生成候选图模式。
CN202110656682.1A 2021-06-11 2021-06-11 一种面向新能源大数据的异常检测方法 Pending CN113239110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110656682.1A CN113239110A (zh) 2021-06-11 2021-06-11 一种面向新能源大数据的异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110656682.1A CN113239110A (zh) 2021-06-11 2021-06-11 一种面向新能源大数据的异常检测方法

Publications (1)

Publication Number Publication Date
CN113239110A true CN113239110A (zh) 2021-08-10

Family

ID=77139771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110656682.1A Pending CN113239110A (zh) 2021-06-11 2021-06-11 一种面向新能源大数据的异常检测方法

Country Status (1)

Country Link
CN (1) CN113239110A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704326A (zh) * 2021-08-30 2021-11-26 中国银联股份有限公司 基于知识图谱的异常结构挖掘方法、装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976313A (zh) * 2010-09-19 2011-02-16 四川大学 基于频繁子图挖掘的异常入侵检测方法
CN106682514A (zh) * 2016-12-15 2017-05-17 哈尔滨工程大学 基于子图挖掘的系统调用序列特征模式集生成方法
CN110704773A (zh) * 2018-06-25 2020-01-17 顺丰科技有限公司 基于频繁行为序列模式的异常行为检测方法及系统
CN112527784A (zh) * 2020-12-08 2021-03-19 天津大学 基于复杂网络的异常模式挖掘和增量式异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976313A (zh) * 2010-09-19 2011-02-16 四川大学 基于频繁子图挖掘的异常入侵检测方法
CN106682514A (zh) * 2016-12-15 2017-05-17 哈尔滨工程大学 基于子图挖掘的系统调用序列特征模式集生成方法
CN110704773A (zh) * 2018-06-25 2020-01-17 顺丰科技有限公司 基于频繁行为序列模式的异常行为检测方法及系统
CN112527784A (zh) * 2020-12-08 2021-03-19 天津大学 基于复杂网络的异常模式挖掘和增量式异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
严玉良等: ""FSMBUS:一种基于Spark的大规模频繁子图挖掘算法"", 《计算机研究与发展》, vol. 52, no. 8, pages 1768 - 1782 *
周月双: ""复杂网络中异常模式挖掘算法研究"", 《万方数据知识服务平台》, pages 17 - 35 *
郑海雁等: ""标签集约束近似频繁模式的并行挖掘"", 《计算机工程与应用》, vol. 51, no. 9, pages 135 - 141 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704326A (zh) * 2021-08-30 2021-11-26 中国银联股份有限公司 基于知识图谱的异常结构挖掘方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
Cao et al. Detecting prosumer-community groups in smart grids from the multiagent perspective
Chen et al. Credible capacity calculation method of distributed generation based on equal power supply reliability criterion
Deng et al. A missing power data filling method based on improved random forest algorithm
Ye et al. A data-driven bottom-up approach for spatial and temporal electric load forecasting
Chen et al. Data quality of electricity consumption data in a smart grid environment
Candelieri et al. A graph based analysis of leak localization in urban water networks
CN107944705B (zh) 一种基于模块度划分通信社团的全端可靠性计算方法
CN106709035A (zh) 一种电力多维全景数据的预处理系统
CN105184394A (zh) 基于配电网cps在线数据挖掘的优化控制方法
CN112508332B (zh) 一种顾及多维特征的渐进式乡村聚落整治分区方法
CN106570779A (zh) 一种直流配电网可靠性分析的方法及系统
Wang et al. A novel index for assessing the robustness of integrated electrical network and a natural gas network
CN111505443A (zh) 低压台区线户关系识别方法、装置和计算机设备
CN111415068A (zh) 基于改造措施与失负荷量指标关联性的配电决策建模方法
CN111489053A (zh) 一种基于FP-growth算法的电网异常原因确定方法及系统
CN113239110A (zh) 一种面向新能源大数据的异常检测方法
CN107834540A (zh) 一种基于概率约束的分布式光伏接入容量的确定方法
Li et al. A directed labeled graph frequent pattern mining algorithm based on minimum code
CN112418732A (zh) 一种基于最大流最小割定理的含多能量枢纽综合能源系统规划方法及系统
CN112072652B (zh) 一种故障后的计及dg的供电范围划分方法
CN112183823A (zh) 一种基于规则树的电能计量装置选型方法和系统
CN111553075A (zh) 一种考虑分布式电源入网的配电网可靠性评估方法和装置
Yin et al. Energy consumption parameter detection of green energy saving building based on artificial fish swarm algorithm
Liu et al. SEGSys: A mapping system for segmentation analysis in energy
Yin A construction schedule management method of large-scale construction project based on BIM model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210810