CN114580467B - 基于数据增强和Tri-Training的电力数据异常检测方法及系统 - Google Patents
基于数据增强和Tri-Training的电力数据异常检测方法及系统 Download PDFInfo
- Publication number
- CN114580467B CN114580467B CN202210163936.0A CN202210163936A CN114580467B CN 114580467 B CN114580467 B CN 114580467B CN 202210163936 A CN202210163936 A CN 202210163936A CN 114580467 B CN114580467 B CN 114580467B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence data
- power
- electricity
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 230000005611 electricity Effects 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000002159 abnormal effect Effects 0.000 claims abstract description 25
- 238000012512 characterization method Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000013506 data mapping Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013523 data management Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Remote Monitoring And Control Of Power-Distribution Networks (AREA)
Abstract
本发明属于电力数据治理的技术领域,提供了基于数据增强和Tri‑Training的电力数据异常检测方法及系统,包括如下步骤:获取用电序列数据;对用电序列数据进行预处理,得到预处理后的用电序列数据集合;对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;对用电序列数据在不同特征空间中的数据表征,基于Tri‑Training方法对电力数据进行异常判定。通过对电力数据表征映射到不同特征空间的方式,获得了同一电力数据的不同表征形式,能够进一步发掘异常电力数据的模式,提高异常数据判别的准确性。
Description
技术领域
本发明属于电力数据治理的技术领域,尤其涉及基于数据增强和Tri-Training的电力数据异常检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着电力物联网建设的有序开展,电力公司采集和存储了海量异构的业务数据。为了助力智慧业务分析应用的建设,公司开展非固定场景下的周期性数据治理工作,在质量识别与治理方面花费大量时间与人力,为业务发展带来了一定的经济成本,也带来了一定的推进阻力。
面对高频低效的数据管理工作,亟需利用当前数据挖掘、模式识别、深度学习等技术,构建自动化数据质量识别方法,结合数据管理技术与机制,形成质量知识库与治理行为规则,对异构数据环境下的数据拓扑关系进行智能化管理及应用。针对业务需求执行智能化数据治理工作,降低人员成本,缩短治理周期,助力智慧分析业务有效发展。
数据中台的数据质量是数据高效分析以及数据可靠共享的基础。而脏数据识别是数据质量识别的首要和常态化工作,传统脏数据识别主要依靠数据专家、业务专家等人力人工,随着各行业及各专业数据化建设规模逐渐扩大,依靠传统方法对海量、实时、异构的数据质量识别方法渐显不足。主要问题在人工成本大、时间周期长,依赖专家经验无法并发批量工作,人工治理还会引发错漏现象等,无法快速准确低成本地满足业务数据使用需求;
目前,数据中台汇聚了公司各专业全量业务数据,数据中台的海量异构多源数据存在很多脏数据。但是,人工识别异常电力数据成本巨大,同时,电力数据的标签相对较少,这些都对电力数据的高效、准确的识别造成了很大的挑战。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于数据增强和Tri-Training的电力数据异常检测方法及系统,其实现对脏数据即异常数据的高效准确的识别,为数据业务的高效开展提供数据基础;规避数据异常带来的安全风险,有效提高电网公司优质服务能力。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于数据增强和Tri-Training的电力数据异常检测方法,包括如下步骤:
获取用电序列数据;
对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;
对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定。
本发明的第二个方面提供基于数据增强和Tri-Training的电力数据异常检测系统,包括:
数据获取模块,被配置为:获取用电序列数据;
数据预处理模块,被配置为:对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
数据映射模块,被配置为:对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;
数据异常判断模块,被配置为:对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明通过对电力数据表征映射到不同特征空间的方式,获得了同一电力数据的不同表征形式,能够进一步发掘异常电力数据的模式,提高异常数据判别的准确性。
本发明通过对数据的转换,增加了用电序列数据的训练量,扩大了异常数据判别数据集的规模,提高了异常数据判别模型的健壮性和适用性。
本发明通过多判别器的方式进行异常数据的判别,避免了单一判别器偏好带来的不利影响,确保了电力数据异常判别的准确性和健壮性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本公开实施例提供的基于数据增强和Tri-Training的电力数据异常检测方法流程示意图;
图2为本公开实施例提供的基于数据增强和Tri-Training的电力数据异常检测系统结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了基于数据增强和Tri-Training的电力数据异常检测方法,包括如下步骤:
S101:获取用电序列数据;
S102:对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
其中,所述预处理包括数据规范化、数据转换以及数据增强。
S103:对预处理后的用电序列数据进行数据增强,获得用电序列数据在不同特征空间中的数据表征;
S104:对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定。
其中,S101中,所述用电序列数据是随时间变化的序列数据,每隔一段固定周期定时采集。
本实施例采用客户用电负载作为客户用电序列数据的示例进行描述。
对于客户而言,其在某时间段内/>的用电序列数据表示为/>,,其中/>表示客户/>在时间/>的用电负载。
对于客户用电序列数据,可通过标签标识其是否异常,带有标签的客户用电序列数据表示为:
其中的取值为true、false、null,其中true表示对应客户用电序列数据为正常数据,false表示对应客户用电序列数据为异常数据,null表示对应客户用电序列数据是否异常为未知。
用电序列数据的异常判别可通过业务专家判定、基于规则等方式进行,这些方式需要丰富的经验支撑,成本巨大。通过电力公司营销系统中获得的客户用电序列数据中,大部分样本数据标记为null,标记为false的异常数据占比偏少。
针对某用电客户,其采集到的用电序列数据可能不是连续的,用电客户的用电序列数据可能处于不交叠的时间区间,如/>和/>,其中/>、/>、/>或/>、/>、/>。
所有客户在不同时间区间上的用电序列数据构成一个集合。
S201:所述数据规范化包括:
对于获得的客户用电序列数据,对其进行规范化处理,采用min-max标准化方法进行归一化处理,特征数据取值为。
对于所有用电客户的用电序列数据,查找用电序列数据中负载最大值以及负载最小值/>,将用电客户的电力负载数据进行归一化处理,得到归一化的负载值。
进行规范化处理后,得到所有客户不同时间区间上的用电序列数据集合。
S202:所述数据转换包括:针对中客户用电序列数据,对其进行转换,包括分割、合并、抽样等操作,将用电序列数据进行扩充,得到新的客户用电序列数据集合。所述数据转换包括分割转换、合并转换、抽样转换以及原始数据更新。
(1)所述分割转换包括:
从集合中随机选择一个数据对象,关于客户/>在某时间段内/>的用电序列数据/>,随机指定/>中的一个时间点/>,其中/>,以/>为分界点,将客户/>的用电序列数据/>分割成两部分用电子序列/>及/>。
在进行分割转换时,及/>对应标签与/>的标签/>保持一致,即/>中/>为true,表示其为正常用电序列数据,则分割后的/>及/>的也为true,是正常数据;当/>中/>为false,表示其为异常用电序列数据,则分割后的/>及/>的/>也为false,作为潜在异常用电序列数据。
指定一个分割阈值,其中/>,在集合/>中选择不少于/>比例的数据对象进行分割转换,将分割得到的用电序列数据/>及加入到集合/>中。
(2)所述合并转换包括:
从集合中随机选择某个客户/>,检查客户/>所有的用电序列数据的时间区间是否存在前后连续关系,如果存在,则将两个连续时间区间的电力序列数据合并,形成一个合并时间区间的电力序列数据。
具体的,针对客户的两个用电序列数据/>和/>,如果/>,则将和/>合并为/>;如果/>,则将/>和/>合并为/>。
在进行合并转换时,合并后用电序列数据的根据合并前两个用电序列数据和/>的/>确定。当/>和/>中的两个/>都为true时,合并后的用电序列数据的/>为true;其他情况时,合并后的用电序列数据的/>为false。即只有合并前两个用电序列数据都为正常时,合并后的用电序列数据为正常的;其他情况下,只要合并前的两个用电序列数据中含有异常的,合并后的用电序列数据即为异常的。
指定一个合并阈值,其中/>,在集合/>中选择不少于/>比例的用电客户,检查该用电客户的用电数据序列是否存在时间连续的关系,如果存在有时间连续的用电序列数据,将其合并为一个更大时间区间的用电序列数据,其中/>为合并的两个电力序列数据时间区间中时间的最小值,/>为合并的两个电力序列数据时间区间中时间的最大值。将合并得到的用电序列数据/>加入到集合/>中。
(3)所述抽样转换包括:
从集合中随机选择一个数据对象,关于客户/>在某时间段内/>的用电序列数据/>,指定一个抽取范围,从用电序列数据中均匀抽取相应比例数据点的负载数据,构建一个新的用电序列数据。
在进行抽样转换时,抽样后的用电序列数据的/>与抽样前用电序列数据/>的/>保持一致,即从正常用电序列数据抽样得到的用电序列数据为正常的,从异常用电序列数据抽样得到的用电序列是异常的。
指定抽取的频率,其中/>,在用电序列数据/>中均匀抽取占比为/>的时间点的负载数据,构成一个新的用电序列数据/>,将抽取得到的用电序列数据/>加入到集合/>中。
(4)所述原始数据更新包括:
从集合中随机选择一些用电序列数据,将其加入到转换后的数据集中。
指定阈值,其中/>,在用电序列数据/>中随机抽取不少于/>的用电序列数据对象加入到集合/>中。
S203:对转换后的集合中的数据进行增强,通过添加噪声的方式生成用电序列数据的更多样本数据。
例如以采用添加高斯噪声生成新的样本数据,所述高斯分布函数如公式(2)所示。
指定、/>,转换为标准正态分布,如公式(3)所示。
指定一个增强概率,其中/>,从中有放回的随机抽取不少于/>比例的用电序列数据样本。
对于抽取到的每一个用电序列数据样本中随时间变化在时间区间/>内变化的负载数据/>,基于当前时间/>生成随机种子利用公式(3)生成随机样本/>,并将其加入到原始负载数据中生成新的/>,即
将添加噪声的放入数据增强集合/>中。
指定阈值,其中/>,在用电序列数据/>中随机抽取不少于/>的用电序列数据对象加入到/>中。
S103中,所述对预处理后的用电序列数据进行数据映射增强,包括特征提取和小波分解,分别将用电序列数据转换到不同的特征空间进行表征。
所述通过特征提取和小波分解进行映射转换的过程如下所示:
S301:对于用电序列数据对象集合中的每一个用电序列数据,通过计算用电序列数据中用电负荷统计量的方式进行特征提取,提取用电序列数据的统计特征,结合用电序列数据的/>,构建一个针对原用电序列数据/>在统计量空间中的映射/>,形成一个在统计量空间中的集合/>。
所述用电序列数据的统计特征包括:负荷平均值统计量、负荷最小值统计量、负荷最大值统计量、负荷中位数统计量、负荷众数统计量、负荷标准差统计量以及负荷变化范围统计量。
其中,负荷平均值统计量:
其中,表示/>到/>的时间点的数目。
负荷最小值统计量:
其中,{}为求最小值的运算。
负荷最大值统计量:
其中,{}为求最大值的运算。
负荷中位数统计量:
其中,为求中位数的运算。
负荷众数统计量:
其中,为求众数的运算。
负荷标准差统计量:
其中,为求标准差的运算。
负荷变化范围统计量:
这些统计量可表征为,即:
基于以上统计量的计算,得到针对原用电序列数据在统计量空间中的映射/>,即:
其中,中的/>与/>的/>取值保持一致。
对于用电序列数据对象集合中的每一个用电序列数据/>,映射到统计量空间中的/>,所有的/>构成一个在统计量空间中的集合/>。
S302:对于用电序列数据对象集合中的每一个用电序列数据,通过三层小波分解,将/>中的用电序列数据从时域转换为频域,结合用电序列数据的/>,构建一个针对原用电序列数据/>在频域空间中的映射/>,形成一个在频域空间中的集合/>。
对于用电序列数据对象集合中的每一个用电序列数据/>中的用电序列数据/>,基于三层小波分解的Mallat算法,将电力序列负荷数据分解的最高层低频序列以及每层高频序列为:
其中,分别为最高层低频序列以及每层高频序列。
基于以上映射,得到针对原用电序列数据在频域空间中的映射/>,即:
其中,中的/>与/>的/>取值保持一致。
对于用电序列数据对象集合中的每一个用电序列数据/>,映射到频域空间中的/>,所有的/>构成一个在频域空间中的集合/>。
S104中,所述不同特征空间包括原始特征空间、统计量特征空间以及频域特征空间中的不同表征,即、/>、/>集合中的数据对象/>、、/>,基于Tri-Training方法对电力数据进行异常判定,包括:
(1)对于原始特征空间中的用电序列数据/>,基于长短期记忆网络LSTM,初始化基于LSTM的判别器/>;
(2)对于统计量特征空间、频域特征空间/>中的数据对象、/>,基于神经网络,初始化不同的神经网络判别器/>和;
(3)基于bootstrap方法从、/>和/>三个数据集合选择/>标记不是null的样本数据/>、/>和/>,分别训练三个不同的分类器/>、/>和/>;
将分类器、/>和/>不加区分的标识为、/>和/>,对应的数据集分别描述为/>、/>和,三个数据集中的数据分别标识为/>、/>和/>;
(4)对于三个分类器任何一个分类器,另外两个分类器/>和/>预测对应数据集合/>和/>中的所有/>标注为null的数据;
(5)挑选和/>预测结果/>相同的数据,分别是/>和,并将/>和/>的/>标记为/>和/>的预测结果;
(6)将对应数据集合/>中的相应数据对象/>的/>也标记为/>和/>的预测结果;
(7)为三个判别器中的每一个分类器都执行步骤(1)-(3),并利用三个扩增的数据集、/>和/>更新判别器/>、/>和/>。
(8)重复执行(1)-(4),直到收敛或达到最大迭代次数,其中可由专家人工设置。
(9)返回原始数据空间集合中、/>、/>集合中/>标注为false的数据对象/>,确定/>中对应的异常数据,这些数据对象是本实施例挖掘的异常数据对象。
实施例二
如图2所示,本实施例提供了基于数据增强和Tri-Training的电力数据异常检测系统,包括:
数据获取模块,被配置为:获取用电序列数据;
数据预处理模块,被配置为:对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
数据映射模块,被配置为:对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;
数据异常判断模块,被配置为:对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,包括:
获取用电序列数据;
对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;
对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定;
所述预处理包括数据规范化、数据转换、数据增强以及数据标记;
所述数据转换包括:针对中客户用电序列数据,对其进行转换,包括分割、合并、抽样操作,将用电序列数据进行扩充,得到新的客户用电序列数据集合/>;所述数据转换包括分割转换、合并转换、抽样转换以及原始数据更新;
(1)所述分割转换包括:
从集合中随机选择一个数据对象,关于客户/>在某时间段内/>的用电序列数据/>,随机指定/>中的一个时间点/>,其中/>,以/>为分界点,将客户/>的用电序列数据/>分割成两部分用电子序列/>及/>;
在进行分割转换时,及/>对应标签与/>的标签/>保持一致,即中/>为true,表示其为正常用电序列数据,则分割后的/>及/>的/>也为true,是正常数据;当/>中/>为false,表示其为异常用电序列数据,则分割后的及/>的/>也为false,作为潜在异常用电序列数据;
指定一个分割阈值,其中/>,在集合/>中选择不少于/>比例的数据对象进行分割转换,将分割得到的用电序列数据/>及加入到集合/>中;
(2)所述合并转换包括:
从集合中随机选择某个客户/>,检查客户/>所有的用电序列数据的时间区间是否存在前后连续关系,如果存在,则将两个连续时间区间的电力序列数据合并,形成一个合并时间区间的电力序列数据;
具体的,针对客户的两个用电序列数据/>和/>,如果/>,则将和/>合并为/>;如果/>,则将/>和/>合并为/>;
在进行合并转换时,合并后用电序列数据的根据合并前两个用电序列数据/>和/>的/>确定;当/>和/>中的两个/>都为true时,合并后的用电序列数据的/>为true;其他情况时,合并后的用电序列数据的/>为false;即只有合并前两个用电序列数据都为正常时,合并后的用电序列数据为正常的;其他情况下,只要合并前的两个用电序列数据中含有异常的,合并后的用电序列数据即为异常的;
指定一个合并阈值,其中/>,在集合/>中选择不少于比例的用电客户,检查该用电客户的用电数据序列是否存在时间连续的关系,如果存在有时间连续的用电序列数据,将其合并为一个更大时间区间的用电序列数据,其中/>为合并的两个电力序列数据时间区间中时间的最小值,/>为合并的两个电力序列数据时间区间中时间的最大值;将合并得到的用电序列数据/>加入到集合/>中;
(3)所述抽样转换包括:
从集合中随机选择一个数据对象,关于客户/>在某时间段内/>的用电序列数据/>,指定一个抽取范围,从用电序列数据中均匀抽取相应比例数据点的负载数据,构建一个新的用电序列数据;
在进行抽样转换时,抽样后的用电序列数据的/>与抽样前用电序列数据的/>保持一致,即从正常用电序列数据抽样得到的用电序列数据为正常的,从异常用电序列数据抽样得到的用电序列是异常的;
指定抽取的频率,其中/>,在用电序列数据/>中均匀抽取占比为/>的时间点的负载数据,构成一个新的用电序列数据/>,将抽取得到的用电序列数据加入到集合/>中;
(4)所述原始数据更新包括:
从集合中随机选择一些用电序列数据,将其加入到转换后的数据集中;
指定阈值,其中/>,在用电序列数据/>中随机抽取不少于/>的用电序列数据对象加入到集合/>中。
2.如权利要求1所述的基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,所述对预处理后的用电序列数据进行数据映射增强包括特征提取和小波分解,通过特征提取和小波分解进行映射转换。
3.如权利要求2所述的基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,所述通过特征提取和小波分解进行映射转换的过程包括:
对每一个用电序列数据,通过计算用电序列数据中用电负荷统计量的方式进行特征提取,提取用电序列数据的统计特征;结合用电序列数据的标签,构建一个针对原用电序列数据在统计量空间中的映射,形成一个在统计量空间中的集合;
对每一个用电序列数据,通过三层小波分解,将每一个用电序列数据中的用电序列数据从时域转换为频域,结合用电序列数据的标签,构建一个针对原用电序列数据在频域空间中的映射,形成一个在频域空间中的集合。
4.如权利要求1所述的基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,所述用电序列数据的统计特征包括:负荷平均值统计量、负荷最小值统计量、负荷最大值统计量、负荷中位数统计量、负荷众数统计量、负荷标准差统计量以及负荷变化范围统计量。
5.如权利要求1所述的基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,所述不同特征空间包括原始特征空间、统计量特征空间以及频域特征空间。
6.如权利要求1所述的基于数据增强和Tri-Training的电力数据异常检测方法,其特征在于,所述基于Tri-Training方法对电力数据进行异常判定包括:
对于原始特征空间中的用电序列数据,初始化基于长短期记忆网络的判别器;
对于统计量特征空间和频域特征空间中的数据对象,基于神经网络,初始化统计量特征和频域特征的神经网络判别器;
从原始特征空间、统计量特征空间和频域特征空间三个数据集合选择标签标识用电序列数据为正常数据或异常数据的样本数据,分别训练对应空间的分类器;
基于上述分类器对电力数据进行分类;
根据分类结果判断数据异常结果。
7.基于数据增强和Tri-Training的电力数据异常检测系统,利用如权利要求1所述的基于数据增强和Tri-Training的电力数据异常检测方法实现,其特征在于,包括:
数据获取模块,被配置为:获取用电序列数据;
数据预处理模块,被配置为:对用电序列数据进行预处理,得到预处理后的用电序列数据集合;
数据映射模块,被配置为:对预处理后的用电序列数据进行数据映射增强,获得用电序列数据在不同特征空间中的数据表征;
数据异常判断模块,被配置为:对用电序列数据在不同特征空间中的数据表征,基于Tri-Training方法对电力数据进行异常判定。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于数据增强和Tri-Training的电力数据异常检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210163936.0A CN114580467B (zh) | 2022-02-22 | 2022-02-22 | 基于数据增强和Tri-Training的电力数据异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210163936.0A CN114580467B (zh) | 2022-02-22 | 2022-02-22 | 基于数据增强和Tri-Training的电力数据异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114580467A CN114580467A (zh) | 2022-06-03 |
CN114580467B true CN114580467B (zh) | 2023-11-17 |
Family
ID=81774506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210163936.0A Active CN114580467B (zh) | 2022-02-22 | 2022-02-22 | 基于数据增强和Tri-Training的电力数据异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580467B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
CN111967512A (zh) * | 2020-08-07 | 2020-11-20 | 国网江苏省电力有限公司电力科学研究院 | 一种异常用电检测方法、系统和存储介质 |
CN113255775A (zh) * | 2021-05-28 | 2021-08-13 | 神威超算(北京)科技有限公司 | 一种电力系统异常数据的识别方法、装置和智能芯片 |
WO2021212752A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11157782B2 (en) * | 2017-11-16 | 2021-10-26 | International Business Machines Corporation | Anomaly detection in multidimensional time series data |
-
2022
- 2022-02-22 CN CN202210163936.0A patent/CN114580467B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189232A (zh) * | 2019-05-14 | 2019-08-30 | 三峡大学 | 基于孤立森林算法的用电信息采集数据异常分析方法 |
WO2021212752A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法、装置、设备及存储介质 |
CN111967512A (zh) * | 2020-08-07 | 2020-11-20 | 国网江苏省电力有限公司电力科学研究院 | 一种异常用电检测方法、系统和存储介质 |
CN113255775A (zh) * | 2021-05-28 | 2021-08-13 | 神威超算(北京)科技有限公司 | 一种电力系统异常数据的识别方法、装置和智能芯片 |
Non-Patent Citations (1)
Title |
---|
基于特征变换的Tri-Training算法;赵文亮 等;计算机工程;第40卷(第5期);第183-187、191页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114580467A (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764584B (zh) | 一种企业电能替代潜力评估方法 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN113688665A (zh) | 一种基于半监督迭代学习的遥感影像目标检测方法及系统 | |
CN116956198B (zh) | 基于物联网的智慧用电数据分析方法及系统 | |
CN113705726A (zh) | 流量的分类方法、装置、电子设备及计算机可读介质 | |
CN117875520B (zh) | 基于动态图时空演化挖掘的公共安全事件预测方法及系统 | |
CN117455529A (zh) | 基于大数据技术的用户用电特征画像构建方法及系统 | |
CN114580467B (zh) | 基于数据增强和Tri-Training的电力数据异常检测方法及系统 | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN111209955A (zh) | 基于深度神经网络和随机森林的飞机电源系统故障识别方法 | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN116108376A (zh) | 一种反窃电的监测系统、方法、电子设备及介质 | |
CN111680572B (zh) | 一种电网运行场景动态判定方法及系统 | |
Shahoud et al. | Descriptive statistics time-based meta features (DSTMF) constructing a better set of meta features for model selection in energy time series forecasting | |
CN110955811B (zh) | 基于朴素贝叶斯算法的电力数据分类方法及系统 | |
CN112308338A (zh) | 电力数据处理方法及装置 | |
CN115269948B (zh) | 支持时空数据智能尺度变换的变尺度数据分析方法及装置 | |
CN117473435B (zh) | 一种基于时空特征的突发公共卫生事件虚假异常信息检测方法 | |
Ren et al. | Recursive signal denoising method for predictive maintenance of equipment by using deep learning based temporal masking | |
Li | Research on Image Texture Feature Extraction Based on Digital Twin | |
CN115063643B (zh) | 一种电力场景图像数据自动标注方法 | |
Hao et al. | Detection of Outlier of Electric Power Data Based on Improved Fast Density Peak Clustering | |
CN117573803B (zh) | 基于知识图谱的新客识别方法和装置 | |
CN117911949B (zh) | 一种风险智能评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |