CN112364098A - 一种基于Hadoop的分布式电力系统异常数据识别方法及系统 - Google Patents

一种基于Hadoop的分布式电力系统异常数据识别方法及系统 Download PDF

Info

Publication number
CN112364098A
CN112364098A CN202011227529.9A CN202011227529A CN112364098A CN 112364098 A CN112364098 A CN 112364098A CN 202011227529 A CN202011227529 A CN 202011227529A CN 112364098 A CN112364098 A CN 112364098A
Authority
CN
China
Prior art keywords
data
training
cluster
classifier
bad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011227529.9A
Other languages
English (en)
Inventor
秦丽文
梁朔
陈绍南
李珊
周杨珺
欧阳健娜
李欣桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority to CN202011227529.9A priority Critical patent/CN112364098A/zh
Publication of CN112364098A publication Critical patent/CN112364098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开了一种基于Hadoop的分布式电力系统异常数据识别方法及系统,其方法,包括:获取电力系统电力负荷曲线数据,对数据进行归一化处理;对归一化后的标准数据集采用改进迭代k‑means聚类方法获得数据样本特征;根据数据样本训练adaboost分类器;对训练后的adaboost分类器进行云化处理;以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。本发明实现了在Hadoop数据架构的基础上对电力大数据的数据识别和修复,降低成本,提高了应用能力。

Description

一种基于Hadoop的分布式电力系统异常数据识别方法及系统
技术领域
本发明涉及电力系统异常数据识别与修复领域,一种基于Hadoop的分布式电力系统异常数据识别方法及系统。
背景技术
随着数字化电网建设步伐加快,传感量测、信息通信、分析决策、自动控制和能源电力等技术应用深入,配电网产生了指数级增长的异构、多态、高维的电力系统大数据,这些数据具备并发性高、时序性强、数据处理代价高昂的特点,因此,对电力系统大数据进行深度挖掘,发挥数据价值具有重要作用。但是当面数据应用中普遍存在数据质量差的问题,存在一定程度上的坏数据,严重影响了高级业务应用的结果的可信度。因此对电力系统数据清洗、修复等数据预处理方法对提升数据结果可行度具有重要重要作用。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于Hadoop的分布式电力系统异常数据识别方法及系统,通过改进迭代k-means聚类方法和adaboost分类器的不断迭代训练,得到数据的不同分类;将待识别的数据代入线上训练完成的模型进行计算。
为了解决上述技术问题,本发明实施例提供了一种基于Hadoop的分布式电力系统异常数据识别方法及系统,其方法,包括:
获取电力系统电力负荷曲线数据,对数据进行归一化处理;
对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;
根据数据样本训练adaboost分类器;
对训练后的adaboost分类器进行云化处理;
以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
所述对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征,包括:
给定数据集X,选择K个初始簇中心,使用k-means++算法进行簇中心初始化;计算所有观测值到每个中心的点到簇中心的距离;两阶段迭代更新:一阶段批量更新,将每个观测值分配给离中心最近的簇;二阶段在线更新,将观测值重新分配给另一中心可减少簇内点到中心距离平方和的总和,就对该观测值执行此分配;计算每个簇中观测值的平均值,以获得K个新中心位置;达到最大迭代次数;迭代n次,寻找距离总合最小的解。
所述根据数据样本训练adaboost分类器,包括:
网络初始化:假设数据集中的数据簇为m,初始训练数据分布权重为:D1(i)=1/m;
弱分类器计算:第t个弱分类器,分类结果为gt,计算其误差和et,计算公式如下:
Figure BDA0002764060480000021
权重调整:根据计算的预测误差et计算序列权重
Figure BDA0002764060480000022
训练数据权重调整:
Figure BDA0002764060480000023
式中:Bt是归一化因子,目的是使分布权重和为1;x(i)为训练数据,i=0,1,2,...,m;yt为期望输出,即训练集标签;
强分类器输出最终结果:强分类器结果由每一个弱分类器预测结果gt加权组成,定义如下:
Figure BDA0002764060480000024
式中:T为弱学习器个数。
所述对训练后的adaboost分类器进行云化处理,包括:按类簇中的时段划分数据集,每个Mapper训练一个adaboost分类器,设置一个Reducer实例统计每个adaboost分类器训练好的参数,写入HDFS,进而保存至数据库。
所述以经过归一化处理的时段数据为基本单位进行不良数据识别与修复,包括:通过计算时段数据与各类簇聚类中心对应片段归一化后的距离,从数据库中选择距离最小的类簇片段对应的adaboost分类器对时段数据特征向量集进行分类,从而获得初步识别结果。
所述不良数据识别与修复,包括:设置滑动窗口,用于接收待处理时段数据;数据修复。
所述设置滑动窗口,包括:假设当前状态的时刻为K+L,建模数据为K时刻到K+L时刻内的己区间内数据,首先用此L区间内的数据建立模型,等到下一个时刻K+L+1时,新的测量数据加入,K时刻数据被丢弃,由K+1到K+L+1的L区间内数据建立一个滑动优化的窗口模型;当窗口数据接收完毕后寻找最近类簇片段,选择对应的adaboost分类器进行初步识别。
所述数据修复,包括坏数据修复方法和缺漏数据修复方法。
所述坏数据修复方法,包括:设识别出的连续坏数据点数为n并且窗口边界处为好数据,根据坏数据点数n、窗口边界处的情况修复数据;
修复算法采用线性插值法,令与待修复数据点首尾端相邻的点为(t0,v0)、(t1,v1),待修复点为(t,v),则可根据下式修复v:
v=v0+α(v1-v0)
式中:
Figure BDA0002764060480000031
所述缺漏数据修复方法,包括:采用支持向量机方法对缺失数据进行预测填补;
在标准数据库的基础上建立支持向量机模型,将历史电力负荷数据作为为模型输入进行训练;
模型训练完成后,将空值位置的前三十个数据输入模型中训练,预测得出的数据用来填补空值。
一种基于Hadoop的分布式电力系统异常数据识别系统,其系统,包括:
数据处理模块用于获取电力系统电力负荷曲线数据,对数据进行归一化处理;
k-means模块用于对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;
adaboost模块用于根据数据样本训练adaboost分类器;
云化处理模块用于对训练后的adaboost分类器进行云化处理;
数据识别与修复模块用于以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
本发明实施例提供了一种基于Hadoop的分布式电力系统异常数据识别方法及系统,在Hadoop分布式计算架构的基础上,线下模型训练方面运用改进迭代k-means聚类方法获得数据样本特征,进而使用adaboost分类器对算法进行训练和应用。线上模型应用方面采用滑动时间窗口接受数据,采用线性插值方法进行修复数据,采用支持向量机方法进行填补空白数据。本发明实现了在Hadoop数据架构的基础上对电力大数据的数据识别和修复,降低成本,提高了应用能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是一种基于Hadoop的分布式电力系统异常数据识别方法的流程示意图。
图2是一种基于Hadoop的分布式电力系统异常数据识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
参阅图1,图1是一种基于Hadoop的分布式电力系统异常数据识别方法的流程示意图。
如图所示,一种基于Hadoop的分布式电力系统异常数据识别方法,通过改进迭代k-means聚类方法和adaboost分类器的不断迭代训练,得到数据的不同分类;将待识别的数据代入线上训练完成的模型进行计算。其方法,包括:S101获取电力系统电力负荷曲线数据,对数据进行归一化处理;S102对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;S103根据数据样本训练adaboost分类器;S104对训练后的adaboost分类器进行云化处理;S105以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
S101获取电力系统电力负荷曲线数据,对数据进行归一化处理。以左、右斜率作为表征坏数据的特征向量,综合考虑坏数据的特性,坏数据与正常数据一个明显的差别在于其与相邻点所在直线的斜率的绝对值大于正常值。定义当前点与上一时刻点所在直线的斜率为点的左斜率,与下一时刻点所在直线的斜率为点的右斜率,选择数据点的左、右斜率作为特征向量:
x={ki,i-1,ki+1,i}
获取电力系统电力负荷曲线数据,对数据进行归一化处理,形成标准数据集:
Figure BDA0002764060480000051
S102对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征,具体步骤如下:
步骤一:给定数据集X,选择K个初始簇中心,使用k-means++算法进行簇中心初始化;
步骤二:计算所有观测值到每个中心的点到簇中心的距离;
步骤三:两阶段迭代更新:一阶段批量更新,将每个观测值分配给离中心最近的簇;二阶段在线更新,将观测值重新分配给另一中心可减少簇内点到中心距离平方和的总和,就对该观测值执行此分配;
步骤四:计算每个簇中观测值的平均值,以获得K个新中心位置;
步骤五:重复步骤二到步骤四,直到簇分配不变,或达到最大迭代次数;
步骤六:再次重复步骤一到步骤五,迭代n次,寻找距离总合最小的解。
S103根据数据样本训练adaboost分类器。训练数据的分布对adaboost分类器应用精度的影响较大,在一定程度上训练数据决定了adaboost分类器的分类精度。
网络初始化。假设数据集中的数据簇为m,初始训练数据分布权重为:D1(i)=1/m;
弱分类器计算。第t个弱分类器,分类结果为gt,计算其误差和et,计算公式如下:
Figure BDA0002764060480000061
权重调整。根据计算的预测误差et计算序列权重at
Figure BDA0002764060480000062
训练数据权重调整。
Figure BDA0002764060480000063
式中:Bt是归一化因子,目的是使分布权重和为1;x(i)为训练数据,i=0,1,2,...,m;yt为期望输出,即训练集标签;
强分类器输出最终结果。强分类器结果由每一个弱分类器预测结果gt加权组成,定义如下:
Figure BDA0002764060480000064
式中:T为弱学习器个数。
S104对训练后的adaboost分类器进行云化处理,包括:按类簇中的时段划分数据集,每个Mapper训练一个adaboost分类器,设置一个Reducer实例统计每个adaboost分类器训练好的参数,写入HDFS,进而保存至数据库。
S105以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。以经过归一化处理的时段数据为基本单位进行不良数据识别与修复,通过计算时段数据与各类簇聚类中心对应片段归一化后的距离,从数据库中选择距离最小的类簇片段对应的adaboost分类器对时段数据特征向量集进行分类,从而获得初步识别结果。
所述不良数据识别与修复,包括:设置滑动窗口,用于接收待处理时段数据;数据修复。
所述设置滑动窗口,包括:假设当前状态的时刻为K+L,建模数据为K时刻到K+L时刻内的己区间内数据,首先用此L区间内的数据建立模型,等到下一个时刻K+L+1时,新的测量数据加入,K时刻数据被丢弃,由K+1到K+L+1的L区间内数据建立一个滑动优化的窗口模型;当窗口数据接收完毕后寻找最近类簇片段,选择对应的adaboost分类器进行初步识别。
所述数据修复,包括坏数据修复方法和缺漏数据修复方法。
所述坏数据修复方法,包括:设识别出的连续坏数据点数为n并且窗口边界处为好数据,根据坏数据点数n、窗口边界处的情况修复数据。当n<3时,修复这些坏数据;当n≥3时,修复除首尾端点以外的所有坏数据,计算首尾端点特征值并对其进行重新识别,若有至少一个为坏数据,则修复首尾端点以及其间的数据;若窗口下界处为好数据,则窗口关闭;若窗口上界处为坏数据且上一窗口未关闭,则n的计算需结合本窗口上界与上一窗口下界处的连续坏数据片段,若窗口上界处为好数据且上一窗口未关闭,则对上一窗口下界坏数据片段进行识别修复并且将其关闭。
修复算法采用线性插值法,令与待修复数据点首尾端相邻的点为(t0,v0)、(t1,v1),待修复点为(t,v),则可根据下式修复v:
v=v0+α(v1-v0)
式中:
Figure BDA0002764060480000071
所述缺漏数据修复方法,包括:采用支持向量机方法对缺失数据进行预测填补;
在标准数据库的基础上建立支持向量机模型,将历史电力负荷数据作为为模型输入进行训练;
模型训练完成后,将空值位置的前三十个数据输入模型中训练,预测得出的数据用来填补空值。
本发明提供的方法,通过改进迭代k-means聚类方法和adaboost分类器的不断迭代训练,得到数据的不同分类;将待识别的数据代入线上训练完成的模型进行计算。
参阅图2,图2是一种基于Hadoop的分布式电力系统异常数据识别系统的结构示意图。
一种基于Hadoop的分布式电力系统异常数据识别系统,其系统,包括:
数据处理模块201用于获取电力系统电力负荷曲线数据,对数据进行归一化处理;
k-means模块202用于对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;
adaboost模块203用于根据数据样本训练adaboost分类器;
云化处理模块204用于对训练后的adaboost分类器进行云化处理;
数据识别与修复模块205用于以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
数据处理模块201:以左、右斜率作为表征坏数据的特征向量,综合考虑坏数据的特性,坏数据与正常数据一个明显的差别在于其与相邻点所在直线的斜率的绝对值大于正常值。定义当前点与上一时刻点所在直线的斜率为点的左斜率,与下一时刻点所在直线的斜率为点的右斜率,选择数据点的左、右斜率作为特征向量:
x={ki,i-1,ki+1,i}
获取电力系统电力负荷曲线数据,对数据进行归一化处理,形成标准数据集:
Figure BDA0002764060480000081
k-means模块202获取数据样本特征的具体步骤如下:
步骤一:给定数据集X,选择K个初始簇中心,使用k-means++算法进行簇中心初始化;
步骤二:计算所有观测值到每个中心的点到簇中心的距离;
步骤三:两阶段迭代更新:一阶段批量更新,将每个观测值分配给离中心最近的簇;二阶段在线更新,将观测值重新分配给另一中心可减少簇内点到中心距离平方和的总和,就对该观测值执行此分配;
步骤四:计算每个簇中观测值的平均值,以获得K个新中心位置;
步骤五:重复步骤二到步骤四,直到簇分配不变,或达到最大迭代次数;
步骤六:再次重复步骤一到步骤五,迭代n次,寻找距离总合最小的解。
训练数据的分布对adaboost分类器应用精度的影响较大,在一定程度上训练数据决定了adaboost分类器的分类精度。adaboost模块训练adaboost分类器流程如下
网络初始化。假设数据集中的数据簇为m,初始训练数据分布权重为:D1(i)=1/m;
弱分类器计算。第t个弱分类器,分类结果为gt,计算其误差和et,计算公式如下:
Figure BDA0002764060480000091
权重调整。根据计算的预测误差et计算序列权重at
Figure BDA0002764060480000092
训练数据权重调整。
Figure BDA0002764060480000093
式中:Bt是归一化因子,目的是使分布权重和为1;x(i)为训练数据,i=0,1,2,...,m;yt为期望输出,即训练集标签;
强分类器输出最终结果。强分类器结果由每一个弱分类器预测结果gt加权组成,定义如下:
Figure BDA0002764060480000094
式中:T为弱学习器个数。
云化处理模块204用于对训练后的adaboost分类器进行云化处理,包括:按类簇中的时段划分数据集,每个Mapper训练一个adaboost分类器,设置一个Reducer实例统计每个adaboost分类器训练好的参数,写入HDFS,进而保存至数据库。
数据识别与修复模块205用于以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。以经过归一化处理的时段数据为基本单位进行不良数据识别与修复,通过计算时段数据与各类簇聚类中心对应片段归一化后的距离,从数据库中选择距离最小的类簇片段对应的adaboost分类器对时段数据特征向量集进行分类,从而获得初步识别结果。
所述不良数据识别与修复,包括:设置滑动窗口,用于接收待处理时段数据;数据修复。
所述设置滑动窗口,包括:假设当前状态的时刻为K+L,建模数据为K时刻到K+L时刻内的己区间内数据,首先用此L区间内的数据建立模型,等到下一个时刻K+L+1时,新的测量数据加入,K时刻数据被丢弃,由K+1到K+L+1的L区间内数据建立一个滑动优化的窗口模型;当窗口数据接收完毕后寻找最近类簇片段,选择对应的adaboost分类器进行初步识别。
所述数据修复,包括坏数据修复方法和缺漏数据修复方法。
所述坏数据修复方法,包括:设识别出的连续坏数据点数为n并且窗口边界处为好数据,根据坏数据点数n、窗口边界处的情况修复数据。当n<3时,修复这些坏数据;当n≥3时,修复除首尾端点以外的所有坏数据,计算首尾端点特征值并对其进行重新识别,若有至少一个为坏数据,则修复首尾端点以及其间的数据;若窗口下界处为好数据,则窗口关闭;若窗口上界处为坏数据且上一窗口未关闭,则n的计算需结合本窗口上界与上一窗口下界处的连续坏数据片段,若窗口上界处为好数据且上一窗口未关闭,则对上一窗口下界坏数据片段进行识别修复并且将其关闭。
修复算法采用线性插值法,令与待修复数据点首尾端相邻的点为(t0,v0)、(t1,v1),待修复点为(t,v),则可根据下式修复v:
v=v0+α(v1-v0)
式中:
Figure BDA0002764060480000101
所述缺漏数据修复方法,包括:采用支持向量机方法对缺失数据进行预测填补;
在标准数据库的基础上建立支持向量机模型,将历史电力负荷数据作为为模型输入进行训练;
模型训练完成后,将空值位置的前三十个数据输入模型中训练,预测得出的数据用来填补空值。
本发明实施例提供了一种基于Hadoop的分布式电力系统异常数据识别方法及系统,在Hadoop分布式计算架构的基础上,线下模型训练方面运用改进迭代k-means聚类方法获得数据样本特征,进而使用adaboost分类器对算法进行训练和应用。线上模型应用方面采用滑动时间窗口接受数据,采用线性插值方法进行修复数据,采用支持向量机方法进行填补空白数据。本发明实现了在Hadoop数据架构的基础上对电力大数据的数据识别和修复,降低成本,提高了应用能力。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于Hadoop的分布式电力系统异常数据识别方法及系统进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于Hadoop的分布式电力系统异常数据识别方法,其特征在于,所述方法,包括:
获取电力系统电力负荷曲线数据,对数据进行归一化处理;
对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;
根据数据样本训练adaboost分类器;
对训练后的adaboost分类器进行云化处理;
以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
2.根据权利要求1所述的方法,其特征在于,所述对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征,包括:
给定数据集X,选择K个初始簇中心,使用k-means++算法进行簇中心初始化;
计算所有观测值到每个中心的点到簇中心的距离;
两阶段迭代更新:一阶段批量更新,将每个观测值分配给离中心最近的簇;二阶段在线更新,将观测值重新分配给另一中心可减少簇内点到中心距离平方和的总和,就对该观测值执行此分配;
计算每个簇中观测值的平均值,以获得K个新中心位置;
达到最大迭代次数;
迭代n次,寻找距离总合最小的解。
3.根据权利要求1所述的方法,其特征在于,所述根据数据样本训练adaboost分类器,包括:
网络初始化:假设数据集中的数据簇为m,初始训练数据分布权重为:D1(i)=1/m;
弱分类器计算:第t个弱分类器,分类结果为gt,计算其误差和et,计算公式如下:
Figure FDA0002764060470000021
权重调整:根据计算的预测误差et计算序列权重at
Figure FDA0002764060470000022
训练数据权重调整:
Figure FDA0002764060470000023
式中:Bt是归一化因子,目的是使分布权重和为1;x(i)为训练数据,i=0,1,2,...,m;yt为期望输出,即训练集标签;
强分类器输出最终结果:强分类器结果由每一个弱分类器预测结果gt加权组成,定义如下:
Figure FDA0002764060470000024
式中:T为弱学习器个数。
4.根据权利要求1所述的方法,其特征在于,所述对训练后的adaboost分类器进行云化处理,包括:
按类簇中的时段划分数据集,每个Mapper训练一个adaboost分类器,设置一个Reducer实例统计每个adaboost分类器训练好的参数,写入HDFS,进而保存至数据库。
5.根据权利要求1所述的方法,其特征在于,所述以经过归一化处理的时段数据为基本单位进行不良数据识别与修复,包括:
通过计算时段数据与各类簇聚类中心对应片段归一化后的距离,从数据库中选择距离最小的类簇片段对应的adaboost分类器对时段数据特征向量集进行分类,从而获得初步识别结果。
6.根据权利要求1所述的方法,其特征在于,所述不良数据识别与修复,包括:
设置滑动窗口,用于接收待处理时段数据;
数据修复。
所述设置滑动窗口,假设当前状态的时刻为K+L,建模数据为K时刻到K+L时刻内的己区间内数据,首先用此L区间内的数据建立模型,等到下一个时刻K+L+1时,新的测量数据加入,K时刻数据被丢弃,由K+1到K+L+1的L区间内数据建立一个滑动优化的窗口模型;
当窗口数据接收完毕后寻找最近类簇片段,选择对应的adaboost分类器进行初步识别。
7.根据权利要求6所述的方法,其特征在于,所述数据修复,包括坏数据修复方法和缺漏数据修复方法。
8.根据权利要求7所述的方法,其特征在于,所述坏数据修复方法,包括:
识别出的连续坏数据点数为n并且窗口边界处为好数据,根据坏数据点数n、窗口边界处的情况修复数据;
修复算法采用线性插值法,令与待修复数据点首尾端相邻的点为(t0,v0)、(t1,v1),待修复点为(t,v),则可根据下式修复v:
v=v0+α(v1-v0)
式中:
Figure FDA0002764060470000031
9.根据权利要求7所述的方法,其特征在于,所述缺漏数据修复方法,包括:
采用支持向量机方法对缺失数据进行预测填补;
在标准数据库的基础上建立支持向量机模型,将历史电力负荷数据作为为模型输入进行训练;
模型训练完成后,将空值位置的前三十个数据输入模型中训练,预测得出的数据用来填补空值。
10.一种基于Hadoop的分布式电力系统异常数据识别系统,其特征在于,所述系统,包括:
数据处理模块用于获取电力系统电力负荷曲线数据,对数据进行归一化处理;
k-means模块用于对归一化后的标准数据集采用改进迭代k-means聚类方法获得数据样本特征;
adaboost模块用于根据数据样本训练adaboost分类器;
云化处理模块用于对训练后的adaboost分类器进行云化处理;
数据识别与修复模块用于以经过归一化处理的时段数据为基本单位进行不良数据识别与修复。
CN202011227529.9A 2020-11-06 2020-11-06 一种基于Hadoop的分布式电力系统异常数据识别方法及系统 Pending CN112364098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011227529.9A CN112364098A (zh) 2020-11-06 2020-11-06 一种基于Hadoop的分布式电力系统异常数据识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011227529.9A CN112364098A (zh) 2020-11-06 2020-11-06 一种基于Hadoop的分布式电力系统异常数据识别方法及系统

Publications (1)

Publication Number Publication Date
CN112364098A true CN112364098A (zh) 2021-02-12

Family

ID=74509627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011227529.9A Pending CN112364098A (zh) 2020-11-06 2020-11-06 一种基于Hadoop的分布式电力系统异常数据识别方法及系统

Country Status (1)

Country Link
CN (1) CN112364098A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256096A (zh) * 2021-05-18 2021-08-13 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN114237915A (zh) * 2022-02-18 2022-03-25 湖南工商大学 分布式环境下基于机器学习的数据修复方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154158A (zh) * 2017-12-18 2018-06-12 西安交通大学 一种面向增强现实应用的建筑物图像分割方法
CN109063787A (zh) * 2018-08-28 2018-12-21 齐齐哈尔大学 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法
CN109783552A (zh) * 2018-11-28 2019-05-21 中国电力科学研究院有限公司 一种数据清洗修复方法
CN110782906A (zh) * 2018-07-30 2020-02-11 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN111222800A (zh) * 2020-01-13 2020-06-02 电子科技大学 一种智能电力系统异常检测方法
CN111275113A (zh) * 2020-01-20 2020-06-12 西安理工大学 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN111694827A (zh) * 2020-05-31 2020-09-22 重庆大学 一种电力设备状态监测数据缺失值分类插补方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154158A (zh) * 2017-12-18 2018-06-12 西安交通大学 一种面向增强现实应用的建筑物图像分割方法
CN110782906A (zh) * 2018-07-30 2020-02-11 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN109063787A (zh) * 2018-08-28 2018-12-21 齐齐哈尔大学 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法
CN109783552A (zh) * 2018-11-28 2019-05-21 中国电力科学研究院有限公司 一种数据清洗修复方法
CN111222800A (zh) * 2020-01-13 2020-06-02 电子科技大学 一种智能电力系统异常检测方法
CN111275113A (zh) * 2020-01-20 2020-06-12 西安理工大学 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN111694827A (zh) * 2020-05-31 2020-09-22 重庆大学 一种电力设备状态监测数据缺失值分类插补方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊霖 等: "基于k-means++的多分类器选择分类研究", 《重庆师范大学学报(自然科学版)》 *
王玲娣 等: "一种基于聚类和AdaBoost的自适应集成算法", 《吉林大学学报(理学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256096A (zh) * 2021-05-18 2021-08-13 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN113256096B (zh) * 2021-05-18 2022-07-12 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN114237915A (zh) * 2022-02-18 2022-03-25 湖南工商大学 分布式环境下基于机器学习的数据修复方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108564192B (zh) 一种基于气象因子权重相似日的短期光伏功率预测方法
CN107506865B (zh) 一种基于lssvm优化的负荷预测方法及系统
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN108805193B (zh) 一种基于混合策略的电力缺失数据填充方法
CN109873779B (zh) 一种基于lstm的分级式无线信号调制类型识别方法
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN111832608B (zh) 一种基于单阶段检测模型yolov3的铁谱图像多磨粒识别方法
CN110929843A (zh) 一种基于改进深度自编码网络的异常用电行为辨识方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN113887916A (zh) 一种配电网线损动态量化评估方法及系统
CN112364098A (zh) 一种基于Hadoop的分布式电力系统异常数据识别方法及系统
CN108154186B (zh) 一种模式识别方法和装置
CN110751278A (zh) 一种神经网络比特量化方法和系统
CN112633457A (zh) 一种基于多目标水稻育种算法的高光谱图像波段选择方法
CN111353377A (zh) 一种基于深度学习的电梯乘客数检测方法
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
CN117095247B (zh) 基于数控加工的加工姿态运行优化方法、系统及介质
Zheng et al. Action recognition based on the modified twostream CNN
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
CN111104831B (zh) 一种视觉追踪方法、装置、计算机设备以及介质
CN116485021A (zh) 一种煤炭企业技术技能人才人岗匹配预测方法与系统
CN110826614A (zh) 一种构造逆标签及其损失函数的方法
CN115619028A (zh) 一种基于聚类算法融合的电力负荷精准预测方法
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication