CN115358301A - 配电网电压数据清洗平台及其清洗方法 - Google Patents

配电网电压数据清洗平台及其清洗方法 Download PDF

Info

Publication number
CN115358301A
CN115358301A CN202210916450.XA CN202210916450A CN115358301A CN 115358301 A CN115358301 A CN 115358301A CN 202210916450 A CN202210916450 A CN 202210916450A CN 115358301 A CN115358301 A CN 115358301A
Authority
CN
China
Prior art keywords
data
distribution network
value
platform
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210916450.XA
Other languages
English (en)
Inventor
莫登文
何华声
张卫涛
刘浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202210916450.XA priority Critical patent/CN115358301A/zh
Publication of CN115358301A publication Critical patent/CN115358301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开配电网电压数据清洗平台及其清洗方法,包括pycharm平台,所述pycharm平台包括Python环境、Django环境、网站平台,本发明采用长短记忆(LSTM)神经网络、聚类分析(K‑means)、关联规则分析法(Aprior)对配网电压数据进行清洗,并通过Python搭建一个平台将准确率、召回率、辨识率,F1分数这四大指标以可视化的图形展示出来,同时也是离群点预警功能于一体的多功能平台。本发明主要运用于电力行业,电力调度人员可通过查看直观的可视化图形对电力系统做出相应的调整;本发明主要包括由聚类分析法、关联规则分析法、LSTM神经网络法对配网电压大数据的检测、Web后端的开发、Web前端的开发、可视化图形的展示四大部分。

Description

配电网电压数据清洗平台及其清洗方法
技术领域
本发明属于大数据清洗及电力系统相关技术领域,具体涉及配电网电压数据清洗平台及其清洗方法。
背景技术
随着社会的不断发展,用电量不断增加,电力系统日渐复杂,电网规模不断扩大。电力系统中各类设备实时数据的增加导致电网数据量飞速增长,数据异常、冗余、遗漏等问题严重影响了电网安全。数据质量的好坏、清洗出来的数据是否能够直观的展示直接影响到了调度人员能否快速、准确地对电力系统出现的问题作出重要的决策。因此,开发一个基于数据清洗的可视化平台有着重要意义。
发明内容
本发明的目的在于提供配电网电压数据清洗平台,以解决上述背景技术中提出的电网数据量飞速增长,数据异常、冗余、遗漏等问题严重影响了电网安全和影响到了调度人员能否快速、准确地对电力系统出现的问题作出重要的决策问题。
为实现上述目的,本发明提供如下技术方案:配电网电压数据清洗平台,包括pycharm平台,所述pycharm平台包括Python环境、Django环境、网站平台;
Django环境,Django环境用于提供Web后端开发和Web前端开发数据库;
Python环境,Python环境用于采集并搭建配电网电压数据结构以及数据预处理,并根据算法的数学模型将LSTM神经网络、聚类分析法、关联规则分析法运用于配电网数据清洗,得出四大分类指标以及离群点的数据,同时将以上所述数据传送到Web前端页面;
网站平台,用于将后端输送到前端的数据以可视化的图形展示。
优选的,所述四大分类指标以及离群点的数据为准确率、召回率、辨识率、F1分数。
优选的,所述Django环境具有自带数据库。
优选的,所述网站平台主要利用js,css实现对前端页面的开发,利用echarts实现对可视化图形的配置。
配电网电压数据清洗方法,包括以下步骤:
步骤1:在pycharm平台搭建并部署Python以及Django环境;
步骤2:根据算法的数学模型实现LSTM神经网络、聚类分析法、关联规则分析法的逻辑运算以及登录、注册功能和连接数据库的逻辑实现,得出准确率、召回率、辨识率、F1分数这四大分类指标以及离群点的数据,并将所述数据传送到前端页面同时将前端页面注册功能所输入的数据反馈回Django自带的数据库;
步骤3:搭建一个网站平台,将后端输送到前端的数据以可视化的图形展示。
优选的,所述步骤2中的LSTM神经网络的配电网电压清洗方法,包括以下步骤:
S1:对配电网电压的大数据进行数据的导入以及数据的预处理;
S2:搭建LSTM神经网络模型对数据样本进行训练得出最优训练模型;
S3:将测试数据代入步骤2的最优LSTM神经网络训练模型得出预测值;
S4:计算出步骤3得出的预测值与测试集的实际值的误差,并将误差形成一个集合即S;
S5:根据误差集合S是否服从均值为μ和标准差为σ的高斯分布判断异常值与正常值;
S6:根据实际值的正常值、异常值的个数和由算法判断出正常值、异常值的个数,计算评估指标即准确率、辨识率、召回率、F1分数;
其中,S1数据的预处理:包括构建特征数据集、训练批数据、数据归一化、按8:2的比例划分训练集和测试集、数据的噪声加入;
其中,S2LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络模型,进行训练;
其中,S3选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;
其中,S4数据预测:向训练好的模型,输入t-1、t-2时刻的实际数据值xt-1和xt-2,得t时刻的预测值yt,以此类推;
其中,S5计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测值与实际值之差形成一个集合S,即某一时刻的误差为;
其中,S6异常值、正常值的判断:将集合S建模为服从均值为μ和标准差为σ的高斯分布。当St在(μ-3σ,μ+3σ)区间内时,该t时刻的实际值为正常值;反之,在区间外时,该t时刻的实际值为异常值。均值μ和标准差σ的计算公式为:
Figure BDA0003775728120000031
Figure BDA0003775728120000032
优选的,所述步骤2中的K-means聚类的配电网电压清洗方法,包括如下步骤:
S1:导入配电网电压的大数据并进行预处理,对数据进行分类,分割不同类型的数据方便后续处理使用;
S2:将导入的电压数据加噪声,即将部分数据更改为异常值并制作含有异常值的数据标签,作为后续聚类模型所需的原始数据、原始标签;
S3:搭建手肘法与轮廓系数法的聚类模型,将原始数据代入两个聚类模型中去并结合两者最优K值结果来选取最终最优K值;
S4:将最优K值代入新搭建的聚类模型进行K-means聚类,导出聚类后的聚类中心以及聚类标签等检测结果;
S5:将步骤4的检测聚类标签与步骤2中的原始标签进行对比,将差异与相似的数据个数用于计算评价指标;
其中,S2通过选取部分数据作为原始样本,并对其中部分的样本加噪声(设置异常值),记录异常值位置,并制作相应的数据标签(0为正常值,1为异常值);
其中,S3采用手肘法与轮廓系数法结合确定最优K值的大小,并对样本重新进行聚类,分为K类,获取聚类中心以及聚类标签;
其中,S4对比聚类标签与数据标签的差异,得出四类数据个数,即实际为正常且检测为正常的数据、实际为正常且检测为异常的数据、实际为异常且检测为正常的数据、实际为异常且检测为异常的数据;
其中,S5以上述四类数据个数为基准值,计算准确率、召回率、辨识率以及F1分数。
优选的,所述步骤2中的关联规则对负荷预测结果进行清洗的方法,包括如下步骤:
S1:据负荷预测的结果求出负荷的变化率,将变化率数据离散处理;
S2:利用关联规则分析法建立变化率的频繁规则数据库,识别并剔除数据库之外的冒大数;
S3:利用线性插值法,针对删除异常值后的数据序列进行插补操作;
其中,S1数据离散化,将电力数据离散分成7类,0表示变化率在-0.005到0.005之间,1表示变化率在0.005到0.01之间,2表示变化率在,0.01到0.015之间,3表示变化率0.015以上,-1表示变化率在-0.005到-0.01之间,-2表示变化率在-0.01到-0.015之间,-3表示变化率在-0.015以下;
其中,S2建立变化率的频繁规则数据库,设置支持度阈值设为0.01,找出支持度大于支持度阈值的关联规则即为
Figure BDA0003775728120000051
的频繁规则集。例如:
Figure BDA0003775728120000052
的支持度为0.026026(意思是:“如果2018年1月1日1点到2018年1月1日2点的负荷变化率在0.005到0.01之间,则2018年1月1日2点到2018年1月1日3点的负荷变化率在0.005到0.01之间”这条规则的支持度为0.026026。
与现有技术相比,本发明提供了配电网电压数据清洗平台及其清洗方法,具备以下有益效果:
1、本发明采用长短记忆(LSTM)神经网络、聚类分析(K-means)、关联规则分析法(Aprior)对配网电压数据进行清洗,并通过Python搭建一个平台将准确率、召回率、辨识率,F1分数这四大指标以可视化的图形展示出来,同时也是离群点预警功能于一体的多功能平台;
2、本发明主要运用于电力行业,电力调度人员可通过查看直观的可视化图形对电力系统做出相应的调整。本发明主要包括由聚类分析法、关联规则分析法、LSTM神经网络法对配网电压大数据的检测、Web后端的开发、Web前端的开发、可视化图形的展示四大部分。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:
图1是配网电压数据清洗平台以及清洗方法结构图;
图2是基于关联规则分析法的配电网电压清洗流程图;
图3是基于K-means聚类分析法的配电网电压清洗流程图;
图4是基于LSTM神经网络的配电网电压清洗流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供一种技术方案:配电网电压数据清洗平台,包括pycharm平台,pycharm平台包括Python环境、Django环境、网站平台;
Django环境,Django环境用于提供Web后端开发和Web前端开发数据库;
Python环境,Python环境用于采集并搭建配电网电压数据结构以及数据预处理,并根据算法的数学模型将LSTM神经网络、聚类分析法、关联规则分析法运用于配电网数据清洗,得出四大分类指标以及离群点的数据,同时将以上数据传送到Web前端页面;
网站平台,用于将后端输送到前端的数据以可视化的图形展示。
四大分类指标以及离群点的数据为准确率、召回率、辨识率、F1分数。
Django环境具有自带数据库。
网站平台主要利用js,css实现对前端页面的开发,利用echarts实现对可视化图形的配置。
配电网电压数据清洗方法,包括以下步骤:
步骤1:在pycharm平台搭建并部署Python以及Django环境;
步骤2:根据算法的数学模型实现LSTM神经网络、聚类分析法、关联规则分析法的逻辑运算以及登录、注册功能和连接数据库的逻辑实现,得出准确率、召回率、辨识率、F1分数这四大分类指标以及离群点的数据,并将数据传送到前端页面同时将前端页面注册功能所输入的数据反馈回Django自带的数据库;
步骤3:搭建一个网站平台,将后端输送到前端的数据以可视化的图形展示。
步骤2中的LSTM神经网络的配电网电压清洗方法,包括以下步骤:
S1:对配电网电压的大数据进行数据的导入以及数据的预处理;
S2:搭建LSTM神经网络模型对数据样本进行训练得出最优训练模型;
S3:将测试数据代入步骤2的最优LSTM神经网络训练模型得出预测值;
S4:计算出步骤3得出的预测值与测试集的实际值的误差,并将误差形成一个集合即S;
S5:根据误差集合S是否服从均值为μ和标准差为σ的高斯分布判断异常值与正常值;
S6:根据实际值的正常值、异常值的个数和由算法判断出正常值、异常值的个数,计算评估指标即准确率、辨识率、召回率、F1分数;
其中,S1数据的预处理:包括构建特征数据集、训练批数据、数据归一化、按8:2的比例划分训练集和测试集、数据的噪声加入;
其中,S2LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络模型,进行训练;
其中,S3选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;
其中,S4数据预测:向训练好的模型,输入t-1、t-2时刻的实际数据值xt-1和xt-2,得t时刻的预测值yt,以此类推;
其中,S5计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测值与实际值之差形成一个集合S,即某一时刻的误差为;
其中,S6异常值、正常值的判断:将集合S建模为服从均值为μ和标准差为σ的高斯分布。当St在(μ-3σ,μ+3σ)区间内时,该t时刻的实际值为正常值;反之,在区间外时,该t时刻的实际值为异常值。均值μ和标准差σ的计算公式为:
Figure BDA0003775728120000081
Figure BDA0003775728120000082
步骤2中的K-means聚类的配电网电压清洗方法,包括如下步骤:
S1:导入配电网电压的大数据并进行预处理,对数据进行分类,分割不同类型的数据方便后续处理使用;
S2:将导入的电压数据加噪声,即将部分数据更改为异常值并制作含有异常值的数据标签,作为后续聚类模型所需的原始数据、原始标签;
S3:搭建手肘法与轮廓系数法的聚类模型,将原始数据代入两个聚类模型中去并结合两者最优K值结果来选取最终最优K值;
S4:将最优K值代入新搭建的聚类模型进行K-means聚类,导出聚类后的聚类中心以及聚类标签等检测结果;
S5:将步骤4的检测聚类标签与步骤2中的原始标签进行对比,将差异与相似的数据个数用于计算评价指标;
其中,S2通过选取部分数据作为原始样本,并对其中部分的样本加噪声(设置异常值),记录异常值位置,并制作相应的数据标签(0为正常值,1为异常值);
其中,S3采用手肘法与轮廓系数法结合确定最优K值的大小,并对样本重新进行聚类,分为K类,获取聚类中心以及聚类标签;
其中,S4对比聚类标签与数据标签的差异,得出四类数据个数,即实际为正常且检测为正常的数据、实际为正常且检测为异常的数据、实际为异常且检测为正常的数据、实际为异常且检测为异常的数据;
其中,S5以上述四类数据个数为基准值,计算准确率、召回率、辨识率以及F1分数。
步骤2中的关联规则对负荷预测结果进行清洗的方法,包括如下步骤:
S1:据负荷预测的结果求出负荷的变化率,将变化率数据离散处理;
S2:利用关联规则分析法建立变化率的频繁规则数据库,识别并剔除数据库之外的冒大数;
S3:利用线性插值法,针对删除异常值后的数据序列进行插补操作;
其中,S1数据离散化,将电力数据离散分成7类,0表示变化率在-0.005到0.005之间,1表示变化率在0.005到0.01之间,2表示变化率在,0.01到0.015之间,3表示变化率0.015以上,-1表示变化率在-0.005到-0.01之间,-2表示变化率在-0.01到-0.015之间,-3表示变化率在-0.015以下;
其中,S2建立变化率的频繁规则数据库,设置支持度阈值设为0.01,找出支持度大于支持度阈值的关联规则即为
Figure BDA0003775728120000091
的频繁规则集。例如:
Figure BDA0003775728120000092
Figure BDA0003775728120000093
的支持度为0.026026(意思是:“如果2018年1月1日1点到2018年1月1日2点的负荷变化率在0.005到0.01之间,则2018年1月1日2点到2018年1月1日3点的负荷变化率在0.005到0.01之间”这条规则的支持度为0.026026。
本发明的工作原理及使用流程:如图1所示,本发明包括由基于LSTM神经网络法、聚类分析法、关联规则分析法的配网电压数据检测、Web后端的开发、Web前端的开发、可视化图形的展示四大部分。
如图2所示,将预测的负荷数据进行预处理,并进行离散处理,根据关联规则Apriori算法,设置支持度阈值为0.01,建立频繁规则数据库,将数据库之外的值视为冒大数,即异常值,剔除异常值,利用线性插值法插补剔除的数据,将用频繁规则算法处理后的预测数据和未经处理的预测数据分别与原始数据作对比,计算评估指标。
如图3所示,样本:利用pandas中的read_csv函数将csv类型的数据导入;加噪声:选取部分的样本改变其值的大小;手肘法:核心是误差平方和SSE,通过调用sklearn.cluster中的KMeans函数,选取一定范围的k值构造聚类器,绘出K值对应的SSE的图,选取SSE误差变化不明显的第一个拐点作为最优K值;轮廓系数:调用sklearn.metrics中silhouette_score函数返回轮廓系数的均值以及silhouette_samples函数返回样本数据中每个样本自身的轮廓系数,绘出K值对应的轮廓系数均值的图像,选取最大的轮廓系数的均值所对应的K值作为最优K值;聚类:调用sklearn.cluster中的KMeans函数,并将确定的K值带入,重新聚类,获取聚类中心以及聚类标签,通过聚类标签可知检测结果中的数据是否异常。四类数据个数:实际为正常且检测为正常的数据、实际为正常且检测为异常的数据、实际为异常且检测为正常的数据、实际为异常且检测为异常的数据;评价指标:通过四类准确率、召回率、辨识率以及F1分数。
如图4所示,数据的导入:建议使用CSV文件类型的数据且数据结构只有两列,开头应以Datetime、DOM_MW;数据的预处理:包括构建特征数据集、构建训练批数据、数据归一化(采用Python自带的MinMaxScaler()函数进行归一化)、按8:2的比例划分训练集和测试集、数据的噪声加入,噪声的加入大小为1.5%;LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络数学模型,进行训练,本发明采用Python自带的LSTM包将相应的参数代入即可得出LSTM训练模型。选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;数据预测:向已经训练好的LSTM神经网络模型,输入t-1、t-2时刻的实际数据值xt-1和xt-2,得t时刻的预测值yt,以此类推得出更多的预测数值。计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测值与实际值之差形成一个集合S;当St在(μ-3σ,μ+3σ)区间内时,该t时刻的实际值为正常值;反之,在区间外时,该t时刻的实际值为异常值;这里的μ为均值可由python的np.mean()函数可得,σ为标准差可由python的np.std()函数可得。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.配电网电压数据清洗平台,包括pycharm平台,其特征在于:所述pycharm平台包括Python环境、Django环境、网站平台;
Django环境,Django环境用于提供Web后端开发和Web前端开发数据库;
Python环境,Python环境用于采集并搭建配电网电压数据结构以及数据预处理,并根据算法的数学模型将LSTM神经网络、聚类分析法、关联规则分析法运用于配电网数据清洗,得出四大分类指标以及离群点的数据,同时将以上所述数据传送到Web前端页面;
网站平台,用于将后端输送到前端的数据以可视化的图形展示。
2.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述四大分类指标以及离群点的数据为准确率、召回率、辨识率、F1分数。
3.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述Django环境具有自带数据库。
4.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述网站平台主要利用js,css实现对前端页面的开发,利用echarts实现对可视化图形的配置。
5.配电网电压数据清洗方法,根据权利要求1-4所述的配电网电压数据清洗平台,其特征在于,包括以下步骤:
步骤1:在pycharm平台搭建并部署Python以及Django环境;
步骤2:根据算法的数学模型实现LSTM神经网络、聚类分析法、关联规则分析法的逻辑运算以及登录、注册功能和连接数据库的逻辑实现,得出准确率、召回率、辨识率、F1分数这四大分类指标以及离群点的数据,并将所述数据传送到前端页面同时将前端页面注册功能所输入的数据反馈回Django自带的数据库;
步骤3:搭建一个网站平台,将后端输送到前端的数据以可视化的图形展示。
6.根据权利要求5所述的配电网电压数据清洗方法,其特征在于:所述步骤2中的LSTM神经网络的配电网电压清洗方法,包括以下步骤:
S1:对配电网电压的大数据进行数据的导入以及数据的预处理;
S2:搭建LSTM神经网络模型对数据样本进行训练得出最优训练模型;
S3:将测试数据代入步骤2的最优LSTM神经网络训练模型得出预测值;
S4:计算出步骤3得出的预测值与测试集的实际值的误差,并将误差形成一个集合即S;
S5:根据误差集合S是否服从均值为μ和标准差为σ的高斯分布判断异常值与正常值;
S6:根据实际值的正常值、异常值的个数和由算法判断出正常值、异常值的个数,计算评估指标即准确率、辨识率、召回率、F1分数;
其中,S1数据的预处理:包括构建特征数据集、训练批数据、数据归一化、按8:2的比例划分训练集和测试集、数据的噪声加入;
其中,S2LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络模型,进行训练;
其中,S3选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;
其中,S4数据预测:向训练好的模型,输入t-1、t-2时刻的实际数据值xt-1和xt-2,得t时刻的预测值yt,以此类推;
其中,S5计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测值与实际值之差形成一个集合S,即某一时刻的误差为;
其中,S6异常值、正常值的判断:将集合S建模为服从均值为μ和标准差为σ的高斯分布。当St在(μ-3σ,μ+3σ)区间内时,该t时刻的实际值为正常值;反之,在区间外时,该t时刻的实际值为异常值。均值μ和标准差σ的计算公式为:
Figure FDA0003775728110000031
Figure FDA0003775728110000032
7.根据权利要求5所述的配电网电压数据清洗方法,其特征在于:所述步骤2中的K-means聚类的配电网电压清洗方法,包括如下步骤:
S1:导入配电网电压的大数据并进行预处理,对数据进行分类,分割不同类型的数据方便后续处理使用;
S2:将导入的电压数据加噪声,即将部分数据更改为异常值并制作含有异常值的数据标签,作为后续聚类模型所需的原始数据、原始标签;
S3:搭建手肘法与轮廓系数法的聚类模型,将原始数据代入两个聚类模型中去并结合两者最优K值结果来选取最终最优K值;
S4:将最优K值代入新搭建的聚类模型进行K-means聚类,导出聚类后的聚类中心以及聚类标签等检测结果;
S5:将步骤4的检测聚类标签与步骤2中的原始标签进行对比,将差异与相似的数据个数用于计算评价指标;
其中,S2通过选取部分数据作为原始样本,并对其中部分的样本加噪声(设置异常值),记录异常值位置,并制作相应的数据标签(0为正常值,1为异常值);
其中,S3采用手肘法与轮廓系数法结合确定最优K值的大小,并对样本重新进行聚类,分为K类,获取聚类中心以及聚类标签;
其中,S4对比聚类标签与数据标签的差异,得出四类数据个数,即实际为正常且检测为正常的数据、实际为正常且检测为异常的数据、实际为异常且检测为正常的数据、实际为异常且检测为异常的数据;
其中,S5以上述四类数据个数为基准值,计算准确率、召回率、辨识率以及F1分数。
8.根据权利要求5所述的配电网电压数据清洗方法,其特征在于:所述步骤2中的关联规则对负荷预测结果进行清洗的方法,包括如下步骤:
S1:据负荷预测的结果求出负荷的变化率,将变化率数据离散处理;
S2:利用关联规则分析法建立变化率的频繁规则数据库,识别并剔除数据库之外的冒大数;
S3:利用线性插值法,针对删除异常值后的数据序列进行插补操作;
其中,S1数据离散化,将电力数据离散分成7类,0表示变化率在-0.005到0.005之间,1表示变化率在0.005到0.01之间,2表示变化率在,0.01到0.015之间,3表示变化率0.015以上,-1表示变化率在-0.005到-0.01之间,-2表示变化率在-0.01到-0.015之间,-3表示变化率在-0.015以下;
其中,S2建立变化率的频繁规则数据库,设置支持度阈值设为0.01,找出支持度大于支持度阈值的关联规则即为
Figure FDA0003775728110000041
的频繁规则集。例如:
Figure FDA0003775728110000043
Figure FDA0003775728110000042
的支持度为0.026026(意思是:“如果2018年1月1日1点到2018年1月1日2点的负荷变化率在0.005到0.01之间,则2018年1月1日2点到2018年1月1日3点的负荷变化率在0.005到0.01之间”这条规则的支持度为0.026026。
CN202210916450.XA 2022-08-01 2022-08-01 配电网电压数据清洗平台及其清洗方法 Pending CN115358301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210916450.XA CN115358301A (zh) 2022-08-01 2022-08-01 配电网电压数据清洗平台及其清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210916450.XA CN115358301A (zh) 2022-08-01 2022-08-01 配电网电压数据清洗平台及其清洗方法

Publications (1)

Publication Number Publication Date
CN115358301A true CN115358301A (zh) 2022-11-18

Family

ID=84031076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210916450.XA Pending CN115358301A (zh) 2022-08-01 2022-08-01 配电网电压数据清洗平台及其清洗方法

Country Status (1)

Country Link
CN (1) CN115358301A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235448A (zh) * 2023-11-14 2023-12-15 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质
CN117235448B (zh) * 2023-11-14 2024-02-06 北京阿丘科技有限公司 数据清洗方法、终端设备及存储介质
CN117891812A (zh) * 2024-03-18 2024-04-16 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统

Similar Documents

Publication Publication Date Title
CN115358301A (zh) 配电网电压数据清洗平台及其清洗方法
EP3822905A1 (en) Method and device for predicting thermal load of electrical system
Wu et al. A prediction method using the grey model GMC (1, n) combined with the grey relational analysis: a case study on Internet access population forecast
CN111368980B (zh) 状态检测方法、装置、设备及存储介质
CN115412455B (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN111738532B (zh) 一种事件对对象影响度的获取方法和系统
CN113570396A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
CN111179591A (zh) 一种路网交通时序特征数据质量诊断与修复方法
CN112418476A (zh) 一种超短期电力负荷预测方法
CN114399321A (zh) 一种业务系统稳定性分析方法、装置和设备
CN114386707A (zh) 一种轨道高低不平顺预测方法及装置
CN113516313A (zh) 一种基于用户画像的燃气异常检测方法
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
CN108073464A (zh) 一种基于速度和加速度的时序数据异常点检测方法及装置
CN115907837B (zh) 基于机器学习的期货数据分析、风险预测方法及系统
CN115115414A (zh) 一种基于机器学习的二手车估价方法
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
JPH0895948A (ja) トレンドに基づく時系列予測方法および装置
CN113674014A (zh) 一种配电线路日线损率预测方法和系统
CN115222113B (zh) 基于cnn-lstm的铁路区域货运量短期预测方法
CN116503178A (zh) 基于卷积神经网络与注意力机制的金融时间序列处理方法
CN114625775A (zh) 一种统计样本数据分析与处理系统及方法
CN113378383A (zh) 一种食品供应链危害物预测方法及装置
CN117521907A (zh) 考虑光伏出力与气象要素的光伏发电功率区间预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination