CN117633710A - 一种基于自回归算法的电力用户用能稳定性分析方法 - Google Patents

一种基于自回归算法的电力用户用能稳定性分析方法 Download PDF

Info

Publication number
CN117633710A
CN117633710A CN202311681285.5A CN202311681285A CN117633710A CN 117633710 A CN117633710 A CN 117633710A CN 202311681285 A CN202311681285 A CN 202311681285A CN 117633710 A CN117633710 A CN 117633710A
Authority
CN
China
Prior art keywords
data
model
training
energy
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311681285.5A
Other languages
English (en)
Inventor
薛洪
刘耀华
李冬梅
张在权
张烨
陈宁
熊鹏飞
荣先飞
姚淑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shucheng Power Supply Co of State Grid Anhui Electric Power Co Ltd
Original Assignee
Shucheng Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shucheng Power Supply Co of State Grid Anhui Electric Power Co Ltd filed Critical Shucheng Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority to CN202311681285.5A priority Critical patent/CN117633710A/zh
Publication of CN117633710A publication Critical patent/CN117633710A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自回归算法的电力用户用能稳定性分析方法,涉及电力用户用能稳定性分析技术领域,包括数据收集,所述数据收集后需要对收集的数据进行数据处理,所述数据收集用于收集用能数据,所述数据处理用于对收集的数据进行预处理,本发明通过收集来自不同源头的数据,确保数据具有时间戳,将收集的不同源头的数据的时间序列对齐,确保它们在相同的时间尺度上,将不同源头的数据的特征整合到一个数据集中,确保时间序列的对齐,并准备好作为模型的输入,并使用训练集对LSTM模型进行训练,在训练模型时将LSTM层用于处理时间序列数据,从而结合多源、多模态的电力用户用能数据实现更全面地了解用户用能的稳定性,并提高分析的准确性。

Description

一种基于自回归算法的电力用户用能稳定性分析方法
技术领域
本发明涉及电力用户用能稳定性分析技术领域,具体为一种基于自回归算法的电力用户用能稳定性分析方法。
背景技术
电力用户对能源供应的稳定性和可靠性要求越来越高,为了提高电力用户用能的稳定性和可靠性,需要对用户的用能行为进行分析和预测,然而,现有的分析方法往往只考虑了单一方面,如用户的历史用能数据、天气数据等,无法全面反映用户用能的稳定性。
现有的电力用户用能稳定性分析方法存在的缺陷是:
1、申请文件JPWO2019087292A1中,公开了电力系统稳定性分析装置,稳定装置和方法,其主要考虑如何提高电力系统同步稳定性分析的精度的问题,并没有考虑如何提高分析稳定性的问题;
2、申请文件JP1998229641A中,公开了电力系统分析模型及系统稳定性分析方法,主要考虑如何解决分析模拟中演算时间变长的问题,并没有考虑到如何更精准的预测和更全面的稳定性评估的问题;
3、申请文件CN116383598B中,公开了基于自回归算法的电力用户用能稳定性分析方法,主要考虑如何预测一个范围的电力消耗量的问题,并没有考虑到如何加速模型的训练和参数调优,处理大规模的历史数据的问题;
4、申请文件CN105335904A中,公开了一种电力系统Lyapunov稳定性分析方法,主要考虑如何具有更高计算效率的问题,没有考虑到如何提高处理复杂关系和非线性模式的模型性能的问题。
发明内容
本发明的目的在于提供一种基于自回归算法的电力用户用能稳定性分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于自回归算法的电力用户用能稳定性分析方法,包括数据收集,所述数据收集后需要对收集的数据进行数据处理,所述数据收集用于收集用能数据,所述数据处理用于对收集的数据进行预处理;
在所述数据收集时需要收集电力消耗数据、天气的温度、湿度和气压数据与社会活动数据,并对收集的数据设定时间戳,同时收集智能电表数据,并从能源管理系统监控和控制能源使用,并且通过调查和问卷调查和公共数据集的方式收集用户的用能信息,随后将收集的不同数据的时间序列对齐,从每个每个源头的数据中提取特征,最后将提取的特征整合到一个数据集中作为模型的输入。
优选的,所述电力用户用能稳定性分析方法如下:
步骤S1、收集电力消耗数据、天气的温度、湿度和气压数据与社会活动的节假日和人口流动数据,通过智能电表的度数或实时数据接口获取每15min的电力使用情况,对于大型工商业用户使用能源管理系统监控能源消耗,并通过系统接口导出历史用电记录提供用能数据,给小型用户发放问卷调查,收集用户填写后的问卷获得用能信息;
在商业建筑中安装智能电表盒分项计量仪、空调和照明传感器与电梯检测系统,并在工业中安装生产设备传感器、能耗监测系统、智能照明系统和电动车充电桩传感器,并利用公共数据集平台获取商业建筑和工业中的用能数据;
步骤S2、对收集到的数据依次进行时间对齐、特征提取、数据融合、处理缺失值、处理异常值、数据平滑、数据转换、处理重复值、不一致数据处理、日期和时间处理、数据合并和分类数据转换。
优选的,所述电力用户用能稳定性分析方法还包括:
步骤S3、选择自相关函数显示时间序列和其滞后版本之间的相关性,并利用偏自相关函数提供在移除之前滞后效应后两个时间点之间的关系,确定时间序列结构,随后选择赤池信息准则或贝叶斯信息准则值最小的模型;
选用Apache Spark大数据分布式计算框架处理数据,并选用线性模型或非线性模型,再引入季节性和趋势项目,将数据集分为训练集和验证集,在训练集上拟合模型并在验证集上评估模型性能;
提取与电力用能的季节性、趋势和节假日特征,同时设计LSTM层、神经元数量和输出层构建LSTM模型,同时选用均方误差或平均绝对误差作为损失函数,并选择Adam或RMSprop作为优化器使用,同时配合使用均方根误差评估模型的性能。
优选的,所述电力用户用能稳定性分析方法还包括:
步骤S4、将历史数据分成小块,通过数据并行处理的方式,同时在多个节点上进行模型训练,并使用HDFS分布式存储系统存储大规模的历史数据,再使用PyTorch分布式机器学习框架进行自回归模型的分布式训练,同时利用分布式调度系统进行任务管理和调度,并实时监控系统追踪训练过程中的性能和进度,随后对模型进行拟合并估计模型中的参数,然后利用分布式缓冲系统将模型参数和中间结果缓存在内存中,同时采用增量训练策略,每次迭代只使用部分数据更新模型参数,在每个训练批次后保存模型的当前状态,在下一次训练时,加载上次保存的模型状态,在每次迭代中,只使用新的数据进行训练,在训练过程中将LSTM层用于处理时间序列数据,使用训练集对LSTM模型进行训练,并监控模型在验证集上的性能,以及训练集和验证集上的损失变化。
优选的,所述电力用户用能稳定性分析方法还包括:
步骤S5、使用已训练的自回归模型对未来时间步的数据进行预测,得到自回归模型的输出和预测值,再将预测值作为新的特征输入到下一步的支持向量机模型中,随后收集并准备趋势项、季节性项和外部因素的时间序列相关特征,同时将预测值和时间序列相关特征合并创建为新数据集,再利用新数据集训练支持向量机模型;
使用均方根误差、平均绝对误差和平均绝对百分比误差性能指标,对整合模型进行评估,同时使用验证集进行实时验证,采用滚动预测的方法,逐步向前预测,评估模型在未来时间点上的预测效果,最后将训练好的模型部署到实际应用中,并监测模型的性能;
步骤S6、使用经过训练和验证的自回归模型,输入模型的多源、多模态的融合数据,进行未来一段时间内的用能情况预测,然后对模型预测结果进行趋势分析,识别用能的季节性波动和周期性波动趋势,同时利用模型预测结果和实际观测数据,识别突然的用能增加或减少,与预测不一致的数据点,同时分析模型对用能稳定性的预测结果,解释这些结果背后的用户行为,最后比较模型的预测结果与实际观测数据,评估模型的准确性、灵敏度和特异性,并将用能稳定分析的结果以曲线图、柱状图和表格方式呈现。
优选的,所述步骤S1中,还包括如下步骤:
步骤S11、利用公共数据集平台获取商业建筑和工业中的用能数据时需要进行账户注册并登录,随后浏览平台上的数据集列表,查找与电力用户用能相关的数据集,仔细阅读数据集数据的时间范围、地理覆盖范围和数据格式,确定符合需求后选择数据集,将选择的数据集利用平台进行下载,再将下载的数据集进行清洗、转换和整合。
优选的,所述步骤S2和S3中,还包括如下步骤:
步骤S21、将不同源头的数据的时间序列对齐,并从每个源头的数据中提取电力消耗数据中的日均消耗和峰谷值,提取天气数据中的温度变化和湿度波动,同时将社会活动数据转换为活动指数或特定事件的标记,再将不同源头的数据的特征整合到一个数据集中作为模型的输入,然后检测并删除数据中的缺失值或用使用线性插值、多项式插值或基于时间的插值方法填充缺失值,或使用相邻时间点的平均值或中位数来填充缺失值,或使用时间序列数据建立预测模型,预测缺失值并进行填充,之后使用百分位数识别并移除超出预定阈值的数值,使用机器学习算法来检测异常值,并将异常值删除或修正,之后再将数据进行移动平均和中值滤波进行移动平均的数据平滑操作计算移动窗口内数据点的平均值,并使用指数加权的方法,根据过去的观测值赋予不同的权重,利用小波变换来去除高频噪音,同时保留低频趋势,随后将数据平滑后的数据进行对数转换、标准化和归一化转换,再对转换后的数据进行检测并保留第一个出现的值或删除所有重复值,再然后统一类别标签的表示方式,并提取数据集中的年份和日期转换为数值表示,最后将多个数据合并成一整个数据集,并使用独热编码将数据集转化为数值形式;
步骤S22、将不同的数据采集频率通过插值方法调整,对时间序列数据进行提取滞后特征和统计特征的特征工程作为支持向量机的输入特征。
步骤S31、自相关函数显示了不同滞后阶数下用能数据的自相关系数,偏自相关函数表示了在排除了之前滞后阶数的影响后,当前滞后阶数下用能数据的偏自相关系数;
赤池信息准则计算为:赤池信息准则=-2*ln(L)+2*k,贝叶斯信息准则计算为:贝叶斯信息准则=-2*ln(L)+k*ln(n);
步骤S32、将训练集和验证集的划分比例定义为80%训练集:20%验证集,使前80%的数据作为训练集,后20%的数据作为验证集,然后将划分为训练集和验证集的数据归一化。
优选的,所述步骤S4中,还包括如下步骤:
步骤S41、基于误差项的分设定似然函数,通过对似然函数取对数,将问题转化为最大化对数似然函数,对数似然函数的梯度用于梯度下降迭代方法来找到最优参数,时间序列数据y1,y2,...yn,对应的模型为yt=f(θ)+∈t,其中f(θ)是模型的预测部分,∈t是误差项,θ是模型参数,设定了似然函数L(θ|y1,y2,...yn)后,最大似然估计即求解以下优化问题:找到最大似然估计即得到模型的参数值。
优选的,所述步骤S5中,还包括如下步骤:
步骤S51、均方根误差计算公式:
平均绝对误差计算公式:平均绝对百分比误差计算公式:/>
均方根误差计算公式、平均绝对误差计算公式和平均绝对百分比误差计算公式中,n是样本数量,yi是观察值,是相应的预测值,用于模型评估。
与现有技术相比,本发明的有益效果是:
1、本发明通过收集来自不同源头的数据,包括电力消耗数据、天气数据如温度、湿度、气压、社会活动数据/节假日、活动类型和人口流动,确保数据具有时间戳,以便与用户用能相关联,通过电表读数或实时数据接口获取用户的智能电表用能数据,并发放收集调查问卷获取用户个人的生活习惯和工作时间的用能信息,将收集的不同源头的数据的时间序列对齐,确保它们在相同的时间尺度上,从每个源头的数据中提取,日均消耗、峰谷值、温度变化和湿度波动,同时将社会活动数据转换为活动指数或特定事件的标记,将不同源头的数据的特征整合到一个数据集中,确保时间序列的对齐,并准备好作为模型的输入,并使用训练集对LSTM模型进行训练,在训练模型时将LSTM层用于处理时间序列数据,从而结合多源、多模态的电力用户用能数据实现更全面地了解用户用能的稳定性,并提高分析的准确性。
2.本发明通过准备自变量和因变量时间序列数据,自变量可以是时间序列的滞后值,因变量是需要预测的目标值,对时间序列数据进行提取滞后特征、统计特征的特征工程,以便作为支持向量机的输入特征,再将自回归模型的预测结果作为特征之一,与时间序列相关特征一起输入到支持向量机模型中生成自回归模型的预测结果,使用已训练的自回归模型对未来时间步的数据进行预测,得到自回归模型的输出。这些预测值将成为新的特征,用于输入到下一步的支持向量机模型中,除了自回归模型的预测结果之外,收集并准备趋势项、季节性项和外部因素与时间序列相关的特征,再将自回归模型的预测结果与时间序列相关特征合并,创建一个包含所有特征的新数据集。确保这个数据集的每一行对应于相应的时间步,使用整合后的特征数据训练支持向量机模型,以实现更精准的预测,将时间序列的下一个步的目标作为支持向量机的标签,让支持向量机学会模式和关联,在模型评估时使用交叉验证等方法对整合模型进行评估,评估模型的预测性能和稳定性评估整个模型的性能,可以使用一些性能指标如均方根误差,利用均方根误差、平均绝对误差和平均绝对百分比误差指标评估模型性能,均方根误差、平均绝对误差和平均绝对百分比误差用于衡量模型在预测中产生的误差,越小越好,在应用指标时,确保使用相同的时间步长,并对预测和观察值进行适当的归一化,以便比较不同规模的数据,从而实现更精准的预测和更全面的稳定性评估。
3.本发明通过使用Apache Spark大数据分布式计算框架,处理大规模的历史数据,这样的框架能够并行处理数据,加快计算速度,首先将历史数据分成小块,通过数据并行处理的方式,同时在多个节点上进行模型训练,有助于提高处理大量数据时的训练速度,再使用HDFS分布式存储系统存储大规模的历史数据,使得数据能够被高效地读取和处理,避免了单一存储节点的瓶颈,然后利用支持分布式训练的PyTorch分布式机器学习框架,进行自回归模型的训练,使得模型在多个计算节点上并行地更新参数,最后利用分布式调度系统进行任务管理和调度,确保计算资源的充分利用,同时,实时监控系统以追踪训练过程中的性能和进度,并利用分布式缓存系统,将模型参数和中间结果缓存在内存中,减少重复计算,提高训练速度,采用增量训练策略,每次迭代只使用部分数据更新模型参数,将大规模历史数据集分成小批次,每次选择一部分数据进行训练。这可以通过分布式计算框架来实现,并确保每个批次都能够充分利用计算资源,在每个训练批次之后,保存模型的模型参数和优化器状态,方便在下一次训练时从上次的状态开始,在下一次训练时,加载上次保存的模型状态。这样可以避免从头开始训练,而是从上一次的状态开始更新模型参数,在每次迭代中,通过记录已经使用的历史数据的索引来实现只使用新的数据进行训练,确保每个数据点只被用于训练一次,从而加速模型的训练和参数调优,处理大规模的历史数据。
4.本发明通过在准备时间序列数据的同时对电力用户用能的时间序列数据进行处理缺失值、异常值和平滑数据,确保数据的稳定性和一致性,以提高模型的训练效果,使用插值方法填充缺失值,如线性插值、多项式插值或基于时间的插值方法,使用相邻时间点的平均值或中位数来填充缺失值,使用时间序列相关特征或时间序列数据建立预测模型,预测缺失值并进行填充,使用百分位数识别并移除超出预定阈值的数值,使用移动平均平滑技术,减少异常值的影响,使用机器学习算法检测和处理异常值,计算移动窗口内数据点的平均值,使用指数加权的方法,根据过去的观测值赋予不同的权重,以平滑数据,利用小波变换来去除高频噪音,同时保留低频趋势,确保时间序列数据是对齐的,即相同时间点的数据采集频率相同。如果存在不同的数据采集频率,可以通过插值等方法进行调整,使用异常检测算法识别异常模式,并根据需求采取删除、替换或调整的处理措施,利用其他相关源头的数据来填补缺失值,验证时间序列数据的准确性,或者提供更多的信息来更好地处理异常值,并将历史电力用能数据划分为训练集和验证集,确保划分是有序的,验证集中的数据在时间上晚于训练集,首先,确保你的历史电力用能数据是按时间排序的,时间戳应该是递增的,随后定义训练集和验证集的划分比例为80%:20%,使得前80%的数据作为训练集,而后20%的数据作为验证集,确保验证集中的时间点晚于训练集,这样模型在训练时只能使用过去的数据进行学习,而在验证时则用未来的数据进行测试,更符合实际应用场景,提取与电力用能季节性、趋势、节假日的特征,帮助模型更好地捕捉数据中的模式和变化,同时通过的LSTM层、神经元数量和输出层构建LSTM模型,这是一种适用于时间序列数据的深度学习模型,将划分为训练集和验证集的数据进行归一化,以确保输入数据在可接受范围内,并进行模型构建,同时选择均方误差和平均绝对误差损失函数,选择RMSprop优化器,使用训练集对LSTM模型进行训练,监控模型在验证集上的性能,以及训练集和验证集上的损失变化,以防止过拟合,从提高处理复杂关系和非线性模式的模型性能。
附图说明
图1为本发明的流程图;
图2为本发明图1中的折线图;
图3为本发明图1中的柱状图;
图4为本发明的自相关函数图;
图5为本发明的偏自相关函数图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1,一种基于自回归算法的电力用户用能稳定性分析方法,包括数据收集,数据收集后需要对收集的数据进行数据处理,数据收集用于收集用能数据,步骤S1、收集电力消耗数据、天气的温度、湿度和气压数据与社会活动的节假日和人口流动数据,通过智能电表的度数或实时数据接口获取每15min的电力使用情况,对于大型工商业用户使用能源管理系统监控能源消耗,并通过系统接口导出历史用电记录提供用能数据,给小型用户发放问卷调查,收集用户填写后的问卷获得用能信息,包括用户的生活习惯和用电时间;
在商业建筑中安装智能电表盒分项计量仪:安装在不同区域,以监测整个建筑或特定区域的用电情况、空调和照明传感器:集成在空调和照明系统中,用于检测人员活动并调整用电情况、电梯检测系统:监测电梯的使用情况,以便在非高峰时段实施节能策略,并在工业中安装生产设备传感器:安装在关键生产设备上,以监测其能耗和运行状态、能耗监测系统:整合传感器数据,实时监测整个生产过程的电力使用情况、智能照明系统:使用可调光和自动关闭功能,能够被检测照明用电量、电动车充电桩传感器:在充电桩上安装传感器,监测电动车充电的用电情况,并利用公共数据集平台获取商业建筑和工业中的用能数据,数据处理用于对收集的数据进行预处理,利用公共数据集平台获取商业建筑和工业中的用能数据时需要进行账户注册并登录,随后浏览平台上的数据集列表,查找与电力用户用能相关的数据集,仔细阅读数据集数据的时间范围、地理覆盖范围和数据格式,确定符合需求后选择数据集,将选择的数据集利用平台进行下载,再将下载的数据集进行清洗、转换和整合。
进一步,问卷调查表格如下:
利用公共数据集平台获取商业建筑和工业中的用能数据时需要进行用户注册账户并登录,再浏览平台上的数据集列表,查找与电力用户用能相关的数据的来源、格式、覆盖范围数据集信息,使用公共数据集时,务必遵守平台的使用条款以及任何相关的法规和规定,在使用公共数据集的研究或项目中,始终引用数据的来源,这有助于保持透明度,并为数据提供者带来应有的荣誉。
实施例二:
请参阅图1,一种基于自回归算法的电力用户用能稳定性分析方法,包括步骤S2、对收集到的数据依次进行时间对齐、特征提取、数据融合、处理缺失值、处理异常值、数据平滑、数据转换、处理重复值、不一致数据处理、日期和时间处理、数据合并和分类数据转换;
将不同源头的数据的时间序列对齐,并从每个源头的数据中提取电力消耗数据中的日均消耗和峰谷值,提取天气数据中的温度变化和湿度波动,同时将社会活动数据转换为活动指数或特定事件的标记,再将不同源头的数据的特征整合到一个数据集中作为模型的输入,然后检测并删除数据中的缺失值或用使用线性插值、多项式插值或基于时间的插值方法填充缺失值,或使用相邻时间点的平均值或中位数来填充缺失值,或使用时间序列数据建立预测模型,预测缺失值并进行填充,之后使用百分位数识别并移除超出预定阈值的数值,识别和处理异常值,这些值可能是由于错误记录、测量错误原因引起的,使用机器学习算法来检测异常值,并将异常值删除或修正,之后再将数据进行移动平均和中值滤波进行移动平均的数据平滑操作计算移动窗口内数据点的平均值,并使用指数加权的方法,根据过去的观测值赋予不同的权重,利用小波变换来去除高频噪音,同时保留低频趋势,随后将数据平滑后的数据进行对数转换、标准化和归一化转换,平滑操作有助于降低数据中的噪声,使其更易于理解和分析,再对转换后的数据进行检测并保留第一个出现的值或删除所有重复值,处理数据中的重复值,以避免对分析结果的不良影响,再然后统一类别标签的表示方式,确保数据格式的一致性和值的一致性,并提取数据集中的年份和日期转换为数值表示,最后将多个数据合并成一整个数据集,以便进行综合分析,并使用独热编码将数据集转化为数值形式,以便模型能够处理;
将不同的数据采集频率通过插值方法调整,对时间序列数据进行提取滞后特征和统计特征的特征工程作为支持向量机的输入特征。
实施例三:
请参阅图1、图2、图3、图4和图5,一种基于自回归算法的电力用户用能稳定性分析方法,包括步骤S3、选择自相关函数显示时间序列和其滞后版本之间的相关性,并利用偏自相关函数提供在移除之前滞后效应后两个时间点之间的关系,确定时间序列结构,随后选择赤池信息准则或贝叶斯信息准则值最小的模型,自相关函数显示了不同滞后阶数下用能数据的自相关系数,滞后阶数为1时,自相关系数较高,表明当前时点的用能与前一个时点相关较强。随着滞后阶数的增加,自相关系数逐渐减小,但仍存在周期性,偏自相关函数表示了在排除了之前滞后阶数的影响后,当前滞后阶数下用能数据的偏自相关系数,在滞后阶数为1时,偏自相关系数较高,表明前一个时点的用能对当前时点的影响较大。随着滞后阶数的增加,偏自相关系数迅速减小,趋于稳定,观察自相关函数和偏自相关函数图,通过截尾结构来确定最佳的自回归阶数;
选用Apache Spark大数据分布式计算框架处理数据,考虑时间序列数据的性质,并选用线性模型或非线性模型,再引入季节性和趋势项目,将数据集分为训练集和验证集,在训练集上拟合模型并在验证集上评估模型性能,将训练集和验证集的划分比例定义为80%训练集:20%验证集,使前80%的数据作为训练集,后20%的数据作为验证集,然后将划分为训练集和验证集的数据归一化;
赤池信息准则计算为:赤池信息准则=-2*ln(L)+2*k,L是似然函数值,k是模型参数数量,选择赤池信息准则值最小的模型;
贝叶斯信息准则计算为:贝叶斯信息准则=-2*ln(L)+k*ln(n),n是观测样本数,选择贝叶斯信息准则值最小的模型。
提取与电力用能的季节性、趋势和节假日特征,同时设计LSTM层、神经元数量和输出层构建LSTM模型,同时选用均方误差或平均绝对误差作为损失函数,并选择Adam或RMSprop作为优化器使用,同时配合使用均方根误差评估模型的性能。
步骤S4、将历史数据分成小块,通过数据并行处理的方式,同时在多个节点上进行模型训练,并使用HDFS分布式存储系统存储大规模的历史数据,再使用PyTorch分布式机器学习框架进行自回归模型的分布式训练,同时利用分布式调度系统进行任务管理和调度,并实时监控系统追踪训练过程中的性能和进度,随后对模型进行拟合并估计模型中的参数,然后利用分布式缓冲系统将模型参数和中间结果缓存在内存中,同时采用增量训练策略,每次迭代只使用部分数据更新模型参数,在每个训练批次后保存模型的当前状态,在下一次训练时,加载上次保存的模型状态,在每次迭代中,只使用新的数据进行训练,在训练过程中将LSTM层用于处理时间序列数据,使用训练集对LSTM模型进行训练,并监控模型在验证集上的性能,以及训练集和验证集上的损失变化,基于误差项的分设定似然函数,通过对似然函数取对数,将问题转化为最大化对数似然函数,对数似然函数的梯度用于梯度下降迭代方法来找到最优参数,时间序列数据y1,y2,...yn,对应的模型为yt=f(θ)+∈t,其中f(θ)是模型的预测部分,∈t是误差项,θ是模型参数,设定了似然函数L(θ|y1,y2,...yn)后,最大似然估计即求解以下优化问题:找到最大似然估计即得到模型的参数值,这些参数代表了在给定数据下,模型最有可能的配置。
进一步,利用分布式缓存系统,将模型参数和中间结果缓存在内存中,减少重复计算,提高训练速度,在训练开始之前,将模型的参数存储在分布式缓存系统中,通过将参数序列化并存储在缓存中的键值对中来实现,在每次模型参数更新时,同时更新分布式缓存系统中的相应参数,这确保了缓存中的参数是最新的,避免了使用过时的参数进行计算,对于一些中间计算结果,如果它们在多次迭代中是相同的,可以将结果存储在分布式缓存系统中,这样,下次需要相同计算结果时,可以直接从缓存中获取,避免重复计算,对于模型参数和中间计算结果,设定合理的缓存失效时间,可以防止使用过时的数据,同时避免缓存占用过多内存,尝试多个可能的模型结构和参数组合,比较它们的性能以选择最佳模型,准备时间序列数据,包括自变量和因变量,自变量可以是时间序列的滞后值,因变量是需要预测的目标值,同时对电力用户用能的时间序列数据进行处理缺失值、异常值和平滑数据,确保数据的稳定性和一致性,以提高模型的训练效果,使用线性插值、多项式插值或基于时间的插值方法填充缺失值,使用相邻时间点的平均值或中位数来填充缺失值,使用时间序列相关特征或时间序列数据建立预测模型,预测缺失值并进行填充,机器学习算法来检测和处理异常值,如何按照时间顺序划分训练集和验证集如下所示:import pandas as pd
#假设df是包含时间戳的数据框
df=pd.read_csv('your_power_data.csv')
#按时间排序
df=df.sort_values(by='timestamp')
#定义划分比例
train_ratio=0.8
#计算切割点
cut_point=int(len(df)*train_ratio)
#划分数据集
train_set=df.iloc[:cut_point]
validation_set=df.iloc[cut_point:]
#确认划分结果
print("训练集最早时间:",train_set['timestamp'].min())
print("训练集最晚时间:",train_set['timestamp'].max())
print("验证集最早时间:",validation_set['timestamp'].min())
print("验证集最晚时间:",validation_set['timestamp'].max())
将代码中的“your_power_data.csv”替换为实际的数据文件路径,假设数据框中有一个名为“timestamp”的列,包含时间戳信息;
导入必要的库:
import numpy as np
from keras.models import Sequential
from keras.layers import LSTM,Dense;
构建模型:
model=Sequential()
#添加LSTM层,可以考虑叠加多个LSTM层
model.add(LSTM(units=50,activation='relu',input_shape=(n_timesteps,n_features)))
#添加输出层
model.add(Dense(units=1))#1是输出的维度,根据具体问题调整
#编译模型
model.compile(optimizer='adam',loss='mean_squared_error')#根据问题选择适当的损失函数和优化器
在上面的代码中:
units参数表示LSTM层中的神经元数量,可以根据实验调整。
input_shape参数应该反映你的输入数据的形状,其中n_timesteps表示时间步数,n_features表示每个时间步的特征数。
进一步,LSTM模型训练如下所示:
model.fit(train_X,train_y,epochs=50,batch_size=32,validation_d ata=(val_X,val_y))
在上面的代码中:
train_X和val_X是训练集和验证集的输入数据。
train_y和val_y是对应的目标值。
调整epochs、batch_size参数,以达到合适的训练效果。
实施例四:
请参阅图1、图2、图3、图4和图5,一种基于自回归算法的电力用户用能稳定性分析方法,步骤S5、使用已训练的自回归模型对未来时间步的数据进行预测,得到自回归模型的输出和预测值,再将预测值作为新的特征输入到下一步的支持向量机模型中,随后收集并准备趋势项、季节性项和外部因素的时间序列相关特征,同时将预测值和时间序列相关特征合并创建为新数据集,再利用新数据集训练支持向量机模型;
使用均方根误差、平均绝对误差和平均绝对百分比误差性能指标,对整合模型进行评估,同时使用验证集进行实时验证,采用滚动预测的方法,逐步向前预测,评估模型在未来时间点上的预测效果,最后将训练好的模型部署到实际应用中,并监测模型的性能,均方根误差计算公式:
平均绝对误差计算公式:平均绝对百分比误差计算公式:/>
均方根误差计算公式、平均绝对误差计算公式和平均绝对百分比误差计算公式中,n是样本数量,yi是观察值,是相应的预测值,用于模型评估。
实施例五:
请参阅图1、图2、图3、图4和图5,一种基于自回归算法的电力用户用能稳定性分析方法,包括评估模型:
loss=model.evaluate(val_X,val_y)
print(f'Validation Loss:{loss}')
评估模型在验证集上的性能。
预测未来数据:
future_predictions=model.predict(future_X)
其中,future_X是包含未来时间步特征的输入数据。
进一步,用能分析表格如下:
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:包括数据收集,所述数据收集后需要对收集的数据进行数据处理,所述数据收集用于收集用能数据,所述数据处理用于对收集的数据进行预处理;
在所述数据收集时需要收集电力消耗数据、天气的温度、湿度和气压数据与社会活动数据,并对收集的数据设定时间戳,同时收集智能电表数据,并从能源管理系统监控和控制能源使用,并且通过调查和问卷调查和公共数据集的方式收集用户的用能信息,随后将收集的不同数据的时间序列对齐,从每个每个源头的数据中提取特征,最后将提取的特征整合到一个数据集中作为模型的输入。
2.根据权利要求1所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述电力用户用能稳定性分析方法如下:
步骤S1、收集电力消耗数据、天气的温度、湿度和气压数据与社会活动的节假日和人口流动数据,通过智能电表的度数或实时数据接口获取每15min的电力使用情况,对于大型工商业用户使用能源管理系统监控能源消耗,并通过系统接口导出历史用电记录提供用能数据,给小型用户发放问卷调查,收集用户填写后的问卷获得用能信息;
在商业建筑中安装智能电表盒分项计量仪、空调和照明传感器与电梯检测系统,并在工业中安装生产设备传感器、能耗监测系统、智能照明系统和电动车充电桩传感器,并利用公共数据集平台获取商业建筑和工业中的用能数据;
步骤S2、对收集到的数据依次进行时间对齐、特征提取、数据融合、处理缺失值、处理异常值、数据平滑、数据转换、处理重复值、不一致数据处理、日期和时间处理、数据合并和分类数据转换。
3.根据权利要求2所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述电力用户用能稳定性分析方法还包括:
步骤S3、选择自相关函数显示时间序列和其滞后版本之间的相关性,并利用偏自相关函数提供在移除之前滞后效应后两个时间点之间的关系,确定时间序列结构,随后选择赤池信息准则或贝叶斯信息准则值最小的模型;
选用Apache Spark大数据分布式计算框架处理数据,并选用线性模型或非线性模型,再引入季节性和趋势项目,将数据集分为训练集和验证集,在训练集上拟合模型并在验证集上评估模型性能;
提取与电力用能的季节性、趋势和节假日特征,同时设计LSTM层、神经元数量和输出层构建LSTM模型,同时选用均方误差或平均绝对误差作为损失函数,并选择Adam或RMSprop作为优化器使用,同时配合使用均方根误差评估模型的性能。
4.根据权利要求3所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述电力用户用能稳定性分析方法还包括:
步骤S4、将历史数据分成小块,通过数据并行处理的方式,同时在多个节点上进行模型训练,并使用HDFS分布式存储系统存储大规模的历史数据,再使用PyTorch分布式机器学习框架进行自回归模型的分布式训练,同时利用分布式调度系统进行任务管理和调度,并实时监控系统追踪训练过程中的性能和进度,随后对模型进行拟合并估计模型中的参数,然后利用分布式缓冲系统将模型参数和中间结果缓存在内存中,同时采用增量训练策略,每次迭代只使用部分数据更新模型参数,在每个训练批次后保存模型的当前状态,在下一次训练时,加载上次保存的模型状态,在每次迭代中,只使用新的数据进行训练,在训练过程中将LSTM层用于处理时间序列数据,使用训练集对LSTM模型进行训练,并监控模型在验证集上的性能,以及训练集和验证集上的损失变化。
5.根据权利要求4所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述电力用户用能稳定性分析方法还包括:
步骤S5、使用已训练的自回归模型对未来时间步的数据进行预测,得到自回归模型的输出和预测值,再将预测值作为新的特征输入到下一步的支持向量机模型中,随后收集并准备趋势项、季节性项和外部因素的时间序列相关特征,同时将预测值和时间序列相关特征合并创建为新数据集,再利用新数据集训练支持向量机模型;
使用均方根误差、平均绝对误差和平均绝对百分比误差性能指标,对整合模型进行评估,同时使用验证集进行实时验证,采用滚动预测的方法,逐步向前预测,评估模型在未来时间点上的预测效果,最后将训练好的模型部署到实际应用中,并监测模型的性能;
步骤S6、使用经过训练和验证的自回归模型,输入模型的多源、多模态的融合数据,进行未来一段时间内的用能情况预测,然后对模型预测结果进行趋势分析,识别用能的季节性波动和周期性波动趋势,同时利用模型预测结果和实际观测数据,识别突然的用能增加或减少,与预测不一致的数据点,同时分析模型对用能稳定性的预测结果,解释这些结果背后的用户行为,最后比较模型的预测结果与实际观测数据,评估模型的准确性、灵敏度和特异性,并将用能稳定分析的结果以曲线图、柱状图和表格方式呈现。
6.根据权利要求2所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述步骤S1中,还包括如下步骤:
步骤S11、利用公共数据集平台获取商业建筑和工业中的用能数据时需要进行账户注册并登录,随后浏览平台上的数据集列表,查找与电力用户用能相关的数据集,仔细阅读数据集数据的时间范围、地理覆盖范围和数据格式,确定符合需求后选择数据集,将选择的数据集利用平台进行下载,再将下载的数据集进行清洗、转换和整合。
7.根据权利要求4所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述步骤S2和S3中,还包括如下步骤:
步骤S21、将不同源头的数据的时间序列对齐,并从每个源头的数据中提取电力消耗数据中的日均消耗和峰谷值,提取天气数据中的温度变化和湿度波动,同时将社会活动数据转换为活动指数或特定事件的标记,再将不同源头的数据的特征整合到一个数据集中作为模型的输入,然后检测并删除数据中的缺失值或用使用线性插值、多项式插值或基于时间的插值方法填充缺失值,或使用相邻时间点的平均值或中位数来填充缺失值,或使用时间序列数据建立预测模型,预测缺失值并进行填充,之后使用百分位数识别并移除超出预定阈值的数值,使用机器学习算法来检测异常值,并将异常值删除或修正,之后再将数据进行移动平均和中值滤波进行移动平均的数据平滑操作计算移动窗口内数据点的平均值,并使用指数加权的方法,根据过去的观测值赋予不同的权重,利用小波变换来去除高频噪音,同时保留低频趋势,随后将数据平滑后的数据进行对数转换、标准化和归一化转换,再对转换后的数据进行检测并保留第一个出现的值或删除所有重复值,再然后统一类别标签的表示方式,并提取数据集中的年份和日期转换为数值表示,最后将多个数据合并成一整个数据集,并使用独热编码将数据集转化为数值形式;
步骤S22、将不同的数据采集频率通过插值方法调整,对时间序列数据进行提取滞后特征和统计特征的特征工程作为支持向量机的输入特征;
步骤S31、自相关函数显示了不同滞后阶数下用能数据的自相关系数,偏自相关函数表示了在排除了之前滞后阶数的影响后,当前滞后阶数下用能数据的偏自相关系数;
赤池信息准则计算为:赤池信息准则=-2*ln(L)+2*k,贝叶斯信息准则计算为:贝叶斯信息准则=-2*ln(L)+k*ln(n);
步骤S32、将训练集和验证集的划分比例定义为80%训练集:20%验证集,使前80%的数据作为训练集,后20%的数据作为验证集,然后将划分为训练集和验证集的数据归一化。
8.根据权利要求5所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述步骤S4中,还包括如下步骤:
步骤S41、基于误差项的分设定似然函数,通过对似然函数取对数,将问题转化为最大化对数似然函数,对数似然函数的梯度用于梯度下降迭代方法来找到最优参数,时间序列数据y1,y2,...yn,对应的模型为yt=f(θ)+∈t,其中f(θ)是模型的预测部分,∈t是误差项,θ是模型参数,设定了似然函数L(θ|y1,y2,...yn)后,最大似然估计即求解以下优化问题:找到最大似然估计即得到模型的参数值。
9.根据权利要求5所述的一种基于自回归算法的电力用户用能稳定性分析方法,其特征在于:所述步骤S5中,还包括如下步骤:
步骤S51、均方根误差计算公式:
平均绝对误差计算公式:
平均绝对百分比误差计算公式:
均方根误差计算公式、平均绝对误差计算公式和平均绝对百分比误差计算公式中,n是样本数量,yi是观察值,是相应的预测值,用于模型评估。
CN202311681285.5A 2023-12-08 2023-12-08 一种基于自回归算法的电力用户用能稳定性分析方法 Pending CN117633710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311681285.5A CN117633710A (zh) 2023-12-08 2023-12-08 一种基于自回归算法的电力用户用能稳定性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311681285.5A CN117633710A (zh) 2023-12-08 2023-12-08 一种基于自回归算法的电力用户用能稳定性分析方法

Publications (1)

Publication Number Publication Date
CN117633710A true CN117633710A (zh) 2024-03-01

Family

ID=90019819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311681285.5A Pending CN117633710A (zh) 2023-12-08 2023-12-08 一种基于自回归算法的电力用户用能稳定性分析方法

Country Status (1)

Country Link
CN (1) CN117633710A (zh)

Similar Documents

Publication Publication Date Title
CN110610280B (zh) 一种电力负荷短期预测方法、模型、装置及系统
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN112001439A (zh) 基于gbdt的商场建筑空调冷负荷预测方法、存储介质及设备
CN103853106A (zh) 一种建筑能源供应设备的能耗预测参数优化方法
KR102518629B1 (ko) Cnn을 이용한 전력수요 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
CN109376906B (zh) 基于多维度轨迹的出行时间预测方法、系统及电子设备
CN105760970A (zh) 空气质量指数的预测方法
Liu et al. Heating load forecasting for combined heat and power plants via strand-based LSTM
CN117132135B (zh) 基于数字孪生的城市信息化管理系统及方法
CN113837488B (zh) 能源消耗数据预测方法、系统、设备
CN117172509B (zh) 基于装修施工进度分析的施工项目分配系统
CN115542429A (zh) 一种基于XGBoost的臭氧质量预测方法及系统
CN116597939A (zh) 基于大数据的药品质量控制管理分析系统及方法
CN117113159A (zh) 基于深度学习的电力用户侧负荷分类方法及系统
CN117391674A (zh) 一种基于可靠性的电气设备预防性维修优化方法及装置
CN114611764A (zh) 一种特定区域内企业工业用水异常监测预警方法
CN117829318A (zh) 一种基于大模型算法的数字孪生系统
CN117290685A (zh) 一种基于历史数据的电厂电力设备专家诊断系统及方法
Bond et al. A hybrid learning approach to prognostics and health management applied to military ground vehicles using time-series and maintenance event data
CN117633710A (zh) 一种基于自回归算法的电力用户用能稳定性分析方法
CN111368257B (zh) 煤改电负荷特性的分析预测方法及装置
Kumar et al. Energy Consumption in Smart Buildings using Machine Learning
CN118228897B (zh) 一种基于ceemdan-se-tcn-gru模型的电力负荷预测方法
CN118300104B (zh) 基于图神经网络的分布式光伏功率预测方法、系统、电子设备及存储介质
CN118094380B (zh) 一种基于大数据分析的高压氧疗装置使用优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination