CN113947023A - 一种重过载台区数量确定方法、装置、设备和介质 - Google Patents

一种重过载台区数量确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN113947023A
CN113947023A CN202111228674.3A CN202111228674A CN113947023A CN 113947023 A CN113947023 A CN 113947023A CN 202111228674 A CN202111228674 A CN 202111228674A CN 113947023 A CN113947023 A CN 113947023A
Authority
CN
China
Prior art keywords
data
decision tree
historical
tree model
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111228674.3A
Other languages
English (en)
Inventor
洪海生
刘哲
王伟超
童锐
林茵茵
黄锦增
李茜莹
陈永淑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202111228674.3A priority Critical patent/CN113947023A/zh
Publication of CN113947023A publication Critical patent/CN113947023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种重过载台区数量确定方法、装置、设备和介质,方法包括:获取历史用电数据;对历史用电数据执行数据预处理操作,得到多组历史特征数据;响应用户输入的数量确定请求,构建初始决策树模型并采用多组历史特征数据对初始决策树模型进行训练,得到目标决策树模型;当接收到当前用电数据时,对当前用电数据执行数据预处理操作,得到多个当前特征数据;将当前特征数据输入目标决策树模型,生成重过载台区的数量确定结果,从而灵活准确地实现对单日重过载台区的多步预测。

Description

一种重过载台区数量确定方法、装置、设备和介质
技术领域
本发明涉及重过载台区预测技术领域,尤其涉及一种重过载台区数量确定方法、装置、设备和介质。
背景技术
随着社会对供电可靠性以及供电服务要求的提高,人们对于日常用电的需求越来越多,随之而来的可能会导致单日重过载台区的数量不断增加,此时需要运维人员进行快速反应和迅速的维护。
而目前主流的重过载台区数量确定技术手段大多基于机器学习算法,例如基于随机森林算法(Random Forest)、支持向量机(Support vector machine,SVM)的投诉预测、人工神经网络(Artificial Neural Network,ANN)的回归预测模型或时间序列预测模型,当前研究的包含数据预处理、特征变量处理、在用电特征与单日重过载台区数量之间建立机器学习模型等步骤。
当上述方法由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测。
发明内容
本发明提供了一种重过载台区数量确定方法、装置、设备和介质,解决了由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测的技术问题。
本发明第一方面提供的一种重过载台区数量确定方法,包括:
获取历史用电数据;
对所述历史用电数据执行数据预处理操作,得到多组历史特征数据;
响应用户输入的数量确定请求,构建初始决策树模型并采用多组所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型;
当接收到当前用电数据时,对所述当前用电数据执行所述数据预处理操作,得到多个当前特征数据;
将所述当前特征数据输入所述目标决策树模型,生成重过载台区的数量确定结果。
可选地,所述历史用电数据包括多种不同类型的待处理用电数据;所述对所述历史用电数据执行数据预处理操作,得到多组历史特征数据的步骤,包括:
遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值;
按照各个所述正常限值分别对各种所述待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
采用预设的延迟时间窗和预设的滚动时间窗分别对所述多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
按照时间顺序排列所述多个延迟特征和所述多个滚动特征,得到历史特征数据。
可选地,所述数据限值包括最大上限值和最小下限值,所述四分位数包括第一四分位数和第二四分位数;所述遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值的步骤,包括:
遍历各种所述待处理用电数据;
计算各种所述待处理用电数据分别对应的所述第一四分位数与所述第二四分位数之间的间距差值;
计算各个所述间距差值的绝对值与预设的间距倍数的间距乘值;
计算所述第一四分位数与所述间距乘值的和值,采用所述和值作为所述最大上限值;
计算所述第二四分位数与所述间距乘值的差值,采用所述差值作为所述最小下限值。
可选地,所述历史特征数据设有对应的实际数量结果;所述响应用户输入的数量确定请求,构建初始决策树模型并采用所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型的步骤,包括:
响应用户输入的数量确定请求,提取所述数量确定请求包含的确定天数并创建与所述确定天数相等个数的初始决策树模型;
按照时间序列滑窗对多组所述历史特征数据进行划分,得到训练数据和测试数据;
采用所述训练数据训练各个所述初始决策树模型,得到多个中间决策树模型;
将所述测试数据依次输入至各个所述中间决策树模型,得到多个预测数量结果;
根据所述预测数量结果与所述实际数量结果,确定各个所述中间决策树模型的均方根误差;
比较所述均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型。
可选地,所述比较所述均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型的步骤,包括:
比较所述均方根误差与预设的误差阈值;
若所述均方根误差小于或等于所述误差阈值,将当前时刻的所述中间决策树模型确定为目标决策树模型;
若所述均方根误差大于所述误差阈值,按照预设的调整梯度调整所述中间决策树模型的模型参数,跳转执行所述将所述测试数据依次输入至各个所述中间决策树模型,得到多个预测数量结果的步骤。
可选地,在所述响应用户输入的数量确定请求,提取所述数量确定请求包含的确定天数并创建与所述确定天数相等个数的初始决策树模型的步骤之后,所述方法还包括:
解析所述初始决策树模型,确定每个所述历史特征数据的属性划分次数;
按照所述属性划分次数从高至低对所述历史特征数据进行排序,得到历史特征数据序列;
从所述历史特征数据序列中从低至高删除预设数量的历史特征数据后,将所述历史特征数据序列中剩余的历史特征数据确定为新的历史特征数据。
本发明第二方面提供了一种重过载台区数量确定装置,包括:
历史用电数据获取模块,用于获取历史用电数据;
历史用电数据预处理模块,用于对所述历史用电数据执行数据预处理操作,得到多组历史特征数据;
模型训练模块,用于响应用户输入的数量确定请求,构建初始决策树模型并采用多组所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型;
当前特征提取模块,用于当接收到当前用电数据时,对所述当前用电数据执行所述数据预处理操作,得到多个当前特征数据;
数量确定模块,用于将所述当前特征数据输入所述目标决策树模型,生成重过载台区的数量确定结果。
可选地,所述历史用电数据包括多种不同类型的待处理用电数据;所述历史用电数据预处理模块,包括:
数据限值确定子模块,用于遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值;
筛选与编码子模块,用于按照各个所述正常限值分别对各种所述待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
特征提取子模块,用于采用预设的延迟时间窗和预设的滚动时间窗分别对所述多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
特征排列子模块,用于按照时间顺序排列所述多个延迟特征和所述多个滚动特征,得到历史特征数据。
本发明第三方面提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明第一方面任一项所述的重过载台区数量确定方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如本发明第一方面任一项所述的重过载台区数量确定方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过获取历史用电数据,并对历史用电数据执行数据预处理操作后,得到多组历史特征数据,再响应用户输入的数量确定请求,构架与数量确定请求所携带的天数相等的初始决策树模型,并采用历史特征数据对初始决策树模型进行进一步的训练,得到目标决策树模型;最后当接收当前用电数据时,对当前用电数据执行数据预处理操作,以提取得到对应的当前特征数据,将当前特征数据输入到目标决策树模型,生成重过载台区的数量确定结果。从而解决由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种重过载台区数量确定方法的步骤流程图;
图2为本发明实施例二提供的一种重过载台区数量确定方法的步骤流程图;
图3为本发明实施例的一种数据限值确定示意图;
图4为本发明实施例的一种延迟特征lag和滚动特征rolling计算示意图;
图5为本发明实施例中的时间序列滑窗法的示意图;
图6为本发明实施例三提供的一种重过载台区数量确定装置的结构框图。
具体实施方式
本发明实施例提供了一种重过载台区数量确定方法、装置、设备和介质,用于解决由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种重过载台区数量确定方法的步骤流程图。
本发明提供的一种重过载台区数量确定方法,包括以下步骤:
步骤101,获取历史用电数据;
历史用电数据指的是在过去一定时段中,各个用户或台区的用电相关参数所构成的数据,其中包括但不限于天气类型、日最高温、日最低温;近两年每日的供电类投诉数量、低压故障次数、越限次数、单日重过载台区数量等。
在本发明实施例中,为获取到预测重过载台区数量的数据基础,可以通过从各个台区、地区或用户的用电终端,以获取到历史用电数据。
步骤102,对历史用电数据执行数据预处理操作,得到多组历史特征数据;
在获取到历史用电数据后,由于历史用电数据可能包括字符型数据、异常数据或不含意义的数据,此时可以对历史用电数据执行数据预处理操作,以剔除历史用电数据中的各种异常值,保留代表性的数据样本,也就得到了多组历史特征数据。
需要说明的是,数据预处理操作可以包括但不限于异常值剔除操作、编码操作、延迟和滚动变量生成操作等。
步骤103,响应用户输入的数量确定请求,构建初始决策树模型并采用多组历史特征数据对初始决策树模型进行训练,得到目标决策树模型;
在得到多组历史特征数据后,此时可以响应用户输入数量确定请求,以确定所需要确定重过载台区数量的天数,按照天数分别构建初始决策树模型。
在构建初始决策树模型后,分别采用多组历史特征数据对初始决策树模型进行训练,以得到目标决策树模型。
步骤104,当接收到当前用电数据时,对当前用电数据执行数据预处理操作,得到多个当前特征数据;
在本发明实施例中,当训练完成得到目标决策树模型后,此时若是接收到当前用电数据,可以按照步骤102中的数据预处理操作对当前用电数据进行一步特征提取,以得到多个当前特征数据。
步骤105,将当前特征数据输入目标决策树模型,生成重过载台区的数量确定结果。
在具体实现中,在获取到多个当前特征数据后,可以将当前特征数据输入至训练好的目标决策树模型,通过目标决策树模型基于当前特征数据进行进一步的数量预测,从而生成重过载台区的数量确定结果。
在本发明实施例中,通过获取历史用电数据,并对历史用电数据执行数据预处理操作后,得到多组历史特征数据,再响应用户输入的数量确定请求,构架与数量确定请求所携带的天数相等的初始决策树模型,并采用历史特征数据对初始决策树模型进行进一步的训练,得到目标决策树模型;最后当接收当前用电数据时,对当前用电数据执行数据预处理操作,以提取得到对应的当前特征数据,将当前特征数据输入到目标决策树模型,生成重过载台区的数量确定结果。从而解决由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测的技术问题。
请参阅图2,图2为本发明实施例二提供的一种重过载台区数量确定方法的步骤流程图。
本发明提供的一种重过载台区数量确定方法,包括以下步骤:
步骤201,获取历史用电数据;
历史用电数据指的是在过去一定时段中,各个用户或台区的用电相关参数所构成的数据,其中包括但不限于天气类型、日最高温、日最低温;近两年每日的供电类投诉数量、低压故障次数、越限次数、单日重过载台区数量等。
在本发明实施例中,为获取到预测重过载台区数量的数据基础,可以通过从各个台区、地区或用户的用电终端,以获取到历史用电数据。
步骤202,对历史用电数据执行数据预处理操作,得到多组历史特征数据;历史特征数据设有对应的实际数量结果;
可选地,历史用电数据包括多种不同类型的待处理用电数据,步骤202可以包括以下子步骤S11-S14:
S11、遍历各种待处理用电数据,基于各种待处理用电数据分别对应的四分位数,分别确定各种待处理用电数据对应的数据限值;
进一步地,数据限值包括最大上限值和最小下限值,四分位数包括第一四分位数和第二四分位数,步骤S11可以包括以下子步骤:
遍历各种待处理用电数据;
计算各种待处理用电数据分别对应的第一四分位数与第二四分位数之间的间距差值;
计算各个间距差值的绝对值与预设的间距倍数的间距乘值;
计算第一四分位数与间距乘值的和值,采用和值作为最大上限值;
计算第二四分位数与间距乘值的差值,采用差值作为最小下限值。
在本发明实施例中,待处理用电数据可以包括多种,例如天气类型、日最高温、日最低温、每日的单日重过载台区数量、低压故障次数、越限次数等。在获取到不同种类的待处理用电数据后,可以先遍历各种待处理用电数据,计算各种待处理用电数据分别对应的第一四分位数与第二四分位数之间的间距差值;计算各个间距差值的绝对值与预设的间距倍数的间距乘值;计算第一四分位数与间距乘值的和值,采用和值作为最大上限值;计算第二四分位数与间距乘值的差值,采用差值作为最大上限值。
请参阅图3,图3示出了本发明实施例的一种数据限值确定示意图。
在具体实现中,数据限值可以通过箱型图的形式进行表示,待处理用电数据的中位数位于箱形图的中心位置,箱子的长度表示四分位数的间距(IQR),箱两端分别是第一四分位数(Q3)和第二四分位数(Q1),箱两端的须为最大上限值和最小下限值。
需要说明的是,间距倍数可以设置为1.5,此时最大上限值为Q3+1.5IQR,最小下限值为Q1-1.5IQR,也就是异常值为大于Q3+1.5IQR和小于Q1-1.5IQR。
S12、按照各个正常限值分别对各种待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
在本发明实施例中,在获取到各个正常限值后,也就是最大上限值和最小下限值后,可以采用正常限值对各种待处理用电数据进行筛选,以得到正常的用电数据。但由于数据模型无法识别字符型的数据,此时可以将其中的字符型变量进行编码转换,从而得到多个中间用电数据。
以天气类型为例,具体编码转换的规则可以参见下表1:
序号 天气类型 编码
1 阵雨、雷阵雨 0
2 多云、阴天 1
3 小雨、小到中雨、中雨、中到大雨 2
4 大雨、暴雨 3
5 4
表1
S13、采用预设的延迟时间窗和预设的滚动时间窗分别对多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
在本发明实施例中,可以分别采用预设的延迟时间窗和预设的滚动时间窗对多个中间用电数据进行数据划分,具体地通过延迟时间窗选取在预测目目标日期之前的多个中间用电数据作为延迟特征;同时通过滚动时间窗计算相邻三个中间用电数据之间的平均值,以此作为滚动特征。
请参阅图4,图4示出了本发明实施例的一种延迟特征lag和滚动特征rolling的计算示意图。
在本发明的一个示例中,以设置7月10日单日重过载台区量作为预测目标时,选取历史上过去7天的单日重过载台区数量作为输入特征,即选取7月3日至7月9日单日重过载台区数量作为单日重过载台区数量,命名为Lag-1至Lag-7输入变量。同时对7月9日、8日、7日的单日重过载台区数量进行求平均,得出roll-1变量,以此类推。
S14、按照时间顺序排列多个延迟特征和多个滚动特征,得到历史特征数据。
在本发明实施例中,在获取到多个延迟特征和多个滚动特征后,可以按照时间顺序排列多个延迟特征和多个滚动特征,得到历史特征数据。
历史特征数据具体可以以下表2的形式表示:
Figure BDA0003315187070000101
Figure BDA0003315187070000111
表2
步骤203,响应用户输入的数量确定请求,提取数量确定请求包含的确定天数并创建与确定天数相等个数的初始决策树模型;
在本发明实施例中,可以通过响应用户输入的数量确定请求,从数量确定请求中提取所包含的确定天数,并创建与确定天数相等个数的初始决策树模型。
在具体实现中,例如t为当前日期,预测未来两天的单日重过载台区数量,即预测目标步长为2,该策略需要2个初始决策树模型,此时各个初始决策模型的表达式如下公式1、2所示:
prediction(t+1)=model1(x(t),x(t-1),...,x(t-n)) (1)
prediction(t+2)=model2(x(t),x(t-1),...,x(t-n)) (2)
在本发明的另一个示例中,在步骤203之后,方法还包括以下步骤S21-S23:
S21、解析初始决策树模型,确定每个历史特征数据的属性划分次数;
S22、按照属性划分次数从高至低对历史特征数据进行排序,得到历史特征数据序列;
S23、从历史特征数据序列中从低至高删除预设数量的历史特征数据后,将历史特征数据序列中剩余的历史特征数据确定为新的历史特征数据。
在本发明实施例中,在创建初始决策树模型后,可以对初始决策树模型进行解析,以确定每组历史特征数据的属性划分次数,再根据属性划分次数从低至高删除预设数量的历史特征数据,将剩余的历史特征数据确定为新的历史特征数据,从而达到精简特征的目的,进一步提升运行速度。
可选地,还可以通过计算各组历史特征数据在初始决策树模型中的划分增益,基于各个划分增益对各组历史特征数据进行筛选,从而筛选得到特征重要性高的历史特征数据。
步骤204,按照时间序列滑窗对多组历史特征数据进行划分,得到训练数据和测试数据;
请参阅图5,图5示出了本发明实施例中的时间序列滑窗法的示意图。
在本发明实施例中,为了增强模型的泛化能力,避免数据信息泄露,可以通过时间序列滑窗对多组历史特征数据进行划分,通过划分数据集进行交叉验证,进一步避免模型出现过拟合的问题,从而得到训练数据和测试数据。
如图5所示,其中包括多组历史特征数据Dataset1、Dataset2和Dataset3,按照不同的时间t1、t2和t3分别划分各组历史特征数据,以得到训练数据和测试数据。其中,t1<t2<t3。
步骤205,采用训练数据训练各个初始决策树模型,得到多个中间决策树模型;
在本发明实施例中,训练过程可以通过选取LightGBM模型算法进行训练。LightGBM是微软近年提出的一种基于GBDT(Gradient Boosting Decision Tree)模型算法,主要用于解决GDBT在海量数据中遇到的问题,以便其可以更好更快地用于工业实践中,目前在工业界得到广泛应用。该算法采用Leaf-wise生长策略的决策树作为基分类器构建高效的集成学习框架,引入直方图算法对原始数据进行离散化以增强对噪声的鲁棒性。
在本发明实施例中,每次通过迭代获得一个弱学习器h(x),使得迭代的损失函数L(y,Ft(x))最小。
L(y,Ft(x))=L(y,Ft-1(x)+ht(x))
式中,x为训练样本,y为训练样本对应的预测目标实际数值,Ft-1(x)和L(y,Ft(x))分别为上一次迭代获得的强学习器和损失函数。
以第i个样本为例,利用下式的负梯度拟合本次迭代残差值rti
Figure BDA0003315187070000121
式中,xi为第i个训练样本,yi为第i训练样本对应的预测目标实际数值,Ft-1(x)为上一次迭代获得的强学习器。
使用平方差近似拟合弱学习器ht(x),使得损失函数极小化:
ht(x)=arg min∑(rti-h(x))2
更新本次迭代获得的强学习器Ft(x)如式
Ft(x)=ht(x)+Ft-1(x)
上述式式子中,LightGBM的提升树模型在每次加入新的弱学习器后,保证损失函数不断朝着下降的方向进行优化,即L(y,Ft(x))<L(y,Ft-1(x))。L(y,Ft(x))、L(y,Ft-1(x))分别为第t次和第t-1次迭代的损失函数值。Ft(x)和Ft-1(x)为第t次和第t-1次样本对应的预测值,y为样本对应的实际数值。
步骤206,将测试数据依次输入至各个中间决策树模型,得到多个预测数量结果;
在本发明实施例中,将测试数据依次输入至各个初始决策树模型,得到多个预测数量结果,以得到验证各个中间决策树模型的模型性能的数据基础。
步骤207,根据预测数量结果与实际数量结果,确定各个中间决策树模型的均方根误差;
在本发明实施例中,得到预测数量结果和各个测试数据对应的实际数量结果后,采用上述结果结合测试数据的数量确定各个中间决策树模型对应的均方根误差。
在具体实现中,均方根误差(Root-Mean-Square Error,RMSE)可以通过以下公式进行计算:
Figure BDA0003315187070000131
式中,yi表示第i个测试数据对应的实际数量结果,
Figure BDA0003315187070000132
表示第i个测试数据对应的预测数量结果,n表示测试数据的数量。
步骤208,比较均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型;
可选地,步骤208可以包括以下子步骤:
比较均方根误差与预设的误差阈值;
若均方根误差小于或等于误差阈值,将当前时刻的中间决策树模型确定为目标决策树模型;
若均方根误差大于误差阈值,按照预设的调整梯度调整中间决策树模型的模型参数,跳转执行将测试数据依次输入至各个中间决策树模型,得到多个预测数量结果的步骤。
在本发明实施例中,在获取到各个中间决策树模型对应的均方根误差后,可以通过比较均方根误差和预设的误差阈值,若是若均方根误差小于或等于误差阈值,将当前时刻的中间决策树模型确定为目标决策树模型;若均方根误差大于误差阈值,按照预设的调整梯度调整中间决策树模型的模型参数,跳转执行步骤206,再次采用训练数据进行模型数量。
其中,模型参数选取可以如表3所示:
Figure BDA0003315187070000141
表3
步骤209,当接收到当前用电数据时,对当前用电数据执行数据预处理操作,得到多个当前特征数据;
在本发明实施例中,当训练完成得到目标决策树模型后,此时若是接收到当前用电数据,可以按照步骤202中的数据预处理操作对当前用电数据进行一步特征提取,以得到多个当前特征数据。
步骤210,将当前特征数据输入目标决策树模型,生成重过载台区的数量确定结果。
在具体实现中,在获取到多个当前特征数据后,可以将当前特征数据输入至训练好的目标决策树模型,通过目标决策树模型基于当前特征数据进行进一步的数量预测,从而生成重过载台区的数量确定结果。
在本发明实施例中,通过获取历史用电数据,并对历史用电数据执行数据预处理操作后,得到多组历史特征数据,再响应用户输入的数量确定请求,构架与数量确定请求所携带的天数相等的初始决策树模型,并采用历史特征数据对初始决策树模型进行进一步的训练,得到目标决策树模型;最后当接收当前用电数据时,对当前用电数据执行数据预处理操作,以提取得到对应的当前特征数据,将当前特征数据输入到目标决策树模型,生成重过载台区的数量确定结果。从而解决由于单日重过载台区与天气条件、低压跳闸故障、用电负荷趋势等多种因素有着密切的关系,随机性较强,传统的预测方法受限于特征变量的选取,主要是集中在短期的重过载台区数量确定分析,难以灵活准确地实现对重过载台区的多步预测的技术问题。
请参阅图6,图6为本发明实施例三提供的一种重过载台区数量确定装置的结构框图。
本发明实施例提供了一种重过载台区数量确定装置,包括:
历史用电数据获取模块601,用于获取历史用电数据;
历史用电数据预处理模块602,用于对历史用电数据执行数据预处理操作,得到多组历史特征数据;
模型训练模块603,用于响应用户输入的数量确定请求,构建初始决策树模型并采用多组历史特征数据对初始决策树模型进行训练,得到目标决策树模型;
当前特征提取模块604,用于当接收到当前用电数据时,对当前用电数据执行数据预处理操作,得到多个当前特征数据;
数量确定模块605,用于将当前特征数据输入目标决策树模型,生成重过载台区的数量确定结果。
可选地,历史用电数据包括多种不同类型的待处理用电数据;历史用电数据预处理模块602,包括:
数据限值确定子模块,用于遍历各种待处理用电数据,基于各种待处理用电数据分别对应的四分位数,分别确定各种待处理用电数据对应的数据限值;
筛选与编码子模块,用于按照各个正常限值分别对各种待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
特征提取子模块,用于采用预设的延迟时间窗和预设的滚动时间窗分别对多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
特征排列子模块,用于按照时间顺序排列多个延迟特征和多个滚动特征,得到历史特征数据。
可选地,数据限值包括最大上限值和最小下限值,四分位数包括第一四分位数和第二四分位数;数据限值确定子模块具体用于:
遍历各种待处理用电数据;
计算各种待处理用电数据分别对应的第一四分位数与第二四分位数之间的间距差值;
计算各个间距差值的绝对值与预设的间距倍数的间距乘值;
计算第一四分位数与间距乘值的和值,采用和值作为最大上限值;
计算第二四分位数与间距乘值的差值,采用差值作为最小下限值。
可选地,历史特征数据设有对应的实际数量结果;模型训练模块603包括:
初始决策树模型构建子模块,用于响应用户输入的数量确定请求,提取数量确定请求包含的确定天数并创建与确定天数相等个数的初始决策树模型;
数据划分子模块,用于按照时间序列滑窗对多组历史特征数据进行划分,得到训练数据和测试数据;
模型训练子模块,用于采用训练数据训练各个初始决策树模型,得到多个中间决策树模型;
预测数量结果生成子模块,用于将测试数据依次输入至各个中间决策树模型,得到多个预测数量结果;
均方根误差计算子模块,用于根据预测数量结果与实际数量结果,确定各个中间决策树模型的均方根误差;
目标决策模型确定子模块,用于比较均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型。
可选地,目标决策模型确定子模块具体用于:
比较均方根误差与预设的误差阈值;
若均方根误差小于或等于误差阈值,将当前时刻的中间决策树模型确定为目标决策树模型;
若均方根误差大于误差阈值,按照预设的调整梯度调整中间决策树模型的模型参数,跳转执行将测试数据依次输入至各个中间决策树模型,得到多个预测数量结果的步骤。
可选地,模型训练模块603还包括:
属性划分次数确定子模块,用于解析初始决策树模型,确定每个历史特征数据的属性划分次数;
历史特征数据排序子模块,用于按照属性划分次数从高至低对历史特征数据进行排序,得到历史特征数据序列;
历史特征数据更新子模块,用于从历史特征数据序列中从低至高删除预设数量的历史特征数据后,将历史特征数据序列中剩余的历史特征数据确定为新的历史特征数据。
本发明实施例提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明任一实施例所述的重过载台区数量确定方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如本发明任一实施例所述的重过载台区数量确定方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、模块和子模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种重过载台区数量确定方法,其特征在于,包括:
获取历史用电数据;
对所述历史用电数据执行数据预处理操作,得到多组历史特征数据;
响应用户输入的数量确定请求,构建初始决策树模型并采用多组所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型;
当接收到当前用电数据时,对所述当前用电数据执行所述数据预处理操作,得到多个当前特征数据;
将所述当前特征数据输入所述目标决策树模型,生成重过载台区的数量确定结果。
2.根据权利要求1所述的方法,其特征在于,所述历史用电数据包括多种不同类型的待处理用电数据;所述对所述历史用电数据执行数据预处理操作,得到多组历史特征数据的步骤,包括:
遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值;
按照各个所述正常限值分别对各种所述待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
采用预设的延迟时间窗和预设的滚动时间窗分别对所述多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
按照时间顺序排列所述多个延迟特征和所述多个滚动特征,得到历史特征数据。
3.根据权利要求2所述的方法,其特征在于,所述数据限值包括最大上限值和最小下限值,所述四分位数包括第一四分位数和第二四分位数;所述遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值的步骤,包括:
遍历各种所述待处理用电数据;
计算各种所述待处理用电数据分别对应的所述第一四分位数与所述第二四分位数之间的间距差值;
计算各个所述间距差值的绝对值与预设的间距倍数的间距乘值;
计算所述第一四分位数与所述间距乘值的和值,采用所述和值作为所述最大上限值;
计算所述第二四分位数与所述间距乘值的差值,采用所述差值作为所述最小下限值。
4.根据权利要求1所述的方法,其特征在于,所述历史特征数据设有对应的实际数量结果;所述响应用户输入的数量确定请求,构建初始决策树模型并采用所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型的步骤,包括:
响应用户输入的数量确定请求,提取所述数量确定请求包含的确定天数并创建与所述确定天数相等个数的初始决策树模型;
按照时间序列滑窗对多组所述历史特征数据进行划分,得到训练数据和测试数据;
采用所述训练数据训练各个所述初始决策树模型,得到多个中间决策树模型;
将所述测试数据依次输入至各个所述中间决策树模型,得到多个预测数量结果;
根据所述预测数量结果与所述实际数量结果,确定各个所述中间决策树模型的均方根误差;
比较所述均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型。
5.根据权利要求4所述的方法,其特征在于,所述比较所述均方根误差与预设的误差阈值,根据比较结果确定目标决策树模型的步骤,包括:
比较所述均方根误差与预设的误差阈值;
若所述均方根误差小于或等于所述误差阈值,将当前时刻的所述中间决策树模型确定为目标决策树模型;
若所述均方根误差大于所述误差阈值,按照预设的调整梯度调整所述中间决策树模型的模型参数,跳转执行所述将所述测试数据依次输入至各个所述中间决策树模型,得到多个预测数量结果的步骤。
6.根据权利要求4所述的方法,其特征在于,在所述响应用户输入的数量确定请求,提取所述数量确定请求包含的确定天数并创建与所述确定天数相等个数的初始决策树模型的步骤之后,所述方法还包括:
解析所述初始决策树模型,确定每个所述历史特征数据的属性划分次数;
按照所述属性划分次数从高至低对所述历史特征数据进行排序,得到历史特征数据序列;
从所述历史特征数据序列中从低至高删除预设数量的历史特征数据后,将所述历史特征数据序列中剩余的历史特征数据确定为新的历史特征数据。
7.一种重过载台区数量确定装置,其特征在于,包括:
历史用电数据获取模块,用于获取历史用电数据;
历史用电数据预处理模块,用于对所述历史用电数据执行数据预处理操作,得到多组历史特征数据;
模型训练模块,用于响应用户输入的数量确定请求,构建初始决策树模型并采用多组所述历史特征数据对所述初始决策树模型进行训练,得到目标决策树模型;
当前特征提取模块,用于当接收到当前用电数据时,对所述当前用电数据执行所述数据预处理操作,得到多个当前特征数据;
数量确定模块,用于将所述当前特征数据输入所述目标决策树模型,生成重过载台区的数量确定结果。
8.根据权利要求7所述的装置,其特征在于,所述历史用电数据包括多种不同类型的待处理用电数据;所述历史用电数据预处理模块,包括:
数据限值确定子模块,用于遍历各种所述待处理用电数据,基于各种所述待处理用电数据分别对应的四分位数,分别确定各种所述待处理用电数据对应的数据限值;
筛选与编码子模块,用于按照各个所述正常限值分别对各种所述待处理用电数据进行筛选并进行编码转换,得到多个中间用电数据;
特征提取子模块,用于采用预设的延迟时间窗和预设的滚动时间窗分别对所述多个中间用电数据进行数据划分,得到各中间用电数据对应的多个延迟特征和多个滚动特征;
特征排列子模块,用于按照时间顺序排列所述多个延迟特征和所述多个滚动特征,得到历史特征数据。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的重过载台区数量确定方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-6任一项所述的重过载台区数量确定方法。
CN202111228674.3A 2021-10-21 2021-10-21 一种重过载台区数量确定方法、装置、设备和介质 Pending CN113947023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111228674.3A CN113947023A (zh) 2021-10-21 2021-10-21 一种重过载台区数量确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111228674.3A CN113947023A (zh) 2021-10-21 2021-10-21 一种重过载台区数量确定方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113947023A true CN113947023A (zh) 2022-01-18

Family

ID=79331936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111228674.3A Pending CN113947023A (zh) 2021-10-21 2021-10-21 一种重过载台区数量确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113947023A (zh)

Similar Documents

Publication Publication Date Title
CN106909933B (zh) 一种三阶段多视角特征融合的窃电分类预测方法
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
CN110232203B (zh) 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN106408223A (zh) 基于气象相似日及误差校正的短期负荷预测方法
JP6645043B2 (ja) 誤差幅推定装置、誤差幅推定システム、誤差幅推定方法及びプログラム
Xia et al. Traffic prediction based on ensemble machine learning strategies with bagging and lightgbm
CN116031888B (zh) 基于动态负荷预测的潮流优化方法、系统及存储介质
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN112085256B (zh) 考虑负荷跃变的全周期负荷预测方法
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN112565422B (zh) 一种对电力物联网故障数据的识别方法、系统和存储介质
Porteiro et al. Short term load forecasting of industrial electricity using machine learning
CN110110915A (zh) 一种基于cnn-svr模型的负荷集成预测方法
CN115759365A (zh) 光伏发电功率的预测方法及相关设备
CN108428055A (zh) 一种考虑负荷纵向特性的负荷聚类方法
CN112418545A (zh) 一种基于负荷特征及模型融合的售电量预测方法及系统
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN113919763A (zh) 一种基于模糊评判矩阵的电网灾害分析方法及装置
Yu GDP Economic forecasting model based on improved RBF neural network
CN110516792A (zh) 基于小波分解和浅层神经网络的非平稳时间序列预测方法
CN116993165B (zh) 一种儿童果蔬汁的安全性评价与风险预测方法及系统
CN114202174A (zh) 一种电价风险等级预警方法、装置及存储介质
CN117095247A (zh) 基于数控加工的加工姿态运行优化方法、系统及介质
Chen et al. Prediction interval estimation of dynamic thermal rating considering weather uncertainty
CN111967919A (zh) 一种基于自回归和自适应提升算法的居民用电行为分析的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination