CN113193551A - 基于多因素和改进特征筛选策略的短期电力负荷预测方法 - Google Patents
基于多因素和改进特征筛选策略的短期电力负荷预测方法 Download PDFInfo
- Publication number
- CN113193551A CN113193551A CN202110458740.XA CN202110458740A CN113193551A CN 113193551 A CN113193551 A CN 113193551A CN 202110458740 A CN202110458740 A CN 202110458740A CN 113193551 A CN113193551 A CN 113193551A
- Authority
- CN
- China
- Prior art keywords
- data
- load
- power load
- hour
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012216 screening Methods 0.000 title claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000005611 electricity Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013277 forecasting method Methods 0.000 abstract 1
- 230000002354 daily effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Power Engineering (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于多因素和改进特征筛选策略的短期电力负荷预测方法包括以下步骤:步骤S1,导入原始多因素数据集和数据预处理;步骤S2,构造候选特征变量集;步骤S3,基于数据集重构和RReliefF算法的小时粒度特征筛选;步骤S4,引入基于余弦相似度的k‑means聚类标签;步骤S5,确定最终的输入变量集;步骤S6,模型训练与预测。本发明注重于短期电力负荷预测的前端数据处理,与当前的多种主流预测模型都可以结合使用,并能显著改善模型的预测精度,具有广泛的通用性。本发明能够有效解决基于小时粒度的特征变量选取规则问题,在特征变量中加入负荷曲线的形状和模式信息,通过提高前端输入数据的质量,显著提升短期电力负荷的预测性能。
Description
技术领域
本发明属于于电力负荷预测领域,涉及短期电力负荷预测,特别涉及一种基于多因素和改进特征筛选策略的短期电力负荷预测方法。
背景技术
短期负荷预测在电力系统的运行中具有重要意义,它是电网安全经济运行的保障和制定供电计划的依据。负荷预测作为连接能源和需求侧的桥梁,涉及有序用电、节能减排等工作的方方面面,精准的短期负荷预测不仅能满足电力负荷精细化管理的要求,更是促进需求侧改革、提髙居民用电感受的重要支撑。
由于电力负荷波动趋势会受气象、节假日、社会经济等多种外部因素的影响。显然在实际的负荷预测过程中,充分考虑外部相关因素有助于提高负荷的预测精度。然而计及外部影响因素提高了输入信号的维数,会加重模型的学习负担,降低学习效率,因此,特征筛选成为解决该问题的有效手段。然而如何在海量数据中筛选出对于负荷预测的有益信息,在有限的维数中提升输入数据的信息质量,避免输入低效数据和冗余数据,成为了一个有必要深入研究的课题。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种基于多因素和改进特征筛选策略的短期电力负荷预测方法,以解决现有技术中短期电力负荷预测精度有待进一步提升的技术问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种基于多因素和改进特征筛选策略的短期电力负荷预测方法,该方法包括以下步骤:
步骤S1,导入原始多因素数据集和数据预处理:
步骤S11,采集待预测地区电力的历史电力负荷数据、历史温度数据、历史湿度数据和历史电价数据;
步骤S12,根据历史温度数据和历史湿度数据计算历史温湿指数数据THI,并作为一个特征属性;历史温湿指数数据的计算公式为:
THI=T+0.36Dp+41.2 公式Ⅰ;
式中:
T为干球温度的数值,干球温度的单位为℃;
Dp为露点温度的数值,露点温度的单位为℃;
步骤S13,将历史电力负荷数据、历史温度数据、历史温湿指数数据和历史电价数据整理成M×4的矩阵,该矩阵即为原始多因素数据集;
其中,M为数据采样点数;
步骤S14,对于原始多因素数据集中的异常数据和缺失数据,采用线性插值的方法进行替代和补齐;
步骤S15,对于每一属性数据的样本序列,进行无量纲归一化处理,完成数据预处理;
所述的归一化公式为:
式中:
X*为归一化后的值;
X为样本序列值;
Xmin为样本序列中的最小值;
Xmax为样本序列中的最大值;
步骤S2:构造候选特征变量集:
步骤S21,设L*为t时刻的待预测电力负荷,选取t-h时刻的h小时前历史负荷和t-d*24时刻的d天前历史负荷作为预测负荷L*的候选特征变量,由此对于历史负荷这一属性共生成30个候选特征变量;
步骤S22,使用与步骤S21同样的方法对温度、温湿指数和电价特征属性数据序列进行操作,生成对应该特征属性的30个候选特征变量;
步骤S3,基于数据集重构和RReliefF算法的小时粒度特征筛选:
步骤S31:对于待预测电力负荷序列L*=[l1,l2,l3,…l24(n-1)+i,i=1,2,…24],其中,l24(n-1)+i代表第n天第i个小时的负荷值,抽取每天第i个小时的负荷并按顺序重构造为由此重构得到对应不同小时时刻的24个新的小时级电力负荷序列;
步骤S32,使用与步骤S31同样的方法对候选特征变量集中的每个候选特征变量序列依次进行操作,则每个候选特征变量序列都重构得到对应不同小时时刻的24个新的小时级特征变量序列Fi;
步骤S34,将步骤S33中计算出的各权重系数W(A)从大到小进行排列,取对应W(A)排名前30的30个特征变量放入最优特征集Si;
步骤S35:i=1,2,…24,对于不同i的取值,重复步骤S43和步骤S44,由此得到24个不同的小时粒度最优特征集Si;
步骤S4,引入基于余弦相似度的k-means聚类标签;
步骤S41,随机选择K个初始聚类中心C1,C2,…CK,对应K个类簇V1,V2,…VK;
步骤S42,分别计算每个日负荷样本DLi=[dl1,dl2,…dl24]到第k个聚类中心Ck=[c1,c2,…c24]的余弦相似度Scos(DLi,Ck),其计算公式为:
步骤S43,根据样本与聚类中心相似度最高的原则对其进行分类,若步骤S42中求出的K个余弦相似度中的最大值对应的聚类中心为Ck,则将日负荷样本DLi划分至类簇Vk,按照此规则将所有电力负荷样本划分至类簇V1,V2,…VK中;
其中,|Vk|表示第k个类簇中样本对象的个数;
步骤S45,重复步骤S42至步骤S44,直到聚类中心不再改变或达到设定的迭代次数上限;
步骤S46,对聚类结果计算轮廓系数,轮廓系数s(i)的计算公式为:
式中:
a(i)为样本DLi到同簇其他样本DLj的平均余弦相似度;
b(i)为样本DLi到其他簇中所有样本DLj的平均余弦相似度;
步骤S47,给定K的取值范围,给定聚类算法迭代次数,对应不同K的取值分别重复执行上述步骤S41至步骤S46;
S48:取对应轮廓系数最大的K值作为最优的聚类个数,并将K=最优聚类个数下的聚类结果标签V=[v1,v2,…vK]作为一维特征变量;
步骤S5,确定最终的输入变量集:
步骤S51,根据待预测电力负荷序列每一点的对应采样时间,生成表征小时信息的时间变量H,H的取值范围为1~24的整数,对于第i个小时的负荷,其时间变量H=i;
步骤S52,对于预测第n天第i个小时的负荷值L*,最终输入预测模型的变量集S*包括:由步骤S3得到的对应第i个小时的最优特征集Si,由步骤S4得到的对应第n天的聚类标签V,以及由步骤S51生成的时间变量H;最终输入预测模型的变量集S*共计32维;
步骤S6:模型训练与预测;
步骤S61,按照上述步骤S1至步骤S5准备好的待预测电力负荷序列L*和最终输入变量集S*,划分训练集和测试集;
步骤S62,将训练集输入预测模型进行训练并调整超参数;
步骤S63,预测模型训练完毕后,输入测试集完成提前1小时的电力负荷预测。
本发明还具有如下技术特征:
步骤S11中,对数据进行采集时,所有采集数据的长度统一,采样间隔均为1小时;
步骤S21中,h的取值为1~23的整数,d为1~7的整数。
步骤S47中,K的取值范围为2~10的整数,聚类算法迭代次数为500。
步骤S62中,预测模型为有监督的机器学习模型。
本发明与现有技术相比,具有如下技术效果:
(Ⅰ)本发明提出的基于多因素和改进特征筛选策略注重于短期电力负荷预测的前端数据处理,与当前的多种主流预测模型都可以结合使用,并能显著改善模型的预测精度,具有广泛的通用性。
(Ⅱ)本发明能够有效解决基于小时粒度的特征变量选取规则问题,在特征变量中加入负荷曲线的形状和模式信息,通过提高前端输入数据的质量,显著提升短期电力负荷的预测性能。
(Ⅲ)本发明中提出一种构造候选特征变量集的方法。通过充分考虑时间延迟因素在多因素与负荷之间的作用,所构造的候选特征变量集能够涵盖绝大部分与当前时刻负荷具有直接影响作用和间接影响作用的候选变量,为后续的特征筛选奠定基础。
(Ⅳ)本发明中提出一种基于数据集重构和RReliefF算法的小时粒度特征筛选。相比常规的特征筛选,应用此方法能够解决基于小时粒度的特征变量选取规则问题,更准确和深入地挖掘负荷位于气象因素敏感时刻和电价因素敏感时刻的不同最优特征集,以助于实现电力负荷的高精度预测。
(Ⅴ)本发明中引入基于余弦相似度的k-means聚类标签作为特征变量。通过将传统的欧氏距离改进为余弦相似度作为相似性度量函数,使k-means能够更加准确捕捉负荷曲线的在形态上的特征类型。聚类标签表征的形状信息和典型负荷模式信息有效提高了预测模型的识别和预测能力。
(Ⅵ)本发明的方法主要为短期电力负荷预测的前端数据处理方法,通过改善输入数据质量,从而能显著提高多种主流预测模型的预测精度,具有广泛的通用性。
(Ⅶ)本发明的方法结合时间延迟因素,充分涵盖了可能影响当前电力负荷的特征变量。之后利用基于数据集重构和RReliefF算法的小时粒度特征筛选,筛选出不同小时时刻的最优特征集,实现电力负荷的精细化预测。同时利用基于余弦相似度的k-means聚类算法,引入聚类标签表征负荷模式和形状信息,增强预测模型对不同类型的负荷曲线的识别能力。
(Ⅷ)本发明作为一种通用性的前端数据处理方法,能够有效提高预测阶段机器学习模型的学习效率和预测性能。
(Ⅸ)本发明所提出的基于多因素和改进特征筛选策略的短期电力负荷预测算法,主要针对前期输入数据的处理;经过试验验证,对于当前多种主流和经典的电力负荷预测模型,应用所提出改进策略后,能够在有限的维数中有效提升输入数据的质量,使后续预测阶段的机器学习模型能够更好地学习和捕捉负荷与多因素之间的影响关系和变化规律,从而进一步提升短期电力负荷预测的精度。
附图说明
图1为本发明的整体流程示意图。
图2为本发明的基于数据集重构和RReliefF算法的小时粒度特征筛选的原理示意图。
图3为应用例所有模型的预测结果的MAPE比较。
以下结合实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
由于电力负荷会受气象、电价等多种外部因素影响,结合多因素数据进行负荷预测能有助于提升预测结果的准确度。然而在实际应用中,经常会出现由于考虑过多因素导致输入模型数据的维数过高,加重模型的学习负担;对上百维的特征变量仅凭主观经验选取,选取规则有失科学性等问题;现有特征筛选方法直接衡量整体相关性,而忽视了最优特征集受时间因素的影响;因此为了充分挖掘电力负荷的关键影响变量,改善预测模型的输入数据质量,进一步提高短期电力负荷预测的精度,提出了本发明。
本发明的基于多因素和改进特征筛选策略的短期电力负荷预测方法包括以下步骤:
步骤S1,导入原始多因素数据集和数据预处理;
步骤S2,构造候选特征变量集;
步骤S3,基于数据集重构和RReliefF算法的小时粒度特征筛选;
步骤S4,引入基于余弦相似度的k-means聚类标签;
步骤S5,确定最终的输入变量集;
步骤S6,模型训练与预测。
遵从上述技术方案,以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例:
本实施例给出一种基于多因素和改进特征筛选策略的短期电力负荷预测方法,如图1所示,该方法包括以下步骤:
步骤S1,导入原始多因素数据集和数据预处理:
步骤S11,采集待预测地区电力的历史电力负荷数据、历史温度数据、历史湿度数据和历史电价数据;
其中,对数据进行采集时,所有采集数据的长度统一,采样间隔均为1小时;为了保证方案的实施效果和最终负荷预测的准确度,数据集不能过小,采集数据的时间跨度应在一年以上为宜。
步骤S12,根据历史温度数据和历史湿度数据计算历史温湿指数数据THI,并作为一个特征属性;历史温湿指数数据的计算公式为:
THI=T+0.36Dp+41.2 公式Ⅰ;
式中:
T为干球温度的数值,干球温度的单位为℃;
Dp为露点温度的数值,露点温度的单位为℃;
步骤S13,将历史电力负荷数据、历史温度数据、历史温湿指数数据和历史电价数据整理成M×4的矩阵,该矩阵即为原始多因素数据集;
其中,M为数据采样点数;
步骤S14,对于原始多因素数据集中的异常数据和缺失数据,采用线性插值的方法进行替代和补齐;
步骤S15,为了避免负荷与各影响因素之间量纲的差异,对于每一属性数据的样本序列,进行无量纲归一化处理,完成数据预处理;
所述的归一化公式为:
式中:
X*为归一化后的值;
X为样本序列值;
Xmin为样本序列中的最小值;
Xmax为样本序列中的最大值;
步骤S2:构造候选特征变量集:
为了充分挖掘历史多因素数据对t时刻负荷的影响关系,并充分考虑时间延迟因素在其中的影响,需要构造候选特征变量集。
步骤S21,设L*为t时刻的待预测电力负荷,选取t-h时刻的h小时前历史负荷和t-d*24时刻的d天前历史负荷作为预测负荷L*的候选特征变量,由此对于历史负荷这一属性共生成30个候选特征变量;
其中,h的取值为1~23的整数,d为1~7的整数。
步骤S22,使用与步骤S21同样的方法对温度、温湿指数和电价特征属性数据序列进行操作,生成对应该特征属性的30个候选特征变量;
步骤S3,基于数据集重构和RReliefF算法的小时粒度特征筛选:
直接将步骤S2中构造的候选特征变量集中所有变量输入预测模型会导致模型学习困难,因此需要筛选出最优变量集;目前常规使用的特征筛选方法一般直接去衡量特征序列与负荷序列的整体相关性,但这样就忽视了电力负荷在每天不同时刻受外部因素影响的程度会有所不同,在气象敏感时刻和电价敏感时刻的最优特征集也会有所不同;为此本发明提出了一种基于数据集重构和RReliefF算法的小时粒度特征筛选方法,具体如图2所示。
步骤S31:对于待预测电力负荷序列L*=[l1,l2,l3,…l24(n-1)+i,i=1,2,…24],其中,l24(n-1)+i代表第n天第i个小时的负荷值,抽取每天第i个小时的负荷并按顺序重构造为由此重构得到对应不同小时时刻的24个新的小时级电力负荷序列;
步骤S32,使用与步骤S31同样的方法对候选特征变量集中的每个候选特征变量序列依次进行操作,则每个候选特征变量序列都重构得到对应不同小时时刻的24个新的小时级特征变量序列Fi;
步骤S34,将步骤S33中计算出的各权重系数W(A)从大到小进行排列,取对应W(A)排名前30的30个特征变量放入最优特征集Si;
步骤S35:i=1,2,…24,对于不同i的取值,重复步骤S43和步骤S44,由此得到24个不同的小时粒度最优特征集Si;
步骤S4,引入基于余弦相似度的k-means聚类标签;
为了进一步提高负荷预测的准确度,使用基于余弦相似度的k-means算法对历史负荷序列进行聚类分析,并将聚类标签作为一维特征变量来表征不同的负荷模式和曲线形状信息。
步骤S41,随机选择K个初始聚类中心C1,C2,…CK,对应K个类簇V1,V2,…VK;
步骤S42,分别计算每个日负荷样本DLi=[dl1,dl2,…dl24]到第k个聚类中心Ck=[c1,c2,…c24]的余弦相似度Scos(DLi,Ck),其计算公式为:
步骤S43,根据样本与聚类中心相似度最高的原则对其进行分类,若步骤S42中求出的K个余弦相似度中的最大值对应的聚类中心为Ck,则将日负荷样本DLi划分至类簇Vk,按照此规则将所有电力负荷样本划分至类簇V1,V2,…VK中;
其中,|Vk|表示第k个类簇中样本对象的个数;
步骤S45,重复步骤S42至步骤S44,直到聚类中心不再改变或达到设定的迭代次数上限;
步骤S46,对聚类结果计算轮廓系数,轮廓系数s(i)的计算公式为:
式中:
a(i)为样本DLi到同簇其他样本DLj的平均余弦相似度;
b(i)为样本DLi到其他簇中所有样本DLj的平均余弦相似度;
步骤S47,给定K的取值范围,给定聚类算法迭代次数,对应不同K的取值分别重复执行上述步骤S41至步骤S46;
其中,K的取值范围为2~10的整数,聚类算法迭代次数为500。
S48:取对应轮廓系数最大的K值作为最优的聚类个数,并将K=最优聚类个数下的聚类结果标签V=[v1,v2,…vK]作为一维特征变量;
需要说明的是,区别于传统的k-means算法采用欧式距离作为相似性度量函数,步骤S42中选取余弦相似度作为度量函数;欧式距离仅是对负荷曲线几何平均距离的度量,不能很好地反应负荷曲线的形态相似性,存在一定局限性;而余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上;所以本算法能更加关注不同季节时段下负荷曲线在形态上的相似和差异,从而更好地对不同类型的负荷曲线做出区分。
步骤S5,确定最终的输入变量集:
步骤S51,根据待预测电力负荷序列每一点的对应采样时间,生成表征小时信息的时间变量H,H的取值范围为1~24的整数,对于第i个小时的负荷,其时间变量H=i;
需要说明的是,因为由步骤S4得到聚类标签V已经能够表征周末、节假日和季节等信息,所以不需要再引入其他时间变量,避免造成特征冗余。
步骤S52,对于预测第n天第i个小时的负荷值L*,最终输入预测模型的变量集S*包括:由步骤S3得到的对应第i个小时的最优特征集Si(30维),由步骤S4得到的对应第n天的聚类标签V(1维),以及由步骤S51生成的时间变量H(1维);最终输入预测模型的变量集S*共计32维;
步骤S6:模型训练与预测;
步骤S61,按照上述步骤S1至步骤S5准备好的待预测电力负荷序列L*和最终输入变量集S*,划分训练集和测试集;
步骤S62,将训练集输入预测模型进行训练并调整超参数;
其中,预测模型为有监督的机器学习模型。需要说明的是,此处可适用的预测模型并无固定的要求,但必须为有监督的机器学习模型,如人工神经网络及其变种模型MLP、CNN、LSTM等,决策树及其变种模型Random Forest、GDBT、LightGBM等,支持向量机及其变种模型SVM、LSSVM等。
步骤S63,预测模型训练完毕后,输入测试集完成提前1小时的电力负荷预测。需要说明的是,本发明中使用MAPE、RMSE指标对预测结果进行评价。
应用例:
以ISO-NE电力负荷多因素数据集为例,遵从上述实施例中的基于多因素和改进特征筛选策略的短期电力负荷预测方法的所有步骤进行提前一小时的短期电力负荷预测实验,用于验证该方法的技术效果。
试验选取了在当前电力负荷预测领域多种主流和经典的机器学习算法:时间卷积网络(TCN)、长短时记忆网络(LSTM)、多层感知器(MLP)、极限学习机(ELM)和梯度提升树(GDBT)分别作为预测模型。使用本发明提出方法的模型记为“CL-DR-Model”,不使用本发明提出方法的模型记为为“Original-Model”。所有模型对一个测试周的提前一小时预测结果如图3所示。
由图3可知,虽然每个模型的预测精度限于模型自身特性各不相同,但结合使用本发明所提出方法后,各模型的预测精度均获得显著提升。由此证明本发明所提出方法作为一种着重于前端数据处理的负荷预测方法,在有限维数数据中提升输入数据质量,能够有效提升短期电力负荷预测精度。
Claims (5)
1.一种基于多因素和改进特征筛选策略的短期电力负荷预测方法,其特征在于,该方法包括以下步骤:
步骤S1,导入原始多因素数据集和数据预处理:
步骤S11,采集待预测地区电力的历史电力负荷数据、历史温度数据、历史湿度数据和历史电价数据;
步骤S12,根据历史温度数据和历史湿度数据计算历史温湿指数数据THI,并作为一个特征属性;历史温湿指数数据的计算公式为:
THI=T+0.36Dp+41.2 公式Ⅰ;
式中:
T为干球温度的数值,干球温度的单位为℃;
Dp为露点温度的数值,露点温度的单位为℃;
步骤S13,将历史电力负荷数据、历史温度数据、历史温湿指数数据和历史电价数据整理成M×4的矩阵,该矩阵即为原始多因素数据集;
其中,M为数据采样点数;
步骤S14,对于原始多因素数据集中的异常数据和缺失数据,采用线性插值的方法进行替代和补齐;
步骤S15,对于每一属性数据的样本序列,进行无量纲归一化处理,完成数据预处理;
所述的归一化公式为:
式中:
X*为归一化后的值;
X为样本序列值;
Xmin为样本序列中的最小值;
Xmax为样本序列中的最大值;
步骤S2:构造候选特征变量集:
步骤S21,设L*为t时刻的待预测电力负荷,选取t-h时刻的h小时前历史负荷和t-d*24时刻的d天前历史负荷作为预测负荷L*的候选特征变量,由此对于历史负荷这一属性共生成30个候选特征变量;
步骤S22,使用与步骤S21同样的方法对温度、温湿指数和电价特征属性数据序列进行操作,生成对应该特征属性的30个候选特征变量;
步骤S3,基于数据集重构和RReliefF算法的小时粒度特征筛选:
步骤S31:对于待预测电力负荷序列L*=[l1,l2,l3,…l24(n-1)+i,i=1,2,…24],其中,l24(n-1)+i代表第n天第i个小时的负荷值,抽取每天第i个小时的负荷并按顺序重构造为由此重构得到对应不同小时时刻的24个新的小时级电力负荷序列;
步骤S32,使用与步骤S31同样的方法对候选特征变量集中的每个候选特征变量序列依次进行操作,则每个候选特征变量序列都重构得到对应不同小时时刻的24个新的小时级特征变量序列Fi;
步骤S34,将步骤S33中计算出的各权重系数W(A)从大到小进行排列,取对应W(A)排名前30的30个特征变量放入最优特征集Si;
步骤S35:i=1,2,…24,对于不同i的取值,重复步骤S43和步骤S44,由此得到24个不同的小时粒度最优特征集Si;
步骤S4,引入基于余弦相似度的k-means聚类标签;
步骤S41,随机选择K个初始聚类中心C1,C2,…CK,对应K个类簇V1,V2,…VK;
步骤S42,分别计算每个日负荷样本DLi=[dl1,dl2,…dl24]到第k个聚类中心Ck=[c1,c2,…c24]的余弦相似度Scos(DLi,Ck),其计算公式为:
步骤S43,根据样本与聚类中心相似度最高的原则对其进行分类,若步骤S42中求出的K个余弦相似度中的最大值对应的聚类中心为Ck,则将日负荷样本DLi划分至类簇Vk,按照此规则将所有电力负荷样本划分至类簇V1,V2,…VK中;
其中,|Vk|表示第k个类簇中样本对象的个数;
步骤S45,重复步骤S42至步骤S44,直到聚类中心不再改变或达到设定的迭代次数上限;
步骤S46,对聚类结果计算轮廓系数,轮廓系数s(i)的计算公式为:
式中:
a(i)为样本DLi到同簇其他样本DLj的平均余弦相似度;
b(i)为样本DLi到其他簇中所有样本DLj的平均余弦相似度;
步骤S47,给定K的取值范围,给定聚类算法迭代次数,对应不同K的取值分别重复执行上述步骤S41至步骤S46;
S48:取对应轮廓系数最大的K值作为最优的聚类个数,并将K=最优聚类个数下的聚类结果标签V=[v1,v2,…vK]作为一维特征变量;
步骤S5,确定最终的输入变量集:
步骤S51,根据待预测电力负荷序列每一点的对应采样时间,生成表征小时信息的时间变量H,H的取值范围为1~24的整数,对于第i个小时的负荷,其时间变量H=i;
步骤S52,对于预测第n天第i个小时的负荷值L*,最终输入预测模型的变量集S*包括:由步骤S3得到的对应第i个小时的最优特征集Si,由步骤S4得到的对应第n天的聚类标签V,以及由步骤S51生成的时间变量H;最终输入预测模型的变量集S*共计32维;
步骤S6:模型训练与预测;
步骤S61,按照上述步骤S1至步骤S5准备好的待预测电力负荷序列L*和最终输入变量集S*,划分训练集和测试集;
步骤S62,将训练集输入预测模型进行训练并调整超参数;
步骤S63,预测模型训练完毕后,输入测试集完成提前1小时的电力负荷预测。
2.如权利要求1所述的基于多因素和改进特征筛选策略的短期电力负荷预测方法,其特征在于,步骤S11中,对数据进行采集时,所有采集数据的长度统一,采样间隔均为1小时。
3.如权利要求1所述的基于多因素和改进特征筛选策略的短期电力负荷预测方法,其特征在于,步骤S21中,h的取值为1~23的整数,d为1~7的整数。
4.如权利要求1所述的基于多因素和改进特征筛选策略的短期电力负荷预测方法,其特征在于,步骤S47中,K的取值范围为2~10的整数,聚类算法迭代次数为500。
5.如权利要求1所述的基于多因素和改进特征筛选策略的短期电力负荷预测方法,其特征在于,步骤S62中,预测模型为有监督的机器学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458740.XA CN113193551B (zh) | 2021-04-27 | 2021-04-27 | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458740.XA CN113193551B (zh) | 2021-04-27 | 2021-04-27 | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113193551A true CN113193551A (zh) | 2021-07-30 |
CN113193551B CN113193551B (zh) | 2023-01-24 |
Family
ID=76979342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458740.XA Active CN113193551B (zh) | 2021-04-27 | 2021-04-27 | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113193551B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114243702A (zh) * | 2022-01-28 | 2022-03-25 | 国网湖南省电力有限公司 | 一种电网avc系统运行参数的预测方法、系统及存储介质 |
CN115545107A (zh) * | 2022-10-09 | 2022-12-30 | 贵州电网有限责任公司 | 一种基于海量电力数据的云计算方法、系统 |
CN116861164A (zh) * | 2023-05-08 | 2023-10-10 | 华电电力科学研究院有限公司 | 一种汽轮机运行故障监测系统 |
CN117611212A (zh) * | 2023-11-22 | 2024-02-27 | 河北建投电力科技服务有限公司 | 基于大数据的电力电价挖掘分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013005465A (ja) * | 2011-06-10 | 2013-01-07 | Azbil Corp | 負荷量予測装置、負荷量予測方法および負荷量予測プログラム |
CN106971240A (zh) * | 2017-03-16 | 2017-07-21 | 河海大学 | 一种变量选择与高斯过程回归的短期负荷预测方法 |
CN112232593A (zh) * | 2020-11-04 | 2021-01-15 | 武汉理工大学 | 一种基于相空间重构和数据驱动的电力负荷预测方法 |
-
2021
- 2021-04-27 CN CN202110458740.XA patent/CN113193551B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013005465A (ja) * | 2011-06-10 | 2013-01-07 | Azbil Corp | 負荷量予測装置、負荷量予測方法および負荷量予測プログラム |
CN106971240A (zh) * | 2017-03-16 | 2017-07-21 | 河海大学 | 一种变量选择与高斯过程回归的短期负荷预测方法 |
CN112232593A (zh) * | 2020-11-04 | 2021-01-15 | 武汉理工大学 | 一种基于相空间重构和数据驱动的电力负荷预测方法 |
Non-Patent Citations (2)
Title |
---|
YONG WANG; DAWU GU; JIANPING XU; JING LI: "Back Propagation Neural Network for Short-term Electricity Load Forecasting with Weather Features", 《2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND NATURAL COMPUTING》 * |
陈振宇 等: "基于LSTM与XGBoost组合模型的超短期电力负荷预测", 《电网技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114243702A (zh) * | 2022-01-28 | 2022-03-25 | 国网湖南省电力有限公司 | 一种电网avc系统运行参数的预测方法、系统及存储介质 |
CN115545107A (zh) * | 2022-10-09 | 2022-12-30 | 贵州电网有限责任公司 | 一种基于海量电力数据的云计算方法、系统 |
CN116861164A (zh) * | 2023-05-08 | 2023-10-10 | 华电电力科学研究院有限公司 | 一种汽轮机运行故障监测系统 |
CN117611212A (zh) * | 2023-11-22 | 2024-02-27 | 河北建投电力科技服务有限公司 | 基于大数据的电力电价挖掘分析方法 |
CN117611212B (zh) * | 2023-11-22 | 2024-05-28 | 河北建投电力科技服务有限公司 | 基于大数据的电力电价挖掘分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113193551B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113193551B (zh) | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 | |
CN112508275B (zh) | 一种基于聚类和趋势指标的配电网线路负荷预测方法和设备 | |
CN107944622B (zh) | 基于连续时段聚类的风电功率预测方法 | |
Yao et al. | Short-term load forecasting method based on feature preference strategy and LightGBM-XGboost | |
CN111915092B (zh) | 基于长短时记忆神经网络的超短期风电功率预测方法 | |
CN107220764A (zh) | 一种基于前导分析和因素补偿的售电量预测方法及装置 | |
CN114119273B (zh) | 一种园区综合能源系统非侵入式负荷分解方法及系统 | |
CN110188919A (zh) | 一种基于长短期记忆网络的负荷预测方法 | |
CN115660161A (zh) | 一种基于时序融合Transformer模型的中期小时级负荷概率预测方法 | |
CN112308298B (zh) | 一种面向半导体生产线的多场景性能指标预测方法及系统 | |
CN114792156A (zh) | 基于曲线特征指标聚类的光伏输出功率预测方法和系统 | |
CN113177366B (zh) | 一种综合能源系统规划方法、装置和终端设备 | |
CN116186548B (zh) | 电力负荷预测模型训练方法及电力负荷预测方法 | |
CN115860177A (zh) | 基于组合式机器学习模型光伏发电功率预测方法及其应用 | |
CN115481788B (zh) | 相变储能系统负荷预测方法及系统 | |
CN115759389A (zh) | 基于天气类型的相似日组合策略的日前光伏功率预测方法 | |
CN117200204A (zh) | 一种多元负荷预测方法、装置及存储介质 | |
CN113761023A (zh) | 一种基于改进广义神经网络的光伏发电短期功率预测方法 | |
CN111027841A (zh) | 一种基于梯度提升决策树的低压台区线损计算方法 | |
CN115238854A (zh) | 一种基于tcn-lstm-am的短期负荷预测方法 | |
Wei et al. | An instance based multi-source transfer learning strategy for building’s short-term electricity loads prediction under sparse data scenarios | |
Kuang et al. | Short-term power load forecasting method in rural areas based on cnn-lstm | |
CN115907228A (zh) | 一种基于pso-lssvm的短期电力负荷预测分析方法 | |
CN114169226A (zh) | 短期电力负荷预测方法、计算机设备以及存储介质 | |
CN113723670A (zh) | 变时间窗口的光伏发电功率短期预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |