CN112949948B - 电动汽车分时段换电需求区间预测的集成学习方法及系统 - Google Patents

电动汽车分时段换电需求区间预测的集成学习方法及系统 Download PDF

Info

Publication number
CN112949948B
CN112949948B CN202110470067.1A CN202110470067A CN112949948B CN 112949948 B CN112949948 B CN 112949948B CN 202110470067 A CN202110470067 A CN 202110470067A CN 112949948 B CN112949948 B CN 112949948B
Authority
CN
China
Prior art keywords
day
training set
prediction
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110470067.1A
Other languages
English (en)
Other versions
CN112949948A (zh
Inventor
张玉利
于浩洁
张宁威
梁熙栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110470067.1A priority Critical patent/CN112949948B/zh
Publication of CN112949948A publication Critical patent/CN112949948A/zh
Application granted granted Critical
Publication of CN112949948B publication Critical patent/CN112949948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电动汽车分时段换电需求区间预测的集成学习方法及系统,包括:将预处理后的数据集分为训练集和测试集;选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测;对测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果。本发明能够在满足一定覆盖率的基础上有效降低预测区间宽度,并且有较快的求解速度。

Description

电动汽车分时段换电需求区间预测的集成学习方法及系统
技术领域
本发明涉及电动汽车技术领域,具体涉及一种电动汽车分时段换电需求区间预测的集成学习方法及系统。
背景技术
大力发展新能源汽车对促进我国交通领域节能减排、推进汽车行业技术变革、提升我国汽车制造业在国际中核心竞争力具有重要意义。新能源电动汽车换电模式具有购车成本底、高效补能、延长电池寿命等优势,有效缓解了新能源电动汽车续航里程焦虑等现象,为新能源产业技术革新与发展来新机遇。虽然我国电动汽车数量急剧增长,但是换电模式普及率较低,其主要原因有换电站服务率较低、换电站运营成本较高以及电池标准不统一等。
为提高换电站服务质量、减少换电站运营成本、推动电动汽车换电模式的发展,换电站运营商需要准确预测电动汽车的换电需求,为此需要对电动汽车换电需求进行准确预测。但是当前经济发展迅速,人们行为具有高度的不确定性,对于这样不确定性高,且发展复杂的系统,采用点预测的方式进行预测的可靠性比较低,而使用区间预测为决策提供数据支持能够成为一种更稳定可靠的解决方法,更符合实际状况。目前也有许多区间预测方法,如如基于预测模型如神经网络的Delt方法,基于后验分布的Bayesian方法,均值方差方法、分位数回归以及计算量大但实施比较简单的自举法(Bootstrap)方法。这些方法都是基于统计学习方法进行预测,且其依赖的单一的机器学习方法有本身的工作偏向。为了能够使得预测的区间宽度更窄且能够保证预测的点能够落到预测的区间内达到一定的覆盖率,所以通过即结合多种基学习器构建集成预测器来提高预测准确率。集成预测方法有投票法(voting)、袋装法(bagging)、提升法(boosting)、堆叠法(stacking)等等,这些集成学习方法在预测方面的效果都比单一的方法进行预测有着更好的性能。
发明内容
针对现有技术中存在的上述问题,本发明提供一种电动汽车分时段换电需求区间预测的集成学习方法及系统,其可在满足一定的覆盖率下使得预测的区间更窄、更准确。
本发明公开了一种电动汽车分时段换电需求区间预测的集成学习方法,包括:
构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
作为本发明的进一步改进,所述数据集为T={(x1,Y1),...,(xn,Yn)},
Figure BDA0003045026750000021
式中,T为数据集,xi为第i个样本,i取1,···,n,n为样本数;
Figure BDA0003045026750000022
为样本 i的第j个特征,j取1,···,m,m为特征数;Yi为样本i的标签,即电动汽车在每个时间段的换电需求量,i取1,···,n。
作为本发明的进一步改进,所述数据集的特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间 [0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例。
作为本发明的进一步改进,所述数据集的预处理为对数据进行归一化;
所述训练集包括训练子集和验证集,所述训练子集为总数据量的70%,所述验证集和测试集均为总数据量的15%;
所述基学习器包括K近邻、支持向量回归、岭回归、随机森林、浅层神经网络、梯度提升回归分位树和随机森林分位回归树。
作为本发明的进一步改进,所述采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,包括:
采用六折交叉验证;
将训练集平均分成6份,分别为T1、T2、T3、T4、T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;
通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到一定的覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7 个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
Figure BDA0003045026750000031
当进行预测时,将所有基学习器在整个训练子集上进行训练。
作为本发明的进一步改进,使用灰色关联分析在训练集中选择与第i个样本最相关的M(i1,i2,…,iM)天,作为相似日训练集Ti
Figure BDA0003045026750000049
式中,
Figure BDA00030450267500000410
为第k个基学习器对第M个样本i的预测结果。
作为本发明的进一步改进,所述灰色关联分析,包括:
计算灰色关联系数ξ0i,然后计算灰色关联度γ0i,对于输入的测试集样本x0和训练集中的样本xi,灰色关联系数计算公式为:
Figure BDA0003045026750000041
式中,ξ0i(c)为测试集样本x0和训练集中的样本xi在第c个特征的灰色关联系数,
Figure 1
计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,计算出输入的测试集样本和训练集中每个样本的灰色关联度γ0i
Figure BDA0003045026750000043
根据计算出来灰色关联度,从训练集中选取最相关的M个样本作为相似日训练集。
作为本发明的进一步改进,所述优化模型为:
Figure BDA0003045026750000044
Figure BDA0003045026750000045
Figure BDA0003045026750000046
Figure BDA0003045026750000047
Figure BDA0003045026750000048
Figure BDA0003045026750000051
Figure BDA0003045026750000052
Figure BDA0003045026750000053
Figure BDA0003045026750000054
Figure BDA0003045026750000055
为整数
式中,M为相似日训练集中样本个数,
Figure BDA0003045026750000056
为集成预测器预测区间的上界,
Figure BDA0003045026750000057
为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,
Figure BDA0003045026750000058
Figure BDA0003045026750000059
为取整后的上界与下界;θ123为正则项的系数,
Figure BDA00030450267500000510
其他类似,每个α都是权重系数;α00为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;
Figure BDA00030450267500000511
为样本xd,h的第k个特征; pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
Figure BDA00030450267500000512
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
Figure BDA00030450267500000513
k=1,2,3,4;通过随机森林进行点预测时计算的每个特征的重要性系数,根据重要性系数按从大到小进行排序,按照重要性系数选择前四个特征;所选择的特征为前一天对应时刻行驶里程(x(10))、前一天日行驶里程 (x(9))、前一天对应时刻电池剩余量(SOC)在区间[20%,40%]的电动汽车数量占总数量的比例(x(17))、为预测日的前一天在对应时间段所有电动汽车的换电需求量(x(8))。
作为本发明的进一步改进,所述优化模型分成三个阶段进行求解,包括:
阶段一:
设所有基学习器在训练集中预测的上界为
Figure BDA00030450267500000514
下界为
Figure BDA00030450267500000515
实际值为yi
1.若min(U)≤yi≤max(L),则zi=1;
2.若yi-max(U)>1或min(L)-yi>1,则zi=0;
3.其他情况,zi为变量;
阶段二:
将阶段一预处理的zi入优化模型的松弛模型进行求解,松弛模型如下:
Figure BDA0003045026750000061
Figure BDA0003045026750000062
Figure BDA0003045026750000063
Figure BDA0003045026750000064
Figure BDA0003045026750000065
Figure BDA0003045026750000066
Figure BDA0003045026750000067
zi∈{0,1}
阶段三:
将阶段二求解得到的zi带入上述优化模型进行求解。
本发明还公开了一种电动汽车分时段换电需求区间预测的集成学习系统,包括:
构建模块,用于构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
训练模块,用于选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
分析模块,用于对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
建立模块,用于根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
预测模块,用于基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
与现有技术相比,本发明的有益效果为:
本发明考虑了集成预测器的覆盖率和预测的区间宽度,与预测效果最好的基学习器相比能够在满足一定的预测覆盖率的基础上有效降低预测的区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
附图说明
图1为本发明一种实施例公开的电动汽车分时段换电需求区间预测的集成学习方法的流程图;
图2为本发明一种实施例公开的电动汽车分时段换电需求区间预测的集成学习系统的框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种电动汽车换电需求分时段区间预测集成学习方法及系统,属于机器学习技术领域;该方法涉及到两个主要方面,第一个方面是建立满足一定覆盖率的优化模型;第二个方面是为了加快该模型的求解,将模型拆分为三个阶段进行求解。为提高预测准确率,本发明对于每个输入的预测样本,基于灰色关联分析选择其最佳相似日训练集,进而为集成预测器权重的求解提供最相关的训练集来提高模型的预测精度。为了提高集成预测器的泛化性,本发明建立了一个带有加权的L1范数正则项的优化模型,该优化模型所建立的集成预测器利用了基学习器的输出结果、基学习器输出结果的排序、重要性特征以及在该时段的预测均值为信息,这些信息的权重系数将通过该优化模型来求解。本发明同时考虑了集成预测器预测的覆盖率和区间宽度,与预测效果最好的基学习器相比能够在满足一定覆盖率的基础上有效降低区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种电动汽车分时段换电需求区间预测的集成学习方法,包括:
步骤1、特征选择、构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;其中,
对于采集到的电动汽车行驶记录数据,其特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间 [0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例。
构建的数据集为
Figure BDA0003045026750000092
式中,T为数据集,xi为第i个样本,i取1,···,n,n为样本数;
Figure BDA0003045026750000093
为样本 i的第j个特征,j取1,···,m,m为特征数;Yi为样本i的标签,即电动汽车在每个时间段的换电需求量,i取1,···,n。
数据集的预处理,包括采用公式
Figure BDA0003045026750000091
对数据进行归一化处理。
训练集包括训练子集和验证集,训练子集为总数据量的70%,验证集和测试集均为总数据量的15%。
进一步,为了便于数据提取,可以将日期(年-月-日)添加到数据集中,但不作为特征输入到模型中。
步骤2、选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;通过不断调整参数进行训练并预测,使得预测的区间满足一定的覆盖率;其中,
基学习器的数量为7个,包括:K近邻(KNN)、支持向量回归(SVR)、岭回归(RR)、随机森林(RF)、浅层神经网络(MLP)、梯度提升回归分位树(GBRT) 和随机森林分位回归树(RFQ);
对于K近邻(KNN)、支持向量回归(SVR)、岭回归(RR)、随机森林(RF)、浅层神经网络(MLP)这五个机器学习方法,其区间预测方法将采用(Zhang J, Wang Y,Sun M,et al.Two-Stage Bootstrap Sampling for Probabilistic Load Forecasting[J].IEEETransactions on Engineering Management,2020.)中的方法,梯度提升回归分位树(GBRT)和随机森林分位回归树(RFQ)区间预测方法将采用95%和5%分位数作为预测区间的上界和下界。
交叉验证采用六折交叉验证,假设fr(·)为第r个基学习器(r=1,2,3,4,5),通过交叉验证方式,并采用文献中可以得到7个基学习器在训练集中的预测结果fr(xi)。
具体的:
采用六折交叉验证;将训练集平均分成6份,分别为T1、T2、T3、T4、 T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到一定的覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P 的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7 个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
Figure BDA0003045026750000101
当进行预测时,将所有基学习器在整个训练子集上进行训练。
由于最终的集成预测方法是结合基学习器而集成的,所以基学习器预测准确率提高必然会提高集成预测方法的准确率。所以在进行训练和预测的时候,所有基学习器超参数均采用python中sklearn包中的默认值。
步骤3、对测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;其中,
使用灰色关联分析在训练集中选择与第i个样本最相关的M(i1,i2,…,iM) 天,作为相似日训练集Ti
Figure BDA0003045026750000102
式中,
Figure BDA0003045026750000103
为第k个基学习器对第M个样本i的预测结果;
灰色关联分析,包括:
计算灰色关联系数ξ0i,然后计算灰色关联度γ0i,对于输入的测试集样本x0和训练集中的样本xi,灰色关联系数计算公式为:
Figure BDA0003045026750000104
式中,ξ0i(c)为测试集样本x0和训练集中的样本xi在第c个特征的灰色关联系数,
Figure 2
计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,计算出输入的测试集样本和训练集中每个样本的灰色关联度γ0i
Figure BDA0003045026750000112
即取每个灰色关联系数的平均值,计算出来的灰色关联度值越大相关性越高;根据计算出来灰色关联度,从训练集中选取最相关的 M个样本作为相似日训练集;其中,M通常取训练集样本总量的75%。
步骤4、根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;其中,
优化模型为:
Figure BDA0003045026750000113
Figure BDA0003045026750000114
Figure BDA0003045026750000115
Figure BDA0003045026750000116
Figure BDA0003045026750000117
Figure BDA0003045026750000121
Figure BDA0003045026750000122
Figure BDA0003045026750000123
Figure BDA0003045026750000124
Figure BDA0003045026750000125
为整数
式中,M为相似日训练集中样本个数,
Figure BDA0003045026750000126
为集成预测器预测区间的上界,
Figure BDA0003045026750000127
为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,
Figure BDA0003045026750000128
Figure BDA0003045026750000129
为取整后的上界与下界;θ123为正则项的系数,
Figure BDA00030450267500001210
其他类似,每个α都是权重系数;α00为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;
Figure BDA00030450267500001211
为样本xd,h的第k个特征;其中,参数θ123可以在训练集中采用交叉验证的方式寻找最佳的θ123,即将训练集平均分为6份,选取其中五份作为训练集,另一份作为验证集进行预测,每一份预测均可得到一个评估指标,由于分为了6份,便可以得到6 个评估指标,取该6个评估指标的平均值作为该参数在某一数值最终的预测效果表现,通过不断循坏迭代,找到评估指标最优的值作为预测时参数所取得值,本实例中优选得评估指标为覆盖率PIPC和区间预测宽度CMPIW;
pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
Figure BDA00030450267500001212
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
Figure BDA00030450267500001213
k=1,2,3,4;通过随机森林进行点预测时计算的每个特征的重要性系数,根据重要性系数按从大到小进行排序,按照重要性系数选择前四个特征;所选择的特征为前一天对应时刻行驶里程(x(10))、前一天日行驶里程 (x(9))、前一天对应时刻电池剩余量(SOC)在区间[20%,40%]的电动汽车数量占总数量的比例(x(17))、为预测日的前一天在对应时间段所有电动汽车的换电需求量(x(8))。
上述优化模型分成三个阶段进行求解,包括:
阶段一:
设所有基学习器在训练集中预测的上界为
Figure BDA0003045026750000131
下界为
Figure BDA0003045026750000132
实际值为yi
1.若min(U)≤yi≤max(L),则zi=1;
2.若yi-max(U)>1或min(L)-yi>1,则zi=0;
3.其他情况,zi为变量;
阶段二:
将阶段一预处理的zi入优化模型的松弛模型进行求解,松弛模型如下:
Figure BDA0003045026750000133
Figure BDA0003045026750000134
Figure BDA0003045026750000135
Figure BDA0003045026750000136
Figure BDA0003045026750000137
Figure BDA0003045026750000138
Figure BDA0003045026750000139
zi∈{0,1}
阶段三:
将阶段二求解得到的zi带入上述优化模型进行求解。
步骤5、基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果;其中,集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
如图2所示,本发明提供一种电动汽车分时段换电需求区间预测的集成学习系统,包括:
构建模块,用于实现上述步骤1;
训练模块,用于实现上述步骤2;
分析模块,用于实现上述步骤3;
建立模块,用于实现上述步骤4;
预测模块,用于实现上述步骤5。
本发明的优点为:
本发明同时考虑了集成预测器预测结果的覆盖率和区间宽度,与预测效果最好的基学习器相比能够在满足一定覆盖率的基础上有效降低预测的区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种电动汽车分时段换电需求区间预测的集成学习方法,其特征在于,包括:
构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
根据各基学习器在最佳相似日训练集中的预测结果,建立想要达到的覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合;
其中,
所述数据集为T={(x1,Y1),...,(xn,Yn)},
Figure FDA0003629990540000011
式中,T为数据集,xi为第i个样本,i取1,…,n,n为样本数;
Figure FDA0003629990540000012
为样本i的第j个特征,j取1,…,m,m为特征数;Yi为样本i的标签,即电动汽车在每个时间段的换电需求量,i取1,…,n;
所述数据集的特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
所述优化模型为:
Figure FDA0003629990540000021
Figure FDA0003629990540000022
Figure FDA0003629990540000023
fi L≤fi Lz≤fi L+1
fi U-1≤fi Uz≤fi U
fi Lz≤fi Uz
yi≤fi Uz+Bi(1-zi)
yi≥fi Lz+Bi(1-zi)
Figure FDA0003629990540000024
zi∈{0,1},fi Uz,fi Lz为整数
式中,M为相似日训练集中样本个数,fi U为集成预测器预测区间的上界,fi L为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,fi Uz和fi Lz为取整后的上界与下界;θ123为正则项的系数,
Figure FDA0003629990540000025
其他类似,每个α都是权重系数;α00为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;
Figure FDA0003629990540000031
为样本xd,h的第k个特征;pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
Figure FDA0003629990540000032
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
Figure FDA0003629990540000033
通过随机森林进行点预测时计算的每个特征的重要性系数,根据重要性系数按从大到小进行排序,按照重要性系数选择前四个特征;所选择的特征为前一天对应时刻行驶里程(x(10))、前一天日行驶里程(x(9))、前一天对应时刻电池剩余量(SOC)在区间[20%,40%]的电动汽车数量占总数量的比例(x(17))、为预测日的前一天在对应时间段所有电动汽车的换电需求量(x(8))。
2.如权利要求1所述的集成学习方法,其特征在于,所述数据集的预处理为对数据进行归一化;
所述训练集包括训练子集和验证集,所述训练子集为总数据量的70%,所述验证集和测试集均为总数据量的15%;
所述基学习器包括K近邻、支持向量回归、岭回归、随机森林、浅层神经网络、梯度提升回归分位树和随机森林分位回归树。
3.如权利要求2所述的集成学习方法,其特征在于,所述采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,包括:
采用六折交叉验证;
将训练集平均分成6份,分别为T1、T2、T3、T4、T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;
通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到想要达到覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
Figure FDA0003629990540000041
当进行预测时,将所有基学习器在整个训练子集上进行训练。
4.如权利要求1所述的集成学习方法,其特征在于,使用灰色关联分析在训练集中选择与第i个样本最相关的M(i1,i2,…,iM)天,作为相似日训练集Ti
Figure FDA0003629990540000042
式中,
Figure FDA0003629990540000043
为第k个基学习器对第M个样本i的预测结果。
5.如权利要求4所述的集成学习方法,其特征在于,所述灰色关联分析,包括:
计算灰色关联系数ξ0i,然后计算灰色关联度γ0i,对于输入的测试集样本x0和训练集中的样本xi,灰色关联系数计算公式为:
Figure FDA0003629990540000044
式中,ξ0i(c)为测试集样本x0和训练集中的样本xi在第c个特征的灰色关
Figure FDA0003629990540000045
计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,计算出输入的测试集样本和训练集中每个样本的灰色关联度γ0i
Figure FDA0003629990540000046
根据计算出来灰色关联度,从训练集中选取最相关的M个样本作为相似日训练集。
6.如权利要求1所述的集成学习方法,其特征在于,所述优化模型分成三个阶段进行求解,包括:
阶段一:
设所有基学习器在训练集中预测的上界为
Figure FDA0003629990540000047
下界为
Figure FDA0003629990540000048
实际值为yi
1).若min(U)≤yi≤max(L),则zi=1;
2).若yi-max(U)>1或min(L)-yi>1,则zi=0;
3).其他情况,zi为变量;
阶段二:
将阶段一预处理的zi入优化模型的松弛模型进行求解,松弛模型如下:
Figure FDA0003629990540000051
Figure FDA0003629990540000052
Figure FDA0003629990540000053
fi L≤fi U
yi≤fi U+Bi(1-zi)
yi≥fi L+Bi(1-zi)
Figure FDA0003629990540000054
zi∈{0,1}
阶段三:
将阶段二求解得到的zi代入所述优化模型进行求解。
7.一种实现如权利要求1~6中任一项所述的集成学习方法的系统,其特征在于,包括:
构建模块,用于构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
训练模块,用于选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
分析模块,用于对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
建立模块,用于根据各基学习器在最佳相似日训练集中的预测结果,建立想要达到的覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
预测模块,用于基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
CN202110470067.1A 2021-04-28 2021-04-28 电动汽车分时段换电需求区间预测的集成学习方法及系统 Active CN112949948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110470067.1A CN112949948B (zh) 2021-04-28 2021-04-28 电动汽车分时段换电需求区间预测的集成学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110470067.1A CN112949948B (zh) 2021-04-28 2021-04-28 电动汽车分时段换电需求区间预测的集成学习方法及系统

Publications (2)

Publication Number Publication Date
CN112949948A CN112949948A (zh) 2021-06-11
CN112949948B true CN112949948B (zh) 2022-06-21

Family

ID=76233637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110470067.1A Active CN112949948B (zh) 2021-04-28 2021-04-28 电动汽车分时段换电需求区间预测的集成学习方法及系统

Country Status (1)

Country Link
CN (1) CN112949948B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236527B (zh) * 2023-11-13 2024-02-06 宁德市天铭新能源汽车配件有限公司 一种基于集成学习的汽车零部件需求预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020041998A1 (zh) * 2018-08-29 2020-03-05 财团法人交大思源基金会 优化预测模型的建立与预测结果获得系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823058B2 (en) * 2019-09-20 2023-11-21 Google Llc Data valuation using reinforcement learning
CN112101738B (zh) * 2020-08-20 2024-10-15 北京骑胜科技有限公司 任务信息生成方法、装置、电子设备和可读存储介质
CN112213643B (zh) * 2020-09-30 2023-06-23 蜂巢能源科技有限公司 电池初始容量、电池健康状态的预测方法、系统及设备
CN112258251B (zh) * 2020-11-18 2022-12-27 北京理工大学 基于灰色关联的电动汽车换电需求的集成学习预测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020041998A1 (zh) * 2018-08-29 2020-03-05 财团法人交大思源基金会 优化预测模型的建立与预测结果获得系统及方法

Also Published As

Publication number Publication date
CN112949948A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112258251B (zh) 基于灰色关联的电动汽车换电需求的集成学习预测方法及系统
CN106251027B (zh) 基于模糊支持向量分位数回归的电力负荷概率密度预测方法
Liu et al. Heating load forecasting for combined heat and power plants via strand-based LSTM
CN110895773A (zh) 一种基于广义需求侧资源的dbn电网负荷预测方法及装置
CN116128150B (zh) 一种基于两级优化的光伏智能出力预测方法
CN112200346B (zh) 一种天气波动过程划分与匹配的短期风电功率预测方法
CN115481788B (zh) 相变储能系统负荷预测方法及系统
CN112949948B (zh) 电动汽车分时段换电需求区间预测的集成学习方法及系统
CN113193551A (zh) 基于多因素和改进特征筛选策略的短期电力负荷预测方法
CN112348287A (zh) 基于lstm分位数回归的电力系统短期负荷概率密度预测方法
CN116826710A (zh) 基于负荷预测的削峰策略推荐方法、装置及存储介质
CN117595231A (zh) 一种智能电网配网管理系统及其方法
CN110570091A (zh) 基于改进F-score特征选择及粒子群BP神经网络的负荷辨识方法
CN109934396A (zh) 一种基于两阶段还原的地区网供负荷精细化预测方法
CN117374917A (zh) 一种超短期电力负荷的多元回归预测方法及装置
CN110489893B (zh) 一种基于可变权值的母线负荷预测方法及系统
CN111915084A (zh) 一种基于神经网络的混合型光伏发电功率预测方法及系统
CN110852628A (zh) 考虑发展模式影响的农村中长期负荷预测方法
CN116227738A (zh) 一种电网客服话务量区间预测方法及系统
CN116484998A (zh) 基于气象相似日的分布式光伏电站功率预测方法及系统
CN111797981B (zh) 一种基于双向长短期记忆神经网络的单日光伏发电量预测方法
CN115759343A (zh) 一种基于e-lstm的用户电量预测方法和装置
CN112348235B (zh) 风光母线负荷自适应预测方法、装置、计算机设备
CN113850443A (zh) 一种基于非参数Bootstrap误差抽样的短期电力负荷区间预测方法
CN113537575A (zh) 一种含分布式光伏和电动汽车并网的趋势负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant