CN112949948B - 电动汽车分时段换电需求区间预测的集成学习方法及系统 - Google Patents
电动汽车分时段换电需求区间预测的集成学习方法及系统 Download PDFInfo
- Publication number
- CN112949948B CN112949948B CN202110470067.1A CN202110470067A CN112949948B CN 112949948 B CN112949948 B CN 112949948B CN 202110470067 A CN202110470067 A CN 202110470067A CN 112949948 B CN112949948 B CN 112949948B
- Authority
- CN
- China
- Prior art keywords
- day
- training set
- prediction
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 title abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000002790 cross-validation Methods 0.000 claims abstract description 18
- 238000010219 correlation analysis Methods 0.000 claims abstract description 13
- 238000007637 random forest analysis Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000007636 ensemble learning method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000006872 improvement Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 101100542977 Arabidopsis thaliana PIPC gene Proteins 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- IVBHGBMCVLDMKU-GXNBUGAJSA-N piperacillin Chemical compound O=C1C(=O)N(CC)CCN1C(=O)N[C@H](C=1C=CC=CC=1)C(=O)N[C@@H]1C(=O)N2[C@@H](C(O)=O)C(C)(C)S[C@@H]21 IVBHGBMCVLDMKU-GXNBUGAJSA-N 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电动汽车分时段换电需求区间预测的集成学习方法及系统,包括:将预处理后的数据集分为训练集和测试集;选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测;对测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果。本发明能够在满足一定覆盖率的基础上有效降低预测区间宽度,并且有较快的求解速度。
Description
技术领域
本发明涉及电动汽车技术领域,具体涉及一种电动汽车分时段换电需求区间预测的集成学习方法及系统。
背景技术
大力发展新能源汽车对促进我国交通领域节能减排、推进汽车行业技术变革、提升我国汽车制造业在国际中核心竞争力具有重要意义。新能源电动汽车换电模式具有购车成本底、高效补能、延长电池寿命等优势,有效缓解了新能源电动汽车续航里程焦虑等现象,为新能源产业技术革新与发展来新机遇。虽然我国电动汽车数量急剧增长,但是换电模式普及率较低,其主要原因有换电站服务率较低、换电站运营成本较高以及电池标准不统一等。
为提高换电站服务质量、减少换电站运营成本、推动电动汽车换电模式的发展,换电站运营商需要准确预测电动汽车的换电需求,为此需要对电动汽车换电需求进行准确预测。但是当前经济发展迅速,人们行为具有高度的不确定性,对于这样不确定性高,且发展复杂的系统,采用点预测的方式进行预测的可靠性比较低,而使用区间预测为决策提供数据支持能够成为一种更稳定可靠的解决方法,更符合实际状况。目前也有许多区间预测方法,如如基于预测模型如神经网络的Delt方法,基于后验分布的Bayesian方法,均值方差方法、分位数回归以及计算量大但实施比较简单的自举法(Bootstrap)方法。这些方法都是基于统计学习方法进行预测,且其依赖的单一的机器学习方法有本身的工作偏向。为了能够使得预测的区间宽度更窄且能够保证预测的点能够落到预测的区间内达到一定的覆盖率,所以通过即结合多种基学习器构建集成预测器来提高预测准确率。集成预测方法有投票法(voting)、袋装法(bagging)、提升法(boosting)、堆叠法(stacking)等等,这些集成学习方法在预测方面的效果都比单一的方法进行预测有着更好的性能。
发明内容
针对现有技术中存在的上述问题,本发明提供一种电动汽车分时段换电需求区间预测的集成学习方法及系统,其可在满足一定的覆盖率下使得预测的区间更窄、更准确。
本发明公开了一种电动汽车分时段换电需求区间预测的集成学习方法,包括:
构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
式中,T为数据集,xi为第i个样本,i取1,···,n,n为样本数;为样本 i的第j个特征,j取1,···,m,m为特征数;Yi为样本i的标签,即电动汽车在每个时间段的换电需求量,i取1,···,n。
作为本发明的进一步改进,所述数据集的特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间 [0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例。
作为本发明的进一步改进,所述数据集的预处理为对数据进行归一化;
所述训练集包括训练子集和验证集,所述训练子集为总数据量的70%,所述验证集和测试集均为总数据量的15%;
所述基学习器包括K近邻、支持向量回归、岭回归、随机森林、浅层神经网络、梯度提升回归分位树和随机森林分位回归树。
作为本发明的进一步改进,所述采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,包括:
采用六折交叉验证;
将训练集平均分成6份,分别为T1、T2、T3、T4、T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;
通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到一定的覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7 个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
当进行预测时,将所有基学习器在整个训练子集上进行训练。
作为本发明的进一步改进,使用灰色关联分析在训练集中选择与第i个样本最相关的M(i1,i2,…,iM)天,作为相似日训练集Ti;
作为本发明的进一步改进,所述灰色关联分析,包括:
计算灰色关联系数ξ0i,然后计算灰色关联度γ0i,对于输入的测试集样本x0和训练集中的样本xi,灰色关联系数计算公式为:
根据计算出来灰色关联度,从训练集中选取最相关的M个样本作为相似日训练集。
作为本发明的进一步改进,所述优化模型为:
式中,M为相似日训练集中样本个数,为集成预测器预测区间的上界,为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,和为取整后的上界与下界;θ1,θ2,θ3为正则项的系数,其他类似,每个α都是权重系数;α0,β0为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;为样本xd,h的第k个特征; pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
k=1,2,3,4;通过随机森林进行点预测时计算的每个特征的重要性系数,根据重要性系数按从大到小进行排序,按照重要性系数选择前四个特征;所选择的特征为前一天对应时刻行驶里程(x(10))、前一天日行驶里程 (x(9))、前一天对应时刻电池剩余量(SOC)在区间[20%,40%]的电动汽车数量占总数量的比例(x(17))、为预测日的前一天在对应时间段所有电动汽车的换电需求量(x(8))。
作为本发明的进一步改进,所述优化模型分成三个阶段进行求解,包括:
阶段一:
1.若min(U)≤yi≤max(L),则zi=1;
2.若yi-max(U)>1或min(L)-yi>1,则zi=0;
3.其他情况,zi为变量;
阶段二:
将阶段一预处理的zi入优化模型的松弛模型进行求解,松弛模型如下:
zi∈{0,1}
阶段三:
将阶段二求解得到的zi带入上述优化模型进行求解。
本发明还公开了一种电动汽车分时段换电需求区间预测的集成学习系统,包括:
构建模块,用于构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
训练模块,用于选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
分析模块,用于对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
建立模块,用于根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
预测模块,用于基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
与现有技术相比,本发明的有益效果为:
本发明考虑了集成预测器的覆盖率和预测的区间宽度,与预测效果最好的基学习器相比能够在满足一定的预测覆盖率的基础上有效降低预测的区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
附图说明
图1为本发明一种实施例公开的电动汽车分时段换电需求区间预测的集成学习方法的流程图;
图2为本发明一种实施例公开的电动汽车分时段换电需求区间预测的集成学习系统的框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种电动汽车换电需求分时段区间预测集成学习方法及系统,属于机器学习技术领域;该方法涉及到两个主要方面,第一个方面是建立满足一定覆盖率的优化模型;第二个方面是为了加快该模型的求解,将模型拆分为三个阶段进行求解。为提高预测准确率,本发明对于每个输入的预测样本,基于灰色关联分析选择其最佳相似日训练集,进而为集成预测器权重的求解提供最相关的训练集来提高模型的预测精度。为了提高集成预测器的泛化性,本发明建立了一个带有加权的L1范数正则项的优化模型,该优化模型所建立的集成预测器利用了基学习器的输出结果、基学习器输出结果的排序、重要性特征以及在该时段的预测均值为信息,这些信息的权重系数将通过该优化模型来求解。本发明同时考虑了集成预测器预测的覆盖率和区间宽度,与预测效果最好的基学习器相比能够在满足一定覆盖率的基础上有效降低区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种电动汽车分时段换电需求区间预测的集成学习方法,包括:
步骤1、特征选择、构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;其中,
对于采集到的电动汽车行驶记录数据,其特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间 [0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例。
式中,T为数据集,xi为第i个样本,i取1,···,n,n为样本数;为样本 i的第j个特征,j取1,···,m,m为特征数;Yi为样本i的标签,即电动汽车在每个时间段的换电需求量,i取1,···,n。
训练集包括训练子集和验证集,训练子集为总数据量的70%,验证集和测试集均为总数据量的15%。
进一步,为了便于数据提取,可以将日期(年-月-日)添加到数据集中,但不作为特征输入到模型中。
步骤2、选择k个基学习器,采用交叉验证方式让每个基学习器对训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;通过不断调整参数进行训练并预测,使得预测的区间满足一定的覆盖率;其中,
基学习器的数量为7个,包括:K近邻(KNN)、支持向量回归(SVR)、岭回归(RR)、随机森林(RF)、浅层神经网络(MLP)、梯度提升回归分位树(GBRT) 和随机森林分位回归树(RFQ);
对于K近邻(KNN)、支持向量回归(SVR)、岭回归(RR)、随机森林(RF)、浅层神经网络(MLP)这五个机器学习方法,其区间预测方法将采用(Zhang J, Wang Y,Sun M,et al.Two-Stage Bootstrap Sampling for Probabilistic Load Forecasting[J].IEEETransactions on Engineering Management,2020.)中的方法,梯度提升回归分位树(GBRT)和随机森林分位回归树(RFQ)区间预测方法将采用95%和5%分位数作为预测区间的上界和下界。
交叉验证采用六折交叉验证,假设fr(·)为第r个基学习器(r=1,2,3,4,5),通过交叉验证方式,并采用文献中可以得到7个基学习器在训练集中的预测结果fr(xi)。
具体的:
采用六折交叉验证;将训练集平均分成6份,分别为T1、T2、T3、T4、 T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到一定的覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P 的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7 个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
当进行预测时,将所有基学习器在整个训练子集上进行训练。
由于最终的集成预测方法是结合基学习器而集成的,所以基学习器预测准确率提高必然会提高集成预测方法的准确率。所以在进行训练和预测的时候,所有基学习器超参数均采用python中sklearn包中的默认值。
步骤3、对测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;其中,
使用灰色关联分析在训练集中选择与第i个样本最相关的M(i1,i2,…,iM) 天,作为相似日训练集Ti;
灰色关联分析,包括:
计算灰色关联系数ξ0i,然后计算灰色关联度γ0i,对于输入的测试集样本x0和训练集中的样本xi,灰色关联系数计算公式为:
计算出输入的测试集样本与训练集中集所有样本在每个特征的灰色关联系数后,计算出输入的测试集样本和训练集中每个样本的灰色关联度γ0i,即取每个灰色关联系数的平均值,计算出来的灰色关联度值越大相关性越高;根据计算出来灰色关联度,从训练集中选取最相关的 M个样本作为相似日训练集;其中,M通常取训练集样本总量的75%。
步骤4、根据各基学习器在最佳相似日训练集中的预测结果,建立满足一定覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;其中,
优化模型为:
式中,M为相似日训练集中样本个数,为集成预测器预测区间的上界,为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,和为取整后的上界与下界;θ1,θ2,θ3为正则项的系数,其他类似,每个α都是权重系数;α0,β0为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;为样本xd,h的第k个特征;其中,参数θ1,θ2,θ3可以在训练集中采用交叉验证的方式寻找最佳的θ1,θ2,θ3,即将训练集平均分为6份,选取其中五份作为训练集,另一份作为验证集进行预测,每一份预测均可得到一个评估指标,由于分为了6份,便可以得到6 个评估指标,取该6个评估指标的平均值作为该参数在某一数值最终的预测效果表现,通过不断循坏迭代,找到评估指标最优的值作为预测时参数所取得值,本实例中优选得评估指标为覆盖率PIPC和区间预测宽度CMPIW;
pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
k=1,2,3,4;通过随机森林进行点预测时计算的每个特征的重要性系数,根据重要性系数按从大到小进行排序,按照重要性系数选择前四个特征;所选择的特征为前一天对应时刻行驶里程(x(10))、前一天日行驶里程 (x(9))、前一天对应时刻电池剩余量(SOC)在区间[20%,40%]的电动汽车数量占总数量的比例(x(17))、为预测日的前一天在对应时间段所有电动汽车的换电需求量(x(8))。
上述优化模型分成三个阶段进行求解,包括:
阶段一:
1.若min(U)≤yi≤max(L),则zi=1;
2.若yi-max(U)>1或min(L)-yi>1,则zi=0;
3.其他情况,zi为变量;
阶段二:
将阶段一预处理的zi入优化模型的松弛模型进行求解,松弛模型如下:
zi∈{0,1}
阶段三:
将阶段二求解得到的zi带入上述优化模型进行求解。
步骤5、基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于集成预测器得到集成学习预测结果;其中,集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
如图2所示,本发明提供一种电动汽车分时段换电需求区间预测的集成学习系统,包括:
构建模块,用于实现上述步骤1;
训练模块,用于实现上述步骤2;
分析模块,用于实现上述步骤3;
建立模块,用于实现上述步骤4;
预测模块,用于实现上述步骤5。
本发明的优点为:
本发明同时考虑了集成预测器预测结果的覆盖率和区间宽度,与预测效果最好的基学习器相比能够在满足一定覆盖率的基础上有效降低预测的区间宽度,能够更加适应实际中获取的数据集,并且可以应用于其他数据集,实用性更强。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种电动汽车分时段换电需求区间预测的集成学习方法,其特征在于,包括:
构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
根据各基学习器在最佳相似日训练集中的预测结果,建立想要达到的覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合;
其中,
所述数据集的特征包括:
x(1)为星期,编码从1到7;
x(2)为是否为周末,是则编码为1,否则为0;
x(3)为天气,分为晴天、阴天、雨天或雪天,并分别编码为1,2,3;
x(4)为当日的最高气温值;
x(5)为当日的最低气温值;
x(6)为时刻,将一天分为12个时间段,每两个小时作为一个时间段,并分别编码为1,3,5,7,9,11,13,15,17,19,21,23;
x(7)为上周同一天在对应时间段的所有电动汽车换电需求量;
x(8)为预测日的前一天在对应时间段所有电动汽车的换电需求量;
x(9)为所有电动汽车在预测日前一天的行驶里程;
x(10)为所有电动汽车在预测日前一天在对应时间段的行驶里程;
x(11)~x(15)分别为在预测日前一天所有车辆结束行驶时,其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
x(16)~x(20)分别为在预测日前一天在对应时间段其电池剩余量在区间[0,20%]、[20%,40%]、[40%,60%]、[60%,80%]、[80%,100%]的车辆占所有电动汽车的比例;
所述优化模型为:
fi L≤fi Lz≤fi L+1
fi U-1≤fi Uz≤fi U
fi Lz≤fi Uz
yi≤fi Uz+Bi(1-zi)
yi≥fi Lz+Bi(1-zi)
zi∈{0,1},fi Uz,fi Lz为整数
式中,M为相似日训练集中样本个数,fi U为集成预测器预测区间的上界,fi L为集成预测器预测的区间下界;由于该值为连续值,而电动汽车换电数量都为整数值,所以上界进行向下取整,下界进行向上取整,fi Uz和fi Lz为取整后的上界与下界;θ1,θ2,θ3为正则项的系数,其他类似,每个α都是权重系数;α0,β0为常数项;sort[]为对括号内的元素从小到大进行排序;P为想要达到的覆盖率;为样本xd,h的第k个特征;pre(xd,h)为第d天预测值,并根据如下公式得到在每个时间段的预测值:
其中,αTfd为在第d天得到的预测值,YD,h为第D天第h时间段的实际换电需求,YD为第D天的电动汽车总换电需求;
2.如权利要求1所述的集成学习方法,其特征在于,所述数据集的预处理为对数据进行归一化;
所述训练集包括训练子集和验证集,所述训练子集为总数据量的70%,所述验证集和测试集均为总数据量的15%;
所述基学习器包括K近邻、支持向量回归、岭回归、随机森林、浅层神经网络、梯度提升回归分位树和随机森林分位回归树。
3.如权利要求2所述的集成学习方法,其特征在于,所述采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,包括:
采用六折交叉验证;
将训练集平均分成6份,分别为T1、T2、T3、T4、T5、T6,将其中5份作为训练子集来训练基学习器,另一份作为验证集用基学习器进行预测;
通过不断调整K近邻、支持向量回归、岭回归、随机森林和浅层神经网络中所采用的系数,以及梯度提升回归分为树和随机森林分位回归树中的分位数;重复训练及预测,使得每个基学习器在训练集中的预测区间达到想要达到覆盖率P,最终得到每个基学习器在训练集中满足覆盖率P的区间预测结果;
其中,fr(·)为第r个基学习器,r=1,2,3,4,5,6,7通过交叉验证方式,得到7个基学习器在训练集中的区间预测结果,对于每个样本xi,由于在数据中知道其日期以及在特征中有时间段特征,则用xd,h表示样本为第d天时间段为h的样本,则区间上界和下界分别表示为:
当进行预测时,将所有基学习器在整个训练子集上进行训练。
7.一种实现如权利要求1~6中任一项所述的集成学习方法的系统,其特征在于,包括:
构建模块,用于构建数据集并进行预处理,将预处理后的数据集分为训练集和测试集;
训练模块,用于选择k个基学习器,采用交叉验证方式让每个基学习器对所述训练集的样本进行训练并预测,得到训练集中每个样本的预测区间;
分析模块,用于对所述测试集中的每一个输入样本,通过灰色关联分析选择该输入样本的最佳相似日训练集;
建立模块,用于根据各基学习器在最佳相似日训练集中的预测结果,建立想要达到的覆盖率的区间宽度最小化的优化模型,并采用带权重系数的L1范数作为正则项;
预测模块,用于基于优化模型求解得到的集成预测器的所需要的权重系数,得到集成预测器,基于所述集成预测器得到集成学习预测结果;其中,所述集成预测器的输出是各基学习器的输出、排序结果、基础特征、日前换电需求预测结果在各时段的均值的线性加权组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470067.1A CN112949948B (zh) | 2021-04-28 | 2021-04-28 | 电动汽车分时段换电需求区间预测的集成学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470067.1A CN112949948B (zh) | 2021-04-28 | 2021-04-28 | 电动汽车分时段换电需求区间预测的集成学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949948A CN112949948A (zh) | 2021-06-11 |
CN112949948B true CN112949948B (zh) | 2022-06-21 |
Family
ID=76233637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110470067.1A Active CN112949948B (zh) | 2021-04-28 | 2021-04-28 | 电动汽车分时段换电需求区间预测的集成学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949948B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236527B (zh) * | 2023-11-13 | 2024-02-06 | 宁德市天铭新能源汽车配件有限公司 | 一种基于集成学习的汽车零部件需求预测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020041998A1 (zh) * | 2018-08-29 | 2020-03-05 | 财团法人交大思源基金会 | 优化预测模型的建立与预测结果获得系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823058B2 (en) * | 2019-09-20 | 2023-11-21 | Google Llc | Data valuation using reinforcement learning |
CN112101738B (zh) * | 2020-08-20 | 2024-10-15 | 北京骑胜科技有限公司 | 任务信息生成方法、装置、电子设备和可读存储介质 |
CN112213643B (zh) * | 2020-09-30 | 2023-06-23 | 蜂巢能源科技有限公司 | 电池初始容量、电池健康状态的预测方法、系统及设备 |
CN112258251B (zh) * | 2020-11-18 | 2022-12-27 | 北京理工大学 | 基于灰色关联的电动汽车换电需求的集成学习预测方法及系统 |
-
2021
- 2021-04-28 CN CN202110470067.1A patent/CN112949948B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020041998A1 (zh) * | 2018-08-29 | 2020-03-05 | 财团法人交大思源基金会 | 优化预测模型的建立与预测结果获得系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112949948A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112258251B (zh) | 基于灰色关联的电动汽车换电需求的集成学习预测方法及系统 | |
CN106251027B (zh) | 基于模糊支持向量分位数回归的电力负荷概率密度预测方法 | |
Liu et al. | Heating load forecasting for combined heat and power plants via strand-based LSTM | |
CN110895773A (zh) | 一种基于广义需求侧资源的dbn电网负荷预测方法及装置 | |
CN116128150B (zh) | 一种基于两级优化的光伏智能出力预测方法 | |
CN112200346B (zh) | 一种天气波动过程划分与匹配的短期风电功率预测方法 | |
CN115481788B (zh) | 相变储能系统负荷预测方法及系统 | |
CN112949948B (zh) | 电动汽车分时段换电需求区间预测的集成学习方法及系统 | |
CN113193551A (zh) | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 | |
CN112348287A (zh) | 基于lstm分位数回归的电力系统短期负荷概率密度预测方法 | |
CN116826710A (zh) | 基于负荷预测的削峰策略推荐方法、装置及存储介质 | |
CN117595231A (zh) | 一种智能电网配网管理系统及其方法 | |
CN110570091A (zh) | 基于改进F-score特征选择及粒子群BP神经网络的负荷辨识方法 | |
CN109934396A (zh) | 一种基于两阶段还原的地区网供负荷精细化预测方法 | |
CN117374917A (zh) | 一种超短期电力负荷的多元回归预测方法及装置 | |
CN110489893B (zh) | 一种基于可变权值的母线负荷预测方法及系统 | |
CN111915084A (zh) | 一种基于神经网络的混合型光伏发电功率预测方法及系统 | |
CN110852628A (zh) | 考虑发展模式影响的农村中长期负荷预测方法 | |
CN116227738A (zh) | 一种电网客服话务量区间预测方法及系统 | |
CN116484998A (zh) | 基于气象相似日的分布式光伏电站功率预测方法及系统 | |
CN111797981B (zh) | 一种基于双向长短期记忆神经网络的单日光伏发电量预测方法 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 | |
CN112348235B (zh) | 风光母线负荷自适应预测方法、装置、计算机设备 | |
CN113850443A (zh) | 一种基于非参数Bootstrap误差抽样的短期电力负荷区间预测方法 | |
CN113537575A (zh) | 一种含分布式光伏和电动汽车并网的趋势负荷预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |