CN116595363A - 预测方法、装置、设备、存储介质和计算机程序产品 - Google Patents
预测方法、装置、设备、存储介质和计算机程序产品 Download PDFInfo
- Publication number
- CN116595363A CN116595363A CN202310466756.4A CN202310466756A CN116595363A CN 116595363 A CN116595363 A CN 116595363A CN 202310466756 A CN202310466756 A CN 202310466756A CN 116595363 A CN116595363 A CN 116595363A
- Authority
- CN
- China
- Prior art keywords
- data
- historical
- feature
- charging load
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004590 computer program Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 16
- 238000002790 cross-validation Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Power Engineering (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种预测方法、装置、设备、存储介质和计算机程序产品。方法包括:获取充电场站历史时间段内的历史订单数据;根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。采用本方法通过数据驱动充电负荷预测,提高预测的准确度,降低预测结果的波动性,提高预测的可靠性。
Description
技术领域
本申请涉及电动汽车相关技术领域,特别是涉及一种预测方法、装置、设备、存储介质和计算机程序产品。
背景技术
随着新能源技术的蓬勃发展,电动汽车的数量逐渐增多。作为对电动汽车进行充电的充电设施,电动汽车充电场站对于电动汽车的发展发挥着重要的作用。为了提高充电场站运行的可靠性,需要对电动汽车充电场站的负荷进行准确预测。
现有技术中对于电动汽车充电场站的负荷预测,大多是通过经验分析或者基于统计数据建立负荷模型,预测方法十分简单,无法深入的获取到充电场站数据的内在关系,预测结果具有较大的波动性,预测准确度不高,可靠性低。
发明内容
基于此,有必要针对上述技术问题,提供一种可靠性高的预测方法、装置、设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种预测方法。该方法包括:
获取充电场站历史时间段内的历史订单数据;
根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
在其中一个实施例中,根据历史订单数据获取历史时间段对应的历史充电负荷数据,包括:
对历史订单数据进行数据筛选,得到预设时间内的充电负荷数据;
对预设时间内的充电负荷数据进行归一化处理,得到历史充电负荷数据。
在其中一个实施例中,根据历史订单数据获取历史充电负荷数据对应的场景变量数据,包括:
对历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据;
分别获取扩展后的天气特征数据和扩展后的时间特征数据与历史订单数据的相关性系数;
根据相关性系数对扩展后的天气特征数据和扩展后的时间特征数据进行特征选择,得到场景变量数据。
在其中一个实施例中,对历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据,包括:
根据多项式特征拓展模型对天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据。
在其中一个实施例中,该方法还包括:
获取样本数据集,样本数据集包括多个训练输入数据,训练输入数据包括根据样本订单数据获取的样本充电负荷数据以及样本场景变量数据;
利用样本数据集对初始回归模型进行交叉验证训练,得到目标回归模型。
在其中一个实施例中,利用样本数据集对初始回归模型进行交叉验证训练,得到目标回归模型,包括:
将样本数据集分为若干组互斥的样本数据子集,样本数据子集包括训练子集和验证子集;
根据各训练子集对初始回归模型进行训练,通过各训练子集对应的验证子集验证当前训练后得到的模型的预测精度;
将预测精度满足精度条件时的模型参数作为目标参数,根据目标参数确定目标回归模型。
第二方面,本申请还提供了一种预测装置。该装置包括:
数据获取模块,用于获取充电场站历史时间段内的历史订单数据;
数据处理模块,用于根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
预测模块,用于将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取充电场站历史时间段内的历史订单数据;
根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取充电场站历史时间段内的历史订单数据;
根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取充电场站历史时间段内的历史订单数据;
根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
上述预测方法、装置、设备、存储介质和计算机程序产品,通过获取充电场站历史时间段内的历史订单数据;根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。该方法通过目标回归模型对电动汽车充电场站的目标充电负荷数据进行预测,在预测前对充电场站的历史订单数据的数据处理,通过数据处理后的历史充电负荷数据以及与历史订单发生时的场景数据相关的常数变量数据,实现对目标充电负荷数据的预测。本申请通过数据驱动充电负荷预测,提高预测的准确度,降低预测结果的波动性,提高预测的可靠性。
附图说明
图1为一个实施例中预测方法的应用环境图;
图2为一个实施例中预测方法的流程图;
图3为一个实施例中得到历史充电负荷数据的流程图;
图4为一个实施例中得到场景变量数据的流程图;
图5为另一个实施例中预测方法的流程示意图;
图6为一个实施例中预测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104获取充电场站历史时间段内的历史订单数据;根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。其中,终端102可以是各充电场站的控制设备,也可以是与各充电场站连接的物联网设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种预测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取充电场站历史时间段内的历史订单数据。
其中,历史订单表示该充电场站在历史时间段内产生的订单数据,根据历史订单数据获取历史订单数据中内在的数据联系,通过对历史订单数据之间关系的分析,可以将历史订单数据用于预测未来的数据。
进一步的,对于获取的历史订单数据还可以进行数据的预处理,例如对历史订单数据进行数据对齐,滤除无效信息等操作。对历史订单数据进行预处理可以去除历史订单数据中的无效数据,便于后期预测的准确性。
步骤204,根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息。
其中,历史充电负荷数据表示在历史时间段内所有订单的充电负荷总数,根据历史充电负荷数据可以得到整体的充电负荷需求情况,可以用于对未来的充电负荷数据进行预测。场景变量数据表示历史订单发生时对应的场景信息,可以是天气变量数据、时间变量数据、需求变量数据等,场景变量数据可以用于对充电时的不用场景进行区分,提高预测的精准度。
示例性地,电动汽车的充电行为虽然具备随机性,但是也有一定的规律性。用户的充电行为可能会根据天气情况,节假日情况,汽车剩余电量等情况产生变化。如在天气情况不佳的情况下,例如下雨下雪天,电动汽车充电的概率会降低。又或者在节假日前,电动汽车的充电概率又会增大,以使电动汽车在节假日可以正常使用。
步骤206,将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
其中,目标回归模型用于根据历史充电负荷数据和场景变量数据进行预测,得到目标充电负荷数据。回归模型可以是线性回归模型、决策树回归模型等基于不同的回归算法得到。本实施例通过对回归模型进行优化控制和改进,得到用于进行预测目标充电符合的目标回归模型,可以提高预测的准确性。
上述预测方法中,通过获取充电场站历史时间段内的历史订单数据;根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。该方法通过目标回归模型对电动汽车充电场站的目标充电负荷数据进行预测,在预测前对充电场站的历史订单数据的数据处理,通过数据处理后的历史充电负荷数据以及与历史订单发生时的场景数据相关的常数变量数据,实现对目标充电负荷数据的预测。本申请通过数据驱动充电负荷预测,提高预测的准确度,降低预测结果的波动性,提高预测的可靠性。
在一个实施例中,如图3所示,根据历史订单数据获取历史时间段对应的历史充电负荷数据,包括以下步骤:
步骤302,对历史订单数据进行数据筛选,得到预设时间内的充电负荷数据。
由于历史订单数据中的充电负荷数据可以反映充电场站的充电负荷需求,可以将历史订单数据中的充电负荷数据提取出并进一步分析。
进一步的,在获取充电负荷数据时,可以根据电动汽车的标识为主要标识进行数据处理,在历史订单数据中针对每辆电动汽车进行数据筛选,得到每辆电动汽车单独的充电负荷数据。然后在根据预设时间将每辆电动汽车获取的充电负荷数据进行汇总,例如将同一个小时内开始的所有历史订单数据汇总在一起,得到表示该小时内充电需求的充电负荷数据。
步骤304,对预设时间内的充电负荷数据进行归一化处理,得到历史充电负荷数据。
其中,归一化处理是对筛选后的预设时间内的充电负荷数据进行数据整理。归一化处理可以将获取的数据的量级进行统一,以避免不同量级的数据对预测结果的影响,提高预测结果的精准度。归一化处理可以是min-max归一化、Z-score归一化、数据类型归一化、格式归一化等。
示例性地,本实施例的充电负荷数据的量级可以从几千瓦时到几千千瓦时的多个量级之间变化,为了提高预测精度,本实施例以通过min-max缩放器对获取的充电负荷数据进行归一化处理为例,提高对目标负荷数据的预测精准度。min-max缩放器是对原始数据的线性变换,以使归一化结果映射到[0-1]之间。
本实施例通过对获取的历史订单数据进行筛选,得到用于表征充电负荷需求的历史充电负荷数据,通过对历史充电负荷数据的归一化处理,提高数据处理的精准度。
在一个实施例中,如图4所示,根据历史订单数据获取历史充电负荷数据对应的场景变量数据,包括:
步骤402,对历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据。
其中,天气特征数据表示历史订单数据中的天气特征,例如天气状况、温度等,通过天气特征数据可以得到充电行为发生时的天气情况。时间特征数据表示历史订单数据中的时间特征,例如年月日、是否节假日等,通过时间特征数据可以确定充电行为发生时的时间。对于获取的天气特征数据和时间特征数据,可以通过特征扩展的方式丰富特征数据的维度,以使预测模型获取到更多的信息。
示例性地,可以通过对历史订单数据的分析获取天气特征数据和时间特征数据。例如,可以基于pandas从逗号分隔值(CSV)文件中加载获取特征数据。进一步的,对于获取的特征数据,可以通过检查并修正字符串编码的方式对获取的特征数据进行分类,得到天气特征数据和时间特征数据。
例如,当根据历史订单数据获取到特征数据后,先检查每一列特征数据是否包括有意义的分类数据,可以基于pandas series的value_counts函数对该列数据的内容进行检查,以显示出唯一值及出现次数。
在一种实现方式中,在对天气特征数据和时间特征数据进行特征拓展前,可以对获取的天气特征数据和时间特征数据进行编码。
例如,为了更好的表示分类变量,可以使用one-hot编码方法对天气特征数据和时间特征数据进行编码。one-hot编码采用[0,0,……1,0,0]的形式对特征数据进行编码,其中,1表示该特征数据属于哪个类别,其他位置表示为0。通过get_dummies函数可以自动变换所有具有对象类型的列或所有分类的列,对象类型例如字符串,分类特征的每个可能取值都被扩展为一个新的特征,通过value属性将data_dummies数据框转换为NumPy数组。
步骤404,分别获取扩展后的天气特征数据和扩展后的时间特征数据与历史订单数据的相关性系数。
其中,相关性系数用于表征特征数据与历史订单数据之间的相关性,相关性系数大的特征数据表示该特征数据与历史订单数据的相关度高,也就是说,该特征数据的重要性强。
示例性地,可以获取特征数据与历史订单数据中历史负荷数据的相关性,例如可以通过与历史负荷数据的相关性系数的计算,得到代价值和时间相关的特征数据与历史负荷数据的相关性。
步骤406,根据相关性系数对扩展后的天气特征数据和扩展后的时间特征数据进行特征选择,得到场景变量数据。
示例性地,根据前述步骤计算得到的相关性系数,在特征扩展后的特征数据中进行特征选择,对相关性高的特征数据进行选择,也就是对重要性高的特征数据进行保留。在进行特征选择时,可以设置阈值对前述步骤得到的相关性系数进行判断,保留相关性系数大于阈值的特殊数据。例如,可以通过监督机器学习模型来判断每个特征的重要性,可以基于SelectFromModel类选出相关性系数大于给定阈值的所有特征数据,用于后续步骤的计算。
本实施例中,通过对特征数据的提取、扩展、选择等数据处理,以使通过根据历史订单数据获取的数据可以更准确的反应充电负荷数据的特征,提高对目标充电负荷数据预测的准确性。
在一个实施例中,对历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据,包括:根据多项式特征拓展模型对天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据。
示例性地,多项式特征拓展模型基于多项式特征和线性回归模型构建,多项式特征拓展模型可以增加特征数据的维度,以提供更多特征维度的特征数据。由于获取的特征数据包括负荷需求、代价值、时间、天气、节假日、温度等特征数据,通过特征扩展可以丰富特征数据的特征维度,为预测模型提供更多的信息。本实施例通过多项式实现特征扩展,可以基于preprocessing模块的Polynomial Features模块,对于获取特征数据中的某一原始特征值,扩展为特征值的平方、特征值的立方、特征值的四次方等原始特征值的多项式形式,并将多项式特征与线性回归模型相结合构建多项式回归模型。
在一个实施例中,该方法还包括:获取样本数据集,样本数据集包括多个训练输入数据,训练输入数据包括根据样本订单数据获取的样本充电负荷数据以及样本场景变量数据;利用样本数据集对初始回归模型进行交叉验证训练,得到目标回归模型。
其中,样本数据集可以通过对历史订单数据进行自助采样后得到的样本订单数据获取。在进行模型训练时,可以将样本数据集中分为训练集和测试集,根据训练集的数据进行模型训练,再根据验证集的数据对训练的模型进行验证,迭代计算得到初始回归模型。
进一步的,为了完成模型参数的选择,本实施例可以使用网格搜索和交叉验证方法来选择提供最佳估计性能的最佳参数集,并使用R平方分数对模型参数的精度进行评估。
本实施例以随机森林算法为例,构建回归模型。随机森林是决策树的集合,其中每棵树都与其他树略有不同。使用随机森林算法可以通过随机森林的平均机制来减少每棵树的过拟合。因此,随机森林算法可以提供比单个决策树训练得到的模型更好的泛化性能。对于随机森林算法训练得到的模型参数,需要进行仔细的确认,所述模型参数包括每棵树的树数、最大深度和最大特征等,优化的模型参数可以提供更好的预测性能。
示例性地,根据历史订单数据进行自主采样,得到样本订单数据。从n_samples个数据点中有放回地重复随机抽取一个样本,共抽取n_samples次,其中,有放回地抽取表示即同一样本可以被多次抽取。基于train_test_split函数将数据集分为训练集和测试集,根据训练的初始回归模型确定树的个数,也就是随机森林算法中的n_estimators参数。随机森林的树被保存在estimator_属性中,还可以将每棵树学到的决策边界以及总预测(即整个森林做出的预测)进行可视化并对其分析。对初始回归模型进行交叉验证训练,得到目标回归模型。
在一个实施例中,利用样本数据集对初始回归模型进行交叉验证训练,得到目标回归模型,包括:将样本数据集分为若干组互斥的样本数据子集,样本数据子集包括训练子集和验证子集;根据各训练子集对初始回归模型进行训练,通过各训练子集对应的验证子集验证当前训练后得到的模型的预测精度;将预测精度满足精度条件时的模型参数作为目标参数,根据目标参数确定目标回归模型。
其中,交叉验证(Cross-validation)主要用于建模应用中,例如PCR、PLS回归建模中。交叉验证训练将回归模型的训练集分为训练子集和验证子集,其中训练子集包括大部分的样本数据,验证子集包括小部分的样本数据,通过验证子集对训练子集训练得到的模型进行精度验证,以得到精度最高的模型参数,通过交叉验证可以得到提高模型的可靠性。
示例性地,本实施例以五折交叉验证方法进行交叉验证。以上述实施例为例,根据样本数据子集对每组随进森林算法构建的初始回归模型的模型参数都训练一个随机森林模型。例如通过一个字典指定要搜索的所有参数,然后GridSearchCV类会执行所有模型拟合。字典的键是需要调节的参数名称,如子树的数量、树的最大生长深度、叶子的最小样本数量、分支节点的最小样本数量和最大选择特征数等,字典的值是尝试的参数设置。
将样本数据集分为五组互斥的样本数据子集,每组样本数据子集包括训练子集和验证子集,每组样本数据子集可以成为一折。首先将第一折作为验证子集,第二至第五折作为训练子集,对第一个模型进行训练,然后通过第二至第五折构建模型,并在第一折上评估精度,对于第二至第五折的数据也重复上述操作,根据每一折数据的计算结果可以得到交叉验证的平均精度。精度最高的模型参数表示为目标参数,根据目标参数得到目标回归模型。
在一个实施例中,如图5所示,一种应用与充电场站的目标充电负荷数据的预测方法包括:
步骤502,获取充电场站历史时间段内的历史订单数据。
步骤504,根据历史订单数据得到历史时间段对应的历史充电负荷数据,对历史充电负荷数据进行归一化处理。
步骤506,根据历史订单数据进行特征提取和编码,得到场景特征数据。
其中,场景特征数据包括用于表示天气情况的天气特征数据和用于表示日期的时间特征数据,根据时间特征数据可以对充电行为发生时的时间是否是节假日等进行判断。
步骤508,对获取的场景特征数据进行特征扩展,得到特征扩展后的场景变量数据。
其中,特征扩展可以通过多项式方式拓展特征数据的特征维度。
步骤510,根据场景变量数据和历史充电负荷数据构建初始回归模型。
步骤512,通过交叉验证的方法得到初始回归模型的目标参数,根据目标参数得到目标回归模型,通过目标回归模型预测目标充电负荷数据。
本实施例通过对历史订单数据的充分挖掘和分析,根据历史订单数据对未来充电场站的目标充电负荷数据进行预测。本实施例深入研究用户的充电行为,使得充电场站根据预测得到的目标负荷数据更好的制定调度策略以及参与电力市场等,从而使充电场站的利益最大化。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的预测方法的预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个预测装置实施例中的具体限定可以参见上文中对于预测方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种预测装置,包括:数据获取模块602、数据处理模块604和预测模块606,其中:
数据获取模块602,用于获取充电场站历史时间段内的历史订单数据;
数据处理模块604,用于根据历史订单数据获取历史时间段对应的历史充电负荷数据,并根据历史订单数据获取历史充电负荷数据对应的场景变量数据,场景变量数据用于表征历史订单发生时对应的场景信息;
预测模块606,用于将历史充电负荷数据和场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
在一个实施例中,数据处理模块604还用于对历史订单数据进行数据筛选,得到预设时间内的充电负荷数据;对预设时间内的充电负荷数据进行归一化处理,得到历史充电负荷数据。
在一个实施例中,数据处理模块604还用于对历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据;分别获取扩展后的天气特征数据和扩展后的时间特征数据与历史订单数据的相关性系数;根据相关性系数对扩展后的天气特征数据和扩展后的时间特征数据进行特征选择,得到场景变量数据。
在一个实施例中,数据处理模块604还用于根据多项式特征拓展模型对天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据。
在一个实施例中,该预测装置还用于获取样本数据集,样本数据集包括多个训练输入数据,训练输入数据包括根据样本订单数据获取的样本充电负荷数据以及样本场景变量数据;利用样本数据集对初始回归模型进行交叉验证训练,得到目标回归模型。
在一个实施例中,该预测装置还用于将样本数据集分为若干组互斥的样本数据子集,样本数据子集包括训练子集和验证子集;根据各训练子集对初始回归模型进行训练,通过各训练子集对应的验证子集验证当前训练后得到的模型的预测精度;将预测精度满足精度条件时的模型参数作为目标参数,根据目标参数确定目标回归模型。
上述预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史订单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和订单数据(包括但不限于用于分析的订单数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种预测方法,其特征在于,所述方法包括:
获取充电场站历史时间段内的历史订单数据;
根据所述历史订单数据获取所述历史时间段对应的历史充电负荷数据,并根据所述历史订单数据获取所述历史充电负荷数据对应的场景变量数据,所述场景变量数据用于表征所述历史订单发生时对应的场景信息;
将所述历史充电负荷数据和所述场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述历史订单数据获取所述历史时间段对应的历史充电负荷数据,包括:
对所述历史订单数据进行数据筛选,得到预设时间内的充电负荷数据;
对所述预设时间内的充电负荷数据进行归一化处理,得到所述历史充电负荷数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述历史订单数据获取所述历史充电负荷数据对应的场景变量数据,包括:
对所述历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据;
分别获取所述扩展后的天气特征数据和所述扩展后的时间特征数据与所述历史订单数据的相关性系数;
根据所述相关性系数对所述扩展后的天气特征数据和所述扩展后的时间特征数据进行特征选择,得到所述场景变量数据。
4.根据权利要求3所述的方法,其特征在于,所述对所述历史订单数据中的天气特征数据和时间特征数据进行特征扩展,得到扩展后的天气特征数据和扩展后的时间特征数据,包括:
根据多项式特征拓展模型对所述天气特征数据和所述时间特征数据进行特征扩展,得到所述扩展后的天气特征数据和所述扩展后的时间特征数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本数据集,所述样本数据集包括多个训练输入数据,所述训练输入数据包括根据样本订单数据获取的样本充电负荷数据以及样本场景变量数据;
利用所述样本数据集对初始回归模型进行交叉验证训练,得到所述目标回归模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述样本数据集对初始回归模型进行交叉验证训练,得到所述目标回归模型,包括:
将所述样本数据集分为若干组互斥的样本数据子集,所述样本数据子集包括训练子集和验证子集;
根据各所述训练子集对所述初始回归模型进行训练,通过各所述训练子集对应的所述验证子集验证当前训练后得到的模型的预测精度;
将所述预测精度满足精度条件时的模型参数作为目标参数,根据所述目标参数确定所述目标回归模型。
7.一种预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取充电场站历史时间段内的历史订单数据;
数据处理模块,用于根据所述历史订单数据获取所述历史时间段对应的历史充电负荷数据,并根据所述历史订单数据获取所述历史充电负荷数据对应的场景变量数据,所述场景变量数据用于表征所述历史订单发生时对应的场景信息;
预测模块,用于将所述历史充电负荷数据和所述场景变量数据输入至目标回归模型中,得到目标时间段内的目标充电负荷数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466756.4A CN116595363A (zh) | 2023-04-23 | 2023-04-23 | 预测方法、装置、设备、存储介质和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466756.4A CN116595363A (zh) | 2023-04-23 | 2023-04-23 | 预测方法、装置、设备、存储介质和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595363A true CN116595363A (zh) | 2023-08-15 |
Family
ID=87592872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310466756.4A Pending CN116595363A (zh) | 2023-04-23 | 2023-04-23 | 预测方法、装置、设备、存储介质和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595363A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117856257A (zh) * | 2024-03-08 | 2024-04-09 | 国网天津市电力公司电力科学研究院 | 充电场站用电负荷的预测方法、装置、设备及介质 |
-
2023
- 2023-04-23 CN CN202310466756.4A patent/CN116595363A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117856257A (zh) * | 2024-03-08 | 2024-04-09 | 国网天津市电力公司电力科学研究院 | 充电场站用电负荷的预测方法、装置、设备及介质 |
CN117856257B (zh) * | 2024-03-08 | 2024-05-24 | 国网天津市电力公司电力科学研究院 | 充电场站用电负荷的预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
CN111311401A (zh) | 一种基于LightGBM的金融违约概率预测模型 | |
CN112613226B (zh) | 一种用于剩余寿命预测的特征增强方法 | |
KR20220117336A (ko) | 소비 전력을 예측하기 위한 방법 및 장치, 디바이스 및 판독 가능한 저장 매체 | |
CN112699605A (zh) | 一种充电桩故障元件预测方法及系统 | |
CN116595363A (zh) | 预测方法、装置、设备、存储介质和计算机程序产品 | |
CN114266421B (zh) | 基于复合气象特征构建与选择的新能源功率预测方法 | |
CN115269247A (zh) | 基于深度森林的闪存坏块预测方法、系统、介质及设备 | |
Le Rhun et al. | A stochastic data-based traffic model applied to vehicles energy consumption estimation | |
CN113408802B (zh) | 能耗预测网络的训练、能耗预测方法、装置和计算机设备 | |
US11295229B1 (en) | Scalable generation of multidimensional features for machine learning | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN116976491A (zh) | 一种信息预测方法、装置、设备、存储介质及程序产品 | |
CN116191398A (zh) | 负荷预测方法、装置、计算机设备和存储介质 | |
CN114821248A (zh) | 面向点云理解的数据主动筛选标注方法和装置 | |
CN112256735B (zh) | 一种用电监测方法、装置、计算机设备和存储介质 | |
CN114648406A (zh) | 基于随机森林的用户信用积分预测方法和装置 | |
CN114495137A (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
US20220012639A1 (en) | Quantizing training data sets using ml model metadata | |
CN114118411A (zh) | 图像识别网络的训练方法、图像识别方法及装置 | |
CN116738009B (zh) | 一种对数据进行归档回溯的方法 | |
CN117078441B (zh) | 理赔欺诈识别方法、装置、计算机设备和存储介质 | |
CN116522147A (zh) | 产品性能预测模型构建方法、装置和计算机设备 | |
CN118367535A (zh) | 一种分类负荷预测的方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |