CN109492709A - 基于混合模型的数据预测方法及装置 - Google Patents

基于混合模型的数据预测方法及装置 Download PDF

Info

Publication number
CN109492709A
CN109492709A CN201811485082.8A CN201811485082A CN109492709A CN 109492709 A CN109492709 A CN 109492709A CN 201811485082 A CN201811485082 A CN 201811485082A CN 109492709 A CN109492709 A CN 109492709A
Authority
CN
China
Prior art keywords
data
value
model
prediction
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811485082.8A
Other languages
English (en)
Other versions
CN109492709B (zh
Inventor
刘胜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Shuneng Technology Co Ltd
Original Assignee
Xinao Shuneng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Shuneng Technology Co Ltd filed Critical Xinao Shuneng Technology Co Ltd
Priority to CN201811485082.8A priority Critical patent/CN109492709B/zh
Publication of CN109492709A publication Critical patent/CN109492709A/zh
Application granted granted Critical
Publication of CN109492709B publication Critical patent/CN109492709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Photovoltaic Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混合模型的数据预测方法集装置,通过采集与光伏电量相关的历史多维度数据,并将其分为训练数据集和测试数据集;选取至少两个训练模型,用训练数据集训练对其训练得到预测模型,然后再分别对测试数据集进行得到测试结果,作为测试值;根据真实值和测试值计算预测模型的权重值。再对光伏电量的未来气象预测到的多维度数据进行预测,得到第一预测值,再采用加权求和计算出光伏电量的最终预测值。综上可见,本发明提供的技术方案综合多个数据预测算法的优点,将各个算法模型的预测结果通过权重分配的形式综合起来考量,屏蔽掉单个算法的局限性,使得预测结果更加精准,提高预测精度。

Description

基于混合模型的数据预测方法及装置
技术领域
本发明涉及未来数据预测技术领域,尤其涉及一种基于混合模型的光伏电量数据预测方法及装置。
背景技术
预测未来的数据本身就是一个很大的难点,而每个预测模型都有自身的局限性,比如极限学习机模型由于自身算法的特点,会有鲁棒性差,不稳定等缺点,因而会影响最终的预测结果。但是我们可以。现有的数据预测方法,主要包括:支持向量机(SVM)、极限学习机(ELM)、神经网络和梯度提升回归树(GBRT),但是这些算法单独使用都具有一定的自身局限性,比如支持向量机(SVM)预测方法中核函数的选定以及相关参数的优化很难确定;而极限学习机(ELM)预测方法会有鲁棒性差,不稳定等缺点。因此,单独使用预测模型进行未来数据预测,会给数据的预测结果带来负面影响,影响预测的精度。
中国专利申请CN107590569A公开了一种数据预测方法及装置,并具体公开了一种数据预测方法,包括根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于训练数据集的至少两个训练模型;针对各训练模型均执行:将训练数据集代入当前训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前训练模型的权重;根据训练数据集、测试数据、至少两个训练模型和每一个训练模型当前的权重,执行加权求和处理以确定当前待预测数据。该申请一定程度上能够提高所预测出的数据的准确性。该申请中权重的确定是通过将预测结果和测试数据进行对比并反复迭代调整得到最终相对准确的权重值,或者是通过对比当前待预测数据和相应真实值,再次对各训练模型当前的权重进行调整替换,这种权重确定方式具有一定的局限性难以保证权重的准确度。
发明内容
本发明提供一种基于混合模型的数据预测方法及装置,通过将多个预测模型的预测结果综合起来,分别计算每个不同预测模型的预测结果的权重值,将所有预测模型的预测结果综合起来考量作为未来数据的预测值,从而可以避免单个算法由于自身算法缺陷而导致的预测结果不准的问题。
第一方面,本发明提供了一种基于混合模型的数据预测方法,包括
定义光伏电量为需要预测的目标量,采集与光伏电量相关的历史多维度数据及历史真实值,并将采集到的历史多维度数据及其对应的历史真实值数据分为训练数据集和测试数据集;
选取至少两个训练模型,用所述训练数据集分别训练每一个训练模型后得到预测模型,将所述测试数据集中的测试数据分别代入每一个所述预测模型得到测试结果,作为光伏电量的测试值;
根据所述测试值和所述历史真实值计算预测模型的权重值;
采集所述光伏电量的未来多维度数据作为预测数据集,将所述预测数据集分别代入每一个预测模型得到所述光伏电量的第一预测值,将所有预测模型的所述第一预测值和权重值代入加权求和公式得到所述光伏电量的最终测值。
优选地,
所述训练数据集包括多组一一对应的训练数据和光伏电量真实值,用于训练模型;所述测试数据集包括多组一一对应的测试数据和光伏电量真实值,其中测试数据用于测试训练完成的模型,真实值用于与测试值对比计算模型权重。
优选地,
所述计算每一个预测模型的权重值包括:
将所述真实值和所述测试值代入均方根误差公式,计算每一个预测模型的均方根误差值;
将所述每一个预测模型的均方根误差值代入残差比重计算公式,得到每一个预测模型的残差比重值,根据每一个预测模型的所述残差比重值计算信息熵冗余度;
计算每一个预测模型的信息熵冗余度,将信息熵冗余度代入权重计算公式得到每一个预测模型的权重值。
优选地,
所述均方根误差公式为:其中表示测试值,yi表示真实值;
所述残差比重计算公式为:
其中j为预测模型j;
所述权重计算公式为:
其中dj=1-ej,ej=-pjln(pj),j为预测模型j。
优选地,
所述加权求和公式为:
其中为第二预测值,为预测模型n的第一预测值,weightn为预测模型n的权重值。
优选地,
选取三个训练模型分别为:支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型。
优选地,
所述与光伏电量相关的历史多维度数据包括:来自于气象台过去记录的辐射强度、风速、温度和湿度,所述历史真实值包括:与上述数据一一对应的实际光伏电量,所述未来多维度数据包括:来自于气象台预测的未来辐射强度、风速、温度和湿度。
另一发面,本发明提供了一种基于混合模型的数据预测装置,包括:数据采集单元、模型训练单元、模型测试单元、计算单元和预测单元,所述数据采集单元为模型训练单元、模型测试单元和预测单元提供数据基础,所述计算单元为所述预测单元提供模型权重值,
所述数据采集单元,用于采集与光伏电量相关的未来多维度数据、历史多维度数据及其对应的历史真实值;
所述模型训练单元,用于对训练模型进行训练得到预测模型;
所述模型测试单元,用于对预测模型进行测试得到光伏电量的测试值;
所述计算单元,用于将所述测试值与光伏电量的真实值代入公式计算所述预测模型的权重值;
所述预测单元,用于根据所有预测模型的预测结果,采用加权求和算法得到光伏电量的最终预测结果。
优选地,
所述数据采集单元包括历史数据采集子单元和预测数据采集子单元,
所述历史数据采集子单元,用于采集与光伏电量相关的历史多维度数据及其对应的历史真实值,并将采集到的数据分为训练数据集和测试数据集,所述训练数据集包括多组一一对应的训练数据和光伏电量真实值,所述测试数据集包括多组一一对应的测试数据和光伏电量真实值;
所述预测数据采集子单元,用于采集需要预测的光伏电量的未来多维度数据作为预测数据集。
优选地,
所述计算单元包括均方根误差计算子单元、残差比重计算子单元、信息熵冗余度计算子单元和权重计算子单元,
所述均方根误差计算子单元,用于根据测试值和真实值计算预测模型的均方根误差值;
所述残差比重计算子单元,用于根据所述均方根误差值计算预测模型的残差比重值;
所述信息熵冗余度计算子单元,用于根据残差比重值计算预测模型的信息熵冗余度;
所述权重计算子单元,用于根据信息熵冗余度计算预测模型的权重值。
本发明提供了一种基于混合模型的数据预测方法集装置,特别的,是一种基于混合模型的光伏电量预测方法集装置,通过采集与基于混合模型的数据预测方法集装置相关的历史多维度数据,并将历史多维度数据分为训练数据集和测试数据集;选取至少两个训练模型,用训练数据集训练每一个训练模型后分别得到预测模型,再用训练好的每一个预测模型分别对测试数据集进行得到测试结果,作为光伏电量的测试值;根据测试数据集对应的光伏电量历史真实值和测试值计算每一个预测模型的权重值。再用训练好的每一个预测模型对光伏电量的未来多维度数据进行预测,得到第一预测值,再根据每个模型的权重计算光伏电量的第二预测值,即最终的预测值。综上可见,本发明提供的技术方案综合多个数据预测算法的优点,将各个算法模型的预测结果通过权重分配的形式综合起来考量,屏蔽掉通过单个算法预测光伏电量的局限性,使得预测结果更加精准,提高预测精度。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于混合模型的数据预测方法的流程图;
图2为本发明一实施例提供的基于混合模型的数据预测装置的结构示意图;
图3为本发明另一具体实施例提供的基于混合模型的数据预测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于混合模型的数据预测方法,包括:
步骤101,定义光伏电量为需要预测的目标量,采集与光伏电量相关的历史多维度数据及历史真实值,并将采集到的历史多维度数据及其对应的历史真实值数据分为训练数据集和测试数据集;
步骤102,选取至少两个训练模型,用所述训练数据集分别训练每一个训练模型后得到预测模型,将所述测试数据集中的测试数据分别代入每一个所述预测模型得到测试结果,作为光伏电量的测试值;
步骤103,根据所述测试值和所述历史真实值计算预测模型的权重值;
步骤104,采集所述光伏电量的未来多维度数据作为预测数据集,将所述预测数据集分别代入每一个预测模型得到所述光伏电量的第一预测值,将所有预测模型的所述第一预测值和权重值代入加权求和公式得到所述光伏电量的最终测值。
优选地,该实施例中选取三个训练模型,并通过从光伏电量的历史数据中选取的训练数据集分别对其进行训练,选取的三个模型分别为:支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型,经过训练数据集训练后依次得到三个模型的预测模型。
具体地,本发明一个实施例中,步骤101,包括:
采集与光伏电量相关的至少2组历史多维度数据及其历史真实值,每一组多维度数据对应于一个光伏电量的历史真实值,将采集到的多组历史多维度数据分为训练数据和测试数据,然后与每组数据对应的历史真实值分别组成训练数据集和测试数据集。训练数据集包括多组一一对应的训练数据和光伏电量真实值,用于训练模型,根据模型训练的要求,在保证模型的准确度,应采集尽可能多组训练数据集对模型进行训练。同样的,所述测试数据集包括多组一一对应的测试数据和光伏电量真实值,其中测试数据用于测试训练完成的模型,真实值用于与测试值对比计算模型权重,为了使得权重值计算的准确性,通常会选择尽可能多的测试数据集。
需要说明的是,同一组与光伏电量相关的历史多维度数据及其历史真实值,可以用于模型训练也可以用于模型测试,即训练数据集也可以同时作为测试数据集。
具体地,本发明一个实施例中,步骤103,包括:
1)分别将支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型的所述真实值和所述测试值代入均方根误差公式:
其中表示测试值,yi表示真实值,计算得到每一个预测模型的均方根误差值:RMSESVM、RMSEELM和RMSEGBRT
2)分别将上述支持向量机SVM预测模型、极限学习机ELM预测模型和梯度提升回归树GBRT预测模型的均方根误差值代入残差比重计算公式:
其中j为预测模型j
计算得到每一个预测模型的残差比重值:
3)根据每一个预测模型的所述残差比重值计算信息熵冗余度d:
ej=-pjln(pj) j=1,2,3(1表示elm,2表示svm,3表示gbrt)
dj=1-ej j=1,2,3
4)将信息熵冗余度代入权重计算公式:
m=3(1表示elm,2表示svm,3表示gbrt)
得到每一个预测模型的权重值:weightelm、weightsvm、weightgbrt
具体地,在得到上述预测模型的权重值之后,执行步骤104,其中步骤104中所述的加权求和公式为:最终得到需要预测的光伏电量的预测值。
在上述实施例中,提供了一种基于混合模型的数据预测方法,与之对应的,本发明还提供了一种基于混合模型的数据预测装置,该装置是与上述方法的实施例相对应。
如图所示,2为本发明一实施例提供的基于混合模型的数据预测装置的结构示意图,基于混合模型的数据预测装置包括:数据采集单元、模型训练单元、模型测试单元、计算单元和预测单元,所述数据采集单元为模型训练单元、模型测试单元和预测单元提供数据基础,所述计算单元为所述预测单元提供模型权重值。其中,
所述数据采集单元,用于采集与光伏电量相关的未来多维度数据、历史多维度数据及其对应的历史真实值。其包括:包括历史数据采集子单元和预测数据采集子单元,所述历史数据采集子单元,用于采集与光伏电量相关的历史多维度数据及其对应的历史真实值,并将采集到的数据分为训练数据集和测试数据集,所述训练数据集包括多组一一对应的训练数据和光伏电量真实值,所述测试数据集包括多组一一对应的测试数据和光伏电量真实值;所述预测数据采集子单元,用于采集需要预测的光伏电量的未来多维度数据作为预测数据集。
所述模型训练单元,用于对预测模型进行测试得到光伏电量的测试值。
所述模型测试单元,用于将所述测试值与光伏电量的真实值代入公式计算所述预测模型的权重值。需要说明的是,当预测模型中输入测试数据时,得到的是光伏电量的测试值,当预测模型中输入的是预测数据时,得到的是光伏电量的预测值。对于预测模型来说,执行的过程是相同的,区别仅在于输入数据的目的不同,测试数据是与过去光伏电量相关的历史数据,其得到的测试值用于计算预测模型的权重,预测数据是与未来光伏电量相关的气象预测数据,用于预测目标量的未来值。
所述计算单元,用于将所述测试值与光伏电量的真实值代入公式计算所述预测模型的权重值。其包括:均方根误差计算子单元、残差比重计算子单元、信息熵冗余度计算子单元和权重计算子单元,所述均方根误差计算子单元,用于根据测试值和真实值计算预测模型的均方根误差值;所述残差比重计算子单元,用于根据所述均方根误差值计算预测模型的残差比重值;所述信息熵冗余度计算子单元,用于根据残差比重值计算预测模型的信息熵冗余度;权重计算子单元,用于根据信息熵冗余度计算预测模型的权重值。
所述预测单元,用于根据所有预测模型的预测结果,采用加权求和算法得到光伏电量的最终预测结果。
为了更加清楚的说明本发明的技术方案及优点,下面具体以本发明实施例提供的基于混合模型的数据预测方法及装置实现光伏电量预测时的主要方法步骤进行进一步的举例说明,且具体选取支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型,将与目标量光伏电量相关的辐射强度、风速、温度、湿度等维度数据作为预测数据来预测光伏电量的未来值为例,具体请参考图3。
定义需要预测的目标量为光伏电量,采集与目标量光伏电量相关的历史多维度数据:辐射强度,风速,温度,湿度等维度数据,及对应的光伏电量历史真实值,采集的数据包括过去一个月内的数据,具体地,过去一个月内每天24组数据集,即每小时一组数据集中包括一个光伏电量数据值和一条包含有该时间周期内的辐射强度、风速、温度、湿度等维度数据。将上述采集到的数据分为训练数据集和测试数据集,选取三个模型:极限学习机ELM、支持向量机SVM和梯度提升回归树GBRT,用上述训练数据集分别训练这三个模型。然后用测试数据集进行测试,在本实施例中测试数据集为选取过去任意三天进行测试,采集每天每小时的辐射强度、风速、温度、湿度等维度数据作为一条测试数据,相应的采集同一时间内的光伏电量真实值,最终得到测试数据集,该测试数据集中包含72条测试数据和对应的72个真实值。将上述72条测试数据分别输入训练后的三个模型中,并得到测试结果对应的光伏电量测试值如下:
采集到的72个光伏电量真实值如下:
yELM=[y1,y2,···,y72],
ySVM=[y1,y2,···,y72],
yGBRT=[y1,y2,···,y72]。
根据上面测试得到的光伏电量的测试值和其历史真实值,通过下述方法分别计算三个预测模型的权重值。
首先将上述每个模型的72组测试值和对应的历史真实值分别代入均方根误差计算公式中:
其中表示模型的预测值,yi表示数据的真实值,n=72,计算得到每一个预测模型的均方根误差值:RMSESVM、RMSEELM和RMSEGBRT
然后,分别将上述支持向量机SVM预测模型、极限学习机ELM预测模型和梯度提升回归树GBRT预测模型的均方根误差值代入残差比重计算公式得到每个模型的残差的比重值如下:
根据上述计算得到的每个模型的残差比重计算每个模型的权重,具体包括:
首先,计算每个模型的信息熵冗余度:
dj=1-ej j=1,2,3,其中
ej=-pjln(pj) j=1,2,3(1表示elm,2表示svm,3表示gbrt)。
然后将信息熵冗余度代入权重计算公式:
m=3(1表示elm,2表示svm,3表示gbrt)
分别得到每一个模型的权重值:weightelm、weightsvm、weightgbrt
完成上述模型权重计算之后,就可以对目标量guangfudianl的未来值进行预测。首先采集获取与未来光伏电量预测相关的未来一天的24条维度数据(选择一天中24个小时的数据,每小时为一个周期,得到24条预测数据),其中包括是:辐射强度,风速,风向,温度,湿度,这些维度的未来数据可以通过国家气象局获取。将24条预测数据分别代入三个模型中,得到的预测结果的第一预测值分别为:
将上述预测得到的每个模型第一预测值和其对应的权重值代入加权求和公式得到所述目标量的第二预测值,即最终的对未来一天光伏电量的预测值如下:
为了进一步说明本发明的方法的可行性,下面通过算法实验进行验证。
本例中的实验采集了历史一年的光伏电量数据,每天24组数据,即每一小时采集一个样本点数据,作为训练数据集,使用训练数据集中的训练数据按照本发明的方法分别训练支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型,并计算得到每个模型的权重值。然后选取其中一天的24组数据作为预测数据,用上述三个模型分别对预测数据进行结果预测得到第一预测值,然后再使用本发明的方法,得到这一天光伏电量对应的24个预测值yd(i)(i取值为1-24),同时获取这一天每组预测数据对应的真实值yt(i),通过计算预测结果的平均相对误差和均方根误差对比单独使用每个模型所得到的第一预测值的误差,与本发明方法测得结果的预测值的误差。具体计算如下:
将上述预测得到的一天24小时每小时样本的预测值yd(i)与其真实值yt(i)代入误差评价公式,分别计算本发明方法的平均相对误差MAPE和均方根误差RMSE:
其中,上述公式中的n=24,yd(i)表示预测值,yt(i)表示真实值,此处的预测值包括单独使用每个模型对预测数据进行预测的结果,和使用本发明混合模型加权之后得到预测结果。
通过上述计算得到每种预测方法的误差值如下表所列:
指标 SVM算法 ELM算法 GBRT算法 本文算法
RMSE 0.92 0.71 0.74 0.41
MAPE 6.9% 6.3% 6.5% 5.8%
从上表中实验数据的对比结果,可以看出本申请基于混合模型的数据预测方法在光伏电量的预测上,相比单独使用模型算法预测的结果误差更小,能够达到比较好的预测效果。
为了描述的方便,描述以上装置时以功能分为各种单元或模块分别描述。当然,在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于混合模型的数据预测方法,其特征在于,
定义光伏电量为需要预测的目标量,采集与光伏电量相关的历史多维度数据及历史真实值,并将采集到的历史多维度数据及其对应的历史真实值数据分为训练数据集和测试数据集;
选取至少两个训练模型,用所述训练数据集分别训练每一个训练模型后得到预测模型,将所述测试数据集中的测试数据分别代入每一个所述预测模型得到测试结果,作为光伏电量的测试值;
根据所述测试值和所述历史真实值计算预测模型的权重值;
采集所述光伏电量的未来多维度数据作为预测数据集,将所述预测数据集分别代入每一个预测模型得到所述光伏电量的第一预测值,将所有预测模型的所述第一预测值和权重值代入加权求和公式得到所述光伏电量的最终测值。
2.根据权利要求1所述的基于混合模型的数据预测方法,其特征在于,所述训练数据集包括多组一一对应的训练数据和光伏电量真实值,用于训练模型;所述测试数据集包括多组一一对应的测试数据和光伏电量真实值,其中测试数据用于测试训练完成的模型,真实值用于与测试值对比计算模型权重。
3.根据权利要求2所述的基于混合模型的数据预测方法,其特征在于,所述计算每一个预测模型的权重值包括:
将所述真实值和所述测试值代入均方根误差公式,计算每一个预测模型的均方根误差值;
将所述每一个预测模型的均方根误差值代入残差比重计算公式,得到每一个预测模型的残差比重值,根据每一个预测模型的所述残差比重值计算信息熵冗余度;
计算每一个预测模型的信息熵冗余度,将信息熵冗余度代入权重计算公式得到每一个预测模型的权重值。
4.根据权利要求3所述的基于混合模型的数据预测方法,其特征在于,
所述均方根误差公式为:其中表示测试值,yi表示真实值;
所述残差比重计算公式为:
其中j为预测模型j;
所述权重计算公式为:
其中dj=1-ej,ej=-pjln(pj),j为预测模型j。
5.根据权利要求1所述的基于混合模型的数据预测方法,其特征在于,加权求和公式为:
其中为第二预测值,为预测模型n的第一预测值,weightn为预测模型n的权重值。
6.根据权利要求1至5中任一所述的基于混合模型的数据预测方法,其特征在于,选取三个训练模型,所述模型分别为:支持向量机SVM模型、极限学习机ELM模型和梯度提升回归树GBRT模型。
7.根据权利要求6所述的基于混合模型的数据预测方法,其特征在于,所述与光伏电量相关的历史多维度数据包括:来自于气象台过去记录的辐射强度、风速、温度和湿度,所述历史真实值包括:与上述数据一一对应的实际光伏电量,所述未来多维度数据包括:来自于气象台预测的未来辐射强度、风速、温度和湿度。
8.一种基于混合模型的数据预测装置,其特征在于,包括:数据采集单元、模型训练单元、模型测试单元、计算单元和预测单元,所述数据采集单元为模型训练单元、模型测试单元和预测单元提供数据基础,所述计算单元为所述预测单元提供模型权重值,
所述数据采集单元,用于采集与光伏电量相关的未来多维度数据、历史多维度数据及其对应的历史真实值;
所述模型训练单元,用于对训练模型进行训练得到预测模型;
所述模型测试单元,用于对预测模型进行测试得到光伏电量的测试值;
所述计算单元,用于将所述测试值与光伏电量的真实值代入公式计算所述预测模型的权重值;
所述预测单元,用于根据所有预测模型的预测结果,采用加权求和算法得到光伏电量的最终预测结果。
9.根据权利要求8所述的基于混合模型的数据预测装置,其特征在于,所述数据采集单元包括历史数据采集子单元和预测数据采集子单元,
所述历史数据采集子单元,用于采集与光伏电量相关的历史多维度数据及其对应的历史真实值,并将采集到的数据分为训练数据集和测试数据集,所述训练数据集包括多组一一对应的训练数据和光伏电量真实值,所述测试数据集包括多组一一对应的测试数据和光伏电量真实值;
所述预测数据采集子单元,用于采集需要预测的光伏电量的未来多维度数据作为预测数据集。
10.根据权利要求9所述的基于混合模型的数据预测装置,其特征在于,所述计算单元包括均方根误差计算子单元、残差比重计算子单元、信息熵冗余度计算子单元和权重计算子单元,
所述均方根误差计算子单元,用于根据测试值和真实值计算每一个预测模型的均方根误差值;
所述均方根误差计算子单元,用于根据测试值和真实值计算预测模型的均方根误差值;
所述残差比重计算子单元,用于根据所述均方根误差值计算预测模型的残差比重值;
所述信息熵冗余度计算子单元,用于根据残差比重值计算预测模型的信息熵冗余度;
所述权重计算子单元,用于根据信息熵冗余度计算预测模型的权重值。
CN201811485082.8A 2018-12-06 2018-12-06 基于混合模型的数据预测方法及装置 Active CN109492709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811485082.8A CN109492709B (zh) 2018-12-06 2018-12-06 基于混合模型的数据预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811485082.8A CN109492709B (zh) 2018-12-06 2018-12-06 基于混合模型的数据预测方法及装置

Publications (2)

Publication Number Publication Date
CN109492709A true CN109492709A (zh) 2019-03-19
CN109492709B CN109492709B (zh) 2020-11-06

Family

ID=65698281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811485082.8A Active CN109492709B (zh) 2018-12-06 2018-12-06 基于混合模型的数据预测方法及装置

Country Status (1)

Country Link
CN (1) CN109492709B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059862A (zh) * 2019-03-25 2019-07-26 国网浙江省电力有限公司电力科学研究院 一种基于自编码与极限学习机的光伏区间预测方法和系统
CN110675960A (zh) * 2019-09-10 2020-01-10 北京大学 基于时间序列分析的呼吸运动预测建模方法
CN110689919A (zh) * 2019-08-13 2020-01-14 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
CN110717623A (zh) * 2019-09-20 2020-01-21 中国科学院自动化研究所 融合多种天气状况的光伏发电功率预测方法及装置、设备
CN111240282A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 一种工艺优化方法、装置、设备及计算机可读存储介质
CN111580080A (zh) * 2020-05-29 2020-08-25 大连海事大学 一种基于船载gnss-r的有效波高反演方法及系统
CN112330024A (zh) * 2020-11-06 2021-02-05 国网辽宁省电力有限公司 一种基于非电量及多维度场景的电量预测方法
CN112465195A (zh) * 2020-11-12 2021-03-09 广东电网有限责任公司广州供电局 考虑高比例分布式光伏接入的母线负荷预测方法及系统
CN115331825A (zh) * 2022-07-26 2022-11-11 上海交通大学医学院附属新华医院 一种基于大数据多层次特征挖掘的骨折风险预测模型

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385724A (zh) * 2010-08-27 2012-03-21 上海财经大学 一种应用于库存管理的零配件组合需求预测信息处理方法
CN102479339A (zh) * 2010-11-24 2012-05-30 香港理工大学 基于混合神经网络的风电场短期风速预测方法和系统
CN105184678A (zh) * 2015-09-18 2015-12-23 齐齐哈尔大学 基于多种神经网络组合算法的光伏电站发电量短期预测模型的构建方法
CN105205560A (zh) * 2015-09-25 2015-12-30 国网甘肃省电力公司电力科学研究院 一种基于正负误差变权的光伏发电功率预测方法
US20160125292A1 (en) * 2014-10-30 2016-05-05 Samsung Sds Co., Ltd. Apparatus and method for generating prediction model
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN108256693A (zh) * 2018-02-11 2018-07-06 阳光电源股份有限公司 一种光伏发电功率预测方法、装置及系统
CN108549929A (zh) * 2018-03-29 2018-09-18 河海大学 一种基于深层卷积神经网络的光伏功率预测方法
CN108694484A (zh) * 2018-08-30 2018-10-23 广东工业大学 一种光伏发电功率预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385724A (zh) * 2010-08-27 2012-03-21 上海财经大学 一种应用于库存管理的零配件组合需求预测信息处理方法
CN102479339A (zh) * 2010-11-24 2012-05-30 香港理工大学 基于混合神经网络的风电场短期风速预测方法和系统
US20160125292A1 (en) * 2014-10-30 2016-05-05 Samsung Sds Co., Ltd. Apparatus and method for generating prediction model
CN105184678A (zh) * 2015-09-18 2015-12-23 齐齐哈尔大学 基于多种神经网络组合算法的光伏电站发电量短期预测模型的构建方法
CN105205560A (zh) * 2015-09-25 2015-12-30 国网甘肃省电力公司电力科学研究院 一种基于正负误差变权的光伏发电功率预测方法
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN108256693A (zh) * 2018-02-11 2018-07-06 阳光电源股份有限公司 一种光伏发电功率预测方法、装置及系统
CN108549929A (zh) * 2018-03-29 2018-09-18 河海大学 一种基于深层卷积神经网络的光伏功率预测方法
CN108694484A (zh) * 2018-08-30 2018-10-23 广东工业大学 一种光伏发电功率预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔东文: ""多重组合神经网络模型在年径流预测中的应用"", 《水利水电科技进展》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059862A (zh) * 2019-03-25 2019-07-26 国网浙江省电力有限公司电力科学研究院 一种基于自编码与极限学习机的光伏区间预测方法和系统
CN110689919A (zh) * 2019-08-13 2020-01-14 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
CN110675960A (zh) * 2019-09-10 2020-01-10 北京大学 基于时间序列分析的呼吸运动预测建模方法
CN110717623B (zh) * 2019-09-20 2022-11-08 中国科学院自动化研究所 融合多种天气状况的光伏发电功率预测方法及装置、设备
CN110717623A (zh) * 2019-09-20 2020-01-21 中国科学院自动化研究所 融合多种天气状况的光伏发电功率预测方法及装置、设备
CN111240282A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 一种工艺优化方法、装置、设备及计算机可读存储介质
CN111240282B (zh) * 2019-12-31 2021-12-24 联想(北京)有限公司 一种工艺优化方法、装置、设备及计算机可读存储介质
CN111580080A (zh) * 2020-05-29 2020-08-25 大连海事大学 一种基于船载gnss-r的有效波高反演方法及系统
CN111580080B (zh) * 2020-05-29 2023-10-03 大连海事大学 一种基于船载gnss-r的有效波高反演方法及系统
CN112330024A (zh) * 2020-11-06 2021-02-05 国网辽宁省电力有限公司 一种基于非电量及多维度场景的电量预测方法
CN112330024B (zh) * 2020-11-06 2023-09-12 国网辽宁省电力有限公司 一种基于非电量及多维度场景的电量预测方法
CN112465195A (zh) * 2020-11-12 2021-03-09 广东电网有限责任公司广州供电局 考虑高比例分布式光伏接入的母线负荷预测方法及系统
CN115331825A (zh) * 2022-07-26 2022-11-11 上海交通大学医学院附属新华医院 一种基于大数据多层次特征挖掘的骨折风险预测模型

Also Published As

Publication number Publication date
CN109492709B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN109492709A (zh) 基于混合模型的数据预测方法及装置
CN111104981B (zh) 一种基于机器学习的水文预报精度评价方法及系统
CN111754026B (zh) 光伏电站群功率预测方法、装置、计算机设备及存储介质
CN110147367B (zh) 一种温度缺失数据填补方法、系统及电子设备
CN105930900B (zh) 一种混合风力发电的预测方法及系统
CN107730097B (zh) 一种母线负荷预测方法、装置及计算设备
CN107679089A (zh) 一种用于电力传感数据的清洗方法、装置和系统
CN107146035A (zh) 针织服装大货生产中批量系数的计算方法
CN116707331B (zh) 基于模型预测的逆变器输出电压高精度调节方法及系统
CN112182720A (zh) 一种基于建筑能源管理应用场景的建筑能耗模型评价方法
CN111709569A (zh) 风电场输出功率预测修正方法及装置
CN109472283A (zh) 一种基于多重增量回归树模型的危险天气事件预测方法和装置
CN109426655A (zh) 数据分析方法、装置、电子设备及计算机可读存储介质
CN111415027A (zh) 构建件量预测模型的方法和装置
CN109116183B (zh) 谐波模型参数辨识方法、装置、存储介质及电子设备
CN110110339A (zh) 一种日前水文预报误差校正方法及系统
CN107194507A (zh) 一种基于组合支持向量机的风电场短期风速预测方法
CN117117819A (zh) 一种光伏发电短期功率预测方法、系统、设备和介质
CN110442836A (zh) 风电场短期风速预测方法及系统
CN110690982B (zh) 一种电信网络管理性能数据关联分析方法及系统
CN112307672A (zh) 基于布谷鸟算法优化的bp神经网络短期风功率预测方法
CN116050636A (zh) 光伏电站的出力预测方法、装置、设备及介质
CN115511016A (zh) 一种基于增量主动学习的电费异常检测方法及其装置
CN108665090A (zh) 基于主成分分析与Verhulst模型的城市电网饱和负荷预测方法
CN114139408A (zh) 一种电力变压器健康状态评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant