CN107590569A - 一种数据预测方法及装置 - Google Patents
一种数据预测方法及装置 Download PDFInfo
- Publication number
- CN107590569A CN107590569A CN201710874407.0A CN201710874407A CN107590569A CN 107590569 A CN107590569 A CN 107590569A CN 201710874407 A CN201710874407 A CN 201710874407A CN 107590569 A CN107590569 A CN 107590569A
- Authority
- CN
- China
- Prior art keywords
- training
- data
- current
- predicted
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 382
- 238000012360 testing method Methods 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 51
- 241001269238 Data Species 0.000 claims description 15
- 230000008569 process Effects 0.000 description 9
- 239000012141 concentrate Substances 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据预测方法及装置,该方法包括:根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于训练数据集的至少两个训练模型;针对各训练模型均执行:将训练数据集代入当前训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前训练模型的权重;根据训练数据集、测试数据、至少两个训练模型和每一个训练模型当前的权重,执行加权求和处理以确定当前待预测数据。因此,本方案能够提高所预测出的数据的准确性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种数据预测方法及装置。
背景技术
基于以往的相关历史数据,可以对待预测数据进行预测。比如,待预测数据可以为节假日旅游地客流量、高速公路客流量、网站访问概率等。
目前,可以对待预测数据的相关历史数据计算平均值,这一平均值即可以预测出的数据。
但是,单纯的平均值计算通常会造成所预测出的数据的准确性较低。
发明内容
本发明提供了一种数据预测方法及装置,能够提高所预测出的数据的准确性。
为了达到上述目的,本发明是通过如下技术方案实现的:
一方面,本发明提供了一种数据预测方法,包括:
S1:根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型;
S2:针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重;
S3:根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
进一步地,所述S1包括:采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
进一步地,在所述S3之前还包括:根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
进一步地,在所述S3之后还包括:确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
进一步地,每一个所述训练模型当前的权重的加和等于1。
进一步地,所述训练模型为SVR(support vector regression,支持向量回归)模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
另一方面,本发明提供了一种数据预测装置,包括:
第一处理单元,用于根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型;
第二处理单元,用于针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重;
第三处理单元,用于根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
进一步地,所述第一处理单元,具体用于采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
进一步地,所述第二处理单元,还用于根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
进一步地,所述第二处理单元,还用于确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;
所述第三处理单元,还用于根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
进一步地,每一个所述训练模型当前的权重的加和等于1。
进一步地,所述训练模型为SVR模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
本发明提供了一种数据预测方法及装置,该方法包括:根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于训练数据集的至少两个训练模型;针对各训练模型均执行:将训练数据集代入当前训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前训练模型的权重;根据训练数据集、测试数据、至少两个训练模型和每一个训练模型当前的权重,执行加权求和处理以确定当前待预测数据。因此,本发明能够提高所预测出的数据的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种数据预测方法的流程图;
图2是本发明一实施例提供的另一种数据预测方法的流程图;
图3是本发明一实施例提供的一种数据预测装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据预测方法,可以包括以下步骤:
步骤101:根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型。
步骤102:针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重。
步骤103:根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
本发明实施例提供了一种数据预测方法,根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于训练数据集的至少两个训练模型;针对各训练模型均执行:将训练数据集代入当前训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前训练模型的权重;根据训练数据集、测试数据、至少两个训练模型和每一个训练模型当前的权重,执行加权求和处理以确定当前待预测数据。因此,本发明实施例能够提高所预测出的数据的准确性。
在本发明的一个实施例中,所述步骤101包括:采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
详细地,对待预测数据进行预测时,首先需要采集该待预测数据的相关历史数据,基于大量的历史数据以进行预测,能够保证预测数据的准确性。
在本发明一个实施例中,由于待预测数据的影响因素较多,故采集到的相关历史数据中可能存在部分异常值,这些异常值的存在易降低所预测数据的准确性,故可以预先将异常值剔除。如此,在将相关历史数据进行划分之前,可以进行数据清洗以剔除异常值。
详细地,采集到的相关历史数据可以分为两部分,即训练数据和测试数据。其中,训练数据可以用于训练合适的训练模型,测试数据可以用于对预测操作进行验证和优化。通常情况下,训练数据的数量较多,可以组成一训练数据集。
举例来说,假设需要预测某一景区在2018年5月1日的客流量,如此,当前待预测数据即可以为该景区在2018年5月1日的客流量;相关历史数据可以为该景区在2000年5月1日、2001年5月1日、……、2017年5月1日的客流量;经划分,训练数据集可以包括该景区在2000年5月1日、2001年5月1日、……、2016年5月1日的客流量,测试数据可以为该景区在2017年5月1日的客流量。
详细地,由于节假日景区客流量的影响因素较多,如天气、假期时间长短、景区知名度、用户自身习惯等,各影响因素均会对客流量的具体数值产生不同程度的影响,且这一影响通常不固定。如此,为尽可能考虑到各影响因素对客流量的影响,以及保证数据的平稳性和准确性,可以将训练数据集分组为若干训练数据子集,进而训练出每一个训练数据子集对应的训练模型。
通常情况下,与单一训练模型相比,基于多个混合训练模型以预测数据时,所预测出的数据的准确性大大提高。如此,训练模型的个数可以不小于2,对应地,训练数据子集的个数不小于2,训练数据集中包括的训练数据的个数不小于2。
在本发明一个实施例中,训练数据集确定后,各训练数据子集可以经随机分组而生成。详细地,各训练数据子集中的训练数据的个数均不大于训练数据集中的训练数据的个数。
举例来说,训练数据集包括的训练数据分别为Y1、Y2、Y3、Y4时,经分组处理后,至少可以获得如下训练数据子集:(Y1、Y3)、(Y2、Y4)、(Y1、Y2、Y3)、(Y2、Y3、Y4)、(Y1、Y2、Y3、Y4)。
详细地,在获得各训练数据子集后,可以分别对各训练数据子集进行训练,以训练出各训练数据子集对应的训练模型。
在本发明一个实施例中,对于任一训练数据子集,这一模型训练过程可以为:将该训练数据子集中包括的全部训练数据代入统一的训练模型模板中,以获得相应的模型系数;然后将获得的模型系数对该训练模型模板赋值,即可获得相应训练模型。
详细地,对于任一训练模型,将训练数据集中的全部训练数据代入训练模型中,可以得到一预测结果,即上述第一预测结果。如此,获得的第一预测结果的个数应与训练模型的个数保持一致。
详细地,将训练数据集代入训练模型而获得的预测结果,可以为测试数据的预测值。举例来说,训练数据集包括景区A在2000年5月1日、2001年5月1日、……、2016年5月1日的客流量,测试数据为景区A在2017年5月1日的客流量时,通过将该训练数据集代入一训练模型,所得结果可以为景区A在2017年5月1日的客流量的预测值。其中,针对景区A在2017年5月1日的客流量,该所得结果为这一客流量的预测值,测试数据为这一客流量的真实值。
如此,预测值和真实值的对比,即为上述第一预测结果和上述测试数据的对比。通过两者的对比,可以确定预测值所对应的训练模型的权重。
比如,将训练数据集代入训练模型1中所得的第一预测结果为预测结果1,经对比,该预测结果1与测试数据相差较大,故可以为训练模型1确定一个数值相对较低的权重。相反,若两者相差较小,则可以为训练模型1确定一个数值相对较高的权重。
在本发明的一个实施例中,每一个所述训练模型当前的权重的加和等于1。详细地,确定出的权重的个数与训练模型的个数相等。由于训练模型通常有多个,故确定出的权重也有多个。如此,为保证待预测数据的准确性,可以对权重进行归一化处理,以使各训练模型的权重的总和为1。
详细地,基于训练数据集、测试数据、各训练模型及各训练模型当前的权重,经加权求和处理可以确定待预测数据。在本发明一个实施例中,这一加权求和过程可以为:将训练数据集和测试数据作为输入数据,代入至各训练模型中,以得到各训练模型输出的预测结果;然后可以得到各训练模型的当前权重与其输出的预测结果的乘积;得到的各乘积的加和即可以为待预测数据的预测值。
举例来说,训练数据集包括景区A在2000年5月1日、2001年5月1日、……、2016年5月1日的客流量,测试数据为景区A在2017年5月1日的客流量,各训练模型分别为训练模型1、训练模型2和训练模型3,且该3个训练模型的权重分别为0.3、0.4、0.3。如此,这一加权求和处理可以为:将训练数据集和测试数据代入附加有自身权重的各训练模型,然后对各训练模型的输出结果进行加和,加和所得结果即可以为待预测数据,即可以为景区A在2018年5月1日的客流量的预测值。如此,景区工作人员可以根据该预测值,做好景区服务准备工作。
在本发明的一个实施例中,为了进一步提高待预测数据的准确性,所以,在所述步骤103之前,进一步包括:根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
基于上述内容可知,通过各预测值与真实值的对比,可以为各训练模型设置权重,基于设置的权重,有益于使得最终测试结果更接近真实值。不过,这些与真实值对比的预测值是在训练模型未附加自身权重的情况下获得的,故当为各训练模型设置权重后,可以再次进行预测以获得上述第二预测结果。
详细地,与各第一预测结果相同,这一第二预测结果同样为测试数据的预测值。
举例来说,存在3个训练模型,分别为训练模型A、训练模型B、训练模型C,将训练数据集代入各训练模型,所得第一预测结果分别为XA=80、XB=95、XC=110,将各第一预测结果与测试数据X=100对比,所得权重分别为kA=0.2、kB=0.5、kC=0.3。然后,将训练数据集和测试数据代入附加有自身权重的各训练模型,然后对各训练模型的输出结果进行加和,加和所得第二预测结果X′=97,经对比测试数据和第二预测结果,可知测试数据X=100大于第二预测结果X′=97,故可以基于该对比结果,对各训练模型当前的权重进行调整替换。
比如,由于97<100,故可以将kA的数值适当降低、kB的数值适当降低、kC的数值适当提高。例如,经调整替换后的权重可以分别为kA=0.15、kB=0.45、kC=0.40。
在本发明的一个实施例中,为了进一步提高待预测数据的准确性,所以,在所述步骤103之后,进一步包括:确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
请参照上述内容可知,基于采集到的相关历史数据,可以确定测试数据。通常情况下,可以将与待预测数据具有最小时间跨度的真实值作为测试数据。比如为预测景区C在2018年5月1日的客流量,测试数据可以为景区C在2017年5月1日的客流量。
本发明实施例中,为进一步提高待预测数据的准确性,可以确定包括有至少两个测试数据的测试数据集。比如,这一测试数据集包括2个测试数据,分别为上述景区C在2017年5月1日的客流量,以及景区C在2016年5月1日的客流量。
基于此,由于存在两个测试数据,上述当前待预测数据可以为景区C在2017年5月1日的客流量的预测值,上述下一个待预测数据可以为景区C在2018年5月1日的客流量的预测值。经上述步骤101至步骤103,获得的当前待预测数据,由于已存在相应真实值,即上述测试数据集中包括的景区C在2017年5月1日的客流量,故通过对比当前待预测数据和相应真实值,再次对各训练模型当前的权重进行调整替换。这一权重调整替换方式可以与上述权重调整替换方式基于同一实现原理,本发明实施例在此不作赘述。
在预测下一个待预测数据时,由于上述真实值同样为该下一个待预测数据的相关历史数据,故可以将训练数据集、测试数据和真实值均代入附加有自身权重的各训练模型,然后对各训练模型的输出结果进行加和以获得该下一个待预测数据。
当然,在本发明另一实施例中,基于同样的实现原理,当存在该下一个待预测数据的真实值时,可以再次对比预测值和真实值以调整替换各权重,进而执行加权求和处理以获得该再一个待预测数据,如此循环,直至不存在相应真实值。
在本发明的一个实施例中,所述训练模型为SVR模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
详细地,客流量数据可以为景区某天客流量数据,也可为高速公路某天客流量数据、火车站某天客流量数据等。当然,除了可以为客流量数据,同样可以为其他数据,比如网站访问概率等。
详细地,由于可以预测任意一天的客流量,故可以得到全年的客流量走势数据。
在本发明其他实施例中,所述训练模型同样可以为其他模型。
在本发明的一个实施例中,可以采用至少一种方法对模型进行检验修正。比如,可以采用RMSE(Root Mean Square Error,均方根误差)、NMSE(normalized Mean SquaredError,归一化均方误差)、WDS(weighteddirectional symmetry,加权方向对称性)中的至少一种方法进行验证。
如图2所示,本发明一个实施例提供了另一种数据预测方法,该方法以基于混合SVR模型的数据预测为例,具体包括以下步骤:
步骤201:采集当前待预测数据的相关历史数据。
举例来说,本发明实施例需要预测X7′,其中,X1~X6均为X7′的相关历史数据。如此,该当前待预测数据可以为X6′,故可以采集X6′的相关历史数据,采集到的相关历史数据包括X1~X5。
步骤202:将相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集。
本发明实施例中,经划分,训练数据集中包括的训练数据分别为X1~X4,测试数据为X5。
步骤203:对训练数据集进行分组处理,以获得至少两个训练数据子集。
详细地,训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数。
比如,本发明实施例中,经分组,可以获得下述2个训练数据子集:(X1、X3)、(X2、X4)。
步骤204:针对至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的SVR训练模型。
详细地,基于统一的SVR训练模型模板,可以对各训练数据子集进行训练,以获得各训练数据子集对应的SVR训练模型。
比如,经训练,训练数据子集:(X1、X3)对应的SVR训练模型为模型1,训练数据子集:(X2、X4)对应的SVR训练模型为模型2。
步骤205:针对至少两个SVR训练模型中的每一个SVR训练模型均执行:将训练数据集代入当前SVR训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前SVR训练模型的权重。
详细地,可以控制每一个SVR训练模型当前的权重的加和等于1。
比如,将训练数据集(X1、X2、X3、X4)代入模型1可以获得测试数据X5的第一预测结果X51,将训练数据集(X1、X2、X3、X4)代入模型2可以获得测试数据X5的第一预测结果X52。
将X51和X52分别与X5相对比,确定出的模型1的权重为k1,模型2的权重为k2。
步骤206:根据训练数据集、至少两个SVR训练模型和每一个SVR训练模型当前的权重,执行加权求和处理以确定测试数据的第二预测结果。
将训练数据集(X1、X2、X3、X4)分别代入具有权重k1的模型1和具有权重k2的模型2,经加权求和处理,可以确定出测试数据X5的第二预测结果X5′。
步骤207:通过对比测试数据和第二预测结果,对每一个SVR训练模型当前的权重进行调整替换。
将X5′与X5相对比,以对当前权重进行调整替换。比如,经调整替换,模型1的权重为k1′,模型2的权重为k2′。
步骤208:根据训练数据集、测试数据、至少两个SVR训练模型和每一个SVR训练模型当前的权重,执行加权求和处理以确定当前待预测数据。
将训练数据集(X1、X2、X3、X4)、测试数据X5作为输入数据,分别代入具有权重k1′的模型1和具有权重k2′的模型2,经加权求和处理,可以确定出当前待预测数据X6′。
详细地,由于X6′的相关历史数据包括X1~X5,故在确定X6′时,需要将训练数据集(X1、X2、X3、X4)和测试数据X5均作为输入数据。
步骤209:确定当前待预测数据对应的真实值。
当前待预测数据X6′对应的真实值已知,为上述X6。
步骤210:通过对比当前待预测数据和真实值,对每一个SVR训练模型当前的权重进行调整替换。
将X6′与X6相对比,以对当前权重进行调整替换。比如,经调整替换,模型1的权重为k1〞,模型2的权重为k2〞。
步骤211:根据训练数据集、测试数据、真实值、至少两个SVR训练模型和每一个SVR训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
将训练数据集(X1、X2、X3、X4)、测试数据X5、真实值X6作为输入数据,分别代入具有权重k1〞的模型1和具有权重k2〞的模型2,经加权求和处理,可以确定出下一个待预测数据X7′。
详细地,由于X7′的相关历史数据包括X1~X6,故在确定X7′时,需要将训练数据集(X1、X2、X3、X4)、测试数据X5和真实值X6均作为输入数据。
如图3所示,本发明一个实施例提供了一种数据预测装置,包括:
第一处理单元301,用于根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型;
第二处理单元302,用于针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重;
第三处理单元303,用于根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
在本发明一个实施例中,所述第一处理单元301,具体用于采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
在本发明一个实施例中,所述第二处理单元302,还用于根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
在本发明一个实施例中,所述第二处理单元302,还用于确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;
所述第三处理单元303,还用于根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
在本发明一个实施例中,每一个所述训练模型当前的权重的加和等于1。
在本发明一个实施例中,所述训练模型为SVR模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明的各个实施例至少具有如下有益效果:
1、本发明实施例中,根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于训练数据集的至少两个训练模型;针对各训练模型均执行:将训练数据集代入当前训练模型,以获得测试数据的第一预测结果;通过对比测试数据和第一预测结果,确定当前训练模型的权重;根据训练数据集、测试数据、至少两个训练模型和每一个训练模型当前的权重,执行加权求和处理以确定当前待预测数据。因此,本发明实施例能够提高所预测出的数据的准确性。
2、本发明实施例中,与单一训练模型相比,基于多个混合训练模型以预测数据时,所预测出的数据的准确性大大提高。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据预测方法,其特征在于,包括:
S1:根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型;
S2:针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重;
S3:根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
2.根据权利要求1所述的方法,其特征在于,
所述S1包括:采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
3.根据权利要求1所述的方法,其特征在于,
在所述S3之前,进一步包括:根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
4.根据权利要求1所述的方法,其特征在于,
在所述S3之后,进一步包括:确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
5.根据权利要求1至4中任一所述的方法,其特征在于,
每一个所述训练模型当前的权重的加和等于1;
和/或,
所述训练模型为支持向量回归SVR模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
6.一种数据预测装置,其特征在于,包括:
第一处理单元,用于根据当前待预测数据的相关历史数据,获得测试数据、训练数据集和基于所述训练数据集的至少两个训练模型;
第二处理单元,用于针对所述至少两个训练模型中的每一个训练模型均执行:将所述训练数据集代入当前训练模型,以获得所述测试数据的第一预测结果;通过对比所述测试数据和所述第一预测结果,确定所述当前训练模型的权重;
第三处理单元,用于根据所述训练数据集、所述测试数据、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述当前待预测数据。
7.根据权利要求6所述的数据预测装置,其特征在于,
所述第一处理单元,具体用于采集当前待预测数据的相关历史数据;将所述相关历史数据划分为测试数据和包括有至少两个训练数据的训练数据集;对所述训练数据集进行分组处理,以获得至少两个训练数据子集,其中,所述训练数据子集中的训练数据的个数不大于所述训练数据集中的训练数据的个数;针对所述至少两个训练数据子集中的每一个训练数据子集均执行:训练当前训练数据子集对应的训练模型。
8.根据权利要求6所述的数据预测装置,其特征在于,
所述第二处理单元,还用于根据所述训练数据集、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定所述测试数据的第二预测结果;通过对比所述测试数据和所述第二预测结果,对每一个所述训练模型当前的权重进行调整替换。
9.根据权利要求6所述的数据预测装置,其特征在于,
所述第二处理单元,还用于确定所述当前待预测数据对应的真实值;通过对比所述当前待预测数据和所述真实值,对每一个所述训练模型当前的权重进行调整替换;
所述第三处理单元,还用于根据所述训练数据集、所述测试数据、所述真实值、所述至少两个训练模型和每一个所述训练模型当前的权重,执行加权求和处理以确定下一个待预测数据。
10.根据权利要求6至9中任一所述的数据预测装置,其特征在于,
每一个所述训练模型当前的权重的加和等于1;
和/或,
所述训练模型为支持向量回归SVR模型;
所述当前待预测数据、所述测试数据和所述训练数据集中的每一个训练数据均为客流量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874407.0A CN107590569A (zh) | 2017-09-25 | 2017-09-25 | 一种数据预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874407.0A CN107590569A (zh) | 2017-09-25 | 2017-09-25 | 一种数据预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107590569A true CN107590569A (zh) | 2018-01-16 |
Family
ID=61047688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710874407.0A Pending CN107590569A (zh) | 2017-09-25 | 2017-09-25 | 一种数据预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590569A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108230049A (zh) * | 2018-02-09 | 2018-06-29 | 新智数字科技有限公司 | 订单的预测方法及系统 |
CN108415885A (zh) * | 2018-02-08 | 2018-08-17 | 武汉蓝泰源信息技术有限公司 | 基于近邻回归的实时公交客流预测方法 |
CN108846695A (zh) * | 2018-06-07 | 2018-11-20 | 中国联合网络通信集团有限公司 | 终端更换周期的预测方法及装置 |
CN108959934A (zh) * | 2018-06-11 | 2018-12-07 | 平安科技(深圳)有限公司 | 安全风险评估方法、装置、计算机设备和存储介质 |
CN109009148A (zh) * | 2018-08-24 | 2018-12-18 | 广东工业大学 | 一种步态功能评估方法 |
CN109102159A (zh) * | 2018-07-18 | 2018-12-28 | 平安科技(深圳)有限公司 | 旅客评级模型生成方法、装置、计算机设备和存储介质 |
CN109583949A (zh) * | 2018-11-22 | 2019-04-05 | 中国联合网络通信集团有限公司 | 一种用户换机预测方法及系统 |
CN109816158A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 预测模型的组合方法、装置、设备及可读存储介质 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
CN110634565A (zh) * | 2019-09-18 | 2019-12-31 | 安徽威奥曼机器人有限公司 | 一种医疗大数据回归分析方法 |
CN110866672A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 数据处理方法、装置、终端及介质 |
CN110929926A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 基于长短期记忆网络和随机森林的短期爆炸客流预测方法 |
WO2020119299A1 (zh) * | 2018-12-14 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 一种模型合并方法和装置 |
CN111582919A (zh) * | 2020-04-24 | 2020-08-25 | 海南太美航空股份有限公司 | 一种航班客座率预测方法和系统 |
CN111950753A (zh) * | 2019-05-15 | 2020-11-17 | 贵阳海信网络科技有限公司 | 一种景区客流预测的方法及装置 |
CN112137585A (zh) * | 2020-09-24 | 2020-12-29 | 刘玉宝 | 一种交叉韧带重建中移植肌腱的测试方法及系统 |
CN112232607A (zh) * | 2020-12-16 | 2021-01-15 | 成都四方伟业软件股份有限公司 | 一种地铁客流量预测方法及装置 |
CN112699014A (zh) * | 2020-12-25 | 2021-04-23 | 深圳创新科技术有限公司 | 一种存储性能预测功能的测试及展示方法及装置 |
CN113449746A (zh) * | 2020-03-24 | 2021-09-28 | 北京京东振世信息技术有限公司 | 尾气遥测数据修正方法和装置 |
-
2017
- 2017-09-25 CN CN201710874407.0A patent/CN107590569A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415885A (zh) * | 2018-02-08 | 2018-08-17 | 武汉蓝泰源信息技术有限公司 | 基于近邻回归的实时公交客流预测方法 |
CN108230049A (zh) * | 2018-02-09 | 2018-06-29 | 新智数字科技有限公司 | 订单的预测方法及系统 |
CN108846695A (zh) * | 2018-06-07 | 2018-11-20 | 中国联合网络通信集团有限公司 | 终端更换周期的预测方法及装置 |
CN108959934A (zh) * | 2018-06-11 | 2018-12-07 | 平安科技(深圳)有限公司 | 安全风险评估方法、装置、计算机设备和存储介质 |
CN108959934B (zh) * | 2018-06-11 | 2023-08-22 | 平安科技(深圳)有限公司 | 安全风险评估方法、装置、计算机设备和存储介质 |
WO2020015140A1 (zh) * | 2018-07-18 | 2020-01-23 | 平安科技(深圳)有限公司 | 旅客评级模型生成方法、装置、计算机设备和存储介质 |
CN109102159A (zh) * | 2018-07-18 | 2018-12-28 | 平安科技(深圳)有限公司 | 旅客评级模型生成方法、装置、计算机设备和存储介质 |
CN109009148A (zh) * | 2018-08-24 | 2018-12-18 | 广东工业大学 | 一种步态功能评估方法 |
CN109583949A (zh) * | 2018-11-22 | 2019-04-05 | 中国联合网络通信集团有限公司 | 一种用户换机预测方法及系统 |
TWI718690B (zh) * | 2018-12-14 | 2021-02-11 | 開曼群島商創新先進技術有限公司 | 模型合併方法和裝置 |
WO2020119299A1 (zh) * | 2018-12-14 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 一种模型合并方法和装置 |
CN109816158A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 预测模型的组合方法、装置、设备及可读存储介质 |
CN111950753A (zh) * | 2019-05-15 | 2020-11-17 | 贵阳海信网络科技有限公司 | 一种景区客流预测的方法及装置 |
CN110443314A (zh) * | 2019-08-08 | 2019-11-12 | 中国工商银行股份有限公司 | 基于机器学习的景区客流量预测方法及装置 |
CN110634565B (zh) * | 2019-09-18 | 2021-04-06 | 深圳市微克科技有限公司 | 一种医疗大数据回归分析方法 |
CN110634565A (zh) * | 2019-09-18 | 2019-12-31 | 安徽威奥曼机器人有限公司 | 一种医疗大数据回归分析方法 |
CN110866672A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 数据处理方法、装置、终端及介质 |
CN110929926A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 基于长短期记忆网络和随机森林的短期爆炸客流预测方法 |
CN113449746A (zh) * | 2020-03-24 | 2021-09-28 | 北京京东振世信息技术有限公司 | 尾气遥测数据修正方法和装置 |
CN113449746B (zh) * | 2020-03-24 | 2023-09-26 | 北京京东振世信息技术有限公司 | 尾气遥测数据修正方法和装置 |
CN111582919A (zh) * | 2020-04-24 | 2020-08-25 | 海南太美航空股份有限公司 | 一种航班客座率预测方法和系统 |
CN111582919B (zh) * | 2020-04-24 | 2023-09-19 | 海南太美航空股份有限公司 | 一种航班客座率预测方法和系统 |
CN112137585A (zh) * | 2020-09-24 | 2020-12-29 | 刘玉宝 | 一种交叉韧带重建中移植肌腱的测试方法及系统 |
CN112232607A (zh) * | 2020-12-16 | 2021-01-15 | 成都四方伟业软件股份有限公司 | 一种地铁客流量预测方法及装置 |
CN112699014A (zh) * | 2020-12-25 | 2021-04-23 | 深圳创新科技术有限公司 | 一种存储性能预测功能的测试及展示方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590569A (zh) | 一种数据预测方法及装置 | |
US10606862B2 (en) | Method and apparatus for data processing in data modeling | |
CN103745273B (zh) | 一种半导体制造过程的多性能预测方法 | |
CN109271374B (zh) | 一种基于机器学习的数据库健康度打分方法和打分系统 | |
CN104915735B (zh) | 企业运营分析预警系统的预警分析方法 | |
CN104391860B (zh) | 内容类别检测方法及装置 | |
CN105844287B (zh) | 一种遥感影像分类的域自适应方法及系统 | |
CN105653450A (zh) | 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法 | |
CN107665172A (zh) | 一种基于复杂加权软件网络的软件缺陷预测方法 | |
CN109784692A (zh) | 一种基于深度学习的快速安全约束经济调度方法 | |
CN114492675B (zh) | 一种电容式电压互感器故障原因智能诊断方法 | |
CN110232584A (zh) | 停车场选址方法、装置、计算机可读存储介质及终端设备 | |
CN108647707A (zh) | 概率神经网络创建方法、故障诊断方法及装置、存储介质 | |
CN104657574A (zh) | 一种医疗诊断模型的建立方法及装置 | |
CN113554213A (zh) | 一种天然气需求预测方法、系统、存储介质及设备 | |
Protalinskiy et al. | Strategic decision support in the process of manufacturing systems management | |
CN109829627A (zh) | 一种基于集成学习方案的电力系统动态安全置信评估方法 | |
CN115271373A (zh) | 城市群弹性开发边界划定方法及系统 | |
CN108182448A (zh) | 一种标注策略的选择方法及相关装置 | |
CN108537581A (zh) | 基于gmdh选择性组合的能源消费量时间序列预测方法及装置 | |
CN116383048A (zh) | 软件质量信息处理方法及装置 | |
CN105469141A (zh) | 基于神经网络的预测方法及系统 | |
CN109816028A (zh) | 一种部分特征迁移的非平衡数据集分类模型融合方法 | |
CN109272233A (zh) | 一种基于二型模糊集合的员工胜任力评估方法 | |
CN104484700A (zh) | 一种基于bp网络模型的负荷预测的模型输入变量优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180116 |