CN107194489A - 数据预测方法及装置 - Google Patents

数据预测方法及装置 Download PDF

Info

Publication number
CN107194489A
CN107194489A CN201610144981.6A CN201610144981A CN107194489A CN 107194489 A CN107194489 A CN 107194489A CN 201610144981 A CN201610144981 A CN 201610144981A CN 107194489 A CN107194489 A CN 107194489A
Authority
CN
China
Prior art keywords
sample
model
optimal models
total optimization
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610144981.6A
Other languages
English (en)
Inventor
杨帆
付歆
郭能
丁杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610144981.6A priority Critical patent/CN107194489A/zh
Publication of CN107194489A publication Critical patent/CN107194489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment

Abstract

本申请公开了数据预测方法及装置,该方法包括:获取用于数据预测的样本集,所述样本集至少包括两个样本;对各个样本均进行建模,得到每个样本对应的样本最优模型;根据各个所述样本最优模型确定所述样本集对应的整体最优模型;根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。因此,本申请可以实现数据预测的自动化和批量化,还可以提高数据预测的效率和准确度。

Description

数据预测方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及数据预测方法及装置。
背景技术
时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。并且,时间序列分析的主要目的是根据已有的历史数据对时间序列的未来值进行预测。
现有技术中,可以采用回归模型、自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)模型、以及带有干预序列的ARIMA模型等不同的模型来预测某一时间序列的未来值。
但是,上述预测模型中的抽样、参数估计、变量选择以及最终模型选择均需要人工参与,提高了时间序列分析的难度,并降低了时间序列分析的效率以及灵活性。
发明内容
本申请提供数据预测方法及装置,以解决现有技术中预测模型中的抽样、参数估计、变量选择以及最终模型选择均需要人工参与,提高了时间序列分析的难度,并降低了时间序列分析的效率以及灵活性问题。
根据本申请实施例的第一方面,提供一种数据预测方法,所述方法包括:
获取用于数据预测的样本集,所述样本集至少包括两个样本;
对各个样本均进行建模,得到每个样本对应的样本最优模型;
根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
根据本申请实施例的第二方面,提供一种数据预测装置,所述装置包括:
获取单元,用于获取用于数据预测的样本集,所述样本集至少包括两个样本;
建模单元,用于对各个样本均进行建模,得到每个样本对应的样本最优模型;
确定单元,用于根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
预测单元,用于根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
根据本申请实施例的第三方面,提供一种数据预测装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用于数据预测的样本集,所述样本集至少包括两个样本;
对各个样本均进行建模,得到每个样本对应的样本最优模型;
根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
应用本申请实施例,在数据预测时,可以获取至少包括两个样本的样本集,对各个样本均进行建模,得到每个样本对应的样本最优模型,根据各个样本最优模型确定样本集对应的整体最优模型,根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,并利用各个预测模型进行数据预测,从而实现了数据预测的自动化和批量化,还提高了数据预测的效率和准确度。
附图说明
图1为本申请实施例的数据预测场景示意图;
图2为本申请数据预测方法的一个实施例流程图;
图3为本申请数据预测方法的另一个实施例的流程图;
图4本申请数据预测装置所在设备的一种硬件结构图;
图5为本申请数据预测装置的一个实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,为本申请实施例的数据预测场景示意图:
图1场景中包括:用户和数据预测设备。其中,用户可以为企业A,并且该企业A需要数据预测设备为其预测未来销售额。
数据预测设备首先可以自动获取用于预测企业A未来销售额的样本集,该样本集不仅包括企业A的销售样本,还包括其他可比企业的销售样本。其中,可比企业是与企业A为同一行业的企业。这里,该数据预测设备不仅需要企业A的销售样本,还需要其他可比企业的销售样本,其目的不仅可以提高预测企业A未来销售额的准确性,还可以同时预测其他可比企业未来销售额。另外,企业A的销售样本和其他可比企业的销售样本可以是一组时间序列。比如:各个企业连续30个月的销售额。
然后,对各个销售样本均进行建模,得到每个销售样本对应的样本最优模型,该样本最优模型是针对同一样本的预测误差的最小值对应的模型。
再次,根据各个销售样本最优模型确定样本集对应的整体最优模型,该整体最优模型是相同样本最优模型对应的样本个数的最大值对应的模型。
最后,可以将企业A的销售样本对应的样本最优模型和样本集对应的整体最优模型进行比较:
(1)若企业A的销售样本对应的样本最优模型与样本集对应的整体最优模型相同,则选择企业A的销售样本对应的样本最优模型作为企业A对应的预测模型,并利用企业A的销售样本对应的样本最优模型对企业A未来的销售额进行预测。
(2)若企业A的销售样本对应的样本最优模型与样本集对应的整体最优模型不同,则计算样本最优模型对企业A的销售样本的预测误差、以及整体最优模型对企业A的销售样本的预测误差,然后计算两个误差之间的差值:
若差值小于设定差值阈值,则将整体最优模型确定企业A的销售样本对应的预测模型,并利用整体最优模型对企业A未来的销售额进行预测。
若差值不小于设定差值阈值,则将样本最优模型确定企业A的销售样本对应的预测模型,并利用样本最优模型对企业A未来的销售额进行预测。
因此,数据预测设备可以自动根据企业A的销售样本、以及其他可比企业的销售样本预测企业A未来的销售额,这样可以提高预测销售额的准确性。
下面对本申请实施例进行详细说明。
参见图2,为本申请数据预测方法的一个实施例的流程图,该方法可以应用于数据预测设备上,该数据预测设备可以为终端设备、也可以为服务器等,包括以下步骤:
步骤210:获取用于数据预测的样本集,该样本集至少包括两个样本。
本申请实施例中,样本集中的各个样本可以是一组时间序列。并且,样本中的数据可以是全量数据,不用采样。
比如:若需要预测企业1未来销售额,其对应的样本集可以包括:样本1、样本2、…、样本n等。其中,样本1为企业1连续30个月的销售额,样本2为企业2连续30个月的销售额、…、样本n为企业n连续30个月的销售额。其中,企业2、…、企业n皆为企业1的可比企业。
步骤220:对各个样本均进行建模,得到每个样本对应的样本最优模型。
本申请实施例中,可以同时对多个样本建模,且每个样本可以有不同的参数,或者选择多种建模模型,从这些建模模型中确定每个样本对应的样本最优模型。并且,样本最优模型是针对单个样本来说,是最优的建模模型。
步骤230:根据各个样本最优模型确定样本集对应的整体最优模型。
本申请实施例中,不仅需要确定每个样本对应的样本最优模型,还需要确定样本集对应的整体最优模型,该整体最优模型是针对样本集中大多数样本来说,是最优的建模模型。
步骤240:根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,并利用各个预测模型进行数据预测。
本申请实施例中,确定每个样本对应的预测模型时,不仅考虑该样本自身对应的样本最优模型,还要考虑整体最优模型,若样本最优模型与整体最优模型相同,则可以直接用整体最优模型进行数据预测;若样本最优模型与整体最优模型不同,则将样本最优模型与整体最优模型进行比较,选取最适合该样本的一个模型作为预测模型,并用以进行数据预测。
利用该预测模型进行数据预测时,可以利用该预测模型对对应样本的未来值进行预测。
由上述实施例可见,在数据预测时,可以获取至少包括两个样本的样本集,对各个样本均进行建模,得到每个样本对应的样本最优模型,根据各个样本最优模型确定样本集对应的整体最优模型,根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,并利用各个预测模型进行数据预测,从而实现了数据预测的自动化和批量化,还提高了数据预测的效率和准确度。
参见图3,为本申请数据预测方法的另一个实施例的流程图,该方法可以应用于数据预测设备上,包括以下步骤:
步骤310:获取用于数据预测的样本集,该样本集至少包括两个样本。该步骤与步骤210相同,在这里不再赘述。
步骤320:选择至少两个建模模型。
本申请实施例中,可以选择多种建模模型,并从这些建模模型中确定每个样本对应的样本最优模型。并且,样本集中各个样本对应的样本最优模型可以是相同的,也可以是不同的。
步骤330:计算各个建模模型对第一样本的预测误差,该第一样本是样本集中的任一个样本。
本申请实施例中,各个建模模型可以均属于指数平滑(ExponentialSmoothing,ES)模型。该ES模型是生产预测中常用的一种模型,也用于中短期经济发展趋势预测。
常用的指数平滑模型包括:一次指数平滑模型(Simple ExponentialSmoothing,SES)、二次指数平滑模型(Linear Exponential Smoothing,LES)等。
在计算各个建模模型对第一样本的预测误差时,包括但不限于以下计算方法:
(1)对第一样本进行切分,并且切分后的第一样本包括训练数据集和验证数据集。
本申请实施例中,对第一样本进行切分时,可以按照预设的切分参数对第一样本进行切分。其中,预设的切分参数用于指明训练数据集在第一样本中的百分比(例如70%)和验证数据集在第一样本中的百分比(例如30%)。
比如:第一样本为企业A连续30个月的销售额(a1、a2、…、a30),并训练数据集对应的切分参数为70%,验证数据集对应的切分参数为30%,则可以将连续30个月的销售额中前21个月的销售额(a1、a2、…、a21)作为训练数据集,以及后9个月的销售额(a22、a2、…、a30)作为验证数据集。
(2)根据各个指数平滑模型对第一样本在训练数据集上进行指数平滑训练,得到各个指数平滑模型对验证数据集的预测结果。
本申请实施例中,可以将第一样本作为一时间序列,通过训练数据集中的训练数据来预测验证数据集中的验证数据。
在根据各个指数平滑模型对第一样本在训练数据集上进行指数平滑训练时,可以先对第一样本的训练数据集进行移动平均,得到第一样本的移动平均指标集;然后,根据各个指数平滑模型对第一样本在训练数据集和移动平均指标集上进行指数平滑训练,得到预测结果。
比如:第一样本为企业A连续30个月的销售额(a1、a2、…、a30),前21个月的销售额(a1、a2、…、a21)作为训练数据集,以及后9个月的销售额(a22、a2、…、a30)作为验证数据集。
用2个月做移动平均,生成企业A的前21个月的移动平均指标集(b1、b2、…、b21)。
其中,b1=a1;
b2=(a1+a2)/2;
b3=(a2+a3)/2;
b 21=(a20+a21)/2。
首先,利用SES模型对训练数据集(a1、a2、…、a21)进行建模,得到后9个月的预测值,然后利用LES对训练数据集(a1、a2、…、a21)进行建模,也得到后9个月的预测值,一直到利用完所有的指数平滑模型。
然后,利用SES模型对移动平均指标集(b1、b2、…、b21)进行建模,得到后9个月的预测值,然后利用LES对移动平均指标集(b1、b2、…、b21)进行建模,也得到后9个月的预测值,一直到利用完所有的指数平滑模型。
(3)根据验证数据集和预测结果计算各个指数平滑模型的预测误差。
本申请实施例中,可以计算预测结果中的各个预测数据与验证数据集中对应的验证数据之间的差值,然后对各个差值进行统计分析,得到各个指数平滑模型的预测误差。
另外,用于本申请中计算预测误差的方法还有很多,在这里不再赘述。
步骤340:将预测误差的最小值对应的建模模型确定为第一样本对应的样本最优模型。
上述步骤320至步骤340完成了对各个样本均进行建模,得到每个样本对应的样本最优模型的功能。
步骤350:根据每个样本对应的样本最优模型,计算相同样本最优模型对应的样本个数。
比如:样本集包括样本1、样本2、样本3和样本4。其中,样本1对应的样本最优模型为指数平滑模型1;样本2对应的样本最优模型为指数平滑模型2;样本3对应的样本最优模型为指数平滑模型3;样本4对应的样本最优模型为指数平滑模型2。
上述各个指数平滑模型对应的样本个数分别是:指数平滑模型1对应的样本个数为1;指数平滑模型2对应的样本个数为2;指数平滑模型3对应的样本个数为1。其中,指数平滑模型2对应的样本个数大于指数平滑模型1对应的样本个数、以及大于指数平滑模型3对应的样本个数。故此,可以选择指数平滑模型2为整体最优模型。
步骤360:将样本个数最大值对应的样本最优模型确定为整体最优模型。
本申请实施例中,确定整体最优模型后,还可以计算该整体最优模型的样本占比值,并且样本占比值为整体最优模型对应的样本个数与所有样本个数的商值。
比如:样本集包括1000个样本,9个建模模型,其中建模模型A为整体最优模型,其对应的样本个数为300,也就是有300个样本选择建模模型A为样本最优模型,则建模模型A的样本占比值为0.3。该样本占比值取值为0至1之间,表征了样本集的一致性,样本占比值越大,表明该样本集的一致性越高。
上述步骤350至步骤360完成了根据各个样本最优模型确定样本集对应的整体最优模型的功能。
步骤370:根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,并利用各个预测模型进行数据预测。
本申请实施例中,根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,可以包括但不限于以下方法:
(1)判断第一样本对应的样本最优模型与整体最优模型是否相同,若不同,则执行(2)至(4);若相同,则执行(5)。
(2)获取样本最优模型对第一样本的第一预测误差、以及整体最优模型对第一样本的第二预测误差。
(3)计算第一预测误差与第二预测误差之间的差值。
本申请实施例中,第一预测误差与第二预测误差之间的差值是衡量利用样本最优模型进行预测和利用整体最优模型进行预测之间的一个差异度。
(4)若第一预测误差与第二预测误差之间的差值小于设定差值阈值,则将整体最优模型确定第一样本对应的预测模型;若第一预测误差与第二预测误差之间的差值不小于设定差值阈值,则将样本最优模型确定第一样本对应的预测模型。
本申请实施例中,设定差值阈值的设置与整体最优模型的样本占比值有关,即根据样本占比值的大小来设置设定差值阈值的大小,样本占比值越大,设定差值阈值也可以越大。其中,样本占比值越大,设定差值阈值也可以越大的原因是样本占比值越大,其表明样本集中所有样本的一致性越高,此时可以允许的设定差值阈值可以越高。
若第一预测误差与第二预测误差之间的差值小于设定差值阈值,表明利用样本最优模型进行预测和利用整体最优模型进行预测之间的差异不大,可以直接用整体最优模型作为预测模型即可。
若第一预测误差与第二预测误差之间的差值不小于设定差值阈值,表明利用样本最优模型进行预测远远好于利用整体最优模型进行预测,故此仍然选用样本最优模型作为预测模型。
(5)将整体最优模型确定第一样本对应的预测模型。
本申请实施例中,若样本最优模型与整体最优模型相同,则可以直接将整体最优模型确定第一样本对应的预测模型。
由上述实施例可见,在数据预测时,可以选择多个建模模型,并从这些建模模型中选取各个样本自身的样本最优模型,以及选取所有样本对应的整体最优模型,并根据每个样本对应的样本最优模型和所有样本对应的整体最优模型来确定每个样本对应的预测模型,并利用各个预测模型进行数据预测,从而进一步提高了数据预测的准确度。
在一个例子中,该数据预测方法还可以包括:
在检测到样本更新时,根据更新后的样本更新对应的样本最优模型、整体最优模型、以及预测模型。
本申请实施例中,若样本集中的任一样本的数据出现更新后,该样本对应的样本最优模型、整体最优模型、整体最优模型的样本占比值、样本最优模型和整体最优模型之间的预测差值以及设定差值阈值都会自动改变,并且数据预测装置会自动计算出该样本对应的预测模型,以及得到预测结果。
由上述实施例可见,在样本数据更新时,数据预测用到的预测参数和预测模型都会自动改变,从而增强了数据预测的实时性,还提高了数据预测的灵活性。
与本申请数据预测方法的实施例相对应,本申请还提供了数据预测装置的实施例。
本申请数据预测装置的实施例可以分别应用在数据预测设备上,比如:终端设备或服务器。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请数据预测装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,如对于终端来说,可能包括摄像头、触摸屏子、通信组件等,对于服务器来说,可能包括负责处理报文的转发芯片等等。
参见图5,为本申请数据预测装置的一个实施例框图,该数据预测装置可以应用在数据预测设备上,并可以用于执行图2所示的数据预测方法,该装置可以包括:获取单元51、建模单元52、确定单元53和预测单元54。
其中,获取单元51用于获取用于数据预测的样本集,所述样本集至少包括两个样本;
建模单元52用于对各个样本均进行建模,得到每个样本对应的样本最优模型;
确定单元53用于根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
预测单元54用于根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
在一个可选的实现方式中:所述建模单元52可以包括:选择子单元、第一计算子单元、第一确定子单元(图5中未示出)。
其中,选择子单元用于选择至少两个建模模型;
第一计算子单元用于计算各个建模模型对第一样本的预测误差,所述第一样本是所述样本集中的任一个样本;
第一确定子单元用于将所述预测误差的最小值对应的建模模型确定为所述第一样本对应的样本最优模型。
在另一个可选的实现方式中:所述建模模型属于指数平滑模型;所述第一计算子单元可以包括:切分模块、指数平滑训练模块和计算模块(图5中未示出)。
其中,切分模块用于对所述第一样本进行切分,所述切分后的第一样本包括训练数据集和验证数据集;
指数平滑训练模块用于根据各个指数平滑模型对第一样本在所述训练数据集上进行指数平滑训练,得到各个指数平滑模型对所述验证数据集的预测结果;
计算模块用于根据所述验证数据集和所述预测结果计算各个指数平滑模型的预测误差。
在另一个可选的实现方式中:所述指数平滑训练模块可以包括:移动平均子模块和指数平滑训练子模块(图5中未示出)。
其中,移动平均子模块用于对第一样本的训练数据集进行移动平均,得到第一样本的移动平均指标集;
指数平滑训练子模块用于根据各个指数平滑模型对第一样本在所述训练数据集和所述移动平均指标集上进行指数平滑训练,得到所述预测结果。
在另一个可选的实现方式中:所述计算模块可以包括:计算子模块和统计分析子模块(图5中未示出)。
其中,计算子模块用于计算所述预测结果中的各个预测数据与所述验证数据集中对应的验证数据之间的差值;
统计分析子模块用于对各个所述差值进行统计分析,得到所述预测误差。
在另一个可选的实现方式中:所述确定单元53可以包括:第二计算子单元和第二确定子单元(图5中未示出)。
其中,第二计算子单元用于根据每个样本对应的样本最优模型,计算相同样本最优模型对应的样本个数;
第二确定子单元用于将所述样本个数最大值对应的样本最优模型确定为所述整体最优模型。
在另一个可选的实现方式中:所述装置还可以包括:计算单元(图5中未示出)。
其中,计算单元,用于计算所述整体最优模型的样本占比值,所述样本占比值为所述整体最优模型对应的样本个数与所有样本个数的商值。
在另一个可选的实现方式中:所述预测单元54可以包括:判断子单元、获取子单元、第三计算子单元、第三确定子单元和第四确定子单元(图5中未示出)。
其中,判断子单元用于判断所述第一样本对应的样本最优模型与所述整体最优模型是否相同;
获取子单元用于若所述第一样本的样本最优模型与所述整体最优模型不同,获取所述样本最优模型对所述第一样本的第一预测误差、以及所述整体最优模型对所述第一样本的第二预测误差;
第三计算子单元用于计算所述第一预测误差与所述第二预测误差之间的差值;
第三确定子单元用于若所述差值小于设定差值阈值,则将所述整体最优模型确定所述第一样本对应的预测模型;
第四确定子单元用于若所述差值不小于所述设定差值阈值,则将所述样本最优模型确定所述第一样本对应的预测模型。
在另一个可选的实现方式中:所述预测单元54还可以包括:第五确定子单元(图5中未示出)。
其中,第五确定子单元用于若所述第一样本的样本最优模型与所述整体最优模型相同,则将所述整体最优模型确定所述第一样本对应的预测模型。
在另一个可选的实现方式中:所述装置还可以包括:更新单元(图5中未示出)。
其中,更新单元用于在检测到样本更新时,根据更新后的样本更新对应的样本最优模型、整体最优模型、以及预测模型。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本请求方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
与图5相对应,本申请实施例还提供了一种数据预测装置,所述装置可以应用于数据预测设备上,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用于数据预测的样本集,所述样本集至少包括两个样本;
对各个样本均进行建模,得到每个样本对应的样本最优模型;
根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
由上述实施例可见,在数据预测时,可以获取至少包括两个样本的样本集,对各个样本均进行建模,得到每个样本对应的样本最优模型,根据各个样本最优模型确定样本集对应的整体最优模型,根据每个样本对应的样本最优模型和样本集对应的整体最优模型确定每个样本对应的预测模型,并利用各个预测模型进行数据预测,从而实现了数据预测的自动化和批量化,还提高了数据预测的效率和准确度
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (21)

1.一种数据预测方法,其特征在于,所述方法包括:
获取用于数据预测的样本集,所述样本集至少包括两个样本;
对各个样本均进行建模,得到每个样本对应的样本最优模型;
根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
2.根据权利要求1所述的方法,其特征在于,所述对各个样本均进行建模,得到每个样本对应的样本最优模型,包括:
选择至少两个建模模型;
计算各个建模模型对第一样本的预测误差,所述第一样本是所述样本集中的任一个样本;
将所述预测误差的最小值对应的建模模型确定为所述第一样本对应的样本最优模型。
3.根据权利要求2所述的方法,其特征在于,所述建模模型属于指数平滑模型;
所述计算各个建模模型对第一样本的预测误差,包括:
对所述第一样本进行切分,所述切分后的第一样本包括训练数据集和验证数据集;
根据各个指数平滑模型对第一样本在所述训练数据集上进行指数平滑训练,得到各个指数平滑模型对所述验证数据集的预测结果;
根据所述验证数据集和所述预测结果计算各个指数平滑模型的预测误差。
4.根据权利要求3所述的方法,其特征在于,所述根据各个指数平滑模型对第一样本在所述训练数据集上进行指数平滑训练,得到各个指数平滑模型对所述验证数据集的预测结果,包括:
对第一样本的训练数据集进行移动平均,得到第一样本的移动平均指标集;
根据各个指数平滑模型对第一样本在所述训练数据集和所述移动平均指标集上进行指数平滑训练,得到所述预测结果。
5.根据权利要求3所述的方法,其特征在于,所述根据所述验证数据集和所述预测结果计算各个指数平滑模型的预测误差,包括:
计算所述预测结果中的各个预测数据与所述验证数据集中对应的验证数据之间的差值;
对各个所述差值进行统计分析,得到所述预测误差。
6.根据权利要求2所述的方法,其特征在于,所述根据每个样本对应的样本最优模型确定所有样本对应的整体最优模型,包括:
根据每个样本对应的样本最优模型,计算相同样本最优模型对应的样本个数;
将所述样本个数最大值对应的样本最优模型确定为所述整体最优模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
计算所述整体最优模型的样本占比值,所述样本占比值为所述整体最优模型对应的样本个数与所有样本个数的商值。
8.根据权利要求6所述的方法,其特征在于,所述根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,包括:
判断所述第一样本对应的样本最优模型与所述整体最优模型是否相同;
若所述第一样本的样本最优模型与所述整体最优模型不同,获取所述样本最优模型对所述第一样本的第一预测误差、以及所述整体最优模型对所述第一样本的第二预测误差;
计算所述第一预测误差与所述第二预测误差之间的差值;
若所述差值小于设定差值阈值,则将所述整体最优模型确定所述第一样本对应的预测模型;
若所述差值不小于所述设定差值阈值,则将所述样本最优模型确定所述第一样本对应的预测模型。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述第一样本的样本最优模型与所述整体最优模型相同,则将所述整体最优模型确定所述第一样本对应的预测模型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到样本更新时,根据更新后的样本更新对应的样本最优模型、整体最优模型、以及预测模型。
11.一种数据预测装置,其特征在于,所述装置包括:
获取单元,用于获取用于数据预测的样本集,所述样本集至少包括两个样本;
建模单元,用于对各个样本均进行建模,得到每个样本对应的样本最优模型;
确定单元,用于根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
预测单元,用于根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
12.根据权利要求11所述的装置,其特征在于,所述建模单元包括:
选择子单元,用于选择至少两个建模模型;
第一计算子单元,用于计算各个建模模型对第一样本的预测误差,所述第一样本是所述样本集中的任一个样本;
第一确定子单元,用于将所述预测误差的最小值对应的建模模型确定为所述第一样本对应的样本最优模型。
13.根据权利要求12所述的装置,其特征在于,所述建模模型属于指数平滑模型;
所述第一计算子单元包括:
切分模块,用于对所述第一样本进行切分,所述切分后的第一样本包括训练数据集和验证数据集;
指数平滑训练模块,用于根据各个指数平滑模型对第一样本在所述训练数据集上进行指数平滑训练,得到各个指数平滑模型对所述验证数据集的预测结果;
计算模块,用于根据所述验证数据集和所述预测结果计算各个指数平滑模型的预测误差。
14.根据权利要求13所述的装置,其特征在于,所述指数平滑训练模块包括:
移动平均子模块,用于对第一样本的训练数据集进行移动平均,得到第一样本的移动平均指标集;
指数平滑训练子模块,用于根据各个指数平滑模型对第一样本在所述训练数据集和所述移动平均指标集上进行指数平滑训练,得到所述预测结果。
15.根据权利要求13所述的装置,其特征在于,所述计算模块包括:
计算子模块,用于计算所述预测结果中的各个预测数据与所述验证数据集中对应的验证数据之间的差值;
统计分析子模块,用于对各个所述差值进行统计分析,得到所述预测误差。
16.根据权利要求12所述的装置,其特征在于,所述确定单元包括:
第二计算子单元,用于根据每个样本对应的样本最优模型,计算相同样本最优模型对应的样本个数;
第二确定子单元,用于将所述样本个数最大值对应的样本最优模型确定为所述整体最优模型。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
计算单元,用于计算所述整体最优模型的样本占比值,所述样本占比值为所述整体最优模型对应的样本个数与所有样本个数的商值。
18.根据权利要求16所述的装置,其特征在于,所述预测单元包括:
判断子单元,用于判断所述第一样本对应的样本最优模型与所述整体最优模型是否相同;
获取子单元,用于若所述第一样本的样本最优模型与所述整体最优模型不同,获取所述样本最优模型对所述第一样本的第一预测误差、以及所述整体最优模型对所述第一样本的第二预测误差;
第三计算子单元,用于计算所述第一预测误差与所述第二预测误差之间的差值;
第三确定子单元,用于若所述差值小于设定差值阈值,则将所述整体最优模型确定所述第一样本对应的预测模型;
第四确定子单元,用于若所述差值不小于所述设定差值阈值,则将所述样本最优模型确定所述第一样本对应的预测模型。
19.根据权利要求18所述的装置,其特征在于,所述预测单元还包括:
第五确定子单元,用于若所述第一样本的样本最优模型与所述整体最优模型相同,则将所述整体最优模型确定所述第一样本对应的预测模型。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
更新单元,用于在检测到样本更新时,根据更新后的样本更新对应的样本最优模型、整体最优模型、以及预测模型。
21.一种数据预测装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用于数据预测的样本集,所述样本集至少包括两个样本;
对各个样本均进行建模,得到每个样本对应的样本最优模型;
根据各个所述样本最优模型确定所述样本集对应的整体最优模型;
根据所述每个样本对应的样本最优模型和所述整体最优模型确定每个样本对应的预测模型,并利用各个所述预测模型进行数据预测。
CN201610144981.6A 2016-03-14 2016-03-14 数据预测方法及装置 Pending CN107194489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144981.6A CN107194489A (zh) 2016-03-14 2016-03-14 数据预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144981.6A CN107194489A (zh) 2016-03-14 2016-03-14 数据预测方法及装置

Publications (1)

Publication Number Publication Date
CN107194489A true CN107194489A (zh) 2017-09-22

Family

ID=59871168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144981.6A Pending CN107194489A (zh) 2016-03-14 2016-03-14 数据预测方法及装置

Country Status (1)

Country Link
CN (1) CN107194489A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754118A (zh) * 2018-12-26 2019-05-14 复旦大学 一种系统自适应的预测方法
CN109922212A (zh) * 2018-12-21 2019-06-21 阿里巴巴集团控股有限公司 一种时段话务量占比的预测方法及装置
CN110965977A (zh) * 2019-11-20 2020-04-07 中国石油大学(北京) 压裂施工分析方法
WO2020211245A1 (zh) * 2019-04-19 2020-10-22 平安科技(深圳)有限公司 一种发展趋势数据获取方法、装置
CN113627681A (zh) * 2021-08-25 2021-11-09 平安国际智慧城市科技股份有限公司 基于预测模型的数据预测方法、装置、计算机设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109922212A (zh) * 2018-12-21 2019-06-21 阿里巴巴集团控股有限公司 一种时段话务量占比的预测方法及装置
CN109754118A (zh) * 2018-12-26 2019-05-14 复旦大学 一种系统自适应的预测方法
WO2020211245A1 (zh) * 2019-04-19 2020-10-22 平安科技(深圳)有限公司 一种发展趋势数据获取方法、装置
CN110965977A (zh) * 2019-11-20 2020-04-07 中国石油大学(北京) 压裂施工分析方法
CN113627681A (zh) * 2021-08-25 2021-11-09 平安国际智慧城市科技股份有限公司 基于预测模型的数据预测方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN107194489A (zh) 数据预测方法及装置
US9684634B2 (en) Method and apparatus for evaluating predictive model
WO2019018375A1 (en) NEURONAL ARCHITECTURE RESEARCH FOR CONVOLUTION NEURAL NETWORKS
CN108021983A (zh) 神经架构搜索
CN108090516A (zh) 自动生成机器学习样本的特征的方法及系统
US20190012611A1 (en) Information processing system
JP2021501417A (ja) ニューラルアーキテクチャ検索
CN110333991B (zh) 云平台任务最大资源使用率预测方法
CN106095684B (zh) 一种预测性变异测试方法
CN109685255A (zh) 一种预测用户流失的方法和装置
Azimi et al. Applying basic control theory principles to project control: Case study of off-site construction shops
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN108460462A (zh) 一种基于区间参数优化的区间神经网络学习方法
CN112101550A (zh) 分诊融合模型训练方法、分诊方法、装置、设备及介质
CN109925718A (zh) 一种分发游戏微端地图的系统及方法
CN110308658A (zh) 一种pid参数整定方法、装置、系统及可读存储介质
CN113554213A (zh) 一种天然气需求预测方法、系统、存储介质及设备
CN106776757B (zh) 用户完成网银操作的指示方法及装置
CN111488527A (zh) 位置推荐方法、装置、电子设备和计算机可读存储介质
CN109961160A (zh) 一种基于潮流参数的电网未来运行趋势预估方法及系统
CN108564237A (zh) 一种容量评估模型建立方法、容量评估方法及装置
CN109583749B (zh) 一种基于动态规划的软件研制成本智能控制方法及系统
Al-Zuheri et al. The role of randomness of a manual assembly line with walking workers on model validation
CN116168403A (zh) 医疗数据分类模型训练方法、分类方法、装置及相关介质
CN111738407B (zh) 一种基于深度学习的钟差预测方法、装置、介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922