CN110390425A - 预测方法以及装置 - Google Patents

预测方法以及装置 Download PDF

Info

Publication number
CN110390425A
CN110390425A CN201910538254.1A CN201910538254A CN110390425A CN 110390425 A CN110390425 A CN 110390425A CN 201910538254 A CN201910538254 A CN 201910538254A CN 110390425 A CN110390425 A CN 110390425A
Authority
CN
China
Prior art keywords
time series
series forecasting
data
model
forecasting model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910538254.1A
Other languages
English (en)
Inventor
吴彦伦
周扬
赵孝松
杨树波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910538254.1A priority Critical patent/CN110390425A/zh
Publication of CN110390425A publication Critical patent/CN110390425A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书提供预测方法以及装置,其中所述预测方法包括:对通过交易平台获取到的原始数据进行预处理,得到待分析数据;将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。所述预测方法能够满足不同类型产品的时序预测需求,并且能够为不同类型的产品提供最优的时序预测模型,因此,具备很好的通用性。

Description

预测方法以及装置
技术领域
本说明书涉及时序预测技术领域,特别涉及一种预测方法。本说明书同时涉及一种预测装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,用于研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
目前,机器学习模型是大数据领域经常使用的工具,在训练机器学习模型或者利用机器学习模型对原始数据进行时序预测时,往往是将原始数据直接输入机器学习模型进行对应的处理操作。然而,这种处理操作仅能够解决具有某种特点的某一类或某几类产品的时序预测问题,无法满足不同类型产品的时序预测需求,并且也无法为不同类型的产品提供最优的时序预测模型,因此,不具备通用性。
发明内容
有鉴于此,本说明书实施例提供了一种预测方法。本说明书同时涉及一种预测装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种预测方法,包括:
对通过交易平台获取到的原始数据进行预处理,得到待分析数据;
将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;
根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
根据本说明书实施例的第二方面,提供了一种预测装置,包括:
预处理模块,被配置为对通过交易平台获取到的原始数据进行预处理,得到待分析数据;
预测模块,被配置为将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;
选择模块,被配置为根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述预测方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测方法的步骤。
本说明书实施例中,通过对通过交易平台获取到的原始数据进行预处理,得到待分析数据,将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,并根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,能够满足不同类型产品的时序预测需求,并且能够为不同类型的产品提供最优的时序预测模型,因此,具备很好的通用性。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的预测方法的流程图;
图3是本申请另一实施例提供的预测方法的流程图;
图4是本申请实施例提供的应用于图3的预测方法的预测平台的结构示意图;
图5是本申请实施例提供的预测装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,提供了一种预测方法。本说明书同时涉及一种预测装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC)中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示预测方法中的步骤。图2示出了根据本说明书一实施例的预测方法的流程图,包括步骤202至步骤206。
步骤202:对通过交易平台获取到的原始数据进行预处理,得到待分析数据。
本说明书一实施例中,时序预测服务平台接收交易平台发送的原始数据,并对该原始数据进行预处理,得到待分析数据。这里,所述交易平台可以包括线上电商平台和/或线下实体平台,其中,线上电商平台可以包括例如京东商城、天猫商城、苏宁易购等。通过线上电商平台和/或线下实体平台可以获取商品真实的相关交易数据,从而为准确预测例如商品价格或商品价格走势提供依据。
具体地,时序预测服务平台是一个智能化综合服务平台,其为了解决实际的时序预测需求提供了从数据的输入、模型的自动选择到预测结果的输出、模型的部署,再到应用方的调用的一套完整的服务。时序预测服务平台可以由诸如用户配置模块、模型配置模块、数据预处理模块、特征抽取模块、异常检测模块、服务部署模块、报警反馈及抑制模块等多个基础模块构成,用于实现模型自动选择、统计预测、回归预测、深度学习预测和时序异常检测等。此外,时序预测服务平台对外还提供了统一的输入输出接口,使得应用方仅需通过该输入输出接口提供时序预测服务所需的原始数据便可以获取到想要的预测结果和/或报警结果。
时序预测,也称时间序列预测,是根据历史统计数据的时间序列对未来的变化趋势进行预测分析,简单来说,时序预测就是基于已知事件推测未知事件。通常,时间序列由四种变化成分(例如,长期趋势变化、季节性变化、周期性变化和随机变化)组成,一些简单的预测模型(例如,指数平滑模型、移动平均模型等)可以用来预测上述三种趋势变化,而随机变化成分是无法预测的,其为混入时间序列中的一种“噪音”,须设法将其过滤掉,以免影响预测结果的精度。
进一步地,时序预测法可以包括但不限于循环神经网络(RecurrentNeuralNetwork,RNN)、长短期记忆网络(Long Short Term Memory network,LSTM)、差分整合移动平均自回归(Autoregressive Integrated Moving Average,ARIMA)、移动平均法(Moving Average,MA)、指数平滑法(Exponential Smoothing,ES)、简单序时平均数法、加权序时平均数法等。时序预测模型可以包括但不限于ARIMA模型、Prophet模型、增强传输选择(Enhanced Transmission Selection,ETS)模型等。
本说明书一实施例中,所述对通过交易平台获取到的原始数据进行预处理,得到待分析数据,包括:对通过所述交易平台获取到的所述原始数据进行数据滤波和/或数据补齐,得到标准化数据;对所述标准化数据进行特征抽取,得到所述待分析数据。
具体地,数据滤波是指在对实物扫描数字化的过程中,会不可避免的引入错误点、冗余点以及扫描环境所带来的测量噪声等,这些点对后期的实物模型重构会带来很大影响,为了更好的抽取实物的特征数据,必须进行数据滤波,将这些错误点等进行去除,通常的数据滤波主要是借助数字信号处理和图像处理中的滤波技术来进行。
数据补齐是指用一定的值去填充空值,以使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。在数据挖掘中,常用的数据补齐方法可以包括但不限于人工填写(Filling Manually)、特殊值填充(Treating Missing Attribute values as Special value)、平均值填充(Mean/ModeCompleter)、热卡填充(Hot deck imputation)、K最近距离邻法(K-means clustering)、使用所有可能的值填充(Assigning All Possible values of the Attribute)、组合完整化方法(Combinatorial Completer)、回归(Regression)、期望值最大化方法(Expectationmaximization,EM)、多重填补(Multiple Imputation,MI)等。
标准化数据是对原始数据进行诸如数据滤波和/或数据补齐等标准化处理得到的数据。通常,在数据分析之前,为了保证结果的可靠性,需要先对数据进行标准化处理,数据标准化方法可以分为直线型方法(例如,极值法、标准差法)、折线型方法(例如,三折线法)、曲线型方法(例如,半正态性分布)。
特征抽取(也称特征提取)是机器学习中常用数据处理方式,一般都出现在实际搭建模型之前,以达到特征空间维度的变化(常见的是降维操作)。特征抽取是通过适当变换把原始数据的N个特征转换成M(<N)个新特征,这样做的目的在于:降低特征空间的维度,使后续的分类器设计在计算上更容易实现;消除原有特征之间的相关度,减少数据信息的冗余,更有利于分类。
步骤204:将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果。
本说明书一实施例中,所述将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,包括:根据时序预测算法获取所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测值;计算所述预测值与真实值的误差值,并将所述误差值作为所述预测结果,其中,所述真实值是基于所述原始数据计算得到的。
具体地,基于时序预测的算法主要可以分为三大类,一是基于统计的方法,例如,用数理统计的方法处理交通历史数据,如交通流、交通速度、旅行时间等;二是基于特征的机器学习算法,例如,梯度提升树(Gradient Boosting Decision Tree,GBDT)算法、极端梯度提升(eXtreme Gradient Boosting,XGboost)算法、基于参数服务器的可伸缩多重加法回归树(Parameter server-Scalable Multiple Additive Regression Tree,PS-SMART)算法等;三是基于深度学习的网络,例如,卷积神经网络(Convolutional Neural Network,CNN)、深度神经网络(DeepNeural Network,DNN)、RNN、LSTM等。
在部署时序预测服务时,这三大类算法通常都有涉及,因此,可以从每类算法中选取2-3个经典算法作为基础算法。当接收到时序预测服务请求时,可以将获取到的待分析数据分别输入到不同的时序预测模型中,并基于如上所述的算法对时序预测模型进行训练,得到每个时序预测模型对应的预测值;进一步地,计算该预测值与基于原始数据获取到的真实值的误差值,用“loss”表示。这里,loss泛指算法里的损失函数(loss function),是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数,损失函数越小,表示模型的鲁棒性越好。常见的损失函数可以包括但不限于均方误差(Mean Square Error,MSE)损失函数、平均绝对误差(Mean Absolute Deviation,MAE)、交叉熵(Cross Entropy)损失函数等。在该实施例中,时序预测常用的是相对误差,其计算公式为loss=ABS(预测值-真实值)/真实值,其中,ABS表示取绝对值。
步骤206:根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
本说明书一实施例中,所述根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,包括:将所述误差值与预设的标准阈值进行比较;如果所述误差值小于所述标准阈值,则确定所述误差值对应的时序预测模型为有效的时序预测模型;从所述有效的时序预测模型中选择所述误差值最小的时序预测模型作为所述最优的时序预测模型。
本说明书一实施例中,所述根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,还包括:如果所述误差值大于或等于所述标准阈值,则确定所述误差值对应的时序预测模型为无效的时序预测模型;对所述无效的时序预测模型的模型参数进行自动调优训练,直到所述无效的时序预测模型对应的所述误差值小于所述标准阈值。
具体地,将计算得到的误差值与预设的标准阈值(用“alpha”表示)进行比较,如果loss<alpha,则表明loss对应的时序预测模型是有效的,这里,alpha是一个变量,用于表示设定的最大容忍误差,因此,alpha并没有绝对正确的值,而是可以根据具体业务进行设定,优选地,将alpha设定为20%,也就是说,时序预测模型训练得到的误差值loss不能大于或等于20%;进一步地,从所有有效的时序预测模型中选择具有最小误差值(用“min_loss”表示)的时序预测模型作为最优的时序预测模型,并将该最优的时序预测模型添加到已经训练好的模型白名单(用“already_list”表示)中,这里,模型白名单用于存储已经训练好的数据以及该数据自动选择的最优的模型算法。
可选地,如果loss>=alpha,则表明loss对应的时序预测模型是无效的,也就是说,loss对应的时序预测模型不满足设定的最低标准,因此,将loss对应的时序预测模型添加到未训练好的模型黑名单(用“bad_list”表示)中,这里,模型黑名单用于存储未训练好的数据;进一步地,启动自动机器学习(Automated Machine Learning,AutoML),以对模型黑名单中的时序预测模型的模型参数进行自动调优训练,直到时序预测模型找到满足设定的最低标准的最优参数。
机器学习的应用需要大量的人工干预,这些人工干预表现在特征抽取、模型选择、参数调节等机器学习的各个方面。AutoML试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。从机器学习角度讲,AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统;从自动化角度讲,AutoML则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。
AutoML的主要问题可以由三部分构成,即特征工程、模型选择、算法选择。特征工程在机器学习中有着举足轻重的作用。在AutoML中,自动特征工程的目的是自动地发掘并构造相关的特征,使得模型可以有最优的表现,除此之外,还包含一些特定的特征增强方法,例如,特征选择、特征降维、特征生成、特征编码等。模型选择包括两个步骤,即选择一个模型,并设定该模型的参数;相应地,AutoML的目的是自动地选择出一个最合适的模型,并且能够设定好它的最优参数。对于算法选择,AutoML的目的是自动地选择出一个优化算法,以便能够达到效率和精度的平衡,常用的优化算法可以包括但不限于随机梯度下降(Stochastic Gradient Descent,SGD)法、梯度下降(Gradient Descent,GD)法、L-BFGS(Limited-memory Broyden-Fletcher-Goldfarb-Shanno)算法等。此外,AutoML的优化搜索方式可以包括但不限于网格搜索(Grid Search)、随机搜索(Random Search)等,其中,GridSearch使用最为广泛。
本说明书一实施例中,通过使用AutoML,能够使机器学习的整个流程更加智能化,并且能够通过某种学习机制自动调整时序预测模型的模型参数,从而自动选择出最优的时序预测模型,因此,降低了人工干预成本,实现了自动化、智能化服务。
一个可选的实施例中,将训练好的时序预测模型保存为.h5文件或者.pb文件,其中,.h5文件是分层数据格式第5代(Hierarchical Data Format 5,HDF5)版本,是用于存储科学数据的一种文件格式和库文件;.pb文件是协议缓冲(protocol buffer)格式的文件,是一种表示模型(神经网络)结构的二进制文件,其不带有源代码,一般也无法映射成源代码。同时,将时序预测模型的基本信息以及在预处理时计算得到的数据的均值、方差、最大值、最小值等信息保存为.txt文件,并自动上传到对象存储服务(Object StorageService,OSS)对应的文件夹中,这里,对象存储服务是阿里云提供的海量、安全、低成本、高可靠的云存储服务。
需要说明的是,对象存储服务不限于如上所述的阿里云提供的云存储服务,例如,还可以为腾讯云提供的云对象存储(Cloud Object Storage,COS)、华为云提供的对象存储服务(Object Storage Service,OBS)、网易云提供的对象存储服务(Netease ObjectStorage,NOS)等。
进一步地,从数据预处理到模型部署,整个过程都可以通过在机器学习平台(Machine learning platform)上构造一个Notebook实验组件完成,该实验可以部署到开放数据处理服务(Open Data Processing Service,ODPS)表中,以根据需要定时调度完成时序预测模型的更新和部署。这里,机器学习平台可以包括但不限于阿里巴巴的PAI平台、腾讯的智能钛机器学习(TI Machine Learning,TI-ML)平台、百度的机器学习(BaiduMachine Learning,BML)平台。
一个可选的实施例中,该预测方法还包括:利用所述最优的时序预测模型对通过所述交易平台获取到的新数据进行预测,并发送预测结果和/或报警结果。
具体地,算法模型服务平台(Generalized Sidelobe Cancellation,GSC)每天定时从OSS获取最新的时序预测模型,业务方通过与GSC约定好的调用接口将时间序列数据传入到GSC中,GSC调用对用最优的时序预测模型,并将预测结果和调用时序异常检测算法得到的报警结果返回给业务方。
本说明书一实施例中,通过对通过交易平台获取到的原始数据进行预处理,得到待分析数据,将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,并根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,能够满足不同类型产品的时序预测需求,并且能够为不同类型的产品提供最优的时序预测模型,因此,具备很好的通用性。
图3示出了根据本说明书另一实施例的预测方法的流程图,该预测方法可以应用于如图4所示的预测平台,包括步骤302至步骤320。
步骤302:对通过所述交易平台获取到的所述原始数据进行数据滤波和/或数据补齐,得到标准化数据;
步骤304:对所述标准化数据进行特征抽取,得到所述待分析数据;
步骤306:根据时序预测算法获取所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测值;
步骤308:计算所述预测值与真实值的误差值,并将所述误差值作为所述预测结果;
步骤310:确定所述误差值是否小于预设的标准阈值;
步骤312:如果所述误差值小于所述标准阈值,则确定所述误差值对应的时序预测模型为有效的时序预测模型;
步骤314:从所述有效的时序预测模型中选择所述误差值最小的时序预测模型作为所述最优的时序预测模型;
步骤316:如果所述误差值大于或等于所述标准阈值,则确定所述误差值对应的时序预测模型为无效的时序预测模型;
步骤318:对所述无效的时序预测模型的模型参数进行自动调优训练,直到所述无效的时序预测模型对应的所述误差值小于所述标准阈值;
步骤320:利用所述最优的时序预测模型对通过所述交易平台获取到的新数据进行预测,并发送预测结果和/或报警结果。
本说明书一实施例中,通过对通过交易平台获取到的原始数据进行预处理,得到待分析数据,将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,并根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,能够满足不同类型产品的时序预测需求,并且能够为不同类型的产品提供最优的时序预测模型,因此,具备很好的通用性。
图4是本申请实施例提供图3的预测方法应用于的预测平台的结构示意图。如图4所示,该预测平台可以包括但不限于用户配置模块、数据预处理模块、异常检测模块、报警反馈模块、模型配置模块、特征抽取模块、服务部署模、报警抑制模块等基础模块;进一步地,该预测平台还具有多种核心能力,以实现对时序业务的监控,这里,多种核心能力可以包括但不限于时序异常检测、模型自动选择、统计预测、回归预测、深度学习预测等,时序业务可以包括但不限于第一业务、第二业务、第三业务等。
具体地,该预测平台可以从诸如简单日志服务(Simple Log Service,SLS)的日志处理平台、诸如开放数据处理服务(Open Data Processing Service,ODPS)的交易平台或数据库中获取原始数据,并通过数据预处理模块和特征抽取模块对获取到的原始数据进行诸如数据滤波、数据补齐等数据预处理和特征抽取,得到待分析数据;接着,根据时序预测算法并通过模型配置模块获取待分析数据在多个时序预测模型中的每个时序预测模型下对应的预测值;进一步地,通过服务部署模块计算该预测值与真实值的误差值以确定误差值是否小于预设的标准阈值,如果误差值小于标准阈值,则将该误差值对应的时序预测模型确定为有效的时序预测模型,并从有效的时序预测模型中选出误差值最小的时序预测模型作为最优的时序预测模型;最后,基于通过日志平台、交易平台或数据库获取到的新数据自动选择最优的时序预测模型,通过异常检测模块和报警反馈模块对上述新数据进行时序异常检测并发送异常检测结果和/或报警反馈结果。
此外,如果误差值大于或等于标准阈值,则将差值对应的时序预测模型确定为无效的时序预测模型,并通过服务部署模块对无效的时序预测模型的模型参数进行自动调优训练,直到该无效的时序预测模型对应的误差值小于标准阈值。
本说明书一实施例中,通过提供从数据的输入、模型的自动选择、预测结果的输出、模型的部署、应用方的调用的一套完整的时序预测服务,解决了新接入产品的实际时序预测需求问题,降低了接入成本,减少了人工干预,实现了自动化、智能化的服务。
与上述方法实施例相对应,本说明书还提供了预测装置实施例,图5示出了本说明书一实施例的预测装置的结构示意图。如图5所示,该装置500包括:
预处理模块502,被配置为对通过交易平台获取到的原始数据进行预处理,得到待分析数据;
预测模块504,被配置为将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;
选择模块506,被配置为根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
一个可选的实施例中,所述预处理模块502对通过所述交易平台获取到的所述原始数据进行数据滤波和/或数据补齐,得到标准化数据,并对所述标准化数据进行特征抽取,得到所述待分析数据。
一个可选的实施例中,所述预测模块504根据时序预测算法获取所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测值,计算所述预测值与真实值的误差值,并将所述误差值作为所述预测结果,其中,所述真实值是基于所述原始数据计算得到的。
一个可选的实施例中,所述选择模块506将所述误差值与预设的标准阈值进行比较,如果所述误差值小于所述标准阈值,则确定所述误差值对应的时序预测模型为有效的时序预测模型,并从所述有效的时序预测模型中选择所述误差值最小的时序预测模型作为所述最优的时序预测模型。
一个可选的实施例中,如果所述误差值大于或等于所述标准阈值,则所述选择模块506确定所述误差值对应的时序预测模型为无效的时序预测模型,并对所述无效的时序预测模型的模型参数进行自动调优训练,直到所述无效的时序预测模型对应的所述误差值小于所述标准阈值。
一个可选的实施例中,该装置500还包括:
发送模块(未示出),被配置为利用所述最优的时序预测模型对通过所述交易平台获取到的新数据进行预测,并发送预测结果和/或报警结果。
一个可选的实施例中,所述交易平台包括线上电商平台和/或线下实体平台。
一个可选的实施例中,通过对通过交易平台获取到的原始数据进行预处理,得到待分析数据,将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,并根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,能够满足不同类型产品的时序预测需求,并且能够为不同类型的产品提供最优的时序预测模型,因此,具备很好的通用性。
本说明书一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的预测方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述预测方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的预测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述预测方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (16)

1.一种预测方法,其特征在于,包括:
对通过交易平台获取到的原始数据进行预处理,得到待分析数据;
将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;
根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
2.根据权利要求1所述的方法,其特征在于,所述对通过交易平台获取到的原始数据进行预处理,得到待分析数据,包括:
对通过所述交易平台获取到的所述原始数据进行数据滤波和/或数据补齐,得到标准化数据;
对所述标准化数据进行特征抽取,得到所述待分析数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果,包括:
根据时序预测算法获取所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测值;
计算所述预测值与真实值的误差值,并将所述误差值作为所述预测结果,其中,所述真实值是基于所述原始数据计算得到的。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,包括:
将所述误差值与预设的标准阈值进行比较;
如果所述误差值小于所述标准阈值,则确定所述误差值对应的时序预测模型为有效的时序预测模型;
从所述有效的时序预测模型中选择所述误差值最小的时序预测模型作为所述最优的时序预测模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型,还包括:
如果所述误差值大于或等于所述标准阈值,则确定所述误差值对应的时序预测模型为无效的时序预测模型;
对所述无效的时序预测模型的模型参数进行自动调优训练,直到所述无效的时序预测模型对应的所述误差值小于所述标准阈值。
6.根据权利要求1-5任意一项所述的方法,其特征在于,还包括:
利用所述最优的时序预测模型对通过所述交易平台获取到的新数据进行预测,并发送预测结果和/或报警结果。
7.根据权利要求1-5任意一项所述的方法,其特征在于,所述交易平台包括线上电商平台和/或线下实体平台。
8.一种预测装置,其特征在于,包括:
预处理模块,被配置为对通过交易平台获取到的原始数据进行预处理,得到待分析数据;
预测模块,被配置为将所述待分析数据分别输入到多个时序预测模型中,预测得到所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测结果;
选择模块,被配置为根据所述预测结果从所述多个时序预测模型中选择最优的时序预测模型。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块对通过所述交易平台获取到的所述原始数据进行数据滤波和/或数据补齐,得到标准化数据,并对所述标准化数据进行特征抽取,得到所述待分析数据。
10.根据权利要求8所述的装置,其特征在于,所述预测模块根据时序预测算法获取所述待分析数据在所述多个时序预测模型中的每个时序预测模型下对应的预测值,计算所述预测值与真实值的误差值,并将所述误差值作为所述预测结果,其中,所述真实值是基于所述原始数据计算得到的。
11.根据权利要求10所述的装置,其特征在于,所述选择模块将所述误差值与预设的标准阈值进行比较,如果所述误差值小于所述标准阈值,则确定所述误差值对应的时序预测模型为有效的时序预测模型,并从所述有效的时序预测模型中选择所述误差值最小的时序预测模型作为所述最优的时序预测模型。
12.根据权利要求11所述的装置,其特征在于,如果所述误差值大于或等于所述标准阈值,则所述选择模块确定所述误差值对应的时序预测模型为无效的时序预测模型,并对所述无效的时序预测模型的模型参数进行自动调优训练,直到所述无效的时序预测模型对应的所述误差值小于所述标准阈值。
13.根据权利要求8-12任意一项所述的装置,其特征在于,还包括:
发送模块,被配置为利用所述最优的时序预测模型对通过所述交易平台获取到的新数据进行预测,并发送预测结果和/或报警结果。
14.根据权利要求8-12任意一项所述的装置,其特征在于,所述交易平台包括线上电商平台和/或线下实体平台。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN201910538254.1A 2019-06-20 2019-06-20 预测方法以及装置 Pending CN110390425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910538254.1A CN110390425A (zh) 2019-06-20 2019-06-20 预测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910538254.1A CN110390425A (zh) 2019-06-20 2019-06-20 预测方法以及装置

Publications (1)

Publication Number Publication Date
CN110390425A true CN110390425A (zh) 2019-10-29

Family

ID=68285529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910538254.1A Pending CN110390425A (zh) 2019-06-20 2019-06-20 预测方法以及装置

Country Status (1)

Country Link
CN (1) CN110390425A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352966A (zh) * 2020-02-24 2020-06-30 交通运输部水运科学研究所 一种自主航行中的数据标签标定方法
CN111597301A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 文本预测方法、装置以及电子设备
CN111724211A (zh) * 2020-06-30 2020-09-29 名创优品(横琴)企业管理有限公司 一种线下门店商品销量预测方法、装置和设备
CN112330158A (zh) * 2020-11-06 2021-02-05 北京建筑大学 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法
CN112949221A (zh) * 2021-03-04 2021-06-11 熊猫智慧水务有限公司 一种龙头水龄分析方法
CN113128741A (zh) * 2020-01-10 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置、系统、设备和可读存储介质
CN113159453A (zh) * 2021-05-17 2021-07-23 北京字跳网络技术有限公司 资源数据预测方法、装置、设备及存储介质
CN113469394A (zh) * 2020-03-30 2021-10-01 富士通株式会社 信息处理装置、信息处理方法和计算机可读存储介质
CN113487425A (zh) * 2021-08-03 2021-10-08 北京神州数字科技有限公司 基于历史数据的日间流动性状况回溯方法及系统
CN113812851A (zh) * 2021-09-09 2021-12-21 熊猫智慧水务有限公司 一种用于直饮水净水设备的水龄控制系统
US20220059230A1 (en) * 2020-08-21 2022-02-24 Optum, Inc. Machine-learning-based predictive behaviorial monitoring
CN114594202A (zh) * 2020-12-07 2022-06-07 大金工业株式会社 室内空气质量的预测方法及室内空气质量检测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336494B1 (en) * 2012-08-20 2016-05-10 Context Relevant, Inc. Re-training a machine learning model
CN109359793A (zh) * 2018-08-03 2019-02-19 阿里巴巴集团控股有限公司 一种针对新场景的预测模型训练方法及装置
CN109564640A (zh) * 2016-07-20 2019-04-02 苹果公司 使用代理以实现设备上的机器学习
CN109800890A (zh) * 2019-01-31 2019-05-24 网宿科技股份有限公司 一种模型预测方法及装置
CN109816158A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 预测模型的组合方法、装置、设备及可读存储介质
CN109816196A (zh) * 2018-12-04 2019-05-28 平安科技(深圳)有限公司 预测模型的评价值计算方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336494B1 (en) * 2012-08-20 2016-05-10 Context Relevant, Inc. Re-training a machine learning model
CN109564640A (zh) * 2016-07-20 2019-04-02 苹果公司 使用代理以实现设备上的机器学习
CN109359793A (zh) * 2018-08-03 2019-02-19 阿里巴巴集团控股有限公司 一种针对新场景的预测模型训练方法及装置
CN109816196A (zh) * 2018-12-04 2019-05-28 平安科技(深圳)有限公司 预测模型的评价值计算方法、装置、设备及可读存储介质
CN109816158A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 预测模型的组合方法、装置、设备及可读存储介质
CN109800890A (zh) * 2019-01-31 2019-05-24 网宿科技股份有限公司 一种模型预测方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128741A (zh) * 2020-01-10 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置、系统、设备和可读存储介质
CN111352966A (zh) * 2020-02-24 2020-06-30 交通运输部水运科学研究所 一种自主航行中的数据标签标定方法
CN113469394A (zh) * 2020-03-30 2021-10-01 富士通株式会社 信息处理装置、信息处理方法和计算机可读存储介质
CN111597301A (zh) * 2020-04-24 2020-08-28 北京百度网讯科技有限公司 文本预测方法、装置以及电子设备
CN111724211A (zh) * 2020-06-30 2020-09-29 名创优品(横琴)企业管理有限公司 一种线下门店商品销量预测方法、装置和设备
US20220059230A1 (en) * 2020-08-21 2022-02-24 Optum, Inc. Machine-learning-based predictive behaviorial monitoring
CN112330158A (zh) * 2020-11-06 2021-02-05 北京建筑大学 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法
CN112330158B (zh) * 2020-11-06 2023-10-13 北京建筑大学 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法
CN114594202A (zh) * 2020-12-07 2022-06-07 大金工业株式会社 室内空气质量的预测方法及室内空气质量检测系统
CN112949221A (zh) * 2021-03-04 2021-06-11 熊猫智慧水务有限公司 一种龙头水龄分析方法
CN113159453A (zh) * 2021-05-17 2021-07-23 北京字跳网络技术有限公司 资源数据预测方法、装置、设备及存储介质
CN113159453B (zh) * 2021-05-17 2024-04-30 北京字跳网络技术有限公司 资源数据预测方法、装置、设备及存储介质
CN113487425A (zh) * 2021-08-03 2021-10-08 北京神州数字科技有限公司 基于历史数据的日间流动性状况回溯方法及系统
CN113812851A (zh) * 2021-09-09 2021-12-21 熊猫智慧水务有限公司 一种用于直饮水净水设备的水龄控制系统

Similar Documents

Publication Publication Date Title
CN110390425A (zh) 预测方法以及装置
US11650968B2 (en) Systems and methods for predictive early stopping in neural network training
CN107766929B (zh) 模型分析方法及装置
CN111435463A (zh) 数据处理方法及相关设备、系统
CN116760772B (zh) 汇聚分流器的管控系统及其方法
CN112150214A (zh) 一种数据预测方法、装置以及计算机可读存储介质
CN114219562A (zh) 模型的训练方法、企业信用评估方法和装置、设备、介质
CN113268403A (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN115146764A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN115983497A (zh) 一种时序数据预测方法和装置、计算机设备、存储介质
CN116684330A (zh) 基于人工智能的流量预测方法、装置、设备及存储介质
CN115545331A (zh) 控制策略预测方法和装置、设备及存储介质
CN115202847A (zh) 任务的调度方法和装置
CN115130894A (zh) 基于人工智能的生产规划方法、装置、计算机设备及介质
US20220269835A1 (en) Resource prediction system for executing machine learning models
CN115935822A (zh) 计算机参数长期退化趋势预测方法、系统、设备及介质
CA3211789A1 (en) Computer-implemented methods referring to an industrial process for manufacturing a product and system for performing said methods
CN111783487A (zh) 一种读卡器设备的故障预警方法及装置
KR20210090902A (ko) Rnn-gan 시뮬레이션을 이용한 시장리스크 관리 시스템
CN111815458A (zh) 基于细粒度量化标注和集成方法的动态投资组合配置方法
Hassannezhad et al. Dynamic modelling of relationships in complex service design systems
US20230368035A1 (en) Multi-level time series forecasting using artificial intelligence techniques
WO2024119336A1 (zh) 多目标联合调度方法、装置、电子设备及存储介质
WO2024065776A1 (en) Method for data processing, apparatus for data processing, electronic device, and storage medium
JP6753442B2 (ja) モデル生成装置、モデル生成方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right