CN108416636A - 一种预测药品销量的arima和支持向量回归融合方法 - Google Patents
一种预测药品销量的arima和支持向量回归融合方法 Download PDFInfo
- Publication number
- CN108416636A CN108416636A CN201810276036.0A CN201810276036A CN108416636A CN 108416636 A CN108416636 A CN 108416636A CN 201810276036 A CN201810276036 A CN 201810276036A CN 108416636 A CN108416636 A CN 108416636A
- Authority
- CN
- China
- Prior art keywords
- model
- arima
- data
- arma
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种预测药品销量的ARIMA和支持向量回归融合方法,包括如下步骤:S1、数据的采集、分析:以交互式、可选择的问卷形式,自动生成数据模板,用户根据数据模板上传数据;S2、模型拟合,预测结果对比:利用收集好的用户个性化数据,使用ARIMA、SVR和ARIMASVM进行预测分析,并将得到的结果根据评价指标进行对比分析。本发明是使用计算机软件分析完成的,解决传统的单一模型预测精度低,提取时间序列信息不充分的缺点。同时,将ARIMASVM2集成到基于销量数据的时间序列预测平台之上,具有实时,高效又低成本的特点。
Description
技术领域
本发明涉及机器学习;人工智能;时间序列分析;销量预测,更具体地说, 涉及一种预测药品销量的ARIMA和支持向量回归融合方法。
背景技术
所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行 观察、研究,找寻它发展变化的规律,预测它将来的走势就是时间序列分析。 统计学中的时间序列模型有AR、MA、ARIMA和SARIMA等。在ARIMA分 析中,基于对时间序列的观察生成一个确定的基本过程,从而生成一个好的模 型来精确展示过程生成的机制;在时间序列分析中,一个非常重要的部分是选 取数据的一个或者一族合适的概率模型。
支持向量回归(SupportVectorRegression,SVR),是根据SVM的基本思想 改良成的一种回归算法,其主要思想是寻找一个超平面对样本进行映射,与其 它的回归算法不同的是其映射与真实值之间的差的绝对值如果小于一个具体的 范围,就不计入损失。但是已有技术中还存在的一些缺陷或问题,比如说单一 模型的预测结果不能充分提取出有效信息,虽然已有模型的改进和创新,但是 针对产品销售这一领域,模型所取得的结果并不能让人满意,产品销售预测对 于企业来说有着至关重要的作用,而目前,企业在产品营销这一领域还很盲目。
发明内容
本发明给出一种预测药品销量的ARIMA和支持向量回归融合方法。
为了达到上述目的,本发明提供一种预测药品销量的ARIMA和支持向量回 归融合方法,包括如下步骤:
S1、数据的采集、分析
以交互式、可选择的问卷形式,自动生成EXCEL数据模板,用户根据数据 模板上传数据;
根据用户上传的EXCEL文件,将大数据文件拆分成小的文件,并将原始数 据对用户进行可视化展示;
时间序列分析,选择原始数据区域时,系统自动根据用户选择的数据,进 行多维特征的相关性计算,给出可视化的结果;
S2、模型拟合,预测结果对比
利用收集好的用户个性化数据,使用ARIMA、SVR和ARIMASVM进行预 测分析,并将得到的结果根据评价指标进行对比分析;
其中,S2中模型以及计算过程包括:
S21、序列平稳性的定义;
S22、延迟算子的定义
S23、使用ARIMA模型进行拟合;
S24、模型定阶及选择参数
对时间序列进行ARIMA拟合,而后SVM自回归模型和两个混合模型;
S25、进行预测并对比实验结果
为了对比和评价模型的优劣,使用RMSE和MAPE作为评价指标;
S6、反馈结果
以PDF文件的形式,将结果返回为用户。
优选方式下,步骤S23中ARMA模型的结构为:
把具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q):
若该模型称为中心化ARMA(p,q)模型;缺省默认条件,中心化 ARMA(p,q)模型可以简写为:
3.3.2ARIMA模型的结构
具有如下结构的模型称为求和自回归移动平均(autoregressive integratedmoving average)模型,简记为ARIMA(p,d,q)模型:
式中:
为平稳可逆ARMA(p,q)模型的自回归系数多项 式;
为平稳可逆ARMA(p,q)模型的移动平滑系数多项式;
可以简记为:
式中,{εt}为零均值白噪声序列;
由式显而易见,ARIMA模型的实质就是差分运算与ARMA模型的组合;也就是 说,任何非平稳序列只要通过适当阶数的差分实现差分后平稳,就可以对差分 后的序列进行ARMA模型拟合了;
d阶差分后序列可以表示为:
式中,即差分后序列等于原序列的若干序列值的加权和,而对 它又可以拟合自回归移动平均ARMA模型,所以称它为求和自回归移动平均模型。
本发明是使用计算机软件分析完成的,解决传统的单一模型预测精度低, 提取时间序列信息不充分的缺点。同时,我们将ARIMASVM2集成到基于销量 数据的时间序列预测平台之上,具有实时,高效又低成本的特点;我们新提出 的ARIMASVM2算法具有稳定、高效的特点,能够以更高的准确率对产品的销 量数据进行预测分析,加上我们开发的时间序列预测平台的分布式计算功能的 支持和良好的用户交互和信息整合能力,大大方便了用户特别是有产品销量预 测需求的用户,把握产品市场,制定销售策略。
附图说明
图1是模型构建流程图;
图2是平稳时间序列建模流程图;
图3是线性可分SVM分类器;
图4是线性SVR回归器;
图5是一阶差分时间序列信息;
图6是一阶差分序列的ACF和PACF;
图7是白噪声检验结果;
图8是BIC计算结果;
图9是4种预测方法的预测结果展示;
图10是4种预测方法预测结果的RMSE和MAPE。
具体实施方式
一数据的采集、分析
1.1生成模板,上传原始数据文件
我们根据平台算法特点和产品销售数据的特点,给出交互式、可选择的问 卷,用户根据自己的产品数据特点,填写并上传问卷;系统根据问卷,自动生 成EXCEL数据模板,用户根据数据模板上传数据。
1.2大数据文件分割,原始数据可视化展示
根据用户上传的EXCEL文件,系统自动根据字段,将大数据文件拆分成小 的CSV文件,系统自动根据字段,将大数据文件拆分成小的CSV文件,便于分 布式存储和管理;并将原始数据对用户进行可视化展示,方便用户了解数据的 特征和规律,对下一步的分析进行决策。
1.3相关性分析
时间序列分析中,很重要的一步是进行原始数据的相关性分析,因此,我 们给出了多维特征的相关性分析功能,并给出了多种相关性指标的计算结果展 示;当我们选择原始数据区域时,系统自动根据用户选择的数据,进行多维特 征的相关性计算,给出可视化的结果展示。
二、模型拟合,预测结果对比
利用我们已经收集好的用户个性化数据,我们分别使用ARIMA、SVR和 ARIMASVM进行预测分析,并将得到的结果根据评价指标进行对比分析。
三模型介绍以及计算过程
3.1序列平稳性的定义
3.1.1严平稳
所谓严平稳就是一种条件比较苛刻的平稳性定义,它认为只有当序列所有 的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。而 我们知道,随机序列族的统计性质完全由它们的联合概率分布族决定。所以严 平稳时间序列的定义如下:
定义3.1.1设{Xt}为一时间序列,对任意正整数m,任取t1,t2,…,tm∈T,对任 意整数τ,有
则称时间序列{Xt}为严平稳时间序列。
然而在实践中要获得随机序列的联合分布是一件非常困难的事,而且,即 使知道随机序列的联合分布,计算和应用也非常不便。所以严平稳时间序列通 常只具有理论意义,在实践中用得更多的是条件比较宽松的宽平稳时间序列。
3.1.2宽平稳
宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计 性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证 序列的主要性质近似稳定。
定义3.1.2如果{Xt}满足如下三个条件:
(1)任取t∈T,有
(2)任取t∈T,有EXt=μ,μ为常数;
(3)任取t,s,k∈T,且k+s-t∈T,有γ(t,s)=γ(k,k+s-t);
则称{Xt}为宽平稳序列。宽平稳也称为弱平稳或二阶平稳。
显然,严平稳比宽平稳的条件严格。严平稳是对序列联合分布的要求,以 保证序列所有的统计特征都相同;而宽平稳只要求序列二阶平稳。
3.2延迟算子
定义3.2.1
延迟算子的定义:延迟算子类似于一个时间指针,当前序列值乘以一个延 迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。记B为延迟算子, 有
xt-1=Bxt
xt-2=B2xt
xt-p=Bpxt
延迟算子有如下性质:
B0=1
若c为任一常数,有B(c·xt)=c·B(xt)=c·xt-1
对任意两个序列{xt}和{yt},有B(xt±yt)=xt-1±yt-1
Bnxt=xt-n
其中
有了延迟算子的定义,我们就可以用延迟算子来表示差分运算:
1、p阶差分
2、p步差分
3.3 ARIMA模型
差分运算具有强大的确定性信息提取能力,许多非平稳序列经过差分后, 会显示出平稳序列的性质,我们称这样的非平稳序列为差分平稳序列。对于差 分平稳序列,可以使用ARIMA模型进行拟合。
3.3.1 ARMA模型的结构
把具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q):
若该模型称为中心化ARMA(p,q)模型。缺省默认条件,中心化 ARMA(p,q)模型可以简写为:
3.3.2ARIMA模型的结构
具有如下结构的模型称为求和自回归移动平均(autoregressive integratedmoving average)模型,简记为ARIMA(p,d,q)模型:
式中:
为平稳可逆ARMA(p,q)模型的自回归系数多项 式。
为平稳可逆ARMA(p,q)模型的移动平滑系数多项式。
可以简记为:
式中,{εt}为零均值白噪声序列。
由式显而易见,ARIMA模型的实质就是差分运算与ARMA模型的组合。也就是 说,任何非平稳序列只要通过适当阶数的差分实现差分后平稳,就可以对差分 后的序列进行ARMA模型拟合了。
d阶差分后序列可以表示为:
式中,即差分后序列等于原序列的若干序列值的加权和,而对 它又可以拟合自回归移动平均ARMA模型,所以称它为求和自回归移动平均模型。
3.4支持向量机
支持向量机(SupportVectorMachine,SVM),是最为经典的分类算法。其 主要思想是寻找一个超平面对样本进行分割,此超平面需要尽可能的让正类和 负类样本之间的间隔最大,下图表示了一个基本的线性可分SVM分类器,如图 3。
首先假设有M个样本{i∈{1,2,...,M}|(xi,yi)},其中xi是一个n维的向量,代表了第i个样本的特征向量,其n个值对应了第i个样本的n个特征,yi∈{+1,-1}是 第i个样本的类别标签,即正类和负类。在图5中,H是用来分类的超平面,其 可以使用如下的线性方程表示:
wTx+b=0 (3.4.1)
其中,w=(w1;w2;...;wn)是H的法向量,其维度也为n维,b是位移项,代表 了H与原点的距离。对于第i个样本(xi,yi),若yi=+1,则wTxi+b>0;若yi=-1, 则wTxi+b<0,这样就可以进行分类。
而H1和H2是两个与H平行且距离相等的两个超平面,其中H1:wTx+b=-1和H2:wTx+b=1。在SVM的思想中,一个好的分类器需要满足两 个条件:(1)没有任何样本在H1和H2之间;(2)H1和H2之间的距离要最大。
根据直线之间的距离公式可以推出H1和H2两个超平面间的距离公式:
其中,D是两个超平面H1和H2的距离。根据条件(1),样本必须不能在 H1和H2之间,根据条件(2),需要让D最大,则可以求解||w||的最小值,那 么可以转化为:
公式(3)为SVM的基本型。那么显然公式3是一个凸二次规划问题。可 用凸优化方法解决,根据拉格朗日乘数法定理,然后利用对偶问题求解最优值。
首先对上述函数引入拉格朗日乘子,得到拉格朗日函数:
其中,α=(α1;α2;...;αM),对此函数分别求w和b的偏导为0,结果为:
那么将公式(5)和(6)代入(4)中,就可以得到一个对偶问题:
αi≥0,i=1,2,...,M (3.4.7)
通常使用SMO算法就可以求解该问题。利用对偶问题理论,知道α就可以 求解出w,反过来,知道w就可以解出α,求解w的最大值转化为求解α的最大 值,求出α*带入公式(4)可求出w*和b*。最后得到最优超平面H*。根据公式(1), 当一个新的样本输入时,将其代入函数就可以得到该样本的 类别。
但是如果数据有噪声,直接使用上述模型就会带来一定的误差,这时可以 让模型允许一些数据点在一定范围内偏离超平面,故引入松弛变量这个概念ξi, 其中ξi≥0。
s.t. yi(wTxi+b)+ξi≥1,i=1,2...,M
ξi≥0,i=1,2...,M (3.4.8)
引入松弛变量ξi之后,允许样本点的函数间隔小于2,允许有些样本点在超 平面之间或者对方的区域中。目标函数中第二项是惩罚项,对离群点进行处罚, 离群点越多目标函数值就越多,因此要求尽可能的减小目标函数值。C表示离群 点的权重,C越大目标函数值就越大。
但是对于现实的问题,通常用一个线性模型是无法准确分类的(线性不可 分),必须需用非线性模型,SVM通过引入核函数解决了这个问题,其原理是直 接将样本从原始空间映射到更高维的特征空间,而在该空间中线性可分。
令φ(x)为x经过映射后的特征向量,那么带入到公式(8)中:
s.t. yi(wTφ(xi)+b)+ξi≥1,i=1,2...,M
ξi≥0,i=1,2...,M (3.4.9)
在计算的时候,需要计算φ(xi)Tφ(xj),核函数由此引入:
κ(xi,xj)=<φ(xi),φ(xj)>=φ(xi)Tφ(xj) (3.4.10)
由于其原理,所以核函数的选择与分类器的性能关系密切。表3.1列举几种 常用的核函数。
表3.1常用的核函数
最终求解可以得到:
实现SVM的方法有许多,目前最受欢迎的方法是台湾大学林智仁教授开发 的LIBSVM工具箱,简单易用,速度快速,功能全面,支持Windows和Unix 操作系统,支持的语言比较广泛,Java、Python、R、Matlab、Ruby等语言均可 支持,本次实验使用的是Matlab来调用LIBSVM,版本为3.21版。LIBSVM本 身可以支持的核函数有线性核、多项式核、RBF核和Sigmoid核,经实验,本 实验最终使用高斯核(RBF核)。
3.5支持向量回归
支持向量回归(SupportVectorRegression,SVR),是根据SVM的基本思想 改良成的一种回归算法[17]其主要思想是寻找一个超平面对样本进行映射,与其 它的回归算法不同的是其映射与真实值之间的差的绝对值如果小于一个具体的 范围,就不计入损失。图6表示了一个基本的线性的SVR回归器,如图4。
首先假设有M个样本{i∈{1,2,...,M}|(xi,yi)},其中xi是一个n维的向量,代表了第i个样本的特征向量,其n个值对应了第i个样本的n个特征,yi是第i个 样本的对应的回归输出,即连续的值。在图4中,H是用来回归映射的超平面, 可以使用如下的线性方程表示:
wTx+b=0 (3.5.1)
其中w=(w1;w2;...;wn)是H的法向量,其维度也为n维,b是位移项,代表了H 与原点的距离。对于第i个样本(xi,yi),将其特征向量输入到回归器里后,即可 得到模型的输出f(xi)=wTxi+b,这样就可以进行回归。
而H1和H2是两个与H平行且距离相等的两个超平面,其中H1:wTx+b=-1和H2:wTx+b=ε。根据SVR的基本思想,可以容忍真实输出值y 和模型输出值f(x)之间的误差不超过ε,只有误差超过ε才计算误差损失。如图4,即在H1和H2中间的部分就算预测正确。同时也需要让H1和H2距离最近,所以根据式(5.2)和上述条件,得到式(3.5.2):
其中,C是正则项的系数,lε是我们需要计算的损失,称为不敏感损失:
同SVM,引入松弛变量ξi和两个松弛变量代表了两侧的松弛程度可以 不同,再引入核函数κ(xi,xj),其定义同SVM。最终可以变成:
s.t. f(xi)-yi≤ε+ξi,
其求解方法完全和SVM一样,通过引入拉普拉斯乘子,然后利用对偶问题 求解最优值。最终解为:
在SVR中核函数的选择与分类器的性能关系密切。表4.4.1列举几种常用 的核函数。
表4.4.1常用的核函数
实现SVR的方法也有许多,这里为了方便仍然使用Python来调用LIBSVM 工具箱,只要调整其中的参数就可以改变算法类型,在本次实验使用的版本中, 有e-SVR和v-SVR两种类型,经实验后选择比较常用的e-SVR。
3.6混合模型
ARIMA和SVR两者在它们各自的线性和非线性问题应用领域,都有着非 常成功的应用。但是,客观来说,没有任何一种模型、算法可以适用于所有的 问题。尽管,ARIMA在时间序列分析领域已经足够成熟,但在实际问题中,依 旧很难完全捕捉到背后真正的模式。因此,本节中,我们提出了ARIMA和SVR 的混合算法,来对时间序列进行预测、分析。在线性和非线性问题领域,两者 都有各自获取数据特性的优势。因此,本节提出的融合了ARIMA和SVR的混 合算法,能够更好的捕捉时间序列的模式,来达到更好的总体预测效果。
我们可以把一个时间序列看作是由线性部分和非线性部分,两部分组成:
Zt=Lt+Nt其中,Lt为线性部分,Nt为非线性部分 (3.6.1)
首先,我们使用ARIMA模型,拟合数据的线性部分Lt,得到如果我们 用εt来表示ARIMA模型拟合数据之后的残差,则
其中,为ARIMA在时刻t的预测值 (3.6.2)
接下来,我们通过SVR模型来拟合残差,就可以发现序列中的非线性关系。 由此,我们提出第一种混合模型:
模型1:
ARIMASVM1
εt=f(εt-1,εt-2)+et (3.6.3)
式中,f为SVM模型的核函数,et为随机误差。
所以,ARIMA_SVM1模型为:
式中,为公式(4.5.3)的预测结果。
模型2:
ARIMA_SVM2
式中,Zt-1,Zt-2分别为t-1和t-2时刻的时间序列观测值,为ARIMA模型 预测的t时刻的时间序列值。
四模型定阶及参数选择
ARIMA模型
我们对数据集进行了一阶差分处理,得到的一阶差分序列信息如图5所示; 一阶差分时间序列的ACF和PACF数值如图6所示;对差分后的时间序列进行 白噪声检验,结果如图7所示;由白噪声检验可知,我们需要预测分析的时间 序列为非白噪声序列,根据最小信息准则获得的结果如图8所示;由图8,我们 可以得到最小表值BIC(4,5)=28.39598,因此,我们对时间序列进行ARIMA (4,1,5)拟合,得到如下结果:
自回归因子为:Φ(B)=1+1.55274B**(1)+1.46831B**(2)+1.57256B**(3) +0.9015B**(4)
移动平均因子为:θ(B)=1+0.57509B**(1)+0.03837B**(2)+0.00215 B**(3)-0.47953B**(4)-0.6768B**(5)
由此,得到最终的ARIMA(4,1,5)模型为:
SVM自回归模型和两个混合模型
这里我们使用Python调用LIBSVM工具箱,并编写脚本来实现模型,并进 行调参,得到如表4.1所示的最优参数结果:
表4.1SVM自回归模型和ARIMASVM1、ARIMASVM2
五进行预测并对比实验结果
我们只用药品Betaloc在广东省的周销售量数据,作为我们的数据集,分别 使用ARIMA、SVR和我们新提出的两种融合方法,即ARIMASVM1和 ARIMASVM2,进行预测分析,预测药品未来5周的销量数据,得到了如图9 所示的预测结果。
为了对比和评价模型的优劣,我们使用RMSE(root mean square error)和 MAPE(mean absolute percentage error)作为评价指标,如表6.1所示:
表6.1评价指标和计算公式
根据表6.1中的评价指标计算公式,我们对4种模型的预测结果进行了评价 指标计算,结果如图10所示:
从我们的评价指标可以看出,单一模型的预测结果,ARIMA的RMSE和 MAPE,相比于SVM自回归拟合模型,都具有更小的数值,展现出了更好的预 测性能;而ARIMASVM1和ARIMASVM2在RMSE的评价指标下,都体出现 了更优越的预测性能;但在MAPE的评价指标下,ARIMASVM1的预测效果出 现了波动,而ARIMASVM2依旧体现出了优越的预测性能。
六反馈结果
实验结果,有力地展示了新提出的混合模型(ARIMASVM2),在实际药品销 售领域,相比于单一的ARIMA和SVM自回归模型,有着更优秀的预测能力。 在评价指标RMSE和MAPE方面,相比于其他算法都有更小的数值。综合来看, 混合算法,充分提取出了时间序列中的线性信息和非线性信息,弥补了单一模 型、算法的不足。因此,我们可以说,混合模型(ARIMASVM2)在时间序列的预 测分析方面,是可信赖的,有着更高的准确率和稳定性,其预测结果有重要的 参考价值。我们将其应用到我们的时间序列预测平台之上,经过预测分析之后, 会以PDF文件的形式,将结果返回为用户。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本 发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护 范围之内。
Claims (2)
1.一种预测药品销量的ARIMA和支持向量回归融合方法,其特征在于,包括如下步骤:
S1、数据的采集、分析
以交互式、可选择的问卷形式,自动生成EXCEL数据模板,用户根据数据模板上传数据;
根据用户上传的EXCEL文件,将大数据文件拆分成小的文件,并将原始数据对用户进行可视化展示;
时间序列分析,选择原始数据区域时,系统自动根据用户选择的数据,进行多维特征的相关性计算,给出可视化的结果;
S2、模型拟合,预测结果对比
利用收集好的用户个性化数据,使用ARIMA、SVR和ARIMASVM进行预测分析,并将得到的结果根据评价指标进行对比分析;
其中,S2中模型以及计算过程包括:
S21、序列平稳性的定义;
S22、延迟算子的定义
S23、使用ARIMA模型进行拟合;
S24、模型定阶及选择参数
对时间序列进行ARIMA拟合,而后SVM自回归模型和两个混合模型;
S25、进行预测并对比实验结果
为了对比和评价模型的优劣,使用RMSE和MAPE作为评价指标;
S6、反馈结果
以PDF文件的形式,将结果返回为用户。
2.根据权利要求1所述预测药品销量的ARIMA和支持向量回归融合方法,其特征在于,步骤S23中ARMA模型的结构
把具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q):
若该模型称为中心化ARMA(p,q)模型;缺省默认条件,中心化ARMA(p,q)模型可以简写为:
3.3.2 ARIMA模型的结构
具有如下结构的模型称为求和自回归移动平均(autoregressive integrated movingaverage)模型,简记为ARIMA(p,d,q)模型:
式中:
为平稳可逆ARMA(p,q)模型的自回归系数多项式;
为平稳可逆ARMA(p,q)模型的移动平滑系数多项式;
可以简记为:
式中,{εt}为零均值白噪声序列;
由式显而易见,ARIMA模型的实质就是差分运算与ARMA模型的组合;也就是说,任何非平稳序列只要通过适当阶数的差分实现差分后平稳,就可以对差分后的序列进行ARMA模型拟合了;
d阶差分后序列可以表示为:
式中,即差分后序列等于原序列的若干序列值的加权和,而对它又可以拟合自回归移动平均ARMA模型,所以称它为求和自回归移动平均模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810276036.0A CN108416636A (zh) | 2018-03-30 | 2018-03-30 | 一种预测药品销量的arima和支持向量回归融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810276036.0A CN108416636A (zh) | 2018-03-30 | 2018-03-30 | 一种预测药品销量的arima和支持向量回归融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108416636A true CN108416636A (zh) | 2018-08-17 |
Family
ID=63134033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810276036.0A Pending CN108416636A (zh) | 2018-03-30 | 2018-03-30 | 一种预测药品销量的arima和支持向量回归融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416636A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109375292A (zh) * | 2018-08-30 | 2019-02-22 | 昆明理工大学 | 一种基于自回归积分滑动平均与支持向量回归的降雨量预测方法 |
CN109961315A (zh) * | 2019-01-29 | 2019-07-02 | 河南中烟工业有限责任公司 | 一种基于非线性组合模型的卷烟月度销量预测方法 |
CN111598310A (zh) * | 2020-04-27 | 2020-08-28 | 天闻数媒科技(北京)有限公司 | 一种基于时间序列分析的图书热度预测方法以及设备 |
CN112036795A (zh) * | 2020-08-31 | 2020-12-04 | 平安医疗健康管理股份有限公司 | 药品采购计划的确定方法、装置、设备及存储介质 |
-
2018
- 2018-03-30 CN CN201810276036.0A patent/CN108416636A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109375292A (zh) * | 2018-08-30 | 2019-02-22 | 昆明理工大学 | 一种基于自回归积分滑动平均与支持向量回归的降雨量预测方法 |
CN109961315A (zh) * | 2019-01-29 | 2019-07-02 | 河南中烟工业有限责任公司 | 一种基于非线性组合模型的卷烟月度销量预测方法 |
CN111598310A (zh) * | 2020-04-27 | 2020-08-28 | 天闻数媒科技(北京)有限公司 | 一种基于时间序列分析的图书热度预测方法以及设备 |
CN112036795A (zh) * | 2020-08-31 | 2020-12-04 | 平安医疗健康管理股份有限公司 | 药品采购计划的确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A weighted LS-SVM based learning system for time series forecasting | |
Maciel et al. | Evolving granular analytics for interval time series forecasting | |
Lu et al. | Using interval information granules to improve forecasting in fuzzy time series | |
Kalayeh et al. | Training faster by separating modes of variation in batch-normalized models | |
CN108416636A (zh) | 一种预测药品销量的arima和支持向量回归融合方法 | |
Llorca et al. | Using the latent class approach to cluster firms in benchmarking: An application to the US electricity transmission industry | |
Azzouz et al. | Steady state IBEA assisted by MLP neural networks for expensive multi-objective optimization problems | |
Alizadeh et al. | Simulating monthly streamflow using a hybrid feature selection approach integrated with an intelligence model | |
Luo et al. | Learning differential operators for interpretable time series modeling | |
Anish et al. | Prediction of mutual fund net asset value using low complexity feedback neural network | |
Ioannou et al. | Adalip: An adaptive learning rate method per layer for stochastic optimization | |
De Luca et al. | Time series clustering on lower tail dependence for portfolio selection | |
Khoo et al. | Neural ordinary differential equations for the regression of macroeconomics data under the green Solow model | |
Hu et al. | Learning Multi-expert Distribution Calibration for Long-tailed Video Classification | |
Gyamerah | Are Bitcoins price predictable? Evidence from machine learning techniques using technical indicators | |
Verleysen et al. | Forecasting financial time series through intrinsic dimension estimation and non-linear data projection | |
Patil et al. | Comparative Study of Predicting Stock Index Using Deep Learning Models | |
Baker et al. | Application of machine learning methodologies to multiyear forecasts of video subscribers | |
Christou et al. | Nonlinear dimension reduction for conditional quantiles | |
Fawzy et al. | A Comparative Simulation Study of ARIMA and Computational Intelligent Techniques for Forecasting Time Series Data | |
Dhanalakshmi et al. | Hybrid Functional Link Neural Networks for Soybean Price Forecast | |
Ghosh | A Comparison of Standard Statistical, Machine Learning and Deep Learning Methods in Forecasting the Time Series | |
Magnusson et al. | PREDICTING TRADED VOLUMES OF RENEWABLE ENERGY CERTIFICATES: A comparison of different time series forecasting methods | |
Madziwa et al. | Assessing the Performance of Machine Learning Methods in Forecasting Gold Prices | |
Marković et al. | A Hybrid Model for Financial Portfolio Optimization Based on LS-SVM and a Clustering Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |