CN108416636A

CN108416636A - 一种预测药品销量的arima和支持向量回归融合方法

Info

Publication number: CN108416636A
Application number: CN201810276036.0A
Authority: CN
Inventors: 柳攀; 金博
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-08-17

Abstract

本发明公开了一种预测药品销量的ARIMA和支持向量回归融合方法，包括如下步骤：S1、数据的采集、分析：以交互式、可选择的问卷形式，自动生成数据模板，用户根据数据模板上传数据；S2、模型拟合，预测结果对比：利用收集好的用户个性化数据，使用ARIMA、SVR和ARIMASVM进行预测分析，并将得到的结果根据评价指标进行对比分析。本发明是使用计算机软件分析完成的，解决传统的单一模型预测精度低，提取时间序列信息不充分的缺点。同时，将ARIMASVM2集成到基于销量数据的时间序列预测平台之上，具有实时，高效又低成本的特点。

Description

一种预测药品销量的ARIMA和支持向量回归融合方法

技术领域

本发明涉及机器学习；人工智能；时间序列分析；销量预测，更具体地说，涉及一种预测药品销量的ARIMA和支持向量回归融合方法。

背景技术

所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究，找寻它发展变化的规律，预测它将来的走势就是时间序列分析。统计学中的时间序列模型有AR、MA、ARIMA和SARIMA等。在ARIMA分析中，基于对时间序列的观察生成一个确定的基本过程，从而生成一个好的模型来精确展示过程生成的机制；在时间序列分析中，一个非常重要的部分是选取数据的一个或者一族合适的概率模型。

支持向量回归(SupportVectorRegression，SVR)，是根据SVM的基本思想改良成的一种回归算法，其主要思想是寻找一个超平面对样本进行映射，与其它的回归算法不同的是其映射与真实值之间的差的绝对值如果小于一个具体的范围，就不计入损失。但是已有技术中还存在的一些缺陷或问题，比如说单一模型的预测结果不能充分提取出有效信息，虽然已有模型的改进和创新，但是针对产品销售这一领域，模型所取得的结果并不能让人满意，产品销售预测对于企业来说有着至关重要的作用，而目前，企业在产品营销这一领域还很盲目。

发明内容

本发明给出一种预测药品销量的ARIMA和支持向量回归融合方法。

为了达到上述目的，本发明提供一种预测药品销量的ARIMA和支持向量回归融合方法，包括如下步骤：

S1、数据的采集、分析

以交互式、可选择的问卷形式，自动生成EXCEL数据模板，用户根据数据模板上传数据；

根据用户上传的EXCEL文件，将大数据文件拆分成小的文件，并将原始数据对用户进行可视化展示；

时间序列分析，选择原始数据区域时，系统自动根据用户选择的数据，进行多维特征的相关性计算，给出可视化的结果；

S2、模型拟合，预测结果对比

利用收集好的用户个性化数据，使用ARIMA、SVR和ARIMASVM进行预测分析，并将得到的结果根据评价指标进行对比分析；

其中，S2中模型以及计算过程包括：

S21、序列平稳性的定义；

S22、延迟算子的定义

S23、使用ARIMA模型进行拟合；

S24、模型定阶及选择参数

对时间序列进行ARIMA拟合，而后SVM自回归模型和两个混合模型；

S25、进行预测并对比实验结果

为了对比和评价模型的优劣，使用RMSE和MAPE作为评价指标；

S6、反馈结果

以PDF文件的形式，将结果返回为用户。

优选方式下，步骤S23中ARMA模型的结构为：

把具有如下结构的模型称为自回归移动平均模型，简记为ARMA(p，q)：

若该模型称为中心化ARMA(p，q)模型；缺省默认条件，中心化 ARMA(p，q)模型可以简写为：

3.3.2ARIMA模型的结构

具有如下结构的模型称为求和自回归移动平均(autoregressive integratedmoving average)模型，简记为ARIMA(p，d，q)模型：

式中：

为平稳可逆ARMA(p，q)模型的自回归系数多项式；

为平稳可逆ARMA(p，q)模型的移动平滑系数多项式；

可以简记为：

式中，{ε_t}为零均值白噪声序列；

由式显而易见，ARIMA模型的实质就是差分运算与ARMA模型的组合；也就是说，任何非平稳序列只要通过适当阶数的差分实现差分后平稳，就可以对差分后的序列进行ARMA模型拟合了；

d阶差分后序列可以表示为：

式中，即差分后序列等于原序列的若干序列值的加权和，而对它又可以拟合自回归移动平均ARMA模型，所以称它为求和自回归移动平均模型。

本发明是使用计算机软件分析完成的，解决传统的单一模型预测精度低，提取时间序列信息不充分的缺点。同时，我们将ARIMASVM2集成到基于销量数据的时间序列预测平台之上，具有实时，高效又低成本的特点；我们新提出的ARIMASVM2算法具有稳定、高效的特点，能够以更高的准确率对产品的销量数据进行预测分析，加上我们开发的时间序列预测平台的分布式计算功能的支持和良好的用户交互和信息整合能力，大大方便了用户特别是有产品销量预测需求的用户，把握产品市场，制定销售策略。

附图说明

图1是模型构建流程图；

图2是平稳时间序列建模流程图；

图3是线性可分SVM分类器；

图4是线性SVR回归器；

图5是一阶差分时间序列信息；

图6是一阶差分序列的ACF和PACF；

图7是白噪声检验结果；

图8是BIC计算结果；

图9是4种预测方法的预测结果展示；

图10是4种预测方法预测结果的RMSE和MAPE。

具体实施方式

一数据的采集、分析

1.1生成模板，上传原始数据文件

我们根据平台算法特点和产品销售数据的特点，给出交互式、可选择的问卷，用户根据自己的产品数据特点，填写并上传问卷；系统根据问卷，自动生成EXCEL数据模板，用户根据数据模板上传数据。

1.2大数据文件分割，原始数据可视化展示

根据用户上传的EXCEL文件，系统自动根据字段，将大数据文件拆分成小的CSV文件，系统自动根据字段，将大数据文件拆分成小的CSV文件，便于分布式存储和管理；并将原始数据对用户进行可视化展示，方便用户了解数据的特征和规律，对下一步的分析进行决策。

1.3相关性分析

时间序列分析中，很重要的一步是进行原始数据的相关性分析，因此，我们给出了多维特征的相关性分析功能，并给出了多种相关性指标的计算结果展示；当我们选择原始数据区域时，系统自动根据用户选择的数据，进行多维特征的相关性计算，给出可视化的结果展示。

二、模型拟合，预测结果对比

利用我们已经收集好的用户个性化数据，我们分别使用ARIMA、SVR和 ARIMASVM进行预测分析，并将得到的结果根据评价指标进行对比分析。

三模型介绍以及计算过程

3.1序列平稳性的定义

3.1.1严平稳

所谓严平稳就是一种条件比较苛刻的平稳性定义，它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时，该序列才能被认为平稳。而我们知道，随机序列族的统计性质完全由它们的联合概率分布族决定。所以严平稳时间序列的定义如下：

定义3.1.1设{X_t}为一时间序列，对任意正整数m,任取t₁，t₂，…，t_m∈T,对任意整数τ，有

则称时间序列{X_t}为严平稳时间序列。

然而在实践中要获得随机序列的联合分布是一件非常困难的事，而且，即使知道随机序列的联合分布，计算和应用也非常不便。所以严平稳时间序列通常只具有理论意义，在实践中用得更多的是条件比较宽松的宽平稳时间序列。

3.1.2宽平稳

宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定，所以只要保证序列低阶矩平稳(二阶)，就能保证序列的主要性质近似稳定。

定义3.1.2如果{X_t}满足如下三个条件：

(1)任取t∈T，有

(2)任取t∈T，有EX_t＝μ,μ为常数；

(3)任取t，s，k∈T，且k+s-t∈T，有γ(t，s)＝γ(k，k+s-t)；

则称{X_t}为宽平稳序列。宽平稳也称为弱平稳或二阶平稳。

显然，严平稳比宽平稳的条件严格。严平稳是对序列联合分布的要求，以保证序列所有的统计特征都相同；而宽平稳只要求序列二阶平稳。

3.2延迟算子

定义3.2.1

延迟算子的定义：延迟算子类似于一个时间指针，当前序列值乘以一个延迟算子，就相当于把当前序列值的时间向过去拨了一个时刻。记B为延迟算子，有

x_t-1＝Bx_t

x_t-2＝B²x_t

x_t-p＝B^px_t

延迟算子有如下性质：

B⁰＝1

若c为任一常数，有B(c·x_t)＝c·B(x_t)＝c·x_t-1

对任意两个序列{x_t}和{y_t}，有B(x_t±y_t)＝x_t-1±y_t-1

Bⁿx_t＝x_t-n

其中

有了延迟算子的定义，我们就可以用延迟算子来表示差分运算：

1、p阶差分

2、p步差分

3.3 ARIMA模型

差分运算具有强大的确定性信息提取能力，许多非平稳序列经过差分后，会显示出平稳序列的性质，我们称这样的非平稳序列为差分平稳序列。对于差分平稳序列，可以使用ARIMA模型进行拟合。

3.3.1 ARMA模型的结构

若该模型称为中心化ARMA(p，q)模型。缺省默认条件，中心化 ARMA(p，q)模型可以简写为：

3.3.2ARIMA模型的结构

式中：

为平稳可逆ARMA(p，q)模型的自回归系数多项式。

为平稳可逆ARMA(p，q)模型的移动平滑系数多项式。

可以简记为：

式中，{ε_t}为零均值白噪声序列。

由式显而易见，ARIMA模型的实质就是差分运算与ARMA模型的组合。也就是说，任何非平稳序列只要通过适当阶数的差分实现差分后平稳，就可以对差分后的序列进行ARMA模型拟合了。

d阶差分后序列可以表示为：

3.4支持向量机

支持向量机(SupportVectorMachine，SVM)，是最为经典的分类算法。其主要思想是寻找一个超平面对样本进行分割，此超平面需要尽可能的让正类和负类样本之间的间隔最大，下图表示了一个基本的线性可分SVM分类器，如图 3。

首先假设有M个样本{i∈{1,2,...,M}|(x_i,y_i)}，其中x_i是一个n维的向量，代表了第i个样本的特征向量，其n个值对应了第i个样本的n个特征，y_i∈{+1,-1}是第i个样本的类别标签，即正类和负类。在图5中，H是用来分类的超平面，其可以使用如下的线性方程表示：

w^Tx+b＝0 (3.4.1)

其中，w＝(w₁；w₂；...；w_n)是H的法向量，其维度也为n维，b是位移项，代表了H与原点的距离。对于第i个样本(x_i,y_i)，若y_i＝+1，则w^Tx_i+b>0；若y_i＝-1，则w^Tx_i+b<0，这样就可以进行分类。

而H1和H2是两个与H平行且距离相等的两个超平面，其中H1：w^Tx+b＝-1和H2：w^Tx+b＝1。在SVM的思想中，一个好的分类器需要满足两个条件：(1)没有任何样本在H1和H2之间；(2)H1和H2之间的距离要最大。

根据直线之间的距离公式可以推出H1和H2两个超平面间的距离公式：

其中，D是两个超平面H1和H2的距离。根据条件(1)，样本必须不能在 H1和H2之间，根据条件(2)，需要让D最大，则可以求解||w||的最小值，那么可以转化为：

公式(3)为SVM的基本型。那么显然公式3是一个凸二次规划问题。可用凸优化方法解决，根据拉格朗日乘数法定理，然后利用对偶问题求解最优值。

首先对上述函数引入拉格朗日乘子，得到拉格朗日函数：

其中，α＝(α₁；α₂；...；α_M)，对此函数分别求w和b的偏导为0，结果为：

那么将公式(5)和(6)代入(4)中，就可以得到一个对偶问题：

α_i≥0,i＝1,2,...,M (3.4.7)

通常使用SMO算法就可以求解该问题。利用对偶问题理论，知道α就可以求解出w，反过来，知道w就可以解出α，求解w的最大值转化为求解α的最大值，求出α^*带入公式(4)可求出w^*和b^*。最后得到最优超平面H*。根据公式(1)，当一个新的样本输入时，将其代入函数就可以得到该样本的类别。

但是如果数据有噪声，直接使用上述模型就会带来一定的误差，这时可以让模型允许一些数据点在一定范围内偏离超平面，故引入松弛变量这个概念ξ_i，其中ξi≥0。

s.t. y_i(w^Tx_i+b)+ξ_i≥1,i＝1,2...,M

ξ_i≥0,i＝1,2...,M (3.4.8)

引入松弛变量ξ_i之后，允许样本点的函数间隔小于2，允许有些样本点在超平面之间或者对方的区域中。目标函数中第二项是惩罚项，对离群点进行处罚，离群点越多目标函数值就越多，因此要求尽可能的减小目标函数值。C表示离群点的权重，C越大目标函数值就越大。

但是对于现实的问题，通常用一个线性模型是无法准确分类的(线性不可分)，必须需用非线性模型，SVM通过引入核函数解决了这个问题，其原理是直接将样本从原始空间映射到更高维的特征空间，而在该空间中线性可分。

令φ(x)为x经过映射后的特征向量，那么带入到公式(8)中：

s.t. y_i(w^Tφ(x_i)+b)+ξ_i≥1,i＝1,2...,M

ξ_i≥0,i＝1,2...,M (3.4.9)

在计算的时候，需要计算φ(x_i)^Tφ(x_j)，核函数由此引入：

κ(x_i,x_j)＝<φ(x_i),φ(x_j)>＝φ(x_i)^Tφ(x_j) (3.4.10)

由于其原理，所以核函数的选择与分类器的性能关系密切。表3.1列举几种常用的核函数。

表3.1常用的核函数

最终求解可以得到：

实现SVM的方法有许多，目前最受欢迎的方法是台湾大学林智仁教授开发的LIBSVM工具箱，简单易用，速度快速，功能全面，支持Windows和Unix 操作系统，支持的语言比较广泛，Java、Python、R、Matlab、Ruby等语言均可支持，本次实验使用的是Matlab来调用LIBSVM，版本为3.21版。LIBSVM本身可以支持的核函数有线性核、多项式核、RBF核和Sigmoid核，经实验，本实验最终使用高斯核(RBF核)。

3.5支持向量回归

支持向量回归(SupportVectorRegression，SVR)，是根据SVM的基本思想改良成的一种回归算法[17]其主要思想是寻找一个超平面对样本进行映射，与其它的回归算法不同的是其映射与真实值之间的差的绝对值如果小于一个具体的范围，就不计入损失。图6表示了一个基本的线性的SVR回归器，如图4。

首先假设有M个样本{i∈{1,2,...,M}|(x_i,y_i)}，其中x_i是一个n维的向量，代表了第i个样本的特征向量，其n个值对应了第i个样本的n个特征，y_i是第i个样本的对应的回归输出，即连续的值。在图4中，H是用来回归映射的超平面，可以使用如下的线性方程表示：

w^Tx+b＝0 (3.5.1)

其中w＝(w₁；w₂；...；w_n)是H的法向量，其维度也为n维，b是位移项，代表了H 与原点的距离。对于第i个样本(x_i,y_i)，将其特征向量输入到回归器里后，即可得到模型的输出f(x_i)＝w^Tx_i+b，这样就可以进行回归。

而H1和H2是两个与H平行且距离相等的两个超平面，其中H1：w^Tx+b＝-1和H2：w^Tx+b＝ε。根据SVR的基本思想，可以容忍真实输出值y 和模型输出值f(x)之间的误差不超过ε，只有误差超过ε才计算误差损失。如图4，即在H1和H2中间的部分就算预测正确。同时也需要让H1和H2距离最近，所以根据式(5.2)和上述条件，得到式(3.5.2)：

其中，C是正则项的系数，l_ε是我们需要计算的损失，称为不敏感损失：

同SVM，引入松弛变量ξ_i和两个松弛变量代表了两侧的松弛程度可以不同，再引入核函数κ(x_i,x_j)，其定义同SVM。最终可以变成：

s.t. f(x_i)-y_i≤ε+ξ_i,

其求解方法完全和SVM一样，通过引入拉普拉斯乘子，然后利用对偶问题求解最优值。最终解为：

在SVR中核函数的选择与分类器的性能关系密切。表4.4.1列举几种常用的核函数。

表4.4.1常用的核函数

实现SVR的方法也有许多，这里为了方便仍然使用Python来调用LIBSVM 工具箱，只要调整其中的参数就可以改变算法类型，在本次实验使用的版本中，有e-SVR和v-SVR两种类型，经实验后选择比较常用的e-SVR。

3.6混合模型

ARIMA和SVR两者在它们各自的线性和非线性问题应用领域，都有着非常成功的应用。但是，客观来说，没有任何一种模型、算法可以适用于所有的问题。尽管，ARIMA在时间序列分析领域已经足够成熟，但在实际问题中，依旧很难完全捕捉到背后真正的模式。因此，本节中，我们提出了ARIMA和SVR 的混合算法，来对时间序列进行预测、分析。在线性和非线性问题领域，两者都有各自获取数据特性的优势。因此，本节提出的融合了ARIMA和SVR的混合算法，能够更好的捕捉时间序列的模式，来达到更好的总体预测效果。

我们可以把一个时间序列看作是由线性部分和非线性部分，两部分组成：

Z_t＝L_t+N_t其中，L_t为线性部分，N_t为非线性部分 (3.6.1)

首先，我们使用ARIMA模型，拟合数据的线性部分L_t，得到如果我们用ε_t来表示ARIMA模型拟合数据之后的残差，则

其中，为ARIMA在时刻t的预测值 (3.6.2)

接下来，我们通过SVR模型来拟合残差，就可以发现序列中的非线性关系。由此，我们提出第一种混合模型：

模型1：

ARIMASVM1

ε_t＝f(ε_t-1，ε_t-2)+e_t (3.6.3)

式中，f为SVM模型的核函数，e_t为随机误差。

所以，ARIMA_SVM1模型为：

式中，为公式(4.5.3)的预测结果。

模型2：

ARIMA_SVM2

式中，Z_t-1，Z_t-2分别为t-1和t-2时刻的时间序列观测值，为ARIMA模型预测的t时刻的时间序列值。

四模型定阶及参数选择

ARIMA模型

我们对数据集进行了一阶差分处理，得到的一阶差分序列信息如图5所示；一阶差分时间序列的ACF和PACF数值如图6所示；对差分后的时间序列进行白噪声检验，结果如图7所示；由白噪声检验可知，我们需要预测分析的时间序列为非白噪声序列，根据最小信息准则获得的结果如图8所示；由图8，我们可以得到最小表值BIC(4,5)＝28.39598，因此，我们对时间序列进行ARIMA (4,1,5)拟合，得到如下结果：

自回归因子为：Φ(B)＝1+1.55274B**(1)+1.46831B**(2)+1.57256B**(3) +0.9015B**(4)

移动平均因子为：θ(B)＝1+0.57509B**(1)+0.03837B**(2)+0.00215 B**(3)-0.47953B**(4)-0.6768B**(5)

由此，得到最终的ARIMA(4,1,5)模型为：

SVM自回归模型和两个混合模型

这里我们使用Python调用LIBSVM工具箱，并编写脚本来实现模型，并进行调参，得到如表4.1所示的最优参数结果：

表4.1SVM自回归模型和ARIMASVM1、ARIMASVM2

五进行预测并对比实验结果

我们只用药品Betaloc在广东省的周销售量数据，作为我们的数据集，分别使用ARIMA、SVR和我们新提出的两种融合方法，即ARIMASVM1和 ARIMASVM2，进行预测分析，预测药品未来5周的销量数据，得到了如图9 所示的预测结果。

为了对比和评价模型的优劣，我们使用RMSE(root mean square error)和 MAPE(mean absolute percentage error)作为评价指标，如表6.1所示：

表6.1评价指标和计算公式

根据表6.1中的评价指标计算公式，我们对4种模型的预测结果进行了评价指标计算，结果如图10所示：

从我们的评价指标可以看出，单一模型的预测结果，ARIMA的RMSE和 MAPE，相比于SVM自回归拟合模型，都具有更小的数值，展现出了更好的预测性能；而ARIMASVM1和ARIMASVM2在RMSE的评价指标下，都体出现了更优越的预测性能；但在MAPE的评价指标下，ARIMASVM1的预测效果出现了波动，而ARIMASVM2依旧体现出了优越的预测性能。

六反馈结果

实验结果，有力地展示了新提出的混合模型(ARIMASVM2)，在实际药品销售领域，相比于单一的ARIMA和SVM自回归模型，有着更优秀的预测能力。在评价指标RMSE和MAPE方面，相比于其他算法都有更小的数值。综合来看，混合算法，充分提取出了时间序列中的线性信息和非线性信息，弥补了单一模型、算法的不足。因此，我们可以说，混合模型(ARIMASVM2)在时间序列的预测分析方面，是可信赖的，有着更高的准确率和稳定性，其预测结果有重要的参考价值。我们将其应用到我们的时间序列预测平台之上，经过预测分析之后，会以PDF文件的形式，将结果返回为用户。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种预测药品销量的ARIMA和支持向量回归融合方法，其特征在于，包括如下步骤：

S1、数据的采集、分析

S2、模型拟合，预测结果对比

其中，S2中模型以及计算过程包括：

S21、序列平稳性的定义；

S22、延迟算子的定义

S23、使用ARIMA模型进行拟合；

S24、模型定阶及选择参数

S25、进行预测并对比实验结果

为了对比和评价模型的优劣，使用RMSE和MAPE作为评价指标；

S6、反馈结果

以PDF文件的形式，将结果返回为用户。

2.根据权利要求1所述预测药品销量的ARIMA和支持向量回归融合方法，其特征在于，步骤S23中ARMA模型的结构

若该模型称为中心化ARMA(p，q)模型；缺省默认条件，中心化ARMA(p，q)模型可以简写为：

3.3.2 ARIMA模型的结构

具有如下结构的模型称为求和自回归移动平均(autoregressive integrated movingaverage)模型，简记为ARIMA(p，d，q)模型：

式中：

为平稳可逆ARMA(p，q)模型的自回归系数多项式；

为平稳可逆ARMA(p，q)模型的移动平滑系数多项式；

可以简记为：

式中，{ε_t}为零均值白噪声序列；

d阶差分后序列可以表示为：