CN108846057A

CN108846057A - 一种基于带状时变模糊信息粒的时间序列长期预测方法

Info

Publication number: CN108846057A
Application number: CN201810555787.6A
Authority: CN
Inventors: 骆超; 谭晨皓
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-20
Anticipated expiration: 2038-06-01
Also published as: CN108846057B

Abstract

本发明公开了一种基于带状时变模糊信息粒的时间序列长期预测方法，划分目标时间序列，得到若干笔数据集；基于划分后的数据集，构造带状时变模糊信息粒，将时间序列转化为颗粒时间序列；将颗粒时间序列划分为训练集和预测集，利用训练集中带状时变模糊信息粒建立模糊逻辑规则，基于模糊逻辑规则和三阶模糊逻辑关系构建模糊预测模型，利用模糊预测模型对预测集中带状时变模糊信息粒进行预测；对预测结果进行去模糊化处理，并计算预测精度评价指标，对预测结果进行评价。本发明构造一种基于带状时变模糊信息的模糊预测模型，进行粒度层次上的预测以对时间序列进行长期预测，并将预测结果去模糊化，使用RMSE、MAPE、MAE指标对预测结果进行评价。

Description

一种基于带状时变模糊信息粒的时间序列长期预测方法

技术领域

本发明涉及一种基于带状时变模糊信息粒的时间序列长期预测方法。

背景技术

时间序列是指将同一统计变量的数值按照其发生的时间先后顺序排列而成的序列。与横截面数据不同，重点在分析同一经济行为者不同时间的资料，以展现研究对象的动态行为。进行时间序列分析的一个重要目的就是进行时间序列的预测，即就是利用统计方法和技术，从变量的观测数据中找出其内在演变模式，建立数学模型，对预测变量的变化趋势进行定量估计。时间序列预测一直是学者们研究的热点问题，已经被广泛的应用到气象学、农业产量、旅游人数及能源等诸多领域，特别是在控制领域和金融市场中有极其重要的意义。近几十年关于时间序列的预测工作，可以总结为三大类：一是经典时间序列模型，二是基于计算智能技术的预测模型，三是基于模糊集合理论的模糊时间预测模型。

经典时间序列模型得到了广泛的应用，但是也存在不足，例如AR、MA、VECM等均建立在时间序列数据具有线性结构的假设之下，而现实世界中的数据通常具有较强的非线性结构；预测得到的是定量的结果，不易被人们理解；对于模糊或不完整的时间序列，预测偏差较大等。

计算智能技术包括人工神经网络(ANN)、遗传算法(GA)、贝叶斯网络(Bayesiannetwork)、支持向量回归(SVR)、粗糙集、决策树等，这些技术最大的优势在于较好的捕捉到了数据中的非线性特征。其不足之处也是明显的：预测模型相当于是数据驱动的黑盒子，单纯以提高精度为目的，对数据完整性要求较强，可解释性较弱；适用范围普遍较小，例如，通常训练的神经网络结构只能对特定的时间序列预测效果较好，难以推广；而且，没有解决经典时间序列模型的预测结果难以被人理解的问题。

模糊时间序列模型解决了上述方法预测结果语义性不足的问题，对于模糊语义变量的时间序列预测有较好的效果。在应用方面，目前其已被广泛应用于预测入学人数、金融市场、温度等多个领域，显示出较好的预测性能。

此外，在进行预测的过程中，使用信息粒表示模糊集可以把复杂的运算简单化，剔除一些冗余的信息。

上述研究已经表明在时间序列预测中运用信息粒的优势。现有的构造颗粒的方式普遍只关注样本数值的变化幅度和变化区间，而忽略数据的变化趋势。但是，实际上，趋势信息常常是时间序列分析的一个重要的指标。因此，研究新型信息粒的一个关键的目的是，设计一种新的模糊信息粒化方式，使信息颗粒能够反映数据随时间变化的趋势，而不是提供一个无法判断真假的确切数值。对于金融市场，这将帮助投资者进行下一波行情的判断。

现有的信息粒形式中，均没有对预测结果进行一定的验证。若信息粒形式可以使自身对预测结果进行一定的预估、检验或评价，将会大大提高预测的可信程度。这将会有非常重要的意义，尤其是对于投资者来说，若能在给出预测结果的同时给出相应的可信度或真实性概率，将会更加有说服力，一定程度上避免投资的盲目性。

划分论域作为Song和Chissom在1993年提出的构建模糊时间序列模型的第一步，对预测结果有很大的影响。如果划分的子区间太少或太多，会造成子区间具有的模糊语义过于模糊化或模糊语义过于接近难以区分的问题。关于划分论域的方法，研究成果可大致分为三类，它们各自都有其不足之处：

第一类是对论域进行均匀划分，此类模型较为简单，但预测精度不高，且划分论域后得到的模糊集解释性较低，含有的语义信息较少；第二类是根据数据分布对论域进行划分，虽然具有较强的解释性，论语划分的结果更能被人们理解和接受，但是，算法复杂度普遍较高，难以实现动态实时划分；第三类是利用优化理论对论域进行划分，此类方法是通过一些优化算法，例如粒子群算法、遗传算法等，寻找最优划分点。此类方法较前两种预测精度高，但划分后得到的区间不容易用人们的自然语言进行描述。

综上所述，现有技术中对于预测模型的不足、信息粒形式的不足并避免论域划分的难题，尚缺乏有效的解决方案。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于带状时变模糊信息粒的时间序列长期预测方法，将原始序列转变为便于提取主要信息的模糊时间序列，基于分笔的思想将数据依据时间相关的趋势特征划分为若干数据集，构造一种新型的带状时变模糊信息粒；基于带状时变模糊信息粒，被不等长区间划分的原始时间序列进一步被转化为语义信息丰富且易于操作的颗粒时间序列；将时间序列转化为颗粒时间序列后，通过构造基于规则的、加入滑动时间窗口限制的模糊预测模型，进行粒度层次上的预测以对时间序列进行长期预测，并将预测结果去模糊化，使用RMSE、MAPE、MAE指标对预测结果进行评价。

本发明所采用的技术方案是：

一种基于带状时变模糊信息粒的时间序列长期预测方法，该方法包括以下步骤：

划分目标时间序列，得到若干笔数据集；

基于划分后的数据集，构造带状时变模糊信息粒，将时间序列转化为颗粒时间序列；

将颗粒时间序列划分为训练集和预测集，利用训练集中带状时变模糊信息粒建立模糊逻辑规则，基于模糊逻辑规则和三阶模糊逻辑关系构建模糊预测模型，利用模糊预测模型对预测集中带状时变模糊信息粒进行预测；

对预测结果进行去模糊化处理，并计算预测精度评价指标，对预测结果进行评价。

进一步的，所述划分目标时间序列的步骤包括：

选取合适的时间长度，作为k线的基本时域单元，对目标时间序列数据进行K线化处理，得到K线图；

对K线间的包含关系进行处理，并判断K线间顶底分型，得到模糊时间序列；

对得到的模糊时间序列进行分笔处理，得到若干笔数据集。

进一步的，所述对K线间的包含关系进行处理的步骤包括：

判断相邻两根K线是否存在包含关系，若一根k线的最高点高于另一根k线的最高点，且最低点低于另一根k线的最低点，则判定两根k线间存在包含关系，对两根k线间的包含关系进行处理；

判断两根K线的趋势，若两根k线呈上升趋势，则用一根新k线的高点和低点代替两根k线的高点和低点的较大值；若两根k线呈下降趋势，则用一根新k线的高点和低点代替两根k线的高点和低点的较小值。

进一步的，所述判断K线间顶底分型的方法为：

对于不存在包含关系的3根K线，若中间一根K线的高点最高，低点也最高，则三根k线构成顶分型；若中间一根K线的低点最低，高点也最低，则三根k线构成底分型。

进一步的，所述带状时变模糊信息粒的构造方法为：

利用划分后得到的每笔数据集在时间范围t＝{t₁,t₂,…,t_N}，对该数据集进行最小二乘线性回归得到

X_t＝kt+b+∈

其中，∈～N(0,σ²)，求解得到参数k、b和σ；

使用μ₀(t)＝kt拟合数据集的上界和下界，将所有数据值包含其中，从而得到b的取值范围

基于参数k、b、σ、b和构造了一个带状时变模糊信息粒其中，k，b分别表示回归线的斜率和截距，σ表示标准差，核心线μ(t)＝kt+b反映了当前时间区间内的线性变化趋势，是由x值确定的闭区间，表示b的取值范围，即b是使μ(t)＝kt+b经过x值对应点的b的最小取值，是使μ(t)＝kt+b经过x值对应点的b的最大取值。

进一步的，所述模糊逻辑规则的建立方法为：

将长度为n的颗粒时间序列A＝{A(i)},i＝1,2,…,n划分为由前n_t个带状时变模糊信息粒构成的训练集和由剩下n_f个带状时变模糊信息粒构成的预测集，

利用训练集中n_t个带状时变模糊信息粒建立模糊逻辑规则。

进一步的，所述三阶模糊逻辑关系为：

A_t-2,A_t-1,A_t→A_t+1

表示在t时刻进行t+1时刻的带状时变模糊信息粒的预测，A_t-2,A_t-1,A_t,A_t+1为时间序列上四个连续观测到的带状时变模糊信息粒。

进一步的，所述基于模糊逻辑规则和三阶模糊逻辑关系构建模糊预测模型的方法包括：

设定滑动时间窗口，将其作为最大规则条数R_limit；

当前输入带状时变模糊信息粒个数为N，当第N+1个带状时变模糊信息粒输入时，若N-1≤R_limit，增加新的模糊逻辑规则；若N-1＞R_limit，则增加新的模糊逻辑规则并删除掉前N-1-R_limit条模糊逻辑规则；

基于三阶模糊逻辑关系，计算观测序列和前因变量的匹配程度；

利用匹配程度与权值向量的比例关系，计算权值向量，给每条模糊逻辑规则的分配权重；

通过对每条模糊逻辑规则的结果进行加权平均计算，得到颗粒时间序列的预测集中n_f个带状时变模糊信息粒的预测结果。

进一步的，所述对预测结果进行去模糊化处理的步骤包括：

根据第t时刻的预测结果A_forecasted(n_t+t),t＝1,2,…,n_f计算所对应的带状时变模糊信息粒的参数k,b,

利用带状时变模糊信息粒的参数k,b,计算第t时刻的预测值X_forecast(t)，t＝1,2,…,n_f。

进一步的，所述预测评价指标包括RMSE、MAPE和MAE；

RMSE的计算公式为：

MAPE的计算公式为：

MAE的计算公式为：

式中，X_forecast(t)和X_actual(t)分别表示第t时刻的预测值和真实值；n_f表示预测集中带状时变模糊信息粒个数；

若RMSE、MAPE、MAE的值越小，则表明预测结果越准确。

与现有技术相比，本发明的有益效果是：

(1)本发明基于日本蜡烛图理论，将原始时间序列转化为便于提取主要信息的模糊时间序列，基于分笔思想将数据依据时间相关的趋势特征划分为若干数据集，为下一步模糊化观测数据做准备，作为构造信息粒的依据；充分考虑数据的变化趋势及分布情况来确定非等长区间，以提高模糊后的可解释性和预测精度，发挥了模糊理论在解决时间序列预测问题中的优势；弥补了以往均匀划分论域精确度较低、语义信息较少的不足，克服了使用粒子群算法、遗传算法、蝙蝠算法等优化算法划分论域的不可解释性的问题；

(2)本发明构造一种新型的带状时变模糊信息粒，能够携带数据的变化趋势、波动范围和离散程度的信息，采用以带状区间为核心的模糊信息粒的形式来表达趋势信息，在常见的高斯模糊信息粒的基础上做了进一步的改进，能够同时表示数据变化范围及置信水平、数据集的变化趋势以及数据波动情况，较好的解决了现有的构造颗粒的方式忽略数据的变化趋势和没有对预测结果进行验证的问题；

(3)本发明基于带状时变模糊信息粒，被不等长区间划分的原始时间序列进一步被转化为语义信息丰富且易于操作的颗粒时间序列，将时间序列转化为颗粒时间序列后，通过构造基于规则的、加入滑动时间窗口限制的模糊预测模型，进行粒度层次上的预测以对时间序列进行长期预测，并将预测结果去模糊化，使用RMSE、MAPE、MAE指标对预测结果进行评价，提高预测结果的可信度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是基于带状时变模糊信息粒的时间序列长期预测方法流程图；

图2是处理k线间包含关系示意图；

图3是顶底分型示意图；

图4是划分目标时间序列过程示意图；

图5是带状时变模糊信息粒示意图；

图6是模糊预测模型示意图；

图7是实验数据示意图；

图8是上证指数2018年第一季度共90天30分钟级数据的分笔情况示意图；

图9是上证指数2016年第三季度(7月—9月)1分钟级数据共划分1081笔情况示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的，现有技术中存在预测模型的不足、信息粒形式的不足并避免论域划分的难题，为了解决如上的技术问题，本申请提出了一种基于带状时变模糊信息粒的时间序列长期预测方法，首先，引入改进的日本蜡烛图理论，蜡烛图本身就是对一段时间价格走势的总结，可以起到初步去噪的效果，将原始序列转变为便于提取主要信息的模糊时间序列；接下来为构建信息粒做准备，将数据依据时间相关的趋势特征划分为若干数据集，这一步用到了基于分笔的思想；基于上述划分方法，提出了一种新型的带状时变模糊信息粒，能够携带数据的变化趋势、波动范围和离散程度的信息，并对预测结果进行可信度校验；基于带状时变模糊信息粒，被不等长区间划分的原始时间序列进一步被转化为语义信息丰富且易于操作的颗粒时间序列；将时间序列转化为颗粒时间序列后，通过构造基于规则的、加入滑动时间窗口限制的模糊推理系统，进行粒度层次上的预测以对时间序列进行长期预测，并将预测结果去模糊化，使用RMSE、MAPE、MAE指标对预测结果进行评价。

本申请的一种典型的实施方式中，如图1所示，提供了一种基于带状时变模糊信息粒的长期时间序列预测方法，该方法包括以下步骤：

步骤1：划分目标时间序列

本发明提出了一种基于k线分笔思想的数据不等长划分方法划分方法，该方法考虑数据的变化趋势及分布情况来确定非等长区间，以提高模糊后的可解释性和预测精度，发挥了模糊理论在解决时间序列预测问题中的优势，弥补了以往均匀划分论域精确度较低、语义信息较少的不足，克服了使用优化算法(如粒子群算法、遗传算法、蝙蝠算法等)划分论域的不可解释性的问题。

本发明采用一种新的K线划分方法，选择合适的区间长度，优化信息粒度，使得信息粒包含适当个数的数据。由于时间序列存在其内在演变模式，因此，作为其表示方式的K线图也反映了一定的变化趋势。根据这一特点，本发明对k线图进行如下规范化处理，以明确变量的变化趋势及相应的时间区间。任意时间序列在经过k线化处理后，应用如下三大步骤，即完成一次模糊化区间划分处理。划分处理过程具体实现方式如下所示：

步骤101：处理k线间的包含关系

(1)包含的含义

对于相邻两根k线，若一根k线的最高点高于另一根k线的最高点，且最低点低于另一根k线的最低点，则判定两根k线存在包含关系。

(2)包含关系的处理

处理包含关系的核心就是相邻k线不能有包含关系。当一条k线的出现使得产生包含关系时，可用一根新的只有高点、地点，没有开点、闭点的新k线代替有包含关系的两根k线(为方便表示，新k线使用实体的上端表示高点，下端表示低点)。首先判断其之前两根k线的关系，如果之前两根k线呈上升趋势(第二根k线的最高点和最低点均高于第一根k线，也称第二根k线高于第一根k线)，则新k线高点和低点分别等于两根k线的高点和低点的较大值，如图2中(a)所示；如果之前两根k线呈下降趋势(第二根k线的最高点和最低点均低于第一根k线，也称第二根k线低于第一根k线)，则新k线的高点和低点分别等于两根k线的高点和低点的较小值，如图2中(b)所示；若新k线又产生了新的包含关系，则继续进行处理，如图2中(c)所示。

步骤102：判断顶底分型

不存在包含关系的3根K线，若中间一根的高点最高，低点也最高，则三根k线构成顶分型。如图3中(a)所示。

不存在包含关系的3根K线，若中间一根的低点最低，高点也最低，则三根k线构成底分型。如图3中(b)所示。

需要注意的是，一根k线不能被两个分型共用。顶分型遇到这种情况时，该k线归较高的顶分型使用；底分型则归较低的底分型使用。

步骤103：划分笔

若相邻的顶分型和底分型之间至少有1根非公用K线(即从顶分型的最高一根K线至底分型的最低一根K线的时间范围的闭区间内，至少有5根不存在包含关系的K线)，则顶分型最高一根k线至底分型最低一根k线间构成一笔。划分笔后得到若干笔数据集。

特别的，若顶分型(或底分型)连续出现，且后出现的一个顶分型(或底分型)的最高(低)一根k线更高(低)，则使用后出现的分型作为笔的端点。

本发明实施例提出的划分目标时间序列，首先选取合适的时间长度，作为k线的基本时域单元，对时间序列进行K线化处理，将时间序列转化为用符号化的模糊语义变量表示的模糊时间序列。其次，对得到的模糊时间序列进行分笔处理，量化其内在变化趋势及其时间范围，并依此划分数据，为下一步模糊化观测数据做准备，作为构造信息粒的依据。

下面以图4中(a)所示k线图为例进行说明。图中从T1到T18共18个时间间隔内的开仓，收仓，高点，低点价格信息被用k线记录。通过观察可知，该时间序列有很明显的变化趋势。我们用上述提出的k线分笔方法对其进行处理，以明确其变化过程，提取趋势信息。

首先进行包含关系处理。依据时间先后顺序观察k线，首先发现T6和T7时间对应k线存在包含关系，根据步骤101，因为T5对应k线高点、低点都高于T6，所以T6和T7生成的新k线的高点、低点均取较低值；又发现T8和T9时间对应k线存在包含关系，根据步骤101，因为T6和T7生成的新k线的高点、低点都高于T8，所以T8和T9生成的新k线的高点、低点均取较低值。处理结果如图4中(b)所示。

其次进行顶底分型的判断。T2对应k线的高点、低点分别低于T1、T3的高点、低点，故T1、T2、T3构成底分型；T4对应k线的高点、低点分别高于T5、T6的高点、低点，故T4、T5、T6构成顶分型；T12对应k线的高点、低点分别低于T11、T13的高点、低点，故T11、T12、T13构成底分型；T17对应k线的高点、低点分别高于T16、T18的高点、低点，故T16、T17、T18构成顶分型。如图4中(c)所示。

最后，进行分笔。根据步骤103中笔的定义，第一笔从第2根k线开始，连接至第6根k线；第二笔从第6根k线开始，连接至第13根k线；第三笔从第13根k线开始，连接至第17根k线。如图4中(d)所示，图中分笔情况用蓝色箭头表示。

步骤2：模糊化观测数据，构造带状时变模糊信息粒

本发明实施例提出了一种新型模糊信息粒，称为带状时变模糊信息粒(RTFIG)。在设计这样的信息颗粒时，采用以带状区间为核心的模糊信息粒的形式来表达趋势信息，同时以高斯分布计算预测的可信程度。

带状时变模糊信息粒(ribbon time-variation fuzzy information granule)，记作带状在给定时刻t∈[0,T]，带状时变模糊信息粒的隶属度函数的表达式为：

其中k，b分别代表回归线的斜率和截距，标准差σ决定了分布的幅度。核心线μ(t)＝kt+b反映了当前时间区间内的线性变化趋势。标准差σ反映了数据与回归线μ(t)的离散程度，σ越大，代表该信息粒有越大的离散程度。是由x值确定的闭区间，表示b的取值范围，即b是使μ(t)＝kt+b经过x值对应点的b的最小取值，是使μ(t)＝kt+b经过x值对应点的b的最大取值。反映了当前时间区域内的数据浮动区间，即该数据集的所有数据落在μ₀(t)＝kt平移和b构成的两根线之间的区域内。

如图5中(d)所示，展示了一个带状时变模糊信息粒。与普通的高斯模糊信息粒或者区间模糊信息粒均不同，它的区间不再是固定区间，而呈随时间变化的带状；其高斯核不再是一个定值，而是随时间变量t变化而进行线性移动。可以这样说，它的中心值(数学期望)不再是一个点(数值)，而变成了一个随时间移动的区间。根据图形直观分析，与图5中(a)、(b)、(c)所示的构造方法不同，带状时变模糊信息粒有四个维度而不是二维的。增加的第三个维度是时间，用来展示数据随时间变化趋势。增加的第四个维度是呈正态分布的概率函数，用来表示信息粒的置信水平。

确定带状时变模糊信息粒共需5个参数，即k、b、σ、b和其中k、b和σ可以通过线性回归确定。考虑到了其计算复杂度是可接受的，因此选用最小二乘线性回归(通过最小化误差的平方和寻找数据的最佳函数匹配)。给定一个数据集时间范围t＝{t₁,t₂,…,t_N}，对其进行线性回归得到

X_t＝kt+b+∈

其中，∈～N(0,σ²)。由步骤1中得到的每笔数据集，求解得到参数k、b和σ。而和b的确定，是使用μ₀(t)＝kt拟合数据集的上界和下界，将所有数据值包含其中，从而得到b的取值范围至此，构造了一个带状时变模糊信息粒

本发明实施例中，带状时变模糊信息粒的个数与步骤1中得到的笔数相同，利用一笔数据构造一个带状时变模糊信息粒。

综上所述，带状时变模糊信息粒在常见的高斯模糊信息粒的基础上做了进一步的改进，能够同时表示数据变化范围及置信水平数据集的变化趋势(via k)以及数据波动情况(via σ)，较好的解决了现有的构造颗粒的方式普遍只关注样本数值的变化幅度和变化区间，而忽略数据的变化趋势的问题以及现有的信息粒形式中，均没有对预测结果进行一定的验证，是较为理想的信息粒形式的问题。

步骤3：构建模糊预测模型

本发明选用带状时变模糊信息粒进行预测而不是直接使用原始数据，这样做的优势在于，输出将是一个考虑多步时间范畴的信息颗粒。若使用例如ARIMA、SVR的数字化模型预测相同数量的数值，则必须对单步预测结果进行一系列的迭代。鉴于不可避免的误差，这将会导致偏差连续累积。当预测长时间范畴时，这使得预测结果呈高度不可信。

本发明认为带状时变模糊信息粒A_N+1的预测问题与历史颗粒数据A₁,A₂,…,A_N有关，可以通过基于加权平均的模糊推理机制进行解释。在这种前提假设之下，模糊逻辑关系可以被利用来进行预测。我们对三阶的模糊逻辑关系进行如下定义：

A_i-2,A_i-1,A_i,A_i+1为时间序列上四个连续观测到的颗粒，则他们之间的关系可以用一个模糊逻辑关系表示，记作A_i-2,A_i-1,A_i→A_i+1，其中，A_i-2,A_i-1,A_i称为模糊逻辑关系的左件(简称左件)，A_i+1称为模糊逻辑关系的右件(简称右件)。

模糊预测模型可以被认为是由一系列条件判断规则构建的。如果规则的条件被满足，则可以认为对应的结果在一定程度上是正确的。对于三阶模糊逻辑关系，目标预测信息粒A‘_N+1可以由三个连续的历史信息粒A‘_N-2，A‘_N-1，A‘_N通过算法唯一确定。

模糊逻辑规则为：

根据三阶的模糊逻辑关系的定义，这种逻辑关系的思想可以被简单的表示成

A_t-2,A_t-1,A_t→A_t+1

这表示在t时刻进行t+1时刻的信息粒的预测，其中，A_t-2,A_t-1,A_t,A_t+1分别表示t-2、t-1、t、t+1时刻的信息粒。

模糊逻辑规则条数与输入带状时变模糊信息粒的数量有关。若有N个带状时变模糊信息粒输入，将构造N-2条模糊逻辑规则。在实际应用中，有一些数据理论上是无穷的，随时间不断产生，这将产生巨大数量的规则，严重影响预测机的效率和性能。同时，数据常常体现出阶段性的特点，上一阶段的数据对接下来的预测参考性较小甚至体现负影响。因此，本发明引入滑动时间窗口。

滑动时间窗口长度为预测机最大规则条数R_limit，当前输入带状时变模糊信息粒个数为N。当第N+1个带状时变模糊信息粒输入时，模糊逻辑规则条数的增加分为两种情况：若N-1≤R_limit,增加新的模糊逻辑规则；若N-1＞R_limit,则增加新的模糊逻辑规则并删除掉前N-1-R_limit条模糊逻辑规则。R_limit根据使用者机器的运算速度和所能接受到的时延确定。

这种三输入，一输出，(N-3)条规则的基本结构如图6中展示。

模糊预测模型的输入形式是颗粒序列的训练集的最后三个颗粒，即A‘_N-2＝A_N-2,A‘_N-1＝A_N-1,A‘_N＝A_N.对于模糊规则Rule i(i＝1,2,…,N-3)，如果使前提

A‘_N-2isA_N-2,A‘_N-1isA_N-1,A‘_NisA_N

保证一定程度的可信度(可靠性)(即发射强度，the firing strength)，即观测序列(A‘_N-2,A‘_N-1,A‘_N)和前因变量(A_i,A_i+1,A_i+2)存在一定的匹配程度，记作

ω‘_i＝ω‘_i(A_i,A_i+1,A_i+2；A_N-2,A_N-1,A_N),

那么此前提对应的结论”A_N+1 is A_i+3“也有相同的可信度。因此，模糊预测模型的预测输出颗粒A_N+1可以被看作是模糊规则Rule 1,Rule 2,…,Rule N-3的结果A₄,A₅,…,A_N的加权平均，表示为下述形式：

其中，ω_i为模糊规则Rule i的分配权重，i＝1,2,…,N-3；权重向量(ω₁,ω₂,…,ω_N-3)与匹配程度[ω’₁,ω’₂,…,ω’_N-3]呈成比例关系，被定义为如下形式：

其中，ω′_i是观测序列(A‘_N-2,A‘_N-1,A‘_N)和Rule i的前因变量(A_i,A_i+1,A_i+2)的匹配程度，i＝1,2,…,N-3。

定义α(A_i,A_j)是A_i和A_j相似程度(匹配程度)的度量。显然，两颗粒之间的距离越小，其相似程度越大。因此，α(A_i,A_j)可以被表示为

类似于模糊c-均值算法，其中权重指数m＞1被称为模糊指数。在本发明中，模糊化系数m设为2。因此，观测序列(A‘_N-2,A‘_N-1,A‘_N)和模糊规则Rule i的前因变量(A_i,A_i+1,A_i+2)的匹配程度可以被表示为

其中，D(A_i,A_j)的计算方法如下所示：

令A_i＝A₁，A_j＝A₂；则A₁＝RT₁，A₂＝RT₂。

当采用带状时变模糊信息粒信息粒时，和(假设T1＞T2)之间的距离可以被写作

其中为直线和的交点横坐标；以及

其中t’₁是的零点。

步骤4：预测并去模糊化

将长度为n的颗粒时间序列A＝{A(i)},i＝1,2,…,n,被划分为初始化为前n_t个带状时变模糊信息粒构成的、长度为n_t的训练集和由接下来n_f个带状时变模糊信息粒构成的预测集。训练集的长度随时间而增加，最大等于滑动窗口长度+2。在接下来的实验中，训练集的长度最小等于总集Y(颗粒时间序列A或数字时间序列X)的四分之三，即n_t≥3n/4＝3(n_t+n_f)/4。

根据训练集中n_t个带状时变模糊信息粒构建模糊预测模型(如图6所示)，用以预测预测集中n_f个带状时变模糊信息粒，预测结果表示为

A_forecast(t+1)＝Forecast(A(t),A(t-1),A(t-2))

预测集中n_f个带状时变模糊信息粒作为测试数据，用来计算预测精度，对于n_f个颗粒构成的预测集，预测结果表示为A_forecasted(n_t+i),i＝1,2,…,n_f。可通过上式得到

A_forecast(n_t+1)＝Forecast(A(n_t),A(n_t-1),A(n_t-2)),

A_forecast(n_t+2)＝Forecast(A(n_t+1),A(n_t),A(n_t-1)),

A_forecast(n_t+n_f)＝Forecast(A(n_t+n_f-1),A(n_t+n_f-2),A(n_t+n_f-3)),

预测出的结果还是为信息粒，包含了所预测的下一阶段数据的变化范围、变化趋势以及离散程度。

在计算预测精度评价指标时，为方便计算，本发明取即认为数据落在直线上，将预测结果去糊化，得到预测值，再将预测值与真实数据进行比较计算预测精度评价指标。

由第t时刻的预测结果计算第t时刻预测值X_forecast(t)，X_forecast(t)的计算公式为：

步骤5：计算预测精度评价指标

为了对预测模型可行性做出评价，并使本发明的模型预测结果准确程度具有可对比性，本发明使用三种评价指标进行模型预测性能的度量，分别是：

(1)The root mean-square error(RMSE)

该评价指标使用的是欧式距离。RMSE的不足之处在于使用了平均误差，而平均值对异常点较敏感，是非鲁棒的。如果预测结果误差较大，会对RMSE的值有较大影响的。

(2)The mean absolute percentage error(MAPE)

为了弥补RMSE的不足，提高评价指标的鲁棒性，我们同时使用MAPE。虽然MAPE简单且有说服力，但是也有其不足：当使用MAPE来比较预测方法的准确性时，它有偏向于选择预测偏低的方法。

(3)The mean absolute error(MAE)

是绝对误差的平均值，能较好地反映预测值误差的实际情况。与平均误差相比，平均绝对误差由于误差被绝对值化，不会出现正负相抵消的情况。

其中，n_f是被预测信息粒的个数，X_forecast(t)和X_actual(t)分别是接下来第t时刻的预测值和真实值。

在对本发明的模糊预测模型和对比组方法进行预测结果评价时，RMSE，MAPE，MAE的值越小，说明模型的预测性能越好，信息粒度的划分更合理，信息粒的构造方式更能反映数据的特征。

下面通过实验验证本发明实施例提出的基于带状时变模糊信息粒的时间序列长期预测方法的合理性和有效性。

(1)实验验证

本发明实施例采用如图4组数据，使用本发明提出的预测方法、采用第二种距离计算方式的预测方法、采用定长带状时变模糊信息粒的模糊预测方法、采用定长区间信息粒的模糊预测方法、采用定长三角信息粒的模糊预测方法、采用定长梯形信息粒的模糊预测方法、采用不定长区间信息粒的模糊预测方法、AR(3)、MA(3)、NAR(3)和Linear-SVR(3)这个11种预测方法进行预测，并计算RMSE、MAPE、MAE三个评价指标，可以得出，本发明提出的预测方法的预测效果三个指标均为最小，即达到最佳预测效果。

(2)股票预测

通过本发明提出的预测方法，对下一个大的股票信息数据进行预测。如图8所示，为一个季度30分钟级k线分笔情况，可以看到构造信息粒数量较少，不足以支撑预测机充分进行规则构建，因此本实施例选用分钟级k线进行作为原始数据信息。

由于股票数据量巨大，且随着时间的延伸无止境的增加，若直接对其进行预测，将导致模糊预测规则数无穷多。因此，根据股票数据的实际情况，本实施例考虑对预测机规定滑动时间窗口长度R_limit。实际操作中，R_limit根据使用者所能接受到的最大时延和计算机的运算速度确定，此处本发明设定R_limit为1000。

本实施例选用2016年第三季度(7月1日——9月30日)数据进行实验，以数据分钟级别k线图进行分笔处理，共得到1081笔(如图9所示)，即构建1081个带状时变模糊信息粒。本实施例使用前1000个信息粒作为训练集，后81个信息粒作为预测集。

预测机时间窗口为1000，意味着每次预测时预测规则都是由之前1000个信息粒形成的。为降低随机因素的影响，实验重复81次计算指标。得到RMSE＝5.2271，MAPE＝0.16725，MAE＝5.018104，预测效果较为理想。

可见，本发明提出的预测方法在股票市场的应用取得了较为理想的效果，能够较为准确的描述未来某个时间段的股票价格涨跌趋势及幅度，能够给投资者提供较为明确的预测信息。同时，通过RMSE、MAPE、MAE的大小，关于信息粒距离计算方法是合理的。

本发明将日本蜡烛图理论引入时间序列的表示，将原始序列转变为便于提取主要信息的模糊时间序列，再利用分笔的思想，将模糊后的时间序列划分为包含趋势特征的不等长数据集。由此，原始的存在大量噪声的繁复数据便被分隔为时间顺序相关的存在趋势连续性的不定长集合。同时，本发明提出了一种新型的与时间呈线性相关的、表示形式为区间范围的、能够进行自身检验的带状时变模糊信息粒，此种信息粒明确了数据的变化趋势、波动范围和离散程度。基于这样的带状时变模糊信息颗粒，原始时间序列进一步被转化为语义信息丰富且易于操作的颗粒时间序列。然后，在此基础上，构造一个基于规则的加入滑动时间窗口限制的模糊预测模型进行粒度层次上的预测，并将预测结果去模糊化，与真实数据进行对比，使用RMSE、MAPE、MAE指标对预测结果进行评价。最后，在包括真实股票信息在内5个时间序列上进行自身和其他预测模型(AR、MA、NAR、SVR模型)的对比实验，本发明提出的基于带状时变模糊信息粒的模糊预测模型，具有更好的预测性能。随着预测精度的提高，本发明提出的预测方法对于时间序列的描述能力和丰富的语义信息也是重要的优势。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，包括以下步骤：

划分目标时间序列，得到若干笔数据集；

2.根据权利要求1所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述划分目标时间序列的步骤包括：

对得到的模糊时间序列进行分笔处理，得到若干笔数据集。

3.根据权利要求2所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述对K线间的包含关系进行处理的步骤包括：

4.根据权利要求2所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述判断K线间顶底分型的方法为：

5.根据权利要求1所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述带状时变模糊信息粒的构造方法为：

X_t＝kt+b+∈

其中，∈～N(0,σ²)，求解得到参数k、b和σ；

6.根据权利要求1所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述模糊逻辑规则的建立方法为：

利用训练集中n_t个带状时变模糊信息粒建立模糊逻辑规则。

7.根据权利要求1所述的基于带状时变模糊信息粒的时间序列长期预测方法，其特征是，所述三阶模糊逻辑关系为：

A_t-2,A_t-1,A_t→A_t+1

8.根据权利要求1所述的基于带状时变模糊信息粒的时间序列预测方法，其特征是，所述基于模糊逻辑规则和三阶模糊逻辑关系构建模糊预测模型的方法包括：

设定滑动时间窗口，将其作为最大规则条数R_limit；

当前输入带状时变模糊信息粒个数为N，当第N+1个带状时变模糊信息粒输入时，若N-1≤R_limit，增加新的模糊逻辑规则；若N-1>R_limit，则增加新的模糊逻辑规则并删除掉前N-1-R_limit条模糊逻辑规则；

9.根据权利要求1所述的基于带状时变模糊信息粒的时间序列预测方法，其特征是，所述对预测结果进行去模糊化处理的步骤包括：

根据第t时刻的预测结果A_forecasted(n_t+),t＝1,2,…,n_f计算所对应的带状时变模糊信息粒的参数

利用带状时变模糊信息粒的参数计算第t时刻的预测值X_forecast(t)，t＝1,2,…,n_f。

10.根据权利要求1所述的基于带状时变模糊信息粒的时间序列预测方法，其特征是，所述预测评价指标包括RMSE、MAPE和MAE；

RMSE的计算公式为：

MAPE的计算公式为：

MAE的计算公式为：

若RMSE、MAPE、MAE的值越小，则表明预测结果越准确。