CN108875842A

CN108875842A - 一种金融时间序列预测方法、服务器及装置

Info

Publication number: CN108875842A
Application number: CN201810696113.8A
Authority: CN
Inventors: 骆超; 姜志朋
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-23

Abstract

本发明公开了一种金融时间序列预测方法、服务器及装置。其中，金融时间序列预测方法包括：将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型；将金融时间序列输入至所述金融时间序列预测模型并输出预测结果。其提高了金融时间序列预测的准确性。

Description

一种金融时间序列预测方法、服务器及装置

技术领域

本发明属于金融时间序列数据处理领域，尤其涉及一种金融时间序列预测方法、服务器及装置。

背景技术

金融时间序列是属于时间序列数据的一种，具有很强的时间性，数据前后具有很强的依赖性，且无法调整顺序，一般都是二维数据。随着计算机科学技术的发展，一些基于数据挖掘和机器学习的方法，如神经网络、支持向量机等也被广泛的应用到金融衍生品市场中，相比较于传统的技术分析方法，机器学习算法的大数据处理能力则更能发挥技术分析的优势，使多种技术指标作为特征，通过机器学习算法进行特征筛选，预测金融衍生品的市场价格趋势。

K线用于记录市场股价波动，因为它表示价格趋势直观、真实。已经成为使用最广泛的金融衍生品价格的分析方法。K线又称为阴阳线。由最高价、最低价、开盘价和收盘价组成。收盘价大于开盘价的K线称为阳线，反之称为阴线。特征K线是指在具有相同特征的单根、两根或多根K线的组合形态，其出现往往会反应后续金融价格走势的某种特定规律。比如倒锤子线可能预示熊市的逆转，与之相似的上吊线形态则可能预示着牛市的逆转。

特征筛选是从原始特征中选择出一些具有特征以降低数据集维度的过程。特征选择在机器学习领域中扮演着极其重要的角色。一方面，在样本有限的情况下，用大量特征来设计分类器无论是从计算开销还是从分类器性能来看都不合时宜。另一方面，特征和分类器性能之间并不存在线性关系，当特征数量超过一定限度时，会导致分类器性能变坏。

因此，进行正确有效的特征选择成为机器学习中必须要解决的问题，在海量数据条件下尤为重要。目前特征选择的搜索策略和评价准则多种多样。常用的特征选择搜索策略有：随机搜索策略、启发式搜索策略等，常用的评价准则有：概率距离和相关测量法、类内和类间测量距离法、信息熵等。由于金融衍生品市场数据的高噪音和高冗余性，这些搜索策略不能有效对金融衍生品市场的进行特征选择，进而影响了金融时间序列预测的准确性。

发明内容

为了解决现有技术的不足，本发明的第一目的是提供一种金融时间序列预测方法，其能够减小原训练集中的噪声和冗余性，提高金融时间序列预测的准确性。

本发明的一种金融时间序列预测方法，包括：

将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型；

将金融时间序列输入至所述金融时间序列预测模型并输出预测结果；

其中，金融时间序列分类器的筛选过程为：

对金融时间序列进行特征K线处理，筛选出所有具有预设特征的K线形态的数据集合；

采用SVM分类器对所述数据集合进行分类建模，依据建模后的训练集中分类间隔边界将训练数据集中的数据分成三类，分别为：在间隔边界上的支持向量、在间隔边界内的支持向量和在间隔边界外的支持向量；

选择性地去除训练集中任意一类或两类数据，且保持测试集不变，重新构建出六个分类模型，并从这六个分类模型中筛选出精确度最高的分类模型作为最优分类器。

进一步的，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

将互相搭配使用的金融时间序列特征分为一组，其余的每类金融时间序列特征为一组，形成特征组群；

根据特征组群之间的衍生关系，将特征组群划分层级关系，按照层次筛选相应金融时间序列特征。

本发明的金融时间序列的特征子集采用分级-分组算法获取，相较于传统的随机获得特征子集的方法，减小了搜索范围，提高了模型精度。

进一步的，选择性地去除训练集中任意一类或两类数据的操作包括：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

训练数据经过训练得到模型后可以分为两部分，一部分是支持向量，形成最终的分类预测模型，另一部分样本点则不对模型起作用。支持向量又分为两类，一类是在边界上的支持向量，另一类是不在边界上的支持向量，这两类支持向量是由SVM的结构风险最小化决定的。本发明通过上述六种操作，得到六种训练集，在原测试集不变的情况下，得到六个分类模型，从这六个分类模型筛选出最高精度的分类模型，最终提高了融时间序列预测模型的精度。

进一步的，所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

需要说明的是，除了上述特征之外，K线形态也可以为其他特征形态。

本发明的第二目的是提供一种金融时间序列预测服务器。

本发明的一种金融时间序列预测服务器，包括：

金融时间序列预测模型构建模块，其被配置为：将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型；

金融时间序列预测模块，其被配置为：将金融时间序列输入至所述金融时间序列预测模型并输出预测结果；

在所述金融时间序列预测模块中，金融时间序列分类器的筛选过程为：

进一步的，在所述金融时间序列预测模块中，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

进一步的，在所述金融时间序列预测模块中，选择性地去除训练集中任意一类或两类数据的操作包括：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

进一步的，在所述金融时间序列预测模块中，所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

本发明的第三目的是提供一种金融时间序列预测装置。

本发明的一种金融时间序列预测装置，包括上述所述的金融时间序列预测服务器。

与现有技术相比，本发明的有益效果是：

(1)本发明针对金融时间序列的数据分布不均衡、高噪声情况，选择性地去除训练集中任意一类或两类数据，且保持测试集不变，重新构建出六个分类模型，并从这六个分类模型中筛选出精确度最高的分类模型作为最优分类器，重造训练集支持向量机，减小了原训练集中的噪声和冗余性，提高了融时间序列预测模型的精度。

(2)本发明依据特征指标之间派生与被派生，互相合作的关系，金融时间序列的特征子集采用分级-分组算法获取，相较于传统的随机获得特征子集的方法，减小了搜索范围，提高了模型精度。

(3)本发明将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型，这样使得三个种群每次对模型精准度提高的和做比，映射到轮盘上，三者占据轮盘的面积不同，转动指针，随机指向被将要被改变的子种群。这样可以更加有效的提升模型精准度，对模型精准度贡献大的个体将被改变更多次，而且对模型精准度贡献小的子种群也有机会被改变。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的一种金融时间序列预测方法流程图。

图2是金融时间序列分类器的筛选过程示意图。

图3是采用分级-分组算法金融时间序列的特征子集获取过程示意图。

图4是经过SVM训练后原训练集样本分布图。

图5是特征指标基于分级-分组法的分布图。

图6表示5种不同去燥方式获得的分类准确率的均值和中位数。

图7是本发明的一种金融时间序列预测服务器结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

图1是本发明的一种金融时间序列预测方法流程图。

如图1所示，本发明的一种金融时间序列预测方法，包括：

步骤1：将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型。

如图2所示，金融时间序列分类器的筛选过程为：

具体地，给定训练集样本，SVM通过寻找超平面划分数据，超平面如下所示：w^Tx+b＝0；

其中w＝(w₁；w₂；...；w_d)为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。样本空间中任意点到超平面(w，b)的距离Υ可以写为：

假设超平面能将训练样本正确分类。则两个异类支持向量到超平面的距离之和为：

欲寻找最大间隔，既满足如下约束条件：

s.t.y_i(w^Tx_i+b)≥1,i＝1,2,...,m.

这也是支持向量机的基本模型。

基本模型假设训练样本在样本空间或特征空间中是线性可分的，即存在一个超平面将不同类别的样本完全划分开。然而，在现实任务中往往很难找到合适的核函数将训练样本在特征空间中线性可分。缓解问题的一个办法是允许支持向量机在一些样本上出错。

为此，依据建模后的训练集中分类间隔边界将训练数据集中的数据分成三类，分别为：在间隔边界上的支持向量、在间隔边界内的支持向量和在间隔边界外的支持向量。因此，对应给出软间隔支持方式的向量机如下所示：

s.t.y_i(w^Tx_i+b)≥1-ξ_i

ξ_i≥0，i＝1，2，...，m.

C是正则化常数，ξ表示松弛变量。

之前的基本支持向量机要求所有样本均满足约束，那称为“硬间隔”。而软间隔则允许某些样本不满足约束：

y_i(w^Tx_i+b)≥1.

当然，在最大化间隔的同时，不满足约束的样本应该尽量的少。

对“软间隔”支持向量机通过拉格朗日乘子法可得到拉格朗日函数：

其中α_i≥0，μ_i≥0是拉格朗日乘子。

令L(w,b,α，ξ，μ)对w，b，ξ_i的偏导为0可得：

C＝α_i+μ_i.

再得到其对偶问题：

s.t.

0≤α_i≤C,i＝1，2，...，m.

KKT(库恩塔克条件)条件要求：

α_i≥0,μ_i≥0,

y_if(x_i)-1+ξ_i≥0,

α_i(y_if(x_i)-1+ξ_i)＝0,

ξ_i≥0,μ_iξ_i＝0.

其解决了支持向量机的一些问题，在噪声较小时，分类准确率高，泛化性能优异。但当噪声很大时，模型分类性能急剧下降。原因可能是大量的噪声被当成了支持向量。而支持向量机的分类表现仅由最后的多个支持向量决定，如果这些支持向量中含有大量噪声，则分类性能会急剧下降。因此本发明提出一种新的支持向量机-重造训练集支持向量机。根据KKT条件可以得出，在“软间隔”支持向量机中，对任意训练样本(x_i，y_i)，总有α_i＝0或y_if(x_i)＝1－ξ_i。若α_i＝0，则该样本不会对f(x)有任何影响；若α_i≥0，则必有y_if(x_i)＝1－ξ_i，即该样本是支持向量；若α_i≤C，则μ_i≥0，进而有ξ_i＝0，即该样本恰在最大间隔边界上；若α_i＝C,则有μ_i＝0，此时若ξ_i≤1则该样本落在最大间隔内部，若ξ_i≥1，则该样本被错误分类。

依据建模后的训练集中分类间隔边界将训练数据集中的数据分成三类，分别为：在间隔边界上的支持向量、在间隔边界内的支持向量和在间隔边界外的支持向量，这样对训练样本有了更丰富的分类，如图4所示，有在最大间隔处的支持向量；在间隔与超平面之间的支持向量；还有在最大间隔外部的支持向量，这些样本点不参与支持向量机的组建。因为金融衍生品市场噪音大，没有现成的方法可以去噪音或者知道噪音的分布。

重造训练集正是基于这种思想提出的，依据建模后的训练集中分类间隔边界将训练数据集中的数据分成三类，分别为：在间隔边界上的支持向量、在间隔边界内的支持向量和在间隔边界外的支持向量之后，在原训练集中依次去除或者保留其中的一种数据，形成新的训练集，再建模获得分类精度。

如果某一种数据的噪音特别大，它不利于建模，去除之后，可能获得更高的分类精度。特别是对金融衍生品市场这种噪音高的训练集，鉴于支持向量机的组建只和最终的支持向量有关，如果支持向量中含有大量的噪声，则模型会变坏。而且，核函数的数量和性能都是有限的，面对金融衍生品市场的高噪音性，必然会有大量的支持向量，而且在间隔内部的支持向量分布杂乱，可能去除一部分训练集中的数据会带来更好的分类模型。

例如，金融衍生品市场的数据是不均衡分布的，这是除了高噪音之外，影响支持向量机分类建模的另一个原因。如果很多不重要的数据交织在一起，与其花费更多的维度去寻找分类超平面，将两类数据分开，不如直接删除这一部分数据，这极大的提高了模型的泛化性能。可能原支持向量机可以使数据正确划分，但相比较于泛化性能对提高未来数据的预测性能，这些数据的帮助是反面的。

相比较于高噪音和分布不均衡的数据，在最大分类间隔外的数据可能更有益于分类模型的建立，虽然这些样本不参与建模。SVM尽可能的将数据分开，必然会将难以区分的数据映射到极高的维度上，这种映射在训练集上获得了很好的分类性能，但在测试集上却可能不能获得好的分类结果。可能因为照顾少量难以区分的数据，使模型泛化性能大量降低。而正是没有参与组建SVM的训练集样本，更容易区分，如果舍掉原来组建SVM的数据，而使用更容易分类的数据，则可能获得更好的分类模型，这样可以防止过拟合的出现，同时提高模型的泛化性能。基于以上原因，本发明提出重造训练集支持向量机。

如图4所示，在边界上的支持向量有6-11。不在边界上的支持向量有1-5，每个向量有相应的惩罚度。标号3的支持向量几乎位于超平面上，其惩罚度是ξ3/||w||。而1、2、4、5支持向量则被分错，其惩罚度依次是ξ1/||w|，|ξ2/||w|，|ξ4/||w||，ξ5/||w||这是“软间隔”SVM处理非线性可分问题时防止过拟合不可避免的问题，而且在噪音不是很大的数据集上，支持向量是很少的。但是，例如在处理金融时间序列时，由于噪声太高，支持向量很多且含有大量的噪声，而SVM的分类性能仅由最后的支持向量集合决定，模型的分类精度会偏低。为了解决这个问题，本发明想到一个新的方式，在原训练集中依据分类间隔边界，选择性去除原训练集中的一些样本点，形成新的训练集，测试集不变。

训练数据经过训练得到模型后可以分为两部分，一部分是支持向量，形成最终的分类预测模型，另一部分样本点则不对模型起作用。支持向量又分为两类，一类是在边界上的支持向量，另一类是不在边界上的支持向量，这两类支持向量是由SVM的结构风险最小化决定的。

对照原实验，本发明提出六组对比试验，去除数据中有噪声的部分。在金融衍生品市场中，于原训练集上分别进行以下操作：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

本发明通过上述六种操作，得到六种训练集，在原测试集不变的情况下，得到六个分类模型，从这六个分类模型筛选出最高精度的分类模型，最终提高了融时间序列预测模型的精度。

如图3所示，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

例如：

若A层中的部分特征组群衍生出B层中的部分特征组群。即B*1，B*2……B*n由A*1，A*2……A*n衍生出来，则只有A*1，A*2……A*n被选在特征子集时，B*1，B*2……B*n中任意几个特征指标才以固定概率被选中逐层递推，直到结束。

特征选择是特征工程的一个重要方面，除穷举法之外，没有其他方式可以找到最优的特征子集。在使用特征K线分析金融衍生品市场时，最高价、最低价、开盘价、收盘价和交易可以视为第一层，本发明使用的其他指标可以视为第二级，第二级中有的指标只是一个特征指标的变体，比如：

DMA\AMA,MA5\MA10,UPLINE\MIDDLELINE\LOWERLINE,DIF\DEA,MACD,RTSI,PSY，只是闭盘价close的一个变体。

DMA指标(Different of Moving Average)又叫平行线差指标，是目前股市分析技术指标中的一种中短期指标，它常用于大盘指数和个股的研判。

佩里·考夫曼的自适应移动平均线(AMA)是一个经典的技术指标。5日均线顾名思义就是5天股票收盘价格或收盘指数的平均值，对应的是股价的5日均线(5MA)和指数的5日均线(5MA)。10日均线就是10天股票收盘价格或收盘指数的平均值，对应的是股价的10日均线(10MA)和指数的510均线(10MA)。

UPLINE\MIDDLELINE\LOWERLINE:高线\中线\低线。

DIFF线(Difference)。

DEA线(Difference Exponential Average)。

DIFF线的M日指数平滑移动平均线。

MACD称为指数平滑移动平均线。

RTSI称为相对强弱指标。

PSY为心理线。

如果闭盘价不能对模型的精确度做出贡献，则依据闭盘价演变出的特征指标也将和close一起被筛除。

如图5所示，若close指标被选中，则仅由close演变而来的的特征指标均有相同的概率被选中。特征指标CCI,J\KD J不仅与close指标有关，还与high，Lower特征指标有关，则若HIGH,LOWER都已经被选中，CCI,J\K D J指标才有机会被选中。可以表示为：若A单独或与其他特征指标衍生出B，若A未被选入特征子集，则B不会被选入特征子集。若某个基础指标被筛除，则认为其变体可能对整个模型的贡献也不会有好的表现。其次是有些指标是一起计算，共同使用的，比如KDJ这类常用的技术指标一般在金融衍生品市场中是搭配使用的，所有这些相关联的特征指标成组的被筛除或者选入特征子集。基于金融衍生品市场分层和分级的特点，本发明使用分级-分层算法筛选特征子集。

本发明以最多使用21个特征指标为例：在图5中成组显示。

计算随机获取特征子集和使用本发明提出的分级-分组算法的特征子集数量

随机取特征子集：

S1＝2^21＝2097152

分级-分组算法获取特征子集：

1特征分组之后，共有13组

2.分层之后可以依据图5分成3部分，只含有①中特征子集数量最大取值y1，含有①和②的特征子集数量最大取值为y2，含有①②③的特征子集数量最大取值为y3。分级-分组算法获得特征子集数量最大取值为S2。

S2＝y1+y2+y3

＝2^5-1+2^4*(2^6-1)+2^2*2^6(2^2-1)

＝1807

本发明提出的特征子集筛选方法的子集数量S2比传统的随机法筛选子集数量S1在很大程度上缩减了。本发明的金融时间序列的特征子集采用分级-分组算法获取，相较于传统的随机获得特征子集的方法，减小了搜索范围，提高了模型精度。

所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

在金融衍生品市场中，常见的一种寻找买卖点的方式是寻找特征K线，再依靠投资者的主观判断，选择买卖点。这是因为相比较于其他金融时间序列上的点，位于特征K线后的时间序列更具有规律性。本发明采用的去噪方式是从大量的金融衍生品市场中筛选某种特征K线的数据以及出现这种特征K线前N天的数据作为数据集。使用30种特征K线进行多次建模，包括在下跌趋势中看涨的15种特征K线：倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线、战后修整形态。在上涨趋势中看跌的15种特征K线：上吊线、执带线、吞没形态、孕线形态、十字孕线、流星线、乌云盖顶形态、十字星线、俯冲之鹰形态、一只黑乌鸦、三内降、三外降、挤压报警形态、插入线、向下跳空并列阴阳线。以上30种特征K线有单日反转形态，两日反转形态和多日反转形态。

特征K线化数据：输入的金融时间序列数据，可以分为三类，第一类是五天连续下跌的K线数据，第二类是五天连续上涨的K线数据，第三类是五天的K线数据有涨有跌。本发明中，删除第三类数据，保留第一二类数据。再从剩余两类数据中各找出15种特征K线形态的数据，本发明使用的30种特征K线都是反转形态，比如倒锤子线形态，是一种单日反转看涨的形态，出现倒锤子线时，一般后续的价格走势会由跌转涨。筛选出某一种特征K线的数据之后，进入到再造支持向量机部分。

合作协同演化算法将复杂问题拆分成多个小问题进行解决，每个独立的子种群代表一个小问题的可行解集合，这里的每个可行解都是子种群的一个个体。问题的完整解由各个子种群的个体组合完成。子种群中的个体相对独立的进行选择交叉和变异操作，只在评价适应度时与别的子种群发生联系，个体的适应度表现为与其它各个子种群中的个体的合作能力。在本发明的整个模型中共含有三个种群：特征子集，书记时间窗口长度，优化算法。分别为子种群①②③。①②共同决定了训练集的数量和质量，③影响了参数优化速度和最终模型的精准度。分别从①②③中随机取出一个个体，则可以组成一个完整的分类预测模型。传统的合作协同演化算法是每次只改变一个种群，改变次数均等，直到达到最大循环次数结束。但每个子种群对整个模型的影响是不同的，有些子种群对模型的贡献少，而有些子种群对模型的贡献大。本发明使用轮盘赌算法改进CCEA，使三个子种群每次对模型精准度提高的和做比，映射到轮盘上，三者占据轮盘的面积不同，转动指针，随机指向被将要被改变的子种群。这样可以更加有效的提升模型精准度，对模型精准度贡献大的个体将被改变更多次，而且对模型精准度贡献小的子种群也有机会被改变。

步骤2：将金融时间序列输入至所述金融时间序列预测模型并输出预测结果。

实验验证：

数据来源：数据取自3612只沪深股票，涵盖医疗，农业，金融等多个领域。时间跨度为1999年到2018年。这些数据来自wind和其他公共渠道。

实验分为三大组组进行，实验一，二，三。实验一和实验二的特征子集取最高价、最低价、开盘价和收盘价，时间窗口长度为1，SVM寻优算法是网格搜索。实验三通过合作协同演化算法对特征子集，时间窗口长度，SVM优化算法进行寻优。

实验一：数据去燥。

比较随机日K线数据，连续上涨的日K线数据、连续下跌的日K线数据，反转看涨的日K线数据和反转看跌的日K线数据这五种取数据的方式对模型分类精度的影响。

对以上五种取数据具体划分编号：1对应随机日K线数据。2.1对应前5日连续上涨的日K线数据。2.2对应前五日连续下跌的日K线数据。3.1-3.15对应15种不同的反转看涨的特征K线数据，这15种特征K线依次是倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、线挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线、战后修整形态，这些特征K线视为同一类型。3.16-3.30对应15种反转看跌的特征K线数据，这15种特征K线依次是上吊线、执带线、吞没形态、孕线形态、十字孕线、流星线、乌云盖顶形态、十字星线、俯冲之鹰形态、一只黑乌鸦、三内降、三外降、挤压报警形态、插入线、向下跳空并列阴阳线，这些特征K线视为同一类型。

从以上每个大数据集中分30次随机获取300个日K线数据作为数据集，数据集前200个数据为训练集，后100个数据为测试集，根据经典SVM建模预测；从以上每个大数据集中分30次随机获取700个日K线数据作为数据集，前600个数据为训练集，后100个数据为测试集，根据经典SVM建模预测。表1只表示使用无序数据，连续上涨的日K线数据、连续下跌的日K线数据和1种反转看涨特征K线和1种反转看跌的特征K线时，分30次获得的分类精度以及其30次取值的均值和中位数数据，其余特征K线数据见表1。

图6表示5种不同去燥方式获得的分类准确率的均值和中位数，其中无序数据，连续上涨的日K线数据、连续下跌的日K线数据是取30次建模预测的均值和中位数，特征K线部分是对每类特征K线取得均值和中位数数值之后，再求相同类型特征K线均值的均值和中位数的中位数。由图6得出两种有序数据相比无序数据，获得更高的分类精度，而两种类型的特征K线获取数据的方式比仅仅是连续有序的数据，获得更高的分类精度。所以在之后实验中，皆取特征K线的方式获取数据集。

表1五种去噪方式在两种数据集上30次获得的分类精度和30次精度均值及中位数

实验二：比较本发明重造的支持向量机与经典SVM的分类性能

在原训练集上根据训练样本所在的位置选择性去除一部分训练样本。经过SVM训练之后，训练集样本在高维空间中根据分类间隔大致划分为三类：在边界上的支持向量，不在边界上的支持向量和边界外的训练样本点。以上三类样本有六种取舍方式，对应建立留6个本发明得到的分类模型，其中标号分别为RTS.1，RTS.2，RTS.3，RTS.4，RTS.5，RTS.6。RTS.1去除所有的支持向量。RTS.2仅去除不在边界上的支持向量。RTS.3仅去除在边界上的支持向量。RTS.4仅保留所有支持向量。RTS.5仅保留不在边界上的支持向量RTS.6仅保留在边界上的支持向量。测试集与经典SVM的测试集相同。

本发明从多种K线，不同大小数据集两个方面，验证RTS-SVM比经典的SVM有更好的分类性能。1-15对应15种不同的反转看涨的特征K线数据，这15种特征K线依次是倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、线挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线、战后修整形态，这些特征K线视为同一类型。16-30对应15种反转看跌的特征K线数据，这15种特征K线依次是上吊线、执带线、吞没形态、孕线形态、十字孕线、流星线、乌云盖顶形态、十字星线、俯冲之鹰形态、一只黑乌鸦、三内降、三外降、挤压报警形态、插入线、向下跳空并列阴阳线。

原经典SVM模型和本发明得到的6个分类模型基于30种特征K线，5个不同大小数据集的实验数据见附表2，下表表2只截取了6种特征K线在300个训练集上获得的数据。从表2可以看出，RTS.1普遍获得最高的分类精度。无论是从平均分类准确率还是准确率的中位数可以看出，选择去除所有的支持向量是最优的建模方式。

表2原经典SVM模型和6个本发明的分类模型对应6种特征K线在300个测试集上获得的分类精度

实验三：选择实验二的RTS.1作为本实验的分类器。

之前的实验一和实验二中，使用的是固定的特征子集，时间窗口长度和优化算法。本发明将结合合作协同演化算法寻优特征子集、时间窗口长度和优化算法，建立预测模型。特征子集从以下21个特征中获得：DIF，DEA，MACD，DMA，AMA，PSY，CLOSE，D，RTSI，HIGH，OPEN，MA5，MA10，VOLUME，K，LOW，UPPERLINE，MIDDLELINE，LOWLINE，CCI,J，j，分别用1,2…..21表示。

CCI(Commodity Channel Index),顺势指标又叫CCI指标，CCI指标是美国股市技术分析家唐纳德·蓝伯特(Donald Lambert)于20世纪80年代提出的，专门测量股价、外汇或者贵金属交易是否已超出常态分布范围。属于超买超卖类指标中较特殊的一种。

KDJ Index,KDJ指标又叫随机指标，是一种相当新颖、实用的技术分析指标，它起先用于期货市场的分析，后被广泛用于股市的中短期趋势分析，是期货和股票市场上最常用的技术分析工具。

OPEN:开盘价。

CLOSE：闭盘价。

HIGH：最高价。

LOW:最低价。

时间窗口是取预测日前N天的数据为数据集，N的取值是1-5。优化算法随机从网格搜索，GA遗传算法，粒子群算法中选择，标号1,2,3。传统的特征选择通常是随机的，而本发明则使用新的筛选特征。相较于传统的合作协同演化算法，本发明不再依次改变种群的取值，而是根据轮盘赌算法随机选择优化的种群，初始时，三个种群被选中的概率相等，之后根据每个种群对模型精度的改变而变化其被选中的概率，建立金融时间预测分类模型。

表3为轮盘赌算法达到最大遗传代数时，三个种群的取值；表4-表6分别为300和700两种不同大小数据集，对应5种取数据集的方式，获得的分类准确率和准确率的中位数。

表3达到最大遗传代数时，三个种群的取值

表4 300和700两种不同大小数据集

表5数据集对应5种取数据集的方式

表6获得的分类准确率和准确率的中位数

本发明针对金融时间序列的数据分布不均衡、高噪声情况，选择性地去除训练集中任意一类或两类数据，且保持测试集不变，重新构建出六个分类模型，并从这六个分类模型中筛选出精确度最高的分类模型作为最优分类器，重造训练集支持向量机，减小了原训练集中的噪声和冗余性，提高了融时间序列预测模型的精度。

本发明依据特征指标之间派生与被派生，互相合作的关系，金融时间序列的特征子集采用分级-分组算法获取，相较于传统的随机获得特征子集的方法，减小了搜索范围，提高了模型精度。

本发明将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型，这样使得三个种群每次对模型精准度提高的和做比，映射到轮盘上，三者占据轮盘的面积不同，转动指针，随机指向被将要被改变的子种群。这样可以更加有效的提升模型精准度，对模型精准度贡献大的个体将被改变更多次，而且对模型精准度贡献小的子种群也有机会被改变。

图7是本发明的一种金融时间序列预测服务器结构示意图。

如图7所示，本发明的一种金融时间序列预测服务器，包括：

(1)金融时间序列预测模型构建模块，其被配置为：将金融时间序列的特征子集、金融时间序列的时间窗口和金融时间序列分类器作为轮盘赌合作协同演化算法的三个种群，通过寻找到三个种群的最优值，最终建立金融时间序列预测模型；

(2)金融时间序列预测模块，其被配置为：将金融时间序列输入至所述金融时间序列预测模型并输出预测结果；

在所述金融时间序列预测模块中，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

在所述金融时间序列预测模块中，选择性地去除训练集中任意一类或两类数据的操作包括：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

在所述金融时间序列预测模块中，所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

本发明的一种金融时间序列预测装置，包括如图7所示的金融时间序列预测服务器。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种金融时间序列预测方法，其特征在于，包括：

其中，金融时间序列分类器的筛选过程为：

2.如权利要求1所述的一种金融时间序列预测方法，其特征在于，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

3.如权利要求1所述的一种金融时间序列预测方法，其特征在于，选择性地去除训练集中任意一类或两类数据的操作包括：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

4.如权利要求1所述的一种金融时间序列预测方法，其特征在于，所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

5.一种金融时间序列预测服务器，其特征在于，包括：

6.如权利要求5所述的一种金融时间序列预测服务器，其特征在于，在所述金融时间序列预测模块中，金融时间序列的特征子集采用分级-分组算法获取，其具体过程为：

7.如权利要求5所述的一种金融时间序列预测服务器，其特征在于，在所述金融时间序列预测模块中，选择性地去除训练集中任意一类或两类数据的操作包括：

(1)去除所有的支持向量；

(2)仅去除在间隔边界上支持向量；

(3)仅去除不在间隔边界上的支持向量；

(4)仅保留所有支持向量；

(5)仅保留不在间隔边界上的支持向量；

(6)仅保留在间隔边界上的支持向量。

8.如权利要求5所述的一种金融时间序列预测服务器，其特征在于，在所述金融时间序列预测模块中，所述预设特征的K线形态为倒锤子线形态、锤子线执带线、吞没形态、孕线形态、刺透线、十字星线、信鸽形态、白色一兵线、三内升、三外升、挤压报警形态、三次向下跳空形态、向上跳空并列阴阳线或战后修整形态。

9.一种金融时间序列预测装置，其特征在于，包括如权利要求5-8中任一项所述的金融时间序列预测服务器。