CN110956541A

CN110956541A - 一种基于智能融合计算的股票走势分类预测方法

Info

Publication number: CN110956541A
Application number: CN201910797492.4A
Authority: CN
Inventors: 闫涛; 韩崇昭; 贾勇; 张恺桐; 杨纪元
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-04-03

Abstract

本发明公开了本发明对目标时间段内目标股票的完备数据集内的数据采用等距离离散化算法及一维K‑Means聚类离散化算法对数据集进行离散化预处理，之后进行技术指标的属性约简，采用朴素贝叶斯分类器和K‑近邻分类器，根据经过属性约简的完备数据集对目标股票下一个交易日的涨跌幅进行分类预测，使用D‑S证据组合规则对两种分类器得到的目标股票未来涨跌幅的分类预测结果进行决策融合，最后将决策融合结果作为目标股票未来涨跌幅的最终分类预测结果。本发明能够明显提高现有的基于神经网络、SVM等各种股票走势预测方法的预测准确率。将其用于构建多因子选股模型，能够使得各类股票指标数据与股票收益之间的非线性联系更有意义。

Description

一种基于智能融合计算的股票走势分类预测方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于智能融合计算的股票走势分类预测方法。

背景技术

传统的定性投资策略主要依赖于投资者对上市公司的股性做出判断，这往往会受到其专业能力的限制而使得判断出现错误。而且由于投资者精力有限，其能够研究的股票样本数量通常不足。量化投资与定性投资最大的区别在于其通过计算机实现对股票数据的分析，再辅以一定的数学模型，从而实现稳定盈利的策略。该策略不仅提高了数学模型的稳定性，还节省了大量的人力物力。而多因子选股模型为量化投资领域的一个重要的数学模型，它通过筛选一些对股票价格产生影响的因子，再构建模型以实现对股票价格的预测。从预测的角度来看，它可以分为两大类：一个是股票走势预测，称为分类；另一种是股票价格预测，称为回归。

1952年，美国著名经济学家Markowitz最早提出了度量资产收益和风险的方法，并通过均值-方差模型实现了资产优化配置，该方法开启了量化投资的新时代。Sharpe和Ross等人在此基础上，分别提出了著名的资本资产定价模型(CAPM)和套利定价模型(APT)，通过多个因子对资产收益进行解释，并实现了性能更优的股价走势预测。Fama-French分别于1993、2013 和2018年提出了三因子、五因子、六因子模型，通过市场组合、市值因子、账面市值比因子以及动量因子等对资产收益率进行解释，使得模型对股票走势的预测能力变得更强。Kumar等将遗传算法与SVM算法结合，通过构建出的复合模型实现了对股票未来价格预测精确度的大幅提升。Ballings等通过神经网络、LR以及SVM等单一算法构建随机森林、Adaboost等集合模型，通过对欧洲上市公司的数据进行分析，实现对股票价格趋势的预测。Patel等通过ANN、 SVM、随机森林和朴素贝叶斯四种算法实现对印度股票市场的预测，结果发现随机森林模型比其他三种模型预测更加精确。

在国内研究方面，殷鑫将因子打分模型应用在国内A股股票数据的回测分析中。林德发、杨潇宇在2014年对HS300指数成分股的基本面数据和技术面数据进行分析，构建了多因子选股模型，并使用优化的投资组合跑赢了HS300指数。苏治等构建了基于SVM模型和遗传算法的选股模型，并实现了对股票收益率的预测，实验结果表明该模型预测精度优于单一的SVM 模型。曹正凤等构建了基于随机森林算法的量化预测模型，研究表明该模型比SVM模型预测更为精确。此外，国内还有一批学者尝试对国外股票市场进行分析，Huang等采用SVM算法对NIKKEI 225指数的周线价格趋势进行预测，结果表明SVM的表现优于其他分类算法。Zuo 等通过贝叶斯网络实现对股票的价格预测，并将该算法结果与时间序列预测算法进行比较，结果表明贝叶斯网络预测准确率更高。Chong等应用深度学习网络算法等方法进行股票市场的分析及预测。

但是，上述所有股票走势预测方法均未能充分挖掘现有数据指标与股票未来走势之间的相关性，剔除冗余的数据指标，并根据对未来走势有重要影响的股票指数进行走势预测，从而进一步提高预测正确率。

发明内容

本发明的目的在于克服上述不足，提供一种基于智能融合计算的股票走势分类预测方法，通过将智能融合计算方法综合运用于对股票多项技术指标的数据处理之中，从而得到该股未来的价格走势预测结果。

为了达到上述目的，本发明包括以下步骤：

步骤一，输入给定时间段内目标股票的完备数据集；

步骤二，对该完备数据集内的数据，分别采用等距离离散化算法及一维K-Means聚类离散化算法进行离散化预处理；

步骤三，采用可辨识矩阵属性约简算法，对经过离散化预处理的完备数据集进行技术指标的属性约简；

步骤四，分别采用朴素贝叶斯分类器和K-近邻分类器，根据经过属性约简的完备数据集，对目标股票下一个交易日的涨跌幅进行分类预测；

步骤五：使用D-S证据组合规则，对两种分类器得到的目标股票未来涨跌幅的分类预测结果进行决策融合；

步骤六：将决策融合结果作为目标股票未来涨跌幅的最终分类预测结果返回并输出。

步骤二中，采用等距离离散化算法对完备数据集内的数据进行离散化预处理的具体方法如下：

步骤1.1：输入数据集，其对象个数为row，属性个数为colume，并初始化k＝1；

步骤1.2：判断k>colume是否满足，若满足则算法结束并输出离散化结果，否则转至步骤1.3；

步骤1.3：设定第k个属性的等距离离散化区间数n(k)，并对该属性下的所有数据进行排序，确定最大值max(k)和最小值min(k)；

步骤1.4：计算第k个属性的离散化区间个数(max(k)-min(k))/n(k)，并令i＝1；

步骤1.5：按照计算出的第k个属性的离散化区间个数，对该属性下的数据进行区间划分，并重新赋值，同时令i＝i+1；

步骤1.6：判断i>row是否满足，若满足则转至步骤1.7，否则转至步骤1.5；

步骤1.7：令k＝k+1，并转至步骤1.2。

步骤二中，采用一维K-Means聚类离散化算法对完备数据集内的数据进行离散化预处理的具体方法如下：

步骤2.1：输入数据集，其对象个数为row，属性个数为colume，并初始化k＝1；

步骤2.2：判断k>colume是否满足，若满足则算法结束并输出离散化结果，否则转至步骤2.3；

步骤2.3：设置第k个属性的类别数n(k)，并随机选取其中的n(k)个数据作为初始化聚类中心；

步骤2.4：根据D_i,n＝|x_i-x_n|计算聚类中心与其余数据之间的一维距离，并据此将其余各数据划分到与其距离最近的聚类中心所属的类别里；

步骤2.5：根据上一步的聚类结果重新计算各类别的聚类中心，即将各类内部所有数据的平均值作为该类新的聚类中心；

步骤2.6：根据所选取的聚类有效性函数判断是否满足聚类算法的循环停止条件，若满足则转至步骤2.7，否则转至步骤2.4；步骤2.7：令k＝k+1，并转至步骤2.2。

参见图3，步骤三的具体方法如下：

步骤3.1：输入决策表S＝(U,C∪D,{V_a},{I_a})，并设

U为论域；C为条件属性集；D为决策属性集；V_a是属性a的值域；I_a为信息函数I_a:U→V_a，其指定U中每一个对象x的属性值；

步骤3.2：计算可辨识矩阵M，建立可辨识矩阵

并删除其中的重复元素；

步骤3.3：依据核属性定义，计算核属性集C^*，并令约简R＝R∪C^*；

步骤3.4：依据

重新计算M^*；

步骤3.5：若满足

则继续步骤3.6；否则转至步骤3.7；

步骤3.6：对于

计算属性频率δ(a)＝|{m∈M^*|a∈m}|；

步骤3.7：从集合C-R中任意选取一个频率最大的条件属性，并将其加到约简集合R中，即

然后转至步骤3.4；

步骤3.8：对

假设

若

则将属性r从约简集合R中删除，即R＝R-{r}；

步骤3.9：输出属性约简结果R，算法结束。

步骤四中，朴素贝叶斯分类器分类过程的具体方法如下：

步骤4.1：设定样本具有N个属性，且属性的每个分量A₁,A₂,...,A_N分别用N维特征向量来表示，即X_i{x₁,x₂,...,x_n}；假设该样本共有m个类别，分别记为c₁,c₂,…,c_m；

步骤4.2：对于未知类别的待分类数据，分别计算后验概率p(c_j|X)，j＝1,2,...,m，当 p(c_i|X)＞p(c_j|X)，j＝1,2,...,m，i≠j时，将该样本归为c_i类，1≤i≤m，即求解

步骤4.3：由贝叶斯定理可知，其后验概率如下：

若类别的先验概率未知，即p(c_i)未知，假设c_i类别的概率都是相同的，即满足 p(c₁)＝p(c₂)＝…＝p(c_m)，则简化为求解p(X|c_i)；

若给定的c_i类数据X的似然概率为p(X|c_i)，则c_i是使p(X|c_i)最大的似然假设，类别c_i的先验概率为p(c₁)＝S_i/S，S_i表示c_i类别的训练集数量，S表示训练集样本总数；

步骤4.4：如果各属性满足独立性假设，则p(X|c_i)的计算公式如下：

步骤4.5：当属性A_n是离散属性时，训练集中属于类别c_i的数据对象共有P个；而训练集中属于类别c_i，且在属性A_n下的属性值为x_j的数据对象有Q个，则p(x_j|c_i)＝Q/P。

步骤四中，K-近邻分类器分类过程的具体方法如下：

步骤6.1：输入数据集，并选用合适的数据结构存储训练数据和测试元组；

步骤6.2：设定参数k，维护一个大小为k的按欧式距离由大到小排序的优先级队列，用于存储最近邻训练元组；

步骤6.3：随机从训练元组中选取k个元组作为初始的最近邻元组，分别计算测试元组到这k个元组的欧式距离，将训练元组标号和距离存入优先级队列；

步骤6.4：遍历训练元组集，计算当前训练元组与测试元组的欧式距离，将所得距离L 与优先级队列中的最大距离L_max进行比较；若L≥L_max，则舍弃该元组，遍历下一个元组；若 L<L_max，则删除优先级队列中距离最大的元组，并将当前训练元组存入优先级队列；

步骤6.5：遍历完毕，计算优先级队列中k个元组的多数类，并将其作为测试元组的类别；

步骤6.6：测试元组集测试完毕后计算误差率，继续设定不同的k值重新进行训练，最后取误差率最小的k值。

步骤五的具体方法如下：

步骤5.1：首先建立一个辨识框架Θ，并利用集合论的方法来研究命题；

步骤5.2：根据所有证据提供的信息，分配证据对于每个命题的支持度，并且该支持度不能再次细分给该命题的真子集；

步骤5.3：根据因果关系，计算所有命题的信任度；

步骤5.4：根据证据合成规则组合多条证据，得到命题融合后的新的信任度；

步骤5.5：依据组合后证据提供的信任度进行决策。

与现有技术相比，本发明对目标时间段内目标股票的完备数据集内的数据，分别采用等距离离散化算法及一维K-Means聚类离散化算法进行离散化预处理，之后进行技术指标的属性约简，并分别采用朴素贝叶斯分类器和K-近邻分类器，根据经过属性约简的完备数据集，对目标股票下一个交易日的涨跌幅进行分类预测，使用D-S证据组合规则对两种分类器得到的目标股票未来涨跌幅的分类预测结果进行决策融合，最后将决策融合结果作为目标股票未来涨跌幅的最终分类预测结果。本发明能够明显提高现有的基于神经网络、SVM等各种股票走势预测方法的预测准确率。将其用于构建多因子选股模型，能够使各类股票的数据指标(多因子) 与股票收益之间的非线性联系更有意义，从而可以使国内外股票投资者对股票未来走势的预测和分析过程变得更加智能化。

附图说明

图1为等距离离散化算法流程图；

图2为K-means聚类离散化算法流程图；

图3为基于可辨识矩阵的属性约简算法流程图；

图4为KNN算法流程图；

图5为实施例中股票数据标号为12号属性的等距离离散化直方图；

图6为实施例中标号为1的条件属性聚类离散化结果图；

图7为实施例中等距离离散化数据经朴素贝叶斯分类器分类后类别标号对比图；

图8为实施例中等距离离散化数据经朴素贝叶斯分类器分类后标号统计对比图；

图9为实施例中一维聚类离散化数据经朴素贝叶斯分类器分类后类别标号对比图；

图10为实施例中一维聚类离散化数据经朴素贝叶斯分类器分类后标号统计对比图；

图11为实施例中等距离离散化数据经K近邻分类器分类后实际标号对比图；

图12为实施例中等距离离散化数据经K近邻分类器分类后标号统计对比图；

图13为实施例中一维聚类离散化数据经K近邻分类器分类后实际标号对比图；

图14为实施例中一维聚类离散化数据经K近邻分类器分类后标号统计对比图；

图15为实施例中等距离离散化数据经证据融合分类后实际标号对比图；

图16为实施例中等距离离散化数据经证据融合分类后标号统计对比图；

图17为实施例中一维聚类离散化数据经证据融合分类后实际标号对比图；

图18为实施例中一维聚类离散化数据经证据融合分类后标号统计对比图。

具体实施方式

下面结合附图对本发明做进一步说明。

定义1知识表达系统可以用一个四元组S＝(U,A,V,f)表示。其中：U为论域；A为属性的非空有限集合；a:U→V_a，V_a是属性a的是一个值域；f:U×A→V是一个信息函数，即

x∈U,f(x,a)∈V_a。

定义2决策表可用一个二元有序组I＝(U,C∪D)表示,其中U为论域；C为条件属性集； D为决策属性集。一般用决策表来表示粗糙集的知识表达系统。

定义3系统S＝(U,A)中，对于

则B在U上的不可分辨关系为：

对于任意属性集

U上的IND(B)是一种等价关系。

定义4对于对象x∈U,

x关于B的等价类为：

[x]_B＝{y∈U|(x,y)∈IND(B)} (2)

式(2)表示由所有与x不可分辨的对象所组成的集合。

定义5不可分辨关系IND(B)把U划分为k个不相关的等价类，也称关于B的基本类，记为U/IND(B)＝{X₁,…,X_k}，表示关系IND(B)在U上的等价类簇，简记为U/B。

定义6对于论域U的任意子集

其相对于集合R的上近似集和下近似集分别记为

即当且仅当

时，

即当且仅当

时，

上近似集指并不完全确定能够归为某一类的数据集合；下近似集是指完全可以确定能够归到某一类的数据集合。由此可得正域、负域和边界域的定义如下：

定义7对于属性集合

其相对于D的正区域、负区域以及边界域定义如下：

正区域：

负区域：

边界域：

其中，POS_R(D)表示能够完全确定划分到某一个基于决策属性的划分区域中的所有区域集合；NEG_R(D)表示的是基于R的划分区域完全不属于某一个基于决策属性的划分区域的区域集合；BND_R(D)表示的是论域上的不确定区域。

定义8设R和X为论域U上的等价关系簇，其中a∈R。如果POS_R(X)≠POS_R-a(X),则称a对于R中X是必要的，否则，称a对于R中X是不必要的。

定义9设S＝(U,A,V,f)为一个决策表，R是条件属性的一个非空约简子集。若满足以下条件：

①POS_R(D)≠POS_R-{a}(D),a∈R，即对

R中每个a都是必要的；

②POS_R(D)＝POS_C(D)；

则称R是D的相对约简。

R中所有与决策属性D必要的等价关系所构成的集合称为相对约简集合R的核，表示为 CORE_D(R)。全部约简集合的交集定义为R的核(Core)，即CORE(R)＝∩red(R)，其中red(R) 为R的所有约简集合。核集合作为知识约简时不能约简的部分特征集合，其包含在所有约简结果之中，因此可以作为属性约简时的计算基础。

定义10决策表也可称为一个决策信息系统，其表示为一个四元组：

S＝(U,A＝C∪D,{V_a|a∈A},{I_a|a∈A}) (6)

其中，U为论域，A是非空属性集，C为条件属性集，D为决策属性集。由于具有多个决策属性的决策信息系统都可较容易地转换为只有一个决策属性的决策信息系统，故一般情况下只需研究决策属性集D中只有一个决策属性的决策信息系统，即D＝{d}。V_a表示属性a∈A的值域；I_a:U→V_a表示一个信息函数，其指定U中每一个对象x的属性值。

定义11(Pawlak约简)设定S＝(U,C∪D,{V_a},{I_a})，对

若R是一个Pawlak约简，当且仅当满足以下条件：

①POS_R(D)＝POS_C(D)；

②

POS_R-{r}(D)≠POS_R(D)。

其中，POS_R(D)表示决策属性D的R正区域。

定义12(一致性决策表可辨识矩阵)若设定一致性决策表S＝(U,C∪D,{V_a},{I_a})，U＝{x₁,x₂,…,x_n},D＝{d}，则其可辨识矩阵M_con是一个n阶方阵，将此n阶方阵的元素定义为：

m_ij＝{a∈C|(x_i,x_j∈U)∧I_a(x_i)≠I_a(x_j)∧d(x_i)≠d(x_j)} (7)

由式(7)可得，当条件属性和决策属性值都不相同时，其矩阵元素值就是两组对象属性值不同所对应属性的属性集合。另外，由于该n阶方阵属于对称方阵，因此在实际应用时只需计算“上三角”或者“下三角”部分。

根据定义10可得，其核属性集

其中，M＝M_con为其可辨识矩阵。由以上定义又可将约简的独立性定义如下：

定义13(Pawlak约简的独立性)设

且

r∈R，

若要使r在R中是独立的，则有

若要使 r在R中是不独立的，则有

若要使R独立则只有对于

都是独立的。

由定义13可得定义11的另一种等效定义如下：

定义14(Pawlak约简等价定义)设定决策表S＝(U,C∪D,{V_a},{I_a})，

且

若R是S的一个约简集合，则只有当

且R独立时成立。

由此可知，给定决策表S＝(U,C∪D,{V_a},{I_a})，M为其可辨识矩阵，当且仅当R符合以下条件时，子集

是相对约简：

①对于

且

来说，有

②对于

使得

定义15(辨识框架)辨识框架(Frame of Discernment，FOD)是D-S证据理论中的基本概念，且FOD中元素为互斥元素。定义如下：

设定Θ是一个辨识框架，如果集函数满足以下条件：

①m:2^Θ→[0,1]；

则称m是FOD上的基本信度赋值(BBA)，也称基本概率赋值(BPA)或者mass函数。上式中2^Θ表示Θ的幂集，如果满足条件：

m(A)＞0，则称其为焦元(Focal element)。

定义16(基本信任分配函数)在辨识框架Θ上的BBA是一个满足条件2^Θ→[0,1]的映射函数m，也称为mass函数(质量函数)，并且其满足以下条件：

①对于不可能事件的基本置信度为零，即

②2^Θ中的全部元素基本置信度之和是1，即

m(A)是A的基本置信度指派值，表示对A的精确信任程度。其中使得m(A)＞0的A是其焦元。

定义17(信任函数)信任函数也称为信度函数(Belief function)，其定义为：设定集合A 为辨识框架Θ上的任意子集，则将A中全部子集所对应的基本置信度之和称作信任函数，记为 Bel(A)，即Bel:2^Θ→[0,1]

定义18(似真函数)似真函数也称似真度函数(Plausibility function)，其定义为：设定辨识框架Θ，幂集2^Θ→[0,1]映射，A是辨识框架内的任意子集，似真函数Pl(A)表示对A的非假信任度，即对A似乎可能成立的不确定度，此时有

式中，Pl(A)表示对A为非假的信任度，即A的上限概率；

表示对A为假的信任程度，也就是对A的怀疑程度。

定义19(信任区间)对于D-S证据理论识别框架Θ中的某个假设A，依据已知基本概率分配(BPA)分别计算其基于该假设的信任函数

和似真函数Pl(A)，而由信任函数和似真函数组成其信任区间：[Bel(A),Pl(A)]，表示对某个假设的确定(或不确定)程度。

设m₁,m₂分别是同一辨识框架Θ上两条证据的基本置信度指派，其相应的焦元分别为 A₁,A₂,…,A_N和B₁,B₂,…,B_M，则由m₁(A₁),m₁(A₂),…,m₁(A_N)和m₂(B₁),m₂(B₂),…,m₂(B_M)可确定 mass函数。

将原来信任函数的正交和(直和)表示为证据融合之后产生的信任函数，即

将整个大矩形看作是总的信任度，而每个竖条可分别看作是证据m₂分配到其焦元B₁,B₂,…,B_M上的信任度，同样地，每个横条可以看作是证据m₁分配到其焦元A₁,A₂,…,A_N上的信任度，这样每个横条与竖条相交的小方形大小就可以表示同时分到A_i和B_j上的信度，即

因此，两条证据的联合作用也就是将信度m₁(A_i)、m₂(B_j)精确分配到A_i∩B_j。

两个证据的合成规则：设定m₁与m₂分别是同一辨识框架Θ的两个mass函数，焦元分别为A₁,A₂,…,A_N和B₁,B₂,…,B_M，如果

由式(10)定义的函数 m:2^Θ→[0,1]是mass函数：

式中，系数(1/(1-K))称为归一化因子，表明在证据融合时将非零的信度赋给空集，K值越大，说明证据的冲突程度就越大；

表示正交和(直和)运算。

n条证据的合成规则：设定m₁,m₂,…,m_n是同一辨识框架Θ上的mass函数，其相应的焦元分别为A₁,A₂,…,A_n，则n条证据的组合公式如下：

上式中，系数

多条证据的合成也可以依据两条证据的合成公式逐一合成，并且在合成过程中可以按任意次序进行。

参见图1，本发明包括以下步骤：

步骤一，输入给定时间段内目标股票的完备数据集；步骤二，对该完备数据集内的数据，分别采用等距离离散化算法及一维K-Means聚类离散化算法进行离散化预处理；步骤三，采用可辨识矩阵属性约简算法，对经过离散化预处理的完备数据集进行技术指标的属性约简；步骤四，分别采用朴素贝叶斯分类器和K-近邻分类器，根据经过属性约简的完备数据集，对目标股票下一个交易日的涨跌幅进行分类预测；步骤五：使用D-S证据组合规则，对两种分类器得到的目标股票未来涨跌幅的分类预测结果进行决策融合；步骤六：将决策融合结果作为目标股票未来涨跌幅的最终分类预测结果返回并输出。

步骤1.7：令k＝k+1，并转至步骤1.2。

参见图2，该图为针对某个具体属性的一维K-means聚类离散化方法。对整个数据集进行一维K-means聚类离散化，即是在各属性分别使用该算法流程进行离散化处理，采用一维 K-Means聚类离散化算法对完备数据集内的数据进行离散化预处理的具体方法如下：

参见图4，步骤三的具体方法如下：

步骤3.1：输入决策表S＝(U,C∪D,{V_a},{I_a})，并设

步骤3.2：计算可辨识矩阵M，建立可辨识矩阵

并删除其中的重复元素；

步骤3.4：依据

重新计算M^*；

步骤3.5：若满足

则继续步骤3.6；否则转至步骤3.7；

步骤3.6：对于

计算属性频率δ(a)＝|{m∈M^*|a∈m}|；

然后转至步骤3.4；

步骤3.8：对

假设

若

则将属性r从约简集合R中删除，即R＝R-{r}；

步骤3.9：输出属性约简结果R，算法结束。

步骤四中，朴素贝叶斯分类器分类过程的具体方法如下：

步骤4.3：由贝叶斯定理可知，其后验概率如下：

步骤四中，K-近邻分类器分类过程的具体方法如下：

步骤五的具体方法如下：

步骤5.3：根据因果关系，计算所有命题的信任度；

步骤5.5：依据组合后证据提供的信任度进行决策。

实施例：

选取东方财富旗下平台(Choice数据)的美国上市公司微软(Microsoft，股票代码MSFT) 的股票数据，从2017年10月25日至2019年3月20日共计351组(交易日)数据作为实验数据集。同时，选取可能对股票未来走势具有较大影响且可用于实验计算的14个技术指标，分别为前收盘价、开盘价、最高价、最低价、收盘价、成交额、均价、流通市值、市现率、市销率、市净率、成交量、市盈率、换手率。

表1条件属性标号

根据所选日期之前的该股历史数据，预测下一个交易日的涨跌幅，并将其作为决策属性。这14个技术指标对于股票未来涨跌幅的影响各不相同，例如前收盘价、开盘价、换手率等5 个指标对于股票涨跌的影响较大，因此，对这些指标进行加权处理有利于提高后期预测的准确率。经过多次试验，最终采用如下离散规则：由于标号为1至9的条件属性对于股票涨跌影响较弱，因此将其归一化为4个量级，分别为1、2、3、4；而对于标号为10至14的条件属性对于股票涨跌影响较大，故将其归一化为8个量级；对于决策属性，同样将其归一化为8个量级。以标号为10的条件属性离散化处理为例，将其等距离划分离散化的结果如图5所示。标号为10的条件属性最大值为117.6500，最小值为78.6300，依据等距离划分原则，将属性值从最大值到最小值划分为8个区间，其各区间长度为4.8775，按照此间隔对原属性值进行重新赋值。由直方图可以看出，共计351组数据离散到八个区间，且多集中于赋值为2～7之间的六个区间，占总数据量的89.46％。以标号为1的数据离散化处理为例，其一维聚类离散化结果如图6所示。设定聚类个数K＝4，并随机选择4个初始化聚类中心，按照图2所示聚类算法，最终可以得到4个类别，其结果如表2所示。

表2标号为1的属性聚类数据图

从图6可以看出，各属性值被划分到四个聚类区间中，且各类内部的对象相对集中，不同类之间的对象相对分散，离散化效果较好。但整个聚类算法需要循环计算聚类中心和聚类划分，所以计算量较大，导致运行时间较长，与等距离划分算法相比效率较低。基于可辨识矩阵的属性约简算法对于采用两种离散化方法的股票数据进行属性约简的结果如表3所示。

表3对两种离散化方法预处理过的数据进行属性约简的结果

由表3可以看出，基于可辨识矩阵的属性约简算法对于使用了两种离散化方法的股票数据都有较好的约简结果。虽然对于两种离散化算法来说，本次属性约简后的属性个数相同，但从实际约简后的属性来看，采用一维聚类离散化方法处理过的股票数据经属性约简得到的结果更符合后续分类的要求，因为一维聚类离散化并非机械地将数据按照各自区间归一化，而是依照数据特点将其划分。不过，最终哪一种离散化算法更适合于进行股票预测，还需要后续实验进行验证。将股票涨跌情况分为五类，即将当日涨跌幅处于3％以上的数据的定义为大涨，并用字母‘A’表示；将当日处在0.1～3％之间的涨跌幅定义为小涨，并用字母‘B’表示；将当日处在-0.1～0.1％之间的涨跌幅定义为当日股票持平，并用字母‘C’表示；将当日处在-3～-0.1％之间的涨跌幅定义为小跌，并用字母‘D’表示；将当日处在-3％以下的涨跌幅定义为大跌，并用字母‘E’表示。由此得到的朴素贝叶斯分类结果如表4所示。

表4朴素贝叶斯分类结果

根据表4可知，在相同的分类器下，一维聚类离散化所得到的分类准确率比等距离离散化得到的分类准确率更高，分类效果更好，但也能看出两种离散数据经朴素贝叶斯分类器测试后，分类准确率都较低，其最高分类准确率依然在50％以下，分类效果较差。分类准确率较差的原因一方面可能由于离散和分类算法不太适合股票数据的处理，另一方面有可能由于股票数据受到其他外界因素影响，从而发生走势突变，利用以前的数据难以进行准确分类预测。同时，通过将两种离散化算法对应测试集实际的类别标号和预测类别标号进行对比，得到图7-图10。由图7和图8可以看出，等距离离散化数据经朴素贝叶斯分类器测试后的结果更加偏向于标号为2的“B”类，这类的分类准确率为64％；对于标号为3的“C”类数据则无一预测准确；而对于标号为4的“D”类数据的分类准确率为72.73％，分类相对准确。由图9和图10可知，一维聚类离散化数据经朴素贝叶斯分类器测试后，其准确率较高的标号为2和4的“B”和“D”类，分别为80％和100％；而对于标号为3的“C”类准确率依然较低，为33.3％。

采用与朴素贝叶斯分类相同的标号规则，进行K-近邻分类的结果如表5所示。

表5 K-近邻分类结果

同时，通过将两种离散化算法对应测试集实际的类别标号和预测类别标号进行对比，得到图11-图14。由表5可知，K-近邻分类算法对于两种离散化数据都有较好的分类效果，相较于朴素贝叶斯分类器，两种离散化数据的分类准确率都有了提升，尤其对于一维聚类离散化后的数据经过分类测试，其准确率已超过50％，但目前的分类准确率仍然较低，后文将通过两种分类器的融合进一步提升分类准确率。由图11和图12可以看出，等距离离散化后的数据经K近邻分类器测试后，其类别预测结果也更偏向于标号为2的“B”类，这一类数据的预测准确率为61.5％；而标号为3的“C”类数据分类性能较差，分类准确率降至0，本次测试集中并无标号为5的“E”类数据，所以K近邻分类器对于“E”类数据的分类性能也较差；对于标号为 4的“D”类数据来说，预测结果为“D”类的数据少于实际数据，分类准确率也只有36.4％。由图13和图14可知，一维聚类离散化数据经朴素贝叶斯分类器测试后，其分类准确率较高的标号为2和4的“B”和“D”类，这两类的分类准确率较高，分别为93.75％和78.57％；而对于标号为3和5的“C”和“E”类分类准确率为0％。证据理论决策融合中重要的一步是对置信度的初始化。由朴素贝叶斯分类器和K-近邻分类器的设计原理可知，两种分类器在进行最后分类预测时，都是通过前期计算得到的概率(或频率)作为分类依据，因此在进行证据组合时，对于每一个测试数据，可将其焦元的初始置信度设定为其相应的概率值，由此可得证据组合结果如表6所示。

表6经D-S证据理论决策融合后所得分类结果

从表6可以看出，经过证据理论融合朴素贝叶斯分类器和K-近邻分类器的分类结果后，其对于股票数据的分类准确率都有所提高，取得较好的分类效果。从离散化方法来看，依然是一维聚类离散化后的数据在经过属性约简和分类器融合后得到的分类准确率较等距离离散化更高，说明在分类方法相同的前提下，一维聚类离散化算法更适合于股票数据的分类预测处理，也说明离散化算法对后续实验效果具有影响。从结果上看，虽然最高的分类准确率只有 60.6061％，但考虑到本次试验只选择了近期351个交易日的股票数据进行实验，且由于股票数据受外界影响因素较多，走势有时会发生突变(如股市黑天鹅事件)，而这种变化无法根据前期数据特征进行预测，因此导致股票涨跌幅预测准确率不够理想。另外，通过将两种离散化算法对应测试集实际的类别标号和经证据组合后预测类别标号进行对比，得到图15-图18。从图 15、图16可以看出，等距离离散化数据经融合分类后，其分类结果与前述经单一分类器分类后的结果相差不大，其类别预测依然偏向于“B”类数据，而且预测结果中也没有出现“C”类。由图17、图18看出，一维聚类离散化数据经融合分类后的分类效果得到明显改善，尤其是“B”和“D”类数据，其分类准确率分别为94.12％和78.57％，而“C”类也出现了正确分类数据，其正确率提高到33.3％。粗糙集属性约简处理的目的就是删除决策系统中对于分类决策不必要的某些条件属性，但要保障决策系统的类别区分能力不受影响。因此，可以通过分类器的实际分类结果来验证基于可辨识矩阵的属性约简算法的功能。验证过程如下：将原始数据经某一种离散化算法处理后，，将离散化数据直接用于两种分类器和融合分类器试验；同时，也将离散化数据经属性约简处理后再经两种分类器及融合分类器分类，比对两种分类结果，验证属性约简算法的性能。

经过试验，采用等距离离散化后得到的试验结果如表7所示。

表7经等距离离散后所得实验结果对比

通过表7的分类结果可以看出，经属性约简和不经属性约简而直接使用所有属性进行分类测试后得到的分类结果基本相同，尤其是经过单个分类器分类后得到的分类结果完全相同，验证了上文中所采用的基于可辨识矩阵的属性约简方法依然保持原始数据的分类能力，且有效约简了条件属性，降低了后期分类器实验的时间和空间复杂度。同时，从表6也可以看出，未经属性约简的数据经分类器融合所得实验结果相较于约简后的数据所得的结果更差一些，这也说明属性约简不仅有利于降低时间和空间复杂度，而且有助于提高证据融合分类的准确率。

根据前述使用微软股票数据进行算法测试的实验结果来看，本发明算法对于股票未来走势的分类预测具有一定的准确率。为了更充分验证本发明算法的有效性，选择多支不同类型的股票来进一步验证该算法的具体性能。在下述验证实验中，选择由东方财富旗下金融平台(Choice 数据)提供的两支股票，特斯拉(美股代码为TSLA.O)和罗技(美股代码为LOGI.O)，从中分别选择从2017年10月25日至2019年3月19日共计350个交易日的数据，并且这两支股票所选择的技术指标与前述微软股票所选技术指标相同，以此来进行算法验证。经过相同的数据预处理方法，进行粗糙集属性约简后，得到两支股票属性约简结果如表8所示。

表8两支股票经属性约简结果

属性约简后的股票数据经两种分类器以及证据融合分类所得结果如表9所示。

表9两支股票经三种分类器分类后所得结果

由表8和表9可以看出，本发明算法对于三支股票数据分类的准确率大致在51％～63％之间。本次实验将预测的涨跌幅类别分为五类，虽然这种分类方式较预测类别只有涨和跌两类的方式更加具体，但也使得这种分类方式的算法预测准确率要低于分为两类的预测准确率。换言之，由于使用本专利算法做预测时得到的分类结果只会落在这五种类别区间中的其中一个，因此其预测难度明显大于现有其他方法只预测涨跌两种类别。总体来说，该算法对于股票数据的分类预测效果较好，验证了本专利算法的有效性。但是，该算法也有一定的局限性，例如本发明中并未加入除已有技术指标之外的其他影响因子，而只考虑了根据已有技术指标数据来预测未来一定时间内股票的涨跌情况。且由于股票走势是受多种因素影响的，尤其是外界经济环境、政策或其他突发因素可能使得股票走势出现不可预知的变化，而本发明算法尚未考虑该重要因素。