CN106408128A

CN106408128A - 基于双聚类挖掘及模糊推理的股票交易规则预测方法

Info

Publication number: CN106408128A
Application number: CN201610854283.5A
Authority: CN
Inventors: 黄庆华; 杨杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2017-02-15

Abstract

本发明公开了一种基于双聚类挖掘及模糊推理的股票交易规则预测方法，首先选取一段时间的股票数据作为挖掘双聚类的数据集，根据不同技术指标公式计算出每一天股票原始数据相对应的技术指标值，然后构造指标矩阵A＝(a_ij)_m×n,通过双聚类算法挖掘数据集中的双聚类，每个双聚类对应着股票数据集中的交易规则的模式，利用挖据出的双聚类，构造具有针对性的模糊规则，最后根据所有得到的模糊规则构建模糊预测模型并进行交易规则的预测。该方法提出的预测模型能够对股票价格曲线中的交易规则进行预测，为投资者提供股票最好的买入或者卖出参考时机，解决了传统方法中根据专家经验构建模糊规则存在的规则不够客观，专家经验难以获取的问题。

Description

基于双聚类挖掘及模糊推理的股票交易规则预测方法

技术领域

本发明涉及股票金融预测的技术领域，具体涉及一种基于双聚类挖掘及模糊推理的股票交易规则预测方法。

背景技术

股票交易规则的预测是股票金融领域十分关注的一个研究热点，很多专家和投资人都在研究如何确定最佳的买入和卖出的时机，但是有时不可避免地会得到错误的结果。因为股票价格存在高维度和非稳定性的原因，这导致股票交易规则的预测是存在很大难度的。同时股票价格容易受到经济环境以及政治形式等多方面因素的影响，这又在一定程度上提高了股票交易规则预测的难度。最初的股票预测的代表是以早期发展的技术分析理论为基础的，如平均线理论、K线图分析法、柱状图分析法等，随着计算机技术和数据挖掘在证券领域的应用，股票预测的方法也越来越多，但是大多数方法仅仅是分析手段，还不能直接预测股票市场的动态。而且利用传统的预测技术来预测股票市场的变换需要面对的最大的问题就是待处理的数据量非常大，在这些海量的数据汇总往往隐含着各种各样的交易规则的信息，这些信息单纯仅凭人们的直觉和经验是难以发现的。如何从大量数据中获得有价值的信息，将是金融预测领域的挑战性研究课题。

目前在股票预测领域比较常用的方法有BP神经网络，支持向量机，遗传计算以及模糊推理等，比如，Wing W.Y.Ng et al利用遗传算法最小化一个新的加权局部泛化误差去预测交易点，比如，Luo and Chen提出一种基于分段线性表示方法和加权支持向量机的方法预测股票的交易信号，比如，Q.H.Huang et al使用双聚类挖掘算法和K最近邻分类算法去预测交易规则。

发明内容

本发明的目的在于避免了传统上根据专家经验构建模糊规则存在的规则不够客观，专家经验难以获取的问题，提供一种基于双聚类挖掘及模糊推理的股票交易规则预测方法，该预测方法能够从大量的股票历史数据中挖掘出有意义的交易规则信息，并且利用挖掘出的有价值的信息构建模糊规则，使得模糊规则更具有针对性，并获得较好的利润结果。

本发明的目的可以通过采取如下技术方案达到：

一种基于双聚类挖掘及模糊推理的股票交易规则预测方法，所述预测方法包括下列步骤：

S1、计算历史股票数据中第i个交易日的未来收益率FR_i；

S2、将所述未来收益率FR_i进行量级划分，若第i个交易日的平均收盘价比当天收盘价要高，则未来收益率FR_i≥0，若第i个交易日的平均价比当天收盘价低，则未来收益率FR_i≤0；

S3、构造指标矩阵A＝(a_ij)_m×n,选取m个交易日的历史股票数据，计算每个交易日的n个指标特征值a_ij，其中i＝1,2,…,m；j＝1,2,…,n，a_ij表示第i交易日对应的第j列指标上的特征值；

S4、对指标矩阵A使用双聚类算法，通过双聚类的挖掘，将所有得到的双聚类放入一个双聚类集合，集合中的每个双聚类都对应一种交易规则模式的信息；

S5、提取交易规则模式，从双聚类集合中取出一个双聚类，计算双聚类中每一列的总和的平均值，并且计算双聚类中每一行对应的FR_i的总和的平均值，得到一个行向量D＝[Y₁,Y₂,…,Y_c,FR_av]，Y₁,Y₂,…,Y_c是双聚类中包含的指标列的平均值，FR_av是双聚类中包含的未来收益率的平均值，行向量D是双聚类中对应的交易规则模式信息的量化表示；

S6、划分模糊规则中前提条件和结论的量级，将所述行向量D中Y₁,Y₂,…,Y_c对应的指标列用来构建模糊规则的前提条件，将所述行向量D中平均未来收益率FR_av用来构建模糊规则的结论；

S7、构建模糊规则，通过对行向量D包含的指标列和平均未来回报率在量级上的划分则可得到构建模糊规则如下：

假如Y₁∈O₁并且Y₂∈O₂并且…Y_c∈O_c,则FR_av∈O_x,其中O₁,…,O_c表示指标列的平均值的所属量级，O_x表示平均未来收益率FR_av的值所属量级，然后对双聚类集合中的所有双聚类进行计算，依次得到每个双聚类对应的模糊规则；

S8、将所有的模糊规则进行整合，得到模糊规则库R，通过所得的模糊规则库R构造模糊预测模型；

S9、对于需要预测的某一个交易日Day_i，计算Day_i的n个股票技术指标的值，然后输入到该方法构建的模糊预测模型中，可得到交易日Day_i的交易规则的预测，其中所述交易规则包括买入、卖出和持有。

进一步地，所述步骤S1、计算历史股票数据中第i个交易日的未来收益率FR_i具体包括：

S11、选取过去m天的股票历史数据作为挖掘股票历史数据中双聚类的数据集；

S12、根据技术指标公式计算出股票历史数据中第i个交易日相对应的股票技术指标值，其中，所示技术指标公式如下：

其中，ACl_i表示第i个交易日的平均收盘价，Cl_x表示第x个交易日的收盘价，t表示投资时间周期；

S13、计算第i个交易日的未来收益率FR_i，计算公式如下：

FR_i代表第i个交易日对应的未来收益率。

进一步地，所述股票历史数据包括开盘价、最高价、最低价、收盘价和交易量。

进一步地，所述步骤S2、将所述未来收益率FR_i进行量级划分的规则具体如下：

将交易日股价上涨分为小、中、大三种情况，对应地选取阈值T_r将未来收益率按照以下规则划分:如果T_r≤FR_i<2T_r，则置FR_i＝1；如果2T_r≤FR_i<3T_r，则置FR_i＝2；如果FR_i≥3T_r，则置FR_i＝3；

同理，将交易日股价下跌分为小、中、大三种情况，对应地选取阈值T_r将未来收益率按照以下规则划分:如果-2T_r≤FR_i<-T_r，则置FR_i＝-1；如果-3T_r≤FR_i<-2T_r，则置FR_i＝-2；如果FR_i≤-3T_r，则置FR_i＝-3。

进一步地，所述步骤S6具体包括：

S61、对所述行向量D中Y₁,Y₂,…,Y_c对应的指标列使用隶属度函数对每个指标列的值进行一个语言变量的量级上的划分，将指标值的大小划分成small(对应μ₀，σ₀)，medium(对应μ₁，σ₁)，big(对应μ₂，σ₂)，large(对应μ₃，σ₃)四个量级；

S62、对行向量D中包含平均未来收益率对应的值FR_av，使用隶属的函数对FR的值进行一个语言变量的量级上的划分，将FR值的大小划分成negative small(对应w₀，t₀),negative large(对应w₁，t₁),positive small(对应w₂，t₂),positive large(对应w₃，t₃)四个量级。

进一步地，所述步骤S7中的所述指标列的平均值的所属量级包括small、medium、big和large，所述平均未来收益率FR_av的值所属量级包括negative small、negativelarge、positive small和positive large。

进一步地，所述步骤S3还包括：

对指标矩阵A中每一列进行归一化处理，把指标矩阵A中的技术指标值a_ij保持在相同范围(0,1)内。

本发明相对于现有技术具有如下的优点及效果：

1、将双聚类算法巧妙地应用在了股票数据挖掘中，可以从大量的股票数据中挖掘出股票的交易规则模式，避免受到大量噪声信息的影响，提取出有价值的信息。

2、可解决传统上根据专家经验构建模糊规则存在的规则不够客观，专家经验难以获取的问题，使得构建出的规则更具有针对性，提升模糊预测模型的预测性能。

3、基于双聚类挖掘及模糊推理的股票交易规则预测方法能够更好地预测股票的交易规则，在较好的时机进行股票的买入或者卖出，获得更大的利润。通过该算法，验证获取的交易规则中的买入和卖出的时间点是靠近股票价格曲线的波谷和波峰，说明预测的交易规则是准确和有价值的。

附图说明

图1为本发明公开的基于双聚类挖掘及模糊推理的股票交易规则预测方法的流程步骤图；

图2为本发明方法中构造指标矩阵的示意图；

图3为本发明方法中每个指标列使用的隶属度函数IndicatorF(x)；

图4为本发明方法中FR标记列使用隶属度函数FetureRF(x)；

图5为本发明方法对西藏药业(600211)股票的预测结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

附图1是本发明公开的的基于双聚类挖掘及模糊推理的股票交易规则预测方法的流程步骤图，如附图1所示，本实施例中公开的股票交易规则预测方法具体包括下列步骤：

S1、计算历史股票数据中第i个交易日的未来收益率FR_i。

选取一段时间的股票数据作为挖掘双聚类的数据集，根据不同技术指标的公式计算出每一天的股票原始数据(开盘价,最高价,最低价,收盘价,交易量)相对应的技术指标值，计算历史股票数据中第i个交易日的未来收益率FR_i，未来收益率反应股票价格的变动趋势，其中i表示交易日，FR_i表示第i个交易日的未来收益率。

S11、选取过去m天的股票历史数据(开盘价，最高价，最低价，收盘价，交易量)作为挖掘股票历史数据中双聚类的数据集；

S13、计算第i个交易日的未来收益率FR_i，计算公式如下：

FR_i代表第i个交易日对应的未来收益率。

其中，未来收益率代表股价的变化趋势，如果第i个交易日来说，未来t个交易日内的收盘价有所上涨，则第i个交易日的平均收盘价比当天收盘价要高，未来收益率FR_i≥0。同理，如果第i个交易日后的未来t个交易日的收盘价下跌，第i个交易日的平均价比当天收盘价低，未来收益率FR_i≤0。因此，根据交易日股价上涨分为小，中，大三种情况，对应地选取阈值T_r将未来收益率按照以下规则划分:如果T_r≤FR_i<2T_r，则置FR_i＝1；如果2T_r≤FR_i<3T_r，则置FR_i＝2；如果FR_i≥3T_r，则置FR_i＝3；同理，根据交易日股价下跌分为小，中，大三种情况。如果-2T_r≤FR_i<-T_r，则置FR_i＝-1；如果-3T_r≤FR_i<-2T_r，则置FR_i＝-2；如果FR_i≤-3T_r，则置FR_i＝-3。

S3、构造指标矩阵A＝(a_ij)_m×n,选取m个交易日的历史股票数据，计算每个交易日的n个指标特征值a_ij，其中i＝1,2,…,m；j＝1,2,…,n，a_ij位于矩阵A的第i行第j列，表示第i交易日对应的第j列指标上的特征值。

在本实施例中，设n＝32，即选取32个技术指标值，分别是SMA[周期6，10，12，24，30]、RSI[周期6，12，18，24，30]、WMS[周期6，14，20]，ROC[周期6，12，24，28]、CCI[周期6，12，14，28]、EMV[周期6，12，14，28]、UO[周期7，14，28]、ARBR[周期26，26]、KDJ[周期9，9，9]、MTM[周期6]。其中，每个指标对应的每个周期可以计算得到一个技术指标值，但在UO指标中，三个周期共同计算得到一个指标值。定义指标矩阵其中i＝1,2,…,m；j＝1,2,…,32。a_ij表示第i交易日对应的第j列技术指标的指标特征值a_ij。相应地，定义矩阵其中i＝1,2,…,m。B矩阵是由m个交易日中每个交易日的未来回报率构成的。

构建指标矩阵A需要选取n个技术指标作为特征，通过计算这些特征在不同周期下的指标值，则可得到每一天的n个技术指标的技术指标值，这些特征是判断股票价格变换趋势有利的依据。同时对指标矩阵A中每一列进行归一化处理，把指标矩阵A中的技术指标值a_ij保持在相同范围(0,1)内。

S4、对指标矩阵A使用双聚类算法，通过双聚类的挖掘，将所有得到的双聚类放入一个双聚类集合，集合中的每个双聚类都对应一种交易规则模式的信息。

S5、提取交易规则模式，从双聚类集合中取出一个双聚类，计算双聚类中每一列的总和的平均值，并且计算双聚类中每一行对应的FR_i的总和的平均值，得到一个行向量D＝[Y₁,Y₂,…,Y_c,FR_av]，Y₁,Y₂,…,Y_c是双聚类中包含的指标列的平均值，FR_av是双聚类中包含的未来收益率的平均值，行向量D是双聚类中对应的交易规则模式信息的量化表示。

由于每个双聚类都是一个二维矩阵，因此对双聚类取列平均，则可得到一个行向量D＝[Y₁,Y₂,…,Y_c,FR_av]。而且通过列平均的方法对双聚类中的数据进行降维处理，可以对双聚类中包含的少量噪声数据起到平衡的作用。

S6、划分模糊规则中前提条件和结论的量级。因为一个模糊规则由前提条件和结论构成，行向量D中Y₁,Y₂,…,Y_c对应的指标列用来构建模糊规则的前提条件，平均未来收益率用来构建模糊规则的结论。对行向量D中Y₁,Y₂,…,Y_c对应的指标列使用隶属度函数对每个指标列的值进行一个语言变量的量级上的划分，将指标值的大小划分成small(对应μ₀，σ₀)，medium(对应μ₁，σ₁)，big(对应μ₂，σ₂)，large(对应μ₃，σ₃)的四个量级。同理，对行向量D中包含平均未来收益率对应的值FR_av，使用隶属的函数对FR的值也进行一个语言变量的量级上的划分，将FR值的大小划分成negative small(对应w₀，t₀),negative large(对应w₁，t₁),positive small(对应w₂，t₂),positive large(对应w₃，t₃)四个量级。

S7、构建模糊规则。通过对行向量D包含的指标列和平均未来回报率在量级上的划分则可得到构建模糊规则如下：

假如Y₁∈O₁并且Y₂∈O₂并且…Y_c∈O_c,则FR_av∈O_x,其中O₁,…,O_c表示指标列的平均值的所属量级(small,medium,big,large其中之一)，O_x表示平均未来收益率FR_av的值所属量级(negative small,negativelarge,positive small,positive large其中之一)，然后对双聚类集合中的所有双聚类进行计算，依次得到每个双聚类对应的模糊规则。

将由挖掘出的双聚类转化为成的行向量D，以其作为依据构建模糊规则，避免了传统上构建模糊规则根据专家经验构建模糊规则存在的规则不够客观，专家经验难以获取的问题，而且构建出的模糊规则更具有针对性，是基于数据本身蕴含的规律构建的。

S8、将所有的模糊规则进行整合，得到模糊规则库R，通过所得的模糊规则库R构造模糊预测模型。

综上所述，本实施例公开了一种基于双聚类挖掘及模糊推理的股票交易规则预测方法，通过使用双聚类算法去挖掘交易规则的模式，然后利用上述交易规则的模式构更有针对性的模糊规则，很好地解决了传统方法中根据专家经验构建模糊规则存在的规则不够客观，专家经验难以获取的问题。

实施例二

如图1至图5，本实施例选择具体的股票--西藏药业(600211)，采用基于双聚类挖掘及模糊推理的股票交易规则预测方法进行交易规则的预测，包括以下步骤：

1)选取m＝1320天的西藏药业(600211)股票数据(开盘价，最高价，最低价，收盘价，交易量)作为挖掘股票历史数据中的交易规则模式的数据集，选取32个股票技术指标作为评价每一天的交易信息的特征，同时给m天的数据集中的每一天标记一个未来收益率FR_i,首先需要计算t个交易日的平均收盘价ACl_i,

其中，Cl_x表示第i个交易日的收盘价，t表示投资周时间周期。

代表第i个交易日对应的未来收益率，ACl_i代表平均收盘价。FR_i在一定程度上反映了股票价格变换的趋势。

2)计算m个的交易日中每一天的未来收益率FR_i，将其作为训练集的标记，设阈值为T_r＝0.15％。如果T_r≤FR_i<2T_r，则置FR_i＝1；如果2T_r≤FR_i<3T_r，则置FR_i＝2；如果FR_i≥3T_r，则置FR_i＝3；如果-2T_r≤FR_i<-T_r，则置FR_i＝-1；如果-3T_r≤FR_i<-2T_r，则置FR_i＝-2；如果FR_i≤-3T_r，则置FR_i＝-3。

3)根据选取的1320天股票数据以及32个指标的技术公式，计算1320天中每一天的32个技术指标的值，如图2所示，设指标矩阵为A，行数为1320表示数据集中的每一天，列数为33表示32个技术指标以及FR_i标记，即指标矩阵的大小为1320×33，同时对矩阵中的每一列进行归一化处理。

4)对指标矩阵A使用双聚类算法，进行双聚类的挖掘，将所有得到的双聚类放入一个名为Bicluster_Set的集合，集合中的每个双聚类都蕴含一定的交易规则模式的信息。

5)从Bicluster_Set的集合中取出一个双聚类，需要将双聚类中蕴含的交易规则模式信息提取出来，从而构建模糊规则。因为每个双聚类都是一个二维矩阵，因此对双聚类取列平均，则可得到一个行向量D＝[Y₁,Y₂,…,Y_c,FR_av]，Y₁,Y₂,…,Y_c是双聚类中包含的指标列的平均值，FR_av是双聚类中包含标记列。行向量D是双聚类中蕴含的交易规则模式信息的量化表示。

5)因为一个模糊规则由前提条件和结论构成，因此需要将行向量D转化成模糊规则，D包含的指标列用来构建模糊规则的前提条件，包含的FR_av标记列用来构建模糊规则的结论。如图3所示，对D包含的每个指标列使用隶属度函数对每个指标列的值进行一个语言变量的量级上的划分，将指标值的大小划分成small(对应μ₀＝0，)，medium(对应)，big(对应)，large(对应μ₃＝1，)的四个量级。如图4所示，对Average_Bic包含的FR标记列使用隶属的函数对FR的值也进行一个语言变量的量级上的划分，将FR值的大小划分成negative small(对应w₀＝-1，t₀＝1),negative large(对应w₁＝-3，t₁＝1),positive small(对应w₂＝1，t₂＝1),positive large(对应w₃＝3，t₃＝1)四个量级。

6)通过对行向量D包含的指标列的平均值以及标记列FR的平均值在量级上的划分则可构建模糊规则。

假如Y₁∈O₁并且Y₂∈O₂并且…Y_c∈O_c,则FR_av∈O_x.其中，Y₁…Y_c表示指标列的平均值的所属量级(small,medium,big,large其中之一)，O_x表示标记列FR_av的平均值所属量级(negative small,negativelarge,positive small,positive large其中之一)，然后对双聚类集合Bicluster_Set中的所有双聚类进行计算，依次得到每个双聚类对应的模糊规则。

7)将所有的模糊规则进行整合，得到模糊规则库R。通过所得的模糊规则库R构造模糊预测模型。

8)对于需要预测的西藏药业(600211)中的某个交易日Day_i，计算Day_i的32个股票技术指标的值，然后输入到该方法构建的模糊预测模型中，可得到Day_i该天的价格变化趋势的预测，若该天的价格预测是上涨趋势，则应该买入，反之则应该卖出,则可对股票的交易规则进行预测。如图5所示，运用该方法对西藏药业(600211)在2010/08/30-2011/08/11这段时间交易规则预测的结果。

综上所述，本发明公开的一种基于双聚类挖掘及模糊推理的股票交易规则预测方法提出的预测模型能够对股票价格曲线中的交易规则进行预测，为投资者在最好的时机买入或者卖出股票提供参考，通过从大量的股票历史数据中挖掘出有意义的交易规则信息，并且利用挖掘出的有价值的信息构建模糊规则，使得模糊规则更具有针对性，并获得较好的利润结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述预测方法包括下列步骤：

S1、计算历史股票数据中第i个交易日的未来收益率FR_i；

2.根据权利要求1所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述步骤S1、计算历史股票数据中第i个交易日的未来收益率FR_i具体包括：

S13、计算第i个交易日的未来收益率FR_i，计算公式如下：

FR_i代表第i个交易日对应的未来收益率。

3.根据权利要求1或2所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，

所述股票历史数据包括开盘价、最高价、最低价、收盘价和交易量。

4.根据权利要求1所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述步骤S2、将所述未来收益率FR_i进行量级划分的规则具体如下：

5.根据权利要求1所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述步骤S6具体包括：

6.根据权利要求1所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述步骤S7中的所述指标列的平均值的所属量级包括small、medium、big和large，所述平均未来收益率FR_av的值所属量级包括negative small、negative large、positivesmall和positive large。

7.根据权利要求1所述的基于双聚类挖掘及模糊推理的股票交易规则预测方法，其特征在于，所述步骤S3还包括：