CN111737308A

CN111737308A - 基于最小熵分值的股票交易点预测方法、系统及存储介质

Info

Publication number: CN111737308A
Application number: CN202010376110.3A
Authority: CN
Inventors: 胡宝珠; 黄庆华; 金连文; 杨俊美; 孙建军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-10-02

Abstract

本发明公开了一种基于最小熵分值的股票交易点预测方法、系统及存储介质，其中方法包括：获取股票数据，根据股票数据获取多个交易日的技术指标，根据获得的技术指标构建指标矩阵；根据股票数据计算未来回报率，根据未来回报率获得趋势等级，结合趋势等级和指标矩阵获得数据矩阵；采用基于最小熵分值的双聚类算法对数据矩阵进行股票趋势模式的挖掘，获得交易规则；结合交易规则和预设的神经网络对交易操作进行预测，所述交易操作包括卖出、无操作和买入。本发明利用基于最小熵分值的双聚类算法能够有效的帮助寻找隐藏在股票历史数据背后的交易信息和规律，能够为投资者提供参考价值高的交易预测信息，可广泛应用于股票市场交易操作的预测。

Description

基于最小熵分值的股票交易点预测方法、系统及存储介质

技术领域

本发明涉及股票市场交易操作的预测技术，尤其涉及一种基于最小熵分值的股票交易点预测方法、系统及存储介质。

背景技术

受宏观经济因素、投资者心理、公司经营状况、政府政策、供求关系等因素的影响，股票价格常常具有较大的波动性。当投资者进行这种高风险与高收益并存的股票交易时，较容易因为股票市场的不确定性而经济受损。股票预测是基于影响股票价格波动影响因素来对股市发展方向以及股票价格变化趋势进行预测。随着股票市场的日益完善，科学合理的股票预测方法能够指导投资者进行股票交易，并且在风险最小的情况下获得最高收益；同时也能够为上市公司提供可靠的股票分析预测，帮助其熟悉公司的经营状况和发现隐藏在公司数据背后的信息。目前传统的股票预测方法有三种：基本分析、技术分析法和时间序列分析法。基本分析法通过对海量的数据资料进行分析来估算上市公司的投资价值，并在对当前公司股票价格进行对比分析后再做出决策，该方法需要对投资公司有较为全面的了解，算法难度较大并且对股市市场不具有敏感性；技术分析法包含K线图法、波浪理论等，该类方法只能对一段时间内的股票价格变化趋势进行预测，具有一定程度的滞后性；时间序列法包括自回归滑动平均模型、广义自回归条件异方差模型等，通过利用股票数据之间的相关性来对股市进行预测，由于股市具有极强的非线性，波动较大，其内部规律常常难以使用时间序列简单的表示，因此预测效果性能表现不佳。

发明内容

为了解决上述技术问题之一，本发明的目的是提供一种基于最小熵分值的股票交易点预测方法、系统及存储介质。

本发明所采用的一技术方案是：

一种基于最小熵分值的股票交易点预测方法，包括以下步骤：

获取股票数据，根据股票数据获取多个交易日的技术指标，根据获得的技术指标构建指标矩阵；

根据股票数据计算未来回报率，根据未来回报率获得趋势等级，结合趋势等级和指标矩阵获得数据矩阵；

采用基于最小熵分值的双聚类算法对数据矩阵进行股票趋势模式的挖掘，获得交易规则；

结合交易规则和预设的神经网络对交易操作进行预测，所述交易操作包括卖出、无操作和买入。

进一步，所述未来回报率通过以下公式技术获得：

其中，CP_m代表着第m个交易日的闭盘价格，n为时间周期，ACP_i,n代表着从第i+1个交易日到n天交易日后的平均闭盘价格，FRR_i,n代表着在第i个交易日购买股票，在第(i+n)天卖出的未来回报率。

进一步，所述采用基于最小熵分值的双聚类算法对数据矩阵进行股票趋势模式的挖掘，获得交易规则，包括：

对数据矩阵使用Min-Max归一化处理，使得所有技术指标的量级范围为[0，1]；

对数据矩阵的列使用凝聚层次聚类算法找到相似元素，以此获得双聚类种子；

扩展双聚类种子至满列，并通过预设方式让数据矩阵的熵值小于预设阈值；

对双聚类种子的每一行求均值，根据均值获得趋势模式，结合趋势模式和最大投票策略获得股市的变化趋势等级；

根据变化趋势等级构建交易规则，所述交易规则的最右列为趋势等级，其余列为技术指标。

进一步，对数据矩阵的列使用凝聚层次聚类算法找到相似元素，以此获得双聚类种子，包括：

采用平均值距离公式计算簇与簇之间的距离，并且在每次迭代过程中合并数据矩阵中距离最小的簇，以此来获得双聚类种子。

进一步，所述扩展双聚类种子至满列，并通过预设方式让数据矩阵的熵值小于预设阈值，包括：

S1、扩展双聚类种子至满列，通过第一预设公式计算数据矩阵的阈值；

S2、若熵值大于预设阈值，则计算score(i)，所述score(i)为删除第i行第i列后的数据矩阵的熵值；

S4、根据计算结果，删除使得数据矩阵的熵值下降最大的行或者列；

S5、重复步骤S1-S5，直至数据矩阵的熵值小于预设阈值。

进一步，所述结合交易规则和预设的神经网络对交易操作进行预测，包括：

采用第二预设公式将计算当天交易日的交易规则与技术指标之间的距离值；

将距离值输入三层神经网络，三层神经网络将所述距离值映射到值域[-1,1]中，以及根据n天的变化趋势输出当天交易日的变化趋势；

根据当天交易日的变化趋势获取当天的交易操作。

进一步，还包括计算利润值的步骤，具体为：

结合预设的交易策略和计算公式计算利润值；

所述交易策略包括：

(1)、若是当天交易市场释放出买入信号，如果不能开启交易，那么在第二天以开盘价开始交易，否则不进行任何交易操作；

(2)、若是当天市场释放出卖出的信号，如果不能关闭交易，那么在第二天以开盘价关闭交易，否则不进行任何交易操作；

(3)、重复步骤(1)-(2)直至遇到下一个交易日。

本发明所采用的另一技术方案是：

一种基于最小熵分值的股票交易点预测系统，包括：

指标获取模块，用于获取股票数据，根据股票数据获取多个交易日的技术指标，根据获得的技术指标构建指标矩阵；

矩阵构建模块，用于根据股票数据计算未来回报率，根据未来回报率获得趋势等级，结合趋势等级和指标矩阵获得数据矩阵；

规则挖掘模块，用于采用基于最小熵分值的双聚类算法对数据矩阵进行股票趋势模式的挖掘，获得交易规则；

操作预测模块，用于结合交易规则和预设的神经网络对交易操作进行预测，所述交易操作包括卖出、无操作和买入。

本发明所采用的另一技术方案是：

一种基于最小熵分值的股票交易点预测系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明利用基于最小熵分值的双聚类算法能够有效的帮助寻找隐藏在股票历史数据背后的交易信息和规律，得到交易模式，能够为投资者提供参考价值高的交易预测信息。

附图说明

图1是实施例中一种基于最小熵分值的股票交易点预测方法的整体流程图；

图2是实施例中基于股市原始数据构建完成的数据矩阵；

图3是实施例中所述的基于最小熵分值的双聚类算法挖掘股票数据中交易规则的流程示意图；

图4是实施例中进行非线性映射的三层神经网络的结构图；

图5是实施例中一种基于最小熵分值的股票交易点预测方法在具体股票BA上实现利润的获取示意图；

图6是实施例中一种基于最小熵分值的股票交易点预测的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供了一种基于最小熵分值的股票交易点预测方法，包括但不限于以下步骤：

第一步：对原始数据使用技术指标的计算公式，可以得到每个交易日的所有技术指标对应的不同时间周期的指标值，以此来构建数据矩阵。本实施例选取了8个技术指标，包括SMA、RSI、％R、ROC、CCI、EMV、SO和UO，如表1所示，包括本实施例中指标矩阵构建中使用的常用技术指标及相应时间周期。根据这8个常用的、参考价值较高、操作性较强的技术指标，结合不同的时间周期，经过相应的计算可以得到31个技术指标值，从而部分完成技术指标矩阵M＝[a_ij]_7×31的构建，并以C＝{c₁,c₂,...,c₃₁}作为指标矩阵的列集合，其中，c_j表示矩阵的第j列。

表1

第二步：为构建完整的交易规则，未来回报率(FRR)被添加到数据矩阵M的最右侧，其计算公式如下所示：

其中，CP_m代表着第m个交易日的闭盘价格，n为时间周期。ACP_i,n代表着从第i+1个交易日到n天交易日后的平均闭盘价格。FRR_i,n代表着在第i个交易日购买股票，在第(i+n)天卖出的未来回报率。对每个交易日，n个FRR_s可以通过公式(2)计算得到，n的值域为[1,n]。通过以上步骤，加入了多期交易研究。

为了更好的识别股市价格波动趋势，交易信号被分为三个等级：买入，卖出和不操作。通过设定阈值T来将FRR(i,j)的值划分为三个等级，若其值大于阈值T，为等级3；若其值小于阈值T，为等级1；否则，其等级为2。本实施例中，阈值T被经验设置为0.005，时间周期n被设置为20。如图2所示，结合指标矩阵和未来回报率获得数据矩阵。

第三步：考虑到传统聚类只能挖掘整体信息，而交易规则常常是隐藏在技术指标子矩阵下的趋势模式，使用双聚类算法来进行股市趋势模式的挖掘，具体流程图如图3所示。这种双聚类中多个交易日在对应的指标列上的指标值的表现相似，属于列一致模式的双聚类，使用的的双聚类挖掘算法分为以下部分：

(1)、为避免数值量级差距造成的影响，对指标矩阵M使用Min-Max归一化操作，使得矩阵中元素值的范围为[0,1]，归一化操作不涉及最右列，趋势等级列。具体的归一化公式如下：

其中，V(i,j)为指标矩阵中第i行第j列的技术指标值，V_min(i,j)表示矩阵中第j列中的最小值，V_max(i,j)表示矩阵中第j列中的最大值，V'(i,j)表示经过归一化处理后的第i行第j列的技术指标值。

(2)、对指标矩阵的最左边的31个技术指标列使用凝聚层次聚类算法找到相似元素，以此来获得双聚类种子bs_i ^(j)。在对技术指标矩阵使用层次聚类算法的过程中，采用平均值距离公式来计算簇与簇之间的距离，并且在每次迭代过程中合并矩阵中距离最小的簇，以此来获得双聚类种子。

(3)、扩展双聚类种子bs_i ^(j)至满列，通过公式(4)和(5)来计算矩阵M的熵值。若其熵值大于预设阈值δ，则计算score(i)，其中i的值域为[1,r+c]。score(i)为删除第i行第i列后的技术指标矩阵M的熵值。遍历得到的(r+c)个分值，删除使得熵值减少最大的行或者列。重复上述步骤，直至矩阵M的熵值小于预设阈值δ。

其中，k是第j列的类别数量，N(i)是类别i的包含的元素数量，r是整列的尺寸大小。

其中，c是矩阵M的列的数量。

(4)、对双聚类的每一行求矩阵来得到趋势模式，也称作交易规则的前件。随后，通过采用最大投票策略可以得到股市的变化趋势，也称作交易规则的后件。在公式(6)、(7)中，N为指标矩阵M的行数，N_r、N_f、N_s分别表示上升、下降、平稳趋势。如果支持度S_m的值大于0.6，那么该交易规则的趋势最大的可信度。否则，S_r、S_f、S_s的值皆小于0.6，表明该双聚类不可信。

S_m＝max(S_r,S_f,S_s) (7)

通过上述步骤，可以得到所构建的交易规则。其中，交易规则的最右列为趋势等级，其值1、2、3分别代表着下降，平稳和上升；而其余列为技术指标。

第四步：参照图4，首先，使用公式(8)来计算当天交易日的交易规则与技术指标之间的距离。然后，结合公式(9)，通过三层神经网络来将该距离值映射到值域[-1,1]中。映射完成后，该网络根据20个交易日的变化趋势给出当前交易日的趋势变化。在测试集中，通过将该浮点数值整合到最近的整数值1，2，3来分别指示股市的交易操作卖出，无操作，买入。

其中，v_i(j)是规则i中第j个值大于0的技术指标值；v_t(j)是在第t个测试样本中相同技术指标的值；N_i是规则i中技术指标值大于0的个数。

其中，d_max_i和d_min_i是d_i的最大最小值，d_old_i和d_new_i是d_i归一化前后的值。

第五步：由于股票市场的价格波动，投资者往往希望能在较低价格时买入，持有一段时间后，高价卖出，因此使用如下的交易策略：

(1)若是当天交易市场释放出买入信号，如果不能开启交易，那么在第二天以开盘价开始交易，否则不进行任何交易操作。

(2)若是当天市场释放出卖出的信号，如果不能关闭交易，那么在第二天以开盘价关闭交易，否则不进行任何交易操作。

(3)重复步骤(1)-(2)，直至遇到下一个交易日。

在测试阶段，结合上述的交易策略，可通过下式计算得到所收获的利润值：

其中，n是买入点与最近卖出点的交易点对数量，sp(j)是第j对交易点对的卖出价格，sb(j)是第j对交易点对的买入价格。

第六步：通过PR值可以计算股票预测系统的性能，越高的PR值表明所提方法的系统性能越优异。本实施例所对比的算法为TS Fuzzy模型和PLR-SVR模型。其中，TS Fuzzy模型通过使用Takagi-Sugeno模糊推理算法和支持向量机来验证股票价格的转折点；PLR-SVR模型通过分析历史数据来捕获股票市场的波峰波谷值。如表2所示，本实施例所提的MES-NN算法能够得到最高的平均累计收益值，证明本实施例在股票交易点预测上取得了较好的性能表现。图5展示了基于本实施例所述方法来对股票BA进行预测得到利润的示意图。

表2

NO.	股票名	Mic.	MES-NN(％)	TS-Fuzzy(％)	PLR-SVR(％)
						1	APPLE	0.003	41.16	45.16	-21.73
2	BA	0.01	41.8	32.66	8.52
						3	CAT	0.002	43.91	17.01	0.00
4	JNJ	0.002	9.93	6.31	-1.22
						5	XOM	0.007	10.63	14.78	0.00
6	VZ	0.01	5.23	-1.24	-2.59
						7	S&P500	0.01	10.97	11.9	-11.58
Average			23.38	18.08	-0.041

综上所述，本实施例的股票交易点预测方法，不同于传统方法中常使用的单期模式，该方法通过使用多期模式学习到了预测价值更高的交易规则。同时，利用基于最小熵分值的双聚类算法能够有效的帮助寻找隐藏在股票历史数据背后的交易信息和规律，得到交易模式。后续利用模型性能出色的神经网络算法，能够更有效的对复杂的股票市场进行预测，避免了线性模型学习不充分，容易发生欠拟合的情况，所学模型给出的预测结果更具有可靠性和准确性，能够为投资者提供参考价值高的交易预测信息，验证了本实施例的价值。

如图6所示，本实施例还提供了一种基于最小熵分值的股票交易点预测系统，包括：

本实施例的一种基于最小熵分值的股票交易点预测系统，可执行本实施例方法实施例所提供的一种基于最小熵分值的股票交易点预测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种基于最小熵分值的股票交易点预测系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本实施例的一种存储介质，可执行本发明方法实施例所提供的一种基于最小熵分值的股票交易点预测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于最小熵分值的股票交易点预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，所述未来回报率通过以下公式技术获得：

3.根据权利要求1所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，所述采用基于最小熵分值的双聚类算法对数据矩阵进行股票趋势模式的挖掘，获得交易规则，包括：

4.根据权利要求3所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，对数据矩阵的列使用凝聚层次聚类算法找到相似元素，以此获得双聚类种子，包括：

5.根据权利要求3所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，所述扩展双聚类种子至满列，并通过预设方式让数据矩阵的熵值小于预设阈值，包括：

S5、重复步骤S1-S5，直至数据矩阵的熵值小于预设阈值。

6.根据权利要求1所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，所述结合交易规则和预设的神经网络对交易操作进行预测，包括：

根据当天交易日的变化趋势获取当天的交易操作。

7.根据权利要求1所述的一种基于最小熵分值的股票交易点预测方法，其特征在于，还包括计算利润值的步骤，具体为：

结合预设的交易策略和计算公式计算利润值；

所述交易策略包括：

(3)、重复步骤(1)-(2)直至遇到下一个交易日。

8.一种基于最小熵分值的股票交易点预测系统，其特征在于，包括：

9.一种基于最小熵分值的股票交易点预测系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述的一种基于最小熵分值的股票交易点预测方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。