CN113919944A

CN113919944A - 基于强化学习算法与时间序列模型的股票交易方法及系统

Info

Publication number: CN113919944A
Application number: CN202111043921.2A
Authority: CN
Inventors: 黄斐然; 梁中铭; 罗颂宽; 刘炜麟; 刘旭扬; 刘文骁
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2022-01-11

Abstract

本发明涉及深度强化学习和金融量化交易领域，为基于强化学习算法与时间序列模型的股票交易方法及系统，其方法包括步骤：数据预处理，对收集的股票数据按类别进行整理，过滤错误数据、重复数据，数据归一化，预处理完成后得到得到股票数据集；建立时间序列模型预测股票价格，对股票基础价格数据集进行划分，建立并训练可用于股票基础价格数据的时间序列GRU模型，输出股票预测价格；股票交易强化学习模型输出决策，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。本发明可以充分挖掘潜藏于股票基础数据中的信息，在股票交易环境中作出合理交易决策，为现实股票交易相关人员提供参考。

Description

基于强化学习算法与时间序列模型的股票交易方法及系统

技术领域

本发明涉及深度强化学习和金融量化交易领域，尤其涉及基于强化学习算法与时间序列模型的股票交易方法及系统。

背景技术

近几年，随着金融知识广泛普及以及金融产品的快速推广，人们的金融投资意识增强，参与金融产品投资的行为日益增加，其中不乏进行股票交易的投资者或相关从业者。由于金融产品特别是股票交易的收益率较一般投资产品高，投资者需要承受较高的投资风险。因此，在股票交易过程中作出合理、有效的决策，即在合适的时机执行恰当的操作如买入、卖出一定比例的股票份额或持有当前股票份额，将有助于投资者获得相对较高的投资回报率。

然而，当前的互联网金融网站、终端程序提供的股票信息如当前股票的价格、交易日的最高价与最低价、交易日的开盘价与收盘价、成交量、涨跌幅、市盈率等基础数据、历史信息，未对信息进行统计整合，利用价值有限，投资者难以从中获取足够的信息价值。另外，来自与金融产品相关的自媒体、经济分析师提供的定性分析、股票走向预测质量良莠不齐，因而投资者易受其主观性影响，难以作出合理的交易决策。而实际数据证实了这种现象，在近年中，仅有不到20％的投资者的投资回报率为正值。因此，需要一种充分挖掘潜藏于股票基础数据中的信息价值的股票交易方法，提供合理交易决策，为投资者提供参考。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于强化学习算法与时间序列模型的股票交易方法，收集并对股票的基础数据进行预处理，训练股票价格预测模型，根据股票历史交易数据量化预测未来一定时间内的股票价格、涨跌趋势，并在此基础上应用深度强化学习模型，训练智能体在股票交易环境中作出合理交易决策，为现实股票交易相关人员提供参考。

基于相同的发明构思，本发明还提供基于强化学习算法与时间序列模型的股票交易系统。

本发明的基于强化学习算法与时间序列模型的股票交易方法，包括以下步骤：

S1、数据预处理，对收集的股票数据按类别进行整理，得到股票基础价格数据和企业营运指标数据，然后过滤错误数据、重复数据，数据归一化，预处理完成后得到得到股票数据集；

S2、建立时间序列模型预测股票价格，对股票基础价格数据集进行划分，建立并训练可用于股票基础价格数据的时间序列GRU模型，输出股票预测价格，并传递至强化学习模型作为股票交易环境状态观测值；

S3、股票交易强化学习模型输出决策，创建强化学习股票交易环境，将步骤S1的股票数据集与步骤S2的股票预测价格数据作为智能体的观测量，设置智能体行动集合和奖惩函数，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。

本发明基于强化学习算法与时间序列模型的股票交易系统，包括：

数据预处理模块，对收集的股票数据按类别进行整理，得到股票基础价格数据和企业营运指标数据，然后过滤错误数据、重复数据，数据归一化，预处理完成后得到得到股票数据集；

股票价格预测模块，建立时间序列模型预测股票价格，对股票基础价格数据集进行划分，建立并训练可用于股票基础价格数据的时间序列GRU模型，输出股票预测价格，并传递至强化学习模型作为股票交易环境状态观测值；

交易行动决策模块，通过股票交易强化学习模型输出决策，创建强化学习股票交易环境，将股票数据集与股票预测价格数据作为智能体的观测量，设置智能体行动集合和奖惩函数，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出将时间序列模型与深度强化学习模型相结合的股票交易决策方法，通过收集并对股票的基础数据进行预处理，训练价格预测模型，根据历史交易数据量化预测未来一定时间内的股票价格、涨跌趋势，并在此基础上应用深度强化学习模型，训练智能体可以充分挖掘潜藏于股票基础数据中的信息，在股票交易环境中作出合理交易决策，为现实股票交易相关人员提供参考。

附图说明

图1为本发明实施例的整体框架图；

图2为本发明实施例的具体流程图；

图3为本发明实施例的时间序列GRU模型门控结构图；

图4为本发明实施例的强化学习简化模型示意图；

具体实施方式

下面将结合附图和实施例，对本发明技术方案做进一步详细描述，显然所描述的实施例是本发明一部分实施例，而不是全部的实施例，本发明的实施方式并不限于此。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出将时间序列模型与深度强化学习模型相结合的股票交易决策方法收集并对股票的基础数据进行预处理，训练股票价格预测模型，根据股票历史交易数据量化预测未来一定时间内的股票价格、涨跌趋势，并在此基础上应用深度强化学习模型，训练智能体在股票交易环境中作出合理交易决策，为现实股票交易相关人员提供参考。

实施例

如附图1、2所示，本实施例中基于强化学习算法与时间序列模型的股票交易方法包括以下步骤：

S1、数据预处理

对收集的股票数据按类别进行整理，过滤错误数据、重复数据，数据归一化，预处理完成后得到得到股票数据集。

S1.1、数据收集整理

对收集的股票数据按类别进行整理为两个主要组成部分：股票基础价格数据和企业营运指标数据。其中，股票基础价格数据包括：股票交易时段内的开盘价、收盘价、最高价、最低价、成交量，企业营运指标数据包括：交易状态、滚动市盈率、市净率、滚动市销率、滚动市现率。

S1.2、数据过滤清洗

对收集整理的原始股票数据信息进行过滤清洗，原始股票数据信息可能存在错误数据、重复数据，此类无效数据将被过滤剔除。

S1.3、数据归一化

对过滤清洗后股票数据进行归一化，映射为[0,1]的数值，以提高后续模型训练效率，最后得到股票基础价格数据集和企业营运指标数据集。

S2、建立时间序列模型预测股票价格

建立时间序列模型预测股票价格，对股票基础价格数据集进行划分，建立并训练可用于股票基础价格数据的时间序列模型，输出股票预测价格，并传递至强化学习模型作为作为股票交易环境状态观测值。

优选地，本实施例的时间序列模型使用门控循环单元神经网络(Gated RecurrentUnit)GRU，可根据股票基础价格数据集预测股票价格、涨跌幅趋势，且预测结果的统计回归指标反映此类模型能较好地拟合价格变化走向，即预测结果具有一定现实价值意义。

S2.1、创建滑动窗口数据集

预处理完成的股票基础价格数据集以一个X+Y个交易日为滑动窗口数据集单位，前X个交易日股票基础数据作为模型输入训练数据，后Y个交易日股票基础数据作为模型验证测试数据。滑动窗口按交易日时间顺序每次向后推移Y个交易日，直至股票基础价格数据集完成划分。优选地，X为60，Y为5。

S2.2、建立门控循环单元神经网络GRU作为时间序列GRU模型

滑动窗口数据集输入到门控循环单元神经网络GRU，并为每个窗口分配对应的GRU单元。每个GRU单元包括重置门和更新门，重置门对上一单元传输保留下来的状态和当前单元的输入数据进行重置，更新门可以同时进行遗忘和选择记忆操作，减轻了LSTM网络选择记忆阶段计算资源消耗大的问题，提高了运算效率。输入的数据每经过一个GRU单元都会被根据序列模拟情况的好坏决定对学习记忆进行更新，用以解决GNN网络的长期依赖问题。时间序列GRU模型门控结构如附图3所示。

具体地，建立时间序列GRU模型，包括以下步骤：

S2.2.1、重置阶段

对上一单元传输保留下来的输出状态和当前单元的输入数据进行重置，通过重置门实现对上一阶段状态和当前状态的拼接。重置门的输出由以下公式求得：

r_t＝σ(W_r·[h_t-1，x_t])

其中，σ为激活函数，优选sigmoid函数；W_r为重置门权重矩阵；h_t-1为上一轮输出状态；x_t为本轮输入。

S2.2.2、更新记忆阶段

使用更新门实现对学习记忆的遗忘和选择操作，根据对更新门函数的控制，选择输入的数据中需要保留或需要遗忘的数据信息。更新门的输出决定记忆遗忘和选择的比例，更新门的输出计算公式为：

z_t＝σ(W_z·[h_t-1，x_t])，

其中，σ为激活函数，可选用sigmoid函数；W_z为更新门权重矩阵；h_t-1为上一轮输出状态；x_t为本轮输入。

S2.2.3、输出阶段

本阶段对重置阶段的数据和更新记忆阶段更新的数据使用tanh激活函数进行计算，计算结果与参数矩阵之积经过sigmoid函数得出本轮输出，与上一单元保留的状态做分权矩阵加法得出给下一单元的状态输出。价格预测结果y_t由公式计算得到：

y_t＝σ(W_o·h_t)

其中，σ为激活函数，可选取sigmoid函数；W_o为输出层权重矩阵；h_t为本轮输出状态，将作为下一单元的状态输入，计算公式为：

其中，

为中间输出状态；tanh为激活函数；

为本轮中间输出状态对应权重矩阵；r_t为重置门输出；h_t为本轮输出状态；z_t为更新门输出；x_t为本轮输入。

S2.3应用时间序列模型GRU输出股票预测价格

根据训练GRU模型的验证集损失(val-loss)验证股票价格拟合效果，调整函数中的批处理大小、核心数以及迭代轮数，根据股票类型选择拟合效果最优的价格预测模型，应用模型输出该股票的预测价格，用于强化学习作为股票交易环境状态观测。

S3、通过股票交易强化学习模型输出决策

股票交易强化学习模型输出决策，创建强化学习股票交易环境，将步骤S1的股票数据集与步骤S2的股票预测价格数据作为智能体的观测量，设置智能体行动集合和奖惩函数，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。

S3.1、强化学习的环境(Environment)与状态(State)设置

强化学习股票交易环境由状态观测量、智能体行动集合、奖惩函数构、智能体资产数据构成。其中，状态观测量包括股票基础价格数据集、股票预测价格和企业营运指标数据集，智能体资产数据包含智能体持有的可支配现金量，持有的股票资产额、手续费合计量、收益率等。

每轮循环中，新交易日的状态观测量形成强化学习环境中的状态。在该状态中，经训练的智能体作出行动决策，决策完成后由强化学习环境根据奖惩函数量化智能体的决策优劣，同时更新智能体资产数据。至此，循环完成，强化学习环境状态刷新进入新循环。智能体实施一次行动后，强化学习股票交易环境会对智能体的资产进行记录、计算并更新状态。强化学习简化过程如图4所示。

S3.2、强化学习智能体行动集合(Action)设置

本实施例中，强化学习模型的智能体在每次环境状态更新后执行行动，其行动集合(Action)包括：保持：持有当前的股票股份，保持当前仓位；买入：在可支配资金数额内，买入一定份额股票，增加仓位；卖出：在当前可支配的股票份额内，卖出一定份额的股票，减少仓位。其中，买入、卖出的股票份额为可支配资金或可支配股票份额的百分比。为模拟现实交易情况，其中，买入、卖出操作的价格由观测环境中股票价格最高价、最低价建立的正态分布概率模型产生的随机值决定，买入、卖出的股票份额由训练完成的强化学习模型得到。行动集合Action可表示为：

其中，Hold代表持有当前的股票股份，Buy x_i代表买入相应份额的股票，Sell y_i代表卖出相应份额的股票。

S3.3、强化学习的奖惩函数设置(Reward)

训练强化学习股票交易智能体时，根据智能体在每个交易时段执行决策后的资产数据给予奖励，具体如下：当前交易时段内，若智能体总净资产大于初始资产，且该时段内智能体行动收益率高于股票涨幅，按当前时段总净资产与初始资产的比值给予较高奖励；若智能体总净资产大于初始资产，而收益率低于涨幅，给予较低奖励；当前时段内，若智能体总净资产小于等于初始资产，给予惩罚。

奖惩函数设置为Reward(i)：

其中，条件1表示当前智能体的总净资产大于初始资产；条件2表示交易日之间，智能体行动的收益率高于股票涨幅。

S3.4、强化学习模型应用

本实施例中，选择强化学习模型的近端策略优化PPO算法训练智能体，根据强化学习股票交易环境的观测状态量进行决策选择。PPO是一种On-Policy算法，也是一种新型的Policy Gradient算法，应用新的目标函数使得模型可以在多个训练步骤实现小批量的更新，解决了PG算法中步长难以确定的问题。此外，由于PPO是基于AC架构的模型，能够处理连续动作空间问题，可以根据以下公式进行重要性采样：

其中，f(x)为动作x出现概率的概率密度，p(x)为目标策略出现动作x的概率，q(x)为行为策略出现动作x的概率。

PPO采用概率q采样的均值来代替原来概率p采样的均值，为了使各区域都能被采样，需要缩小p与q的差距，可以用KL散度(相对熵)来量化此差距：

其中，p(x)为目标策略出现动作x的概率，q(x)为行为策略出现动作x的概率。

通过设定一个δ值，当KL散度(相对熵)KL(p||q)＜δ时，可以认为两个概率分布之间的差距不大，PPO则是将这个KL散度值直接放进了梯度中进行计算。

PPO算法具体应用流程为：导入强化学习股票交易环境观测量数据集，应用PPO算法进行训练，给定初始状态，输出动作概率分布，在这些分布中进行重要性采样以避免样本不能重复使用，接着智能体根据求得的动作概率选择并执行动作，得到奖励回报；环境对智能体数据进行记录更新，进入下一个状态，周而复始，训练智能体在股票交易环境中作出合理决策。

实际训练中，可以对模型的学习率(learning_rate)、调度器类型(lr_schedule)、损失熵系数(vf_coef/ent_conf)等参数进行微调以得到更好拟合度的模型。

S3.5、交易决策输出

由上述步骤训练得到强化学习股票交易模型，输入股票交易环境所需观测量，由训练完成的智能体判断决策，输出此观测状态的行动。其中，输出的行动包括：

1.保持，持有当前的股票股份，保持当前仓位；

2.买入，在可支配资金数额内，买入一定份额股票，增加仓位；在当前可支配的股票份额内；

3.卖出，卖出一定份额的股票，减少仓位。

其中，买入、卖出的股票份额为可支配资金或可支配股票份额的百分比。智能体在每个状态下输出的行动共同构成股票交易决策，计算执行决策后智能体的资产收益率，可判断并验证模型效果。

基于相同的发明构思，本实施例还提供基于强化学习算法与时间序列模型的股票交易系统，包括：

数据预处理模块，用于实现步骤S1，对收集的股票数据按类别进行整理，得到股票基础价格数据和企业营运指标数据，然后过滤错误数据、重复数据，数据归一化，预处理完成后得到得到股票数据集；

股票价格预测模块，用于实现步骤S2，建立时间序列模型预测股票价格，对股票基础价格数据集进行划分，建立并训练可用于股票基础价格数据的时间序列GRU模型，输出股票预测价格，并传递至强化学习模型作为股票交易环境状态观测值；

交易行动决策模块，用于实现步骤S3，通过股票交易强化学习模型输出决策，创建强化学习股票交易环境，将股票数据集与股票预测价格数据作为智能体的观测量，设置智能体行动集合和奖惩函数，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。

在本实施例的股票交易系统中，股票价格预测模块首先创建滑动窗口数据集，建立门控循环单元神经网络GRU作为时间序列GRU模型，滑动窗口数据集输入到门控循环单元神经网络GRU，并为每个窗口分配对应的GRU单元，GRU单元对输入的数据进行重置和对学习记忆更新，最后应用时间序列GRU模型输出股票预测价格；GRU单元包括重置门和更新门，重置门对上一GRU单元传输保留下来的状态和当前单元的输入数据进行重置，更新门同时进行遗忘和选择记忆操作。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于强化学习算法与时间序列模型的股票交易方法，其特征在于，包括以下步骤：

S3、通过股票交易强化学习模型输出决策，创建强化学习股票交易环境，将步骤S1的股票数据集与步骤S2的股票预测价格数据作为智能体的观测量，设置智能体行动集合和奖惩函数，应用PPO算法训练智能体得到应用于股票交易的强化学习模型以输出股票交易的行动决策。

2.根据权利要求1所述的股票交易方法，其特征在于，步骤S2包括：

S2.1、创建滑动窗口数据集

预处理完成的股票基础价格数据集以一个X+Y个交易日为滑动窗口数据集单位，前X个交易日股票基础数据作为模型输入训练数据，后Y个交易日股票基础数据作为模型验证测试数据；滑动窗口按交易日时间顺序每次向后推移Y个交易日，直至股票基础价格数据集完成划分；

S2.2、建立门控循环单元神经网络GRU作为时间序列GRU模型

滑动窗口数据集输入到门控循环单元神经网络GRU，并为每个窗口分配对应的GRU单元，GRU单元对输入的数据进行重置和对学习记忆更新；

S2.3应用时间序列GRU模型输出股票预测价格

根据训练GRU模型的验证集损失验证股票价格拟合效果，调整函数中的批处理大小、核心数以及迭代轮数，输出股票的预测价格，用于强化学习作为股票交易环境状态观测值。

3.根据权利要求2所述的股票交易方法，其特征在于，GRU单元包括重置门和更新门，重置门对上一GRU单元传输保留下来的状态和当前单元的输入数据进行重置，更新门同时进行遗忘和选择记忆操作；步骤S2.2包括：

S2.2.1、重置阶段

对上一GRU单元传输保留下来的输出状态和当前单元的输入数据进行重置，通过重置门实现对上一阶段状态和当前状态的拼接；

S2.2.2、更新记忆阶段

使用更新门实现对学习记忆的遗忘和选择操作，根据对更新门函数的控制，选择输入的数据中需要保留或需要遗忘的数据信息，更新门的输出决定记忆遗忘和选择的比例；

S2.2.3、输出阶段

对重置阶段的数据和更新记忆阶段更新的数据使用tanh激活函数进行计算，计算结果与参数矩阵之积经过sigmoid函数得出本轮输出，与上一单元保留的状态做分权矩阵加法得出给下一单元的状态输出；价格预测结果y_t由公式计算得到：

y_t＝σ(W_o·h_t)

其中，σ为激活函数；W_o为输出层权重矩阵；h_t为本轮输出状态，将作为下一单元的状态输入，计算公式为：

其中，

为中间输出状态；tanh为激活函数；

4.根据权利要求3所述的股票交易方法，其特征在于，重置门的输出由以下公式求得：

r_t＝σ(W_r·[h_t-1，x_t])

其中，σ为激活函数；W_r为重置门权重矩阵；h_t-1为上一轮输出状态；x_t为本轮输入；

更新门的输出计算公式为：

z_t＝σ(W_z·[h_t-1，x_t])，

其中，σ为激活函数；W_z为更新门权重矩阵；h_t-1为上一轮输出状态；x_t为本轮输入。

5.根据权利要求1所述的股票交易方法，其特征在于，步骤S3包括：

S3.1、强化学习的环境与状态设置

将状态观测量、智能体行动集合、奖惩函数构、智能体资产数据构成强化学习股票交易环境；每轮循环中，新交易日的状态观测量形成强化学习环境中的状态，经训练的智能体作出行动决策，决策完成后由强化学习环境根据奖惩函数量化智能体的决策优劣，同时更新智能体资产数据；一轮循环完成后，强化学习环境状态刷新进入新循环；

S3.2、强化学习智能体行动集合设置

智能体在每次环境状态更新后执行行动，智能体行动集合包括保持持有当前的股票股份、在可支配资金数额内买入股票、在当前可支配的股票份额内卖出股票，买入、卖出操作的价格由观测环境中股票价格最高价、最低价建立的正态分布概率模型产生的随机值决定；买入、卖出的股票份额由训练完成的强化学习模型得到；

S3.3、强化学习的奖惩函数设置

训练智能体时，根据智能体在每个交易时段执行决策后的资产数据给予奖励：当前交易时段内，若智能体总净资产大于初始资产，且该时段内智能体行动收益率高于股票涨幅，按当前时段总净资产与初始资产的比值给予较高奖励；若智能体总净资产大于初始资产，而收益率低于涨幅，给予较低奖励；当前时段内，若智能体总净资产小于等于初始资产，给予惩罚；

S3.4、强化学习模型应用

选择强化学习模型的PPO算法训练智能体，根据强化学习股票交易环境的观测状态量进行决策选择；

S3.5、交易决策输出

训练得到强化学习股票交易模型，输入股票交易环境所需观测量，由训练完成的智能体判断决策，输出此观测状态的行动，每个状态下输出的行动共同构成股票交易决策。

6.根据权利要求5所述的股票交易方法，其特征在于，奖惩函数为：

7.根据权利要求5所述的股票交易方法，其特征在于，PPO算法根据以下公式进行重要性采样：

8.根据权利要求7所述的股票交易方法，其特征在于，PPO算法采用概率q采样的均值来代替原来概率p采样的均值，用KL散度来量化p与q的差距：

其中，p(x)为目标策略出现动作x的概率，q(x)为行为策略出现动作x的概率；

通过设定一个δ值，当KL散度KL(p||q)＜δ时，认为两个概率分布之间的差距不大，PPO算法则是将这个KL散度值直接放进了梯度中进行计算。

9.基于强化学习算法与时间序列模型的股票交易系统，其特征在于，包括：

10.根据权利要求9所述的股票交易系统，其特征在于，股票价格预测模块中创建滑动窗口数据集，建立门控循环单元神经网络GRU作为时间序列GRU模型，滑动窗口数据集输入到门控循环单元神经网络GRU，并为每个窗口分配对应的GRU单元，GRU单元对输入的数据进行重置和对学习记忆更新，最后应用时间序列GRU模型输出股票预测价格；GRU单元包括重置门和更新门，重置门对上一GRU单元传输保留下来的状态和当前单元的输入数据进行重置，更新门同时进行遗忘和选择记忆操作。