CN110378382A

CN110378382A - 基于深度强化学习的新型量化交易系统及其实现方法

Info

Publication number: CN110378382A
Application number: CN201910527889.1A
Authority: CN
Inventors: 唐华; 郭一祺; 林怿星; 赵淦森; 莫晓珊
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-25

Abstract

本发明公开了基于深度强化学习的新型量化交易系统及其实现方法，系统包括增量型数据集构建模块、预测模块、决策模块以及评分模块；方法包括：通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集；对增量型数据集进行预测处理；根据深度强化学习技术对预测处理的结果进行强化学习，生成状态‑动作值函数的值；生成对预测处理的输出值的第一评分结果，以及对状态‑动作值函数的值的第二评分结果。本发明提升了训练数据的维度、预测的精确度和决策准确度；通过本发明的量化交易系统，提高了交易策略的可靠性，可广泛应用于深度学习技术领域。

Description

基于深度强化学习的新型量化交易系统及其实现方法

技术领域

本发明涉及深度学习技术领域，尤其是基于深度强化学习的新型量化交易系统及其实现方法。

背景技术

数字货币价格数据本质上是金融时序数据，在当前的国内外研究状况条件下，金融时序数据预测主要采用机器学习方式和深度学习方式来实现。基于预测的金融数据分析方法成功应用于金融产品的运动趋势预测问题，但是很多基于预测的方法并没有明确指出如何根据预测信息建立可盈利的策略，即没有显示说明如何使用预测信息，因此，现有技术提出了基于强化学习的决策处理。

目前，现有技术的预测处理一般通过RNN方法来实现，这种方法虽然能够记忆部分上下文信息，但它无法记录长期的记忆；于是，现有技术使用了长短期记忆网络等改进的循环神经网络来对金融时序数据进行预测。尽管大型的金融时序数据对训练循环神经网络而言具有强大的鲁棒性，但这种方式对时序数据的拟合精度较低。

另外，自动化软件可以监控比人类更多的市场，尤其是其稳定性。人类用户在进行交易时会依靠自己的情感心理判断，这会导致交易策略的不可靠性。

发明内容

有鉴于此，本发明实施例提供一种精确度高且可靠性高的，基于深度强化学习的新型量化交易系统及其实现方法。

第一方面，本发明实施例提供了基于深度强化学习的新型量化交易系统，包括：

增量型数据集构建模块，用于通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集；

预测模块，用于对增量型数据集进行预测处理；

决策模块，用于根据深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值；

评分模块，用于生成对预测模块输出值的第一评分结果，以及对决策模块输出值的第二评分结果。

进一步，所述增量型数据集构建模块包括：

标准化单元，用于通过标准化技术对原始数据进行标准化转换；

归一化单元，用于对标准化转换结果进行归一化处理；

特征筛选单元，用于采用堆叠去噪自编码算法对归一化处理后的数据进行特征筛选；

数据集生成单元，用于根据筛选得到的数据生成增量型数据集。

进一步，所述特征筛选单元包括：

编码单元，用于通过SDAE编码器对归一化处理后的数据进行编码处理；

合并单元，用于将编码处理得到的多个矩阵进行合并处理，生成预测矩阵。

进一步，所述决策模块包括：

状态值函数计算单元，用于计算预测结果对应的标量状态值函数的值；

动作优势函数计算单元，用于计算预测结果对应的具体状态下的动作优势函数的值；

合并计算单元，用于将标量状态值函数的值和动作优势函数的值进行合并，得到状态-动作值函数的值。

进一步，还包括：

存储模块，用于存储第一评分结果和第二评分结果。

第二方面，本发明实施例还提供了基于深度强化学习的新型量化交易系统的实现方法，包括以下步骤：

通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集；

对增量型数据集进行预测处理；

根据深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值；

生成对预测处理的输出值的第一评分结果，以及对状态-动作值函数的值的第二评分结果。

进一步，所述通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集这一步骤，包括以下步骤：

通过标准化技术对原始数据进行标准化转换；

对标准化转换结果进行归一化处理；

采用堆叠去噪自编码算法对归一化处理后的数据进行特征筛选；

根据筛选得到的数据生成增量型数据集。

进一步，所述采用堆叠去噪自编码算法对归一化处理后的数据进行特征筛选这一步骤，包括以下步骤：

通过SDAE编码器对归一化处理后的数据进行编码处理；

将编码处理得到的多个矩阵进行合并处理，生成预测矩阵。

进一步，所述根据深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值这一步骤，包括以下步骤：

计算预测结果对应的标量状态值函数的值；

计算预测结果对应的具体状态下的动作优势函数的值；

将标量状态值函数的值和动作优势函数的值进行合并，得到状态-动作值函数的值。

进一步，所述原始数据为预设时间段内的数据，所述原始数据的采集精度为分钟级别。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明的实施例通过AutoEncoder模型对原始数据进行特征提取，相较于现有通过循环神经网络来进行预测的方式，本发明通过增量数据提升了训练数据的维度，并提高了预测的精确度；另外，本发明在决策模块中通过深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值，提高了决策准确度；通过本发明的量化交易系统，有助于避免人为判断过程中产生的误差，提高了交易策略的可靠性。

附图说明

图1为本发明的量化交易系统的结构示意图；

图2为本发明实施例的步骤流程图；

图3为本发明实施例的预测过程的步骤流程图；

图4为本发明实施例的决策过程的步骤流程图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了基于深度强化学习的新型量化交易系统，包括：

预测模块，用于对增量型数据集进行预测处理；

进一步作为优选的实施方式，所述增量型数据集构建模块包括：

归一化单元，用于对标准化转换结果进行归一化处理；

进一步作为优选的实施方式，所述特征筛选单元包括：

进一步作为优选的实施方式，所述决策模块包括：

参照图1，进一步作为优选的实施方式，还包括：

存储模块，用于存储第一评分结果和第二评分结果。

参照图2，本发明实施例还提供了基于深度强化学习的新型量化交易系统的实现方法，包括以下步骤：

对增量型数据集进行预测处理；

进一步作为优选的实施方式，所述通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集这一步骤，包括以下步骤：

通过标准化技术对原始数据进行标准化转换；

对标准化转换结果进行归一化处理；

根据筛选得到的数据生成增量型数据集。

进一步作为优选的实施方式，所述采用堆叠去噪自编码算法对归一化处理后的数据进行特征筛选这一步骤，包括以下步骤：

通过SDAE编码器对归一化处理后的数据进行编码处理；

将编码处理得到的多个矩阵进行合并处理，生成预测矩阵。

进一步作为优选的实施方式，所述根据深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值这一步骤，包括以下步骤：

计算预测结果对应的标量状态值函数的值；

计算预测结果对应的具体状态下的动作优势函数的值；

进一步作为优选的实施方式，所述原始数据为预设时间段内的数据，所述原始数据的采集精度为分钟级别。

下面详细描述本发明的基于深度强化学习的新型量化交易系统的实现方法：

(一)、名词解释：

1.AutoEncoder：AutoEncoder是一种无监督学习算法，其利用反向传播算法，让输出的目标值等于输入的目标值，通俗来说，AutoEncoder在尝试学习一个的函数，也就是说AutoEncoder尝试逼近一个恒等函数，使得输出近似于输入的x。

2.Stacked Denoising AutoEncoder：可视为一个在自编码基础上通过对输入样本添加一定量高斯白噪声，将“加盐”的数据再输入DAE中，迫使隐藏层去学习输入数据更加相关的鲁棒性特征，可提高AE的泛化能力以及隐藏层的特征表达能力。

3.LSTM：循环神经网络(Recurrent Neural Networks，RNN)是一种具有记忆功能的网络，但其存在梯度消失或者梯度爆炸等问题，LSTM(Long Short Term MemoryNetWork，长短期记忆模型)使用刻意设计来避免长期依赖问题。LSTM神经网络记忆信息和更新细胞状态由遗忘门、输入门和输出门来完成。

(1)输入门：I_t＝σ(w_i·h_t-1+w_i·x_i+b_i)

(2)输出门：O_t＝σ(w_o·h_t-1+w_o·x_i+b_o)

(3)遗忘门：F_t＝σ(w_f·h_t-1+w_f·x_i+b_f)

(4)候选细胞状态：

(5)候选隐藏状态：H_t＝O_t⊙tanh(C_t)

4.GRU：门控循环单元，与LSTM提出原理相同，但是门控循环单元引入重置门(reset gate)和更新门(update gate)概念，从而修改RNN中隐藏状态。

(1)重置门：R_t＝σ(w_r·h_t-1+w_r·x_t+b_r)

(2)更新门：Z_t＝σ(w_z·h_t-1+w_z·x_t+b_z)

(3)候选隐藏状态：H_t＝tanh(x_tw_h+(R_t⊙H_t-1)w_h+b_h)

5.DQN：深度强化学习(Deep Reinforcement Learning,DRL)是一种端对端(end-to-end)的感知与控制系统，与环境策略配合后具有极强的通用性。其过程可以描述为：

(1)在每个时刻agent与环境交互得到一个高维度的观察，并利用DL方法来感知观察，以得到具体的状态特征表示；

(2)基于预期回报来评价各动作的价值函数，并通过某种策略将当前状态映射为相应的动作；

(3)环境对此动作做出反应，并得到下一个观察.通过不断循环以上过程，最终可以得到实现目标的最优策略；

6.DRQN：将DQN中的神经网络替换为RNN结构，具体效果依据环境而定。

7.Double DQN：DDQN和Nature DQN一样，也有一样的两个Q网络结构。在NatureDQN的基础上，DDQN通过解耦目标Q值动作选择和目标Q值计算这两步来消除DQN中过度估计问题。

8.Double DRQN：深度双Q网络，由DQN改进基础架构所得。

9.Dueling Double DQN：竞争双Q网络。

10.Dueling Double DRQN：竞争双Q循环神经网络。

11.RMSE：均方根误差度量真实值与预测值之间的相对偏差，其值越小则越表明预测值越接近真实值，其计算公式如下所示：

其中，n为样本总数，y_i和p_i分别为第i个样本数据的真实值和预测值。

12.预测阶段：本发明的系统包括预测阶段，即使用深度学习方案对数字货币数据进行预测。

13.决策阶段：决策阶段使用强化学习方案对数据进行交易的决策，衡量该时间段内是否需要进行交易，优化目标为让模型所学习出来的效果最优化。

14.决策阶段深度强化学习模型对验证集(Test Set)进行验证。计算在每个阶段内交易获利率，可用如下公式表示：

其中，R₂₄代表24小时内收益，A₀代表投资的本金，I_R代表投资内的收益，T代表投资分钟数。

15.目标函数：一个工程设计问题，常有许多可行的设计方案，最优化设计的任务是要找出其中最优的一个方案。评价最优方案的标准应是在设计中能最好地反映该项设计所要追求的某些特定目标。通常，这些目标可以表示成设计变量的数学函数，这种函数称为目标函数。目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。

16.算法复杂度：算法复杂度是指算法在编写成可执行程序后，运行时所需要的资源，资源包括时间资源和内存资源。同一问题可用不同算法解决，而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度和空间复杂度来考虑。

(二)、具体实施步骤：

自动化软件可以监控比人类更多的市场，尤其是其稳定性。人类用户在进行交易时会依靠自己的情感心理判断，这会导致交易策略的不可靠性。但是自动量化交易策略能有效稳定输出该种情况，系统能根据模型自身对价格涨幅的判断来进行系统维护。自动化量化交易系统在实际生产中反应速度比人为操作快，当出现交易信号时，人类操作可能会冻结或质疑交易，但自动化量化交易系统的快速反应有利于快速变化的市场条件。一旦策略弱化，就可以在不同市场条件下，揭示该计划的弱点和优势。例如，可能在趋势市场中表现量化，但是在不同市场中表现不佳。

本发明构造的自动量化交易系统主要由下面4个模块组成，分别是增量型数据集构建模块、预测模块、决策模块以及评分模块。

(1)增量型数据集构建模块：本发明提出一种增量型数据的预测方法，将原始的数据输入到AutoEncoder模型中进行特征提取，提取后的数据与原始数据合并后归一化到原先的数据池后输入到LSTM模型中进行预测。考虑到金融时序数据容易受到人为干扰而影响准确性，所以在Stacked AutoEncoder中添加高斯白噪声模拟虚拟货币在某个历史时期量化大资本对数字货币价格干扰。

具体地，增量型数据集构建模块包括以下步骤：

1)、使用Stacked DionsedAutoEncoder来实现价格特征筛选并获取新型有利特征。由于量化数据所涉及到的数据量很大，故本实施例使用单一代表性数据(特定列，例如收盘价)来做回归预测，以提高鲁棒性。对于深度学习而言，大多数行为特征往往是无用的，深度学习网络希望尽可能保留的是对网络数据有用的参数特征，故本实施例使用SDAE来进行特征筛选，其中加入高斯白噪声是为了模拟数字货币背后资管团队的人为操作。从工程层面来看，SDAE所筛选的数据特征具有更加明显的特征性。

本实施例的预测过程公式包括：

其中，f_θ(x)可视为编码层函数(Encoder)，为解码层(Decoder)函数，h是多层编码后得到神经网络隐藏层状态、y是最终输出结果、σ为添加白噪声比例、I是经过加盐变换时整个网络参数；f可视为非线性变化神经网络层，W_ij与是神经网络中权重矩阵，b_ij与是神经网络中相关权重截距，在噪声因子以及分布权重I下输入第i个时刻的数据x_i部分值放入一个噪声函数q_D中，本实施例可以按噪声分布加入训练样本x得到含噪声的样本通过将输入数据x的部分值放入一个噪声函数q_D中，本实施例可以按噪声分布加入训练样本x得到含噪声的样本在编解码过程中，通过“加盐”的方式加入高斯白噪声。

如图3所示，以下是真实数据的拟合方式，首先是选取所需预测的金融时序数据，包含开盘价、收盘价、每分钟内的成交货币数等维度信息，组合形成输入矩阵X，以供后续的标准化处理。

1.1)、通过数据选取一定维度，使用Min-Max标准化(Min-Max Normalization)，将原始的输入矩阵X映射至[0-1]之间，转换函数如下：

其中，max为样本数据各个列标所对应的最大值，min为样本数据的最小值；x_i ^*代表着i时刻数据标准化后x的值。n是输入矩阵所对应的列数，将每一列的数据映射至[0-1]区间内，获取归一化矩阵M，将这个归一化的矩阵输入至深度表征模型后再次输入到循环神经网络模型中进行学习。

1.2)、基于堆叠去噪自编码算法构建一个含有多个隐藏层的深度特征学习模型，预训练原始数据，具体步骤如下：

网络结构由输入层、输出层以及m个隐藏层所组成，把矩阵M作为特征学习模型的输入层，数据集经过SDAE编码器编码C＝AW得到特征集C，A代表权重矩阵。然后，将C作为下一个编码器的输入，不断重复，同时在此过程中执行“加盐”处理，最终得到m层的稀疏自动编码模型，获得最终的编码模型并放置进入原始矩阵中进行合并处理(concate)，形成新的表征矩阵F，其中F是与M不同的维度的矩阵。

1.3)、将上述所得到的矩阵一同输入RNN模型中得到最终的预测矩阵，预测的最终目标就是输入矩阵中数字货币的收盘价格，并最终拟合接近最近的曲线以及收盘价格，以供后面的深度强化学习使用，形成最终自动量化交易系统。

(2)预测模块：本实施例的预测模块使用单一的RNN模型，例如LSTM/GRU等改进循环神经网络模型就可以在增量型数据模型上达到一个良好的效果。

(3)决策模块

对于决策模块，往往是希望构建一个智能的量化交易系统。本发明提到的强化学习，其是一套符合生物规律的智能体学习框架，但与环境的交互注定了深度强化学习训练缓慢的本质。本发明提出由于深度强化学习在进行数据采样时，为了保证模型训练速度问题，不单单考虑的是小批量采样(mini-batch)时整个网络的更新速度，而加重要的考虑是采样不足导致的深度强化网络存在过拟合和欠拟合等问题。对于金融时序数据而言，本实施例采用更为可靠的以分钟为单位的训练数据来解决训练模型可靠性，同时将平衡训练速度与深度强化模型的鲁棒性，预测与决策阶段仅考虑未来24小时(即1440分钟内决策数据的买卖)。如图4所示，本发明的决策阶段使用Dueling Double DQN的思想，将通过GRU层取到的抽象特征分流到全连接层的两条支路中。一条支路代表标量状态值函数V(s)，另一条代表某个状态下动作优势函数(advantage function)A(s,a)，最后输出模块将这两条支路合并起来得到每个动作的Q值。

具体地，所述动作优势函数定义如下：

A^π(s,a)＝Q^π(s,a)-V^π(s)

其中，奖励值函数V衡量了状态s的好坏程度，在π时刻状态下，Q^π(s,a)衡量了在这个状态s下选择某个特定动作a的奖励值的大小，优势函数A^π(s,a)则衡量了这个状态s下各个动作的相对好坏程度。根据优势函数的定义构造Q函数如下：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中a和b分别是两条支路的参数，θ为DQN的参数。然而按以上优势函数构造的Q函数无法得到唯一解，即：给定一个Q值，无法得到唯一的V和A，比如在V上加上一个值，在A上再减去同一个值，得到的是相同的Q值。因此由于这种问题的存在，在实际学习中直接使用上述公式时，学习的效果较差。

为了解决这个问题，本实施例令贪婪动作选择时的优势函数为零：

为了进一步改进学习效果，将上式最大算子替换成优势函数的平均值：

本实施例以移动K线来证明此实验的有效性。当深度强化模型在学习阶段时，以两个阶段(买与卖)之间的是否获利来训练这个阶段的模型。因此有3种获利情况，记利润为profit，简记为p。而系统与环境交互后获利为reward，简记为r。

本实施例将强化学习阶段所需符号表述为如下：

·将买卖阶段内为盈利状态视为学习所得到奖励reward；

·将交易上下文信息(回报、亏损)等观察序列obs作为状态序列；

·将交易动作作为学习行为action；

·交易所发生上下文信息认为是环境因素Environment；

实验无论是近似函数或概率密度函数，都需要利用神经网络来表达存储当前“函数”。初始化时刻可以选择历史时刻的观测状态作为观测状态histroy，在历史时刻中，初始化时刻使用动态规划策略来初始化交易记录以此存入MemoryPool，相较于随机初始化交易状态，本发明能有效提升模型在接下来的学习效果。神经网络训练特征为函数所得观测值，并将其转换为动作选择。

Duling Double DRQN的训练过程如下：强化学习阶段中，由预测阶段所构建的收盘价格Close_F作为强化学习阶段的输入，当前Dueling Double Q-NetWork会预测即将可被出售的时刻点，时刻点是由深度神经网络所学习得到。当前金融资产Close_F经过系统判别在这段交易时期内是否有收益，给予系统一个即使奖励r，并监督网络盈利转台reward，并将买卖时所更新的下一个状态记为s'，样本(s,a,r,s')被存入记忆池MemoryPool中。从经验池中取出一个样本，将(s,a)输入到当前Q网络后得到Q_ψ(s,a)，将新的买卖记录状态s'输入到目标Q网络后，得到max_a'Q_ψ(s,a)，然后计算Dueling Double DQN网络的误差函数梯度，利用该梯度更新当前Q网络的参数上，并将当前Q网络的参数赋值给目标Q网络，然后当前Q网络继续更新神经网络参数，目标Q网络参数固定不动，一段时间后，将当前Q网络参数赋值给目标Q网络，使之形成迭代更新。于此同时，在最终动作决策阶段中，由于竞争网络的加入，会将循环神经网络层所提取到的特征分流到两个支路中，其中上路代表着状态价值函数V(s)，表示静态状态环境本身具有的价值，下路代表依赖状态的动作优势函数A(a)，表示选择某个动作action所带来的额外价值，最终将这两路进行再聚合得到每个动作动作的Q值，本专利中即利用到了DDQN能估计出更加准确的Q值，又能利用竞争结构学到在没有动作影响下的状态价值V(s)，这样可以保证各个状态下动作的优势函数相对排序不变，但是也可以缩小Q值的范围，去除多余的自由度，提高算法的准确性。

系统在得到模型训练的结果后，若是买卖阶段内为盈利状态，记录p并且将r＝1，反馈给环境Environmental，作为学习奖励值。最终输出该段时间内若有无限额本金时，系统经过下述条件假设时最终的获利率：

在优化损失函数的过程中，考虑到Adam算法通过两次矩阵估算使学习率在拟合过程中不固定，加速收敛速度，故本实施例对Adam算法进行优化，实验证明，Adam算法在DeepQ-NetWork的训练中具有明显的优势。

(4)评分模块

对于评分模块而言，分为两大类评分模块，分别是预测阶段的RMSE以及决策阶段的日化收益率，选用日化收益率来确保未来24小时相较于传统自动量化交易方案具有更加可靠性的方案。对于自动量化交易系统而言，可以说是一种允许无数次买卖的过程，可以视为这段时间决策过程。

其中，RMSE评价公式如下：

其是观测值于真实偏差的平方和观测次数N的壁纸的平方根，在实际测量中，观测次数N总是有限的，真值只能用最可信赖(最佳)值来替代。另外，X_rms代表总偏差程度；X_obs,i代表第i分钟数字货币真实值；X_model,i代表第i分钟的模型预测值；

对于决策阶段，使用下面的公式进行判断，具体地，假设投资人投入本金C于市场，在时间阶段T后其市值变为V，故记收益P＝V-C，收益率为：但其日化收益率计算的是机器一日内重复的投资次数，D表示一日的有效时间，在连续多期的投资情况下，日化收益率为：

(5)数据存储方案

本实施例中，前台以Web形式展示，后台以两个数据库，其中一个是备份数据库来进行保存。

综上所述，本发明基于深度强化学习的新型量化交易系统及其实现方法具有以下特点：

1)使用Stacked DionsedAutoEncoder来实现价格特征筛选并获取新型有利特征。由于量化数据所涉及到的数据量很大，故可以使用单一代表性数据(特定列，例如收盘价)来做回归预测就已经具有较优的鲁棒性。但对于深度学习而言，大多数行为特征往往是无用的，深度学习网络希望尽可能保留的是对网络数据有用的参数特征，故使用SDAE来进行特征筛选，其中加入高斯白噪声是为了模拟数字货币背后资管团队的人为操作。从工程层面来看，SDAE所筛选的数据特征具有更加明显的特征性。

2)经验回放策略中初始化状态使用动态规划方案，选取出更加适宜初始化的动态规律。

3)强化学习阶段，在进行数据抓取以及构建平衡数据集时，选取历史时间段为近期1个月内数据(由于数据精确至分钟级别)，故在训练完成能记录该时间段有效时间序列特性(由于虚拟货币甚至股票数据在某一天内跌幅甚至涨幅不会过大)。

4)使用Dueling Double DRQN构建新型量化交易系统。

本发明利用SDAE来创建出新型特征，结合原有模型输入LSTM/GRU来实现价格预测；同时利用Dueling Double DQN来实现自动量化交易系统的构建。

本发明具有以下优点：

1)、引入SDAE增量数据方式，使得训练数据维度提升，从特征工程角度上看，有利于提高预测的精确度；

2)、引入Duleing抽取输入的观测特征分流成两条之路，一条是代表标量状态值函数V(s)，另一条是代表某个动作优势函数A(s,a)，将这两条支路合并起来得到每个动作的Q值从而更新整个深度强化学习网络。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明并且采用方块图的形式举例说明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于深度强化学习的新型量化交易系统，其特征在于：包括：

预测模块，用于对增量型数据集进行预测处理；

2.根据权利要求1所述的基于深度强化学习的新型量化交易系统，其特征在于：所述增量型数据集构建模块包括：

归一化单元，用于对标准化转换结果进行归一化处理；

3.根据权利要求2所述的基于深度强化学习的新型量化交易系统，其特征在于：所述特征筛选单元包括：

4.根据权利要求1所述的基于深度强化学习的新型量化交易系统，其特征在于：所述决策模块包括：

5.根据权利要求1所述的基于深度强化学习的新型量化交易系统，其特征在于：还包括：

存储模块，用于存储第一评分结果和第二评分结果。

6.基于深度强化学习的新型量化交易系统的实现方法，其特征在于：包括以下步骤：

对增量型数据集进行预测处理；

7.根据权利要求6所述的基于深度强化学习的新型量化交易系统的实现方法，其特征在于：所述通过AutoEncoder模型对原始数据进行特征提取，并将提取到的特征进行归一化处理和筛选处理，生成增量型数据集这一步骤，包括以下步骤：

通过标准化技术对原始数据进行标准化转换；

对标准化转换结果进行归一化处理；

根据筛选得到的数据生成增量型数据集。

8.根据权利要求7所述的基于深度强化学习的新型量化交易系统的实现方法，其特征在于：所述采用堆叠去噪自编码算法对归一化处理后的数据进行特征筛选这一步骤，包括以下步骤：

通过SDAE编码器对归一化处理后的数据进行编码处理；

将编码处理得到的多个矩阵进行合并处理，生成预测矩阵。

9.根据权利要求6所述的基于深度强化学习的新型量化交易系统的实现方法，其特征在于：所述根据深度强化学习技术对预测处理的结果进行强化学习，生成状态-动作值函数的值这一步骤，包括以下步骤：

计算预测结果对应的标量状态值函数的值；

计算预测结果对应的具体状态下的动作优势函数的值；

10.根据权利要求6所述的基于深度强化学习的新型量化交易系统的实现方法，其特征在于：所述原始数据为预设时间段内的数据，所述原始数据的采集精度为分钟级别。