CN108629690A

CN108629690A - 基于深度强化学习的期货量化交易系统

Info

Publication number: CN108629690A
Application number: CN201810399735.4A
Authority: CN
Inventors: 郑相涵; 谢维鹏; 杨旸; 郭文忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-09
Anticipated expiration: 2038-04-28
Also published as: CN108629690B

Abstract

本发明涉及一种基于深度强化学习的期货量化交易系统，包括：K线走势模块、策略回测模块、量化选股模块、风险监控模块、持仓控制模块、策略切换与商品切换模块、机器学习模块、期货策略库模块以及信号处理与实盘交易模块。本发明提出的一种基于深度强化学习的期货量化交易系统，提供机器学习模块，在量化选股阶段利用机器学习算法，筛选出优质期货商品，对运行的策略进行监控，训练强化学习模型对策略实现自动切换，也可以直接通过训练好的强化学习模型，直接对期货进行交易操作。

Description

基于深度强化学习的期货量化交易系统

技术领域

本发明涉及一种基于深度强化学习的期货量化交易系统。

背景技术

金融投资市场是一个低信噪比的、复杂的非线性系统，机器学习在诸多领域如搜索和语音识别中均被证明是针对模糊非线性数据进行建模的强有力工具，通过过去的数据进行分析或者回归来预测未来信息的走势。因此，使用机器学习方法来构建量化投资策略具有一定的天然优势。

发明内容

本发明的目的在于提供一种基于深度强化学习的期货量化交易系统，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于深度强化学习的期货量化交易系统，包括：

量化选股模块，根据期货数据以及期货评论数据，通过机器学习模块进行数据分析，根据数据分析结果得到期货未来走势信息，为用户推荐出对应的期货；

风险监控模块，用于对当前持仓、交易策略、获利以及亏损情况进行监控；

持仓控制模块，根据期货未来走势信息，通过运用机器学习模块数据分析后选择的期货策略，对资金分配，进行加仓操作、减仓操作、平仓操作；

策略切换与商品切换模块，根据所述量化选股模块提供的信息，通过机器学习模块建立对应的切换模型，提供对期货策略以及期货商品进行全自动切换功能；

机器学习模块，提供情感文本分析模型、线性回归模型、小波分析模型以及强化学习模型，用于为所述量化选股模块以及所述策略切换与商品切换模块提供数据分析以及模型建立。

在本发明一实施例中，所述量化选股模块中，所述机器学习模块通过采用线性回归模型、所述情感文本分析模型以及所述小波分析模型进行数据分析，获取每种模型预测结果对应的期货集合，选取期货集合中相同的期货作为推荐期货。

在本发明一实施例中，所述线性回归模型通过如下方式进行数据分析：

S11：期货数据包括每天的开盘价open_i、最高价high_i、最低价low_i、收盘价close_i、交易量volume_i与期货评论数据i；

S12：令数据格式为(X_i，Y_i)，X_i为[close_i,HP_i,PCT_i,volume_i]，其中， HP_i＝(high_i-low_i)/close_i，PCT_i＝(close_i-open_i)/open_i；Y为close_i+5，即五天后的收盘价，将X_i进行标准化得到X_i(ST)；

S13：建立线性回归函数：

h＝W^ΤX_ST

其中，W＝(θ₁,θ₂,θ₃,θ₄)，θ_i为待求的参数；记代价函数m为期货数据总天数，Y_i为第i+5天的收盘价；利用梯度下降随机选择一组θ，通过梯度下降更新使得J(θ) 最小,α是学习率，是对代价函数对θ_j求偏导数；

S14：将预测日期前五天的X_i(ST)数据输入训练好的线性回归函数模型，对应得到h(X_i(ST))为预测的收盘价，并获取该预测的收盘价对应的期货。

在本发明一实施例中，所述情感文本分析模型通过如下方式进行数据分析：

获取期货评论数据i，将前五天股民情绪信息作为期货后五天的走势信息，通过snowNLP文本情感处理库计算每条评论的情感值i.emotion，将i.num为当天对该期货的评论总数，对其求均值作为当天的股民情绪，情感均值通过如下方式获取，并获取该情感均值对应的期货：

在本发明一实施例中，所述小波分析模型通过如下方式进行数据分析：

对由每天收盘价以及对应的日期组成的序列，进行小波分解，分解为两层，即Z＝D1+D2+D3+A3，其中D1、D2、D3分别为第一层、第二层、第三层分解得到的高频信号，A3为第3层分解得到的低频信号，得到各层小波系数；然后对各层小波系数分别建立ARMA模型，对各层小波系数进行预测，用得到的预测小波系数重构数据，并获取经重构数据后获取的收盘价对应的期货。

在本发明一实施例中，通过所述强化学习模型为所述策略切换与商品切换模块建立策略切换模型，提供策略切换功能：

S21：记S为每组由近期4个交易日前9天的收盘价组成的图像的集合；s_t∈S 表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像；记A为agent 可执行策略切换动作的集合；a_t∈A表示agent在t时刻所采取的策略切换动作；记ρ:S×A→R为奖赏函数；r_t～ρ(s_t,a_t)表示agent在状态s_t执行策略切换动作a_t获得的立即奖赏值；

S22：将s_t进行灰度处理，输入到一深度卷积神经网络，通过Reward选取：

其中，为当前做出策略切换时的收盘价；为上一次做出策略切换时的仓位收盘价；为当前做出策略切换时的持仓情况，多仓为正，空仓为负；为上一次做出策略切换时的持仓情况，多仓为正，空仓为负；

通过一贝尔曼方程得：

Q(s,a)＝E[r+γmax_a'Q(s',a')]

其中，Q值为含折扣因子的累计奖励，也即累计收益率，r是指当前动作产生的回报E表示对其求期望，γ为折扣因子，max_a'Q(s',a')为上一次策略切换的最大的Q值；

S23：基于DQN网络，通过采用经验回放方法，在线处理得到的转移样本e_t＝(s_t,a_t,r_t,s_t+1)，s_t为当前输入到深度卷积神经网络中的4幅收盘价图像，s_t+1为下一交易日输入到网络中的4幅收盘价图像，a_t、r_t分别为采用切换策略的动作和对应的回报；在每个时间步t，将agent与环境交互得到的转移样本存储到回放记忆单元D＝{e₁,...e_t}中；训练时，每次从回放记忆单元D中随机抽取预设批量的转移样本，并使用随机梯度下降算法更新深度卷积神经网络参数θ；

令Q(s,a|θ_i)表示当前值网络的输出，即采用切换策略动作a，得到的最大交易回报Q，用来评估当前状态动作对的值函数；表示目标值网络的输出，将作为值函数的优化目标，即目标Q值；当前值网络的参数θ实时更新的，每经过N轮迭代，将当前值网络的参数复制给目标值网络，并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数，其中，用于最小化的误差函数为：

L(θ_i)＝E_s,a,r,s'[(Y_i-Q(s,a|θ_i))²]

对参数θ求偏导，得到以下梯度

通过更新梯度；

S24：通过以上步骤的训练，得到最优的深度卷积神经网络模型，生成获得最大利益的策略切换模型。

在本发明一实施例中，通过所述强化学习模型为所述策略切换与商品切换模块建立商品切换模型，提供商品切换功能：

S31：记C为每组由近期4个交易日前9天的KD指标组成的图像的集合； c_t∈C表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像；D 为agent可执行策略切换动作的集合；d_t∈D表示agent在t时刻所采取做多和做空，每次动作为1手操作；β:C×D→G为奖赏函数；g_t～β(c_t,d_t)表示agent 在状态c_t执行买卖动作d_t获得的立即奖赏值；

S32：将期货的最近4个交易日前9天的KD技术指标曲线经过灰度处理后作为卷积神经网络的输入，使用卷积神经网络对其特征进行提取；

S33：Reward选取：

其中，为当日仓位下的收盘价；为上一日的仓位收盘价；为当日持仓情况，多仓为正，空仓为负；为上一日持仓情况，多仓为正，空仓为负；

由一贝尔曼方程得：

U(c,d)＝E[g+γmax_d'U(c',d')]

其中，g是指当前动作产生的回报E表示对其求期望，U为含折扣因子的累计奖励，也即累计收益率，γ为折扣因子；

S34：基于所述卷积神经网络，采用经验回放方法，在线处理得到的转移样本e_t＝(c_t,d_t,g_t,c_t+1)；其中，c_t为当前输入到卷积神经网络中的4幅KD指标图像，c_t+1为下一交易日输入到网络中的4幅KD指标图像，d_t,g_t分别为采用交易信号的动作和对应的回报；

在每个时间步t，将agent与环境交互得到的转移样本存储到回放记忆单元 D＝{e₁,...e_t}中；训练时，每次从D中随机抽取预设批量的转移样本，并使用随机梯度下降算法更新卷积神经网络参数η；

U(c,d|η_i)表示当前值网络的输出，用来评估当前状态动作对的值函数；表示目标值网络的输出，采用表示值函数的优化目标，即目标U值；当前值网络的参数η是实时更新的，每经过N轮迭代，将当前值网络的参数复制给目标值网络；通过最小化当前U值和目标U值之间的均方误差来更新网络参数，其中，最小化误差函数为：

V(η_i)＝E_c,d,g,c'[(M_i-U(c,d|η_i))²]

对参数η求偏导，得到以下梯度：

S35：通过以上步骤的训练，得到最优的卷积神经网络模型，生成做空做多动作让累积收益最大的商品切换模型。

在本发明一实施例中，还包括：

K线走势模块，用于为用户呈现K线走势；

策略回测模块，用于根据历史数据模拟交易，得到金融指标、收益情况以及风险情况，为用户对期货策略的预选择提供参考；

期货策略库模块，用于为用户提供对应的期货策略；

信号处理与实盘交易模块，根据期货策略、风险监控和持仓情况发出交易指令至交易所。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于深度强化学习的期货量化交易系统，在现有的量化交易系统上增加机器学习模块，在量化选股阶段利用机器学习算法，筛选出优质期货商品，对运行的策略进行监控，训练强化学习模型对策略实现自动切换。也可以直接通过训练好的强化学习模型，直接对期货进行交易操作。通过机器算法分析给出策略的最佳组合与实时的调整，与现阶段的主流量化平台相比，还具有以下优点：策略选择具有个性化选择，依据不同的风险等级承受能力，匹配对应风险等级的策略；运用机器学习的方法，对策略选择进行优化，让量化交易的过程中收益最大化。

附图说明

图1为本发明中系统架构图。

图2为本发明中一系统功能模块图。

图3为本发明中另一系统功能模块图。

图4为本发明中机器学习模块功能示意图。

图5为本发明中系统运行流程图。

图6为本发明中DQN模型结构示意图。

图7为本发明中DQN网络训练流程图。

图8为本发明中深度强化学习策略网络结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出一种基于深度强化学习的期货量化交易系统，能根据历史交易数据，社会舆论数据，预测期货未来走势，通过本地策略库，以及强化学习对策略的选择，切换，执行；整体框架图如图1所示，包括以下部分：

量化选股模块：通过第三方数据，运用文本分析，结合情绪信息走势得到期货未来走势；通过运用机器学习直接预测期货未来趋势，结合当前市场，用于推荐出合适期货合约。

策略回测模块：用户选取完合约之后，进一步的对策略进行选择，策略的好坏，不能直接观察到，依据历史数据，模拟交易，得到的各种金融指标，收益情况，以及风险情况，方便用户对不同风险等级，对策略进行预选择。

信号实盘交易模块：根据策略，以及风险监控和持仓情况发出交易指令，严格的发送给交易所，保证命令执行的严格且高效。

策略切换与商品切换模块：本系统既有手动人工干预，又可实现结合机器学习算法，只需一键开启，即可实现全自动交易，选股模块，选择合适期货，依据回测模块，选择当前最合适的策略，依据机器学习算法，对策略进行全自动切换，使得收益最大化。

风险监控模块：对当前持仓，交易策略，获利，亏损情况进行监控，及时对策略进行调整，及时止损。

持仓控制模块：根据后期的期货走势运用机器学习选择的策略执行，对资金的分配，进行加仓，减仓，平仓等操作。

机器学习模块:本模块包括小波分析算法、sklearn提供线性回归模型、基于期货评论的情感分析算法、强化学习等算法，为量化选股，策略切换和交易提供算法保障。

进一步的，在本实施例中，系统运行流程主要包括量化选股与量化方法，如图5所示。

进一步的，在本实施例中，在量化选股阶段，选股方案包括线性回归函数建模，文本分析，小波变换三个算法同步进行综合筛选，通过上述三个算法获取的预测结果，为用户推荐期货。

进一步的，在本实施例中，线性回归函数建模包括如下步骤：

S11：期货数据包括每天的open_i(开盘价)，high_i(最高价)，low_i(最低价)， close_i(收盘价)，volume_i(交易量)与评论数据i。

S12:数据格式为(X_i，Y_i)，X_i为[close_i,HP_i,PCT_i,volume_i]形式，其中 HP_i＝(high_i-low_i)/close_i，PCT_i＝(close_i-open_i)/open_i,Y_i为close_i+5，即五天后的收盘价，将X_i进行标准化得到X_i(ST)。

S13：建立线性回归函数h＝W^ΤX_ST，W＝(θ₁,θ₂,θ₃,θ₄)，θ_i为待求的参数，定义代价函数其中m为期货数据总天数，Y_i为第 i+5天的收盘价，利用梯度下降随机选择一组θ，通过梯度下降更新使得J(θ)最小，其中α是学习率，是对代价函数对θ_j求偏导数，由于期货数据量交少，将90％数据做训练集，10％做测试集。

S14:将预测日期前五天的X_i(ST)数据输入线性回归函数模型，对应得到 h(X_i(ST))即为预测的收盘价，根据收盘价获取对应的期货。

进一步的，在本实施例中，文本分析模型通过如下步骤进行预测：爬取东方财富网的期货评论数据i，由于股民情绪对期货走势产生影响具有一定后滞性，故将股民前五天情绪作为期货后五天的走势。通过snowNLP文本情感处理库计算每条评论的情感值i.emotion，i.num为当天对该期货的评论总数，并且对其求均值作为当天的股民情绪依据，情感均值计算公式如下，根据获取的情感值获取对应的期货：

进一步的，在本实施例中，小波变换模型通过如下步骤进行预测：将每天收盘价以及对应的日期构成的序列，进行小波分解，分解为两层，即 Z＝D1+D2+D3+A3，其中D1，D2，D3分别为第一层、第二层、第三层分解得到的高频信号，A3为第3层分解得到的低频信号，得到各层小波系数然后对各层小波系数分别建立ARMA模型，对各层小波系数进行预测，用得到的预测小波系数重构数据，并获取对应的期货。在本实施例中，将每次收盘价前15天的数据作为小波变换的预测样本。

进一步的，在本实施例中，将上述三种方法预测的情况进行综合，筛选出预测趋势类似的期货作为推荐期货。

进一步的，在本实施例中，量化方法包括传统量化、基于强化学习的策略切换方法以及基于深度强化学习的商品切换方法。从推荐期货中选择期货作为期货投资合约，如果根据用过风险承受能力，选择不同的量化方案。

进一步的，当用户选择传统量化策略，则选择对应策略进行策略回测，最后根据策略好坏进行实盘策略加载。

进一步的，当用户选择基于强化学习的策略切换方法，策略库暂定为十种策略，对应十个策略切换动作，具体包括如下步骤：

S21:采用深度强化学习在该方法中各个属性含义如下：

(1)S为所有每组定义为近期4个交易日前9天的收盘价构成的图像的集合.s_t∈S表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像；

(2)A为agent可执行策略切换动作的集合.a_t∈A表示agent在t时刻所采取的策略切换动作；

(3)ρ:S×A→R为奖赏函数.r_t～ρ(s_t,a_t)表示agent在状态s_t执行策略切换动作a_t获得的立即奖赏值；

S22:将s_t，也即4幅图像进行灰度处理，然后输入到如图6所示的DQN神经网络，Reward选取其中，为当前做出策略切换时的收盘价，为上一次做出策略切换时的仓位收盘价，为当前做出策略切换时的持仓情况(多仓为正，空仓为负)，为上一次做出策略切换时的持仓情况(多仓为正，空仓为负)。由贝尔曼方程可得 Q(s,a)＝E[r+γmax_a'Q(s',a')]，其中，r是指当前动作产生的回报E表示对其求期望，Q值就是含折扣因子的累计奖励，也就是累计收益率，将折扣因子γ设置为0.9，以获得更长远的收益,max_a'Q(s',a')为上一次策略切换的最大的Q值，在本实施例中，Q值均指累计回报奖励，是迭代值。

S23：利用DQN网络，使用经i验回放机制，如图7，在线处理得到的转移样本e_t＝(s_t,a_t,r_t,s_t+1)，其中s_t为当前输入到网络中的4幅收盘价图像.s_t+1为下一交易日输入到网络中的4幅收盘价图像，a_t,r_t分别为采用切换某种策略的动作和对应的回报。在每个时间步t，将agent与环境交互得到的转移样本存储到回放记忆单元D＝{e₁,...e_t}中。训练时，每次从D中随机抽取小批量的转移样本，并使用随机梯度下降(StochasticGradientDescent,SGD)算法更新网络参数θ。除了使用深度卷积网络近似表示当前的值函数之外，还单独使用了另一个网络来产生目标Q值。具体地，Q(s,a|θ_i)表示当前值网络的输出，即采用切换策略动作a, 得到的最大交易回报Q，用来评估当前状态动作对的值函数；表示目标值网络的输出，一般采用近似表示值函数的优化目标，即目标Q值.当前值网络的参数θ是实时更新的，每经过N轮迭代，将当前值网络的参数复制给目标值网络。通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数.误差函数为：

L(θ_i)＝E_s,a,r,s'[(Y_i-Q(s,a|θ_i))²]

对参数θ求偏导，得到以下梯度

利用更新梯度。

S24：通过上面的训练，得到最优的神经网络模型，并产生获得最大利益的策略切换的模型。进一步的，在本实施例中，当用户选择基于强化学习的实时交易方法时，，具体包括如下步骤：

S31:定义强化学习当中的概念；

(1)C为所有每组定义为近期4个交易日前9天的KD指标构成的图像的集合.c_t∈C表示agent在t时刻近期4个交易日前9天的KD指标构成的4个图像；

(2)D为agent可执行策略切换动作的集合.d_t∈D表示agent在t时刻所采取做多和做空，每次动作为1手操作；

(3)β:C×D→G为奖赏函数.g_t～β(c_t,d_t)表示agent在状态c_t执行买卖动作d_t获得的立即奖赏值；

S32：将期货的最近4个交易日前9天的KD技术指标曲线经过灰度处理后作为整个网络的输入，使用卷积神经网络对其特征进行提取，神经网络结构如图8；

S33：Reward选取其中，为当日仓位下的收盘价，为上一日的仓位收盘价，为当日持仓情况(多仓为正，空仓为负)，为上一日持仓情况(多仓为正，空仓为负)。由贝尔曼方程可得 U(c,d)＝E[g+γmax_d'U(c',d')]，其中，g是指当前动作产生的回报E 表示对其求期望，U值就是含折扣因子的累计奖励，也就是累计收益率，将折扣因子γ设置为0.9，以获得更长远的收益。

S34：利用如图8的网络结构，i并且使用经验回放机制(experiencereplay)，在线处理得到的转移样本e_t＝(c_t,d_t,g_t,c_t+1).其中c_t为当前输入到网络中的4幅 KD指标图像.c_t+1为下一交易日输入到网络中的4幅KD指标图像，d_t,g_t分别为采用交易信号的动作和对应的回报。在每个时间步t，将agent与环境交互得到的转移样本存储到回放记忆单元D＝{e₁,...e_t}中.训练时，每次从D中随机抽取小批量的转移样本，并使用随机梯度下降(StochasticGradientDescent,SGD)算法更新网络参数η,除了使用深度卷积网络近似表示当前的值函数之外，还单独使用了另一个网络来产生目标U值.具体地，U(c,d|η_i)表示当前值网络的输出，用来评估当前状态动作对的值函数；表示目标值网络的输出,一般采用近似表示值函数的优化目标，即目标U值.当前值网络的参数η是实时更新的，每经过N轮迭代，将当前值网络的参数复制给目标值网络.通过最小化当前U值和目标U值之间的均方误差来更新网络参数.误差函数为：

V(η_i)＝E_c,d,g,c'[(M_i-U(c,d|η_i))²]

对参数η求偏导，得到以下梯度：

S35：通过上面的训练，得到最优的神经网络模型，并且产生做空做多动作让累积收益最大的商品切换模型，以投资收益最大的目的。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于深度强化学习的期货量化交易系统，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的期货量化交易系统，其特征在于，所述量化选股模块中，所述机器学习模块通过采用线性回归模型、所述情感文本分析模型以及所述小波分析模型进行数据分析，获取每种模型预测结果对应的期货集合，选取期货集合中相同的期货作为推荐期货。

3.根据权利要求2所述的基于深度强化学习的期货量化交易系统，其特征在于，所述线性回归模型通过如下方式进行数据分析：

S12：令数据格式为(X_i，Y_i)，X_i为[close_i,HP_i,PCT_i,volume_i]，其中，HP_i＝(high_i-low_i)/close_i，PCT_i＝(close_i-open_i)/open_i；Y为close_i+5，即五天后的收盘价，将X_i进行标准化得到X_i(ST)；

S13：建立线性回归函数：

h＝W^ΤX_ST

其中，W＝(θ₁,θ₂,θ₃,θ₄)，θ_i为待求的参数；记代价函数m为期货数据总天数，Y_i为第i+5天的收盘价；利用梯度下降随机选择一组θ，通过梯度下降更新使得J(θ)最小,α是学习率，是对代价函数对θ_j求偏导数；

4.根据权利要求2所述的基于深度强化学习的期货量化交易系统，其特征在于，所述情感文本分析模型通过如下方式进行数据分析：

5.根据权利要求2所述的基于深度强化学习的期货量化交易系统，其特征在于，所述小波分析模型通过如下方式进行数据分析：

6.根据权利要求1所述的基于深度强化学习的期货量化交易系统，其特征在于，通过所述强化学习模型为所述策略切换与商品切换模块建立策略切换模型，提供策略切换功能：

S21：记S为每组由近期4个交易日前9天的收盘价组成的图像的集合；s_t∈S表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像；记A为agent可执行策略切换动作的集合；a_t∈A表示agent在t时刻所采取的策略切换动作；记ρ:S×A→R为奖赏函数；r_t～ρ(s_t,a_t)表示agent在状态s_t执行策略切换动作a_t获得的立即奖赏值；

通过一贝尔曼方程得：

Q(s,a)＝E[r+γmax_a'Q(s',a')]

L(θ_i)＝E_s,a,r,s'[(Y_i-Q(s,a|θ_i))²]

对参数θ求偏导，得到以下梯度

通过更新梯度；

7.根据权利要求1所述的基于深度强化学习的期货量化交易系统，其特征在于，通过所述强化学习模型为所述策略切换与商品切换模块建立商品切换模型，提供商品切换功能：

S31：记C为每组由近期4个交易日前9天的KD指标组成的图像的集合；c_t∈C表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像；D为agent可执行策略切换动作的集合；d_t∈D表示agent在t时刻所采取做多和做空，每次动作为1手操作；β:C×D→G为奖赏函数；g_t～β(c_t,d_t)表示agent在状态c_t执行买卖动作d_t获得的立即奖赏值；

S33：Reward选取：

由一贝尔曼方程得：

U(c,d)＝E[g+γmax_d'U(c',d')]

在每个时间步t，将agent与环境交互得到的转移样本存储到回放记忆单元D＝{e₁,...e_t}中；训练时，每次从D中随机抽取预设批量的转移样本，并使用随机梯度下降算法更新卷积神经网络参数η；

U(c,d|η_i)表示当前值网络的输i出，用来评估当前状态动作对的值函数；表示目标值网络的输出，采用表示值函数的优化目标，即目标U值；当前值网络的参数η是实时更新的，每经过N轮迭代，将当前值网络的参数复制给目标值网络；通过最小化当前U值和目标U值之间的均方误差来更新网络参数，其中，最小化误差函数为：

V(η_i)＝E_c,d,g,c'[(M_i-U(c,d|η_i))²]

对参数η求偏导，得到以下梯度：

8.根据权利要求1所述的基于深度强化学习的期货量化交易系统，其特征在于，还包括：

K线走势模块，用于为用户呈现K线走势；

期货策略库模块，用于为用户提供对应的期货策略；