CN105894379A

CN105894379A - 金融产品交易策略的生成系统和生成方法

Info

Publication number: CN105894379A
Application number: CN201610194254.0A
Authority: CN
Inventors: 程明强; 耿志贤; 曹国梁
Original assignee: COEUSYS Inc
Current assignee: Silver Li'an financial information services (Beijing) Co., Ltd.
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-24

Abstract

本发明实施例公开一种金融产品交易策略的生成系统和方法，包括：交易数据获取模块，用于获取金融产品在第t个交易单位的历史交易数据S_t；交易策略生成模块，用于构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时所对应的预设交易行为作为第t+1个交易单位的交易策略。本发明能够降低现有技术中交易策略人为制定所带来的风险，提高金融产品交易的可靠性；进一步地，本发明所提供的金融产品交易策略的生成系统和方法对大多数金融产品都是通用的，增加算法交易的泛化能力。

Description

金融产品交易策略的生成系统和生成方法

技术领域

本发明涉及金融领域，特别是涉及一种金融产品交易策略的生成系统和生成方法。

背景技术

量化投资是最近几十年来在国际金融投资界兴起的一个新方法，其结合了现代数学概率统计理论和金融数据分析工程，利用高速的计算机数据处理能力来实现的一种全新的分析方式，是现代化的分析方法。量化投资在投资品种选择、投资时间选择、股指期货套利、商品期货套利、统计套利和算法交易等领域得到广泛应用。其中，算法交易又称自动交易、黑盒交易或机器交易，是指通过计算机程序发出交易指令，以执行预先设定好的交易策略的方法。在算法交易中，程序可以决定的范围包括交易时间、交易的价格，甚至包括最后需要成交的资产数量。然而在算法交易中，目前的交易策略大都是基于统计的交易策略，即策略制定者对历史的交易数据进行统计，从而提取出一些对交易有影响的因素或者特征，据此制定交易策略。由于金融产品的复杂性和某些风险因素的不确定性，以及策略制定者本身经验的局限性，使得策略制定者很难对交易策略做出准确的评估；此外，策略制定者通常是依据某特定的金融产品的历史数据进行统计从而制定交易策略，该交易策略对其他金融产品来说通常是不适用的，所以，策略制定者需要针对不同的金融产品制定不同的交易策略，上述这些问题在一定程度上影响了算法交易的可靠性泛化能力。

发明内容

本发明主要解决的技术问题是提供一种金融产品交易策略的生成系统和生成方法，能够降低现有技术中交易策略人为制定所带来的风险，提高金融产品交易的可靠性；进一步地，本发明所提供的金融产品交易策略的生成系统和方法对大多数金融产品都是通用的，增加了算法交易的泛化能力。

为解决上述技术问题，本发明实施例采用的一个技术方案是：提供一种金融产品交易策略的生成系统，包括：交易数据获取模块，用于获取金融产品在第t个交易单位的历史交易数据S_t；交易策略生成模块，用于构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时所对应的预设交易行为作为第t+1个交易单位的交易策略；其中，所述预设交易行为集合为：A＝{a₁，a₂，…，a_m}，n取值为小于等于m的整数，所述神经网络函数中的各个参数在第t个交易单位的值是预先设置的。

可选地，所述系统还包括：

交易收益计算模块，用于计算第t+1个交易单位的交易收益R_t+1；

所述交易策略生成模块，还用于当所述R_t+1大于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向增加向量；当所述R_t+1小于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向减少向量。

可选地，所述交易收益R_t+1＝(Y_t+1-Y_t)/Y_t+1；其中，Y_t+1是第t+1个交易单位的收盘价总市值，Y_t是第t个交易单位的收盘价总市值。

可选地，所述系统还包括：

累积回报CR计算模块，用于计算在第t个交易单位至第n个交易单位的周期内的总的交易收益；CR＝R_t+gamma_t+1*R_t+1+.....gamma_n*R_n；其中，gamma是0-1之间的数，是一个衰减系数；t为自然数，n为大于t的自然数。

可选地，所述交易单位为天数。

本发明实施例采用的另一个技术方案是：提供一种金融产品交易策略的生成方法，包括：获取金融产品的在第t个交易单位的历史交易数据S_t；构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时，所对应的预设交易行为作为第t+1个交易单位的交易策略；其中，所述预设交易行为集合为：A＝{a₁，a₂，…，a_m}，n取值为小于等于m的整数，所述神经网络函数中的各个参数在第t个交易单位的值是预先设置的。

可选地，所述方法还包括：

计算t+1个交易单位的交易收益R_t+1；当所述R_t+1大于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向增加向量；当所述R_t+1小于0时，所述各个参数在第第的基础上沿着梯度的方向减少向量。

可选地，所述方法还包括：

计算在第t个交易单位至第n个交易单位的周期内的总的交易收益；CR＝R_t+gamma_t+1*R_t+1+.....gamma_n*R_n；其中，gamma是0-1之间的数，是一个衰减系数；t为自然数，n为大于t的自然数。

可选地，所述交易单位为天数。

本发明实施例提供的一种金融产品交易策略的生成系统和生成方法，能够降低现有技术中交易策略人为制定所带来的风险，提高金融产品交易的可靠性；进一步地，本发明所提供的金融产品交易策略的生成系统和方法对大多数金融产品都是通用的，增加了算法交易的泛化能力。

附图说明

图1是本发明一种金融产品交易策略的生成系统的一较佳实施例的示意图；

图2是本发明一种金融产品交易策略的生成系统的另一较佳实施例的示意图；

图3是本发明一种金融产品交易策略的生成方法的一较佳实施例的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在金融产品交易领域，金融产品交易策略的制定是非常重要的。为了降低现有技术中交易策略人为制定所带来的风险，提高金融产品交易的可靠性；进一步地，为了避免策略制定者对不同的金融产品制定不同的交易策略，增加算法交易的泛化能力，本申请的发明人经过对现有的交易策略的研究，以及对人工智能领域的深入研究发现，通过将深度强化学习理论引入金融产品的交易策略的生成，可以很好地解决上述提到的现有技术的问题。

本发明实施例提供的一种金融产品交易策略的生成系统，是基于深度强化学习(Deep Reinforcement Learning,DRL)理论的。强化学习是一个理论框架，用来对跟未知环境交互的自发主体Agent进行建模。它是人工智能领域的一种学习方法。对于未知的问题，其基本原理是：如果主体Agent的某个行为策略导致环境正的回报，那么Agent以后产生这个行为策略的趋势会加强。对于未知的问题，并不会人为地告知正确的答案，主体必须通过不断地试错，在与环境持续的交互中学习。这个通用的理论框架已经被应用于优化直升机的飞行控制，电梯调度，以及各类游戏的解法等。强化学习的思想也被应用于解释动物的学习过程，人脑的活动等领域。

深度强化学习(Deep Reinforcement Learning,DRL)是强化学习与深度学习的结合。深度强化学习DRL包括两个主要部分：深度学习(DeepLearning,DL)和增强学习(Reinforcement Learning,RL)。这是两个相对独立的学科。其中DL是一个深层的神经网络，主要用来解决分类识别问题，包括可以用它来进行图像识别，图像分割，语音识别，翻译等，是最近几年计算机领域最火的技术。RL是传统人工智能领域的技术，它主要是如何控制和决策的问题，比如无人机的飞行控制，自动驾驶，各种游戏的求解等。2015年，Deep Mind研究组把RL与DL成功组合在一个DRL框架中，用来对Atari游戏进行控制，取得了惊人的效果，被认为是学术界下一个重要突破领域。DL可以解决如何识别的问题，比如识别语言，识别图像，识别欺诈等；RL可以解决如何控制的问题。二者的结合成为一个完整的框架，可以解决非常多的工业上的实际问题。这部分需要各领域的技术专家结合各自领域的实际问题进行深入研究。本申请就是将基于深度强化学习理论在金融产品交易策略的生成方面的创造性应用。

为了更清楚的描述本发明实施例，首先对几个涉及到的术语进行说明。深度强化学习理论要处理的问题是如何从与环境的交互过程中学习的方法。它包括环境Environment和主体Agent两个部分。主体观察环境的状态，然后采用一定的行动；环境会对主体的行动作出反应，产生新的状态，并给予主体一定的反馈。如此反复，在主体与环境不断的交互过程中，主体会逐渐学习到环境是如何运作的，并找到一个最佳策略应对环境。

以上过程具体的数学描述为一个马尔科夫决策过程(Markov DecisionProcess,MDP)。它的特点是当前状态只与前一时刻(或前n时刻)的状态有关，而与更早的状态无关。这是对复杂的随时间变化的序列过程的一个近似，否则问题很难求解。MDP由四个元素构成：状态State，行动Action，转移概率Probability和回报Reward。State：简写为s，表示目前所处的状态；Action：简写为a，表示当前可以选择的操作；Probability：简写为p，表示当前状态s下，采用操作a后，会有一定的概率p转变为状态s^’，记作p(s’|s,a)。它描述的是环境的内在规律。Reward：简写为r，表示回报函数，每次执行一个Action后，环境都会反馈一个Reward。

需要说明的是，Reward是即时的，即每次执行一个Action后会马上得到一个该Action对应的Reward，它是环境对当前Action的反馈，它是一种短期行为，往往与长期效应不符。在金融产品的交易领域，我们的目标是使得长期的累积回报(Cumulative Reward,CR)最大化，而非某一个时刻的Reward最大化。

为了实现金融产品的累积回报最大化，我们可以通过DRL的神经网络来学习并实现一个自动化的金融产品交易策略，该交易策略可用于各种金融衍生品的交易。具体来说，本发明实施例提供的金融产品交易策略的生成系统能利用历史的交易数据，自动模拟交易员不断的进行买进，卖出，持有等操作，从中学习到一个优化的交易策略，这个策略可以应用于真实的交易系统中。

请参阅图1和/或图2，本发明第一实施例提供一种金融产品交易策略的生成系统，包括：

交易数据获取模块(100，200)，用于获取金融产品在第t个交易单位的历史交易数据S_t；

在本发明第一实施例的具体实现时，我们可以将一个股票的某一天的基本参数可以表示为一个行向量(s1,s2,…,sn)；我们把第t个交易单位之前一段连续时间(如m天)的股票向量组合起来作为第t个交易单位的state，即S_t，表示如下：

其中，所述基本参数可以包括：开盘价，收盘价，交易量等。优选地，交易单位为天数，例如第t个交易单位优选为第t天。

交易策略生成模块(102，202)，用于构造深度神经网络函数Q_t(S_t，an)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时，所对应的预设交易行为作为第t+1个交易单位的交易策略；其中，所述预设交易行为集合为：A＝{a₁，a₂，…，a_m}，n取值为小于等于m的整数，所述神经网络函数中的各个参数在t个交易单位的值是预先设置的。

此处的Q可以看作是一个非常复杂的函数，用来表示给定状态，和给定行为下的价值函数。Q值越大表示在给定状态的条件下，采用给定行为的结果越有利；Q值越小表示在给定状态的条件下，采用给定行为的结果越不利。Q包括大量的可调节参数，学习Q函数的过程，就是通过在给定状态和给定行为作为输入不断调试使得Q值最大，从而得到最优的参数的过程。

Q函数可以是任意的形式，在本发明实施例提供的系统中采用一个深度神经网络来表示Q函数。深度神经网络是一个多层的神经网络，它有很多节点(称为神经元)构成，每一个神经元都会接受数据(称为输入)，并通过一定的数学变换后输出结果。这些神经元是分层组织的，每一层的神经元从上一层接受数据，并输出给下一层的神经元，同一层的神经元之间没有连接。本发明实施例在具体实现时，本领域普通技术人员可以依据3篇公开文档的任一篇来构造深度神经网络，所述3篇公开文档的内容在此通过引用并入本申请中。具体来说，本发明实施例中的所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的第一层的输入，所述深度神经网络函数中的神经元的数量和神经网络的层数，本发明实施例不做限定。通常来说，神经元的数量越多，以及神经网络的层数越多，所得到的输出结果会越精确。具体实现时，可以根据对精确程度的要求来选择神经元的数量和神经网络的层数。所述3篇公开文档为：

1、Schmidhuber,J.(2015)."Deep Learning in Neural Networks:AnOverview".Neura/Networks 61:85–117.

2、Deng,L.；Yu,D.(2014)."Deep Learning:Methods and Applications"。Foundations and Trends in Signal Processing 7:3–4.

3、《人工神经网络教程》，韩力群编著，北京邮电大学出版社，2006(2007.7重印)ISBN978-7-5635-1367-3.

进一步地，本系统还包括：

交易收益计算模块204，用于计算第t+1个交易单位的交易收益R_t+1；

在本发明第一实施例的具体实现时，我们假定第t+1个交易单位的收盘价总市值为Y_t+1，第t个交易单位的收盘价总市值为Y_t，则，第t+1个交易单位的交易收益R_t+1＝(Y_t+1-Y_t)/Y_t+1。

进一步地，本系统还包括：

进一步地，所述交易策略生成模块模块(102，202)，还用于当所述R_t+1大于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向增加向量；当所述R_t+1小于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向减少向量。

此外，我们还可以引入累积回报(Cumulative Reward，CR)，可以把CR作为一个最终的目标函数，我们的目标是使CR最大化，其中CR的计算公式为：

CR＝R_t+gamma_t+1*R_t+1+.....gamma_n*R_n

其中，gamma是0-1之间的数，是一个衰减系数。t为自然数，n为大于t的自然数。

需要说明的是，所述各个参数需增加多大的向量或减少多大的向量，本发明实施例不做具体的限定，例如可以通过现有的梯度下降(gradientdescent)算法来解决。这样，在特定的周期内，我们可以优化CR的值。后续每个特定的周期，我们都采用类似的方法来计算各个周期的CR。当CR值逐渐稳定后，我们可以以稳定后的CR值所对应的神经网络的参数作为神经网络函数的固定参数，来生成交易策略。

在本发明第一实施例的具体实现时，所述系统还可以包括：累积回报CR计算模块206，用于计算在第t个交易单位至第n个交易单位的周期内的总的交易收益；CR＝R_t+gamma_t+1*R_t+1+.....gamman*R_n。

在本发明实施例中，金融产品交易策略的生成系统可以是服务器(Server)，也可以是个人电脑(PC机)或智能设备等，本发明不做限定。

请参阅图3，本发明另一个实施例提供一种金融产品交易策略的生成方法，包括：

300、获取金融产品在第t个交易单位的历史交易数据S_t；

在本发明第二实施例的具体实现时，我们可以将一个股票的某一天的基本参数可以表示为一个行向量(s1,s2,…,sn)；我们把第t交易单位之前一段连续时间(如m天)的股票向量组合起来作为第t个交易单位的state，即S_t，表示如下：

302、构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时，所对应的预设交易行为作为第t+1个交易单位的交易策略；其中，所述预设交易行为集合为：A＝{a₁，a₂，…，a_m}；n取值为小于等于m的整数，所述神经网络函数中的各个参数在t时刻的值是预先设置的；

此处的Q可以看作是一个非常复杂的函数，用来表示给定状态，和给定行为下的价值函数。Q值越大表示在给定状态的条件下，采用给定行为的结果越有利；Q值越小表示在给定状态的条件下，采用给定行为的结果越不利。Q包括大量的可调剂参数，学习Q函数的过程，就是通过在给定状态和给定行为作为输入不断调试使得Q值最大，从而得到最优的参数的过程。

Q函数可以是任意的形式，在本发明实施例提供的方法中采用一个深度神经网络来表示Q函数。深度神经网络是一个多层的神经网络，它有很多节点(称为神经元)构成，每一个神经元都会接受数据(称为输入)，并通过一定的数学变换后输出结果。这些神经元是分层组织的，每一层的神经元从上一层接受数据，并输出给下一层的神经元，同一层的神经元之间没有连接。本发明实施例在具体实现时，本领域普通技术人员可以依据3篇公开文档中任一篇来构造深度神经网络，所述3篇公开文档的内容在此通过引用并入本申请中。具体来说，本发明实施例中的所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的第一层的输入，所述深度神经网络函数中的神经元的数量和神经网络的层数，本发明实施例不做限定。通常来说，神经元的数量越多，以及神经网络的层数越多，所得到的输出结果会越精确。具体实现时，可以根据对精确程度的要求来选择神经元的数量和神经网络的层数。所述3篇公开文档为：

1、Schmidhuber,J.(2015)."Deep Learning in Neural Networks:AnOverview".Neural Networks 61:85–117.

可选地，本发明实施例提供的金融产品交易策略的生成方法还可以进一步包括：

304、计算第t+1个交易单位的交易收益R_t+1；

在本发明第二实施例的具体实现时，我们假定第t+1个交易单位的收盘价总市值为Y_t+1，第t个交易单位的收盘价总市值为Y_t，则，第t+1个交易单位的交易收益R_t+1＝(Y_t+1-Y_t)/Y_t+1。

306、当所述R_t+1大于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向增加向量；当所述R_t+1小于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向减少向量。

具体来说，我们可以引入累积回报(Cumulative Reward，CR)，可以把CR作为一个最终的目标函数，我们的目标是使CR最大化。

CR＝R_t+gamma_t+1*R_t+1+.....gamma_n*R_n

其中，gamma是0-1之间的数，是一个衰减系数。

需要说明的是，所述各个参数需增加多大的向量或减少多大的向量，本发明实施例不做具体的限定，例如可以通过梯度下降(gradient descent)算法来解决。这样，在一定的周期内，我们可以优化CR的值，后续每个特定的周期，我们都采用类似的方法来计算各个周期的CR。当CR值逐渐稳定后，我们可以以稳定后的CR值所对应的神经网络的参数作为神经网络函数的固定参数，来生成交易策略。

应该理解，本发明的各种实施例中，上述各过程中序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或者组件可以结合或者可以继承到一个系统，或者一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或者可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在个单元中。上述集成的单元即可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或者软件实现，或它们的组合方式来实现。当使用软件实现时，可以见上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外，任何连接可以适当的成为计算机可读介质，例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(SDL)或者诸如红外线、无线电和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的盘(Disk)和碟(Disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种金融产品交易策略的生成系统，其特征在于，包括：

交易数据获取模块，用于获取金融产品在第t个交易单位的历史交易数据S_t；

交易策略生成模块，用于构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时所对应的预设交易行为作为第t+1个交易单位的交易策略；

其中，所述预设交易行为集合为：A＝{a₁，a₂，…，a_m}，n取值为小于等于m的整数，所述神经网络函数中的各个参数在第t个交易单位的值是预先设置的。

2.根据权利要求1所述的系统，其特征在于，所述系统还包括：

3.根据权利要求2所述的系统，其特征在于，所述交易收益R_t+1＝(Y_t+1-Y_t)/Y_t+1；其中，Y_t+1是第t+1个交易单位的收盘价总市值，Y_t是第t个交易单位的收盘价总市值。

4.根据权利要求3所述的系统，其特征在于，所述系统还包括：

累积回报CR计算模块，用于计算在第t个交易单位至第n个交易单位的周期内的总的交易收益；CR＝R_t+gamma_t+1*R_t+1+…..gamma_n*R_n；其中，gamma是0-1之间的数，是一个衰减系数；t为自然数，n为大于t的自然数。

5.根据权利要求1-4任一所述的系统，其特征在于，所述交易单位为天数。

6.一种金融产品交易策略的生成方法，其特征在于，包括：

获取金融产品在第t个交易单位的历史交易数据S_t；

构造深度神经网络函数Q_t(S_t，a_n)，将所述历史交易数据S_t和预设的交易行为a_n作为所述深度神经网络函数的输入，计算预设的交易行为a_n所得到的Q_t的值；比较预设交易行为集合中各个预设交易行为所得到的Q_t值；选择所述Q_t值为最大时所对应的预设交易行为作为第t+1个交易单位的交易策略；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

计算第t+1个交易单位的交易收益R_t+1；

当所述R_t+1大于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向增加向量；当所述R_t+1小于0时，所述各个参数在第t+1个交易单位的基础上沿着梯度的方向减少向量。

8.根据权利要求7所述的系统，其特征在于，所述交易收益R_t+1＝(Y_t+1-Y_t)/Y_t+1；其中，Y_t+1是第t+1个交易单位的收盘价总市值，Y_t是第t交易单位的收盘价总市值。

9.根据权利要求8所述的系统，其特征在于，所述方法还包括：

计算在第t个交易单位至第n个交易单位的周期内的总的交易收益；CR＝R_t+gamma_t+1*R_t+1+…..gamma_n*R_n；其中，gamma是0-1之间的数，是一个衰减系数；t为自然数，n为大于t的自然数。

10.根据权利要求6-9任一所述的方法，其特征在于，所述交易单位为天数。