CN110322060A

CN110322060A - 基于深度强化学习的金融市场最优交易方法

Info

Publication number: CN110322060A
Application number: CN201910558312.7A
Authority: CN
Inventors: 周水庚; 叶泽坤; 邓维杰; 关佶红
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-11

Abstract

本发明属于金融大数据挖掘技术领域，具体为一种基于深度强化学习的金融市场最优交易方法。本发明充分利用市场的信息，设计独特的特征提取网络：将量和价组成的四通道矩阵作多层卷积；对当前综合市场组成的向量作全连接，最后拼接特征，全连接后再输出抽象的综合特征。本发明采用深度强化学习对最优交易策略问题进行研究，包括将一个历史窗口的价/量组成的矩阵和当前市场的综合信息作为状态，将离散化的定价作为动作，设计基于相对收益的奖励函数，基于深度确定性策略梯度算法，解决最优交易问题。本发明方法具高实用性、强鲁棒性和高准确度的优点，可适用于股票、证券和期货等领域的高频交易。

Description

基于深度强化学习的金融市场最优交易方法

技术领域

本发明属于金融大数据挖掘技术领域，具体涉及金融市场最优交易方法。

背景技术

最优交易策略问题(Optimal Trade Execution,OTE)是指，在给定时间内，卖掉(或者买进)给定量的证券或者股票，使得卖出的总价越大(或者买进的总花费最小)。OTE问题是金融领域的一个重要问题，一直吸引着很多研究者的关注。Bertsimas和Lo是研究OTE问题的先驱，他们把OTE问题视为一个随机动态规划问题，并且给出了动态最优化方法。随后，一个很有影响力的工作问世，被称为Almgren-Chriss模型(AC model)，作者给出了该模型的一个闭式解。此后，一些学者尝试采用强化学习来解决该问题。还有一些工作将限价订单簿的变化过程视为马科尔夫过程。之后，有的学者通过直接预测限价指令簿上的参数的方式对问题进行建模。

近四十年来，随着信息统计、人工智能与机器学习等相关领域的飞速发展，越来越多的新颖理论和策略不断地被应用于OTE问题，甚至实际应用于证券股市的操作中。备受关注的是近年来越来越多的研究者从数据挖掘和机器学习的角度对最优交易策略问题进行了大量研究，他们主要是利用统计学习方法与最优化理论以及机器学习算法进行计算机程序化的最优交易策略设计。与传统的方法相比，基于机器学习的最优交易策略更多是通过算法学习所获得的。

强化学习在很多领域已经取得了成功，特别是近年来结合深度学习，使得强化学习更为强大。强化学习基于马尔科夫过程(MDP)，主要目标是学习到所定义的状态到动作的最优映射关系。经典的强化学习如基于动态规划的Q-learning、SARSA等，以及后来结合深度学习的DQN、Rainbow等；还有直接最大化值函数的策略梯度算法、确定性策略梯度算法，以及集合了DQN和DPG算法的深度确定性策略梯度算法。本文就是基于深度确定性策略梯度算法，并且在控制、金融信息领域也纷纷被尝试。Sherstov和Stone首次将强化学习用于最优交易策略问题，取得了不错的结果。Hendricks等结合了强化学习和Almgren-Chriss模型对最优交易策略问题做了进一步探究。随着现在硬件基础不断更新换代，深度学习已经渗透到各个领域，所以结合深度学习和强化学习的方法在最优交易策略问题上有很大的探索空间和价值。

发明内容

本发明的目的在于提供一种鲁棒性强、准确度高，且有利于克服噪音和异常值的金融市场最优交易方法。

本发明提出的金融市场最优交易方法，是基于深度强化学习的，本发明针对最优交易策略问题，将强化学习和深度学习结合，考虑历史多期信息和市场综合信息同时考虑进状态，然后利用深度学习更好地进行特征做提取。本发明方法属于对最优交易策略问题在深度学习的首次探索，不仅具有高实用性，适用于高频交易(High Frequency Rrading)，而且具有很好的鲁棒性，在克服噪音和异常值上，表现优于同类方法。

本发明的设计思想如下：

(1)采用深度强化学习用于最优交易策略；

(2)为了充分提取市场特征，提高算法抗噪能力，将多期特征考虑进状态，结合当前市场综合信息，设计独特的特征提取网络；

(3)基于表演者-评论者框架训练网络，提高算法鲁棒性。

本发明的特点是：充分利用市场的信息，设计独特的特征提取网络，一方面，将量和价组成的四通道矩阵作多层卷积；另一方面，对当前综合市场组成的向量作全连接，最后拼接特征，全连接后再输出抽象的综合特征。本方法首次采用深度强化学习对最优交易策略问题进行探索，包括将一个历史窗口的价/量组成的矩阵和当前市场的综合信息作为状态，将离散化的定价作为动作，设计一种基于相对收益的奖励函数，基于深度确定性策略梯度算法，探索最优交易问题。本发明方法具高实用性、强鲁棒性和高准确度的优点，可适用于股票、证券和期货等领域的高频交易。

本发明提出的金融市场最优交易方法，具体介绍如下：

为方便表述，先介绍最优交易策略问题的数学表示：

整个交易过程基于限价指令簿机制。每次交易，交易者需要确定自己想要交易的量和价(或买或卖)。这里，卖方被称为ask side，买方被称为bid side，限价指令(limitorder)是指价和量都预先被确定的订单，某一方的订单可以被执行仅当匹配到另外一方已经提交的订单或者新到达的订单。另外一种被称为市场指令(market order)，是指交易者只需预先确定要交易的量，价格则自动匹配另外一方中最优价格(如果是买方，自动匹配卖方中的最高价；如果是卖方，自动匹配买方中的最低价)。

现在考虑一个持续H分钟的交易，称之为一个episode，在这个episode内要卖出V股的股票(买的情况类似，若无特殊说明，本文默认为卖)。首先，将H分钟等分成L个时间槽。在第i个时间槽的开始，交易者确定要交易的量和对应每股的单价后，提交限价指令。在第i个时间槽结束时候，假设交易者成交了h_i股，获得总量为r_i的交易额。在L个时间槽过后，也就是当前episode结束时，如果V股还未全部卖出，则将剩余的量提交一个marketorder，假设market order完成r_f的成交额。那么整个episode的总成交额为OTE问题的目标就是最大化总的成交额。由于未来市场是未知的，市场上买方卖方都是随时变化的，交易者无法事先确定最优的交易策略。

本发明提出的金融市场最优交易方法，也称为基于深度策略性梯度算法，简记为DDPG，其总体框架如图1所示；DDPG采用off-policy的方式学习Q函数的同时学习策略。DDPG基于表演者评论者(Actor-Critic)架构，其中，Actor负责与环境交互，在线获得当前状态、采取的动作、从环境获得的奖励以及下一个状态，形成四元组存入一个经验缓冲区(experience replay buffer)中。训练时，每次从经验缓冲区中取出一批元组数据来训练Actor和Critic网络。

总框架(附图1)包含四个网络：表演者评估网络(the actor evaluationnetwork，AEN)、评论者评估网络(the critic evaluation network，CEN)、表演者目标网络(the actor target network，ATN)和评论者目标网络(the critic target network，CTN)。表演者网络(包括评估网络和目标网络)以状态作为输入，输出它目前认为的“最佳”动作，评论者网络(包括评估网络和目标网络)以状态和动作作为输入，输出它目前认为的该状态下执行当前动作的“价值”。表演者评估网络和评论者评估网络，对应的目标网络结构是完全相同的(结构定义详见图2)。

表演者评估网络：首先状态信息输入到特征提取模块(FEN，下文给出详细介绍)，特征提取模块输出抽象的特征，然后将抽象特征输入到一个全连接层(Fully Connectedlayer,FC)，最后经过两层softmax层，输出动作。注意，原来的DDPG算法输出的是连续的动作，而本发明将动作离散化，所以这里我们采用两层softmax来模拟“离散化”的效果。这里如果直接采用arg-max函数代替softmax将导致目标函数在这个点不可导。

评论者评估网络：输入包括状态和动作，同样地，状态先经过FEN，FEN输出抽象的特征，动作先经过第一层全连接层，然后将两者的输出作加和，最后再经过一次全连接层，输出Q值。注意，评论者网络的特征提取模块和表演者网络的特征提取模块虽然内部结构完全相同，但是是完全独立的两个模块，不共享任何参数，独立训练。

表演者目标网络和评论者目标网络结构与对应的评估网络完全相同，不同点在于目标网络是不可训的，各自通过指数加权平均法被对应的评估网络“软更新”(softupdate)。这意味着目标网络每次只缓慢地改变，这样做的目的是增强学习的稳定性。

本发明将历史信息和当前时间点综合市场信息组合作为状态(State)。具体地，状态包括两个部分，第一部分是一个三维的数字矩阵，形状为(c,k,w)，其中，c＝4表示通道数，4个通道分别对应ask的价、ask的量、bid的价、bid的量的滑动历史窗口数据。k和w分别表示滑动窗口的高和宽，设置k＝5，表示使用前5的价和量(包括ask和bid，ask根据价格降序，bid根据价格升序)，w＝10表示滑动窗口的大小，表示从当前点t开始往前，t-1,...,t-9。方便起见，称该数字矩阵为价/量矩阵。第二部分是一个包含市场具体综合信息的向量，具体包括：当前时间点(第几个时间槽)、剩余未交易的量(RV)、当前的mid-price(MP)、平均成交价(AP)、上个时间槽开始提交的价格(LAP)以及在order book上排名(LR)。附图3展示了状态的一个例子。本发明利用PV tensor来捕捉市场随时间变化的特征、量与价之间的特征价/量顺序特征，向量则提供当前市场的综合信息。由于只关注PVtensor中随时间变化的趋势特征，而数值本身大小意义不大，所以通过利用每个通道中对应top-1的价和量分别作归一化，这也有利于算法的收敛。

本发明将动作(Action)定义为每次提交limit order时确定的单价，并把剩余所有的量投入，注意，这里是可以容易地把之前未完成的limit order撤回的，并提交新的价和量的limit order，这是符合真实交易市场的。本发明中的价格基于由于单价的最小基准为0.01，将动作以为基准，离散化为-0.05,…-0.01,0,0.01,…,0.05，即Action＝a对应价格ask1+a。那么，如果a是负数，意味着将定价穿过mid-price，偏向买家，容易成交，但是收益少；反之，一个正数的a意味着高收益的同时成交概率降低。

由于市场是动态变化的，不同时期价格、成交额等都完全不同，如果每次只单纯地把成交额作为奖励(Reward)，算法将很难收敛。基于此，本发明将奖励函数定义如下：

reward_t＝r_t-h_t*MP₀

其中，MP₀是表示在整个episode之初的mid-price，作为一个基准单价，在一个时间槽t结束之时，总共卖h_t股股票，完成成交额r_t，奖惩函数就是完成的实际成交额与以基准单价卖出完成量的差值。由于，在t个时间槽之后，对未完成的量需要提交一个marketorder，设未完成量为hf，则有最后，一个episode的总的reward，我们标记为Implementation Reward(IR)。将每股平均的reward标记为averaged IR(AIR)。根据以上定义，有：

AIR＝IR/V

接下来，具体介绍特征提取网络(Feature Extraction Network,FEN)。FEN包括两个分支结构，分别对应两个独立的输入，如附图4所示。

FEN中一个分支结构包括三层卷积层，以状态的价/量矩阵部分作为输入。第一层卷积采用两个3×3的滤波，得到2个相应的特征映射，目的是提取出ask与bid之间、量与价之间以及随时间变化的特征；第二层卷积采用32个1×8的滤波器，得到32个特征映射，目的是得到更加多样性、更加抽象的特征；第三层卷积采用1×1的滤波器，目的是压缩通道，凝聚特征。FEN的另外一个分支结构包括两个全连接层，以状态的向量信息部分作为输入。两个全连接层目的是提取出市场综合信息的抽象特征。最后，两个分支通过拼接(Concatenate)得到一个向量，最后一层全连接层，用于是揉和两个分支的抽象特征，得到综合的抽象特征。最后输出整个状态综合的抽象特征向量。

接下来介绍目标函数与网络训练，DDPG同时结合了策略梯度和Q-learning的思想，采用深度神经网络作为价值函数，采用Actor-Critic架构，基于DPG算法。将表演者评估网络表示为μ(s|θ^μ)，评论者评估网络表示为Q(s，a|θ^Q)，表演者目标网络表示为μ′(s|θ^μ′)，评论者目标网络表示为Q′(s，a|θ^Q′)。其中，θ^μ、θ^Q、θ^μ′和θ^Q′是对应网络的参数。

训练表演者评估网络的所用的目标函数为：

J(θ^μ)＝max(E_π[Q(s_t,μ(s_t|θ^μ)|θ^Q)])

目标函数以状态作为表演者评估网络的输入，输出相应的动作，然后将状态和动作输入到评论者评估网络，最后输出Q值。我们通过最大化Q值来训练表演者评估网络，在此同时，将评论者评估网络的参数固定。

训练评论者评估网络所用的目标函数为：

其中，y_t＝reward_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)；

该目标函数以在t时刻的状态和动作作为评论者评估网络输入，得到在t时刻对应的Q值。与此同时，将下一个状态st+1输入到表演者目标网络，得到下一个对应动作，最后将下一个时刻状态和下一个时刻动作输入到评论者目标网络，得到下一个状态和动作对应的Q值。其中的γ表示对奖惩的折扣因子，reward_f是在时间槽t结束时获得奖励值，式子中的差被称为Temporal-Differenceerror(TD error)。通过最小化TD error的平方来训练评论者评估网络。

本发明方法步骤归纳如下：

(1)：随机初始化上述的表演者评估网络和评论者评估网络参数；

(2)：用评估网络参数来初始化对应目标网络参数；

(3)：初始化经验缓冲区；

(4)：根据上述定义的状态、动作、奖励函数，组织训练集数据；

(5)：按时间顺序迭代训练集数据，根据上述的目标函数来训练表演者网络与评论者网络；

(6)：将训练好的网络用于决策。

附图说明

图1为本发明方法的算法总框架图示。

图2为AEN与CEN框架结构图示。

图3为状态的一个例子。

图4为特征提取网络图示。

具体实施方式

为了充分地评估本发明算法，我们选择了流动性各异的股票，而且分别来自不同领域——金融、工业、科技。股票的代码分别是600030、300124、000049，来自深圳证券交易所(Shenzhen Security Exchange，SZSE)和上海证券交易所(Shanghai SecurityExchange，SSE)，具体信息如表1所示。其中，股票600030是MSCI成分股，来自上海证券交易所，股票300124和000049来自深圳证券交易所，他们的日成交量(Daily Trading Volumes，DTV)分别在100M、10M、1M数量级。

分别测试两种总股数：V＝5000，10000情况下算法的表现。设置一个episode的时间槽数量L＝8，对应H＝2分钟。交易者可以在每个时间槽开始时做决策，每个时间槽内含5个limitorder的快照，对应15秒时间。

本方法(简记为DDPG)将于其他同类算法作对比。评估的标准有AIR的均值、AIR的标准差以及胜率(WR)。评估的方法是各个算法先在训练集上完成训练，然后在测试集上测试，以测试集为最终结果。

表2显示了四个算法SL,QL,AC_QL和我们基于DDPG的算法(以下简写为DDPG)在三只股票上的AIR的均值表现。可以看到，DDPG算法表现均优于其他算法。注意，在金融市场上，最小交易单价为0.01，在短短的两分钟内每取得平均0.01的优势将意味着巨大的策略优势。另外观察可以发现，随着股票流动性降低，QL策略逐渐散失了他的优势，从由于SL到不如SL，而与此同时，本发明基于DDPG的策略却能一直保持优势。这意味着，基于DDPG的策略能承受不同流动性下股票具有良好的自适应性。

用AIR的标准差来衡量各个算法的稳定性。表3给出了结果。从表中可见，基于DDPG的策略具有良好的鲁棒性。而AC_QL稳定性表现较差，SL具有较低的标准差，是因为如果价格都以MP0成交，导致IR＝0。本对比实验说明本发明的策略具有良好的规避风险能力。

为了充分测试算法，我们同时将DDPG与其他算法对比的胜率统计出来。结果如表4所示。结果显示，无论流动性不同的股票，本发明策略都具有明显的胜率优势。这进一步证明了本发明策略具有良好的鲁棒性。

表1：三只股票一览

特征	股票1	股票2	股票3
				代码	600030	300124	000049
名称	CITIC Securities	INOVANCE	DESAY
				交易所	SSE	SZSE	SZSE
领域	金融	工业	科技
				DTV	100M	10M	1M

表2：各个策略的AIR均值对比

表3:各个策略的AIR标准差对比

表4:DDPG对比其他策略的胜率

。

Claims

1.一种基于深度强化学习的金融市场最优交易方法，记为DDPG；关于最优交易策略问题的数学表示，具体为：

整个交易过程基于限价指令簿机制；每次交易，交易者需要确定自己想要交易的量和价，这里，交易是指或买或卖；称卖方为ask side，称买方为bid side，限价指令是指价和量都预先被确定的订单，某一方的订单可以被执行仅当匹配到另外一方已经提交的订单或者新到达的订单；市场指令是指交易者只需预先确定要交易的量，价格则自动匹配另外一方中最优价格，即如果是买方，自动匹配卖方中的最高价；如果是卖方，自动匹配买方中的最低价；

考虑一个持续H分钟的交易，称之为一个episode，在这个episode内要卖出V股的股票；首先，将H分钟等分成L个时间槽；在第i个时间槽的开始，交易者确定要交易的量和对应每股的单价后，提交限价指令；在第i个时间槽结束时候，假设交易者成交了h_i股，获得总量为r_i的交易额；在L个时间槽过后，也就是当前episode结束时，如果V股还未全部卖出，则将剩余的量提交一个市场指令，假设市场指令完成r_f的成交额；那么整个episode的总成交额为OTE问题的目标就是最大化总的成交额；

其特征在于，采用off-policy的方式学习Q函数的同时学习策略；采用表演者评论者网络架构，其中，表演者负责与环境交互，在线获得当前状态、采取的动作、从环境获得的奖励以及下一个状态，形成四元组存入一个经验缓冲区中；训练时，每次从经验缓冲区中取出一批元组数据来训练表演者和评论者网络；

总框架包含四个网络：表演者评估网络(AEN)、评论者评估网络(CEN)、表演者目标网络(ATN)和评论者目标网络(CTN)；表演者网络以状态作为输入，经过特征提取模块，输出它目前认为的“最佳”动作，评论者网络以状态和动作作为输入，输出它目前认为的该状态下执行当前动作的“价值”；表演者评估网络和评论者评估网络对应的目标网络结构完全相同；

表演者评估网络:输入状态信息，经特征提取模块(FEN)，特征提取模块输出抽象的特征，然后将抽象特征输入到一个全连接层(FC)，最后经过两层softmax层，输出动作；这里采用两层softmax来模拟“离散化”的效果；

评论者评估网络：输入包括状态和动作，同样地，状态先经过FEN，FEN输出抽象的特征，动作先经过第一层全连接层，然后将两者的输出作加和，最后再经过一次全连接层，输出Q值；这里；评论者网络的特征提取模块和表演者网络的特征提取模块内部结构完全相同，但是两者完全独立；

表演者目标网络和评论者目标网络都是不可训的，各自通过指数加权平均法被对应的评估网络“软更新”；这意味着目标网络每次只缓慢地改变；

将历史信息和当前时间点综合市场信息组合作为状态；状态包括两个部分，第一部分是一个三维的数字矩阵，形状为(c,k,w)，其中，c＝4表示通道数，4个通道分别对应ask的价、ask的量、bid的价、bid的量的滑动历史窗口数据；k和w分别表示滑动窗口的高和宽，设置k＝5，表示使用前5的价和量，包括ask和bid，ask根据价格降序，bid根据价格升序；w＝10表示滑动窗口的大小，表示从当前点t开始往前，t-1,...,t-9；称该数字矩阵为价/量矩阵；第二部分是一个包含市场具体综合信息的向量，具体包括：当前时间点即第几个时间槽、剩余未交易的量(RV)、当前的mid-price(MP)、平均成交价(AP)、上个时间槽开始提交的价格(LAP)以及在order book上排名(LR)；利用PV tensor来捕捉市场随时间变化的特征、量与价之间的特征价/量顺序特征，向量则提供当前市场的综合信息；通过利用每个通道中对应top-1的价和量分别作归一化，以利于算法的收敛；

将动作定义为每次提交限价指令时确定的单价，并把剩余所有的量投入，这里可以把之前未完成的限价指令撤回，并提交新的价和量的限价指令；其中的价格基于由于单价的最小基准为0.01，将动作以为基准，离散化为-0.05,…-0.01,0,0.01,…,0.05，即Action＝a对应价格ask1+a；如果a是负数，意味着将定价穿过mid-price，偏向买家，容易成交，但是收益少；反之，一个正数的a意味着高收益的同时成交概率降低；

由于市场是动态变化的，不同时期价格、成交额完全不同，如果每次只单纯地把成交额作为奖励，算法将很难收敛；基于此，将奖励函数定义如下：

reward_t＝r_t-h_t*MP₀

其中，MP₀是表示在整个episode之初的mid-price，作为一个基准单价，在一个时间槽t结束之时，总共卖h_t股股票，完成成交额r_t，奖惩函数就是完成的实际成交额与以基准单价卖出完成量的差值；由于，在t个时间槽之后，对未完成的量需要提交一个市场指令，设未完成量为hf，则有最后，一个episode的总的reward，标记为Implementation Reward(IR)；将每股平均的reward标记为averaged IR(AIR)；根据以上定义，有：

AIR＝IR/V；

所述特征抽取网络(FEN)包括两个分支结构，分别对应两个独立的输入；

FEN中一个分支结构包括三层卷积层，以状态的价/量矩阵部分作为输入；第一层卷积采用两个3×3的滤波，得到2个相应的特征映射，用于提取出ask与bid之间、量与价之间以及随时间变化的特征；第二层卷积采用32个1×8的滤波器，得到32个特征映射，用于得到更加多样性、更加抽象的特征；第三层卷积采用1×1的滤波器，用于压缩通道，凝聚特征；

FEN中另外一个分支结构包括两个全连接层，以状态的向量信息部分作为输入；两个全连接层用于提取出市场综合信息的抽象特征；

最后，两个分支通过拼接得到一个向量；最后一层全连接层，用于是揉和两个分支的抽象特征，得到综合的抽象特征；最终输出整个状态综合的抽象特征向量。

2.根据权利要求1所述的基于深度强化学习的金融市场最优交易方法，其特征在于，建立目标函数，进行网络训练，具体流程为：

将表演者评估网络表示为μ(s|θ^μ)，评论者评估网络表示为Q(s，a|θ^Q)，表演者目标网络表示为μ′(s|θ^μ′)，评论者目标网络表示为Q′(s，a|θ^Q′)；其中，θ^μ、θ^Q、θ^μ′和θ^Q′是对应网络的参数；

训练表演者评估网络的所用的目标函数为：

J(θ^μ)＝max(E_π[Q(s_t,μ(s_t|θ^μ)|θ^Q)])

目标函数以状态作为表演者评估网络的输入，输出相应的动作，然后将状态和动作输入到评论者评估网络，最后输出Q值；通过最大化Q值来训练表演者评估网络，在此同时，将评论者评估网络的参数固定；

训练评论者评估网络所用的目标函数为：

其中，y_t＝reward_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)；

该目标函数以在t时刻的状态和动作作为评论者评估网络输入，得到在t时刻对应的Q值；与此同时，将下一个状态st+1输入到表演者目标网络，得到下一个对应动作，最后将下一个时刻状态和下一个时刻动作输入到评论者目标网络，得到下一个状态和动作对应的Q值；其中的γ表示对奖惩的折扣因子，reward_f是在时间槽t结束时获得奖励值，式子中的差被称为TD error；通过最小化TD error的平方来训练评论者评估网络。