CN108629690B - 基于深度强化学习的期货量化交易系统 - Google Patents

基于深度强化学习的期货量化交易系统 Download PDF

Info

Publication number
CN108629690B
CN108629690B CN201810399735.4A CN201810399735A CN108629690B CN 108629690 B CN108629690 B CN 108629690B CN 201810399735 A CN201810399735 A CN 201810399735A CN 108629690 B CN108629690 B CN 108629690B
Authority
CN
China
Prior art keywords
futures
strategy
module
switching
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810399735.4A
Other languages
English (en)
Other versions
CN108629690A (zh
Inventor
郑相涵
谢维鹏
杨旸
郭文忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810399735.4A priority Critical patent/CN108629690B/zh
Publication of CN108629690A publication Critical patent/CN108629690A/zh
Application granted granted Critical
Publication of CN108629690B publication Critical patent/CN108629690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及一种基于深度强化学习的期货量化交易系统,包括:K线走势模块、策略回测模块、量化选股模块、风险监控模块、持仓控制模块、策略切换与商品切换模块、机器学习模块、期货策略库模块以及信号处理与实盘交易模块。本发明提出的一种基于深度强化学习的期货量化交易系统,提供机器学习模块,在量化选股阶段利用机器学习算法,筛选出优质期货商品,对运行的策略进行监控,训练强化学习模型对策略实现自动切换,也可以直接通过训练好的强化学习模型,直接对期货进行交易操作。

Description

基于深度强化学习的期货量化交易系统
技术领域
本发明涉及一种基于深度强化学习的期货量化交易系统。
背景技术
金融投资市场是一个低信噪比的、复杂的非线性系统,机器学习在诸多领域如搜索和语音识别中均被证明是针对模糊非线性数据进行建模的强有力工具,通过过去的数据进行分析或者回归来预测未来信息的走势。因此,使用机器学习方法来构建量化投资策略具有一定的天然优势。
发明内容
本发明的目的在于提供一种基于深度强化学习的期货量化交易系统,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于深度强化学习的期货量化交易系统,包括:
量化选股模块,根据期货数据以及期货评论数据,通过机器学习模块进行数据分析,根据数据分析结果得到期货未来走势信息,为用户推荐出对应的期货;
风险监控模块,用于对当前持仓、交易策略、获利以及亏损情况进行监控;
持仓控制模块,根据期货未来走势信息,通过运用机器学习模块数据分析后选择的期货策略,对资金分配,进行加仓操作、减仓操作、平仓操作;
策略切换与商品切换模块,根据所述量化选股模块提供的信息,通过机器学习模块建立对应的切换模型,提供对期货策略以及期货商品进行全自动切换功能;
机器学习模块,提供情感文本分析模型、线性回归模型、小波分析模型以及强化学习模型,用于为所述量化选股模块以及所述策略切换与商品切换模块提供数据分析以及模型建立。
在本发明一实施例中,所述量化选股模块中,所述机器学习模块通过采用线性回归模型、所述情感文本分析模型以及所述小波分析模型进行数据分析,获取每种模型预测结果对应的期货集合,选取期货集合中相同的期货作为推荐期货。
在本发明一实施例中,所述线性回归模型通过如下方式进行数据分析:
S11:期货数据包括每天的开盘价openi、最高价highi、最低价lowi、收盘价closei、交易量volumei与期货评论数据i;
S12:令数据格式为(Xi,Yi),Xi为[closei,HPi,PCTi,volumei],其中, HPi=(highi-lowi)/closei,PCTi=(closei-openi)/openi;Y为closei+5,即五天后的收盘价,将Xi进行标准化得到Xi(ST)
S13:建立线性回归函数:
h=WΤXST
其中,W=(θ1234),θi为待求的参数;记代价函数
Figure BDA0001645312570000021
m为期货数据总天数,Yi为第i+5天的收盘价;利用梯度下降随机选择一组θ,通过梯度下降更新
Figure BDA0001645312570000022
使得J(θ) 最小,α是学习率,
Figure BDA0001645312570000023
是对代价函数对θj求偏导数;
S14:将预测日期前五天的Xi(ST)数据输入训练好的线性回归函数模型,对应得到h(Xi(ST))为预测的收盘价,并获取该预测的收盘价对应的期货。
在本发明一实施例中,所述情感文本分析模型通过如下方式进行数据分析:
获取期货评论数据i,将前五天股民情绪信息作为期货后五天的走势信息,通过snowNLP文本情感处理库计算每条评论的情感值i.emotion,将i.num为当天对该期货的评论总数,对其求均值作为当天的股民情绪,情感均值通过如下方式获取,并获取该情感均值对应的期货:
Figure BDA0001645312570000024
在本发明一实施例中,所述小波分析模型通过如下方式进行数据分析:
对由每天收盘价以及对应的日期组成的序列,进行小波分解,分解为两层,即Z=D1+D2+D3+A3,其中D1、D2、D3分别为第一层、第二层、第三层分解得到的高频信号,A3为第3层分解得到的低频信号,得到各层小波系数;然后对各层小波系数分别建立ARMA模型,对各层小波系数进行预测,用得到的预测小波系数重构数据,并获取经重构数据后获取的收盘价对应的期货。
在本发明一实施例中,通过所述强化学习模型为所述策略切换与商品切换模块建立策略切换模型,提供策略切换功能:
S21:记S为每组由近期4个交易日前9天的收盘价组成的图像的集合;st∈S 表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像;记A为agent 可执行策略切换动作的集合;at∈A表示agent在t时刻所采取的策略切换动作;记ρ:S×A→R为奖赏函数;rt~ρ(st,at)表示agent在状态st执行策略切换动作at获得的立即奖赏值;
S22:将st进行灰度处理,输入到一深度卷积神经网络,通过Reward选取:
Figure BDA0001645312570000031
其中,
Figure BDA0001645312570000032
为当前做出策略切换时的收盘价;
Figure BDA0001645312570000033
为上一次做出策略切换时的仓位收盘价;
Figure BDA0001645312570000034
为当前做出策略切换时的持仓情况,多仓为正,空仓为负;
Figure BDA0001645312570000035
为上一次做出策略切换时的持仓情况,多仓为正,空仓为负;
通过一贝尔曼方程得:
Q(s,a)=E[r+γmaxa'Q(s',a')]
其中,Q值为含折扣因子的累计奖励,也即累计收益率,r是指当前动作产生的回报
Figure BDA0001645312570000036
E表示对其求期望,γ为折扣因子,maxa'Q(s',a')为上一次策略切换的最大的Q值;
S23:基于DQN网络,通过采用经验回放方法,在线处理得到的转移样本et=(st,at,rt,st+1),st为当前输入到深度卷积神经网络中的4幅收盘价图像,st+1为下一交易日输入到网络中的4幅收盘价图像,at、rt分别为采用切换策略的动作和对应的回报;在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元D={e1,...et}中;训练时,每次从回放记忆单元D中随机抽取预设批量的转移样本,并使用随机梯度下降算法更新深度卷积神经网络参数θ;
令Q(s,a|θi)表示当前值网络的输出,即采用切换策略动作a,得到的最大交易回报Q,用来评估当前状态动作对的值函数;
Figure BDA0001645312570000041
表示目标值网络的输出,将
Figure BDA0001645312570000042
作为值函数的优化目标,即目标Q值;当前值网络的参数θ实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络,并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数,其中,用于最小化的误差函数为:
L(θi)=Es,a,r,s'[(Yi-Q(s,a|θi))2]
对参数θ求偏导,得到以下梯度
Figure BDA0001645312570000043
通过
Figure BDA0001645312570000044
更新梯度;
S24:通过以上步骤的训练,得到最优的深度卷积神经网络模型,生成获得最大利益的策略切换模型。
在本发明一实施例中,通过所述强化学习模型为所述策略切换与商品切换模块建立商品切换模型,提供商品切换功能:
S31:记C为每组由近期4个交易日前9天的KD指标组成的图像的集合; ct∈C表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像;D 为agent可执行策略切换动作的集合;dt∈D表示agent在t时刻所采取做多和做空,每次动作为1手操作;β:C×D→G为奖赏函数;gt~β(ct,dt)表示agent 在状态ct执行买卖动作dt获得的立即奖赏值;
S32:将期货的最近4个交易日前9天的KD技术指标曲线经过灰度处理后作为卷积神经网络的输入,使用卷积神经网络对其特征进行提取;
S33:Reward选取:
Figure BDA0001645312570000051
其中,
Figure BDA0001645312570000052
为当日仓位下的收盘价;
Figure BDA0001645312570000053
为上一日的仓位收盘价;
Figure BDA0001645312570000054
为当日持仓情况,多仓为正,空仓为负;
Figure BDA0001645312570000055
为上一日持仓情况,多仓为正,空仓为负;
由一贝尔曼方程得:
U(c,d)=E[g+γmaxd'U(c',d')]
其中,g是指当前动作产生的回报
Figure BDA0001645312570000056
E表示对其求期望,U为含折扣因子的累计奖励,也即累计收益率,γ为折扣因子;
S34:基于所述卷积神经网络,采用经验回放方法,在线处理得到的转移样本et=(ct,dt,gt,ct+1);其中,ct为当前输入到卷积神经网络中的4幅KD指标图像,ct+1为下一交易日输入到网络中的4幅KD指标图像,dt,gt分别为采用交易信号的动作和对应的回报;
在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元 D={e1,...et}中;训练时,每次从D中随机抽取预设批量的转移样本,并使用随机梯度下降算法更新卷积神经网络参数η;
U(c,d|ηi)表示当前值网络的输出,用来评估当前状态动作对的值函数;
Figure BDA0001645312570000057
表示目标值网络的输出,采用
Figure BDA0001645312570000058
表示值函数的优化目标,即目标U值;当前值网络的参数η是实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络;通过最小化当前U值和目标U值之间的均方误差来更新网络参数,其中,最小化误差函数为:
V(ηi)=Ec,d,g,c'[(Mi-U(c,d|ηi))2]
对参数η求偏导,得到以下梯度:
Figure BDA0001645312570000059
S35:通过以上步骤的训练,得到最优的卷积神经网络模型,生成做空做多动作让累积收益最大的商品切换模型。
在本发明一实施例中,还包括:
K线走势模块,用于为用户呈现K线走势;
策略回测模块,用于根据历史数据模拟交易,得到金融指标、收益情况以及风险情况,为用户对期货策略的预选择提供参考;
期货策略库模块,用于为用户提供对应的期货策略;
信号处理与实盘交易模块,根据期货策略、风险监控和持仓情况发出交易指令至交易所。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种基于深度强化学习的期货量化交易系统,在现有的量化交易系统上增加机器学习模块,在量化选股阶段利用机器学习算法,筛选出优质期货商品,对运行的策略进行监控,训练强化学习模型对策略实现自动切换。也可以直接通过训练好的强化学习模型,直接对期货进行交易操作。通过机器算法分析给出策略的最佳组合与实时的调整,与现阶段的主流量化平台相比,还具有以下优点:策略选择具有个性化选择,依据不同的风险等级承受能力,匹配对应风险等级的策略;运用机器学习的方法,对策略选择进行优化,让量化交易的过程中收益最大化。
附图说明
图1为本发明中系统架构图。
图2为本发明中一系统功能模块图。
图3为本发明中另一系统功能模块图。
图4为本发明中机器学习模块功能示意图。
图5为本发明中系统运行流程图。
图6为本发明中DQN模型结构示意图。
图7为本发明中DQN网络训练流程图。
图8为本发明中深度强化学习策略网络结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出一种基于深度强化学习的期货量化交易系统,能根据历史交易数据,社会舆论数据,预测期货未来走势,通过本地策略库,以及强化学习对策略的选择,切换,执行;整体框架图如图1所示,包括以下部分:
量化选股模块:通过第三方数据,运用文本分析,结合情绪信息走势得到期货未来走势;通过运用机器学习直接预测期货未来趋势,结合当前市场,用于推荐出合适期货合约。
策略回测模块:用户选取完合约之后,进一步的对策略进行选择,策略的好坏,不能直接观察到,依据历史数据,模拟交易,得到的各种金融指标,收益情况,以及风险情况,方便用户对不同风险等级,对策略进行预选择。
信号实盘交易模块:根据策略,以及风险监控和持仓情况发出交易指令,严格的发送给交易所,保证命令执行的严格且高效。
策略切换与商品切换模块:本系统既有手动人工干预,又可实现结合机器学习算法,只需一键开启,即可实现全自动交易,选股模块,选择合适期货,依据回测模块,选择当前最合适的策略,依据机器学习算法,对策略进行全自动切换,使得收益最大化。
风险监控模块:对当前持仓,交易策略,获利,亏损情况进行监控,及时对策略进行调整,及时止损。
持仓控制模块:根据后期的期货走势运用机器学习选择的策略执行,对资金的分配,进行加仓,减仓,平仓等操作。
机器学习模块:本模块包括小波分析算法、sklearn提供线性回归模型、基于期货评论的情感分析算法、强化学习等算法,为量化选股,策略切换和交易提供算法保障。
进一步的,在本实施例中,系统运行流程主要包括量化选股与量化方法,如图5所示。
进一步的,在本实施例中,在量化选股阶段,选股方案包括线性回归函数建模,文本分析,小波变换三个算法同步进行综合筛选,通过上述三个算法获取的预测结果,为用户推荐期货。
进一步的,在本实施例中,线性回归函数建模包括如下步骤:
S11:期货数据包括每天的openi(开盘价),highi(最高价),lowi(最低价), closei(收盘价),volumei(交易量)与评论数据i。
S12:数据格式为(Xi,Yi),Xi为[closei,HPi,PCTi,volumei]形式,其中 HPi=(highi-lowi)/closei,PCTi=(closei-openi)/openi,Yi为closei+5,即五天后的收盘价,将Xi进行标准化得到Xi(ST)
S13:建立线性回归函数h=WΤXST,W=(θ1234),θi为待求的参数,定义代价函数
Figure BDA0001645312570000081
其中m为期货数据总天数,Yi为第 i+5天的收盘价,利用梯度下降随机选择一组θ,通过梯度下降更新
Figure BDA0001645312570000082
使得J(θ)最小,其中α是学习率,
Figure BDA0001645312570000083
是对代价函数对θj求偏导数,由于期货数据量交少,将90%数据做训练集,10%做测试集。
S14:将预测日期前五天的Xi(ST)数据输入线性回归函数模型,对应得到 h(Xi(ST))即为预测的收盘价,根据收盘价获取对应的期货。
进一步的,在本实施例中,文本分析模型通过如下步骤进行预测:爬取东方财富网的期货评论数据i,由于股民情绪对期货走势产生影响具有一定后滞性,故将股民前五天情绪作为期货后五天的走势。通过snowNLP文本情感处理库计算每条评论的情感值i.emotion,i.num为当天对该期货的评论总数,并且对其求均值作为当天的股民情绪依据,情感均值计算公式如下,根据获取的情感值获取对应的期货:
Figure BDA0001645312570000084
进一步的,在本实施例中,小波变换模型通过如下步骤进行预测:将每天收盘价以及对应的日期构成的序列,进行小波分解,分解为两层,即 Z=D1+D2+D3+A3,其中D1,D2,D3分别为第一层、第二层、第三层分解得到的高频信号,A3为第3层分解得到的低频信号,得到各层小波系数然后对各层小波系数分别建立ARMA模型,对各层小波系数进行预测,用得到的预测小波系数重构数据,并获取对应的期货。在本实施例中,将每次收盘价前15天的数据作为小波变换的预测样本。
进一步的,在本实施例中,将上述三种方法预测的情况进行综合,筛选出预测趋势类似的期货作为推荐期货。
进一步的,在本实施例中,量化方法包括传统量化、基于强化学习的策略切换方法以及基于深度强化学习的商品切换方法。从推荐期货中选择期货作为期货投资合约,如果根据用过风险承受能力,选择不同的量化方案。
进一步的,当用户选择传统量化策略,则选择对应策略进行策略回测,最后根据策略好坏进行实盘策略加载。
进一步的,当用户选择基于强化学习的策略切换方法,策略库暂定为十种策略,对应十个策略切换动作,具体包括如下步骤:
S21:采用深度强化学习在该方法中各个属性含义如下:
(1)S为所有每组定义为近期4个交易日前9天的收盘价构成的图像的集合.st∈S表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像;
(2)A为agent可执行策略切换动作的集合.at∈A表示agent在t时刻所采取的策略切换动作;
(3)ρ:S×A→R为奖赏函数.rt~ρ(st,at)表示agent在状态st执行策略切换动作at获得的立即奖赏值;
S22:将st,也即4幅图像进行灰度处理,然后输入到如图6所示的DQN神经网络,Reward选取
Figure BDA0001645312570000091
其中,
Figure BDA0001645312570000092
为当前做出策略切换时的收盘价,
Figure BDA0001645312570000093
为上一次做出策略切换时的仓位收盘价,
Figure BDA0001645312570000094
为当前做出策略切换时的持仓情况(多仓为正,空仓为负),
Figure BDA0001645312570000095
为上一次做出策略切换时的持仓情况(多仓为正,空仓为负)。由贝尔曼方程可得 Q(s,a)=E[r+γmaxa'Q(s',a')],其中,r是指当前动作产生的回报
Figure BDA0001645312570000096
E表示对其求期望,Q值就是含折扣因子的累计奖励,也就是累计收益率,将折扣因子γ设置为0.9,以获得更长远的收益,maxa'Q(s',a')为上一次策略切换的最大的Q值,在本实施例中,Q值均指累计回报奖励,是迭代值。
S23:利用DQN网络,使用经i验回放机制,如图7,在线处理得到的转移样本et=(st,at,rt,st+1),其中st为当前输入到网络中的4幅收盘价图像.st+1为下一交易日输入到网络中的4幅收盘价图像,at,rt分别为采用切换某种策略的动作和对应的回报。在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元D={e1,...et}中。训练时,每次从D中随机抽取小批量的转移样本,并使用随机梯度下降(StochasticGradientDescent,SGD)算法更新网络参数θ。除了使用深度卷积网络近似表示当前的值函数之外,还单独使用了另一个网络来产生目标Q值。具体地,Q(s,a|θi)表示当前值网络的输出,即采用切换策略动作a, 得到的最大交易回报Q,用来评估当前状态动作对的值函数;
Figure BDA0001645312570000101
表示目标值网络的输出,一般采用
Figure BDA0001645312570000102
近似表示值函数的优化目标,即目标Q值.当前值网络的参数θ是实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络。通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数.误差函数为:
L(θi)=Es,a,r,s'[(Yi-Q(s,a|θi))2]
对参数θ求偏导,得到以下梯度
Figure BDA0001645312570000103
利用
Figure BDA0001645312570000104
更新梯度。
S24:通过上面的训练,得到最优的神经网络模型,并产生获得最大利益的策略切换的模型。进一步的,在本实施例中,当用户选择基于强化学习的实时交易方法时,,具体包括如下步骤:
S31:定义强化学习当中的概念;
(1)C为所有每组定义为近期4个交易日前9天的KD指标构成的图像的集合.ct∈C表示agent在t时刻近期4个交易日前9天的KD指标构成的4个图像;
(2)D为agent可执行策略切换动作的集合.dt∈D表示agent在t时刻所采取做多和做空,每次动作为1手操作;
(3)β:C×D→G为奖赏函数.gt~β(ct,dt)表示agent在状态ct执行买卖动作dt获得的立即奖赏值;
S32:将期货的最近4个交易日前9天的KD技术指标曲线经过灰度处理后作为整个网络的输入,使用卷积神经网络对其特征进行提取,神经网络结构如图8;
S33:Reward选取
Figure BDA0001645312570000111
其中,
Figure BDA0001645312570000112
为当日仓位下的收盘价,
Figure BDA0001645312570000113
为上一日的仓位收盘价,
Figure BDA0001645312570000114
为当日持仓情况(多仓为正,空仓为负),
Figure BDA0001645312570000115
为上一日持仓情况(多仓为正,空仓为负)。由贝尔曼方程可得 U(c,d)=E[g+γmaxd'U(c',d')],其中,g是指当前动作产生的回报
Figure BDA0001645312570000116
E 表示对其求期望,U值就是含折扣因子的累计奖励,也就是累计收益率,将折扣因子γ设置为0.9,以获得更长远的收益。
S34:利用如图8的网络结构,i并且使用经验回放机制(experiencereplay),在线处理得到的转移样本et=(ct,dt,gt,ct+1).其中ct为当前输入到网络中的4幅 KD指标图像.ct+1为下一交易日输入到网络中的4幅KD指标图像,dt,gt分别为采用交易信号的动作和对应的回报。在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元D={e1,...et}中.训练时,每次从D中随机抽取小批量的转移样本,并使用随机梯度下降(StochasticGradientDescent,SGD)算法更新网络参数η,除了使用深度卷积网络近似表示当前的值函数之外,还单独使用了另一个网络来产生目标U值.具体地,U(c,d|ηi)表示当前值网络的输出,用来评估当前状态动作对的值函数;
Figure BDA0001645312570000117
表示目标值网络的输出,一般采用
Figure BDA0001645312570000118
近似表示值函数的优化目标,即目标U值.当前值网络的参数η是实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络.通过最小化当前U值和目标U值之间的均方误差来更新网络参数.误差函数为:
V(ηi)=Ec,d,g,c'[(Mi-U(c,d|ηi))2]
对参数η求偏导,得到以下梯度:
Figure BDA0001645312570000121
S35:通过上面的训练,得到最优的神经网络模型,并且产生做空做多动作让累积收益最大的商品切换模型,以投资收益最大的目的。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.一种基于深度强化学习的期货量化交易系统,其特征在于,包括:
量化选股模块,根据期货数据以及期货评论数据,通过机器学习模块进行数据分析,根据数据分析结果得到期货未来走势信息,为用户推荐出对应的期货;
风险监控模块,用于对当前持仓、交易策略、获利以及亏损情况进行监控;
持仓控制模块,根据期货未来走势信息,通过运用机器学习模块数据分析后选择的期货策略,对资金分配,进行加仓操作、减仓操作、平仓操作;
策略切换与商品切换模块,根据所述量化选股模块提供的信息,通过机器学习模块建立对应的切换模型,提供对期货策略以及期货商品进行全自动切换功能;
机器学习模块,提供情感文本分析模型、线性回归模型、小波分析模型以及强化学习模型,用于为所述量化选股模块以及所述策略切换与商品切换模块提供数据分析以及模型建立;
通过所述强化学习模型为所述策略切换与商品切换模块建立策略切换模型,提供策略切换功能:
S21:记S为每组由近期4个交易日前9天的收盘价组成的图像的集合;st∈S表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像;记A为agent可执行策略切换动作的集合;at∈A表示agent在t时刻所采取的策略切换动作;记ρ:S×A—→→R为奖赏函数;rt~ρ(st,at)表示agent在状态st执行策略切换动作at获得的立即奖赏值;
S22:将st进行灰度处理,输入到一深度卷积神经网络,通过Reward选取:
Figure FDA0003307225470000011
其中,
Figure FDA0003307225470000012
为当前做出策略切换时的收盘价;
Figure FDA0003307225470000013
为上一次做出策略切换时的仓位收盘价;
Figure FDA0003307225470000014
为当前做出策略切换时的持仓情况,多仓为正,空仓为负;
Figure FDA0003307225470000015
为上一次做出策略切换时的持仓情况,多仓为正,空仓为负;
通过一贝尔曼方程得:
Q(s,a)=E[r+γmaxa'Q(s',a')]
其中,Q值为含折扣因子的累计奖励,也即累计收益率,r是指当前动作产生的回报
Figure FDA0003307225470000021
E表示对其求期望,γ为折扣因子,maxa'Q(s',a')为上一次策略切换的最大的Q值;
S23:基于DQN网络,通过采用经验回放方法,在线处理得到的转移样本et=(st,at,rt,st+1),st为当前输入到深度卷积神经网络中的4幅收盘价图像,st+1为下一交易日输入到网络中的4幅收盘价图像,at、rt分别为采用切换策略的动作和对应的回报;在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元D={e1,...et}中;训练时,每次从回放记忆单元D中随机抽取预设批量的转移样本,并使用随机梯度下降算法更新深度卷积神经网络参数θ;
令Q(s,aθi)表示当前值网络的输i出,即采用切换策略动作a,得到的最大交易回报Q,用来评估当前状态动作对的值函数;
Figure FDA0003307225470000022
表示目标值网络的输出,将
Figure FDA0003307225470000023
作为值函数的优化目标,即目标Q值;当前值网络的参数θ实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络,并通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数,其中,用于最小化的误差函数为:
L(θi)=Es,a,r,s'[(Yi-Q(s,a|θi))2]
对参数θ求偏导,得到以下梯度
Figure FDA0003307225470000024
通过
Figure FDA0003307225470000025
更新梯度;
S24:通过以上步骤的训练,得到最优的深度卷积神经网络模型,生成获得最大利益的策略切换模型。
2.根据权利要求1所述的一种基于深度强化学习的期货量化交易系统,其特征在于,所述量化选股模块中,所述机器学习模块通过采用线性回归模型、所述情感文本分析模型以及所述小波分析模型进行数据分析,获取每种模型预测结果对应的期货集合,选取期货集合中相同的期货作为推荐期货。
3.根据权利要求1所述的一种基于深度强化学习的期货量化交易系统,其特征在于,所述线性回归模型通过如下方式进行数据分析:
S11:期货数据包括每天的开盘价openi、最高价highi、最低价lowi、收盘价closei、交易量volumei与期货评论数据i;
S12:令数据格式为(Xi,Yi),Xi为[closei,HPi,PCTi,volumei],其中,HPi=(highi-lowi)/closei,PCTi=(closei-openi)/openi;Y为closei+5,即五天后的收盘价,将Xi进行标准化得到Xi(ST)
S13:建立线性回归函数:
h=WTXST
其中,W=(θ1234),θi为待求的参数;记代价函数
Figure FDA0003307225470000031
m为期货数据总天数,Yi为第i+5天的收盘价;利用梯度下降随机选择一组θ,通过梯度下降更新
Figure FDA0003307225470000032
使得J(θ)最小,α是学习率,
Figure FDA0003307225470000033
是对代价函数对θj求偏导数;
S14:将预测日期前五天的Xi(ST)数据输入训练好的线性回归函数模型,对应得到h(Xi(ST))为预测的收盘价,并获取该预测的收盘价对应的期货。
4.根据权利要求1所述的基于深度强化学习的期货量化交易系统,其特征在于,所述情感文本分析模型通过如下方式进行数据分析:
获取期货评论数据i,将前五天股民情绪信息作为期货后五天的走势信息,通过snowNLP文本情感处理库计算每条评论的情感值i.emotion,将i.num为当天对该期货的评论总数,对其求均值作为当天的股民情绪,情感均值通过如下方式获取,并获取该情感均值对应的期货:
Figure FDA0003307225470000041
5.根据权利要求1所述的基于深度强化学习的期货量化交易系统,其特征在于,所述小波分析模型通过如下方式进行数据分析:
对由每天收盘价以及对应的日期组成的序列,进行小波分解,分解为两层,即Z=D1+D2+D3+A3,其中D1、D2、D3分别为第一层、第二层、第三层分解得到的高频信号,A3为第3层分解得到的低频信号,得到各层小波系数;然后对各层小波系数分别建立ARMA模型,对各层小波系数进行预测,用得到的预测小波系数重构数据,并获取经重构数据后获取的收盘价对应的期货。
6.根据权利要求1所述的基于深度强化学习的期货量化交易系统,其特征在于,通过所述强化学习模型为所述策略切换与商品切换模块建立商品切换模型,提供商品切换功能:
S31:记C为每组由近期4个交易日前9天的KD指标组成的图像的集合;ct∈C表示agent在t时刻近期4个交易日前9天的收盘价构成的4个图像;D为agent可执行策略切换动作的集合;dt∈D表示agent在t时刻所采取做多和做空,每次动作为1手操作;β:C×D—→→G为奖赏函数;gt~β(ct,dt)表示agent在状态ct执行买卖动作dt获得的立即奖赏值;
S32:将期货的最近4个交易日前9天的KD技术指标曲线经过灰度处理后作为卷积神经网络的输入,使用卷积神经网络对其特征进行提取;
S33:Reward选取:
Figure FDA0003307225470000042
其中,
Figure FDA0003307225470000043
为当日仓位下的收盘价;
Figure FDA0003307225470000044
为上一日的仓位收盘价;
Figure FDA0003307225470000045
为当日持仓情况,多仓为正,空仓为负;
Figure FDA0003307225470000046
为上一日持仓情况,多仓为正,空仓为负;
由一贝尔曼方程得:
U(c,d)=E[g+γmaxd'U(c',d')]
其中,g是指当前动作产生的回报
Figure FDA0003307225470000051
E表示对其求期望,U为含折扣因子的累计奖励,也即累计收益率,γ为折扣因子;
S34:基于所述卷积神经网络,采用经验回放方法,在线处理得到的转移样本et=(ct,dt,gt,ct+1);其中,ct为当前输入到卷积神经网络中的4幅KD指标图像,ct+1为下一交易日输入到网络中的4幅KD指标图像,dt,gt分别为采用交易信号的动作和对应的回报;
在每个时间步t,将agent与环境交互得到的转移样本存储到回放记忆单元D={e1,...et}中;训练时,每次从D中随机抽取预设批量的转移样本,并使用随机梯度下降算法更新卷积神经网络参数η;
U(c,d|ηi)表示当前值网络的输出,用来评估当前状态动作对的值函数;
Figure FDA0003307225470000052
表示目标值网络的输出,采用
Figure FDA0003307225470000053
表示值函数的优化目标,即目标U值;当前值网络的参数η是实时更新的,每经过N轮迭代,将当前值网络的参数复制给目标值网络;通过最小化当前U值和目标U值之间的均方误差来更新网络参数,其中,最小化误差函数为:
V(ηi)=Ec,d,g,c'[(Mi-U(c,d|ηi))2]
对参数η求偏导,得到以下梯度:
Figure FDA0003307225470000054
S35:通过以上步骤的训练,得到最优的卷积神经网络模型,生成做空做多动作让累积收益最大的商品切换模型。
7.根据权利要求1所述的基于深度强化学习的期货量化交易系统,其特征在于,还包括:
K线走势模块,用于为用户呈现K线走势;
策略回测模块,用于根据历史数据模拟交易,得到金融指标、收益情况以及风险情况,为用户对期货策略的预选择提供参考;
期货策略库模块,用于为用户提供对应的期货策略;
信号处理与实盘交易模块,根据期货策略、风险监控和持仓情况发出交易指令至交易所。
CN201810399735.4A 2018-04-28 2018-04-28 基于深度强化学习的期货量化交易系统 Active CN108629690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810399735.4A CN108629690B (zh) 2018-04-28 2018-04-28 基于深度强化学习的期货量化交易系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810399735.4A CN108629690B (zh) 2018-04-28 2018-04-28 基于深度强化学习的期货量化交易系统

Publications (2)

Publication Number Publication Date
CN108629690A CN108629690A (zh) 2018-10-09
CN108629690B true CN108629690B (zh) 2021-11-26

Family

ID=63694961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810399735.4A Active CN108629690B (zh) 2018-04-28 2018-04-28 基于深度强化学习的期货量化交易系统

Country Status (1)

Country Link
CN (1) CN108629690B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635869B (zh) * 2018-12-11 2023-04-07 成都信息工程大学 在线学习干预系统
CN110047002A (zh) * 2019-03-28 2019-07-23 莆田学院 一种基于数据分析的期货推荐方法及系统
CN110222185A (zh) * 2019-06-13 2019-09-10 哈尔滨工业大学(深圳) 一种关联实体的情感信息表示方法
CN110378382A (zh) * 2019-06-18 2019-10-25 华南师范大学 基于深度强化学习的新型量化交易系统及其实现方法
CN111427935B (zh) * 2020-02-28 2023-05-30 中信建投证券股份有限公司 量化交易指标的预测和显示方法、电子设备和介质
CN112330446A (zh) * 2020-04-16 2021-02-05 上海泽巽资产管理有限公司 一种期货量化交易平台
CN111753982B (zh) * 2020-05-29 2024-07-12 中国科学技术大学 一种基于强化学习的人机融合自主性边界切换方法及系统
CN112116465B (zh) * 2020-06-04 2023-09-29 上海金融期货信息技术有限公司 基于深度学习模型的成交持仓比预测方法和系统
CN111899106A (zh) * 2020-08-06 2020-11-06 天津大学 一种期货大数据可视分析系统
CN114581249B (zh) * 2022-03-22 2024-05-31 山东大学 基于投资风险承受能力评估的金融产品推荐方法及系统
CN117789095B (zh) * 2024-01-02 2024-05-14 广州汇思信息科技股份有限公司 一种切花开放周期优化方法、系统、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400297A (zh) * 2013-07-25 2013-11-20 北京工商大学 股票买入点和卖出点的预测方法及装置
CN103985055A (zh) * 2014-05-30 2014-08-13 西安交通大学 一种基于网络分析和多模型融合的股市投资决策方法
CN106022522A (zh) * 2016-05-20 2016-10-12 南京大学 一种基于互联网公开的大数据预测股票的方法及系统
CN106227756A (zh) * 2016-07-14 2016-12-14 苏州大学 一种基于情感分类的股票指数预测方法及系统
CN106934716A (zh) * 2017-03-10 2017-07-07 燧石科技(武汉)有限公司 基于网络分布式计算的多模块自动化交易系统
CN107256516A (zh) * 2017-06-09 2017-10-17 杭州德锐资本投资管理有限公司 一种股票三合一交易系统及其交易方法

Also Published As

Publication number Publication date
CN108629690A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108629690B (zh) 基于深度强化学习的期货量化交易系统
Liang et al. Adversarial deep reinforcement learning in portfolio management
Sayavong et al. Research on stock price prediction method based on convolutional neural network
Korangi et al. A transformer-based model for default prediction in mid-cap corporate markets
US8442891B2 (en) Intermarket analysis
Liu et al. Flexible time horizon project portfolio optimization with consumption and risk control
Bebeshko et al. Analysis and modeling of price changes on the exchange market based on structural market data
Wiiava et al. Stock price prediction with golden cross and death cross on technical analysis indicators using long short term memory
CN110322351A (zh) 深度分层策略下的多源驱动量化投资模型
CN113191880A (zh) 银行柜员终端加钞建议确定方法及装置
Otabek et al. Multi-level deep Q-networks for Bitcoin trading strategies
CN113743669A (zh) 一种基于情感分类模型的股市投资者情绪指标选择方法
Lee et al. KOSPI200 Index prediction using sequence-to-sequence based on denoising filter and attention mechanism
CN113516559A (zh) 基金风险确定方法及装置
Lim et al. Intra-Day Price Simulation with Generative Adversarial Modelling of the Order Flow
EP3739517A1 (en) Image processing
Borovkova et al. Deep learning prediction of the eurostoxx 50 with news sentiment
CN110648016A (zh) 基于深度学习的股票数据分析方法和系统
Larhgotra et al. Prediction Stock Price Using Time Series Analysis
Poernamawatie et al. Sharia Bank of Indonesia Stock Price Prediction using Long Short-Term Memory
Kolte et al. Stock market prediction using deep learning
CN116542353A (zh) 隐含波动率预测方法、价格预测方法、装置、设备及介质
Maleki et al. A Risk-Based Trading System Using Algorithmic Trading and Deep Learning Models
Baranochnikov et al. A Comparison of Long Short-Term Memory and Gated Recurrent Unit Models' Architectures with Novel Walk-Forward Approach to Algorithmic Investment Strategy
Supriyanto Comparison of Grid Search and Evolutionary Parameter Optimization with Neural Networks on JCI Stock Price Movements during the Covid 19

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant