CN116823468A

CN116823468A - 一种基于sac的高频量化交易控制方法、系统及存储介质

Info

Publication number: CN116823468A
Application number: CN202310702627.0A
Authority: CN
Inventors: 许波; 贺一峻; 苏信溥; 李祥霞; 涂雯雯
Original assignee: Guangdong University of Business Studies
Current assignee: Guangdong University of Business Studies
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-29

Abstract

本发明公开了一种基于SAC的高频量化交易方法、系统及存储介质，方法包括：根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据输入Actor网络，以最大化期望的累积回报为目标，生成交易动作；将状态数据和交易动作输入Critic网络，计算Actor网络的训练误差；若训练误差未达到预设要求，则更新Actor网络的参数，直到训练误差达到预设要求，生成交易指令；根据历史市场数据对交易指令执行回测操作，根据符合预设条件的回测结果对应的交易指令生成交易策略，并将交易策略发送给交易系统，以使交易系统根据交易策略执行相应的控制，以实现提高交易系统的模拟精度，进而提高控制的交易系统的工作效率，以及计算出的盈利结果的精度。

Description

一种基于SAC的高频量化交易控制方法、系统及存储介质

技术领域

本发明涉及高频量化交易技术领域，尤其涉及一种基于SAC的高频量化交易控制方法、系统及存储介质。

背景技术

高频量化交易(High-Frequency Trading，HFT)是一种利用计算机算法进行交易的策略，通过快速的交易、高频率的交易和低延迟的交易来获取利润。HFT通常使用自动化交易系统和先进的计算机技术来进行交易，以在市场价格发生微小变动时进行快速的买卖操作。HFT交易员通常使用高速交易系统和数据分析工具来监测市场价格变化，并使用算法来执行交易。在现有技术中，由于交易策略的准确性低和风险控制能力差，导致了交易系统利用该交易策略执行交易时，在市场价格波动较大的情况下，市场交易风险大、交易动作复杂、交易数据量大、交易系统工作效率低，计算出的盈利结果的精度低，对交易的控制效果差、精度低。

现有技术多用基于移动平均线交叉的高频交易策略对交易系统进行控制，该策略的交易信号产生是基于历史价格数据的，存在信号滞后的问题。在市场价格变化较快的情况下，移动平均线交叉信号可能会滞后于市场趋势的变化，从而影响交易策略的准确性。其次，该策略的交易参数通常是固定的，无法适应市场变化，而且没有明确的风险控制机制，无法有效控制交易风险。在市场价格波动较大的情况下，交易策略可能会产生大量的交易信号，从而增加交易风险。当市场交易量较小时，市场参与者可能会通过大量交易来操纵市场价格，从而影响移动平均线交叉信号的产生。因此，在现有技术中的交易策略没有考虑市场价格变化和风险控制的因素，交易策略的准确性低和风险控制能力差，利用该交易策略控制的交易系统的工作效率低，计算出的盈利结果的精度低。

发明内容

本发明提供了一种基于SAC的高频量化交易控制方法、系统及存储介质，以实现减少交易系统的计算量，提高交易系统的模拟精度，进而提高控制的交易系统的工作效率，以及计算出的盈利结果的精度。

本发明提供了一种基于SAC的高频量化交易控制方法，包括：根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据；

将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作；将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Actor网络的参数，重新计算新的交易动作，直到第一Critic网络根据新的交易动作计算的训练误差达到预设要求，将新的交易动作作为交易指令；所述SAC包括第一Actor网络和第一Critic网络；

根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果；根据符合预设条件的回测结果对应的交易指令生成交易策略，并将所述交易策略发送给交易系统，以使所述交易系统根据所述交易策略执行相应的控制。

作为优选方案，本发明提出SAC算法对交易数据的处理过程进行优化，在SAC算法的基础上加入残差块和多头注意力机制来计算的交易策略，利用多头注意力机制可以在交易数据的处理过程中捕捉到输入的交易数据中的全局信息，能够更好地处理复杂的状态和动作空间，能够更好地适应和应对市场价格变化和风险的情况。另外，残差块和多头注意力机制的引入使得SAC算法具有更高的鲁棒性，当输入的交易数据存在噪声或者部分信息缺失时，本申请依然能够保持交易数据的处理精度，使得计算出来的交易策略更加灵活地适应市场变化，提高了交易策略的计算准确性和风险控制能力。本申请还使用了历史市场数据来对交易指令进行回测和验证，进一步提高生成的交易策略的准确性。通过该方法生成的交易策略控制交易系统，能够提高交易系统的工作效率，以及交易系统计算出的盈利结果的精度。

进一步地，将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作，具体为：

根据最大化期望的累积回报的目标，生成第一Actor网络的最大熵目标函数；根据交易环境的状态数据，生成第一Actor网络的约束条件；将所述最大熵目标函数和所述第一Actor网络的约束条件作为输入数据，并利用残差块和多头注意力机制对所述输入数据进行求解，生成当前状态的交易动作。

进一步地，将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差，具体为：

将学习价值函数作为目标函数；根据交易环境的状态数据和当前状态的交易动作，生成第一Critic网络的约束条件；将所述目标函数和所述第一Critic网络的约束条件作为输入数据，并利用残差块和多头注意力机制对所述输入数据进行求解，生成第一Actor网络的价值数据。

作为优选方案，第一Actor网络用于学习策略函数，将交易环境的状态数据作为输入，输出一个当前状态的交易动作；第一Critic网络用于学习价值函数，将交易环境的状态数据和第一Actor网络输出的动作作为输入，输出一个价值，评估第一Actor网络的策略函数的好坏，通过第一Critic网络输出的价值数据优化Actor网络的策略和动作选择，提高对当前状态的交易动作的计算精度。

进一步地，利用残差块和多头注意力机制对所述输入数据进行求解，具体为：

将输入数据通过所述残差块后的输出与所述输入数据进行相加操作，生成残差块输出数据；其中，所述残差块包括依次连接的第一卷积层、第一批量归一化层、第一激活函数、第二卷积层、第二批量归一化层和第二激活函数；

将所述残差块输出数据进行线性变换后输入点积注意力模块计算特征，将所述点积注意力的特征结果输入全连接层后进行线性变换，输入多头注意力模块计算特征，并将多头注意力的特征结果作为最终输出结果。

作为优选方案，在两个网络中都加入了残差块和多头注意力机制，残差块通过跳跃连接解决了梯度消失和梯度爆炸问题，有助于加速神经网络的收敛速度。多头注意力机制能够捕捉序列中的长距离依赖关系，使得神经网络能够更快地学习到有效的策略；多头注意力机制可以捕捉到输入数据中的全局信息，使得SAC算法具有更好的泛化性能，在面对新的环境或任务时，算法能够更好地适应和应对。因此，残差块和多头注意力机制的引入使得SAC算法具有更高的鲁棒性；当输入数据存在噪声或者部分信息缺失时，SAC算法依然能够保持较好的性能，能提高神经网络的表达能力，使得SAC算法能够更好地处理复杂的状态和动作空间，提高了交易策略的计算的准确性，进而提高交易系统计算出的盈利结果的精度。

进一步地，将所述状态数据和所述交易动作输入第一Critic网络之前，还包括：

根据交易执行结果计算奖励函数，生成若干个实际奖励结果；

获取交易执行环境的下一时刻状态数据，将所述下一时刻状态数据输入第二Actor网络，以最大化期望的累积回报为目标，生成下一时刻状态的交易动作；将所述下一时刻状态数据和所述下一时刻状态的交易动作输入第二Critic网络，输出下一时刻状态数据的目标奖励结果；

根据所述实际奖励结果和目标奖励结果，计算所述第一Critic网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Critic网络和第二Critic网络的参数，直到所述第一Critic网络的训练误差最小化。

进一步地，更新所述第一Actor网络的参数，重新计算新的交易动作之后，还包括：

根据更新后的第一Actor网络的参数，更新第二Actor网络的参数，重新计算所述第一Critic网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Critic网络和第二Critic网络的参数，直到所述第一Critic网络的训练误差最小化。

作为优选方案，奖励函数用于评价交易执行动作的好坏程度，即实际奖励结果；第二Critic网络用于预测下一时刻的状态开始采取动作所能获得的总体回报，即目标奖励结果。本申请通过实际奖励结果和目标奖励结果的对比，评估当前状态和动作的价值，最小化第一Critic网络的训练误差，提高对当前状态和动作的价值评估精度，从而优化Actor网络的策略和动作选择，提高了交易策略的计算的准确性，进而提高交易系统计算出的盈利结果的精度。

进一步地，根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果，具体为：

获取历史市场数据以及对应的指标；所述历史市场数据包括数字货币当天的开盘价、最高价、最低价、收盘价和成交量；所述指标包括：相对强弱指标和布林线；

将交易指令输入利用训练好的回测模型中，执行回测操作，生成回测结果；所述回测模型用于根据历史市场数据和对应的指标测试交易指令的盈利数据。

作为优选方案，本申请使用了历史市场数据来对交易指令进行回测和验证，进一步提高生成的交易策略的准确性。通过该方法生成的交易策略控制交易系统，能够提高交易系统的工作效率，以及交易系统计算出的盈利结果的精度。

相应地，本发明还提供一种基于SAC的高频量化交易控制系统，包括：交易控制装置和交易系统；

所述交易控制装置包括：环境模块、算法模块和主程序模块；

其中，所述环境模块用于根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据；

所述算法模块用于将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作；将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Actor网络的参数，重新计算新的交易动作，直到第一Critic网络根据新的交易动作计算的训练误差达到预设要求，将新的交易动作作为交易指令；所述SAC包括第一Actor网络和第一Critic网络；

所述主程序模块用于获取的市场行情数据；还用于根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果；根据符合预设条件的回测结果对应的交易指令生成交易策略，并将所述交易策略发送给交易系统；

所述交易系统用于根据所述交易策略执行相应的控制。

所述算法模块包括：第一Actor网络单元和第一Critic网络单元；

所述第一Actor网络单元用于根据最大化期望的累积回报的目标，生成第一Actor网络的最大熵目标函数；根据交易环境的状态数据，生成第一Actor网络的约束条件；将所述最大熵目标函数和所述第一Actor网络的约束条件作为输入数据，并利用残差块和多头注意力机制对所述输入数据进行求解，生成当前状态的交易动作；

所述第一Critic网络单元用于将学习价值函数作为目标函数；根据交易环境的状态数据和当前状态的交易动作，生成第一Critic网络的约束条件；将所述目标函数和所述第一Critic网络的约束条件作为输入数据，并利用残差块和多头注意力机制对所述输入数据进行求解，生成第一Actor网络的价值数据。

作为优选方案，本发明系统的算法模块提出SAC算法对交易数据的处理过程进行优化，在SAC算法的基础上加入残差块和多头注意力机制来计算的交易策略，利用多头注意力机制可以在交易数据的处理过程中捕捉到输入的交易数据中的全局信息，能够更好地处理复杂的状态和动作空间，能够更好地适应和应对市场价格变化和风险的情况。另外，残差块和多头注意力机制的引入使得SAC算法具有更高的鲁棒性，当输入的交易数据存在噪声或者部分信息缺失时，本申请依然能够保持交易数据的处理精度，使得计算出来的交易策略更加灵活地适应市场变化，提高了交易策略的计算准确性和风险控制能力。本申请主程序模块还使用了历史市场数据来对交易指令进行回测和验证，进一步提高生成的交易策略的准确性。通过该方法生成的交易策略控制交易系统，能够提高交易系统的工作效率，以及交易系统计算出的盈利结果的精度。

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本发明内容所述的一种基于SAC的高频量化交易控制方法。

附图说明

图1是本发明提供的一种基于SAC的高频量化交易控制方法的一种实施例的流程示意图；

图2是本发明提供的一种基于SAC的高频量化交易控制方法的残差块的一种实施例的结构示意图；

图3是本发明提供的一种基于SAC的高频量化交易控制方法的多头注意力机制的一种实施例的结构示意图；

图4是本发明提供的一种基于SAC的高频量化交易控制方法的另一种实施例的流程示意图；

图5是本发明提供的一种基于SAC的高频量化交易控制系统的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，请参照图1，为本发明实施例提供的一种基于SAC的高频量化交易控制方法，包括步骤S101-S103：

步骤S101：根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据；

在本实施例中，交易环境的状态数据是由市场行情数据和交易执行环境共同决定的，市场行情数据包括股票价格、成交量和市值等信息，而交易执行环境包括交易所的交易规则、交易限制、交易费用、交易滑点和持仓限制等。

步骤S102：将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作；将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Actor网络的参数，重新计算新的交易动作，直到第一Critic网络根据新的交易动作计算的训练误差达到预设要求，将新的交易动作作为交易指令；所述SAC包括第一Actor网络和第一Critic网络；

在本实施例中，使用SAC强化学习算法进行模型训练和交易决策，SAC算法模型包括第一Actor网络和第一Critic网络，用于根据环境模块提供的市场行情数据和交易执行结果，计算出最优的交易指令。

在本实施例中，第一Actor网络用于学习策略函数，它将状态数据作为输入，输出一个动作。第一Actor网络的目标是最大化期望的累积回报，即最大化策略函数的价值函数。在SAC算法中，第一Actor网络使用了一种称为“最大熵策略”的方法，它可以在探索和利用之间取得平衡，从而提高算法的稳定性和收敛速度。

在本实施例中，根据最大化期望的累积回报的目标，生成第一Actor网络的最大熵模型的目标函数，即最大熵目标函数；所述最大熵模型的目标函数为基于条件概率的最大化期望的累积回报；

根据交易环境的状态数据，构造若干个特征函数和概率约束条件，并求得各所述特征函数的经验概率分布的期望，即训练集中出现的次数与样本集的总数目的比值；以每个所述特征函数均满足所述概率约束条件为目的，即模型概率分布的期望值等于训练样本分布的期望值，生成第一Actor网络的约束条件；

将所述最大熵模型的目标函数和所述第一Actor网络的约束条件作为输入数据，并利用残差块和多头注意力机制对所述输入数据进行求解，求得最优解作为当前状态的交易动作。

在本实施例中，利用“最大熵策略”的方法能够使得计算出的交易策略更加随机,从而增加智能体的探索率,还能够降低算法对模型与估计误差的敏感性,从而提高算法的稳定性和收敛速度；并且结合残差块和多头注意力机制对最大熵模型的目标函数和约束条件进行求解，进一步提高对算法的计算精度，实现在保证算法计算精度的情况下，提高算法的稳定性和收敛速度，从而提高了交易策略的计算效率和精度。

在本实施例中，第一Critic网络用于学习价值函数，它将状态数据和第一Actor网络输出的动作作为输入，输出一个价值。第一Critic网络的目标是学习价值函数，以便评估第一Actor网络的策略函数的好坏。

进一步地，所述利用残差块和多头注意力机制对所述输入数据进行求解，具体为：

如图2所示，为残差块的结构图，残差块包括依次连接的第一卷积层、第一批量归一化层、第一激活函数、第二卷积层、第二批量归一化层和第二激活函数；输入数据(Input)通过所述残差块后的输出与原输入数据进行相加操作(Addition)，生成残差块输出数据(Output)；

残差块通过跳跃连接解决了梯度消失和梯度爆炸问题，有助于加速神经网络的收敛速度。多头注意力机制能够捕捉序列中的长距离依赖关系，使得神经网络能够更快地学习到有效的策略。

如图3所示，为多头注意力机制的结构图，将查询(Query)、键(Key)、和值(Value)分别进行线性变换(Linear)，输入点积注意力模块(Scaled Dot-Product Attention)计算特征，将所述点积注意力的特征结果输入全连接层(Concat)后进行线性变换，输入多头注意力模块计算特征(Multi-Head Attention)，并将多头注意力的特征结果作为最终输出结果。

多头注意力机制可以捕捉到输入数据中的全局信息，使得SAC算法具有更好的泛化性能。这意味着在面对新的环境或任务时，算法能够更好地适应和应对。

在两个网络中都加入了残差块和多头注意力机制，能够提高神经网络的表达能力、捕捉序列中的依赖关系、以及提高各网络的泛化能力。残差块和多头注意力机制都是深度学习领域的重要组件，分别来源于ResNet和Transformer结构。它们都能提高神经网络的表达能力，使得SAC算法能够更好地处理复杂的状态和动作空间。

在本实施例中，所述更新所述第一Actor网络的参数，重新计算新的交易动作之后，还包括：

在本实施例中，根据交易执行结果计算奖励函数，生成若干个实际奖励结果，包括收益率、夏普比率、最大回撤等，奖励函数被用来评估智能体在环境中采取某个动作的好坏程度。

在本实施例中，如图4所示，经验缓存数据是指预先采集到的一些经验数据，包括当前的状态数据(状态)、交易动作(动作)、奖励数据(奖励)和下一个时刻的状态数据(下一个状态)；

第一Actor网络和第一Critic网络构成了评估网络，第二Actor网络和第二Critic网络构成了目标网络；

第一Actor网络用于根据当前的状态数据计算当前状态的交易动作，第二Actor网络用于根据下一个时刻的状态数据计算下一时刻状态的交易动作；第一Critic网络用于根据状态数据和交易动作估计当前状态下的值函数，第二Critic网络用于根据下一时刻的状态数据估计下一时刻状态下的值函数，即预测智能体从下一时刻状态开始采取动作所能获得的总体回报。

在SAC算法中，第一Critic网络使用了一种称为“双Q学习”的方法，它可以减少价值函数的过估计，提高算法的稳定性和收敛速度。通过计算第一Critic网络的误差来更新第一Actor网络的参数，从而优化第一Actor网络的策略和动作选择。其中，第一Critic网络的误差是通过奖励函数计算的当前状态下的实际奖励和第二Critic网络计算的目标奖励之间的差异计算而来的。第一Critic网络的误差用于更新评估网络的第一Critic网络的参数，以提高第一Critic网络对于当前状态和动作的价值评估精度，从而优化第一Actor网络的策略和动作选择。更新参数的方式是使用梯度下降法，通过最小化误差来调整评估网络的参数。

步骤S103：根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果；根据符合预设条件的回测结果对应的交易指令生成交易策略，并将所述交易策略发送给交易系统，以使所述交易系统根据所述交易策略执行相应的控制。

进一步地，所述根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果，具体为：

在本实施例中，用户上传自定义的历史市场数据、市场行情数据以及对应的指标，回测模型接收到交易指令后，将交易指令与上传的数据进行整合，执行回测，生成回测结果。根据回测结果运行生成前端界面进行结果展示，所述回测结果包括：回测收益和指标趋势图等，用户利用前端界面进行交互。

为了更好说明本实施例，提出一个具体的回测流程：

用户上传数据集CSV文件后，前端界面展示原始数据的前五行数据；根据上传的数据集对应的指标，画出其对应的布林线图和相对强弱指数(RSI)趋势图，并展示在前端界面。在用户按下“开始回测”按钮后，运行回测模型，回测模型根据交易指令和上传的数据集画出买卖滑点和买卖量趋势图，并展示在前端界面。

实施本发明实施例，具有如下效果：

本发明提出SAC算法对交易数据的处理过程进行优化，在SAC算法的基础上加入残差块和多头注意力机制来计算的交易策略，利用多头注意力机制可以在交易数据的处理过程中捕捉到输入的交易数据中的全局信息，能够更好地处理复杂的状态和动作空间，能够更好地适应和应对市场价格变化和风险的情况。另外，残差块和多头注意力机制的引入使得SAC算法具有更高的鲁棒性，当输入的交易数据存在噪声或者部分信息缺失时，本申请依然能够保持交易数据的处理精度，使得计算出来的交易策略更加灵活地适应市场变化，提高了交易策略的计算准确性和风险控制能力。本申请还使用了历史市场数据来对交易指令进行回测和验证，进一步提高生成的交易策略的准确性。通过该方法生成的交易策略控制交易系统，能够提高交易系统的工作效率，以及交易系统计算出的盈利结果的精度。

实施例二，请参照图5，为本发明实施例提供的一种基于SAC的高频量化交易控制系统，包括：交易控制装置201和交易系统202；

所述交易控制装置包括：环境模块2011、算法模块2012和主程序模块2013；

其中，所述环境模块2011用于根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据；

所述算法模块2012用于将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作；将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Actor网络的参数，重新计算新的交易动作，直到第一Critic网络根据新的交易动作计算的训练误差达到预设要求，将新的交易动作作为交易指令；所述SAC包括第一Actor网络和第一Critic网络；

所述主程序模块2013用于获取的市场行情数据；还用于根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果；根据符合预设条件的回测结果对应的交易指令生成交易策略，并将所述交易策略发送给交易系统；

所述交易系统202用于根据所述交易策略执行相应的控制。

所述算法模块2012包括：第一Actor网络单元和第一Critic网络单元；

所述算法模块2012还包括：第一更新单元和第二更新单元；

所述第一更新单元用于：根据交易执行结果计算奖励函数，生成若干个实际奖励结果；获取交易执行环境的下一时刻状态数据，将所述下一时刻状态数据输入第二Actor网络，以最大化期望的累积回报为目标，生成下一时刻状态的交易动作；将所述下一时刻状态数据和所述下一时刻状态的交易动作输入第二Critic网络，输出下一时刻状态数据的目标奖励结果；根据所述实际奖励结果和目标奖励结果，计算所述第一Critic网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Critic网络和第二Critic网络的参数，直到所述第一Critic网络的训练误差最小化。

所述第二更新单元用于在所述更新所述第一Actor网络的参数，重新计算新的交易动作之后，根据更新后的第一Actor网络的参数，更新第二Actor网络的参数，重新计算所述第一Critic网络的训练误差；若所述训练误差未达到预设要求，则更新所述第一Critic网络和第二Critic网络的参数，直到所述第一Critic网络的训练误差最小化。

所述主程序模块还包括回测单元；

所述回测单元用于获取历史市场数据以及对应的指标；所述历史市场数据包括数字货币当天的开盘价、最高价、最低价、收盘价和成交量；所述指标包括：相对强弱指标和布林线；

上述的交易控制系统可实施上述方法实施例的基于SAC的高频量化交易控制方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

实施本发明实施例，具有如下效果：

本发明系统的算法模块提出SAC算法对交易数据的处理过程进行优化，在SAC算法的基础上加入残差块和多头注意力机制来计算的交易策略，利用多头注意力机制可以在交易数据的处理过程中捕捉到输入的交易数据中的全局信息，能够更好地处理复杂的状态和动作空间，能够更好地适应和应对市场价格变化和风险的情况。另外，残差块和多头注意力机制的引入使得SAC算法具有更高的鲁棒性，当输入的交易数据存在噪声或者部分信息缺失时，本申请依然能够保持交易数据的处理精度，使得计算出来的交易策略更加灵活地适应市场变化，提高了交易策略的计算准确性和风险控制能力。本申请主程序模块还使用了历史市场数据来对交易指令进行回测和验证，进一步提高生成的交易策略的准确性。通过该方法生成的交易策略控制交易系统，能够提高交易系统的工作效率，以及交易系统计算出的盈利结果的精度。

实施例三，相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的基于SAC的高频量化交易控制方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于SAC的高频量化交易控制方法，其特征在于，包括：

根据获取的市场行情数据模拟交易执行环境，生成交易执行结果作为交易环境的状态数据；

2.如权利要求1所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述将所述状态数据输入第一Actor网络，以最大化期望的累积回报为目标，利用残差块和多头注意力机制，生成当前状态的交易动作，具体为：

3.如权利要求1所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述将所述状态数据和所述交易动作输入第一Critic网络，利用残差块和多头注意力机制，计算所述第一Actor网络的训练误差，具体为：

4.如权利要求2或3所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述利用残差块和多头注意力机制对所述输入数据进行求解，具体为：

5.如权利要求1所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述将所述状态数据和所述交易动作输入第一Critic网络之前，还包括：

6.如权利要求5所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述更新所述第一Actor网络的参数，重新计算新的交易动作之后，还包括：

7.如权利要求1所述的一种基于SAC的高频量化交易控制方法，其特征在于，所述根据历史市场数据以及对应的指标，对所述交易指令执行回测操作，生成回测结果，具体为：

8.一种基于SAC的高频量化交易控制系统，其特征在于，包括：交易控制装置和交易系统；

所述交易系统用于根据所述交易策略执行相应的控制。

9.如权利要求8所述的一种基于SAC的高频量化交易控制系统，其特征在于，所述算法模块包括：第一Actor网络单元和第一Critic网络单元；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任意一项所述的一种基于SAC的高频量化交易控制方法。