CN111429272B

CN111429272B - 自动生成量化交易因子及重要性评判的方法、装置

Info

Publication number: CN111429272B
Application number: CN202010104391.7A
Authority: CN
Inventors: 肖钢; 李剑戈; 曹震; 周能; 王岐; 周立斌
Original assignee: China Securities Co Ltd
Current assignee: China Securities Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-08-22
Anticipated expiration: 2040-02-20
Also published as: CN111429272A

Abstract

本公开的实施例公开了一种自动生成量化交易因子及重要性评判的方法、装置、电子设备和介质。该方法的一具体实施方式包括：获取待预测时间点之前的量化交易数据；对该量化交易数据进行预处理；将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息；基于该特征重要性信息，确定第一高维量化交易因子；将该第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，该单因子测试模块是确定该第二高维量化交易因子组合是否合理的模块；利用通信连接的绘图设备按照预设分辨率打印显示该第二高维量化交易因子。该实施方式增强了量化交易模型的非线性表达能力，为量化交易提供有力的支撑。

Description

自动生成量化交易因子及重要性评判的方法、装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及一种自动生成量化交易因子及重要性评判的方法、装置、电子设备和介质。

背景技术

随着海量多源金融数据的出现及人工智能技术的迅速发展，使得智能快速自动发现有用的高维量化因子成为可能。多因子模型是目前管理较大规模量化产品的主流方法，是量化选股方法中理论体系最丰富的模型之一。多因子模型是由套利定价模型(ArbitragePricing Theory，APT)发展而来的，是对于风险-收益关系的定量表达，不同因子代表不同风险类型的解释变量。在多因子选股过程中面临的问题是很难自动从海量的因子中判断量化交易因子的重要性，找到有效的复杂因子以及很难自动生成高维的量化交易因子。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了一种自动生成量化交易因子及重要性评判的方法、装置、电子设备和介质，来解决以上背景技术部分提到的技术问题。

第一方面，本公开的一些实施例提供了一种自动生成量化交易因子及重要性评判的方法，该方法包括：获取待预测时间点之前的量化交易数据；对上述量化交易数据进行预处理；将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息；基于上述特征重要性信息，确定第一高维量化交易因子；将上述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，上述单因子测试模块是确定上述第二高维量化交易因子组合是否合理的模块；利用通信连接的绘图设备按照预设分辨率打印显示上述第二高维量化交易因子。

第二方面，本公开的一些实施例提供了一种自动生成量化交易因子及重要性评判的系统，系统包括：获取单元，被配置成获取待预测时间点之前的量化交易数据；处理单元，被配置成对上述量化交易数据进行预处理；第一输入输出单元，被配置成将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息；确定单元，被配置成基于上述特征重要性信息，确定第一高维量化交易因子；第二输入输出单元，被配置成将上述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，上述单因子测试模块是确定上述第二高维量化交易因子组合是否合理的模块；显示单元，被配置成利用通信连接的绘图设备按照预设分辨率打印显示上述第二高维量化交易因子。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一、二方面中任一的方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一、二方面中任一的方法。

本公开的上述各个实施例中的一个实施例具有如下有益效果：首先，从数据库获取待测量时间点之前的量化交易数据。对上述量化交易数据进行预处理，得到符合输入到上述第一机器学习算法模型的向量。其中，对数据预处理，可以侧面提高了上述第一机器学习算法模型的准确率。在标注确定的情况下，将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，得到特征重要性信息。根据上述特征重要性信息以及存储的叶子节点对应的路径得到上述第一高维量化交易因子。然后将上述第一高维量化交易因子输入至单因子测试模块来判断它是否具有实际意义，得到第二高维量化交易因子。最后，通过显示设备来方便、快捷的显示出能实现超高收益的上述第二高维量化交易因子。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本公开的一些实施例可以应用于其中的示例性系统的架构图；

图2是根据本公开的自动生成量化交易因子及重要性评判的方法的一些实施例的流程图。

图3是根据本公开的自动生成量化交易因子及重要性评判的方法中第一机器学习算法模型的流程图。

图4是根据本公开的自动生成量化交易因子及重要性评判的系统的一些实施例的结构示意图。

图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的自动生成量化交易因子及重要性评判的方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如文本处理应用、数据分析应用、自然语言处理应用、问答系统应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种终端设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供量化交易数据输入、对话语音输入、文本输入等)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103输入的数据进行分析，并输出数据类别的分析服务器，或者是对终端设备101、102、103输入的文本进行处理，并输出文本关键词的分析服务器等。数据分析服务器可以对接收到的数据进行分类分析等处理，并将处理结果(例如数据类别)反馈给终端设备。

需要说明的是，本公开实施例所提供的自动生成量化交易因子及重要性评判的方法一般由服务器105执行，相应地，用于最终显示自动生成量化交易因子及重要性评判的装置一般设置于服务器105中。

需要指出的是，服务器105的本地也可以直接存储数据，服务器105可以直接提取本地的数据通过分类分析处理得到第二高维量化交易因子，此时，示例性系统架构100可以不包括终端设备101、102、103和网络104。

还需要指出的是，终端设备101、102、103中也可以安装有数据类别显示类应用，此时，用于自动生成量化交易因子及重要性评判的方法也可以由终端设备101、102、103执行。此时，示例性系统架构100也可以不包括服务器105和网络104。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供数据类别显示服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

参考图2，示出了根据本公开的自动生成量化交易因子及重要性评判的方法的一些实施例的流程200。该方法执行主体可以是图1中的服务器105。该自动生成量化交易因子及重要性评判的方法，包括以下步骤：

步骤201，获取待预测时间点之前的量化交易数据。

在一些实施例中，用于生成量化交易因子及重要性评判的方法的执行主体可以通过多种方式获取上述量化交易数据。例如，上述执行主体可以通过有线连接方式或者无线连接方式获取上述量化交易数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

作为示例，获取待预测时间点之前的量化交易数据包含：获取指定开始时间的股票代码、结束时间区间的股票代码和对应时间截面的因子数据。其中，上述量化交易因子中的基础因子包括但不限于以下至少一项：反转因子，动量因子、波动因子，财务质量因子，市场预期因子，杠杆因子，估值因子，成长因子，换手率因子等。在这里，财务质量因子可以是代表财务的亏损状况。除此之外，与监督学习的数据标注组成初始的样本数据,形成量化交易的样本集。其中，上述数据标注将股票的收益(夏普、最大回测，超额收益)等作为预测目标。作为示例，预测目标还可以是以下其中至少一项：未来N日的收益率，未来N日收益率-基准收益率，未来N日收益率/最大回撤，索提诺比率。

步骤202，对上述量化交易数据进行预处理。

在一些实施例中，上述执行主体对步骤201获取的上述量化交易数据进行预处理。数据预处理是在机器学习算法开始训练之前对原始数据进行筛选，填充，去抖，类别处理，降维等操作。数据预处理可以防止由于数据的原因导致的算法无法工作，而且还可以加速机器学习算法的训练，提高算法的精度。作为示例，可以对上述量化交易数据进行归一化操作。

在一些实施例的一些可选的实现方式中，对上述量化交易数据进行预处理，包括：

(1)对上述量化交易数据去极值。作为示例，设第T期某因子在所有个股上的暴露度序列为D_i，D_m为该序列中位数，D_m1为序列|D_i-D_m|的中位数，则将序列D_i中所有大于D_m+5D_m1的数重设为D_m+5D_m1，将序列中所有小于D_m-5D_m1的数重设为D_m-5D_m1。

(2)对去极值后的量化交易数据进行缺失值处理。作为示例，得到新的因子暴露度序列后，将因子暴露度缺失的地方设为中信一级行业相同个股的平均值或者将该条记录直接删除。

(3)对缺失值处理后的量化交易数据中的行业和市值的数据进行中心化。

(4)对中心化后的数据进行标准化。作为示例，将数据统一度量，在一个可比较的空间，数据处理收缩在可统一量化的区间。将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差，得到一个新的近似服从N(0，1)分布的序列。

在一些实施例的一些可选的实现方式中，上述对缺失值处理后的数据中行业和市值的数据进行中心化，包括：对行业这个特征的数据进行标准化；用量化交易因子作为因变量，将市值或者上述市值的对数做自变量，进行线性回归，获取残差数值。

步骤203，将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息。

在一些实施例中，上述预先训练的第一机器学习算法模型是指将梯度决策树与逻辑回归模型进行级联。将上述预处理后的量化交易数据输入至上述预先训练的第一机器学习算法模型，得到上述特征重要性信息。在这里，梯度决策树包括但不限于以下至少一项：极端梯度提升(Xgboost，eXtreme Gradient Boosting)，梯度提升树(GBDT，GradientBoost Decision Tree)。梯度决策树通过构建新的因子来上述量化交易因子更好地表达上述量化交易数据。上述梯度决策树的核心思想是将提升方法(Boosting)看作一个将样本进行非线性变换的方法。梯度决策树是一种集成树模型，其本质是不同决策树的组合。而决策树是一种树形结构，又称为判定树，是用于分类的一种树结构。其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择下一比较分支，直到叶子节点作为最终的决策结果。除此之外，逻辑回归模型是指假设数据服从伯努利分布，通过极大化似然函数方法，运用梯度下降来求解参数，来达到将数据二分的目的。在这里，逻辑回归模型负责筛选的个第一高维量化交易因子的重要性。特征重要性信息是指在标注确定的情况下，对标注产生重要影响的特征。例如，“amt/mean(amt,3)>1.3&return_5<0.8&mean(volatility,5)>0.2”可以作为一个已确定的第一高维量化交易因子。第一高维量化交易因子的意义：mean(amt,3)是当日成交量除以过去3日成交量大于1.3,return_5是过去5日收益率小于0.8,mean(volatility,5)是过去5日平均波动率大于0.2。

在一些实施例的可选方式中，将预处理后的量化交易数据输入至梯度提升决策树，得到分类结果，其中，梯度提升决策树是一种集成树模型；然后根据上述分类结果对上述梯度提升树中的叶子节点进行独热编码；进而，存储独热编码后的结果和叶子节点对应的路径，其中，上述叶子节点对应的路径是指从根节点到叶子节点之间的路径。最后，将独热编码后的结果输入至逻辑回归模型中，输出特征重要性的信息，其中，上述逻辑回归模型是已进行正则化的模型。在这里，独热编码是指One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。作为示例，利用现有特征训练梯度决策树得到的三棵树，其中第一棵树有3个叶子结点，第二棵树有5个叶子节点，第三棵树有6个叶子节点。对于一个输入样本点x，如果它在第一棵树最后落在其中的第二个叶子结点，而在第二棵树里最后落在其中的第一个叶子结点。那么通过上述梯度决策树获得的新特征向量为[0，1，0，1，0]，其中向量中的前三位对应第一棵树的3个叶子结点，后两位对应第二棵树的2个叶子结点。作为示例，存储独热编码后的结果和叶子节点对应的路径时，对梯度决策树的叶子节点进行独热编码。逻辑回归模型的每个特征输入都是0-1变量,每一个特征可以唯一对应一个叶子节点，也就可以唯一对应某颗树的一条路径，也就是对应一个由多个量化交易因子组合而成的因子。最后存储下类别和对应的根节点到叶子节点路径。

步骤204，基于上述特征重要性信息，确定第一高维量化交易因子。

在一些实施例中，基于步骤203得到的上述特征重要性信息，可以通过检索的方式确定第一高维量化交易因子。在这里，上述第一高位量化交易因子已在步骤204中阐述。在此不再阐述。

在一些实施例的可选方式中，根据上述特征重要性信息、独热编码后的结果和叶子节点对应的路径，得到特征重要性最高的特征对应的高维量化交易因子。在这里，对于某一确定的标注，经过上述第一机器学习算法模型得到特征重要性信息。其中，上述特征重要性信息都是由独热编码来表示的。筛选特征重要性强的独热编码的分类信息，然后依据独热编码的编码方式，再确定上述特征重要性强的独热编码的信息对应的梯度决策树叶子节点。最终上述梯度决策树叶子节点上相应的路径得到第一高维量化交易因子。

步骤205，将上述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子。

在一些实施例中，将上述第一高维量化交易因子输入至单因子测试模块得到有实际意义的第二高维量化交易因子。其中，单因子测试模块是指将组合后的高维因子输入单因子测试模块中，评测该因子的IC、IR，多空收益、最大回撤等指标。需要说明的是，有实际意义的第一高维量化交易因子与上述第一高维量化交易因子输入至单因子测试模块而得到的第二高维量化交易因子是相同的。作为示例，若得到的第一高维量化交易因子经过单因子测试模块检测到没有实际意义，则说明对于标注来说最后得到的第一高维量化交易因子是不合理的，进而舍弃得到的上述第一高维量化交易因子。若得到的第一高维量化交易因子经过单因子测试模块检测到有实际意义，则保留第一高维量化交易因子。最后将第一量化交易因子作为第二量化交易因子进行输出。

步骤206，利用通信连接的绘图设备按照预设分辨率打印显示上述第二高维量化交易因子。

在一些实施中，将步骤205得到的第二高维量化交易因子通过通信连接的绘图设备按照预设分辨率打印显示，进而使人们直观的感受到上述第二量化交易因子的构成。

在一些实施例的一些可选的实现方法中，将所述第二高维量化交易因子发送给专用的交易执行设备完成一系列预设操作和存储所述股票的收益率。作为示例，上述预设操作可以是报警信息的发出。支持报警的设备可以是与上述执行主体通信连接的设备，可以根据接收到的上述第二高维量化交易因子发出报警信息。其中，上述执行主体输出的第二高维量化交易因子对应着某些股票的收益率，将该第二高维量化交易因子发送至支持报警的设备时，第二高维量化交易因子激活设备发出警报信息。报警信息的发出，有助于缩短相应的应对操作(例如，启用账户的信息存储设备或分析设备)的反应时间，提高了应对操作的效率。

在一些实施例的一些可选的实现方法中，还可以使用不同的标注来对第二机器学习算法模型训练；将预处理后的量化交易数据输入至预先训练的第二机器学习算法模型，得到不同的特征重要性信息和上述不同的特征重要性信息对应的高维量化交易因子；利用通信连接的显示设备输出上述不同的特征重要性信息和对应的高维量化交易因子以供显示。需要说明的是，第一机器学习算法模型与第二机器学习算法模型的结构相同，但是学习到的网络参数是不同的。

继续参考图3，示出了根据本公开的自动生成量化交易因子及重要性评判的方法中第一机器学习算法模型的流程图。该第一机器学习算法模型的运行，包括以下步骤：

第一步，将预处理后的量化交易数据输入至梯度决策树301中，得到分类结果。

第二步，根据上述分类结果对上述梯度提升树中的叶子节点进行独热编码，得到独热编码后的结果302。

第三步，将独热编码后的结果输入至逻辑回归模型303中，输出特征重要性305。

第四步，将独热编码的结果303和叶子节点对应的路径记录下来，得到编码结果与树路径对照关系304。

第五步，根据编码结果与树路径对照关系304与特征重要性305得到输出树对应的路径306，即第一高维量化交易因子。

继续参考图4，作为对上述各图上述方法的实现，本公开提供了一种自动生成量化交易因子及重要性评判的系统的一些实施例，这些系统实施例与图2上述的那些方法实施例相对应，该系统具体可以应用于各种电子设备中。

如图4所示，一些实施例的一种自动生成量化交易因子及重要性评判的系统400包括：获取单元401，被配置成获取待预测时间点之前的量化交易数据；处理单元402，被配置成被配置成对上述量化交易数据进行预处理；第一输入输出单元403，被配置成将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息；确定单元404，被配置成基于上述特征重要性信息，确定第一高维量化交易因子；第二输入输出单元405，被配置成将上述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，上述单因子测试模块是确定上述第二高维量化交易因子组合是否合理的模块；显示单元406，被配置成利用通信连接的绘图设备按照预设分辨率打印显示上述第二高维量化交易因子。

可以理解的是，该系统400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用系统置400及其中包含的单元，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的服务器)500的结构示意图。图5示出的服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待预测时间点之前的量化交易数据；对上述量化交易数据进行预处理；将预处理后的量化交易数据输入至预先训练的第一机器学习算法模型，输出特征重要性信息；基于上述特征重要性信息，确定第一高维量化交易因子；将上述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，上述单因子测试模块是确定上述第二高维量化交易因子组合是否合理的模块；利用利用通信连接的绘图设备按照预设分辨率打印显示上述第二高维量化交易因子。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、处理单元、第一输入输出单元、确定单元、第二输入输出单元和显示单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待预测时间点之前的量化交易数据的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

Claims

1.一种自动生成量化交易因子及重要性评判的方法，包括：

获取待预测时间点之前的量化交易数据；

对所述量化交易数据进行预处理；

将预处理后的量化交易数据输入至梯度提升决策树，得到分类结果，其中，梯度提升决策树是一种集成树模型；

根据所述分类结果对所述梯度提升决策树的叶子节点进行独热编码；

存储独热编码后的结果和叶子节点对应的路径，其中，所述叶子节点对应的路径是指从根节点到叶子节点之间的路径；

将独热编码后的结果输入至逻辑回归模型中，输出所述特征重要性信息，其中，所述逻辑回归模型是已进行正则化的模型；

根据所述特征重要性信息、独热编码后的结果和叶子节点对应的路径，得到所述第一高维量化交易因子，其中，所述第一高维量化交易因子是在特征重要性信息中与标注响应最高的因子；

将所述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，所述单因子测试模块是确定所述第二高维量化交易因子组合是否合理的模块；

利用通信连接的绘图设备按照预设分辨率打印显示所述第二高维量化交易因子。

2.根据权利要求1所述的方法，其中，所述方法还包括：

将所述第二高维量化交易因子发送给专用的交易执行设备完成一系列预设操作和存储所述股票的收益率。

3.根据权利要求1所述的方法，其中，所述对所述量化交易数据进行预处理，包括：

对所述量化交易数据去极值；

对去极值后的量化交易数据进行缺失值处理；

对缺失值处理后的量化交易数据中的行业和市值的数据进行中性化；

对中性化后的量化交易数据进行标准化。

4.根据权利要求3所述的方法，其中，所述对缺失值处理后的量化交易数据中的行业和市值的数据进行中性化，包括：

对行业特征的数据进行标准化；

将所述量化交易因子作为因变量，市值或者所述市值的对数作为自变量，进行线性回归，获得残差数值。

5.根据权利要求1所述的方法，所述方法还包括：

使用不同的标注来对第二机器学习算法模型训练；

将预处理后的量化交易数据输入至预先训练的第二机器学习算法模型，得到不同的特征重要性信息和所述不同的特征重要性信息对应的高维量化交易因子；

利用通信连接的显示设备输出所述不同的特征重要性信息和对应的高维量化交易因子以供显示。

6.一种自动生成量化交易因子及重要性评判的系统，包括：

获取单元，被配置成获取待预测时间点之前的量化交易数据；

处理单元，被配置成对所述量化交易数据进行预处理；

第一输入输出单元，被配置成将预处理后的量化交易数据输入至梯度提升决策树，得到分类结果，其中，梯度提升决策树是一种集成树模型；根据所述分类结果对所述梯度提升决策树的叶子节点进行独热编码；存储独热编码后的结果和叶子节点对应的路径，其中，所述叶子节点对应的路径是指从根节点到叶子节点之间的路径；将独热编码后的结果输入至逻辑回归模型中，输出所述特征重要性信息，其中，所述逻辑回归模型是已进行正则化的模型；

确定单元，被配置成根据所述特征重要性信息、独热编码后的结果和叶子节点对应的路径，得到所述第一高维量化交易因子，其中，所述第一高维量化交易因子是在特征重要性信息中与标注响应最高的因子；

第二输入输出单元，被配置成将所述第一高维量化交易因子输入至单因子测试模块，输出第二高维量化交易因子，其中，所述单因子测试模块是确定所述第二高维量化交易因子组合是否合理的模块；

显示单元，被配置成利用通信连接的绘图设备按照预设分辨率打印显示所述第二高维量化交易因子。

7.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。