CN111815458A

CN111815458A - 基于细粒度量化标注和集成方法的动态投资组合配置方法

Info

Publication number: CN111815458A
Application number: CN202010659906.XA
Authority: CN
Inventors: 林鹏飞
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-23

Abstract

本发明公开了基于细粒度量化标注和集成方法的动态投资组合配置方法，通过对任意时间点下的收益率表现实现细粒度的量化标注，杜绝人为因素对时序下收益率量化标注的影响，解决行情中的波动性噪声，精准有效地量化海量时序样本中的收益率标签，通过训练集成方法预测模型，实现对平均收益率标签的精准预测，在未来的时序数据中实现动态的投资组合配置，将AI直接应用于策略本身，为策略研究提供有力支持。

Description

基于细粒度量化标注和集成方法的动态投资组合配置方法

技术领域

本发明涉及人工智能技术领域，尤其涉及基于细粒度量化标注和集成方法的动态投资组合配置方法。

背景技术

随着大数据(Big Data)和AI的发展，以及金融市场的不断演进完善，量化投资成为当前策略研究的一大热点。量化投资是结合金融市场理论和数据科学的现代化科技产物，基于统计学和机器学习，在海量的金融市场数据中分析和整合因子，通过凸优化最优解配置最佳的投资组合，构建出数据支撑的高确定性投资策略。随着AI在各个应用领域的成功实践，量化投资从基于概率的维度向着AI模型的维度转变，产生了一些新的策略研究方法。目前已有的AI投资策略主要以技术面或基本面相关指标和市场信息为特征，对一些目标变量(如交易行为、交易信号、收益率等)进行预测，为概率层面的投资组合配置提供参考要素。

数据标注的质量对监督学习算法至关重要，但目前大多模型中的数据标注都人为加入了主观因素，如大多策略人为设定了时间点进行收益率标注，这不符合二级市场动态发展的特点，对最终的分析结果和策略模型有较大的误导性。由于二级市场较大的随机性特点，使得AI在量化投资中的应用依然处于比较浅的层次，大多仅使用单一的传统机器学习模型用于概率性分析和验证，而AI领域表现卓越的集成方法未得到广泛的应用，更是难以直接作用于投资策略本身。

发明内容

本发明的目的就在于为了解决上述问题而提供基于细粒度量化标注和集成方法的动态投资组合配置方法，本发明从AI模型的维度出发，基于未来函数和特有的计算方法实现行情收益率的精准标注，基于集成方法机器学习模型对行情收益率标签进行预测，在时序的二级市场中实现动态的投资组合配置，杜绝了任何的人为因素，通过训练集成方法的预测模型，用于预测标注的收益率标签，从而设定动态的投资组合配置权重，将AI模型直接应用于策略本身，为策略研究提供有力支持。

本发明通过生成细粒度量化的收益率标注，在多因子和标注的基础上训练集成模型，实现对细粒度时序的收益率标注的精准预测，从而使模型具备任意时间点的动态投资组合配置权重预测，用于量化投资策略的研究推进。

本发明通过以下技术方案来实现上述目的：

基于细粒度量化标注和集成方法的动态投资组合配置方法，包括：

完成细粒度的量化标注，为历史行情的任意时间点添加平均收益率标签；并对策略中的量化因子完成数据预处理和特征工程，训练集成方法预测模型实现对平均收益率标签的预测；

在新的测试时间点，向训练好的模型传入处理完成后的因子特征，预测当前测试时间点的平均收益率，并计算出各个投资标的推荐仓位配置权重；以及

在迭代的过程中训练和更新预测模型，对新的时间点预测出相应的平均收益率，计算出新的时间点的投资组合配置权重，实现时序下对投资组合配置的动态更新。

本发明的基于细粒度量化标注和集成方法的动态投资组合配置方法，具体包括以下步骤：

步骤1，训练集数据的时间周期区间为T₀，T₁，......，T_n，对该时间周期区间内的行情，以大小为R的移动窗口区间进行滚动采样，得到各个移动窗口内的最低价L_i和最高价H_i；行情中成交价等于L_i的时间点T_li作为做多标记，行情中成交价等于H_i的时间点T_hi作为做空标记；

步骤2，对连续相邻的做多标记获取其成交价最低的标记，计算方法如下：

L_min＝min(L_i，L_i+1，......，L_i+k)

式中，L_i，L_i+1，......，L_i+k为移动窗口区间的做多标记，对相邻聚集的标记集合取最低成交价作为当前集合的最终做多标记L_min；对连续相邻的做空标记获取其成交价最高的标记，计算方法如下：

H_max＝max(H_i，H_i+1，......，H_i+k)

式中，H_i，H_i+1，......，H_i+k为移动窗口区间的做空标记，对相邻聚集的标记集合取最高成交价作为当前集合的最终做空标记H_max；完成以上步骤，即可得到独立无重复相邻的最佳多空点，分别标记为

和

步骤3，从行情数据中分别得到最佳多空点的当前成交价P_li和P_hi，并分别计算各多空点之间的时间周期ΔT_lhi和ΔT_hli，从而计算每个时间粒度下的周期平均收益率，计算方法如下：

式中，P_lhi为当前时间点的下一个多空点成交价，P_i为当前时间点的成交价，ΔT_i，lhi为当前时间点到下一个多空点的时间周期，计算得到的

即为该时间点的周期平均收益率；完成以上步骤，即可对任意时间点量化时间周期下的平均收益率，实现收益率标注的准确标记和平滑处理，排除超短期震荡产生的噪声影响；

步骤4，完成对行情细粒度时序的收益率标注后，即可进行目标因子的研究，即机器学习中的特征工程；该步骤主要聚焦于二级市场中对价格波动影响较大的相关重要性指标，包括技术面和基本面的多个维度；技术面指标主要聚焦于价格、量能、时间、空间四个核心要素的相关指标，如均线(MA)、随机指标(KDJ)等；基本面指标主要聚焦于上市公司的盈利能力和成长空间等财务和业务相关指标，如净资产收益率(ROE)、平均市净率(PB)等；目标因子的选择有很大的灵活性也因投资策略思想的不同而不同，且各个因子都需要精准量化实现对目标因子的确定性衡量；

步骤5，完成初步的数据获取后，对特征和标签基于时序先后进行匹配合并，注意在这个步骤中需要杜绝未来函数的影响，需要结合实际场景保证数据中不会出现对未来信息的预见性观察；

步骤6，完成特征和标签的匹配后，即可进行数据预处理，需要将分类变量转换为虚拟变量，即one-hot编码，从而将各个分类分离到不同的标记列，对相应分类标记为1，其他分类标记为0；对非正态分布且存在极大异常值的定量变量进行对数变换或Box-Cox变换，计算方法如下：

对数变换：

式中，x_i是数据中的各个变量，

为对数变换或Box-Cox变换过后的结果，Box-Cox变换中的λ是一个参数，该参数越小，对原始数据的缩放幅度就越大；变换类型和λ参数的选择需要基于权衡特征的偏态程度来确定；通过式中的计算，所有的x_i将被转换至更加接近正态分布，在一定程度上杜绝了异常值对模型的误导性影响；完成数据变换后，再对数据进行标准化或归一化处理，计算方法如下：

标准化：

归一化：

式中，x_i是数据中的各个变量，

为标准化或归一化后的结果，标准化公式中，mean(x)是x变量集合的平均值，std(x)是x变量集合的标准差，归一化公式中，min(x)是x变量集合的最小值，max(x)是x变量集合的最大值；通过式中的计算，即可将所有的变量统一变换到相同的衡量单位和区间，从而标准化不同变量的度量基准；

步骤7，完成以上的数据创造性变换过后，即可进行数据清洗，主要从正确性和完整性两个方面进行数据清洗；正确性方面，通过四分位距判断异常值，计算方法如下：

IQR＝Q3-Q1

outlier＝(-∞，Q1-IQR)OR(Q3+IQR，+∞)

式中，Q1和Q3分别是特征变量的二分位和四分位，IQR为四分位和二分位的差值，outlier即通过四分位距得到的异常值集合；对需要删除异常值的判断标准是“该异常值偏离异常值集合非常大，且分布数量不多”，按照此标准删除特征变量中的异常值后，剩余的数据将用作进一步的特征工程；

步骤8，特征工程中，可使用可视化分析挖掘和标签具有明显高相关性的特征，通过计算Pearson积矩相关系数，分析变量之间的线性相关性，计算方法如下：

式中，x_i和y_i分别是数据中相互对应的自变量和反应变量，即策略中的量化因子和周期平均收益率标注，

和

是数据中各个自变量和反应变量的均值；通过式中的计算，即可得到数据中各个自变量和反应变量相对其均值的标准差距离乘积，从而度量两个变量之间的线性相关性程度和方向，r即为相关系数，其范围为-1≤r≤1；对r取绝对值|r|，其结果越接近于1，则相关性越强，其结果越接近于0，则相关性越弱；完成计算后，对排序后的|r|，根据数据的具体特性选择|r|相对更高的变量作为待选特征变量；此外，对于非线性和确定性较弱的自变量，可以通过随机森林(Random Forest)特征重要性分析等方法来得到重要性更高的特征，从而完成特征选择；

步骤9，对于高维特征，考虑到机器算力和多重共线性问题，可以使用方差膨胀因子分析并过滤待选特征变量中存在多重共线性的特征变量，从具有较高相关性的自变量中选择有效的特征，方差膨胀因子的计算方法如下：

式中，

是以x_i为因变量时对其他自变量回归的复测定系数，通过式中的计算，即可得到在该自变量和因变量组合下，自变量内部之间的相关性对因变量回归的影响程度，通过在多次的计算中删除VIF大于10的自变量中VIF最小的自变量，直到所有的自变量VIF都小于10，最终所得的自变量集合即为周期平均收益率预测的有效特征；此外，对于维度过大的特征，可以使用主成分分析(Principal Component Analysis，PCA)对特征中的重要信息提取为主成分并截取解释方差最大的前N个主成分作为特征实现更大程度的特征转换和降维，减小机器计算压力，并解决特征中的多重共线性问题；

步骤10，完成数据的特征工程后，即可将数据按时序先后划分为训练集、验证集和测试集，传入集成方法模型进行训练；集成方法是一种将多个单一模型进行组合的机器学习范式通过训练多个模型(弱学习器)解决相同的问题，再使用特定的集成算法将他们合并整合；两种最流行的集成算法为自助聚集(Bagging)和提升算法(Boosting)，自助聚集选择模型输出重复率最高的结果作为答案，提升算法通过发挥不同弱学习器的高质量表现，组合成一个强学习器；提升算法近年来研究有了很大的发展，有很多可以选择的方法，如AdaBoost、Gradient Boosting、XGBoost等模型的训练可以结合网格搜索(Grid Search)和交叉验证(Cross Validation)进行参数优化，最大限度地提高模型的表现；

步骤11，完成模型训练后，对二级市场后续演进，在新的时间点得到新的数据进行相同的预处理，并基于训练好的模型进行周期平均收益率预测，得到当前时间点投资组合中所有投资标的周期平均收益率(R₁，R₂，......，R_n)，过滤出所有R＞0的周期平均收益率，计算各个投资标的推荐仓位配置权重，计算方法如下：

式中，R_i为满足R_i＞0的所有投资标的预测周期平均收益率，计算得到的W_i即为各个投资标的在该时间点的推荐仓位配置权重，策略研究者或投资者即可根据当前时间点的推荐仓位配置权重对投资组合进行调仓优化。

其中，对新的测试时间点使用训练好的最新预测模型预测其当前时间点的平均收益率，计算当前时间点推荐的投资组合配置权重。在不断演进的时序中更新预测模型，并动态更新任意时间点的投资组合配置权重。

本发明的有益效果在于：

本发明的基于细粒度量化标注和集成方法的动态投资组合配置方法，通过对任意时间点下的收益率表现实现细粒度的量化标注，杜绝人为因素对时序下收益率量化标注的影响，解决行情中的波动性噪声，精准有效地量化海量时序样本中的收益率标签，通过训练集成方法预测模型，实现对平均收益率标签的精准预测，在未来的时序数据中实现动态的投资组合配置，将AI直接应用于策略本身，为策略研究提供有力支持。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是对上证指数行情的细粒度量化收益率标注示意图。

图2是时序下投资组合配置的动态更新过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在任一实施例中，如图1-2所示，图1的买入标记和卖出标记精确标注了行情中最佳的行动多空点，分别捕捉到行情中阶段趋势的最高价和最低价，根据最佳行动的周期，在每个交易日中生成日平均收益率，从而生成每个时间粒度下的量化平均收益率标注。该标注可通过设定不同的移动窗口大小R来得到不同交易频次需求下的收益率标注，具有较强的灵活性，且对任何投资品种、不同的目标数据和采样周期同样适用。

图2对历史行情生成细粒度量化收益率标注，获取策略因子，完成数据预处理和特征工程，训练集成方法模型预测平均收益率标签。基于训练好的最新预测模型，输入当前时间点的策略因子预测当前时间点投资组合中各个投资标的的平均收益率，计算并更新投资组合配置权重。随着时间的演进，新的行情数据更新后，将其加入历史行情，并再次进行新一轮的数据标注，并更新策略因子，再一次训练集成方法模型，在新的时间点预测并更新投资组合配置权重。该迭代过程贯穿行情和策略因子演进更新的整个过程，实现时序下动态更新投资组合配置权重，为策略研究提供支持。

本发明的基于细粒度量化标注和集成方法的动态投资组合配置方法，包括：

本发明具体包括以下步骤：

L_min＝min(L_i，L_i+1，......，L_i+k)

H_max＝max(H_i，Hi₊₁，......，H_i+k)

步骤4，完成对行情细粒度时序的收益率标注后，即可进行目标因子的研究，即机器学习中的特征工程；该步骤主要聚焦于二级市场中对价格波动影响较大的相关重要性指标，包括技术面和基本面的多个维度；技术面指标主要聚焦于价格、量能、时间、空间四个核心要素的相关指标，如均线(MA)、随机指标(KDJ)等；基本面指标主要聚焦于上市公司的盈利能力和成长空间等财务和业务相关指标，如净资产收益率(ROE)、平均市净率(PB)等；目标因子的选择有很大的灵活性也因投资策略思想的不同而不同，且各个因子都需要精准量化，实现对目标因子的确定性衡量；

对数变换：

Box-Cox变换：

式中，x_i是数据中的各个变量，

标准化：

归一化：

式中，x_i是数据中的各个变量，

IQR＝Q3-Q1

outlier＝(-∞，Q1-IQR)OR(Q3+IQR，+∞)

和

式中，

是以x_i为因变量时对其他自变量回归的复测定系数，通过式中的计算，即可得到在该自变量和因变量组合下，自变量内部之间的相关性对因变量回归的影响程度，通过在多次的计算中删除VIF大于10的自变量中VIF最小的自变量，直到所有的自变量VIF都小于10，最终所得的自变量集合即为周期平均收益率预测的有效特征；此外，对于维度过大的特征，可以使用主成分分析(Principal Component Analysis，PCA)对特征中的重要信息提取为主成分，并截取解释方差最大的前N个主成分作为特征实现更大程度的特征转换和降维，减小机器计算压力，并解决特征中的多重共线性问题；

步骤10，完成数据的特征工程后，即可将数据按时序先后划分为训练集、验证集和测试集，传入集成方法模型进行训练；集成方法是一种将多个单一模型进行组合的机器学习范式，通过训练多个模型(弱学习器)解决相同的问题，再使用特定的集成算法将他们合并整合；两种最流行的集成算法为自助聚集(Bagging)和提升算法(Boosting)，自助聚集选择模型输出重复率最高的结果作为答案，提升算法通过发挥不同弱学习器的高质量表现，组合成一个强学习器；提升算法近年来研究有了很大的发展，有很多可以选择的方法，如AdaBoost、GradientBoosting、XGBoost等模型的训练可以结合网格搜索(Grid Search)和交叉验证(Cross Validation)进行参数优化，最大限度地提高模型的表现；

在一个具体实施例中，还可以按照如下方式实施：

(1)获取投资组合中目标投资标的集合[targets_I]近期目标时间段T₀，T₁，......，T_n的历史行情数据data_H，基于技术方案的步骤(1)-(3)在历史行情数据的每一个时间粒度下添加平均收益率标注L。

(2)基于投资策略思想中涉及到的因子[Factors]，按技术方案的步骤(4)实现对各个因子的精准量化，实现对目标因子的确定性衡量，构成和平均收益率标注相匹配的特征F。

(3)对F和L按技术方案的步骤(5)基于时序先后进行匹配合并，并按技术方案的(6)和(7)进行数据预处理，得到完成数据变换和正确性与完整性处理的特征F^*和标签L^*。

(4)按技术方案的步骤(8)-(9)对F^*和L^*完成特征工程，从F^*中得到与L^*相关性最高的特征集合，基于VIF_i的计算避免特征的多重共线性，并从F^*中得到对L^*解释性最高的特征集合

实现

对F^*的最高解释方差和特征降维。

(5)对

和L^*按技术方案的步骤(10)划分训练集、验证集和测试集，训练集成方法预测模型，实现对L^*的精准预测，模型的最终选择取决于不同模型的评估指标分数和网格搜索下的参数优化结果，最终得到当前测试时间点的平均收益率预测模型M。

(6)在当前的测试时间点获取和[Factors]相同特征的因子[Factors_t]，按具体实施方式的步骤(2)-(4)，以[Factors]相同的数据处理方式和数据变换因子得到特征

传入模型M，得到当前测试时间点的预测平均收益率，根据技术方案(11)计算并更新投资组合的配置权重W_t。

(7)随着时间的演进，在新的测试时间点重复具体实施方式的以上步骤(1)-(6)，在任意时间点得到预测的平均收益率，并相应地更新投资组合的配置权重，实现时序下对投资组合配置的动态更新。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.基于细粒度量化标注和集成方法的动态投资组合配置方法，其特征在于，包括：

完成细粒度的量化标注，为历史行情的任意时间点添加平均收益率标签；并对策略中的量化因子完成数据预处理和特征工程训练集成方法预测模型实现对平均收益率标签的预测；

2.如权利要求1所述的基于细粒度量化标注和集成方法的动态投资组合配置方法，其特征在于，具体包括以下步骤：

L_min＝min(L_i，L_i+1，......，L_i+k)

H_max＝max(H_i，H_i+1，......，H_i+k)

和

即为该时间点的周期平均收益率；

步骤4，进行目标因子的研究，即机器学习中的特征工程；选取二级市场中对价格波动影响的指标；

步骤5，完成初步的数据获取后，对特征和标签基于时序先后进行匹配合并；

对数变换：

Box-Cox变换：

式中，x_i是数据中的各个变量，

为对数变换或Box-Cox变换过后的结果，Box-Cox变换中的λ是一个参数，该参数越小，对原始数据的缩放幅度就越大；变换类型和λ参数的选择需要基于权衡特征的偏态程度来确定；通过式中的计算，所有的x_i将被转换至更加接近正态分布；完成数据变换后，再对数据进行标准化或归一化处理，计算方法如下：

标准化：

归一化：

式中，x_i是数据中的各个变量，

步骤7，完成以上的数据变换过后，即可进行数据清洗，主要从正确性和完整性两个方面进行数据清洗；通过四分位距判断异常值，计算方法如下：

IQR＝Q3-Q1

outlier＝(-∞，Q1-IQR)OR(Q3+IQR，+∞)

式中，Q1和Q3分别是特征变量的二分位和四分位，IQR为四分位和二分位的差值，outlier即通过四分位距得到的异常值集合；对需要删除异常值的判断标准是“该异常值偏离异常值集合非常大，且分布数量不多，按照此标准删除特征变量中的异常值后，剩余的数据将用作进一步的特征工程；

步骤8，特征工程中，使用可视化分析挖掘和标签具有明显高相关性的特征，通过计算Pearson积矩相关系数，分析变量之间的线性相关性，计算方法如下：

和

是数据中各个自变量和反应变量的均值；通过式中的计算，即可得到数据中各个自变量和反应变量相对其均值的标准差距离乘积，从而度量两个变量之间的线性相关性程度和方向，r即为相关系数，其范围为-1≤r≤1；对r取绝对值|r|，完成计算后，对排序后的|r|，根据数据的具体特性选择|r|相对更高的变量作为待选特征变量；

步骤9，对于高维特征，由于机器算力和多重共线性问题，使用方差膨胀因子分析并过滤待选特征变量中存在多重共线性的特征变量，从具有较高相关性的自变量中选择有效的特征，方差膨胀因子的计算方法如下：

式中，

是以x_i为因变量时对其他自变量回归的复测定系数，通过式中的计算，即可得到在该自变量和因变量组合下，自变量内部之间的相关性对因变量回归的影响程度，通过在多次的计算中删除VIF大于10的自变量中VIF最小的自变量，直到所有的自变量VIF都小于10，最终所得的自变量集合即为周期平均收益率预测的有效特征；

步骤10，完成数据的特征工程后，即可将数据按时序先后划分为训练集、验证集和测试集，传入集成方法模型进行训练；

3.如权利要求1所述的基于细粒度量化标注和集成方法的动态投资组合配置方法，其特征在于，对新的测试时间点使用训练好的最新预测模型预测其当前时间点的平均收益率，计算当前时间点推荐的投资组合配置权重。

4.如权利要求1所述的基于细粒度量化标注和集成方法的动态投资组合配置方法，其特征在于，在不断演进的时序中更新预测模型，并动态更新任意时间点的投资组合配置权重。