CN116977091A

CN116977091A - 个股投资组合的确定方法、装置、电子设备及可读存储介质

Info

Publication number: CN116977091A
Application number: CN202310897352.0A
Authority: CN
Inventors: 吴明晖; 张承炘; 陈吉喆; 袁佳丽; 刘智; 李�昊
Original assignee: Picc Information Technology Co ltd
Current assignee: Picc Information Technology Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-31

Abstract

本说明书实施例公开了一种个股投资组合的确定方法、装置、电子设备及可读存储介质，该方法包括：基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；利用预先训练的深度学习模型，基于有效因子及有效因子值预测个股的预期收益率；基于有效因子、有效因子值、个股的历史收益率及个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；行业矩阵用于表征个股所属的行业分类；根据最优化问题确定符合目标函数的个股投资目标组合权重。通过大规模深度学习模型的端到端训练和预期收益率预测过程，提高了执行效率，帮助投资人员构建个性化的个股投资组合。

Description

个股投资组合的确定方法、装置、电子设备及可读存储介质

技术领域

本文件涉及基于计算机技术的量化投资领域，尤其涉及一种个股投资组合的确定方法、装置、电子设备及可读存储介质。

背景技术

量化投资领域，用于归因个股收益率的变量，按大类可分为技术因子，基本面因子，宏观因子，舆情因子，情绪因子和统计因子。各因子背后均蕴含不同的交易逻辑及经济逻辑等，表现形式为计算所得因子值，也称因子暴露。相关技术中，存在一些基于深度学习模型确定个股投资组合的方法，主要为通过给定若干个风险因子来对股票组合的收益率进行分析及预测，但是这些方法存在预测的准确性不高，对输入模型的因子的特征要求相对严格，及应用场景受限等诸多缺点。

发明内容

本申请实施例的目的是提供一种个股投资组合的确定方法、装置、电子设备及可读存储介质，用于通过大规模深度学习模型的端到端训练和预期收益率预测过程，提高了执行效率，帮助投资人员构建个性化的个股投资组合。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种个股投资组合的确定方法，包括：

基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；

利用预先训练的深度学习模型，基于所述有效因子及所述有效因子值预测所述个股的预期收益率；

基于所述有效因子、所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；所述行业矩阵用于表征所述个股所属的行业分类；

根据所述最优化问题确定符合所述目标函数的个股投资目标组合权重。

第二方面，提出了一种个股投资组合的确定装置，包括：

因子确定单元，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；

预测单元，利用预先训练的深度学习模型，基于所述有效因子及所述有效因子值预测所述个股的预期收益率；

处理单元，基于所述有效因子、所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；所述行业矩阵用于表征所述个股所属的行业分类；

组合确定单元，根据所述最优化问题确定符合所述目标函数的个股投资目标组合权重。

第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

由以上本说明书实施例提供的技术方案可见，本说明书实施例方案至少具备如下一种技术效果：

基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；利用预先训练的深度学习模型，基于有效因子及有效因子值预测个股的预期收益率；基于有效因子、有效因子值、个股的历史收益率及个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；行业矩阵用于表征个股所属的行业分类；根据最优化问题确定符合目标函数的个股投资目标组合权重。确定影响个股收益率的有效因子及有效因子值，为量化分析、个股投资策略研究等提供可靠的因子数据基础，并支持对个股表现和市场趋势的分析和预测；不需要考虑因子之间的线性相关性，也无需显式计算因子收益率，从而实现了高效准确的预测，通过大规模深度学习模型的端到端训练和预期收益率预测过程，提高了执行效率，帮助投资人员构建个性化的个股投资组合。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的一种个股投资组合的确定方法的实现流程示意图。

图2是本说明书一个实施例提供的S110的子步骤的流程示意图。

图3是本说明书的一个实施例提供的一种个股投资组合的确定装置的结构示意图。

图4是说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

多因子框架，是基于套利定价模型而衍生出的个股收益归因模型。假设个股的收益率能用多个具有不同维度信息的因子进行解释归因，从而将个股固定周期横截面上的历史收益率分解到如此的多个因子之上，并利用因子对个股未来的预期收益率进行预测。

解释因子，是用于归因个股收益率的变量，按大类可分为技术因子，基本面因子，宏观因子，舆情因子，情绪因子和统计因子。各因子背后均蕴含不同的交易逻辑及经济逻辑等，表现形式为计算所得因子值，也称因子暴露。

因子收益率，是利用因子值归因个股固定周期横截面历史收益率得到的回归值，用于表现各因子对个股历史收益率的贡献，在收益率可持续的假设下，用于计算当期个股预期收益率。

风险矩阵，是根据历史因子收益率序列计算得到的各因子相关系数矩阵。

组合最优化，是利用风险矩阵和个股预期收益率构建最优化问题来得到个股最终的配置权重从而形成完整的投资组合。最优化问题可以选择最大化收益，最小化波动，或最大化风险优化收益作为目标函数，同时结合各个最优化限制，不可卖空限制，特定因子暴露限制，或基准行业权重偏离限制等。

归因模型，是将个股历史收益率归因至各解释因子的分解模型，包含传统多元线性回归及各种机器学习模型和大规模深度学习模型。

Barra风险模型，是基于套利定价模型衍生得到的风险控制模型，通过给定若干个风险因子来对股票组合的风险进行归因分析及控制；

多元线性回归，是用于归因历史个股收益率与因子值之间的数学模型，假设两者之间是线性关系，求解多元线性方程组得到因子收益率；

共线性：若两个或若干个因子之间可以通过线性关系互相表示，则说明各因子之间存在共线性；

相关性：两个或若干个因子之间高度相关，表现为计算的相关系数绝对值较大。

一些相关技术方案中，多因子框架内通常以Barra风险模型为基础，假设个股历史收益率与解释因子数值之间在各时间截面的时间序列上满足线性关系，在对各个备选因子进行两两或多轮共线性及相关性检验并采取相应合并，残差计算等操作后，通过求解多元线性方程组得到历史因子收益率，进而通过历史因子收益率结合当期最新因子数值得到个股的预期收益率，并利用预期收益率排序，取固定个数的股票按相等权重构成投资组合。

一些相关技术方案中，通常假设个股历史收益率与各解释因子之间满足线性关系，但线性模型受限于其规模性，解释能力有限，无法很好的刻画个股历史收益率与各解释因子之间的关系，并且对于股票价格的描述，最简化的合理假设是满足布朗运动，这均与线性假设矛盾。同时部分相关方案也会采用长短记忆神经网络(Long Short Term Memory，LSTM)等小规模的模型结构来处理个股时间截面收益率序列，但同样也面临解释能力有限的问题。

一些相关技术方案中，采用的多元线性回归对输入模型的因子的特征要求相对严格，会要求各因子之间的弱相关性并不存在共线性，为了满足该限制要求需要对输入模型的因子循环进行共线性检验及相关性检验，这样会导致效率低下，并限制了可选择因子的范围，无法容纳各种不同来源的因子，并增加了处理因子的难度。

一些相关技术方案中，多元线性回归模型受限于应用场景，不可替换，仅限于线性回归，欠缺灵活性。

一些相关技术方案中，对因子的数据结构有要求，多元线性回归或LSTM等小规模模型只能处理单一维度时间截面结构的因子序列，无法同时考虑个股样本之间，不同时间截面之间的高维度因子数据。

一些相关技术方案中，通常采用选取固定数量排序靠前的股票等权构建投资组合，该方法缺少有效的风险管理机制，并且无法与参考标准做到中性配比。

为解决上诉的相关技术方案中存在的问题，本说明书实施例提供一种个股投资组合的确定方法，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值，利用预先训练的深度学习模型，基于有效因子及有效因子值预测个股的预期收益率，根据所使用深度学习模型的不同灵活改变因子的结构，实现从海量因子数据中提取有效因子及有效因子值，基于有效因子、有效因子值、个股的历史收益率及个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型，根据最优化问题确定符合目标函数的个股投资目标组合权重。

深度学习模型，配置框架内使用多种针对不同数据结构类型的深度学习模型，包含但不限于处理单一时间截面序列数据类型的Xgboost模型，处理高维度特征切片图像的U-net结构网络及Transformer结构网络。

Xgboost(eXtreme Gradient Boosting)，又叫极度梯度提升树，作为以树模型为基线模型的boosting(提升)算法的一种效果非常好的实现，可针对分类或回归问题。其以串联的方式链接每一颗子树，后一颗子树基于上一颗子树和目标值的差值来进行学习，并且在损失函数中引入了基于叶子节点的正则化项及二阶导项以提升精度同时通过列采样及并行处理的方式提升训练速度。

U-net网络是一种卷积神经网络，以卷积操作为基础，综合了残差链接，多尺度特征矩阵变换等操作，以不同大小的卷积操作对输入图像进行下采样，得到不同尺度下的金字塔结构特征图像，再通过上采样的方式将所得不同尺度下的特征图像进行组合拼接还原原始图像尺寸，从而得到包含全面多尺度的最终特征图像进一步用于分类等下游图像处理任务。

Transformer网络，是基于自注意力机制、前馈神经网络及残差操作组合而成的模块，抛弃卷积操作而采用注意力机制来实现全局特征的关联，并通过多头自注意力操作实现多样特征的组合及并行操作。在设置与编码器相同结构的解码器内，针对不同的问题场景可以选择对应的掩码操作来提升结构的泛化能力。

确定影响个股收益率的有效因子及有效因子值，为量化分析、个股投资策略研究等提供可靠的因子数据基础，并支持对个股表现和市场趋势的分析和预测；不需要考虑因子之间的线性相关性，也无需显式计算因子收益率，从而实现了高效准确的预测，通过大规模深度学习模型的端到端训练和预期收益率预测过程，提高了执行效率，帮助投资人员构建个性化的个股投资组合。

本说明书实施例提供的个股投资组合的确定方法，该方法的执行主体，由计算机设备来执行，例如，由服务器、笔记本电脑、台式电脑、平板电脑或智能机器人等设备中的至少一种来执行。

为便于描述，下文以该方法的执行主体为能够执行该个股投资组合的确定方法的电子设备为例，该电子设备具体可以是服务器、笔记本电脑、台式电脑、平板电脑或智能机器人等电子设备，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为电子设备只是一种示例性的说明，并不应理解为对该方法的限定。

图1是本说明书一个实施例提供的一种个股投资组合的确定方法的实现流程示意图，包括：

S110，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值。

需要说明的是，步骤S110还包括子步骤S1101、子步骤S1102、子步骤S1103及子步骤S1104，确定有效因子及有效因子值的具体方式将在步骤S110的子步骤中进行详细描述。请参阅图2，图2是本说明书一个实施例提供的S110的子步骤的流程示意图。

子步骤S1101，获取个股多个信息维度的历史数据。

首先确定个股历史数据维度和来源，确定需要收集的多个信息维度，如个股的行情数据、宏观数据、财务数据、成交数据、研报舆情数据和机构评级预测数据等。确定历史数据的主要来源，包括公司内部历史积累和第三方数据商，如Wind数据库和一些专门用于查询企业的网站或应用等。

收集个股多个信息维度的历史数据，示例性的，通过与第三方数据商的合作或使用其提供的数据查询接口，获取各个信息维度的历史数据。使用API(ApplicationProgramming Interface，应用程序编程接口)或其他数据获取方式，从各个来源收集历史数据，并确保历史数据的准确性和完整性。

子步骤S1102，根据历史数据的特点和需求，对历史数据进行数据清洗和处理，得到符合第一预设标准的历史数据。

对收集到的历史数据进行清洗和处理，包括去除重复的历史数据、处理历史数据中的缺失值、纠正错误的历史数据等。根据历史数据的特点和需求，进行历史数据格式转换、标准化和归一化等处理，得到符合第一预设标准的历史数据，以便后续的分析和存储。

其中，第一预设标准可以基于经验数据确定，或是基于相关人员的需求确定，或是基于其他可行的方式确定，本说明书对此不做限制。

得到符合第一预设标准的历史数据，可以构建历史数据的基础数据库，选择适当的数据库管理系统，如MySQL或MongoDB等，用于存储清洗后的历史数据。设计数据表结构，并建立合适的索引以提高数据的检索效率。

需要说明的是，还需要定期更新和维护历史数据，确保数据的及时性和准确性。示例性的，与第三方数据商建立数据订阅或更新机制，获取最新的数据用于更新数据库。同时，对公司内部历史积累的数据进行维护和补充，以保持数据库的完整性。

提供数据库的查询和访问接口，供相关人员或系统进行数据检索和应用。根据不同用户的需求，设计适当的查询方式和数据报表，以方便用户获取所需的历史数据。

通过本步骤实施例，可以建立一个多信息维度的个股相关历史数据的基础数据库，并确保数据的准确性和及时性，为后续的数据分析和应用提供可靠的数据基础。

子步骤S1103，基于符合第一预设标准的历史数据确定选定的多维度因子的因子值。

示例性的，可以使用前述步骤中建立的历史数据基础数据库，获取所需的历史数据，包括个股行情数据、宏观数据、财务数据、成交数据、研报舆情数据和机构评级预测数据等。

根据相关人员的需求和目标，确定需要计算的多维度因子。举例来说，选择了估值因子EP、成长因子Profit_G、动量因子return和MACD指标作为示例因子。

其中，估值因子EP是市盈率的简称，它是一个衡量股票当前价格与每股盈利之间关系的指标。成长因子Profit_G是衡量公司盈利增长的因子。动量因子return是衡量股票或资产价格变动趋势的因子。MACD指标是一种技术指标，用于分析股票价格的短期趋势和中期趋势。这些因子在归因个股收益率时，可以帮助解释个股收益的来源和影响因素。不同类型的因子背后蕴含着不同的交易逻辑和经济逻辑，通过对这些因子的分析和建模，可以揭示市场中的驱动力量，并支持对个股表现和市场趋势的分析和预测。

根据选定的因子计算方式，利用历史数据进行因子值的计算。举例来说，根据定义，估值因子EP可以通过计算个股的净利润与总市值的比值得出；成长因子Profit_G可以通过计算个股净利润的同比增长率得出；动量因子return可以通过计算个股近期1个月的价格收益率得出；MACD指标可以通过计算个股价格的长短期移动平均线之间的差值得出。

然后将计算得到的因子值保存到历史因子值数据库中。并设计适当的数据表结构，将不同因子的值与对应的个股和时间进行关联存储，以便后续的数据查询和分析。

定期进行增量更新，以确保历史因子值数据库中的数据保持最新和准确。根据需要，设定更新频率，如每日、每周或每月更新，获取最新的数据并计算新增数据的因子值，将其追加到历史因子值数据库中。

通过本步骤实施例，可以建立一个多信息维度的个股相关历史因子值数据库，并保持其与历史基础数据的关联和增量更新。这样的因子库可以为量化分析、投资策略研究等提供可靠的因子数据基础，并支持对个股表现和市场趋势的分析和预测。

子步骤S1104，对因子值序列进行预处理，得到符合第二预设标准的第二因子值序列。

对因子值序列进行预处理，得到符合第二预设标准的第二因子值序列包括：

获取因子值序列中单一日期截面的因子序列的第一均值和第一标准差；

去除大于第一均值与指定数值之和，或小于第一均值与指定数值之差的因子值；

使用因子值序列的中位数填充去除后的缺失位，得到填充后的因子值序列；

获取填充后的因子值序列的第二均值和第二标准差，得到填充后的因子值序列；

将填充后的因子值序列减去第二均值后，再除以第二标准差后的因子值序列，作为第二因子值序列。

其中，指定数值可以是但不限于3。示例性的，对于每个单一日期截面的因子值序列，计算其均值m和标准差σ；然后，将大于m+3σ或小于m-3σ的值截断为该值，以去除极端值的影响；对于因子值序列中的缺失值，使用该序列的中位数进行填充，以保持数据的完整性。对经过去极值和中位数填充的序列重新计算均值和标准差，得到第二均值和第二标准差，并将序列减去第二均值再除以第二标准差后的值作为新的序列，记为第二因子值序列，以消除因子值之间的量纲差异。

子步骤S1105，对第二因子值序列进行有效性检验，根据检验结果确定与个股收益率有线性关系的因子，并作为有效因子。

确定有效因子的方式包括：将第二因子值序列按数值大小从大到小进行排序，得到排序结果，并将个股分为预设数量个分组；

在每个预设周期截止后，根据排序结果调整各个分组中个股的持仓权重，并记录各个分组的收益情况；

检验各个分组的收益情况与第二因子值序列之间是否存在线性关系；

将存在线性关系的第二因子值序列对应的因子作为有效因子。

示例性的，将每个单一日期截面的因子值按数值大小从大到小进行排序，并将个股分为5个组，即分为5个组合。在每个月末，根据因子值的排序结果，调整各个组合中个股的持仓权重，并分析、记录每个分组的收益情况。

检查每个分组的收益率，确定是否存在明显的线性排序，即收益率是否随着因子值的增大而增大，或随着因子值的减小而减小。

使用适当的统计方法对各个分组的收益率进行显著性检验，以确定是否存在显著的因子效应。

如果检验结果显示每个分组的收益率呈明显的线性排序，并且经过统计检验发现分组的收益率具有显著性差异，则可以将该因子视为有效因子，可用于后续的量化分析和投资策略。

通过本步骤实施例，可以对单一日期截面的因子进行预处理，包括去极值、填充缺失值和标准化，并进行有效性检验，以确定哪些因子是有效的。这样的因子预处理和有效性检验方法可以提高因子数据的质量和可靠性，并为后续的量化模型构建和投资决策提供可靠的因子基础。

S120，利用预先训练的深度学习模型，基于有效因子及有效因子值预测个股的预期收益率。

其中，预先训练的深度学习模型包括Xgboost模型，和基于Transformer结构或U-net网络的模型。

首先，选择一组基于基本面、宏观经济、舆情、情绪和统计等有效因子的多维度数据作为输入；对于单一维度时间截面数据，构建一个二维结构数据，其中一个维度表示有效因子，另一个维度表示个股样本个数。将个股历史收益率进行三分类标记，类别包括上涨、下跌及震荡。

对于单一维度时间截面数据无法反映个股与个股之间、个股不同时间之间的相互影响，将单一维度时间截面数据按不同个股或时间进行拼接，组合成三维结构的因子数据。三个维度分别为因子维度、历史区间长度和不同个股，以更好地反映有效因子与个股之间的相互作用关系。其中，历史区间长度为计算因子暴露矩阵时所使用的时间段长度。

对于单一维度时间截面数据，选择Xgboost模型进行处理，以预测个股的预期收益率及收益率类别。对于三维结构的因子数据，由于数据量增大且传统多元线性回归和处理单一时间截面的模型无法使用，选择基于Transformer结构的网络或U-net网络进行处理。这样可以保留个股间关联的信息，并更好地预测个股的预期收益率及收益率类别，使用输出的分类归一概率值对个股进行打分。

需要说明的是，深度学习模型的训练过程包括：选择一组基于基本面、宏观经济、舆情、情绪和统计等因子的多维度数据作为样本数据，对这些样本因子数据进行归一化处理，确保数据在合适的范围内，针对不同的数据结构，分别训练Xgboost模型，和基于Transformer结构或U-net网络的模型。使用历史数据和对应的分类标签进行模型训练。训练结束后，使用验证集或交叉验证方法评估模型的性能，并对模型进行调优。使用训练好的模型对新的因子数据进行预测，得到个股的预期收益率分类和相应的打分。

通过本步骤实施例，可以实现从因子到预测收益率的端到端预测过程。通过选择合适的深度学习模型，可以更好地捕捉个股间的关联信息，并将个股收益率预测问题转化为分类问题求解。这种方法不需要考虑因子之间的线性相关性，也无需显式计算因子收益率，从而实现了高效准确的预测，并为后续的模型迭代提供了灵活性。

S130，基于有效因子、有效因子值、个股的历史收益率及个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型。

基于构建最优化问题来求解个股投资组合的权重，以实现最大化收益、最小化波动或最大化风险控制下的收益。

构建最优化问题包括：基于有效因子值、个股的历史收益率及个股的行业矩阵确定有效因子的风险矩阵；基于有效因子、个股的历史收益率确定有效因子的因子暴露矩阵；通过预期收益率、风险矩阵或因子暴露矩阵设定个股投资组合权重的目标函数，通过日频风险矩阵或因子暴露矩阵设定个股投资组合权重的约束条件，构建个股投资组合权重的最优化问题。

其中，风险矩阵为根据历史因子收益率序列计算得到各因子相关系数矩阵；因子收益率表征各因子对个股历史收益率的贡献；因子暴露矩阵表征个股在对应因子上的权重或暴露值；行业矩阵用于表征个股所属的行业分类，例如，可以将个股分为30个行业，包括房地产、稀有金属、白酒、军工及新能源等行业。

示例性的，风险矩阵可以为指数衰减移动平均日频风险矩阵，指数衰减移动平均(Exponential Moving Average，EMA)是一种常用的平滑方法，用于计算时间序列数据的均值。在计算风险矩阵时，可以利用指数衰减移动平均的思想，对因子收益率进行平滑处理，得到指数衰减移动平均日频风险矩阵。该矩阵能够反映因子收益率的趋势和变化情况，从而提供了对风险因子的估计。

基于有效因子值、个股的历史收益率及个股的行业矩阵确定有效因子的风险矩阵；示例性的，将个股的历史收益率作为回归目标，将有效因子值和行业矩阵作为回归变量，进行加权多元线性回归，得到有效因子的因子收益率；根据因子收益率确定指数衰减移动平均日频风险矩阵，公式如下：

其中，cov(f_a,f_b)_t为指数衰减移动平均日频风险矩阵，s为指数衰减周期，h为给定的观测周期，t为当前时间，t-s表示一个时间截面，λ为指数权重，f_a,t-s为有效因子在t-s时间截面上的收益率，f_b,t-s为有效因子在t-s截面上的收益率，为有效因子的平均收益率，为有效因子的平均收益率。

在构建最优化问题时，通常需要考虑风险因子(有效因子)的约束条件。指数衰减移动平均日频风险矩阵可以作为一个参考，用于设定风险因子的约束范围。例如，可以限制投资组合的因子暴露在一定范围内，或者设置特定的风险因子上下限等。这些约束条件可以基于指数衰减移动平均日频风险矩阵提供的风险估计来确定。

基于有效因子、个股的历史收益率确定有效因子的因子暴露矩阵；示例性的，收集个股和因子数据，个股数据包括个股的收益率和其他基本信息，如股票代码、交易日期等，因子数据包括技术因子、基本面因子、宏观因子、舆情因子、情绪因子和统计因子等；对个股和因子数据进行预处理，包括数据对齐、缺失值处理和标准化处理等，得到有效因子；然后将个股的历史收益率作为因变量，有效因子作为自变量，进行多元线性回归分析；回归分析的结果包括每个个股在各个有效因子上的权重；将回归分析得到的因子权重整理为矩阵形式，作为因子暴露矩阵。

通过预期收益率、风险矩阵或因子暴露矩阵设定个股投资组合权重的目标函数。示例性的，可以通过预期收益率、风险矩阵或因子暴露矩阵确定个股投资组合权重的最大化收益、个股投资组合权重的最小化波动或个股投资组合权重的最大化风险调整收益，然后将个股投资组合权重的最大化收益、个股投资组合权重的最小化波动或个股投资组合权重的最大化风险调整收益中的任一个作为目标函数。

其中，最大化收益、最小化波动及最大化风险调整收益的确定方式如下：

示例性的，根据预期收益率确定个股投资组合权重的最大化收益max_ωω^T*r；其中，ω为个股投资组合权重，r为个股预期收益率；

根据风险矩阵及因子暴露矩阵确定个股投资组合权重的最小化波动min_ωω^T*(XFX^T+Δ)*ω；其中，ω为个股投资组合权重，X为因子暴露矩阵，F为因子风险矩阵，Δ为特异性收益方差矩阵。

特异性收益方差矩阵，这里基于的假设是不同个股的特异性收益率彼此独立，故特异性收益方差矩阵是一个对角矩阵，即除了对角线元素外其余元素均为0。特异性收益方差矩阵的计算公式包括：

其中，cov(u_a,u_a)_t为指数衰减移动平均日频特异性收益方差矩阵，s为指数衰减周期，h为给定的观测周期，t为当前时间，t-s表示一个时间截面，λ为指数权重，u_a,t-s为有效因子在t-s时间截面上的特异性收益率(即基于多元线性回归计算当前时间截面因子收益率时得到的残差值，按本说明书前述的关于因子收益率的定义，回归值定义为因子收益率，残差值定义为特异性收益率，表示个股收益无法被所选因子完全解释的部分)，为有效因子的平均特异性收益率。

根据预期收益率、风险矩阵及因子暴露矩阵确定个股投资组合权重的最大化风险调整收益max_ωω^T*r-λ*ω^T*(XFX^T+Δ)*ω；其中，ω为个股投资组合权重，r为个股预期收益率，λ为指数权重，X为因子暴露矩阵，F为因子风险矩阵，Δ为特异性收益方差矩阵。

可添加的约束条件可以是但不限于：∑_nω_n＝1，即个股投资组合权重归一化；ω_n≥0，即不允许做空；|(ω-ω_bench)*H_i|≤δ，即目标指数行业权重偏离约束。

上述三个约束条件为常见使用的约束，可继续添加因子暴露约束，换手率约束等其他约束，根据具体需求决定，本说明书对此不做限制。

S140，根据最优化问题确定符合目标函数的个股投资目标组合权重。

构建最优问题的数学模型后，利用求解器或优化算法，求解上述最优化问题，以获得符合目标函数的个股投资目标组合权重，进而根据目标组合权重得到该组合的历史回测收益曲线，对组合的历史回测收益曲线进行评估，分析其收益和波动性等指标。

本说明书的实施例，通过深度学习模型解释因子与个股之间的关系，并利用最优化问题求解方法得到投资组合的最优权重。这种方法不再依赖传统个股预期收益率及解释因子之间线性关系的假设，转而使用大规模的深度学习模型来对两者的关系进行解释，并且对于不同的模型也给出了对应的因子数据处理方式，以使不同模型处理不同的数据，从而使得传统多因子框架和方法可以适应目前越来越多元化的大量因子和非线性化的要求，改变过去以线性模型为假设前提所带来的不合理性；并且通过大规模深度学习模型实现的端到端的训练和预期收益率预测过程，也大大提高了其执行效率，辅助投资人员构建自己的投资组合。

综上所述，本说明书实施例提供的一种个股投资组合的确定方法，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；利用预先训练的深度学习模型，基于有效因子及有效因子值预测个股的预期收益率；基于有效因子、有效因子值、个股的历史收益率及个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；行业矩阵用于表征个股所属的行业分类；根据最优化问题确定符合目标函数的个股投资目标组合权重。确定影响个股收益率的有效因子及有效因子值，为量化分析、个股投资策略研究等提供可靠的因子数据基础，并支持对个股表现和市场趋势的分析和预测；不需要考虑因子之间的线性相关性，也无需显式计算因子收益率，从而实现了高效准确的预测，通过大规模深度学习模型的端到端训练和预期收益率预测过程，提高了执行效率，帮助投资人员构建个性化的个股投资组合。

图3是本说明书一个实施例提供的一种个股投资组合的确定装置300的结构示意图，包括：

因子确定单元310，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值；

预测单元320，利用预先训练的深度学习模型，基于所述有效因子及所述有效因子值预测所述个股的预期收益率；

处理单元330，基于所述有效因子、所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型；所述行业矩阵用于表征所述个股所属的行业分类；

组合确定单元340，根据所述最优化问题确定符合所述目标函数的个股投资目标组合权重。

可选地，在一种实施方式中，所述处理单元330，用于：

基于所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵确定所述有效因子的风险矩阵；所述风险矩阵为根据历史因子收益率序列计算得到各因子相关系数矩阵，因子收益率表征各因子对个股历史收益率的贡献；

基于所述有效因子、所述个股的历史收益率确定所述有效因子的因子暴露矩阵；所述因子暴露矩阵表征所述个股在对应因子上的权重；

通过所述预期收益率、所述风险矩阵或所述因子暴露矩阵设定个股投资组合权重的目标函数，通过所述日频风险矩阵或所述因子暴露矩阵设定个股投资组合权重的约束条件，构建所述个股投资组合权重的最优化问题。

可选地，在一种实施方式中，所述因子确定单元310，用于：

获取所述个股多个信息维度的历史数据；所述多个信息维度的历史数据包括所述个股的行情数据、宏观数据、财务数据、成交数据、研报舆情数据和机构评级预测数据；

根据所述历史数据的特点和需求，对所述历史数据进行数据清洗和处理，得到符合第一预设标准的历史数据；

基于符合所述第一预设标准的历史数据确定选定的多维度因子的因子值；

对所述因子值序列进行预处理，得到符合第二预设标准的第二因子值序列；

对所述第二因子值序列进行有效性检验，根据检验结果确定与所述个股收益率有线性关系的因子，并作为所述有效因子。

可选地，在一种实施方式中，所述多维度因子包括估值因子、成长因子、动量因子和MACD指标；所述因子确定单元310，用于：

根据符合所述第一预设标准的历史数据中，所述个股的净利润与总市值的比值确定所述估值因子的值；

根据符合所述第一预设标准的历史数据中，所述个股的净利润的同比增长率确定所述成长因子的值；

根据符合所述第一预设标准的历史数据中，所述个股的过去指定时间段的价格收益率确定所述动量因子的值；

根据符合所述第一预设标准的历史数据中，所述个股价格的长短期移动平均线之间的差值确定所述MACD指标的值。

可选地，在一种实施方式中，所述因子确定单元310，用于：

获取所述因子值序列中单一日期截面的因子序列的第一均值和第一标准差；

去除大于所述第一均值与指定数值之和，或小于所述第一均值与所述指定数值之差的因子值；

使用所述因子值序列的中位数填充去除后的缺失位，得到填充后的因子值序列；

获取所述填充后的因子值序列的第二均值和第二标准差，得到填充后的因子值序列；

将所述填充后的因子值序列减去所述第二均值后，再除以所述第二标准差后的因子值序列，作为所述第二因子值序列。

可选地，在一种实施方式中，所述因子确定单元310，用于：

将所述第二因子值序列按数值大小从大到小进行排序，得到排序结果，并将所述个股分为预设数量个分组；

在每个预设周期截止后，根据所述排序结果调整各个所述分组中所述个股的持仓权重，并记录各个所述分组的收益情况；

检验各个所述分组的收益情况与所述第二因子值序列之间是否存在线性关系；

将存在所述线性关系的所述第二因子值序列对应的因子作为所述有效因子。

可选地，在一种实施方式中，所述预测单元320，用于：

根据所述有效因子、所述有效因子值及个股样本数量构建二维结构数据，

通过预先训练的第一深度学习模型预测所述二维结构数据，得到所述个股的预期收益率分类和各个分类对应的分数；

和/或

根据所述有效因子、所述有效因子值、历史区间长度及不同所述个股构建三维结构数据，所述历史区间长度为计算所述因子暴露矩阵时所使用的时间段长度，

通过预先训练的第二深度学习模型预测所述三维结构数据，得到所述个股的预期收益率分类和各个分类对应的分数。

可选地，在一种实施方式中，

所述第一深度学习模型为Xgboost模型；

所述第二深度学习模型为基于Transformer结构或U-net网络的模型。

可选地，在一种实施方式中，所述处理单元330，用于：

将所述个股的历史收益率作为回归目标，将所述有效因子值和所述行业矩阵作为回归变量，进行加权多元线性回归，得到所述有效因子的因子收益率；

根据所述因子收益率确定所述指数衰减移动平均日频风险矩阵。

可选地，在一种实施方式中，所述风险矩阵为指数衰减移动平均日频风险矩阵；所述处理单元330，用于：

将所述个股的历史收益率作为因变量，所述有效因子作为自变量，进行多元线性回归分析；回归分析的结果包括每个个股在各个所述有效因子上的权重；

将回归分析得到的因子权重整理为矩阵形式，作为所述因子暴露矩阵。

可选地，在一种实施方式中，所述处理单元330，用于：

根据所述预期收益率确定所述个股投资组合权重的最大化收益；

根据所述风险矩阵及所述因子暴露矩阵确定所述个股投资组合权重的最小化波动；

根据所述预期收益率、所述风险矩阵及所述因子暴露矩阵确定所述个股投资组合权重的最大化风险调整收益；

将所述个股投资组合权重的最大化收益、所述个股投资组合权重的最小化波动或所述个股投资组合权重的最大化风险调整收益中的任一个作为所述目标函数。

可选地，在一种实施方式中，所述约束条件包括：所述个股投资组合权重的加权和等于第一指定值，所述个股投资组合权重大于等于第二指定值，目标指数行业权重偏离约束，因子暴露约束或个股换手率约束中任一个。

个股投资组合的确定装置300能够实现图1～2的方法实施例的方法，具体可参考图1～2所示实施例的个股投资组合的确定方法，不再赘述。

图4是本说明书的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成个股投资组合的确定装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本申请图1所示实施例揭示的个股投资组合的确定装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现个股投资组合的确定装置在图1所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图3所示实施例的方法，并具体用于执行以下操作：

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种个股投资组合的确定方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，基于所述有效因子、所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵构建个股投资组合权重的最优化问题的数学模型，包括：

3.如权利要求1所述的方法，其特征在于，基于个股多个信息维度的历史数据确定影响个股收益率的有效因子及有效因子值，包括：

4.如权利要求3所述的方法，其特征在于，所述多维度因子包括估值因子、成长因子、动量因子和MACD指标；基于符合所述第一预设标准的历史数据确定选定的多维度因子的因子值，包括：

5.如权利要求3所述的方法，其特征在于，对所述因子值序列进行预处理，得到符合第二预设标准的第二因子值序列，包括：

6.如权利要求3所述的方法，其特征在于，对所述第二因子值序列进行有效性检验，根据检验结果确定与所述个股收益率有线性关系的因子，并作为所述有效因子，包括：

7.如权利要求1所述的方法，其特征在于，利用预先训练的深度学习模型，基于所述有效因子及所述有效因子值预测所述个股的预期收益率，包括：

和/或

8.如权利要求7所述的方法，其特征在于，

所述第一深度学习模型为Xgboost模型；

9.如权利要求2所述的方法，其特征在于，所述风险矩阵为指数衰减移动平均日频风险矩阵；基于所述有效因子值、所述个股的历史收益率及所述个股的行业矩阵确定所述有效因子的风险矩阵，包括：

10.如权利要求2所述的方法，其特征在于，基于所述有效因子、所述个股的历史收益率确定所述有效因子的因子暴露矩阵，包括：

11.如权利要求2所述的方法，其特征在于，通过所述预期收益率、所述风险矩阵或所述因子暴露矩阵设定个股投资组合权重的目标函数，包括：

12.如权利要求2所述的方法，其特征在于，

所述约束条件包括：所述个股投资组合权重的加权和等于第一指定值，所述个股投资组合权重大于等于第二指定值，目标指数行业权重偏离约束，因子暴露约束或个股换手率约束中任一个。

13.一种个股投资组合的确定装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

处理器；以及

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：