CN114119233A

CN114119233A - 股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、装置及设备

Info

Publication number: CN114119233A
Application number: CN202111460433.1A
Authority: CN
Inventors: 张军欢; 吴朋飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-01

Abstract

本发明提供了一种股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、装置及设备，其中的投资者情绪指数构建方法包括：采用网络爬虫技术从股评网络平台爬取到发表于预定时期的若干关于所述股票基金的基金评论数据；采用训练好的情绪文本分类模型对获取到的各所述基金评论数据实施分类，获得各所述基金评论数据的情绪类别，其中，所述情绪类别包括乐观情绪和悲观情绪两种；基于各所述基金评论数据的情绪类别构建出所述股票基金在所述预定时期的投资者情绪指数。本发明提供的投资者情绪指数构建方法，其通过对基金评论数据进行文本挖掘实施对基金评论的类型划分，并在此基础上获取到股票基金的投资者情绪指数，为股票基金投资收益预测模型的构建奠定了基础。

Description

股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、装置及设备

技术领域

本发明涉及金融大数据处理领域，具体而言，本申请涉及一种股票基金的投资者情绪指数构建方法、累计净值收益率预测方法、设备及介质。

背景技术

由于，从基金绩效来看，股票基金的风险和收益绩效主要来自于基金公司的规模实力、基金经理的经验和稳定性、投资人的持有期限、申购赎回的净现金流等因素。因此，传统的股票基金投资收益预测模型在对股票基金在未来一段时间内的累计净值收益率进行预测时，往往只考虑股票基金的历史收益情况、投资者的历史行为及基金经理的行为等数据，其并未过多地去考虑投资者的心理因素。

然而，心理因素一直以来都是影响人们分析问题、做出决策的重要因素，也是相对于其他因素比较难直观衡量的因素，对投资领域的影响主要体现在情绪上。譬如我国的股票市场存在大量的散户投资者，其资本少、易受其他投资者影响的特点尤为显著。

因此，有必要将投资者的情绪引入至股票基金投资收益预测中，以提升股票基金投资收益预测模型的预测效果，从而使得投资者能够更好的识别投资机会、平衡波动风险、增强投资信心、稳定市场情绪。

发明内容

为了实现上述技术目标，本发明第一方面提供了一种股票基金的投资者情绪指数构建方法，其具体技术方案如下：

一种股票基金的投资者情绪指数构建方法，其包括：

从股评网络平台获取到发表于预定时期的若干关于所述股票基金的基金评论数据；

采用训练好的情绪文本分类模型对获取到的各所述基金评论数据实施分类，获得各所述基金评论数据的情绪类别，其中，所述情绪类别包括乐观情绪和悲观情绪两种；

基于各所述基金评论数据的情绪类别构建出所述股票基金在所述预定时期的投资者情绪指数。

本发明第二方面提供了一种股票基金的累计净值收益率预测方法，其具体技术方案如下：

一种股票基金的累计净值收益率预测方法，包括：

获取W个月的历史截面数据作为训练数据，其中，所述历史截面数据包括：所述股票基金在月度i至月度i+F的基金累计净值收益率，所述股票基金在月度i的收益特征数据，所述股票基金在月度i的所述投资者情绪指数，所述股票基金在月度i的投资者行为特征数据，所述股票基金在月度i的基金经理行为特征数据，

其中：所述投资者情绪指数按权利要求1-4任一项所述的投资者情绪指数构建方法获取， t-W≤i≤t-1，F为收益预测的时间周期；

采用获取到的W个月的历史截面数据实施对通过机器学习算法模型预先构建的收益预测模型的训练，获取训练好的收益预测模型；

采用训练好的所述收益预测模型预测所述股票基金在未来F个月的基金累计净值收益率。

本发明第三方面提供了一种股票基金的累计净值收益率预测装置，其包括：

获取模块，用于获取W个月的历史截面数据作为训练数据，其中，所述历史截面数据包括：所述股票基金在月度i至月度i+F的基金累计净值收益率，所述股票基金在月度i的收益特征数据，所述股票基金在月度i的所述投资者情绪指数，所述股票基金在月度i的投资者行为特征数据，所述股票基金在月度i的基金经理行为特征数据，

训练模块，用于采用获取到的W个月的历史截面数据实施对通过机器学习算法模型预先构建的收益预测模型的训练，获取训练好的收益预测模型；

预测模块，用于采用训练好的所述收益预测模型预测所述股票基金在未来F个月的基金累计净值收益率。

本发明第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面任一项所述的股票基金的累计净值收益率预测方法。

本发明以股票基金的收益特征数据、投资者情绪、投资者行为特征数据及基金经理行为特征数据作为影响指标构建了股票基金的累计净值收益率预测模型中，其显著第提升了预测模型对股票基金的累计净值收益率的预测效果，从而使得投资者能够更好的识别投资机会、平衡波动风险、增强投资信心、稳定市场情绪。

附图说明

图1为本发明第一实施例提供的投资者情绪指数构建方法的流程示意图；

图2为本发明第一实施例提供的投资者情绪指数构建方法的流程示意图；

图3为本发明第二实施例提供的股票基金的累计净值收益率预测方法的流程示意图；

图4为本发明第一实施例中所采用的CNN模型的结构及模型实现示意图；

图5为本发明第一实施例中所采用的KNN模型的结构及模型实现示意图；

图6为本发明第二实施例中所采用的前馈神经网络的模型结构示意图；

图7为本方明第二实施例中CNN情绪指标下机器学习算法与随机选择策略构建基金组合业绩箱体图；

图8为本方明第二实施例中KNN情绪指标下机器学习算法与随机选择策略构建基金组合业绩箱体图；

图9为本方明第二实施例中无情绪指标下机器学习算法与随机选择策略构建基金组合业绩箱体图；

图10为本方明第二实施例中不同模型下的行为特征重要性的比较示意图；

图11为本方明第三实施例中提供的股票基金的累计净值收益率预测装置的结构框图；

图12为本方明第四实施例中提供的电子设备的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在对本方发明的具体实施例进行描述之前，首先对本发明实施例所涉及的相关算法理论、模型进行介绍，当然，本领域技术人员在实施本发明时也可以从人工智能、机器学习领域的现有技术文件中获取到这些知识。

1、LASSO回归：

在介绍LASSO回归之前，首先介绍基准模型普通最小二乘法回归(OLS)，这里假设X＝{x_1,x₂,…x_p}，即存在p个观察变量(自变量)，y是与X有相关关系的变量(因变量)，假设y与X关系为

其中β_j对应表示第j个观察变量与因变量的关系系数，ε表示期望为0的误差项，α为截距项，OLS模型即基于样本数据按照最小化残差平方误差问题进行求解，则有：

i表示第i个样本数据。OLS模型简单，且可解释性比较强，但模型泛化能力较弱，对基于复杂数据特征和关系进行预测的能力有所不足。

Tibshirani(1996)提出了LASSO线性模型估计方法，其在OLS模型的基础上增加了约束项使得系数的绝对值和小于某一常数^[50]。由于对权重系数进行了约束，使得模型系数足够小，部分系数甚至约束为0，通过这种处理能够使得线性模型表现出一定的泛化能力以能适应不同的数据样本集，在一定程度上避免出现过拟合，Wu,et al.(2021)在LASSO约束优化问题通过使用最小角度回归以较低的计算成本进行了解决。

2、随机森林回归：

Breiman(2001)提出了随机森林算法模型，随机森林是树预测器的组合，每棵树采用独立采样的随机特征进行构建，并且所有树的分布都相同，随着树数量的增加，模型的泛化误差可以逐渐收敛到极值，故而其准确性和泛化能力较好，其泛化误差取决于各个树的轻度以及树之间的相关性，由于大数定理，随机森林不会过拟合，是一种有效的预测模型工具。

随机森林在集成学习的基础之上进行构建，集成学习是通过使用一系列弱学习器进行集成聚合，使用某种规则方法把学习结果整合从而得到更优的学习预测效果。随机森林基于集成学习中的Bagging方式，通过从训练集中随机有放回抽样构建训练子集，每个训练子集都作为输入提供给基学习器学习，基学期器通过投票方式进行组合，Bagging集成的各弱学习器之间没有关系，可以并行拟合。

随机森林是以随机决策树为基学习器通过多数投票机制进行分类或预测。每个决策树在训练过程中引入随机属性选择，从整体样本属性特征集合中随机选择得到子样本属性集合作为其属性集合，并且每个决策树使用不同的训练样本集合。随机森林分类针对每个决策树的结果进行投票，投票次数最多的类别判定为最终的分类预测结果，而对于回归问题则将每个决策树的回归结果合并求均值作为最终的回归结果。随机森林的误差取决于单个决策树的分类强度以及任意两棵树之间的相关性，增加相关性会增加随机森林的错误率。

3、梯度提升

Friedman(2001)提出了梯度提升算法模型，为分类和回归问题提供了具有高度稳健、可解释性和竞争力的模型，且该模型特别适用于存在异常数据的挖掘工作，梯度提升通过顺序阶段性的方式构建模型，通过将重点放在这些难以估计的训练样本上，依次开发多个模型来提高预测精度。

经过大量迭代后，通过为难以拟合的观察赋予相对更大的权重，以一种合理的方式将迭代的预测组合起来，以减少过拟合。它能够采用“弱”学习算法并逐步将其提升为强学习算法，并通过最小化损失函数的期望来更新模型，生成基础模型，通过添加许多树，拟合模型可能会实现任意小的训练误差。

Zhang和Haghani(2015)对不同类型输入变量和复杂的非线性关系使用梯度提升进行建模提高了预测精度和模型可解释性，并具有相当的优势。

4、卷积神经网络

Sultana,et al.(2018)介绍了卷机神经网络(CNN)的不同组件以及用于图像分类中时的不同的CNN网络架构，卷积神经网络(CNN)作为图像分类任务的最新技术产生了深远的影响^[55]。CNN的输入数据为图像矩阵信息，历经一系列卷积层和池化(下采样)层，再接入到全连接神经网络层最终得到输出，输出可以是一个单独的分类或者一组分类的概率亦或者回归结果。卷积层是CNN的核心部分，CNN实现了局部特征的识别，在一个区域学习的特征可以匹配另一个区域的相似模式。

每个过滤器通过自己的卷积核集处理数据，形成一个单通道输出，在加上偏置项后，得到一个最终的单通道输出。卷积核是一个权重矩阵，在图5中通过在二维输入数据上从左到右、从上到下按照特定的步长进行扫描。卷积核滑动时，对权重矩阵和扫描所得矩阵进行卷积操作，汇总输出一个像素，重复整个过程，并最终把输入特征矩阵转换为另一个二维特征矩阵。如果存在多个过滤器，则生成二维特征矩阵集合，每个过滤器设定不同的权重信息，即可生成不同的特征矩阵结果，作为后续的输入。卷积操作的结果可以通过应用激活函数，进行特征结果的前置处理。

在卷积操作完成后，可以通过池化操作对结果进行降维，形成最终特征。池化操作是一种下采样操作，常见的如选择最大值或平均值等进行池化操作，一般设定尺寸为2×2，步长为2的池化层针对特征结果进行池化操作，可以实现将参数数量降低为原尺寸的25％，从而实现降维、减少输入参数以及防止过拟合。

在经过多轮卷积层、池化层的处理后，在CNN的最后一般接入全连接层进行最后的分类或回归操作。可以将卷积和池化看成输入特征提取的过程，在特征提取完后，仍然需要使用全连接层来完成分类或回归任务。

5、K最近邻：

Altman(1992)扩展完善了K最近邻算法，K最近邻(KNN)作为非参数化有监督模型分类算法，非常简单和高效，可用于解决分类和回归问题，在针对数据进行分类时，通过检索其K个最近邻，形成数据的邻域，邻域中的数据在基于距离加权或非加权的情况下，定义占多数投票的作为输入数据的分类结果^[56]。在KNN中，其分类规则由训练数据生成，使用训练数据生成模型针对输入数据如测试数据进行分类判断。KNN可以定义样本空间内样本之间的距离表示样本的相似程度，距离约近相似度越高，反之越低，其距离的量度方式包括欧式距离、曼哈顿距离、闵可夫斯基距离等，也可以定义空间内样本权重相同，与距离无关，样本中分类比例较多的即为输入样本的分类。

本发明的技术构思过程：

考虑到心理因素一直以来都是影响人们分析问题、做出决策的重要因素，也是相对于其他因素比较难直观衡量的因素，对投资领域的影响主要体现在情绪上。因此，有必要将投资者的情绪引入至股票基金投资收益预测中，以提升股票基金投资收益预测模型的预测效果。

当然，在构建股票基金投资收益的预测模型之前，首先要解决的问题是，如何构建出股票基金的投资者情绪指数。

为了使得本领域技术人员能够更加容易地理解本发明的技术方案，下文在对本发明的实施例进行描述时，会融入具体的示例数据处理过程。

本发明实施例中的示例数据来源：

选取的股票基金为开放式主动型股票型基金，样本数据时间选取自2018年1月1日到 2020年12月31日之间。基金样本数据来自国泰安数据库，由于2018年1月的数据特征需要回溯历史数据，选取2017年1月1日前成立的基金且处于正常运作状态的基金共3132只。

1、根据基金的运作方式，选取主动型、契约型开放式基金，剔除封闭式基金，共有基金1753只；

2、根据基金的类型，选取“股票型基金”，得到283只开放式股票型基金；

3、剔除掉ETF(Exchange-Traded Fund)基金、LOF(Listed Open-Ended Fund)基金、 QDII基金和指数基金，选取剩余的证券投资基金，共有259只基金；

4、剔除掉在2017年1月1日以后发生过基金转型的的基金，最终剩余基金252只。

本发明实施例选用中证主动式股票型基金指数作为收益参考基准，该指数选取指数或指数增强型基金、ETF联接基金、ETF、LOF以外的且成立满三个月的中国内地市场上所有开放式股票型基金编制而成，与我们研究的目标基金类型范围一致。

本发明实施例中的所有特征数据均为月度指标，部分基金特征数据指标来自基金定期报告(季报、半年报、年报)中披露的数据，对于定期报告中的数据，我们进行预处理后，按照报告的时间周期进行处理转化为月度指标。对于无风险收益率，选取3年期国债收益率，收益率每日报价，同样进行预处理转化为月度指标。

本发明实施例通过使用社交平台的评论数据构建情绪指标，评论数据来源于东方财富基金吧论坛，筛选获取252只目标研究基金，时间范围处于2018年1月1日至2020年12月 31日期间的评论数据，共计396326条评论数据。由于评论数据标题更加有效，一般较少填写内容数据，因此我们仅保留基金评论标题、评论时间等信息，评论数据时间随机不定，最终按照基金维度针对评论数据以月度时间进行归集构建基金的月度情绪指标。

第一实施例：股票基金的投资者情绪指数的构建方法

如图1所示，本实施例提供的股票基金的投资者情绪指数的构建方法包括：

步骤S101：从股评网络平台获取到发表于预定时期的若干关于所述股票基金的基金评论数据。

如，通过网络爬虫技术从东方财富基金吧论坛爬取、筛选252只目标研究基金，时间范围处于2018年1月1日至2020年12月31日期间的评论数据，共计396326条评论数据。

由于评论数据标题更加有效，一般较少填写内容数据，因此我们仅保留基金评论标题、评论时间等信息，评论数据时间随机不定，最终按照基金维度针对评论数据以月度时间进行归集构建基金的月度情绪指标。

步骤S102：采用训练好的情绪文本分类模型对获取到的各所述基金评论数据实施分类，获得各所述基金评论数据的情绪类别，其中，所述情绪类别包括乐观情绪、悲观情绪及中性情绪三种。具体的，如图2所示，步骤S102包括如下子步骤：

S1021：采用jieba技术对各所述基金评论数据进行分词处理，并去除其中的停用词。

基金评论数据分为乐观、中性、悲观三种态度，首先选取3000条评论进行人工标记。为了避免人为标记存在偏差，选取多人对数据进行标记，若任意一态度处于多数票数，则标记为对应态度，如果票数均衡，则标记为中性态度。

使用python中的jieba库进行分词操作，由于基金评论数据包含网络词语和基金相关词语，为了防止分词错误，基于训练数据构建自定义词典，并同样基于相关数据构建了基于基金评论数据的停用词库，以屏蔽无效词句，提升分词结果和效率。

通过对全部的基金评论数据进行分词处理后，基金评论数量及分词情况如表1所示：

表1.基金评论数据描述表

基金总数量252只，基金评论数量396326，其中90％分位的基金评论数里为3864.70，即剩余10％(大约25只)集中了至少10万以上的评论数据，评论数据头部集中效应明显， 75％分位的基金评论数据仍少于其均值，可见评论集中于头部热门基金，分布存在一定的不均衡，在将评论数据按照观察时间平均到3年的观察周期后，75％的数据月均评论数量少于 40，部分基金评论数据样本存在一定不足。

分词数量结果显示，基金评论多是简短的词句。因此，后文在使用CNN模型的过程中，定义评论语句词数量最大长度为30，以统一输入词向量矩阵大小，在不损失模型精确度的情况下减少0值填充的空间，由于KNN针对词向量进行加和取均值，不限制词句词数量的长度。另外基金词频结果显示热词头部集中效应也比较明显，便于通过提取热词相关的评论划分训练测试数据集合进行情绪标记以支持模型训练，提高训练模型的泛化能力。

S1022：采用word2vec模型将经过分词处理的各所述基金评论数据转换成词向量。

S1023：将各所述基金评论数据的词向量输入至所述情绪文本分类模型中，获取到各所述基金评论数据的情绪类别。

可选的，本实施例中，选择采用基于卷积神经网络(CNN)的情绪文本分类模型，或者基于K最近邻算法(KNN)的情绪文本分类模型来获取。

对情绪文本分类模型的评价指标：

针对基金评论文本的分类问题，考虑到文本情绪分类为三分类问题，即情绪的乐观、中性、悲观，由于多分类下的评价指标不同于二分类的情况，这里我们考虑使用F-Measure进行分类结果的评价。

在分类问题中，精确率是指预测为正的样本中预测正确的所占的比率，召回率是指预测正确的正样本数占所有正样本的比率，F₁值即F-Measure，是精确率和召回率的加权调和平均，综合了精确率和召回率的结果，F₁值计算有：

其中Precision为精确率，Recall为召回率。

基于卷积神经网络(CNN)的情绪文本分类模型的分类过程如下：

定义词向量特征维度为d维，语句分词保留数量为n，则最终根据句子生成的CNN神经网络输入数据为n×d的词向量矩阵，对于分词数量不足n的情况，则填充0值，保证每个样本的输出词向量矩阵均为n×d，定义窗口尺寸s＝{s₁,s₂,…,s_i}进行，则窗口特征维度分别为 {s₁×d,s₂×d…}共i个窗口，每个窗口对应使用m个过滤器，分别使用对应窗口进行卷积操作，并使用LeakyReLU(Leaky Rectified Linear Unit)激活函数输出特征结果，Leaky ReLU 的数学表示为：

f(x)为函数结果，a为预先定义的参数，范围为(1,+∞)，x为输入参数，LeakyReLU对于负的输入可以产生非零的输出。

对于激活函数处理并最终输出的特征结果向量进行1-max-pooling池化操作，并将最终结果拼接为1×(m×i)维的向量输入到线性层，应用softmax函数输出结果概率，取最大概率作为预测结果，CNN模型结构和实现如图4所示。

经过模型训练以及参数选择，最终使用的模型参数为：数据通道为1，词向量特征维度为110，评论分词最大保留长度为30，过滤器窗口大小分别为(3,),(4,),(5,)，每个窗口过滤器数量为100，LeakyReLU的负斜率为0.01，dropout丢失率为0.5。

对396326条评论的分词结果使用pythongenism包进行不同词向量维度的模型结果训练，并从396326条评论中根据热词分析结果选取3000评论数据进行人工标记后作为训练测试数据集。基于不同的词向量特征维度模型处理评论分词结果产生训练样本数据，CNN文本情绪分类模型分别使用特征维度下的样本数据进行多轮次训练和测试，训练、测试的F-Measure 为多轮次训练结果的均值，结果如表2所示。

表2.CNN网络训练F-Measure

可见，随着词向量维度的增大，模型的训练集表现逐渐提升并且趋于区间上的稳定，模型在词向量维度为110时测试集表现最佳为77.08％，而后增加词向量维度，其表现降低，表明模型可能产生了过拟合，模型最终选择构建110维度的词向量，用于进行文本分析，其测试集合表现最佳，训练集合准确率基本处于稳定区间内。

基于K最近邻算法(KNN)的情绪文本分类模型的分类过程如下：

KNN模型的输入样本采用了与CNN模型中相同的分词和词向量结果，在构造KNN模型的输入样本时，定义词特征维度为1×d。根据样本语句分词结果得到每个分词的词向量，KNN对于样本语句词数量没有限制，通过对词向量在同一特征维度上加和取均值作为KNN样本的输入数据。为了降低词向量维度d的影响，在KNN模型下同样使用多维度的词向量模型结合K值进行交叉验证，根据分类问题的评价指标确定最终选用的词向量维度和K值，使用训练数据进行模型训练得到最终模型，对全量评论数据进行词向量转换后使用该模型进行文本情绪预测，最后按照基金和时间维度聚合情绪预测结果构建投资者基金维度下的月度情绪指标，KNN模型结构和实现如图5所示。

KNN模型使用中通过距离计算来确认K最邻近的数据，在Chomboon,et al.(2015)中对 KNN模型距离度量进行实证研究，使用闵氏距离度量d维词向量距离则为^[63]

其中，j表示词向量第j维度，w_a表示词向量，w_b表示w_a之外的另一词向量，D表示为度量的距离，p＝1时，表示曼哈顿距离，p＝2时，表示欧式距离，p＝∞表示切比雪夫距离。

经过模型训练以及参数选择，最终使用的模型参数为：词向量特征维度为30，K值为14。

使用KNN模型进行文本情绪分类模型的训练时，不同的词向量特征维度下KNN模型的训练、测试F-Measure结果如表3所示。

表3.KNN网络训练F-Measure

KNN模型在训练集上的F-Measure分值较高，在词向量维度为110时，训练集获得最佳的F-Measure为99.46％，但其在测试集上的表现仅为72.5％，其低于词向量维度为20、30、 40、60、80、100等的表现，可能存在一定程度的过拟合，而模型在词向量维度为30时，测试集合的表现为76.5％，较其他词向量模型有一定程度的提升，为了提高模型的泛化能力，模型最终使用词向量维度为30的词向量模型进行文本向量化。

至此，所有的基金评论数据的文本情绪被划分为乐观情绪、悲观情绪及中性情绪三类。

步骤S103、基于各所述股评文本数据的情绪类别构建出所述股票基金在所述预定时期的投资者情绪指数。

基金评论数据的文本情绪被划分为乐观情绪、悲观情绪及中性情绪三类。研究表明，投资者表现出的乐观情况、悲观情绪对股票的价格存在一定程度的影响，并进而影响到股票基金的净值和收益，而投资者表现出的中性情绪则对股票的价格基本不产生影响。

因此，可选的，股票基金i在月度t的投资者情绪指数按如下公式构建：

Sentiment_i，t＝ln[(1+M_buy，i，t)/(1+M_sell，i，t)]；

其中，M_buy,i,t表示在月度t，对股票基金i持乐观情绪的基金评论数据的数量，M_sell,i,t表示在月度t，对股票基金i持悲观情绪的基金评论数据的数量。当观测期内持乐观情绪的基金评论数据和持悲观情绪的基金评论数据的数量持平时，情绪指数为0，而当持乐观情绪的基金评论数据多于持悲观情绪的基金评论数据时，情绪指数大于0，反之则小于0。

第二实施例：股票基金的投资者情绪指数的构建方法

如图3所示，本实施例提供的股票基金的投资者情绪指数的构建方法包括：

步骤S100：获取W个月的历史截面数据作为训练数据，所述历史截面数据包括：所述股票基金在月度i至月度i+F的基金累计净值收益率，所述股票基金在月度i的收益特征数据，所述股票基金在月度i的所述投资者情绪指数，所述股票基金在月度i的投资者行为特征数据，所述股票基金在月度i的基金经理行为特征数据，其中：所述投资者情绪指数按本发明第一实施例提供的的投资者情绪指数构建方法获取，t-W≤i≤t-1，F为收益预测的时间周期。

步骤S200：采用获取到的W个月的历史截面数据实施对通过机器学习算法模型预先构建的收益预测模型的训练，获取训练好的收益预测模型。

步骤S300：采用训练好的所述收益预测模型预测所述股票基金在未来F个月的基金累计净值收益率。

具体的，定义W为模型训练使用数据的间隔周期，即使用W个月的基金历史截面数据作为模型训练数据，定义截面数据月度i为其任意一月度时间，则训练测试数据集合在月度i时间满足约束t-W≤i≤t-1，F定义为模型预测的收益指标时间周期，定义为R_i→i+F表示基金在i到i+F月末之间的基金累积净值的收益率，则有：

R_i→i+F＝g_t(λ_i+Sentiment_i+Investor_i+Manager_i)+ε_i→i+F；

其中：λ_i表示基金在月度i的收益特征数据，Sentiment_i为基金在月度i通过分析基金评论数据构建的基金月度情绪指标，Investor_i表示投资者行为特征数据，Manager_i表示基金经理行为特征数据，ε_i→i+F为随机误差，g_t(·)表示该训练数据中的用于t时刻的模型估计函数，为描述收益训练预测过程，我们使用g_t(·)作为各机器学习算法模型中用于自变量与因变量关系映射等线性或非线性关系的概括性符号表示。

在t时期使用t-W到t-1时间范围内的截面数据应用机器学习算法分别进行模型训练，得到其模型函数g_t(·)的估计函数

使用模型基于月度t的截面数据应用模型预测，则有：

其中

为使用模型预测的基金在t到t+F月末之间的基金累积净值收益率。

在得到预测的基金累积净值收益率后，按照预测收益率从小到大进行排序，并将基金均分为10等分，分组即为D1，D2，...，D10，其中D10为预测收益最佳的一组，D1为预测收益最差的一组，依次类推，实际投资中根据分组结果将资金均分到D10中的每只基金上进行投资，在模型训练预测和模型收益回测过程中，不考虑申购和赎回费率的影响。

训练数据使用过去W期内各个基金历史时刻的截面数据，如收益特征数据即为λ_t-w，…，λ_t-1，因此W的值越大，则训练数据越多，模型精度可能越高。

F为模型预测的收益时间周期，即关于未来F个月后预测基金可获得收益，因此模型假定在F个月后实现预测收益，而后再进行模型的重新训练和组合构建，即在时间t+F，t+2F，... 等上重新准备训练、预测数据集合，模型与上一周期模型完全独立，完全基于最近最新数据进行模型训练和收益预测，并重复上述基金选择过程得到新的目标组合进行投资。

可选的，本实施例中，分别选择LASSO回归模型、随机森林回归模型、梯度提升模型及前馈神经网络模型等机器学习算法预先构建收益预测模型，然后采用获取到的W个月的历史截面数据完成对模型的训练。

为了验证各机器学习算法在基金收益预测中的有效性，我们将结果与使用OLS最小二乘法线性回归算法进行组合基金选择的算法结果以及基准基金指数的年化收益率、夏普指数等业绩指标做对比分析，以验证机器学习算法的有效性。同样的，为了确认机器学习算法的结果并非运气或偶然，我们使用随机选择方法作为同机器学习算法一样的模型策略，从研究基金中随机筛选与机器学习算法构建的组合相同数量的基金，并对随机组合的业绩评价指标以及置信区间进行验证，以确认机器学习算法的非偶然性。

模型输入特征说明：

模型输入特征为表4定义的月度i对应的基金收益相关特征λ_i、基金经理管理行为特征 Manager_i、投资者行为特征Investor_i，以及投资者情绪Sentiment_i等24个特征作为输入，并定义基金对应时刻未来3个月的累积收益为预测结果变量。

表4.特征变量表

表中的部分特征变量解释如下：

历史收益数据比较直观，目前个基金销售平台均提供相关的数据展示，本实施例定义基金在t月时观测的过去m+1个月的历史累积收益率为R_t-m，则有：

其m取值为0、2、5、8、11分表代表过去1个月、3个月、5个月、9个月、12个月的历史收益。NAV_t，1和NAV_t，0分别代表t月月末基金累积净值和月初基金累积净值，R_j代表基金在j月的月收益。根据以上规则，我们定义和完成表2中特征变量1、2、3、4、5的数据处理。

Selvin，et al.(2017)通过大量理论和实证研究发现多数国家的股市并非完全有效健全的市场，收益之间存在一定的相关性，反驳了有效市场假说中的股票价格服从随机游走且未来收益不可预测，股票价格可以反映市场中可获得的信息，历史收益与未来收益不相关等理论，从而为投资者获得超额收益提供了可能性支持^[44]。由于开放式股票基金主要投资于股票市场，因此在基金中历史收益也可能代表了一种收益趋势，如果存在，那么这种趋势可以用来预测基金收益，则有：

R_t＝β₀+β₁R_t-1+β₂R_t-2+…+β_nR_t-n

在上述回归模型中，基金在t月的收益与t-1或t-n月产生的回归关系即为基金历史收益的自相关性，n代表了自相关滞后期，令n＝12，定义特征变量6、7、8为滞后1期、滞后2期、滞后3期特征变量。

基金收益数据的分布情况包含了丰富的信息，例如风险。特征9为过去12个月月收益的标准差，代表了收益数据的波动情况。特征10为对应的风险调整收益，这里使用了夏普指数，无风险利率我们使用3年期国债的月收益率。

特征11和特征12分别定义了过去12个月月收益数据分布的偏度skew和峰度kurt来揭示数据的分布特征。特征13为当基准基金指数收益为负收益时的时期基金在对应时间获取的月收益的均值，该特征反映了基金相对指数在行情较差的情况下的盈利能力。特征14为 Omega比率，Omega是衡量发生概率极低的事件对投资组合整体回报的影响，更关注收益率的整体分布情况，兼顾到了收益率分布曲线的峰度和偏度，Omega对投资者的效用函数比较敏感，Wu，et al.(2021)通过使用Omega表示投资者赎回风险，特征15则表示过去一段时期内的基金收益的最大回撤。

特征16和特征18分别对应选股能力和择时能力，特征17和特征19分别对应选股能力α和择时能力β的t统计量。特征20和特征21代表了基金经理在基金的运作过程中对于风险的控制和基金运作管理情况。

本实施例以基金经理、投资者行为角度进行研究，首先增加了基金经理的择时能力特征指标和其统计量，由于本实施例主要考虑基金经理、投资者的行为因素，则使用沈红波等 (2020)定义的投资行为指标，包括行业集中度、持股比例等^[25]，行业集中度表示基金季报期末前五大持仓行业占基金总市值的比例，持股比例代表了期末持有股票总市值占基金总市值的比例。

为了评价投资者的行为，本实施例从投资者交易行为所引起的基金资金净流入角度出发构建对应的指标，通过使用基金的资金净流入来表征投资者的申赎行为。考虑到机构投资者和个人投资者的投资行为可能存在的差异，本实施例参考左大勇和陆蓉(2013)定义的基金机构净资金流FlowIns_i，t和个人净资金流FlowInd_i，t。同样假设所有的资金流动均在期末发生，则基金i在第t季度报告期披露的对应季度资金净流入量，则有

其中：TNA_i，t是基金i在第t季度报告期末所管理的所有净资产，R_i，t则是基金i在第t季度报告期内的累积收益率，机构净资金流FlowIns_i，t和个人净资金流FlowInd_i，t分别作为机构投资者和个人投资者的投资行为特征，整体反映为基金的申购和赎回以及对应的净资金流入情况，pIns_i，t和pInd_i，t分别表示基金i在第t季度报告期末机构投资者和个人投资者的占基金总资产的比例，基金净资产同样为季度数据，我们使用同样的方法对数据进行处理得到其月度数据。

LASSO回归模型：

LASSO回归在原OLS回归的基础上，增加了约束项，以降低参数权重系数实现因变量的特征选择，降低过拟合，即增加了L₁正则化项，控制模型的收缩约束程度，有：

其中t称为惩罚(调整)参数，式3.11也可以转换为：

λ作为L₁正则化参数加入到损失函数中，针对坐标下降法和最小角回归等回归方法的选择以及是否设定截距项和特征是否标准化等进行参数设定，结合交叉验证进行训练、测试数据的分配，对比模型的输出结果，在每个周期的模型训练阶段选择最优化模型参数输出模型用于基金组合构建时的基金收益预测模型。

随机森林回归模型：

随机森林通过随机特征选择生成输入数据来达到训练的目的，并结合生成树进行Bagging 组合的方式完成输入特征的回归和分类。定义h(x)为决策树模型，则：

其中

为组合后的随机森林模型，K为随机森林中树的数量。

Zhang和Haghani分析了随机森林中通过平均单个决策树降低方差来提高预测稳定性^[53]，有

其中，ρ表示树之间的相关性，σ²表示单一决策树的方差，K为随机森林中树的数量，D表示随机森林模型的方差，决策树的数量以及决策树之间的相关性可以影响随机森林的预测方差效果。在随机森林中，决策树的数量增多并不会出现过拟合，泛化误差也会逐渐趋向某一上界，但随着随机森林决策树数量的增加，所要求的计算量也增大，需要适当的调整树的数量。除了决策树数量，节点分裂时的最大特征数、树的深度等超参数均对随机森林的性能以及分类结果产生重要影响。经验设置存在不足，可通过网格搜索算法针对候选参数选择进行交叉组合尝试，并选择表现最好的参数组合，但针对随机森林来说，网格搜索的暴力搜索需要较长时间，性能较差，本实施例选择使用随机搜索缩小超参数范围，以避免局部最优，并使用网格搜索得到超参数最优值，训练过程中使用交叉验证的均方误差以及绝对误差等指标作为算法模型的评价指标。

梯度提升模型：

梯度提升是在弱训练器的训练过程后，针对偏差构建新的训练器从而进一步减少误差。其主要通过Boosting方式，从弱训练器一步步进行提升，最后达到较优的数据预测效果。

Friedman(2001)中描述了模型的设计过程，定义输入特征X＝{x₁，x₂，...，x_n}，n为特征数量，训练样本数据为

N为样本总数，y表示样本真实值，定义模型函数F(·)为我们需要的方法模型，通过y＝F(X)，可以将X值映射为y真实值的估计

使得数据样本整体上的误差最小^[52]。损失函数选择平方损失函数，定义为：

L(y_i，F(X_i))＝(y_i-F(X_i))²；

其中X_i表示第i个观察样本的输入特征数据，y_i为第i个观察样本的待预测结果的真实值， L(y_i，F(X_i))即为定义的损失函数。

梯度提升模型构造时，首先初始化F₀(X)＝ρ，最小化目标函数：

定义M为总迭代次数，令m＝1，2，…，M，则

1、计算观察样本的负梯度：

2、采用训练数据特征X_i和预测目标

来训练模型h_m(X)，并最小化损失函数：

3、更新模型为：

F_m＝F_m-1(X)+ρ_mh_m(X)；

4、重复上述3个过程，最终确认模型F_M(X)并用于预测新的数据。

Chen和Guestrin(2016)介绍了极限梯度提升XGBoost算法(ExtremeGradientBoosting)， XGBoost作为GradientBoosting(GB)算法的一种实现，在预测效果以及识别速度上表现均比较优异，XGBoost模型作为GBDT(GradientBoostingDecisionTree)的一种，在算法层面加以改进，提升了模型精度和计算速度^[64]。XGBoost使用决策树作为基学习器时，同样需要定义决策树数量，在Boosting模式下，树的数量决定了训练的阶段。

本发明实施例对树的数量、树的最大深度、学习率和特征随机采样率、树节点最小样本数、样本数据比率等参数进行默认初始化配置，并针对训练器数量进行训练和参数优化，选取评价最佳的树的数量后，以此过程类推分别确认树最大深度、学习率、特征随机采样率、树节点最小样本数、样本数据比率等超参数，每个特征训练过程主要通过网格暴力搜索进行确认。

前馈神经网络模型：

神经网络能够拟合输入特征进行非线形关系的拟合，本实施例通过构建前馈神经网络模型进行基金的收益预测，其输入层即为基金的相关特征参数，输出结果变量为预测的基金累积收益率。

在前馈神经网络的网络结构中，令

表示l-1层第k个神经元到l层的第j个神经元的权重，

代表l层的第j个神经元的偏置，

代表l层的第j个神经元的输出，模型表示为：

这里

是激活函数，激活参数存在多种形式：

1、阈值函数：

2、Sigmoid函数：

其中α为斜率参数；

3、Tanh函数：

4、ReLU函数：

前馈神经网络结构设计如图6所示。

前馈神经网络模型需要设定隐藏层层数以及各层神经元数量、学习率和学习优化算法、激活函数等参数，隐藏层层数和各层神经元数量代表了网络的复杂程度，可以影响模型的结果性能，学习率和学习优化算法参数用于解决模型核心的最优化问题，不同的优化算法可能导致皆然不同的训练效果，也是模型中的核心参数设置。

针对前馈神经网络的模型训练，选择使用随机搜索算法进行超参数的调优，在隐藏层上定义1～3层等多层次的隐藏层配置以及不同层次多种神经元数量配置，在初始学习率以及学习率更新策略、激活函数等参数上设定参数列表，通过使用随机搜索缩小降低超参数范围，同时可以降低局部优化风险，而后使用网格暴力搜索的方式在随机搜索的结果参数上增加邻近参数配置以确认最终的模型配置。

评价指标：

对于回归问题，比较常见的是使用均方误差损失函数进行评价，均方误差损失函数(MSE) 是通过计算预测值与真实值之间距离的平方和表示预测误差情况，由于模型中因变量为基金未来三个月的累积收益，其值尤其是误差在绝大数情况下都比较接近0，且使用MSE会进一步降低误差差值，该情况下会影响损失函数梯度的变化，对模型优化造成影响，MAE是真实值和预测值差的绝对值，较稳定，但其梯度大小始终不变，则可能考虑从学习率方面进行额外的优化，有

其中n为样本数量，y_i为样本i的真实结果，

为样本i的模型预测结果。本实施例在实际指标评价中，选用平均绝对误差(MAE)和均方误差(MSE)进行对比交叉验证，用于获取算法精确度更佳的模型。

模型参数配置：

收益预测模型周期性进行训练、生成，为描述模型参数配置，我们选择用于使用2019-12 月数据作为预测数据而训练的模型，该模型用于预测基金2020年3月的累积收益率，其他时间下的模型训练过程与之相同。

1、LASSO模型配置参数如表5所示：

表1.LASSO模型参数配置

2、随机森林模型配置参数如表6所示：

表2.随机森林模型参数配置

3、梯度提升模型参数配置如表7所示：

表3.梯度提升模型参数配置

4、前馈神经网络模型参数配置如表8所示：

表4.前馈神经网络模型参数配置

结果分析：

本实施例使用LASSO回归、随机森林、梯度提升以及DNN前馈神经网络构建了机器学习模型，依赖CNN和KNN等不同模型构造的情绪指标进行基金收益预测模型的结果分析，分析过程中使用基金指数的业绩情况做基准进行对比。

为描述基金收益预测能力，我们定义Δ代表预测选择的最优选择组合相较于预测收益最差组合在年化收益上的差额，Δ％表示其增长幅度百分比，则有

Δ＝D10-D1；

使用引入基金收益相关特征、投资者以及基金经理行为特征数据以及CNN模型下的基金投资者情绪指标进行模型训练以及收益预测后，模型运行结果以及收益对比情况如表9和表10 所示。

表5.CNN情绪指标下的收益预测模型业绩

表6.CNN情绪指标下的D1～D10年化收益(％)

其中，随机森林模型的年化收益率和基金筛选能力Δ％较其他机器学习算法有明显的提升，Δ％高达66.10％，远高于其他算法模型，表明其具备较好的基金业绩预测能力，且在基金组合构建和业绩区分上表现较好，也表明模型在整体表现上偏差较小，模型更稳定。而神经网络在剩余模型中的年化收益率为32.30％，虽然高于梯度提升，但是在Δ％上表现仅为 17.22％，低于梯度提升的29.45％。整体上，机器学习算法模型的结果组合均获得了超越基准组合的收益，收益均值优于基准组合，且收益标准差也优于基准组合，机器学习算法模型获得收益的波动更小，收益更佳稳定，夏普指数以及特雷诺指数等评价指标也优于基准基金指数的业绩，机器学习算法模型在基金选择方面具备一定的能力，但是在基金择时方面能力表现不一，部分模型甚至不具备择时能力，也可能跟本实施例只在固定周期时间进行基金选择和组合构建有关。

为验证基金投资者情绪指标的稳健型，本实施例使用KNN模型下的情绪指标替换CNN 模型下的情绪指标进行模型训练以及收益预测，模型运行结果以及收益对比情况如表11和表 12所示。

表7.KNN情绪指标下的收益预测模型业绩

表8.KNN情绪指标下的D1～D10年化收益(％)

在使用KNN模型的情绪指标时，随机森林和梯度提升的基金筛选能力Δ％分别为59.5％和50.98％，依然是较其他机器学习算法模型有较强基金选择能力。随机森林模型在KNN模型的情绪指标下年化收益率、收益均值、收益方差、夏普指数、特雷诺指数、基金选择能力指数等业绩指标表现均为最佳，但随机森林、梯度提升和神经网络均不具备基金择时能力。另外，随机森林模型的年化收益率较使用CNN模型情绪指标时的表现有小幅差距，但OLS、 LASSO、梯度提升度和神经网络在年化收益率表现则优于后者，均有一定的提升。整体上机器学习算法在收益率、收益率波动上以及夏普指数、特雷诺指数等方面仍然优于基金基准指数的表现。为了对比情绪指标在收益预测模型中发挥的作用，我们在基金的输入特征中剔除基金情绪指标特征后进行模型训练以及收益预测，模型运行结果以及收益对比情况如表13和表14所示。

表9.无情绪指标特征后的收益预测模型业绩

表10.无情绪指标特征后的D1～D10年化收益(％)

结果显示梯度提升和随机森林模型在基金组合Δ上的增幅表现更佳，就整体结果显示，随机森林在Δ上的增幅提升表现最好，远优于其他模型。机器学习算法模型整体上而言偏差较大， D2～D9之间的组合其收益率波动较大，单调递增性不明显，表明模型对于整体基金的业绩评价在不同月份存在一定的误差，未能有效按照收益进行分组排序，仅随机森林的D10组合相比其他组合表现出一定的优势。

在去除情绪指标后，除OLS模型的年华收益率上较CNN模型有所提升外，其他模型下的年化收益率均少于CNN情绪指标和KNN情绪指标下的模型年化收益率结果。Δ％提升最大的模型为神经网络模型，幅度为36.92％，也低于包含情绪指标时的模型业绩表现。整体上可以看到基金情绪指标在基金收益预测中能够发挥一定的作用，有利于优化模型对于基金业绩的预测表现。

最后，为了验证机器学习算法的有效性，本实施例参照前述的组合选择策略，在每次组合的构建时，改用随机选择的方式，业绩评价周期与机器学习算法模型一致，采用相同的时间周期，将该随机选择策略运行1000次后，得到相关业绩指标数据及其业绩的分布情况，通过箱体图展示随机策略的模型结果情况并聚合原CNN情绪指标和KNN情绪指标下的机器学习算法的业绩指标，结果如图7、图8和图9所示。

我们使用随机选择策略的结果数据对应指标的均值(μ)和标准差(σ)构建其置信区间， 95％置信区间为μ±1.96×σ。

图7、图8和图9中均省略了离群值的结果，虚拟部分之间为95％的置信区间，箱体图的底部和顶部的条形代表的是离群值以外样本点的最小值和最大值。

通过图7、图8和图9的对比分析可以发现，在CNN和KNN情绪指标下的模型下以及无情绪指标下，机器学习算法在选股能力方面远超出随机策略的95％置信区间，表现为机器学习算法模型具备选股能力，而非来自于幸运。在无情绪指标下，夏普指数处于95％置信区间，表明其可能是随机策略的某种结果，在引入情绪指标后，随机森林模型在夏普指数上也能超越随机策略的95％置信区间，能够优化组合的风险收益比。

在年化收益率方面，LASSO、随机森林和神经网络等在包含情绪指标数据的样本中，均表现出超越随机选择策略95％置信区间的能力，能够获得超越基准指数的收益，也并非来自偶然的运气。

在特雷诺指数上，在包含情绪指标样本数据中，除了神经网络模型外，其他模型也均具备超越随机策略95％置信区间的能力，表明相关机器学习算法模型能够在单位系统性风险下，获得更多的超额收益。

在图7、图8、图9中，未展示择时能力的相关分析，主要由于在机器学习算法模型中，随机森林、梯度提升和神经网络均表现为负，并不具备择时能力。其原因可能是由于模型策略在组合构建时，本实施例用的是固定的时间和间隔周期，从而导致相关模型并不具体择时能力，OLS和LASSO为线型模型，可能受到的影响较小，能表现出一定的择时能力。

在使用随机森林的模型中，我们选择用于使用2019-12月数据作为预测数据而训练的模型并获取随机森林模型中的关于行为特征的重要性，其结果如图10所示。

在CNN模型和KNN模型中投资者情绪特征重要性高于其他行为特征属性，除去了投资者情绪特征后，在无情绪指标、KNN、CNN模型中，前3者分别为行业集中度、个人净资金流、选股能力，表明基金经理的行业投资决策行为以及投资者申购、赎回等行为产生的净资金流、基金经理的选股交易行为在基金收益预测上更具重要性。

整体而言，从CNN和KNN两种不同的情绪指标构建模型及其应用上可以看到，使用KNN这样简单的模型也能获得有效的基金情绪指标应用于基金收益预测，为基金投资者、基金管理人员的投资决策提供新的观察视角。

在使用投资者情绪指标并结合投资者、基金经理等行为特征数据和基金收益特征数据进行基金收益的预测研究中，机器学习算法模型能够获得超额收益，且随机森林算法在各业绩评价指标上均具有较好的表现，而基金经理行为、投资者行为和情绪情绪指标在基金收益预测上也具备一定的重要性和研究意义。

实施例三

如图11为本实施例提供的股票基金的累计净值收益率预测装置400，其包括：

获取模块401，用于获取W个月的历史截面数据作为训练数据，其中，所述历史截面数据包括：所述股票基金在月度i至月度i+F的基金累计净值收益率，所述股票基金在月度i 的收益特征数据，所述股票基金在月度i的所述投资者情绪指数，所述股票基金在月度i的投资者行为特征数据，所述股票基金在月度i的基金经理行为特征数据，

其中：所述投资者情绪指数按本发明第一实施例中任一项所述的投资者情绪指数构建方法获取，t-W≤i≤t-1，F为收益预测的时间周期；

训练模块402，用于采用获取到的W个月的历史截面数据实施对通过机器学习算法模型预先构建的收益预测模型的训练，获取训练好的收益预测模型；

预测模块404，用于采用训练好的所述收益预测模型预测所述股票基金在未来F个月的基金累计净值收益率。

由于所述本实施例提供的累计净值收益率预测装置400的各功能模块的处理过程与前述实施例二中的累计净值收益率预测方法的处理过程一致，因此本实施例不再对累计净值收益率预测装置400的各功能模块的处理过程进行重复描述，可以参考实施例二的相关描述。

实施例四

图12为本实施例提供的电子设备300的结构示意图，如图12所示，该电子设备300包括处理器301和存储器303，处理器301和存储器303相连，如通过总线302相连。

处理器301可以是CPU，通用处理器、DSP，ASIC，FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可以包括一通路，在上述组件之间传送信息。总线302可以是PCI总线或EISA 总线等。总线302可以分为地址总线、数据总线、控制总线等。为了便于表示，图中仅以一条粗线表示，但是并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可以储存信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储本申请方案的应用程序代码，并由处理器301来控制执行。处理器 301用于执行存储器303中存储的应用程序代码，以实现实施例二中的异质性主体市场的模拟方法。

本申请实施例最后还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现实施例二中任一项的异质性主体市场的模拟方法。

上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解，实施例中的描述仅仅是示例性的，在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的，而不是由实施例中的上述描述来限定的。

Claims

1.一种股票基金的投资者情绪指数构建方法，其特征在于，其包括：

采用训练好的情绪文本分类模型对获取到的各所述基金评论数据实施分类，获得各所述基金评论数据的情绪类别，其中，所述情绪类别包括乐观情绪、悲观情绪和中性情绪三种；

2.如权利要求1所述的投资者情绪指数构建方法，所述采用预先训练好的情绪文本分类模型对获取到的各所述基金评论数据实施分类包括：

采用jieba技术对各所述基金评论数据进行分词处理，并去除其中的停用词；

采用word2vec模型将经过分词处理的各所述基金评论数据转换成词向量；

将各所述基金评论数据的词向量输入至所述情绪文本分类模型中，获取到各所述基金评论数据的情绪类别。

3.如权利要求1所述的投资者情绪指数构建方法，其特征在于，所述情绪文本分类模型为基于卷积神经网络的情绪文本分类模型或基于K最近邻算法的情绪文本分类模型。

4.如权利要求1所述的投资者情绪指数构建方法，其特征在于，

股票基金i在月度t的投资者情绪指数按如下公式构建：

Sentiment_i，t＝ln[(1+M_buy，i，t)/(1+M_sell，i，t)]；

其中，M_buy,i,t表示在时期t，对股票基金i持乐观情绪的基金评论数据的数量，M_sell,i,t表示在月度t，对股票基金i持悲观情绪的基金评论数据的数量。

5.一种股票基金的累计净值收益率预测方法，其特征在于，其包括：

获取W个月的历史截面数据作为训练数据，所述历史截面数据包括：所述股票基金在月度i至月度i+F的基金累计净值收益率，所述股票基金在月度i的收益特征数据，所述股票基金在月度i的所述投资者情绪指数，所述股票基金在月度i的投资者行为特征数据，所述股票基金在月度i的基金经理行为特征数据，

其中：所述投资者情绪指数按权利要求1-4任一项所述的投资者情绪指数构建方法获取，t-W≤i≤t-1，F为收益预测的时间周期；

6.如权利要求5所述的累计净值收益率预测方法，其特征在于，所述股票基金在未来F个月的基金累计净值收益率，表示如下：

其中，

表示所述股票基金从预测月度t后的未来F个月的基金累计净值收益率，λ_t表示所述股票基金在预测月度t的收益特征数据，Sentiment_t表示所述股票基金在预测月度t的所述投资者情绪指数，Investor_t表示所述股票基金在预测月度t的投资者行为特征数据，Manager_t表示所述股票基金在预测月度t的基金经理行为特征数据。

7.如权利要求5所述的累计净值收益率预测方法，其特征在于，所述机器学习算法模型为LASSO回归模型、随机森林回归模型、梯度提升模型及前馈神经网络模型中的一种。

8.如权利要求5所述的累计净值收益率预测方法，其特征在于：

所述收益特征数据包括过去1个月基金回报、过去3个月基金回报、过去6个月基金回报、过去9个月基金回报、过去12个月基金回报、过去12个月月收益自相关滞后1期、过去12个月月收益自相关滞后2期、过去12个月月收益自相关滞后3期、过去12个月月收益标准差、过去12个月月收益夏普比例、过去12个月月收益分布偏度、过去12个月收益分布峰度、过去12个月中，当基金指数收益为负时，基金对应基金收益的均值、Ω比率、及过去12个月月收益最大回撤；

所述投资者行为特征数据包括机构净资金流、个人净资金流；

所述基金经理行为特征数据包括选股能力、选股能力Alpha的t统计量、择时能力、择时能力Alpha的t统计量、行业集中度及持股比例。

9.一种股票基金的累计净值收益率预测装置，其特征在于，其包括：

10.一种电子设备，包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求6至8任一项所述的异质性主体市场模拟方法。