CN115660795A

CN115660795A - 数据处理方法、装置、设备、存储介质及程序产品

Info

Publication number: CN115660795A
Application number: CN202211320979.1A
Authority: CN
Inventors: 林旺江; 林宜领; 吴博; 林妙真; 林倩; 王荣烨; 朱富荣; 庄佳和
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-31

Abstract

本发明公开了一种数据处理方法、装置、设备、存储介质及程序产品。本发明涉及数据处理技术领域。该方法包括：确定设定金融业务的多个影响因子；对所述多个影响因子进行特征识别，获得多个特征信息；根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。本公开实施例，根据特征信息对所述多个影响因子进行筛选，以及通过收益预测模型对设定金融业务的收益信息进行预测的方式，不仅可以提高对金融业务的收益预测的准确性，还具有较高的适用性。

Description

数据处理方法、装置、设备、存储介质及程序产品

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。

背景技术

随着科技的进步和社会生产力的提高，世界的经济日益繁荣，金融市场尤其是股票市场更是愈发丰富，股票的投资热情也愈发高涨，如何对股票市场做出一个合理的分析和判断成为一个备受关注的热点问题。

随着社会经济的日益发展与进步，股票市场的日益丰富与繁荣，数据显示股票投资者的数量逐年增加，因而对于股票的相关分析需求日益突出。股票价格预测是股票分析领域的关键之一，然而目前诸多关于股票价格预测的模型与方法的效果不尽人意，并没有达到实际的应用需求。得益于近年人工智能的相关技术在金融领域受到广泛应用，也尤其推动了股票价格预测的发展。为了提高股票价格的预测的实用性和有效性，采取量化投资的方式来实现股票价格的预测，量化投资是一种利用计算机技术结合统计学、经济学的新型投资方法，相比较于传统的投资方法，量化投资可以有效、客观的分析大量的数据，并且采用一定的数学模型去践行投资理念，指导投资者指定有效的投资策略。近年来，随着金融市场的愈发繁荣，我国的量化投资也在快速发展，量化基金的增加量也远远超过了传统投资基金，并且通过和人工智能技术的结合，量化投资在我国的投资市场的重要性越来越高。

多因子选股策略是目前量化投资领域应用和研究最广的策略之一，其具有稳定高、容纳的资金量大、灵活多变、市场适应性高等优点。多因子选股模型的关键点是模型的构建和因子的选择，然而目前市场上的模型同质化程度高、侧重于多元线性回归模型，其模型所带来的收益率往往都不高。

发明内容

本发明实施例提供一种数据处理方法、装置、存储介质及程序产品，可以提高对金融业务的收益预测的准确性。

第一方面，本发明实施例提供了一种数据处理方法，包括：确定设定金融业务的多个影响因子；对所述多个影响因子进行特征识别，获得多个特征信息；根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

第二方面，本发明实施例还提供了一种数据处理装置，包括：影响因子确定模块，用于确定设定金融业务的多个影响因子；特征信息获得模块，用于对所述多个影响因子进行特征识别，获得多个特征信息；筛选模块，用于根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；收益信息获得模块，用于将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。

第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本发明实施例中任一所述的数据处理方法。

本实施例的技术方案，通过确定设定金融业务的多个影响因子；对所述多个影响因子进行特征识别，获得多个特征信息；根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。本公开实施例，根据特征信息对所述多个影响因子进行筛选，以及通过收益预测模型对设定金融业务的收益信息进行预测的方式，不仅可以提高对金融业务的收益预测的准确性，还具有较高的适用性。

附图说明

图1为本发明实施例提供的一种数据处理方法的流程图；

图2为本发明实施例提供的又一种数据处理方法的流程图；

图3为本发明实施例提供的又一种数据处理方法的流程图；

图4为本发明实施例提供的BP神经网络结构示意图；

图5为本发明实施例提供的收益预测模型训练流程示意图；

图6为本发明实施例提供的基于遗传算法的收益预测模型的训练流程示意图；

图7为本发明实施例提供的一种数据处理装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

现有技术中，预测设定金融业务的收益信息的流程是：基础数据采集、数据标准化、有效因子识别、大类因子分析、因子共线性分析、残差异方差分析、多元线性回归、估计因子预期收益、计算设定金融业务的收益信息。而在多因子的选择上过于侧重于因子在模型中的暴露度、多因子的选择往往采用打分法等线性回归的方法来选择，导致因子的关联性弱，在多因子的收益率的预测上往往采用多元线性回归的方法，导致预测的准确性低。

图1为本发明实施例提供的一种数据处理方法的流程图，本实施例可适用于股票预测的情况，该方法可以由数据处理装置来执行，该数据处理装置可以采用硬件和/或软件的形式实现，该数据处理装置可配置于电子设备中，该电子设备可以是移动终端、PC端或服务器等。如图1所示，该方法包括：

S110、确定设定金融业务的多个影响因子。

其中，设定金融业务可以是任意类型的金融业务，例如可以是股票业务、基金业务等。影响因子可以理解为金融业务的相关信息并经过预处理后的信息。若设定金融业务以股票为例，金融业务的相关信息可以包括历史股票市值、历史资产收益率、历史股票发行数量增长率等，本实施例对此不作限制。本实施例，可以预先通过获取设定金融业务的相关信息，并对其进行相关预处理，从而可以确定出设定金融业务的多个影响因子，一个相关信息可以对应一个影响因子。对于预处理的方式，本实施例对此不作限制，例如可以采用均值标准差法、标准化法、回归取残差法等。

S120、对多个影响因子进行特征识别，获得多个特征信息。

其中，特征信息可以由影响因子的收益表征。本实施例中，对于特征识别的方式，可以通过金融风险控制模型进行识别，如马科维茨的投资组合模型、风险评估Barra模型等。本实施例，通过将多个影响因子输入至金融风险控制模型中，可以输出每个影响因子对应的特征信息。

S130、根据特征信息对多个影响因子进行筛选，获得至少一个目标影响因子。

本实施例中，对于对多个影响因子进行筛选的方式可以是通过机器学习或深度神经网络模型的方式进行筛选，对于具体所使用的算法不作限制，例如随机森林决策树算法、支持向量机算法、朴素贝叶斯算法、卷积神经网络、循环神经网络、注意力机制等算法。

S140、将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息。

其中，收益预测模型可以是任意深度神经网络模型，例如反向传播神经网络，卷积神经网络、循环神经网络、注意力机制等模型。本实施例，可以通过将设定金融业务对应的一个或多个目标影响因子输入至收益预测模型中，该模型输出该设定金融业务的收益信息。对于输入，若金融业务以股票为例，则一次输入可以输入多支股票的对应的一个或多个目标影响因子，输出排名靠前的股票收益信息。

本实施例的技术方案，通过确定设定金融业务的多个影响因子；对多个影响因子进行特征识别，获得多个特征信息；根据特征信息对多个影响因子进行筛选，获得至少一个目标影响因子；将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息。本公开实施例，根据特征信息对多个影响因子进行筛选，以及通过收益预测模型对设定金融业务的收益信息进行预测的方式，不仅可以提高对金融业务的收益预测的准确性，还具有较高的适用性。

图2为本发明实施例提供的又一种数据处理方法的流程图，本发明实施例是在上述发明实施例基础上的具体化，参见图2，本发明实施例提供的方法具体包括如下步骤：

S210、获取设定金融业务的多个初始影响因子。

其中，初始影响因子由向量表征。初始影响因子可以理解为设定金融业务未经过处理的相关信息。本实施例，对于获取初始影响因子的方式，本实施例不作限制，例如可通过金融业务因子库(如股票因子库)进行获取。

S220、对每个初始影响因子依次执行如下预处理处理：标准化处理、去极值处理及缺失值填充处理，获得预处理后的影响因子。

本实施例，通过对每个初始影响因子采用标准化处理、去极值处理及缺失值填充处理的方式，使得预处理后的影响因子能够更好地进行预测，提高后续的收益预测模型的预测准确率。

可选的，对每个初始影响因子执行标准化处理的方式可以是：确定初始影响因子对应的第一统计值和第二统计值；基于第一统计值和第二统计值对初始影响因子执行标准化处理。

其中，第一统计值可以是初始影响因子对应的均值或加权平均，第二统计值可以是标准差或等权标准差。本实施例，可以通过第一统计值和第二统计值对初始影响因子进行标准化处理，以便于后续对影响因子进行更好的处理。

示例性的，若设定金融业务以股票业务为例，标准化处理可以采用如下两种方式：第一种，采用ZScore方法，对于一个向量d，向量中的每一项减其均值后除以标准差，公式如下：

其中，μ表示向量均值，即第一统计值，σ表示标准差，即第二统计值。

第二种，初始影响因子以市值为例，采用考虑市值加权组合中性的ZScore，即均值采用市值加权平均，标准差采用简单标准差。公式如下：

其中μ′是等权均值，即第一统计值，σ′是等权标准差，即第二统计值。

本实施例中，均值采用加权平均的处理方式，可以使得充分分散的市值加权组合的因子暴露为0，对于标准差的部分，使用等权处理，可以避免大市值股票对于暴露的整体规模有较大影响。

可选的，对每个初始影响因子执行去极值处理的方式可以是：根据第一统计值和第二统计值确定第一范围、第二范围、第三范围和第四范围；若初始影响因子的元素值落入第一范围，则将元素值替换为第一统计值和第二统计值的第一线性叠加结果；若初始影响因子的元素值落入第二范围，则保持元素值不变；若初始影响因子的元素值落入第三范围，则将元素值替换为第一统计值和第二统计值的第二线性叠加结果；若初始影响因子的元素值落入第四范围，则删除元素值。

具体的，可以采用3倍标准差去极值的方法，对于超过均值加减10倍标准差以外的数据，可以认为是异常数据，则可以对其进行剔除，对于均值加减3倍到10倍标准差之间的数据，可以认为是极端数据，则可以拉回到均值加减3倍标准差，具体可以通过以下公式进行去极值的处理。

其中，μ表示向量均值，即第一统计值，σ表示标准差，即第二统计值，x表示元素值。3σ＜x-μ＜＝10σ表示第一范围，|x-μ|＜＝3σ表示第二范围，-10σ＜x-μ＜＝-3σ表示第三范围，|x-μ|＞10σ表示第四范围。

可选的，对每个初始影响因子执行缺失值填充处理的方式可以是：获取初始影响因子的标准值；将标准值填充至被删除的元素所在的位置。

本实施例中，对于缺失值填充处理的方式可以是：将同行业的初始影响因子的标准值、均值或中位数等作为被删除的元素所在位置的填充值。

S230、将多个预处理后的影响因子进行因子合并，获得多个影响因子。

具体的，对于因子合并的方式可以是：预先对多个预处理后的影响因子设置权重，可以将权重相同的预处理后的影响因子进行合并，具体可以采用加权求和或加权求平均的方式将权重相同的预处理后的影响因子进行合并，或者可以采用主成分分析(PrincipalComponent Analysis，PCA)将多个预处理后的影响因子进行因子合并，得到多个影响因子。例如，将原始100个影响因子合并为50个影响因子，得到的多个影响因子可以是行业因子、市值因子、价值因子、波动因子、流动性因子等因子。

S240、对多个影响因子进行特征识别，获得多个特征信息。

S250、根据特征信息对多个影响因子进行筛选，获得至少一个目标影响因子。

S260、将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息。

本实施例，通过获取设定金融业务的多个初始影响因子，对每个初始影响因子依次执行如下预处理处理：标准化处理、去极值处理及缺失值填充处理，获得预处理后的影响因子，将多个预处理后的影响因子进行因子合并的方式，可以提高后续收益预测模型的预测效率和预测准确率。

图3为本发明实施例提供的又一种数据处理方法的流程图，本发明实施例是在上述发明实施例基础上的具体化，参见图3，本发明实施例提供的方法具体包括如下步骤：

S310、确定设定金融业务的多个影响因子。

S320、将多个影响因子分别输入设定风险评估Barra模型，输出多个特征信息。

其中，特征信息由影响因子的收益表征。风险评估Barra模型可以用于基于影响因子求解各因子的收益。具体的，若以股票业务为例，对于某一支股票，可将其对应的多个影响因子分别输入至设定风险评估Barra模型中，可以分别得到对应的特征信息，即一个影响因子具有相应的一个特征信息，每个影响因子具有对应的收益信息。

S330、采用随机森林决策树算法对多个影响因子进行筛选，获得至少一个目标影响因子。

其中，随机森林决策树算法可以是由多棵决策树生成，利用随机的方式建立一个森林，森林中包括多个决策树。随机森林中每一棵决策树之间没有关联。得到随机森林之后，对于一个输入样本，森林中的每一棵决策树都对该输入样本的所属类别进行判断，并将数量最多的类别作为该输入样本的类别。

本实施例中，对于随机森林的训练过程可以是如下过程：在训练阶段，将影响因子的特征信息(收益信息)当做标签，将收益排名前30％的影响因子设置为1，收益排名后30％的影响因子设置为-1，其余影响因子当作噪声丢弃，构成数据集，并构造一棵决策树：class＝DecisionTree(DB)，DB表示数据集，DecisionTree表示决策树。在分类阶段，从决策树的根开始，将影响因子当成决策树的分类属性逐层往下划分，直到叶节点，获得分类结果，如y＝DecisionTree(x)，x表示影响因子，y表示分类结果。在分类的过程中，要满足信息熵逐渐变小，基尼gini系数逐渐变小，熵越小，则分类的结果越有序。在决策阶段，构造损失函数，并采用后剪枝的方式防止训练过拟合。本实施例对损失函数的选择不作限制，例如采用决策树的损失函数。最后，采用有放回的方式，对训练样本采样，建立多棵决策树，并对每棵的决策树的结果加以聚合，从而确定出使得熵迅速降低的影响影响因子，快速实现影响因子收益的分类。并且，通过网格搜索和交叉验证的方法对随机森林的超参数进行寻优，从而获得对金融业务收益(如股票收益)影响程度较高的影响因子。

具体的，对于随机森林决策树算法的应用可以是：将多个影响因子输入至随机森林决策树算法中，该算法输出收益排序靠前(如收益排名前30％)的多个目标影响因子。

S340、将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息。

本实施例，将设定金融业务对应的一个或多个目标影响因子输入至收益预测模型中，可得到该金融业务的收益信息。例如，以股票业务为例，将一支股票的一个或多个目标影响因子输入至收益预测模型中，该模型可以输出该股票的收益信息。其中，收益预测模型可以是任意的深度神经网络模型，如：BP神经网络(Back PropagationNeural Network，BPNN)。

可选的，收益预测模型为深度神经网络DNN模型，包括输入层、多个隐藏层及输出层。

其中，输入层、隐藏层及输出层均包括多个神经元节点，且相邻层的神经元节点间设置有权重参数，隐藏层的神经元节点设置有阈值参数。

具体的，输入层和隐藏层的神经节点之间设置有偶权重参数，隐藏层和输出层的神经元节点设置有阈值参数。示例性的，深度神经网络DNN模型以BP神经网络为例，图4为本发明实施例提供的BP神经网络结构示意图。图中，x_i表示输入层第i个神经元的特征输入，i＝1,2,3,...m，m表示训练样本的特征数量；

表示输入层第i个神经元到隐藏层第j个神经元的权重参数；

表示隐藏层第j神经元的阈值参数；φ(x)表示隐藏层的激励函数；

表示隐藏层第j个神经元到输出层第k个神经元的权重参数；

表示隐藏层第k神经元的阈值参数；

表示隐藏层的激励函数；q_k表示输出层第k神经元的预测输出，k＝1,2,3...,s，s代表分类类型的种数；p_k表示输出层第k神经元的期望输出，k＝1,2,3...,s，s代表分类类型的种数。本实施例，对具体的激励函数不作限制，例如可以是RELU函数。本实施例中，隐藏层层数可以为3层，节点个数可以分别为7、7、5。

可选的，收益预测模型的训练方式为：获取设定金融业务对应的目标影响因子样本及其对应的真实收益信息；将目标影响因子样本输入收益预测模型，输出预测收益信息；基于真实收益信息和预测收益信息更新权重参数和阈值参数，以训练收益预测模型。

具体的，收益预测模型包括：信号前向传播和误差反向传播两个过程。将设定金融业务对应的目标影响因子样本输入到收益预测模型中，通过前向的信息传播可以得到预测收益信息，将预测收益信息和其对应的真实收益信息(期望输出)比较得到误差信号。通过误差信号逐层反向收益预测模型的权重参数和阈值参数。通过反复进行信号前向传播和误差反向传播，以对收益预测模型进行训练，直到误差满足预设范围，或者达到学习的迭代次数，停止训练。

可选的，基于真实收益信息和预测收益信息更新权重参数和阈值参数的方式可以是：确定真实收益信息和预测收益信息间的误差信息；基于误差信息确定误差梯度；将误差梯度在收益预测模型反向传播，以更新权重参数和阈值参数。

具体的，通过收益预测模型的前向传播，可以得到预测收益信息，通过预测收益信息和真实收益信息的比较，得到误差信息。然后反向调整权重参数和阈值参数。误差的反向传播可以从输出层开始，计算输出层和隐藏层的所有神经元的输出误差，基于误差信息以及梯度下降法得到误差梯度，将误差梯度在收益预测模型反向传播，以更新权重参数和阈值参数，使得误差信息逐渐变小，预测收益信息逐渐逼近真实收益信息。

示例性的，图5为本发明实施例提供的收益预测模型训练流程示意图。第一步：权重参数和阈值参数初始化。需要说明的是，输入层上的所有节点的变量是已知的，将输入层的所有变量和其对应的隐藏层节点的权重参数相乘后再求和，将求和结果加上隐藏层每个节点所对应的阈值，能够获得隐藏层神经元的输入。在进行该步时，将权重参数和阈值参数进行初始化，随机初始化为0～1之间的数值。第二步，获取设定金融业务对应的目标影响因子样本及其对应的真实收益信息。第三步，求解隐藏层和输出层的输出。需要说明的是，将隐藏层神经元的输入当作隐藏层激活函数的输入，可以得到隐藏层神经元的输出。将隐藏层的所有输出乘以隐藏层到输出层对应的权重参数再求和，加上输出层各个神经元的阈值参数，可以得到输出层神经元的输入，将输出层神经元的输入当作输出层激活函数的输入，可以得到输出层神经元的输出。第四步，确定真实收益信息和预测收益信息间的误差信息。第五步，判断误差信息满足预设范围。第六步，若满足，训练结束，固定权重参数和阈值参数。第七步，若不满足，基于误差信息确定误差梯度。第八步，将误差梯度在收益预测模型反向传播，以更新权重参数和阈值参数。

可选的，在基于真实收益信息和预测收益信息更新权重参数和阈值参数之后，还包括：采用设定优化算法对更新后的权重参数和阈值参数进行优化，获得目标权重参数和目标阈值参数。

其中，设定优化算法可以用于寻找全局最佳的权重参数和阈值参数，以解决收益预测模型在训练过程中陷入局部极小值点或者鞍点的问题。本实施例对具体使用的优化算法不作限制，例如可以是遗传算法、贪婪算法、粒子群算法等。

本实施例，以遗传算法为例，利用遗传算法对更新后的权重参数和阈值参数进行优化的方式可以是：遗传算法是一种具有全局搜索能力的启发式算法。遗传算法主要包括编码、初始化种群、适应度设计、选择、交叉、变异等操作。对于编码，将收益预测模型的所有权重参数和阈值参数当作个体进行编码，公式如下：

其中，l_in、h、l_out分别为输入层、3层隐藏层、输出层的神经元个数。对于初始化种群，将初始化种群设为135，即有135个个体，且进化30代。对于适应度设计，适应度设计用于选取优秀个体的重要依据，本实施例，将目标函数当作适应度函数，个体的适应度值越小，则越是优秀个体。对于选择操作，选择操作可以是在旧群体里选择部分适应度高的个体，组成新群体。对于交叉操作，交叉操作可以是通过互换个体的部分，组成新的个体，本实施例设置的交叉概率可以为0.35。对于变异操作，变异操作可以是对个体的某一部分进行变异，产生新一代个体，本实施例设置的变异概率可以为0.22。

示例性的，图6为本发明实施例提供的基于遗传算法的收益预测模型的训练流程示意图。第一步，确定神经网络结构。第二步，初始化权重参数和阈值参数，得到初始化种群。第三步，通过解码得到权重参数和阈值参数。第四步，将权重参数和阈值参数赋值给收益预测模型。第五步，使用影响因子样本及其对应的真实收益信息组成的训练样本训练收益预测模型。第六步，使用测试样本测试收益预测模型。第七步，确定测试样本的误差信息。第八步，计算适应度。第九步，选择适应度高的染色体进行复制。第十步，进行交叉操作。第十一步，进行变异操作，得到新群体。第十二步，判断是否满足训练终止条件。第十三步，若满足，则进行解码，得到最佳的权重参数和阈值参数。第十四步，执行第三步。本实施例中，训练样本与测试样本的数量比例可以为8:2，还采用交叉验证的方式得到最佳的超参数，并且在测试样本上验证收益预测模型的准确性，采用ROC曲线的判断收益预测模型的好坏。使用训练后的收益预测模型进行应用。仍以股票业务为例，当个股的多目标影响因子(一次可以输入多支股票)输入训练后的收益预测模型中，输出为1时，则表示为收益排名靠前的股票。

本实施例，通过确定设定金融业务的多个影响因子，将多个影响因子分别输入设定风险评估Barra模型，输出多个特征信息，采用随机森林决策树算法对多个影响因子进行筛选的方式，可以获得对设定金融业务收益影响较大的多个目标影响因子，以及将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息的方式，使得获得的设定金融业务的收益信息更加准确，提高用户满意度。

图7为本发明实施例提供的一种数据处理装置的结构示意图。如图7所示，影响因子确定模块710、特征信息获得模块720、筛选模块730、收益信息获得模块740；

影响因子确定模块710，用于确定设定金融业务的多个影响因子；

特征信息获得模块720，用于对所述多个影响因子进行特征识别，获得多个特征信息；

筛选模块730，用于根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；

收益信息获得模块740，用于将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

本实施例的技术方案，通过影响因子确定模块确定设定金融业务的多个影响因子；通过特征信息获得模块对多个影响因子进行特征识别，获得多个特征信息；通过筛选模块根据特征信息对多个影响因子进行筛选，获得至少一个目标影响因子；通过收益信息获得模块将至少一个目标影响因子输入收益预测模型，获得设定金融业务的收益信息。本公开实施例，根据特征信息对多个影响因子进行筛选，以及通过收益预测模型对设定金融业务的收益信息进行预测的方式，不仅可以提高对金融业务的收益预测的准确性，还具有较高的适用性。

可选的，影响因子确定模块具体用于：获取设定金融业务的多个初始影响因子；其中，所述初始影响因子由向量表征；对每个所述初始影响因子依次执行如下预处理处理：标准化处理、去极值处理及缺失值填充处理，获得预处理后的影响因子；将多个预处理后的影响因子进行因子合并，获得多个影响因子。

可选的，影响因子确定模块还用于：确定所述初始影响因子对应的第一统计值和第二统计值；基于所述第一统计值和所述第二统计值对所述初始影响因子执行标准化处理。

可选的，影响因子确定模块还用于：根据所述第一统计值和第二统计值确定第一范围、第二范围、第三范围和第四范围；若所述初始影响因子的元素值落入第一范围，则将所述元素值替换为所述第一统计值和第二统计值的第一线性叠加结果；若所述初始影响因子的元素值落入第二范围，则保持所述元素值不变；若所述初始影响因子的元素值落入第三范围，则将所述元素值替换为所述第一统计值和第二统计值的第二线性叠加结果；若所述初始影响因子的元素值落入第四范围，则删除所述元素值。

可选的，影响因子确定模块还用于：获取所述初始影响因子的标准值；将所述标准值填充至被删除的元素所在的位置。

可选的，特征信息获得模块具体用于：将所述多个影响因子分别输入设定风险评估Barra模型，输出多个特征信息；其中，所述特征信息由影响因子的收益表征。

可选的，筛选模块具体用于：采用随机森林决策树算法对所述多个影响因子进行筛选，获得至少一个目标影响因子。

可选的，所述收益预测模型为深度神经网络DNN模型，包括输入层、多个隐藏层及输出层；其中，所述输入层、隐藏层及所述输出层均包括多个神经元节点；且相邻层的神经元节点间设置有权重参数，所述隐藏层的神经元节点设置有阈值参数。

可选的，上述装置还包括模型训练模块，所述模型训练模块用于：获取设定金融业务对应的目标影响因子样本及其对应的真实收益信息；将所述目标影响因子样本输入所述收益预测模型，输出预测收益信息；基于所述真实收益信息和所述预测收益信息更新所述权重参数和所述阈值参数，以训练所述收益预测模型。

可选的，所述模型训练模块还用于：确定所述真实收益信息和所述预测收益信息间的误差信息；基于所述误差信息确定误差梯度；将所述误差梯度在所述收益预测模型反向传播，以更新所述权重参数和所述阈值参数。

可选的，上述装置还包括模型优化模块，所述模型优化模块用于：采用设定优化算法对更新后的所述权重参数和所述阈值参数进行优化，获得目标权重参数和目标阈值参数。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

图8为本发明实施例提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的电子设备12的框图。图8显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备12是典型的实现数据处理的电子设备。

如图8所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块26的程序36，可以存储在例如存储28中，这样的程序模块26包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块26通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、摄像头、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的数据处理方法。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理装置执行时实现如本发明实施例中的数据处理方法。本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：确定设定金融业务的多个影响因子；对所述多个影响因子进行特征识别，获得多个特征信息；根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本发明实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现如本申请任一实施例所提供的数据处理方法。

计算机程序产品在实现的过程中，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

确定设定金融业务的多个影响因子；

对所述多个影响因子进行特征识别，获得多个特征信息；

根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；

将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

2.根据权利要求1所述的方法，其特征在于，确定设定金融业务的多个影响因子，包括：

获取设定金融业务的多个初始影响因子；其中，所述初始影响因子由向量表征；

对每个所述初始影响因子依次执行如下预处理处理：标准化处理、去极值处理及缺失值填充处理，获得预处理后的影响因子；

将多个预处理后的影响因子进行因子合并，获得多个影响因子。

3.根据权利要求2所述的方法，其特征在于，对每个所述初始影响因子执行标准化处理，包括：

确定所述初始影响因子对应的第一统计值和第二统计值；

基于所述第一统计值和所述第二统计值对所述初始影响因子执行标准化处理。

4.根据权利要求3所述的方法，其特征在于，对每个所述初始影响因子执行去极值处理，包括：

根据所述第一统计值和第二统计值确定第一范围、第二范围、第三范围和第四范围；

若所述初始影响因子的元素值落入第一范围，则将所述元素值替换为所述第一统计值和第二统计值的第一线性叠加结果；

若所述初始影响因子的元素值落入第二范围，则保持所述元素值不变；

若所述初始影响因子的元素值落入第三范围，则将所述元素值替换为所述第一统计值和第二统计值的第二线性叠加结果；

若所述初始影响因子的元素值落入第四范围，则删除所述元素值。

5.根据权利要求4所述的方法，其特征在于，对每个所述初始影响因子执行缺失值填充处理，包括：

获取所述初始影响因子的标准值；

将所述标准值填充至被删除的元素所在的位置。

6.根据权利要求1所述的方法，其特征在于，对所述多个影响因子进行特征识别，获得多个特征信息，包括：

将所述多个影响因子分别输入设定风险评估Barra模型，输出多个特征信息；其中，所述特征信息由影响因子的收益表征。

7.根据权利要求1所述的方法，其特征在于，根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子，包括：

采用随机森林决策树算法对所述多个影响因子进行筛选，获得至少一个目标影响因子。

8.根据权利要求1所述的方法，其特征在于，所述收益预测模型为深度神经网络DNN模型，包括输入层、多个隐藏层及输出层；其中，所述输入层、隐藏层及所述输出层均包括多个神经元节点；且相邻层的神经元节点间设置有权重参数，所述隐藏层的神经元节点设置有阈值参数。

9.根据权利要求8所述的方法，其特征在于，所述收益预测模型的训练方式为：

获取设定金融业务对应的目标影响因子样本及其对应的真实收益信息；

将所述目标影响因子样本输入所述收益预测模型，输出预测收益信息；

基于所述真实收益信息和所述预测收益信息更新所述权重参数和所述阈值参数，以训练所述收益预测模型。

10.根据权利要求9所述的方法，其特征在于，基于所述真实收益信息和所述预测收益信息更新所述权重参数和所述阈值参数，包括：

确定所述真实收益信息和所述预测收益信息间的误差信息；

基于所述误差信息确定误差梯度；

将所述误差梯度在所述收益预测模型反向传播，以更新所述权重参数和所述阈值参数。

11.根据权利要求9所述的方法，其特征在于，在基于所述真实收益信息和所述预测收益信息更新所述权重参数和所述阈值参数之后，还包括：

采用设定优化算法对更新后的所述权重参数和所述阈值参数进行优化，获得目标权重参数和目标阈值参数。

12.一种数据处理装置，其特征在于，包括：

影响因子确定模块，用于确定设定金融业务的多个影响因子；

特征信息获得模块，用于对所述多个影响因子进行特征识别，获得多个特征信息；

筛选模块，用于根据所述特征信息对所述多个影响因子进行筛选，获得至少一个目标影响因子；

收益信息获得模块，用于将所述至少一个目标影响因子输入收益预测模型，获得所述设定金融业务的收益信息。

13.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-11中任一项所述的数据处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-11中任一项所述的数据处理方法。