CN111325630A

CN111325630A - 一种数据处理方法及装置

Info

Publication number: CN111325630A
Application number: CN202010103611.4A
Authority: CN
Inventors: 陆立力; 王志杰; 潘光远; 鲍慧琰
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-23

Abstract

本发明公开了一种数据处理方法，该方法包括：根据预设筛选规则从目标对象组合的因子中筛选出若干因子作为回测因子，因子至少包括目标对象组合的业绩和风险指标；根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据回测参数将回测数据集划分若干个回测子数据集，训练子数据集与回测子数据集一一对应；分别采用训练子数据集以及回测因子基于预测算法训练得到预测模型，使用预测模型对与训练子数据对应的回测子数据集进行预测，得到若干个预测结果；对若干个预测结果进行合并处理，获取回测结果。本发明通过采用滚动回测，提高了预测模型的时效性，从而可以提高回测计算的精准度。

Description

一种数据处理方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理方法及装置。

背景技术

基于大数据分析的量化策略研究，它具有一个显著功效，就是把人的情绪排除到投资进程之外，即整个投资进程完全按照预先设定的程序进行操作。把人的情绪排除在外的一个作用就是确保投资进程的客观性，而确保这样的客观性是重要的，因为量化投资策略的构建本身是基于客观的规律的，这些规律是基于大数据分析总结出来的，它们具有客观的精确性。这是通常的定性投资所不具有的，这也是量化策略算法之所以极具吸引力的一个本质原因。

公募基金(Public Offering of Fund)，是指以公开方式向社会公众投资者募集资金并以证券为投资对象的证券投资基金。公募基金是以大众传播手段招募，发起人集合公众资金设立投资基金，进行证券投资。这些基金在法律的严格监管下，有着信息披露，利润分配，运行限制等行业规范。最经典的公募基金量化研究就是基于现代投资组合理论，选择基金等资产来构建客户的投资组合，通过均值-方差原理，构建资产的有效前沿，通过投资者的风险测评结果，给出适合用户的配置比例，并对用户投资组合进行跟踪，反馈以及提出调整建议。

对投资组合进行回测是公募基金量化研究中一个重要的环节。回测是指设定了某些股票指标组合后，基于历史已经发生过的真实行情数据，在历史上某一个时间点开始，严格按照设定的组合进行选股，并模拟真实金融市场交易的规则进行模拟买入、模拟卖出，得出一个时间段内的盈利率、最大回撤率等数据。现有技术中的回测方式只会在训练集上训练模型，然后对验证集数据进行预测，这样只会有一次训练一次预测。一方面，时间较远的数据做训练来预测最近的数据可能效果不是很理想，另一方面，不同时期市场状况和结构也不一致。这些都会导致回测的时效性以及精准度较差。

因此亟需提出一种新的数据处理方法，以解决上述问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种数据处理方法，以克服现有技术中的回测模型的时效性较差而导致回测计算的精准度较差等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

一方面，提供了一种数据处理方法，该方法包括如下步骤：

根据预设筛选规则从目标对象组合的因子中筛选出若干因子作为回测因子，所述因子至少包括所述目标对象组合的业绩和风险指标；

根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集，所述训练子数据集与所述回测子数据集一一对应；

分别采用所述训练子数据集以及所述回测因子基于预测算法训练得到预测模型，使用所述预测模型对与所述训练子数据对应的所述回测子数据集进行预测，得到若干个预测结果；

对所述若干个预测结果进行合并处理，获取回测结果。

进一步的，所述回测参数包括回测起止时间、回测区间、回测时间长度以及回滚时间长度，所述根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集包括：

将所述起止时间内的训练数据按照所述回滚时间长度划分为若干个训练子数据集；

将所述回测区间内的回测数据集按照所述回测时间长度划分为若干个回测子数据集。

进一步的，所述目标对象组合的获取过程包括：

从候选对象中筛选符合第一筛选指标的对象，生成对象池；

从所述对象池中筛选符合第二筛选指标的多个目标对象，并按照预设的组合策略对所述多个目标对象进行组合，获取目标对象组合；或，

将所述对象池中的所有对象输入到预先构建的组合模型中，获取输出的目标对象组合。

进一步的，所述方法还包括组合策略的优化过程，包括：

对所述回测结果进行归因分析，获取第一分析结果；

根据所述第一分析结果对所述组合策略进行优化调整。

进一步的，所述方法还包括：

对所述目标对象组合进行分析，获取第二分析结果；

根据所述第二分析结果对所述组合策略或所述组合模型进行优化调整。

另一方面，提供了一种数据处理装置，所述装置包括：

因子筛选模块，用于根据预设筛选规则从目标对象组合的因子中筛选出若干因子作为回测因子，所述因子至少包括所述目标对象组合的业绩和风险指标；

数据划分模块，用于根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集，所述训练子数据集与所述回测子数据集一一对应；

回测计算模块，用于分别采用所述训练子数据集以及所述回测因子基于预测算法训练得到预测模型，使用所述预测模型对与所述训练子数据对应的所述回测子数据集进行预测，得到若干个预测结果；

结果合并模块，用于对所述若干个预测结果进行合并处理，获取回测结果。

进一步的，所述数据划分模块包括：

第一划分单元，用于将所述起止时间内的训练数据按照所述回滚时间长度划分为若干个训练子数据集；

第二划分单元，用于将所述回测区间内的回测数据集按照所述回测时间长度划分为若干个回测子数据集。

进一步的，所述装置还包括组合获取模块，包括：

第一筛选单元，用于从候选对象中筛选符合第一筛选指标的对象，生成对象池；

第二筛选单元，用于从所述对象池中筛选符合第二筛选指标的多个目标对象；

组合获取单元，用于按照预设的组合策略对所述多个目标对象进行组合，获取目标对象组合；或，

用于将所述对象池中的所有对象输入到预先构建的组合模型中，获取输出的目标对象组合。

进一步的，所述装置还包括第一优化模块，包括：

第一分析单元，用于对所述回测结果进行归因分析，获取第一分析结果；

第一优化单元，用于根据所述第一分析结果对所述组合策略进行优化调整。

进一步的，所述装置还包括第二优化模块，包括：

第二分析单元，用于对所述目标对象组合进行分析，获取第二分析结果；

第二优化单元，用于根据所述第二分析结果对所述组合策略或所述组合模型进行优化调整。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的数据处理方法及装置，根据预设筛选规则从目标对象组合的因子中筛选出若干因子作为回测因子，因子至少包括目标对象组合的业绩和风险指标，根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据回测参数将回测数据集划分若干个回测子数据集，训练子数据集与回测子数据集一一对应，分别采用训练子数据集以及回测因子基于预测算法训练得到预测模型，使用预测模型对与训练子数据对应的回测子数据集进行预测，得到若干个预测结果，对若干个预测结果进行合并处理，获取回测结果，提高了预测模型的时效性，从而可以提高回测计算的精准度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的数据处理方法的交互图；

图2是根据一示例性实施例示出的数据处理方法的流程图；

图3是根据一示例性实施例示出的现有技术中常用的回测计算的流程图；

图4是根据一示例性实施例示出的本发明实施例提供的滚动回测计算的流程图；

图5是根据一示例性实施例示出的目标对象组合的获取过程的流程图；

图6是根据一示例性实施例示出的数据处理装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以公募基金的量化为例，我们需要从目前市场上投放的海量基金中筛选出符合条件的目标基金组合(即目标对象组合)，再计算出目标基金组合的因子其中，目标基金组合的因子至少包括业绩和风险指标，然后从目标基金组合的因子中筛选出部分因子作为回测因子，然后使用回测因子以及预先准备的训练数据集基于预测算法训练出预测模型，使用该预测模型对回测数据集进行预测，获取回测结果，但是尚无法保证回测过程中预测模型的时效性以及精准度。因此我们需要提供一种新的数据处理方法，使得回测过程中训练出的预测模型相对于回测数据具有一定的时效性以及保证回测结果的精准度。

本发明实施例提供的数据处理方法，通过计算机技术与算法，利用平台数据和目标对象组合的因子构建因子库来搭建数据模型，进而通过互联网平台向用户提供的关于分析基金、策略、算法等智能化功能。该方法以基金等业务的需求为导向，不断开发算法以满足基金等业务的需求。通过系统化统筹，数量化运营，智能化输出的方式，高效率提供一站式的算法测试方案，有利于加快算法开发的进度，为更好地服务于基金业务提供算法支撑。

图1是根据一示例性实施例示出的数据处理方法的交互图，参照图1所示，本发明实施例中，采用了大数据平台提供计算服务，具体实施时，用户可以通过PC浏览器登录数据处理装置，通过在服务器端进行目标对象组合筛选或策略编写，提取相关目标对象组合信息。服务器端将这些信息通过kafka接口形式提交给大数据准实时计算平台上的回测任务，回测任务结合缓存后的第三方数据，以及算法模型，对提交的组合进行各项指标的回测计算，并将结果通过kafka接口形式上报给准实时平台上个的数据回填任务，该任务收到数据后，进行批量回填进MySQL数据库。用户之前打开的页面，会定时轮询MySQL数据库，一旦数据有回填，页面就将计算完的结果进行展现。

本发明实施例中，采用高度抽象的策略回测数据结构，有较强的范化能力。引入大数据平台做回测，支持大数据量的量化回测。不同于外部竞争对手，该平台可以支持一个用户同时执行多个回测任务。而外部竞争对手只能支持一个回测任务，项目效率改进程度较行业同类产品提升10倍以上。

图2是根据一示例性实施例示出的数据处理方法的流程图，参照图2所示，该方法包括如下步骤：

S1：根据预设筛选规则从目标对象组合的因子中筛选出若干因子作为回测因子，所述因子至少包括所述目标对象组合的业绩和风险指标。

具体的，目标对象组合包括公募基金组合、股票组合等，是指需要进行回测计算的对象。在目标对象组合确定好后，即可确定目标对象组合的因子。本发明实施例中，目标对象组合的因子包括目标对象组合的业绩和风险指标、资产分析指标等与目标对象组合相关的指标。其中，业绩和风险指标包括目标对象组合的一日收益率、七日收益率、一个月收益率、六个月收益率、一年收益率及一个月标准差、六个月标准差、一年标准差等指标。资产分析指标包括目标对象组合的股票仓位、债券仓位、前十大持股比例、前五大债券比例和净资产等。

在对目标对象组合进行回测计算时，需要先确定回测因子。其中，回测因子是根据预设筛选规则从目标对象组合的因子中筛选出的若干因子。这里需要说明的是，本发明实施例中，不对预设筛选规则做具体限制，用户可以根据实际需求进行设置。

S2：根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集，所述训练子数据集与所述回测子数据集一一对应。

具体的，现有的回测计算中，通常是使用预先准备好的训练数据基于预测算法训练获取预测模型，该过程中通常预测模型只训练一次，这样容易出现训练出的预测模型相对于一些回测数据缺乏时效性，比如，训练数据是选择的是2010年至2011年的，而回测数据的回测区间是2012年至2017年的，预测模型的训练数据相对于2017年来说，时间较久远，时效性较差，容易导致预测精准度差等问题。本发明实施例中，为解决上述问题，采用了滚动回测的方式对回测数据进行回测，该方式中，首先根据预先设置的回测参数按照预设的划分规则将训练数据集划分为若干个训练子数据集，同时还需要根据该回测参数将回测数据集划分若干个回测子数据集。其中，划分规则这里不做限制，用户可以根据实际需求进行设置，例如，按照时间维度对数据进行划分等。这里需要说明的是，本发明实施例中，无论采用何种方式对训练数据集以及回测数据集进行划分，均需满足划分后获取的训练子数据集与回测子数据集一一对应。例如，若是将根据回测参数将训练数据集划分为10个训练子数据集，则需要将将回测数据集按照回测参数划分为10个回测子数据集，且每个回测子数据集分别与一个训练子数据集对应。

S3：分别采用所述训练子数据集以及所述回测因子基于预测算法训练得到预测模型，使用所述预测模型对与所述训练子数据对应的所述回测子数据集进行预测，得到若干个预测结果。

具体的，同样的，为了提高预测模型的时效性，从而提高回测计算的精准度，本发明实施例中的回测计算采用了滚动回测的方式。具体实施时，首先采用上述步骤获取的训练子数据集以及回测因子分别基于预测算法训练得到预测模型，然后使用该预测模型对与训练子数据对应的回测子数据集进行预测，得到对应的预测结果。由于训练子数据集以及回测子数据集均有若干个，因此，最终获取到的预测结果也有若干个。这里需要说明的是，本发明实施例中，不对具体采用何种预测算法做限制，用户可以根据实际需求进行选择或设置。

S4：对所述若干个预测结果进行合并处理，获取回测结果。

具体的，最后，将上述步骤获取到的若干个预测结果进行合并处理，将合并结果作为本次回测最终的回测结果。这样得到回测结果更接近真实的用户需求和实际状况，而不是理想状态下的一种回测方式，更具有参考价值。

作为一种较优的实施方式，本发明实施例中，所述回测参数包括回测起止时间、回测区间、回测时间长度以及回滚时间长度，所述根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集包括：

具体的，参照图3所示，图3是根据一示例性实施例示出的现有技术中常用的回测计算的流程图，该过程中，回测起止时间为2010年1月1日至2017年10月、回测区间为2015年1月1日至2017年10月，即2010年1月1日至2015年1月1日的数据作为训练数据，2015年2015年1月1日2017年10月的数据为回测数据。进一步参照图2所示，该方式中，首先采用训练数据基于选定的预测算法训练获取一预测模型，然后使用该模型对回测数据进行预测，预测结果即为回测结果，该回测方式中模型只训练了一次，整个回测区间上的数据也只有一次预测结果。

参照图4所示，图4是根据一示例性实施例示出的本发明实施例提供的滚动回测计算的流程图，该过程中，回测参数除了包括回测起止时间、回测区间以外，还包括回测时间长度以及回滚时间长度。进一步参照图4所示，该过程中，回测起止时间为2010年1月1日至2017年10月、回测区间为2012年1月1日至2017年10月，假设回测时间长度最小为730天，最大为1095天，回滚时间长度为一年。

若是采用传统的回测方式，则会简单的将2010年1月1日至2012年1月1日的数据作为训练数据。与传统方式不一样的是，在本发明实施例中，将2010年1月1日至2016年1月1日的数据均作为了训练数据，并且不是将这些数据一次性用来训练预测模型。进一步参照图4所示，本发明实施例中，首先按照上述回测参数对训练数据和回测数据进行了划分，其中，划分后的训练子数据集包括2010年1月1日至2012年1月1日的数据、2010年1月1日至2013年1月1日的数据、2011年1月1日至2014年1月1日的数据、2012年1月1日至2015年1月1日的数据、2013年1月1日至2016年1月1日的数据以及2014年1月1日至2017年1月1日的数据，回测子数据集包括2012年1月1日至2013年1月1日的数据、2013年1月1日至2014年1月1日的数据、2014年1月1日至2015年1月1日的数据、2015年1月1日至2016年1月1日的数据、2016年1月1日至2017年1月1日的数据以及2017年1月1日至2017年10月的数据，并且每一个训练子数据集依次与一个回测子数据集对应。

进一步参照图4可知，采用本发明实施例提供的数据处理方法，回测计算过程中，一共基于预测算法训练了6次模型，由于每次采用的训练数据都略有不同，因此6次训练得到的模型也不太一样，并且可以保证每次用于训练预测模型的训练数据相对于回测数据来说，都是最新的，这样可以保证训练出来的预测模型的时效性更好。并且采用本发明实施例提供的数据处理方法，一共形成了6次预测结果，将这6次结果进行合并，成为整个回测区间的回测结果，使得回测结果的精准度更高。

图5是根据一示例性实施例示出的目标对象组合的获取过程的流程图，参照图5所示，作为一种较优的实施方式，本发明实施例中，所述目标对象组合的获取过程包括：

S101：从候选对象中筛选符合第一筛选指标的对象，生成对象池。

具体的，第一筛选指标是根据用户需求进行设置的，以公募基金为例，第一筛选指标可以包括基金类型、基金评级、基金经理评级、基金规模、基金风险等级、基金收益、申赎状态、成立日期等指标中的其中一个或多个，这里不做限制。

本发明实施例中，在基金池构建好后，获取目标对象组合时可以采用步骤S102或S103的方式中的其中一种。

S102：从所述对象池中筛选符合第二筛选指标的多个目标对象，并按照预设的组合策略对所述多个目标对象进行组合，获取目标对象组合。

具体的，设置第二筛选指标，第二筛选指标为对象池筛选结果指标，主要用于从上述步骤构建好的对象池中筛选出多个目标对象，后续对筛选出的目标对象进行业绩和风险分析、资产分析，提供基金透视、归因分析和加入组合功能等操作。这里需要说明的是，本发明实施例中，同样不对第二筛选指标进行限制，用户可以根据实际需求进行设置。

本发明实施例中，还提供在线策略编译功能，用于设置组合策略。该功能可以采用jupyter kernel gateway模块实现。jupyter kernel gateway提供纯粹的运算能力，并有一套相对完善的ipython进程创建、删除、中断和执行的接口能力。且jupyter kernelgateway的可控性能较强，使得使用jupyter kernel gateway gateway较容易实现运算集群的部署。

在脚本执行方面，因为gateway清晰的执行接口，可以将执行脚本及返回变量作为参数提交给它，并且使用效率更高的双向websocket通讯协议，使得脚本运行过程中的中间输出，可以实时推送给浏览器，效率比轮询机制高出很多，至少可以提升1倍以上。

具体实施时，可以使用现有nginx服务器，根据URL匹配和参数，动态路由指定路由至匹配的gateway服务器上。

S103：将所述对象池中的所有对象输入到预先构建的组合模型中，获取输出的目标对象组合。

具体的，除了上述方法以外，还可以采用模型来计算获取目标对象组合。具体实施时，可以根据实际需求预先选取或设置适合的运算逻辑，并准备好相应的训练数据，然后基于该运算逻辑使用训练数据训练获取组合模型。再将上述步骤构建好的对象池中的对象输入到该组合模型中，模型的输出即为目标对象组合。

作为一种较优的实施方式，本发明实施例中，所述方法还包括组合策略的优化过程，包括：

对所述回测结果进行归因分析，获取第一分析结果；

根据所述第一分析结果对所述组合策略进行优化调整。

具体的，本发明实施例中，回测结果除了用于对目标对象组合进行预测外，还用来对组合策略进行优化。具体实施时，首先对回测结果进行归因分析，获取第一分析结果，根据该第一分析结果对组合策略进行优化调整，例如，通过对组合的权重进行调整实时对调整后的组合进行归因分析以获取优化后的组合策略。

其中，归因分析包括但不限于对一下内容的分析：

资产分布指标：穿透基金组合的总计股票资产、货币资产、债券资产的比例，特殊情况下基金组合里只有一个基金时，展现的内容和基金透视页面里资产分布内容一致；

行业归因指标：穿透基金组合的总计行业分布，特殊情况下基金组合里只有一个基金时，展现的内容和基金透视页面里行业分布内容一致；

绩效归因指标：基金组合的超额收益、特雷诺指数、詹森指数、信息比率和系统风险。

作为一种较优的实施方式，本发明实施例中，所述方法还包括：

对所述目标对象组合进行分析，获取第二分析结果；

根据所述第二分析结果对所述组合策略或所述组合模型进行优化调整，例如，通过诸如风险平价模型、Black-Litterman模型等资产配置模型对组合的权重进行最优化方式处理，以达到组合收益一定时，风险最小或以达到组合风险一定时，收益最大的最优化目标组合结果。

具体的，对目标对象组合进行分析包括但不限于对以下指标的分析：

组合成份分析指标：解构组合里按基金类型分类的基金名称和对应权重；

资产分布分析指标：解构按时间序列股票资产、货币资产、债券资产的比例；

组合业绩跟踪指标：跟踪组合的业绩表现，和滚动回测提供的信息保持一致。

图6是根据一示例性实施例示出的数据处理装置的结构示意图，参照图6所示，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述数据划分模块包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括组合获取模块，包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括第一优化模块，包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括第二优化模块，包括：

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的数据处理装置在触发数据处理业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，即该装置是基于该数据处理方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括如下步骤：

对所述若干个预测结果进行合并处理，获取回测结果。

2.根据权利要求1所述的数据处理方法，其特征在于，所述回测参数包括回测起止时间、回测区间、回测时间长度以及回滚时间长度，所述根据预设的回测参数将训练数据集划分为若干个训练子数据集，并根据所述回测参数将回测数据集划分若干个回测子数据集包括：

3.根据权利要求1或2所述的数据处理方法，其特征在于，所述目标对象组合的获取过程包括：

从候选对象中筛选符合第一筛选指标的对象，生成对象池；

4.根据权利要求3所述的数据处理方法，其特征在于，所述方法还包括组合策略的优化过程，包括：

对所述回测结果进行归因分析，获取第一分析结果；

根据所述第一分析结果对所述组合策略进行优化调整。

5.根据权利要求3所述的数据处理方法，其特征在于，所述方法还包括：

对所述目标对象组合进行分析，获取第二分析结果；

6.一种数据处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的数据处理装置，其特征在于，所述数据划分模块包括：

8.根据权利要求6或7所述的数据处理装置，其特征在于，所述装置还包括组合获取模块，包括：

9.根据权利要求8所述的数据处理装置，其特征在于，所述装置还包括第一优化模块，包括：

10.根据权利要求8所述的数据处理装置，其特征在于，所述装置还包括第二优化模块，包括：