CN112330462A

CN112330462A - 一种智能投顾方法

Info

Publication number: CN112330462A
Application number: CN202011222266.2A
Authority: CN
Inventors: 丁宇杰; 任天荣; 刘华玲
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-05

Abstract

本发明公开了一种智能投顾方法，包括：获取互联网金融历史平衡数据，并对获得的平衡数据进行特征组合，得到有用组合特征；使用有用组合特征的数据来训练模型，并将未训练的样本数据放入训练好的模型，输出样本数据的逾期概率；计算样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择；通过大数据获得用户个性化的风险偏好及其变化规律，并根据用户个性化的风险偏好结合投资标的定制个性化的资产配置方案；利用互联网对用户个性化的资产配置方案进行实时跟踪调整，实现投资期间的风险监控。本发明为投资者提供了从投资标的选择，到投资期间的风险监控，再到投资习惯评价以及专业的个性化投资组合推荐的一站式服务。

Description

一种智能投顾方法

技术领域

本发明涉及计算机仿真技术领域，尤其涉及一种智能投顾方法。

背景技术

随着金融市场不断深入发展，金融产品层次与交易策略、交易工具的日趋复杂，普通投资者学习成本越来越高，难以跟上市场发展步伐，导致专业投资顾问服务的需求日渐凸显。但是，受限于传统投顾服务的限制，如：百万资金起步、服务流程繁琐、服务费高昂、不能随时随地咨询、投顾水平良莠不齐等，现有技术尚无法最大程度满足普通投资者的投顾需求。

发明内容

针对上述现有技术的缺点，本发明的目的是提供一种能够准确、全面、有效地给客户提供投顾建议的智能投顾方法，不仅大大节约了投资者的时间成本，还可以在一定程度上帮助投资者避免非理性投资行为。

本发明实施例提供的一种智能投顾方法，包括：

获取互联网金融历史平衡数据，并对获得的平衡数据进行特征组合，得到有用组合特征；

使用有用组合特征的数据来训练模型，并将未训练的样本数据放入训练好的模型，输出样本数据的逾期概率；

计算样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择；

通过大数据获得用户个性化的风险偏好及其变化规律，并根据用户个性化的风险偏好结合投资标的定制个性化的资产配置方案；

利用互联网对用户个性化的资产配置方案进行实时跟踪调整，实现投资期间的风险监控。

进一步地，上述方法中，通过以下方式获取互联网金融历史平衡数据：通过网络平台API接口获取互联网金融历史平衡数据。

进一步地，上述方法中，所述平衡数据是指逾期数据与非逾期数据为同比例的数据。

进一步地，上述方法中，所述平衡数据通过欠采样方式使得数据平衡，具体步骤如下：

将不平衡数据分割为逾期数据集与非逾期数据集，其中不平衡数据是指逾期的数据少于非逾期的数据；

将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相同的数据集；

将逾期数据集中的数据与分割后的非逾期数据集中的数据进行合并，形成逾期数据与非逾期数据为同比例的平衡数据。

进一步地，上述方法中，所述对获得的平衡数据进行特征组合，是指通过Apriori关联规则算法对获得的平衡数据进行特征组合。

进一步地，上述方法中，所述通过Apriori关联规则算法对获得的平衡数据进行特征组合的方法如下：

将平衡数据根据是否逾期分为数据集D₁与数据集D₂，并分别求出各类数据集满足置信度与支持度的频繁模式集合Part₁与Part₂；

计算频繁模式集合Part₁与Part₂的交集Part_a和并集Part_b，并计算Part_a与Part_b的差集Part；

将满足差集Part内元素的所有数据特征作为一个特征进行组合。

进一步地，上述方法中，将随机森林算法作为识别算法进行训练，并使用有用组合特征的数据来训练模型。

进一步地，上述方法中，所述使用有用组合特征的数据训练模型后，还包括：通过逐步回归的方法筛选有用组合特征。

进一步地，上述方法中，所述通过逐步回归的方法筛选有用组合特征的方法如下：

将有用组合特征逐个引入随机森林算法模型，每引入一个特征均对其进行T检验，即检验该特征的系数是否等于零；

若新引入特征的系数等于零，则删除该有用组合特征，否则，将该特征留存并继续加入新的有用组合特征到模型中。

进一步地，上述方法中，所述计算样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择的方法如下：

通过核回归方法计算样本数据的期望收益，所述核回归公式如下：

其中，x为样本数据的逾期概率，xi、xj为已知历史数据的逾期概率，yi、yj为已知历史数据的期望收益，K(x，x_i)和K(x，x_j)为核函数；

计算样本数据的期望收益与样本数据的逾期概率之间的方差，并将该方差作为投资标的风险的衡量；

将样本数据的期望收益与样本数据的逾期概率之间的方差作为x轴，将样本数据的期望收益作为y轴，显示出投资标的的有效前沿。

与现有技术相比，本发明智能投顾方法为投资者提供了从投资标的选择，到投资期间的风险监控，再到投资习惯评价以及专业的个性化投资组合推荐的一站式服务，不仅大大节约了投资者的时间成本，还可以在一定程度上帮助投资者避免非理性投资行为。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种智能投顾方法流程示意图；

图2为本发明提供的通过欠采样方式使得数据平衡的方法流程示意图；

图3为本发明提供的通过Apriori关联规则算法对获得的平衡数据进行特征组合的方法流程示意图；

图4为本发明提供的通过逐步回归的方法筛选有用组合特征的方法流程示意图；

图5为本发明提供的确定投资标的的选择的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例主要通过Python语言开发，并利用爬虫技术与拍拍贷API接口进行网络平台(如：P2P)智能投顾的二次开发。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图1所示，本发明实施例公开了一种智能投顾方法，包括：

S101，获取互联网金融历史平衡数据，并对获得的平衡数据进行特征组合，得到有用组合特征；

S102，使用有用组合特征的数据来训练模型，并将未训练的样本数据放入训练好的模型，输出样本数据的逾期概率；

S103，样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择；

S104，通过大数据获得用户个性化的风险偏好及其变化规律，并根据用户个性化的风险偏好结合投资标的定制个性化的资产配置方案；

S105，利用互联网对用户个性化的资产配置方案进行实时跟踪调整，实现投资期间的风险监控。

本发明从不同纬度对标的风险进行详尽评估，针对个人投资者缺少专业的投资知识，对市场上琳琅满目的投资标的选择困难以及难以控制风险等问题，为投资者提供了从投资标的选择，到投资期间的风险监控，再到投资习惯评价以及专业的个性化投资组合推荐的一站式服务，不仅大大节约了投资者的时间成本，还可以在一定程度上帮助投资者避免非理性投资行为。

进一步地，如图2所示，所述平衡数据通过欠采样方式使得数据平衡，具体步骤如下：

S201，将不平衡数据分割为逾期数据集与非逾期数据集，其中不平衡数据是指逾期的数据少于非逾期的数据；

S202，将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相同的数据集；

S203，将逾期数据集中的数据与分割后的非逾期数据集中的数据进行合并，形成逾期数据与非逾期数据为同比例的平衡数据。

本发明实施中将不平衡数据先分割为逾期数据集与非逾期数据集；其次，将非逾期数据集中的数据进行等份分割成与逾期数据集数据量相近的数据集(即，若逾期数据有100条，而非逾期数据有10000条，则将非逾期数据分割为100个数据集，每个数据集中含100条数据)，然后将两者数据进行合并，形成新的平衡数据集。

本发明实施例每一个数据集都可以训练得到一个模型，从而可以得到多个模型。在对样本数据预测的过程中，多个模型都会对样本数据进行评估，最后通过求均值的方法得到样本的逾期概率。

进一步地，如图3所示，所述通过Apriori关联规则算法对获得的平衡数据进行特征组合的方法如下：

S301，将平衡数据根据是否逾期分为数据集D₁与数据集D₂，并分别求出各类数据集满足置信度与支持度的频繁模式集合Part₁与Part₂；

S302，计算频繁模式集合Part₁与Part₂的交集Part_a和并集Part_b，并计算Part_a与Part_b的差集Part；

S303，将满足差集Part内元素的所有数据特征作为一个特征进行组合。

本发明实施例将平衡数据两类样本集D₁与D₂分开，分别求出两类满足置信度与支持度的频繁模式集合Part₁与Part₂。对

r∈Part₁∪Part₂，如果

则r为满足要求的特征组合。

实施中，本发明将r内所有属性作为一个特征进行组合，并且仅当该组合内所有属性出现时，将其标识为1，其余标识为0。

具体地，所述支持度是指某一特征或特征组合在样本中出现的次数占所有样本数的比例。所述置信度是指在某一特征或特征组合出现的情况下，另一特征或特征组合出现的可能性。

实施中，本发明通过设定最低支持度和置信度，可以选出频繁组合出现的特征，即频繁模式。

进一步地，上述方法中，将随机森林算法作为识别算法进行训练，并使用有用组合特征的数据来训练模型。本发明实施例将Apriori关联规则算法与随机森林算法相结合，构造了新的模型。

进一步地，如图4所示，，所述通过逐步回归的方法筛选有用组合特征的方法如下：

S401，将有用组合特征逐个引入随机森林算法模型，每引入一个特征均对其进行T检验，即检验该特征的系数是否等于零；

S402，若新引入特征的系数等于零，则删除该有用组合特征，否则，将该特征留存并继续加入新的有用组合特征到模型中。

进一步地，如图5所示，所述计算样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择的方法如下：

S501，通过核回归方法计算样本数据的期望收益，所述核回归公式如下：

S502，计算样本数据的期望收益与样本数据的逾期概率之间的方差，并将该方差作为投资标的风险的衡量；

S503，将样本数据的期望收益与样本数据的逾期概率之间的方差作为x轴，将样本数据的期望收益作为y轴，显示出投资标的的有效前沿。

实施中，核回归方法是一种非参数回归的方法，不对原始的数据做任何假设。而核函数用于对离x不同距离的点赋予不同的权重(离x越近权重约大)。

本发明基于核回归的方法，针对投资者在网络平台行业进行投资时的困惑，构建了风险-收益指标，计算出网络平台投资的有效投资前沿，将其作为投资推荐的依据，给投资者提供了有效地投顾建议。

本发明实施例利用线上网络平台的数据集进行了验证与投资模拟，即利用训练好的模型预测线上网络平台的样本数据逾期与否，其准确率与AUC(Area Under Curve，ROC曲线下的面积)均得到显著提高，表明本发明智能投顾方法采用的Apriori关联规则算法与随机森林算法具有更强的识别能力。

同时，本发明实施例将上述算法作为欺诈识别的模型，如下表的混淆矩阵，本发明实施例利用线上P2P网络平台-拍拍贷的数据集进行了验证与投资模拟，其TP/(TP+TN+FP+FN)约为90％，表明其可识别出近90％的欺诈样本。

上表中，其中TP指实际是逾期样本预测也为逾期样本的样本数，TN指实际是逾期样本被预测为非逾期样本的样本数，FP指实际是非逾期样本被预测为逾期样本的样本数，FN指实际是非逾期样本预测为非逾期样本的样本数。

综上，本发明实施例主要用于对目前的网络平台投资者进行投资时标的选择的推荐。本发明针对个人投资者缺少专业的投资知识，对市场上琳琅满目的投资标的选择困难以及难以控制风险等问题，为投资者构建了风险-收益指标，计算出P2P投资的有效投资前沿，并将其作为投资推荐的依据，不仅大大节约了投资者的时间成本，还可以在一定程度上帮助投资者避免非理性投资行为。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能投顾方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于：通过以下方式获取互联网金融历史平衡数据：通过网络平台API接口获取互联网金融历史平衡数据。

3.根据权利要求1或2所述的方法，其特征在于：所述平衡数据是指逾期数据与非逾期数据为同比例的数据。

4.根据权利要求3所述的方法，其特征在于：所述平衡数据通过欠采样方式使得数据平衡，具体步骤如下：

5.根据权利要求1所述的方法，其特征在于：所述对获得的平衡数据进行特征组合，是指通过Apriori关联规则算法对获得的平衡数据进行特征组合。

6.根据权利要求5所述的方法，其特征在于：所述通过Apriori关联规则算法对获得的平衡数据进行特征组合的方法如下：

将平衡数据根据是否逾期分为D₁数据集与D₂数据集，并分别求出各类数据集满足置信度与支持度的频繁模式集合Part₁与Part₂；

7.根据权利要求1所述的方法，其特征在于：将随机森林算法作为识别算法进行训练，并使用有用组合特征的数据来训练模型。

8.根据权利要求1或7所述的方法，其特征在于：所述使用有用组合特征的数据训练模型后，还包括：通过逐步回归的方法筛选有用组合特征。

9.根据权利要求8所述的方法，其特征在于：所述通过逐步回归的方法筛选有用组合特征的方法如下：

10.根据权利要求1所述的方法，其特征在于：所述计算样本数据的逾期概率与样本数据的期望收益之间的方差，从而确定投资标的的选择的方法如下：

通过核回归公式计算样本数据的期望收益，所述核回归公式如下：