CN110796485A

CN110796485A - 一种提高预测模型的预测精度的方法及装置

Info

Publication number: CN110796485A
Application number: CN201910975598.9A
Authority: CN
Inventors: 赵毅仁; 张俊
Original assignee: Shanghai Lake Information Technology Co Ltd
Current assignee: Shanghai Lake Information Technology Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-02-14

Abstract

本发明公开了一种提高预测模型的预测精度的方法及装置，该方法包括：基于随机森林算法使用训练数据训练获取对应的多棵决策树；计算待检测的样本点在多棵决策树中的每颗决策树的高度的平均值；根据平均值计算待检测的样本点的异常概率；将异常概率大于预设阈值的待检测的样本点去除，使用剩余的样本点训练预测模型，获取最终预测模型。本发明通过使用随机森林算法剔除掉样本数据中异常值，然后使用剔除掉异常值的样本数据训练预测模型，提高模型的泛化能力，最终提升预测模型输出的精确度以及可靠性。

Description

一种提高预测模型的预测精度的方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种提高预测模型的预测精度的方法及装置。

背景技术

用户在金融等平台注册办理相关业务之后，有些用户可能会自发的进行后续贷款申请等流程，但更多的用户会选择不进行后续操作，成为沉淀用户。很多金融机构为了提升业务转化率，会有人工专员进行电话营销，目的是为了提高沉淀用户的转化率。但是若是对所有用户都进行人工专员进行电话营销，需要耗费大量的人力及时间。为了提高效率，目前已经基于历史数据开发了一些营销模型，这些模型的目的是判断用户自动转化的概率。常用的模型算法是逻辑回归算法，依据模型输出结果，人工营销专员可以只针对自动转化率低的用户进行营销，极大的提升在这一环节沉淀用户的转化率。

目前使用较广泛的预测模型包括梯度提升决策树(Gradient Boosting DecisionTree，简称GBDT)模型等，该类算法的拟合能力大大强于逻辑回归算法，模型有着更高的精度，但是这类模型很容易受到异常值的影响，导致模型输出结果的准确度以及可靠性等下降。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种提高预测模型的预测精度的方法，以克服现有技术中模型受到异常值的影响，导致模型输出结果的准确度以及可靠性等下降等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

一方面，提供了一种提高预测模型的预测精度的方法，该方法包括如下步骤：

基于随机森林算法使用训练数据训练获取对应的多棵决策树；

计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值；

根据所述平均值计算所述待检测的样本点的异常概率；

将异常概率大于预设阈值的待检测的样本点去除，使用剩余的样本点训练预测模型，获取最终预测模型。

进一步的，所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括：

获取训练数据，对所述训练数据进行有放回的采样，获取采样数据；

使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。

进一步的，所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括：

随机选择所述样本的特征，基于选中的特征按照预设的阈值进行决策树的分裂，直到所述决策树的层数达到限定阈值或特征数只剩一个。

进一步的，所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括：

遍历每棵决策树，获取待检测的样本点最终落在每棵决策树的层数，所述层数即为所述待检测的样本点在所述每棵决策树的高度；

根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。

进一步的，所述根据所述平均值计算所述待检测的样本点的异常概率包括：

对所述平均值进行归一化处理，获取所述待检测的样本点的异常概率。

另一方面，提供了一种提高预测模型的预测精度的装置，所述装置包括：

决策树训练模块，用于基于随机森林算法使用训练数据训练获取对应的多棵决策树；

高度计算模块，用于计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值；

异常计算模块，用于根据所述平均值计算所述待检测的样本点的异常概率；

模型训练模块，用于将异常概率大于预设阈值的待检测的样本点去除，使用剩余的样本点训练预测模型，获取最终预测模型。

进一步的，所述决策树训练模块包括：

数据获取单元，获取训练数据，对所述训练数据进行有放回的采样，获取采样数据；

决策树训练单元，用于使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。

进一步的，所述决策树训练单元具体用于：

进一步的，所述高度计算模块包括：

高度计算单元，遍历每棵决策树，获取待检测的样本点最终落在每棵决策树的层数，所述层数即为所述待检测的样本点在所述每棵决策树的高度；

平均值计算单元，用于根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。

进一步的，所述异常计算模块包括：

归一化处理单元，用于对所述平均值进行归一化处理，获取所述待检测的样本点的异常概率。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的提高预测模型的预测精度的方法及装置，首先使用随机森林算法剔除掉样本数据中异常值，然后使用剔除掉异常值的样本数据训练预测模型，提高模型的泛化能力，最终提升预测模型输出的精确度以及可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的提高预测模型的预测精度的方法的流程图；

图2是根据一示例性实施例示出的基于随机森林算法使用训练数据训练获取对应的多棵决策树的流程图；

图3是根据一示例性实施例示出的计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值的流程图；

图4是根据一示例性实施例示出的构建出的决策树的示意图；

图5是根据一示例性实施例示出的提高预测模型的预测精度的装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的提高预测模型的预测精度的方法的流程图，参照图1所示，该方法包括如下步骤：

S1：基于随机森林算法使用训练数据训练获取对应的多棵决策树。

具体的，本发明实施例中，采用基于随机森林算法训练获取多棵决策树来剔除样本数据中的异常值。这里的样本数据是指用于后续训练预测模型的数据。随机森林是一个包含多个决策树的分类器。分类器就是指给定一个样本的数据，判定这个样本属于哪个类别的算法。例如在股票涨跌预测中，我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的，那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。

在决策树的训练过程中，需要一次次的将训练数据集分裂成两个子数据集，这个过程就叫做分裂。在分类问题中，输入到分类器中的数据叫做特征。以上述的股票涨跌预测问题为例，前一天的交易量和收盘价均为特征。

S2：计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。

具体的，样本点在每颗决策树中的高度即为样本点最终落在每个决策树的层数。样本点离根节点越近，得到的高度值会越小，样本点越靠近底层，得到的高度值会越大，根节点的高度为0。

S3：根据所述平均值计算所述待检测的样本点的异常概率。

具体的，根据上述步骤获取到的待检测的样本点落在多棵决策树中的每颗决策树的高度的平均值计算待检测的样本点的异常概率。

S4：将异常概率大于预设阈值的待检测的样本点去除，使用剩余的样本点训练预测模型，获取最终预测模型。

具体的，本发明实施例中，会预先设置一个异常概率阈值，如0.9。这里需要说明的是，该异常概率阈值可以根据实际需求进行设置，这里不做限制。若计算得到异常概率大于上述异常概率阈值(如大于0.9)，则说明该样本点的异常概率越大，应该将其剔除，若计算得到异常概率小于等于上述异常概率阈值(如小于等于0.9)，则说明该样本点的异常概率不大，可以将其保留，作为后续训练预测模型的训练数据。将异常概率大于预设阈值的所有待检测的样本点去除，使用剩余的样本点训练预测模型，获取最终预测模型。

图2是根据一示例性实施例示出的基于随机森林算法使用训练数据训练获取对应的多棵决策树的流程图，参照图2所示，作为一种较优的实施方式，本发明实施例中，所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括：

S101：获取训练数据，对所述训练数据进行有放回的采样，获取采样数据。

具体的，首先，从原始的训练数据集中采取有放回的采样，获取采样数据，构造子数据集，子数据集的数据量和原始的训练数据集的数据量是相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。

S102：使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树。

具体的，利用采样数据来构建对应的决策树。具体构建时，随机选取采样数据中的每个样本的特征进行划分，然后再基于选中的特征随机选择划分阈值，进行决策树的分裂。现有技术中，随机森林中的每棵决策树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。而在本发明实施例中，是采用的采样数据中的每个样本的全部特征来构建单个的决策树。这样不仅能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能，而且能够保证每棵决策树提取到的特征更全面，避免出现某个特征出现异常，但是决策树不包括该特征的情况发生。

作为一种较优的实施方式，本发明实施例中，所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括：

具体的，这里对预设的阈值不做限定，可以根据实际需求进行设置，也可以随机选取。分裂结束的条件可以设置为决策树的层数达到限定阈值，也可以设置为样本的特征数只剩一个。

图3是根据一示例性实施例示出的计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值的流程图，参照图3所示，作为一种较优的实施方式，本发明实施例中，所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括：

S201：遍历每棵决策树，获取待检测的样本点最终落在每棵决策树的层数，所述层数即为所述待检测的样本点在所述每棵决策树的高度。

具体的，计算待检测样本点在每棵决策树中的高度时，首先需要遍历每一棵决策树，得到待检测样本点(假设为x)最终落在每棵决策树中的层数，记为HT(x)，这个HT(x)即表示待检测样本点在该棵决策树中的高度。

图4是根据一示例性实施例示出的构建出的决策树的示意图，参照图4所示，该决策树深度共有3层，特征包括“拥有房产”、“已婚”、“年收入”，其中“拥有房产”为根节点，80(这里可以指80万人民币等)为年收入的划分阈值。若是待检测样本点最终落在A处，则该待检测样本点在该棵决策树中的高度为2，若是待检测样本点最终落在B处，则该待检测样本点在该棵决策树中的高度为3。

S202：根据所述待检测的样本点在所述每棵决策树的高度计算获取所述待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值。

具体的，本发明实施例中，选取的是待检测的样本点在多棵决策树中的每颗决策树的高度的平均值。实际应用时，用户也可以根据实际需求，对获取到的待检测的样本点在每棵决策树中的高度设置权重，然后根据权重计算得到一个加权值。

作为一种较优的实施方式，本发明实施例中，所述根据所述平均值计算所述待检测的样本点的异常概率包括：

具体的，为了方便设置阈值来判断哪些待检测样本点为异常点，本发明实施例中，对异常概率进行归一化处理，具体实施时，对上述步骤获取到的平均值进行归一化处理。归一化处理后的取值范围为[0，1]，越接近1，则该点为异常点的概率也越大。

作为一种较优的实施方式，本发明实施例中，对平均值进行归一化处理时采用如下公式：

其中，

ε是欧拉常数。x为样本点，m为样本的个数，h(x)为上述步骤计算出来的每棵树的高度平均值，s(x，m)取值范围为[0，1]，s(x，m)的值越接近1，则该点为异常点的概率也越大。

图5是根据一示例性实施例示出的提高预测模型的预测精度的装置的结构示意图，参照图5所示，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述决策树训练模块包括：

作为一种较优的实施方式，本发明实施例中，所述决策树训练单元具体用于：

作为一种较优的实施方式，本发明实施例中，所述高度计算模块包括：

作为一种较优的实施方式，本发明实施例中，所述异常计算模块包括：

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的提高预测模型的预测精度的装置在触发提高模预测精度业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的提高预测模型的预测精度的装置与提高预测模型的预测精度的方法实施例属于同一构思，即该装置是基于该提高预测模型的预测精度的方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高预测模型的预测精度的方法，其特征在于，所述方法包括如下步骤：

根据所述平均值计算所述待检测的样本点的异常概率；

2.根据权利要求1所述的提高预测模型的预测精度的方法，其特征在于，所述基于随机森林算法使用训练数据训练获取对应的多棵决策树包括：

3.根据权利要求2所述的提高预测模型的预测精度的方法，其特征在于，所述使用采样数据中的每个样本的全部特征基于随机森林算法构建对应的决策树包括：

4.根据权利要求1至3任一所述的提高预测模型的预测精度的方法，其特征在于，所述计算待检测的样本点在所述多棵决策树中的每颗决策树的高度的平均值包括：

5.根据权利要求1至3任一所述的提高预测模型的预测精度的方法，其特征在于，所述根据所述平均值计算所述待检测的样本点的异常概率包括：

6.一种提高预测模型的预测精度的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的提高预测模型的预测精度的装置，其特征在于，所述决策树训练模块包括：

8.根据权利要求7所述的提高预测模型的预测精度的装置，其特征在于，所述决策树训练单元具体用于：

9.根据权利要求6至8任一所述的提高预测模型的预测精度的装置，其特征在于，所述高度计算模块包括：

10.根据权利要求1至3任一所述的提高预测模型的预测精度的装置，其特征在于，所述异常计算模块包括：