CN108733631A

CN108733631A - 一种数据评估方法、装置、终端设备及存储介质

Info

Publication number: CN108733631A
Application number: CN201810309805.2A
Authority: CN
Inventors: 黄严汉; 曾凡刚
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-11-02

Abstract

本发明公开了一种数据评估方法、装置、终端设备及存储介质，所述方法包括：通过对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量，进而对按照特征值大小排序的名义变量进行独热编码，将该名义变量转化为数字化变量，然后对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型，采用梯度提升决策树算法来获取组合特征，提升了样本数据组合特征预测的准确率，也提高组合特征获取的效率，进而将组合特征作为二分类逻辑回归模型的输入特征进行预设事件结果预测，避免了人工寻找特征的繁琐和不确定性，提升了样本数据针对预设事件结果预测准确率，同时也提高了样本数据评估的准确率与效率。

Description

一种数据评估方法、装置、终端设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据评估方法、装置、终端设备及存储介质。

背景技术

现实生活中，我们需要对很多事物进行预测，比如：未来房价的走势、天气的变化等，在对这些事物进行预测时，往往需要采集大量的样本数据，然后通过人工分析，找到这些样本数据中与预设事件相关的必要特征，并对每个必要特征赋予一定的权重值，进而根据这些人工赋予权重的特征的特征值来计算预设事件的各种结果的概率，从而来评估样本数据对预设事件的影响。

但是，随着科学技术的快速发展，样本数据越来越大，使用人工的方式去分析这些数据来选取必要特征，需要耗费大量的时间，使得效率低下，同时，人为的对这些特征赋予权重值，会对预测结果产生很大影响，导致样本数据针对预设事件的预测结果准确率低。

发明内容

本发明实施例提供一种数据评估方法、装置、终端设备及存储介质，以解决使用人工的方式去对数据进行评估导致的效率较低、且准确率不高的问题。

第一方面，本发明实施例提供一种数据评估方法，包括：

对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量；

对所述名义变量进行独热编码，将所述名义变量转化为数字化变量；

对包含所述数字化变量的所述样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型；

将所述决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测。

第二方面，本发明实施例提供一种数据评估装置，包括：

样本变量预处理模块，用于对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量；

数字化变量获取模块，用于对所述名义变量进行独热编码，将所述名义变量转化为数字化变量；

决策树模型生成模块，用于对包含所述数字化变量的所述样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型；

事件结果预测模块，用于将所述决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测。

第三方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述数据评估方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述数据评估方法的步骤。

本发明实施例提供的数据评估方法、装置、终端设备及存储介质，通过对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量，进而对按照特征值大小排序的名义变量进行独热编码，将该名义变量转化为数字化变量，然后对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型，采用梯度提升决策树算法来获取组合特征的方式，提升了样本数据组合特征预测的准确率，也提高组合特征获取的效率，进而将组合特征作为二分类逻辑回归模型的输入特征进行预设事件结果预测，避免了人工寻找特征的繁琐和不确定性，提升了样本数据针对预设事件结果预测准确率，同时也提高了样本数据评估的准确率与效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的数据评估方法的流程图；

图2是本发明实施例1提供的数据评估方法中回归决策树的简单示例图；

图3是本发明实施例1提供的数据评估方法中步骤S2的实现流程图；

图4是本发明实施例1提供的数据评估方法中步骤S3的实现流程图；

图5是本发明实施例1提供的数据评估方法中步骤S33的实现流程图；

图6是本发明实施例1中提供的数据评估方法中步骤S4的实现流程图；

图7是本发明实施例1中提供的数据评估方法中决策树模型的简单示意图；

图8是本发明实施例2中提供的数据评估装置的示意图；

图9是本发明实施例4中提供的终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，图1示出本实施例提供的数据评估方法的实现流程。详述如下：

S1：对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量。

具体地，样本数据集中的样本变量为样本数据的属性特征，例如，年龄、收入和性别等，样本变量包括连续变量和离散变量，根据样本变量的类型，预处理的具体方式可参照下述举例说明，针对连续变量，按照预设的拟分裂点进行拟分裂，计算拟分裂前与拟分裂后信息增益的差值，若该差值超过预设的阈值，则认为该拟分裂点为分裂点，获取所有分裂点，并找出信息增益最大的分裂点作为此次分裂的目标分裂点进行此次分裂，按此方法经过多次分裂，当达到预设分裂次数，则停止分裂，得到离散化的变量，即离散变量。

其中，连续变量是指在一定区间内可以任意取值的变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值，例如，生产零件的规格尺寸，人体测量的身高、体重、胸围等为连续变量,其数值只能用测量或计量的方法取得。

其中，离散变量指变量值可以按一定顺序一一列举，通常以整数位取值的变量。如职工人数、工厂数、机器台数等，离散变量的数值用计数的方法来获取。

例如，在一具体实施方式中，某气象站对一区域进行气温监控，在上午8：00-9：00这一个小时内每一分钟对该区域进行一次气温测量，得到60个测量值分别记为：t₁,t₂,t₃,...,t₅₉,t₆₀，容易理解地，该测量值为连续变量，如果要获取该小时内的气温变化大致情况，则需要获取上述测量值，并在每两个测量值之间设置拟分裂点，分别记为：n₁,n₂,n₃,...,n₅₈,n₅₉，其中，n₁为t₁和t₂之间的分裂点，n₂为t₂和t₃之间的分裂点，按照上述信息增益的方法，最终得到5个收敛区间，分别为：[t₁,t₁₁]、[t₁₂,t₂₃]、[t₂₄,t₂₆]、[t₂₇,t₄₅]和[t₄₆,t₆₀]，这5个收敛区间对应的收敛值分别为13℃、16℃、14℃、17℃和18℃，将这5个收敛值作为该小时内气温变化的参考值，即离散变量，由这5个离散变量可以明显看出这一个小时内气温的变化情况，而无需去查看具体每分钟的气温的测量值。

进一步地，使用分箱的方式对离散变量进行降低维度，分箱方式包括但不限于：等频分箱和等宽分箱，将分箱后的每一箱离散变量作为一个名义变量，并根据名义变量的特征值由小到大对名义变量进行排序。

其中，名义变量属于分类变量，其变量值是定性的，即在现有的前提或条件下确定的数值，表现为互不相容的类别或属性。

在本发明实施例中，通过采用信息增益的方式将连续变量转换成离散变量，使得模型会更稳定，增强了异常数据有更强的鲁棒性，同时离散化后的变量可以进行特征交叉，由M+N个变量变为M×N个变量，进一步引入非线性，提升模型的表达能力，降低了过拟合的风险，进一步地，使用分箱的方式来对降低离散变量的维度，并将降低维度后的离散变量转化为名义变量，使得名义变量的分布更为精简合理，提升了后续计算的效率。

S2：对按照特征值大小排序的名义变量进行独热编码，将该名义变量转化为数字化变量。

在本发明实施例中，独热编码即one-hot编码，又称为一位有效编码，其原理是使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候只有一位有效。

具体地，对于每一个名义变量，如果它有m个不同的特征值，按照one-hot编码即得到m个二元特征。并且，这些特征值互斥，每次只有一个特征值被激活，被激活的特征值设置为1，其余不被激活的特征值则置为常数0，最终得到名义变量的每个特征值对应的基础数字编码。

one-hot编码的方式能使原始状态的名义变量数据变成稀疏数据，能更好地解决数据挖掘对属性特征数据样本分类的问题，以及在一定程度上起到了扩充特征的作用，其中，名义变量数据指名义变量及其特征值的取值范围。

例如，当名义变量为“性别”时，其特征值的取值范围包括“男”和“女”两个取值，即Gender＝["male"，"female"]，则性别为“男”对应的数字化编码为Gender＝[1,0]，性别为女对应的数字挂编码为Gender＝[0,1]。

若名义变量有两个以上的特征值时，也是采用同样的取值方式，当其中一个为有效值时则设置为1，其余特征值取0，例如名义变量Area＝["Europe"，"US"，"Asia"]，当Area为Europe时，其对应的数字化变量为Area＝[1，0，0]。

S3：对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型。

具体地，对包含数字化变量的样本数据集应用梯度提升决策树算法来对其进行建模，通过构建的决策树模型来对数字化变量的样本数据的特征进行预测，进而得到多个分支，每个分支包含多个相同特征的样本数据。

其中，梯度提升决策树(Gradient Boosting Decision Tree，GBDT)算法是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来作为最终预测结果。

其中，梯度提升决策树中的决策树属于回归树，在这些树的每个节点都会得到该节点对应的分类特征的预测值，对于未确定具体数值的分类特征，使用该分类特征的平均值作为该分类特征的预测值。

例如，在一具体实施方式中，请参阅图2，图2示出了使用梯度提升决策树算法得到的一个具体的回归决策树，该回归决策树按照年龄将样本数据分成了未超过30岁和超过30岁这两个节点，进而按性别将这两个节点进行划分，得到了4个节点，分别为节点1、节点2、节点3和节点4，假设按照年龄切分，得到未超过30岁的这个节点的所有样本数据的平均年龄为21，则节点1中样本数据的预测特征为年龄为21岁的男人。

S4：将决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测。

具体地，在生成决策树模型后，针对每个决策树，将不同路径包含的特征的特征值进行特征组合，得到组合特征，并将不同树的相同组合特征的值进行累加，将最终的累加值作为该组合特征的特征值，并将该特征值作为二分类逻辑回归(Logistic Regression，LR)模型中的一个自变量，基于该二分类逻辑回归模型，计算该自变量在预设事件中的发生概率，进而根据预设的概率阈值来预测该事件是否成立。

在图1对应的实施例中，本发明实施例提供的数据评估方法与现有技术相比具有如下优点：通过对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量，进而对按照特征值大小排序的名义变量进行独热编码，将该名义变量转化为数字化变量，然后对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型，采用梯度提升决策树算法来获取组合特征的方式，提升了样本数据组合特征预测的准确率，也提高组合特征获取的效率，进而将组合特征作为二分类逻辑回归模型的输入特征进行预设事件结果预测，避免了人工寻找特征的繁琐和不确定性，提升了样本数据针对预设事件结果预测的准确率，同时也提高了样本数据评估的准确率与效率。

接下来，在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S2中所提及的对按照特征值大小排序的名义变量进行独热编码，将该名义变量转化为数字化变量的具体实现方法进行详细说明。

请参阅图3，图3示出了本发明实施例提供的步骤S2的具体实现流程，详述如下：

S21：针对名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值，其中，A_ij为名义变量A_i的特征值，k为正整数；

具体地，根据按照特征值大小排序的名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值。

例如，有三个名义变量分别为“性别”、“地区”和“浏览器”，其中，“性别”的取值范围为“male”和“female”两个取值，“地区”的取值范围为“Europe”、“US”和“Asia”三个取值，以及“浏览器”的取值范围为“Firefox”、“Chrome”、“Safari”和“Internet Explorer”四个取值，即Gender＝["male"，"female"]、Area＝["Europe"，"US"，"Asia"]、Browser＝["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]。

S22：分别对特征值A_i1,A_i2,...,A_ik进行编码，得到特征值A_ij对应的基础数字编码为a_ij＝a_i1a_i2a_i3...a_ij...a_ik，其中，a_ij为A_ij对应的基础数字编码，a_ij＝1，a_im＝0，m∈[1,j-1]∪[j+1,k]，i∈[1,n]，j∈[1,k]，n和k为正整数。

具体地，按照步骤S2所述的独热编码的方式分别对A_i1,A_i2,...,A_ik进行编码，得到a_ij＝1，a_im＝0，即名义变量的其中一个特征值为有效时则设置为1，其余特征值置为0，最终得到各个特征值对应的基础数字编码。

继续引用步骤S21的例子，名义变量Gender的两个特征值“male”和“female”对应的基础数字编码分别为[1，0]和[0，1]，名义变量Area的三个特征值“Europe”、“US”和“Asia”对应的基础数字编码分别为[1，0，0]、[0，1，0]和[0，0，1]，名义变量Browser的四个特征值“Firefox”、“Chrome”、“Safari”和“Internet Explorer”对应的基础数字编码分别为[1，0，0，0]、[0，1，0，0]、[0，0，1，0]和[0，0，0，1]。

S23：将名义变量的特征值转化为该特征值对应的基础数字编码，得到数字化变量。

具体地，按照步骤S22的定义，对样本数据集中每个样本数据，将其名义变量的特征值转化为该特征值对应的基础数字编码，得到名义变量对应的数字化变量。

继续引用步骤S22的例子，若样本数据的名义变量的特征值为[“male”，“US”，“Internet Explorer”]，则转化后得到的数字化变量分别为：[1，0]，[0，1，0]和[0，0，0，1]。因此，该样本数据完整的特征数字化结果为：[1，0，0，1，0，0，0，0，1]。

在图3对应的实施例中，针对每个名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值，分别对特征值A_i1,A_i2,...,A_ik进行编码，得到特征值A_ij对应的基础数字编码为a_ij＝a_i1a_i2a_i3...a_ij...a_ik，由于不同名义变量的特征值取值方式和取值范围不同，会影响模型的训练效果，而通过独热编码对不同名义变量的特征值采用统一编码方式，能使原始状态的特征值变成稀疏数据，避免了在模型构建过程中由于不同特征值的取值方式不同对模型产生负面影响，从而有效提高模型训练效果，提高模型准确性。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S3中所提及的对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型的具体实现方法进行详细说明。

请参阅图4，图4示出了本发明实施例提供的步骤S3的具体实现流程，详述如下：

S31：基于Spark分布式计算框架，对样本数据集中的数字化样本采用分类回归树算法，生成原始决策树。

在本发明实施例中，分类回归树(Classification And Regression Tree，CART)算法又称为最小二乘回归树，CART算法考虑到每个节点都有成为叶子节点的可能，对每个节点都分配类别。分配类别的方法可以用当前节点中出现最多的类别，也可以参考当前节点的分类错误或者其他更复杂的方法，是采用一种基于二分递归分割的方式，该算法总是将当前样本集分割为两个子样本集，使得生成的决策树的每个叶子结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树，CART算法适用于样本特征的取值为是或非的场景。

其中，分类回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。在分枝时穷举每一个特征对应的数字化变量值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化平方误差作为切分误差，也就是被预测出错的人数越多，错的越离谱，切分误差就越大，通过最小化平方误差作为切分误差能够找到最可靠的分枝依据。若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

具体地，将样本数据集中的样本数据按照步骤S2得到的数字化变量进行转化后，得到数字化样本。对数字化样本采用CART算法生成原始决策树的具体流程包括步骤a)至步骤d)，详述如下：

a)针对某一分类特征，在样本数据集中的任意两个数字化样本之间均预设一个拟切分点，使用这些拟切分点分别对这些数字化样本进行拟切分，针对每一次拟切分，在切分后得到两个区域，分别计算两个区域数字化样本对应的特征的数字化变量的偏差平方和，并把这两个偏差平方和之和作为切分误差。

具体地，基于Spark分布式计算框架，按照如下公式并行计算每个拟切分点的切分误差：

其中，S_T为切分误差，S_L为在切分点出切分后的左边区域的偏差平方和，S_R为在切分点出切分后的右边区域的偏差平方和，x_i为左边区域的任一样本数据的数字化变量值，l为左边区域样本数据总个数，为左边区域的样本数据的数字化变量的平均值，x_j为右边区域的任一样本该特征的数字化变量值，n为两个区域样本数据总个数，为右边区域的样本数据的该特征对应的数字化变量值的平均值。

其中，分类特征是指数字化样本每次进行切分所使用的特征属性，以图2中所示的决策树为例，该决策树在分裂时一共使用了三个分类特征，依次为：年龄、性别和学历，在第一次切分时使用年龄作为分类特征进行切分，在得到两个叶子节点后，在第二次切分的时候，针对这两个叶子节点，使用性别作为分类特征，继续对这两个叶子节点进行切分。

可以理解地，若数字化样本的总数为n，则按上述方法，预设的拟切分点为n-1个，所得到的对应的切分误差也有n-1个。

例如，在一具体实施方式中，选择的某一项特征为年龄，一共获取到6个样本，这些样本年龄特征的数字化变量值分别为：，a₁＝12，a₂＝16，a₃＝17，a₄＝23，a₅＝25，a₆＝43，在a₁和a₂、a₂和a₃、a₃和a₄、a₄和a₅、a₅和a₆之间均设置一个拟切分点，得到5个拟切分点，使用每个拟切分点分别将该样本切成两个区域，按照上述计算方式计算其切分误差，以a₂和a₃之间的拟切分点P为例，计算出P点左边的平均值为14，右边的平均值为27，进而按照可计算出左边区域的偏差平方和S_L为8，右边区域的偏差平方和S_R为376，因而求得其切分误差为384。

值得说明的是，拟切分只是针对每个拟切分点来模拟计算切分前和切分后样本的切分误差，而并未进行真实切分。

b)获取最小切分误差对应的拟切分点，将该拟切分点作为真实切分点对数字化样本进行真实切分，将数字化样本以此切分点分配到两个区域之中，将这两个区域作为两个当前叶子节点。

以步骤a)中的a₁至a₆这6个样本为例，根据步骤a)中的公式(1)，计算出a₁和a₂、a₂和a₃、a₃和a₄、a₄和a₅、a₅和a₆之间的5个拟切分点对应的切分误差分别为：472.8、384、256.67、224和72.24，容易理解地，切分误差最小值为72.24，其对应的拟切分点为a₅和a₆之间的拟切分点，将该拟切分点作为真实切分点，将该6个样本数据以年龄特征为基础，切分成了(a₁，a₂，a₃，a₄，a₅)和(a₆)这两个区域，进而将这两个区域作为两个当前叶子节点。

值得说明的是，当前叶子节点中的数字化变量的平均值将作为样本数据关于该特征的估计值。

c)若当前叶子节点总数小于预设阈值，选择数字化样本的一项新的特征，针对每个当前叶子节点，跳转到步骤a)进行切分。

具体地，在每次进行叶子节点切分时，会统计叶子节点总数，若叶子节点总数小于预设阈值，则选择一个新的特征，针对步骤b)中生成的叶子节点使用步骤a)和步骤b)的方法进行切分。

以步骤b)中的a₁至a₆这6个数字化样本为例，将按年龄特征进行切分得到的一个叶子节点(a₁，a₂，a₃，a₄，a₅)作为一个新的样本数据，继续按照身高这一新的特征进行切分。

值得说明的是，若某个叶子节点只有一个样本数据，则该叶子节点不参与新的特征切分，例如，步骤b)中年龄为特征对6个数字化样本进行切分后，其中一个叶子节点包含的数字化样本只有a₆，此时在使用新特征进行叶子节点切分的时候，无需对该叶子节点进行继续切分。

d)若当前叶子节点总数达到预设阈值，则认为原始决策树生成结束。

具体地，若当前叶子节点总数达到预设阈值，则认为该回归树已经生成完成，即停止继续对当前叶子节点的切分。

S32：将原始决策树放入决策树模型中，并将该原始决策树作为当前决策树。

具体地，在原始决策树的生成结束后，需要将该原始决策树放入到预设的决策树模型中，决策树模型可以包含多棵决策树。

同时，将原始决策树作为当前决策树，以便进行下一轮决策树拟合。

S33：基于样本数据集，计算当前决策树的残差向量。

具体地，在梯度提升决策树算法中，采用梯度提升的作法来构造弱分类器，在每次迭代的时候，通过使用损失函数来计算当前决策树中数字化样本在每个分类特征上的损失值，进而将该损失值作为下一棵树的预测值来拟合生成新的决策树，该损失值即为残差向量的绝对值。

其中，损失函数包括但不限于：0-1损失函数(0-1Loss Function)、平方损失函数(Quadratic Loss Function)、绝对值损失函数(Absolute Loss Function)和对数损失函数(Logarithmic Loss Function)等。

优选地，本发明采用的损失函数为对数损失函数，该损失函数采用了极大似然估计的方法。

S34：依据当前决策树的残差向量拟合新的决策树，并将该新的决策树放入决策树模型中。

具体地，使用数字化样本的分类特征对应的残差向量作为新的决策树在该分类特征上的预测值，按照步骤S31进行新的决策树的拟合，使得新的决策树对当前决策树作进一步的完善，提高了决策树模型对于样本数据的特征描述的准确率。

S35：若决策树模型中决策树的总数低于预设阈值，则将新的决策树作为当前决策树，返回到步骤S33继续执行。

具体地，当新的决策树加入到决策时模型中时，统计决策树模型中的决策树总数，若决策树总数小于预设决策树数量阈值，则认为决策树模型未构建完成，返回步骤S33继续执行，通过计算当前决策树的残差向量来继续拟合新的决策树。

S36：若决策树模型中决策树的总数达到预设阈值，则停止拟合新的决策树。

具体地，当新的决策树加入到决策时模型中时，统计到决策树总数达到预设决策树数量阈值，则认为决策树模型构建完成，停止对新的决策树的拟合，并将此时得到的决策树模型作为最终的决策树模型。

在图4对应的实施例中，基于Spark分布式计算框架，通过CART算法生成原始决策树，将原始决策树放入决策树模型中，并将该原始决策树作为当前决策树，进而计算当前决策树的残差向量，根据当前决策树的残差向量拟合新的决策树，并将该新的决策树放入决策树模型中，如此循环拟合新的决策树，直到决策树模型中决策树的总数达到预设阈值，则停止拟合新的决策树，整个过程采用梯度提升决策树算法，使得每一棵新的决策树都是对当前决策树的拟合，逐步减少了决策树模型的误差，提升了样本数据的分类特征预测准确率，同时，采用Spark分布式计算框架，提高了样本数据的处理速度，从而有效提高决策树模型的构建效率。

在图4对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S34中所提及的基于样本数据集，计算当前决策树的残差向量的具体实现方法进行详细说明。

请参阅图5，图5示出了本发明实施例提供的步骤S33的具体实现流程，详述如下：

S331：针对每个数字化样本x，按照如下公式计算该数字化样本x在第k个分类特征上的概率p_k(x)的对数损失函数：

其中，F_k(x)为数字化样本x在第k个分类特征上的估计值，k∈[1,K]，K为预设的分类特征的个数，y_k为数字化样本x在第k个分类特征上的分类标识，当样本x属于第k个分类特征时，y_k＝1，否则y_k＝0。

具体地，由步骤S31可知，数字化样本在任一分类特征上的估计值为对该分类特征进行分类后的叶子节点的平均值，每个分类特征均被分成两类，若数字化样本没有被分在该类别上，则该类别的分类标识记为0，针对每一个数字化样本，通过使用对数损失函数计算该数字化样本在每个分类特征上的损失情况。p_k(x)表示当前模型下数字化样本x的分类特征预测正确的概率，这个概率越大，样本和目标值越接近，损失越小。

值得说明的是，逻辑回归并没有极大化似然函数求极值，而是基于极大似然估计的方法，推导出最小化负的似然函数，即对数损失函数。

S332：对对数损失函数进行一阶求导，得到该对数损失函数的负梯度，将负梯度作为当前决策树的残差向量。

具体地，对对数损失函数进行一阶求导得到该对数损失函数的负梯度，即通过找出使得对数损失函数最小的值，使得对数损失函数最小，即尽可以的减少损失，使得样本的该特征描述正确的概率最大，将此时求导得到的对数损失函数的负梯度作为当前决策树的残差向量，来对新的决策树进行拟合。

在图5对应的实施例中，通过计算数字化样本在所有分类特征的概率，并获取该概率的对数损失函数的极值来使得该概率最大，将该极值作为残差向量来拟合新的决策树，使得每次进行新的决策树拟合，都对当前决策树进行补充和完善，提升了样本数据的分类特征预测的准确率。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S4中所提及的将决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测的具体实现方法进行详细说明。

请参阅图6，图6示出了本发明实施例提供的步骤S4的具体实现流程，详述如下：

S41：将决策树模型中的每棵决策树的路径包含的特征作为自变量，输入到二分类逻辑回归模型，计算该自变量的发生概率。

具体地，在生成决策树模型后，将每一棵树的相同路径包含的特征的特征值进行累加，将最终的累加值作为该特征的特征值，并将该特征值作为二分类逻辑回归(LogisticRegression，LR)模型中的一个自变量。

例如，在一具体实施方式中，如图7所示，图7示出了一个简单的决策树模型，该决策树模型包含三棵树，依次为A决策树、B决策树和C决策树，A决策树依次按照年龄、身高进行分裂，B决策树为对A决策树的拟合，C决策树为对决策树B的拟合，在完成分裂后，A决策树叶子节点分别为A₁₁₁、A₁₁₂、A₁₁₃和A₁₁₄，B决策树叶子节点分别为B₁₁₁、B₁₁₂、B₁₁₃和B₁₁₄，C决策树叶子节点分别为C₁₁₁、C₁₁₂、C₁₁₃和C₁₁₄，其中，节点A₁₁₁、节点B₁₁₁和节点C₁₁₁包含的特征为相同路径的特征，将这些特征的值进行累加，将累加值作为该特征的最终特征值，并将最终特征值作为一个自变量，输入到二分类逻辑回归模型中。

进一步地，针对每一自变量，使用二分类逻辑回归模型中的Sigmoid函数计算该自变量的发生概率。

具体地，在二分类逻辑回归模型中，每一个预设事件均有一个对立事件，两者互不相容，例如，某病人的肿瘤筛查结果存在两个事件：肿瘤良性和肿瘤恶性。

针对两个互斥事件，Sigmoid函数可表示为：

其中，g(z)为自变量的发生概率，z为自变量，T为根据实际需要预设的参数，θ为自变因子，z∈(-∞，+∞)，g(z)∈(0，1)，自变因子为对该预设事件起作用的因子，例如，肿瘤良性或肿瘤恶性这两事件的自变因子包括但不限于：年龄、性别、血液中的肿瘤标志物指标和肿瘤长度等，发生概率是指当前自变量能够使预设事件成立的概率。

其中，＝1表示事件1成立，＝0表示事件0成立，事件1和事件0为互斥事件。

S42：将发生概率与预设事件的概率阈值进行比较，若发生概率大于或等于概率阈值，则确认该预设事件的预测结果为预设事件成立，若发生概率小于概率阈值，则确认该预设事件的预测结果为预设事件不成立。

将步骤S41中计算得到的发生概率与预设事件的概率阈值进行比较，根据比较结果来预测该预设事件是否成立。

例如，在一具体实施方式中，用户购买A类机动车辆保险的概率阈值为0.8，针对某一用户的各项特征值，根据步骤S42中计算得到该用户购买A类机动车辆保险的发生概率为0.95，该发生概率大于预设的概率阈值0.8，可确认针对该用户，购买A类机动车辆保险事件成立。

进一步地，针对互斥事件，可以将两个对立的预设事件的预测结果进行组合分析，确定互斥事件的预测结果。

例如，在一具体实施方式中，两互斥事件为肿瘤筛查结果为肿瘤良性和肿瘤筛查结果为肿瘤恶性，其中，肿瘤良性的概率阈值为0.7，肿瘤恶性的概率阈值为0.5，某一病人进行肿瘤筛查，根据步骤S42中计算得到肿瘤良性的发生概率为0.6，肿瘤恶性的发生概率为0.4，则可认为该病人的肿瘤筛查结果为暂不确定，等待继续观察。

在图6对应的实施例中，将决策树模型中的每棵决策树的路径包含的特征作为自变量，输入到二分类逻辑回归模型，基于二分类逻辑回归模型，针对每一自变量，使用Sigmoid函数计算该自变量的发生概率，将发生概率与预设事件的概率阈值进行比较，进而根据比较结果来确定该自变量作用于预设事件时预设事件是否成立，基于二分类逻辑回归模型，使得决策树模型得到的特征对于预设事件的结果预测变得更加简单高效，即提高了样本数据对于预设事件的结果预测的准确性和效率，从而提高了样本数据针对该预设事件的评估的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

对应于实施例1中的数据评估方法，图8示出了与实施例1提供的数据评估方法一一对应的数据评估装置，为了便于说明，仅示出了与本发明实施例相关的部分。

如图8所示，该数据评估装置包括：样本变量预处理模块10、数字化变量获取模块20、决策树模型生成模块30和预设事件结果预测模块40。各功能模块详细说明如下：

样本变量预处理模块10，用于对样本数据集中的样本变量进行预处理，得到按照特征值大小排序的名义变量；

数字化变量获取模块20，用于对名义变量进行独热编码，将该名义变量转化为数字化变量；

决策树模型生成模块30，用于对包含数字化变量的样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型；

事件结果预测模块40，用于将决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测。

进一步地，数字化变量获取模块20包括：

取值范围确定单元21，用于针对名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值，其中，A_ij为名义变量A_i的特征值，k为正整数；

变量特征值编码单元22，用于分别对特征值A_i1,A_i2,...,A_ik进行编码，得到特征值A_ij对应的基础数字编码为a_ij＝a_i1a_i2a_i3...a_ij...a_ik，其中，a_ij为A_ij对应的基础数字编码，a_ij＝1，a_im＝0，m∈[1,j-1]∪[j+1,k]，i∈[1,n]，j∈[1,k]，k为正整数；

数字化变量获取单元23，用于将名义变量的特征值转化为该特征值对应的基础数字编码，得到数字化变量。

进一步地，决策树模型生成模块30包括：

原始决策树生成单元31，用于基于Spark分布式计算框架，对所述样本数据集中的数字化样本采用分类回归树算法，生成原始决策树；

当前决策树确认单元32，用于将原始决策树放入决策树模型中，并将该原始决策树作为当前决策树；

残差向量计算单元33，用于基于样本数据集，计算当前决策树的残差向量；

新的决策树拟合单元34，用于依据当前决策树的残差向量拟合新的决策树，并将该新的决策树放入所述决策树模型中；

决策树循环拟合单元35，用于若决策树模型中决策树的总数低于预设阈值，则将新的决策树作为当前决策树，返回基于所述样本数据集，计算当前决策树的残差向量的步骤继续执行；

决策树停止拟合单元36，用于若决策树模型中决策树的总数达到预设阈值，则停止拟合新的决策树。

进一步地，残差向量计算单元33包括：

损失函数计算子单元331，用于针对每个数字化样本x，按照如下公式计算该数字化样本x在第k个分类特征上的概率p_k(x)的对数损失函数：

其中，F_k(x)为数字化样本x在第k个分类特征上的估计值，k∈[1,K]，K为预设的分类特征的个数，y_k为数字化样本x在第k个分类特征上的分类标识，当数字化样本x属于第k个分类特征时，y_k＝1，否则y_k＝0。

残差向量获取子单元332，用于对对数损失函数进行一阶求导，得到该对数损失函数的负梯度，将负梯度作为当前决策树的残差向量。

进一步地，事件结果预测模块40包括：

发生概率计算单元41，用于将决策树模型中的每棵决策树的路径包含的特征作为自变量，输入到二分类逻辑回归模型，计算该自变量的发生概率；

事件结果预测单元42，用于将发生概率与预设事件的概率阈值进行比较，若发生概率大于或等于概率阈值，则确认预设事件的预测结果为该预设事件成立，若发生概率小于概率阈值，则确认预设事件的预测结果为该预设事件不成立。

本实施例提供的一种数据评估装置中各模块实现各自功能的过程，具体可参考前述实施例1的描述，此处不再赘述。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中数据评估方法，或者，该计算机程序被处理器执行时实现实施例2中数据评估装置中各模块/单元的功能。为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号和电信信号等。

实施例4

图9是本发明一实施例提供的终端设备的示意图。如图9所示，该实施例的终端设备90包括：处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93，例如数据评估程序。处理器91执行计算机程序93时实现上述实施例1中数据评估方法的步骤，例如图1所示的步骤S1至S4。或者，处理器91执行计算机程序93时实现上述实施例2中各模块/单元的功能，例如图8所示模块10至模块40的功能。

示例性的，计算机程序93可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器92中，并由处理器91执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序93在终端设备90中的执行过程。例如，计算机程序93可以被分割成样本变量预处理模块、数字化变量获取模块、决策树模型生成模块和预设事件结果预测模块，各模块的具体功能如实施例2所示，为避免重复，此处不一一赘述。

终端设备90可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备90可包括，但不仅限于，处理器91、存储器92。本领域技术人员可以理解，图9仅仅终端设备90的示例，并不构成对终端设备90的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备90还可以包括输入输出设备、网络接入设备、总线等。

所称处理器91可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器92可以是终端设备90的内部存储单元，例如终端设备90的硬盘或内存。存储器92也可以是终端设备90的外部存储设备，例如终端设备90上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器92还可以既包括终端设备90的内部存储单元也包括外部存储设备。存储器92用于存储计算机程序以及终端设备所需的其他程序和数据。存储器92还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据评估方法，其特征在于，所述数据评估方法包括：

2.如权利要求1所述的数据评估方法，其特征在于，所述对所述名义变量进行独热编码，将所述名义变量转化为数字化变量，包括：

针对所述名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值，其中，A_ij为名义变量A_i的特征值，k为正整数；

分别对特征值A_i1,A_i2,...,A_ik进行编码，得到特征值A_ij对应的基础数字编码为a_ij＝a_i1a_i2a_i3...a_ij...a_ik，其中，a_ij为A_ij对应的基础数字编码，a_ij＝1，a_im＝0，m∈[1,j-1]∪[j+1,k]，i∈[1,n]，j∈[1,k]，k为正整数；

将所述名义变量的特征值转化为该特征值对应的基础数字编码，得到所述数字化变量。

3.如权利要求1所述的数据评估方法，其特征在于，所述对包含所述数字化变量的所述样本数据集应用梯度提升决策树算法，生成包含n棵决策树的决策树模型，包括：

基于Spark分布式计算框架，对所述样本数据集中的数字化样本采用分类回归树算法，生成原始决策树；

将所述原始决策树放入决策树模型中，并将所述原始决策树作为当前决策树；

基于所述样本数据集，计算所述当前决策树的残差向量；

依据所述残差向量拟合新的决策树，并将该新的决策树放入所述决策树模型中；

若所述决策树模型中决策树的总数低于预设阈值，则将所述新的决策树作为所述当前决策树，返回基于所述样本数据集，计算所述当前决策树的残差向量的步骤继续执行；

若所述决策树模型中决策树的总数达到预设阈值，则停止拟合新的决策树。

4.如权利要求3所述的数据评估方法，其特征在于，所述基于所述样本数据集，计算所述当前决策树的残差向量，包括：

针对每个所述数字化样本x，按照如下公式计算所述数字化样本x在第k个分类特征上的概率p_k(x)的对数损失函数：

其中，F_k(x)为所述数字化样本x在所述第k个分类特征上的估计值，k∈[1,K]，K为预设的所述分类特征的个数，y_k为所述数字化样本x在所述第k个分类特征上的分类标识，当所述数字化样本x属于所述第k个分类特征时，y_k＝1，否则y_k＝0；

对所述对数损失函数进行一阶求导，得到所述对数损失函数的负梯度，将所述负梯度作为当前决策树的残差向量。

5.如权利要求1所述的数据评估方法，其特征在于，所述将决策树模型中每棵决策树的路径包含的特征作为自变量，基于二分类逻辑回归模型，进行预设事件的结果预测，包括：

将所述决策树模型中的每棵决策树的路径包含的特征作为自变量，输入到所述二分类逻辑回归模型中，计算所述自变量的发生概率；

将所述发生概率与所述预设事件的概率阈值进行比较，若所述发生概率大于或等于所述概率阈值，则确认所述预设事件的预测结果为所述预设事件成立，若所述发生概率小于所述概率阈值，则确认所述预设事件的预测结果为所述预设事件不成立。

6.一种数据评估装置，其特征在于，所述数据评估装置包括：

7.如权利要求6所述的数据评估装置，其特征在于，所述数字化变量获取模块包括：

取值范围确定单元，用于针对所述名义变量A_i＝[A_i1,A_i2,...,A_ik]，确定A_i的取值范围为k个取值，其中，A_ij为名义变量A_i的特征值，k为正整数；

变量特征值编码单元，用于分别对特征值A_i1,A_i2,...,A_ik进行编码，得到特征值A_ij对应的基础数字编码为a_ij＝a_i1a_i2a_i3...a_ij...a_ik，其中，a_ij为A_ij对应的基础数字编码，a_ij＝1，a_im＝0，m∈[1,j-1]∪[j+1,k]，i∈[1,n]，j∈[1,k]，k为正整数；

数字化变量获取单元，用于将所述名义变量的特征值转化为该特征值对应的基础数字编码，得到所述数字化变量。

8.如权利要求6所述的数据评估装置，其特征在于，所述决策树模型生成模块包括：

原始决策树生成单元，用于基于Spark分布式计算框架，对所述样本数据集中的数字化样本采用分类回归树算法，生成原始决策树；

当前决策树确认单元，用于将所述原始决策树放入决策树模型中，并将所述原始决策树作为当前决策树；

残差向量计算单元，用于基于所述样本数据集，计算所述当前决策树的残差向量；

新的决策树拟合单元，用于依据所述残差向量拟合新的决策树，并将所述新的决策树放入所述决策树模型中；

决策树循环拟合单元，用于若所述决策树模型中决策树的总数低于预设阈值，则将所述新的决策树作为所述当前决策树，返回基于所述样本数据集，计算所述当前决策树的残差向量的步骤继续执行；

决策树停止拟合单元，用于若所述决策树模型中决策树的总数达到预设阈值，则停止拟合新的决策树。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述数据评估方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据评估方法的步骤。