CN114386616A

CN114386616A - 特征重要性评估方法、装置、设备和介质

Info

Publication number: CN114386616A
Application number: CN202111500806.3A
Authority: CN
Inventors: 万友平; 邵俊; 张孜勉; 支磊
Original assignee: Shenzhen Shuxi Technology Co ltd; Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Shuxi Technology Co ltd; Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-22

Abstract

本发明公开了一种特征重要性评估方法，该方法包括：获取包含若干个数据样本的数据集，并通过孤立森立算法对数据集进行异常值检测，以确定若干个异常样本的异常分数。再获取目标异常样本在目标决策树的第一深度，根据目标决策树内目标异常样本的第一深度和异常分数计算目标决策树的第一重要性分数，从而确定出不同决策树的重要程度。最后获取目标特征在目标决策树上的第二深度，根据目标决策树内目标特征的第二深度和目标决策树的第一重要性分数计算目标特征的第二重要性分数，这样就能确定出不同特征的重要性程度，继而可以帮助降低特征维度，增加业务洞察的易得性。此外，还提出了特征重要性评估装置、设备和存储介质。

Description

特征重要性评估方法、装置、设备和介质

技术领域

本发明涉及异常值检测技术领域，尤其是涉及特征重要性评估方法、装置、设备和介质。

背景技术

孤立森林是一种无监督异常值检测算法，其随机选取特征并划分分裂值，能够较为高效地对异常值进行检测。但孤立森林应用于特别高维数据时存在如下问题：由于数据特征空间维度过高，存在着大量的噪音维度或无关维度，增加了计算复杂度，降低了算法可靠性，并且给业务人员带来洞察数据的难度。

对于这样高维的数据特征空间，特征重要性分析可以帮助人们更好地理解数据的分布特点，有效地去除不重要的特征维度，使分析洞察更加有的放矢。

有监督的树算法，如XGBoost、随机森林，能够基于信息增益等(依赖于标签)的数值实现特征重要性排序。而孤立森林作为无监督的机器学习，不能参考这一点，导致特征重要性分析难以实现。

发明内容

基于此，有必要针对上述问题，提供一种特征重要性评估方法、装置、设备和介质，以解决数据特征空间中维度过高的问题。

一种特征重要性评估方法，所述方法，包括：

获取包含多个数据样本的数据集和所述数据集对应的多个预设特征，所述多个预设特征用于从不同特征维度对所述数据集进行划分；

基于预先随机构建的多个决策树，对所述数据集进行异常值检测，以确定所述若干个数据样本中的若干个异常样本，并计算所述若干个异常样本的异常分数；其中，一个决策树以至少一个预设特征为树节点，对所述数据集进行划分，所述异常分数用于指示所述异常样本在所述数据集中的异常程度；

获取目标异常样本在目标决策树的第一深度，根据所述目标决策树内各个异常样本的第一深度和异常分数，计算所述目标决策树的第一重要性分数，所述目标异常样本为所述若干个异常样本中的任意一个，所述目标决策树为所述若干个决策树中的任意一个，所述第一深度为所述目标异常样本对应的叶节点的路径深度，所述第一重要性分数用于指示所述目标决策树在所述若干个决策树中的重要程度；

获取目标特征在当前决策树上的第二深度，根据所述各个当前决策树内所述目标特征的第二深度和所述各个当前决策树的第一重要性分数计算所述目标特征的第二重要性分数，所述目标特征为所述若干个预设特征中的任意一个，所述当前决策树为包含所述目标特征的其中一个决策树，所述第二深度为所述目标特征对应的树节点的深度，所述第二重要性分数用于指示所述目标特征在所述多个预设特征中的重要程度。

在其中一个实施例中，所述根据所述目标决策树内各个异常样本的第一深度和异常分数，计算所述目标决策树的第一重要性分数，包括：

根据所述目标异常样本的第一深度和异常分数计算所述目标异常样本在所述目标决策树内的局部异常分数，所述局部异常分数用于指示所述目标异常样本在所述若干个异常样本中的异常程度；

对所述目标决策树内各个异常样本的局部异常分数进行求和，以计算得到所述目标决策树的第一重要性分数。

在其中一个实施例中，计算所述局部异常分数的公式为：

G__ij＝S_i/h_ij

其中，所述S_i为第i个目标异常样本的异常分数，1＜i＜n，n为所述若干个异常样本的数量；h_ij第i个目标异常样本在第j个目标决策树内的第一深度，1＜j＜M，M为所述若干个决策树的数量。

在其中一个实施例中，所述根据所述各当前决策树内所述目标特征的第二深度和所述各当前决策树的第一重要性分数计算所述目标特征的第二重要性分数，包括：

根据所述当前决策树内所述目标特征的第二深度和所述当前决策树的第一重要性分数计算所述目标特征在所述当前决策树的增量得分，所述增量得分用于指示所述目标特征在所述目标决策树的重要性程度；

对所述各个当前决策树的增量得分进行求和，以计算得到所述目标特征的第二重要性分数。

在其中一个实施例中，计算所述增量得分的公式为：

delta_sf_d＝ST_d*pow(2,-depth_d)

其中，ST_d为第d个目标特征所在当前决策树的第一重要性分数，1＜d＜D，D为所述若干个预设特征的数量，depth_d为第d个目标特征在对应当前决策树的深度，pow(x，y)表示x的y次幂。

在其中一个实施例中，该增量得分的公式中满足depth_d<m_depth，其中m_depth为预设深度。

在其中一个实施例中，所述根据所述目标决策树内所述目标异常样本的第一深度和异常分数计算所述目标决策树的第一重要性分数之后，还包括：

将第一重要性分数大于或等于预设的重要性分数阈值的决策树作为重要决策树，从所述重要决策树中确定所述当前决策树。

一种特征重要性评估装置，所述装置包括：

异常值检测模块，用于获取包含多个数据样本的数据集和所述数据集对应的多个预设特征，所述多个预设特征用于从不同特征维度对所述数据集进行划分；基于预先随机构建的多个决策树，对所述数据集进行异常值检测，以确定所述若干个数据样本中的若干个异常样本，并计算所述若干个异常样本的异常分数；其中，一个决策树以至少一个预设特征为树节点，对所述数据集进行划分，所述异常分数用于指示所述异常样本在所述数据集中的异常程度；

第一重要性分数计算模块，用于获取目标异常样本在目标决策树的第一深度，根据所述目标决策树内各个异常样本的第一深度和异常分数，计算所述目标决策树的第一重要性分数，所述目标异常样本为所述若干个异常样本中的任意一个，所述目标决策树为所述若干个决策树中的任意一个，所述第一深度为所述目标异常样本对应的叶节点的路径深度，所述第一重要性分数用于指示所述目标决策树在所述若干个决策树中的重要程度；

特征重要性计算模块，用于获取目标特征在当前决策树上的第二深度，根据所述各个当前决策树内所述目标特征的第二深度和所述各个当前决策树的第一重要性分数计算所述目标特征的第二重要性分数，所述目标特征为所述若干个预设特征中的任意一个，所述当前决策树为包含所述目标特征的其中一个决策树，所述第二深度为所述目标特征对应的树节点的深度，所述第二重要性分数用于指示所述目标特征在所述多个预设特征中的重要程度。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述特征重要性评估方法的步骤。

一种特征重要性评估设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述特征重要性评估方法的步骤。

本发明提供了特征重要性评估方法、装置、设备和介质，获取包含若干个数据样本的数据集，并通过孤立森立算法对数据集进行异常值检测，以确定若干个异常样本的异常分数。再获取目标异常样本在目标决策树的第一深度，根据目标决策树内目标异常样本的第一深度和异常分数计算目标决策树的第一重要性分数，从而确定出不同决策树的重要程度。最后获取目标特征在目标决策树上的第二深度，根据目标决策树内目标特征的第二深度和目标决策树的第一重要性分数计算目标特征的第二重要性分数，这样就能确定出不同特征的重要性程度，继而可以帮助降低特征维度，增加业务洞察的易得性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中特征重要性评估方法的流程示意图；

图2为一个实施例中特征重要性评估装置的结构示意图；

图3为一个实施例中特征重要性评估设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个实施例中特征重要性评估方法的流程示意图，本实施例中特征重要性评估方法提供的步骤包括：

步骤102，获取包含多个数据样本的数据集和数据集对应的多个预设特征，基于预先随机构建的多个决策树，对数据集进行异常值检测，以确定若干个数据样本中的若干个异常样本，并计算若干个异常样本的异常分数。

示例性的，N个数据样本的数据集表示表示为[X_1,...,X_N]。该N个数据样本通过共P个预设特征从不同特征维度来进行划分。

本实施例中，基于孤立森林算法来对该数据集进行异常值检测。首先，随机构建多个决策树。而构建其中一个决策树的过程为：先从这P个特征中随机选取一个特征作为起始节点，再在该特征的最大值和最小值之间随机选择一个值。从数据集中随机抽取q个数据样本，将这q个数据样本中小于该取值的数据划到其中一个分支，大于等于该取值的划到另一个分支。然后，在两个分支数据中，分别继续随机选择特征作为树节点，并重复上述步骤，直到满足如下任意一个条件：1、数据不可再分，即：只包含一条数据，或者全部数据相同。2、决策树达到限定的最大深度。而该过程中，一般每一个决策树内的特征数量p都是小于P的。

接下来再基于这构建的多个决策树来进行异常值检测。具体的，计算其中一个数据样本X的异常分数时，先要估算数据样本X在每棵决策树中的路径长度。具体的，先沿着一棵决策树，从根节点开始按不同特征的取值从上往下，直到到达某叶子节点。假设决策树中同样落在数据样本X所在叶子节点的样本数为T.size，则数据样本X在这棵决策树上的路径长度h(x)，可以用下面这个公式计算：

h(x)＝e+C(T.size)

其中，e表示数据样本X从决策树的根节点到叶节点过程中经过的边的数目；C(T.size)为一个修正值，表示在一棵用T.size条样本数据构建的决策树的平均路径长度。一般的，C(n)的计算公式如下：

其中，H(n-1)可用ln(n-1)+0.5772156649进行估算，这里的常数为欧拉常数。而数据样本X最终的异常分数综合了多棵决策树的结果，该异常分数用于指示异常样本在数据集中的异常程度，其计算公式为：

其中，E(h(x))表示数据样本X在多棵决策树的路径长度的均值，ψ表示单棵决策树内数据样本的样本数，C(ψ)表示用ψ条数据构建的决策树的平均路径长度，它在这里主要用来做归一化的作用。

最后可对所有数据样本对应计算出的异常分数进行排序，再从中确定出分数较高n个作为异常样本，以得到候选异常值列表[O_1,...,O_n]及对应的异常分数列表[S_1,...,S_n]，n是异常样本的个数，n<N。

步骤104，获取目标异常样本在目标决策树的第一深度，根据目标决策树内各个异常样本的第一深度和异常分数，计算目标决策树的第一重要性分数。

其中，目标异常样本为若干个异常样本中的任意一个，目标决策树为若干个决策树中的任意一个，第一深度为目标异常样本对应的叶节点的路径深度，第一重要性分数用于指示目标决策树在若干个决策树中的重要程度。

在其中一个实施例中，首先根据目标异常样本的第一深度和异常分数计算目标异常样本在目标决策树内的局部异常分数。该局部异常分数用于指示目标异常样本在若干个异常样本中的异常程度，其计算公式为：

G__ij＝S_i/h_ij

其中，S_i为第i个目标异常样本的异常分数，1＜i＜n，n为若干个异常样本的数量；h_ij第i个目标异常样本在第j个目标决策树内的第一深度，1＜j＜M，M为若干个决策树的数量。

再对目标决策树内各个异常样本的局部异常分数进行求和，以计算得到目标决策树的第一重要性分数，也即表示为：

ST_j＝SUM_i(S_i/h_ij)，1＜j＜M；

在此基础上，还可进一步将第一重要性分数大于或等于预设的重要性分数阈值的决策树作为重要决策树，再从重要决策树中确定当前决策树。也即从这M个决策树中确定出较为重要的一些决策树作为重要决策树,而当前决策树是重要决策树中的一个，也是后续用于评估特征重要性的决策树。由于包含较多噪音特征的决策树，计算出的第一重要性分数会较低，基于重要性分数阈值来对决策树进行筛选，可以帮助找到那些有较多重要特征的决策树，而提高特征评估的准确性。

步骤106，获取目标特征在当前决策树上的第二深度，根据各个当前决策树内目标特征的第二深度和各个当前决策树的第一重要性分数计算目标特征的第二重要性分数。

其中，目标特征为若干个预设特征中的任意一个，当前决策树为包含目标特征的其中一个决策树，第二深度为目标特征对应的树节点的深度，第二重要性分数用于指示目标特征在多个预设特征中的重要程度。

在其中一个具体实施例中，首先根据当前决策树内目标特征的第二深度和当前决策树的第一重要性分数计算目标特征在当前决策树的增量得分。该增量得分用于指示目标特征在目标决策树的重要性程度，其计算公式为：

delta_sf_d＝ST_d*pow(2,-depth_d)

其中，ST_d为第d个目标特征所在当前决策树的第一重要性分数，1＜d＜D，D为若干个预设特征的数量，depth_d为第d个目标特征在对应当前决策树的深度，pow(x，y)表示x的y次幂。同时，还需满足depth_d<m_depth的条件，其中m_depth为预设深度。当depth_d≥m_depth时，计算出的增量得分较小，可以基本忽略不计。

接着再对各个当前决策树的增量得分进行求和，便能计算得到目标特征的第二重要性分数，也即表示为：

sf_i＝SUM(detla_sf_d)

如此对每个特征进行相同的操作，便能得到所有特征的重要性分数列表，也就完成了对所有预设特征的特征重要性评估。

在此基础上，同样还可以基于第二重要性分数对不同预设特征进行排序，再筛选出较为重要的特征，这样就能实现降低数据特征空间的维度的目的。

上述特征重要性评估方法，获取包含若干个数据样本的数据集，并通过孤立森立算法对数据集进行异常值检测，以确定若干个异常样本的异常分数。再获取目标异常样本在目标决策树的第一深度，根据目标决策树内目标异常样本的第一深度和异常分数计算目标决策树的第一重要性分数，从而确定出不同决策树的重要程度。最后获取目标特征在目标决策树上的第二深度，根据目标决策树内目标特征的第二深度和目标决策树的第一重要性分数计算目标特征的第二重要性分数，这样就能确定出不同特征的重要性程度，继而可以帮助降低特征维度，增加业务洞察的易得性。

在一个实施例中，如图2所示，提出了一种特征重要性评估装置，该装置包括：

异常值检测模块202，用于获取包含多个数据样本的数据集和数据集对应的多个预设特征，多个预设特征用于从不同特征维度对数据集进行划分；基于预先随机构建的多个决策树，对数据集进行异常值检测，以确定若干个数据样本中的若干个异常样本，并计算若干个异常样本的异常分数；其中，一个决策树以至少一个预设特征为树节点，对数据集进行划分，异常分数用于指示异常样本在数据集中的异常程度；

第一重要性分数计算模块204，用于获取目标异常样本在目标决策树的第一深度，根据目标决策树内各个异常样本的第一深度和异常分数，计算目标决策树的第一重要性分数，目标异常样本为若干个异常样本中的任意一个，目标决策树为若干个决策树中的任意一个，第一深度为目标异常样本对应的叶节点的路径深度，第一重要性分数用于指示目标决策树在若干个决策树中的重要程度；

特征重要性计算模块206，用于获取目标特征在当前决策树上的第二深度，根据各个当前决策树内目标特征的第二深度和各个当前决策树的第一重要性分数计算目标特征的第二重要性分数，目标特征为若干个预设特征中的任意一个，当前决策树为包含目标特征的其中一个决策树，第二深度为目标特征对应的树节点的深度，第二重要性分数用于指示目标特征在多个预设特征中的重要程度。

在其中一个实施例中，第一重要性分数计算模块204，具体用于：根据目标异常样本的第一深度和异常分数计算目标异常样本在目标决策树内的局部异常分数，局部异常分数用于指示目标异常样本在若干个异常样本中的异常程度；对目标决策树内各个异常样本的局部异常分数进行求和，以计算得到目标决策树的第一重要性分数。

在其中一个实施例中，特征重要性计算模块206，具体用于：根据当前决策树内目标特征的第二深度和当前决策树的第一重要性分数计算目标特征在当前决策树的增量得分，增量得分用于指示目标特征在目标决策树的重要性程度；对各个当前决策树的增量得分进行求和，以计算得到目标特征的第二重要性分数。

在其中一个实施例中，特征重要性计算模块206，还具体用于：将第一重要性分数大于或等于预设的重要性分数阈值的决策树作为重要决策树，从重要决策树中确定当前决策树。

图3示出了一个实施例中特征重要性评估设备的内部结构图。如图3所示，该特征重要性评估设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该特征重要性评估设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现特征重要性评估方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行特征重要性评估方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的特征重要性评估设备的限定，具体的特征重要性评估设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种特征重要性评估设备，包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序，该处理器执行该计算机程序时实现如下步骤：获取包含多个数据样本的数据集和数据集对应的多个预设特征，多个预设特征用于从不同特征维度对数据集进行划分；基于预先随机构建的多个决策树，对数据集进行异常值检测，以确定若干个数据样本中的若干个异常样本，并计算若干个异常样本的异常分数；其中，一个决策树以至少一个预设特征为树节点，对数据集进行划分，异常分数用于指示异常样本在数据集中的异常程度；获取目标异常样本在目标决策树的第一深度，根据目标决策树内各个异常样本的第一深度和异常分数，计算目标决策树的第一重要性分数，目标异常样本为若干个异常样本中的任意一个，目标决策树为若干个决策树中的任意一个，第一深度为目标异常样本对应的叶节点的路径深度，第一重要性分数用于指示目标决策树在若干个决策树中的重要程度；获取目标特征在当前决策树上的第二深度，根据各个当前决策树内目标特征的第二深度和各个当前决策树的第一重要性分数计算目标特征的第二重要性分数，目标特征为若干个预设特征中的任意一个，当前决策树为包含目标特征的其中一个决策树，第二深度为目标特征对应的树节点的深度，第二重要性分数用于指示目标特征在多个预设特征中的重要程度。

一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：获取包含多个数据样本的数据集和数据集对应的多个预设特征，多个预设特征用于从不同特征维度对数据集进行划分；基于预先随机构建的多个决策树，对数据集进行异常值检测，以确定若干个数据样本中的若干个异常样本，并计算若干个异常样本的异常分数；其中，一个决策树以至少一个预设特征为树节点，对数据集进行划分，异常分数用于指示异常样本在数据集中的异常程度；获取目标异常样本在目标决策树的第一深度，根据目标决策树内各个异常样本的第一深度和异常分数，计算目标决策树的第一重要性分数，目标异常样本为若干个异常样本中的任意一个，目标决策树为若干个决策树中的任意一个，第一深度为目标异常样本对应的叶节点的路径深度，第一重要性分数用于指示目标决策树在若干个决策树中的重要程度；获取目标特征在当前决策树上的第二深度，根据各个当前决策树内目标特征的第二深度和各个当前决策树的第一重要性分数计算目标特征的第二重要性分数，目标特征为若干个预设特征中的任意一个，当前决策树为包含目标特征的其中一个决策树，第二深度为目标特征对应的树节点的深度，第二重要性分数用于指示目标特征在多个预设特征中的重要程度。

需要说明的是，上述特征重要性评估方法、装置、设备及计算机可读存储介质属于一个总的发明构思，特征重要性评估方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种特征重要性评估方法，其特征在于，所述方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标决策树内各个异常样本的第一深度和异常分数，计算所述目标决策树的第一重要性分数，包括：

3.根据权利要求2所述的方法，其特征在于，计算所述局部异常分数的公式为：

G_ij＝S_i/h_ij

4.根据权利要求1所述的方法，其特征在于，所述根据所述各当前决策树内所述目标特征的第二深度和所述各当前决策树的第一重要性分数计算所述目标特征的第二重要性分数，包括：

5.根据权利要求4所述的方法，其特征在于，计算所述增量得分的公式为：

delta_sf_d＝ST_d*pow(2,-depth_d)

6.根据权利要求5所述的方法，其特征在于，该增量得分的公式中满足depth_d<m_depth，其中m_depth为预设深度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标决策树内所述目标异常样本的第一深度和异常分数计算所述目标决策树的第一重要性分数之后，还包括：

8.一种特征重要性评估装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种特征重要性评估设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。