CN114398956A - 特征区分能力的量化方法、装置、设备和介质 - Google Patents
特征区分能力的量化方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114398956A CN114398956A CN202111555421.7A CN202111555421A CN114398956A CN 114398956 A CN114398956 A CN 114398956A CN 202111555421 A CN202111555421 A CN 202111555421A CN 114398956 A CN114398956 A CN 114398956A
- Authority
- CN
- China
- Prior art keywords
- target
- sample
- interpreted
- node
- distinguishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003066 decision tree Methods 0.000 claims abstract description 150
- 230000002159 abnormal effect Effects 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 abstract description 6
- 238000000926 separation method Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种特征区分能力的量化方法,该方法包括:基于预先随机构建的多个决策树,对数据集进行异常值检测,以确定多个数据样本中的待解释样本;在目标待解释决策树内,确定目标待解释样本对应的多个节点组合;计算目标节点组合的第一区分能力指标;获取其余节点组合的第一区分能力指标,根据其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。此外,还提出了特征区分能力的量化装置、设备和存储介质。
Description
技术领域
本发明涉及大数据技术领域,尤其是涉及特征区分能力的量化方法、装置、设备和介质。
背景技术
模型的可解释性即是指模型使用者能够理解该模型的程度。如果模型的使用者无法理解模型输入与输出的关系,很可能会做出带有偏见的决策,且在模型遭到攻击时难以察觉。目前模型在各行业中逐渐普及,我们亟需提高模模型的可解释性,以规避不明风险,满足监管需求。
孤立森林算法有着计算复杂度低,易处理高维海量数据,可以分布式训练等优点,因而被业界广泛采用。但该算法需要随机选取特征,及随机选择阈值划分数据来构建大量决策树,导致特征的可解释性较低。
发明内容
基于此,有必要针对上述问题,提供特征区分能力的量化方法、装置、设备和介质,以解释特征。
一种特征区分能力的量化方法,所述方法包括:
获取包含多个数据样本的数据集和所述数据集对应的多个预设特征,所述多个预设特征用于从不同特征维度对所述数据集进行划分;
基于预先随机构建的多个决策树,对所述数据集进行异常值检测,以确定所述多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;其中,一个决策树以至少一个预设特征为树节点,对数据子集进行划分,所述数据子集包括所述数据集中的至少一个数据样本;
在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将所述多个路径节点作为集合并取所述集合的子集,以得到多个节点组合;其中,所述目标待解释样本为至少一个待解释样本中的任意一个,待解释决策树为包含待解释样本的决策树,所述目标待解释决策树为包含所述目标待解释样本的待解释决策树,所述多个路径节点为所述目标待解释决策树内从所述目标待解释样本对应的叶子节点到根节点路径上的所有非叶子节点;
计算目标节点组合的第一区分能力指标;其中,所述目标节点组合为所述多个节点组合中的任意一个,节点组合的区分能力指标用于指示基于节点组合将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
获取其余节点组合的第一区分能力指标,根据所述其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;其中,所述目标路径节点为所述多个路径节点中的任意一个,所述其余节点组合为所述多个节点组合中不包含所述目标路径节点的节点组合,所述区分能力指标用于指示基于所述目标路径节点将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;其中,所述样本特征为所述目标待解释决策树内,划分所述目标待解释样本的至少一个预设特征,所述目标样本特征为所述目标待解释决策树内的样本特征中的任意一个,第三区分能力指标用于指示基于所述目标样本特征将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标;其中,样本特征的第四区分能力指标用于指示基于样本特征将所述目标待解释样本,从其他样本中区分出来的能力。
在其中一个实施例中,所述计算目标节点组合的第一区分能力指标,包括:
获取原样本数量和第一样本数量;其中,所述目标待解释决策树对应的数据子集为目标数据子集,所述原样本数量为所述目标数据子集中数据样本的数量,所述第一样本数量为所述目标数据子集经过目标节点组合后,所述目标待解释样本所在节点的数据样本的数量;
根据所述原样本数量和所述第一样本数量计算所述目标节点组合的第一区分能力指标。
在其中一个实施例中,所述根据所述原样本数量和所述第一样本数量计算所述目标节点组合的第一区分能力指标的计算公式为:
在其中一个实施例中,所述根据所述第一区分能力指标计算目标路径节点的第二区分能力指标的计算公式为:
其中,2{H\h}为所有其余节点组合,|H|为所述目标待解释样本对应的所有路径节点的数量,|S|为其中一个其余节点组合S的路径节点的数量,φ()为其中一个其余节点组合S的第一区分能力指标,φ(h∪S)为节点组合h∪S的第一区分能力指标。
在其中一个实施例中,所述根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标,包括:
计算所有待解释决策树内同一样本特征的第三区分能力指标的和,并将得到的第二计算结果与待解释决策树的数量的比值作为所述第四区分能力指标。
在其中一个实施例中,所述在目标待解释决策树内,确定目标待解释样本对应的多个路径节点之前,还包括:
计算在目标决策树内所有待解释样本对应的第一深度的和,并将得到的第一计算结果作为所述目标决策树的第二深度;其中,所述目标决策树为所述多个决策树中的任意一个,所述第一深度为所述待解释样本对应的叶子节点的路径深度;
根据不同决策树的第二深度确定第一预设数量个决策树作为待解释决策树;其中,任意一个待解释决策树的第二深度小于任意一个未被作为待解释决策树的决策树的第二深度。
一种特征区分能力的量化装置,所述装置包括:
待解释样本确定模块,用于获取包含多个数据样本的数据集和所述数据集对应的多个预设特征,所述多个预设特征用于从不同特征维度对所述数据集进行划分;基于预先随机构建的多个决策树,对所述数据集进行异常值检测,以确定所述多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;其中,一个决策树以至少一个预设特征为树节点,对所述数据集中的至少一个数据样本进行划分;
节点组合确定模块,用于在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将所述多个路径节点作为集合并取所述集合的子集,以得到多个节点组合;其中,所述目标待解释样本为至少一个待解释样本中的任意一个,待解释决策树为包含待解释样本的决策树,所述目标待解释决策树为包含所述目标待解释样本的待解释决策树,所述多个路径节点为所述目标待解释决策树内从所述目标待解释样本对应的叶子节点到根节点路径上的所有节点;
第一区分能力指标计算模块,用于计算目标节点组合的第一区分能力指标;其中,所述目标节点组合为所述多个节点组合中的任意一个,节点组合的区分能力指标用于指示基于节点组合将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第二区分能力指标计算模块,用于获取其余节点组合的第一区分能力指标,根据所述第一区分能力指标计算目标路径节点的第二区分能力指标;其中,所述目标路径节点为所述多个路径节点中的任意一个,所述其余节点组合为不包含目标路径节点的节点组合,路径节点的区分能力指标用于指示基于路径节点将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第三区分能力指标计算模块,用于根据相同样本特征对应的目标路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;其中,所述样本特征为所述目标待解释决策树内,划分所述目标待解释样本的至少一个预设特征,所述目标样本特征为所述目标待解释决策树内的样本特征中的任意一个,目标样本特征的第三区分能力指标用于指示基于所述目标样本特征将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第四区分能力指标计算模块,用于根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标;其中,样本特征的第四区分能力指标用于指示基于样本特征将所述目标待解释样本,从其他样本中区分出来的能力。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述特征区分能力的量化方法的步骤。
一种特征区分能力的量化设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述特征区分能力的量化方法的步骤。
本发明提供了特征区分能力的量化方法、装置、设备和介质,基于预先随机构建的多个决策树,对包含多个数据样本的数据集进行异常值检测,以确定多个数据样本中的待解释样本。在目标待解释决策树内,确定目标待解释样本对应的多个节点组合。计算目标节点组合的第一区分能力指标;获取其余节点组合的第一区分能力指标,根据其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。其中,样本特征的第四区分能力指标用于指示基于样本特征将目标待解释样本,从其他样本中区分出来的能力。这样成功量化了数据样本被判断为待解释样本后,其各个特征对该判断的贡献。为孤立森林算法提供了一套完整的解释方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中特征区分能力的量化方法的流程示意图;
图2为一个实施例中目标待解释决策树的示意图;
图3为一个实施例中构建的二维数据集的示意图;
图4为一个实施例中异常样本的解释方案的示意图;
图5为一个实施例中特征区分能力的量化装置的结构示意图;
图6为一个实施例中特征区分能力的量化设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,图1为一个实施例中特征区分能力的量化方法的流程示意图,本实施例中特征区分能力的量化方法提供的步骤包括:
步骤102,获取包含多个数据样本的数据集和数据集对应的多个预设特征;基于预先随机构建的多个决策树,对数据集进行异常值检测,以确定多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本。
示例性的,N个数据样本的数据集表示表示为[X_1,...,X_N],再基于共P个预设特征从不同特征维度来对这N个数据样本进行划分。
本实施例中,基于孤立森林算法来对该数据集[X_1,...,X_N]进行异常值检测。首先,随机构建多个决策树。而构建其中一个决策树的过程为:先从这P个特征中随机选取一个特征p作为起始节点,再在该特征p的最大值和最小值之间随机选择一个值作为划分的数据的阈值。从数据集中随机抽取n个数据样本作为数据子集,将这n个数据样本中小于该取值的数据样本划到其中一个分支作为子节点,同时将大于等于该取值的数据样本划到另一个分支作为子节点。然后,在两个子节点中,分别继续随机选择特征以及阈值以用于继续划分节点,若子节点中仅有一个数据样本,或子节点与根节点的距离超过限定的最大深度,则将子节点标记为叶子节点不再继续划分。重复上述步骤,直到满足如下任意一个条件:1、数据不可再分,即:划分到只包含一条数据,或者全部数据相同。2、决策树达到限定的最大深度。
接下来再基于这构建的多个决策树来进行异常值检测。
在其中一个具体实施例中,计算数据集[X_1,...,X_N]在这预先随机构建的多个决策树中,对应的叶子节点到根节点的平均距离h0,再获取其中一个数据样本X在这预先随机构建的多个决策树中,对应的叶子节点到根节点的距离h1,若h1<h0,则确定该数据样本X为异常样本,也即本实施例中的待解释样本,而这些包含待解释样本的决策树,也即本实施例中的待解释决策树。
在另一个具体实施例中,通过计算数据样本的异常分数来确定待解释样本:先要估算数据样本X在每棵决策树中的路径长度。具体的,先沿着一棵决策树,从根节点开始按不同特征的取值从上往下,直到到达某叶子节点。假设决策树中同样落在数据样本X所在叶子节点的样本数为T.size,则数据样本X在这棵决策树上的路径长度h(x),可以用下面这个公式计算:
h(x)=e+C(T.size)
其中,e表示数据样本X从决策树的根节点到叶节点过程中经过的边的数目;C(T.size)为一个修正值,表示在一棵用T.size条样本数据构建的决策树的平均路径长度。一般的,C(n)的计算公式如下:
其中,H(n-1)可用ln(n-1)+0.5772156649进行估算,这里的常数为欧拉常数。而数据样本X最终的异常分数综合了多棵决策树的结果,该异常分数用于指示异常样本在数据集中的异常程度,其计算公式为:
其中,E(h(x))表示数据样本X在多棵决策树的路径长度的均值,ψ表示单棵决策树内数据样本的样本数,C(ψ)表示用ψ条数据构建的决策树的平均路径长度,它在这里主要用来做归一化的作用。
最后可对所有数据样本对应计算出的异常分数进行排序,再从中确定出分数较高q个作为异常样本,也即待解释样本。
进一步的,由于部分决策树包含较多噪音特征,在其中一个具体中实施例中,可以基于如下步骤对决策树进行筛选。首先,计算在目标决策树内所有待解释样本对应的第一深度的和,并将得到的第一计算结果作为目标决策树的第二深度。其中,该目标决策树为多个决策树中的任意一个,该第一深度为待解释样本对应的叶子节点的路径深度。再根据第二深度对所有的决策树进行依次排序(例如从小到大),并从中确定第一预设数量Y个第二深度最小的决策树作为待解释决策树,当然该第一预设数量Y是用户可以根据需求自行设置的。由于待解释样本所在的叶子节点离根节点的距离通常会明显短于其他叶子节点与根节点的距离,而这些待解释样本所在的叶子节点对应的特征是更重要的特征,基于上述筛选,便可以筛选掉包含较多噪音特征的决策树。
步骤104,在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将多个路径节点作为集合并取集合的子集,以得到多个节点组合。
其中,目标待解释样本为至少一个待解释样本中的任意一个,目标待解释决策树为包含该目标待解释样本的待解释决策树。
示例性的,首先确定目标待解释样本在目标待解释决策树内对应的叶子节点到根节点路径上的所有非叶子节点,如图2所示,目标待解释样本经过节点A、B、C后被单独划分至叶子节点D,则路径节点为A、B、C,再取集合{A、B、C}的子集,以得到节点组合{A}、{B}、{C}、{A、B}、{A、C}、{B、C}、{A、B、C}。
步骤106,计算目标节点组合的第一区分能力指标。
其中,目标节点组合为多个节点组合中的任意一个。
在一个具体实施例中,该第一区分能力指标的计算过程为:首先,获取原样本数量和第一样本数量。其中,目标待解释决策树划分的数据子集为目标数据子集,原样本数量为该目标数据子集中数据样本的数量,也即图3中节点A内数据样本的数量。第一样本数量为该目标数据子集经过目标节点组合后,目标待解释样本所在节点的数据样本的数量。例如当目标节点组合为{A}时,如图3所示,目标待解释样本经过节点A后被划分到节点B,此时第一样本数量即为节点B内的数据样本的数量。而当目标节点组合为{A、C}时,此时仅以A、C对应的特征和阈值为条件对目标数据子集进行划分,可得到多个4个分群,而第一样本数量为目标待解释样本所在分群内数据样本的数量。其他节点组合的第一样本数量的获取方式一致,就不再赘述。
再根据如下计算公式,计算第一区分能力指标:
可见,当第一区分能力指标为1时(对应于节点组合{A、B、C}),则该目标节点组合能将目标待解释样本与其他所有数据样本分开。当第一区分能力指标为0时(对应于节点组合),则代表该目标节点组合无法将目标待解释样本与任何数据样本分开。也即节点组合的区分能力指标用于指示基于节点组合将目标待解释样本,从目标待解释决策树内其他样本中区分出来的能力。
步骤108,获取其余节点组合的第一区分能力指标,根据其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标。
其中,目标路径节点为多个路径节点中的任意一个,其余节点组合为多个节点组合中不包含目标路径节点的节点组合。例如,当多个路径节点为A、B、C,而目标路径节点h为A时,则其余节点组合为{B}、{C}、{B、C}。
再根据如下计算公式,计算第二区分能力指标:
其中,2{H\h}为所有其余节点组合,S为其中一个其余节点组合,|H|为目标待解释样本对应的所有路径节点的数量,|S|为其余节点组合S的路径节点的数量,φ(S)为其余节点组合S的第一区分能力指标,φ(h∪S)为节点组合h∪S的第一区分能力指标。
该第二区分能力指标用于指示基于目标路径节点将目标待解释样本,从目标待解释决策树内其他样本中区分出来的能力。也即上述例子中,通过路径节点A将目标待解释样本,从目标待解释决策树内其他样本中区分出来的能力。
步骤110,根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标。
其中,样本特征为目标待解释决策树内,划分目标待解释样本的至少一个预设特征,而目标样本特征为目标待解释决策树内的样本特征中的任意一个。
如图3所示,包括样本特征x1、x2,路径节点A、B对应的目标样本特征为x1,路径节点C对应的目标样本特征为x2。若路径节点A、B、C的第二区分能力指标分别为0.3,0.6,0.1,则目标样本特征x1的第三区分能力指标为0.9,目标样本特征x2的第三区分能力指标为0.1。
该三区分能力指标用于指示基于目标样本特征将目标待解释样本,从目标待解释决策树内其他样本中区分出来的能力。也即在目标待解释决策树内,目标样本特征x1将目标待解释样本与90%的其他样本区分出来,目标样本特征x2将目标待解释样本与10%的其他样本区分出来。
步骤112,根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。
具体的,计算所有待解释决策树内同一样本特征的第三区分能力指标的和,并将得到的第二计算结果与待解释决策树的数量的比值作为第四区分能力指标。例如待解释决策树的数量为Y,样本特征x1在其中y个待解释决策树内使用到,且在这y个待解释决策树内的第三区分能力指标的和为φ(x1),则第四区分能力指标为
该样本特征的第四区分能力指标用于指示基于样本特征将目标待解释样本,从其他样本中区分出来的能力。例如特征x1,特征x2的第四区分能力指标分别为0.9和0.1,则可以解释为特征x1平均区分了目标待解释样本与90%的其他样本,特征x2平均区分了目标待解释样本与10%的其他样本。
上述特征区分能力的量化方法,成功量化了数据样本被判断为待解释样本后,其各个特征对该判断的贡献。为孤立森林算法提供了一套完整的解释方案。
上述特征区分能力的量化方法的效果展示如图3及图4所示。
参见图3,构造了一个二维数据集,其中正常数据样本在x轴与y轴上均匀分布在(0,1)区间,并构造了四种异常数据样本群。我们在这四种异常样本群中随机各抽取一个异常样本(也即待解释样本)进行解释。解释结果如图4所示。异常样本ID_1000的坐标为(1.59,0.58),该异常样本是一个x轴上的异常值。解释方案结果显示异常样本ID_1000的x轴、y轴的“区分能力指标”分别为91.5%与8.5%。异常样本ID_1010的坐标为(1.52,1.01),该异常样本在x轴与y轴上均为异常,且x轴上异常更加明显,解释方案结果显示异常样本ID_1010的x轴、y轴的“区分能力指标”分别为75.8%与24.2%。异常样本ID_1020的坐标为(1.04,1.59),该异常样本在x轴与y轴上均异常,且y轴上异常更明显,解释方案结果显示异常样本ID_1020的x轴、y轴的“区分能力指标”分别为21.8%与78.2%。异常样本ID_1030的坐标为(0.53,1.53),该异常样本是一个y轴上的异常值。解释方案结果显示异常样本ID_1030的x轴、y轴的“区分能力指标”分别为12.3%与87.7%。
可见,本方案可以对孤立森林算法提供准确的解释,不仅能找到异常样本的主要异常来源,同时也可以对异常样本的多个异常来源进行准确的量化。
在一个实施例中,如图5所示,提出了一种特征区分能力的量化装置,该装置包括:
待解释样本确定模块502,用于获取包含多个数据样本的数据集和数据集对应的多个预设特征,基于预先随机构建的多个决策树,对数据集进行异常值检测,以确定多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本。
节点组合确定模块504,用于在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将多个路径节点作为集合并取集合的子集,以得到多个节点组合。
第一区分能力指标计算模块506,用于计算目标节点组合的第一区分能力指标。
第二区分能力指标计算模块508,用于获取其余节点组合的第一区分能力指标,根据第一区分能力指标计算目标路径节点的第二区分能力指标。
第三区分能力指标计算模块510,用于根据相同样本特征对应的目标路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标。
第四区分能力指标计算模块512,用于根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。
图6示出了一个实施例中特征区分能力的量化设备的内部结构图。如图6所示,该特征区分能力的量化设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该特征区分能力的量化设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现特征区分能力的量化方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行特征区分能力的量化方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的特征区分能力的量化设备的限定,具体的特征区分能力的量化设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种特征区分能力的量化设备,包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序,该处理器执行该计算机程序时实现如下步骤:获取包含多个数据样本的数据集和数据集对应的多个预设特征;基于预先随机构建的多个决策树,对数据集进行异常值检测,以确定多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将多个路径节点作为集合并取集合的子集,以得到多个节点组合;计算目标节点组合的第一区分能力指标;获取其余节点组合的第一区分能力指标,根据其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。
一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:获取包含多个数据样本的数据集和数据集对应的多个预设特征;基于预先随机构建的多个决策树,对数据集进行异常值检测,以确定多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将多个路径节点作为集合并取集合的子集,以得到多个节点组合;计算目标节点组合的第一区分能力指标;获取其余节点组合的第一区分能力指标,根据其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标。
需要说明的是,上述特征区分能力的量化方法、装置、设备及计算机可读存储介质属于一个总的发明构思,特征区分能力的量化方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种特征区分能力的量化方法,其特征在于,所述方法包括:
获取包含多个数据样本的数据集和所述数据集对应的多个预设特征,所述多个预设特征用于从不同特征维度对所述数据集进行划分;
基于预先随机构建的多个决策树,对所述数据集进行异常值检测,以确定所述多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;其中,一个决策树以至少一个预设特征为树节点,对数据子集进行划分,所述数据子集包括所述数据集中的至少一个数据样本;
在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将所述多个路径节点作为集合并取所述集合的子集,以得到多个节点组合;其中,所述目标待解释样本为至少一个待解释样本中的任意一个,待解释决策树为包含待解释样本的决策树,所述目标待解释决策树为包含所述目标待解释样本的待解释决策树,所述多个路径节点为所述目标待解释决策树内从所述目标待解释样本对应的叶子节点到根节点路径上的所有非叶子节点;
计算目标节点组合的第一区分能力指标;其中,所述目标节点组合为所述多个节点组合中的任意一个,节点组合的区分能力指标用于指示基于节点组合将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
获取其余节点组合的第一区分能力指标,根据所述其余节点组合的第一区分能力指标计算目标路径节点的第二区分能力指标;其中,所述目标路径节点为所述多个路径节点中的任意一个,所述其余节点组合为所述多个节点组合中不包含所述目标路径节点的节点组合,所述区分能力指标用于指示基于所述目标路径节点将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
根据相同样本特征对应的路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;其中,所述样本特征为所述目标待解释决策树内,划分所述目标待解释样本的至少一个预设特征,所述目标样本特征为所述目标待解释决策树内的样本特征中的任意一个,第三区分能力指标用于指示基于所述目标样本特征将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标;其中,样本特征的第四区分能力指标用于指示基于样本特征将所述目标待解释样本,从其他样本中区分出来的能力。
2.根据权利要求1所述的方法,其特征在于,所述计算目标节点组合的第一区分能力指标,包括:
获取原样本数量和第一样本数量;其中,所述目标待解释决策树对应的数据子集为目标数据子集,所述原样本数量为所述目标数据子集中数据样本的数量,所述第一样本数量为所述目标数据子集经过目标节点组合后,所述目标待解释样本所在节点的数据样本的数量;
根据所述原样本数量和所述第一样本数量计算所述目标节点组合的第一区分能力指标。
5.根据权利要求1所述的方法,其特征在于,所述根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标,包括:
计算所有待解释决策树内同一样本特征的第三区分能力指标的和,并将得到的第二计算结果与待解释决策树的数量的比值作为所述第四区分能力指标。
6.根据权利要求1所述的方法,其特征在于,所述在目标待解释决策树内,确定目标待解释样本对应的多个路径节点之前,还包括:
计算在目标决策树内所有待解释样本对应的第一深度的和,并将得到的第一计算结果作为所述目标决策树的第二深度;其中,所述目标决策树为所述多个决策树中的任意一个,所述第一深度为所述待解释样本对应的叶子节点的路径深度;
根据不同决策树的第二深度确定第一预设数量个决策树作为待解释决策树;其中,任意一个待解释决策树的第二深度小于任意一个未被作为待解释决策树的决策树的第二深度。
7.一种特征区分能力的量化装置,其特征在于,所述装置包括:
待解释样本确定模块,用于获取包含多个数据样本的数据集和所述数据集对应的多个预设特征,所述多个预设特征用于从不同特征维度对所述数据集进行划分;基于预先随机构建的多个决策树,对所述数据集进行异常值检测,以确定所述多个数据样本中的至少一个异常样本,并将每个异常样本作为待解释样本;其中,一个决策树以至少一个预设特征为树节点,对所述数据集中的至少一个数据样本进行划分;
节点组合确定模块,用于在目标待解释决策树内,确定目标待解释样本对应的多个路径节点,将所述多个路径节点作为集合并取所述集合的子集,以得到多个节点组合;其中,所述目标待解释样本为至少一个待解释样本中的任意一个,待解释决策树为包含待解释样本的决策树,所述目标待解释决策树为包含所述目标待解释样本的待解释决策树,所述多个路径节点为所述目标待解释决策树内从所述目标待解释样本对应的叶子节点到根节点路径上的所有节点;
第一区分能力指标计算模块,用于计算目标节点组合的第一区分能力指标;其中,所述目标节点组合为所述多个节点组合中的任意一个,节点组合的区分能力指标用于指示基于节点组合将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第二区分能力指标计算模块,用于获取其余节点组合的第一区分能力指标,根据所述第一区分能力指标计算目标路径节点的第二区分能力指标;其中,所述目标路径节点为所述多个路径节点中的任意一个,所述其余节点组合为不包含目标路径节点的节点组合,路径节点的区分能力指标用于指示基于路径节点将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第三区分能力指标计算模块,用于根据相同样本特征对应的目标路径节点的第二区分能力指标,计算每一目标样本特征的第三区分能力指标;其中,所述样本特征为所述目标待解释决策树内,划分所述目标待解释样本的至少一个预设特征,所述目标样本特征为所述目标待解释决策树内的样本特征中的任意一个,目标样本特征的第三区分能力指标用于指示基于所述目标样本特征将所述目标待解释样本,从所述目标待解释决策树内其他样本中区分出来的能力;
第四区分能力指标计算模块,用于根据所有待解释决策树内同一样本特征的第三区分能力指标,计算所有样本特征的第四区分能力指标;其中,样本特征的第四区分能力指标用于指示基于样本特征将所述目标待解释样本,从其他样本中区分出来的能力。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种特征区分能力的量化设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555421.7A CN114398956A (zh) | 2021-12-17 | 2021-12-17 | 特征区分能力的量化方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555421.7A CN114398956A (zh) | 2021-12-17 | 2021-12-17 | 特征区分能力的量化方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398956A true CN114398956A (zh) | 2022-04-26 |
Family
ID=81227344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111555421.7A Pending CN114398956A (zh) | 2021-12-17 | 2021-12-17 | 特征区分能力的量化方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398956A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633563A (zh) * | 2024-01-24 | 2024-03-01 | 中国电子科技集团公司第十四研究所 | 一种基于optics算法的多目标自顶向下式层次化分群方法 |
-
2021
- 2021-12-17 CN CN202111555421.7A patent/CN114398956A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633563A (zh) * | 2024-01-24 | 2024-03-01 | 中国电子科技集团公司第十四研究所 | 一种基于optics算法的多目标自顶向下式层次化分群方法 |
CN117633563B (zh) * | 2024-01-24 | 2024-05-10 | 中国电子科技集团公司第十四研究所 | 一种基于optics算法的多目标自顶向下式层次化分群方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570178B (zh) | 一种基于图聚类的高维文本数据特征选择方法 | |
CN109088869B (zh) | Apt攻击检测方法及装置 | |
CN111914253B (zh) | 一种入侵检测的方法、系统、设备及可读存储介质 | |
EP2614470B1 (en) | Method for providing with a score an object, and decision-support system | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN110705718A (zh) | 基于合作博弈的模型解释方法、装置、电子设备 | |
CN109145129B (zh) | 基于层次三元组损失函数的深度度量学习方法及其装置 | |
CN107506618B (zh) | 高通量测序序列的存储方法和查询方法 | |
CN114244603A (zh) | 异常检测及对比嵌入模型训练、检测方法、装置及介质 | |
CN113391209A (zh) | 电池健康状态的预测方法、装置、系统和电池 | |
US20130304783A1 (en) | Computer-implemented method for analyzing multivariate data | |
CN114398956A (zh) | 特征区分能力的量化方法、装置、设备和介质 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN109960730A (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN114386483A (zh) | 特征区分能力的量化方法、装置、设备和介质 | |
CN109286622B (zh) | 一种基于学习规则集的网络入侵检测方法 | |
CN113515450A (zh) | 一种环境异常检测方法和系统 | |
Lee | Generating Additive Clustering Models with Minimal Stochastic Complexity. | |
Wazarkar et al. | Text clustering using HFRECCA and rough K-means clustering algorithm | |
Cortes | Explainable outlier detection through decision tree conditioning | |
CN115619774B (zh) | 染色体异常识别方法、系统及存储介质 | |
JP2016048485A (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
CN114386616A (zh) | 特征重要性评估方法、装置、设备和介质 | |
WO2022156450A1 (zh) | 知识库的查询方法、装置、计算机设备和存储介质 | |
Bezerra et al. | Bioinformatics data analysis using an artificial immune network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220426 |