CN115687845A

CN115687845A - 存储性能的决策树生成方法、装置、电子设备及存储介质

Info

Publication number: CN115687845A
Application number: CN202211188514.5A
Authority: CN
Inventors: 李超
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-02-03

Abstract

本发明提供了一种存储性能的决策树生成方法，所述方法包括：获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。通过决策树算法和汇总生成的样本数据表计算出各个影响因素对存储性能的影响程度并生成相应的决策树，从而根据决策树实现对后续属性数据进行存储性能的精准预测；代替人工性能数据预测，避免人工预测结果与实际结果偏差过大，从根本上节省工作成本。

Description

存储性能的决策树生成方法、装置、电子设备及存储介质

技术领域

本发明涉及性能预测领域，特别是涉及一种存储性能的决策树生成方法、装置、电子设备及存储介质。

背景技术

现在社会电子设备无处不在，并且影响绝大部分电子设备的其中一个因素就是存储性能，而影响存储性能的因素有很多，并且很难找到直接的线性的计算公式，导致没有办法比较准确的预测存储性能。当前评估新存储的性能大多依靠工作经验，没有理论依据，性能评估结果偏差较大且因人而异，没有理论依据。

发明内容

基于此，有必要针对上述技术问题，提供一种能够进行存储性能精准预测的存储性能的决策树生成方法、装置、电子设备及存储介质。

第一方面，提供一种存储性能的决策树生成方法，所述方法包括：

获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；

根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；

根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。

在其中一个实施例中，所述根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性包括：

其中所述样本数据表包括属性数据和类别数据，所述属性数据包括属性和属性值，所述类别数据包括性能等级；

根据所述类别数据和下列公式计算出类别信息熵；

其中p_i＝同一所述性能等级的类别组数/总类别组数，m＝总类别组数；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

根据所述类别信息熵和所述属性信息熵计算出各属性的信息增益率并确定所述信息增益率最高的属性为所述分裂属性。

在其中一个实施例中，所述根据所述类别信息熵和所述属性信息熵计算出各属性的信息增益率并确定所述信息增益率最高的属性为所述分裂属性包括：

根据所述类别信息熵、所述属性信息熵和下列公式计算出各属性的信息增益；

Gain(A)＝Info(D)-Info_A(D)

根据所述属性数据和下列公式计算出各属性的属性分裂信息度量；

根据所述信息增益、所述属性分裂信息度量和下列公式计算出所述信息增益率；

在其中一个实施例中，所述根据所述分裂属性和所述样本数据表生成所述存储性能的决策树包括：

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

若是，则根据所述分裂节点和所述决策树算法生成所述叶子节点；

根据所有所述叶子节点生成所述决策树。

在其中一个实施例中，所述根据所述分裂属性和所述样本数据表生成分裂节点包括：

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

根据所述主属性、所述次属性、所述属性数据和所述类别数据生成所述分裂节点。

在其中一个实施例中，所述确定所述分裂节点是否需要继续分裂包括：

根据所述分裂节点和下列公式计算所述次属性的次属性信息熵；

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

在其中一个实施例中，所述根据所述分裂节点和所述决策树算法生成所述叶子节点包括：

根据所述决策树算法重新计算所述次属性的次信息增益率并确定所述次信息增益率最高的次属性为分裂子属性；

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

若是，则根据所述决策树算法继续分裂所述分裂子节点直到确定节点为所述叶子节点。

另一方面，提供一种存储性能的决策树生成装置，所述装置包括：

样本生成模块，用于获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；

属性确定模块，用于根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；

决策树生成模块，用于根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。

在其中一个实施例中，所述属性确定模块根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性包括：

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

在其中一个实施例中，所述属性确定模块根据所述类别信息熵和所述属性信息熵计算出各属性的信息增益率并确定所述信息增益率最高的属性为所述分裂属性包括：

Gain(A)＝Info(D)-Info_A(D)

在其中一个实施例中，所述决策树生成模块根据所述分裂属性和所述样本数据表生成所述存储性能的决策树包括：

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

在其中一个实施例中，所述决策树生成模块根据所述分裂属性和所述样本数据表生成分裂节点包括：

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

在其中一个实施例中，所述决策树生成模块确定所述分裂节点是否需要继续分裂包括：

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

在其中一个实施例中，所述决策树生成模块根据所述分裂节点和所述决策树算法生成所述叶子节点包括：

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

再一方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在其中一个实施例中，所述处理器执行所述计算机程序时实现以下步骤：

所述根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性包括：

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

所述根据所述类别信息熵和所述属性信息熵计算出各属性的信息增益率并确定所述信息增益率最高的属性为所述分裂属性包括：

Gain(A)＝Info(D)-Info_A(D)

所述根据所述分裂属性和所述样本数据表生成所述存储性能的决策树包括：

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

所述根据所述分裂属性和所述样本数据表生成分裂节点包括：

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

所述确定所述分裂节点是否需要继续分裂包括：

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

所述根据所述分裂节点和所述决策树算法生成所述叶子节点包括：

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

在其中一个实施例中，所述计算机程序被处理器执行时实现以下步骤：

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

Gain(A)＝Info(D)-Info_A(D)

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

所述确定所述分裂节点是否需要继续分裂包括：

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

通过获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。根据决策树算法和汇总生成的样本数据表计算出各个影响因素对存储性能的影响程度并生成相应的决策树，从而根据决策树实现对后续属性数据进行存储性能的精准预测；代替人工性能数据预测，避免人工预测结果与实际结果偏差过大，从根本上节省工作成本。

附图说明

图1为存储性能的决策树生成方法的流程示意图；

图2为存储性能的决策树生成方法的步骤示意图；

图3样本数据表的示例图；

图4为存储性能的决策树生成装置的结构示意图；

图5为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请执行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的存储性能的决策树生成方法，可以应用于如图1所示的存储性能的决策树生成方法的流程示意图中，其中类别信息熵表示的是所有样本中各种类别出现的不确定性之和，熵的值越大，不确定性就越大；每个属性信息熵相当于一种条件熵，表示的是在某种属性的条件下，各种类别出现的不确定性的和，属性信息熵越大，表示这个属性中拥有的样本类别越不“纯”；信息增益的＝类别信息熵-属性信息熵，它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大，就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性，当然，选择该属性就可以更快更好地完成我们的分类目标；用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息，信息增益率用信息增益/内在信息，会导致属性的重要性随着内在信息的增大而减小(也就是说，如果这个属性本身不确定性就很大，就越不倾向于选取它)，这样算是对单纯用信息增益有所补偿。

在一个实施例中，如图2所示，本发明提供一种存储性能的决策树生成方法，所述方法包括：

S201、获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；

S202、根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；

S203、根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。

具体的，根据汇总生成的样本数据表和C4.5算法确定影响存储性能最大的影响因素(分裂属性)并生成分裂节点，再确定分裂节点是否需要分裂，若是，则确定分裂节点中影响存储性能最大的影响因素(分裂子属性)并生成分裂子节点；若否，则确定分裂节点为叶子节点并生成对应的决策树。

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

具体的，生成的样本数据表可以如图3所示，其中属性数据中包含多个属性和具体的属性值，属性不仅包括图3中的CPU核数、内存主频、内存大小和磁盘读写速度，还可以包括CPU主频、磁盘数量、RAID类型、外插卡传输速率、缓存分区、自动分层和并发数等，类别数据包括性能等级，其中有高中低三级，每一组数据都包含具体的属性数据和类别数据。根据图3中的类别数据和上述计算Info(D)(类别信息熵)的公式计算出类别信息熵。具体的计算过程如下：Info(D)＝-6/24*log₂(6/24)-5/24*log₂(5/24)-13/24*log₂(13/24)，其中p_i＝同一所述性能等级的类别组数/总类别组数，即根据图3所示的样本数据表可知，m＝24，从i＝1开始计算一直到i＝m＝24，p_i有三种结果，分别是6/24(根据性能等级为低的6组类别组数和总的24组类别组数相除得到)、5/24(根据性能等级为中的5组类别组数和总的24组类别组数相除得到)、13/24(根据性能等级为高的13组类别组数和总的24组类别组数相除得到)。根据图3中的属性数据和计算Info_A(D)的公式计算出各个属性的的属性信息熵，其中Info_A(D)中的A代表样本数据表中的CPU核数、内存主频、内存大小和磁盘读写速度这四种属性，即计算出的Info_A(D)包含四个属性信息熵分别是Info_CPU核数(D)、Info_内存主频(D)、Info_内存大小(D)和Info_{磁盘读写速度}(D)。其中Info _CPU核数(D)的计算过程如下：Info _CPU核数(D)＝8/24*[-4/8*log₂(4/8)-1/8*log₂(1/8)-3/8*log₂(3/8)]+8/24*[-2/8*log₂(2/8)-2/8*log₂(2/8)-4/8*log₂(4/8)]+8/24*[-8/8*log₂(8/8)]。其中，Info(D_j)和上述Info(D)的运算类似，以CPU核数为“10”举例，在CPU核数为“10”的8组数据中，有性能等级低的4组类别组数、性能等级中的3组类别组数和性能等级高的1组类别组数，则Info(D_j)有一组结果为“-4/8*log₂(4/8)-1/8*log₂(1/8)-3/8*log₂(3/8)”，另外根据8组CPU核数为“16”的数据，Info(D_j)有一组结果为“-2/8*log₂(2/8)-2/8*log₂(2/8)-4/8*log₂(4/8)”；根据8组CPU核数为“20”的数据，Info(D_j)有一组结果为“-8/8*log₂(8/8)”。并且

v＝总属性组数，根据样本数据表可知，相同CPU核数的属性组数都是8个，而CPU核数的属性组数一共24个，总属性组数也是24个，(样本数据表中总属性组数和相应的CPU核数和内存主频等的属性组数相等，不存在一组属性数据或者类别数据中缺少某一属性或某一性能等级的情况)，然后计算出

都等于8/24。通过上述计算过程最终算出Info_CPU核数(D)，其余属性信息熵的计算过程和上述计算过程类似，在此不再赘述。

Gain(A)＝Info(D)-Info_A(D)

具体的，根据计算信息增益的公式，代入上述计算出的Info(D)、Info_CPU核数(D)、Info_内存主频(D)、Info_内存大小(D)和Info_{磁盘读写速度}(D)，得到Gain(CPU核数)、Gain(内存大小)、Gain(内存主频)和Gain(磁盘读写速度)。再根据计算属性分裂信息度量的公式，其中

如上所述，计算出SplitInfo_CPU核数(D)＝-8/24*log₂(8/24)-8/24*log₂(8/24)-8/24*log₂(8/24)，计算其余属性的SplitInfoA(D)和上述过程类似。然后根据计算信息增益率的公式，得出GainRatio(CPU核数)，计算GainRatio(内存大小)、GainRatio(内存主频)和GainRatio(磁盘读写速度)的过程和上述类似，在此不再赘述。最终比较四个属性的信息增益率，最终确定比如CPU核数的信息增益率最大，从而确定CPU核数作为分裂属性。

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

具体的，如上所述，将CPU核数作为分裂属性根据样本数据表生成三个分裂节点，分别是“10”、“16”和“20”CPU核数的分裂节点，每个分裂节点中都包含八组属性数据和对应的类别数据，生成分裂节点之后确定是否需要再次分裂，如果不需要，则将分裂节点作为决策树的叶子节点。

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

具体的，如上所述，在“20”CPU核数的分裂节点中，CPU核数作为主属性，其余属性为次属性，分裂节点中包含属性数据和类别数据，如该分裂节点包括主属性CPU核数“20”和“内存大小128、内存主频2666、键盘读写速度256、性能等级高”，“内存大小256、内存主频2666、键盘读写速度256、性能等级高”等一共八组相关数据。再比如在“10”CPU核数的分裂节点中，包含主属性CPU核数“10”和“内存大小128、内存主频2666、键盘读写速度128、性能等级低”，“内存大小256、内存主频2666、键盘读写速度128、性能等级低”等一共八组相关数据。

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

具体的，根据“20”CPU核数的分裂节点中的八组数据和下列公式计算次属性的次属性信息熵，

比如Info_内存主频(D)’、Info_内存大小(D)’和Info_{磁盘读写速度}(D)’，其中Info_内存大小(D)’＝2/8*[-2/2*log₂(2/2)]+2/8*[-2/2*log₂(2/2)]+2/8*[-2/2*log₂(2/2)]+2/8*[-2/2*log₂(2/2)]＝0，其中2/8是根据分裂节点中包含8组内存大小相关属性值和内存大小“128”、“256”、“512”、“1024”各2组计算得出，2/2是根据每两组“128”、“256”、“512”、“1024”内存大小对应的性能等级都为高。然后依次算出“20”CPU核数的分裂节点中的Info_内存主频(D)’和Info_{磁盘读写速度}(D)’，结果都为0，而信息熵阈值是由用户根据实际情况设置且一定大于0，其中信息熵阈值越小，决策树的叶子节点就越多但相应的所需的时间和运算量越高。根据上述的计算结果判断出“20”CPU核数的分裂节点中的所有次属性信息熵都小于信息熵阈值，所以该分裂节点无需继续分裂，即该节点可以作为叶子节点用于生成决策树。再比如计算“16”CPU核数的分裂节点中的Info_内存主频(D)’、Info_内存大小(D)’和Info_{磁盘读写速度}(D)’，其中Info_内存主频(D)’＝4/8*[-2/4*log₂(2/4)-2/4*log₂(2/4)]+4/8*[-4/4*log₂(4/4)]＝1/2，Info_内存大小(D)’＝2/8*[-1/2*log₂(1/2)-1/2*log₂(1/2)]+2/8*[-1/2*log₂(1/2)-1/2*log2(1/2)]+2/8*[-1/2*log₂(1/2)-1/2*log₂(1/2)]+2/8*[-1/2*log₂(1/2)-1/2*log₂(1/2)]＝1，Info_{磁盘读写速度}(D)’＝4/8*[-2/4*log₂(2/4)-2/4*log₂(2/4)]+4/8*[-2/4*log₂(2/4)-2/4*log2(2/4)]＝1，若用户设置的信息熵阈值为0.6，则有两个次属性信息熵大于信息熵阈值，该“16”CPU核数的分裂节点需要继续分裂，不能作为叶子节点。

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

具体的，根据C4.5算法计算“16”CPU核数的分裂节点中次属性(内存大小、内存主频和键盘读写速度)的次信息增益率，计算过程和上述计算过程类似，如通过下列公式计算出该分裂节点的类别信息熵；

Info(D)＝-2/8*log₂(2/8)-2/8*log₂(2/8)-4/8*log₂(4/8)＝3/2，再根据上述计算好的Info_内存主频(D)’、Info_内存大小(D)’和Info_{磁盘读写速度}(D)’，以及下列公式

Gain(A)＝Info(D)-Info_A(D)

计算出各次属性的次信息增益，分别为Gain’(内存大小)＝1/2,Gain’(内存主频)＝1以及Gain’(硬盘读写速度)＝1/2。然后根据下列公式

计算出各次属性的次属性分裂信息度量，分别为SplitInfo’_内存大小(D)＝-2/8*log₂(2/8)-2/8*log₂(2/8)-2/8*log₂(2/8)-2/8*log₂(2/8)＝2，SplitInfo’_内存主频(D)＝-4/8*log₂(4/8)-4/8*log₂(4/8)＝1，SplitInfo’_{硬盘读写速度}(D)＝-4/8*log₂(4/8)-4/8*log₂(4/8)＝1。最终根据上述数据和下列公式

计算出各次属性的次信息增益率，包括GainRatio’(内存大小)＝0.5/2＝1/4、GainRatio’(内存主频)＝1/1＝1和GainRatio’(磁盘读写速度)＝0.5/1＝1/2。比较得出在需要分裂的“16”CPU核数的分裂节点中内存主频的次信息增益率最大，则将次属性(内存主频)作为分裂子属性并根据“16”CPU核数的分裂节点生成两个分裂子节点，一个分裂子节点包括主属性“CPU核数16”、分裂子属性“内存主频2666”和四组“内存大小128硬盘读写速度128性能等级低”等类似数据；另一分裂子节点包括主属性“CPU核数16”、分裂子属性“内存主频2933”和四组“内存大小128硬盘读写速度128性能等级高”等类似数据。在生成两个分裂子节点之后，确定分裂子节点是否还需分裂，确定方法和上述确定分裂节点是否还需分裂方法类似，在此不再赘述，如无需分裂，则分裂子节点作为叶子节点用于生成决策树；如还需分裂，则分裂分裂子节点的方法和上述分裂分裂节点的方法类似，在此不再赘述。

本申请的方案有如下有益效果：

1)通过决策树算法和汇总生成的样本数据表计算出各个影响因素对存储性能的影响程度并生成相应的决策树，从而根据决策树实现对后续属性数据进行存储性能的精准预测；

2)代替人工性能数据预测，避免人工预测结果与实际结果偏差过大，从根本上节省工作成本。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次执行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供一种存储性能的决策树生成装置，所述装置包括：

样本生成模块401，用于获取存储性能相关的测试数据并根据所述测试数据生成样本数据表；

属性确定模块402，用于根据所述样本数据表和决策树算法确定所述样本属性数据表中的分裂属性；

决策树生成模块403，用于根据所述分裂属性和所述样本数据表生成所述存储性能的决策树。

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

Gain(A)＝Info(D)-Info_A(D)

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

关于存储性能的决策树生成装置的具体限定可以参见上文中对于存储性能的决策树生成方法的限定，在此不再赘述。上述存储性能的决策树生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现告警信息处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

Gain(A)＝Info(D)-Info_A(D)

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

所述确定所述分裂节点是否需要继续分裂包括：

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述类别数据和下列公式计算出类别信息熵；

根据所述属性数据和下列公式计算出各属性的属性信息熵；

其中

v＝总属性组数；

Gain(A)＝Info(D)-Info_A(D)

根据所述分裂属性和所述样本数据表生成分裂节点；

确定所述分裂节点是否需要继续分裂；

若否，则确定所述分裂节点为叶子节点；

根据所有所述叶子节点生成所述决策树。

确定所述分裂属性为所述分裂节点的主属性；

确定除所述分裂属性之外的其余属性为次属性；

所述确定所述分裂节点是否需要继续分裂包括：

确定是否至少有一个所述次属性信息熵超过信息熵阈值；

若是，则确定所述分裂节点需要继续分裂；

若否，则确定所述分裂节点为叶子节点。

根据所述分裂子属性和所述分裂节点生成多个分裂子节点；

确定所述分裂子节点是否需要继续分裂；

若否，则确定所述分裂子节点为所述叶子节点；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以执行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都执行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。