CN113191771A

CN113191771A - 采购商账期风险预测方法

Info

Publication number: CN113191771A
Application number: CN202110295798.7A
Authority: CN
Inventors: 郑鑫; 刘鹏飞; 徐楠楠
Original assignee: Qingdao Mengdou Network Technology Co ltd
Current assignee: Qingdao Mengdou Network Technology Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-30

Abstract

本发明公开采购商账期风险预测方法，所述方法包括：步骤一，根据采购商的账期风险结果的数据信息记录，构建训练数据集F和类别属性数据集R；步骤二，根据步骤一获取的训练数据集F和类别属性数据集R，构建基于C4.5算法的决策树；步骤三，采用悲观剪枝的方法，自上而下对步骤二构建的决策树进行剪枝，并确定最终的决策树模型；步骤四，根据需预判账期风险的采购商的数据信息确定待分类样本X，并对样本X进行数据预处理，然后按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性。本发明方法采用C4.5决策树的方法对采购商账期风险进行预判，给予供应商有价值的风险预测参考，能够在一定程度上改善账期风险判断的准确性和效率。

Description

采购商账期风险预测方法

技术领域

本发明属于数据处理技术领域，具体涉及采购商账期风险预测方法。

背景技术

账期是指从供应商向采购商供货后，直到采购商付款的这段时间。给予采购商账期，采购商能够节省大量的资金，尤其是交易的时间会非常快捷，减少了沟通成本；但由于采购商会存在拖欠款的情况，对供应商造成极大的不利影响。对于供应商是否给予采购商账期，是否存在风险，目前一般采用人工评估的方法进行判断是否给予采购商账期。

而现有技术中缺乏合适的自动评估方法。有鉴于此，有必要提供一种采购商账期风险预测方法，以解决上述问题。

发明内容

本发明的目的是：针对背景技术描述的问题，本发明提供采购商账期风险预测方法，采用C4.5决策树的方法对采购商账期风险进行预判，给予供应商有价值的风险预测参考，能够在一定程度上改善账期风险判断的准确性和效率。

为了解决上述问题，本发明所采用的技术方案是：

采购商账期风险预测方法，其特征在于，包括如下步骤：

步骤一，根据采购商的账期风险结果的数据信息记录，构建训练数据集F和类别属性数据集R；

步骤二，根据步骤一获取的训练数据集F和类别属性数据集R，构建基于C4.5算法的决策树；

步骤三，采用悲观剪枝的方法，自上而下对步骤二构建的决策树进行剪枝，并确定最终的决策树模型；

步骤四，根据需预判账期风险的采购商的数据信息确定待分类样本X，并对样本X进行数据预处理，然后按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性。

进一步的，所述步骤一中的构建训练数据集F，具体步骤包括：

构建训练数据集F，F中的一条数据对应于一个采购商的一次账期风险结果的数据信息记录；F是大小为m×n的矩阵，其中m为矩阵F的行数，表示训练集F中的数据条数；n为矩阵F的列数，表示训练集F中的属性个数，要求数据集F中的各个属性的对应的特征值不能为空，训练集F中的样本的属性包括采购商的基本信息、采购商在平台上的行为情况、采购商在平台上的供应商对其的评价。

进一步的，所述采购商的基本信息、采购商在平台上的行为情况、采购商在平台上的供应商对其的评价，具体包括：

(1)采购商的基本情况包括经营地点、注册资金、实缴资金、人员规模、参保人数、司法风险条数、经营风险条数；

(2)采购商在平台上的行为情况包括采购次数、采购金额、采购付款及时次数、采购付款超时次数、采购付款超时平均天数、采购次数的稳定性、采购金额的稳定性；

(3)采购商在平台上的供应商对其的评价包括供应商对其的点赞、点踩、评价的情感属性、评价的平均星级。

进一步的，所述步骤一中的构建类别属性数据集R，具体步骤包括：

R中的每个类别属性对应训练集中F的每条数据，对于训练集F中的每条数据：

(1)若此条数据为没有账期的数据，则该条数据的类别属性为0；

(2)若此条数据为有账期的数据，且在该账期内未及时付款，则将该条数据的类别属性标记为0；

(3)若此条数据为有账期的数据，且在账期内及时付款，则将该条数据的类别属性标记为1。

类别属性为0的样本为负样本，表示该样本的账期有风险；类别属性为1的样本为正样本，表示该样本的账期无风险。

进一步的，所述步骤二中的构建基于C4.5算法的决策树，具体步骤包括：

1、由步骤一获取，训练数据集F和类别属性数据集R；

2、对训练数据集F进行预处理，对连续型的属性特征进行离散化处理，形成集合D；

3、计算每个属性的属性熵、信息增益和信息增益率；

4、确定根节点，将信息增益率最大的节点作为根节点属性，根节点属性每一个可能的取值对应一个子集，对样本子集递归地执行以上步骤3过程，直到划分的每个子集中的样本数据在分类属性上取值都相同，生成决策树。

进一步的，所述步骤2中的对训练数据集F进行预处理，对连续型的属性特征进行离散化处理，形成集合D，具体步骤包括：

2.1将训练集F中的每个连续型的属性特征按照连续变量的大小从小到大进行排序，并进行去重，构成集合A；

A＝{a₁，a₂，...，a_i，a_i+1，...，a_k}，1≤i≤k-1

其中，k表示集合A中的特征值个数，1≤k≤m；a_i表示集合A中的第i个属性特征值；

2.2分割阈值点集合，每个候选的分割阈值点的对应值为集合A中的两两前后连续的元素的中点，即分割阈值点集合为：

T＝{t₁，t₂，...，t_i，...，t_k-1}，1≤i≤k-1

其中，T表示分割阈值点集合，t_i表示集合T中的第i个阈值点，a_i表示集合A中的第i个属性特征值，a_i+1表示集合A中的第i+1个属性特征值；

2.3计算数据集D的熵：

其中，Ent(D)表示数据集D的熵，w表示根据集合R中的样本类别属性值将D划分成不同的类的个数，D_i表示数据集D划分的第i个类，|D|表示数据集D中的样本总数量(|D|＝m)，|D_i|表示数据集D中的样本根据样本的类别属性划分至类D_i中的样本数量；

2.4计算不同分类阈值点划分的数据集合的熵：

以分割阈值点t_i为界，按照离散型属性特征a≥t_i和a＜t_i对数据集D进行划分，得到不同的数据集{D^j|j＝1，2}，计算D^j的熵：

Ent(D^j)表示数据集合D^j的熵，u表示根据样本类别属性值将D^j划分成不同的类的个数，此处的u＝2；D_i ^j表示数据集D^j划分的第i个类，|D^j|表示数据集D^j中的样本总数量，|D_i ^j|表示数据集D^j中的样本根据样本的类别属性划分至类D_i ^j中的样本数量；

2.5计算信息增益：

其中，Gain(D，t_i)表示分割阈值点t_i划分数据集D的信息增益，v表示以该属性划分的数据集合的个数，此处涉及的v＝2；

2.6确定分割阈值点，选择最优的分割阈值点进行样本集合的划分：

选择使信息增益Gain(D，t_i)最大的分割阈值点，作为该连续型属性特征离散化的二分的划分点，获得分割阈值t，即对应的使得信息增益最大的阈值分割点；

2.7获得离散化属性特征：

将该连续型属性特征，转换为离散型属性特征，特征值为a≥t或a＜t；将原始的连续型属性特征值，转换成该离散型属性特征。

进一步的，所述步骤3中的计算每个属性的属性熵、信息增益和信息增益率，具体步骤包括：

3.1计算属性的属性熵：

其中，IV(d_j)表示按照属性d_j划分样本的属性熵，d_j表示数据集D中样本的第j个属性特征，u表示按照属性值划分数据集D的获得的集合个数，Dⁱ表示获得的第i个数据集合，|D|表示数据集D的样本数量，|Dⁱ|表示数据集合Dⁱ的样本个数；

3.2计算信息增益

其中，Gain(D，d_j)表示由属性特征d_j划分数据集D的信息增益，v表示以该属性划分的数据集D得到的数据集合的个数，Ent(Dⁱ，d_j)表示按照样本类别属性划分数据集合Dⁱ的熵，u表示照样本类别属性划分数据集合Dⁱ获得的样本集合的个数，D_k ⁱ表示划分的第k个数据集合；

3.3计算信息增益率

进一步的，所述步骤三中的采用悲观剪枝的方法，自上而下对步骤二构建的决策树进行剪枝，并确定最终的决策树模型，具体步骤包括：

1、计算根节点P构成的子树的误判率：

其中，e(P)表示根节点P构成的子树的误判率，L表示子树的叶子节点数，E_i表示分类至第i个叶子节点中样本误判类别的个数，N_i表示分类至第i个叶子节点中的样本总数，0.5是在误判计算加上一个经验性的惩罚因子；

2、计算该树的误判次数均值：

其中，E(P)表示该树的误判均值，e(P)表示该树的误判率，

表示该树覆盖的样本总数；

3、计算该树的误判次数标准差：

其中，Var(P)表示该树的误判次数标准差；

4、剪枝，将子树替换为叶子节点，并确定该叶子节点的分类，计算该子树覆盖的所有样本，统计样本的类别属性，样本数量较多的对应的类别将作为该叶子节点的类别属性；若数量相同，则取类别属性中的正类作为该叶子节点的类别属性；

5、计算剪枝之后的错误率：

其中，e′(P)表示该树剪枝之后的错误率，N表示样本总数，

6、计算剪枝之后的误判次数均值：

E′(P)＝e′(P)×N

其中，E′(P)表示该树剪枝之后的误判均值；

7、判断是否对该树进行剪枝，剪枝条件如下所示：

E(P)+Var(P)＞E′(P)

上式表示剪枝标准，若满足该条件，则对该树进行剪枝，将其替换为叶子节点；若不满足该条件，则保留该树，不进行剪枝；

8、更新树，自上而下对构建的决策树的非叶子节点的节点通过步骤1-7判断是否剪枝，并确定最终的决策树模型。

进一步的，所述步骤四中的根据需预判账期风险的采购商的数据信息确定待分类样本X，并对样本X进行数据预处理，然后按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性，具体步骤包括：

1、确定待分类样本X，则样本X中应有m个属性特征值，样本X表示需预判账期风险的采购商的数据信息；

2、数据预处理：若样本X中存在少量的缺失的属性特征，则通过训练集对样本X缺失的属性特征值进行补充，缺失的属性特征数量不能超过分割阈值

其中M＝10，M的取值可根据实际应用情况以及应用时的属性特征数量进行适当调整，若样本的属性特征数量缺失超过

则无需进入以下步骤，则可将该样本直接确定分类属性为负样本；

2.1、连续型属性特征的补充：取训练集中所有样本该属性的平均值作为该样本此属性的对应特征值；

2.2、离散型属性特征的补充：取训练集中所有样本该属性中样本数量最多的属性特征值，作为该样本此属性的对应特征值；

3、按照步骤2中的分割阈值

将对应的连续型属性特征转换为离散型属性特征；

4、按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性；若分类属性为0，则表示该样本代表的采购商，账期有风险，不对其给予账期；若分类属性为1，则表示该样本代表的采购商，账期无风险，可以给予其账期。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明的采购商账期风险预测方法的有益效果包括：

1、能够通过训练集自动确定账期风险的决策树模型，充分利用先验知识但不掺杂人的主观因素，依据已有的风险情况，通过学习找到一个从属性特征到类别的映射关系，并且这个映射关系能够用于对新的样本的类别进行分类，能够保证其客观性和直观性。

2、不需要任何领域知识或者参数设置，减少人工干预，在探测中进行知识发现，不掺杂人为因素，结果较为客观。

3、适应性较强，实际应用时能够处理缺少少量属性值的样本。

4、能够为供应商提供一个较为客观的风险预测结果，能够为供应商给予采购商账期时提供一定的科学依据。

5、降低供应商在给予采购商账期时的风险，能够在一定程度上降低供应商的资金负担、经营风险，以及减少后期的业务发展的资金压力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例公开的采购商账期风险预测方法的流程图。

图2为本发明实施例公开的例1C4.5决策树构建算法示例所生成的决策树。

图3为本发明实施例公开的例2悲观剪枝示例假设存在的决策树。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供一种采购商账期风险预测方法。所述方法采用C4.5决策树的方法对采购商账期风险进行预判，给予供应商有价值的风险预测参考，能够在一定程度上改善账期风险判断的准确性和效率。所述方法包括：步骤一，根据采购商的账期风险结果的数据信息记录，构建训练数据集F和类别属性数据集R；步骤二，根据步骤一获取的训练数据集F和类别属性数据集R，构建基于C4.5算法的决策树；步骤三，采用悲观剪枝的方法，自上而下对步骤二构建的决策树进行剪枝，并确定最终的决策树模型；步骤四，根据需预判账期风险的采购商的数据信息确定待分类样本X，并对样本X进行数据预处理，然后按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性。下面对本发明方法进行详细描述。

一、构建训练数据集F和类别属性数据集R

1、构建训练数据集F(F中的一条数据为一次的账期风险结果的数据信息记录，与企业无关，即一个采购商可能存在多条账期风险结果的数据信息记录，即对应F中的多条数据样本)。F是大小为m×n的矩阵，其中m为矩阵F的行数，表示训练集F中的数据条数；n为矩阵F的列数，表示训练集F中的属性个数。要求数据集F中的各个属性的对应的特征值不能为空。训练集F中的样本的属性包括不限于，采购商的基本信息、采购商在平台上的行为情况、采购商在平台上的供应商对其的评价等信息。

(1)采购商的基本情况(经营地点、注册资金、实缴资金、人员规模、参保人数、司法风险条数、经营风险条数等)；

(2)采购商在平台上的行为情况(采购次数、采购金额、采购付款及时次数、采购付款超时次数、采购付款超时平均天数、采购次数的稳定性、采购金额的稳定性等)；

(3)采购商在平台上的供应商对其的评价(供应商对其的点赞、点踩、评价的情感属性、评价的平均星级等)等信息。

2、构建类别属性数据集R，R中的每个类别属性对应训练集中F的每条数据。对于训练集F中的每条数据：

二、基于C4.5算法的决策树构建方法步骤：

1、由步骤一获取训练数据集F和类别属性数据集R。

2、对训练集F进行预处理，对连续型的属性特征进行离散化处理，形成集合D。

2.1将训练集F中的每个连续型的属性特征按照连续变量的大小从小到大进行排序，并进行去重，构成集合A。

A＝{a₁，a₂，...，a_i，a_i+1，...，a_k}，1≤i≤k-1

其中，k表示集合A中的特征值个数，1≤k≤m；a_i表示集合A中的第i个属性特征值。

T＝{t₁，t₂，...，t_i，...，t_k-1}，1≤i≤k-1

其中，T表示分割阈值点集合，t_i表示集合T中的第i个阈值点，a_i表示集合A中的第i个属性特征值，a_i+1表示集合A中的第i+1个属性特征值。

2.3计算数据集D的熵：

其中，Ent(D)表示数据集D的熵，w表示根据集合R中的样本类别属性值将D划分成不同的类的个数，D_i表示数据集D划分的第i个类，|D|表示数据集D中的样本总数量(|D|＝m)，|D_i|表示数据集D中的样本根据样本的类别属性划分至类D_i中的样本数量。

2.4计算不同分类阈值点划分的数据集合的熵：

Ent(D^j)表示数据集合D^j的熵，u表示根据样本类别属性值将D^j划分成不同的类的个数，此处的u＝2；D_i ^j表示数据集D^j划分的第i个类，|D^j|表示数据集D^j中的样本总数量，|D_i ^j|表示数据集D^j中的样本根据样本的类别属性划分至类D_i ^j中的样本数量。

2.5计算信息增益：

其中，Gain(D，t_i)表示分割阈值点t_i划分数据集D的信息增益。v表示以该属性划分的数据集合的个数，此处涉及的v＝2。

选择使信息增益Gain(D，t_i)最大的分割阈值点，作为该连续型属性特征离散化的二分的划分点。获得分割阈值t，即对应的使得信息增益最大的阈值分割点。

2.7获得离散化属性特征：

将该连续型属性特征，转换为离散型属性特征，特征值为a≥t或a＜t。将原始的连续型属性特征值，转换成该离散型属性特征。

3、计算每个属性的属性熵、信息增益和信息增益率。

3.1计算属性的属性熵：

其中，IV(d_j)表示按照属性d_j划分样本的属性熵，d_j表示数据集D中样本的第j个属性特征，u表示按照属性值划分数据集D的获得的集合个数，Dⁱ表示获得的第i个数据集合。|D|表示数据集D的样本数量，|Dⁱ|表示数据集合Dⁱ的样本个数。

3.2计算信息增益

其中，Gain(D，d_j)表示由属性特征d_j划分数据集D的信息增益，v表示以该属性划分的数据集D得到的数据集合的个数，Ent(Dⁱ，d_j)表示按照样本类别属性划分数据集合Dⁱ的熵，u表示照样本类别属性划分数据集合Dⁱ获得的样本集合的个数，D_k ⁱ表示划分的第k个数据集合。

3.3计算信息增益率

4、确定根节点，将信息增益率最大的节点作为根节点属性，根节点属性每一个可能的取值对应一个子集，对样本子集递归地执行以上Step3过程，直到划分的每个子集中的样本数据在分类属性上取值都相同，生成决策树。

三、后剪枝——悲观剪枝(PEP)

采用悲观剪枝的方法对构造的决策树进行剪枝，采用自上而下的方式对步骤二构建的决策树进行剪枝。

1、计算根节点P构成的子树的误判率：

其中，e(P)表示根节点P构成的子树的误判率，L表示子树的叶子节点数，E_i表示分类至第i个叶子节点中样本误判类别的个数，N_i表示分类至第i个叶子节点中的样本总数，0.5是在误判计算加上一个经验性的惩罚因子。

2、计算该树的误判次数均值：

其中，E(P)表示该树的误判均值，e(P)表示该树的误判率，

表示该树覆盖的样本总数。

3、计算该树的误判次数标准差：

其中，Var(P)表示该树的误判次数标准差。

4、剪枝，将子树替换为叶子节点，并确定该叶子节点的分类。计算该子树覆盖的所有样本，统计样本的类别属性，样本数量较多的对应的类别将作为该叶子节点的类别属性；若数量相同，则取类别属性中的正类作为该叶子节点的类别属性。

5、计算剪枝之后的错误率：

其中，e′(P)表示该树剪枝之后的错误率，N表示样本总数，

6、计算剪枝之后的误判次数均值：

E′(P)＝e′(P)×N

其中，E′(P)表示该树剪枝之后的误判均值。

7、判断是否对该树进行剪枝，剪枝条件如下所示：

E(P)+Var(P)＞E′(P)

上式表示剪枝标准，若满足该条件，则对该树进行剪枝，将其替换为叶子节点；若不满足该条件，则保留该树，不进行剪枝。

四、应用决策树

1、确定待分类样本X，则样本X中应有m个属性特征值(样本X表示需预判账期风险的采购商的数据信息)。

2、数据预处理。若样本X中存在少量的缺失的属性特征，则通过训练集对样本X缺失的属性特征值进行补充。缺失的属性特征数量不能超过

其中M＝10，M的取值根据实际应用情况以及应用时的属性特征数量相关。若样本的属性特征数量缺失超过

则无需进入以下步骤，则可将该样本直接确定分类属性为负样本。

2.1、连续型属性特征的补充。取训练集中所有样本该属性的平均值作为该样本此属性的对应特征值。

2.2、离散型属性特征的补充。取训练集中所有样本该属性中样本数量最多的属性特征值，作为该样本此属性的对应特征值。

3、按照步骤二中的分割阈值

将对应的连续型属性特征转换为离散型属性特征。

4、按照步骤二以及步骤三构建的决策树模型，对该待分类样本进行分类，确定其分类属性。若分类属性为0，则表示该样本代表的采购商，账期有风险，不对其给予账期；若分类属性为1，则表示该样本代表的采购商，账期无风险，可以给予其账期。

C4.5决策树构建算法示例：

例1、假设存在数据集F和对应的类别集合，数据如表1所示(为便于计算展示，此例展示的属性个数，非最终分属性个数。此例中涉及的属性分类为经营风险条数、司法风险条数、实缴资金(单位万元))：

表1数据集F和类别集合

其中，数据集F，是大小为5×3的矩阵，其中共包含5条数据，每条数据有3个属性特征；3个属性特征中，F1和F2属性特征为离散值型属性特征，F3属性特征为连续值型属性特征。集合R，是数据集F中每条数据对应的类别属性。

1、对训练集F进行预处理。数据F中的F3对应的属性特征是连续型属性，将其进行离散化处理。

(1)数据F中的F3对应的数据，按照从小到大进行排序，并去重，构成集合A＝[70，95，100，120，125]，集合A中特征值的个数k＝5。

(2)分割阈值点集合：

(3)计算分割阈值点的信息增益

(3.1)计算矩阵D的熵：

(3.1)当选择分割阈值点t＝t₁＝82.5时，数据集D可以以此为界二分为2个集合，分别表示D¹和D²：

计算D¹和D²的熵：

计算信息增益：

同理计算当t为t₂，t₃，t₄时的信息增益：

当t＝t₂＝97.5时：

当t＝t₃＝110时：

当t＝t₄＝122.5时：

(4)确定分割阈值点，

即当t＝t₂＝97.5时的信息增益最大，将其作为分割阈值。

即将该连续型属性特征转换为离散型属性特征，如下所示：

原始连续型属性特征：A＝[70，95，100，120，125]

离散型属性特征：A′＝[＜97.5，＜97.5，≥97.5，≥97.5，≥97.5]

则数据集D为：

2、计算每个属性的属性熵、信息增益和信息增益率。

(1)计算数据集合D的第一个属性d₁，即对应矩阵的第一列属性的属性熵、信息增益、信息增益率。

(1.1)根据属性d₁可以将数据集D划分为两个数据集合，表示为D¹和D²，如下所示：

(1.2)计算属性d₁对应属性熵为：

(1.3)由属性特征d₁划分数据集D的信息增益Gain(D，d₁)：

(1.4)计算属性d₁对应信息增益率：

(2)计算数据集合D的第一个属性d₂，即对应矩阵的第二列属性的属性熵、信息增益、信息增益率。

(2.1)根据属性d₂可以将数据集D划分为三个数据集合，表示为D¹、D²和D³，如下所示：

(2.2)计算属性d₂对应属性熵为：

(2.3)由属性特征d₂划分数据集D的信息增益Gain(D，d₂)：

(2.4)计算属性d₂对应信息增益率：

(3)计算数据集合D的第一个属性d₃，即对应矩阵的第三列属性的属性熵、信息增益、信息增益率。

(3.1)根据属性d₃可以将数据集D划分为三个数据集合，表示为D¹和D²，如下所示：

(3.2)计算属性d₃对应属性熵为：

(3.3)由属性特征d₃划分数据集D的信息增益Gain(D，d₃)，已在步骤1中计算，不再此重复计算，Gain(D，d₃)＝0.9710。

(3.4)计算属性d₃对应信息增益率：

3、确定根节点，此处的三个属性中，第三个属性d₃节点的信息增益率最大，因此选择该阶段作为该次的根节点属性，根节点属性每一个可能的取值对应一个子集，对样本子集递归地执行以上过程，直到划分的每个子集中的样本数据在分类属性上取值都相同，生成决策树。在该例中，由d₃属性划分的每个自己中的样本数据在分类属性值都相同，即可不向下循环，生成决策树，如图2所示。

例2、悲观剪枝示例

假设存在决策树，如图3所示。

节点P1、P2、P3、P4，叶子节点是类别属性，用0或1进行表示，叶子节点下面的表格是训练集样本分类的类别和对应样本数量。其剪枝过程为，以节点P1和P4为例：

1、P1为根节点的子树，判断是否剪枝过程示例：

该树的叶子节点数L＝6，N＝14+1+1+4+3+2+1+44+6+0+0+4＝80。

(1)计算误判率：

(2)计算误判次数均值：

E(P1)＝0.1×(15+5+5+45+6+4)＝0.1×80＝8

(3)计算误判次数标准差：

(4)剪枝，该树覆盖的样本中，类别为0的有25个样本，类别为1的有55个样本，所以替换该树的叶子节点的类别属性为1。

(5)计算剪枝之后的错误率：

(6)计算剪枝之后的误判次数均值：

E′(P1)＝0.31875×80＝25.5

(7)判断：E(P1)+Var(P1)＝8+2.6833＝10.6833＜25.5＝E′(P1)

即E(P1)+Var(P1)＞E′(P1)条件不成立，即该树不符合剪枝标准，即不剪枝。

2、P4为根节点的子树，判断是否剪枝过程示例：

该树的叶子结点数L＝2，N＝3+2+1+44＝50。

(1)计算误判率：

(2)计算误判次数均值：

E(P4)＝0.08×50＝4

(3)计算误判次数标准差：

(4)剪枝，该树覆盖的样本中，类别为0的有4个样本，类别为1的有46个样本，所以替代该树的叶子节点的类别属性为1。

(5)计算剪枝之后的错误率：

(6)计算剪枝之后的次数均值：

E′(P4)＝0.09×50＝4.5

(7)判断：E(P4)+Var(P4)＝4+1.9183＝5.9183＞4.5＝E′(P4)

即E(P4)+Var(P4)＞E′(P4)条件成立，即该树符合剪枝标准，即进行剪枝。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。