CN106611181A

CN106611181A - 基于代价敏感二维尺度决策树构造方法

Info

Publication number: CN106611181A
Application number: CN201610375413.7A
Authority: CN
Inventors: 金平艳; 胡成华
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2017-05-03

Abstract

本发明提出了基于代价敏感二维尺度决策树构造方法，涉及人工智能、机器学习技术领域，该方法应用测试代价与误分类代价之和最小值进行属性选择，依次构造决策树，利用测试代价指标函数、误分类代价函数、信息增益函数求解总代价成本目标函数，为了解决得出的决策树存在过渡拟合问题，提出了后剪支方案，使得得出的决策树在预测未知对象时更加准确。

Description

基于代价敏感二维尺度决策树构造方法

所属领域

本发明涉及人工智能、机器学习技术领域。

背景技术

早期的决策树分类算法旨在提高分类的精确度，后面的一维尺度代价敏感决策树分类局限性较大，在分类过程中存在较大的弊端。如之前只考虑测试代价时，得出的分类结果并不能权衡误分类所产生的代价影响。代价敏感学习是一种新的分类学习。它是通过训练集建立分类器时，以获得最小测试代价和误分类代价为目标。测试代价有限的条件下，基于最小测试代价的分类器并不是最好的，大部分研究认为把误分类代价和测试代价放在一起研究是十分必要，在付出的测试代价和所能减少的误分类代价之间进行权衡，以最小化包含这两种代价的总代价为目标，做出最佳的决策。

发明内容

针对上述不足，本发明提供了基于代价敏感二维尺度决策树构造方法。

本发明所采用的技术方案是：基于代价敏感二维尺度决策树构造方法，该方法应用测试代价与误分类代价之和最小值进行属性选择，依次构造决策树，为了解决得出的决策树存在过渡拟合问题，提出了后剪支方案，使得得出的决策树在预测未知对象时更加准确，本方法的具体实施步骤如下：

步骤1.设训练集中有X个样本，属性个数为n，即n＝(s₁，s₂，…s_n),同时分裂属性s_r对应了m个类L，其中L_k∈(L₁，L₂…，L_m),r∈(1，2…，n)，k∈(1，2…，m)，相关领域用户设定好误分类代价矩阵C、测试成本cost_S、经济因子w；

步骤1.1：设立误分类代价矩阵

类别标识个数为m，则该数据的代价矩阵m×m方阵是：

其中c_ij表示第j类数据分为第i类的代价，如果i＝j为正确分类，则c_ij＝0,否则为错误分类c_ij≠0，其值由相关领域用户给定,这里i，j∈(1，2，…，m)；

步骤2：创建根节点G；

步骤3：如果训练数据集为空，则返回结点G并标记失败；

步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记结G；

步骤5：如果候选属性为空，则返回G为叶子结点，标记为训练数据集中最普通的类；

步骤6：根据总代价成本目标函数TOTAL从候选属性中选择属性splitS；总代价目标函数为：TOTAL＝f(S)+L(s，i)，其中f(S)为选择属性S时，为测试代价指标函数，L(s，i)为把选择属性S预测为第i类所引起的误分类代价指标函数；

当选择属性splitS满足总代价成本目标函数最小时，则找到标记结点G；

步骤7：标记结点G为属性splitS；

步骤8：由结点延伸出满足条件为splitS＝splitS_i分支；

步骤8.1：假设Y_i为训练数据集中splitS＝splitS_i的样本集合，如果Y_i为空，加上一个叶子结点，标记为训练数据集中最普通的类；

步骤9：非步骤8.1的情况，则递归调用步骤6至步骤8；

步骤10：利用后剪支技术解决此决策树模型中过度拟合问题；

步骤11：更新训练数据集，保存新的示例数据。

本发明的有益效果是：为了解决得出的决策树存在过渡拟合问题，提出了后剪支方案，使得得出的决策树在预测未知对象时更加准确，并且使最后得出的决策树误分类代价与测试代价之和最低。

具体实施方式

以下，详细描述此发明。

一、所述步骤6根据总代价成本目标函数TOTAL从候选属性中选择属性splitS，需要求解总代价成本目标函数，在求解此函数时会用到测试代价指标函数f(S)，以及误分类代价指标函数L(s，i)，在求解f(S)时会用到信息增益函数，具体的求解过程如下：

步骤6.1：求解测试代价指标函数

步骤6.1.1：求解信息增益函数gain(S)

属性S为测试属性，这些子集对应于包含集合P结点生长出来的分支，设Z_ij是子集Z_j中类L_i的样本数，则S划分子集的期望信息为：

为第j个子集的权，期望值越小，子集划分纯度越高，对于给定子集Z_j：

其中，是Z_j中样本属于L_i的概率；

最后得到信息增益公式为：

gain(S)＝I(Z_1j，L，…，Z_mj)-E(S)

步骤6.1.2：求解测试代价指标函数f(S)

根据上述信息增益gain(S)可得：

ω为相关领域用户给定的一个经济因子，ω∈(0，1)；cost_S为属性S的测试成本，这由用户指定，cost_S+1＞1，当cost＝0时，f(cost)是有意义的，test cost(S)是标准测试代价指数，其值越小越好，用来表征每一属性通过测试代价指标进行选择；

步骤6.2：求解误分类代价指标函数L(S，i)

根据步骤1.1误分类代价矩阵，对于任一样例S,如果将其分为第i类，那么

可能此时属性S的误分类为i的代价是：

其中L(S，i)为将S分为第i类的预测总代价，p(j/S)为在属性S中第j类的概率，C(i，j)为把j类错分为第i类的代价花费；

步骤6.3：求解总代价目标函数TOTAL，根据步骤6.1.2、步骤6.2的两个公式，可得出：

二、所述步骤10方法采用后剪支技术的原理为：如果取消当前测试属性可以减少决策树模型的测试代价，那么就剪除当前测试结点，如代价复杂性剪枝和最少描述长度剪枝，代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价，剪枝后子树减少的叶节点数称为复杂性，最少描述长度剪枝根据决策树的编码代价大小进行剪枝，目标是使得训练样本的大多数数据符合这棵树，把样本中不符合的数据作为例外编码，使得编码决策树所需的比特最小和编码例外实例所需的比特最小：

后剪支目标函数为：

f(S_i)＞β

其中正数β为用户指定达到的条件，剪枝的条件首先要满足尽可能使代价减损达到用户指定条件，然后满足测试代价降低到用户要求。

Claims

1.基于代价敏感二维尺度决策树构造方法，该方法涉及人工智能、机器学习技术领域，其特征是：该方法应用测试代价与误分类代价之和最小值进行属性选择，依次构造决策树，为了解决得出的决策树存在过渡拟合问题，提出了后剪支方案，使得得出的决策树在预测未知对象时更加准确，本方法的具体实施步骤如下：

步骤1.设训练集中有个样本，属性个数为n，即,同时分裂属性对应了m个类L，其中,，相关领域用户设定好误分类代价矩阵C、测试成本、经济因子w;

步骤1.1：设立误分类代价矩阵

类别标识个数为m，则该数据的代价矩阵方阵是：

其中表示第j类数据分为第i类的代价，如果为正确分类，则,否则为错误分类，其值由相关领域用户给定,这里 ;

步骤2：创建根节点G；

步骤3：如果训练数据集为空，则返回结点G并标记失败；

步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记结

G；

步骤6：根据总代价成本目标函数从候选属性中选择属性；

总代价目标函数为：,其中为选择属性S时，为测试代价指标函数, 为把选择属性预测为第类所引起的误分类代价指标函数；

当选择属性满足总代价成本目标函数最小时，则找到标记结点G；

步骤7：标记结点G为属性；

步骤8：由结点延伸出满足条件为分枝；

步骤8.1：假设为训练数据集中的样本集合，如果为空，加上一个叶子结点，标记为训练数据集中最普通的类；

步骤9：非步骤8.1的情况，则递归调用步骤6至步骤8；

步骤11：更新训练数据集，保存新的示例数据。

2.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法，其特征是：所述步骤6根据总代价成本目标函数从候选属性中选择属性，需要求解总代价成本目标函数，在求解此函数时会用到测试代价指标函数，以及误分类代价指标函数，在求解时会用到信息增益函数，具体的求解过程如下：

步骤6.1：求解测试代价指标函数

步骤6.1.1：求解信息增益函数

属性S为测试属性，这些子集对应于包含集合P结点生长出来的分支，设是子集中类的样本数，则S划分子集的期望信息为：

为第j个子集的权，期望值越小，子集划分纯度越高，对于给定子集：，其中，，是中样本属于的概率；

最后得到信息增益公式为：

步骤6.1.2：求解测试代价指标函数

根据上述信息增益可得：

为相关领域用户给定的一个经济因子，；为属性S的测试成本，这由用户指定，, 当时，是有意义的，是标准测试代价指数，其值越小越好，用来表征每一属性通过测试代价指标进行选择；

步骤6.2：求解误分类代价指标函数

可能此时属性S的误分类为i的代价是：

其中为将S分为第i类的预测总代价，为在属性S中第j类的概率，为把j类错分为第i类的代价花费；

。

3.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法，其特征是：所述步骤10方法采用后剪支技术的原理为：如果取消当前测试属性可以减少决策树模型的测试代价，那么就剪除当前测试结点，如代价复杂性剪枝和最少描述长度剪枝，代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价，剪枝后子树减少的叶节点数称为复杂性，最少描述长度剪枝根据决策树的编码代价大小进行剪枝，目标是使得训练样本的大多数数据符合这棵树，把样本中不符合的数据作为例外编码，使得编码决策树所需的比特最小和编码例外实例所需的比特最小：

后剪支目标函数为：

其中正数为用户指定达到的条件，剪枝的条件首先要满足尽可能使代价减损达到用户指定条件，然后满足测试代价降低到用户要求。