CN106611183A

CN106611183A - 基尼指数与误分类代价敏感决策树构建方法

Info

Publication number: CN106611183A
Application number: CN201610380003.1A
Authority: CN
Inventors: 金平艳; 胡成华
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2017-05-03

Abstract

本发明提出了基尼指数与误分类代价敏感决策树构建方法，该方法涉及人工智能、机器学习技术领域，该方法联合误分类代价和属性信息—作为候选属性选择标准，选择更大值作为节点G，根据分裂因子指标来选择满足条件的分支，循环执行上述操作，就可以遍历整个训练样本集，得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型。

Description

基尼指数与误分类代价敏感决策树构建方法

所属领域

本发明涉及人工智能、机器学习技术领域。

背景技术

在归纳学习技术中如何尽量减少误分类错误是主要焦点，例如CART和C4.5。在归纳问题上误分类不仅是一个错误，即错误分类所带来的代价不容忽略。分裂属性选择是决策树构建的一个关键又基本过程，最流行的属性选择方法侧重于测量属性的信息增益。当错误分类所引起的代价不容忽视时，很自然地把降低代价机制和属性信息结合起来作为分裂属性选择标准，属性选择的目标是最小化误分类总代价。最小化误分类总代价被称为基于CAI的分裂属性选择，这种方法基于单一代价机制。由于CAI算法局限性，误分类代价和属性信息之间的平衡性未得到很好的解决，从而影响精度和整体误分类代价。

发明内容

针对上述不足，本发明提出了联合误分类代价和属性信息作为分裂属性选择标准的方法。

本发明所要解决技术问题是决策过程中误分类代价和属性信息之间的平衡性问题，以此同时构成的决策树具有更小的误分类代价。

本发明所采用的技术方案是：基尼指数与误分类代价敏感决策树构建方法，该方法联合误分类代价和属性信息—ASF(S)作为候选属性选择标准，选择更大ASF(S)值作为节点G，根据gini(S_i)分裂因子指标来选择满足条件splitS＝splitS_i的分支，循环执行上述操作，就可以遍历整个训练样本集，得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型。

本发明的有益效果是：

1、考虑了误分类代价和属性信息之间的平衡性，在决策过程中，使得误分类代价达到最小，同时又能反映属性信息量和纯度。

2、对属性信息增益进行优化处理，避免因属性信息增益过小而忽略了属性信息的风险。

附图说明

基尼指数与误分类代价敏感决策树结构流程图

具体实施方式

以下结合流程图，对本发明的进行详细说明。

本发明的具体实施步骤如下：

步骤1.设训练集中有X个样本，属性个数为n，即n＝(s₁，s₂，…s_n),同时分裂属性s_r对应了m个类L，其中L_i∈(L₁，L₂…，L_m),r∈(1，2…，n)，i∈(1，2…，m)，设误分类代价矩阵为C，类别标识个数为m，则该数据的代价矩阵m×m方阵是：

其中C_ij表示第j类数据分为第i类的代价，如果i＝j为正确分类，则C_ij＝0,否则为错误分类C_ij≠0，其值由相关领域用户给定,这里i，j∈(1，2，…，m)；

步骤2：创建根节点G；

步骤3：如果训练数据集为空，则返回节点G并标记失败；

步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记节点G；

步骤5：如果候选属性为空，则返回G为叶子节点，标记为训练数据集中最普通的类；

步骤6：根据本发明代价敏感的分裂属性因子ASF候选属性中选择splitS，

候选属性因子ASF：

gini(S)为选择属性S的信息量，averageL(S，i)为把属性S误分为i类的平均总误分类代价，当选择属性splitS满足目标函数ASF(S)最大时，则找到标记节点G；

步骤7：标记节点G为属性splitS；

步骤8：根据基尼指数gini(S_i)值延伸出满足条件为splitS＝splitS_i分支；

步骤8.1：:假设Y_i为训练数据集中splitS＝splitS_i的样本集合，如果Y_i为空，加上一个叶子节点，标记为训练数据集中最普通的类；

步骤9：非步骤8.1中情况，则递归调用步骤6至步骤8。

步骤10：更新训练数据集，保存新的示例数据。

上述步骤所涉及到的公式计算及定义，详细如下：

一、所述步骤6，选择属性的基尼指数gini(S)计算如下：

其中k为splitS＝splitS_i的属性值个数，X_i为子结点splitS_i的记录数，X为splitS处的记录数，其中分裂属性的基尼指数gini(S_i)值具体计算如下(此计算也适用于步骤8关于基尼指数gini(S_i)的计算)：

设训练数据集X,其类有m个，那么其gini指标为：

其中p(L_i/S_i)为分裂属性S_i属于L_i类的相对频率，当gini(S_i)＝0，即在此结点处所有样例都属于同一类，表示能得到最大有用信息；当此结点所有样例对于类别字段来讲均匀分布时，gini(S_i)最大，表示能得到最小的有用信息。

二、所述步骤6关于目标函数ASF的计算，其中所涉及到的有误分类代价指标函数L(S_i，i)、属性S平均总误分类代价，其具体的求解过程如下：

步骤6.1：求解误分类代价指标函数L(S_i，i)

根据步骤1的误分类代价矩阵，对于任一属性值S_i，如果将其分为第i类，那么可能此时属性值S_i的误分类为i的代价是：

其中L(S_i，i)为将S_i分为第i类的预测总代价，p(j/S_i)为在属性值S_i中第j类的概率，C(i，j)为把j类错分为第i类的代价花费；

步骤6.2：求解属性S的平均总误分类代价averageL(S，i)

其中k为splitS＝splitS_i的属性值个数；

步骤6.3：求解候选属性因子ASF

根据前面几个步骤，可得出：

候选属性因子：

选择属性的基尼指数gini(S)经过式子2^gini(S)-1处理，可以预防因属性值信息量小而忽略的风险。

三、算法伪代码计算过程

输入：X个样本训练集，训练集的误分类代价矩阵C。

输出：基尼指数与误分类代价敏感决策树。

Claims

1.基尼指数与误分类代价敏感决策树构建方法，该方法涉及人工智能、机器学习技术领域，其特征是：该方法联合误分类代价和属性信息—作为候选属性选择标准，选择更大值作为节点G，根据分裂因子指标来选择满足条件的分支，循环执行上述操作，就可以遍历整个训练样本集，得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型，本方法的具体实施步骤如下：

步骤1：设训练集中有个样本，属性个数为n，即,同时分裂属性对应了m个类L，其中,，相关领域用户设定好误分类代价矩阵C、测试成本、经济因子w;

步骤1.1：设立误分类代价矩阵

类别标识个数为m，则该数据的代价矩阵方阵是：

其中表示第j类数据分为第i类的代价，如果为正确分类，则,否则为错误分类，其值由相关领域用户给定,这里；

步骤2：创建根节点G；

步骤3：如果训练数据集为空，则返回结点G并标记失败；

步骤4：如果训练数据集中所有记录都属于同一类别，则以该类型标记结

G；

步骤5：如果候选属性为空，则返回G为叶子结点，标记为训练数据集中最普通的类；

步骤6：根据本发明代价敏感的分裂属性因子ASF候选属性中选择，

候选属性因子ASF：

为选择属性S的信息量，为把属性S误分为i类的平均总误分类代价，当选择属性满足目标函数最大时，则找到标记节点；

步骤7：标记节点为属性；

步骤8：根据基尼指数值延伸出满足条件为分支；

步骤8.1：:假设为训练数据集中的样本集合，如果为空，加上一个叶子节点，标记为训练数据集中最普通的类；

步骤9：非步骤8.1中情况，则递归调用步骤6至步骤8；

步骤10：更新训练数据集，保存新的示例数据。

2.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法，其特征是：所述步骤6，选择属性的基尼指数计算如下：

其中k为的属性值个数，为子结点的记录数，X为处的记录数，其中分裂属性的基尼指数值具体计算如下（此计算也适用于步骤8关于基尼指数gini()的计算）：

设训练数据集X,其类有m个，那么其gini指标为：

其中为分裂属性属于类的相对频率，当，即在此结点处所有样例都属于同一类，表示能得到最大有用信息；当此结点所有样例对于类别字段来讲均匀分布时，最大，表示能得到最小的有用信息。

3.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法，其特征是：所述步骤6关于目标函数ASF的计算，其中所涉及到的有误分类代价指标函数、属性S平均总误分类代价，其具体的求解过程如下：

步骤6.1：求解误分类代价指标函数

根据步骤1的误分类代价矩阵，对于任一属性值，如果将其分为第i类，那么可能此时属性值的误分类为i的代价是：

其中为将分为第i类的预测总代价，为在属性值中第j类的概率，为把j类错分为第i类的代价花费；

步骤6.2：求解属性S的平均总误分类代价

其中k为的属性值个数；

步骤6.3：求解候选属性因子ASF

根据前面几个步骤，可得出：

候选属性因子：

选择属性的基尼指数处理，经过式子可以预防因属性值信息量小而忽略的风险。