CN104850892A

CN104850892A - 偏好代价敏感决策树构造方法

Info

Publication number: CN104850892A
Application number: CN201510277512.7A
Authority: CN
Inventors: 袁鼎荣; 周美琴; 陈诗旭; 马顺; 刘令强; 展雪梅; 李艳红
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2015-08-19

Abstract

本发明公开一种偏好代价敏感决策树构造方法，用户根据自己的偏好设置偏好类、偏好度和偏好代价矩阵；遍历输入的训练样本集的候选属性列表，并计算每个候选属性的分裂属性选择因子；选择具有最大分裂属性选择因子的候选属性作为偏好代价敏感决策树的扩展结点；对应于具有最大分裂属性选择因子的候选属性的每一个属性值，在结点下生成1个分支；每个分支的样本集合为所有属性值等于对应分支的训练样本；循环执行上述直至在一个结点中的所有样本为空或属于相同的属性。本发明用于在决策树建立过程中平衡决策者对偏好类的主观偏好，以解决偏好环境下的代价敏感决策问题。

Description

偏好代价敏感决策树构造方法

技术领域

本发明涉及人工智能领域，具体涉及一种偏好代价敏感决策树构造方法。

背景技术

决策树决策方法是机器学习领域中的重要问题。早期的决策树模型以ID3为代表，侧重于分裂属性选择方法和优化剪枝策略两方面的研究，并取得了长足的发展和广泛的应用。初期的决策树方法研究大多以提高分类精确性为最高目标，最大限度地减少误分类，忽略了不同分类可能引起的代价问题。比如一只羊被错误地分入一群狼中可能的代价只是损失一只羊，而一只狼被错误地分入一群羊中可能的代价则是损失一群羊，因此Elkan等提出代价敏感决策树问题。代价敏感问题在考虑分类精确性的同时，充分考虑不同分类可能带来的代价大小，并且以最小代价为最高目标。但由于代价敏感问题的代价矩阵主要由专家给定，任何专家都掺杂一定主观因素，存在个人偏好。比如诊断感冒病人时，医生A偏好让病人多喝水，而医生B偏好让病人吃药，我们在考虑代价问题的同时，在决策过程中还需要考虑偏好可能带来的影响。基于这种应用需求，本发明提出偏好代价敏感决策树构造方法。

发明内容

本发明所要解决的技术问题是决策过程中个人主观偏好对决策树所形成的影响，提供一种偏好代价敏感决策树构造方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种偏好代价敏感决策树构造方法，包括如下步骤：

步骤1.用户根据自己的偏好设置偏好类、偏好度和偏好代价矩阵；

步骤2.遍历输入的训练样本集的候选属性列表，并计算每个候选属性的分裂属性选择因子；

步骤3.选择具有最大分裂属性选择因子的候选属性作为偏好代价敏感决策树的扩展结点；

步骤4.对应于具有最大分裂属性选择因子的候选属性的每一个属性值，在结点下生成一个分支；每个分支的样本集合为所有属性值等于对应分支的训练样本，这样训练样本集就被分为j个子集，上述j为属性值的个数；

步骤5.将每个子集S_j作为新的训练样本集，并循环执行步骤2-5，直至在一个结点中的所有样本为空或属于相同的类属性。

步骤1中，偏好代价矩阵的设置过程如下：

设训练数据集T中有m个不同的类别标识l₁,l₂,...,l_m，定义其偏好代价矩阵C为：

C＝(c_ij)

其中，c_ij表示偏好代价矩阵的元素，i∈{1,2,......,m}，j∈{1,2,......,m}；

当i＝j时，表示l_j被正确分类，此时c_ij＝0；

当i≠j时，表示l_j被错误分类，错误分类又分下面两种情况：

当l_i为非偏好类时，此时c_ij＝1，只表示产生一次错误分类；

当l_i为偏好类时，此时c_ij的值为预先给出的偏好代价值。

步骤2中，候选属性A的分裂属性选择因子ASF(A)为：

\begin{matrix} ASF (A) = (2^{Averagegain (A)} - 1) * Incr_EP (A) \\ = (2^{Averagegain (A)} - 1) * (Σ_{i = 1}^{n} EP (A_{i}) - EP) \\ = (2^{Averagegain (A)} - 1) * (Σ_{Aq = 1}^{m} \frac{n_{Aqi} \times pref (l_{i})}{\underset{Aqj &NotEqual; Aqi}{Σ} n_{Aqj} c_{ij} + 1} - \frac{n_{i} \times pref (l_{i})}{\underset{j &NotEqual; i}{Σ} n_{j} c_{ij} + 1}) \end{matrix}

其中，Averagegain(A)表示属性A的平均信息增益，Incr_EP(A)表示属性A的EP增加量；EP为在未选取属性A作为分裂属性对当前结点进行分裂时结点N的有效偏好，表示用分裂属性A分裂后的所有子结点的有效偏好总和，m表示当前属性A所对应的属性值个数，Aq表示当前属性A所对应的第q个属性值，n_Aqi表示由当前属性A第q个属性值所划分的样本子集中类属性等于类i的样本个数，n_Aqj表示由当前属性A第q个属性值所划分的样本子集中类属性等于类j的样本个数，n_i表示该结点中类别为l_i的样例个数，n_j表示该结点中类别为l_j的样例个数，当i为偏好类时，pref(l_i)表示偏好度，c_ij表示偏好代价，当i为非偏好类时，pref(l_i)＝1为正确分类标记，c_ij＝1为误分类标记，i,j∈{1,2,......,m}。

所述的偏好代价敏感决策树构造方法，还进一步包括自动调节偏好度的过程，即：

首先，初始化各类别的偏好度为1，并指定偏好类，并根据设定的偏好度的调整步长调节偏好度，获得一系列的pref(l_i)；

然后，根据不同的pref(l_i)所对应的不同分裂属性选择因子来生成不同的偏好代价敏感决策树，并根据下式计算不同偏好代价敏感决策树的偏好度调节因子F；当偏好类精度RC为100％或不再改变时，则停止调节偏好度的过程；

F = \frac{2 \times P \times RC}{P + RC}

式中，RC表示偏好类精度，P表示决策树的整体精度，F为偏好度调节因子；

最后，找出最大的F值，此时对应的pref(l_i)即为最佳偏好度。

与现有技术相比，本发明用于在决策树建立过程中平衡决策者对偏好类的主观偏好，以解决偏好环境下的代价敏感决策问题。

附图说明

图1为用属性A进行结点分裂的示意图。

图2为自适应调整偏好度的流程图。

图3为偏好代价敏感决策树构造流程图。

具体实施方式

一.偏好类

设训练数据集T中有m个不同的类别标识l₁,l₂,...,l_m，决策过程中类l_i受到特别偏好，则称l_i为偏好类，记其偏好度为：pref(l_i)。其中i∈{1,2,......,m}，pref(l_i)的取值范围是[1,+∞)，偏好类程度既可由专家给定，也可将其调整到最佳偏好度。

二.偏好代价矩阵

C＝(c_ij)

当i＝j时，表示l_j被正确分类，此时c_ij＝0，即不产生任何代价。当i≠j时，表示l_j被错误分类，错误分类分下面两种情况：

(1)当l_i为非偏好类时，c_ij表示将l_j错误的预测为l_i的一次标记。此时c_ij＝1，只表示产生一次错误分类。

(2)当l_i为偏好类时，c_ij表示因偏好类l_i而把l_j预测为l_i产生的偏好代价。此时，c_ij的值由领域专家预先给出。

用一个例子加以说明，假设一个数据集的类别标识为{c₁,c₂,c₃}，偏好类为c₂，将c₁预测为c₂时产生的偏好代价为8，将c₃预测为c₂时产生的偏好代价为10。则该数据集的偏好代价矩阵为：

C = (\begin{matrix} 0 & 1 & 1 \\ 8 & 0 & 10 \\ 1 & 1 & 0 \end{matrix})

三.有效偏好

设训练数据集T，某结点中有m个不同的类别标识l₁,l₂,...,l_m，若判断当前结点的类标号为l_i，则该结点的有效偏好EP由下面公式计算：

EP = EP (i) = \frac{n_{i} \times pref (l_{i})}{\underset{j &NotEqual; i}{Σ} n_{j} c_{ij} + 1} - - - (1)

其中，n_i表示该结点中类别为l_i的样例个数，n_j表示该结点中类别为l_j的样例个数，当i为偏好类时，pref(l_i)表示偏好度，c_ij表示偏好代价，当i为非偏好类时，pref(l_i)＝1为正确分类标记，c_ij＝1为误分类标记，i,j∈{1,2,......,m}。

在公式(1)中，分母加1是为防止分母为0，n_i×pref(l_i)和需分两种情况进行讨论：

(1)当l_i为偏好类时，n_i×pref(l_i)表示结点的总偏好度，c_ij为偏好代价，表示该结点产生的总偏好代价。

(2)当l_i为非偏好类时，pref(l_i)＝1，n_i×pref(l_i)＝n_i用来表示正确分类的个数，c_ij＝1为误分类标记，表示误分类次数。

四.结点的类别

结点的类别判定依据有效偏好的大小，若该结点被判为正例所获得的有效偏好EP(p)大则将其判定为正例结点，若该结点被判为反例的有效偏好EP(n)大则将其判定为反例结点(对于具有多类标号的数据集，将当前结点判定为拥有最大有效偏好的类别)。

以两类数据集为例，假设一个数据集的类别标识为{P,N}，P为偏好类，pref(P)＝10,pref(N)＝1。某个结点中包含20个正例P，24个反例N，偏好代价矩阵如下：

C = (\begin{matrix} 0 & 4 \\ 1 & 0 \end{matrix})

按照基于EP的结点类标号判断标准：

EP (p) = \frac{20 \times 10}{24 \times c_{12} + 1} = \frac{200}{97} = 2.06, EP (n) = \frac{24 \times 1}{20 \times c_{21} + 1} = \frac{24}{21} = 1.14,

因为EP(p)>EP(n)，所以此结点会被判定为正例结点P。

五.EP增加量

我们定义当前结点用属性A进行分裂所带来的EP增加量Incr_EP(A)为：

Incr_EP (A) = Σ_{i = 1}^{n} EP (A_{i}) - EP - - - (2)

其中，EP为在未选取属性A作为分裂属性对当前结点进行分裂时结点N的有效偏好。表示用分裂属性A分裂后的所有子结点的有效偏好总和，其中A_i是分裂属性A的第i个属性值，n为A的属性值个数。

例如，假设一个数据集的类别标识为{P,N}，以一个含有332个实例的结点作为当前结点，用属性A将其分裂，如图1。

假设P为偏好类，pref(P)＝10,pref(N)＝1。偏好代价矩阵如下：

C = (\begin{matrix} 0 & 4 \\ 1 & 0 \end{matrix})

则在用属性A进行分裂前的EP为：

EP = EP (P) = \frac{p \times pref (P)}{n \times c_{12} + 1} = \frac{230 \times 10}{102 \times 4 + 1} = 5.62

Σ_{i = 0}^{n} EP (A_{i}) = \frac{107 \times 10}{1} + \frac{108 \times 10}{1} + \frac{4 \times 10}{2 \times 4 + 1} + \frac{100 \times 1}{11 \times 1 + 1} = 2162.77

Incr_EP (A) = Σ_{i = 0}^{n} EP (A_{i}) - EP = 2162.77 - 5.62 = 2157.15

六.分裂属性选择因子

设T为训练数据集，A为属性之一，则属性A的分裂属性选择因子可表示为：

ASF(A)＝(2^{Averagegain(A)}-1)*Incr_EP(A) (3)

其中，Averagegain(A)表示平均信息增益，Incr_EP(A)表示属性A的EP增加量。若结点的当前属性集不为空，则选取使得属性选择因子取最大值的属性作为结点的分裂属性。

七.偏好度调节因子

设RC表示偏好类精度，其定义为：

我们定义F为偏好度调节因子：

F = \frac{2 \times P \times RC}{P + RC} - - - (4)

其中，RC表示偏好类精度，P表示决策树的整体精度，则F为两者的调和平均值作为偏好度调节因子。

八.偏好度调节

偏好度调节的流程图，如图2所示，其包括如下步骤：

首先，从1开始，取定一个步长(如：1)，得到一系列离散的pref(l_i)值，如：1，2，3,…；

然后，根据这一系列pref(l_i)值对应的不同ASF函数来生成决策树，并剪枝。计算剪枝后模型的F值，当RC＝100％或者RC值不再改变时停止这一过程；

最后，找出最大的F值，此时对应的pref(l_i)即为最佳偏好度。

九.偏好代价敏感决策树构造

偏好代价敏感决策树构造流程图，如图3所示，其包括如下步骤：

1、根据用户的偏好需求设置偏好类、偏好度和偏好代价矩阵，并采用“八.偏好度调节”部分的自适应调节方法将其偏好度调整为最佳程度；

2、根据偏好代价矩阵和最佳偏好度构建偏好代价敏感决策树模型，其具体流程如下；

2.1 遍历所有候选属性列表(即训练数据集合)，计算每个候选属性的ASF，并选择ASF值最大的属性作为偏好代价敏感决策树的根结点；

2.2 依次为每个分裂属性的每个属性值产生一个分支类，得到对应于该分支属性值的子集。对各子集递归调用本算法(即重回2.1步，用同样的方法将子集分割，产生分支的分支，同时获得相应子集的子集)，直到满足以下两个条件之一则终止建树过程，即：

条件1.在一个子集或分支结点中的所有样例都属于相同类别；

条件2.在一个子集或分支结点中没有待分裂候选属性。

偏好代价敏感决策树构造算法伪代码如下：

输入：训练数据集Instances；偏好类的偏好度pref(l_i)；偏好代价矩阵C

输出：一棵偏好敏感决策树

算法描述：

1.创建根结点N；

2.若训练集为空，返回结点N标记为Failure；

3.若训练集中的所有记录都属于同一个类别，则以该类别标记结点N；

4.若候选属性为空，则返回N作为叶结点，依据“四.结点的类别”部分标记类别；

5.for each候选属性列表attribute_list；

依据公式(3)从候选属性列表attribute_list中选择分裂属性SplitA；

endfor；

6.for each属性SplitA的值；

由结点N长出一个条件为SplitA＝SplitA_i的分支；

endfor；

7.设s_i是训练集中SplitA＝SplitA_i的训练样本的集合；

8.if s_i为空，则加上一个树叶，依据“四.结点的类别”部分标记类别；

else递归调用本算法；

9.return一棵偏好敏感决策树。

Claims

1.偏好代价敏感决策树构造方法，其特征是，包括如下步骤：

2.根据权利要求1所述的偏好代价敏感决策树构造方法，其特征是，步骤1中，偏好代价矩阵的设置过程如下：

C＝(c_ij)

其中，c_ij表示偏好代价矩的元素，i∈{1,2,......,m}，j∈{1,2,......,m}；

当i＝j时，表示l_j被正确分类，此时c_ij＝0；

当i1j时，表示l_j被错误分类，错误分类又分下面两种情况：

当l_i为偏好类时，此时c_ij的值为预先给出的偏好代价值。

3.根据权利要求1所述的偏好代价敏感决策树构造方法，其特征是，步骤2中，候选属性A的分裂属性选择因子ASF(A)为：

ASF (A) = (2^{Averagegain (A)} - 1) * (Σ_{Aq = 1}^{m} \frac{n_{Aqi} \times pref (l_{i})}{\underset{Aqj &NotEqual; Aqi}{Σ} n_{Aqj} c_{ij} + 1} - \frac{n_{i} \times pref (l_{i})}{\underset{j &NotEqual; i}{Σ} n_{i} c_{ij} + 1})

其中，Averagegain(A)表示属性A的平均信息增益；m表示当前属性A所对应的属性值个数，Aq表示当前属性A所对应的第q个属性值，n_Aqi表示由当前属性A第q个属性值所划分的样本子集中类属性等于类i的样本个数，n_Aqj表示由当前属性A第q个属性值所划分的样本子集中类属性等于类j的样本个数，n_i表示该结点中类别为l_i的样例个数，n_j表示该结点中类别为l_j的样例个数，当i为偏好类时，pref(l_i)表示偏好度，c_ij表示偏好代价，当i为非偏好类时，pref(l_i)＝1为正确分类标记，c_ij＝1为误分类标记，i,j∈{1,2,......,m}。

4.根据权利要求1所述的偏好代价敏感决策树构造方法，其特征是，还进一步包括自动调节偏好度的过程，即：

F = \frac{2 \times P \times RC}{P + RC}

最后，找出最大的F值，此时对应的pref(l_i)即为最佳偏好度。