CN104850892A - 偏好代价敏感决策树构造方法 - Google Patents
偏好代价敏感决策树构造方法 Download PDFInfo
- Publication number
- CN104850892A CN104850892A CN201510277512.7A CN201510277512A CN104850892A CN 104850892 A CN104850892 A CN 104850892A CN 201510277512 A CN201510277512 A CN 201510277512A CN 104850892 A CN104850892 A CN 104850892A
- Authority
- CN
- China
- Prior art keywords
- preference
- attribute
- cost
- class
- represent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种偏好代价敏感决策树构造方法,用户根据自己的偏好设置偏好类、偏好度和偏好代价矩阵;遍历输入的训练样本集的候选属性列表,并计算每个候选属性的分裂属性选择因子;选择具有最大分裂属性选择因子的候选属性作为偏好代价敏感决策树的扩展结点;对应于具有最大分裂属性选择因子的候选属性的每一个属性值,在结点下生成1个分支;每个分支的样本集合为所有属性值等于对应分支的训练样本;循环执行上述直至在一个结点中的所有样本为空或属于相同的属性。本发明用于在决策树建立过程中平衡决策者对偏好类的主观偏好,以解决偏好环境下的代价敏感决策问题。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种偏好代价敏感决策树构造方法。
背景技术
决策树决策方法是机器学习领域中的重要问题。早期的决策树模型以ID3为代表,侧重于分裂属性选择方法和优化剪枝策略两方面的研究,并取得了长足的发展和广泛的应用。初期的决策树方法研究大多以提高分类精确性为最高目标,最大限度地减少误分类,忽略了不同分类可能引起的代价问题。比如一只羊被错误地分入一群狼中可能的代价只是损失一只羊,而一只狼被错误地分入一群羊中可能的代价则是损失一群羊,因此Elkan等提出代价敏感决策树问题。代价敏感问题在考虑分类精确性的同时,充分考虑不同分类可能带来的代价大小,并且以最小代价为最高目标。但由于代价敏感问题的代价矩阵主要由专家给定,任何专家都掺杂一定主观因素,存在个人偏好。比如诊断感冒病人时,医生A偏好让病人多喝水,而医生B偏好让病人吃药,我们在考虑代价问题的同时,在决策过程中还需要考虑偏好可能带来的影响。基于这种应用需求,本发明提出偏好代价敏感决策树构造方法。
发明内容
本发明所要解决的技术问题是决策过程中个人主观偏好对决策树所形成的影响,提供一种偏好代价敏感决策树构造方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种偏好代价敏感决策树构造方法,包括如下步骤:
步骤1.用户根据自己的偏好设置偏好类、偏好度和偏好代价矩阵;
步骤2.遍历输入的训练样本集的候选属性列表,并计算每个候选属性的分裂属性选择因子;
步骤3.选择具有最大分裂属性选择因子的候选属性作为偏好代价敏感决策树的扩展结点;
步骤4.对应于具有最大分裂属性选择因子的候选属性的每一个属性值,在结点下生成一个分支;每个分支的样本集合为所有属性值等于对应分支的训练样本,这样训练样本集就被分为j个子集,上述j为属性值的个数;
步骤5.将每个子集Sj作为新的训练样本集,并循环执行步骤2-5,直至在一个结点中的所有样本为空或属于相同的类属性。
步骤1中,偏好代价矩阵的设置过程如下:
设训练数据集T中有m个不同的类别标识l1,l2,...,lm,定义其偏好代价矩阵C为:
C=(cij)
其中,cij表示偏好代价矩阵的元素,i∈{1,2,......,m},j∈{1,2,......,m};
当i=j时,表示lj被正确分类,此时cij=0;
当i≠j时,表示lj被错误分类,错误分类又分下面两种情况:
当li为非偏好类时,此时cij=1,只表示产生一次错误分类;
当li为偏好类时,此时cij的值为预先给出的偏好代价值。
步骤2中,候选属性A的分裂属性选择因子ASF(A)为:
其中,Averagegain(A)表示属性A的平均信息增益,Incr_EP(A)表示属性A的EP增加量;EP为在未选取属性A作为分裂属性对当前结点进行分裂时结点N的有效偏好,表示用分裂属性A分裂后的所有子结点的有效偏好总和,m表示当前属性A所对应的属性值个数,Aq表示当前属性A所对应的第q个属性值,nAqi表示由当前属性A第q个属性值所划分的样本子集中类属性等于类i的样本个数,nAqj表示由当前属性A第q个属性值所划分的样本子集中类属性等于类j的样本个数,ni表示该结点中类别为li的样例个数,nj表示该结点中类别为lj的样例个数,当i为偏好类时,pref(li)表示偏好度,cij表示偏好代价,当i为非偏好类时,pref(li)=1为正确分类标记,cij=1为误分类标记,i,j∈{1,2,......,m}。
所述的偏好代价敏感决策树构造方法,还进一步包括自动调节偏好度的过程,即:
首先,初始化各类别的偏好度为1,并指定偏好类,并根据设定的偏好度的调整步长调节偏好度,获得一系列的pref(li);
然后,根据不同的pref(li)所对应的不同分裂属性选择因子来生成不同的偏好代价敏感决策树,并根据下式计算不同偏好代价敏感决策树的偏好度调节因子F;当偏好类精度RC为100%或不再改变时,则停止调节偏好度的过程;
式中,RC表示偏好类精度,P表示决策树的整体精度,F为偏好度调节因子;
最后,找出最大的F值,此时对应的pref(li)即为最佳偏好度。
与现有技术相比,本发明用于在决策树建立过程中平衡决策者对偏好类的主观偏好,以解决偏好环境下的代价敏感决策问题。
附图说明
图1为用属性A进行结点分裂的示意图。
图2为自适应调整偏好度的流程图。
图3为偏好代价敏感决策树构造流程图。
具体实施方式
一.偏好类
设训练数据集T中有m个不同的类别标识l1,l2,...,lm,决策过程中类li受到特别偏好,则称li为偏好类,记其偏好度为:pref(li)。其中i∈{1,2,......,m},pref(li)的取值范围是[1,+∞),偏好类程度既可由专家给定,也可将其调整到最佳偏好度。
二.偏好代价矩阵
设训练数据集T中有m个不同的类别标识l1,l2,...,lm,定义其偏好代价矩阵C为:
C=(cij)
当i=j时,表示lj被正确分类,此时cij=0,即不产生任何代价。当i≠j时,表示lj被错误分类,错误分类分下面两种情况:
(1)当li为非偏好类时,cij表示将lj错误的预测为li的一次标记。此时cij=1,只表示产生一次错误分类。
(2)当li为偏好类时,cij表示因偏好类li而把lj预测为li产生的偏好代价。此时,cij的值由领域专家预先给出。
用一个例子加以说明,假设一个数据集的类别标识为{c1,c2,c3},偏好类为c2,将c1预测为c2时产生的偏好代价为8,将c3预测为c2时产生的偏好代价为10。则该数据集的偏好代价矩阵为:
三.有效偏好
设训练数据集T,某结点中有m个不同的类别标识l1,l2,...,lm,若判断当前结点的类标号为li,则该结点的有效偏好EP由下面公式计算:
其中,ni表示该结点中类别为li的样例个数,nj表示该结点中类别为lj的样例个数,当i为偏好类时,pref(li)表示偏好度,cij表示偏好代价,当i为非偏好类时,pref(li)=1为正确分类标记,cij=1为误分类标记,i,j∈{1,2,......,m}。
在公式(1)中,分母加1是为防止分母为0,ni×pref(li)和需分两种情况进行讨论:
(1)当li为偏好类时,ni×pref(li)表示结点的总偏好度,cij为偏好代价,表示该结点产生的总偏好代价。
(2)当li为非偏好类时,pref(li)=1,ni×pref(li)=ni用来表示正确分类的个数,cij=1为误分类标记,表示误分类次数。
四.结点的类别
结点的类别判定依据有效偏好的大小,若该结点被判为正例所获得的有效偏好EP(p)大则将其判定为正例结点,若该结点被判为反例的有效偏好EP(n)大则将其判定为反例结点(对于具有多类标号的数据集,将当前结点判定为拥有最大有效偏好的类别)。
以两类数据集为例,假设一个数据集的类别标识为{P,N},P为偏好类,pref(P)=10,pref(N)=1。某个结点中包含20个正例P,24个反例N,偏好代价矩阵如下:
按照基于EP的结点类标号判断标准:
因为EP(p)>EP(n),所以此结点会被判定为正例结点P。
五.EP增加量
我们定义当前结点用属性A进行分裂所带来的EP增加量Incr_EP(A)为:
其中,EP为在未选取属性A作为分裂属性对当前结点进行分裂时结点N的有效偏好。表示用分裂属性A分裂后的所有子结点的有效偏好总和,其中Ai是分裂属性A的第i个属性值,n为A的属性值个数。
例如,假设一个数据集的类别标识为{P,N},以一个含有332个实例的结点作为当前结点,用属性A将其分裂,如图1。
假设P为偏好类,pref(P)=10,pref(N)=1。偏好代价矩阵如下:
则在用属性A进行分裂前的EP为:
六.分裂属性选择因子
设T为训练数据集,A为属性之一,则属性A的分裂属性选择因子可表示为:
ASF(A)=(2Averagegain(A)-1)*Incr_EP(A) (3)
其中,Averagegain(A)表示平均信息增益,Incr_EP(A)表示属性A的EP增加量。若结点的当前属性集不为空,则选取使得属性选择因子取最大值的属性作为结点的分裂属性。
七.偏好度调节因子
设RC表示偏好类精度,其定义为:
我们定义F为偏好度调节因子:
其中,RC表示偏好类精度,P表示决策树的整体精度,则F为两者的调和平均值作为偏好度调节因子。
八.偏好度调节
偏好度调节的流程图,如图2所示,其包括如下步骤:
首先,从1开始,取定一个步长(如:1),得到一系列离散的pref(li)值,如:1,2,3,…;
然后,根据这一系列pref(li)值对应的不同ASF函数来生成决策树,并剪枝。计算剪枝后模型的F值,当RC=100%或者RC值不再改变时停止这一过程;
最后,找出最大的F值,此时对应的pref(li)即为最佳偏好度。
九.偏好代价敏感决策树构造
偏好代价敏感决策树构造流程图,如图3所示,其包括如下步骤:
1、根据用户的偏好需求设置偏好类、偏好度和偏好代价矩阵,并采用“八.偏好度调节”部分的自适应调节方法将其偏好度调整为最佳程度;
2、根据偏好代价矩阵和最佳偏好度构建偏好代价敏感决策树模型,其具体流程如下;
2.1 遍历所有候选属性列表(即训练数据集合),计算每个候选属性的ASF,并选择ASF值最大的属性作为偏好代价敏感决策树的根结点;
2.2 依次为每个分裂属性的每个属性值产生一个分支类,得到对应于该分支属性值的子集。对各子集递归调用本算法(即重回2.1步,用同样的方法将子集分割,产生分支的分支,同时获得相应子集的子集),直到满足以下两个条件之一则终止建树过程,即:
条件1.在一个子集或分支结点中的所有样例都属于相同类别;
条件2.在一个子集或分支结点中没有待分裂候选属性。
偏好代价敏感决策树构造算法伪代码如下:
输入:训练数据集Instances;偏好类的偏好度pref(li);偏好代价矩阵C
输出:一棵偏好敏感决策树
算法描述:
1.创建根结点N;
2.若训练集为空,返回结点N标记为Failure;
3.若训练集中的所有记录都属于同一个类别,则以该类别标记结点N;
4.若候选属性为空,则返回N作为叶结点,依据“四.结点的类别”部分标记类别;
5.for each候选属性列表attribute_list;
依据公式(3)从候选属性列表attribute_list中选择分裂属性SplitA;
endfor;
6.for each属性SplitA的值;
由结点N长出一个条件为SplitA=SplitAi的分支;
endfor;
7.设si是训练集中SplitA=SplitAi的训练样本的集合;
8.if si为空,则加上一个树叶,依据“四.结点的类别”部分标记类别;
else递归调用本算法;
9.return一棵偏好敏感决策树。
Claims (4)
1.偏好代价敏感决策树构造方法,其特征是,包括如下步骤:
步骤1.用户根据自己的偏好设置偏好类、偏好度和偏好代价矩阵;
步骤2.遍历输入的训练样本集的候选属性列表,并计算每个候选属性的分裂属性选择因子;
步骤3.选择具有最大分裂属性选择因子的候选属性作为偏好代价敏感决策树的扩展结点;
步骤4.对应于具有最大分裂属性选择因子的候选属性的每一个属性值,在结点下生成一个分支;每个分支的样本集合为所有属性值等于对应分支的训练样本,这样训练样本集就被分为j个子集,上述j为属性值的个数;
步骤5.将每个子集Sj作为新的训练样本集,并循环执行步骤2-5,直至在一个结点中的所有样本为空或属于相同的类属性。
2.根据权利要求1所述的偏好代价敏感决策树构造方法,其特征是,步骤1中,偏好代价矩阵的设置过程如下:
设训练数据集T中有m个不同的类别标识l1,l2,...,lm,定义其偏好代价矩阵C为:
C=(cij)
其中,cij表示偏好代价矩的元素,i∈{1,2,......,m},j∈{1,2,......,m};
当i=j时,表示lj被正确分类,此时cij=0;
当i1j时,表示lj被错误分类,错误分类又分下面两种情况:
当li为非偏好类时,此时cij=1,只表示产生一次错误分类;
当li为偏好类时,此时cij的值为预先给出的偏好代价值。
3.根据权利要求1所述的偏好代价敏感决策树构造方法,其特征是,步骤2中,候选属性A的分裂属性选择因子ASF(A)为:
其中,Averagegain(A)表示属性A的平均信息增益;m表示当前属性A所对应的属性值个数,Aq表示当前属性A所对应的第q个属性值,nAqi表示由当前属性A第q个属性值所划分的样本子集中类属性等于类i的样本个数,nAqj表示由当前属性A第q个属性值所划分的样本子集中类属性等于类j的样本个数,ni表示该结点中类别为li的样例个数,nj表示该结点中类别为lj的样例个数,当i为偏好类时,pref(li)表示偏好度,cij表示偏好代价,当i为非偏好类时,pref(li)=1为正确分类标记,cij=1为误分类标记,i,j∈{1,2,......,m}。
4.根据权利要求1所述的偏好代价敏感决策树构造方法,其特征是,还进一步包括自动调节偏好度的过程,即:
首先,初始化各类别的偏好度为1,并指定偏好类,并根据设定的偏好度的调整步长调节偏好度,获得一系列的pref(li);
然后,根据不同的pref(li)所对应的不同分裂属性选择因子来生成不同的偏好代价敏感决策树,并根据下式计算不同偏好代价敏感决策树的偏好度调节因子F;当偏好类精度RC为100%或不再改变时,则停止调节偏好度的过程;
式中,RC表示偏好类精度,P表示决策树的整体精度,F为偏好度调节因子;
最后,找出最大的F值,此时对应的pref(li)即为最佳偏好度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510277512.7A CN104850892A (zh) | 2015-05-27 | 2015-05-27 | 偏好代价敏感决策树构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510277512.7A CN104850892A (zh) | 2015-05-27 | 2015-05-27 | 偏好代价敏感决策树构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104850892A true CN104850892A (zh) | 2015-08-19 |
Family
ID=53850524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510277512.7A Pending CN104850892A (zh) | 2015-05-27 | 2015-05-27 | 偏好代价敏感决策树构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104850892A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611181A (zh) * | 2016-05-30 | 2017-05-03 | 四川用联信息技术有限公司 | 基于代价敏感二维尺度决策树构造方法 |
-
2015
- 2015-05-27 CN CN201510277512.7A patent/CN104850892A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611181A (zh) * | 2016-05-30 | 2017-05-03 | 四川用联信息技术有限公司 | 基于代价敏感二维尺度决策树构造方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846512B (zh) | 基于择优分类的水质预测方法 | |
CN106355192A (zh) | 一种基于混沌灰狼优化的支持向量机方法 | |
CN102411687B (zh) | 未知恶意代码的深度学习检测方法 | |
CN107239529A (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN111000553B (zh) | 一种基于投票集成学习的心电数据智能分类方法 | |
CN107203810A (zh) | 一种基于深度网络的降水量预测方法 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN107844798A (zh) | 一种基于机器学习的海量数据中检测异常值的方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN106991444A (zh) | 基于峰值密度聚类的主动学习方法 | |
CN104951987B (zh) | 基于决策树的作物育种评价方法 | |
CN106033554A (zh) | 一种基于分段的两级深度学习模型的大数据处理方法 | |
CN106997553A (zh) | 一种基于多目标优化的商品组合模式的挖掘方法 | |
CN111553482B (zh) | 机器学习模型超参数的调优方法 | |
CN106127229A (zh) | 一种基于时间序列类别的计算机数据分类方法 | |
Gerhana et al. | Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period | |
CN104850862B (zh) | 一种基于单位代价收益敏感决策树的分类方法 | |
CN106782510A (zh) | 基于连续混合高斯hmm模型的地名语音信号识别方法 | |
CN106611188A (zh) | 一种标准化的多维尺度代价敏感决策树构建方法 | |
CN104850892A (zh) | 偏好代价敏感决策树构造方法 | |
CN106203469A (zh) | 一种基于有序模式的图分类方法 | |
CN106529672A (zh) | 基于人工蜂群算法的选择性神经网络集成算法 | |
CN104778250A (zh) | 基于遗传规划决策树的信息物理融合系统数据分类方法 | |
Ishibashi et al. | Knowledge extraction using a genetic fuzzy rule-based system with increased interpretability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150819 |