CN106611181A - 基于代价敏感二维尺度决策树构造方法 - Google Patents

基于代价敏感二维尺度决策树构造方法 Download PDF

Info

Publication number
CN106611181A
CN106611181A CN201610375413.7A CN201610375413A CN106611181A CN 106611181 A CN106611181 A CN 106611181A CN 201610375413 A CN201610375413 A CN 201610375413A CN 106611181 A CN106611181 A CN 106611181A
Authority
CN
China
Prior art keywords
cost
attribute
class
function
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610375413.7A
Other languages
English (en)
Inventor
金平艳
胡成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Priority to CN201610375413.7A priority Critical patent/CN106611181A/zh
Publication of CN106611181A publication Critical patent/CN106611181A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明提出了基于代价敏感二维尺度决策树构造方法,涉及人工智能、机器学习技术领域,该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,利用测试代价指标函数、误分类代价函数、信息增益函数求解总代价成本目标函数,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确。

Description

基于代价敏感二维尺度决策树构造方法
所属领域
本发明涉及人工智能、机器学习技术领域。
背景技术
早期的决策树分类算法旨在提高分类的精确度,后面的一维尺度代价敏感决策树分类局限性较大,在分类过程中存在较大的弊端。如之前只考虑测试代价时,得出的分类结果并不能权衡误分类所产生的代价影响。代价敏感学习是一种新的分类学习。它是通过训练集建立分类器时,以获得最小测试代价和误分类代价为目标。测试代价有限的条件下,基于最小测试代价的分类器并不是最好的,大部分研究认为把误分类代价和测试代价放在一起研究是十分必要,在付出的测试代价和所能减少的误分类代价之间进行权衡,以最小化包含这两种代价的总代价为目标,做出最佳的决策。
发明内容
针对上述不足,本发明提供了基于代价敏感二维尺度决策树构造方法。
本发明所采用的技术方案是:基于代价敏感二维尺度决策树构造方法,该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,本方法的具体实施步骤如下:
步骤1.设训练集中有X个样本,属性个数为n,即n=(s1,s2,…sn),同时分裂属性sr对应了m个类L,其中Lk∈(L1,L2…,Lm),r∈(1,2…,n),k∈(1,2…,m),相关领域用户设定好误分类代价矩阵C、测试成本costS、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵m×m方阵是:
其中cij表示第j类数据分为第i类的代价,如果i=j为正确分类,则cij=0,否则为错误分类cij≠0,其值由相关领域用户给定,这里i,j∈(1,2,…,m);
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据总代价成本目标函数TOTAL从候选属性中选择属性splitS;总代价目标函数为:TOTAL=f(S)+L(s,i),其中f(S)为选择属性S时,为测试代价指标函数,L(s,i)为把选择属性S预测为第i类所引起的误分类代价指标函数;
当选择属性splitS满足总代价成本目标函数最小时,则找到标记结点G;
步骤7:标记结点G为属性splitS;
步骤8:由结点延伸出满足条件为splitS=splitSi分支;
步骤8.1:假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1的情况,则递归调用步骤6至步骤8;
步骤10:利用后剪支技术解决此决策树模型中过度拟合问题;
步骤11:更新训练数据集,保存新的示例数据。
本发明的有益效果是:为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,并且使最后得出的决策树误分类代价与测试代价之和最低。
具体实施方式
以下,详细描述此发明。
一、所述步骤6根据总代价成本目标函数TOTAL从候选属性中选择属性splitS,需要求解总代价成本目标函数,在求解此函数时会用到测试代价指标函数f(S),以及误分类代价指标函数L(s,i),在求解f(S)时会用到信息增益函数,具体的求解过程如下:
步骤6.1:求解测试代价指标函数
步骤6.1.1:求解信息增益函数gain(S)
属性S为测试属性,这些子集对应于包含集合P结点生长出来的分支,设Zij是子集Zj中类Li的样本数,则S划分子集的期望信息为:
为第j个子集的权,期望值越小,子集划分纯度越高,对于给定子集Zj
其中,是Zj中样本属于Li的概率;
最后得到信息增益公式为:
gain(S)=I(Z1j,L,…,Zmj)-E(S)
步骤6.1.2:求解测试代价指标函数f(S)
根据上述信息增益gain(S)可得:
ω为相关领域用户给定的一个经济因子,ω∈(0,1);costS为属性S的测试成本,这由用户指定,costS+1>1,当cost=0时,f(cost)是有意义的,test cost(S)是标准测试代价指数,其值越小越好,用来表征每一属性通过测试代价指标进行选择;
步骤6.2:求解误分类代价指标函数L(S,i)
根据步骤1.1误分类代价矩阵,对于任一样例S,如果将其分为第i类,那么
可能此时属性S的误分类为i的代价是:
其中L(S,i)为将S分为第i类的预测总代价,p(j/S)为在属性S中第j类的概率,C(i,j)为把j类错分为第i类的代价花费;
步骤6.3:求解总代价目标函数TOTAL,根据步骤6.1.2、步骤6.2的两个公式,可得出:
二、所述步骤10方法采用后剪支技术的原理为:如果取消当前测试属性可以减少决策树模型的测试代价,那么就剪除当前测试结点,如代价复杂性剪枝和最少描述长度剪枝,代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价,剪枝后子树减少的叶节点数称为复杂性,最少描述长度剪枝根据决策树的编码代价大小进行剪枝,目标是使得训练样本的大多数数据符合这棵树,把样本中不符合的数据作为例外编码,使得编码决策树所需的比特最小和编码例外实例所需的比特最小:
后剪支目标函数为:
f(Si)>β
其中正数β为用户指定达到的条件,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件,然后满足测试代价降低到用户要求。

Claims (3)

1.基于代价敏感二维尺度决策树构造方法,该方法涉及人工智能、机器学习技术领域,其特征是:该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,本方法的具体实施步骤如下:
步骤1.设训练集中有个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,相关领域用户设定好误分类代价矩阵C、测试成本 、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵方阵是:
其中表示第j类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关领域用户给定,这里 ;
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结
G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据总代价成本目标函数从候选属性中选择属性
总代价目标函数为:,其中为选择属性S时,为测试代价指标函数, 为把选择属性预测为第类所引起的误分类代价指标函数;
当选择属性满足总代价成本目标函数最小时,则找到标记结点G;
步骤7:标记结点G为属性
步骤8:由结点延伸出满足条件为分枝;
步骤8.1:假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1的情况,则递归调用步骤6至步骤8;
步骤10:利用后剪支技术解决此决策树模型中过度拟合问题;
步骤11:更新训练数据集,保存新的示例数据。
2.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法,其特征是:所述步骤6根据总代价成本目标函数从候选属性中选择属性,需要求解总代价成本目标函数,在求解此函数时会用到测试代价指标函数,以及误分类代价指标函数,在求解时会用到信息增益函数,具体的求解过程如下:
步骤6.1:求解测试代价指标函数
步骤6.1.1:求解信息增益函数
属性S为测试属性,这些子集对应于包含集合P结点生长出来的分支,设是子集中类的样本数,则S划分子集的期望信息为:
为第j个子集的权,期望值越小,子集划分纯度越高,对于给定子集,其中,,是中样本属于的概率;
最后得到信息增益公式为:
步骤6.1.2:求解测试代价指标函数
根据上述信息增益可得:
为相关领域用户给定的一个经济因子, 为属性S的测试成本,这由用户指定,, 当时, 是有意义的, 是标准测试代价指数,其值越小越好,用来表征每一属性通过测试代价指标进行选择;
步骤6.2:求解误分类代价指标函数
根据步骤1.1误分类代价矩阵,对于任一样例S,如果将其分为第i类,那么
可能此时属性S的误分类为i的代价是:
其中为将S分为第i类的预测总代价, 为在属性S中第j类的概率, 为把j类错分为第i类的代价花费;
步骤6.3:求解总代价目标函数TOTAL,根据步骤6.1.2、步骤6.2的两个公式,可得出:
3.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法,其特征是:所述步骤10方法采用后剪支技术的原理为:如果取消当前测试属性可以减少决策树模型的测试代价,那么就剪除当前测试结点,如代价复杂性剪枝和最少描述长度剪枝,代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价,剪枝后子树减少的叶节点数称为复杂性,最少描述长度剪枝根据决策树的编码代价大小进行剪枝,目标是使得训练样本的大多数数据符合这棵树,把样本中不符合的数据作为例外编码,使得编码决策树所需的比特最小和编码例外实例所需的比特最小:
后剪支目标函数为:
其中正数为用户指定达到的条件,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件,然后满足测试代价降低到用户要求。
CN201610375413.7A 2016-05-30 2016-05-30 基于代价敏感二维尺度决策树构造方法 Pending CN106611181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610375413.7A CN106611181A (zh) 2016-05-30 2016-05-30 基于代价敏感二维尺度决策树构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610375413.7A CN106611181A (zh) 2016-05-30 2016-05-30 基于代价敏感二维尺度决策树构造方法

Publications (1)

Publication Number Publication Date
CN106611181A true CN106611181A (zh) 2017-05-03

Family

ID=58614647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610375413.7A Pending CN106611181A (zh) 2016-05-30 2016-05-30 基于代价敏感二维尺度决策树构造方法

Country Status (1)

Country Link
CN (1) CN106611181A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189696A (zh) * 2018-08-12 2019-01-11 华中科技大学 一种照片分类器训练方法、ssd缓存系统及缓存方法
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN113253229A (zh) * 2021-05-12 2021-08-13 中国人民解放军空军工程大学 一种雷达目标识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211296A (zh) * 2006-12-25 2008-07-02 华为技术有限公司 一种测试代价敏感的系统故障定位方法及其装置
US7558764B2 (en) * 2004-06-28 2009-07-07 International Business Machines Corporation Methods for multi-class cost-sensitive learning
CN103886030A (zh) * 2014-03-05 2014-06-25 南京邮电大学 基于代价敏感决策树的信息物理融合系统数据分类方法
CN104850862A (zh) * 2015-05-27 2015-08-19 广西师范大学 一种基于单位代价收益敏感决策树的分类方法
CN104850892A (zh) * 2015-05-27 2015-08-19 广西师范大学 偏好代价敏感决策树构造方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558764B2 (en) * 2004-06-28 2009-07-07 International Business Machines Corporation Methods for multi-class cost-sensitive learning
CN101211296A (zh) * 2006-12-25 2008-07-02 华为技术有限公司 一种测试代价敏感的系统故障定位方法及其装置
CN103886030A (zh) * 2014-03-05 2014-06-25 南京邮电大学 基于代价敏感决策树的信息物理融合系统数据分类方法
CN104850862A (zh) * 2015-05-27 2015-08-19 广西师范大学 一种基于单位代价收益敏感决策树的分类方法
CN104850892A (zh) * 2015-05-27 2015-08-19 广西师范大学 偏好代价敏感决策树构造方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张宇: "决策树分类及剪枝算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李作春 等: "代价敏感学习的过度拟合问题研究", 《广西大学学报:自然科学版》 *
阮晓宏 等: "基于异构代价敏感决策树的分类器算法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189696A (zh) * 2018-08-12 2019-01-11 华中科技大学 一种照片分类器训练方法、ssd缓存系统及缓存方法
CN109189696B (zh) * 2018-08-12 2020-11-24 华中科技大学 一种ssd缓存系统及缓存方法
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN113253229A (zh) * 2021-05-12 2021-08-13 中国人民解放军空军工程大学 一种雷达目标识别方法及系统
CN113253229B (zh) * 2021-05-12 2023-09-26 中国人民解放军空军工程大学 一种雷达目标识别方法及系统

Similar Documents

Publication Publication Date Title
Kong et al. Multi-stream hybrid architecture based on cross-level fusion strategy for fine-grained crop species recognition in precision agriculture
CN111291755B (zh) 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
CN104035996B (zh) 基于Deep Learning的领域概念抽取方法
CN108629367A (zh) 一种基于深度网络增强服装属性识别精度的方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
Salcedo-Sanz et al. New coral reefs-based approaches for the model type selection problem: a novel method to predict a nation's future energy demand
CN107508866A (zh) 减小移动设备端神经网络模型更新的传输消耗的方法
CN109344994A (zh) 一种基于改进飞蛾优化算法的预测模型方法
CN105260746B (zh) 一种可扩展的多层集成多标记学习系统
CN106611181A (zh) 基于代价敏感二维尺度决策树构造方法
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
CN109284860A (zh) 一种基于正交反向樽海鞘优化算法的预测方法
CN110210534A (zh) 基于多包融合的高分遥感图像场景多标签分类方法
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
Yan et al. Land-cover classification with time-series remote sensing images by complete extraction of multiscale timing dependence
CN106780501A (zh) 基于改进人工蜂群算法的图像分割方法
Gill et al. Apple image segmentation using teacher learner based optimization based minimum cross entropy thresholding
CN114399108A (zh) 一种基于多模态信息的茶园产量预测方法
CN106611189A (zh) 标准化多维代价敏感决策树的集成分类器构建方法
CN106611183A (zh) 基尼指数与误分类代价敏感决策树构建方法
CN109242039A (zh) 一种基于候选标记估计的未标记数据利用方法
O’Donnell et al. Low‐coverage whole‐genome sequencing reveals molecular markers for spawning season and sex identification in Gulf of Maine Atlantic cod (Gadus morhua, Linnaeus 1758)
CN106611036A (zh) 一种改进的多维尺度异构代价敏感决策树构建方法
CN106611188A (zh) 一种标准化的多维尺度代价敏感决策树构建方法
CN106611187A (zh) 一种多维尺度的异构代价敏感决策树构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503