CN106611181A - 基于代价敏感二维尺度决策树构造方法 - Google Patents
基于代价敏感二维尺度决策树构造方法 Download PDFInfo
- Publication number
- CN106611181A CN106611181A CN201610375413.7A CN201610375413A CN106611181A CN 106611181 A CN106611181 A CN 106611181A CN 201610375413 A CN201610375413 A CN 201610375413A CN 106611181 A CN106611181 A CN 106611181A
- Authority
- CN
- China
- Prior art keywords
- cost
- decision tree
- test
- function
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 36
- 230000007704 transition Effects 0.000 claims abstract description 4
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 3
- 238000010801 machine learning Methods 0.000 claims abstract description 3
- 238000013138 pruning Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 238000010008 shearing Methods 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了基于代价敏感二维尺度决策树构造方法,涉及人工智能、机器学习技术领域,该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,利用测试代价指标函数、误分类代价函数、信息增益函数求解总代价成本目标函数,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确。
Description
所属领域
本发明涉及人工智能、机器学习技术领域。
背景技术
早期的决策树分类算法旨在提高分类的精确度,后面的一维尺度代价敏感决策树分类局限性较大,在分类过程中存在较大的弊端。如之前只考虑测试代价时,得出的分类结果并不能权衡误分类所产生的代价影响。代价敏感学习是一种新的分类学习。它是通过训练集建立分类器时,以获得最小测试代价和误分类代价为目标。测试代价有限的条件下,基于最小测试代价的分类器并不是最好的,大部分研究认为把误分类代价和测试代价放在一起研究是十分必要,在付出的测试代价和所能减少的误分类代价之间进行权衡,以最小化包含这两种代价的总代价为目标,做出最佳的决策。
发明内容
针对上述不足,本发明提供了基于代价敏感二维尺度决策树构造方法。
本发明所采用的技术方案是:基于代价敏感二维尺度决策树构造方法,该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,本方法的具体实施步骤如下:
步骤1.设训练集中有X个样本,属性个数为n,即n=(s1,s2,…sn),同时分裂属性sr对应了m个类L,其中Lk∈(L1,L2…,Lm),r∈(1,2…,n),k∈(1,2…,m),相关领域用户设定好误分类代价矩阵C、测试成本costS、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵m×m方阵是:
其中cij表示第j类数据分为第i类的代价,如果i=j为正确分类,则cij=0,否则为错误分类cij≠0,其值由相关领域用户给定,这里i,j∈(1,2,…,m);
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据总代价成本目标函数TOTAL从候选属性中选择属性splitS;总代价目标函数为:TOTAL=f(S)+L(s,i),其中f(S)为选择属性S时,为测试代价指标函数,L(s,i)为把选择属性S预测为第i类所引起的误分类代价指标函数;
当选择属性splitS满足总代价成本目标函数最小时,则找到标记结点G;
步骤7:标记结点G为属性splitS;
步骤8:由结点延伸出满足条件为splitS=splitSi分支;
步骤8.1:假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1的情况,则递归调用步骤6至步骤8;
步骤10:利用后剪支技术解决此决策树模型中过度拟合问题;
步骤11:更新训练数据集,保存新的示例数据。
本发明的有益效果是:为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,并且使最后得出的决策树误分类代价与测试代价之和最低。
具体实施方式
以下,详细描述此发明。
一、所述步骤6根据总代价成本目标函数TOTAL从候选属性中选择属性splitS,需要求解总代价成本目标函数,在求解此函数时会用到测试代价指标函数f(S),以及误分类代价指标函数L(s,i),在求解f(S)时会用到信息增益函数,具体的求解过程如下:
步骤6.1:求解测试代价指标函数
步骤6.1.1:求解信息增益函数gain(S)
属性S为测试属性,这些子集对应于包含集合P结点生长出来的分支,设Zij是子集Zj中类Li的样本数,则S划分子集的期望信息为:
为第j个子集的权,期望值越小,子集划分纯度越高,对于给定子集Zj:
其中,是Zj中样本属于Li的概率;
最后得到信息增益公式为:
gain(S)=I(Z1j,L,…,Zmj)-E(S)
步骤6.1.2:求解测试代价指标函数f(S)
根据上述信息增益gain(S)可得:
ω为相关领域用户给定的一个经济因子,ω∈(0,1);costS为属性S的测试成本,这由用户指定,costS+1>1,当cost=0时,f(cost)是有意义的,test cost(S)是标准测试代价指数,其值越小越好,用来表征每一属性通过测试代价指标进行选择;
步骤6.2:求解误分类代价指标函数L(S,i)
根据步骤1.1误分类代价矩阵,对于任一样例S,如果将其分为第i类,那么
可能此时属性S的误分类为i的代价是:
其中L(S,i)为将S分为第i类的预测总代价,p(j/S)为在属性S中第j类的概率,C(i,j)为把j类错分为第i类的代价花费;
步骤6.3:求解总代价目标函数TOTAL,根据步骤6.1.2、步骤6.2的两个公式,可得出:
二、所述步骤10方法采用后剪支技术的原理为:如果取消当前测试属性可以减少决策树模型的测试代价,那么就剪除当前测试结点,如代价复杂性剪枝和最少描述长度剪枝,代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价,剪枝后子树减少的叶节点数称为复杂性,最少描述长度剪枝根据决策树的编码代价大小进行剪枝,目标是使得训练样本的大多数数据符合这棵树,把样本中不符合的数据作为例外编码,使得编码决策树所需的比特最小和编码例外实例所需的比特最小:
后剪支目标函数为:
f(Si)>β
其中正数β为用户指定达到的条件,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件,然后满足测试代价降低到用户要求。
Claims (3)
1.基于代价敏感二维尺度决策树构造方法,该方法涉及人工智能、机器学习技术领域,其特征是:该方法应用测试代价与误分类代价之和最小值进行属性选择,依次构造决策树,为了解决得出的决策树存在过渡拟合问题,提出了后剪支方案,使得得出的决策树在预测未知对象时更加准确,本方法的具体实施步骤如下:
步骤1.设训练集中有个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,相关领域用户设定好误分类代价矩阵C、测试成本 、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵方阵是:
其中表示第j类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关领域用户给定,这里 ;
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结
G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据总代价成本目标函数从候选属性中选择属性;
总代价目标函数为:,其中为选择属性S时,为测试代价指标函数, 为把选择属性预测为第类所引起的误分类代价指标函数;
当选择属性满足总代价成本目标函数最小时,则找到标记结点G;
步骤7:标记结点G为属性;
步骤8:由结点延伸出满足条件为分枝;
步骤8.1:假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1的情况,则递归调用步骤6至步骤8;
步骤10:利用后剪支技术解决此决策树模型中过度拟合问题;
步骤11:更新训练数据集,保存新的示例数据。
2.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法,其特征是:所述步骤6根据总代价成本目标函数从候选属性中选择属性,需要求解总代价成本目标函数,在求解此函数时会用到测试代价指标函数,以及误分类代价指标函数,在求解时会用到信息增益函数,具体的求解过程如下:
步骤6.1:求解测试代价指标函数
步骤6.1.1:求解信息增益函数
属性S为测试属性,这些子集对应于包含集合P结点生长出来的分支,设是子集中类的样本数,则S划分子集的期望信息为:
为第j个子集的权,期望值越小,子集划分纯度越高,对于给定子集:,其中,,是中样本属于的概率;
最后得到信息增益公式为:
步骤6.1.2:求解测试代价指标函数
根据上述信息增益可得:
为相关领域用户给定的一个经济因子, ; 为属性S的测试成本,这由用户指定,, 当时, 是有意义的, 是标准测试代价指数,其值越小越好,用来表征每一属性通过测试代价指标进行选择;
步骤6.2:求解误分类代价指标函数
根据步骤1.1误分类代价矩阵,对于任一样例S,如果将其分为第i类,那么
可能此时属性S的误分类为i的代价是:
其中为将S分为第i类的预测总代价, 为在属性S中第j类的概率, 为把j类错分为第i类的代价花费;
步骤6.3:求解总代价目标函数TOTAL,根据步骤6.1.2、步骤6.2的两个公式,可得出:
。
3.根据权利要求1所述的基于代价敏感二维尺度决策树构造方法,其特征是:所述步骤10方法采用后剪支技术的原理为:如果取消当前测试属性可以减少决策树模型的测试代价,那么就剪除当前测试结点,如代价复杂性剪枝和最少描述长度剪枝,代价复杂性剪枝在剪枝过程中因子树被叶节点替代而增加的错误分类样本总数称为代价,剪枝后子树减少的叶节点数称为复杂性,最少描述长度剪枝根据决策树的编码代价大小进行剪枝,目标是使得训练样本的大多数数据符合这棵树,把样本中不符合的数据作为例外编码,使得编码决策树所需的比特最小和编码例外实例所需的比特最小:
后剪支目标函数为:
其中正数为用户指定达到的条件,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件,然后满足测试代价降低到用户要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610375413.7A CN106611181A (zh) | 2016-05-30 | 2016-05-30 | 基于代价敏感二维尺度决策树构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610375413.7A CN106611181A (zh) | 2016-05-30 | 2016-05-30 | 基于代价敏感二维尺度决策树构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106611181A true CN106611181A (zh) | 2017-05-03 |
Family
ID=58614647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610375413.7A Pending CN106611181A (zh) | 2016-05-30 | 2016-05-30 | 基于代价敏感二维尺度决策树构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106611181A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189696A (zh) * | 2018-08-12 | 2019-01-11 | 华中科技大学 | 一种照片分类器训练方法、ssd缓存系统及缓存方法 |
CN110970050A (zh) * | 2019-12-20 | 2020-04-07 | 北京声智科技有限公司 | 语音降噪方法、装置、设备及介质 |
CN113253229A (zh) * | 2021-05-12 | 2021-08-13 | 中国人民解放军空军工程大学 | 一种雷达目标识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211296A (zh) * | 2006-12-25 | 2008-07-02 | 华为技术有限公司 | 一种测试代价敏感的系统故障定位方法及其装置 |
US7558764B2 (en) * | 2004-06-28 | 2009-07-07 | International Business Machines Corporation | Methods for multi-class cost-sensitive learning |
CN103886030A (zh) * | 2014-03-05 | 2014-06-25 | 南京邮电大学 | 基于代价敏感决策树的信息物理融合系统数据分类方法 |
CN104850862A (zh) * | 2015-05-27 | 2015-08-19 | 广西师范大学 | 一种基于单位代价收益敏感决策树的分类方法 |
CN104850892A (zh) * | 2015-05-27 | 2015-08-19 | 广西师范大学 | 偏好代价敏感决策树构造方法 |
-
2016
- 2016-05-30 CN CN201610375413.7A patent/CN106611181A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558764B2 (en) * | 2004-06-28 | 2009-07-07 | International Business Machines Corporation | Methods for multi-class cost-sensitive learning |
CN101211296A (zh) * | 2006-12-25 | 2008-07-02 | 华为技术有限公司 | 一种测试代价敏感的系统故障定位方法及其装置 |
CN103886030A (zh) * | 2014-03-05 | 2014-06-25 | 南京邮电大学 | 基于代价敏感决策树的信息物理融合系统数据分类方法 |
CN104850862A (zh) * | 2015-05-27 | 2015-08-19 | 广西师范大学 | 一种基于单位代价收益敏感决策树的分类方法 |
CN104850892A (zh) * | 2015-05-27 | 2015-08-19 | 广西师范大学 | 偏好代价敏感决策树构造方法 |
Non-Patent Citations (3)
Title |
---|
张宇: "决策树分类及剪枝算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李作春 等: "代价敏感学习的过度拟合问题研究", 《广西大学学报:自然科学版》 * |
阮晓宏 等: "基于异构代价敏感决策树的分类器算法", 《计算机科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189696A (zh) * | 2018-08-12 | 2019-01-11 | 华中科技大学 | 一种照片分类器训练方法、ssd缓存系统及缓存方法 |
CN109189696B (zh) * | 2018-08-12 | 2020-11-24 | 华中科技大学 | 一种ssd缓存系统及缓存方法 |
CN110970050A (zh) * | 2019-12-20 | 2020-04-07 | 北京声智科技有限公司 | 语音降噪方法、装置、设备及介质 |
CN113253229A (zh) * | 2021-05-12 | 2021-08-13 | 中国人民解放军空军工程大学 | 一种雷达目标识别方法及系统 |
CN113253229B (zh) * | 2021-05-12 | 2023-09-26 | 中国人民解放军空军工程大学 | 一种雷达目标识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN112735535B (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
Hu et al. | Identification of migratory insects from their physical features using a decision-tree support vector machine and its application to radar entomology | |
CN111581468B (zh) | 基于噪声容忍的偏多标记学习方法 | |
CN109408743A (zh) | 文本链接嵌入方法 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
US20220277188A1 (en) | Systems and methods for classifying data sets using corresponding neural networks | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
Ikawati et al. | Student behavior analysis to detect learning styles in Moodle learning management system | |
CN106611181A (zh) | 基于代价敏感二维尺度决策树构造方法 | |
CN107067033A (zh) | 机器学习模型的局部修复方法 | |
CN114139634A (zh) | 一种基于成对标签权重的多标签特征选择方法 | |
Chetcuti et al. | A weighting method to improve habitat association analysis: tested on British carabids | |
CN114556364A (zh) | 基于相似度运算符排序的神经架构搜索 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN117036781A (zh) | 一种基于树综合多样性深度森林的图像分类方法 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
CN116434273A (zh) | 一种基于单正标签的多标记预测方法及系统 | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
CN114357869A (zh) | 一种基于数据关系学习和预测的多目标优化代理模型设计方法及系统 | |
CN114841064A (zh) | 一种基于半监督集成学习的干旱灾害天气预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |