CN106611183A - 基尼指数与误分类代价敏感决策树构建方法 - Google Patents

基尼指数与误分类代价敏感决策树构建方法 Download PDF

Info

Publication number
CN106611183A
CN106611183A CN201610380003.1A CN201610380003A CN106611183A CN 106611183 A CN106611183 A CN 106611183A CN 201610380003 A CN201610380003 A CN 201610380003A CN 106611183 A CN106611183 A CN 106611183A
Authority
CN
China
Prior art keywords
attribute
cost
class
misclassification
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610380003.1A
Other languages
English (en)
Inventor
金平艳
胡成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Priority to CN201610380003.1A priority Critical patent/CN106611183A/zh
Publication of CN106611183A publication Critical patent/CN106611183A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基尼指数与误分类代价敏感决策树构建方法,该方法涉及人工智能、机器学习技术领域,该方法联合误分类代价和属性信息—作为候选属性选择标准,选择更大值作为节点G,根据分裂因子指标来选择满足条件 的分支,循环执行上述操作,就可以遍历整个训练样本集,得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型。

Description

基尼指数与误分类代价敏感决策树构建方法
所属领域
本发明涉及人工智能、机器学习技术领域。
背景技术
在归纳学习技术中如何尽量减少误分类错误是主要焦点,例如CART和C4.5。在归纳问题上误分类不仅是一个错误,即错误分类所带来的代价不容忽略。分裂属性选择是决策树构建的一个关键又基本过程,最流行的属性选择方法侧重于测量属性的信息增益。当错误分类所引起的代价不容忽视时,很自然地把降低代价机制和属性信息结合起来作为分裂属性选择标准,属性选择的目标是最小化误分类总代价。最小化误分类总代价被称为基于CAI的分裂属性选择,这种方法基于单一代价机制。由于CAI算法局限性,误分类代价和属性信息之间的平衡性未得到很好的解决,从而影响精度和整体误分类代价。
发明内容
针对上述不足,本发明提出了联合误分类代价和属性信息作为分裂属性选择标准的方法。
本发明所要解决技术问题是决策过程中误分类代价和属性信息之间的平衡性问题,以此同时构成的决策树具有更小的误分类代价。
本发明所采用的技术方案是:基尼指数与误分类代价敏感决策树构建方法,该方法联合误分类代价和属性信息—ASF(S)作为候选属性选择标准,选择更大ASF(S)值作为节点G,根据gini(Si)分裂因子指标来选择满足条件splitS=splitSi的分支,循环执行上述操作,就可以遍历整个训练样本集,得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型。
本发明的有益效果是:
1、考虑了误分类代价和属性信息之间的平衡性,在决策过程中,使得误分类代价达到最小,同时又能反映属性信息量和纯度。
2、对属性信息增益进行优化处理,避免因属性信息增益过小而忽略了属性信息的风险。
附图说明
基尼指数与误分类代价敏感决策树结构流程图
具体实施方式
以下结合流程图,对本发明的进行详细说明。
本发明的具体实施步骤如下:
步骤1.设训练集中有X个样本,属性个数为n,即n=(s1,s2,…sn),同时分裂属性sr对应了m个类L,其中Li∈(L1,L2…,Lm),r∈(1,2…,n),i∈(1,2…,m),设误分类代价矩阵为C,类别标识个数为m,则该数据的代价矩阵m×m方阵是:
其中Cij表示第j类数据分为第i类的代价,如果i=j为正确分类,则Cij=0,否则为错误分类Cij≠0,其值由相关领域用户给定,这里i,j∈(1,2,…,m);
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回节点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记节点G;
步骤5:如果候选属性为空,则返回G为叶子节点,标记为训练数据集中最普通的类;
步骤6:根据本发明代价敏感的分裂属性因子ASF候选属性中选择splitS,
候选属性因子ASF:
gini(S)为选择属性S的信息量,averageL(S,i)为把属性S误分为i类的平均总误分类代价,当选择属性splitS满足目标函数ASF(S)最大时,则找到标记节点G;
步骤7:标记节点G为属性splitS;
步骤8:根据基尼指数gini(Si)值延伸出满足条件为splitS=splitSi分支;
步骤8.1::假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子节点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1中情况,则递归调用步骤6至步骤8。
步骤10:更新训练数据集,保存新的示例数据。
上述步骤所涉及到的公式计算及定义,详细如下:
一、所述步骤6,选择属性的基尼指数gini(S)计算如下:
其中k为splitS=splitSi的属性值个数,Xi为子结点splitSi的记录数,X为splitS处的记录数,其中分裂属性的基尼指数gini(Si)值具体计算如下(此计算也适用于步骤8关于基尼指数gini(Si)的计算):
设训练数据集X,其类有m个,那么其gini指标为:
其中p(Li/Si)为分裂属性Si属于Li类的相对频率,当gini(Si)=0,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,gini(Si)最大,表示能得到最小的有用信息。
二、所述步骤6关于目标函数ASF的计算,其中所涉及到的有误分类代价指标函数L(Si,i)、属性S平均总误分类代价,其具体的求解过程如下:
步骤6.1:求解误分类代价指标函数L(Si,i)
根据步骤1的误分类代价矩阵,对于任一属性值Si,如果将其分为第i类,那么可能此时属性值Si的误分类为i的代价是:
其中L(Si,i)为将Si分为第i类的预测总代价,p(j/Si)为在属性值Si中第j类的概率,C(i,j)为把j类错分为第i类的代价花费;
步骤6.2:求解属性S的平均总误分类代价averageL(S,i)
其中k为splitS=splitSi的属性值个数;
步骤6.3:求解候选属性因子ASF
根据前面几个步骤,可得出:
候选属性因子:
选择属性的基尼指数gini(S)经过式子2gini(S)-1处理,可以预防因属性值信息量小而忽略的风险。
三、算法伪代码计算过程
输入:X个样本训练集,训练集的误分类代价矩阵C。
输出:基尼指数与误分类代价敏感决策树。

Claims (3)

1.基尼指数与误分类代价敏感决策树构建方法,该方法涉及人工智能、机器学习技术领域,其特征是:该方法联合误分类代价和属性信息—作为候选属性选择标准,选择更大值作为节点G,根据分裂因子指标来选择满足条件的分支,循环执行上述操作,就可以遍历整个训练样本集,得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型,本方法的具体实施步骤如下:
步骤1:设训练集中有个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,相关领域用户设定好误分类代价矩阵C、测试成本 、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵方阵是:
其中表示第j类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关领域用户给定,这里
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结
G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据本发明代价敏感的分裂属性因子ASF候选属性中选择
候选属性因子ASF:
为选择属性S的信息量, 为把属性S误分为i类的平均总误分类代价,当选择属性满足目标函数最大时,则找到标记节点
步骤7:标记节点为属性
步骤8:根据基尼指数值延伸出满足条件为分支;
步骤8.1::假设为训练数据集中的样本集合,如果为空,加上一个叶子节点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1中情况,则递归调用步骤6至步骤8;
步骤10:更新训练数据集,保存新的示例数据。
2.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法,其特征是:所述步骤6,选择属性的基尼指数计算如下:
其中k为的属性值个数, 为子结点的记录数,X为处的记录数,其中分裂属性的基尼指数值具体计算如下(此计算也适用于步骤8关于基尼指数gini()的计算):
设训练数据集X,其类有m个,那么其gini指标为 :
其中 为分裂属性 属于类的相对频率,当,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,最大,表示能得到最小的有用信息。
3.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法,其特征是:所述步骤6关于目标函数ASF的计算,其中所涉及到的有误分类代价指标函数、属性S平均总误分类代价,其具体的求解过程如下:
步骤6.1:求解误分类代价指标函数
根据步骤1的误分类代价矩阵,对于任一属性值,如果将其分为第i类,那么可能此时属性值的误分类为i的代价是:
其中为将分为第i类的预测总代价, 为在属性值中第j类的概率,为把j类错分为第i类的代价花费;
步骤6.2:求解属性S的平均总误分类代价
其中k为的属性值个数;
步骤6.3:求解候选属性因子ASF
根据前面几个步骤,可得出:
候选属性因子 :
选择属性的基尼指数处理,经过式子 可以预防因属性值信息量小而忽略的风险。
CN201610380003.1A 2016-05-30 2016-05-30 基尼指数与误分类代价敏感决策树构建方法 Pending CN106611183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610380003.1A CN106611183A (zh) 2016-05-30 2016-05-30 基尼指数与误分类代价敏感决策树构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610380003.1A CN106611183A (zh) 2016-05-30 2016-05-30 基尼指数与误分类代价敏感决策树构建方法

Publications (1)

Publication Number Publication Date
CN106611183A true CN106611183A (zh) 2017-05-03

Family

ID=58614569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610380003.1A Pending CN106611183A (zh) 2016-05-30 2016-05-30 基尼指数与误分类代价敏感决策树构建方法

Country Status (1)

Country Link
CN (1) CN106611183A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034201A (zh) * 2018-06-26 2018-12-18 阿里巴巴集团控股有限公司 模型训练及规则挖掘方法和系统
CN110598803A (zh) * 2019-09-26 2019-12-20 南京邮电大学 一种基于决策树算法的小区感知识别方法及装置
CN113327626A (zh) * 2021-06-23 2021-08-31 深圳市北科瑞声科技股份有限公司 语音降噪方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034201A (zh) * 2018-06-26 2018-12-18 阿里巴巴集团控股有限公司 模型训练及规则挖掘方法和系统
CN110598803A (zh) * 2019-09-26 2019-12-20 南京邮电大学 一种基于决策树算法的小区感知识别方法及装置
CN113327626A (zh) * 2021-06-23 2021-08-31 深圳市北科瑞声科技股份有限公司 语音降噪方法、装置、设备及存储介质
CN113327626B (zh) * 2021-06-23 2023-09-08 深圳市北科瑞声科技股份有限公司 语音降噪方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN106503106B (zh) 一种基于深度学习的图像哈希索引构建方法
CN103336795B (zh) 基于多特征的视频索引方法
CN109086437A (zh) 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN107330074A (zh) 基于深度学习和哈希编码的图像检索方法
CN107085607A (zh) 一种图像特征点匹配方法
CN103778262B (zh) 基于叙词表的信息检索方法及装置
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN103810299A (zh) 基于多特征融合的图像检索方法
CN101419606A (zh) 一种基于语义和内容的半自动图像标注方法
CN108170759A (zh) 投诉案件处理的方法、装置、计算机设备及存储介质
CN108388656A (zh) 一种基于标记相关性的图片搜索方法
CN107918657A (zh) 一种数据源的匹配方法和装置
CN106611183A (zh) 基尼指数与误分类代价敏感决策树构建方法
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN105528411A (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN105260746A (zh) 一种可扩展的多层集成多标记学习系统
CN106780501A (zh) 基于改进人工蜂群算法的图像分割方法
CN110197200B (zh) 一种基于机器视觉的服装电子标签生成方法
CN105512122B (zh) 信息检索系统的排序方法及装置
CN114625882A (zh) 提高图像文本描述独特多样性的网络构建方法
CN112149556B (zh) 一种基于深度互学习和知识传递的人脸属性识别方法
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503