CN111428821A - 一种基于决策树的资产分类方法 - Google Patents

一种基于决策树的资产分类方法 Download PDF

Info

Publication number
CN111428821A
CN111428821A CN202010417459.7A CN202010417459A CN111428821A CN 111428821 A CN111428821 A CN 111428821A CN 202010417459 A CN202010417459 A CN 202010417459A CN 111428821 A CN111428821 A CN 111428821A
Authority
CN
China
Prior art keywords
decision tree
node
classification
asset
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010417459.7A
Other languages
English (en)
Inventor
胡天牧
高正平
胡晓东
杨永成
潘晨溦
欧志洪
王大淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Jiangsu Electric Power Information Technology Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Jiangsu Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Jiangsu Electric Power Information Technology Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202010417459.7A priority Critical patent/CN111428821A/zh
Publication of CN111428821A publication Critical patent/CN111428821A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于决策树的资产分类方法,包括如下步骤:获取训练样本和分类属性集合,即一定时间期间资产分类数据;“分而治之”,训练决策树;建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,这里本专利使用
Figure RE-DEST_PATH_IMAGE001
剪枝法来提高验证集精度;通过分类模型计算资产分类结果。本发明按不同的资产分类制定对应有效的资产管理方案。正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。

Description

一种基于决策树的资产分类方法
技术领域
本发明涉及一种对待检测资产数据进行分类的方法,具体说是一种基于决策树的资产分类方法。
背景技术
决策树是基于树结构进行决策的,通常会进行一系列的“子决策”,来实现最终决策。一般来说,一棵决策树包含一个根节点,若干个内部节点和若干叶节点;叶节点对应决策结果,其他每个节点则对应于一个属性测试;每一个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应一个决策测试序列。决策树的基本流程遵循简单且直观的法“分而治之”策略。
资产是企业过去的交易或事项形成的,由企业拥有或控制的,预期会给企业带来经济利益的资源。
电力企业一直都是重资产企业,固定资产在整个企业架构中扮演重要角色。它在企业资源管理中融合了物料、设备、工程等诸多元素,固定资产的管理也就愈发重要。想要合理有效的管理固定资产,合理的资产分类就很有必要,按不同的资产分类制定对应有效的管理方案。正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
发明内容
本发明的目的是提供一种基于决策树的资产分类方法决,企业可以按不同的资产分类制定对应有效的资产管理方案,正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
本发明的目的通过以下技术方案实现:
一种基于决策树的资产分类方法,其特征在于,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,提高验证集精度;
S4通过分类模型计算资产分类结果。
基于以上四个内容,形成一套完整的资产分类的算法。
通过本发明,可以按不同的资产分类制定对应有效的资产管理方案,正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
附图说明
图1是决策树进行资产分类流程图。
具体实施方式
一种基于决策树的资产分类方法,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,使用α-β剪枝法提高验证集精度;
S4通过分类模型计算资产分类结果。
本发明中相关技术术语的名词解释:
1.信息熵:度量样本集纯度的一种指标。
2.信息增益:用以度量两种概率分布的差异。
3.剪枝:决策树算法对付“过拟合”的主要手段。基本策略有“预剪枝”和“后剪枝”。
4.递归:一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法。
具体如下:
首先,决策树是一递归的过程,递归过程如下:
设训练样本为D,属性集为A,生成函数为DTG(D,A)
Step1:生成节点node;
Step2:如果D中的样本全属于同一类别C,则将node标记为C类叶节点;返回;
Step3:如果A为空集或者样本D在A上的取值相同,则将node标记为叶节点,类别为D中样本数最多的类;返回;
Step4:从A中选择最优划分属性a;
Step5:对a每一个值av,为node生成一个分支,设Dv表示D中在a上取值为av的样本子集;如果Dv为空集,将分支节点标记为叶节点,类别为D中样本数最多的类;返回;否则,以DTG(Dv,A\{a})为分支节点。递归的结果为以node为根节点的一棵决策树。
为找到的Step4中最优划分属性,设样本D中的第k类样本所占比例为pk,则样本D的信息熵为E(D)=-∑pklog2pk;设属性a有V个可能的取值{a1,a2,…,aV},若使用a对样本D进行划分,则会生成V个可能的分支节点,其中第v个分支节点包含D中所有在属性a上取值为av的样本,记为Dv。给分支节点赋权重|Dv|/|D|,那么属性a对样本D划分所得的“信息增益”
Figure BDA0002495596140000031
最优划分属性即转化为求argmax G(D,a),a∈A。
对生成的决策树进行α-β剪枝,去“过拟合”。
对待分类资产数据带入决策树进行决策分类。

Claims (2)

1.一种基于决策树的资产分类方法,其特征在于,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,使用α-β剪枝法来提高验证集精度;
S4通过分类模型计算资产分类结果。
2.根据权利要求1所述的基于决策树的资产分类方法,其特征在于,具体步骤如下:
1)首先,决策树是一递归的过程,递归过程如下:
设训练样本为D,属性集为A,生成函数为DTG(D,A)
Step1:生成节点node;
Step2:如果D中的样本全属于同一类别C,则将node标记为C类叶节点;返回;
Step3:如果A为空集或者样本D在A上的取值相同,则将node标记为叶节点,类别为D中样本数最多的类;返回;
Step4:从A中选择最优划分属性a;
Step5:对a每一个值av,为node生成一个分支,设Dv表示D中在a上取值为av的样本子集;如果Dv为空集,将分支节点标记为叶节点,类别为D中样本数最多的类;返回;否则,以DTG(Dv,A\{a})为分支节点;递归的结果为以node为根节点的一棵决策树;
2)为找到的Step4中最优划分属性,设样本D中的第k类样本所占比例为pk,则样本D的信息熵为E(D)=-∑pklog2pk;设属性a有V个可能的取值{a1,a2,…,aV},若使用a对样本D进行划分,则会生成V个可能的分支节点,其中第v个分支节点包含D中所有在属性a上取值为av的样本,记为Dv;给分支节点赋权重|Dv|/|D|,那么属性a对样本D划分所得的“信息增益”
Figure FDA0002495596130000011
最优划分属性即转化为求argmaxG(D,a),a∈A;
3)对生成的决策树进行α-β剪枝,去“过拟合”;
4)对待分类资产数据带入决策树进行决策分类。
CN202010417459.7A 2020-05-18 2020-05-18 一种基于决策树的资产分类方法 Pending CN111428821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417459.7A CN111428821A (zh) 2020-05-18 2020-05-18 一种基于决策树的资产分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417459.7A CN111428821A (zh) 2020-05-18 2020-05-18 一种基于决策树的资产分类方法

Publications (1)

Publication Number Publication Date
CN111428821A true CN111428821A (zh) 2020-07-17

Family

ID=71551076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417459.7A Pending CN111428821A (zh) 2020-05-18 2020-05-18 一种基于决策树的资产分类方法

Country Status (1)

Country Link
CN (1) CN111428821A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298422A (zh) * 2021-06-16 2021-08-24 福建亿力优能电力科技有限公司 一种基于用电数据的污染源企业违规生产监控方法
CN113472590A (zh) * 2021-07-14 2021-10-01 南京邮电大学 一种DDS中基于机器学习的QoS配置方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298422A (zh) * 2021-06-16 2021-08-24 福建亿力优能电力科技有限公司 一种基于用电数据的污染源企业违规生产监控方法
CN113472590A (zh) * 2021-07-14 2021-10-01 南京邮电大学 一种DDS中基于机器学习的QoS配置方法

Similar Documents

Publication Publication Date Title
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN111428821A (zh) 一种基于决策树的资产分类方法
CN110942098A (zh) 一种基于贝叶斯剪枝决策树的供电服务质量分析方法
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
Li et al. Scalable random forests for massive data
Wang et al. Partition cost-sensitive CART based on customer value for Telecom customer churn prediction
CN107194468A (zh) 面向情报大数据的决策树增量学习方法
CN117556369A (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN112819499A (zh) 信息发送方法、装置、服务器及存储介质
Wei et al. A generic neural network approach for filling missing data in data mining
CN116680325A (zh) 基于属性关联性的时序记录链接数据匹配方法及装置
CN112766537B (zh) 一种短期电负荷预测方法
CN108256083A (zh) 基于深度学习的内容推荐方法
CN108256086A (zh) 数据特征统计分析方法
Hui et al. Analysis of decision tree classification algorithm based on attribute reduction and application in criminal behavior
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN107577690B (zh) 海量信息数据的推荐方法及推荐装置
Tutore et al. Conditional classification trees using instrumental variables
CN114997278B (zh) 基于计算机算法模型的工程数字化信息分析方法
CN111753992A (zh) 筛选方法和筛选系统
CN116049700B (zh) 基于多模态的运检班组画像生成方法及装置
CN117216490B (zh) 一种智能大数据采集系统
US20220260963A1 (en) Selection Controller Artificial Neural Network - SCANN
CN117762758B (zh) 一种web系统的性能效率一致性测试方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717