CN111428821A - 一种基于决策树的资产分类方法 - Google Patents
一种基于决策树的资产分类方法 Download PDFInfo
- Publication number
- CN111428821A CN111428821A CN202010417459.7A CN202010417459A CN111428821A CN 111428821 A CN111428821 A CN 111428821A CN 202010417459 A CN202010417459 A CN 202010417459A CN 111428821 A CN111428821 A CN 111428821A
- Authority
- CN
- China
- Prior art keywords
- decision tree
- node
- classification
- asset
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013138 pruning Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000005192 partition Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 abstract description 6
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000013468 resource allocation Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及一种对待检测资产数据进行分类的方法,具体说是一种基于决策树的资产分类方法。
背景技术
决策树是基于树结构进行决策的,通常会进行一系列的“子决策”,来实现最终决策。一般来说,一棵决策树包含一个根节点,若干个内部节点和若干叶节点;叶节点对应决策结果,其他每个节点则对应于一个属性测试;每一个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应一个决策测试序列。决策树的基本流程遵循简单且直观的法“分而治之”策略。
资产是企业过去的交易或事项形成的,由企业拥有或控制的,预期会给企业带来经济利益的资源。
电力企业一直都是重资产企业,固定资产在整个企业架构中扮演重要角色。它在企业资源管理中融合了物料、设备、工程等诸多元素,固定资产的管理也就愈发重要。想要合理有效的管理固定资产,合理的资产分类就很有必要,按不同的资产分类制定对应有效的管理方案。正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
发明内容
本发明的目的是提供一种基于决策树的资产分类方法决,企业可以按不同的资产分类制定对应有效的资产管理方案,正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
本发明的目的通过以下技术方案实现:
一种基于决策树的资产分类方法,其特征在于,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,提高验证集精度;
S4通过分类模型计算资产分类结果。
基于以上四个内容,形成一套完整的资产分类的算法。
通过本发明,可以按不同的资产分类制定对应有效的资产管理方案,正确的资产分类能为企业资源配置提供有力参考,能节省企业运维成本,能为企业带来更多的经济利益。
附图说明
图1是决策树进行资产分类流程图。
具体实施方式
一种基于决策树的资产分类方法,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,使用α-β剪枝法提高验证集精度;
S4通过分类模型计算资产分类结果。
本发明中相关技术术语的名词解释:
1.信息熵:度量样本集纯度的一种指标。
2.信息增益:用以度量两种概率分布的差异。
3.剪枝:决策树算法对付“过拟合”的主要手段。基本策略有“预剪枝”和“后剪枝”。
4.递归:一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法。
具体如下:
首先,决策树是一递归的过程,递归过程如下:
设训练样本为D,属性集为A,生成函数为DTG(D,A)
Step1:生成节点node;
Step2:如果D中的样本全属于同一类别C,则将node标记为C类叶节点;返回;
Step3:如果A为空集或者样本D在A上的取值相同,则将node标记为叶节点,类别为D中样本数最多的类;返回;
Step4:从A中选择最优划分属性a;
Step5:对a每一个值av,为node生成一个分支,设Dv表示D中在a上取值为av的样本子集;如果Dv为空集,将分支节点标记为叶节点,类别为D中样本数最多的类;返回;否则,以DTG(Dv,A\{a})为分支节点。递归的结果为以node为根节点的一棵决策树。
为找到的Step4中最优划分属性,设样本D中的第k类样本所占比例为pk,则样本D的信息熵为E(D)=-∑pklog2pk;设属性a有V个可能的取值{a1,a2,…,aV},若使用a对样本D进行划分,则会生成V个可能的分支节点,其中第v个分支节点包含D中所有在属性a上取值为av的样本,记为Dv。给分支节点赋权重|Dv|/|D|,那么属性a对样本D划分所得的“信息增益”最优划分属性即转化为求argmax G(D,a),a∈A。
对生成的决策树进行α-β剪枝,去“过拟合”。
对待分类资产数据带入决策树进行决策分类。
Claims (2)
1.一种基于决策树的资产分类方法,其特征在于,包括如下步骤:
S1获取训练样本和分类属性集合,即一定时间期间资产分类数据;
S2“分而治之”,训练决策树;
S3建立分类模型,计算决策树验证集精度,如果精度不满足要求,通过后剪枝,使用α-β剪枝法来提高验证集精度;
S4通过分类模型计算资产分类结果。
2.根据权利要求1所述的基于决策树的资产分类方法,其特征在于,具体步骤如下:
1)首先,决策树是一递归的过程,递归过程如下:
设训练样本为D,属性集为A,生成函数为DTG(D,A)
Step1:生成节点node;
Step2:如果D中的样本全属于同一类别C,则将node标记为C类叶节点;返回;
Step3:如果A为空集或者样本D在A上的取值相同,则将node标记为叶节点,类别为D中样本数最多的类;返回;
Step4:从A中选择最优划分属性a;
Step5:对a每一个值av,为node生成一个分支,设Dv表示D中在a上取值为av的样本子集;如果Dv为空集,将分支节点标记为叶节点,类别为D中样本数最多的类;返回;否则,以DTG(Dv,A\{a})为分支节点;递归的结果为以node为根节点的一棵决策树;
2)为找到的Step4中最优划分属性,设样本D中的第k类样本所占比例为pk,则样本D的信息熵为E(D)=-∑pklog2pk;设属性a有V个可能的取值{a1,a2,…,aV},若使用a对样本D进行划分,则会生成V个可能的分支节点,其中第v个分支节点包含D中所有在属性a上取值为av的样本,记为Dv;给分支节点赋权重|Dv|/|D|,那么属性a对样本D划分所得的“信息增益”最优划分属性即转化为求argmaxG(D,a),a∈A;
3)对生成的决策树进行α-β剪枝,去“过拟合”;
4)对待分类资产数据带入决策树进行决策分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417459.7A CN111428821A (zh) | 2020-05-18 | 2020-05-18 | 一种基于决策树的资产分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417459.7A CN111428821A (zh) | 2020-05-18 | 2020-05-18 | 一种基于决策树的资产分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428821A true CN111428821A (zh) | 2020-07-17 |
Family
ID=71551076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010417459.7A Pending CN111428821A (zh) | 2020-05-18 | 2020-05-18 | 一种基于决策树的资产分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428821A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298422A (zh) * | 2021-06-16 | 2021-08-24 | 福建亿力优能电力科技有限公司 | 一种基于用电数据的污染源企业违规生产监控方法 |
CN113472590A (zh) * | 2021-07-14 | 2021-10-01 | 南京邮电大学 | 一种DDS中基于机器学习的QoS配置方法 |
-
2020
- 2020-05-18 CN CN202010417459.7A patent/CN111428821A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298422A (zh) * | 2021-06-16 | 2021-08-24 | 福建亿力优能电力科技有限公司 | 一种基于用电数据的污染源企业违规生产监控方法 |
CN113472590A (zh) * | 2021-07-14 | 2021-10-01 | 南京邮电大学 | 一种DDS中基于机器学习的QoS配置方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590698B (zh) | 基于人工智能技术的数据资产分类建模与分级保护方法 | |
CN108319987A (zh) | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 | |
CN111428821A (zh) | 一种基于决策树的资产分类方法 | |
CN110942098A (zh) | 一种基于贝叶斯剪枝决策树的供电服务质量分析方法 | |
CN114817575B (zh) | 基于扩展模型的大规模电力事理图谱处理方法 | |
Li et al. | Scalable random forests for massive data | |
Wang et al. | Partition cost-sensitive CART based on customer value for Telecom customer churn prediction | |
CN107194468A (zh) | 面向情报大数据的决策树增量学习方法 | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN112819499A (zh) | 信息发送方法、装置、服务器及存储介质 | |
Wei et al. | A generic neural network approach for filling missing data in data mining | |
CN116680325A (zh) | 基于属性关联性的时序记录链接数据匹配方法及装置 | |
CN112766537B (zh) | 一种短期电负荷预测方法 | |
CN108256083A (zh) | 基于深度学习的内容推荐方法 | |
CN108256086A (zh) | 数据特征统计分析方法 | |
Hui et al. | Analysis of decision tree classification algorithm based on attribute reduction and application in criminal behavior | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
Tutore et al. | Conditional classification trees using instrumental variables | |
CN114997278B (zh) | 基于计算机算法模型的工程数字化信息分析方法 | |
CN111753992A (zh) | 筛选方法和筛选系统 | |
CN116049700B (zh) | 基于多模态的运检班组画像生成方法及装置 | |
CN117216490B (zh) | 一种智能大数据采集系统 | |
US20220260963A1 (en) | Selection Controller Artificial Neural Network - SCANN | |
CN117762758B (zh) | 一种web系统的性能效率一致性测试方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200717 |