CN111222556A - 一种基于决策树算法识别用电类别的方法及系统 - Google Patents
一种基于决策树算法识别用电类别的方法及系统 Download PDFInfo
- Publication number
- CN111222556A CN111222556A CN201911410254.XA CN201911410254A CN111222556A CN 111222556 A CN111222556 A CN 111222556A CN 201911410254 A CN201911410254 A CN 201911410254A CN 111222556 A CN111222556 A CN 111222556A
- Authority
- CN
- China
- Prior art keywords
- data set
- decision tree
- pruning
- node
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000005611 electricity Effects 0.000 title claims abstract description 55
- 238000013138 pruning Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000007418 data mining Methods 0.000 claims description 4
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据,包括用电特征、用电性质,通过使用决策树算法,系统自动构建用电性质识别模型;最终训练完成后,在模型结果中可展示完整的决策树信息,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。
Description
技术领域
本公开涉及数据分析处理、机器学习领域,具体涉及一种基于决策树算法识别用电类别的方法及系统。
背景技术
电力数据的用电性质分析一般来讲,主要是通过不同时间段的用电量的占比用电量、用电类别,从而分析出商业用电、工业用电、家庭用电。由于现有的电力数据种类多,数据采集方式多样,对于不同用户的用电情况和用电性质界定不清晰,因此出现了非居民用户执行居民电价的现象,损害了供电公司的经济效益,申请号为:CN201610118312.1的专利公开了一种基于大数据分析的用电性质认证方法,方法通过使用联机分析处理系统建立多维客户分析模型;依据不同的时间单位构建各用电类别的整体趋势模型;依据不同的时间单位构建用户各个用电类别的趋势模型以判定用户的用电类别;通过决策树数据挖掘算法对数据进行分类;根据两种分类方法的相同结果确定问题用户;然而:传统的决策树分类模型并不能准确的反映出用电性质的情况,在实践中时常出现漏报、误报等错误分类情况,因此,需要对其进行修正。
发明内容
本公开提供一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据(包括用电特征、用电性质),通过使用决策树算法,系统自动构建用电性质识别模型;最终,训练完成后,在模型结果中,可展示完整的决策树信息。
本公开的目的是针对上述问题,提供一种基于决策树算法识别用电类别的方法及系统,具体包括以下步骤:
S100:读取电力数据集;所述电力数据集是电力数据的集合,包括用电量的占比用电量、用电类别属性;用电类别属性包括商业用电、工业用电、家庭用电;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
进一步地,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
进一步地,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
进一步地,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集;
S430:当以出现下情况出现时停止该节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性可以用来进一步划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值应该设置大于1的整数;
所述决策树包括二叉树和多叉树。
进一步地,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt;
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
进一步地,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取(即随机种子设置的作用,可设置正整数)2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则应该设置2~100的整数,否则应该设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界应该设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
进一步地,通过用电性质识别模型将测试数据集进行分类。
本发明还提供了一种基于决策树算法识别用电类别的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
本公开的有益效果为:本发明公开了一种基于决策树算法识别用电类别的方法,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本公开的一种基于决策树算法识别用电类别的方法的流程图;
图2所示为本公开实施方式的一种基于决策树算法识别用电类别的系统。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种基于决策树算法识别用电类别的方法的流程图,下面结合图1来阐述根据本公开的实施方式的方法。
本公开提出一种基于决策树算法识别用电类别的方法,具体包括以下步骤:
S100:读取电力数据集;所述电力数据集是电力数据的集合,包括用电量的占比用电量、用电类别属性;用电类别属性包括商业用电、工业用电、家庭用电;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
进一步地,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
进一步地,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
进一步地,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集;
S430:当以出现下情况出现时停止该节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性可以用来进一步划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值应该设置大于1的整数;
所述决策树包括二叉树和多叉树。
进一步地,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt;
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
进一步地,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取(即随机种子设置的作用,可设置正整数)2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则应该设置2~100的整数,否则应该设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界应该设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
进一步地,通过用电性质识别模型将测试数据集进行分类。
在电性质识别模型的决策树中,从树的根节点到每个叶子节点,构成一条用电性质分类规则,部分分类规则如表1的决策树模型规则表所示:
表1决策树模型规则表
以编号1的规则为例,解释如下:
如果某类用电户用电特征为“24点电量占比<=0.0295、27号电量占比>0.028783,30号电量占比>0.013“,则该用电户为商业用电用户的概率为96.4%,有28个样本数据满足该规则。
本公开的实施例提供的一种基于决策树算法识别用电类别的系统,如图2所示为本公开的一种基于决策树算法识别用电类别的系统结构图,该实施例的一种基于决策树算法识别用电类别的系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于决策树算法识别用电类别的系统实施例中的步骤。
所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
所述一种基于决策树算法识别用电类别的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于决策树算法识别用电类别的系统可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于决策树算法识别用电类别的系统的示例,并不构成对一种基于决策树算法识别用电类别的系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于决策树算法识别用电类别的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于决策树算法识别用电类别的系统运行系统的控制中心,利用各种接口和线路连接整个一种基于决策树算法识别用电类别的系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于决策树算法识别用电类别的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (7)
1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:
S100:读取电力数据集;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
2.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
3.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
4.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于分枝取值的那个样本子集;
S430:当以出现下情况出现时停止节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性能够用来划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值设置为大于1的整数。
5.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt;
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
6.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则设置2~100的整数,否则设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
7.一种基于决策树算法识别用电类别的系统,其特征在于,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911410254.XA CN111222556B (zh) | 2019-12-31 | 2019-12-31 | 一种基于决策树算法识别用电类别的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911410254.XA CN111222556B (zh) | 2019-12-31 | 2019-12-31 | 一种基于决策树算法识别用电类别的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111222556A true CN111222556A (zh) | 2020-06-02 |
CN111222556B CN111222556B (zh) | 2023-12-05 |
Family
ID=70829284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911410254.XA Active CN111222556B (zh) | 2019-12-31 | 2019-12-31 | 一种基于决策树算法识别用电类别的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222556B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016602A (zh) * | 2020-08-18 | 2020-12-01 | 广东电网有限责任公司韶关供电局 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
CN112052875A (zh) * | 2020-07-30 | 2020-12-08 | 华控清交信息科技(北京)有限公司 | 一种训练树模型的方法、装置和用于训练树模型的装置 |
CN112329874A (zh) * | 2020-11-12 | 2021-02-05 | 京东数字科技控股股份有限公司 | 数据业务的决策方法、装置、电子设备和存储介质 |
CN112613585A (zh) * | 2021-01-07 | 2021-04-06 | 绿湾网络科技有限公司 | 物品类别的确定方法和装置 |
CN113011481A (zh) * | 2021-03-10 | 2021-06-22 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN114186633A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型的分布式训练方法、装置、设备以及存储介质 |
CN114611616A (zh) * | 2022-03-16 | 2022-06-10 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及系统 |
CN114900474A (zh) * | 2022-05-05 | 2022-08-12 | 鹏城实验室 | 针对可编程交换机的数据包分类方法、系统及相关设备 |
CN115577836A (zh) * | 2022-09-29 | 2023-01-06 | 深圳市三正电子有限公司 | 基于mcu进行信息采集的方法及装置 |
CN115639327A (zh) * | 2022-12-21 | 2023-01-24 | 南方电网数字电网研究院有限公司 | 基于油浸式套管气体检测的套管故障检测方法和装置 |
CN116562769A (zh) * | 2023-06-15 | 2023-08-08 | 深圳爱巧网络有限公司 | 一种基于货物属性分类的货物数据分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622535A (zh) * | 2012-02-27 | 2012-08-01 | 上海电机学院 | 一种基于多序列比对遗传算法的处理方法及装置 |
CN102915447A (zh) * | 2012-09-20 | 2013-02-06 | 西安科技大学 | 一种基于二叉树支持向量机的分类方法 |
CN105809573A (zh) * | 2016-03-02 | 2016-07-27 | 深圳供电局有限公司 | 一种基于大数据分析的用电性质认证方法 |
CN107368918A (zh) * | 2017-06-27 | 2017-11-21 | 国网北京市电力公司 | 数据处理方法和装置 |
CN108388974A (zh) * | 2018-01-11 | 2018-08-10 | 国网山东省电力公司 | 基于随机森林和决策树的优质客户优化识别方法及装置 |
CN110458725A (zh) * | 2019-08-20 | 2019-11-15 | 国网福建省电力有限公司 | 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端 |
-
2019
- 2019-12-31 CN CN201911410254.XA patent/CN111222556B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622535A (zh) * | 2012-02-27 | 2012-08-01 | 上海电机学院 | 一种基于多序列比对遗传算法的处理方法及装置 |
CN102915447A (zh) * | 2012-09-20 | 2013-02-06 | 西安科技大学 | 一种基于二叉树支持向量机的分类方法 |
CN105809573A (zh) * | 2016-03-02 | 2016-07-27 | 深圳供电局有限公司 | 一种基于大数据分析的用电性质认证方法 |
CN107368918A (zh) * | 2017-06-27 | 2017-11-21 | 国网北京市电力公司 | 数据处理方法和装置 |
CN108388974A (zh) * | 2018-01-11 | 2018-08-10 | 国网山东省电力公司 | 基于随机森林和决策树的优质客户优化识别方法及装置 |
CN110458725A (zh) * | 2019-08-20 | 2019-11-15 | 国网福建省电力有限公司 | 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端 |
Non-Patent Citations (1)
Title |
---|
黄永青,梁昌勇,张祥德,杨善林: "一种小种群自适应遗传算法研究", 系统工程理论与实践, no. 11, pages 92 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052875A (zh) * | 2020-07-30 | 2020-12-08 | 华控清交信息科技(北京)有限公司 | 一种训练树模型的方法、装置和用于训练树模型的装置 |
CN112016602A (zh) * | 2020-08-18 | 2020-12-01 | 广东电网有限责任公司韶关供电局 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
CN112016602B (zh) * | 2020-08-18 | 2021-08-10 | 广东电网有限责任公司韶关供电局 | 电网故障原因与状态量的关联分析方法,设备和存储介质 |
CN112329874A (zh) * | 2020-11-12 | 2021-02-05 | 京东数字科技控股股份有限公司 | 数据业务的决策方法、装置、电子设备和存储介质 |
CN112613585A (zh) * | 2021-01-07 | 2021-04-06 | 绿湾网络科技有限公司 | 物品类别的确定方法和装置 |
CN113011481A (zh) * | 2021-03-10 | 2021-06-22 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN113011481B (zh) * | 2021-03-10 | 2024-04-30 | 广东电网有限责任公司计量中心 | 一种基于决策树算法的电能表功能异常评估方法及系统 |
CN114186633B (zh) * | 2021-12-10 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型的分布式训练方法、装置、设备以及存储介质 |
CN114186633A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 模型的分布式训练方法、装置、设备以及存储介质 |
CN114611616B (zh) * | 2022-03-16 | 2023-02-07 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及系统 |
CN114611616A (zh) * | 2022-03-16 | 2022-06-10 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及系统 |
CN114900474A (zh) * | 2022-05-05 | 2022-08-12 | 鹏城实验室 | 针对可编程交换机的数据包分类方法、系统及相关设备 |
CN114900474B (zh) * | 2022-05-05 | 2023-08-22 | 鹏城实验室 | 针对可编程交换机的数据包分类方法、系统及相关设备 |
CN115577836A (zh) * | 2022-09-29 | 2023-01-06 | 深圳市三正电子有限公司 | 基于mcu进行信息采集的方法及装置 |
CN115577836B (zh) * | 2022-09-29 | 2023-06-30 | 深圳市三正电子有限公司 | 基于mcu进行信息采集的方法及装置 |
CN115639327A (zh) * | 2022-12-21 | 2023-01-24 | 南方电网数字电网研究院有限公司 | 基于油浸式套管气体检测的套管故障检测方法和装置 |
CN116562769A (zh) * | 2023-06-15 | 2023-08-08 | 深圳爱巧网络有限公司 | 一种基于货物属性分类的货物数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111222556B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222556A (zh) | 一种基于决策树算法识别用电类别的方法及系统 | |
CN107766929B (zh) | 模型分析方法及装置 | |
US8577816B2 (en) | Optimized seeding of evolutionary algorithm based simulations | |
CN110457577B (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
US20080071764A1 (en) | Method and an apparatus to perform feature similarity mapping | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN111126442B (zh) | 一种物品关键属性生成方法、物品分类方法和装置 | |
CN109242012A (zh) | 分组归纳方法及装置、电子装置及计算机可读存储介质 | |
CN109272009A (zh) | 一种基于大数据分析的人群画像提取方法及装置 | |
CN111179016A (zh) | 一种售电套餐推荐方法、设备及存储介质 | |
WO2024036709A1 (zh) | 一种异常数据检测方法及装置 | |
CN111737473B (zh) | 文本分类方法、装置及设备 | |
CN111475158A (zh) | 子领域划分方法、装置、电子设备和计算机可读存储介质 | |
CN114490786A (zh) | 数据排序方法及装置 | |
CN105867851A (zh) | 一种存储设备调整方法及装置 | |
CN113190696A (zh) | 一种用户筛选模型的训练、用户推送方法和相关装置 | |
US20130013244A1 (en) | Pattern based test prioritization using weight factors | |
CN107274043B (zh) | 预测模型的质量评价方法、装置及电子设备 | |
CN116453209A (zh) | 模型训练方法、行为分类方法、电子设备及存储介质 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
CN113822390B (zh) | 用户画像构建方法、装置、电子设备和存储介质 | |
CN108229572A (zh) | 一种参数寻优方法及计算设备 | |
CN106598916A (zh) | 一种基于均匀抽样的二阶差分聚类数确定方法 | |
Parvin et al. | Classification ensemble by genetic algorithms | |
CN105824844B (zh) | 一种数据分类的映射方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |