CN111222556A - 一种基于决策树算法识别用电类别的方法及系统 - Google Patents

一种基于决策树算法识别用电类别的方法及系统 Download PDF

Info

Publication number
CN111222556A
CN111222556A CN201911410254.XA CN201911410254A CN111222556A CN 111222556 A CN111222556 A CN 111222556A CN 201911410254 A CN201911410254 A CN 201911410254A CN 111222556 A CN111222556 A CN 111222556A
Authority
CN
China
Prior art keywords
data set
decision tree
pruning
node
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911410254.XA
Other languages
English (en)
Other versions
CN111222556B (zh
Inventor
金昌铉
王淼
程俊春
朱宇龙
马博
赵永国
刘森
黎晚晴
张君
梁惠欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Co Ltd
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
China Southern Power Grid Co Ltd
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Southern Power Grid Co Ltd, Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical China Southern Power Grid Co Ltd
Priority to CN201911410254.XA priority Critical patent/CN111222556B/zh
Publication of CN111222556A publication Critical patent/CN111222556A/zh
Application granted granted Critical
Publication of CN111222556B publication Critical patent/CN111222556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据,包括用电特征、用电性质,通过使用决策树算法,系统自动构建用电性质识别模型;最终训练完成后,在模型结果中可展示完整的决策树信息,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。

Description

一种基于决策树算法识别用电类别的方法及系统
技术领域
本公开涉及数据分析处理、机器学习领域,具体涉及一种基于决策树算法识别用电类别的方法及系统。
背景技术
电力数据的用电性质分析一般来讲,主要是通过不同时间段的用电量的占比用电量、用电类别,从而分析出商业用电、工业用电、家庭用电。由于现有的电力数据种类多,数据采集方式多样,对于不同用户的用电情况和用电性质界定不清晰,因此出现了非居民用户执行居民电价的现象,损害了供电公司的经济效益,申请号为:CN201610118312.1的专利公开了一种基于大数据分析的用电性质认证方法,方法通过使用联机分析处理系统建立多维客户分析模型;依据不同的时间单位构建各用电类别的整体趋势模型;依据不同的时间单位构建用户各个用电类别的趋势模型以判定用户的用电类别;通过决策树数据挖掘算法对数据进行分类;根据两种分类方法的相同结果确定问题用户;然而:传统的决策树分类模型并不能准确的反映出用电性质的情况,在实践中时常出现漏报、误报等错误分类情况,因此,需要对其进行修正。
发明内容
本公开提供一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据(包括用电特征、用电性质),通过使用决策树算法,系统自动构建用电性质识别模型;最终,训练完成后,在模型结果中,可展示完整的决策树信息。
本公开的目的是针对上述问题,提供一种基于决策树算法识别用电类别的方法及系统,具体包括以下步骤:
S100:读取电力数据集;所述电力数据集是电力数据的集合,包括用电量的占比用电量、用电类别属性;用电类别属性包括商业用电、工业用电、家庭用电;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
进一步地,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
进一步地,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
进一步地,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集;
S430:当以出现下情况出现时停止该节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性可以用来进一步划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值应该设置大于1的整数;
所述决策树包括二叉树和多叉树。
进一步地,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
Figure BDA0002349784060000031
其中
Figure BDA0002349784060000032
为全局搜索得到的新个体,IXt和RXt为从种群中随机选择出来的两个不相等的个体,LS为搜索系数,sr为[0,1]之间的随机实数,MAXT为最大演化代数,exp为指数函数,log为对数函数;
T450:计算
Figure BDA0002349784060000034
的适应值;如果
Figure BDA0002349784060000035
的适应值小于RXt的适应值,则在种群中用
Figure BDA0002349784060000036
替换RXt,否则保持RXt不变;
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
进一步地,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取(即随机种子设置的作用,可设置正整数)2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则应该设置2~100的整数,否则应该设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界应该设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
计算置信度的上限:
Figure BDA0002349784060000033
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
进一步地,通过用电性质识别模型将测试数据集进行分类。
本发明还提供了一种基于决策树算法识别用电类别的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
本公开的有益效果为:本发明公开了一种基于决策树算法识别用电类别的方法,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本公开的一种基于决策树算法识别用电类别的方法的流程图;
图2所示为本公开实施方式的一种基于决策树算法识别用电类别的系统。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种基于决策树算法识别用电类别的方法的流程图,下面结合图1来阐述根据本公开的实施方式的方法。
本公开提出一种基于决策树算法识别用电类别的方法,具体包括以下步骤:
S100:读取电力数据集;所述电力数据集是电力数据的集合,包括用电量的占比用电量、用电类别属性;用电类别属性包括商业用电、工业用电、家庭用电;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
进一步地,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
进一步地,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
进一步地,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集;
S430:当以出现下情况出现时停止该节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性可以用来进一步划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值应该设置大于1的整数;
所述决策树包括二叉树和多叉树。
进一步地,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
Figure BDA0002349784060000061
其中
Figure BDA0002349784060000062
为全局搜索得到的新个体,IXt和RXt为从种群中随机选择出来的两个不相等的个体,LS为搜索系数,sr为[0,1]之间的随机实数,MAXT为最大演化代数,exp为指数函数,log为对数函数;
T450:计算
Figure BDA0002349784060000065
的适应值;如果
Figure BDA0002349784060000066
的适应值小于RXt的适应值,则在种群中用
Figure BDA0002349784060000067
替换RXt,否则保持RXt不变;
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
进一步地,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取(即随机种子设置的作用,可设置正整数)2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则应该设置2~100的整数,否则应该设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界应该设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
计算置信度的上限:
Figure BDA0002349784060000063
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
进一步地,通过用电性质识别模型将测试数据集进行分类。
在电性质识别模型的决策树中,从树的根节点到每个叶子节点,构成一条用电性质分类规则,部分分类规则如表1的决策树模型规则表所示:
表1决策树模型规则表
Figure BDA0002349784060000064
Figure BDA0002349784060000071
以编号1的规则为例,解释如下:
如果某类用电户用电特征为“24点电量占比<=0.0295、27号电量占比>0.028783,30号电量占比>0.013“,则该用电户为商业用电用户的概率为96.4%,有28个样本数据满足该规则。
本公开的实施例提供的一种基于决策树算法识别用电类别的系统,如图2所示为本公开的一种基于决策树算法识别用电类别的系统结构图,该实施例的一种基于决策树算法识别用电类别的系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于决策树算法识别用电类别的系统实施例中的步骤。
所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
所述一种基于决策树算法识别用电类别的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于决策树算法识别用电类别的系统可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于决策树算法识别用电类别的系统的示例,并不构成对一种基于决策树算法识别用电类别的系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于决策树算法识别用电类别的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于决策树算法识别用电类别的系统运行系统的控制中心,利用各种接口和线路连接整个一种基于决策树算法识别用电类别的系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于决策树算法识别用电类别的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims (7)

1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:
S100:读取电力数据集;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
2.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
3.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
4.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于分枝取值的那个样本子集;
S430:当以出现下情况出现时停止节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性能够用来划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值设置为大于1的整数。
5.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt
T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:
Figure FDA0002349784050000021
其中
Figure FDA0002349784050000022
为全局搜索得到的新个体,IXt和RXt为从种群中随机选择出来的两个不相等的个体,LS为搜索系数,sr为[0,1]之间的随机实数,MAXT为最大演化代数,exp为指数函数,log为对数函数;
T450:计算
Figure FDA0002349784050000023
的适应值;如果
Figure FDA0002349784050000024
的适应值小于RXt的适应值,则在种群中用
Figure FDA0002349784050000025
替换RXt,否则保持RXt不变;
T460:保存最优个体gBXt,然后设置当前代数t=t+1;
T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;
T480:将种群中的最优个体调整为决策树的参数。
6.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:
剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则设置2~100的整数,否则设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界设置(0,1)之间的数;
其中,判断是否需要进行剪枝处理的方法为:
使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:
计算置信度的上限:
Figure FDA0002349784050000026
其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。
7.一种基于决策树算法识别用电类别的系统,其特征在于,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据集读取单元,用于读取电力数据集;
数据集预处理单元,用于对电力数据集进行预处理和清洗;
数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;
决策树建立单元,用于根据训练数据集建立决策树;
剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;
模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
CN201911410254.XA 2019-12-31 2019-12-31 一种基于决策树算法识别用电类别的方法及系统 Active CN111222556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410254.XA CN111222556B (zh) 2019-12-31 2019-12-31 一种基于决策树算法识别用电类别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410254.XA CN111222556B (zh) 2019-12-31 2019-12-31 一种基于决策树算法识别用电类别的方法及系统

Publications (2)

Publication Number Publication Date
CN111222556A true CN111222556A (zh) 2020-06-02
CN111222556B CN111222556B (zh) 2023-12-05

Family

ID=70829284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410254.XA Active CN111222556B (zh) 2019-12-31 2019-12-31 一种基于决策树算法识别用电类别的方法及系统

Country Status (1)

Country Link
CN (1) CN111222556B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016602A (zh) * 2020-08-18 2020-12-01 广东电网有限责任公司韶关供电局 电网故障原因与状态量的关联分析方法,设备和存储介质
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置
CN112329874A (zh) * 2020-11-12 2021-02-05 京东数字科技控股股份有限公司 数据业务的决策方法、装置、电子设备和存储介质
CN112613585A (zh) * 2021-01-07 2021-04-06 绿湾网络科技有限公司 物品类别的确定方法和装置
CN113011481A (zh) * 2021-03-10 2021-06-22 广东电网有限责任公司计量中心 一种基于决策树算法的电能表功能异常评估方法及系统
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114611616A (zh) * 2022-03-16 2022-06-10 吕少岚 一种基于集成孤立森林的无人机智能故障检测方法及系统
CN114900474A (zh) * 2022-05-05 2022-08-12 鹏城实验室 针对可编程交换机的数据包分类方法、系统及相关设备
CN115577836A (zh) * 2022-09-29 2023-01-06 深圳市三正电子有限公司 基于mcu进行信息采集的方法及装置
CN115639327A (zh) * 2022-12-21 2023-01-24 南方电网数字电网研究院有限公司 基于油浸式套管气体检测的套管故障检测方法和装置
CN116562769A (zh) * 2023-06-15 2023-08-08 深圳爱巧网络有限公司 一种基于货物属性分类的货物数据分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622535A (zh) * 2012-02-27 2012-08-01 上海电机学院 一种基于多序列比对遗传算法的处理方法及装置
CN102915447A (zh) * 2012-09-20 2013-02-06 西安科技大学 一种基于二叉树支持向量机的分类方法
CN105809573A (zh) * 2016-03-02 2016-07-27 深圳供电局有限公司 一种基于大数据分析的用电性质认证方法
CN107368918A (zh) * 2017-06-27 2017-11-21 国网北京市电力公司 数据处理方法和装置
CN108388974A (zh) * 2018-01-11 2018-08-10 国网山东省电力公司 基于随机森林和决策树的优质客户优化识别方法及装置
CN110458725A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622535A (zh) * 2012-02-27 2012-08-01 上海电机学院 一种基于多序列比对遗传算法的处理方法及装置
CN102915447A (zh) * 2012-09-20 2013-02-06 西安科技大学 一种基于二叉树支持向量机的分类方法
CN105809573A (zh) * 2016-03-02 2016-07-27 深圳供电局有限公司 一种基于大数据分析的用电性质认证方法
CN107368918A (zh) * 2017-06-27 2017-11-21 国网北京市电力公司 数据处理方法和装置
CN108388974A (zh) * 2018-01-11 2018-08-10 国网山东省电力公司 基于随机森林和决策树的优质客户优化识别方法及装置
CN110458725A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄永青,梁昌勇,张祥德,杨善林: "一种小种群自适应遗传算法研究", 系统工程理论与实践, no. 11, pages 92 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052875A (zh) * 2020-07-30 2020-12-08 华控清交信息科技(北京)有限公司 一种训练树模型的方法、装置和用于训练树模型的装置
CN112016602A (zh) * 2020-08-18 2020-12-01 广东电网有限责任公司韶关供电局 电网故障原因与状态量的关联分析方法,设备和存储介质
CN112016602B (zh) * 2020-08-18 2021-08-10 广东电网有限责任公司韶关供电局 电网故障原因与状态量的关联分析方法,设备和存储介质
CN112329874A (zh) * 2020-11-12 2021-02-05 京东数字科技控股股份有限公司 数据业务的决策方法、装置、电子设备和存储介质
CN112613585A (zh) * 2021-01-07 2021-04-06 绿湾网络科技有限公司 物品类别的确定方法和装置
CN113011481A (zh) * 2021-03-10 2021-06-22 广东电网有限责任公司计量中心 一种基于决策树算法的电能表功能异常评估方法及系统
CN113011481B (zh) * 2021-03-10 2024-04-30 广东电网有限责任公司计量中心 一种基于决策树算法的电能表功能异常评估方法及系统
CN114186633B (zh) * 2021-12-10 2023-04-07 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114611616B (zh) * 2022-03-16 2023-02-07 吕少岚 一种基于集成孤立森林的无人机智能故障检测方法及系统
CN114611616A (zh) * 2022-03-16 2022-06-10 吕少岚 一种基于集成孤立森林的无人机智能故障检测方法及系统
CN114900474A (zh) * 2022-05-05 2022-08-12 鹏城实验室 针对可编程交换机的数据包分类方法、系统及相关设备
CN114900474B (zh) * 2022-05-05 2023-08-22 鹏城实验室 针对可编程交换机的数据包分类方法、系统及相关设备
CN115577836A (zh) * 2022-09-29 2023-01-06 深圳市三正电子有限公司 基于mcu进行信息采集的方法及装置
CN115577836B (zh) * 2022-09-29 2023-06-30 深圳市三正电子有限公司 基于mcu进行信息采集的方法及装置
CN115639327A (zh) * 2022-12-21 2023-01-24 南方电网数字电网研究院有限公司 基于油浸式套管气体检测的套管故障检测方法和装置
CN116562769A (zh) * 2023-06-15 2023-08-08 深圳爱巧网络有限公司 一种基于货物属性分类的货物数据分析方法及系统

Also Published As

Publication number Publication date
CN111222556B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN111222556A (zh) 一种基于决策树算法识别用电类别的方法及系统
CN107766929B (zh) 模型分析方法及装置
US8577816B2 (en) Optimized seeding of evolutionary algorithm based simulations
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
US20080071764A1 (en) Method and an apparatus to perform feature similarity mapping
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN111126442B (zh) 一种物品关键属性生成方法、物品分类方法和装置
CN109242012A (zh) 分组归纳方法及装置、电子装置及计算机可读存储介质
CN109272009A (zh) 一种基于大数据分析的人群画像提取方法及装置
CN111179016A (zh) 一种售电套餐推荐方法、设备及存储介质
WO2024036709A1 (zh) 一种异常数据检测方法及装置
CN111737473B (zh) 文本分类方法、装置及设备
CN111475158A (zh) 子领域划分方法、装置、电子设备和计算机可读存储介质
CN114490786A (zh) 数据排序方法及装置
CN105867851A (zh) 一种存储设备调整方法及装置
CN113190696A (zh) 一种用户筛选模型的训练、用户推送方法和相关装置
US20130013244A1 (en) Pattern based test prioritization using weight factors
CN107274043B (zh) 预测模型的质量评价方法、装置及电子设备
CN116453209A (zh) 模型训练方法、行为分类方法、电子设备及存储介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN108229572A (zh) 一种参数寻优方法及计算设备
CN106598916A (zh) 一种基于均匀抽样的二阶差分聚类数确定方法
Parvin et al. Classification ensemble by genetic algorithms
CN105824844B (zh) 一种数据分类的映射方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant