CN113362118B - 一种基于随机森林的用户用电行为分析方法及系统 - Google Patents
一种基于随机森林的用户用电行为分析方法及系统 Download PDFInfo
- Publication number
- CN113362118B CN113362118B CN202110775000.9A CN202110775000A CN113362118B CN 113362118 B CN113362118 B CN 113362118B CN 202110775000 A CN202110775000 A CN 202110775000A CN 113362118 B CN113362118 B CN 113362118B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- random forest
- bus
- electrical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 106
- 238000004458 analytical method Methods 0.000 title claims abstract description 49
- 230000005611 electricity Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000003066 decision tree Methods 0.000 claims description 48
- 238000012795 verification Methods 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013138 pruning Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000012847 principal component analysis method Methods 0.000 claims description 6
- 238000010187 selection method Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 39
- 230000003287 optical effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于随机森林的用户用电行为分析方法及系统,从用户总线中采样电气数据,进行特征工程,从而提取出用户画像,基于随机森林算法对该用户的用户画像进行分类,得到分析结果。本发明提供的一种基于随机森林的用电行为分析方法突破了传统用户用电行为分析提取信息有限的这一瓶颈;随机森林算法具有泛化能力强,并行运算速度高等优势,训练后还可以输出特征重要性,使得本方法具备复杂场景的强适应性与可解释性,进而满足作为需求管理终端和智慧用电方案基础技术的要求。
Description
技术领域
本发明涉及智能电网技术领域,特别是涉及一种基于随机森林的用户用电行为分析方法及系统。
背景技术
传统的用户用电行为分析方法是对用户日负荷曲线进行简单分析,将负荷曲线形态特征作为分析结果。但是,这种方法实际可操作性差,信息量少,分析效果差,实施成本高,用户接受程度较低。
发明内容
为解决以上现有问题,本发明提供一种基于随机森林的用户用电行为分析方法及系统,满足作为需求管理终端和智慧用电方案基础技术的要求。
本发明第一方面提供一种基于随机森林的用户用电行为分析方法,包括:
获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据;
对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据;
根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据;
根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型;
通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练;
将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
进一步地,所述对所述用户总线电气原始数据进行特征选择,生成用户画像数据,包括:
根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;
根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据。
进一步地,所述预处理包括:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
进一步地,所述根据CART算法将所述抽样数据与所述用户画像数据生成决策树,包括:
根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支。
进一步地,所述将所述决策树进行并联组合成随机森林模型,包括:
将所述决策树进行并联组合起来,形成组合识别模型;
通过决策树的等权投票生成随机森林模型。
进一步地,所述通过所述验证数据对所述随机森林模型进行验证,还包括:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
进一步地,所述随机森林模型对所述目标用户进行用户画像识别之前,还包括:
接收所述目标用户的分析用电行为需求指令。
本发明第二方面还提供一种基于随机森林的用户用电行为分析系统,包括:
特征选择模块,用于获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据;
预处理模块,用于对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据;
抽样处理模块,用于根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据;
随机森林模型构建模块,用于根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型;
随机森林模型验证模块,用于通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练;
用电行为分析模块,用于将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
进一步地,所述特征选择模块,还用于:
根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;
根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据。
进一步地,所述预处理模块,还用于:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
进一步地,所述随机森林模型构建模块,还用于:
根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支。
进一步地,所述随机森林模型构建模块,还用于:
将所述决策树进行并联组合起来,形成组合识别模型;
通过决策树的等权投票生成随机森林模型。
进一步地,所述随机森林模型验证模块,还用于:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
进一步地,所述用电行为分析模块,还用于:
接收所述目标用户的分析用电行为需求指令。
与现有技术相比,本发明实施例的有益效果在于:
本发明提供一种基于随机森林的用户用电行为分析方法及系统,其中方法包括:获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据;对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据;根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据;根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型;通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练;将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。本发明提供的一种基于随机森林的用电行为分析方法突破了传统用户用电行为分析提取信息有限的这一瓶颈;随机森林算法具有泛化能力强,并行运算速度高等优势,训练后还可以输出特征重要性,使得本方法具备复杂场景的强适应性与可解释性,进而满足作为需求管理终端和智慧用电方案基础技术的要求。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的一种基于随机森林的用户用电行为分析方法的流程图;
图2是本发明另一实施例提供的一种基于随机森林的用户用电行为分析方法的流程图;
图3是本发明另一实施例提供的一种基于随机森林的用户用电行为分析方法的流程图;
图4是本发明又一实施例提供的一种基于随机森林的用户用电行为分析方法的流程图;
图5是本发明某一实施例提供的一种基于随机森林的用户用电行为分析系统的装置图;
图6是本发明某一实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
第一方面。
请参阅图1,本发明某一实施例提供一种基于随机森林的用户用电行为分析方法,包括:
S10、获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据。
在某一具体实施方式中,所述对所述用户总线电气原始数据进行特征选择,生成用户画像数据,包括:
根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;
根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据。
需要说明的是,用户总线电气原始数据包括:有功功率,功率因数,电压幅值,电流幅值。
S20、对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据。
在某一具体实施方式中,所述预处理包括:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
S30、根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据。
S40、根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型。
在某一具体实施方式中,所述根据CART算法将所述抽样数据与所述用户画像数据生成决策树,包括:
根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支。
在另一具体实施方式中,所述将所述决策树进行并联组合成随机森林模型,包括:
将所述决策树进行并联组合起来,形成组合识别模型;
通过决策树的等权投票生成随机森林模型。
需要说明的是,使用CART建立的决策树模型作为随机森林的基学习器。所述CART算法是指以基尼(Gini)指数作为属性划分指标的决策树生成方法,所述基尼指数定义为从数据集中随机抽取两个样本,其类别标记不一致的概率。
S50、通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练。
在某一具体实施方式中,所述通过所述验证数据对所述随机森林模型进行验证,还包括:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
需要说明的是,所述的随机森林算法是指通过bootstrap抽样方法对训练数据进行抽样,采用CART算法生成随机森林的基学习器,每个基学习器所学习的特征采用随机抽样,并对这些决策树采取投票选取机制确定最终的分类结果的算法模型。
S60、将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
在某一具体实施方式中,所述随机森林模型对所述目标用户进行用户画像识别之前,还包括:
接收所述目标用户的分析用电行为需求指令。
本发明提供的一种基于随机森林的用电行为分析方法突破了传统用户用电行为分析提取信息有限的这一瓶颈;随机森林算法具有泛化能力强,并行运算速度高等优势,训练后还可以输出特征重要性,使得本方法具备复杂场景的强适应性与可解释性,进而满足作为需求管理终端和智慧用电方案基础技术的要求。
在某一具体实施例中,请参阅图2-4,本发明提供一种基于随机森林的用电行为分析方法,包括:
步骤S1,采集各用户的总线电气数据;
步骤S2,分析采集到的数据,进行特征工程,构建用户画像。所述特征工程指:特征选择,从原始数据、时间序列和统计计算中筛选出合适的特征;主成分分析,主成分分析是指对特征选择后的特征向量做主成分分析,进而实现降维,挑选出尽量线性不相关且有效的特征。经过上述特征工程处理后的数据,就是所述用户画像。
步骤S3,对采样数据进行数据预处理并将数据划分为训练集与验证集。所述特征工程是指数据归一化与缺失值填充、重复值与异常值清除。所述归一化处理公式:a'表示归一化后的结果,a表示该特征数据,amax表示该类特征数据的最大值,amin表示该类特征数据的最小值;所述缺失值填充方法为拉格朗日插值法,本专利对异常值与重复值的处理方法是将其剔除。采用5-折交叉验证法生成验证集;
步骤S4,采用bootstrap法抽样训练集,再随机选取用户画像中的特征量,据此采用CART算法形成决策树(随机森林的基学习器)。重复上述步骤,根据数据规模与精度要求建立若干个个决策树识别模型;
所述CART算法采用的是一种二分递归分割技术,将当前样本分成两个子样本集,使得生成的非叶子节点都有两个分支。所述基尼(Gini)指数是CART算法作为属性划分的指标。基尼指数反映了从数据集中随机抽取两个样本,其类别标记不一致的概率,因此基尼指数越小,则数据集纯度越高。对于给定的样本集D,其基尼指数为:其中,Ck是D中属于第k类的样本子集,K是类的个数,|Ck|和D表示子集的个数和样本的个数。
步骤S5,将各个CART决策树并联组合起来,形成组合识别模型,每个决策树通过等权投票表决来决定最终分类结果,即组成随机森林模型;
步骤S6,使用验证集与判断模型准确度,如果模型准确率满足要求,则结束模型训练,若不满足,返回调整随机森林的组成,对决策树进行剪枝,模型超参数调整等;
步骤S7,使用模型进行识别。采样被测用户总线电气数据后,根据步骤S3的特征工程计算并形成用户画像,据此作为输入量送入训练好的随机森林中,模型将实现对该用户的用户画像识别,进而实现用户用电行为的分析。
本发明设计的一种基于随机森林的用电行为分析算法突破了传统用户用电行为分析提取信息有限的这一瓶颈;随机森林算法具有泛化能力强,并行运算速度高等优势,训练后还可以输出特征重要性,使得本方法具备复杂场景的强适应性与可解释性,进而满足作为需求管理终端和智慧用电方案基础技术的要求。
第二方面。
请参阅图5,本发明一实施例提供一种基于随机森林的用户用电行为分析系统,包括:
特征选择模块10,用于获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据。
在某一具体实施方式中,所述特征选择模块10,还用于:
根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;
根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据。
预处理模块20,用于对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据。
在某一具体实施方式中,所述预处理模块20,还用于:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
抽样处理模块30,用于根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据。
随机森林模型构建模块40,用于根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型。
在某一具体实施方式中,所述随机森林模型构建模块40,还用于:
根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支。
在另一具体实施方式中,所述随机森林模型构建模块40,还用于:
将所述决策树进行并联组合起来,形成组合识别模型;
通过决策树的等权投票生成随机森林模型。
随机森林模型验证模块50,用于通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练。
在某一具体实施方式中,所述随机森林模型验证模块50,还用于:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
用电行为分析模块60,用于将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
在某一具体实施方式中,所述用电行为分析模块60,还用于:
接收所述目标用户的分析用电行为需求指令。
本发明提供的一种基于随机森林的用电行为分析系统突破了传统用户用电行为分析提取信息有限的这一瓶颈;随机森林算法具有泛化能力强,并行运算速度高等优势,训练后还可以输出特征重要性,使得本方法具备复杂场景的强适应性与可解释性,进而满足作为需求管理终端和智慧用电方案基础技术的要求。
第三方面。
本发明提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的一种基于随机森林的用电行为分析方法对应的操作。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
第四方面。
本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的一种基于随机森林的用电行为分析方法。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
Claims (8)
1.一种基于随机森林的用户用电行为分析方法,其特征在于,包括:
获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据,包括:根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据,所述用户总线电气 原始数据包括:有功功率、功率因素、电压幅值和电流幅值;
对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据;
根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据;
根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型;所述根据CART算法将所述抽样数据与所述用户画像数据生成决策树包括根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支;所述将所述决策树进行并联组合成随机森林模型,包括:将所述决策树进行并联组合起来,形成组合识别模型;通过决策树的等权投票生成随机森林模型;
通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练;
将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
2.如权利要求1所述的一种基于随机森林的用户用电行为分析方法,其特征在于,所述预处理包括:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
3.如权利要求1所述的一种基于随机森林的用户用电行为分析方法,其特征在于,所述通过所述验证数据对所述随机森林模型进行验证,还包括:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
4.如权利要求1所述的一种基于随机森林的用户用电行为分析方法,其特征在于,所述随机森林模型对所述目标用户进行用户画像识别之前,还包括:
接收所述目标用户的分析用电行为需求指令。
5.一种基于随机森林的用户用电行为分析系统,其特征在于,包括:
特征选择模块,用于获取用户总线电气原始数据,并对所述用户总线电气原始数据进行特征选择,生成用户画像数据;具体用于根据特征选择法对所述用户总线电气原始数据、时间序列及统计计算结果中筛选出特征值;根据主成分分析法对所述特征值进行主成分分析,对所述特征值进行降维处理,并剔除噪声数据,得到有效特征值;所述有效特征值为用户画像数据,所述用户总线电气 原始数据包括:有功功率、功率因素、电压幅值和电流幅值;
预处理模块,用于对所述用户总线电气原始数据进行预处理,得到用户总线电气第一数据,并将所述用户总线电气第一数据按照预设规则分为训练数据及验证数据;
抽样处理模块,用于根据Bootstrap法对所述训练数据进行抽样处理,得到抽样数据;
随机森林模型构建模块,用于根据CART算法将所述抽样数据与所述用户画像数据生成决策树,并将所述决策树进行并联组合成随机森林模型;所述根据CART算法将所述抽样数据与所述用户画像数据生成决策树包括根据基尼指数将所述抽样数据与所述用户画像数据分为两个子样本集,使得生成的非叶子节点包含两个分支;所述将所述决策树进行并联组合成随机森林模型,包括:将所述决策树进行并联组合起来,形成组合识别模型;通过决策树的等权投票生成随机森林模型;
随机森林模型验证模块,用于通过所述验证数据对所述随机森林模型进行验证,当误差率低于预设阈值时,结束模型训练;
用电行为分析模块,用于将目标用户的总线电气采集数据输入至所述随机森林模型,所述随机森林模型对所述目标用户进行用户画像识别,完成对所述目标用户的用电行为分析。
6.如权利要求5所述的一种基于随机森林的用户用电行为分析系统,其特征在于,所述预处理模块,还用于:
通过归一化算法对所述用户总线电气原始数据进行归一化处理,对归一化处理后的数据进行缺失值填充及噪声值剔除;所述噪声值包括:异常值及重复值。
7.如权利要求5所述的一种基于随机森林的用户用电行为分析系统,其特征在于,所述随机森林模型验证模块,还用于:
当误差率不低于预设阈值时,对所述决策树进行剪枝,并调整所述随机森林模型的参数。
8.如权利要求5所述的一种基于随机森林的用户用电行为分析系统,其特征在于,所述用电行为分析模块,还用于:
接收所述目标用户的分析用电行为需求指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775000.9A CN113362118B (zh) | 2021-07-08 | 2021-07-08 | 一种基于随机森林的用户用电行为分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775000.9A CN113362118B (zh) | 2021-07-08 | 2021-07-08 | 一种基于随机森林的用户用电行为分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362118A CN113362118A (zh) | 2021-09-07 |
CN113362118B true CN113362118B (zh) | 2023-01-20 |
Family
ID=77538726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110775000.9A Active CN113362118B (zh) | 2021-07-08 | 2021-07-08 | 一种基于随机森林的用户用电行为分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362118B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113726343A (zh) * | 2021-09-08 | 2021-11-30 | 天津大学 | 一种量测数据压缩方法及装置 |
CN113706220A (zh) * | 2021-09-15 | 2021-11-26 | 华人运通(上海)自动驾驶科技有限公司 | 用户画像确定、用户需求预测方法以及数据处理系统 |
CN117575649A (zh) * | 2023-11-22 | 2024-02-20 | 中国人寿保险股份有限公司山东省分公司 | 一种基于多模型的客户画像判别方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6742894B2 (ja) * | 2016-06-09 | 2020-08-19 | 株式会社日立製作所 | データ予測システムおよびデータ予測方法 |
CN107862347A (zh) * | 2017-12-04 | 2018-03-30 | 国网山东省电力公司济南供电公司 | 一种基于随机森林的窃电行为的发现方法 |
CN109241418B (zh) * | 2018-08-22 | 2024-04-09 | 中国平安人寿保险股份有限公司 | 基于随机森林的异常用户识别方法及装置、设备、介质 |
CN112101635A (zh) * | 2020-08-25 | 2020-12-18 | 南方电网深圳数字电网研究院有限公司 | 一种用电异常的监测方法和系统 |
CN112364928A (zh) * | 2020-11-18 | 2021-02-12 | 浙江工业大学 | 一种变电站故障数据诊断中的随机森林分类方法 |
-
2021
- 2021-07-08 CN CN202110775000.9A patent/CN113362118B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113362118A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113362118B (zh) | 一种基于随机森林的用户用电行为分析方法及系统 | |
CN111859986A (zh) | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN113705775A (zh) | 一种神经网络的剪枝方法、装置、设备及存储介质 | |
CN106681716B (zh) | 智能终端及其应用程序的自动分类方法 | |
CN111432003B (zh) | 应用于云计算的数据推送方法、装置、电子设备及系统 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN110895706A (zh) | 一种目标聚类数的获取方法、装置及计算机系统 | |
CN116628600A (zh) | 基于随机森林的不平衡数据采样方法及装置 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN111275166A (zh) | 基于卷积神经网络的图像处理装置、设备及可读存储介质 | |
CN108629356B (zh) | 一种面向用电负荷分类应用的数据存储方法和装置 | |
CN115757786A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN112989040B (zh) | 一种对话文本标注方法、装置、电子设备及存储介质 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN114268625B (zh) | 特征选择方法、装置、设备及存储介质 | |
CN111444319B (zh) | 文本匹配方法、装置和电子设备 | |
CN111708862A (zh) | 文本匹配方法、装置及电子设备 | |
CN113435058B (zh) | 配网自愈测试模型的数据降维方法、系统、终端及介质 | |
CN111368044A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN111708872B (zh) | 对话方法、装置及电子设备 | |
CN116340864B (zh) | 一种模型漂移检测方法、装置、设备及其存储介质 | |
CN112631752B (zh) | 一种基于操作优先度的列表操作方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |