CN113435664A - 一种电费异常数据分析方法、装置、终端设备及介质 - Google Patents
一种电费异常数据分析方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN113435664A CN113435664A CN202110801303.3A CN202110801303A CN113435664A CN 113435664 A CN113435664 A CN 113435664A CN 202110801303 A CN202110801303 A CN 202110801303A CN 113435664 A CN113435664 A CN 113435664A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- forest model
- deep forest
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 61
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007405 data analysis Methods 0.000 title claims description 30
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Water Supply & Treatment (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电费异常数据分析方法、装置、终端设备及介质,该方法包括对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;将第一数据按预设比例划分为训练样本和测试样本;利用训练样本对深度森林模型进行训练,将测试样本输入至训练后的深度森林模型,根据输出结果计算深度森林模型的评估指标的数值;判断数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用训练样本对深度森林模型进行训练操作,直至数值达到预设阈值时将对应的深度森林模型作为目标模型;将第二数据输入至目标模型,生成电费异常数据分类结果。本发明基于深度森林模型分析电费数据,提高了分析效率和结果的准确率。
Description
技术领域
本发明涉及机器学习及数据分析技术领域,尤其涉及一种电费异常数据分析方法、装置、终端设备及介质。
背景技术
目前,针对电费异常数据的分析方法,主要是采用人工分析法,即通过人工制定的逻辑规则筛选出电费异常的用户。然而,此类方法由于是以人工经验等主观因素主导,具有较多的不确定性,且需要耗费大量的人力物力。因此,现有扥热工分析法在效率、准确率及查全率上的效果都不理想。
发明内容
本发明的目的在于提供一种电费异常数据分析方法、装置、终端设备及介质,以解决现有技术中人工分析法存在的效率、准确率及查全率较低的问题。
为实现上述目的,本发明提供一种电费异常数据分析方法,包括:
分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;
将所述第一数据按预设比例划分为训练样本和测试样本;
利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值;
判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型;
将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
进一步地,所述预处理包括:
剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理;
对降维后的数据进行删除重复值、填充缺失值及归一化处理。
进一步地,所述利用所述训练样本对深度森林模型进行训练,包括:
将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
利用所述表征向量构建级联森林,对所述级联森林进行训练。
进一步地,所述评估指标为查准率、召回率及F1值。
本发明还提供了一种电费异常数据分析装置,包括:
预处理单元,用于分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;
数据划分单元,用于将所述第一数据按预设比例划分为训练样本和测试样本;
训练单元,用于利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值;
判断单元,用于判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型;
分析单元,用于将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
进一步地,所述预处理单元,还用于:
剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理;
对降维后的数据进行删除重复值、填充缺失值及归一化处理。
进一步地,所述训练单元,还用于:
将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
利用所述表征向量构建级联森林。
进一步地,所述评估指标为查准率、召回率及F1值。
本发明还提供了一种终端设备,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一项所述的电费异常数据分析方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的电费异常数据分析方法。
相对于现有技术,本发明的有益效果在于:
本发明公开的一种电费异常数据分析方法,包括:对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;将第一数据按预设比例划分为训练样本和测试样本;利用训练样本对深度森林模型进行训练,将测试样本输入至训练后的深度森林模型,根据输出结果计算深度森林模型的评估指标的数值;判断数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用训练样本对深度森林模型进行训练操作,直至数值达到预设阈值时将对应的深度森林模型作为目标模型;将第二数据输入至目标模型,生成电费异常数据分类结果。
本发明通过深度森林模型对已知的电力用户大数据资源进行训练,无需受主观因素影响,既能对已有数据特征进行更好的挖掘,不仅提高了异常数据识别的工作的效率,同时能精确识别出异常用电用户,为后续人工复核工作降低了难度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的电费异常数据分析方法的流程示意图;
图2是本发明某一实施例提供的多粒度扫描计算原理图;
图3是本发明某一实施例提供的级联森林的结构示意图;
图4是本发明某一实施例提供的电费异常数据分析装置的结构示意图;
图5是本发明某一实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,本发明某一实施例提供一种电费异常数据分析方法,包括以下步骤:
S10、分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据。
这一步中,首先从电网公司营销装置中获取相关电力客户的历史用电数据,以及将要用于分析的待测电费数据。由于获取的数据存在数据缺失、重复、不相关特征多的情况,因此需要对数据进行预处理,生成较好的质量的样本数据。
在某一实施例中,所述预处理的步骤主要包括:
1.1)剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理。
其中,将历史电费数据以及待测电费数据中的不相关特征(例如用户编号,计量点编号等对于电费异常数据分析无用的信息)进行剔除,然后对剔除后的数据进行降维。本实施例中,优选为将电费数据的特征维度由65维降到47维,以在47维数据上继续进行数据处理。
1.2)对降维后的数据进行删除重复值、填充缺失值及归一化处理。
这一步中,针对数据中的重复、缺失问题进行处理,具体为删除重复值以及连续的缺失值,然后再对单个的缺失值利用以下公式进行填充:
式中,xt为用户在第t天的用电量,f(xt)为填充值,NaN表示数据未定义或不可表示的值,即利用缺失值前后两天的用电量平均值来填充缺失值。
在完成了以上对重复值和缺失值的处理后,为使得深度森林模型在分类时具有更好的泛化能力,对电费数据进行均值归一化处理:
式中,X为待归一化数据,Xscaled为均值归一化得到的数据,mean(X)为数据集的均值,std(X)为数据集的标准差。
S20、将所述第一数据按预设比例划分为训练样本和测试样本。
本步骤中,对第一数据按照预设比例进行划分,得到训练样本和测试样本,训练样本主要作为深度森林模型训练时的输入数据,而测试样本主要作为评估训练后的深度森林模型时的输入数据。其中,本实施例中的预设比例通常设为7:3。
S30、利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值。
具体地,所述利用所述训练样本对深度森林模型进行训练,包括:
3.1)将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
3.2)利用所述表征向量构建级联森林,对所述级联森林进行训练。
本实施例中,首先进行多粒度扫描计算,采用多个不同尺度的滑动窗口对训练样本中的数据特征进行重新表示,如图2所示。该方法是滑动窗口进行扫描特征,所扫描的特征向量作为新的数据样本;然后将扫描得到的结果用于构建级联森林,如图3所示。
需要说明的是,级联森林由多种随机森林组成,其作用为对输入特征进行表征学习,每个级联层均包括两个随机森林和两个完全随机森林,其中各随机森林均含有若干棵决策树,因此每个随机森林或者完全随机森林都会输出一个特征向量预测结果。在级联森林中,上一个级联层的输出结果作为下一个级联层的输入,可以将特征向量的特征信息传至下一层,每一层都可以接收到上一层的特征信息和原始特征信息,最后一层的级联层作为结果输出;其中完全随机森林是在完整的特征空间中随机选取特征来分裂,而普通随机森林是在一个随机特征子空间内通过基尼系数来选取分裂节点。
可以理解的是,当模型经过迭代训练后,要对于训练后的深度森林模型的分类效果进行评估。本实施例中,采用的评估指标主要为查准率、召回率及F1值。
具体地,使用混淆矩阵评估训练后的深度森林模型对测试样本的分类效果,对于窃电用户与正常用户的分类问题,其混淆矩阵如下:
表1混淆矩阵
其中,TP是指被深度森林模型正确分类的电费正常用户;FN是指被错误标记为电费异常用户的电费正常用户;FP是指被错误分类为电费正常用户的电费异常用户;TN是指被正确分类的电费异常用户。
进一步地,计算训练后的深度森林模型的查准率Precision、召回率Recall及F1值。其中,查准率代表模型预测为正常数据的样本中真正常数据占的比例;召回率代表模型预测为差错数据的样本中真差错数据占的比例;F1值综合了查准率和召回率的调和平均结果。
具体地,查准率、召回率及F1值的计算公式分别如下:
S40、判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型。
这一步中,将计算出的评估指标的数值与预设阈值进行比较,即将计算出的查准率、召回率及F1值分别与各自的预设阈值比较。只有当这三个数值均达到预设阈值时,将当前对应的深度森林模型作为目标模型;否则,就会返回执行步骤S30继续进行模型训练,直至查准率、召回率及F1值三个评估均达到预设阈值,最终得到目标模型。
S50、将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
本发明实施例提供的电费异常数据分析方法,通过深度森林模型对已知的电力用户大数据资源进行训练,无需受主观因素影响,既能对已有数据特征进行更好的挖掘,不仅提高了异常数据识别的工作的效率,同时能够精确识别出异常用电用户,为后续人工复核工作降低了难度。
请参阅图4,本发明某一实施例提供一种电费异常数据分析装置,包括:
预处理单元01,用于分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;
数据划分单元02,用于将所述第一数据按预设比例划分为训练样本和测试样本;
训练单元03,用于利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值;
判断单元04,用于判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型;
分析单元05,用于将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
在某一实施例中,所述预处理单元01,还用于:
剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理;
对降维后的数据进行删除重复值、填充缺失值及归一化处理。
在某一实施例中,所述训练单元03,还用于:
将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
利用所述表征向量构建级联森林。
在某一实施例中,所述评估指标为查准率、召回率及F1值。
本发明实施例提供的电费异常数据分析装置用于执行如上述任一项实施例所提供的电费异常数据分析方法。本实施例通过深度森林模型对已知的电力用户大数据资源进行训练,无需受主观因素影响,既能对已有数据特征进行更好的挖掘,不仅提高了异常数据识别的工作的效率,同时能够精确识别出异常用电用户,为后续人工复核工作降低了难度。
请参阅图5,本发明某一实施例提供一种终端设备,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的电费异常数据分析方法。
处理器用于控制该终端设备的整体操作,以完成上述的电费异常数据分析方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该终端设备的操作,这些数据例如可以包括用于在该终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行如上述任一项实施例所述的电费异常数据分析方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现如上述任一项实施例所述的电费异常数据分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由终端设备的处理器执行以完成如上述任一项实施例所述的电费异常数据分析方法,并达到如上述方法一致的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种电费异常数据分析方法,其特征在于,包括:
分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;
将所述第一数据按预设比例划分为训练样本和测试样本;
利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值;
判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型;
将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
2.根据权利要求1所述的电费异常数据分析方法,其特征在于,所述预处理包括:
剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理;
对降维后的数据进行删除重复值、填充缺失值及归一化处理。
3.根据权利要求1所述的电费异常数据分析方法,其特征在于,所述利用所述训练样本对深度森林模型进行训练,包括:
将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
利用所述表征向量构建级联森林,对所述级联森林进行训练。
4.根据权利要求1所述的电费异常数据分析方法,其特征在于,所述评估指标为查准率、召回率及F1值。
5.一种电费异常数据分析装置,其特征在于,包括:
预处理单元,用于分别对历史电费数据及待测电费数据进行预处理,得到第一数据和第二数据;
数据划分单元,用于将所述第一数据按预设比例划分为训练样本和测试样本;
训练单元,用于利用所述训练样本对深度森林模型进行训练,将所述测试样本输入至训练后的深度森林模型,根据输出结果计算所述深度森林模型的评估指标的数值;
判断单元,用于判断所述数值是否达到预设阈值,若是,则将当前深度森林模型作为目标模型;若否,则返回执行利用所述训练样本对深度森林模型进行训练操作,直至所述数值达到预设阈值时,将对应的深度森林模型作为目标模型;
分析单元,用于将所述第二数据输入至所述目标模型,生成电费异常数据分类结果。
6.根据权利要求5所述的电费异常数据分析装置,其特征在于,所述预处理单元,还用于:
剔除电费数据中的不相关特征,并对剔除后的数据进行降维处理;
对降维后的数据进行删除重复值、填充缺失值及归一化处理。
7.根据权利要求5所述的电费异常数据分析装置,其特征在于,所述训练单元,还用于:
将所述训练样本输入至深度森林模型后进行多粒度扫描,生成表征向量;
利用所述表征向量构建级联森林,对所述级联森林进行训练。
8.根据权利要求5所述的电费异常数据分析装置,其特征在于,所述评估指标为查准率、召回率及F1值。
9.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一项所述的电费异常数据分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的电费异常数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801303.3A CN113435664A (zh) | 2021-07-15 | 2021-07-15 | 一种电费异常数据分析方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801303.3A CN113435664A (zh) | 2021-07-15 | 2021-07-15 | 一种电费异常数据分析方法、装置、终端设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113435664A true CN113435664A (zh) | 2021-09-24 |
Family
ID=77760538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801303.3A Pending CN113435664A (zh) | 2021-07-15 | 2021-07-15 | 一种电费异常数据分析方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435664A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114205462A (zh) * | 2021-12-14 | 2022-03-18 | 王晨 | 一种诈骗电话识别方法、装置、系统及计算机存储介质 |
CN114358160A (zh) * | 2021-12-27 | 2022-04-15 | 杭州百富电子技术有限公司 | 一种电力系统中的数据异常检测方法 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107991527A (zh) * | 2017-11-21 | 2018-05-04 | 北京普锐电子有限公司 | 一种配电线路防窃电监测方法及系统 |
CN108491893A (zh) * | 2018-04-13 | 2018-09-04 | 贵州电网有限责任公司 | 一种基于深层森林算法的家庭用电负荷分类识别方法 |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
US20210097453A1 (en) * | 2018-06-12 | 2021-04-01 | Tsinghua University | Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium |
-
2021
- 2021-07-15 CN CN202110801303.3A patent/CN113435664A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107991527A (zh) * | 2017-11-21 | 2018-05-04 | 北京普锐电子有限公司 | 一种配电线路防窃电监测方法及系统 |
CN108491893A (zh) * | 2018-04-13 | 2018-09-04 | 贵州电网有限责任公司 | 一种基于深层森林算法的家庭用电负荷分类识别方法 |
US20210097453A1 (en) * | 2018-06-12 | 2021-04-01 | Tsinghua University | Method for quantile probabilistic short-term power load ensemble forecasting, electronic device and storage medium |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
CN112101420A (zh) * | 2020-08-17 | 2020-12-18 | 广东工业大学 | 一种相异模型下Stacking集成算法的异常用电用户识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114205462A (zh) * | 2021-12-14 | 2022-03-18 | 王晨 | 一种诈骗电话识别方法、装置、系统及计算机存储介质 |
CN114358160A (zh) * | 2021-12-27 | 2022-04-15 | 杭州百富电子技术有限公司 | 一种电力系统中的数据异常检测方法 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
CN115033591B (zh) * | 2022-06-01 | 2024-08-02 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113435664A (zh) | 一种电费异常数据分析方法、装置、终端设备及介质 | |
CN113792825B (zh) | 一种用电信息采集设备故障分类模型训练方法及装置 | |
CN110489314B (zh) | 模型异常检测方法、装置、计算机设备和存储介质 | |
CN108830456B (zh) | 敏感设备与电网电压暂降兼容性分析方法及装置 | |
CN113538063A (zh) | 基于决策树的电费异常数据分析方法、装置、设备及介质 | |
CN116136950B (zh) | 芯片验证方法、装置、系统、电子设备及存储介质 | |
CN111612149A (zh) | 一种基于决策树的主网线路状态检测方法、系统及介质 | |
CN111025041A (zh) | 电动汽车充电桩监测方法及其系统、计算机设备、介质 | |
CN116306806A (zh) | 故障诊断模型确定方法、装置及非易失性存储介质 | |
CN115392592A (zh) | 一种存储产品参数配置推荐方法、装置、设备及介质 | |
CN115357764A (zh) | 一种异常数据检测方法及装置 | |
CN116994641A (zh) | 一种半导体老化测试方法及其系统 | |
CN115184674A (zh) | 一种绝缘测试方法、装置、电子终端及存储介质 | |
CN114881343A (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
CN117454371A (zh) | 一种接口异常检测方法、装置、设备和存储介质 | |
CN114548493A (zh) | 一种电能表电流过载预测方法与系统 | |
Kusa et al. | Vombat: A tool for visualising evaluation measure behaviour in high-recall search tasks | |
CN113988709A (zh) | 中压配电线路故障率分析方法、装置、终端设备及介质 | |
CN110059083A (zh) | 一种数据评价方法、装置和电子设备 | |
CN109783361A (zh) | 确定代码质量的方法和装置 | |
CN112184415A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115758659A (zh) | 一种水体修复方案的修复效果验证方法、装置及电子设备 | |
CN108124441A (zh) | 一种电梯配件质量测评方法、系统、设备和存储介质 | |
CN111026661A (zh) | 一种软件易用性全面测试方法及系统 | |
KR20210051886A (ko) | 설비의 헬스 인덱스 평가 테이블을 자동으로 구성하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |
|
RJ01 | Rejection of invention patent application after publication |