CN113570002A - 窃电用户预测模型的建立方法、系统、存储介质及设备 - Google Patents
窃电用户预测模型的建立方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN113570002A CN113570002A CN202111110855.6A CN202111110855A CN113570002A CN 113570002 A CN113570002 A CN 113570002A CN 202111110855 A CN202111110855 A CN 202111110855A CN 113570002 A CN113570002 A CN 113570002A
- Authority
- CN
- China
- Prior art keywords
- electricity
- user
- users
- stealing
- electricity stealing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000005611 electricity Effects 0.000 title claims description 251
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000010219 correlation analysis Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种窃电用户预测模型的建立方法、系统、存储介质及设备,方法包括:获取多个用户的用电数据和用户所属台区的电网运行数据,提取所有特征,对所有特征与用户是否窃电之间进行相关性分析,并从所有特征中筛选出与用户是否窃电相关性高的关联特征,根据每个用户的关联特征及其对应的数据值制成每个用户的窃电训练表,根据每个用户是否窃电的窃电结果对每个用户的窃电训练表均进行分类标注,以得到标注了窃电代号或非窃电代号的窃电训练表,根据所有用户分类标注后的窃电训练表制成窃电训练集,将窃电训练集输入初始预测模型进行训练以得到预训练的预测模型,本发明的预测模型能够用于对用户是否窃电进行快速准确的预测。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种窃电用户预测模型的建立方法、系统、存储介质及设备。
背景技术
长期以来,社会中窃电现象屡禁不止,窃电行为不仅严重危害其他用户的生命财产安全,打乱电力企业的经营管理以及供电秩序,严重情况下还会对国家经济的发展带来威胁。因此,如何判断窃电用户是目前亟待解决的问题。
传统的窃漏电判断主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障,但这种方法对人的依赖性太强,抓窃查漏的目标不明确,无法准确高效的识别出窃电用户。且随着科技的进步,高科技窃电手段越来越多,如直接绕过采集终端窃电:高频窃电、遥控窃电、强磁窃电等,导致现有的传统反窃电技术已经无法完全适用于查处所有窃电手段。
发明内容
本发明的目的在于提出一种窃电用户预测模型的建立方法、系统、存储介质及设备,以解决现有技术对人的依赖性太强,抓窃查漏的目标不明确,无法准确高效的识别出窃电用户,也无法完全适用于查处所有窃电手段的问题。
本发明提出一种窃电用户预测模型的建立方法,所述方法包括:
获取多个用户的用电数据和用户所属台区的电网运行数据;
从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征;
根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表;
根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表;
根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
根据本发明提出的窃电用户预测模型的建立方法,具有以下有益效果:
获取多个用户的用电数据和用户所属台区的电网运行数据,从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征,以提高预测的准确率,根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表,根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表,通过对所述窃电训练表进行分类标注,便于预测模型对所述窃电训练表所对应用户的窃电与非窃电情况进行精确识别,根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型,通过预测模型来进行窃电预测,能够快速准确的得到窃电预测结果,极大的提高了预测效率,避免了对多个所述特征对应的具体数据分别进行对比分析再综合判断得出窃电结果的复杂工作过程。
另外,根据本发明提供的窃电用户预测模型的建立方法,还可以具有如下附加的技术特征:
进一步地,所述对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征的步骤包括:
从所有所述特征中选取预设特征,并对所述预设特征与用户是否窃电之间的相关系数进行计算,计算公式如下:
式中,N为用户总数,X为每个用户的窃电结果的值,为N个用户的窃电结果的平均值,Y为每个用户的预设特征对应的数据值,为N个用户的预设特征对应的数据值的平均值,其中,窃电用户的窃电结果的值设为第一预设值,非窃电用户的窃电结果的值设为第二预设值;
判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值;
若是,则将所述预设特征确定为所述关联特征。
进一步地,所述判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值的步骤后还包括:
若所述预设特征与用户是否窃电之间的相关系数的绝对值不大于所述预设相关系数值,则判断所述预设特征是否需要进行特征转换;
若所述预设特征需要进行特征转换,则对所述预设特征进行特征转换并转换成第一特征;
计算所述第一特征与用户是否窃电之间的相关系数,并判断所述第一特征与用户是否窃电之间的相关系数的绝对值是否大于所述预设相关系数值;
若所述第一特征与用户是否窃电之间的相关系数的绝对值大于所述预设相关系数值,则将所述预设特征确定为所述关联特征。
进一步地,所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集的步骤包括:
对所有用户分类标注后的所述窃电训练表进行采样并制成数据集;
将所述数据集按预设比例拆分成窃电训练集和模型测试集。
进一步地,所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型的步骤后还包括:
获取所述模型测试集;
将所述模型测试集输入预训练的所述预测模型中以获得所述模型测试集中每个所述窃电训练表的窃电测试结果;
根据所述模型测试集中每个所述窃电训练表的窃电测试结果与相应所述窃电训练表分类标注的窃电结果进行度量精准率及召回率分析,以得到所述预测模型的预测精准率和预测召回率;
将所述预测模型的预测精准率和预测召回率分别与预设精准率阀值和预设召回率阀值进行对比分析,并判断是否同时满足以下条件:
所述预测模型的预测精准率大于预设精准率阀值,所述预测模型的预测召回率大于预设召回率阀值;
若是,则确定所述预测模型不需要重新训练。
进一步地,所述对所有用户分类标注后的所述窃电训练表进行采样并制成数据集的步骤中:
对分类标注为窃电的所述窃电训练表进行过采样。
进一步地,所述从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征的步骤中:
所述关联特征包括用户ID、用户用电时间点、用电量下降比、功率因素小于0.8的次数、台区ID、电流不平衡数、电量越界异常次数、电压*电流与有功功率差距超过10%的点数、台区实际电量、台区损失电量、台区线损率和正向有功总电能。
本发明提出一种窃电用户预测模型的建立系统,包括:
获取模块:用于获取多个用户的用电数据和用户所属台区的电网运行数据;
分析模块:用于从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征;
制表模块:用于根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表;
标注模块:用于根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表;
训练模块:用于根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的窃电用户预测模型的建立方法。
本发明还提出一种窃电用户预测模型的建立设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的窃电用户预测模型的建立方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明第一实施例窃电用户预测模型的建立方法的流程图;
图2为本发明第二实施例窃电用户预测模型的建立系统的系统框图;
图3为本发明第三实施例窃电用户预测模型的建立设备的结构示意图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
实施例1
如图1所示,本发明的实施例提供一种窃电用户预测模型的建立方法,包括步骤S101~S105。
S101,获取多个用户的用电数据和用户所属台区的电网运行数据。
其中,所述获取用户数据的步骤包括:
读取数据库的消息日志;
根据所述消息日志判断所述用户的用电数据和所述用户所属台区的电网运行数据是否到齐;
若所述用户的用电数据和所述用户所属台区的电网运行数据已到齐,则从数据库中采集所述用户的用电数据和所述用户所属台区的电网运行数据并对异常数据进行稽核。
若数据存在质量问题,会产生告警信息,并在界面上展示。
所述获取多个用户的用电数据和用户所属台区的电网运行数据的步骤后还包括。
对所述用户的用电数据和所述用户所属台区的电网运行数据进行整合、清洗、转换、减少及离散处理。
具体地,对所述用户数据进行整合处理,以集成多个数据库或多个文件;
对所述用户数据进行清洗处理,以填补缺失值、平滑噪音数据、识别并移除异常值和噪音数据、解决数据整合后带来的冗余;
对所述用户数据进行转换处理,以对数据正则化、聚合化;
对所述用户数据进行减少处理,以提取有特征化的数据,减少数据量;
对所述用户数据进行离散处理,某些数值型的数据有时需要离散处理;
S102,从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征。
其中,所述关联特征包括用户ID、用户用电时间点、用电量下降比、功率因素小于0.8的次数、台区ID、电流不平衡数、电量越界异常次数、电压*电流与有功功率差距超过10%的点数、台区实际电量、台区损失电量、台区线损率和正向有功总电能。
所述对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征的步骤包括:
从所有所述特征中选取预设特征,并对所述预设特征与用户是否窃电之间的相关系数进行计算,计算公式如下:
式中,N为用户总数,X为每个用户的窃电结果的值,为N个用户的窃电结果的平均值,Y为每个用户的预设特征对应的数据值,为N个用户的预设特征对应的数据值的平均值,其中,窃电用户的窃电结果的值设为第一预设值,非窃电用户的窃电结果的值设为第二预设值;
具体实施方式中,所述第一预设值为1,所述第二预设值为0。
判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值;
若是,则将所述预设特征确定为所述关联特征。
由于相关性高低的判断标准不同,因此将相关性进行量化,并以所述预设相关系数值来进行界定,能够提高所述关联特征筛选的可靠性和准确性。
所述判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值的步骤后还包括:
若所述预设特征与用户是否窃电之间的相关系数的绝对值不大于所述预设相关系数值,则判断所述预设特征是否需要进行特征转换;
若所述预设特征需要进行特征转换,则对所述预设特征进行特征转换并转换成第一特征;
计算所述第一特征与用户是否窃电之间的相关系数,并判断所述第一特征与用户是否窃电之间的相关系数的绝对值是否大于所述预设相关系数值;
若所述第一特征与用户是否窃电之间的相关系数的绝对值大于所述预设相关系数值,则将所述预设特征确定为所述关联特征。
部分特征本身与窃电目标(用户是否窃电)之间并没有非常强的相关性,但是通过上述特征转换后构建的新特征与窃电目标之间存在很强的相关性,如电流不平衡数目、电压越界异常次数、功率因素<0.8的次数等。
通过上述的特征转换,能够将一些本身与窃电目标相关性不强,但转换后与窃电目标相关性强的特征找出,排除相关性计算的干扰,避免剔除实际相关性强的特征,保证了关联特征筛选的准确性,进而保证了窃电结果预测的准确性。
S103,根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表。
S104,根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表。
所述窃电训练表如下表1所示,所述关联特征包括用户ID、用户用电时间点、用电量下降比、功率因素小于0.8的次数、台区ID、电流不平衡数、电量越界异常次数、电压*电流与有功功率差距超过10%的点数、台区实际电量、台区损失电量、台区线损率和正向有功总电能。
表1
上表中,窃电结果用代号来进行标注,0用于指示非窃电,1用于指示窃电,该表简洁明了,窃电结果容易识别。
S105,根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
其中,所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集的步骤包括:
对所有用户分类标注后的所述窃电训练表进行采样并制成数据集;
将所述数据集按预设比例拆分成窃电训练集和模型测试集。
所述对所有用户分类标注后的所述窃电训练表进行采样并制成数据集的步骤中:
对分类标注为窃电的所述窃电训练表进行过采样。
比如对分类标注为窃电的同一所述窃电训练表采样三次,对分类标注为非窃电的同一所述窃电训练表只采样一次。
由于窃电用户占总用户的数量较少,如果直接将数据放入到预测模型中进行训练,则窃电用户数据容易被非窃电用户数据裹挟,使得预测模型容易出现误判,将用户识别为非窃电用户。通过对窃电用户数据的过采样方式能够对样本进行平衡,保证窃电用户数据的采样数量,进而保证预测模型训练的准确性。
所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型的步骤后还包括:
获取所述模型测试集;
将所述模型测试集输入预训练的所述预测模型中以获得所述模型测试集中每个所述窃电训练表的窃电测试结果;
根据所述模型测试集中每个所述窃电训练表的窃电测试结果与相应所述窃电训练表分类标注的窃电结果进行度量精准率及召回率分析,以得到所述预测模型的预测精准率和预测召回率;
将所述预测模型的预测精准率和预测召回率分别与预设精准率阀值和预设召回率阀值进行对比分析,并判断是否同时满足以下条件:
所述预测模型的预测精准率大于预设精准率阀值,所述预测模型的预测召回率大于预设召回率阀值;
若是,则确定所述预测模型不需要重新训练。
精准率(Precision)为对窃电样本预测的准确程度,计算公式如下:
召回率(Recall)为实际为窃电的样本中被预测为窃电的概率,计算公式如下:
其中,TP为被预测模型预测结果为窃电的窃电样本,FP为被预测模型预测结果为窃电的非窃电样本,FN为被预测模型预测结果为非窃电的窃电样本。
本发明的具体实施方式中可以采用随机森林和xgboost两种集成算法进行建模,再对模型效果进行验证,在验证模型效果的过程中,采用度量精准率及度量召回率对所述预测模型的预测效果进行量化,以准确可靠地反映出所述预测模型实操过程中的实际效果,并采用图表、柱状图等方式进行可视化展示。本发明对所述预测模型的预测效果通过所述预设精准率阀值和所述预设召回率阀值来进行界定评判,能够很好的保证所述预测模型的质量,进而保证用户窃电结果预测的准确性及预测结果的可靠性。
综上,本发明提供的一种窃电用户预测模型的建立方法,有益效果在于:获取多个用户的用电数据和用户所属台区的电网运行数据,从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征,以提高预测的准确率,根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表,根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表,通过对所述窃电训练表进行分类标注,便于预测模型对所述窃电训练表所对应用户的窃电与非窃电情况进行精确识别,根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型,通过预测模型来进行窃电预测,能够快速准确的得到窃电预测结果,极大的提高了预测效率,避免了对多个所述特征对应的具体数据分别进行对比分析再综合判断得出窃电结果的复杂工作过程。
实施例2
请参考图2,本实施例提供一种窃电用户预测模型的建立系统,包括:
获取模块:用于获取多个用户的用电数据和用户所属台区的电网运行数据。
分析模块:用于从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征。
其中,所述关联特征包括用户ID、用户用电时间点、用电量下降比、功率因素小于0.8的次数、台区ID、电流不平衡数、电量越界异常次数、电压*电流与有功功率差距超过10%的点数、台区实际电量、台区损失电量、台区线损率和正向有功总电能。
所述分析模块还用于:
从所有所述特征中选取预设特征,并对所述预设特征与用户是否窃电之间的相关系数进行计算,计算公式如下:
式中,N为用户总数,X为每个用户的窃电结果的值,为N个用户的窃电结果的平均值,Y为每个用户的预设特征对应的数据值,为N个用户的预设特征对应的数据值的平均值,其中,窃电用户的窃电结果的值设为第一预设值,非窃电用户的窃电结果的值设为第二预设值;
具体实施方式中,所述第一预设值为1,所述第二预设值为0;
判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值;
若是,则将所述预设特征确定为所述关联特征。
所述分析模块还用于:
若所述预设特征与用户是否窃电之间的相关系数的绝对值不大于所述预设相关系数值,则判断所述预设特征是否需要进行特征转换;
若所述预设特征需要进行特征转换,则对所述预设特征进行特征转换并转换成第一特征;
计算所述第一特征与用户是否窃电之间的相关系数,并判断所述第一特征与用户是否窃电之间的相关系数的绝对值是否大于所述预设相关系数值;
若所述第一特征与用户是否窃电之间的相关系数的绝对值大于所述预设相关系数值,则将所述预设特征确定为所述关联特征。
制表模块:用于根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表。
标注模块:用于根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表。
训练模块:用于根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
所述训练模块还用于:
对所有用户分类标注后的所述窃电训练表进行采样并制成数据集;
将所述数据集按预设比例拆分成窃电训练集和模型测试集。
其中,对分类标注为窃电的所述窃电训练表进行过采样。
所述训练模块还用于:
获取所述模型测试集;
将所述模型测试集输入预训练的所述预测模型中以获得所述模型测试集中每个所述窃电训练表的窃电测试结果;
根据所述模型测试集中每个所述窃电训练表的窃电测试结果与相应所述窃电训练表分类标注的窃电结果进行度量精准率及召回率分析,以得到所述预测模型的预测精准率和预测召回率;
将所述预测模型的预测精准率和预测召回率分别与预设精准率阀值和预设召回率阀值进行对比分析,并判断是否同时满足以下条件:
所述预测模型的预测精准率大于预设精准率阀值,所述预测模型的预测召回率大于预设召回率阀值;
若是,则确定所述预测模型不需要重新训练。
实施例3
请参考图3,本发明另一方面还提出一种窃电用户预测模型的建立设备,所示为本发明第三实施例当中的窃电用户预测模型的建立设备,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述计算机程序30时实现如上述的窃电用户预测模型的建立方法。
其中,所述窃电用户预测模型的建立设备具体可以为计算机、服务器、上位机等,处理器10在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是窃电用户预测模型的建立设备的内部存储单元,例如该窃电用户预测模型的建立设备的硬盘。存储器20在另一些实施例中也可以是窃电用户预测模型的建立设备的外部存储装置,例如窃电用户预测模型的建立设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括窃电用户预测模型的建立设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于窃电用户预测模型的建立设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图3示出的结构并不构成对窃电用户预测模型的建立设备的限定,在其它实施例当中,该窃电用户预测模型的建立设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的窃电用户预测模型的建立方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种窃电用户预测模型的建立方法,其特征在于,所述方法包括:
获取多个用户的用电数据和用户所属台区的电网运行数据;
从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征;
根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表;
根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表;
根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
2.根据权利要求1所述的窃电用户预测模型的建立方法,其特征在于,所述对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征的步骤包括:
从所有所述特征中选取预设特征,并对所述预设特征与用户是否窃电之间的相关系数进行计算,计算公式如下:
式中,N为用户总数,X为每个用户的窃电结果的值,为N个用户的窃电结果的平均值,Y为每个用户的预设特征对应的数据值,为N个用户的预设特征对应的数据值的平均值,其中,窃电用户的窃电结果的值设为第一预设值,非窃电用户的窃电结果的值设为第二预设值;
判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值;
若是,则将所述预设特征确定为所述关联特征。
3.根据权利要求2所述的窃电用户预测模型的建立方法,其特征在于,所述判断所述预设特征与用户是否窃电之间的相关系数的绝对值是否大于预设相关系数值的步骤后还包括:
若所述预设特征与用户是否窃电之间的相关系数的绝对值不大于所述预设相关系数值,则判断所述预设特征是否需要进行特征转换;
若所述预设特征需要进行特征转换,则对所述预设特征进行特征转换并转换成第一特征;
计算所述第一特征与用户是否窃电之间的相关系数,并判断所述第一特征与用户是否窃电之间的相关系数的绝对值是否大于所述预设相关系数值;
若所述第一特征与用户是否窃电之间的相关系数的绝对值大于所述预设相关系数值,则将所述预设特征确定为所述关联特征。
4.根据权利要求1所述的窃电用户预测模型的建立方法,其特征在于,所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集的步骤包括:
对所有用户分类标注后的所述窃电训练表进行采样并制成数据集;
将所述数据集按预设比例拆分成窃电训练集和模型测试集。
5.根据权利要求4所述的窃电用户预测模型的建立方法,其特征在于,所述根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型的步骤后还包括:
获取所述模型测试集;
将所述模型测试集输入预训练的所述预测模型中以获得所述模型测试集中每个所述窃电训练表的窃电测试结果;
根据所述模型测试集中每个所述窃电训练表的窃电测试结果与相应所述窃电训练表分类标注的窃电结果进行度量精准率及召回率分析,以得到所述预测模型的预测精准率和预测召回率;
将所述预测模型的预测精准率和预测召回率分别与预设精准率阀值和预设召回率阀值进行对比分析,并判断是否同时满足以下条件:
所述预测模型的预测精准率大于预设精准率阀值,所述预测模型的预测召回率大于预设召回率阀值;
若是,则确定所述预测模型不需要重新训练。
6.根据权利要求4所述的窃电用户预测模型的建立方法,其特征在于,所述对所有用户分类标注后的所述窃电训练表进行采样并制成数据集的步骤中:
对分类标注为窃电的所述窃电训练表进行过采样。
7.根据权利要求1所述的窃电用户预测模型的建立方法,其特征在于,所述从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征的步骤中:
所述关联特征包括用户ID、用户用电时间点、用电量下降比、功率因素小于0.8的次数、台区ID、电流不平衡数、电量越界异常次数、电压*电流与有功功率差距超过10%的点数、台区实际电量、台区损失电量、台区线损率和正向有功总电能。
8.一种窃电用户预测模型的建立系统,其特征在于,包括:
获取模块:用于获取多个用户的用电数据和用户所属台区的电网运行数据;
分析模块:用于从所述用户的用电数据和所述用户所属台区的电网运行数据中提取所有特征,对所有所述特征与用户是否窃电之间进行相关性分析,并从所有所述特征中筛选出与用户是否窃电相关性高的关联特征;
制表模块:用于根据每个用户的所述关联特征及其对应的数据值制成每个用户的窃电训练表;
标注模块:用于根据每个用户是否窃电的窃电结果对每个用户的所述窃电训练表均进行分类标注,以得到标注了窃电或非窃电的所述窃电训练表;
训练模块:用于根据所有用户分类标注后的所述窃电训练表制成窃电训练集,将所述窃电训练集输入初始预测模型进行训练以得到预训练的预测模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的窃电用户预测模型的建立方法。
10.一种窃电用户预测模型的建立设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一所述的窃电用户预测模型的建立方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111110855.6A CN113570002A (zh) | 2021-09-23 | 2021-09-23 | 窃电用户预测模型的建立方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111110855.6A CN113570002A (zh) | 2021-09-23 | 2021-09-23 | 窃电用户预测模型的建立方法、系统、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113570002A true CN113570002A (zh) | 2021-10-29 |
Family
ID=78173992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111110855.6A Pending CN113570002A (zh) | 2021-09-23 | 2021-09-23 | 窃电用户预测模型的建立方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570002A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170006135A1 (en) * | 2015-01-23 | 2017-01-05 | C3, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
CN108765004A (zh) * | 2018-05-28 | 2018-11-06 | 贵州黔驰信息股份有限公司 | 一种基于数据挖掘识别用户窃电行为的方法 |
CN110223196A (zh) * | 2019-06-04 | 2019-09-10 | 国网浙江省电力有限公司电力科学研究院 | 基于典型行业特征库和反窃电样本库的反窃电分析方法 |
CN111160791A (zh) * | 2019-12-31 | 2020-05-15 | 国网北京市电力公司 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
CN111539843A (zh) * | 2020-04-17 | 2020-08-14 | 国网新疆电力有限公司电力科学研究院 | 基于数据驱动的反窃电智能预警方法 |
CN113408804A (zh) * | 2021-06-24 | 2021-09-17 | 广东电网有限责任公司 | 窃电行为检测方法、系统、终端设备及存储介质 |
-
2021
- 2021-09-23 CN CN202111110855.6A patent/CN113570002A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170006135A1 (en) * | 2015-01-23 | 2017-01-05 | C3, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
CN108765004A (zh) * | 2018-05-28 | 2018-11-06 | 贵州黔驰信息股份有限公司 | 一种基于数据挖掘识别用户窃电行为的方法 |
CN110223196A (zh) * | 2019-06-04 | 2019-09-10 | 国网浙江省电力有限公司电力科学研究院 | 基于典型行业特征库和反窃电样本库的反窃电分析方法 |
CN111160791A (zh) * | 2019-12-31 | 2020-05-15 | 国网北京市电力公司 | 一种基于gbdt算法及因素融合的异常用户识别方法 |
CN111539843A (zh) * | 2020-04-17 | 2020-08-14 | 国网新疆电力有限公司电力科学研究院 | 基于数据驱动的反窃电智能预警方法 |
CN113408804A (zh) * | 2021-06-24 | 2021-09-17 | 广东电网有限责任公司 | 窃电行为检测方法、系统、终端设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵小兵等: "《现代汉语基本词汇自动识别方法研究》", 31 October 2012 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301617B (zh) | 一种评估废气监测数据质量的方法及设备 | |
CN116112292B (zh) | 基于网络流量大数据的异常行为检测方法、系统和介质 | |
CN115170000A (zh) | 一种基于电能表通信模块的远程监测方法及系统 | |
CN115865649B (zh) | 一种智能运维管理控制方法、系统和存储介质 | |
CN111008193A (zh) | 一种数据清洗与质量评价方法及系统 | |
CN115796708B (zh) | 一种工程建设用的大数据智能质检方法、系统和介质 | |
CN116366374B (zh) | 基于大数据的电网网络管理的安全评估方法、系统及介质 | |
CN117235655B (zh) | 基于联邦学习的智慧供热异常工况识别方法及系统 | |
CN115358155A (zh) | 一种电力大数据异常预警方法、装置、设备及可读存储介质 | |
CN115222303B (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN115689396A (zh) | 污染物排放管控方法、装置、设备及介质 | |
CN108763966B (zh) | 一种尾气检测作弊监管系统及方法 | |
CN113095739A (zh) | 一种电网数据异常检测方法及装置 | |
CN111007452A (zh) | 一种数据采集系统的故障诊断方法及装置 | |
CN114169709A (zh) | 变电站二次设备的状态评估方法、装置、存储介质及设备 | |
CN113554361A (zh) | 一种综合能源系统数据处理计算方法及处理系统 | |
CN112418687A (zh) | 基于用电特征的用户用电异常识别方法、装置和存储介质 | |
CN113947504B (zh) | 一种基于随机森林法的窃电分析方法及其系统 | |
CN114138601A (zh) | 一种业务告警方法、装置、设备及存储介质 | |
CN117520951A (zh) | 一种基于多特征量的变压器健康评估方法和系统 | |
CN109215816A (zh) | 蒸汽发生器传热管完整性评估方法、系统及终端设备 | |
CN113591909B (zh) | 电力系统的异常检测方法、异常检测装置以及存储介质 | |
CN113570002A (zh) | 窃电用户预测模型的建立方法、系统、存储介质及设备 | |
CN116108376A (zh) | 一种反窃电的监测系统、方法、电子设备及介质 | |
CN115494431A (zh) | 一种变压器故障告警方法、终端设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211029 |