CN112633421A - 一种用户异常用电行为检测方法及装置 - Google Patents
一种用户异常用电行为检测方法及装置 Download PDFInfo
- Publication number
- CN112633421A CN112633421A CN202110257518.3A CN202110257518A CN112633421A CN 112633421 A CN112633421 A CN 112633421A CN 202110257518 A CN202110257518 A CN 202110257518A CN 112633421 A CN112633421 A CN 112633421A
- Authority
- CN
- China
- Prior art keywords
- data
- xgboost
- detection model
- user
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 100
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 106
- 230000006399 behavior Effects 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000002068 genetic effect Effects 0.000 claims abstract description 31
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 27
- 238000009826 distribution Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 208000035126 Facies Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Water Supply & Treatment (AREA)
- Physiology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Remote Monitoring And Control Of Power-Distribution Networks (AREA)
Abstract
本发明公开一种用户异常用电行为检测方法及装置,方法包括:响应于获取的用户原始数据,对用户原始数据进行数据预处理,使得到优化用电数据;响应于获取的优化用电数据,对训练模型进行训练并生成XGBoost检测模型;基于遗传算法对XGBoost检测模型进行参数优化,使确定XGBoost检测模型的最佳超参数组合;将待检测数据输入XGBoost检测模型中,基于最佳超参数组合进行判断某一优化用电数据是否异常。采用遗传算法对XGBoost检测模型的参数进行调优,实现对多个XGBoost模型超参数的同时优化,最终得到具有性能优良的异常用电检测模型,提高了检测准确率。
Description
技术领域
本发明属于电网反窃电技术领域,尤其涉及一种用户异常用电行为检测方法及装置。
背景技术
随着经济的快速发展,用户的用电需求不断增加,若用户用电行为异常将增大电网的非技术性损失,增加电力公司的运营成本。传统的用户异常用电行为检测方法是现场人员定期巡检线路、定期校验电表、用户举报等,这些手段对人的依赖性较大,需要投入大量的人力成本,同时,用电行为的检测耗时较长、效率较低。
目前,对于异常用电行为检测的研究主要分为基于状态和基于人工智能两类方法。基于状态的分析方法是通过实时比较配电网的功率、电压、电流等大量数据的变化来检测异常;基于人工智能的异常用电行为检测模型则首先通过数据分析提取可以反映异常用电行为的指标,再借助人工智能的方法训练指标与用电行为检测结果之间的映射关系,完成异常用电行为检测模型的构建。相关技术1:基于硬件的用户异常用电行为检测方法,使用摄像头、传感器及联网装置组成的复杂检测系统等外置监测装置实时监测供电设备是否遭到破坏、用电行为是否正常。该方法需要较高的设备成本,硬件设备容易受到天气等外在因素的干扰,设备维护较为困难,并且难以识别软件窃电、遥控窃电等异常用电行为。相关技术2:基于状态的用户异常用电行为检测方法,基于状态的用户异常用电行为检测方法主要是通过对比分析用户的用电量信息进行用户用电行为的检测,如对用户日用电量和日线损电量数据进行批量处理及相关度分析来识别台区用户窃电行为;综合对比分析同期线损、用电负荷、日用电量、电流及有功功率等电量信息,实现用户异常用电行为的精准检测等。但是在配电网的实际运行中,用户侧具有海量且多元的用电数据,异常用电行为也多种多样,基于状态的检测方法需要较长的检测时间。相关技术3:基于人工智能的用户异常用电行为检测方法,基于人工智能的用户异常用电行为检测方法是指借助人工智能方法和大量用电数据,训练用电行为检测模型,达到已知用户用电数据的情况快速识别用户用电行为是否异常的效果。如以正常用户用电数据为训练样本,采用自编码网络学习数据特征,重构输入数据以计算检测阈值,基于此建立对比误差与检测阈值的异常用电行为辨识模型等。该类方法在评价指标的选择、训练时间和检测效率的优化方面仍存在较大的提升空间。
但是上述方法存在以下问题:
1.借助摄像头,传感器等装置对供电设备进行实时监测的方法,成本较高,需要使用大量、昂贵的硬件来满足监控的需求,而且对于软件窃电,遥控窃电等现象,由于没有人的直接参与,装置的摄像头难以识别并报警。
2.对电气量状态进行实时监测的方法,难以及时处理配电网实际中的大量数据,耗时较长,且异常用电行为多样,容易发生误判。
3.现有的用户异常用电行为的识别方法为了提高识别精确度,常采用复杂的人工智能算法,从而造成会占用较多的运算资源,计算时间较长。
综上描述,亟需一种用户异常用电行为检测方法及装置,对异常用电检测模型进行优化,以提高检测准确率。
发明内容
本发明实施例提供一种用户异常用电行为检测方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明提供一种用户异常用电行为检测方法,包括:响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
第二方面,本发明提供一种用户异常用电行为检测装置,包括:处理模块,配置为响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;训练模块,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;优化模块,配置为基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;判断模块,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用户异常用电行为检测方法的步骤。
第四方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的用户异常用电行为检测方法的步骤。
本申请的一种用户异常用电行为检测方法及装置,采用遗传算法对XGBoost检测模型的参数进行调优,实现对多个XGBoost模型超参数的同时优化,最终得到具有性能优良的异常用电检测模型,提高了检测准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种用户异常用电行为检测方法的流程图;
图2为本发明一实施例提供一个具体实施例的用户异常用电行为检测方法的流程图;
图3为本发明一实施例提供的一种用户异常用电行为检测装置的结构框图;
图4是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的用户异常用电行为检测方法一实施例的流程图。
如图1所示,在S101中,响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理,其中,所述数据降维的具体步骤如下:对所述用户数据进行标准化,均值为0,方差为1;计算协方差矩阵以及所述协方差矩阵的特征值和与所述特征值对应的特征向量;对所述特征值按大小进行排序,选取所述特征值中最大的m个,将其对应的特征向量分别作为行向量组成特征向量矩阵;将所述用户数据转化至由m个特征向量构成的新空间中。
在本实施例中,采用数据清洗、缺失值处理和数据降维的数据预处理方法对终端采集的原始数据进行训练样本构造,使得原始数据更加完成,训练数据量大大减少,提高了模型的训练时间和检测精确度,并通过主成分分析法降低数据的维数,生成不失原有数据信息量的新特征数据,大大缩短了计算时间,使得模型检测能力提升。
在S102中,响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型。
在本实施例中,XGBoost检测模型可以对实时监测数据进行快速检测,实现终端用户异常用电行为的准确识别。
在S103中,基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合。
在本实施例中,采用动态变异的遗传算法对XGBoost检测模型的超参数寻优,提升了算法寻优的收敛速度,防止参数组合因基因变异而遭到破环,可避免陷入局部最优解。
在S104中,将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
在本实施例中,基于XGBoost模型对终端用户的异常用电行为检测模型,可以快速且准确地识别出异常用电客户,使得供电侧能够及时止损。
在一些可选的实施例中,在基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合之后,所述方法还包括:响应于获取的所述优化用电数据,对包含所述最佳超参数组合的XGBoost检测模型进行准确度测试。
请参阅图2,其示出了本申请的一个具体实施例的用户异常用电行为检测流程图。
如图2所示,用户异常用电行为检测方法的具体流程如下:
步骤1:数据采集
从用电采集系统和能量管理系统获取配电网系统电力用户的原始用电数据,其中,用户的原始用电数据包括用户历史用电数据以及终端设备异常用电记录。
步骤2:数据预处理
直接获得的原始数据具有量纲并且存在缺失数据,因此需要采取一定的手段对其进行清洗及缺失值处理以提高数据质量,并使数据更好地适应本发明提出的检测方法。
(2.1)数据清洗:数据清洗是指删除原始数据中的冗余、无关数据,从而平滑数据噪声。公用事业等非居民用户一般不会存在异常用电行为,可将此类非居民用户的用电数据删除。
(2.2)缺失值处理:用电采集系统记录的数据会由于采集设备故障、传输丢包等原因存在部分缺失,若直接忽略缺失样本,会导致日线损率数据误差较大,从而降低异常用电行为检测模型的精确度。为了避免缺失值的影响,采用期望最大化(EM算法)插补法对缺失值进行处理。具体方法如下:首先第一步,在给定已观测得到的数据条件下,求缺失值的条件期望,利用得到的条件期望值对缺失数据进行插补;其次第二步,做极大化估计,插补之后得到了一个完整的数据集,对该完整数据集的参数进行极大似然估计。
第一步:目的是求t+1次迭代的期望:
其中,观测数据表示含有缺失值的不完整数据,为观测数据中未观测到的隐含数据,和连在一起称为完整数据。函数称为函数,是完整数据的对数似然函数关于在给定观测数据和当前参数下对隐含数据的条件概率分布的期望,为第t步迭代后得到的模型参数估计值,为第t+1步迭代后得到的模型参数估计值,表示X和Z的联合概率分布,表示在给定观测数据X和当前的参数估计下的隐变量Z的条件概率分布。
(2.3)数据降维:获取的原始数据的特征数量较多,这将会导致维数灾难,有的特征对异常用电的检测没有意义以及部分特征的相关度较高,不利于用户异常用电行为检测模型的训练和检测。采用主成分分析法对优化用电数据进行降维处理,使关系紧密的特征变成尽可能少的新特征,这些新特征是两两不相关的,因而可以用较少的特征指标代表原始数据中的重要信息。主成分分析法需要将输入的n维数据降到m维。具体实现方法如下:首先对原始数据进行标准化,均指为0,方差为1;其次计算协方差矩阵Cov,并计算协方差矩阵的特征值和对应的特征向量;然后对特征值按大小进行排序,选择其中最大的m个,将其对应的特征向量分别作为行向量组成特征向量矩阵P;最后将数据转换到由m个特征向量构成的新空间中。
步骤3:构建基于XGBoost的用户异常用电行为检测模型
(3.1)模型输入
将经过预处理的样本数据集按8:2的比例划分为训练集和测试集,基于训练集训练XGBoost模型,测试集作为模型性能评价的输入数据。
(3.2)构建提升树
提升树(Boosted trees)是一种集成方法,XGBoost算法基于数据处理后的观测数据X进行树的累加,每次迭代训练一棵树,并且采用CART回归树作为该模型的子树模型,一棵回归树的集合记为:
式中,q代表树的结构函数(即输入x输出叶子节点的索引),作用是:将输入映射到某个叶子节点,m表示观测数据X的维数,T代表一棵树的叶子节点数量,表示为长度为T的一维向量,表示树q各叶子节点的权重(即输入叶子节点索引输出叶子节点的权重),f代表CART树。
当完成k棵树的训练时,基于XGBoost模型的预测值表示为:
对树的训练迭代过程是相互独立的,即原来的模型保持不变,将一个新的函数添加到模型中。一个函数对应一棵树,新生成的树拟合上次预测的残差,迭代过程如公式(5)所示。
(3.3)正则化目标函数
XGBoost的目标函数如式(6)、(7)所示:
式中:k为树的数量,是误差函数,是总训练误差,用来衡量预测值与真实值之间的偏差;是正则化项,是K棵树的总正则化项,用来衡量模型的复杂度,防止模型训练过拟合。为树第j个叶子节点的权重,为参数,分别用来控制叶子结点的个数和控制叶子节点的权重大小。
(3.4)节点切分算法
XGBoost算法采用贪心算法从根节点开始,每次分裂一个节点,计算分裂后的增益并选择最大增益对应的节点。根据XGBoost损失函数计算其信息增益:
步骤4:利用遗传算法对XGBoost检测模型进行参数优化,确定模型最佳超参数组合。
本发明采用遗传算法对XGBoost用户异常用电行为检测模型进行参数优化,使得XGBoost检测模型在最佳参数组合下能有更为准确的检测能力。
(4.1)超参数编码
根据XGBoost模型调参经验,影响该模型检测效果的超参数主要有四个,分别是基分类器个数n、学习率、树的最大深度max_depth和最小叶子节点权重。将四个超参数视为遗传算法求解的变量个体,遗传算法的运算对象是表示个体的符号串,本申请用无符号的二进制整数来表示上述四个超参数。
基分类器个数n为1~100之间的整数,学习率为0~10之间整数的1/10,树的最大深度max_depth为3~10之间的整数,最小叶子节点权重为1~10之间的整数,分别用7位、4位、3位、4位无符号二进制整数来表示,将它们连接在一起组成18位无符号二进制数,形成了个体的基因型,表示一个可行解。例如,基因型x=0110101|0100|010|0110所对应的表现型是x=[53,4,2,6],通过变形,上述个体的表相型表示的超参数的取值为n=53,=0.4,max_depth=3+2=5,=6。因此个体的表现型和基因型之间通过编码和解码程序来相互转换。
(4.2)初始化种群
遗传算法是对种群进行的进化操作,在开始进化之前,需要初始化一些表示起始搜索点的群体数据,根据(4.1)中,个体的长度为18,将种群的数量设置为100~300,繁殖的代数为100代。将种群的大小取为200,即群体由200个个体组成,每个个体通过随机的方法产生。
(4.3)构建适应度函数
适应度表明个体或解的优劣性。通过适应度函数对每个个体进行评价,选择适应度值高的个体参与遗传操作,适应度值低的个体被淘汰。本发明利用遗传算法求解的是XGBoost检测模型的最佳参数组合,则适应度函数的选择根据是否有利于提升XGBoost模型检测异常用电的能力。而评价XGBoost模型性能优良的评价指标有准确率、f1得分和ROC曲线下的面积AUC。由于f1得分同时兼顾了检测模型的精确率和召回率,所以选择f1 得分作为适应度函数,其表示为:
式中:X表示待评估的染色体,表示XGBoost模型使用染色体中的参数组合进行检测后的f1等分,其中precision表示精确率,recall表示召回率。TP表示异常用电客户被正确检测的数目, FP表示非异常用电客户被正确检测的数目;FN表示非异常用电客户被错误检测的数目。
(4.4)通过选择、交叉与变异操作设计遗传算子,不断更新种群。
染色体种群的更新机制是通过选择算子、交叉算子、变异算子三个操作来设计遗传算子。(4.2)中设置的繁殖的代数为100次,每一代在遗传过程中都会产生不同的下一代个体,通过选择操作把当前群体中适应度较高的个体按照轮盘赌规则遗传到下一代群体。假设由(4.1)随机产生n个个体组成一个群体,n个个体代表n种不同的超参数组合,将这些超参数组合作为输入带入XGBoost模型行中进行训练,根据(4.3)中的f1得分适应度函数计算出不同超参数组合下的适应度值(即群体中个体的适应度值),n个不同参数组合计算出来的适应度值为,,将画在圆盘上,值的大小表示圆盘上的面积。在转动轮盘的过程中,单个模块的面积越大被选中的概率越大。选择的方法是计算出每个个体的相对适应度的大小,每个概率值组成一个区域,群体中所有个体的概率值之和为1.然后产生n个0到1之间的随机数,依据该随机数出现在哪个概率区域内来确定各个个体被选中的次数。
经过选择操作将适应度较高的个体以大概率事件遗传给下一代,然后进行交叉和变异操作。交叉和变异操作都是产生新个体的操作。交叉概率Pc和变异概率Pm的值是影响遗传算法性能及收敛性的两个关键控制参数,因此合理设计两个控制参数的值,有利于遗传算法找到XGBoost检测模型的最佳超参数组合,并且能够跳出局部最优解找到全局最优解。如式(17)、(18)采用动态的交叉和变异概率,对遗传算法进行改进。
(4.5)终止条件判断
当遗传算法进行到以下三种情况时,会结束整个算法进程:
当迭代产生的新个体适应度值没有明显改善时;
当算法进行达到预先设定好的迭代次数时。
如果不满足终止条件,将返回(4.3)重新计算群体中个体的适应度,在进行遗传操作,当满足终止条件时,输出最佳的XGBoost检测模型的超参数组合。
步骤5:模型评估,建立用户异常用电在线检测模型
在步骤3的(3.1)中划分的测试集上对步骤4输出的XGBoost检测模型最佳超参数组合进行准确度测试,结果表明本发明在精确度、f1得分和AUC这些综合评价指标上有显著的提升。从模型在测试集上的表现显示了基于遗传算法超参数寻优的XGBoost模型在用户异常用电检测中的有效性。
将在线采集的数据经过步骤2的数据预处理,输入到训练之后的检测模型,获取模型检测结果,在给定阈值的情况下,判定是否发生异常用电。
上述方案,能够实现以下技术效果:
1.采用XGBoost模型对终端用户异常用电行为进行检测,具有较好的学习性能。异常用户检测能力大大提升,并且当终端用户有异常用电情况时,能够快速做出准确的检测。
2.XGBoost算法支持并行,是特征粒度上的并行。XGBoost在训练之前,预先对特征的值进行排序,然后保存了block结构,后面的迭代中重复使用这个结构,大大减少了计算量,这将提高模型对异常用电行为的检测时间。
3.XGBoost检测模型具有运行速度快,精度高。采用该模型对用电采集系统在线实时采集的数据可进行高效检测,识别出终端有异常用电行为的用户。
4.为了克服交叉验证以及网格搜索参数寻优等传统优化方法的缺点。采用遗传算法对XGBoost检测模型的参数进行调优,实现对多个XGBoost模型超参数的同时优化,最终得到具有性能优良的异常用电检测模型,提高了检测准确率。
请参阅图3,其示出了本申请一实施例提供的用户异常用电行为检测装置的结构框图。
如图3所示,用户异常用电行为检测装置200,包括处理模块210、训练模块220、优化模块230以及判断模块240。
其中,处理模块210,配置为响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;训练模块220,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;优化模块230,配置为基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;判断模块240,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
应当理解,图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户异常用电行为检测方法及装置;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用户异常用电行为检测装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至用户异常用电行为检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项用户异常用电行为检测方法。
图4是本发明实施例提供的电子设备的结构示意图,如图4所示,该设备包括:一个或多个处理器310以及存储器320,图4中以一个处理器310为例。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用户异常用电行为检测方法。输入装置330可接收输入的数字或字符信息,以及产生与用户异常用电行为检测装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于用户异常用电行为检测装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种用户异常用电行为检测方法,其特征在于,包括:
响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
2.根据权利要求1所述的一种用户异常用电行为检测方法,其特征在于,在基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合之后,所述方法还包括:
响应于获取的所述优化用电数据,对包含所述最佳超参数组合的XGBoost检测模型进行准确度测试。
3.根据权利要求1所述的一种用户异常用电行为检测方法,其特征在于,所述数据清洗包括删除所述用户原始数据中的冗余或无关数据。
4.一种用户异常用电行为检测装置,其特征在于,包括:
处理模块,配置为响应于获取的用户原始数据,对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理;
训练模块,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
优化模块,配置为基于遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
判断模块,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
5.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3任一项所述方法的步骤。
6.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至3任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257518.3A CN112633421A (zh) | 2021-03-09 | 2021-03-09 | 一种用户异常用电行为检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257518.3A CN112633421A (zh) | 2021-03-09 | 2021-03-09 | 一种用户异常用电行为检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112633421A true CN112633421A (zh) | 2021-04-09 |
Family
ID=75297787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110257518.3A Pending CN112633421A (zh) | 2021-03-09 | 2021-03-09 | 一种用户异常用电行为检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633421A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177598A (zh) * | 2021-05-06 | 2021-07-27 | 国网福建省电力有限公司 | 一种差错电量追补方法及终端 |
CN113256304A (zh) * | 2021-05-20 | 2021-08-13 | 山东大学 | 一种校园卡异常使用行为在线预警方法及系统 |
CN113361761A (zh) * | 2021-06-01 | 2021-09-07 | 山东大学 | 一种基于误差修正的短期风电功率集成预测方法及系统 |
CN113409166A (zh) * | 2021-08-19 | 2021-09-17 | 国网江西综合能源服务有限公司 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
CN113469428A (zh) * | 2021-06-24 | 2021-10-01 | 珠海卓邦科技有限公司 | 用水性质异常识别方法及装置、计算机装置及存储介质 |
CN113496440A (zh) * | 2021-06-28 | 2021-10-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113872186A (zh) * | 2021-09-06 | 2021-12-31 | 广西电网有限责任公司电力科学研究院 | 基于模仿学习的微电网控制策略推荐模型训练系统 |
CN115310999A (zh) * | 2022-06-27 | 2022-11-08 | 国网江苏省电力有限公司苏州供电分公司 | 基于多层感知机和排序网络的企业用电行为分析方法及系统 |
CN115935828A (zh) * | 2023-01-05 | 2023-04-07 | 北京志翔科技股份有限公司 | 电能表线损模型参数的确定方法、装置及电子设备 |
CN116402165A (zh) * | 2023-06-07 | 2023-07-07 | 之江实验室 | 一种算子检测的方法、装置、存储介质以及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185904A1 (en) * | 2015-12-29 | 2017-06-29 | 24/7 Customer, Inc. | Method and apparatus for facilitating on-demand building of predictive models |
CN109036561A (zh) * | 2018-07-10 | 2018-12-18 | 同济大学 | 一种基于行为信息的大学生心理状态评估方法 |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
CN110826617A (zh) * | 2019-10-31 | 2020-02-21 | 中国人民公安大学 | 态势要素分类方法及其模型的训练方法、装置及服务器 |
CN111179016A (zh) * | 2019-11-21 | 2020-05-19 | 国电南京自动化股份有限公司 | 一种售电套餐推荐方法、设备及存储介质 |
CN111178396A (zh) * | 2019-12-12 | 2020-05-19 | 国网北京市电力公司 | 用电异常用户的识别方法及装置 |
CN111242302A (zh) * | 2019-12-27 | 2020-06-05 | 冶金自动化研究设计院 | 一种智能参数优化模块的XGBoost预测方法 |
CN111967505A (zh) * | 2020-07-31 | 2020-11-20 | 武汉市教云慧智信息技术有限公司 | 一种面向智慧营销的随机森林模型的参数调优方法 |
-
2021
- 2021-03-09 CN CN202110257518.3A patent/CN112633421A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185904A1 (en) * | 2015-12-29 | 2017-06-29 | 24/7 Customer, Inc. | Method and apparatus for facilitating on-demand building of predictive models |
CN109036561A (zh) * | 2018-07-10 | 2018-12-18 | 同济大学 | 一种基于行为信息的大学生心理状态评估方法 |
CN109409433A (zh) * | 2018-10-31 | 2019-03-01 | 北京邮电大学 | 一种社交网络用户的人格识别系统和方法 |
CN110826617A (zh) * | 2019-10-31 | 2020-02-21 | 中国人民公安大学 | 态势要素分类方法及其模型的训练方法、装置及服务器 |
CN111179016A (zh) * | 2019-11-21 | 2020-05-19 | 国电南京自动化股份有限公司 | 一种售电套餐推荐方法、设备及存储介质 |
CN111178396A (zh) * | 2019-12-12 | 2020-05-19 | 国网北京市电力公司 | 用电异常用户的识别方法及装置 |
CN111242302A (zh) * | 2019-12-27 | 2020-06-05 | 冶金自动化研究设计院 | 一种智能参数优化模块的XGBoost预测方法 |
CN111967505A (zh) * | 2020-07-31 | 2020-11-20 | 武汉市教云慧智信息技术有限公司 | 一种面向智慧营销的随机森林模型的参数调优方法 |
Non-Patent Citations (3)
Title |
---|
任利强等: "基于优化聚类的IXGBoost短期电力负荷预测", 《计算机与数字工程》 * |
孙向阳: ""基于XGBoost算法的窃电用户行为研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
张又文等: "基于遗传算法优化XGBoost 的油浸式变压器故障诊断方法", 《电力自动化设备》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177598B (zh) * | 2021-05-06 | 2023-05-02 | 国网福建省电力有限公司 | 一种差错电量追补方法及终端 |
CN113177598A (zh) * | 2021-05-06 | 2021-07-27 | 国网福建省电力有限公司 | 一种差错电量追补方法及终端 |
CN113256304A (zh) * | 2021-05-20 | 2021-08-13 | 山东大学 | 一种校园卡异常使用行为在线预警方法及系统 |
CN113361761A (zh) * | 2021-06-01 | 2021-09-07 | 山东大学 | 一种基于误差修正的短期风电功率集成预测方法及系统 |
CN113469428A (zh) * | 2021-06-24 | 2021-10-01 | 珠海卓邦科技有限公司 | 用水性质异常识别方法及装置、计算机装置及存储介质 |
CN113496440B (zh) * | 2021-06-28 | 2023-12-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN113496440A (zh) * | 2021-06-28 | 2021-10-12 | 国网上海市电力公司 | 一种用户异常用电检测方法及系统 |
CN113589034B (zh) * | 2021-07-30 | 2023-08-08 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113589034A (zh) * | 2021-07-30 | 2021-11-02 | 南方电网科学研究院有限责任公司 | 一种配电系统的窃电检测方法、装置、设备和介质 |
CN113409166A (zh) * | 2021-08-19 | 2021-09-17 | 国网江西综合能源服务有限公司 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
CN113872186A (zh) * | 2021-09-06 | 2021-12-31 | 广西电网有限责任公司电力科学研究院 | 基于模仿学习的微电网控制策略推荐模型训练系统 |
CN115310999A (zh) * | 2022-06-27 | 2022-11-08 | 国网江苏省电力有限公司苏州供电分公司 | 基于多层感知机和排序网络的企业用电行为分析方法及系统 |
CN115310999B (zh) * | 2022-06-27 | 2024-02-02 | 国网江苏省电力有限公司苏州供电分公司 | 基于多层感知机和排序网络的企业用电行为分析方法及系统 |
CN115935828A (zh) * | 2023-01-05 | 2023-04-07 | 北京志翔科技股份有限公司 | 电能表线损模型参数的确定方法、装置及电子设备 |
CN116402165A (zh) * | 2023-06-07 | 2023-07-07 | 之江实验室 | 一种算子检测的方法、装置、存储介质以及电子设备 |
CN116402165B (zh) * | 2023-06-07 | 2023-09-01 | 之江实验室 | 一种算子检测的方法、装置、存储介质以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633421A (zh) | 一种用户异常用电行为检测方法及装置 | |
CN113409166A (zh) | 基于XGBoost模型的用户异常用电行为检测方法及装置 | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
US11650968B2 (en) | Systems and methods for predictive early stopping in neural network training | |
CN115018021B (zh) | 基于图结构与异常注意力机制的机房异常检测方法及装置 | |
CN112734128A (zh) | 一种基于优化rbf的7日电力负荷峰值预测方法 | |
CN114297036A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN112116198A (zh) | 数据驱动的流程工业状态感知网络关键节点筛选方法 | |
CN112085111B (zh) | 一种负荷辨识方法和装置 | |
CN114266301A (zh) | 基于图卷积神经网络的电力设备故障智能预测方法 | |
CN116401532B (zh) | 一种电力系统受扰后频率失稳识别方法及系统 | |
CN117110748A (zh) | 一种基于融合终端的变电站主设备运行状态异常检测方法 | |
CN112001644A (zh) | 一种配电网运行可靠性检测方法、装置、终端及存储介质 | |
El Maghraoui et al. | Smart energy management system: A comparative study of energy consumption prediction algorithms for a hotel building | |
US20220243347A1 (en) | Determination method and determination apparatus for conversion efficiency of hydrogen production by wind-solar hybrid electrolysis of water | |
CN116578551A (zh) | 一种基于gru-gan的电网数据修复方法 | |
CN111612149A (zh) | 一种基于决策树的主网线路状态检测方法、系统及介质 | |
CN114548493A (zh) | 一种电能表电流过载预测方法与系统 | |
CN116756575B (zh) | 基于bgain-dd网络的非侵入式负荷分解方法 | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
CN116937559A (zh) | 基于循环神经网络和张量分解的电力系统负荷预测系统和方法 | |
CN116910573A (zh) | 异常诊断模型的训练方法及装置、电子设备和存储介质 | |
CN116776209A (zh) | 一种关口计量装置运行状态辨识方法、系统、设备及介质 | |
CN115935814A (zh) | 一种基于arima-svm模型的变压器故障预测方法 | |
CN113627655B (zh) | 一种配电网灾前故障场景模拟预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |