CN113409166A - 基于XGBoost模型的用户异常用电行为检测方法及装置 - Google Patents
基于XGBoost模型的用户异常用电行为检测方法及装置 Download PDFInfo
- Publication number
- CN113409166A CN113409166A CN202110951916.5A CN202110951916A CN113409166A CN 113409166 A CN113409166 A CN 113409166A CN 202110951916 A CN202110951916 A CN 202110951916A CN 113409166 A CN113409166 A CN 113409166A
- Authority
- CN
- China
- Prior art keywords
- data
- xgboost
- user
- fitness
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 108
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 103
- 230000006399 behavior Effects 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 230000002068 genetic effect Effects 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000005457 optimization Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 42
- 230000035772 mutation Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 208000035126 Facies Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于XGBoost模型的用户异常用电行为检测方法及装置,方法包括:响应于获取的用户原始数据,基于边缘计算节点对用户原始数据进行数据预处理,使得到优化用电数据;响应于获取的优化用电数据,对训练模型进行训练并生成XGBoost检测模型;基于改进的遗传算法对XGBoost检测模型进行参数优化,使确定XGBoost检测模型的最佳超参数组合;将待检测数据输入XGBoost检测模型中,基于最佳超参数组合进行判断某一优化用电数据是否异常。利用改进的遗传算法进行超参数优化的XGBoost算法,对终端用户进行用电异常行为检测,在保护用户用电隐私的同时,大大提高了检测的准确性和快速性。
Description
技术领域
本发明属于电网反窃电技术领域,尤其涉及一种基于XGBoost模型的用户异常用电行为检测方法及装置。
背景技术
随着经济的快速发展,用户的用电需求不断增加,若用户用电行为异常将增大电网的非技术性损失,增加电力公司的运营成本。传统的用户异常用电行为检测方法是现场人员定期巡检线路、定期校验电表、用户举报等,这些手段对人的依赖性较大,需要投入大量的人力成本,同时,用电行为的检测耗时较长、效率较低。
目前,对于异常用电行为检测的研究主要分为基于状态和基于人工智能两类方法。基于状态的分析方法是通过实时比较配电网的功率、电压、电流等大量数据的变化来检测异常;基于人工智能的异常用电行为检测模型则首先通过数据分析提取可以反映异常用电行为的指标,再借助人工智能的方法训练指标与用电行为检测结果之间的映射关系,完成异常用电行为检测模型的构建。相关技术1:基于硬件的用户异常用电行为检测方法,使用摄像头、传感器及联网装置组成的复杂检测系统等外置监测装置实时监测供电设备是否遭到破坏、用电行为是否正常。该方法需要较高的设备成本,硬件设备容易受到天气等外在因素的干扰,设备维护较为困难,并且难以识别软件窃电、遥控窃电等异常用电行为。相关技术2:基于状态的用户异常用电行为检测方法,基于状态的用户异常用电行为检测方法主要是通过对比分析用户的用电量信息进行用户用电行为的检测,如对用户日用电量和日线损电量数据进行批量处理及相关度分析来识别台区用户窃电行为;综合对比分析同期线损、用电负荷、日用电量、电流及有功功率等电量信息,实现用户异常用电行为的精准检测等。但是在配电网的实际运行中,用户侧具有海量且多元的用电数据,异常用电行为也多种多样,基于状态的检测方法需要较长的检测时间。相关技术3:基于人工智能的用户异常用电行为检测方法,基于人工智能的用户异常用电行为检测方法是指借助人工智能方法和大量用电数据,训练用电行为检测模型,达到已知用户用电数据的情况快速识别用户用电行为是否异常的效果。如以正常用户用电数据为训练样本,采用自编码网络学习数据特征,重构输入数据以计算检测阈值,基于此建立对比误差与检测阈值的异常用电行为辨识模型等。该类方法在评价指标的选择、训练时间和检测效率的优化方面仍存在较大的提升空间。
但是上述方法存在以下问题:
1.借助摄像头,传感器等装置对供电设备进行实时监测的方法,成本较高,需要使用大量、昂贵的硬件来满足监控的需求,而且对于软件窃电,遥控窃电等现象,由于没有人的直接参与,装置的摄像头难以识别并报警。
2.对电气量状态进行实时监测的方法,难以及时处理配电网实际中的大量数据,耗时较长,且异常用电行为多样,容易发生误判。
3.现有的用户异常用电行为的识别方法为了提高识别精确度,常采用复杂的人工智能算法,从而造成会占用较多的运算资源,计算时间较长。
4.传统基于用户用电模式异常的识别方法需要检测装置上传用户的全部用电数据,由控制中心的识别模块对用电数据进行计算与识别,控制中心计算负荷较大且用户用电数据易被窃取,难以保护用户的用电隐私。
综上描述,亟需一种用户异常用电行为检测方法及装置,对异常用电检测模型进行优化,以提高检测准确率。
发明内容
本发明提供一种基于XGBoost模型的用户异常用电行为检测方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明提供一种基于XGBoost模型的用户异常用电行为检测方法,包括:响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中包含指数衰减的交叉概率和变异概率,所述指数衰减的交叉概率的表达式为:,式中,为交叉概率,为种群的适应度平均值,为两个交叉个体适应度较大者的适应度,、均为常数,且,为衰减系数,为当前的遗传迭代次数;所述指数衰减的变异概率的表达式为:,式中,为变异概率, 为变异个体的适应度,、均为常数,且;所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:,式中,为适应度函数,为权重系数,为精确率,为召回率,为超参数的个数;将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
第二方面,本发明提供一种基于XGBoost模型的用户异常用电行为检测装置,包括:处理模块,配置为响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录; 训练模块,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;优化模块,配置为基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中包含指数衰减的交叉概率和变异概率,所述指数衰减的交叉概率的表达式为:,式中,为交叉概率,为种群的适应度平均值,为两个交叉个体适应度较大者的适应度,、均为常数,且,为衰减系数,为当前的遗传迭代次数;所述指数衰减的变异概率的表达式为:,式中,为变异概率, 为变异个体的适应度,、均为常数,且;所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:,式中,为适应度函数,为权重系数,为精确率,为召回率,为超参数的个数;判断模块,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的基于XGBoost模型的用户异常用电行为检测方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的基于XGBoost模型的用户异常用电行为检测方法的步骤。
本申请的一种基于XGBoost模型的用户异常用电行为检测方法及装置,采用基于边缘计算节点的用户异常用电行为检测体系,包含用户隐私的关键用电数据在本地进行储存、分析和处理,只上传异常用电情况,能够有效保护用户隐私,并且利用改进的遗传算法进行超参数优化的XGBoost算法,对终端用户进行用电异常行为检测,在保护用户用电隐私的同时,大大提高了检测的准确性和快速性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于XGBoost模型的用户异常用电行为检测方法的流程图;
图2为本发明一实施例提供的又一种基于XGBoost模型的用户异常用电行为检测方法的流程图;
图3为本发明一实施例提供的一种基于XGBoost模型的用户异常用电行为检测装置的框图;
图4是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的一种基于XGBoost模型的用户异常用电行为检测方法的流程图。
如图1所示,基于XGBoost模型的用户异常用电行为检测方法具体包括:步骤S101,响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录。
在本实施例中,所述数据预处理包括数据清洗、缺失值处理以及数据降维,所述缺失值处理包括采用期望最大化插补法对缺失值进行处理,所述数据降维的具体步骤如下:对所述用户数据进行标准化,均值为0,方差为1;计算协方差矩阵以及所述协方差矩阵的特征值和与所述特征值对应的特征向量;对所述特征值按大小进行排序,选取所述特征值中最大的m个,将其对应的特征向量分别作为行向量组成特征向量矩阵;将所述用户数据转化至由m个特征向量构成的新空间中。采用数据清洗、缺失值处理和数据降维的数据预处理方法对终端采集的原始数据进行训练样本构造,使得原始数据更加完成,训练数据量大大减少,提高了模型的训练时间和检测精确度,并通过主成分分析法降低数据的维数,生成不失原有数据信息量的新特征数据,大大缩短了计算时间,使得模型检测能力提升。
步骤S102,响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型。
步骤S103,基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:
在本实施例中,采用指数衰减的交叉和变异概率对XGBoost检测模型的超参数寻优,其中,所述指数衰减的交叉概率的表达式为:,式中,为交叉概率,为种群的适应度平均值,为两个交叉个体适应度较大者的适应度,、均为常数,且,为衰减系数,为当前的遗传迭代次数;所述指数衰减的变异概率的表达式为:,式中,为变异概率, 为变异个体的适应度,、均为常数,且。提高了算法的优化效率,在迭代优化的早期,较大的交叉概率和变异概率,在迭代优化后期较小的交叉概率和变异概率有利于算法效率的提高,合理设计两个控制参数的值,有利于遗传算法找到XGBoost检测模型的最佳超参数组合,并且能够跳出局部最优解找到全局最优解。
步骤S104,将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
在本实施例中,采用构造函数为的遗传算法对XGBoost模型的超参数进行寻优,能够尽可能的解决由于超参数过多,对XGBoost模型造成影响的问题,进而通过考虑超参数的个数,实现了提高XGBoost模型寻优的准确度的目的,并基于XGBoost模型对终端用户的异常用电行为检测模型,可以快速且准确地识别出异常用电用户,使得供电侧能够及时止损。
综上,本实施例的方法,采用基于边缘计算节点的用户异常用电行为检测体系,包含用户隐私的关键用电数据在本地进行储存、分析和处理,只上传异常用电情况,能够有效保护用户隐私,并且利用改进的遗传算法进行超参数优化的XGBoost算法,对终端用户进行用电异常行为检测,在保护用户用电隐私的同时,大大提高了检测的准确性和快速性。
请参阅图2,其示出了本申请的又一种基于XGBoost模型的用户异常用电行为检测方法的流程图。
如图2所示,基于XGBoost模型的用户异常用电行为检测方法包括以下步骤:
步骤1:边缘节点检测装置采集数据
检测装置从用电采集系统和能量管理系统获取配电网系统电力用户的原始用电数据,其中包括用户的用电基本信息数据,终端的告警信息数据和该地区用户的窃电信息数据。
步骤2:边缘节点计算模块对数据预处理
(2.1)数据清洗:数据清洗是指删除原始数据中的冗余、无关数据,从而平滑数据噪声。公用事业等非居民用户一般不会存在异常用电行为,可将此类非居民用户的用电数据删除。
(2.2)缺失值处理:用电采集系统记录的数据会由于采集设备故障、传输丢包等原因存在部分缺失,若直接忽略缺失样本,会导致日线损率数据误差较大,从而降低异常用电行为检测模型的精确度。为了避免缺失值的影响,采用期望最大化(EM算法)插补法对缺失值进行处理。具体方法如下:首先第一步,在给定已观测得到的数据条件下,求缺失值的条件期望,利用得到的条件期望值对缺失数据进行插补;其次是第二步,做极大化估计,插补之后得到了一个完整的数据集,对该完整数据集的参数进行极大似然估计。
第一步:目的是求t+1次迭代的期望:
其中,观测数据为含有缺失值的不完整数据,为观测数据中未观测到的隐含数据,和连在一起称为完整数据。函数称为函数,是完整数据的对数似然函数关于在给定观测数据和当前参数下对隐含数据的条件概率分布的期望,为第t步迭代后得到的模型参数估计值,为第t+1步迭代后得到的模型参数估计值,为X和Z的联合概率分布,为在给定观测数据X和当前的参数估计下的隐变量Z的条件概率分布。
(2.3)数据降维:获取的原始数据的特征数量较多,这将会导致维数灾难,有的特征对异常用电的检测没有意义以及部分特征的相关度较高,不利于用户异常用电行为检测模型的训练和检测。采用主成分分析法对用电数据进行降维处理,使关系紧密的特征变成尽可能少的新特征,这些新特征是两两不相关的,因而可以用较少的特征指标代表原始数据中的重要信息。主成分分析法需要将输入的n维数据降到k维。具体实现方法如下:首先对原始数据进行标准化,均指为0,方差为1;其次计算协方差矩阵Cov,并计算协方差矩阵的特征值和对应的特征向量;然后对特征值按大小进行排序,选择其中最大的k个,将其对应的特征向量分别作为行向量组成特征向量矩阵P;最后将数据转换到由k个特征向量构成的新空间中。
步骤3:边缘节点判别模块构建基于XGBoost的用户异常用电行为检测模型
(3.1)模型输入
将经过预处理的样本数据集按8:2的比例划分为训练集和测试集,基于训练集训练XGBoost模型,测试集作为模型性能评价的输入数据。
(3.2)构建提升树
提升树(Boosted trees)是一种集成方法,XGBoost算法基于数据集D进行树的累加,每次迭代训练一棵树,并且采用CART回归树作为该模型的子树模型,一棵回归树的集合记为:
式中,q代表树的结构函数(即输入x输出叶子节点的索引),作用是:将输入映射到某个叶子节点,m为观测数据X的维数,T代表一棵树的叶子节点数量,为长度为T的一维向量,为树q各叶子节点的权重(即输入叶子节点索引输出叶子节点的权重),f代表CART树。
完成k棵树的训练时,基于XGBoost模型的预测值表示为:
对树的训练迭代过程是相互独立的,即原来的模型保持不变,将一个新的函数添加到模型中。一个函数对应一棵树,新生成的树拟合上次预测的残差,迭代过程如公式(5)所示。
(3.3)正则化目标函数
XGBoost的目标函数如式(6)、(7)所示:
式中:k为树的数量,是误差函数,是总训练误差,用来衡量预测值与真实值之间的偏差;是正则化项,是K棵树的总正则化项,用来衡量模型的复杂度,防止模型训练过拟合。为树第j个叶子节点的权重,为参数,分别用来控制叶子结点的个数和控制叶子节点的权重大小。
(3.4)节点切分算法
式中,加和的三项分别为左子树、右子树和不分割时的增益分数,当增益Gain<0时,放弃分割。
步骤4:利用遗传算法对XGBoost检测模型进行参数优化,确定模型最佳超参数组合。
本发明采用遗传算法对XGBoost用户异常用电行为检测模型进行参数优化,使得XGBoost检测模型在最佳参数组合下能有更为准确的检测能力。
(4.1)超参数编码
根据XGBoost模型调参经验,影响该模型检测效果的超参数主要有四个,分别是基分类器个数n、学习率、树的最大深度max_depth和最小叶子节点权重。将四个超参数视为遗传算法求解的变量个体,遗传算法的运算对象是表示个体的符号串,本发明用无符号的二进制整数来表示上述四个超参数。
基分类器个数n为1~100之间的整数,学习率为0~10之间整数的1/10,树的最大深度max_depth为3~10之间的整数 ,最小叶子节点权重为1~10之间的整数,分别用7位、4位、3位、4位无符号二进制整数来表示,将它们连接在一起组成18位无符号二进制数,形成了个体的基因型,表示一个可行解。例如,基因型x=0110101|0100|010|0110所对应的表现型是x=[53,4,2,6],通过变形,上述个体的表相型表示的超参数的取值为n=53,=0.4,max_depth=3+2=5, =6。因此个体的表现型和基因型之间通过编码和解码程序来相互转换。
(4.2)初始化种群
遗传算法是对种群进行的进化操作,在开始进化之前,需要初始化一些表示起始搜索点的群体数据,根据超参数编码中,个体的长度为18,将种群的数量设置为100~300,繁殖的代数为100代。将种群的大小取为200,即群体由200个个体组成,每个个体通过随机的方法产生。
(4.3)构建适应度函数
适应度表明个体或解的优劣性。通过适应度函数对每个个体进行评价,选择适应度值高的个体参与遗传操作,适应度值低的个体被淘汰。本发明利用遗传算法求解的是XGBoost检测模型的最佳参数组合,则适应度函数的选择根据是否有利于提升XGBoost模型检测异常用电的能力。而评价XGBoost模型性能优良的评价指标有准确率、f1得分和ROC曲线下的面积AUC。由于f1得分同时兼顾了检测模型的精确率和召回率,所以选择公式(17)得分作为适应度函数,其表示为:
式中:为适应度函数,precision为精确率,recall为召回率,TP为异常用电用户被正确检测的数目,FP表示非异常用电用户被正确检测的数目;FN为非异常用电用户被错误检测的数目,为权重系数,k为优化超参数的个数。
(4.4)通过选择、交叉与变异操作设计遗传算子,不断更新种群。
染色体种群的更新机制是通过选择算子、交叉算子、变异算子三个操作来设计遗传算子。初始化种群中设置的繁殖的代数为100次,每一代在遗传过程中都会产生不同的下一代个体,通过选择操作把当前群体中适应度较高的个体按照轮盘赌规则遗传到下一代群体。假设由超参数编码随机产生k个个体组成一个群体,k个个体代表k种不同的超参数组合,将这些超参数组合作为输入带入XGBoost模型行中进行训练,根据构建适应度函数中的适应度函数计算出不同超参数组合下的适应度值(即群体中个体的适应度值),k个不同参数组合计算出来的适应度值为,,将画在圆盘上,值的大小表示圆盘上的面积。在转动轮盘的过程中,单个模块的面积越大被选中的概率越大。选择的方法是计算出每个个体的相对适应度的大小,每个概率值组成一个区域,群体中所有个体的概率值之和为1,然后产生k个0到1之间的随机数,依据该随机数出现在哪个概率区域内来确定各个个体被选中的次数。
经过选择操作将适应度较高的个体以大概率事件遗传给下一代,然后进行交叉和变异操作。交叉和变异操作都是产生新个体的操作。交叉概率和变异概率的值是影响遗传算法性能及收敛性的两个关键控制参数,因此,为了提高算法的优化效率,在迭代优化的早期采用较大的和,在迭代优化后期采用较小的和,有利于算法效率的提高。合理设计两个控制参数的值,有利于遗传算法找到XGBoost检测模型的最佳超参数组合,并且能够跳出局部最优解找到全局最优解。如式(18)、(19)本发明采用指数衰减的交叉和变异概率,对遗传算法进行改进。
(4.5)终止条件判断
当遗传算法进行到以下三种情况时,会结束整个算法进程:
当迭代产生的新个体适应度值没有明显改善时;
当算法进行达到预先设定好的迭代次数时。
如果不满足终止条件,将返回构建适应度函数重新计算群体中个体的适应度,再进行遗传操作,当满足终止条件时,输出最佳的XGBoost检测模型的超参数组合。
步骤5 :边缘节点上传用户异常用电判断结果至数据管理中心,对判断结果为用电状态异常的用户进行报警、断电等动作。
步骤6:模型评估,建立用户异常用电在线检测模型
在步骤3的模型输入中划分的测试集上对步骤4输出的XGBoost检测模型最佳超参数组合进行准确度测试,结果表明本发明在精确度、f1得分和AUC这些综合评价指标上有显著的提升。从模型在测试集上的表现显示了基于遗传算法超参数寻优的XGBoost模型在用户异常用电检测中的有效性。
将在线采集的数据经过步骤2的数据预处理,输入到训练之后的检测模型,获取模型检测结果,在给定阈值的情况下,判定是否发生异常用电。
上述方案,能够实现以下技术效果:
1.建立基于边缘计算的用户异常用电行为检测体系,包含用户隐私的关键用电数据在本地进行储存、分析和处理,只上传异常用电情况,能够有效保护用户隐私。
2.设计检测系统在用户侧边缘节点进行电量数据的预处理,能够分担数据处理中心的计算负荷;在更加精细的时间粒度情景下,边缘节点在本地对电量数据进行处理,只上传少量的关键信息,减少通信中的数据量,降低带宽与通信需求。
3.本发明采用XGBoost模型对终端用户异常用电行为进行检测,具有较好的学习性能。异常用户检测能力大大提升,并且当终端用户有异常用电情况时,能够快速做出准确的检测。
4.XGBoost算法支持并行,是特征粒度上的并行。XGBoost在训练之前,预先对特征的值进行排序,然后保存了block结构,后面的迭代中重复使用这个结构,大大减少了计算量,这将提高模型对异常用电行为的检测时间。
5.为了克服交叉验证以及网格搜索参数寻优等传统优化方法的缺点。本发明采用遗传算法对XGBoost检测模型的参数进行调优,实现对多个XGBoost模型超参数的同时优化,最终得到具有性能优良的异常用电检测模型,提高了检测准确率。
请参阅图3,其示出了本申请的一种基于XGBoost模型的用户异常用电行为检测装置的框图。
如图3所示,用户异常用电行为检测装置200,包括处理模块210、训练模块220、优化模块230以及判断模块240。
其中,处理模块210,配置为响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;训练模块220,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;优化模块230,配置为基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中包含指数衰减的交叉概率和变异概率,所述指数衰减的交叉概率的表达式为:,式中,为交叉概率,为种群的适应度平均值,为两个交叉个体适应度较大者的适应度,、均为常数,且,为衰减系数,为当前的遗传迭代次数;所述指数衰减的变异概率的表达式为:,式中,为变异概率,为变异个体的适应度,、均为常数,且;所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:,式中,为适应度函数,为权重系数,为精确率,为召回率,为超参数的个数;判断模块240,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
应当理解,图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户异常用电行为检测方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
图4是本发明实施例提供的电子设备的结构示意图,如图4所示,该设备包括:一个或多个处理器310以及存储器320,图4中以一个处理器310为例。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用户异常用电行为检测方法。输入装置330可接收输入的数字或字符信息,以及产生与用户异常用电行为检测装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于用户异常用电行为检测装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合;
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于XGBoost模型的用户异常用电行为检测方法,其特征在于,包括:
响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;
响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中包含指数衰减的交叉概率和变异概率,所述指数衰减的交叉概率的表达式为:
所述指数衰减的变异概率的表达式为:
所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:
将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
2.根据权利要求1所述的一种基于XGBoost模型的用户异常用电行为检测方法,其特征在于,所述数据预处理包括数据清洗、缺失值处理以及数据降维。
5.一种基于XGBoost模型的用户异常用电行为检测装置,其特征在于,包括:
处理模块,配置为响应于获取的用户原始数据,基于边缘计算节点对所述用户原始数据进行数据预处理,使得到优化用电数据,其中,所述用户原始数据包括用户历史用电数据以及终端设备异常用电记录;
训练模块,配置为响应于获取的所述优化用电数据,对训练模型进行训练并生成XGBoost检测模型;
优化模块,配置为基于改进的遗传算法对所述XGBoost检测模型进行参数优化,使确定所述XGBoost检测模型的最佳超参数组合,其中,所述改进的遗传算法中包含指数衰减的交叉概率和变异概率,所述指数衰减的交叉概率的表达式为:
所述指数衰减的变异概率的表达式为:
所述改进的遗传算法中的步骤包括构建适应度函数,所述适应度函数的表达式为:
判断模块,配置为将待检测数据输入所述XGBoost检测模型中,基于所述最佳超参数组合进行判断某一优化用电数据是否异常。
6.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110951916.5A CN113409166A (zh) | 2021-08-19 | 2021-08-19 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110951916.5A CN113409166A (zh) | 2021-08-19 | 2021-08-19 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113409166A true CN113409166A (zh) | 2021-09-17 |
Family
ID=77688820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110951916.5A Pending CN113409166A (zh) | 2021-08-19 | 2021-08-19 | 基于XGBoost模型的用户异常用电行为检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409166A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114089257A (zh) * | 2021-10-27 | 2022-02-25 | 国网湖南省电力有限公司 | 一种电能表烧表在线监测方法、系统及介质 |
CN114092768A (zh) * | 2021-11-30 | 2022-02-25 | 苏州浪潮智能科技有限公司 | 一种训练模型组中训练模型的筛选方法、装置及电子设备 |
CN114664451A (zh) * | 2022-05-19 | 2022-06-24 | 浙江省肿瘤医院 | 用于预测直肠癌患者术后出院准备度的模型 |
CN114839586A (zh) * | 2022-05-12 | 2022-08-02 | 烟台东方威思顿电气有限公司 | 基于em算法的低压台区计量装置失准计算方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111024158A (zh) * | 2019-12-23 | 2020-04-17 | 广东工业大学 | 一种结合边缘计算的厨电危险智能监测方法 |
CN111179016A (zh) * | 2019-11-21 | 2020-05-19 | 国电南京自动化股份有限公司 | 一种售电套餐推荐方法、设备及存储介质 |
CN111242302A (zh) * | 2019-12-27 | 2020-06-05 | 冶金自动化研究设计院 | 一种智能参数优化模块的XGBoost预测方法 |
US20200250547A1 (en) * | 2019-02-01 | 2020-08-06 | Arizona Board Of Regents On Behalf Of University Of Arizona | Behavioral application detection system |
CN111986100A (zh) * | 2020-07-04 | 2020-11-24 | 国网山西省电力公司电力科学研究院 | 一种基于自适应遗传算法改进的pcnn图像去噪优化方法 |
CN112632532A (zh) * | 2020-12-28 | 2021-04-09 | 重庆邮电大学 | 边缘计算中基于深度森林的用户异常行为检测方法 |
CN112633421A (zh) * | 2021-03-09 | 2021-04-09 | 国网江西综合能源服务有限公司 | 一种用户异常用电行为检测方法及装置 |
-
2021
- 2021-08-19 CN CN202110951916.5A patent/CN113409166A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250547A1 (en) * | 2019-02-01 | 2020-08-06 | Arizona Board Of Regents On Behalf Of University Of Arizona | Behavioral application detection system |
CN111179016A (zh) * | 2019-11-21 | 2020-05-19 | 国电南京自动化股份有限公司 | 一种售电套餐推荐方法、设备及存储介质 |
CN111024158A (zh) * | 2019-12-23 | 2020-04-17 | 广东工业大学 | 一种结合边缘计算的厨电危险智能监测方法 |
CN111242302A (zh) * | 2019-12-27 | 2020-06-05 | 冶金自动化研究设计院 | 一种智能参数优化模块的XGBoost预测方法 |
CN111986100A (zh) * | 2020-07-04 | 2020-11-24 | 国网山西省电力公司电力科学研究院 | 一种基于自适应遗传算法改进的pcnn图像去噪优化方法 |
CN112632532A (zh) * | 2020-12-28 | 2021-04-09 | 重庆邮电大学 | 边缘计算中基于深度森林的用户异常行为检测方法 |
CN112633421A (zh) * | 2021-03-09 | 2021-04-09 | 国网江西综合能源服务有限公司 | 一种用户异常用电行为检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
娄山佐等: "大规模实时车辆调度模型与遗传算法设计", 《可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(上册)》 * |
孙向阳: "基于XGBoost算法的窃电用户行为研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
赵琳等: "改进观测质量加权约束的自适应遗传算法选站研究", 《第十二届中国卫星导航年会论文集——S04 卫星轨道与系统误差处理》 * |
陈小锋等: "城市交通干线信号动态优化控制方法", 《西北工业大学学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114089257A (zh) * | 2021-10-27 | 2022-02-25 | 国网湖南省电力有限公司 | 一种电能表烧表在线监测方法、系统及介质 |
CN114089257B (zh) * | 2021-10-27 | 2023-08-18 | 国网湖南省电力有限公司 | 一种电能表烧表在线监测方法、系统及介质 |
CN114092768A (zh) * | 2021-11-30 | 2022-02-25 | 苏州浪潮智能科技有限公司 | 一种训练模型组中训练模型的筛选方法、装置及电子设备 |
CN114092768B (zh) * | 2021-11-30 | 2024-09-20 | 苏州浪潮智能科技有限公司 | 一种训练模型组中训练模型的筛选方法、装置及电子设备 |
CN114839586A (zh) * | 2022-05-12 | 2022-08-02 | 烟台东方威思顿电气有限公司 | 基于em算法的低压台区计量装置失准计算方法 |
CN114664451A (zh) * | 2022-05-19 | 2022-06-24 | 浙江省肿瘤医院 | 用于预测直肠癌患者术后出院准备度的模型 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633421A (zh) | 一种用户异常用电行为检测方法及装置 | |
CN113409166A (zh) | 基于XGBoost模型的用户异常用电行为检测方法及装置 | |
US11650968B2 (en) | Systems and methods for predictive early stopping in neural network training | |
CN114297936A (zh) | 一种数据异常检测方法及装置 | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN115018021B (zh) | 基于图结构与异常注意力机制的机房异常检测方法及装置 | |
US10379146B2 (en) | Detecting non-technical losses in electrical networks based on multi-layered statistical techniques from smart meter data | |
CN114297036B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN115063588A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN108919059A (zh) | 一种电网故障诊断方法、装置、设备及可读存储介质 | |
CN112085111B (zh) | 一种负荷辨识方法和装置 | |
CN116401532B (zh) | 一种电力系统受扰后频率失稳识别方法及系统 | |
CN114266301A (zh) | 基于图卷积神经网络的电力设备故障智能预测方法 | |
CN116186630A (zh) | 一种异常漏电电流数据识别方法及相关装置 | |
CN117674119A (zh) | 电网运行风险评估方法、装置、计算机设备和存储介质 | |
CN117368784A (zh) | 一种基于特征压缩的电池健康状态预测方法 | |
CN116776209A (zh) | 一种关口计量装置运行状态辨识方法、系统、设备及介质 | |
CN116910573A (zh) | 异常诊断模型的训练方法及装置、电子设备和存储介质 | |
CN115146715B (zh) | 用电安全隐患诊断方法、装置、设备及存储介质 | |
CN116483602A (zh) | 一种异常检测方法、装置以及计算机存储介质 | |
CN112988527A (zh) | Gpu管理平台异常检测方法、装置以及存储介质 | |
Pisica et al. | Feature selection filter for classification of power system operating states | |
CN113128130B (zh) | 一种判断直流配电系统稳定性的实时监测方法及装置 | |
Tursunboev et al. | Multi-Objective Evolutionary Hybrid Deep Learning for energy theft detection | |
Zhao et al. | Research on machine learning-based correlation analysis method for power equipment alarms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210917 |
|
RJ01 | Rejection of invention patent application after publication |