CN114841268B - 基于Transformer和LSTM融合算法的异常电力客户识别方法 - Google Patents

基于Transformer和LSTM融合算法的异常电力客户识别方法 Download PDF

Info

Publication number
CN114841268B
CN114841268B CN202210485657.6A CN202210485657A CN114841268B CN 114841268 B CN114841268 B CN 114841268B CN 202210485657 A CN202210485657 A CN 202210485657A CN 114841268 B CN114841268 B CN 114841268B
Authority
CN
China
Prior art keywords
data
customer
lstm
algorithm
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210485657.6A
Other languages
English (en)
Other versions
CN114841268A (zh
Inventor
许高俊
吴伟将
钱旭盛
缪猛
张轩城
陈可
向敏
肖智亮
张媛媛
梁彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Original Assignee
State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co ltd Marketing Service Center filed Critical State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority to CN202210485657.6A priority Critical patent/CN114841268B/zh
Publication of CN114841268A publication Critical patent/CN114841268A/zh
Application granted granted Critical
Publication of CN114841268B publication Critical patent/CN114841268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Transformer和LSTM融合算法的异常电力客户识别方法,基于业务规则对客户用电采集信息进行数据清洗及数据规约处理;利用基于信息熵的混合数据属性加权聚类算法对电力客户进行类型划分;建立各类型客户的统计特征和频域特征;利用Transformer算法建立各类型客户深度特征;基于客户统计特征、频域特征以及深度特征,通过LSTM算法识别各类型异常电力客户;基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。本发明可以实现低压用户异常用电行为智能分析,提高反窃电工作的效率和精准度。

Description

基于Transformer和LSTM融合算法的异常电力客户识别方法
技术领域
本发明涉及电力领域,具体地,涉及一种基于Transformer和LSTM融合算法的异常电力客户识别方法。
背景技术
目前低压用户体量大,异常用电行为包括窃电、计量装置故障、装接差错等存在易频发现象,尤其是窃电行为实施门槛低,呈数量较大且分散现状,已有的监控分析模型数据分析维度单一、精准度不高,难以支撑营销业务管控高效运转要求。
如何准确高效地挖掘异常用电用户,是营销稽查反窃查违管理工作提升的首要关键环节。借助营销2.0和用采2.0系统不断深化应用契机,利用双中台优势,充分应用大数据分析及人工智能成果,大力研发精准度和效率高的用电异常智能化识别模型,进一步提升用电异常特征提取和线索挖掘能力,助力营销稽查反窃查违数字化转型。
因此,本发明提出一种于Transformer和LSTM融合算法的异常电力客户识别方法。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种于Transformer和LSTM融合算法的异常电力客户识别方法,以实现低压用户异常用电行为智能分析,提高反窃电工作的精准度。
本发明采用如下的技术方案。
一种基于Transformer和LSTM融合算法的异常电力客户识别方法,所述方法包括步骤:
(1)基于业务规则对客户用电采集信息进行数据清洗及数据规约处理;
(2)利用基于信息熵的混合数据属性加权聚类算法对电力客户进行类型划分;
(3)建立各类型客户的统计特征和频域特征;
(4)利用Transformer算法建立各类型客户深度特征;
(5)基于客户统计特征、频域特征以及深度特征,通过LSTM算法识别各类型异常电力客户;
(6)基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。
进一步地,步骤1包括:
(1.1)客户用电量数据的甄别和填补;
(1.2)用户电流、电压、功率数据甄别与填补。
进一步地,步骤2包括:
(2.1)计算混合数据信息熵的属性权重;
(2.2)寻找聚类过程中的最坏类指标;
(2.3)计算聚类有效指标及混合数据相异性;
(2.4)基于以上权重、有效指标和相异性进行混合数据的加权聚类,得到划分类型后的客户群体。
进一步地,步骤2.1,计算混合数据信息熵的属性权重,分别计算数值属性权重及分类属性权重,且数值属性权重及分类属性权重之后为1,满足总体权重设置要求。
进一步地,步骤3包括:
(3.1)通过统计学分析工具计算划分客户集合中的C1,C2,…,Ck的统计特征;
(3.2)通过傅里叶变化得到划分客户集合中的C1,C2,…,Ck的频域特征。
进一步地,客户类型的统计特征包含最大值、最小值、均值、中位数、偏度、峰度、方差、标准差、均方误差、均方根误差;
客户类型的频域特征包含频谱最大频率、频谱最小频率、频域幅值平均值、重心频率、均方频率、频率方差、均方根频率、频率幅值方差、频域幅值偏度指标、频率标准差。
进一步地,步骤4包括:
(4.1)进行数据剪裁与采样;
(4.2)将处理过的数据输入Encoder进行编码;
(4.3)利用Decoder对编码内容进行解码,并核对输出结果;
(4.4)基于核对结果,进行电力客户深度特征提取。
进一步地,步骤4.1,将N×M的混合数据转化为N个一维数据时间序列Q,对一维时间序列Q采样处理,使其成为具有196个元素的一维时间序列,为保证采样数据的均衡性,对一维时间序列Q将进行系统随机抽样,作为算法的输入向量。
进一步地,步骤4.4,将结果与输入数据核对,进而从特征提取器中提取出深度特征T:
T={T1,T2,…Tn},n=(1,2,…,256)
对特征进行人工分类为进行客户异常行为分析识别提供数据依据。
进一步地,步骤5包括:
(5.1)进行数据整合,整合统计特征、频域特征以及深度特征并定义LSTM网络;
(5.2)设置分类激活函数,并将简单序列转换为高效的矩阵变换序列,通过随机梯度下降算法和均值误差损失函数培训神经网络;
(5.3)设置输入模式矩阵X和匹配输出模型数组Y,使用反向传播算法训练网络;
(5.4)输入测试集,利用已经训练完毕的模型进行效果评估;
(5.5)将需要预测的用电客户输入拟合模型,得到各个类型客户不同数据维度下的疑似异常客户。
进一步地,步骤5.1,将提取的统计特征S={S1,S2,…,Sn},n=(1,2,…,10),频域特征P={P1,P2,…,Pn},n=(1,2,…,10)以及深度特征T={T1,T2,…Tn},n=(1,2,…,256)整合成一个(1*276)的时序向量L={S1,…,S10,P1,…,P10,T1,…,T256},将其作为LSTM算法的输入向量。
进一步地,步骤5.5,将输入数据整合之后形成疑似用户输出结果Result={id,label},label=(0或1),得到每个客户的窃电标签,其中,0代表正常用户,1代表异常用电客户。
本发明的有益效果在于,与现有技术相比,本发明基于业务规则对建模数据清洗及数据规约处理,得到可用数据。利用基于信息熵的混合数据属性加权聚类算法对电力客户进行客户划分,就每个类型客户进行深入分析。建立各类型客户的统计特征和频域特征,利用Transformer算法建立各类型客户深度特征。基于客户统计、频域以及深度特征,通过LSTM算法识别各类型异常电力客户,基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。
本发明方法可以实现低压用户异常用电行为智能分析,提高反窃电工作的精准度。
附图说明
图1为本发明实提供的基于Transformer和LSTM融合算法的异常电力客户识别方法流程图;
图2为本发明利用基于信息熵的混合数据属性加权聚类算法对电力客户进行客户划分的流程图;
图3为本发明建立各类型客户的统计特征和频域特征的流程图;
图4为本发明利用Transformer算法建立各类型客户深度特征的流程图;
图5为本发明通过LSTM算法识别各类型异常电力客户的流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,包括以下步骤:
(1)基于业务规则对客户用电采集信息进行数据清洗及数据规约处理;
依据客户用电信息采集数据类型的差异,针对客户用电量、电流、电压以及功率等数据分别提出相应的甄别和填补方法。
(1.1)客户用电量数据的甄别和填补方法;
用电量出现负值:若Rt-Rt-1<K(K值设为0),则表示用电量数据异常,其中,Rt为当天电能示值,Rt-1为前一天的电能示值。
用电量飞走:若(Rt-Rt-1)/(Imax*Un*24)>K(K值一般设为0.6),则表示用电量数据出现飞走现象,其中,Rt为当天正向有功总电能示值,Rt-1为前一天的正向有功总电能示值,Imax为电能表额定电流,Un电能表额定电压。
用电量数据不平衡:若|R-(R1+R2+R3+R4)|>K(K值一般设为0.3),则说明用电量各个分支数据不平衡,其中,R为总电势能,R1-R4为各费率的电能示值。
若用电量数据出现上述异常现象,则通过前后n天的数据进行修正。用电量修正规则:
Figure BDA0003629803230000051
其中,R为修正数据;R1-Rn表示待修正数据的前1-n天的用电量;X1-Xn-1表示各个时序列对应的数据权重。
(1.2)用户电流、电压、功率数据甄别与填补;
电流:电流数据出现一次电流>额定电流*Kmax或一次电流<额定电流*Kmin,其中,Kmax一般设为1.6,Kmin设为0.2;则认为电流数据异常。
电压:电压数据出现一次电压>额定电压*Kmax或一次电压<额定电压*Kmin,其中,Kmax一般设为1.6,Kmin设为0.2;则认为电压数据异常。
功率:测量点一次功率/合同容量>K,K值一般设为2或总加组功率/合同容量>K,K一般设为4;则认为功率数据异常。
若电流、电压、功率等数据其中一项出现异常,可用其他两项进行计算填补;如都出现异常,则通过该项数据其他时间序列数据进行均值调补。
(2)利用基于信息熵的混合数据属性加权聚类算法对电力客户进行客户类型划分;
如图2所示,首先利用信息熵度量数据混乱程度,明确数值型和分类型数据的平均类间熵并计算混合数据权重;最后通过优化K-prototypes聚类算法,结合清洗规约后的客户用电量、电流、电压以及功率数据,得到划分类型后的客户群体。
(2.1)计算混合数据信息熵的属性权重;
电力客户混合数据权重由数值数据和分类数据组成,要计算混合数据就要针对数值数据和分类数据分别计算。
设X={x1,x2,…,xN}是一个混合数据集,其中包括电力客户的用电量、电流、电压等数据,在聚类过程中该数据被分为k类,即Ck={C1,C2,…,Ck}。
在属性At(1≤t≤q)下,对于任意一类Ck'∈Ck,数值属性
Figure BDA0003629803230000061
的权重
Figure BDA0003629803230000062
及分类属性
Figure BDA0003629803230000063
的权重
Figure BDA0003629803230000064
分别定义为:
Figure BDA0003629803230000065
Figure BDA0003629803230000066
由上式可知
Figure BDA0003629803230000067
满足总体权重设置要求。
(2.2)寻找最坏类广义机制;
该部分的目标函数需要将数值、分类属性的数目和类内熵对于聚类的影响,因此需要重新定义目标函数。聚类过程中该数据被分为k类,即Ck={C1,C2,…,Ck}。
在属性At(1≤t≤q)下,对于任意一类Ck'∈Ck,缺失类Ck'后,其余的类间熵的和
Figure BDA0003629803230000068
为:
Figure BDA0003629803230000069
其中,
Figure BDA0003629803230000071
Figure BDA0003629803230000072
缺失类的类间熵的和
Figure BDA0003629803230000073
越大,表明缺失该类之后的混乱程度越大,即该类对总类间熵和的影响越小,基于上述
Figure BDA0003629803230000074
给出最坏类的构成机制:
Figure BDA0003629803230000075
通过上述步骤可以计算出聚类过程中的最坏类指标。
(2.3)计算聚类有效指标及混合数据相异性,基于上述混合数据对于权重的定义,需要重新定义聚类评估指标和相异性。其中,混合数据的聚类有效指标为:
CUM(Ck)=uCUN(Ck)+vCUC(Ck)
其中,
Figure BDA0003629803230000076
混合数据的相异性为:
Figure BDA0003629803230000077
(2.4)基于以上权重、有效指标和相异性进行混合数据的加权聚类,得到划分类型后的客户群体;其具体步骤如下:
输入:样本集合D={x1,x2,…,xm};聚类簇数k;
过程:
Step1:从D中随机选择k个样本作为初始质心{u1,u2,…,uk};
Step2:把k类中每一个属性的权重初始化为相同值,即任意一个类在属性A的权重都为1/m;
Step3:
Figure BDA0003629803230000078
其中,xi为任意对象,zi表示为中心类,WD(xi,zi)为类C1的加权相异度度量值,根据该式计算对象与类中心之间的相异度,并将其划分到距离该对象最近的聚类中心。
Step4:通过计算同一类中对象取值的平均值得到数值属性部分,通过计算模糊中心得到分类属性部分,并以此更新聚类中心;
Step5:计算各个类在数值和分类型数据部分属性权重;
Step6:重复3~5过程,直到最终目标函数不在发生变化;
输出:电力客户混合数据的簇划分集合C={C1,C2,…,Ck}。
基于信息熵的混合数据属性聚类算法可以更加精准的度量对象与类之间的相异度,其次在信息熵框架下可以构建聚类结果中类内抱团性和类间分离度的统一度量机制,形成新的属性加强方法,最后,优化K-Prototypes算法可提高混合数据的聚类性能,实现对于海量客户的精准聚类。
(3)建立各类型客户的统计特征和频域特征;
如图3所示,以客户用电量数据为例,通过统计学分析工具和傅里叶算法对每个类型的客户群体建立统计特征和频域特征。
(3.1)分别计算划分客户C={C1,C2,…,Ck}集合中的C1,C2,…,Ck的统计特征;
例如,客户类型C1中的混合数据为X={x1,x2,…,xN},其中包含用电量、电压、电流等数据,客户类型C1的统计特征为S={S1,S2,…,Sn},n=(1,2,…,10),其中S分别表示为最大值S1、最小值S2、均值S3、中位数S4、偏度S5、峰度S6、方差S7、标准差S8、均方误差S9、均方根误差S10
其中,
S1=max(x1,x2,…,xn)
S2=min(x1,x2,…,xn)
Figure BDA0003629803230000081
n为奇数
Figure BDA0003629803230000091
n为偶数
Figure BDA0003629803230000092
Figure BDA0003629803230000093
Figure BDA0003629803230000094
Figure BDA0003629803230000095
Figure BDA0003629803230000096
Figure BDA0003629803230000097
其中,u均值,σ为标准差,E为均值函数,u3为三阶中心距,u4为四阶标准距,
Figure BDA0003629803230000098
为样本均值,Xi为样本数据,xi为真实数据;
均方误差S9用其来度量样本之间的偏离程度,均方根误差S10用其来度量样本之间的偏离程度。
(3.2)通过傅里叶变化得到划分客户C={C1,C2,…,Ck}集合中的C1,C2,…,Ck的频域特征;
例如,客户类型C1中的混合数据为X={x1,x2,…,xN},其中包含用电量、电压、电流等数据,客户类型C1的频域特征为P={P1,P2,…,Pn},n=(1,2,…,10),其中P分别表示为频谱最大频率P1、频谱最小频率P2、频域幅值平均值P3、重心频率P4、均方频率P5、频率方差P6、均方根频率P7、频率幅值方差P8、频域幅值偏度指标P9、频率标准差P10;该部分特征主要通过傅里叶算法求得。
其中,
P1=max(s(k))
P2=min(s(k))
Figure BDA0003629803230000101
Figure BDA0003629803230000102
Figure BDA0003629803230000103
Figure BDA0003629803230000104
Figure BDA0003629803230000105
Figure BDA0003629803230000106
Figure BDA0003629803230000107
Figure BDA0003629803230000108
其中,s(k)为傅里叶变化函数,fk为密度函数。
(4)利用Transformer算法建立各类型客户深度特征;
如图4所示,以客户用电量数据为例,依据Transformer算法要求将每一个客户的用电量数据裁剪成符合算法输入要求的数据格式并添加窃电标签,将其放入网络中进行训练并输入符合精度要求的输出,核对输出结果,提取解码器中的特征作为该客户用电量数据的深度特征。
(4.1)数据剪裁与采样;
由于Transformer算法输入为指定3个维度为(1*196)的数据,因此需要对原始混合数据X={x1,x2,…,xN}进行裁剪。X={x1,x2,…,xN}为N×M的混合数据矩阵,N为客户数量,M为数据维度。
根于算法需求,依据时间标准,将X={x1,x2,…,xN}转化为N个一维数据时间序列Q={q11,q12,…,qij,Ci},i∈[1,365],j∈[1,M],Ci为该客户的窃电标签(0/1)。对一维时间序列Q采样处理,使其成为具有196个元素的一维时间序列,为保证采样数据的均衡性,对Q将进行10次系统随机抽样,每次抽取三个一维时间序列Q1、Q2、Q3,将其作为算法的输入向量。
(4.2)将处理过的数据输入Encoder进行编码;
输入向量Q1、Q2、Q3首先通过Self-Attention模块进行计算,得到特征向量Z,该过程通过下式计算:
Figure BDA0003629803230000111
之后将特征向量Z输送到下一模块Feed Forward Neural Network,该层会全连接层,其具有两层结构,第一层为激活系数,第二次为线性激活函数,可表示为:
FFN(Z)=max(0,ZW1+b1)W2+b2
其中,W1为激活系数,W2为线性激活函数的斜率。通过计算得到编码后的时序向量FFN(Z),并作为输入,进入Decoder结构中。
(4.3)利用Decoder对编码内容进行解码,并核对输出结果;
Decoder相较于Encoder多了Encoder-Decoder Attention模块,用于计算输入和输出的权值。
(4.4)基于核对结果,进行电力客户深度特征提取;
输入向量先进入编码器中的Muti-Head Attention(由多个Self-Attention构成),将输入分别传递到不同的Self-Attention中,并计算得到多个输出矩阵Z,将多个Z合并传入下一个Linear层,得到最终输出Z,与此同时还需要经过激活函数和残差连接层,之后到解码器中,经过和编码器中相同的过程后最终得到结果,并将结果与输入数据核对,进而从特征提取器中提取出深度特征T。
T={T1,T2,…Tn},n=(1,2,…,256)
将各个类型用户的基础数据、用户用电特征、用户异常信息、电流电压功率曲线等数据作为输入,通过Transformer深度学习框架,将每个维度数据对于用户群体分类的最大贡献度作为目标,输出一系列特征,就这些特征进行人工分类,为建立客户异常行为分析识别模型提供数据依据。
Transformer算法是以encoder/decoder架构为基础,在Encoder和Decoder中都使用了Self-attention,Point-wise和全连接层。
在Transformer深度学习算法中最重要的部分为Self-Attention结构,多个Self-Attention结构可以构成Multi-Head Attention,在Encoder中就包含一个Multi-HeadAttention,在Decoder中则包含两个Multi-Head Attention,其中一个用于Masked。在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中,Self-Attention接收的是输入(单词的表示向量x组成的矩阵X)或者上一个Encoder block的输出。而Q、K、V正是通过Self-Attention的输入进行线性变换得到的。
(5)基于客户统计特征、频域特征以及深度特征,通过LSTM算法识别各类型异常电力客户;
如图5所示,将统计、频域以及深度特征输入LSTM网络中,经过编写网络参数、Fit网络、评估网络等步骤后做出预测,得到每个类型客户基于用电量、电流、电压、功率等数据的疑似异常用户。
(5.1)进行数据整合,整合统计特征、频域特征以及深度特征并定义LSTM网络;
将提取的统计特征S={S1,S2,…,Sn},n=(1,2,…,10),频域特征P={P1,P2,…,Pn},n=(1,2,…,10)以及深度特征T={T1,T2,…Tn},n=(1,2,…,256)整合成一个(1*276)的时序向量L={S1,…,S10,P1,…,P10,T1,…,T256},将其作为LSTM算法的输入向量。
(5.2)编写网络参数:设置分类激活函数,并将简单序列转换为高效的矩阵变换序列,通过随机梯度下降算法和均值误差损失函数培训神经网络;
(5.3)Fit网络:设置输入模式矩阵X和匹配输出模型数组Y,使用反向传播算法训练网络;
(5.4)评估网络:输入测试集,利用已经训练完毕的模型进行效果评估;
(5.5)做出预测:将需要预测的用电客户输入拟合模型,得到各个类型客户不同数据维度下的疑似异常客户。
将输入数据整合之后形成疑似用户输出结果Result={id,label},label=(0或1),最终得到每个客户的窃电标签,其中,0代表正常用户,1代表异常用电客户。
LSTM长短期记忆网络算法是一种特殊的RNN,其可以规避标准RNN中梯度爆炸和梯度消失的问题,实现对长期依赖性进行学习。LSTM将一个个分析单元首尾相连,同一层的会把前面单元的输出作为输入,同时前一层的输出会作为下一层的输入。需要将电力业务中的一些数据和信息作为输入,经过LSTM深度学习之后,输出一系列可以用于实际建模的特征变量。
LSTM的核心是在于细胞状态和“门”结构。细胞状态相当于信息传输的路径,让信息能在序列连中传递下去。理论上讲,细胞状态能够将序列处理过程中的相关信息一直传递下去。克服短期记忆的影响。“门”结构就负责实现信息的添加或删除,“门”结构会在训练过程中该保存或者遗忘那些信息。
细胞状态类似于输送带,细胞的状态在整个链上运行,只有一些小的线性操作作用其上,信息很容易保持不变的流过整个链。忘记门也可以称作遗忘门,遗忘门的功能是决定应丢弃或保留哪些信息,来自前一个隐藏状态的信息和当前输入的信息同时传递到sigmoid函数中,用于判断该信息状态。
忘记门负责将细胞状态中的信息选择性遗忘,该过程可以用以下公式表示:
ft=σ(Wf·[ht-1,xt]+bf)
左侧的ht-1和下面输入的xt经过了连接操作,再通过一个线性单元,经过一个σ也就是sigmoid函数生成一个0到1之间的数字作为系数输出,Wf和bf作为待定系数是要进行训练学习的。
sigmoid部分:
it=σ(Wi·[ht-1,xt]+bi)
tanh标识:
Figure BDA0003629803230000141
在以上单元的基础上,通过运行sigmoid层来确定细胞状态输出部分:
ot=σ(Wo·[ht-1,xt]+bo)
接着将细胞状态通过tanh进行处理,并将其和sigmoid的输出相乘,之后就会得到期望输出部分:
ht=ot*tanh(Ct)
(6)基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。
本发明的有益效果在于,与现有技术相比,本发明基于业务规则对建模数据清洗及数据规约处理,得到可用数据。利用基于信息熵的混合数据属性加权聚类算法对电力客户进行客户划分,就每个类型客户进行深入分析。建立各类型客户的统计特征和频域特征,利用Transformer算法建立各类型客户深度特征。基于客户统计、频域以及深度特征,通过LSTM算法识别各类型异常电力客户,基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。
本发明方法可以实现低压用户异常用电行为智能分析,提高反窃电工作的精准度。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (10)

1.一种基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,所述方法包括步骤:
(1)基于业务规则对客户用电采集信息进行数据清洗及数据规约处理;
(2)利用基于信息熵的混合数据属性加权聚类算法对电力客户进行类型划分;
(2.1)计算混合数据信息熵的属性权重;
(2.2)寻找聚类过程中的最坏类指标;
(2.3)计算聚类有效指标及混合数据相异性;
(2.4)基于以上权重、有效指标和相异性进行混合数据的加权聚类,得到划分类型后的客户群体;
(3)建立各类型客户的统计特征和频域特征;
(4)利用Transformer算法建立各类型客户深度特征;
(5)基于客户统计特征、频域特征以及深度特征,通过LSTM算法识别各类型异常电力客户;
(5.1)进行数据整合,整合统计特征、频域特征以及深度特征并定义LSTM网络;
(5.2)设置分类激活函数,并将简单序列转换为高效的矩阵变换序列,通过随机梯度下降算法和均值误差损失函数培训神经网络;
(5.3)设置输入模式矩阵X和匹配输出模型数组Y,使用反向传播算法训练网络;
(5.4)输入测试集,利用已经训练完毕的模型进行效果评估;
(5.5)将需要预测的用电客户输入拟合模型,得到各个类型客户不同数据维度下的疑似异常客户;
(6)基于客户用电量、电流、电压以及功率等数据维度,利用LSTM算法分别计算各数据维度下的异常电力用户,并以各维度加权结果作为依据,输出最终疑似异常电力客户。
2.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤1包括:
(1.1)客户用电量数据的甄别和填补;
(1.2)用户电流、电压、功率数据甄别与填补。
3.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤2.1,计算混合数据信息熵的属性权重,分别计算数值属性权重及分类属性权重,且数值属性权重及分类属性权重之和为1,满足总体权重设置要求。
4.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤3包括:
(3.1)通过统计学分析工具计算划分客户集合中的C1,C2,…,Ck的统计特征;
(3.2)通过傅里叶变换得到划分客户集合中的C1,C2,…,Ck的频域特征。
5.根据权利要求4所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
客户类型的统计特征包含最大值、最小值、均值、中位数、偏度、峰度、方差、标准差、均方误差、均方根误差;
客户类型的频域特征包含频谱最大频率、频谱最小频率、频域幅值平均值、重心频率、均方频率、频率方差、均方根频率、频率幅值方差、频域幅值偏度指标、频率标准差。
6.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤4包括:
(4.1)进行数据剪裁与采样;
(4.2)将处理过的数据输入Encoder进行编码;
(4.3)利用Decoder对编码内容进行解码,并核对输出结果;
(4.4)基于核对结果,进行电力客户深度特征提取。
7.根据权利要求6所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤4.1,将N×M的混合数据转化为N个一维数据时间序列Q,对一维时间序列Q采样处理,使其成为具有196个元素的一维时间序列,为保证采样数据的均衡性,对一维时间序列Q将进行系统随机抽样,作为算法的输入向量。
8.根据权利要求6所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤4.4,将结果与输入数据核对,进而从特征提取器中提取出深度特征T:
T={T1,T2,…Tn},n=(1,2,…,256)
对特征进行人工分类为进行客户异常行为分析识别提供数据依据。
9.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤5.1,将提取的统计特征S={S1,S2,…,Sn},n=(1,2,…,10),频域特征P={P1,P2,…,Pn},n=(1,2,…,10)以及深度特征T={T1,T2,…Tn},n=(1,2,…,256)整合成一个(1*276)的时序向量L={S1,…,S10,P1,…,P10,T1,…,T256},将其作为LSTM算法的输入向量。
10.根据权利要求1所述的基于Transformer和LSTM融合算法的异常电力客户识别方法,其特征在于,
步骤5.5,将输入数据整合之后形成疑似用户输出结果Result={id,label},label=(0或1),得到每个客户的窃电标签,其中,0代表正常用户,1代表异常用电客户。
CN202210485657.6A 2022-05-06 2022-05-06 基于Transformer和LSTM融合算法的异常电力客户识别方法 Active CN114841268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210485657.6A CN114841268B (zh) 2022-05-06 2022-05-06 基于Transformer和LSTM融合算法的异常电力客户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210485657.6A CN114841268B (zh) 2022-05-06 2022-05-06 基于Transformer和LSTM融合算法的异常电力客户识别方法

Publications (2)

Publication Number Publication Date
CN114841268A CN114841268A (zh) 2022-08-02
CN114841268B true CN114841268B (zh) 2023-04-18

Family

ID=82568401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210485657.6A Active CN114841268B (zh) 2022-05-06 2022-05-06 基于Transformer和LSTM融合算法的异常电力客户识别方法

Country Status (1)

Country Link
CN (1) CN114841268B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383753B (zh) * 2023-05-26 2023-08-18 深圳市博昌智控科技有限公司 基于物联网的异常行为提示方法、装置、设备及介质
CN116933986B (zh) * 2023-09-19 2024-01-23 国网湖北省电力有限公司信息通信公司 一种基于深度学习的电力数据安全管理系统
CN117743938A (zh) * 2023-12-22 2024-03-22 烟台海颐软件股份有限公司 一种不均衡数据的异常识别与修复方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101471A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 窃电概率预警分析方法
CN112132210A (zh) * 2020-09-21 2020-12-25 国网辽宁省电力有限公司电力科学研究院 一种基于客户用电行为的窃电概率预警分析方法
CN114298216A (zh) * 2021-12-27 2022-04-08 杭州电子科技大学 一种基于时间-频域融合Transformer的脑电视觉分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573304A (zh) * 2014-07-30 2015-04-29 南京坦道信息科技有限公司 一种基于信息熵和聚类分群的用户质态评估方法
CN111223006A (zh) * 2019-12-25 2020-06-02 国网冀北电力有限公司信息通信分公司 一种异常用电检测方法及装置
CN111507752A (zh) * 2020-03-26 2020-08-07 杭州电子科技大学 基于双向长短期记忆网络的异常用户行为识别方法
CN111626764A (zh) * 2020-04-09 2020-09-04 中南大学 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
CN113127591B (zh) * 2021-04-13 2022-09-23 河海大学 一种基于Transformer和LSTM的位置预测方法
CN113837895A (zh) * 2021-08-24 2021-12-24 山东科技大学 基于电力扰动数据的配电网异常事件识别方法及系统
CN113470365B (zh) * 2021-09-01 2022-01-14 北京航空航天大学杭州创新研究院 一种面向有缺失数据的公交车到站时间预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101471A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 窃电概率预警分析方法
CN112132210A (zh) * 2020-09-21 2020-12-25 国网辽宁省电力有限公司电力科学研究院 一种基于客户用电行为的窃电概率预警分析方法
CN114298216A (zh) * 2021-12-27 2022-04-08 杭州电子科技大学 一种基于时间-频域融合Transformer的脑电视觉分类方法

Also Published As

Publication number Publication date
CN114841268A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114841268B (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN112070128B (zh) 一种基于深度学习的变压器故障诊断方法
CN111368890A (zh) 故障检测方法及装置、信息物理融合系统
CN112098714A (zh) 一种基于ResNet-LSTM的窃电检测方法及系统
CN111461180A (zh) 样本分类方法、装置、计算机设备及存储介质
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN111178585A (zh) 基于多算法模型融合的故障接报量预测方法
CN116048912B (zh) 一种基于弱监督学习的云服务器配置异常识别方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN116976318A (zh) 基于深度学习和模型推理的电网倒闸操作票智能审核系统
Choudhari et al. Predictive to prescriptive analysis for customer churn in telecom industry using hybrid data mining techniques
CN115905959A (zh) 基于缺陷因子的电力断路器关联性故障分析方法及装置
CN113891342A (zh) 基站巡检方法、装置、电子设备及存储介质
CN117150409A (zh) 一种用电异常检测方法
CN113705242B (zh) 面向教育咨询服务的智能语义匹配方法和装置
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114548493A (zh) 一种电能表电流过载预测方法与系统
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN113469247A (zh) 网络资产异常检测方法
CN116244484B (zh) 一种面向不平衡数据的联邦跨模态检索方法及系统
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法
CN115526393A (zh) 一种基于变电工程关键影响因素筛选的造价预测方法
CN115545339A (zh) 变电站安全作业态势评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant