CN109543943A - 一种基于大数据深度学习的电价稽查执行方法 - Google Patents
一种基于大数据深度学习的电价稽查执行方法 Download PDFInfo
- Publication number
- CN109543943A CN109543943A CN201811207293.5A CN201811207293A CN109543943A CN 109543943 A CN109543943 A CN 109543943A CN 201811207293 A CN201811207293 A CN 201811207293A CN 109543943 A CN109543943 A CN 109543943A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity
- probability
- abnormal
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000007689 inspection Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 230000002159 abnormal effect Effects 0.000 claims abstract description 68
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 42
- 238000009826 distribution Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 3
- 239000003337 fertilizer Substances 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 abstract description 2
- 230000002547 anomalous effect Effects 0.000 abstract description 2
- 238000013459 approach Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P80/00—Climate change mitigation technologies for sector-wide applications
- Y02P80/10—Efficient use of energy, e.g. using compressed air or pressurized fluid as energy carrier
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
Abstract
本发明属于一种电力营销稽查技术领域,尤其涉及一种基于大数据深度学习的电价稽查执行方法,是一种深度学习中的变分自动编码器算法进行电价执行异常识别的电价执行稽查创新方法。本发明包括用电数据获取并进行简单分类;用电数据提取概率特征;重构概率判别。本发明有效解决了目前电价执行稽查多种异构参数的计算问题,通过重构概率来有效判定用电客户是否异常;针对部分客户用电数据局部缺失情况,由于算法判别过程中生成模型可对数据进行同特征恢复,固可有效解决缺失问题。实现电价执行稽查在线诊断,解决电价执行情况多样、参数复杂的实际问题,为电力营销工作提供了有效的保障,大幅度提高了异常检测的准确率,大幅度降低稽查不匹配率。
Description
技术领域
本发明属于一种电力营销稽查技术领域,尤其涉及一种基于大数据深度学习的电价稽查执行方法,是一种深度学习中的变分自动编码器算法进行电价执行异常识别的电价执行稽查创新方法。
背景技术
供电企业营销稽查工作是营销业务顺利开展,及时发现异常情况,提高工作质量经营管理水平的重要保障。近年来,智能电网规模越来越来大,大数据、多维度、高智能、强可靠性已成为现代电网的显著特点。传统的稽查监控工作方法难以适应新形式的需求,以深度学习为代表的智能方法越来越成为解决上述问题的有效工具。
目前,电价执行稽查工作主要有三种方式。第一,人工检查方法,该方法效率低工作量大正在逐渐淘汰;第二,普通网络稽查监控系统,通过设立用电量门限阈值筛选,该方法只能对门限阈值超量的电价执行异常进行筛选;第三,通过聚类等传统机器学习方法对系统筛选,但该方法只能凭借用电轨迹对电价执行异常进行辨别,情况单一,无法处理异构数据,用户数据局部缺失的情况下无法有效分析计算。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了一种基于大数据深度学习的电价稽查执行方法,其目的是为了解决目前电价执行稽查情况复杂、参数众多、数据可能不完整,仅靠用电量很难全面稽查电价执行情况的问题。通过本方法可有效面对多种情况,提高了电价执行营销稽查的准确性、针对性、可靠性。
为实现上述发明目的,本发明是通过以下技术方案实现的:
一种基于大数据深度学习的电价稽查执行方法,包括以下步骤:
步骤1.用电数据获取并进行简单分类;
步骤2.用电数据提取概率特征,为每一个样本构造专属正态分布,然后采样重构,并训练编码器及解码器;
步骤3.重构概率判别,利用重构概率蒙特卡洛估计值,实现异常客户判别,实现电价执行稽查工作。
所述步骤1中用电数据获取并进行简单分类,包括:
(1)获取数据:
数据取自供电企业市场营销及营销稽查监控业务数据库,数据类型对应数值化包括:
异常种类:包含客户基本用电信息,具体包含售电均价波动、特殊电价执行异常、超容量用电、居民大电量、农排大电量、化肥大电量、力率执行异常、变损电量异常、两部制电价执行异常及分时电价执行异常;对应数值从1到N种类;
客户用电一般属性:包含客户基本用电信息;具体包含电压、电流、变压器容量、平均功率因数、平均负载率、超容率、总电费、基本电费、峰时电费、平时电费及谷时电费,数值按照归一化处理便于计算;
客户用电高级属性:包含用电计算指标及衍生指标;具体包含用电同比、环比、偏差率、峰总比、平总比、谷总比、峰谷比及数值大部分为比值,直接代如矩阵;
客户数据属性:包含客户数据是否完整及不完整情况;具体包含用户类别、所属行业、所属位置、抄表号段、售电均价、上月售电均价、上年同期售电均价、售电环比同比及景气指数,数值分类数值化;
(2)简单分类:
将系统中采集的数据按照正常数据集和异常数据集分类导入算法模型,异常数据集样本数量较少,但足可以对模型进行半监督学习训练;
将样本中的文字信息转化为数字信息,并将包含四类数据类型的数据形成正常数据集X、异常数据集x;
上式中:M、N、m、n代表的是维度,L代表损失函数。
所述步骤2中用电数据提取概率特征,包括:判别模型通过变分自动编码器模型得以实现,变分自动编码器由编码器、解码器及额外损失三部分构成;每一个样本数据经过编码器通过均值和方差分布降维生成隐藏变量z,通过解码器还原样本增维;通过KL散度衡量额外损失L;通过重建概率生成可有效判别电价执行异常客户;
具体步骤如下:
确定网络的结构,总共具有q+2层,输入层和输出层各占1层,q为隐藏层的层数;
导入正常数据集X,确定到模型的超参数,训练有向图模型参数θ、φ;
初始化编码器网络,网络的作用将数据集中样本映射到隐藏分布参数中z,接受输入通过非线性激活函数的密集Dense函数连接并发送;然后将输入数据转换成隐藏空间的两个变量,使用密集Dense函数连接隐藏变量z的均值μz(i)和z的logσ2使用σz(i)表示;
然后使用异常数据集数据通过神经网络均值μz(i)和方差σz(i)计算模块反向传播训练编码器fθ(z|x(i));表达式为:
μz(i),σz(i)=fθ(z|x(i)) (1);
解码器是将z作为输入量,并将参数输出到数据概率分布中;使用μz(i)和σz(i),通过定义采样函数从隐藏正态分布中随机采样类似点;
每一个异常样本形成的正态分布进行采样得到z并引入额外损失变量L,并可通过正向训练形成解码器i、l为正反向迭代次数;表达式是为:
上式中:X表示正常数据集,Z表示重构矢量;由生成样本的均值和方差构建重构概率表达式为:
上述两个公式中:log pθ(x(i))为数据集点的边缘似然值;qφ(z|x(i))为潜变量z的近似后验值,pθ(z)为潜变量z的先验分布值;KL为散度计算独立分量X正态分布与标准正态分布KL散度作为L值;D表示方差,E表示均值,L(θ,φ;x(i))为损失函数表达式;
公式(3)为该算法的核心公式,表示的是第i次的重构概率,重构概率是平均概率;
为新生成的具有一定均值方差样本点与异常样本集的似然概率;L为损失函数;公式(3)是关键值重构概率的生成公式;
公式(4)为变分自编码器的关键公式作用是通过后验分布qφ(z|x(i)和似然概率pθ(x|z)求出重构x;DKL为代表了近似后验和先验潜变量z之间的KL散度,该项类似于正则化,迫使后验分布与先验分布趋同;公式(3)中的重构概率正是项的蒙特卡洛估计值。
所述步骤2中重构概率判别,包括:利用重构概率蒙特卡洛估计值,实现异常客户判别,实现电价执行稽查工作;具体包括:
首先从电网营销系统和稽查监控系统中调取历史数据作为训练数据,该数据包含已核对过的正常用户和异常用户;为了加快训练速度,提高了数据集中故障数据的比例;然后用正常数据和异常数据对算法模型进行训练,训练自动编码器和解码器;训练后,从电网营销系统和稽查系统中导入近期某区域的未核对数据集作为测试数据,将测试数据加载模型,通过重构概率和门槛值找出可能的异常用户,再对异常用户进行现场核对,从而对算法性能进行分析;
采用蒙特卡洛梯度下降法生成了重构概率通过该概率与不同异常种类门限阈值概率α进行比较,确定异常用户;
采用的是变分自动编码器算法Variational autoencoder based anomalydetection algorithm对异常电价执行客户进行判别;
基于大数据深度学习的电价稽查执行方法,数据的获取出自Hadoop分布式架构硬件服务器系统,通过营销系统SQL语言提取数据库数据。
所述变分自动编码器的流程如下:
输入标准数据集X,异常数据集x(i),及门槛值α;然后,通过使用正常数据集X训练变分编码器并确定有向图概率参数φ,θ;确定图概率参数后,通过异常数据集训练,并由编码器产生潜变量z的第i次均值和方差,循环次数从1到N,N为异常数据样本数;为了确定损失函数L,需要从分布条件为N(μz(i),σz(i))的z潜变量空间中进行采样;解码器通z进行训练,生成重构估计样本并循环训练;循环次数为l从1到L;如果l大于L说明训练已全覆盖,准备由公式(3)生成重构概率,如果重构概率小于α值,则第i的数据x(i)是异常数据,进行系统提示“x(i)异常”;否则是正常值继续循环,直到所有数据都已被判断过跳出循环。
本发明具有以下优点和技术效果:
本发明利用变分编码器模型既可以作为判别模型又可以作为生成模型的特点,有效解决了目前电价执行稽查多种异构参数的计算问题,通过重构概率来有效判定用电客户是否异常;针对部分客户用电数据局部缺失情况,由于算法判别过程中生成模型可对数据进行同特征恢复,固可有效解决缺失问题。本发明通过用电客户特征概率分布情况有效判定电价执行是否异常,实现电价执行稽查在线诊断,解决了电价执行情况多样、参数复杂的实际问题,为电力营销工作提供了有效的保障。本发明与现有电价执行稽查的方法相比,大幅度提高了异常检测的准确率,大幅度降低了稽查不匹配率。
附图说明
下面结合实例对本发明做进一步说明,但不应该理解为本发明上述主体范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
图1是本发明一种基于大数据深度学习的电价稽查执行方法总体框图;
图2是本发明一种基于大数据深度学习的电价稽查执行方法之变分自动编码器原理图;
图3是本发明一种基于大数据深度学习的电价稽查执行方法之变分自动编码器流程图。
具体实施方式
本发明是一种基于大数据深度学习的电价稽查执行方法,包括以下步骤:
步骤1.用电数据获取并进行简单分类。
1.1获取数据。
数据取自供电企业市场营销及营销稽查监控业务数据库。数据类型对应数值化包括:
异常种类:包含客户基本用电信息。具体包含售电均价波动、特殊电价执行异常、超容量用电、居民大电量、农排大电量、化肥大电量、力率执行异常、变损电量异常、两部制电价执行异常及分时电价执行异常等。对应数值从1到N种类。
客户用电一般属性:包含客户基本用电信息。具体包含电压、电流、变压器容量、平均功率因数、平均负载率、超容率、总电费、基本电费、峰时电费、平时电费及谷时电费等。数值按照归一化处理便于计算。
客户用电高级属性:包含用电计算指标及衍生指标。具体包含用电同比、环比、偏差率、峰总比、平总比、谷总比及峰谷比等。数值大部分为比值,直接代如矩阵。
客户数据属性:包含客户数据是否完整及不完整情况。具体包含用户类别、所属行业、所属位置、抄表号段、售电均价、上月售电均价、上年同期售电均价、售电环比同比及景气指数等。数值分类数值化。
1.2简单分类。
将系统中采集的数据按照正常数据集和异常数据集分类导入算法模型,异常数据集样本数量较少,但足可以对模型进行半监督学习训练。
将样本中的文字信息转化为数字信息,并将包含四类数据类型的数据形成正常数据集X、异常数据集x。
上式中:M、N、m、n代表的是维度,L代表损失函数。
步骤2.用电数据提取概率特征,为每一个样本构造专属正态分布,然后采样重构,并训练编码器及解码器。
判别模型通过变分自动编码器模型得以实现。变分自动编码器主要由编码器、解码器、额外损失三部分构成。如图2所示,图2是本发明一种基于大数据深度学习的电价稽查执行方法之变分自动编码器原理图。每一个样本数据经过编码器通过均值和方差分布降维生成隐藏变量z,通过解码器还原样本增维。通过KL散度衡量额外损失L。通过重建概率生成可有效判别电价执行异常客户。
具体步骤如下:
确定网络的结构,总共具有q+2层,输入层和输出层各占1层,q为隐藏层的层数。
导入正常数据集X,确定到模型的超参数,训练有向图模型参数θ、φ。
初始化编码器网络,网络的作用将数据集中样本映射到隐藏分布参数中z,接受输入通过非线性激活函数的密集Dense函数连接并发送。然后将输入数据转换成隐藏空间的两个变量,使用密集Dense函数连接隐藏变量z的均值μz(i)和z的logσ2使用σz(i)表示。
然后使用异常数据集数据通过神经网络均值μz(i)和方差σz(i)计算模块反向传播训练编码器fθ(z|x(i))。表达式为:
μz(i),σz(i)=fθ(z|x(i))。 (1);
解码器是将z作为输入量,并将参数输出到数据概率分布中。使用μz(i)和σz(i),通过定义采样函数从隐藏正态分布中随机采样类似点。
每一个异常样本形成的正态分布进行采样得到z并引入额外损失变量L,并可通过正向训练形成解码器i、l为正反向迭代次数。表达式是为:
上式中:X表示正常数据集,Z表示重构矢量。由生成样本的均值和方差构建重构概率表达式为:
上述两个公式中:log pθ(x(i))为数据集点的边缘似然值。qφ(z|x(i))为潜变量z的近似后验值,pθ(z)为潜变量z的先验分布值。KL为散度计算独立分量X正态分布与标准正态分布KL散度作为L值。D表示方差,E表示均值,L(θ,φ;x(i))为损失函数表达式。
公式(3)为该算法的核心公式,表示的是第i次的重构概率,重构概率是平均概率。
为新生成的具有一定均值方差样本点与异常样本集的似然概率。L为损失函数。公式(3)是关键值重构概率的生成公式。
公式(4)为变分自编码器的关键公式作用是通过后验分布qφ(z|x(i)和似然概率pθ(x|z)求出重构x。DKL为代表了近似后验和先验潜变量z之间的KL散度,该项类似于正则化,迫使后验分布与先验分布趋同。公式(3)中的重构概率正是项的蒙特卡洛估计值。
具体实现如图3所示,图3是本发明一种基于大数据深度学习的电价稽查执行方法之变分自动编码器流程图。
根据图3流程图,本算法输入的是标准数据集X,异常数据集x(i),及门槛值α。然后,通过使用正常数据集X训练变分编码器并确定有向图概率参数φ,θ。确定图概率参数后,通过异常数据集训练,并由编码器产生潜变量z的第i次均值和方差,循环次数从1到N,N为异常数据样本数。为了确定损失函数L,需要从分布条件为N(μz(i),σz(i))的z潜变量空间中进行采样。解码器通z进行训练,生成重构估计样本并循环训练。循环次数为l从1到L。如果l大于L说明训练已全覆盖,准备由公式(3)生成重构概率,如果重构概率小于α值,则第i的数据x(i)是异常数据,进行系统提示“x(i)异常”。否则是正常值继续循环,直到所有数据都已被判断过跳出循环。
步骤3.重构概率判别:利用重构概率蒙特卡洛估计值,实现异常客户判别,实现电价执行稽查工作。如图1所示,图1是本发明一种基于大数据深度学习的电价稽查执行方法总体框图。
根据图1,首先从电网营销系统和稽查监控系统中调取历史数据作为训练数据,该数据包含已核对过的正常用户和异常用户。为了加快训练速度,提高了数据集中故障数据的比例。然后用正常数据和异常数据对算法模型进行训练,训练自动编码器和解码器。训练后,从电网营销系统和稽查系统中导入近期某区域的未核对数据集作为测试数据,将测试数据加载模型,通过重构概率和门槛值找出可能的异常用户,再对异常用户进行现场核对,从而对算法性能进行分析。
由步骤2,采用蒙特卡洛梯度下降法生成了重构概率通过该概率与不同异常种类门限阈值概率α进行比较,确定异常用户。
所述步骤2采用的是变分自动编码器算法Variational autoencoder basedanomaly detection algorithm对异常电价执行客户进行判别。
基于大数据深度学习的电价稽查执行方法,数据的获取出自Hadoop分布式架构硬件服务器系统,通过营销系统SQL语言提取数据库数据。
本发明通过变分自动编码器算法,由于判断因子是概率分布,不受不同指标之间权重关系的影响可有效处理电价执行异常的多种情况,有效区分电力用户。
详见表一、表二及表三为一种基于大数据深度学习的电价稽查执行方法针对三种电价执行异常情况的稽查结果,从表中可以看出,稽查准确率高,尤其是不匹配率与以往方法相比大幅下降,极大的降低了供电企业稽查成本及工作量。
表一.超容量用电电价执行异常。
指标 | 指标值 | 备注 |
训练集无标签用户样本 | 100000户 | 系统直接采集 |
训练集标签用户样本 | 10000户 | 人工筛查混合数据集 |
测试用户样本 | 3560 | 人工提高异常用户占比 |
测试异常用户 | 40 | |
实际异常用户 | 38 | |
准确率 | 95% | 传统聚类方法82% |
不匹配率 | 5.6×e<sup>-4</sup> | 传统聚类方法0.05 |
表二.居民大电量电价执行异常。
指标 | 指标值 | 备注 |
训练集无标签用户样本 | 100000户 | 系统直接采集 |
训练集标签用户样本 | 10000户 | 人工筛查混合数据集 |
测试用户样本 | 8520 | 人工提高异常用户占比 |
测试异常用户 | 56 | |
实际异常用户 | 55 | |
准确率 | 98.2% | 传统聚类方法90% |
不匹配率 | 1.17×e<sup>-4</sup> | 传统聚类方法0.042 |
表三.两部制电价执行异常。
指标 | 指标值 | 备注 |
训练集无标签用户样本 | 10000户 | 系统直接采集 |
训练集标签用户样本 | 1000户 | 人工筛查混合数据集 |
测试用户样本 | 1000 | 人工提高异常用户占比 |
测试异常用户 | 22 | |
实际异常用户 | 20 | |
准确率 | 90.9% | 传统聚类方法71% |
不匹配率 | 0.002 | 传统聚类方法0.12 |
注:表中传统聚类方法为采用k-mean法对测试数据的判定效果。只采用用电量特征曲线。
稽查准确率=(诊断结果中异常的用户数/实际异常的用户数)×100%;
稽查不匹配率=(误判异常用户数量/测试用户样本)×100%。
Claims (5)
1.一种基于大数据深度学习的电价稽查执行方法,其特征是:包括以下步骤:
步骤1.用电数据获取并进行简单分类;
步骤2.用电数据提取概率特征,为每一个样本构造专属正态分布,然后采样重构,并训练编码器及解码器;
步骤3.重构概率判别,利用重构概率蒙特卡洛估计值,实现异常客户判别,实现电价执行稽查工作。
2.根据权利要求1所述的一种基于大数据深度学习的电价稽查执行方法,其特征是:所述步骤1中用电数据获取并进行简单分类,包括:
(1)获取数据:
数据取自供电企业市场营销及营销稽查监控业务数据库,数据类型对应数值化包括:
异常种类:包含客户基本用电信息,具体包含售电均价波动、特殊电价执行异常、超容量用电、居民大电量、农排大电量、化肥大电量、力率执行异常、变损电量异常、两部制电价执行异常及分时电价执行异常;对应数值从1到N种类;
客户用电一般属性:包含客户基本用电信息;具体包含电压、电流、变压器容量、平均功率因数、平均负载率、超容率、总电费、基本电费、峰时电费、平时电费及谷时电费,数值按照归一化处理便于计算;
客户用电高级属性:包含用电计算指标及衍生指标;具体包含用电同比、环比、偏差率、峰总比、平总比、谷总比、峰谷比及数值大部分为比值,直接代如矩阵;
客户数据属性:包含客户数据是否完整及不完整情况;具体包含用户类别、所属行业、所属位置、抄表号段、售电均价、上月售电均价、上年同期售电均价、售电环比同比及景气指数,数值分类数值化;
(2)简单分类:
将系统中采集的数据按照正常数据集和异常数据集分类导入算法模型,异常数据集样本数量较少,但足可以对模型进行半监督学习训练;
将样本中的文字信息转化为数字信息,并将包含四类数据类型的数据形成正常数据集X、异常数据集x;
上式中:M、N、m、n代表的是维度,L代表损失函数。
3.根据权利要求1所述的一种基于大数据深度学习的电价稽查执行方法,其特征是:所述步骤2中用电数据提取概率特征,包括:判别模型通过变分自动编码器模型得以实现,变分自动编码器由编码器、解码器及额外损失三部分构成;每一个样本数据经过编码器通过均值和方差分布降维生成隐藏变量z,通过解码器还原样本增维;通过KL散度衡量额外损失L;通过重建概率生成可有效判别电价执行异常客户;
具体步骤如下:
确定网络的结构,总共具有q+2层,输入层和输出层各占1层,q为隐藏层的层数;
导入正常数据集X,确定到模型的超参数,训练有向图模型参数θ、φ;
初始化编码器网络,网络的作用将数据集中样本映射到隐藏分布参数中z,接受输入通过非线性激活函数的密集Dense函数连接并发送;然后将输入数据转换成隐藏空间的两个变量,使用密集Dense函数连接隐藏变量z的均值μz(i)和z的logσ2使用σz(i)表示;
然后使用异常数据集数据通过神经网络均值μz(i)和方差σz(i)计算模块反向传播训练编码器fθ(z|x(i));表达式为:
μz(i),σz(i)=fθ(z|x(i)) (1);
解码器是将z作为输入量,并将参数输出到数据概率分布中;使用μz(i)和σz(i),通过定义采样函数从隐藏正态分布中随机采样类似点;
每一个异常样本形成的正态分布进行采样得到z并引入额外损失变量L,并可通过正向训练形成解码器i、l为正反向迭代次数;表达式是为:
上式中:X表示正常数据集,Z表示重构矢量;由生成样本的均值和方差构建重构概率表达式为:
上述两个公式中:log pθ(x(i))为数据集点的边缘似然值;qφ(z|x(i))为潜变量z的近似后验值,pθ(z)为潜变量z的先验分布值;KL为散度计算独立分量X正态分布与标准正态分布KL散度作为L值;D表示方差,E表示均值,L(θ,φ;x(i))为损失函数表达式;
公式(3)为该算法的核心公式,表示的是第i次的重构概率,重构概率是平均概率;
为新生成的具有一定均值方差样本点与异常样本集的似然概率;L为损失函数;公式(3)是关键值重构概率的生成公式;
公式(4)为变分自编码器的关键公式作用是通过后验分布qφ(z|x(i)和似然概率pθ(x|z)求出重构x;DKL为代表了近似后验和先验潜变量z之间的KL散度,该项类似于正则化,迫使后验分布与先验分布趋同;公式(3)中的重构概率正是项的蒙特卡洛估计值。
4.根据权利要求1所述的一种基于大数据深度学习的电价稽查执行方法,其特征是:所述步骤2中重构概率判别,包括:利用重构概率蒙特卡洛估计值,实现异常客户判别,实现电价执行稽查工作;具体包括:
首先从电网营销系统和稽查监控系统中调取历史数据作为训练数据,该数据包含已核对过的正常用户和异常用户;为了加快训练速度,提高了数据集中故障数据的比例;然后用正常数据和异常数据对算法模型进行训练,训练自动编码器和解码器;训练后,从电网营销系统和稽查系统中导入近期某区域的未核对数据集作为测试数据,将测试数据加载模型,通过重构概率和门槛值找出可能的异常用户,再对异常用户进行现场核对,从而对算法性能进行分析;
采用蒙特卡洛梯度下降法生成了重构概率通过该概率与不同异常种类门限阈值概率α进行比较,确定异常用户;
采用的是变分自动编码器算法Variational autoencoder based anomaly detectionalgorithm对异常电价执行客户进行判别;
基于大数据深度学习的电价稽查执行方法,数据的获取出自Hadoop分布式架构硬件服务器系统,通过营销系统SQL语言提取数据库数据。
5.根据权利要求3所述的一种基于大数据深度学习的电价稽查执行方法,其特征是:所述变分自动编码器的流程如下:
输入标准数据集X,异常数据集x(i),及门槛值α;然后,通过使用正常数据集X训练变分编码器并确定有向图概率参数φ,θ;确定图概率参数后,通过异常数据集训练,并由编码器产生潜变量z的第i次均值和方差,循环次数从1到N,N为异常数据样本数;为了确定损失函数L,需要从分布条件为N(μz(i),σz(i))的z潜变量空间中进行采样;解码器通z进行训练,生成的重构估计样本并循环训练;循环次数为l从1到L;如果l大于L说明训练已全覆盖,准备由公式(3)生成重构概率,如果重构概率小于α值,则第i的数据x(i)是异常数据,进行系统提示“x(i)异常”;否则是正常值继续循环,直到所有数据都已被判断过跳出循环。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811207293.5A CN109543943B (zh) | 2018-10-17 | 2018-10-17 | 一种基于大数据深度学习的电价稽查执行方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811207293.5A CN109543943B (zh) | 2018-10-17 | 2018-10-17 | 一种基于大数据深度学习的电价稽查执行方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543943A true CN109543943A (zh) | 2019-03-29 |
CN109543943B CN109543943B (zh) | 2023-07-25 |
Family
ID=65843791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811207293.5A Active CN109543943B (zh) | 2018-10-17 | 2018-10-17 | 一种基于大数据深度学习的电价稽查执行方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543943B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569925A (zh) * | 2019-09-18 | 2019-12-13 | 南京领智数据科技有限公司 | 应用于电力设备运检的基于lstm的时序异常检测方法 |
CN111585997A (zh) * | 2020-04-27 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 一种基于少量标注数据的网络流量异常检测方法 |
CN111599431A (zh) * | 2020-03-31 | 2020-08-28 | 太原金域临床检验有限公司 | 基于报告单的数据编码模型生成方法、系统和设备 |
CN111861272A (zh) * | 2020-07-31 | 2020-10-30 | 西安交通大学 | 一种基于多源数据的复杂机电系统异常状态检测方法 |
CN112101554A (zh) * | 2020-11-10 | 2020-12-18 | 北京瑞莱智慧科技有限公司 | 异常检测方法及装置、设备、计算机可读存储介质 |
CN112183990A (zh) * | 2020-09-22 | 2021-01-05 | 国网冀北电力有限公司计量中心 | 基于大数据机器学习的自适应稽查监控管理平台及方法 |
CN112465000A (zh) * | 2020-11-19 | 2021-03-09 | 国家高速列车青岛技术创新中心 | 基于卷积变分编码器和异常检测算法的钢轨隐伤定位方法 |
CN112637108A (zh) * | 2019-09-24 | 2021-04-09 | 中国科学院国家空间科学中心 | 一种基于异常检测和情感分析的内部威胁分析方法及系统 |
CN112818052A (zh) * | 2021-02-25 | 2021-05-18 | 云南电网有限责任公司电力科学研究院 | 一种异常电压数据的检测方法及装置 |
CN112987675A (zh) * | 2021-05-06 | 2021-06-18 | 北京瑞莱智慧科技有限公司 | 一种异常检测的方法、装置、计算机设备和介质 |
CN113222972A (zh) * | 2021-05-31 | 2021-08-06 | 辽宁工程技术大学 | 基于变分自编码器算法的图像异常检测方法 |
WO2021189844A1 (zh) * | 2020-09-22 | 2021-09-30 | 平安科技(深圳)有限公司 | 多元kpi时间序列的检测方法、装置、设备及存储介质 |
CN113642716A (zh) * | 2021-08-31 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 深度变分自编码器模型训练方法、装置、设备和存储介质 |
CN113807527A (zh) * | 2020-06-11 | 2021-12-17 | 华硕电脑股份有限公司 | 信号检测方法及使用其的电子装置 |
CN114721326A (zh) * | 2022-05-31 | 2022-07-08 | 国网浙江省电力有限公司 | 基于深度学习算法的营销稽查信息处理方法及装置 |
CN117151768A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 一种生成式营销事件风控规则库的构建方法及系统 |
CN118300271A (zh) * | 2024-05-31 | 2024-07-05 | 国网湖北省电力有限公司信息通信公司 | 一种电力信息的管控方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574642A (zh) * | 2015-11-06 | 2016-05-11 | 广东工业大学 | 一种基于智能电网大数据的电价执行稽查方法 |
CN106204335A (zh) * | 2016-07-21 | 2016-12-07 | 广东工业大学 | 一种电价执行异常判断方法、装置及系统 |
CN106778841A (zh) * | 2016-11-30 | 2017-05-31 | 国网上海市电力公司 | 异常用电检测模型的建立方法 |
CN108490288A (zh) * | 2018-03-09 | 2018-09-04 | 华南师范大学 | 一种窃电检测方法及系统 |
US20180275642A1 (en) * | 2017-03-23 | 2018-09-27 | Hitachi, Ltd. | Anomaly detection system and anomaly detection method |
-
2018
- 2018-10-17 CN CN201811207293.5A patent/CN109543943B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574642A (zh) * | 2015-11-06 | 2016-05-11 | 广东工业大学 | 一种基于智能电网大数据的电价执行稽查方法 |
CN106204335A (zh) * | 2016-07-21 | 2016-12-07 | 广东工业大学 | 一种电价执行异常判断方法、装置及系统 |
CN106778841A (zh) * | 2016-11-30 | 2017-05-31 | 国网上海市电力公司 | 异常用电检测模型的建立方法 |
US20180275642A1 (en) * | 2017-03-23 | 2018-09-27 | Hitachi, Ltd. | Anomaly detection system and anomaly detection method |
CN108490288A (zh) * | 2018-03-09 | 2018-09-04 | 华南师范大学 | 一种窃电检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
彭显刚等: "数据挖掘技术在电价执行稽查中的应用研究", 《电气应用》 * |
陈文瑛等: "应用大数据技术的反窃电分析", 《电子测量与仪器学报》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569925A (zh) * | 2019-09-18 | 2019-12-13 | 南京领智数据科技有限公司 | 应用于电力设备运检的基于lstm的时序异常检测方法 |
CN110569925B (zh) * | 2019-09-18 | 2023-05-26 | 南京领智数据科技有限公司 | 应用于电力设备运检的基于lstm的时序异常检测方法 |
CN112637108B (zh) * | 2019-09-24 | 2022-11-22 | 中国科学院国家空间科学中心 | 一种基于异常检测和情感分析的内部威胁分析方法及系统 |
CN112637108A (zh) * | 2019-09-24 | 2021-04-09 | 中国科学院国家空间科学中心 | 一种基于异常检测和情感分析的内部威胁分析方法及系统 |
CN111599431A (zh) * | 2020-03-31 | 2020-08-28 | 太原金域临床检验有限公司 | 基于报告单的数据编码模型生成方法、系统和设备 |
CN111585997A (zh) * | 2020-04-27 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 一种基于少量标注数据的网络流量异常检测方法 |
CN111585997B (zh) * | 2020-04-27 | 2022-01-14 | 国家计算机网络与信息安全管理中心 | 一种基于少量标注数据的网络流量异常检测方法 |
CN113807527A (zh) * | 2020-06-11 | 2021-12-17 | 华硕电脑股份有限公司 | 信号检测方法及使用其的电子装置 |
CN111861272A (zh) * | 2020-07-31 | 2020-10-30 | 西安交通大学 | 一种基于多源数据的复杂机电系统异常状态检测方法 |
WO2021189844A1 (zh) * | 2020-09-22 | 2021-09-30 | 平安科技(深圳)有限公司 | 多元kpi时间序列的检测方法、装置、设备及存储介质 |
CN112183990A (zh) * | 2020-09-22 | 2021-01-05 | 国网冀北电力有限公司计量中心 | 基于大数据机器学习的自适应稽查监控管理平台及方法 |
CN112101554A (zh) * | 2020-11-10 | 2020-12-18 | 北京瑞莱智慧科技有限公司 | 异常检测方法及装置、设备、计算机可读存储介质 |
CN112101554B (zh) * | 2020-11-10 | 2024-01-23 | 北京瑞莱智慧科技有限公司 | 异常检测方法及装置、设备、计算机可读存储介质 |
CN112465000A (zh) * | 2020-11-19 | 2021-03-09 | 国家高速列车青岛技术创新中心 | 基于卷积变分编码器和异常检测算法的钢轨隐伤定位方法 |
CN112818052A (zh) * | 2021-02-25 | 2021-05-18 | 云南电网有限责任公司电力科学研究院 | 一种异常电压数据的检测方法及装置 |
CN112987675A (zh) * | 2021-05-06 | 2021-06-18 | 北京瑞莱智慧科技有限公司 | 一种异常检测的方法、装置、计算机设备和介质 |
CN112987675B (zh) * | 2021-05-06 | 2021-07-23 | 北京瑞莱智慧科技有限公司 | 一种异常检测的方法、装置、计算机设备和介质 |
CN113222972A (zh) * | 2021-05-31 | 2021-08-06 | 辽宁工程技术大学 | 基于变分自编码器算法的图像异常检测方法 |
CN113222972B (zh) * | 2021-05-31 | 2024-03-19 | 辽宁工程技术大学 | 基于变分自编码器算法的图像异常检测方法 |
CN113642716A (zh) * | 2021-08-31 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 深度变分自编码器模型训练方法、装置、设备和存储介质 |
CN114721326B (zh) * | 2022-05-31 | 2022-09-09 | 国网浙江省电力有限公司 | 基于深度学习算法的营销稽查信息处理方法及装置 |
CN114721326A (zh) * | 2022-05-31 | 2022-07-08 | 国网浙江省电力有限公司 | 基于深度学习算法的营销稽查信息处理方法及装置 |
CN117151768A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 一种生成式营销事件风控规则库的构建方法及系统 |
CN118300271A (zh) * | 2024-05-31 | 2024-07-05 | 国网湖北省电力有限公司信息通信公司 | 一种电力信息的管控方法和装置 |
CN118300271B (zh) * | 2024-05-31 | 2024-08-02 | 国网湖北省电力有限公司信息通信公司 | 一种电力信息的管控方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109543943B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543943A (zh) | 一种基于大数据深度学习的电价稽查执行方法 | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN107967485B (zh) | 用电计量设备故障分析方法及装置 | |
CN110852856B (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN106780121B (zh) | 一种基于用电负荷模式分析的用电异常识别方法 | |
Costa et al. | Fraud detection in electric power distribution networks using an ann-based knowledge-discovery process | |
Jiang et al. | Wavelet based feature extraction and multiple classifiers for electricity fraud detection | |
CN108520357A (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN110458230A (zh) | 一种基于多判据融合的配变用采数据异常甄别方法 | |
Oprea et al. | Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets | |
Cheng et al. | Enhanced state estimation and bad data identification in active power distribution networks using photovoltaic power forecasting | |
CN109767054A (zh) | 基于深度神经网络算法的能效云评估方法及边缘能效网关 | |
CN110879377A (zh) | 基于深度信念网络的计量装置故障溯源方法 | |
CN111553444A (zh) | 一种基于非侵入负荷终端数据的负荷辨识方法 | |
CN113128567A (zh) | 一种基于用电量数据的异常用电行为识别方法 | |
Babu et al. | Detecting unusual customer consumption profiles in power distribution systems—APSPDCL | |
CN115905319B (zh) | 一种海量用户电费异常的自动识别方法及系统 | |
Long et al. | A data-driven combined algorithm for abnormal power loss detection in the distribution network | |
CN112308341A (zh) | 电力数据的处理方法和装置 | |
CN115166625A (zh) | 智能电表误差估计方法及装置 | |
CN112926686B (zh) | 基于brb和lstm模型的电力大数据用电异常检测方法及装置 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
Yan et al. | Comparative study of electricity-theft detection based on gradient boosting machine | |
Poudel et al. | Artificial intelligence for energy fraud detection: a review | |
CN112732549B (zh) | 基于聚类分析的测试程序分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |