CN111062620A - 基于混合计费数据的电力计费公平性智能分析系统及方法 - Google Patents

基于混合计费数据的电力计费公平性智能分析系统及方法 Download PDF

Info

Publication number
CN111062620A
CN111062620A CN201911315191.XA CN201911315191A CN111062620A CN 111062620 A CN111062620 A CN 111062620A CN 201911315191 A CN201911315191 A CN 201911315191A CN 111062620 A CN111062620 A CN 111062620A
Authority
CN
China
Prior art keywords
data
charging
module
attribute
fairness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911315191.XA
Other languages
English (en)
Other versions
CN111062620B (zh
Inventor
于瑞强
王林
杜星学
王彦
贾明静
宋维川
梁洪明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANTAI HAIYI SOFTWARE CO Ltd
Original Assignee
YANTAI HAIYI SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YANTAI HAIYI SOFTWARE CO Ltd filed Critical YANTAI HAIYI SOFTWARE CO Ltd
Priority to CN201911315191.XA priority Critical patent/CN111062620B/zh
Publication of CN111062620A publication Critical patent/CN111062620A/zh
Application granted granted Critical
Publication of CN111062620B publication Critical patent/CN111062620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混合计费数据的电力计费公平性智能分析系统及方法,属于电力计费领域,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;数据处理部分的输入端与数据集成部分的输出端进行连接,数据处理部分的输出端与模型训练部分的输入端进行连接,公平性分析模块的输入端与模型训练部分的输出端进行连接。本发明通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;通过计算每个用户的实际用电特征向量与该用户每种档案特征的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别档案属性相同情况下该用户的用电行为数据是否异常。

Description

基于混合计费数据的电力计费公平性智能分析系统及方法
技术领域
本发明属于电力计费技术领域,具体涉及一种基于混合计费数据的电力计费公平性智能分析系统及方法。
背景技术
电力用户的电力档案和用电行为的一致性直接影响到计费的公平性。如果一个电力用户的电力档案与其用电行为不符,表明该电力用户计费档案存在问题,很有可能存在违约用电等问题,从而会造成电费少收、漏收,供电企业带来经济损失。而由于用户的计费档案主要是分类型数据,用电行为主要是数值型数据,因此问题就变成了从由计费档案和用电行为构成的混合型数据中发现异常数据。
针对上述问题,目前电力计费领域在具体应用中仅能依靠人工经验制订规则,然后进行软件编码转换进行处理,而实际工作中发现依赖人工经验的方法存在诸多不足,无法有效的将计费档案和用电数据联合起来识别其中存在的问题。
发明内容
本发明的目的在于提供基于混合计费数据的电力计费公平性智能分析系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化以及增量读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据基于电力计费的业务规则进行进一步的关联整合构成混合属性向量,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练模块包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块生成的模型以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,按照公式进行组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值特征保存到数据仓库中以供后期人工筛查及复合参考。
作为一种优选的实施方式,所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
作为一种优选的实施方式,所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
作为一种优选的实施方式,所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括以下步骤:
步骤1、数据读取:
将与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充的手段排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构件特征向量;
步骤4、建立混合属性异常训练模型,分析、评估档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
作为一种优选的实施方式,步骤401中所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种属性中每个值所包含的数据量与用户总数;
4012)根据步骤401的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数。
作为一种优选的实施方式,步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及离散属性数量的倒数作为权重进行加权求和作为连续性异常系数。
作为一种优选的实施方式,所述步骤403中,若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
作为一种优选的实施方式,所述步骤4013中,若一条数据的映入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
作为一种优选的实施方式,所述步骤4023中,若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
与现有技术相比,本发明的有益效果是:
本发明提出加权总熵概念,通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;而对于档案不异常的用户,通过计算每个用户的实际用电特征向量与该用户每种档案特征(离散属性)的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别是否异常。采用余弦相似度方法实现对每个用户的用电行为特征在该用户所属档案群体内的离群程度的评估。基于本发明,无需再借助于人工经验规则,而是将输入灌入到本发明的软件系统之后,经过各模块的数据处理和分析,档案异常、档案不异常而用电异常等所代表的计费不公平用户将被自动的标记为异常用户,成为系统输出。
附图说明
图1为基于混合计费数据的电力计费公平性智能分析系统的结构框图;
图2为基于混合计费数据的电力计费公平性智能分析系统中数据集成部分的结构框图;
图3为基于混合计费数据的电力计费公平性智能分析系统中数据处理部分的结构框图;
图4为基于混合计费数据的电力计费公平性智能分析系统中模型训练部分的结构框图。
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。
请参阅图1-4,本发明提供了一种基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;其特征在于:所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化以及增量读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据基于电力计费的业务规则进行进一步的关联整合构成混合属性向量,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练模块包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块生成的模型以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,按照公式进行组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值特征保存到数据仓库中以供后期人工筛查及复合参考。
在本发明中,进一步的,所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
在本发明中,进一步的,所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
在本发明中,进一步的,所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
本发明还提供一种基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括以下步骤:
步骤1、数据读取:
将与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充的手段排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构件特征向量;
步骤4、建立混合属性异常训练模型,分析、评估档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种属性中每个值所包含的数据量与用户总数;
4012)根据步骤401的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
总熵的计算公式为:
Figure BDA0002325649820000091
Figure BDA0002325649820000092
其中:,HLx为数据集x的总熵,y为离散属性集合,i为属性索引,yi为索引为i的离散属性,m为离散属性的个数,j离散属性的一个取值;p(yi,j)为属性yi取值为yi,j的概率;log为取对数;Hx(yi)表示在数据集x内离散属性yi的信息熵。
每个属性的权重计算公式为:
Figure BDA0002325649820000101
其中:wx为属性yi的权重,Hx(yi)含义同上;
Figure BDA0002325649820000102
表示自然指数e的指数操作。
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数。
加权熵增益计算公式:
Figure BDA0002325649820000103
其中:
Figure BDA0002325649820000104
表示加权熵增益,Hx\(x0)(yi)代表去掉当前数据(x0)后的总熵。
若一条数据的映入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
属性值a的均值向量μa的计算公式:
Figure BDA0002325649820000105
其中supp(a)为拥有该值的数据条数,
Figure BDA0002325649820000106
代表拥有该值的每条数据,
Figure BDA0002325649820000107
代表第i行数据的所有连续值组成的向量。
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及离散属性数量的倒数作为权重进行加权求和作为连续性异常系数。
余弦相似度公式为:
Figure BDA0002325649820000111
其中:
xi,j为第i行第j维向量的取值,q代表连续型属性,||X||代表向量X的L2正则项值。
连续属性异常系数公式为:
Figure BDA0002325649820000112
其中,c为离散型属性;
Figure BDA0002325649820000113
为第i行离散型属性向量,|a|为离散属性的个数。
若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
本发明提出加权总熵概念,通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;而对于档案不异常的用户,通过计算每个用户的实际用电特征向量与该用户每种档案特征的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别是否异常。采用余弦相似度方法实现对每个用户的用电行为特征在该用户所属档案群体内的离群程度的评估。基于本发明,无需再借助于人工经验规则,而是将输入灌入到本发明的软件系统之后,经过各模块的数据处理和分析,档案异常、档案不异常而用电异常等所代表的计费不公平用户将被自动的标记为异常用户,成为系统输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;其特征在于:所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化以及增量读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据基于电力计费的业务规则进行进一步的关联整合构成混合属性向量,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练模块包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块生成的模型以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,按照公式进行组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值特征保存到数据仓库中以供后期人工筛查及复合参考。
2.根据权利要求1所述的基于混合计费数据的电力计费公平性智能分析系统,其特征在于:所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
3.根据权利要求1所述的基于混合计费数据的电力计费公平性智能分析系统,其特征在于:所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
4.根据权利要求3所述的基于混合计费数据的电力计费公平性智能分析系统,其特征在于:所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
5.基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括使用权利要求1-4任意一项所述的基于混合计费数据的电力计费公平性智能分析系统对基于混合计费数据的电力计费公平性进行分析;其特征在于:该分析方法包括以下步骤:
步骤1、数据读取:
将与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号等关联主键的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充的手段排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构建特征向量;
步骤4、建立混合属性异常训练模型,分析、评估档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
6.根据权利要求5所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:步骤401中所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种档案属性中每个值所包含的数据量与用户总数;
4012)根据步骤401的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性的信息熵差值加权求和得到加权熵增益作为档案异常系数。
7.根据权利要求5所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种档案属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及分类属性数量的倒数作为权重进行加权求和作为连续性异常系数。
8.根据权利要求5所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤403中,若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
9.根据权利要求6所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤4013中,若一条数据的引入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
10.根据权利要求7所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤4023中,若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
CN201911315191.XA 2019-12-19 2019-12-19 基于混合计费数据的电力计费公平性智能分析系统及方法 Active CN111062620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315191.XA CN111062620B (zh) 2019-12-19 2019-12-19 基于混合计费数据的电力计费公平性智能分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315191.XA CN111062620B (zh) 2019-12-19 2019-12-19 基于混合计费数据的电力计费公平性智能分析系统及方法

Publications (2)

Publication Number Publication Date
CN111062620A true CN111062620A (zh) 2020-04-24
CN111062620B CN111062620B (zh) 2022-07-29

Family

ID=70301208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315191.XA Active CN111062620B (zh) 2019-12-19 2019-12-19 基于混合计费数据的电力计费公平性智能分析系统及方法

Country Status (1)

Country Link
CN (1) CN111062620B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231299A (zh) * 2020-09-27 2021-01-15 中国建设银行股份有限公司 一种特征库动态调整的方法和装置
CN115795314A (zh) * 2023-02-07 2023-03-14 山东海量信息技术研究院 一种关键样本采样方法、系统、电子设备及存储介质
CN115859944A (zh) * 2023-02-15 2023-03-28 莱芜职业技术学院 基于大数据的计算机数据挖掘方法
CN116168490A (zh) * 2023-01-12 2023-05-26 南京易自助网络科技有限公司 基于物联网的自动洗车远程交互系统及其控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334073A1 (en) * 2013-03-15 2014-11-13 Moloney Electric Inc. Apparatus for protecting against theft of electricity from distribution transformers
CN106355209A (zh) * 2016-09-07 2017-01-25 国网电力科学研究院武汉南瑞有限责任公司 基于决策树算法的窃电诊断系统及方法
CN107221927A (zh) * 2017-05-23 2017-09-29 国电南瑞三能电力仪表(南京)有限公司 一种基于量化评估模型窃电嫌疑分析算法的反窃电分析方法
CN107958395A (zh) * 2017-12-13 2018-04-24 美林数据技术股份有限公司 一种电力系统异常用户的识别方法
CN109325542A (zh) * 2018-10-09 2019-02-12 烟台海颐软件股份有限公司 一种基于多阶机器学习的电量异常智能识别方法及系统
CN109359848A (zh) * 2018-10-09 2019-02-19 烟台海颐软件股份有限公司 一种线损异常相关的用电户识别方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334073A1 (en) * 2013-03-15 2014-11-13 Moloney Electric Inc. Apparatus for protecting against theft of electricity from distribution transformers
CN106355209A (zh) * 2016-09-07 2017-01-25 国网电力科学研究院武汉南瑞有限责任公司 基于决策树算法的窃电诊断系统及方法
CN107221927A (zh) * 2017-05-23 2017-09-29 国电南瑞三能电力仪表(南京)有限公司 一种基于量化评估模型窃电嫌疑分析算法的反窃电分析方法
CN107958395A (zh) * 2017-12-13 2018-04-24 美林数据技术股份有限公司 一种电力系统异常用户的识别方法
CN109325542A (zh) * 2018-10-09 2019-02-12 烟台海颐软件股份有限公司 一种基于多阶机器学习的电量异常智能识别方法及系统
CN109359848A (zh) * 2018-10-09 2019-02-19 烟台海颐软件股份有限公司 一种线损异常相关的用电户识别方法与系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231299A (zh) * 2020-09-27 2021-01-15 中国建设银行股份有限公司 一种特征库动态调整的方法和装置
CN112231299B (zh) * 2020-09-27 2024-02-20 中国建设银行股份有限公司 一种特征库动态调整的方法和装置
CN116168490A (zh) * 2023-01-12 2023-05-26 南京易自助网络科技有限公司 基于物联网的自动洗车远程交互系统及其控制方法
CN116168490B (zh) * 2023-01-12 2023-09-12 南京易自助网络科技有限公司 基于物联网的自动洗车远程交互系统及其控制方法
CN115795314A (zh) * 2023-02-07 2023-03-14 山东海量信息技术研究院 一种关键样本采样方法、系统、电子设备及存储介质
CN115795314B (zh) * 2023-02-07 2023-05-12 山东海量信息技术研究院 一种关键样本采样方法、系统、电子设备及存储介质
CN115859944A (zh) * 2023-02-15 2023-03-28 莱芜职业技术学院 基于大数据的计算机数据挖掘方法
CN115859944B (zh) * 2023-02-15 2023-10-17 莱芜职业技术学院 基于大数据的计算机数据挖掘方法

Also Published As

Publication number Publication date
CN111062620B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111062620B (zh) 基于混合计费数据的电力计费公平性智能分析系统及方法
CN114298863B (zh) 一种智能抄表终端的数据采集方法及系统
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
CN109308571B (zh) 配电线路线变关系检测方法
CN107145966A (zh) 基于逻辑回归概率分析优化模型的反窃电分析预警方法
CN112488395A (zh) 一种配电网线损预测方法及系统
CN114462133A (zh) 基于数字孪生技术装备产品碳足迹数字化核算方法及系统
CN114386537B (zh) 基于CatBoost的锂电池故障诊断方法、装置及电子设备
CN114004296A (zh) 一种基于电力负荷特征反向提取监测点的方法及系统
CN112149873A (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN113687176B (zh) 一种基于深度神经网络的用电异常检测方法、系统
CN112308459A (zh) 电网户变关系的识别方法及识别装置、电子设备
CN116148753A (zh) 一种智能电能表运行误差监测系统
CN110532301A (zh) 审计方法、系统和可读存储介质
CN113469571A (zh) 数据质量评价方法、装置、计算机设备及可读存储介质
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN115293257A (zh) 一种针对异常用电用户的检测方法及系统
CN110555619A (zh) 一种基于智能配电网的供电能力评估方法
CN114548493A (zh) 一种电能表电流过载预测方法与系统
CN114202179A (zh) 目标企业的识别方法以及装置
CN112508260B (zh) 基于对比学习的配电变压器中长期负荷预测方法及装置
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN111612149A (zh) 一种基于决策树的主网线路状态检测方法、系统及介质
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN113240010B (zh) 一种支持非独立分布混合数据的异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant