CN111062620B - 基于混合计费数据的电力计费公平性智能分析系统及方法 - Google Patents
基于混合计费数据的电力计费公平性智能分析系统及方法 Download PDFInfo
- Publication number
- CN111062620B CN111062620B CN201911315191.XA CN201911315191A CN111062620B CN 111062620 B CN111062620 B CN 111062620B CN 201911315191 A CN201911315191 A CN 201911315191A CN 111062620 B CN111062620 B CN 111062620B
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- charging
- module
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 76
- 230000002159 abnormal effect Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 58
- 230000010354 integration Effects 0.000 claims abstract description 51
- 230000005611 electricity Effects 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000006399 behavior Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000005259 measurement Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000011157 data evaluation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于混合计费数据的电力计费公平性智能分析系统及方法,属于电力计费领域,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;数据处理部分的输入端与数据集成部分的输出端进行连接,数据处理部分的输出端与模型训练部分的输入端进行连接,公平性分析模块的输入端与模型训练部分的输出端进行连接。本发明通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;通过计算每个用户的实际用电特征向量与该用户每种档案特征的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别档案属性相同情况下该用户的用电行为数据是否异常。
Description
技术领域
本发明属于电力计费技术领域,具体涉及一种基于混合计费数据的电力计费公平性智能分析系统及方法。
背景技术
电力用户的电力档案和用电行为的一致性直接影响到计费的公平性。如果一个电力用户的电力档案与其用电行为不符,表明该电力用户计费档案存在问题,很有可能存在违约用电等问题,从而会造成电费少收、漏收,供电企业带来经济损失。而由于用户的计费档案主要是分类型数据,用电行为主要是数值型数据,因此问题就变成了从由计费档案和用电行为构成的混合型数据中发现异常数据。
针对上述问题,目前电力计费领域在具体应用中仅能依靠人工经验制订规则,然后进行软件编码转换进行处理,而实际工作中发现依赖人工经验的方法存在诸多不足,无法有效的将计费档案和用电数据联合起来识别其中存在的问题。
发明内容
本发明的目的在于提供基于混合计费数据的电力计费公平性智能分析系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化以及增量读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据基于电力计费的业务规则进行进一步的关联整合构成混合属性向量,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练模块包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块生成的模型以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,按照公式进行组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值特征保存到数据仓库中以供后期人工筛查及复合参考。
作为一种优选的实施方式,所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
作为一种优选的实施方式,所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
作为一种优选的实施方式,所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括以下步骤:
步骤1、数据读取:
将与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充的手段排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构件特征向量;
步骤4、建立混合属性异常训练模型,分析、评估档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
作为一种优选的实施方式,步骤401中所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种属性中每个值所包含的数据量与用户总数;
4012)根据步骤401的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数。
作为一种优选的实施方式,步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及离散属性数量的倒数作为权重进行加权求和作为连续性异常系数。
作为一种优选的实施方式,所述步骤403中,若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
作为一种优选的实施方式,所述步骤4013中,若一条数据的映入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
作为一种优选的实施方式,所述步骤4023中,若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
与现有技术相比,本发明的有益效果是:
本发明提出加权总熵概念,通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;而对于档案不异常的用户,通过计算每个用户的实际用电特征向量与该用户每种档案特征(离散属性)的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别是否异常。采用余弦相似度方法实现对每个用户的用电行为特征在该用户所属档案群体内的离群程度的评估。基于本发明,无需再借助于人工经验规则,而是将输入灌入到本发明的软件系统之后,经过各模块的数据处理和分析,档案异常、档案不异常而用电异常等所代表的计费不公平用户将被自动的标记为异常用户,成为系统输出。
附图说明
图1为基于混合计费数据的电力计费公平性智能分析系统的结构框图;
图2为基于混合计费数据的电力计费公平性智能分析系统中数据集成部分的结构框图;
图3为基于混合计费数据的电力计费公平性智能分析系统中数据处理部分的结构框图;
图4为基于混合计费数据的电力计费公平性智能分析系统中模型训练部分的结构框图。
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。
请参阅图1-4,本发明提供了一种基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;其特征在于:所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化以及增量读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据基于电力计费的业务规则进行进一步的关联整合构成混合属性向量,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练模块包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块生成的模型以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,按照公式进行组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值特征保存到数据仓库中以供后期人工筛查及复合参考。
在本发明中,进一步的,所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
在本发明中,进一步的,所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
在本发明中,进一步的,所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
本发明还提供一种基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括以下步骤:
步骤1、数据读取:
将与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充的手段排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构件特征向量;
步骤4、建立混合属性异常训练模型,分析、评估档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种属性中每个值所包含的数据量与用户总数;
4012)根据步骤401的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
总熵的计算公式为:
其中:,HLx为数据集x的总熵,y为离散属性集合,i为属性索引,yi为索引为i的离散属性,m为离散属性的个数,j离散属性的一个取值;p(yi,j)为属性yi取值为yi,j的概率;log为取对数;Hx(yi)表示在数据集x内离散属性yi的信息熵。
每个属性的权重计算公式为:
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数。
加权熵增益计算公式:
其中:
若一条数据的映入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
属性值a的均值向量μa的计算公式:
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及离散属性数量的倒数作为权重进行加权求和作为连续性异常系数。
余弦相似度公式为:
其中:
xi,j为第i行第j维向量的取值,q代表连续型属性,||X||代表向量X的L2正则项值。
连续属性异常系数公式为:
若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
本发明提出加权总熵概念,通过计算每条数据对整个数据集的加权总熵产生的信息增益,实现对档案异常水平的评估及档案数据异常的筛选;而对于档案不异常的用户,通过计算每个用户的实际用电特征向量与该用户每种档案特征的特征值所涉及的所有用户样本的平均用电特征向量偏离程度识别是否异常。采用余弦相似度方法实现对每个用户的用电行为特征在该用户所属档案群体内的离群程度的评估。基于本发明,无需再借助于人工经验规则,而是将输入灌入到本发明的软件系统之后,经过各模块的数据处理和分析,档案异常、档案不异常而用电异常等所代表的计费不公平用户将被自动的标记为异常用户,成为系统输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.基于混合计费数据的电力计费公平性智能分析系统,该分析系统包括数据集成部分、数据处理部分、模型训练部分、公平性分析模块和输出模块;其特征在于:所述数据处理部分的输入端与数据集成部分的输出端进行连接,所述数据处理部分的输出端与模型训练部分的输入端进行连接,所述公平性分析模块的输入端与模型训练部分的输出端进行连接,所述输出模块的输入端与公平性分析模块的输出端进行连接;
所述数据集成部分包括基础数据整合模块以及与基础数据整合模块的输入端进行连接的档案数据集成模块和用电行为数据集成模块;
所述档案数据集成模块用于与现有电力营销计费系统的库表进行交互,进行用户档案的全量初始化增量以及读取、处理、更新、储存为系统所需的统一格式,并完成档案变更历史记录储存管理、索引规划及构建工作,用户档案主要是分类型数据;
所述用电行为数据集成模块用于同时监测及读取来源不同、格式不同的多源用户用电行为数据并进行相应的类型转换、特征选择、异常数据处理、无效数据筛查、多源数据关联及储存工作,用电行为数据主要是数值型数据;
所述基础数据整合模块用于将所述档案数据集成模块和用电行为数据集成模块收集到的数据进行进一步的关联整合,对部分用电行为数据不全、档案发生重大变更的用户进行针对性处理,生成联合宽表或视图;
所述数据处理部分包括分类型特征处理模块和数值型特征处理模块;
所述分类型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的离散型数据进行收集、统计和处理,将算法无法直接处理的文本数据转化为能被接受的数值型数据,并构建特征向量模型;
所述数值型特征处理模块用于对所述基础数据整合模块生成的联合宽表或视图中的连续型数据进行标准化、统计、预计算及特征值计算,并构建特征向量模型;
所述模型训练部分包括计费档案加权总熵增益计算与公平性分析模型训练模块和档案驱动的用电行为公平性度量模型训练模块;
所述计费档案加权总熵增益计算与公平性分析模型训练模块用于使用所述分类型特征处理模块生成的特征向量训练模型,收集及计算用于算取每条数据总熵增益值的所需信息;
所述档案驱动的用电行为公平性度量模型训练模块用于将所述分类型特征处理模块生成的特征向量与所述数值型特征处理模块生成的特征向量组合生成新的特征向量,并用新特征向量训练用电行为公平性分析模型,计算包括每个离散型变量值所对应数据特征向量的均值向量及对应数据量在内信息;
所述公平性分析模块调用所述计费档案加权总熵增益计算与公平性分析模型训练模块和所述档案驱动的用电行为公平性度量模型训练模块得到的信息以分别分析计算每个用户的计费档案加权总熵增益及该用户与其同档案用户特征向量的均值向量的余弦距离,组合得到用户的混合属性计费公平异常评估值;
所述输出模块用于根据需求筛选出计费公平异常评估值较高的用户,并将用户档案和用电行为的异常评估值保存到数据仓库中以供后期人工筛查及复合参考;
总熵的计算公式为:
其中:HLx为数据集x的总熵,y为离散属性集合,i为属性索引,yi为索引为i的离散属性,m为离散属性的个数,j离散属性的一个取值;p(yi,j)为属性yi取值为yi,j的概率;log为取对数;Hx(yi)表示在数据集x内离散属性yi的信息熵;
每个属性的权重计算公式为:
在输入待测数据集时,计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数;
加权熵增益计算公式:
其中:
所述预计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的平均数或中位数。
2.根据权利要求1所述的基于混合计费数据的电力计费公平性智能分析系统,其特征在于:所述分类型特征处理模块还用于统计记录转化后数值与其实际含义的映射关系。
3.根据权利要求1所述的基于混合计费数据的电力计费公平性智能分析系统,其特征在于:所述特征值计算包括计算所述基础数据整合模块生成的联合宽表或视图中的连续型数据的波动率、电量差、偏离度、振幅及方差。
4.基于混合计费数据的电力计费公平性智能分析方法,该分析方法包括使用权利要求1-3任意一项所述的基于混合计费数据的电力计费公平性智能分析系统对基于混合计费数据的电力计费公平性进行分析;其特征在于:该分析方法包括以下步骤:
步骤1、数据读取:
将存储在数据库中的、与计费公平性相关的数据读取、处理、更新、储存为系统所需的统一格式;
步骤2、数据处理:
201)计费档案属性的类型统一及空值填充:将离散型用户档案数据统一并根据需要对空值进行赋值;
202)档案变更用户处理:在连续属性异常识别模型的训练集中排除用户档案变更影响的用户用电情况变化的数据;
203)客户用电数据关联:通过用户编号的方式对来自不同数据表的数据进行关联组成混合属性特征表示;
204)异常数据处理:对整个数据集进行分析、收集、业务核对和空值填充,排除特征属性中存在少量由录入时误输入、计算错误或版本迭代的原因带来的异常值;
步骤3、特征值计算:
为离散型变量赋予数值并保存映射关系,将离散型变量数值和连续性变量分别构建特征向量;
步骤4、建立混合属性异常训练模型,分析、评估用户档案数据异常程度:
401)通过建立离散型异常识别训练模型,得到离散型档案异常系数;
402)通过建立连续型异常识别训练模型,得到连续性异常系数;
403)将步骤401和步骤402中建立的离散型异常识别训练模型和连续型异常识别训练模型结合建立混合属性异常训练模型,将离散型异常识别训练模型和连续型异常识别训练模型均需要的信息由混合属性异常训练模型统一计算,并输出混合属性异常程度评价。
5.根据权利要求4所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:步骤401中所述的离散型异常识别训练模型包括以下步骤:
4011)统计并记录每种属性中每个值所包含的数据量与用户总数;
4012)根据步骤4011的统计数据计算每个属性的信息熵,并根据信息熵计算每个属性权重;
4013)在输入待测数据集时,结合步骤4011和步骤4012的数据计算每条数据每个属性在该数据不存在时的条件熵,将条件熵与该属性的信息熵求差,将所有属性加权求和得到加权熵增益作为档案异常系数。
6.根据权利要求4所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:步骤402中所述的连续型异常识别训练模型包括以下步骤:
4021)统计并记录每种属性中每个值所包含的数据量与用户总数;
4022)针对每个档案属性,计算每个属性值所涉及数据子集的连续属性的均值向量;
4023)当输入待测数据集时,结合步骤4021和步骤4022的数据计算每条数据每个属性值的均值向量与该数据连续属性向量的余弦相似度,并以该属性所涉及数据条数的倒数作为权重进行加权求和作为连续性异常系数。
7.根据权利要求4所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤403中,若档案属性或连续属性给出较高的异常数据评价时,直接将该数据视为疑似异常数据;反之则将二者通过给定的权重比例进行加权求和,加权总和大于给定阀值的数据视为疑似异常数据,除此之外视为正常数据。
8.根据权利要求5所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤4013中,若一条数据的引入导致数据集总熵增加越明显,则该数据存在异常的概率越大;反之,异常概率越小。
9.根据权利要求6所述的基于混合计费数据的电力计费公平性智能分析方法,其特征在于:所述步骤4023中,若某个档案属性值的数据量过小,则将该属性的预选相似度强制指定为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315191.XA CN111062620B (zh) | 2019-12-19 | 2019-12-19 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911315191.XA CN111062620B (zh) | 2019-12-19 | 2019-12-19 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062620A CN111062620A (zh) | 2020-04-24 |
CN111062620B true CN111062620B (zh) | 2022-07-29 |
Family
ID=70301208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911315191.XA Active CN111062620B (zh) | 2019-12-19 | 2019-12-19 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062620B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231299B (zh) * | 2020-09-27 | 2024-02-20 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN116168490B (zh) * | 2023-01-12 | 2023-09-12 | 南京易自助网络科技有限公司 | 基于物联网的自动洗车远程交互系统及其控制方法 |
CN115795314B (zh) * | 2023-02-07 | 2023-05-12 | 山东海量信息技术研究院 | 一种关键样本采样方法、系统、电子设备及存储介质 |
CN115859944B (zh) * | 2023-02-15 | 2023-10-17 | 莱芜职业技术学院 | 基于大数据的计算机数据挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355209A (zh) * | 2016-09-07 | 2017-01-25 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于决策树算法的窃电诊断系统及方法 |
CN107221927A (zh) * | 2017-05-23 | 2017-09-29 | 国电南瑞三能电力仪表(南京)有限公司 | 一种基于量化评估模型窃电嫌疑分析算法的反窃电分析方法 |
CN107958395A (zh) * | 2017-12-13 | 2018-04-24 | 美林数据技术股份有限公司 | 一种电力系统异常用户的识别方法 |
CN109325542A (zh) * | 2018-10-09 | 2019-02-12 | 烟台海颐软件股份有限公司 | 一种基于多阶机器学习的电量异常智能识别方法及系统 |
CN109359848A (zh) * | 2018-10-09 | 2019-02-19 | 烟台海颐软件股份有限公司 | 一种线损异常相关的用电户识别方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140334073A1 (en) * | 2013-03-15 | 2014-11-13 | Moloney Electric Inc. | Apparatus for protecting against theft of electricity from distribution transformers |
-
2019
- 2019-12-19 CN CN201911315191.XA patent/CN111062620B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355209A (zh) * | 2016-09-07 | 2017-01-25 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于决策树算法的窃电诊断系统及方法 |
CN107221927A (zh) * | 2017-05-23 | 2017-09-29 | 国电南瑞三能电力仪表(南京)有限公司 | 一种基于量化评估模型窃电嫌疑分析算法的反窃电分析方法 |
CN107958395A (zh) * | 2017-12-13 | 2018-04-24 | 美林数据技术股份有限公司 | 一种电力系统异常用户的识别方法 |
CN109325542A (zh) * | 2018-10-09 | 2019-02-12 | 烟台海颐软件股份有限公司 | 一种基于多阶机器学习的电量异常智能识别方法及系统 |
CN109359848A (zh) * | 2018-10-09 | 2019-02-19 | 烟台海颐软件股份有限公司 | 一种线损异常相关的用电户识别方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111062620A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062620B (zh) | 基于混合计费数据的电力计费公平性智能分析系统及方法 | |
CN114298863B (zh) | 一种智能抄表终端的数据采集方法及系统 | |
CN110231528B (zh) | 基于负荷特征模型库的变压器户变异常识别方法及装置 | |
CN110222991B (zh) | 基于rf-gbdt的计量装置故障诊断方法 | |
CN109308571B (zh) | 配电线路线变关系检测方法 | |
CN107145966A (zh) | 基于逻辑回归概率分析优化模型的反窃电分析预警方法 | |
CN114462133A (zh) | 基于数字孪生技术装备产品碳足迹数字化核算方法及系统 | |
CN115170000B (zh) | 一种基于电能表通信模块的远程监测方法及系统 | |
CN114004296A (zh) | 一种基于电力负荷特征反向提取监测点的方法及系统 | |
CN116148753A (zh) | 一种智能电能表运行误差监测系统 | |
CN110532301A (zh) | 审计方法、系统和可读存储介质 | |
CN111612149A (zh) | 一种基于决策树的主网线路状态检测方法、系统及介质 | |
CN115409120A (zh) | 一种基于数据驱动的用户窃电行为检测辅助方法 | |
CN114548493A (zh) | 一种电能表电流过载预测方法与系统 | |
CN110555619A (zh) | 一种基于智能配电网的供电能力评估方法 | |
CN114202179A (zh) | 目标企业的识别方法以及装置 | |
CN110826827B (zh) | 基于能源互联网的企业在线能源审计系统及方法 | |
CN110781959A (zh) | 基于birch算法和随机森林算法的电力客户分群方法 | |
CN116249186A (zh) | 无线网设备的数据处理方法、装置、存储介质及电子设备 | |
CN113240010B (zh) | 一种支持非独立分布混合数据的异常检测方法及系统 | |
CN113450142B (zh) | 一种电力客户用电行为聚类分析方法及装置 | |
CN112215420B (zh) | 一种居民用电的客户过户识别方法及系统 | |
CN113256092A (zh) | 基于改进优化隶属度函数的便携式电量计量装置评估方法 | |
CN112001551A (zh) | 一种基于大用户电量信息的地市电网售电量预测方法 | |
CN117371861B (zh) | 基于数字化的家政服务质量智能分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |