CN113705229B

CN113705229B - 基于电力大数据的高危企业违规生产识别方法

Info

Publication number: CN113705229B
Application number: CN202110977166.9A
Authority: CN
Inventors: 刘颖; 陈霄; 裴子霞; 杨美蓉; 何维民; 赵双双; 王贺; 丁泽诚; 尹泽然; 周家亿; 陈奕彤
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-11-10
Anticipated expiration: 2041-08-24
Also published as: CN113705229A

Abstract

本发明公开了一种基于电力大数据的高危企业违规生产识别方法，其特征在于，该方法包括以下步骤：步骤1，获取高危企业和非高危企业清单，匹配用电量数据和用户基本信息，并对数据进行预处理；步骤2，构建企业特性特征库，提取并筛选企业特性特征；步骤3，利用筛选出的企业特性特征建立并训练高危企业识别模型，识别出高危企业；步骤4，对于识别出的高危企业，构建用电生产特性特征库，提取并筛选用电特性特征；步骤5，利用筛选出的用电生产特性特征建立并训练违规生产识别模型，识别出违规生产的高危企业。本发明可识别潜在的高危企业违规生产，化被动监管为主动预防，将高危企业的风险降到最低。

Description

基于电力大数据的高危企业违规生产识别方法

技术领域

本发明属于智能电网技术领域，具体涉及一种利用电力大数据识别高危企业违规生产的方法。

背景技术

危险化学品、矿山、烟花爆竹等高危行业企业易产生重大安全事故，造成严重后果。一些整改不力、验收不合格的高危企业关停后，仍存在明停暗开、日停夜开和边建边开等违规生产行为，这样的行为使得传统监管方法难以开展，管理人员现场检查时难以查获违规生产证据，一线执法人员工作量大。

随着智能电网的飞速发展和大数据技术日益成熟，基于电力大数据的应用也被广泛提出。目前针对企业生产模式识别的方法大多基于传统的统计方法进行，例如通过对企业正常生产下的生产特性进行划分，根据标准差与方差的比值小于设定阈值，判定企业正常生产典型日用电曲线具有连续生产特性；否则，判定企业具有间歇生产特性。然而，传统统计的方法没能真正利用大数据的优势，挖掘出深层次的信息。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种基于电力大数据的高危企业违规生产识别方法，通过将企业用电数据与企业特性结合，依托词向量建立本文信息关联，可以识别出区域内潜在的高危用户，减轻管理人员现场检查的工作量；利用企业年用电量、日电力负荷以及企业的基础信息构建企业多维度特征，建立机器学习模型挖掘出是否存在违规生产行为。

本发明采用如下的技术方案：

一种基于电力大数据的高危企业违规生产识别方法，其特征在于，该方法包括以下步骤：

步骤1，获取高危企业和非高危企业清单，匹配用电量数据和用户基本信息，并对数据进行预处理；

步骤2，构建企业特性特征库，提取并筛选企业特性特征；

步骤3，利用筛选出的企业特性特征建立并训练高危企业识别模型，识别出高危企业；

步骤4，对于识别出的高危企业，构建用电生产特性特征库，提取并筛选用电特性特征；

步骤5，利用筛选出的用电生产特性特征建立并训练违规生产识别模型，识别出违规生产的高危企业。

优选的，步骤1包括：

步骤1.1，获取高危企业清单；

步骤1.2，将清单上传至数据平台，与用电信息数据库进行匹配，获取清单企业的用电量数据和用户基本信息；

步骤1.3，对数据进行预处理。

优选的，步骤1.3包括：

步骤1.3.1，进行数据清洗，包括去除异常值以及对数据进行补全；

步骤1.3.2，进行数据归一化；

步骤1.3.3，导出数据用于进行企业特性和用电生产特性的特征提取。

优选的，步骤2包括：

步骤2.1，构建企业特性特征库；

步骤2.2，计算信息增益值，对企业特性特征进行筛选。

优选的，所述企业特性特征库的企业特性特征包括地域特征、名称特征、用电量特征以及用电特性特征。

优选的，步骤2.1包括：

步骤2.1.1，获取地域特征，对地域进行分类变量的编码映射；

步骤2.1.2，获取名称特征，求得企业名称与高危企业相似度得分，作为名称特征；

步骤2.1.3，获取用电量特征，包括日均用电量和四季日均用电量；

步骤2.1.4，获取用电特性特征，包括高低压和运行容量。

优选的，步骤2.1.2包括：

步骤2.1.2.1，根据高危违规生产企业清单中的企业名称对高危企业清单关键词词频进行统计，确定高危企业的关键词；

步骤2.1.2.2，计算未知分类的企业名称与高危企业之间的相似度得分。

优选的，步骤2.1.2.2包括：

步骤a，对未知分类的企业名称进行分词处理；

步骤b，获取每个词的词向量表征；

步骤c，对于未知分类的企业名称的每个词，分别计算每个词向量与高危企业关键词的每一个词向量之间的余弦相似度；

步骤d，将企业名称的所有词中余弦相似度的最大值作为该企业与高危企业相似度得分。

优选的，步骤d中，余弦相似度的计算如下：

其中，a和b分别为未知分类的企业名称词向量与高危企业关键词词向量，cos(θ)为a和b之间的余弦相似度。

优选的，步骤2.2中，信息增益值的计算如下：

其中，H_D表示信息熵，即H信息，p_i表示特征D处于某一个类别的概率，n表示分类数；H_增益表示信息增益，H_信息表示在不知道任何特征信息时整个数据集合的信息熵，|D|表示样本总数，|D^V|表示样本中特征值为V的数量，V表示特征D可取的值的数量；

信息增益值越大，代表该特征对进行高危企业识别贡献越多的信息量。

优选的，筛选出的企业特性特征包括名称特征的相似度得分、地域特征、用电量特征的四季日均用电量以及用电特性特征中的运行容量。

优选的，步骤3中，采用逻辑回归进行二分类建模，通过极大似然估计进行拟合，使得模型预测的准确性最大。

优选的，步骤4包括：

步骤4.1，构建用电生产特性特征库，用电生产特性特征库的用电生产特性特征包括用电峰谷特性特征、节假日用电特性特征、以及间断生产特性特征；

步骤4.2，计算信息增益值，对用电生产特性特征进行筛选。

优选的，步骤4.1包括：

步骤4.1.1，获取用电峰谷特性特征，包括峰时用电量和谷时用电量；

步骤4.1.2，获取节假日用电特性特征，包括节假日用电量和工作日用电量；

步骤4.1.3，获取间断生产特性特征信息，包括连续生产频率和间断生产频率。

优选的，步骤4.1.3包括：

步骤4.1.3.1，根据企业年度日用电量分析得到正常生产时的用电量范围以及停产时的用电量范围。

步骤4.1.3.2，根据用电情况，统计企业近一年内的连续生产天数间断生产天数，统计企业一年内连续生产的频率和间断生产的频率，一周都生产则认为这个星期是连续生产，其中，每天是否生产的判断标准是用当天的电量和4.1.3.1中正常生产时的用电范围比较得到，连续生产频率就是一年内连续生产的星期数除以一年的总周数，间断生产频则是一年内间断生产的星期数除以一年的总周数。

优选的，步骤4.2中，计算信息增益值筛选用电生产特性特征，通过筛选，选出的用电生产特性特征包括用电峰谷特性特征中的峰时用电量和谷时用电量、节假日用电特性特征的节假日用电量和工作日用电量、以及间断生产特性特征的间断生产频率。

优选的，步骤5中，采用逻辑回归进行二分类建模，通过极大似然估计进行拟合，使得模型预测的准确性最大。

本发明的有益效果在于，与现有技术相比，本发明的基于电力大数据的高危企业违规生产识别方法通过已知的高危企业清单，利用电力大数据，将企业特性与用电特性相结合，构建针对性的多维特征库，利用信息增益进行特征筛选后建模，可识别潜在的高危企业违规生产，化被动监管为主动预防，将高危企业的风险降到最低。本发明通过电力大数据模型进行筛查，减少一线人员挨家挨户排查，大幅降低工作量。通过用电数据的支持，本发明能有效获取高危企业违规生产时间，提升管理人员上门检查的有效性。本发明能够有效缓解关停企业明停暗开、日停夜开和边建边开等违规生产行为，导致应急管理人员现场检查时难以查获违规生产证据，一线执法人员工作量大的问题。

附图说明

图1是本发明的基于电力大数据的高危企业违规生产识别方法的步骤流程图；

图2是本发明的基于电力大数据的高危企业违规生产识别方法中对数据进行预处理的流程图；

图3是本发明的基于电力大数据的高危企业违规生产识别方法中进行企业特性特征提取的流程图；

图4是本发明的基于电力大数据的高危企业违规生产识别方法中进行用电特性特征提取的流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本发明利用电力大数据对潜在高危企业违规生产行为进行识别，主要包含两部分，首先通过企业特性识别是否是高危企业，然后对企业是否存在违规生产进行识别。图1示出了本发明的基于电力大数据的高危企业违规生产识别方法的步骤流程图。

本发明的基于电力大数据的高危企业违规生产识别方法具体包括：

步骤1，获取高危企业和非高危企业清单，匹配用电量数据和用户基本信息，并对数据进行预处理。

具体的，参见图2，步骤1包括：

步骤1.1，获取高危企业清单和非高危企业清单。从高危违规生产企业清单中获取高危企业清单再从所有企业中挑选正常生产即非高危企业清单。在本发明的一个实施例中，获取南京，无锡和扬州三个地市的高危违规生产企业和非高危企业清单。优选的，获得的清单为excel形式的源数据。

步骤1.2，将清单上传至数据平台，与用电信息数据库进行匹配，获取清单企业的用电量数据和用户基本信息。在本发明的一个实施例中，获取企业近一年的日用电量、近一个月的用电负荷和基本信息。近一年的日用电量，相对用电负荷比较粗糙，从中可以看出季节性生产规律以及节假日生产特性。近一个月的日用电负荷，用电负荷通常是指一天内取96个点，从中可以看出不同时间段的用电量情况以及峰谷生产情况。

步骤1.3，对数据进行预处理。如图2所示，步骤1.3的预处理具体包括：

步骤1.3.1，进行数据清洗。数据清洗包括去除用电异常值、空值等，具体包括剔除一年日用电量和一个月用电负荷中为负值的异常数据和为空值的数据。再对剔除后的数据进行完整度分析，采集完整度大于80％的数据进行补全。比如一年365天，有效数据需达到365*0.8＝292个。对于满足完整度要求的数据，采用五点平滑算法进行数据补全。

步骤1.3.2，进行数据归一化。由于不同类型的数据单位都是不一致的，未来消除不同量级的影响，对于同一类型的数据，将数值归一化到0-1之间。归一化的公式为：

其中，x为原始数据，x_min和x_max分别为原始数据的最小值和最大值，x^*为归一化之后的数据。

步骤2，构建企业特性特征库，提取并筛选企业特性特征。

具体的，步骤2进一步包括：

步骤2.1，构建企业特性特征库。

如图3所示，企业特性特征包括地域特征、名称特征、用电量特征以及用电特性特征四个方面。通过对高危行业企业的定义和清单可以看出，高危企业与行业相关性极大，主要包括：石油、天然气、矿产资源勘探和生产，危险品生产，化工企业。这类企业一方面可以通过名称判别，另一方面还可以通过这类行业的生产特性例如淡季旺季等因素进行判断。另外，通过对高危企业的初步分析发现，不同地区的高危企业用电量差异较大，例如南京的高危企业均有较大的用电量，因此这也是一个影响高危企业判别的重要因素。

步骤2.1.1，获取地域特征，对地域进行分类变量的编码映射。在本发明的一个实施例中，可将南京、无锡、扬州通过one-hot编码转化为数字编码，例如南京[1,0,0]、无锡[0,1,0]、扬州[0,0,1]。

步骤2.1.2，获取名称特征，求得企业名称与高危企业相似度得分，作为名称特征。具体包括以下步骤：

步骤2.1.2.1，根据高危违规生产企业清单中的企业名称对高危企业清单关键词词频进行统计，确定高危企业的关键词。

《高危行业企业安全生产费用财务管理暂行办法》中明确规定了高危行业企业范围，具体包括：石油、天然气、矿产资源勘探和生产，危险品生产，化工企业等。根据高危违规生产企业清单名称结合该行业规范，对高危企业清单关键词词频进行统计，得到统计结果。在本发明的一个实施例中，例如化工、石油、材料等都是高频词，均是高危企业清单中企业名称里出现频率较高的词，对词语和频率进行统计得到结果如下：化工26.67％，材料12.22％，助剂8.33％，涂料7.22％，锌7.22％，科技6.11％，润滑油2.78％，密封2.22％，化学1.67％，石油1.67％，建材1.11％。根据高频词结合行业规范确定高危企业的关键词，例如石化、材料、助剂等。

步骤2.1.2.2，计算未知分类的企业名称与高危企业之间的相似度得分。具体包括：

步骤a，对未知分类的企业名称进行分词处理。在本发明的一个实施例中，利用结巴分词工具对企业名称进行分词处理。本发明也可采用其它分词工具进行分词。在本发明的一个实施例中，xx生活用品有限公司或xx化工用品生产加工厂，进行分词后分别是(生活用品有限公司)和(化工用品生产加工厂)。

步骤b，获取每个词的词向量表征。在本发明的一个实施例中，借助CA8(chinese-word-vectors)工具包获取词向量。本发明也可采用其它工具包获取词向量。

步骤c，对于未知分类的企业名称的每个词，分别计算每个词向量与高危企业关键词的每一个词向量之间的余弦相似度。余弦相似度的计算公式如下：

其中，a和b分别为未知分类企业企业名称词向量与高危企业关键词词向量，cos(θ)为a和b之间的余弦相似度。

步骤d，将企业名称的所有词中余弦相似度的最大值作为该企业与高危企业相似度得分。若一个企业名称中有多个词，取相似度最大的作为该企业名称与高危企业之间的相似度得分，例如，xx生活用品有限公司的相似度得分明显会低于xx化工用品加工厂

步骤2.1.3，获取用电量特征。

用电量特征具体包括日均用电量和四季日均用电量。对企业不同季度的日均用电量进行统计，用以表征淡旺季的日均用电量。在本发明的一个实施例中，可以分别计算企业在春、夏、秋、冬四季的日均用电量，用电量中位数，以及各季用电占全年的用电比。

步骤2.1.4，获取用电特性特征。

用电特性特征包括高低压和运行容量。企业的用电量与企业用户是高压还是低压存在明显差异，而高压用户又与运行容量存在很大关系。为了综合这些因素对高危企业识别的影响，获取与高低压和运行容量的用电特性特征，在建模时将其作为变量加入到分析中。

步骤2.2，计算信息增益值，对企业特性特征进行筛选。

图3示出了与高危企业有关的所有因素，然而，由于特征过多，建模时容易过拟合，因此，需要从这些特征中挑选出对识别结果影响较大的特征。

根据下面的公式计算特征的信息增益值，对企业特性特征进行筛选：

其中，H_D表示信息熵，即H信息，p_i表示特征D处于某一个类别的概率，n表示分类数；H_增益表示信息增益，H_信息表示在不知道任何特征信息时整个数据集合的信息熵，|D|表示样本总数，|D^V|表示样本中特征值为V的数量，V表示特征D可取的值的数量。

每个特征计算得到信息增益值越大，代表该特征对进行高危企业识别贡献越多的信息量。

在本发明的一个实施例中，低于特征的信息增益值的计算如下：

不同地域即南京、扬州、无锡三地的高危企业和非高危企业数目如表1所示。

表1

则，本例中，n为2，V为3。

H_信息＝-5/12log(5/12)-10/15log(10/15)

H_D(南京)＝-2/5log(2/5)-3/5log(3/5)

H_D(无锡)＝-1/3log(1/3)-2/3log(2/3)

H_D(扬州)＝-2/4log(2/4)-2/4log(2/4)

地区特征的信息增益H_增益＝H_信息-5/12H_D(南京)-3/12H_D(无锡)-4/12H_D(扬州)。

通过筛选，筛选出的企业特性特征包括：名称特征的相似度得分、地域特征、用电量特征的四季日均用电量以及用电特性特征中的运行容量。

步骤3，利用筛选出的企业特性特征建立并训练高危企业识别模型，识别出高危企业。

在本发明的一个实施例中，高危企业识别模型可以采用逻辑回归模型，但不局限于该模型。在本发明的一个实施例中，采用逻辑回归进行二分类建模，Y{0,1}为分类结果，分类公式如下：

其中，x是训练样本的特征向量，θ是待拟合的参数，是特征向量的系数，h_e(x)表示正样本的概率，对应Y的值。

高危企业识别模型的训练过程就是通过极大似然估计，拟合出θ的值，使得模型h_e(x)预测的准确性最大的过程。

其他的二分类算法，例如决策树算法，随机森林算法，朴素贝叶斯、SVM等都是可以的。

步骤4，对于识别出的高危企业，构建用电生产特性特征库，提取并筛选用电特性特征。

步骤4.1，构建用电生产特性特征库。

如图4所示，用电生产特性特征包括用电峰谷特性特征、节假日用电特性特征、以及间断生产特性特征。

步骤4.1.1，获取用电峰谷特性特征。

违规生产的高危企业在谷时会偷偷生产，故峰谷特性能很好的描述其违规生产特性。用电峰谷特性特征包括峰时用电量和谷时用电量。

在本发明的一个实施例中，通过96点日用电数据，获得企业峰谷用电情况。

具体峰谷时段的分类如下；

1)峰时用电时段为8：00-12：00，17：00-21：00；

2)谷时用电时段为0：00-8：00；

3)平时用电时段为12：00-17：00，21：00-21：00。

通过一天内的96点数据可以获取不同时段的用电量，96点数据映射到0-24点可以得到峰时用电量、谷时用电量以及节假日用电量。在本发明的一个实施例中，峰时用电量125千瓦时，占比17.5％；谷时用电量344千瓦时，占比48.2％；平时用电量245千瓦时，占比34.3％。通过峰谷平用电量占全天的占比可以判断违规生产企业，违规生产企业大多谷时生产，属于偷偷生产。

步骤4.1.2，获取节假日用电特性特征。

违规生产的高危企业在休息日会偷偷生产，故休息日和非休息日的用电情况是一个很好的表征。节假日用电特性特征包括节假日用电量和工作日用电量。

先获取近一年的休息日信息，标记休息日标签和非休息日标签；再分别统计休息日和非休息日的用电情况，得到节假日用电量和工作日用电量。根据休息日和非休息日的标签以及用电量采集数据中日期信息的判断，得到休息日和非休息日的用电情况。

步骤4.1.3，获取间断生产特性特征信息。

违规生产的高危企业偷偷生产的另一个重要标签是间断生产。间断生产特性特征包括连续生产频率和间断生产频率。

步骤4.1.3具体包括：

步骤4.1.3.2，根据用电情况，统计企业近一年内的连续生产天数间断生产天数，统计企业一年内连续生产的频率和间断生产的频率，在本发明的一个实施例中，一年52个星期，一周内5天都生产则认为这个星期是连续生产的。每天是否生产的判断标准是用当天的电量和4.1.3.1中正常生产时的用电范围比较得到，例如判断一周内是否每天的日用电量都大于100千瓦时。连续生产频率就是一年内连续生产的星期数除以一年的总周数，间断生产频则是一年内间断生产的星期数除以一年的总周数。

步骤4.2，计算信息增益值，对用电生产特性特征进行筛选。

图4示出了与违规生产有关的所有因素，然而，由于特征过多，建模时容易过拟合，因此，需要从这些特征中挑选出对识别结果影响较大的特征。采用与步骤2.2相同的方法计算信息增益值筛选用电生产特性特征，通过筛选，选出的用电生产特性特征包括用电峰谷特性特征中的峰时用电量和谷时用电量、节假日用电特性特征的节假日用电量和工作日用电量、以及间断生产特性特征的间断生产频率。

在本发明的一个实施例中，违规生产识别模型可以采用逻辑回归模型，但不局限于该模型。在本发明的一个实施例中，采用逻辑回归进行二分类建模，具体模型的建立同步骤3。其他的二分类算法，例如决策树算法，随机森林算法，朴素贝叶斯、SVM都是可以的。违规生产识别模型的训练过程就是通过极大似然估计进行拟合，使得模型预测的准确性最大的过程。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于电力大数据的高危企业违规生产识别方法，其特征在于，该方法包括以下步骤：

步骤2，构建企业特性特征库，所述企业特性特征库的企业特性特征包括地域特征、名称特征、用电量特征以及用电特性特征；构建过程包括：获取地域特征，对地域进行分类变量的编码映射；获取名称特征，求得企业名称与高危企业相似度得分，作为名称特征；获取用电量特征，包括日均用电量和四季日均用电量；获取用电特性特征，包括高低压和运行容量；

计算信息增益值，提取并筛选企业特性特征；筛选出的企业特性特征包括名称特征的相似度得分、地域特征、用电量特征的四季日均用电量以及用电特性特征中的运行容量；

步骤4，对于识别出的高危企业，构建用电生产特性特征库，用电生产特性特征库的用电生产特性特征包括用电峰谷特性特征、节假日用电特性特征、以及间断生产特性特征；构建过程包括：获取用电峰谷特性特征，包括峰时用电量和谷时用电量；获取节假日用电特性特征，包括节假日用电量和工作日用电量；获取间断生产特性特征信息，包括连续生产频率和间断生产频率，具体包括：根据企业年度日用电量分析得到正常生产时的用电量范围以及停产时的用电量范围，根据用电情况，统计企业近一年内的连续生产天数间断生产天数，统计企业一年内连续生产的频率和间断生产的频率，一周都生产则认为这个星期是连续生产，其中，每天是否生产的判断标准是用当天的电量和根据企业年度日用电量分析得到的正常生产时的用电范围比较得到，连续生产频率就是一年内连续生产的星期数除以一年的总周数，间断生产频则是一年内间断生产的星期数除以一年的总周数；

计算信息增益值，提取并筛选用电特性特征，包括：通过筛选，选出的用电生产特性特征包括用电峰谷特性特征中的峰时用电量和谷时用电量、节假日用电特性特征的节假日用电量和工作日用电量、以及间断生产特性特征的间断生产频率；

2.如权利要求1所述的高危企业违规生产识别方法，其特征在于，

步骤1包括：

步骤1.1，获取高危企业清单；

步骤1.3，对数据进行预处理。

3.如权利要求2所述的高危企业违规生产识别方法，其特征在于，

步骤1.3包括：

步骤1.3.2，进行数据归一化；

4.如权利要求1所述的高危企业违规生产识别方法，其特征在于，

步骤2中，获取名称特征包括：

根据高危违规生产企业清单中的企业名称对高危企业清单关键词词频进行统计，确定高危企业的关键词；

计算未知分类的企业名称与高危企业之间的相似度得分。

5.如权利要求4所述的高危企业违规生产识别方法，其特征在于，

计算未知分类的企业名称与高危企业之间的相似度得分包括：

步骤a，对未知分类的企业名称进行分词处理；

步骤b，获取每个词的词向量表征；

6.如权利要求5所述的高危企业违规生产识别方法，其特征在于，

步骤d中，余弦相似度的计算如下：

7.如权利要求1所述的高危企业违规生产识别方法，其特征在于，

步骤2中，信息增益值的计算如下：

8.如权利要求1所述的高危企业违规生产识别方法，其特征在于，

步骤3中，采用逻辑回归进行二分类建模，通过极大似然估计进行拟合，使得模型预测的准确性最大。

9.如权利要求1所述的高危企业违规生产识别方法，其特征在于，

步骤5中，采用逻辑回归进行二分类建模，通过极大似然估计进行拟合，使得模型预测的准确性最大。