CN114580494A

CN114580494A - 基于随机森林算法的依据企业用电对排污行为的监测方法

Info

Publication number: CN114580494A
Application number: CN202210053678.0A
Authority: CN
Inventors: 赵申; 顾斌; 刘梅招; 刘琛; 张宸; 于翔; 阮文青
Original assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd; State Grid Jiangsu Electric Power Co Ltd
Current assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-06-03

Abstract

本发明涉及一种基于随机森林算法的依据企业用电对排污行为的监测方法，其包括以下步骤：对排污企业用电数据进行聚类分析；建立随机森林计算模型，对不同的聚类进行分析计算；依据计算结果，进行监测，识别异常企业。本发明可以对环保部门重点关注的排污企业开展全天用电趋势分析，反映企业生产/排污时段；甄别偷排行为，监督错峰生产。

Description

基于随机森林算法的依据企业用电对排污行为的监测方法

技术领域

本发明涉及电力大数据分析领域，尤其涉及一种基于各个维度的企业排污行为监测方法。

背景技术

近年来,随着环境保护事业的发展,一些新的理念正在被广大企业所接受和实践,比如清洁生产、循环经济、环保认证等，这些都是现代企业发展过程中所必须遵循的原则。那种以牺牲环境为代价换来的经济发展是暂时的也是不可持续的,是最终要被淘汰的。目前，在经济发展的同时,环境也付出了很大代价,企业的污水污染仍呈高态势发展。工业排污,主要是乡镇企业排污，如焦化厂、电解铝厂、造纸厂、钢铁厂、淀粉厂、肉类加工厂，大量排污,导致附近小河污染；大中城市排污，如工业及生活用水污染；生活排污，有的企业没有污水处理厂，工厂生活污水直接排入村近河流导致污染。

随着电网公司智能化的进步与发展，电网公司也逐渐步入了大数据时代。电网企业在发电端、输变电端及用电端都会产生海量的数据，如对电网设备实时状况进行的在线监测，会产生庞大的监测数据库；对电网信息的拓展也会产生大量的数据；为获取电网实时运行状态信息而实时进行采样而生成的大量数据信息。对于海量的数据信息，传统的数据处理技术显然无能为力，所以这就需要电网公司借助实时数据库、分布式存储以及检索以及大数据挖掘技术等先进的电力大数据技术来对海量数据信息进行采集、存储以及分析处理，从而保障电网的良好稳定运行。

目前，还没有针对排污企业的电力监测，因此，针对排污企业研究电力大数据在国家电网公司的应用有着十分重要的现实意义。

发明内容

本发明针对以上问题，提供了一种针对排污企业的用电特点，便于识别异常企业的基于随机森林算法的依据企业用电对排污行为的监测方法。

本发明的技术方案为：包括以下步骤：

(1)对排污企业用电数据进行聚类分析；

(2)建立随机森林计算模型，对不同的聚类进行分析计算；

(3)依据计算结果，进行监测，识别异常企业。

步骤(1)中，对排污企业用电数据进行如下聚类分析：

(1.1)档案匹配：通过将生态环境机构提供的排污企业清单与电网企业的用户档案进行分析，从企业名称与用户名称、统一社会信用代码、法定代表人、注册地址与用电地址信息出发，查找排污企业的用电编号；

(1.2)对不同区域的排污企业进行聚类，获取所属行政区划地址、所属电力区划信息、地理位置信息；

(1.3)对不同行业的排污企业监测情况进行展示，获取行业大类、行业细分和电力分类。

步骤(2)中，包括：

(2.1)针对不同聚类确定不同决策树；

(2.2)确定随机森林模型和变量重要性评估；分析计算。

步骤(2.1)中，包括：

(2.11)确定不同类型的聚类结果；

(2.12)对不同聚类结果决定不同的决策树。

步骤(2.2)中，包括：

(2.21)首先采用bootstrap重抽样技术，在原始训练集N中有放回地重复随机抽取k组样本生成新的训练样本集合；

(2.22)然后根据k组样本建立k棵决策树，将会得到k种输出结果；

(2.23)最终的分类结果将根据分类树投票表决确定。

本发明在工作中，对纳入管控的排污企业用电情况进行展示，获取所属市、县(区)、乡 (镇)、村(街道)等行政区划地址，所属供电所、台区等电力区划信息，经纬度、海拔等地理位置信息，获取行业大类(污水处理厂、重点监测企业、工业园区、其他)，行业细分(如水泥厂、冶金厂、造纸厂等)，用电类别、用户分类、供电电压等电力分类。对纳入管控的排污企业用电趋势进行分析，方便开展区域和行业的用电量横向对比和用电变化趋势对比。这样，便于监测在应急管控状态(停产、限产)下，排污企业的用电行为、用电趋势，识别异常生产企业明细清单，及时预警当地环保部门。

本发明可以对环保部门重点关注的排污企业开展全天用电趋势分析，反映企业生产/排污时段；甄别偷排行为，监督错峰生产。

附图说明

图1是K-means聚类算法流程图，

图2是随机森林模型流程图，

图3是污染企业按行业聚类同比环比分析，

图4是污染企业按地区聚类同比环比分析，

图5是本发明的流程图。

具体实施方案

下面结合附图对本发明的技术方案作进一步说明。应当了解，以下提供的实施例仅是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的技术构思，本发明还可以用许多不同的形式来实施，并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

本发明如图5所示，包括以下步骤：

(1)对排污企业用电数据进行聚类分析；

(2)建立随机森林计算模型，对不同的聚类进行分析计算；

(3)依据计算结果，进行监测，识别异常企业。

步骤(1)中，对排污企业用电数据进行如下聚类分析：

(1.1)档案匹配；档案匹配是开展企业监测的第一步。通过将生态环境机构提供的排污企业清单与电网企业的用户档案进行分析，从企业名称与用户名称、统一社会信用代码、法定代表人、注册地址与用电地址信息等方面出发，利用算法自动匹配，查找排污企业的用电编号，作为排污企业数据抽取的依据。

(1.2)对不同区域的排污企业进行聚类，获取所属市、县(区)、乡(镇)、村(街道)等行政区划地址，所属供电所、台区等电力区划信息，经纬度、海拔等地理位置信息，对分析区域、下级区域(省、市、县)排污许可证企业的用电趋势进行分析；

(1.3)对不同行业的排污企业监测情况进行展示，获取行业大类(污水处理厂、重点监测企业、工业园区、其他)，行业细分(如水泥厂、冶金厂、造纸厂等)，用电类别、用户分类、供电电压等电力分类。开展不同行业排污许可证企业的用电趋势进行分析。

步骤(2)中，包括：

(2.1)针对不同聚类确定不同决策树；

(2.2)确定随机森林模型和变量重要性评估；分析计算。

步骤(2.1)中，包括：

(2.11)确定不同类型的聚类结果；

(2.12)对不同聚类结果决定不同的决策树。

步骤(2.2)中，包括：

(2.23)最终的分类结果将根据分类树投票表决确定。

具体应用中，如图1所示，

基于K-means聚类算法对排污企业用电数据进行聚类分析：

先对企业用电数据特征降维和标准化

具体而言，从最初的特征中选择最有效的特征，并将选出的特征其存储于向量中；通过转换形成的新特征具有突出特征，对所选择之特征进行转换；对数据进行归一化处理。

再考虑按行业，地区进行k-means聚类算法

算法的主要步骤为：

(1)从n个数据对象随机选取k个对象作为初始簇中心；

(2)计算每个簇的平均值，并用该平均值代表相应的簇；

(3)根据每个对象与各个簇中心的距离，分配给最近的簇；

(4)转第二步，重新计算每个簇的平均值。

这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变化才停止。

如图2所示，建立随机森林计算模型，对不同的聚类进行分析计算：

步骤一：对按照不同行业，不同地区的聚类结果进行决策树确定：具体从白天、夜间的用电量差异度，用电量24小时波动行为，同比结果，环比结果等方面进行分析。

步骤二：确定随机森林的模型算法和变量重要性评估

随机在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k 个属性的子集，然后在从这个子集中选择一个最优属性用于划分。这里参数k控制了随机性的引入程度：若令k＝d，则基决策树的构建与传统决策树相同；若令k＝1，则是随机选择一个属性用于划分；一般情况下，推荐m＝log2d。

随机森林模型建模过程共训练T棵基决策树{h(x，θ_t)，t＝1，2，...，T}，分别训练后得到一个组合分类器，其中x为独立同分布的向量，是自变量，其将会影响每一棵决策树的生成过程。对得到的每棵决策树的分类结果进行多数投票(即取众数)，从而确定最终分类。

模型算法：

输入：训练集D，基学习器

(CART分类树算法)，训练轮数T；

输出：

1)for t＝1，2，...，T do：//创建T个模型

2)通过对D有放回的抽样，创建自助样本D_i；

3)使用和基学习器

(CART分类树算法)导出模型

3.1)对每一个决策树训练具体过程如下：

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T

a)若D中所有实例属于同一类C_k，则T为单节点树，并将类C_k作为该节点的类标记，返回T；

b)若

，则T为单节点树，并将D中实例树最大的类C_k作为该节点的类标记，返回T；

c)否则，按照信息增益比算法计算A中各特征对D的信息增益比，选择信息增益比最大的特征A_g；

d)如果A_g的信息增益比小于阈值ε，则置T为单节点树，并将D中实例最大的类C_k作为该节点的类标记，返回T；

e)否则，对A_g的每一个可能值a_i，依A_g＝a_i将D分割为若干非空子集D_i，将D_i中实例数最大的类作为标记，构建子节点，由结点及子节点构成树T，返回T；

f)对第i个子节点，以D_i为训练集，以A-{A_g}为特征集，递归地调用步1～步5，得到子树T_i，返回T_i；

g)最终得到整个树T₀。

3.2)对每一个决策树剪枝具体过程如下：

输入：生成算法产生的整个树T₀；

输出：修剪后的子树T_α；

a)设k＝0，T＝T₀；

b)设α＝+∞；

c)自下而上地对各内部节点t计算C(T_t)，|T_t|是T_t的叶节点个数；

d)自上而下地访问内部节点t，如果有g(t)＝α，进行剪枝，并对叶节点t以多数表决法决定其类，得到树T。

e)设k＝k+1，α_k＝α，T_k＝T

f)如果T不是由根节点单独构成的树，则回到步骤4；

g)采用交叉验证法在子集序列T₀，T₂，...，T_n中选取最优的子树T_α，即：

4)end for

5)使用组合分类器对元祖X进行分类，让T个模型都对X分类并返回多数表决。即：

变量重要性评估：

现假定有变量X₁，X₂，...，X_m，需要计算出M个VIM得分统计量。随机森林模型常规的VIM计算方法分为两种，即根据Gini指数和袋外数据(OOB)错误率计算的到，变量X_j的得分统计量分别用

和

表示。

(1)Gini指数

统计量

表示第j个变量在随机森林所有树种节点分裂不纯度的平均改变量。Gini 指数的计算公式为：

其中：K为自助样本集的类别树，为节点m样本属于第k类的概率估计，当样本为二分类数据时(K＝2)，节点m的Gini指数为：

其中：

为样本在节点m属于任意一类的概率估计值。

变量X_j在节点m的重要性，即节点m分支前后Gini指数变化量为：

其中：GI_l和分GI_r别表示节点m分裂的两新节点的Gini指数。

如果变量X_j在第i棵树种出现M次，则变量X_j在第i棵树重要性为：

变量X_j在随机森林中的Gini重要性定义为：

其中：n为随机森林中分裂树的数量。

(2)OOB错误率

定义为：在随机森林的每棵树中，使用随机抽取的训练自助样本建树，并计算袋外数据(OOB)的预测错误率，然后随机置换变量X_j的的观测值后再次建树并计算OOB的预测

错误率，最后计算两次OOB 错误率的差值经过标准化处理在所有树种的平均值即为变量X_j的置换重要性

变量X_j在随机森林中的置换重要性定义为：

其中：n为随机森林中分裂树的数量。

步骤三：依照步骤二中确定的算法，按行业进行分析，对扬州地区所有排污企业进行仿真分析，得出如图3数据；按地区进行分析，对扬州所有排污企业进行仿真分析，得出如图 4数据。这样，从行业、区域两个维度对当月或某个时间区间的同比环比分析，以达到普筛的目的。

本发明采用随机森林算法，依据企业用电数据对排污行为监测，监测在应急管控状态(停产、限产)下，排污企业的用电行为、用电趋势，识别异常生产企业明细清单，及时预警当地环保部门。

Claims

1.基于随机森林算法的依据企业用电对排污行为的监测方法，其特征在于，包括以下步骤：

(1)对排污企业用电数据进行聚类分析；

(2)建立随机森林计算模型，对不同的聚类进行分析计算；

(3)依据计算结果，进行监测，识别异常企业。

2.根据权利要求1所述的基于随机森林算法的依据企业用电对排污行为的监测方法，其特征在于：步骤(1)中，对排污企业用电数据进行如下聚类分析：

3.根据权利要求1所述的基于随机森林算法的依据企业用电对排污行为的监测方法，其特征在于：步骤(2)中，包括：

(2.1)针对不同聚类确定不同决策树；

(2.2)确定随机森林模型和变量重要性评估；分析计算。

4.根据权利要求3所述的基于随机森林算法的依据企业用电对排污行为的监测方法，其特征在于：步骤(2.1)中，包括：

(2.11)确定不同类型的聚类结果；

(2.12)对不同聚类结果决定不同的决策树。

5.根据权利要求3所述的基于随机森林算法的依据企业用电对排污行为的监测方法，其特征在于：步骤(2.2)中，包括：

(2.23)最终的分类结果将根据分类树投票表决确定。