CN114169424A

CN114169424A - 基于k近邻回归算法和用电数据的排污量预测方法

Info

Publication number: CN114169424A
Application number: CN202111464116.7A
Authority: CN
Inventors: 陆海波; 张兰; 夏霖; 姜奕晖; 陈奇; 王妍艳
Original assignee: Zhejiang University ZJU; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-11

Abstract

本发明提出了一种基于k近邻回归算法和用电数据的排污量预测方法，包括：采集排污单位的历史用电数据和历史排污数据并进行数据预处理，划分成训练集和测试集；生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型；根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化，将排污单位的实时用电数据输入优化后的预测模型中，得到排污量的实时预测结果。本发明利用了用电情况与排污情况的影响关系，基于k近邻回归算法实现排污量的预测，解决了一些企业污染物排放管控困难、管控成本较高的问题。

Description

基于k近邻回归算法和用电数据的排污量预测方法

技术领域

本发明属于排污监控领域，尤其涉及一种基于k近邻回归算法和用电数据的排污量预测方法。

背景技术

随着人们对于环境污染问题的重视，排污单位污染源排放监管与治理成为了生态环境保护的重要一环，污染源排放数据也逐步受到了重视。因此，大数据技术和物联网技术具有了更多的应用场景，可采集企业的污染物排放数据，进行排污浓度超标的监控与预警，给排污单位推送浓度超标预警消息，通知企业加大治污处理工作，也可以用来判断该企业排污许可是否超标，为生态环境主管部门对排污许可证的事后监管和对排污单位的监督检查提供技术支撑，为企业环保税征收和复查提供一定计算参考依据。

目前的排污监控方法通常是在排污单位安装传感器、计量仪表等自动监测设备，采集污染物的排放数据并实时传输给相关主管部门进行分析和预警。但对于部分企业受限于设备成本等问题，其污染物的排放数据是自行上传的，存在数据偏差、篡改、伪造的可能，进而影响了排污监控的准确性和及时性。

发明内容

为了解决现有技术中存在的缺点和不足，本发明提出了基于k近邻回归算法和用电数据的排污量预测方法，包括：

采集排污单位的历史用电数据和历史排污数据并进行数据预处理，将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集；

生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型；

根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化；

将排污单位的实时用电数据输入优化后的预测模型中，结合历史用电数据和历史排污数据得到排污量的实时预测结果。

可选的，所述采集排污单位的历史用电数据和历史排污数据并进行数据预处理，将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集，包括：

基于预设频率采集排污单位中各个生产设备的历史用电数据和历史排污数据；

剔除历史用电数据与历史排污数据中的异常数据，判断历史用电数据与历史排污数据是否存在字段缺失，若存在，则计算缺失的字段前后相邻的两个数据的平均值进行填充；

将历史用电数据和历史排污数据基于采样时间的关系整合为一个数据组，将各数据组的顺序打乱后，基于预设比例随机将数据组划分为训练集和测试集。

可选的，所述k近邻回归算法的参数包括近邻数k以及权重超参数。

可选的，所述权重超参数为表示近邻点对预测点的权重影响类型的参数，所述权重影响类型包括近邻点对预测点权重影响相同、近邻点对预测点基于距离产生影响以及近邻点对预测点基于距离的倒数产生影响。

可选的，所述生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型，包括：

确定近邻数k和权重超参数，根据权重超参数设置k个权重w，生成由不同的近邻数k和权重w构成的参数组合；

在训练集中随机选取一个历史排污数据作为预测点，将训练集中除预测点之外的历史用电数据输入k近邻回归算法；

将不同的参数组合导入k近邻回归算法中计算回归值，确定与预测点最接近的回归值对应的参数组合作为最优参数，基于最优参数构建预测模型。

可选的，所述将不同的参数组合导入k近邻回归算法中计算回归值，确定与预测点最接近的回归值对应的参数组合作为最优参数，基于最优参数构建预测模型，包括：

分别计算除预测点之外其他历史用电数据与预测点的欧式距离，选取欧式距离最小的k个历史用电数据作为近邻点，结合权重超参数，计算第一回归值；

分别计算除预测点之外其他用电数据与预测点的曼哈顿距离，选取曼哈顿距离最小的k个历史用电数据作为近邻点，结合权重超参数，计算第二回归值；

计算第一回归值与预测点中历史排污数据的第一差值，计算第二回归值与预测点中历史排污数据的第二差值，将第一差值和第二差值相加最小时的参数组合作为最优参数；

根据最优参数下的k近邻回归算法，构建预测模型。

可选的，所述第一回归值和第二回归值的计算公式均为：

其中，

表示第一回归值或第二回归值，A_i为根据权重超参数确定的第i个近邻点对预测点的相对权重，x_in表示选取的第i个近邻点的第n个特征值，i、n均为正整数，i＝{1,2,...,k}，n＝{1,2,...,n}。

可选的，所述根据权重超参数确定的第i个近邻点对预测点的相对权重，包括：

当权重超参数为近邻点对预测点权重影响相同时，A_i为人为设置的定值；

当权重超参数为近邻点对预测点基于距离产生影响时，A_i＝d_i/(d₁+d₂+...+d_i+...+d_k)，d_i为第i个近邻点与预测点的欧式距离或曼哈顿距离；

当权重超参数为近邻点对预测点基于距离的倒数产生影响时，

可选的，所述根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化，包括：

步骤一：将测试集中的历史用电数据输入预测模型；

步骤二：判断基于最优参数的计算结果与测试集中的历史排污数据的误差是否符合预设条件；

步骤三：若不符合则调整最优参数，重复步骤一至步骤二，直至符合预设条件时完成优化。

可选的，所述预设条件为相似度计算函数，所述相似度计算函数的表达式为：

其中，score表示相似度，

表示步骤一中得到的计算结果，X为测试集中的历史排污数据；

score的取值范围为(-∞,1]，score达到预设限值时，判定误差符合预设条件。

本发明提供的技术方案带来的有益效果是：

本发明通过对排污单位的用电数据进行实时采集，利用了排污单位的用电情况与排污情况的影响关系，基于k近邻回归算法实现对排污量的预测，相比传统的污染物排放监控方法，将难以实时管控、获取成本较高的污染物的排放数据转换为可以实时提供、便于获取的用电数据进行辅助管控，在一定程度上解决了一些企业污染物排放管控困难、管控成本较高的问题。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的基于k近邻回归算法和用电数据的排污量预测方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一

如图1所示，本实施例提出了基于k近邻回归算法和用电数据的排污量预测方法，包括：

S1：采集排污单位的历史用电数据和历史排污数据并进行数据预处理，将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集；

S2：生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型；

S3：根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化；

S4：将排污单位的实时用电数据输入优化后的预测模型中，结合历史用电数据和历史排污数据得到排污量的实时预测结果。

本实施例对排污单位的用电数据进行实时采集，利用了排污单位的用电情况与排污情况的影响关系，基于k近邻回归算法实现对污染物排放的预测，相比传统的污染物排放监控方法，将难以实时管控、获取成本较高的污染物的排放数据转换为可以实时提供、便于获取的用电数据进行辅助管控，在一定程度上解决了一些企业污染物排放管控困难、管控成本较高的问题。

首先，本实施例为了分析排污单位的用电情况与排污情况之间的关系，采集排污单位的历史用电数据和历史排污数据并进行数据预处理，将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集，具体包括：

基于预设频率采集排污单位中各个生产设备的历史用电数据和历史排污数据，例如在本实施例中历史用电数据的采集频率为15分钟，历史排污数据的采样频率为1天，所述历史用电数据的采集如表1所示，历史排污数据的采集如表2所示。

表1

企业id	历史用电量(单位：kw)	采样时间
			13******65	134.88	2020-11-19 00:00:00
13******65	116.88	2020-11-19 00:15:00
			……	……	……

表2

企业id	历史排污量(单位：kg)	采样时间
			13******65	11503.84	2020-11-19
13******65	15718.23	2020-11-20
			……	……	……

剔除历史用电数据与历史排污数据中的异常数据，即将小于等于0等明显不符合实际的用电数据或排污数据视为异常数据，将异常的数据进行剔除，留下适合做分析的数据；

由于存在在线检测系统无效、在线检测系统故障、在线检测系统失控等不可控因素，可能会使某条记录的部分字段值缺失或全部缺失，因此还需要判断历史用电数据与历史排污数据中是否存在缺失值，若存在，则计算缺失值前后相邻的两个数据的平均值进行填充，代替原有的缺失数据。

本实施例中将历史用电数据和历史排污数据基于采样时间的关系整合为一个数据组，如表3所示，本实施例以用电数据和排污数据的采样频率较大的一方为基准，将同一企业id一天当中不同生产设备的历史用电负荷整合，整合后的数据组。

表3

再将各数据组的顺序打乱后，基于预设比例随机将数据组划分为训练集和测试集，通常按照训练集数据量约等于测试集数据量的10倍的关系进行划分，本实施例中随机选择99％的数据作为训练集用于拟合数据，剩下的1％的数据作为测试集用于检验模型的泛化能力。

本实施例采用k近邻回归算法，利用排污企业的用电数据来拟合回归排污数据，所述k近邻回归算法的基本思想是找到与预测点距离最近的k个样本点，根据样本点的特征拟合回归得到预测点的拟合值。

本实施例中，所述k近邻回归算法的参数包括近邻数k以及权重超参数。其中，权重超参数为表示近邻点对预测点的权重影响类型的参数，所述权重影响类型包括近邻点对预测点权重影响相同、近邻点对预测点基于距离产生影响以及近邻点对预测点基于距离的倒数产生影响。由此可以看出，权重超参数不同会对k近邻回归算法的计算结果产生影响。

本实施例在合理的取值范围内，对近邻数k以及权重超参数的不同取值进行排列组合，从而生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型，具体包括：

确定近邻数k和权重超参数，生成由不同的近邻数k和权重超参数构成的参数组合。在训练集中随机选取一个历史排污数据作为预测点，将训练集中除预测点之外的历史用电数据输入k近邻回归算法。

例如，选取近邻数k的范围为[3,10]内的所有整数，选择近邻点对预测点的影响程度weight为“各个近邻对预测点权重影响相同”、“各个近邻对预测点基于距离产生影响”或“各个近邻对预测点基于距离的倒数产生影响”中的一中。

再利用训练集，遍历所有的参数组合可能，选择拟合程度最高的参数组合，具体为：将不同的参数组合导入k近邻回归算法中计算回归值，确定与预测点最接近的回归值对应的参数组合作为最优参数，基于最优参数构建预测模型，具体包括：

分别计算除预测点之外其他历史用电数据与预测点的欧式距离，例如对于A(x₁,x₂,……,x_n)、B(y₁,y₂,……,y_n)两个历史用电数据采集点来说，欧式距离d₁(A,B)的计算公式为：

x₁、…、x_n与y₁、y₂、…、y_n分别为A、B两个采集点处历史用电数据的n个特征值，本实施例中所述特征值包括包括企业id、采集时间、以及历史用电量其中选取欧式距离最小的k个历史用电数据作为近邻点，结合权重超参数，计算第一回归值。

分别计算除预测点之外其他用电数据与预测点的曼哈顿距离，例如对于A(x₁,x₂,……,x_n)、B(y₁,y₂,……,y_n)两个历史用电数据采集点来说，曼哈顿距离d₂(A,B)的计算公式为d₂(A,B)＝|x₁-y₁|+|x₂-y₂|+……+|x_n-y_n|，选取曼哈顿距离最小的k个历史用电数据作为近邻点，结合权重超参数，计算第二回归值。

本实施例综合了欧式距离和曼哈顿距离确定k个近邻点，相较于单一距离计算的方式能够进一步提高k个近邻点的选择合理性。

最后，计算第一回归值与预测点中历史排污数据的第一差值，计算第二回归值与预测点中历史排污数据的第二差值，将第一差值和第二差值相加最小时的参数组合作为最优参数，根据最优参数下的k近邻回归算法，构建预测模型。例如获得最优参数为：最近邻数k为3；权重超单数为“各个近邻对预测点基于距离产生影响”，将基于此参数的k近邻回归算法作为预测模型。

本实施例中，考虑到与预测点最近的k个样本点与预测点的距离不同，因此对预测点的影响大小也不同。距离预测点越近，影响越大；距离预测点越远，影响越小。因此，本实施例中在传统的回归值计算基础上，增加了权重，因此第一回归值和第二回归值的计算公式均为：

其中，

表示第一回归值或第二回归值，x_in表示选取的第i个近邻点的第n个特征值，i、n均为正整数，i＝{1,2,...,k}，n＝{1,2,...,n}。

A_i为根据权重超参数确定的第i个近邻点对预测点的相对权重，当权重超参数为近邻点对预测点权重影响相同时，A_i为人为设置的定值；当权重超参数为近邻点对预测点基于距离产生影响时，A_i＝d_i/(d₁+d₂+...+d_i+...+d_k)，d_i为第i个近邻点与预测点的欧式距离或曼哈顿距离；当权重超参数为近邻点对预测点基于距离的倒数产生影响时，

为了验证经过上述过程建立的预测模型是否能够实现预测的预期泛化效果，本实施例在构建好预测模型后，还需要根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化，包括：

步骤一：将测试集中的历史用电数据输入预测模型，得到预测模型基于最优参数的结果，即将历史用电数据按照上述训练阶段相同的处理流程，计算回归值。

步骤二：判断所述计算结果与测试集中的历史排污数据的误差是否符合预设条件。本实施例中，所述预设条件为相似度计算函数，所述相似度计算函数的表达式为：

其中，score表示相似度，

score的取值范围为(-∞,1]，score越接近于1，表示预测值与真实值越接近。因此，score达到预设限值时，判定误差符合预设条件，本实施例中所述预设限值为0.8，当score≥0.8时，表示预测模型的泛化能力良好；该模型有良好的预测性能。

步骤三：若不符合则调整最优参数，本实施例中调整最优参数包括调整近邻数k和权重超参数，且当调整前的权重超参数为“近邻点对预测点权重影响相同”时，还包括调整设为定值的A_i。随后，重复步骤一至步骤二，直至符合预设条件时完成优化，即预测模型达到预期的泛化效果。

例如，使用测试集对预测模型进行性能测试，真实值与预测值的对比如表4所示，计算得到预测模型的score为0.97，表明模型具有良好的泛化能力。

表4

最后，将达到预期的泛化效果的预测模型投入排污实时预测的真实应用场景中，以S1中采集的历史用电数据和历史排污数据作为对照样本，与实时用电数据共同输入预测模型中，通过选择与实时用电数据最接近的对照样本，基于k近邻回归算法得到排污量的实时预测结果

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述排污量预测方法包括：

2.根据权利要求1所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述采集排污单位的历史用电数据和历史排污数据并进行数据预处理，将数据预处理后的历史用电数据和历史排污数据划分成训练集和测试集，包括：

3.根据权利要求1所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述k近邻回归算法的参数包括近邻数k以及权重超参数。

4.根据权利要求3所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述权重超参数为表示近邻点对预测点的权重影响类型的参数，所述权重影响类型包括近邻点对预测点权重影响相同、近邻点对预测点基于距离产生影响以及近邻点对预测点基于距离的倒数产生影响。

5.根据权利要求3所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述生成k近邻回归算法的参数组合，通过分析不同参数组合下k近邻回归算法对训练集的拟合程度，确定参数组合中的最优参数，根据最优参数和k近邻回归算法构建预测模型，包括：

确定近邻数k和权重超参数，生成由不同的近邻数k和权重超参数构成的参数组合；

6.根据权利要求5所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述将不同的参数组合导入k近邻回归算法中计算回归值，确定与预测点最接近的回归值对应的参数组合作为最优参数，基于最优参数构建预测模型，包括：

分别计算除预测点之外其他历史用电数据与预测点的曼哈顿距离，选取曼哈顿距离最小的k个历史用电数据作为近邻点，结合权重超参数，计算第二回归值；

根据最优参数下的k近邻回归算法，构建预测模型。

7.根据权利要求6所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述第一回归值和所述第二回归值的计算公式均为：

其中，

8.根据权利要求7所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述根据权重超参数确定的第i个近邻点对预测点的相对权重，包括：

9.根据权利要求1所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述根据测试集检验预测模型的准确度，根据检验结果对预测模型进行优化，包括：

步骤一：将测试集中的历史用电数据输入预测模型，得到预测模型基于最优参数的结果；

步骤二：判断所述计算结果与测试集中的历史排污数据的误差是否符合预设条件；

10.根据权利要求9所述的基于k近邻回归算法和用电数据的排污量预测方法，其特征在于，所述预设条件为相似度计算函数，所述相似度计算函数的表达式为：

其中，score表示相似度，