CN117109582A

CN117109582A - 结合传感网络和机器学习的大气污染源定位系统及方法

Info

Publication number: CN117109582A
Application number: CN202311011452.5A
Authority: CN
Inventors: 胡俊涛; 崔灿; 张士诚; 孙海东; 蒋炬波; 张翔; 方勇
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-24

Abstract

本发明公开了一种结合传感网络和机器学习的大气污染源定位系统及方法，涉及污染监测的技术领域。包括设计了一种数据集获取实验，获取在真实环境中污染源的扩散数据，同时对实测数据集进行筛选填充预处理完善数据集；采用SVM和DNN方法构建污染源分级分类定位模型，将定位问题转化为分类问题；将训练好的污染源分类定位模型导入后台监测终端，实时采集数据对污染源进行实时定位；后台监测终端上可视化监测区域的网格化模型，在X型网格位置标记监测站点；当终端通过模型判断出污染源位置时在地图网格中标注污染源位置。

Description

结合传感网络和机器学习的大气污染源定位系统及方法

技术领域

本发明涉及污染监测技术领域，尤其涉及一种结合传感网络和机器学习的大气污染源定位系统及方法。

背景技术

随着工业化和城市化进程的加速，环境污染已成为全球性难题。针对污染源的精准定位成为有效治理环境污染的关键。现有的大气污染源定位技术通过机器人、无人机等方式定位成本过高，且不适用于复杂环境，数值模拟方法构建模型定位与实际环境相差太大，因此对大气污染源定位需要一种低成本符合实际环境的定位方法。

发明内容

本发明目的就是为了弥补已有技术的缺陷，提供一种结合传感网络和机器学习的大气污染源定位系统及方法，本发明通过实测数据训练定位模型能够对区域内的污染源进行长期监测并定位，同时减少成本。

本发明是通过以下技术方案实现的：

一种结合传感网络和机器学习的大气污染源定位方法，具体包括以下步骤：

S1：由于根据扩散模型或仿真获取的数据都是在较为理想的条件下，并不能与实际污染源扩散相符，故本发明设计了一种数据集获取实验，获取在真实环境中污染源扩散后的监测数据集，同时对数据集进行筛选填充预处理完善扩散数据集。

S2：在S1获取的数据集基础上，本发明采用支持向量机(SVM)和深度神经网络(DNN)方法构建污染源的分级分类定位模型。将定位问题转换为分类问题，该类模型由一个一级大分类器和多个子分类器组成，大分类器的作用是对传感器数据进行初步的分类，将污染源所在的区域与其他区域进行区分。然后，针对大分类器确定的污染源区域，使用多个子分类器对具体污染源位置进行精细定位，此二级分类模型以提高定位准确度。

S3：在后台监测终端上可视化监测区域的网格化地图模型，在X型网格位置标记监测装置点；将S2中训练好的污染源分类定位模型导入后台监测终端，实时采集数据对污染源进行实时定位；当终端通过模型判断输出污染源位置同时在地图网格中标注污染源位置。

所述步骤S1具体包括以下步骤：

S11：将监测区域网格化划分，建立相对坐标系描述网格位置关系，在网格监测区域X型位置网格处放置污染源气体监测装置，获取污染源扩散在X型位置网格的浓度分布，同时记录监测装置的坐标数据；

S12：开始初始监测，记录环境背景浓度信息用做于无污染源的参考数据。将污染源置于其中一个网格区域内，标记此时污染源所属网格位置，同时记录各监测节点的监测的污染物目标数据，保证一定的监测时间获取各风向完善的数据集；

S13：改变污染源与监测装置的相对高度，记录数据；更改污染源所处网格位置，重复以上步骤获取每个网格处污染源的数据集，整合所有位置的数据获得此区域内完整的数据集。

由于实测数据集受环境等原因存在干扰与异常数据，所以要对数据集进行筛选填充处理。

S14：处理风速异常数据，将风速突变为较大值时采集的后一段时间内的监测数据删除，保证数据集中风速的稳定性；填充个别监测结点某时刻数据缺失值，具体包括对具有缺失值的特征进行均值填充。

所述步骤S2具体包括以下步骤：

S21：更改数据集目标值样式，将污染源位置坐标转换为大小标签数据，划分子分类所属的大类别，更改数据集目标值为大小类别组合关系。

S22：数据标准化处理，对序列X₁……X_n标准化公式为：

其中

S23：在基础SVM分类器上构建SVM分级分类模型，包括以下步骤：构建一级大分类模型，采用一对多分类方法，选择合适的模型参数，并采用交叉验证等方法进行模型优化，以提高模型的泛化能力和准确性；构建二级子分类模型，需要将多个子分类器的结果进行处理，采用投票方法进行结果集成。在集成过程中，考虑每个子分类器的权重和结果置信度等因素，模型优化可参照大分类模型的构建；对模型进行测试评估，采用独立数据集进行测试，采用准确率、召回率、F1值等指标进行评估，根据评估效果适当调整一二级分类模型的模型参数。

S24：在基础DNN分类模型上构建DNN分级分类模型，包括以下步骤：构建一级大分类模型，设置神经网络的隐藏层层数和激活层，经过多个隐层进行特征提取和转换，最后输出污染源的类型。在模型训练过程中，采用反向传播算法进行参数更新，加入早停止机制，当模型分类准确度不再提升时停止模型训练，保存此时模型参数权重，同时采用正则化等方法进行模型优化；构建二级子分类模型，在第一级大分类完成后，需要将分类结果输入到第二级子分类器中，在一级分类模型基础上，选择网络层数结构和训练方法构建子分类模型；最后，将第二级子分类器的输出与第一级分类的结果进行集成输出，得到最终的污染源定位结果。

一种结合分类模型的大气污染源定位系统的大气污染源定位系统，包括后台监测终端初始化模块，用于构建监测区域的初始地图模型，标注网格化区域，建立初始坐标系；目标位置标记模块，标注污染源监测站点位置以及预测出的污染源位置；数据采集控制判断模块，将监测区域内所有监测站点的数据定时采集并存储，同时采集记录风速风向传感器数据，可以控制更改数据采集时间间隔，设置相应污染物临界值，同时判断异常数据的出现，当网格监测区域中任一监测节点监测数据超过临界值时，进一步判定其它监测点数据，当异常数据出现在三个监测点以上，从此时开始记录异常数据；模型导入模块，用于将第二方面实施例中所训练的定位分类模型导入；定位计算输出模块，用于将标记为异常的实时采集的数据导入定位模型进行预测，此时连续对异常值出现的以后多条数据进行模型预测，分别记录两种导入模型对这些连续数据中的数据的预测结果，将输出结果中占比最大的预测结果输出作为若该模型的单独输出预测结果。然后对比两种模型所输出的预测结果是否相同，相同则直接输出预测分类结果作为系统输出污染源位置，若预测分类结果不同，则进一步判断两个模型输出该预测分类概率的大小，输出概率较大的预测结果作为最终的污染源位置，调用位置标记模块将最终污染源位置在网格区域中标注。

本发明的优点是：

针对大气污染源的检测,传统方法定位准确度不高，机器人无人机成本过高且不适用于复杂环境,由此本发明采用低成本传感节点组成传感网络，获取数据集，训练定位分类模型对污染源位置定位，由此对区域内的污染源进行准确监测，节约成本，实现监测区域内的长期监测。

附图说明

图1为本发明中结合传感网络和机器学习的大气污染源定位方法的流程图；

图2为本发明中数据采集模块结构图；

图3为本发明中一种采用传感网络监测方法获取数据集的流程图；

图4为本发明中一种采用传感网络监测方法获取数据集的场景图；

图5为本发明中SVM、DNN分级分类模型构建流程图；

图6为本发明中DNN分级分类模型网络结构图；

图7为本发明中一种结合分类模型的大气污染源定位系统结构示意图。

图中标号：1、数据采集模块；2、云端；3、监测装置；4、污染源位置；5、后台监测终端初始化模块；6、目标位置标记模块；7、模型导入模块；8、数据采集控制判断模块；9、定位计算输出模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，本申请实施例提供一种结合传感网络和机器学习的大气污染源定位方法，包括以下步骤：

S1：由于根据扩散模型或仿真获取的数据都是在较为理想的条件下，并不能与实际污染源扩散相符，故实施例中设计了一种数据集获取实验，获取在真实环境中污染源扩散后的监测数据集，同时对数据集进行筛选填充预处理完善扩散数据集。

如图3所示，本申请实施例提供一种用传感网络监测方法获取数据集的操作以及处理过程。

S11：确定监测区域，将监测区域网格化划分，同时建立区域相对坐标系，以左下角为坐标系原点，X轴正方向为右，Y轴正方向为上，依次来获取网格间的相对位置关系。如图4所示，本申请实施例提供一种用采用传感网络监测方法获取数据集的场景图，将监测区域划分为25个网格区域，以坐标原点所在网格处为X型左下角，在X型其它网格点放置监测装置3，其它网格点为污染源可能位置，共16种位置，加上没有污染源的情况，共17种可能结果，记录监测装置坐标作为数据特征一部分，此时监测装置高度初始高度为第一高度，若网格点划分较多，可在X型布置基础上适当减少监测装置。

S12：开始监测，在无污染源情况下记录环境背景浓度信息作为参照数据，持续一段时间采集足够的参照数据,将数据通过4G通信上传至云端存储，如图2所示为数据采集模块1结构图，监测模块由主控板MCU控制颗粒物传感器、CO传感器、风速风向传感器、温湿度传感器采集目标数据，通过4G通信模块直接将数据上传至云端2。将污染源置于任一网格，记录网格位置坐标，待其扩散一段时间后，开始记录各监测点的监测数据并上传，保证一定的监测时间获取各风向完善的数据集，标记记录此时污染源所属网格位置，同时记录各监测节点的监测的污染物目标数据，保证一定的监测时间获取各风向完善的数据集。

由于大气污染物扩散属于三维扩散，本身就具有向上扩散的速度，所以本实施例中考虑了污染源的释放高度与监测点的高度关系，设置了三种相对高度来进行实验。

S13：改变污染源与监测点的相对高度，重复以上过程。改变污染源位置4，本实施例中考虑到除监测点所属网格的其余所有网格的污染源16种位置，重复以上步骤，最后以风向为参照整合所有位置的数据获得此区域内完整的数据集。

由于实测环境中风速并不稳定，当风速过大时，污染源的扩散极不稳定，且监测设备也会受一定影响，所以有必要对风速突变为较大时所采集的数据进行处理；受环境噪声等影响，传感测装置可能会出现数据采集失败或数据传输失败情况，所以有必要对这一部分数据集进行处理。

S14：对风速异常数据进行处理，将风速突变为较大值时采集的后15条监测数据删除，保证数据集中风速的稳定性以及数据的有效性。采用均值填充的方法完善数据集，针对个别监测结点某时刻数据缺失值，根据其缺失值前后五条数据的平均值对其进行填充，保证数据集内不存在空值，均值填充公式如下：

其中x_i为填充的目标数据，x_j为缺失数据后前后10条数据。

S2：在S1获取的数据集基础上，对数据集进行目标值更改和标准化处理，本实施例采用SVM和深度神经网络DNN方法构建污染源的分级分类定位模型。将定位问题转换为分类问题，该类模型由一个大分类器和多个子分类器组成，大分类器的作用是对传感器数据进行初步的分类，将污染源所在的区域与其他区域进行区分。然后，针对大分类器确定的污染源区域，使用多个子分类器对具体污染源位置进行精细定位，此二级分类模型以提高定位准确度。

S21：更改数据集目标值样式，将污染源位置坐标转换为大小标签数据，划分子分类所属的大类别，在本实施例中，将一级大分类设置为9类，将污染源相近的污染源位置归为一类，1、4为一类，2、3、5为一类，6为一类，7、8、11为一类，9、12为一类，10、13为一类，14为一类，15、16为一类，共九大类，加上无污染源情况，共17小类,更改数据集目标值为大小类别组合关系。

S22：数据标准化处理，标准化公式如下：

其中

如图5所示，本申请实施例提供一种SVM与DNN分级分类模型构建流程。

S23：构建SVM一级大分类模型，采用一对多分类方法，选择初始的模型参数，并采用交叉验证等方法进行模型优化，以提高模型的泛化能力和准确性。

交叉验证，假设我们现在有n个数据组成的数据集，那么交叉验证的方法就是每次取出一个数据作为测试集的唯一元素，而其他n-1个数据都作为训练集用于训练模型和调参。结果就是我们最终训练了n个模型，每次都能得到一个MSE。而计算最终test MSE则就是将这n个MSE取平均，在分类模型中公式如下：

其中Err_i表示的是第i个模型在第i组测试集上的分类错误的个数。

构建SVM二级子分类模型，单独子分类模型参照S23结构参数进行构建，然后将多个小分类器的结果采用投票方法进行集成。在集成过程中，考虑每个小分类器的权重和结果置信度因素。

对SVM分级分类模型进行测试评估，采用独立数据集进行测试，采用准确率、召回率、F1值等指标进行评估，根据评估效果适当调整一二级分类模型的模型参数。

在分类模型中，准确率为测试集中正确分类的数据量与测试集数据量的比值，以下为准确率计算公式：

其中真正例(TP)是指模型将正类别样本正确地预测为正类别，真负例(TN)是指模型将负类别样本正确地预测为负类别，假正例(FP)是指模型将负类别样本错误地预测为正类别，假负例(FN)是指模型将负类别样本正确地预测为负类别。

召回率的含义是在实际为正的样本中被预测为正样本的概率，以下为召回率计算公式：

其中真正例(TP)是指模型将正类别样本正确地预测为正类别，假负例(FN)是指模型将负类别样本正确地预测为负类别。

S24：如图6所示，构建DNN一级大分类模型，以传感器的监测数据为输入，设置神经网络的隐藏层层数和激活层，在模型训练过程中，采用反向传播算法进行参数更新，加入早停止机制，以训练epoch中的accuracy参数为参考，当模型分类准确度不再提升时停止模型训练，保存此时模型参数权重，同时采用正则化等方法进行模型优化，防止模型的过拟合。

构建DNN二级子分类模型，分类模型图在一级大分类模型基础上，在一级分类输出结果后，采用对应的子分类器进行训练输出，每个单独子分类模型参照大分类模型的构建选择网络结构和训练方法。

将第二级子分类器的输出与第一级分类的结果进行集成输出，得到最终的污染源定位结果。

如图7所示，本申请实施例提供一种结合分类模型的大气污染源定位系统结构示意图。

包括后台监测终端初始化模块5，用于构建监测区域的初始地图模型，标注网格化区域，建立初始坐标系明确网格相对坐标位置。

目标位置标记模块6，标注污染源监测站点所属网格点位置，当系统输出预测污染源位置时采用该模块及时标注污染源位置。

模型导入模块7，用于将实施例中所训练的定位分类模型导入系统。

数据采集控制判断模块8，设置监测区域内所有监测站点的数据定时采集并存储，也可通过发送命令更改数据采集时间间隔；设置相应污染物临界值，同时判断异常数据的出现，当网格监测区域中任一监测节点监测数据超过临界值时，进一步判定其它监测点数据，当异常数据出现在三个监测点以上，从此时开始标记异常数据；

定位计算输出模块9，用于将标记为异常的实时采集的数据导入定位模型进行预测，此时连续对异常值出现的以后多条数据进行模型预测，分别记录两种导入模型对这些连续数据中的数据的预测结果，将输出结果中占比最大的预测结果输出作为若该模型的单独输出预测结果。然后对比两种模型所输出的预测结果是否相同，相同则直接输出预测分类结果作为系统输出污染源位置，若预测分类结果不同，则进一步判断两个模型输出该预测分类概率的大小，输出概率较大的预测结果作为最终的污染源位置，调用位置标记模块将最终污染源位置在网格区域中标注。

Claims

1.一种结合传感网络和机器学习的大气污染源定位方法，其特征在于：具体包括如下步骤：

S1：设计数据集获取实验，获取在真实环境中污染源扩散后的监测数据集，同时对数据集进行筛选填充预处理完善数据集；

S2：构建SVM和DNN方法构建污染源分级分类定位模型，将定位问题转化为分类问题；

S3：将污染源分类定位模型导入后台监测终端，实时采集数据对污染源进行实时定位；后台监测终端上可视化监测区域的网格化模型，在X型网格位置标记监测站点；当后台监测终端通过定位模型判断出污染源位置时在地图网格中标注污染源位置。

2.根据权利要求1所述的一种结合传感网络和机器学习的大气污染源定位方法,其特征在于：步骤S1所述的数据集获取实验具体包括:

S11：将监测区域网格化划分，在网格监测区域X型位置网格处放置污染源气体监测装置，同时记录污染源气体监测装置的坐标数据；

S12：记录无污染源时以及污染源置于每个网格时污染源监测装置的数据，改变污染源与污染源监测装置的相对高度，重复实验记录数据，保证一定的监测时间获取风向完整的数据集，整合所有位置的数据获得此区域内完整的数据集；

S13：对数据集受环境原因所存在的干扰与异常数据，对数据集进行筛选填充处理；

S14：处理风速异常数据，将风速突变为较大值时采集的后一段时间内的监测数据删除，保证数据集中风速的稳定性。

3.根据权利要求2所述的一种结合传感网络和机器学习的大气污染源定位方法,其特征在于：步骤S2所述的构建SVM和DNN方法构建污染源分级分类定位模型，具体如下:

更改数据集目标值样式，将原来的具体目标值污染源更改为分级模型目标污染源样式，对数据集进行标准化处理；分别构建SVM、DNN的一级分类和二级分类模型。

4.根据权利要求3所述的一种结合传感网络和机器学习的大气污染源定位方法,其特征在于：所述的更改数据集目标值样式，具体如下:

S21：更改数据集目标值样式，将污染源位置坐标转换为大小标签数据，划分子分类所属的一级大类别，更改数据集目标值为大小类别组合关系；

S22：数据标准化处理，对序列X₁…X_n标准化公式为：

这里

5.根据权利要求3所述的一种结合传感网络和机器学习的大气污染源定位方法,其特征在于：所述的构建SVM一级分类和二级分类模型，具体如下：

S23：在基础SVM分类器上构建SVM分级分类模型，构建一级大分类模型，采用一对多分类方法，选择合适的模型参数，并采用交叉验证方法进行模型优化；构建二级子分类模型，将多个小分类器的结果进行处理，采用投票方法进行结果集成；对模型进行测试评估，采用准确率、召回率、F1值指标进行评估，根据评估效果调整一二级分类模型的模型参数。

6.根据权利要求3所述的一种结合传感网络和机器学习的大气污染源定位方法,其特征在于：所述的构建DNN一级分类和二级分类模型，具体如下:

S24：在基础DNN分类模型上构建DNN分级分类模型，构建一级大分类模型，设置神经网络的隐藏层层数和激活层；在模型训练过程中，采用反向传播算法进行参数更新，加入早停止机制，同时采用正则化方法进行模型优化；构建二级子分类模型，在一级分类模型基础上，选择网络层数结构和训练方法构建子分类模型；最后，将第二级子分类器的输出与第一级分类的结果进行集成输出。

7.一种结合传感网络和机器学习的大气污染源定位系统，其特征在于：包括：

后台监测终端初始化模块，用于构建监测区域的初始地图模型，标注网格化区域，建立初始坐标系明确网格相对坐标位置；

目标位置标记模块，标注污染源监测站点所属网格点位置，当系统输出预测污染源位置时采用该模块及时标注污染源位置；

模型导入模块，用于将所训练的定位分类模型导入系统；

数据采集控制判断模块，将监测区域内采集的数据存储，控制监测节点的状态，判断采集数据的有效性；

定位计算输出模块，用于将污染源分类定位模型对采集数据污染源位置预测的结果进行输出展示。

8.根据权利要求7所述的一种结合传感网络和机器学习的大气污染源定位系统,其特征在于：所述的数据采集控制判断模块，具体包括如下内容:

设置监测区域内所有监测站点的数据定时采集并存储，或通过发送命令更改数据采集时间间隔；设置相应污染物临界值，同时判断异常数据的出现，当网格监测区域中任一监测节点监测数据超过临界值时，进一步判定其它监测点数据，当异常数据出现在三个监测点以上，从此时开始标记异常数据。

9.根据权利要求8所述的一种结合传感网络和机器学习的大气污染源定位系统,其特征在于：所述的定位计算输出模块，具体包括如下内容:

将数据采集控制判断模块所标记为异常的实时采集的数据导入定位模型进行预测，此时连续对异常值出现的以后多条数据进行模型预测，分别记录两种导入模型对这些连续数据中的数据的预测结果，将输出结果中占比最大的预测结果输出作为若该模型的单独输出预测结果，然后对比两种模型所输出的预测结果是否相同，相同则直接输出预测分类结果作为系统输出污染源位置，若预测分类结果不同，则进一步判断两个模型输出该预测分类概率的大小，输出概率较大的预测结果作为最终的污染源位置，调用位置标记模块将最终污染源位置在网格区域中标注。