CN113688506B

CN113688506B - 基于微站等多维数据的潜在大气污染源识别方法

Info

Publication number: CN113688506B
Application number: CN202110866265.XA
Authority: CN
Inventors: 伯鑫; 王鹏
Original assignee: Beijing First Atmospheric Environment Technology Co ltd
Current assignee: Beijing First Atmospheric Environment Technology Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-04-12
Anticipated expiration: 2041-07-29
Also published as: CN113688506A

Abstract

本方案提供了一种基于多维数据的潜在大气污染源识别方法、系统及装置，该系统包括：网格划分模块，用于对目标区域进行网格划分；污染物浓度数据处理模块，用于计算各个网格污染物因子s在单位时间内的浓度数据均值；数据预处理模块；排放清单模块，用于获得单网格排放量，以及更新排放清单；多因子分析模块，用于筛选出与污染物因子s具有强相关关系的气象数据对应的气象因子；浓度预测模块，用于获得污染物因子预测浓度值；潜在遗漏污染源判断模块，用于确定对应网格是否存在潜在遗漏污染源，并得到存在潜在遗漏污染源所在网格的排放量。本方案能够有效提升预测准确度及排放清单精度。

Description

基于微站等多维数据的潜在大气污染源识别方法

技术领域

本发明涉及环境监测领域，特别是针对大气的污染状况的监测，具体涉及到一种优化的基于微站等多维数据的大气潜在污染源的识别方法、系统及装置。

背景技术

随着工业化进程的不断加速和社会日常工业品消耗的加剧，大气污染已经在全球不同区域先后上演，并且已然成为影响社会经济发展和人类生活的一大制约，并形成了包括对身体健康、安全生产等的潜在风险隐患，是目前影响社会经济发展的重要因素之一。大气污染受污染源位置、地形、大气稳定性、高度、人口、天气、监测点数据采集情况、参考因素维度等多种因素的综合影响，污染源的精准识别难度巨大。

空气中污染物浓度，例如PM₁₀，不仅受气象因素的影响，例如温度(T)、湿度(H)、压强(P)、风速(S)、风向(D)，而且它还受本地PM₁₀浓度时间上累积的影响，站点与站点之间的影响关系也是错综复杂的，这些都会对PM₁₀浓度变化产生一定的影响。使得源点和受体地区的PM₁₀浓度具有显著的时空特性。

在现有技术中，针对大气污染的监测，往往是基于区域内的微站，或者地面气象监测数据，或者结合已有的依据以往经验汇总的区域排放清单等，进行基于经验的预测，但这类预测方法对于污染源的精准寻找效果不佳，并且在不同年费不同时间段中的影响因素或者污染源的变化，很难清晰识别出造成特定阶段区域大气污染的主要污染源。此外，现有技术中也有大量结合神经网络技术对大气污染进行预判的相关方法，但是目前该类方法仅能实现基本可用的对于大气污染的未来情况的预测，而对于大气污染源的精准寻找和确定，却鲜有针对性的有效的方案出现。

因此，基于未来“蓝天保卫战”的高要求，仅仅实现大气状况的预测和监控是远远不够的，对于污染源的有效识别和有效预测，才能更为有助于大气污染的治理，对有效应对重污染天气意义重大。

发明内容

针对现有技术中存在的不足，本发明使用微站监测数据、地面气象观测数据、排放清单数据等多维度数据，构建多因子污染源识别模型，从而实现精准识别污染源，并且识别出遗漏的污染源，实现特定城市或区域范围内的污染热点，以实时更新排放清单。

具体而言，本方案提供了以下具体的技术方案：

一方面，本发明提供了一种基于多维数据的潜在大气污染源识别方法，该方法包括：

S1、获取目标区域的污染物因子s浓度数据，对目标区域进行网格划分，并对所述浓度数据进行插值处理，计算各个网格污染物因子s在单位时间内的浓度数据均值；

S2、对所述浓度数据均值进行预处理，获得处理后浓度数据均值；

S3、对目标区域的历史排放清单进行网格化处理，将目标区域中的污染物排放量分配到对应网格中，获得单网格排放量；所述网格大小与S1中相同；

S4、对浓度数据均值、地面气象数据进行多因子分析，筛选出与污染物因子s具有强相关关系的气象数据对应的气象因子；

S5、对下一单位时间的污染物因子s浓度进行预测，获得预测浓度值；

S6、针对每一网格，基于所述预测浓度值、实测浓度值，确定对应网格是否存在潜在遗漏污染源；当存在潜在遗漏污染源时，通过排放量预测，得到存在潜在遗漏污染源所在网格的排放量，并更新网格清单。

优选的，所述S2中，预处理包括补值，所述补值方式为：

式中：C_m,d,t：第m月d天t时刻缺失值；

C_m,d,h：m月d天h时刻数值；

k：当天已有数据长度个数；

l：当月某一时刻已有数据个数。

优选的，所述S4中，所述多因子分析，通过计算污染物因子s与气象因子的相关性计算，所述相关性计算方式为：

式中：x_t为污染物因子s单位时间浓度数据；

y_t为单个气象因子单位时间数据；

和/>分别表示x和y的平均值。

优选的，所述S6中，所述确定对应网格是否存在潜在遗漏污染源的方式为：

S61、计算每一网格同一单位时间内预测浓度值、实测浓度值之间的均方误差值MAPEt；

S62、计算每一网格单位时间内浓度预测值均值、实测浓度值均值的均方误差值MAPEavg；

S63、当对于一网格，MAPEt＞MAPEavg时，该网格计一次浓度异常，当该网格浓度异常次数满足一预设条件时，则确定该网格存在潜在遗漏污染源，此时定义该网格为疑似网格。

优选的，当确定疑似网格后，进一步包括：

S64、针对疑似网格，计算该疑似网格单位时间内预测浓度值、实测浓度值之间的差值；

S65、对所有疑似网格的所述差值进行排序，排序前一定比例的疑似网格，记一次高值；

S66、统计一研究时间长度内，各疑似网格的高值次数k；

S67、根据高值次数k对所有疑似网格排序，并基于排序情况对所述疑似网格进行分级。

优选的，所述更新网格清单包括：

S68、针对疑似网格，基于网格的污染物因子s的历史浓度数据、网格历史排放清单数据，建立排放量预测模型，确定排放量预测模型参数；

S69、基于污染物因子s的所述预测浓度值，以及排放量预测模型，得到潜在遗漏污染源在所述疑似网格的排放量，并更新网格清单。

另一方面，本发明还提供了一种基于多维数据的潜在大气污染源识别系统，该系统包括：

网格划分模块，用于对目标区域进行网格划分；

污染物浓度数据处理模块，用于获取目标区域的污染物因子s浓度数据，并对所述浓度数据进行插值处理，计算各个网格污染物因子s在单位时间内的浓度数据均值；

数据预处理模块，用于对所述浓度数据均值进行预处理，获得处理后浓度数据均值；

排放清单模块，用于基于目标区域历史排放清单，将目标区域中的污染物排放量分配到对应网格中，获得单网格排放量；以及，用于基于潜在遗漏污染源判断模块得到的存在潜在遗漏污染源所在网格的排放量，更新排放清单；

多因子分析模块，用于对浓度数据均值、地面气象数据进行多因子分析，筛选出与污染物因子s具有强相关关系的气象数据对应的气象因子；

浓度预测模块，用于对下一单位时间的污染物因子s浓度进行预测，获得预测浓度值；

潜在遗漏污染源判断模块，用于针对每一网格，基于所述预测浓度值、实测浓度值，确定对应网格是否存在潜在遗漏污染源；当存在潜在遗漏污染源时，通过排放量预测，得到存在潜在遗漏污染源所在网格的排放量。

优选的，所述浓度预测模块包含多个预测模型单元，所述预测模型单元采用不同预测模型；

基于各个所述预测模型的平均绝对百分误差、均方误差，确定最优预测模型，并以最优预测模型的结果作为浓度预测模块的输出。

优选的，所述潜在遗漏污染源判断模块中，确定对应网格是否存在潜在遗漏污染源的方式为：

计算每一网格同一单位时间内预测浓度值、实测浓度值之间的均方误差值MAPEt；以及计算每一网格单位时间内浓度预测值均值、实测浓度值均值的均方误差值MAPEavg；

当对于一网格，MAPEt＞MAPEavg时，该网格计一次浓度异常，当该网格浓度异常次数满足一预设条件时，则确定该网格存在潜在遗漏污染源，此时定义该网格为疑似网格。

优选的，当确定疑似网格后，潜在遗漏污染源判断模块对疑似网格进行分级，该分级方式通过以下实现：

针对疑似网格，计算该疑似网格单位时间内预测浓度值、实测浓度值之间的差值；对所有疑似网格的所述差值进行排序，排序在前一定比例的疑似网格，记一次高值，例如排名在前50％的网格，记录一次高值等；

统计一研究时间长度内，各疑似网格的高值次数k；

根据高值次数k对所有疑似网格排序，并基于排序情况对所述疑似网格进行分级。排序分级可以依据不同的百分比来设置，例如前15％为一级，前15％-40％为第二级等。

优选的，排放清单模块中，通过以下方式更新网格清单：

针对疑似网格，基于网格的污染物因子s的历史浓度数据、网格历史排放清单数据，建立排放量预测模型，确定排放量预测模型参数；该排放量预测模型为线性模型。

基于污染物因子s的所述预测浓度值，以及排放量预测模型，得到潜在遗漏污染源在所述疑似网格的排放量，并更新网格清单。

优选的，该排放量预测模型为：

y＝kx+b

式中：x为污染物因子s的网格化浓度数据；

y为网格化排放清单数据；

k为系数；

b为常量。

此外，本发明还提供了一种基于多维数据的潜在大气污染源识别装置，该装置包括数据输入设备、存储设备及处理器，所述处理器可以调用所述存储设备中的指令，以执行如上所述的基于多维数据的潜在大气污染源识别方法。

与现有技术相比，本发明技术方案通过多因子分析，从污染物因子s浓度的相关因素中选择出了对污染物因子s浓度具有显著影响的有效气象因子，并引入了不同类型的预测模型，有效提升预测准确度。同时，本方案基于地面气象观测数据、微站监测数据等，结合区域排放清单，采用数值模拟等方法，取得区域空气质量数据情况，再对比实测数据对清单模型模拟结果进行校核。对排放清单中遗漏的稳定热点排放源进行补充，有效提高了排放清单精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的整体方法框图；

图2为本发明实施例中以PM₁₀为例的控制质量模型预测的框架示例图；

图3为本发明实施例的模型验证示意图；

图4为本发明实施例的空气质量时空特征预测模型的评价比较图；

图5为本发明实施例的残差正态概率图；

图6为本发明实施例的某市合围区识别特点示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

在一个具体的实施例中，结合图1所示，对本发明的主要的方法的实现方式进行以下阐述。

1微站网格数据插值

(1)输入的数据介绍

本发明输入的微站观测数据为污染物因子s小时维度的浓度数据，在一个优选的实施方式中，s可以代表例如SO₂，NO_x，PM₁₀，CO等。

时间周期为一年。各个站点每月的污染物因子s的小时浓度数据单独放在一个文件中，每一个站点共12个文件，在本实施例的实例中，记录数据总计8760条数据。所有站点的文件数＝12*站点数。

(2)插值步骤

步骤一：选取一个污染物因子s，例如PM₁₀；

步骤二：对研究区域进行1km×1km的网格划分，将监测的污染物因子s的小时浓度数据进行插值。

步骤三：计算各个网格、同一小时、不同站点的污染物因子s的监测浓度数据均值，将该值作为每个网格的小时平均浓度。

2 微站网格数据的质控

2.1 缺失值处理

在一个更为优选的实施方式中，在一些特定情况下，会出现微站网格数据进行插值后，部分网格存在数据缺失的情况，因此进行网格缺失值补值。

(1)补值原则

对存在缺失值情况的网格，用其他网格的数据进行补值。补值优先级如下：

第一优先级：同一天、全部小时污染物因子s的浓度均值；

第二优先级：同一月、同一小时污染物因子s的浓度均值。

(3)补值方法：

式中：C_m,d,t：第m月d天t时刻缺失值；

C_m,d,h：m月d天h时刻数值；

k：当天已有数据长度个数；

l：当月某一时刻已有数据个数。

2.2归一化处理

为提高后续模型建立后的训练速度和收敛效果，在一个更为优选的实施方式中，需要对进行上述插值和补值后的数据进行归一化处理。

(1)归一化方法

对数据集进行归一化处理，将数据映射到0～1之间，公式如下：

式中：x_scale：标准化之后的污染物因子s的小时浓度数据；

x_min：原始数据(污染物因子s的小时浓度)的最小值；

x_max：原始数据(污染物因子s的小时浓度)的最小值；

x：原始数据(污染物因子s的小时浓度)。

此处需要说明的是，此处的归一化处理不是必要的步骤，当插值和补值后的数据满足后续模型的要求时，也可以不进行上述归一化。

3排放清单网格化处理

为了进行后续的污染源的精准识别和模型的建立，在一个优选的实施方式中，本发明需要针对排放清单数据进行网格化处理，以与其他数据进行对应。输入的排放清单原始数据为特定时间维度的污染物因子的排放量数据，例如可以是年维度的污染物因子s(s代表SO2，NOx，PM₁₀，CO等)的排放量数据。

(1)排放清单网格化步骤

优选的，排放清单进行网格化的步骤，可以通过以下方式实现：

步骤一：选取一个污染物因子s，以PM₁₀为例；

步骤二：对研究区域进行1km×1km的网格划分。排放清单统一按照经纬度坐标将污染物PM₁₀排放量分配到相应网格中，获得每一个网格的排放量。此处的网格，与第1步中的微站网格数据中的网格划分相同。

此处需要指出的是，上述的网格尺寸，是可以根据实际的监控范围或者精度要求等进行调整的，此处仅以1km×1km作为阐述示例，以方便对本发明技术方案的说明，而不应当将上述的网格尺寸作为对本发明保护范围的限定来理解。

4、多因子分析

多因子分析的目的，是要通过统计分析，从污染物因子的相关因素中选择对污染物因子具有显著影响的气象因子。

(1)输入的数据

在一个优选的实施方式中，多因子分析时，所输入的数据可以是如下的数据：

数据一：微站观测的数据为小时维度的污染物因子s浓度数据，其中s代表SO₂，NO_x，PM₁₀，CO等。

数据二：地面气象数据，该气象数据例如可以是小时维度的，气象因子包括温度、湿度、压强、风向、风速等。

此处，还可以包含其他类型的主要影响大气污染的因子，作为采集和模型建立的参考因子，此处不再一一赘述。

(2)相关性计算

在筛选出影响大气污染的主要因子之后，需要对因子的相关系数进行计算，从而确定不同的污染因子对特定目标区域内、网格区域内的气象因子之间的相关程度。在一个优选的实施方式中，该相关系数的计算，采用以下实现：

给定两个时间序列x_t和y_t，相关系数ρ_x,y可以计算为：

式中：x_t为污染物因子s小时浓度数据；

y_t为单个气象因子小时数据；

和/>分别表示x和y的平均值。

因此，|ρ_x,y|→1意味着它们之间的强相关性。在本发明中，优选筛选出与污染因子具有显著且强相关的气象因子。

5、污染物因子s浓度预测

污染物因子s浓度预测的主要目的，包括至少以下两个方面：

①筛选最优预测模型；

②准确预测污染因子s下一时段的小时浓度。

(1)方法概述

该部分中，在一个优选的实施方式中，可以设置多种不同的预测模型，以下以引入四个不同的预测模型为例进行说明：

①以调整后的支持向量机回归和基于大气污染数据调整后的BP神经网络为首选的两个基础预测模型；

②以调整后的极限学习机和调整后的随机向量泛函连接网络为附加的两个预测模型。

此处需要指出的是，上述的四个预测模型，是可以基于数据的要求和数据的筛选结果进行调整的，包括具体的基础预测模型的数量，模型的类型以优选不同的识别模型为最佳，也可以选用同一类型但不同架构的识别模型进行结合，以便于后续模型的优化选择。

(2)输入数据

输入数据为微站污染因子s的小时浓度数据和所对应的地面气象小时数据，将该数据分为训练数据集(覆盖样本周期的前80％)和测试数据集(后20％)。其中，训练过程中，本研究选取前72小时的污染物浓度值去预测后1小时的污染物浓度值。

5.2预测模型

在一个更为优选的实施方式中，本发明上述所采用的4个预测模型，可以优先采用以下的方式来实现：

(1)支持向量机模型

该优化的模型中，给定n个样本其中x_i是第i个输入，y_i是输出，SVR可以被描述为

式中：f(x_i)表示对第i个目标y_i的估计；

是非线性映射函数；

系数w和b是通过最小化经验风险估计的模型参数。

最小化经验风险估计的模型如下：

式中：ξ_i(或者ξ_i ^*)是松弛变量。

高斯RBF内核在映射函数中占主导地位，因为它可以很容易地操作并有效地捕获非线性关系：

K(x_i,x_j)＝exp(-0.5||x_i-x_j||²/σ²) (6)

式中：σ径向基函数的宽度为高斯RBF内核。

(2)优化的BP神经网络

该BP神经网络包括输入层，一个隐含层和一个输出层，它们之间的关系的数学描述为：

式中：x_i,h_j和y分别表示第i个输入层节点，第j个隐藏层节点和输出；

θ_j和λ₀分别是隐藏层和输出层中的偏置；

n和m分别是输入层和隐藏层中节点的总数；

w_j,i和w_0,j并且分别是隐藏层和输出层的权重；

f₁(·)和f₀(·)分别是隐藏层和输出层中的激活函数。

此处，通过迭代搜索方法(例如，梯度下降)递归地训练模型参数，即偏差和权重。

(3)极限学习机

在本发明所优选采用的极限学习机中，具有M个隐藏神经元节点和N个样本(x_i,y_i),(i＝1,2,...,N)(其中x_i＝[x_i,1,x_i,2,...,x_i,n,]^T∈Rⁿ是第i个输入向量并且y_i＝[y_i,1,y_i,2,...,y_i,m]^T∈R^m是输出向量)，其回归函数可以表示为：

式中：g(x)表示激活函数；

w_i＝[w_i,1,w_i,2,L,w_i,n,]^T是从输入节点到第i个隐藏节点的权重向量；

β_i＝[β_i,1,β_i,2,L,β_i,m]^T是从输出节点到第i个隐藏节点的权重向量；

b_i是第i个隐含节点的偏置。

(4)随机向量泛函连接网络

本实施例中，随机向量机可采用以下优化的方式：

式中：β_i是第i个输入的权重。

对于N维输入样本，在输出层中总共有(M+N)个输入，其中M来自增强节点，N直接来自输入样本。

5.3最优预测模型的确定

在一个更为优选的实施方式中，在确定了所采用的多个模型后，需要进一步评估预测模型的准确性，确定最优预测模型。

(1)最优模型的评价指标及具体计算方法

在对模型进行评价和选取时，采用以下几个关键要素：

①平均绝对百分误差(Mean Absolute Percentage Error，简称MAPE)：值越小，表示预测精度越高；一般认为MAPE小于10时，预测精度较高。

②均方误差值：

式中：M是测试数据集的大小；

和y_t分别是时间t中的预测和实际污染物因子小时浓度数据。

当该均方误差越小时，表示对应的模型精度越高。

(3)最优预测模型选择

通过模型性能评价指标选取预测方法(1)-(4)中最优的预测模型，作为最终的预测模型；该模型所预测的结果为预测输出结果。

此处，对模型的评价和选取，基于上述的百分误差和均方误差进行确定，这两个评估指数，可以通过一定的加权方式进行计算，以获得不同模型的评估值，当评估值越小时，即对应的两个误差值越小时，则代表相应的模型评估精度越高。此处的加权等方式，可以是多种多样的，可以采用本领域中常规的融合评估算法进行，此处不再一一赘述。

6潜在遗漏污染源识别及排放清单更新

6.1潜在遗漏污染源识别

(1)具体步骤如下：

步骤一：输入筛选后的最优预测模型预测的浓度值和微站实际监测的浓度值，上述的浓度值均是每个网格、污染物因子s的小时浓度；

步骤二：计算每一个网格每小时t的预测值与实际值的MAPE值(均方误差值，与说明书5.3的计算方式相同)，记为MAPEt；

步骤三：计算所有网格小时t浓度预测均值与实际小时浓度均值的MAPE值,记为MAPEavg；

步骤四：比较研究时段的MAPEt与MAPEavg(记每个网格的总的比较次数为n)，当前者大于后者，则该网格记一次浓度异常；当该网格异常次数大于n的50％时，则认为该网格存在潜在遗漏污染源，定义该网格为疑似网格。

6.2疑似网格排名

(1)具体步骤如下：

步骤一：针对每一个疑似网格，计算小时预测浓度值与实际小时浓度值的差值。

步骤二：对每个小时的所有疑似网格差值进行排序(依据差值从高到低排名，即两者差别越大，则存在潜在遗漏的风险越高)，排名在前10％的网格分别记一次高值；高值的确定此处以10％为例，但是本领域技术人员也可以根据监测需求对该百分比进行调整；

步骤三：统计研究时间内，各网格的高值次数k；

步骤四：根据高值次数k对所有网格排序，排名前10％为显著疑似网格，排名10％～30％为中等疑似网格，排名30％～40％为一般疑似网格。此处的百分比划分，是一个优选的实现方式，也可以采用其他的排序方式来实现。

6.3排放清单更新

(1)具体步骤如下：

步骤一：为分析所识别出的疑似网格的排放量，本发明建立了排放量预测模型，具体如下：

y＝kx+b(13)

式中：x为污染物因子s的1km*1km网格化浓度数据；

y为1km*1km网格化排放清单数据；

k为系数；

b为常量。

步骤二：将研究周期内、研究区域污染物因子s的1km*1km网格化浓度数据和1km*1km网格化排放清单数据代入上述公式(13)，可得到线性回归的系数k和常数b的值，从而建立只有x和y两个未知量的排放量预测模型；

步骤三：将通过最优预测模型所得到的污染物因子s的小时浓度数据代入上述排放量预测模型(公式13)，可以得到潜在遗漏污染源所疑似在网格的排放量；

步骤四：更新网格清单。

以下，在另一个实施例中，以某市本地的数据，针对PM₁₀浓度，按照本发明说明书中上述的方案来阐述方法的可行性。

使用某市本地执法数据进行识别模型准确度验证，通过对某市报警网格信息及12369举报信息的整理与筛选，部分坐标点位于本发明所使用方法识别出的热点网格区域内，如图3所示，筛选出的热点网格范围内的执法数据类型包含企业偷排、黑作坊违法经营、秸秆焚烧、餐饮业油烟、小面积短期施工扬尘等，与识别出的稳定热点位置及出现原因较吻合，因此，本识别模型具有一定可靠性。

对于清单校准结果，本发明根据多因素多尺度预测PM₁₀浓度的方法，考虑了不同的PM₁₀相关因子，并仔细探讨了它们与PM₁₀的多尺度关系。本研究通过预测模型，得出PM₁₀及相关因素之间的多尺度关系，进行实际监测数据与模型模拟数据的对比与校正，识别某市合围区污染源热点，并进行排放量校正。

根据每个时间尺度的相关因素对PM₁₀进行建模，并将最终预测生成为所有时间尺度的线性组合。根据四种预测方法的RMSE和MAPE的比较结果，如图4所示，SVR预测方法的RMSE和MAPE值最小，说明SVR的预测结果相对其余三种预测方法的结果较好，因此，本研究选取SVR预测方法对PM₁₀浓度进行预测。

基于SVR预测方法预测2019年PM₁₀浓度PM₁₀，在训练过程中本发明选取前72小时的污染物浓度值去预测后1小时的污染物浓度值，对比每一时刻PM₁₀预测浓度与实际监测浓度，筛选当月差异较大的网格，当每一时刻的预测值与实际值的MAPE值超过所有预测数据的MAPE时，则认为此时刻数据存在较大差异，当超过50％的数据存在较大差异，则作为异常点，如图6中标出的点，残差的正态概率分步情况如图5所示。

为分析上述识别出的污染源热点的排放量，故本发明利用2019年微站PM₁₀浓度数据，未考虑气象因素对扩散的影响，然后根据某市合围区颗粒物排放源(1km×1km)网格数据与PM₁₀浓度的相关性直接建立统计模型，基于微站数据来分析某市合围区颗粒物排放源分布状况。根据PM₁₀浓度数据，使用线性回归模型对某市合围区颗粒物排放源变化进行预测。线性回归预测模型为：

y＝kx+b

根据某市合围区排放清单和微站监测数据，使用数值拟合方法分析排放清单与微站监测数据之间的关系，从而对污染源热点的排放量进行校正，如表1所示。

y＝0.00559x+0.9

表1污染源排放异常高值区识别结果误差情况校正表

本发明基于多因素多尺度方法，结合AI预测算法建立污染源识别模型，对提出的模型预测结果进行评价，并对其性能进行了分析。相较于传统模型，在一定程度上提高了模型预测的精确度。

此外，在又一个具体的实施方式中，本发明的技术方案还可以通过基于多维数据的潜在大气污染源识别系统来实现，该系统包括：

网格划分模块，用于对目标区域进行网格划分；

统计一研究时间长度内，各疑似网格的高值次数k；

优选的，排放清单模块中，通过以下方式更新网格清单：

优选的，该排放量预测模型为：

y＝kx+b

式中：x为污染物因子s的网格化浓度数据；

y为网格化排放清单数据；

k为系数；

b为常量。

在又一个具体的实现方式中，本发明的方案也可以通过具体的电子装置的方式来实现，该装置可以包括数据输入设备、存储设备及处理器，所述处理器可以调用所述存储设备中的指令，以执行如上所述的基于多维数据的潜在大气污染源识别方法。

本领域技术人员应当明了，本发明的方案还可以通过计算机可读介质，或者一种包含存储装置、处理器装置的设备等，来实现以上系统，并且可以使得该系统在运行时，可以实现本发明说明书中所记载的基于径流汇流模拟的泥石流灾害预警方法，而上述的实现方式及其在此基础上的常规模块调整及更改，均应当视为落入本发明的保护范围之内。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于多维数据的潜在大气污染源识别方法，其特征在于，所述方法包括：

S6、针对每一网格，基于所述预测浓度值、实测浓度值，确定对应网格是否存在潜在遗漏污染源；当存在潜在遗漏污染源时，通过排放量预测，得到存在潜在遗漏污染源所在网格的排放量，并更新网格清单；所述确定对应网格是否存在潜在遗漏污染源的方式为：

2.根据权利要求1所述的方法，其特征在于，所述S2中，预处理包括补值，所述补值方式为：

式中：C_m,d,t：第m月d天t时刻缺失值；

C_m,d,h：m月d天h时刻数值；

k：当天已有数据长度个数；

l：当月某一时刻已有数据个数。

3.根据权利要求1所述的方法，其特征在于，所述S4中，所述多因子分析，通过计算污染物因子s与气象因子的相关性计算，所述相关性计算方式为：

式中：x_t为污染物因子s单位时间浓度数据；

y_t为单个气象因子单位时间数据；

和分别表示和/>的平均值。

4.根据权利要求1所述的方法，其特征在于，当确定疑似网格后，进一步包括：

S66、统计一研究时间长度内，各疑似网格的高值次数k；

5.根据权利要求1所述的方法，其特征在于，所述更新网格清单包括：

6.基于多维数据的潜在大气污染源识别系统，其特征在于，所述系统包括：

网格划分模块，用于对目标区域进行网格划分；

潜在遗漏污染源判断模块，用于针对每一网格，基于所述预测浓度值、实测浓度值，确定对应网格是否存在潜在遗漏污染源；当存在潜在遗漏污染源时，通过排放量预测，得到存在潜在遗漏污染源所在网格的排放量，其中，所述潜在遗漏污染源判断模块中，确定对应网格是否存在潜在遗漏污染源的方式为：

7.根据权利要求6所述的系统，其特征在于，所述浓度预测模块包含多个预测模型单元，所述预测模型单元采用不同预测模型；

8.基于多维数据的潜在大气污染源识别装置，其特征在于，所述装置包括数据输入设备、存储设备及处理器，所述处理器可以调用所述存储设备中的指令，以执行如权利要求1-5任一所述的基于多维数据的潜在大气污染源识别方法。