CN117973125A - 基于人工智能和大数据的污染源清单反演方法、系统及应用 - Google Patents

基于人工智能和大数据的污染源清单反演方法、系统及应用 Download PDF

Info

Publication number
CN117973125A
CN117973125A CN202410121694.8A CN202410121694A CN117973125A CN 117973125 A CN117973125 A CN 117973125A CN 202410121694 A CN202410121694 A CN 202410121694A CN 117973125 A CN117973125 A CN 117973125A
Authority
CN
China
Prior art keywords
data
emission
concentration
input
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410121694.8A
Other languages
English (en)
Inventor
唐伟
李洋
张众志
杜晓惠
于扬
戴学之
徐峻
刘世杰
程苗苗
汪筠朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Qiming Technology Co ltd
Chinese Research Academy of Environmental Sciences
Original Assignee
Shenzhen Qianhai Qiming Technology Co ltd
Chinese Research Academy of Environmental Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Qiming Technology Co ltd, Chinese Research Academy of Environmental Sciences filed Critical Shenzhen Qianhai Qiming Technology Co ltd
Priority to CN202410121694.8A priority Critical patent/CN117973125A/zh
Publication of CN117973125A publication Critical patent/CN117973125A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于人工智能和大数据的污染源清单反演方法、系统以及应用,属于环境保护技术领域,旨在解决现有技术中污染源排放清单更新时效性差的问题,从而为政府部门制定相关环保措施提供基础数据支撑。具体采用的方案为:以人工智能和大数据为基础,通过先进的3D CNN人工智能算法,找到对任意单元的污染物浓度贡献最大的排放源,建立污染物浓度与排放量之间的关系模型,通过机器学习技术找到污染物浓度和排放之间的联系,既给定污染物浓度来估计排放,给定排放来估计污染物浓度。

Description

基于人工智能和大数据的污染源清单反演方法、系统及应用
技术领域
本发明属于环境保护技术领域,具体涉及一种于人工智能和大数据的污染源清单反演方法、系统、仿真器、可读存储介质以及计算机程序产品。
背景技术
由于人们对工业高度发达的负面影响预料不够,预防不利,导致了全球性的三大危机:资源短缺、环境污染、生态破坏。环境污染指自然的或人为的破坏,向环境中添加某种物质而超过环境的自净能力而产生危害的行为。(或由于人为的因素,环境受到有害物质的污染,使生物的生长繁殖和人类的正常生活受到有害影响),由于人为因素使环境的构成或状态发生变化,环境素质下降,从而扰乱和破坏了生态系统和人类的正常生产和生活条件的现象。
现有人为排放造成的大气污染种类繁多,以及化学成分较为复杂,而且排口众多,导致排污源头将污染物排出后,其会随着大气扩散至各个地方从而引起大气污染,其中传统方式都是通过人工监测大气污染物来对大气污染程度进行表征,但这样的方式无法难以追溯到源头,导致传统方式的监管难度大,以及污染源头排查工作量较大的问题。
现有大气污染预测与溯源的技术主要采用化学传输模型(CTM):CTM是一种用于模拟和理解大气污染物如何在大气中传播、转化和沉降的重要工具。这些模型结合了气象学、化学和物理学的原理,以提供对大气污染物行为的详细洞察。其原理和方法如下:
a)化学反应:CTM模拟大气中的化学物质如何通过化学反应转化。这包括氧化剂、颗粒物和其他污染物之间的相互作用。
b)传输过程:模型还考虑了大气动力学,包括风速、风向和湍流等因素,这些因素影响污染物在大气中的运动和分布。
c)排放源:模型输入包括排放源的数据,如工业排放、车辆尾气和自然来源(例如火山和植物排放)。
d)气象数据:大气温度、湿度、太阳辐射等气象条件对污染物的化学反应和传输有重要影响,因此也被纳入模型中。
e)数值求解:使用复杂的数学算法,通常是通过分时间步和空间网格来求解包含在模型中的方程组。
其主要局限性为:
a)数据依赖性:CTM的准确性高度依赖于输入数据的质量,包括排放源数据、气象数据和化学反应速率等。
b)计算复杂性:这些模型通常非常复杂,需要大量的计算资源和时间来运行,特别是在覆盖大区域或进行长时间模拟时。
c)化学反应的不确定性:大气化学非常复杂,许多化学反应的速率和机制仍然存在不确定性。
d)尺度限制:CTM通常在一定的空间和时间尺度上运行。在更小的尺度上(如街道级别),模型的准确性可能会降低。
e)环境变化适应性:随着环境条件(如气候变化)的变化,模型可能需要更新以反映新的环境条件。
基于此,目前我们需要知道哪些位置的排放导致了大气污染浓度水平。故而需研发设计一种能够基于人工智能和大数据的污染源清单反演方法来实现该目的。
发明内容
本发明旨在解决现有技术中污染源排放清单更新时效性差的问题,从而为政府部门制定相关环保措施提供基础数据支撑。
我们需要知道哪些位置的排放导致了大气污染浓度水平。例如,假设我们测量了CO2的浓度,测量结果显示C=300mg/m^3。我们希望有一个模型能预测哪些位置的排放对浓度值300mg/m^3做出了百分之多少的贡献。这些信息可以为排放控制提供宝贵的建议。我们可以利用这些信息来调查污染物浓度升高的可能原因,或通过更好的排放控制措施来预防污染水平的升高。
基于此,本发明研究并设计了一种以人工智能和大数据为基础的污染源清单反演方法,能够建立污染物浓度和排放之间的联系,即给定污染物浓度来估计排放,给定排放来估计污染物浓度,通过人工智能的算法发现污染物浓度和排放之间的关系,并通过观测到的气象数据和空气质量数据来纠正模型中的误差和消除不确定性。
需要说明的,本研究主要从以下几个方面入手并对反演算法进行了完整的设计:
首先,进行数据分析与准备。
具体为,根据算法需求准备符合条件的排放数据、浓度数据、气象数据和经纬度信息等,排放经过9次减少扰动,对应于使用不同排放生成的9个浓度文件(在每个不同排放模拟中,气象场保持不变)。
其次,明确核心算法。
更进一步的,通过人工智能算法来根据排放来估计污染物浓度,有以下几种可能的方法:(1)使用机器学习(如随机森林或其他方法)来分析贡献;(2)将问题定义为一个封闭立方体积的有限元分析问题,具有边界约束,其中浓度从一个单元流向相邻单元,并使用机器学习来解决;(3)使用深度学习找到排放和浓度之间的关系。本研究决定使用深度学习作为解决问题的方法,并通过对排放的贡献值排序来分析出排放对特定单元浓度的影响。
最后,开展研究结果及分析。
为了确认该反演算法的可靠性等效果,本发明研究中最后通过评估所选方法的结果,选定目标城市,确定目标城市的经纬度信息,评估是在一个随机选择的时间戳上执行的,以此分析排放物-浓度污染物的关系。
因此,本发明基于上述的主要研究思路,具体提出了以下几个方面解决问题的方案:
较为具体的,本发明第一方面提供了一种反演方法,具体是基于人工智能和大数据的污染源清单反演方法,包括:
获取气象数据、排放数据以及浓度数据三种数据,并进行预处理;
利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型;
通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响,获得最终清单反演结果。
在一可实施的具体方案中,所述的获取气象数据、排放数据以及浓度数据三种数据,并进行预处理的步骤,包括:
解析三种数据文件,使用时间戳信息来准备排放-气象-浓度样本;
接着,对三种数据进行标准化处理,均归一化至0-1区间;
将三种数据细分为三维数据网格。
在上述方案基础上,进一步的,所述的将三种数据细分为三维数据网格的步骤,包括:
对于排放数据设置8个层次;对于浓度数据设置8×2=16个层次:
对于每个相邻的层级对,将层级数据通过求和操作合并。
在上述方案基础上,进一步的,三种数据细分的三维数据网格分别为:
排放数据,样本网格形状为(8,20,20);
浓度数据,样本网格形状为(8,20,20);
气象数据,样本网格形状为(5,20,20)。
在一可实施的具体方案中,所述的利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型的步骤包括:
通过二维卷积层处理的气象数据,将维数从5降至1,然后激活ReLU:weather=weather_conv(weather),weather=nn.ReLU()(weather);
对气象数据进行重塑,以三维匹配排放数据的形状;
将排放三维数据与气象数据串联起来,形成形状,由一组具有激活功能的三维卷积层处理的数据。
作为优选方案,本发明还包括通过循环神经网络RNN以排放数据+气象数据的多个时间戳记录序列作为输入来预测排放浓度的步骤。
在一可实施的具体方案中,所述的通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响的步骤,包括:
使用“零特征”状态作为基准;
在实际输入和基准输入处计算模型输出相对于输入特征的梯度,通过模型进行反向传播来获得梯度;
将从基准到实际输入的路径划分为N个等间距点;对路径上的每个点,计算模型输出相对于输入特征的梯度;对于每个评估点,计算实际输入和基准输入处的梯度之间的差值;
其中,所述差值表示每个特征的重要性随着从基准到实际输入的路径如何改变;
将梯度差值与高斯-勒让德求积公式中的对应权重相乘,对所有加权的梯度差值求和,以获得每个特征的最终归因分数;
其中,该分数表示每个特征对模型对给定输入的预测做出贡献的程度。
特别的,所述的归因分数进行归一化,以确保它们的总和等于模型在实际输入和基准输入上的预测之间的差值。
较为具体的,本发明第二方面提供了一种反演系统,具体为基于人工智能和大数据的污染源清单反演系统,包括:
获取模块,获取气象数据、排放数据以及浓度数据三种数据,并进行预处理;
计算模块,利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型;
估计模块,通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响,获得最终清单反演结果。
较为具体的,本发明根据具体研究,第三方面提供了一种仿真器,包括存储器和处理器,存储器上存储有计算机指令,处理器用于运行存储器上存储的计算机指令,以实现上述所述的基于人工智能和大数据的污染源清单反演方法的步骤。
本发明的有益效果:
与现有技术相比,该方法创新性地以人工智能和大数据为基础,通过先进的3DCNN人工智能算法,找到对任意单元的污染物浓度贡献最大的排放源,建立污染物浓度与排放量之间的关系模型,通过机器学习技术找到污染物浓度和排放之间的联系,既给定污染物浓度来估计排放,给定排放来估计污染物浓度。
针对现有大气污染预测与溯源技术的局限性,本发明提出了一种基于深度学习的污染源清单反演仿真器系统,通过先进的人工智能神经网络,实现了精度和速度的极大提升。本发明主要解决了现有技术的以下局限性:
1.数据处理和整合能力
解决问题:CTM和数值模型高度依赖于精确的输入数据。深度学习可以有效处理和整合大量、异构的数据源,如卫星数据、地面监测数据和气象数据。
优化方法:深度学习模型能够从复杂数据中自动提取特征,减少对数据预处理和手动特征工程的需求。
2.计算效率
解决问题:传统模型在处理大规模或高分辨率数据时计算成本高昂。
优化方法:深度学习模型,特别是卷积神经网络(CNN),在处理大规模空间数据(如卫星图像)方面更加高效。
3.预测能力和精度
解决问题:传统模型可能在新的或变化的环境条件下准确性降低。
优化方法:深度学习模型能够学习和预测更复杂的非线性关系,从而在动态和不确定的环境中提供更精确的预测。
4.模型的适应性和泛化能力
解决问题:环境变化可能导致传统模型失效。
优化方法:深度学习模型可以通过持续学习不断更新的数据,更好地适应环境变化。
基于本发明的相关研究已经应用到成都市和荆门市的污染源清单反演项目,取得了良好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为可用数据的存储结构图(以网格160×200为例)。
图2(a)和图2(b)分别显示了“NO”-“NO2”模型训练期间的训练和验证损失。
图3为神经网络架构图。
图4(a)为3D CNN结构的损失记录:训练损失;图4(b)为3D CNN结构的损失记录:验证损失。
图5为排放元素对浓度影响的估计值。
图6为8×20×20子网格(包含该区域的浓度分布)。
图7为目标单元格(0、1、14)在(8×20×20)网格中的位置。
图8为top_k排放单元在输入端(8×20×20)网格中的位置。
图9荆门市SO2模型结果与分析。
图10荆门市NO2模型结果与分析。
图11为本发明方法的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明具体设计的过程以及实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
下面从数据的分析和处理阶段、算法研究阶段以及估计阶段三个阶段对整体的研究设计做完整的说明。参照图1-11所示
一、数据的分析和处理阶段研究
1.1数据特征
参考图1所示,本方法所涉及的排放、气象和浓度的数据都是三维格式的,它们之间在理论上存在关联,数据具有以下特征:
(1)排放数据:每种污染物按小时记录的三维网格数据。对于每个时间戳-污染物对,数据形状为(高度层数,纬向网格数,经向网格数)。
(2)浓度数据:每种污染物按小时记录的三维网格数据。对于每个时间戳-污染物对,数据形状为(高度层数,纬向网格数,经向网格数)。
(3)气象数据:一组二维网格数据,记录每3小时的各种气象数据类型(气温、露点温度、气压、风向、风速)。对于每种气象数据类型,数据形状为(纬向网格数,经向网格数),因有5种数据,总计(数据种类数,纬向网格数,经向网格数)。
(4)对于(纬向网格数,经向网格数)网格数据,每个单元都提供了LAT和LON位置信息。根据这些信息,气象站点的位置已排序,以与对应网格单元对齐,以便将排放-浓度数据网格与气象数据网格对齐。
(5)排放经过9次减少扰动,对应于使用不同排放生成的9个浓度文件,但在每个不同排放模拟中,气象场保持不变,仅提供了扰动编号为5、7、9的数据。
1.2数据处理
考虑到上述特征,对这些数据进行了预处理,以便供深度学习算法使用。数据样本的大小为(12,160,200)、(20,160,200)和(5,199,209),对于直接用于训练深度神经网络(CNN)来说非常大,这将使模型过于巨大,也很容易过拟合,导致解决方案不够灵活和难以训练。
因此,为了准备训练DNN的数据,执行了以下步骤:
(1)解析所有数据文件,并使用时间戳信息来准备排放-气象-浓度对应表。由于气象记录是每3小时给出一次,决定对排放-浓度文件也使用每个第3条记录。因此,对于每一天,为所有数据类型选择7条记录。对于基准案例,选择了2000条时间戳记录(2000/7约为285天),对于扰动编号5、7、9,选择了1500条时间戳记录。总共准备了约6500条时间戳记录作为排放-气象-浓度样本。
(2)对气象数据进行了标准化(以均值和标准差进行归一化)处理,然后将这些数据归一化到0-1区间,排放和浓度数据也归一化到0-1区间。
(3)为了在DNN训练中使用数据,决定将数据网格细分为更小的三维数据网格,这是通过在水平(160,200)方向上生成随机子网格来实现的,使用核大小为20的滑动框架,单个框架的实际大小为20×36km=720km,大小为720×720公里的框架可以覆盖任何感兴趣的区域来进行分析。此外,滑动框架始终可以覆盖被调查的位置。因此,滑动框架方法可用于在任何位置执行排放-浓度分析。
(4)数据网格沿垂直(层次)方向也进行了细分,由于本方法测试了两种不同的DNN模型架构,所以在垂直方向上细分网格数据有两种变体:
a)对于全连接线性NN:将排放和浓度数据分别细分为大小为3和5的子网格。子网格很小,因为对于全连接模型,如果数据分辨率较高,模型大小可以显著增加。
因此,对于排放数据,样本网格形状为(3,20,20);对于浓度数据,样本网格形状为(5,20,20);对于气象数据,样本网格形状为(5,20,20)。
b)对于基于3D CNN的模型架构,排放和浓度数据网格的垂直方向都细分为8层。对于排放,本方法考虑原数据的8个层次。对于浓度,本方法考虑原数据的8×2=16个层次:对于每个相邻的层级对,将层级数据通过求和操作合并在一起(例如,第一层和第二层合并为一层,它们的值通过求和操作结合)。这样做是为了减小数据大小,同时考虑垂直方向上的几乎所有数据。
因此,对于排放数据,样本网格形状为(8,20,20);浓度数据,样本网格形状为(8,20,20);对于气象数据,样本网格形状为(5,20,20)。
二、算法研究阶段
本方法通过人工智能算法来根据排放来估计污染物浓度,使用深度学习作为解决问题的方法,并通过对排放的贡献值排序来分析出排放对特定单元浓度的影响。主要包含以下几个步骤:
(1)训练DNN来预测浓度,以排放和气象数据作为输入。
(2)分析模型以估计输入排放数据对浓度网格特定单元的影响,这是通过使用集成梯度方法来完成的。
(3)分析模型以估计输入排放网格的特定元素对输出浓度的影响,利用偏导数估计来完成这一步骤。
具体步骤描述如下:
第一步是设计和训练一个DNN,它可以以排放和气象数据作为输入和预测浓度,采用了Pytorch框架。本方法使用了两种不同的DNN模型架构来比较他们的结果,然后选择一个更好的架构:线性全连接DNN和基于3DCNN(卷积NN)的架构。
线性全连接DNN模型有一个简单的结构:
(1)输入特征大小(in_size):3200特征:排放(32020)等于1200特征+气象数据(52020)等于2000个特征;
(2)输出特征大小(output_size):2000特征:浓度(520,20)等于2000特征
(3)In_size=in_size/4=800
nn.Linear(in_size,inner_size)-Linear layer;
nn.BatchNorm1d()-Batch normalizationfu;
nn.ReLU()-Activation function;
nn.Dropout;
nn.Linear(inner_size,output_size)-Linear layer;
另外,本方法使用均方误差(nn.MSELoss())作为评价标准,并使用Adam优化器,学习速率为lr=1e-5。模型使用了不同的参数进行多次训练。
对两对污染物的模型进行了训练:
“NO”排放-“NO2”浓度;“SO2”排放-“SO2”浓度。
图2(a)和图2(b)显示了“NO”-“NO2”模型训练期间的训练和验证损失:训练和验证损失都在降低,这表明训练过程是正常的。
此模型(EmissionConcentrCNNModel(nn.Module))具有以下层:
(1)输入层将两个输入网格扁平化为一维向量并连接。
(2)三个全连接层,每个后面连接BatchNorm1d层。
(3)三维上采样层,将数据reshape到(8,20,20)形状。
(4)四个三维卷积层,每个后面连接BatchNorm3d层。
(5)最终三维卷积层作为输出层。
可见,这样的架构充分利用了三维卷积层来捕获输入和输出之间的三维空间关系。相比全连接网络,它的参数量也小很多。
参照图3所示,数据处理如下:
通过二维卷积层处理的气象数据,将维数从5降至1,然后激活ReLU:weather=weather_conv(weather)
weather=nn.ReLU()(weather)
对气象数据进行重塑,以匹配排放三维数据的形状(batch_size,通道=1,深度=8,H=20,W=20)。每个切片在深度方向上的气象数据都是相同的。
将排放三维数据与气象数据串联起来,形成形状(batch_size、通道=2、深度=8、H=20、W=20)。然后由一组具有激活功能的三维卷积层处理的数据。深度方向表示数据的水平方向,它为8。输入通道为1+1=2:
本方法使用均方误差(nn.MSELoss())作为评价标准,并使用Adam优化器,学习速率为lr=1e-5。模型使用了不同的参数进行多次训练,Batch Size被设置为28。
对两对污染物的模型进行了训练:
“NO”排放-“NO2”浓度;“SO2”排放-“SO2”浓度
在训练过程中,将数据集分为训练数据和验证数据(分别为85%和15%),在训练过程中,在排放和气象数据中加入均匀分布的随机噪声。图5(a)和图5(b)分别显示了“SO2”-“SO2”模型训练过程中的训练和验证损失:训练和验证损失都在减少,说明训练过程进行正常。
因线性全连接模型是一种传统的神经网络架构,其中一层中的每个神经元都连接到下一层中的每个神经元。对于三维数据,这种架构将整个体积视为一个扁平化的一维序列,损失了体素之间的空间关系。因此,这种方法忽略了空间结构,没有利用数据中存在的任何三维模式。
另一方面,3D CNN是专门设计来有效高效处理三维网格数据的。它应用三维卷积,保留了体积中相邻体素之间的空间关系。三维卷积核沿输入体积的所有三个维度滑动,并捕获局部三维模式,如边缘、角点和更复杂的特征。池化层(如最大池化)用于下采样空间维度,允许网络有效地学习特征层次结构。
经过训练损失和验证损失测试后(图2和图4),得出基于3D CNN的模型对测试数据具有较高的准确性。因此,本方法将只使用3D CNN进行污染物浓度和排放之间的联系的研究,因为它会给出更稳定的结果。除了简单的线性模型或3D CNN外,方法还设计了一个GRU循环神经网络(RNN),以排放+气象数据的多个时间戳记录序列作为输入来预测浓度,该模型也可以通过训练获取更高的精度。
需要说明的是:一旦DNN模型训练完成,它可以被分析以找到输入和输出之间的关系,并估计输入排放向量的不同元素如何影响特定位置的结果浓度。这个问题与合作博弈论考虑的问题有一些相似之处。合作博弈论是博弈论的一个分支,研究个人或玩家如何合作以达到互利的结果。它专注于玩家可以组成联盟并共同努力最大化共同利益的场景。在合作博弈中,结果的价值取决于玩家之间的合作,而不仅仅是他们单独采取的策略。合作博弈论的应用可以在应用各个领域,包括经济学、政治科学、运筹学和多智能体系统,它有助于理解和分析合作对于实现最优结果至关重要的情况。
三、估计阶段
通过集成梯度方法分析模型以估计输入排放数据对浓度网格特定单元的影响。
有几种可能的方法可以用来在DNN分析方面解决这个问题。估计输入特征对特定输出特征的影响是理解机器学习模型的行为和决策过程的关键方面。目前已知多种方法可以解决这一解释性挑战。本方法使用集成梯度法进行污染物浓度和排放关联的研究。集成梯度是一种公理模型可解释性算法,它通过逼近沿从给定基准/参考到输入的路径(直线)的模型输出相对于输入的梯度积分来赋予每个输入特征一个重要性得分。可以将基准作为输入参数提供给归因方法。为了逼近积分,可以选择使用黎曼和的变体或高斯-勒让德求积公式。
它的基本工作原理是计算模型输出相对于输入特征的梯度的积分。使用高斯-勒让德求积公式来近似积分。使用IG方法的过程包括以下步骤:
(1)步骤1:定义基准
选择一个基准输入作为归因过程的起点。基准应具有与输入数据相同的维度,代表“零特征”状态。通常,基准被设置为全黑图像(所有像素或体素设置为零)或随机生成的噪声样本。本方法使用“零特征”状态作为基准。
(2)步骤2:计算梯度
在实际输入和基准输入处计算模型输出相对于输入特征的梯度。这一步需要通过模型进行反向传播来获得梯度。
(3)步骤3:逼近积分
使用高斯-勒让德求积公式来逼近积分。该公式允许使用加权求和的评估点和权重来逼近函数的定积分。选择步数或评估点的数量(N)来逼近积分。N的常用值为50或100,但可以根据计算约束和所需精度进行调整。本方法使用N=50。将从基准到实际输入的路径划分为N个等间距点。对路径上的每个点,计算模型输出相对于输入特征的梯度。对于每个评估点,计算实际输入和基准输入处的梯度之间的差值,这个差值表示每个特征的重要性随着从基准到实际输入的路径如何改变。
(4)步骤4:将梯度差值与高斯-勒让德求积公式中的对应权重相乘。这些权重是预先确定的,取决于评估点的数量(N)。对所有加权的梯度差值求和,以获得每个特征的最终归因分数。这些分数表示每个特征对模型对给定输入的预测做出贡献的程度。
(5)步骤5(可选):可以对归因分数进行归一化,以确保它们的总和等于模型在实际输入和基准输入上的预测之间的差值。这种归一化确保归因与模型输出在相同的量纲上。
集成梯度法在python库“captum”中的“attr”模块中实现。使用IntegratedGradients类需要提供以下参数:
(1)_forward_func_(可调用的):模型的前向函数
(2)_multiply_by_inputs_(布尔型,可选的):指示是否在最终的归因分数中考虑模型输入的乘数。在文献中这也被称为局部与全局归因。如果不考虑输入的乘数,则这种归因方法也称为局部归因。如果考虑,则这种归因方法称为全局归因。对于本方法,全局归因是必不可少的,因此需要考虑。
调用“attribute”方法来计算每个输入特征的重要性得分,并估计排放输入向量的每个元素对特定浓度元素的影响归因。归因可以是正的(增加浓度)或负的(减少浓度)。作为基准(用于梯度计算的参考),可以使用零或前一个时间戳的输入。本方法使用零,这样就可以利用集成梯度法提供的API来计算输入特征对模型预测的影响。
第三步,利用偏导数估计输入排放网格的特定元素对输出浓度的影响。这里提供的结果并不是非常准确,仅针对线性全连接模型,以展示这种分析的可能性。
为了估计输入向量的特定元素对输出特征向量的影响,可以使用偏导数的概念。具体而言,可以计算输出特征向量相对于输入向量的特定元素的偏导数。因此,对于浓度3D网格的每个单元(模型输出特征向量的每个元素),都会计算相对于排放网格中特定输入元素的梯度。然后,可以对所有浓度单元计算得出的梯度进行排序,并选择具有最高值的Top_k单元。这些Top_k浓度元素显示了浓度网格中哪些单元受到了特定排放元素的最大影响(表示为目标排放单元索引)
集成梯度(IG)在应用于三维卷积神经网络(3D CNN)模型以估计特征影响时有以下优点:
(1)全局可解释性:IG为整个三维输入体积提供特征归因。这种全局可解释性有助于理解模型在整个空间域的行为,能够识别三维体积中对模型预测至关重要的区域或结构。
(2)模型无关:IG是一种模型无关的方法,这意味着它可以应用于任何黑盒模型,包括三维CNN。这种灵活性使研究人员和从业人员能够解释和理解三维CNN模型,而无需访问模型的内部架构或参数。
(3)与梯度一致:IG利用梯度,而梯度对于可微分模型比如三维CNN是有明确定义的。这确保了IG提供的归因与模型对输入特征变化的敏感度一致,从而使解释更加可靠。
(4)捕捉非线性关系:三维CNN可以学习输入特征与预测之间的复杂非线性关系。IG通过沿基准输入到实际输入的路径积分梯度来考虑这种非线性,有效地考虑了模型在不同点处对特征变化的响应。
(5)处理高维输入:三维CNN处理体积数据,导致高维输入。IG可以处理这种高维数据,并为三维体积中的每个体素提供特征归因,这使其适合解释个别体素的重要性。
(6)定量可解释性:IG产生归因值,表示特征影响的幅度和方向。这种定量可解释性支持不同特征之间的比较,并有助于识别哪些特征对模型预测具有最重大的影响。
(7)洞察模型偏见:IG可以通过识别输入体积中不成比例地对某些预测做出贡献的区域或特征,揭示三维CNN模型中的潜在偏见。这一洞察对确保公平性和减少模型决策过程中的无意偏见非常有价值。
(8)可视化的显著性图:IG可以生成显著性图,其中每个体素的颜色表示其归因分数。这些图为特征重要性提供了直观的可视化,使用户可以快速识别三维体积中的重要区域。
(9)与人类感知的一致性:在医学图像和其他常用三维CNN的领域,IG已经被证明可以产生与人类专家解释一致的归因。这种与人类感知的一致增强了模型决策的可解释性和可信度。
图5展示了对排放元素对浓度影响的估计的可视化结果。第一行的图像显示了所选择的排放网格的目标单元(这是模型的输入)。对于给定的排放元素,估计了其对浓度的影响。第二行的图像显示了选定的排放元素在不同位置对浓度的影响。Top_k单元(本方法使用的Top_k=10)被高亮显示,并代表受影响最大的浓度位置。影响值被归一化从0到1,此外还可以检查影响值的符号(正或负)。
返回图5(b),在图5中,考虑情况(b)"SO2"排放-"SO2"浓度。所选的目标排放单元索引是[0,17,15]。计算梯度后,影响度最高的Top_k元素位于:[(4,18,10),(3,18,11),(4,18,11),(4,16,13),(4,16,12),(3,19,13),(3,18,10),(2,19,13),(4,17,12),(3,18,12)]。这意味着所选择的排放单元对这10个浓度位置有最大的影响。影响值也可以被评估。
实施例
(1)通过排放估计污染物浓度
为了评估所选方法的结果,本方法选择目标城市(以成都为例,成都的纬度和经度:(30.6598628,104.0633717))。评估是在一个随机选择的时间戳上执行的。本方法详细描述了“NO”排放物-“NO2”浓度污染物的结果。成都市在原始网格中的位置所属的单元的索引:[83,86]。滑动20×20的框架,以将其中心与原始数据网格的[83,86]单元对齐。
选定成都市及周边720×720公里区域,相应的子网格数据可以直接在模型中使用,并用于进一步分析。
参考图6展示了成都市及周边720×720公里区域三维网格排放分布,当在需要的位置选择受体点后,就可以继续进行排放贡献的研究分析。首先,可以在(8×20×20)浓度网格中选择一个具有一些非零值的单元网格作为受体点,估计对其影响最大的排放网格。
现在,选择一个具有一些非零浓度值的单元作为目标单元。目标单元是(0,1,14)。
为了评估模型的适当性,可以比较所选单元的真实值和预测值:浓度值:0.022926,预测值:0.035864。虽然这些值经过了归一化,可以看到预测值非常接近真实值。这意味着对于给定的单元,模型产生了一个适当的结果。这个事实很重要,因为它保证了使用模型进行分析的合理性和准确性。
参照图7,目标单元的实际位置是(纬度:33.585957,经度:105.248352)。这样,通过与真实值的比较,可以验证模型对给定位置的预测是准确的,为后续的解释性分析奠定基础。为了模型训练的目的,当各层级的层次被配对并合并时,其在原始的并置网格中的实际位置为:(0,84,100)或(0,84,100)在水平方向上为[83+1,86+14]或[84,100],而在垂直方向上有两个位置0或1。本方法使用综合梯度方法来寻找输入排放网格的每个单元格的归因。结果进行了归一化,计算了影响百分比。通过设置top_k值,可以选择排放网格中贡献值最高的前k个单元格。出于显示目的,本方法将top_k设为20。
如图8所示为对目标单元格的浓度值贡献最大的top_k排放的分布(或热图)。
通过影响最大的单元网格聚集在某些区域,通过地图可以获得top_k排放单元所在格的实际位置。请注意:在图11中,坐标轴被旋转了,因此单元的位置可能看起来有所不同。这只是显示问题。
在表1中,详细介绍了对网格的目标单元浓度产生最大影响的排放单元:单元的索引、实际位置、影响程度(以百分比表示,相关值比绝对值更重要)、选定单元处的实际发射值(供参考,这些值已经针对整个数据集进行了归一化处理)。
表1成都区域中目标单元(0、1、14)的结果
(2)通过污染物浓度来估计排放
假设想要分析一个特定网格,其中污染物浓度超过了临界阈值。需要知道哪些位置的排放导致了这种浓度水平。例如,假设测量了CO2的浓度,测量结果显示C=300mg/m3。希望有一个模型能预测哪些位置的排放对浓度值300mg/m3做出了百分之多少的贡献。
假设只有10个排放源,希望得到如下结果:
Top K 1 2 3 4 5 6 7 8 9 10
mg/m3 105 75 30 24 18 15 15 9 6 3
35 25 10 8 6 5 5 3 2 1
在上表中,本方法列出了对目标位置污染物浓度影响最大的前10个位置。每个单元对目标单元贡献了一定量的污染物。这些信息可以为排放控制提供宝贵的建议。可以利用这些信息来调查污染物浓度升高的可能原因,或通过更好的排放控制措施来预防污染水平的升高。
本质上,本方法希望近似以下映射:
f({(E0,W0),(E1,W1),(E2,W2),(E3,W3),…,(En,Wn)})={S0,S1,S2,…,Sn}
其中:
E-排放,W-天气条件,f-要近似的函数,S-贡献得分。
贡献得分遵循以下假设:
S0×C+S1×C+S2×C+…+Sn×C=C
S0+S1+S2+…+Sn=1
本方法使用深度神经网络,用于训练的数据集包含天气条件、污染物排放和浓度。使用和之前相同的集成梯度(Integrated Gradients,IG)来估计输入特征对输出特征的影响。IG包含三个部分:
1)在特征空间中,在0(基线或起始点)和1(输入排放值)之间的直线上插值小步骤。
2)计算与每一步有关的模型预测的每一步的梯度。
3)通过累积这些局部梯度来近似您的基线和输入之间的积分(累积平均)。
最后,计算的集成梯度在整个网格上被规范化。
(3)给定污染物浓度及天气数据估计排放
本方法基于之前的3D DNN和IG,使用反向传播的优化方法直接优化输入,以满足由模型和数学定义施加的约束:
g({(E0,W0),(E1,W1),(E2,W2),(E3,W3),…,(En,Wn)})={C0,C1,C2,…,Cn}
在这里,函数g是可微的,Wn和Cn是常数,En是一个优化变量,并且它取非负值。
以下为部分案例的模型结果与分析:
选取了湖北省荆门市作为案例进行了深度学习技术溯源的使用。参照图9所示,为荆门市基于深度学习溯源SO2模型结果与分析;9(a)为给定的SO2排放区域分布,作为深度学习模型的输入,9(b)为基于深度学习技术溯源预测的SO2排放区域分布结果。从图9可以看出,基于深度学习技术的SO2排放预测结果在分布上与输入的排放有很好的一致性,但是在不同网格的排放大小上基于深度学习做了优化和调整,使得模型模拟的结果与观测SO2结果更为接近。
选取了湖北省荆门市作为案例进行了深度学习技术溯源的使用。参照图10所示,为荆门市基于深度学习溯源NO2模型结果与分析;10(a)为给定的NO2排放区域分布,作为深度学习模型的输入,10(b)为基于深度学习技术溯源预测的NO2排放区域分布结果。从图10可以看出,基于深度学习技术的NO2排放预测结果在分布上与输入的排放有很好的一致性,但是在不同网格的排放大小上基于深度学习做了优化和调整,使得模型模拟的结果与观测NO2结果更为接近。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.基于人工智能和大数据的污染源清单反演方法,其特征在于,包括:
获取气象数据、排放数据以及浓度数据三种数据,并进行预处理;
利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型;
通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响,获得最终清单反演结果。
2.根据权利要求1所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,所述的获取气象数据、排放数据以及浓度数据三种数据,并进行预处理的步骤,包括:
解析三种数据文件,使用时间戳信息来准备排放-气象-浓度样本;
接着,对三种数据进行标准化处理,均归一化至0-1区间;
将三种数据细分为三维数据网格。
3.根据权利要求2所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,所述的将三种数据细分为三维数据网格的步骤,包括:
对于排放数据设置8个层次;对于浓度数据设置8×2=16个层次:
对于每个相邻的层级对,将层级数据通过求和操作合并。
4.根据权利要求3所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,三种数据细分的三维数据网格分别为:
排放数据,样本网格形状为(8,20,20);
浓度数据,样本网格形状为(8,20,20);
气象数据,样本网格形状为(5,20,20)。
5.根据权利要求4所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,所述的利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型的步骤包括:
通过二维卷积层处理的气象数据,将维数从5降至1,然后激活ReLU:weather=weather_conv(weather),weather=nn.ReLU()(weather);
对气象数据进行重塑,以三维匹配排放数据的形状;
将排放三维数据与气象数据串联起来,形成形状,由一组具有激活功能的三维卷积层处理的数据。
6.根据权利要求5所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,还包括通过循环神经网络RNN以排放数据+气象数据的多个时间戳记录序列作为输入来预测排放浓度的步骤。
7.根据权利要求6所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,所述的通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响的步骤,包括:
使用“零特征”状态作为基准;
在实际输入和基准输入处计算模型输出相对于输入特征的梯度,通过3DCNN模型进行反向传播来获得梯度;
将从基准到实际输入的路径划分为N个等间距点;对路径上的每个点,计算模型输出相对于输入特征的梯度;对于每个评估点,计算实际输入和基准输入处的梯度之间的差值;
其中,所述差值表示每个特征的重要性随着从基准到实际输入的路径如何改变;
将梯度差值与高斯-勒让德求积公式中的对应权重相乘,对所有加权的梯度差值求和,以获得每个特征的最终归因分数;
其中,该分数表示每个特征对模型对给定输入的预测做出贡献的程度。
8.根据权利要求7所述的基于人工智能和大数据的污染源清单反演方法,其特征在于,所述的归因分数进行归一化,以确保每个特征的最终归因分数的总和等于模型在实际输入和基准输入上的预测之间的差值。
9.一种基于人工智能和大数据的污染源清单反演系统,其特征在于,包括:
获取模块,获取气象数据、排放数据以及浓度数据三种数据,并进行预处理;
计算模块,利用3DCNN人工智能算法,获得对任意单元的污染物浓度贡献最大的排放源,并建立污染物浓度与排放量之间的关系模型;
估计模块,通过集成梯度方法分析关系模型以估计输入排放数据对浓度特定单元的影响,获得最终清单反演结果。
10.一种仿真器,包括存储器和处理器,其特征在于,存储器上存储有计算机指令,处理器用于运行存储器上存储的计算机指令,以实现如权利要求1-8中任一项所述的基于人工智能和大数据的污染源清单反演方法的步骤。
CN202410121694.8A 2024-01-29 2024-01-29 基于人工智能和大数据的污染源清单反演方法、系统及应用 Pending CN117973125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410121694.8A CN117973125A (zh) 2024-01-29 2024-01-29 基于人工智能和大数据的污染源清单反演方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410121694.8A CN117973125A (zh) 2024-01-29 2024-01-29 基于人工智能和大数据的污染源清单反演方法、系统及应用

Publications (1)

Publication Number Publication Date
CN117973125A true CN117973125A (zh) 2024-05-03

Family

ID=90850915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410121694.8A Pending CN117973125A (zh) 2024-01-29 2024-01-29 基于人工智能和大数据的污染源清单反演方法、系统及应用

Country Status (1)

Country Link
CN (1) CN117973125A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150031577A (ko) * 2013-09-16 2015-03-25 주식회사 에니텍 대기오염물질 배출량 역산출 방법
CN116070500A (zh) * 2022-08-03 2023-05-05 中国环境科学研究院 一种基于深度学习空气质量浓度场模拟仿真器
CN116485048A (zh) * 2023-06-25 2023-07-25 北京工业大学 一种大气污染物排放清单的联合优化反演方法及系统
CN116698756A (zh) * 2023-06-28 2023-09-05 北京工业大学 基于卫星遥感数据的高活性VOCs地面浓度反演方法
US20230401274A1 (en) * 2020-03-04 2023-12-14 Karl Louis Denninghoff Relative fuzziness for fast reduction of false positives and false negatives in computational text searches
CN117332906A (zh) * 2023-12-01 2024-01-02 山东大学 基于机器学习的三维时空网格空气质量预测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150031577A (ko) * 2013-09-16 2015-03-25 주식회사 에니텍 대기오염물질 배출량 역산출 방법
US20230401274A1 (en) * 2020-03-04 2023-12-14 Karl Louis Denninghoff Relative fuzziness for fast reduction of false positives and false negatives in computational text searches
CN116070500A (zh) * 2022-08-03 2023-05-05 中国环境科学研究院 一种基于深度学习空气质量浓度场模拟仿真器
CN116485048A (zh) * 2023-06-25 2023-07-25 北京工业大学 一种大气污染物排放清单的联合优化反演方法及系统
CN116698756A (zh) * 2023-06-28 2023-09-05 北京工业大学 基于卫星遥感数据的高活性VOCs地面浓度反演方法
CN117332906A (zh) * 2023-12-01 2024-01-02 山东大学 基于机器学习的三维时空网格空气质量预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G. PUTHILIBAI等: "An Intelligent Waste Disposal System for Hygienic Society", 《2022 1ST INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND TECHNOLOGY (ICCST)》, 14 February 2023 (2023-02-14), pages 793 - 797 *
李洋等: ""2+26"城市秋冬季大气污染治理措施效果评估", 《中国环境科学》, vol. 41, no. 10, 31 October 2021 (2021-10-31), pages 4484 - 4494 *

Similar Documents

Publication Publication Date Title
Pontius Jr et al. Accuracy assessment for a simulation model of Amazonian deforestation
Pontius et al. Comparing the input, output, and validation maps for several models of land change
Heuvelink et al. Spatial aggregation and soil process modelling
Şalap-Ayça et al. A meta-modeling approach for spatio-temporal uncertainty and sensitivity analysis: an application for a cellular automata-based urban growth and land-use change model
CN114220271A (zh) 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质
Mu et al. Urban land use and land cover change prediction via self-adaptive cellular based deep learning with multisourced data
Jalalkamali Using of hybrid fuzzy models to predict spatiotemporal groundwater quality parameters
Fassò et al. A unified statistical approach for simulation, modeling, analysis and mapping of environmental data
Xu et al. Land-use change modeling with cellular automata using land natural evolution unit
Yin Dynamical fractal: Theory and case study
CN117973125A (zh) 基于人工智能和大数据的污染源清单反演方法、系统及应用
Mukherjee et al. Spatially varying SAR models and Bayesian inference for high-resolution lattice data
Yan et al. Multivariate time series forecasting exploiting tensor projection embedding and gated memory network
Seol et al. A novel physics-aware graph network using high-order numerical methods in weather forecasting model
Fiedler Sensitivity analysis of a deep learning model for discharge prediction in the Regen catchment
CN117852418B (zh) 基于地理集成机器学习的海洋中深层流速数据重构方法
CN114465256B (zh) 多节点电动汽车充电负荷联合对抗生成区间预测方法
Castiello Computational Processing of Language Vagueness for Archaeological Site Modelling
Borisova et al. Forecasting of Sea Ice Concentration using CNN, PDE discovery and Bayesian Networks
Kudryashov WRF-Chem vs machine learning approach to predict air quality in urban complex terrains: a comparative study
Albani et al. Estimating the number of atmospheric releases and other parameters by Bayesian inference
Nearing et al. What role does hydrological science play in the age
Koscianski UFlow 1.0: A Computer Model for Projections of Urban Sprawl
Atkinson et al. GeoDynamics: Shaping the Future
Harbola Deep learning based prediction and visual analytics for temporal environmental data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination