CN110727717A

CN110727717A - 网格化大气污染强度的监控方法、装置、设备和存储介质

Info

Publication number: CN110727717A
Application number: CN201911297524.0A
Authority: CN
Inventors: 尹文君; 田启明; 何苗
Original assignee: Beijing Insights Value Technology Co Ltd
Current assignee: Beijing Yingshi Ruida Technology Co.,Ltd.
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-01-24
Anticipated expiration: 2039-12-17
Also published as: CN110727717B

Abstract

本申请提供网格化大气污染强度的监控方法、装置、设备和存储介质。所述监控方法包括：获取单位时间间隔的污染物数据和气象数据；对目标区域、所述污染物数据、所述气象数据进行网格化，得到多个网格；获取所述多个网格内的污染源相关数据；利用网格化的污染物数据和气象数据及所述污染源相关数据得到各类污染源相关数据对污染物数据影响的权重；利用所述权重和各网格中的污染源相关数据得到各网格的综合污染源强度。

Description

网格化大气污染强度的监控方法、装置、设备和存储介质

技术领域

本申请涉及环保技术领域，具体而言，涉及网格化大气污染强度的监控方法、装置、设备和存储介质。

背景技术

空气污染，又称为大气污染，按照国际标准化组织（ISO）的定义，通常是指：由于人类活动或自然过程引起某些物质进入大气中，呈现出足够的浓度，达到足够的时间，并因此危害了人类的舒适、健康和福利或环境的现象。近年来，我国空气质量虽得到大幅改善，但距离标准仍有较大差距，继续聚焦空气污染治理仍是一个长期、艰巨的任务。

排放源的管控是空气污染治理中重要的一环。需要获得精细化的污染排放强度，找到治理的关键位置，从而更加有效的进行污染源管控。现有的排放强度主要通过排污企业清单、环统数据、污染源普查数据等以排放企业为单位进行统计，以获得污染源排放清单。该清单污染物排放统计较为准确，但时间更新频率较慢，空间分辨较低且保密程度较高，难以有效指导污染管控工作。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请旨在提供一种网格化大气污染强度的监控方法、装置、设备和存储介质，能够有效指导污染管控工作。

本申请的其该用户特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提供一种基于多源数据融合的网格化大气污染强度的监控方法，包括：获取单位时间间隔的污染物数据和气象数据；对目标区域、所述污染物数据、所述气象数据进行网格化，得到多个网格；获取所述多个网格内的污染源相关数据；利用网格化的污染物数据和气象数据及所述污染源相关数据得到各类污染源相关数据对污染物数据影响的权重；利用所述权重和各网格中的污染源相关数据得到各网格的综合污染源强度。

根据一些实施例，所述污染物数据包括污染物类别、污染物浓度中的至少一种。

根据一些实施例，所述气象数据包括风向、风速、湿度、气压中的至少一种。

根据一些实施例，对所述污染物数据、所述气象数据进行网格化，包括：利用WRF气象模型对所述污染物数据、所述气象数据进行网格化。

根据一些实施例，所述污染源相关数据包括：网络POI数据、交通路网数据、卫星遥感数据、环境统计数据中的至少一种。

根据一些实施例，所述利用网格化的污染物数据和气象数据及所述污染源相关数据得到各类污染源相关数据对污染物数据影响的权重，该权重的计算步骤为：

a. 以周为单位计算历史上每种污染源与该种污染物的周平均浓度的加权相关系数，并最终获得污染源与污染物的平均加权相关系数：

式中

为污染源对污染物加权，

为网格化的第i周污染源数据，

为网格化的第i周污染物数据，W为历史数据总周数；

b. 以污染源数据，对应平均加权相关系数，小时级气象数据为输入，建立第一类预测小时级污染物浓度的机器学习模型，并计算其预测的平均绝对误差MAE；

需指出专利并不限定所使用的具体机器学习方法，只需确保第一类预测小时级污染物浓度的机器学习模型与第二类预测小时级污染物浓度的机器学习模型所使用的方法与参数严格相同。

c. 以污染源数据，对应平均加权相关系数，小时级气象数据为输入，对每种污染源数据建立第二类预测小时级污染物浓度的机器学习模型，

对n种污染源数据中的每一种，分别建立第二类预测小时级污染物浓度的机器学习模型并计算其预测的平均绝对误差MAE_{_i};

则对第i类污染源数据而言，MAE_{_i}的大小与对应污染物浓度之间有明显关联关系，若MAE_{_i} 越大，则说明此种污染源数据与对应污染物数据关系越紧密；

d. 基于以上两类模型，对每类污染源数据，计算：

并最终对

进行标准化，获得污染源对污染物权重w_i。

根据一些实施例，所述的第一类预测小时级污染物浓度的机器学习模型为全污染源要素模型，该类模型的数学架构可以简化为：

模型的特征向量由全部n种污染源数据乘以其与对应污染物的加权相关系数，以及气象数据组成，模型的输出是预测的对应污染物浓度。

根据一些实施例，所述的第二类预测小时级污染物浓度的机器学习模型为缺一污染源要素模型，该类模型的数学架构可以简化为：

该模型所采用的机器学习方法、参数与训练方法应与第一类预测小时级污染物浓度的机器学习模型完全相同，其与第一类预测小时级污染物浓度的机器学习模型的区别在于：

若共有n种污染源数据，则模型的特征向量由其中n-1种污染源数据乘以其与对应污染物的加权相关系数，以及气象数据组成，模型的输出是预测的对应污染物浓度。

根据一些实施例，所述机器学习包括GBDT算法。

根据一些实施例，所述利用所述权重和各网格中的污染源相关数据得到各网格的综合污染源强度，包括：获取各网格中各类污染源相关数据的统计结果；利用所述权重和所述统计结果的乘积作为各类污染源的强度分值；计算各网格中各类污染源的强度分值之和作为各网格的综合污染源强度。

根据一些实施例，所述监控方法还包括：对所述目标区域的所述多个网格的污染源强度进行归一化。

本申请实施例还提供一种基于多源数据融合的网格化大气污染强度的监控装置，包括第一获取模块、网格化模块、第二获取模块、权重模块、强度模块，所述第一获取模块用于获取单位时间间隔的污染物数据和气象数据；所述网格化模块用于对目标区域、所述污染物数据、所述气象数据进行网格化，得到多个网格；所述第二获取模块用于获取所述多个网格内的污染源相关数据；所述权重模块用于利用网格化的污染物数据和气象数据及所述污染源相关数据得到各类污染源相关数据对污染物数据影响的权重；所述强度模块，用于利用所述权重和各网格中的污染源相关数据得到各网格的综合污染源强度。

本申请实施例还提供一种电子设备，包括：一个或多个处理器以及存储器，所述存储器用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上所述的方法。

本申请实施例提供的技术方案，通过多源数据融合，对大气污染排放强度进行评价，对污染排放强度进行了精细化管理，能够有效的进行污染源监测和管控。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

图1示出本申请实施例提供的一种基于多源数据融合的网格化大气污染强度的监控方法流程示意图。

图2示出本申请实施例提供的一种基于多源数据融合的网格化大气污染强度的监控装置功能组成框图。

图3示出本申请实施例提供的一种电子设备功能组成框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本申请所必须的，因此不能用于限制本申请的保护范围。

如图1所示，在S110中，获取单位时间间隔的污染物数据和气象数据。

从国控站、城市子站及单独布设的传感器设备获取单位时间间隔的污染物数据。污染物数据包括但不限于污染物类别、污染物浓度的至少一种。例如PM2.5的浓度。

基于大尺度的欧洲中心的数值预报结果、本地的气象站点数据及单独布设的传感器设备获取气象数据。气象数据包括但不限于风向、风速、湿度、气压中的至少一种。

如图1所示，在S120中，对目标区域、污染物数据、气象数据进行网格化，得到多个网格。

将目标区域划分为多个网格，例如500米×500米的多个区域网格。利用WRF气象模型对污染物数据、气象数据进行网格化，获得网格化的污染物数据、气象数据。WRF（WeatherResearch and Forecasting Model）气象模型是一个天气研究与预报模型。可以用来进行精细尺度的天气模拟与预报。

输入从站点等获取的污染物类型、污染物浓度以及气象数据，通过WRF气象模型得到模拟的500米×500米的多个区域网格的污染物类型、污染物浓度和气象数据。

如图1所示，在S130中，获取多个网格内的污染源相关数据。

污染源相关数据包括但不限于网络POI数据、交通路网数据、卫星遥感数据、环境统计数据中的至少一种。污染源相关数据来源包括但不限于以下三类，卫星遥感识别获取建成区、工厂、裸地等土地利用类型数据；通过购买、互联网数据爬取等方式获得POI数据（包括餐饮、企业、养殖、汽修等类别）、路网数据（包括道路名称、经纬度、长度等）；通过相关部门提供，可包括污染源普查、污染减排清单、企业用电、环统、环保执法等数据。

通过污染源相关数据，获得目标区域的苫盖裸地数据、未苫盖裸地数据、工厂数据、建成区数据、餐饮数据、工业数据、生活服务数据、养殖数据、汽修数据、道路长度中的多种数据。将污染源数据网格化，获得网格化的污染源相关数据。

如图1所示，在S140中，利用网格化的污染物数据和气象数据及污染源相关数据得到各类污染源相关数据对污染物数据影响的权重。

假设每类污染源内在无差异化，将网格化的污染源相关数据逐类分别和网格化的污染物浓度、风速、风向等气象要素数据作为输入数据，通过机器学习得到各类污染源相关数据对污染物数据影响的权重w_i，i为各类污染源类型。

该权重w_i的计算方法为：

1.以周为单位计算历史上每种污染源与该种污染物的周平均浓度的加权相关系数，并最终获得污染源与污染物的平均加权相关系数：

式中

为污染源对污染物加权，

为网格化的第i周污染源数据，

为网格化的第i周污染物数据，W为历史数据总周数。

2.以污染源数据，对应平均加权相关系数，小时级气象数据为输入，建立第一类预测小时级污染物浓度的机器学习模型：

第一类预测小时级污染物浓度的机器学习模型：全污染源要素模型：

该类模型的数学架构可以简化为：

建立第一类预测小时级污染物浓度的机器学习模型并计算其预测的平均绝对误差MAE。

3.以污染源数据，对应平均加权相关系数，小时级气象数据为输入，对每种污染源数据建立第二类预测小时级污染物浓度的机器学习模型：

第二类预测小时级污染物浓度的机器学习模型：缺一污染源要素模型：

该类模型的数学架构可以简化为：

该模型所采用的机器学习方法、参数与训练方法应与第一类预测小时级污染物浓度的机器学习模型完全相同，除了以下特别指明的区别：

对n种污染源数据中的每一种，分别建立第二类模型并计算其预测的平均绝对误差

则对第i类污染源数据而言，的大小与对应污染物浓度之间有明显关联关系，若越大，则说明此种污染源数据与对应污染物数据关系越紧密。

4.基于以上两类模型，对每类污染源数据，计算：

并最终对

进行标准化，获得污染源对污染物权重w_i

其中污染源内在无差异化，也就是说不考虑同类污染源中每个个体污染源的排放强度差异。这个差异数据也难以获取。例如，在工业类别中，每个厂家的源排放量是有差异的，但是这个差异难以获取。在本实施例中不予考虑。

根据示例实施例，将污染物浓度和气象要素作为输入，待确定权重的污染源相关数据作为特征，根据机器学习算法，例如GBDT算法，进行特征重要度的计算，得到污染源权重w_i，i表示各类污染源类型。

如图1所示，在S150中，利用权重和各网格中的污染源相关数据得到各网格的综合污染源强度。

对逐个网格中每类污染源数据进行统计，获取每个网格中各类污染源相关数据的统计结果。统计结果包括污染源的规模Q_i。其中，卫星识别数据（建成区、工厂、裸地）是以其面积在网格中的占比进行计算统计，POI相关数据（工业、汽修、餐饮等）以网格内存在的个数进行计算统计；道路以网格中存在的条数、及道路长度进行计算统计等等。

利用权重w_i和污染源的规模Q_i的乘积作为单类污染源网格强度S_i。则S_i=w_i×Q_i。

计算各网格中各类污染源网格强度之和作为各网格的综合污染源强度S_j。则S_j=∑S_i，j是网格序数，1≤j≤n。

可选地，之后还可以对目标区域的每个网格的污染源强度进行归一化。得到每个网格S₁~S_n的0~1的分值，表征每个网格的综合污染源强度，便于比较网格间的差异。

以上数据可定期更新，例如逐季度更新，最终即可得到逐季度目标区域综合污染源强度较高的区域及区域内单类污染源影响情况。

本实施例提供的技术方案，通过多源数据融合，对大气污染排放强度进行评价，对污染排放强度进行了精细化管理，能够有效的进行污染源监测和管控。

监控装置包括第一获取模块10、网格化模块20、第二获取模块30、权重模块40、强度模块50。

第一获取模块10用于获取单位时间间隔的污染物数据和气象数据。网格化模块20用于对目标区域、污染物数据、气象数据进行网格化，得到多个网格。第二获取模块30用于获取多个网格内的污染源相关数据。权重模块40用于利用网格化的污染物数据和气象数据及污染源相关数据得到各类污染源相关数据对污染物数据影响的权重。强度模块50用于利用权重和各网格中的污染源相关数据得到各网格的综合污染源强度。

图3示出本申请实施例提供的一种电子设备功能组成框图。

电子设备可以包括输出单元601、输入单元602、处理器603、存储器604、通讯接口605，以及内存单元606。

存储器604作为一种非暂态计算机可读存储器，可用于存储软件程序、计算机可执行程序以及模块。当一个或多个程序被一个或多个处理器603执行，使得一个或多个处理器603实现如上所述的方法。

从输入单元602获取传感器设备检测的污染物数据和部分气象数据。从通讯接口605获取欧洲中心、本地的气象站点的部分气象数据。当存储器604存储的一个或多个程序被一个或多个处理器603执行，使得一个或多个处理器603对目标区域、污染物数据、气象数据进行网格化，得到多个网格，获取多个网格内的污染源相关数据，利用网格化的污染物数据和气象数据及污染源相关数据得到各类污染源相关数据对污染物数据影响的权重，利用权重和各网格中的污染源相关数据得到各网格的综合污染源强度。内存单元606存储输入数据、中间数据及输出数据。最后在输出单元601输出各网格的综合污染源强度。

存储器604可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子器件的使用所创建的数据等。此外，存储器604可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器604可选包括相对于处理器603远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。

以上具体地示出和描述了本申请的示例性实施例。应可理解的是，本申请不限于这里描述的详细结构、设置方式或实现方法；相反，本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。