CN117423406B

CN117423406B - Ekma曲线图生成方法、装置、电子设备及存储介质

Info

Publication number: CN117423406B
Application number: CN202311736633.4A
Authority: CN
Inventors: 陈焕盛; 肖林鸿; 杨文夷; 王自发; 王文丁; 吴剑斌; 魏巍; 边玉山; 秦东明
Original assignee: Beijing Zhongke Sanqing Environmental Technology Co ltd; 3Clear Technology Co Ltd
Current assignee: Beijing Zhongke Sanqing Environmental Technology Co ltd; 3Clear Technology Co Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-02-27
Anticipated expiration: 2043-12-18
Also published as: CN117423406A

Abstract

本公开实施例提供一种EKMA曲线图生成方法、装置、电子设备及存储介质，该方法包括：在预设的P种VOCs组分的浓度值有部分缺失时，将缺失的VOCs组分的浓度值设置为缺失标识，得到基准情景的浓度数据；基于基准情景的浓度数据得到多个扰动情景的浓度数据；使用神经网络模型基于前述浓度数据生成对应的O₃浓度数据；基于前述VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图。其中，选择M个浓度数据项，随机将VOCs组分中的部分VOCs组分的浓度值设置为缺失标识，得到缺失浓度数据项；模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，得到模拟浓度数据项；基于前述浓度数据项训练神经网络模型。能够提高EKMA曲线图生成时效性和稳定性。

Description

EKMA曲线图生成方法、装置、电子设备及存储介质

技术领域

本公开涉及环境监测技术领域，尤其涉及一种EKMA曲线图生成方法、装置、电子设备及存储介质。

背景技术

近地面臭氧（简称O₃）污染是重要环境问题，对人体健康和生态系统等均有显著地危害。臭氧污染精准防治是环境空气质量热点需求。

近地面O₃主要是由挥发性有机物（简称VOCs）和氮氧化物（简称NOx）在光照条件下通过一系列复杂光化学反应生成的二次气态污染物。要降低O₃浓度，就必须对其前体物VOCs和NOx开展有效控制。O₃生成与其前体物之间存在复杂的非线性关系，对前体物排放的控制策略不当可能会导致臭氧浓度不降反升。因此，实现对臭氧污染的有效预防和控制，应当量化两种主要前体物在臭氧生成中的作用，明确优先控制的前体物，以制定有效的管控措施。

在O₃污染的成因分析和管控研究中，通常采用EKMA（Empirical KineticsModeling Approach）曲线图来表征VOCs和NOx生成O₃的复杂关系。通过EKMA曲线图可以快速、直观地识别目标地区的O₃主控前体物并确定VOCs、NOx的减排比例，指导制定有效的O₃污染管控策略和措施。EKMA曲线图通常以VOCs和NOx为坐标轴，O₃等值曲线可以包括多条近似等高线的“L”型曲线，连接不同O₃等值线的拐点可以形成一条“脊线”，在脊线上方，NOx相对VOCs过量，称为VOCs控制区，O₃防控以控制VOCs排放为主；在脊线下方，VOCs相对NOx过量，称为NOx控制区，O₃防控以控制NOx为主。在VOCs控制区，VOCs排放保持不变，减排NOx，O₃浓度有可能上升。

相关技术中，通常利用大气化学箱模式（box model）制作EKMA曲线图。大气化学箱模式比较完整地考虑了大气中的主要光化学反应，可用于模拟光化学污染的发生、演变过程，研究臭氧的生成机制和进行敏感性分析，探讨前体物排放对光化学污染的影响。基于大气化学箱模式，扰动O₃前体物VOCs和NOx的排放或浓度，开展大量（通常不低于200组）O₃生成敏感性试验，基于该试验模拟结果即可以绘制出O₃生成的EKMA曲线图。

基于大气化学箱模式制作EKMA曲线时，开展大量大气化学模拟需要耗费大量的高性能计算资源，并且在计算资源充足的条件下，制作一张EKMA曲线图仍至少需要30分钟，难以满足管控决策时效性要求；VOCs组分监测数据是大气化学箱模式的重要输入数据，常出现部分组分数据缺失或异常，导致大气化学箱模式模拟计算不稳定，出现运行中断或输出结果异常等问题。

发明内容

针对相关技术中EKMA曲线图绘制耗时较大、运行中断或输出异常的技术问题，本公开实施例提供一种EKMA曲线图生成方法、装置、电子设备及存储介质。

根据本公开实施例的一方面，提供了一种EKMA曲线图生成方法，包括：

获取目标时次预设的P种VOCs组分和NOx组分的浓度数据，P为正整数；

在P种VOCs组分的浓度值有部分缺失的情况下，将缺失的VOCs组分的浓度值设置为缺失标识，得到基准情景的VOCs组分和NOx组分的浓度数据；

对基准情景的VOCs组分和NOx组分的浓度数据进行扰动，得到多个扰动情景的VOCs组分和NOx组分的浓度数据；

使用预先训练的神经网络模型，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据；

基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图。

可选地，上述神经网络模型的训练方法包括：

获取N个时次对应的N个浓度数据项，其中，一个浓度数据项包括一个时次的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据；

从N个浓度数据项中选择M个浓度数据项，针对M个浓度数据项中每个浓度数据项：随机将P种VOCs组分中的Q种VOCs组分的浓度值去除并设置为缺失标识，得到M个缺失浓度数据项；

使用大气化学箱模式模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，得到L个模拟浓度数据项，其中，一个模拟浓度数据项中VOCs组分浓度为0，且O₃与NOx组分浓度由模拟得到；

基于N个浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项，训练神经网络模型，以使该神经网络模型基于目标时次的P种VOCs组分和NOx组分的浓度数据生成对应的O₃浓度数据；

其中，L、M、N、P、Q为正整数，且P>Q。

可选地，获取N个时次对应的N个浓度数据项，包括：如果一天中预设时间段内云量小于第一预设值且风速小于第二预设值，获取该天该预设时间段内的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据，得到至少一个时次的浓度数据项。

可选地，上述方法还包括：

对上述N个浓度数据项中的O₃浓度进行离散化得到多个O₃浓度范围，并统计每个O₃浓度范围内浓度数据项的个数；基于每个O₃浓度范围内浓度数据项的个数，确定待扩增O₃浓度范围；从每个待扩增O₃浓度范围中随机抽取多个浓度数据项；

针对抽取的每个浓度数据项：

对该浓度数据项的O₃浓度进行S次扰动，得到S个扩增O₃浓度；其中，S次扰动的扰动值符合第一正态分布，第一正态分布的均值为0、且标准差为第一预设值；以及

针对每个扩增O₃浓度：

基于该扩增O₃浓度对应扰动比例和每个组分的反应活性，确定对相应浓度数据项的VOCs组分和NOx组分中每个组分进行扰动的分布均值，其中，每个组分对应的分布均值为该扩增O₃浓度对应扰动比例、该组分的浓度、该组分的反应活性三者的乘积；

对VOCs组分和NOx组分中每个组分分别进行T次扰动，得到每个组分的T个扩增组分浓度；其中，每个组分的T次扰动符合第二正态分布，所述第二正态分布的均值为该组分对应的分布均值、且标准差为第二预设值；

从每个组分的T个扩增组分浓度中随机抽取一个扩增组分浓度；以及

将该扩增O₃浓度与VOCs组分和NOx组分中每个组分随机抽取得到的一个扩增组分浓度作为一个扩增浓度数据项；

将扰动得到的扩增浓度数据项作为训练所述神经网络模型的浓度数据项；

其中，S、T为正整数。

可选地，上述方法还包括：基于检出难度、臭氧生成潜势、以及不同监测仪器的共性组分，从多种VOCs组分中选出P种VOCs组分。

可选地，上述P种VOCs组分包括：正己烷、甲苯、乙苯、对/间二甲苯、邻二甲苯、1,3,5-三甲基苯、1,2,4-三甲基苯、1,2,3三甲基苯、乙烷，以及乙烯；丙烷、丙烯、异丁烷、正丁烷、反式-2-丁烯、顺式-2-丁烯、异戊烷、正戊烷、异戊二烯，以及二甲基戊烷。

根据本公开实施例的另一方面，提供了一种EKMA曲线图生成装置，包括：

绘制模块，用于：

使用预先训练的神经网络模型，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据；以及

可选地，还包括：训练模块，用于：

使用大气化学箱模式模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，得到L个模拟浓度数据项，其中，一个模拟浓度数据项中VOCs组分浓度为0，且O₃与NOx组分浓度由模拟得到；以及

基于N个浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项，训练神经网络模型，以使神经网络模型基于目标时次的P种VOCs组分和NOx组分的浓度数据生成对应的O₃浓度数据；

其中，L、M、N、P、Q为正整数，且P>Q。

可选地，上述训练模块获取N个时次对应的N个浓度数据项，具体包括：如果一天中预设时间段内云量小于第一预设值且风速小于第二预设值，获取该天该预设时间段内的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据，得到至少一个时次的浓度数据项。

可选地，上述训练模块还用于：

针对抽取的每个浓度数据项：

针对每个扩增O₃浓度：

其中，S、T为正整数。

根据本公开实施例的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，该程序包括指令，该指令在由处理器执行时使处理器执行上述的一种或多种方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使计算机执行上述的一种或多种方法。

本申请实施例中提供的一个或多个技术方案：

通过预先训练的神经网络模型，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图，相较于采用大气化学箱模式的实施方式，可以实现快速绘制EKMA曲线图。

在训练上述神经网络模型时，获取多个时次对应的多个浓度数据项，随机将P种VOCs组分中的Q种VOCs组分的浓度值去除并设置为缺失标识，得到多个缺失浓度数据项；使用大气化学箱模式模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，得到VOCs组分浓度为0的模拟浓度数据项；基于获取的多个浓度数据项、生成的多个缺失浓度数据项、模拟得到的多个模拟浓度数据项，训练神经网络模型，可以实现VOCs组分较少、有缺失时准确绘制EKMA曲线图。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了本公开示例性实施例的使用训练得到的神经网络模型生成EKMA曲线图的方法的流程图；

图2示出了本公开示例性实施例的神经网络模型的训练方法的流程图；

图3示出了示例性的EKMA曲线图；

图4示出了本公开示例性实施例的EKMA曲线图生成方法的流程图；

图5示出了本公开示例性实施例的EKMA曲线图生成装置的示意图；

图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

需要说明的是，本公开实施例提供的EKMA曲线图生成方法的执行主体可以是一个或多个电子设备，本公开对此不作限定；其中，电子设备可以是终端（即客户端）或者服务器，那么在执行主体包括多个电子设备，且多个电子设备中包括至少一个终端和至少一个服务器时，本公开实施例提供的EKMA曲线图生成方法可由终端和服务器共同执行。相应的，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端，等等。此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算（cloud computing）、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

基于上述描述，本公开实施例提出一种EKMA曲线图生成方法，该EKMA曲线图生成方法可以由上述所提及的电子设备（终端或服务器）执行；或者，该EKMA曲线图生成方法可由终端和服务器共同执行。

本公开实施例提供了一种EKMA曲线图生成方法，包括神经网络模型的训练和使用训练得到的神经网络模型生成EKMA曲线图。

图1示出了本公开示例性实施例的使用训练得到的神经网络模型生成EKMA曲线图的方法的流程图，如图1所示，该方法包括步骤S101至步骤S105。

步骤S101，获取目标时次预设的P种VOCs组分和NOx组分的浓度数据。

其中，P为正整数。

本实施例中，P种VOCs组分的浓度数据可以是检测值，可以由检测设备检测得到。NOx组分的浓度数据可以是预测值或检测值，预测值可以由空气质量数值模式预报得到。

VOCs组分包含几百上千种，目前实际观测约为一百种，并且由于监测仪器复杂，操作和维护难度大，其数据质量相对较差，常出现部分组分数据缺失或异常；其次，不同VOCs组分的检出难度、臭氧生成潜势等也不尽相同。作为一种实施方式，可以基于检出难度、臭氧生成潜势、以及不同监测仪器的共性组分，从多种VOCs组分中选出P种VOCs组分。

作为一种示例，优选出20种对臭氧生成重要、易获得、数据质量相对稳定的VOCs组分，具体如表1所示。

表1 用于生成EKMA曲线图的VOCs组分表

作为一种示例，目标时次的P种VOCs组分和NOx组分的浓度数据，可以是关注时段、关注监测站点的任一时次的P种VOCs组分和NOx组分的浓度数据。

步骤S102，在P种VOCs组分的浓度值有部分缺失的情况下，将缺失的VOCs组分的浓度值设置为缺失标识，得到基准情景的VOCs组分和NOx组分的浓度数据。

作为一种实施方式，缺失的VOCs组分的数量不超过P的50%。示例性的，预设20种VOCs组分，缺失的VOCs组分的数量不超过10。

作为一种实施方式，可以基于P种VOCs组分的臭氧生成潜势，将P种VOCs组分中臭氧生成潜势较高的R种VOCs组分设置为必要VOCs组分，在获取到必要VOCs组分的浓度数据的情况下，执行本实施例的方法。其中，R为小于P的正整数。

步骤S103，对基准情景的VOCs组分和NOx组分的浓度数据进行扰动，得到多个扰动情景的VOCs组分和NOx组分的浓度数据。

作为一种示例，将基准情景的VOCs组分和NOx组分的浓度乘以扰动系数，生成多个扰动情景的VOCs组分和NOx组分的浓度数据，扰动系数可以以5%为间隔，可以包括0.05，0.1，0.15 … 1.5。

步骤S104，使用预先训练的神经网络模型，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据。

本实施例中，预先训练的神经网络模型表征O₃与其前体物（VOCs组分和NOx组分）之间的非线性关系，具体为O₃与预设的P种VOCs组分和NOx组分之间的非线性关系。

神经网络模型的第一层为输入层，最后一层为输出层，中间为隐含层。神经网络模型在输入层和输出层之间添加多层隐含层来进行多层特征提取。

本实施例中，神经网络模型可以以一个时次的VOCs组分和NOx组分的浓度数据为输入，以该时次的O₃浓度为输出。

步骤S105，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图。

通过本公开实施例，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据，基于基准情景和多个扰动情景的VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图，相较于采用大气化学箱模式的实施方式，可以实现快速绘制EKMA曲线图。

图2示出了本公开示例性实施例的神经网络模型的训练方法的流程图，如图2所示，神经网络模型的训练方法包括步骤S201至步骤S204。

步骤S201，获取N个时次对应的N个浓度数据项，其中，一个浓度数据项包括一个时次的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据。

为使神经网络模型能够最大程度捕捉大气光化学反应特征，按照光化学反应较强情况下O₃与其前体物之间的理论浓度开展训练数据集的特征构建，作为一种实施方式，上述步骤S201中，如果一天中预设时间段内云量小于第一预设值且风速小于第二预设值，获取该天该预设时间段内的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据，得到至少一个时次的浓度数据项。示例性的，预设时间段可以为10：00至16：00，预设时间段内云量小于20%（即第一预设值），风速小于2m/s（即第二预设值）。预设时间段可以基于目标区域的日照时间确定。

作为一种实施方式，可以采用少数样本超采样方法（Synthetic Minority Over-sampling Technique，SMOTE）对获取到的浓度数据项进行扩增。由于臭氧浓度为伽玛（GAMMA）分布，出现极大值和极小值的概率都比较小，如果不对样本进行处理，训练的模型对极值的模拟能力会比较弱，通过少数样本超采样方法，更好地建立O₃与VOCs组分和NOx组分之间的映射关系，使得样本中的O₃浓度更接近均匀分布。

可选地，对获取到的浓度数据项进行扩增，包括：

步骤A，对上述N个浓度数据项中的O₃浓度进行离散化得到多个O₃浓度范围，并统计每个O₃浓度范围内浓度数据项的个数。例如，O₃浓度0-10的浓度数据项为100个，O₃浓度100-110浓度范围的浓度数据项个数为800个。

步骤B，基于每个O₃浓度范围内浓度数据项的个数，确定待扩增O₃浓度范围。可选地，当O₃浓度范围内浓度数据项的个数小于预设值时，确定其为待扩增O₃浓度范围。由于臭氧浓度为GAMMA分布，待扩增O₃浓度范围通常包括O₃浓度的极大值范围和极小值范围。

步骤C，从每个待扩增O₃浓度范围中随机抽取多个浓度数据项。

步骤D，针对抽取的每个浓度数据项：

步骤D-1对该浓度数据项的O₃浓度进行S次扰动，得到S个扩增O₃浓度；其中，S次扰动的扰动值符合第一正态分布，第一正态分布的均值为0、且标准差为第一预设值（例如10%）；以及

步骤D-2，针对每个扩增O₃浓度：

步骤D-2-1，基于该扩增O₃浓度对应扰动比例（例如，进行扰动后O₃浓度从100变为101，扰动比例为1%。）和每个组分的反应活性，确定对相应浓度数据项的VOCs组分和NOx组分中每个组分进行扰动的分布均值；

可选地，每个组分对应的分布均值为该扩增O₃浓度对应扰动比例、该组分的浓度、该组分的反应活性三者的乘积。比如，O₃浓度的扰动比例为1%，上述乙烯浓度为10，反应活性为5，0.01*10*5，乙烯浓度进行扰动的分布均值为0.5。扰动中考虑了臭氧与不同前体物的反应活性不一样。

步骤D-2-2，对VOCs组分和NOx组分中每个组分分别进行T次扰动，得到每个组分的T个扩增组分浓度；其中，每个组分的T次扰动符合第二正态分布，所述第二正态分布的均值为该组分对应的分布均值、且标准差为第二预设值（例如10%）；

步骤D-2-3，从每个组分的T个扩增组分浓度中随机抽取一个扩增组分浓度；以及

步骤D-2-4，将该扩增O₃浓度与VOCs组分和NOx组分中每个组分随机抽取得到的一个扩增组分浓度作为一个扩增浓度数据项。

步骤E，将扰动得到的扩增浓度数据项作为训练所述神经网络模型的浓度数据项。

例如，对于10个O₃浓度范围，确定得到3个待扩增O₃浓度范围，对于该3个待扩增O₃浓度范围中的每一个分别抽取10个浓度数据项，每个浓度数据项进行10次扰动，得到的扩增浓度数据项的个数可以为300（即3*10*10）。

经过上述扰动，充分考虑了臭氧、VOCs组分和NOx之间的非线性关系，可以得到多个较好的浓度数据项，扩充了极大值和/或极小值的样本，能够更好的建立臭氧相对于VOCs组分和NOx的映射关系，使得样本中的臭氧浓度更接近均匀分布。从而提高模型对极值的模拟能力。

步骤S202，从N个浓度数据项中选择M个浓度数据项，针对M个浓度数据项中每个浓度数据项：随机将P种VOCs组分中的Q种VOCs组分的浓度值去除并设置为缺失标识，得到M个缺失浓度数据项。

通过步骤S202，可以生成VOCs组分有缺失的浓度数据项，以使神经网络模型在VOCs组分有缺失的情况下，能够较为准确地输出对应的O₃浓度数据。

步骤S203，使用大气化学箱模式模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，得到L个模拟浓度数据项，其中，一个模拟浓度数据项中VOCs组分浓度为0，且O₃与NOx组分浓度由模拟得到。

在现实场景中，不存在VOCs组分的浓度为0的情况，也就是说没有VOCs组分的浓度为0的检测数据。通过步骤S203可以生成VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，使得训练所得的神经网络模型能够用于绘制EKMA曲线图。

此外，当NO和NO₂浓度为0时，O₃浓度也为0。

作为一种实施方式，在步骤S203中，使用简化的大气化学箱模式模拟VOCs组分浓度为0时O₃与NOx组分的浓度对应关系，简化的大气化学箱模式可以仅包含以下反应方程：NO₂光解、O₂氧化成O₃以及NO将O₃还原为O₂。

步骤S204，基于N个浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项，训练神经网络模型，以使该神经网络模型基于目标时次的P种VOCs组分和NOx组分的浓度数据生成对应的O₃浓度数据。

其中，上述的L、M、N、P、Q为正整数，且P>Q。

为了满足绘制EKMA曲线图的需要，通过步骤S202和步骤S203，分别得到M个缺失浓度数据项和L个模拟浓度数据项，并基于N个浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项训练神经网络模型，使得神经网络模型能够对，VOCs组分的浓度为0和VOCs组分存在缺失的情况进行较为准确地处理，得到相应的O₃浓度，从而能够使用神经网络模型得到的数据绘制EKMA曲线图。在进行扩增的情况下，在步骤S204中，基于扩增浓度数据项训练神经网络模型。

图3示出了示例性的EKMA曲线图，如图3所示，以VOCs为横坐标轴、NOx为纵坐标轴，O₃等值曲线可以包括多条近似等高线的“L”型曲线，连接不同O₃等值线的拐点可以形成一条“脊线”，在脊线上方，NOx相对VOCs过量，称为VOCs控制区，O₃防控以控制VOCs排放为主；在脊线下方，VOCs相对NOx过量，称为NOx控制区，O₃防控以控制NOx为主。在VOCs控制区，VOCs排放保持不变，减排NOx，O₃浓度有可能上升。

下面对更为详细的示例性实施方式进行描述。

该示例性实施方式，构建了基于深度神经网络的臭氧EKMA曲线生成方法。该方法可以缩短EKMA曲线的生成时间，充分满足管控决策的时效性要求；可以有效规避大气化学箱模式在VOCs观测数据质量不佳情况下难以正常生成EKMA曲线的问题，提升EKMA曲线的生成效率和稳定性。具体的实现步骤参考图4所示。

步骤一：数据处理与质控

收集各地区多个站点多年常规污染物浓度观测数据和VOCs组分观测数据。对收集的观测数据进行质控，剔除异常值并统一标记缺测值，形成训练数据集。

其中，常规污染物观测数据要求包含O₃、NO₂两种污染物，VOCs组分观测数据包含指定的20种组分（见上述表1所示）。本实施方式结合VOCs组分的检出难度、臭氧生成潜势以及不同监测仪器的共性组分等，优选出20种对臭氧生成重要、易获得、数据质量相对稳定的VOCs组分。

步骤二：数据集构建

1）训练数据筛选

为使模型能够最大程度捕捉大气光化学反应特征，按照光化学反应较强情况下O₃与其前体物之间的理论浓度开展训练数据集的特征构建，也就是提取“晴天、静风”天气条件下的观测数据作为基本训练数据来确定模型参数。本实施方式中“晴天、静风”定义为当地时间10-16点，总云量小于20%，风速小于2m/s。

2）训练数据扩增

考虑到VOCs组分观测数据相对较少，为增大训练数据集，充分满足深度神经网络模型的训练需求，采用少数样本超采样方法（SMOTE）对基本训练数据集中的样本进行等比例扩增，有效提升训练数据集的响应范围。

3）训练数据增强与改进

VOCs组分监测数据常出现部分组分数据缺失或异常，导致大气化学箱模式模拟计算不稳定，出现运行中断或输出结果异常等问题，从而无法正常生成EKMA曲线。针对该问题，本实施方式对训练数据集进行对应的增强和改进。

在训练数据集中随机挑选10%的样本，针对每一个样本，随机去掉该样本中20种VOCs组分观测数据的10种（即50%）而其他污染物浓度保持不变，从而形成新的样本。将这些针对性生成的样本融合到训练数据集中。

此外，在VOCs或者NOx浓度为零时，没有对应的实际观测数据。为了补充该情形下的训练样本，同时进一步约束观测数据不确定性对模型的影响，通过大气化学箱模式生成一定数量的数据对（约为总训练样本数的2%-5%）加入训练样本中。主要包括两种情况：

一是VOCs浓度为零，基于NO、NO₂和臭氧的基本光化学反应，通过简化的大气化学箱模式（只包含3个反应方程，NO₂光解、O₂氧化成O₃，NO将O₃还原为O₃），获得臭氧和NOx的对应关系；

二是NO和NO₂浓度为零，其理论臭氧值也为零。

通过以上多个步骤对训练数据进行了筛选、扩增、增强和改进，一方面为模型训练提供了科学合理、样本充足的数据集，另一方面通过特殊考虑和处理，使得本方法可以在最少只有指定的10种VOCs组分的有效观测数据情况下，也能正常生成EKMA曲线，从而在很大程度上规避了大气化学箱模式在VOCs观测数据质量不佳情况下难以正常生成EKMA曲线的问题。

步骤三：模型训练与构建

本实施方式中，神经网络的各个神经元的权重是采用梯度下降方法确定的。具体方法为：利用模型的输出值与真实值建立损失函数，该函数为凹函数，使得该函数沿导数方向下降，即可达到函数最小值点，在该最小值点上函数的权重即为神经网络各个神经元的最适合权重。

步骤四：臭氧敏感性试验模拟与EKMA曲线快速生成

将目标区域的污染观测数据作为基准情景，在此基础上，对观测数据进行扰动，将基准NO₂浓度和基准的VOCs组分浓度乘上扰动系数（0.05，0.1，0.15 … 1.5，以5%为间隔），生成大量扰动数据，将扰动后的NO₂浓度和VOCs组分浓度代入已经训练调试好的深度神经网络模型进行计算，获得各扰动情景下的臭氧浓度。基于基准和各扰动情景的输入和输出结果绘制臭氧等浓度曲线，即为臭氧EKMA曲线图。

该实施方式，基于神经网络的EKMA曲线生成方法进行了大量案例测试，结果表明针对单站点单时次、单站点多时次、多站点单时次、多站点多时次的EKMA曲线计算和生成的耗时均小于10s，相对于大气化学箱模式方法需要至少30分钟，大幅缩短了EKMA曲线的生成耗时，能够很好地满足管控决策时效性要求。

本公开实施例提供了一种EKMA曲线图生成装置。

图5示出了本公开示例性实施例的EKMA曲线图生成装置的示意图，如图5所示，EKMA曲线图生成装置包括：绘制模块510和训练模块520。

本实施例中，绘制模块510，可以用于：

获取目标时次预设的P种VOCs组分和NOx组分的浓度数据；

本实施例中，训练模块520，可以用于：

基于N个浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项，训练神经网络模型，以使神经网络模型基于目标时次的P种VOCs组分和NOx组分的浓度数据生成对应的O₃浓度数据。

其中，L、M、N、P、Q为正整数，且P>Q。

作为一种实施方式，上述训练模块520获取N个时次对应的N个浓度数据项，具体可以包括：如果一天中预设时间段内云量小于第一预设值且风速小于第二预设值，获取该天该预设时间段内的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据，得到至少一个时次的浓度数据项。

作为一种实施方式，上述训练模块520还可以用于：

针对抽取的每个浓度数据项：

针对每个扩增O₃浓度：

将扰动得到的扩增浓度数据项作为训练所述神经网络模型的浓度数据项。

作为一种实施方式，上述训练模块520还可以用于：基于检出难度、臭氧生成潜势、以及不同监测仪器的共性组分，从多种VOCs组分中选出所述P种VOCs组分。

作为一种实施方式，上述P种VOCs组分包括：正己烷、甲苯、乙苯、对/间二甲苯、邻二甲苯、1,3,5-三甲基苯、1,2,4-三甲基苯、1,2,3三甲基苯、乙烷，以及乙烯；丙烷、丙烯、异丁烷、正丁烷、反式-2-丁烯、顺式-2-丁烯、异戊烷、正戊烷、异戊二烯，以及二甲基戊烷。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图6，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，图1和图2所示的方法等可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行本说明书前述的方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种EKMA曲线图生成方法，其特征在于，包括：

对所述基准情景的VOCs组分和NOx组分的浓度数据进行扰动，得到多个扰动情景的VOCs组分和NOx组分的浓度数据；

使用预先训练的神经网络模型，基于所述基准情景和所述多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据；

基于所述基准情景和所述多个扰动情景的VOCs组分和NOx组分的浓度数据以及O₃浓度数据生成EKMA曲线图；

其中，按照以下方法训练所述神经网络模型：

对所述N个浓度数据项中的O₃浓度进行离散化得到多个O₃浓度范围，并统计每个O₃浓度范围内浓度数据项的个数；基于每个O₃浓度范围内浓度数据项的个数，确定待扩增O₃浓度范围；从每个待扩增O₃浓度范围中随机抽取多个浓度数据项；

针对抽取的每个浓度数据项：

对该浓度数据项的O₃浓度进行S次扰动，得到S个扩增O₃浓度；其中，所述S次扰动的扰动值符合第一正态分布，所述第一正态分布的均值为0、且标准差为第一预设值；以及

针对每个扩增O₃浓度：

对VOCs组分和NOx组分中每个组分分别进行T次扰动，得到每个组分的T个扩增组分浓度；其中，每个组分的T次扰动符合第二正态分布，所述第二正态分布的均值为所述组分对应的分布均值、且标准差为第二预设值；

其中，S、T为正整数。

2.如权利要求1所述的方法，其特征在于，所述训练所述神经网络模型还包括：

从所述N个浓度数据项中选择M个浓度数据项，针对所述M个浓度数据项中每个浓度数据项：随机将所述P种VOCs组分中的Q种VOCs组分的浓度值去除并设置为缺失标识，得到M个缺失浓度数据项；

基于所述N个浓度数据项、扰动得到的扩增浓度数据项、M个缺失浓度数据项和L个模拟浓度数据项，训练所述神经网络模型，以使所述神经网络模型基于目标时次的P种VOCs组分和NOx组分的浓度数据生成对应的O₃浓度数据；

其中，L、M、N、P、Q为正整数，且P>Q。

3.如权利要求1所述的方法，其特征在于，所述获取N个时次对应的N个浓度数据项，包括：

如果一天中预设时间段内云量小于第一预设值且风速小于第二预设值，获取该天该预设时间段内的P种VOCs组分和NOx组分的浓度数据以及O₃浓度数据，得到至少一个时次的浓度数据项。

4.如权利要求1至3任一项所述的方法，其特征在于，还包括：

基于检出难度、臭氧生成潜势、以及不同监测仪器的共性组分，从多种VOCs组分中选出所述P种VOCs组分。

5.如权利要求4所述的方法，其特征在于，所述P种VOCs组分包括：

正己烷、甲苯、乙苯、对/间二甲苯、邻二甲苯、1,3,5-三甲基苯、1,2,4-三甲基苯、1,2,3三甲基苯、乙烷，以及乙烯；

丙烷、丙烯、异丁烷、正丁烷、反式-2-丁烯、顺式-2-丁烯、异戊烷、正戊烷、异戊二烯，以及二甲基戊烷。

6.一种EKMA曲线图生成装置，其特征在于，包括：

绘制模块，用于：

使用预先训练的神经网络模型，基于所述基准情景和所述多个扰动情景的VOCs组分和NOx组分的浓度数据，生成每个情景对应的O₃浓度数据；以及

训练模块，用于：

针对抽取的每个浓度数据项：

针对每个扩增O₃浓度：

其中，S、T为正整数。

7.如权利要求6所述的装置，其特征在于，所述训练模块，还用于：

其中，L、M、N、P、Q为正整数，且P>Q。

8.如权利要求6所述的装置，其特征在于，所述训练模块获取N个时次对应的N个浓度数据项，具体包括：

9. 一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-5中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的方法。