CN114282721B

CN114282721B - 污染物预报模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN114282721B
Application number: CN202111581442.6A
Authority: CN
Inventors: 樊旭; 陈焕盛; 文质彬; 柴源; 陈婷婷; 亢思静; 秦东明; 肖林鸿; 吴剑斌
Original assignee: 3Clear Technology Co Ltd
Current assignee: 3Clear Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-12-20
Anticipated expiration: 2041-12-22
Also published as: CN114282721A

Abstract

本发明提供一种污染物预报模型训练方法、装置、电子设备及存储介质。方法包括：当触发训练任务时，获取预报数据集和原始数据集；其中，预报数据集包括第一指定时期内的样本数据；原始数据集包括第二指定时期内的样本数据；在预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；根据绝对误差，在预报数据集中筛选得到大误差数据集；根据大误差数据集和原始数据集，获得重构数据集；根据重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入更新的污染物预报模型进行处理，获得目标污染物预报浓度。采用本发明，可以提高污染物预报模型的预报效果。

Description

污染物预报模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及环境气象技术领域，具体涉及一种污染物预报模型训练方法、装置、电子设备及存储介质。

背景技术

近年来，我国大气污染问题已经引起社会高度关注。大气污染物对人体健康、大气能见度以及气候变化等都有重要影响。加紧建设空气质量预报预警体系，提升空气质量预警能力，开展环境空气质量预报是保障及时妥善应对重污染天气的重要技术手段，并且对区域大气污染联防联控也具有指导意义。

目前，主要的大气污染物浓度预报方法有两种：统计预报法和数值预报法。其中，数值预报法在技术和硬件设施上投入大，并且在预报中存在计算资源消耗大，计算速度慢的问题。然而，随着机器学习算法的发展，机器学习算法已经成为实现空气质量短时临近预报的重要方法。大气污染物的浓度受气象条件、本地排放等要素的影响较大，并且气象条件和本地排放情况随时间变化较大，因此算法无法很好的捕捉当下污染物浓度的变化特征，导致预报结果不佳。

针对现有技术中在通过机器学习预报模型进行空气质量预报时，预报结果不佳的问题，还未提出有效的解决方案。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种污染物预报模型训练方法、装置、电子设备及存储介质。技术方案如下：

根据本发明的第一方面，提供了一种污染物预报模型训练方法，所述方法包括：

当触发训练任务时，获取预报数据集和原始数据集；其中，所述预报数据集包括第一指定时期内的样本数据；所述原始数据集包括第二指定时期内的样本数据；所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段；所述第二指定时期长于所述第一指定时期；所述样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据；

在所述预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；

根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集；

根据所述大误差数据集和所述原始数据集，获得重构数据集；

根据所述重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；

当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理，获得目标污染物预报浓度。

可选地，所述根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集，包括：

获取百分位阈值和所述预报数据集包含的样本数量；

根据所述百分位阈值和所述样本数量，确定筛选标记；

将全部绝对误差进行排序，在所述预报数据集中，获取每一个序号大于所述筛选标记的绝对误差对应的样本数据，形成所述大误差数据集。

可选地，所述根据所述大误差数据集和所述原始数据集，获得重构数据集，包括：

根据所述大误差数据集和所述原始数据集，通过SMOTE算法获取重构数据集。

可选地，所述根据所述大误差数据集和所述原始数据集，通过SMOTE算法获取重构数据集，包括：

根据预定规则从所述原始数据集中获取子数据集；

在所述子数据集中，按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据；

根据所述大误差数据集中每个样本数据与所述邻近样本数据，获取新数据集；

将所述原始数据集、所述大误差数据集以及所述新数据集合并，形成所述重构数据集。

可选地，所述根据所述大误差数据集中每个样本数据与所述邻近样本数据，获取新数据集包括：

根据所述大误差数据集中每个样本数据与全部邻近样本数据，获取多个新样本数据，具体如下：

其中，X_new为新样本数据；X_i为所述大误差数据集中第i个样本数据；

为与第i个样本数据对应的邻近样本数据；P为0至1之间的随机数；

将全部新样本数据组合为新数据集。

可选地，在所述子数据集中，按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据，包括：

确定所述大误差数据集中每个样本数据与所述子数据集中任意样本数据之间的欧氏距离；

在所述子数据集中，将欧式距离小于或者等于预定阈值对应的样本数据，作为所述每个样本数据对应的邻近样本数据。

可选地，所述方法还包括：

对所述目标气象要素特征数据和所述目标污染物预报浓度建立对应关系并进行存储；

当与所述目标污染物预报浓度对应的目标污染物观测浓度完成观测时，对所述目标污染物预报浓度和所述目标污染物观测浓度建立对应关系并进行存储。

根据本发明的第二方面，提供了一种污染物预报模型训练装置，所述装置包括：

第一获取模块，用于当触发训练任务时，获取预报数据集和原始数据集；其中，所述预报数据集包括第一指定时期内的样本数据；所述原始数据集包括第二指定时期内的样本数据；所述第一指定时期是指触发训练任务的时刻之前的更新周期内的时段；所述第二指定时期长于所述第一指定时期；所述样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据；

第二获取模块，用于在所述预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；

筛选模块，用于根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集；

第三获取模块，用于根据所述大误差数据集和所述原始数据集，获得重构数据集；

训练模块，用于根据所述重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；

第四获取模块，用于当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入所述更新的污染物预报模型进行处理，获得目标污染物预报浓度。

根据本发明的第三方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述污染物预报模型训练方法。

根据本发明的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行上述污染物预报模型训练方法。

本发明提供了一种污染物预报模型训练方法，是基于污染物预报模型设计了预报结果的在线评估方法，并实现训练数据集的在线重构，可以完成污染物预报模型的在线训练更新，解决了现有技术中在通过机器学习预报模型进行空气质量预报时，预报结果不佳的问题。通过本发明可以适应天气条件和本地排放等的变化对污染物预报模型参数的影响；同时，提高过往预报效果不佳的样本的预报效果，实现污染物预报模型的预报效果的在线提升。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被发明，在附图中：

图1示出了根据本发明示例性实施例的污染物预报模型训练示意图；

图2示出了根据本发明示例性实施例的污染物预报模型训练方法流程图；

图3示出了根据本发明示例性实施例的SMOTE算法获取重构数据集流程图；

图4示出了根据本发明示例性实施例的样本数据存储流程图；

图5示出了根据本发明示例性实施例的污染物预报模型训练装置的示意性框图；

图6示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本发明实施例结合阈值法和合成少数类过采样技术(Synthetic MinorityOversampling Technique，简称SMOTE)提出了应用于机器学习的污染物预报模型参数在线学习更新的策略，进而提供了一种污染物预报模型训练方法。该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本发明实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，例如，服务器可以对污染物预报模型进行训练，并在在线更新污染物预报模型的参数，获得新的污染物预报模型。通过新的污染物预报模型预测接未来一段的时间的污染情况，并将污染情况发送到终端予以展示，本发明对此不作限定。

下面将参照图1所示的污染物预报模型训练示意图，和图2所示的污染物预报模型训练方法流程图，对一种污染物预报模型训练方法进行介绍。

步骤201，当触发训练任务时，获取预报数据集和原始数据集。

其中，预报数据集包括第一指定时期内的样本数据；原始数据集包括第二指定时期内的样本数据；第一指定时期是指触发训练任务的时刻之前的更新周期内的时段；第二指定时期长于第一指定时期；样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据。

更新周期指的是重新训练一次污染物预报模型，获取新的污染物预报模型参数的时间，可以通过人工设置的方式确定更新周期，在本实施例中更新周期可以为一个月，也就是说，第一指定时期内的样本数据是指目标时刻t-perios到t时段内的所有样本数据，perios为更新周期的时间长度；第二指定时期指的是原始数据集中的样本数据的时间跨度，可以通过人工设置的方式确定，并且第二指定时期越长训练的效果越好，在本实施例中第二指定时期可以为超过一年的时间跨度。本实施例中对于第一指定时期和第二指定周期的时间长度不做限定。另外，每一个样本数据中污染物观测浓度、污染物预报浓度和气象要素特征数据一一对应。

在一种可能的实施方式中，在一个更新周期结束时，触发污染物预报模型的训练任务，装载有污染物预报模型的系统或者服务器等自动获取预报数据集和原始数据集，其中，预报数据集和原始数据集中的样本数据可以存储在当前的客户端或者服务器中，也可以存储在单独的服务器，对于预报数据集和样本数据集的样本数据存储的位置本实施例不做限定。

步骤202，在预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差。

在一种可能的实施方式中，从预报数据集中任意选取某日某时刻的通过污染物预报模型预测到的污染物预报浓度，并且选取与污染物预报浓度对应的该日该时刻通过监测的方法获得的污染物观测浓度，并且通过下列公式计算获得污染物预报浓度和对应的污染物观测浓度之间的绝对误差：

AE＝|y-y_pre|，

其中，||为取绝对值运算，y为污染物观测浓度，y_pre为污染物预报浓度。因此，通过上述公式可以计算出预报数据集中每一个污染物预报浓度和对应的污染物观测浓度之间的绝对误差。

步骤203，根据绝对误差，在预报数据集中筛选得到大误差数据集。

在一种可能的实施方式中，通过设置一个界限，确定超过这个界限的绝对误差为大误差。根据大误差从预报数据集中取出与大误差相对应的样本数据，进而多个大误差对应的样本数据共同形成大误差数据集。

可选的，在预报数据集中筛选得到大误差数据集之前，去除预报数据集中的缺省样本数据。其中，缺省样本数据为预报数据集中缺少污染物观测浓度或者污染物预报浓度的样本数据。预报数据集中的样本数据是由同一时刻的污染物预报浓度、污染物观测浓度以及气象要素特征数据组成，因此当某一时刻的样本数据中缺少污染物预报浓度或者污染物观测浓度时，该时刻的样本数据为缺省数据。例如，2021年9月26日10时预测得到的气象要素特征数据、通过污染物预报模型得到的污染物预报浓度以及通过监测得到的污染物浓度观测浓度相互对应，并且构成2021年9月26日10时的样本数据，当样本中缺少2021年9月26日10时的污染物观测浓度，则2021年9月26日10时的样本为缺省数据。特别地，气象要素特征数据可以是预测得到的数据，也可以为其它方式得到的数据，本发明实施例对此不作限定。同时，预测的气象要素特征数据还可以通过下列两种方法获得：一种是大气数值模式，如WRF(Weather Research and Forecasting，天气研究和预报)等输出的预报数据；一种为公开的数值预报产品，如包含全球计算机模型和变分分析的全球数值天气预报系统提供的GFS(Global forecast System，全球预报系统)资料。

可选的，在预报数据集中筛选得到大误差数据集时，上述步骤203的处理可以如下：

获取百分位阈值和预报数据集包含的样本数量。

根据百分位阈值和样本数量，确定筛选标记。

将全部绝对误差进行排序，在预报数据集中，获取每一个序号大于筛选标记的绝对误差对应的样本数据，形成大误差数据集。

在一种可能的实施方式中，在去除预报数据集中缺省样本数据后，统计预报数据集中余下的样本数据的数量，参考统计完成的样本数据的数量，通过人工的方式设定百分位阈值，进而将百分位阈值与统计出的样本数据的数量相乘。同时，百分位阈值与统计出的样本数据的数量的乘积采取向下取整的方法，获得筛选标记。将绝对误差进行升序排列，将排序后的绝对误差的序号与筛选标记进行比较，进而获得序号大于筛选标记的绝对误差对应的预报数据集中的样本数据，形成大误差数据集。例如，设定百分位阈值为85％，预报数据集去除缺省样本数据后，余下的样本数据的数量为n，因此筛选标记为n*85％向下取整，将绝对误差进行排序获得各个绝对误差的序号k＝[1，2，3，...，m]，其中m为正整数。将筛选标记与绝对误差的序号k进行比较，当序号大于k时，获取相应序号的绝对误差对应的预报数据集中的样本数据，形成大误差数据集。

另外，对于排序对的方式，还可以进行降序排列，此时可以调整百分位阈值的大小获得大误差数据集。本领域技术人员应当知晓，在预报数据集中筛选得到大误差数据集的筛选方法不用于限定本发明，其它的筛选方法也在本发明保护范围之内，例如，图示法。

步骤204，根据大误差数据集和原始数据集，获得重构数据集。

在一种可能的实施方式中，通过对大误差数据和原始数据集的作用重新构建一个数据集，为重构数据集。将重构数据集作为训练集重新训练污染物预报模型，优化了污染物预报模型参数，使得污染物预报模型具有更好的预报效果。

可选的，获得重构数据集时，上述步骤204的处理可以如下：

根据大误差数据集和原始数据集，通过SMOTE算法获取重构数据集。

在一种可能的实施方式中，基于大误差数据集，利用SMOTE算法在原始数据集中进行超采样，进而实现对大误差数据集的扩充，获得一个新数据集。将新数据集、大误差数据集、原始数据及合并成一个数据集，完成重构的过程，获得重构数据集。同时，由于原始数据集中的样本数量远远大于大误差数据集中的样本数量，因此必须要采用一定的算法对大误差数据集进行扩充，除了使用SMOTE算法外还可以使用插值算法。本领域技术人员应当知晓，扩充大误差数据集的算法不用于限定本发明，其它类型的算法也在本发明保护范围之内。特别的，对于SMOTE算法在下面进行详细的介绍，在此不再赘述。

步骤205，根据重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型。

在一种可能的实施方式中，将重构数据集作为一个新的训练集对污染物预报模型进行训练，通过训练使得污染物预报模型的参数不断修正，直至训练结束，获得更新的污染物预报模型。通过更新的污染物预报模型可以更好的实现污染物浓度预报的作用，同时，由于大误差数据集参与了再一次的训练，使得污染物预报模型可以有效地减小误差。

另外，由于污染物预报模型可以不断的在线更新，因此对于不同的地域采用同一初始模型，然后经过从相应区域获得的预报数据集和原始数据集的作用，结合与阈值法和SMOTE算法，使得不同区域的污染物预报模型不断进行自我更新，进而准确预报各个区域的污染物浓度情况，并且便于统筹。

步骤206，当触发预报任务时，将目标污染物观测浓度和目标气象要素特征数据输入更新的污染物预报模型进行处理，获得目标污染物预报浓度。

在一种可能的实施方式中，当触发预报任务时，系统将目标气象要素特征数据，也就是通过预测算法预测到的目标气象要素特征数据或者基于WRF或者基于GFS获得的目标气象要素特征数据，输入更新的污染物预报模型中，同时，系统将目标污染物观测浓度，也就是将通过观测获得的污染物观测浓度输入更新的污染物预报模型中，进而通过最新的污染物预报模型的作用，获得目标污染物预报浓度，也就是目标时刻的污染物预报浓度。另外，目标污染观测物浓度和目标气象要素特征数据均可以包括多个时刻的数据。

例如，目标污染物预报浓度为2021年9月26日10时的污染物预报浓度，因此在更新的污染物预报模型中输入目标污染物观测浓度和目标气象要素特征数据，也就是2021年9月26日10时的气象要素特征数据和2021年9月26日9时污染物观测浓度，以及2021年9月26日9时的气象要素特征数据和2021年9月26日8时污染物观测浓度等目标污染物观测浓度和目标气象要素特征数据，进而获得目标污染物预报浓度，也就是2021年9月26日10时的污染物预报浓度。另外，当时间到达2021年9月26日10时，通过监测的方式可以获得2021年9月26日10时的污染物浓度观测浓度。

上述发明实施例，提出了一种基于阈值法和合成少数过采样技术(SMOTE)的对污染物预报模型进行在线学习更新的训练方法，可以不断的优化污染物预报模型，提升污染物预报模型的预报效果。下面将通过入图3所示的SMOTE算法获取重构数据集流程图，对根据大误差数据集和原始数据集，通过SMOTE算法获取重构数据集进行介绍。

步骤301，根据预定规则从原始数据集中获取子数据集。

在一种可能的实施方式中，系统或者服务器可以存储有预定规则，当触发训练任务后，当SMOTE算法获取重构数据集时，自动调用存储的预定规则，从原始数据集中选取部分样本数据，组成子数据集。

可选的，预定规则包含随机选取规则和选择算法规则。

在一种可能的实施方式中，通过随机规则从原始数据集中随机选取样本数据，可以减小相似样本对训练的干扰。而选择算法规则是根据统计学原理进行最优化设计，使得选择出的样本更加的优质，最终可以提高重构数据集的质量，进而提升污染物预报模型的的预报效果。

另外，在本实施方式中原始数据集的时间长度可以是以目标日15天之前为起点至目标日410天之前为终点的时间内的全部样本数据，其中，样本数据的时间分辨率为小时。

步骤302，在子数据集中，按照邻近算法获取大误差数据集中每个样本数据对应的邻近样本数据。

在一种可能的实施方式中，在子数据集在中，获取大误差数据集中每个样本数据对应的邻近样本数据，由于邻近样本数据的特征是相似的，进而对大误差数据集进行扩展，使得扩展出的新数据集与大误差数据集有着相似的特征。并且通过扩充的方式使得样本数据增多，进而可以将更多的与触发训练任务时刻间隔相近的样本数据对污染物模型进行训练，同时，减小了在训练污染物预报模型时，原始数据中大量样本的影响，可以有效的提升污染物预报模型的准确度。

可选的，在子数据集中，按照邻近算法获取大误差数据集中每个样本数据对应的邻近样本数据时，上述步骤302的处理可以如下：

确定大误差数据集中每个样本数据与子数据集中任意样本数据之间的欧氏距离；

在子数据集中，将欧式距离小于或者等于预定阈值对应的样本数据，作为每个样本数据对应的邻近样本数据。

在一种可能的实施方式中，在获取邻近样本数据时，通过两个样本数据之间的距离定义邻近，其中距离定义为样本数据之间多维特征空间的欧氏距离。在获取邻近样本之前，设定邻近距离d，当子数据集中的样本数据与大误差数据集中的样本数据之间的欧式距离小于d时，该子数据集中的样本数据为对应的大误差数据集中样本数据的邻近样本数据。同时，d可以根据人工经验进行设置。

步骤303，根据大误差数据集中每个样本数据与邻近样本数据，获取新数据集。

在一种可能的实施方式中，通过在大误差数据集中的样本与对应的邻近样本之间插入一个样本，实现了扩充误差数据集的目的，并且新样本数据与大误差数据集中对应的样本数据具有相似的特征。最后，多个新样本数据构成新数据集。

可选的，获取新数据集时，上述步骤303的处理可以如下：

根据大误差数据集中每个样本数据与全部邻近样本数据，获取多个新样本数据，具体如下：

其中，X_new为新样本数据；X_i为大误差数据集中第i个样本数据；

将全部新样本数据组合为新数据集。

在一种可能的实施方式中，上述公式表示，大误差数据集中一个样本数据，与其在子数据集中对应的任意一个邻近样本数据之间插入的一个新样本数据，重复上述过程，依次获取大误差数据集中的每一个样本数据对应的多个新样本数据，最终，全部新样本数据构成新数据集。

步骤304，将原始数据集、大误差数据集以及新数据集合并，形成重构数据集。

在一种可能的实施方式中，综合原始数据集、大误差数据集以及新数据集，将这三个数据集合并为一个数据集，为重构数据集。由此将重构数据集作为训练集可以有效的平衡大误差数据集样本数据的作用，进而完成对污染物预报模型的更新。

上述发明实施例是通过SMOTE方法对原始数据集进行超采样，实现对大误差数据集的扩展，进而获得重构训练集，更好的实现对污染物预报模型的训练。根据图4所示的样本数据存储流程图，下面将对污染物预报浓度、污染物观测浓度和气象要素特征数据的存储进行介绍。

步骤401，对目标气象要素特征数据和目标污染物预报浓度建立对应关系并进行存储。

在一种可能的实施方式中，每一次在触发预报任务时，将预测到目标时刻的气象要素特征数据输入到污染物预报模型中，同时结合上一目标时刻的污染物观测浓度，获得目标污染物预报浓度，同时，建立目标气象要素特征数据与目标污染物预报浓度之间的关系，并存储。存储的位置可以为客户端或者服务器。

步骤402，当与目标污染物预报浓度对应的目标污染物观测浓度完成观测时，对目标污染物预报浓度和目标污染物观测浓度建立对应关系并进行存储。

在一种可能的实施方式中，当到达目标时刻时，通过观测站点采集获得目标污染物观测浓度，同时建立目标污染物观测浓度和目标污染物预报浓度的关系，并存储。同样的存储的位置可以为客户端或者服务器。

上述发明实施例是污染物预报浓度、污染物观测浓度和气象要素特征数据的存储，将上述数据通过分类打包的方式完成存储，成为数据库中的数据。当触发训练任务时，可以自动访问数据库，根据更新周期，和原始数据集的时间跨度最终获得预报数据集中的样本数据和原始数据集中的样本数据。

本发明实施例提供了一种污染物预报模型训练装置，该装置用于实现上述污染物预报模型训练方法。如图5所示的污染物预报模型训练装置的示意性框图，该装置包括：

第一获取模块501，用于当触发训练任务时，获取预报数据集和原始数据集；其中，预报数据集包括第一指定时期内的样本数据；原始数据集包括第二指定时期内的样本数据；第一指定时期是指触发训练任务的时刻之前的更新周期内的时段；该第二指定时期长于第一指定时期；样本数据至少包括污染物预报浓度、污染物观测浓度和气象要素特征数据；

第二获取模块502，用于在预报数据集中，获取每个污染物预报浓度和对应的污染物观测浓度之间的绝对误差；

筛选模块503，用于根据绝对误差，在预报数据集中筛选得到大误差数据集；

第三获取模块504，用于根据大误差数据集和原始数据集，获得重构数据集；

训练模块505，用于根据重构数据集对污染物预报模型进行训练，获得更新的污染物预报模型；

第四获取模块506，用于当触发预报任务时，将目标气象要素特征数据输入更新的污染物预报模型进行处理，获得目标污染物预报浓度。

可选的，筛选模块503用于：

获取百分位阈值和预报数据集包含的样本数量；

根据百分位阈值和样本数量，确定筛选标记；

可选的，第三获取模块504用于：

根据预定规则从原始数据集中获取子数据集；

在子数据集中，按照邻近算法获取大误差数据集中每个样本数据对应的邻近样本数据；

根据大误差数据集中每个样本数据与邻近样本数据，获取新数据集；

将原始数据集、大误差数据集以及新数据集合并，形成重构数据集。

可选的，第三获取模块504用于：

将全部新样本数据组合为新数据集。

可选的，第三获取模块504用于：

可选的，装置还包括：

第一存储模块，用于对目标气象要素特征数据和目标污染物预报浓度建立对应关系并进行存储；

第二存储模块，用于当与目标污染物预报浓度对应的目标污染物观测浓度完成观测时，对目标污染物预报浓度和目标污染物观测浓度建立对应关系并进行存储。

本发明实施例中，当触发训练任务时，获取预报数据集和原始数据集，然后根据预报数据集中对应的污染物预报浓度和污染物观测浓度获得多个绝对误差；利用阈值法，通过绝对误差在预报数据集中筛选出大误差数据集；利用SMOTE算法，通过大误差数据集在原始数据集中进行超采样，获得重构数据集，最后，将重构数据集作为训练集对污染物预报模型进行训练，进而有效地提高污染物预报模型的准确率与可靠性，并且实现污染物预报模型参数的在线更新。

本发明示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本发明实施例的方法。

本发明示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。

本发明示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。

参考图6，现将描述可以作为本发明的服务器或客户端的电子设备600的结构框图，其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如，在一些实施例中，污染物预报模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行污染物预报模型训练方法。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本发明使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种污染物预报模型训练方法，其特征在于，包括：

根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集，其中，通过设置界限，确定超过所述界限的绝对误差为大误差，根据所述大误差从所述预报数据集中取出与所述大误差相对应的样本数据，进而多个所述大误差对应的样本数据共同形成所述大误差数据集；

对所述大误差数据集进行扩充得到新数据集，并根据所述大误差数据集、所述新数据集和所述原始数据集，获得重构数据集；

2.根据权利要求1所述的污染物预报模型训练方法，其特征在于，所述根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集，包括：

获取百分位阈值和所述预报数据集包含的样本数量；

根据所述百分位阈值和所述样本数量，确定筛选标记；

3.根据权利要求1所述的污染物预报模型训练方法，其特征在于，所述对所述大误差数据集进行扩充得到新数据集，并根据所述大误差数据集、所述新数据集和所述原始数据集，获得重构数据集，包括：

根据所述大误差数据集和所述原始数据集，通过SMOTE算法进行对所述大误差数据集进行扩充，并获取重构数据集。

4.根据权利要求3所述的污染物预报模型训练方法，其特征在于，所述根据所述大误差数据集和所述原始数据集，通过SMOTE算法进行对所述大误差数据集进行扩充，并获取重构数据集，包括：

根据预定规则从所述原始数据集中获取子数据集；

5.根据权利要求4所述的污染物预报模型训练方法，其特征在于，所述根据所述大误差数据集中每个样本数据与所述邻近样本数据，获取新数据集包括：

将全部新样本数据组合为新数据集。

6.根据权利要求4所述的污染物预报模型训练方法，其特征在于，在所述子数据集中，按照邻近算法获取所述大误差数据集中每个样本数据对应的邻近样本数据，包括：

7.根据权利要求1-6中任一所述的污染物预报模型训练方法，其特征在于，所述方法还包括：

8.一种污染物预报模型训练装置，其特征在于，所述装置包括：

筛选模块，用于根据所述绝对误差，在所述预报数据集中筛选得到大误差数据集，其中，通过设置界限，确定超过所述界限的绝对误差为大误差，根据所述大误差从所述预报数据集中取出与所述大误差相对应的样本数据，进而多个所述大误差对应的样本数据共同形成所述大误差数据集；

第三获取模块，用于对所述大误差数据集进行扩充得到新数据集，并根据所述大误差数据集、所述新数据集和所述原始数据集，获得重构数据集；

9.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。