CN114997510A

CN114997510A - 一种基于Copula熵相关性分析的PM2.5预测方法和系统

Info

Publication number: CN114997510A
Application number: CN202210721287.1A
Authority: CN
Inventors: 吴晓璇; 朱俊; 邹庆尊
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-02
Anticipated expiration: 2042-06-17
Also published as: CN114997510B

Abstract

本申请涉及空气污染防治技术领域，具体涉及一种基于Copula熵相关性分析的PM2.5预测方法和系统，该方法包括获取大气污染物历史数据以及气象因素历史数据，基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素，基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素，基于AGA确定LSTM模型中的参数，基于所述LSTM模型对污染物预测，获得PM2.5预测结果。利用CE实现PM2.5与气象因素及大气污染物间的相关性分析，实现污染物预测。

Description

一种基于Copula熵相关性分析的PM2.5预测方法和系统

技术领域

本申请涉及空气污染防治技术领域，尤其涉及一种基于Copula熵相关性分析的PM2.5预测方法和系统。

背景技术

随着我国城市化进程的加深、生产力的提升、生产模式的转变，大气污染的类型在此过程中也产生了较大变化。除了悬浮颗粒物和SO₂等传统型污染物的污染情况依旧严峻，O₃、氮氧化物等污染物的危害性也逐渐体现出来，并且影响范围逐渐扩大。为了更好地进行大气污染的防治工作，有效采取防治措施，对城市大气污染物浓度的准确预测是十分必要的，对产业结构的科学决策及环境污染防治措施的制定都有积极的指导和参考意义。

但是，在实际生产生活和科研的过程中，经常会遇到多个因素同时对一个事物或现象产生影响的情况。由于多变量间一般都存在一定的相关性，或强或弱，使得信息在一定程度上产生重叠，阻碍对事物或现象的深入分析。相关性分析是对两种或两种以上的事物或现象是否具有相关性及其相关性的强弱进行分析的一种统计方法。

其中，相关性的度量在统计学科的早期被提出并研究，应用最广泛的度量是皮尔逊相关系数(Pearson Correlation Coefficient，PCC)。然而，PCC只限于线性高斯的情况，因而在充满非线性的复杂自然现象面前，往往力不从心，应用范围十分有限。如果不考虑前提条件地应用，得出的结论也是不可靠的。Copula熵(Copula Entropy，CE)是由马健等[2]人在2008年严格定义的一种用于度量统计独立性关系的数学概念。CE是一种理想的统计独立性度量，作为一个相关性分析工具，适合任何非线性、非高斯的相关性的分析，而且无需做任何假设，因此是一种进行因果发现的较好的方法。

鉴于影响大气污染物浓度变化的主要因素不仅包括各大气污染物之间由化学作用引发的相互转化，还包括不同的气象因素、地理特征对大气环境的影响。由于区域地理特征相对稳定，因此，需要重点考虑大气污染物间相关性、大气污染物与气象因素之间的相关性。大气污染物的产生和流动与当地的气候环境有着较大的关系。气象条件的不同对污染物的扩散和输送也有着较大的影响。

发明内容

为解决气象条件对污染物的扩散和输送的预测分析问题，本发明提供了一种基于Copula熵相关性分析的PM2.5预测方法和系统，通过对多个气象因素以及多种大气污染物的相关性分析，根据相关系数大小对影响因子的相关性进行排序，从而确定气象要素对污染物指数贡献率的大小，实现污染物预测。

为实现上述目的，本发明实施例提供了如下的技术方案：

第一方面，在本发明提供的一个实施例中，提供了一种基于Copula熵相关性分析的PM2.5预测方法，所述PM2.5预测方法包括以下步骤：

获取大气污染物历史数据以及气象因素历史数据；

基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素；

再次利用Copula熵相关性分析对所述主影响因子与PM2.5相关性进行相关系数归一化，作为每个主影响因子的权重，带入构建的AGA-LSTM预测模型；

基于AGA确定LSTM模型中的参数，基于所述LSTM模型对污染物预测，获得PM2.5预测结果。

作为本发明的进一步方案，所述大气污染物历史数据包括5种大气污染物，分别为PM10、NO₂、SO₂、O₃、CO；所述气象因素历史数据包括8种气象因素，分别为气温、体感温度、气压、湿度、降雨量、风向、风力、风速。

作为本发明的进一步方案，所述Copula熵(CE)基于Copula理论，所述Copula理论中多元概率密度函数表征边数与Copula密度函数的乘积，Copula密度函数表征随机变量之间的依赖结构，所述Copula熵为非参数方法用于从数据中估算CE或MI，所述非参数方法包括：估算经验Copula密度函数以及估算CE。

作为本发明的进一步方案，所述MI为互信息，用于反映不同变量间共有信息的大小，计算两个随机变量X与Y之间互信息的方法为：

根据公式计算随机变量X与Y之间互信息：

其中，x_i及y_i分别为随机变量X与Y的样本，N为样本容量。

作为本发明的进一步方案，估算经验Copula密度函数，包括：

给定随机变量X＝{x₁,…,x_N}^T生成的独立且同分布的数据样本{X₁,…,X_T}；

估算经验Copula密度函数为：

其中，χ表示当i＝1,…,N时的指标函数；假设u＝[F₁,…,F_N]推导出一个新的样本集{u₁,…,u_T}作为经验Copula密度函数的数据c(u)。

作为本发明的进一步方案，所述基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，包括：

将PM2.5分别与8种气象因素、5种大气污染物通过非参数估计CE方法对影响因子进行排序；

根据与PM2.5相关性分别取前4个影响因子作为主影响因子，获得8个影响因素。

作为本发明的进一步方案，所述构建的AGA-LSTM预测模型为将AGA与LSTM相融合构建AGA-LSTM预测模型，用于对PM2.5的预测，所述AGA-LSTM预测模型的构建方法，包括以下步骤：

步骤S101、对LSTM中的参数隐含层神经元数、训练次数、学习率进行二进制编码；

步骤S102、基于LSTM中的参数的二进制编码，产生初始种群N，其中，N为偶数；

步骤S103、建立LSTM模型，对训练集、测试集的数据进行训练和预测，将预测的均方差误差作为AGA适应度值f_i；

步骤S104、按轮盘赌规则选择N个个体，计算f_avg和f_max；

步骤S105、将群体中的各个体随机搭配成对，共组成N/2对，每一对个体按照自适应公式计算自适应交叉概率

随机产生R(0,1)，若R＜P_c，则对该对染色体进行交叉操作；

步骤S106、对于群体中的所有个体N，按照自适应变异公式计算自适应变异概率

若R＜P_m，则对该染色体进行交叉操作；

步骤S107、计算由交叉和变异生成新个体的适应度，新个体与父代一起构成新群体；

步骤S108、判断是否满足终止条件，若满足，则终止返回最优参数，否则执行步骤S104；

步骤S109、利用AGA获得的最优参数构建LSTM网络模型；训练模型，实现预测结果输出。

作为本发明的进一步方案，基于AGA确定LSTM模型中的参数，包括通过AGA确定LSTM模型中隐含层神经元数、训练次数、学习率三个参数。

作为本发明的进一步方案，建立LSTM模型时，LSTM模型预测的均方误差作为AGA适应度值，基于AGA适应度值调整所述LSTM模型的参数。

第二方面，在本发明提供的另一个实施例中，提供了一种基于Copula熵相关性分析的PM2.5预测系统，所述基于Copula熵相关性分析的PM2.5预测系统用于执行上述基于Copula熵相关性分析的PM2.5预测方法；所述基于Copula熵相关性分析的PM2.5预测系统包括：

数据获取模块，用于获取大气污染物历史数据以及气象因素历史数据；

相关性分析模块，用于基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素；

权重生成模块，用于再次利用Copula熵相关性分析对所述主影响因子与PM2.5相关性进行相关系数归一化，作为每个主影响因子的权重，带入构建的AGA-LSTM预测模型；

结果预测模块，用于基于AGA确定LSTM模型中的参数，基于所述LSTM模型对污染物预测，获得PM2.5预测结果。

此外，为实现上述目的，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于Copula熵相关性分析的PM2.5预测程序，其中所述基于Copula熵相关性分析的PM2.5预测程序被所述处理器执行时，实现如上述的基于Copula熵相关性分析的PM2.5预测方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于Copula熵相关性分析的PM2.5预测程序，其中所述基于Copula熵相关性分析的PM2.5预测程序被处理器执行时，实现如上述的基于Copula熵相关性分析的PM2.5预测方法的步骤。

本发明提供的技术方案，具有如下有益效果：

本申请提供一种基于Copula熵相关性分析的PM2.5预测方法和系统，对多种气象因素及多种大气污染物利用CE分别进行相关性分析，根据相关系数大小对影响因子的相关性进行排序，从而确定气象要素对污染物指数贡献率的大小。分别取与PM2.5相关性较大的前N个作为主影响因子；此时，再次利用CE分析多个主影响因子与PM2.5的相关性，对相关系数进行归一化，作为每个主影响因子的权重，带入预测模型，实现污染物预测。本申请利用CE实现PM2.5与气象因素及大气污染物间的相关性分析。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。在附图中：

图1为本申请基于Copula熵相关性分析的PM2.5预测方法的流程图；

图2为本申请基于Copula熵相关性分析的PM2.5预测方法中构建AGA-LSTM预测模型的流程图；

图3为本申请基于Copula熵相关性分析的PM2.5预测方法中各气象因素与PM2.5的CE示意图；

图4为本申请基于Copula熵相关性分析的PM2.5预测方法中各污染物因素与PM2.5的CE示意图；

图5为本申请基于Copula熵相关性分析的PM2.5预测方法中各特征在不同时间的PM2.5浓度的时序特征图；

图6为本申请基于Copula熵相关性分析的PM2.5预测方法中流程图；

图7为本申请基于Copula熵相关性分析的PM2.5预测系统的系统框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请的实施例提供了一种基于Copula熵相关性分析的PM2.5预测方法和系统，利用CE实现PM2.5与气象因素及大气污染物间的相关性分析。

在一些实施方式中，基于Copula熵相关性分析的PM2.5预测方法可以应用在计算机设备，该计算机设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备，当然也不限于此。

请参照图1，图1为本申请基于Copula熵相关性分析的PM2.5预测方法的流程示意图。本申请的实施例中，所述基于Copula熵相关性分析的PM2.5预测方法，该方法包括以下步骤S10-步骤S30：

步骤S10，获取大气污染物历史数据以及气象因素历史数据。

在一些实施例中，所述大气污染物历史数据包括5种大气污染物，分别为PM10、NO₂、SO₂、O₃、CO；所述气象因素历史数据包括8种气象因素，分别为气温、体感温度、气压、湿度、降雨量、风向、风力、风速。

步骤S20，基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素。

步骤S30，再次利用Copula熵相关性分析对所述主影响因子与PM2.5相关性进行相关系数归一化，作为每个主影响因子的权重，带入构建的AGA-LSTM预测模型。

步骤S40，基于AGA确定LSTM模型中的参数，基于所述LSTM模型对污染物预测，获得PM2.5预测结果。

本申请的实施例提供的一种基于Copula熵相关性分析的PM2.5预测方法，鉴于影响大气污染物浓度变化的主要因素不仅包括各大气污染物之间由化学作用引发的相互转化，还包括不同的气象因素、地理特征对大气环境的影响。由于区域地理特征相对稳定。本申请重点考虑大气污染物间相关性、大气污染物与气象因素之间的相关性。大气污染物的产生和流动与当地的气候环境有着较大的关系。气象条件的不同对污染物的扩散和输送也有着较大的影响。

在进行大气污染物的产生和流动与当地的气候环境的关系验证时，由于对驻马店市的大气污染物与气象条件的相关性进行了讨论，发现不同季节、不同气象条件均对大气污染浓度存在一定影响，其中大气污染物和气温和降水呈负相关关系，与风速呈现正相关关系。

由于影响PM2.5的污染物因子之间具有相互作用，体现出强烈的非线性特征，故采用传统的适合于线性相关的分析方法，会影响预测的准确度。因此，本申请利用CE实现PM2.5与气象因素及大气污染物间的相关性分析。

基于上述图1所示实施例，本申请的一些实施例中，所述Copula熵(CE)基于Copula理论，所述Copula理论中多元概率密度函数表征边数与Copula密度函数的乘积，Copula密度函数表征随机变量之间的依赖结构，所述Copula熵为非参数方法用于从数据中估算CE或MI。所述非参数方法包括：估算经验Copula密度函数以及估算CE。

在本申请的实施例中，互信息(MI)作为描述不同变量间相互联系的互信息指标源于信息理论学，其反映了不同变量间共有信息的大小，即互信息越大，两者相关性越强，反之则越弱。

其中，所述MI为互信息，用于反映不同变量间共有信息的大小，计算两个随机变量X与Y之间互信息的方法为：

根据公式(1)计算随机变量X与Y之间互信息：

其中，x_i及y_i分别为随机变量X与Y的样本，N为样本容量。

由式(1)不难发现，当X与Y互不相关时，MI值接近于0，而当X与Y呈现函数关系时，MI值将接近于正无穷。与其他相似性指标相比，互信息指标不仅可以反映变量间的非线性相关性，且随机变量的任意可逆变换不改变互信息的大小。

在本申请的实施例中，由于互信息指标具有较强的信息挖掘能力，但实际研究中不同随机变量间的联合分布往往是偏态且非均质性的，因此难以找到合适的分布类型对其进行拟合。

为解决该问题，本申请引入Copula理论。Copula理论是用Copula函数表示多元依赖关系。其中，Copula熵(CE)基于Copula理论，Copula理论的核心是Sklar定理。所述Sklar定理指出，多元概率密度函数可以表示为其边数与Copula密度函数的乘积，而Copula密度函数表示随机变量之间的依赖结构。这种表示法将依赖结构即Copula函数分离出来，具有个体变量边缘的性质，使得无论联合分布还是边际分布，都可以只处理依赖结构。

在本申请的实施例中，定义Copula熵：设X为边缘分布u和关联密度c(u)的随机变量，X的CE定义为：

H_c(X)＝-∫_uc(u)logc(u)du

在信息论中，互信息和熵是两个不同的概念。但Ma和Sun证明了它们本质上是相同的，MI也是一种熵，关系如下：

随机变量的MI等价于负CE，即：

I(X)＝-H_c(X)

本申请提出了一种简单的非参数方法，用于从数据中估算CE或MI，该方法只包含两个步骤：

步骤11、估算经验Copula密度函数(ECD)；

步骤12、估算CE。

对于步骤11，给定随机变量X＝{x₁,…,x_N}^T生成的独立且同分布的数据样本{X₁,…,X_T}，可以较容易的估算ECD如下：

其中，χ表示当i＝1,…,N时的指标函数，假设u＝[F₁,…,F_N]可以推导出一个新的样本集{u₁,…,u_T}作为ECD数据c(u)。

在本申请的实施例中，一旦ECD被估算，步骤12、本质上是一个熵估计问题，许多现有的方法都可以解决此问题，采用KNN方法。因此，利用秩统计和KNN方法，可以推导出一种非参数估计CE的方法，该方法可以应用于任何情况，无需对底层系统进行假设。本申请基于Copula理论，利用KNN方法通过非参数估计CE两步骤方法对影响因子进行排序。

在本申请的一些实施例中，所述基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，包括：

在本申请的一些实施例中，所述构建的AGA-LSTM预测模型为将AGA与LSTM相融合构建AGA-LSTM预测模型，用于对PM2.5的预测。

其中，LSTM通过“门结构”精妙的控制着短期记忆与长期记忆的结合，并且在一定程度上解决了梯度消失的问题，与循环神经网络相比，对时间序列数据的分析有较好的结果。然而，在构建LSTM模型过程中，需要先假定一些模型参数，如隐含层神经元数、训练次数、学习率等，这些参数的选取也会影响到模型的预测准确率。本申请采用启发式搜索算法-遗传算法，通过算法寻优求全局最优解的方式确定模型参数，提高模型预测准确率。

遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法，非常适用于处理传统搜索方法难以解决的复杂和非线性优化问题。遗传算法的交叉概率和变异概率是影响遗传算法行为和性能的关键参数，直接影响算法的收敛性。自适应遗传算法(Adaptive genetic algorithms，AGA)使交叉概率和变异概率可以随适应度自动改变。本申请将AGA与LSTM相融合，构建AGA-LSTM预测模型实现对PM2.5的预测。

参见图2和图6所示，所述AGA-LSTM预测模型的构建方法，包括以下步骤：

步骤S104、按轮盘赌规则选择N个个体，计算f_avg和f_max；

随机产生R(0,1)，若R＜P_c，则对该对染色体进行交叉操作；

若R＜P_m，则对该染色体进行交叉操作；

其中，基于AGA确定LSTM模型中的参数，包括通过AGA确定LSTM模型中隐含层神经元数、训练次数、学习率三个参数。

在本申请的实施例中，建立LSTM模型时，LSTM模型预测的均方误差作为AGA适应度值，基于AGA适应度值调整所述LSTM模型的参数。

基于Copula熵相关性分析的PM2.5预测方法进行PM2.5与气象因素及大气污染物间的相关性分析时，在实验分析与结果验证阶段，本申请实验数据取自南京云创大数据科技有限公司的环境云2016年1月1日-2016年12月31日的北京每小时气象数据(天气状况、气温、体感温度、气压、湿度、降雨量、风向、风力、风速)及每小时的空气质量监测数据(PM2.5、PM10、NO₂、SO₂、O₃、CO)。

其中，空气质量监测数据是指12个监测点每小时的监测数据，为了让气象数据与空气质量监测数据保持一致，统一取某一个监测点的数据，因此各有8760条数据记录，但是由于一些不可控因素，使得存在缺失数据，对这部分数据全部删除，最后使用的数据记录是6430条。对天气状况、风向、风力的中文描述进行编码，如表1-表3所示。

表1天气状况编码

表2风向编码

表3风力编码

在实验结果分析阶段，进行影响因子选择实验时，本申请实验的硬件环境为Intel(R)Core(TM)i7-8565U CPU 1.80GHz，内存8GB，操作系统为Windows 10，本实验的编程工具使用Python3.7.8。

为了分析PM2.5与气象因素、其他大气污染物之间的相关性，进一步选择影响因子，本实验将PM2.5分别与8种气象因素(气温、体感温度、气压、湿度、降雨量、风向、风力、风速)、5种大气污染物(PM10、NO₂、SO₂、O₃、CO)通过非参数估计CE方法对影响因子进行排序，分别取与PM2.5相关性较大的前4个作为主影响因子，从而获得8个影响因素；再次利用本申请方法分析8个主影响因子与PM2.5的相关性，对估算CE值进行归一化，作为每个主影响因子的权重，带入预测模型，实现污染物预测。实验结果如图3和图4所示。其中图3横坐标1-8分别表示气温(TMP)、体感温度(FEELST)、气压(PRES)相对湿度(HUM)、降水量(RAIN)、风向(WDIR)、风力(WSC)和风速(WSPD)。图4横坐标1-5分别表示PM10、NO₂、SO₂、O₃、CO。

由图3可以推出，根据计算各气象因素与PM2.5的CE结果，相关性较强的前4个影响因子分别是PRES、TMP、HUM和WDIR。同样地，根据图4计算各污染物因素与PM2.5的CE结果，相关性较强的前4个影响因子分别是PM10、NO₂、SO₂和O₃。同时发现，PM10、NO₂、SO₂和O₃与PM2.5的相关性强于各气象影响因子。

因此，选择与PM2.5相关性较强的8个影响因子PM10、NO₂、SO₂、O₃、PRES、TMP、HUM、WDIR；通过计算8个影响因子与PM2.5浓度的CE结果，计算各影响因子权重ω_i。将8个影响因子属性数据x_i结合权重ω_i，输入模型进行预测。

在影响因子选择实验的基础上，利用CE方法选取了8个影响因子，形成的新数据集共有10维，分别是时间、PM10、NO₂、SO₂、O₃、PRES、TMP、HUM、WDIR、PM2.5，因此数据集共包含64300个数据记录。通过绘制各特征在不同时间的时序特征图，进一步分析各特征在不同时间的变化规律，如图5所示。由图5可以看出，数据集的每个特征都具有一定的周期性。

本申请的实验中，利用公式(1)对输入数据进行归一化处理，把数值映射为(0，1)之间的小数，最后把数据集处理为监督学习需要的数据格式输入预测模型。

每条监督学习数据格式为：(x₁ω₁,x₂ω₂,x₃ω₃,…,x₁₀)，其中前9维为输入的t-1时刻的训练数据，最后1维为标签，即t时刻的PM2.5浓度，每个输入序列的长度为24。为预测第二天的PM2.5浓度，以前7天数据作为模型输入数据进行预测，以7天后第一天的PM2.5浓度数据作为模型的预测结果输出。因此预测模型输入数据是7*24*10，输出数据是24*1。将数据按80％作为训练集、20％作为测试集分为两部分进行实验。通过AGA确定LSTM模型中隐含层神经元数、训练次数、学习率三个参数，预测模型相关参数设置如表4所示。

表4预测模型相关参数设置

为验证本申请提出方法的可行性与准确性，实验分别设计四种方法的预测模型进行对比试验，分别是全部属性直接输入LSTM预测模型(LSTM)、基于CE的LSTM预测模型(CE+LSTM)、本申请提出方法(CE+AGA-LSTM)和基于CE的RNN预测模型(CE+RNN)。

结果分析：

为评估预测模型的性能，随机选取5个样本(5个7天的时间序列数据)作为输入数据分别预测PM2.5浓度，通过平均绝对误差(MAE)和均方根误差(RMSE)两个指标进行衡量。两个指标可以由公式(2)和(3)获得。实验对比结果如表5和表6所示。

其中，

和yi分别表示PM2.5浓度的预测值和真实值。

表5 5次实验MAE的平均值

表6 5次实验RMSEE的平均值

表5显示了四个模型在5个样本集的MAE平均值。每列值表示该模型在1-5个样本集的PM2.5浓度的MAE，结果表明本申请提出方法(CE+AGA-LSTM)的MAE最小，同时发现全部属性直接输入LSTM预测模型(LSTM)与基于CE的LSTM预测模型(CE+LSTM)的MAE结果相当，而基于CE的RNN预测模型(CE+RNN)的MAE值最大。

因此，本申请的基于Copula熵相关性分析的PM2.5预测方法，输入数据包括历史大气污染物数据、历史气象数据及未来7天气象数据。

通过CE对8种气象因素及5种大气污染物与PM2.5之间的相关性分析结果，可以得到2017年1月至2018年6月一年半时间大气污染物的的特征分析。

此外，本申请实施例还提供了一种基于Copula熵相关性分析的PM2.5预测系统。

参照图7，图7为本申请基于Copula熵相关性分析的PM2.5预测系统的系统框图。本申请的实施例中，所述基于Copula熵相关性分析的PM2.5预测系统，包括：

数据获取模块10，用于获取大气污染物历史数据以及气象因素历史数据；

相关性分析模块20，用于基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，获得排序后与PM2.5相关性较大的主影响因子的影响因素；

权重生成模块30，用于再次利用Copula熵相关性分析对所述主影响因子与PM2.5相关性进行相关系数归一化，作为每个主影响因子的权重，带入构建的AGA-LSTM预测模型；

结果预测模块40，用于基于AGA确定LSTM模型中的参数，基于所述LSTM模型对污染物预测，获得PM2.5预测结果。

其中，上述基于Copula熵相关性分析的PM2.5预测系统中各个模块与上述基于Copula熵相关性分析的PM2.5预测方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本申请的基于Copula熵相关性分析的PM2.5预测方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在计算机设备上运行。

计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于Copula熵相关性分析的PM2.5预测方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，所述处理器用于运行存储在存储器中的计算机程序，以实现本申请基于Copula熵相关性分析的PM2.5预测方法的各个实施例，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质。

本申请计算机可读存储介质上存储有基于Copula熵相关性分析的PM2.5预测程序，其中所述基于Copula熵相关性分析的PM2.5预测程序被处理器执行时，实现如上述的基于Copula熵相关性分析的PM2.5预测方法的步骤。

其中，基于Copula熵相关性分析的PM2.5预测程序被执行时所实现的方法可参照本申请基于Copula熵相关性分析的PM2.5预测方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述PM2.5预测方法包括以下步骤：

获取大气污染物历史数据以及气象因素历史数据；

2.根据权利要求1所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述大气污染物历史数据包括5种大气污染物，分别为PM10、NO₂、SO₂、O₃、CO；所述气象因素历史数据包括8种气象因素，分别为气温、体感温度、气压、湿度、降雨量、风向、风力、风速。

3.根据权利要求2所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述Copula熵基于Copula理论，所述Copula理论中多元概率密度函数表征边数与Copula密度函数的乘积，Copula密度函数表征随机变量之间的依赖结构，所述Copula熵为非参数方法用于从数据中估算CE或MI，所述非参数方法包括：估算经验Copula密度函数以及估算Copula熵。

4.根据权利要求3所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述MI为互信息，用于反映不同变量间共有信息的大小，计算两个随机变量X与Y之间互信息的方法为：

根据公式计算随机变量X与Y之间互信息：

其中，x_i及y_i分别为随机变量X与Y的样本，N为样本容量。

5.根据权利要求3所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，估算经验Copula密度函数，包括：

估算经验Copula密度函数为：

6.根据权利要求5所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述基于Copula熵相关性分析，对所述大气污染物历史数据以及气象因素历史数据中的影响因子进行排序，包括：

7.根据权利要求1所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，所述构建的AGA-LSTM预测模型为将AGA与LSTM相融合构建AGA-LSTM预测模型，用于对PM2.5的预测，所述AGA-LSTM预测模型的构建方法，包括以下步骤：

步骤S104、按轮盘赌规则选择N个个体，计算f_avg和f_max；

随机产生R(0,1)，若R＜P_c，则对该对染色体进行交叉操作；

若R＜P_m，则对该染色体进行交叉操作；

8.根据权利要求7所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，基于AGA确定LSTM模型中的参数，包括通过AGA确定LSTM模型中隐含层神经元数、训练次数、学习率三个参数。

9.根据权利要求7所述的基于Copula熵相关性分析的PM2.5预测方法，其特征在于，建立LSTM模型时，LSTM模型预测的均方误差作为AGA适应度值，基于AGA适应度值调整所述LSTM模型的参数。

10.一种基于Copula熵相关性分析的PM2.5预测系统，其特征在于，包括：