CN114841461A

CN114841461A - 基于时序缺失感知和多源因素融合的空气质量集成预测方法

Info

Publication number: CN114841461A
Application number: CN202210563194.0A
Authority: CN
Inventors: 刘歆; 马艺超; 钱鹰; 朱红军; 杜红力; 温道洲
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-02
Anticipated expiration: 2042-05-19
Also published as: CN114841461B

Abstract

本发明涉及一种基于时序缺失感知和多源因素融合的空气质量集成预测方法，属于空气质量预测技术领域，包括S1：对影响空气质量的气象因素、社会经济因素和AQI进行采集、预处理，建立时序和具有多源因素的数据集；S2：构建AD_LSTM模型，通过子空间分解和时间衰减函数构建数据缺失感知单元，解决历史空气质量指数AQI时序数据中的数据缺失问题，建立AQI随时间变化的波动趋势；S3：构建BPNN模型，建立气象因素/社会经济因素与AQI的映射关系；S4：利用协同注意力集成AD_LSTM模型和BPNN模型并训练；S5：利用训练好的集成模型，采用历史空气质量的变化趋势、气象因素、社会经济因素对空气质量进行综合研判。

Description

基于时序缺失感知和多源因素融合的空气质量集成预测方法

技术领域

本发明属于空气质量预测技术领域，涉及一种基于时序缺失感知和多源因素融合的空气质量集成预测方法。

背景技术

在空气质量预测问题上，近些年出现了非常多的研究者。因为空气质量的好坏与诸多因素有关，如气象因素、社会经济因素和时间因素等，如何结合这些因素对空气质量进行预测是研究者们关注的重点问题。

研究者们对空气质量预测所使用的方法分为三种，分别为：确定性方法、机器学习方法和深度学习方法。确定性方法通过相关影响因素建立数值函数，这类方法通常适用于简单场景建模，当问题场景变得复杂起来就很难有很好的效果；机器学习方法如回归树、线性回归等，通过简单的参数更新来学习数据之间的关联性，但是这类方法很难在时间和准确性上做出平衡。

深度学习方法在近几年被应用最多，其中有人工神经网络、循环神经网络、卷积神经网络等方法。循环神经网络被用来学习历史空气质量数据中的时间相关性，人工神经网络和卷积神经网络通常被用来去提取气象等影响因素。由于空气质量所关联的因素有很多，集成多个模型去学习其中复杂的关联关系已然成为研究热点。但是由于监测器和人为收集原因，历史空气质量数据具有相当一部分的缺失数据，现有研究只是应用了简单插值方法，并没有过多提取缺失数据的信息。并且集成多个模型的方式也没有充分挖掘出多个模型在预测时所表现的作用。

发明内容

有鉴于此，本发明的目的在于提供一种时序缺失感知和多源因素融合的空气质量集成预测方法，提高模型对多源数据的表征能力，使得模型对空气质量有一个更好的预测效果。

为达到上述目的，本发明提供如下技术方案：

一种基于时序缺失感知和多源因素融合的空气质量集成预测方法，包括以下步骤：

S1：对影响空气质量的气象因素、社会经济因素和历史空气质量指数AQI进行数据采集和分析，并进行数据预处理，建立时序和具有多源因素的数据集；

S2：构建基于时间衰减函数改进的长短记忆模型(简称AD_LSTM模型)，通过子空间分解和时间衰减函数构建数据缺失感知单元，解决历史空气质量指数AQI时序数据中的数据缺失问题，建立AQI随时间变化的波动趋势；

S3：构建BP神经网络模型BPNN，建立气象因素和社会经济因素与AQI之间的映射关系；

S4：利用协同注意力集成AD_LSTM模型和BPNN模型，并进行集成模型的训练；

S5：利用训练好的集成模型，采用历史空气质量的变化趋势，以及气象因素和社会经济因素，对空气质量进行综合研判。

进一步，所述步骤S1具体包括以下步骤：

S11：对气象因素、社会经济因素和历史空气质量指数AQI进行数据采集，对采集到的数据进行数据预处理，其中包括缺失值处理和离群值处理，再采用最大最小归一化处理，所述最大最小归一化公式为：

其中X_target为最大最小规范后的数据，x式原始数据，x_min和x_max分别为原始数据中的最小值和最大值数据。

S12：然后对历史空气质量指数根据时间和所采集区域生成具有n个时刻m个采集区域的对应时序数据Y^T，气象因素和社会经济因素作为多源因素数据X^C，其中包括n个时刻m个采集区域的气象因素和社会经济因素数据，影响因素有k个；

S13：在S11和S12步骤数据采集和预处理后，建立时序和多源因素空气质量数据集以进行预测建模和训练。

进一步，步骤S12所述对数据进行缺失值处理，具体包括对具有缺失值的特征进行均值填充；

所述离群值处理具体包括：采用箱型图的方式对数据进行可视化统计，剔除其中明显偏离大部分数据的异常值。

进一步，所述步骤S2具体包括以下步骤：

S21：根据不同监测区域的历史空气质量指数AQI数据，按照监测时间排序生成对应区域的时间序列Y^T，对AQI随时间的趋势变化规律进行分析，针对AQI时序中的缺失问题，结合LSTM模型的时序预测方法，构造基于时间衰减函数改进的长短记忆模型；

Y^T＝[y₁,y₂,...,y_n-1]

其中y_n-1代表第n-1时刻各个区域的空气质量指数，y_n-1表示为：

其中

代表第m个区域n-1时刻的空气质量指数；

LSTM模型通过输入门、遗忘门和输出门有选择性的让信息通过，将之前时刻的信息有选择的保存在当前时刻的细胞态中C_t，具体的表示公式如下所示：

C_t＝f_t*C_t-1+i_t*C

h_t＝o_t*tanh(C_t)

其中f_t表示遗忘门，负责对之前的信息进行部分舍弃，C_t-1表示上个时刻的长期记忆，输入门i_t表示当前时刻的输入数据信息，C表示模型学习到时序数据待存入记忆状态的新信息，经过上述式子计算得到的C_t为当前时刻所保存的长期记忆；输出门o_t负责控制当前时刻输出信息，tanh为激活函数，经过输出门和当前时刻记忆状态计算出当前时刻的隐藏状态h_t。

S22：AD_LSTM包含LSTM的输入门、遗忘门和输出门，在输入门、遗忘门和输出门之前加入子空间分解来对LSTM模型上一层传递过来的记忆状态进行矩阵分解，得到修正后记忆状态矩阵

C_t-1 ^S＝tanh(W_dC_t-1+b_d)

其中，W_d,b_d是可学习参数，C_t-1为循环神经网络上一层的记忆状态；

S23：在子空间分解之后加入以中间缺失时刻为权重的时间衰减函数，作用于经过矩阵分解学习后的记忆状态矩阵，具体公式如下：

其中τ为可学习参数，Δt为中间缺失数据的时间，exp(.)为时间衰减函数，具体公式如下：

exp(x)＝e^x

其中e为自然对数，x为函数的输入变量。

最后的记忆状态C_t和隐藏状态h_t的计算公式如下：

h_t＝o_t*tanh(C_t)

其中f_t为遗忘门的输出，i_t为输入门的输出，W_c、U_c和b_c为可学习参数，h_t-1表示t-1时刻的隐藏状态，o_t为输出门的输出；

S24：通过设置输入层可学习参数、隐藏层神经元数量和层数以及输出层的可学习参数构建AD_LSTM模型，将Y^T作为AD_LSTM模型的输入，模型输出为输入数据中每个时刻的下一个时刻的预测值，为Y^T+1，计算公式如下：

Y^T+1＝AD_LSTM((C₀,h₀),Y^T)

Y^T+1＝[y′₂,y′₃,...,y′_n]

其中，y′_n是n时刻各个区域的AQI的预测值，(C₀,h₀)为初始的记忆状态和隐藏状态，

代表第m个区域n时刻的AQI预测值。

进一步，所述S3具体步骤如下：

S31：构建BP网络模型BPNN，将气象因素和社会经济因素中的时间刻度进行统一，然后进行数据对齐融合，将融合后的数据作为BPNN模型的输入数据X^C，表示形式如下所示：

X^C＝[x₂,x₃,...,x_n]

其中x_n+1表示第n+1个时刻的气象和社会经济因素数据，x_n+1表示为

其中

表示在m个区域中，第n个时刻k个因素的监测数值；

模型的学习标签Y^label，表示形式如下所示：

其中

表示第n个时刻各个区域的空气质量指数集合，

表示为：

其中

表示第m个区域第n个时刻的空气质量指数；

S32：所述BP网络全部为全连接网络，输入层设为一层，全部隐藏层均使用全连接结构，设置隐藏层和神经元的范围，激活函数采用Relu，构建出神经网络结构；

S33：输入数据X^C从输入层输入，经过隐藏层和激活函数的变换，最终通过全连接层得到基于气象因素和社会经济因素的特征表示Y^C，表示形式如下：

Y^C＝[y″₂,y″₃,...,y″_n]

其中y″_n表示第n个时刻各区域由相关因素得到的空气质量指数，而y″_n表示为：

其中

表示第n个时刻第m个区域由相关因素得到的空气质量指数预测值。

进一步，所述气象因素数据有相应的监测时间，所述社会经济因素数据也具有相关时间点，在气象因素数据的基础上，通过时间维度找到对应时间节点的社会经济因素数据，将两类数据进行融合。

进一步，所述S4具体包括以下步骤：

S41：由AQI历史数据构建的多区域时序序列Y^T经AD_LSTM模型输出为Y^T+1，气象因素和社会经济因素数据X^C经BPNN模型最终输出为Y^C；

S42：使用协同注意力机制进行模型集成；

协同注意力是一种双向注意力机制，首次提出是被用来解决文本和图片的对应问题，文本和图片两种数据的存在形式是不一样的，这种数据也叫不同模态的数据，协同注意力就是解决这类多模态数据的融合。它存在两种形式，分别为平行协同注意力机制和交替协同注意力机制。平行协同注意力机制是将不同模态的数据结合起来得到结合后的信息，再基于结合后的信息分别产生各自模态数据的注意力权重；交替协同注意力机制是先基于一个模态的数据生成其他模态的注意力权重，再根据其他模态的数据和新产生的注意力权重，生成对应的注意力权重，当有多个模态数据时，每个模态数据交替产生各自对应注意力权重，可以有效地将这些不同模态的数据所存在的潜在信息融合在一起。

将两个模型的输出按照线性拼接得到条件关联矩阵

具体计算公式如下所示：

其中

代表矩阵的加法；

在条件性关联矩阵的基础上加上联合关联矩阵模块

具体计算规则如下所示：

式中，

表示矩阵的乘法，I_m×m表示行和列都为m的单为矩阵，此单位矩阵的形状由实际输入数据中的社区数目决定，I_n×n表示行和列都为n的单为矩阵，此单位矩阵的形状由实际输入数据的预测时刻的数目决定；

然后使用softmax函数来归一化基于两个子模型之间关联计算得到的条件性关联矩阵和联合关联矩阵，最终得到两个子模型对应的注意力权重如下所示：

然得到的权重与各个模型的最终输出进行结合，得到联合后的表达式如公式如下所示：

式中，P^t,P^c表示各个模型最终乘以各自的注意力权重得到的最终联合表征表示；

最后再计算出各个模型的最终表征

最终基于注意力机制的集成方法计算公式如下所示：

式中，W_t，W_c表示集成的各个模型的可学习权重，其中

可表示为：

其中

表示由集成模型输出的n时刻的预测值。

S43：设置AD_LSTM模型包含一个隐藏层和全连接层，其中全连接层的隐藏单元数为最终所需输出的维度，全连接层激活函数采用Relu激活函数；BP神经网络层数和隐藏单元都预设为2，4，6，...，max，max为预设的一个最大值；优化器选择adam；

S44：将两个模型输出结果通过协同注意力机制联合一起得到新的输出结果，最终通过全连接层映射输出预测结果；在集成模型的反向传播中，训练采用的损失函数为MSE，总误差表示为：

W_t，W_c进行参数更新的公式为：

W_t＝W_t-∝(Y^T+1(softmax(Y^T+1+Y^c)+softmax(Y^T+1Y^c)))

W_c＝W_c-∝(Y^T+1(softmax(Y^T+1+Y^c)+softmax(Y^cY^T+1)))

其中，∝为学习率；从以上两个参数的更新可以看出，每个子模型的权重更新都与两个模型的输出有关，所以最终训练的集成模型可以综合两个子模型输出的误差进行学习。

S45：通过参数的不断调整，最终选取效果最优的网络结构。

进一步，所述S5具体包括以下步骤：

S51：根据S1得到n+1时刻m个区域的气象因素和社会经济因素数据x_n+1；

S52：将前n个时刻的m个区域的空气质量时序序列[y₁，y₂，...，y_n-1，y_n]作为时序模型AD_LSTM的输入，得到y′_n+1，将x_n+1作为BPNN模型的输入，得到y″_n+1；

S53：对y′_n+1和y″_n+1进行集成计算，得到n+1时刻的预测值

另一方面，本发明提供一种处理装置，包括处理器和存储装置，所述处理器，适用于执行各条程序，所述存储装置，适用于存储多条程序，所述程序适用于由处理器加载并执行以实现如上任一所述的方法。

本发明的有益效果在于：本发明使用历史空气质量数据构建对应时间序列，针对序列中的时序缺失问题，结合LSTM模型对时序数据进行预测，提出了AD_LSTM模型来学习历史空气质量随时间的变化趋势，提高了历史空气质量指数的准确性。本发明构建BPNN网络模型学习多源因素与空气质量指数的映射关系，并提出利用协同注意力机制集成AD_LSTM和BPNN，最终的集成模型采用历史空气质量的变化趋势，以及气象因素和社会经济因素，对空气质量进行综合研判。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于时序缺失感知和多源因素融合的空气质量集成预测方法流程示意图；

图2为本发明的所述集成模型总体结构示意图；

图3为本发明所述AD_LSTM模型的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种时序缺失感知和多源因素融合的空气质量集成预测方法。如图1所示包括以下步骤：

步骤S1：对影响空气质量的气象因素和、社会经济因素和历史空气质量指数AQI进行数据采集和分析，并进行数据预处理，建立具有多源因素的数据集。具体包括：

例如，气象因素包括每日平均气温和每日平均风速等；社会经济因素包括GDP、第二产业占比、绿地覆盖率、综合能源消费量、工业粉尘排放量、总人口、汽车保有量等。

数据预处理主要包括缺失值处理、离群值处理和数据规约。缺失值处理对于气息和社会经济因素具有缺失的特征采用均值填充的方法进行填充。例如，对于工业粉尘排放量属性，具有百分之2的缺失数据，对该特征所有数据进行求和取平均得到均值24，然后将该特征所有缺失的部分数据替换为24。对于历史空气质量数据采用近邻方式填充，如{49，51，null,54,48}代表五天的历史空气质量数据，null代表缺失值，采用近邻方式填充根据前一天数据进行填充，null就被替换成51。

离群值处理，采用箱型图对数据分布进行分析，箱型图通过显示一组数据的最大值、最小值、中位数及上下四分位数来对数据进行可视化，通过箱型图，可以更快速且直观的找到数据中明显的离群值，然后对这些离群值进行删除。

步骤S2：构建AD_LSTM模型，通过加入子空间分解和时间衰减函数构建数据缺失感知单元，解决历史空气质量指数AQI时序数据中的数据缺失问题，用于建立AQI随时间变化的波动趋势；

具体为：根据不同监测区域的历史空气质量指数AQI数据，按照监测时间排序生成对应区域的时间序列X^T，对AQI随时间的趋势变化规律进行分析，针对AQI时序中的缺失问题，结合LSTM模型的时序预测方法，构造基于时间衰减函数的AD_LSTM模型；

Y^T＝[y₁,y₂,...,y_n-1]

其中

代表第m个区域n-1时刻的空气质量指数；

在构建AD_LSTM模型所需要的时序序列时，因为检测器和人为收集的原因，导致在按照区域信息来构造时序序列时，会出现部分数据缺失，按照天来构造时序序列时，数据缺失仍然存在，但是范围在可接受范围内。但为了使模型可以更准确地学习到其中的时间依赖，在LSTM模型的基础上加入了子空间分解和时间衰减函数。

AD_LSTM包含LSTM的输入门、遗忘门和输出门，在输入门、遗忘门和输出门之前加入子空间分解来对LSTM模型上一层传递过来的记忆状态进行矩阵分解，得到修正后记忆状态矩阵

C_t-1 ^S＝tanh(W_dC_t-1+b_d)

其中，W_d,b_d是可学习参数，C_t-1为循环神经网络上一层的记忆状态。

在子空间分解之后加入以中间缺失时刻为权重的时间衰减函数，作用于经过矩阵分解学习后的记忆状态矩阵，具体公式如下：

exp(x)＝e^x

其中e为自然对数，x为函数的输入变量。

最后的记忆状态C_t和隐藏状态h_t的计算公式如下：

h_t＝o_t*tanh(C_t)

其中f_t为遗忘门的输出，i_t为输入门的输出，W_c、U_c和b_c为可学习参数，h_t-1表示t-1时刻的隐藏状态，o_t为输出门的输出。

AD_LSTM模型有一个全连接输入层和输出层，一个LSTM单元，LSTM单元中神经元数量为12个。损失函数采用MSE，优化器选择Adam，学习率为0.01。

通过设置输入层可学习参数、隐藏层神经元数量和层数以及输出层的可学习参数构建AD_LSTM模型，将Y^T作为AD_LSTM模型的输入，模型输出为输入数据中每个时刻的下一个时刻的预测值，为Y^T+1，计算公式如下：

Y^T+1＝AD_LSTM((C₀,h₀),Y^T)

Y^T+1＝[y′₂,y′₃,...,y′_n]

其中，y′_n是n时刻AQI的预测值，(C₀,h₀)为初始的记忆状态和隐藏状态。

步骤S3：构建BP神经网络模型(BPNN)，用于建立气象因素和社会经济因素与AQI之间的映射关系；

社会经济因素数据来源于城市统计年鉴网站，社会经济因素包括GDP、第二产业占比、绿地覆盖率、综合能源消费量、工业粉尘排放量、总人口、汽车保有量等，这些数据都是按照季度来进行统计的。气象因素包括日均温度和日均风速，这些数据按照天来进行统计。对于这两类数据，可以通过气象因素中的监测时间来进行整合，最终整合成每一行代表一天的监测信息，每一列则代表各类数据，构建的数据将作为神经网络的输入数据。例如，2017年第一季度的绿地覆盖率为55％，那么在2017年第一季度监测的气象数据对应的绿地覆盖率为55％，其他因素同理根据时间对应到每天的监测数据中去。

输入数据特征确定以后，构建14层全连接的神经网络结构。其中输入层一层，隐藏层为12层，每个隐藏层前面都加入了Relu激活函数，隐藏单元为24，输出层一层。优化器采用Adam优化器，损失函数采用MSE损失函数，学习率为0.01。具体包括：

X^C＝[x₂,x₃,...,x_n]

其中

表示在m个区域中，第n个时刻k个因素的监测数值；

模型的学习标签Y^label，表示形式如下所示：

其中

表示第n个时刻各个区域的空气质量指数集合，

表示为：

其中

表示第m个区域第n个时刻的空气质量指数；

Y^C＝[y″₂,y″₃,...,y″_n]

其中

气象因素数据有相应的监测时间，所述社会经济因素数据也具有相关时间点，在气象因素数据的基础上，通过时间维度找到对应时间节点的社会经济因素数据，将两类数据进行融合。

步骤S4：利用协同注意力集成AD_LSTM模型和BPNN模型，并进行集成模型的训练；通过将BPNN和AD_LSTM模型的输出联合起来，具体使用的联合关联矩阵和条件关联矩阵让其中一个模型输出结果的同时要关注另一个模型的输出结果，再使用一层全连接层将联合结果进行映射，选取每个交易记录的房价作为预期输出，最后通过反向传播对两个模型一并实现参数更新，损失函数采用MSE，优化器采用Adam，设置最大训练次数为1000。通过不断的参数调整，最终选取误差最低的参数作为预测模型的网络参数。

具体包括：

S42：使用协同注意力机制进行模型集成；

将两个模型的输出按照线性拼接得到条件关联矩阵

具体计算公式如下所示：

其中

代表矩阵的加法；

在条件性关联矩阵的基础上加上联合关联矩阵模块

具体计算规则如下所示：

式中，

将得到的权重与各个模型的最终输出进行结合，得到联合后的表达式如公式如下所示：

式中，P^t，P^c表示各个模型最终乘以各自的注意力权重得到的最终联合表征表示；

最后再计算出各个模型的最终表征

最终基于注意力机制的集成方法计算公式如下所示：

式中，W_t，W_c表示集成的各个模型的可学习权重；

W_t，W_c进行参数更新的公式为：

W_t＝W_t-∝(Y^T+1(softmax(Y^T+1+Y^c)+softmax(Y^T+1Y^c)))

W_c＝W_c-∝(Y^T+1(softmax(Y^T+1+Y^c)+softmax(Y^cY^T+1)))

S45：通过参数的不断调整，最终选取效果最优的网络结构。

步骤S5：利用训练好的集成模型，采用历史空气质量的变化趋势，以及气象因素和社会经济因素，对空气质量进行综合研判。

输入数据要按照训练时采用的影响因素构成关于气象因素和社会济因素的二维矩阵，时间因素采用区域信息和监测时间划分的时间序列。

本发明所训练出的集成模型，当输入时刻最大值为n时，可以预测出未来n+1时刻的空气质量指数。

例如，输入神经网络的数据包含气象因素和社会经济因素的数据，以向量的形式表示，如m区域的n+1时刻的气象因素和社会经济因素的数据{0.0122，0.3698，0.5，0.5，0.129，0.7627，0.1628，0.0166，0.1011，0.5104，0.4166，0.0835，0.0607，0.4061，0.0882，0.0731，0.8102}。该向量经过神经网络的输入层、隐藏层和输出层得到一个向量，如{0.55}，代表BPNN网络预测的房价。时序模型的输入则为m区域的历史空气质量指数组成的向量，如{0.15，0.24，0.22，0.33}，代表m区域{n-3,n-2,n-1,n}四个时刻的房价组成的向量，数据经过AD_LSTM模型得到一个向量，如{0.49}。两个模型的输出数据再经过集成，得到最终的预测房价{0.51}，0.51经过数据映射得到{49}，其中49代表下一天的空气质量指数是49，对应的空气质量等级为优。

本发明实施提供一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的一种时序缺失感知和多源因素融合的空气质量集成预测方法。

本发明实施提供一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种时序缺失感知和多源因素融合的空气质量集成预测方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时序缺失感知和多源因素融合的空气质量集成预测方法，其特征在于：包括以下步骤：

S2：构建基于时间衰减函数改进的长短记忆模型AD_LSTM，通过子空间分解和时间衰减函数构建数据缺失感知单元，解决历史空气质量指数AQI时序数据中的数据缺失问题，建立AQI随时间变化的波动趋势；

S3：构建BPNN模型，建立气象因素和社会经济因素与AQI之间的映射关系；

2.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法，其特征在于：所述步骤S1具体包括以下步骤：

其中X_target为最大最小规范后的数据，x式原始数据，x_min和x_max分别为原始数据中的最小值和最大值数据；

3.根据权利要求2所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法，其特征在于：步骤S11所述对数据进行缺失值处理，具体包括：对具有缺失值的特征进行均值填充；

4.根据权利要求1所述的基于时序缺失感知和多源因素融合的空气质量集成预测方法，其特征在于：所述步骤S2具体包括以下步骤：

Y^T＝[y₁,y₂,...,y_n-1]

其中

代表第m个区域n-1时刻的空气质量指数；

C_t＝f_t*C_t-1+i_t*C

h_t＝o_t*tanh(C_t)

其中f_t表示遗忘门，负责对之前的信息进行部分舍弃，C_t-1表示上个时刻的长期记忆，输入门i_t表示当前时刻的输入数据信息，C表示模型学习到时序数据待存入记忆状态的新信息，经过上述式子计算得到的C_t为当前时刻所保存的长期记忆；输出门o_t负责控制当前时刻输出信息，tanh为激活函数，经过输出门和当前时刻记忆状态计算出当前时刻的隐藏状态h_t；