CN114781538A

CN114781538A - 一种ga-bp神经网络耦合决策树的空气质量预测方法和系统

Info

Publication number: CN114781538A
Application number: CN202210493233.4A
Authority: CN
Inventors: 刘家良; 黄卫清; 李瀚�; 王秋芳; 司艳红; 强孟珂; 刘思畅; 杨丹洁; 张鑫
Original assignee: Zhongke Yunyao Dongguan Technology Co ltd; Dongguan University of Technology
Current assignee: Zhongke Yunyao Dongguan Technology Co ltd; Dongguan University of Technology
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-07-22
Anticipated expiration: 2042-05-07
Also published as: CN114781538B

Abstract

本发明提供了一种GA‑BP神经网络耦合决策树的空气质量预测方法，首先获取大量气象数据以及污染物排放数据，随后进行主成分分析，确定主要影响因子；构建一种8‑6‑5结构的BP神经网络模型，引入遗传算法进行优化，获取神经网络最优初始权值和阈值，进而对训练数据集进行学习，预测未来污染物排放浓度并进行准确度检验，其次运用基尼指数法确定空气质量指数级别预测决策树模型的根结点、内部结点和叶节点，构建决策树模型，对未来空气质量指数级别进行预测分类。本发明提供了一种预测速度快、系统性强、精确度高的空气质量预测方法，为区域的空气质量预测、空气质量指数等级分类预测开辟新途径，同时可为区域采取空气污染预防措施提供指导和参考。

Description

一种GA-BP神经网络耦合决策树的空气质量预测方法和系统

技术领域

本发明属于空气质量预测领域，特别涉及一种基于GA-BP神经网络耦合决策树的空气质量预测方法。

背景技术

随着科技的发展、工业的进步以及全球人口急剧增多，大量污染物被排放到空气中对环境产生巨大的破坏的同时使得生态也不断恶化。城市大气污染物体量大、种类多已严重危害到居民的身体健康，同时也直接影响社会的可持续发展。目前，大部分的空气质量预测方法主要依赖于空气质量模拟软件对过去的天气状况以及污染物迁移过程进行模拟，其预测结果为精细化的大气污染物浓度数据，预测结果专业性较强，不易于被居民所理解。除此之外，传统的空气质量预测方法还存在预测过程复杂、预测时间短、预测结果不准确等问题。

空气中的污染物主要为PM_2.5、PM₁₀、SO₂、NO_X、O₃、CO等物质。众多研究表明，空气中污染物的过量存在已造成了诸如酸雨、光化学烟雾等一系列环境问题。因此，为了更好的进行大气污染防治工作，指导相关部门以及城市居民采取相应的防护措施，开展空气质量的预测研究工作成为必然。

基于以上分析，设计出一种预测速度快、系统性强、预测精确度高的空气质量预测技术是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于现有技术的上述缺陷，一方面，本发明提供了一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，包括以下步骤：

S1、获取研究对象区域历史气相数据及污染物排放数据；

S2、主成分分析识别确定8项输入变量；

S3、确定8-6-5的网络拓扑结构及构建BP神经网络；

S4、通过遗传算法优化得到GA-BP神经网络并进行预测；

S5、基于CART算法划分数据属性；

S6、构建决策树模型预测空气质量指数级别；

优选的，所述步骤S1中，所述气相数据包括气温、风速、风向、相对湿度、气压和降雨量，所述污染物排放数据包括PM_2.5、PM₁₀、NO₂、NO、CO和O₃，所述气相数据和污染物排放数据通过卫星遥感技术和地面监测站点获取。

优选的，所述步骤S2中，输入变量包括风速、降雨量、相对湿度、PM_2.5、PM₁₀、SO₂、O₃和NO₂。

优选的，所述步骤S3中，网络拓扑结构的输出层包括PM_2.5、PM₁₀、SO₂、O₃和NO₂合计5项预测浓度数据，其中，隐含层神经元数目设置为6，隐含层神经元个数通过如下公式确定：

其中，H为隐含层神经元数目，I为输入层神经元数目，O为输出层神经元数目，α为整数，取值范围1～10。

优选的，所述步骤S4中，编码及初始化初始群体生成数组作为染色体，通过如下公式确定：

L＝I×H+H×O+H+O

L表示染色体长度，I为输入层神经元数目，H为隐含层神经元数目，O为输出层神经元数目。该染色体用于遗传算法的选择、交叉、变异操作；

其中，F表示个体i的适应度值，n为输出层神经元数目，k为系数，abs为绝对值函数，y_i为第i个神经元的输出期望值，o_i为第i个神经元的输出预测值。

优选的，所述步骤S5中，通过CART算法中的基尼指数法对GA-BP神经网络输出层中5项输出指标的数据属性进行划分，采用如下公式：

其中，Gini表示基尼指数，P(i)表示label＝i的概率，n表示label类别的总和；式(5)中，

表示基尼指数加权平均值，Gini₁表示label＝1的基尼指数，Gini₂表示label＝2的基尼指数，T表示所有label类别包含的个体总个数，a表示label＝1的个体数，b表示label＝2的个体数。

更优的，所述步骤S6中，通过基尼指数法对所述输出层5项数据的基尼指数加权平均值进行对比确定决策树模型根节点、内部节点和叶节点，并逐层构建决策树模型，空气质量指数级别包括I优、II良、III轻度污染、IV中度污染、V重度污染以及VI严重污染。

第二方面，本发明还提供了一种实施上述方法的GA-BP神经网络耦合决策树的空气质量预测系统，包括：

数据采集模块：用于获取研究对象区域历史气相数据及污染物排放数据；

主成分分析模块：用于确定输入变量；

神经网络模块：用于构建GA-BP神经网络模型；

算法优化模块：基于遗传算法对GA-BP神经网络模型进行优化；

数据划分模块：用于确定基尼指数加权平均值最小的指标为决策树的根节点、内部节点和叶节点；

分类预测模块：用于将计算得出结果对应分类于相应空气质量指数。

第三方面，本发明还提供了一种GA-BP神经网络耦合决策树的空气质量预测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序实现如前述所公开的实施上述方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述所公开的GA-BP神经网络耦合决策树的空气质量预测方法步骤。

本发明提供了一种预测速度快、系统性强、精确度高的空气质量预测方法，与传统的软件相比，传统软件方法模拟污染物迁移过程耗时较长、过程较复杂。而本发明预测方法不需要进行空气污染物迁移过程模拟，耗时短，直接通过对数据的训练，达到预测的目的。可为我国城市(或区域)空气质量预测、空气质量指数等级分类预测开辟新途径，同时可为我国城市(或区域)采取空气污染预防措施提供指导和参考。

附图说明

图1是本发明GA-BP神经网络耦合决策树空气质量预测方法流程图；

图2是本发明的8-6-5三层BP神经网络结构图；

图3是本发明空气质量指数级别预测决策树模型图。

具体实施方式

下面对本发明的实施例作详细说明，下述的实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一方面，本发明提供了一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，请参阅图1，包括以下步骤：

S1、获取研究对象区域历史气相数据及污染物排放数据；

首先通过使用卫星遥感技术以及地面监测站点获取目标城市(或区域)具有连续性的历史气相数据以及污染物排放数据，并对数据有效性进行判定，剔除数据缺失样本。本发明所需获取的气相数据(日均值)有：气温、风速、风向、相对湿度、气压和降雨量；所需获取的污染物数据类别(日均排放浓度)有：PM_2.5、PM₁₀、NO₂、NO、CO和O₃。

S2、主成分分析识别确定8项输入变量；

主成分分析可实现量化识别关键影响因素，通过Matlab 2019b矩阵工厂软件对影响空气质量的因素进行主成分分析，分析结果即可作为输入层输入变量。该步骤包括使用PCA函数(Principal Component Analysis，主成分分析)对影响空气质量的各个影响因素进行相关性分析得出主成分贡献率，对主成分贡献率进行排序筛选可作为BP神经网络输入变量的指标。经分析，本发明选定的输入变量包括以下8项，分别是风速、降雨量、相对湿度、PM_2.5、PM₁₀、SO₂、O₃和NO₂。

S3、确定8-6-5的网络拓扑结构及构建BP神经网络；

基于步骤S2中主成分分析结果可以确定BP神经网络输入层结构，本发明将输出层的输出变量设置为5个预测污染物浓度，包括PM_2.5、PM₁₀、SO₂、O₃和NO₂合计5项预测浓度数据。

隐含层神经元个数需要根据公式确定，采用的公式如下：

综合上述分析，已确定输入层输入变量8项，输出层输出变量5项，通过计算，隐含层神经元潜在个数为5～14个。通过试凑实验对不同数量的神经元个数进行误差分析，计算相对误差及相关系数，最终将隐含层神经元数目设置为6。综上分析可构造一种8-6-5结构的BP神经网络，如附图2所示。此外，在传递函数的选择中，隐含层采用了Matlab 2019b矩阵工厂软件中传统的tansig函数，输出层则为purelin函数；训练数据集的学习函数为LM(Levenberg-Marquardt)算法，可实现数据集训练、学习和预测。

请参阅图2，根据图2所示的神经网络结构，将步骤2中所确定的8项输入变量(风速、降雨量、相对湿度、PM_2.5、PM₁₀、SO₂、O₃和NO₂。)输入输入层，经过隐含层函数和输出层函数的学习、训练和预测，最终在输出层中输出5项输出变量，实现PM_2.5、PM₁₀、SO₂、O₃和NO₂五项污染物浓度的预测。

S4、通过遗传算法优化得到GA-BP神经网络并进行预测；

基于步骤S3中的BP神经网络不同层的神经元之间的初始权值和阈值为随机生成，这种随机产生的方式无法确保输出结果的准确性。为此，在BP神经网络初始权值、阈值的确定流程中耦合遗传算法，使其能够具备全局搜索功能，并通过遗传操作迭代筛选最优的初始权值、阈值以提高神经网络输出结果的准确性。

遗传算法首先通过编码初始群体和初始化，生成一个数组作为染色体，通过如下公式确定：

L＝I×H+H×O+H+O

其中，L表示染色体长度，I为输入层神经元数目，H为隐含层神经元数目，O为输出层神经元数目。该染色体用于遗传算法的选择、交叉、变异操作。

其次是确定适应度函数计算个体适应度值，采用的公式如下：

随后设置遗传算法迭代次数、交叉率以及变异率，对产生的各个初始权值和阈值进行适应度检验，筛选适应度最佳的个体，在本发明中即为适应度值F最小的个体。该个体可作为最优初始权值、阈值返回BP神经网络模拟程序；

综合上述分析操作，经遗传算法优化BP神经网络得到GA-BP神经网络，并通过选取训练数据样本进行训练和学习并预测污染物浓度数据，再由测试样本进行检验。进一步计算预测数据与测试样本数据的网络误差，网络误差通过神经元反向传播到各层神经节点更新各对相连接的神经元的权值，再重新根据神经网络进行推演，直到网络误差符合预测精度要求方可进行输出层输出预测污染物浓度。

S5、基于CART算法划分数据属性；

以BP神经网络的训练数据集为对象，通过CART算法中的基尼指数法对步骤S3中的P神经网络输出层中的5项输出指标的数据属性进行划分。计算各项指标的基尼指数加权平均值，根据大小排序，确定基尼指数加权平均值最小的指标为决策树的根节点、内部节点和叶节点。

采用的公式如下：

在一实施例中，经计算分析后确定PM_2.5≤150为决策树的根节点；内部节点包括：PM₁₀≤150、PM_2.5≤250、SO₂≤3、PM_2.5≤75、NO₂≤40、O₃≤160、NO₂≤180、O₃≤100、O₃≤215；叶节点包括：label＝I、label＝II、label＝III、label＝IV、label＝V、label＝VI。

S6、构建决策树模型预测空气质量指数级别；

根据步骤5对BP神经网络各项输出指标的基尼指数加权平均值进行排序确定决策树根节点、内部节点、叶节点，可逐层构建用于空气质量指数级别预测分类的决策树模型，如附图3所示。根据附图3决策树模型结构，将GA-BP神经网络输出层输出结果中的五项污染物浓度预测值在决策树中自上而下的根据逻辑条件代入根节点以及每一个内部节点进行推演，跟随决策树模型引导最终可将每个污染物浓度预测样本分类到六个空气污染指数级别，分别为(I)优、(II)良、(III)轻度污染、(IV)中度污染、(V)重度污染以及(VI)严重污染。

以附图3为例，在一实施例中，某地某日大气污染物浓度值(单位：μg/m³)如下：PM_2.5为33、PM₁₀为38、SO₂为3、NO₂为33、O₃为78。首先判定PM_2.5浓度值小于150，进一步判定PM₁₀浓度值小于150，接着判定SO₂浓度值小于等于3，决策树模型输出结果为“该日空气质量指数级别为I级”。经验证，该日空气质量指数级别为I级，模型预测结果准确，其他预测样本预测流程以此类推。

在一实施例中，实验人员可通过准确率、空报率、漏报率三项评价指标综合评估检验该模型预测结果的有效性，并与传统预报方式进行对比。

在本实施例中，若预测准确率达90％，则默认该模型为可靠模型；若准确率低于90％，则通过调整权值、阈值重启程序进行重新预测，故本发明的空气预测结果精确度较高。具体采用的公式如下：

综上，通过本发明GA-BP神经网络耦合决策树构建的空气质量预测及级别分类方法，与传统的软件相比，传统软件方法模拟污染物迁移过程耗时较长、过程较复杂。而本发明预测方法不需要进行空气污染物迁移过程模拟，耗时短，直接通过对数据的训练，达到预测的目的。可为我国城市(或区域)空气质量预测、空气质量指数等级分类预测开辟新途径，同时可为我国城市(或区域)采取空气污染预防措施提供指导和参考。可以通过历史气象数据及污染物排放数据进行训练、学习，预测未来污染物排放水平，进而达到预测空气质量状况以及预测空气质量指数级别的目的。

主成分分析模块：用于确定输入变量；

神经网络模块：用于构建GA-BP神经网络模型；

存储器，用于存储计算机程序；

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，包括以下步骤：

S1、获取研究对象区域历史气相数据及污染物排放数据；

S2、主成分分析识别确定8项输入变量；

S3、确定8-6-5的网络拓扑结构及构建BP神经网络；

S4、通过遗传算法优化得到GA-BP神经网络并进行预测；

S5、基于CART算法划分数据属性；

S6、构建决策树模型预测空气质量指数级别。

2.根据权利要求1所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S1中，所述气相数据包括气温、风速、风向、相对湿度、气压和降雨量，所述污染物排放数据包括PM_2.5、PM₁₀、NO₂、NO、CO和O₃，所述气相数据和污染物排放数据通过卫星遥感技术和地面监测站点获取。

3.根据权利要求1所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S2中，输入变量包括风速、降雨量、相对湿度、PM_2.5、PM₁₀、SO₂、O₃和NO₂。

4.根据权利要求1所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S3中，网络拓扑结构的输出层包括PM_2.5、PM₁₀、SO₂、O₃和NO₂合计5项预测浓度数据，其中，隐含层神经元数目设置为6，隐含层神经元个数通过如下公式确定：

5.根据权利要求1所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S4中，编码及初始化初始群体生成数组作为染色体，通过如下公式确定：

L＝I×H+H×O+H+O

其中，L表示染色体长度，I为输入层神经元数目，H为隐含层神经元数目，O为输出层神经元数目，该染色体用于遗传算法的选择、交叉、变异操作；

6.根据权利要求1所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S5中，通过CART算法中的基尼指数法对GA-BP神经网络输出层中5项输出指标的数据属性进行划分，采用如下公式：

7.根据权利要求4所述的一种GA-BP神经网络耦合决策树的空气质量预测方法，其特征在于，所述步骤S6中，通过基尼指数法对所述输出层5项数据的基尼指数加权平均值进行对比确定决策树模型根节点、内部节点和叶节点，并逐层构建决策树模型，空气质量指数级别包括I优、II良、III轻度污染、IV中度污染、V重度污染以及VI严重污染。

8.一种GA-BP神经网络耦合决策树的空气质量预测系统，其特征在于，包括：

主成分分析模块：用于确定输入变量；

神经网络模块：用于构建GA-BP神经网络模型；

9.一种GA-BP神经网络耦合决策树的空气质量预测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的GA-BP神经网络耦合决策树的空气质量预测方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的GA-BP神经网络耦合决策树的空气质量预测方法。