CN110363347B - 基于决策树索引的神经网络预测空气质量的方法 - Google Patents

基于决策树索引的神经网络预测空气质量的方法 Download PDF

Info

Publication number
CN110363347B
CN110363347B CN201910630581.XA CN201910630581A CN110363347B CN 110363347 B CN110363347 B CN 110363347B CN 201910630581 A CN201910630581 A CN 201910630581A CN 110363347 B CN110363347 B CN 110363347B
Authority
CN
China
Prior art keywords
neural network
air quality
decision tree
data
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910630581.XA
Other languages
English (en)
Other versions
CN110363347A (zh
Inventor
林宣雄
许秋飞
杭怡春
崔平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tianchang Environmental Science And Technology Co ltd
Original Assignee
Jiangsu Tianchang Environmental Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tianchang Environmental Science And Technology Co ltd filed Critical Jiangsu Tianchang Environmental Science And Technology Co ltd
Priority to CN201910630581.XA priority Critical patent/CN110363347B/zh
Publication of CN110363347A publication Critical patent/CN110363347A/zh
Application granted granted Critical
Publication of CN110363347B publication Critical patent/CN110363347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Medicinal Chemistry (AREA)
  • Combustion & Propulsion (AREA)
  • Dispersion Chemistry (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Food Science & Technology (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于决策树索引的神经网络预测空气质量的方法,包括以下步骤:建立相关气象因子、空气质量和大气污染物排放量的时间序列数据集;利用决策树DT算法对获取的训练样本进行分类,生成以空气质量特征为导向的最优树形结构Tα及其相应分类结果;根据所述分类结果,为每一分类建立一个BP神经网络模型,并进行模型训练;输入预测数据集,基于决策树进行分类索引,选择训练后的DT‑BP神经网络模型或综合BP神经网络对空气质量进行预测;基于迭代算法得到连续的空气质量预报结果;记录出现不满足决策树分类匹配规则的数据集次数,超过设定值自动启动模型更新。本发明适用于常规天气、突变天气及重污染天气的空气质量预测预报。

Description

基于决策树索引的神经网络预测空气质量的方法
技术领域
本发明属于数据处理技术领域,涉及一种适用于常规天气、突变天气及重污染天气的空气质量预报的方法,特别涉及一种基于决策树索引的神经网络预测空气质量的方法。
背景技术
随着我国经济的飞速增长,城市化建设的不断发展,环境污染问题越来越严重地影响人们赖以生存的空间,甚至引发重大恶性事故,极大地危害人民健康和生产建设。长期以来,研究者对区域环境空气质量的变化特征和趋势预报已进行了全面、系统的研究。但是由于大气污染受天气背景场、地形地貌、输送汇聚等多种因素的影响,且形成机制复杂,空气质量预测预报是一项复杂的系统工程。当前常用的空气质量预报方法主要有潜势预报、数值预报和统计预报三种方式。
潜势预报是基于天气预报的“二次预报”,方法简单,但一般预报准确度不高,通常不独立使用而是与其他方法配合使用。数值预报意在模拟一种真实的大气环境,用数学与化学公式尽可能的接近于真实大气的运作机理,充分考虑大气的污染源清单、气象因子、粒子化学、光化学反应过程、二次污染物、污染物传输、清除等因素,来模拟计算出污染物的时空分布规律。数值预报的优点在于会根据大气环境的变化呈现出不同的精确结果,在区域空气质量预报中有较高的准确率,但是由于受地理区域的气象条件、污染物分布状况以及地形因素等条件的影响,该模式需要投入较高的专业人力、计算资源和技术装备。同时,由于污染源的污染物排放动态变化较大,有时还受污染物输送和复杂大气扩散机制影响,因此数值预报往往难以达到理想的效果。
相比之下,统计预报方法则可以避免上述数值预报方法的弊端。统计预报是指利用空气质量和气象参数等历史观测资料建立大气污染物浓度与气象条件间的相关性、趋势性、延续性等统计关系,建立拟合方程或统计模型,从而外推得到对未来空气质量预报结果的方法,准确率和计算效率较高。
对于申请号为CN201611076083.8的公开的发明专利申请,名称为《一种预测空气质量的方法》,其方法见图1,主要步骤包括:获取观测序列;
利用FCM聚类算法对获取的观测序列进行聚类,得到最优聚类数及其相应的聚类结果;
根据聚类结果,为每一类建立一个HMM模型,再通过FCM聚类算法确定每一类的最佳聚类数;
将确定的每一类最佳聚类数作为建立的HMM模型的隐状态数;
根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
该方法观测序列的划分方法为FCM聚类,预测方法为HMM隐性马尔科夫,然而FCM聚类方法:需要对观测序列进行归一化处理,并采用主成分分析方法对归一化处理后的多维时间序列进行降维处理,前处理过程复杂,计算效率较差。另外,HMM隐性马尔科夫模型是一类基于概率统计的模型,是一种结构最简单的动态贝叶斯网,其预测的事件状态仅跟上一个时刻预测输入的状态有关,对空气质量突变拐点的小概率事件或特殊天气很难实现精准预测。
对于申请号为CN201711393032.2的公开的发明专利申请,名称为《区域空气污染物浓度预测方法、终端及可读存储介质》,其方法见图2,主要步骤包括:根据待预测的区域当前时间对应季节所有监测点的监测污染物浓度数据集计算得到日平均历史污染物浓度数据集;
确定待预测的区域当前时间对应季节的日历史气象数据集;
对日历史气象数据集进行预处理;
将日平均历史污染物浓度数据集和预处理后的日历史气象数据集作为样本数据集,利用随机森林模型进行训练,其中,随机森林模型包括有多棵决策树,每棵决策树使用多层前馈神经网络实现;
确定当前时间当天预测的未来预设天数的预测气象数据;
对预测气象数据进行预处理;
根据预处理后的预测气象数据、当前时间当天监测的污染物浓度数据,利用训练好的随机森林模型预测待预测区域的未来预设天数的污染物浓度数据。
该方法存在以下缺陷:
(1)需要先建立不同季节的日平均历史污染物浓度数据集,再针对不同季节特征分别建模;并且在同一季节的数据集中,需使用随机森林构建多颗决策树,再分别建立多个BP神经网络预测模型,建模对象多、数量大;
(2)使用训练好的模型进行预测时,需要先用最近L天的数据对每棵决策树的预测模型做一遍误差检验,再确定选择哪棵树的预报数据,步骤相对复杂。
综上,现有的空气质量预报方法和系统均存在数据区间识别的局限性,没有发挥统计学各类算法在空气质量变化特征识别、捕获方面的优势,因此对包括突变天气、重污染天气等在内的空气质量拐点识别能力和报出率低,远远不能满足为公众提供健康指引的需求。本发明为解决该问题提供了一套新的思路和方法。通过决策树筛选并捕捉重污染或突变的气象-气质特征切片,并分类构建基于BP神经网络的空气质量预报模型,从而提高预报准确性。同时,本发明通过设定模型校验和更新触发机制,提高了模型对环境空气质量演化进程的自修复、自完善能力,具有更大适用性和应用价值。
发明内容
本发明的目的是克服现有技术存在的缺陷,提供一种适用于环境空气质量预测预报领域,具有分类特征识别能力和高预报准确度,并能适应空气质量演变进程进行自修复和自完善,基于决策树索引的神经网络预测空气质量的方法。
实现本发明目的的技术方案是:一种基于决策树索引的神经网络预测空气质量的方法,包括以下步骤:
(1)建立相关气象因子、空气质量和大气污染物排放量的时间序列数据集;
(2)利用决策树DT算法对获取的训练样本进行分类,生成以空气质量特征为导向的最优树形结构Tα及其相应分类结果;
(3)根据所述分类结果,为每一分类建立一个BP神经网络模型,并进行模型训练;
(4)输入预测数据集,基于决策树分类索引,选择训练后的DT-BP神经网络模型或综合BP神经网络对空气质量进行预测;
(5)基于迭代算法得到连续的空气质量预报结果;
(6)记录出现不满足决策树分类匹配规则的数据集次数,超过设定值自动启动模型更新。
上述技术方案所述步骤(2)中,根据训练样本时间序列数据集,从根节点开始,用基尼指数最小化准则进行特征选择,递归构建二叉决策树。
上述技术方案所述递归构建二叉决策树具体步骤为:
1)设节点的训练样本时间序列数据集为D,计算现有特征对该训练样本时间序列数据集的基尼指数,此时,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”,将D分割成D1和D2两部分,其中D1={(x,y)∈D∣A(x)=a},D2=D-D1,利用公式
Figure GDA0003528975080000041
计算A=a时,集合D的基尼指数Gini(D,A);
2)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依最优特征与最优切分点,从现节点生成两个子节点,将训练样本时间序列数据集依特征分配到两个子节点中去;
3)对两个子节点递归地调用1),2),直至节点中样本个数小于预定阈值,或者样本基尼指数小于预定阈值,或没有更多的特征;
4)生成决策树。
上述技术方案所述步骤4)生成的决策树底端剪去一些子树使得模型简化,具体步骤为:
A、剪枝形成子树序列:从决策树T0底端开始不断剪枝,直到T0的根节点,形成子树序列{T0,T1,…,Tn};
B、选择最优子树:利用独立的验证数据集测试子树序列中各棵子树的平方误差或者基尼指数,其最小的决策树被认为是最优的决策树;每一棵子树都对应一个参数α,最优子树Tk确定,αk也就确定了,即最优子树Tα
C、根据确定的最优子树Tα,对所述给定的测试样本序列划分到相应的子树中,得到DT分类结果。
上述技术方案所述步骤(3)中,BP神经网络模型的数目与决策树最优分类数相同,设最优分类数为m,所述BP神经网络模型的数目为m。
上述技术方案所述步骤(3)中BP神经网络模型的建立方法具体为:
创建一个包含输入层、隐含层和输出层的多层神经网络,确定各层神经元;
分别设定神经网络的激励函数和输出函数,设定网络的预测误差、最大迭代次数和学习速率;
对获取的时间序列数据集进行数据归一化处理,使数据分布于[0,1]之间;
将训练数据输入到已建立的神经网络中,利用实际输出与期望输出之间的误差对网络权重系数进行修正,以训练误差是否达到设定值作为收敛条件,建立空气质量预报模型;
利用神经网络对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
上述技术方案所述输入层的神经元为与所预测的污染物浓度或AQI显著相关的因子,包括:
Ⅰ、时间,遵循污染物浓度变化规律,按一年春、夏、秋、冬四季,一天分六个时段重新定义时间因素;
Ⅱ、污染物,污染物采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时浓度均值作为输入要素,根据所需预测的污染物对象,分别选择PM2.5、PM10、CO、NO2、SO2、O3和AQI中的一种独立建模;
Ⅲ、传输与扩散条件,影响污染物传输与扩散的主要气象条件,包括气温(℃)、相对湿度(%)、风速(m/s)、风向(°)、气压(hPa)、降雨等级和云量;
Ⅳ、本地工业排放,考虑不同污染物之间具有同源性,输入层因子还包括影响各项污染物浓度的本地主要工业污染排放量,采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时均值作为输入要素,包括NOx排放量(kg/h)、SO2排放量(kg/h)和颗粒物排放量(kg/h);
隐藏层神经元节点个数,采用经验公式给出估计值,所述经验公式如下:
Figure GDA0003528975080000061
其中,p表示隐含层神经元节点数,n表示输入层神经元节点数,q表示输出层神经元节点数,b为[0,10]之间的常数;
通过利用神经网络试验的结果与目标输出的平均误差进行分析和调整,确定模型预测效果最好时的隐藏层神经元数;
输出层神经元,为与输入层污染物相匹配的预报值;
输入数据需进行归一化处理,采用最大最小法,归一化公式如下:
Figure GDA0003528975080000062
其中,xmin、xmax分别为数据样本序列中的最小值和最大值,xk,yk分别为归一化之前和之后的值;
将训练数据输入到已建立的神经网络中,利用实际输出与期望输出之间的误差对网络权重系数进行修正;当训练误差小于期望误差最小值时,算法收敛;在达到最大迭代次数时结束算法,所述神经网络训练完成;
利用神经网络对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
上述技术方案所述步骤(4)具体为:对给定的预测样本观测序列,根据模型预先设定的决策树分类判定其所属类别;对符合决策树分类规则的预测样本,通过训练后的DT-BP神经网络进行空气质量预测,计算出t时刻的污染物浓度值或AQI值;对不符合决策树分类规则的预测样本,通过训练后的综合BP神经网络进行空气质量预测,计算出t时刻的污染物浓度值或AQI值,其中所述综合BP神经网络,是指由未经决策树分类的全部训练数据集建立并训练的BP神经网络,其中,给定的预测样本观测序列包括从中国气象部门权威发布机构获得城市级未来24小时、未来72小时逐时天气预报,获取城市空气质量监测站点实时空气质量监测数据,以及获取城市大气污染物工业排放量实时监测数据。
上述技术方案所述步骤(5)中的基于迭代的策略,用t时刻的预测值作为t+1时刻的输入值,预测t+1时刻的空气质量,由此得到连续的空气质量预报结果。
上述技术方案所述步骤(6)记录出现不满足决策树分类规则的数据集次数λ,当λ大于设定值时,自动加载自模型建立起到当前时间内,所有新建立的包含气象因子、空气质量监测数据、大气污染物工业排放量的时间序列数据集至训练数据库,重复步骤(2)和(3),建立新的DT-BP神经网络模型。
采用上述技术方案后,本发明具有以下积极的效果:
(1)本发明通过决策树分类算法,筛选并捕捉各类空气质量特征切片,全面提高了模型对空气质量特征和突变拐点的识别和预报能力,尤其适用于突变环境如大风大雨、重污染天气的预警预报。
(2)本发明利用BP神经网络对决策树分类的数据集分别建模,模型对同类特征的适用性更强,且规避了BP神经网络对多种特征混合数据集表现不敏感的局限性,提高了模型对不同空气污染特征的预报准确度。
(3)本发明BP神经网络建模时,在输入层对时间参数按一年四个季节和一天不同时段进分别行了初始划分和设定,同时还引入对空气质量贡献较大的本地工业排放数据,用模型去自动驯化空气质量随时间变化的特征和受工业排放的影响,不仅建立了统计预报方法与大气污染物演变的关联关系,而且使预报步骤简便、训练数据更全面、预测结果更精准。
(4)本发明通过建立以决策树为分类索引的模型更新触发机制,提高了模型对环境空气质量演化进程的自修复、自完善能力,从而大大提升了算法的适用性和时效性,具有更长的生命周期和更大的应用价值。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1为现有技术1的流程示意图;
图2为现有技术2的流程示意图;
图3为本发明的流程示意图;
图4为本发明建立决策树模型的流程示意图;
图5为本发明基于BP神经网络的空气质量预报模型计算流程示意图;
图6为本发明基于决策树索引的空气质量预测流程示意图。
具体实施方式
(实施例1)
见图3至图6,本发明为一种基于决策树索引的神经网络预测空气质量的方法,包括以下步骤:
(1)建立相关气象因子、空气质量和大气污染物排放量的时间序列数据集;
(2)利用决策树DT算法对获取的训练样本进行分类,生成以空气质量特征为导向的最优树形结构Tα及其相应分类结果;
(3)根据所述分类结果,为每一分类建立一个BP神经网络模型,并进行模型训练;
(4)输入预测数据集,基于决策树进行分类索引,选择训练后的DT-BP神经网络模型或综合BP神经网络对空气质量进行预测;
(5)基于迭代算法得到连续的空气质量预报结果;
(6)记录出现不满足决策树分类匹配规则的数据集次数,超过设定值自动启动模型更新。
其中,步骤(1)中,收集的数据包括:气象因子如时间(h)、气温(℃)、相对湿度(%)、风速(m/s)、风向(°)、气压(hPa)、降雨等级、云量等;空气质量实时监测数据如PM2.5浓度(μg/m3)、PM10浓度(μg/m3)、CO浓度(mg/m3)、NO2浓度(μg/m3)、SO2浓度(μg/m3)、O3浓度(μg/m3)、AQI实时指数等;大气污染物工业排放量如NOx排放量(kg/h)、SO2排放量(kg/h)、颗粒物排放量(kg/h)等;步骤(2)中,根据训练样本时间序列数据集,从根节点开始,用基尼指数最小化准则进行特征选择,递归构建二叉决策树。
递归构建二叉决策树具体步骤为:
1)设节点的训练样本时间序列数据集为D,计算现有特征对该训练样本时间序列数据集的基尼指数,此时,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或”否”,将D分割成D1和D2两部分,其中D1={(x,y)∈D∣A(x)=a},D2=D-D1,利用下式计算A=a时,集合D的基尼指数Gini(D,A);
Figure GDA0003528975080000091
2)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依最优特征与最优切分点,从现节点生成两个子节点,将训练样本时间序列数据集依特征分配到两个子节点中去;
3)对两个子节点递归地调用1),2),直至节点中样本个数小于预定阈值,或者样本基尼指数小于预定阈值,或没有更多的特征;
4)生成决策树。
从步骤4)生成的决策树底端剪去一些子树使得模型简化,具体步骤为:
A、剪枝形成子树序列:从决策树T0底端开始不断剪枝,直到T0的根节点,形成子树序列{T0,T1,…,Tn};
B、选择最优子树:利用独立的验证数据集测试子树序列中各棵子树的平方误差或者基尼指数,其最小的决策树被认为是最优的决策树。每一棵子树都对应一个参数α,最优子树Tk确定,αk也就确定了,即最优子树Tα
具体为:a、设k=0,T=T0
b、设α=+∞;
c、自下而上地对各内部节点t计算C(Tt),|Tt|以及
Figure GDA0003528975080000101
α=min(α,g(t));
其中,Tt表示以t为根节点的子树,C(Tt)是对训练数据的预测误差,|Tt|是Tt的叶节点个数;
d、自上而下地访问内部节点t,如果有g(t)=α,进行剪枝,并对叶节点t以多数表决法决定其类,得到数T;
e、设k=k+1,αk=α,Tk=T;
f、如果T不是由根节点单独构成的树,则回到步骤d;
g、采用交叉验证法在子树序列T0,T1,…,Tn中选取最优子树Tα
C、根据确定的最优子树Tα,对给定的测试样本序列划分到相应的子树中,得到DT分类结果。
步骤(3)中,BP神经网络模型的数目与决策树最优分类数相同,设最优分类数为m,BP神经网络模型的数目为m;
BP神经网络模型的建立方法具体为:创建一个包含输入层、隐含层和输出层的多层神经网络,确定各层神经元;
分别设定神经网络的激励函数和输出函数,设定网络的预测误差、最大迭代次数和学习速率;
对获取的时间序列数据集进行数据归一化处理,使数据分布于[0,1]之间;
将训练数据输入到已建立的神经网络中,利用实际输出与期望输出之间的误差对网络权重系数进行修正,以训练误差是否达到设定值作为收敛条件,建立空气质量预报模型;
利用神经网络对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
输入层的神经元为与所预测的污染物浓度或AQI显著相关的因子,包括:
Ⅰ、时间,遵循污染物浓度变化规律,按一年春、夏、秋、冬四季,一天分六个时段重新定义时间因素;
Ⅱ、污染物,污染物采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时均值作为输入要素,根据所需预测的污染物对象,分别选择PM2.5、PM10、CO、NO2、SO2、O3和AQI中的一种独立建模;
Ⅲ、传输与扩散条件,影响污染物传输与扩散的主要气象条件,包括气温(℃)、相对湿度(%)、风速(m/s)、风向(°)、气压(hPa)、降雨等级和云量;
Ⅳ、本地工业排放,考虑不同污染物之间具有同源性,输入层因子还包括影响各项污染物浓度的本地主要工业污染排放量,采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时均值作为输入要素,包括NOx排放量(kg/h)、SO2排放量(kg/h)和颗粒物排放量(kg/h);
隐藏层神经元节点个数,采用经验公式给出估计值,经验公式如下:
Figure GDA0003528975080000111
其中,p表示隐含层神经元节点数,n表示输入层神经元节点数,q表示输出层神经元节点数,b为[0,10]之间的常数;
通过利用神经网络试验的结果与目标输出的平均误差进行分析和调整,确定模型预测效果最好时的隐藏层神经元数;
输出层神经元,输出层神经元是与输入层污染物相匹配的预报值,如PM2.5浓度(μg/m3)、PM10浓度(μg/m3)、CO浓度(mg/m3)、NO2浓度(μg/m3)、SO2浓度(μg/m3)、O3浓度(μg/m3),也可以直接是AQI指数;
采用的核函数为径向基函数;
输入数据需进行归一化处理,采用最大最小法,归一化公式如下:
Figure GDA0003528975080000121
其中,xmin、xmax分别为数据样本序列中的最小值和最大值,xk,yk分别为归一化之前和之后的值;
将训练数据输入到已建立的神经网络中,利用实际输出与期望输出之间的误差对网络权重系数进行修正;当训练误差小于期望误差最小值时,算法收敛;在达到最大迭代次数时结束算法,神经网络训练完成;
利用神经网络对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
步骤(4)中,对给定的预测样本观测序列判定其所属类别;根据判定的决策树分类结果,对给定的预测样本观测序列进行DT-BP神经网络预测,计算出t时刻的污染物浓度值。
给定的预测样本观测序列可以利用网络爬虫或其他方式从从中国气象部门权威发布机构获得城市级未来24小时、未来72小时逐时天气预报,主要包括气温(℃)、相对湿度(%)、风速(m/s)、风向(°)、气压(hPa)、降雨等级、云量;给定的预测样本观测序列也可以获取城市空气质量监测站点实时空气质量监测数据,包括PM2.5浓度(ug/m3)、PM10浓度(ug/m3)、CO浓度(ug/m3)、NO2浓度(ug/m3)、SO2浓度(ug/m3)、O3浓度(ug/m3)和AQI实时指数等;
给定的预测样本观测序列也可以获取城市大气污染物工业排放量实时监测数据,包括如NOx排放量(kg/h)、SO2排放量(kg/h)和颗粒物排放量(kg/h)。
对给定的预测样本观测序列,根据模型预先设定的决策树分类判定其所属类别;
对符合决策树分类规则的预测样本,通过训练后的DT-BP神经网络进行空气质量预测,计算出t时刻的污染物浓度值或AQI值;
对不符合决策树分类规则的预测样本,通过训练后的综合BP神经网络进行空气质量预测,计算出t时刻的污染物浓度值或AQI值,其中所述综合BP神经网络,是指由未经决策树分类的全部训练数据集建立并训练的BP神经网络。
步骤(5)中基于迭代的策略是用t时刻的预测值作为t+1时刻的输入值,预测t+1时刻的空气质量,由此得到连续的空气质量预报结果。
步骤(6)中记录出现不满足决策树分类规则的数据集次数λ,当λ大于设定值时,自动加载自模型建立起到当前时间内,所有新建立的包含气象因子、空气质量监测数据、大气污染物工业排放量的时间序列数据集至训练数据库,重复步骤(2)和(3),建立新的DT-BP神经网络模型。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于决策树索引的神经网络预测空气质量的方法,其特征在于,包括以下步骤:
(1)建立相关气象因子、空气质量和大气污染物排放量的时间序列数据集;
(2)利用决策树DT算法对获取的训练样本进行分类,生成以空气质量特征为导向的最优树形结构Tα及其相应分类结果;
(3)根据所述分类结果,为每一分类建立一个BP神经网络模型,并进行模型训练;
(4)输入预测数据集,基于决策树分类索引,选择训练后的DT-BP神经网络模型或综合BP神经网络模型对空气质量进行预测,具体为:对给定的预测样本观测序列,根据模型预先设定的决策树分类判定其所属类别;对符合决策树分类规则的预测样本,通过训练后的DT-BP神经网络模型进行空气质量预测,计算出t时刻的污染物浓度值或AQI值;对不符合决策树分类规则的预测样本,通过训练后的综合BP神经网络模型进行空气质量预测,计算出t时刻的污染物浓度值或AQI值,其中所述综合BP神经网络模型,是指由未经决策树分类的全部训练数据集建立并训练的BP神经网络模型,其中,给定的预测样本观测序列包括从中国气象部门权威发布机构获得城市级未来24小时、未来72小时逐时天气预报,获取城市空气质量监测站点实时空气质量监测数据,以及获取城市大气污染物工业排放量实时监测数据;
(5)基于迭代算法得到连续的空气质量预报结果,包括:基于迭代的策略,用t时刻的预测值作为t+1时刻的输入值,预测t+1时刻的空气质量,由此得到连续的空气质量预报结果;
(6)记录出现不满足决策树分类匹配规则的数据集次数,超过设定值自动启动模型更新,包括:记录出现不满足决策树分类规则的数据集次数λ,当λ大于设定值时,自动加载自模型建立起到当前时间内,所有新建立的包含气象因子、空气质量监测数据、大气污染物工业排放量的时间序列数据集至训练数据库,重复步骤(2)和(3),建立新的DT-BP神经网络模型。
2.根据权利要求1所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于:所述步骤(2)中,根据训练样本时间序列数据集,从根节点开始,用基尼指数最小化准则进行特征选择,递归构建二叉决策树。
3.根据权利要求2所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于:所述递归构建二叉决策树具体步骤为:
1)设节点的训练样本时间序列数据集为D,计算现有特征对该训练样本时间序列数据集的基尼指数,此时,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”,将D分割成D1和D2两部分,其中D1={(x,y)∈D∣A(x)=a},D2=D-D1,利用公式
Figure FDA0003528975070000021
计算A=a时,集合D的基尼指数Gini(D,A);
2)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依最优特征与最优切分点,从现节点生成两个子节点,将训练样本时间序列数据集依特征分配到两个子节点中去;
3)对两个子节点递归地调用步骤1)-2),直至节点中样本个数小于预定阈值,或者样本基尼指数小于预定阈值,或没有更多的特征;
4)生成决策树。
4.根据权利要求3所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于,从所述步骤4)生成的决策树底端剪去一些子树使得模型简化,具体步骤为:
A、剪枝形成子树序列:从决策树T0底端开始不断剪枝,直到T0的根节点,形成子树序列{T0,T1,…,Tn};
B、选择最优子树:利用独立的验证数据集测试子树序列中各棵子树的平方误差或者基尼指数,其最小的决策树被认为是最优的决策树;每一棵子树都对应一个参数α,最优子树Tk确定,αk确定,即最优子树Tα
C、根据确定的最优子树Tα,对所述给定的预测样本观测序列划分到相应的子树中,得到DT分类结果。
5.根据权利要求1所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于,所述步骤(3)中,BP神经网络模型的数目与决策树最优分类数相同,设最优分类数为m,所述BP神经网络模型的数目为m。
6.根据权利要求1所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于,所述步骤(3)中BP神经网络模型的建立方法具体为:
创建一个包含输入层、隐含层和输出层的多层神经网络模型,确定各层神经元;
分别设定神经网络模型的激励函数和输出函数,设定网络的预测误差、最大迭代次数和学习速率;
对获取的时间序列数据集进行数据归一化处理,使数据分布于[0,1]之间;
将训练数据输入到已建立的神经网络模型中,利用实际输出与期望输出之间的误差对网络权重系数进行修正,以训练误差是否达到设定值作为收敛条件,建立神经网络模型;
利用神经网络模型对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
7.根据权利要求6所述的基于决策树索引的神经网络预测空气质量的方法,其特征在于,
输入层的神经元为与所预测的污染物浓度或AQI显著相关的因子,包括:
Ⅰ、时间,遵循污染物浓度变化规律,按一年春、夏、秋、冬四季,一天分六个时段重新定义时间因素;
Ⅱ、污染物,污染物采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时浓度均值作为输入要素,根据所需预测的污染物对象,分别选择PM2.5、PM10、CO、NO2、SO2、O3和AQI中的一种独立建模;
Ⅲ、传输与扩散条件,影响污染物传输与扩散的主要气象条件,包括气温(℃)、相对湿度(%)、风速(m/s)、风向(°)、气压(hPa)、降雨等级和云量;
Ⅳ、本地工业排放,影响各项污染物浓度的本地主要工业污染排放量,采用预测时间t时刻前一小时(t-1)、前二小时(t-2)、前三小时(t-3)的数值及前二十四小时均值作为输入要素,包括NOx排放量(kg/h)、SO2排放量(kg/h)和颗粒物排放量(kg/h);
隐含层神经元节点数,采用经验公式给出估计值,所述经验公式如下:
Figure FDA0003528975070000041
其中,p表示隐含层神经元节点数,n表示输入层神经元节点数,q表示输出层神经元节点数,b为[0,10]之间的常数;
通过利用神经网络模型试验的结果与目标输出的平均误差进行分析和调整,确定模型预测效果最好时的隐含层神经元节点数;
输出层神经元,为与输入层污染物相匹配的预报值;
输入数据需进行归一化处理,采用最大最小法,归一化公式如下:
Figure FDA0003528975070000042
其中,xmin、xmax分别为数据样本序列中的最小值和最大值,xk,yk分别为归一化之前和之后的值;
将训练数据输入到已建立的神经网络模型中,利用实际输出与期望输出之间的误差对网络权重系数进行修正;当训练误差小于期望误差最小值时,算法收敛;在达到最大迭代次数时结束算法,所述神经网络模型训练完成;
利用神经网络模型对空气质量进行预测,同时将预测数据反归一化,得到与原始数据相同指标下的数据。
CN201910630581.XA 2019-07-12 2019-07-12 基于决策树索引的神经网络预测空气质量的方法 Active CN110363347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630581.XA CN110363347B (zh) 2019-07-12 2019-07-12 基于决策树索引的神经网络预测空气质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630581.XA CN110363347B (zh) 2019-07-12 2019-07-12 基于决策树索引的神经网络预测空气质量的方法

Publications (2)

Publication Number Publication Date
CN110363347A CN110363347A (zh) 2019-10-22
CN110363347B true CN110363347B (zh) 2022-04-15

Family

ID=68219265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630581.XA Active CN110363347B (zh) 2019-07-12 2019-07-12 基于决策树索引的神经网络预测空气质量的方法

Country Status (1)

Country Link
CN (1) CN110363347B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852493A (zh) * 2019-10-25 2020-02-28 天津大学 基于多种模型对比的大气pm2.5浓度预测方法
CN111046940A (zh) * 2019-12-06 2020-04-21 中车长春轨道客车股份有限公司 一种基于决策树与神经网络的车门故障诊断方法
CN111080524A (zh) * 2019-12-19 2020-04-28 吉林农业大学 基于深度学习的植物病虫害识别方法
CN111310970A (zh) * 2020-01-16 2020-06-19 集美大学 一种环境参数实时预测方法、终端设备及存储介质
CN111401605B (zh) * 2020-02-17 2023-05-02 北京石油化工学院 大气污染的可解释预测方法
CN111489015A (zh) * 2020-03-20 2020-08-04 天津大学 基于多种模型对比和优化的大气o3浓度预测方法
CN111507533B (zh) * 2020-04-22 2021-03-19 中科三清科技有限公司 空气污染物浓度预测方法、装置、电子设备及存储介质
CN111639683B (zh) * 2020-05-14 2022-05-27 上海工程技术大学 基于obd技术评价柴油车氮氧化物排放等级的方法
CN111612055B (zh) * 2020-05-15 2020-12-04 北京中科三清环境技术有限公司 天气形势的分型方法、空气污染状况的预测方法及装置
CN112085157B (zh) * 2020-07-20 2024-02-27 西安电子科技大学 基于神经网络和树模型的疾病预测方法及其装置
CN111898820A (zh) * 2020-07-27 2020-11-06 重庆市规划设计研究院 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN112150443B (zh) * 2020-09-27 2022-07-12 中南大学 基于空气质量数据图谱的列车车载空调剩余寿命预测方法
CN112132228B (zh) * 2020-09-30 2024-05-14 东南大学 基于决策树分类的辐照度数据插补方法及系统
CN112347155B (zh) * 2020-10-29 2023-11-21 南京大学 基于数据挖掘的场地污染特征因子识别和监测指标优化方法
CN112365073A (zh) * 2020-11-18 2021-02-12 贵州电网有限责任公司 一种基于大数据的调控操作信号监控方法
CN112487033A (zh) * 2020-11-30 2021-03-12 国网山东省电力公司电力科学研究院 一种面向数据流及构建网络拓扑的业务可视化方法及系统
CN112578089B (zh) * 2020-12-24 2023-04-07 河北工业大学 一种基于改进tcn的空气污染物浓度预测方法
CN112733903B (zh) * 2020-12-30 2023-11-17 许昌学院 基于svm-rf-dt组合的空气质量监测与告警方法、系统、装置和介质
CN112925344B (zh) * 2021-01-25 2022-01-04 南京航空航天大学 基于数据驱动和机器学习的无人机飞行工况预测方法
CN113011455B (zh) * 2021-02-02 2024-01-05 北京数汇通信息技术有限公司 一种空气质量预测svm模型构建方法
CN113011660A (zh) * 2021-03-23 2021-06-22 上海应用技术大学 空气质量预测方法、系统及存储介质
CN113051273B (zh) * 2021-03-30 2021-12-03 天津市生态环境科学研究院 空气质量数据处理方法、装置、电子设备及存储介质
CN113077110A (zh) * 2021-04-21 2021-07-06 国家海洋信息中心 一种基于gru的调和残差分段式潮位预测方法
CN113222140B (zh) * 2021-05-10 2022-09-20 重庆邮电大学 一种基于c4.5算法和bp神经元的配电网故障辅助决策方法
CN113418841B (zh) * 2021-06-23 2023-01-31 四川省生态环境监测总站 一种空气质量颗粒物浓度预测数据的补全方法
CN113610297A (zh) * 2021-08-06 2021-11-05 浙江工业大学之江学院 空气质量预测方法、装置、设备及存储介质
CN113970511A (zh) * 2021-10-21 2022-01-25 天津大学 一种基于bp神经网络的空气颗粒物数据监测系统及方法
CN114676822B (zh) * 2022-03-25 2024-04-23 东南大学 一种基于深度学习的多属性融合空气质量预报方法
CN115018348B (zh) * 2022-06-20 2023-01-17 北京北投生态环境有限公司 基于人工智能的环境分析方法、系统、设备及存储介质
CN115237896B (zh) * 2022-07-12 2023-07-11 四川大学 一种基于深度学习预报空气质量的数据前处理方法及系统
CN115359857A (zh) * 2022-08-22 2022-11-18 盐城工学院 一种基于cart模型和优化rvflnn模型预测pm2.5浓度的方法
CN115656446B (zh) * 2022-12-26 2023-03-14 沃客森信息科技(常州)有限公司 一种基于物联网的空气质量检测系统及方法
CN115907236B (zh) * 2023-02-17 2023-11-03 西南石油大学 基于改进决策树的井下复杂情况预测方法
CN116699072B (zh) * 2023-06-08 2024-01-26 东莞市华复实业有限公司 基于侦测巡航的环境预警方法
CN116859006B (zh) * 2023-09-04 2023-12-01 北京亦庄智能城市研究院集团有限公司 基于大气扩散机制的空气污染监测系统及其监测方法
CN117852717A (zh) * 2024-01-10 2024-04-09 中国气象局气象发展与规划院 基于遗传算法优化反向传播神经网络的台风灾害预测方法
CN117929173A (zh) * 2024-03-18 2024-04-26 中国汽车技术研究中心有限公司 一种汽车碰撞假人肋骨组分力学性能测试对标方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069537A (zh) * 2015-08-25 2015-11-18 中山大学 一种组合式空气质量预报模型的构建方法
CN109492768A (zh) * 2018-12-20 2019-03-19 成都四方伟业软件股份有限公司 空气质量预测模型训练方法及装置
CN109961186A (zh) * 2019-03-22 2019-07-02 大唐环境产业集团股份有限公司 基于决策树和bp神经网络的脱硫系统运行参数预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2630193C1 (ru) * 2016-04-18 2017-09-05 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания прогноза погоды

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069537A (zh) * 2015-08-25 2015-11-18 中山大学 一种组合式空气质量预报模型的构建方法
CN109492768A (zh) * 2018-12-20 2019-03-19 成都四方伟业软件股份有限公司 空气质量预测模型训练方法及装置
CN109961186A (zh) * 2019-03-22 2019-07-02 大唐环境产业集团股份有限公司 基于决策树和bp神经网络的脱硫系统运行参数预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Forecast of Air Quality Based on Ozone by Decision Trees and Neural Networks";N.Loya et al.;《Mexican International Conference on Artificial Intelligence》;20121031;全文 *
"基于CART算法的空气质量指数回归预测模型的学习";陈峰;《上饶师范学院学报》;20161231;第36卷(第6期);第16-21页 *
"基于组合式神经网络的短期电力负荷预测模型";陈耀武 等;《中国电机工程学报》;20010430;第21卷(第4期);第79-82页 *

Also Published As

Publication number Publication date
CN110363347A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363347B (zh) 基于决策树索引的神经网络预测空气质量的方法
Moisan et al. A dynamic multiple equation approach for forecasting PM2. 5 pollution in Santiago, Chile
CN110782093B (zh) 融合ssae深度特征学习和lstm的pm2.5小时浓度预测方法及系统
CN109919353B (zh) 一种基于空间相关性的arima模型的分布式光伏预测方法
Chang-Hoi et al. Development of a PM2. 5 prediction model using a recurrent neural network algorithm for the Seoul metropolitan area, Republic of Korea
CN106920007B (zh) 基于二阶自组织模糊神经网络的pm2.5智能预测方法
CN112465243B (zh) 一种空气质量预报方法及系统
He et al. Numerical model-based artificial neural network model and its application for quantifying impact factors of urban air quality
CN113610243B (zh) 基于耦合机器学习和相关性分析的大气污染物溯源方法
CN112732691A (zh) 一种基于多种模型对比的大气环境预测方法
CN111489015A (zh) 基于多种模型对比和优化的大气o3浓度预测方法
Veeranjaneyulu et al. Air quality improvement and optimisation using machine learning technique
CN111898820A (zh) 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN113987912A (zh) 一种基于地理信息的污染物在线监测系统
Perez et al. Forecasting of hourly PM2. 5 in south-west zone in Santiago de Chile
CN112949895A (zh) 一种基于动态可扩展神经网络模型的风速预测方法
CN112782050A (zh) 基于长短期记忆神经网络的生物气溶胶浓度预测方法
CN113408659A (zh) 一种基于数据挖掘的建筑能耗集成分析方法
CN114882373A (zh) 基于深度神经网络的多特征融合沙尘暴预测方法
CN114822709A (zh) 大气污染多粒度精准成因分析方法及装置
CN113537515A (zh) Pm2.5预测方法、系统、装置及存储介质
CN117370813A (zh) 一种基于k线模式匹配算法的大气污染深度学习预测方法
CN117332815A (zh) 一种工业园区大气污染的预测方法及预测预警系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant