CN112906941B - 面向动态相关空气质量时间序列的预测方法及系统 - Google Patents

面向动态相关空气质量时间序列的预测方法及系统 Download PDF

Info

Publication number
CN112906941B
CN112906941B CN202110083073.1A CN202110083073A CN112906941B CN 112906941 B CN112906941 B CN 112906941B CN 202110083073 A CN202110083073 A CN 202110083073A CN 112906941 B CN112906941 B CN 112906941B
Authority
CN
China
Prior art keywords
data
air quality
predicted values
grid
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110083073.1A
Other languages
English (en)
Other versions
CN112906941A (zh
Inventor
李丽洁
孙剑鑫
韩启龙
宋洪涛
王也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110083073.1A priority Critical patent/CN112906941B/zh
Publication of CN112906941A publication Critical patent/CN112906941A/zh
Application granted granted Critical
Publication of CN112906941B publication Critical patent/CN112906941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)

Abstract

本发明公开了一种面向动态相关空气质量时间序列的预测方法及系统,其中,该方法包括:获取网格气象数据,利用图像卷积法对其进行处理得到污染物时间序列;采用多特征聚类法根据上述数据的不同特征与多种空气污染物之间的相关性对特征分组;根据ARIMA模型对污染物时间序列进行拟合,获得残差序列和一部分预测值,并将其放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到另一部分预测值;利用CNN对历史空气质量数据进行卷积得到空气质量时间序列,并使用ARIMA模型处理得到第三部分预测值,通过softmax函数将上述三部分预测值加权求和,得到最终预测结果。

Description

面向动态相关空气质量时间序列的预测方法及系统
技术领域
本发明涉及时间序列预测技术领域,特别涉及一种面向动态相关空气质量时间序列的预测方法及系统。
背景技术
近年来随着我国经济的建设和社会的发展,以及城市化、现代化的进程加快,人们的生活已经与许许多多不同种类的传感器密切联系在一起,其中对空气污染进行监测的空气质量监测传感器具有很重要的地位。空气质量监测站点就是通过多种传感器显示环境中实时的空气污染物数值的设施,人们将这些数据收集起来与时间按序一一对应就形成了空气质量时间序列,有了这些空气污染的数据就可以做出一定的对策来控制污染,降低危害。但这种传感器只能显示当前时刻的数值和记录历史数据,无法对未来时间的数据进行预测,这就使其应用范围大打折扣,如果可以预测将来的空气污染情况,政府可以及时对污染情况进行预警,并采取相应的应对措施,比如对污染严重的企业进行关停或限产、对公共交通进行限制、对大型活动进行推迟;人们可以避开污染严重的时候并提前安排出行时间或者佩戴口罩等防护措施等等。因此对于空气质量时间序列的预测可以为空气污染的预报和防治提供可靠的依据。
目前的时间序列预测研究存在的问题主要有:(1)传感器时间序列在时间维度上通常既有线性也有非线性特征,缺乏合适的方法同时考虑两种特征。(2)传感器时间序列会受到多种来源、结构不同的多源异构数据影响,并且它们与不同的空气污染物之间可能存在不同程度的跨领域影响,现有方法大多只是简单加入这些外部特征而没有对这种影响进行考虑。(3)传感器时间序列在空间维度上也会受到影响。来自不同传感器的时间序列之间存在相关性,并且这种相关性是动态变化的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种面向动态相关空气质量时间序列的预测方法,该方法能够对空气质量监测站点所在区域的空气质量时间序列数据进行准确的预测,为空气污染的预报和防治提供可靠的依据。
本发明的另一个目的在于提出一种面向动态相关空气质量时间序列的预测系统。
为达到上述目的,本发明一方面实施例提出了面向动态相关空气质量时间序列的预测方法,包括以下步骤:步骤S1,获取监测区域所有空气质量监测站点的网格气象数据;步骤S2,利用图像卷积法对所述网格气象数据进行处理,获得污染物时间序列;步骤S3,采用多特征聚类法根据所述网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组;步骤S4,根据差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将所述残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值;步骤S5,利用卷积神经网络CNN对所述网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理所述包含动态相关性的空气质量时间序列,得到第三部分预测值,通过一个softmax函数将所述第一部分预测值、所述第二部分预测值和所述第三部分预测值加权求和,得到最终预测结果。
本发明实施例的面向动态相关空气质量时间序列的预测方法,同时考虑空气质量时间序列在时间上具有线性和非线性特征,且在空间上具有动态相关性,利用差分自回归滑动平均模型模型ARIMA和多组编解码器对时间序列的线性特征以及非线性特征进行构建,利用卷积神经网络CNN对周围站点产生的影响进行获取和处理,对预测结果进行融合以提高精确度,为空气污染的预报和防治提供可靠的依据。
另外,根据本发明上述实施例的面向动态相关空气质量时间序列的预测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
进一步地,在本发明的一个实施例中,所述步骤S2具体包括:步骤S201,根据所述网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值;步骤S202,将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
进一步地,在本发明的一个实施例中,所述步骤S3具体包括:步骤S301,使用SPSS软件中的双变量皮尔森相关系数对所述历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵;步骤S302,计算所述相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将所述均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;步骤S303,采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果。
进一步地,在本发明的一个实施例中,所述步骤S4具体包括:步骤S401,采用差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,获得所述第一部分预测值以及预测值和观察值之间差值构成的残差序列;步骤S402,将所述残差序列作为一个特征放入特征组中,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组和非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值。
为达到上述目的,本发明另一方面实施例提出了面向动态相关空气质量时间序列的预测系统,包括:获取模块,用于获取监测区域所有空气质量监测站点的网格气象数据;卷积处理模块,用于利用图像卷积法对所述网格气象数据进行处理,获得污染物时间序列;分组模块,用于采用多特征聚类法根据所述网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组;融合和编码模块,用于根据差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将所述残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值;卷积和加权模块,用于利用卷积神经网络CNN对所述网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理所述包含动态相关性的空气质量时间序列,得到第三部分预测值,通过一个softmax函数将所述第一部分预测值、所述第二部分预测值和所述第三部分预测值加权求和,得到最终预测结果。
本发明实施例的面向动态相关空气质量时间序列的预测系统,同时考虑空气质量时间序列在时间上具有线性和非线性特征,且在空间上具有动态相关性,利用差分自回归滑动平均模型ARIMA和多组编解码器对时间序列的线性特征以及非线性特征进行构建,利用卷积神经网络CNN对周围站点产生的影响进行获取和处理,对预测结果进行融合以提高精确度,为空气污染的预报和防治提供可靠的依据。
另外,根据本发明上述实施例的面向动态相关空气质量时间序列的预测系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
进一步地,在本发明的一个实施例中,所述卷积处理模块进一步包括:划分单元,用于根据所述网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值;卷积单元,用于将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
进一步地,在本发明的一个实施例中,所述分组模块进一步包括:分析单元,用于使用SPSS软件中的双变量皮尔森相关系数对所述历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵;计算单元,用于计算所述相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将所述均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;层次聚类分析单元,用于采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果。
进一步地,在本发明的一个实施例中,所述融合和编码模块进一步包括:拟合单元,用于采用差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,获得所述第一部分预测值以及预测值和观察值之间差值构成的残差序列;编码单元,用于将所述残差序列作为一个特征放入特征组中,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组和非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的面向动态相关空气质量时间序列的预测方法的流程图;
图2是本发明一个实施例的面向动态相关空气质量时间序列的预测模型框架图;
图3是本发明一个实施例的面向动态相关空气质量时间序列的预测系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的面向动态相关空气质量时间序列的预测方法及系统,首先将参照附图描述根据本发明实施例提出的面向动态相关空气质量时间序列的预测方法。
图1是本发明一个实施例的面向动态相关空气质量时间序列的预测方法的流程图。
如图1所示,该面向动态相关空气质量时间序列的预测方法包括以下步骤:
在步骤S1中,获取监测区域所有空气质量监测站点的网格气象数据,其中,网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
具体地,本发明实施例可从官方网站下载公开的中国主要城市区域的空气质量监测站历史数据集,从中选择待预测区域范围内的所有监测站的污染物历史数据,经过去除异常数据、补充缺失数据、和标准化处理后作为该区域的历史空气质量特征。具体包括每个站点一年时间的6种空气污染物浓度值及每条数据的获取时间,污染物分别是PM2.5、PM10、二氧化硫SO2、二氧化氮NO2、一氧化碳CO和臭氧O3,每条数据间隔一个小时,将历史空气质量特征定义为
Figure BDA0002909805990000041
其中,
Figure BDA0002909805990000042
k为污染物数量,T为时间。
进一步地,本发明实施例可通过美国国家环境预报中心的全球预报系统下载监测区域的网格形式的气象数据、天气预报数据。两种数据的属性都为温度、湿度、风速,每条数据时间间隔为1个小时,其中天气包括十七种情况,分别是晴天、多云、阴天、雨天、小雨、中雨、大雨、暴雨、雷暴、冻雨、雪天、小雪、中雪、大雪、雾天、沙尘暴、扬尘,采用one-hot方法进行编码。将气象特征定义为
Figure BDA0002909805990000043
其中,
Figure BDA0002909805990000044
h为气象特征中天气参数的个数,c为所选网格的大小;将天气预报特征定义为
Figure BDA0002909805990000045
τ为未来一段时间窗的长度。
进一步地,本发明实施例可通过调取百度地图API获得监测区域的POI兴趣点数据,根据兴趣点的地理坐标将每个兴趣点分到邻近监测站点下,兴趣点数据包括类别和数量两个属性,其中,类别分为15种,分别是餐饮、住宿、文体娱乐、生活服务、教育、房产、企事业单位、公共服务设施、购物、出行、金融服务、汽车服务、医疗、旅游、行政机构,采用one-hot方法进行编码;通过OpenStreetMap网站下载监测区域的道路网数据,属性包括道路类型和监测站点附近的道路数量。对于待预测站点s,其兴趣点特征为sP,包括兴趣点的类型和监测站点周围的站点数量两个属性;路网特征为sR,包括路段的类型和监测站点周围的道路数量两个属性。
在步骤S2中,利用图像卷积法对网格气象数据进行处理,获得污染物时间序列。
也就是说,采用基于图像卷积的方法对网格气象数据进行处理以获得气象特征对空气质量监测站点级别的空气污染物的影响。
进一步地,在本发明的一个实施例中,步骤S2具体包括:
步骤S201,根据网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值;
步骤S202,将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
举例而言,根据从官方网站下载到的网格数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值都代表该区域内的气象特征数值;将监测区域的网格视为矩阵,以待预测的监测站点为中心对周围5*5大小的网格矩阵使用一个3*3大小的卷积核进行两次卷积,得到一个数值作为该监测站点的气象数据。
在步骤S3中,采用多特征聚类法根据网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组。
换句话说,如图2所示,采用一种基于多特征聚类的方法根据不同特征与多种空气污染物之间的相关性对特征进行分组。
进一步地,在本发明的一个实施例中,步骤S3具体包括:
步骤S301,使用SPSS软件中的双变量皮尔森相关系数对历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵;
步骤S302,计算相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;
步骤S303,采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果。
例如,使用SPSS软件中的双变量皮尔森相关系数对6种污染物和3种气象因素共9种特征的历史数据进行分析得到每种特征之间的相关性构成的矩阵;计算相关系数矩阵中任意特征组中每个特征与其他所有特征的距离,将所有距离的均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果。
在步骤S4中,根据差分自回归滑动平均模型ARIMA对污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值。
具体地,如图2所示,采用差分自回归滑动平均模型ARIMA对要预测的污染物时间序列进行拟合获得第一部分预测值Xt以及预测值和观察值之间差值构成的残差序列et,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组合非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值
Figure BDA0002909805990000061
在步骤S5中,利用卷积神经网络CNN对网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理包含动态相关性的空气质量时间序列,得到第三部分预测值,通过softmax函数将第一部分预测值、第二部分预测值和第三部分预测值加权求和,得到最终预测结果。
具体地,如图2所示,采用卷积神经网络CNN对网格形式的包括站点周围其他监测站点数据的历史空气质量数据进行处理获得包含动态相关性的空气质量时间序列;采用差分自回归滑动平均模型ARIMA对该时间序列进行拟合获得第三部分预测值Ct;采用softmax函数将上述三部分预测值加权求和得到最终的预测结果
Figure BDA0002909805990000062
综上,针对时间序列在时间维度上具有多种特征的问题、现有方法对多种因素与不同的空气污染物之间可能存在不同程度的跨领域影响考虑不足的问题、以及传感器时间序列在空间维度上存在动态相关性的问题,本发明实施例提出的面向动态相关空气质量时间序列的预测方法,同时考虑空气质量时间序列在时间上具有线性和非线性特征,且在空间上具有动态相关性,利用差分自回归滑动平均模型ARIMA和多组编解码器对时间序列的线性特征以及非线性特征进行构建,利用卷积神经网络CNN对周围站点产生的影响进行获取和处理,对预测结果进行融合以提高精确度,为空气污染的预报和防治提供可靠的依据。
其次参照附图描述根据本发明实施例提出的面向动态相关空气质量时间序列的预测系统。
图3是本发明一个实施例的面向动态相关空气质量时间序列的预测系统。
如图3所示,该系统10包括:获取模块100、卷积处理模块200、分组模块300、融合和编码模块400和卷积和加权模块500。
其中,获取模块100用于获取监测区域所有空气质量监测站点的网格气象数据。卷积处理模块200用于利用图像卷积法对网格气象数据进行处理,获得污染物时间序列。分组模块300用于采用多特征聚类法根据网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组。融合和编码模块400用于根据差分自回归滑动平均模型ARIMA对污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值。卷积和加权模块500用于利用卷积神经网络CNN对网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理包含动态相关性的空气质量时间序列,得到第三部分预测值,通过softmax函数将第一部分预测值、第二部分预测值和第三部分预测值加权求和,得到最终预测结果。
进一步地,在本发明的一个实施例中,网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
进一步地,在本发明的一个实施例中,卷积处理模块200进一步包括:划分单元201用于根据网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值。卷积单元202用于将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
进一步地,在本发明的一个实施例中,分组模块300进一步包括:分析单元301用于使用SPSS软件中的双变量皮尔森相关系数对历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵。计算单元302用于计算相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将均值作为两个特征组间的距离,生成各特征间的平均距离矩阵。层次聚类分析单元303用于采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果。
进一步地,在本发明的一个实施例中,融合和编码模块500进一步包括:拟合单元501用于采用差分自回归滑动平均模型ARIMA对污染物时间序列进行拟合,获得第一部分预测值以及预测值和观察值之间差值构成的残差序列。编码单元502用于将残差序列作为一个特征放入特征组中,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组和非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值。
需要说明的是,前述对面向动态相关空气质量时间序列的预测方法的实施例的解释说明也适用于该系统,此处不再赘述。
根据本发明实施例提出的面向动态相关空气质量时间序列的预测系统,同时考虑空气质量时间序列在时间上具有线性和非线性特征,且在空间上具有动态相关性,利用差分自回归滑动平均模型ARIMA和多组编解码器对时间序列的线性特征以及非线性特征进行构建,利用卷积神经网络CNN对周围站点产生的影响进行获取和处理,对预测结果进行融合以提高精确度,为空气污染的预报和防治提供可靠的依据。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种面向动态相关空气质量时间序列的预测方法,其特征在于,包括以下步骤:
步骤S1,获取监测区域所有空气质量监测站点的网格气象数据;
步骤S2,利用图像卷积法对所述网格气象数据进行处理,获得污染物时间序列;
步骤S3,采用多特征聚类法根据所述网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组,具体包括:
步骤S301,使用SPSS软件中的双变量皮尔森相关系数对历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵;
步骤S302,计算所述相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将所述均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;
步骤S303,采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果;
步骤S4,根据差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将所述残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值,具体包括:
步骤S401,采用差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,获得所述第一部分预测值以及预测值和观察值之间差值构成的残差序列;
步骤S402,将所述残差序列作为一个特征放入特征组中,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组和非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值;
步骤S5,利用卷积神经网络CNN对所述网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理所述包含动态相关性的空气质量时间序列,得到第三部分预测值,通过softmax函数将所述第一部分预测值、所述第二部分预测值和所述第三部分预测值加权求和,得到最终预测结果。
2.根据权利要求1所述的面向动态相关空气质量时间序列的预测方法,其特征在于,所述网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
3.根据权利要求1所述的面向动态相关空气质量时间序列的预测方法,其特征在于,所述步骤S2具体包括:
步骤S201,根据所述网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值;
步骤S202,将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
4.一种面向动态相关空气质量时间序列的预测系统,其特征在于,包括:
获取模块,用于获取监测区域所有空气质量监测站点的网格气象数据;
卷积处理模块,用于利用图像卷积法对所述网格气象数据进行处理,获得污染物时间序列;
分组模块,用于采用多特征聚类法根据所述网格气象数据的不同特征与多种空气污染物之间的相关性对特征进行分组;
融合和编码模块,用于根据差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,以获得残差序列和第一部分预测值,并将所述残差序列作为一个特征放入特征组中,根据不同特征组的数据是否为序列形式将其输入到不同的编码器中,然后将结果融合后输入解码器中进行预测得到第二部分预测值,具体包括:
分析单元,用于使用SPSS软件中的双变量皮尔森相关系数对历史空气质量数据进行分析,得到每种特征之间的相关系数矩阵;
计算单元,用于计算所述相关系数矩阵中任意特征组中每个特征与其他所有特征的距离并求均值,将所述均值作为两个特征组间的距离,生成各特征间的平均距离矩阵;
层次聚类分析单元,用于采用相关性距离法作为度量方法、以平均距离矩阵为基础进行自底向上的层次聚类分析,生成聚类结果;
卷积和加权模块,用于利用卷积神经网络CNN对所述网格气象数据的历史空气质量数据进行卷积,以获得包含动态相关性的空气质量时间序列,并使用差分自回归滑动平均模型ARIMA处理所述包含动态相关性的空气质量时间序列,得到第三部分预测值,通过softmax函数将所述第一部分预测值、所述第二部分预测值和所述第三部分预测值加权求和,得到最终预测结果,具体包括:
拟合单元,用于采用差分自回归滑动平均模型ARIMA对所述污染物时间序列进行拟合,获得所述第一部分预测值以及预测值和观察值之间差值构成的残差序列;
编码单元,用于将所述残差序列作为一个特征放入特征组中,采用基于门控循环单元网络GRU和前馈神经网络FNN的多组编解码器分别对序列形式的特征组和非序列形式的特征进行编码,将结果融合后输入解码器进行预测得到第二部分预测值。
5.根据权利要求4所述的面向动态相关空气质量时间序列的预测系统,其特征在于,所述网格气象数据包括历史空气质量数据、基于网格形式的高频天气预报和气象数据、兴趣点数据和路网数据。
6.根据权利要求4所述的面向动态相关空气质量时间序列的预测系统,其特征在于,所述卷积处理模块进一步包括:
划分单元,用于根据所述网格气象数据将监测区域划分为由形状和大小一致的网格单元组成的集合体,每个方格内的数值代表该区域内的气象特征数值;
卷积单元,用于将划分后的监测区域的网格视为矩阵,以待预测监测站点为中心对周围n*n大小的网格矩阵使用卷积核进行卷积,得到一个数值作为该监测站点的气象数据。
CN202110083073.1A 2021-01-21 2021-01-21 面向动态相关空气质量时间序列的预测方法及系统 Active CN112906941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110083073.1A CN112906941B (zh) 2021-01-21 2021-01-21 面向动态相关空气质量时间序列的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110083073.1A CN112906941B (zh) 2021-01-21 2021-01-21 面向动态相关空气质量时间序列的预测方法及系统

Publications (2)

Publication Number Publication Date
CN112906941A CN112906941A (zh) 2021-06-04
CN112906941B true CN112906941B (zh) 2022-12-06

Family

ID=76118105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110083073.1A Active CN112906941B (zh) 2021-01-21 2021-01-21 面向动态相关空气质量时间序列的预测方法及系统

Country Status (1)

Country Link
CN (1) CN112906941B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434724A (zh) * 2021-06-25 2021-09-24 万里云医疗信息科技(北京)有限公司 图像检索方法、装置、电子设备和计算机可读存储介质
CN114266200B (zh) * 2022-02-24 2022-07-05 山东大学 二氧化氮浓度预测方法及系统
CN115237896B (zh) * 2022-07-12 2023-07-11 四川大学 一种基于深度学习预报空气质量的数据前处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160628A (zh) * 2019-12-13 2020-05-15 重庆邮电大学 一种基于CNN和双注意力seq2seq的空气污染物浓度预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492830B (zh) * 2018-12-17 2021-08-31 杭州电子科技大学 一种基于时空深度学习的移动污染源排放浓度预测方法
CN113366473A (zh) * 2019-02-15 2021-09-07 华为技术有限公司 用于自动选择用于数据流时间序列预测的模型的方法和系统
CN110598953A (zh) * 2019-09-23 2019-12-20 哈尔滨工程大学 一种时空相关的空气质量预测方法
CN111143768A (zh) * 2019-11-08 2020-05-12 昆明理工大学 一种基于arima-svm组合模型的空气质量预测算法
CN111798051B (zh) * 2020-07-02 2023-11-10 杭州电子科技大学 基于长短期记忆神经网络的空气质量时空预测方法
CN112232543A (zh) * 2020-08-31 2021-01-15 北京工业大学 一种基于图卷积网络的多站点预测方法
CN112053004A (zh) * 2020-09-14 2020-12-08 胜斗士(上海)科技技术发展有限公司 用于时间序列预测的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160628A (zh) * 2019-12-13 2020-05-15 重庆邮电大学 一种基于CNN和双注意力seq2seq的空气污染物浓度预测方法

Also Published As

Publication number Publication date
CN112906941A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906941B (zh) 面向动态相关空气质量时间序列的预测方法及系统
Shi et al. Investigating the influence of urban land use and landscape pattern on PM2. 5 spatial variation using mobile monitoring and WUDAPT
Chang et al. An LSTM-based aggregated model for air pollution forecasting
Gao et al. Assessing neighborhood air pollution exposure and its relationship with the urban form
Yang et al. New method for evaluating winter air quality: PM2. 5 assessment using Community Multi-Scale Air Quality Modeling (CMAQ) in Xi'an
Matějíček et al. A GIS-based approach to spatio-temporal analysis of environmental pollution in urban areas: A case study of Prague's environment extended by LIDAR data
Song et al. Deep-MAPS: Machine-learning-based mobile air pollution sensing
Xu et al. A hybrid Grey-Markov/LUR model for PM10 concentration prediction under future urban scenarios
Li et al. What drives the aerosol distribution in Guangdong-the most developed province in Southern China?
CN110738354B (zh) 预测颗粒物浓度的方法、装置、存储介质及电子设备
CN110261272B (zh) 基于地理探测和pca对pm2.5浓度分布的关键影响因子筛选方法
CN114578457B (zh) 一种基于进化集成学习的大气污染物浓度时空预测方法
CN112461799B (zh) 一种获取高速公路团雾能见度的方法及装置
CN113011455B (zh) 一种空气质量预测svm模型构建方法
CN115203189A (zh) 融合多源数据提升大气传输量化能力的方法及可视化系统
Cheng et al. Spatiotemporal variability and influencing factors of aerosol optical depth over the Pan Yangtze River Delta during the 2014–2017 period
Zhang et al. Large-eddy simulation of traffic-related air pollution at a very high resolution in a mega-city: evaluation against mobile sensors and insights for influencing factors
CN115453069A (zh) 一种面向城市臭氧超标污染遥感溯源方法
Zhang et al. Land use regression for spatial distribution of urban particulate matter (PM10) and sulfur dioxide (SO2) in a heavily polluted city in Northeast China
CN114822709A (zh) 大气污染多粒度精准成因分析方法及装置
Husni et al. Microclimate investigation of vehicular traffic on the urban heat island through IoT-Based device
Rincon et al. Spatio-temporal statistical analysis of PM1 and PM2. 5 concentrations and their key influencing factors at Guayaquil city, Ecuador
Dong et al. Satellite-based estimates of daily NO2 exposure in urban agglomerations of China and application to spatio-temporal characteristics of hotspots
Zhao et al. Airnet: a machine learning dataset for air quality forecasting
CN111178631B (zh) 一种水浮莲入侵分布区预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant