CN114511087A - 一种基于双模型的空气质量空间推断方法及系统 - Google Patents
一种基于双模型的空气质量空间推断方法及系统 Download PDFInfo
- Publication number
- CN114511087A CN114511087A CN202210407489.9A CN202210407489A CN114511087A CN 114511087 A CN114511087 A CN 114511087A CN 202210407489 A CN202210407489 A CN 202210407489A CN 114511087 A CN114511087 A CN 114511087A
- Authority
- CN
- China
- Prior art keywords
- air quality
- space
- model
- data
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于双模型的空气质量空间推断方法及系统,该方法包括构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。本发明极大提高了模型的鲁棒性和准确性,并且推断网格高值和污染事件相对应,对污染溯源提供了坚实的模型基础。
Description
技术领域
本发明涉及环境空气监测技术领域,具体涉及一种基于双模型的空气质量空间推断方法及系统。
背景技术
随着大数据、云计算、人工智能、物联网等技术的高速发展,固定/移动双网融合+智能数据模型/决策支持使大气环境高密度、高精度监测以及科学溯源和政策指引成为可能。
由于现有的空气质量监测方式通常采用移动+固定监测站,仅仅只能实现对城市局部空间的空气质量进行监测。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于双模型的空气质量空间推断方法及系统。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,本发明提出了一种基于双模型的空气质量空间推断方法,包括以下步骤:
构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
进一步地,所述构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类,具体包括:
对空气质量数据采集源触发的污染事件进行空气质量数据采集;
对采集的污染事件的空气质量数据进行预处理;
根据预处理结果将全局空间按照设定空间尺度在大气六种污染物维度划分为有污染网格和无污染网格。
进一步地,所述对采集的污染事件的空气质量数据进行预处理,具体包括:
根据空气质量数据采集源的不同类型确定所触发的污染事件的污染物;
根据可溯污染源与空气质量数据采集源的最大距离确定污染事件的污染半径;
根据污染事件触发位置信息和污染半径确定每种污染物对应的有污染网格。
进一步地,所述构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征,具体包括:
获取任意时间戳和任意网格所代表的时空单元的多源特征,以及局部时空单元对应的已知空气质量数据;所述多源特征包括监测区域环境的静态空气质量特征和动态空气质量特征;
对获取的多源特征和空气质量数据进行预处理;
遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的设定数量的空气质量特征加入模型特征集合中;
根据模型特征集合中的空气质量特征和对应的已知空气质量数据,建立相应的回归模型;
分别计算各个回归模型的赤池值,从模型特征集合中剔除最小赤池值之外的空气质量特征;
判断是否存在未遍历的空气质量特征;若是,则进行下一步骤;否则结束流程;
将设定数量与模型特征集合中特征数量差值的空气质量特征加入模型特征集合中;
根据模型特征集合中的空气质量特征和对应的空气质量数据,建立相应的回归模型;
分别计算各个回归模型的赤池值;
判断当前的最小赤池值是否小于前一轮的最小赤池值;若是,则从模型特征集合中剔除最小赤池值之外的新加入的空气质量特征;否则从模型特征集合中剔除所有新加入的空气质量特征;
判断模型特征集合中特征数量是否不再增加或是否已遍历完所有空气质量特征;若是,则得到模型特征集合中选择的最优空气质量特征;否则继续遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的空气质量特征。
进一步地,所述对获取的多源特征和空气质量数据进行预处理,具体包括:
对多源特征中的空值采用插值算法进行数据填补;
对时间维度的缺失数据采用上一时间戳的数据进行数据填充;
根据时间戳生成不同时间维度特征。
进一步地,所述利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型,具体包括:
利用最优空气质量特征和对应的已知空气质量数据构成数据集;
采用五折交叉方式将数据集划分为训练集和测试集;
采用LightGBM模型构建空气质量空间推断模型,并设置模型参数为提升类型、树的最大深度、最大叶子数、学习速率、基学习器数量、目标、叶子节点中的最少数据、将特征值放入桶中的最大箱数;
通过网格搜索方法生成模型参数的所有参数组合,并利用训练集和测试集分别训练空气质量空间推断模型;
分别计算训练后的空气质量空间推断模型的五折交叉验证准确率,并选取最优的空气质量空间推断模型参数组合重新训练空气质量空间推断模型。
进一步地,所述利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据,具体包括:
利用训练后的空气质量空间推断模型,根据每种污染物在全局空间内所有时空单元对应的有污染网格和无污染网格下的空气质量特征推断对应的空气质量数据;
将每种污染物在有污染网格和无污染网格下推断的空气质量数据结果进行合并,得到各个时空单元对应的空气质量数据。
第二方面,本发明提出了一种基于双模型的空气质量空间推断系统,包括:
网格划分子模型模块,用于构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
特征选择模型模块,用于构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
推断模型训练模块,用于利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
空气质量推断模块,用于利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
本发明具有以下有益效果:
(1)本发明在固定/移动的双网监测背景下提出一个智能的城市高精度大气微环境感知方案,利用网格化城市多源大数据以及机器学习模型挖掘空气质量(污染物)排放、聚集、传输和消散的机理,并且准确可靠地推断城市局部空气质量情况。
(2)本发明采用主子模型结合的形式,既采集了对城市空气质量数据高度相关的动静态数据,同时又吸纳了多种数据采集源触发的污染事件,并且对进入最终模型的多源特征进行特征选择,这种动静结合、常规和突发相结合的形式极大提高了模型的鲁棒性和准确性,并且推断网格高值和污染事件相对应,对污染溯源提供了坚实的模型基础。
附图说明
图1为本发明实施例1提供的一种基于双模型的空气质量空间推断方法流程示意图;
图2为本发明实施例2提供的一种基于双模型的空气质量空间推断系统结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本发明通过数据采集源触发的污染事件给全域空间网格分类,把全域网格在大气六参(PM2.5, PM10, SO2, NO2, CO, O3)维度分为有污染网格和无污染网格,然后将固定+移动式“双网监测”所提供的局部实测空气质量数据,和与之高度相关或隐式相关的城市多源大数据(地理、用地、工商、生活等静态数据以及气象、交通、运渣车等动态数据)分别训练大气六参有污染网格和无污染网格的推断模型;进而利用网格化的多源大数据,推断全域每个空间网格的大气六参浓度值,实现城市千米级和小时级的全时、全域、全面的城市空气质量推断。
实施例1
如图1所示,本发明实施例提供了一种基于双模型的空气质量空间推断方法,包括以下步骤S1至步骤S4:
步骤S1、构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
在本步骤中,本发明通过构建网格划分子模型,实现根据空气质量数据采集源触发的污染事件对全局空间进行网格分类。该过程具体包括以下分步骤S1-1至步骤S1-3:
步骤S1-1、对空气质量数据采集源触发的污染事件进行空气质量数据采集;
具体而言,本发明采用固定监测站、移动监测站、交通、运渣车、巡查上报等多种空气质量数据采集源捕获城市污染事件,对所触发的污染事件进行空气质量数据采集,从而确定所触发的污染事件的污染物。其中污染物包括大气六种污染物(PM2.5,PM10,CO,NO2,SO2,O3)。
步骤S1-2、对采集的污染事件的空气质量数据进行预处理;
具体而言,本发明需要对采集的污染事件的空气质量数据进行预处理,从而实现后续针对污染物进行网格分类。该过程具体包括以下分步骤S1-2-1至步骤S1-2-3:
步骤S1-2-1、根据空气质量数据采集源的不同类型确定所触发的污染事件的污染物;
具体而言,本发明对固定监测站和移动监测站触发的污染事件,可以根据监测的空气质量数据确定污染物;对交通和运渣车驻点可以根据实际环境设定污染物为PM2.5、PM10、NO2,对于降雨环境,则设定污染物只有NO2。
步骤S1-2-2、根据可溯污染源与空气质量数据采集源的最大距离确定污染事件的污染半径;
具体而言,本发明对固定监测站和移动监测站触发的污染事件的污染半径可以设置为可溯污染源的最远距离,通常最大为750m;其他污染事件的污染半径固定设置为300m。
步骤S1-2-3、根据污染事件触发位置信息和污染半径确定每种污染物对应的有污染网格。
具体而言,本发明以污染事件触发位置信息,如经纬度数据为中心,以确定的污染半径形成气泡区域,从而确定每种污染物对应的有污染网格。
步骤S1-3、根据预处理结果将全局空间按照设定空间尺度在大气六种污染物维度划分为有污染网格和无污染网格。
具体而言,本发明首先对需要进行空气质量监测的监测区域全局空间按照设定空间尺度进行网格化划分,其中采用的空间尺度可以为1×1千米,2×2千米等;然后根据预处理结果,将划分的网格在大气六种污染物维度分类为有污染网格和无污染网格,即针对大气六种污染物的每一种污染物分别在全局空间划分的网格分类为有污染网格和无污染网格。
本发明采用固定监测站、移动监测站、交通、运渣车、巡查上报等多种方式捕获城市污染事件,并通过污染范围确定污染网格,进而把全域网格分类,分为有污染网格和无污染网格,构建网格划分子模型。网格划分子模型的网格分类方法让高值网格和低值网格分开训练模型,提高了模型的准确率,并且使得网格推断结果也对应了污染事件,对推断结果为高值的网格实现精准溯源。
步骤S2、构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
在本步骤中,本发明为了尽可能拟合空气质量的变化趋势,避免模型欠拟合,采集了丰富的城市静态和动态特征;而由于城市多源大数据特征之间可能存在相关性,特征的多重共线性会使模型过拟合;为了避免过拟合,提高模型的泛化能力,在特征进入推断模型前,本发明通过构建特征选择模型,实现根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征。该过程具体包括以下分步骤S2-1至步骤S2-11:
步骤S2-1、获取任意时间戳和任意网格所代表的时空单元的多源特征,以及局部时空单元对应的已知空气质量数据;所述多源特征包括监测区域环境的静态空气质量特征和动态空气质量特征;
具体而言,本发明一方面获取任意时间戳和任意网格所代表的时空单元的多源特征;其中时间戳是指将时间离散化后的时间区间,如一小时;时空单元是指网格与时间戳的笛卡尔乘积,每一个网格在每一特定时间戳作为一个时空单元;多源特征是指反映污染源时空分布的城市多源大数据,包括地理、用地、工商、生活等城市网格化静态空气质量特征,以及城市气象、交通、运渣车等动态空气质量特征。
另一方面,本发明采用固定监测站+移动监测站组合的双网检测方式对局部时空单元的实时空气质量数据进行监测。
步骤S2-2、对获取的多源特征和空气质量数据进行预处理;
具体而言,本发明需要对获取的多源特征和空气质量数据进行预处理,从而实现后续进行回归模型训练。该过程具体包括以下分步骤S2-2-1至步骤S2-2-3:
步骤S2-2-1、对多源特征中的空值采用插值算法进行数据填补;
本发明对空气质量特征中出现的空值采用线性插值算法来填补缺失值。线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法。
步骤S2-2-2、对时间维度的缺失数据采用上一时间戳的数据进行数据填充;
步骤S2-2-3、根据时间戳生成不同时间维度特征,如季节、月、周、星期、节假日、小时等时间维度特征。
步骤S2-3、遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的设定数量的空气质量特征加入模型特征集合中;
具体而言,本发明针对已采集空气质量数据的局部时空单元,分别遍历每种污染物在有污染网格和无污染网格下的设定数量的空气质量特征,即对每种污染物在有污染网格下的空气质量特征和无污染网格下的空气质量特征分别遍历k个空气质量特征加入模型特征集合中进行后续模型训练。
步骤S2-4、根据模型特征集合中的空气质量特征和对应的已知空气质量数据,建立相应的回归模型;
具体而言,本发明根据加入模型特征集合中的k个空气质量特征和所在时空单元对应的已知空气质量数据建立k个回归模型。其中回归模型可以采用最小二乘线性回归模型、向前逐步回归模型等。
步骤S2-5、分别计算各个回归模型的赤池值,从模型特征集合中剔除最小赤池值之外的空气质量特征;
具体而言,本发明针对步骤S2-4建立的k个回归模型,分别计算模型的赤池值,从而在城市多源特征集中选择出对每个污染物有显著影响的特征。
其中赤池值的计算方式为:
AIC=2k+n(ln(SSR/n))
其中,AIC 为赤池值,n为已知空气质量数据的数量,SSR为已知空气质量数据的残差平方和。在n固定的情况下,k越小,AIC越小,SSR越小,AIC越小,而k越小代表着模型越简洁,SSR越小代表着模型越精准,即拟合度越好。综上所诉,AIC越小,即模型就越简洁和精准。
因此本发明从计算的k个回归模型的赤池值中选取最小赤池值的模型所对应的空气质量特征作为当前最优空气质量特征保留在模型特征集合中,并且从模型特征集合中剔除最小赤池值之外的空气质量特征。
步骤S2-6、判断是否存在未遍历的空气质量特征;若是,则进行下一步骤;否则结束流程;
具体而言,本发明采用数量k作为遍历尺度依次遍历每种污染物的所有空气质量特征,并且在每次遍历后判断是否存在未遍历的空气质量特征,从而保证遍历数据的准确性。
步骤S2-7、将设定数量与模型特征集合中特征数量差值的空气质量特征加入模型特征集合中;
具体而言,本发明将设定数量与模型特征集合中特征数量差值的空气质量特征加入模型特征集合中,使得模型特征集合中始终包含k个空气质量特征。以本轮遍历为例,由于选取了1个最优空气质量特征保留在模型特征集合中,因此重新遍历选取k-1个空气质量特征加入模型特征集合中。
步骤S2-8、根据模型特征集合中的空气质量特征和对应的空气质量数据,建立相应的回归模型;
步骤S2-9、分别计算各个回归模型的赤池值;
步骤S2-10、判断当前的最小赤池值是否小于前一轮的最小赤池值;若是,则从模型特征集合中剔除最小赤池值之外的新加入的空气质量特征;否则从模型特征集合中剔除所有新加入的空气质量特征;
具体而言,本发明通过从新加入的空气质量特征建立的回归模型的赤池值中选取最小赤池值,判断当前的最小赤池值是否小于前一轮的最小赤池值,即比较k-1个回归模型的赤池值中最小赤池值是否小于前一轮的最小赤池值;若是,则将当前的最小赤池值的模型所对应的空气质量特征作为当前最优空气质量特征保留在模型特征集合中,并且从模型特征集合中剔除当前最优空气质量特征和之前保留的最优空气质量特征之外的空气质量特征。
然后返回步骤S2-6继续遍历剩余空气质量特征。
步骤S2-11、判断模型特征集合中特征数量是否不再增加或是否已遍历完所有空气质量特征;若是,则得到模型特征集合中选择的最优空气质量特征;否则返回步骤S2-3,继续遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的空气质量特征。
本发明通过重复上述遍历步骤S2-3至步骤S2-10,直到模型特征集合中特征数量不再增加或遍历完所有空气质量特征为止,最终得到模型特征集合中选择的最优空气质量特征。
本发明将空气质量特征逐个引入回归模型,每引入一个特征后都要进行AIC检验,当引入的特征不会使模型AIC降低,则将其删除,以确保每次引入新的特征之前回归模型中只包含显著性特征。通过不断迭代,直到既没有显著的特征选入回归模型,也没有不显著的特征从回归模型中剔除为止,以保证最后所得到的特征集是最优的。经过逐步回归筛选出每个模型的最优特征集之后,再把特征集输入到推断模型中进行空间网格推断。
步骤S3、利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
在本步骤中,本发明通过利用最优空气质量特征和对应的已知空气质量数据构成数据集,进而训练空气质量空间推断模型,具体包括以下分步骤S3-1至步骤S3-5:
步骤S3-1、利用最优空气质量特征和对应的已知空气质量数据构成数据集;
具体而言,本发明通过将步骤S2选择出来的最优空气质量特征,和对应的已知网格的空气质量数据构成数据集。把数据集划分为训练集和测试集,用训练集训练模型,测试集评估模型的好坏。通过调参,得到最优模型。
步骤S3-2、采用五折交叉方式将数据集划分为训练集和测试集;
具体而言,本发明采用五折交叉验证综合评估模型效果,对数据集进行4:1随机划分,划分为5份,每次实验拿一份做测试,其余用做训练,实验5次求模型误差的平均值来评估模型。
步骤S3-3、采用LightGBM模型构建空气质量空间推断模型,并设置模型参数为提升类型、树的最大深度、最大叶子数、学习速率、基学习器数量、目标、叶子节点中的最少数据、将特征值放入桶中的最大箱数;
具体而言,本发明采用LightGBM模型构建空气质量空间推断模型,并设置模型参数为提升类型“boosting_type”,树的最大深度“max_depth”,最大叶子数“num_leaves”,学习速率“learning_rate”,基学习器数量“n_estimators”,目标“objective”,叶子节点中的最少数据“min_child_samples”,将特征值放入桶中的最大箱数“max_bin”。
步骤S3-4、通过网格搜索方法生成模型参数的所有参数组合,并利用训练集和测试集分别训练空气质量空间推断模型;
具体而言,本发明采用网格搜索调参方式,使用穷举的思路将需要调整的模型参数的所有组合罗列出来,每个参数组合训练一个模型得到一个五折交叉验证准确率。
步骤S3-5、分别计算训练后的空气质量空间推断模型的五折交叉验证准确率,并选取最优的空气质量空间推断模型参数组合重新训练空气质量空间推断模型。
具体而言,本发明对每个参数预设若干个预选值,通过网格搜索 选择出最优的一组参数并重新训练最终模型。
本发明采用LightGBM模型进行空气质量推断,具有支持并行化学习、低内存使用、速度快、支持直接使用分类特征、高准确率等特点,丰富而全面的特征使模型能够很好的拟合空气质量的变化趋势,并且计算速度极快。
步骤S4、利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
在本步骤中,本发明利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据,具体包括以下分步骤S4-1至步骤S4-2:
步骤S4-1、利用训练后的空气质量空间推断模型,根据每种污染物在全局空间内所有时空单元对应的有污染网格和无污染网格下的空气质量特征推断对应的空气质量数据;
步骤S4-2、将每种污染物在有污染网格和无污染网格下推断的空气质量数据结果进行合并,得到各个时空单元对应的空气质量数据。
本发明利用局部已知网格的显著性最优空气质量特征和对应的空气质量数据训练每个污染物在有污染网格和无污染网格的空气质量空间推断模型,能够保证模型推断的准确性;因此可以利用训练后的空气质量空间推断模型根据全局空间内未知网格的最优空气质量特征推断每个污染物在有污染网格和无污染网格的空气质量数据。通过将推断的每个污染物在有污染网格和无污染网格的空气质量数据结果进行合并,从而得到全局空间内各个时空单元对应的空气质量数据,即大气六参浓度值。
实施例2
如图2所示,本发明实施例提供了一种基于双模型的空气质量空间推断系统,包括:
网格划分子模型模块,用于构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
特征选择模型模块,用于构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
推断模型训练模块,用于利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
空气质量推断模块,用于利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
本发明实施例提供的基于双模型的空气质量空间推断系统具有实施例1所描述的基于双模型的空气质量空间推断方法的有益效果。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (8)
1.一种基于双模型的空气质量空间推断方法,其特征在于,包括以下步骤:
构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
2.根据权利要求1所述的基于双模型的空气质量空间推断方法,其特征在于,所述构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类,具体包括:
对空气质量数据采集源触发的污染事件进行空气质量数据采集;
对采集的污染事件的空气质量数据进行预处理;
根据预处理结果将全局空间按照设定空间尺度在大气六种污染物维度划分为有污染网格和无污染网格。
3.根据权利要求2所述的基于双模型的空气质量空间推断方法,其特征在于,所述对采集的污染事件的空气质量数据进行预处理,具体包括:
根据空气质量数据采集源的不同类型确定所触发的污染事件的污染物;
根据可溯污染源与空气质量数据采集源的最大距离确定污染事件的污染半径;
根据污染事件触发位置信息和污染半径确定每种污染物对应的有污染网格。
4.根据权利要求1所述的基于双模型的空气质量空间推断方法,其特征在于,所述构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征,具体包括:
获取任意时间戳和任意网格所代表的时空单元的多源特征,以及局部时空单元对应的已知空气质量数据;所述多源特征包括监测区域环境的静态空气质量特征和动态空气质量特征;
对获取的多源特征和空气质量数据进行预处理;
遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的设定数量的空气质量特征加入模型特征集合中;
根据模型特征集合中的空气质量特征和对应的已知空气质量数据,建立相应的回归模型;
分别计算各个回归模型的赤池值,从模型特征集合中剔除最小赤池值之外的空气质量特征;
判断是否存在未遍历的空气质量特征;若是,则进行下一步骤;否则结束流程;
将设定数量与模型特征集合中特征数量差值的空气质量特征加入模型特征集合中;
根据模型特征集合中的空气质量特征和对应的空气质量数据,建立相应的回归模型;
分别计算各个回归模型的赤池值;
判断当前的最小赤池值是否小于前一轮的最小赤池值;若是,则从模型特征集合中剔除最小赤池值之外的新加入的空气质量特征;否则从模型特征集合中剔除所有新加入的空气质量特征;
判断模型特征集合中特征数量是否不再增加或是否已遍历完所有空气质量特征;若是,则得到模型特征集合中选择的最优空气质量特征;否则继续遍历每种污染物在局部时空单元对应的有污染网格和无污染网格下的空气质量特征。
5.根据权利要求4所述的基于双模型的空气质量空间推断方法,其特征在于,所述对获取的多源特征和空气质量数据进行预处理,具体包括:
对多源特征中的空值采用插值算法进行数据填补;
对时间维度的缺失数据采用上一时间戳的数据进行数据填充;
根据时间戳生成不同时间维度特征。
6.根据权利要求1所述的基于双模型的空气质量空间推断方法,其特征在于,所述利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型,具体包括:
利用最优空气质量特征和对应的已知空气质量数据构成数据集;
采用五折交叉方式将数据集划分为训练集和测试集;
采用LightGBM模型构建空气质量空间推断模型,并设置模型参数为提升类型、树的最大深度、最大叶子数、学习速率、基学习器数量、目标、叶子节点中的最少数据、将特征值放入桶中的最大箱数;
通过网格搜索方法生成模型参数的所有参数组合,并利用训练集和测试集分别训练空气质量空间推断模型;
分别计算训练后的空气质量空间推断模型的五折交叉验证准确率,并选取最优的空气质量空间推断模型参数组合重新训练空气质量空间推断模型。
7.根据权利要求1所述的基于双模型的空气质量空间推断方法,其特征在于,所述利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据,具体包括:
利用训练后的空气质量空间推断模型,根据每种污染物在全局空间内所有时空单元对应的有污染网格和无污染网格下的空气质量特征推断对应的空气质量数据;
将每种污染物在有污染网格和无污染网格下推断的空气质量数据结果进行合并,得到各个时空单元对应的空气质量数据。
8.一种基于双模型的空气质量空间推断系统,其特征在于,包括:
网格划分子模型模块,用于构建网格划分子模型,根据空气质量数据采集源触发的污染事件对全局空间进行网格分类;
特征选择模型模块,用于构建特征选择模型,根据全局空间内所有时空单元的多源特征和局部时空单元对应的已知空气质量数据选择最优空气质量特征;
推断模型训练模块,用于利用最优空气质量特征和对应的已知空气质量数据构成数据集训练空气质量空间推断模型;
空气质量推断模块,用于利用训练后的空气质量空间推断模型根据全局空间内所有时空单元的多源特征推断各个时空单元对应的空气质量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210407489.9A CN114511087B (zh) | 2022-04-19 | 2022-04-19 | 一种基于双模型的空气质量空间推断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210407489.9A CN114511087B (zh) | 2022-04-19 | 2022-04-19 | 一种基于双模型的空气质量空间推断方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511087A true CN114511087A (zh) | 2022-05-17 |
CN114511087B CN114511087B (zh) | 2022-07-01 |
Family
ID=81555288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210407489.9A Active CN114511087B (zh) | 2022-04-19 | 2022-04-19 | 一种基于双模型的空气质量空间推断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511087B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540346A (zh) * | 2024-01-09 | 2024-02-09 | 四川国蓝中天环境科技集团有限公司 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
CN117871790A (zh) * | 2024-03-11 | 2024-04-12 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
CN117909931A (zh) * | 2024-01-19 | 2024-04-19 | 江苏智伦数字技术研究有限公司 | 一种空气质量的推断方法、终端及储存介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105493109A (zh) * | 2013-06-05 | 2016-04-13 | 微软技术许可有限责任公司 | 使用多个数据源的空气质量推断 |
CN110046771A (zh) * | 2019-04-25 | 2019-07-23 | 河南工业大学 | 一种pm2.5浓度预测方法与装置 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
CN110717535A (zh) * | 2019-09-30 | 2020-01-21 | 北京九章云极科技有限公司 | 一种基于数据分析处理系统的自动建模方法及系统 |
CN111461423A (zh) * | 2020-03-30 | 2020-07-28 | 四川国蓝中天环境科技集团有限公司 | 一种高精度网格化空气质量推断方法、系统、终端设备及存储介质 |
US20210256406A1 (en) * | 2018-07-06 | 2021-08-19 | The Research Foundation For The State University Of New York | System and Method Associated with Generating an Interactive Visualization of Structural Causal Models Used in Analytics of Data Associated with Static or Temporal Phenomena |
WO2021174751A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安国际智慧城市科技股份有限公司 | 基于大数据的污染源定位方法、装置、设备及存储介质 |
CN114036736A (zh) * | 2021-11-05 | 2022-02-11 | 大连理工大学 | 一种基于局部格兰杰因果分析的因果网络学习方法 |
-
2022
- 2022-04-19 CN CN202210407489.9A patent/CN114511087B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105493109A (zh) * | 2013-06-05 | 2016-04-13 | 微软技术许可有限责任公司 | 使用多个数据源的空气质量推断 |
US20210256406A1 (en) * | 2018-07-06 | 2021-08-19 | The Research Foundation For The State University Of New York | System and Method Associated with Generating an Interactive Visualization of Structural Causal Models Used in Analytics of Data Associated with Static or Temporal Phenomena |
CN110046771A (zh) * | 2019-04-25 | 2019-07-23 | 河南工业大学 | 一种pm2.5浓度预测方法与装置 |
CN110598953A (zh) * | 2019-09-23 | 2019-12-20 | 哈尔滨工程大学 | 一种时空相关的空气质量预测方法 |
CN110717535A (zh) * | 2019-09-30 | 2020-01-21 | 北京九章云极科技有限公司 | 一种基于数据分析处理系统的自动建模方法及系统 |
WO2021174751A1 (zh) * | 2020-03-02 | 2021-09-10 | 平安国际智慧城市科技股份有限公司 | 基于大数据的污染源定位方法、装置、设备及存储介质 |
CN111461423A (zh) * | 2020-03-30 | 2020-07-28 | 四川国蓝中天环境科技集团有限公司 | 一种高精度网格化空气质量推断方法、系统、终端设备及存储介质 |
CN114036736A (zh) * | 2021-11-05 | 2022-02-11 | 大连理工大学 | 一种基于局部格兰杰因果分析的因果网络学习方法 |
Non-Patent Citations (7)
Title |
---|
YING ZHANG 等: ""A Predictive Data Feature Exploration-Based Air Quality Prediction Approach"", 《IEEE ACCESS》 * |
YUELAI SU 等: ""Prediction of air quality based on Gradient Boosting Machine Method"", 《2020 INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATIZATION EDUCATION (ICBDIE)》 * |
刘超 等: ""基于高频数据的light GBM算法的空气质量指数实时预报及多期预测研究"", 《21世纪数量经济学》 * |
梁明明 等: ""观察性空气污染研究的质量评价工具——世界卫生组织全球空气质量指南RoB工具介绍"", 《中国循证医学杂志》 * |
陆蕾: ""空气质量监测与分析系统的设计与实现"", 《中国优秀硕士学位论文全文数据库(工程科技Ⅰ辑)》 * |
陈津津: ""基于多类数据关联分析的空气质量预测系统的研究与实现"", 《中国优秀硕士学位论文全文数据库(工程科技Ⅰ辑)》 * |
高铭壑 等: ""基于预测数据特征的空气质量预测方法"", 《山东大学学报(工学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540346A (zh) * | 2024-01-09 | 2024-02-09 | 四川国蓝中天环境科技集团有限公司 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
CN117540346B (zh) * | 2024-01-09 | 2024-03-19 | 四川国蓝中天环境科技集团有限公司 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
CN117909931A (zh) * | 2024-01-19 | 2024-04-19 | 江苏智伦数字技术研究有限公司 | 一种空气质量的推断方法、终端及储存介质 |
CN117909931B (zh) * | 2024-01-19 | 2024-07-26 | 江苏智伦数字技术研究有限公司 | 一种空气质量的推断方法、终端及储存介质 |
CN117871790A (zh) * | 2024-03-11 | 2024-04-12 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
CN117871790B (zh) * | 2024-03-11 | 2024-05-17 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114511087B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114511087B (zh) | 一种基于双模型的空气质量空间推断方法及系统 | |
CN109522603B (zh) | 基于云平台的车载拉格朗日实时大气污染溯源系统及方法 | |
CN109791729B (zh) | 一种基于行程时间分布的交通异常检测方法 | |
CN110346517B (zh) | 一种智慧城市工业大气污染可视化预警方法及其系统 | |
CN105181898B (zh) | 基于大密度部署传感器的大气污染监控及管理方法及系统 | |
CN110598953A (zh) | 一种时空相关的空气质量预测方法 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN110346518B (zh) | 一种交通排放污染可视化预警方法及其系统 | |
CN115759488B (zh) | 一种基于边缘计算的碳排放监测预警分析系统及其方法 | |
CN110738354B (zh) | 预测颗粒物浓度的方法、装置、存储介质及电子设备 | |
CN102096072B (zh) | 一种城市部件自动化测量方法 | |
US20220215749A1 (en) | Method for predicting at least one profile of the speed of a vehicle on a road network | |
US20220335822A1 (en) | Method of determining the amount of pollutant emissions from a vehicle over a road network section | |
CN113655175A (zh) | 一种网格化空气监测方法、系统、计算机设备及存储介质 | |
CN115455814B (zh) | 基于深度学习的污染源查找及污染物分布预测方法及系统 | |
CN114036135A (zh) | 利用不完全信息估计城市移动源污染排放方法及系统 | |
CN114822709A (zh) | 大气污染多粒度精准成因分析方法及装置 | |
CN113570862A (zh) | 一种基于XGboost算法的大型交通拥堵预警方法 | |
Lin et al. | Building autocorrelation-aware representations for fine-scale spatiotemporal prediction | |
Velásquez et al. | Citizen science approach for spatiotemporal modelling of air pollution quality and traffic in Lima, Peru | |
CN109064750A (zh) | 城市路网交通估计方法及系统 | |
CN117312784A (zh) | 一种基于受体模型和大数据联用的污染源溯源方法 | |
CN116340768B (zh) | 一种智能化道路积尘负荷监测方法及监测装置 | |
Li et al. | Transit arrival time prediction using interaction networks | |
CN106918677A (zh) | 用于污染物溯源的设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |