CN104834944B - 一种基于协同训练的城市区域空气质量估计方法 - Google Patents

一种基于协同训练的城市区域空气质量估计方法 Download PDF

Info

Publication number
CN104834944B
CN104834944B CN201510274239.2A CN201510274239A CN104834944B CN 104834944 B CN104834944 B CN 104834944B CN 201510274239 A CN201510274239 A CN 201510274239A CN 104834944 B CN104834944 B CN 104834944B
Authority
CN
China
Prior art keywords
grid
air quality
training
sample
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510274239.2A
Other languages
English (en)
Other versions
CN104834944A (zh
Inventor
陈岭
王敬昌
赵江奇
赵丽娜
蔡雅雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shang Qing Science And Technology Ltd
Original Assignee
Hangzhou Shang Qing Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Shang Qing Science And Technology Ltd filed Critical Hangzhou Shang Qing Science And Technology Ltd
Priority to CN201510274239.2A priority Critical patent/CN104834944B/zh
Publication of CN104834944A publication Critical patent/CN104834944A/zh
Application granted granted Critical
Publication of CN104834944B publication Critical patent/CN104834944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于协同训练的城市区域空气质量估计方法,本发明充分利用区域的空间特征,如该区域的交通状况、路网结构等特征,基于多分类器的协同训练的半监督学习方法对区域的特征向量进行建模,学习得到多个分类器;然后对这些分类器进行剪枝,形成最终的组合分类器;用剪枝后的组合分类器模型对无空气监测站的区域进行空气质量等级估计。该方法可以在空气监测站有限的情况下如何根据带空气监测站的区域和无空气监测站的区域在空间上的各种区别估计出空气质量等级,且估计结果准确。

Description

一种基于协同训练的城市区域空气质量估计方法
技术领域
本发明涉及空气质量监测领域,尤其涉及一种基于协同训练的城市区域空气质量估计方法。
背景技术
近年来空气污染越来越严重,多个城市经常出现雾霾天气,催生着人们生态环保意识的加强,空气污染越来越受到大家的关注。为了对空气的污染物质进行监测,政府在城市建立了若干空气质量监测站,是空气质量控制和对空气质量进行合理评估的基础平台,是一个城市空气环境保护的基础设施。但是,建立一个空气质量监测站需要一定建设资金、占地面积、人力等,因此每个城市所拥有的空气监测站都是有限的。
对于某个地点,如果在其一定范围内没有设立任何空气质量监测站,则无法知道其空气质量,且不能将距离该点最近的空气质量监测站监测的空气质量当成该地点的空气质量,这是因为影响空气质量的因素复杂,包括自然因素,如土壤扬尘、植物花粉、自然界的灾害事件等,和人为因素,如化石燃料燃烧、垃圾焚烧、机动车尾气等。因此,同一城市中的不同地点的空气质量可能相差很大,人们在外出活动前,如骑行,无法确切知道经过路段所在区域的空气状况,如果空气质量太差,人们可以更改路线,选择具有优良空气质量的路线进行户外运动。这样,对空气质量敏感的人可以更好的保护自己的身体。
传统的基于统计的空气质量区域估计方法一般仅考虑物理空间上的距离,然后进行空间线性插值,比如Kriging方法。然而,因为空气质量是由多个因素共同影响的,例如天气现象、交通、土地使用等,所以空气质量随着空间位置上的变化是呈非线性变化的,对于固定的两个点之间的空气质量相关程度并不是一直保持不变的,会因多种因素而进行变化,不能简单的用线性插值法进行估计。有一些非线性的估计模型很好的利用了大气压、湿度、交通等特征,如非线性的广义加性模型(Generalized Additive Models),模型中每一个加性项使用单个光滑函数来估计,在每一加性项中可以解释因变量如何随自变量变化而变化。还有一种空气质量估计方法是采用距离度量学习方法学习距离函数来计算两个区域之间的距离,然后利用学习到的距离函数寻找与该区域最近的k个区域。最后,对这k个区域形成的特征向量进行多元线性回归训练,进而利用训练得到的回归模型对区域的空气污染物浓度进行估计。但是,当空气质量监测站点数量非常有限时,由于缺乏足够多样的带标记的训练样本,这类监督方法不能取得较好的效果。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于协同训练的城市区域空气质量估计方法,本估计方法充分利用区域的空间特征,如该区域的交通状况、路网结构等特征,基于多分类器的协同训练的半监督学习方法得到多个分类器,然后对这些分类器进行剪枝,形成最终的组合分类器,用剪枝后的组合分类器进行空气质量等级估计。该方法估计结果准确性高,能根据带空气监测点的区域和无空气监测点的区域在空间上的各种区别估计空气质量等级。
本发明是通过以下技术方案达到上述目的:一种基于协同训练的城市区域空气质量估计方法,包括预处理阶段、训练阶段、估计阶段;
预处理阶段包括:
1)把城市划分成不相交的网格,每个网格g内的空气质量相同;
2)抽取含有空气监测站点的网格对应的每小时的空气质量和空间特征;
3)基于欧式距离查找与网格g相近的k个最近的含空气监测站点的网格G;
4)根据网格g和网格集合G生成有标记和无标记的样本;
训练阶段:
I)半监督学习:通过对有标记样本进行可重复性取样获得n个有标记训练集,并对有标记训练集训练得到n个分类器;n个分类器分别对未标记的样本进行标记得到高置信度的未标记样本,从中挑选样本加入训练集内直到挑选的新标记样本数目为0,输出分类器模型;
II)组合分类器剪枝:设置组合分类器的剪枝度量标准;采用基于Pareto算法在输出的分类器模型中搜索最优的分类器组合,输出剪枝后的组合分类器;
估计阶段:
i)输入待估计空气质量的位置的经纬度信息,并根据经纬度信息获取所属的网格g,抽取网格g的空间特征Fg;抽取网格g所在城市的所有空气质量监测站点所属网格的空间特征,得到特征向量FG
ii)基于欧式距离从FG中查找到与Fg相近的k个最近的特征向量,k个最近的特征向量对应k个网格,由k个网格得到网格集合G;
iii)网格g和网格集合G生成一个向量;
iv)根据训练阶段输出的组合分类器对步骤iii)得到的特征向量进行投票,得到并输出投票结果,投票结果为估计的空气质量值。
作为优选,所述的空间特征包括:交通相关特征Ft、路网结构相关特征Fr、POI相关特征Fp、签到特征Fc
作为优选,所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相近的k个最近的含空气监测站点的网格G:
d(xi,xj)=(xi-xj)T(xi-xj)
其中,d(xi,xj)表示两个特征向量xi、xj之间的距离,特征向量为网格的POI相关特征和路网结构特征,即x=[Fp,Fr]。
作为优选,所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记训练样本,集合内其余的网格生成未标记的训练样本。
作为优选,所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训练集的挑选标准为样本的conf值的高低,从conf值高的样本进行挑选。
本发明的有益效果在于:(1)采用半监督学习方法,解决了空气监测站有限的情况下训练样本不足的问题;(2)引入了多个分类器而不是两个分类器,解决了协同训练中置信度如何判定的问题;(3)引入组合分类器剪枝,避免基分类器数目过多而造成模型性能下降。
附图说明
图1是本发明基于协同训练的城市区域空气质量估计方法流程图;
图2是本发明城市的网格划分示意图;
图3是本发明训练阶段的流程图;
图4是本发明的组合分类器最优子集搜索过程示意图;
图5是本发明估计阶段的流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于协同训练的城市区域空气质量估计方法,包括预处理阶段、训练阶段、估计阶段;
预处理阶段包括:
1)把城市划分成不相交的网格,每个网格g具有相同的长和宽,g.A表示g的影响区域,由g及其周围的八个网格组成。如图2所示,每个小正方形是一个网格,带阴影的小正方形网格的影响区域为大黑框正方形区域。每个网格区域g的空气质量视为一样,所以g的大小不能太大,如可设为1km×1km;
2)找到含有空气监测站点的网格并抽取这些网格对应的每小时的空气质量和空间特征,包括交通相关特征Ft、POI相关特征Fp、路网结构相关特征Fr、签到特征Fc等。Ft包含网格影响区域范围内所有路段过去1小时的平均车速和车速方差大小;Fp包含网格影响区域范围内所有POI在各个类别下的数目;Fr包含网格影响区域范围内高速公路路段长度和非高速公路路段长度;Fc包含过去1小时在网格影响区域范围内用新浪微博签到的人数;
3)基于式子(1)所示的欧式距离度量函数,查找与网格g相近的k个最近的含空气监测站的网格G,d(xi,xj)表示两个特征向量xi、xj之间的距离,特征向量为网格的POI相关特征和路网结构特征,即x=[Fp,Fr];
d(xi,xj)=(xi-xj)T(xi-xj) (1)
4)根据g和网格集合G生成训练样本,建有空气监测点的网格生成有标记训练样本,其余的网格生成未标记的训练样本。设某网格为gi,则gi和步骤3)查找的近邻网格之一gj可生成如式子(2)所示的特征向量。其中表示gi的交通相关特征,表示gi的签到特征,分别表示gi、gj两个网格POI相关特征的皮尔森相关系数和路网结构特征的皮尔森相关系数,dist(gi,gj)表示两个网格的物理距离,lj表示含空气监测站的网格gj监测的空气质量值。然后,g和网格集合G生成如式子(3)所示的特征向量,其中g1,g2,…,gk表示g的k个近邻网格。
训练阶段流程如图3所示,包括半监督学习和组合分类器剪枝两个子阶段:
半监督学习的主要步骤包括:
1)输入经过数据预处理的训练样本,包括有标记和无标记的训练样本;
2)对有标记样本进行可重复性取样获得n个有标记训练集;
3)利用步骤2)得到的n个有标记训练集训练n个分类器,基分类器可使用不同的分类器,如条件随机场(CRF)、随机森林(Random Forest)、朴素贝叶斯(Bayes)、逻辑回归(Logistic Regression)等;
4)n个分类器分别对未标记的样本集进行标记,得到高置信度的未标记样本。置信度的计算如式子(4)所示,其中Fi表示第i个分类器选择的高置信度未标记样本集合,hi(x)表示第i个分类器对样本x的标记值,p为除第i个分类器以外的其余分类器对样本x投票所得的标记值,U表示未标记样本集合;
5)根据一定的选择标准从Fi中为挑选最多mi个样本加入到训练集中,若挑选的新标记样本数目不为0,则执行第4)步骤,反之执行第6)步骤;选择标准是样本的conf值越高越好,采用式子(5)计算样本x的conf值,根据式子(6)(7)计算mi,其中mi,t表示第t次迭代的值;
6)输出n个分类器模型。
组合分类器剪枝的具体步骤如下:
1)设置组合分类器的剪枝度量标准,目标函数如式子(8)所示,其中Hs是组合分类器,|s|是组合分类器的基分类器数量,f是度量函数,采用分类器的成对多样性进行度量,两个分类器的多样性根据式子(9)进行计算,N00表示两个分类器都错误分类的样本数目,N为参与此次度量的样本总数目;
2)采用基于Pareto遗传算法的搜索方法搜索最优的分类器集合,整个搜索流程如图4所示,首先随机产生一个候选子集,加入到候选集集合P,然后进入迭代过程。在每次迭代中,从P中随机选取一个元素s,然后对s执行变异操作,获得新的候选集s’,接着删除P中所有劣于s’的候选集;
3)输出剪枝后的组合分类器。
估计阶段的流程图如图5所示,其中阴影平行四边形组合分类器是训练阶段学习得到的。估计阶段主要包括以下步骤:
1)输入所在位置的经纬度信息;
2)根据步骤1)得到的经纬度信息获取所属的网格g;
3)抽取网格g的空间特征,如Ft、Fr、Fp、Fc等;
4)抽取所在城市所有空气质量监测站点所属网格的当前时刻的特征,包括Ft、Fr、Fp、Fc等,m个监测站点生成m个特征向量Fg1,Fg2,…,Fgm
5)基于欧氏距离从步骤4)抽取的m个特征向量中查找与Fg相近的k个最近的特征向量,并得到对应的k个网格G={g1,g2,…,gk};
6)根据式子(2)和(3)针对g和网格集合G生成一个向量;
7)根据训练阶段学习到组合分类器对步骤6)得到的向量进行投票给出分类结果;
8)输出投票的结果,即空气质量等级估计值。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (5)

1.一种基于协同训练的城市区域空气质量估计方法,其特征在于,包括预处理阶段、训练阶段、估计阶段;
预处理阶段包括:
1)把城市划分成不相交的网格,每个网格g内的空气质量相同;
2)抽取含有空气监测站点的网格对应的每小时的空气质量和空间特征;
3)基于欧式距离查找与网格g相近的k个最近的含空气监测站点的网格G;
4)根据网格g和网格集合G生成有标记和无标记的样本;
训练阶段:
I)半监督学习:通过对有标记样本进行可重复性取样获得n个有标记训练集,并对有标记训练集训练得到n个分类器;n个分类器分别对未标记的样本进行标记得到高置信度的未标记样本,从中挑选样本加入训练集内直到挑选的新标记样本数目为0,输出分类器模型;
II)组合分类器剪枝:设置组合分类器的剪枝度量标准;采用基于Pareto算法在输出的分类器模型中搜索最优的分类器组合,输出剪枝后的组合分类器;
估计阶段:
i)输入待估计空气质量的位置的经纬度信息,并根据经纬度信息获取所属的网格g,抽取网格g的空间特征Fg;抽取网格g所在城市的所有空气质量监测站点所属网格的空间特征,得到特征向量FG
ii)基于欧式距离从FG中查找到与Fg相近的k个最近的特征向量,k个最近的特征向量对应k个网格,由k个网格得到网格集合G;
iii)网格g和网格集合G生成一个向量;
iv)根据训练阶段输出的组合分类器对步骤iii)得到的特征向量进行投票,得到并输出投票结果,投票结果为估计的空气质量值。
2.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法,其特征在于,所述的空间特征包括:交通相关特征Ft、路网结构相关特征Fr、POI相关特征Fp、签到特征Fc
3.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法,其特征在于,所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相近的k个最近的含空气监测站点的网格G:
d(xi,xj)=(xi-xj)T(xi-xj)
其中,d(xi,xj)表示两个特征向量xi、xj之间的距离,特征向量为网格的POI相关特征和路网结构特征,即x=[Fp,Fr]。
4.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法,其特征在于,所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记训练样本,集合内其余的网格生成未标记的训练样本。
5.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法,其特征在于:所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训练集的挑选标准为样本的conf值的高低,从conf值高的样本进行挑选。
CN201510274239.2A 2015-05-26 2015-05-26 一种基于协同训练的城市区域空气质量估计方法 Active CN104834944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510274239.2A CN104834944B (zh) 2015-05-26 2015-05-26 一种基于协同训练的城市区域空气质量估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510274239.2A CN104834944B (zh) 2015-05-26 2015-05-26 一种基于协同训练的城市区域空气质量估计方法

Publications (2)

Publication Number Publication Date
CN104834944A CN104834944A (zh) 2015-08-12
CN104834944B true CN104834944B (zh) 2018-03-27

Family

ID=53812821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510274239.2A Active CN104834944B (zh) 2015-05-26 2015-05-26 一种基于协同训练的城市区域空气质量估计方法

Country Status (1)

Country Link
CN (1) CN104834944B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446957B (zh) * 2016-10-08 2019-02-22 常熟理工学院 一种基于随机森林的雾霾图像分类方法
CN108509565B (zh) * 2018-03-26 2020-08-18 浙江工业大学 基于迁移半监督学习的非城市区域空气质量指数空间估计方法
CN109214463A (zh) * 2018-09-25 2019-01-15 合肥优控科技有限公司 一种基于协同训练的地形分类方法
CN109543874B (zh) * 2018-10-12 2021-06-22 南京航空航天大学 一种结合气象条件影响的机场空气质量预测方法
CN110209992A (zh) * 2019-05-24 2019-09-06 西北工业大学 一种基于空间和跨域相关性的感知位置选择方法
CN110598953A (zh) * 2019-09-23 2019-12-20 哈尔滨工程大学 一种时空相关的空气质量预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853304A (zh) * 2010-06-08 2010-10-06 河海大学 基于特征选择和半监督学习的遥感图像检索方法
CN103903441A (zh) * 2014-04-04 2014-07-02 山东省计算中心 一种基于半监督学习的道路交通状态判别方法
WO2014194480A1 (en) * 2013-06-05 2014-12-11 Microsoft Corporation Air quality inference using multiple data sources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853304A (zh) * 2010-06-08 2010-10-06 河海大学 基于特征选择和半监督学习的遥感图像检索方法
WO2014194480A1 (en) * 2013-06-05 2014-12-11 Microsoft Corporation Air quality inference using multiple data sources
CN103903441A (zh) * 2014-04-04 2014-07-02 山东省计算中心 一种基于半监督学习的道路交通状态判别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Boosting for multiclass semi-supervised learning;Jafar Tanha等;《Pattern Recognition Letters》;20140201;第37卷;第63-67页 *
SemiBoost: Boosting for Semi-Supervised Learning;Pavan Kumar Mallapragada等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20091130;第31卷(第11期);第2000-2014页 *
U-Air: When Urban Air Quality Inference Meets Big Data;Yu Zheng等;《Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining》;ACM New York;20130814;正文第2-4部分 *

Also Published As

Publication number Publication date
CN104834944A (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104834944B (zh) 一种基于协同训练的城市区域空气质量估计方法
Yao et al. Spatial origin-destination flow imputation using graph convolutional networks
He et al. Mining transition rules of cellular automata for simulating urban expansion by using the deep learning techniques
Tang et al. Uncovering urban human mobility from large scale taxi GPS data
Han et al. Joint air quality and weather prediction based on multi-adversarial spatiotemporal networks
CN105493109B (zh) 使用多个数据源的空气质量推断
Markou et al. Cluster analysis of five years of back trajectories arriving in Athens, Greece
CN111080029B (zh) 基于多路段时空相关的城市交通路段速度预测方法及系统
Nguyen et al. Reviewing trip purpose imputation in GPS-based travel surveys
CN104200104A (zh) 一种基于空间特征的细粒度空气污染物浓度区域估计方法
CN106383868A (zh) 一种基于道路网络的时空轨迹聚类方法
Flecher et al. A stochastic daily weather generator for skewed data
Mubea et al. Assessing application of Markov chain analysis in predicting land cover change: a case study of Nakuru municipality
Dehshiri et al. A new application of multi-criteria decision making in identifying critical dust sources and comparing three common receptor-based models
CN105740401A (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
CN106488405A (zh) 一种融合个体与近邻移动规律的位置预测方法
Ngan et al. Classification of weather patterns and associated trajectories of high-ozone episodes in the Houston–Galveston–Brazoria area during the 2005/06 TexAQS-II
CN112365708B (zh) 基于多图卷积网络的景区交通量预测模型建立和预测方法
CN115545758B (zh) 城市服务设施自适应增量选址的方法和系统
CN110346518A (zh) 一种交通排放污染可视化预警方法及其系统
CN112884014A (zh) 一种基于路段拓扑结构分类的交通速度短时预测方法
CN112101132B (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
Lin et al. Building autocorrelation-aware representations for fine-scale spatiotemporal prediction
Huber et al. Modelling bicycle route choice in German cities using open data, MNL and the bikeSim web-app
Ding et al. Dissecting regional weather-traffic sensitivity throughout a city

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant