CN104834944B

CN104834944B - 一种基于协同训练的城市区域空气质量估计方法

Info

Publication number: CN104834944B
Application number: CN201510274239.2A
Authority: CN
Inventors: 陈岭; 王敬昌; 赵江奇; 赵丽娜; 蔡雅雅
Original assignee: Hangzhou Shang Qing Science And Technology Ltd
Current assignee: Hangzhou Shang Qing Science And Technology Ltd
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2018-03-27
Anticipated expiration: 2035-05-26
Also published as: CN104834944A

Abstract

本发明涉及一种基于协同训练的城市区域空气质量估计方法，本发明充分利用区域的空间特征，如该区域的交通状况、路网结构等特征，基于多分类器的协同训练的半监督学习方法对区域的特征向量进行建模，学习得到多个分类器；然后对这些分类器进行剪枝，形成最终的组合分类器；用剪枝后的组合分类器模型对无空气监测站的区域进行空气质量等级估计。该方法可以在空气监测站有限的情况下如何根据带空气监测站的区域和无空气监测站的区域在空间上的各种区别估计出空气质量等级，且估计结果准确。

Description

一种基于协同训练的城市区域空气质量估计方法

技术领域

本发明涉及空气质量监测领域，尤其涉及一种基于协同训练的城市区域空气质量估计方法。

背景技术

近年来空气污染越来越严重，多个城市经常出现雾霾天气，催生着人们生态环保意识的加强，空气污染越来越受到大家的关注。为了对空气的污染物质进行监测，政府在城市建立了若干空气质量监测站，是空气质量控制和对空气质量进行合理评估的基础平台，是一个城市空气环境保护的基础设施。但是，建立一个空气质量监测站需要一定建设资金、占地面积、人力等，因此每个城市所拥有的空气监测站都是有限的。

对于某个地点，如果在其一定范围内没有设立任何空气质量监测站，则无法知道其空气质量，且不能将距离该点最近的空气质量监测站监测的空气质量当成该地点的空气质量，这是因为影响空气质量的因素复杂，包括自然因素，如土壤扬尘、植物花粉、自然界的灾害事件等，和人为因素，如化石燃料燃烧、垃圾焚烧、机动车尾气等。因此，同一城市中的不同地点的空气质量可能相差很大，人们在外出活动前，如骑行，无法确切知道经过路段所在区域的空气状况，如果空气质量太差，人们可以更改路线，选择具有优良空气质量的路线进行户外运动。这样，对空气质量敏感的人可以更好的保护自己的身体。

传统的基于统计的空气质量区域估计方法一般仅考虑物理空间上的距离，然后进行空间线性插值，比如Kriging方法。然而，因为空气质量是由多个因素共同影响的，例如天气现象、交通、土地使用等，所以空气质量随着空间位置上的变化是呈非线性变化的，对于固定的两个点之间的空气质量相关程度并不是一直保持不变的，会因多种因素而进行变化，不能简单的用线性插值法进行估计。有一些非线性的估计模型很好的利用了大气压、湿度、交通等特征，如非线性的广义加性模型(Generalized Additive Models)，模型中每一个加性项使用单个光滑函数来估计，在每一加性项中可以解释因变量如何随自变量变化而变化。还有一种空气质量估计方法是采用距离度量学习方法学习距离函数来计算两个区域之间的距离，然后利用学习到的距离函数寻找与该区域最近的k个区域。最后，对这k个区域形成的特征向量进行多元线性回归训练，进而利用训练得到的回归模型对区域的空气污染物浓度进行估计。但是，当空气质量监测站点数量非常有限时，由于缺乏足够多样的带标记的训练样本，这类监督方法不能取得较好的效果。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于协同训练的城市区域空气质量估计方法，本估计方法充分利用区域的空间特征，如该区域的交通状况、路网结构等特征，基于多分类器的协同训练的半监督学习方法得到多个分类器，然后对这些分类器进行剪枝，形成最终的组合分类器，用剪枝后的组合分类器进行空气质量等级估计。该方法估计结果准确性高，能根据带空气监测点的区域和无空气监测点的区域在空间上的各种区别估计空气质量等级。

本发明是通过以下技术方案达到上述目的：一种基于协同训练的城市区域空气质量估计方法，包括预处理阶段、训练阶段、估计阶段；

预处理阶段包括：

1)把城市划分成不相交的网格，每个网格g内的空气质量相同；

2)抽取含有空气监测站点的网格对应的每小时的空气质量和空间特征；

3)基于欧式距离查找与网格g相近的k个最近的含空气监测站点的网格G；

4)根据网格g和网格集合G生成有标记和无标记的样本；

训练阶段：

I)半监督学习：通过对有标记样本进行可重复性取样获得n个有标记训练集，并对有标记训练集训练得到n个分类器；n个分类器分别对未标记的样本进行标记得到高置信度的未标记样本，从中挑选样本加入训练集内直到挑选的新标记样本数目为0，输出分类器模型；

II)组合分类器剪枝：设置组合分类器的剪枝度量标准；采用基于Pareto算法在输出的分类器模型中搜索最优的分类器组合，输出剪枝后的组合分类器；

估计阶段：

i)输入待估计空气质量的位置的经纬度信息，并根据经纬度信息获取所属的网格g，抽取网格g的空间特征F_g；抽取网格g所在城市的所有空气质量监测站点所属网格的空间特征，得到特征向量F_G；

ii)基于欧式距离从F_G中查找到与F_g相近的k个最近的特征向量，k个最近的特征向量对应k个网格，由k个网格得到网格集合G；

iii)网格g和网格集合G生成一个向量；

iv)根据训练阶段输出的组合分类器对步骤iii)得到的特征向量进行投票，得到并输出投票结果，投票结果为估计的空气质量值。

作为优选，所述的空间特征包括：交通相关特征F_t、路网结构相关特征F_r、POI相关特征F_p、签到特征F_c。

作为优选，所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相近的k个最近的含空气监测站点的网格G：

d(x_i,x_j)＝(x_i-x_j)^T(x_i-x_j)

其中，d(x_i,x_j)表示两个特征向量x_i、x_j之间的距离，特征向量为网格的POI相关特征和路网结构特征，即x＝[F_p,F_r]。

作为优选，所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记训练样本，集合内其余的网格生成未标记的训练样本。

作为优选，所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训练集的挑选标准为样本的conf值的高低，从conf值高的样本进行挑选。

本发明的有益效果在于：(1)采用半监督学习方法，解决了空气监测站有限的情况下训练样本不足的问题；(2)引入了多个分类器而不是两个分类器，解决了协同训练中置信度如何判定的问题；(3)引入组合分类器剪枝，避免基分类器数目过多而造成模型性能下降。

附图说明

图1是本发明基于协同训练的城市区域空气质量估计方法流程图；

图2是本发明城市的网格划分示意图；

图3是本发明训练阶段的流程图；

图4是本发明的组合分类器最优子集搜索过程示意图；

图5是本发明估计阶段的流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于协同训练的城市区域空气质量估计方法，包括预处理阶段、训练阶段、估计阶段；

预处理阶段包括：

1)把城市划分成不相交的网格，每个网格g具有相同的长和宽，g.A表示g的影响区域，由g及其周围的八个网格组成。如图2所示，每个小正方形是一个网格，带阴影的小正方形网格的影响区域为大黑框正方形区域。每个网格区域g的空气质量视为一样，所以g的大小不能太大，如可设为1km×1km；

2)找到含有空气监测站点的网格并抽取这些网格对应的每小时的空气质量和空间特征，包括交通相关特征F_t、POI相关特征F_p、路网结构相关特征F_r、签到特征F_c等。F_t包含网格影响区域范围内所有路段过去1小时的平均车速和车速方差大小；F_p包含网格影响区域范围内所有POI在各个类别下的数目；F_r包含网格影响区域范围内高速公路路段长度和非高速公路路段长度；F_c包含过去1小时在网格影响区域范围内用新浪微博签到的人数；

3)基于式子(1)所示的欧式距离度量函数，查找与网格g相近的k个最近的含空气监测站的网格G，d(x_i,x_j)表示两个特征向量x_i、x_j之间的距离，特征向量为网格的POI相关特征和路网结构特征，即x＝[F_p,F_r]；

d(x_i,x_j)＝(x_i-x_j)^T(x_i-x_j) (1)

4)根据g和网格集合G生成训练样本，建有空气监测点的网格生成有标记训练样本，其余的网格生成未标记的训练样本。设某网格为g_i，则g_i和步骤3)查找的近邻网格之一g_j可生成如式子(2)所示的特征向量。其中表示g_i的交通相关特征，表示g_i的签到特征，分别表示g_i、g_j两个网格POI相关特征的皮尔森相关系数和路网结构特征的皮尔森相关系数，dist(g_i,g_j)表示两个网格的物理距离，l^j表示含空气监测站的网格g_j监测的空气质量值。然后，g和网格集合G生成如式子(3)所示的特征向量，其中g₁,g₂,…,g_k表示g的k个近邻网格。

训练阶段流程如图3所示，包括半监督学习和组合分类器剪枝两个子阶段：

半监督学习的主要步骤包括：

1)输入经过数据预处理的训练样本，包括有标记和无标记的训练样本；

2)对有标记样本进行可重复性取样获得n个有标记训练集；

3)利用步骤2)得到的n个有标记训练集训练n个分类器，基分类器可使用不同的分类器，如条件随机场(CRF)、随机森林(Random Forest)、朴素贝叶斯(Bayes)、逻辑回归(Logistic Regression)等；

4)n个分类器分别对未标记的样本集进行标记，得到高置信度的未标记样本。置信度的计算如式子(4)所示，其中F_i表示第i个分类器选择的高置信度未标记样本集合，h_i(x)表示第i个分类器对样本x的标记值，p为除第i个分类器以外的其余分类器对样本x投票所得的标记值，U表示未标记样本集合；

5)根据一定的选择标准从F_i中为挑选最多m_i个样本加入到训练集中，若挑选的新标记样本数目不为0，则执行第4)步骤，反之执行第6)步骤；选择标准是样本的conf值越高越好，采用式子(5)计算样本x的conf值，根据式子(6)(7)计算m_i，其中m_i,t表示第t次迭代的值；

6)输出n个分类器模型。

组合分类器剪枝的具体步骤如下：

1)设置组合分类器的剪枝度量标准，目标函数如式子(8)所示，其中H_s是组合分类器，|s|是组合分类器的基分类器数量，f是度量函数，采用分类器的成对多样性进行度量，两个分类器的多样性根据式子(9)进行计算，N⁰⁰表示两个分类器都错误分类的样本数目，N为参与此次度量的样本总数目；

2)采用基于Pareto遗传算法的搜索方法搜索最优的分类器集合，整个搜索流程如图4所示，首先随机产生一个候选子集，加入到候选集集合P，然后进入迭代过程。在每次迭代中，从P中随机选取一个元素s，然后对s执行变异操作，获得新的候选集s’，接着删除P中所有劣于s’的候选集；

3)输出剪枝后的组合分类器。

估计阶段的流程图如图5所示，其中阴影平行四边形组合分类器是训练阶段学习得到的。估计阶段主要包括以下步骤：

1)输入所在位置的经纬度信息；

2)根据步骤1)得到的经纬度信息获取所属的网格g；

3)抽取网格g的空间特征，如F_t、F_r、F_p、F_c等；

4)抽取所在城市所有空气质量监测站点所属网格的当前时刻的特征，包括F_t、F_r、F_p、F_c等，m个监测站点生成m个特征向量F_g1,F_g2,…,F_gm；

5)基于欧氏距离从步骤4)抽取的m个特征向量中查找与F_g相近的k个最近的特征向量，并得到对应的k个网格G＝{g₁,g₂,…,g_k}；

6)根据式子(2)和(3)针对g和网格集合G生成一个向量；

7)根据训练阶段学习到组合分类器对步骤6)得到的向量进行投票给出分类结果；

8)输出投票的结果，即空气质量等级估计值。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于协同训练的城市区域空气质量估计方法，其特征在于，包括预处理阶段、训练阶段、估计阶段；

预处理阶段包括：

4)根据网格g和网格集合G生成有标记和无标记的样本；

训练阶段：

估计阶段：

iii)网格g和网格集合G生成一个向量；

2.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述的空间特征包括：交通相关特征F_t、路网结构相关特征F_r、POI相关特征F_p、签到特征F_c。

3.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述预处理阶段通过如下式所示的欧氏距离度量函数查找与网格g相近的k个最近的含空气监测站点的网格G：

d(x_i,x_j)＝(x_i-x_j)^T(x_i-x_j)

4.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于，所述预处理阶段的步骤4)具体为建有空气监测点的网格生成有标记训练样本，集合内其余的网格生成未标记的训练样本。

5.根据权利要求1所述的一种基于协同训练的城市区域空气质量估计方法，其特征在于：所述训练阶段半监督学习的从高置信度的未标记样本挑选样本加入训练集的挑选标准为样本的conf值的高低，从conf值高的样本进行挑选。