CN105493109B

CN105493109B - 使用多个数据源的空气质量推断

Info

Publication number: CN105493109B
Application number: CN201380078751.9A
Authority: CN
Inventors: Y·郑; X·谢; W-Y·马; H-W·洪; E·I-C·常
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-06-05
Filing date: 2013-06-05
Publication date: 2018-01-30
Anticipated expiration: 2033-06-05
Also published as: CN105493109A; WO2014194480A1; US20160125307A1

Abstract

对来自多个数据源的数据的使用提供针对多个区域的与特定污染物有关的推断的空气质量指数，而无需将空气质量监测站添加到那些区域。可从一个或多个空气质量监测站获得针对某地区中的污染物的标记的空气质量指数数据。可从针对该地区的空间上相关的数据中提取针对该地区的空间特征。空间上相关的数据可包括关于该地区中的固定基础设施的信息。同样，可从针对该地区的随时间改变的时间上相关的数据中提取针对该地区的时间特征。基于协同训练的学习框架还可至少基于标记的空气质量指数数据、针对该地区的空间特征以及针对该地区的时间特征来被应用以协同训练空间分类器和时间分类器。

Description

使用多个数据源的空气质量推断

背景

关于城市空气质量的信息(诸如SO₂和NO₂的浓度)在保护人类健康和控制空气污染方面起作用。空气质量在各城市空间中可有很大地不同，因为空气质量受多种因素影响，诸如气象状态、汽车流量和模式以及不同区域中的土地使用。例如，工业和商业区往往比居民区生成更多的空气污染。由此，监测城市环境中的空气质量可能需要大量分布在城市环境各处的空气质量监测站。

然而，设置足够数目的空气质量监测站存在许多障碍。一个障碍是构建这些站的成本以及永久地安置和维护这些空气质量监测站的成本。另一个障碍是城市环境中有限的土地可用于构造这样的空气质量监测站。例如，获得用于构造空气质量监测站的土地可能由于对该土地的现有使用而过于昂贵或可不行。附加的障碍可能是与空气质量监测站的操作相关联的环境成本量。尽管单个空气质量监测站的能耗可能很小，但操作空气质量监测站网络可消耗相对较大量的能量，并由此可能正好对使空气质量降级的污染有贡献。

概述

本文中描述了用于基于来自现有空气质量监测站的历史和实时空气质量数据以及来自其他数据源的空间和时间数据来推断针对某地区中的各区域的空气质量信息的技术。其他数据源可提供气象数据、交通流量数据、人类移动数据、道路结构数据、和/或兴趣点数据等等。

这些技术可基于训练两个分开的分类器(诸如，空间分类器和时间分类器)的协同训练框架来使用半监督学习方法。空间分类器可将空间上相关的特征(例如，兴趣点的密度、道路长度等)取为输入以对不同区域处的空气质量之间的空间相关性进行分类。时间分类器可使用时间上相关的特征(诸如交通流量数据和气象数据)来发现不同区域处的空气质量的时间依赖性。

协同训练框架可生成推断模型(即分类器)，其被用于基于从小量区域的测得的空气质量数据的有限集合来对附加区域的空气质量进行插值。这些模型可被用来基于来自现有空气质量监测站的实时空气质量数据和其他形式的收集的空间或时间数据来推断附加区域的空气质量。

在至少一个实施例中，可从一个或多个空气质量监测站获得针对某地区中的某污染物的标记的空气质量指数数据。可从针对该地区的空间上相关的数据中提取针对该地区的空间特征。空间上相关的数据可包括关于该地区中的固定基础设施的信息。同样，可从针对该地区的随时间改变的时间上相关的数据中提取针对该地区的时间特征。基于协同训练的学习框架可至少基于标记的空气质量指数数据、针对该地区的空间特征以及针对该地区的时间特征来被应用以协同训练空间分类器和时间分类器。

因此，这些技术可为多个区域提供空气质量数据(诸如针对特定污染物的空气质量指数)，而无需在那些区域安装附加的空气质量监测站。这种对构建空气质量站的必要性的减少或消除可提供货币和能量节省。此外，这些技术可被用来确定将来要建立空气质量监测站的区域，诸如在这些技术预测比预期空气质量差的区域中将要建立空气质量监测站。

提供本发明内容是为了以简化的形式介绍将在以下具体实施例中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图简述

参考附图来描述具体实施方式。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在不同的附图中使用相同的附图标记来指示相似或相同的项。

图1是示出用于使用空间和时间分类器来基于多个数据源推断某地区中的多个区域的空气质量指数的示例方案的框图。

图2是示出支持基于多个数据源来推断某地区中的多个区域的空气质量指数的计算设备的示例组件的说明性示图。

图3是示出用于实现基于多个数据源来推断某地区中的多个区域的空气质量指数的操作原理的示意图。

图4是示出有助于标识出某地区中用于空气质量监测站安装的各区域的偏差的3维网格空间的示意图。

图5是示出用于训练时间分类器和空间分类器的示例过程的流程图，该时间分类器和空间分类器被用来基于多个数据源来推断某地区中某污染物的质量指数。

图6是示出用于使用时间分类器和空间分类器来基于多个数据源推断某区域中某污染物的空气质量指数的示例过程的流程图。

图7是示出用于使用所获得的各污染物的空气质量指数水平和各污染物的线性插值水平之间的偏差来确定用于空气质量监测站安装的可能区域的示例过程的流程图。

详细描述

本文中描述了用于基于来自现有空气质量监测站的历史和实时空气质量数据以及来自其他数据源的空间和时间数据来推断针对某地区中的各区域的空气质量信息技术。其他数据源可包括气象数据、交通流量数据、人类移动数据、道路结构数据、和/或兴趣点数据等等。

这些技术可基于训练两个分开的分类器(诸如，空间分类器和时间分类器)的协同训练框架来使用半监督学习方法。空间分类器可将空间上相关的特征(例如，兴趣点的密度、道路长度等)取为输入以对不同区域处的空气质量之间的空间相关性进行分类。在一些实施例中，空间分类器可基于人工神经网络。时间分类器可使用时间上相关的特征(诸如交通流量数据和气象数据)来发现不同区域处的空气质量的时间依赖性。在一些实施例中，时间分类器可以是线性链条件随机场(CRF)。

协同训练框架可生成推断模型，该推断模型用于基于从小量区域的测得的空气质量数据的有限集合来对附加区域的空气质量进行插值。这些模型可被用来基于来自现有空气质量监测站的实时空气质量数据和其他形式的收集的空间或时间数据来推断附加区域的空气质量。以下参考图1-7描述了根据各实施例的用于在没有控制质量监测站的情况下推断各区域的实时空气质量信息的技术的示例。

示例方案

图1是示出用于使用空间和时间分类器来基于多个数据源推断某地区中的多个区域的空气质量指数(AQI)的示例方案100的框图。为其推断AQI的多个区域可缺少空气质量监测站。此外，可推断针对特定区域中存在的多种污染物中的每一者的相应AQI。例如，可推断针对区域中的污染物SO₂的第一AQI，同时可推断针对相同区域中的污染物NO₂的第二AQI。示例方案100可由计算设备102实现。计算设备102可以是通用计算机，诸如台式计算机、平板计算机、膝上型计算机、一个或多个服务器等。

示例方案100可包括特征提取阶段104、分类器协同训练阶段106和推断阶段108。在特征提取阶段104期间，空间特征110可从未标记的源数据112的空间上相关的数据中提取，并且时间特征114可从未标记的源数据112的时间上相关的数据中提取。在各实施例中，空间上相关的数据可包括道路网络数据、兴趣点(POI)数据和/或关于某地区中的固定基础设施的其他数据。时间上相关的数据可包括该地区中随时间改变的数据。例如，时间上相关的数据可包括车流量数据、人类移动数据、和/或气象数据等等。在一些情况下，可经由蜂窝电话的位置的改变来跟踪人类移动。蜂窝电话的位置的改变是通过走路、通过坐公共汽车、通过乘地铁和/或使用其他形式的运输工具的人类移动的结果。

分类器协同训练阶段106可涉及基于空间特征110和空气质量指数数据118来对空间分类器116进行协同训练。空气质量指数数据118可以是通过该地区中的空气质量监测站获得的针对特定污染物的空气质量指数水平。因此，空气质量指数数据118可构成标记的数据。同样，对时间分类器120的训练可基于时间特征114和空气质量指数数据118。对空间分类器116和时间分类器120的协同训练可使用考虑多个数据视图的半监督学习技术来执行。

在推断阶段108期间，经训练的空间分类器116和经训练的时间分类器120可被用来推断针对该地区中没有空气质量监测站的各地区的AQI。经训练的空间分类器116可被应用于从针对该地区中的每一区域的观察到的数据122中提取的空间特征以生成相应的空间概率分数。同样，经训练的时间分类器120可被应用于从针对该地区中的每一区域的观察到的数据122中提取的时间特征以生成相应的时间概率分数。观察到的数据122可包括实时的空间上相关的数据和实时的时间上相关的数据。还可进一步组合每一区域的时间概率分数和空间概率分数以预测该区域的AQI水平。在各实施例中，实时的空间上相关的数据可包括道路网络数据、兴趣点(POI)数据和/或关于某地区中的固定基础设施的其他数据。实时的时间上相关的数据可包括该地区中随时间改变的数据。例如，实时的时间上相关的数据可包括车流量数据、人类移动数据、和/或气象数据等等。

因此，可生成针对该地区中的多个区域(包括缺少空气质量监测站的区域)的预测的AQI 124。可以在预定时间间隔处重复执行对针对多个区域的预测的AQI124的确定。此外，还可按相同的方式预测针对存在于单个区域中的多种污染物的相应AQI。例如，可推断针对区域中的污染物SO₂的第一AQI水平，同时可推断针对相同区域中的污染物NO₂的第二AQI水平。由此，空间分类器和时间分类器被协同训练以推断针对特定污染物的AQI，并且针对多种污染物的AQI的推断可基于对多个经训练的空间分类器和多个经训练的时间分类器的使用。

在一些情况下，可使用在多个预定时间间隔内针对存在于地区中的多个区域中的多种污染物预测的AQI以进行进一步确定。这样的确定可与该地区中的一个或多个区域是否适合于空气质量监测站安装相关。在这样的实例中，该确定可使用天际线检测技术来执行。

示例组件

图2是示出支持基于多个数据源来推断某地区中的多个区域的空气质量指数的计算设备的示例组件的说明性示图。在各实施例中，计算设备102可以是服务器、服务器群组、通用计算机，诸如台式计算机、平板计算机、膝上型计算机等。然而，在其它实施例中，计算设备102可以是智能电话、游戏控制台、个人数字助理(PDA)等等中的一个。

示例计算设备102可包括网络接口202、一个或多个处理器204、存储器206、和/或使用户能够与计算设备交互的用户接口。网络接口202可包括使得计算设备102能够经网络发送和接收数据的有线和/或无线通信接口组件。这些用户接口可包括数据输出设备(例如，视觉显示器、音频扬声器)以及一个或多个数据输入设备。数据输入设备可包括但不限于，键区、键盘、鼠标设备、触摸屏、话筒、语音识别软件包以及任何其他合适的设备或其他电子/软件选择方法中的一个或多个的组合。

在各种实施例中，无线接口组件可包括但不限于，蜂窝、Wi-Fi、超宽带(UWB)、蓝牙、卫星传输等等。有线接口组件可包括直接输入/输出(I/O)接口，如以太网接口、串行接口、通用串行总线(USB)接口等等。如此，计算设备102可具有网络能力。例如，计算设备102可以经由一个或多个网络(如因特网)来与其他电子设备(例如，膝上型计算机、服务器等)交换数据。通过这种方式，计算设备102可从各数据源(诸如数据服务器和/或数据云)获得未标记的源数据112、空气质量指数数据118和观察到的数据122。

存储器206可以用诸如计算机存储介质之类的计算机可读介质来实现。计算机可读介质包括至少两种类型的计算机可读介质，即计算机存储介质和通信介质。计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备，或者可用于存储供计算设备访问的信息的任何其它有形介质。相反，通信介质可在诸如载波之类的已调制数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的，计算机存储介质不包括通信介质。

计算设备102的存储器206可存储各组件，这些组件包括标记的数据提取模块208、空间特征提取模块210、时间特征提取模块212、映射匹配模块214和训练模块216。存储在存储器206中的推断组件218可包括空间概率模块220、时间概率模块222和空气质量指数模块224。存储器206还可存储位置标识模块226和线性插值模块228。存储在存储器206中的各组件可由处理器204执行以执行各种功能的指令。存储器206还可包括数据存储230。

标记的数据提取模块208可从位于地区的各区域中的空气质量监测站获得空气质量信息。在各实施例中，该地区可以是城市，并且这些区域可以是该地区中的网格。例如，地区可被划分成诸网格(例如，1km×1km)。每一网格g可具有地理空间坐标g.loc以及与该网格相关联的或要为该网格推断的AQI标记集合g.Q＝{q₁，q₂，…，q_k}。此外，k可表示污染物的类型，并且可表示第k种类型的污染物(诸如PM₁₀)的AQI标记。因此，如果空气质量监测站位于一区域中，则标记的数据提取模块208可用从该站报告的一个或多个空气质量指数(AQI)来标记该区域以生成经标记的区域。某区域的观察到的空气质量可受到在包括该区域的影响地区g.R中观察到的数据(例如，轨迹和POI)的影响。例如，影响地区g.R可包括该网格以及预定数目的相邻网格(例如，8个相邻网格)。

AQI可以是被政府机关用来向公众传达环境中的当前污染水平的值。随着AQI的增长，越来越大比例的污染可能经历更严重的不利健康影响。用于将空气污染物浓度转换成AQI的函数可根据污染物而改变，并且可能在不同的国家是不同的。在一些情况下，AQI值可被划分成各范围，其中每一范围被分配一水平和色彩代码。可将每一AQI水平的描述符看作要被推断的类，即C＝{G,M,U-S,U,V-U,H}，如下表所示的。

表IAQI值、水平和色彩代码

空间特征提取模块210可从与包括在未标记的源数据112中的固定结构有关的数据中提取空间特征。数据源可包括道路网络数据源、和/或兴趣点(POI)数据源等。道路网络的结构可与其交通模式相关。因此，空间特征提取模块210可基于道路网络数据(诸如，映射或导航数据库)提取针对每一区域(例如，网格)的多个特征。此多个特征可包括高速公路的总长度f_h、其他(低级别的)道路段的总长度f_r和该区域中十字路口的数目f_s。与高速公路段的增加相比，某区域中道路段的增加可更显著地使区域的空气质量降级。因此，在生成空气污染物方面，高速公路可被认为比其他道路段更绿色。

空间特征提取模块210还可提取POI相关的特征。某区域中POI的类别及其密度可指示土地使用和该区域的功能以及该区域中的交通模式。因此，POI可能对该区域的空气质量推断有贡献。一些POI可与空气质量具有直接的因果关系。例如，如果某区域具有多个化工厂，则该区域中的空气质量可被降级。然而，具有绿色空间的公园通常导致良好的空气质量。因此，空间特征提取模块210可标识每一区域(例如，网格)的以下示例特征：

表格II：POI的类别

C1：车辆服务(加油站、修车)	C7：体育
		C₂：运输现场	C₈：公园
C₃：工厂	C₉：文化&教育
		C₄：装修和家具市场	C₁₀：娱乐
C₅：食品和饮料	C₁₁：公司
		C₆：购物中心和超市	C₁₂：旅馆和房地产

空间特征提取模块210可提取与POI中的闲置空间量有关的特征。在各实施例中，空间特征提取模块210可在没有POI的情况下将网格划分成预定数目的更小的单元格，并对单元格数进行计数。简言之，某区域中包含闲置空间越多，则空气污染物更有可能在该区域扩散。

空间特征提取模块210还可随时间跟踪每一区域中POI数目的改变。例如，空间特征提取模块210可将两个连续季度的POI数据进行比较，并计算每一区域中以下五个类别(C₃、C₄、C₆、C₈和C₁₂)中POI数目的改变。改变可暗示期间在某区域构建了基础设施或从该区域移除了基础设施的构造。构造是空气污染物(诸如PM₁₀和NO₂)的主要来源之一，并且空间特征提取模块210将这样的改变表示为空间特征。

时间特征提取模块212可从未标记的源数据112中的各环境或人类移动数据中提取时间特征。空气污染物的浓度可受到气象的影响。因此，时间特征提取模块212可标识例如以下五个类别的特征：温度、湿度、大气压力、风速和天气(诸如，多云、有雾、有雨、晴天和有雪)。例如，高的风速可使PM₁₀的浓度扩散，并且高湿度可导致高PM₁₀浓度。高压力可导致相对良好的AQI。相对良好的AQI也可在压力很高并且温度很低时出现。

此外，时间特征提取模块212可提取与交通流量有关的特征。车流量一般被认为是破坏空气质量的空气污染物的主要来源。时间特征提取模块212可基于在预定时间量(例如，每个小时)内经过某区域的车辆的空间轨迹来计算每一区域的多个特征。

多个时间特征可包括例如车辆速度的期望值：E(V)。在一些实施例中，车辆可以是出租车，因为它们在大范围的地理区域内并在所有小时始终都在操作。例如，在给定车辆所生成的空间轨迹的情况下，时间特征提取模块212可检索落入每一网格的影响地区(例如，p.l∈g.R)的点时间特征提取模块212还可计算任何两个连续点之间的距离并根据以下等式来计算每一车辆在每一点(p_i)的速度：

然而，由于每一车辆中的全球定位系统(GPS)设备的采样率是不同的，因此时间特征提取模块212可如下计算与时间有关的预期速度(其表示g.R中的车辆的总行进速度)：

多个特征可包括速度的标准差：D(v)。时间特征提取模块212可如下计算这样的特征：

其反映可变的不同车辆在预定时间量(例如，过去的一个小时)内在g.R中如何移动，其中标准差可基于时间来归一化。多个时间特征可进一步包括速度分布P(v)。

时间特征提取模块212可将速度离散化成多个标准单位(诸如每小时诸公里)的区间(例如，0≤v＜20、20≤v＜40和v≥40)，并经由以下等式计算多个区间内的速度分布：

在一些实例中，较大的D(v)可与较好的空气质量相关，而较小的D(v)可与较差的针对NO2的AQI水平相关。这可由以下事实造成：如果不存在交通堵塞，则车辆可在各种道路上以不同的速度行进，例如在高速公路上行进的车辆(有122km/h的速度限制)可比在地方街道行进的车辆(通常有40km/h的速度限制)快的多地移动。由于区域可包含有不同速度限制的路段，因此在该区域中的交通状况良好时D(v)往往很大。相反，由于在交通堵塞时每一车辆必须非常慢地移动，因此这可导致较小的D(v)。由此，与正常的交通状况相比，交通堵塞可引起更重的空气污染。

时间特征提取模块212可提取与人类移动相关的特征，其被表示为F_h。这些特征可包括两个特征集合，一个集合表示到达影响地区g.R的人数(f_a)另一集合表示在预定时间量(例如，过去的一个小时)内离开影响地区g.R的人数(f_l)。一般来说，人本身并不是主要的空气污染物生成者。然而，人类移动可暗示有用信息，诸如区域的土地使用、区域内的交通流量以及地区的土地使用(诸如民用还是商用)，这些有用信息中的每一者都可影响空气质量推断。在至少一个实施例中，时间特征提取模块212可从车辆轨迹(例如，出租车轨迹)中提取两个特征集合，因为这样的数据编码每一旅行的上落客点。然而，在其他实施例中，时间特征提取模块212可从其他数据源或多个数据集的组合(诸如，多个用户的移动电话信号)中提取这两个特征集合。一般来说，某网格g中PM₁₀的浓度在到达和离开g.R的人数增加时变得更浓。然而，非常小的f_a和f_l可指示某区域的相应AQI可能非常好或非常差。这可由以下事实造成：这样的场所可能是相对较少人参观的自然公园(良好)或工厂(非常差)。

尽管交通相关和人类移动特征可被在线计算，但由时间特征提取模块212进行的特征提取可能是耗时的。为了解决这个问题，时间特征提取模块212可使用这些区域(例如网格)的时空(ST)指数232和轨迹，其中每一区域与两个先入先出列表相关联，这两个先入先出列表分别存储在预定时间量(例如，过去的一个小时)内经过某区域和该区域内包括的上落客点的车辆的车辆标识符。时间特征提取模块212可分别依据到达时间和上落客时间来对这两个列表进行排序。在这样的实施例中，车辆的轨迹数据可通过散列表被连接到车辆标识符在给定由多个区域组成的影响地区的情况下，时间特征提取模块212可通过以下方式来合并这些区域中包括的车辆标识符：检查经排序的列表，并在时间间隔内通过搜索散列表来从每一轨迹检索点数据。

映射匹配模块214可访问接收到的车辆(例如，出租车)的空间轨迹，并使用映射匹配算法将每一轨迹映射到道路网络上。映射匹配模块214可将经映射的数据存储在轨迹数据库中。经映射的数据可被训练模块216用来进行离线学习和地理索引，以改善由推断组件218执行的在线推断操作的效率。

训练模块216可基于具有已知AQI形式的针对某地区中的各区域的标记的数据以及提取的空间和时间特征来训练空间分类器和时间分类器。空间分类器可以是空间分类器116，且时间分类器可以是时间分类器120。

在一些实施例中，空间分类器可以是基于人工神经网络(ANN)的空间分类器，其使用空间特征和AQI来对不同区域的空气质量之间的空间相关性进行建模。空间分类器可由以下两个部分组成：输入生成阶段和人工神经网络(ANN)阶段，其中和c^k可分别表示网格k的POI特征、道路网络特征、面积和AQI标记，且x可表示要被推断的标记。D₁可表示各特征之间的距离函数(例如，皮尔逊相关(Pearson correlation))，并且d_kx可被如下计算成两个网格的中心之间的地理距离(geo-distance)：

d_kx＝Geo_Distance(l^k，l^x).(7)

在输入生成阶段，空间分类器可用标记随机地选择n个网格(例如n＝3)以与要被推断的网格配对。ANN的输入是根据等式5到7计算的。为了学习各网格之间不同距离范围的影响，配对过程可被实现m次以制订输入集合。每一轮输入制订中所涉及的标记的网格包括现有网格中的至少e个不同的网格，其在形式上被定义为：例如，e＝2且n＝3意指三个网格中的至少一个网格不同于前一轮中使用的那些网格。对不同网格的使用可改变输入。由于从网格中提取的POI和道路网络特征是静态的，因此如果每次都选择相同的网络，则输入(ΔP_nx，d_nx，ΔR_nx)的改变不会超过c^k。

在ANN阶段中，空间分类器可采用具有一个隐藏层的反向传播(BP)神经网络的形式。因此，训练模块216可设置针对输入层中的各神经元(这些神经元中的每一者都接受所有特征)的线性函数，以及针对隐藏层和输出层中的各神经元的s形函数其可在形式上可被定义如下：

其中，f_p表示输入特征，b_m、b′_n和b″可以是与不同层中的神经元相关联的偏差，并且w_pq、w′_qr和w_r可表示与不同层的输入相关联的权重。

在一些实施例中，时间分类器可以是线性链条件随机场(CRF)，其是用于解析顺序数据的有区别的无向概率图形模型。时间分类器还可采用隐马尔可夫模型(HMM)或最大熵马尔可夫模型的形式。然而，CRF相较于隐马尔可夫模型的优势在于放宽了各特征之间的独立性假设。此外，CRF可避免由最大熵马尔可夫模型所表现出的标记偏差问题。

时间分类器的图形结构G可由多种(例如两种)节点组成G＝(X，Y)。在给定通过节点X＝{X₁，X₂，…，X_n}(X_i＝{F_m，F_t，F_h，t}(t是以小时为单元的时戳，例如上午8点))表示的观察序列的情况下，节点Y＝{Y₁，Y₂，…，Y_n}可表示要被推断的隐藏状态变量。Y_i∈Y被结构化成以形成在每一Y_i-1和Y_i之间均具有边缘并且具有属于的AQI“标记”的链。当条件为X时，随机变量Y_i可遵守与图形G有关的马尔可夫性质：

P(Y_i|X，Y_j，i≠j)＝P(Y_i|X，Y_j，i～j) (9)

其中，i～j意指i和j是G中的邻居。

给出观察序列x的情况下，特定标记序列y的概率可被定义成如下潜在函数的归一化积。

exp(Σ_jλ_jt_j(y_i-1，y_i，x，i)+Σ_kμ_ks_k(y_i，x，i)) (10)

其中，t_j(y_i-1，y_i，x，i)可表示整个观察序列、位置i和i-1处的标记的转移特征函数；s_k(y_i，x，i)可以是位置i处的标记以及观察序列的状态特征函数；λ_j和μ_k可以是从训练数据中估计出的参数。

在考虑s_k(y_i，x，i)=s_k(y_i-1，y_i，x，i)的情况下，等式(10)可被变换成：

其中，Z(x)可以是归一化因子。这可被非正式地看作关于输入序列的部分地确定Y_i的每一可能值的似然性的测量。时间分类器可将数字权重分配给每一特征，并将这些数字权重组合以确定Y_i的某个值的概率。因此，在给定训练数据的k个序列{(x^(k)，y^(k))}的情况下，训练模块216可通过最大似然学习P(y|x，λ)来确定参数λ，其可通过如下梯度下降求解：

空间分类器和时间分类器的协同训练是基于数据的多个视图的半监督学习技术。协同训练是基于以下假设来实现的：每一示例均是使用两个不同的特征集来描述的，这两个不同的特征集提供关于某一实例的不同但互补的信息。理想地，在给定类的情况下，每一实例的两个特征集是条件上独立的，并且实例的类可单独从每一视图准确地预测出。协同训练可生成更好的推断结果，因为这些分类器之一可正确地标记出另一分类器先前误分类的数据。图3中进一步示出了协同训练的操作原理。

图3是示出用于实现基于多个数据源来推断针对某地区中的多个区域的空气质量指数的操作原理的示意图300。在图3中，圆可表示区域，并且平面可表示这些区域在特定时间与空气质量有关的状态。空气质量可对其当前观察和其先前状态具有时间依赖性。例如，如果某区域的AQI在过于的一个小时内为良好，针对该区域的AQI往往也是良好。例如，某区域在时间t₁的AQI 302(由平面304表示)可接近地类似于该区域在时间t₂的AQI 306(由平面308表示)。第二，某区域的空气质量还可受到其空间邻居的影响。例如，如果在接近某区域的某场所的空气质量(例如，AQI 312)为差，则该区域的AQI 310可能也为差。换言之，针对某区域的AQI是依据从该区域散发出的空气污染物和由其他区域传播的空气污染物来确定的。由此，时间依赖性和空间相关性可被组合以提供针对各区域的推断的AQI(诸如AQI314-318)，而无需显式的AQI数据。

参考图2，训练模块216可将空间分类器和时间分类器馈送到由该模块实现的基于协同训练的半监督的学习算法。该学习算法可被如下实现，其中SC表示空间分类器，且TC表示时间分类器：

输入：特征集(F_m，F_t，F_h，F_r，F_p)、一些标记的网格G₁以及未标记网格的集合G₂、控制各轮次的阈值θ

输出：空间分类器SC和时间分类器TC。

1.i←0；

2.进行

3.SC←SC.学习(F_r,F_p,G₁)；

4.TC←TC.学习(F_m,F_t,F_h,G₁)；

5.对于每一类c_t，将SC应用于每一g∈G₂，挑选SC最确信地分类为c_i的n_i个网格，并将其添加到G₁。

6.对于每一类c_i，将TC应用于每一g∈G₂，挑选TC最确信地分类为c_i的n_i个网格，并将其添加到G₁。

7.i++；

8.直到G₂为空或i＞θ；

9.返回SC以及TC；

换言之，训练模块216可最初用两个分开的特征集来训练这两个分类器。例如，空间分类器可最初是使用空间特征来训练的，并且时间分类器可最初是用时间特征来训练的。训练模块216可随后使用经训练的空间分类器和经训练的时间分类器来迭代地推断未标记的网格G₂。迭代可涉及将最确信地分类的示例添加到标记的数据集G₁以用于下一轮的训练，直到G₂变为空或者已执行了预定轮次数θ。在迭代的结束处，训练模块216可返回完全训练好的空间分类器和完全训练好的时间分类器。

然而，在替换实施例中，训练模块216可仅在其相应的特征方面训练空间分类器或时间分类器，以供直接用于查明污染物的AQI。换言之，训练模块216可使用半监督学习技术来独立地训练空间分类器或时间分类器，而无需应用基于协同训练的学习框架。

推断组件218可包括空间概率模块220、时间概率模块222和空气质量指数模块224。空间概率模块220可使用经训练的空间分类器基于从空间数据源提取的空间特征来计算针对每一区域(例如，网格)的空间概率分数。

在各个实施例中，空间概率模块220可将要被推断的网格与指定的有n个标记的网格的集合配对，并预测针对每一集合的AQI标记。每一推断出的标记的频率可随后被用作该标记的概率分数，并且最频繁出现的标记可被选为最终的预测结果。在考虑这些区域的道路网络和POI的情况下，空间分类器的预测可被看作各地理空间上的非线性插值。

时间概率模块222可使用经训练的时间分类器基于从时间数据源提取的时间特征来计算针对每一区域(例如，网格)的时间概率分数。如上所述，在给出观察序列x的情况下，特定标记序列y的概率可被定义成如下潜在函数的归一化积：

exp(Σ_jλ_jt_j（y_i-1，y_i，x，i)+Σ_kμ_ks_k(y_i，x，i)) (13)

其中，t_j(y_i-1，y_i，x，i)可以是整个观察序列、位置i和i-1处的标记的转移特征函数：s_k(y_i，x，i)可以是位置i处的标记以及观察序列的状态特征函数；λ_j和μ_k可以是从训练数据中估计出的参数。

在考虑s_k(y_i，x，i)＝s_k(y_i-1，y_i，x，i)的情况下，等式(13)可被变换成：

其中，Z(x)可表示归一化因子。该因子可被非正式地看作关于输入序列的部分地确定Y_i的每一可能值的似然性的测量。时间分类器可将数字权重分配给每一特征，并将这些数字权重组合以确定Y_i的某个值的概率。

空气质量指数模块224可基于分别由空间概率模块220和时间概率模块222生成的概率分数(P_SC和P_TC)来预测某区域(例如，网格)中的污染物的AQI。在各实施例中，空气质量指数模块224可如下将P_SC和P_TC相乘：

由此，通过将两个概率分数P_SC和P_TC相乘，空气质量指数模块224可将最可能的类选为标记。在至少一个实施例中，空气质量指数模块224可在周期性的基础上(例如，每小时)基于各空气质量监测站生成空气质量报告的计划来进行推断。

然而，在一些替换实施例中，空气质量指数模块224可通过将空间分类器直接应用于某区域的空间特征来计算该区域与某污染物有关的AQI。例如，空间分类器可将要被推断的区域与指定的n个标记的区域的集合配对，并预测针对每一集合的AQI标记。因此，最频繁发生的标记可被选为针对AQI的最终预测结果。然而，在其他情况下，空间分类器可使用其他分类技术来基于空间特征推断AQI。在这样的替换实施例中，可在不使用基于协同训练的学习框架的情况下训练空间分类器。

同样，在其他替换实施例中，空气质量指数模块224可通过将时间分类器直接应用于某地区的时间特征来计算该地区与某污染物有关的AQI。例如，如上所述，时间分类器可通过鉴于其他标记的区域将最大似然学习技术应用于该区域的时间特征来求解该区域的AQI。然而，在其他情况下，空间分类器可使用其他分类技术来基于空间特征推断AQI。在这样的替换实施例中，可在不使用基于协同训练的学习框架的情况下训练时间分类器。

由包括经协同训练的空间分类器和时间分类器在内的一对分类器生成的或者由单独训练的空间分类器或单独训练的时间分类器生成的AQI可以是针对特定污染物的AQI。因此，多对经协同训练的分类器可被推断组件218用来确定多种污染物的AQI。

位置标识模块226可基于某地区中的多个区域上的多种污染物的AQI来标识要构建附加空气质量监测站的优选区域。在至少一个实施例中，位置标识模块226最初可为多种污染物中的每一污染物计算由空气质量指数模块224推断出的AQI水平和通过线性插值推断出的AQI水平之间的偏差。如果插值得到的AQI准确地反映出某地区的空气质量，即该插值得到的AQI类似于使用经协同训练的空间和时间分类器确定的AQI，则实体(例如，政府机关)可能不期望在该区域构建空气质量监测站。相反，当插值得到的AQI偏离使用经协同训练的空间和时间分类器确定的AQI时，该插值得到的AQI可能无法准确反映出该地区的空气质量。在这样的情况下，实体可决定在地区安装空气质量监测站。

线性插值可由线性插值模块228执行。线性插值模块228可实现如下距离加权的插值算法，该算法使用由现有的空气质量监测站所报告的AQI值来对没有现有站的区域的空气质量指数进行插值：

其中，d_x，i表示区域x和第i个监测站之间的地理距离。在各个实施例中，AQI值还可根据表格I被转换成AQI水平标记。

位置标识模块226可以在多个预定时间间隔中的每一者处为每一污染物计算由空气质量指数模块224推断出的AQI水平和由线性插值模块228推断出的AQI水平之间的偏差。该计算可如下所示在预定时间间隔为每一区域中的每一污染物执行，其中m表示污染物的数目：

σ＝|g.Q-g.Q′|＝{Δq₁，Δq₂，…，Δq_1m} (17)

随后，位置标识模块226可将某区域表示成m维空间中的点，其中每一维度代表一污染物。例如，两个区域的集合可被表示成第一小时在3维(3D)空间中的(1,3,4)和(3,2,0)。参考图4示出关于3D空间中的各区域的表示的附加细节。

图4是示出有助于标识某地区中用于空气质量监测站安装的各区域的偏差的示例3维网格空间400的示意图。在所示的该示例中，维度402对应于污染物PM₂.₅，维度404对应于污染物NO₂,且维度406对应于污染物PM₁₀。此外，这些点中的每一者(例如，点408)可表示在那里找到了污染物的区域。每一维度中的点都是随时间添加的。例如，数字值“1”指示过了一个小时，数字值“2”指示过了两个小时，数字值“3”指示过了三个小时，并以此类推。

回到图2，在给定m维空间中的表示的情况下，位置标识模块226可基于天际线检测技术来使用数据驱动和非参数算法寻找具有显著差距的点。天际线被定义为不受任何其他点支配(dominate)的那些点。如果点在所有维度上都一样好或更好且在至少一个维度上更好，则该点可支配另一点。

使用天际线检测技术，位置标识模块226可标识针对每小时的点集合(区域)。位置标识模块226可对每一区域在预定时间段(例如，3个月)内在检测到的天际线中的出现计数。因此，位置标识模块226可确定区域在预定时间段内在检测到的天际线中出现的越频繁，则该区域是适合于空气质量监测站的候选区域的概率越高。

位置标识模块226还可考虑这些候选区域之间的地理距离。在各实施例中，位置标识模块226可使用核密度估计(KDE)来基于该区域在检测到的天际线中的出现来推断某区域可能适合于空气质量监测站的概率。KDE可能是用于估计随机变量的概率密度函数的非参数方式。换言之，KDE基于有限数据样本来解决数据平滑问题。例如，在给定位于2维空间中的n个点p₁、p₂、...、p_n的情况下，KDE可被用来如下估计区域x处的强度：

其中，d_i，x可表示p_i和x之间的距离，h可表示带宽，且KO可以是其值随d_i，x的增加而衰减的核函数。

在一个实例中，位置标识模块226可将高斯函数用作核函数，并根据积分均方差标准来执行该计算。此外，某区域的出现次数被看作该网格中的点的数量，并且每一点的坐标可设于该网格的中心，该点属于如下：

因此，位置标识模块226可生成热度图，该热度图示出每一区域适合于构建空气质量监测站的概率。由此，如果具有最高概率的区域不可用于建筑物，则决策作出者(例如，政府机关)可根据该热度图而考虑该区域周围的其他区域。第二，由位置标识模块226确定的估计密度可将各个体区域(例如，网格)在地理空间上分组成多个聚类。由此，一旦某聚类中的区域被确定为适合于构造空气质量监测站，则决策作出者可制止将该聚类中的其他区域认为合适。

数据存储320可存储空间分类器234和时间分类器236，其可被协同训练以推断针对多种污染物的AQI。数据存储230还可存储ST指数232、存储的列表、散列表和/或由计算设备102的组件使用的其他数据源。

以上用于推断空气质量指数水平的示例实施例在以上被描述成是使用协同训练的空间分类器和协同训练的时间分类器来实现的。然而，在其他实施例中，空气质量指数水平的推断可用使用空间上相关的数据训练的空间分类器或使用时间上相关的数据训练的时间分类器来实施，而无需实现协同训练。在这样的实施例中，空气质量指数模块224可被配置成基于空间概率分数或时间概率分数来推导某区域中针对某污染物的空气质量指数水平。

示例过程

图5-7描述用于在没有空气质量监测站的情况下使用空间和时间特征来推断各区域的空气质量信息的各示例过程。每一示例过程中描述操作的次序并不旨在解释为限制，并且任何数量的所描述的操作可以按任何次序和/或并行组合以实现每一过程。此外，图5-7中的每一者中的操作可用硬件、软件和/或其组合来实现。在软件的上下文中，各个操作可表示在由一个或多个处理器执行时使得一个或多个处理器执行既定操作的计算机可执行指令。该一个或多个处理器可被包括在各个体计算设备中或被包括在例如作为云的一部分的多个计算设备中。一般而言，计算机可执行指令包括使得执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。在其他实施例中，每一示例过程的操作可以由硬件逻辑电路来执行，如专用集成电路。

图5是示出用于训练时间分类器和空间分类器的示例过程500的流程图，该时间分类器和空间分类器被用来基于多个数据源来推断某地区中某污染物的质量指数。在框502，标记的数据提取模块208可获得针对某区域的标记的空气质量指数数据。该标记的空气质量数据可以是由空气质量监测站为该地区中的各区域(例如，网格)针对特定污染物获得的空气质量指数数据118。由此，当网格具有针对某污染物的相应空气质量指数时，该网格可被指定为与该污染物有关的标记的网格。在一些实施例中，该地区可以是城市区域。

在框504，空间特征提取模块210可为该地区从空间上相关的数据中提取空间特征。在各实施例中，空间上相关的数据可包括道路网络数据、兴趣点(POI)数据和/或关于该地区中的固定基础设施的其他数据。空间上相关的数据可从多个源(诸如未标记的源数据112)中获得。

在框506，时间特征提取模块212可为该地区从时间上相关的数据中提取时间特征。时间上相关的数据可包括该地区中随时间改变的数据。例如，时间上相关的数据可包括车流量数据、人类移动数据、和/或气象数据等等。时间上相关的数据可从多个源(诸如未标记的源数据112)中获得。

在框508，训练模块216可应用基于协同训练的学习框架来基于标记的空气质量指数数据118、提取的空间特征110和提取的时间特征114来对空间分类器116和时间分类器120进行协同训练。在各实施例中，训练模块216可最初用相应的特征来训练空间和时间分类器。因此，由于对标记的空气质量指数数据118的使用，可结合特定污染物来训练空间分类器和时间分类器。

例如，空间分类器可最初使用空间特征来训练，并且时间分类器可最初用时间特征来训练。训练模块216可随后应用经训练的空间分类器和经训练的时间分类器来迭代地推断未标记的区域(例如，网格)。该迭代可涉及将最确信地分类的示例中的一个或多个添加到该地区中的标记的区域以用于每一后续训练迭代轮次，直到该地区中剩下的未标记的区域被标记或者预定数目的迭代轮次已被执行。在迭代的结束处，训练模块216可返回完全训练好的空间分类器和完全训练好的时间分类器。

图6是示出用于使用时间分类器和空间分类器来基于多个数据源推断某区域中针对某污染物的空气质量指数的示例过程600的流程图。在框602，空间特征提取模块210可获得针对包括在某地区中的区域的空间特征。在各实施例中，这些空间特征可从针对该区域的观察到的数据122中的空间上相关的数据中获得。空间上相关的数据可包括道路网络数据、兴趣点数据和/或关于该地区中的固定基础设施的其他数据。

在框604，时间特征提取模块212可获得针对包括在该地区中的该区域的时间特征。在各实施例中，这些时间特征可从针对该区域的观察到的数据122中的时间上相关的数据中获得。时间上相关的数据可包括该地区中随时间改变的数据。例如，时间上相关的数据可包括车流量数据、人类移动数据、和/或气象数据等等。

在框606，空间概率模块220可使用经训练的空间分类器基于空间特征来生成针对该区域中的某污染物的空间概率分数。在各实施例中，经训练的空间分类器可以是空间分类器116。空间概率分数可表示区域中存在污染物的可能性。

在框608，时间概率模块222可使用经训练的时间分类器基于时间特征来生成针对该区域中的某污染物的时间概率分数。在各实施例中，经训练的时间分类器可以是时间分类器120。时间概率分数可表示区域中存在污染物的可能性。

在框610，空气质量指数模块224可基于空间概率分数和时间概率分数计算与该区域中的污染物有关的空气质量指数。在各实施例中，与污染物有关的空气质量指数可基于空间概率分数和时间概率分数的乘积来计算。

然而，在一些替换实施例中，空气质量指数模块224可通过将空间分类器直接应用于某区域的空间特征来计算该区域与该污染物有关的空气质量指数。在这样的替换实施例中，可在不使用基于协同训练的学习框架的情况下训练空间分类器。同样，在其他替换实施例中，空气质量指数模块224可通过将时间分类器直接应用于某区域的时间特征来计算该区域与该污染物有关的空气质量指数。在这样的替换实施例中，可在不使用基于协同训练的学习框架的情况下训练时间分类器。由此，在替换实施例中，空气质量指数模块224可在不执行过程600中的框606和框608中描述的操作的情况下生成空气质量指数。

图7是示出用于使用获得的污染物的空气质量指数水平和污染物的线性插值水平之间的偏差来确定用于空气质量监测站安装的可能区域的示例过程700的流程图。在框702，位置标识模块226可在周期性间隔集合内为某地区中的多个区域处的多个污染物中的每一者计算AQI水平和线性插值水平之间的偏差。AQI水平可由空气质量指数模块224使用经协同训练的空间分类器和时间分类器来获得。线性插值水平可由线性插值模块228获得。

在框704，位置标识模块226可将针对多个区域中的每一者处的每一污染物以及周期性间隔中的每一者的相应偏差定位在多维网格空间中。在一个实例中，多维网格空间可以是其中每一维度对应于不同的污染物并且该网格空间中的点标识区域的3维网格空间。

在框706，位置标识模块226可将天际线检测算法应用于多维网格空间中的偏差以标识用于空气质量监测站安装的一个或多个区域。例如，位置标识模块226可在预定时间段(例如，3个月)内对每一区域在多维网格空间中检测到的天际线中的出现进行计数，预定时间段包括周期性间隔集合。因此，位置标识模块226可确定在预定时间段内某区域在检测到的天际线中出现的越频繁，则该区域是适合于监测站的候选区域的可能性越高。

总而言之，本文中描述的技术可提供针对多个区域的空气质量数据(诸如特定污染物的空气质量指数)，而无需将空气质量监测站添加到这些区域中。这种对构建空气质量站的必要性的降低或消除可提供货币和能力节省。此外，这些技术可被用来确定将来要建立空气质量监测站的区域，诸如在这些技术预测比预期空气质量差的区域中将要建立空气质量监测站。

结语

总而言之，尽管用对结构特征和/或方法动作专用的语言描述了各实施方式，但可以理解，所附权利要求书中定义的主题不必限于所述具体特征或动作。相反，这些具体特征和动作是作为实现权利要求的所要求保护的主题的示例性形式而公开的。

Claims

1.一种方法，包括：

从一个或多个空气质量监测站获得针对地区中的污染物的标记的空气质量指数数据；

从针对所述地区的空间上相关的数据中提取针对所述地区的空间特征，所述空间上相关的数据包括与所述地区中的固定基础设施相关联的信息；

从针对所述地区的时间上相关的数据中提取针对所述地区的时间特征，所述时间上相关的数据包括针对所述地区的随时间改变的数据；以及

应用基于协同训练的学习框架来至少基于所述标记的空气质量指数数据、针对所述地区的空间特征以及针对所述地区的时间特征来协同训练空间分类器和时间分类器。

2.如权利要求1所述的方法，其特征在于，进一步包括：

基于为所述地区中的区域观察到的空间上相关的数据来获得针对所述区域的空间特征；

基于为所述地区中的所述区域观察到的时间上相关的数据来获得针对所述区域的时间特征；

使用所述空间分类器至少基于所述空间特征来生成针对所述区域中的所述污染物的空间概率分数；

使用所述时间分类器至少基于所述时间特征来生成针对所述区域中的所述污染物的时间概率分数；以及

至少基于所述空间概率分数和所述时间概率分数来计算与所述区域中的所述污染物有关的空气质量指数水平。

3.如权利要求2所述的方法，其特征在于，所述计算包括至少基于所述空间概率分数和所述时间概率分数的乘积来计算所述空气质量指数水平。

4.如权利要求2所述的方法，其特征在于，为所述区域观察到的空间上相关的数据包括道路网络数据或兴趣点数据中的至少一者，并且其中为所述区域观察到的时间上相关的数据包括车流量数据、人类移动数据或气象数据中的至少一者。

5.如权利要求2所述的方法，其特征在于，所述区域缺少提供针对所述污染物的空气质量指数水平的空气质量监测站。

6.如权利要求1所述的方法，其特征在于，所述应用包括应用所述基于协同训练的学习框架来对所述空间分类器和所述时间分类器进行协同训练以用于为所述地区中的区域推断所述污染物的空气质量指数水平。

7.如权利要求1所述的方法，其特征在于，所述应用所述基于协同训练的学习框架包括：

用针对所述地区的空间特征来训练所述空间分类器；

用针对所述地区的时间特征来训练所述时间分类器；以及

应用所述空间分类器和所述时间分类器来通过以下方式迭代地推断未标记的区域：对于每一后续训练迭代轮次，将一个或多个最确信地分类的示例添加到所述地区中的标记的区域中，直到所述地区中剩下的未标记的区域均被标记或者预定数目的迭代轮次已被执行。

8.如权利要求1所述的方法，其特征在于，为所述地区观察到的空间上相关的数据包括道路网络数据或兴趣点数据中的至少一者，并且其中为所述地区观察到的时间上相关的数据包括车流量数据、人类移动数据或气象数据中的至少一者。

9.如权利要求1所述的方法，其特征在于，所述空间分类器是人工神经网络ANN分类器，并且其中所述时间分类器是线性链条件随机场CRF分类器、隐马尔可夫模型HMM分类器或最大熵马尔可夫模型分类器之一。

10.一种计算机实现的方法，包括：

应用基于协同训练的学习框架来至少基于来自地区中的一个或多个空气质量监测站的标记的空气质量指数数据、与所述地区相关联的空间特征的集合、以及与所述地区相关联的时间特征的集合来协同训练空间分类器和时间分类器；

基于为所述地区中的区域观察到的空间上相关的数据来获得针对所述区域的空间特征的附加集合；

基于为所述地区中的所述区域观察到的时间上相关的数据来获得针对所述区域的时间特征的附加集合；

使用所述空间分类器至少基于针对所述区域的空间特征的附加集合来生成针对所述区域中的污染物的空间概率分数；使用所述时间分类器至少基于针对所述区域的时间特征的附加集合来生成针对所述区域中的所述污染物的时间概率分数；以及

11.如权利要求10所述的计算机实现的方法，其特征在于，进一步包括：

从一个或多个空气质量监测站获得针对所述地区中的所述污染物的所述标记的空气质量指数数据；

从针对所述地区的空间上相关的数据提取与所述地区相关联的空间特征，所述空间上相关的数据包括与所述地区中的固定基础设施相关联的信息；以及从针对所述地区的时间上相关的数据提取针对所述地区的时间特征，所述时间上相关的数据包括针对所述地区的随时间改变的数据。

12.如权利要求11所述的计算机实现的方法，其特征在于，针对所述地区的所述空间上相关的数据包括道路网络数据或兴趣点数据中的至少一者，并且其中为所述地区观察到的所述时间上相关的数据包括车流量数据、人类移动数据或气象数据中的至少一者。

13.如权利要去10所述的计算机实现的方法，其特征在于，所述应用基于协同训练的学习框架包括：

用与所述地区相关联的所述空间特征的集合来训练所述空间分类器；

用与所述地区相关联的所述时间特征的集合来训练所述时间分类器；以及

应用所述空间分类器和所述时间分类器来通过以下方式迭代地推断未标记的区域：对于每一后续训练迭代轮次，将一个或多个最确信地分类的示例添加到所述地区中的标记的区域中，直到所述地区中剩下的未标记区域均被标记或者预定数目的迭代轮次已被执行。

14.如权利要求10所述的计算机实现的方法，其特征在于，为所述区域观察到的空间上相关的数据包括道路网络数据或兴趣点数据中的至少一者，并且其中为所述区域观察到的时间上相关的数据包括车流量数据、人类移动数据或气象数据中的至少一者。

15.如权利要求10所述的计算机实现的方法，其特征在于，进一步包括：

在周期性间隔的集合内为多个区域处的多个污染物中的每一者计算空气质量指数水平和相应的线性插值水平之间的偏差；

将针对所述多个区域中的每一者处的每一污染物以及所述周期性间隔中的每一者的相应偏差定位在多维网格空间中；以及

将天际线检测算法应用于所述多维网格空间中的偏差以标识用于空气质量监测站安装的一个或多个区域。

16.如权利要去15所述的计算机实现的方法，其特征在于，所述应用天际线检测算法包括：

在预定时间段内对每一区域在所述多维网格空间中的检测到的天际线中的出现进行计数，所述预定时间段包括周期性间隔的集合；以及

至少基于区域在所述预定时间段内在所述检测到的天际线中出现的频率来确定所述区域是适合于空气质量监测站安装的候选位置。

17.一种设备，包括：

一个或多个处理器；

存储器，所述存储器包括可由所述一个或多个处理器执行的多个计算机可执行组件，包括：

空间特征提取组件，所述空间特征提取组件基于为地区中的区域观察到的空间上相关的数据来获得针对所述区域的空间特征；

时间特征提取组件，所述时间特征提取组件基于为所述地区中的所述区域观察到的时间上相关的数据来获得针对所述区域的时间特征；

协同训练组件，所述协同训练组件应用基于协同训练的学习框架来至少基于所述标记的空气质量指数数据、针对所述地区的空间特征以及针对所述地区的时间特征来协同训练空间分类器和时间分类器；以及

空气质量指数组件，所述空气质量指数组件通过将所述空间分类器应用于所述空间特征或将所述时间分类器应用于所述时间特征来计算与所述区域中的污染物有关的空气质量指数水平。

18.如权利要求17所述的设备，其特征在于，所述空间特征提取组件还从针对所述地区的空间上相关的数据提取针对所述地区的空间特征，所述空间上相关的数据包括关于所述地区中的固定基础设施的信息，并且其中所述时间特征提取组件还从针对所述地区的时间上相关的数据中提取针对所述地区的时间特征，所述时间上相关的数据包括针对所述地区的随时间改变的数据。

19.如权利要求17所述的设备，其特征在于，进一步包括以下中的至少一者：

标记数据提取组件，所述标记数据提取组件从一个或多个空气质量监测站获得针对所述地区中的所述污染物的标记的空气质量指数数据；

空间概率组件，所述空间概率组件使用所述空间分类器至少基于针对所述区域的空间特征来生成针对所述区域中的污染物的空间概率分数；以及

时间概率组件，所述时间概率组件使用所述时间分类器至少基于针对所述区域的时间特征来生成针对所述区域中的所述污染物的时间概率分数；

其中所述空气质量指数组件还至少基于所述空间概率分数或所述时间概率分数来计算与所述区域中的所述污染物有关的附加空气质量指数水平。

20.如权利要求17所述的设备，其特征在于，进一步包括执行以下动作的位置标识组件，包括：

21.一种系统，包括：

用于从一个或多个空气质量监测站获得针对地区中的污染物的标记的空气质量指数数据的装置；

用于从针对所述地区的空间上相关的数据中提取针对所述地区的空间特征的装置，所述空间上相关的数据包括与所述地区中的固定基础设施相关联的信息；

用于从针对所述地区的时间上相关的数据中提取针对所述地区的时间特征的装置，所述时间上相关的数据包括针对所述地区的随时间改变的数据；以及

用于应用基于协同训练的学习框架来至少基于所述标记的空气质量指数数据、针对所述地区的空间特征以及针对所述地区的时间特征来协同训练空间分类器和时间分类器的装置。