CN106844626A

CN106844626A - 利用微博关键词和位置信息模拟空气质量的方法及系统

Info

Publication number: CN106844626A
Application number: CN201710041459.XA
Authority: CN
Inventors: 王艳东; 荆彤; 王腾; 姜伟; 付小康
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2017-06-13
Anticipated expiration: 2037-01-20
Also published as: CN106844626B

Abstract

本发明公开了一种利用微博关键词和位置信息模拟空气质量的方法及系统，该方法包括以下步骤：S1、获取微博数据，并对其进行预处理；S2、建立不同大小的缓冲区，对各个缓冲区内的微博数量进行标准化，并计算标准化的微博数量与监测站点月均AQI之间的相关系数，比较不同半径缓冲区的相关系数，得到相关性最强的缓冲区大小；S3、进行格网划分，提取相对微博数量，对相对微博数量与月均AQI之间的函数关系进行拟合；S4、通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI；S5、根据所有格网的模拟AQI，对所有格网应用克里格插值，得出空气质量趋势面模型。本发明能够反映城市不同位置的空气质量分布情况，及时发现影响空气质量的关键因素。

Description

利用微博关键词和位置信息模拟空气质量的方法及系统

技术领域

本发明涉及社交媒体数据应用领域，尤其涉及一种利用微博关键词和位置信息模拟空气质量的方法及系统。

背景技术

人类社会正进入“大数据”时代，互联网和信息行业的蓬勃发展引起人们的普遍关注。大数据的兴起，为我们理解社会环境带来新的机遇，可以有效捕捉各种社会特征。维基百科对社交媒体的定义是：社交媒体是以计算机为媒介的工具，允许人们在虚拟社区或者网络上创建、分享或者交换信息、想法以及图片、视频。社交媒体被定义为“一组建立在Web2.0的思想和技术基础之上的基于互联网的应用程序，并且允许创建和交换用户生成的内容”。随着用户产生数据量的不断增长，社交媒体几乎在现代生活的各个方面快速普及。社交媒体数据的增长速度在不断加快，而计算机技术的不断进步也巩固了公众作为大数据提供者与消费者的角色。

新浪微博(Sina Weibo)是我国使用较普遍的社交媒体应用之一，它是类似twitter与facebook结合的产物。新浪公司于2009年8月14日推出新浪微博。在2012年中期，已经出现接近4亿的微博用户，每日有超过1亿条的微博发出。新浪微博为用户提供了一个平台去获取信息，分享观点以及与他人沟通。它连续不断的产生涉及社交用户日常生活的海量数据，这些数据包含时间、用户情感等多种属性。用户利用带有GPS的设备，比如智能手机等发布微博，他们可以在微博中加入发布时的位置信息。随着空气质量的不断恶化，许多人比之前更关注空气质量，并借助新浪微博这个平台发表自身看法。随着空气质量的不断恶化，许多人比之前更关注空气质量，并借助新浪微博这个平台发表自身看法。

中国的城市化随着经济的快速增长逐渐发展，这种短时间内的经济快速增长不仅带来了物质生活水平的提升，也造成了严重的环境污染，尤其是空气污染。空气污染严重危害人们的身体健康，导致眼刺激，肺和咽喉发炎，肺癌和婴儿的出生问题等。空气污染带来的问题将会阻碍未来的社会发展，治理空气污染成为当下急需解决的重要问题。目前我国主要依靠空气质量监测站点进行空气质量监测。它可以对空气中的常规污染因子和气象参数进行监测，通过分析得出空气质量指数，用以定量表述空气质量情况。由于监测站建设与维护的成本高昂，城市中的空气质量监测站数量很少，会出现较大区域内仅有一个空气质量监测站的现象。然而空气质量受到不同因素的影响，比如交通流量，楼房密度等等，会在城市中呈现非均匀分布，不同区域可能会出现较大起伏。这就导致细粒度位置的空气质量状况仅靠空气质量监测站无法准确获得。研究城市中不同区域细粒度空气质量的起伏状况有助于探测城市的空气污染并进行有效防治。

发明内容

本发明要解决的技术问题在于针对现有技术中空气质量监测站数量少，且建设大量监测站的成本高，难以准确监测城市空气质量的缺陷，提供一种利用微博关键词和位置信息模拟空气质量的方法及系统。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种利用微博关键词和位置信息模拟空气质量的方法，包括以下步骤：

S1、获取微博数据，包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据，并对其进行预处理；

S2、以某个监测站点为中心，建立不同大小的缓冲区，对各个缓冲区内带有空气质量关键词的微博数量进行标准化，并计算标准化的微博数量与监测站点月均AQI之间的相关系数，比较不同半径缓冲区的相关系数，得到相关性最强的缓冲区大小；

S3、根据相关性最强的缓冲区大小对研究区域进行格网划分，提取监测站点所在格网中带有空气质量关键词的相对微博数量，对相对微博数量与月均AQI之间的函数关系进行拟合，并对拟合后的函数进行精度验证，得到验证通过后的拟合函数；

S4、计算研究区域中所有格网的相对微博数量，通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI；

S5、根据所有格网的模拟AQI，对所有格网应用克里格插值，得出空气质量趋势面模型，根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。

进一步地，本发明的步骤S3中计算相对微博数量的方法为：

以监测站点所在格网为中心，以其它格网到中心的距离倒数为权重，计算影响范围内所有格网的带有空气质量关键词的微博数，将其与对应权重相乘后求和，并对结果进行标准化；

以监测站点所在格网为中心，以其它格网到中心的距离倒数为权重，计算每个月影响范围内所有格网的无空气质量关键词的微博数，将其与对应权重相乘后求和，并计算每个月的平均数；

根据每个月的平均数作为人口密度，结合标准化的结果，得到该格网的相对微博数。

进一步地，本发明的步骤S1中获取微博数据的方法为：

通过微博开放平台API和网页爬虫，获取带有空气质量关键词的微博数据；通过微博开放平台API，获取无空气质量关键词的微博数据。

进一步地，本发明的步骤S1中对微博数据进行预处理的方法为：

对带有空气质量关键词的微博数据，去除转发微博，去除广告应用发出的微博，保留其中带有地理位置信息的微博；并对其进行情感分类，提取出讲空气质量差的微博；

对无空气质量关键词的微博数据，去除重复微博，每个用户每天每个位置仅保留一条微博记录。

进一步地，本发明的步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为：

从微博数据中提取出各缓冲区内带有空气质量关键词的微博数据量，并利用相同范围内的无空气质量关键词的微博数量进行标准化。

进一步地，本发明的步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为：

在软件1stOpt中，选择拟合算法为麦夸特算法，使用监测站点对应的月均AQI与其所在格网的相对微博数量数据迭代至收敛时，得到拟合出的拟合函数，y＝a+bx+cx²+dx³；其中，y表示监测站点对应的月均AQI，x表示格网的相对微博数量。

进一步地，本发明的步骤S3中进行精度验证的方法包括：

通过拟合函数时得到的各项指标进行精度验证，指标包括：拟合函数能解释因变量变化的百分数R²、标准差以及方差齐性检验F值；

通过N折交叉验证法，将微博数据随机分为N组，利用其中的N-1组进行拟合，根据剩余的一组做误差分析。

进一步地，本发明的步骤S4中得出所有格网的模拟AQI的方法为：

设待插值格网周围影响范围内的空气质量指数是均匀减少的，将设置有监测站点的格网作为初始参考点；

若待插值格网周围设置有不少于三个参考点，按照改进的反距离加权插值，赋予格网模拟AQI，并将该格网设置为参考点；

若待插值格网周围的参考点数量小于三个，则该格网在此轮插值中不参与运算；

待该轮插值结束后，若还有待插值的格网，继续新一轮的插值过程，循环迭代直到所有格网全部完成插值，得到所有格网的模拟AQI；具体插值方法见公式：

其中其中AQI_interp为待插值格网AQI，d_i为参考点与待插值格网地理距离，k为距离倒数的次数，此处选为2；n为待插值格网影响范围内参考点总个数，AQImax为影响范围内参考点AQI最大值，AQImin为影响范围内参考点AQI最小值；S为AQImax格网所在AQImin格网的地理距离。

进一步地，本发明的步骤S5中根据空气质量趋势面模型还包括找出影响空气质量因素，并验证模拟的空气质量的方法，具体为：

对空气质量趋势面模型上的所有格网按照月均AQI大小利用自然断点法分为5类区域，5类区域空气质量逐渐变差；

计算各区域的交通相关属性与空气质量的相关性，找出影响空气质量的因素；

计算各区域的兴趣点相对密度与空气质量的相关性，找出影响空气质量的因素；

利用梯度提升决策树分析不同种类的兴趣点对空气质量的影响程度，找出影响最大的兴趣点种类。

本发明提供一种利用微博关键词和位置信息模拟空气质量的系统，包括：

微博数据获取单元，用于获取微博数据，包括带有空气质量关键词的微博数据和无空气质量关键词的微博数据，并对其进行预处理；

缓冲区大小计算单元，用于以某个监测站点为中心，建立不同大小的缓冲区，对各个缓冲区内带有空气质量关键词的微博数量进行标准化，并计算标准化的微博数量与监测站点月均AQI之间的相关系数，比较不同半径缓冲区的相关系数，得到相关性最强的缓冲区大小；

拟合函数计算单元，用于根据相关性最强的缓冲区大小对研究区域进行格网划分，提取监测站点所在格网中带有空气质量关键词的相对微博数量，对相对微博数量与月均AQI之间的函数关系进行拟合，并对拟合后的函数进行精度验证，得到验证通过后的拟合函数；

模拟AQI计算单元，用于计算研究区域中所有格网的相对微博数量，通过拟合函数与改进的反距离加权插值得出所有格网的模拟AQI；

空气质量趋势面模型建立单元，用于根据所有格网的模拟AQI，对所有格网应用克里格插值，得出空气质量趋势面模型，根据空气质量趋势面模型得到研究区域内任意位置的模拟空气质量。

本发明产生的有益效果是：本发明的利用微博关键词和位置信息模拟空气质量的方法，通过利用带有地理位置信息与关键字的新浪微博数据构建城市空气质量趋势面的方法，数据获取方便，省时省力，又节约了研究成本；利用交通数据与POI数据对实验结果进行验证，验证结果有效、快捷；本发明为城市局部空气质量模拟研究探讨了一种新的方法，不需要建设大量的空气质量监测站，节省了大量的空气质量监测站建设和维护费用，使用了一种全新的数据源，对反映城市不同位置的空气质量分布情况以及及时发现影响空气质量的关键因素具有重要意义。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的利用微博关键词和位置信息模拟空气质量的方法，包括以下步骤：

步骤S3中计算相对微博数量的方法为：

步骤S1中获取微博数据的方法为：

步骤S1中对微博数据进行预处理的方法为：

步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为：

步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为：

步骤S3中进行精度验证的方法包括：

步骤S4中得出所有格网的模拟AQI的方法为：

步骤S5中根据空气质量趋势面模型还包括找出影响空气质量因素，并验证模拟的空气质量的方法，具体为：

本发明实施例的利用微博关键词和位置信息模拟空气质量的系统，用于实现本发明实施例的利用微博关键词和位置信息模拟空气质量的方法，包括：

如图1所示，在本发明的另一个具体实施例中：

考虑到微博含有的关键字、地理位置等信息，本发明提出了一种利用含位置信息与关键词的微博数据模拟细粒度城市空气质量的方法。本发明使用新浪微博作为空气质量监测站的补充数据源，在对研究区域进行格网划分的基础上，建立了细粒度城市空气质量趋势面，结合交通数据与POI数据有效的验证了模拟空气质量的分布情况。

首先介绍理论基础：

POI是“Point of Interest”的缩写，可以翻译成“信息点”，每个POI包含四方面信息，名称、类别、经度纬度、附近的酒店饭店商铺等信息。可以叫它为“导航地图信息”，导航地图数据是整个导航产业的基石。由于国内城市有些功能区划分不是很明确，在一个区域内可能存有多个功能区。这种城市结构的特殊性，会影响POI数据对实验结果验证的准确性，在本发明中通过分析各类型POI之间的相关性来说明城市功能的混杂性。

麦夸特算法，即Levenberg-Marquardtalgorithm，是一种迭代的非线性最小二乘优化方法，首先由Kenneth Levenberg提出，之后由Donald Marquardt再次提出。

麦夸特算法被较广泛的应用在最小二乘曲线拟合问题中。给定一个样本集合，包含自变量与因变量数据对(xi,yi)，求出模型f(X,β)的最优化参数集合β，使得离差平方和达到最小。麦夸特算法结合了高斯-牛顿法与梯度法的优点，是二者的结合扩展。麦夸特算法的最重要特征是，通过更新每次迭代中的λ值发挥梯度法与高斯-牛顿法的优势。这既使得初始参数模拟值远离局部最小值，并且依然可以获得与高斯-牛顿法接近的收敛速率。

空间插值方法(Spatial Interpolation Method,SIM)对于非采样点位置的属性值估量是很必要的。空间插值是指在采样点分布地区，推测某未知点的属性值。空间插值技术主要基于空间自相关原理，即假设距离越近越具有某种相似的属性。空间插值方法可以分为局部插值与全局插值。

克里格插值法是使用变异函数的地统计插值模型，它基于数据的空间分布而不是实际属性值。克里格权重通过数据驱动的权重函数获得，减少了输入数据的偏差。当变异函数较合适时，该方法可以得到较好的插值效果。IDW是一种简单且非计算密集型方法，属于局部确定性插值技术。它是地理信息科学的基本空间插值方法之一，被应用在较多的GIS软件包中。通过计算确定区域内样本点距离加权属性值的平均值作为待插点估计值。该方法认为样本距离待插点越近，影响力越大，样本点权重赋值为其与待插点距离的倒数。

决策树是一种基于树的预测模型,它可以将数据点映射到正确的类。决策树将输入的数据集空间分区为相互排斥的区域,每个区域被分配一个标签(称为分类树)或得到某个值来描述其数据点(称为回归树)。决策树有着处理不相关特征数据，计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感的优点，但却可能会产生过拟合，通过组合的方式可以很好的避免这个问题。梯度提升决策树(Gradient Boost Decision Tree)使用Gradient Boost来组合决策树。Gradient Boost是一个框架，用来组合多个性能相对较弱的分类器，它在原有的模型基础上进行迭代改进，使得下一次生成的模型比上次的模型有更小的误差。

本发明提供的技术方案是一种利用带有地理位置信息与关键字的新浪微博数据构建城市空气质量趋势面的方法，实施例的流程包括以下步骤：

一、进行研究区域与研究时间的选择。具体实施时，本领域技术人员可根据需要自行预设研究区域，研究时间和格网大小。以北京为例，由于含位置信息的微博数据88％左右都分布在六环以内，因此实施例选择北京六环内部区域为研究区域；研究对象为空气质量，所以需要较大时间跨度，实施例选择研究时间为1～12月。

二、带有关键词与无关键词的社交媒体数据采集与预处理。

具体实施时，带有关键词的微博数据主要通过微博开放平台API和网页爬虫两种方式进行数据采集。本领域技术人员可根据需要自行预设空气质量相关关键词。以本发明为例，选择的关键词为‘空气污染’，‘口罩’，‘雾霾’。无关键词的社交媒体数据采集，主要通过微博开放平台API进行。

微博数据的预处理步骤，对于带有关键词的数据：去转发微博；去广告应用发出的微博；保留带有地理位置信息的微博；对微博进行情感分类，只保留讲空气质量差的微博。对于不带关键词的数据，仅去重，每个用户每天每个位置只保留一条记录。

三、建立监测站点不同半径的缓冲区。具体实施时，本领域技术人员可自行预设缓冲区半径5种，建议半径间隔0.5km，最大半径不要超过监测站点间最小距离的一半。以本发明为例，选择的缓冲区半径为1km，1.5km，2km，2.5km，3km。

四、提取出各缓冲区内带有关键词的新浪微博数据量，并进行标准化。具体实施时，由于各样本点分布在城市的不同位置，人口密度各不相同，微博发布量也有一定差异。然而细粒度的人口密度数据无法获得，本发明选择使用各样本点缓冲区内无关键词的微博数量代替该区域人口密度进行标准化工作，以消除人口分布不均带来的影响。利用缓冲区内带有关键词的微博数量除以无关键词的微博数量得出站点缓冲区内标准化后的微博数量。

五、计算标准化后微博数量与站点月均空气质量指数之间的相关系数，记相关性最强的缓冲区半径为影响范围R。具体实施时，主要利用SPSS软件进行计算。本发明中使用的站点个数为18，时间跨度为12个月，故共得出216组(12月*18站点)标准化微博数量与月均AQI的数据对，之后通过SPSS软件分析每种半径下216组数据对的相关系数。通过比较得出半径为2.5km时有最强的相关性，将以站点为中心，半径2.5km内区域记为站点的影响范围R。

六、对研究区域进行格网划分。具体实施时，参考城市规划分析中通用的格网尺寸，选择格网大小为400m×400m。

七、提取站点所在格网中的相对微博数量。具体实施时，

以待统计格网为中心，求出其影响范围内所有格网的加权的带有关键词的微博数之和。权重为该格网到中心的距离倒数；

以待统计格网为中心，求出每个月其影响范围R内所有格网的加权的无关键词的微博数之和。权重为该格网到中心的距离倒数；再求出所有月的平均数。

以第二步得出的量代替人口密度，对第一步中得出量进行标准化。得出站点所在格网的相对微博数量。

八、利用站点所在格网的相对微博数量与站点实际月均AQI进行函数拟合。具体实施时，主要在软件1stOpt中进行，选择的拟合算法为麦夸特算法。1stOpt是世界领先的非线性曲线拟合，综合优化分析计算软件平台，其计算核心是通用全局优化算法(UniversalGlobal Optimization-UGO)，可随机提供参数初始值，并提供3700余种不同类型的公式用以匹配数据，最终找出最优解。在本发明中，初始参数与函数公式选择，以及算法迭代部分主要在1stopt软件中进行，使用站点对应的实际月均AQI与其所在格网的相对微博数量数据迭代至收敛时，拟合出的函数方程为y＝117.78+0.22x+0.0097x²–(5.17×10^-5)x³。

九、对得出的函数关系进行精度验证。具体实施时，主要分为两方面，其一为拟合函数时得到的各项指标，主要包括R²，标准差，F值等；其二为十折交叉验证，将数据随机分为十组，利用其中九组做拟合，剩余一组做误差分析；

十、计算研究区域所有格网的相对微博数量，具体实施时，利用python脚本计算研究区域内所有格网的相对微博数量。本发明中，共计算格网30616个。

十一、利用拟合函数与改进的IDW插值得出所有格网的模拟AQI。具体实施时，对于相对微博数量位于拟合函数自变量范围内的格网应用函数得出其模拟AQI，对于其余的格网采用改进的IDW插值得出模拟AQI，该方法假定待插值格网周围影响范围内的空气质量指数是均匀减少的，而且待插值格网周围至少有三个及以上参考点。该方法是迭代的过程，如果待插值格网影响范围内参考点大于等于3个，则按照该方法插值，赋予格网模拟AQI，该格网即成为参考点，否则在此轮插值暂不参与运算，该轮插值结束后，若还有待插值点，则继续新一轮插值过程。直到所有格网全部被插值。利用python调用Arcpy相关函数依据这些格网点的模拟AQI值建立精度为100m的空气质量趋势面。

十二，通过克里格插值得出精度为50m的空气质量趋势面模型。具体实施时，在ArcGIS中针对步骤十一中已得精度为100m的趋势面，利用克里格插值得出精度为50m的空气质量趋势面。本文主要利用python调用Arcpy相关函数实现空气质量趋势面的建立，精度为50m。

十三、；对趋势面按照AQI大小利用自然断点法分类，得出不同的区域。自然断点分类的原则就是将差别不大的样本放在一起，分成若干类。这种分类方法比较适合断裂分布的数据。具体实施时，本领域技术人员可根据需要选择分类的数目。本发明利用pytho调用arcpy将趋势面分为5类，由A区域至E区域空气质量逐渐变差。每个月的空气质量不同，得出的5个区域也有所不同。

十四、；计算各区域交通相关属性与空气质量的相关性，找出影响空气质量的因素。具体实施时，

分别求出各月5个区域中，高速路网的分布密度与低速路网的分布密度，然后将12个月所得密度分别平均。最终得出五种区域内的平均高速路网分布密度与低速路网分布密度，建立密度分布折线图，比较其与空气质量的相关性。若随着路网密度的增大，区域污染逐渐严重，空气污染区域的高速路密度远小于低速路密度，则表明模拟AQI结果相对正确，否则需要更新模拟结果。

分别求出各月5个空气质量依次变差区域中，路网交叉口的分布密度，然后将11个月5区域所得密度分别平均。最终得出五种区域内的路网交叉口分布的平均密度，建立密度分布折线图，比较其与空气质量的相关性。若随着区域空气质量不断变差，区域中的交叉口密度也呈现上升趋势，则表明模拟AQI结果相对正确，否则需要更新模拟结果。

十五、计算各区域的POI密度与空气质量的相关性，找出影响空气质量的因素。一个区域的POI种类以及密度可以体现出该地的土地利用，区域功能以及交通模式等等，进而可以对该区域的空气质量产生一定影响。具体实施时，

分别求出各月5个空气质量依次变差区域中，POI的分布密度，然后将11个月5区域所得密度分别平均。最终得出五种区域内兴趣点分布的平均密度，建立密度分布折线图，比较其与空气质量的相关性。若随着区域空气质量指数的不断提升，各区域中的POI密度也逐渐增加，则表明模拟AQI结果相对正确，否则需要更新模拟结果。

十六、：利用梯度提升决策树分析不同种类的兴趣点对空气质量的影响程度，找出影响最大的兴趣点种类。利用梯度提升决策树算法得出不同种类的兴趣点对空气质量重要性的排名。梯度提升决策树算法为现有技术，本发明不予赘述。

在本发明的另一个具体实施例中：

本领域技术人员可采用计算机软件技术实现以上流程，并可根据需要灵活调整，一般可包括如下基本步骤：

步骤1，带有关键词的社交媒体数据采集，主要通过微博开放平台API和网页爬虫两种方式进行。无关键词的社交媒体数据采集，主要通过微博开放平台API进行；

步骤2，微博数据预处理。对于带有关键词的数据：去转发微博；去广告应用发出的微博；保留带有地理位置信息的微博；对微博进行情感分类，只保留讲空气质量差的微博。对于不带关键词的数据，仅去重，每个用户每天每个位置只保留一条记录；

步骤3，建立监测站点5种半径的缓冲区：1km，1.5km，2km，2.5km，3km；

步骤4，提取出各缓冲区内带有关键词的新浪微博数据量，并利用相同范围内的不带关键词新浪微博数量进行标准化；

步骤5，计算标准化后微博数量与站点月均空气质量指数之间的相关系数，比较不同缓冲区半径下的相关系数，记相关性最强的缓冲区半径为影响范围R；

步骤6，对研究区域进行格网划分，格网大小为400m*400m；

步骤7，提取站点所在格网中的微博数量。具体步骤为：

以步骤7第二步得出的量代替人口密度，对步骤7第一步中得出量进行标准化。得出站点所在格网的相对微博数量。

步骤8，利用站点所在格网的相对微博数量与站点月均AQI进行函数拟合。该部分主要在软件1stOpt中进行，选择的拟合算法为麦夸特算法；

步骤9，对得出的函数关系进行精度验证。主要分为两方面，其一为拟合函数时得到的各项指标，主要包括R²，标准差，F值等；其二为十折交叉验证，将数据随机分为十组，利用其中九组做拟合，剩余一组做误差分析；

步骤10，计算研究区域所有格网的相对微博数量；

步骤11，对于相对微博数量位于函数自变量范围内的格网应用拟合函数得出其模拟AQI；对于其余的格网采用改进的IDW插值得出模拟AQI。该方法假定待插值格网周围影响范围内的空气质量指数是均匀减少的，而且待插值格网周围至少有三个及以上参考点。该方法是迭代的过程，如果待插值格网影响范围内参考点大于等于3个，则按照该方法插值，赋予格网模拟AQI，该格网即成为参考点，否则在此轮插值暂不参与运算，该轮插值结束后，若还有待插值点，则继续新一轮插值过程。直到所有格网全部被插值；

步骤12，对于所有格网应用克里格插值，得出精度为50m的空气质量趋势面模型；

步骤13，对趋势面上的所有格网按照AQI大小利用自然断点法分为5类区域，由A区域至E区域空气质量逐渐变差。每个月的空气质量不同，得出的5个区域也有所不同。

步骤14，计算各区域的交通相关属性与空气质量的相关性，找出影响空气质量的因素。

步骤15，计算各区域的POI相对密度与空气质量的相关性，找出影响空气质量的因素。

步骤16，利用梯度提升决策树分析不同种类的兴趣点对空气质量的影响程度，找出影响最大的兴趣点种类。

在执行步骤13后，对所有100m的各位进行克里格插枝，得出精度为50m的空气质量趋势面模型。

在执行步骤14、15后，各区域内路网相关属性和POI相关属性与空气质量的相关性结果进行分析。

执行步骤16后，分析梯度提升决策树得出的各种类POI对空气质量的影响程度，进而对模拟的空气质量进行验证。

本发明实施例中采用模块化方式提供相应系统，利用微博数据位置信息与关键词的细粒度城市空气质量模拟系统，包括如下模块：

初始化模块，用于进行研究区域的选择，并对研究区域进行格网划分；

缓冲区建立模块，用于建立站点周围不同半径的缓冲区范围；

初始预测模块，用于根据若干天数的微博数据模拟细粒度的城市空气质量状况，预测过程实现如下，

提取出各缓冲区内带有关键词的新浪微博数据量并标准化，比较不同缓冲区半径下的相关系数，分析得出相关性最强的缓冲区半径R作为其影响范围半径；

提取站点所在格网影响范围内的微博数量并标准化，依据站点所在格网内的相对微博数量与站点月均AQI进行函数拟合，并进行精度验证；

统计区域所有格网的相对微博数量并应用拟合函数，同时配合使用改进的IDW插值，建立精度为100m的空气质量趋势面；

对于已建立的空气质量趋势面，应用克里格插值，得出精度为50m的空气质量趋势面模型。

对各区域的空气质量进行分析，对比；

第一预测更新模块，对趋势面上的所有格网按照AQI大小利用自然断点法分为5类区域，由A区域至E区域空气质量逐渐变差，根据各区域内路网相关属性与空气质量的相关性对模拟的空气质量进行验证，实现如下，

提取各区域内的高低速路长度，交叉口的数量；

根据不同的区域面积，计算各区域的高低速路网密度，交叉口的分布密度；

分析以上这些密度与空气质量的相关性，找出影响空气质量的因素，进而对模拟的空气质量结果进行验证，并更新模拟的空气质量结果。

第二预测更新模块，对趋势面上的所有格网按照AQI大小利用自然断点法分为5类区域，由A区域至E区域空气质量逐渐变差，根据各区域的POI相关属性与空气质量的相关性对模拟的空气质量进行验证，实现如下，

提取各区域内POI的总数量；

根据不同的区域面积，计算整体POI密度；

分析以上密度与空气质量的相关性，找出影响空气质量的因素，进而对模拟的空气质量结果进行验证，并更新模拟的空气质量结果。

第三预测更新模块，影响范围内的不同种类POI数量为特征向量，利用梯度提升决策树探测各种POI对空气质量的影响程度，进而对模拟的空气质量进行验证，实现如下，

假设每个格网影响范围内的12类兴趣点数量为12个特征，记为Fp；

以x＝Fp为特征向量，以真实AQI的均值作为初始模型F0；

通过梯度提升决策树对模型进行训练学习，需要确定以下模型超参数：弱分类器(决策树)个数M，学习速率，决策树深度S；

为评估每次参数值组合下模型学习效果，采用5折交叉验证防止过拟合；

对梯度提升决策树给出的特征相对重要程度进行分析，进而对模拟的空气质量结果进行验证，并更新模拟的空气质量结果。

第一预测更新模块工作完成后，对不同区域的高低速路网密度，交叉口的分布密度与空气质量的相关性进行分析，获取交通属性对空气质量的影响程度。

第二预测更新模块工作完成后，计算整体POI密度和不同种类POI的相对密度与空气质量的相关系数，获取POI分布密度对空气质量的影响程度.

第三预测更新模块工作完成后，使用度提升决策树给出的特征相对重要程度对不同种类的POI对空气质量的影响程度进行分析。

具体实施时，还可以提供人机交互界面，方便用户参与分析调整。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种利用微博关键词和位置信息模拟空气质量的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S3中计算相对微博数量的方法为：

3.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S1中获取微博数据的方法为：

4.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S1中对微博数据进行预处理的方法为：

5.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S2中对带有空气质量关键词的微博数量进行标准化的方法为：

6.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S3中对相对微博数量与月均AQI之间的函数关系进行拟合的方法为：

7.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S3中进行精度验证的方法包括：

8.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S4中得出所有格网的模拟AQI的方法为：

{AQI}_{int e r p} = \frac{Σ_{i = 1}^{n} ({(\frac{1}{d_{i}})}^{k}) * ({AQI}_{i} - d_{i} * (\frac{1}{s}) * (A Q I m a x - A Q I m i n))}{Σ_{i = 1}^{n} ({(\frac{1}{d_{i}})}^{k})}

9.根据权利要求1所述的利用微博关键词和位置信息模拟空气质量的方法，其特征在于，步骤S5中根据空气质量趋势面模型还包括找出影响空气质量因素，并验证模拟的空气质量的方法，具体为：

10.一种利用微博关键词和位置信息模拟空气质量的系统，其特征在于,包括：