CN110442715B

CN110442715B - 一种基于多元大数据的综合城市地理语义挖掘方法

Info

Publication number: CN110442715B
Application number: CN201910701692.5A
Authority: CN
Inventors: 孙艳春; 黄罡; 刘瑜; 温九
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-01-28
Anticipated expiration: 2039-07-31
Also published as: CN110442715A

Abstract

本发明公开了一种基于多元大数据的综合城市地理语义挖掘方法。社交文本数据是最能反映人们对城市区域功能认知的数据来源，所以本发明利用社交文本数据抽取出城市区域的功能；基于公交线路数据，不依赖于人为制定的规则，自动计算得到城市各个区域交通便利度的相对排名；从工作日工作时间段的人口密度指数和休息时间段的人口密度指数这两个更宏观的角度分析城市人口密度分布。本发明从城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数四个不同的指标对综合城市地理语义进行刻画，结合这四个指标挖掘得到的信息，能够满足不同类型的用户的不同种类的查询需求，能够更好地帮助人们全面地了解城市。

Description

一种基于多元大数据的综合城市地理语义挖掘方法

技术领域

本发明涉及数据的分析挖掘技术，具体涉及一种基于多元大数据的综合城市地理语义挖掘方法。

背景技术

城市地理语义是一种对于城市区域的各种信息的语义化描述，反映了一个地区的特点，以及人们对该地区的认知。每一个地理位置都会有它独特的语义信息，例如“中关村”作为一个地理位置，它就包含了“商业”、“办公”、“美食”等功能，同时拥有较为便利的交通，较大的人口密度等特征。对于综合城市地理语义的挖掘有助于加强人们对城市不同区域的了解。

城市地理语义的种类有很多，比如城市区域功能，反映的是城市不同区域所提供的功能；城市交通便利度分布，反映的是城市不同区域交通便利的程度；建筑物功能，反映的是建筑物的功能分布；城市人口密度分布，反映的是城市内部的人口分布情况。对于每一种城市地理语义，都有多种挖掘的方法。

对于城市区域功能来说，最直接的方法可以通过兴趣点(Point Of Interest，POI)来推断，但是POI的信息并不完整，比如很多小型的店铺并没有对应的POI，而且POI并不能反映出人们的认知。现有的一些研究尝试利用多种不同的数据源进行城市区域功能的提取，Shougeng Hu等人利用了激光雷达测高数据，卫星图像数据等将用地分为四种大类——办公、工业、居住和交通[Shougeng Hu and Le Wang.“Automated urban land-useclassification with remote sensing”.Interna-tional Journal of Remote Sensing,2013,34(3):790–803.]，但是实际上仅仅从图片加上楼层高度信息所得出的结论其实准确性是很有限的。Liu等人则是结合了遥感图片，高德地图POI数据，腾讯用户的位置数据以及Open Street Map的路网数据，使用支持向量机作为分类器，将城市区域按功能进行分类[Xiaoping Liu,Jialv He,Yao Yao et al.“Classifying urban land use byintegrating remote sensing and social media data”.International Journal ofGeographical Information Science,2017,31(8):1675–1696.]。也有一些研究采用一些数据随时间的聚集特征来对区域功能进行分类，比如Soto等人根据每个基站的通信数量随时间的变化曲线，使用聚类的方式将所有曲线分为5类，进而得到不同区域的功能[VíctorSoto andEnrique Frías-Martínez.“Automated Land Use Identification Using Cell-phone Records”.In:Proceedings of the 3rd ACM International Workshop onMobiArch.Bethesda,Maryland,USA:ACM,2011:17–22.]。上述的工作都是采用一些城市的表层特征进行研究的，比如人口的分布情况、建筑物的外观等，这些特征能在一定程度上反映出城市的功能。但是，实际的城市区域功能是由人们的活动来定义的。比如人们在某地聚餐或者娱乐，就意味着该地具有美食或者娱乐的功能。所以如果能知道人们在何地进行了何种活动，也就可以知道该地区所提供的功能。而为了得到人们所从事的活动，就需要用到社交网络的数据。大部分现有基于社交网络的研究还是通过签到数据来分析活动信息的，比如Shen等人将签到数据中的POI分为11个类别来分析城市的区域功能，并且更进一步分析了这些功能区域之间的联系[Yao Shen and Kayvan Karimi.“Urban functionconnectivity:Characterisation of functional urban streets with social mediacheck-in data”.Cities,2016,55:9–21.]；而Jiang等人则是使用了用户在社交媒体上所生成的POI数据，对这些POI进行分类，以达到给城市区域分类的目的[Shan Jiang,AnaAlves,Filipe Rodrigues et al.“Mining point-of-interest data from socialnetworks for urban land use classification and disaggregation”.Computers,Environment and Urban Systems,2015,53:36–46.]。不过这些用户自定义的POI很多都是没有意义的，举例来说，在发微博的时候所在地点的名称是可以随便填写的，甚至可以填写“火星”之类的信息，这就导致用户自创的POI准确度很低。有些研究则更进一步，是通过挖掘社交文本中所包含的信息来推测活动类型。举例来说，如果一条微博文本是“商场里人好多”，那可以推测这条微博是在商场中发的，而作者很可能是在逛商场，而“这电影好无聊”的产生地点很可能是在电影院或者刚离开电影院的位置。与签到数据中的POI不同，这个文本是对人们活动的真实反映，所以能更加准确地反映出活动信息。不过，想要从文本中提取出活动信息并不是一件容易的事，这方面的研究也并不多。Zhou等人采用TF-IDF对Twitter和Foursquare的文本进行特征提取，然后使用支持向量机将文本分为六类，对应六种活动的类别[Xiaolu Zhou and Liang Zhang.“Crowdsourcing functions of the livingcity from Twitter andFoursquare data”.Cartography and Geographic InformationScience,2016,43(5):393–404.]。Gao等人则是使用了LDA模型，将社交文本聚类到130个类别，然后分别对每个类别进行解释，并结合POI来提取出城市的功能区域[Song Gao,Krzysztof Janowiczand Helen Couclelis.“Extracting urban functional regionsfrom points of interest and human activities on location-based socialnetworks”.Transactions in GIS,2017,21(3):446–467.]。总的来说，目前从社交文本中提取城市区域功能的工作还很薄弱。

对城市交通便利度分布的计算来说，王慧等人提出了一种综合利用城市路网、公共服务、公共交通的数据，对城市空间的步行可达性、公共交通便利通达性、小汽车潜在依赖度的测度评定方法以及空间分布格局进行了探索分析，并在厦门进行了实例研究[王慧，黄玖菊，李永玲等。“厦门城市空间出行便利性及小汽车依赖度分析”。地理学报，2013，68(4):477]。任其亮等人选取了公交站点覆盖率、公交线网密度等8个方便性评价指标和平均运送速度、乘客平均出行时耗等6个快捷性评价指标，构建了城市公共交通便捷性评价指标体系[任其亮，孙丰瑞，王亚龙。“城市公共交通便捷性评价模型研究”。公路交通科技，2015，32(2):127–133]。随后又更进一步利用公交线路重复系数、非直线系数等13个公共交通便捷性的主要评价指标，然后通过熵理论确定每个指数的权重，构建重庆市南安区公共交通便捷性评价指标体系[Ren Qiliang and Hu Jing.“ConvenienceEvaluation for PublicTransport of Nan’an District of Chongqing City”.Modern TransportationTechnology,2016(5):21]。刘燕婷等人则是仅仅针对公园的交通便利度进行了分析，统计了周围500米范围内的公交车站数量和1000米范围内的地铁站数量，以此作为分析公园交通便利度的依据[刘燕婷，苏小熔，任龙文。“广州中心城区免费公园公共交通出行便利度分析”。云南地理环境研究，2010，22(5):63–67]。综上所述，目前关于交通便利度的研究工作较少，但是交通便利度对于用户来说是比较重要的。并且，目前已知的衡量交通便利度的方法主要还是以人为制定规则的规则为主。

对于建筑物功能的计算，现有的工作较少，仅有Liu等人提出过一种整合包括社交网络数据、出租车轨迹数据、POI数据和遥感图像在内的多数据源的概率模型，来刻画建筑物的功能[Xiaoping Liu,Ning Niu,Xingjian Liu et al.“Characterizing mixed-usebuildings based on multi-source big data”.International Journal ofGeographical Information Science,2018,32(4):738–756]。

对于城市人口密度分布的计算，Jie Chen等人提出了一种基于手机定位数据预估人口密度的方法[Jie Chen,Tao Pei,Shih-Lung Shaw et al.“Fine-grained predictionof urban population using mobile phone location data”.International Journalof Geographical Information Science,2018,32(9):1770–1786]。他们将地图按正方形切分，然后用上一时刻某一单元格周围的八个方格加上该单元格的人数作为特征输入，使用一个普通的前向神经网络模型，来预测该时刻当前单元格的人数。但是实际上人员的流动实际上并不一定存在规律性，所以通过神经网络所学到的信息不能说是可以广泛适用的。Guo等人提出了一种很新颖的方式用高斯回归预测人口的流动模式，作者假设时空活动很大程度上受到潜在的时空特征的影响，首先对出租车的轨迹数据进行张量分解以提取潜在的时空特征，然后将上述这种影响建模为高斯过程，以此来预测人类活动的概率分布[QiuLei Guo and Hassan A Karimi.“A novel methodology for prediction ofspatial-temporal activities using latent features”.Computers,Environment andUrban Systems,2017,62:74–85]。Zhang等人提出了一种基于深度学习的时空预测模型来预测人群的流动，主要包含了时空部分和全局部分的处理。时空部分使用了卷积神经网络来同时模拟近距离依赖和远距离依赖等，而全局部分主要用于捕获全局的因素，例如星期几，工作日或者周末等[Junbo Zhang,Yu Zheng,Dekang Qi et al.“DNN-basedprediction model for spatio-temporal data”.In:Proceedings of the 24th ACMSIGSPATIAL International Conference on Advances in Geographic InformationSystems.2016:92]。而随后在[Junbo Zhang,Yu Zheng and Dekang Qi.“Deep spatio-temporal residual networks for citywide crowd flows prediction”.In:Thirty-First AAAI Conference on Artificial Intelligence.2017]中对这个网络结构进行了改进，它们使用了残差神经网络，设计了一个端到端的结构来模拟人群流量的空间属性。现有的工作都是从人员的流动上来实时地估计人口密度分布的，但是一方面实时人口密度对数据要求过高，另一方面也没有方法进行验证。

发明内容

针对以上现有技术中存在的问题，本发明提出了一种基于多元大数据的综合城市地理语义挖掘方法，根据一个地区的多种数据对该地区的综合城市地理语义进行推测，为进一步的城市规划、商业选址、出行规划、住宿选择等提供理论支持和假设。

本发明的基于多元大数据的综合城市地理语义挖掘方法，综合考虑四项指标：城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数：

一、城市区域功能

根据带有地理位置标签的社交文本数据，计算城市区域功能包括以下步骤：

1)数据标注

从带有地理位置标签的社交文本数据中随机选取一定量的样本，样本数量1000～10000，根据活动类型对样本进行人工标注活动类型，标注的样本称为标注数据；

2)数据扩充

由于人工标注的数据量不足以用于模型的训练，直接训练会出现欠拟合的情况，所以对步骤1)中的标注数据进行扩充得到扩充数据；

3)多层次分类模型

按照是否包含活动类型，利用步骤2)中得到的扩充数据，将扩充数据中所有包含活动类型的社交文本数据作为正例，不包含活动类型的社交文本数据作为反例，训练文本二分类模型；利用文本二分类模型输出的包含活动类型的部分，根据活动类型的不同，训练多分类模型，得到全量分类器；利用步骤2)中得到的扩充数据，根据活动类型的不同，训练多分类模型，得到局部分类器；把全量分类器的输出和局部分类器的输出作为输入，把真实的活动类型作为输出，训练得到简单神经网络分类器；二分类模型、多分类模型和简单神经网络分类器统称为多层次分类模型；简单神经网络分类器的结果，即为多层次分类模型的最终预测的每个社交文本数据的活动类型；

4)构建城市区域功能向量

任意选择城市中的一个区域，将这个区域内的每一种活动类型的社交文本数据的数量与这个区域的面积做比值，得到这个区域的城市区域功能向量，以描述这个区域的城市区域功能；

二、城市交通便利度分布

通过公共交通线路数据，计算城市交通便利度分布包括以下步骤：

1)构建有向图

运用网页排序(Page Rank)算法，将城市的区域按方格进行划分，每个方格看作是一个网页，把公交线路的上下游关系看作是网页之间的引用关系，构建引用关系有向图；

2)迭代求城市交通便利度分布

利用步骤1)中得到的引用关系有向图，运用网页排序算法迭代求出城市中各个区域的交通便利度排名，得到城市交通便利度分布；

三、建筑物功能

根据建筑物数据、POI数据以及带有地理位置标签的社交文本数据，计算建筑物功能包括以下步骤：

1)将兴趣点和社交文本数据映射到建筑物

将兴趣点(POI)和带有地理位置标签的社交文本数据映射到建筑物，得到每个建筑物内或周围的POI类别及活动类型；

2)建筑物向量化

根据每个建筑物中各个POI类别的数量和每类活动类型的社交文本数量构建向量，用向量表示建筑物，得到所有建筑物的向量；

3)建筑物聚类

通过步骤2)中得到的所有建筑物的向量，采用多种不同的聚类数目对建筑物向量进行聚类，挑选出轮廓系数最大的聚类数目，然后根据最大的聚类数目的聚类结果中各个POI类别及活动类型的情况决定该类建筑物所属的实际的POI类别及活动类型，得到建筑物功能；

四、人口密度指数

根据带有地理位置标签的社交文本数据，计算人口密度指数包括以下步骤：

1)计算用户活跃位置

将城市的区域按照方格进行划分，根据工作日中用户发布的社交文本数据的地理位置标签确定此用户在工作时间段的主要活动区域和在休息时间段的主要活动区域；

将城市按方形区域划分，如果一个用户在工作日工作时间段内有半数以上社交文本数据位于一个区域，则认为该区域为该用户的工作日工作时间段主要活动区域；如果在工作日休息时间段内有半数以上社交文本数据位于一个区域，则认为该区域为该用户的工作日休息时间段主要活动区域；

2)计算人口密度指数

工作日工作时间段各区域社交文本数据的数量作为工作日工作时间段人口密度指数分布的一个代表，工作日休息时间段各区域社交文本数据的数量作为工作日休息时间段人口密度指数分布的一个代表，用户在区域的每条社交文本数据对该区域人口密度指数的基础影响因子为1，用户在工作日工作时间段主要活动区域的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子相应增大，用户在工作日工作时间段非主要活动区域所发的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子相应减小；用户在工作日休息时间段主要活动区域的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子相应增大，用户在工作日休息时间段非主要活动区域所发的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子相应减小；同时工作日工作时间段的办公相关的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子相应增大，工作日休息时间段的住宅相关的社交文本数据对该区域的工作日休息时间段的人口密度指数影响因子相应增大；对所有社交文本数据对人口密度指数的影响因子进行累加，即可得到相应时间段的人口密度指数，即区域的工作日工作时间段的人口密度指数＝

∑区域内每条社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子区域的工作日休息时间段的人口密度指数＝

∑区域内每条社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子；

综合考虑城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数中多种指标的组合，得到城市规划、商业选址、出行规划以及住宿选择；对于游客来说，希望知道在哪里住宿交通比较方便，周围能有景点或者繁华的地段，同时希望知道哪些区域是该城市比较有特色的地区，适合游玩，结合城市区域功能和城市交通便利度分布，得到出行规划；对于居民来说，在购房或租房时会考虑房子的周围环境如何，是否有一些便利的设施如商场、学校、医院等，同时有的人喜欢人多热闹一点的地方，有的人喜欢人少安静一些的地方，结合城市区域功能和城市的人口密度指数来得到住宿选择；对于个体户以及一些商户来说，主要考虑的是在哪里开店可以获取较大的利润，有较多的用户，结合城市区域功能、建筑物功能以及人口密度指数得到商业选址；对于城市管理者来说，在规划用地类型的时候需要考虑周边已有的建筑物是什么类型，在规划新的公共交通线路的时候需要考虑哪里交通不太方便而且人口还较多，结合城市区域功能、城市交通便利度分布以及人口密度指数得到城市规划。因此，结合本发明对综合城市地理语义的四个不同指标的挖掘所得到的结果，可以为多种类型的用户的决策提供信息的支持。

用户在工作日工作时间段主要活动区域的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以1.01～2；用户在工作日工作时间段非主要活动区域所发的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以0.5～0.99；用户在工作日休息时间段主要活动区域的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以1.01～2；用户在工作日休息时间段非主要活动区域所发的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以0.5～0.99；同时工作日工作时间段的办公相关的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以1.01～3，工作日休息时间段的住宅相关的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以1.01～3。

社交文本数据是最能反映人们对城市区域功能认知的数据来源，所以本发明利用社交文本数据抽取出城市区域的功能；基于公交线路数据，不依赖于人为制定的规则，自动计算得到城市各个区域交通便利度的相对排名；从工作日工作时间段的人口密度指数和休息时间段的人口密度指数这两个更宏观的角度分析城市人口密度分布。

其中，在步骤一的2)中，数据扩充包括以下步骤：

a)每个活动类型提取多个代表活动类型特征的关键词；

b)对每个活动类型，获取新的带有步骤a)中关键词的社交文本数据；

c)对每个活动类型，将人工标注的社交文本数据和步骤b)中新获取的社交文本数据相混合，用隐含狄利克雷分布(LDA)聚类分为多个小类别得到聚类结果；

d)对每个活动类型，将步骤c)的聚类结果中包含原有人工标注的社交文本数据的小类别保留，不包含原有人工标注的社交文本数据的小类别舍弃，保留的部分称为扩充数据集。

在步骤一的3)中，多层次分类模型的分类包括以下步骤：

a)使用文本二分类模型对社交文本数据分类，如果判断活动类型为无，则直接结束，否则转到步骤b)；

b)分别使用全量分类器和局部分类器对该社交文本数据进行预测，输出两个向量x₁和x₂；

c)将x₁和x₂作为输入，用简单神经网络分类器进行预测，得到最终的活动类型。

在步骤一的4)中，区域R的活动类型T的指数

由公式

计算得到，区域R的城市区域功能向量表示为

n是活动类型的个数。

本发明的优点：

社交文本数据是最能反映人们对城市区域功能认知的数据来源，所以本发明利用社交文本数据抽取出城市区域的功能；基于公交线路数据，不依赖于人为制定的规则，自动计算得到城市各个区域交通便利度的相对排名；从工作日工作时间段的人口密度指数和休息时间段的人口密度指数这两个更宏观的角度分析城市人口密度分布。本发明从城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数四个不同的指标对综合城市地理语义进行刻画，结合这四个指标挖掘得到的信息，能够满足不同类型的用户的不同种类的查询需求，能够更好地帮助人们全面地了解城市。

附图说明

图1为本发明的基于多元大数据的综合城市地理语义挖掘方法的计算城市区域功能的整体流程图；

图2为本发明的基于多元大数据的综合城市地理语义挖掘方法的计算城市区域功能的一个实施例中多层次分类模型的训练流程图；

图3为本发明的基于多元大数据的综合城市地理语义挖掘方法的计算城市区域功能的一个实施例的数据扩充的流程图；

图4为本发明的基于多元大数据的综合城市地理语义挖掘方法的计算建筑物功能的一个实施例的流程图；

图5为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的计算城市区域功能得到的结果图；

图6为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的城市交通便利度分布的结果图；

图7为本发明的基于多元大数据的综合城市地理语义挖掘方法的计算建筑物功能中聚类的轮廓系数随聚类类别数的变化情况图；

图8为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的计算人口密度指数得到的工作日工作时间段人口密度指数分布情况图；

图9为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的计算人口密度指数得到的工作日休息时间段人口密度指数分布情况图；

图10为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的计算城市区域功能得到的文本二分类模型中召回率和分类正确率随分类阈值的变化情况图；

图11为根据本发明的基于多元大数据的综合城市地理语义挖掘方法的查询界面及查询效果展示图；

图12为本发明的基于多元大数据的综合城市地理语义挖掘方法的流程图。

具体实施方式

下面结合附图，通过具体实施例，进一步阐述本发明。

如图1所示，本实施例的本发明的基于多元大数据的综合城市地理语义挖掘方法，综合考虑四种指标：城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数分布：

一、城市区域功能，如图1所示：

根据2016年全年北京市带有地理位置标签的4975416条微博数据作为社交文本数据，计算城市区域功能包括以下步骤：

1)数据标注

本实施例选取了13个活动类型，分别为餐饮、运动、旅游、购物、酒店、医院、学校、住宅、办公、娱乐、交通、培训、生活辅助。选取这13个主题是因为这个是生活中在人们描述一个地点的时候，最常见的几个方面，在选取主题的时候，参考了大众点评、美团的分类方式以及高德地图的POI类别，并且合并了一些在微博文本中出现较少的主题，比如宠物相关、私家车相关等的主题统一合并为生活辅助，因为人们几乎不会在洗车或者对宠物进行保养的时候发一条微博，所以相当于在选取活动类型的时候也要考虑该活动类型在大数据中是否存在可挖掘的内容。除了这13个活动类型之外，对于不包含活动类型的文本，分配的活动类型为无。本实施例中共标注5000条微博，其中不包含活动类型的文本共3743条。完整的类别统计信息如下表1所示：

餐饮	运动	旅游	购物	酒店	医院	学校
							269	94	110	28	13	19	179
住宅	办公	娱乐	交通	培训	生活辅助	无
							178	118	114	99	21	35	3743

表1

2)数据扩充，如图3所示，包括以下步骤：

a)分别使用词频-逆向文件频率(TF-IDF)和限制标签的隐含狄利克雷分布(LLDA)对每个活动类型提取多个关键词，该类别的关键词集合是综合这两者给出的关键词的权重之和得到的；

b)对每个活动类型，按照关键词的权重获取5000条新的微博，比如对餐饮类别，“好吃”的关键词占比为0.2，则保证新获取的微博中20％的微博是包含“好吃”这个关键词的；

c)对每个活动类型，将人工标注的社交文本数据和上一步中新获取的社交文本数据相混合，用LDA聚类得到20个不同的小类别的聚类结果，包括类别1～类别n+3，n＝17；

d)对每个活动类型，将上一步中的聚类结果中包含原有人工标注的社交文本数据的小类别保留，比如对于餐饮类别，有17类包含原有社交文本数据，这17类的社交文本数据作为扩充数据集，用于训练；不包含原有手动标注的社交文本数据的小类别舍弃，对于餐饮类别，则是剩下的3类。

3)多层次分类模型

除了简单神经网络分类器以外，其余分类器都采用长短时记忆网络(LSTM)作为分类模型，采用预训练的词向量作为输入，LSTM网络的主要参数设置如下：

·单元数量：128

·Dropout：0.5

·学习率：0.001

·优化器：Adam

·损失函数：交叉熵

多层次分类模型的训练流程如图2所示，在训练文本二分类模型的时候，由于其输出要作为全量分类器的输入，所以需要在不牺牲太多分类正确率的情况下保证该分类器的召回率，如图10所示为文本二分类模型分类正确率和包含活动类型的微博的召回率随分类阈值的变化情况，可以看到，虽然在别的地方分类正确率可能更高，但是在实际操作中选择0.87作为分类阈值是一个综合考虑了分类正确率和召回率的选择；在训练局部分类器时，活动类型为13类，所以局部分类器是一个13类的多分类器；在训练全量分类器时，由于文本二分类模型的输出会包含一部分不包含活动类型的社交文本数据，所以全量分类器是一个14类的多分类器；简单神经网络分类器是一个单隐层的全连接神经网络，隐层包含100个神经元，输入层包含27个神经元，分别对应局部分类器的13维输出和全量分类器的14维输出。二分类模型、多分类模型和简单神经网络分类器统称为多层次分类模型；简单神经网络分类器的结果，即为多层次分类模型的最终预测的每个社交文本数据的活动类型。

4)构建城市区域功能向量

任意选择城市中的一个区域，将这个区域内的每一种活动类型的社交文本数据的数量与这个区域的面积做比值，区域R的活动类型T的指数

计算得到每一维的具体数值，得到这个区域的城市区域功能向量，是一个13维的向量，以描述这个区域的城市区域功能。

二、城市交通便利度分布

通过北京的所有公交线路数据，共有3483条公交线路数据以及38条地铁线路数据，涉及到的站点总共13172个，计算城市交通便利度分布包括以下步骤：

1)构建有向图

将整个城市划分成很多个小的方形区域，如果区域足够小的话(本实例中区域大小为0.01经度x0.01纬度)，认为区域内的交通便利度是差不多的，然后基于每条公交线路的公交站上下游关系创建引用关系有向图；为了保证相邻区域的交通便利度是连续的，所以需要给相邻区域之间也加上有向边的连接。

2)迭代求城市交通便利度分布

利用步骤1)中得到的引用关系有向图，运用网页排序算法迭代求出城市中各个区域的交通便利度排名，，为了加快收敛速度，本发明在实现过程中去掉了Page Rank中所用到的阻尼系数，因为按照构建有向图中的定义，是不会存在任何节点入度为0的。将得到的城市交通便利度分布指数作归一化处理，所得最终结果如图6所示，其中颜色越深的部分表示交通越便利。

三、建筑物功能

根据建筑物数据、POI数据以及带有地理位置标签的微博数据，计算建筑物功能，如图4所示，包括以下步骤：

1)将兴趣点和社交文本数据映射到建筑物

建筑物功能的推算主要依赖于POI数据。建筑物是由多边形来标识的，而POI则是一个点，为了对建筑物的类别进行预测，需要知道建筑物上有哪些POI。由于存在一定的测量误差，POI并不一定刚好位于建筑物上，但是通常会离所在的建筑物很近，所以POI映射问题可以抽象为：平面上有一系列多边形和点，找到距每个点最近的多边形。进一步可以抽象为找距离每个点最近的边。可以利用R-Tree对边建立索引，然后就容易找到离POI点最近的建筑物了。同样，对于带有地理位置标签的微博来说，也采取类似的方法。

2)建筑物向量化

这样处理之后，知道了每个建筑所包含的POI，以及在这个建筑附近的微博信息，由于在识别城市区域的功能时已经对微博的活动进行了分类，所以相当于得到了在建筑物周边所发生的活动。所以可以利用POI数据和微博数据对提取建筑物的特征，对于POI数据来说，由于总类别不多，可以直接采用One-Hot编码方式将建筑物所包含的POI向量化，有多种同类型POI则该维度上数值也相应增加。而对于微博数据来说，一共也只有13个不同类别，直接将每一个类的数量作为一个维度的特征值即可。以上，总共的向量包含了28维的POI类别，13维的微博的活动类型，共41维特征。为了避免不同维度的数据大小对结果造成影响，将所有数据进行了归一化处理。

3)建筑物聚类

对向量化后的建筑物进行聚类，由于数据比较简单，直接使用较为基础的K-Means模型进行聚类即可，着重需要考虑聚类的类别数目。由于建筑物类型非常多，简单罗列即有：住宅、商场、写字楼、工厂、酒店、医院、体育馆、教学楼等，每一种类型的建筑数量差距又十分巨大，所以本发明先选择较大的类别数目进行聚类，然后再手动将一些小的类别进行合并，并针对分类结果给出每个类别的解释，以得到建筑分类的结果，实际操作中发现聚类数为10的时候聚类效果最好，轮廓系数随类别数的变化情况如图7所示。得到的每个类的分类类别如表2所示，使用该分类器即可判断所有建筑物的功能；

类别

建筑类型

类别

建筑类型

类别

建筑类型

类别

建筑类型

类别

建筑类型

1

体育馆

2

酒店

3

写字楼

4

住宅

5

商场

6

商场

7

学校

8

住宅

9

商场

10

医院

表2

四、人口密度指数

根据带有地理位置标签的社交文本数据，计算人口密度指数分布包括以下步骤：

1)计算用户活跃位置

类似于交通便利度的分布，将城市按方形区域划分，如果一个用户在工作时间段内有半数以上社交文本数据位于某个区域，则认为该区域为该用户的工作时间段主要活动区域；如果在休息时间段内有半数以上社交文本数据位于某个区域，则认为该区域为该用户的休息时间段主要活动区域。

2)计算人口密度指数

人口密度指数的指数主要由一个区域内微博的数量决定，同时上一步中的用户主要活动区域也会对人口密度指数产生影响，处于非主要活动区域的用户的影响因子为0.5，如果属于没有其它带有地理位置信息的微博的用户(即无法确定主要活动区域)，则影响因子为0.8，处于用户主要活动区域的微博影响因子为1.5，其余微博的影响因子为1。另外，微博的活动类型也会对人口密度指数产生影响，在工作日工作时间段的办公相关的微博，其影响因子乘上1.2，位于工作日休息时间段的住宅相关的微博，其影响因子同样乘上1.2。将一个区域所有微博的影响因子相加后即可得到该区域的人口密度指数。所得到的工作日工作时间段人口密度指数如图8所示，工作日休息时间段的人口密度指数如图9所示。

综合考虑城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数中多种指标的组合，得到城市规划、商业选址、出行规划以及住宿选择。图11展示了结合人口密度指数、交通便利度以及城市区域功能的地点查询结果，地图中的深色区域显示的即是满足交通较为便利、人口密度指数较高，且具有旅游的城市区域功能的区域。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于多元大数据的综合城市地理语义挖掘方法，其特征在于，综合考虑四项指标：城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数：

一、城市区域功能：

根据带有地理位置标签的社交文本数据，计算得到城市区域功能；

二、城市交通便利度分布：

通过公共交通线路数据，计算得到城市交通便利度分布：

1)构建有向图

运用网页排序算法，将城市的区域按方格进行划分，每个方格看作是一个网页，把公交线路的上下游关系看作是网页之间的引用关系，构建引用关系有向图；

2)迭代求城市交通便利度分布

三、建筑物功能：

根据建筑物数据、POI数据以及带有地理位置标签的社交文本数据，计算得到建筑物功能；

四、人口密度指数：

根据带有地理位置标签的社交文本数据，计算得到人口密度指数；

综合考虑城市区域功能、城市交通便利度分布、建筑物功能和人口密度指数中多种指标的组合，得到城市规划、商业选址、出行规划以及住宿选择；对于游客来说，结合城市区域功能和城市交通便利度分布，得到出行规划；对于居民来说，结合城市区域功能和人口密度指数来得到住宿选择；对于个体户以及一些商户来说，结合城市区域功能、建筑物功能以及人口密度指数得到商业选址；对于城市管理者来说，结合城市区域功能、城市交通便利度分布以及人口密度指数得到城市规划。

2.如权利要求1所述的综合城市地理语义挖掘方法，其特征在于，计算城市区域功能包括以下步骤：

1)数据标注

2)数据扩充

3)多层次分类模型

4)构建城市区域功能向量

任意选择城市中的一个区域，将这个区域内的每一种活动类型的社交文本数据的数量与这个区域的面积做比值，得到这个区域的城市区域功能向量，以描述这个区域的城市区域功能。

3.如权利要求1所述的综合城市地理语义挖掘方法，其特征在于，计算建筑物功能包括以下步骤：

1)将兴趣点和社交文本数据映射到建筑物

将兴趣点POI和带有地理位置标签的社交文本数据映射到建筑物，得到每个建筑物内或周围的POI类别及活动类型；

2)建筑物向量化

根据每个建筑物中各个POI类别的数量和每类活动类型的社交文本数量构建向量，用向量表示建筑物，得到所有建筑物的向量。

4.如权利要求1所述的综合城市地理语义挖掘方法，其特征在于，计算城市人口密度指数包括以下步骤：

1)计算用户活跃位置

2)计算人口密度指数

∑区域内每条社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子。

5.如权利要求2所述的综合城市地理语义挖掘方法，其特征在于，在步骤一的2)中，数据扩充包括以下步骤：

a)每个活动类型提取多个代表活动类型特征的关键词；

c)对每个活动类型，将人工标注的社交文本数据和步骤b)中新获取的社交文本数据相混合，用隐含狄利克雷分布LDA聚类分为多个小类别得到聚类结果；

6.如权利要求2所述的综合城市地理语义挖掘方法，其特征在于，在步骤一的3)中，多层次分类模型的分类包括以下步骤：

7.如权利要求2所述的综合城市地理语义挖掘方法，其特征在于，在步骤一的4)中，区域R的活动类型T的指数

由公式

计算得到，区域R的城市区域功能向量表示为

n是活动类型的个数。

8.如权利要求4所述的综合城市地理语义挖掘方法，其特征在于，用户在工作日工作时间段主要活动区域的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以1.01～2；用户在工作日工作时间段非主要活动区域所发的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以0.5～0.99；用户在工作日休息时间段主要活动区域的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以1.01～2；用户在工作日休息时间段非主要活动区域所发的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以0.5～0.99；同时工作日工作时间段的办公相关的社交文本数据对该区域的工作日工作时间段的人口密度指数的影响因子乘以1.01～3，工作日休息时间段的住宅相关的社交文本数据对该区域的工作日休息时间段的人口密度指数的影响因子乘以1.01～3。