CN107463624A

CN107463624A - 一种基于社交媒体数据进行城市兴趣域识别的方法及系统

Info

Publication number: CN107463624A
Application number: CN201710547800.9A
Authority: CN
Inventors: 李峰; 司马晓; 岳隽; 陈小祥; 杜雁; 李晨; 王吉勇
Original assignee: SHENZHEN URBAN PLANNING & DESIGN INSTITUTE Co Ltd
Current assignee: Shenzhen Urban Planning And Design Institute Co ltd
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2017-12-12
Anticipated expiration: 2037-07-06
Also published as: CN107463624B

Abstract

本发明公开了一种基于社交媒体数据进行城市兴趣域识别的方法，其包括以下步骤：对社交媒体数据进行预处理；对城市区域进行栅格单元划分，并提取各栅格单元内产生社交媒体数据，将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加；计算每个栅格单元与其相邻四个栅格单元之间的相似度，将相似的栅格单元合并；提取所得合并栅格单元中的文本信息，根据文本信息包含的词语识别城市兴趣域的语义信息。以及一种基于社交媒体数据进行城市兴趣域识别的系统。采用该方案，可有效利用社交媒体数据进行城市兴趣域识别，十分方便且识别度较高，结果与实际吻合度极高。广泛应用于大数据处理领域。

Description

一种基于社交媒体数据进行城市兴趣域识别的方法及系统

技术领域

本发明涉及大数据分析领域，具体为基于社交媒体数据进行城市兴趣域识别的方法及系统。

背景技术

TF-IDF：term frequency–inverse document frequency，是一种用于资讯检索与资讯探勘的常用加权技术。

城市兴趣域(Areas of Interest)是指城市范围内居民活动较为活跃的区域，通常位于旅游景点、商业中心和居民地等人口流动较大的地方，包含了大量的居民活动信息。城市兴趣域的识别对于城市规划布局的优化、城市交通状况的改善、以及土地利用的完善等具有重要的现实意义。然而，由于城市兴趣域没有特定的区域边界与活动类型，区域的划分具有动态性，导致其识别具有一定的难度。

目前，城市兴趣域的识别主要采用遥感影像地物识别的手段，从遥感影像中提取反映城市用地类型的信息。例如，利用夜间灯光遥感数据，对城市中的建筑物分布进行识别分析；利用遥感影像中的移动激光扫描点云数据，识别了城市中的道路分布。然而，遥感影像识别方法存在生产周期长、耗时耗力等问题，同时，遥感影像仅能提取城市的地物分布等静态信息，无法识别城市居民活动的信息。

近年来，随着大数据技术的发展及应用，出现了大量诸如新浪微博、Twitter、Facebook等社交媒体数据。这些数据更新实时，也包含位置信息，能够反映城市兴趣域的空间分布；同时，社交媒体数据的文本内容在一定程度上也能够反映居民的活动。因此，有必要将带有地理位置信息的社交媒体数据应用于城市兴趣域识别，来实现更新实时且能够反映居民活动信息的新数据以进行城市兴趣域的识别。

发明内容

为了解决上述技术问题，本发明的目的是提供一种有效利用社交媒体数据进行城市兴趣域识别的方法及系统。

本发明所采用的技术方案是：

本发明提供一种基于社交媒体数据进行城市兴趣域识别的方法，其包括以下步骤：

对社交媒体数据进行预处理；

对城市区域进行栅格单元划分，并提取各栅格单元内产生的社交媒体数据，将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加；

计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度，将相似的栅格单元合并，所述合并的栅格单元均属于城市兴趣域的空间位置；

提取所得合并栅格单元中的文本信息，根据文本信息包含的词语识别城市兴趣域的语义信息，进而体现所述城市兴趣域中城市居民活动情况。

作为该技术方案的改进，所述步骤对社交媒体数据进行预处理，其包括将字母大小写归一化、去除特殊符号及停顿词。

作为该技术方案的改进，所述社交媒体数据包括微博数据和/或Twitter数据和/或Facebook数据。

作为该技术方案的改进，所述步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度，其包括利用Jaccard系数，计算相邻栅格单元内文本信息的相似度。

进一步地，所述相似度的计算公式包括：

其中，为文本信息之间的相似度；T_A,T_B分别为栅格单元A与栅格单元B中的文本信息。

进一步地，通过所述计算所得栅格单元内文本信息的相似度对栅格单元进行合并，若所得相似度大于等于设定阈值，则将相邻的栅格单元进行合并；反之，则相邻的栅格单元不合并。

进一步地，利用tf-idf算法，计算文本信息中各词语的重要性得分，并提取得分较高的词语为城市兴趣域语义信息。

进一步地，所述计算文本信息中各词语的重要性得分的公式为：tfidf_m,R＝tf_m,R×idf_m，其中tfidf_m,R为合并的栅格单元R中的第m个词语t的重要性，tf_m,R为第m个词语t的词频，idf_m为第m个词语t的逆向文件频率。

另一方面，本发明还提供一种基于社交媒体数据进行城市兴趣域识别的系统，其包括：

预处理模块，用于执行步骤对社交媒体数据进行预处理；

栅格单元划分模块，用于执行步骤对城市区域进行栅格单元划分，并提取各栅格单元内产生的社交媒体数据，将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加；

兴趣域空间位置识别模块，用于执行步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度，将相似的栅格单元合并，所述合并的栅格单元均属于城市兴趣域的空间位置；

语义信息识别模块，用于执行步骤提取所得合并栅格单元中的文本信息，根据文本信息包含的词语识别城市兴趣域的语义信息，进而体现所述城市兴趣域中城市居民活动情况。

本发明的有益效果是：本发明提供的利用社交媒体数据进行城市兴趣域识别的方法及系统，通过对社交媒体数据进行预处理，并将城市区域进行栅格单元的划分；继而，提取各栅格单元内社交媒体数据的文本信息，通过计算Jaccard系数，得到城市兴趣域的空间位置分布；最后，通过tf-idf算法分析社交媒体数据中文本信息，得到城市兴趣域的语义信息分布。采用该方案，可有效利用社交媒体数据进行城市兴趣域识别，十分方便且识别度较高，结果与实际吻合度极高。

附图说明

下面结合附图对本发明的具体实施方式作进一步说明：

图1是本发明一实施例的城市兴趣域识别方法示意图；

图2(a)-图2(c)为栅格单元划分对比图；

图3为栅格单元划分结果示意图；

图4(a)-图4(e)为栅格单元合并过程示意图；

图5为本发明一实施例的多伦多地区栅格单元合并示意图；

图6为本发明一实施例的多伦多地区的城市兴趣域空间位置分布示意图；

图7为本发明一实施例的多伦多地区的城市兴趣域语义信息分布示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参照图1，是本发明一实施例的城市兴趣域识别方法示意图。本发明提供一种基于社交媒体数据进行城市兴趣域识别的方法，所述方法包括如下步骤：

对社交媒体数据进行预处理；

所述预处理过程其包括将字母大小写归一化、去除特殊符号及停顿词，如将所有字母改为统一格式，大写字母全部改为小写字母等；去除特殊符号、去除停顿词等。

所述社交媒体数据包括：微博如新浪微博等数据，Twitter数据，Facebook数据等；

作为本方案的一实施例，其使用Twitter数据集的TEXT文本标签字段。由于初步获取的数据集TEXT字段内容十分冗杂，除英文字符外包含大量的特殊符号及非英文字符，其中英文字符也存在大小写格式不一、停顿词较多等影响实验结果的问题。因此在实验之前要对Twitter数据集的TEXT字段进行英文字符大小写归一、去除非英文字符与空行、去除停顿词等处理。

a.将大写字母全部改为小写字母。例如“library”与“Library”表示同一个单词，但是在模型计算中将被视为两个不同的单词进行独立运算，降低了实验结果精度。英文字符的大小写归一步骤可使用EXCEL的lower()函数；

b.Twitter数据产生时往往由于用户书写或者系统自动生成的原因而包含大量的特殊符号，这些符号在模型运算中会被视为独立的单词进行运算，影响最终实验结果。去除非英文字符与空行步骤可采用python的正则表达式模块re；

c.Twitter数据集TEXT字段中包含很多功能词，与其他词相比，功能词没有什么实际含义。最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”)，这些词在文本中描述名词和表达概念，如地点或数量；介词如：“over”，“under”，“above”等表示两个词的相对位置，这类单词在Twitter数据集中出现频率很高，却对兴趣域的潜在语义识别作用甚微，因此需要去除这类停用词。停用词的去除需要建立兴趣域识别的停顿词词库，本方案应用python的分词模块jieba，对Twitter数据集进行停用词去除，得到了本方案需要的城市兴趣域Twitter数据集。

接着，对城市区域进行栅格单元划分，并提取各栅格单元内产生的社交媒体数据，将所述经过预处理的社交媒体数据与所述栅格单元进行空间位置叠加；

城市区域栅格单元划分，其将城市区域划分n个栅格单元R_i,j，其中，R为划分的栅格单元，i、j为栅格单元R的行数和列数。提取每个栅格单元中内社交媒体数据的位置信息，将步骤A中经过预处理的社交媒体数据与划分后的栅格单元进行空间位置叠加；

其中，将城市区域均匀划分为n个栅格单元R_i,j后，R_i,j相邻的四个栅格单元定义为：

其中，

栅格单元的分辨率应满足城市兴趣域识别的需求，过大或过小的分辨率都会降低城市兴趣域识别的精度。参照图2(a)-图2(c)所示，将Twitter数据集空间展示在实验区域多伦多城区的遥感影像中，分别构建55m×55m、110m×110m、220m×220m三种不同尺寸的格网。通过观察对比可知图2(a)中栅格单元过小，生成的栅格单元数量较多；图2(c)中栅格单元过大，栅格单元内包含Twitter数据过多会降低实验结果精度；相反，图2(b)中栅格单元的分辨率满足本方案实验要求。

根据划分结果提取各栅格单元内所有Twitter数据的TEXT字段作为文本信息。考虑到文本代表性以及Twitter数据在实验区域内的空间分布情况，将包含少于30条Twitter数据的栅格单元去除，得到结果如图3所示。

计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度，将相似的栅格单元合并，所述合并的栅格单均属于城市兴趣域的空间位置；

城市兴趣域的空间位置识别。其是提取步骤B中每个栅格单元R_i,j与其相邻的栅格单元N_i,j中社交媒体数据的文本信息T_i,j，其中T为每个栅格单元R中社交媒体数据的文本信息，i、j为栅格单元R的行数和列数。利用Jaccard系数(Jaccard similarity coefficient)算法，计算相邻栅格单元之间的相似度，将相似的栅格单元合并，合并的栅格单元即为城市兴趣域的空间位置。

首先提取步骤B中每个栅格单元R_i,j与其相邻的栅格单元N_i,j中社交媒体数据的文本信息T_i,j，其中T为每个栅格单元R中社交媒体数据的文本信息，i、j为栅格单元R的行数和列数。

然后利用Jaccard系数，计算相邻栅格单元内文本信息T_i,j的相似度。所述相似度的计算公式为：

根据Jaccard系数计算所得栅格单元内文本信息T_i,j的相似度，对栅格单元进行合并，其计算公式如下：

其中，S为衡量相似度的阈值，S∈[0,1]，本方案取其经验值0.9，即当时，相邻的栅格单元合并，当J(T_A,T_B)<0.9时，相邻栅格单元不合并。

所述栅格单元合并过程如图4(a)-图4(e)所示，给定一个栅格单元如图4(a)，其某个相邻栅格单元如图4(b)，通过步骤C2计算出这两个栅格单元的Jaccard系数，当此值大于给定的阈值S时，合并这两个栅格，如图4(c)；若Jaccard系数值小于阈值时，则表示两个栅格单元属于不同的城市兴趣域，不予以合并。在新的合并过程中新生成的栅格单元如图(d)，如果满足条件则根依据上述步骤完成新的合并过程，如图4(e)所示。

所得多伦多地区的栅格单元的合并结果如图5所示。图中黑色栅格单元与其相邻栅格单元的Jaccard关系均小于阈值S，故不将其作为城市兴趣域。最终得到多伦多地区城市兴趣域的空间分布如图6所示。

城市兴趣域的语义信息识别。提取步骤C所得合并栅格单元中的文本信息T_m，其中m为合并后栅格单元的个数。利用tf-idf(termfrequency-inverse document frequency)算法，计算文本信息T_m中各词语的重要性得分，其中，作为一优选实施例，重要性得分最高的前5个词语即为城市兴趣域语义信息，体现了该城市兴趣域中城市居民活动规律。挖掘城市兴趣域潜在语义的算法即为计算出各个文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的词即是该城市兴趣域的潜在语义。

其中文本信息T_m中各词语的重要性得分的计算公式为tfidf_m,R＝tf_m,R×idf_m，其中tfidf_m,R为合并的栅格单元R中的第m个词语t的重要性，tf_m,R为第m个词语t的词频，idf_m为第m个词语t的逆向文件频率。

其计算公式如下：

式中，n_m,R是词语t在合并后的栅格单元R中出现的次数，∑_mn_m,R为合并后的栅格单元R中所有词语出现的次数之和。|D|为合并后的栅格单元R的总数，|{R:t_m∈d_m}|是指包含词语t的栅格单元数目。

所得多伦多地区的城市兴趣域的语义信息如图7所示，采用该方案识别多伦多该城市的兴趣域，其中1、2、3、4各个区域分别代表不同的兴趣域。

预处理模块，用于执行步骤对社交媒体数据进行预处理；

本发明提供的利用社交媒体数据进行城市兴趣域识别的方法及系统，通过对社交媒体数据进行预处理，并将城市区域进行栅格单元的划分；继而，提取各栅格单元内社交媒体数据的文本信息，通过计算Jaccard系数，得到城市兴趣域的空间位置分布；最后，通过tf-idf算法分析社交媒体数据中文本信息，得到城市兴趣域的语义信息分布。采用该方案，可有效利用社交媒体数据进行城市兴趣域识别，十分方便且识别度较高，结果与实际吻合度极高。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，其包括以下步骤：

对社交媒体数据进行预处理；

2.根据权利要求1所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，所述步骤对社交媒体数据进行预处理，其包括将字母大小写归一化、去除特殊符号及停顿词。

3.根据权利要求1所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，所述社交媒体数据包括微博数据和/或Twitter数据和/或Facebook数据。

4.根据权利要求1至3任一项所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，所述步骤计算每个栅格单元与其相邻上、下、左、右四个栅格单元之间的相似度，其包括利用Jaccard系数，计算相邻栅格单元内文本信息的相似度。

5.根据权利要求4所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，所述相似度的计算公式包括：

6.根据权利要求5所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，通过所述计算所得栅格单元内文本信息的相似度对栅格单元进行合并，若所得相似度大于等于设定阈值，则将相邻的栅格单元进行合并；反之，则相邻的栅格单元不合并。

7.根据权利要求6所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，利用tf-idf算法，计算文本信息中各词语的重要性得分，并提取得分较高的词语为城市兴趣域语义信息。

8.根据权利要求7所述的基于社交媒体数据进行城市兴趣域识别的方法，其特征在于，所述计算文本信息中各词语的重要性得分的公式为：tfidf_m,R＝tf_m,R×idf_m，其中tfidf_m,R为合并的栅格单元R中的第m个词语t的重要性，tf_m,R为第m个词语t的词频，idf_m为第m个词语t的逆向文件频率。

9.一种基于社交媒体数据进行城市兴趣域识别的系统，其特征在于，其包括：

预处理模块，用于执行步骤对社交媒体数据进行预处理；