CN108932322A

CN108932322A - 一种基于文本大数据的地理语义挖掘方法

Info

Publication number: CN108932322A
Application number: CN201810693973.6A
Authority: CN
Inventors: 孙艳春; 刘瑜; 黄罡; 温九; 张乐聪
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-04

Abstract

本发明公开了一种基于文本大数据的地理语义挖掘方法。本发明采用数据爬取得到带有地理位置标签的文本数据，然后对选取的部分文本数据分配地理语义主题，再将文本数据进行预处理生成词向量，然后再通过机器学习的方式得到所有文本的地理语义主题，最终将所有的地理语义主题以向量的形式输出；本发明根据一个地区的文本数据对该地区的地理语义进行推测，为进一步的城市规划、商业选址、出行规划等提供理论支持和假设；同时本发明的结果还有助于加强人们对某一地区的了解，为人们的出行或游玩规划提供帮助。

Description

一种基于文本大数据的地理语义挖掘方法

技术领域

本发明涉及数据的分析挖掘技术，具体涉及一种基于文本大数据的地理语义挖掘方法。

背景技术

地理语义是一种对于地理信息的语义化描述，反映了一个地区的特点，以及人们对该地区的认知。每一个地理位置都会有它独特的语义信息，例如“北京”作为一个地理位置，它就包含了“政治”、“旅游”、“文化”等语义信息；“中关村”作为一个地理位置，它就包含了“美食”、“商业”、“科技”等语义信息，对于地理语义的挖掘有助于加强人们对某一地理位置的了解。

挖掘地理语义的方法有很多，直接的方式是通过本地生活信息平台(比如大众点评网)或者地图的POI(Point Of Interest)信息，不过这不足以反映人们对一个地区的认知。相对来说，通过挖掘与一个地区相关联的文本中的地理语义，可以更加贴切地反映出人们对于该地区的认知。

对于文本数据来说，主要还是通过一些深度学习的方法来进行处理，比如循环神经网络和其变种长短时记忆网络LSTM[S.Hochreiter and J.Schmidhuber.Long short-term memory.Neural Computation,9(8):1735–1780,1997.]，近两年也有使用卷积神经网络CNN的方法来进行文本分类的，还有研究表明，使用一些较为简单的网络模型并不会降低准确率，并且还可以提升训练速度，比如快速文本分类(FastText)[Joulin A,Grave E,Bojanowski P,et al.Bag of tricks for efficient text classification[J].arXivpreprint arXiv:1607.01759,2016.]。Guy Lansley和Paul A.Longley使用推特数据对伦敦地区的话题分布进行了研究，他们对伦敦地区一年产生的约300万条标记地理信息的推特数据进行了分析，基于LDA方法对清洗过后的数据进行了挖掘，从中提取出30个不同的主题，总结了话题内容，分析了部分主题的推特在伦敦的时间以及空间分布，将得到的结果用于分析一个地点发生的典型活动[Lansley G,Longley P A.The geography of Twittertopics in London[J].Computers,Environment and Urban Systems,2016,58:85-96.]。McKenzie,Janowicz,Gao,&Gong使用推特的数据来预测地点的用途[McKenzie G,JanowiczK,Gao S,et al.POI pulse:A multi-granular,semantic signature–based informationobservatory for the interactive visualization of big geosocial data[J].Cartographica:The International Journal for Geographic Information andGeovisualization,2015,50(2):71-85.]。虽然已有一些方法将文本数据与地理位置关联起来，但是目前还没有研究利用文本大数据来全面描述一个位置的地理语义。

通过对地理语义的研究，可以发现位置的深层知识，对位置建立多重维度的描述，在此基础上发掘位置的活动、情感等特征；还可以根据语义化的描述，根据文本推断和预测位置；根据地理语义，还可以对人群在一定空间的行为倾向进行推测和预测。在此基础上，可以建立基于地理语义的推荐系统。面向城市空间分析应用与服务，和用户画像结合，为用户感兴趣的地理位置进行个性化推荐。

综上所述，挖掘人们对于一个地区的地理语义的认知有着重要的意义，而庞大的带有地理位置标签的文本数据则是为信息挖掘提供了数据基础，但是基于此的研究却较少。

发明内容

针对以上现有技术中存在的问题，本发明提出了一种基于文本大数据的地理语义挖掘方法。

本发明的基于文本大数据的地理语义挖掘方法，包括以下步骤：

1)数据爬取：

利用爬虫从网络中进行数据爬取，从而获取带有地理位置标签的文本数据；

2)文本数据标注：

选取部分文本数据，对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题，对于不包含地理语义信息的文本，其地理语义主题为无，从而形成训练文本；

3)文本数据预处理：

将文本数据转换成向量的形式；

4)地理语义有关或无关二分类：

按照是否包含地理语义信息，利用步骤2)中得到的训练文本，将训练文本中所有包含地理语义信息的文本作为正例，不包含地理语义信息的文本作为反例，训练文本二分类模型，并采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类，从而得到地理语义有关文本，即包含地理语义信息的文本；

5)地理语义有关文本多分类：

如果训练文本中各个地理语义主题的文本数量不均衡，则先采用上采样下采样的方法，或者从文本数据中手动选择的方法，将相应地理语义主题的文本加入到训练文本中，从而使得训练文本中各个地理语义主题的文本数量均衡；然后利用步骤2)中得到的训练文本，通过机器学习的方式，得到文本多分类模型，并采用文本多分类模型对步骤4)中的地理语义有关文本进行多分类，从而得到所有文本的地理语义主题；

6)结果输出：

经过地理语义有关文本多分类，所有与地理信息有关的文本会被分到某一个特定的地理语义主题中，由此得到一个地区的各种地理语义主题所包含的文本数量，最终以向量的形式输出。

其中，在步骤3)中，对于文本数据，无法直接进行处理，通常需要将其转换成向量的形式。而对于网络中的文本数据，由于其特殊性，还需要做额外的工作，主要包括以下步骤：

a)中文分词：将文本中的汉字序列切分成一个一个单独的词；

b)数据清洗：清除掉文本数据中包含的无用的信息，并去掉非中文词汇，采用正则表达式或字典精确匹配，无用的信息为对于文本本身表达的语义没有关系的内容，包括超链接、话题、各种表情符号、超文本标记语言HTML的标签；

c)训练词向量模型：将文本中的词生成词向量的形式；词向量的生成方式采用独热码(One-Hot Representation)、词频-逆文本频率(TF-IDF)、共生矩阵(Co-occurrencematrix)和神经网络中的一种或多种。

在步骤4)中，文本二分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。

在步骤5)中，机器学习的方式采用的文本多分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。

在步骤6)中，如果该地区某个地理语义主题所包含的文本数量占比明显高于其它地区，那么该地区的该主地理语义主题的语义强度就较强，反之则较弱，每一个地理语义主题所包含的文本数量采用一个0到1之间的小数进行表达这种“强弱”关系，对于给定的地区，最终的输出是以向量的形式，包含了该区域各个地理语义主题的多个小数。

本发明的优点：

本发明采用数据爬取得到带有地理位置标签的文本数据，然后对选取的部分文本数据分配地理语义主题，再将文本数据进行预处理生成词向量，然后再通过机器学习的方式得到所有文本的地理语义主题，最终将所有的地理语义主题以向量的形式输出；本发明根据一个地区的文本数据对该地区的地理语义进行推测，为进一步的城市规划、商业选址、出行规划等提供理论支持和假设；同时本发明的结果还有助于加强人们对某一地区的了解，为人们的出行或游玩规划提供帮助。

附图说明

图1为本发明的基于文本大数据的地理语义挖掘方法的流程图；

图2为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的某地区的结果雷达图；

图3为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的微博主题数量分布柱状图；

图4为根据本发明的基于文本大数据的地理语义挖掘方法的一个实施例得到的某地区的地理语义主题分布柱状图；

具体实施方式

下面结合附图，通过具体实施例，进一步阐述本发明。

在本实施例中，所使用的数据为2016年全年北京市带有地理信息的微博数据，总共有4975416条微博，并且将北京市五环内划分为234个地区。

如图1所示，本实施例的基于文本大数据的地理语义挖掘方法，包括以下步骤：

1)数据爬取：

由于没有公开的数据源，本实施例中利用爬虫从网络中微博数据进行数据爬取，从而获取带有地理位置标签的文本数据。

2)文本数据标注：

文本数据本身是不带有地理语义主题的，所以为了更加准确地得知文本中所包含地理语义信息，需要对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题，作为训练文本；本实施例在进行数据挖掘的时候选取了13个主题，分别为餐饮、运动、旅游、购物、酒店、医院、学校、住宅、办公、娱乐、交通、培训、生活辅助。选取这13个主题是因为这个是生活中在人们描述一个地点的时候，最常见的几个语义，在选取主题的时候，参考了大众点评、美团的分类方式以及高德地图的POI类别，并且合并了一些在微博文本中出现较少的主题，比如宠物相关、私家车相关等的主题统一合并为生活辅助，因为人们几乎不会在洗车或者对宠物进行保养的时候发一条微博，所以相当于在选取主题的时候也要考虑主题在大数据中是否存在可挖掘的内容。除了这13个主题之外，对于不包含地理语义信息的文本，分配的地理语义主题为无。本实施例中共标注5000条微博，其中不包含地理语义信息的文本共3743条。完整的类别统计信息如下表1所示：

餐饮	运动	旅游	购物	酒店	医院	学校
							269	94	110	28	13	19	179
住宅	办公	娱乐	交通	培训	生活辅助	无
							178	118	114	99	21	35	3743

表1

3)文本数据预处理：

a)中文分词：在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，而自然语言处理中通常是以词为单位来进行分析的，因为词可以说是带有语义的最小单位。在本实施例中，采用结巴(jieba:https://github.com/fxsjy/jieba)分词对文本数据进行分词，并去掉停用词和标点符号，将文本中的汉字序列切分成一个一个单独的词；

b)数据清洗：在微博中，包含了话题、标签符号和超链接，这些信息对于地理语义信息的获取不能提供帮助，并且会对结果造成干扰，所以在预处理阶段采用正则表达式来清洗掉这些无用的信息；以一条微博为例：

“#2016新年快乐#新年都是新景象！[抢到啦][发红包啦]http://t.cn/z8AauOj”

在选取的这条典型微博中，我们可以看到噪音信息大致有如下几种：

i.话题信息：“#2016新年快乐”，话题信息通常与地理信息无关，不过也有人愿意将一部分微博内容用话题包裹起来，所以比较好的处理方式是将热门话题去除

ii.表情信息：“[抢到啦][发红包啦]”，表情信息通常用于表述情感，对于微博的地理语义信息的分析没有帮助

iii.超链接：http://t.cn/z8AauOj，超链接使用场景很多，对于文本分析没有任何意义。

c)训练词向量模型：选取最常见的神经网络词向量模型——Word to Vector作为实际使用的词向量模型，通常训练中文词向量模型都是利用搜狗全网新闻数据[http://www.sogou.com/labs/resource/ca.php]或者中文维基百科，但是微博文本与这些较为正规的文本数据略有不同，存在着简短化、口语化等特点，所以本实验同时使用了搜狗全网新闻数据和微博数据进行词向量模型的训练。

4)地理语义有关或无关二分类：

按照是否包含地理语义信息，采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类，从而得到地理语义有关文本；选取LSTM作为文本二分类模型，并和其它几种分类模型的效果进行了对比。LSTM能够使用已训练好的词向量模型，也可以使用Word Embedding层而直接将分词后的文本作为输入。实验中发现使用预训练的词向量模型可以显著提升分类效果。下表2为各分类模型效果对比：

表2

从表2中可以看到LSTM在该数据集上表现优于别的模型。

5)地理语义有关文本多分类：

如果训练文本中各个地理语义主题的文本数量不均衡，则先采用上采样下采样的方法，或者从文本数据中手动选择的方法，将相应地理语义主题的文本加入到训练文本中，从而使得训练文本中各个地理语义主题的文本数量均衡；然后利用步骤2)中得到的分配了地理语义主题的训练文本，通过机器学习的方式得到所有文本的地理语义主题；本实施例中选取LSTM作为分类模型，使用预训练的Word embedding层作为输入。

网络的主要参数设置如下：

●单元数量：128

●Dropout：0.5

●学习率：0.001

●优化器：Adam

●损失函数：交叉熵

得到最终的多分类正确率为52.2％。

6)结果输出：

最终的结果分地区输出，每个地区包含多个地理语义主题的数值，以五道口为例，其微博主题数量分布如图3所示，地理语义主题如图4所示。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于文本大数据的地理语义挖掘方法，其特征在于，所述地理语义挖掘方法包括以下步骤：

1)数据爬取：

2)文本数据标注：

3)文本数据预处理：

将文本数据转换成向量的形式；

4)地理语义有关或无关二分类：

5)地理语义有关文本多分类：

6)结果输出：

2.如权利要求1所述的地理语义挖掘方法，其特征在于，在步骤3)中，将文本数据转换成向量的形式，包括以下步骤：

b)数据清洗：清除掉文本数据中包含的无用的信息，并去掉非中文词汇；

c)训练词向量模型：将文本中的词生成词向量的形式；词向量的生成方式采用独热码、词频-逆文本频率、共生矩阵和神经网络中的一种或多种。

3.如权利要求2所述的地理语义挖掘方法，其特征在于，在步骤b)中，无用的信息为对于文本本身表达的语义没有关系的内容，包括超链接、话题、各种表情符号、超文本标记语言HTML的标签，采用正则表达式或字典精确匹配。

4.如权利要求1所述的地理语义挖掘方法，其特征在于，在步骤4)中，文本二分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。

5.如权利要求1所述的地理语义挖掘方法，其特征在于，在步骤5)中，机器学习的方式采用的文本多分类模型采用长短时记忆网络LSTM、文本卷积神经网络TextCNN和快速文本分类FastText中的一种或多种。

6.如权利要求1所述的地理语义挖掘方法，其特征在于，在步骤6)中，如果该地区某个地理语义主题所包含的文本数量占比明显高于其它地区，那么该地区的该主地理语义主题的语义强度就较强，反之则较弱，每一个地理语义主题所包含的文本数量采用一个0到1之间的小数进行表达这种“强弱”关系，对于给定的地区，最终的输出是以向量的形式，包含了该区域各个地理语义主题的多个小数。