CN105630884A

CN105630884A - 一种微博热点事件的地理位置发现方法

Info

Publication number: CN105630884A
Application number: CN201510957634.0A
Authority: CN
Inventors: 敖吉; 牛温佳; 曹亚男; 张鹏; 乔治; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-06-01
Anticipated expiration: 2035-12-18
Also published as: CN105630884B

Abstract

本发明公开了一种微博热点事件的地理位置发现方法。本方法为：1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典，然后将该简称词词典与全称词词典进行关联；2)根据事件关键字，获取包含该事件关键字的微博信息；3)对获取的微博信息进行分词处理，得到该微博的分词集合，然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中，如果存在则将该名词作为候选地理位置词保留；当该微博中出现多个候选地理位置词时，则选取一候选地理位置词作为该微博的地点；4)获取确定的每一地点的地理位置经纬度信息，然后对得到的地理位置经纬度信息进行聚类，根据聚类中心判断出事件爆发地点。本方法可更好的了解突发事件。

Description

一种微博热点事件的地理位置发现方法

技术领域

本发明涉及一种微博热点事件的地理位置发现方法，特别是群体事件的定位，具有较高的准确度。

背景技术

微博，即微博客(Micro-blog),作为Web2.0的产物，是一个基于用户关系信息分享、传播以及获取的平台，用户可以通过WEB、WAP等客户端组建个人社区，以最多140字左右的文字更新信息，并实现即时分享。微博作为一种新型的社交传播媒体，发展迅猛，具有传播速度快、互动性强、信息更新方便等特点，已经开始对社会生活产生巨大影响，并且为事件的发布、传播、扩散提供了更高效的途径。比起传统媒体，微博更可能占据信息发布的制高点，这点在突发热点事件中表现尤为突出。例如2013年4月雅安地震爆发1分钟内就有微博用户发布相关地震信息。而在随后的将近一小时内，有1300余条微博发出了雅安发生较为剧烈地震的微博。而国家官方网站第一次发布该信息是在15分钟之后。

具相关资料统计90％以上的热点事件往往与地理位置密切相关，当事件发生并被广泛传播时事件的常用第一定语就是地理位置信息，如汶川地震，哈尔滨火灾等，之后传播的才是事件的其他细节。所以如果可以将突发事件发生地的信息快速标记在地图上，使用之就可以直观、形象地了解事件发生的地理位置，从而为突发事件之后的救援方案等提供科学的依据，因此从事件信息中挖掘出地理位置信息对于了解突发事件至关重要。

传统的方法多是分析微博用户的注册地址或者是微博发布的地理位置或者是用户上网时地理位置，但是这些地理位置代表的是用户的所在地而非是事件发生的地理位置。因此本发明将研究如何从微博文本中抽取出事件相关的地理位置信息。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种高效、准确的微博热点事件定位方法，用以更好的了解突发事件。

本发明的技术方案如下：

一种微博事件地理位置发现方法，包括以下5个步骤：

步骤1，数据获取，基于用户提供的事件关键字，如“地震”，在已爬取的微博中搜索所有包含该关键字的微博信息。

步骤2，数据清洗：过滤掉微博文本中所有非名词词性的中文词组，为地理位置词抽取做准备；

步骤3，地理位置词抽取：基于我国行政区规划的地理位置词词典及中文简称词的相应命名规则构建我国的简称词词典，并通过唯一的id号将简称词词典与全称词词典相关联；判断微博分词后的名词是否在两个词典中，若不在则判断该分词不是地理位置名词；如果存在，则将该名词作为候选地理位置词保留。为提高准确率，依据简称词的命名特征采用相应规则遍历全称词词典；

步骤4，地理位置词判定：当一条微博中出现多个候选地理位置词时，本文提供一种判定方法计算不同地理位置词的权重值(1/距离值，即距离值的倒数)，并选取权重值最大的地理词作为该微博描述事件的地点。当微博文本中缺失地理位置词时采用基于微博用户及微博内容的可信度方法最终对事件地理位置进行判定。

步骤4，群体事件爆发点定位：我们采用自顶向下的分层聚类+K-means的聚类方法对已获取一组地理位置经纬度信息进行聚类，从而根据聚类中心判断出事件爆发的地点。

与现有技术相比，本发明的积极效果为：

本发明技术实现了微博热点事件地理位置定位技术，数据集采用新浪微博数据，并且完成了数据清洗、地理位置词抽取、地理位置词判定、群体事件爆发点定位四个主要模块。该项发明技术精准的挖掘出了微博事件发生的地理位置，并将结果标记在地图上，可以直观、形象地了解事件发生的地点。

附图说明

附图为本发明的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进一步详细说明。

如附图所示，本发明技术按照4项重要步骤分别阐述其具体实现方法：

·数据清洗

因为微博文本内容通常是非正式、口语话的，为了抽取出与事件相关的地理位置因此首先对微博文本数据进行过滤，从而只保留可能为地理位置词的名词词性的词组，具体清洗过程如下：

一)过滤表情符号：微博用户通常通过表情符号(如[给力]，[惊讶])来表达自己的情绪(如高兴、愤怒、惊讶等)，但是这对分析热点事件发生的地理位置没有具体的研究价值，因此我们首先将这些表情符号过滤掉；

二)过滤超链接：据统计，8.6％的博文中含有超链接，如http://t.cn/RziCtcA，同样这些超链接对分析微博用处不大，因此应当被过滤掉；

三)过滤功能：当微博用户发布一条微博并希望向指定用户传达时就可以通过+昵称来实现，但这些昵称同样成为干扰数据，例如“小沈阳”，沈阳虽是地名，但与事件发生的地点并不相关，为了避免对事件地理位置词的分析造成的干扰，这些信息也要被过滤掉；

四)只保留名词等词性：为了抽取出微博文本中的地理位置词，我们需要过滤掉所有的非名词词性的词，本发明采用中国科学院计算技术研究所的分词系统ICTCLAS对微博文本进行分词和词性标注。只保留名词集合N_s作为地理位置词抽取的输入。

·地理位置词抽取

一)构建我国的行政区规划的地理位置词词典。我们从网上下载了2012年底最新统计的中国行政区规划地理词词典，该词典包含了中国所有县级以上的地理位置实体名，词典每行的字段：地理位置实体名，行政级别0-5，行政级别1代表省、直辖市和自治区：34个；行政级别2代表地级市：344；行政级别3代表县、区：3152；行政级别4代表乡、镇、街道办事处：43920；行政级别5代表村、社区：719472。并采用12位唯一id代码表示具体的行政区规划，如雅克萨社区居委会的行政区代码：150722100005，其中15代表内蒙古，07代表呼伦贝尔，22代表莫力达瓦达斡尔族自治旗，100代表尼尔基镇，005代表雅克萨社区。

二)构造我国行政区规划简称词词典。由于微博表达口语化，因此微博文本中使用的地理位置词以简称词居多，因此为了判断分词后的名词是否为地理位置词，我们还需要构造地理词简称词词典，并通过唯一的id对将全称词与简称词进行关联。中国的地理词命名有一些明显的命名规则，我们根据以下的规则来构造简称词词典。

a)地理全称词(即行政区规划地理词)以自治区、自治州、自治县、自治旗等为后缀

简称词的命名规则：地名+**族(>＝1)+后缀；例：全称词为“湘西土家族苗族自治州”时，先匹配后缀自治州，再重复匹配56个民族，之后剩余的地名“湘西”即为该全称词的简称词。

b)地理全称词以省、市、区、州、县、镇、村等为后缀

简称词的命名规则：地名+后缀；例：全称词为“北京市”，“海淀区”时，先匹配后缀市(区)等，之后剩余的地名“北京”、“海淀”即为简称词。

c)全称地理词无简称词的情况

全称词的规则：地理位置词的字数小于2；例如“茂县”，说明此时地理词没有简称词，我们无需构造简称词。

我们通过构建的地理全称词词典及与之对应的简称词词典建立哈希表，直接判断待检查名词是否在哈希表里即可判断其是否为地理名词。

三)候选词过滤。虽然我们构造了简称词词典，但是中国地理名词简称词可能并不唯一，如“内蒙古自治区”的简称词有“内蒙古”，“内蒙”；“莫力达瓦达斡尔族自治旗”的简称词有“莫力达瓦旗”，“莫力达瓦”，“莫旗”；同时有些简称词的构造规则并不规范，如“新巴尔虎左旗”的简称词为“新左旗”。

我们发现简称词还有以下的构造规则：

a)简称词的第一个字基本都与全称词的第一个字相同

如“陈巴尔虎旗”的简称词“陈旗”的第一个字都是“陈”

b)简称词的每个字都包含于全称词中

如地理简称词“新左旗”三个字都包含于全称“新巴尔虎左旗”

因此我们采用相应的规则来判断微博文本过滤后剩余的名词(即未出现在该简称词词典或全称词词典中的分词)是否为地理位置词简称词以完成地理位置词的抽取功能。

a)首先创建hash表，以地理词全称词典中的首字作为关键字，之后将所有以该字为首字的地理全称词组成集合作为value(即该关键字的键值)，因此我们需要首先匹配首字来做粗过滤。

b)因为简称词包含于全称，所以我们就在该关键字关联的value中顺序遍历所有地理全称词，判断地理全称词是否包含当前待检查的名词中的每一字，若包含则该名词为简称词，将当前简称词通过唯一id号与该全称词进行关联，并补充到简称词库中；遍历结束后若未找到，则表示当前待检查名词不是地理名词的简称词，舍弃掉并循环判断下一个名词。

具体实现的过程见伪代码。

输入：微博文本中的名词序列C_n

输出：地理位置词序列N_a

Procedurediscover_geo(C_n)

begin

1.hash1＝newHashMap<location,Id>

2.hash2＝newHashMap<first,collection>

3.fori←0untilndo

4.begin

5.ifhash1.contains(C_i)then

6.N_k←C_i，id

7.break

8.else

9.begin

10.ifhash2.contains(C_i.first())then

11.whilej<collection.lengthdo

12.begin

13.ifcollection包含C_i中的每个字then

14.N_k←C_i，id

15.end

16.end

17.end

18.returnN_a

end.

·地理位置词判定

从微博文本中抽取出地理位置词之后，我们发现存在三种情况，该条微博中只存在一个地理词或者微博中出现了多个候选地理位置词数或者微博文本中缺失地理词。

一)该条微博只出现一个地理位置词

我们默认其就是该条微博中所描述事件的发生的地理位置词。

二)该条微博中出现的多个候选地理位置词

a)若多个地理词之间仅存在包含关系，如四川汶川

根据每个地理词的id号，匹配其前缀来判断所属关系，然后输出最细粒度的地理名词汶川。

b)若多个地理词之间不存在任何包含关系，如汶川，成都

c)匹配每个地理词的id号，若不相同，则表示地理词之间不存在包含关系。因此对每个地理词都设定一个距离值。

·设定距离值：记录地理词在微博中的索引keyIndex[i],以及所有关键字在微博中的索引geoIndex[k](k＝1,2,…,j)，采用如下距离值公式计算距离值。

{Distance}_{i} = Σ_{k = 1}^{j} | | {geoIndex}_{i} - {keyIndex}_{k} | |

其中，Distance_i表示的是第i个地理词的距离值，geoIndex_i表示第i个地理位置词在该微博中的索引位置，keyIndex_k表示第k个事件关键字在该微博中的索引位置。

·修改距离值：若在事件关键词和地理位置实体之间存在标点符号，则根据启发式规则适当增大其距离值。

微博虽然是短文本，且表达方式口语化，但是用户发布的内容同样也是使用标点符号来表示句子之间的停顿，而标点符号中的点号：句号、问号、感叹号、逗号、顿号、分号和冒号主要是表示口语中不同长短的停顿，这里本文将其主要分为两种，一种是逗号、顿号、分号和冒号等在句子内部需要停顿时使用的点号；另一种是句号、问好、叹号等在一个句子表述结束时使用的点号。

根据中文的描述语言习惯，用户在描述事件时描述了若干个句子(每个句子之间用句号等点号分隔)，那各个句子之间的关联性相对于每个句子内部中的关联性都会偏低；而每个句子中的的若干短句间(用逗号等点号将句子分成若干个短句)的关联性又会若于短句内部中的关联性。也就是说在同一句子同一短句中描述的地理位置词与事件关键字的关联性越大，在同一句子中描述的地理位置词与事件关键字的关联性次之，而关联性最弱的就是不同句子之间分别描述了地理位置词和事件关键字。

根据以上的这种特质，本文修改的地理位置词的距离值，即若在事件关键词和地理位置实体之间存在标点符号，标点符号为第一种类型增加α，若标点符号为第二种类型增加2×α，其中α为参数。

d)其他情况：即有些地理词之间存在包含关系，有些地理词之间则不存在包含关系，如

四川汶川，成都。

因为存在包含关系的地理词是事件发生的地点的概率更大，因此我们根据2)中的方法计算距离值之后，在修改距离值时采用启发式的规则减少存在包含关系的地理词的距离值，且同样只保留最细粒度的地理词，其他情况则不变。若多个地理词之间存在包含关系，则根据以下的公式修改最细粒度的地理词的距离值，并舍弃包含关系中的其他地理词。

Distance_i＝Distance_i-β

其中Distance_i表示的是第i个地理词的距离值，β为参数，修改完距离值之后，我们又发现这样一个问题，有些距离值为正数，有些距离值为负数，本文采用以下的公式来平移距离值，

{Distance}_{i} = \frac{Σ_{i = 1}^{n} {Distance}_{i} / {Distance}_{k}}{Σ_{k = 1}^{n} Σ_{i = 1}^{n} {Distance}_{i} / {Distance}_{k}}

其中，n代表地理位置词的个数，Distance_i，Distance_k分别代表第i，k个地理词的距离值，我们选取距离值最大的地理位置词代表事件发生的地理位置。

三)该条微博中缺失地理词

若文本中不存在地理位置词，我们则使用与微博用户相关的其它地理位置信息来推断事件发生的地理位置：一个是用户注册时的地理位置，另一个是微博发布时用户的位置信息。由于这两种地理位置表示的是用户位置而非事件位置，这些位置信息可能与事件发生的位置无关，比如在事件发生之后，用户可以通过网络、电话、邮件等渠道获取了事件相关的信息，从而发布了一条描述或评论该事件的微博，这两种地理位置信息就不能代表事件发生的地理位置；第二种情况是，事件发生时用户就在发生地或者发生地附近，而这时的微博或用户的地理位置就可以替代文本中本需要有的地理位置信息成为我们判定事件发生的地理位置的有效数据。

为了解决该问题该问题，本文提出了基于微博用户的可信度与微博发布内容可信度的缺失地理位置推断方法。

1)微博用户的可信度

随着微博用户的迅速发展，产生了一批大V用户，这些大V用户在互联网上发挥着越来越大的影响力。一般来讲，粉丝数大于10万的用户就被称为是大V用户。中国社科院发布的2014《社会蓝皮书》中显示，新浪微博、腾讯微博中，拥有10万以上粉丝的用户已超过了1.9万个。大V用户为了维护自身的影响力，对自己发布的微博信息通常会斟字酌句，确定了事件发生才会发布相关信息，以防发布了虚假信息。因此当用户为大V用户时，发布的信息的可信度更高。

2)微博内容的可信度

大V用户发布的信息可信度较高，但是大V用户仅1.9万个。因此，本文基于微博数据的其他信息来判断微博文本内容的可信度。

a)用户注册的地理位置与微博发布地点的经纬度信息接近。当用户注册地理位置与微博发布地点的距离接近时，用户在当前时间段内很可能正在用户平时的生活区域内，而相对于其他区域发生的事件用户更关注当地的热点事件，因此在此种情况下，该微博的可信度相对较高。

b)微博文本的转发数较高。一条微博的转发量在一定程度上代表了微博内容受关注的程度，同时第一手的事件信息更能引起微博大众的广泛关注，而在事件发生地的用户能够更快的发现事件发生的细节并发布到微博上，因此转发数越高，用户在事件发生地的概率就越高。

·群体事件爆发点定位

一)为了将文本地理词转换成经纬度信息，我们采用调用新浪微博提供的公共接口的方法来实现，但是仍然面临两个问题：

1)新浪微博接口访问频次有权限设置，只允许1000次/分钟

2)每次访问都会有一定的反应时间，因此速度会受到限制

因此我们根据已有的地理位置词全称及简称词词典，提前访问并获取所有的经纬度信息，以地理词，地理词等级，地理词id号，经纬度信息存储与文本文件中，如下所示：

福建省1350000000000117.98494326.050118

福建1350000000000117.98494326.050118

湖南省1430000000000111.72066427.695864

湖南1430000000000111.72066427.695864

河北省1130000000000115.66143438.61384

河北1130000000000115.66143438.61384

安徽省1340000000000117.21600531.859252

安徽1340000000000117.21600531.859252

新疆维吾尔自治区165000000000085.61489942.127001

新疆165000000000085.61489942.127001

二)采用聚类的方法发现群体事件的爆发点。

自底向上的分层聚类，首先将每个坐标作为一个类，然后根据坐标之间的距离将这些类合并为较大的类，直到满足阈值即距离终止条件为止。但是缺点是一旦一组坐标被合并之后，下一步不能对已合并的坐标内部进行修改，即类之间不能交换坐标。

Kmeans算法是最为经典的基于划分的聚类方法，其基本思想是：随机选择数据空间中k个点为初始聚类中心进行聚类，对所有坐标按到K个点的距离归类，随即更新每个类簇的中心。通过迭代计算，直至聚类结果收敛。但是缺点是需要输入初始聚类个数。

因此我们采用分层聚类与K-means聚类相结合的方法：

首先通过分层聚类获得初始的聚类信息：即聚类的个数和聚类中心点的位置，然后将聚类的个数作为k-means聚类的初始聚类数，聚类中心则为k-means聚类的初始类中心点，重新计算并聚类，直至成员都不发生变化。

其中坐标之间的距离采用欧几里德距离，公式如下：

S_{i, j} = {distance}_{i, j} = \sqrt{{(x_{i} - x_{j})}^{2} + {(y_{i} - y_{j})}^{2}}

其中disatance_i,j表示第i个点与第j个点之间的欧几里德距离，(x_i,y_i)，(x_j,y_j)非别表示第i,j个点的经纬度坐标。

聚类过程的具体过程：

1.n个2维向量(n个坐标)构建数据矩阵data[n][2]；

2.计算两两之间的距离值，构建距离矩阵d[n][n]；

3.找出距离值最小的两个数据点，将这它们合并成为一个类，即从n个类别合并成了n-1个类别，采用中心点距离的方法计算不同类别之间的距离，计算新类别的中心点与其它所有类别的中心点之间的距离，构建了一个新的n-1维的空间距离矩阵；

4.重复步骤2，3，直到最小距离大于定义的距离阈值为止；

5.将上述的聚类个数及聚类中心作为k-means算法的初始类个数及中心点；

6.遍历data矩阵中每个坐标，计算这个坐标点与分层聚类得到的所有类的中心之间的距离，找出与数据点距离最小的类别，并将数据点归为该类。

7.重新计算每个新类别的中心点；

8.重复步骤6，7直至类中成员都不发生变化。

上述过程中，步骤1～4为分层聚类的过程，5～8为k-means的过程，最后获得的各个聚类的中心就是我们预测的事件发生的地理位置。

将聚类后的聚类中心(经纬度坐标)标注在地图上。

上述说明仅是本发明技术方案的概述，但其并不能用以限定本发明。本发明所属技术领域中的普通技术人员，在不脱离本发明的精神和范围内，做些许的改动与修饰，都在本发明的保护范围内。因此本发明的保护范围当以权利要求所界定者为准。

Claims

1.一种微博热点事件的地理位置发现方法，其步骤为：

1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典，然后将该简称词词典与全称词词典进行关联；

2)根据事件关键字，获取包含该事件关键字的微博信息；

3)对步骤2)获取的每一微博信息进行分词处理，得到该微博的分词集合，然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中，如果存在，则将该名词作为候选地理位置词保留；当该微博中出现多个候选地理位置词时，则选取一候选地理位置词作为该微博的地点；

4)获取步骤3)确定的每一地点的地理位置经纬度信息，然后对得到的地理位置经纬度信息进行聚类，根据聚类中心判断出事件爆发的地点。

2.如权利要求1所述的方法，其特征在于，构建所述简称词词典的方法为：

a)对于以自治区、自治州、自治县、自治旗为后缀的地理全称词，先匹配地理全称词的后缀，再匹配民族，然后将剩余部分作为该地理全称词的简称词；

b)对于以省、市、区、州、县、镇、村为后缀的地理全称词，先匹配地理全称词的后缀，然后将剩余部分作为该地理全称词的简称词；

c)对于字数小于2的地理全称词，直接将该地理全称词作为其简称词。

3.如权利要求1或2所述的方法，其特征在于，对于分词集合集合中未出现在该简称词词典或全称词词典中的分词进一步判断是否为候选地理位置词，其方法为：

a)创建一hash表：以全称词词典中的每一全称词首字作为关键字，将所有以该关键字为首字的全称词集合作为该关键字的键值value；

b)遍历每一value中的全称词，判断全称词是否包含当前待检查分词中的每一字，若全部包含则判断该名词为简称词，并分配一id号与对应全称词进行关联，补充到简称词库中；同时将该分词作为一候选地理位置词。

4.如权利要求1或2所述的方法，其特征在于，对每一分词集合进行过滤，过滤掉所有的非名词词性的词。

5.如权利要求1或2所述的方法，其特征在于，将该简称词词典与全称词词典进行关联的方法为：将该全称词词典中的全称词与该简称词词典中对应的简称词设置相同的id号，实现该简称词词典与全称词词典相关联。

6.如权利要求1所述的方法，其特征在于，选取一候选地理位置词作为该微博的地点的方法为：

61)检查多个候选地理位置词之间是否存在包含关系，如果存在，则保留最细粒度的候选地理位置词；

62)如果步骤61)处理之后只剩余一个候选地理位置词，则将其作为该微博的地点；如果剩余多个候选地理位置词，则计算剩余的每一候选地理位置词的距离值

{Distance}_{i} = Σ_{k = 1}^{j} | | {geoIndex}_{i} - {keyIndex}_{k} | |;

其中，Distance_i表示的是第i个候选地理位置词的距离值，geoIndex_i表示第i个候选地理位置词在该微博中的索引位置，keyIndex_k表示第k个事件关键字在该微博中的索引位置；然后选取距离值最大的候选地理位置词作为该微博的地点。

7.如权利要求6所述的方法，其特征在于，对所述距离值进行修正，即对作为最细粒度保留的候选地理位置词对应的距离值减去一修正值β；如果修正后的距离值为负数，则采用以下的公式来平移对应距离值

{Distance}_{i} = \frac{Σ_{i = 1}^{n} {Distance}_{i} / {Distance}_{k}}{Σ_{k = 1}^{n} Σ_{i = 1}^{n} {Distance}_{i} / {Distance}_{k}}

其中，n代表剩余多个候选地理位置词的个数，Distance_i代表第i个地理词的距离值，Distance_k代表第k个地理词的距离值。

8.如权利要求1或6所述的方法，其特征在于，如果一微博信息中未得到候选地理位置词，则采用基于微博用户及微博内容的可信度确定出一候选地理位置词。

9.如权利要求1所述的方法，其特征在于，所述聚类方法为自顶向下的分层聚类+K-means聚类方法。