CN103984771A

CN103984771A - 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法

Info

Publication number: CN103984771A
Application number: CN201410243738.0A
Authority: CN
Inventors: 李晨亮; 孙爱欣
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-06-04
Filing date: 2014-06-04
Publication date: 2014-08-13
Anticipated expiration: 2034-06-04
Also published as: CN103984771B

Abstract

本发明公开了一种抽取英文微博中地理兴趣点和感知其时间趋势的方法，本发明首先对一条英文微博进行扫描，确定其中包含的候选地理兴趣点；然后从微博中抽取词汇，语法和BILOU模式标记三类特征；基于三类特征，运用时间趋势地理兴趣点标记器，对微博中的候选地理兴趣点进行确定和感知其对应的时间趋势。依照本发明所提供自动确定英文微博中涉及的地理兴趣点以及其时间趋势的技术方法，可以基于精细度地理位置来进行个性化的服务和开展市场营销。由于地理兴趣点知识库的构建利用了位置社交网络，不需人工进行生成，而且三类特征信息具有普遍性，使本发明可以广泛应用于同类各种英文微博服务平台，具有广泛的实际意义和商业价值。

Description

一种英文微博中地理兴趣点抽取和感知其时间趋势的方法

技术领域

本发明属于社交媒体数据挖掘和自然语言处理技术领域，特别涉及一种抽取英文微博中涉及的地理兴趣点以及感知对应的时间趋势的信息获取方法。

背景技术

作为社交网络的主要平台，微博服务平台(Twitter、Weibo等等)已经成为人们表达思想、交换观点和分享事件的主流方式。在微博平台上，一条微博非常的简短，仅仅包含最多140个单词和标点(英文包含140个字符)。并且，用户发布微博的内容受到很少的限制。这种快捷方便的信息资讯发布和传播平台导致用户可以实时地访问和分享最新的故事，观点以及新闻。这种信息的实时性使其成为目前最活跃的社会信息资讯平台之一。在中国，据新华网报道，新浪微博平台的用户数已超过5亿。与此同时，在微博平台中，每个人都可以看做是一个独立的社会感应器。这些感应器独立地或者协同式地反映社会舆情。例如：在地震发生过程中，人们通过Twitter平台实时的交流地震发生的时间和地理位置。通过监听相关的微博信息，我们可以跟踪和预报地震所涉及的地区以及到达时间。研究人员发现基于微博平台的地震监测和预报快于传统的地震监测方式。另一方面，微博包含大量的有价值的语义信息。这些丰富的语义资源可以帮助我们高效并且快速地计算信息资讯之间的联系，以及获取社会舆情，网民的观点及其倾向性。同时，微博用户经常会透露许多商业机会。例如：用户可能在微博上抱怨空气质量的同时，表达出购买口罩或者空气净化器等意图。

特别的，随着移动互联网的迅猛发展，人们越来越多的通过移动终端来发布和分享资讯。具体来说，人们常常有意或者无意地通过微博来透露自己的地理信息。其中，地理兴趣点又在这类地理信息中占巨大部分。地理兴趣点是指一个特定的地理实体，比如区域，街道，或者是一个特定的地理地点，比如酒店，地标，学校，商店以及饭店等等。这些地理兴趣点往往反映着用户的当前地理位置或者是短期的活动计划。近年来，定位微博及其用户的地理位置变成一个热门的研究话题。挖掘这类地理信息，我们可以产生很多具有现实意思的商业价值，比如，个性化的广告或者是基于地理位置的市场营销。然而，大部分已有的研究成果主要依赖于包含GPS定位信息或者文本地理信息标注的微博内容。并且，这些技术只能在粗粒度层面(从国家，省份到具体所在城市)对微博或者其用户的地理位置进行推断。与此同时，在主题模型(Topic Model)研究方面，现有的工作主要专注于研究地理位置与用户兴趣主题的交互。然而，这些技术要么无法达到细粒度的地理位置识别，要么语义信息过于简单和粗糙，因此还远远无法支撑细粒度的地理位置个性化服务和市场营销。另一类研究主要针对具有地理位置标注的微博或者基于位置社交网络的内容来给用户推荐其他的地理兴趣点。这些技术往往基于明确的用户地理位置分享信息。然而，用户有意地分享的地理信息往往很少量，比如用户主动给微博增加GPS定位信息或者文本地理信息标注。这些困难同样使得细粒度的地理位置服务和市场行销无法取得预期的效果。

作为一个实时的社会信息资讯分享平台，微博用户常常有意或者无意地通过微博来透露自己当前的地理位置信息或者短期的行动计划。然而，一条英文微博非常的简短，仅仅包含最多140个字符，同时用户发布微博的内容受到很少的限制。这些特征使得英文微博中往往包含大量的口头习语(白话语)，拼写错误以及语法错误(错误多发性)。同时，用户习惯在英文微博中运用各种正式或者非正式的缩写去表达地理兴趣点。在自然语言处理领域，命名实体检测是指自动识别文本中具有特定意义的实体，主要包括人名，地名，机构名，产品名以及专有名词等。然而，现有的命名实体检测技术在英文微博文本上效果不佳。其次，由于英文微博内容的随意性，其微博内容中的地理兴趣点的表述往往包含很多歧义，即同一个短语在不同的语义环境下可以表示不同的实体(地理名称的歧义性)。比如微博例子“soccerfever at mac now.！”中提到的“mac”在很多场景下指的是一种美国Apple公司的电子产品。因此，简单地依据一个地理信息库对英文微博进行匹配是低效和不可行的。

准确地感知用户对于地理兴趣点的时间趋势具有非常重要的商业价值。与地理兴趣点相关联的时间趋势包括用户已经访问过，正在访问和即将访问该地理兴趣点三个类别。比如，对于英文微博，“just back from L’Artusi,wonderful dinner:>like to try the smile tmr for lunch”(L’Artusi和The Smile分别是两个位于纽约的餐馆)，用户更希望接收关于“The Smile”的促销信息，因为用户已经访问过“L’Artusi”，同时表达了即将访问“The Smile”的意愿。然而，目前并没有基于英文微博内容感知用户地理兴趣点的时间趋势的相关工作。现有的获取事件的时间趋势的工作和工具都是针对正式的长文本来进行的，这些文本依照正式的日期和时间格式来表述事件的时间因素。由于英文微博内容的错误多发性和简短性，这些技术手段都无法直接应用于英文微博中的地理兴趣点的时间趋势感知。

发明内容

针对英文微博内容的简短性，随意性和错误多发性，以及地理兴趣点名称的歧义性，本发明旨在针对某一个特定的地理区域(比如一座城市)，自动从英文位置社交网络来构建相应的地理兴趣点知识库，高效地识别英文微博(来自这个地理区域)中可能涉及到的地理兴趣点和感知地理兴趣点对应的时间趋势，基于条件随机场模型，从英文微薄的三组特征信息(词汇，词法和BILOU模式标记特征)出发，利用小规模的人工标记数据集训练出一个时间趋势地理兴趣点标记器，从而达到对候选地理兴趣点进行消歧义和感知地理兴趣点的时间趋势的目标。其感知的地理兴趣点的时间趋势有三个类别：用户已经访问过，正在访问和即将访问该地理兴趣点。

本发明所采用的技术方案是：一种英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于，包括以下步骤：

步骤1：针对给定的地理区域，利用英文社交网络，构建该地理区域的地理兴趣点知识库，使其每一个知识库中的词条都可以对应于至少一个该地理区域的地理兴趣点；

步骤2：根据步骤1构建的地理兴趣点知识库，对来自该给定的地理区域的英文微博进行扫描匹配，获取所有包含有地理兴趣点知识库中的地理兴趣点表述的微博，这些匹配到的地理兴趣点表述成为候选地理兴趣点，从这些微博中随机采样一定数量的微博，对采样微博中各个候选地理兴趣点进行人工消歧义标注，然后对其中真实的地理兴趣点人工进行时间趋势标记，最后生成训练集合；

步骤3：根据步骤2生成的训练集合，对集合中的每条英文微博进行特征提取，基于训练集合，依据提取词汇特征、语法特征和BILOU模式标记特征，运用条件随机场模型，训练出英文微博的时间趋势地理兴趣点标记器；

步骤4：当对来自该给定的地理区域的新的英文微博要进行处理时，利用步骤3所述的方法对新的英文微博进行特征提取，然后运用步骤3生成的时间趋势地理兴趣点标记器来进行地理兴趣点的确定和感知其时间趋势。

作为优选，步骤1中所述的词条，是一个单词或由多个单词组成的一个短语。

作为优选，步骤1中所述针对给定的地理区域，利用英文社交网络，构建该地理区域的地理兴趣点知识库；其具体实现包括以下子步骤：

步骤1.1：根据英文社交网络提供的API服务或者网页爬虫抓取用户位置签到信息，基于用户的个人资料收集来自特定地理区域的用户位置签到记录，生成关于特定地理区域的签到记录集合；

步骤1.2：根据步骤1.1生成的签到记录集合，基于正则表达式，抽取签到记录中的地理兴趣点名称，这些抽取到的地理兴趣点名称作为地理兴趣点的全称存储在地理兴趣点知识库中；

步骤1.3：根据步骤1.2抽取到的地理兴趣点全称，生成地理兴趣点部分名称，并存储在地理兴趣点知识库中。

作为优选，步骤1.3的具体实现过程为基于地理兴趣点全称，提取这个全称的所有长度不超过5个单词的子序列，在此过程中，英文停用词将作为产生子序列的分隔词，并且不会出现在子序列中，这些子序列将作为其地理兴趣点的部分名称存储在地理兴趣点知识库中。

作为优选，步骤2中所述的对来自该给定的地理区域的英文微博进行扫描匹配，在匹配地理兴趣点名称的过程中，优先选择更长的地理兴趣点名称以及位置靠前出现的名称。

作为优选，步骤3中所述的依据提取词汇特征、语法特征和BILOU模式标记特征，给定一条微博t，w_i表示微博中的第i个单词，x_i表示w_i的全小写形式，l表示微博中的某个候选地理兴趣点，具体词汇特征、语法特征和BILOU模式标记特征如下：

词汇特征：

A1：单词w_i和它的全小写形式x_i；

A2：单词w_i的外形，包括是否全部大写，是否首字符大写，是否全是数字字符以及是否全是字母数字符号；

A3：x_i的前缀和后缀，长度分别为1,2,3个字符；

A4：x_i首字符为大写的先验概率,x_i为全大写形式的先验概率，这两类先验概率是基于全局的英文微博来进行估计得到的，概率值是一个连续变量值，值域为[0,1]；

A5：x_i及其前后2个单词的上下文窗口的词袋x_i-2，x_i-1，x_i，x_i+1，x_x+2；

A6：x_i的前面两个单词词袋x_i-2，x_i-1；

A7：x_i的后面两个单词词袋x_i+1，x_i+2；

语法特征：

B1：词性标注，包括当前词w_i和其前后词w_i-1，w_i+1的词性标注；

B2：基于布朗聚类算法的单词聚类标号；3个基于不同路径长度的单词聚类标号被使用，分别是4,8,12个比特长度；

B3：计算微博t的时间趋势分值；本发明提供36个常用英文单词及其他们的时间趋势分值作为参考，称为时间趋势单词字典，记为时间趋势的分值为-1,0,1，分别代表过去、现在以及将来的时间趋势，依据时间趋势单词字典，计算微博t的时间趋势分值，值域为[-1,1]；完整的时间趋势单词字典如表格1所示：

表格1完整的时间趋势单词字典

单词	分值	单词	分值	单词	分值	单词	分值
								will	1	i'll	1	gonna	1	be	1
wanna	1	he'll	1	tomorrow	1	is	0
								would	1	she'll	1	tmr	1	isn't	0
should	1	they'll	1	future	1	i'm	0
								shall	1	it'll	1	later	1	am	0
won't	1	going	1	soon	1	amn't	0
								are	0	just	0	yesterday	-1	wasn't	-1
aren't	0	currently	0	last	-1	were	-1
								now	0	today	0	was	-1	weren't	-1

B4：对应微博t中的一个候选地理兴趣点l，离l最近的动词，动词的时态标签，动词与l的距离，以及动词出现在l的左边还是右边的二元标记；其中动词的时态标签基于其词性标注：过去分词和动词的过去式的标签为“pst”；第三人称单数，非第三人称单数以及动词基本形式的标签为“pre”；动名词和现在分词的标签为“prep”；动词与l的距离用11个二元特征值来表示，前10个特征值表示动词与l之间相隔的单词数量，最后一个特征值表明其距离等于或超过10个单词，动词出现在l的左边还是右边的二元标记为1时表示动词出现在l的左边，为0时表示其出现在右边；若微博中不含有动词单词，则所有特征值设置为“NULL”；

B5：对应微博t中的一个候选地理兴趣点l,确定微博中的能直接或者间接匹配到字典的单词，记为确定离l最近的出现在中的单词、单词的时间趋势分值、单词与l的距离、以及单词出现在l的左边还是右边的二元标记；与特征B4一样，单词与l的距离用11个二元特征值来表示，前10个特征值表示动词与l之间相隔的单词数量，最后一个特征值表明其距离等于或超过10个单词，单词出现在l的左边还是右边的二元标记为1时表示单词出现在l的左边，为0时表示其出现在右边；若微博t中没有单词出现在中，则所有特征值设置为“NULL”；

BILOU模式标记特征：

BILOU模式标记一个候选地理兴趣点的开头、中间和最后一个单词，以及长度为一个单词的候选地理兴趣点，微博中不出现在候选地理兴趣点部分的单词被标记为O；则单词w_i的BILOU模式标记特征有3个特征值，分别为w_i-1，w_i和w_i+1的BILOU模式标记。

作为优选，基于时间趋势单词字典，计算微博t的时间趋势分值的步骤如下：

步骤3.1：如果单词w∈t出现在时间趋势单词字典中，w的时间趋势分值为字典中设定的分值；

步骤3.2：如果单词w∈t不属于时间趋势单词字典,获取w的路径长度为12bits的布朗单词聚类结果，记为如果时间趋势单词字典和单词聚类结果的交集不为空,并且交集中的每个单词都在字典中对应相同的时间趋势分值,设置该时间趋势分值为单词w的时间趋势分值；微博t中所有基于步骤3.1和3.2设置了时间趋势分值的单词记为这些单词均是基于时间趋势单词字典直接或者间接匹配确定的；

步骤3.3：根据单词的词性标注,对微博中的所有动词设置时间趋势分值；过去分词和动词的过去时态的时间趋势分值为-1；第三人称单数，非第三人称单数，动名词，现在分词，动词基本形式的时间趋势分值为0；

步骤3.4：根据步骤3.1、3.2和3.3设置了时间趋势分值的单词，其微博的时间趋势分值为这些单词的时间趋势分值的平均值，数值在-1和1之间；如果没有单词被设置了时间趋势分值，微博的时间趋势分值为0。到此计算出来的微博时间趋势分值是个连续值,值域为[-1,1]。

作为优选，所述的步骤3中，在条件随机场模型训练阶段，训练集合的真实数据结果也按照BILOU模式进行标记。

依照本发明所提供自动确定英文微博中涉及的地理兴趣点以及其时间趋势的技术方法，可以基于精细度地理位置来进行个性化的服务和开展市场营销。由于地理兴趣点知识库的构建利用了位置社交网络，不需人工进行生成，而且三类特征信息具有普遍性，使本发明可以广泛应用于同类各种英文微博服务平台，具有广泛的实际意义和商业价值。

附图说明

图1：为本发明实施例的应用示意图。

图2：为本发明实施例的构建地理兴趣点知识库的流程图。

图3：为本发明实施例的候选地理兴趣点匹配的示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明要解决的核心问题是：针对事先确定的特定地理区域，及其来自该区域的用户，抽取这些用户英文微博中涉及到的地理兴趣点以及感知对应的时间趋势。

本发明主要有两个组件：地理兴趣点知识库和基于条件随机场模型的时间趋势地理兴趣点标记器。图1为本发明实施例的应用方案示意图，分为以下的过程：首先对一条英文微博进行扫描，确定其中包含的候选地理兴趣点；然后从微博中抽取词汇，语法和BILOU模式标记三类特征；基于三类特征，运用时间趋势地理兴趣点标记器，对微博中的候选地理兴趣点进行确定和感知其对应的时间趋势。以下结合附图和实施例，详细描述本发明技术方案。

本发明所采用的技术方案是：一种英文微博中地理兴趣点抽取和感知其时间趋势的方法，包括以下步骤：

步骤1：针对给定的地理区域，利用英文社交网络，构建该地理区域的地理兴趣点知识库，使其每一个知识库中的词条(是一个单词或由多个单词组成的一个短语)都可以对应于至少一个该地理区域的地理兴趣点；请见图2，构建该地理区域的地理兴趣点知识库，具体实现包括以下子步骤：

步骤1.1：根据英文社交网络提供的API服务或者网页爬虫抓取用户位置签到信息，基于用户的个人资料收集来自特定地理区域的用户位置签到记录，生成关于特定地理区域的签到记录集合；一条用户位置签到记录包含用户对某地理兴趣点的名称表述和一对位置坐标(比如经度和纬度值)。在位置社交网络中，用户往往会事先在个人信息里指定所在的城市或者是更具体的地理区域，比如用户指定邮政编码，指定某个城市里的某个特定区域或者街道等。根据用户指定的这些地理信息，过滤掉不属于特定地理区域的用户及其所有位置签到记录。将属于该地理区域的用户的所有位置签到记录作为签到记录集合。

步骤1.2：位置社交网络会对用户指定的地理兴趣点信息按照指定格式生成位置签到记录，因此，签到记录中的地理兴趣点具有特定的格式和位置。根据步骤1.1生成的签到记录集合，基于正则表达式，抽取签到记录中的地理兴趣点名称，这些抽取到的地理兴趣点名称作为地理兴趣点的全称存储在地理兴趣点知识库中；

例如：在位置社交网络Foursquare中，有两类位置签到记录，如表格2所示。

表格2两类位置签到记录

T1	I am at MacBukit Panjang Plaza
		T2	I’m at ITE College Central MacPherson Campus Main(201Circuit Road)
T3	Birthday dinner(AmbushJP w/2others)
		T4	Watching“Hello Stranger”(Golden Village Cinema9Plaza Singapura)

表格2中，前两条签到记录T1，T2反映了用户当前的位置；后两条签到记录T3，T4记录了用户在指定位置所进行的活动。具体抽取记录中的地理兴趣点名称时，编写对应的正则表达式。比如，对应于签到记录T1，我们可以抽取地理兴趣点名称“mac”和“bukitpanjang plaza”；对应签到记录T4，我们可以抽取地理兴趣点名称“goldenvillage cinema9”和“plaza singapura”。

步骤1.3：根据步骤1.2抽取到的地理兴趣点全称，生成地理兴趣点部分名称，并存储在地理兴趣点知识库中；具体实现过程为基于地理兴趣点全称，提取这个全称的所有长度不超过5个单词的子序列，在此过程中，英文停用词将作为产生子序列的分隔词，并且不会出现在子序列中，这些子序列将作为其地理兴趣点的部分名称存储在地理兴趣点知识库中。例如：从地理兴趣点全称“frolick at bukitbatok”，可以提取部分名称“frolick”，“bukit”，“batok”和“bukitbatok”。在这个实例中，停用词“at”起到了分隔词的作用。到此，基于某个特定地理区域的地理兴趣点知识库就构建完成。知识库中的每个词条可能来自位置社交网络签到记录中的地理兴趣点全称，也可以某个地理兴趣点全称的部分名称。我们在下面统称为地理兴趣点名称。

步骤2：根据步骤1构建的地理兴趣点知识库，对来自该给定的地理区域的英文微博进行扫描匹配，获取所有包含有地理兴趣点知识库中的地理兴趣点表述的微博，这些匹配到的地理兴趣点表述成为候选地理兴趣点，从这些微博中随机采样一定数量的微博，对采样微博中各个候选地理兴趣点进行人工消歧义标注，然后对其中真实的地理兴趣点人工进行时间趋势标记，最后生成训练集合；在匹配地理兴趣点名称的过程中，优先选择更长的地理兴趣点名称以及位置靠前出现的名称。

请见图3，是该匹配过程的示意图。因为地理兴趣点名称的歧义性，这些匹配到的名称称为候选地理兴趣点，在名称匹配过程中，更长的地理兴趣点名称将受到偏爱。比如：短语“popular bookstore”有三个匹配名称“popular”,“bookstore”和“popular bookstore”。此时，“popular bookstore”将作为最终的匹配结果返回。同样，在匹配过程中将考虑名称出现的位置次序。比如，在微博中有三个单词“xyz”分别匹配两个地理兴趣点名称“xy”和“yz”，那么第一个匹配“xy”将作为结果返回。

从这些包含候选地理兴趣点的微博中，随机采样一定数量的微博。然后对每条采样微博中的各个候选地理兴趣点人工进行消歧义。并且，人工地对于其中真实的地理兴趣点进行时间趋势标记，最后构成训练集合。

步骤3：根据步骤2生成的训练集合，对集合中的每条英文微博进行特征提取，基于训练集合，依据提取词汇特征、语法特征和BILOU模式标记特征，运用条件随机场模型(Linear-chain Conditional Random Field Model)，训练出英文微博的时间趋势地理兴趣点标记器；

给定一条微博t，w_i表示微博中的第i个单词，x_i表示w_i的全小写形式，l表示微博中的某个候选地理兴趣点，具体词汇特征、语法特征和BILOU模式标记特征如下：

词汇特征：

A1：单词w_i和它的全小写形式x_i；

A3：x_i的前缀和后缀，长度分别为1,2,3个字符；例如：对应单词“popular”，它的三个前缀特征为“p”,“po”和“pop”，三个后缀特征为“r”,“ar”和“lar”。

A4：x_i首字符为大写的先验概率,x_i为全大写形式的先验概率，这两类先验概率是基于全局的英文微博来进行估计得到的，概率值是一个连续变量值，值域为[0,1]；为此，在本发明中，运用大于开端值测试，以0.2为间隔把先验概率的值离散化成5个二元特征值；例如对应于概率0.57，它的离散化二元特征值为"1,1,1,0,0"。

A6：x_i的前面两个单词词袋x_i-2，x_i-1；

A7：x_i的后面两个单词词袋x_i+1，x_x+2；

语法特征：

B1：词性标注(Part-of-Speech Tag)，包括当前词w_i和其前后词w_i-1，w_i+1的词性标注；本发明不指定具体的词性标注工具，只要符合The Penn TreeBank词性标签集合均可以适用本发明；

B2：基于布朗聚类算法(Brown Clustering)的单词聚类标号；3个基于不同路径长度的单词聚类标号被使用，分别是4,8,12个比特长度；

表格1完整的时间趋势单词字典

基于时间趋势单词字典，计算微博t的时间趋势分值的步骤如下：

步骤3.3：根据单词的词性标注,对微博中的所有动词设置时间趋势分值；过去分词(past participle)和动词的过去时态(past tense)的时间趋势分值为-1；第三人称单数(3rdperson singular present)，非第三人称单数(non-3rd person singular present)，动名词(gerund)，现在分词(present participle)，动词基本形式(verb base)的时间趋势分值为0；例如对应于时间趋势分值0.5,那么它的离散化二元特征值为"1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0"。，

步骤3.4：根据步骤3.1、3.2和3.3设置了时间趋势分值的单词，其微博的时间趋势分值为这些单词的时间趋势分值的平均值，数值在-1和1之间；如果没有单词被设置了时间趋势分值，微博的时间趋势分值为0。到此计算出来的微博时间趋势分值是个连续值,值域为[-1,1]。在本发明中，运用大于开端值测试，以0.1为间隔把时间趋势分值离散化成20个二元特征值；

B4：对应微博t中的一个候选地理兴趣点l，离l最近的动词，动词的时态标签，动词与l的距离，以及动词出现在l的左边还是右边的二元标记；其中动词的时态标签基于其词性标注：过去分词和动词的过去式的标签为“pst”；第三人称单数，非第三人称单数以及动词基本形式的标签为“pre”；动名词和现在分词的标签为“prep”；动词与l的距离用11个二元特征值来表示，前10个特征值表示动词与l之间相隔的单词数量，最后一个特征值表明其距离等于或超过10个单词，例如：如果相隔的单词数量是6个，则11个二元特征值为“1,1,1,1,1,1,1,0,0,0,0”；如果相隔的单词数量是12个,则11个二元特征值为“1,1,1,1,1,1,1,1,1,1,1”。动词出现在l的左边还是右边的二元标记为1时表示动词出现在l的左边，为0时表示其出现在右边。如果微博中不含有动词单词，所有特征值设置为“NULL”。

例如，针对微博“get stuff to collect at popular at night.:<”里的候选地理兴趣点“popular”，它最近的动词为“collect”。那么这里针对“popular”的特征值为“collect,pre,1,0,0,0,0,0,0,0,0,0,0,1”。

例如，针对微博“soccer fever at mac now！”里的候选地理兴趣点“mac”，中离“mac”最近的单词为“now”，那么这里针对“mac”的特征值为“now,0,0,0,0,0,0,0,0,0,0,0,0,0”。

BILOU模式标记特征：

BILOU模式标记一个候选地理兴趣点的开头(Beginning)、中间(Inside)和最后(Last)一个单词，以及长度为一个单词(Unit-length)的候选地理兴趣点，微博中不出现在候选地理兴趣点部分的单词被标记为O(Outside)；则单词w_i的BILOU模式标记特征有3个特征值，分别为w_i-1，w_i和w_i+1的BILOU模式标记。

例如：微博“We’re all for Asian delights！Thai express today,suki sushi or sakuratmr”经过分词器分词之后，被BILOU模式标记为“We’re\O all\O for\O Asian\O delights\O！\OThai\B express\L today\O,\Osuki\B sushi\L or\O sakura\Utmr\O”。

那么单词w_i的BILOU模式标记特征有3个特征值，分别为w_i-1，w_i和w_i+1的BILOU模式标记。例如对应上面的微博例子，“bushi”的BILOU模式标记特征值为“B,L,O”。

以上根据提取的各类特征值，运用线性链式条件随机场模型，训练出微博的时间趋势的地理兴趣点标记器；条件随机场模型是序列标记技术，每个单词用一组特征值来表示，其输出也是每个单词对应一个标记，上述的三类特征值中，有些特征值是针对微博中每个单词来提取的，有些特征值是基于整个微博计算出来的，还有些特征值是基于某个候选地理兴趣点计算出来的，如果一个特征值是基于整个微博计算出来的(微博的时间趋势分值)，那么微博里的所有单词都具有其同样的特征值；如果一个特征值是基于一个候选地理兴趣点计算出来的，那么其候选地理兴趣点中的每个单词都具有同样的特征值，并且出现在候选地理兴趣点之外的单词的对应特征值设为“NA”。

在条件随机场模型训练阶段，训练集合的真实数据结果也按照BILOU模式进行标记，由于本发明中地理兴趣点的时间趋势有三个类别，利用BILOU模式进行标记时要指定时间趋势的类别：“p”,“z”和“f”分别代表已经访问，正在访问和即将访问该地理兴趣点三个类别。例如：“We’re all for Asian delights！Thai express today,suki sushi or sakuratmr”作为训练集合中的微博，包含的地理兴趣点为“thai express”，“suki sushi”和“sakura”，并且他们的时间趋势类别分别为“z”,“f”和“f”。经过分词器分词之后，其真实数据结果的BILOU模式标记为“We’re\O all\O for\O Asian\O delights\O！\O Thai\B_z express\L_ztoday\O,\Osuki\B_f sushi\L_for\O sakura\U_ftmr\O”。

根据步骤2生成的训练集合，以及基于以上叙述的所有特征值和真实数据结果的BILOU模式标记特征，运用线性链式条件随机场模型，训练出英文微博的时间趋势地理兴趣点标记器。

在标记器训练阶段，本发明需要利用少量人工标记信息生成时间趋势的地理兴趣点标记器。在实际应用中，本发明可以根据半监督学习概念，基于标记器的预测结果，对标记器进行更新，提高标记器的性能。本发明可以并行的对大数据量英文微博进行地理兴趣点的抽取和感知时间趋势，不需人工干预，因此本发明特别适合运用于基于微博大数据的地理位置的个性化服务和市场营销，以及其他的各种应用。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：步骤1中所述的词条，是一个单词或由多个单词组成的一个短语。

3.根据权利要求1或2所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：步骤1中所述针对给定的地理区域，利用英文社交网络，构建该地理区域的地理兴趣点知识库；其具体实现包括以下子步骤：

4.根据权利要求3所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：步骤1.3的具体实现过程为基于地理兴趣点全称，提取这个全称的所有长度不超过5个单词的子序列，在此过程中，英文停用词将作为产生子序列的分隔词，并且不会出现在子序列中，这些子序列将作为其地理兴趣点的部分名称存储在地理兴趣点知识库中。

5.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：步骤2中所述的对来自该给定的地理区域的英文微博进行扫描匹配，在匹配地理兴趣点名称的过程中，优先选择更长的地理兴趣点名称以及位置靠前出现的名称。

6.根据权利要求1所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：步骤3中所述的依据提取词汇特征、语法特征和BILOU模式标记特征，给定一条微博t，w_i表示微博中的第i个单词，x_i表示w_i的全小写形式，l表示微博中的某个候选地理兴趣点，具体词汇特征、语法特征和BILOU模式标记特征如下：

词汇特征：

A1：单词w_i和它的全小写形式x_i；

A3：x_i的前缀和后缀，长度分别为1,2,3个字符；

A6：x_i的前面两个单词词袋x_i-2，x_i-1；

A7：x_i的后面两个单词词袋x_i+1，x_i+2；

语法特征：

B3：计算微博t的时间趋势分值；本发明提供36个常用英文单词及其他们的时间趋势分值作为参考，称为时间趋势单词字典，记为，时间趋势的分值为-1,0,1，分别代表过去、现在以及将来的时间趋势，依据时间趋势单词字典，计算微博t的时间趋势分值，值域为[-1,1]；完整的时间趋势单词字典如表格1所示：

表格1完整的时间趋势单词字典

单词分值单词分值单词分值单词分值 will 1 i'll 1 gonna 1 be 1 wanna 1 he'll 1 tomorrow 1 is 0 would 1 she'll 1 tmr 1 isn't 0 should 1 they'll 1 future 1 i'm 0 shall 1 it'll 1 later 1 am 0 won't 1 going 1 soon 1 amn't 0 are 0 just 0 yesterday -1 wasn't -1 aren't 0 currently 0 last -1 were -1 now 0 today 0 was -1 weren't -1

BILOU模式标记特征：

BILOU模式标记一个候选地理兴趣点的开头、中间和最后一个单词，以及长度为一个单词的候选地理兴趣点，微博中不出现在候选地理兴趣点部分的单词被标记为O；一个单词w_i的BILOU模式标记特征有3个特征值，分别为w_i-1，w_i和w_i+1的BILOU模式标记。

7.根据权利要求6所述的抽取英文微博中地理兴趣点和感知其时间趋势的信息获取方法，

其特征在于：基于时间趋势单词字典，计算微博t的时间趋势分值的步骤如下：

步骤3.2：如果单词w∈t不属于时间趋势单词字典,获取w的路径长度为12个比特的布朗单词聚类结果，记为如果时间趋势单词字典和单词聚类结果的交集不为空,并且交集中的每个单词都在字典中对应相同的时间趋势分值,设置该时间趋势分值为单词w的时间趋势分值；微博t中所有基于步骤3.1和3.2设置了时间趋势分值的单词记为这些单词均是基于时间趋势单词字典直接或者间接匹配确定的；

8.根据权利要求6所述的英文微博中地理兴趣点抽取和感知其时间趋势的方法，其特征在于：所述的步骤3中，在条件随机场模型训练阶段，训练集合的真实数据结果也按照BILOU模式进行标记。