CN105069071A

CN105069071A - 微博数据的地理位置信息提取方法

Info

Publication number: CN105069071A
Application number: CN201510458951.8A
Authority: CN
Inventors: 李国良; 冯建华; 胡骏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2015-11-18

Abstract

本发明公开了一种微博数据的地理位置信息提取方法，整合并分析了用户的多条微博信息，并利用这些信息来鉴定用户的地理位置。首先，把大量的POI和已有的地理位置知识库组织成一个树状的结构，利用这个树状结构，从用户的每一条微博中抽取出地理位置信息，并找到在树上的相应候选节点。然后，将这些候选节点进行聚集分析，鉴定出用户最有可能出现的top-k个位置。再利用这top-k的地理信息，改进原来的候选节点，并计算出每一条微博的top-k个地理位置信息。本发明具有如下优点：在博主的微博信息抽取地理位置信息，将地理位置信息与分层次的行政区划信息进行对比，根据对比结果，针对性的为博主提供广告服务。

Description

微博数据的地理位置信息提取方法

技术领域

本发明属于信息检索技术领域，具体涉及一种微博数据的地理位置信息提取方法。

背景技术

随着社交网络的发展，社交用户产生的数据也在以惊人的速度增多。例如，Twitter有1亿4千万的活跃用户，他们每天可以产生大约4亿的微博。Foursquare有两千五百万的用户和30亿的check-in。大量的应用都可以从这些用户产生的数据中受益。特别地，根据社交用户的微博去鉴定用户的地理位置信息，可以使得更高效地进行广告的投放和推荐。比如，某一个用户的微博中出现了“OlympiaTheater，BroadwayManhattan”，广告商就可以在用户发出这条微博后快速地向他发送相关的广告。更加重要的是，如果我们基于用户发送的所有微博推测出他所有感兴趣的地点，比如“Manhattan”，我们就可以提供位置相关的推荐，比如新闻、产品、餐馆等。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种微博数据的地理位置信息提取方法。

为了实现上述目的，本发明的实施例公开了一种微博数据的地理位置信息提取方法，包括以下步骤：S1：获取地理位置信息集合和微博数据文本集合，其中，所述地理位置信息集合中的地理位置按照行政区域逐级划分形成地理位置信息树，将每条微博与博主一一对应的存储在所述微博数据文本集合上；S2：从所述微博数据文本集合中的每条微博中抽取位置信息与所述地理位置信息树中的节点进行比较，如果抽取的位置信息与所述地理位置信息树中的某个节点的位置信息相同，将抽取的信息作为精确匹配节点，将所述精确匹配点和所述位置信息对应的加入到候选集合中，如果收取的位置信息与所述地理位置信息树中的某个节点的位置信息不同，则进行相似性匹配，从所述地理位置信息树找到匹配程度最高的节点作为模糊匹配节点，将所述模糊匹配节点和所述位置信息对应的加入到所述候选集合中；S3：将所述候选集合进行聚合，推测在所述地理位置信息树同一层级第一预设值数量的地理位置，推测在所述地理位置信息树不同层级第一预设值数量的地理位置；S4：对聚合后的所述候选集合进行信息提纯，得到精确的所述第一预设值数量的地理位置。

根据本发明实施例的微博数据的地理位置信息提取方法，在博主的微博信息抽取地理位置信息，将地理位置信息与分层次的行政区划信息进行对比，根据对比结果，针对性的为博主提供广告服务。

另外，根据本发明上述实施例的微博数据的地理位置信息提取方法，还可以具有如下附加的技术特征：

进一步地，还包括步骤：S5：当所述博主的微博内容更新或所述地理位置信息树的节点更新时，将更新的内容相应的加入到所述微博数据文本集合或所述地理位置信息树，并根据更新后的所述微博数据文本集合和更新后所述地理位置信息树重新计算所述第一预设值数量的地理位置。

进一步地，所述步骤S1进一步包括：S11：对所述地理位置信息树从上往下给每一个节点赋了一个Dewey码，其中根节点的Dewey码是1，对于每一个节点，不断地把父亲节点的Dewey码附加在自己的Dewey码后面得到最后一串Dewey码，比较两个节点n_i，n_j的Dewey码，如果n_i的Dewey码是n_j的Dewey码的子串，那么n_i就是n_j的祖先，其中i和j均为自然数；S12：建立倒排索引，对于地理位置，由于同名的情况，可以对应到所述地理位置信息树上的多个Dewey码，建立倒排索引；S13：每一条数据包含微博的文本和发送微博的博主对应存储，每个博主对应多条微博文本。

进一步地，所述步骤S2进一步包括：S211：定义精确匹配和所述精确匹配节点：从所述微博数据文本集合选取一条微博和所述地理位置信息树进行比较，如果所述地位位置信息树的某个节点和所述微博的所述子串精确匹配，定义所述地理位置为精确匹配实体，定义所述节点为所述精确匹配节点；S212：定义相似性：从所述微博数据文本集合选取一条微博m，用E(m)表示所述精确匹配实体的集合，给定一个候选的位置节点n，用E(n)来表示从根节点到所述节点n之间的所有位置节点，在E(m)和E(n)之间利用第一相似性函数，计算出微博m和节点n之间的相似性，具体定义如下：其中|E(m)∩E(n)|是两个集合的交集，|E(m)∪E(n)|是两个集合E(m)的并集；S213：找到精确匹配节点：对于每一个地位位置e，利用所述倒排列表枚举所述微博的子串，对于每一个所述子串，检测是否出现在所述倒排索引里，如果出现在所述倒排列表中，取出所述倒排索引对应的节点，所述节点为候选的所述精确匹配节点，根据所述第一相似性函数计算出第一相似值，将所述第一相似值和所述精确匹配节点对应存储在所述候选集合中；S221：定义模糊匹配和所述模糊匹配节点：从所述微博数据文本集合选取一条微博，给定第二相似性函数和阈值，如果所述地理位置信息树中的某个节点和所述微博的一个子串之间根据所述第二相似函数计算出的相似值不大于所述阈值，把所述地理位置定义为模糊匹配实体，在所述地理位置信息树中，把所有标记为模糊匹配实体对应的节点定义为所述模糊匹配节点；S222：定义相似性：首先定义标准化之后的编辑距离，表示为读取所述微博的子串，所述微博的子串可能和多个地理位置相似，给定一个地理位置，所述地理位置也可能有多个相似的子串，保留最相似的一个，用E′(m)来表示所有<s，e>的集合，其中s是一个子串，e是一个位置实体，并且满足不存在以下情况：有一对<s，e′>，使得EDS(s，e′)＞EDS(s，e)，有一对<s′，e>，使得EDS(s′，e)＞EDS(s，e)，得到所述E′(m)后，用所述第二相似性函数衡量所述微博m和所述位置节点n之间的相似性：其中表示E′(m)和E(n)在位置实体e上面的连接，π_e(E′(m))是E′(m)在位置实体上的投影；S223：找到模糊匹配的节点：把相似性进行转换可以得到，两个地理位置是相似的等价于它们的编辑距离不大于所述阈值τ，把每个地理位置分成了τ+1个片段，基于鸽巢原理，如果所述微博中的一个子串和一个所述位置实体相似，所述子串包含所述分割后的片段之中的一个，根据所述倒排索引，对于给定一个微博，枚举所述微博的子串，检查所述微博的子串是否出现在所述倒排索引中，如果有一个子串出现在所述倒排索引之中，检查所述倒排索引中每个地理位置是否和所述子串相似得到第二相似值，如果相似，把所述地理位置对应的模糊匹配节点和相似值加入到所述候选集合。

进一步地，所述步骤S3进一步包括：S31：把用户发的微博集合，记为M＝{m₁，m₂，...，m_|M|}，每一条微博m_i有一个候选位置的集合，其中包括了所述精确匹配和所述模糊匹配的位置节点，把这个集合记为N(m_i)，所述N(m_i)中的每一个候选的位置都和m_i有所述第一相似值和所述第二相似值；S32：推测用户在同一层级的所述第一预设值数量的地理位置：s321：定义覆盖值：一个节点的覆盖值指的是所有它覆盖的微博的相似值的总和，定义如下：C(n)＝∑_1≤i≤|M|C(n，m_i)，其中C(n，m_i)是指所述节点n对微博m_i的覆盖，表示所述节点n下面最大的相似值其中D(n)表示n的后代，N(m_i)是m_i的候选位置合集，其中J是J_e函数；s322：定义第一N_best集合：找到一个所述第一预设值数量的节点的集合记为N_best，它有整体最大的覆盖值，所述第一N_best如下定义：第一

N_{b e s t} = {argmax}_{N_{k}} Σ_{1 \leq i \leq | M |} \underset{n &Element; N_{k}}{m a x} C (n, m_{i})

其中N_k是给定层中任意的k个节点的集合；S323：找到所述N_best集合：利用贪心的算法，具体按照如下规则迭代地选择节点：找到覆盖值最大的节点n；从剩下的微博里面找到覆盖值最大的下一个节点；使用了区间最值查询算法RMQ来计算C(n，m_i)；进行迭代，得到所述第一预设值数数量的节点；S33：推测不同层次的top-k位置：S331：定义概率给定一个节点n和它的子节点集合，记为CHILD(n)＝{c₁，c₂，...，c_|n|}，概率表示选择把子节点c_i作为top-k地点的概率，定义为：S332：定义信息熵H(n)：所述节点n的信息熵定义如下：其中|n|表示所述节点n的孩子节点的数量；S333：定义信息熵的界：给定节点n，当每一个孩子节点有相同的概率时，所述节点n的信息熵达到最大值，记为H_max，计算方式如下：

H_{m a x} = - Σ_{i = 1}^{i = | n |} \frac{1}{n} \cdot l n \frac{1}{n} = | n | \cdot \frac{1}{n} \cdot l n | n | = l n | n |,

给定一个阈值系数ε，得到信息熵的界如果所述节点n的信息熵比所述界大，选择所述节点n选择所述第一预设值数量的地理位置，如果所述节点n的信息熵比所述界小，检查所述节点n的孩子节点选择所述第一预设值数量的地理位置；S334：定义第二N_best集合：在所述信息熵H(n)的限制下，从不同层次的地点中选出所述第一预设值数量的地理位置，使得覆盖值达到最大，所述第二N_best如下定义：第二

N_{b e s t} = {argmax}_{N_{k}} Σ_{1 \leq i \leq | M |} \underset{n &Element; N_{k}}{m a x} C (n, m_{i}),

并且其中对于每一个节点n∈N_k，都满足H(n)＞B；S335：找到第二N_best集合，利用了一种优先最佳的贪心算法，具体如下：S3351：检查根节点，计算所述根节点的覆盖值和信息熵，并把所述根节点加入到一个优先队列中；S3352：弹出优先队列中覆盖值最大的节点：如果所述优先队列的节点的信息熵的值大于所述界值，把所述节点加入到结果集合R_u中，如果结果所述集合R_u中已经有了第一预设值数量的地理位置，结束算法，如果所述节点的信息熵不大于所述界值，考查所述节点的孩子节点，计算所述孩子节点的覆盖值并把所述孩子节点插入到所述优先队列中去；S3353：重复步骤S3352，直到我们找到了所述第一预设值数量的节点，作为不同层次的所述第一预设值数量的地理位置。

进一步地，所述步骤S4进一步包括：S41：对于用户发送的每一条微博m_i，枚举N(m_i)中的每一个候选的位置，对于每一个候选的位置信息，检查在所述集合R_u中是否存在一个位置是所述候选位置的祖先，如果是，对于精确匹配，把所述候选位置实体加入到所述E(m_i)中；对于模糊匹配，把<e，e>加入到E′(m_i)中，其中e是地理位置；如果不是，重新计算所述候选位置和微博之间的相似性，具体如下：对于精确匹配，利用和更新后的E(m_i)来计算微博m_i和候选位置之间的相似性；对于模糊匹配，利用和更新后的E′(m_i)来计算微博m_i和每一个候选位置之间的相似性；基于每一个候选节点优化后的相似性，选择所述第一预设值数量的相似性最大的候选节点作为所述微博的所述第一预设值数量的地理位置；S42：剪枝候选节点：给定一条微博m_i，根据和所述微博m_i的相似性降序排列候选节点，并按照此顺序访问候选降序排列后的节点，选取所属第一预设值数量的节点的相似性作为下界τ，对于每一个候选位置n：对于精确匹配，如果所述候选位置n的相似性小于或对于模糊匹配，如果原来的相似性小于则停止算法；否则，检查用户是否存在一个位置是所述候选位置的祖先，如果存在，重新计算相似性并更新下界；进行迭代，计算所述第一预设值数量的地理位置。

进一步地，所述步骤S5进一步包括：S51：微博的动态更新：设定用户已经发布了一个微博的集合M，又发布了一个新的集合Δ_M，包括如下步骤：S511：利用所述集合M推测用户的地理位置时，维护一个位置信息的子树，所述子树的根和所述地理位置信息树的根一致，有第一预设值数量的孩子节点；S512：加入所述子树的索引结构：对于精确匹配，给每一个用户所在子树维护一个哈希表，给每一条微博从所述子树中抽取出地理位置；S513：利用所述树的索引结构，对于所述集合Δ_M中的每一条微博，从所述子树上找到地理位置，利用所述地理位置找到候选的位置；S52：对所述地理位置信息树树形结构的进行动态更新。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于位置的层次树形结构示意图；

图2是本发明一个实施例的微博信息存储的示意图；

图3是本发明一个实施例的POI信息存储的示意图；

图4是本发明一个实施例的倒排索引的示意图；

图5是本发明一个实施例的分段索引的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述根据本发明实施例的微博数据的地理位置信息提取方法。

依次含有以下几个步骤：

步骤(1.)：数据整理。需要整理两个部分的数据，一个是地理位置信息的数据，一个是微博文本数据。其中地理位置的数据需要从一个地理位置相关的知识库上获取，比如Yago等，获取各个层次的位置信息，以美国的行政划分举例：国家、州、城市、区域、街道和POI点。微博文本的数据则要从社交网络或者一些旅游签到网站上面来获取，比如美国的Twitter、Foursquare，和中国的新浪微博、街旁等。

步骤(1.1.)：整理地理位置的数据。在获取了各个层次的位置信息以后，把每一个POI分段成国家、州、城市、区域、街道，其中的每一段叫做位置实体。就可以利用这些位置实体建立出一个如图1的带有层次位置信息的树形结构，树上的每一个节点都可以用位置实体来标记，如下：

1.第一层也就是根节点，代表全局的区域，可以用一个空的实体来标记。

2.第二层包含了代表各个国家的位置实体。

3.第三层包含了各个代表州(在中国是省)的位置实体。

4.第四层包含了代表了各个城市的位置实体。

5.第五层包含了代表各个区域的位置实体。

6.第六层是一些街道的位置实体。

7.第七层则是包含了具体的POI，作为叶子节点。

步骤(1.1.1.)：从上往下给每一个节点赋了一个Dewey码，其中根节点的Dewey码是1。对于每一个节点，可以这样得到它的Dewey码，不断地把父亲节点的Dewey码附加在自己的Dewey码后面得到最后一串Dewey码就可以了。比较两个节点n_i，n_j的Dewey码，如果n_i的Dewey码是n_j的Dewey码的子串，那么n_i就是n_j的祖先。

步骤(1.1.2.)：建立倒排索引。对于每一个位置实体，由于同名的情况，可以对应到树形结构上的多个地方，也就可以对应到多个Dewey码，建立好相应的索引，倒排索引结构参见图4。

步骤(1.2.)：整理微博文本数据。每一条数据包含微博的文本和发这条微博的用户。一个用户对应多条微博文本。

步骤(2.)：抽取信息。在这一步中，对于每一条微博，把和它们精确匹配或者模糊匹配的节点找到，作为候选的位置信息。

步骤(2.1.1.)：定义精确匹配和精确匹配节点。给定一条微博和一个基于位置信息的树形结构，如果一个位置实体可以和这一条微博的子串精确匹配，我们就把它叫做精确匹配实体。如果一个节点的位置信息是一个精确匹配实体，就把这样的节点叫做精确匹配节点。

步骤(2.1.2.)：定义相似性。用一种相似函数来衡量一个候选位置和一条微博之间的相似性。给定一条微博m，用E(m)来表示精确匹配实体的集合。给定一个候选的位置节点n，用E(n)来表示从根节点到节点n之间的所有位置节点。可以在E(m)和E(n)之间利用一种合适的相似性函数，计算出微博m和节点n之间的相似性。这里采用了Jaccard系数来举例，定义如下：其中|E(m)∩E(n)|是两个集合的交集，|E(m)∪E(n)|是两个集合E(m)的并集。可以方便地扩展来支持其他的相似函数，比如改成余弦相似或是带权重的Jaccard相似。

步骤(2.1.3.)：找到精确匹配节点。对于每一个位置实体e，利用步骤(1.1.2.)的倒排列表。枚举微博的子串，对于每一个子串，我们检测它是否出现在我们的倒排索引里面。如果出现了，就把倒排索引对应的节点都拿出来，这些节点就成了候选的精确匹配节点。利用步骤(2.1.2.)中的相似函数计算出相似值，和节点一起放入候选集合。

步骤(2.2.1.)：定义模糊匹配和模糊匹配节点。给定一个微博，一个基于位置的树形结构，一个相似函数和一个阈值，如果一个位置实体和微博的一个子串之间根据相似函数计算出的相似值不比阈值小的话，我们把这个位置实体叫做模糊匹配实体。在树形结构中，把所有标记着模糊匹配实体的节点叫做模糊匹配节点。

步骤(2.2.2.)：定义相似性。首先定义标准化之后的编辑距离，表示为

E D S (e_{1}, e_{2}) = 1 - \frac{E D (e_{1}, e_{2})}{m a x (| e_{1} |, | e_{2} |)}

。给定一个微博的子串，它可能和多个位置实体相似，同时，给定一个位置实体，它也可能有多个相似的子串，保留最相似的一个。用E′(m)来表示所有<s，e>的集合，其中s是一个子串，e是一个位置实体，并且满足不存在这样的情况：

(1)有一对<s，e′>，使得EDS(s，e′)＞EDS(s，e)

(2)有一对<s′，e>，使得EDS(s′，e)＞EDS(s，e)

得到E′(m)后，用下面的函数来衡量一条微博m和一个位置n之间的相似性：其中表示E′(m)和E(n)在位置实体e上面的连接，π_e(E′(m))是E′(m)在位置实体上的投影。

步骤(2.2.3.)：找到模糊匹配的节点。把相似性进行转换可以得到，两个实体是相似的等价于它们的编辑距离不大于一个阈值τ。把每一个实体分成了τ+1个片段。基于鸽巢原理，如果微博中的一个子串和一个位置实体相似，那么这个子串一定包含前面分割的片段之中的一个，于是就可以把这个模糊匹配问题转换为步骤(2.1.3)中的精确匹配。利用基于分段的倒排索引，对于给定一个微博，我们枚举它的子串，检查它们是否出现在倒排索引中。如果有一个子串出现在倒排索引之中，检查其中每一个实体是不是和这个子串相似。如果相似，把实体对应的模糊匹配节点和相似值加入到候选集合。

步骤(3.)：聚合信息。步骤(2.)中已经得到了候选的集合，这一步要将这些位置信息聚合。包括推测用户在同一层级的top-k个地理位置(比如都在城市，或都在区域的级别)，以及推测他在不同层级的top-k个地理位置。

步骤(3.1.)：把用户发的微博集合，记为M＝{m₁，m₂，...，m_|M|}。每一条微博m_i有一个候选位置的集合，其中包括了精确匹配和模糊匹配的位置节点，把这个集合记为N(m_i)。N(m_i)中的每一个候选的位置都和m_i有相似值，由前面的步骤(2.1.3.)和步骤(2.2.3.)计算得到。

步骤(3.2.)：推测用户在同一层级的top-k个地理位置：

步骤(3.2.1.)：定义覆盖值。一个节点的覆盖值指的是所有它覆盖的微博的相似值的总和，定义如下：C(n)＝∑_1≤i≤|M|C(n，m_i)，其中C(n，m_i)是指一个节点n对微博m_i的覆盖，表示节点n下面最大的相似值其中D(n)表示n的后代，N(m_i)是m_i的候选位置合集，其中J是J_e函数(对于精确抽取)或者J_f函数(对于模糊抽取)。

步骤(3.2.2.)：定义N_best集合。找到一个k个节点的集合记为N_best，它有整体最大的覆盖值，就可以找到同一个层级的top-k个位置，N_best如下定义：

N_{b e s t} = \underset{N_{k}}{argmax} \underset{1 \leq i \leq | M |}{Σ} \underset{n &Element; N_{k}}{m a x} C (n, m_{i})

。其中N_k是给定层中任意的k个节点的集合。

步骤(3.2.3.)：找到N_best集合。要在同一个层级找到N_best是个NP难问题，这里利用了一个贪心的算法。按照如下规则迭代地选择节点，首先，找到覆盖值最大的节点n。然后，从剩下的微博里面找到覆盖值最大的下一个节点(这个微博没有被前面的第一个节点覆盖)。为了快速高效地计算出覆盖值C(n)，使用了区间最值查询算法(RMQ)来计算C(n，m_i)。迭代下去，可以选择到top-k个节点。

步骤(3.3.)：推测不同层次的top-k位置：

步骤(3.3.1.)：定义概率给定一个节点n和它的子节点集合，记为CHILD(n)＝{c₁，c₂，...，c_|n|}，概率表示选择把子节点c_i作为top-k地点的概率，定义为：

p_{c_{i}} = \frac{C (c_{i})}{Σ_{c_{j} &Element; C H I L D (n)} C (c_{j})} .

步骤(3.3.2.)：定义信息熵H(n)。节点n的信息熵定义如下：其中|n|表示节点n的孩子节点的数量。

步骤(3.3.3.)：定义信息熵的界。给定节点n，当每一个孩子节点有相同的概率时，节点n的信息熵达到最大值，我们把它记为H_max，计算方式如下：

H_{m a x} = - Σ_{i = 1}^{i = | n |} \frac{1}{n} \cdot l n \frac{1}{n} = | n | \cdot \frac{1}{n} \cdot l n | n | = l n | n | .

给定一个阈值系数ε，可以得到信息熵的界如果节点n的信息熵要比这个界大，选择这个节点作为top-k的地点。相反的，如果节点n的信息熵要比这个界小，就检查节点n的孩子节点来选择top-k的地点信息。

步骤(3.3.4.)：定义N_best集合。在信息熵的限制下，从不同层次的地点中选出top-k的地点，使得覆盖值达到最大，也就是：

N_{b e s t} = {argmax}_{N_{k}} Σ_{1 \leq i \leq | M |} \underset{n &Element; N_{k}}{m a x} C (n, m_{i}),

并且其中对于每一个节点n∈N_k，都满足H(n)＞B。

步骤(3.3.5.)：找到N_best集合。在上面的限制条件下，要在不同一个层级找到N_best是个NP难问题，这里利用了一种“优先最佳”的贪心算法：

步骤(3.3.5.1.)：检查根节点，计算它的覆盖值和信息熵，并把它加入到一个优先队列中。

步骤(3.3.5.2.)：弹出优先队列中覆盖值最大的节点。如果这个点的信息熵的值大于界值，那我们就把这个节点加入到结果集合R_u中去。此时如果结果集合R_u中已经有了k个地点，结束算法。相反地，如果这个节点的信息熵不比界大，就考查它的孩子节点，计算它们的覆盖值并把它们插入到优先队列中去。

步骤(3.3.5.3.)：重复步骤(3.3.5.2.)，不断迭代下去，一直到我们找到了k个节点，作为不同层次的top-k个位置。

步骤(4.)：信息提纯。利用步骤(3.)的聚合结果，进一步提纯。

步骤(4.1.)：对于用户发送的每一条微博m_i，我们枚举N(m_i)中的每一个候选的位置。对于每一个候选的位置信息，我们检查是不是在结果集合R_u中有一个位置是这个候选位置的祖先。

步骤(4.1.1)：如果是的话：

步骤(4.1.1.1.)：对于精确匹配，把这个位置实体加入到E(m_i)中；

步骤(4.1.1.2.)：对于模糊匹配，把<e，e>加入到E′(m_i)中，其中e是位置实体。

步骤(4.1.2.)：重新计算候选位置和微博之间的相似性如下：

步骤(4.1.2.1.)：对于精确匹配，利用步骤(2.1.2.)中的等式：和更新后的E(m_i)来计算微博m_i和候选位置之间的相似性。

步骤(4.1.2.2.)：对于模糊匹配，利用步骤(2.2.2.)中的等式：和更新后的E′(m_i)来计算微博m_i和每一个候选位置之间的相似性。

步骤(4.1.3.)：基于每一个候选节点优化后的相似性，选择k个相似性最大的候选节点来作为这条微博的top-k个位置。

步骤(4.2.)：剪枝候选节点。由于候选位置的数量很多，枚举每一个候选位置和每个用户的位置效率十分低下，这里利用一种高效的优化算法。给定一条微博m_i，首先根据和微博m_i的相似性降序排列候选节点，并按照此顺序访问候选节点，把排在第k个节点的相似性作为下界τ。对于每一个候选位置n：

步骤(4.2.1.)：对于精确匹配，如果它原来的相似性小于对于模糊匹配，如果原来的相似性小于则停止算法了。

步骤(4.2.2.)：否则继续算法，检查用户是否存在一个位置是这个候选位置的祖先。如果存在，重新计算相似性并更新下界。

步骤(4.2.3.)：一直迭代下去，可以计算出top-k的位置。

步骤(5.)：支持更新。包括了微博的动态更新和基于地理信息的树形结构的更新。

步骤(5.1.)：微博的动态更新。一个用户已经发布了一个微博的集合M，现在又发布了一个新的集合Δ_M。要推测出用户基于M+Δ_M条微博的top-k个位置，以及Δ_M中每条微博的top-k个位置。利用一个增量式的算法：

步骤(5.1.1.)：利用集合M来推测用户的位置时，维护一个位置信息的子树。子树的根和原来的树形结构的根一致，有k个孩子节点，是从微博集合M计算得到的top-k个国家。对于每一个国家，有top-k个孩子节点是州，也是从微博集合M得来的。类似地，把top-k的城市和区域也都加入到子树中。对于每一个节点n，保留它的覆盖值C(n)和信息熵H(n)。由于这个子树最多只有5层，所以规模非常小。

步骤(5.1.2.)：加入子树的索引结构。对于精确匹配，给每一个用户top-k的国家维护一个哈希表。然后，给每一条微博从这top-k的国家中抽取出位置。基于区域性，一个用户的部分微博往往会坐落在一些区域，可以利用这个性质提高效率。

步骤(5.1.3.)：利用步骤(5.1.2.)中子树的索引结构。对于每一条Δ_M中的微博，从子树上找到实体，利用它们来找到候选的位置；如果子树上面不存在，就用之前提出的方法在完整的树种找到位置实体。

步骤(5.2.)：树形结构的动态更新。

步骤(5.2.1.)：当位置的等级和POI更新之后，需要更新这个基于位置信息的树形结构，和精确匹配中需要用到的倒排列表，以及模糊匹配中用到的分段倒排列表。

步骤(5.2.1.1.)：如果一个POI是新插入的，则从根节点开始，把POI从上往下加入到树形结构中。

步骤(5.2.1.2.)：如果这样的更新带入了新的节点，则要给这个节点分配相应的Dewey码。

步骤(5.2.1.3.)：如果有新的位置实体加入进来，则要把它们加入到倒排列表中，如果是模糊匹配，添加到分段索引中，分段索引的结果参见图5。

实施例：

首先，在有了地理位置信息以后，需要建立一个树形结构来表示，如图1所示。其中叶子节点是具体的POI(pointsofinterest)。由叶子节点往上，依次是街道、区域、城市、州、国家。下一步将这个树进行Dewey编码。

请参考图1至图3。图1展现出了由POI所建立起来的基于位置信息的树形结构(这个图中我们只展现了“California”及一下的子树)。考虑图3中POI中p₃的位置“SunsetBlvd，Hollywood，LosAngeles，California”，将其分成几个位置实体如下：“California”，“LosAngeles”，“Hollywood”，“SunsetBlvd”。它们对应的Dewey码分别是1，1.1，1.1.1和1.1.1.2。其中节点1.1是节点1.1.1.2的祖先。节点1.1.1代表的地址是“Hollywood，LosAngeles，California”。

在抽取的匹配过程中，利用精确匹配和模糊匹配找到候选节点。

对于精确匹配：考虑微博m₃＝“IwasabletogetatouratFilmSchool，Sunsetblvd”，其中“FilmSchool”和“Sunsetblvd”是两个精确匹配实体，即E(m₃)＝{FilmSchool，Sunsetblvd}。从它们的倒排列表中，找到树上精确匹配的节点1.1.1.2.2，1.1.2.2.2，1.1.1.2和1.2.3.2。考虑“FilmSchool”，在倒排列表中的精确匹配节点有{1.1.1.2.2，1.1.2.2.2}。E(1.1.1.2.2)＝{FilmSchool，SunsetBlvd，Hollywood，LosAngeles，California}，得到E(1.1.2.2.2)＝{FilmSchool，Prospst，EastLA，LosAngeles，California}，这样，节点1.1.1.2.2比节点1.1.2.2.2更相关于微博m3。类似地，对于“Sunsetblvd”的倒排列表中的节点1.1.1.2和节点1.2.3.2，计算可以得到和

J_{e} (m_{3}, 1.2.3.2) = \frac{1}{5} .

对于模糊匹配：考虑微博m₁₂，如果使用精确匹配，不能抽取出所有的候选节点。如果使用基于模糊匹配的方法，“FilmSchool”可以和“FilmSchool”模糊匹配，“Sunsatblvd”可以和“Sunsetblvd”模糊匹配。这样，通过基于模糊匹配的方法，可以从这条微博中找到两个模糊匹配实体。从它们的倒排索引中，可以获得四个模糊匹配节点：1.1.1.2，1.1.1.2.2，1.1.2.2.2，1.2.3.2。在计算相似性时，E′(m₁₂)＝{<FilmSchool，filmSchool>，<Sunsatblvd，Sunsetblvd>}。E(1.1.1.2.2)＝{FilmSchool，SunsetBlvd，Hollywood，LosAngeles，California}。于是得到

在聚合中，对于微博m₃，假定m₃含有四个候选的位置节点：1.1.1.2，1.1.1.2.2，1.1.2.2.2，1.2.3.2。它们和微博m₃的相似值分别是考虑节点1.1.1，它覆盖了两个候选节点1.1.1.2和1.1.1.2.2，其中节点1.1.1.2.2有最大的相似值，所类似地，

C (1.1.1, m_{2}) = \frac{1}{5}, C (1.1.1, m_{4}) = \frac{2}{5}, C (1.1.1, m_{5}) = \frac{2}{5} .

它没有再覆盖其他的微博了，所以

C (1.1.1) = \frac{8}{5} .

类似地，

C (1.1.2) = \frac{5}{5}, C (1.2) = \frac{9}{5} .

在推测不同层级的top-k位置时，把根节点加入到优先队列中去，并首先弹出这个根节点。由于它的信息熵要比界小，所以我们就把它的孩子节点1.1和1.2加入到优先队列中。此时，队列中节点1.2有最大的覆盖值，继续弹出节点1.2并计算它的信息熵。由于节点1.2的信息熵要比界还要大，将其选择为一个top-k的地点，加入到结果集合中去。接着，弹出节点1.1，由于它的信息熵要比界小，所以继续把它的孩子节点1.1.1和1.1.2加入到优先队列中。此时，节点1.1.1有最大的覆盖值，于是弹出了节点1.1.1。由于它的信息熵要比界还要大，所以节点1.1.1也被选择为一个top-k的地点。如果想找的目标就是top-2的地点，节点1.2和节点1.1.1就是结果了。此时，聚合算法结束。

在优化步骤中，考虑微博m₈，它的候选节点是1.1.2.1.1和节点1.2.3.1.1。E(m₈)＝“SportsShopCenter”，用户的top-2位置是“Hollywood”(1.1.1)和“SanDiego”(1.2)。对于节点1.2.3.1.1来说，节点1.2是它的祖先，把相应的实体加入到E(m₈)中。这样，更新后的集合为E^u(m₈)＝{SportsShopCenter，SanDiego}。计算m₈和节点1.2.3.1.1的相似性，得到对于节点1.1.2.1.1，两个top-2的用户位置都不是它的祖先，所以依然有所以，如果想得到微博m₈的top-1的位置，节点1.2.3.1.1是最后的答案。

另外，本发明实施例的微博数据的地理位置信息提取方法的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种微博数据的地理位置信息提取方法，其特征在于，包括以下步骤：

S1：获取地理位置信息集合和微博数据文本集合，其中，所述地理位置信息集合中的地理位置按照行政区域逐级划分形成地理位置信息树，将每条微博与博主一一对应的存储在所述微博数据文本集合上；

S2：从所述微博数据文本集合中的每条微博中抽取位置信息与所述地理位置信息树中的节点进行比较，

如果抽取的位置信息与所述地理位置信息树中的某个节点的位置信息相同，将抽取的信息作为精确匹配节点，将所述精确匹配点和所述位置信息对应的加入到候选集合中，

如果收取的位置信息与所述地理位置信息树中的某个节点的位置信息不同，则进行相似性匹配，从所述地理位置信息树找到匹配程度最高的节点作为模糊匹配节点，将所述模糊匹配节点和所述位置信息对应的加入到所述候选集合中；

S3：将所述候选集合进行聚合，推测在所述地理位置信息树同一层级第一预设值数量的地理位置，推测在所述地理位置信息树不同层级第一预设值数量的地理位置；

S4：对聚合后的所述候选集合进行信息提纯，得到精确的所述第一预设值数量的地理位置。

2.根据权利要求1所述的微博数据的地理位置信息提取方法，其特征在于，还包括步骤：

S5：当所述博主的微博内容更新或所述地理位置信息树的节点更新时，将更新的内容相应的加入到所述微博数据文本集合或所述地理位置信息树，并根据更新后的所述微博数据文本集合和更新后所述地理位置信息树重新计算所述第一预设值数量的地理位置。

3.根据权利要求1所述的微博数据的地理位置信息提取方法，其特征在于，所述步骤S1进一步包括：

S11：对所述地理位置信息树从上往下给每一个节点赋了一个Dewey码，其中根节点的Dewey码是1，对于每一个节点，不断地把父亲节点的Dewey码附加在自己的Dewey码后面得到最后一串Dewey码，比较两个节点n_i，n_j的Dewey码，如果n_i的Dewey码是n_j的Dewey码的子串，那么n_i就是n_j的祖先，其中i和j均为自然数；

S12：建立倒排索引，对于地理位置，由于同名的情况，可以对应到所述地理位置信息树上的多个Dewey码，建立倒排索引；

S13：每一条数据包含微博的文本和发送微博的博主对应存储，每个博主对应多条微博文本。

4.根据权利要求3所述的微博数据的地理位置信息提取方法，其特征在于，所述步骤S2进一步包括：

S211：定义精确匹配和所述精确匹配节点：从所述微博数据文本集合选取一条微博和所述地理位置信息树进行比较，如果所述地位位置信息树的某个节点和所述微博的所述子串精确匹配，定义所述地理位置为精确匹配实体，定义所述节点为所述精确匹配节点；

S212：定义相似性：从所述微博数据文本集合选取一条微博m，用E(m)表示所述精确匹配实体的集合，给定一个候选的位置节点n，用E(n)来表示从根节点到所述节点n之间的所有位置节点，在E(m)和E(n)之间利用第一相似性函数，计算出微博m和节点n之间的相似性，具体定义如下：其中|E(m)∩E(n)|是两个集合的交集，|E(m)∪E(n)|是两个集合E(m)的并集；

S213：找到精确匹配节点：对于每一个地位位置e，利用所述倒排列表枚举所述微博的子串，对于每一个所述子串，检测是否出现在所述倒排索引里，如果出现在所述倒排列表中，取出所述倒排索引对应的节点，所述节点为候选的所述精确匹配节点，根据所述第一相似性函数计算出第一相似值，将所述第一相似值和所述精确匹配节点对应存储在所述候选集合中；

S221：定义模糊匹配和所述模糊匹配节点：从所述微博数据文本集合选取一条微博，给定第二相似性函数和阈值，如果所述地理位置信息树中的某个节点和所述微博的一个子串之间根据所述第二相似函数计算出的相似值不大于所述阈值，把所述地理位置定义为模糊匹配实体，在所述地理位置信息树中，把所有标记为模糊匹配实体对应的节点定义为所述模糊匹配节点；

S222：定义相似性：首先定义标准化之后的编辑距离，表示为读取所述微博的子串，所述微博的子串可能和多个地理位置相似，给定一个地理位置，所述地理位置也可能有多个相似的子串，保留最相似的一个，用E′(m)来表示所有<s,e>的集合，其中s是一个子串，e是一个位置实体，并且满足不存在以下情况：

有一对<s,e′>，使得EDS(s,e′)>EDS(s,e)

有一对<s′,e>，使得EDS(s′,e)>EDS(s,e)

得到所述E′(m)后，用所述第二相似性函数衡量所述微博m和所述位置节点n之间的相似性：其中表示E′(m)和E(n)在位置实体e上面的连接，π_e(E′(m))是E′(m)在位置实体上的投影；

S223：找到模糊匹配的节点：把相似性进行转换可以得到，两个地理位置是相似的等价于它们的编辑距离不大于所述阈值τ，把每个地理位置分成了++1个片段，基于鸽巢原理，如果所述微博中的一个子串和一个所述位置实体相似，所述子串包含所述分割后的片段之中的一个，根据所述倒排索引，对于给定一个微博，枚举所述微博的子串，检查所述微博的子串是否出现在所述倒排索引中，如果有一个子串出现在所述倒排索引之中，检查所述倒排索引中每个地理位置是否和所述子串相似得到第二相似值，如果相似，把所述地理位置对应的模糊匹配节点和相似值加入到所述候选集合。

5.根据权利要求4所述的微博数据的地理位置信息提取方法，其特征在于，所述步骤S3进一步包括：

S31：把用户发的微博集合，记为M＝{m₁,m₂,…,m_|M|}，每一条微博m_i有一个候选位置的集合，其中包括了所述精确匹配和所述模糊匹配的位置节点，把这个集合记为N(m_i)，所述N(m_i)中的每一个候选的位置都和m_i有所述第一相似值和所述第二相似值；

S32：推测用户在同一层级的所述第一预设值数量的地理位置：

S321：定义覆盖值：一个节点的覆盖值指的是所有它覆盖的微博的相似值的总和，定义如下：C(n)＝∑_1≤i≤|M|C(n,m_i)，其中C(n,m_i)是指所述节点n对微博m_i的覆盖，表示所述节点n下面最大的相似值其中D(n)表示n的后代，N(m_i)是m_i的候选位置合集，其中J是J_e函数；

S322：定义第一N_best集合：找到一个所述第一预设值数量的节点的集合记为N_best，它有整体最大的覆盖值，所述第一N_best如下定义：

第一

N_{b e s t} = {argmax}_{N_{k}} Σ_{1 \leq i \leq | M |} \underset{n &Element; N_{k}}{m a x} C (n, m_{i})

其中N_k是给定层中任意的k个节点的集合；

S323：找到所述N_best集合：利用贪心的算法，具体按照如下规则迭代地选择节点：找到覆盖值最大的节点n；从剩下的微博里面找到覆盖值最大的下一个节点；使用了区间最值查询算法RMQ来计算C(n,m_i)；进行迭代，得到所述第一预设值数数量的节点；

S33：推测不同层次的top-k位置：

S331：定义概率给定一个节点n和它的子节点集合，记为CHILD(n)＝{c₁,c₂,…,c_|n|}，概率表示选择把子节点c_i作为top-k地点的概率，定义为：

P_{c_{i}} = \frac{C (c_{i})}{Σ_{c_{j} &Element; C H I L D (n)} C (c_{j})};

S332：定义信息熵H(n)：所述节点n的信息熵定义如下：其中|n|表示所述节点n的孩子节点的数量；

S333：定义信息熵的界给定节点n，当每一个孩子节点有相同的概率时，所述节点n的信息熵达到最大值，记为H_max，计算方式如下：

H_{m a x} = - Σ_{i = 1}^{i = | n |} \frac{1}{n} \cdot l n \frac{1}{n} = | n | \cdot \frac{1}{n} \cdot l n | n | = l n | n |,

给定一个阈值系数ε，得到信息熵的界

如果所述节点n的信息熵比所述界大，选择所述节点n选择所述第一预设值数量的地理位置，

如果所述节点n的信息熵比所述界小，检查所述节点n的孩子节点选择所述第一预设值数量的地理位置；

S334：定义第二N_best集合：在所述信息熵H(n)的限制下，从不同层次的地点中选出所述第一预设值数量的地理位置，使得覆盖值达到最大，所述第二N_best如下定义：第二

N_{b e s t} = {argmax}_{N_{k}} Σ_{1 \leq i \leq | M |} \underset{n &Element; N_{k}}{m a x} C (n, m_{i}),

并且其中对于每一个节点n∈N_k，都满足H(n)>B；

S335：找到第二N_best集合，利用了一种优先最佳的贪心算法，具体如下：

S3351：检查根节点，计算所述根节点的覆盖值和信息熵，并把所述根节点加入到一个优先队列中；

S3352：弹出优先队列中覆盖值最大的节点：

如果所述优先队列的节点的信息熵的值大于所述界值把所述节点加入到结果集合R_u中，如果结果所述集合R_u中已经有了第一预设值数量的地理位置，结束算法，

如果所述节点的信息熵不大于所述界值考查所述节点的孩子节点，计算所述孩子节点的覆盖值并把所述孩子节点插入到所述优先队列中去；

S3353：重复步骤S3352，直到我们找到了所述第一预设值数量的节点，作为不同层次的所述第一预设值数量的地理位置。

6.根据权利要求5所述的微博数据的地理位置信息提取方法，其特征在于，所述步骤S4进一步包括：

S41：对于用户发送的每一条微博m_i，枚举N(m_i)中的每一个候选的位置，对于每一个候选的位置信息，检查在所述集合R_u中是否存在一个位置是所述候选位置的祖先，

如果是，对于精确匹配，把所述候选位置实体加入到所述E(m_i)中；对于模糊匹配，把<e,e>加入到E′(m_i)中，其中e是地理位置；

如果不是，重新计算所述候选位置和微博之间的相似性，具体如下：

对于精确匹配，利用和更新后的E(m_i)来计算微博m_i和候选位置之间的相似性；

对于模糊匹配，利用和更新后的E′(m_i)来计算微博m_i和每一个候选位置之间的相似性；

基于每一个候选节点优化后的相似性，选择所述第一预设值数量的相似性最大的候选节点作为所述微博的所述第一预设值数量的地理位置；

S42：剪枝候选节点：给定一条微博m_i，根据和所述微博m_i的相似性降序排列候选节点，并按照此顺序访问候选降序排列后的节点，选取所属第一预设值数量的节点的相似性作为下界τ，对于每一个候选位置n：

对于精确匹配，如果所述候选位置n的相似性小于或对于模糊匹配，如果原来的相似性小于则停止算法；

否则，检查用户是否存在一个位置是所述候选位置的祖先，如果存在，重新计算相似性并更新下界；

进行迭代，计算所述第一预设值数量的地理位置。

7.根据权利要求2所述的微博数据的地理位置信息提取方法，其特征在于，所述步骤S5进一步包括：

S51：微博的动态更新：设定用户已经发布了一个微博的集合M，又发布了一个新的集合Δ_M，包括如下步骤：

S511：利用所述集合M推测用户的地理位置时，维护一个位置信息的子树，所述子树的根和所述地理位置信息树的根一致，有第一预设值数量的孩子节点；

S512：加入所述子树的索引结构：对于精确匹配，给每一个用户所在子树维护一个哈希表，给每一条微博从所述子树中抽取出地理位置；

S513：利用所述树的索引结构，对于所述集合Δ_M中的每一条微博，从所述子树上找到地理位置，利用所述地理位置找到候选的位置；

S52：对所述地理位置信息树树形结构的进行动态更新。