CN103020038A

CN103020038A - 一种网络舆情地域相关度的计算方法

Info

Publication number: CN103020038A
Application number: CN2012105731428A
Authority: CN
Inventors: 宫天翔; 王敏; 史佳佳; 杨之光; 杨青
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2013-04-03

Abstract

本发明公开了一种网络舆情地域相关度的计算方法，该方法包括多层次相似度计算的过程及多层级地址融合的过程；所述多层次相似度计算的过程：A、初始化不同层级的地址词权重，针对不同层级的地址词设定不同的初始权重；B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤；C、计算地区相似度的步骤；所述多层级地址融合的过程：D、执行自底向上的层级相似度的传递步骤，以实现低层级地区的相似度向上层级地区的传递；E、融合多层级的相似度，重新计算地区相似度的步骤；F、进行地区排序的步骤。利用本发明，能够解决网络舆情与地域相关的识别问题，实现不同粒度需要的地域相关度计算需求。

Description

一种网络舆情地域相关度的计算方法

技术领域

本发明涉及互联网和信息处理技术，尤其涉及一种网络舆情地域相关度的计算方法。

背景技术

随着互联网的发展，特别是互联网自媒体（微博）时代的到来，网络舆情信息的数量再一次暴增，由于网络舆情往往带有强烈的地域特性，因此需要将舆情信息按照一定的规则分地域整理。目前，地域识别方法一般依赖于单纯的地名分析来判断文本的地域属性，这样很难应对一些二义性的地名词，而且容易把一些特定的机构识别为地名标记，例如：北京大学，上海大学等。同时难以应对短文本的信息的按地域归类处理，特别是微博这类短文本的地域识别。

发明内容

有鉴于此，本发明的主要目的在于提供一种网络舆情地域相关度的计算方法，解决网络舆情与地域相关的识别问题，实现不同粒度需要的地域相关度计算需求。

为达到上述目的，本发明的技术方案是这样实现的：

一种网络舆情地域相关度的计算方法，构建一包含全国性地名的词库，并消除词库的二义性；该方法包括多层次相似度计算的过程及多层级地址融合的过程；所述多层次相似度计算的过程，包括：

A、初始化不同层级的地址词权重，针对不同层级的地址词设定不同的初始权重；

B、根据全局信息调整地址词的权重、根据局部信息调整地址词的权重和根据额外信息调整地址词的权重的步骤；以及，

C、计算地区相似度的步骤；

所述多层级地址融合的过程，包括：

D、执行自底向上的层级相似度的传递步骤，以实现低层级地区的相似度向上层级地区的传递；

E、融合多层级的相似度，重新计算地区相似度的步骤；以及，

F、进行地区排序的步骤。

其中，步骤A所述地址词权重W_p的计算公式如下：

W_p＝W_L(p)；

其中：p为地址词，L(p)为所在的层级。

所述步骤B中根据全局信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₁(t,s,o,c)；

其中：F₁()为函数，t为根据地址词所处的标题或正文，s为段落，o为位置，c为地址词出现次数。

所述步骤B中根据局部信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₂(context)；其中，context为地址词上下文信息。

所述步骤B中根据额外信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₃(k,np)；其中，k为根据地址词的先验知识，np为人口信息。

步骤C所述计算地区相似度S_i的公式如下：

S_{i} = Σ_{j = 1}^{n} W_{p_{j}} * F_{4} (n);

其中：p为统计地区i对应地址词，n为地区所含地址词个数。

步骤D所述的自底向上的层级相似度的传递的步骤中，计算地区相似度的公式如下：

S_j-i=S_j*α^(j-i)；

其中：α为传递关系,j属于i地区下的低层地区。

步骤E所述重新计算地区相似度的公式如下：

S_{i} = S_{i} + Σ_{j = i + 1}^{M} (S_{j} * α^{(j - i)});

其中：α为传递关系,j属于i地区下的低层地区，M表示地区包含了低层级地区的个数。

本发明所提供的网络舆情地域相关度的计算方法，具有以下优点：

本发明将地址词划分为不同的层级，并对不同的层级的地址词给定不同的初始权重。综合了多方信息，如全局信息，局部信息和额外信息对地址词权重的影响，可根据网页中的自身特点，调整适应的地址词权重。针对不同层级的地区进行融合，把低层级的地区相似度向上层级传递，可以灵活的选择想要的层级，并给出相应的相似度。

附图说明

图1A、图1B为本发明网络舆情地域相关度的计算方法中地域状态转移示意图；

图1C为本发明构建地域词到所属地域的一个倒排索引结构示意图；

图2为本发明实施例的分层级的地区相似度计算方法流程图；

图3为本发明实施例的多层级的地区融合方法流程图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实现本发明的方法，需要解决如下几个问题：

一、词库的建立。

首先需要构建一个全国性地名的词库。词库构建方法：依赖全网抓取到的网页，从网页中解析出完整的地址串，例如，可以从即刻搜索的官网上解析到：北京市朝阳区东三环中路1号环球金融中心西塔。

依据地址的层次信息将地名抽象为若干层次，利用地址串中包含的层次信息解析出不同的地名。

图1A、图1B为本发明网络舆情地域相关度的计算方法中地域状态转移示意图。如图所示，可以采用有限状态机来实现地址识别，通过地名后缀进行状态间的转移。

使用有限状态机识别地址，关键要解决两个问题，即通过一些有效的地址建立状态机，以及给定一个有限状态机后，地址字串的匹配算法。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。采用最长匹配的方式发现地址串前部的已知信息，同时判断相邻的字符是不是新的状态转移，如果是将把转移状态记录为候选状态，当已知信息能唯一确定所属地域的时候考虑候选状态转移的情况，如果候选状态合法优先考虑候选状态（候选状态更新）。

1）权重信息的获取：统计解析出来的词频可以计算出地名对某个地区的权重信息，例如：“天安门广场”和“东城区”一起共出现过1000次，与“西城区”一起共出现过20次，那么“天安门广场”和“东城区”的相关度就更大。

2）地址词库的存储方式：地址词库同样按照分级的方式存储（如表1所示），级别包括：

全球→国家(地区)→省→市→区县→乡镇街道→道路→建筑机构社区等。

表1：地域等级表

二、词库二义性的消除。

1）加载全国性的地名词库：构建地域词到所属地域的一个倒排索引结构。所述倒排结构，如图1C所示。

2）加载过程：加载区县(包括)以上地域信息，这一部分信息相对稳定，属于可靠信息，其所属关系完全正确，同时构建区县所属关系；加载区县以下地名词，主要是构建区县和市级以下地名从属关系。

3）文本地域相关词提取：利用中文分词将文本中相关地名词提取出来，找到相关地名词的倒排关系列表，根据获取到的候选地区是否具有唯一性，将地名词分为唯一确定地名和二义性地名。例如：“海淀区”就能唯一确定属于北京，“朝阳”不能确定所属地域就是二义性词。

4）分层二义性消除：

（1）补全确定地域所属层次链（从能确定的级别往上补全）；

（2）合并确定性地域结果和不确定性结果；

（3）补全剩下的不确定性结果的层次关系，同（1）；

（4）在剩下的不确定性词中再做地域合并，如果通过多个不确定性词能推导出一个确定地域，则记录下这个地域和相关的不确定性词。

例如：世纪大道、金桥路、龙阳路同时出现的时候能确定是和上海浦东相关；

（5）构建文章相关地域层次关系树，把获取到的对判别文字地域信息的所有关键词构建成一个地域分层关系树，这个作为后续分层次融合的基本依据。

5）多层次融合。

融合方式：从小地域到大地域融合，也是相关度传递的方向。从得到的层次树最小单位往上遍历融合，父相关度=所有子节点相关度之和。

通过比较相关度得到一个或多个和文本描述相关的地域，层次融合和相关度传递可以快速的适应不同应用场景对不同地域划分不同粒度的要求。

图2为本发明实施例的分层级的地区相似度计算方法流程图。包括如下步骤：

步骤21：初始化不同层级的地址词权重，针对不同层级的地址词设定不同的初始权重。

例如，根据地址词p所在的层级L(p)，初始化相应的权重W_p。假设地址词可以分为（国家、省、市、区、县、镇、村、道路、建筑，共9个层级），并且对不同的层级设定不同的初始权重，其中可以设定越高层级的地址词权重越高，越可信。因为越低层的地址词，越有可能指向不明确。实例：“中关村e世界”对应建筑级别，那么初始化的权重是相应层级的权重。计算公式如下：

W_p＝W_L(p)

步骤22：根据全局信息调整地址词的权重：根据地址词所处的标题或正文t，段落s，位置o，出现次数c等调整地址词的权重。

例如：地址词“中关村e世界”出在标题中，相应权重比出现在正文中权重大；出现次数越多说明“中关村e世界”对网页越重要。计算公式如下：

W_p=W_p*F₁(t,s,o,c)；其中，F₁()为函数。以下类似

步骤23：根据局部信息调整地址词的权重：根据地址词上下文信息context调整地址词的权重。

例如：地址词“中关村e世界东边1公里处”，因为有上下文中出现了相对位置“东边1公里出”，那么“中关村e世界”更容易表示一个地址词，其相应的权重也会有相应的提升。计算公式如下：

W_p=W_p*F₂(context)

步骤24：根据额外信息调整地址词的权重：根据地址词的先验知识k，和人口信息np等调整地址词的权重。

例如：地址词“朝阳”根据统计表示“北京市朝阳区”的概率比“广东汕头朝阳区”的概率更大，所以“朝阳”对应“北京”的权重相应更高一些。计算公式如下：

W_p=W_p*F₃(k,np)

步骤25：计算地区的相似度：统计地区i对应地址词p的权重，及地区所含地址词个数n，计算地区相似度S_i。

例如：网页中出现了n个不同属于北京的地址词（p1,p2,p3...），那么属于北京的可能性比出现n次相同属于北京的地址词p1的可能性更高。计算公式如下：

S_{i} = Σ_{j = 1}^{n} W_{p_{j}} * F_{4} (n);

其中：p_j是属于地区i的地址词。

图3为本发明实施例的多层级的地区融合方法流程图。包括：

步骤26：自底向上的层级相似度传递步骤。实现低层级地区的相似度向上层级地区的传递。

例如：根据地址词“中关村e世界”的权重，可以计算出地址“中关村街道”这个层级相似度S_j，那么该相似度应该向上传递到“海淀区”。假定传递关系为α，那么向上传递给“海淀区”的相似度为S_j*α，进一步推知更上一层“北京”相似度为S_j*α*α。计算公式如下：

S_j-i=S_j*α^(j-i)

其中：j属于i地区下的低层地区。

步骤27：融合多层级的相似度，重新计算地区相似度的步骤。

根据低层级地区相似度的传递，并融合低层级地区的相似度，重新计算每个地区的相似度。并实现高层级地区融合低层级地区的相似度，并调整高层级地区的相似度。

例如：“北京”包含“朝阳区”，“海淀区”等几个区级别地区，向下还包括“中关村街道”，“四季青镇”等更低级别的地区，那么所有低层级地区的相似度都需要向上传递给“北京”，进行多层级的地区融合，并计算“北京”的相似度。计算公式如下：

S_{i} = S_{i} + Σ_{j = i + 1}^{M} (S_{j} * α^{(j - i)});

其中：M表示地区包含了低层级地区的个数。

步骤28：进行地区排序的步骤。经过多层级地区融合之后，按照相似度大小对地区进行从大到小的排序，可以根据用户的指定层级L和个数N，返回前N相应层级的地区。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种网络舆情地域相关度的计算方法，构建一包含全国性地名的词库，并消除词库的二义性；其特征在于，该方法包括多层次相似度计算的过程及多层级地址融合的过程；所述多层次相似度计算的过程，包括：

C、计算地区相似度的步骤；

所述多层级地址融合的过程，包括：

F、进行地区排序的步骤。

2.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，步骤A所述地址词权重W_p的计算公式如下：

W_p=W_L(p)；

其中：p为地址词，L(p)为所在的层级。

3.根据权利要求1所述的网络舆情地域相关度的计算方法，其特征在于，所述步骤B中根据全局信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₁(t,s,o,c)；

4.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，所述步骤B中根据局部信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₂(context)；其中，context为地址词上下文信息。

5.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，所述步骤B中根据额外信息调整地址词权重W_p的计算公式如下：

W_p=W_p*F₃(k,np)其中，k为根据地址词的先验知识，np为人口信息。

6.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，步骤C所述计算地区相似度S_i的公式如下：

S_{i} = Σ_{j = 1}^{n} W_{p_{j}} * F_{4} (n);

其中：p为统计地区i对应地址词，n为地区所含地址词个数。

7.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，步骤D所述的自底向上的层级相似度的传递的步骤中，计算地区相似度的公式如下：

S_j-i=S_j*α^(j-i)；

其中：α为传递关系,j属于i地区下的低层地区。

8.根据权利要求1所述网络舆情地域相关度的计算方法，其特征在于，步骤E所述重新计算地区相似度的公式如下：

S_{i} = S_{i} + Σ_{j = i + 1}^{M} (S_{j} * α^{(j - i)});