CN106372078A

CN106372078A - 一种基于微博平台的事件外部信息源获取方法及系统

Info

Publication number: CN106372078A
Application number: CN201510433965.4A
Authority: CN
Inventors: 曹娟; 张勇东; 张俊强; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-02-01

Abstract

本发明公开了一种基于微博平台的事件外部信息源获取方法及系统，该方法包括步骤1，基于针对一事件的多个微博消息，提取每个该微博消息中携带的URL，选取其中出现频率最高的N个URL作为待处理URL，N为正整数；步骤2，分别访问每个该待处理URL，从返回消息中获取每个待处理URL对应的完整链接；步骤3，过滤掉该完整链接中的无效链接；步骤4，根据一预设URL词典，为每个该完整链接设置权值，依据该权值确定该事件的至少一个外部信息源。利用本发明的方法可快速准确的定位到真正的外部信息源，避免购物网站等无效信息源的干扰，同时可保证所有定位到的外部信息源都是可访问达到有效链接。

Description

一种基于微博平台的事件外部信息源获取方法及系统

技术领域

本发明涉及信息抽取技术领域，特别是涉及一种基于微博平台的事件外部信息源获取方法及系统。

背景技术

在各类新闻媒介百花齐放的今天，人们通过互联网获取信息的途径越来越多。人们可以浏览各类新闻网站，例如新浪网，人民日报网等，以获得实时发布的最新新闻消息，或者，从某些公司的主页面获取公司发布的最新信息。

不论信息的来源如何，人们都可以通过在各类社交平台中的相继传播转发而使更多的用户在最快的时间内，获取该最新新闻消息或最新信息。可见各类社交平台对信息的传播起到了至关重要的作用。

然而，由于不同用户之间的反复传播转发，使得信息的真正源头会渐渐模糊，或被夹杂在微博消息内的其他地址消息所掩盖。因而，如何从用户的转发或引用的信息中获取该信息的外部信息来源也成为了一个新兴的研究点。该外部信息来源也就是该信息源头，即，社交平台最先从哪里获得信息，也就是转发的起点。

中国科学院计算技术研究所的刘春阳等人发明了一种报文信息源抽取方法及其系统(申请号：201410010836.X)，该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源，并匹配信息源抽取规则库的规则判断信息源类型，该方法包括：报文解析步骤和信息源抽取步骤，报文解析步骤用于根据输入的文本，提取文本中的字符，并对字符进行断句处理为不同分句，信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配，对分句抽取有用要素序列，并在有用要素序列上，提取信息源，并通过匹配信息源抽取规则库的规则判断信息源类型。

然而，现有技术是通过提取长文本关键词与本地信息源库进行对比获得信息源，不是根据外部信息源的URL来进行提取，不能考虑到各条微博消息的短文本中外部信息源链接URL的语义信息，故不能实现针对微博消息的数据特点进行外部信息源提取的目标。

发明内容

本发明解决的技术问题在于，针对微博平台的微博消息，通过其中的URL准确的获取该微博消息所针对的事件的外部信息源。

本发明公开了一种基于微博平台的事件外部信息源获取方法，该方法包括：

步骤1，基于针对一事件的多个微博消息，提取每个该微博消息中携带的URL，选取其中出现频率最高的N个URL作为待处理URL，N为正整数；

步骤2，分别访问每个该待处理URL，从返回消息中获取每个待处理URL对应的完整链接；

步骤3，过滤掉该完整链接中的无效链接；

步骤4，根据一预设URL词典，为每个该完整链接设置权值，依据该权值确定该事件的至少一个外部信息源。

该步骤1中的提取每个该微博消息中携带的URL的步骤进一步包括：利用正则表达式匹配得到每个该微博消息中携带的URL。

该步骤2进一步包括：

分别访问每个该待处理URL，从Http请求返回消息中提取重定位Location信息中的该完整链接。

该步骤3进一步包括：

依次判断每个该完整链接是否记载在一预先设定的无效URL词典中，如果是，将该完整链接视为无效链接进行过滤。

该步骤3进一步包括：

分别访问每个该完整链接，获得与每个该完整链接对应的Http请求返回消息，根据Http请求返回消息中的Status Code信息过滤掉该完整链接中的无效链接。

当该Status Code信息为404、301或302时，过滤掉该完整链接。

该步骤4进一步包括：

该预设URL词典记载有多个认证URL，且为每个认证URL设置有等级值，判断每个该完整链接是否记载在该预设URL词典中，如果是，将每个该完整链接的对应的待处理URL的该出现频率乘以与该完整链接对应的认证URL的等级值作为该完整链接的权值，将权值符合预定规则的完整链接作为该外部信息源；如果否，将每个该完整链接的对应的待处理URL的该出现频率乘以一预设值作为该完整链接的权值，将权值符合预定规则的完整链接作为该外部信息源。

该步骤4进一步包括：

利用一本地URL词典获取该外部信息源的名称信息。

该步骤4之后进一步包括：

访问该完整链接，提取网页元信息，利用<title>字段中的信息源名称信息更新一本地URL词典。

本发明还公开了一种基于微博平台的获取事件外部信息源的系统，该系统包括：

待处理URL选取单元，用于针对一事件的多个微博消息，提取每个该微博消息中携带的URL，选取其中出现频率最高的N个URL作为待处理URL，N为正整数；

完整链接获取单元，用于分别访问每个该待处理URL，从返回消息中获取每个待处理URL对应的完整链接；

过滤单元，用于过滤掉该完整链接中的无效链接；

外部信息源确定单元，用于根据一预设URL词典，为每个该完整链接设置权值，依据该权值确定该事件的至少一个外部信息源。

利用本发明的方法可快速准确的定位到真正的外部信息源，避免购物网站等无效信息源的干扰，同时可保证所有定位到的外部信息源都是可访问达到有效链接。

附图说明

图1为本发明的一种基于微博平台的事件外部信息源获取方法的流程图。

图2为本发明的一种基于微博平台的事件外部信息源获取方法的细节流程图。

图3为本发明的一种基于微博平台的事件外部信息源获取方法的细节流程图。

具体实施方式

以下结合附图详细描述本发明的实现过程。

本发明所述的外部信息源为一URL链接，其包含在微博消息的文本内容中。

为了实现本发明的方法，需首先使用网页内容爬取技术，从微博平台的海量微博消息中爬取与某待认证事件相关的多个微博消息。基于该多个微博消息，后续利用图1所述方法提取该待认证事件的外部信息源。

图1-3为本发明的一种基于微博平台的事件外部信息源获取方法的流程图。

步骤1，基于针对一事件的多个微博消息，提取每个该微博消息中携带的URL，选取其中出现频率最高的N个URL作为待处理URL。

在步骤1中，本发明利用已经划定的范围，即，与同一事件相关的微博消息，进行URL的提取。其中，利用正则表达式匹配得到每个该微博消息中携带的URL。之后，统计在所有的微博消息中，所有URL的出现频率，取出现频率最高的前N个URL，作为待处理URL。

一般说来，关于该事件的首个微博消息必然携带该事件的真正来源，也就是外部信息源，在反复转发的过程，每个转发的微博消息也必然携带该外部信息源，故而，在针对该事件的所有微博消息中频繁出现的URL才有可能是该事件的真正来源，也就是外部信息源，故而，本发明首先定位这些有可能包含外部信息源的URL，以便于做后续的继续分析提取。

步骤2，分别访问每个该待处理URL，从返回消息中获取每个待处理URL对应的完整链接。

目前，各种微博平台都会将各条微博消息中所携带的URL的长度均进行加密和压缩，即步骤1中的待处理URL实质上是压缩过后的“短链接”，从这些“短链接”还不能直接获得所需的外部信息源的准确信息，故而本发明需继续利用该“短链接”而获得原本的完整链接。

因此，在步骤2中，分别访问每个该待处理URL，即逐一模拟点击该待处理URL。每一次点击该待处理URL，均会得到一Http请求返回消息，从该Http 请求返回消息的重定位Location信息中提取与该待处理URL对应的完整链接。

以上为一Http请求返回消息的实例，其中的方框中的Location信息中记载了该完整链接。

步骤3，过滤掉该完整链接中的无效链接。

由于该微博消息经过了大量的转发，则在转发过程中，可能在原始的消息中继续添加了其他无效链接，或者，该完整链接自身可能存在不能访问的问题。故而，步骤3需要对无效链接进行过滤。

步骤3可以进一步包括：

步骤31，依次判断每个该完整链接是否记载在一预先设定的无效URL词典中，如果是，将该完整链接视为无效链接进行过滤。

通常来说，事件的发布源头，通常不会设置在购物网站、广告网页。而在微博消息的转发过程中，很有可能在原始的消息文本中增加这些购物网站、广告网页等无效链接。故而，本发明预先在本地构建一个无效URL词典，词典内存放一些高频出现的与事件描述无关的域名地址(URL)，例如该购物网站、广告等。则针对所获得的完整链接，利用该无效URL词典进行逐一的匹配，如果发现某一完整链接能够与该无效URL词典中记载的数据相匹配，说明该完整链接为无效链接，进而将其删除，以实现对无效链接的过滤，仅保留未在该无效URL词典中出现的完整链接继续执行后续的操作。

步骤3还可以进一步包括：

步骤32，分别访问每个该完整链接，获得与每个该完整链接对应的Http请求返回消息，根据Http请求返回消息中的Status Code信息过滤掉该完整链接中的无效链接。

通常来说，如果该完整链接可以正常访问，则Http请求返回消息中的Status Code信息应当为200。但是，如果该Status Code信息为404，说明该网页不存在，如果该Status Code信息为301，说明该网址永久性转移，该Status Code信息为302，说明该网址暂时性转移，在这些情况下，该完整链接均不可以正常访问，故而，对于该Status Code信息为404、301、302的情况，说明该完整链接为无效链接，进而将其删除。即，本发明所最终获得的外部信息源一定是可访问的有效链接，保证了其准确性。

在一实施例中，步骤31、32的执行顺序可以相互调换，没有必然的执行顺序。

该预设URL词典中记载了多个经过调研被认为其发布的消息具有权威性的认证URL。例如新华网的URL。词典内以<认证URL，等级值>的形式存放域名。该等级值为预先为每个认证URL设置的权威参数，用以标定其所发布的消息的准确性、权威性、及时性。

在步骤4中，判断每个该完整链接是否记载在该预设URL词典中，如果是，将每个该完整链接的对应的待处理URL的该出现频率乘以与该完整链接对应的认证URL的等级值作为该完整链接的权值；如果否，将每个该完整链接的对应的待处理URL的该出现频率乘以一预设值作为该完整链接的权值。

将权值符合预定规则的完整链接作为该外部信息源。即，将该完整链接依据权值排名，选取权值最大的前N个作为最终确定的关键外部信息源。由此可见，出现在预设URL词典中的URL，由于其增加了权重，故而更加有可能被确定为外部信息源。

对于被确定为外部信息源的URL，可以直接根据一本地URL词典，获取外部信息源的名称信息，以便于将最适合用户直观接受的信息输出给用户。

如果该本地URL词典中没有该被确定为外部信息源的URL的名称信息，则在步骤4之后执行步骤5：

步骤5，访问该完整链接，进行网页元信息提取，如对HTML文件中的<title>字段提取新闻事件标题，新闻事件类别等信息；同时，如果<title>字段包括信息源名称信息，则据此对本地URL词典进行更新。

本发明的上述方法执行于一服务器中，该服务器与微博平台网络连接，以将多个微博消息输入至该服务器中。

以上仅为对本发明的示例性说明，任何基于本发明所做的等效或明显变形，仍包括于本发明的权利要求保护范围中。

Claims

1.一种基于微博平台的事件外部信息源获取方法，其特征在于，该方法包括：

步骤3，过滤掉该完整链接中的无效链接；

2.如权利要求1所述的方法，其特征在于，该步骤1中的提取每个该微博消息中携带的URL的步骤进一步包括：利用正则表达式匹配得到每个该微博消息中携带的URL。

3.如权利要求1所述的方法，其特征在于，该步骤2进一步包括：

4.如权利要求1所述的方法，其特征在于，该步骤3进一步包括：

5.如权利要求1或4所述的方法，其特征在于，该步骤3进一步包括：

6.如权利要求5所述的方法，其特征在于，当该Status Code信息为404、301或302时，过滤掉该完整链接。

7.如权利要求1所述的方法，其特征在于，该步骤4进一步包括：

8.如权利要求1或7所述的方法，其特征在于，该步骤4进一步包括：

利用一本地URL词典获取该外部信息源的名称信息。

9.如权利要求1所述的方法，其特征在于，该步骤4之后进一步包括：

10.一种基于微博平台的获取事件外部信息源的系统，其特征在于，该系统包括：

过滤单元，用于过滤掉该完整链接中的无效链接；