CN106372078A - 一种基于微博平台的事件外部信息源获取方法及系统 - Google Patents

一种基于微博平台的事件外部信息源获取方法及系统 Download PDF

Info

Publication number
CN106372078A
CN106372078A CN201510433965.4A CN201510433965A CN106372078A CN 106372078 A CN106372078 A CN 106372078A CN 201510433965 A CN201510433965 A CN 201510433965A CN 106372078 A CN106372078 A CN 106372078A
Authority
CN
China
Prior art keywords
url
full concatenation
message
concatenation
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510433965.4A
Other languages
English (en)
Inventor
曹娟
张勇东
张俊强
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201510433965.4A priority Critical patent/CN106372078A/zh
Publication of CN106372078A publication Critical patent/CN106372078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于微博平台的事件外部信息源获取方法及系统,该方法包括步骤1,基于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;步骤2,分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;步骤3,过滤掉该完整链接中的无效链接;步骤4,根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。利用本发明的方法可快速准确的定位到真正的外部信息源,避免购物网站等无效信息源的干扰,同时可保证所有定位到的外部信息源都是可访问达到有效链接。

Description

一种基于微博平台的事件外部信息源获取方法及系统
技术领域
本发明涉及信息抽取技术领域,特别是涉及一种基于微博平台的事件外部信息源获取方法及系统。
背景技术
在各类新闻媒介百花齐放的今天,人们通过互联网获取信息的途径越来越多。人们可以浏览各类新闻网站,例如新浪网,人民日报网等,以获得实时发布的最新新闻消息,或者,从某些公司的主页面获取公司发布的最新信息。
不论信息的来源如何,人们都可以通过在各类社交平台中的相继传播转发而使更多的用户在最快的时间内,获取该最新新闻消息或最新信息。可见各类社交平台对信息的传播起到了至关重要的作用。
然而,由于不同用户之间的反复传播转发,使得信息的真正源头会渐渐模糊,或被夹杂在微博消息内的其他地址消息所掩盖。因而,如何从用户的转发或引用的信息中获取该信息的外部信息来源也成为了一个新兴的研究点。该外部信息来源也就是该信息源头,即,社交平台最先从哪里获得信息,也就是转发的起点。
中国科学院计算技术研究所的刘春阳等人发明了一种报文信息源抽取方法及其系统(申请号:201410010836.X),该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。
然而,现有技术是通过提取长文本关键词与本地信息源库进行对比获得信息源,不是根据外部信息源的URL来进行提取,不能考虑到各条微博消息的短 文本中外部信息源链接URL的语义信息,故不能实现针对微博消息的数据特点进行外部信息源提取的目标。
发明内容
本发明解决的技术问题在于,针对微博平台的微博消息,通过其中的URL准确的获取该微博消息所针对的事件的外部信息源。
本发明公开了一种基于微博平台的事件外部信息源获取方法,该方法包括:
步骤1,基于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;
步骤2,分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;
步骤3,过滤掉该完整链接中的无效链接;
步骤4,根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。
该步骤1中的提取每个该微博消息中携带的URL的步骤进一步包括:利用正则表达式匹配得到每个该微博消息中携带的URL。
该步骤2进一步包括:
分别访问每个该待处理URL,从Http请求返回消息中提取重定位Location信息中的该完整链接。
该步骤3进一步包括:
依次判断每个该完整链接是否记载在一预先设定的无效URL词典中,如果是,将该完整链接视为无效链接进行过滤。
该步骤3进一步包括:
分别访问每个该完整链接,获得与每个该完整链接对应的Http请求返回消息,根据Http请求返回消息中的Status Code信息过滤掉该完整链接中的无效链接。
当该Status Code信息为404、301或302时,过滤掉该完整链接。
该步骤4进一步包括:
该预设URL词典记载有多个认证URL,且为每个认证URL设置有等级值, 判断每个该完整链接是否记载在该预设URL词典中,如果是,将每个该完整链接的对应的待处理URL的该出现频率乘以与该完整链接对应的认证URL的等级值作为该完整链接的权值,将权值符合预定规则的完整链接作为该外部信息源;如果否,将每个该完整链接的对应的待处理URL的该出现频率乘以一预设值作为该完整链接的权值,将权值符合预定规则的完整链接作为该外部信息源。
该步骤4进一步包括:
利用一本地URL词典获取该外部信息源的名称信息。
该步骤4之后进一步包括:
访问该完整链接,提取网页元信息,利用<title>字段中的信息源名称信息更新一本地URL词典。
本发明还公开了一种基于微博平台的获取事件外部信息源的系统,该系统包括:
待处理URL选取单元,用于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;
完整链接获取单元,用于分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;
过滤单元,用于过滤掉该完整链接中的无效链接;
外部信息源确定单元,用于根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。
利用本发明的方法可快速准确的定位到真正的外部信息源,避免购物网站等无效信息源的干扰,同时可保证所有定位到的外部信息源都是可访问达到有效链接。
附图说明
图1为本发明的一种基于微博平台的事件外部信息源获取方法的流程图。
图2为本发明的一种基于微博平台的事件外部信息源获取方法的细节流程图。
图3为本发明的一种基于微博平台的事件外部信息源获取方法的细节流 程图。
具体实施方式
以下结合附图详细描述本发明的实现过程。
本发明所述的外部信息源为一URL链接,其包含在微博消息的文本内容中。
为了实现本发明的方法,需首先使用网页内容爬取技术,从微博平台的海量微博消息中爬取与某待认证事件相关的多个微博消息。基于该多个微博消息,后续利用图1所述方法提取该待认证事件的外部信息源。
图1-3为本发明的一种基于微博平台的事件外部信息源获取方法的流程图。
步骤1,基于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL。
在步骤1中,本发明利用已经划定的范围,即,与同一事件相关的微博消息,进行URL的提取。其中,利用正则表达式匹配得到每个该微博消息中携带的URL。之后,统计在所有的微博消息中,所有URL的出现频率,取出现频率最高的前N个URL,作为待处理URL。
一般说来,关于该事件的首个微博消息必然携带该事件的真正来源,也就是外部信息源,在反复转发的过程,每个转发的微博消息也必然携带该外部信息源,故而,在针对该事件的所有微博消息中频繁出现的URL才有可能是该事件的真正来源,也就是外部信息源,故而,本发明首先定位这些有可能包含外部信息源的URL,以便于做后续的继续分析提取。
步骤2,分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接。
目前,各种微博平台都会将各条微博消息中所携带的URL的长度均进行加密和压缩,即步骤1中的待处理URL实质上是压缩过后的“短链接”,从这些“短链接”还不能直接获得所需的外部信息源的准确信息,故而本发明需继续利用该“短链接”而获得原本的完整链接。
因此,在步骤2中,分别访问每个该待处理URL,即逐一模拟点击该待处理URL。每一次点击该待处理URL,均会得到一Http请求返回消息,从该Http 请求返回消息的重定位Location信息中提取与该待处理URL对应的完整链接。
以上为一Http请求返回消息的实例,其中的方框中的Location信息中记载了该完整链接。
步骤3,过滤掉该完整链接中的无效链接。
由于该微博消息经过了大量的转发,则在转发过程中,可能在原始的消息中继续添加了其他无效链接,或者,该完整链接自身可能存在不能访问的问题。故而,步骤3需要对无效链接进行过滤。
步骤3可以进一步包括:
步骤31,依次判断每个该完整链接是否记载在一预先设定的无效URL词典中,如果是,将该完整链接视为无效链接进行过滤。
通常来说,事件的发布源头,通常不会设置在购物网站、广告网页。而在微博消息的转发过程中,很有可能在原始的消息文本中增加这些购物网站、广告网页等无效链接。故而,本发明预先在本地构建一个无效URL词典,词典内存放一些高频出现的与事件描述无关的域名地址(URL),例如该购物网站、广告等。则针对所获得的完整链接,利用该无效URL词典进行逐一的匹配,如果发现某一完整链接能够与该无效URL词典中记载的数据相匹配,说明该完整链接为无效链接,进而将其删除,以实现对无效链接的过滤,仅保留未在该无 效URL词典中出现的完整链接继续执行后续的操作。
步骤3还可以进一步包括:
步骤32,分别访问每个该完整链接,获得与每个该完整链接对应的Http请求返回消息,根据Http请求返回消息中的Status Code信息过滤掉该完整链接中的无效链接。
通常来说,如果该完整链接可以正常访问,则Http请求返回消息中的Status Code信息应当为200。但是,如果该Status Code信息为404,说明该网页不存在,如果该Status Code信息为301,说明该网址永久性转移,该Status Code信息为302,说明该网址暂时性转移,在这些情况下,该完整链接均不可以正常访问,故而,对于该Status Code信息为404、301、302的情况,说明该完整链接为无效链接,进而将其删除。即,本发明所最终获得的外部信息源一定是可访问的有效链接,保证了其准确性。
在一实施例中,步骤31、32的执行顺序可以相互调换,没有必然的执行顺序。
步骤4,根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。
该预设URL词典中记载了多个经过调研被认为其发布的消息具有权威性的认证URL。例如新华网的URL。词典内以<认证URL,等级值>的形式存放域名。该等级值为预先为每个认证URL设置的权威参数,用以标定其所发布的消息的准确性、权威性、及时性。
在步骤4中,判断每个该完整链接是否记载在该预设URL词典中,如果是,将每个该完整链接的对应的待处理URL的该出现频率乘以与该完整链接对应的认证URL的等级值作为该完整链接的权值;如果否,将每个该完整链接的对应的待处理URL的该出现频率乘以一预设值作为该完整链接的权值。
将权值符合预定规则的完整链接作为该外部信息源。即,将该完整链接依据权值排名,选取权值最大的前N个作为最终确定的关键外部信息源。由此可见,出现在预设URL词典中的URL,由于其增加了权重,故而更加有可能被确定为外部信息源。
对于被确定为外部信息源的URL,可以直接根据一本地URL词典,获取外 部信息源的名称信息,以便于将最适合用户直观接受的信息输出给用户。
如果该本地URL词典中没有该被确定为外部信息源的URL的名称信息,则在步骤4之后执行步骤5:
步骤5,访问该完整链接,进行网页元信息提取,如对HTML文件中的<title>字段提取新闻事件标题,新闻事件类别等信息;同时,如果<title>字段包括信息源名称信息,则据此对本地URL词典进行更新。
本发明的上述方法执行于一服务器中,该服务器与微博平台网络连接,以将多个微博消息输入至该服务器中。
利用本发明的方法可快速准确的定位到真正的外部信息源,避免购物网站等无效信息源的干扰,同时可保证所有定位到的外部信息源都是可访问达到有效链接。
以上仅为对本发明的示例性说明,任何基于本发明所做的等效或明显变形,仍包括于本发明的权利要求保护范围中。

Claims (10)

1.一种基于微博平台的事件外部信息源获取方法,其特征在于,该方法包括:
步骤1,基于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;
步骤2,分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;
步骤3,过滤掉该完整链接中的无效链接;
步骤4,根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。
2.如权利要求1所述的方法,其特征在于,该步骤1中的提取每个该微博消息中携带的URL的步骤进一步包括:利用正则表达式匹配得到每个该微博消息中携带的URL。
3.如权利要求1所述的方法,其特征在于,该步骤2进一步包括:
分别访问每个该待处理URL,从Http请求返回消息中提取重定位Location信息中的该完整链接。
4.如权利要求1所述的方法,其特征在于,该步骤3进一步包括:
依次判断每个该完整链接是否记载在一预先设定的无效URL词典中,如果是,将该完整链接视为无效链接进行过滤。
5.如权利要求1或4所述的方法,其特征在于,该步骤3进一步包括:
分别访问每个该完整链接,获得与每个该完整链接对应的Http请求返回消息,根据Http请求返回消息中的Status Code信息过滤掉该完整链接中的无效链接。
6.如权利要求5所述的方法,其特征在于,当该Status Code信息为404、301或302时,过滤掉该完整链接。
7.如权利要求1所述的方法,其特征在于,该步骤4进一步包括:
该预设URL词典记载有多个认证URL,且为每个认证URL设置有等级值,判断每个该完整链接是否记载在该预设URL词典中,如果是,将每个该完整链接的对应的待处理URL的该出现频率乘以与该完整链接对应的认证URL的等级值作为该完整链接的权值,将权值符合预定规则的完整链接作为该外部信息源;如果否,将每个该完整链接的对应的待处理URL的该出现频率乘以一预设值作为该完整链接的权值,将权值符合预定规则的完整链接作为该外部信息源。
8.如权利要求1或7所述的方法,其特征在于,该步骤4进一步包括:
利用一本地URL词典获取该外部信息源的名称信息。
9.如权利要求1所述的方法,其特征在于,该步骤4之后进一步包括:
访问该完整链接,提取网页元信息,利用<title>字段中的信息源名称信息更新一本地URL词典。
10.一种基于微博平台的获取事件外部信息源的系统,其特征在于,该系统包括:
待处理URL选取单元,用于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;
完整链接获取单元,用于分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;
过滤单元,用于过滤掉该完整链接中的无效链接;
外部信息源确定单元,用于根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。
CN201510433965.4A 2015-07-22 2015-07-22 一种基于微博平台的事件外部信息源获取方法及系统 Pending CN106372078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510433965.4A CN106372078A (zh) 2015-07-22 2015-07-22 一种基于微博平台的事件外部信息源获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510433965.4A CN106372078A (zh) 2015-07-22 2015-07-22 一种基于微博平台的事件外部信息源获取方法及系统

Publications (1)

Publication Number Publication Date
CN106372078A true CN106372078A (zh) 2017-02-01

Family

ID=57880688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510433965.4A Pending CN106372078A (zh) 2015-07-22 2015-07-22 一种基于微博平台的事件外部信息源获取方法及系统

Country Status (1)

Country Link
CN (1) CN106372078A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597405A (zh) * 2020-12-17 2021-04-02 中国科学院计算技术研究所数字经济产业研究院 基于微博平台的事件外部信息源提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103789A1 (en) * 2001-01-26 2002-08-01 Turnbull Donald R. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103020090A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种提供链接推荐的方法及装置
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103789A1 (en) * 2001-01-26 2002-08-01 Turnbull Donald R. Interface and system for providing persistent contextual relevance for commerce activities in a networked environment
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103020090A (zh) * 2011-09-27 2013-04-03 腾讯科技(深圳)有限公司 一种提供链接推荐的方法及装置
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597405A (zh) * 2020-12-17 2021-04-02 中国科学院计算技术研究所数字经济产业研究院 基于微博平台的事件外部信息源提取方法

Similar Documents

Publication Publication Date Title
Bizer et al. Deployment of rdfa, microdata, and microformats on the web–a quantitative analysis
CN102184185A (zh) 一种用于多媒体资源搜索的方法与设备
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
Chau et al. Web searching in Chinese: A study of a search engine in Hong Kong
CN101916274A (zh) 对LinkUGC进行聚合显示的方法和系统
CN105378730A (zh) 社交媒体分析与输出
CN102567521B (zh) 网页数据抓取过滤方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN105117434A (zh) 一种网页分类方法和系统
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
JP5364012B2 (ja) データ抽出装置、データ抽出方法、および、データ抽出プログラム
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN103618742B (zh) 网站管理员权限验证方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN103617225A (zh) 一种关联网页搜索方法和系统
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN101398856A (zh) 获取导航查询词的方法、装置及展现搜索结果的方法
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
CN106372078A (zh) 一种基于微博平台的事件外部信息源获取方法及系统
CN102819613A (zh) Rss信息分页抓取系统及方法
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170201