CN102053979B - 一种信息收集方法和系统 - Google Patents

一种信息收集方法和系统 Download PDF

Info

Publication number
CN102053979B
CN102053979B CN 200910210140 CN200910210140A CN102053979B CN 102053979 B CN102053979 B CN 102053979B CN 200910210140 CN200910210140 CN 200910210140 CN 200910210140 A CN200910210140 A CN 200910210140A CN 102053979 B CN102053979 B CN 102053979B
Authority
CN
China
Prior art keywords
url pattern
website
candidate
url
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910210140
Other languages
English (en)
Other versions
CN102053979A (zh
Inventor
周雅倩
姜孟晋
何一鸣
谭卫国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Huawei Technologies Co Ltd
Original Assignee
Fudan University
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Huawei Technologies Co Ltd filed Critical Fudan University
Priority to CN 200910210140 priority Critical patent/CN102053979B/zh
Publication of CN102053979A publication Critical patent/CN102053979A/zh
Application granted granted Critical
Publication of CN102053979B publication Critical patent/CN102053979B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种信息收集方法和系统,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。本发明降低了相关网站的网页之间可能存在大量冗余信息,使网络负载量减小。

Description

一种信息收集方法和系统
技术领域
本发明涉及互联网领域,尤其涉及一种基于特定场所和事件的网站收集方法和系统。
背景技术
随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索引擎已经不能满足用户对某个领域和面向特定主题的查询需求。面向主题的信息服务的目的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求,主题爬虫随之应运而生。主题爬虫抓取的内容只限于特定的主题或专门领域,在抓取的过程中无须对整个网络进行遍历,只需选择与主题相关的页面进行访问。主题爬虫考虑了页面与主题的相关性,但忽略了网页之间的冗余性。
在特定的时间,某些特定公共场所里聚集的人群很可能具有相似的兴趣爱好,而给特定的地方的人发送短信息是个成熟的技术,所以这是可以分众投放广告的一个机会。例如某天在某个体育馆举办某个流行歌手的演唱会,来观看演出的人中应该有一大批对流行音乐比较感兴趣,比较时尚,若对这批人投放时尚音乐手机的广告是个不错的选择。所以如何预先收集到某些特定公共场所的演出、比赛、其它活动的信息对有目标的广告投放应该是很有价值的。这可以归结为一个基于特定场所的事件信息获取问题。
对于某个特定场所而言,事件检索的目的是找到所有与这个场所相关的网页,而目前的WEB(网络)搜索引擎一般较多相关性而较少考虑查全性。若直接用场所名称到WEB上检索,一方面得到的网页往往会出现成百上千,相互之间既有很多相似乃至冗余的地方,逐一进行事件抽取既浪费时间也没有必要;另一方面特定场所的名称往往并不是唯一的,有些包含事件的网页可能用单一的名称无法检索到。采用根据场所名称来生成查询和进行扩展的方法来检索包含事件信息的网页也行不通,因为根据场所名称或场所名称+时间的方法在WEB搜索引擎中基本无法在前几页返回我们需要的网页。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术存在一种基于URL(Uniform Resource Locator,统一资源定位符)模式的重抓取主题爬虫,通过一组种子URL,收集一些相关和不相关的网页,并以此总结出相关和不相关的URL模式,在以后的网页抓取中根据这些相关和不相关的URL模式来进行导航,但其收集的相关网站的网页信息可能存在大量冗余信息,造成网络负载量大。
发明内容
本发明实施例提供一种信息收集方法和系统,从而降低相关网站的网页之间可能存在大量冗余信息。
一方面,本发明实施例提供了一种信息收集方法,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;所述URL模式指的是URL的正则表达式,用于表示一类URL;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
另一方面,本发明实施例提供了一种信息收集系统,上述系统包括:网站扩充子系统,用于获取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网站;URL模式学习子系统,用于下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;所述URL模式指的是URL的正则表达式,用于表示一类URL;URL模式选取子系统,用于从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
上述技术方案具有如下有益效果:因为首先利用种子网站扩充网站规模,进而根据网页相似性学习URL模式,最后进行URL模式选择的网站信息收集的技术手段,从而降低相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于特定场所和事件的信息收集方法流程图;
图2为本发明实施例一种基于特定场所和事件的信息收集系统结构示意图;
图3为本发明实施例候选网站存储单元存储选取的网站的ID以及URL列表示意图;
图4为本发明实施例初始网页存储单元,过滤网页存储单元和选取网页存储单元都存储网页内容及其URL列表示意图;
图5为本发明实施例URL模式存储单元存储URL模式及其ID列表示意图;
图6为本发明实施例事件信息库存储事件的ID、要素及其所在网页的URL列表示意图;
图7为本发明实施例URL模式-事件映射表的存储方式列表示意图;
图8为本发明实施例给出的获取的URL模式集合的例子列表示意图;
图9为本发明实施例两个相关URL模式列表示意图;
图10为本发明实施例对应于图2所述信息收集系统中各个功能单元工作次序示意图;
图11为本发明实施例网页收集中各个功能单元工作次序示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的输入为特定场所名集合和种子事件集合,输出为URL模式导航器和根据导航器抓取的网页集合。所谓URL模式指的是URL的正则表达式,用于表示一类URL,如URL“www.hotticket.cn/content.asp?id=4621”和“www.hotticket.cn/content.asp?id=2312”等都可以用模式“www.hotticket.cn/content.asp?id=”表示。所谓URL模式导航器指的是URL模式的层次结构,用于表示一个网站所有相关链接爬取路径。
实施例一:
如图1所示,为本发明实施例一种基于特定场所和事件的信息收集方法流程图,上述方法包括:
101,获取特定场所信息和事件信息。
102,根据上述特定场所信息和事件信息,获取候选网站。
可选的,根据上述特定场所信息和事件信息,可以通过网站扩充策略获取候选网站。上述根据上述特定场所信息和事件信息,通过网站扩充策略获取候选网站可以包括:根据上述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在上述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的部分网站作为候选网站。
103,下载上述候选网站的网页。
可选的,可以利用网络爬虫爬取上述候选网站中的网页内容,下载上述候选网站的全部网页。
104,利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页。
105,对包含上述事件信息的网页进行统一资源定位符URL模式学习,获取候选URL模式。
可选的,可以利用共有前缀法对包含上述事件信息的网页进行URL模式学习,获取候选URL模式。
106,利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合。
107,从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式。
可选的,可以从上述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取上述候选URL模式到事件的映射表,然后根据上述映射表,获取大于或等于预置覆盖频率阈值的URL模式。上述将相同事件合并可以包括:利用两个网页信息中的地点、时间、事件名称进行对比,比较通过则将上述两个网页合并为同一事件。上述根据上述映射表,获取大于或等于预置覆盖频率阈值的URL模式可以包括:根据上述映射表,利用增量式贪心算法获取大于或等于预置覆盖频率阈值的URL模式。
108,根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
109(可选的),根据上述大于或等于预置覆盖频率阈值的URL模式和上述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成上述网站信息中的每个网站的URL模式导航器。
110(可选的),利用上述URL模式导航器,从上述网站信息中的每个网站中下载匹配上述URL模式的网页。
本发明上述方法实施例首先根据种子事件和特定场所列表,基于WEB搜索引擎使用事件要素作为查询项选择候选网站;接着,抓取候选网站上的所有网页,把种子事件的要素作为关键词过滤网页,从过滤的网页中学习URL模式,基于学得的URL模式重新过滤网页;最后,从重新过滤的网页中抽取全部事件,使用增量式贪心算法选取URL模式,并且根据模式为选取的每个网站生成URL模式导航器。之后,我们可以根据得到的URL模式导航器来快速的收集事件相关的网页。从网站集合中,定期或不定期下载匹配URL模式集合的网页。随时间的变化,WEB信息将会发生变化,有些网站结构也可能有所调整,我们可以定期进行URL模式导航器的自动获取,来适应这些变化。可以从爬取的网页中抽取事件信息,选取部分新抽取的事件作为种子事件的补充,来提高URL模式的质量。本发明上述方法实施例降低了相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。
实施例二:
对应于上述方法实施例,下面提供一对应的系统实施例。例如:如表1和表2所示输入特定场所名集合和种子事件网站集合,之后生成的一个网站的URL模式导航器如表3所示。
  上海八万人体育场   上海体育馆   虹口足球场
  东方艺术中心   上海话剧艺术中心   和平影都
  贺绿汀音乐厅   上海音乐厅   上海影城
  上海美琪大戏院   逸夫舞台   兰心大戏院
  上海浦东世纪公园   上海植物园   大宁灵石公园
表1特定场所名集合列表
  名称   URL
  时尚票务   www.hottickets.cn
  中票在线   shanghai.ticket.com.cn
  票务之星   www.tickets365.com.cn
  中国票务通   www.vipticket.com.cn
  369会网   www.369hui.com
  一起招聘会   www.17zph.cn
  上海文化信息   www.culture.sh.cn
表2种子事件网站集合列表
Figure GDA00002070435400071
表3生成的一个网站的URL模式导航器列表
本发明实施例系统结构图如图2所示,包括网站扩充子系统501、URL模式学习子系统502、URL模式选取子系统503和网页收集子系统504共四个子系统。图2中URL模式学习子系统502中的初始网页存储单元、过滤网页存储单元,选取网页存储单元和网页收集子系统504中的抓取网页存储单元结构相同。
下面给出系统流程:首先网站扩充子系统501根据种子事件和特定场所名列表,基于WEB搜索引擎使用事件要素作为查询项选择候选网站。接着,URL模式学习子系统502抓取候选网站上的所有网页,把种子事件的要素作为关键词过滤网页,从过滤的网页中学习URL模式,基于学得的URL模式重新过滤网页。然后,URL模式选取子系统503从重新过滤的网页中抽取全部事件,使用增量式贪心算法选取URL模式,并且根据模式为每个网站生成URL模式导航器。往后,网页收集子系统504可以根据得到的URL模式导航器来快速的收集事件相关的网页,从网站集合中,定期或不定期下载匹配URL模式集合的网页。
网站扩充子系统501:包括Web搜索引擎模块,网站选取模块和候选网站存储单元。网站扩充子系统501根据种子事件要素(包括事件的名称、发生的地点以及时间)利用Web搜索引擎模块检索网站,查询方式包含但不限于三种方式:已知时间+场所名,未来时间+场所名,已知事件名+场所名。每次查询返回指定个数的结果(如:100个);网站选取模块根据搜索引擎返回的URL统计网站出现的频数,选取网站。下面说明这些模块和存储单元。
Web搜索引擎模块:根据输入的查询项输出相关的URL列表,是已有技术。例如:输入“东方艺术中心+总政军乐团专场音乐会”。会返回一系列相关的URL,以下给出部分网页的URL:
sh.piao.com.cn/ticket_4418.html
www.culture.sh.cn/product.asp?id=6054
data.ent.sina.com.cn/show/s8923.shtml
sh.piao.cn/ticket-9802.html
sh.ticketnet.cn/project2670.html
……
网站选取模块:根据输入的URL列表及其对应的频数选取网站,选取方法包含但不限于:根据多种检索方式返回的URL统计网站出现的频数,对网站进行排序,选取指定个数等于或大于某个预置阈值的网站。
候选网站存储单元:存储选取的网站的ID以及URL,如图3所示。
URL模式学习子系统502:包括四个模块和四个存储单元:网络爬虫模块,基于关键词的网页过滤模块,URL模式学习模块,基于URL模式的网页过滤模块以及初始网页存储单元,过滤网页存储单元,URL模式存储单元和选取网页存储单元。网络爬虫模块下载这些网站的全部网页;基于关键词的网页过滤模块使用但不限于以下方式对网页进行过滤:事件名+场所名;URL模式学习模块根据过滤得到的网页的URL,学习得到URL模式;基于URL模式的网页过滤模块使用URL模式对全部网页再次进行过滤,得到选取的网页集合。下面说明这些存储单元和模块。
初始网页存储单元,过滤网页存储单元和选取网页存储单元:都存储网页内容及其URL,如图4所示。
URL模式存储单元:存储URL模式及其ID,如图5所示。
网络爬虫模块:根据输入的网站名下载整个网站的网页,是已有技术。
基于关键词的网页过滤模块:输入是网页,输出是过滤后的网页,目的是使得过滤后留下的网页都包含事件信息。时间,特定场所名和事件名都可以作为事件过滤的关键词。一般来说,未来事件都有一个时间介绍,人工写出一些可能的时间的正则表达式,例如:\d+:\d+:\d+等。著名场所发生事件的可能性大,而一般事件都有地点的描述,所以可用已收集到的场所信息对网页做过滤。用种子网站的事件抽取系统抽取的事件名对网页做过滤,可以留下更可能包含事件的网页。过滤方法包含但不限于两种方式:“时间表达式+场所名”和“事件名+场所名”。第一种过滤方式是若网页中同时包含时间表达式和场所列表中的某个场所名则保留该网页,否则丢弃;第二种过滤方式是若网页中同时包含事件列表中的某个事件及其发生场所名则保留该网页,否则丢弃。
URL模式学习模块:使用但不限于共有前缀法。一般情况,网站中同类型的网页的URL也基本类似,特别现行的大多网站的页面生成往往是模板加上数据库中数据,对应URL也是文件名加上一个或多个参数的传递,基于这个假设,我们简化URL模式学习为他们共有前缀的学习。从一组URL中总结出若干个URL前缀,为防止扩大化,要求得到的前缀尽可能长,也即是可能的最大前缀。那么,在之后的过滤,某个页面的URL包含其中一个前缀则可保留,否则丢弃。
前缀寻找的基本思想是,看是否有某个URL的最大可能前缀是其他若干个URL的前缀,如果这个数目大于一定阈值,那么这个前缀就可作为一个URL模式,去除包含这个URL模式的URL,然后再在剩下的URL中继续寻找。
上述过程之后还可对得到的URL模式做后处理,比如可对获得的URL模式做去除覆盖性处理,即可能某个URL模式是另一个模式的前缀,则只保留前者,删去后者。另外,对明显的数字结尾情况可以最简化,例如许多网页参数传递往往是数字形式:“..../show.jsp?a=121”,因为一段时间内网站的页面参数可能是在一个范围内,比如这里可能都是以1开头,那么,总结得到的模式是“..../show.jsp?a=1”我们可以将等号后面的数字去掉,变为“..../show.jsp?a=”,已适应更多应当归为一类的URL。共有前缀算法的描述如下:
Figure GDA00002070435400101
基于URL模式的网页过滤模块:基于学习得到的URL模式对初始网页存储单元里的所有网页重新过滤,也就是若网页的URL符合URL模式中的某一个,则保留该网页,否则滤掉。这种方法可保留基于关键词方法由于拼写,别称等问题可能遗漏的一些包含事件信息的网页。
基于URL模式的过滤跟基于关键词的过滤相比有3个好处;1、URL模式基本包含已有的过滤页面(不包含的基本是孤立网页),这部分信息的减少十分有限;2、只需查看文件的URL即可,避免了文件的打开,读取等造成的操作,提高效率,3、URL模式一旦学习获得,可应用相当长时间,除非所针对的网站有改版。
URL模式选取子系统503:包括事件抽取模块、事件信息库、URL模式选取模块、选取的URL模式存储单元、导航器生成模块。事件抽取模块从选取网页存储单元中网页的抽取事件,并对事件进行指代消解,得到URL模式到事件的映射表,输出到事件信息库;URL模式选取模块根据上述映射表,使用增量式贪心算法找到一个能覆盖一定比例事件的URL模式集合(即获取大于或等于预置覆盖频率阈值的URL模式);根据URL模式集合得到选取的网站集合。若某个事件e能从某个URL模式up对应的网页中抽取出来,则认为up和e之间存在映射关系。
事件抽取模块:首先识别事件要素;然后对事件要素进行合并,也就是把同一个网页中表示一个事件的要素组合成事件的元组表示;最后对事件进行合并,也就是把表示相同事件的元组进行合并。进行事件要素识别时,使用特定场所名列表抽取网页中所有的特定场所名,使用时间的正则表达式抽取网页中所有的时间,使用一个事件名识别器识别网页中所有的事件名称。可基于最大熵方法等机器学习方法,在一批标注过的语料上训练一个事件名识别模型。
假设在网页中找到的所有事件要素(即:场所名,时间或事件名)顺序表示为a[i],i=1..n.,使用以下事件要素合并算法抽取网页中所有的事件:
Figure GDA00002070435400111
Figure GDA00002070435400121
上述i表示的是数组的下标,若数组中的第i,i+1,i+2个元素表示一个事件的三个元素,则下一步从这些个元素之后开始再找新的事件的三个元素,所以i=i+3。
对事件进行合并时,首先比较两条信息的地点:若两者字符串完全匹配或者两者有别名关系,则认为地点相同,继续比较;否则认为两个事件不同,结束比较。
然后比较两条信息的时间:若两者都是精确到分,则判断是否相差在半小时内,若是则认为时间相同;否则认为时间不同,结束比较。否则若日期相同,则认为时间相同;否则认为时间不同,结束比较。
最后比较事件名称:首先过滤事件名称中的高频字,然后比较过滤后剩下的文本,相同的视为同一事件。例如:“2008年中国上海abc东方演唱会”,过滤后剩下:“年abc东方”。
事件信息库:存储事件的ID,要素及其所在网页的URL,如图6所示。
URL模式选取模块:根据事件-URL的映射表,以及URL跟URL模式的对应关系,生成URL模式-事件映射表M={up→e,up∈UP,e∈E},这里up→e表示事件e能从符合URL模式up的某个网页中抽取出来,UP表示学习得到的URL模式的集合,E从表示网页中抽取的所有事件的集合。URL模式-事件映射表的存储方式如图7所示。
得到URL模式到事件映射表后,采用增量式贪心算法选择一个URL模式的集合,使得能从符合这个集合中的URL模式的网页中抽取出能覆盖一定比例的事件。增量式贪心算法的步骤如下所示。
Figure GDA00002070435400122
上述增量式贪心算法的终止条件包括但不限于:模式的事件抽取增益不大于一定的数量,或事件的覆盖率不小于预置覆盖频率阈值。选择好URL模式集合后,根据集合中URL模式的前缀很自然可以得到对应的网站,由此得到所选取的网站集合。如图8所示,为本发明实施例给出的获取的URL模式集合的例子列表示意图。
导航器的生成模块:首先对网站做广度优先的爬取,记录下网站地图。网站地图是网站页面的树形结构,其节点是下载的某个网页,边是爬虫经过的路径。接着选取出树中跟先前获得的URL模式匹配的相关事件网页节点,然后保留从根节点(网站主页),到所有相关节点的路径,修剪掉其他无关路径。修剪后留下的树结构称为目标页地图(Target Page Map)。最后,对这棵树的每层的网页节点做URL模式的学习,得到每层对应的一个URL模式组,若干层URL模式组就构成了导航器。往后,我们可以根据得到的网站集合以及它们的导航器来快速的收集事件相关的网页。例如www.hottickets.cn网站通过如图9所示两个相关URL模式,生成图4中的导航器。由于网站下载是以广度优先的方式下载的,并且限制下载的深度,所以符合某个URL模式的网页并不是总能从某个路径全部下载。这就使得有些URL模式在导航树的多个层次上都出现,如www.hottickets.cn/content.asp在图4导航树的1-3层上都有。URL模式选取模块获得的URL模式和导航器中的URL模式不相同的原因是导航器中的URL模式进行了进一步的合并。
网页收集子系统504:包括基于导航器的网页抓取模块和抓取网页存储单元。抓取网页存储单元和初始网页存储单元结构相同,基于导航器的网页抓取模块是已有技术。如图11所示,为本发明实施例网页收集中各个功能单元工作次序示意图,包括如下步骤:根据URL模式导航器11,从网站集合中,利用爬虫12定期或不定期下载匹配URL模式集合的网页(即抓取的网页13)。基于导航器的网页抓取模块:有了导航器后,从主页出发,对从主页中获得的该网站的其他URL链接,看是否在导航器的下一层URL模式组中,若在则记录该网页,并进入下一层的下载列表中,否则忽略,依层次下去,直到没有下一层URL模式组为止。
随时间的变化,WEB信息将会发生变化,有些网站结构也可能有所调整,我们可以定期进行URL模式导航器的自动获取,来适应这些变化。如图10所示,为本发明实施例对应于图2所述系统的信息收集系统中各个功能单元工作次序示意图,包括:
网站扩充子系统获501取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网站;
URL模式学习子系统502,用于下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;
URL模式选取子系统503,用于从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,存储于URL模式导航器存储单元,并根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。其中,上述URL模式选取子系统503进一步用于根据上述大于或等于预置覆盖频率阈值的URL模式和上述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成上述网站信息中的每个网站的URL模式导航器;
网页收集子系统504,用于利用上述URL模式导航器,从上述网站信息中的每个网站中下载匹配上述URL模式的网页;
事件抽取单元100可以从爬取的网页(即上述网页收集子系统504下载的匹配上述URL模式的网页)中抽取事件信息存入事件信息库,再选取部分新抽取的事件作为种子事件的补充,来提高URL模式的质量。
本发明上述系统实施例可以自动收集和更新特定场所的事件信息网页。通过学习和选择URL模式的方法,可以降低需要下载的网页数量。本发明实施例需要的输入较少,只需要种子事件信息和特定场所列表,不需要对网页进行人工标注。本发明实施例通过收集能有相当覆盖度的URL模式导航器来对下载过程导航;基于URL模式的重抓取主题爬虫通过收集的相关和不相关URL模式来对下载过程导航。例如有A,B,C三个URL模式,有e1、e2和e3三个事件,其中e1、e2能从A对应的网页中抽取得到,e2、e3能从B对应的网页中抽取得到,e1、e3能从C对应的网页中抽取得到。对于基于URL模式的主题爬虫而言A,B,C三个URL模式都是相关模式;而对于本发明实施例而言,其中任选两个模式(如A,B)都可以覆盖全部事件。所以,本发明实施例比基于URL模式的重抓取主题爬虫(System and a method forfocused re-crawling of Web sites)的下载冗余度小,从而网络负载量小。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述全部或部分步骤,所述的存储介质,如:ROM/RAM、磁盘、光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种信息收集方法,其特征在于,所述方法包括:
获取特定场所信息和事件信息;
根据所述特定场所信息和事件信息,获取候选网站;
下载所述候选网站的网页;
利用所述事件信息对所述候选网站的网页进行过滤,获取包含所述事件信息的网页;
对包含所述事件信息的网页进行统一资源定位符URL模式学习,获取候选URL模式;所述URL模式指的是URL的正则表达式,用于表示一类URL;
利用所述候选URL模式,对所述候选网站的网页再次进行过滤,获取匹配所述候选URL模式的候选网页集合;
从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;
根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
根据所述大于或等于预置覆盖频率阈值的URL模式和所述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成所述网站信息中的每个网站的URL模式导航器,所述URL模式导航器指的是URL模式的层次结构,用于表示一个网站所有相关链接爬取路径;
利用所述URL模式导航器,从所述网站信息中的每个网站中下载匹配所述URL模式的网页。
3.如权利要求1所述方法,其特征在于,所述根据所述特定场所信息和事件信息,获取候选网站包括:根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站;
所述根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站,包括:
根据所述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在所述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的网站作为候选网站。
4.如权利要求1所述方法,其特征在于,所述从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式包括:
从所述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取所述候选URL模式到事件的映射表,然后根据所述映射表,获取大于或等于预置覆盖频率阈值的URL模式。
5.一种信息收集系统,其特征在于,所述系统包括:
网站扩充子系统,用于获取特定场所信息和事件信息,并根据所述特定场所信息和事件信息,获取候选网站;
URL模式学习子系统,用于下载所述候选网站的网页;利用所述事件信息对所述候选网站的网页进行过滤,获取包含所述事件信息的网页;对包含所述事件信息的网页进行URL模式学习,获取候选URL模式;利用所述候选URL模式,对所述候选网站的网页再次进行过滤,获取匹配所述候选URL模式的候选网页集合;所述URL模式指的是URL的正则表达式,用于表示一类URL;
URL模式选取子系统,用于从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息。
6.如权利要求5所述系统,其特征在于,所述URL模式选取子系统进一步用于根据所述大于或等于预置覆盖频率阈值的URL模式和所述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成所述网站信息中的每个网站的URL模式导航器,所述URL模式导航器指的是URL模式的层次结构,用于表示一个网站所有相关链接爬取路径;
所述系统还包括:
网页收集子系统,用于利用所述URL模式导航器,从所述网站信息中的每个网站中下载匹配所述URL模式的网页。
7.如权利要求5所述系统,其特征在于,所述网站扩充子系统,用于根据所述特定场所信息和事件信息,获取候选网站包括:用于根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站;
所述用于根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站,包括:
根据所述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在所述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的部分网站作为候选网站。
8.如权利要求5所述系统,其特征在于,所述URL模式选取子系统,用于从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息包括:
从所述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取所述候选URL模式到事件的映射表,然后根据所述映射表,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述URL模式获取所述URL模式所属的网站信息。
CN 200910210140 2009-10-27 2009-10-27 一种信息收集方法和系统 Expired - Fee Related CN102053979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910210140 CN102053979B (zh) 2009-10-27 2009-10-27 一种信息收集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910210140 CN102053979B (zh) 2009-10-27 2009-10-27 一种信息收集方法和系统

Publications (2)

Publication Number Publication Date
CN102053979A CN102053979A (zh) 2011-05-11
CN102053979B true CN102053979B (zh) 2012-12-12

Family

ID=43958316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910210140 Expired - Fee Related CN102053979B (zh) 2009-10-27 2009-10-27 一种信息收集方法和系统

Country Status (1)

Country Link
CN (1) CN102053979B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542063B (zh) * 2011-12-30 2015-04-29 华为技术有限公司 内容过滤的方法、装置及系统
CN103020513B (zh) * 2012-11-16 2015-11-25 北京奇虎科技有限公司 收集文件的方法和系统
CN102999590B (zh) * 2012-11-16 2015-07-29 北京奇虎科技有限公司 识别官方网站的方法和系统
TWI575391B (zh) * 2013-06-18 2017-03-21 財團法人資訊工業策進會 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
WO2015074455A1 (zh) * 2013-11-25 2015-05-28 北京奇虎科技有限公司 一种计算关联网页URL模式pattern的方法和装置
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN104504115B (zh) * 2014-12-30 2018-11-09 北京奇虎科技有限公司 一种网页中的poi数据提取方法及装置
CN105183919B (zh) * 2015-10-13 2018-10-12 郑州悉知信息科技股份有限公司 一种网站内链的部署方法及装置
CN110633446B (zh) * 2019-11-25 2020-03-13 湖南蚁坊软件股份有限公司 网页栏目识别模型训练方法、使用方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN101261634A (zh) * 2008-04-11 2008-09-10 哈尔滨工业大学深圳研究生院 基于增量Q-Learning的学习方法及系统

Also Published As

Publication number Publication date
CN102053979A (zh) 2011-05-11

Similar Documents

Publication Publication Date Title
CN102053979B (zh) 一种信息收集方法和系统
Wu et al. Topical trustrank: Using topicality to combat web spam
CN100520778C (zh) 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
CN101853272B (zh) 基于相关反馈和聚类的搜索引擎技术
CN101299217B (zh) 一种地图信息处理的方法、装置和系统
CN102306176B (zh) 一种基于数据仓库内在特征的olap关键词查询方法
CN103853831A (zh) 一种基于用户兴趣的个性化搜索实现方法
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN102622451A (zh) 电视节目标签自动生成系统
CN101320387A (zh) 基于用户关注时间的网页文本与图像排序方法
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
WO2007012550A1 (en) Method and apparatus for constructing a link structure between documents
CN102521321A (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN108959580A (zh) 一种标签数据的优化方法及系统
CN102236654A (zh) 基于内容相关性的Web无效链接过滤方法
CN100477593C (zh) 网络社区中相关讨论区的选取方法及选取装置
CN106021418A (zh) 新闻事件的聚类方法及装置
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN104915388B (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
Tian A kind of algorithm for page ranking based on classified tree in search engine
Kritikopoulos et al. The Compass Filter: Search engine result personalization using Web communities
CN108427767A (zh) 一种知识主题和资源文件的关联方法
CN104636403A (zh) 处理查询请求的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121212

Termination date: 20181027