CN102053979A - 一种信息收集方法和系统 - Google Patents
一种信息收集方法和系统 Download PDFInfo
- Publication number
- CN102053979A CN102053979A CN 200910210140 CN200910210140A CN102053979A CN 102053979 A CN102053979 A CN 102053979A CN 200910210140 CN200910210140 CN 200910210140 CN 200910210140 A CN200910210140 A CN 200910210140A CN 102053979 A CN102053979 A CN 102053979A
- Authority
- CN
- China
- Prior art keywords
- url pattern
- website
- candidate
- url
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种信息收集方法和系统,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。本发明降低了相关网站的网页之间可能存在大量冗余信息,使网络负载量减小。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种基于特定场所和事件的网站收集方法和系统。
背景技术
随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索引擎已经不能满足用户对某个领域和面向特定主题的查询需求。面向主题的信息服务的目的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求,主题爬虫随之应运而生。主题爬虫抓取的内容只限于特定的主题或专门领域,在抓取的过程中无须对整个网络进行遍历,只需选择与主题相关的页面进行访问。主题爬虫考虑了页面与主题的相关性,但忽略了网页之间的冗余性。
在特定的时间,某些特定公共场所里聚集的人群很可能具有相似的兴趣爱好,而给特定的地方的人发送短信息是个成熟的技术,所以这是可以分众投放广告的一个机会。例如某天在某个体育馆举办某个流行歌手的演唱会,来观看演出的人中应该有一大批对流行音乐比较感兴趣,比较时尚,若对这批人投放时尚音乐手机的广告是个不错的选择。所以如何预先收集到某些特定公共场所的演出、比赛、其它活动的信息对有目标的广告投放应该是很有价值的。这可以归结为一个基于特定场所的事件信息获取问题。
对于某个特定场所而言,事件检索的目的是找到所有与这个场所相关的网页,而目前的WEB(网络)搜索引擎一般较多相关性而较少考虑查全性。若直接用场所名称到WEB上检索,一方面得到的网页往往会出现成百上千,相互之间既有很多相似乃至冗余的地方,逐一进行事件抽取既浪费时间也没有必要;另一方面特定场所的名称往往并不是唯一的,有些包含事件的网页可能用单一的名称无法检索到。采用根据场所名称来生成查询和进行扩展的方法来检索包含事件信息的网页也行不通,因为根据场所名称或场所名称+时间的方法在WEB搜索引擎中基本无法在前几页返回我们需要的网页。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术存在一种基于URL(Uniform Resource Locator,统一资源定位符)模式的重抓取主题爬虫,通过一组种子URL,收集一些相关和不相关的网页,并以此总结出相关和不相关的URL模式,在以后的网页抓取中根据这些相关和不相关的URL模式来进行导航,但其收集的相关网站的网页信息可能存在大量冗余信息,造成网络负载量大。
发明内容
本发明实施例提供一种信息收集方法和系统,从而降低相关网站的网页之间可能存在大量冗余信息。
一方面,本发明实施例提供了一种信息收集方法,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
另一方面,本发明实施例提供了一种信息收集系统,上述系统包括:网站扩充子系统,用于获取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网站;URL模式学习子系统,用于下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;URL模式选取子系统,用于从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
上述技术方案具有如下有益效果:因为首先利用种子网站扩充网站规模,进而根据网页相似性学习URL模式,最后进行URL模式选择的网站信息收集的技术手段,从而降低相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于特定场所和事件的信息收集方法流程图;
图2为本发明实施例一种基于特定场所和事件的信息收集系统结构示意图;
图3为本发明实施例候选网站存储单元存储选取的网站的ID以及URL列表示意图;
图4为本发明实施例初始网页存储单元,过滤网页存储单元和选取网页存储单元都存储网页内容及其URL列表示意图;
图5为本发明实施例URL模式存储单元存储URL模式及其ID列表示意图;
图6为本发明实施例事件信息库存储事件的ID、要素及其所在网页的URL列表示意图;
图7为本发明实施例URL模式-事件映射表的存储方式列表示意图;
图8为本发明实施例给出的获取的URL模式集合的例子列表示意图;
图9为本发明实施例两个相关URL模式列表示意图;
图10为本发明实施例对应于图2所述信息收集系统中各个功能单元工作次序示意图;
图11为本发明实施例网页收集中各个功能单元工作次序示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的输入为特定场所名集合和种子事件集合,输出为URL模式导航器和根据导航器抓取的网页集合。所谓URL模式指的是URL的正则表达式,用于表示一类URL,如URL“www.hotticket.cn/content.asp?id=4621”和“www.hotticket.cn/content.asp?id=2312”等都可以用模式“www.hotticket.cn/content.asp?id=”表示。所谓URL模式导航器指的是URL模式的层次结构,用于表示一个网站所有相关链接爬取路径。
实施例一:
如图1所示,为本发明实施例一种基于特定场所和事件的信息收集方法流程图,上述方法包括:
101,获取特定场所信息和事件信息。
102,根据上述特定场所信息和事件信息,获取候选网站。
可选的,根据上述特定场所信息和事件信息,可以通过网站扩充策略获取候选网站。上述根据上述特定场所信息和事件信息,通过网站扩充策略获取候选网站可以包括:根据上述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在上述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的部分网站作为候选网站。
103,下载上述候选网站的网页。
可选的,可以利用网络爬虫爬取上述候选网站中的网页内容,下载上述候选网站的全部网页。
104,利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页。
105,对包含上述事件信息的网页进行统一资源定位符URL模式学习,获取候选URL模式。
可选的,可以利用共有前缀法对包含上述事件信息的网页进行URL模式学习,获取候选URL模式。
106,利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合。
107,从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式。
可选的,可以从上述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取上述候选URL模式到事件的映射表,然后根据上述映射表,获取大于或等于预置覆盖频率阈值的URL模式。上述将相同事件合并可以包括:利用两个网页信息中的地点、时间、事件名称进行对比,比较通过则将上述两个网页合并为同一事件。上述根据上述映射表,获取大于或等于预置覆盖频率阈值的URL模式可以包括:根据上述映射表,利用增量式贪心算法获取大于或等于预置覆盖频率阈值的URL模式。
108,根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
109(可选的),根据上述大于或等于预置覆盖频率阈值的URL模式和上述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成上述网站信息中的每个网站的URL模式导航器。
110(可选的),利用上述URL模式导航器,从上述网站信息中的每个网站中下载匹配上述URL模式的网页。
本发明上述方法实施例首先根据种子事件和特定场所列表,基于WEB搜索引擎使用事件要素作为查询项选择候选网站;接着,抓取候选网站上的所有网页,把种子事件的要素作为关键词过滤网页,从过滤的网页中学习URL模式,基于学得的URL模式重新过滤网页;最后,从重新过滤的网页中抽取全部事件,使用增量式贪心算法选取URL模式,并且根据模式为选取的每个网站生成URL模式导航器。之后,我们可以根据得到的URL模式导航器来快速的收集事件相关的网页。从网站集合中,定期或不定期下载匹配URL模式集合的网页。随时间的变化,WEB信息将会发生变化,有些网站结构也可能有所调整,我们可以定期进行URL模式导航器的自动获取,来适应这些变化。可以从爬取的网页中抽取事件信息,选取部分新抽取的事件作为种子事件的补充,来提高URL模式的质量。本发明上述方法实施例降低了相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。
实施例二:
对应于上述方法实施例,下面提供一对应的系统实施例。例如:如表1和表2所示输入特定场所名集合和种子事件网站集合,之后生成的一个网站的URL模式导航器如表3所示。
上海八万人体育场 | 上海体育馆 | 虹口足球场 |
东方艺术中心 | 上海话剧艺术中心 | 和平影都 |
贺绿汀音乐厅 | 上海音乐厅 | 上海影城 |
上海美琪大戏院 | 逸夫舞台 | 兰心大戏院 |
上海浦东世纪公园 | 上海植物园 | 大宁灵石公园 |
表1特定场所名集合列表
名称 | URL |
时尚票务 | www.hottickets.cn |
中票在线 | shanghai.ticket.com.cn |
票务之星 | www.tickets365.com.cn |
中国票务通 | www.vipticket.com.cn |
369会网 | www.369hui.com |
一起招聘会 | www.17zph.cn |
上海文化信息 | www.culture.sh.cn |
表2种子事件网站集合列表
表3生成的一个网站的URL模式导航器列表
本发明实施例系统结构图如图2所示,包括网站扩充子系统501、URL模式学习子系统502、URL模式选取子系统503和网页收集子系统504共四个子系统。图2中URL模式学习子系统502中的初始网页存储单元、过滤网页存储单元,选取网页存储单元和网页收集子系统504中的抓取网页存储单元结构相同。
下面给出系统流程:首先网站扩充子系统501根据种子事件和特定场所名列表,基于WEB搜索引擎使用事件要素作为查询项选择候选网站。接着,URL模式学习子系统502抓取候选网站上的所有网页,把种子事件的要素作为关键词过滤网页,从过滤的网页中学习URL模式,基于学得的URL模式重新过滤网页。然后,URL模式选取子系统503从重新过滤的网页中抽取全部事件,使用增量式贪心算法选取URL模式,并且根据模式为每个网站生成URL模式导航器。往后,网页收集子系统504可以根据得到的URL模式导航器来快速的收集事件相关的网页,从网站集合中,定期或不定期下载匹配URL模式集合的网页。
网站扩充子系统501:包括Web搜索引擎模块,网站选取模块和候选网站存储单元。网站扩充子系统501根据种子事件要素(包括事件的名称、发生的地点以及时间)利用Web搜索引擎模块检索网站,查询方式包含但不限于三种方式:已知时间+场所名,未来时间+场所名,已知事件名+场所名。每次查询返回指定个数的结果(如:100个);网站选取模块根据搜索引擎返回的URL统计网站出现的频数,选取网站。下面说明这些模块和存储单元。
Web搜索引擎模块:根据输入的查询项输出相关的URL列表,是已有技术。例如:输入“东方艺术中心+总政军乐团专场音乐会”。会返回一系列相关的URL,以下给出部分网页的URL:
sh.piao.com.cn/ticket_4418.html
www.culture.sh.cn/product.asp?id=6054
data.ent.sina.com.cn/show/s8923.shtml
sh.piao.cn/ticket-9802.html
sh.ticketnet.cn/project2670.html
......
网站选取模块:根据输入的URL列表及其对应的频数选取网站,选取方法包含但不限于:根据多种检索方式返回的URL统计网站出现的频数,对网站进行排序,选取指定个数等于或大于某个预置阈值的网站。
候选网站存储单元:存储选取的网站的ID以及URL,如图3所示。
URL模式学习子系统502:包括四个模块和四个存储单元:网络爬虫模块,基于关键词的网页过滤模块,URL模式学习模块,基于URL模式的网页过滤模块以及初始网页存储单元,过滤网页存储单元,URL模式存储单元和选取网页存储单元。网络爬虫模块下载这些网站的全部网页;基于关键词的网页过滤模块使用但不限于以下方式对网页进行过滤:事件名+场所名;URL模式学习模块根据过滤得到的网页的URL,学习得到URL模式;基于URL模式的网页过滤模块使用URL模式对全部网页再次进行过滤,得到选取的网页集合。下面说明这些存储单元和模块。
初始网页存储单元,过滤网页存储单元和选取网页存储单元:都存储网页内容及其URL,如图4所示。
URL模式存储单元:存储URL模式及其ID,如图5所示。
网络爬虫模块:根据输入的网站名下载整个网站的网页,是已有技术。
基于关键词的网页过滤模块:输入是网页,输出是过滤后的网页,目的是使得过滤后留下的网页都包含事件信息。时间,特定场所名和事件名都可以作为事件过滤的关键词。一般来说,未来事件都有一个时间介绍,人工写出一些可能的时间的正则表达式,例如:\d+:\d+:\d+等。著名场所发生事件的可能性大,而一般事件都有地点的描述,所以可用已收集到的场所信息对网页做过滤。用种子网站的事件抽取系统抽取的事件名对网页做过滤,可以留下更可能包含事件的网页。过滤方法包含但不限于两种方式:“时间表达式+场所名”和“事件名+场所名”。第一种过滤方式是若网页中同时包含时间表达式和场所列表中的某个场所名则保留该网页,否则丢弃;第二种过滤方式是若网页中同时包含事件列表中的某个事件及其发生场所名则保留该网页,否则丢弃。
URL模式学习模块:使用但不限于共有前缀法。一般情况,网站中同类型的网页的URL也基本类似,特别现行的大多网站的页面生成往往是模板加上数据库中数据,对应URL也是文件名加上一个或多个参数的传递,基于这个假设,我们简化URL模式学习为他们共有前缀的学习。从一组URL中总结出若干个URL前缀,为防止扩大化,要求得到的前缀尽可能长,也即是可能的最大前缀。那么,在之后的过滤,某个页面的URL包含其中一个前缀则可保留,否则丢弃。
前缀寻找的基本思想是,看是否有某个URL的最大可能前缀是其他若干个URL的前缀,如果这个数目大于一定阈值,那么这个前缀就可作为一个URL模式,去除包含这个URL模式的URL,然后再在剩下的URL中继续寻找。
上述过程之后还可对得到的URL模式做后处理,比如可对获得的URL模式做去除覆盖性处理,即可能某个URL模式是另一个模式的前缀,则只保留前者,删去后者。另外,对明显的数字结尾情况可以最简化,例如许多网页参数传递往往是数字形式:“..../show.jsp?a=121”,因为一段时间内网站的页面参数可能是在一个范围内,比如这里可能都是以1开头,那么,总结得到的模式是“..../show.jsp?a=1”我们可以将等号后面的数字去掉,变为“..../show.jsp?a=”,已适应更多应当归为一类的URL。共有前缀算法的描述如下:
基于URL模式的网页过滤模块:基于学习得到的URL模式对初始网页存储单元里的所有网页重新过滤,也就是若网页的URL符合URL模式中的某一个,则保留该网页,否则滤掉。这种方法可保留基于关键词方法由于拼写,别称等问题可能遗漏的一些包含事件信息的网页。
基于URL模式的过滤跟基于关键词的过滤相比有3个好处;1、URL模式基本包含已有的过滤页面(不包含的基本是孤立网页),这部分信息的减少十分有限;2、只需查看文件的URL即可,避免了文件的打开,读取等造成的操作,提高效率,3、URL模式一旦学习获得,可应用相当长时间,除非所针对的网站有改版。
URL模式选取子系统503:包括事件抽取模块、事件信息库、URL模式选取模块、选取的URL模式存储单元、导航器生成模块。事件抽取模块从选取网页存储单元中网页的抽取事件,并对事件进行指代消解,得到URL模式到事件的映射表,输出到事件信息库;URL模式选取模块根据上述映射表,使用增量式贪心算法找到一个能覆盖一定比例事件的URL模式集合(即获取大于或等于预置覆盖频率阈值的URL模式);根据URL模式集合得到选取的网站集合。若某个事件e能从某个URL模式up对应的网页中抽取出来,则认为up和e之间存在映射关系。
事件抽取模块:首先识别事件要素;然后对事件要素进行合并,也就是把同一个网页中表示一个事件的要素组合成事件的元组表示;最后对事件进行合并,也就是把表示相同事件的元组进行合并。进行事件要素识别时,使用特定场所名列表抽取网页中所有的特定场所名,使用时间的正则表达式抽取网页中所有的时间,使用一个事件名识别器识别网页中所有的事件名称。可基于最大熵方法等机器学习方法,在一批标注过的语料上训练一个事件名识别模型。
假设在网页中找到的所有事件要素(即:场所名,时间或事件名)顺序表示为a[i],i=1..n.,使用以下事件要素合并算法抽取网页中所有的事件:
上述i表示的是数组的下标,若数组中的第i,i+1,i+2个元素表示一个事件的三个元素,则下一步从这些个元素之后开始再找新的事件的三个元素,所以i=i+3。
对事件进行合并时,首先比较两条信息的地点:若两者字符串完全匹配或者两者有别名关系,则认为地点相同,继续比较;否则认为两个事件不同,结束比较。
然后比较两条信息的时间:若两者都是精确到分,则判断是否相差在半小时内,若是则认为时间相同;否则认为时间不同,结束比较。否则若日期相同,则认为时间相同;否则认为时间不同,结束比较。
最后比较事件名称:首先过滤事件名称中的高频字,然后比较过滤后剩下的文本,相同的视为同一事件。例如:“2008年中国上海abc东方演唱会”,过滤后剩下:“年abc东方”。
事件信息库:存储事件的ID,要素及其所在网页的URL,如图6所示。
URL模式选取模块:根据事件-URL的映射表,以及URL跟URL模式的对应关系,生成URL模式-事件映射表M={up→e,up∈UP,e∈E},这里up→e表示事件e能从符合URL模式up的某个网页中抽取出来,UP表示学习得到的URL模式的集合,E从表示网页中抽取的所有事件的集合。URL模式-事件映射表的存储方式如图7所示。
得到URL模式到事件映射表后,采用增量式贪心算法选择一个URL模式的集合,使得能从符合这个集合中的URL模式的网页中抽取出能覆盖一定比例的事件。增量式贪心算法的步骤如下所示。
上述增量式贪心算法的终止条件包括但不限于:模式的事件抽取增益不大于一定的数量,或事件的覆盖率不小于预置覆盖频率阈值。选择好URL模式集合后,根据集合中URL模式的前缀很自然可以得到对应的网站,由此得到所选取的网站集合。如图8所示,为本发明实施例给出的获取的URL模式集合的例子列表示意图。
导航器的生成模块:首先对网站做广度优先的爬取,记录下网站地图。网站地图是网站页面的树形结构,其节点是下载的某个网页,边是爬虫经过的路径。接着选取出树中跟先前获得的URL模式匹配的相关事件网页节点,然后保留从根节点(网站主页),到所有相关节点的路径,修剪掉其他无关路径。修剪后留下的树结构称为目标页地图(Target Page Map)。最后,对这棵树的每层的网页节点做URL模式的学习,得到每层对应的一个URL模式组,若干层URL模式组就构成了导航器。往后,我们可以根据得到的网站集合以及它们的导航器来快速的收集事件相关的网页。例如www.hottickets.cn网站通过如图9所示两个相关URL模式,生成图4中的导航器。由于网站下载是以广度优先的方式下载的,并且限制下载的深度,所以符合某个URL模式的网页并不是总能从某个路径全部下载。这就使得有些URL模式在导航树的多个层次上都出现,如www.hottickets.cn/content.asp在图4导航树的1-3层上都有。URL模式选取模块获得的URL模式和导航器中的URL模式不相同的原因是导航器中的URL模式进行了进一步的合并。
网页收集子系统504:包括基于导航器的网页抓取模块和抓取网页存储单元。抓取网页存储单元和初始网页存储单元结构相同,基于导航器的网页抓取模块是已有技术。如图11所示,为本发明实施例网页收集中各个功能单元工作次序示意图,包括如下步骤:根据URL模式导航器11,从网站集合中,利用爬虫12定期或不定期下载匹配URL模式集合的网页(即抓取的网页13)。基于导航器的网页抓取模块:有了导航器后,从主页出发,对从主页中获得的该网站的其他URL链接,看是否在导航器的下一层URL模式组中,若在则记录该网页,并进入下一层的下载列表中,否则忽略,依层次下去,直到没有下一层URL模式组为止。
随时间的变化,WEB信息将会发生变化,有些网站结构也可能有所调整,我们可以定期进行URL模式导航器的自动获取,来适应这些变化。如图10所示,为本发明实施例对应于图2所述系统的信息收集系统中各个功能单元工作次序示意图,包括:
网站扩充子系统获501取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网站;
URL模式学习子系统502,用于下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;
URL模式选取子系统503,用于从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,存储于URL模式导航器存储单元,并根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。其中,上述URL模式选取子系统503进一步用于根据上述大于或等于预置覆盖频率阈值的URL模式和上述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成上述网站信息中的每个网站的URL模式导航器;
网页收集子系统504,用于利用上述URL模式导航器,从上述网站信息中的每个网站中下载匹配上述URL模式的网页;
事件抽取单元100可以从爬取的网页(即上述网页收集子系统504下载的匹配上述URL模式的网页)中抽取事件信息存入事件信息库,再选取部分新抽取的事件作为种子事件的补充,来提高URL模式的质量。
本发明上述系统实施例可以自动收集和更新特定场所的事件信息网页。通过学习和选择URL模式的方法,可以降低需要下载的网页数量。本发明实施例需要的输入较少,只需要种子事件信息和特定场所列表,不需要对网页进行人工标注。本发明实施例通过收集能有相当覆盖度的URL模式导航器来对下载过程导航;基于URL模式的重抓取主题爬虫通过收集的相关和不相关URL模式来对下载过程导航。例如有A,B,C三个URL模式,有e1、e2和e3三个事件,其中e1、e2能从A对应的网页中抽取得到,e2、e3能从B对应的网页中抽取得到,e1、e3能从C对应的网页中抽取得到。对于基于URL模式的主题爬虫而言A,B,C三个URL模式都是相关模式;而对于本发明实施例而言,其中任选两个模式(如A,B)都可以覆盖全部事件。所以,本发明实施例比基于URL模式的重抓取主题爬虫(System and a method for focused re-crawling of Web sites)的下载冗余度小,从而网络负载量小。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述全部或部分步骤,所述的存储介质,如:ROM/RAM、磁盘、光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息收集方法,其特征在于,所述方法包括:
获取特定场所信息和事件信息;
根据所述特定场所信息和事件信息,获取候选网站;
下载所述候选网站的网页;
利用所述事件信息对所述候选网站的网页进行过滤,获取包含所述事件信息的网页;
对包含所述事件信息的网页进行统一资源定位符URL模式学习,获取候选URL模式;
利用所述候选URL模式,对所述候选网站的网页再次进行过滤,获取匹配所述候选URL模式的候选网页集合;
从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;
根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
根据所述大于或等于预置覆盖频率阈值的URL模式和所述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成所述网站信息中的每个网站的URL模式导航器;
利用所述URL模式导航器,从所述网站信息中的每个网站中下载匹配所述URL模式的网页。
3.如权利要求1所述方法,其特征在于,所述根据所述特定场所信息和事件信息,获取候选网站包括:
根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站。
4.如权利要求3所述方法,其特征在于,所述根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站包括:
根据所述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在所述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的网站作为候选网站。
5.如权利要求1所述方法,其特征在于,所述从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式包括:
从所述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取所述候选URL模式到事件的映射表,然后根据所述映射表,获取大于或等于预置覆盖频率阈值的URL模式。
6.一种信息收集系统,其特征在于,所述系统包括:
网站扩充子系统,用于获取特定场所信息和事件信息,并根据所述特定场所信息和事件信息,获取候选网站;
URL模式学习子系统,用于下载所述候选网站的网页;利用所述事件信息对所述候选网站的网页进行过滤,获取包含所述事件信息的网页;对包含所述事件信息的网页进行URL模式学习,获取候选URL模式;利用所述候选URL模式,对所述候选网站的网页再次进行过滤,获取匹配所述候选URL模式的候选网页集合;
URL模式选取子系统,用于从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述大于或等于预置覆盖频率阈值的URL模式获取所述URL模式所属的网站信息。
7.如权利要求6所述系统,其特征在于,所述URL模式选取子系统进一步用于根据所述大于或等于预置覆盖频率阈值的URL模式和所述大于或等于预置覆盖频率阈值的URL模式所属的网站信息,生成所述网站信息中的每个网站的URL模式导航器;
所述系统还包括:
网页收集子系统,用于利用所述URL模式导航器,从所述网站信息中的每个网站中下载匹配所述URL模式的网页。
8.如权利要求6所述系统,其特征在于,所述网站扩充子系统,用于根据所述特定场所信息和事件信息,获取候选网站包括:
用于根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站。
9.如权利要求8所述系统,其特征在于,所述网站扩充子系统,用于根据所述特定场所信息和事件信息,通过网站扩充策略获取候选网站包括:
根据所述事件信息的事件要素和/或时间生成查询关键字,提交到WEB搜索引擎,在所述WEB搜索引擎返回结果的URL列表中,选择出现频数大于或者等于预置阈值的部分网站作为候选网站。
10.如权利要求6所述系统,其特征在于,所述URL模式学习子系统,用于从所述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述URL模式获取所述URL模式所属的网站信息包括:
从所述候选网页集合中抽取全部事件,生成事件信息库,并将相同事件合并,获取所述候选URL模式到事件的映射表,然后根据所述映射表,获取大于或等于预置覆盖频率阈值的URL模式,并根据所述URL模式获取所述URL模式所属的网站信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910210140 CN102053979B (zh) | 2009-10-27 | 2009-10-27 | 一种信息收集方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910210140 CN102053979B (zh) | 2009-10-27 | 2009-10-27 | 一种信息收集方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102053979A true CN102053979A (zh) | 2011-05-11 |
CN102053979B CN102053979B (zh) | 2012-12-12 |
Family
ID=43958316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910210140 Expired - Fee Related CN102053979B (zh) | 2009-10-27 | 2009-10-27 | 一种信息收集方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102053979B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542063A (zh) * | 2011-12-30 | 2012-07-04 | 华为技术有限公司 | 内容过滤的方法、装置及系统 |
CN102999590A (zh) * | 2012-11-16 | 2013-03-27 | 北京奇虎科技有限公司 | 识别官方网站的方法和系统 |
CN103020513A (zh) * | 2012-11-16 | 2013-04-03 | 北京奇虎科技有限公司 | 收集文件的方法和系统 |
CN103631906A (zh) * | 2013-11-25 | 2014-03-12 | 北京奇虎科技有限公司 | 一种识别网页url中页码标识的方法和装置 |
CN104240107A (zh) * | 2013-06-18 | 2014-12-24 | 财团法人资讯工业策进会 | 社群数据筛选系统及其方法 |
CN104504115A (zh) * | 2014-12-30 | 2015-04-08 | 北京奇虎科技有限公司 | 一种网页中的poi数据提取方法及装置 |
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
CN105183919A (zh) * | 2015-10-13 | 2015-12-23 | 郑州悉知信息科技股份有限公司 | 一种网站内链的部署方法及装置 |
CN110633446A (zh) * | 2019-11-25 | 2019-12-31 | 湖南蚁坊软件股份有限公司 | 网页栏目识别模型训练方法、使用方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089856A (zh) * | 2007-07-20 | 2007-12-19 | 李沫南 | 一种提取网页数据的方法和Web爬虫系统 |
CN101261634B (zh) * | 2008-04-11 | 2012-11-21 | 哈尔滨工业大学深圳研究生院 | 基于增量Q-Learning的学习方法及系统 |
-
2009
- 2009-10-27 CN CN 200910210140 patent/CN102053979B/zh not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542063B (zh) * | 2011-12-30 | 2015-04-29 | 华为技术有限公司 | 内容过滤的方法、装置及系统 |
CN102542063A (zh) * | 2011-12-30 | 2012-07-04 | 华为技术有限公司 | 内容过滤的方法、装置及系统 |
CN103020513B (zh) * | 2012-11-16 | 2015-11-25 | 北京奇虎科技有限公司 | 收集文件的方法和系统 |
CN103020513A (zh) * | 2012-11-16 | 2013-04-03 | 北京奇虎科技有限公司 | 收集文件的方法和系统 |
CN102999590B (zh) * | 2012-11-16 | 2015-07-29 | 北京奇虎科技有限公司 | 识别官方网站的方法和系统 |
CN102999590A (zh) * | 2012-11-16 | 2013-03-27 | 北京奇虎科技有限公司 | 识别官方网站的方法和系统 |
CN104240107A (zh) * | 2013-06-18 | 2014-12-24 | 财团法人资讯工业策进会 | 社群数据筛选系统及其方法 |
CN104240107B (zh) * | 2013-06-18 | 2017-12-05 | 财团法人资讯工业策进会 | 社群数据筛选系统及其方法 |
CN103631906A (zh) * | 2013-11-25 | 2014-03-12 | 北京奇虎科技有限公司 | 一种识别网页url中页码标识的方法和装置 |
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
CN104504115A (zh) * | 2014-12-30 | 2015-04-08 | 北京奇虎科技有限公司 | 一种网页中的poi数据提取方法及装置 |
CN104504115B (zh) * | 2014-12-30 | 2018-11-09 | 北京奇虎科技有限公司 | 一种网页中的poi数据提取方法及装置 |
CN105183919A (zh) * | 2015-10-13 | 2015-12-23 | 郑州悉知信息科技股份有限公司 | 一种网站内链的部署方法及装置 |
CN105183919B (zh) * | 2015-10-13 | 2018-10-12 | 郑州悉知信息科技股份有限公司 | 一种网站内链的部署方法及装置 |
CN110633446A (zh) * | 2019-11-25 | 2019-12-31 | 湖南蚁坊软件股份有限公司 | 网页栏目识别模型训练方法、使用方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102053979B (zh) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102053979B (zh) | 一种信息收集方法和系统 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN102054004B (zh) | 一种网页推荐方法和装置 | |
CN100573513C (zh) | 用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统 | |
CN100520778C (zh) | 一种互联网主题文件搜索方法、爬虫系统和搜索引擎 | |
CN101299217B (zh) | 一种地图信息处理的方法、装置和系统 | |
CN102306176B (zh) | 一种基于数据仓库内在特征的olap关键词查询方法 | |
US20090150381A1 (en) | Methods and apparatus for computing graph similarity via signature similarity | |
CN102446225A (zh) | 一种实时搜索的方法、装置和系统 | |
CN101452463A (zh) | 定向抓取页面资源的方法和装置 | |
CN103853831A (zh) | 一种基于用户兴趣的个性化搜索实现方法 | |
CN102622451A (zh) | 电视节目标签自动生成系统 | |
WO2007012550A1 (en) | Method and apparatus for constructing a link structure between documents | |
CN102760151A (zh) | 开源软件获取与搜索系统的实现方法 | |
CN101320387A (zh) | 基于用户关注时间的网页文本与图像排序方法 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN102236654A (zh) | 基于内容相关性的Web无效链接过滤方法 | |
CN102193951A (zh) | 信息抽取的方法及系统 | |
CN100477593C (zh) | 网络社区中相关讨论区的选取方法及选取装置 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN103714149A (zh) | 一种自适应增量式的深层网络数据源发现方法 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
CN108427767A (zh) | 一种知识主题和资源文件的关联方法 | |
CN104915388A (zh) | 一种基于谱聚类和众包技术的图书标签推荐方法 | |
CN101655853A (zh) | 建立模型的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121212 Termination date: 20181027 |