CN107291838A - 有效筛分资源的爬虫系统 - Google Patents

有效筛分资源的爬虫系统 Download PDF

Info

Publication number
CN107291838A
CN107291838A CN201710398058.XA CN201710398058A CN107291838A CN 107291838 A CN107291838 A CN 107291838A CN 201710398058 A CN201710398058 A CN 201710398058A CN 107291838 A CN107291838 A CN 107291838A
Authority
CN
China
Prior art keywords
module
reptile
resource
data
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710398058.XA
Other languages
English (en)
Inventor
肖雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Bright Technology Co Ltd
Original Assignee
Chengdu Bright Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Bright Technology Co Ltd filed Critical Chengdu Bright Technology Co Ltd
Priority to CN201710398058.XA priority Critical patent/CN107291838A/zh
Publication of CN107291838A publication Critical patent/CN107291838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了有效筛分资源的爬虫系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元。

Description

有效筛分资源的爬虫系统
技术领域
本发明涉及一种爬虫系统,具体涉及有效筛分资源的爬虫系统。
背景技术
搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。1994年,爬虫程序被应用到索引程序中,Yahoo、Google等相继出现。但至今,功能再强大的搜索引擎都仍然存在信息丢失、更新率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。
在这种情况下定向抓取相关网页资源的主题爬虫应运而生。主题爬虫又称为聚焦爬虫,为自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。作为一种智能的Web爬虫,它的基本工作过程与一般的爬虫是相似的。与一般爬虫不同的是,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
面对越来越庞大的网络资源,提高爬虫程序的速度已成为当前搜索领域的一个焦点问题,现有的爬虫程序筛选的网络资源较多,筛选量较多,筛选的内容也没有一个较好的标准,因此在筛选时的速度较慢,效率也较低。
发明内容
本发明所要解决的技术问题是现有的爬虫系统筛选速度较慢,效率低,目的在于提供有效筛分资源的爬虫系统,解决现有的爬虫系统的筛选速度慢效率也较低的问题。
本发明通过下述技术方案实现:
有效筛分资源的爬虫系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元;
所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;
所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;
所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理;
所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;
所述网页分解模块用于网页的分解、去除广告信息、去除噪声;
所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;
所述更新增量数据库用于存储一个时间周期内网站更新的内容;
所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;
所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据;
所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
有效筛分资源的爬虫系统,所述本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。
有效筛分资源的爬虫系统,所述URL过滤器为基于二进制数组bitSet的过滤器。
有效筛分资源的爬虫系统,所述网络资源收集模块连接有控制模块,所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务,这些信息的数据结构采用Key-value数据。
进一步的,本系统分别创建工作数据库、更新增量数据库和临时增量数据库,其中工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;更新增量数据库用户存储一个时间周期内(通常是一天)网站更新的内容;临时数据库用于存储接着上次爬取断点爬取到的内容;通过爬虫模块爬取网络上的网页;提取网页的主要内容,重新生成适合客户端阅读的网页;对内容文本部分进行分词,得到内容的URL、标题、标签、来源、时间、词频等属性;判断该内容是否是网站更新的内容;如果该内容是网站最近更新的内容,将计算得到的内容属性存入更新增量数据库;否则,存入临时增量数据库;
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明有效筛分资源的爬虫系统,本系统根据人们的兴趣内容做相似度比较,在筛选时通过人们的兴趣爱好进行筛选,筛选的内容更有效率,并且这样筛选的内容也相对较少,因此筛选的速度更快,更加便于使用;
2、本发明有效筛分资源的爬虫系统,本系统的筛选的速度和效率更高,通过工作数据库、更新增量数据库和临时增量数据库,在筛分后的数据资源更加直观,更有利于人们直观的获得数据和资源;
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明有效筛分资源的爬虫系统,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元;
所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;
所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;
所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理;
所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;
所述网页分解模块用于网页的分解、去除广告信息、去除噪声;
所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;
所述更新增量数据库用于存储一个时间周期内网站更新的内容;
所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;
所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据;
所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
所述的有效筛分资源的爬虫系统,本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。
所述的有效筛分资源的爬虫系统,URL过滤器为基于二进制数组bitSet的过滤器。
所述的有效筛分资源的爬虫系统,网络资源收集模块连接有控制模块,所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务,这些信息的数据结构采用Key-value数据。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.有效筛分资源的爬虫系统,其特征在于,包括网络资源收集模块,所述网络资源收集模块包括爬虫分配装置和爬虫执行单元,所述网络资源收集模块连接有爬虫依赖模块和网页分解模块,所述网页分解模块连接有工作数据库,所工作收集库连接有临时增量数据库,所述临时增量数据库连接有更新增量数据库,所述更新增量数据库连接有本地文件子系统,所述本地文件子系统连接一个分布式文件子系统;所述爬虫分配装置包括初始单元、网页下载模块、关闭单元;
所述初始单元用于为网络资源收集准备必要的存储空间及系统开销;
所述网页下载模块用于根据目标网络资源的数据类型选择不同爬虫程序收集目标网络资源的数据;
所述关闭单元用于在收集装置收集到所需要的目标数据后释放系统开销以及在收集装置出现异常时进行异常处理;
所述爬虫依赖模块用于配置网络资源收集模块与目标网络资源之间的依赖关系;网络资源收集模块能够通过爬虫依赖模块建立的依赖关系,通过爬虫分配装置配置相应爬虫执行单元执行资源收集;
所述网页分解模块用于网页的分解、去除广告信息、去除噪声;
所述工作数据库用于和当前用户兴趣内容做相似度比较,根据相似度排序为用户推送内容;
所述更新增量数据库用于存储一个时间周期内网站更新的内容;
所述临时增量数据库用于存储接着上次爬取断点爬取到的内容;
所述本地文件子系统用于存储所述爬虫服务器收到的所述网页数据;
所述分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
2.根据权利要求1所述的有效筛分资源的爬虫系统,其特征在于,所述本地文件子系统包括URL过滤器,所述URL过滤器用于对收集的网页数据进行重排。
3.根据权利要求2所述的有效筛分资源的爬虫系统,其特征在于,所述URL过滤器为基于二进制数组bitSet的过滤器。
4.根据权利要求1所述的有效筛分资源的爬虫系统,其特征在于,所述网络资源收集模块连接有控制模块,所述控制模块用于存储各个爬行节点的状态信息、全局爬行信息和各个爬行节点的任务,这些信息的数据结构采用Key-value数据。
CN201710398058.XA 2017-05-31 2017-05-31 有效筛分资源的爬虫系统 Pending CN107291838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710398058.XA CN107291838A (zh) 2017-05-31 2017-05-31 有效筛分资源的爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710398058.XA CN107291838A (zh) 2017-05-31 2017-05-31 有效筛分资源的爬虫系统

Publications (1)

Publication Number Publication Date
CN107291838A true CN107291838A (zh) 2017-10-24

Family

ID=60095039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710398058.XA Pending CN107291838A (zh) 2017-05-31 2017-05-31 有效筛分资源的爬虫系统

Country Status (1)

Country Link
CN (1) CN107291838A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
US20100262592A1 (en) * 2005-05-31 2010-10-14 Brawer Sascha B Web Crawler Scheduler that Utilizes Sitemaps from Websites
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN103902732A (zh) * 2014-04-18 2014-07-02 北京大学 自适应网络资源收集系统的构建及网络资源收集方法
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262592A1 (en) * 2005-05-31 2010-10-14 Brawer Sascha B Web Crawler Scheduler that Utilizes Sitemaps from Websites
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN103902732A (zh) * 2014-04-18 2014-07-02 北京大学 自适应网络资源收集系统的构建及网络资源收集方法
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置

Similar Documents

Publication Publication Date Title
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN105243159B (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN109829096B (zh) 一种数据采集方法、装置、电子设备及存储介质
CN104077402A (zh) 数据处理方法和数据处理系统
CN105320740A (zh) 微信文章以及公众号的获取方法及获取系统
CN102982162B (zh) 网页信息的获取系统
CN103678494A (zh) 客户端同步服务端数据的方法及装置
CN105045838A (zh) 基于分布式存储系统的网络爬虫系统
CN103186600B (zh) 互联网舆情的专题分析方法和装置
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN103970788A (zh) 一种基于网页爬取的爬虫技术
CN102314463A (zh) 分布式爬虫系统及其提取网页数据的方法
KR20120101365A (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
CN102982161A (zh) 网页信息的获取方法和装置
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN103019879A (zh) 浏览器崩溃信息的处理方法及系统
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN106657228A (zh) 一种利用云端进行并发采集的爬虫实现方法
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
CN104850549A (zh) 一种网络舆情的监控方法
CN106339408A (zh) 数据同步方法、数据同步装置和服务器
KR20190108657A (ko) 유사 그룹 요소 추출
CN103258017A (zh) 一种并行的垂直交叉网络数据采集方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024

RJ01 Rejection of invention patent application after publication