CN104008190A - 一种爬虫系统及其方法 - Google Patents

一种爬虫系统及其方法 Download PDF

Info

Publication number
CN104008190A
CN104008190A CN201410259561.3A CN201410259561A CN104008190A CN 104008190 A CN104008190 A CN 104008190A CN 201410259561 A CN201410259561 A CN 201410259561A CN 104008190 A CN104008190 A CN 104008190A
Authority
CN
China
Prior art keywords
channel
information
crawler system
web page
date issued
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410259561.3A
Other languages
English (en)
Other versions
CN104008190B (zh
Inventor
于权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minxing Information Technology Co.,Ltd.
Original Assignee
Knowlegeable Information Technology Co Ltd In Nanjing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowlegeable Information Technology Co Ltd In Nanjing filed Critical Knowlegeable Information Technology Co Ltd In Nanjing
Priority to CN201410259561.3A priority Critical patent/CN104008190B/zh
Publication of CN104008190A publication Critical patent/CN104008190A/zh
Application granted granted Critical
Publication of CN104008190B publication Critical patent/CN104008190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。

Description

一种爬虫系统及其方法
技术领域
本发明属于网络通信技术领域,具体涉及其一种爬虫系统及其方法。
背景技术    
目前通过http协议的last-modified来判断一个网站的网页是否更新,由此可以控制爬虫是否继续爬取网页内容。但对于动态网站或者不规范的网站,该值一般为访问时间,所以无法通过此值来控制爬虫是否继续爬取网页内容,这样就极大地限制了爬虫的使用效率。
发明内容
本发明的目的提供一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。
为了克服现有技术中的不足,本发明提供了一种爬虫系统及其方法的解决方案,具体如下:
一种爬虫系统,包括带有用于动态网页的爬虫系统1的爬虫节点2,爬虫节点2同互联网3相连接,所述的互联网3中包含有网站服务器4,所述的网站服务器4中包含有带有频道的网站,所述的爬虫节点2中还包括有浏览器7、用于采集结果的数据库6和频道库5,所述的网站服务器4中还包含有频道列表信息。
所述的频道库5包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。
所述的频道列表信息包括有发布日期条目。
所述的爬虫系统的方法,步骤如下:
步骤1:启动爬虫节点2中的用于动态网页的爬虫系统1对每个网站服务器4中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统1再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统1对该频道所在的网站服务器4发起Http请求;
步骤4:该频道所在的网站服务器4接收到该Http请求后,把该频道列表信息发送回爬虫节点2,用于动态网页的爬虫系统1就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统1对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,:用于动态网页的爬虫系统1则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库6中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
应用本发明上述方案,通过控制爬虫是否继续爬取网页内容,这样就极大地提高了爬虫的使用效率。
附图说明
图l为本发明的爬虫系统的结构示意图。
具体实施方式
本发明爬虫关心的主题内容为列表及列表对应的具体信息。在爬取时,主要通过列表作为爬取的入口,通过下一页来获取更多信息。因此,通过列表信息可以控制爬虫的爬取任务。对于动态网页,信息的更新主要体现在列表信息的变化。为了更好的阅读体验,信息一般以时间倒序的方式来展现。随着信息的更新,原本展现在第一页的信息会变为在第二页展现。
下面结合附图对发明内容作进一步说明:
参照图1所示,爬虫系统,包括带有用于动态网页的爬虫系统1的爬虫节点2,爬虫节点2同互联网3相连接,所述的互联网3中包含有网站服务器4,所述的网站服务器4中包含有带有频道的网站,所述的爬虫节点2中还包括有浏览器7、用于采集结果的数据库6和频道库5,所述的网站服务器4中还包含有频道列表信息。所述的频道库5包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。所述的频道列表信息包括有发布日期条目。
所述的爬虫系统的方法,步骤如下:
步骤1:启动爬虫节点2中的用于动态网页的爬虫系统1对每个网站服务器4中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统1再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天,由于发布日期都是日期,不包括小时分钟,为避免漏抓,扩大一天时间,因此需要减去一天;
步骤3:用于动态网页的爬虫系统1对该频道所在的网站服务器4发起Http请求;
步骤4:该频道所在的网站服务器4接收到该Http请求后,把该频道列表信息发送回爬虫节点2,用于动态网页的爬虫系统1就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统1对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,:用于动态网页的爬虫系统1则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库6中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (4)

1.一种爬虫系统,其特征在于包括带有用于动态网页的爬虫系统(1)的爬虫节点(2),爬虫节点(2)同互联网(3)相连接,所述的互联网(3)中包含有网站服务器(4),所述的网站服务器(4)中包含有带有频道的网站,所述的爬虫节点(2)中还包括有浏览器(7)、用于采集结果的数据库(6)和频道库(5),所述的网站服务器(4)中还包含有频道列表信息。
2.根据权利要求1所述的爬虫系统,其特征在于所述的频道库(5)包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。
3.根据权利要求2所述的爬虫系统,其特征在于所述的频道列表信息包括有发布日期条目。
4.根据权利要求3所述的爬虫系统的方法,其特征在于,步骤如下:
步骤1:启动爬虫节点(2)中的用于动态网页的爬虫系统(1)进行数据采集并把数据采集结果存储到用于采集结果的数据库(6)中,并对每个网站服务器(4)中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统(1)再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统(1)对该频道所在的网站服务器(4)发起Http请求;
步骤4:该频道所在的网站服务器(4)接收到该Http请求后,把该频道列表信息发送回爬虫节点(2),用于动态网页的爬虫系统(1)就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统(1)对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,用于动态网页的爬虫系统(1)则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库(6)中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
CN201410259561.3A 2014-06-12 2014-06-12 一种爬虫系统及其方法 Active CN104008190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410259561.3A CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410259561.3A CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Publications (2)

Publication Number Publication Date
CN104008190A true CN104008190A (zh) 2014-08-27
CN104008190B CN104008190B (zh) 2017-04-19

Family

ID=51368847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410259561.3A Active CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Country Status (1)

Country Link
CN (1) CN104008190B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933841A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容爬取方法和装置
CN106933827A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容解析方法和装置
CN114817820A (zh) * 2022-06-30 2022-07-29 深圳希施玛数据科技有限公司 网站数据升级的预警方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281793A1 (en) * 2007-01-11 2008-11-13 Anup Kumar Mathur Method and System of Information Engine with Make-Share-Search of consumer and professional Information and Content for Multi-media and Mobile Global Internet
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102521379A (zh) * 2011-12-19 2012-06-27 上海交通大学 基于主动推技术的互联网信息采集方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281793A1 (en) * 2007-01-11 2008-11-13 Anup Kumar Mathur Method and System of Information Engine with Make-Share-Search of consumer and professional Information and Content for Multi-media and Mobile Global Internet
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102521379A (zh) * 2011-12-19 2012-06-27 上海交通大学 基于主动推技术的互联网信息采集方法和装置
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
站长之家用户: "搜索引擎爬虫工作原理-大揭秘", 《HTTP://WWW.CHINAZ.COM/WEB/2013/0325/297115.SHTML》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933841A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容爬取方法和装置
CN106933827A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容解析方法和装置
CN114817820A (zh) * 2022-06-30 2022-07-29 深圳希施玛数据科技有限公司 网站数据升级的预警方法及相关装置

Also Published As

Publication number Publication date
CN104008190B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
US9412115B2 (en) Configuring tags to monitor other webpage tags in a tag management system
CN105608117B (zh) 一种信息推荐方法及装置
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN101916285B (zh) 一种互联网网页内容解析方法及装置
US9298839B2 (en) Resolving a dead shortened uniform resource locator
CN103699580A (zh) 数据库同步方法及装置
CN104090889A (zh) 数据处理方法及系统
CN104915398A (zh) 一种网页埋点的方法及装置
US20160328475A1 (en) Method and system for scheduling web crawlers according to keyword search
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
US9836775B2 (en) System and method for synchronized web scraping
CN102867053A (zh) 收集网站信息中有效信息网页的方法、装置及系统
CN103207882A (zh) 店铺访问数据处理方法及系统
CN103810283A (zh) 一种基于用户关联关系的微博数据采集方法
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103605848A (zh) 路径分析方法和装置
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN104933168A (zh) 一种网页内容自动采集方法
CN104008190A (zh) 一种爬虫系统及其方法
Basyuk Popularization of website and without anchor promotion
CN103246709A (zh) 一种网页数据抓取的方法
CN108399224A (zh) 一种网络购物信息的推送的方法
CN104156458A (zh) 一种信息的提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160622

Address after: 210012, Room 802, North building, No. 1 West Spring Road, Yuhuatai District, Jiangsu, Nanjing

Applicant after: JIANGSU WAFA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210000, Nanjing, Shimonoseki district and Yan Road, No. two, 63, 1, 3,

Applicant before: NANJING BOSHI INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 1402, Building 1, Yunmi City, No. 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee after: Minxing Information Technology Co.,Ltd.

Address before: Room 802, North Building, No. 1 Xichun Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee before: JIANGSU WAFA INFORMATION TECHNOLOGY Co.,Ltd.