CN104008190B - 一种爬虫系统及其方法 - Google Patents

一种爬虫系统及其方法 Download PDF

Info

Publication number
CN104008190B
CN104008190B CN201410259561.3A CN201410259561A CN104008190B CN 104008190 B CN104008190 B CN 104008190B CN 201410259561 A CN201410259561 A CN 201410259561A CN 104008190 B CN104008190 B CN 104008190B
Authority
CN
China
Prior art keywords
channel
information
crawler system
web page
dynamic web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410259561.3A
Other languages
English (en)
Other versions
CN104008190A (zh
Inventor
于权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minxing Information Technology Co.,Ltd.
Original Assignee
JIANGSU WAFA INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU WAFA INFORMATION TECHNOLOGY Co Ltd filed Critical JIANGSU WAFA INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410259561.3A priority Critical patent/CN104008190B/zh
Publication of CN104008190A publication Critical patent/CN104008190A/zh
Application granted granted Critical
Publication of CN104008190B publication Critical patent/CN104008190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。

Description

一种爬虫系统及其方法
技术领域
本发明属于网络通信技术领域,具体涉及其一种爬虫系统及其方法。
背景技术
目前通过http协议的last-modified来判断一个网站的网页是否更新,由此可以控制爬虫是否继续爬取网页内容。但对于动态网站或者不规范的网站,该值一般为访问时间,所以无法通过此值来控制爬虫是否继续爬取网页内容,这样就极大地限制了爬虫的使用效率。
发明内容
本发明的目的提供一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。
为了克服现有技术中的不足,本发明提供了一种爬虫系统及其方法的解决方案,具体如下:
一种爬虫系统,包括带有用于动态网页的爬虫系统1的爬虫节点2,爬虫节点2同互联网3相连接,所述的互联网3中包含有网站服务器4,所述的网站服务器4中包含有带有频道的网站,所述的爬虫节点2中还包括有浏览器7、用于采集结果的数据库6和频道库5,所述的网站服务器4中还包含有频道列表信息。
所述的频道库5包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。
所述的频道列表信息包括有发布日期条目。
所述的爬虫系统的方法,步骤如下:
步骤1:启动爬虫节点2中的用于动态网页的爬虫系统1对每个网站服务器4中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统1再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统1对该频道所在的网站服务器4发起Http请求;
步骤4:该频道所在的网站服务器4接收到该Http请求后,把该频道列表信息发送回爬虫节点2,用于动态网页的爬虫系统1就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统1对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,:用于动态网页的爬虫系统1则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库6中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
应用本发明上述方案,通过控制爬虫是否继续爬取网页内容,这样就极大地提高了爬虫的使用效率。
附图说明
图1为本发明的爬虫系统的结构示意图。
具体实施方式
本发明爬虫关心的主题内容为列表及列表对应的具体信息。在爬取时,主要通过列表作为爬取的入口,通过下一页来获取更多信息。因此,通过列表信息可以控制爬虫的爬取任务。对于动态网页,信息的更新主要体现在列表信息的变化。为了更好的阅读体验,信息一般以时间倒序的方式来展现。随着信息的更新,原本展现在第一页的信息会变为在第二页展现。
下面结合附图对发明内容作进一步说明:
参照图1所示,爬虫系统,包括带有用于动态网页的爬虫系统1的爬虫节点2,爬虫节点2同互联网3相连接,所述的互联网3中包含有网站服务器4,所述的网站服务器4中包含有带有频道的网站,所述的爬虫节点2中还包括有浏览器7、用于采集结果的数据库6和频道库5,所述的网站服务器4中还包含有频道列表信息。所述的频道库5包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。所述的频道列表信息包括有发布日期条目。
所述的爬虫系统的方法,步骤如下:
步骤1:启动爬虫节点2中的用于动态网页的爬虫系统1对每个网站服务器4中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统1再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天,由于发布日期都是日期,不包括小时分钟,为避免漏抓,扩大一天时间,因此需要减去一天;
步骤3:用于动态网页的爬虫系统1对该频道所在的网站服务器4发起Http请求;
步骤4:该频道所在的网站服务器4接收到该Http请求后,把该频道列表信息发送回爬虫节点2,用于动态网页的爬虫系统1就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统1对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,:用于动态网页的爬虫系统1则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库6中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (1)

1.一种爬虫系统的方法,其特征在于,步骤如下:
步骤1:启动爬虫节点(2)中的用于动态网页的爬虫系统(1)进行数据采集并把数据采集结果存储到用于采集结果的数据库(6)中,并对每个网站服务器(4)中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统(1)再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统(1)对该频道所在的网站服务器(4)发起Http请求;
步骤4:该频道所在的网站服务器(4)接收到该Http请求后,把该频道列表信息发送回爬虫节点(2),用于动态网页的爬虫系统(1)就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统(1)对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,用于动态网页的爬虫系统(1)则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库(6)中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0 db,title1 db, title2 db…titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行。
CN201410259561.3A 2014-06-12 2014-06-12 一种爬虫系统及其方法 Active CN104008190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410259561.3A CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410259561.3A CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Publications (2)

Publication Number Publication Date
CN104008190A CN104008190A (zh) 2014-08-27
CN104008190B true CN104008190B (zh) 2017-04-19

Family

ID=51368847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410259561.3A Active CN104008190B (zh) 2014-06-12 2014-06-12 一种爬虫系统及其方法

Country Status (1)

Country Link
CN (1) CN104008190B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933841A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容爬取方法和装置
CN106933827A (zh) * 2015-12-29 2017-07-07 北京国双科技有限公司 论坛目录页内容解析方法和装置
CN114817820B (zh) * 2022-06-30 2022-10-14 深圳希施玛数据科技有限公司 网站数据升级的预警方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102521379A (zh) * 2011-12-19 2012-06-27 上海交通大学 基于主动推技术的互联网信息采集方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281793A1 (en) * 2007-01-11 2008-11-13 Anup Kumar Mathur Method and System of Information Engine with Make-Share-Search of consumer and professional Information and Content for Multi-media and Mobile Global Internet

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102521379A (zh) * 2011-12-19 2012-06-27 上海交通大学 基于主动推技术的互联网信息采集方法和装置
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
搜索引擎爬虫工作原理-大揭秘;站长之家用户;《http://www.chinaz.com/web/2013/0325/297115.shtml》;20130325;第1-2页 *

Also Published As

Publication number Publication date
CN104008190A (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
CN104125209B (zh) 恶意网址提示方法和路由器
CN102054028B (zh) 一种网络爬虫系统实现页面渲染功能的方法
CN104462156B (zh) 一种基于用户行为的特征提取、个性化推荐方法和系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN103077250B (zh) 一种网页内容抓取方法及装置
CN105760379B (zh) 一种基于域内页面关联关系检测webshell页面的方法及装置
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN102355488A (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
US20130325919A1 (en) Resolving a dead shortened uniform resource locator
CN105357192B (zh) 网页推送的方法、装置及系统
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104008190B (zh) 一种爬虫系统及其方法
Bhargav et al. Pattern discovery and users classification through web usage mining
WO2017167391A1 (en) Method and system for preserving privacy in an http communication between a client and a server
CN103152387B (zh) 一种获取http用户行为轨迹的装置与方法
CN104199893A (zh) 一种快速将全媒体内容发布的系统和方法
CN103761257A (zh) 基于移动浏览器的网页处理方法及系统
CN103605742B (zh) 识别网络资源实体目录页的方法及装置
CN103312692A (zh) 链接地址安全性检测方法及装置
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN104835052A (zh) 一种提高网络广告投递精准度的方法及系统
CN103354546A (zh) 报文过滤方法与装置
EP3789890A1 (en) Fully qualified domain name (fqdn) determination

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160622

Address after: 210012, Room 802, North building, No. 1 West Spring Road, Yuhuatai District, Jiangsu, Nanjing

Applicant after: JIANGSU WAFA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210000, Nanjing, Shimonoseki district and Yan Road, No. two, 63, 1, 3,

Applicant before: NANJING BOSHI INFORMATION TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 1402, Building 1, Yunmi City, No. 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee after: Minxing Information Technology Co.,Ltd.

Address before: Room 802, North Building, No. 1 Xichun Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee before: JIANGSU WAFA INFORMATION TECHNOLOGY Co.,Ltd.