CN102254027A - 批量获取网页内容的方法 - Google Patents

批量获取网页内容的方法 Download PDF

Info

Publication number
CN102254027A
CN102254027A CN 201110215794 CN201110215794A CN102254027A CN 102254027 A CN102254027 A CN 102254027A CN 201110215794 CN201110215794 CN 201110215794 CN 201110215794 A CN201110215794 A CN 201110215794A CN 102254027 A CN102254027 A CN 102254027A
Authority
CN
China
Prior art keywords
webpage
relational database
link
download
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110215794
Other languages
English (en)
Other versions
CN102254027B (zh
Inventor
李强
谌烜
刘�东
孟庆康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN 201110215794 priority Critical patent/CN102254027B/zh
Publication of CN102254027A publication Critical patent/CN102254027A/zh
Application granted granted Critical
Publication of CN102254027B publication Critical patent/CN102254027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络技术。本发明解决了现有网络爬虫技术获取网页内容效率低下的问题,提供了一种批量获取网页内容的方法,其技术方案可概括为:根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则,批量下载各网页内容。本发明的有益效果是,提高网页内容的获取效率,适用于网页内容的获取。

Description

批量获取网页内容的方法
技术领域
本发明涉及网络技术,特别涉及网页内容的获取方法。
背景技术
目前,海量的网页内容信息(包括文字、图片等)的获取主要是通过网络爬虫技术得以实现,而由于互联网信息繁多、网页形态千变万化,传统的爬虫技术存在着抓取效率低下,网页解析难度大、内容获取准确度低等诸多问题。
发明内容
本发明目的是克服目前网络爬虫技术获取网页内容效率低下的缺点,提供一种批量获取网页内容的方法。
本发明为解决上述技术问题所采用的技术方案是,批量获取网页内容的方法,其特征在于,包括以下步骤:
a.任务添加系统创建关系数据库;
b.用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则;
c.在关系数据库中为需要访问的每个网页建立与其相对应的表;
d.采用多线程的方式,各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中;
e.网页下载系统根据各线程的待处理任务进行批量网页下载;
f.网页解析系统对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息;
g.将这些有效信息填入对应的表中;
h.用户根据关系数据库提供的对应网页的表读取该网页内容。
具体的,步骤b所述解析规则包括是否解析链接。
进一步的,步骤f包括以下步骤:
f1.网页解析系统对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息,判断解析规则中是否需要解析链接,若需要解析链接且该网页具有链接则进入下一步,若不需要解析链接或该网页没有链接则进入g步骤;
f2.提取各链接的URL,并将其加入到关系数据库中,并与该网页中的各链接名称相关联;
f3.在关系数据库中为各链接网页建立与其相对应的表;
f4.采用多线程的方式,各线程从关系数据库中获取URL加入到其各自的待处理任务队列中;
f5.网页下载系统根据各线程的待处理任务进行批量网页下载;
f6.网页解析系统对所下载链接网页进行内容分析,提取该网页的有效信息,进入g步骤。
本发明的有益效果是,通过上述批量获取网页内容的方法,采用多线程的方式,根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则,批量下载这些网页,再根据解析规则判断是否需要解析链接,从而在需要解析链接时,批量下载该网页上的链接网页并获取这些链接网页内容,在用户访问这些链接的时候不再需要下载,提高网页内容的获取效率,方便用户。
具体实施方式
本发明的批量获取网页内容的方法为:首先任务添加系统创建关系数据库,当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则后,任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表,再采用多线程的方式,各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中,然后网页下载系统根据各线程的待处理任务进行批量网页下载,网页解析系统再对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息,然后将这些有效信息填入对应的表中,最后用户根据关系数据库提供的对应网页的表读取该网页内容。
实施例
本例的解析规则包括是否解析链接。
首先任务添加系统创建关系数据库,当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则,解析规则是根据网页的结构进行手动设定的,比如新闻类的信息,待选取的因子包括:标题、发布时间、来源、作者、关键词、正文、插图、插图说明等,这些因子的组合就构成了待匹配模型,解析规则用于解析待匹配模型,是一种模式匹配,以获取用户所需的数据,无关的数据会被自动过滤掉,其中,还包括是否解析链接,然后任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表,再采用多线程的方式,各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中,然后网页下载系统根据各线程的待处理任务进行批量网页下载,网页解析系统对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息,判断解析规则中是否需要解析链接,若需要解析链接且该网页具有链接则由网页解析系统提取各链接的URL,并通过任务添加系统将其加入到关系数据库中,并与该网页中的各链接名称相关联,再在关系数据库中为各链接网页建立与其相对应的表,然后采用多线程的方式,各线程从关系数据库中获取URL加入到其各自的待处理任务队列中,再由网页下载系统根据各线程的待处理任务进行批量网页下载,然后网页解析系统对所下载链接网页进行内容分析,提取该网页的有效信息,再将这些有效信息填入对应的表中,最后用户根据关系数据库提供的对应网页的表读取该网页内容,若不需要解析链接或该网页没有链接则直接将这些有效信息填入对应的表中,最后用户根据关系数据库提供的对应网页的表读取该网页内容。

Claims (3)

1.批量获取网页内容的方法,其特征在于,包括以下步骤:
a.任务添加系统创建关系数据库;
b.用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则;
c.在关系数据库中为需要访问的每个网页建立与其相对应的表;
d.采用多线程的方式,各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中;
e.网页下载系统根据各线程的待处理任务进行批量网页下载;
f.网页解析系统对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息;
g.将这些有效信息填入对应的表中;
h.用户根据关系数据库提供的对应网页的表读取该网页内容。
2.根据权利要求1所述批量获取网页内容的方法,其特征在于,步骤b所述解析规则包括是否解析链接。
3.根据权利要求2所述批量获取网页内容的方法,其特征在于,步骤f包括以下步骤:
f1.网页解析系统对所下载网页进行内容分析,根据给定的网页内容解析规则提取该网页的有效信息,判断解析规则中是否需要解析链接,若需要解析链接且该网页具有链接则进入下一步,若不需要解析链接或该网页没有链接则进入g步骤;
f2.提取各链接的URL,并将其加入到关系数据库中,并与该网页中的各链接名称相关联;
f3.在关系数据库中为各链接网页建立与其相对应的表;
f4.采用多线程的方式,各线程从关系数据库中获取URL加入到其各自的待处理任务队列中;
f5.网页下载系统根据各线程的待处理任务进行批量网页下载;
f6.网页解析系统对所下载链接网页进行内容分析,提取该网页的有效信息,进入g步骤。
CN 201110215794 2011-07-29 2011-07-29 批量获取网页内容的方法 Active CN102254027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110215794 CN102254027B (zh) 2011-07-29 2011-07-29 批量获取网页内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110215794 CN102254027B (zh) 2011-07-29 2011-07-29 批量获取网页内容的方法

Publications (2)

Publication Number Publication Date
CN102254027A true CN102254027A (zh) 2011-11-23
CN102254027B CN102254027B (zh) 2013-05-08

Family

ID=44981291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110215794 Active CN102254027B (zh) 2011-07-29 2011-07-29 批量获取网页内容的方法

Country Status (1)

Country Link
CN (1) CN102254027B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235785A (zh) * 2013-03-28 2013-08-07 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN104484485A (zh) * 2015-01-09 2015-04-01 携程计算机技术(上海)有限公司 票号信息提取导出方法、系统以及出票系统
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法
WO2017113687A1 (zh) * 2015-12-28 2017-07-06 乐视控股(北京)有限公司 爬虫系统及方法
CN106997374A (zh) * 2017-01-05 2017-08-01 深圳大宇无限科技有限公司 深度链接获取方法和装置
CN107451218A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 网评自动发布方法及装置
CN108038159A (zh) * 2017-12-06 2018-05-15 铜陵市人人网络科技有限公司 一种友情链接批量上传自动排名方法
CN108153823A (zh) * 2017-12-06 2018-06-12 铜陵市人人网络科技有限公司 一种友情链接批量上传方法
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN109150984A (zh) * 2018-07-27 2019-01-04 平安科技(深圳)有限公司 获取数据资源的方法和装置
CN109978511A (zh) * 2019-04-09 2019-07-05 艾伯资讯(深圳)有限公司 基于网页爬取的项目管理检查系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
US20100114864A1 (en) * 2008-11-06 2010-05-06 Leedor Agam Method and system for search engine optimization
CN101819584A (zh) * 2010-03-18 2010-09-01 上海引跑信息科技有限公司 轻量级智能网页内容解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
US20100114864A1 (en) * 2008-11-06 2010-05-06 Leedor Agam Method and system for search engine optimization
CN101819584A (zh) * 2010-03-18 2010-09-01 上海引跑信息科技有限公司 轻量级智能网页内容解析方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294732A (zh) * 2012-03-05 2013-09-11 富士通株式会社 网页抓取方法及爬虫
CN103294732B (zh) * 2012-03-05 2016-08-03 富士通株式会社 网页抓取方法及爬虫
CN103235785B (zh) * 2013-03-28 2016-02-24 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN103235785A (zh) * 2013-03-28 2013-08-07 四三九九网络股份有限公司 一种批量提取网页资源素材的方法
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103475687B (zh) * 2013-05-24 2016-12-28 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN103533097B (zh) * 2013-10-10 2017-03-15 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
CN104484485A (zh) * 2015-01-09 2015-04-01 携程计算机技术(上海)有限公司 票号信息提取导出方法、系统以及出票系统
CN104484485B (zh) * 2015-01-09 2019-03-12 上海携程商务有限公司 票号信息提取导出方法、系统以及出票系统
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法
CN105608134B (zh) * 2015-12-18 2019-06-14 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法
WO2017113687A1 (zh) * 2015-12-28 2017-07-06 乐视控股(北京)有限公司 爬虫系统及方法
CN106997374A (zh) * 2017-01-05 2017-08-01 深圳大宇无限科技有限公司 深度链接获取方法和装置
CN107451218A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 网评自动发布方法及装置
CN107451218B (zh) * 2017-07-17 2020-04-03 云润大数据服务有限公司 网评自动发布方法及装置
CN108038159A (zh) * 2017-12-06 2018-05-15 铜陵市人人网络科技有限公司 一种友情链接批量上传自动排名方法
CN108153823A (zh) * 2017-12-06 2018-06-12 铜陵市人人网络科技有限公司 一种友情链接批量上传方法
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN108549678B (zh) * 2018-04-02 2020-06-19 北京今朝在线科技有限公司 信息采集系统
CN109150984A (zh) * 2018-07-27 2019-01-04 平安科技(深圳)有限公司 获取数据资源的方法和装置
CN109150984B (zh) * 2018-07-27 2021-11-02 平安科技(深圳)有限公司 获取数据资源的方法和装置
CN109978511A (zh) * 2019-04-09 2019-07-05 艾伯资讯(深圳)有限公司 基于网页爬取的项目管理检查系统及方法

Also Published As

Publication number Publication date
CN102254027B (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN102254027B (zh) 批量获取网页内容的方法
Bizer et al. Deployment of rdfa, microdata, and microformats on the web–a quantitative analysis
CN102306201B (zh) 一种网页标题分析的方法和系统
CN105045838A (zh) 基于分布式存储系统的网络爬虫系统
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN101350032A (zh) 判断网页内容是否相同的方法
WO2013021391A4 (en) Automatic website accessibility and compatability
CN106547749B (zh) 网页数据采集的方法和装置
CN103778238B (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN102880647A (zh) 一种机构别称的获取方法和装置
CN104504016A (zh) 一种面向用户的web信息自动提取方法
US20110219017A1 (en) System and methods for citation database construction and for allowing quick understanding of scientific papers
CN104991904A (zh) 一种动态网页的页面数据采集方法
CN103345532A (zh) 一种网页信息抽取方法及装置
CN105302876A (zh) 基于正则表达式的url过滤方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN104298780A (zh) 一种浏览器网页信息的预获取方法及系统
CN103744944A (zh) 网络爬虫在抓取网页或数据时再过滤的方法
CN105956013A (zh) 网站关键词提取方法、装置和系统
CN106897287A (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
Zheng et al. Design and implementation of news collecting and filtering system based on RSS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant