CN108536691A - 网页爬取方法和装置 - Google Patents
网页爬取方法和装置 Download PDFInfo
- Publication number
- CN108536691A CN108536691A CN201710117896.5A CN201710117896A CN108536691A CN 108536691 A CN108536691 A CN 108536691A CN 201710117896 A CN201710117896 A CN 201710117896A CN 108536691 A CN108536691 A CN 108536691A
- Authority
- CN
- China
- Prior art keywords
- crawls
- crawl
- web page
- url
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000009193 crawling Effects 0.000 claims abstract description 51
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000011161 development Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000012535 impurity Substances 0.000 abstract description 14
- 238000007726 management method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页爬取方法和装置,所述方法包括以下步骤:配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。从而,通过对爬取到的外链进行控制,有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页爬取方法和装置。
背景技术
随着网络信息技术的迅猛发展,网站上的大数据正呈指数级形式飞速增长,网页已经成为海量信息的载体。现有技术中,通常采用网络爬虫来抓取网站数据的方式来采集网页中的信息。
传统的网页爬取方案抓取网站数据时,采用全部爬取方式,爬取的杂质数据通常是有效数据的十倍以上,既大大增加了对存储空间的要求,也为用户后期数据提取增加了难度。特别是网页中包含大量与主题无关的网站链接,对网页中所有的网站链接进行爬取时,既抓取了大量无用的杂质数据,又占用了大量的带宽资源,因此对带宽要求较高。
发明内容
有鉴于此,本发明的目的在于提供一种网页爬取方法和装置,以解决传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明的一个方面,提供的一种网页爬取方法,包括以下步骤:
配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;
根据所述目标网站生成爬取列表;
依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;
根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。
可选地,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。
可选地,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
可选地,所述爬取策略还包括数量限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
可选地,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
可选地,所述依次爬取所述爬取列表中目标网站的网页包括:
抓取所述目标网站的网页信息;
根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。
可选地,所述解析插件为通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。
根据本发明的另一个方面,提供的一种网页爬取装置,所述装置包括:
配置模块,用于配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;
网页爬取模块,用于根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;
链接过滤模块,用于根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供所述网页爬取模块后续爬取。
可选地,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。
可选地,所述爬取策略还包括频率限制策略,所述网页爬取模块用于:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
可选地,所述爬取策略还包括数量限制策略,所述网页爬取模块用于:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
可选地,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
可选地,所述网页爬取模块包括:
抓取单元,用于抓取所述目标网站的网页信息;
解析单元,根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。
可选地,所述装置还包括插件开发模块,所述插件开发模块用于:接收用户对通用解析插件进行二次开发的指令,生成自定义解析插件。
本发明实施例的网页爬取方法,通过配置URL限制策略,根据URL限制策略过滤爬取的网页中的网站链接,以滤除网站链接中的无效链接,将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用,解决了传统的网页爬取方案对存储空间和带宽的要求较高的技术问题。
同时,利用解析插件对抓取的网页信息进行去噪处理,提取出网页信息中的有效内容予以存储,从而大大降低了对存储空间的要求,并减小了杂质数据的干扰,为用户后期数据提取降低了难度。并且,允许用户对通用解析插件进行二次开发生成自定义解析插件,利用自定义解析插件解析网页信息,实现了对网站数据进行精确爬取,并满足了用户的个性化需求。
附图说明
图1为本发明第一实施例的网页爬取方法的流程图;
图2为本发明第二实施例的网页爬取装置的模块示意图;
图3为图2中的网页爬取模块的模块示意图;
图4为本发明第三实施例的网页爬取装置的模块示意图;
图5为图4中的网页爬取装置进行网页爬取时各模块的交互示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
参见图1,提出本发明第一实施例的网页爬取方法,所述方法包括以下步骤:
S11、配置爬取任务和爬取策略,爬取任务包括目标网站,爬取策略包括URL限制策略。
本步骤S11中,网页爬取装置接收用户的配置操作,对爬取任务和爬取策略进行配置。
爬取任务至少包括目标网站,即接收用户对待爬取的网站入口的设置,配置出待爬取的目标网站。此外,爬取任务还可以进一步地包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种,即用户还可以配置任务每天启动时间、任务每天停止时间、任务爬取深度、任务每天循环次数、任务循环间隔时间等参数信息。
爬取策略至少包括URL限制策略,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取,例如:某些URL执行一次爬取之后,后续不需要再次爬取;某些URL爬取一次之后,一段时间内不再爬取。进一步地,爬取策略还可以包括频率限制策略、数量限制策略等,其中,频率限制策略是指对网页中不同的内容设置不同的爬取频率,数量限制策略是指只爬取网页中预设数量的指定内容。
S12、根据目标网站生成爬取列表。
本步骤S12中,网页爬取装置首先读取用户配置的目标网站,将目标网站的URL进行合并,消除重复的URL入口;然后对合并处理后的URL进行排序,如通过域名、链接数和哈希(hash)算法综合进行降序(或升序)排列,生成爬取列表。
S13、依次爬取爬取列表中目标网站的网页,获取网页中的网站链接。
本步骤S13中,网页爬取装置根据爬取列表中各目标网站的URL的排列顺序,依次爬取目标网站的网页。网页爬取装置向目标网站发送请求,抓取目标网站的网页信息,该网页信息包括正文、评论、网站链接等各种网页内容,并将网页信息存储起来。网页爬取装置可配置多线程进行抓取,以提高抓取效率,对于同一域名的网站可以采取特定的爬取策略,以避开网站的防爬设计,如采取降低爬取频率、延长爬取周期、采用多台机器进行爬取等策略。
进一步地,还可以预设解析插件,该解析插件可以采用readabilityBUNDLE算法来实现,利用解析插件对抓取的网页信息进行去噪处理,以对网页信息进行精简化,去除网页信息中的广告、网站背景等无效内容(或非必要内容),只提取出网页信息中的标题、文章、评论等有效内容,只将有效内容存储起来,从而大大降低了对存储空间的要求,并减小了杂质数据的干扰,为用户后期数据提取降低了难度。
可选地,解析插件将网页信息解析为结构化数据,网页爬取装置的存储模块将解析过后的结构化数据存储到文件系统中。进一步地,若一次抓取的数据过大则分文件存储,如一个文件最大10M(可修改),方便后续数据文件的处理。
前述解析插件可以是出厂预置的通用解析插件,也可以是经用户对通用解析插件进行二次开发后的自定义解析插件。例如,用户有特殊需求,需要解析出文章、作者、发表时间、日期等具体信息,则用户可以在线编辑通用解析插件获取自定义解析插件,网页爬取装置则加载该自定义解析插件,按照用户要求解析网页信息,将网页信息解析成用户需要的结构化数据,从而实现根据用户要求对网站数据进行精确爬取。
进一步地,当爬取策略还包括频率限制策略时,网页爬取装置则根据频率限制策略以不同的频率爬取目标网站的网页中不同的内容。例如,针对新闻网站,对新闻内容的爬取可以非常频繁(如一个小时爬取一次),但评论内容的爬取则可以一天一次。从而,一方面提高了爬取效率,另一方面减少了无用的杂质数据,降低了对存储空间的要求。
进一步地,当爬取策略还包括数量限制策略时,网页爬取装置则根据数量限制策略爬取目标网站的网页中预设数量的指定内容。例如,对于评论内容的爬取,可以只爬取预设条数的评论内容,或者只爬取预设页数(如最前面的几页)的评论内容。从而,一方面提高了爬取效率,另一方面减少了无用的杂质数据,降低了对存储空间的要求。
S14、根据URL限制策略过滤网站链接,将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。
本步骤S14中,网页爬取装置根据配置的URL限制策略对当前爬取的网页中的网站链接进行过滤,滤除网站链接中的无效链接,只将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中,以待后续爬取。
例如,对于某些URL,URL限制策略为只执行一次爬取。因此,当网页爬取装置执行一次爬取之后,则滤除该URL,后续不再爬取该URL。
又如,对于某些URL,URL限制策略为每隔预设时长执行一次爬取。因此,当网页爬取装置执行一次爬取之后,在预设时长内滤除该URL,即一段时间内不再爬取该URL。
进一步地,网页爬取装置还可以对爬取任务进行监控,监控任务的运行状态,包括是否在运行状态、上次成功执行时间、上次成功执行时长、上次执行失败时间等等,以方便用户实时查看和管理。
进一步地,网页爬取装置还可以对爬取任务进行管理,包括添加任务、删除任务、启动任务、停止任务、立即启动任务、查看任务信息等操作,以方便用户对爬取任务进行实时管理。
从而,本发明实施例的网页爬取方法,通过对爬取到的外链进行控制,有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用。
实施例二
参见图2,提出本发明第二实施例的网页爬取装置,所述装置包括配置模块10、网页爬取模块20和链接过滤模块30,其中:
配置模块10:用于配置爬取任务和爬取策略。
本实施例中,配置模块10接收用户的配置操作,对爬取任务和爬取策略进行配置。
爬取任务至少包括目标网站,即配置模块10接收用户对待爬取的网站入口的设置,配置出待爬取的目标网站。此外,爬取任务还可以进一步地包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种,即用户还可以配置任务每天启动时间、任务每天停止时间、任务爬取深度、任务每天循环次数、任务循环间隔时间等参数信息。
爬取策略至少包括URL限制策略,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取,例如:某些URL执行一次爬取之后,后续不需要再次爬取;某些URL爬取一次之后,一段时间内不再爬取。进一步地,爬取策略还可以包括频率限制策略、数量限制策略等,其中,频率限制策略是指对网页中不同的内容设置不同的爬取频率,数量限制策略是指只爬取网页中预设数量的指定内容。
网页爬取模块20:用于根据目标网站生成爬取列表,依次爬取爬取列表中目标网站的网页,获取网页中的网站链接。
如图3所示,网页爬取模块20包括生成单元201和抓取单元202,生成单元201用于根据目标网站生成爬取列表,抓取单元202用于抓取目标网站的网页信息。
生成单元201读取用户配置的目标网站,将目标网站的URL进行合并,消除重复的URL入口;然后对合并处理后的URL进行排序,如通过域名、链接数和哈希(hash)算法综合进行降序(或升序)排列,生成爬取列表。
抓取单元202根据爬取列表中各目标网站的URL的排列顺序,依次爬取目标网站的网页。具体的,抓取单元202向目标网站发送请求,抓取目标网站的网页信息,该网页信息包括正文、评论、网站链接等各种网页内容,并将网页信息存储起来。抓取单元202可配置多线程进行抓取,以提高抓取效率,对于同一域名的网站可以采取特定的爬取策略,以避开网站的防爬设计,如采取降低爬取频率、延长爬取周期、采用多台机器进行爬取等策略。
进一步地,网页爬取模块20还包括解析单元203,该解析单元203用于根据预设的解析插件对网页信息进行去噪处理,提取出网页信息中的有效内容并予以存储。可选地,解析插件将网页信息解析为结构化数据。
解析插件可以采用readabilityBUNDLE算法来实现,解析单元203加载解析插件后,利用解析插件对抓取的网页信息进行去噪处理,以对网页信息进行精简化,去除网页信息中的广告、网站背景等无效内容(或非必要内容),只提取出网页信息中的标题、文章、评论等有效内容,只将有效内容存储起来,从而大大降低了对存储空间的要求,并减小了杂质数据的干扰,为用户后期数据提取降低了难度。
进一步地,当爬取策略还包括频率限制策略时,网页爬取模块20则根据频率限制策略以不同的频率爬取目标网站的网页中不同的内容。例如,针对新闻网站,对新闻内容的爬取可以非常频繁(如一个小时爬取一次),但评论内容的爬取则可以一天一次。从而,一方面提高了爬取效率,另一方面减少了无用的杂质数据,降低了对存储空间的要求。
进一步地,当爬取策略还包括数量限制策略时,网页爬取模块20则根据数量限制策略爬取目标网站的网页中预设数量的指定内容。例如,对于评论内容的爬取,可以只爬取预设条数的评论内容,或者只爬取预设页数(如最前面的几页)的评论内容。从而,一方面提高了爬取效率,另一方面减少了无用的杂质数据,降低了对存储空间的要求。
链接过滤模块30:用于根据URL限制策略过滤网站链接,以滤除网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供网页爬取模块20后续爬取。
链接过滤模块30根据配置的URL限制策略对当前爬取的网页中的网站链接进行过滤,滤除网站链接中的无效链接,只将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中,更新爬取列表,以待网页爬取模块20后续爬取新加入的网站链接。
例如,对于某些URL,URL限制策略为只执行一次爬取。因此,当网页爬取模块20执行一次爬取之后,链接过滤模块30则滤除该URL,以使网页爬取模块20后续不再爬取该URL。
又如,对于某些URL,URL限制策略为每隔预设时长执行一次爬取。因此,当网页爬取模块20执行一次爬取之后,在预设时长内链接过滤模块30滤除该URL,即一段时间内网页爬取模块20不再爬取该URL。
可选地,网页爬取装置还可以包括存储模块,存储模块将解析过后的结构化数据存储到文件系统中。进一步地,若一次抓取的数据过大则分文件存储,如一个文件最大10M(可修改),方便后续数据文件的处理。
在某些实施例中,前述解析插件为出厂预置的通用解析插件。
在一可选实施例中,所述装置还可以包括插件开发模块,所述插件开发模块用于接收用户对通用解析插件进行二次开发的指令,生成自定义解析插件。
例如,用户有特殊需求,需要解析出文章、作者、发表时间、日期等具体信息,则用户可以通过插件开发模块在线编辑通用解析插件获取自定义解析插件,网页爬取模块20则加载该自定义解析插件,按照用户要求解析网页信息,将网页信息解析成用户需要的结构化数据,从而实现根据用户要求对网站数据进行精确爬取。
从而,本发明实施例的网页爬取装置,通过对爬取到的外链进行控制,有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用。
实施例三
参见图4,提出本发明第三实施例的网页爬取装置,所述装置包括图形用户界面模块100、基础支撑模块200、插件开发模块300、爬取模块400和存储模块500,其中:
基础支撑模块200:用于提供网页爬取的基础服务,包括各种配置、管理及监控类服务。基础支撑模块200与用户进行交互,用户可通过交互式方式对任务进行操作,系统支持多任务同时运行。通过此模块对整个系统进行管理,接收用户配置的目标种子(如目标网站),及各种爬取策略,将此信息保存在配置文件中,供后续爬取使用。
基础支撑模块200由配置模块10和监管模块组成,该配置模块10与第二实施例中的配置模块10相同,在此不赘述。监管模块用于对爬取任务进行监控和管理,其中:进行任务监控时,监控任务的运行状态,包括是否在运行状态、上次成功执行时间、上次成功执行时长、上次执行失败时间等等,以方便用户实时查看和管理;进行任务管理时,包括添加任务、删除任务、启动任务、停止任务、立即启动任务、查看任务信息等操作,以方便用户对爬取任务进行实时管理。
图形用户界面模块100:用于为用户提供图形化显示界面,方便用户进行图形化操作,包括爬取任务配置、爬取策略配置、任务监控、任务管理及插件开发的图形化展示和操作,实现用户交互式操作,极大程度上提升易用性。
插件开发模块300:用于接收用户对通用解析插件进行二次开发的指令,生成自定义解析插件。用户可根据需求在图形化界面上开发用户特有的解析插件。本实施例中的插件开发模块300与第二实施例中的插件开发模块300相同,在此不赘述。
爬取模块400:用于根据目标网站生成爬取列表,依次爬取爬取列表中目标网站的网页,获取网页中的网站链接;根据URL限制策略过滤网站链接,以滤除网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供网页爬取模块20后续爬取。本实施例中的爬取模块相当于由第二实施例中的网页爬取模块20和链接过滤模块30组合而成,具体参见第二实施例中的网页爬取模块20和链接过滤模块30,在此不再赘述。
存储模块500:用于存储爬取模块爬取的网页信息。当爬取模块对网页信息进行了解析时,将解析过后的结构化数据存储到文件系统中。进一步地,若一次抓取的数据过大则分文件存储,如一个文件最大10M(可修改),方便后续数据文件的处理。
如图5所示,采用本实施例的网页爬取装置进行网页爬取时,具体包括以下流程:
步骤101:当用户进行爬取任务配置、爬取策略配置、任务管理等操作时,图形用户界面模块下发操作命令给基础支撑模块,基础支撑模块解析操作命令,并进行相应的处理。
步骤102:基础支撑模块模块对用户的操作命令进行相应处理后,将操作结果返回用户,并保存信息,如配置等操作信息。
步骤103:当用户在线进行插件开发编辑后,图形用户界面发送操作命令给插件开发模块,插件开发模块解析操作命令,并进行相应的处理。
步骤104:插件开发模块将用户开发的解析插件生成为自定义解析插件,供后面解析网页使用,保存信息,并将操作结果返回给用户。
步骤105:用户通过图形用户界面模块向爬取模块发出立即启动任务命令,爬取模块做出相应反应。
步骤106:当配置的任务启动时间到时,爬取模块做出相应反应。
步骤107:当接收到立即启动任务命令时或者任务启动时间到达时,爬取模块启动爬取任务,对网页进行爬取,解析网页,并将过滤后的外链加入到待爬取网页库(如爬取列表)。
步骤108:爬取模块爬取完成后,下发存储命令给存储模块,通知其存储数据。
步骤109:存储模块接收到存储命令后,将网页结构化后的数据存储在文件中,根据数据大小分文件存储。
步骤110:存储模块存储完成后,返回爬取结果,告知用户所有操作完成,并更新任务状态。
本发明实施例的网页爬取装置,通过配置URL限制策略,根据URL限制策略过滤爬取的网页中的网站链接,以滤除网站链接中的无效链接,将过滤后剩余的网站链接作为目标网站的链接加入爬取列表中以供后续爬取。从而有效过滤了无关网站,减少了网站爬取数据,更大程度上定位到有用信息的爬取,既提高了爬取效率,减少了无用的杂质数据,进而降低了对存储空间的要求,又大大减少了对带宽的占用。
同时,利用解析插件对抓取的网页信息进行去噪处理,提取出网页信息中的有效内容予以存储,从而大大降低了对存储空间的要求,并减小了杂质数据的干扰,为用户后期数据提取降低了难度。并且,允许用户对通用解析插件进行二次开发生成自定义解析插件,利用自定义解析插件解析网页信息,实现了对网站数据进行精确爬取,并满足了用户的个性化需求。
本发明实施例的网页爬取装置,既可设置在单机上也可设置在hadoop集群中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (14)
1.一种网页爬取方法,其特征在于,包括以下步骤:
配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;
根据所述目标网站生成爬取列表;
依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;
根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供后续爬取。
2.根据权利要求1所述的网页爬取方法,其特征在于,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。
3.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括频率限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:
根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
4.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取策略还包括数量限制策略,所述依次爬取所述爬取列表中目标网站的网页包括:
根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
5.根据权利要求1所述的网页爬取方法,其特征在于,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
6.根据权利要求1-5任一项所述的网页爬取方法,其特征在于,所述依次爬取所述爬取列表中目标网站的网页包括:
抓取所述目标网站的网页信息;
根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。
7.根据权利要求6所述的网页爬取方法,其特征在于,所述解析插件为通用解析插件或经用户对通用解析插件进行二次开发后的自定义解析插件。
8.一种网页爬取装置,其特征在于,包括:
配置模块,用于配置爬取任务和爬取策略;所述爬取任务包括目标网站,所述爬取策略包括URL限制策略;
网页爬取模块,用于根据所述目标网站生成爬取列表;依次爬取所述爬取列表中目标网站的网页,获取所述网页中的网站链接;
链接过滤模块,用于根据所述URL限制策略过滤所述网站链接,以滤除所述网站链接中的无效链接,并将过滤后剩余的网站链接作为目标网站的链接加入所述爬取列表中以供所述网页爬取模块后续爬取。
9.根据权利要求8所述的网页爬取装置,其特征在于,所述URL限制策略包括指定URL只执行一次爬取和/或指定URL每隔预设时长执行一次爬取。
10.根据权利要求8所述的网页爬取装置,其特征在于,所述爬取策略还包括频率限制策略,所述网页爬取模块用于:根据所述频率限制策略以不同的频率爬取所述目标网站的网页中不同的内容。
11.根据权利要求8所述的网页爬取装置,其特征在于,所述爬取策略还包括数量限制策略,所述网页爬取模块用于:根据所述数量限制策略爬取所述目标网站的网页中预设数量的指定内容。
12.根据权利要求8所述的网页爬取装置,其特征在于,所述爬取任务还包括任务每天启停时间、任务爬取深度和任务每天循环次数及循环间隔时间中的至少一种。
13.根据权利要求8-12任一项所述的网页爬取装置,其特征在于,所述网页爬取模块包括:
抓取单元,用于抓取所述目标网站的网页信息;
解析单元,根据预设的解析插件对所述网页信息进行去噪处理,提取出所述网页信息中的有效内容并予以存储。
14.根据权利要求13所述的网页爬取装置,其特征在于,所述装置还包括插件开发模块,所述插件开发模块用于:接收用户对通用解析插件进行二次开发的指令,生成自定义解析插件。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710117896.5A CN108536691A (zh) | 2017-03-01 | 2017-03-01 | 网页爬取方法和装置 |
PCT/CN2018/074262 WO2018157686A1 (zh) | 2017-03-01 | 2018-01-26 | 网页爬取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710117896.5A CN108536691A (zh) | 2017-03-01 | 2017-03-01 | 网页爬取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108536691A true CN108536691A (zh) | 2018-09-14 |
Family
ID=63370576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710117896.5A Pending CN108536691A (zh) | 2017-03-01 | 2017-03-01 | 网页爬取方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108536691A (zh) |
WO (1) | WO2018157686A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614536A (zh) * | 2018-11-30 | 2019-04-12 | 平安科技(深圳)有限公司 | 基于YouTuBe的视频批量爬取方法、系统、装置及可存储介质 |
CN109902212A (zh) * | 2019-01-25 | 2019-06-18 | 中国电子科技集团公司第三十研究所 | 一种自定义动态扩展的暗网爬虫系统 |
CN112417240A (zh) * | 2020-02-21 | 2021-02-26 | 上海哔哩哔哩科技有限公司 | 网站链接检测方法、装置、计算机设备 |
CN112579859A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 无效流量的处理方法及装置、存储介质和设备 |
CN112905866A (zh) * | 2019-03-14 | 2021-06-04 | 福建省天奕网络科技有限公司 | 一种无需人工参与的历史数据追溯爬取方法及终端 |
CN113965371A (zh) * | 2021-10-19 | 2022-01-21 | 北京天融信网络安全技术有限公司 | 网站监测过程中的任务处理方法、装置、终端及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12019691B2 (en) | 2021-04-02 | 2024-06-25 | Trackstreet, Inc. | System and method for reducing crawl frequency and memory usage for an autonomous internet crawler |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184227A (zh) * | 2011-05-10 | 2011-09-14 | 北京邮电大学 | 一种面向web服务的通用爬虫引擎系统及其工作方法 |
US20120259833A1 (en) * | 2011-04-11 | 2012-10-11 | Vistaprint Technologies Limited | Configurable web crawler |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN103440139A (zh) * | 2013-09-11 | 2013-12-11 | 北京邮电大学 | 一种面向主流微博网站微博id的采集方法及工具 |
CN103902684A (zh) * | 2014-03-25 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种爬虫采集内容结构化的方法 |
US20160055243A1 (en) * | 2014-08-22 | 2016-02-25 | Ut Battelle, Llc | Web crawler for acquiring content |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182412B (zh) * | 2013-05-24 | 2017-08-04 | 中国移动通信集团安徽有限公司 | 一种网页爬取方法及系统 |
CN104063448B (zh) * | 2014-06-18 | 2017-02-01 | 华东师范大学 | 一种视频领域相关的分布式微博数据抓取系统 |
-
2017
- 2017-03-01 CN CN201710117896.5A patent/CN108536691A/zh active Pending
-
2018
- 2018-01-26 WO PCT/CN2018/074262 patent/WO2018157686A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120259833A1 (en) * | 2011-04-11 | 2012-10-11 | Vistaprint Technologies Limited | Configurable web crawler |
CN102184227A (zh) * | 2011-05-10 | 2011-09-14 | 北京邮电大学 | 一种面向web服务的通用爬虫引擎系统及其工作方法 |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN103440139A (zh) * | 2013-09-11 | 2013-12-11 | 北京邮电大学 | 一种面向主流微博网站微博id的采集方法及工具 |
CN103902684A (zh) * | 2014-03-25 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种爬虫采集内容结构化的方法 |
US20160055243A1 (en) * | 2014-08-22 | 2016-02-25 | Ut Battelle, Llc | Web crawler for acquiring content |
CN105956175A (zh) * | 2016-05-24 | 2016-09-21 | 考拉征信服务有限公司 | 网页内容爬取的方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614536A (zh) * | 2018-11-30 | 2019-04-12 | 平安科技(深圳)有限公司 | 基于YouTuBe的视频批量爬取方法、系统、装置及可存储介质 |
CN109902212A (zh) * | 2019-01-25 | 2019-06-18 | 中国电子科技集团公司第三十研究所 | 一种自定义动态扩展的暗网爬虫系统 |
CN112905866A (zh) * | 2019-03-14 | 2021-06-04 | 福建省天奕网络科技有限公司 | 一种无需人工参与的历史数据追溯爬取方法及终端 |
CN112905867A (zh) * | 2019-03-14 | 2021-06-04 | 福建省天奕网络科技有限公司 | 一种高效率的历史数据追溯爬取方法及终端 |
CN112905866B (zh) * | 2019-03-14 | 2022-06-07 | 福建省天奕网络科技有限公司 | 一种无需人工参与的历史数据追溯爬取方法及终端 |
CN112905867B (zh) * | 2019-03-14 | 2022-06-07 | 福建省天奕网络科技有限公司 | 一种高效率的历史数据追溯爬取方法及终端 |
CN112579859A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 无效流量的处理方法及装置、存储介质和设备 |
CN112417240A (zh) * | 2020-02-21 | 2021-02-26 | 上海哔哩哔哩科技有限公司 | 网站链接检测方法、装置、计算机设备 |
CN113965371A (zh) * | 2021-10-19 | 2022-01-21 | 北京天融信网络安全技术有限公司 | 网站监测过程中的任务处理方法、装置、终端及存储介质 |
CN113965371B (zh) * | 2021-10-19 | 2023-08-29 | 北京天融信网络安全技术有限公司 | 网站监测过程中的任务处理方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018157686A1 (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536691A (zh) | 网页爬取方法和装置 | |
CN103997544B (zh) | 一种资源下载的方法和设备 | |
CN105677918B (zh) | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 | |
CN103475687B (zh) | 用于下载网站数据的分布式方法和系统 | |
CN107391775A (zh) | 一种通用的网络爬虫模型实现方法及系统 | |
CN106980497A (zh) | 网页网站性能优化方法和装置 | |
CN106649357A (zh) | 用于爬虫程序的数据处理方法及装置 | |
CN109582289A (zh) | 规则引擎中规则流的处理方法、系统、存储介质和处理器 | |
CN111209460A (zh) | 基于scrapy爬虫框架的数据采集系统及方法 | |
CN107689982A (zh) | 多数据源数据同步方法、应用服务器及计算机可读存储介质 | |
CN107766509A (zh) | 一种网页静态备份的方法和装置 | |
CN107809383A (zh) | 一种基于mvc的路径映射方法及装置 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN108133041A (zh) | 基于网络爬虫和数据转移技术的数据采集系统及方法 | |
CN108011931A (zh) | Web数据采集方法和Web数据采集系统 | |
CN110247933A (zh) | 实现防火墙策略的方法和装置 | |
CN104504010B (zh) | 一种多对多的数据采集系统及其采集方法 | |
EP3789882A1 (en) | Automatic configuration of logging infrastructure for software deployments using source code | |
CN107291587A (zh) | 计算机应用程序监控方法和装置 | |
CN107370628A (zh) | 基于埋点的日志处理方法及系统 | |
CN104461548A (zh) | 代码片段的添加方法和装置 | |
CN106681760A (zh) | 基于客户工程项目管理系统的事务处理方法和装置 | |
CN108256106A (zh) | 一种模拟访问网站适配器系统 | |
CN101184002A (zh) | 一种点对点流量深度监测方法和设备 | |
JP6291454B2 (ja) | ビジネスプロセス図生成装置、ビジネスプロセス図生成プログラム、および、ビジネスプロセス図生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |