CN106844522B - 一种网络数据爬取方法和装置 - Google Patents
一种网络数据爬取方法和装置 Download PDFInfo
- Publication number
- CN106844522B CN106844522B CN201611243880.0A CN201611243880A CN106844522B CN 106844522 B CN106844522 B CN 106844522B CN 201611243880 A CN201611243880 A CN 201611243880A CN 106844522 B CN106844522 B CN 106844522B
- Authority
- CN
- China
- Prior art keywords
- page
- webpage
- target data
- website
- info
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种网络数据爬取方法和装置,所述方法包括:通过网页测试工具打开浏览器,并打开待爬取数据的网站;根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。所述装置用于执行上述方法。本发明实施例通过控制浏览器对待爬取数据的网站进行浏览,并采用网页测试工具即selenium模拟用户浏览网站,可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。
Description
技术领域
本发明实施例涉及互联网技术领域,具体涉及一种网络数据爬取方法和装置。
背景技术
随着科技的发展,互联网技术在人们的生活中使用的越来越多,人们可以利用互联网的搜索引擎浏览不同网站的数据,这就需要搜索引擎能够爬取到不同网站的数据,搜索引擎主要通过网络爬虫进行爬取数据。网络爬虫是搜索引擎抓取系统的重要组成部分,爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。
现有技术中,网络爬虫一般会驻留在服务器上,通过给定的URL(UniformResource Locator,统一资源定位符),利用HTTP(HyperText Transfer Protocol,超文本传输协议)等标准协议读取相应文档,获取相应的数据。由于网站会通过Robots协议即网络爬虫排除标准协议(Robots Exclusion Protocol)告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。因此,网站可以通过建立反爬虫机制限制网络爬虫爬取网站的全部或部分数据,或导致许多正常爬取的数据爬取失败。
发明内容
针对现有技术中的缺陷,本发明实施例提供本发明实施例提供了一种网络数据爬取方法和装置。
一方面,本发明实施例提供本发明实施例提供了一种网络数据爬取方法,包括:
通过网页测试工具打开浏览器,并打开待爬取数据的网站;
根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;
分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
另一方面,本发明实施例提供一种网络数据爬取装置,包括:
浏览器打开单元,用于通过网页测试工具打开浏览器,并打开待爬取数据的网站;
页面信息获取单元,用于根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;
目标数据获取单元,用于分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
本发明实施例提供的网络数据爬取方法和装置,通过控制浏览器对待爬取数据的网站进行浏览,并采用网页测试工具即selenium模拟用户浏览网站,可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中网络数据爬取方法流程示意图;
图2为本发明实施例中网络数据爬取装置的结构示意图;
图3为本发明实施例中又一网络数据爬取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例中网络数据爬取方法流程示意图,如图1所示,本发明实施例提供的网络数据爬取方法包括:
S1、通过网页测试工具打开浏览器,并打开待爬取数据的网站;
具体地,本发明实施例提供的网络数据爬取装置,可以通过网页测试工具以下简称selenium打开浏览器,输入URL后可以打开对应的待爬取数据的网站。如若需要爬取网站A中的数据,则通过selenium打开对应的浏览器如IE浏览器,并输入网站A的URL,即可打开网站A。
S2、根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;
具体地,通过selenium打开对应的网站后,根据预先设置的目标数据网页结构,通过selenium模拟用户浏览网站,依次打开网站上目标数据网页结构对应的网页,再根据目标数据标签获取目标数据标签对应的所有网页的页面信息。
S3、分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
具体地,分别对获取的目标数据标签对应的页面信息进行分析,获取目标数据标签对应的的目标数据。需要说明的是,可以获取到目标数据标签对应的一页网页的页面信息后,即对该页面信息进行分析,获取目标数据标签对应的目标数据,也可以将目标数据标签对应的所有网页的页面信息都获取到后,再分别分析每一页网页的页面信息,获取标数据标签对应的目标数据,本发明实施例不作具体限定。
例如:用户需要爬取网站A的B品牌电饭煲的数据,即目标数据标签为B品牌电饭煲。通过selenium打开浏览器后,输入网站A的URL,打开网站A。预设设置好目标数据网页结构为家用电器-B品牌-电饭煲。通过selenium可以模拟用户浏览网站A,依次点击网站A中的家用电器对应的栏目、B品牌对应的栏目和电饭煲对应的栏目,获取到目标数据标签即B品牌电饭煲对应的所有网页的页面信息。因为网页上可能还有其他的数据,通过对获取到的页面信息的分析,获取目标数据标签即B品牌电饭煲对应的目标数据。
本发明实施例提供的网络数据爬取方法,通过控制浏览器对待爬取数据的网站进行浏览,并采用selenium模拟用户浏览网站,可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。
在上述实施例的基础上,所述通过所述网页测试工具模拟用户浏览所述网站,包括:
通过所述网页测试工具模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览所述网站。
具体地,在通过selenium模拟用户浏览网站时,可以通过selenium控制浏览器获取到网站上的页面跳转按钮、页面下拉条以及网站上对应的栏目块,模拟对应的点击操作,具体可以模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览网站。如:可以模拟用户点击页面跳转按钮进行翻页,即点击上一页或下一页按钮,模拟用户将网页的下拉条下拉,还可以模拟用户点击网页上的某个栏目如家用电器栏目等,以实现智能模拟人为操作。
本发明实施例提供的网络数据爬取方法,通过模拟用户浏览网站时的具体操作,很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。本发明实施例提供的网络数据爬取方法,无需考虑网站反爬机制及动态呈现的方式,针对所有http协议的网站,无需采用正则匹配html标签,都可以通过浏览器模拟用户浏览网站的方式,获取到目标数据标签对应的网页的页面信息,在对获取到的页面信息进行分析,即可获得目标数据标签对应的目标数据。克服了传统的数据爬取无法针对多个网站,每个网站的爬取均需要以网站的特点、反爬机制及动态数据呈现的方式定制爬虫程序编写的困难。
在上述实施例的基础上,所述获取所述网站上目标数据标签对应的所有网页的页面信息,包括:
根据所述目标数据网页结构,打开对应的网页,获取所述目标数据标签对应的所有网页的页面信息,若判断获知所述网页不是所述目标数据标签对应的最后一页网页,则模拟所述点击页面跳转按钮,点击下一页,获取下一页网页的页面信息。
具体地,当通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,获取目标数据标签对应的网页的页面信息。判断当前网页是否是目标数据标签对应的最后一页网页,若不是最后一页,则控制浏览器获取页面跳转按钮,并模拟点击操作,点击下一页,获取下一页的页面信息。若当前网页是目标数据标签对应的最后一页网页,则退出。可以在打开一页网页获取到该网页的页面信息后,即对该网页的页面信息进行分析,获取目标数据标签对应的目标数据。
例如:用户需要爬取网站A的B品牌电饭煲的数据,即目标数据标签为B品牌电饭煲。通过selenium打开浏览器后,输入网站A的URL,打开网站A。预设设置好目标数据网页结构为家用电器-B品牌-电饭煲。通过selenium可以模拟用户浏览网站A,依次点击网站A中的家用电器对应的栏目、B品牌对应的栏目和电饭煲对应的栏目,最后获得B品牌电饭煲对应的网页。若B品牌电饭煲对应的网页有3页,则首先打开的是第一页网页,获取到第一页网页的页面信息后,对该页面信息进行分析,获取B品牌电饭煲对应的目标数据。判断获知第一页网页不是最后一页,则通过selenium模拟点击该网页中的下一页按钮,页面跳转到第二页网页,同样的获取第二页网页的页面信息后,对该页面信息进行分析,获取B品牌电饭煲对应的目标数据。判断获知第二页网页不是最后一页网页,则通过selenium模拟点击该网页中的下一页按钮,页面跳转到第三页网页,同样的获取第三页网页的页面信息后,对该页面信息进行分析,获取B品牌电饭煲对应的目标数据。最后判断第三页网页中没有下一页按钮,即第三页网页是B品牌电饭煲对应的最后一页网页,则退出,B品牌电饭煲的目标数据的抓取结束。
本发明实施例提供的网络数据爬取方法,通过模拟用户浏览网站时的具体操作,一页页的打开目标数据标签对应的所有网页,获取网页对应的页面信息,并通过判断打开的当前网页是否是最后一页网页,实施是否点击下一页的页面跳转按钮,实现翻页的功能,智能真实的模拟用户浏览网站的具体操作。可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。不需要有经验的网络爬虫工程师对网站进行分析,只需定义好目标数据的标签层次即目标数据的网页结构,即可实现获取目标数据标签对应的网页的页面信息,不需要安装大型软件,不需要复杂的操作,操作简单,节约了网络数据爬取的人力物力成本及时间成本。
在上述实施例的基础上,所述方法还包括:预先设置在每一页网页的停留时间。
具体地,在通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,可以根据预先设置的在每一页网页的停留时间,控制浏览器在当前网页进行停留一定的时间,以获取目标数据标签对应的网页的页面信息,并对该页面信息进行分析,获取目标数据标签对应的目标数据。
本发明实施例提供的网络数据爬取方法,通过预先设置浏览网站的网页时,在每一页网页的停留时间,以获取每一页目标数据标签对应的网页的页面信息,并获取页面信息中目标数据标签对应的目标数据,使得爬取的网络数据更加完整和准确。
在上述实施例的基础上,所述方法还包括:若判断获知所述网页出现异常,则模拟刷新页面操作。
具体地,在通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,若判断获知打开的当前网页出现异常如:网页内容为空或网页网址出现错误等,则可以通过selenium控制浏览器模拟刷新页面操作,实现网页的页面刷新,使得网页页面恢复正常。当然判断网页出现异常,还可以是其他异常方式,本发明实施例不作具体限定。
此外,本发明实施例还可以采用虚拟显示器,用来在爬虫服务器即本发明实施例中的网络数据爬取装置上运行浏览器,实现爬取目标网站在浏览器上加载。
本发明实施例提供的网络数据爬取方法,通过模拟用户浏览网站时的具体操作,打开目标数据标签对应的所有网页,获取网页对应的页面信息,并通过判断打开的当前网页是否是最后一页网页,实施是否点击下一页的页面跳转按钮,实现翻页的功能,并能够在判断网页出现异常后,模拟刷新网页页面操作,智能真实的模拟用户浏览网站的具体操作。可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率和网络数据爬取的完整性。同时,操作简单,节约了网络数据爬取的人力物力成本及时间成本。
图2为本发明实施例中网络数据爬取装置的结构示意图,如图2所示,本发明实施例提供的网络数据爬取装置包括:浏览器打开单元21、页面信息获取单元22和目标数据获取单元23,其中:
浏览器打开单元21用于通过网页测试工具打开浏览器,并打开待爬取数据的网站;页面信息获取单元22用于根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;目标数据获取单元23用于分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
具体地,本发明实施例提供的网络数据爬取装置中的浏览器打开单元21,可以通过网页测试工具以下简称selenium打开浏览器,输入URL后可以打开对应的待爬取数据的网站。如若需要爬取网站A中的数据,则通过selenium打开对应的浏览器如IE浏览器,并输入网站A的URL,即可打开网站A。页面信息获取单元22根据预先设置的目标数据网页结构,通过selenium模拟用户浏览网站,依次打开网站上目标数据网页结构对应的网页,再根据目标数据标签获取目标数据标签对应的所有网页的页面信息。目标数据获取单元23分别对获取的目标数据标签对应的页面信息进行分析,获取目标数据标签对应的的目标数据。需要说明的是,可以获取到目标数据标签对应的一页网页的页面信息,即对该页面信息进行分析,获取目标数据标签对应的目标数据,也可以将目标数据标签对应的所有网页的页面信息都获取到后,再分别分析每一页网页的页面信息,获取标数据标签对应的目标数据,本发明实施例不作具体限定。
本发明实施例提供的网络数据爬取装置,通过控制浏览器对待爬取数据的网站进行浏览,并采用selenium模拟用户浏览网站,可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。
在上述是实施例的基础上,,所述页面信息获取单元具体用于:通过所述网页测试工具模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览所述网站。
具体地,页面信息获取单元在通过selenium模拟用户浏览网站时,可以控制浏览器获取到网站上的页面跳转按钮、页面下拉条以及网站上对应的栏目块,模拟对应的点击操作,具体可以模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览网站。如:可以模拟用户点击页面跳转按钮进行翻页,即点击上一页或下一页按钮,模拟用户将网页的下拉条下拉,还可以模拟用户点击网页上的某个栏目如家用电器栏目等,以实现智能模拟人为操作。
本发明实施例提供的网络数据爬取装置,通过模拟用户浏览网站时的具体操作,很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。本发明实施例提供的网络数据爬取方法,无需考虑网站反爬机制及动态呈现的方式,针对所有http协议的网站,无需采用正则匹配html标签,都可以通过浏览器模拟用户浏览网站的方式,获取到目标数据标签对应的网页的页面信息,在对获取到的页面信息进行分析,即可获得目标数据标签对应的目标数据。克服了传统的数据爬取无法针对多个网站,每个网站的爬取均需要以网站的特点、反爬机制及动态数据呈现的方式定制爬虫程序编写的困难。
在上述实施例的基础上,所述页面信息获取单元具体用于:根据所述目标数据网页结构,打开对应的网页,获取所述目标数据标签对应的所有网页的页面信息,若判断获知所述网页不是所述目标数据标签对应的最后一页网页,则模拟所述点击页面跳转按钮,点击下一页,获取下一页网页的页面信息。
具体地,页面信息获取单元通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,获取目标数据标签对应的网页的页面信息。判断当前网页是否是目标数据标签对应的最后一页网页,若不是最后一页,则控制浏览器获取页面跳转按钮,并模拟点击操作,点击下一页,获取下一页的页面信息。若当前网页是目标数据标签对应的最后一页网页,则退出。可以在打开一页网页获取到该网页的页面信息后,即对该网页的页面信息进行分析,获取目标数据标签对应的目标数据。
本发明实施例提供的网络数据爬取装置,通过模拟用户浏览网站时的具体操作,一页页的打开目标数据标签对应的所有网页,获取网页对应的页面信息,并通过判断打开的当前网页是否是最后一页网页,实施是否点击下一页的页面跳转按钮,实现翻页的功能,智能真实的模拟用户浏览网站的具体操作。可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率。不需要有经验的网络爬虫工程师对网站进行分析,只需定义好目标数据的标签层次即目标数据的网页结构,即可实现获取目标数据标签对应的网页的页面信息,不需要安装大型软件,不需要复杂的操作,操作简单,节约了网络数据爬取的人力物力成本及时间成本。
在上述实施例的基础上,所述页面信息获取单元具体用于:预先设置在每一页网页的停留时间。
具体地,页面信息获取单元在通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,可以根据预先设置的在每一页网页的停留时间,控制浏览器在当前网页进行停留一定的时间,以获取目标数据标签对应的网页的页面信息,并对该页面信息进行分析,获取目标数据标签对应的目标数据。
本发明实施例提供的网络数据爬取装置,通过预先设置浏览网站的网页时,在每一页网页的停留时间,以获取每一页目标数据标签对应的网页的页面信息,并获取页面信息中目标数据标签对应的目标数据,使得爬取的网络数据更加完整和准确。
在上述实施例的基础上,所述页面信息获取单元具体用于:若判断获知所述网页出现异常,则模拟刷新页面操作。
具体地,页面信息获取单元在通过selenium模拟用户浏览网站时,根据预先设置的目标数据网页结构,打开对应的网页,若判断获知打开的当前网页出现异常如:网页内容为空或网页网址出现错误等,则可以通过selenium控制浏览器模拟刷新页面操作,实现网页的页面刷新,使得网页页面恢复正常。
本发明提供的装置用于执行上述方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
本发明实施例提供的网络数据爬取方法,通过模拟用户浏览网站时的具体操作,一页页的打开目标数据标签对应的所有网页,获取网页对应的页面信息,并通过判断打开的当前网页是否是最后一页网页,实施是否点击下一页的页面跳转按钮,实现翻页的功能,并能够在判断网页出现异常后,模拟刷新网页页面操作,智能真实的模拟用户浏览网站的具体操作。可以很好的避免因网站反爬机制造成数据爬取失败的问题,提高了网络数据爬取的成功率和网络数据爬取的完整性。同时,操作简单,节约了网络数据爬取的人力物力成本及时间成本。
图3为本发明实施例中又一网络数据爬取装置的结构示意图,如图3所示,所述装置可以包括:处理器(processor)901、存储器(memory)32和通信总线33,其中,处理器31,存储器32通过通信总线33完成相互间的通信。处理器31可以调用存储器32中的逻辑指令,以执行如下方法:通过网页测试工具打开浏览器,并打开待爬取数据的网站;根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
此外,上述的存储器902中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:通过网页测试工具打开浏览器,并打开待爬取数据的网站;根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:通过网页测试工具打开浏览器,并打开待爬取数据的网站;根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据。
以上所描述的装置以及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
Claims (6)
1.一种网络数据爬取方法,其特征在于,包括:
通过网页测试工具打开浏览器,并打开待爬取数据的网站;
根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;其中,所述目标数据网页结构为各类数据标签之间的层级关系;
分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据;
其中,所述通过所述网页测试工具模拟用户浏览所述网站,包括:
通过所述网页测试工具模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览所述网站;
所述获取所述网站上目标数据标签对应的所有网页的页面信息,包括:
根据所述目标数据网页结构,打开对应的网页,获取所述目标数据标签对应的所有网页的页面信息,若判断获知所述网页不是所述目标数据标签对应的最后一页网页,则模拟所述点击页面跳转按钮,点击下一页,获取下一页网页的页面信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先设置在每一页网页的停留时间。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:若判断获知所述网页出现异常,则模拟刷新页面操作。
4.一种网络数据爬取装置,其特征在于,包括:
浏览器打开单元,用于通过网页测试工具打开浏览器,并打开待爬取数据的网站;
页面信息获取单元,用于根据预先设置的目标数据网页结构,通过所述网页测试工具模拟用户浏览所述网站,获取所述网站上目标数据标签对应的所有网页的页面信息;其中,所述目标数据网页结构为各类数据标签之间的层级关系;
目标数据获取单元,用于分别对获取到的所述页面信息进行分析,根据所述目标数据标签获取对应的目标数据;
其中,所述页面信息获取单元具体用于:通过所述网页测试工具模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作,实现模拟用户浏览所述网站;
所述页面信息获取单元具体用于:根据所述目标数据网页结构,打开对应的网页,获取所述目标数据标签对应的所有网页的页面信息,若判断获知所述网页不是所述目标数据标签对应的最后一页网页,则模拟所述点击页面跳转按钮,点击下一页,获取下一页网页的页面信息。
5.根据权利要求4所述的装置,其特征在于,所述页面信息获取单元具体用于:预先设置在每一页网页的停留时间。
6.根据权利要求4或5所述的装置,其特征在于,所述页面信息获取单元具体用于:若判断获知所述网页出现异常,则模拟刷新页面操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243880.0A CN106844522B (zh) | 2016-12-29 | 2016-12-29 | 一种网络数据爬取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243880.0A CN106844522B (zh) | 2016-12-29 | 2016-12-29 | 一种网络数据爬取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844522A CN106844522A (zh) | 2017-06-13 |
CN106844522B true CN106844522B (zh) | 2019-11-22 |
Family
ID=59113889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611243880.0A Active CN106844522B (zh) | 2016-12-29 | 2016-12-29 | 一种网络数据爬取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844522B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304498B (zh) * | 2018-01-12 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
CN108334585A (zh) * | 2018-01-29 | 2018-07-27 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
CN108388645B (zh) * | 2018-02-27 | 2021-08-24 | 智言科技(深圳)有限公司 | 基于tan树形朴素贝叶斯算法网页可点击识别方法及装置 |
CN108664559A (zh) * | 2018-03-30 | 2018-10-16 | 中山大学 | 一种网站网页源代码自动爬取方法 |
CN109101600A (zh) * | 2018-08-01 | 2018-12-28 | 沈文策 | 一种网页中动态数据的爬取方法及装置 |
CN110955813A (zh) * | 2018-09-27 | 2020-04-03 | 北京国双科技有限公司 | 一种数据爬取方法及装置 |
CN109684210A (zh) * | 2018-12-18 | 2019-04-26 | 宁夏隆基宁光仪表股份有限公司 | 一种网站自动化测试方法、装置、设备及可读存储介质 |
CN109800378A (zh) * | 2019-01-23 | 2019-05-24 | 北京字节跳动网络技术有限公司 | 基于自定义浏览器的内容处理方法、装置及电子设备 |
CN110929257B (zh) * | 2019-10-30 | 2022-02-01 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN111125488A (zh) * | 2019-12-25 | 2020-05-08 | 东南大学 | 一种主机负荷智能感知的定向爬虫方法及系统 |
CN112163139A (zh) * | 2020-10-14 | 2021-01-01 | 深兰科技(上海)有限公司 | 图像数据的处理方法和装置 |
CN113609411B (zh) * | 2021-06-25 | 2024-06-14 | 北京华云安信息技术有限公司 | 通过网络爬虫爬取页面信息的方法 |
CN116975408A (zh) * | 2023-08-11 | 2023-10-31 | 国网吉林省电力有限公司经济技术研究院 | 一种基于人工模拟的乡村产业数据库网站自动抓取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
CN101089856A (zh) * | 2007-07-20 | 2007-12-19 | 李沫南 | 一种提取网页数据的方法和Web爬虫系统 |
CN102982162A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取系统 |
CN105354337A (zh) * | 2015-12-08 | 2016-02-24 | 北京奇虎科技有限公司 | 一种网络爬虫实现方法和网络爬虫系统 |
CN106126697A (zh) * | 2016-06-30 | 2016-11-16 | 广州市皓轩软件科技有限公司 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
-
2016
- 2016-12-29 CN CN201611243880.0A patent/CN106844522B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
CN101089856A (zh) * | 2007-07-20 | 2007-12-19 | 李沫南 | 一种提取网页数据的方法和Web爬虫系统 |
CN102982162A (zh) * | 2012-12-05 | 2013-03-20 | 北京奇虎科技有限公司 | 网页信息的获取系统 |
CN105354337A (zh) * | 2015-12-08 | 2016-02-24 | 北京奇虎科技有限公司 | 一种网络爬虫实现方法和网络爬虫系统 |
CN106126697A (zh) * | 2016-06-30 | 2016-11-16 | 广州市皓轩软件科技有限公司 | 一种基于Web动态信息抓取技术的详情页面自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106844522A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844522B (zh) | 一种网络数据爬取方法和装置 | |
CN103297469B (zh) | 一种网站数据的采集方法及装置 | |
CN108683666A (zh) | 一种网页识别方法及装置 | |
CN107220094A (zh) | 页面加载方法、装置和电子设备 | |
CN103686226B (zh) | 基于云计算的机顶盒上网监控方法、监控系统和机顶盒 | |
CN106202101B (zh) | 广告识别方法及装置 | |
CN107357903A (zh) | 用户行为数据整合方法、装置及电子设备 | |
CN103631957B (zh) | 访客行为数据统计方法及装置 | |
CN112989157A (zh) | 一种检测爬虫请求的方法和装置 | |
CN108881126A (zh) | 验证验证码的方法、装置和系统 | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN106326485A (zh) | 检测网站链接的方法和装置 | |
CN107203470B (zh) | 页面调试方法和装置 | |
CN106899549A (zh) | 一种网络安全检测方法及装置 | |
CN106776615A (zh) | 热力图生成方法和装置 | |
CN107819790A (zh) | 攻击报文的识别方法及装置 | |
CN110362728A (zh) | 基于大数据分析的信息推送方法、装置、设备及存储介质 | |
CN107104924A (zh) | 网站后门文件的验证方法及装置 | |
CN107590387A (zh) | El表达式注入漏洞检测方法、装置及电子设备 | |
CN109657125A (zh) | 基于网络爬虫的数据处理方法、装置、设备及存储介质 | |
CN106775611B (zh) | 基于机器学习的自适应动态网页爬虫系统的实现方法 | |
CN104680063B (zh) | 一种信息拦截方法及终端 | |
CN109344335A (zh) | 一种内容推荐方法及电子设备 | |
CN106933840A (zh) | 论坛目录页内容爬取方法和装置 | |
CN110209958A (zh) | 专题制作方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20191021 Address after: 100193, Beijing, Haidian District East Road, No. 10 East Hospital Building No. 20 wave building Applicant after: Beijing, Tianyuan, Creative Technology Limited Address before: 100193, Beijing, Haidian District East Road, No. 10 East Hospital Building No. 20 wave building Applicant before: Beijing MetarNet Technologies Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |