CN108897788A

CN108897788A - 数据爬取方法、装置、计算机设备及存储介质

Info

Publication number: CN108897788A
Application number: CN201810594254.9A
Authority: CN
Inventors: 蔡俊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-11-27
Anticipated expiration: 2038-06-11
Also published as: CN108897788B; WO2019237547A1

Abstract

本发明公开了一种数据爬取方法、装置、计算机设备及存储介质，所述方法包括，通过采用网络标识信息访问第一网页，若访问成功，且第一网址为非域名，则对第一网址进行解析，得到第一网址对应的域名，访问域名对应的第一网站的首页，若访问成功，且所述第一网址为域名或访问域名对应的第一网站的首页成功，则遍历各个第二网页，若访问成功，对第二网页内容进行解析，得到需要爬取的数据，若访问第一网址对应的第一网页不成功，或者访问域名对应的第一网站的首页不成功，或者遍历各个第二网页不成功，则采用Tornado分派新的网络标识信息至标识频道，返回执行采用网络标识信息访问对应的第一网页的步骤，从而提高了数据爬取的稳定性。

Description

数据爬取方法、装置、计算机设备及存储介质

技术领域

本发明涉及金融领域，尤其涉及一种数据爬取方法、装置、计算机设备及存储介质。

背景技术

目前，在金融行业中，数据信息对于金融公司越来越重要，金融公司通常需要通过网络向目标网站爬取大量有效信息。

传统的信息爬取方式为使用一个IP地址频繁对目标网站进行爬取，由于第一网站设置了反爬取模式，预设的时间段内限制一个IP地址对目标网站的访问次数，若是在预设的时间段内对第一网站的访问次数达到了预设的限定值，只能在下一个预设的时间段内再进行爬取，甚至目标网站将IP地址当做为恶意IP而封杀，从而导致爬取信息的稳定性低。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高数据爬取稳定性低的数据爬取方法、装置、计算机设备及存储介质。

一种数据爬取方法，包括：

采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页，其中，所述标识频道中的网络标识信息预先由标识信息库分派，所述标识信息库包括可成功访问网络资源的多个网络标识信息；

若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功，且所述第一网址为非域名，则按照预设的第一解析方式对所述第一网址进行解析，得到所述第一网址对应的域名；

采用所述网络标识信息访问所述域名对应的第一网站的首页，其中，所述第一网站包括一个以上第二网页，所述第二网页包括第二网页内容；

若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功，且所述第一网址为域名，或者采用所述网络标识信息访问所述域名对应的第一网站的首页成功，则遍历所述第一网站的各个第二网页；

若遍历所述第一网站的各个第二网页成功，按照预设的第二解析方式对所述第二网页内容进行解析，得到需要爬取的数据；

若采用所述网络标识信息访问所述第一网址对应的第一网页不成功，或者采用所述网络标识信息访问所述域名对应的第一网站的首页不成功，或者遍历所述第一网站的各个所述第二网页不成功，则采用Tornado异步机制分派所述标识信息库中的新的网络标识信息至所述标识频道，返回执行所述采用所述标识频道中的网络标识信息访问预设的第一网址对应的第一网页的步骤，所述新的网络标识信息是指未分派过至所述标识频道的网络标识信息。

一种数据爬取装置，包括：

第一访问模块，用于采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页，其中，所述标识频道中的网络标识信息预先由标识信息库分派，所述标识信息库包括可成功访问网络资源的多个网络标识信息；

第一解析模块，用于若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功，且所述第一网址为非域名，则按照预设的第一解析方式对所述第一网址进行解析，得到所述第一网址对应的域名；

第二访问模块，用于采用所述网络标识信息访问所述域名对应的第一网站的首页，其中，所述第一网站包括一个以上第二网页，所述第二网页包括第二网页内容；

遍历模块，用于若采用所述标识频道中的所述网络标识信息访问所述第一网址对应的第一网页成功，且所述第一网址为域名，或者采用所述网络标识信息访问所述域名对应的第一网站的首页成功，则遍历所述第一网站的各个第二网页；

第二解析模块，用于若遍历所述第一网站的各个第二网页成功，按照预设的第二解析方式对所述第二网页内容进行解析，得到需要爬取的数据；

分派模块，用于若采用所述网络标识信息访问所述第一网址对应的第一网页不成功，或者采用所述网络标识信息访问所述域名对应的第一网站的首页不成功，或者遍历所述第一网站的各个所述第二网页不成功，则采用Tornado异步机制分派所述标识信息库中的新的网络标识信息至所述标识频道，并触发所述第一访问模块，所述新的网络标识信息是指未分派过至所述标识频道的网络标识信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据爬取方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据爬取方法的步骤。

上述数据爬取方法、装置、计算机设备及存储介质，首先，通过采用标识频道中预先由标识信息库分派得来的网络标识信息访问预设的第一网址对应的第一网页，若访问第二网页成功，且第一网址为非域名，则对第一网址进行解析，从而可以得到第一网址对应的域名，然后，采用网络标识信息访问域名对应的第一网站的首页，若访问第二网页成功，且第一网址为域名或采用访问首页成功，则遍历第一网站的各个第二网页，接下来，确定遍历各个第二网页成功后，按照对第二网页内容进行解析，得到需要爬取的数据，最后，若访问第一网页不成功，或者访问首页不成功，或者遍历各个第二网页不成功，则采用Tornado异步机制分派标识信息库中的新的网络标识信息至标识频道，返回执行采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页的步骤，从而当正在使用的其中一个网络标识信息失效时，便立即分派一个新的网络标识信息，由于新的网络标识信息来自标识信息库中，而标识信息库中的各个网络标识信息是可成功访问网络资源的网络标识信息，从而确保了网络标识信息的稳定性，保证可以正常有序地访问网络资源，进而提高了数据爬取的稳定性和效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据爬取方法的一应用环境示意图；

图2是本发明一实施例中数据爬取方法的一流程图；

图3是本发明实施例提供的数据爬取方法中从代理网站中获取网络标识信息的实现流程图；

图4是本发明实施例提供的数据爬取方法中步骤S10的实现流程图；

图5是本发明实施例提供的数据爬取方法中遍历各个网页的实现流程图；

图6是本发明实施例提供的数据爬取方法中解析网页内容的实现流程图；

图7是本发明一实施例中数据爬取装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的数据爬取方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。首先服务端采用标识频道中预先由标识信息库分派得来的网络标识信息访问预设的第一网址对应的客户端的第一网页，若服务端采用标识频道中的网络标识信息访问第一网址对应的客户端的第一网页成功，且第一网址为非域名，则服务端按照预设的第一解析方式对第一网址进行解析，从而可以得到第一网址对应的域名，然后，服务端采用网络标识信息访问域名对应的第一网站的客户端的首页，若服务端采用标识频道中的网络标识信息访问第一网址对应的客户端的第一网页成功，且第一网址为域名或采用网络标识信息访问域名对应的第一网站的客户端的首页成功，则服务端遍历第一网站的客户端的各个第二网页，接下来，服务端确定遍历第一网站的客户端的各个第二网页成功后，服务端按照预设的第二解析方式对客户端的第二网页内容进行解析，得到需要爬取的数据，最后，若服务端采用网络标识信息访问第一网址对应的客户端的第一网页不成功，或者采用网络标识信息访问域名对应的第一网站的客户端的首页不成功，或者遍历第一网站的客户端的各个第二网页不成功，则服务端采用Tornado异步机制分派标识信息库中的新的网络标识信息至标识频道，服务端返回执行采用标识频道中的网络标识信息访问预设的第一网址对应的客户端的第一网页的步骤。其中，计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种数据爬取方法，该数据爬取方法应用在金融行业中，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页；

在本发明实施例中，标识频道是指临时存储可成功访问网络资源的网络标识信息的信道。网络标识信息是指机器在网络中的标志信息，即IP地址。IP地址，英文全称为Internet Protocol Address，是指互联网协议地址。标识信息库是指专门用于保存可成功访问网络资源的网络标识信息的数据库。标识频道中的网络标识信息预先由标识信息库分派，标识信息库包括可成功访问网络资源的多个网络标识信息。

需要说明的是，标识频道可以有多个，一个标识频道存在一个正在使用的可成功访问网络资源的网络标识信息。正在使用的可成功访问网络资源的网络标识信息可以受到外界限制而变得无效，即正在使用的可成功访问网络资源的网络标识信息可以受到一个网站的封杀而变得无法再访问该网站。

具体地，首先，将上网设备的IP地址设置为临时存储可成功访问网络资源的IP地址的信道中的IP地址，然后，采用该上网设备中的浏览器访问预设的第一网址对应的第一网页，其中，该信道中的IP地址预先由标识信息库分派得来，标识信息库包括多个可成功访问网络资源的IP地址。

需要说明的是，预设的第一网址可以为http://www.xinhuanet.com/fortune/2018-02/08/c_129808453.html，预设的第一网址的具体内容，可以根据实际应用需要进行设定，此处不做限制。

S20：若采用标识频道中的网络标识信息访问第一网址对应的第一网页成功，且第一网址为非域名，则按照预设的第一解析方式对第一网址进行解析，得到第一网址对应的域名；

在本发明实施例中，域名，英文全称为Domain Name，是指由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位。Internet，中文名称为因特网，是指由那些使用公用语言互相通信的计算机连接而成的全球网络。

具体地，若采用IP地址为标识频道中的IP地址的上网设备中的浏览器，访问第一网址对应的第一网页成功，且第一网址为非由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，则按照预设的第一解析方式对第一网址进行解析，得到第一网址对应的域名。

需要说明的是，预设的第一解析方式可以为直接提取按照由左到右顺序排列的一个网址中的双斜杠“//”与第一单斜杠“/”之间的内容，预设的第一解析方式的具体内容，可以根据实际应用需要进行设定，此处不做限制。

为了更好地理解步骤S20，下面通过一个例子进行说明，具体表述如下：

例如，假设上网设备为个人计算机，浏览器为IE浏览器，标识频道为A频道，IP地址为“42.55.173.190，端口80”，第一网址为http://news.163.com/18/0130/12/D9DA7M9S000181BT.html，预设的第一解析方式为直接提取一个网址中的双斜杠“//”与第一单斜杠“/”之间的内容，则，若采用IP地址为“42.55.173.190，端口80”的个人计算机中的IE浏览器访问http://news.163.com/18/0130/12/D9DA7M9S000181BT.html对应的第一网页成功，且http://news.163.com/18/0130/12/D9DA7M9S000181BT.html为不是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，则直接提取按照由左到右顺序排列的http://news.163.com/18/0130/12/D9DA7M9S000181BT.html中的双斜杠“//”与第一单斜杠“/”之间的内容，得到http://news.163.com/18/0130/12/D9DA7M9S000181BT.html对应的news.163.com。

S30：采用网络标识信息访问域名对应的第一网站的首页，其中，第一网站包括一个以上第二网页，第二网页包括第二网页内容；

具体地，首先，将上网设备的IP地址设置为标识频道中的IP地址，然后，采用该上网设备中的浏览器访问域名对应的第一网站的首页，其中，第一网站包括一个以上第二网页，第二网页包括第二网页内容。

需要说明的是，第一网站可以为网易新闻官网，第二网页包括第一网页，第一网站的具体内容，可以根据实际应用需要进行设定，此处不做限制。

S40：若采用标识频道中的网络标识信息访问第一网址对应的第一网页成功，且第一网址为域名，或者采用网络标识信息访问域名对应的第一网站的首页成功，则遍历第一网站的各个第二网页；

具体地，若采用IP地址为标识频道中的IP地址的上网设备中的浏览器访问第一网址对应的第一网页成功，且第一网址为域名，或者采用IP地址访问域名对应的第一网站的首页成功，则遍历第一网站的各个第二网页。

S50：若遍历第一网站的各个第二网页成功，按照预设的第二解析方式对第二网页内容进行解析，得到需要爬取的数据；

具体地，若采用IP地址为标识频道中的IP地址的上网设备中的浏览器遍历第一网站的各个第二网页成功，按照预设的第二解析方式对第二网页内容进行解析，得到需要爬取的数据。

需要说明的是，预设的第二解析方式可以为采用JAXP工具对一个网页进行解析。JAXP工具是指对XML文档处理的工具。JAXP，英文全称为Java API for XML Processing，是指解析和验证XML文档的Java应用程序接口。XML文档是指一种用于标记电子文件使其具有结构性的标记语言文档。Java是指一门面向对象编程语言。预设的第二解析方式的具体内容，可以根据实际应用需要进行设定，此处不做限制。

S60：若采用网络标识信息访问第一网址对应的第一网页不成功，或者采用网络标识信息访问域名对应的第一网站的首页不成功，或者遍历第一网站的各个第二网页不成功，则采用Tornado异步机制分派标识信息库中的新的网络标识信息至标识频道，返回执行步骤S10，新的网络标识信息是指未分派过至标识频道的网络标识信息。

在本发明实施例中，Tornado是一种Web服务器软件的开源版本。Web，英文全称为World Wide Web，是指一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。HTTP英文全称为HyperText Transfer Protocol，是指超文本传输协议，是互联网上应用最为广泛的一种网络协议，是一种详细规定浏览器和万维网服务器之间相互通信的规则。Tornado异步机制是指一种当一个异步过程调用发出后，调用者不能立刻得到结果，实际处理这个调用的部件在完成后，通过状态、通知和回调来通知调用者的机制。

进一步地，Tornado异步机制基于AsyncHTTPClient实现，AsyncHTTPClient是指一种使用线程池处理和发送请求的异步框架。

具体地，若采用IP地址为标识频道中的IP地址的上网设备中的浏览器访问第一网址对应的第一网页不成功，或者采用IP地址为标识频道中的IP地址的上网设备中的浏览器访问域名对应的第一网站的首页不成功，或者采用IP地址为标识频道中的IP地址的上网设备中的浏览器遍历第一网站的各个第二网页不成功，则采用基于AsyncHTTPClient实现的Tornado异步机制分派标识信息库中的新的IP地址至标识频道，返回执行步骤S10，新的IP地址是指未分派过至标识频道的IP地址。

为了更好地理解步骤S60，下面通过一个例子进行说明，具体表述如下：

例如，假设上网设备为个人计算机，浏览器为IE浏览器，IP地址包括“42.55.173.190，端口80”和“53.34.219.40，端口8118”，第一网址为http://news.163.com/18/0130/12/D9DA7M9S000181BT.html，域名为news.163.com，新的IP地址为“121.31.100.15，端口8123”，标识信息库为第一mysql数据库，标识频道包括A信道和B信道，则，若采用IP地址为A信道中的“42.55.173.190，端口80”的上网设备中的IE浏览器访问http://news.163.com/18/0130/12/D9DA7M9S000181BT.html对应的第一网页不成功，或者采用IP地址为A信道中的“42.55.173.190，端口80”的上网设备中的IE浏览器访问news.163.com对应的第一网站的首页不成功，或者采用IP地址为A信道中的“42.55.173.190，端口80”的上网设备中的IE浏览器遍历第一网站的各个第二网页不成功，则不需要B信道中的“53.34.219.40，端口8118”返回，便采用基于AsyncHTTPClient实现的Tornado异步机制分派第一mysql数据库中的“121.31.100.15，端口8123”至A信道，返回执行步骤S10，“121.31.100.15，端口8123”是指未分派过至A信道的IP地址。

在图2对应的实施例中，首先，通过采用标识频道中预先分派得来的网络标识信息访问预设的第一网址对应的第一网页，若访问第一网页成功，且第一网址为非域名，则对第一网址进行解析，从而可以得到第一网址对应的域名，然后，采用网络标识信息访问域名对应的第一网站的首页，若访问第一网页成功，且第一网址为域名或采用访问首页成功，则遍历第一网站的各个第二网页，接下来，确定遍历各个第二网页成功后，按照对第二网页内容进行解析，得到需要爬取的数据，最后，若访问第一网页不成功，或者访问首页不成功，或者遍历各个第二网页不成功，则采用Tornado异步机制分派新的网络标识信息至标识频道，返回执行步骤S10，从而当正在使用的其中一个网络标识信息失效时，便立即分派一个新的网络标识信息，由于新的网络标识信息来自标识信息库中，而标识信息库中的各个网络标识信息是可成功访问网络资源的网络标识信息，从而确保了网络标识信息的稳定性，保证可以正常有序地访问网络资源，进而提高了数据爬取的稳定性和效率。

在一实施例中，该数据爬取方法应用在金融行业中。如图3所示，在步骤S10中，即采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页之前，该数据爬取方法还包括：

S70：从第二网站对应的网页中获取第二网站上的网络标识信息，其中，第二网站存在有一个以上网络标识信息；

具体地，按照预设的提取方式从第二网站对应的网页中提取第二网站上的IP地址，其中，第二网站存在有一个以上IP地址。

需要说明的是，预设的提取方式可以为复制或截图，第二网站可以为西刺代理网站，西刺代理网站是指一个专门提供国内外IP地址的网站。预设的提取方式和第二网站的具体内容，可以根据实际应用需要进行设定，此处不做限制。

S80：采用第二网站上的网络标识信息访问预设的第二网址对应的第三网页；

具体地，首先，将上网设备的IP地址设置为在第二网站上提取到的IP地址，然后，采用该上网设备中的浏览器访问预设的第二网址对应的第三网页。

需要说明的是，第二网址可以为http://www.xinhuanet.com/，第二网址的具体内容，可以根据实际应用需要进行设定，此处不做限制。

S90：若第二网站上的网络标识信息访问预设的第二网址对应的第三网页成功，则将第二网站上的网络标识信息保存到标识信息库中；

具体地，若采用IP地址为在第二网站上提取到的IP地址的上网设备中的浏览器访问预设的第二网址对应的第三网页成功，则将在第二网站上提取到的IP地址保存到标识信息库中；若采用IP地址为在第二网站上提取到的IP地址的上网设备中的浏览器访问预设的第二网址对应的第三网页不成功，则将在第二网站上提取到的IP地址保存到无效数据库中。

需要说明的是，预设的第二网址为可正常连接的网址。

在图3对应的实施例中，通过获取网站上的网络标识信息，采用网络标识信息访问预设网址对应的网页，若访问成功，则将该网络标识信息保存到标识信息库中，从而能够通过互联网络从网络标识信息代理网站中获取到世界各地的网络标识信息，进而提高了获取网络标识信息的便捷性。

在一实施例中，该数据爬取方法应用在金融行业中。如图4所示，步骤S10中，即采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页具体包括如下步骤：

S101：采用网络标识信息向预设的第一网址对应的服务器发送HTTP请求；

在本发明实施例中，HTTP请求是指从客户端到服务器端的请求消息。

具体地，首先，将上网设备的IP地址设置为标识频道中的IP地址，然后，采用该上网设备中的浏览器向预设的第一网址对应的服务器发送HTTP请求，其中，HTTP请求包括目标资源的标识信息，目标资源的标识信息唯一标识目标资源。

需要说明的是，当服务器接收到HTTP请求时，则对HTTP请求中目标资源的标识信息进行校验，校验通过后，向发送方反馈目标资源的HTML文件。HTML文件，是指可以被多种网页浏览器读取，产生网页传递各类资讯的文件。

S102：若接收到服务器根据HTTP请求反馈的HTML文件，则确定采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页成功；

具体地，若接收到预设的第一网址对应的服务器反馈的校验通过的HTTP请求中的目标资源的HTML文件，则确定采用标识频道中的IP地址访问预设的第一网址对应的第一网页成功；若不接收到预设的第一网址对应的服务器反馈的校验通过的HTTP请求中的目标资源的HTML文件，则确定采用标识频道中的IP地址访问预设的第一网址对应的第一网页不成功。

在图4对应的实施例中，通过采用网络标识信息向预设的网址对应的服务器发送HTTP请求，若接收到服务器反馈的HTML文件，则确定访问预设的网址对应的网页成功，从而可以通过预览了解到需要爬取的网页内容的量的大小，根据需要爬取的网页内容的量的大小预测爬取网页内容需要的时间，从而可以提前知道爬取需要的数据所完成的时间，进而可以保证数据爬取的进度。

在一实施例中，该数据爬取方法应用在金融行业中。如图5所示，步骤S40中，即遍历第一网站的各个第二网页具体包括如下步骤：

S401：获取第一网站中的HTML的各个超链接标签；

在本发明实施例中，HTML，中文名称为超文本标记语言，是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素的文本。a标签，是指HTML语言标签，所述a标签为超链接标签，用于从一张页面链接到另一张页面。超链接标签包括一个以上链接目标属性，链接目标属性为href属性，是指定超链接目标的URL。URL，英文全称为Uniform ResourceLocator，中文名称为统一资源定位符，是指互联网上标准资源的地址，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示。

具体地，在第一网站中的HTML页面中，提取各个a标签，其中，一个a标签包括一个以上href属性。

S402：提取各个超链接标签中的所有链接目标属性；

具体地，在第一网站中的HTML页面中的各个a标签中提取各个href属性。

S403：采用网络标识信息遍历各个链接目标属性对应的第二网页；

具体地，首先，将上网设备的IP地址设置为标识频道中的IP地址，然后，采用该上网设备中的浏览器，遍历第一网站中的HTML页面中的各个a标签中的各个href属性对应的第二网页。

为了更好地理解步骤S401、步骤S402和步骤S403，下面通过一个例子进行说明，具体表述如下：

例如，假设第一网站为新华网，HTML的一个a标签为<a href＝"http://mongolian.news.cn/"target＝"_blank"title＝""></a>，上网设备为个人计算机，标识频道为D频道，IP地址为“219.149.46.151，端口3129”，浏览器为IE浏览器，则首先，在新华网上的HTML页面中获取<a href＝"http://mongolian.news.cn/"target＝"_blank"title＝""></a>，然后，提取<a href＝"http://mongolian.news.cn/"target＝"_blank"title＝""></a>中的http://mongolian.news.cn/，将个人计算机的IP地址设置为D频道中的“219.149.46.151，端口3129”，最后，采用该个人计算机中的IE浏览器，遍历新华网中的HTML页面中的<a href＝"http://mongolian.news.cn/"target＝"_blank"title＝""></a>中的http://mongolian.news.cn/对应的第二网页。

在图5对应的实施例中，通过获取网站中的HTML的各个a标签，提取a标签中的所有href属性，遍历各个href属性对应的网页，通过遍历各个网页，从而能够实现不遗漏地浏览网页内容，进而提高了浏览需要爬取的数据的全面性。

在一实施例中，该数据爬取方法应用在金融行业中。如图6所示，步骤S50中，即按照预设的第二解析方式对第二网页内容进行解析，得到需要爬取的数据具体包括如下步骤：

S501：去除第二网页的标签信息，得到XML文档。

具体地，去除第二网页的<html>标签信息和</html>标签信息，得到XML文档，其中，<html>标签信息和</html>标签信息是指HTML标签，HTML标签是指超文本标记语言标记标签。

S502：解析XML文档，得到XML文档中的文档对象树。

在本发明实施例中，文档对象树是指由Document对象构建成的树。Document对象是指浏览器窗口中网页的文档。文档对象树包含一个以上文本节点信息。

具体地，解析XML文档，得到XML文档中的文档对象树，其中，文档对象树包含一个以上DOM节点信息。

需要说明的是，DOM节点信息是指在XML文档中的DOM对象，DOM对象是指以层次结构组织的节点或信息片断的集合。

S503：提取文档对象树中的各个文本节点信息。

在本实施例中，文本节点信息为DOM节点信息。

具体地，提取文档对象树中的各个DOM节点信息。

S504：按照预设的拼接方式对各个文本节点信息进行拼接，得到需要爬取的数据。

具体地，按照预设的拼接方式对各个DOM节点信息进行拼接，得到需要爬取的数据。

需要说明的是，按照预设的拼接方式可以为按照由上到下顺序对数据信息进行拼接或按照由左到右顺序对数据信息进行拼接。

为了更好地理解步骤S501、步骤S502、步骤S503和步骤S504，下面通过一个例子进行说明，具体表述如下：

例如，假设第二网页为预定义的weather forecast网页，weather forecast，中文名称为天气预报，则，去除weather forecast网页的<html>标签信息和</html>标签信息，得到<head><title>Shenzhen</title></head><body><h1>will have rain</h1><p>inthe coming week</p></body>，解析<head><title>Shenzhen</title></head><body><h1>will have rain</h1><p>in the coming week</p></body>，得到<title>Shenzhen</title>、<h1>will have rain</h1>和<p>in the coming week</p>，接下来，提取<title>Shenzhen</title>、<h1>will have rain</h1>和<p>in the coming week</p>中的Shenzhen、will have rain和in the coming week，按照上到下顺序对Shenzhen、willhave rain和in the coming week进行拼接，得到Shen zhen will have rain in thecoming week，其中，<head>、</head>、<title>、</title>、<body>、</body>、<h1>、</h1>、<p>和</p>为HTML标签。

在图6对应的实施例中，首先，通过去除网页的标签信息，得到XML文档，然后，解析XML文档，得到XML文档的文档对象树，接下来，提取文档对象树中的各个文本节点信息，拼接各个文本节点信息，得到需要爬取的数据，通过将XML文档转换为简易的文档对象树，再将简易的文档对象树装入内存中，然后，按照容易运行的DOM对象去执行，从而能够简易高效地解析出DOM节点信息，进而提高了数据爬取的速度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据爬取装置，该数据爬取装置与上述实施例中数据爬取方法一一对应。如图7所示，该数据爬取装置包括第一访问模块71、第一解析模块72、第二访问模块73、遍历模块74、第二解析模块75、分派模块76、第一获取模块77、第三访问模块78和保存模块79。各功能模块详细说明如下：

第一访问模块71，用于采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页，其中，标识频道中的网络标识信息预先由标识信息库分派，标识信息库包括可成功访问网络资源的多个网络标识信息；

第一解析模块72，用于若采用标识频道中的网络标识信息访问第一网址对应的第一网页成功，且第一网址为非域名，则按照预设的第一解析方式对第一网址进行解析，得到第一网址对应的域名；

第二访问模块73，用于采用网络标识信息访问域名对应的第一网站的首页，其中，第一网站包括一个以上第二网页，第二网页包括第二网页内容；

遍历模块74，用于若采用标识频道中的网络标识信息访问第一网址对应的第一网页成功，且第一网址为域名，或者采用网络标识信息访问域名对应的第一网站的首页成功，则遍历第一网站的各个第二网页；

第二解析模块75，用于若遍历第一网站的各个第二网页成功，按照预设的第二解析方式对第二网页内容进行解析，得到需要爬取的数据。

分派模块76，用于若采用网络标识信息访问第一网址对应的第一网页不成功，或者采用网络标识信息访问域名对应的第一网站的首页不成功，或者遍历第一网站的各个第二网页不成功，则采用Tornado异步机制分派标识信息库中的新的网络标识信息至标识频道，并触发第一访问模块71，新的网络标识信息是指未分派过至标识频道的网络标识信息。

进一步地，在采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页之前，该数据爬取装置还包括：

第一获取模块77，用于从第二网站对应的网页中获取第二网站上的网络标识信息，其中，第二网站存在有一个以上网络标识信息；

第三访问模块78，用于采用第二网站上的网络标识信息访问预设的第二网址对应的第三网页；

保存模块79，用于若第二网站上的网络标识信息访问预设的第二网址对应的第三网页成功，则将第二网站上的网络标识信息保存到标识信息库中。

进一步地，第一访问模块71包括：

发送子模块711，用于采用网络标识信息向预设的第一网址对应的服务器发送HTTP请求；

确定子模块712，用于若接收到服务器根据HTTP请求反馈的HTML文件，则确定采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页成功。

进一步地，遍历模块74包括：

获取标签子模块741，用于获取第一网站中的HTML的各个超链接标签，其中，超链接标签包括一个以上链接目标属性；

第一提取子模块742，用于提取各个超链接标签中的所有链接目标属性；

遍历网页子模块743，用于采用网络标识信息遍历各个链接目标属性对应的第二网页。

进一步地，第二解析模块75包括：

去除子模块751，用于去除第二网页的标签信息，得到XML文档；

解析文档子模块752，用于解析XML文档，得到XML文档中的文档对象树，其中，文档对象树包含一个以上文本节点信息；

第二提取子模块753，用于提取文档对象树中的各个文本节点信息；

拼接子模块754，用于按照预设的拼接方式对各个文本节点信息进行拼接，得到需要爬取的数据。

关于数据爬取装置的具体限定可以参见上文中对于数据爬取方法的限定，在此不再赘述。上述数据爬取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据爬取方法有关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据爬取方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例数据爬取方法的步骤，例如图2所示的步骤S10至步骤S60。或者，处理器执行计算机程序时实现上述实施例中数据爬取装置的各模块/单元的功能，例如图7所示模块71至模块79的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中数据爬取方法，或者，该计算机程序被处理器执行时实现上述装置实施例中数据爬取装置中各模块/单元的功能。为避免重复，这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据爬取方法，其特征在于，所述数据爬取方法包括：

2.如权利要求1所述的数据爬取方法，其特征在于，在所述采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页的步骤之前，所述数据爬取方法还包括：

从第二网站对应的网页中获取所述第二网站上的网络标识信息，其中，所述第二网站存在有一个以上网络标识信息；

采用所述第二网站上的网络标识信息访问预设的第二网址对应的第三网页；

若采用所述第二网站上的网络标识信息访问预设的第二网址对应的第三网页成功，则将所述第二网站上的网络标识信息保存到所述标识信息库中。

3.如权利要求1所述的数据爬取方法，其特征在于，所述采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页包括：

采用所述网络标识信息向所述预设的第一网址对应的服务器发送HTTP请求；

若接收到所述服务器根据所述HTTP请求反馈的HTML文件，则确定采用标识频道中的网络标识信息访问预设的第一网址对应的第一网页成功。

4.如权利要求1所述的数据爬取方法，其特征在于，所述遍历所述第一网站的各个第二网页包括：

获取所述第一网站中的HTML的各个超链接标签，其中，所述超链接标签包括一个以上链接目标属性；

提取各个超链接标签中的所有所述链接目标属性；

采用所述网络标识信息遍历各个所述链接目标属性对应的第二网页。

5.如权利要求1至4中任一项所述的数据爬取方法，其特征在于，所述按照预设的第二解析方式对所述第二网页内容进行解析，得到需要爬取的数据包括：

去除所述第二网页的标签信息，得到XML文档；

解析所述XML文档，得到XML文档中的文档对象树，其中，所述文档对象树包含一个以上文本节点信息；

提取所述文档对象树中的各个文本节点信息；

按照预设的拼接方式对所述各个文本节点信息进行拼接，得到需要爬取的数据。

6.一种数据爬取装置，其特征在于，所述数据爬取装置包括：

7.如权利要求6所述的数据爬取装置，其特征在于，所述遍历第一网站的各个第二网页包括：

获取标签子模块，用于获取第一网站中的HTML的各个超链接标签，其中，超链接标签包括一个以上链接目标属性；

第一提取子模块，用于提取各个超链接标签中的所有链接目标属性；

遍历网页子模块，用于采用网络标识信息遍历各个链接目标属性对应的第二网页。

8.如权利要求6至7中任一项所述的数据爬取装置，其特征在于，所述按照预设的第二解析方式对第二网页内容进行解析，得到需要爬取的数据包括：

去除子模块，用于去除第二网页的标签信息，得到XML文档；

解析文档子模块，用于解析XML文档，得到文档对象树，其中，文档对象树包含一个以上文本节点信息；

第二提取子模块，用于提取文档对象树中的各个文本节点信息；

拼接子模块，用于按照预设的拼接方式对各个文本节点信息进行拼接，得到需要爬取的数据。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述数据爬取方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述数据爬取方法的步骤。