CN107861974A

CN107861974A - 一种自适应网络爬虫系统及其数据获取方法

Info

Publication number: CN107861974A
Application number: CN201710846722.2A
Authority: CN
Inventors: 李铮; 房留凯; 胡玲; 吕光增; 徐明辉; 曹希凤; 蓝春倩; 苏鹏程; 马瑞刚; 姚宁; 柳超
Original assignee: Beijing Dike Technology Co Ltd
Current assignee: Beijing Dike Technology Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-03-30
Anticipated expiration: 2037-09-19
Also published as: CN107861974B

Abstract

本发明公开一种自适应网络爬虫系统及其数据获取方法，其中，方法包括：在目标网站进行改版前提取目标网站中目标网页信息部分的关键词及关键词周围的关键标签格式并基于该关键词形成第一数据集合；在无法提取目标网页中的数据时确定目标网站已进行改版，基于所述关键标签格式，根据当前目标网页URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；判断第一数据集合与第二数据集合的信息是否相似；若是则在当前目标网页中搜索目标关键词下的内容标签区域，获得所需内容数据，该目标关键词为第二数据集合中与第一数据集合中关键词相同或相似的元素。可在网站改版后自动适应改版后网站的DOM结构，获取改版后网站中目标网页内的数据。

Description

一种自适应网络爬虫系统及其数据获取方法

技术领域

本发明实施例涉及网络爬虫技术领域，具体涉及一种自适应网络爬虫系统及其数据获取方法。

背景技术

随着大数据时代的到来，人们对数据的需求越来越旺盛。互联网上的公开数据，网站改版是比较频繁的，例如，很多网站十至十五天便会改版一次。一般每改版一次，都需要重新写代码以适应其网页结构。

网络爬虫是一种“自动化浏览网络”的程序，或者说是一种网络机器人，可以自动采集所有搜索引擎或网站中其能够访问到的页面内容。在现有技术中，当某个网站改版后，需要根据改版后的网站重新编写网络爬虫的代码，以适应其网页结构，这非常费时费力。

鉴于此，如何提供一种自适应网络爬虫系统及其数据获取方法，以使其在网站改版后，能够自动适应改版后的网站的DOM(文档对象模型)结构，获取改版后的网站中目标网页内的数据成为目前需要解决的技术问题。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种自适应网络爬虫系统及其数据获取方法。

第一方面，本发明实施例提出一种自适应网络爬虫系统的数据获取方法，包括：

在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；

在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；

判断所述第一数据集合与所述第二数据集合的信息是否相似；

若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

可选地，在当前目标网页中所述目标关键词下的内容标签区域，以获得所需内容数据之后，所述方法还包括：

将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比，判断获得的所需内容数据中的每个数据是否是正确的数据类型；

若获得的所需内容数据中的某一数据不是正确的数据类型，则进行报错。

可选地，所述根据当前所述目标网页的统一资源定位符URL链接，抓取所述目标网页预设深度的所有页面，形成第二数据集合，包括：

根据当前所述目标网页的统一资源定位符URL链接，在当前目标网页预设深度的所有页面中，查找与所述关键标签格式相同或者相似的标签格式；

提取出所查找到的标签格式中所有标签中的文字内容，形成第二数据集合。

可选地，所述判断所述第一数据集合与所述第二数据集合的信息是否相似，包括：

根据预先建立的目标特定领域的近义词对库，将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对；

若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值，则确定所述第一数据集合与所述第二数据集合的信息相似。

可选地，所述预设阈值为所述第一数据集合中元素个数的一半或2/3。

可选地，所述关键标签格式为：在<tr>和</tr>之间包含<td和</td>或者<th和</th>，并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容。

第二方面，本发明实施例还提出一种自适应网络爬虫系统，包括：

提取模块，用于在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；

抓取模块，用于在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；

判断模块，用于判断所述第一数据集合与所述第二数据集合的信息是否相似；

搜索模块，用于若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

可选地，所述系统还包括：

第二判断模块，用于将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比，判断获得的所需内容数据中的每个数据是否是正确的数据类型；

报错模块，用于若获得的所需内容数据中的某一数据不是正确的数据类型，则进行报错。

第三方面，本发明实施例还提出一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

由上述技术方案可知，本发明实施例通过在目标网站进行改版前提取目标网站中目标网页信息部分的关键词及关键词周围的关键标签格式并基于该关键词形成第一数据集合；在无法对所述目标网页进行数据提取时，确定目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；判断第一数据集合与第二数据集合的信息是否相似；若是则在当前目标网页中搜索目标关键词下的内容标签区域，获得所需内容数据，该目标关键词为第二数据集合中与第一数据集合中关键词相同或相似的元素，由此，在网站改版后，能够自动适应改版后的网站的DOM结构，获取改版后的网站中目标网页内的数据，不必针对改版后的网站重新撰写新的网络爬虫系统代码，节约了开发的时间和成本，省时省力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种自适应网络爬虫系统的数据获取方法的流程示意图；

图2为本发明一实施例提供的一种自适应网络爬虫系统的结构示意图；

图3为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本发明一实施例提供的一种自适应网络爬虫系统的数据获取方法的流程示意图，如图1所示，本实施例的自适应网络爬虫系统的数据获取方法，包括：

S101、在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合。

具体地，可以将所提取的关键词封装成一个数据集合，得到第一数据集合。以获取开庭公告的网页数据为例，本步骤所提取的关键词可以如“原告、被告、案号、案由、开庭日期”等。

举例来说，本步骤对所述目标网页信息部分所提取的关键词周围的关键标签格式可以为：在<tr>和</tr>之间包含<td和</td>或者<th和</th>，并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容，即<tr><td……</td></tr>或者<tr><th……</th></tr>。

可以理解的是，本实施例所述方法的执行主体为自适应网络爬虫系统，可以利用处理器来实现。

S102、在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合。

其中，所述预设深度可以优选为3，本实施例并不对其进行限制，也可以根据实际情况对所述预设深度进行具体设置，例如也可以是2、4或5等。

可以理解的是，本实施例实时对本自适应网络爬虫系统提取所述目标网页的数据的行为进行监控，若能够正常对所述目标网页进行数据提取，则不做处理继续进行监控。

具体地，本步骤可以根据当前所述目标网页的统一资源定位符URL链接，在当前目标网页预设深度的所有页面中，查找与所述关键标签格式相同或者相似的标签格式；提取出所查找到的标签格式中所有标签中的文字内容，形成第二数据集合。

以获取开庭公告的网页数据为例，所述步骤S101对所述目标网页信息部分所提取的关键词周围的关键标签格式可以为<tr><td……</td></tr>，本步骤在当前目标网页预设深度的所有页面中，所查找到的与所述关键标签格式相似的标签格式可以为<tr><th……</th></tr>，具体可以如下所示：

提取出所查找到的标签格式中所有标签中的文字内容后形成的第二数据集合可以为{“开庭日期”，“审判庭”，“案号”，“案由”，“主审法官”，“当事人”}。

S103、判断所述第一数据集合与所述第二数据集合的信息是否相似。

具体地，本步骤可以根据预先建立的目标特定领域的近义词对库，将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对；若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值，则确定所述第一数据集合与所述第二数据集合的信息相似。

其中，所述预设阈值可以为所述第一数据集合中元素个数的一半，也可以为2/3等，本实施例并不对其进行限制，也可以根据实际情况对所述预设阈值进行具体设置。

以获取开庭公告的网页数据为例，假设预先建立的目标特定领域的近义词对库中的近义词对包括：“被告—被告人、被上诉人”，“审判长—法官、主审人、主审法官”，“法庭—审判庭”，“开庭日期—开庭时间”；

所述第一数据集合为：{“法庭”，“案号”，“主审人”，“原告”，“被告”，“开庭日期”}；

所述第二数据集合为：{“审判庭”、“案号”、“案由”、“主审法官”，“当事人”，“开庭时间”}；

根据目标特定领域的近义词对库中所包含的近义词对，将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对，可以得到所述第一数据集合与所述第二数据集合中相同或相似的元素个数；若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值，则可以确定所述第一数据集合与所述第二数据集合的信息相似。

可以理解的是，专业的网络爬虫系统只处理结构化数据，网站进行改版后，该网站基本的结构化数据(如表格等)内容并不会有很大变更，所以，本实施例所述方法利用预先建立的目标特定领域的近义词对库和预设阈值，可以准确地判断所述第一数据集合与所述第二数据集合的信息是否相似。

S104、若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

以上述获取开庭公告的网页数据为例，所述第一数据集合中的“法庭”与所述第二数据集合中的“审判庭”为一组近义词对，则本步骤可以将“审判庭”作为一个目标关键词，在当前目标网页中搜索目标关键词“审判庭”下的内容标签区域，以获得所需内容数据。

可以理解的是，所述步骤S104还可以包括：

若判断获知所述第一数据集合与所述第二数据集合的信息不相似，则发出警报，以提醒用户对当前目标网页进行人工解析处理。

本实施例的自适应网络爬虫系统的数据获取方法，通过在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；判断所述第一数据集合与所述第二数据集合的信息是否相似；若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素，由此，在网站改版后，能够自动适应改版后的网站的DOM结构，获取改版后的网站中目标网页内的数据，不必针对改版后的网站重新撰写新的网络爬虫系统代码，节约了开发的时间和成本，省时省力。

进一步地，在上述方法实施例的基础上，在上述步骤S104之后，本实施例所述方法还可以包括图中未示出的步骤S105-S106：

S105、将获得的所需内容数据与数据库在目标网站进行改版前所抓取存入的数据进行对比，判断获得的所需内容数据中的每个数据是否是正确的数据类型。

以上述获取开庭公告的网页数据为例，本步骤在判断的过程中：

如果获得的所需内容数据中包含“人民法院”这四个字，则可认为是开庭所在的法院；

可以根据获得的所需内容数据中各元素的长度和各元素的第一个汉字是否包含在姓氏表中，来判断是否是人名，如正常的中文名为2～3位，如果存入的数据都为2或者3位长度，并且第一个汉字包含在姓氏表中，则可认为是人名；

可以根据获得的所需内容数据中各元素的格式可以区分出是否是日期，如果是日期类型，并且与之对应的页面位置包含文本“开庭日期”，则可认为存入数据库的日期便是开庭日期；

可以根据案号的组成规则：(年份)+地区+数字+案件类型+案件编号(数字)，来判断获得的所需内容数据中各元素是否是案号。

S106、若获得的所需内容数据中的某一数据不是正确的数据类型，则进行报错。

可以理解的是，若获得的所需内容数据中的某一数据不是正确的数据类型，则可确定获得的所需内容数据中出现了错误，并进行报错处理。

本实施例的自适应网络爬虫系统的数据获取方法，在网站改版后能够自动适应改版后的网站的DOM结构，获取改版后的网站中目标网页内的数据，不必针对改版后的网站重新撰写新的网络爬虫系统代码，节约了开发的时间和成本，省时省力。

图2示出了本发明一实施例提供的一种自适应网络爬虫系统的结构示意图，如图2所示，本实施例的自适应网络爬虫系统，包括：提取模块21、抓取模块22、第一判断模块23和搜索模块24；其中：

所述提取模块21，用于在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；

所述抓取模块22，用于在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；

所述第一判断模块23，用于判断所述第一数据集合与所述第二数据集合的信息是否相似；

所述搜索模块24，用于若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

具体地，所述提取模块21在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；所述抓取模块22在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；所述第一判断模块23判断所述第一数据集合与所述第二数据集合的信息是否相似；所述搜索模块24若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

在具体应用中，所述提取模块21可以将所提取的关键词封装成一个数据集合，得到第一数据集合。

在具体应用中，所述预设深度可以优选为3，本实施例并不对其进行限制，也可以根据实际情况对所述预设深度进行具体设置，例如也可以是2、4或5等。

可以理解的是，本实施例所述自适应网络爬虫系统可实时对本系统提取所述目标网页的数据的行为进行监控，若能够正常对所述目标网页进行数据提取，则不做处理继续进行监控。

在具体应用中，所述抓取模块22可以具体用于

在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，根据当前所述目标网页的URL链接，在当前目标网页预设深度的所有页面中，查找与所述关键标签格式相同或者相似的标签格式；提取出所查找到的标签格式中所有标签中的文字内容，形成第二数据集合。

在具体应用中，所述第一判断模块23可以具体用于

根据预先建立的目标特定领域的近义词对库，将所述第一数据集合中的每一元素与所述第二数据集合中的每一元素分别进行比对；若所述第一数据集合与所述第二数据集合中相同或相似的元素个数大于预设阈值，则确定所述第一数据集合与所述第二数据集合的信息相似。

可以理解的是，专业的网络爬虫系统只处理结构化数据，网站进行改版后，该网站基本的结构化数据(如表格等)内容并不会有很大变更，所以，本实施例所述系统利用预先建立的目标特定领域的近义词对库和预设阈值，可以准确地判断所述第一数据集合与所述第二数据集合的信息是否相似。

可以理解的是，本实施例所述系统还可以包括图中未示出的：

报警模块，用于若判断获知所述第一数据集合与所述第二数据集合的信息不相似，则发出警报，以提醒用户对当前目标网页进行人工解析处理。

本实施例的自适应网络爬虫系统，在网站改版后，能够自动适应改版后的网站的DOM结构，获取改版后的网站中目标网页内的数据，不必针对改版后的网站重新撰写新的网络爬虫系统代码，节约了开发的时间和成本，省时省力。

进一步地，在上述方法实施例的基础上，本实施例所述系统还可以包括图中未示出的：

本实施例的自适应网络爬虫系统，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例的自适应网络爬虫系统，在网站改版后能够自动适应改版后的网站的DOM结构，获取改版后的网站中目标网页内的数据，不必针对改版后的网站重新撰写新的网络爬虫系统代码，节约了开发的时间和成本，省时省力。

图3示出了本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；判断所述第一数据集合与所述第二数据集合的信息是否相似；若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：在目标网站进行改版前，提取所述目标网站中的目标网页信息部分的关键词以及关键词周围的关键标签格式，并基于所提取的关键词，形成第一数据集合；在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；判断所述第一数据集合与所述第二数据集合的信息是否相似；若判断获知所述第一数据集合与所述第二数据集合的信息相似，则在当前目标网页中搜索目标关键词下的内容标签区域，以获得所需内容数据，其中，所述目标关键词为所述第二数据集合中与所述第一数据集合中的关键词相同或相似的元素。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种自适应网络爬虫系统的数据获取方法，其特征在于，包括：

在无法对所述目标网页进行数据提取时，确定所述目标网站已进行改版，并基于所述关键标签格式，根据当前目标网页的统一资源定位符URL链接，抓取当前目标网页预设深度的所有页面，形成第二数据集合；

2.根据权利要求1所述的方法，其特征在于，在当前目标网页中所述目标关键词下的内容标签区域，以获得所需内容数据之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述关键标签格式，根据当前所述目标网页的统一资源定位符URL链接，抓取所述目标网页预设深度的所有页面，形成第二数据集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述判断所述第一数据集合与所述第二数据集合的信息是否相似，包括：

5.根据权利要求4所述的方法，其特征在于，所述预设阈值为所述第一数据集合中元素个数的一半或2/3。

6.根据权利要求1所述的方法，其特征在于，所述关键标签格式为：在<tr>和</tr>之间包含<td和</td>或者<th和</th>，并且在<td和</td>之间或者<th和</th>之间包含与关键词相关的文字内容。

7.一种自适应网络爬虫系统，其特征在于，包括：

第一判断模块，用于判断所述第一数据集合与所述第二数据集合的信息是否相似；

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

9.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。