CN107544994B

CN107544994B - 关联数据的处理方法和装置

Info

Publication number: CN107544994B
Application number: CN201610483586.0A
Authority: CN
Inventors: 张祎博
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2021-01-22
Anticipated expiration: 2036-06-27
Also published as: CN107544994A

Abstract

本发明公开了一种关联数据的处理方法和装置。其中，该方法包括：获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面；按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。本发明解决了现有技术中是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

Description

关联数据的处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种关联数据的处理方法和装置。

背景技术

网络爬虫是一种可以从网站页面获取数据的工具。随着互联网的不断发展，在数据量不断增长的同时，对于同一主题出现了更多细分维度的网站，互联网站点数目也在不断增加。在对海量的网络数据的获取和处理中，需要处理的数据往往分布在不同网站的不同位置，对有用数据的提取和关联必不可少。

在目前广泛使用的网络爬虫中，其工作流程为由网站的一个页面进入，爬取页面内容并提取页面中指向其它页面的链接，然后由提取到的链接进行下一步的数据爬取和链接提取，接着重复以上过程直到所有的页面均完成爬取。通过这种爬取方式，可以完整地获取一个网站中所有网页数据，然而从不同网站获得的相关数据并没有进行有效的关联。目前在数据处理中，受限于网络爬虫的实现方式，对数据的关联是在网络爬虫完成网站爬取之后进行，这往往会带来较大的开销。

现有技术中，在数据爬取之后，爬取到的数据结果一般保存在爬取结果数据库中。在数据使用过程中，为了实现相关数据的关联，一般是通过下面方式进行：1、在完成数据爬取之后，从爬取数据库中进行数据抽取，并且按照数据的主题关联重新建立数据检索的数据库，这势必带来额外的工作量；2、在爬取数据库的设计过程中，增加字段关联不同网站的同一主题。这种方式会使数据库的设计变得复杂和冗余，并且增加数据检索的难度。

针对现有技术中是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种关联数据的处理方法和装置，以至少解决现有技术中，在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

根据本发明实施例的一个方面，提供了一种关联数据的处理方法，包括：获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面；按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。

可选地，按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，包括：获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面；从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面；从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。

可选地，在从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面之后，方法还包括：在包括多个第二网站页面的情况下，按照预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址；根据每个第二网站页面的链接地址依次顺序跳转至每个第二网站页面。

可选地，跳转规则由配置文件和/或分类ID映射表构成，其中，配置文件包括每个链接地址中指向预设分类项的标志词，分类ID映射表包括每个指向预设分类项的链接地址在多个预设网站中的ID。

可选地，在从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面，包括：在配置文件中查找第二网站页面的链接地址中指向第一预设分类项的标志词，和/或在分类ID映射表中查找指向第一预设分类项的第一链接地址在至少一个第二网站页面所属网站中对应的ID；将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新第一链接地址在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址；根据第二网站页面的链接地址确定至少一个第二网站页面。

根据本发明实施例的另一方面，还提供了一种关联数据的处理装置，包括：第一获取模块，用于获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面；第二获取模块，用于按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。

可选地，第二获取模块包括：第一获取子模块，用于获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面；查询子模块，用于从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面；第二获取子模块，用于从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。

可选地，装置还包括：读取模块，用于在包括多个第二网站页面的情况下，按照预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址；跳转模块，用于根据每个第二网站页面的链接地址依次顺序跳转至每个第二网站页面。

可选地，查询子模块包括：查找单元，用于在配置文件中查找第二网站页面的链接地址中指向第一预设分类项的标志词，和/或在分类ID映射表中查找指向第一预设分类项的第一链接地址在至少一个第二网站页面所属网站中对应的ID；替换单元，用于将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新第一链接地址在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址；确定单元，用于根据第二网站页面的链接地址确定至少一个第二网站页面。

在本发明实施例中，采用获取全局入口页面中指向一个或多个预设分类项的多个链接地址，按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据，从而实现了一种能够进行数据提前关联的网络爬虫，通过预先设计的跳转规则在爬取多个网站时，按照预定跳转规则跳转的网络爬虫并不是对每个网站单独爬取之后再进行数据的关联，而是在多个网站之间进行跳转完成一类数据的爬取，然后再进行下一类数据的爬取。这种网络爬虫的实现方式，可以使得数据的分类与关联在数据爬取的同时进行，从而不需要额外的数据库设计和爬取之后的数据关联处理，从而解决了现有技术中是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例1的一种关联数据的处理方法的流程图；

图2是根据本发明实施例1的一种网络数据在网站1中的分布示意图；

图3是根据本发明实施例1的一种网络数据在网站2中的分布示意图；

图4是根据本发明实施例1的一种网络数据在网站3中的分布示意图；

图5是根据本发明实施例2的一种关联数据的处理装置的示意图；

图6是根据本发明实施例2的一种可选的关联数据的处理装置的示意图；

图7是根据本发明实施例2的一种可选的关联数据的处理装置的示意图；

图8是根据本发明实施例2的一种可选的关联数据的处理装置的示意图；

图9是根据本发明实施例2的一种可选的关联数据的处理装置的示意图；以及

图10是根据本发明实施例2的一种可选的关联数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种关联数据的处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

网络爬虫：网络爬虫是一种按照一定规则，自动抓取万维网信息的程序或脚本。

分类项：在本申请中分类项用于表示网络爬虫抓取网页数据的抓取目标，例如：同一品牌可以为同一分类项，而不同品牌的同一产品可以为不同的分类项。

Xml:Extensible Markup Language，可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。

实施例1

图1是根据本发明实施例1的一种关联数据的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面。

在通常情况下，每个网站都具有一个入口页面，可以通过每个网站的入口页面对每个网站的页面进行爬取，现有技术中通常分别从每个网站的入口页面进入，从而对网站进行爬取，而在上述步骤中，仅有一个全局入口页面，全局入口页面可以是多个预设网站中，任意一个网站的入口页面。

此处需要说明的是，全局入口页面中可能包含数量众多的链接地址，在本实施例中，上述指向一个或多个预设分类项的链接地址可以是提前经过筛除的，将指向预设分类项的链接地址作为对象筛选出来。

在一种可选的实施例中，结合图1、图2以及图3所示的示例，在该示例中，需要使用网络爬虫爬取汽车行业中各汽车品牌的数据，包括每个品牌的汽车配置数据、汽车销量数据、汽车口碑数据等。以上三种数据分别来自于不同的网络站点：销量数据来自于网站1(结合图1所示)，配置数据来自于网站2(结合图2所示)，口碑数据来自于网站3(结合图3所示)。每个网站均有入口页面，其中，包含每个具体品牌的数据页面的链接，可以选择网站的入口页面1作为全局入口页面。

其中，预设分类项为预先设置好的需要抓取的目标数据，根据需要抓取的目标数据种类的多少，可以设置一个或多个预设分类项，例如，需要抓取各品牌汽车的相关数据，可以将一个汽车品牌设置为一个预设分类项。链接地址可以为网站的URL地址，也可称为网址。

步骤S104，按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。

具体的，在上述步骤中，跳转规则可以是对网络爬虫建立的页面爬取的链接跳转规则，使得网络爬虫按照预设的跳转方式对网站页面上的数据进行爬取。由于通过制定跳转规则限定了网络爬虫爬取数据的方式，因此，如果需要爬取多个分类项的数据，可以对具有同一分类项的关联数据连续进行爬取，将一个分类项的数据爬取完毕后，再对其他分类项的数据进行爬取，直至爬取所有分类项的数据，从而可以免除在获取数据后再对数据进行关联的步骤，其中，上述分类项用于表示不同的爬取目标，爬取多个网站上属于同一分类项内容在不同维度上的信息。

在一种可选的实施例中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，上述分类项可以是品牌A、品牌B……品牌N，以品牌A为例，品牌A在入口页面中的链接地址为L1A，该链接地址在网站1、网站2以及网站3中对应的页面可以是内容页面1A(品牌A销量数据)、内容页面2A(品牌A配置数据)以及内容页面3A(品牌A口碑数据)，内容页面1A、内容页面2A以及内容页面3A为属于同一分类项的关联数据。

此处需要说明的是，本申请上述方案可以只需要一个页面作为全局入口页面，在由此页面进入后，其它网站的数据会由此页面中的每个分类项按照预设的跳转规则分别进行关联，无需分别从每个网站的入口页面进入。

由上可知，本申请上述步骤获取全局入口页面中指向一个或多个预设分类项的链接地址，按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。上述方案实现了一种能够进行数据提前关联的网络爬虫，通过预先设计的跳转规则在爬取多个网站时，按照预设的跳转规则跳转的网络爬虫并不是对每个网站单独爬取之后再进行数据的关联，而是在多个网站之间进行跳转完成一类数据的爬取，然后再进行下一类数据的爬取。这种网络爬虫的实现方式，可以使得数据的分类与关联在数据爬取的同时进行，从而不需要额外的数据库设计和爬取之后的数据关联处理，从而解决了现有技术中，是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的技术问题。

可选的，在本申请上述实施例中，按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据包括：

步骤S1041，获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面。

在一种可选的实施例中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，以第一预设分类项为品牌A作为示例，则第一链接地址为品牌A页面链接L1A，第一页面可以是内容页面1A(品牌A销量数据)。

步骤S1043，从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面。

在一种可选的实施例中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，以第一链接地址为品牌A页面链接L1A作为示例，链接地址L1A对应的第一网站页面为内容页面1A，根据预设的跳转规则，查询其他网站中指向第一预设分类项、且与链接地址L1A对应的第二网站页面(例如：页面内容2A和页面内容3A)。

在传统的网络爬虫中，受限于网络爬虫的实现方式，对于示例中给出的数据分布，会分别爬取站点1、站点2、站点3中的所有信息。即爬取的页面顺序为：页面1、页面1A、页面1B……页面1N……页面2，页面2A，页面2B……页面2N……页面3、页面3A，页面3B……页面3N……结束。最终为了获得一个品牌的配置、销量、口碑数据，需要等待所有的数据爬取完成后进行关联整理。

而在上述步骤中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，提前进行数据关联的网络爬虫进行页面爬取时，实现的页面爬取顺序为(以入口页面1作为全局入口页面)：页面1、页面1A、页面2A、页面3A、页面1B、页面2B、页面3B……页面1N、页面2N、页面3N……结束。在这种爬取顺序中，对于不同的品牌分类A、B……N，可以一次性得到该分类项中的所有数据，再进行下一个分类项的数据爬取，即在爬取过程中完成了同一分类项的数据的关联。

步骤S1045，从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。

在上述步骤中，由于第一网站页面与第一链接地址对应，第二网站页面与第一网站页面具有关联关系，因此，第一网站页面和第二网站页面均包含属于第一预设分类项的数据。

在一种可选的实施例中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，页面内容2A中关于品牌A的配置数据和页面内容3A中关于品牌A的配置数据为具有相同分类项的关联数据，在根据预设的跳转规则，查询其他网站中与链接地址L1A对应的第二网站页面(例如：页面内容2A和页面内容3A)后，获取页面内容2A和页面内容3A中关于品牌A的配置数据和口碑数据。

由上可知，本申请上述步骤获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面，从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面，从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。上述方案通过预定跳转规则，实现了在进行数据爬取时，连续对同一分类项的数据进行爬取，从而达到了爬取的数据无需后期再进行关联的技术效果，进而解决了现有技术中，是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的技术问题。

可选的，在本申请上述实施例，在从跳转规则中查询得到与第一网站页面具有关联关系的至少一个第二网站页面之后，方法还包括：

步骤S1047，在包括多个第二网站页面的情况下，按照预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址。

具体的，在上述步骤中，预设跳转规则设置有页面跳转顺序，在包括多个第二网站页面的情况下，爬取每个预设分类项的数据都按照预设的页面跳转顺序进行爬取，使得在爬取完全部预设分类项的数据后，每个预设分类项的多个数据之间都具有相似的关联关系，无需在爬取完成所有的分类项后再调整数据的顺序，方便对不同分类项的数据进行对比和分析。

步骤S1049，根据每个第二网站页面的链接地址依次顺序跳转至每个第二网站页面。

在一种可选的实施例中，结合图2、图3以及图4所示的示例，可以在进入入口页面1后，得到内容页面1的链接地址，在得到内容页面1之后，可以读取内容页面2的链接地址，然后跳转至内容页面2，接着读取内容页面3的链接地址，然后跳转至内容页面3。

在另一种可选的实施例中，仍结合图2、图3以及图4所示的示例，可以在进入入口页面1后，得到内容页面1的链接地址，在得到内容页面1之后，可以先读取内容页面3的链接地址，然后跳转至内容页面3，接着读取内容页面2的链接地址，然后跳转至内容页面2。

此处需要说明的是，在包括多个第二页面的情况下，读取第二页面的链接地址，以及跳转至第二页面，都具有一定次序，其中，对于具体的读取和跳转的次序不做限定，且在实际应用中可以根据需求对次序进行调整或修改。

由上可知，本申请上述步骤在包括多个第二页面的情况下，按照预定跳转规则所设置的页面跳转顺序依次读取每个第二页面对应的链接地址，根据每个第二页面地址依次顺序跳转至每个第二页面，根据第二页面的链接地址跳转至第二页面。上述方案实现了在查询到第二页面之后，跳转至第二页面的技术目的。

可选的，在本申请上述实施例中，跳转规则由配置文件和/或分类ID映射表构成，其中，配置文件包括每个链接地址中指向预设分类项的标志词，分类ID映射表包括每个指向预设分类项的链接地址在多个预设网站中的ID。

要使网络爬虫按照上述方式进行爬取，需要对网络爬虫制订网站间页面跳转的规则，在上述实施例中，网络爬虫从全局入口页面进入后，会得到预先配置的跳转规则，需要保证爬取L1A后，跳转到L2A再到L3A，对于品牌B……品牌N的链接L1B……L1N类似。

作为一种可选的实施例，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，表一为上述链接地址，假设上述页面的链接地址满足表一给出的形式。

表一

L1A	www.site1.xiaoliang.id_a1.html
		L2A	www.site2.peizhi.id_a2
L3A	www.site3.koubei.id_a3.html
		L1B	www.site1.xiaoliang.id_b1.html
L2B	www.site2.peizhi.id_b2
		L3B	www.site3.koubei.id_b3.html

在页面的链接地址中，能够分为相关部分和不相关部分，结合表一所示，id_a1、id_a2等指向预设分类项的ID为相关部分，此处预设分类项包括品牌A和品牌B，其中，id_a1表示品牌A在网站1中的ID，id_b1表示品牌B在网站1中的ID。同一个品牌，在不同网站中可能会有不同的ID，但可以建立固定的映射关系，如表二所示。不相关部分为不同链接地址中指向预设分类项的特定的标志词，如网站1中site1.xiaoliang、网站2中的site2.peizhi.等。对于不同网站之间的跳转关系，可以通过链接中的特定标志词决定，例如，在上述实施例中，特定标志词的转换关系为site1.xiaoliang到site2.peizhi再到site3.koubei。

表二

编号	网站1中品牌ID	网站2中品牌ID	网站3中品牌ID
				1	id_a1	id_a2	id_a3
2	id_b1	id_b2	id_b3
				3	……	……	……
4	id_c1	id_c2	id_c3

上述跳转规则，即对网络爬虫建立页面爬取的链接跳转规则，使得网络爬虫按照上述的跳转规则进行网站页面数据的爬取。

由上可知，本申请上述实施例提出了跳转规则由配置文件和/或分类ID映射表构成，其中，配置文件包括每个链接地址中指向预设分类项的标志词，分类ID映射表包括每个指向预设分类项的链接地址在对应的网站中的ID。上述方案实现了跳转规则的构建，从而使得网络爬虫能够按照跳转规则进行爬取，从而解决了现有技术中，是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

可选的，在本申请上述实施例中，从跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面，包括：

步骤S1051，在配置文件中查找至少一个第二网站页面的链接地址中指向第一预设分类项的标志词，和/或在分类ID映射表中查找指向第一预设分类项的第一链接地址在至少一个第二网站页面所属网站中对应的ID。

步骤S1053，将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新分类项在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址。

步骤S1055，根据第二网站页面的链接地址确定至少一个第二网站页面。

作为一种可选的实施方式，跳转规则配置文件可以由Json(JavaScript ObjectNotation，JavaScript对象表示法)配置文件或者Xml(Extensible Markup Language，可扩展标记语言)配置文件的格式给出，在配置文件中，需要给出从一个网站的网页跳转到另一个网站的网页时，链接地址中需要替换的特定标志词，以及链接中需要映射的分类ID。网络爬虫在爬取完一个网站的页面后，按照配置文件中指定的规则，替换当前链接中的特定标志词，并按照ID映射表更新网站ID，即可以实现对链接地址在下一个网站中对应的页面的爬取。

以跳转规则的配置文件由Xml配置文件的格式给出作为示例，在这个示例中，Xml格式的配置文件可以如下表示：

以上配置文件能够对上述跳转规则进行完整描述。其中，节点<PageConfig1>和<pageConfig2>分别表示对站点1和2中页面跳转规则的配置。<id_position>结点表示点分字符串的链接中，分类ID的位置。<option>结点中给出得到下一个页面的链接需要进行的处理步骤。<option>结点中可以包含多个<optionItem>结点，每个<optionItem>结点表示一个操作，Action表示操作类型，包括替换、删除、增加等。

此处需要说明的是，通过使用跳转规则使得网络爬虫按照预设方式进行爬取的方法可以是上述步骤提供的方法，但不限于上述步骤提供的方法。

由上可知，在配置文件中查找第二网站页面中的链接地址中指向第一预设分类项的标志词，和/或在分类ID映射表中查找指向第一预设分类项的第一链接地址在至少一个第二网站页面所属网站中对应的ID，将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新分类项在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址，根据第二网站页面的链接地址确定至少一个第二网站页面。上述方案提供了网络爬虫通过跳转规则进行爬取的获取到至少一个与第一网站页面相关联的第二网站页面的方法，从而实现了网络爬虫按照预设的跳转规则爬取数据的技术效果。

可选的，在本申请上述实施例中，按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面的方式为如下任意一种：

并行读取每个链接地址分别在其他网站中对应的至少一个网站页面；

串行读取每个链接地址分别在其他网站中对应的至少一个网站页面。

具体的，上述并行读取可以是对每个分类项在其他网站的至少一个网站页面同时进行爬取，串行读取可以是按照预设的顺序，对一个分类项在其他网站中对应的一个页面爬取结束后，再继续对另一个网站页面进行爬取。

由上可知，本申请上述步骤提供网络爬虫在获取每个链接地址分别在其他网站中对应的至少一个网站页面的方式。值得注意的是，无论采用并行的方式进行爬取，还是采用串行的方式进行爬取，该方案都是对同一分类项在多个网站中的相关页面进行爬取，即在上述步骤的基础上，无论使用哪种爬取方式，都能够解决现有技术中，是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

可选的，在本申请上述实施例，在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面之后，或者在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面的过程中，方法还包括：

步骤S106，关联任意一个链接地址分别在其他网站中对应的至少一个网站页面。

上述步骤获取每个链接地址分别在其他网站中对应的至少一个网站页面之后，或者在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面的过程中对任意一个链接地址分别在其他网站中对应的至少一个网站页面，使得无需在获取所有数据之后再对相关数据进行关联，从而提高了获取关联数据的效率。

可选的，在本申请上述实施例中，在获取全局入口页面中指向一个或多个预设分类项的链接地址之前，方法还包括：获取多个预设网站。

具体的，上述预设的多个网站，为与分类项相关的网站，在一种可选的实施例中，仍以上述需要使用网络爬虫爬取汽车行业中各汽车品牌的数据作为示例，结合图2、图3以及图4所示，在该示例中，各个分类项为品牌A，……，品牌N，则预设的多个与各个分类项相关网站为网站1(汽车销量网站)、网站2(汽车配置网站)以及网站3(汽车口碑网站)，其中，在多个网站都包含汽车在某一维度上的特征时，可以多去多个网站的数据。

上述步骤通过获取预设的多个网站，为网络爬虫提供了爬取的预设区域，避免了在网络爬虫在互联网中的无目标爬取，从而提高了爬取效率。

实施例2

根据本发明实施例，还提供了一种关联数据的处理装置，图5是根据本发明实施例2的一种关联数据的处理装置的示意图，如图5所示，该装置可以包括：

第一获取模块50，用于获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面。

第二获取模块52，用于按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。

由上可知，本申请上述装置通过第一获取模块获取全局入口页面中指向一个或多个预设分类项的链接地址，通过第二获取模块按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。上述方案实现了一种能够进行数据提前关联的网络爬虫，通过预先设计的跳转规则在爬取多个网站时，按照预设的跳转规则跳转的网络爬虫并不是对每个网站单独爬取之后再进行数据的关联，而是在多个网站之间进行跳转完成一类数据的爬取，然后再进行下一类数据的爬取。这种网络爬虫的实现方式，可以使得数据的分类与关联在数据爬取的同时进行，从而不需要额外的数据库设计和爬取之后的数据关联处理，从而解决了现有技术中，是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的技术问题。

可选的，根据本申请上述实施例，结合图6所示，第二获取模块52包括：

第一获取子模块60，用于获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面。

查询子模块62，用于从预定跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面。

第二获取子模块64，用于从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。

由上可知，本申请上述装置通过第一获取子模块获取全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面，通过查询子模块从预设跳转规则中查询得到指向第一预设分类项、且与第一网站页面具有关联关系的至少一个第二网站页面，通过第二获取子模块从第一网站页面和至少一个第二网站页面中获取属于第一预设分类项的关联数据。上述方案通过预设的跳转规则，实现了在进行数据爬取时，连续对同一分类项的数据进行爬取，从而达到了爬取的数据提前关联的技术效果，进而解决了现有技术中，是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

可选的，根据本申请上述实施例，结合图7所示的示例，上述装置还包括：

读取模块70，用于在包括多个第二网站页面的情况下，按照预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址。

跳转模块72，用于根据每个第二网站页面的链接地址依次顺序跳转至每个第二页面。

由上可知，本申请上述装置在包括多个第二网站页面的情况下，通过读取模块依次顺序读取每个第二网站页面对应的链接地址，根据每个第二网站页面地址依次顺序跳转至第二网站页面，通过跳转模块根据第二网站页面的链接地址跳转至第二网站页面。上述方案实现了在查询到第二网站页面之后，跳转至第二网站页面的技术目的。

可选的，根据本申请上述实施例，跳转规则由配置文件和/或分类ID映射表构成，其中，配置文件包括每个链接地址中指向预设分类项的标志词，分类ID映射表包括每个指向预设分类项的链接地址在多个预设网站中的ID。

由上可知，本申请上述实施例提出了跳转规则由配置文件和/或分类ID映射表构成，其中，配置文件包括每个链接地址中指向预设分类项的标志词，分类ID映射表包括每个指向预设分类项的链接地址在多个预设网站中的ID。上述方案实现了跳转规则的构建，从而使得网络爬虫能够按照跳转规则进行爬取，从而解决了现有技术中，是在网络爬虫对每个网站单独爬取数据之后，再对数据进行关联处理，导致获取关联数据效率低的技术问题。

可选的，根据本申请上述实施例，结合图8所示，查询子模块62包括：

查找单元80，用于在配置文件中查找第二网站页面的链接地址中指向第一预设分类项的标志词，和/或在分类ID映射表中查找指向第一预设分类项的第一链接地址在至少一个第二网站页面所属网站中对应的ID。

替换单元82，用于将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新第一链接地址在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址。

确定单元84，用于根据第二网站页面的链接地址确定至少一个第二网站页面。

由上可知，本申请上述装置通过查找单元在配置文件中查找至少一个第二网站页面的链接地址的标志词，和/或在分类ID映射表中查找第一链接地址在至少一个第二网站页面所属网站中对应的ID，通过替换单元将第一网站页面的链接地址的标志词依次替换为至少一个第二网站页面的链接地址的标志词，和/或使用第一链接地址在至少一个第二网站页面所属网站中对应的ID依次更新第一链接地址在第一网站页面所属网站中对应的ID，得到至少一个第二网站页面的链接地址，通过确定单元根据第二网站页面的链接地址确定至少一个第二网站页面。上述方案提供了网络爬虫通过跳转规则进行爬取的获取到至少一个与第一网站页面相关联的第二网站页面的方法，从而实现了网络爬虫按照预设的跳转规则爬取数据的技术效果。

可选的，根据本申请上述实施例，按照预定跳转规则，获取每个链接地址分别在其他网站中对应的至少一个页面的方式为如下任意一种：

由上可知，本申请上述装置提供网络爬虫在获取每个链接地址分别在其他网站中对应的至少一个网站页面的方式。值得注意的是，无论采用并行的方式进行爬取，还是采用串行的方式进行爬取，该方案都是对同一分类项在多个网站中的相关页面进行爬取，即在上述步骤的基础上，无论使用哪种爬取方式，都能够解决现有技术中，是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的技术问题。

可选的，根据本申请上述实施例，结合图9所示，上述装置还包括：

关联模块90，用于在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面之后，或者在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面的过程中，关联任意一个链接地址分别在其他网站中对应的至少一个网站页面。

上述装置通过关联模块在获取每个链接地址分别在其他网站中对应的至少一个网站页面之后，或者在按照预定的跳转规则，获取每个链接地址分别在其他网站中对应的至少一个网站页面的过程中对任意一个链接地址分别在其他网站中对应的至少一个网站页面，使得无需在获取所有数据之后再对相关数据进行关联，从而提高了获取关联数据的效率。

可选的，根据本申请上述实施例，结合图10所示，上述装置还包括：

第三获取模块100，用于在获取全局入口页面中指向一个或多个预设分类项的链接地址之前，获取多个预设网站。

上述装置通过获取预设的多个网站，为网络爬虫提供了爬取的预设区域，避免了在网络爬虫在互联网中的无目标爬取，从而提高了爬取效率。

所述事件的监测装置包括处理器和存储器，上述第一获取模块和第二获取模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中，是在网络爬虫对每个网站单独爬取完成关联数据之后，再对关联数据进行数据关联处理，导致获取关联数据效率低的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，全局入口页面为多个预设网站中任意一个网站的入口页面；按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从网站页面中获取属于同一预设分类项的关联数据，直至获取所有属于预设分类项的关联数据。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关联数据的处理方法，其特征在于，包括：

获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，所述全局入口页面为多个预设网站中任意一个网站的入口页面；

按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从所述网站页面中获取属于所述同一预设分类项的关联数据，直至获取所有属于所述预设分类项的关联数据；

其中，所述按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从所述网站页面中获取属于所述同一预设分类项的关联数据，包括：

获取所述全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面，其中，所述第一网站页面为所述任意一个网站的网站页面；

从所述预定跳转规则中查询得到指向所述第一预设分类项、且与所述第一网站页面具有关联关系的至少一个第二网站页面，其中，所述第二网站页面为所述多个预设网站中除所述任意一个网站之外的其他网站的网站页面；

从所述第一网站页面和所述至少一个第二网站页面中获取属于所述第一预设分类项的关联数据。

2.根据权利要求1所述的方法，其特征在于，在从所述预定跳转规则中查询得到指向所述第一预设分类项、且与所述第一网站页面具有关联关系的至少一个第二网站页面之后，所述方法还包括：

在包括多个第二网站页面的情况下，按照所述预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址；

根据每个所述第二网站页面的链接地址依次顺序跳转至每个所述第二网站页面。

3.根据权利要求1或2所述的方法，其特征在于，所述跳转规则由配置文件和/或分类ID映射表构成，其中，所述配置文件包括每个所述链接地址中指向所述预设分类项的标志词，所述分类ID映射表包括每个指向所述预设分类项的链接地址在所述多个预设网站中的ID。

4.根据权利要求3所述的方法，其特征在于，在从所述预定跳转规则中查询得到指向所述第一预设分类项、且与所述第一网站页面具有关联关系的至少一个第二网站页面，包括：

在所述配置文件中查找所述第二网站页面的链接地址中指向所述第一预设分类项的标志词，和/或在所述分类ID映射表中查找指向所述第一预设分类项的所述第一链接地址在所述至少一个第二网站页面所属网站中对应的ID；

将所述第一网站页面的链接地址的标志词依次替换为所述至少一个第二网站页面的链接地址的标志词，和/或使用所述第一链接地址在所述至少一个第二网站页面所属网站中对应的ID依次更新所述第一链接地址在所述第一网站页面所属网站中对应的ID，得到所述至少一个第二网站页面的链接地址；

根据所述第二网站页面的链接地址确定所述至少一个第二网站页面。

5.一种关联数据的处理装置，其特征在于，包括：

第一获取模块，用于获取全局入口页面中指向一个或多个预设分类项的链接地址，其中，所述全局入口页面为多个预设网站中任意一个网站的入口页面；

第二获取模块，用于按照预定跳转规则，获取指向同一预设分类项的链接地址所对应的网站页面，并从所述网站页面中获取属于所述同一预设分类项的关联数据，直至获取所有属于所述预设分类项的关联数据；

其中，所述第二获取模块包括：

第一获取子模块，用于获取所述全局入口页面中指向第一预设分类项的第一链接地址所对应的第一网站页面，其中，所述第一网站页面为所述任意一个网站的网站页面；

查询子模块，用于从所述预定跳转规则中查询得到指向所述第一预设分类项、且与所述第一网站页面具有关联关系的至少一个第二网站页面，其中，所述第二网站页面为所述多个预设网站中除所述任意一个网站之外的其他网站的网站页面；

第二获取子模块，用于从所述第一网站页面和所述至少一个第二网站页面中获取属于所述第一预设分类项的关联数据。

6.根据权利要求5所述的装置，所述装置还包括：

读取模块，用于在包括多个第二网站页面的情况下，按照所述预定跳转规则所设置的页面跳转顺序依次读取每个第二网站页面对应的链接地址；

跳转模块，用于根据每个所述第二网站页面的链接地址依次顺序跳转至每个所述第二网站页面。

7.根据权利要求5或6所述的装置，其特征在于，所述跳转规则由配置文件和/或分类ID映射表构成，其中，所述配置文件包括每个所述链接地址中指向所述预设分类项的标志词，所述分类ID映射表包括每个指向所述预设分类项的链接地址在所述多个预设网站中的ID。

8.根据权利要求7所述的装置，其特征在于，所述查询子模块包括：

查找单元，用于在所述配置文件中查找所述第二网站页面的链接地址中指向所述第一预设分类项的标志词，和/或在所述分类ID映射表中查找指向所述第一预设分类项的所述第一链接地址在所述至少一个第二网站页面所属网站中对应的ID；

替换单元，用于将所述第一网站页面的链接地址的标志词依次替换为所述至少一个第二网站页面的链接地址的标志词，和/或使用所述第一链接地址在所述至少一个第二网站页面所属网站中对应的ID依次更新所述第一链接地址在所述第一网站页面所属网站中对应的ID，得到所述至少一个第二网站页面的链接地址；

确定单元，用于根据所述第二网站页面的链接地址确定所述至少一个第二网站页面。