CN106815273B

CN106815273B - 数据存储方法和装置

Info

Publication number: CN106815273B
Application number: CN201510875078.2A
Authority: CN
Inventors: 杨杰; 张祎博
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2020-07-31
Anticipated expiration: 2035-12-02
Also published as: CN106815273A

Abstract

本申请公开了一种数据存储方法和装置。其中，该方法包括：爬取目标网站的目录页面，从目录页面中提取目标链接，其中，目标链接为在目录页面上用于链接到目标网站的内容页面的链接，目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类；确定出目标类别，目标类别为目标链接所链接到的内容页面的数据内容的类别；建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系；在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。本申请解决了现有技术中无法依据类别来获取相应的数据的技术问题。

Description

数据存储方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据存储方法和装置。

背景技术

爬虫在对网站的页面数据进行爬取时，一般分为两步。第一步是通过网站的目录页面(或者门户页面)得到网站内容页的链接，第二步是根据网站内容页的链接进入网站的内容页面，获得内容页面的数据，并将得到的数据进行存储。目前，现有技术中在爬取到网站中的页面数据之后，通常是将这些数据进行统一存储，这种存储方式比较快捷方便。

然而，当需要对网站中某些特定类别的数据进行分析时，例如需要对财经新闻的数据，或体育新闻的数据，或娱乐新闻的数据等分别进行分析，由于无法依据类别来获取相应的数据，导致无法对某些特定类别的数据进行分析。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据存储方法和装置，以至少解决现有技术中无法依据类别来获取相应的数据的技术问题。

根据本申请实施例的一个方面，提供了一种数据存储方法，包括：爬取目标网站的目录页面，从所述目录页面中提取目标链接，其中，所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接，所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类；确定出目标类别，所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别；建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系；在爬取到所述目标链接所链接到的内容页面的数据内容之后，依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。

进一步地，在爬取所述目标链接所链接到的内容页面的数据内容之前，所述方法还包括：建立爬取任务，所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容；建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系包括：在所述爬取任务中添加用于表示所述目标类别的标签；在爬取到所述目标链接所链接到的内容页面的数据内容之后，依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储包括：在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后，将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。

进一步地，确定出目标类别包括：建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系；确定所述目标链接在所述目录页面上所处的目标区域；根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。

进一步地，所述目录页面中划分的区域包括区域Q_i，所述目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为所述目录页面中划分的区域的数量，1≤h≤n_i，n_i为所述区域Q_i所对应的类别的数量，建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括：建立所述区域Q_i与所述类别C_ih的对应关系；根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:基于所述区域Q_i与所述类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

，其中，1≤j≤m。

进一步地，所述区域Q_i包含链接L_i1至链接

，其中，k_i为所述区域Q_i包含的所述链接的数量，在爬取到所述目标链接所链接到的内容页面的数据内容之后，依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储还包括：将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。

根据本申请实施例的另一方面，还提供了一种数据存储装置，包括：爬取单元，用于爬取目标网站的目录页面，从所述目录页面中提取目标链接，其中，所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接，所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类；确定单元，用于确定出目标类别，所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别；第一建立单元，用于建立所述目标链接所链接到的内容页面的数据内容与所述目标类别的关联关系；存储单元，用于在爬取到所述目标链接所链接到的内容页面的数据内容之后，依据所述关联关系对爬取到的所述目标链接所链接到的内容页面的数据内容和所述目标类别进行存储。

进一步地，所述装置还包括：第二建立单元，用于在爬取所述目标链接所链接到的内容页面的数据内容之前，建立爬取任务，所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容；所述第一建立单元包括：添加子单元，用于在所述爬取任务中添加用于表示所述目标类别的标签；所述存储单元包括：第一存储子单元，用于在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后，将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储。

进一步地，所述确定单元包括：建立子单元，用于建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系；第一确定子单元，用于确定所述目标链接在所述目录页面上所处的目标区域；第二确定子单元，用于根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。

进一步地，所述目录页面中划分的区域包括区域Q_i，所述目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为所述目录页面中划分的区域的数量，1≤h≤n_i，n_i为所述区域Q_i所对应的类别的数量，所述建立子单元包括：建立模块，用于建立所述区域Q_i与所述类别C_ih的对应关系；所述第二确定子单元包括:查找模块，用于基于所述区域Q_i与所述类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

，其中，1≤j≤m。

进一步地，所述区域Q_i包含链接L_i1至链接

，其中，k_i为所述区域Q_i包含的所述链接的数量，所述存储单元还包括：第二存储子单元，用于将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。

在本申请实施例中，采用爬取目标网站的目录页面，从目录页面中提取目标链接，其中，目标链接为在目录页面上用于链接到目标网站的内容页面的链接，目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类；确定出目标类别，目标类别为目标链接所链接到的内容页面的数据内容的类别；建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系；在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。通过找出目录页面上的链接所链接到的内容页面的数据内容的类别，将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储，实现了将数据内容及该数据内容分类的类别对应存储的技术效果，进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的数据存储方法的流程图；

图2是根据本申请优选实施例的数据存储方法的流程图；以及

图3是根据本申请实施例的数据存储装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种数据存储方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的数据存储方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，爬取目标网站的目录页面，从目录页面中提取目标链接，其中，目标链接为在目录页面上用于链接到目标网站的内容页面的链接，目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类。

目标网站可以为具有目录页面(门户页面)的任意一个网站。目标网站的目录页面中包含若干个链接，每个链接都链接到某一个内容页面，目录页面上的链接按照链接所链接到的内容页面的数据内容进行分类。链接可以为URL。目标链接可以为目录页面上的任意链接。目标链接所链接到的内容页面的数据内容为待存储的数据内容。

步骤S104，确定出目标类别，目标类别为目标链接所链接到的内容页面的数据内容的类别。目标链接所链接到的内容页面的数据内容的类别为目标类别。不同的目标链接所链接到的内容页面的数据内容的类别既可能相同，也可能不同。

步骤S106，建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系。即，建立目标链接所链接到的内容页面的数据内容与该目标链接所链接到的内容页面的数据内容的类别之间的关联关系。关联关系也是对应关系。

步骤S108，在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。在爬取到目标链接所链接到的内容页面的数据内容之后，根据目标链接所链接到的内容页面的数据内容和目标类别的关联关系，将目标链接所链接到的内容页面的数据内容和目标类别对应进行存储。存储结果既包括数据内容，又包括该数据内容的类别。在查询存储结果时，可以查询出某一类别的数据内容。

通过找出目录页面上的链接所链接到的内容页面的数据内容的类别，将链接所链接到的内容页面的数据内容与该链接所链接到的内容页面的数据内容的类别对应进行存储，实现了将数据内容及该数据内容分类的类别对应存储的技术效果，进而解决了现有技术中无法依据类别来获取相应的数据的技术问题。

可选地，在爬取目标链接所链接到的内容页面的数据内容之前，根据本申请实施例所提供的数据存储方法还包括：建立爬取任务，爬取任务用于爬取目标链接所链接到的内容页面的数据内容；建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系包括：在爬取任务中添加用于表示目标类别的标签；在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储包括：在执行爬取任务来爬取目标链接所链接到的内容页面的数据内容之后，将爬取到的目标链接所链接到的内容页面的数据内容与标签对应存储。

当爬取到目标网站的目录页面之后，提取目标链接，建立爬取任务，该爬取任务用于爬取目标链接所链接到的内容页面的数据内容。在爬取任务中添加标签，该标签用来表示目标链接所链接到的内容页面的数据内容所对应的类别，即目标类别。标签是用于添加特定信息的一个字段，标签中的内容会和爬取任务爬取到的目标链接所链接到的内容页面的数据内容同时对应存储。通过在爬取任务中添加表示类别的标签，实现了将爬取任务爬取到的目标链接所链接到的内容页面的数据内容与该数据内容的类别对应存储的技术效果。

可选地，确定出目标类别包括：建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系；确定目标链接在目录页面上所处的目标区域；根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别。

目录页面被划分成若干个区域，每个区域都对应着特定的类别。每个区域都包含若干个链接，位于目录页面的同一个区域的链接所链接到的内容页面的数据内容的类别是相同的。通过建立目录页面中区域和类别的对应关系，找到目标链接在目录页面上所处的区域(即目标区域)，根据目录页面中区域和类别的对应关系，找到目标区域所对应的类别，即找到目标类别。

目录页面中区域和类别的对应关系可以用一张表来存储，具体来说是用一张目录页面区域分类查找表来存储。该查找表可以在数据库中维护，查找表的结构为两列。对于查找表中具体的一行，查找表的第一列保存网站目录页面的URL，第二列保存网站目录页面的区域分类信息。网站目录页面的区域分类信息可以通过如下格式表示：

{Xpath1:Tag1a,Tag1b；Xpath2:Tag2a；Xpath3:Tag3a,Tag3b,Tag3c；……}。

其中Xpath1、Xpath2、Xpath3等为XML路径语言，可以使用Xpath唯一地确定目录页面中的某一区域。Tag1a、Tag1b、Tag2a、Tag3a、Tag3b、Tag3c等为类别标签，表示分类的类别。目录页面的某一特定区域所对应的类别既可以为一个，也可以为多个。

Xpath1所确定的目录页面中的区域所对应的类别标签为类别标签Tag1a和类别标签Tag1b，即Xpath1所确定的目录页面中的区域所对应的类别为类别标签Tag1a和类别标签Tag1b所表示的类别。

Xpath2所确定的目录页面中的区域所对应的类别标签为类别标签Tag2a，即Xpath2所确定的目录页面中的区域所对应的类别为类别标签Tag2a所表示的类别。

Xpath3所确定的目录页面中的区域所对应的类别标签为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c，即Xpath3所确定的目录页面中的区域所对应的类别为类别标签Tag3a、类别标签Tag3b和类别标签Tag3c所表示的类别。

表1为一张目录页面区域分类查找表。

在建立如表1所示的查找表时，对不同网站的目录页面在查找表中建立对应的信息。例如，对于目录页面URL为http://NEWS.com的新闻网站，其目录页面中路径XpathA1所确定的区域的类别为财经新闻，路径XpathA2所确定的区域的类别为热点新闻并且为体育新闻。对于其他网站也可以在查找表中建立对应的行。

表1

例如，当需要爬取目录页面URL为http://NEWS.com的新闻网站时，先在表1中查找该新闻网站的目录页面URL，找到之后，判断目标链接来自哪个区域。如果目标链接来自XpathA1确定的区域，则对建立的爬取任务添加标签“财经新闻”，当爬取到目标链接所链接到的内容页面的数据内容之后，将爬取到的数据内容和标签“财经新闻”对应存储。如果目标链接来自XpathA2确定的区域，则对建立的爬取任务添加标签“热点新闻”和“体育新闻”，当爬取到目标链接所链接到的内容页面的数据内容之后，将爬取到的数据内容和标签“热点新闻”、“体育新闻”对应存储。

可选地，目录页面中划分的区域包括区域Q_i，目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为目录页面中划分的区域的数量，1≤h≤n_i，n_i为区域Q_i所对应的类别的数量，建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括：建立区域Q_i与类别C_ih的对应关系；根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别包括:基于区域Q_i与类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

，其中，1≤j≤m。

可选地，区域Q_i包含链接L_i1至链接

，其中，k_i为区域Q_i包含的链接的数量，在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储还包括：将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。

目录页面被划分为若干个区域，每个区域都对应着特定的类别。类别可以为“科技”、“数码”、“手机”、“时尚”、“健康”、“摄影”、“历史”、“读书”、“文化”、“财经”、“娱乐”、“汽车”、“房产”、“家居”、“旅游”、“生活”、“股票”，等等。区域Q_i对应着n_i个不同的类别，分别为类别C_i1至类别

。建立区域Q_i与类别C_i1至类别

的对应关系。当需要知道某个目标链接所链接到的内容页面的数据内容的分类的类别时，只需要确定出目标区域所处在目录页面中的区域，假设该目标链接位于目录页面的区域Q_j(区域Q_j即为目标区域)，在区域和类别的对应关系中找到区域Q_j所对应的类别为类别C_j1至类别

(类别C_j1至类别

即为目标类别)。

目录页面的每个区域都包含至少一个链接，区域Q_i包含k_i个链接，分别为链接L_i1至链接

。假设目标链接为L_ij，由于目标链接L_ij位于目录页面的区域Q_i(区域Q_i为目标区域)，故目标链接对应的类别为类别C_i1至类别

(类别C_i1至类别

为目标类别)。当爬取到目标链接L_ij所链接到的内容页面的数据内容之后，将目标链接L_ij所链接到的内容页面的数据内容与类别C_i1至类别

对应进行存储，或者将目标链接L_ij所链接到的内容页面的数据内容与类别C_i1至类别

的标识对应进行存储。类别的标识可以为数字，字母，等。例如，当类别为“科技”时，类别的标识可以为“Tech”、“KJ”，等。当类别为“旅游”时，类别的标识可以为“Tra”、“LY”,等。当类别为“文化”时，类别的标识可以为“Cul”、“WH”,等。

例如，表2为A网站的目录页面划分的区域与类别的对应关系，表3为该网站的目录页面划分的区域与目录页面上的链接的对应关系。

表2

区域	区域所对应的分类的类别
		Q<sub>1</sub>	C<sub>11</sub>、C<sub>12</sub>
Q<sub>2</sub>	C<sub>21</sub>
		Q<sub>3</sub>	C<sub>31</sub>、C<sub>32</sub>、C<sub>33</sub>、C<sub>34</sub>
Q<sub>4</sub>	C<sub>41</sub>、C<sub>42</sub>、C<sub>43</sub>

表3

区域	区域所包含的链接
		Q<sub>1</sub>	L<sub>11</sub>、L<sub>12</sub>、L<sub>13</sub>、L<sub>14</sub>、L<sub>15</sub>
Q<sub>2</sub>	L<sub>21</sub>、L<sub>22</sub>、L<sub>23</sub>、L<sub>24</sub>、L<sub>25</sub>、L<sub>26</sub>、L<sub>27</sub>
		Q<sub>3</sub>	L<sub>31</sub>、L<sub>32</sub>、L<sub>33</sub>、L<sub>34</sub>、L<sub>35</sub>、L<sub>36</sub>、L<sub>37</sub>、L<sub>38</sub>
Q<sub>4</sub>	L<sub>41</sub>、L<sub>42</sub>、L<sub>43</sub>、L<sub>44</sub>、L<sub>45</sub>、L<sub>46</sub>

由表2可以看出，A网站的目录页面包含4个区域，分别为区域Q₁、区域Q₂、区域Q₃和区域Q₄。其中，区域Q₁所对应的类别有2个(即n₁＝2)，分别为类别C₁₁和类别C₁₂。区域Q₂所对应的类别有1个(即n₂＝1)，为类别C₂₁。区域Q₃所对应的类别有4个(即n₃＝4)，分别为类别C₃₁、类别C₃₂、类别C₃₃和类别C₃₄。区域Q₄所对应的类别有3个(即n₄＝3)，分别为类别C₄₁、类别C₄₂和类别C₄₃。

由表3可以看出，A网站的目录页面中的区域Q₁包含5个链接(即k₁＝5)，分别为链接L₁₁、链接L₁₂、链接L₁₃、链接L₁₄和链接L₁₅。区域Q₂包含7个链接(即k₂＝7)，分别为链接L₂₁、链接L₂₂、链接L₂₃、链接L₂₄、链接L₂₅、链接L₂₆和链接L₂₇。区域Q₃包含8个链接(即k₃＝8)，分别为链接L₃₁、链接L₃₂、链接L₃₃、链接L₃₄、链接L₃₅、链接L₃₆、链接L₃₇和链接L₃₈。区域Q₄包含6个链接(即k₄＝6)，分别为链接L₄₁、链接L₄₂、链接L₄₃、链接L₄₄、链接L₄₅和链接L₄₆。

根据表2和表3，可以得到目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。

表4为目录页面上链接与链接所链接到的内容页面的数据内容分类的类别的对应关系表。

如表4所示，当目标链接为链接L₁₁、链接L₁₂、链接L₁₃、链接L₁₄或链接L₁₅时，将爬取目标链接所链接到的内容页面的数据内容和类别C₁₁、类别C₁₂对应进行存储。

当目标链接为链接L₂₁、链接L₂₂、链接L₂₃、链接L₂₄、链接L₂₅、链接L₂₆或链接L₂₇时，将爬取目标链接所链接到的内容页面的数据内容和类别C₂₁对应进行存储。

当目标链接为链接L₃₁、链接L₃₂、链接L₃₃、链接L₃₄、链接L₃₅、链接L₃₆、链接L₃₇或链接L₃₈时，将爬取目标链接所链接到的内容页面的数据内容和类别C₃₁、类别C₃₂、类别C₃₃、类别C₃₄对应进行存储。

当目标链接为链接L₄₁、链接L₄₂、链接L₄₃、链接L₄₄、链接L₄₅和链接L₄₆时，将爬取目标链接所链接到的内容页面的数据内容和类别C₄₁、类别C₄₂、类别C₄₃对应进行存储。

表4

目标链接	目标链接所对应的类别
		L<sub>11</sub>、L<sub>12</sub>、L<sub>13</sub>、L<sub>14</sub>、L<sub>15</sub>	C<sub>11</sub>、C<sub>12</sub>
L<sub>21</sub>、L<sub>22</sub>、L<sub>23</sub>、L<sub>24</sub>、L<sub>25</sub>、L<sub>26</sub>、L<sub>27</sub>	C<sub>21</sub>
		L<sub>31</sub>、L<sub>32</sub>、L<sub>33</sub>、L<sub>34</sub>、L<sub>35</sub>、L<sub>36</sub>、L<sub>37</sub>、L<sub>38</sub>	C<sub>31</sub>、C<sub>32</sub>、C<sub>33</sub>、C<sub>34</sub>
L<sub>41</sub>、L<sub>42</sub>、L<sub>43</sub>、L<sub>44</sub>、L<sub>45</sub>、L<sub>46</sub>	C<sub>41</sub>、C<sub>42</sub>、C<sub>43</sub>

假设类别C₁₁表示的是“房产”，类别C₁₂表示的是“家居”，类别C₂₁表示的是“健康”，类别C₃₁表示的是“文化”，类别C₃₂表示的是“读书”，类别C₃₃表示的是“艺术”，类别C₃₄表示的是“历史”，类别C₄₁表示的是“旅游”，类别C₄₂表示的是“生活”，类别C₄₃表示的是“摄影”。

当目标链接为链接L₁₁、链接L₁₂、链接L₁₃、链接L₁₄或链接L₁₅时，将爬取目标链接所链接到的内容页面的数据内容和标签“房产”、“家居”对应进行存储。

当目标链接为链接L₂₁、链接L₂₂、链接L₂₃、链接L₂₄、链接L₂₅、链接L₂₆或链接L₂₇时，将爬取目标链接所链接到的内容页面的数据内容和标签“健康”对应进行存储。

当目标链接为链接L₃₁、链接L₃₂、链接L₃₃、链接L₃₄、链接L₃₅、链接L₃₆、链接L₃₇或链接L₃₈时，将爬取目标链接所链接到的内容页面的数据内容和标签“文化”、“读书”、“艺术”和“历史”对应进行存储。

当目标链接为链接L₄₁、链接L₄₂、链接L₄₃、链接L₄₄、链接L₄₅或链接L₄₆时，将爬取目标链接所链接到的内容页面的数据内容和标签“旅游”、“生活”和“摄影”对应进行存储。

当查询存储结果时，根据标签信息，即可查询出对应于标签的内容页面的数据内容。例如，根据标签“健康”查询，可以得到链接L₂₁、链接L₂₂、链接L₂₃、链接L₂₄、链接L₂₅、链接L₂₆和链接L₂₇所链接到的内容页面的数据内容。根据标签“生活”查询，可以得到链接L₄₁、链接L₄₂、链接L₄₃、链接L₄₄、链接L₄₅和链接L₄₆所链接到的内容页面的数据内容。根据标签“文化”查询，可以得到链接L₃₁、链接L₃₂、链接L₃₃、链接L₃₄、链接L₃₅、链接L₃₆、链接L₃₇和链接L₃₈所链接到的内容页面的数据内容。根据标签“读书”查询，可以得到链接L₃₁、链接L₃₂、链接L₃₃、链接L₃₄、链接L₃₅、链接L₃₆、链接L₃₇和链接L₃₈所链接到的内容页面的数据内容。当根据其他标签进行查询时，以此类推，此处不再一一列举。

通过建立目录页面区域分类查找表，在目录页面上提取链接时，对建立的内容页面爬取任务添加分类标签，将内容页面的数据内容与数据内容对应的标签对应存储，从而能够实现对存储结果的分类检索。

图2是根据本申请优选实施例的数据存储方法的流程图。如图2所示，使用该方法进行数据存储主要包括以下几个步骤：

步骤S202，爬虫获得爬取目录页面的爬取任务。

步骤S204，在目录页面区域分类查找表中查找待爬取目录页面的URL。

步骤S206，在目录页面区域分类查找表中查找到待爬取目录页面的URL的情况下，按照查找表中的区域分类信息建立包含类别标签的内容页面的爬取任务。步骤S206与上述步骤S106的具体实施方式相同。

步骤S208，爬取目录页面的链接所链接到的内容页面的数据内容。

步骤S210，将目录页面的链接所链接到的内容页面的数据内容和类别标签对应存储。步骤S208和步骤S210的具体实施方式与上述步骤S108相同。

通过在目录页面区域分类查找表中查找出待爬取目录页面的URL，根据查找表中的区域分类信息建立包含类别标签的内容页面的爬取任务，使得在爬取特定区域的链接时，将链接所链接到的内容页面的数据内容和类别标签对应进行存储，实现了对爬取到的内容页面的数据内容进行分类的技术效果，并且通过类别标签信息，可以对已经存储的内容页面的数据内容进行分类检索，方便高效。

根据本申请实施例，还提供了一种数据存储装置。该数据存储装置可以执行上述数据存储方法，上述数据存储方法也可以通过该数据存储装置实施。

图3是根据本申请实施例的数据存储装置的示意图。如图3所示，该装置包括爬取单元32、确定单元34、第一建立单元36和存储单元38。

爬取单元32用于爬取目标网站的目录页面，从目录页面中提取目标链接，其中，目标链接为在目录页面上用于链接到目标网站的内容页面的链接，目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类。

确定单元34用于确定出目标类别，目标类别为目标链接所链接到的内容页面的数据内容的类别。目标链接所链接到的内容页面的数据内容的类别为目标类别。不同的目标链接所链接到的内容页面的数据内容的类别既可能相同，也可能不同。

第一建立单元36用于建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系。即，建立目标链接所链接到的内容页面的数据内容与该目标链接所链接到的内容页面的数据内容的类别之间的关联关系。关联关系也是对应关系。

存储单元38用于在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。在爬取到目标链接所链接到的内容页面的数据内容之后，根据目标链接所链接到的内容页面的数据内容和目标类别的关联关系，将目标链接所链接到的内容页面的数据内容和目标类别对应进行存储。存储结果既包括数据内容，又包括该数据内容的类别。在查询存储结果时，可以查询出某一类别的数据内容。

可选地，根据本申请实施例所提供的数据存储装置还包括第二建立单元。第二建立单元用于在爬取目标链接所链接到的内容页面的数据内容之前，建立爬取任务，爬取任务用于爬取目标链接所链接到的内容页面的数据内容。第一建立单元36包括添加子单元。添加子单元用于在爬取任务中添加用于表示目标类别的标签。存储单元38包括第一存储子单元。第一存储子单元用于在执行爬取任务来爬取目标链接所链接到的内容页面的数据内容之后，将爬取到的目标链接所链接到的内容页面的数据内容与标签对应存储。

可选地，确定单元34包括建立子单元、第一确定子单元和第二确定子单元。建立子单元用于建立目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系。第一确定子单元用于确定目标链接在目录页面上所处的目标区域。第二确定子单元用于根据目录页面中划分的区域和目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及目标区域确定出目标类别。

{Xpath1:Tag1a,Tag1b；Xpath2:Tag2a；Xpath3:Tag3a,Tag3b,Tag3c；……}。

表1为一张目录页面区域分类查找表。

可选地，目录页面中划分的区域包括区域Q_i，目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为目录页面中划分的区域的数量，1≤h≤n_i，n_i为区域Q_i所对应的类别的数量。建立子单元包括建立模块。建立模块用于建立区域Q_i与类别C_ih的对应关系。第二确定子单元包括查找模块。查找模块用于基于区域Q_i与类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

，其中，1≤j≤m。

可选地，区域Q_i包含链接L_i1至链接

，其中，k_i为区域Q_i包含的链接的数量。存储单元38还包括第二存储子单元。第二存储子单元用于将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。

。建立区域Q_i与类别C_i1至类别

(类别C_j1至类别

即为目标类别)。

(类别C_i1至类别

所述数据存储装置包括处理器和存储器，上述爬取单元32、确定单元34、第一建立单元36和存储单元38等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对爬取到的内容页面的数据内容和数据内容分类的类别对应存储。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：爬取目标网站的目录页面，从目录页面中提取目标链接，其中，目标链接为在目录页面上用于链接到目标网站的内容页面的链接，目录页面上所包含的链接按照链接所链接到的内容页面的数据内容进行分类；确定出目标类别，目标类别为目标链接所链接到的内容页面的数据内容的类别；建立目标链接所链接到的内容页面的数据内容与目标类别的关联关系；在爬取到目标链接所链接到的内容页面的数据内容之后，依据关联关系对爬取到的目标链接所链接到的内容页面的数据内容和目标类别进行存储。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据存储方法，其特征在于，包括：

爬取目标网站的目录页面，从所述目录页面中提取目标链接，其中，所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接，所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类；

确定出目标类别，所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别；

在爬取所述目标链接所链接到的内容页面的数据内容之前，建立爬取任务，所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容；

在所述爬取任务中添加用于表示所述目标类别的标签；

在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后，将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储；

其中，根据所述目录页面的区域分类信息建立包括所述标签的内容页面的爬取任务，所述区域分类信息包括所述目录页面中的区域和与所述区域对应的所述标签。

2.根据权利要求1所述的方法，其特征在于，确定出目标类别包括：

建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系；

确定所述目标链接在所述目录页面上所处的目标区域；

根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。

3.根据权利要求2所述的方法，其特征在于，所述目录页面中划分的区域包括区域Q_i，所述目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为所述目录页面中划分的区域的数量，1≤h≤n_i，n_i为所述区域Q_i所对应的类别的数量，

建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系包括：建立所述区域Q_i与所述类别C_ih的对应关系；

根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别包括:

基于所述区域Q_i与所述类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

其中，1≤j≤m。

4.根据权利要求3所述的方法，其特征在于，所述区域Q_i包含链接L_i1至链接

其中，k_i为所述区域Q_i包含的所述链接的数量，

所述方法还包括：将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。

5.一种数据存储装置，其特征在于，包括：

爬取单元，用于爬取目标网站的目录页面，从所述目录页面中提取目标链接，其中，所述目标链接为在所述目录页面上用于链接到所述目标网站的内容页面的链接，所述目录页面上所包含的链接按照所述链接所链接到的内容页面的数据内容进行分类；

确定单元，用于确定出目标类别，所述目标类别为所述目标链接所链接到的内容页面的数据内容的类别；

第二建立单元，用于在爬取所述目标链接所链接到的内容页面的数据内容之前，建立爬取任务，所述爬取任务用于爬取所述目标链接所链接到的内容页面的数据内容；

添加子单元，用于在所述爬取任务中添加用于表示所述目标类别的标签；

第一存储子单元，用于在执行所述爬取任务来爬取所述目标链接所链接到的内容页面的数据内容之后，将爬取到的所述目标链接所链接到的内容页面的数据内容与所述标签对应存储；

其中，所述装置还用于根据所述目录页面的区域分类信息建立包括所述标签的内容页面的爬取任务，所述区域分类信息包括所述目录页面中的区域和与所述区域对应的所述标签。

6.根据权利要求5所述的装置，其特征在于，所述确定单元包括：

建立子单元，用于建立所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系；

第一确定子单元，用于确定所述目标链接在所述目录页面上所处的目标区域；

第二确定子单元，用于根据所述目录页面中划分的区域和所述目标链接所链接到的内容页面的数据内容分类的类别的对应关系以及所述目标区域确定出所述目标类别。

7.根据权利要求6所述的装置，其特征在于，所述目录页面中划分的区域包括区域Q_i，所述目标链接所链接到的内容页面的数据内容分类的类别包括类别C_ih，其中，i依次取1至m，m为所述目录页面中划分的区域的数量，1≤h≤n_i，n_i为所述区域Q_i所对应的类别的数量，

所述建立子单元包括：

建立模块，用于建立所述区域Q_i与所述类别C_ih的对应关系；

所述第二确定子单元包括:

查找模块，用于基于所述区域Q_i与所述类别C_ih的对应关系查找目标区域Q_j所对应的目标类别C_j1至目标类别

其中，1≤j≤m。

8.根据权利要求7所述的装置，其特征在于，所述区域Q_i包含链接L_i1至链接

其中，k_i为所述区域Q_i包含的所述链接的数量，

所述装置还包括：

第二存储子单元，用于将爬取目标链接L_ij所链接到的内容页面的数据内容和目标类别C_i1至目标类别

对应进行存储。