CN107463669B

CN107463669B - 解析爬虫爬取的网页数据的方法及装置

Info

Publication number: CN107463669B
Application number: CN201710655795.3A
Authority: CN
Inventors: 颜龙武; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2020-05-05
Anticipated expiration: 2037-08-03
Also published as: CN107463669A

Abstract

本发明属于数据处理技术领域，提供了一种解析爬虫爬取的网页数据的方法及装置。该方法包括：根据网页HTML结构中的table标签，提取网页数据；根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中。本发明解析爬虫爬取的网页数据的方法及装置，能够提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码。

Description

解析爬虫爬取的网页数据的方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种解析爬虫爬取的网页数据的方法及装置。

背景技术

大部分网页的HTML结构是table标签。网络爬虫爬取到网页数据后，根据页面table标签遍历tr、td，一行一列逐个进行数据解析，解析效率低，且重复代码多。

并且，假若网页改版，则需要重新编写解析代码。例如，对于社保信息的网页，若改版后姓名选项由原来的第一列变成了第二列，则原来的爬虫解析代码失效，需要重新编写代码。

如何提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码，是本领域技术人员亟需解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供解析爬虫爬取的网页数据的方法及装置，能够提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码。

第一方面，本发明提供一种解析爬虫爬取的网页数据的方法，该方法包括：

根据网页HTML结构中的table标签，提取网页数据；

根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中。

进一步地，根据网页HTML结构中的table标签，提取网页数据，具体包括：

根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，二维数组包括表的标题和明细数据；

根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中，具体包括：

根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中。

进一步地，生成二维数组之后，解析二维数组之前，该方法还包括：

对二维数组的数据进行清洗；

根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中，具体包括：

根据预定的类字段名称与表的标题的映射关系，对清洗后的二维数组进行解析，并将相应的明细数据映射到对应的类字段中。

进一步地，根据网页HTML结构中的table标签，提取网页数据之前，该方法还包括：爬取获得指定的网页HTML结构。

进一步地，根据预定的类字段名称与表的标题的映射关系，解析二维数组之前，该方法还包括：根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。

第二方面，本发明提供一种解析爬虫爬取的网页数据的装置，该装置包括提取模块和解析模块，提取模块用于根据网页HTML结构中的table标签，提取网页数据；解析模块用于根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中。

进一步地，提取模块根据网页HTML结构中的table标签，提取网页数据时，具体用于：根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，二维数组包括表的标题和明细数据；

解析模块根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中。

进一步地，本实施例解析爬虫爬取的网页数据的装置还包括数据清洗模块：用于对二维数组的数据进行清洗；

解析模块根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，对清洗后的二维数组进行解析，并将相应的明细数据映射到对应的类字段中。

进一步地，本实施例解析爬虫爬取的网页数据的装置还包括网页爬取模块：用于爬取获得指定的网页HTML结构。

进一步地，本实施例解析爬虫爬取的网页数据的装置还包括映射关系建立模块：用于根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。

由上述技术方案可知，本实施例提供的解析爬虫爬取的网页数据的方法及装置，通过table标签提取网页数据，采用预定的类字段名称与网页数据的映射关系，将网页数据映射至类字段中，完成对网页数据的解析，提高网页数据的解析效率。并且，即使网页改版，解析代码仍能够对网页数据进行解析，用户无需重新编写代码，避免解析代码失效的现象。

因此，本实施例解析爬虫爬取的网页数据的方法及装置，能够提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的一种解析爬虫爬取的网页数据的方法的方法流程图；

图2示出了本发明所提供的一种解析爬虫爬取的网页数据的装置的结构框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面，本发明实施例所提供的一种解析爬虫爬取的网页数据的方法，结合图1，该方法包括：

步骤S1：根据网页HTML结构中的table标签，提取网页数据。

步骤S2：根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中，即采用java反射机制，将网页数据映射到预定义的类字段中。

例如，爬取并解析社保公积金网页的数据时，假设社保公积金网页的表格如下：

姓名	社保号	缴费年限	缴费金额
				小红	111111	3	55
小兰	222222	2	22

采用网页HTML结构中的table标签，提取网页数据，将表标题中“姓名”的数据，映射到字段名为“name”的字段中。

由上述技术方案可知，本实施例提供的解析爬虫爬取的网页数据的方法，通过table标签提取网页数据，采用预定的类字段名称与网页数据的映射关系，将网页数据映射至类字段中，完成对网页数据的解析，提高网页数据的解析效率。并且，即使网页改版，解析代码仍能够对网页数据进行解析，用户无需重新编写代码，避免解析代码失效的现象。

因此，本实施例解析爬虫爬取的网页数据的方法，能够提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码。

为了进一步提高本实施例解析爬虫爬取的网页数据的方法的准确性，具体地，在网页数据的提取与解析方面，根据网页HTML结构中的table标签，提取网页数据时，具体实现过程为：

根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，二维数组包括表的标题和明细数据。其中，二维数组的基本信息包括表的标题和信息；二维数组的明细信息为表的标题和多条明细数据。

根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中时，具体实现过程为：

在此，本实施例解析爬虫爬取的网页数据的方法，能够采用table标签识别并提取网页数据，生成二维数组，并采用类字段名称与表的标题的映射关系，将二维数组中的明细数据映射至对应的类字段中，提高数据映射的灵活度，代码的可读性好，缩短开发时间。

并且，生成二维数组之后，解析二维数组之前，本实施例解析爬虫爬取的网页数据的方法还能够对二维数组的数据进行清洗，例如，清洗二维数组中的空格、冒号等特殊字符。

根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中时，具体实现过程为：根据预定的类字段名称与表的标题的映射关系，对清洗后的二维数组进行解析，并将相应的明细数据映射到对应的类字段中。

在此，本实施例解析爬虫爬取的网页数据的方法，能够对二维数组进行清洗，避免数据错误或数据冲突，避免在数据映射过程中出现错误，提高数据解析的准确度。

同时，根据网页HTML结构中的table标签，提取网页数据之前，本实施例解析爬虫爬取的网页数据的方法还能够爬取获得指定的网页HTML结构。如爬取获取社保公积金网页HTML结构。

在此，本实施例解析爬虫爬取的网页数据的方法能够爬取不同网页HTML结构，进而提取网页数据，实现对不同网页数据的解析。

具体地，在映射关系建立方面，在根据预定的类字段名称与表的标题的映射关系，解析二维数组之前，本实施例解析爬虫爬取的网页数据的方法还能够根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。

在此，本实施例解析爬虫爬取的网页数据的方法能够根据类字段名称和标题的语意，建立相应的映射关系，便于对网页数据进行解析，提高数据解析的灵活度，避免页面改版导致解析代码失效的现象，无需重复编写解析代码。

本发明实施例所提供的另一种解析爬虫爬取的网页数据的方法，在此，以爬取并解析社保公积金网页数据为例，进行说明：

爬取获得社保公积金网页HTML结构。

根据table标签，提取HTML结构中的数据，如识别并提取基本信息及明细数据，生成二维数组。其中，二维数组的基本信息包括表的标题和信息；二维数组的明细信息为表的标题和多条明细数据。

假设社保公积金网页的表格如下：

其中，第一行即为标题，第二、三行均为明细数据。

其中，HTML表结构如下：

对二维数组中的数据进行清洗，例如，对空格、冒号等特殊字符进行清洗。

利用java反射机制，根据预定的类字段名称与表的标题的映射关系，解析清洗后的二维数组，并将该标题相应的数据映射到对应的类字段中。例如，预先定义了表的标题“姓名”与类字段名“name”存在映射关系，则将标题为“姓名”的数据映射到字段名为“name”的字段中。

第二方面，本发明实施例提供一种解析爬虫爬取的网页数据的装置，结合图2，该装置包括提取模块1和解析模块2，提取模块1用于根据网页HTML结构中的table标签，提取网页数据。解析模块2用于根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中。

由上述技术方案可知，本实施例提供的解析爬虫爬取的网页数据的装置，通过table标签提取网页数据，采用预定的类字段名称与网页数据的映射关系，将网页数据映射至类字段中，完成对网页数据的解析，提高网页数据的解析效率。并且，即使网页改版，解析代码仍能够对网页数据进行解析，用户无需重新编写代码，避免解析代码失效的现象。

因此，本实施例解析爬虫爬取的网页数据的装置，能够提高爬虫爬取的网页数据的解析效率，无需重复编写解析代码。

为了进一步提高本实施例解析爬虫爬取的网页数据的装置的准确性，具体地，在网页数据的提取与解析方面，提取模块1根据网页HTML结构中的table标签，提取网页数据时，具体用于：根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，二维数组包括表的标题和明细数据。

解析模块2根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中。

在此，本实施例解析爬虫爬取的网页数据的装置，能够采用table标签识别并提取网页数据，生成二维数组，并采用类字段名称与表的标题的映射关系，将二维数组中的明细数据映射至对应的类字段中，提高数据映射的灵活度，代码的可读性好，缩短开发时间。

并且，本实施例解析爬虫爬取的网页数据的装置还包括数据清洗模块，数据清洗模块用于对二维数组的数据进行清洗。解析模块2根据预定的类字段名称与表的标题的映射关系，解析二维数组，并将相应的明细数据映射到对应的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，对清洗后的二维数组进行解析，并将相应的明细数据映射到对应的类字段中。

在此，本实施例解析爬虫爬取的网页数据的装置，能够对二维数组进行清洗，避免数据错误或数据冲突，避免在数据映射过程中出现错误，提高数据解析的准确度。

同时，本实施例解析爬虫爬取的网页数据的装置还包括网页爬取模块，网页爬取模块用于爬取获得指定的网页HTML结构。如爬取获取社保公积金网页HTML结构。

在此，本实施例解析爬虫爬取的网页数据的装置能够爬取不同网页HTML结构，进而提取网页数据，实现对不同网页数据的解析。

具体地，在映射关系建立方面，本实施例解析爬虫爬取的网页数据的装置还包括映射关系建立模块，映射关系建立模块用于根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。

在此，本实施例解析爬虫爬取的网页数据的装置能够根据类字段名称和标题的语意，建立相应的映射关系，便于对网页数据进行解析，提高数据解析的灵活度，避免页面改版导致解析代码失效的现象，无需重复编写解析代码。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的服务器、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的服务器来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的配置装置可以是计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的服务器、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的服务器、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个服务器，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以发布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种解析爬虫爬取的网页数据的方法，其特征在于，包括：

根据网页HTML结构中的table标签，提取网页数据；

根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中；

根据网页HTML结构中的table标签，提取网页数据，具体包括：

根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，所述二维数组包括表的标题和明细数据；其中，二维数组的基本信息包括表的标题和信息；二维数组的明细信息为表的标题和多条明细数据；

根据预定的类字段名称与表的标题的映射关系，解析所述二维数组，并将相应的明细数据映射到对应的类字段中。

2.根据权利要求1所述解析爬虫爬取的网页数据的方法，其特征在于，

生成二维数组之后，解析二维数组之前，该方法还包括：

对所述二维数组的数据进行清洗；

根据预定的类字段名称与表的标题的映射关系，解析所述二维数组，并将相应的明细数据映射到对应的类字段中，具体包括：

3.根据权利要求1所述解析爬虫爬取的网页数据的方法，其特征在于，

根据网页HTML结构中的table标签，提取网页数据之前，该方法还包括：爬取获得指定的网页HTML结构。

4.根据权利要求1所述解析爬虫爬取的网页数据的方法，其特征在于，

根据预定的类字段名称与表的标题的映射关系，解析所述二维数组之前，该方法还包括：根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。

5.一种解析爬虫爬取的网页数据的装置，其特征在于，包括：

提取模块：用于根据网页HTML结构中的table标签，提取网页数据；

解析模块：用于根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中；

所述提取模块，根据网页HTML结构中的table标签，提取网页数据时，具体用于：根据指定的网页HTML结构中的table标签，提取该指定的网页HTML结构中的数据，生成二维数组，所述二维数组包括表的标题和明细数据；其中，二维数组的基本信息包括表的标题和信息；二维数组的明细信息为表的标题和多条明细数据；

所述解析模块，根据预定的类字段名称与网页数据的映射关系，将提取得到的网页数据解析映射到预定义的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，解析所述二维数组，并将相应的明细数据映射到对应的类字段中。

6.根据权利要求5所述解析爬虫爬取的网页数据的装置，其特征在于，该装置还包括数据清洗模块：用于对所述二维数组的数据进行清洗；

所述解析模块，根据预定的类字段名称与表的标题的映射关系，解析所述二维数组，并将相应的明细数据映射到对应的类字段中时，具体用于：根据预定的类字段名称与表的标题的映射关系，对清洗后的二维数组进行解析，并将相应的明细数据映射到对应的类字段中。

7.根据权利要求5所述解析爬虫爬取的网页数据的装置，其特征在于，该装置还包括网页爬取模块：用于爬取获得指定的网页HTML结构。

8.根据权利要求5所述解析爬虫爬取的网页数据的装置，其特征在于，该装置还包括映射关系建立模块：用于根据类字段名称和标题的语意，建立类字段名称与标题的映射关系。