CN106649357A

CN106649357A - 用于爬虫程序的数据处理方法及装置

Info

Publication number: CN106649357A
Application number: CN201510728968.0A
Authority: CN
Inventors: 杨杰
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-10

Abstract

本发明公开了一种用于爬虫程序的数据处理方法及装置。其中，该方法包括：获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式；获取待爬取任务中各个待爬取资源的数据格式；分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取。本发明解决了由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的技术问题。

Description

用于爬虫程序的数据处理方法及装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种用于爬虫程序的数据处理方法及装置。

背景技术

在利用爬虫程序爬取网站上的信息时，由于爬虫程序获取到的数据的类型很多，而其中有一些不需要的数据经常会影响爬虫程序的工作效率。例如，爬虫程序在对某些网站进行爬取数据时，只需爬取网页中的文本信息。但是，由于网页中包含了图片、视频等不需要类型的文件，因此，爬虫程序会在爬取网页中的文本信息时，还会对网页中包含的图片、视频等文件也进行爬取。

在现有方案中，爬虫程序通常是通过HTTP请求，接收服务器返回的应答头(Content-Type)，来确定网页中所包含的资源的文件类型。根据文件类型，判断是否是需要进行爬取的文件。这种方法的缺点主要有两个：

1、在现有方案中，爬虫无法预先识别请求的资源是否满足当前系统需求，所以需要先进行HTTP级别的资源请求，这样会间接的消耗服务器的网络资源。

2、在现有方案中，爬虫程序的灵活度不够。如果当前系统修改了所需要的资源的类型时，爬虫程序需要重新进行编译后才能投入使用，操作复杂。

针对上述的由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种用于爬虫程序的数据处理方法及装置，以至少解决由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的技术问题。

根据本发明实施例的一个方面，提供了一种用于爬虫程序的数据处理方法，包括：获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式；获取待爬取任务中各个待爬取资源的数据格式；分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取。

进一步地，获取待爬取任务中各个待爬取资源的数据格式包括：获取待爬取任务；对待爬取任务对应的任务链接进行第一解析，得到待爬取任务中包含的各个待爬取资源和与每一个待爬取资源对应的资源链接；对资源链接进行第二解析，得到与待爬取资源对应的数据格式。

进一步地，对资源链接进行第二解析，得到与待爬取资源对应的数据格式包括：按照预先设置的解析规则，获取资源链接中预定位置的字段信息；以及根据字段信息，确定各个待爬取资源的数据格式。

进一步地，在获取待爬取任务中各个待爬取资源的数据格式之后，方法还包括：对数据格式与目标数据格式不相同的爬取资源进行过滤。

进一步地，在获取预先设置的爬虫配置信息之前，方法还包括：

获取目标爬取资源的目标数据格式；以及根据目标数据格式，按照预定格式生成爬虫配置信息。

根据本发明实施例的另一方面，还提供了一种用于爬虫程序的数据处理装置，包括：第一获取模块，用于获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式；第二获取模块，用于获取待爬取任务中各个待爬取资源的数据格式；爬取模块，用于分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取。

进一步地，第二获取模块包括：第一子获取模块，用于获取待爬取任务；第一子解析模块，用于对待爬取任务对应的任务链接进行第一解析，得到待爬取任务中包含的各个待爬取资源和与每一个待爬取资源对应的资源链接；第二子解析模块，用于对资源链接进行第二解析，得到与待爬取资源对应的数据格式。

进一步地，第二子解析模块包括：第二子获取模块，用于按照预先设置的解析规则，获取资源链接中预定位置的字段信息；子确定模块，用于根据字段信息，确定各个待爬取资源的数据格式。

进一步地，装置还包括：过滤模块，用于对数据格式与目标数据格式不相同的爬取资源进行过滤。

进一步地，装置还包括：第三获取模块，用于获取目标爬取资源的目标数据格式；生成模块，用于根据目标数据格式，按照预定格式生成爬虫配置信息。

在本发明实施例中，采用获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式；获取待爬取任务中各个待爬取资源的数据格式；分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取的方式，达到了根据数据格式对爬取的资源内容进行筛选的目的，从而实现了提升服务器网络资源利用率的技术效果，进而解决了由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于爬虫程序的数据处理方法的流程示意图；

图2是根据本发明实施例的一种用于爬虫程序的数据处理装置的示意图；

图3是根据本发明实施例的一种可选的用于爬虫程序的数据处理装置的示意图；以及

图4是根据本发明实施例的一种可选的用于爬虫程序的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种用于爬虫程序的数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的用于爬虫程序的数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S21，获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式。

具体的，在步骤S21中，对爬虫配置信息进行获取，从而使爬虫程序可以根据配置信息中记录的规则对网络资源进行爬取。在爬虫配置信息中，至少包含有用于记录爬虫程序爬取的数据的格式信息。

步骤S23，获取待爬取任务中各个待爬取资源的数据格式。

具体的，在待爬取任务对应的网页信息中，通常包括了文本信息、图像信息、动态多媒体信息等多种类型的多个文件。因此，可以通过步骤S23，获取在待爬取任务中包含的与待爬取任务对应的待爬取资源的数据格式。

步骤S25，分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取。

具体的，在步骤S25中，可以将待爬取资源的数据格式目标数据格式一一进行比对，从而判断待爬取资源的数据格式是否与待爬取资源匹配。进一步的，将数据格式与待爬取资源匹配的待爬取资源进行爬取。

在实际应用当中，既可以将需要爬取的格式作为目标数据格式，设置于爬虫配置信息当中，也可以将不需要爬取的格式作为目标数据格式，设置于爬虫配置信息当中。从而通过爬虫配置信息，控制爬虫程序是否对待爬取资源进行爬取。

其中，通过上述步骤S21至步骤S25，将待爬取任务中包含的待爬取资源的数据格式，与预先设置的爬虫配置信息中的目标爬取资源的目标数据格式进行比对，从而判断是否对待爬取资源进行爬取。达到了根据数据格式对爬取的资源内容进行筛选的目的，从而实现了提升服务器网络资源利用率的技术效果，进而解决了由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的技术问题。

作为一种可选的实施方式，在步骤S23获取待爬取任务中各个待爬取资源的数据格式中，可以包括：

步骤S231，获取所述待爬取任务。

步骤S233，对所述待爬取任务对应的任务链接进行第一解析，得到所述待爬取任务中包含的所述各个待爬取资源和与每一个所述待爬取资源对应的资源链接。

步骤S235，对所述资源链接进行第二解析，得到与所述待爬取资源对应的数据格式。

具体的，通过步骤S231至步骤S235，对获取到的待爬取任务进行第一解析，从而确定待爬取任务中所包含的全部资源内容和与资源内容对应的资源链接。进一步，利用通过第一解析确定的与待爬取资源对应的资源链接，通过第二解析，确定与待爬取资源对应的数据格式。

作为一种可选的实施方式，在步骤S235对资源链接进行第二解析，得到与待爬取资源对应的数据格式中，还可以包括：

步骤S2351，按照预先设置的解析规则，获取资源链接中预定位置的字段信息。

步骤S2355，根据字段信息，确定各个待爬取资源的数据格式。

具体的，通过步骤S2351至步骤S2355，按照预先设置的解析规则对与资源内容对应的资源链接进行解析，确定在资源链接中预定位置的字段信息。通过获取到的预定位置的字段信息，即可判断资源内容的资源数据格式。

在实际应用当中，通常资源链接中会包含资源内容的存储路径以及资源内容的名称。在资源内容的名称中包含有资源内容的资源数据格式，并且在名称中的名称信息和资源数据格式之间，以点做区分。

具体的，可以通过对资源链接中所包含的字符，从后向前的顺序依次对字符进行识别，当识别到第一个“点”符号的字符时，获取“点”符号后面的字符，即资源内容的资源数据格式。

作为一种可选的实施方式，在步骤S23获取待爬取任务中各个待爬取资源的数据格式之后，方法还包括：

步骤S24，对数据格式与目标数据格式不相同的爬取资源进行过滤。

具体的，通过步骤S24，将根据待爬取任务中包含的与爬虫配置信息记载的目标数据格式不匹配的待爬取资源进行筛选，从而得到需要进行爬取的待爬取资源。

作为一种可选的实施方式，在步骤S21获取预先设置的爬虫配置信息之前，上述方法还包括：

步骤S201，获取目标爬取资源的目标数据格式。

步骤S203，根据目标数据格式，按照预定格式生成爬虫配置信息。

具体的，通过步骤S201至步骤S203，在对待爬取资源进行爬取之前，将需要爬取的目标爬取资源的目标数据格式设置于爬虫配置信息中。从而控制爬虫程序根据爬虫配置信息对爬取的资源内容进行筛选。

作为一种可选的实施方式，爬虫配置信息可以设置于爬虫程序之外，以独立的配置文件的形式进行保存。当需要对爬虫程序爬取的目标爬取资源的目标数据格式进行更改时，只需对配置文件中的参数进行修改即可。从而解决了在修改所需要的待爬取数据格式时，还需要重新对爬虫程序进行编译后才能投入使用的问题。

作为一种可选的实施方式，在实际应用当中，具体实施步骤包括：

步骤S1，在爬虫程序启动时，读取配置文件并将需要爬取的文件类型保存到内存当中，其中，可以在启动爬虫程序之前，将需要爬取的目标爬取资源的文件类型写入配置文件中。

步骤S2，在爬虫程序爬取资源时，将当前爬取的资源的文件类型与内存当中需要爬取的文件类型进行一一对比。对符合需要爬取的文件类型的资源进行爬取，否则进行过滤。

通过在爬虫程序进行爬取过程之前，额外引入一个对文件类型进行判断的机制。该机制即为：判断将要爬取的URL的结尾包含的文件类型是否为指定的文件类型。例如，URL结尾的文件类型是否为.html/.htm类型等。如果符合条件则进行爬取，如果不符合条件则过滤掉该资源内容。

本发明实施例还提供了一种用于爬虫程序的数据处理装置。其中，需要说明的是，本发明实施例的用于爬虫程序的数据处理装置可以用于执行本发明实施例所提供的用于爬虫程序的数据处理方法，本发明实施例的用于爬虫程序的数据处理方法也可以通过本发明实施例所提供的用于爬虫程序的数据处理装置来执行。

图2是根据本发明实施例的用于爬虫程序的数据处理装置的结构示意图。如图2所示，该装置包括：第一获取模块21、第二获取模块23和爬取模块25。

其中，第一获取模块21，用于获取预先设置的爬虫配置信息，其中，爬虫配置信息用于记录目标爬取资源的目标数据格式；第二获取模块23，用于获取待爬取任务中各个待爬取资源的数据格式；爬取模块25，用于分别判断各个待爬取资源的数据格式是否与目标数据格式相同，并对数据格式与目标数据格式相同的待爬取资源进行爬取。

其中，通过上述第一获取模块21、第二获取模块23和爬取模块25，将待爬取任务中包含的待爬取资源的数据格式，与预先设置的爬虫配置信息中的目标爬取资源的目标数据格式进行比对，从而判断是否对待爬取资源进行爬取。达到了根据数据格式对爬取的资源内容进行筛选的目的，从而实现了提升服务器网络资源利用率的技术效果，进而解决了由于爬虫程序无法对爬取到的数据的类型进行筛选，造成的用于部署爬虫程序的服务器资源浪费的技术问题。

作为一种可选的实施方式，在上述第二获取模块23中，可以包括：第一子获取模块231、第一子解析模块233和第二子解析模块235。

其中，第一子获取模块231，用于获取待爬取任务；第一子解析模块233，用于对待爬取任务对应的任务链接进行第一解析，得到待爬取任务中包含的各个待爬取资源和与每一个待爬取资源对应的资源链接；第二子解析模块235，用于对资源链接进行第二解析，得到与待爬取资源对应的数据格式。

具体的，通过上述第一子获取模块231、第一子解析模块233和第二子解析模块235，对获取到的待爬取任务进行第一解析，从而确定待爬取任务中所包含的全部资源内容和与资源内容对应的资源链接。进一步，利用通过第一解析确定的与待爬取资源对应的资源链接，通过第二解析，确定与待爬取资源对应的数据格式。

作为一种可选的实施方式，第二子解析模块235包括：第二子获取模块2351和子确定模块2353。

其中，第二子获取模块2351，用于按照预先设置的解析规则，获取资源链接中预定位置的字段信息；子确定模块2353，用于根据字段信息，确定各个待爬取资源的数据格式。

具体的，通过上述第二子获取模块2351和子确定模块2353，按照预先设置的解析规则对与资源内容对应的资源链接进行解析，确定在资源链接中预定位置的字段信息。通过获取到的预定位置的字段信息，即可判断资源内容的资源数据格式。

作为一种可选的实施方式，如图3所示，上述装置还包括：过滤模块24。其中，过滤模块24，用于对数据格式与目标数据格式不相同的爬取资源进行过滤。

具体的，通过上述过滤模块24，将根据待爬取任务中包含的与爬虫配置信息记载的目标数据格式不匹配的待爬取资源进行筛选，从而得到需要进行爬取的待爬取资源。

作为一种可选的实施方式，如图4所示，上述装置还包括：第三获取模块201和生成模块203。

其中，第三获取模块201，用于获取目标爬取资源的目标数据格式；生成模块203，用于根据目标数据格式，按照预定格式生成爬虫配置信息。

具体的，通过上述第三获取模块201和生成模块203，在对待爬取资源进行爬取之前，将需要爬取的目标爬取资源的目标数据格式设置于爬虫配置信息中。从而控制爬虫程序根据爬虫配置信息对爬取的资源内容进行筛选。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于爬虫程序的数据处理方法，其特征在于，包括：

获取预先设置的爬虫配置信息，其中，所述爬虫配置信息用于记录目标爬取资源的目标数据格式；

获取待爬取任务中各个待爬取资源的数据格式；以及

分别判断所述各个待爬取资源的数据格式是否与所述目标数据格式相同，并对数据格式与所述目标数据格式相同的待爬取资源进行爬取。

2.根据权利要求1所述的方法，其特征在于，获取待爬取任务中各个待爬取资源的数据格式包括：

获取所述待爬取任务；

对所述待爬取任务对应的任务链接进行第一解析，得到所述待爬取任务中包含的所述各个待爬取资源和与每一个所述待爬取资源对应的资源链接；以及

对所述资源链接进行第二解析，得到与所述待爬取资源对应的数据格式。

3.根据权利要求2所述的方法，其特征在于，对所述资源链接进行第二解析，得到与所述待爬取资源对应的数据格式包括：

按照预先设置的解析规则，获取所述资源链接中预定位置的字段信息；以及

根据所述字段信息，确定各个待爬取资源的数据格式。

4.根据权利要求1所述的方法，其特征在于，在获取待爬取任务中各个待爬取资源的数据格式之后，所述方法还包括：

对所述数据格式与所述目标数据格式不相同的爬取资源进行过滤。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，在获取预先设置的爬虫配置信息之前，所述方法还包括：

获取所述目标爬取资源的所述目标数据格式；以及

根据所述目标数据格式，按照预定格式生成所述爬虫配置信息。

6.一种用于爬虫程序的数据处理装置，其特征在于，包括：

第一获取模块，用于获取预先设置的爬虫配置信息，其中，所述爬虫配置信息用于记录目标爬取资源的目标数据格式；

第二获取模块，用于获取待爬取任务中各个待爬取资源的数据格式；以及

爬取模块，用于分别判断所述各个待爬取资源的数据格式是否与所述目标数据格式相同，并对数据格式与所述目标数据格式相同的待爬取资源进行爬取。

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块包括：

第一子获取模块，用于获取所述待爬取任务；

第一子解析模块，用于对所述待爬取任务对应的任务链接进行第一解析，得到所述待爬取任务中包含的所述各个待爬取资源和与每一个所述待爬取资源对应的资源链接；以及

第二子解析模块，用于对所述资源链接进行第二解析，得到与所述待爬取资源对应的数据格式。

8.根据权利要求7所述的装置，其特征在于，所述第二子解析模块包括：

第二子获取模块，用于按照预先设置的解析规则，获取所述资源链接中预定位置的字段信息；以及

子确定模块，用于根据所述字段信息，确定各个待爬取资源的数据格式。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

过滤模块，用于对所述数据格式与所述目标数据格式不相同的爬取资源进行过滤。

10.根据权利要求6至9中任意一项所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取所述目标爬取资源的所述目标数据格式；以及

生成模块，用于根据所述目标数据格式，按照预定格式生成所述爬虫配置信息。