CN113971234A

CN113971234A - 一种数据爬取方法、装置、电子设备及存储介质

Info

Publication number: CN113971234A
Application number: CN202111257743.3A
Authority: CN
Inventors: 张晓波
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd; Hubei Topsec Network Security Technology Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd; Hubei Topsec Network Security Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-25
Anticipated expiration: 2041-10-27
Also published as: CN113971234B

Abstract

本申请实施例提供一种数据爬取方法、装置、电子设备及存储介质，涉及互联网技术领域。该方法包括获取需要渲染的网页的URL；将所述URL封装成工作队列；依次访问所述工作队列进行页面数据爬取并将所述页面中的所有浏览器事件封装成新的工作队列，直至所有的工作队列被访问完毕，可自动化触发浏览器事件，从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。

Description

一种数据爬取方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种数据爬取方法、装置、电子设备及存储介质。

背景技术

现有的爬虫程序需要配置一个起始URL，爬虫程序启动后，会请求起始URL来获取页面，获取到页面后，会从页面中提取出新的URL，然后重复上述过程，直到没有新URL出现为止。但是此方案无法应用于SPA这种类型的站点，因为SPA站点只有一个URL，而且无法触发浏览器事件导致部分页面无法获取。

发明内容

本申请实施例的目的在于提供一种数据爬取方法、装置、电子设备及存储介质，可自动化触发浏览器事件，从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。

本申请实施例提供了一种数据爬取方法，所述方法包括：

获取需要渲染的网页的URL；

将所述URL封装成工作队列；

依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列，直至所有的Job被访问完毕。

在上述实现过程中，将爬取的目标由URL转向了浏览器事件，通过提取浏览器事件并触发的方式，获取到动态加载之后的页面；并将页面中的浏览器事件进行封装，通过访问工作队列中的所有的Job，可获得当前URL对应的所有页面，从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。

进一步地，所述Job包括URL和事件列表，所述依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列，包括：

加载Job中的URL并回放所述事件列表中的所有事件，以生成页面；

将所述页面存入页面队列；

提取所述页面中的所有事件，并将所述事件封装成新Job的当前事件，所述新Job的先序事件为上一个Job的所有事件。

在上述实现过程中，可以通过请求URL后回放所有的事件来获取这个页面，这样就能够保证爬虫程序能够获取到深层次的页面。因此，可以对SPA站点进行比较完全的爬取。

进一步地，所述回放所述事件列表中的所有事件，以生成页面，包括：

通过代理服务器重写的addEventListener函数获取当前页面上已注册的所有事件；

通过浏览器控制接口触发事件，以生成所述页面。

在上述实现过程中，解决了浏览器事件的提取和触发问题，从而能够对SPA站点进行深层次的爬取。

进一步地，在所述将所述页面中的所有浏览器事件封装成新的工作队列的步骤之前，所述方法还包括：

对所述浏览器事件进行去重操作。

在上述实现过程中，通过去重操作可避免重复保存同一网页。

本申请实施例还提供一种数据爬取装置，所述装置包括：

URL模块，用于获取需要渲染的网页的URL；

封装模块，用于将所述URL封装成工作队列；

访问模块，用于依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并加入所述工作队列，直至所有的Job被访问完毕。

在上述实现过程中，将爬取的目标由URL转向了浏览器事件，通过提取浏览器事件并触发的方式，获取到动态加载之后的页面；并将页面中的浏览器事件进行封装，通过访问所有的工作队列，可获得当前URL对应的所有页面，从而解决现有方法无法爬取单一URL站点以及无法触发浏览器事件导致部分页面无法获取的问题。

进一步地，所述工作队列包括URL和事件列表，所述事件列表包括先序事件和当前事件，所述访问模块包括：

页面生成模块，用于加载所述URL并回放所述事件列表中的所有事件，以生成页面；

存储模块，用于将所述页面存入页面队列；

提取模块，用于提取所述页面中的所有事件，并将所述事件封装成新Job的当前事件，所述新Job的先序事件为上一个Job的所有事件。

进一步地，所述页面生成模块包括：

事件提取模块，用于通过代理服务器重写的addEventListener函数获取当前页面上已注册的所有事件；

事件触发模块，用于通过浏览器控制接口触发事件，以生成所述页面。

进一步地，所述装置还包括：

去重模块，用于对所述浏览器事件进行去重操作。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的数据爬取方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的数据爬取方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种数据爬取方法的流程图；

图2为本申请实施例提供的现有的网页爬取流程图；

图3为本申请实施例提供的工作队列的封装和访问流程图；

图4为本申请实施例提供的网页的爬取流程图；

图5为本申请实施例提供的浏览器事件的提取和触发的实现流程图；

图6为本申请实施例提供的一种数据爬取装置的结构框图；

图7为本申请实施例提供的另一种数据爬取装置的结构框图。

图标：

100-URL模块；200-封装模块；300-访问模块；310-页面生成模块；311-事件提取模块；312-事件触发模块；320-存储模块；330-提取模块；400-去重模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本申请实施例提供的一种数据爬取方法的流程图。对于现有的爬取方法，如图2所示，为现有的网页爬取流程图，从URL队列中获取一个URL，将URL交给下载器去下载，将下载器获取到的响应放入浏览器中渲染，将渲染完成的页面放入页面队列，从页面队列中获取一个页面，并从页面中提取URL，重复上述操作，直至URL队列和页面队列都为空为止。

对于部分SPA站点来说，在和用户进行交互时，其URL是完全不变的，这就导致爬虫程序可能只获取到首页，更深层次的页面无法获取；有的SPA站点的页面需要触发浏览器事件才能发现即新页面不再来源于URL，而是来源于浏览器事件，因此，本申请将爬取的目标由URL转向了浏览器事件，自动化触发浏览器事件，实现对SPA站点的深层页面的爬取。该方法具体包括以下步骤：

步骤S100：获取需要渲染的网页的URL；

步骤S200：将所述URL封装成工作队列；

工作队列中的Job包括URL(Uniform Resource Locator，统一资源定位符)和事件列表，事件列表包括先序事件和当前事件，将需要渲染的URL和事件列表封装成一个Job，此时事件列表为空。

Job封装了URL和事件列表这两种数据类型。所谓事件列表，指的是请求Job对应的URL之后需要与页面上的元素做的所有交互操作，如点击按钮A、填充某个输入框等操作。因此，单个事件必须保存需要交互的页面元素的定位信息(如XPATH、CSS选择器等)和事件类型(如click、keydown等)，获取到这两个信息后，就能够使用selenium、playwright等工具触发对应的事件。

通过封装事件列表，将爬取目标由URL转换成浏览器事件，保证对SPA站点的正常爬取。

步骤S300：依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列，直至所有的Job被访问完毕。

如图3所示，为工作队列的封装和访问流程图。该步骤具体包括：

步骤S310：获取Job并加载Job中的URL并回放所述事件列表中的所有事件，以生成页面；

步骤S320：将所述页面存入页面队列；

步骤S330：提取所述页面中的所有事件，并将所述事件封装成新Job，所述新Job的先序事件为上一个Job的所有事件。

新Job的先序事件就是前面Job里的所有事件，新Job的当前事件就是在前述生成页面中找到的所有事件。

如图4所示，为网页的爬取流程图，从Job队列中获得一个Job，使用浏览器加载该Job中的URL并回放事件，从而获取页面，将浏览器渲染完成的页面放入页面队列；从JavaScript的全局变量Events中提取当前浏览器的所有事件，去重后封装成Job，然后放入Job队列，再重复从Job队列中获得一个Job，重复上述过程，直到Job队列中没有Job为止，每一个网页对应一个Job，可确保访问了每一个URL对应的所有深层网页。

其中，执行一个Job就是请求Job对应的URL，然后回放事件列表中的所有事件的过程。每执行完一个Job，就能获取到一个页面。获取到页面后，需要从JavaScript的全局变量Events中获取到所有事件，每次将一个事件放入当前Job的事件列表中，封装成一个新的Job，然后重复上述操作，直至所有的事件都被封装成Job为止，即所述页面有多少个事件，就会产生多少个新的Job。通过保留页面的前序事件，能够进行事件回放，以获取SPA站点的内部页面，实现深层次的爬取。

对于去重操作，示例地，可以通过判断两个页面的哈希值是否相同来判断，如果哈希值不同，则说明为两个不同的页面，可进行保存，通过去重操作可避免重复保存同一页面，节省内存空间的占用。

对于浏览器事件的提取和触发的实现，如图5所示，为浏览器事件的提取和触发的实现流程图，具体如下：

步骤S311：通过代理服务器重写的addEventListener函数获取当前页面上已注册的所有事件；

JavaScript在给页面元素绑定事件时，往往会通过调用addEventListener函数来实现。因此，可以在页面加载之前重写addEventListener函数，在原有函数的基础上，添加获取绑定的元素和事件类型的逻辑，并将其保存在JavaScript的全局变量Events中，这样就能够获取到通过addEventListener函数注册的浏览器事件，该方式就解决了浏览器事件提取的问题。

此外，使用重写addEventListener函数的方式来拦截JavaScript的事件注册，能够准确高效的获取到浏览器事件。

重写的addEventListener函数可以获取当前页面上所有已注册了的事件(在得到新页面时，是通过addEventListener来找新页面上注册的事件，比方那种可点击的按钮)，这个事件就是上面新Job的当前事件。重写addEventListener函数具有多种方法，示例地，可采用给浏览器配置代理服务器的方式实现即浏览器与目标站点之间的所有的访问均需经过代理服务器，然后在代理服务器中注入重写的addEventListener函数的JavaScript代码来实现。

步骤S312：通过浏览器控制接口触发事件，以生成所述页面。

通过浏览器控制接口可以实现事件的触发，以生成页面。

触发浏览器事件可以借助Selenium、Playwright(一个用于Web应用程序测试的工具，可以用于操作浏览器)等工具，此类工具提供了用代码控制浏览器的接口。利用这些浏览器控制接口，可以使用代码实现创建新的浏览器页面、导航到特定URL、点击页面上的按钮、获取屏幕截图等功能。本申请可利用此类工具完成加载某个URL、触发页面元素的事件等操作，从而模仿人的操作，获取SPA站点的页面，实现浏览器事件的触发，能够自动化的爬取SPA站点，不需要人为干预。

综上，本申请针对SPA站点通过浏览器事件动态加载页面的特点，将爬取的目标由URL转向了浏览器事件。通过提取浏览器事件并触发的方式，获取到动态加载之后的页面，而且保存了一个页面的先序事件，可以通过请求URL后回放所有的先序事件来再次获取这个页面，这样就能够保证爬虫程序能够获取到深层页面。从而实现对SPA站点进行比较完全的爬取。

本申请实施例还提供一种数据爬取装置，如图6所示，为数据爬取装置的结构框图，所述装置具体包括但不限于：

URL模块100，用于获取需要渲染的网页的URL；

封装模块200，用于将所述URL封装成工作队列；

访问模块300，用于依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列，直至所有的Job被访问完毕。

如图7所示，为另一种数据爬取装置的结构框图，其中，访问模块300包括：

页面生成模块310，用于加载所述URL并回放所述事件列表中的所有事件，以生成页面；

存储模块320，用于将所述页面存入页面队列；

提取模块330，用于提取所述页面中的所有事件，并将所述事件封装成新Job的当前事件，所述新Job的先序事件为上一个Job的所有事件。

页面生成模块310包括：

事件提取模块311，用于通过代理服务器重写的addEventListener函数获取当前页面上已注册的所有事件；

事件触发模块312，用于通过浏览器控制接口触发事件，以生成所述页面。

所述装置还包括：

去重模块400，用于对所述浏览器事件进行去重操作。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请所述的数据爬取方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请所述的数据爬取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据爬取方法，其特征在于，所述方法包括：

获取需要渲染的网页的URL；

将所述URL封装成工作队列；

2.根据权利要求1所述的数据爬取方法，其特征在于，所述Job包括URL和事件列表，所述事件列表包括先序事件和当前事件，所述依次访问所述工作队列中的Job进行页面数据爬取并将所述页面中的所有浏览器事件封装成新Job并将所述新Job加入所述工作队列，包括：

将所述页面存入页面队列；

3.根据权利要求2所述的数据爬取方法，其特征在于，所述回放所述事件列表中的所有事件，以生成页面，包括：

通过浏览器控制接口触发事件，以生成所述页面。

4.根据权利要求1所述的数据爬取方法，其特征在于，在所述将所述页面中的所有浏览器事件封装成新的工作队列的步骤之前，所述方法还包括：

对所述浏览器事件进行去重操作。

5.一种数据爬取装置，其特征在于，所述装置包括：

URL模块，用于获取需要渲染的网页的URL；

封装模块，用于将所述URL封装成工作队列；

6.根据权利要求5所述的数据爬取装置，其特征在于，所述Job包括URL和事件列表，所述事件列表包括先序事件和当前事件，所述访问模块包括：

页面生成模块，用于加载Job中的URL并回放所述事件列表中的所有事件，以生成页面；

存储模块，用于将所述页面存入页面队列；

7.根据权利要求6所述的数据爬取装置，其特征在于，所述页面生成模块包括：

8.根据权利要求5所述的数据爬取装置，其特征在于，所述装置还包括：

去重模块，用于对所述浏览器事件进行去重操作。

9.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至4中任一项所述的数据爬取方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至4任一项所述的数据爬取方法。