CN113076460B

CN113076460B - 页面数据爬取方法、装置、设备和计算机可读存储介质

Info

Publication number: CN113076460B
Application number: CN202110496931.5A
Authority: CN
Inventors: 侯淑慧; 马维士; 李岩
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2024-06-14
Anticipated expiration: 2041-05-07
Also published as: CN113076460A

Abstract

本公开的实施例提供了页面数据爬取方法、装置、设备和计算机可读存储介质。所述方法包括：向待请求的目标页面中添加动态注入代码；在接收到针对所述目标页面的页面访问请求时，根据所述动态注入代码确定所述目标页面中的动态页面元素；爬取所述动态页面元素的页面数据。以此方式，可以在不需要用户手动点击该动态页面元素的基础上，即可自动确认页面中的所有动态元素，进而实现该动态页面元素对应的页面信息的自动爬取，从而确保页面内容全面获取，也优化了爬取速度和爬取性能。

Description

页面数据爬取方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例一般涉及互联网领域，并且更具体地，涉及页面数据爬取方法、装置、设备和计算机可读存储介质。

背景技术

随着互联网信息爆炸式增长，每一天互联网中的数据都呈现几何式的堆加。用户需要的信息往往会淹没于大量无关信息中，利用搜索引擎获取感兴趣的信息已经成为人们获取信息较为便捷的方式。作为搜索引擎的基础构件之一的网络爬虫，需要从互联网上搜集信息，为用户提供数据来源。搜索结果是否丰富、获得的信息是否没有重合，均与网络爬虫的效率紧密相关。

现在互联网中大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js(JavaScript)，并有Ajax渲染，然后这种动态页面中的动态页面元素有时需要用户手动点击才知道是动态元素，才能进一步获取该动态元素对应的页面内容，而一旦用户未点击该动态元素，页面内容将获取不全，爬取的数据信息较少，性能也较差。

发明内容

根据本公开的实施例，提供了一种页面数据爬取方案。

在本公开的第一方面，提供了一种面数据爬取方法。该方法包括：

向待请求的目标页面中添加动态注入代码；

在接收到针对所述目标页面的页面访问请求时，根据所述动态注入代码确定所述目标页面中的动态页面元素；

爬取所述动态页面元素的页面数据。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述动态注入代码确定所述目标页面中的动态页面元素，包括：

确定当前的页面爬取深度；

确定预先配置的最大页面爬取深度；

判断所述当前的页面爬取深度是否小于所述最大页面爬取深度；

若小于，则根据所述动态注入代码确定所述目标页面中的动态页面元素。

通过所述动态注入代码为所述目标页面生成的动态元素标记，确定所述动态页面元素，其中，

所述动态注入代码用于确定所述目标页面中的超链接或者可点击事件，并为所述超链接或者可点击事件生成所述动态元素标记。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

确定浏览器的属性信息和/或爬虫所需的信息；

根据所述浏览器的属性信息和/或爬虫所需的信息，生成所述动态注入代码。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述爬取所述动态页面元素的页面数据，包括：

遍历所述动态页面元素；

访问所述动态页面元素对应的所述目标页面的子页面。

获取所述动态页面元素对应的所述目标页面的子页面的URL信息以及所述目标页面的URL信息；

将所述子页面的URL信息以及所述目标页面的URL信息存储至待解析的URL列表中；

将所述待解析的URL列表进行去重操作。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在访问所述动态页面元素对应的子页面之后，所述方法还包括：

将当前的页面爬取深度进行递增；

将所述子页面确定为所述待请求的目标页面。

在本公开的第二方面，提供了一种面数据爬取装置。该装置包括：

添加模块，用于向待请求的目标页面中添加动态注入代码；

确定模块，用于在接收到针对所述目标页面的页面访问请求时，根据所述动态注入代码确定所述目标页面中的动态页面元素；

爬取模块，用于爬取所述动态页面元素的页面数据。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的一种页面数据爬取方法的流程图；

图2示出了根据本公开的实施例的另一种页面数据爬取方法的流程图；

图3示出了根据本公开的实施例的页面数据爬取装置的方框图；

图4示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，可根据页面中添加的动态注入代码确定所述目标页面中的动态页面元素，然后自动爬取该动态页面元素的页面数据，从而在不需要用户手动确认动态页面元素的基础上，确保页面内容全面获取，也优化了爬取速度和爬取性能。

图1示出了能够在其中实现本公开的实施例的页面数据爬取方法100的流程图。该方法100包括：

步骤A1，向待请求的目标页面中添加动态注入代码；

动态注入代码用于为遍历目标页面中的所有元素，然后确认动态页面元素，并为动态页面元素添加动态元素标记。

目标页面为浏览器中可访问的任一页面。

步骤A2，在接收到针对所述目标页面的页面访问请求时，根据所述动态注入代码确定所述目标页面中的动态页面元素；

动态页面元素可以是超链接或者任何可以触发(如点击、滑动等)的控件。页面访问请求可以来自用户的点击等触控操作或者在地址栏中输入URL((Uniform ResourceLocator,统一资源定位器))地址的操作等。

步骤A3，爬取所述动态页面元素的页面数据。

通过提前为目标页面添加动态注入代码，可在接收到针对该目标页面的页面访问请求时，根据该动态注入代码自动确定目标页面中的动态页面元素，进而自动爬取该动态页面元素的页面数据，从而实现在不需要用户手动点击该动态页面元素的基础上，即可自动确认页面中的所有动态元素，进而实现该动态页面元素对应的页面信息的自动爬取，从而确保页面内容全面获取，也优化了爬取速度和爬取性能。

当然，目标页面中的非动态页面元素对应的页面内容的爬取仍然可采用现有的方式，本公开不再赘述。

在一个实施例中，所述根据所述动态注入代码确定所述目标页面中的动态页面元素，包括：

确定当前的页面爬取深度；

确定预先配置的最大页面爬取深度；

最大页面爬取深度可根据需求，自由配置。

当该当前的页面爬取深度小于预先配置的最大页面爬取深度时，说明爬取深度还未达到最大配置，还可以继续根据动态注入代码确定该目标页面中的动态页面元素，进而便于之后访问目标页面的子页面；反之，如果不小于，则说明当前的页面爬取深度已经达到了该最大页面爬取深度，则没必要再确定目标页面中的动态页面元素。

动态注入代码用于模仿用户操作遍历目标页面，以确定目标页面中的动态页面元素，然后为动态页面元素添加动态元素标记，以便于在用户真正访问目标页面时，可通过该动态元素标记自动确认该目标页面中有哪些动态页面元素，进而便于快速访问该动态页面元素对应的子页面。

其次，动态元素标记添加完成之后，可将动态元素标记与动态页面元素对应存储在浏览器日志中，如此，在接收到页面访问请求时，可通过该浏览器日志中动态注入代码生成的动态元素标记自动确定该动态页面元素，进而实现该动态页面元素对应的子页面的自动访问。

另外，动态页面元素即有动态内容(如动态视频)的标签，可以是一个或多个，且动态页面元素包括但不限于超链接、可点击事件还可以是可滑动事件等触发后可实现页面加载的标签。动态注入代码也可以是JavaScript。动态元素标记即标签的ID标记等唯一标识。

在一个实施例中，所述方法还包括：

确定浏览器的属性信息和/或爬虫所需的信息；

浏览器的属性信息可以是浏览器的版本等。爬虫所需的信息通常为标签的唯一标识。

通过综合所述浏览器的属性信息和/或爬虫所需的信息这两项因素，可自动生成适合该浏览器的通用动态注入代码，这样可为该浏览器上的每个页面添加该动态注入代码，从而在用户打开任一页面后均可自动触发该任一页面中的动态页面元素以提高爬取性能并确保爬取内容的完整性和全面性。

在一个实施例中，所述爬取所述动态页面元素的页面数据，包括：

遍历所述动态页面元素；

访问所述动态页面元素对应的所述目标页面的子页面。

爬取动态页面元素的页面数据的过程即通过模仿用户点击或者模仿用户滑动等方式遍历该动态页面元素，然后自动访问该动态页面元素对应的所述目标页面的子页面。

在一个实施例中，所述方法还包括：

将所述子页面的URL(Uniform Resource Locator,统一资源定位器)信息以及所述目标页面的URL信息存储至待解析的URL列表中；

将所述待解析的URL列表进行去重操作。

通过将目标页面的URL信息以及该目标页面的子页面的URL信息存储至待解析的URL列表中，便于之后自动地对待解析的URL列表去重，以避免在对URL列表进行异常筛选等各种操作时出现重复操作。

去重算法可以采用基于内存的URL去重方式，爬虫将系统URL全部放在内存中，并使用一个易于查找的数据结构(如哈希表)进行维护，通过哈希值和__dict__属性来判断。

在一个实施例中，在访问所述动态页面元素对应的子页面之后，所述方法还包括：

将当前的页面爬取深度进行递增；

将所述子页面确定为待请求的目标页面。

在访问子页面后，可将当前的页面爬取深度进行递增即+1，然后将子页面重新作为待请求的目标页面，以便于重复进行步骤A1至步骤A3，如此每个页面均可实现自动确认页面中的所有动态元素，进而实现该动态页面元素对应的页面信息的自动爬取，从而确保页面内容全面获取，也优化了爬取速度和爬取性能。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

下面将结合图2的页面数据爬取方法200进一步说明本公开的技术方案：

在步骤201中，根据需要生成动态注入代码；

在步骤202中，向待访问页面中添加动态注入代码；

在步骤203中，请求打开页面；

在步骤204中，打开页面之前，判断当前爬取深度是否小于最大爬取深度；

在步骤205中，如果小于，则解析页面信息，获取动态页面元素；

在步骤206中，自动遍历动态页面元素；

在步骤207中，判断是否需要打开新窗口？

在步骤208中，当不需要打开新窗口时，获取当前页面URL；

在步骤209中，当需要打开新窗口时，切换至新窗口，获取新窗口的URL；

在步骤210中，将获取到的URL，添加至待解析URL列表并去重；

在步骤212中，将当前的爬取深度+1；

在步骤213中，重新遍历URL请求列表，进而循环执行步骤204。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图3示出了根据本公开的实施例的页面数据爬取装置300的方框图。

装置300可以包括：

添加模块310，用于向待请求的目标页面中添加动态注入代码；

确定模块320，用于在接收到针对所述目标页面的页面访问请求时，根据所述动态注入代码确定所述目标页面中的动态页面元素；

爬取模块330，用于爬取所述动态页面元素的页面数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。设备400可以用于实现图3。如图所示，设备400包括CPU401，其可以根据存储在ROM402中的计算机程序指令或者从存储单元408加载到RAM403中的计算机程序指令，来执行各种适当的动作和处理。在RAM 403中，还可以存储设备400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。I/O接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元401执行上文所描述的各个方法和处理，例如方法100、200。例如，在一些实施例中，方法100、200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由CPU 401执行时，可以执行上文描述的方法200、300、400的一个或多个步骤。备选地，在其他实施例中，CPU 401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法100、200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM、光纤、CD-ROM、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种页面数据爬取方法，其特征在于，包括：

向待请求的目标页面中添加动态注入代码；

其中，所述根据所述动态注入代码确定所述目标页面中的动态页面元素，包括：

所述动态注入代码用于确定所述目标页面中的超链接或者可点击事件，并为所述超链接或者可点击事件生成所述动态元素标记；

爬取所述动态页面元素的页面数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述动态注入代码确定所述目标页面中的动态页面元素，包括：

确定当前的页面爬取深度；

确定预先配置的最大页面爬取深度；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定浏览器的属性信息和/或爬虫所需的信息；

4.根据权利要求1至3中任一项所述的方法，其特征在于，

所述爬取所述动态页面元素的页面数据，包括：

遍历所述动态页面元素；

访问所述动态页面元素对应的所述目标页面的子页面。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述待解析的URL列表进行去重操作。

6.根据权利要求4所述的方法，其特征在于，在访问所述动态页面元素对应的子页面之后，所述方法还包括：

将当前的页面爬取深度进行递增；

将所述子页面确定为待请求的目标页面。

7.一种页面数据爬取装置，其特征在于，包括：

添加模块，用于向待请求的目标页面中添加动态注入代码；

爬取模块，用于爬取所述动态页面元素的页面数据。

8.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～6中任一项所述的方法。