CN105956173A

CN105956173A - 页面内容获取方法和装置

Info

Publication number: CN105956173A
Application number: CN201610346573.9A
Authority: CN
Inventors: 胡银厚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2016-09-21

Abstract

本申请公开了页面内容获取方法和装置。该方法的一具体实施方式包括：确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。实现了在抓取海量页面中的页面内容时，利用浏览器内核获取和加载页面，避免了因服务器对网络爬虫检查严格拒绝服务而导致的无法获取页面的情况，从而获取到海量页面。同时，通过预设脚本直接提取获取到的页面中页面内容和对页面内容进行分析，充分考虑了页面的DOM结构，简化了提取页面内容的操作。

Description

页面内容获取方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及网络技术，尤其涉及页面内容获取方法和装置。

背景技术

网络爬虫用于抓取海量页面中的页面内容，对页面内容进行分析。目前，网络爬虫通常采用以下方式抓取海量页面中的页面内容：对于页面中存在的静态数据，将网页下载到本地，通过文本分析的方式，例如正则表达式提取页面内容。对于页面中采用Ajax动态填充的数据，直接向服务器发起Ajax请求提取页面内容。

然而，当采用上述方式抓取海量页面中的页面内容时，一方面，没有考虑页面的DOM(Document Object Model，文档对象模型)结构，匹配错误的可能性较大，需要更多的代码逻辑来校验数据的正确性。另一方面，由于服务器对客户端请求会做严格的审查，模拟Ajax请求的方式容易被服务器拒绝。服务器对爬虫检查严格时，导致无法获取页面。

发明内容

本申请提供了页面内容获取方法和装置，用于解决上述背景技术部分存在的技术问题。

第一方面，本申请提供了页面内容获取方法，该方法包括：确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。

第二方面，本申请提供了页面内容获取装置，该装置包括：确定单元，配置用于确定待提取的页面内容所属的页面；获取单元，配置用于利用浏览器内核获取页面；提取单元，配置用于利用预设脚本提取页面中的页面内容。

本申请提供的页面内容获取方法和装置，通过确定待提取的页面内容所属的页面；利用浏览器内核获取页面；利用预设脚本提取页面中的页面内容。实现了在抓取海量页面中的页面内容时，利用浏览器内核获取和加载页面，避免了因服务器对网络爬虫检查严格拒绝服务而导致的无法获取页面的情况，从而获取到海量页面。同时，通过预设脚本直接提取获取到的页面中页面内容和对页面内容进行分析，充分考虑了页面的DOM结构，简化了提取页面内容的操作。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的页面内容获取方法的一个实施例的流程图；

图3示出了根据本申请的页面内容获取方法的一个示例性流程图；

图4示出了根据本申请的页面内容获取方法的另一个实施例的流程图；

图5示出了根据本申请的页面内容获取装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的页面内容获取装置的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的页面内容获取方法或页面内容获取装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供传输链路的介质。网络104可以包括各种连接类型，例如有线、无线传输链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯应用，例如浏览器类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网络通信的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上的浏览器类应用提供支持的服务器。服务器可以对接收到的页面获取请求进行处理，并将处理结果(例如页面)反馈给终端设备。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，其示出了根据本申请的页面内容获取方法的一个实施例的流程200。需要说明的是，本申请实施例所提供的页面内容获取方法一般由图1中的终端设备101、102、103执行，相应地，页面内容获取装置一般设置于终端设备101、102、103中。该方法包括以下步骤：

步骤201，确定待提取的页面内容所属的页面。

在本实施例中，当需要从海量页面(例如第三方平台发布的安全漏洞信息所在的页面)中获取待提取的页面内容(例如安全漏洞信息)时，可以首先确定待提取的页面内容(例如安全漏洞信息)所属的页面(例如第三方平台发布的安全漏洞信息所在的页面)。

在本实施例中，可以预先接收用户(例如工程师)输入的待提取的页面内容所在的页面的URL(统一资源定位符)。例如，接收工程师在网络爬虫的主页面输入的页面的URL，根据接收到的输入的页面的URL，确定待提取的页面内容所属的页面。

步骤202，利用浏览器内核获取页面。

在本实施例中，在通过步骤201确定待提取的页面内容所属的页面之后，可以利用浏览器内核(也可称之为浏览器引擎)获取页面。例如，可以利用浏览器根据包含待提取的页面内容的页面对应的URL，获取包含待提取的页面内容的页面。浏览器内核可以包括但不限于：Trident内核、Gecko内核、WebKit内核。

在本实施例的一些可选的实现方式中，利用浏览器内核获取页面包括：调用浏览器内核提供的获取页面的接口从页面所在的服务器获取页面。

在本实施例中，可以采用以下方式利用浏览器内核获取页面：用户在浏览器浏览网页时，是通过浏览器内核生成页面获取请求，然后，向服务器发送页面获取请求而获取页面。浏览器内核的相关操作，例如获取页面的操作可以封装为接口，以供其他应用调用。在本实施例中，可以以待提取的页面内容的页面对应的URL作为浏览器内核提供的用于获取页面的接口的输入参数，从而调用浏览器内核提供的用于获取页面的接口，向服务器发送页面获取请求，得到包含待提取的页面内容的页面。

在本实施例中，在利用浏览器内核获取包含待提取的页面内容页面之后，可以将页面存储在浏览器内核对应的存储空间中，然后，对页面中的页面内容进行加载，从而完成页面在浏览器内核中的加载。

步骤203，利用预设脚本提取页面中的页面内容。

在本实施例中，在通过步骤202利用浏览器内核获取到包含待提取内容的页面并且对页面进行加载之后，可以利用预先设置的用于提取页面中的待提取的页面内容的预设脚本提取页面中的待提取的页面内容，然后，可以利用预设脚本对提取出的页面内容进行分析，例如，分析提取出的页面内容是否为恶意内容。

在本实施例中，预设脚本可以为JavaScript脚本，可以通过该JavaScript脚本提取页面中的待提取的页面内容，对提取出的页面内容进行分析。例如，可以利用JavaScript脚本根据页面的DOM结构，提取页面中的待提取内容，例如提取页面中的标签中的安全漏洞信息，然后，对提取出的页面内容进行分析。

在本实施例中，可以基于上述步骤201、步骤202、步骤203对应的操作，构建出网络爬虫。例如，在现有的网络爬虫架构中，加入步骤201、步骤202、步骤203对应的操作对应的代码。基于上述步骤201、步骤202、步骤203对应的操作对应的代码构建出网络爬虫可以实现在抓取海量页面中的页面内容时，利用浏览器内核获取和加载页面，避免了因服务器对网络爬虫检查严格拒绝服务而导致的无法获取页面的情况，从而获取到海量页面。同时，通过预设脚本直接提取获取到的页面中页面内容和对页面内容进行分析，充分考虑了页面的DOM结构，简化了提取页面内容的操作。

在本实施例中，可以将步骤201、步骤202、步骤203对应的操作对应的代码嵌入到浏览器中，从而在浏览器中执行步骤201、步骤202、步骤203对应的操作。在本实施例中，可以将步骤201、步骤202、步骤203对应的操作对应的代码称之为页面内容获取装置，该装置可以为脚本、插件。

请参考图3，其示出了本申请中的页面内容获取方法的一个示例性流程图。

步骤301：接收页面分析请求。

可以利用页面内容获取装置接收页面分析请求，同时，可以接收用户提供的待提取的页面内容所在的页面的URL和脚本文件，该脚本文件用于提取该页面中的页面内容以及对提取出的页面内容进行分析。

步骤302：加载目标页面。

在接收页面分析请求之后，可以在页面内容获取装置所嵌入的浏览器内核中打开目标页面即待提取的页面内容所在的页面的URL对应的页面，在浏览器内核中加载页面内容，从而完成目标页面的加载。

步骤303：将预设JavaScript脚本注入到目标页面中。

在目标页面加载完成之后，页面内容获取装置可以将用于提取页面中的待提取的页面内容以及对提取出的页面内容进行分析的预设JavaScript脚本注入到目标页面中，提取目标页面中的待提取的页面内容以及对提取出的页面内容进行分析。

步骤304：得到页面内容分析结果。

步骤305：将页面内容分析结果返回给用户。

请参考图4，其示出了根据本申请的页面内容获取方法的另一个实施例的流程图400。需要说明的是，本申请实施例所提供的页面内容获取方法一般由图1中的终端设备101、102、103执行。该方法包括以下步骤：

步骤401，确定待提取的页面内容所属的页面。

在本实施例中，可以预先接收用户(例如工程师)输入的待提取的页面内容所在的页面的URL，例如，接收工程师在网络爬虫的主页面输入的页面的URL，确定待提取的页面内容所属的页面。

步骤402，利用浏览器内核获取页面。

在本实施例中，可以采用以下方式利用浏览器内核获取页面：可以以包含待提取的页面内容的页面对应的URL作为浏览器内核提供的用于获取页面的接口的输入参数，调用浏览器内核提供的用于获取页面的接口，向服务器发送页面获取请求，得到包含待提取的页面内容的页面。在本实施例中，在利用浏览器内核获取页面之后，可以将页面存储在浏览器内核对应的存储空间中，然后，对页面中的页面内容进行加载，从而完成页面在浏览器内核中的加载。

在本实施例中，还可以以包含待提取的页面内容的页面对应的URL作为浏览器内核提供的用于获取页面的接口的输入参数，调用浏览器内核提供的用于获取页面的接口，向服务器发送页面获取请求，页面可以从服务器经由反向代理服务器返回。即最终从反向代理服务器获取到页面。在本实施例中，可以在反向代理服务器中，将用于提取页面中的页面内容的预设脚本，例如JavaScript脚本嵌入到页面中。例如，在页面中的JavaScript标签中加入JavaScript脚本的代码。从而，在调用浏览器内核提供的用于获取页面的接口，向服务器发送页面获取请求之后，可以接收到从反向代理服务器返回的预先嵌入了用于提取页面中的页面内容的预设脚本的页面。

步骤403，利用注入到页面中的预设脚本提取页面中的页面内容。

在本实施例中，在通过步骤402利用浏览器内核获取包含待提取的页面内容的页面之后，可以对获取到的页面进行加载，在对页面进行加载之后，可以利用注入到页面中的预设脚本提取页面中的待提取的页面内容，并且对提取出的页面内容进行分析，例如，分析提取出的页面内容是否为恶意内容。

在本实施例中，可以调用浏览器内核提供的脚本加载接口在页面中加载预设脚本。以预设脚本为JavaScript脚本为例，可以调用浏览器内核提供的JavaScript脚本加载接口在页面中加载JavaScript脚本，将JavaScript脚本动态加载到页面中，从而完成预设脚本在页面中的注入。

在本实施例中，还可以将预设脚本嵌入到页面中。以预设脚本为JavaScript脚本为例，可以将用于提取页面中的页面内容的JavaScript脚本嵌入到页面中。例如，在页面中的JavaScript的标签中加入JavaScript脚本的代码，从而完成预设脚本在页面中的注入。

在本实施例中，当在步骤402中，页面从服务器经由反向代理服务器返回时，从反向代理服务器返回的页面中可以包含页面在经由反向代理服务器时嵌入到页面中的用于提取页面中的页面内容的预设脚本。从而在获取该页面并且完成加载之后，可以利用嵌入到页面中的预设脚本提取页面中的页面内容。

从图4中可以看出，与图2对应的实施例不同的是，本实施例中的方法的流程400突出了的利用注入到页面中的脚本提取页面中的页面内容的步骤403。在本实施例中，可以采用调用浏览器内核提供的脚本加载接口加载预设脚本、将预设脚本嵌入到页面中等方式完成预设脚本在页面中的注入。通过注入到页面中的预设脚本，直接提取获取到的页面中页面内容和对页面内容进行分析，充分考虑了页面的DOM结构，简化了提取页面内容的操作。

请参考图5，作为对上述各图所示方法的实现，本申请提供了一种页面内容获取装置的一个实施例，该实施例与图2所示的方法实施例相对应。

如图5所示，本实施例的页面内容获取装置500包括：确定单元501，获取单元502，提取单元503。其中，确定单元501配置用于确定待提取的页面内容所属的页面；获取单元502配置用于利用浏览器内核获取页面；提取单元503配置用于利用预设脚本提取页面中的页面内容。

在本实施例中，页面内容获取装置500可以嵌入到浏览器中，例如，以插件、脚本的形式嵌入到浏览器中。确定单元501可以预先接收用户(例如工程师)输入的待提取的页面内容所在的页面的URL，例如，在网络爬虫的主页面输入的页面的URL，确定待提取的页面内容所属的页面。获取单元502可以利用浏览器内核根据包含待提取的页面内容的页面对应的URL地址，获取包含待提取的页面内容的页面。提取单元503可以利用预先设置的用于提取页面中的页面内容的脚本提取页面中的页面内容，并且对页面内容进行分析，例如，分析提取出的页面内容是否为恶意内容。

在本实施例的一些可选的实现方式中，获取单元502包括：第一页面获取子单元(未示出)，配置用于调用浏览器内核提供的获取页面的接口从页面所在的服务器获取页面。

在本实施例的一些可选的实现方式中，装置500还包括：加载单元(未示出)，配置用于在利用浏览器内核获取页面之后，调用浏览器内核提供的脚本加载接口在页面中加载预设脚本。

在本实施例的一些可选的实现方式中，装置500还包括：嵌入单元(未示出)，配置用于在利用浏览器内核获取页面之后，将预设脚本嵌入到页面中。

在本实施例的一些可选的实现方式中，获取单元502包括：第二页面获取子单元(未示出)，配置用于调用浏览器内核提供的获取页面的接口从反向代理服务器获取嵌入预设脚本的页面。

图6示出了适于用来实现本申请实施例的页面内容获取装置的计算机系统的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述设备中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：确定待提取的页面内容所属的页面；利用浏览器内核获取所述页面；利用预设脚本提取所述页面中的页面内容。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种页面内容获取方法，其特征在于，所述方法包括：

确定待提取的页面内容所属的页面；

利用浏览器内核获取所述页面；

利用预设脚本提取所述页面中的所述页面内容。

2.根据权利要求1所述的方法，其特征在于，所述利用浏览器内核获取所述页面包括：

调用浏览器内核提供的获取页面的接口从所述页面所在的服务器获取所述页面。

3.根据权利要求1-2之一所述的方法，其特征在于，在利用浏览器内核获取所述页面之后，所述方法还包括：

调用浏览器内核提供的脚本加载接口在所述页面中加载所述预设脚本。

4.根据权利要求1-2之一所述的方法，其特征在于，在利用浏览器内核获取所述页面之后，所述方法还包括：

将所述预设脚本嵌入到所述页面中。

5.根据权利要求1所述的方法，其特征在于，所述利用浏览器内核获取所述页面包括：

调用浏览器内核提供的获取页面的接口从反向代理服务器获取嵌入所述预设脚本的所述页面。

6.一种页面内容获取装置，其特征在于，所述装置包括：

确定单元，配置用于确定待提取的页面内容所属的页面；

获取单元，配置用于利用浏览器内核获取所述页面；

提取单元，配置用于利用预设脚本提取所述页面中的所述页面内容。

7.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

第一页面获取子单元，配置用于调用浏览器内核提供的获取页面的接口从所述页面所在的服务器获取所述页面。

8.根据权利要求6-7之一所述的装置，其特征在于，所述装置还包括：

加载单元，配置用于在利用浏览器内核获取所述页面之后，调用浏览器内核提供的脚本加载接口在所述页面中加载所述预设脚本。

9.根据权利要求6-7之一所述的装置，其特征在于，所述装置还包括：

嵌入单元，配置用于在利用浏览器内核获取所述页面之后，将所述预设脚本嵌入到所述页面中。

10.根据权利要求6所述的装置，其特征在于，所述获取单元包括：

第二页面获取子单元，配置用于调用浏览器内核提供的获取页面的接口从反向代理服务器获取嵌入所述预设脚本的所述页面。