CN106951451A

CN106951451A - 一种网页内容提取方法、装置及计算设备

Info

Publication number: CN106951451A
Application number: CN201710096236.3A
Authority: CN
Inventors: 李涛
Original assignee: Beijing Kylin Hesheng Network Technology Co Ltd
Current assignee: Beijing Kylin Hesheng Network Technology Co Ltd
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2017-07-14
Anticipated expiration: 2037-02-22
Also published as: CN106951451B

Abstract

本发明公开了一种网页内容提取方法、装置及计算设备，所述方法适于在计算设备中执行，所述计算设备包括数据存储装置，该方法包括：获取待处理网页的HTML文档；根据所述待处理网页的域名从所述数据存储装置中获取与其对应的节点匹配规则，所述节点匹配规则基于与该待处理网页相关的源网页的DOM树生成；构建目标DOM树，所述目标DOM树初始化为空；通过节点匹配规则对所述HTML文档进行处理以便更新所述目标DOM树；获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。

Description

一种网页内容提取方法、装置及计算设备

技术领域

本发明涉及互联网技术领域，特别涉及一种网页内容提取方法、装置及计算设备。

背景技术

互联网的每个网站都有自己的Web页面，网页结构布局差异较大，解析Web页面并提取内容是一件较为繁琐且耗时的工作。目前，对网页内容进行提取的方法多是基于DOM树来进行的，通过将网页内容组织成一棵DOM树，并对该DOM树进行遍历，以获取所需节点中的信息来构成需要提取的网页内容。

DOM的全称为Document Object Model，即文档对象模型，它可以利用HTML文档的标签信息，如Table、List等，将文档在逻辑上解析成一个树型结构，树的节点是一个个的对象。DOM树构建完成后，通过遍历其中各个节点，识别并移除各种无需提取的内容，在无需提取的内容移除完毕后，DOM树中剩下的节点内容就是需要提取的。但是，这样一来，在每次对网页进行内容提取时都需要创建一个完整的DOM树并进行遍历，时间代价太大。

发明内容

为此，本发明提供一种网页内容提取的技术方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种网页内容提取方法，适于在计算设备中执行，该计算设备包括数据存储装置，该方法包括如下步骤：获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置中获取与其对应的节点匹配规则，节点匹配规则基于与该待处理网页相关的源网页的DOM树生成；构建目标DOM树，目标DOM树初始化为空；通过节点匹配规则对HTML文档进行处理以便更新目标DOM树；获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。

可选地，在根据本发明的网页内容提取方法中，还包括：获取源网页对应的DOM树作为原始DOM树；从原始DOM树中选出指定节点以生成节点匹配规则，并将节点匹配规则存储至数据存储装置中。

可选地，在根据本发明的网页内容提取方法中，从原始DOM树中选出指定节点以生成节点匹配规则包括：从原始DOM树中选出指定节点；获取与指定节点对应的XPath路径，将Xpath路径生成节点匹配规则。

可选地，在根据本发明的网页内容提取方法中，指定节点包括尾图对应节点，以及从原始DOM树中选出指定节点包括：遍历原始DOM树；对于图片类节点，如果该节点的同级节点之后不存在文本类节点，且该节点的父节点之后不包含文本类子节点的同级节点，则判断该节点为尾图对应节点。

可选地，在根据本发明的网页内容提取方法中，节点匹配规则包括节点添加规则，以及通过节点匹配规则对HTML文档进行处理以便更新目标DOM树的步骤包括：通过节点添加规则确定在HTML文档中的待添加节点；将待添加节点复制到目标DOM树中。

可选地，在根据本发明的网页内容提取方法中，通过节点匹配规则对HTML文档进行处理以便更新目标DOM树的步骤还包括：去除目标DOM树中各节点的隐藏属性。

可选地，在根据本发明的网页内容提取方法中，节点匹配规则包括节点删除规则，以及通过节点匹配规则对HTML文档进行处理以更新目标DOM树的步骤包括：通过节点删除规则确定在目标DOM树中的待删除节点；在目标DOM树中将待删除节点删除。

可选地，在根据本发明的网页内容提取方法中，节点匹配规则包括尾图节点删除规则，以及通过节点匹配规则对HTML文档进行处理以更新目标DOM树的步骤包括：通过尾图节点删除规则确定在目标DOM树中的待删除尾图节点；将待删除尾图节点从DOM树中删除。

根据本发明的又一个方面，提供一种网页内容提取装置，该装置适于驻留在计算设备中，该计算设备包括数据存储装置，该网页内容提取装置包括获取模块、构建模块、处理模块和提取模块。其中，获取模块适于获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置中获取与其对应的节点匹配规则，节点匹配规则基于与该待处理网页相关的源网页的DOM树生成；构建模块适于构建目标DOM树，目标DOM树初始化为空；处理模块适于通过节点匹配规则对HTML文档进行处理以便更新目标DOM树；提取模块适于获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。

可选地，在根据本发明的网页内容提取装置中，还包括规则生成模块，适于获取源网页对应的DOM树作为原始DOM树；从原始DOM树中选出指定节点以生成节点匹配规则，并将节点匹配规则存储至数据存储装置中。

可选地，在根据本发明的网页内容提取装置中，规则生成模块进一步适于：从原始DOM树中选出指定节点；获取与指定节点对应的XPath路径，将Xpath路径生成节点匹配规则。

可选地，在根据本发明的网页内容提取装置中，指定节点包括尾图对应节点，规则生成模块进一步适于：遍历原始DOM树；对于图片类节点，如果该节点的同级节点之后不存在文本类节点，且该节点的父节点之后不包含文本类子节点的同级节点，则判断该节点为尾图对应节点。

可选地，在根据本发明的网页内容提取装置中，节点匹配规则包括节点添加规则，处理模块进一步适于：通过节点添加规则确定在HTML文档中的待添加节点；将待添加节点复制到目标DOM树中。

可选地，在根据本发明的网页内容提取装置中，处理模块进一步适于：去除目标DOM树中各节点的隐藏属性。

可选地，在根据本发明的网页内容提取装置中，节点匹配规则包括节点删除规则，处理模块进一步适于：通过节点删除规则确定在目标DOM树中的待删除节点；在目标DOM树中将待删除节点删除。

可选地，在根据本发明的网页内容提取装置中，节点匹配规则包括尾图节点删除规则，处理模块进一步适于：通过尾图节点删除规则确定在目标DOM树中的待删除尾图节点；将待删除尾图节点从DOM树中删除。

根据本发明的又一个方面，提供一种计算设备，包括根据本发明的网页内容提取装置。

根据本发明的又一个方面，还提供一种计算设备，包括至少一个处理器，以及包括计算机程序指令的至少一个存储器，至少一个存储器和计算机程序指令被配置为与至少一个处理器一起使得计算设备执行根据本发明的网页内容提取方法。

根据本发明的网页内容提取的技术方案，首先获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置中获取对应的节点匹配规则，然后构建目标DOM树，通过节点匹配规则对HTML文档进行处理以便更新目标DOM树，获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。在上述技术方案中，节点匹配规则是预先基于与待处理网页相关的源网页的DOM树生成的，即从源网页对应的DOM树中选出指定节点，获取指定节点对应的XPath路径来生成，并存储与数据存储设备中。在对待处理网页进行内容提取时，无需重新构建一棵完整DOM树，而只需从数据存储装置中获取相应的节点匹配规则对待处理网页的HTML文档进行处理，根据处理结果更新目标DOM树，进而降低了构建DOM树的节点数量。同时，节点匹配规则包括节点添加规则、节点删除规则和尾图节点删除规则，适用于对HTML文档进行不同处理的情形，能够更好地更新目标DOM树，从而提取出所需的网页内容。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的网页内容提取系统100的示意图；

图2示出了根据本发明的一个实施例的计算设备200的结构框图；

图3示出了根据本发明一个实施例的网页内容提取方法400的流程图；

图4示出了根据本发明一个实施例的经节点添加规则处理后已更新的目标DOM树的示意图；

图5示出了根据本发明一个实施例的经节点删除规则处理后已更新的目标DOM树的示意图；

图6示出了根据本发明又一个实施例的经节点删除规则处理后已更新的目标DOM树的示意图；

图7示出了根据本发明一个实施例的经尾图节点删除规则处理后已更新的目标DOM树的示意图；

图8示出了根据本发明一个实施例的源网页的原始DOM树的示意图；

图9示出了本发明一个实施例的网页内容提取装置500的示意图；以及

图10示出了根据本发明又一个实施例的网页内容提取装置600的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的网页内容提取系统100的示意图。如图1所示，在网页内容提取系统100中，包括计算设备200、服务器310和服务器320。应当指出，图1中的网页内容提取系统100仅是示例性的，在具体的实践情况中，网页内容提取系统100中可以有不同数量的计算设备和服务器，本发明对网页内容提取系统中所包括的计算设备和服务器的数量不做限制。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。计算设备200中包括数据存储装置290和网页内容提取装置500，其中数据存储装置290中存储有各类源网页的节点匹配规则，包括节点添加规则、节点删除规则和尾图节点删除规则，节点匹配规则是通过从源网页对应的DOM树中选出指定节点，再获取指定节点对应的XPath路径来生成的，各节点匹配规则均与其对应的源网页的域名关联存储。而网页内容提取装置500则利用存储于数据存储装置290中的节点匹配规则，对待处理网页进行网页内容提取。

服务器310和服务器320为不同网站的服务器，分别存储有其对应网站的所有网页信息。以服务器310为例，假设服务器310中存储有待处理网页的所有网页信息，则网页内容提取装置290通过待处理网页的URL地址获取该网页的HTML文档后，再根据该网页的域名从数据存储装置290中获取与其对应的节点匹配规则。随后，构建目标DOM树并将其初始化为空，通过上述节点匹配规则对该网页的HTML文档进行处理来更新目标DOM树，最后获取更新后的目标DOM树中的各节点以提取待处理网页中的内容，无需为每一个待处理的网页构建一棵完整DOM树，减少了构建DOM树的节点数量，大大降低了时间上的损耗和计算复杂度。需要说明的是，在本发明中，对于一个网页而言，HTML文档是指用于描述该网页的网页结构和组成部分的文档，HTML文档中还可以包括CSS规则。

图2示出了根据本发明一个实施例的计算设备200的结构框图。在基本配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据226。在一些实施方式中，应用222可以布置为在操作系统上利用程序数据226进行操作。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置102经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在一些实施例中，计算设备200被配置为执行根据本发明的网页内容提取方法400。应用222包括根据本发明的网页内容提取装置500。应用222还包括根据本发明的数据存储装置290。

图3示出了根据本发明一个实施例的网页内容提取方法400的流程图。网页内容提取方法400适于在计算设备200(例如图2所示的计算设备200)中执行。

如图3所示，方法400始于步骤S410。在步骤S410中，获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置290中获取与其对应的节点匹配规则。根据本发明的一个实施例，待处理网页的URL地址为http://www.abc.com/a/20151230/50551.html，该网页的所有网页信息均存储与服务器310中，则首先根据该URL地址从服务器310中获取待处理网页的HTML文档，该HTML文档示例如下：

获取到待处理网页的HTML文档后，根据待处理网页的域名从数据存储装置290中获取与其对应的节点匹配规则，其中，节点匹配规则基于与该待处理网页相关的源网页的DOM树生成。根据本实施方式，待处理网页的域名为abc.com，根据这一域名从数据存储装置290中获取与其对应的节点匹配规则。待处理网页的节点匹配规则是基于与其相关的源网页的DOM树生成的，很明显，与该待处理网页相关的源网页即为URL地址为“www.abc.com”的网页。关于节点匹配规则的生成过程，在此处暂且不表，后面再予以详细说明。

随后，进入步骤S420，构建目标DOM树，该目标DOM树初始化为空。根据本发明的一个实施例，为URL地址为“http://www.abc.com/a/20151230/50551.html”的待处理网页构建一棵对应的目标DOM树，并将其初始化为空。

在将目标DOM树构建好并初始化为空后，开始执行步骤S430，通过节点匹配规则对待处理网页的HTML文档进行处理以便更新目标DOM树。根据本发明的一个实施例，在步骤S410中获取的节点匹配规则包括节点添加规则。根据该实施方式，节点添加规则为['.utear-tabs']，进而可以通过节点添加规则对待处理网页的HTML文档进行处理以便更新目标DOM树。首先，通过节点添加规则确定在该HTML文档中的待添加节点，这里的待添加节点是指从HTML文档中选出并应当添加到目标DOM树中的节点。通过节点添加规则['.utear-tabs']可以确定，在该HTML文档中的待添加节点为utear-tabs节点及其所包含的所有子类节点。然后，将这些待添加节点复制到目标DOM树中。在进行复制的过程中，是需要根据HTML文档的结构进行一一对应的复制。首先将utear-tabs节点复制到目标DOM树中，再将与其直接关联的子节点utear-tabs__header、utear-tab-pane-hidden、utear-tab-pane、utear-tab-pane和buttom-of-article逐一复制为utear-tabs节点的子节点，其中utear-tab-pane节点出现了2次，由于utear-tabs__header节点还具有3个子节点，因此需要将3个utear-tabs__item节点逐一复制为utear-tabs__header节点的子节点。图4示出了根据本发明一个实施例的经节点添加规则处理后已更新的目标DOM树的示意图。如图4所示，该目标DOM树的各节点关联情况与上述复制过程所表述出的最终结果相一致。

根据本发明的又一个实施例，在步骤S410中获取的节点匹配规则包括节点删除规则。根据该实施方式，节点删除规则为['.utear-tabs.utear-tabs__header']，进而可以通过节点删除规则对待处理网页的HTML文档进行处理以便更新目标DOM树。首先，通过节点删除规则确定在该目标DOM树中的待删除节点，这里的待删除节点是指应当从目标DOM树中删除的节点。通过节点删除规则['.utear-tabs.utear-tabs__header']可以确定，在目标DOM树中应该删除的节点为utear-tabs节点的子节点utear-tabs__header。然后，在目标DOM树中将待删除节点删除，即将utear-tabs__header节点删除，当然，utear-tabs__header节点的3个子节点utear-tabs__item也随之一起删除。图5示出了根据本发明一个实施例的经节点删除规则处理后已更新的目标DOM树的示意图。将图5与图4对比发现，图5中的目标DOM树中已经不存在utear-tabs__header节点及其子节点，说明该节点已经被删除了。

实际上，在通过节点删除规则删除目标DOM树中的待删除节点时，如果待删除节点存在隐藏属性，而在之前通过节点添加规则将该节点复制到目标DOM树中时未去除其隐藏属性，由于该节点在待处理网页中并不显示，是不可见的，因此无法直接通过使用节点删除规则来将其移除。为解决这一问题，根据本发明的又一实施例，通过节点匹配规则对待处理网页的HTML文档进行处理以便更新目标DOM树还包括，去除目标DOM树中各节点的隐藏属性。换言之，在利用节点添加规则将待添加节点复制到目标DOM树时，去除目标DOM树中各节点的隐藏属性。在待处理网页的HTML文档中，utear-tab-pane-hidden节点具有隐藏属性，即style＝"display:none；"，意味着该节点在待处理网页中是不可见的，需要将该节点的隐藏属性去除。在去除目标DOM树中各节点的隐藏属性时，utear-tab-pane-hidden节点的隐藏属性即被去除。在通过节点删除规则删除目标DOM树中的待删除节点时，若utear-tab-pane-hidden节点为待删除节点，则此时可以直接通过节点删除规则来将其移除。根据本发明的又一个实施例，在步骤S410中获取的节点匹配规则包括节点删除规则。根据该实施方式，节点删除规则分别为['.utear-tabs.utear-tabs__header']和['.utear-tabs.utear-tabs-pane-hidden']。首先，通过节点删除规则确定在该目标DOM树中的待删除节点，由节点删除规则['.utear-tabs.utear-tabs__header']和['.utear-tabs.utear-tabs-pane-hidden']可以确定，在目标DOM树中应该删除的节点为utear-tabs节点的子节点utear-tabs__header和utear-tabs-pane-hidden。由于utear-tab-pane-hidden节点的隐藏属性已经去除，因此可以直接通过节点删除规则['.utear-tabs.utear-tabs-pane-hidden']来将其删除。接下来，在目标DOM树中将待删除节点删除utear-tabs__header和utear-tabs-pane-hidden删除即可。图6示出了根据本发明又一个实施例的经节点删除规则处理后已更新的目标DOM树的示意图。将图6与图4对比发现，图6中的目标DOM树中已经不存在utear-tabs__header节点和utear-tab-pane-hidden节点，说明这2个节点已经成功删除。

然而，在目标DOM树中，可能还存在有尾图节点。尾图节点包括的内容一般为图片，但这类图片基本上是与待处理网页的网页内容无关的图片，有的甚至是广告图片，考虑到这一情况，根据本发明的又一个实施例，在步骤S410中获取的节点匹配规则包括尾图节点删除规则。根据该实施方式，尾图节点删除规则为['::img']，进而可以通过尾图节点删除规则对待处理网页的HTML文档进行处理以便更新目标DOM树。首先，通过尾图节点删除规则确定在该目标DOM树中的待删除尾图节点，这里的待删除尾图节点是指应当从目标DOM树中删除的尾图节点。由于buttom-of-article节点的内容为img src＝"http://www.abc.com/img/logo.GIF"，具有img标签，因此通过尾图节点删除规则['::img']可以确定，在目标DOM树中应该删除的节点为buttom-of-article节点。然后，在目标DOM树中将待删除尾图节点删除，即将buttom-of-article节点删除。图7示出了根据本发明一个实施例的经尾图节点删除规则处理后已更新的目标DOM树的示意图。将图7与图6对比发现，图7中的目标DOM树中已经不存在buttom-of-article节点，说明该尾图节点已经被删除了。最终，目标DOM树中只存在utear-tabs节点及其2个子节点utear-tab-pane。

最后，在步骤S440中，获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。根据本发明的一个实施例，图7所示的目标DOM树即为更新后的目标DOM树，获取该目标DOM树中的utear-tabs节点及其2个子节点utear-tab-pane，提取这3个节点的内容作为需要在待处理网页中提取的网页内容。

很明显，在进行待处理网页的网页内容提取时，与其对应的节点匹配规则至关重要。因此，我们需要预先根据各源网页来生成相应的节点匹配规则，在这里，源网页是指的对于某一网站而言，具有代表性且包含较为完整网页内容的网页。根据本发明的又一个实施例，对各源网页而言，先获取源网页对应的DOM树作为原始DOM树，再从原始DOM树中选出指定节点以生成节点匹配规则，并将节点匹配规则存储至数据存储装置290中。根据该实施方式，源网页的URL地址为http://www.abc.com/a/20141015/25169.html，该源网页的所有网页信息也均存储与服务器310中，根据该URL地址从服务器310中获取源网页的HTML文档，该HTML文档示例如下：

获取到源网页的HTML文档后，根据上述HTML文档获取源网页对应的DOM树作为原始DOM树，图8示出了根据本发明一个实施例的源网页的原始DOM树的示意图。如图8所示，chsiox-di节点包括3个子节点，分别是ystly-tabs节点、uter-tabs节点和siowd-tabs节点。其中，ystly-tabs节点包括子节点ystly-tabs__header，ystly-tabs__header节点包括3个子节点ystly-tabs__item，uter-tabs节点包括子节点utear-tabs__header、uter-pane__hidden、utear-tab-pan、utear-tab-pane和buttom-of-article，utear-tabs__header节点包括3个子节点utear-tabs__item，siowd-tabs节点包括子节点siowd-tabs__header，siowd-tabs__header节点包括2个子节点siowd-tabs__item。

接下来，从原始DOM树中选出指定节点以生成节点匹配规则。首先，从原始DOM树中选出指定节点，然后，获取与指定节点对应的XPath路径，将Xpath路径生成节点匹配规则。根据本发明的一个实施例，节点匹配规则包括节点添加规则，因此先从原始DOM树中选出用于生成节点添加规则的指定节点。根据该实施方式，用于生成节点添加规则的指定节点为utear-tabs节点及其所有子类节点，则获取utear-tabs节点对应的Xpath路径['.utear-tabs']并将其生成节点添加规则，节点添加规则['.utear-tabs']表明在更新目标DOM树时，将utear-tabs节点及其所有子类节点均复制至目标DOM树中以实现更新处理。

根据本发明的又一个实施例，节点匹配规则包括节点删除规则，则先从原始DOM树中选出用于生成节点删除规则的指定节点。根据该实施方式，用于生成节点删除规则的指定节点包括utear-tabs__header节点及其子节点，则获取utear-tabs__header节点对应的Xpath路径['.utear-tabs.utear-tabs__header']并将其生成节点删除规则，节点删除规则['.utear-tabs.utear-tabs__header']表明在更新目标DOM树时，将utear-tabs__header节点及其子节点均从目标DOM树中删除以实现更新处理。除utear-tabs__header节点及其子节点之外，用于生成节点删除规则的指定节点还包括utear-tabs-pane-hidden节点，获取utear-tabs-pane-hidden节点对应的Xpath路径['.utear-tabs.utear-tabs-pane-hidden']并将其生成节点删除规则，节点删除规则['.utear-tabs.utear-tabs-pane-hidden']表明在更新目标DOM树时，将utear-tabs-pane-hidden节点从目标DOM树中删除以实现更新处理。

根据本发明的又一个实施例，节点匹配规则包括尾图节点删除规则，因此先从原始DOM树中选出用于生成尾图节点删除规则的指定节点，该指定节点为尾图对应节点。根据该实施方式，可以通过以下方式来从原始DOM树中选出尾图对应节点。首先遍历原始DOM树，在遍历的过程中，对于图片类节点，如果该节点的同级节点之后不存在文本类节点，且该节点的父节点之后不包含文本类子节点的同级节点，则判断该节点为尾图对应节点。值得注意的是，这里的该节点的同级节点是指在原始DOM树中与该节点的层级相同的节点，而该节点的父节点之后不包含文本类子节点的同级节点则表示在原始DOM树中，该节点的父节点之后、与该节点层级相同的节点中不包含文本类子节点，即在选出尾图对应节点时，需要考虑具有多层嵌套关系的同级节点是否为文本类节点以判断当前节点是否为尾图对应节点。比如，在图8所示的原始DOM树中，buttom-of-article节点具有img标签，因此该节点为图片类节点，buttom-of-article节点的同级节点utear-tabs__header、uter-pane__hidden、utear-tab-pan、utear-tab-pane、ystly-tabs__header和siowd-tabs__header之后不存在文本类节点，且该节点的父节点utear-tabs之后的同级节点utear-tabs__header、uter-pane__hidden、utear-tab-pan、utear-tab-pane、ystly-tabs__header和siowd-tabs__header均不是文本类子节点，因此判断buttom-of-article节点为尾图对应节点。随后，获取buttom-of-article节点对应的Xpath路径['::img']并将其生成尾图节点删除规则，尾图节点删除规则['::img']表明在更新目标DOM树时，将buttom-of-article节点从目标DOM树中删除以实现更新处理。需要说明的是，上述节点匹配规则均采用CSS Selector的语法。

最后，将生成的节点匹配规则存储至数据存储装置290中，且节点匹配规则与其对应的源网页的域名关联存储，根据本发明的一个实施例，节点匹配规则['.utear-tabs']、['.utear-tabs.utear-tabs__header']、['.utear-tabs.utear-tabs-pane-hidden']和['::img']与其对应的源网页域名“abc.com”关联存储于数据存储设备290中。

图9示出了本发明一个实施例的网页内容提取装置500的示意图。如图9所示，网页内容提取装置500与服务器310通信连接，其包括获取模块510、构建模块520、处理模块530和提取模块540。

处理模块510与服务器310通信连接，适于从服务器310获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置290中获取与其对应的节点匹配规则，节点匹配规则基于与该待处理网页相关的源网页的DOM树生成。

构建模块520适于构建目标DOM树，目标DOM树初始化为空。

处理模块530分别与获取模块510和构建模块520相连，适于通过获取模块510所获取的节点匹配规则对HTML文档进行处理，以便更新构建模块520构建的目标DOM树。节点匹配规则包括节点添加规则，处理模块530进一步适于通过节点添加规则确定在HTML文档中的待添加节点，将待添加节点复制到目标DOM树中。处理模块530进一步适于去除目标DOM树中各节点的隐藏属性。节点匹配规则包括节点删除规则，处理模块进一步适于通过节点删除规则确定在目标DOM树中的待删除节点，在目标DOM树中将待删除节点删除。节点匹配规则包括尾图节点删除规则，处理模块进一步适于通过尾图节点删除规则确定在目标DOM树中的待删除尾图节点，将待删除尾图节点从DOM树中删除。

提取模块540与处理模块530相连，适于获取处理模块530更新后的目标DOM树中的各节点以提取待处理网页中的内容。

图10示出了根据本发明又一个实施例的网页内容提取装置600的示意图。如图10所示，网页内容提取装置600的获取模块610、构建模块620、处理模块630和提取模块640，分别与图9中网页内容提取装置500的获取模块510、构建模块520、处理模块530和提取模块540一一对应，是一致的，并新增了规则生成模块650。

规则生成模块650与服务器310通信连接，适于从服务器310获取源网页的HTML文档，根据该HTML文档获取源网页对应的DOM树作为原始DOM树，从原始DOM树中选出指定节点以生成节点匹配规则，并将节点匹配规则存储至数据存储装置290中。规则生成模块650进一步适于从原始DOM树中选出指定节点，获取与指定节点对应的XPath路径，将Xpath路径生成节点匹配规则。其中，指定节点包括尾图对应节点，规则生成模块650进一步适于遍历原始DOM树，对于图片类节点，如果该节点的同级节点之后不存在文本类节点，且该节点的父节点之后不包含文本类子节点的同级节点，则判断该节点为尾图对应节点。需要说明的是，这里的该节点的同级节点是指在原始DOM树中与该节点的层级相同的节点，而该节点的父节点之后不包含文本类子节点的同级节点则表示在原始DOM树中，该节点的父节点之后、与该节点层级相同的节点中不包含文本类子节点，即在选出尾图对应节点时，需要考虑具有多层嵌套关系的同级节点是否为文本类节点以判断当前节点是否为尾图对应节点。

关于网页内容提取的具体步骤以及实施例，在基于图3-8的描述中已经详细公开，此处不再赘述。

现有的网页信息采集方案，如网络爬虫，在对动态网页进行信息采集时所抓取的内容远少于页面应呈现的内容，造成信息采集内容缺失，容易导致后期数据处理结果异常甚至失败。根据本发明的网页信息采集的技术方案，首先获取待处理的第一网页的HTML文档，并向该HTML文档中注入JS滑动指令，然后对注入JS滑动指令的HTML文档进行渲染处理以获得第三网页，在渲染得到的第三网页中触发执行JS滑动指令，向第一网页对应的服务器发送数据请求，进而根据从所述服务器返回的页面数据，重新渲染所述第三网页以生成第二网页，最后采集第二网页中的网页信息。在上述技术方案中，通过向动态网页中注入JS滑动指令，并在对动态网页进行第一次渲染处理后开始模拟执行JS滑动指令，实现了动态网页中数据加载的自动化，便于获得动态网页的完整网页信息。同时，对JS滑动指令进行了执行次数限制，防止某些动态网页的无限次数加载导致整个网页信息采集过程陷入死循环甚至系统崩溃。

现有的网页内容提取方案多是基于DOM树来实现的，通过将网页内容组织成一棵DOM树，并对该DOM树进行遍历，以获取所需节点中的信息来构成需要提取的网页内容。但是，这样一来，在每次对网页进行内容提取时都需要创建一个完整的DOM树并进行遍历，时间代价太大。根据本发明的网页内容提取的技术方案，首先获取待处理网页的HTML文档，根据待处理网页的域名从数据存储装置中获取对应的节点匹配规则，然后构建目标DOM树，通过节点匹配规则对HTML文档进行处理以便更新目标DOM树，获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。在上述技术方案中，节点匹配规则是预先基于与待处理网页相关的源网页的DOM树生成的，即从源网页对应的DOM树中选出指定节点，获取指定节点对应的XPath路径来生成，并存储与数据存储设备中。在对待处理网页进行内容提取时，无需重新构建一棵完整DOM树，而只需从数据存储装置中获取相应的节点匹配规则对待处理网页的HTML文档进行处理，根据处理结果更新目标DOM树，进而降低了构建DOM树的节点数量。同时，节点匹配规则包括节点添加规则、节点删除规则和尾图节点删除规则，适用于对HTML文档进行不同处理的情形，能够更好地更新目标DOM树，从而提取出所需的网页内容。

A8.如A5-7中任一项所述的方法，其中所述节点匹配规则包括尾图节点删除规则，以及所述通过节点匹配规则对所述HTML文档进行处理以更新所述目标DOM树的步骤包括：

通过所述尾图节点删除规则确定在所述目标DOM树中的待删除尾图节点；

将所述待删除尾图节点从所述DOM树中删除。

B10.如B9所述的装置，还包括规则生成模块，适于：

获取源网页对应的DOM树作为原始DOM树；

从所述原始DOM树中选出指定节点以生成节点匹配规则，并将所述节点匹配规则存储至数据存储装置中。

B11.如B10所述的装置，所述规则生成模块进一步适于：

从所述原始DOM树中选出指定节点；

获取与所述指定节点对应的XPath路径，将所述Xpath路径生成节点匹配规则。

B12.如B10或11所述的装置，其中所述指定节点包括尾图对应节点，所述规则生成模块进一步适于：

遍历所述原始DOM树；

对于图片类节点，如果该节点的同级节点之后不存在文本类节点，且该节点的父节点之后不包含文本类子节点的同级节点，则判断该节点为尾图对应节点。

B13.如B9-12中任一项所述的装置，其中所述节点匹配规则包括节点添加规则，所述处理模块进一步适于：

通过所述节点添加规则确定在所述HTML文档中的待添加节点；

将所述待添加节点复制到所述目标DOM树中。

B14.如B13所述的装置，所述处理模块进一步适于：

去除所述目标DOM树中各节点的隐藏属性。

B15.如B13或14所述的装置，其中所述节点匹配规则包括节点删除规则，所述处理模块进一步适于：

通过所述节点删除规则确定在所述目标DOM树中的待删除节点；

在所述目标DOM树中将所述待删除节点删除。

B16.如B13-15中任一项所述的方法，其中所述节点匹配规则包括尾图节点删除规则，所述处理模块进一步适于：

将所述待删除尾图节点从所述DOM树中删除。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的网页内容提取方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种网页内容提取方法，适于在计算设备中执行，所述计算设备包括数据存储装置，所述方法包括：

获取待处理网页的HTML文档，根据所述待处理网页的域名从所述数据存储装置中获取与其对应的节点匹配规则，所述节点匹配规则基于与该待处理网页相关的源网页的DOM树生成；

构建目标DOM树，所述目标DOM树初始化为空；

通过节点匹配规则对所述HTML文档进行处理以便更新所述目标DOM树；

获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。

2.如权利要求1所述的方法，还包括：

获取源网页对应的DOM树作为原始DOM树；

3.如权利要求2所述的方法，所述从所述原始DOM树中选出指定节点以生成节点匹配规则包括：

从所述原始DOM树中选出指定节点；

4.如权利要求2或3所述的方法，其中所述指定节点包括尾图对应节点，以及所述从所述原始DOM树中选出指定节点包括：

遍历所述原始DOM树；

5.如权利要求1-4中任一项所述的方法，其中所述节点匹配规则包括节点添加规则，以及所述通过节点匹配规则对所述HTML文档进行处理以便更新所述目标DOM树的步骤包括：

通过所述节点添加规则确定在所述HTML文档中的待添加节点；

将所述待添加节点复制到所述目标DOM树中。

6.如权利要求5所述的方法，所述通过节点匹配规则对所述HTML文档进行处理以便更新所述目标DOM树的步骤还包括：

去除所述目标DOM树中各节点的隐藏属性。

7.如权利要求5或6所述的方法，其中所述节点匹配规则包括节点删除规则，以及所述通过节点匹配规则对所述HTML文档进行处理以更新所述目标DOM树的步骤包括：

在所述目标DOM树中将所述待删除节点删除。

8.一种网页内容提取装置，适于驻留在计算设备中，所述计算设备包括数据存储装置，所述网页内容提取装置包括：

获取模块，适于获取待处理网页的HTML文档，根据所述待处理网页的域名从所述数据存储装置中获取与其对应的节点匹配规则，所述节点匹配规则基于与该待处理网页相关的源网页的DOM树生成；

构建模块，适于构建目标DOM树，所述目标DOM树初始化为空；

处理模块，适于通过节点匹配规则对所述HTML文档进行处理以便更新所述目标DOM树；

提取模块，适于获取更新后的目标DOM树中的各节点以提取待处理网页中的内容。

9.一种计算设备，包括如权利要求8所述的网页内容提取装置。

10.一种计算设备，包括：

至少一个处理器；以及

包括计算机程序指令的至少一个存储器；

所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如权利要求1-7中任一项所述的方法。