CN104866512A

CN104866512A - 提取网页内容的方法、装置及系统

Info

Publication number: CN104866512A
Application number: CN201410067190.9A
Authority: CN
Inventors: 郭辛华; 苏可; 马宁; 王璟瑶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2014-02-26
Filing date: 2014-02-26
Publication date: 2015-08-26
Anticipated expiration: 2034-02-26
Also published as: WO2015127882A1; US20160283461A1; CN104866512B; US10430514B2

Abstract

本发明涉及一种提取网页内容的方法、装置及系统，其方法包括：响应移动客户端在浏览器上触发的网页浏览指令，获取对应的网页；解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当插件标签节点对应的插件标签为预定类型标签时，提取插件标签对应的插件资源。本发明可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度，此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可降低开发成本。

Description

提取网页内容的方法、装置及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种提取网页内容的方法、装置及系统。

背景技术

目前，在用户使用浏览器访问视频网站时，浏览器会向指定服务器发送查询指令，服务器根据该查询指令中的网页URL查找数据库，获得该网页URL里包含的视频资源的链接、title、类型等数据，返回给浏览器终端。浏览器终端将得到的数据显示出来，呈现给用户，用户可以点击选择相应选项进行播放。

另外，在一些网页中以插件的形式嵌入有视频播放器，视频播放器插件具有各自的协议规范，网页开发者只要按照规范编写网页脚本，在打开网页时，即可方便地调用对应的播放器播放视频、音频数据。

虽然现有的这种视频网站资源播放方式不依靠浏览器终端的提取逻辑，可以减轻终端的负担，但是，需要构建后台服务器，而且服务器还需要依赖第三方数据库支撑，该技术较为复杂且增加了开发成本。此外，每次打开网页时，都需要向后台服务器发送查询指令，服务器还要返回查询结果，不仅增加了额外的流量消耗，而且影响了网页的展示速度。

发明内容

本发明实施例提供一种提取网页内容的方法、装置及系统，旨在快速提取网页资源，降低成本。

本发明实施例提出一种提取网页内容的方法，包括：

响应移动客户端在浏览器上触发的网页浏览指令，获取对应的网页；

解析所述网页，获取网页脚本中标签的DOM（Document Object Model，文档对象模型）节点；

从所述DOM节点中获取插件标签节点；

当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源。

本发明实施例还提出一种提取网页内容的装置，包括：

拉取模块，用于响应移动客户端在浏览器上触发的网页浏览指令，获取对应的网页；

解析模块，用于解析所述网页，获取网页脚本中标签的DOM节点；

获取模块，用于从所述DOM节点中获取插件标签节点；

提取模块，用于当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源。

本发明实施例还提出一种提取网页内容的系统，包括：终端及与所述终端通信连接的服务器，所述终端包括如上所述的装置；

所述服务器，用于向所述终端下发用于提取预定类型标签对应的插件资源的预定规则。

本发明实施例提出的一种提取网页内容的方法、装置及系统，浏览器在用户浏览网页时，通过解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；将所述插件标签对应的插件资源传递给相应的播放器进行播放，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度，此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可降低开发成本。

附图说明

图1是本发明提取网页内容的方法第一实施例的流程示意图；

图2是本发明提取网页内容的方法第二实施例的流程示意图；

图3是本发明提取网页内容的方法第三实施例的流程示意图；

图4是本发明提取网页内容的方法第四实施例的流程示意图；

图5是本发明提取网页内容的装置第一实施例的功能模块示意图；

图6是本发明提取网页内容的装置第二实施例的功能模块示意图；

图7是本发明提取网页内容的装置第三实施例的功能模块示意图；

图8是本发明提取网页内容的装置第四实施例的功能模块示意图；

图9是本发明提取网页内容的系统较佳实施例的架构示意图；

图10是本发明实施例提取网页内容的终端的另一种结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：浏览器在用户浏览网页时，通过解析网页，获取网页脚本中标签的DOM（Document Object Model，文档对象模型）节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取插件标签对应的插件资源；将插件标签对应的插件资源传递给相应的播放器进行播放，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，以提高网页预定内容的提取速度和网页的展示速度，此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可降低开发成本。

如图1所示，本发明第一实施例提出一种提取网页内容的方法，包括：

步骤S101，响应移动客户端在浏览器上触发的网页浏览指令，获取对应的网页；

其中，本实施例浏览器可以是PC端浏览器，也可以是手机等移动终端浏览器，尤其指手机等移动终端浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统，而不适用于手机端浏览器，在手机端打开网页时，则页面无法播放视频。

另外，考虑到现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑，不仅增加了运营成本，而且每次打开网页时，都需要向后台服务器发送查询指令，服务器还要返回查询结果，增加了额外的流量消耗，并影响了网页的展示速度。本实施例方案可以不依赖后台服务器，而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取，以便对提取的资源信息进行相应的处理。

比如提取嵌入网页的浏览器播放器插件对应的插件资源（比如提取快播qvod、百度影音bdhd资源、flash资源，或者其它预定类型的插件资源等），调用相应的播放器实现视频资源的播放等，从而可以降低成本。

具体地，在用户通过浏览器浏览网页时，浏览器根据用户触发的网页浏览指令拉取对应的网页，该网页中以插件形式嵌入有符合预定协议规范的视频播放器。针对不同协议规范的视频播放器插件，由网页开发者按照规范编写相应的网页脚本，在打开网页时，即可方便地调用对应的播放器播放视频、音频数据。

步骤S102，解析所述网页，获取网页脚本中标签的DOM节点；

浏览器在拉取到网页后，对该网页进行解析，生成DOM树；其中，DOM树是指文档模型树，在HTML网页脚本中，其中的所有元素单元组合在一起可以看作是一颗多叉树，这种树结构被称为节点树。DOM树中的每一节点单元对应HTML网页脚本里的一个元素单元，即标签（tag），可通过这棵DOM树访问所有节点，可以对DOM树进行节点的遍历、插入、删除等操作，也可以创建新的节点元素。

DOM树展示了节点的集合，以及它们之间的联系。这棵树从根节点开始，然后在树的最低层级向文本节点长出枝条。DOM树中的节点彼此之间都有等级关系，通常通过父、子和同级节点来描述这种关系。父节点拥有子节点，位于相同层级上的子节点称为同级节点（兄弟或姐妹）。

在DOM树中，顶端的节点称为根节点，根节点之外的每个节点都有一个父节点，节点可以有任何数量的子节点，叶子是没有子节点的节点，同级节点是拥有相同父节点的节点。因为HTML等文档数据是按照树的形式进行构造的，所以可以在不了解树的确切结构且不了解其中包含的数据类型的情况下，对其进行遍历。

在HTML网页脚本的标签中，有一种标签类型<embed>（embed是HTML5中新增的标签，可以在页面中嵌入任何类型的文档，用户的机器上必须已经安装了能够正确显示文档内容的程序，一般常用于在网页中插入多媒体格式，该多媒体格式可以是rm.mid.wav等），用以标志一种插件资源，该插件资源是使用嵌入浏览器的某种插件（比如浏览器播放器插件）来呈现内容的。

浏览器在生成DOM树的阶段会创建网页脚本中每个标签（tag）的DOM节点，其中包括创建插件标签（embed）节点，每一插件标签节点具有指定的类型（type）或分类标识（classid），用以标识插件资源的类型。

步骤S103，从所述DOM节点中获取插件标签节点；

步骤S104，当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；

为了提取预定类型的插件资源，本实施例采用以下方案：

在浏览器创建插件标签（embed）节点时，获取该插件标签节点，并根据插件标签节点的type或classid）判断该插件标签节点对应的插件标签是否为预定类型标签，即是否符合预定协议规范，若是，则提取所述插件标签对应的插件资源，作为一种实施方式，可以提取插件标签的src/url/param_url。

在提取出插件标签对应的插件资源后，可以将该插件资源传递给相应的播放器进行播放。

本实施例通过上述方案，在用户通过浏览器浏览网页时，浏览器通过解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；将所述插件标签对应的插件资源传递给相应的播放器进行播放。

相比现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑，不仅增加了运营成本，而且每次打开网页时，都需要向后台服务器发送查询指令，服务器还要返回查询结果，增加了额外的流量消耗，并影响了网页的展示速度。本实施例方案可以不依赖后台服务器，而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度；此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可降低系统开发成本。

需要说明的是，考虑到一些网页在开发设计过程中，会检测网页当前运行的系统所安装的插件类型，如果不存在某种预定类型的插件，则不会允许从网页中提取该预定类型的插件资源信息。为此，本实施例还可以在浏览器代码中声明，该浏览器支持与预定规则相适配的插件资源协议，以便在网页打开过程中，能够从网页中提取该预定类型的资源信息。

如图2所示，本发明第二实施例提出一种提取网页内容的方法，在上述图1所示的第一实施例的基础上，在上述步骤S103：从DOM节点中获取插件标签节点之后还包括：

步骤S105，判断插件标签节点对应的插件标签是否为预定类型标签；若是，则进入步骤S104；否则；进入步骤S106；

步骤S106，采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源；

步骤S107，当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。

本实施例与上述图1所示的第一实施例的区别在于，本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。

具体地，本实施例考虑到一些网页在开发设计过程中，会设置一些其他条件，来确保预定类型的插件资源能够可靠地播放，如要求用户点击某广告，或检测浏览器客户端的尺寸、系统类型，等等。总之，这使得该网页在手机等终端浏览器上可能无法获得预定类型的插件标签，致使插件资源提取操作失败。

为此，本实施例采用如下解决方案：采取正则匹配的方法，到网页脚本资源里去查找到预定类型插件标签的资源信息。

具体实现如下：

当判断获取的插件标签节点对应的插件标签不为预定类型标签时，采用预定规则，例如正则表达式规则，匹配所述网页脚本的预定类型标签对应的插件资源；当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。若匹配失败，则表示插件资源提取失败。

本实施例通过上述方案，在网页设计中存在可能无法获得预定类型的插件标签的应用场景下，采用正则匹配的方法，到网页脚本资源里去查找到预定类型插件标签的资源信息，由此提高了网页资源信息的提取成功率，保证了网页资源信息提取操作的可靠性。

需要说明的是，上述预定规则可以动态配置，可以在浏览器终端完成配置，也可以由后台服务器配置后下发给浏览器终端，即本实施例插件资源的提取规则可以不写死在浏览器代码里，而是可以用脚本代码动态指定，并可根据各大网站的改版情况动态修正。

当网页所在的视频网站版本更新后，原有的网页资源提取规则因无法动态调整会失效。若采用现有的网页资源提取方案，则无法调整网页资源提取规则；而本实施例中由于采用正则匹配规则，而且预定规则可以动态配置，即可以随时修改，在视频网站版本更新导致原有的网页资源提取规则失效时，本实施例可以通过浏览器终端或者后台服务器下发新的正则匹配规则，以应对网站改版导致的原模版失效问题，从而提高了网页资源提取规则的灵活性，并保证了网页资源提取操作的正常进行。

如图3所示，本发明第三实施例提出一种提取网页内容的方法，在上述图2所示的第二实施例的基础上，在上述步骤S101，响应移动客户端在浏览器上触发的网页浏览指令，拉取对应的网页之后还包括：

步骤S108，检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则进入步骤S109；否则，进入步骤S102；

步骤S109，从浏览器后台服务器获取更新后的预定规则；进入步骤S102。

本实施例与上述图2所示的第二实施例的区别在于，本实施例还包括应对预定规则更新后的插件资源提取方案。

具体地，浏览器在拉取到网页后，针对该网页，检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则获取更新后的预定规则，作为一种实施方式，预定规则可以在浏览器终端完成配置更新，也可以由后台服务器配置更新后下发给浏览器终端。

本实施例以预定规则由后台服务器配置更新进行举例，在检测到有提取预定类型标签对应的插件资源的预定规则更新时，从浏览器后台服务器获取更新后的预定规则。

之后，浏览器对该网页进行解析，生成DOM树，在生成DOM树的阶段会创建网页脚本中每个标签（tag）的DOM节点，其中，在创建插件标签（embed）节点时，获取该插件标签节点，并根据插件标签节点的type或classid）判断该插件标签节点对应的插件标签是否为预定类型标签，即是否符合预定协议规范，若是，则提取所述插件标签对应的插件资源，将所述插件标签对应的插件资源传递给相应的播放器进行播放。

若判断该插件标签节点对应的插件标签不为预定类型标签，则采用更新后的预定规则，例如正则表达式规则，匹配所述网页脚本的预定类型标签对应的插件资源；当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源，并将对应的插件资源传递给相应的播放器进行播放。若匹配失败，则表示插件资源提取失败。

本实施例通过上述方案，浏览器在用户浏览网页时，通过解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；将所述插件标签对应的插件资源传递给相应的播放器进行播放，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度，此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可降低开发成本。另外，在网页设计中存在可能无法获得预定类型的插件标签的应用场景下，采用正则匹配的方法，到网页脚本资源里去查找到预定类型插件标签的资源信息，由此提高了网页资源信息的提取成功率，保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置，即可以随时修改，在视频网站版本更新导致原有的网页资源提取规则失效时，可以通过浏览器终端或者后台服务器下发新的正则匹配规则，以应对网站改版导致的原模版失效问题，从而提高了网页资源提取规则的灵活性。

如图4所示，本发明第四实施例提出一种提取网页内容的方法，在上述图3所示的第三实施例的基础上，还可以包括：

步骤S110，将提取的插件资源传递给相应的播放器进行播放。

本实施例与上述图3所示的第三实施例的区别在于，本实施例还包括播放提取的插件资源的方案。

在提取出对应的插件资源后，将该插件资源传递给相应的播放器进行播放，由此实现了插件类网页内容在终端尤其是手机等移动终端浏览器上的播放展示。其他与第三实施例相同。

如图5所示，本发明第一实施例提出一种提取网页内容的装置，包括：拉取模块201、解析模块202、获取模块203、提取模块204，其中：

拉取模块201，用于响应移动客户端在浏览器上触发的网页浏览指令，获取对应的网页；

解析模块202，用于解析所述网页，获取网页脚本中标签的DOM节点；

获取模块203，用于从所述DOM节点中获取插件标签节点；

提取模块204，用于当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源。

其中，本实施例装置可以设置在浏览器终端上。本实施例浏览器可以是PC端浏览器，也可以是手机等移动终端浏览器，尤其指手机等移动终端浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统，而不适用于手机端浏览器，在手机端打开网页时，则页面无法播放视频。

为了提取预定类型的插件资源，本实施例采用以下方案：

相比现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑，不仅增加了运营成本，而且每次打开网页时，都需要向后台服务器发送查询指令，服务器还要返回查询结果，增加了额外的流量消耗，并影响了网页的展示速度。本实施例方案可以不依赖后台服务器，而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度；此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上易于实现，可系统降低开发成本。

如图6所示，本发明第二实施例提出一种提取网页内容的装置，在上述图5所示的第一实施例的基础上，还包括：

匹配模块205，用于当所述插件标签节点对应的插件标签不为预定类型标签时，采用预定规则，例如正则表达式规则，匹配所述网页脚本的预定类型标签对应的插件资源；

所述提取模块204，还用于当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。

本实施例与上述图5所示的第一实施例的区别在于，本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。

具体实现如下：

如图7所示，本发明第三实施例提出一种提取网页内容的装置，在上述图6所示的第二实施例的基础上，还包括：

配置模块206，用于检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则从浏览器后台服务器获取更新后的预定规则；否则，由所述解析模块202解析所述网页，获取网页脚本中标签的DOM节点。

本实施例与上述图6所示的第二实施例的区别在于，本实施例还包括应对预定规则更新后的插件资源提取方案。

之后，浏览器对该网页进行解析，生成DOM树，在生成DOM树的阶段会创建网页脚本中每个标签（tag）的DOM节点，其中，在创建用于标志插件资源的插件标签（embed）节点时，获取该插件标签节点，并根据插件标签节点的type或（classid）判断该插件标签节点对应的插件标签是否为预定类型标签，即是否符合预定协议规范，若是，则提取所述插件标签对应的插件资源，将所述插件标签对应的插件资源传递给相应的播放器进行播放。

若判断该插件标签节点对应的插件标签不为预定类型标签，则采用更新后的预定规则匹配所述网页脚本的预定类型标签对应的插件资源；当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源，并将对应的插件资源传递给相应的播放器进行播放。若匹配失败，则表示插件资源提取失败。

本实施例通过上述方案，浏览器在用户浏览网页时，通过解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；将所述插件标签对应的插件资源传递给相应的播放器进行播放，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度，此外，由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取，在技术上述易于实现，可降低开发成本。另外，在网页设计中存在可能无法获得预定类型的插件标签的应用场景下，采用正则匹配的方法，到网页脚本资源里去查找到预定类型插件标签的资源信息，由此提高了网页资源信息的提取成功率，保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置，即可以随时修改，在视频网站版本更新导致原有的网页资源提取规则失效时，可以通过浏览器终端或者后台服务器下发新的正则匹配规则，以应对网站改版导致的原模版失效问题，从而提高了网页资源提取规则的灵活性。

如图8所示，本发明第四实施例提出一种提取网页内容的装置，在上述图7所示的第三实施例的基础上，还包括：

发送模块207，用于将提取的插件资源传递给相应的播放器进行播放。

本实施例与上述图7所示的第三实施例的区别在于，本实施例还包括播放提取的插件资源的方案。

如图9所示，本发明较佳实施例提出一种提取网页内容的系统，包括：终端301和与该终端301通信连接的服务器302，该终端301包括如上所述的装置。

所述服务器302，用于向所述终端301下发用于提取预定类型标签对应的插件资源的预定规则。

具体地，本实施例浏览器可以是PC端浏览器，也可以是手机等移动终端301浏览器，尤其指手机等移动终端301浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统，而不适用于手机端浏览器，在手机端打开网页时，则页面无法播放视频。

另外，考虑到现有的网页内容提取方案需要后台服务器302依赖第三方数据库支撑，不仅增加了运营成本，而且每次打开网页时，都需要向后台服务器302发送查询指令，服务器302还要返回查询结果，增加了额外的流量消耗，并影响了网页的展示速度。本实施例方案可以不依赖后台服务器302，而是在浏览器终端301实现网页中符合预定协议规范的资源信息的提取，以便对提取的资源信息进行相应的处理。

为了提取预定类型的插件资源，本实施例采用以下方案：

相比现有的网页内容提取方案需要后台服务器302依赖第三方数据库支撑，不仅增加了运营成本，而且每次打开网页时，都需要向后台服务器302发送查询指令，服务器302还要返回查询结果，增加了额外的流量消耗，并影响了网页的展示速度。本实施例方案可以不依赖后台服务器302，而是在浏览器终端301实现网页中符合预定协议规范的资源信息的提取，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度；此外，由于本方案可以不依赖后台服务器302而是在浏览器终端301侧实现插件资源的提取，在技术上易于实现，可降低系统开发成本。

进一步地，本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。

具体地，本实施例考虑到一些网页在开发设计过程中，会设置一些其他条件，来确保预定类型的插件资源能够可靠地播放，如要求用户点击某广告，或检测浏览器客户端的尺寸、系统类型，等等。总之，这使得该网页在手机等终端301浏览器上可能无法获得预定类型的插件标签，致使插件资源提取操作失败。

具体实现如下：

需要说明的是，上述预定规则可以动态配置，可以在浏览器终端301完成配置，也可以由后台服务器302配置后下发给浏览器终端301，本实施例以后台服务器302配置后下发给浏览器终端301进行举例，即本实施例插件资源的提取规则可以不写死在浏览器代码里，而是可以用脚本代码动态指定，并可根据各大网站的改版情况动态修正。

当网页所在的视频网站版本更新后，原有的网页资源提取规则因无法动态调整会失效。若采用现有的网页资源提取方案，则无法调整网页资源提取规则；而本实施例中由于采用正则匹配规则，而且预定规则可以动态配置，即可以随时修改，在视频网站版本更新导致原有的网页资源提取规则失效时，本实施例可以通过浏览器终端301或者后台服务器302下发新的正则匹配规则，以应对网站改版导致的原模版失效问题，从而提高了网页资源提取规则的灵活性，并保证了网页资源提取操作的正常进行。

进一步地，本实施例还包括应对预定规则更新后的插件资源提取方案。

具体地，浏览器在拉取到网页后，针对该网页，检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则获取更新后的预定规则，作为一种实施方式，预定规则可以在浏览器终端301完成配置更新，也可以由后台服务器302配置更新后下发给浏览器终端301。

本实施例以预定规则由后台服务器302配置更新进行举例，在检测到有提取预定类型标签对应的插件资源的预定规则更新时，从浏览器后台服务器302获取更新后的预定规则。

本实施例通过上述方案，浏览器在用户浏览网页时，通过解析网页，获取网页脚本中标签的DOM节点；从DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源；将所述插件标签对应的插件资源传递给相应的播放器进行播放，可在网页尚未真正渲染时完成符合特定协议规范的内容的提取，由此提高了网页预定内容的提取速度，同时也提高了网页的展示速度，此外，由于本方案可以不依赖后台服务器302而是在浏览器终端301侧实现插件资源的提取，在技术上易于实现，可降低系统开发成本。另外，在网页设计中存在可能无法获得预定类型的插件标签的应用场景下，采用正则匹配的方法，到网页脚本资源里去查找到预定类型插件标签的资源信息，由此提高了网页资源信息的提取成功率，保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置，即可以随时修改，在视频网站版本更新导致原有的网页资源提取规则失效时，可以通过浏览器终端301或者后台服务器302下发新的正则匹配规则，以应对网站改版导致的原模版失效问题，从而提高了网页资源提取规则的灵活性。

如图10所示，图10是本发明实施例提出的提取网页内容的终端的一种结构示意图。

如图10所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatilememory），例如个磁盘存储器。存储器1005可选的还可以是个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及提取网页内容的应用程序。

在图10所示的终端中，网络接口1004主要用于连接服务器，与服务器进行数据通信；用户接口1003主要用于连接后客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的提取网页内容的应用程序，并执行以下操作：

通过用户接口1003响应用户端在浏览器上触发的网页浏览指令，拉取对应的网页；解析所述网页，获取网页脚本中标签的DOM节点；从所述DOM节点中获取插件标签节点；当所述插件标签节点对应的插件标签为预定类型标签时，提取所述插件标签对应的插件资源。

在一个实施例中，处理器1001调用存储器1005中存储的提取网页内容的应用程序可以执行以下操作：

当所述插件标签节点对应的插件标签不为预定类型标签时，采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源；当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。

检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则通过网络接口1004从浏览器后台服务器获取更新后的预定规则；否则执行步骤：解析所述网页，获取网页脚本中标签的DOM节点。

解析所述网页，生成DOM树；在所述DOM树中创建网页脚本中每个标签的DOM节点。

将提取的插件资源传递给相应的播放器进行播放。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种提取网页内容的方法，其特征在于，包括：

解析所述网页，获取网页脚本中标签的文档对象模型DOM节点；

从所述DOM节点中获取插件标签节点；

2.根据权利要求1所述的方法，其特征在于，所述浏览器支持与所述预定规则相适配的插件资源协议。

3.根据权利要求1所述的方法，其特征在于，所述从DOM节点中获取插件标签节点的步骤之后还包括：

当所述插件标签节点对应的插件标签不为预定类型标签时，采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源；

当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。

4.根据权利要求3所述的方法，其特征在于，所述响应浏览器上触发的网页浏览指令，获取对应的网页的步骤之后还包括：

检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则从浏览器后台服务器获取更新后的预定规则；否则执行步骤：解析所述网页，获取网页脚本中标签的DOM节点。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述解析网页，获取网页脚本中标签的DOM节点的步骤包括：

解析所述网页，生成DOM树；

在所述DOM树中创建网页脚本中每个标签的DOM节点。

6.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

将提取的插件资源传递给相应的播放器进行播放。

7.一种提取网页内容的装置，其特征在于，包括：

获取模块，用于从所述DOM节点中获取插件标签节点；

8.根据权利要求7所述的装置，其特征在于，所述浏览器支持与所述预定规则相适配的插件资源协议。

9.根据权利要求7所述的装置，其特征在于，还包括：

匹配模块，用于当所述插件标签节点对应的插件标签不为预定类型标签时，采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源；

所述提取模块，还用于当匹配成功后，从所述网页脚本中提取预定类型标签对应的插件资源。

10.根据权利要求9所述的装置，其特征在于，还包括：

配置模块，用于检测是否有提取预定类型标签对应的插件资源的预定规则更新，若有，则从浏览器后台服务器获取更新后的预定规则；否则，由所述解析模块解析所述网页，获取网页脚本中标签的DOM节点。

11.根据权利要求7-10中任一项所述的装置，其特征在于，

所述解析模块，还用于解析所述网页，生成DOM树；在所述DOM树中创建网页脚本中每个标签的DOM节点。

12.根据权利要求7-10中任一项所述的装置，其特征在于，还包括：

发送模块，用于将提取的插件资源传递给相应的播放器进行播放。

13.一种提取网页内容的系统，其特征在于，包括：终端，所述终端包括权利要求7-12中任一项所述的装置。

14.根据权利要求13所述的系统，其特征在于，还包括：与所述终端通信连接的服务器；