CN104866512A - 提取网页内容的方法、装置及系统 - Google Patents

提取网页内容的方法、装置及系统 Download PDF

Info

Publication number
CN104866512A
CN104866512A CN201410067190.9A CN201410067190A CN104866512A CN 104866512 A CN104866512 A CN 104866512A CN 201410067190 A CN201410067190 A CN 201410067190A CN 104866512 A CN104866512 A CN 104866512A
Authority
CN
China
Prior art keywords
plug
label
node
resource
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410067190.9A
Other languages
English (en)
Other versions
CN104866512B (zh
Inventor
郭辛华
苏可
马宁
王璟瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410067190.9A priority Critical patent/CN104866512B/zh
Priority to PCT/CN2015/073167 priority patent/WO2015127882A1/en
Publication of CN104866512A publication Critical patent/CN104866512A/zh
Priority to US15/175,093 priority patent/US10430514B2/en
Application granted granted Critical
Publication of CN104866512B publication Critical patent/CN104866512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种提取网页内容的方法、装置及系统,其方法包括:响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当插件标签节点对应的插件标签为预定类型标签时,提取插件标签对应的插件资源。本发明可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。

Description

提取网页内容的方法、装置及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种提取网页内容的方法、装置及系统。
背景技术
目前,在用户使用浏览器访问视频网站时,浏览器会向指定服务器发送查询指令,服务器根据该查询指令中的网页URL查找数据库,获得该网页URL里包含的视频资源的链接、title、类型等数据,返回给浏览器终端。浏览器终端将得到的数据显示出来,呈现给用户,用户可以点击选择相应选项进行播放。
另外,在一些网页中以插件的形式嵌入有视频播放器,视频播放器插件具有各自的协议规范,网页开发者只要按照规范编写网页脚本,在打开网页时,即可方便地调用对应的播放器播放视频、音频数据。
虽然现有的这种视频网站资源播放方式不依靠浏览器终端的提取逻辑,可以减轻终端的负担,但是,需要构建后台服务器,而且服务器还需要依赖第三方数据库支撑,该技术较为复杂且增加了开发成本。此外,每次打开网页时,都需要向后台服务器发送查询指令,服务器还要返回查询结果,不仅增加了额外的流量消耗,而且影响了网页的展示速度。
发明内容
本发明实施例提供一种提取网页内容的方法、装置及系统,旨在快速提取网页资源,降低成本。
本发明实施例提出一种提取网页内容的方法,包括:
响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
解析所述网页,获取网页脚本中标签的DOM(Document Object Model,文档对象模型)节点;
从所述DOM节点中获取插件标签节点;
当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
本发明实施例还提出一种提取网页内容的装置,包括:
拉取模块,用于响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
解析模块,用于解析所述网页,获取网页脚本中标签的DOM节点;
获取模块,用于从所述DOM节点中获取插件标签节点;
提取模块,用于当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
本发明实施例还提出一种提取网页内容的系统,包括:终端及与所述终端通信连接的服务器,所述终端包括如上所述的装置;
所述服务器,用于向所述终端下发用于提取预定类型标签对应的插件资源的预定规则。
本发明实施例提出的一种提取网页内容的方法、装置及系统,浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。
附图说明
图1是本发明提取网页内容的方法第一实施例的流程示意图;
图2是本发明提取网页内容的方法第二实施例的流程示意图;
图3是本发明提取网页内容的方法第三实施例的流程示意图;
图4是本发明提取网页内容的方法第四实施例的流程示意图;
图5是本发明提取网页内容的装置第一实施例的功能模块示意图;
图6是本发明提取网页内容的装置第二实施例的功能模块示意图;
图7是本发明提取网页内容的装置第三实施例的功能模块示意图;
图8是本发明提取网页内容的装置第四实施例的功能模块示意图;
图9是本发明提取网页内容的系统较佳实施例的架构示意图;
图10是本发明实施例提取网页内容的终端的另一种结构示意图。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM(Document Object Model,文档对象模型)节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取插件标签对应的插件资源;将插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,以提高网页预定内容的提取速度和网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。
如图1所示,本发明第一实施例提出一种提取网页内容的方法,包括:
步骤S101,响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
其中,本实施例浏览器可以是PC端浏览器,也可以是手机等移动终端浏览器,尤其指手机等移动终端浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统,而不适用于手机端浏览器,在手机端打开网页时,则页面无法播放视频。
另外,考虑到现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器发送查询指令,服务器还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器,而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取,以便对提取的资源信息进行相应的处理。
比如提取嵌入网页的浏览器播放器插件对应的插件资源(比如提取快播qvod、百度影音bdhd资源、flash资源,或者其它预定类型的插件资源等),调用相应的播放器实现视频资源的播放等,从而可以降低成本。
具体地,在用户通过浏览器浏览网页时,浏览器根据用户触发的网页浏览指令拉取对应的网页,该网页中以插件形式嵌入有符合预定协议规范的视频播放器。针对不同协议规范的视频播放器插件,由网页开发者按照规范编写相应的网页脚本,在打开网页时,即可方便地调用对应的播放器播放视频、音频数据。
步骤S102,解析所述网页,获取网页脚本中标签的DOM节点;
浏览器在拉取到网页后,对该网页进行解析,生成DOM树;其中,DOM树是指文档模型树,在HTML网页脚本中,其中的所有元素单元组合在一起可以看作是一颗多叉树,这种树结构被称为节点树。DOM树中的每一节点单元对应HTML网页脚本里的一个元素单元,即标签(tag),可通过这棵DOM树访问所有节点,可以对DOM树进行节点的遍历、插入、删除等操作,也可以创建新的节点元素。
DOM树展示了节点的集合,以及它们之间的联系。这棵树从根节点开始,然后在树的最低层级向文本节点长出枝条。DOM树中的节点彼此之间都有等级关系,通常通过父、子和同级节点来描述这种关系。父节点拥有子节点,位于相同层级上的子节点称为同级节点(兄弟或姐妹)。
在DOM树中,顶端的节点称为根节点,根节点之外的每个节点都有一个父节点,节点可以有任何数量的子节点,叶子是没有子节点的节点,同级节点是拥有相同父节点的节点。因为HTML等文档数据是按照树的形式进行构造的,所以可以在不了解树的确切结构且不了解其中包含的数据类型的情况下,对其进行遍历。
在HTML网页脚本的标签中,有一种标签类型<embed>(embed是HTML5中新增的标签,可以在页面中嵌入任何类型的文档,用户的机器上必须已经安装了能够正确显示文档内容的程序,一般常用于在网页中插入多媒体格式,该多媒体格式可以是rm.mid.wav等),用以标志一种插件资源,该插件资源是使用嵌入浏览器的某种插件(比如浏览器播放器插件)来呈现内容的。
浏览器在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中包括创建插件标签(embed)节点,每一插件标签节点具有指定的类型(type)或分类标识(classid),用以标识插件资源的类型。
步骤S103,从所述DOM节点中获取插件标签节点;
步骤S104,当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;
为了提取预定类型的插件资源,本实施例采用以下方案:
在浏览器创建插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,作为一种实施方式,可以提取插件标签的src/url/param_url。
在提取出插件标签对应的插件资源后,可以将该插件资源传递给相应的播放器进行播放。
本实施例通过上述方案,在用户通过浏览器浏览网页时,浏览器通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放。
相比现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器发送查询指令,服务器还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器,而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度;此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低系统开发成本。
需要说明的是,考虑到一些网页在开发设计过程中,会检测网页当前运行的系统所安装的插件类型,如果不存在某种预定类型的插件,则不会允许从网页中提取该预定类型的插件资源信息。为此,本实施例还可以在浏览器代码中声明,该浏览器支持与预定规则相适配的插件资源协议,以便在网页打开过程中,能够从网页中提取该预定类型的资源信息。
如图2所示,本发明第二实施例提出一种提取网页内容的方法,在上述图1所示的第一实施例的基础上,在上述步骤S103:从DOM节点中获取插件标签节点之后还包括:
步骤S105,判断插件标签节点对应的插件标签是否为预定类型标签;若是,则进入步骤S104;否则;进入步骤S106;
步骤S106,采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源;
步骤S107,当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。
本实施例与上述图1所示的第一实施例的区别在于,本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。
具体地,本实施例考虑到一些网页在开发设计过程中,会设置一些其他条件,来确保预定类型的插件资源能够可靠地播放,如要求用户点击某广告,或检测浏览器客户端的尺寸、系统类型,等等。总之,这使得该网页在手机等终端浏览器上可能无法获得预定类型的插件标签,致使插件资源提取操作失败。
为此,本实施例采用如下解决方案:采取正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息。
具体实现如下:
当判断获取的插件标签节点对应的插件标签不为预定类型标签时,采用预定规则,例如正则表达式规则,匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。
需要说明的是,上述预定规则可以动态配置,可以在浏览器终端完成配置,也可以由后台服务器配置后下发给浏览器终端,即本实施例插件资源的提取规则可以不写死在浏览器代码里,而是可以用脚本代码动态指定,并可根据各大网站的改版情况动态修正。
当网页所在的视频网站版本更新后,原有的网页资源提取规则因无法动态调整会失效。若采用现有的网页资源提取方案,则无法调整网页资源提取规则;而本实施例中由于采用正则匹配规则,而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,本实施例可以通过浏览器终端或者后台服务器下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性,并保证了网页资源提取操作的正常进行。
如图3所示,本发明第三实施例提出一种提取网页内容的方法,在上述图2所示的第二实施例的基础上,在上述步骤S101,响应移动客户端在浏览器上触发的网页浏览指令,拉取对应的网页之后还包括:
步骤S108,检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则进入步骤S109;否则,进入步骤S102;
步骤S109,从浏览器后台服务器获取更新后的预定规则;进入步骤S102。
本实施例与上述图2所示的第二实施例的区别在于,本实施例还包括应对预定规则更新后的插件资源提取方案。
具体地,浏览器在拉取到网页后,针对该网页,检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则获取更新后的预定规则,作为一种实施方式,预定规则可以在浏览器终端完成配置更新,也可以由后台服务器配置更新后下发给浏览器终端。
本实施例以预定规则由后台服务器配置更新进行举例,在检测到有提取预定类型标签对应的插件资源的预定规则更新时,从浏览器后台服务器获取更新后的预定规则。
之后,浏览器对该网页进行解析,生成DOM树,在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中,在创建插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,将所述插件标签对应的插件资源传递给相应的播放器进行播放。
若判断该插件标签节点对应的插件标签不为预定类型标签,则采用更新后的预定规则,例如正则表达式规则,匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源,并将对应的插件资源传递给相应的播放器进行播放。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。另外,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,可以通过浏览器终端或者后台服务器下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性。
如图4所示,本发明第四实施例提出一种提取网页内容的方法,在上述图3所示的第三实施例的基础上,还可以包括:
步骤S110,将提取的插件资源传递给相应的播放器进行播放。
本实施例与上述图3所示的第三实施例的区别在于,本实施例还包括播放提取的插件资源的方案。
在提取出对应的插件资源后,将该插件资源传递给相应的播放器进行播放,由此实现了插件类网页内容在终端尤其是手机等移动终端浏览器上的播放展示。其他与第三实施例相同。
如图5所示,本发明第一实施例提出一种提取网页内容的装置,包括:拉取模块201、解析模块202、获取模块203、提取模块204,其中:
拉取模块201,用于响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
解析模块202,用于解析所述网页,获取网页脚本中标签的DOM节点;
获取模块203,用于从所述DOM节点中获取插件标签节点;
提取模块204,用于当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
其中,本实施例装置可以设置在浏览器终端上。本实施例浏览器可以是PC端浏览器,也可以是手机等移动终端浏览器,尤其指手机等移动终端浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统,而不适用于手机端浏览器,在手机端打开网页时,则页面无法播放视频。
另外,考虑到现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器发送查询指令,服务器还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器,而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取,以便对提取的资源信息进行相应的处理。
比如提取嵌入网页的浏览器播放器插件对应的插件资源(比如提取快播qvod、百度影音bdhd资源、flash资源,或者其它预定类型的插件资源等),调用相应的播放器实现视频资源的播放等,从而可以降低成本。
具体地,在用户通过浏览器浏览网页时,浏览器根据用户触发的网页浏览指令拉取对应的网页,该网页中以插件形式嵌入有符合预定协议规范的视频播放器。针对不同协议规范的视频播放器插件,由网页开发者按照规范编写相应的网页脚本,在打开网页时,即可方便地调用对应的播放器播放视频、音频数据。
浏览器在拉取到网页后,对该网页进行解析,生成DOM树;其中,DOM树是指文档模型树,在HTML网页脚本中,其中的所有元素单元组合在一起可以看作是一颗多叉树,这种树结构被称为节点树。DOM树中的每一节点单元对应HTML网页脚本里的一个元素单元,即标签(tag),可通过这棵DOM树访问所有节点,可以对DOM树进行节点的遍历、插入、删除等操作,也可以创建新的节点元素。
DOM树展示了节点的集合,以及它们之间的联系。这棵树从根节点开始,然后在树的最低层级向文本节点长出枝条。DOM树中的节点彼此之间都有等级关系,通常通过父、子和同级节点来描述这种关系。父节点拥有子节点,位于相同层级上的子节点称为同级节点(兄弟或姐妹)。
在DOM树中,顶端的节点称为根节点,根节点之外的每个节点都有一个父节点,节点可以有任何数量的子节点,叶子是没有子节点的节点,同级节点是拥有相同父节点的节点。因为HTML等文档数据是按照树的形式进行构造的,所以可以在不了解树的确切结构且不了解其中包含的数据类型的情况下,对其进行遍历。
在HTML网页脚本的标签中,有一种标签类型<embed>(embed是HTML5中新增的标签,可以在页面中嵌入任何类型的文档,用户的机器上必须已经安装了能够正确显示文档内容的程序,一般常用于在网页中插入多媒体格式,该多媒体格式可以是rm.mid.wav等),用以标志一种插件资源,该插件资源是使用嵌入浏览器的某种插件(比如浏览器播放器插件)来呈现内容的。
浏览器在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中包括创建插件标签(embed)节点,每一插件标签节点具有指定的类型(type)或分类标识(classid),用以标识插件资源的类型。
为了提取预定类型的插件资源,本实施例采用以下方案:
在浏览器创建插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,作为一种实施方式,可以提取插件标签的src/url/param_url。
在提取出插件标签对应的插件资源后,可以将该插件资源传递给相应的播放器进行播放。
本实施例通过上述方案,在用户通过浏览器浏览网页时,浏览器通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放。
相比现有的网页内容提取方案需要后台服务器依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器发送查询指令,服务器还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器,而是在浏览器终端实现网页中符合预定协议规范的资源信息的提取,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度;此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可系统降低开发成本。
需要说明的是,考虑到一些网页在开发设计过程中,会检测网页当前运行的系统所安装的插件类型,如果不存在某种预定类型的插件,则不会允许从网页中提取该预定类型的插件资源信息。为此,本实施例还可以在浏览器代码中声明,该浏览器支持与预定规则相适配的插件资源协议,以便在网页打开过程中,能够从网页中提取该预定类型的资源信息。
如图6所示,本发明第二实施例提出一种提取网页内容的装置,在上述图5所示的第一实施例的基础上,还包括:
匹配模块205,用于当所述插件标签节点对应的插件标签不为预定类型标签时,采用预定规则,例如正则表达式规则,匹配所述网页脚本的预定类型标签对应的插件资源;
所述提取模块204,还用于当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。
本实施例与上述图5所示的第一实施例的区别在于,本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。
具体地,本实施例考虑到一些网页在开发设计过程中,会设置一些其他条件,来确保预定类型的插件资源能够可靠地播放,如要求用户点击某广告,或检测浏览器客户端的尺寸、系统类型,等等。总之,这使得该网页在手机等终端浏览器上可能无法获得预定类型的插件标签,致使插件资源提取操作失败。
为此,本实施例采用如下解决方案:采取正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息。
具体实现如下:
当判断获取的插件标签节点对应的插件标签不为预定类型标签时,采用预定规则,例如正则表达式规则,匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。
需要说明的是,上述预定规则可以动态配置,可以在浏览器终端完成配置,也可以由后台服务器配置后下发给浏览器终端,即本实施例插件资源的提取规则可以不写死在浏览器代码里,而是可以用脚本代码动态指定,并可根据各大网站的改版情况动态修正。
当网页所在的视频网站版本更新后,原有的网页资源提取规则因无法动态调整会失效。若采用现有的网页资源提取方案,则无法调整网页资源提取规则;而本实施例中由于采用正则匹配规则,而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,本实施例可以通过浏览器终端或者后台服务器下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性,并保证了网页资源提取操作的正常进行。
如图7所示,本发明第三实施例提出一种提取网页内容的装置,在上述图6所示的第二实施例的基础上,还包括:
配置模块206,用于检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则从浏览器后台服务器获取更新后的预定规则;否则,由所述解析模块202解析所述网页,获取网页脚本中标签的DOM节点。
本实施例与上述图6所示的第二实施例的区别在于,本实施例还包括应对预定规则更新后的插件资源提取方案。
具体地,浏览器在拉取到网页后,针对该网页,检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则获取更新后的预定规则,作为一种实施方式,预定规则可以在浏览器终端完成配置更新,也可以由后台服务器配置更新后下发给浏览器终端。
本实施例以预定规则由后台服务器配置更新进行举例,在检测到有提取预定类型标签对应的插件资源的预定规则更新时,从浏览器后台服务器获取更新后的预定规则。
之后,浏览器对该网页进行解析,生成DOM树,在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中,在创建用于标志插件资源的插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或(classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,将所述插件标签对应的插件资源传递给相应的播放器进行播放。
若判断该插件标签节点对应的插件标签不为预定类型标签,则采用更新后的预定规则匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源,并将对应的插件资源传递给相应的播放器进行播放。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上述易于实现,可降低开发成本。另外,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,可以通过浏览器终端或者后台服务器下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性。
如图8所示,本发明第四实施例提出一种提取网页内容的装置,在上述图7所示的第三实施例的基础上,还包括:
发送模块207,用于将提取的插件资源传递给相应的播放器进行播放。
本实施例与上述图7所示的第三实施例的区别在于,本实施例还包括播放提取的插件资源的方案。
在提取出对应的插件资源后,将该插件资源传递给相应的播放器进行播放,由此实现了插件类网页内容在终端尤其是手机等移动终端浏览器上的播放展示。其他与第三实施例相同。
如图9所示,本发明较佳实施例提出一种提取网页内容的系统,包括:终端301和与该终端301通信连接的服务器302,该终端301包括如上所述的装置。
所述服务器302,用于向所述终端301下发用于提取预定类型标签对应的插件资源的预定规则。
具体地,本实施例浏览器可以是PC端浏览器,也可以是手机等移动终端301浏览器,尤其指手机等移动终端301浏览器。因为现有的嵌入网页的浏览器播放器插件多局限于PC端桌面系统,而不适用于手机端浏览器,在手机端打开网页时,则页面无法播放视频。
另外,考虑到现有的网页内容提取方案需要后台服务器302依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器302发送查询指令,服务器302还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器302,而是在浏览器终端301实现网页中符合预定协议规范的资源信息的提取,以便对提取的资源信息进行相应的处理。
比如提取嵌入网页的浏览器播放器插件对应的插件资源(比如提取快播qvod、百度影音bdhd资源、flash资源,或者其它预定类型的插件资源等),调用相应的播放器实现视频资源的播放等,从而可以降低成本。
具体地,在用户通过浏览器浏览网页时,浏览器根据用户触发的网页浏览指令拉取对应的网页,该网页中以插件形式嵌入有符合预定协议规范的视频播放器。针对不同协议规范的视频播放器插件,由网页开发者按照规范编写相应的网页脚本,在打开网页时,即可方便地调用对应的播放器播放视频、音频数据。
浏览器在拉取到网页后,对该网页进行解析,生成DOM树;其中,DOM树是指文档模型树,在HTML网页脚本中,其中的所有元素单元组合在一起可以看作是一颗多叉树,这种树结构被称为节点树。DOM树中的每一节点单元对应HTML网页脚本里的一个元素单元,即标签(tag),可通过这棵DOM树访问所有节点,可以对DOM树进行节点的遍历、插入、删除等操作,也可以创建新的节点元素。
DOM树展示了节点的集合,以及它们之间的联系。这棵树从根节点开始,然后在树的最低层级向文本节点长出枝条。DOM树中的节点彼此之间都有等级关系,通常通过父、子和同级节点来描述这种关系。父节点拥有子节点,位于相同层级上的子节点称为同级节点(兄弟或姐妹)。
在DOM树中,顶端的节点称为根节点,根节点之外的每个节点都有一个父节点,节点可以有任何数量的子节点,叶子是没有子节点的节点,同级节点是拥有相同父节点的节点。因为HTML等文档数据是按照树的形式进行构造的,所以可以在不了解树的确切结构且不了解其中包含的数据类型的情况下,对其进行遍历。
在HTML网页脚本的标签中,有一种标签类型<embed>(embed是HTML5中新增的标签,可以在页面中嵌入任何类型的文档,用户的机器上必须已经安装了能够正确显示文档内容的程序,一般常用于在网页中插入多媒体格式,该多媒体格式可以是rm.mid.wav等),用以标志一种插件资源,该插件资源是使用嵌入浏览器的某种插件(比如浏览器播放器插件)来呈现内容的。
浏览器在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中包括创建插件标签(embed)节点,每一插件标签节点具有指定的类型(type)或分类标识(classid),用以标识插件资源的类型。
为了提取预定类型的插件资源,本实施例采用以下方案:
在浏览器创建插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,作为一种实施方式,可以提取插件标签的src/url/param_url。
在提取出插件标签对应的插件资源后,可以将该插件资源传递给相应的播放器进行播放。
本实施例通过上述方案,在用户通过浏览器浏览网页时,浏览器通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放。
相比现有的网页内容提取方案需要后台服务器302依赖第三方数据库支撑,不仅增加了运营成本,而且每次打开网页时,都需要向后台服务器302发送查询指令,服务器302还要返回查询结果,增加了额外的流量消耗,并影响了网页的展示速度。本实施例方案可以不依赖后台服务器302,而是在浏览器终端301实现网页中符合预定协议规范的资源信息的提取,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度;此外,由于本方案可以不依赖后台服务器302而是在浏览器终端301侧实现插件资源的提取,在技术上易于实现,可降低系统开发成本。
需要说明的是,考虑到一些网页在开发设计过程中,会检测网页当前运行的系统所安装的插件类型,如果不存在某种预定类型的插件,则不会允许从网页中提取该预定类型的插件资源信息。为此,本实施例还可以在浏览器代码中声明,该浏览器支持与预定规则相适配的插件资源协议,以便在网页打开过程中,能够从网页中提取该预定类型的资源信息。
进一步地,本实施例还包括插件标签节点对应的插件标签不为预定类型标签时提取插件资源的处理方案。
具体地,本实施例考虑到一些网页在开发设计过程中,会设置一些其他条件,来确保预定类型的插件资源能够可靠地播放,如要求用户点击某广告,或检测浏览器客户端的尺寸、系统类型,等等。总之,这使得该网页在手机等终端301浏览器上可能无法获得预定类型的插件标签,致使插件资源提取操作失败。
为此,本实施例采用如下解决方案:采取正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息。
具体实现如下:
当判断获取的插件标签节点对应的插件标签不为预定类型标签时,采用预定规则,例如正则表达式规则,匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。
需要说明的是,上述预定规则可以动态配置,可以在浏览器终端301完成配置,也可以由后台服务器302配置后下发给浏览器终端301,本实施例以后台服务器302配置后下发给浏览器终端301进行举例,即本实施例插件资源的提取规则可以不写死在浏览器代码里,而是可以用脚本代码动态指定,并可根据各大网站的改版情况动态修正。
当网页所在的视频网站版本更新后,原有的网页资源提取规则因无法动态调整会失效。若采用现有的网页资源提取方案,则无法调整网页资源提取规则;而本实施例中由于采用正则匹配规则,而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,本实施例可以通过浏览器终端301或者后台服务器302下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性,并保证了网页资源提取操作的正常进行。
进一步地,本实施例还包括应对预定规则更新后的插件资源提取方案。
具体地,浏览器在拉取到网页后,针对该网页,检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则获取更新后的预定规则,作为一种实施方式,预定规则可以在浏览器终端301完成配置更新,也可以由后台服务器302配置更新后下发给浏览器终端301。
本实施例以预定规则由后台服务器302配置更新进行举例,在检测到有提取预定类型标签对应的插件资源的预定规则更新时,从浏览器后台服务器302获取更新后的预定规则。
之后,浏览器对该网页进行解析,生成DOM树,在生成DOM树的阶段会创建网页脚本中每个标签(tag)的DOM节点,其中,在创建插件标签(embed)节点时,获取该插件标签节点,并根据插件标签节点的type或classid)判断该插件标签节点对应的插件标签是否为预定类型标签,即是否符合预定协议规范,若是,则提取所述插件标签对应的插件资源,将所述插件标签对应的插件资源传递给相应的播放器进行播放。
若判断该插件标签节点对应的插件标签不为预定类型标签,则采用更新后的预定规则匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源,并将对应的插件资源传递给相应的播放器进行播放。若匹配失败,则表示插件资源提取失败。
本实施例通过上述方案,浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器302而是在浏览器终端301侧实现插件资源的提取,在技术上易于实现,可降低系统开发成本。另外,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,可以通过浏览器终端301或者后台服务器302下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性。
如图10所示,图10是本发明实施例提出的提取网页内容的终端的一种结构示意图。
如图10所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如个磁盘存储器。存储器1005可选的还可以是个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及提取网页内容的应用程序。
在图10所示的终端中,网络接口1004主要用于连接服务器,与服务器进行数据通信;用户接口1003主要用于连接后客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的提取网页内容的应用程序,并执行以下操作:
通过用户接口1003响应用户端在浏览器上触发的网页浏览指令,拉取对应的网页;解析所述网页,获取网页脚本中标签的DOM节点;从所述DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
在一个实施例中,处理器1001调用存储器1005中存储的提取网页内容的应用程序可以执行以下操作:
当所述插件标签节点对应的插件标签不为预定类型标签时,采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源;当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。
在一个实施例中,处理器1001调用存储器1005中存储的提取网页内容的应用程序可以执行以下操作:
检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则通过网络接口1004从浏览器后台服务器获取更新后的预定规则;否则执行步骤:解析所述网页,获取网页脚本中标签的DOM节点。
在一个实施例中,处理器1001调用存储器1005中存储的提取网页内容的应用程序可以执行以下操作:
解析所述网页,生成DOM树;在所述DOM树中创建网页脚本中每个标签的DOM节点。
在一个实施例中,处理器1001调用存储器1005中存储的提取网页内容的应用程序可以执行以下操作:
将提取的插件资源传递给相应的播放器进行播放。
本实施例通过上述方案,浏览器在用户浏览网页时,通过解析网页,获取网页脚本中标签的DOM节点;从DOM节点中获取插件标签节点;当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源;将所述插件标签对应的插件资源传递给相应的播放器进行播放,可在网页尚未真正渲染时完成符合特定协议规范的内容的提取,由此提高了网页预定内容的提取速度,同时也提高了网页的展示速度,此外,由于本方案可以不依赖后台服务器而是在浏览器终端侧实现插件资源的提取,在技术上易于实现,可降低开发成本。另外,在网页设计中存在可能无法获得预定类型的插件标签的应用场景下,采用正则匹配的方法,到网页脚本资源里去查找到预定类型插件标签的资源信息,由此提高了网页资源信息的提取成功率,保证了网页资源信息提取操作的可靠性。而且预定规则可以动态配置,即可以随时修改,在视频网站版本更新导致原有的网页资源提取规则失效时,可以通过浏览器终端或者后台服务器下发新的正则匹配规则,以应对网站改版导致的原模版失效问题,从而提高了网页资源提取规则的灵活性。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种提取网页内容的方法,其特征在于,包括:
响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
解析所述网页,获取网页脚本中标签的文档对象模型DOM节点;
从所述DOM节点中获取插件标签节点;
当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
2.根据权利要求1所述的方法,其特征在于,所述浏览器支持与所述预定规则相适配的插件资源协议。
3.根据权利要求1所述的方法,其特征在于,所述从DOM节点中获取插件标签节点的步骤之后还包括:
当所述插件标签节点对应的插件标签不为预定类型标签时,采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源;
当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。
4.根据权利要求3所述的方法,其特征在于,所述响应浏览器上触发的网页浏览指令,获取对应的网页的步骤之后还包括:
检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则从浏览器后台服务器获取更新后的预定规则;否则执行步骤:解析所述网页,获取网页脚本中标签的DOM节点。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述解析网页,获取网页脚本中标签的DOM节点的步骤包括:
解析所述网页,生成DOM树;
在所述DOM树中创建网页脚本中每个标签的DOM节点。
6.根据权利要求1-4中任一项所述的方法,其特征在于,还包括:
将提取的插件资源传递给相应的播放器进行播放。
7.一种提取网页内容的装置,其特征在于,包括:
拉取模块,用于响应移动客户端在浏览器上触发的网页浏览指令,获取对应的网页;
解析模块,用于解析所述网页,获取网页脚本中标签的DOM节点;
获取模块,用于从所述DOM节点中获取插件标签节点;
提取模块,用于当所述插件标签节点对应的插件标签为预定类型标签时,提取所述插件标签对应的插件资源。
8.根据权利要求7所述的装置,其特征在于,所述浏览器支持与所述预定规则相适配的插件资源协议。
9.根据权利要求7所述的装置,其特征在于,还包括:
匹配模块,用于当所述插件标签节点对应的插件标签不为预定类型标签时,采用预定规则匹配所述网页脚本的预定类型标签对应的插件资源;
所述提取模块,还用于当匹配成功后,从所述网页脚本中提取预定类型标签对应的插件资源。
10.根据权利要求9所述的装置,其特征在于,还包括:
配置模块,用于检测是否有提取预定类型标签对应的插件资源的预定规则更新,若有,则从浏览器后台服务器获取更新后的预定规则;否则,由所述解析模块解析所述网页,获取网页脚本中标签的DOM节点。
11.根据权利要求7-10中任一项所述的装置,其特征在于,
所述解析模块,还用于解析所述网页,生成DOM树;在所述DOM树中创建网页脚本中每个标签的DOM节点。
12.根据权利要求7-10中任一项所述的装置,其特征在于,还包括:
发送模块,用于将提取的插件资源传递给相应的播放器进行播放。
13.一种提取网页内容的系统,其特征在于,包括:终端,所述终端包括权利要求7-12中任一项所述的装置。
14.根据权利要求13所述的系统,其特征在于,还包括:与所述终端通信连接的服务器;
所述服务器,用于向所述终端下发用于提取预定类型标签对应的插件资源的预定规则。
CN201410067190.9A 2014-02-26 2014-02-26 提取网页内容的方法、装置及系统 Active CN104866512B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410067190.9A CN104866512B (zh) 2014-02-26 2014-02-26 提取网页内容的方法、装置及系统
PCT/CN2015/073167 WO2015127882A1 (en) 2014-02-26 2015-02-16 Method, apparatus and system for extracting webpage content
US15/175,093 US10430514B2 (en) 2014-02-26 2016-06-07 Method and terminal for extracting webpage content, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410067190.9A CN104866512B (zh) 2014-02-26 2014-02-26 提取网页内容的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104866512A true CN104866512A (zh) 2015-08-26
CN104866512B CN104866512B (zh) 2018-09-07

Family

ID=53912347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410067190.9A Active CN104866512B (zh) 2014-02-26 2014-02-26 提取网页内容的方法、装置及系统

Country Status (3)

Country Link
US (1) US10430514B2 (zh)
CN (1) CN104866512B (zh)
WO (1) WO2015127882A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105516750A (zh) * 2015-12-03 2016-04-20 深圳市茁壮网络股份有限公司 一种基于object标签的插件卸载和删除以及更新方法
WO2017076315A1 (zh) * 2015-11-05 2017-05-11 广州市动景计算机科技有限公司 页面显示方法、装置、系统以及页面显示辅助方法、装置
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置
CN107807927A (zh) * 2016-09-08 2018-03-16 广州市动景计算机科技有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
CN108345790A (zh) * 2017-12-31 2018-07-31 广东欧珀移动通信有限公司 恶意请求检测方法、装置、移动终端以及存储介质
CN110471887A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种获取网页内容渲染文件的方法及装置
CN112597410A (zh) * 2020-12-10 2021-04-02 北京明朝万达科技股份有限公司 基于规则配置库对网页内容执行结构化提取的方法及装置
CN112667878A (zh) * 2020-12-31 2021-04-16 平安国际智慧城市科技股份有限公司 网页的文本内容提取方法、装置、电子设备及存储介质
CN112925968A (zh) * 2021-02-25 2021-06-08 深圳壹账通智能科技有限公司 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
CN113891113A (zh) * 2021-09-29 2022-01-04 阿里巴巴(中国)有限公司 视频剪辑合成方法及电子设备
CN115665480A (zh) * 2022-10-25 2023-01-31 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN117056637A (zh) * 2023-09-26 2023-11-14 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质
US20240070380A1 (en) * 2022-08-31 2024-02-29 Docusign, Inc. Dynamic implementation of document management system capabilities in third party integrations

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389365B (zh) * 2015-11-09 2019-07-02 上海斐讯数据通信技术有限公司 自动轮换图片的方法
CN106855856A (zh) * 2015-12-08 2017-06-16 北京金山安全软件有限公司 一种信息展示方法、装置及电子设备
CN107870920B (zh) * 2016-09-23 2023-01-31 深圳市雅阅科技有限公司 浏览器资源预拉取方法及装置
CN109885743B (zh) * 2019-01-04 2024-01-02 上海七印信息科技有限公司 一种网页数据信息提取方法
CN113283216A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 网页内容显示方法、装置、设备及存储介质
CN113254751B (zh) * 2021-06-24 2021-09-21 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质
CN114935999A (zh) * 2022-06-21 2022-08-23 中国建设银行股份有限公司 网页复制方法、装置以及设备
CN116719986B (zh) * 2023-08-10 2023-12-26 深圳传趣网络技术有限公司 基于Python的数据抓取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和系统
CN102184184A (zh) * 2011-04-07 2011-09-14 安徽博约信息科技有限责任公司 一种网页动态信息获取方法
CN102625182A (zh) * 2012-03-31 2012-08-01 百视通网络电视技术发展有限责任公司 互联网电视业务中集成和控制视频播放器的方法和系统
CN103338384A (zh) * 2013-05-31 2013-10-02 优视科技有限公司 一种视频播放方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226314A1 (en) * 2006-03-22 2007-09-27 Sss Research Inc. Server-based systems and methods for enabling interactive, collabortive thin- and no-client image-based applications
US8490148B2 (en) * 2007-03-12 2013-07-16 Citrix Systems, Inc Systems and methods for managing application security profiles
US20120210205A1 (en) * 2011-02-11 2012-08-16 Greg Sherwood System and method for using an application on a mobile device to transfer internet media content
US9058391B2 (en) * 2011-03-14 2015-06-16 Slangwho, Inc. System and method for transmitting a feed related to a first user to a second user
US9942299B2 (en) * 2013-03-15 2018-04-10 Yottaa Inc. System and method for managing multiple variants of an HTTP object

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715004A (zh) * 2009-11-12 2010-05-26 中国科学院计算技术研究所 面向网络视频的分布式采集方法和系统
CN102184184A (zh) * 2011-04-07 2011-09-14 安徽博约信息科技有限责任公司 一种网页动态信息获取方法
CN102625182A (zh) * 2012-03-31 2012-08-01 百视通网络电视技术发展有限责任公司 互联网电视业务中集成和控制视频播放器的方法和系统
CN103338384A (zh) * 2013-05-31 2013-10-02 优视科技有限公司 一种视频播放方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997360B2 (en) 2015-11-05 2021-05-04 Guangzhou Ucweb Computer Technology Co., Ltd. Page display method, device, and system, and page display assist method and device
WO2017076315A1 (zh) * 2015-11-05 2017-05-11 广州市动景计算机科技有限公司 页面显示方法、装置、系统以及页面显示辅助方法、装置
CN105516750B (zh) * 2015-12-03 2019-04-30 深圳市茁壮网络股份有限公司 一种基于object标签的插件卸载和删除以及更新方法
CN105516750A (zh) * 2015-12-03 2016-04-20 深圳市茁壮网络股份有限公司 一种基于object标签的插件卸载和删除以及更新方法
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置
CN107807927A (zh) * 2016-09-08 2018-03-16 广州市动景计算机科技有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
CN108345790A (zh) * 2017-12-31 2018-07-31 广东欧珀移动通信有限公司 恶意请求检测方法、装置、移动终端以及存储介质
CN110471887A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种获取网页内容渲染文件的方法及装置
CN112597410A (zh) * 2020-12-10 2021-04-02 北京明朝万达科技股份有限公司 基于规则配置库对网页内容执行结构化提取的方法及装置
CN112667878A (zh) * 2020-12-31 2021-04-16 平安国际智慧城市科技股份有限公司 网页的文本内容提取方法、装置、电子设备及存储介质
CN112667878B (zh) * 2020-12-31 2024-07-12 平安国际智慧城市科技股份有限公司 网页的文本内容提取方法、装置、电子设备及存储介质
CN112925968A (zh) * 2021-02-25 2021-06-08 深圳壹账通智能科技有限公司 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
CN113891113A (zh) * 2021-09-29 2022-01-04 阿里巴巴(中国)有限公司 视频剪辑合成方法及电子设备
CN113891113B (zh) * 2021-09-29 2024-03-12 阿里巴巴(中国)有限公司 视频剪辑合成方法及电子设备
US20240070380A1 (en) * 2022-08-31 2024-02-29 Docusign, Inc. Dynamic implementation of document management system capabilities in third party integrations
CN115665480A (zh) * 2022-10-25 2023-01-31 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN115665480B (zh) * 2022-10-25 2024-06-07 广州至真信息科技有限公司 一种数据渲染方法、装置、计算机设备和存储介质
CN117056637A (zh) * 2023-09-26 2023-11-14 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质
CN117056637B (zh) * 2023-09-26 2024-03-12 之江实验室 无障碍网页生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2015127882A1 (en) 2015-09-03
US20160283461A1 (en) 2016-09-29
CN104866512B (zh) 2018-09-07
US10430514B2 (en) 2019-10-01

Similar Documents

Publication Publication Date Title
CN104866512A (zh) 提取网页内容的方法、装置及系统
US20220318336A1 (en) Method and Terminal Device for Extracting Web Page Content
US20190251143A1 (en) Web page rendering method and related device
KR102185864B1 (ko) 프레젠테이션을 위한 네이티브 콘텐츠의 서버측 렌더링 방법 및 시스템
CN104021172A (zh) 广告过滤方法及广告过滤装置
CN109032917B (zh) 页面调试方法和系统、移动终端以及电脑端
CN104965691A (zh) 配置网页页面的页面元素的方法、装置及系统
CN104063401B (zh) 一种网页样式地址合并的方法和装置
CN102609264A (zh) 一种调用应用程序编程接口生成调用代码的方法及装置
US9646103B2 (en) Client-side template engine and method for constructing a nested DOM module for a website
CN103605688A (zh) 一种网页广告的拦截方法、装置和浏览器
CN104158836A (zh) 一种通过数据渲染移动应用界面的方法
CN105095280A (zh) 一种浏览器缓存方法和装置
CN102124481A (zh) 在具有广告的网页中嵌入宏
US20170192941A1 (en) Computer-Automated Generation of Application Deep Links
CN102982169A (zh) 用于隔离网页插件的浏览器和方法
CN111695076A (zh) 基于超文本5的跨浏览器网页兼容标准构建方法
CN105094868A (zh) 一种软件升级方法、服务器及终端
CN105808587A (zh) 在网页中嵌入信息的方法、网关设备及系统
US7143359B2 (en) Emulating advanced graphical user interface elements in a hypermedia content browser
CN103034495A (zh) 对网页中插件进行隔离的浏览器及网页插件的隔离方法
CN103530338A (zh) 在计算设备上进行页面渲染的框架及生成页面的方法
CN104820604A (zh) 一种应用于pos终端的浏览器
US8452814B1 (en) Gathering context in action to support in-context localization
CN106681852A (zh) 一种浏览器兼容性的调整方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221129

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right