CN102486799A - 一种环球信息网www页面处理方法和装置 - Google Patents

一种环球信息网www页面处理方法和装置 Download PDF

Info

Publication number
CN102486799A
CN102486799A CN2010105862694A CN201010586269A CN102486799A CN 102486799 A CN102486799 A CN 102486799A CN 2010105862694 A CN2010105862694 A CN 2010105862694A CN 201010586269 A CN201010586269 A CN 201010586269A CN 102486799 A CN102486799 A CN 102486799A
Authority
CN
China
Prior art keywords
page
www
www page
dom tree
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105862694A
Other languages
English (en)
Other versions
CN102486799B (zh
Inventor
阮曙东
徐羽
彭默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010586269.4A priority Critical patent/CN102486799B/zh
Priority to PCT/CN2011/082504 priority patent/WO2012071993A1/zh
Priority to EP20110844631 priority patent/EP2605155A4/en
Priority to US13/823,603 priority patent/US8739024B2/en
Publication of CN102486799A publication Critical patent/CN102486799A/zh
Application granted granted Critical
Publication of CN102486799B publication Critical patent/CN102486799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种环球信息网(WWW)页面处理方法,包括:确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML)数据,并将过滤后的WWW页面进行保存;当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。本发明同时公开了一种WWW页面处理装置。应用本发明所述的方法和装置,能够提升用户体验。

Description

一种环球信息网WWW页面处理方法和装置
技术领域
本发明涉及互联网技术,特别涉及一种环球信息网(WWW,World WideWeb)页面处理方法和装置。
背景技术
随着宽带互联网的普及,互联网上的WWW页面显示的内容越来越丰富,但同时,多余的信息,如广告信息等也越来越多。当用户在有限大小的终端,如手机终端上浏览WWW页面时,这些多余的信息会给用户的浏览带来很大的不便,从而降低用户体验。
发明内容
有鉴于此,本发明的主要目的在于提供一种WWW页面处理方法,能够提升用户体验。
本发明的另一目的在于提供一种WWW页面处理装置,能够提升用户体验。
为达到上述目的,本发明的技术方案是这样实现的:
一种WWW页面处理方法,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
一种WWW页面处理装置,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。
可见,采用本发明的技术方案,根据页面模板从抓取到的WWW页面中过滤掉多余的HTML数据,即广告信息等,从而方便了用户浏览,提升了用户体验;而且,本发明所述方案实现起来简单方便,便于普及。
附图说明
图1为本发明方法实施例的流程图。
图2为本发明装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种全新的WWW页面处理方案,能够提升用户体验。
为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图1为本发明方法实施例的流程图。如图1所示,包括以下步骤:
步骤11:确定需要进行优化的网站。
在实际应用中,可由后台管理员来确定哪些网站需要进行优化(即按照后续方式对WWW页面进行过滤等),并利用确定出的网站组成一个网站链接列表,输入给后台处理系统。
理论上来说,网站链接列表中所包含的网站数越多越好,但是考虑到维护成本等因素,可只包含一些比较常用的网站。
步骤12:针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存。
本步骤中,针对网站链接列表中的每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型(DOM,Document Object Model)树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,并作为页面模板进行保存。如何分析构造DOM树以及如何将DOM树转换为WWW页面均为现有技术。
在实际应用中,可开发一个相关插件安装在后台处理系统的浏览器,如火狐(FireFox)浏览器上;后续,后台管理员可在安装了插件的FireFox浏览器上访问不同网站的不同类型的WWW页面,具体来说,针对每个网站X中不同类型,如新闻类和BBS类的WWW页面,可分别从中随机选择一个WWW页面进行访问,并通过鼠标选择所访问的WWW页面中需要保留和需要删除的内容。所述插件即用于根据后台管理员的操作,相应地完成分析构造DOM树、删除DOM节点、将DOM树转换为WWW页面等功能。
按照步骤12所示方式进行处理后,即可得到一系列的页面模板。举例说明,假设网站链接列表中共包含3个网站(此处仅为举例说明,实际会远大于3),其中,第1个网站中共包含5种不同类型的WWW页面,第2个网站中共包含6种不同类型的WWW页面,第3个网站中共包含4种不同类型的WWW页面,那么总共可得到5+6+4=15个页面模板。
步骤13:不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML,Hyper Text Mark-up Language)数据,并将过滤后的WWW页面进行保存。
后台处理系统可不断地从网站链接列表中的各网站中抓取WWW页面,所述抓取为实时抓取或为每隔一段时间进行一次抓取,抓取的对象包括各网站中的所有WWW网页。
针对抓取到的每个WWW页面Y,可分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。如何确定DOM节点是否匹配为现有技术。通过这种方式,即可过滤掉WWW页面中多余的HTML数据,如广告信息等。
上述与WWW页面Y对应的页面模板Y,即指和WWW页面Y属于同一网站,且属于同一类型的页面模板。在实际应用中,在保存每个页面模板时,可同时保存每个页面模板的统一资源定位符(URL,Uniform Resource Location),URL能够体现所属网站以及所属类型等信息,这样,在将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,可先根据抓取到的每个WWW页面的URL确定其对应的页面模板。
步骤14:当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
本步骤中,当后台处理系统接收到来自终端的WWW页面访问请求时,首先确定自身是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,即确定终端请求访问的WWW页面是否已经抓取并进行了优化,如果是,则将对应的过滤后的WWW页面返回给终端,否则,按照现有方式,执行WWW页面的实时转换流程。
至此,即完成了关于本发明方法实施例的介绍。
基于上述介绍,图2为本发明装置实施例的组成结构示意图。如图2所示,包括:
第一处理单元21,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元22,用于当接收到来自终端的WWW页面访问请求时,确定第一处理单元21中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从第一处理单元21中获取对应的过滤后的WWW页面,并返回给终端。
第二处理单元22还可进一步用于,如果第一处理单元21中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
另外,第一处理单元21中还可具体包括(为简化附图,未图示):
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;
第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明,此处不再赘述。另外,图1和2所示实施例中的终端通常为手机终端。
总之,采用本发明的技术方案,能够提升用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种环球信息网WWW页面处理方法,其特征在于,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
3.根据权利要求1或2所述的方法,其特征在于,所述针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存包括:
针对每个网站X,分别进行以下处理:
根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;
将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;
将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存。
4.根据权利要求1或2所述的方法,其特征在于,所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据包括:
针对抓取到的每个WWW页面Y,分别进行以下处理:
将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;
针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;
将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
5.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:保存每个页面模板的统一资源定位符URL;
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,进一步包括:根据抓取到的每个WWW页面的URL确定其对应的页面模板。
6.根据权利要求1或2所述的方法,其特征在于,所述终端为手机终端。
7.一种环球信息网WWW页面处理装置,其特征在于,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。
8.根据权利要求7所述的装置,其特征在于,所述第二处理单元进一步用于,如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
9.根据权利要求7或8所述的装置,其特征在于,所述第一处理单元包括:
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;
第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
10.根据权利要求7或8所述的装置,其特征在于,所述终端为手机终端。
CN201010586269.4A 2010-12-03 2010-12-03 一种环球信息网www页面处理方法和装置 Active CN102486799B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201010586269.4A CN102486799B (zh) 2010-12-03 2010-12-03 一种环球信息网www页面处理方法和装置
PCT/CN2011/082504 WO2012071993A1 (zh) 2010-12-03 2011-11-21 一种环球信息网www页面处理方法和装置
EP20110844631 EP2605155A4 (en) 2010-12-03 2011-11-21 METHOD AND DEVICE FOR PROCESSING WEB PAGE
US13/823,603 US8739024B2 (en) 2010-12-03 2011-11-21 Method and apparatus for processing world wide web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010586269.4A CN102486799B (zh) 2010-12-03 2010-12-03 一种环球信息网www页面处理方法和装置

Publications (2)

Publication Number Publication Date
CN102486799A true CN102486799A (zh) 2012-06-06
CN102486799B CN102486799B (zh) 2014-10-15

Family

ID=46152292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010586269.4A Active CN102486799B (zh) 2010-12-03 2010-12-03 一种环球信息网www页面处理方法和装置

Country Status (4)

Country Link
US (1) US8739024B2 (zh)
EP (1) EP2605155A4 (zh)
CN (1) CN102486799B (zh)
WO (1) WO2012071993A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880679A (zh) * 2012-09-11 2013-01-16 北京易云剪客科技有限公司 一种网页信息存储方法和装置
WO2014134934A1 (zh) * 2013-03-04 2014-09-12 优视科技有限公司 一种双WebView展示定制页面的方法及系统
WO2015070795A1 (zh) * 2013-11-15 2015-05-21 北京奇虎科技有限公司 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统
CN104750463A (zh) * 2013-12-26 2015-07-01 任子行网络技术股份有限公司 一种插件开发方法及系统
CN104765592A (zh) * 2014-01-03 2015-07-08 任子行网络技术股份有限公司 一种面向网页采集任务的插件管理方法及其装置
CN108280109A (zh) * 2017-04-17 2018-07-13 广州市动景计算机科技有限公司 页面数据过滤方法、装置及用户终端
CN111125587A (zh) * 2019-12-31 2020-05-08 北京百度网讯科技有限公司 网页结构优化方法、装置、设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2898427A2 (en) * 2012-04-09 2015-07-29 Justin Brock Gerber Method and apparatus for browser interface, account management, and profile management
CN104239369A (zh) * 2013-06-24 2014-12-24 腾讯科技(深圳)有限公司 一种过滤网页广告的方法、装置和系统
CN110968821A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 一种网址处理方法及装置
CN110955428A (zh) * 2019-11-27 2020-04-03 北京奇艺世纪科技有限公司 一种页面显示方法、装置、电子设备及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944817B1 (en) * 1997-03-31 2005-09-13 Intel Corporation Method and apparatus for local generation of Web pages
US8397223B2 (en) * 2000-03-17 2013-03-12 Gutenberg Printing Llc Web application generator
US7415538B2 (en) * 2001-03-19 2008-08-19 International Business Machines Corporation Intelligent document filtering
US7047318B1 (en) * 2001-04-20 2006-05-16 Softface, Inc. Method and apparatus for creating and deploying web sites with dynamic content
US6955298B2 (en) * 2001-12-27 2005-10-18 Samsung Electronics Co., Ltd. Apparatus and method for rendering web page HTML data into a format suitable for display on the screen of a wireless mobile station
US7389471B2 (en) * 2003-06-11 2008-06-17 Microsoft Corporation Utilizing common layout and functionality of multiple web pages
JP2005149136A (ja) * 2003-11-14 2005-06-09 Fujitsu Ltd 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置
US7444345B2 (en) * 2005-02-15 2008-10-28 International Business Machines Corporation Hierarchical inherited XML DOM
CN101276362B (zh) 2007-03-26 2011-05-11 国际商业机器公司 定制网页的装置和方法
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
US8762556B2 (en) 2007-06-13 2014-06-24 Apple Inc. Displaying content on a mobile device
US7945556B1 (en) * 2008-01-22 2011-05-17 Sprint Communications Company L.P. Web log filtering
US9405847B2 (en) * 2008-06-06 2016-08-02 Apple Inc. Contextual grouping of a page
US20100199197A1 (en) * 2008-11-29 2010-08-05 Handi Mobility Inc Selective content transcoding
CN101625700A (zh) * 2009-08-12 2010-01-13 中兴通讯股份有限公司 在终端上优化显示网络页面的方法和装置
US8073865B2 (en) * 2009-09-14 2011-12-06 Etsy, Inc. System and method for content extraction from unstructured sources

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张艳: "一个RSS级别的网页主题内容抽取方法与系统", 《图书情报工作》 *
徐超: "基于DOM的网页净化方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
赖春波: "Web信息自动抽取技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880679A (zh) * 2012-09-11 2013-01-16 北京易云剪客科技有限公司 一种网页信息存储方法和装置
CN102880679B (zh) * 2012-09-11 2016-01-13 北京易云剪客科技有限公司 一种网页信息存储方法和装置
WO2014134934A1 (zh) * 2013-03-04 2014-09-12 优视科技有限公司 一种双WebView展示定制页面的方法及系统
US10754917B2 (en) 2013-03-04 2020-08-25 Alibaba Group Holding Limited Method and system for displaying customized webpage on double webview
WO2015070795A1 (zh) * 2013-11-15 2015-05-21 北京奇虎科技有限公司 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统
CN104750463A (zh) * 2013-12-26 2015-07-01 任子行网络技术股份有限公司 一种插件开发方法及系统
CN104750463B (zh) * 2013-12-26 2018-05-22 任子行网络技术股份有限公司 一种插件开发方法及系统
CN104765592A (zh) * 2014-01-03 2015-07-08 任子行网络技术股份有限公司 一种面向网页采集任务的插件管理方法及其装置
CN104765592B (zh) * 2014-01-03 2018-09-18 任子行网络技术股份有限公司 一种面向网页采集任务的插件管理方法及其装置
CN108280109A (zh) * 2017-04-17 2018-07-13 广州市动景计算机科技有限公司 页面数据过滤方法、装置及用户终端
CN111125587A (zh) * 2019-12-31 2020-05-08 北京百度网讯科技有限公司 网页结构优化方法、装置、设备和存储介质

Also Published As

Publication number Publication date
US8739024B2 (en) 2014-05-27
CN102486799B (zh) 2014-10-15
EP2605155A1 (en) 2013-06-19
EP2605155A4 (en) 2013-08-14
WO2012071993A1 (zh) 2012-06-07
US20130238980A1 (en) 2013-09-12

Similar Documents

Publication Publication Date Title
CN102486799A (zh) 一种环球信息网www页面处理方法和装置
CN104951539B (zh) 互联网数据中心有害信息监测系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN104077402B (zh) 数据处理方法和数据处理系统
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN101960455A (zh) 用于对搜索结果重新排序的系统、方法和/或设备
CN103577597A (zh) 基于当前浏览页面的关键词搜索系统
CN103577596A (zh) 基于当前浏览页面的关键词搜索方法及装置
CN103577595A (zh) 基于当前浏览页面的关键词推送方法及装置
CN103077250A (zh) 一种网页内容抓取方法及装置
CN102646135A (zh) 一种网页收藏方法、装置及系统
CN103577392A (zh) 基于当前浏览页面的关键词推送方法及装置
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN102262635A (zh) 一种网页爬虫系统及方法
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN106599270B (zh) 网络数据抓取方法和爬虫
CN104298780A (zh) 一种浏览器网页信息的预获取方法及系统
CN105740417A (zh) 一种基于网页的目标数据搜索方法、模块、浏览器及终端
CN106547803B (zh) 爬取网站增量资源的方法和装置
CN103455492B (zh) 一种搜索网页的方法和装置
KR101287371B1 (ko) 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체
CN106557584A (zh) 一种网址收藏方法及装置
CN103853770A (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN106708936A (zh) 一种网页优化方法及装置
CN103064868A (zh) 一种在html5网页中添加收藏/自定义收藏网址的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221118

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right