CN102486799A - 一种环球信息网www页面处理方法和装置 - Google Patents
一种环球信息网www页面处理方法和装置 Download PDFInfo
- Publication number
- CN102486799A CN102486799A CN2010105862694A CN201010586269A CN102486799A CN 102486799 A CN102486799 A CN 102486799A CN 2010105862694 A CN2010105862694 A CN 2010105862694A CN 201010586269 A CN201010586269 A CN 201010586269A CN 102486799 A CN102486799 A CN 102486799A
- Authority
- CN
- China
- Prior art keywords
- page
- www
- www page
- dom tree
- dom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种环球信息网(WWW)页面处理方法,包括:确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML)数据,并将过滤后的WWW页面进行保存;当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。本发明同时公开了一种WWW页面处理装置。应用本发明所述的方法和装置,能够提升用户体验。
Description
技术领域
本发明涉及互联网技术,特别涉及一种环球信息网(WWW,World WideWeb)页面处理方法和装置。
背景技术
随着宽带互联网的普及,互联网上的WWW页面显示的内容越来越丰富,但同时,多余的信息,如广告信息等也越来越多。当用户在有限大小的终端,如手机终端上浏览WWW页面时,这些多余的信息会给用户的浏览带来很大的不便,从而降低用户体验。
发明内容
有鉴于此,本发明的主要目的在于提供一种WWW页面处理方法,能够提升用户体验。
本发明的另一目的在于提供一种WWW页面处理装置,能够提升用户体验。
为达到上述目的,本发明的技术方案是这样实现的:
一种WWW页面处理方法,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
一种WWW页面处理装置,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。
可见,采用本发明的技术方案,根据页面模板从抓取到的WWW页面中过滤掉多余的HTML数据,即广告信息等,从而方便了用户浏览,提升了用户体验;而且,本发明所述方案实现起来简单方便,便于普及。
附图说明
图1为本发明方法实施例的流程图。
图2为本发明装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种全新的WWW页面处理方案,能够提升用户体验。
为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图1为本发明方法实施例的流程图。如图1所示,包括以下步骤:
步骤11:确定需要进行优化的网站。
在实际应用中,可由后台管理员来确定哪些网站需要进行优化(即按照后续方式对WWW页面进行过滤等),并利用确定出的网站组成一个网站链接列表,输入给后台处理系统。
理论上来说,网站链接列表中所包含的网站数越多越好,但是考虑到维护成本等因素,可只包含一些比较常用的网站。
步骤12:针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存。
本步骤中,针对网站链接列表中的每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型(DOM,Document Object Model)树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,并作为页面模板进行保存。如何分析构造DOM树以及如何将DOM树转换为WWW页面均为现有技术。
在实际应用中,可开发一个相关插件安装在后台处理系统的浏览器,如火狐(FireFox)浏览器上;后续,后台管理员可在安装了插件的FireFox浏览器上访问不同网站的不同类型的WWW页面,具体来说,针对每个网站X中不同类型,如新闻类和BBS类的WWW页面,可分别从中随机选择一个WWW页面进行访问,并通过鼠标选择所访问的WWW页面中需要保留和需要删除的内容。所述插件即用于根据后台管理员的操作,相应地完成分析构造DOM树、删除DOM节点、将DOM树转换为WWW页面等功能。
按照步骤12所示方式进行处理后,即可得到一系列的页面模板。举例说明,假设网站链接列表中共包含3个网站(此处仅为举例说明,实际会远大于3),其中,第1个网站中共包含5种不同类型的WWW页面,第2个网站中共包含6种不同类型的WWW页面,第3个网站中共包含4种不同类型的WWW页面,那么总共可得到5+6+4=15个页面模板。
步骤13:不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言(HTML,Hyper Text Mark-up Language)数据,并将过滤后的WWW页面进行保存。
后台处理系统可不断地从网站链接列表中的各网站中抓取WWW页面,所述抓取为实时抓取或为每隔一段时间进行一次抓取,抓取的对象包括各网站中的所有WWW网页。
针对抓取到的每个WWW页面Y,可分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。如何确定DOM节点是否匹配为现有技术。通过这种方式,即可过滤掉WWW页面中多余的HTML数据,如广告信息等。
上述与WWW页面Y对应的页面模板Y,即指和WWW页面Y属于同一网站,且属于同一类型的页面模板。在实际应用中,在保存每个页面模板时,可同时保存每个页面模板的统一资源定位符(URL,Uniform Resource Location),URL能够体现所属网站以及所属类型等信息,这样,在将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,可先根据抓取到的每个WWW页面的URL确定其对应的页面模板。
步骤14:当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
本步骤中,当后台处理系统接收到来自终端的WWW页面访问请求时,首先确定自身是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,即确定终端请求访问的WWW页面是否已经抓取并进行了优化,如果是,则将对应的过滤后的WWW页面返回给终端,否则,按照现有方式,执行WWW页面的实时转换流程。
至此,即完成了关于本发明方法实施例的介绍。
基于上述介绍,图2为本发明装置实施例的组成结构示意图。如图2所示,包括:
第一处理单元21,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元22,用于当接收到来自终端的WWW页面访问请求时,确定第一处理单元21中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从第一处理单元21中获取对应的过滤后的WWW页面,并返回给终端。
第二处理单元22还可进一步用于,如果第一处理单元21中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
另外,第一处理单元21中还可具体包括(为简化附图,未图示):
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;
第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明,此处不再赘述。另外,图1和2所示实施例中的终端通常为手机终端。
总之,采用本发明的技术方案,能够提升用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种环球信息网WWW页面处理方法,其特征在于,包括:
确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;
不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
当接收到来自终端的WWW页面访问请求时,确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则将对应的过滤后的WWW页面返回给终端。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
3.根据权利要求1或2所述的方法,其特征在于,所述针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存包括:
针对每个网站X,分别进行以下处理:
根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;
将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;
将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存。
4.根据权利要求1或2所述的方法,其特征在于,所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据包括:
针对抓取到的每个WWW页面Y,分别进行以下处理:
将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;
针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;
将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
5.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:保存每个页面模板的统一资源定位符URL;
所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前,进一步包括:根据抓取到的每个WWW页面的URL确定其对应的页面模板。
6.根据权利要求1或2所述的方法,其特征在于,所述终端为手机终端。
7.一种环球信息网WWW页面处理装置,其特征在于,包括:
第一处理单元,用于确定需要进行优化的网站;针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存;不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的超文本标记语言HTML数据,并将过滤后的WWW页面进行保存;
第二处理单元,用于当接收到来自终端的WWW页面访问请求时,确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面,如果是,则从所述第一处理单元中获取对应的过滤后的WWW页面,并返回给终端。
8.根据权利要求7所述的装置,其特征在于,所述第二处理单元进一步用于,如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面,则执行WWW页面的实时转换流程。
9.根据权利要求7或8所述的装置,其特征在于,所述第一处理单元包括:
第一处理子单元,用于接收后台管理员输入的需要进行优化的网站;
第二处理子单元,用于针对每个网络中各不同类型的WWW页面,分别为其生成对应的页面模板并进行保存,包括:针对每个网站X,分别进行以下处理:根据接收到的后台管理员指令,从网站X中分别获取不同类型的WWW页面各一个;将获取到的每个WWW页面分别分析构造成文档对象模型DOM树,并根据接收到的后台管理员指令,删除每个DOM树中不需要保留的DOM节点;将每个经过删除处理后的DOM树分别转换为WWW页面,作为页面模板进行保存;
第三处理子单元,用于不断地从各网站中抓取WWW页面,将抓取到的每个WWW页面分别与其对应的页面模板进行匹配,根据匹配结果从中过滤掉多余的HTML数据,并将过滤后的WWW页面进行保存,包括:针对抓取到的每个WWW页面Y,分别进行以下处理:将WWW页面Y分析构造成DOM树,得到DOM树1,将WWW页面Y对应的页面模板Y分析构造成DOM树,得到DOM树2;针对DOM树1中的每个DOM节点,分别确定其在DOM树2中是否存在相匹配的DOM节点,如果是,则不作处理,否则,将该DOM节点从DOM树1中删除;将经过删除处理后的DOM树1转换为WWW页面,将DOM树2转换为页面模板Y。
10.根据权利要求7或8所述的装置,其特征在于,所述终端为手机终端。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010586269.4A CN102486799B (zh) | 2010-12-03 | 2010-12-03 | 一种环球信息网www页面处理方法和装置 |
PCT/CN2011/082504 WO2012071993A1 (zh) | 2010-12-03 | 2011-11-21 | 一种环球信息网www页面处理方法和装置 |
EP20110844631 EP2605155A4 (en) | 2010-12-03 | 2011-11-21 | METHOD AND DEVICE FOR PROCESSING WEB PAGE |
US13/823,603 US8739024B2 (en) | 2010-12-03 | 2011-11-21 | Method and apparatus for processing world wide web page |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010586269.4A CN102486799B (zh) | 2010-12-03 | 2010-12-03 | 一种环球信息网www页面处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102486799A true CN102486799A (zh) | 2012-06-06 |
CN102486799B CN102486799B (zh) | 2014-10-15 |
Family
ID=46152292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010586269.4A Active CN102486799B (zh) | 2010-12-03 | 2010-12-03 | 一种环球信息网www页面处理方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8739024B2 (zh) |
EP (1) | EP2605155A4 (zh) |
CN (1) | CN102486799B (zh) |
WO (1) | WO2012071993A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880679A (zh) * | 2012-09-11 | 2013-01-16 | 北京易云剪客科技有限公司 | 一种网页信息存储方法和装置 |
WO2014134934A1 (zh) * | 2013-03-04 | 2014-09-12 | 优视科技有限公司 | 一种双WebView展示定制页面的方法及系统 |
WO2015070795A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统 |
CN104750463A (zh) * | 2013-12-26 | 2015-07-01 | 任子行网络技术股份有限公司 | 一种插件开发方法及系统 |
CN104765592A (zh) * | 2014-01-03 | 2015-07-08 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN108280109A (zh) * | 2017-04-17 | 2018-07-13 | 广州市动景计算机科技有限公司 | 页面数据过滤方法、装置及用户终端 |
CN111125587A (zh) * | 2019-12-31 | 2020-05-08 | 北京百度网讯科技有限公司 | 网页结构优化方法、装置、设备和存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2898427A2 (en) * | 2012-04-09 | 2015-07-29 | Justin Brock Gerber | Method and apparatus for browser interface, account management, and profile management |
CN104239369A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 一种过滤网页广告的方法、装置和系统 |
CN110968821A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种网址处理方法及装置 |
CN110955428A (zh) * | 2019-11-27 | 2020-04-03 | 北京奇艺世纪科技有限公司 | 一种页面显示方法、装置、电子设备及介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6944817B1 (en) * | 1997-03-31 | 2005-09-13 | Intel Corporation | Method and apparatus for local generation of Web pages |
US8397223B2 (en) * | 2000-03-17 | 2013-03-12 | Gutenberg Printing Llc | Web application generator |
US7415538B2 (en) * | 2001-03-19 | 2008-08-19 | International Business Machines Corporation | Intelligent document filtering |
US7047318B1 (en) * | 2001-04-20 | 2006-05-16 | Softface, Inc. | Method and apparatus for creating and deploying web sites with dynamic content |
US6955298B2 (en) * | 2001-12-27 | 2005-10-18 | Samsung Electronics Co., Ltd. | Apparatus and method for rendering web page HTML data into a format suitable for display on the screen of a wireless mobile station |
US7389471B2 (en) * | 2003-06-11 | 2008-06-17 | Microsoft Corporation | Utilizing common layout and functionality of multiple web pages |
JP2005149136A (ja) * | 2003-11-14 | 2005-06-09 | Fujitsu Ltd | 情報収集プログラム、情報収集方法、情報収集システムおよび情報収集装置 |
US7444345B2 (en) * | 2005-02-15 | 2008-10-28 | International Business Machines Corporation | Hierarchical inherited XML DOM |
CN101276362B (zh) | 2007-03-26 | 2011-05-11 | 国际商业机器公司 | 定制网页的装置和方法 |
CN101192234A (zh) * | 2007-06-07 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种基于网页抽取的搜索系统及搜索方法 |
US8762556B2 (en) | 2007-06-13 | 2014-06-24 | Apple Inc. | Displaying content on a mobile device |
US7945556B1 (en) * | 2008-01-22 | 2011-05-17 | Sprint Communications Company L.P. | Web log filtering |
US9405847B2 (en) * | 2008-06-06 | 2016-08-02 | Apple Inc. | Contextual grouping of a page |
US20100199197A1 (en) * | 2008-11-29 | 2010-08-05 | Handi Mobility Inc | Selective content transcoding |
CN101625700A (zh) * | 2009-08-12 | 2010-01-13 | 中兴通讯股份有限公司 | 在终端上优化显示网络页面的方法和装置 |
US8073865B2 (en) * | 2009-09-14 | 2011-12-06 | Etsy, Inc. | System and method for content extraction from unstructured sources |
-
2010
- 2010-12-03 CN CN201010586269.4A patent/CN102486799B/zh active Active
-
2011
- 2011-11-21 US US13/823,603 patent/US8739024B2/en active Active
- 2011-11-21 EP EP20110844631 patent/EP2605155A4/en not_active Withdrawn
- 2011-11-21 WO PCT/CN2011/082504 patent/WO2012071993A1/zh active Application Filing
Non-Patent Citations (3)
Title |
---|
张艳: "一个RSS级别的网页主题内容抽取方法与系统", 《图书情报工作》 * |
徐超: "基于DOM的网页净化方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
赖春波: "Web信息自动抽取技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880679A (zh) * | 2012-09-11 | 2013-01-16 | 北京易云剪客科技有限公司 | 一种网页信息存储方法和装置 |
CN102880679B (zh) * | 2012-09-11 | 2016-01-13 | 北京易云剪客科技有限公司 | 一种网页信息存储方法和装置 |
WO2014134934A1 (zh) * | 2013-03-04 | 2014-09-12 | 优视科技有限公司 | 一种双WebView展示定制页面的方法及系统 |
US10754917B2 (en) | 2013-03-04 | 2020-08-25 | Alibaba Group Holding Limited | Method and system for displaying customized webpage on double webview |
WO2015070795A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 用于实现商品收藏及状态变化提醒的方法、装置、客户端及系统 |
CN104750463A (zh) * | 2013-12-26 | 2015-07-01 | 任子行网络技术股份有限公司 | 一种插件开发方法及系统 |
CN104750463B (zh) * | 2013-12-26 | 2018-05-22 | 任子行网络技术股份有限公司 | 一种插件开发方法及系统 |
CN104765592A (zh) * | 2014-01-03 | 2015-07-08 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN104765592B (zh) * | 2014-01-03 | 2018-09-18 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN108280109A (zh) * | 2017-04-17 | 2018-07-13 | 广州市动景计算机科技有限公司 | 页面数据过滤方法、装置及用户终端 |
CN111125587A (zh) * | 2019-12-31 | 2020-05-08 | 北京百度网讯科技有限公司 | 网页结构优化方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8739024B2 (en) | 2014-05-27 |
CN102486799B (zh) | 2014-10-15 |
EP2605155A1 (en) | 2013-06-19 |
EP2605155A4 (en) | 2013-08-14 |
WO2012071993A1 (zh) | 2012-06-07 |
US20130238980A1 (en) | 2013-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102486799A (zh) | 一种环球信息网www页面处理方法和装置 | |
CN104951539B (zh) | 互联网数据中心有害信息监测系统 | |
CN105243159A (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN108052632B (zh) | 一种网络信息获取方法、系统及企业信息搜索系统 | |
CN101960455A (zh) | 用于对搜索结果重新排序的系统、方法和/或设备 | |
CN103577597A (zh) | 基于当前浏览页面的关键词搜索系统 | |
CN103577596A (zh) | 基于当前浏览页面的关键词搜索方法及装置 | |
CN103577595A (zh) | 基于当前浏览页面的关键词推送方法及装置 | |
CN103077250A (zh) | 一种网页内容抓取方法及装置 | |
CN102646135A (zh) | 一种网页收藏方法、装置及系统 | |
CN103577392A (zh) | 基于当前浏览页面的关键词推送方法及装置 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN102262635A (zh) | 一种网页爬虫系统及方法 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN106599270B (zh) | 网络数据抓取方法和爬虫 | |
CN104298780A (zh) | 一种浏览器网页信息的预获取方法及系统 | |
CN105740417A (zh) | 一种基于网页的目标数据搜索方法、模块、浏览器及终端 | |
CN106547803B (zh) | 爬取网站增量资源的方法和装置 | |
CN103455492B (zh) | 一种搜索网页的方法和装置 | |
KR101287371B1 (ko) | 웹 컨텐츠 수집방법 및 수집장치, 그 기록매체 | |
CN106557584A (zh) | 一种网址收藏方法及装置 | |
CN103853770A (zh) | 一种抽取论坛网页中帖子内容的方法及系统 | |
CN106708936A (zh) | 一种网页优化方法及装置 | |
CN103064868A (zh) | 一种在html5网页中添加收藏/自定义收藏网址的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221118 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |