CN102486799A

CN102486799A - 一种环球信息网www页面处理方法和装置

Info

Publication number: CN102486799A
Application number: CN2010105862694A
Authority: CN
Inventors: 阮曙东; 徐羽; 彭默
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2010-12-03
Filing date: 2010-12-03
Publication date: 2012-06-06
Anticipated expiration: 2030-12-03
Also published as: US8739024B2; CN102486799B; EP2605155A1; EP2605155A4; WO2012071993A1; US20130238980A1

Abstract

本发明公开了一种环球信息网(WWW)页面处理方法，包括：确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言(HTML)数据，并将过滤后的WWW页面进行保存；当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。本发明同时公开了一种WWW页面处理装置。应用本发明所述的方法和装置，能够提升用户体验。

Description

一种环球信息网WWW页面处理方法和装置

技术领域

本发明涉及互联网技术，特别涉及一种环球信息网(WWW，World WideWeb)页面处理方法和装置。

背景技术

随着宽带互联网的普及，互联网上的WWW页面显示的内容越来越丰富，但同时，多余的信息，如广告信息等也越来越多。当用户在有限大小的终端，如手机终端上浏览WWW页面时，这些多余的信息会给用户的浏览带来很大的不便，从而降低用户体验。

发明内容

有鉴于此，本发明的主要目的在于提供一种WWW页面处理方法，能够提升用户体验。

本发明的另一目的在于提供一种WWW页面处理装置，能够提升用户体验。

为达到上述目的，本发明的技术方案是这样实现的：

一种WWW页面处理方法，包括：

确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；

不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；

当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。

一种WWW页面处理装置，包括：

第一处理单元，用于确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言HTML数据，并将过滤后的WWW页面进行保存；

第二处理单元，用于当接收到来自终端的WWW页面访问请求时，确定所述第一处理单元中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则从所述第一处理单元中获取对应的过滤后的WWW页面，并返回给终端。

可见，采用本发明的技术方案，根据页面模板从抓取到的WWW页面中过滤掉多余的HTML数据，即广告信息等，从而方便了用户浏览，提升了用户体验；而且，本发明所述方案实现起来简单方便，便于普及。

附图说明

图1为本发明方法实施例的流程图。

图2为本发明装置实施例的组成结构示意图。

具体实施方式

针对现有技术中存在的问题，本发明中提出一种全新的WWW页面处理方案，能够提升用户体验。

为使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

图1为本发明方法实施例的流程图。如图1所示，包括以下步骤：

步骤11：确定需要进行优化的网站。

在实际应用中，可由后台管理员来确定哪些网站需要进行优化(即按照后续方式对WWW页面进行过滤等)，并利用确定出的网站组成一个网站链接列表，输入给后台处理系统。

理论上来说，网站链接列表中所包含的网站数越多越好，但是考虑到维护成本等因素，可只包含一些比较常用的网站。

步骤12：针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存。

本步骤中，针对网站链接列表中的每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成文档对象模型(DOM，Document Object Model)树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，并作为页面模板进行保存。如何分析构造DOM树以及如何将DOM树转换为WWW页面均为现有技术。

在实际应用中，可开发一个相关插件安装在后台处理系统的浏览器，如火狐(FireFox)浏览器上；后续，后台管理员可在安装了插件的FireFox浏览器上访问不同网站的不同类型的WWW页面，具体来说，针对每个网站X中不同类型，如新闻类和BBS类的WWW页面，可分别从中随机选择一个WWW页面进行访问，并通过鼠标选择所访问的WWW页面中需要保留和需要删除的内容。所述插件即用于根据后台管理员的操作，相应地完成分析构造DOM树、删除DOM节点、将DOM树转换为WWW页面等功能。

按照步骤12所示方式进行处理后，即可得到一系列的页面模板。举例说明，假设网站链接列表中共包含3个网站(此处仅为举例说明，实际会远大于3)，其中，第1个网站中共包含5种不同类型的WWW页面，第2个网站中共包含6种不同类型的WWW页面，第3个网站中共包含4种不同类型的WWW页面，那么总共可得到5+6+4＝15个页面模板。

步骤13：不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的超文本标记语言(HTML，Hyper Text Mark-up Language)数据，并将过滤后的WWW页面进行保存。

后台处理系统可不断地从网站链接列表中的各网站中抓取WWW页面，所述抓取为实时抓取或为每隔一段时间进行一次抓取，抓取的对象包括各网站中的所有WWW网页。

针对抓取到的每个WWW页面Y，可分别进行以下处理：将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。如何确定DOM节点是否匹配为现有技术。通过这种方式，即可过滤掉WWW页面中多余的HTML数据，如广告信息等。

上述与WWW页面Y对应的页面模板Y，即指和WWW页面Y属于同一网站，且属于同一类型的页面模板。在实际应用中，在保存每个页面模板时，可同时保存每个页面模板的统一资源定位符(URL，Uniform Resource Location)，URL能够体现所属网站以及所属类型等信息，这样，在将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前，可先根据抓取到的每个WWW页面的URL确定其对应的页面模板。

步骤14：当接收到来自终端的WWW页面访问请求时，确定是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则将对应的过滤后的WWW页面返回给终端。

本步骤中，当后台处理系统接收到来自终端的WWW页面访问请求时，首先确定自身是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，即确定终端请求访问的WWW页面是否已经抓取并进行了优化，如果是，则将对应的过滤后的WWW页面返回给终端，否则，按照现有方式，执行WWW页面的实时转换流程。

至此，即完成了关于本发明方法实施例的介绍。

基于上述介绍，图2为本发明装置实施例的组成结构示意图。如图2所示，包括：

第一处理单元21，用于确定需要进行优化的网站；针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存；不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据，并将过滤后的WWW页面进行保存；

第二处理单元22，用于当接收到来自终端的WWW页面访问请求时，确定第一处理单元21中是否保存有终端请求访问的WWW页面对应的过滤后的WWW页面，如果是，则从第一处理单元21中获取对应的过滤后的WWW页面，并返回给终端。

第二处理单元22还可进一步用于，如果第一处理单元21中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。

另外，第一处理单元21中还可具体包括(为简化附图，未图示)：

第一处理子单元，用于接收后台管理员输入的需要进行优化的网站；

第二处理子单元，用于针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存，包括：针对每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存；

第三处理子单元，用于不断地从各网站中抓取WWW页面，将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据，并将过滤后的WWW页面进行保存，包括：针对抓取到的每个WWW页面Y，分别进行以下处理：将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。

图2所示装置实施例的具体工作流程请参照图1所示方法实施例中的相应说明，此处不再赘述。另外，图1和2所示实施例中的终端通常为手机终端。

总之，采用本发明的技术方案，能够提升用户体验。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种环球信息网WWW页面处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

如果未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。

3.根据权利要求1或2所述的方法，其特征在于，所述针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存包括：

针对每个网站X，分别进行以下处理：

根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；

将获取到的每个WWW页面分别分析构造成文档对象模型DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；

将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存。

4.根据权利要求1或2所述的方法，其特征在于，所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配，根据匹配结果从中过滤掉多余的HTML数据包括：

针对抓取到的每个WWW页面Y，分别进行以下处理：

将WWW页面Y分析构造成DOM树，得到DOM树1，将WWW页面Y对应的页面模板Y分析构造成DOM树，得到DOM树2；

针对DOM树1中的每个DOM节点，分别确定其在DOM树2中是否存在相匹配的DOM节点，如果是，则不作处理，否则，将该DOM节点从DOM树1中删除；

将经过删除处理后的DOM树1转换为WWW页面，将DOM树2转换为页面模板Y。

5.根据权利要求1或2所述的方法，其特征在于，该方法进一步包括：保存每个页面模板的统一资源定位符URL；

所述将抓取到的每个WWW页面分别与其对应的页面模板进行匹配之前，进一步包括：根据抓取到的每个WWW页面的URL确定其对应的页面模板。

6.根据权利要求1或2所述的方法，其特征在于，所述终端为手机终端。

7.一种环球信息网WWW页面处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二处理单元进一步用于，如果所述第一处理单元中未保存有终端请求访问的WWW页面对应的过滤后的WWW页面，则执行WWW页面的实时转换流程。

9.根据权利要求7或8所述的装置，其特征在于，所述第一处理单元包括：

第二处理子单元，用于针对每个网络中各不同类型的WWW页面，分别为其生成对应的页面模板并进行保存，包括：针对每个网站X，分别进行以下处理：根据接收到的后台管理员指令，从网站X中分别获取不同类型的WWW页面各一个；将获取到的每个WWW页面分别分析构造成文档对象模型DOM树，并根据接收到的后台管理员指令，删除每个DOM树中不需要保留的DOM节点；将每个经过删除处理后的DOM树分别转换为WWW页面，作为页面模板进行保存；

10.根据权利要求7或8所述的装置，其特征在于，所述终端为手机终端。