CN103761257B

CN103761257B - 基于移动浏览器的网页处理方法及系统

Info

Publication number: CN103761257B
Application number: CN201310744595.7A
Authority: CN
Inventors: 梁捷; 董洲
Original assignee: Ucweb Inc
Current assignee: Alibaba China Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2017-09-22
Anticipated expiration: 2033-12-30
Also published as: CN103761257A

Abstract

本发明提供了一种基于移动浏览器的网页处理方法及系统，其中的方法包括：根据用户发送的网站访问请求中所含有的更新时间参数，确定网站的结构类型为伪静态网站时，通过判断伪静态网站中的伪静态网页的title标签和meta标签是否含有预设的关键字，确定伪静态网页是否符合重建要求；当伪静态网页符合重建要求时，抽取网页元素白名单中含有的伪静态网页的核心元素，并根据所抽取的核心元素，对伪静态网页进行转码重建。通过本发明能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网页，并保证将其进行转码重建，重建后的网页给用户提供无广告、清爽的差异化视觉体验，并且还能降低网站的维护成本，提高重建的效率。

Description

基于移动浏览器的网页处理方法及系统

技术领域

本发明涉及移动浏览器技术领域，更为具体地，涉及一种基于移动浏览器的网页处理方法及系统。

背景技术

随着网络的高速发展，人们通过访问网站，可以随时随地获取自己想要的资讯或者服务。在目前的网站建设过程中，大多数的中小型网站都采用模板系统搭建而成，例如视频网站、小说网站等。

但是，采用模板系统搭建而成的网站会不可避免地存在以下问题：由于广告是网站的主要营收手段，因此，采用模板系统所搭建的网站广告多，使网站页面不清爽，这是其一；其二，由于网站采用模板系统搭建而成，即使是不同的网站也有可能采用同一模板系统，因此，采用同一模板系统生成的网站，其用户界面结构基本一致，相似度如此高的网站不利于用户的体验；其三，为了搜索引擎优化，方便爬虫的抓取和收录，采用模板系统搭建的网站均采用伪静态化的页面，造成网站承受力低、伪静态页面和动态页面重复等，并且网站数据的更新也非实时更新，而是使用定时更新或者手动后台更新，造成数据更新不及时等问题。

针对上述采用模板系统搭建而成的网站所存在的问题，现有的处理方法是基于域名进行判断，即直接把网站的网址加到域名白名单中。其中，一个域名白名单对应一个网页。用户在访问网站时，服务器只要判断出用户所请求访问的网址存在于白名单中，即可将进行单独转码后的新页面提供给用户。

然而，由于采用模板系统所搭建的网站会经常发生域名变换，因此，在基于域名白名单方式进行转码时，一旦网站的域名发生变化，那么该网站的网址就不会在白名单中出现，服务器也就不会对该网站进行转码转换并生成新的页面提供给用户。如果要保证服务器能将网站进行转码并生成新的页面提供给用户，则需要人工及时更新域名白名单，这不仅工作效率低、人工维护成本高，并且用户的体验也不好。

发明内容

鉴于上述问题，本发明的目的是提供一种基于移动浏览器的网页处理方法及系统，以解决服务器在使用模板系统所搭建的网站进行转码并生成新页面提供给用户时，受域名白名单影响的问题，降低网站的维护成本，提高工作效率和用户体验。

根据本发明的一个方面，提供一种基于移动浏览器的网页处理方法，包括：

根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定网站的结构类型；其中，

当确定网站的结构类型为伪静态网站时，通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定伪静态网站中的伪静态网页是否符合重建要求；其中，当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定所述伪静态网页符合重建要求；

当伪静态网页符合重建要求时，抽取网页元素白名单中含有的伪静态网页的核心元素，并根据所抽取的核心元素，对伪静态网页进行转码重建。

其中，在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定网站的结构类型的过程中，中间件截获用户发送的网站访问请求，当网站访问请求中含有Last Modified参数时，即确定网站的结构类型为伪静态网站；或者，中间件截获用户发送的网站访问请求，通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间，如果网站服务器的最后更新时间不是当前时间，则确定网站的结构类型为伪静态网站。

其中，网页元素白名单由伪静态网页的标签下的核心元素构成，其中，标签包括body标签中的div标签和/或table标签。

根据本发明的另一方面，提供一种基于移动浏览器的网页处理系统，包括：

网站结构类型确定单元，用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定网站的结构类型；

网页重建确定单元，用于当网站结构类型确定单元，确定网站的结构类型为伪静态网站时，通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定伪静态网站中的伪静态网页是否符合重建要求；其中，当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定伪静态网页符合重建要求；

网页核心元素抽取单元，用于当网页重建确定单元确定伪静态网页符合重建要求时，抽取网页元素白名单中含有的伪静态网页的核心元素；

页面重建单元，用于根据核心元素抽取单元所抽取的核心元素，对伪静态网页进行转码重建。

利用上述根据本发明的基于移动浏览器的网页处理方法及系统，通过选择特定参数自动对特定类型的网站进行筛选和抽取，能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网站，方便进行资源聚合和网页转码，且不受域名白名单影响，保证将使用模板系统所搭建的网站进行转码处理，并形成新页面提供给用户，从而降低网站的维护成本，提高工作效率和用户体验。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于移动浏览器的网页处理方法的第一流程示意图；

图2为根据本发明实施例的基于移动浏览器的网页处理方法的第二流程示意图；

图3为根据本发明实施例的基于移动浏览器的网页处理系统逻辑结构框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

以下将结合附图对本发明的具体实施例进行详细描述。

为了更为清楚地描述本发明的技术方案，下面先对本发明中所涉及的某些概念进行说明：

伪静态：伪静态是相对真实静态来讲的，通常为了增强搜索引擎的友好面，都将文章内容生成静态页面，但是有时为了实时的显示一些信息，或者还想运用动态脚本解决一些问题，则不能用静态的方式来展示网站内容，但不用静态的方式便会损失对搜索引擎的友好面。伪静态则是这两者之间的中间方法，既能增强搜索引擎的友好面，又能展现动态脚本的优势。

伪静态网站：使用模板建站系统建立的，通过模板后台生成的，前端是静态的，以方便搜索引擎收录的站点。

伪静态网页：伪静态网站中的某一张网页。

网站的结构类型：包括动态网站和伪静态网站。

网站的内容类型：具有某种内容的网站，如视频网站，小说网站，图片网站。

为了说明本发明提供的基于移动浏览器的网页处理方法，图1示出了根据本发明实施例的基于移动浏览器的网页处理方法的第一流程。

如图1所示，本发明提供的基于移动浏览器的网页处理方法包括：

S110：根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定网站的结构类型。

由于动态网页的最后更新时间是当前服务器时间，伪静态网页的最后更新时间一般不是当前服务器时间。因此，根据动态网页与伪静态网页的最后更新时间的差异性，通过更新时间参数能够准确判断出网站的结构类型。

其中，在根据用户发送的网站访问请求中所含有的更新时间参数确定网站的结构类型的过程中，中间件截获用户发送的网站访问请求，当该网站访问请求中含有LastModified参数（其中，该参数一般在网站访问请求的请求头中）时，即确定该网站的结构类型为伪静态网站；或者，中间件截获用户发送的网站访问请求，通过调用JS接口的document.lastmodified参数，获取网站服务器的最后更新时间，如果网站服务器的最后更新时间不是当前时间，则进行验证，确定该网站的结构类型为伪静态网站。

具体地，一般模板系统所搭建的网站都是在后台采集资源，为了方便搜索引擎收录，通过动态页面（例如ASP页面）生成静态页面（即HTML页面）。因此，手动生成或定时生成的伪静态网页的修改时间，和需要与数据库实时交互的动态页面的时间会有时间差，如此便造成模板系统生成的页面的时间一般不会是当前服务器的时间，利用这一特征便能够判断网站的结构类型是否属于伪静态网页。

通过步骤S110，能够实现过滤大量动态网站的目的，留下的站点一般包含有模板系统所搭建的伪静态网站。即该步骤能够确定网站的结构类型是伪静态网站还是动态网站。

S120：当确定网站的结构类型为伪静态网站时，通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定伪静态网站中的伪静态网页是否符合重建要求；其中，当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定该伪静态网页符合重建要求。

为了能够使用户看到干净清爽的网页内容，需要去除网页中其他不必要的元素，例如网页中所嵌入的广告元素，只留下用户想要看到的网页的主要元素，如此便需要对网页进行定制（即重建）。通常情况下，需要定制的网页，其内容一般都会与某些特定的关键字相关，例如“视频”、“小说”等，其可以根据定制的需要进行预设。

具体地，将某些特定的关键字预先存入关键字库中，以作为判断网页是否符合重建要求的依据。例如，预先将“视频”、“笑话”、“小说”等特定关键字存入关键字库中，当用户想要定制一个视频网站的内容时，则只需要将所访问的视频网站中的伪静态网页的head标签下的title标签和meta标签（含keywords、description）所含的关键字与关键字库进行匹配，如果该关键字与关键字库匹配成功，则可以确定用户所访问的视频网站中的伪静态网页符合重建的要求。

另外，为了搜索引擎优化，方便爬虫的抓取和收录，网站的站长通常会将网站的核心关键字放进网站首页的title标签和meta标签。因此，通过伪静态网站中的伪静态网页的head标签下的title标签和meta标签所含的关键字，确定伪静态网站中的伪静态网页的内容类型，以将含有该关键字的同一内容类型的伪静态网页进行资源聚合。由于模板系统所搭建的网站其页面结构基本相似，因此，将同一内容类型的伪静态网页进行资源聚合有利于更有针对性的对资源进行收集和分发。

也就是说，通过对所访问的伪静态网站中的伪静态网页的内容类型的确定，能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求，又能够将同一内容类型的网站进行聚合，以方便同类型网站的收集。

S130：当伪静态网页符合重建要求时，抽取网页元素白名单中含有的伪静态网页的核心元素，并根据所抽取的核心元素，对伪静态网页进行转码重建。

网页的核心元素作为网页的关键识别码，其可以避免域名改变所导致的网站无法识别的情况。因为网页的域名虽然改变的，但网页的核心元素却始终不会改变。因此在抽取伪静态网页的核心元素时，通过网页元素白名单，能够提高对网页元素抽取的精准度。网页元素白名单与现有的域名白名单相比，其优势在于不必担心因为域名变换而导致网页元素抽取失败的情况发生。

其中，网页元素白名单由伪静态网页的标签下的核心元素构成。其中，该标签包括body标签中的div标签和/或table标签。另外，一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。

需要说明的是，一个网页元素白名单指的是针对网页的关键所定义的，其也可以称作class id白名单。网页元素白名单可以有多个，其中，在区分多个网页元素白名单时，可以用class和id的值来进行区分。也就是说，一个网页元素白名单对应的是同一内容类型的网页。

具体地，根据网页中是否含有设定的核心元素确认是否对网页元素进行抽取，如果网页中没有设定的核心元素，则不对网页元素进行抽取，在后续则只能展示原网页给用户；如果网页中含有设定的核心元素，则对网页元素进行抽取。

也就是说，首先应判断网页元素白名单中是否含有伪静态网页的核心元素，如果有，抽取该伪静态网页的核心元素，即只要网页的核心元素存在于网页元素白名单中的同一类网站，都能够抽取其网页的核心元素。

例如，网页导航标签的写法有<div class="menu">，<div class="nav">、<divclass="navigation">、<div class="dh">等，将class作为网页的核心元素，将menu、nav、navigation、dh加入到网页元素白名单，凡是网页结构中含有这些class的，均可认为该网页是类型为导航的相似结构，可以进行抽取。

需要说明的是，一个网页元素白名单对应同一内容类型的一类网页，即是一个网页元素白名单可以对应多个网页，如此便能够有效地从结构本质上对域名经常变换的一类网站进行定位，从而减少域名白名单的人工维护成本。

由于该重建的伪静态网页只是抽取的网页的核心元素进行转码重建，因此过滤了广告，只含有原网页的核心内容，可以给用户提供无广告、清爽的差异化视觉体验。

本发明利用特定参数自动筛选出网站的结构类型，当确定网站的结构类型为伪静态网站时，通过伪静态网站中的伪静态网页的head标签内的title标签确定该伪静态网站中的伪静态网页符合重建要求，然后通过网页元素白名单机制，抽取伪静态网页的核心元素进行转码重建。

通过上述流程可以看出，本发明提供的基于移动浏览器的网页处理方法能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网站，且能够保证将使用模板系统所搭建的网站进行转码处理，并形成新页面提供给用户，从而实现这类站点的识别并进行重新排版展示，不仅人工维护成本低、重建网页的效率高，还能使电脑页面更适合手机用户浏览，还能提升用户的体验。

为了更为清楚地说明本发明提供的基于移动浏览器的网页处理方法，图2示出了根据本发明实施例的基于移动浏览器的网页处理方法的第二流程。如图2所示：

S210：在用户访问网站时，中间件截获用户访问网站的请求。

S220：判断该请求的HTTP请求头中是否含有Last Modified参数，以确定用户所访问的网站的结构类型是否属于伪静态网页。如果该请求的HTTP请求头中含有LastModified参数，则进入步骤S230，否则进入步骤S260。

具体地，如果该请求的HTTP请求头中不含有Last Modified参数，则说明用户所访问的网站的结构类型不属于伪静态网页，那么只能将原网页内容展示给用户。

S230：判断网页的head标签下的title标签和mtea标签是否含有预设关键字，以确定用户所访问的伪静态网页是否符合重建的要求。如果title标签和mtea标签包含预设关键字，则进入步骤S240，否则进入步骤S260。

具体地，该预设关键字可保存在关键字库中，在判断用户所访问的伪静态网页是否符合重建的要求时，只需将网页的head标签下的title标签和meta标签所含的关键字与关键字库进行匹配，如果匹配成功，则可以确定用户所访问的伪静态网页满足重建的要求，接下来则对网页元素白名单进行校验；如果匹配不成功，则说明该伪静态网页不符合重建要求，那么只能将原网页内容展示给用户。

S240：判断网页元素白名单中是否含有伪静态网页的核心元素，如果有则进入步骤S250，否则进入步骤S260。

S250：抽取该伪静态网页的核心元素，通过中间件给出定制的新页面（即重建后的页面）展示给用户，然后将重建后的网页的域名记录至域名白名单。

具体地，在对网页元素白名单进行校验时，即在判断网页元素白名单中是否含有伪静态网页的核心元素时，如果网页元素白名单中含有伪静态网页的核心元素（例如class或id），则抽取该伪静态网页的核心元素，通过中间件给出定制的新页面（即重建后的页面）展示给用户，然后将重建后的网页的域名记录至域名白名单。

S260：将原网页内容展示给用户。

下述以基于移动浏览器的视频网站为例，对本发明提供的网页处理方法作详细说明。

用户在使用移动浏览器请求访问某视频网站时，中间件截获该请求，判断该网站的结构类型是否为伪静态网页；其中，当该请求中含有Last Modified参数时，确定该视频网站的结构类型为伪静态网站；然后通过判断该伪静态网站的伪静态网页的title标签和meta标签是否含有“视频”这一预设关键字，确定该伪静态网页是否符合重建要求。其中，当该伪静态网页的title标签和meat标签含有“视频”这一预设关键字时，确定该伪静态网页符合重建要求。

由于同一内容类型的网站具有相似的网页结构，因此当确定该伪静态网页符合重建要求时，采用网页元素白名单的抽取规则，抽取视频网站中的网页标签下的核心元素，根据所抽取的核心元素，对该伪静态网页进行重新排版后呈现给用户。

重新排版后的页面效果为：一级页面为资源导航页，二级页面为视频、专区页，三级页面为视频内容展示页。

与上述方法相对应，本发明还提供一种基于移动浏览器的网页处理系统。图3示出了根据本发明实施例的基于移动浏览器的网页处理系统逻辑结构。

如图3所示，本发明提供的基于移动浏览器的网页处理系统包括：网站结构类型确定单元310、网站内容类型确定单元320、网页核心元素抽取单元330和页面重建单元340。

其中，网站结构类型确定单元310用于根据用户发送的网站访问请求中所含有的更新时间参数，确定网站的结构类型。

其中，网站结构类型确定单元310，在根据用户发送的访问网站的请求中所含有的网页的更新时间参数，确定网站的结构类型的过程中，中间件截获用户发送的网站访问请求，当网站访问请求中含有Last Modified参数时，即确定网站的结构类型为伪静态网站；或者中间件截获用户发送的访问网站的请求，通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间，如果网站服务器的最后更新时间不是当前时间，则确定网站的结构类型为伪静态网页。

通过网站结构类型确定单元310能够过滤大量动态网站，留下的站点一般包含有模板系统所搭建的伪静态网站。

网页重建确定单元320用于当网站结构类型确定单元310确定出网站的结构类型为伪静态网页时，通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定伪静态网站中的伪静态网页是否符合重建要求；其中，当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定伪静态网页符合重建要求。

其中，网页重建确定单元320通过伪静态网站中的伪静态网页的head标签下的title标签和meta所含的关键字，能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求，还能够将同一内容类型的网站进行聚合，方便同类型网站的收集。

网页核心元素抽取单元330用于当网页重建确定单元320确定伪静态网页符合重建要求时，抽取网页元素白名单中含有的伪静态网页的核心元素。

其中，在网页核心元素抽取单元330中，网页元素白名单由伪静态网页的标签下的核心元素构成，其中，标签包括body标签中的div标签和/或table标签。并且一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。

页面重建单元340用于根据网页核心元素抽取单元330所抽取的核心元素，对伪静态网页进行转码重建。

通过上述可以看出，本发明提供的基于移动浏览器的网页处理方法及系统通过选择特定参数自动对特定类型的网站进行筛选，自动和准确找到使用模板系统所搭建的特定内容的伪静态网站，并对其网页核心元素进行抽取，且不受域名白名单影响，保证将使用模板系统所搭建的网站进行转码重建。重建后的网页过滤了广告，只含有原网页的核心内容，在给用户提供无广告、清爽的差异化视觉体验的同时，还能够降低网站的维护成本，提高重建的效率。

如上参照附图以示例的方式描述了根据本发明的基于移动浏览器的网页处理方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的基于移动浏览器的网页处理方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于移动浏览器的网页处理方法，包括：

根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定所述网站的结构类型；其中，

当确定所述网站的结构类型为伪静态网站时，通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定所述伪静态网站中的伪静态网页是否符合重建要求；其中，当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定所述伪静态网页符合重建要求；

当所述伪静态网页符合重建要求时，抽取网页元素白名单中含有的所述伪静态网页的核心元素，并根据所抽取的核心元素，对所述伪静态网页进行转码重建；其中，所述网页元素白名单由所述伪静态网页的标签下的核心元素构成，其中，所述标签包括body标签中的div标签和/或table标签。

2.如权利要求1所述的基于移动浏览器的网页处理方法，其中，在所述根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定所述网站的结构类型的过程中，

中间件截获用户发送的网站访问请求，当所述网站访问请求中含有Last Modified参数时，即确定所述网站的结构类型为伪静态网站；或者，

中间件截获用户发送的网站访问请求，通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间，如果所述网站服务器的最后更新时间不是当前时间，则确定所述网站的结构类型为伪静态网站。

3.如权利要求2所述的基于移动浏览器的网页处理方法，其中，一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。

4.一种基于移动浏览器的网页处理系统，包括：

网站结构类型确定单元，用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数，确定所述网站的结构类型；

网页重建确定单元，用于当所述网站结构类型确定单元，确定所述网站的结构类型为伪静态网站时，通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字，确定所述伪静态网站中的伪静态网页是否符合重建要求；其中，当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时，确定所述伪静态网页符合重建要求；

网页核心元素抽取单元，用于当所述网页重建确定单元确定所述伪静态网页符合重建要求时，抽取网页元素白名单中含有的所述伪静态网页的核心元素；其中，所述网页元素白名单由所述伪静态网页的标签下的核心元素构成，其中，所述标签包括body标签中的div标签和/或table标签；

页面重建单元，用于根据所述核心元素抽取单元所抽取的核心元素，对所述伪静态网页进行转码重建。

5.如权利要求4所述的基于移动浏览器的网页处理系统，其中，所述网站结构类型确定单元，在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定所述网站的结构类型的过程中，

6.如权利要求4所述的基于移动浏览器的网页处理系统，其中，一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。