CN103761257B - 基于移动浏览器的网页处理方法及系统 - Google Patents

基于移动浏览器的网页处理方法及系统 Download PDF

Info

Publication number
CN103761257B
CN103761257B CN201310744595.7A CN201310744595A CN103761257B CN 103761257 B CN103761257 B CN 103761257B CN 201310744595 A CN201310744595 A CN 201310744595A CN 103761257 B CN103761257 B CN 103761257B
Authority
CN
China
Prior art keywords
website
pseudo
web page
static
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310744595.7A
Other languages
English (en)
Other versions
CN103761257A (zh
Inventor
梁捷
董洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN201310744595.7A priority Critical patent/CN103761257B/zh
Publication of CN103761257A publication Critical patent/CN103761257A/zh
Application granted granted Critical
Publication of CN103761257B publication Critical patent/CN103761257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本发明提供了一种基于移动浏览器的网页处理方法及系统,其中的方法包括:根据用户发送的网站访问请求中所含有的更新时间参数,确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的title标签和meta标签是否含有预设的关键字,确定伪静态网页是否符合重建要求;当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。通过本发明能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网页,并保证将其进行转码重建,重建后的网页给用户提供无广告、清爽的差异化视觉体验,并且还能降低网站的维护成本,提高重建的效率。

Description

基于移动浏览器的网页处理方法及系统
技术领域
本发明涉及移动浏览器技术领域,更为具体地,涉及一种基于移动浏览器的网页处理方法及系统。
背景技术
随着网络的高速发展,人们通过访问网站,可以随时随地获取自己想要的资讯或者服务。在目前的网站建设过程中,大多数的中小型网站都采用模板系统搭建而成,例如视频网站、小说网站等。
但是,采用模板系统搭建而成的网站会不可避免地存在以下问题:由于广告是网站的主要营收手段,因此,采用模板系统所搭建的网站广告多,使网站页面不清爽,这是其一;其二,由于网站采用模板系统搭建而成,即使是不同的网站也有可能采用同一模板系统,因此,采用同一模板系统生成的网站,其用户界面结构基本一致,相似度如此高的网站不利于用户的体验;其三,为了搜索引擎优化,方便爬虫的抓取和收录,采用模板系统搭建的网站均采用伪静态化的页面,造成网站承受力低、伪静态页面和动态页面重复等,并且网站数据的更新也非实时更新,而是使用定时更新或者手动后台更新,造成数据更新不及时等问题。
针对上述采用模板系统搭建而成的网站所存在的问题,现有的处理方法是基于域名进行判断,即直接把网站的网址加到域名白名单中。其中,一个域名白名单对应一个网页。用户在访问网站时,服务器只要判断出用户所请求访问的网址存在于白名单中,即可将进行单独转码后的新页面提供给用户。
然而,由于采用模板系统所搭建的网站会经常发生域名变换,因此,在基于域名白名单方式进行转码时,一旦网站的域名发生变化,那么该网站的网址就不会在白名单中出现,服务器也就不会对该网站进行转码转换并生成新的页面提供给用户。如果要保证服务器能将网站进行转码并生成新的页面提供给用户,则需要人工及时更新域名白名单,这不仅工作效率低、人工维护成本高,并且用户的体验也不好。
发明内容
鉴于上述问题,本发明的目的是提供一种基于移动浏览器的网页处理方法及系统,以解决服务器在使用模板系统所搭建的网站进行转码并生成新页面提供给用户时,受域名白名单影响的问题,降低网站的维护成本,提高工作效率和用户体验。
根据本发明的一个方面,提供一种基于移动浏览器的网页处理方法,包括:
根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型;其中,
当确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。
其中,在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当网站访问请求中含有Last Modified参数时,即确定网站的结构类型为伪静态网站;或者,中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则确定网站的结构类型为伪静态网站。
其中,网页元素白名单由伪静态网页的标签下的核心元素构成,其中,标签包括body标签中的div标签和/或table标签。
根据本发明的另一方面,提供一种基于移动浏览器的网页处理系统,包括:
网站结构类型确定单元,用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型;
网页重建确定单元,用于当网站结构类型确定单元,确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定伪静态网页符合重建要求;
网页核心元素抽取单元,用于当网页重建确定单元确定伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素;
页面重建单元,用于根据核心元素抽取单元所抽取的核心元素,对伪静态网页进行转码重建。
利用上述根据本发明的基于移动浏览器的网页处理方法及系统,通过选择特定参数自动对特定类型的网站进行筛选和抽取,能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网站,方便进行资源聚合和网页转码,且不受域名白名单影响,保证将使用模板系统所搭建的网站进行转码处理,并形成新页面提供给用户,从而降低网站的维护成本,提高工作效率和用户体验。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于移动浏览器的网页处理方法的第一流程示意图;
图2为根据本发明实施例的基于移动浏览器的网页处理方法的第二流程示意图;
图3为根据本发明实施例的基于移动浏览器的网页处理系统逻辑结构框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
为了更为清楚地描述本发明的技术方案,下面先对本发明中所涉及的某些概念进行说明:
伪静态:伪静态是相对真实静态来讲的,通常为了增强搜索引擎的友好面,都将文章内容生成静态页面,但是有时为了实时的显示一些信息,或者还想运用动态脚本解决一些问题,则不能用静态的方式来展示网站内容,但不用静态的方式便会损失对搜索引擎的友好面。伪静态则是这两者之间的中间方法,既能增强搜索引擎的友好面,又能展现动态脚本的优势。
伪静态网站:使用模板建站系统建立的,通过模板后台生成的,前端是静态的,以方便搜索引擎收录的站点。
伪静态网页:伪静态网站中的某一张网页。
网站的结构类型:包括动态网站和伪静态网站。
网站的内容类型:具有某种内容的网站,如视频网站,小说网站,图片网站。
为了说明本发明提供的基于移动浏览器的网页处理方法,图1示出了根据本发明实施例的基于移动浏览器的网页处理方法的第一流程。
如图1所示,本发明提供的基于移动浏览器的网页处理方法包括:
S110:根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型。
由于动态网页的最后更新时间是当前服务器时间,伪静态网页的最后更新时间一般不是当前服务器时间。因此,根据动态网页与伪静态网页的最后更新时间的差异性,通过更新时间参数能够准确判断出网站的结构类型。
其中,在根据用户发送的网站访问请求中所含有的更新时间参数确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当该网站访问请求中含有LastModified参数(其中,该参数一般在网站访问请求的请求头中)时,即确定该网站的结构类型为伪静态网站;或者,中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数,获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则进行验证,确定该网站的结构类型为伪静态网站。
具体地,一般模板系统所搭建的网站都是在后台采集资源,为了方便搜索引擎收录,通过动态页面(例如ASP页面)生成静态页面(即HTML页面)。因此,手动生成或定时生成的伪静态网页的修改时间,和需要与数据库实时交互的动态页面的时间会有时间差,如此便造成模板系统生成的页面的时间一般不会是当前服务器的时间,利用这一特征便能够判断网站的结构类型是否属于伪静态网页。
通过步骤S110,能够实现过滤大量动态网站的目的,留下的站点一般包含有模板系统所搭建的伪静态网站。即该步骤能够确定网站的结构类型是伪静态网站还是动态网站。
S120:当确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定该伪静态网页符合重建要求。
为了能够使用户看到干净清爽的网页内容,需要去除网页中其他不必要的元素,例如网页中所嵌入的广告元素,只留下用户想要看到的网页的主要元素,如此便需要对网页进行定制(即重建)。通常情况下,需要定制的网页,其内容一般都会与某些特定的关键字相关,例如“视频”、“小说”等,其可以根据定制的需要进行预设。
具体地,将某些特定的关键字预先存入关键字库中,以作为判断网页是否符合重建要求的依据。例如,预先将“视频”、“笑话”、“小说”等特定关键字存入关键字库中,当用户想要定制一个视频网站的内容时,则只需要将所访问的视频网站中的伪静态网页的head标签下的title标签和meta标签(含keywords、description)所含的关键字与关键字库进行匹配,如果该关键字与关键字库匹配成功,则可以确定用户所访问的视频网站中的伪静态网页符合重建的要求。
另外,为了搜索引擎优化,方便爬虫的抓取和收录,网站的站长通常会将网站的核心关键字放进网站首页的title标签和meta标签。因此,通过伪静态网站中的伪静态网页的head标签下的title标签和meta标签所含的关键字,确定伪静态网站中的伪静态网页的内容类型,以将含有该关键字的同一内容类型的伪静态网页进行资源聚合。由于模板系统所搭建的网站其页面结构基本相似,因此,将同一内容类型的伪静态网页进行资源聚合有利于更有针对性的对资源进行收集和分发。
也就是说,通过对所访问的伪静态网站中的伪静态网页的内容类型的确定,能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求,又能够将同一内容类型的网站进行聚合,以方便同类型网站的收集。
S130:当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。
网页的核心元素作为网页的关键识别码,其可以避免域名改变所导致的网站无法识别的情况。因为网页的域名虽然改变的,但网页的核心元素却始终不会改变。因此在抽取伪静态网页的核心元素时,通过网页元素白名单,能够提高对网页元素抽取的精准度。网页元素白名单与现有的域名白名单相比,其优势在于不必担心因为域名变换而导致网页元素抽取失败的情况发生。
其中,网页元素白名单由伪静态网页的标签下的核心元素构成。其中,该标签包括body标签中的div标签和/或table标签。另外,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
需要说明的是,一个网页元素白名单指的是针对网页的关键所定义的,其也可以称作class id白名单。网页元素白名单可以有多个,其中,在区分多个网页元素白名单时,可以用class和id的值来进行区分。也就是说,一个网页元素白名单对应的是同一内容类型的网页。
具体地,根据网页中是否含有设定的核心元素确认是否对网页元素进行抽取,如果网页中没有设定的核心元素,则不对网页元素进行抽取,在后续则只能展示原网页给用户;如果网页中含有设定的核心元素,则对网页元素进行抽取。
也就是说,首先应判断网页元素白名单中是否含有伪静态网页的核心元素,如果有,抽取该伪静态网页的核心元素,即只要网页的核心元素存在于网页元素白名单中的同一类网站,都能够抽取其网页的核心元素。
例如,网页导航标签的写法有<div class="menu">,<div class="nav">、<divclass="navigation">、<div class="dh">等,将class作为网页的核心元素,将menu、nav、navigation、dh加入到网页元素白名单,凡是网页结构中含有这些class的,均可认为该网页是类型为导航的相似结构,可以进行抽取。
需要说明的是,一个网页元素白名单对应同一内容类型的一类网页,即是一个网页元素白名单可以对应多个网页,如此便能够有效地从结构本质上对域名经常变换的一类网站进行定位,从而减少域名白名单的人工维护成本。
由于该重建的伪静态网页只是抽取的网页的核心元素进行转码重建,因此过滤了广告,只含有原网页的核心内容,可以给用户提供无广告、清爽的差异化视觉体验。
本发明利用特定参数自动筛选出网站的结构类型,当确定网站的结构类型为伪静态网站时,通过伪静态网站中的伪静态网页的head标签内的title标签确定该伪静态网站中的伪静态网页符合重建要求,然后通过网页元素白名单机制,抽取伪静态网页的核心元素进行转码重建。
通过上述流程可以看出,本发明提供的基于移动浏览器的网页处理方法能够自动和准确找到使用模板系统所搭建的特定内容的伪静态网站,且能够保证将使用模板系统所搭建的网站进行转码处理,并形成新页面提供给用户,从而实现这类站点的识别并进行重新排版展示,不仅人工维护成本低、重建网页的效率高,还能使电脑页面更适合手机用户浏览,还能提升用户的体验。
为了更为清楚地说明本发明提供的基于移动浏览器的网页处理方法,图2示出了根据本发明实施例的基于移动浏览器的网页处理方法的第二流程。如图2所示:
S210:在用户访问网站时,中间件截获用户访问网站的请求。
S220:判断该请求的HTTP请求头中是否含有Last Modified参数,以确定用户所访问的网站的结构类型是否属于伪静态网页。如果该请求的HTTP请求头中含有LastModified参数,则进入步骤S230,否则进入步骤S260。
具体地,如果该请求的HTTP请求头中不含有Last Modified参数,则说明用户所访问的网站的结构类型不属于伪静态网页,那么只能将原网页内容展示给用户。
S230:判断网页的head标签下的title标签和mtea标签是否含有预设关键字,以确定用户所访问的伪静态网页是否符合重建的要求。如果title标签和mtea标签包含预设关键字,则进入步骤S240,否则进入步骤S260。
具体地,该预设关键字可保存在关键字库中,在判断用户所访问的伪静态网页是否符合重建的要求时,只需将网页的head标签下的title标签和meta标签所含的关键字与关键字库进行匹配,如果匹配成功,则可以确定用户所访问的伪静态网页满足重建的要求,接下来则对网页元素白名单进行校验;如果匹配不成功,则说明该伪静态网页不符合重建要求,那么只能将原网页内容展示给用户。
S240:判断网页元素白名单中是否含有伪静态网页的核心元素,如果有则进入步骤S250,否则进入步骤S260。
S250:抽取该伪静态网页的核心元素,通过中间件给出定制的新页面(即重建后的页面)展示给用户,然后将重建后的网页的域名记录至域名白名单。
具体地,在对网页元素白名单进行校验时,即在判断网页元素白名单中是否含有伪静态网页的核心元素时,如果网页元素白名单中含有伪静态网页的核心元素(例如class或id),则抽取该伪静态网页的核心元素,通过中间件给出定制的新页面(即重建后的页面)展示给用户,然后将重建后的网页的域名记录至域名白名单。
S260:将原网页内容展示给用户。
下述以基于移动浏览器的视频网站为例,对本发明提供的网页处理方法作详细说明。
用户在使用移动浏览器请求访问某视频网站时,中间件截获该请求,判断该网站的结构类型是否为伪静态网页;其中,当该请求中含有Last Modified参数时,确定该视频网站的结构类型为伪静态网站;然后通过判断该伪静态网站的伪静态网页的title标签和meta标签是否含有“视频”这一预设关键字,确定该伪静态网页是否符合重建要求。其中,当该伪静态网页的title标签和meat标签含有“视频”这一预设关键字时,确定该伪静态网页符合重建要求。
由于同一内容类型的网站具有相似的网页结构,因此当确定该伪静态网页符合重建要求时,采用网页元素白名单的抽取规则,抽取视频网站中的网页标签下的核心元素,根据所抽取的核心元素,对该伪静态网页进行重新排版后呈现给用户。
重新排版后的页面效果为:一级页面为资源导航页,二级页面为视频、专区页,三级页面为视频内容展示页。
与上述方法相对应,本发明还提供一种基于移动浏览器的网页处理系统。图3示出了根据本发明实施例的基于移动浏览器的网页处理系统逻辑结构。
如图3所示,本发明提供的基于移动浏览器的网页处理系统包括:网站结构类型确定单元310、网站内容类型确定单元320、网页核心元素抽取单元330和页面重建单元340。
其中,网站结构类型确定单元310用于根据用户发送的网站访问请求中所含有的更新时间参数,确定网站的结构类型。
其中,网站结构类型确定单元310,在根据用户发送的访问网站的请求中所含有的网页的更新时间参数,确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当网站访问请求中含有Last Modified参数时,即确定网站的结构类型为伪静态网站;或者中间件截获用户发送的访问网站的请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则确定网站的结构类型为伪静态网页。
通过网站结构类型确定单元310能够过滤大量动态网站,留下的站点一般包含有模板系统所搭建的伪静态网站。
网页重建确定单元320用于当网站结构类型确定单元310确定出网站的结构类型为伪静态网页时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定伪静态网页符合重建要求。
其中,网页重建确定单元320通过伪静态网站中的伪静态网页的head标签下的title标签和meta所含的关键字,能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求,还能够将同一内容类型的网站进行聚合,方便同类型网站的收集。
网页核心元素抽取单元330用于当网页重建确定单元320确定伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素。
其中,在网页核心元素抽取单元330中,网页元素白名单由伪静态网页的标签下的核心元素构成,其中,标签包括body标签中的div标签和/或table标签。并且一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
页面重建单元340用于根据网页核心元素抽取单元330所抽取的核心元素,对伪静态网页进行转码重建。
通过上述可以看出,本发明提供的基于移动浏览器的网页处理方法及系统通过选择特定参数自动对特定类型的网站进行筛选,自动和准确找到使用模板系统所搭建的特定内容的伪静态网站,并对其网页核心元素进行抽取,且不受域名白名单影响,保证将使用模板系统所搭建的网站进行转码重建。重建后的网页过滤了广告,只含有原网页的核心内容,在给用户提供无广告、清爽的差异化视觉体验的同时,还能够降低网站的维护成本,提高重建的效率。
如上参照附图以示例的方式描述了根据本发明的基于移动浏览器的网页处理方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于移动浏览器的网页处理方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (6)

1.一种基于移动浏览器的网页处理方法,包括:
根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型;其中,
当确定所述网站的结构类型为伪静态网站时,通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定所述伪静态网站中的伪静态网页是否符合重建要求;其中,当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
当所述伪静态网页符合重建要求时,抽取网页元素白名单中含有的所述伪静态网页的核心元素,并根据所抽取的核心元素,对所述伪静态网页进行转码重建;其中,所述网页元素白名单由所述伪静态网页的标签下的核心元素构成,其中,所述标签包括body标签中的div标签和/或table标签。
2.如权利要求1所述的基于移动浏览器的网页处理方法,其中,在所述根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型的过程中,
中间件截获用户发送的网站访问请求,当所述网站访问请求中含有Last Modified参数时,即确定所述网站的结构类型为伪静态网站;或者,
中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果所述网站服务器的最后更新时间不是当前时间,则确定所述网站的结构类型为伪静态网站。
3.如权利要求2所述的基于移动浏览器的网页处理方法,其中,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
4.一种基于移动浏览器的网页处理系统,包括:
网站结构类型确定单元,用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型;
网页重建确定单元,用于当所述网站结构类型确定单元,确定所述网站的结构类型为伪静态网站时,通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定所述伪静态网站中的伪静态网页是否符合重建要求;其中,当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
网页核心元素抽取单元,用于当所述网页重建确定单元确定所述伪静态网页符合重建要求时,抽取网页元素白名单中含有的所述伪静态网页的核心元素;其中,所述网页元素白名单由所述伪静态网页的标签下的核心元素构成,其中,所述标签包括body标签中的div标签和/或table标签;
页面重建单元,用于根据所述核心元素抽取单元所抽取的核心元素,对所述伪静态网页进行转码重建。
5.如权利要求4所述的基于移动浏览器的网页处理系统,其中,所述网站结构类型确定单元,在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定所述网站的结构类型的过程中,
中间件截获用户发送的网站访问请求,当所述网站访问请求中含有Last Modified参数时,即确定所述网站的结构类型为伪静态网站;或者,
中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果所述网站服务器的最后更新时间不是当前时间,则确定所述网站的结构类型为伪静态网站。
6.如权利要求4所述的基于移动浏览器的网页处理系统,其中,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
CN201310744595.7A 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及系统 Active CN103761257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310744595.7A CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310744595.7A CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及系统

Publications (2)

Publication Number Publication Date
CN103761257A CN103761257A (zh) 2014-04-30
CN103761257B true CN103761257B (zh) 2017-09-22

Family

ID=50528495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310744595.7A Active CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及系统

Country Status (1)

Country Link
CN (1) CN103761257B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899219B (zh) * 2014-03-06 2019-06-18 上海携程商务有限公司 伪静态url的筛除方法、系统及网页爬取方法、系统
CN106921741A (zh) * 2017-03-07 2017-07-04 四川驹马企业管理有限公司 动态网页数据读取方法
CN106897452A (zh) * 2017-03-07 2017-06-27 四川驹马企业管理有限公司 动态网页数据读取装置与系统
CN109218270B (zh) * 2017-07-06 2021-08-10 北京京东尚科信息技术有限公司 一种处理被劫持请求的方法和装置
CN110147478B (zh) * 2017-10-20 2021-06-29 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端
CN108280013B (zh) * 2018-02-05 2021-07-23 中国银行股份有限公司 一种环境资源监测页面的展示方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938073B1 (en) * 1997-11-14 2005-08-30 Yahoo! Inc. Method and apparatus for re-formatting web pages
CN102479181A (zh) * 2010-11-22 2012-05-30 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN102789471A (zh) * 2011-05-17 2012-11-21 富士通株式会社 混搭服务器和提供混搭服务的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938073B1 (en) * 1997-11-14 2005-08-30 Yahoo! Inc. Method and apparatus for re-formatting web pages
CN102479181A (zh) * 2010-11-22 2012-05-30 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN102789471A (zh) * 2011-05-17 2012-11-21 富士通株式会社 混搭服务器和提供混搭服务的方法

Also Published As

Publication number Publication date
CN103761257A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN103761257B (zh) 基于移动浏览器的网页处理方法及系统
CN101534306B (zh) 一种钓鱼网站的检测方法及装置
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
US10043199B2 (en) Method, device and system for publishing merchandise information
CN101599156B (zh) 一种广告展现方法、装置和系统
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
KR20190039230A (ko) 프레젠테이션을 위한 네이티브 콘텐츠의 서버측 렌더링 방법 및 시스템
CN106682144A (zh) 页面展示方法和装置
CN110245069B (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN102651021B (zh) 一种图标内容更新方法及更新装置
CN101431485A (zh) 一种自动推荐互联网上信息的方法及系统
CN106096037A (zh) 基于人工智能的搜索结果聚合方法、装置以及搜索引擎
JP2009537891A (ja) コンテキスト広告/情報のマッピングのヒット率の向上のための広告/情報露出方法及びそれを用いたコンテキスト広告/情報推薦サービスシステム
CN104503988B (zh) 搜索方法及装置
CN104025083A (zh) 提供网页的方法及装置
CN112699295B (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN106570020A (zh) 用于提供推荐信息的方法和装置
CN106202260A (zh) 搜索方法、装置和搜索引擎
CN102207967A (zh) 一种自动提供浏览器新插件的方法和系统
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103902579A (zh) 获取信息的方法和装置
CN102999511A (zh) 一种页面快速转换方法、装置和系统
JP5386660B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN103577426A (zh) 用于提供搜索建议的附加应用信息的方法、装置与系统
CN105117951A (zh) 一种访客管理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200723

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 building 16, building 1610-1620, building 18, Building 29, Suzhou Street, Beijing, Haidian District

Patentee before: UC MOBILE Ltd.