CN103166981B - 一种无线网页转码方法及装置 - Google Patents

一种无线网页转码方法及装置 Download PDF

Info

Publication number
CN103166981B
CN103166981B CN201110406410.2A CN201110406410A CN103166981B CN 103166981 B CN103166981 B CN 103166981B CN 201110406410 A CN201110406410 A CN 201110406410A CN 103166981 B CN103166981 B CN 103166981B
Authority
CN
China
Prior art keywords
wap
web
web page
webpages
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110406410.2A
Other languages
English (en)
Other versions
CN103166981A (zh
Inventor
朱靖君
杨巍
林世飞
张富强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110406410.2A priority Critical patent/CN103166981B/zh
Publication of CN103166981A publication Critical patent/CN103166981A/zh
Application granted granted Critical
Publication of CN103166981B publication Critical patent/CN103166981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种无线网页转码方法及装置,用于对原始的WEB页面进行分析处理,将其转换为适合于在手机等移动终端中进行展示的WAP页面,解决了WEB页面在移动终端中的展示问题。本发明基于DOM树,对WEB网页进行分类和分块,根据网页分类和分块的结果并对网页进行重新排版后,按无线应用协议WAP标准输出为WAP页面。本发明应用到无线网页搜索以及无线浏览器的无线网页转码中,可以将原始的WEB页面有效地转换为适合于在手机中展示的WAP页面,使得用户能够在手机中方便地浏览到原始WEB页面的内容,提升了产品的用户体验效果。

Description

一种无线网页转码方法及装置
技术领域
本发明涉及无线网络技术领域,尤其涉及一种无线网页转码方法及装置。
背景技术
近年来,越来越多的人使用移动终端来浏览网页,然而移动终端的屏幕较小,一般的WEB页面是二维的,而移动终端屏幕只够显示一维的页面,所以WEB页面在移动终端中一般都显得过大,得不到较好的展示;一般的WEB页面是按照超文本标识语言HTML标准来编写的,而移动终端的浏览器通常只适用于无线应用协议(Wireless Application Protocol,WAP)页面(即WAP 1.0和WAP 2.0页面)的展示,因此很多WEB页面都无法在手机等移动终端的浏览器中展示;另外,无线网络的连接速度目前还不及有线网络,WEB页面有时会比较大,在有线网络中传输没问题,但是在无线网络中传输却会比较慢,用户很长时间都打不开网页,也就得不到想要的信息,影响了用户体验。因此,需要一种能够将WEB页面转换为WAP页面的方法,使得WEB网页在移动终端中也能得到很好的展示。而且还必须能够分别输出WAP1.0和WAP 2.0页面,因为有些低端移动终端的浏览器是不支持WAP 2.0页面。
目前一些移动终端的浏览器如UC浏览器和QQ手机浏览器对于WEB页面都将其由二维转换为一维的,即原来的多列布局都变为单列的,并且有分页的处理。而一些主要的搜索引擎例如Google和Baidu在其无线搜索引擎中都提供了WEB页面到WAP页面转换的服务,方便用户在移动终端的浏览器中查看搜索结果页面。
UC浏览器和QQ手机浏览器的转换效果还不是很好,文字和图片的排列还存在较多的问题,显得不够整齐,而且有些页面上的冗余信息也没有去掉。而Google和Baidu的转换效果相对较好,但是有时候会把页面中的一些重要信息也去掉,造成用户无法获得这些重要信息,而且在分页方面还存在问题,没有尽量保证同一行或是同一段落文本的完整性。
发明内容
有鉴于此,本发明提供一种无线网页转码方法及装置,解决了WEB页面在移动终端中的展示问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种无线网页转码方法,该方法包括:
对WEB网页的超文本标识语言HTML源码进行解析,建立文档对象模型DOM树;
通过所述DOM树对所述WEB网页的内容进行分类;
通过所述DOM树对所述WEB网页的内容进行分块;
根据所述WEB网页的分类和分块结果对所述WEB网页进行重新排版;
将排版后的WEB网页按无线应用协议WAP标准输出WAP页面。
进一步地,对所述WEB网页的内容进行分类具体为:
通过页面中链接文本占总文本的比例判断网页是信息页还是索引页;或
通过所述WEB网页中包含的关键字判断所述WEB网页的具体类型。
进一步地,对所述WEB网页的内容进行分块具体为:
根据标签节点内容中所包含的关键字、标签节点内容的文本长度、标签节点内容中所包含的链接文本长度中的至少一个对WEB网页的内容进行分块以及对块的类型进行识别。
进一步地,进行所述重新排版时,根据所述WEB网页分类和分块的结果确定对所述WEB网页进行重新排版的排版方式,基于所确定的排版方式对所述WEB网页进行重新排版,所述排版方式包括:
全重排,该排版方式下,所述WEB网页的全部内容都保留;
拼接重排,该排版方式将重要的块拼接为结果页面,将不重要的块去掉;
网页块重排,该排版方式展示WEB页面中重要的块,对于不重要的块则做折叠处理。
进一步地,所述根据所述WEB网页分类和分块的结果对网页进行重新排版具体为:
根据所述WEB网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
基于WAP标准对所述WEB网页中的层叠样式表CSS样式进行整理;
对所述WEB网页中的图片进行缩小处理,更换图片链接地址;
根据WAP页面所支持的可扩展超文本标识语言XHTML标准对所述WEB网页中的HTML标签进行处理;
所述按无线应用协议WAP标准输出WAP页面具体为:将经过标签处理后的DOM树按WAP标准输出WAP页面。
进一步地,所述方法还包括:对输出的WAP页面进行分页处理。
进一步地,进行所述重新排版时,按高版本WAP标准对所述WEB网页进行重新排版,输出高版本WAP标准的WAP页面,判断移动终端是否支持所述高版本WAP标准,当移动终端仅支持低版本WAP标准时,执行高版本到低版本的转换。
本发明还提供一种无线网页转码装置,该装置包括:
DOM树建立模块,用于对WEB网页的超文本标识语言HTML源码进行解析,建立文档对象模型DOM树;
网页分类模块,用于通过所述DOM树对所述WEB网页的内容进行分类;
抽取分块模块,用于通过所述DOM树对所述WEB网页的内容进行分块;
重排版模块,用于根据所述WEB网页分类和分块结果对网页进行重新排版;
WAP页面生成模块,用于将重排版后的WEB网页按无线应用协议WAP标准输出WAP页面。
进一步地,所述重排版模块包括:
块标记模块,用于根据网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
CSS样式整理模块,用于基于WAP标准对所述WEB网页中的层叠样式表CSS样式进行整理;
图片缩小处理模块,用于对所述WEB网页中的图片进行缩小处理,更换图片链接地址;
标签处理模块,用于根据WAP页面所支持的XHTML标准对所述WEB网页中的HTML标签进行处理;
所述WAP页面生成模块具体用于将经过标签处理后的DOM树按WAP标准输出WAP页面。
进一步地,所述装置还包括:
分页模块,用于对输出的WAP页面进行分页处理。
进一步地,所述重排版模块具体用于按高版本WAP标准对所述WEB网页进行重新排版,所述WAP页面生成模块具体用于按高版本WAP标准生成高版本WAP标准的WAP页面;
所述装置进一步包括:
版本转换模块,用于对WAP页面生成模块输出的高版本WAP标准的WAP页面进行版本转换,将高版本WAP标准的WAP页面转换为低版本WAP标准的WAP页面。
本发明基于DOM树,对WEB网页进行分类和分块,根据网页分类和分块的结果并对网页进行重新排版后,按无线应用协议WAP标准输出为WAP页面。本发明应用到无线网页搜索以及无线浏览器的无线网页转码中,可以将原始的WEB页面有效地转换为适合于在手机中展示的WAP页面,使得用户能够在手机中方便地浏览到原始WEB页面的内容,提升了产品的用户体验效果。
附图说明
图1为本发明实施例提供的无线网页转码方法流程图;
图2为本发明实施例提供的对WEB网页进行重新排版流程图;
图3为本发明实施例提供的无线网页转码装置的模块功能结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下举实施例并参照附图,对本发明进一步详细说明。
本发明用于对WEB页面进行无线转码,通过对原始的WEB页面进行分析,处理其中的超文本标识语言HTML标签以及CSS信息,将适用于较大屏幕的WEB页面转换为适用于移动终端的WAP页面。整个转换过程在服务端进行,移动终端在发起WEB页面的访问请求时,需携带支持WAP协议的版本信息,服务端直接向移动终端返回适于该移动终端的WAP页面。WEB页面到WAP页面的转换过程如图1所示,具体步骤如下:
步骤110、对WEB网页的HTML源码进行解析,建立文档对象模型(Document ObjectModel,DOM)树;
该步骤把HTML源码中的标签以及标签之外的文本表示为一个个节点,并根据节点间的包含关系构建成树的形式,也就是DOM树。DOM树中记录了各个标签的名称、标签的属性、标签外的文本以及标签之间的相互关系。
步骤120、通过所述DOM树对所述WEB网页进行分类;
通过分析DOM树,从不同的角度对WEB网页进行分类,例如从网页结构上分为信息页和索引页,从内容上分为新闻页、下载页、小说页等。
本发明一优选实施例中,通过页面中链接文本占总文本的比例判断网页是信息页还是索引页,链接文本比例较高的多为索引页,可通过设置一个链接文本所占总文本比例门限来判断是否是索引页;又例如通过一些特定的关键字判断网页是新闻页、下载页还是小说页,这些关键包含但不限于“相关新闻”、“软件下载”、“博客”、“最新章节”等,所述关键字与特定的网页类型对应。
步骤130、通过所述DOM树对WEB网页的内容进行抽取和分块;
该步骤基于DOM树对WEB页面的内容进行抽取和分块,对于采用模板的WEB页面,可只对特定的标签内容进行抽取,不需要遍历DOM树;对于未采用模板的WEB页面,通过遍历DOM树抽取标签内容。所述抽取是指提取网页中的文本信息和链接信息,然后基于提取的信息再进行分块。
一个网页通常由多个内容块组成,所述分块实际上就是根据网页内容的抽取结果对网页的内容块的识别过程。因此,分块主要是根据标签节点内容所包含的关键字、标签节点内容的文本长度、标签节点内容中所包含的链接文本长度等信息中的至少一种进行,例如只有一行而且包含类似”>”或“》”符号的多为二级导航块;带“相关新闻”、“相关报道”等关键词的块多为相关链接块;非链接文本较长的多为正文块等。本发明中块的类型包含但不限于:标题块、导航块、二级导航块、正文块、相关链接块和广告块等。
网页分类和分块是后面网页排版的基础,本发明实施例中基于网页分类和分块的结果决策对网页进行重新排版的排版方式,并将排版方式作为参数传递给后续的排版步骤进行排版处理。在排版过程中根据网页的类型以及块的类型来决定每个块的重要程度,只展示重要的块,不重要的块则是折叠起来或是去掉。块的重要程度需通过网页的类型和块的类型共同决定,例如对于新闻页,二级导航块、标题块、正文块、相关链接块都较为重要;对于博客页,标题块和正文块较为重要。判断块的重要程度的标准并不固定,可根据具体应用场景具体决定。
本发明优选实施例采用以下三种排版方式:
(1)全重排,该排版方式是针对比较小的页面,由于小页面内容较少,结构相对简单,因此全重排方式无需进行块识别,WEB网页的全部内容都可展示在最终的WAP页面中;
(2)拼接重排,该排版方式只将重要的块拼接为结果页面,将不重要的块都去掉;
(3)网页块重排,该排版方式展示页面中重要的块,对于不重要的块则做折叠处理,用户可以点击展开折叠的块查看其内容。
例如对于内容较少,适宜移动终端在一屏内显示的页面采用全重排方式;对于较为规整的页面或是垃圾信息较为明显的页面,如博客页面、新闻页面,采用拼接重排方式;对于未知分类和/或未知块较多的页面采用网页块重排方式。
步骤140、根据网页分类和分块的结果对网页进行重新排版,按WAP标准输出WAP页面;
本发明首先将WEB页面转换为高版本的WAP页面,所述的高版本应当理解为当前所支持的最高的WAP协议版本,例如,当前最高的版本为WAP2.0,则服务端首先将WEB页面转换为WAP2.0的页面,然后再根据终端所支持的版本做相应的转换。
图2为本发明实施例提供的根据网页分类和分块的结果对WEB网页进行重新排版的步骤流程:
步骤201、根据网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
该步骤标记DOM树中的各个节点所属的块的ID以及块的类型,并根据配置文件决定各节点所在块的展示方式,包括显示、去除以及折叠,节点的展示方式与所属块的展示方式一致。
所述配置文件指定了不同类型页面中不同块的展示方式,通过网页的类型、某个块的类型可以从配置文件中查找出该块的展示方式。
步骤202、基于WAP标准对页面中的层叠样式表(Cascading Style Sheet,CSS)样式进行整理;
CSS样式控制着页面的外观,它可以控制页面中的字体、颜色、行距等。WAP 2.0以上版本的页面也支持CSS样式,但WAP 1.0页面不支持,所以在将WEB页面转换为WAP 1.0页面时要去掉CSS样式。在把WEB页面转换为WAP2.0页面时,如果保留的CSS样式太丰富,则会影响转换后页面的显示效果,因为太丰富的CSS样式在很多情况下会使得页面在手机中显得比较乱。在CSS样式整理这一步,首先是去掉多余的CSS样式,只保留一些基本的CSS样式,例如只保留字体大小、字体粗细、颜色等样式,其它多余的CSS样式会被去掉。然后对于一些重复的样式,会把它们提取出来加以整理,去掉重复的属性,并重新命名,这样当节点需要相应的样式时,只需输出重新命名样式即可,缩减了生成页面的代码长度。
步骤203、对网页中的图片进行缩小处理,使其尺寸适合于在移动终端中显示,更换DOM树中图片的链接地址;
WEB网页中的图片一般尺寸比较大,不适合在移动终端的较小屏幕中直接显示。因此需要对原始WEB页面中的图片进行缩略处理,缩小其尺寸,使其适合于在移动终端中显示。缩略后的图片存储于指定的服务器中,因此需要修改图片img标签中的图片链接,使其指向缩略后的图片地址,才能在转换后的WAP页面中显示缩略后的图片。
步骤204、根据WAP标准所采用的可扩展超文本标识语言(eXtensible HyperTextMarkup Language,XHTML)规范对原WEB页面的HTML标签进行处理;
由于要对原页面进行重新排版,把二维的页面转换为一维的,而且并不是所有的HTML标签都被XHTML支持,所以要对原页面的HTML标签进行处理,所述处理包括保留、替换和去除。会尽量简化所支持的标签集合,使得页面不会过于复杂。
以WAP 2.0页面为例,只保留一些比较常用的标签,例如a、img、div、p、span、body、head、br、h1~h6、input、b、strong、form等,而且对于标签里面的属性也做了精简,也是只保留一些常用的,例如href、src、class、style、color、type、value等,对于多余的属性也是会去掉。对于table、tr、td、ul、dl、dd、dt、ol、li等标签,会把它们替换为div或是span标签;对于object、big、small、i、u、em、cite等标签,会把标签本身去掉,只保留标签之间的文本内容;对于param、embed、area、map、applet、noframes、noscript等不常见的标签,则是完全去掉标签本身以及其中的文本内容。经过这一系列的标签处理与精简,就可以得到WAP 2.0页面的雏形。
步骤205、将经过标签处理后的DOM树按高版本的WAP标准输出XHTML页面;
这里需要分两种情况进行处理,对于一些论坛页面和知识问答页面,如果按照一般的页面进行输出,效果不是很好。为了优化显示的效果,步骤130中可利用模板抽取的方式只抽取特定的内容,在该步骤中只输出特定的块与内容。所以对于模板抽取的页面以及非模板抽取的页面,该步骤需采用不同的输出方式。对于非模板抽取的页面,就是对DOM树进行遍历,按照节点的展示方式(显示、去掉或折叠)进行输出,输出节点对应的标签名、标签属性以及文本内容;而对于模板抽取的页面,则根据抽取的结果只输出特定的块与内容,并不是对DOM树进行完整的遍历,这样就能进一步去除无关内容,突出重点内容,使得转换后页面的版式更为整齐,简洁。
步骤150、对输出的WAP页面进行分页处理;
由于将二维的WEB页面转换为一维的WAP页面,所以转换后页面可能会比较长,在手机中要翻很久才能看完,而且手机网络较慢,不适合传输较大的网页,因此要对转换后的页面做分页处理。分页时的主要依据是页面中标签以外的文本长度以及页面中的图片数,在这两个方面分别设定一个阈值进行分页,把转换后的页面划分为较小的页面。分页的时候按照重要程度的从高到低依次尽量保证同一句文本不被分开、同一行文本不被分开、同一段落文本不被分开以及同一个块的文本不被分开。如果最后一页内容较少,就把最后一页补到前一页去。
该步骤为可选步骤,当输出的WAP页面较小时可不需要进行分页处理。
步骤160、判断移动终端是否支持所生成的高版本WAP页面,若支持则流程结束,否则,将高版本的WAP页面再转换为终端所支持的低版本的WAP页面;
例如,若生成的高版本的WAP页面为WAP2.0页面,而移动终端只支持WAP1.0,则网页排版后得到的WAP2.0页面在经过分页后,就要根据WAP1.0的标准将WAP2.0的页面转换为WAP1.0的页面。
WAP1.0即WML页面,WML支持的标签比较少,而且支持的标签属性也比较少,也不支持CSS样式。在标签方面,只保留p、b、br、a、img标签,其它标签都要去掉。在去掉标签的时候,需要注意换行问题,有些标签如div、h1~h6等是有换行作用的,在去掉这些标签时要适当地添加br标签作为换行。至于在标签属性方面,只保留a标签的href属性以及img标签的src属性,这是由于WML所支持的标签属性较少,而且绝大多数支持的属性对排版都不起作用,为了精简页面就把它们去掉了。
而对于标签之外的文本,WML对”&”字符较为敏感,在遇到”&”字符时需要进行处理,否则页面会出错。对于除WML支持的实体之外的”&”字符,都需要转换为”&”,WML支持的实体只有”&”、”'”、“>”、“<”、“ ”和“"”几种,在遇到除这几种实体以外的”&”字符时,都需要转换为”&”。除此之外,标签之外的文本基本上没变化。经过这些处理就可以将WAP2.0页面转换为符合WML标准的WAP1.0页面。
优选地,服务端接收到移动终端发送的WEB页面访问请求后,首先执行是否有缓存页面的判断,如果之前已经执行过针对同一WEB页面到WAP页面的转换过程,则服务端可直接向移动终端反馈缓存的转换完成的WAP页面,否则再执行步骤110。
基于本发明实施例提供的一种无线网页转码方法,本发明实施例相应的提供一种实现该方法的无线网页转码装置,该装置300如图3所示,包括:
DOM树建立模块310,用于对WEB网页的超文本标识语言HTML源码进行解析,建立文档对象模型DOM树;
网页分类模块320,用于通过所述DOM树对所述WEB网页的内容进行分类;该模块可通过统计分析页面中链接文本占总文本的比例来判断网页是信息页还是索引页;和/或通过WEB网页中包含的关键字判断网页的具体类型
抽取分块模块330,用于通过所述DOM树对WEB网页的内容进行抽取后进行分块;该模块可根据标签节点内容中所包含的关键字和/或标签节点内容的文本长度和/或标签节点内容中所包含的链接文本长度对WEB网页的内容进行分块以及对块的类型进行识别。
重排版模块340,用于根据所述WEB网页分类和分块结果对网页进行重新排版;
WAP页面生成模块350,用于将重排版后的WEB网页按无线应用协议WAP标准输出WAP页面。
优选地,所述重排版模块340进一步包括:
块标记模块341,用于根据网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
CSS样式整理模块342,用于基于WAP标准对所述WEB网页中的层叠样式表CSS样式进行整理;
图片缩小处理模块343,用于对所述WEB网页中的图片进行缩小处理,更换图片链接地址;
标签处理模块344,用于根据WAP页面所支持的XHTML标准对原WEB页面的HTML标签进行处理;
在标签处理完毕后,所述WAP页面生成模块将经过标签处理后的DOM树按WAP标准输出WAP页面。
优选地,所述装置300还包括:分页模块360,用于对输出的WAP页面进行分页处理。
优选地,所述装置300还包括版本转换模块370,所述重排版模块具体用于按高版本WAP标准对所述WEB网页进行重新排版,所述WAP页面生成模块具体用于按高版本WAP标准生成高版本WAP标准的WAP页面,所述版本转换模块370对WAP页面生成模块输出的高版本WAP标准的WAP页面进行版本转换,将高版本WAP标准的WAP页面转换为低版本WAP标准的WAP页面。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种无线网页转码方法,其特征在于,该方法包括:
对WEB网页的超文本标识语言HTML源码进行解析,建立文档对象模型DOM树;
通过所述DOM树对所述WEB网页的内容进行分类;
通过所述DOM树对所述WEB网页的内容进行分块;
根据所述WEB网页的分类和分块结果对所述WEB网页进行重新排版;
将排版后的WEB网页按无线应用协议WAP标准输出WAP页面;
其中,进行所述重新排版时,根据所述WEB网页分类和分块的结果确定对所述WEB网页进行重新排版的排版方式,基于所确定的排版方式对所述WEB网页进行重新排版,所述排版方式包括:
全重排,该排版方式下,所述WEB网页的全部内容都保留;
拼接重排,该排版方式将重要的块拼接为结果页面,将不重要的块去掉;
网页块重排,该排版方式展示WEB页面中重要的块,对于不重要的块则做折叠处理。
2.根据权利要求1所述的方法,其特征在于,对所述WEB网页的内容进行分类具体为:
通过页面中链接文本占总文本的比例判断网页是信息页还是索引页;或
通过所述WEB网页中包含的关键字判断所述WEB网页的具体类型。
3.根据权利要求1所述的方法,其特征在于,对所述WEB网页的内容进行分块具体为:
根据标签节点内容中所包含的关键字、标签节点内容的文本长度、标签节点内容中所包含的链接文本长度中的至少一个对WEB网页的内容进行分块以及对块的类型进行识别。
4.根据权利要求1所述的方法,其特征在于,所述根据所述WEB网页分类和分块的结果对网页进行重新排版具体为:
根据所述WEB网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
基于WAP标准对所述WEB网页中的层叠样式表CSS样式进行整理;
对所述WEB网页中的图片进行缩小处理,更换图片链接地址;
根据WAP页面所支持的可扩展超文本标识语言XHTML标准对所述WEB网页中的HTML标签进行处理;
所述按无线应用协议WAP标准输出WAP页面具体为:将经过标签处理后的DOM树按WAP标准输出WAP页面。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对输出的WAP页面进行分页处理。
6.根据权利要求1所述的方法,其特征在于,进行所述重新排版时,按高版本WAP标准对所述WEB网页进行重新排版,输出高版本WAP标准的WAP页面,判断移动终端是否支持所述高版本WAP标准,当移动终端仅支持低版本WAP标准时,执行高版本到低版本的转换。
7.一种无线网页转码装置,其特征在于,该装置包括:
DOM树建立模块,用于对WEB网页的超文本标识语言HTML源码进行解析,建立文档对象模型DOM树;
网页分类模块,用于通过所述DOM树对所述WEB网页的内容进行分类;
抽取分块模块,用于通过所述DOM树对所述WEB网页的内容进行分块;
重排版模块,用于根据所述WEB网页分类和分块结果对网页进行重新排版;
WAP页面生成模块,用于将重排版后的WEB网页按无线应用协议WAP标准输出WAP页面;
其中,进行所述重新排版时,根据所述WEB网页分类和分块的结果确定对所述WEB网页进行重新排版的排版方式,基于所确定的排版方式对所述WEB网页进行重新排版,所述排版方式包括:
全重排,该排版方式下,所述WEB网页的全部内容都保留;
拼接重排,该排版方式将重要的块拼接为结果页面,将不重要的块去掉;
网页块重排,该排版方式展示WEB页面中重要的块,对于不重要的块则做折叠处理。
8.根据权利要求7所述的装置,其特征在于,所述重排版模块包括:
块标记模块,用于根据网页分块的结果对DOM树中的各个节点进行标记,并根据配置文件决定各节点所在块的展示方式;
CSS样式整理模块,用于基于WAP标准对所述WEB网页中的层叠样式表CSS样式进行整理;
图片缩小处理模块,用于对所述WEB网页中的图片进行缩小处理,更换图片链接地址;
标签处理模块,用于根据WAP页面所支持的XHTML标准对所述WEB网页中的HTML标签进行处理;
所述WAP页面生成模块具体用于将经过标签处理后的DOM树按WAP标准输出WAP页面。
9.根据权利要求7所述的装置,其特征在于,还包括:
分页模块,用于对输出的WAP页面进行分页处理。
10.根据权利要求7所述的装置,其特征在于,
所述重排版模块具体用于按高版本WAP标准对所述WEB网页进行重新排版,所述WAP页面生成模块具体用于按高版本WAP标准生成高版本WAP标准的WAP页面;
所述装置进一步包括:
版本转换模块,用于对WAP页面生成模块输出的高版本WAP标准的WAP页面进行版本转换,将高版本WAP标准的WAP页面转换为低版本WAP标准的WAP页面。
CN201110406410.2A 2011-12-08 2011-12-08 一种无线网页转码方法及装置 Active CN103166981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110406410.2A CN103166981B (zh) 2011-12-08 2011-12-08 一种无线网页转码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110406410.2A CN103166981B (zh) 2011-12-08 2011-12-08 一种无线网页转码方法及装置

Publications (2)

Publication Number Publication Date
CN103166981A CN103166981A (zh) 2013-06-19
CN103166981B true CN103166981B (zh) 2017-12-12

Family

ID=48589719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110406410.2A Active CN103166981B (zh) 2011-12-08 2011-12-08 一种无线网页转码方法及装置

Country Status (1)

Country Link
CN (1) CN103166981B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440260A (zh) * 2013-07-31 2013-12-11 北京百度网讯科技有限公司 一种用于提供呈现信息的方法与设备
CN104714958A (zh) * 2013-12-12 2015-06-17 腾讯科技(深圳)有限公司 一种网页转换方法及装置
CN104794118B (zh) * 2014-01-17 2019-03-26 腾讯科技(深圳)有限公司 一种网页信息处理方法、装置和系统
CN103870543B (zh) * 2014-02-25 2017-07-25 百度在线网络技术(北京)有限公司 一种用于文档文件重构的方法及装置
CN105528369B (zh) * 2014-09-30 2019-03-15 优视科技有限公司 网页转码方法、装置以及服务器
CN105512160B (zh) * 2014-12-31 2017-06-16 广州神马移动信息科技有限公司 网页转码方法、网页转码装置及网页浏览系统
CN104573001A (zh) * 2015-01-07 2015-04-29 北京联合大学 一种基于移动终端的网页数据采集及归类的方法
CN105989012B (zh) * 2015-01-28 2019-12-13 深圳市腾讯计算机系统有限公司 一种页面显示方法、装置、移动终端和系统
CN104881453B (zh) * 2015-05-18 2019-06-28 百度在线网络技术(北京)有限公司 一种识别网页类型的方法和装置
CN105677909A (zh) * 2016-02-24 2016-06-15 沈文策 一种网页滑动翻页的布局方法
CN106899750A (zh) 2016-08-03 2017-06-27 阿里巴巴集团控股有限公司 基于卡片的信息展示方法、信息展示业务的处理方法及装置
CN107632970A (zh) * 2017-09-29 2018-01-26 彩讯科技股份有限公司 一种邮件内容转码方法及装置
CN109284459A (zh) * 2018-10-16 2019-01-29 中国搜索信息科技股份有限公司 一种基于浏览器内核的网页转码方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101860533A (zh) * 2010-05-26 2010-10-13 卓望数码技术(深圳)有限公司 一种基于c/s架构浏览器的数据传输方法及服务器
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN102156742A (zh) * 2011-04-19 2011-08-17 北京神州数码思特奇信息技术股份有限公司 支持手机使用自带浏览器展示结构化文档的方法及中间件

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290061B2 (en) * 2000-12-05 2007-10-30 Citrix Systems, Inc. System and method for internet content collaboration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101860533A (zh) * 2010-05-26 2010-10-13 卓望数码技术(深圳)有限公司 一种基于c/s架构浏览器的数据传输方法及服务器
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN102156742A (zh) * 2011-04-19 2011-08-17 北京神州数码思特奇信息技术股份有限公司 支持手机使用自带浏览器展示结构化文档的方法及中间件

Also Published As

Publication number Publication date
CN103166981A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103166981B (zh) 一种无线网页转码方法及装置
CN101197849B (zh) 将互联网页面转换为无线应用协议页面的转换方法
CN102200971B (zh) 一种实现网页内容预览的方法和设备
US7853871B2 (en) System and method for identifying segments in a web resource
US10261983B2 (en) Method and device for webpage browsing, and mobile terminal
US8005825B1 (en) Identifying relevant portions of a document
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
CN100476830C (zh) 一种网络资源检索方法及系统
CN101246494B (zh) 一种互联网网页转换方法、系统及设备
US7730395B2 (en) Virtual tags and the process of virtual tagging
CN102253979B (zh) 基于视觉的web页面萃取方法
CN101551800B (zh) 标注信息生成装置、查询装置及共享系统
US20070240032A1 (en) Method and system for vertical acquisition of data from HTML tables
US8370342B1 (en) Display of relevant results
WO2001050349A1 (en) Electronic document customization and transformation utilizing user feedback
CN102306201B (zh) 一种网页标题分析的方法和系统
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
US20090241016A1 (en) Display control apparatus, display control method and computer product
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN109359253A (zh) 一种Web前端性能优化方法
CN101621862A (zh) 手机浏览器快速定位有效信息的方法与装置
CN103870486A (zh) 确定网页类型的方法和装置
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
Ahmadi et al. User-centric adaptation of Web information for small screens
CN104750851A (zh) 网页内容的延迟加载方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant