CN102567404A - 一种wap网站在线网页转换方法及装置 - Google Patents
一种wap网站在线网页转换方法及装置 Download PDFInfo
- Publication number
- CN102567404A CN102567404A CN2010106179816A CN201010617981A CN102567404A CN 102567404 A CN102567404 A CN 102567404A CN 2010106179816 A CN2010106179816 A CN 2010106179816A CN 201010617981 A CN201010617981 A CN 201010617981A CN 102567404 A CN102567404 A CN 102567404A
- Authority
- CN
- China
- Prior art keywords
- address
- webpage
- web page
- wml
- html
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种WAP网站在线网页转换方法及其装置,该方法包括:S1:获取用户访问的WAP网站地址;S2:下载所述WAP网站地址对应的WML网页;S3:解析所述WML网页并将其转化为HTML网页,将所述HTML网页结果返回给所述用户。本发明能够在用户无需安装任何软件情况下,直接访问WAP网站的WML网页,充分利用更多现有WAP网站的网络资源。
Description
技术领域
本发明涉及计算机网页转换领域,尤其涉及一种WAP网站在线网页转换方法及装置。
背景技术
目前通过移动终端上网是一个流行的趋势,新型智能移动终端都采用的浏览器是一个HTML(Hyper Text Mark-up Language,超文本标记语言)浏览器,然而上述智能移动终端所采用的HTML浏览器以及传统的用在计算机终端的HTML浏览器(IE,Firefox,chrome),都不能浏览传统的为非智能移动终端设计的WML移动终端网页,而只能浏览HTML格式的网页。
而现在非智能移动终端仍然占到市场主流,各大网站提供商都针对非智能移动终端提供了WML(Wireless Markup language,无线标记语言)格式的网页,并建立了相对应的WAP(Wireless Application Protocol,无线应用通讯协议)站点。随着用户的增加,WAP网站的质量和WML网页的数量越来越丰富,如果新型智能移动终端和无线计算机终端仍不能浏览WAP网站中的WML类型的网页,这样就使新型智能移动终端和无线计算机终端的上网服务受到限制,并且造成原有WAP资源的浪费。
发明内容
为了解决上述问题,本发明的实施例的一种目的是提供一种WAP网站在线网页转换方法,能够实现智能移动终端以及计算机终端访问WAP网站资源,充分利用更多的网络资源。
因此,为了实现上述目的,本发明提供一种WAP网站在线网页转换方法,包括以下步骤:
S1:获取用户访问的WAP网站地址;
S2:下载所述WAP网站地址对应的WML网页;
S3:解析所述WML网页并将其转化为HTML网页,将所述HTML网页结果返回给所述用户。
根据本发明的一个实施例,所述步骤S3具体为:
S31:将所述WML网页解析生成文档结构DOM树;
S32:遍历所述DOM树结构,寻找WML与HTML不同的元素,依据元素的语义对寻找到元素进行语法转换,在DOM树中将其转换为对应的HTML网页节点;
S33:然后将所述处理后的DOM树转换成HTML格式的网页,返回给所述用户。
根据本发明的一个实施例,在步骤S31之前还包括去除WML网页转义符标记的步骤。
根据本发明的一个实施例,上述所述步骤S32还包括以下步骤:
处理WML网页标签的步骤:
若寻找到的元素中不具有HTML网页中所必须有的标签,则添加HTML网页中所必须有的标签,
以及若寻找到的元素中具有在HTML网页内容没有相对应的标签,则忽略掉该标签,保留标签中的内容;
处理地址的步骤:
遍历所述DOM树中所有URL地址,将所述URL字符串编码转换为utf-8编码格式,
以及遍历所述DOM树中的图片地址,将其转换为能够直接访问图片的绝对地址。
根绝本发明的一个实施例,所述步骤S2具体为:
S21:对所述网站地址进行编码转换,将所述网站地址的编码转换为utf-8编码;
S22:将所述网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址;
S23:根据http协议判断给定网页地址的网页是否能下载,是则下载所述网站地址对应的网页内容,否则向用户返回下载失败的信息。
本发明的另一目的是提供一种WAP网站在线网页转换装置,所述装置包括:
获取模块,用于获取用户访问的WAP网站地址;
下载模块,用于下载所述WAP网站地址对应的WML网页;
解析模块,用于解析所述WML网页并将其转化为HTML网页,并将所述HTML网页结果返回给所述用户。
所述解析模块还包括:
结构转换单元,用于将所述WML网页解析生成文档结构DOM树;
遍历单元,用于遍历所述DOM树结构,寻找不同的展示元素,根据不同的语义将其转换为对应的HTML网页节点;
转换单元,用于将处理后的DOM树转换成HTML格式的网页,返回给所述用户。
所述下载模块还包括:
编码转换单元,用于对所述网站地址进行编码转换,将所述网站地址的编码转换为utf-8编码;
地址转换单元,用于将所述网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址;
下载判断单元,用于根据http协议判断给定网页地址的网页是否能下载,是则下载所述网站地址对应的网页内容,否则向用户返回下载失败的信息。
根据本发明的实施例,本发明能够在用户无需安装任何软件情况下,直接访问WAP网站的WML网页,充分利用更多现有WAP网站的网络资源。
附图说明
图1为根据本发明的一种实施例的WAP网站在线网页转换方法的流程图;
图2为根据本发明的一种实施例的下载WML网页方法的流程图;
图3为根据本发明的一种实施例的解析所述WML网页将其转换为html网页方法的流程图。
具体实施方式
下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
为了更便于理解本发明,在说明本发明的实施例之前,先说明一下WML和HTML语言格式各自的特点:
WML(Wireless Markup Language,无线标记语言)是一种从HTML继承而来的标记语言,但是WML基于XML因此它较HTML更严格。WML被用来创建可显示在WAP浏览器中的页面。而HTML(HyperText Mark-upLanguage)即超文本标记语言或超文本链接标示语言,是目前计算机网络上应用最为广泛的语言,也是构成网页文档的主要语言,HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等;因而WML是一套不同于HTML的语言,具有不同的语法和标签以及独特的语义,并且其所支持的标签数量要小于HTML语言所支持的标签数量,从而WML仅用于WAP站点的网页显示,而HTML一般是应用于计算机或者智能移动终端的HTML浏览器。
由于上述不同,因而在智能移动终端上的HTML浏览器无法浏览WAP站点所提供的WML网页,但是WML和HTML同属于XML家族,其具有共通的语义和许多相似的语法。
因而,本发明的实施例提出了在移动终端上通过HTML浏览器直接访问WAP网站的WML网页的一种技术方案,在移动终端访问WAP网站时通过将WML网页转换成HTML网页,从而向用户提供HTML网页浏览,使智能手机终端的用户得到更多的网络资源。
在本发明中,用户的访问请求被代理服务器重定向到转化服务,转化服务根据用户访问的URL去取得各个WAP网站的网页。取得WML网页后,然后通过本发明的WML到HTML转换器进行转换,该转换器的核心算法为:对WML文档进行语法检查与语义解释,通过栈操作和特殊标记的模块化的处理,完成WML语言到语法严格的HTML语言的翻译转换。
具体地,如图1所示,本发明的一种WAP网站在线网页转换方法,包括以下步骤:
S1:取得用户访问的WAP网站地址;
由于智能移动终端或者无线上网计算机终端通过HTML浏览器访问WAP网站时,不能直接获取到WAP网站所提供的网页,需要先通过本发明的WAP网页转化服务,才能获取到所浏览的HTML网页,因而在转化服务的第一步骤就需要获取该用户想访问的是哪个WAP网站地址。
在上述步骤之后,进行步骤S2:下载该WAP网站地址对应的WML网页:
在该步骤中,如图2所示,在下载WML网页时还包括如下步骤:
S21:对网站url地址进行编码转换:为了防止由于WAP网站地址编码不统一而造成在后续下载过程中的乱码,比如有的网站地址采用gb2312编码,有的网站地址采用utf-8编码,因而需要将用户给定的网站地址url转换为utf-8编码格式;
S22:将网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址,比如将代理服务器中的地址字符“_xun_jie_”转换为“&”;
S23:根据http协议判断给定网页地址url的网页是否能下载,是则下载该url对应的网页内容,否则向用户返回下载失败的提示信息。
经过这步骤之后,用户所要访问的WML网页已经被下载到移动终端的代理服务器中,然后在该服务器中进行下一步骤的WML到HTML转换。
S3:解析所述WML网页并将其转化为HTML网页,将所述HTML网页结果返回给所述用户。
在步骤S3中,如图3所示,可以通过先将原来的WML网页生成DOM树结构,然后遍历所述DOM树,对元素进行语法检查,寻找WML与HTML不同的元素,依据元素的语义对寻找到元素进行语法转换,在DOM树中将其转换为对应的HTML网页节点。
优选地,可以通过HtmlCleaner工具(文档解析器)将WML网页内容转换为DOM结构。
优选地,在解析WML网页生成DOM树结构之前需要将WML网页中存在的转义符去除,比如“\t“\r”“\n”等。
为了理解上述步骤,我们有必要对WML的元素和标签予以简单说明。与HTML类似,WML的主要语法也是元素和标签。元素是符合DTD(文档类型定义)的文档组成部分,如title(文档标题)、IMG(图像)、table(表格)等等。WML使用标签来规定元素的属性和它在文档中的位置。标签使用单书名号括起来,即采用“<标签名>”的形式。标签分单独出现的标签和成对出现的标签两种。大多数标签是成对出现的,由首标签和尾标签组成。首标签和尾标签又分别称为起始标签和终止标签。首标签的格式为“<元素名>”,尾标签的格式为“</元素名>”。成对标签用于规定元素所涵的范围,比如<b>和</b>标签用于界定黑体字的范围,也就是说,<b>和</b>之间的部分采用黑体字显示。单独标签的格式为“<元素名/>”,它的作用是在相应的位置插入元素。如<br/>标签表示在该标签所在位置插入一个换行符。
也正如前面所述的,WML网页的标签没有HTML网页的标签数量丰富,并且HTML网页的结构包括头部(head)、主体(body)两大部分,因而在遍历所述WML网页的DOM树结构时,对于没有具有HTML相应标签的元素,为其添加相应的标签,比如WML网页头部没有title标签,就需要为该头部信息添加<title>和</title>。
同时,在遍历所述WML网页的DOM树结构时,若遇到不同的语法中没有相互对应的标签时,则忽略该标签,而将其标签中的内容提上来。
本步骤是S3中还包括处理所述DOM树结构中的所有地址,所述对地址的处理包括下述处理过程:
A、将遍历到的所有url地址进行编码方式的处理转换,比如可以将所有地址的编码方式都统一转换为utf-8;
B、将遍历到的所有picture地址转换为能够直接访问的绝对地址,比如:原来WML页面的picture元素中具有链接″test/a.jpg”,链接上没有带网站域名,不进行处理的话就无法访问图片;
C、将WML页面中包含的链接转换为能提供转化服务的代理服务器的相对地址,比如有部分文字中具有链接“http://test.com/test.WML”,如果不进行处理的话,用户在页面直接点击该链接就直接跳到该网站的网页上了,而这些网页上的WML格式是无法访问到的,因此要将该链接进行处理,先连接到本发明所适用的代理服务器地址上,然后服务器接收到用户所需要的地址后,实时下载下来并将其转换为HTML格式,然后再返回给用户,比如将上面的链接“http://test.com/test.WML”修改成“http://代理服务器的地址.com/process.html?url=″http://test.com/test.WML″。
经过上述解析处理后的WML网页的DOM树结构,然后将其转换为HTML格式的网页,就可返回给用户一个能用HTML浏览器浏览的HTML网页。
因此,作为步骤S3的一个实施例,具体包括如下步骤:
(1)去除如“\t”“\r”“\n”等转义符标记;
(2)结构转换,即将WML页面内容转换为DOM树结构;
(3)处理标签,可以添加WML网页中所不存在而在html网页中需要的标签,比如添加<title>和</title>标签;也可将在HTML网页内容没有相应的标签忽略掉;
(4)处理地址,即遍历DOM树中所有地址,对其进行处理,处理包括编码转换处理和地址转换处理,其中所述编码转换处理是将地址URL的编码转换为utf-8编码格式;其中地址转换处理为页面包含的链接和picture链接的转换处理;
(5)将上述处理后的DOM树转换成HTML格式的网页,返回给用户。
由于在用户实时访问时,本发明直接提供WAP网站的WML网页转化后的HTML网页,所以本发明能够提供高效的实时数据访问,并且在用户无需安装任何软件情况下,能直接访问WAP网站的WML网页,充分利用更多的网络资源。
相应于本发明所描述的方法,本发明还提供一种WAP网站在线网页转换装置,包括:
获取模块,用于获取用户访问的WAP网站地址;
下载模块,用于下载所述WAP网站地址对应的WML网页;
解析模块,用于解析所述WML网页并将其转化为HTML网页,并将所述HTML网页结果返回给所述用户。
其中所述解析模块还包括:
结构转换单元,用于将所述WML网页解析生成文档结构DOM树;
遍历单元,用于遍历所述DOM树结构,对元素进行语法检查,寻找WML与HTML不同的元素,依据元素的语义对寻找到元素进行语法转换,在DOM树中将其转换为对应的HTML网页节点;
转换单元,用于将处理后的DOM树转换成HTML格式的网页,返回给所述用户。
其中所述下载模块还包括:
编码转换单元,用于对所述网站地址进行编码转换,将所述网站地址的编码转换为utf-8编码;
地址转换单元,用于将所述网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址;
下载判断单元,用于根据http协议判断给定网页地址的网页是否能下载,是则下载所述网站地址对应的网页内容,否则向用户返回下载失败的提示信息。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
Claims (8)
1.一种WAP网站在线网页转换方法,其特征在于,所述方法包括以下步骤:
S1:获取用户访问的WAP网站地址;
S2:下载所述WAP网站地址对应的WML网页;
S3:解析所述WML网页并将其转化为HTML网页,将所述HTML网页结果返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤S3具体为:
S31:将所述WML网页解析生成文档结构DOM树;
S32:遍历所述DOM树结构,寻找WML与HTML不同的元素,依据元素的语义对寻找到元素进行语法转换,在DOM树中将其转换为对应的HTML网页节点;
S33:然后将处理后的DOM树转换成HTML格式的网页,返回给所述用户。
3.根据权利要求2所述的方法,其特征在于,在步骤S31之前还包括去除所述WML网页转义符标记的步骤。
4.根据权利要求2所述的方法,其特征在于,所述步骤S32还包括以下步骤:
处理WML网页标签的步骤:
若寻找到的元素中不具有HTML网页中所必须有的标签,则添加HTML网页中所必须有的标签,
以及若寻找到的元素中具有在HTML网页内容没有相对应的标签,则忽略掉该标签,保留标签中的内容;
处理地址的步骤:
遍历所述DOM树中所有URL地址,将所述URL地址编码转换为utf-8编码,
以及遍历所述DOM树中的图片地址,将其转换为能够直接访问图片的绝对地址。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2具体为:
S21:对所述网站地址进行编码转换,将所述网站地址的编码转换为utf-8编码;
S22:将所述网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址;
S23:根据http协议判断给定网页地址的网页是否能下载,是则下载所述网站地址对应的网页内容,否则向用户返回下载失败的提示信息。
6.一种WAP网站在线网页转换装置,其特征在于,所述装置包括:
获取模块,用于获取用户访问的WAP网站地址;
下载模块,用于下载所述WAP网站地址对应的WML网页;
解析模块,用于解析所述WML网页并将其转化为HTML网页,并将所述HTML网页结果返回给所述用户。
7.根据权利要求6所述的装置,其特征在于,所述解析模块还包括:
结构转换单元,用于将所述WML网页解析生成文档结构DOM树;
遍历单元,用于遍历所述DOM树结构,寻找WML与HTML不同的元素,依据元素的语义对寻找到元素进行语法转换,在DOM树中将其转换为对应的HTML网页节点;
转换单元,用于将处理后的DOM树转换成HTML格式的网页,返回给所述用户。
8.根据权利要求6所述的装置,其特征在于,所述下载模块还包括:
编码转换单元,用于对所述网站地址进行编码转换,将所述网站地址的编码转换为utf-8编码;
地址转换单元,用于将所述网站地址中包含的有关代理服务器信息的地址字符进行转换,使所述网站地址成为所要访问网站的绝对地址;
下载判断单元,用于根据http协议判断给定网页地址的网页是否能下载,是则下载所述网站地址对应的网页内容,否则向用户返回下载失败的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106179816A CN102567404A (zh) | 2010-12-31 | 2010-12-31 | 一种wap网站在线网页转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106179816A CN102567404A (zh) | 2010-12-31 | 2010-12-31 | 一种wap网站在线网页转换方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102567404A true CN102567404A (zh) | 2012-07-11 |
Family
ID=46412837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106179816A Pending CN102567404A (zh) | 2010-12-31 | 2010-12-31 | 一种wap网站在线网页转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567404A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631795A (zh) * | 2012-08-22 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中对网页进行转换的方法、装置和设备 |
CN111416738A (zh) * | 2020-03-13 | 2020-07-14 | 由云欧科(北京)技术有限公司 | 一种网站容灾方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1960303A (zh) * | 2006-09-25 | 2007-05-09 | 郭枭业 | 一种在电脑上浏览wml或rss网页的方法及其计算机装置 |
CN101465866A (zh) * | 2007-12-20 | 2009-06-24 | 上海盛娱网络科技有限公司 | 基于Web终端访问WAP网络的方法及转换模块 |
-
2010
- 2010-12-31 CN CN2010106179816A patent/CN102567404A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1960303A (zh) * | 2006-09-25 | 2007-05-09 | 郭枭业 | 一种在电脑上浏览wml或rss网页的方法及其计算机装置 |
CN101465866A (zh) * | 2007-12-20 | 2009-06-24 | 上海盛娱网络科技有限公司 | 基于Web终端访问WAP网络的方法及转换模块 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631795A (zh) * | 2012-08-22 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中对网页进行转换的方法、装置和设备 |
CN111416738A (zh) * | 2020-03-13 | 2020-07-14 | 由云欧科(北京)技术有限公司 | 一种网站容灾方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103685604B (zh) | 一种域名预解析方法及装置 | |
US9846686B2 (en) | Methods for extending a document transformation server to process multiple documents from multiple sites and devices thereof | |
CN104063401B (zh) | 一种网页样式地址合并的方法和装置 | |
US20090288099A1 (en) | Apparatus and method for accessing and indexing dynamic web pages | |
CN101465866B (zh) | 基于Web终端访问WAP网络的方法及转换模块 | |
CN102346738A (zh) | 客制化网页处理装置及方法 | |
CN103389972A (zh) | 一种基于简易信息聚合获取正文的方法及装置 | |
CN105528369B (zh) | 网页转码方法、装置以及服务器 | |
CN105447198A (zh) | 页面脚本便捷导入的方法及装置 | |
CN104428763B (zh) | 将结构化及非结构化数据实现在xml文件的方法 | |
CN103902571A (zh) | 保存网页完整内容的方法、系统及相应的客户端和服务器 | |
CN102497478A (zh) | 一种手机用户快速访问互联网的方法 | |
CN102508887A (zh) | 一种数字电视交互服务标记语言解析系统及方法 | |
CN104980464B (zh) | 一种网络请求处理方法、网络服务器和网络系统 | |
US8549390B2 (en) | Verifying content of resources in markup language documents | |
CN103347069A (zh) | 网络访问的实现方法及装置 | |
US20010056497A1 (en) | Apparatus and method of providing instant information service for various devices | |
CN102567404A (zh) | 一种wap网站在线网页转换方法及装置 | |
CN105808727A (zh) | 基于html5的网站跨屏适配技术架构和适配方法 | |
CN105488175A (zh) | 一种提高页面内容显示速度的方法及系统 | |
US8806326B1 (en) | User preference based content linking | |
CN101021848B (zh) | 资讯搜索系统及方法 | |
US20020138526A1 (en) | Javascript code optimizer | |
CN103246684A (zh) | 一种网页转换方法、设备及系统 | |
CN102622351B (zh) | 转换网络页面类型的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120711 |
|
WD01 | Invention patent application deemed withdrawn after publication |