CN101197849A - 将互联网页面转换为无线应用协议页面的转换方法和装置 - Google Patents
将互联网页面转换为无线应用协议页面的转换方法和装置 Download PDFInfo
- Publication number
- CN101197849A CN101197849A CNA2007103037898A CN200710303789A CN101197849A CN 101197849 A CN101197849 A CN 101197849A CN A2007103037898 A CNA2007103037898 A CN A2007103037898A CN 200710303789 A CN200710303789 A CN 200710303789A CN 101197849 A CN101197849 A CN 101197849A
- Authority
- CN
- China
- Prior art keywords
- page
- dom tree
- wap
- node
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了将互联网页面转换为无线应用协议(WAP)页面的转换方法,包括:解析互联网页面,将该互联网页面转换为文档对象模型(DOM)树;从所述互联网页面DOM树上提取页面内容,转换成WAP页面的DOM树;按照所述WAP页面DOM树输出WAP页面。装置包括:解析模块,用于解析互联网页面,将该互联网页面转换为DOM树;页面提取模块,用于从所述互联网页面DOM树上提取页面内容,转换成WAP页面的DOM树;WAP页面构建模块,用于按照所述WAP页面DOM树构建输出WAP页面。利用本发明,可以实现自动转换页面,大量减少人工制作的工作量,使移动通信终端可以直接利用WAP浏览器浏览大量的互联网页面。
Description
技术领域
本发明涉及网络信息处理技术,尤其涉及一种互联网页面转换为无线应用协议(WAP,Wireless Application Protocol)页面的方法和装置。
背景技术
随着网络技术的发展,无线互联网技术也在迅速地发展,人们可以通过移动通信终端(例如移动电话、无线掌上电脑等)可以随时随地地与他人联系,同时随着通信资费的降低以及3G技术的推广,无线互联网将有极大的发展,并改变我们的生活方式。
目前互联网上存在最多的资源是页面,但是这些页面是专为个人计算机(PC)设计的超文本标记语言(HTML,HyperText Markup Language)格式,由于移动通信终端屏幕大小、处理能力和网络带宽的限制,这些页面无法直接在移动通信设备上进行浏览,针对这种情况,目前出现了以专用的语言格式生成的WAP页面,用于在移动通信设备上显示页面。所述专用的语言格式主要包括:无线标记语言(WML,Wireless Markup Language)格式的标记语言,用于撰写在移动通信终端上能够显示的页面;还有一种移动设备可扩展标记语言(XHTML-Mobile,Extensible HyperText MarkupLanguage Mobile),这种XHTML-Mobile语言格式以可扩展标识语言(XHTML,The Extensible HyperText Markup Language)描述语言为基础,以增强WAP页面的表现形式。
目前的移动通信设备,例如手机、具有无线通信功能的个人数字助理(PDA)等,如果想浏览互联网上的HTML页面,则需要安装能够解析HTML格式内容的浏览器,直接浏览HTML页面内容。但是,HTML浏览器对用户无线设备性能要求较高,大部分的无线通信设备无法达到流畅浏览HTML页面的性能要求。
所以目前大部分移动通信设备只能利用WAP浏览器浏览专用的无线标记语言(WML,Wireless Markup Language)或XHTML-Mobile格式的WAP页面。然而,在互联网上,WAP页面的数量远远少于互联网页面(主要是HTML页面),因此为了让移动通信设备用户能够浏览更丰富的信息,需要将HTML页面转换成WAP页面,例如WML或XHTML-Mobile页面,以在无线通信设备上进行浏览。
现有的将HTML页面转换成WAP页面的主要方式为参照原始的HTML页面进行人工编辑,由人工制作出具有原始HTML页面内容的WML或XHTML-Mobile页面,组成WAP站点供移动通信设备访问。但是,现有的这种处理方法需要大量的人工参与,工作量巨大,无法适用于互联网上海量的HTML页面。
发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种将互联网页面转换为WAP页面的方法,以实现自动转换页面,大量减少人工制作的工作量,使移动通信终端可以直接利用WAP浏览器浏览大量的互联网页面。
本发明所要解决的另一技术问题在于提供一种将互联网页面转换为WAP页面的装置,以实现自动转换页面,大量减少人工制作的工作量,使移动通信终端可以直接利用WAP浏览器浏览大量的互联网页面。
为了实现上述发明目的,本发明的主要技术方案为:
一种将互联网页面转换为无线应用协议WAP页面的转换方法,包括:
A、解析互联网页面,将该互联网页面转换为文档对象模型DOM树;
B、从步骤A所述的互联网页面DOM树上提取页面内容,转换成WAP页面的DOM树;
C、按照所述WAP页面DOM树输出WAP页面。
优选的,所述步骤B具体为:
B1、根据所述互联网页面DOM树的内容信息选择页面提取方式;
B2、利用所选择的页面提取方式对所述互联网页面DOM树进行提取处理;
B3、将提取的数据转换为WAP页面的DOM树。
优选的,所述步骤B1具体包括:从所述互联网页面的DOM树中提取文字内容,统计文字内容的大小,并与预定的阈值比较,如果超过所述阈值则选择文字页面提取方式;如果没有超过所述阈值则选择完整页面提取方式。
优选的,当步骤B1选择文字页面提取方式时:
步骤B2具体包括:从所述互联网页面的DOM树中分别查找到标题元素和正文元素,从查找到的元素的根节点开始遍历,提取出所述根节点及其子节点的内容,并保持各节点之间的原有关系;
步骤B3具体包括:将所提取出的标题元素和正文元素的节点转换为WAP页面对应的节点,并按照各节点之间的原有关系将节点内容加入到一新的DOM树上,得到WAP页面的DOM树。
优选的,当步骤B1选择完整页面提取方式时:
步骤B2具体包括:从所述互联网页面DOM树中查找可以在WAP页面中显示的元素,提取这些元素的节点内容,并保持各节点之间的原有关系;
步骤B3具体包括:将所提取出的各元素的节点转换为WAP页面对应的节点,并按照各节点之间的原有关系将节点内容加入到一新的DOM树上,得到WAP页面的DOM树。
优选的,步骤B2中进一步包括:
将所述互联网页面DOM树中的无法在WAP页面中显示的元素转换为可以在WAP页面中显示的元素,提取这些元素的节点内容,并保持各节点之间的原有关系。
优选的,步骤B1之后、B2之前进一步包括:从所述互联网页面DOM树中查找区域元素,对区域元素进行优化处理,将经过优化处理后的区域元素所限定的区块作为后续步骤B2的查找提取对象。
优选的,所述步骤A具体为:维护一个解析栈,采用压栈出栈方式遍历解析出所述整个互联网页面的元素,并生成DOM树;其中,对于没有结束标签的元素将其压栈后立即出栈;对于可以有结束标签的元素进行回溯操作,回溯成功则调节所述解析栈到成功回溯点,回溯失败则忽略当前的结束标签。
优选的,步骤C具体为:采用深度优先方法将所述WAP页面的DOM树上的各个节点输出,组成一WAP页面。
优选的,所述互联网页面为超文本标记语言页面,所述WAP页面为无线标记语言页面或移动设备可扩展标记语言页面。
一种将互联网页面转换为WAP页面的转换装置,包括:
解析模块,用于解析互联网页面,将该互联网页面转换为DOM树;
页面提取模块,用于从所述解析模块输出的DOM树上提取页面内容,转换成WAP页面的DOM树;
WAP页面构建模块,用于按照所述WAP页面DOM树构建输出WAP页面。
优选的,所述页面提取模块至少有两个;且所述转换装置进一步包括页面提取控制模块,用于分析所述解析模块输出的DOM树,选择对应的一个页面提取模块进行提取操作。
优选的,所述页面提取模块至少包括:
文字页面提取模块,用于提取所述互联网页面DOM树的标题元素和正文元素的节点内容,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系;
完整页面提取模块,用于提取优化所述互联网页面DOM树的所有元素的节点内容,转换成可以在WAP页面显示的元素,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系。
本发明中,由于先将互联网页面转换成DOM树,使得互联网页面的文档可以由非常利于计算机分析的DOM树表示,接下来采用专用的提取方式从所述DOM树中提取页面内容信息,再转换成可以在WAP页面中显示的内容,组成WAP页面的DOM树,最后根据WAP页面的DOM树中的信息生成WAP页面。因此,本发明完全可以实现将互联网页面(例如HTML页面)自动转换为WAP页面,大量减少人工制作的工作量,使移动通信终端可以直接利用WAP浏览器浏览大量的互联网页面。本发明可极大地提高用户体验,也使得用户可浏览的页面资源由以前数量较少的WAP网站扩充到了整个互联网,极大地提高了资源的丰富程度,为无线互联网的普及和发展将有着重要的推动作用。
附图说明
图1为本发明所述将HTML页面转换为WAP页面的转换装置的一种结构示意图;
图2为本发明所述将HTML页面转换为WAP页面的转换方法的一种流程图;
图3为一种页面导航栏的示意图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
以下实施例中,以所述互联网页面为HTML页面,所述WAP页面为WML或XHTML-Mobile页面为例进行说明。
图1为本发明所述将HTML页面转换为WAP页面的转换装置的一种结构示意图。参见图1,该装置包括:
解析模块(HTML Parser)101,用于解析HTML页面文档11,根据解析结果将该HTML页面文档转换为HTML的DOM树12。
页面提取控制模块(SkeeterNest)102,是本发明所述转换装置的核心控制模块,负责HTML页面类型的区分与判断,根据HTML页面的类型调用不同的页面提取模块103来进行页面提取。
页面提取模块103,位于所述转换装置的最底层,包括1-N个页面提取方式单元(Skeeter),针对不同类型的页面,将采用不同类型的页面提取方式或者多种页面提取方式的组合进行提取。所述提取方式可以从所述解析模块输出的HTML的DOM树12上提取页面内容,组成WAP页面的DOM树13。
WAP页面构建模块104,用于按照所述WAP页面的DOM树13构建输出WAP页面文档14。
本发明中,所述页面提取模块至少有两个:
其中一个为文字页面提取模块,主要用于处理互联网上大量的新闻页面,因此也可以称为新闻页面提取模块,由于新闻页面的主要内容是文字部分,因此该模块用于提取所述新闻页面的HTML页面DOM树的标题元素和正文元素的节点内容,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系。
另一个为完整页面提取模块,用于提取优化所述互联网页面DOM树的所有元素的节点内容,转换成可以在WAP页面显示的元素,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系。该完整页面提取模块主要是用于处理没有明显特征的HTML页面,可以采用保留页面所有内容的提取方式,使得转换后的WAP页面尽量保持原HTML页面的所有内容。
另外,在本发明的其它实施例中,也可对HTML页面进行进一步的细分得到针对某种具体页面类型的页面提取模块,例如针对论坛页面的页面提取模块、针对导航栏页面的页面提取模块等,以进一步提高转换效果。
图2为本发明所述将HTML页面转换为WAP页面的转换方法的一种流程图。参见图2,该方法包括:
步骤201、解析HTML页面文档,并将其转化为一颗HTML的DOM树,以供后续分析。本步骤201为所述解析模块101的执行过程。
所述的解析过程可以基于现有的WML解析方法,但是增加了对非完整性标签的支持。
解析模块101采用状态机的方式对HTML页面文档进行解析,顺序遍历页面文档,对不同的标签和文本进行状态判断,随着页面文本的遍历,将会在状态机的各个不同状态之间进行跳转,状态机对每个状态有着不同的处理,例如在DOM树上创建元素、修改元素属性等,同时会根据当前状态和下一个读入的页面字符,跳转到其他状态或留在当前状态,直到页面文档全部读完,同时维护一个解析栈(stack),保留解析的中间状态。
例如对于如下的一段HTML文档:
<html><head>Tencent</head><body>This is the test page!</body></html>
解析模块101的状态机初始状态为正文状态(STATE_HTML_TEXT),设立一个指针,从页面文档首部即“<”开始遍历,当发现是“<”且当前状态为STATE_HTML_TEXT时,进入元素开始状态(STATE_HTML_ELEMENT),继续遍历所述文档,直到找到“>”结束,进入元素结束状态(STATE_HTML_ELEMENT_FINISH),此时创建元素“html”压入到解析栈中,并挂到DOM树上,同时继续向前遍历,当解析到<head>时,创建“head”元素,并加入到当前解析栈首部元素“html”的子节点列表中,并将“head”压栈,继续向前遍历,当解析到</head>时,进行出栈操作,将刚才压入解析栈的“head”出栈,并继续解析,后续的解析工作与前类似,直到最后完成整个文本的遍历。
维护解析栈的主要作用是为了支持非完整性标签。由于HTML中,有些元素可能有开始标签但没有结束标签,如果不对这种情况作特殊处理,就会在创建DOM树的情况时出现错误,因此本发明需要对非完整性标签进行处理。
为了支持非完整性标签,本发明主要以下强制出栈法和解析栈回溯查找法进行处理:
a)、强制出栈法:
对于HTML中的area、base、basefont、br、col、frame、hr、img、input、isindex、link、meta、param等不需要结束标签的元素,首先将其压入解析栈后再立即出栈,这样就不需要等找到一个所谓的结束标签才进行出栈工作。
b)对于其他的元素,在目前HTML中可以有结束标签,也可以没有结束标签。目前的IE等各种浏览器并不强制要求HTML中标出结束标签,加之IE等浏览器对这些元素具有良好的容错性,因此在目前的浏览器中显示没有问题。但是,对于WAP页面,这些可有可无的结束标签对解析栈的操作会造成一定影响,需要进行特殊处理,即需要进行解析栈回溯查找,具体包括以下两种情况:
b1)、如果成功回溯,调节解析栈到成功回溯点。
例如以下的HTML文档:
<html><body><p>hello world</html>
当解析到</html>时,解析栈中的元素为:html、body、p,查找当前元素p失败;回溯解析栈,查找body失败;回溯到元素html,对比确认为html元素,修改DOM树当前的节点指针到html的父节点。此处html为根节点,则触发结束解析文档消息(endDocument消息),结束整个页面的解析工作。
b2)、回溯失败,忽略当前的结束标识。
例如以下的HTML文档:
<html><body>hello world</p></body></html>
当解析到</p>时,解析栈中的元素为html、body,查找当前元素body失败;回溯到html,查找p失败;已经回溯到栈底,回溯失败,忽略当前结束表示</p>。
步骤202、对步骤201解析出的HTML页面的DOM树进行分析,选择适合所转换HTML页面的页面提取方式。
本步骤202主要由所述页面提取控制模块执行,用于选择不同的页面抽取方式进行尝试与综合处理,从而将步骤201解析得到的一个HTML页面的DOM树转换成一个WML/XHTML-Mobile页面的DOM树。
本步骤202采用的方式为:
利用正文提取技术,将所述HTML页面的DOM树中的各个文字内容部分抽取出来,并统计文字内容的大小,例如统计提取出的诸如字数、标点符号个数,字体大小等信息,并与预定的阈值进行比较,所述的阈值可以根据经验来设定,如果某一文字内容部分的大小超过一定的阈值,则判定所述HTML页面为新闻页面,需要采用文字页面提取方式进行提取;如果所有的文字内容部分的大小都没有超过所述阈值,则判定所述HTML页面为无明显特征的页面,采用保留页面所有内容的方式进行提取,即采用完整页面提取方式进行提取。
步骤203、调用步骤202所选择的页面提取方式来完成对所述HTML页面的DOM树的信息提取以及重组成WML/XHTML-Mobile页面的DOM树。
例如,本实施例中主要包含针对新闻页面的文字页面提取方式和针对非新闻页面的完整页面提取方式,下面分别介绍这两种提取方式的具体处理方法:
1)文字页面提取方式。
如果步骤202选择文字页面提取方式,则判定所述HTML页面新闻页面,此时需从所述HTML页面的DOM树中分别查找到标题元素和正文元素,从查找到的元素的根节点开始遍历,提取出所述根节点及其子节点的内容,并保持各节点之间的原有关系;然后将所提取出的标题元素和正文元素的节点类型转换为WML/XHTML-Mobile页面对应的节点类型,并按照各节点之间的原有关系将节点类型和内容加入到一新的DOM树上,得到WML/XHTML-Mobile页面的DOM树。
2)完整页面提取方式,也称为默认页面提取方式。
如果步骤202选择完整页面提取方式,则判定所述HTML页面为无明显特征的页面,此时需要保留该页面的所有内容,具体处理过程如下:
(a)从所述HTML页面DOM树中查找在WML/XHTML-Mobile页面中有对应项的元素,即该元素可在WML/XHTML-Mobile页面中显示,提取这些元素的节点内容,同时也保持这些元素节点在原有HTML页面DOM树上的相应关系。
(b)将所述HTML页面DOM树中的无法在WML/XHTML-Mobile页面中显示的元素转换为可以在WML/XHTML-Mobile页面中显示的元素,提取这些元素的节点内容,并保持各节点之间的原有关系。
此步骤主要处理不能自适应手机屏幕大小的样式设置的元素,例如对于输入框元素,将该输入框元素的大小转换为指定的手机屏幕尺寸大小,以避免在手机上出现显示不下的情况;另外对于所有的图片元素,将会利用专门的图片转换服务器将图像转化为gif格式,并将其缩放到适合手机屏幕大小的尺寸。
(c)将上述步骤(a)、(b)中提取转换出的可在WML/XHTML-Mobile页面中显示的每个元素节点转换为其在WML/XHTML-Mobile页面中对应的元素节点,并保持原有各个节点之间的关系,加入到一颗新的DOM树上,形成一颗WML/XHTML-Mobile页面的DOM树。
另外,在步骤(a)之前,还可以进一步包括:从所述HTML页面DOM树中查找区域元素,对区域元素进行优化处理,将经过优化处理后的区域元素所限定的区块作为后续步骤(a)、(b)的查找提取对象。例如,对于相互遮盖的层,仅选取内容最丰富的层作为后续操作的提取对象以进行显示;对于一些广告元素,则可以执行去噪处理,去除掉各种无关的广告元素区域。
另外,本发明还可以对确定提取方式的页面进行特征细分,调整可优化的用户体验的页面特征细节。例如当查找到类似与图3所述的页面导航栏30时,可以将多个导航链接用“+”号隐藏起来,用户点击“+”号时才展开这个部分进行浏览,以进一步提高转换效果。
步骤204、将步骤203转换后的WML/XHTML-Mobile页面DOM树输出为一张WML/XHTML-Mobile页面文档。本步骤所使用的方法比较简单,直接采用深度优先的方法将WML/XHTML-Mobile页面DOM树上的各个节点输出即可,输出的WML/XHTML-Mobile页面文档将保留在存储服务器中,前台的计算机图形接口(CGI)将会访问存储服务器获取转换后的WML/XHTML-Mobile页面文档并显示对应的WAP页面给移动通信设备用户。本步骤204为所述WAP页面构建模块104的执行过程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (13)
1.一种将互联网页面转换为无线应用协议WAP页面的转换方法,其特征在于,包括:
A、解析互联网页面,将该互联网页面转换为文档对象模型DOM树;
B、从步骤A所述的互联网页面DOM树上提取页面内容,转换成WAP页面的DOM树;
C、按照所述WAP页面DOM树输出WAP页面。
2.根据权利要求1所述的方法,其特征在于,所述步骤B具体为:
B1、根据所述互联网页面DOM树的内容信息选择页面提取方式;
B2、利用所选择的页面提取方式对所述互联网页面DOM树进行提取处理;
B3、将提取的数据转换为WAP页面的DOM树。
3.根据权利要求2所述的方法,其特征在于,所述步骤B1具体包括:从所述互联网页面的DOM树中提取文字内容,统计文字内容的大小,并与预定的阈值比较,如果超过所述阈值则选择文字页面提取方式;如果没有超过所述阈值则选择完整页面提取方式。
4.根据权利要求3所述的方法,其特征在于,当步骤B1选择文字页面提取方式时:
步骤B2具体包括:从所述互联网页面的DOM树中分别查找到标题元素和正文元素,从查找到的元素的根节点开始遍历,提取出所述根节点及其子节点的内容,并保持各节点之间的原有关系;
步骤B3具体包括:将所提取出的标题元素和正文元素的节点转换为WAP页面对应的节点,并按照各节点之间的原有关系将节点内容加入到一新的DOM树上,得到WAP页面的DOM树。
5.根据权利要求3所述的方法,其特征在于,当步骤B1选择完整页面提取方式时:
步骤B2具体包括:从所述互联网页面DOM树中查找可以在WAP页面中显示的元素,提取这些元素的节点内容,并保持各节点之间的原有关系;
步骤B3具体包括:将所提取出的各元素的节点转换为WAP页面对应的节点,并按照各节点之间的原有关系将节点内容加入到一新的DOM树上,得到WAP页面的DOM树。
6.根据权利要求5所述的方法,其特征在于,步骤B2中进一步包括:
将所述互联网页面DOM树中的无法在WAP页面中显示的元素转换为可以在WAP页面中显示的元素,提取这些元素的节点内容,并保持各节点之间的原有关系。
7.根据权利要求5所述的方法,其特征在于,步骤B1之后、B2之前进一步包括:从所述互联网页面DOM树中查找区域元素,对区域元素进行优化处理,将经过优化处理后的区域元素所限定的区块作为后续步骤B2的查找提取对象。
8.根据权利要求1所述的方法,其特征在于,所述步骤A具体为:维护一个解析栈,采用压栈出栈方式遍历解析出所述整个互联网页面的元素,并生成DOM树;其中,对于没有结束标签的元素将其压栈后立即出栈;对于可以有结束标签的元素进行回溯操作,回溯成功则调节所述解析栈到成功回溯点,回溯失败则忽略当前的结束标签。
9.根据权利要求1所述的方法,其特征在于,步骤C具体为:采用深度优先方法将所述WAP页面的DOM树上的各个节点输出,组成一WAP页面。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述互联网页面为超文本标记语言页面,所述WAP页面为无线标记语言页面或移动设备可扩展标记语言页面。
11.一种将互联网页面转换为WAP页面的转换装置,其特征在于,包括:
解析模块,用于解析互联网页面,将该互联网页面转换为DOM树;
页面提取模块,用于从所述解析模块输出的DOM树上提取页面内容,转换成WAP页面的DOM树;
WAP页面构建模块,用于按照所述WAP页面DOM树构建输出WAP页面。
12.根据权利要求11所述的转换装置,其特征在于,所述页面提取模块至少有两个;且所述转换装置进一步包括页面提取控制模块,用于分析所述解析模块输出的DOM树,选择对应的一个页面提取模块进行提取操作。
13.根据权利要求11所述的转换装置,其特征在于,所述页面提取模块至少包括:
文字页面提取模块,用于提取所述互联网页面DOM树的标题元素和正文元素的节点内容,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系;
完整页面提取模块,用于提取优化所述互联网页面DOM树的所有元素的节点内容,转换成可以在WAP页面显示的元素,组成一个WAP页面的DOM树,并保持所提取节点之间的原有关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710303789A CN101197849B (zh) | 2007-12-21 | 2007-12-21 | 将互联网页面转换为无线应用协议页面的转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710303789A CN101197849B (zh) | 2007-12-21 | 2007-12-21 | 将互联网页面转换为无线应用协议页面的转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101197849A true CN101197849A (zh) | 2008-06-11 |
CN101197849B CN101197849B (zh) | 2012-10-03 |
Family
ID=39547991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710303789A Active CN101197849B (zh) | 2007-12-21 | 2007-12-21 | 将互联网页面转换为无线应用协议页面的转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101197849B (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727461A (zh) * | 2008-10-13 | 2010-06-09 | 中国科学院计算技术研究所 | 一种网页的正文抽取方法 |
CN102163233A (zh) * | 2011-04-18 | 2011-08-24 | 北京神州数码思特奇信息技术股份有限公司 | 一种网页标记语言格式转换方法及系统 |
CN102255950A (zh) * | 2010-05-21 | 2011-11-23 | 富士胶片株式会社 | 链接服务器及其程序、web站点浏览系统、方法和程序 |
CN102253986A (zh) * | 2011-06-30 | 2011-11-23 | 北京新媒传信科技有限公司 | 提高多终端网页显示效果的方法和装置 |
CN102314499A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法与设备 |
CN102314494A (zh) * | 2011-08-24 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法和设备 |
CN102375851A (zh) * | 2010-08-23 | 2012-03-14 | 中国移动通信有限公司 | 一种显示页面的方法及设备 |
CN102377812A (zh) * | 2010-08-20 | 2012-03-14 | 北京高维信诚资讯有限公司 | 一种用于获取网页的方法和装置 |
CN102622351A (zh) * | 2011-01-26 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 转换网络页面类型的方法、装置和系统 |
CN102637193A (zh) * | 2012-02-23 | 2012-08-15 | 北京航空航天大学 | 一种基于dom与xmpp的网页即时协同浏览方法 |
CN102662737A (zh) * | 2012-03-14 | 2012-09-12 | 优视科技有限公司 | 扩展程序的调用方法及装置 |
CN102693237A (zh) * | 2011-03-24 | 2012-09-26 | 中国科学院声学研究所 | 一种网页内容适配封装系统及方法 |
CN101197849B (zh) * | 2007-12-21 | 2012-10-03 | 腾讯科技(深圳)有限公司 | 将互联网页面转换为无线应用协议页面的转换方法 |
CN102117289B (zh) * | 2009-12-30 | 2012-10-10 | 北京大学 | 一种从网页中抽取评论内容的方法和装置 |
CN102841790A (zh) * | 2012-07-02 | 2012-12-26 | 北京大学 | 面向异构终端的Web应用界面动态适配方法 |
CN102929877A (zh) * | 2011-08-08 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 将网页上的表格数据生成表格文件的方法及装置 |
CN102982181A (zh) * | 2012-12-18 | 2013-03-20 | 北京奇虎科技有限公司 | 一种在浏览器侧展现网页数据的方法及装置 |
CN102999511A (zh) * | 2011-09-13 | 2013-03-27 | 阿里巴巴集团控股有限公司 | 一种页面快速转换方法、装置和系统 |
CN102999580A (zh) * | 2012-11-13 | 2013-03-27 | 北京奇虎科技有限公司 | 密码输入框元素处理方法及浏览器 |
CN103166981A (zh) * | 2011-12-08 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN103246684A (zh) * | 2012-02-13 | 2013-08-14 | 联想(北京)有限公司 | 一种网页转换方法、设备及系统 |
CN103294695A (zh) * | 2012-02-27 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 网页浏览方法和装置以及网址提取方法和装置 |
CN103309905A (zh) * | 2012-03-16 | 2013-09-18 | 百度在线网络技术(北京)有限公司 | 对网页进行转码后合并阅读的方法以及服务器 |
CN103457982A (zh) * | 2012-06-05 | 2013-12-18 | 中兴通讯股份有限公司 | 一种移动互联网网页和移动终端能力交互的方法和装置 |
CN103544150A (zh) * | 2012-07-10 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 为移动终端浏览器提供推荐信息的方法及系统 |
CN103543919A (zh) * | 2012-07-09 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 一种网页内容展示切换方法及装置 |
WO2014019506A1 (en) * | 2012-08-03 | 2014-02-06 | Tencent Technology (Shenzhen) Company Limited | Method and device for displaying webpage contents in browser |
CN103577447A (zh) * | 2012-07-30 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种用于确定目标页面的页面类型信息的方法和设备 |
CN103729370A (zh) * | 2012-10-15 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 网络小说介绍页的提取方法及装置 |
CN104360836A (zh) * | 2014-10-15 | 2015-02-18 | 新疆大学 | 安卓系统环境下的网络协议形式化描述工具 |
CN104714958A (zh) * | 2013-12-12 | 2015-06-17 | 腾讯科技(深圳)有限公司 | 一种网页转换方法及装置 |
CN104881298A (zh) * | 2014-02-27 | 2015-09-02 | 国际商业机器公司 | 用于在线显示文档的方法和装置 |
CN105138542A (zh) * | 2015-07-09 | 2015-12-09 | 北京天河石科技有限责任公司 | 一种pc端web网页转换为移动端web网页的方法 |
CN106371844A (zh) * | 2016-08-31 | 2017-02-01 | 北京奇艺世纪科技有限公司 | 一种用原生用户界面组件展示网页的方法及系统 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN106980497A (zh) * | 2017-02-10 | 2017-07-25 | 九次方大数据信息集团有限公司 | 网页网站性能优化方法和装置 |
CN108710490A (zh) * | 2017-04-12 | 2018-10-26 | 北京京东尚科信息技术有限公司 | 一种Web页面的编辑方法和装置 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197849B (zh) * | 2007-12-21 | 2012-10-03 | 腾讯科技(深圳)有限公司 | 将互联网页面转换为无线应用协议页面的转换方法 |
-
2007
- 2007-12-21 CN CN200710303789A patent/CN101197849B/zh active Active
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197849B (zh) * | 2007-12-21 | 2012-10-03 | 腾讯科技(深圳)有限公司 | 将互联网页面转换为无线应用协议页面的转换方法 |
CN101727461A (zh) * | 2008-10-13 | 2010-06-09 | 中国科学院计算技术研究所 | 一种网页的正文抽取方法 |
CN102117289B (zh) * | 2009-12-30 | 2012-10-10 | 北京大学 | 一种从网页中抽取评论内容的方法和装置 |
CN102255950A (zh) * | 2010-05-21 | 2011-11-23 | 富士胶片株式会社 | 链接服务器及其程序、web站点浏览系统、方法和程序 |
CN102377812A (zh) * | 2010-08-20 | 2012-03-14 | 北京高维信诚资讯有限公司 | 一种用于获取网页的方法和装置 |
CN102375851B (zh) * | 2010-08-23 | 2014-05-07 | 中国移动通信有限公司 | 一种显示页面的方法及设备 |
CN102375851A (zh) * | 2010-08-23 | 2012-03-14 | 中国移动通信有限公司 | 一种显示页面的方法及设备 |
CN102622351B (zh) * | 2011-01-26 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 转换网络页面类型的方法、装置和系统 |
CN102622351A (zh) * | 2011-01-26 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 转换网络页面类型的方法、装置和系统 |
CN102693237B (zh) * | 2011-03-24 | 2014-09-10 | 中国科学院声学研究所 | 一种网页内容适配封装系统及方法 |
CN102693237A (zh) * | 2011-03-24 | 2012-09-26 | 中国科学院声学研究所 | 一种网页内容适配封装系统及方法 |
CN102163233A (zh) * | 2011-04-18 | 2011-08-24 | 北京神州数码思特奇信息技术股份有限公司 | 一种网页标记语言格式转换方法及系统 |
CN102253986A (zh) * | 2011-06-30 | 2011-11-23 | 北京新媒传信科技有限公司 | 提高多终端网页显示效果的方法和装置 |
CN102929877B (zh) * | 2011-08-08 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 将网页上的表格数据生成表格文件的方法及装置 |
CN102929877A (zh) * | 2011-08-08 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 将网页上的表格数据生成表格文件的方法及装置 |
CN102314494B (zh) * | 2011-08-24 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法和设备 |
CN102314494A (zh) * | 2011-08-24 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法和设备 |
CN102314499A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于处理网页内容的方法与设备 |
CN102999511B (zh) * | 2011-09-13 | 2016-04-13 | 阿里巴巴集团控股有限公司 | 一种页面快速转换方法、装置和系统 |
CN102999511A (zh) * | 2011-09-13 | 2013-03-27 | 阿里巴巴集团控股有限公司 | 一种页面快速转换方法、装置和系统 |
CN103166981A (zh) * | 2011-12-08 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN103166981B (zh) * | 2011-12-08 | 2017-12-12 | 腾讯科技(深圳)有限公司 | 一种无线网页转码方法及装置 |
CN103246684A (zh) * | 2012-02-13 | 2013-08-14 | 联想(北京)有限公司 | 一种网页转换方法、设备及系统 |
CN102637193A (zh) * | 2012-02-23 | 2012-08-15 | 北京航空航天大学 | 一种基于dom与xmpp的网页即时协同浏览方法 |
CN102637193B (zh) * | 2012-02-23 | 2014-12-03 | 北京航空航天大学 | 一种基于dom与xmpp的网页即时协同浏览方法 |
CN103294695A (zh) * | 2012-02-27 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 网页浏览方法和装置以及网址提取方法和装置 |
CN102662737A (zh) * | 2012-03-14 | 2012-09-12 | 优视科技有限公司 | 扩展程序的调用方法及装置 |
CN102662737B (zh) * | 2012-03-14 | 2014-06-11 | 优视科技有限公司 | 扩展程序的调用方法及装置 |
CN103309905A (zh) * | 2012-03-16 | 2013-09-18 | 百度在线网络技术(北京)有限公司 | 对网页进行转码后合并阅读的方法以及服务器 |
CN103457982A (zh) * | 2012-06-05 | 2013-12-18 | 中兴通讯股份有限公司 | 一种移动互联网网页和移动终端能力交互的方法和装置 |
CN102841790A (zh) * | 2012-07-02 | 2012-12-26 | 北京大学 | 面向异构终端的Web应用界面动态适配方法 |
CN103543919A (zh) * | 2012-07-09 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 一种网页内容展示切换方法及装置 |
CN103543919B (zh) * | 2012-07-09 | 2016-01-06 | 腾讯科技(深圳)有限公司 | 一种网页内容展示切换方法及装置 |
CN103544150A (zh) * | 2012-07-10 | 2014-01-29 | 腾讯科技(深圳)有限公司 | 为移动终端浏览器提供推荐信息的方法及系统 |
CN103577447A (zh) * | 2012-07-30 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种用于确定目标页面的页面类型信息的方法和设备 |
WO2014019506A1 (en) * | 2012-08-03 | 2014-02-06 | Tencent Technology (Shenzhen) Company Limited | Method and device for displaying webpage contents in browser |
US20150143230A1 (en) * | 2012-08-03 | 2015-05-21 | Tencent Technology (Shenzhen) Company Limited | Method and device for displaying webpage contents in browser |
CN103577466A (zh) * | 2012-08-03 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种在浏览器中显示网页内容的方法和装置 |
CN103729370A (zh) * | 2012-10-15 | 2014-04-16 | 腾讯科技(深圳)有限公司 | 网络小说介绍页的提取方法及装置 |
CN102999580A (zh) * | 2012-11-13 | 2013-03-27 | 北京奇虎科技有限公司 | 密码输入框元素处理方法及浏览器 |
CN102999580B (zh) * | 2012-11-13 | 2017-07-11 | 北京奇虎科技有限公司 | 密码输入框元素处理方法及浏览器 |
CN102982181A (zh) * | 2012-12-18 | 2013-03-20 | 北京奇虎科技有限公司 | 一种在浏览器侧展现网页数据的方法及装置 |
CN104714958A (zh) * | 2013-12-12 | 2015-06-17 | 腾讯科技(深圳)有限公司 | 一种网页转换方法及装置 |
CN104881298A (zh) * | 2014-02-27 | 2015-09-02 | 国际商业机器公司 | 用于在线显示文档的方法和装置 |
US10565290B2 (en) | 2014-02-27 | 2020-02-18 | International Business Machines Corporation | Online displaying a document |
US10394935B2 (en) | 2014-02-27 | 2019-08-27 | International Business Machines Corporation | Dynamically displaying online documents based on document object attributes |
CN104360836A (zh) * | 2014-10-15 | 2015-02-18 | 新疆大学 | 安卓系统环境下的网络协议形式化描述工具 |
CN104360836B (zh) * | 2014-10-15 | 2017-05-17 | 新疆大学 | 安卓系统环境下的网络协议形式化描述工具 |
CN105138542A (zh) * | 2015-07-09 | 2015-12-09 | 北京天河石科技有限责任公司 | 一种pc端web网页转换为移动端web网页的方法 |
CN105138542B (zh) * | 2015-07-09 | 2019-08-09 | 北京天河石科技有限责任公司 | 一种pc端web网页转换为移动端web网页的方法 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN106371844B (zh) * | 2016-08-31 | 2019-10-22 | 北京奇艺世纪科技有限公司 | 一种用原生用户界面组件展示网页的方法及系统 |
CN106371844A (zh) * | 2016-08-31 | 2017-02-01 | 北京奇艺世纪科技有限公司 | 一种用原生用户界面组件展示网页的方法及系统 |
CN106980497A (zh) * | 2017-02-10 | 2017-07-25 | 九次方大数据信息集团有限公司 | 网页网站性能优化方法和装置 |
CN108710490A (zh) * | 2017-04-12 | 2018-10-26 | 北京京东尚科信息技术有限公司 | 一种Web页面的编辑方法和装置 |
CN108710490B (zh) * | 2017-04-12 | 2022-06-07 | 北京京东尚科信息技术有限公司 | 一种Web页面的编辑方法和装置 |
CN110457579A (zh) * | 2019-07-30 | 2019-11-15 | 四川大学 | 基于模板和分类器协同工作的网页去噪方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101197849B (zh) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101197849B (zh) | 将互联网页面转换为无线应用协议页面的转换方法 | |
Bickmore et al. | Web page filtering and re-authoring for mobile users | |
US7853871B2 (en) | System and method for identifying segments in a web resource | |
CN103166981B (zh) | 一种无线网页转码方法及装置 | |
KR100461019B1 (ko) | 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법 | |
US6857102B1 (en) | Document re-authoring systems and methods for providing device-independent access to the world wide web | |
CN102200971B (zh) | 一种实现网页内容预览的方法和设备 | |
RU2522103C2 (ru) | Способ и браузер для уведомления об обновлении | |
CN101609399B (zh) | 基于建模的智能化网站开发系统及方法 | |
US8196036B2 (en) | Method and system for converting hypertext markup language web page to plain text | |
CN102184266B (zh) | 一种页面与数据分离的动态wap网站自动生成方法 | |
US20020059344A1 (en) | Systems, methods and computer program products for tailoring web page content in hypertext markup language format for display within pervasive computing devices using extensible markup language tools | |
EP2532157B1 (en) | Method for content folding | |
CN102065114A (zh) | 一种移动终端访问网页的方法及装置 | |
JP5056523B2 (ja) | 表示制御装置、表示制御方法及び表示制御プログラム | |
CN103064827A (zh) | 一种网页内容抽取的方法及装置 | |
WO2001050349A1 (en) | Electronic document customization and transformation utilizing user feedback | |
CN102819561A (zh) | 一种基于网页的图片显示方法和装置 | |
Roudaki et al. | A classification of web browsing on mobile devices | |
CN103870486A (zh) | 确定网页类型的方法和装置 | |
WO2013148351A1 (en) | System and method for analyzing an electronic documents | |
CN100590624C (zh) | 基于soa架构的多维空间数据展现方法 | |
CN102999511A (zh) | 一种页面快速转换方法、装置和系统 | |
CN102253986A (zh) | 提高多终端网页显示效果的方法和装置 | |
CN101620621A (zh) | 一种网页切分方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |