CN102023998B

CN102023998B - 用于处理网页以便在手持设备上显示的方法和装置

Info

Publication number: CN102023998B
Application number: CN200910178676.9A
Authority: CN
Inventors: 王栋; 张大业; 许慎愉
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2009-09-21
Filing date: 2009-09-21
Publication date: 2015-05-20
Anticipated expiration: 2029-09-21
Also published as: CN102023998A

Abstract

本发明提供了一种新的网页处理方法和网页处理装置，其中，对网页的标记语言代码进行过滤，并基于关键词来在过滤后的文本块中确定一个第一位置进而对第一位置之后的至少一个文本段落进行显示前的处理，并提供给用户所用的手持设备，其中，该手持设备的显示屏面积受限于该手持设备的尺寸。通过本发明，精简后的网页内容与用户所希望看到的内容更为贴近，最大程度地排除了冗余，从而在用户所使用的手持设备上能够尽量准确地显示用户所想要显示的内容，实现“所见即所需”的用户体验。

Description

用于处理网页以便在手持设备上显示的方法和装置

技术领域

本发明涉及对网页进行处理的方法和装置，尤其涉及用于处理网页以便在手持设备上显示的方法和装置，其中，该手持设备的尺寸限制了其显示屏的面积。

背景技术

目前，网页典型地通过使用超文本标记语言(HTML)来定义。HTML提供了一个标准的标记(tag)集合，这些标记定义了网页应该如何显示。当一个用户指示本地浏览器来显示一个网页时，例如，在地址栏中键入网址并敲击回车键，浏览器会向内容服务器发出一个请求，要求对方发来相应的HTML文件。当HTML文件接收完毕后，本地浏览器根据HTML文件中的定义来对网页进行显示，例如，根据其中包含的标记来显示网页上的文字、图片、操作按钮等。当然，一个网页的HTML文件还可以包括其它网页的链接地址，这个网页与这些其它网页可以属于相同或不同的内容服务器。除HTML以外，其它标记语言例如cHTML、XML和XHTML也都可以用于定义网页。

传统的用于显示网页的设备为台式计算机以及笔记本计算机等，这些设备通常具有足够大的显示屏幕，于是，通过计算机的显示器，用户基本上可以看到整个网页的内容，并通过快速的扫视来找到其中的核心内容，例如图1a中部线框中的部分。

随着电子技术的不断发展，技术人员们设计出了更加小巧的存储、输入、计算、显示设备，加之无线通信领域的支持，在手持设备上显示网页已经成为可能。虽然如此，手持设备的显示屏的面积仍然难以与传统的计算机设备相比。

受制于面积有限的显示屏，手持设备无法像个人计算机那样显示整个网页，其对图1中的页面的显示效果的一个例子如图1b所示。于是，用户不得不通过控制滚动条来收看正文中的其余内容，而拖动滚动条后，之前能够看到的内容又将不可见。这对于用户而言十分不便。

在美国专利申请No.2007/0294646A1中，公开了一种针对移动终端的网页处理技术，其中，根据预定义的若干个标记来从网页中获取关键的信息，最后，将获取到的信息进行重新格式化后，发送给移动终端。

这种方式很大程度上受制于技术人员对代码的编写习惯，当一个原文页面中的广告等冗余内容被不经意地写为由其预定义的标记例如“<table>…</table>”限定时，在筛选过程中这部分冗余就无法被排除，从而导致“所见非所需”。

为此，需要一种能够更有效地处理网页，更智能地为用户提供其所需信息的方法及装置。

发明内容

为解决现有技术中的上述问题，本发明提供了一种新的网页处理方法和网页处理装置，其中，对网页的标记语言代码进行过滤，并基于关键词来在过滤后的文本块中确定一个第一位置进而对第一位置之后的至少一个文本段落进行显示前的处理，并提供给用户所用的手持设备。

本文中所定义的手持设备，例如因屏幕面积有限，而无法将网页在屏幕中完整地呈现，令用户必须通过拖动滚动条等方式来找到他所希望显示的内容的设备。

根据本发明的一个具体实施例，提供了一种在网页处理装置中用于处理网页以便在一个手持设备上显示的方法，其中，所述手持设备的尺寸限制了其显示屏的面积，所述方法包括以下步骤：i.获得一个网页的标记语言代码；ii.基于所述标记语言代码中所包含的标记来对该标记语言代码进行过滤，以得到过滤后的文本块；其中，所述手持设备的尺寸限制了其显示屏的面积，该方法还包括以下步骤：I.确定所述网页的关键词；其中，在所述步骤ii与I之后，该方法还包括以下步骤：a.通过在所述文本块中搜索该关键词的匹配项，在所述过滤后的文本块中确定一个第一位置；b.对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备。

根据本发明的另一方面，提供了一种用于处理网页以便在一个手持设备上显示的网页处理装置，所述手持设备的尺寸限制了其显示屏的面积，所述网页处理装置包括：第一获得装置，用于获得一个网页的标记语言代码；过滤装置，用于基于所述标记语言代码中所包含的标记来对该标记语言代码进行过滤，以得到过滤后的文本块；关键词确定装置，用于确定所述网页的关键词；第一位置确定装置，通过在所述文本块中搜索该关键词的匹配项，在所述过滤后的文本块中确定一个第一位置；处理装置，用于对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备。

根据本发明的又一方面，提供了一种电子设备，其中包括上述的网页处理装置。

通过本发明，对于手持设备而言，能用更少的外存、内存、计算资源来显示用户需要的内容。根据本发明的一个实施例，不下载网页中的广告图片，视频等，从而节省了流量资源。精简后的网页内容与用户所希望看到的内容更为贴近，最大程度地排除了冗余，从而在用户所使用的手持设备上能够尽量准确地显示用户所想要显示的内容，实现“所见即所需”的用户体验。根据本发明的一个实施例，用户能够在一个阅读器中观看所有需要的内容，无需打开多个页面，访问不同网站。

附图说明

在本说明书其余部分，将参照附图来为本领域普通技术人员对本发明进行完整而可实施的披露，其中：

图1a、1b示出了同一个网页在个人计算机的显示器和手持设备上显示的不同效果；

图2a、2b示出了本发明的多种应用场景中的两种；

图3a示出了根据本发明的一个具体实施例的在网页处理装置中用于处理网页以便于在一个手持设备上显示的方法流程图；

图3b示出了根据本发明的一个具体实施例的图3a中步骤S306的一个内部流程图；

图3c示出了根据本发明的一个具体实施例的图3a中步骤S306的一个内部流程图；

图3d示出了根据本发明的一个更具体的实施例的在网页处理装置中用于处理网页以便于在一个手持设备上显示的方法流程图；

图3e示出了根据本发明的一个具体实施例的图3d所示步骤S304的一个内部流程图；

图4示出了一个RSS供稿；

图5a-5c示出了与图4所示的RSS供稿相对应的一个RSS供稿原文页面的部分；

图6示出了一张图片在计算机上显示时的原始尺寸；

图7示出了根据本发明的一个具体实施例的上述图片在手持设备1上显示时的调整后的尺寸；

图8示出了根据本发明的一个具体实施例的对保留下来准备提供给手持设备1的文本段落进行显示前的处理后的结果；

图9示出了根据本发明的一个具体实施例的用于处理网页以便在一个手持设备上显示的网页处理装置。

附图中相同的附图标记表示本发明中相同或相似的特征或元件。

具体实施方式

图2a示出了本发明的一种应用场景，其中，示出了一个手持设备1，其具有一个有线接口例如通用串行总线(USB)接口或IEEE1394总线接口。通过该有线接口，手持设备1与计算机2建立了用于传输数据、控制信号的信道。在这一场景中，由计算机2代替手持设备1来从内容服务器3处下载与网页相关的各种内容，如标记语言代码、图片等，并在对下载的各种内容进行处理后，提供给手持设备1。其中，计算机2提供给手持设备1用于显示的内容具有双方约定的格式，这样，手持设备1就可以使用预先安装的浏览器等工具来解析并显示。

可以看出，在图2a所示的例子中，本文中将提及的网页处理装置将置于计算机2中，并由计算机2通过该网页处理装置来执行本发明所提供的用于处理网页的方法，其中，本领域技术人员理解，网页处理装置可以是具有实体的硬件，也可以是安装在计算机2上的一个应用程序。无论其采用何种形式，均被本发明的基本思想所覆盖并落入权利要求所限定的范围之内。

在图2a所示的场景中，手持设备1甚至可以不具有任何的无线通信能力，其与外界的数据交互完全依赖与另一电子设备之间通过传输线建立的有线信道。例如，手持设备1可以是一个普通的多媒体播放设备，在从计算机2处得到供显示的内容后，用户就可以持着这一播放设备随意移动并同时欣赏网页的内容了。当然，图2a中的手持设备1同样可以是一个能够进行基于各种标准的无线通信的设备，例如，一个支持2G、3G、Wifi、蓝牙通信中至少一项的智能手机，它通过性能相对更优的计算机2来代为进行标记语言代码和图片等的下载、处理等操作，而只从计算机2处接收处理好的内容，这样，可以将该智能手机的传输资源和硬件能力资源用于其它方面。此外，如果考虑到无线流量的收费，则智能手机的用户使用这种有线连接的方式也可以降低无线流量的开销，缩减费用。

图2b示出了本发明多种应用场景中的另外一种，与图2a不同之处在于，这里的手持设备1’不依赖与其它电子设备之间的有线连接来获得对网页进行处理后所得到的内容以用于显示，而是直接通过无线链路并经由图中未示出的网元(例如无线中继站、基站、RNC等)来与内容服务器3进行数据交互，得到网页的标记语言代码和图片等信息后对其进行处理并在本机上显示。前已述及地，这种方式会有一定的无线数据通信流量开销，但它支持较高的移动性，只要图2b中的手持设备1’可以进行无线通信，用户就可以通过它在任何有合适网络覆盖的地方获得其所关心的内容的更新，对这些更新所进行的处理的部分或全部过程可以不依赖无线网络，当然，此后用户对处理所得到的内容的欣赏也同样可以不依赖无线网络。

可以看出，在图2b所示的例子中，本文中将提及的网页处理装置将直接布置于手持设备1’中，并由手持设备1’通过该网页处理装置来执行本发明中用于处理网页的方法，其中，本领域技术人员理解，本例中的网页处理装置可以是具有实体的硬件，也可以是安装在手持设备1’上的一个应用程序。无论其采用何种形式，均被本发明的基本思想所覆盖并落入权利要求所限定的范围之内。

在概略地介绍了本发明的应用场景之后，以下将参照流程图来对用于处理网页以便在手持设备上显示的方法的各个实施例进行介绍。应当注意的是，在本申请的各幅流程图中，除说明书中明确说明之外，其中的步骤标号并不必然地限定步骤间的先后顺序，例如在图3中，步骤S32并不必然地需要在步骤S31完成后再执行。

第一实施例

本例中，网页处理装置仅针对标记语言代码中所携带的文本进行处理，因此将为用户呈现一个由纯文本构成的处理结果以用于显示。关于处理过程考虑网页中的其它多媒体内容的例子，会在下文中专门详述。

本文中出现的“文本”指标记语言代码中所携带的文字或符号信息，例如图1a左侧的Africa，Americas等。而本文中出现的“其它多媒体内容”包括但不限于以下各项中的至少一项：图片、视频、音频、flash等。

参看图3a并结合图2a，用户在计算机2的网络浏览器例如IE、Firefox，Opera，Safari，Chrome中键入一个网页的地址并敲击回车，于是，在步骤S31中，计算机2的网络浏览器访问该地址，从内容服务器3处获得该网页的标记语言代码，也即由该标记语言代码组成的一个HTML或其它标记语言文件，其中包含了该网页上的所有标记、文本以及其它多媒体内容的寻址信息。这些内容将作为本例中的处理素材。

在传统的网页浏览过程中，由于用户将直接使用计算机2来显示网页，因此，该网页的标记语言代码将经过浏览器中XML/HTML模块的解析，从而获得文本和其它多媒体内容，并根据标记语言代码的指示进行显示。在本例中，由于并不需要在计算机2处显示该网页，且后续的处理过程将只针对文本，因此计算机2可以不必下载该网页中的其它多媒体内容，以提高效率。

在步骤S301中下载了网页的标记语言代码以后，该方法进入步骤S303，其中，对该标记语言代码进行过滤，以得到过滤后的文本块。具体地，过滤过程基于标记代码语言中的标记，具体过滤方式包括但不限于：

过滤方式1

删除标记语言代码中肯定没有作用的一些tag及其所限定的内容，例如<script>。这种方式一般会保留更多的tag及其所限定的内容。本领域技术人员可以根据具体情况来设定过滤方式1中需要被删除的tag，且这些变形均未超出本发明的基本思想。

过滤方式2

保留一个预定义的tag集合中的各个tag以及它们在标记语言代码中所限定的内容，并删除标记语言代码中的所有tag。根据本发明的一个优选实施例，这个预定义的tag集合如以下结构数组所示：

MD_t mark_table[]＝{

{MARK_TITLE，″title″，action_title}，

{MARK_TITLE_END，″/title″，action_paragragh_end}，

{MARK_P，″p″，action_p}，

{MARK_P_END，″/p″，action_paragragh_end}，

{MARK_CA，″ca″，action_ca}，

{MARK_CA_END，″/ca″，action_paragragh_end}，

{MARK_DIV，″div″，action_div}，

{MARK_DIV_END，″/div″，action_paragragh_end}，

{MARK_STYLE，″style″，action_style}，

{MARK_STYLE_END，″/style″，action_normal_end}，

{MARK_PUBDATE，″pubdate″，action_pubdate}，

{MARK_PUBDATE_END，″/pubdate″，action_normal_end}，

{MARK_DESCRIPTION，″description″，action_description}，

{MARK_DESCRIPTION_END，″/description″，action_normal_end}，

{MARK_TABLE，″table″，action_table}，

{MARK_TABLE_END，″/table″，action_paragragh_end}，

{MARK_TABLE，″pre″，action_pre}，

{MARK_TABLE_END，″/pre″，action_paragragh_end}，

{MARK_TABLE，″center″，action_center}，

{MARK_TABLE_END，″/center″，action_paragragh_end}，

{MARK_BR，″br″，action_br}，

}；

考虑到标记语言和互联网的变化与发展，上述两种过滤方式很有可能会随之更新，本发明并未限于这些具体的过滤方式，而应当被理解为覆盖了其各种可能的变形。

步骤S302中执行的是一个确定网页的关键词的过程，在本例中，步骤S302的执行与步骤S301和S303是否已经开始或已经结束无关。

步骤S302有多种实现方式，作为多种可选方式中的一种，且对于各种网页普遍适用地，由用户通过计算机2提供的一个人机交互界面来自行输入关键词例如“姚明”，并由计算机2将其作为步骤S302的结果。

步骤S302的多种可选方式中的另一种将在此结合图1a得到详细的介绍。如本领域技术人员所知的，一个网页经常会呈现出其它网页的链接，如图1a所示的链接11，通过点击该链接，就可以打开一个新的网页。以此为基础，如果图3a所示流程是针对一个通过点击链接而打开的网页时，用户点击的链接所包含的信息中的部分或全部就可以被利用，例如将“TV re-turn affects 500,000homes”这一字符串作为步骤S302中的确定结果。

当然，步骤S302的实现方式不限于以上各非限定性的例子，关键词的一种特别的确定方式还将在下文中谈到。

在得到过滤后的文本块后，通过搜索步骤S302中所确定的关键词在步骤S303中所得到的过滤后的文本块中的匹配项，来确定一个第一位置，该第一位置在至少一个实施例中也可以称为起始位置。

根据本发明，关键词的匹配项的搜索过程可以是一个精确匹配的过程，也可以是一个基于确定的匹配度的模糊匹配过程，还可以是一个始于精确匹配并在精确匹配不成时进行模糊匹配的过程。另外，在模糊匹配过程中，还可以设定多个匹配度，当最高的匹配度下的模糊匹配失败后，使用次高的匹配度再次尝试，以此类推。现有技术中已经有较多的精确匹配和模糊匹配算法，不再赘述。

匹配成功后，可以将过滤后的文本块也即文本块中该关键词的匹配所出现的位置作为该第一位置。例如，文本块中的内容形如：

“...

姚明此次受伤，使得火箭队.....”

于是，“姚”字之前的位置就确定为该第一位置。

当然，本文中的“位置”这一概念应该做广义的理解，其既可以理解为文字与文字之间的空位，也可以理解为一个文字所占据的位置，且并不限于本说明书中的例子。另外，对于同样的文字，当采用不同的编码方式时，例如UTF-8和UTF-16，第一位置或下文中提及的第二位置可能会不同，在上述具体例子的基础上，本申请中用于确定第一位置的技术方案应当被理解为覆盖了在基于关键词来搜索其匹配项这一思想之下上述具体例子的任何合理变形。

在步骤S305中，判断是否匹配成功。当然，这一判断过程可以合并于步骤S304，图中将其分开表示只为表述更为详细、清楚。申请人通过反复测试发现，上述匹配过程的失配概率是很低的。

如果步骤S304中未能找到关键词的匹配，则步骤S305中将判断匹配失败，该方法将进入步骤S307中进行匹配失败后的后续处理。步骤S307的实现方式是多种多样的，其一，将步骤S301中所下载的标记语言代码提供给手持设备1，以用于通过手持设备1上的浏览器的解析进而显示；其二，如果计算机2此前未对该网页的标记语言代码进行解析从而下载该网页的其它多媒体内容，则计算机2在步骤S307中下载这些其它多媒体内容，并分析手持设备1的特点，例如显示屏分辨率等，进而对该标记语言代码以及这些其它多媒体内容进行联合的显示前的处理再提供给手持设备1，所述显示前的处理包括但不限于参照手持设备1的显示屏分辨率来动态地调整图片或视频窗口的尺寸以及文字大小并修改该标记语言代码中的相应部分。当然，如果手持设备1自身具备上述的自动调整功能，则计算机2无需进行这些调整操作而直接将未经调整的内容提供给手持设备1。通过本说明书的教导，本领域技术人员可以应用步骤S307的上述例子的各种变形，但这些变形均落入随附的权利要求书所限定的保护范围之中。

若步骤S305中判断步骤S304中的匹配成功，则该方法进入步骤S307，其中，对过滤后的文本块中位于第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备。其中，当关键词的匹配出现在过滤后的文本块中的一个文本段落的中间时，从该关键词开始至该文本段落结束的这一部分可以被视为一个新的文本段落，以用于步骤S306。

步骤S306的一种实现方式是，在第一位置之后确定一个第二位置，并对第一、第二位置之间的文本段落进行显示前的处理而后提供给手持设备1，于是，显示前的处理和提供发生在所有待处理的内容已经确定之后。其中，该第二位置可以默认地确定为文本块的结束位置。优选地，该第二位置可以通过这样的方式来确定：依次将第一位置之后的各个文本段落的长度与长度阈值进行比较，当其中长度小于所述长度阈值的相邻文本段落的个数超过一个第一数量时，将所述相邻文本段落中最后一个文本段落的结束位置确定为所述第二位置，否则，将所述文本块的结束位置确定为所述第二位置。

该优选的确定第二位置的方式如图3b所示：其中，在步骤S3061中设置一个长度阈值，也称判错阈值，单位例如字节，以及一个容错阈值，单位为个。不失一般性地，长度阈值的初始值为从第一位置开始的第一个文本段落的长度(例如，存储该段落所需要的字节数)乘以一个系数，如0.3，而容错阈值则是一个经验值，例如5，于是根据本例，当文本块中长度小于长度阈值的相邻文本段落的个数达到该数量阈值时，将这些相邻文本段落中最后一个文本段落的结束位置作为该第二位置。步骤S3061后的各步骤具体如下：

在步骤S3062中，从第一位置之后的第二个文本段落开始，将其长度与上述长度阈值相比较。

如果第二个文本段落的长度小于该长度阈值，则进入步骤S3063，将一个初始值为0的错误次数增1。接着，判断增1后的新的错误次数是否大于预设的容错阈值，此时由于错误次数为1，因此步骤S3063得到否定的判断结果并进入步骤S3062，其中，以第三个文本段落为对象，进一步比较其长度与长度阈值的关系。

如果第二个文本段落的长度大于或等于该长度阈值，则该方法进入步骤S3066，其中，长度阈值将被更新。长度阈值的一种非限定性的更新方式如：计算包括当前文本段落即第二个文本段落在内的所有之前文本段落长度的平均值，再乘以一个系数，比如0.3，将所得结果作为新的长度阈值。

在更新长度阈值的同时或之后，错误次数被清零，进而回到步骤S3062，来针对下一个文本段落也即第三个文本段落来比较其长度与新的长度阈值之间的关系。

综上所述，如果存在连续的6个长度小于最新的长度阈值的文本段落，则在步骤S3065中将这6个文本段落中最后一个段落的结束位置确定为所述第二位置。

如果到该文本块结束仍未找到连续的6个长度小于最新的长度阈值的文本段落，则在步骤S3065中将该文本块的结束位置确定为所述第二位置。

在步骤S3066中，第一位置与第二位置之间的各个文本段落经过显示前的处理后，被提供给手持设备1。

步骤S306的另一种实现方式是，将第一位置之后的各个文本段落逐个地进行显示前的处理后提供给手持设备1，直至满足预定条件，其中，当以下各项中任一项满足时，判断该预定条件被满足，条件1：已经有超过第二数量个相邻且长度小于长度阈值的文本段落在经过所述显示前的处理后被提供给所述手持设备，其中第二数量是一个经验值，例如5；条件2：第一位置之后的所有文本段落均已在经过所述显示前的处理后被提供给所述手持设备，既然文本块已经结束，没有向下继续判定的必要；条件3：已经有超过第三数量个相邻的文本段落在经过所述显示前的处理后被提供给所述手持设备，考虑到手持设备1的屏幕面积较小，这种方式在某些情况下也有一定的积极意义，其中第三数量也可以是一个经验值，例如10、20等，优选地，该第三数量的确定还参照手持设备1的实际能力。

通过比较图3b和图3c不难看出，这两种方式的区别在于，前者先确定所有需要处理的文本段落，而后统一处理，后者在步骤S3069中将一个文本段落处理并提供给手持设备1之后，判断是否再处理并提供下一个文本段落，如果不需要再处理并提供下一个文本段落，也即，在处理并提供了第N个文本段落之后，针对该文本段落所进行的判断过程中，步骤S3064得到肯定的判断结果，这意味着已经有超过5个相邻且长度小于长度阈值的文本段落在步骤S3069中经过显示前的处理后被提供给手持设备1，于是，该流程进入步骤S3065’，判定预定条件满足，不再针对第N+1个文本段落执行该流程。

在图3b、3c及相关说明的教导下，本领域技术人员可以不经创造性劳动地应用其各种变形来实现步骤S306，且这些变形均落入随附权利要求书所限定的范围之内。

根据本发明，显示前的处理有多种方式，包括但不限于：将待处理的内容放入一个文本文件(.txt)；基于XML语言对该部分内容进行重新组织，经过技术人员或计算机的自动编码形成一个新的XML文件；以及采用快照方式将结果存为图片后供用户浏览，等等。与此相适应地，手持设备1预先安装有txt文件、.doc文件、xml/html文件的阅读工具。

至此，一个原本包括了各种冗余信息的网页经过处理，仅保留了其中最核心的信息，并以手持设备1可读的格式提供给手持设备1并呈现给用户。

第二实施例

对第二实施例的介绍将参照图3d并结合图2a来展开，其中，上文中的网页具体为一个RSS供稿原文页面。本例中，区别于第一实施例地，网页处理装置除了对文本进行处理外，还对网页的其它多媒体内容进行筛选，并将筛选出的其它多媒体内容随文本一起进行显示前的处理后提供给手持设备1。但是，本例并不应理解为一旦一个需要显示的网页为RSS供稿原文页面，就需要考虑其中的其它多媒体信息，实际上，对于一个RSS供稿原文页面，同样可以仅处理其中的文本内容，而不考虑其中的其它多媒体信息。

RSS的全称是Really Simple Syndication，也即简易聚合，其中聚合(Syndication)的含义可理解为，网页的更新会立刻发布到多个订阅者。其发布方式一般为内容服务器向订阅者发送一个被称作RSS feed(RSS源)的XML文件，RSS供稿对应于一个RSS供稿原文，其具体格式包括但不限于HTML和XML文件，其中HTML格式更为常见。例如，如果用户订阅了某名人张三的博客，那么当张三新发布了一篇博文之后，他的博客页面就视为一个RSS供稿原文页面，而基于上述更新发给用户的RSS供稿中，一般会包含该篇博文的主题、摘要以及链接地址，其它信息则为可选。

由于本发明并不限于对RSS标准下的网页进行处理，因此本文不再展开对RSS背景的介绍。更多和更详细的内容可参照Jee-hyung Park等的美国专利申请2009/00555402 A1和Michael Timmons等的美国专利申请2007/0294646，这些专利申请的内容通过引用的方式整体并入本文中。

本例中，对RSS供稿原文页面的处理有利地借助与该RSS供稿原文页面相对应的一个RSS供稿。具体地，在步骤S300中，计算机2下载RSS供稿的标记语言代码，其实现方式例如接收用户输入的一个RSSfeed的地址，其中该RSS feed包括了相应的RSS供稿，接着计算机2访问相应的内容服务器从而下载该标记语言代码。

在获得了RSS供稿的标记语言代码之后，可选地，计算机2对RSS供稿的标记语言代码进行HTML/XML模块中的解析，从而将由该标记语言代码所定义的页面呈现给用户，如图4所示。其中，链接41指向与该RSS供稿相对应的一个RSS供稿原文页面，由于该页面篇幅很大，因此图5a-5c中示出了其中的若干部分。于是，如果用户对图4所呈现出来的内容感兴趣，那么他会点击链接41，从而触发步骤S301和步骤S302。

可选地，步骤S301和S302也可以自动触发，也即，当RSS供稿的标记语言代码下载完毕，就自动执行步骤S301和S302。

无论步骤S301和S302被以何种方式触发，其中的具体操作都可以被以下内容很好的概括。

本例中步骤S301具体为三个子步骤，首先，在步骤S3010中，由RSS供稿的标记语言代码中提取该RSS供稿原文页面的地址，不失一般性地，通过RSS供稿的标记语言代码中的标记<link>及其所限定的内容来确定并提取所述地址。接着，在步骤S3011中，根据该地址从内容服务器3处下载该RSS供稿原文页面的标记语言代码。在步骤S3012中，通过将该页面的标记语言代码进行适当的解析，就可以获得该网页的其它多媒体内容，如图5a-5c所示的flash50、图片51-54，典型地，它们以位图(bitmap)或JPEG文件保存在计算机2的存储器中。步骤S301中所获得的信息既包括图5a-5c中所示的有用正文55，也包括网站导航栏、分类、左右侧边栏、广告、评论(如图5c中的标号56)等冗余信息。

在步骤S302中，不失一般性地，通过RSS供稿的标记语言代码中<title>标记及其所限定的内容来确定RSS供稿原文页面的标题，通过浏览器的解析，其形象地体现为图4中的标题43；通过RSS供稿的标记语言代码中的标记<description>及其所限定的内容来确定RSS供稿原文页面的摘要，通过浏览器的解析，其形象地体现为图4中的文本部分42。

应当理解，考虑到计算机网络与RSS标准的变化与发展，上述的地址、标题、摘要的确定方式今后可能会发生变化，但仍不脱离本发明的基本思想且被权利要求书所覆盖。

步骤S303中对文本块的过滤时，确定与所述文本块中的各个文本段落相对应的其它多媒体内容，例如，用于定义网页中的一个图片的<img>...</img>标记落在过滤后的一个文本段落中，则将该图片确定为与该文本段落相关。当然，在过滤之后该<img>...</img>标记及其中所限定的内容例如该图片的网络地址仍旧被删除，计算机2有利地保留了该图片与该文本段落之间的对应关系。

步骤S304的一个细化流程如图3e所示，通常，首先将摘要设置为关键字，在文本块中寻找其精确匹配，如果匹配成功，那么文本块中与摘要一致的文本出现的位置即作为该第一位置；如果摘要的精确匹配不成功，则设置匹配度，寻找摘要的模糊匹配，并将文本块中第一次满足匹配度的位置确定为该第一位置。若以上两次匹配都失败，则将RSS供稿原文页面的标题作为关键词寻找其精确匹配，如果成功，则跳过标题长度，确定该第一位置，或者以与标题一致的文本出现的位置作为该第一位置。如果没有找到标题的精确匹配，则设置匹配度，寻找标题的模糊匹配，如果找到其模糊匹配，则将文本块中第一次满足匹配度的位置确定为该第一位置。如果以上四次匹配都不成功，则步骤S304中就没有确定一个第一位置，步骤S305也将得到否定的判断结果。在实际测试中，这种四次匹配均不成功的情况是极为罕见的。

本例中的步骤S304和S305可参照第一实施例中的相关描述。

在步骤S306中，计算机2将对第一位置之后的至少一个文本段落和与其相对应的其它多媒体内容分别进行显示前的处理，并提供给该手持设备1。

具体地，若采用图3b所示的方式，则在所有的待处理的文本段落都以确定之后，再参照步骤S303中保留的其它多媒体内容与各个文本段落之间的对应关系，确定与待处理的至少一个文本段落相对应的其它多媒体内容，并在步骤S3066中对其一并进行显示前的处理后提供给移动终端1。

具体地，若采用图3c所示的方式，则在步骤S3069中将一个文本段落和与之相对应的其它多媒体内容(如有)进行显示前的处理后提供给移动终端1，进而再执行步骤S3062中的判断过程，依此类推，不赘述。

以图4、图5a-5c所示为例，根据步骤S303中保留的对应关系，图片51与最终保留下来等待显示前处理的一个文本段落相对应，于是，它将经过显示前的处理后提供给手持设备1，考虑到手持设备1的显示能力，该图片的尺寸被缩小，图6示出了其在计算机2上显示时的原始尺寸，图7则示出了其在手持设备1上显示时的调整后尺寸。

基于RSS标准，对保留下来准备提供给手持设备1的文本段落进行显示前的处理后的结果如图8所示，其中的标记语言可以由计算机2自动生成或由程序员人工输入。可见，其中包含了图5a-5c中最核心的有用正文55。另外，图7所示的图片提供给该手持设备1时的文件名为“3820090823173041162_0.jpg”，其也适当地包含在图8所示的代码中，从而方便手持设备1的寻址。

第三实施例

第三实施例为第二实施例的一个变形，其中，图3d中的步骤S3012被省略，取而代之地，在步骤S303中的过滤过程中，保留RSS供稿原文页面的标记语言代码中与过滤后的文本块中的各个文本段落相对应的其它多媒体内容的地址，接着，在步骤S306中，对最终保留下来的准备提供给手持设备1的各个文本段落以及与这些文本段落相对应的其它多媒体内容的地址进行显示前的处理，并提供给所述手持设备。典型地，将由<img>...</img>及其所限定的图6所示图片的网络地址写入到类似图8的标记语言代码中，这样，具有无线通信能力的手持设备1在获得该标记语言代码之后，就可以通过解析来在网络中找到该图片，进而下载并显示。

本领域技术人员理解，如果将本发明应用于图2b所示的场景，与图2a所不同的仅在于网页处理装置不再独立于手持设备，而是置于手持设备之中，并且，将经过显示前的处理后的信息提供给手持设备将更确切地表述为由网页处理装置提供给手持设备1’的浏览器等工具。

以上对本发明所提供的方法进行较为详细的描述，下文中将简要介绍本发明所提供的网页处理装置，其典型地处于图2a所示的计算机2中，或图2b所示的手持设备1’中。图9所示的网页处理装置9包括：

第一获得装置901，用于获得一个网页的标记语言代码，其功能对应于前述的步骤S301；

过滤装置902，用于基于所述标记语言代码中所包含的标记来对该标记语言代码进行过滤，以得到过滤后的文本块，其功能对应于前述的步骤S303；

关键词确定装置903，用于确定所述网页的关键词，其功能对应于前述的步骤S302；

第一位置确定装置904，通过在所述文本块中搜索该关键词的匹配项，在所述过滤后的文本块中确定一个第一位置，其功能对应于前述的步骤S304；

处理装置905，用于对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备，其功能对应于前述的步骤S306。

前述的步骤S307对应于一个图中未示出的装置。

根据本发明的至少一个具体实施例，过滤装置902还用于由所述标记语言代码中去除所有标记，保留由其中多个预定义标记所限定的内容，以得到所述过滤后的文本块。

根据本发明的至少一个具体实施例，第一获得装置901还用于，获得与所述网页相对应的其它多媒体内容；

过滤装置902还用于确定与所述文本块中的各个文本段落相对应的其它多媒体内容；

处理装置905还用于：对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落以及与所述至少一个段落相对应的其它多媒体内容进行显示前的处理，并提供给所述手持设备。

根据本发明的至少一个具体实施例，过滤装置902还用于：保留所述标记语言代码中与所述文本块中的各个文本段落相对应的其它多媒体内容的地址；

处理装置905还用于，对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落以及与所述至少一个段落相对应的其它多媒体内容的地址进行显示前的处理，并提供给所述手持设备。

根据本发明的至少一个具体实施例，所述处理装置905包括：第二位置确定装置9051，用于在所述过滤后的文本块中处于所述第一位置之后的各文本段落中确定一个第二位置；执行装置9052，用于对所述第一、第二位置之间的各个文本段落进行显示前的处理后提供给所述手持设备。

根据本发明的至少一个具体实施例，第二位置确定装置9051用于：依次将所述过滤后的文本块中处于所述第一位置之后的各个文本段落的长度与长度阈值进行比较，当其中长度小于所述长度阈值的相邻文本段落的个数超过一个第一数量时，将所述相邻文本段落中最后一个文本段落的结束位置确定为所述第二位置，否则，将所述文本块的结束位置确定为所述第二位置。

根据本发明的至少一个具体实施例，处理装置905还用于：对所述过滤后的文本块中处于所述第一位置之后的文本段落逐个地进行显示前的处理后提供给所述手持设备，直至满足预定条件。

根据本发明的至少一个具体实施例，当以下各项条件中任一项满足时，处理装置905判断满足所述预定条件：已经有超过第二数量个相邻且长度小于长度阈值的文本段落在经过所述显示前的处理后被提供给所述手持设备；所述第一位置之后的所有文本段落均已在经过所述显示前的处理后被提供给所述手持设备；已经有超过第三数量个相邻的文本段落在经过所述显示前的处理后被提供给所述手持设备。

根据本发明的至少一个具体实施例，该网页是与一个RSS供稿相对应的RSS供稿原文页面，网页处理装置9还包括：第二获得装置906，用于获得所述RSS供稿的标记语言代码，其中包含所述RSS供稿原文页面的地址和内容相关信息；第一获得装置901还包括：地址提取装置9011，用于由所述RSS供稿的标记语言代码中提取所述RSS供稿原文页面的地址；下载装置9012，用于基于所述地址来下载所述RSS供稿原文页面的标记语言代码；该关键词确定装置903还用于：由所述RSS供稿的标记语言代码中提取所述RSS供稿原文页面的内容相关信息，并将其作为所述与该网页相关的关键词。

根据本发明的至少一个具体实施例，该内容相关信息包括所述RSS供稿原文页面的摘要；该关键词确定装置903还用于：在所述过滤后的文本块中搜索所述摘要的匹配项，如果搜索到所述摘要的匹配项，则根据所述摘要的匹配项来确定所述第一位置。

根据本发明的至少一个具体实施例，该内容相关信息还包括所述RSS供稿原文页面的标题；该关键词确定装置903还用于：如果在所述过滤后的文本块中未搜索到所述摘要的匹配项，则进一步在所述过滤后的文本块中搜索所述标题的匹配项，如果搜索到所述标题的匹配项，则基于所述摘要的匹配项来确定所述第一位置。

根据本发明的至少一个实施例，还披露了包括上述的网页处理装置的电子设备，该电子设备可以是上述的手持设备，也可以是以图2a中计算机2为例的代为进行网页处理的其它设备。

本领域的技术人员理解，这里的讨论只是对典型实施例的描述，其并不构成对本发明更广的方面的限制，这些更广的方面通过该典型实施例而具体化。

Claims

1.一种在网页处理装置中用于处理网页并在一个手持设备上显示处理后的网页的方法，其中，所述手持设备的尺寸限制了其显示屏的面积，包括以下步骤：

i.获得一个网页的标记语言代码；

ii.基于所述标记语言代码中所包含的标记来对该标记语言代码进行过滤，以得到过滤后的文本块；

其中，该方法还包括以下步骤：

I.确定所述网页的关键词；

其中，在所述步骤ii与I之后，该方法还包括以下步骤：

a.通过在所述文本块中搜索该关键词的匹配项，在所述过滤后的文本块中确定一个第一位置，所述第一位置为该关键词的匹配项所出现的位置；

b.对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备。

2.根据权利要求1所述的方法，其中，所述步骤ii还包括：

-由所述标记语言代码中去除所有标记，保留由其中多个预定义标记所限定的内容，以得到所述过滤后的文本块。

3.根据权利要求1所述的方法，其中，所述步骤i还包括：

-获得所述网页的其它多媒体内容；

所述步骤ii还包括：

-在所获得的所述网页的其它多媒体内容中，确定与所述文本块中的各个文本段落相对应的其它多媒体内容；

所述步骤b还包括：

-对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落以及与所述至少一个段落相对应的其它多媒体内容进行显示前的处理，并提供给所述手持设备。

4.根据权利要求1所述的方法，其中，所述步骤ii包括：

-保留所述标记语言代码中与所述文本块中的各个文本段落相对应的其它多媒体内容的地址；

所述步骤b还包括：

-对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落以及与所述至少一个段落相对应的其它多媒体内容的地址进行显示前的处理，并提供给所述手持设备。

5.根据权利要求1所述的方法，其中，所述步骤b包括：

b1.在所述过滤后的文本块中处于所述第一位置之后的各文本段落中确定一个第二位置；

b2.对所述第一、第二位置之间的各个文本段落进行显示前的处理后提供给所述手持设备。

6.根据权利要求5所述的方法，其中，所述步骤b1包括：

-依次将所述过滤后的文本块中处于所述第一位置之后的各个文本段落的长度与长度阈值进行比较，当其中长度小于所述长度阈值的相邻文本段落的个数超过一个第一数量时，将所述相邻文本段落中最后一个文本段落的结束位置确定为所述第二位置，否则，将所述文本块的结束位置确定为所述第二位置。

7.根据权利要求1所述的方法，其中，所述步骤b包括：

-对所述过滤后的文本块中处于所述第一位置之后的文本段落逐个地进行显示前的处理后提供给所述手持设备，直至满足预定条件。

8.根据权利要求7所述的方法，其中，所述预定条件包括以下各项中的至少一项：

-已经有超过第二数量个相邻且长度小于长度阈值的文本段落在经过所述显示前的处理后被提供给所述手持设备；

-所述第一位置之后的所有文本段落均已在经过所述显示前的处理后被提供给所述手持设备；

-已经有超过第三数量个相邻的文本段落在经过所述显示前的处理后被提供给所述手持设备。

9.根据权利要求1所述的方法，其中，所述网页是与一个RSS供稿相对应的RSS供稿原文页面，该方法在所述步骤i和步骤I之前还包括步骤：

-获得所述RSS供稿的标记语言代码，其中包含所述RSS供稿原文页面的地址和内容相关信息；

其中，所述步骤i还包括：

-由所述RSS供稿的标记语言代码中提取所述RSS供稿原文页面的地址；

-基于所述地址来下载所述RSS供稿原文页面的标记语言代码；

其中，所述步骤I还包括：

-由所述RSS供稿的标记语言代码中提取所述RSS供稿原文页面的内容相关信息，并将其作为所述RSS供稿原文页面的关键词。

10.根据权利要求9所述的方法，其中，所述内容相关信息包括所述RSS供稿原文页面的摘要；

其中，所述步骤a包括：

-在所述过滤后的文本块中搜索所述摘要的匹配项；

-如果搜索到所述摘要的匹配项，则根据所述摘要的匹配项的位置来确定所述第一位置。

11.根据权利要求10所述的方法，其中，所述内容相关信息还包括所述RSS供稿原文页面的标题；

其中，所述步骤a还包括：

-如果未搜索到所述摘要的匹配项，则进一步在所述过滤后的文本块中搜索所述标题的匹配项；以及

-如果搜索到所述标题的匹配项，则根据所述标题的匹配项的位置来确定所述第一位置。

12.根据权利要求1所述的方法，其中，所述网页处理装置独立于所述手持设备或者配置于所述手持设备之中。

13.一种用于处理网页并在一个手持设备上显示处理后的网页的网页处理装置，其中，所述手持设备的尺寸限制了其显示屏的面积，所述网页处理装置包括：

第一获得装置，用于获得一个网页的标记语言代码；

过滤装置，用于基于所述标记语言代码中所包含的标记来对该标记语言代码进行过滤，以得到过滤后的文本块；

关键词确定装置，用于确定所述网页的关键词；

第一位置确定装置，通过在所述文本块中搜索该关键词的匹配项，在所述过滤后的文本块中确定一个第一位置，所述第一位置为该关键词的匹配项所出现的位置；

处理装置，用于对所述过滤后的文本块中位于所述第一位置之后的至少一个文本段落分别进行显示前的处理，并提供给该手持设备。

14.根据权利要求13所述的网页处理装置，其中，过滤装置还用于：

15.根据权利要求13所述的网页处理装置，其中，所述第一获得装置还用于：

-获得与所述网页相对应的其它多媒体内容；

所述过滤装置还用于，在所获得的所述网页的其它多媒体内容中，确定与所述文本块中的各个文本段落相对应的其它多媒体内容；

所述处理装置还用于：

16.根据权利要求13所述的网页处理装置，其中，所述过滤装置还用于：

所述处理装置还用于：

17.根据权利要求13所述的网页处理装置，其中，所述处理装置包括：

第二位置确定装置，用于在所述过滤后的文本块中处于所述第一位置之后的各文本段落中确定一个第二位置；

执行装置，用于对所述第一、第二位置之间的各个文本段落进行显示前的处理后提供给所述手持设备。

18.根据权利要求17所述的网页处理装置，其中，所述第二位置确定装置用于：

19.根据权利要求13所述的网页处理装置，其中，所述处理装置还用于：

20.根据权利要求19所述的网页处理装置，其中，所述预定条件包括以下各项中的至少一项：

21.根据权利要求13所述的网页处理装置，其中，所述网页是与一个RSS供稿相对应的RSS供稿原文页面，所述网页处理装置还包括：

第二获得装置，用于获得所述RSS供稿的标记语言代码，其中包含所述RSS供稿原文页面的地址和内容相关信息；

其中，所述第一获得装置还包括：

地址提取装置，用于由所述RSS供稿的标记语言代码中提取所述RSS供稿原文页面的地址；

下载装置，用于基于所述地址来下载所述RSS供稿原文页面的标记语言代码；

其中，所述关键词确定装置还用于：

22.根据权利要求21所述的网页处理装置，其中，所述内容相关信息包括所述RSS供稿原文页面的摘要；

其中，所述关键词确定装置还用于：

-在所述过滤后的文本块中搜索所述摘要的匹配项，如果搜索到所述摘要的匹配项，则根据所述摘要的匹配项的位置来确定所述第一位置。

23.根据权利要求22所述的网页处理装置，其中，所述内容相关信息还包括所述RSS供稿原文页面的标题；

其中，所述关键词确定装置还用于：

-如果未搜索到所述摘要的匹配项，则进一步在所述过滤后的文本块中搜索所述标题的匹配项，如果搜索到所述标题的匹配项，则根据所述标题的匹配项的位置来确定所述第一位置。

24.根据权利要求13所述的网页处理装置，其中，所述网页处理装置独立于所述手持设备或者配置于所述手持设备之中。

25.一种电子设备，包括根据权利要求13至24中任一项所述的网页处理装置。