CN101246481B

CN101246481B - 使超文字标示语言网页转换成纯文字的方法及其系统

Info

Publication number: CN101246481B
Application number: CN2007100802939A
Authority: CN
Inventors: 黄子癸; 蔡弘扬
Original assignee: Esobi Inc
Current assignee: Esobi Inc
Priority date: 2007-02-16
Filing date: 2007-02-16
Publication date: 2011-04-20
Anticipated expiration: 2027-02-16
Also published as: CN101246481A; EP1959354A2; EP1959354A3

Abstract

本发明是有关一种使超文字标示语言网页转换成纯文字的方法及其系统。该方法是先取得一超文字标示语言网页的超文字标示语言原始码，并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分，该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签，再依据该超文字标示语言原始码中的一部分进行以下步骤：计算该超文字标示语言原始码中的一部分内各字串的长度与位置，找出其中长度为前第一预设值百分比的字串，前述前第一预设值百分比的字串的数量，等于超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积，进而分析前第一预设值百分比字串中各字串与其余字串间的位置间隔，并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串，标示为一同一个区块，以找出一最大区块，最后删除最大区块内字串间的标签以取得一纯文字的主要内容。本发明借由对超文字标示语言网页的超文字标示语言原始码中的标签处理及以字串长度与两字串间的位置间隔来判断主要内容位置，可达到精确取得纯文字主要内容功效。

Description

使超文字标示语言网页转换成纯文字的方法及其系统

技术领域

本发明涉及一种网页转换成纯文字的方法，特别是涉及一种使超文字标示语言网页转换成纯文字的方法及其系统。

背景技术

随着网际网路的普及，人们愈来愈习惯通过网际网路来获得讯息与查询资料，例如直接登入网站来浏览新闻网页或文章网页等，目前网页的格式大都为超文件标示语言(Hypertext Markup Language；以下简称HTML)。

又，目前网路上出现一种新资讯提供方式，称为简单联合供稿(ReallySimple Syndication，以下简称RSS)，让使用者可以自行订阅想看资讯内容，而把网页中最新讯息及新闻同步发送予订阅者。详细来说，使用者端安装RSS浏览器后，可以通过RSS浏览器订阅网站所提供的各式各样RSS频道。而后，RSS浏览器会定期更新已订阅RSS频道，即RSS浏览器每隔一段时间会主动下载订阅频道中新的新闻或文章的简介(如标题、摘要与连结网址)至使用者端，让使用者即时了解频道的更新资讯。若使用者对新的新闻或文章有兴趣时，点选简介即可利用其连结网址连结对应HTML网页浏览完整内容。

然而，无论是以直接登入网站或以RSS浏览器浏览HTML网页，HTLM网页经常同时存在许多无涉于主要内容的资讯，如广告、其他HTML网页的介绍、网站资讯等等，影响使用者对网页中主要内容的阅读速度，造成使用者难以迅速了解网页的主要内容。

由此可见，上述现有的网路资讯提供方式在方法、结构及使用上，显然仍存在有不便与缺陷，而亟待加以进一步改进。为解决上述存在问题，相关厂商莫不费尽心思来谋求解决之道，但长久以来一直未见适用的设计被发展完成，而一般方法及产品又没有适切的方法及结构能解决上述问题，此显然是相关业者急欲解决的问题。因此如何能创设一种新的使超文字标示语言网页转换成纯文字的方法及其系统，实属当前重要研发课题之一，亦成为当前业界极需改进的目标。

有鉴于上述现有的网路资讯提供方式存在的缺陷，本发明人基于从事此类产品设计制造多年丰富的实务经验及专业知识，并配合学理的运用，积极加以研究创新，以期创设一种新的使超文字标示语言网页转换成纯文字的方法及其系统，能够改进一般现有的网路资讯提供方式，使其更具有实用性。经过不断的研究、设计，并经反复试作及改进后，终于创设出确具实用价值的本发明。

发明内容

本发明的目的在于，克服现有的网路资讯提供方式存在的缺陷，而提供一种便于阅读的使超文字标示语言网页转换成纯文字的方法及其系统，非常适于实用。

本发明的另一目的在于，提供一种可以达到纯文字转换精确度较高的使超文字标示语言网页转换成纯文字的方法及其系统，从而更加适于实用。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种使超文字标示语言网页转换成纯文字的方法，其是先接收一超文字标示语言网页的超文字标示语言原始码，并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分，该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签，再依据该超文字标示语言原始码中的一部分进行以下步骤：(A)、计算该超文字标示语言原始码中的一部分内各字串的长度与位置，找出前述多数个字串中长度为前第一预设值百分比的字串，前述前第一预设值百分比的字串的数量，等于超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积；(B)、分析前述前第一预设值百分比的字串中各字串与其余字串间的一位置间隔，并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串，标示为一同一个区块，以找出一最大区块；以及(C)、删除前述最大区块内前述字串间的标签以取得一主要内容。本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的使超文字标示语言网页转换成纯文字的方法，其中所述的第一预设值为3～15中的一整数，前述第二预设值为2～10中的一整数。

前述的使超文字标示语言网页转换成纯文字的方法，其中所述的步骤(C)中被删除标签是一段落格式标签，前述段落格式标签为<br>或一<p>和</p>。

本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本发明提出的一种使超文字标示语言网页转换成纯文字的系统，包含一前置标签处理模组，用以接收一超文字标示语言网页的超文字标示语言原始码并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分，该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签；该系统的还包含：一区块分析模组，计算该超文字标示语言原始码中的一部分内各字串的长度与位置，找出其中长度为前第一预设值百分比的字串，前述前第一预设值百分比的字串的数量，等于该超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积；该区块分析模组还分析前述前第一预设值百分比的字串中各字串与其余字串间的一位置间隔，并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串，标示为一同一个区块，以找出一最大区块；以及一后续标签处理模组，删除前述最大区块内前述字串间的标签以取得一主要内容。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的使超文字标示语言网页转换成纯文字的系统，其中所述第一预设值为3～15中的一整数，前述第二预设值为2～10中的一整数。

前述的使超文字标示语言网页转换成纯文字的系统，其中所述的后续标签处理模组所删除的标签是一段落格式标签。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明使超文字标示语言网页转换成纯文字的方法及其系统至少具有下列优点及有益效果：本发明借由对超文字标示语言网页的超文字标示语言原始码中的标签处理及以字串的长度与两字串间的位置间隔来判断主要内容的位置，可以达到精确地取得纯文字的主要内容的功效。

综上所述，本发明是有关于一种使超文字标示语言网页转换成纯文字的方法及其系统。该使超文字标示语言网页转换成纯文字的方法，包含执行一前置标签程序以撷取前述超文字标示语言网页中超文字标示语言原始码中的一具有多数个字串及多数个位于前述字串间的标签的部分，再计算各字串的长度与位置，找出前述字串中长度为前第一预设值百分比的字串，进而分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔，并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块，以找出一最大区块，最后删除前述最大区块内前述字串间的标签以取得一纯文字的主要内容。本发明克服了现有的网路资讯提供方式存在的缺陷，方便于阅读，非常适于实用。另外，本发明可以达到纯文字转换精确度较高的功效，更加适于实用。本发明具有上述诸多优点及实用价值，其不论在方法、产品结构或功能上皆有较大改进，在技术上有显著的进步，并产生了好用及实用的效果，且较现有的网路资讯提供方式具有增进的突出功效，从而更加适于实用，诚为一新颖、进步、实用的新设计。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明纯文字转换系统的较佳实施例，此实施例的纯文字转换系统是位于RSS浏览器内并可接收一网站的网页。

图2是本实施例中的纯文字转换方法的流程图。

图3是本实施例中前置标签程序的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的使超文字标示语言网页转换成纯文字的方法及其系统其具体实施方式、方法、步骤、结构、特征及其功效，详细说明如后。

请参阅图1所示，揭露本发明纯文字转换系统的较佳实施例，该纯文字转换系统2用以把超文字标示语言网页的超文字标示语言(HypertextMarkup Language；以下简称HTML)原始码转换成纯文字的主要内容。纯文字转换系统2可为一韧体或一程式，该程式可先储存于诸如光碟之类的储存媒体上，以供使用者安装于其电子装置内来执行。超文字标示语言网页是由为一个或多个伺服器构成的网站4来提供，该超文字标示语言网页是以新闻网页或文章网页为佳。

本实施例的纯文字转换系统2整合于一简单联合供稿浏览器1(ReallySimple Syndication Reader，以下简称RSS浏览器)内，该RSS浏览器1安装于一可连线网际网路的电子装置，如电脑。网站4提供至少一为RRS浏览器1订阅的RSS频道41，而当网站4有新超文字标示语言网页时，使用者可以通过RSS浏览器1的定期更新取得新超文字标示语言网页的简介(如标题、摘要与连结网址)，以即时获知网站4有新超文字标示语言网页存在，使用者对超文字标示语言网页的内容有兴趣时可利用简介连结至网站4连结至对应超文字标示语言网页来浏览完整内容。此刻，RSS浏览器1连结至网站4的超文字标示语言网页时，会下载超文字标示语言网页的HTML原始码以在RSS浏览器1显示超文字标示语言网页。使用者可以通过RSS浏览器1的操作介面(图中未示)来设定纯文字转换系统2把超文字标示语言网页转换成纯文字的主要内容，进而RSS浏览器1可以显示此纯文字的主要内容给使用者浏览。

应当注意的是，本发明的纯文字转换系统2也可以整合于其他支援超文字标示语言网页浏览程式，如IE，或整合于网站4内，或形成一独立程式，并不应受限于本实施例所揭露者。当然，本实施例的RSS浏览器1更具有其他的RSS浏览器1的基本构件，如一个用以因应使用者的控制指令以执行对应工作的控制模组，然而此是广为熟习该项技艺的技术人员所熟知，且非本案改良重点，故不在此赘述。

本实施例纯文字转换系统2是从HTML原始码撷取主要内容。该HTML原始码是由文字与标签所构成，所以HTML原始码含有多数个字串与多数个标签，而这些字串中部分字串可能为超文字标示语言网页的主要内容、部分字串可能用来定义或注解超文字标示语言网页而无涉于主要内容、部分字串可能属于广告。本实施例的纯文字转换系统2包括一前置标签处理模组21、一区块分析模组22及一后续标签处理模组22。

该前置标签处理模组21，接收HTML原始码后进行一前置标签程序(容后再述)以对HTML原始码内的标签或空白(white space)作处理，以撷取出可能与主要内容相关的一部分以传送至区块分析模组21，作为超文字标示语言原始码中的一部分。超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的段落格式标签，此段落格式标签界定这些字串相互间的关系，例如一<p>和一</p>或一<br>，<p>和</p>系定义两标签间字串系一个段落(Paragraphs)，而<br>代表断行<Line Breaks>。

范例1

<html>

<body>

主体

</body>

</html>

如上述的范例1，一般HTML原始码撰写，会把<body>与</body>间的内容称为主体，与主要内容相关的字串会出现于此处，例如为新闻网页时，此则新闻文章的主要内容的字串会出现于主体内。因此，前置标签处理模组21在接收HTML原始码会先取出其主体。主体中会有多数个字串与标签，其中大部分标签是与纯文字的主要内容无关、且部分字串是用来作注解或定义，所以前置标签处理模组21会进一步删除主体内无涉于主要内容的标签与字串。

因此，本实施例前置标签处理模组21更储存一具有与注解与定义相关标签对的第一预设标签群组及一具有与HTML元素位置、颜色、字体、字型等HTML格式相关标签的第二预设标签群组。

该第一预设标签群组，具有一<script>和一</script>、一<style>和一</style>及一<！--和一-->等等。<script>和</script>是用来定义程式码语言，所以<script>和</script>间的字串可能是javascript的程式码。<style>和</style>用来定义格式设定，所以<style>和</style>间的字串可能是描述超文字标示语言网页内的格式，例如它的字体、字型、颜色、间距等的资讯。<！--和-->用来定义不会显示于超文字标示语言网页上的注解，故<！--和-->间的字串是注解。

本实施例的该第二预设标签群组，具有一定义字型用的<font>、一定义斜体字的<i>、一定义粗体字的<b>、一定义打字机字的<tt>、一定义加底线的<u>、一定义划删除线的<strike>、一定义下标的<sub>、一定义上标的<sup>、一定义保持原貌的<pre>及一定义强调的<em>等等。应当注意的是，本实施例虽然先把可能相关的标签预设于第一预设标签群组与第二标签群组内，然而，事后亦可通过更新第一预设标签群组与第二标签群组的内容，来适时增删标签。

如此，前置标签处理模组21会在主体中存在与第一预设标签群组相符标签时，删除相符标签间的字串与相符标签。主体中存在第二预设标签群组相符的标签，前置标签处理模组21删除相符标签。再者，经前述处理的主体可能存在多数个相邻的空白，本实施例前置标签处理模组21更会把多数个空白转换成一个空白，以得到供区块分析模组22的部分并传送至区块分析模组22。

一般HTML原始码中诸如新闻或部落格文章网页的内容往往是较长字串且这些字串的位置常相近而可聚集成一个最大区块。因此，区块分析模组22分析部分内各字串的长度与位置来找出一最大区块，而后再由后续标签模组23删除最大区块内段落格式标签以作为纯文字的主要内容来输出给RSS浏览器1，以套用预设版面显示给使用者浏览。

在以下段落，请参阅图2所示，把纯文字转换系统2的工作流程作详细说明，而前述模组21～23的功能可在以下的说明中更加清楚。

首先，在步骤50中前置标签处理模组21接收超文字标示语言网页的HTML原始码后，执行步骤51的前置标签程序以取得超文字标示语言原始码中的一部分来传送至区块分析模组22。前置标签程序(指步骤51)结束后继续步骤52。

请参阅图3所示，前置标签处理模组21先在步骤511中取出HTML原始码的一主体作为超文字标示语言原始码中的一部分，指位于<body>与</body>间的内容。而后，在步骤512中，前置标签处理模组21判断主体中是否存在与第一预设标签群组相符的标签。若步骤512判断为是时，执行步骤513删除主体内相符标签间的字串与相符标签。步骤513结束后或若步骤512判断为否，则继续步骤514。在步骤514中，前置标签处理模组21判断主体中是否存在与第二预设标签群组相符的标签，并在判断有时执行步骤515以删除主体中与第二预设标签群组相符的标签。而若步骤514判断为否或步骤515结束后，执行步骤516，以判断主体是否存在多数个相邻的空白。步骤516判断为是时，前置标签处理模组21把多数个相邻空白转换成一个空白后，使不同行的字串会位于同一行而这些字串间存在未删除的段落格式标签来区隔，如<p>和</p>或<br>。步骤516判断为否或步骤517结束后，完成前置标签程序，并把经前述步骤511～517取得且经处理的超文字标示语言原始码中的一部分(此部分具有多数个字串与多数个段落格式标签)传送给区块分析模组22，继续由区块分析模组22执行图2的步骤52。应注意的是，前述步骤512、514的执行顺序可依设计需求来调整，也可同步执行，并不应受限于本实施所揭露者。

在步骤52中，区块分析模组22可以利用计算来自前置标签处理模组21撷取出的超文字标示语言原始码中的一部分内各字串的长度与位置。紧接着，在步骤53中，区块分析模组22从这些字串中找出长度为前第一预设值百分比的字串，以在步骤54中分析前第一预设值百分比字串中各字串与其余字串间的一位置间隔，并在位置间隔不大于一第二预设值时，标示与此位置间隔对应字串为一同一个区块。其次，在步骤55中从标示所得的区块中找出一个最大区块，把最大区块传送给后续标签处理模组23。第一预设值为3～15中任一个整数，而第二预设值为2～10中的任一个整体，本实施例中第一预设值与第二预设值的数值是预先设定。

为让前述步骤53～55更容易被了解，在以下中以20个字串为例来进行说明，并设定第一预设值百分比为15％，所以字串长度为前第一预设百分比的字串共20×15％＝3个，而第二预设值为2。

AA<p>BBBBBBBBBBBBBB<br>CCC<br>DDDDDDDDDDDDDDD</p><p>EEEEEEEEEEEEEEEEEEEEE<br>FFFFF<br>GG<br>HHHHHHHH<br>IIIIIIIIIIIIII</p><p>J<br>KKK<br>LL<br>MMMM<br>N<br>O0<br>P<br>QQQ<br>R<br>S<br>TT</p>

因此，每一个字串的位置是依序递增，B、D、E字串为前第一预设值百分比长的字串，区块分析模组22会对B字串往前与往后找2个位置间隔(即A字串与C、D字串)，以判断此2位置间隔内是否有其他同为前第一预设值百分比长字串存在。由于B字串与D字串间的位置间隔为2而不大于第二预设值，故B、C、D字串会被标示为同一区块，而后以此区块继续再往前与往后找2个位置间隔(即A字串与E、F字串)，D与E间的位置间隔为1其小于第二预设值，所以B、C、D、E字串会被标示会同一区块，在此范例中B、C、D、E构成的区块即为最大区块。

步骤55结束后，继续步骤56，后续标签处理模组23进一步删除最大区块内的段落格式标签以取得纯文字的主要内容，进而在步骤57中输出给RSS浏览器1并套用预设版面以纯文字方式显示给使用者浏览。

以前述范例来说，则显示主要内容如下：

BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDD

EEEEEEEEEEEEEEEEEEEEE

据前所述，本发明利用前置标签程序来删除HTML原始码中无涉于主要内容的标签与字串以取出与主要内容相关的部分，而后利用此部分内的字串长度及相互间的位置间隔来找出最大区块，最后再删除最大区块中剩余标签(指段落格式标签)，以得到纯文字的主要内容来供使用者浏览，不只可以精确转换超文字标示语言网页的主要内容为纯文字，而且使用者也可以快速浏览网页中的主要内容。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种使超文字标示语言网页转换成纯文字的方法，其是先接收一超文字标示语言网页的超文字标示语言原始码，并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分，该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签，再依据该超文字标示语言原始码中的一部分进行以下步骤，所述方法其特征在于：

(A)、计算该超文字标示语言原始码中的一部分内各字串的长度与位置，找出前述多数个字串中长度为前第一预设值百分比的字串，前述前第一预设值百分比的字串的数量，等于超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积；

(B)、分析前述前第一预设值百分比的字串中各字串与其余字串间的一位置间隔，并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串，标示为一同一个区块，以找出一最大区块；以及

(C)、删除前述最大区块内前述字串间的标签以取得一主要内容。

2.如权利要求1所述的使超文字标示语言网页转换成纯文字的方法，其特征在于其中所述的第一预设值为3～15中的一整数，前述第二预设值为2～10中的一整数。

3.如权利要求1所述的使超文字标示语言网页转换成纯文字的方法，其特征在于其中所述步骤(C)中被删除标签是一段落格式标签，前述段落格式标签为<br>或一<p>和</p>。

4.一种使超文字标示语言网页转换成纯文字的系统，包含一前置标签处理模组，用以接收一超文字标示语言网页的超文字标示语言原始码并执行一前置标签程序以撷取出一超文字标示语言原始码中的一部分，该超文字标示语言原始码中的一部分内具有多数个字串及多数个位于前述字串间的标签；该系统的特征在于还包含：

一区块分析模组，计算该超文字标示语言原始码中的一部分内各字串的长度与位置，找出其中长度为前第一预设值百分比的字串，前述前第一预设值百分比的字串的数量，等于该超文字标示语言原始码中的一部分内所有字串数量与该第一预设值百分比的乘积；该区块分析模组还分析前述前第一预设值百分比的字串中各字串与其余字串间的一位置间隔，并对于与该前第一预设值百分比的各字串位置间隔不大于一第二预设值的字串，标示为一同一个区块，以找出一最大区块；以及

一后续标签处理模组，删除前述最大区块内前述字串间的标签以取得一主要内容。

5.如权利要求4所述的使超文字标示语言网页转换成纯文字的系统，其特征在于其中所述的第一预设值为3～15中的一整数，前述第二预设值为2～10中的一整数。

6.如权利要求4所述的使超文字标示语言网页转换成纯文字的系统，其特征在于其中所述的后续标签处理模组所删除的标签是一段落格式标签。