CN102446199B

CN102446199B - 简易信息聚合文件的整合方法

Info

Publication number: CN102446199B
Application number: CN201010509696.2A
Authority: CN
Inventors: 蔡弘扬; 洪荣骏
Original assignee: Esobi Inc
Current assignee: Esobi Inc
Priority date: 2010-09-30
Filing date: 2010-09-30
Publication date: 2015-04-22
Anticipated expiration: 2030-09-30
Also published as: CN102446199A

Abstract

本发明公开了一种简易信息聚合文件的整合方法，包括：通过标签处理程序从简易信息聚合(Really Simple Syndication，RSS)文件的信息项目(Item)中取出数据元素集合(Material Assemble)，以及数据元素集合内所包含的数据元素(Material)；建立一选单界面，用以显示数据元素集合的内容和数据元素的内容；执行一编辑器用以对被选取的数据元素集合和数据元素进行排版与编辑之后合并成新信息项目；以及将新信息项目输出为一目标输出文件；通过本方法可以将多份简易信息聚合文件的内容整合成符合使用者需要的用户化超文本标示语言(Hypertext Markup Language，HTML)或简易信息聚合文件。

Description

简易信息聚合文件的整合方法

技术领域

本发明涉及一种有关可扩展标签语言(Extensible Markup Language,XML)文件的整合方法，特别是涉及一种简易信息聚合(RSS)文件的整合方法。

背景技术

计算机及因特网的快速发展，造成因特网信息量的快速爆增，一般而言使用者经常利用搜寻引擎在广大的因特网之中寻找需要的信息，即便是使用者经常浏览的网站或是有兴趣的内容，仍然要进入该网站才能看到需要的信息，这种方法对于使用者来说并不方便。

一种可以提供网页摘要信息的技术早已为人所熟知，例如简易信息聚合来源(Really Simple Syndication Feed,RSS Feed)技术，是一种通过可扩展标签语言(Extensible Markup Language，简称XML)格式的文件来分发和汇集网页内容的技术，简易信息聚合来源技术可以将网站的摘要信息储存为一个XML格式的简易信息聚合文件(下文简称为RSS文件)，这个RSS文件可能包含但不限于例如标题(title)和摘要内容(content)，使用者只要向一个或多个网站订阅RSSFeed，就可以通过RSS收集器(RSS aggregator)读取所订阅的RSS文件，甚至通过RSS收集器的定时检查以及更新功能进而获得网站的最新信息。

在已公开的美国发明专利20060167860「Data extraction for feedgeneration」，提出了一种自动产生数据来源(feed)的方法，这个方法包括：从含有多个数据元素(data element)的结构化或是非结构化资源(resource)中解析出多个数据元素，所述的资源并且和一种预定义的样本匹配，这种样本被结构化为上述的数据来源而且具有多个字段(fields)，再将上述被解析出来的数据元素并入上述的一个或是多个的字段之中，进而自动地产生数据来源。

在上述已知的技术中，RSS来源的结构都是已定义完成的结构化RSS文件，使用者无法依据需要自行修改或是编辑进而产生符合使用者需要的用户化RSS文件或是HTML文件。

发明内容

鉴于以上RSS文件无法用户化的问题，本发明提出了一种简易信息聚合文件的整合方法，可以对来自于多个数据来源的简易信息聚合文件进行用户化的内容整合，进而产生符合使用者需要的用户化超文本标示语言文件或简易信息聚合文件(RSS文件)。

为达上述目的，本发明提供了一种简易信息聚合文件的整合方法，将多份简易信息聚合文件(Really Simple Syndication,RSS文件)的内容整合成一份目标输出文件(Target Document)，其特征在于，该整合方法包括下列步骤：

S1.从因特网中取得所述简易信息聚合文件；

S2.针对每一个简易信息聚合文件中的所有信息项目(Item)进行标签处理程序，取出该信息项目中所包含的各个数据元素集合(Material Assemble)的内容及该数据元素集合(Material Assemble)内部所包含的各个数据元素(Material)的内容，并将取出的每笔数据内容依序写入一第一暂存集合中；

S3.建立一选单界面(Menu Pool)，将该第一暂存集合中的每一笔数据内容(Data)依序显示于该选单界面中，以供使用者选取所需的数据内容；

S4.执行一编辑器(Editor)，将该选单界面中被选取的所述数据内容载入该编辑器的一操作界面中进行排版编辑；

S5.将排版编辑完成的所述数据储存为一个新信息项目(New Item)，并将该新信息项目写入一第二暂存集合中；

S6.重复S1至S6的步骤，藉以产生另一个排版编辑后的新信息项目(NewItem)，并依序写入该第二暂存集合中，直至使用者确认结束排版与编辑的作业；以及

S7.将该第二暂存集合中的每一笔新信息项目(New Item)合并输出为一目标输出文件(Target Document)。

所述的简易信息聚合文件的整合方法，其中，该标签处理程序是以巢状递归(Nest Loop)取出的方式，将所述简易信息聚合文件中的每一个标签(Tag)及该标签所标示的内容取出，直至所有的所述标签(Tag)及所述标签所标示的内容都被取出为止。

所述的简易信息聚合文件的整合方法，其中，该标签处理程序所撷取的该数据元素的内容为标签及该标签所标示的内容。

所述的简易信息聚合文件的整合方法，其中，该标签所标示的内容包含：内文文本、超级链接或多媒体文件其中的任一种。

所述的简易信息聚合文件的整合方法，其中，该标签的种类包含：<item>、<author>、<category>、<comments>、<description>、<enclosure>、<guid>、<link>、<pubDate>、<source>和<title>其中的任一种。

所述的简易信息聚合文件的整合方法，其中，该选单界面(Menu Pool)以条列式方式或散置方式显示所述数据的内容。

所述的简易信息聚合文件的整合方法，其中，被撷取出来的该数据元素集合的内容与数据元素的内容，可以不同群组的方式显示在该选单界面。

所述的简易信息聚合文件的整合方法，其中，该目标输出文件(TargetDocument)为超文本标示语言(Hypertext Markup Language，HTML)文件或简易信息聚合文件(Really Simple Syndication,RSS)。

为达上述目的，本发明还提供了一种简易信息聚合文件的整合方法，将多份简易信息聚合文件(Really Simple Syndication,RSS文件)的内容整合成一份目标输出文件(Target Document)，其特征在于，该整合方法包括下列步骤：

S1.从因特网中取得所述简易信息聚合文件；

S4.执行一编辑器(Editor)，将该选单界面中被选取的所述数据载入该编辑器的一操作界面中进行排版编辑；

S6.重复S3至S6的步骤，藉以产生另一个排版编辑后的新信息项目(NewItem)，并依序写入该第二暂存集合中，直至使用者确认结束排版与编辑的作业；以及

所述的简易信息聚合文件的整合方法，其中，该标签处理程序所撷取的该数据元素为标签及该标签所标示的内容。

本发明提供的简易信息聚合文件的整合方法，能够将不同来源的简易信息聚合文件进行重新的编排，整合成符合使用者需要的用户化超文本标示语言文件(HTML文件)或简易信息聚合文件(RSS文件)。

至于本发明其它可能存在的优点与功效，即使未公开于上述的说明中，举凡熟悉此一技术领域具有通常知识者，应能通过下文中所提供的技术手段与实施例获得了解，有关本发明的技术手段与实施例，将在下文中配合图式作一说明。

附图说明

图1为本发明的架构示意图；

图2为第一实施例流程示意图，显示图1中各步骤的细节；

图3为第二实施例流程示意图，显示本发明方法的另一实施例步骤流；

图4为一程序界面示意图，显示了实现本发明方法的程序的界面实施例；

图5到图10，为RSS文件的部分程序代码内容的范例示意图。

其中，附图标记：

10 因特网

20 标签处理程序

30 元素列表(Material Pool)

40 编辑器

51 来源显示区

52 选单界面(menu pool)

53 元素编辑区

g1 群组(group)

具体实施方式

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

本发明以下所提供的方法，可以通过一般具有数字化数据处理能力的电子设备实施，例如计算机及智能型手机，这里所称的计算机包含但不限于个人计算机(Personal Computer)或是笔记型计算机(Note Book Computer)，通过软件的途径执行下文中所提供的方法来加以实现，于图5到图10中，更以RSS文件的部分程序代码的内容做为范例示意，以使贵审能更清楚明白本发明的实施手段，凡是熟悉此技术领域者，在了解本发明以下所提供的方法，应当能够据以实施。

图1是本发明的架构示意图，包括下列的步骤：

1.从因特网10中取得多份RSS文件；

2.针对每一个RSS文件中的所有信息项目(Item)进行一标签处理程序20，取出信息项目(Item)中所包含的各个数据元素集合(MaterialAssemble)的内容及该数据元素集合(Material Assemble)内部所包含的各个数据元素(Material)的内容，并将取出的每笔数据(Data)依序写入一第一暂存集合中，这里所称的数据(Data)内容包括数据元素集合的内容与数据元素的内容；

3.建立一选单界面(Menu Pool)52(见图4)，将第一暂存集合中的每一笔数据依序显示于选单界面52中，以供使用者选取；

4.执行一编辑器(Editor)40，将选单界面52中被选取的数据载入编辑器40的操作界面中进行排版与编辑；

5.将排版与编辑完成的数据储存为一个新信息项目(New Item)，并将新信息项目写入一第二暂存集合中；

6.重复1至6的步骤，藉以产生另一个排版编辑后的新信息项目(New Item)，并依序写入第二暂存集合中，直至使用者确认结束排版与编辑的作业；

7.将第二暂存集合中的每一笔新信息项目(New Item)合并输出为一目标输出文件(Target Document)。

上述方法步骤中所取得的RSS文件，一般而言都包含了许多的标签(Tag)及这些标签所标示的内容。标签的种类包含但不限于例如：信息项目<item>、作者<author>、分类目录<category>、注释的网址<comments>、信息项目的详细说明<description>、附件<enclosure>、全域唯一识别码<guid>、信息项目的网址<link>、出版日期<pubDate>、<source>、插入的图片<image>和信息项目的名称<title>其中的任一种。而标签所标示的内容(content)包含但不限于例如：内文文本(text)、超级链接(hyperlink)和多媒体文件其中的任一种。

图2为第一实施例流程示意图，显示了图1中各个步骤的细节。从因特网10(internet)中的一个或多个RSS来源(RSS Feeds)可以取得多个RSS文件(例如：简易信息聚合文件A，…，简易信息聚合文件X)，每一个RSS文件之中可能包含有一个或多个信息项目(例如：信息项目1，…，信息项目n)，而每一个信息项目又可能包含有一个或多个的数据元素集合(例如：数据元素集合A1，…，数据元素集合X1)，有些数据元素集合的内容可能还包含多个数据元素(例如：数据元素集合A1包含了多个数据元素A11，数据元素A12，…，数据元素A14)，有些数据元素集合的内容中则可能只包含一个数据元素(例如：数据元素集合X1只有一个数据元素X11)。

上述方法步骤中的标签处理程序20，可以通过辨识标签(Tag)的手段将RSS文件中的每一个信息项目，以及每一个信息项目中属于不同标签所标示的数据元素集合的内容与数据元素的内容撷取出来。而这些标签包含但不限于例如<item>、<author>、<category>、<comments>、<description>、<enclosure>、<guid>、<link>、<pubDate>、<source>、<image>和<title>。

上述方法步骤中的标签处理程序20的一实施例，是以巢状递归(Nest Loop)取出的方式，将每一个RSS文件中的每一个标签及该标签所包含的内容取出，直至所有的标签及该标签所包含的内容都被取出为止。

下文举出一个RSS文件的例子，辅助说明巢状递归取出的方式。

设有一个RSS文件的内容如下(如图5所示)：

依据巢状递归取出的方式，首先会对信息项目(item)的层级进行处理，再依序取出信息项目中所包含的数据元素集合的内容，然后再取出数据元素合的内容中所包含的数据元素的内容，如果某一个RSS文件中包含有多个信息项目，则会依序对每一个信息项目进行相同的处理；在图2的例子中，依据巢状递归取出的方式，首先对信息项目1进行处理，先取出数据元素集合A1，然后再将数据元素集合A1中所包含的全部数据元素A11，数据元素A12，…，数据元素A14取出。在RSS文件A处理完毕之后，再接着对下一个RSS文件进行处理，直至最后一个RSS文件X处理完毕完止。

如上述RSS文件的例子，依据巢状递归取出的方式，以上述图5所示的RSS文件为例，这个RSS文件只有一个信息项目，为RSS文件中第6行至第26行包括标签<item></item>及标签<item></item>所标示的内容，其内容如图6所示，接着会针对这个信息项目的内容再进行处理，依序先取出数据元素A的内容、数据元素B的内容和数据元素集合C的内容(如图7所示)。

数据元素A

数据元素B

Source:tw.news.yahoo.com

</div>

数据元素集合C

台湾的贫富差距越来越大，可用「一个台湾、两个世界」形容。有人长期失业，只能打零工赚吃饭钱；有钱人却不把钱当钱花，曾有一位富豪路过一个新的建案，只因「感觉不错」，就眼也不....

</div>

由于数据元素集合C其中还包括有多个数据元素，因此还会再对数据元素集合C进行巢状递归的取出操作，再依序取出其中的数据元素C_1的内容和数据元素C_2的内容如下(见图8)，直到信息项目中的全部数据元素集合的内容与数据元素的内容都被取出为止。

数据元素C_1

<img class＝"img_loading img"

src＝"http://l.yimg.com/o/xp/udn/20100820/09/3158402912.jpg"

id＝"share_thumb_148063295212438"/>

数据元素C_2

</div>

在本发明的一实施例，撷取出来的数据元素集合的内容与数据元素的内容，可被转换为HTML格式文件并在一选单界面(menu pool)52展示为元素列表(Material Pool)以供使用者选取，选单界面52可以采用条列式方式(如图9所示)，或是采用散置方式显示撷取出来的数据元素集合的内容与数据元素的内容。

而依据本发明的一实施例，在选单界面52中可以不显示标签，可行的方式是采用与浏览器(browser)相同的网页内容显示方式，将数据元素集合的内容与数据元素的内容显示于选单界面52，例如某一数据元素的内容如下：

Source:tw.news.yahoo.com

</div>

若是采用与浏览器(browser)相同的网页内容显示方式在选单界面52只会将文字”tw.news.yahoo.com”以超连的形式tw.news.yahoo.com显示在选单界面52之中。同理，如果某一数据元素的内容是一张影像(image)，则可以把这个影像以缩图的方式显示在选单界面52之中，提供使用者一种相同于浏览器的显示效果，以便使用者选取。

在本发明的另一实施例中，也可以将撷取出来的数据元素集合的内容与数据元素的内容以不同群组g1(group)的方式显示在选单界面52(见图4所示)，这样可以较有系统地将相关的数据元素集合的内容与数据元素的内容集中在一起，方便使用者寻找与识别。

如图2所示，选单界面52之中被使用者选取的数据元素集合的内容与数据元素的内容，会被载入编辑器40的一元素编辑区53，具体的实现方式可以由使用者通过点选(click)或是拖曳(drag)的方式，将被选取的数据元素集合的内容与数据元素的内容载入元素编辑区53中由使用者指定的位置。通过这种方式，使用者可以依据需要在元素编辑区53对数据元素集合的内容与数据元素的内容的位置进行排版。在本发明的一实施例，使用者还可以在元素编辑区53中对数据元素集合的内容与数据元素的内容进行编辑(包含修改和删除数据元素)的操作。

如图2所示，排版与编辑完成的数据元素集合的内容与数据元素的内容会被储存为一个新信息项目(New Item)，然后输出为一目标输出文件(TargetDocument)(见图10)。依据本发明的一实施例，目标输出文件可以是超文本标示语言(Hypertext Markup Language，HTML)文件或是简易信息聚合文件(RSS文件)。

本发明方法的另一实施例，还包括将多个数据元素集合的内容与数据元素的内容经过多次的排版与编辑的步骤合并成多个新信息项目，如图3所示，每一次利用编辑器40完成数据元素集合的内容与数据元素的内容的排版和编辑之后所产生的新信息项目，会被储存于一暂存集合之中；再重复地选单界面52之中选取数据元素集合的内容与数据元素的内容进行排版与编辑的作业，等到使用者确认数据元素集合与数据元素的排版和编辑作业结束，再将暂存集合中的多个新信息项目输出成一目标输出文件。此一实施例的方法步骤包括：

A.从因特网10中取得多份RSS文件；

B.针对每一个RSS文件中的所有信息项目(Item)进行一标签处理程序20，取出信息项目(Item)中所包含的各个数据元素集合(Material Assemble)的内容及该数据元素集合(Material Assemble)内部所包含的各个数据元素(Material)的内容，并将取出的每笔数据(Data)依序写入一第一暂存集合中，这里所称的数据内容包括数据元素集合的内容与数据元素的内容；

C.建立一选单界面(Menu Pool)52(见图4)，将第一暂存集合中的每一笔数据依序显示于选单界面52中，以供使用者选取；

D.执行一编辑器(Editor)40，将选单界面(Menu Pool)中被选取的数据载入编辑器40的操作界面中进行排版与编辑；

E.将排版与编辑完成的数据储存为一个新信息项目(New Item)，并将该新信息项目写入一第二暂存集合中；

F.重复C至F的步骤，藉以产生另一个排版编辑后的新信息项目(New Item)，并依序写入第二暂存集合中，直至使用者确认结束排版与编辑的作业；

G.将第二暂存集合中的每一笔新信息项目(New Item)合并输出为一目标输出文件(Target Document)。

图4为一程序界面示意图，显示了实现本发明方法的程序的界面实施例，其中的程序界面具有：一来源显示区51，用以显示从因特网10取得的多个RSS文件；一选单界面(menu pool)52，用以将标签处理程序20撷取出来的数据元素集合的内容与数据元素的内容展示为元素列表以供使用者选取；以及一元素编辑区53，作为编辑器40的排版与编辑的作业窗口，可以方便使用者对被选取的数据元素集合的内容与数据元素的内容进行排版与编辑的作业。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种简易信息聚合文件的整合方法，将多份简易信息聚合文件的内容整合成一份目标输出文件，其特征在于，该整合方法包括下列步骤：

S1.从因特网中取得多份简易信息聚合文件；

S2.针对每一个简易信息聚合文件中的所有信息项目进行标签处理，取出每一个信息项目中所包含的各个数据元素集合的内容及各个数据元素集合内部所包含的各个数据元素的内容，并将取出的每一个信息项目中所包含的各个数据元素集合的内容及各个数据元素集合内部所包含的各个数据元素的内容依序写入一第一暂存集合中；

S3.建立一选单界面，将该第一暂存集合中的每一笔数据内容依序显示于该选单界面中，以供使用者选取所需的数据内容，其中被取出的数据元素集合的内容与数据元素的内容以不同群组的方式显示在该选单界面；

S4.执行一编辑器，将该选单界面中被选取的所述数据内容载入该编辑器的一操作界面中进行排版编辑；

S5.将排版编辑完成的所述数据储存为一个新信息项目，并将该新信息项目写入一第二暂存集合中；

S6.重复S1至S5的步骤，直至使用者确认结束排版与编辑的作业，其中由S5的步骤所产生的新信息项目被依序写入该第二暂存集合中；以及

S7.将该第二暂存集合中的每一笔新信息项目合并输出为一目标输出文件。

2.如权利要求1所述的简易信息聚合文件的整合方法，其特征在于，该标签处理是以巢状递归取出的方式，将所述简易信息聚合文件中的每一个标签及该标签所标示的内容取出，直至所有的所述标签及所述标签所标示的内容都被取出为止。

3.如权利要求1所述的简易信息聚合文件的整合方法，其特征在于，该标签处理所撷取的该数据元素的内容为标签及该标签所标示的内容。

4.如权利要求3所述的简易信息聚合文件的整合方法，其特征在于，该标签所标示的内容包含：内文文本、超级链接或多媒体文件其中的任一种。

5.如权利要求3所述的简易信息聚合文件的整合方法，其特征在于，该标签的种类包含：<item>、<author>、<category>、<comments>、<description>、<enclosure>、<guid>、<link>、<pubDate>、<source>和<title>其中的任一种。

6.如权利要求1所述的简易信息聚合文件的整合方法，其特征在于，该选单界面以条列式方式或散置方式显示所述数据的内容。

7.如权利要求1所述的简易信息聚合文件的整合方法，其特征在于，该目标输出文件为超文本标示语言文件或简易信息聚合文件。

8.一种简易信息聚合文件的整合方法，将多份简易信息聚合文件的内容整合成一份目标输出文件，其特征在于，该整合方法包括下列步骤：

S1.从因特网中取得多份简易信息聚合文件；

S4.执行一编辑器，将该选单界面中被选取的所述数据载入该编辑器的一操作界面中进行排版编辑；

S6.重复S3至S5的步骤，直至使用者确认结束排版与编辑的作业，其中由S5的步骤所产生的新信息项目被依序写入该第二暂存集合中；以及

9.如权利要求8所述的简易信息聚合文件的整合方法，其特征在于，该标签处理是以巢状递归取出的方式，将所述简易信息聚合文件中的每一个标签及该标签所标示的内容取出，直至所有的所述标签及所述标签所标示的内容都被取出为止。

10.如权利要求8所述的简易信息聚合文件的整合方法，其特征在于，该标签处理所撷取的该数据元素为标签及该标签所标示的内容。

11.如权利要求10所述的简易信息聚合文件的整合方法，其特征在于，该标签所标示的内容包含：内文文本、超级链接或多媒体文件其中的任一种。

12.如权利要求8所述的简易信息聚合文件的整合方法，其特征在于，该选单界面以条列式方式或散置方式显示所述数据的内容。

13.如权利要求8所述的简易信息聚合文件的整合方法，其特征在于，该目标输出文件为超文本标示语言文件或简易信息聚合文件。