CN1983269A

CN1983269A - 在门户页上自动排列门户组件的方法和系统

Info

Publication number: CN1983269A
Application number: CNA2006101418725A
Authority: CN
Inventors: K·蒂莫; A·安德里亚斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-12-12
Filing date: 2006-10-08
Publication date: 2007-06-20
Anticipated expiration: 2026-10-08
Also published as: KR20070062408A; US7653659B2; JP2007164789A; KR101013233B1; US8108395B2; US20100217777A1; US20070136329A1; JP4848259B2; CN1983269B

Abstract

本发明涉及网络计算领域，尤其涉及用于设计包括门户页以及门户组件的层级结构的Web门户的方法和系统，所述门户页以及门户组件用于访问经由该门户可访问的Web内容。典型的较大企业的门户包含大量的例如数以千计的页和门户组件。由于企业门户的复杂性，人工管理是没有效率的，因为它耗时、易于出错、并因此也是昂贵的。为了克服这些缺点，提出根据本发明的门户执行门户组件标记和/或门户组件描述的一些挖掘(420)，以便自主地计算(430)和提议(440)增强的门户内容结构。这有助于提供很好地反映门户组件之间的关系的用户友好的内容结构。

Description

在门户页上自动排列门户组件的方法和系统

技术领域

本发明涉及网络计算领域，尤其涉及用于设计包括门户页和门户组件的层级结构的Web门户或者企业门户的方法和系统，所述门户页和门户组件用于访问经由该门户可访问的Web内容或企业内容。

背景技术

图1给出了关于实现这样的现有技术的Web门户的门户服务器的示意性系统视图。

例如由的IBM WebSphere门户或者由Jetspeed2企业门户(www.portals.apache.org/jetspeed-2/portal-design.html)所代表的现有技术的门户是由在网络服务器上实现的复杂功能构建的，所述网络服务器例如网络服务器100，其最重要的单元是用于用户认证105、状态处理110、片段聚合115的逻辑部件、在相应页125中提供的将在下面进一步说明的多个门户组件120、以及一些门户存储资源140，所述多个门户组件120具有相应的到相应门户组件容器软件135的多个API130，用于将它们设置到普通网页上下文中。这些逻辑部件被可操作地连接，从而数据能够根据需要在单个部件之间交换。这在图1中粗略地被说明。

更详细地，图1中的Web服务器的门户引擎基于基础的门户模型150和门户信息来实现门户组件120的聚合，所述门户信息例如是安全设置、用户角色、定制化设置以及设备能力。在呈现的页中，门户基于门户模型自动生成一组适当的导航元素。门户引擎在聚合期间根据需要并且当需要的时候调用门户组件，并且使用高速缓存以减少对门户组件作出的请求的数量。现有技术的IBM Websphere门户使用开放标准，例如Java门户组件API(应用编程接口)。它也支持经由WSRP标准使用远程门户组件。

门户组件容器135是能用于所有门户组件120的单个控制部件，它可以控制位于每个所述门户组件中的代码的执行。它为门户组件提供了运行时环境，并且便利了事件处理、门户组件间消息传递、以及对门户组件实例和配置数据的访问等等。门户资源140尤其是门户组件120本身以及页125，在页上门户组件以片段的聚合的形式被聚合。门户数据库128存储门户组件描述，这是详细的门户组件描述，其包含一些属性，例如门户组件名称、门户组件描述、门户组件标题、门户组件短标题、以及关键词；门户组件交互接口描述，其经常以WSDL文件的形式存储。门户数据库还存储门户内容结构，即门户页以及门户组件的层级结构，所述门户页可以再包含嵌套的页。基于例如关系表的现有技术，该数据以适当的表示存储在数据库128中。

前面提及的聚合逻辑115包括组装一个页所需要的所有步骤。典型地，这些步骤是从存储器加载内容结构，遍历它并调用在该结构中引用的实例，以便获得它们的输出，所述输出被组装到单个页。

内容结构可由管理员或者用户通过例如门户组件定制化来定义并存储在数据库中，或者通过其他方式，例如脚本、xml导入等等。

提供了图形用户界面部件160以便人工地控制多个呈现的页的布局。通过该界面160，门户管理员能够控制网页的可视外观。具体地，管理员能够决定在给定页上哪个门户被呈现在与哪个其他门户组件相邻的哪个位置。

特别关于本发明的焦点，门户之后的结构在图2中通过一旅游信息门户例子来说明。这样的现有技术的门户由门户页以及门户组件211-217的层级结构200组成，所述门户页见圆圈201到210，其可以再包含嵌套页，见201-206。这样的结构在此被一般地称作“内容结构”。当然，门户组件211-217并不限制在位于层级结构的同一级(如图2中说明的)；相反，它们每个分布在任何级。

参照图2和图3，更详细地，页201是门户的主页。主页201包括多个其它图形元素中的三条指向页202、203和204的链路。页202又包括指向页205的链路，页205转而又包含指向页207和208的链路。类似的结构对于指向页206、209和210的页204重复。类似结构能够附加在页203之下，它在此被抑制，以便增加附图的清晰度。

在该例子中，页207包括两个门户组件211、212。门户组件211示出了列车时刻表，并且门户组件212是当用户想要购买在线票时引导用户的门户组件。在页208之下，提供了与租车有关的门户组件213。另外在页208之下，提供了旅行计划门户组件214。此外，在页209之下，提供了机票预订门户组件215和新闻门户组件216。最后，在页206之下，提供了包括电话簿门户组件217的另一页210。

在现有技术中，如在图2中以简单的方式示例性说明的门户内容结构是由门户管理员和用户使用图1中的上述界面160来人工定义的。管理员编辑包含“列车时刻表”门户组件211的页207。在现有技术中，一般没有对配置内容结构的系统支持。

尽管图2中给出的内容结构被故意地保持简单，本领域技术人员将理解，当门户组件的数目和树的深度增加时，在门户的页上配置门户组件的任务不再是轻易的。

然而，一个典型的较大企业的门户包含大量的例如数以千计的页和门户组件。由于企业门户的复杂性，人工管理是没有效率的，因为它耗时、易于出错，因此也是昂贵的。另外，在复杂的门户中，由人类管理员捕获门户组件之间的完整的一组功能以及语义关系是不可能的；因此，管理员将经常不能适当地排列所有门户组件从便访问该门户的用户可以容易地找到所有那些紧密相关的门户组件。

当相关的一些门户组件例如分布于不同的页时，包括这些门户组件的复杂排列的门户组件的不适当的排列，导致了复杂的内容结构和困难的导航。这可能降低门户的有用性和用户的生产率，因为用户不得不在多个页间执行过多的切换，以便使用两个或者更多个功能相关的门户组件工作。此外，用户冒着未完成地结束他在门户上的访问的风险，例如，由于用户不知道树中更高两个页处的某个相关门户组件等待他去调用。

因此，基本上可以预见，在这种复杂的导航结构中，需要或者至少推荐额外的帮助工作台支持和用户训练。

发明内容

因此本发明的目的在于提供一种改进的方法和系统，其用于设计包括门户页以及门户组件的层级结构的Web门户，所述门户页以及门户组件用于访问经由该门户可访问的Web内容。

本发明的该目的是通过所附独立权利要求中陈述的特征来实现的。本发明进一步的有利安排和实施例在相应的从属权利要求中陈述。现在应参照所附的权利要求。

简言之，根据本发明的门户执行门户组件标记(markup)和/或门户组件描述的一些挖掘，以便自主地计算和提出增强的门户内容结构。这有助于提供很好地反映了这些门户组件之间的关系的用户友好的内容结构。这包括这样的任务，即将相关的门户组件邻近地排列，优选地是排列在同一个页上，因此更好地集成门户组件。这增强了用户的经验和生产率，因为它减少了导航操作的数目，尤其是页变化，也因为它呈现了相关门户组件的更加集成的视图。

所述挖掘揭示了这些门户组件之间的语义和功能的相似性。挖掘功能的结果是或多或少压缩形式的成组的门户组件。一个组由以下特征表征，即构成该组的门户组件之间具有相互关系。相互关系的接近程度可以由一个或者多个初始化参数来预设。现在这些组可以被获取，并且被人工地改进和编辑，以便更好的组织预先存在的内容结构。

根据本发明的最广方面，公开了一种在门户服务器处用于排列Web门户中的门户组件的方法，该Web门户包括门户页和门户组件的层级结构，该方法的特征在于包括以下步骤：

a)从位于所述门户的门户组件的门户组件标记和/或门户组件描述和/或门户组件交互描述，优选地从与该门户相关联的数据库或从对所述门户组件的请求，检索与所述门户组件相关的数据挖掘输入数据，

b)在所述数据挖掘输入数据上执行数据挖掘功能，从而产生揭示了在所述门户组件之间的相应语义的和/或相应功能的相似性的数据挖掘结果，

c)从所述数据挖掘结果计算新的内容结构，其中所述新的内容结构在所述页上排列语义上和功能上类似的门户组件，以及

d)提供具有所述新的内容结构的新页。

此外，有利地，门户组件排列软件可以实现在门户组件的所计算的排列被接受作为新的Web门户版本的基础版本的情况下接收管理员反馈的步骤。

此外，挖掘优选地包括执行相关门户组件的聚类(clustering)。

此外，有利地，门户组件排列软件可以执行接收包括在所述提供的网页结构上人工执行的修正的管理员反馈的步骤。

此外，计算新的门户组件排列的步骤基于迭代，并且开始于现有的门户组件排列。

此外，计算新的门户组件排列的步骤在新门户组件将被安装在页上的时候执行。

由此，能够得到以下优点：

首先，门户用户从增强的门户组件集成和简化的导航中获益。其次，门户管理员从内容结构的人工配置中解脱出来。

附图说明

本发明作为示例被说明，而且不限于附图中的图形，其中：

图1是一个示出了现有技术的门户服务器的结构部件的包括交互线的示意图；

图2是包括排列在层级树结构中的页(圆圈)和门户组件(矩形)的示意性和示例性门户结构；

图3是一个现有技术的示例门户的视图，示出了该门户的一个页(左侧)和构成所示页的一个门户组件的放大视图(右侧)；

图4是根据本发明的特定实施例的本发明的方法的控制流程的示意图，示出了在其中实现的功能部件；

图5是根据本发明的特定实施例的门户服务器的示意性框图，示出了在其中实现的结构部件；以及

图6到11示出了在本发明的方法中执行的挖掘功能内执行门户组件的聚类期间在各个不同的相继阶段中的簇(cluster)结构。

具体实施方式

一般参照附图，现在特别参照图4和图5，下面将更加详细地说明本发明的优选实施例。图5与图1的不同点基本在于，图5中提供了用于实现本发明的半自动排列门户组件的功能的控制块180。具体地，该逻辑包括所有相关的接口，以便访问门户数据库128、任何所需要的门户120，并连接到用户界面160。

该逻辑180实现下面的本发明的方法，该方法通过图4示出并且在下文中说明。

在图4中被示为框410的第一预备步骤框中，检索数据挖掘输入数据。优选的数据源是门户数据库128。优选地，收集下面的输入数据：包括一些属性的门户组件描述，所述属性如门户组件名称、门户组件说明、门户组件标题、门户组件短标题、以及关键词，门户组件交互接口描述，其经常以WSDL文件的形式存储，或者门户组件标记，例如HTML片段，可选地HTML和JSP源文件。

另一个数据源是门户组件本身：数据因此也能够从门户组件请求，例如，当前面提到的门户组件排列控制器180通过经由门户组件容器调用门户组件来从该门户组件请求标记的时候。

在步骤410的末尾，出现用于随后的数据挖掘步骤420的所有相关输入数据。

在框420，基于上面提及的在步骤410中收集的输入数据来进行数据挖掘。

对于该框420，可应用基本的现有技术中的数据挖掘技术。该数据挖掘功能包括现有技术聚类算法，其被应用到当前数据，并且返回相关门户组件的簇的层次结构。在随后的步骤430，簇层次结构被映射到内容结构。

简言之，聚类返回一组簇，即，所有簇的集合是所有门户组件的函数。正如本领域技术人员所知道的，聚类是将一组对象组合到相似对象的类中的过程。聚类的核心是确定单个对象之间以及多个簇之间的相似度(或者相异度)，其由距离值表示。

本发明的优选算法使用聚集层次聚类(agglomerative hierarchicalclustering)技术，其迭代地将相似的簇结合在一起。这在图4中的步骤422到428中被示出，并且将在下面更加详细地说明：

步骤422：本发明的算法通过将每个门户组件分配给一个簇来开始，从而如果有N(N可以是任意现实的数，例如200、500、1000等)个数目的门户组件，则最初有N个簇，每个簇只包含一个门户组件。对于每对簇，簇对之间的距离(下面将更详细地说明)与它们包含的门户组件之间的距离相同。

步骤424：在此，确定最近(最相似)的簇对。然后，它们被合并成单个簇，从而现在保留了数目减少(N-1)的簇。

步骤426：然后计算在所述新簇和每个老簇之间的距离。

然后执行循环条件428“距离值超过了预定距离阈值T吗？”，并且重复步骤424和426，直到距离值超出了该预定距离阈值T，即，继续该循环并且合并簇，以便其包含越来越多的门户组件作为组成员，直到根据用户定义的距离T，不再有能够在步骤424的再次迭代中可以合并的相似簇。值T由用户来选择，由此允许规定在两个簇之间的什么相似性处不应当进行这两个簇之间的合并。

应该指出，为了讲授目的，在循环的末尾(在至少一个迭代之后)执行结束该循环的检验；优选地，在实际应用中，该测试应该在循环的开始执行，从而也允许零迭代(即，允许根本没发生合并的情况)。

这样，该挖掘功能的最终结果通常是数目减少的簇，其中每个簇包括某多个相关的门户组件。

然后，在步骤430从挖掘结果计算新的内容结构。参照图2的图示，图2中给出的树结构被改写。基于该改写的树，计算新的门户结构，其中执行一个在单页上排列最上层相关的门户组件的附加步骤。然后在步骤440，该耦合到新的粗略的页布局的新的树结构被显示给管理用户，并且作为门户页怎样能够更好工作的基本提议被提出。

此外，可选地，管理者可以通过图1的界面160执行一些个人的重改写，并且可以根据这些新的优先级来触发本发明的程序进行改写。这样，在步骤450，还将反馈馈送到本发明的程序。

下面，在本发明中应用的距离计算更详细地说明如下：两个门户组件A、B之间的距离(A、B)是基于门户组件A和B的门户组件属性即门户组件描述和门户组件标记之间的距离。使用现有技术的文本处理和文本挖掘方法来计算属性对之间的距离，例如所谓的“TF-IDF加权”和余弦相似性度量(Cosine Similarity Measure)，例如参见Ricardo A.Baeza-Yates，Berthier Ribeiro-Neto，Modern Information Retrieval，Addison-WesleyLongman Publishing Co.，Inc.，Boston，MA，1999。

搜索词(TF)的出现频率在那里相关于特定于词的相关性被讨论，其被度量为词的逆文档频率(Inverse Document Frequency，IDF)。应用到本发明，前面提到的属性可被用作这样的词。该公开中提及的文件对应于与在此使用并在上文中提及的数据挖掘相关的全部数据源。

基于门户组件距离来定义簇间的距离。通过例如在完全连接(completelinkage)方法中合计X和Y中的门户组件对的距离值，来计算两个簇X、Y之间的距离D(X，Y)，其中通过计算两个簇中的门户组件对之间所有距离的最大值，来执行所述合计：

D(X，Y)＝max{d(A，B)，其中门户组件A在簇X中，门户组件B在簇Y中}

如果簇包含多个门户组件，那么就进行相应数目的计算。

或者可选地，可以计算平均距离。然后，通过计算两个簇中的门户组件对之间的所有距离的平均值，来执行所述合计：

D(X、Y)＝avg{d(A、B)，其中门户组件A在簇X中，门户组件B在簇Y中}

另外，优选地，本发明的簇距离值计算包含了试探法以防止过大的簇，过大的簇将导致过大的页。一个示例是将单个页上的门户组件数目限制到预定的最大数，例如6或者8。

此外，如果一检验指示两个簇的并集将是超大的，则在上面的算法中使用的簇距离计算可以被修改，以便增加簇间距离。该检验是基于两个参数的定义：

参数阈值1限制一个簇中的门户组件的数目。

参数阈值2限制对应于簇的页的大小。注意，页是从包含在给定簇中的门户组件的标记聚合的。

修改的距离D计算算法因此可以说明如下；在有用时伪码被添加在括号中：

首先，一个在簇X中、另一个在簇Y中的两个门户组件之间的距离D根据以下方法确定：

D＝合计{d(A、B)，其中门户组件A在簇X中，门户组件B在簇Y中}；

然后，确定被分配给簇X∪Y(X和Y的并集)的门户组件。

然后，执行检验：如果门户组件的数目大于预定的阈值(#门户组件＞阈值1)，则计算的距离D以预定增量来增加；

(D＝D+增量；返回D)

然后，检索X∪Y中的门户组件的门户组件预览标记；

然后，执行门户组件预览标记的聚合，这导致页预览；

然后，执行另一个检验：如果需要的页大小太大而不能显示所有门户组件的标记，即，大于预定阈值2，则计算的距离D增加，例如如下：

(如果大小(页预览)＞阈值2

D＝D+增量；返回D)

本领域技术人员将能够得出进一步的变型。

为了完全防止过大的页，参数“增量”至少被设置为预定阈值T。

从聚类计算新内容结构的步骤430可以如下实现：

首先，将簇层级结构映射到页层级结构，因此执行页和一个相应簇之间的双射映射。因此，页ID与簇ID对应。这允许将每个门户组件映射到一页。

步骤430的结果是新的内容结构模型，因此，能够得到修改的图2表示。

最后，根据所得到的内容结构模型来修改门户内容结构。这是通过将内容结构转换成适于存储在数据库(例如关系表)的表示，并将该表示写入到门户数据库中来实现的。随后的门户请求将基于该新的内容结构被处理。

这可以包括创建新页，去除废弃的页，并且将门户组件分配给页。

接下来，参照图6到11，给出了自动排列门户组件的一个示例，其中只有门户组件标题和门户组件关键词被用作数据挖掘输入。

此外，使用高度简化的距离计算以便增加清晰度：

如果门户组件A和B具有至少两个通用关键词

那么距离d等于1：d(A，B)＝1

否则，如果门户组件A和B具有至少一个通用关键词

那么距离d等于3：d(A，B)＝3

否则

距离d等于5：d(A，B)＝5

图6揭示出：

d(列车时刻表，旅行计划)＝3(通用关键词为：“旅行”，“时间”)

d(列车时刻表，车票)＝3(通用关键词：“旅行”)

d(列车时刻表，电话簿)＝5(没有通用关键词)

上面提到的完全连接距离计算得出：

D(X，Y)＝max{d(A，B)，其中门户组件A在簇X中，门户组件B在簇Y中}。

对于每个门户组件，本发明的程序部件指示作为页的百分比的门户组件窗口大小(即，屏幕大小)。因此，例如，门户组件列车时刻表需要50％的页，从而在同一页上留下50％给其他门户组件。

为了防止超大的页，增量被设置为：

增量＝max(D)+1＝6，即，高于每个门户组件距离值。

本发明的层级聚类算法将开始于图6给出的簇结构。在图6中，存在7个初始簇，它们等同于图2的门户组件211到217。因此参照回到图2。对于每个门户组件211到217，图6中给出的关键词被从上面提到的数据挖掘数据源中抽取出，在该示例中所述数据源是门户组件描述、门户组件的交互接口描述以及门户组件的标记。此外，对于每个门户组件，做出以占页的比例表示的门户组件大小的附加指示。例如，列车时刻表门户组件211具有屏幕的50％大小。

参见图4，对于每个迭代都运行步骤422到428的序列。步骤422在起始运行或者首次迭代中产生如图6给出的簇结构：每个门户组件与单个簇相关，即，簇的数目和门户组件的数目是相等的。然后在步骤424，最近的簇被发现和合并。该步骤通过如上面给出的距离计算的帮助来执行。这样就得到了图7所给出的簇结构。在此，门户组件211和214被合并，因为如上面计算的它们的距离是1，这是因为它们具有两个通用关键词，即“旅行”和“时间”。

然后，执行步骤426，其中每个簇和合并的簇之间的距离被计算。然后在步骤428，检验是否存在任何相似的簇。在此，与上面给出的那样，执行簇-簇的距离计算。在步骤428中，相应的判断得出存在相似的簇。因此，在“是”分支中转回到步骤424，以进入迭代2。迭代2发现，火车票簇212和租车簇213是相似的，并且被结合在一起，即被合并。然后根据图4给出的算法进入下一个迭代。

对于迭代3，图9是相关的：本发明的程序部件计算簇71和门户组件215“机票预订”之间的距离，这显示出：

D(簇71，机票预订)＝1+增量＝1+6＝7

在假设大小限制包括增量以避免必须使用超过100％的屏幕来显示一完整的页的情况下，执行该计算。在这里这是真实的，因为门户组件211和214需要80％的页，这太大了而不能额外再集成继而具有屏幕30％的大小的机票预订门户组件215。这样，将得到页的110％的总大小，这导致增量被加到上面的距离计算中。这种大小限制增加了门户组件215和簇71之间的有效距离。

接下来，簇72和门户组件215之间的距离被计算为1，即D(簇72，门户组件215)＝1。此外，其他的距离也被计算：D(门户组件215，门户组件21)＝5；D(门户组件215，门户组件217)＝5。当门户组件215和与它具有最近距离的簇合并时，门户组件215将与簇72合并。

图10示出了从迭代4出现的下一个簇结构。在该迭代中，门户组件216和217被合并，以便得到簇73。应该指出，这些是不具有通用关键词的门户组件。

在此时，不再有能够被合并的簇，这主要是因为每个合并操作将产生过度大的页(消耗多于100％屏幕)。然而，可以将新创建的簇看作是自动产生的新门户组件，每个都包含有到簇成员的一组链接，并且每个都从它的簇成员继承关键词。现在本发明的程序部件可再次重运行该算法，这次是在生成的簇上运行。然而，这次，过程将在一个步骤之后完成，得到如图11所示的两层结构：具有簇71、72和73作为成员的新簇74。

本发明的方法能够被广泛地变型。例如，可以引入门户组件交互因子，以便反映某些门户组件的相互关系，尤其是输入/输出依赖性。

为此，修改聚类算法来认可某些门户组件能够交互的事实。这是通过分析门户组件交互接口描述(WSDL文件)和门户组件标记来完成的。从该预先的分析中，从门户组件的总集合中抽取一组或者多组交互的门户组件。不同的组一般将不共享通用门户组件。

当确定了交互时，则在为这些门户组件计算距离值时，将这个事实作为一个(迭代)参数输入到计算中。

这是通过为两个门户组件计算“迭代因子”的算法来完成的。该算法从一个中性值开始，并且如果门户组件X能够处理由门户组件y公布的属性，则增加在门户组件X和门户组件Y之间的迭代因子(IFAC)。这意味着，该算法在门户组件X的接口描述和包含引用交互操作的JSP标记的门户组件Y的标记之间执行了交互匹配：

该算法可基于以下步骤序列：

IFAC＝1

X_in＝{x|属性x在门户组件X的交互接口描述中作为输入属性被引用}

X_out＝{x|属性x在门户组件X的交互接口描述中作为输出属性被引用}

Y_in＝{y|属性y在门户组件Y的交互接口描述或者标记中作为输入属性被引用}

Y_out＝{y|属性y在门户组件Y的交互接口描述或者标记中作为输出属性被引用}

iff0<>{X_in∩Y_out}，那么IFAC＝IFAC+增量

iff0<>{X_out∩Y_in}，那么IFAC＝IFAC+增量

例如，两个门户组件A和B，增量＝2：

A和B不交互：这导致IFAC＝1

A从B接收属性：这导致IFAC＝3。

B从A接收属性：这导致IFAC＝3。

A从B接收，B从A接收：这导致IFAC＝1+2+2＝5

所述距离值反而依赖于该迭代因子。

在另一实施例中，新内容结构被单独地存储在门户数据库128中(图1)，即，当前内容结构没有被修改。修改聚合部件115以便当门户组件用户登录到门户或者当用户请求页时执行检验。该检验检测所请求页的新内容相比于当前内容结构是否被修改。如果该检测得到“修改”，则聚合部件115计算当前内容结构和新内容结构之间的差别，根据这些改变来准备用于选择性地适应调整当前内容结构的操作，并把用于调用所述操作的链接插入到页标记。因此，向用户呈现链接，通过它用户能够增强页结构，例如给页添加语义上或者功能上相关的门户组件。当用户调用相应连接时，就改变当前的内容结构。在该实施例中，用户完全地控制对内容结构的任何变化。

例如，这能够如下地实现：

在处理由客户发出的请求期间，第一个步骤是得到由客户请求的页的页标识。使用现有技术来处理该页。

然后本发明的程序部件180使用现有技术来检索页的当前内容结构。然后它从门户数据库检索新的内容结构。

然后它比较当前内容结构和新的内容结构。

对于只包含在新内容结构中的所有门户组件，执行下面的整个过程：

首先，本发明的程序部件创建一个URL，包括当前页、新门户组件以及操作类型即“增加门户组件”的标识。注意，URL创建是通过现有技术执行的。

对于只包含在当前内容结构中的所有门户组件，执行下面的整个过程：

首先，它创建一个URL，其包括当前页、相应的门户组件以及操作类型即“去除门户组件”的标识。在此，同样地，URL创建是通过现有技术执行的。

然后它将所述URL包括到返回给客户的标记中。

客户可以发出上面提到的URL给门户。门户将使用现有技术来处理包含在URL中的操作，即，增加指定的门户组件或者去除该门户组件。

本领域的读者将理解，示出了某些过程和提议的步骤序列的前述实施例主要是为作为示例示出本发明的方法而给出的。因此，将可理解，这些示例可以在很多方面改变，例如步骤的顺序、步骤间并行化的程度、单个步骤的执行细节、数据存储的形式、如何实现门户组件分组的方式，等等，并且能够得到相应的另外的实施例。

本发明能够以硬件、软件或者硬件和软件的组合的形式来实现。根据本发明的门户组件排列工具能够在一个计算机系统中以集中的方式来实现，或者以分布式的方式实现，在该分布式方式中，不同的单元分布在几个互连的计算机系统上。任何适于实施在此说明的方法的计算机系统或者其他设备都是合适的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统，当该程序被加载和执行时，其控制该计算机系统来实现在此说明的方法。

本发明还能够嵌入到计算机程序产品中，该包括使能执行在此说明的方法的所有特征，并且当被加载到计算机系统中时，其能够执行这些方法。在本文中，计算机程序方法或者计算机程序意指以语言、代码或者符号表示的一组指令的任何表达，所述指令旨在使得具有信息处理能力的系统来直接地或者在a)转换为另一语言、码或者符号；b)以不同材料形式重现之一或者两者之后执行特定功能。

Claims

1.一种用于在包括门户页(125)和门户组件(120)的层级结构的Web门户中排列门户组件的方法，其特征在于包括以下步骤：

a)从位于所述门户的门户组件的门户组件标记和/或门户组件描述和/或门户组件交互描述中检索(410)与所述门户组件(120)有关的数据挖掘输入数据，

b)对所述数据挖掘输入数据执行(420)数据挖掘功能，从而产生揭示在所述门户组件(120)之间的相应语义的和/或相应功能的相似性的数据挖掘结果，

c)从所述数据挖掘结果计算新的内容结构，其中所述新的内容结构在所述页上排列语义上和功能上相似的门户组件，以及

d)提供(440)具有所述新的内容结构的新页。

2.根据权利要求1的方法，还包括以下步骤：接收管理员反馈，通知门户组件的所述计算的排列是否被接受作为新的Web门户版本的基础版本。

3.根据权利要求1的方法，其中所述挖掘包括执行将相关的门户组件A、B聚类到簇X、Y中，其中门户组件A在簇X中，门户组件B在簇Y中。

4.根据前述权利要求的方法，其中在簇X和另一不同簇Y之间的簇间距离D通过合计所述簇X和所述簇Y之内的门户组件A、B对的距离值来定义，且其中提议符合预定网页布局要求的页，所述网页布局要求包括用于在单个网页上表示的门户组件(120)的预定距离阈值。

5.根据前述权利要求的方法，其中页布局提议依赖于从包含在簇X和簇Y中的门户组件(120)聚合的标记的可视表现的大小和图形。

6.根据前述权利要求的方法，其中通过计算位于两个不同簇内的所有现有门户组件对之间的最大距离，来计算簇距离D，根据：

D＝max{d(A，B)其中门户组件A在簇X中，门户组件B在簇Y中}，d是门户组件间的距离。

7.根据权利要求4的方法，其中通过根据下式计算位于两个不同簇内的所有现有门户组件对之间的距离的平均值，来计算所述簇距离D：

D＝avg{d(A，B)，其中门户组件A在簇X中，门户组件B在簇Y中}，并且d是门户组件间的距离。

8.根据权利要求3的方法，其中如果门户组件A能够处理由门户组件B公布的属性，则门户组件A和门户组件B之间的交互因子(IFAC)被增加，并且门户组件A和门户组件B之间的所述距离基于所述迭代因子来计算。

9.根据权利要求1的方法，还包括接收管理员反馈的步骤，所述反馈包括在所述提供的网页结构上人工执行的修正。

10.根据权利要求1的方法，其中所述计算新的门户组件排列的步骤是基于迭代，并且开始于现有的门户组件排列。

11.根据权利要求1的方法，其中所述计算新的门户组件排列的步骤在新的门户组件将被安装在页上的时候执行。

12.根据权利要求1的方法，还包括以下步骤：

与现有内容结构相分离地存储所述新的内容结构，

根据预定的用户操作，确定导致了所述新的结构的所述现有结构的修改，以及

提供这样的用户输入控制，其用于根据所述修改选择性地适应调整现有结构和相应的网页布局。

13.一种门户服务器计算机系统，其特征在于包括输入界面(160)，用于处理从基于所述排列-计算的新的网页结构中导出的网页布局。

14.一种用于在包括门户页和门户组件的层级结构的Web门户中排列门户组件的系统，其特征在于包括适于执行权利要求1-12中任何一个的方法的每个步骤的装置。