CN1773492A

CN1773492A - 组织多个文档的方法以及显示多个文档的设备

Info

Publication number: CN1773492A
Application number: CNA2004100923696A
Authority: CN
Inventors: 苏中; 张俐; 潘越; 白莉; 杨力平
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-11-09
Filing date: 2004-11-09
Publication date: 2006-05-17
Anticipated expiration: 2024-11-09
Also published as: CN100462961C; US20060101102A1

Abstract

本发明涉及组织多个文档的方法以及显示多个文档的设备。通过对大量文档进行聚类分析，依据聚类分析结果将各层次的类显示为虚拟目录，从而帮助用户快速导航到所要找的文档。可以借助于主题和摘要进行导航。还可以通过将显示内容控制在屏幕大小之内以减少用户的操作次数。

Description

组织多个文档的方法以及显示多个文档的设备

技术领域

本发明涉及大型文档集合的处理，尤其涉及组织多个文档的方法以及显示多个文档的设备。

背景技术

随着因特网的发展，因特网上的内容正在迅速膨胀。搜索引擎是帮助人们在因特网上寻找想要的信息的最为有力的工具。但是，获取有用的信息看来越来越困难，因为信息量实在太大。用大多数关键词都会检索出成堆的相关项目，而事实上人们甚至都没有耐心将它们都瞥上一眼。

同样，浏览大型文档集合，例如浏览文件系统中的文档，或者浏览调阅或者检索数据库得到的文档，对于用户来说也是困难而费时的任务。

这就提出了一个问题：如何以最有效的方式组织大量文档，进而以最佳的浏览效率显示海量的项目。这个问题常常存在于搜索引擎网址、电子商务网址和其它大规模网址中，也会存在于单机中，例如硬盘上的文件系统，或者浏览光盘数据库时。

搜索引擎可以容易地找到成百上千的相关项目。但是，在一个HTML页面上只能显示有限的项目。传统的搜索引擎使用的显示方法包括：

增加一个HTML页面上的内容；

增加超链接；

增加页面数量。

但是上述方法无一能够真正提高用户的浏览效率。浏览器上超长的HTML页面需要用户按翻页键或者用鼠标拖动滚动条来察看该页面的其余部分。同样，点击超链接也会增加页面数量。尽管搜索引擎已经对搜索结果项目进行了排序，但是用户仍然常常不能从前几页中找到想要的项目。研究发现，大多数人在第6页之前就失去了耐心。因此，实际上，第6页之后的结果项目基本上毫无意义。某些网址(例如Google)使用页号，以便用户能够跳转到特定页而不用一页一页地看。但是，如果不知道项目的分布情况，用户只能随机地选取页面，这基本上不能提高显示效率。

在单机上浏览大量文件时存在同样的问题：用户必须不断地翻页。

无论是在单机上，还是在搜索引擎中，在现有技术中都存在用目录(或者文件夹，或者超链接)来管理对象的方法。但是这种目录是预定的，无法预计目录中可能出现的文档会有多大的数量，因而也是常常包括海量的文档，无法有效地浏览。

发明内容

为了解决上述问题，本发明的一个目的是提出一种组织多个文档的方法，该方法可以作为更有效率地显示文档的基础。

进一步，本发明的目的是提出一种有效率地显示文档的方法和设备。

为了达到上述第一个目的，本发明提出了一种组织多个文档的方法，包括：对所述的多个文档进行聚类分析；按照聚类分析的结果，将具有共同特征的文档分别组织为一个类；对所产生的类中所包括的文档进行聚类分析，将具有共同特征的文档分别组织为更小的类。

为了达到上述第二个目的，本发明提出了基于上述文档组织方法的文档显示方法，在用户界面上将各级类显示为虚拟文件夹或者目录，它包括下一级的类的虚拟文件夹或者目录，最低级的类的虚拟文件夹或者目录包括文档标题。

其中，可以由用户指定，或者可以由用户设备根据显示设备的显示设置和显示的内容自动确定，各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，其中，如果某一最低级别的类中的文档数量大于其上限，则对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限；如果全部文档数量少于所述上限，则直接显示文档标题。根据本发明，最好每一个显示页面仅显示直接从属于同一上层类的类或者文档标题，并且在需要进行该页面的显示之前不进行该页面的内容的聚类分析。

根据一种优选实施方式，在接收到显示命令时，首先显示最高层次的类或者文档标题的显示页面；当某一个类被选择时，则对该类所包含的文档进行聚类分析，并按照聚类分析结果显示该类所包含的类或者文档标题；当某一个文档标题被选择时，则显示该文档的内容。

根据一种优选实施方式，所述各上限值被确定为使得显示类或者文档标题的每一个显示页面的内容能够被完全容纳在显示屏幕中。

此外，可以在相应的位置同时显示各类的或者文档的主题，其中，主题由相应的类或者文档的基于聚类分析得到的特征向量中具有最大权重的预定个数的特征构成。可以根据上一级的类的主题，修正所述类或者文档的主题。

还可以在相应的位置同时显示各类或者文档的摘要，其中，根据句子中各关键词的基于聚类分析得到的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。可以根据上一级的类的主题和/或摘要，修正所述类或者文档的摘要。

根据一种优选实施方式，可以使用主题分析所得到的主题词来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。

为了实现上述第二个目的，本发明还提供了一种显示多个文档的设备，包括：聚类分析装置，用于对所述的多个文档进行聚类分析，按照聚类分析的结果，将具有共同特征的文档分别组织为一个类；并对所产生的类中所包括的文档进行聚类分析，将具有共同特征的文档分别组织为更小的类；显示设备，用于在用户界面上动态显示所述多个文档、文档标题或者类；以及控制装置，用于控制所述显示设备将各级类显示为虚拟文件夹或者目录，虚拟文件夹或者目录包括下一级的类的虚拟文件夹或者目录，最低级的类的虚拟文件夹或者目录包括文档标题。

根据本发明，可以更有效率地组织文档，以利于更有效率地显示和浏览。

附图说明

下面将结合附图描述本发明的优选实施例。在附图中：

图1是本发明的文档组织方法形成的举例的树结构；

图2到图5是举例的屏幕显示内容，用于说明本发明的文档显示方法的一种优选实施例；

图6是用于说明根据本发明的文档显示方法的一种优选实施例的操作步骤的流程图；

图7是用于说明根据本发明的文档显示设备的一种优选实施例的结构示意图；

图8是用于说明图7中的文档特征库的管理的示意图。

具体实施方式

本发明的基本思想，是在下述意义上最大化浏览效率：用最少的操作找到一个文档项目。为此，文档项目的组织不再是扁平的，而是使用聚类分析方法组织为有向图。在此基础上，文档项目的显示也可以不再是扁平的。

图1是本发明的文档组织方法形成的举例的树结构。在该方法中，对大量文档的集合(文档集合)进行聚类分析。作为例子，图1中图示为将文档集合聚集为3类：A聚类，B聚类和C聚类。也就是，文档集合中所有的文档都属于这三个聚类，每一个聚类中的文档具有共同的特征。对于所述每一聚类所包括的文档，还可以进一步进行聚类分析，将具有共同特征的文档分别组织为更小的类。例如，作为举例，A聚类可以再次通过聚类分析划分为Aa聚类、Ab聚类和Ac聚类，B聚类可以再次通过聚类分析划分为Ba聚类、Bb聚类、Bc聚类，依此类推。最低层次的聚类，在本例中，例如Aa聚类，所包含的对象就是最终的文档，或者说是文档标题(例如文档Aa1、文档Aa2和文档Aa3的标题)，文档标题指向文档的内容。显然，很容易理解，上述每一层次的聚类数量可以是任意的，聚类层次的数量也可以是任意的。另外，为了简明起见，图中没有图示每一个最低层次聚类的所有文档标题。

另外，图1所示为将文档集合进行聚类分析，形成一个逻辑树结构。但是，聚类分析结构不仅仅包括树，而可以是任何有向无环图(nocircle direct graph)(每一个聚类是无环有向图的节点)。例如，同一个文档可以被聚到不同的聚类中。类似的，同一个低层次的聚类也可以被聚到不同的高层次的类中。无环有向图可以自动生成或者预先手工设计。

聚类分析(Clustering)是数据挖掘领域中的一种无监督的学习方法。假设目标聚类数量为N，聚类分析算法能够将输入的数据集，比如一组文档特征，分到N类中。每一个聚类具有代表性特征向量(Represented feature vector)。通过比较文档特征与代表性特征向量，可以判断该文档属于哪一个聚类。聚类分析方法可以是利用计算机实现的自动聚类分析技术或者手工实现的聚类分析方法。用计算机实现的自动聚类分析技术包括自动生成聚类结构的聚类分析技术，以及具有预先设计的聚类结构的自动分类技术。聚类分析技术可以包括分级聚类技术比如单链路(single-link)聚类分析、全链路(complete-link)聚类分析以及组平均(group-average)聚类分析等。自动分类技术可以包括自然贝叶斯分类(naive Bayes categorization)、SVM(支持向量机器，support vector machine)分类、KNN(最近K个邻元素，K-Nearest Neighbour)分类，等等。

本发明可以使用多种现有技术的聚类分析方法。下面说明一种最基本、最简单的聚类分析方法。

用D表示文档集合，它由一组文档构成。提取D的每一个文档di(i为自然数，表示文档序号)的特征向量fi。那么，每一个文档di可以用特征空间中的向量表示。

特征提取方法也是现有技术中成熟的方法，可以有多种形式。在自然语言处理领域，特征就是文档中的关键词。所有从文档集合中提取出来的特征构成特征空间。每一个关键词代表一个维度。特征提取是为了将普通文本转换为向量空间中的一个数据点。一般而言，首先将普通文本分割为标记(标记可以是单词或者短语)，然后从标记列表中删除无用词(比如″am″″is″″are″)。用剩下的标记表示文档向量。最简单的方法是使用二值向量，也就是，对于每一个维度，如果该单词在文档中出现，则该维的值为1，否则为0。也有许多更为复杂的方法来进行转换，比如用浮点值来表示一个词条对文档的重要性，这样的特征值可以表示为tf*idf，其中tf为该词条在该文档中的频率，idf则表示包含该词条的文档在整个文档集合中的频率的倒数。

在本说明书及权利要求书中，作为聚类算法的基础，特征提取是作为聚类分析的一部分。但是，在具体实现时，可以预先作为对文档集合的预处理进行特征提取，将文档的特征(特征向量)存储在专门的文档特征库(见图7)中。显然，文档集合在很多情况下是动态变化的，比如增加文档、某些文档的内容被修改、删除文档等。此时，就需要对文档特征库进行相应的维护：提取新增加的文档文本的特征并将特征添加到文档特征库中(图8A)，提取修改的文档文本的特征，并相应修改文档特征库中的相应特征(图8B)，或者删除文档库中的特征(图8C)。

但是，在具体实现时，在很多情况下仍需要将特征提取完全集成在聚类分析中。这样，当处理没有进行所述预处理的文档集合时，就可以从特征提取开始进行聚类分析。

如上所述，现有技术中有很多聚类算法。下面给出一种简单的聚类算法K平均(K-means)算法的实现。该算法由用户给定最终的聚类个数k，将数据集合分割为k个类。每一类由其重心或与重心最近的点(特征向量)表示。每个点都被分配给离它最近的重心点所表示的那一类。通常，算法开始于一种初始分割，通过控制策略优化聚类质量，迭代地对数据进行分割，直到某一状态满足条件为止。下面是该算法的简单流程：

1.假设要聚成K个类。由人为决定K个类重心Z₁(1)，Z₂(1)，...，Z_k(1)。

2.在第k次叠代中，样本集{Z}用如下方法分类：

对所有i＝1，2，..，K，i≠j

若‖Z-Z_j(k)‖＜‖Z-Z_i(k)‖，则Z∈S_j(k)

3.令由上述第2步得到的S_j(k)的新的类重心为Z_j(k+1)，使

J_{j} = \underset{Z &Element; S_{j} (k)}{Σ} | | Z - Z_{j} (k + 1) | |^{2}

(j＝1，2，...，K)最小，得到：

Z_{j} (k + 1) = \frac{1}{N_{j}} \underset{Z &Element; S_{j} (k)}{Σ} Z,

N_j为S_j(k)中的样本数。

4.对于所有的j＝1，2，...，K，若Z_j(k+1)-Z_j(k)足够小，则该聚类分析结束，否则返回上述第2步。

需要注意的是，类数也可以不由人来确定，而由聚类分析算法根据预定的策略或者条件来确定。这方面也有现成的现有技术可用。

上面描述了一种新的文档组织方法，使得项目的组织不再是扁平的，而是使用聚类分析方法组织为有向图。这种组织方法可以更有效地管理文档，尤其可以作为本发明提出的更为有效地实现浏览的文档浏览方法的基础。

下面描述该文档浏览方法。

根据本发明，基于上述处理的结果，在用户界面上将各级类显示为虚拟文件夹或者目录，它包括下一级的类的虚拟文件夹或者目录，最低级的类的虚拟文件夹或者目录包括文档标题。如图1所示，可以将其中的最高层聚类(A-C聚类)到最低层聚类(Aa，Ab，...Cb，Cc聚类)作为虚拟文件夹或者目录显示在用户界面上，并/或者可以将文档标题和/或文档内容显示在屏幕上。显然，与普通的目录(文件夹)管理一样，例如可以在屏幕的左半部分显示各层虚拟目录，在屏幕的右半部分显示当前最低层次目录的内容；或者，左边可以一直显示到文档标题，而右边直接显示文档内容。同样，与普通的目录管理一样，各层虚拟目录构成的树可以被展开或者折叠。

如本发明的背景技术部分所述，现有技术中的翻页问题让人不胜其烦。为了解决这个问题，根据本发明的优选实施例，可以由用户指定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，其中，如果某一最低级别的类中的文档数量大于其上限，则对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限；如果全部文档数量少于所述上限，则直接显示文档标题。这样做的目的是确保每一层次的项目(聚类(虚拟文件夹)或者文档标题)的数量不至于很大，例如可以显示在用户界面的一个屏幕当中而不必翻页。仍然见图1，例如可以将所述上限设置为3(当然也可以设置为例如10)，这样，当所有低层次的虚拟目录都被折叠时，例如当用户首次浏览该文档集合时，所有最高层虚拟目录就能确保显示在一个屏幕中。进而，当用户希望查看某个虚拟目录(例如A聚类)而展开其子虚拟目录(Aa到Ac聚类)，也能确保它们能够显示在一屏中。依此类推。

根据本发明，上述上限的设置也可以由用户设备根据显示设备的显示设置和显示的内容自动进行。这种方式显然是有益的，因为除非有很丰富的经验，用户通常无法正确地估计一屏能够显示多少内容，因而不能实现最佳的浏览效率。具体来说，该自动设置操作需要考虑以下因素：屏幕(或者说显示区)的大小，显示分辨率，显示字体大小，以及即将显示的内容。显然，在知道这些因素的前提下，计算每一屏能够容纳的类数或者文档标题数是本领域普通技术人员容易进行的工作。

但是，如果由于某些因素，例如，如果不是对每一个类或者文档标题固定显示内容的大小，而是完全显示相关的文档标题或者下面即将描述的主题或者摘要，则有可能造成某一个显示项目占据的显示区超出预期，此时则需要对所述上限作出调整。例如，如果用户显示设备按照默认情况设置了一个上限，例如每屏10个项目，但是在某一屏显示时发现10个项目超出了一屏，则用户显示设备将上限修正为9，依此类推，直到一屏能够显示所有内容。

进一步，为了进一步提高浏览效率和屏幕的利用效率，或者在具有不同使用习惯的情况下(例如，在因特网浏览中，更习惯将项目组织为超链接，而不是象在单机的资源管理器中那样组织为目录树)，可以使每一个显示页面仅显示直接从属于同一上层类的类或者文档标题。图2到图5图示了在这种情况下用户界面上的显示区的情况的例子(这个例子系基于图1的例子)。当接收到显示命令时，也就是当用户开始浏览文档集合时，例如浏览搜索引擎的搜索结果(搜索结果是搜索引擎临时组织起来的一个文档集合)时，首先呈现给用户的是图2的显示屏幕，其中列出了指定数量(用户指定或者用户设备自动确定的数量，例如3个)的最高层次的聚类(A-C聚类)及其主题(关于主题将在下文予以说明)。

当用户选择某一个聚类例如A聚类时，则显示该A聚类所包括的Aa-Ac聚类的屏幕(及其主题)(图3)。类似地，如果继续选择Aa聚类，则显示其包括的文档标题Aa1到Aa4(以及主题)(图4)。最后，如果用户选择某一文档，例如Aa2文档，则显示其正文(图5)。

显然，取决于文档集合中的文档数量、文档的特征以及上面所设定的上限，最终的聚类层数是不一定的。这里所图示的例子是2层聚类，但是也可以有更多或者更少的层数。当文档数量少到可以在一屏显示其标题(以及主题)时，则一开始显示的屏幕就直接显示所述文档标题(以及主题)。

为了节约计算资源和时间，在上面的显示过程中，在需要进行某页面的显示之前不进行该页面的内容的聚类分析。仅当需要显示该页面时才对其进行聚类分析。具体来说，例如在图1中，一开始仅显示最高层次的聚类A-C聚类，仅当用户要展开A聚类时，才对A聚类所包括的文档进行进一步的聚类分析，并将聚类分析结果Aa-Ac聚类显示出来，而不对B聚类和C聚类所包括的文档进行进一步的聚类分析。在图2到图5中是类似的情况，在图示的例子中，也是仅对A聚类进行了进一步的聚类分析，而没有对B聚类和C聚类所包括的文档进行进一步的聚类分析。

如上文已经提到的，可以在相应的位置同时显示各类的或者文档的主题，这样用户可以根据其主题词条浏览感兴趣的聚类。

主题探测方法也是现有技术中已有的方法，存在多种形式。例如，JP2000259666(“Topic Extraction Device”，Ichiro等人)就公开了一种主题提取系统。其中，特定聚类的主题由该聚类的文档中出现频率高的名词短语表达，根据这些名词短语对文档进行排序以提供给用户。

在本发明中，主题的生成也可以基于在聚类分析中所得到的特征向量。也就是，对于要生成主题的某个类或者文档，将聚类分析所得到的特征向量中的每一维的值进行快速排序，用特征向量中预定个数具有最大权重的词条作为该类或者文档的主题。

可以根据上一级的类的主题，修正所述类或者文档的主题。例如，由于用户已经知道上一级的类的主题，在下一级的类或者文档中重复该主题没有意义，相反却导致用户时间的浪费。因此，在生成下一级类后者文档的主题是，可以首先剔除上一级的类的主题词的部分或者全部。

进一步，可以用摘要替代上述主题，或者在主题之外同时显示摘要。现有技术中也有很多生成单个文档或者多个文档的摘要的技术可供本发明使用。

在本发明中，可以用上述主题的主题词来配置摘要生成装置。也就是，根据上述主题包含的主题词的权重来计算聚类中或者文档中每一个句子的权重，然后选取具有最大权重的预定个数的句子组成摘要。在计算句子的权重时，还可以考虑句子的长短，以及句子的频率，等等。

在本发明中，摘要的生成也可以与主题的生成无关，而是根据聚类分析的结果在聚类或者文档的特征向量中另外选取预定个数的具有最大权重的特征作为用于生成摘要的关键词，基于这些关键词计算句子的权重，进而生成摘要。

类似于主题的生成，可以根据上一级的类的主题和/或摘要，修正所述类或者文档的摘要。例如，降低上一级聚类的主题或者摘要的内容在当前要生成的摘要中的重要性，比如全部或者部分剔除已经在上一级摘要出现的句子，或者在配置摘要生成装置时部分或者全部不考虑上一级聚类的主题词，等等。

上面说明了本发明的文档组织方法和文档显示方法的各种实施方式。图6中图示了本发明的方法的一个最优的实施方式(包括上面所说明的绝大多数技术特征)的具体工作步骤的一个例子。

如图6所示，在步骤S1，用户通过一个操作(一个“操作”可以是一次鼠标点击、鼠标拖动、键盘击键、语音命令等)发出浏览某一目录的命令。该命令可以是用户为了浏览某个真实目录的命令，也可以是浏览某一虚拟目录(例如图1到图5中的A聚类、Aa聚类，等等)的命令。该命令还可以是其它类似命令，例如使搜索引擎执行某个搜索的命令。

在步骤S2，基于显示设备的显示设置(以及要显示的内容)，或者基于用户的选择，确定每一屏要显示的类数或者文档数N。

在步骤S3，将N与该目录所包含的文档数进行比较，如果N大于文档数，则在步骤S4，对每一篇文档生成摘要(和/或主题)。如果文档所在的目录是根据本发明的虚拟目录，则根据该虚拟目录的特征(比如特征向量、主题、摘要等)修正每一篇文档的摘要(和/或主题)内容，并在步骤S5予以显示。

如果步骤S3的比较结果是N小于文档数，则在步骤S6对该目录中的所有文档进行聚类分析，聚为N类，然后在步骤S7在用户界面上创建N个虚拟目录，将相应的文档放入相应的虚拟目录中(步骤S8)。然后，可以根据每一类的特征向量来选取关键词，形成标识相应虚拟目录的主题(步骤S9)，还可以对每一个虚拟目录生成更为详细的摘要(步骤S10)，然后在用户界面上显示有关内容(步骤S11)。

当用户根据用户界面上显示的内容选择某一个虚拟目录时，则从步骤S1开始迭代执行。

请注意，如前文结合图1到图5所述，上面的步骤并不都是必不可少的，顺序也可以加以调整。例如，可以没有步骤S2、S3、S4和S5而进行自动的聚类分析。或者，可以在步骤S1之前已经确定了固定的N，因此没有步骤S2。另外，生成主题或者摘要的步骤S4和S9、S10都不是必须的。再者，作为文档组织方法，则只需要将步骤S6和S8迭代执行，视情况，也可以有步骤S2，还可以有步骤S3。

相应于上述方法，本发明还提供了一种显示多个文档的设备。图7所示为该设备的最优实施例，用于实现上述文档显示方法的最优实施例。它包括如下部件：

1.聚类分析装置4，用于对文档库1中的多个文档进行聚类分析，按照聚类分析的结果，将具有共同特征的文档分别组织为一个类；并对所产生的类中所包括的文档进行聚类分析，将具有共同特征的文档分别组织为更小的类。作为聚类分析结果的各类的特征向量可以被保存在类特征库5中。作为聚类分析装置4的一部分，或者作为独立于聚类分析装置4的预处理装置，可以由特征提取装置2对文档库1中的文档进行预处理，得到的文档的特征向量被保存于文档特征库3中。

2.显示设备8，用于在下述控制装置7的控制之下，在用户界面上动态显示所述多个文档、文档标题或者类。基于所述控制装置7的控制，显示设备8还可以在相应的位置显示各类的或者文档的主题和/或摘要。主题和摘要分别由如下所述的主题生成装置6和摘要生成装置9生成。

3.用户输入设备10，用于由用户指定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限。

4.显示参数配置装置11，用于根据显示设备8的显示设置和要显示的内容确定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限。所述上限值可以被确定为使得显示设备8显示类或者文档标题的每一个显示页面的内容能够被完全容纳在显示设备8的显示屏幕中。

5.主题生成装置6，用于基于聚类分析的结果，根据各类或者文档的特征向量中具有最大权重的预定个数的特征生成各类或者文档的主题。该主题生成装置6在生成类或者文档的主题时，可以被配置为根据上一级的类的主题修正所述类或者文档的主题。

6.摘要生成装置9，用于根据所述主题生成装置6生成的主题包含的主题词的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。该摘要生成装置9或者用于基于聚类分析的结果，根据句子中各关键词的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。该摘要生成装置9还可以被配置为根据上一级的类的主题和/或摘要修正所述类或者文档的摘要。

7.控制装置7，用于控制所述显示设备8、聚类分析装置4。

其中，所述控制装置7控制所述显示设备8将各级类显示为虚拟文件夹或者目录，虚拟文件夹或者目录包括下一级的类的虚拟文件夹或者目录，最低级的类的虚拟文件夹或者目录包括文档标题。

所述控制装置7还可以控制所述聚类分析装置4，使得，如果某一最低级别的类中的文档数量大于所述用户输入设备10输入的上限或者所述显示参数配置装置11设置的上限，则对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限。如果全部文档数量少于所述上限，则控制装置7控制所述显示设备8直接显示文档标题。

另外，所述控制装置7可以控制所述显示设备8，使之在每一个显示页面仅显示直接从属于同一上层类的类或者文档标题，并且可以控制所述聚类分析装置4，使得在需要进行该页面的显示之前不进行该页面的内容的聚类分析。进一步，在接收到显示命令时，控制装置7控制所述显示设备8首先显示最高层次的类或者文档标题的显示页面；当某一个类通过所述用户输入设备10被选择时，则控制所述聚类分析装置4对该类所包含的文档进行聚类分析，并按照聚类分析结果控制所述显示设备8显示该类所包含的类或者文档标题；当某一个文档标题通过所述用户输入设备10被选择时，则控制所述显示设备8显示该文档的内容。

需要注意的是，文档库1是本发明的方法和设备处理的对象，不是本发明的设备的组成部分。类特征库5是聚类分析装置4的一部分。另外，尽管特征提取装置2和文档特征库3可以作为预处理装置独立存在，但是它们仍然属于聚类分析装置4的一部分。

上面的结构是本发明的设备的优选实施方式。显然，对应于前文所述的方法，上述各组成部分并非全部是必不可少的。严格地说，只有聚类分析装置4、显示设备8和控制装置7对于本发明的目的来说是必不可少的。用户输入设备10、显示参数配置装置11、主题生成装置6和摘要生成装置9中的任一个或者任意组合可以与聚类分析装置4、显示设备8和控制装置7一起构成各种实施方案，分别对应于前述方法的各种实施方式。

如本领域的普通技术人员所能理解的，本发明的方法和设备的全部或者任何步骤或者部件，可以在任何计算设备(包括处理器、存储介质等)或者计算设备的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在了解本发明的内容的情况下运用他们的基本编程技能就能实现的，因此不需在此具体说明。

这样，根据本发明的优选实施例，当用户浏览大量文档时，例如当用户搜索特定项目而产生作为搜索结果的大量文档时，他首先看到顶级聚类页面，然后由该聚类页面借助于主题和摘要导航到内容页面。这样，他不需要浏览其它无关的内容页面(甚至无需浏览其它无关聚类页面)。同时，本发明的优选实施例总是使用一个屏幕页面来显示信息，用户不需要反复按翻页键，而只需要专注于当前的屏幕。

从而，用户能在少量的页数和操作之内，从海量的显示项目中轻易地找到任何特定项目。如果每一个屏幕页面显示20个聚类项目，假设网页上显示了300万个项目，则大多数情况下用户可以在不到4次操作和5个屏幕页面(20⁵＝3200000)之内找到一个特定项目，而不用看其它无关项目。

因此，使用本发明，用户能够在浏览大量文档例如浏览因特网页面时感觉更为友好，更有效率。

Claims

1.一种组织多个文档的方法，包括：

对所述的多个文档进行聚类分析；

按照聚类分析的结果，将具有共同特征的文档分别组织为一个类；

对所产生的类中所包括的文档进行聚类分析，将具有共同特征的文档分别组织为更小的类。

2.如权利要求1所述的方法，其特征在于，在用户界面上将各级类显示为虚拟文件夹或者目录，它包括下一级的类的虚拟文件夹或者目录，其中，最低级的类的虚拟文件夹或者目录包括文档标题。

3.如权利要求2所述的方法，其特征在于，由用户指定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，其中，如果某一最低级别的类中的文档数量大于其上限，则对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限；如果全部文档数量少于所述上限，则直接显示文档标题。

4.如权利要求2所述的方法，其特征在于，由用户设备根据显示设备的显示设置和显示的内容自动确定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，其中，如果某一最低级别的类中的文档数量大于其上限，则对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限；如果全部文档数量少于所述上限，则直接显示文档标题。

5.如权利要求3或4所述的方法，其特征在于，每一个显示页面仅显示直接从属于同一上层类的类或者文档标题，并且在需要进行该页面的显示之前不进行该页面的内容的聚类分析。

6.如权利要求5所述的方法，其特征在于，在接收到显示命令时，首先显示最高层次的类或者文档标题的显示页面；当某一个类被选择时，则对该类所包含的文档进行聚类分析，并按照聚类分析结果显示该类所包含的类或者文档标题；当某一个文档标题被选择时，则显示该文档的内容。

7.如权利要求6所述的方法，其特征在于，所述各上限值被确定为使得显示类或者文档标题的每一个显示页面的内容能够被完全容纳在显示屏幕中。

8.如权利要求6所述的方法，其特征在于，在相应的位置同时显示各类的或者文档的主题，其中，主题由相应的类或者文档的基于聚类分析得到的特征向量中具有最大权重的预定个数的特征构成。

9.如权利要求8所述的方法，其特征在于，根据上一级的类的主题，修正所述类或者文档的主题。

10.如权利要求8所述的方法，其特征在于，在相应的位置同时显示各类或者文档的摘要，其中，根据所述主题包含的主题词的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。

11.如权利要求10所述的方法，其特征在于，根据上一级的类的主题和/或摘要，修正所述类或者文档的摘要。

12.如权利要求6所述的方法，其特征在于，在相应的位置同时显示各类或者文档的摘要，其中，根据句子中各关键词的基于聚类分析得到的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要。

13.如权利要求12所述的方法，其特征在于，根据上一级的类的主题和/或摘要，修正所述类或者文档的摘要。

14.一种显示多个文档的设备，包括：

聚类分析装置，用于对所述的多个文档进行聚类分析，按照聚类分析的结果，将具有共同特征的文档分别组织为一个类；并对所产生的类中所包括的文档进行聚类分析，将具有共同特征的文档分别组织为更小的类；

显示设备，用于在用户界面上动态显示所述多个文档、文档标题或者类；以及

控制装置，用于控制所述显示设备将各级类显示为虚拟文件夹或者目录，虚拟文件夹或者目录包括下一级的类的虚拟文件夹或者目录，最低级的类的虚拟文件夹或者目录包括文档标题。

15.如权利要求14所述的设备，其特征在于还包括：

用户输入设备，用于由用户指定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，

其中，所述控制装置被配置为：如果某一最低级别的类中的文档数量大于其上限，则控制所述聚类分析装置对该类中的文档继续进行聚类分析以生成更低级别的类，直到最低级别的每一个类所包含的文档数量小于所述上限；如果全部文档数量少于所述上限，则控制所述显示设备直接显示文档标题。

16.如权利要求14所述的设备，其特征在于还包括：

显示参数配置装置，用于根据显示设备的显示设置和显示的内容确定各级别的类的数量的上限以及最低级别的类中的文档的数量的上限，

17.如权利要求15或16所述的设备，其特征在于，所述控制装置被配置为控制所述显示设备在每一个显示页面仅显示直接从属于同一上层类的类或者文档标题，并且控制所述聚类分析装置，使得在需要进行该页面的显示之前不进行该页面的内容的聚类分析。

18.如权利要求17所述的设备，其特征在于，所述控制装置被配置为：在接收到显示命令时，控制所述显示设备首先显示最高层次的类或者文档标题的显示页面；当某一个类通过所述用户输入设备被选择时，则控制所述聚类分析装置对该类所包含的文档进行聚类分析，并按照聚类分析结果控制所述显示设备显示该类所包含的类或者文档标题；当某一个文档标题通过所述用户输入设备被选择时，则控制所述显示设备显示该文档的内容。

19.如权利要求16所述的设备，其特征在于，所述显示参数配置装置被进一步配置为将各上限值被确定为使得显示设备显示类或者文档标题的每一个显示页面的内容能够被完全容纳在显示设备的显示屏幕中。

20.如权利要求16所述的设备，其特征在于还包括：

主题生成装置，用于基于聚类分析的结果，根据各类或者文档的特征向量中具有最大权重的预定个数的特征生成各类或者文档的主题；其中，

所述控制装置被进一步配置为：使得所述显示设备在相应的位置同时显示各类的或者文档的主题。

21.如权利要求20所述的设备，其特征在于所述主题生成装置被配置为根据上一级的类的主题修正所述类或者文档的主题。

22.如权利要求20所述的设备，其特征在于还包括：

摘要生成装置，用于根据所述主题生成装置生成的主题包含的主题词的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要；其中，

所述控制装置被进一步配置为：使得所述显示设备在相应的位置同时显示各类或者文档的摘要。

23.如权利要求22所述的设备，其特征在于所述摘要生成装置被配置为根据上一级的类的主题和/或摘要修正所述类或者文档的摘要。

24.如权利要求18所述的设备，其特征在于还包括：

摘要生成装置，用于基于聚类分析的结果，根据句子中各关键词的权重来计算句子的权重，由文档或者类中权重最大的预定个数的句子组成摘要；其中，

25.如权利要求24所述的设备，其特征在于所述摘要生成装置被配置为根据上一级的类的主题和/或摘要修正所述类或者文档的摘要。