CN102053992B

CN102053992B - 聚类方法和系统

Info

Publication number: CN102053992B
Application number: CN200910211714.6A
Authority: CN
Inventors: 张涛; 郭家清
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2009-11-10
Filing date: 2009-11-10
Publication date: 2014-12-10
Anticipated expiration: 2029-11-10
Also published as: EP2499569A4; CN102053992A; JP5615931B2; EP2499569A1; HK1152120A1; WO2011059588A1; EP2499569B1; US20110231399A1; JP2013511084A

Abstract

本申请提供了一种聚类方法和系统，所述方法包括：对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量；根据所述多个文件向量提取所述多个可读取文件共同的总特征向量；根据所述总特征向量和各个文件向量之间的相似度对所述多个可读取文件进行聚类。本申请还提供了一种对互联网网页进行聚类的方法和系统。采用本申请实施例的方法或系统进行聚类，减少了文件向量之间的相似度的比较次数，进一步可以减少系统资源的负担，例如CPU和内存的使用量，降低了聚类的运行时间，提高了聚类的运算性能。

Description

聚类方法和系统

技术领域

本申请涉及数据处理领域，特别涉及一种聚类方法和系统。

背景技术

在数据处理过程中，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。在对大数据量的可读取文件进行识别时，往往需要对其进行聚类计算，即是根据不同的阈值将不同的可读取文件分成不同的类，以便获取哪些可读取文件属于同一个类别，并最终实现相似文档的聚类。

现有技术中，在对海量可读取文件进行聚类的过程一般是这样的：首先将可读取文件基于不同的方法进行向量化，通过利用不同的向量相似度进行比较的结果作为聚类的依据。所述向量化就是将一个可读取文件(例如，word文档)转化成为由一系列数字组成的向量，其中每个数字代表不同的特征所对应的特征值。不同的可读取文件所对应的向量是不同的。在根据向量相似度进行聚类时，一般采用逐一比较的方法，例如，当有一百个可读取文件需要进行聚类时，其中每一个可读取文件都需要和其他99个可读取文件计算向量相似度，这样才可以根据向量相似度的值进行聚类。

从上述过程中可以看出，现有技术值的聚类方法需要计算每个可读取文件的向量相似度，基于这个向量相似度才可以进行聚类分析，当可读取文件的数据量很大时，这种重复计算往往会增加计算过程的时间，严重降低性能，即是在进行聚类分析之前的计算所占用的系统资源几乎超过了聚类分析过程。

总之，目前需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新的提出一种聚类方法，以解决现有技术中每一个可读取文件都需要和其他文件计算向量相似度才能进行聚类导致的计算时间增加，聚类运算的性能降低的问题。

发明内容

本申请所要解决的技术问题是提供一种聚类方法，用以解决现有技术中每一个可读取文件都需要和其他文件计算向量相似度才能进行聚类导致的计算时间增加，聚类运算的性能降低的问题。

本申请还提供了一种聚类系统，用以保证上述方法在实际中的实现及应用。

为了解决上述问题，本申请公开了一种聚类方法，包括：

对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量；

根据所述多个文件向量提取所述多个可读取文件的总特征向量；

根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类。

本申请还提供了一种聚类系统，该系统包括：

向量化单元，用于对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量；

提取单元，根据所述多个文件向量提取所述多个可读取文件的总特征向量；

聚类单元，根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类。

本申请还公开了一种对互联网网页进行聚类的方法，该方法包括：

从互联网上获取多个待聚类网页；

对所述多个待聚类网页进行向量化，得到多个待聚类网页对应的多个网页向量；

根据所述多个网页向量提取所述多个待聚类网页的总网页特征向量；

根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类。

本申请还公开了一种对互联网网页进行聚类的系统，该系统包括：

获取单元，从互联网上获取多个待聚类网页；

网页聚类装置，用于对所述多个待聚类网页进行向量化，得到多个待聚类网页对应的多个网页向量；根据所述多个网页向量提取所述多个待聚类网页的总网页特征向量；根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类。

与现有技术相比，本申请包括以下优点：

在本申请中，首先对当前的多个可读取文件进行向量化，可以得到多个可读取文件对应的多个文件向量；根据所述多个文件向量提取所述多个可读取文件共同的总特征向量，然后再根据所述总特征向量和各个文件向量之间的相似度对所述多个可读取文件进行聚类。在本申请的实施例中，采用每一个文件向量与总特征向量的相似度作为聚类的依据，无需像现有技术一样对需要聚类的可读取文件两两之间都计算相似度，从而减少了文件向量之间的相似度的比较次数，进一步可以减少系统资源的负担，例如CPU和内存的使用量，降低了聚类的运行时间，提高了聚类方法的运算性能。当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一种聚类方法实施例1的流程图；

图2是本申请中一种聚类方法实施例2的流程图；

图3是本申请的一种聚类方法实施例3的流程图；

图4是本申请的一种聚类系统实施例1的结构框图；

图5是本申请的一种聚类系统实施例2的结构框图；

图6是本申请的一种聚类系统实施例3的结构框图；

图7是本申请的对互联网网页进行聚类的方法一种实施例的流程图；

图8是本申请的对互联网网页进行聚类的方法另一种实施例中的步骤流程图；

图9是本申请的对互联网网页进行聚类的一种系统实施例的结构示意图；

图10是本申请的对互联网网页进行聚类的另一种系统实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请的主要思想之一可以包括，对于当前需要进行聚类的可读取文件来说，首先将其向量化，得到对应的多个文件向量，然后再针对这多个文件向量提取共同的特征，组成一个特征向量，并根据所述特征向量与每个文件向量之间的相似度来进行可读取文件的聚类。就能够避免了现有技术中每两个文件向量之间都需要进行相似度的计算的操作，就根据构造出的特征向量实现可读取文件的聚类，从而在减少相似度比较次数的基础上，能够提升聚类的性能。

参考图1，示出了本申请一种聚类方法实施例1的流程图，可以包括以下步骤：

步骤101：对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量。

在本实施例中，所述可读取文件可以是转化为向量的各种格式的文件，例如，Word文档、Excel表格等等；首先对当前需要进行聚类的多个可读取文件进行向量化，将该多个可读取文件转换为对应的多个文件向量。所述向量化就是将一个可读取文件转化成为由一系列数字组成的向量，其中每个数字代表不同的特征所对应的值，可读取文件的特征选取有很多种方法，最典型的方法就是采用TF_IDF的方法对文档进行特征值提取，当然还可以采用其他方式，例如：信息增益(IG)、互信息(MI)以及熵的方法等。最后组合提取到的特征值生成一组数字组成的向量。不同的可读取文件所对应的向量是不同的。本申请中的文件向量即是向量的意思，称为文件向量是为了和后续出现的特征向量进行区分。

步骤102：根据所述多个文件向量提取所述多个可读取文件的总特征向量。

本申请中在获取多个可读取文件的多个文件向量之后，需要根据这多个文件向量提取这多个可读取文件的总特征向量，总特征向量即是包括了所有可读取文件的特征的特征向量。在实际应用中，构造特征向量时可将所有可读取文件的向量的特征都进行提取，然后再生成一个含有所有可读取文件的特征的向量作为特征向量，可以通过将所有可读取文件的特征值都进行求和，将求得的和作为特征向量的特征值的方法来实现。所述可读取文件的特征可以理解为可读取文件中的可接受的最小单位，例如一个词或是一组数字等，具体的特征根据特征选取算法的不同会有所不同。在本步骤中构造出的特征向量可以保证每个文件向量与特征向量进行计算时相似度的值都不会为零，后续保证可以将相似的文件向量能够顺序排列。

步骤103：根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类。

计算所述总特征向量和各个文件向量之间的相似度，对所述多个可读取文件进行聚类，具体的，可以按照计算出的多个相似度对可读取文件进行排序，然后将相邻的若干个可读取文件根据实际情况或需求进行聚类。在本实施例中，可以采用逐次比较的方式，即是每一个文件向量都只要与自己相邻的上一个位置的向量进行相似度比较就可以了，在预设阈值的时候，可以将阈值设置为0.99，即是两个文件相邻之间的相似度大于或等于0.99时，则将该两个文件向量聚为一类，否则，则生成一个新的类，最终对所有的可读取文件对应的多个向量都举行了聚类。其中，所述向量相似度比较可以基于数学上不同的向量相似度计算公式，不同的公式可以得出不同的相似度的计算方法。

需要说明的是，对于本实施例中的聚类方法的实现，可以采用类中心迭代计算的方法，例如K-均值聚类算法等，或是高维向低维映射的算法，例如投影寻踪，自组织特征映射算法等。对于本发明给出的实例的聚类问题，采用以上两种方法都可以满足要求。

在本实施例中，在进行聚类之前，首先是结合所有可读取文件的多个文件向量共同构造一个特征向量，该总特征向量为能够包括所有的特征的向量，因此，这样在计算出每一个文件向量与该总特征向量的相似度之后，按照相似度对多个可读取文件进行排序，再按照逐次比较的原则，根据相邻的两个文件向量计算出的向量相似度来进行聚类，可以看出，采用每个文件向量只与临近的文件向量进行比较，从而减少了文件向量之间的相似度的比较次数，从而可以减少系统资源的负担，例如CPU和内存的使用量，降低了运行时间，提高了运算性能。

参考图2，示出了本申请一种聚类方法实施例2的流程图，本实施例可以理解为将本申请的聚类方法应用于实际中的一个具体例子，可以包括以下步骤：

步骤201：对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量。

在本实施例中，以实际中的一个具体例子来进行详细介绍。假设有10个可读取文本，每个可读取文件含有特征的总数为4个，则每个可读取文本被向量化后的结果如下：第一个可读取文本的文件向量1为：(0.2，0，1，1)，第二个可读取文本的文件向量2为：(0.3，0.2，0，1)，第三个可读取文本的文件向量3为：(0.1，0.1，0.1，0.2)，第四个可读取文本的文件向量4为：(0，0，0.6，0.7)，第五个可读取文本的文件向量5为：(1，2，3，4)，第六个可读取文本的文件向量6为：(0.3，0，0.9，0.9)，第七个可读取文本的文件向量7为：(0.4，0.1，0，0.9)，第八个可读取文本的文件向量8为：(0.2，0.1，0.2，0.1)，第九个可读取文本的文件向量9为：(0，0，0.5，0.6)，第十个可读取文本的文件向量10为：(0.3，0，0.9，1)。

步骤202：将所述多个文件向量共同的特征的特征值依次相加求和，得到所述总特征向量相应的特征值。

对于该10个可读取文件的10个文件向量的每个特征，分别对10个可读取文件对应的10个文件向量求和，即是将10个文件向量的第一个特征对应的特征值的总和作为特征向量的第一个特征值，依次类推，在本例子中得到的特征向量为：(2.8，2.5，7.2，10.4)。

步骤203：分别计算所述多个文件向量与总特征向量的第一相似度。

在实际应用中，可以采用向量余弦夹角公式计算所述向量的第一相似度。分别计算每个向量与特征向量的相似度值，采用的是向量余弦夹角的方法来判断相似度，计算所得的相似度如下：第一个可读取文本的文件向量1与总特征向量的第一相似度1为：0.963638，第二个可读取文本的文件向量2与总特征向量的第一相似度2为：0.837032，第三个可读取文本的文件向量3与总特征向量的第一相似度3为：0.953912，第四个可读取文本的文件向量4与总特征向量的第一相似度4为：0.95359，第五个可读取文本的文件向量5与总特征向量的第一相似度5为：0.982451，第六个可读取文本的文件向量6与总特征向量的第一相似度6为：0.966743，第七个可读取文本的文件向量7与总特征向量的第一相似度7为：0.821485，第八个可读取文本的文件向量8与总特征向量的第一相似度8为：0.788513，第九个可读取文本的文件向量9与总特征向量的第一相似度9为：0.954868，第十个可读取文本的文件向量10与总特征向量的第一相似度10为：0.974316。

步骤204：按照所述第一相似度对所述多个文件向量进行第一次排序。

将本例子中10个文件向量按照第一相似度的值从大到小排序，结果如下：文件向量5，10，6，1，9，3，4，2，7，8。对应的具体文件向量的内容如下：(1，2，3，4)，(0.3，0，0.9，1)，(0.3，0，0.9，0.9)，(0.2，0，1，1)，(0，0，0.5，0.6)，(0.1，0.1，0.1，0.2)，(0，0，0.6，0.7)，(0.3，0.2，0，1)，(0.4，0.1，0，0.9)，(0.2，0.1，0.2，0.1)。

可以看出，除了文件向量(0，0，0.5，0.6)、(0.1，0.1，0.1，0.2)和(0，0，0.6，0.7)没有成片连接以外，其它的文件向量都已经实现了相似的成片连接，例如：(0.3，0，0.9，1)和(0.3，0，0.9，0.9)的向量相似度为0.998614，文件向量(0.3，0，0.9，0.9)和(0.2，0，1，1)的向量相似度为0.995863，但文件向量(0，0，0.5，0.6)和(0，0，0.6，0.7)的向量相似度为0.999904，却没有排列在一起。因此，在本例子中，还需要着增加后续的排序步骤，以便获取精确的计算结果。

步骤205：分别计算所述多个文件向量与第一次排序后的最后一个文件向量的第二相似度。

在实际应用中，可以在计算第二相似度之前首先对第一相似度的值做精度处理，只保留小数点后两位，则得到结果如下：第一个可读取文本的文件向量1与总特征向量的第一相似度1约为：0.96，文件向量2的第一相似度2约为：0.83，文件向量3的第一相似度3约为：0.95，文件向量4的第一相似度4约为：0.95，文件向量5的第一相似度5约为：0.98，文件向量6的第一相似度6约为：0.96，文件向量7的第一相似度7约为：0.82，文件向量7的第一相似度7约为：0.78，文件向量7的第一相似度7约为：0.95，文件向量7的第一相似度7约为：0.97。

此处，获取第一次排序最末位置的文件向量8，每个文件向量都与其计算第二相似度。文件向量9、3和4的第一相似度相同都为0.95，这三个文件向量分别是(0，0，0.5，0.6)，(0.1，0.1，0.1，0.2)和(0，0，0.6，0.7)，计算得到的以上三个向量的第二相似度值分别为：0.647821，0.83666，0.651695。

步骤206：在第一次排序的基础上，再按照第二相似度对所述第一次排序后的文件向量进行第二次排序。

在第一相似度进行精度处理之后的值相等的前提下，按照第二相似度对相应的文件向量从大到小排序。例如，文件向量9，3和4的第一相似度相同，按照第二相似度从大到小排序后，得到的顺序如下：3，9，4。即：(0.1，0.1，0.1，0.2)、(0，0，0.5，0.6)和(0，0，0.6，0.7)。这样就实现了，9和4这两个向量能够成片连接，按照第二相似度排序后的总结果如下：5，10，6，1，3，9，4，2，7，8。

步骤207：从第二次排序之后的第二个文件向量开始，逐次与当前文件向量的上一个文件向量进行比较。

在实际应用中，根据阈值的不同，比较的结果可以有所不同，在实际应用中，阈值的取值范围一般在0～1之间，取值越接近1，则聚类的结果越精确。例如，本例子中将阈值设置为0.98。

步骤208：当比较结果满足聚类条件时，则将所述当前文件向量和其上一个文件向量聚为一类。

在本例子中，例如(0.3，0，0.9，1)，(0.3，0，0.9，0.9)，(0.2，0，1，1)聚为一类。

步骤209：当比较结果不满足聚类条件时，则生成新的类。

当比较到文件向量(0，0，0.5，0.6)时，因为比较结果不满足聚类条件，即是不大于或等于预先设置的阈值，则生成一个新的类，即是文件向量(0，0，0.5，0.6)属于另外一个类。根据本实施例中设置的阈值0.99，聚类结果共为6类，分别为：

(1，2，3，4)

(0.3，0，0.9，1)，(0.3，0，0.9，0.9)，(0.2，0，1，1)

(0，0，0.5，0.6)，(0，0，0.6，0.7)

(0.1，0.1，0.1，0.2)

(0.3，0.2，0，1).(0.4，0.1，0，0.9)

(0.2，0.1，0.2，0.1)

在本实施例中，采用构造总特征向量的方式，完成了向量相似度相近的文件向量能够相邻的成片连接，这样在对可读取文件进行聚类时，文件向量之间的比较次数会大幅度减少，就在保证聚类结果的质量的同时提高了聚类的性能。

参考图3，示出了本申请一种聚类方法实施例3的流程图，可以包括以下步骤：

步骤301：对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量。

步骤302：将所述多个文件向量共同的特征的特征值依次相加求和，得到总总特征向量相应的特征值。

步骤303：根据所述总总特征向量和各个文件向量之间的相似度对所述多个可读取文件进行聚类。

其中，所述步骤303具体可以采用以下步骤来实现：

步骤A1：分别计算所述多个文件向量与总特征向量的第一相似度。

其中，步骤A1中计算相似度的方式可以采用向量余弦夹角公式进行计算。

步骤A2：按照所述第一相似度对所述多个文件向量进行第一次排序。

步骤A3：分别计算所述多个文件向量与第一次排序后的最后一个文件向量的第二相似度。

步骤A4：在第一次排序的基础上，再按照第二相似度对所述第一次排序后的文件向量进行第二次排序。

步骤A5：按照第二次排序之后的文件向量对所述多个可读取文件进行聚类。

其中，步骤A5在实际中可以采用如下方式实现：

子步骤a1：从第二次排序之后的第二个文件向量开始，逐次向当前文件向量的上一个文件向量进行比较。

子步骤a2：当比较结果满足聚类条件时，则将所述当前文件向量和其上一个文件向量聚为一类。

子步骤a3：当比较结果不满足聚类条件时，则生成新的类。

步骤304：根据所述可读取文件的聚类结果，获取每一类的代表向量。

在实际应用中，在实施例2中获得的结果，有时不能适应于要求精度更高的场景，则在按照本申请实施例2中的方式获取到聚类结果，再对每一个类获取到该类的代表向量，所述代表向量可以是每一类中所有的文件向量的中心向量，代表向量的个数步骤304中的类的个数相同。

步骤305：构造满足预置条件的新特征向量。

所述新特征向量与总特征向量不能相同，在本实施例中所述新特征向量的构造方法可以根据不同的应用场景有所不同。但是，所述新特征向量，需要满足以下标准：计算每一个代表向量与新特征向量的相似度的值，最终能够使按照该相似度从大到小排序后的文件向量，能够保证相似或相近的文件向量成片相连。

步骤306：分别计算所述代表向量与新特征向量的第三相似度。

在本实施例中，则是计算每个类的代表向量于所述新特征向量的第三相似度的值。

步骤307：按照所述第三相似度对所述可读取文件的各个类进行第一次排序。

在本实施例之后是按照所述第三相似度对步骤304中聚类之后的每一类进行排序。

步骤308：分别计算所述每一类的代表向量与第一次排序后的最后一个类的代表向量的第四相似度。

与实施例2类似，在本实施例之后，再继续计算每一类的代表向量于排序之后的最后一个类的代表向量的第四相似度。

步骤309：在第一次排序的基础上，再按照第四相似度对所述第一次排序后的代表向量进行第二次排序。

重新排序的操作，例如，对于第三相似度相同的代表向量，本应成片连接的代表向量在第一次排序之后并没有相邻，则重新按照第四相似度对第三相似度相等的代表向量进行第二次排序。

步骤310：按照第二次排序之后的代表向量对所述多个可读取文件的类重新进行聚类。

在本实施例中，所述方法还可以包括：

步骤311：判断是否满足迭代结束条件，如果是，则结束流程，如果否，则重新执行所述根据所述可读取文件的聚类结果，获取每一类的代表向量的步骤。

其中，所述迭代结束条件一般可以设为，达到一定迭代步数或聚类结果数目达到要求的数目等。当满足迭代条件时，则结束当前流程，如果不满足迭代条件，则重新执行所述步骤304。

需要说明的是，对于按照方法实施例中进行聚类时，每一个实施例中可以构造出的特征向量在不同的实施过程中可以是不相同的，只要满足构造特征向量的标准，可以按照不同的需求构造不同场境下不相同的特征向量。在本实施例中，第二次迭代聚类中特征向量的选取个数根据不同的需求也可以不一样，但需满足构造特征向量的标准。在本申请实施例2和3中，所述总特征向量和新特征向量给出了不同的构造标准，本实施例采用迭代的方法，可以提高聚类的质量。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

与上述本申请一种聚类方法实施例1所提供的方法相对应，参见图4，本申请还提供了一种聚类系统实施例1，在本实施例中，该系统可以包括：

向量化单元401，用于对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量。

在本实施例中，所述可读取文件可以是转化为向量的各种格式的文件，例如，Word文档、Excel表格等等；首先对当前需要进行聚类的多个可读取文件进行向量化，将该多个可读取文件转换为对应的多个文件向量。所述向量化就是将一个可读取文件转化成为由一系列数字组成的向量，其中每个数字代表不同的特征所对应的值。不同的可读取文件所对应的向量是不同的。本申请中的文件向量即是向量的意思，称为文件向量是为了和后续出现的特征向量进行区分。

提取单元402，根据所述多个文件向量提取所述多个可读取文件共同的总特征向量。

本申请中在获取多个可读取文件的多个文件向量之后，需要根据这多个文件向量提取这多个可读取文件共同的总特征向量。在实际应用中，构造特征向量时可将所有可读取文件的向量的特征都进行提取，然后再生成一个含有所有可读取文件的特征的向量做为特征向量，可以通过将所有可读取文件的特征值都进行求和，将求得的和作为特征向量的特征值的方法来实现。所述可读取文件的特征可以理解为可读取文件中的可接受文件的最小单位，例如一个词或是一组数字等，具体的特征根据特征选取算法的不同会有所不同。在本步骤中构造出的特征向量可以保证每个文件向量与特征向量进行计算时相似度的值都不会为零，后续保证可以将相似的文件向量能够顺序排列。

聚类单元403，根据所述总特征向量和各个文件向量之间的相似度对所述多个可读取文件进行聚类。

计算所述总特征向量和各个文件向量之间的相似度，对所述多个可读取文件进行聚类。在本实施例中，可以采用逐次比较的方式，即是每一个文件向量都只要与自己相邻的上一个位置的向量进行相似度比较就可以了，在预设阈值的时候，可以将阈值设置为0.99，即是两个文件相邻之间的相似度大于或等于0.99时，则将该两个文件向量聚为一类，否则，则生成一个新的类，最终对所有的可读取文件对应的多个向量都举行了聚类。其中，所述向量相似度比较可以基于数学上不同的向量相似度计算公式，不同的公式可以得出不同的相似度计算方法。

在本实施例中，在进行聚类之前，首先是提取单元402可以结合所有可读取文件的多个文件向量共同构造一个特征向量，能够包括所有的向量的特征，因此，这样在计算出相似度之后，再按照逐次比较的原则，根据相邻的两个文件向量计算出的向量相似度来进行聚类，可以看出，采用每个文件向量只与临近的文件向量进行比较，从而减少了文件向量之间的相似度的比较次数，从而可以减少系统资源的负担，例如CPU和内存的使用量，降低了运行时间，提高了运算性能。

与上述本申请一种聚类方法实施例2所提供的方法相对应，参见图5，本申请还提供了一种聚类系统的优选实施例2，在本实施例中，该系统具体可以包括：

提取单元402，具体用于将所述多个文件向量共同的特征的特征值依次相加求和，得到所述总特征向量相应的特征值。

第一计算单元501，用于分别计算所述多个文件向量与总特征向量的第一相似度。

第一排序单元502，用于按照所述第一相似度对所述多个文件向量进行第一次排序。

第二计算单元503，用于分别计算所述多个文件向量与第一次排序后的最后一个文件向量的第二相似度。

第二排序单元504，用于在第一次排序的基础上，再按照第二相似度对所述第一次排序后的文件向量进行第二次排序。

在本实施例中，第二聚类单元，可以用于按照第二次排序之后的文件向量对所述多个可读取文件进行聚类。所述第二聚类单元可以包括：比较子单元505、聚类子单元506和生成子单元507。

比较子单元505，用于从第二次排序之后的第二个文件向量开始，逐次向当前文件向量的上一个文件向量进行比较。

聚类子单元506，用于当比较结果满足聚类条件时，则将所述当前文件向量和其上一个文件向量聚为一类。

生成子单元507，用于当比较结果不满足聚类条件时，则生成新的类。

本实施例中，采用构造总特征向量的方式，完成了向量相似度相近的文件向量能够相邻的成片连接，这样在对可读取文件进行聚类时，文件向量之间的比较次数会大幅度减少，就在保证聚类结果的质量的同时提高了聚类的性能。

与上述本申请一种聚类方法实施例3所提供的方法相对应，参见图5，本申请还提供了一种聚类系统的优选实施例3，在本实施例中，该系统具体可以包括：

向量化单元401，用于对多个可读取文件进行向量化，得到多个可读取文件对应的多个文件向量；

第二聚类单元601，用于按照第二次排序之后的文件向量对所述多个可读取文件进行聚类。

获取单元602，用于根据所述可读取文件的聚类结果，获取每一类的代表向量。

构造单元603，用于构造满足预置条件的新特征向量。

第三计算单元604，用于分别计算所述代表向量与新特征向量的第三相似度。

第三排序单元605，用于按照所述第三相似度对所述可读取文件的各个类进行第一次排序。

第四计算单元606，用于分别计算所述每一类的代表向量与第一次排序后的最后一个类的代表向量的第四相似度。

第四排序单元607，用于在第一次排序的基础上，再按照第四相似度对所述第一次排序后的代表向量进行第二次排序。

第三聚类单元608，用于按照第二次排序之后的代表向量对所述多个可读取文件的类重新进行聚类。

判断单元609，用于判断是否满足迭代结束条件，如果是，则结束流程，如果否，则重新执行所述根据所述可读取文件的聚类结果，获取每一类的代表向量的步骤。

参考图7所示，在本发明方法实施例中，提供了一种对互联网网页进行聚类的方法实施例，可以包括如下步骤：

步骤701：从互联网上获取多个待聚类网页。

在互联网领域，也可以应用本申请中前述实施例的聚类方法。例如：门户类网站的类目编辑，或者搜索引擎服务器对网络蜘蛛爬取的网页结果进行聚类等。以搜索引擎服务器系统的网络蜘蛛为例来进行介绍，首先网络蜘蛛可以从互联网络上爬取得到一定数目的网页，该一定数目的网页可以根据实际情况在数量和内容上有所不同，该一定数目的网页即是待聚类网页。

步骤702：对所述多个待聚类网页进行向量化，得到多个待聚类网页对应的多个网页向量。

其中，所述待聚类网页相当于可读取文件，此时，对所述待聚类网页过文本解析将各个网页转化成向量模式，优选的，可以通过TF-IDF的方法进行转化。

步骤703：根据所述多个网页向量提取所述多个待聚类网页的总网页特征向量。步骤704：根据所述总网页特征向量和各个网页向量之间的相似度对所述多个待聚类网页进行聚类。

其中，步骤703和704即是前述实施例中对可读取文件进行聚类的实现过程，在本实施例中，操作对象具体为待聚类网页。在本实施例中，对待聚类网页进行聚类的粗细程度取决于阈值的选取，同时，在不同的应用场景下可以通过实验设置或计算相适应的聚类阈值。

步骤705：依据所述对多个待聚类网页的聚类结果，建立类目索引，所述类目索引用于标识一类网页。

在步骤704对待聚类网页进行聚类之后，根据前述实施例的描述可以得知，每一类待聚类网页对应的网页向量中都有一个中心向量，则该中心向量对应的网页为该类网页中的中心网页，通过对中心网页进行分析可以确定该中心网页的特性，从而得知该中心网页所属类的特性，进而可以根据特性定义该类网页所属的具体类目，并分类目建立类目索引，所述类目索引可以唯一标识一类网页。

步骤706：当接收到当前用户输入的检索词时，依据类目索引在某一类网页中进行检索。

搜索引擎接收到用户输入的检索词时，可以根据该检索词所属的类目和类目索引匹配到相关类目，然后就可以只在该类目下进行检索，或只与相关类目的内容进行检索，这样就在搜索引擎服务器端减少了搜索引擎的计算量，同时也提高了检索速度，能够优化搜索引擎服务器的性能，进一步的，还能提升用户的搜索引擎使用体验。

在本发明的另一个实施例中，参考图8所示，在所述步骤704之后，还可以包括以下步骤：

步骤801：分别从各类网页中选取一个中心网页，并建立各类中其他网页分别与各个中心网页的关联。

在本实施例中，则是将已经进行了聚类的网页，按照聚类结果，从每一类网页中都选取出一个中心网页。因为每一类待聚类网页对应的网页向量中都有一个中心向量，则该中心向量对应的网页为该类网页中的中心网页，因此，选取出中心网页之后，可以在每一类网页中，将除了该中心网页之外的其他网页，都分别建立起与当前类的中心网页的关联。其中，该关联可以理解为，当点击所述中心网页的时候，在打开中心网页的同时，也会显示所述中心网页所属类的其他网页信息的默认关系。当然，其中，关联方式和显示本类中其他网页信息的实现，本领域技术人员可以根据用户需求和应用场景自主设置，本申请对此不做限定。在展现的时候并不将相似的网页去除，而是将相似的网页进行合并，通过代表网页进行链接，当需要看具体网页信息时，可以通过链接口进入相似网页界面，查看结果。步骤802：当接收到用户输入的检索词时，向用户返回各类的代表网页。在搜索引擎服务器端，当接收到用户输入的检索词时，则根据检索词所述类目只将对应的中心网页返回给用户，还可以进一步的，在每个中心网页挂上到该类中其他网页的链接。在本实施例中，对于步骤704中进行聚类时的阈值的选取可以由实际应用决定，对于不同的应用可以采取不同的阈值。但是对网页进行聚类以及相似度判断时，一般可以采取高阈值，因为网页的格式变化偏多，所以在判断网页是否相似时往往会选取某些重点属性，但重点属性有时不能代表网页的全部特性，所以选取阈值时应偏向于0.9或0.9以上的阈值。

参考图9所示，为本申请中一种对互联网网页进行聚类的系统实施例的结构示意图，该系统可以包括：

获取单元901，从互联网上获取多个待聚类网页。

网页聚类装置902，用于对所述多个待聚类网页进行向量化，得到多个待聚类网页对应的多个网页向量；根据所述多个网页向量提取所述多个待聚类网页的总网页特征向量；根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类。

建立索引单元903，用于依据所述对多个待聚类网页的聚类结果，建立类目索引，所述类目索引用于标识一类网页。检索单元904，用于当接收到当前用户输入的检索词时，依据类目索引在某一类网页中进行检索。

同时，参考图10所示，为本申请的对互联网网页进行聚类的系统实施例的结构示意图，该系统可以包括：

获取单元901，从互联网上获取多个待聚类网页。

选取单元1001，用于分别从各类网页中选取一个代表网页，并建立各类中其他网页分别与各个代表网页的关联。

返回单元1002，用于当接收到用户输入的检索词时，向用户返回各类的代表网页。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种聚类方法和系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种聚类方法，其特征在于，该方法包括：

根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类；所述根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类，具体包括：分别计算所述多个文件向量与总特征向量的第一相似度；按照所述第一相似度对所述多个文件向量进行第一次排序；分别计算所述多个文件向量与第一次排序后的最后一个文件向量的第二相似度；在第一次排序的基础上，再按照第二相似度对所述第一次排序后的文件向量进行第二次排序；按照第二次排序之后的文件向量对所述多个可读取文件进行聚类。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个文件向量提取所述多个可读取文件的总特征向量，具体包括：

将所述多个文件向量共同的特征的特征值依次相加求和，得到所述总特征向量相应的特征值。

3.根据权利要求1所述的方法，其特征在于，所述按照第二次排序之后的文件向量对所述多个可读取文件进行聚类，具体包括：

从第二次排序之后的第二个文件向量开始，逐次与当前文件向量的上一个文件向量进行比较；

当比较结果满足聚类条件时，则将所述当前文件向量和其上一个文件向量聚为一类；

当比较结果不满足聚类条件时，则生成新的类。

4.根据权利要求1所述的方法，其特征在于，所述计算相似度的方式采用向量余弦夹角公式进行计算。

5.根据权利要求1所述的方法，其特征在于，所述根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类之后，还包括：

根据所述可读取文件的聚类结果，获取每一类的代表向量；

构造满足预置条件的新特征向量；

分别计算所述代表向量与新特征向量的第三相似度；

按照所述第三相似度对所述可读取文件的各个类进行第一次排序；

分别计算所述每一类的代表向量与第一次排序后的最后一个类的代表向量的第四相似度；

在第一次排序的基础上，再按照第四相似度对所述第一次排序后的代表向量进行第二次排序；

按照第二次排序之后的代表向量对所述多个可读取文件的类重新进行聚类。

6.根据权利要求5所述的方法，其特征在于，所述按照第二次排序之后的代表向量对所述多个可读取文件的类重新进行聚类之后，还包括：

判断是否满足迭代结束条件，如果是，则结束流程，如果否，则重新执行所述根据所述可读取文件的聚类结果，获取每一类的代表向量的步骤。

7.一种聚类系统，其特征在于，该系统包括：

第一聚类单元，根据所述总特征向量和各个文件向量之间相似度的排序结果，对所述多个可读取文件进行聚类；所述第一聚类单元包括：第一计算单元，用于分别计算所述多个文件向量与总特征向量的第一相似度；第一排序单元，用于按照所述第一相似度对所述多个文件向量进行第一次排序；第二计算单元，用于分别计算所述多个文件向量与第一次排序后的最后一个文件向量的第二相似度；第二排序单元，用于在第一次排序的基础上，再按照第二相似度对所述第一次排序后的文件向量进行第二次排序；第二聚类单元，用于按照第二次排序之后的文件向量对所述多个可读取文件进行聚类。

8.根据权利要求7所述的系统，其特征在于，所述提取单元具体用于将所述多个文件向量共同的特征的特征值依次相加求和，得到所述总特征向量相应的特征值。

9.根据权利要求7所述的系统，其特征在于，所述第二聚类单元具体包括：

比较子单元，用于从第二次排序之后的第二个文件向量开始，逐次与当前文件向量的上一个文件向量进行比较；

聚类子单元，用于当比较结果满足聚类条件时，则将所述当前文件向量和其上一个文件向量聚为一类；

生成子单元，用于当比较结果不满足聚类条件时，则生成新的类。

10.根据权利要求7所述的系统，其特征在于，所述装置还包括：

获取单元，用于根据所述可读取文件的聚类结果，获取每一类的代表向量；

构造单元，用于构造满足预置条件的新特征向量；

第三计算单元，用于分别计算所述代表向量与新特征向量的第三相似度；

第三排序单元，用于按照所述第三相似度对所述可读取文件的各个类进行第一次排序；

第四计算单元，用于分别计算所述每一类的代表向量与第一次排序后的最后一个类的代表向量的第四相似度；

第四排序单元，用于在第一次排序的基础上，再按照第四相似度对所述第一次排序后的代表向量进行第二次排序；

第三聚类单元，用于按照第二次排序之后的代表向量对所述多个可读取文件的类重新进行聚类。

11.根据权利要求10所述的系统，其特征在于，还包括：

判断单元，用于判断是否满足迭代结束条件，如果是，则结束流程，如果否，则重新执行所述根据所述可读取文件的聚类结果，获取每一类的代表向量的步骤。

12.一种对互联网网页进行聚类的方法，其特征在于，该方法包括：

从互联网上获取多个待聚类网页；

根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类，所述根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类，包括：分别计算所述多个网页向量与总网页特征向量的第一相似度，按照所述第一相似度对所述多个网页向量进行第一次排序，分别计算所述多个网页向量与第一次排序后的最后一个网页向量的第二相似度，在第一次排序的基础上，再按照第二相似度对所述第一次排序后的网页向量进行第二次排序，按照第二次排序之后的网页向量对所述多个待聚类网页进行聚类。

13.根据权利要求12所述的方法，其特征在于，还包括：

依据所述对多个待聚类网页的聚类结果，建立类目索引，所述类目索引用于标识一类网页。

14.根据权利要求13所述的方法，其特征在于，还包括：

当接收到当前用户输入的检索词时，依据类目索引在某一类网页中进行检索。

15.根据权利要求12所述的方法，其特征在于，还包括：

分别从各类网页中选取一个代表网页，并建立各类中其他网页分别与各个代表网页的关联。

16.根据权利要求15所述的方法，其特征在于，还包括：

当接收到用户输入的检索词时，向用户返回各类的代表网页。

17.一种对互联网网页进行聚类的系统，其特征在于，该系统包括：

获取单元，从互联网上获取多个待聚类网页；

网页聚类装置，用于对所述多个待聚类网页进行向量化，得到多个待聚类网页对应的多个网页向量；根据所述多个网页向量提取所述多个待聚类网页的总网页特征向量；根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类，所述根据所述总网页特征向量和各个网页向量之间相似度的排序结果，对所述多个待聚类网页进行聚类，包括：分别计算所述多个网页向量与总网页特征向量的第一相似度，按照所述第一相似度对所述多个网页向量进行第一次排序，分别计算所述多个网页向量与第一次排序后的最后一个网页向量的第二相似度，在第一次排序的基础上，再按照第二相似度对所述第一次排序后的网页向量进行第二次排序，按照第二次排序之后的网页向量对所述多个待聚类网页进行聚类。

18.根据权利要求17所述的系统，其特征在于，还包括：

建立索引单元，用于依据所述对多个待聚类网页的聚类结果，建立类目索引，所述类目索引用于标识一类网页。

19.根据权利要求18所述的系统，其特征在于，还包括：

检索单元，用于当接收到当前用户输入的检索词时，依据类目索引在某一类网页中进行检索。

20.根据权利要求17所述的系统，其特征在于，还包括：

选取单元，用于分别从各类网页中选取一个代表网页，并建立各类中其他网页分别与各个代表网页的关联。

21.根据权利要求17所述的系统，其特征在于，还包括：

返回单元，用于当接收到用户输入的检索词时，向用户返回各类的代表网页。