CN103488689B

CN103488689B - 基于聚类的邮件分类方法和系统

Info

Publication number: CN103488689B
Application number: CN201310392393.0A
Authority: CN
Inventors: 陈玉焓
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2013-09-02
Filing date: 2013-09-02
Publication date: 2017-09-12
Anticipated expiration: 2033-09-02
Also published as: CN103488689A

Abstract

本发明公开了一种基于聚类的邮件分类方法和系统，该邮件分类方法包括：对待分类邮件集合中的每个邮件进行分词，得到每个邮件的词语集合；确定出每个邮件的词语特征向量；将所有邮件的词语特征向量组成词语特征向量集合后，对于每个词语特征向量，创建一个包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心；根据词语特征向量之间的相似度，对向量簇进行至少一次聚类合并，对聚类合并后的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。本发明的技术方案中，根据聚类成向量簇的词语特征向量对邮件进行分类，不必事先需要多种种类的样本邮件，就可以实现按照邮件内容进行多种类的邮件分类。

Description

基于聚类的邮件分类方法和系统

技术领域

本发明涉及互联网领域，尤其涉及一种基于聚类的邮件分类方法和系统。

背景技术

随着社会信息化程度的提高，使用邮件的用户越来越多，用户经常会收到大量的邮件，这些邮件通常是各种种类的邮件，比如，商讯、订单、社交、培训、招聘和投资理财等种类的邮件。

目前的邮件系统进行邮件分类的方法着重于将邮件划分成垃圾邮件或非垃圾邮件，通常采用基于邮件内容的分类方法。具体地，在多样本邮件构成的训练集中，对已分类为垃圾邮件或非垃圾邮件的样本邮件的内容进行处理，根据处理后的样本邮件的内容，利用各种机器学习算法，例如贝叶斯（Bayes）算法、支持向量机（Suppot Vector Machine，SVM）算法等，训练出分类模型，再根据该分类模型将未分类的邮件划分成垃圾邮件或非垃圾邮件。

然而，本发明的发明人发现，现有技术的邮件分类方法已经无法满足用户对邮件的分类需求：用户为便于对接收到的邮件进行查询，通常希望邮件系统具备多种类的邮件分类的功能，可以将收到的邮件分成商讯、社交、培训、招聘、和投资理财等种类的邮件；因此，有必要提供一种对邮件进行多种类分类的方法。

发明内容

针对上述现有技术存在的缺陷，本发明提供了一种基于聚类的邮件分类方法和系统，可以将邮件按照邮件内容进行多种类的邮件分类。

根据本发明的一个方面，提供了一种基于聚类的邮件分类方法，包括：

对待分类邮件集合中的每个邮件，将该邮件的邮件内容进行分词，得到该邮件的词语集合；根据得到的各邮件的词语集合确定出所述待分类邮件集合的词语集合；

对于所述待分类邮件集合中的每个邮件，根据该邮件的词语集合以及所述待分类邮件集合的词语集合，确定出该邮件的词语特征向量；

将所述待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，对于所述词语特征向量集合中的每个词语特征向量，创建一个包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心；

根据所述词语特征向量集合中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇后，对于当前的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

较佳地，所述根据所述词语特征向量集合中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇，具体包括：

计算所述词语特征向量集合中任意两个词语特征向量之间的相似度；

对于所述词语特征向量集合中的每个词语特征向量，将该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除；

对得到的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括如下步骤：

确定出所述优先级队列中最大的相似度，以及与该相似度相关联的两个词语特征向量；将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心；针对所述优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从所述优先级队列中删除该相似度以及与其相关联的两个词语特征向量；将确定出的簇中心的当前的相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到所述优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除；

在一次聚类合并后，若判断当前的向量簇的数目大于设定的簇数目阈值，则继续进行下一次聚类合并，否则，聚类合并结束，得到数目达到设定的簇数目阈值的向量簇。

根据本发明的另一个方面，还提供了一种基于聚类的邮件分类方法，包括：

将所述待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，将所述词语特征向量集合划分为设定数目的子集；

对于每个划分的子集，针对该子集中的每个词语特征向量，创建一个该子集的包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心；并根据该子集中的词语特征向量之间的相似度，对该子集的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值；

将各子集的向量簇合并为设定簇数目的向量簇后，得到所述词语特征向量集合的向量簇；对于所述词语特征向量集合的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

较佳地，所述根据该子集中的词语特征向量之间的相似度，对该子集的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值具体包括：

计算该子集中任意两个词语特征向量之间的相似度；

对于该子集中的每个词语特征向量，将该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除；

对该子集的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括如下步骤：

在一次聚类合并后，若判断该子集的当前的向量簇的数目大于设定的簇数目阈值，则继续进行下一次聚类合并，否则，聚类合并结束，得到该子集的数目达到设定的簇数目阈值的向量簇。

较佳地，所述将各子集的向量簇合并为设定簇数目的向量簇具体包括：

将所述各子集的向量簇作为所述词语特征向量集合的向量簇后，对于所述词语特征向量集合的任意两个向量簇，计算两个簇中心之间的相似度；

清空所述优先级队列后，对于所述词语特征向量集合的每个向量簇的簇中心，将该簇中心与其它向量簇的簇中心之间的相似度进行排序，得到该簇中心的相似度排序结果；将该相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个簇中心放入到所述优先级队列后，将该最大相似度从该相似度排序结果中删除；

针对所述词语特征向量集合中每个向量簇，创建一个包含该向量簇的簇中心的中心簇，并将该向量簇的簇中心作为代表该中心簇的簇中心；

对得到的中心簇进行至少一次聚类合并，在一次中心簇的聚类合并过程中，包括如下步骤：

确定出所述优先级队列中最大的相似度，以及与该相似度相关联的两个簇中心；将确定出的两个簇中心所分别代表的中心簇合并为一个中心簇后，确定合并后的中心簇的簇中心；针对所述优先级队列中每个相似度，若判断出与该相似度相关联的两个簇中心包含于同一个中心簇中，则从所述优先级队列中删除该相似度以及与其相关联的两个簇中心；对于确定出的合并后的中心簇的簇中心，将该簇中心的当前的相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个簇中心放入到所述优先级队列后，将该最大相似度从该簇中心的当前的相似度排序结果中删除；

在一次中心簇的聚类合并后，判断所述词语特征向量集合的当前的中心簇的数目是否大于所述设定簇数目，若是，则继续进行下一次中心簇的聚类合并；否则，中心簇的聚类合并结束，得到数目达到设定簇数目的中心簇后，对于得到的每个中心簇，将该中心簇中所包含的向量簇的簇中心所代表的向量簇合并为同一个向量簇。

根据本发明的另一个方面，还提供了一种基于聚类的邮件分类系统，包括：

邮件内容分词模块，用于对待分类邮件集合中的每个邮件，将该邮件的邮件内容进行分词，得到该邮件的词语集合；根据得到的各邮件的词语集合确定出所述待分类邮件集合的词语集合；

特征向量确定模块，用于对于所述待分类邮件集合中的每个邮件，根据所述邮件内容分词模块确定出的该邮件的词语集合以及所述待分类邮件集合的词语集合，确定出该邮件的词语特征向量；

向量簇创建模块，用于将所述特征向量确定模块确定出的待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，对于所述词语特征向量集合中的每个词语特征向量，创建一个包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心；

向量簇聚类模块，用于根据所述词语特征向量集合中的词语特征向量之间的相似度，对所述向量簇创建模块得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇；

邮件分类模块，用于对于所述向量簇聚类模块得到的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

较佳地，所述向量簇聚类模块包括：

相似度计算单元，用于计算所述词语特征向量集合中任意两个词语特征向量之间的相似度；

相似度排序单元，用于对于所述词语特征向量集合中的每个词语特征向量，将所述相似度计算单元计算得到的该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度的相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除；

聚类单元，用于对所述向量簇创建模块得到的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括：

确定出所述优先级队列中最大的相似度，以及与该相似度相关联的两个词语特征向量；将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心；针对所述优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从所述优先级队列中删除该相似度以及与其相关联的两个词语特征向量；从所述相似度排序单元得到的所述簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到所述优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除；

子集划分模块，用于将所述特征向量确定模块确定出的待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，将所述词语特征向量集合划分为设定数目的子集；

向量簇创建模块，用于对于所述子集划分模块得到的每个划分的子集，针对该子集中的每个词语特征向量，创建一个该子集的包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心；

第一向量簇聚类模块，用于对于所述子集划分模块得到的每个划分的子集，根据该子集中的词语特征向量之间的相似度，对所述向量簇创建模块得到的该子集的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值；

第二向量簇聚类模块，用于将所述第一向量簇聚类模块得到的各子集的向量簇合并为设定簇数目的向量簇后，得到所述词语特征向量集合的向量簇；

邮件分类模块，用于对于所述第二向量簇聚类模块得到的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

较佳地，所述第一向量簇聚类模块包括：

向量相似度计算单元，用于计算该子集中任意两个词语特征向量之间的相似度；

向量相似度排序单元，用于对于该子集中的每个词语特征向量，将所述向量相似度计算单元得到的该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除；

向量簇聚类单元，用于对所述向量簇创建模块得到的该子集的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括：

确定出所述优先级队列中最大的相似度，以及与该相似度相关联的两个词语特征向量；将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心；针对所述优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从所述优先级队列中删除该相似度以及与其相关联的两个词语特征向量；从所述向量相似度排序单元得到的所述簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到所述优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除；

在一次聚类合并后，若判断该子集的当前的向量簇的数目大于设定的簇数目阈值，则继续进行下一次聚类合并，否则，聚类合并结束，得到数目达到设定的簇数目阈值的向量簇。

较佳地，所述第二向量簇聚类模块包括：

向量簇组成单元，用于将所述第一向量簇聚类模块得到的各子集的向量簇组成词语特征向量集合的向量簇；

簇中心相似度计算单元，用于根据所述向量簇组成单元得到的词语特征向量集合的向量簇，对于所述词语特征向量集合的任意两个向量簇，计算两个簇中心之间的相似度；

簇中心相似度排序单元，用于清空所述优先级队列后，对于所述词语特征向量集合的每个向量簇的簇中心，将所述簇中心相似度计算单元得到的该簇中心与其它向量簇的簇中心之间的相似度进行排序，得到该簇中心的相似度排序结果；将该相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个簇中心放入到所述优先级队列后，将该最大相似度从该相似度排序结果中删除；

中心簇创建单元，用于针对所述向量簇组成单元得到的词语特征向量集合中每个向量簇，创建一个包含该向量簇的簇中心的中心簇，并将该向量簇的簇中心作为代表该中心簇的簇中心；

中心簇聚类单元，用于对所述中心簇创建单元得到的中心簇进行至少一次聚类合并，在一次中心簇的聚类合并过程中，包括：

确定出所述优先级队列中最大的相似度，以及与该相似度相关联的两个簇中心；将确定出的两个簇中心所分别代表的中心簇合并为同一个中心簇后，确定合并后的中心簇的簇中心；针对所述优先级队列中每个相似度，若判断出与该相似度相关联的两个簇中心包含于同一个中心簇中，则从所述优先级队列中删除该相似度以及与其相关联的两个簇中心；对于确定出的合并后的中心簇的簇中心，从所述簇中心相似度排序单元得到的该簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个簇中心放入到所述优先级队列后，将该最大相似度从该簇中心的当前的相似度排序结果中删除；

在一次中心簇的聚类合并后，判断所述词语特征向量集合的当前的中心簇的数目是否大于所述设定簇数目，若是，则继续进行下一次中心簇的聚类合并；否则，中心簇的聚类合并结束，得到数目达到设定簇数目的中心簇后，发送簇合并指令；

向量簇合并单元，用于在接收到所述中心簇聚类单元发送的簇合并指令后，对于所述中心簇聚类单元得到的每个中心簇，将该中心簇中所包含的向量簇的簇中心所代表的向量簇合并为同一个向量簇。

本发明的技术方案中，根据邮件的词语特征向量之间的相似度，对词语特征向量进行聚类，根据聚类后的词语特征向量对邮件进行分类；从而不必事先需要多种种类的样本邮件，也可以实现按照邮件内容进行多种类的邮件分类。

进一步，通过将词语特征向量集合划分成设定数目的子集，并行地对每个子集中的向量簇进行聚类合并，以提高聚类合并的效率，之后再将各子集的向量簇组成词语特征向量集合的向量簇后，对得到的向量簇进行聚类合并，从而整体上提高了对词语特征向量集合的向量簇进行聚类合并的效率，提高了邮件分类的效率。

附图说明

图1为本发明实施一的基于聚类的邮件分类的方法流程图；

图2a为本发明实施例一的对词语特征向量集合的向量簇进行聚类合并的流程图；

图2b为本发明实施例一的基于聚类的邮件分类系统结构框架示意图；

图2c为本发明实施例一的向量簇聚类模块的内部结构示意图；

图3为本发明实施例二的基于聚类的邮件分类的方法流程图；

图4为本发明实施例二的对子集的向量簇进行聚类合并的流程图；

图5a为本发明实施例二的根据各子集向量簇得到词语特征向量集合的向量簇的流程图；

图5b为本发明实施例二的基于聚类的邮件分类系统结构框架示意图；

图5c为本发明实施例二的第一向量簇聚类模块的内部结构示意图；

图5d为本发明实施例二的第二向量簇聚类模块的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

本发明的发明人对现有的邮件分类的方法进行分析，发现现有的邮件分类方法需要基于大量的已知种类的样本邮件，该方法应用在仅对邮件进行垃圾，或非垃圾分类时，则只需要两种种类的样本邮件：垃圾样本邮件和非垃圾样本邮件；但是，如果将该方法应用于对邮件进行多种类划分的场景下，则需要多种种类的样本邮件，例如，需要大量的商讯、社交、培训、招聘、和投资理财等种类的样本邮件；这使得现有的邮件分类方法应用于对邮件进行多种类划分的场景中的可行性很低。

由此，本发明的发明人考虑到采用一种不需要样本邮件来进行邮件种类划分的方法：通过分析邮件的词语特征向量之间的相似度，将相似度大的词语特征向量聚类到一个向量簇；从而聚类后得到的各向量簇，可以作为邮件种类划分的依据。

下面结合附图详细说明本发明的技术方案。本发明的技术方案提供了两个实施例；其中，实施例一的技术方案中，通过对整个词语特征向量集合中的词语特征向量进行聚类得到多个向量簇后，将每个向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件；实施例二的技术方案中，通过将词语特征向量集合划分成设定数目的子集，对每个子集中的词语特征向量进行聚类，将各子集的向量簇合并为设定簇数目的向量簇后，将每个向量簇中包含的词语特征向量所对应的邮件划分为同一类邮件。

实施例一

本发明的实施例一提供的一种基于聚类的邮件分类的方法，具体流程如图1所示，具体步骤可以包括：

S101：对于待分类邮件集合中的每个邮件，得到该邮件的词语集合，根据得到的各邮件的词语集合确定出待分类邮件集合的词语集合。

具体地，针对待分类邮件集合中的每个邮件，应用统计模型（例如隐马尔科夫模型）对该邮件的邮件内容进行分词，得到该邮件的分词结果；去除该邮件的分词结果中的停用词和生僻字，得到该邮件的词语集合。将待分类邮件集合中的每个邮件的词语集合合并成同一个词语集合后，去除掉该同一个词语集合中因重复而冗余的词语，得到该待分类邮件集合的词语集合。待分类邮件集合包含了符合设定条件的邮件，例如，可以将设定时间段内用户收到的邮件组成待分类邮件集合；或者在用户收到的邮件达到设定数量时，将这些邮件组成待分类邮件集合。

S102：对于待分类邮件集合中的每个邮件，根据该邮件的词语集合，及待分类邮件集合的词语集合，确定出该邮件的词语特征向量。

具体地，对于待分类邮件集合中的每个邮件，将待分类邮件集合的词语集合中的词语总数作为该邮件的词语特征向量的维数，并将待分类邮件集合的词语集合中的各词语，分别对应到该邮件的词语特征向量的各向量元素；对于该邮件的词语特征向量中的每个向量元素，该向量元素值的确定方法如下：若该向量元素所对应的待分类邮件集合的词语集合中的词语包含在该邮件的词语集合中，则该向量元素值设置为1；否则该向量元素值设置为0。

例如，待分类邮件集合中的一个邮件的词语特征向量具体表征为D=[d₁,…d_i,..,d_N]，其中d_i的取值为1或者0，取1表示待分类邮件集合的词语集合中第i个词语包含在当前邮件的词语集合中，取0表示待分类邮件集合的词语集合中第i个词语不包含在当前邮件的词语集合中；其中，i为1～N的自然数，N为待分类邮件集合的词语集合的词语总数。

S103：将待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合。

S104：对于词语特征向量集合中的每个词语特征向量，创建一个包含该词语特征向量的簇（本文中称为向量簇），并将该词语特征向量作为代表该向量簇的簇中心。

具体地，对于词语特征向量集合中的每个词语特征向量，创建一个仅以该词语特征向量为簇元素的向量簇，并将该词语特征向量作为该向量簇的簇中心，即该词语特征向量可以代表该向量簇。

S105：根据词语特征向量集合中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇。

对词语特征向量集合的向量簇进行聚类合并的具体方法将在后续进行详细介绍。

S106：对于词语特征向量集合的当前的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一种类邮件。

具体地，在上述步骤S105中得到数目达到设定的簇数目阈值的向量簇后，对于每个得到的向量簇，将该向量簇中所包含的词语特征向量划分为同一种类的词语特征向量；将待分类邮件集合中与该同一种类的词语特征向量相对应的邮件划分为同一种类邮件。从而完成对待分类邮件集合的邮件分类，得到划分为各种类的邮件。

为了进一步提高分类后邮件的各种类之间的区分度，增强邮件分类效果，本发明实施例的技术方案还提供了分类标签，用户可以为分类后邮件的每个种类定义分类标签。分类标签可以包括：电子商讯、非电子商讯、社交、投稿、招聘、投资订阅、旅行、订单和垃圾邮件等。

下面详细介绍上述步骤S105中，根据词语特征向量集合中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇的具体流程，如图2a所示，具体包括如下步骤：

S201：计算出词语特征向量集合中任意两个词语特征向量之间的相似度。

具体地，计算出词语特征向量集合中任意两个词语特征向量之间的相似度。其中，计算出任意两个词语特征向量之间的相似度有多种方法。

例如，根据两个词语特征向量之间夹角，来计算两个词语特征向量之间的相似度，具体根据如下公式1计算两个词语特征向量之间的相似度：

（公式1）

公式1中，X表示该词语特征向量子集对应的邮件中其中一个邮件（例如邮件A）的词语特征向量，具体为X=[x₁,…,x_t,…,x_N],x_t的取值为1或者0，取1表示邮件集合的词语集合中第t个词语包含在邮件A的词语集合中，取0表示邮件集合的词语集合中第t个词语不包含在邮件A的词语集合中；Y表示该词语特征向量子集对应的邮件中另一个邮件（例如邮件B）的词语特征向量，具体为Y=[y₁,…,y_t,…,y_N]，y_t的取值为1或者0，取1表示邮寄集合的词语集合中第t个词语包含在邮件B的词语集中，取0表示邮件集合的词语集合中第t个词语不包含在邮件B的词语集合中；其中，t为1～N的自然数，N为邮件集合的词语集合的词语总数，sim（X,Y）表示向量X和向量Y之间的相似度，θ表示向量X与向量Y之间的夹角。

根据公式1计算出的相似度（θ的余弦值）越大越接近1，则表明两个词语特征向量之间越相似；相似度越小越接近0，则表明两个词语特征向量之间越不相似。

在实际应用中，可以采用矩阵的形式来存储词语特征向量之间的相似度，即可以针对词语特征向量集合，构建词语特征向量集合的词语特征向量的相似度矩阵（本文中简称为向量相似度矩阵）：

在构建的词语特征向量集合的向量相似度矩阵中，第j行第k列的矩阵元素为词语特征向量集合中第j个词语特征向量与第k个词语特征向量之间的相似度；j与k均为自然数，且均不大于词语特征向量集合的词语特征向量的总数。

S202：针对词语特征向量集合中每个词语特征向量，将该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果。

具体地，针对词语特征向量集合中每个词语特征向量，该词语特征向量可以对应为步骤S201中构建的向量相似度矩阵的一行，将该行中的相似度进行排序，得到对应该行的词语特征向量的相似度排序结果。

S203：针对每个词语特征向量，将该词语特征向量的相似度排序结果中的最大相似度，及与该最大相似度相关联的两个词语特征向量，放入到预设的优先级队列中后，将该最大相似度从该词语特征向量的相似度排序结果中删除。

在实际应用中，针对步骤S201中构建的向量相似度矩阵的每一行，删除其中数值为1的相似度，并将该行中最大相似度及与该最大相似度相关联的两个词语特征向量放入到预设的优先级队列中后，将该最大相似度从该行中删除，或者将该最大相似度修改为0。

S204：从优先级队列中确定出最大的相似度，以及与该相似度相关联的两个词语特征向量。

S205：将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心。

具体地，将确定出的两个词语特征向量合并到同一个向量簇中，之后，确定合并后的向量簇的簇中心：针对该向量簇中的任一词语特征向量，计算出该词语特征向量与该向量簇中其它词语特征向量之间的相似度并进行累加，得到该词语特征向量的相似度的累加结果（本文中简称为相似度和值），确定出相似度和值最大的词语特征向量为该向量簇的簇中心；若确定出的相似度和值最大的词语特征向量不止一个，则确定任一个相似度和值最大的词语特征向量为该向量簇的簇中心。

例如，若从优先级队列中确定出的两个词语特征向量为词语特征向量A和词语特征向量E，其中，词语特征向量E所代表的向量簇中包含词语特征向量E，而词语特征向量A所代表的向量簇中包含了词语特征向量A和B，则将词语特征向量A、B和E合并到同一个向量簇中，并确定出合并了词语特征向量A、B和E的向量簇的簇中心；该簇中心可以为词语特征向量A。

S206：针对优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从优先级队列中删除该相似度及与其相关联的两个词语特征向量。

S207：将确定出的簇中心的当前的相似度排序结果中最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除。

具体地，对于确定出的簇中心，确定该簇中心作为词语特征向量的当前的相似度排序结果；该词语特征向量的当前的相似度排序结果具体为之前删除最大相似度，或将该最大相似度置0后得到的相似度排序结果；从确定出的当前的相似度排序结果中再次确定出一个最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到优先级队列中；之后，将该最大相似度从该词语特征向量的相似度排序结果中删除。

对应于步骤S201中构建的向量相似度矩阵，针对被确定为合并后的向量簇的簇中心的一个词语特征向量，将向量相似度矩阵的该词语特征向量对应的行中的最大相似度，以及与该相似度相关联的两个词语特征向量放入到优先级队列中；之后，将该最大相似度从向量相似度矩阵的该行中删除，或将该行中的该最大相似度置为0。

S208：针对步骤S207确定出的最大相似度，判断该最大相似度是否大于预设的相似度阈值，若否，则执行步骤S209；若是，则执行步骤S210。

S209：判断优先级队列中的相似度个数是否大于1，若是，则执行步骤S210；若否，则执行步骤S211。

S210：将当前的向量簇的数目与设定的簇数目阈值进行比较，判断所述向量簇的数目是否大于簇数目阈值；若是，跳转到步骤S204，继续进行聚类合并；否则，执行步骤S211，结束聚类合并。

具体地，将词语特征向量集合的当前的向量簇的数目与预先设定的簇数目阈值进行比较，判断所述向量簇的数目是否大于簇数目阈值，若是，则跳转到步骤S204，继续对词语特征向量集合的向量簇进行聚类合并；否则，执行步骤S211。

S211：结束对词语特征向量集合的向量簇的聚类合并，得到词语特征向量集合的数目达到设定的簇数目阈值的向量簇，及每个向量簇的簇中心。

基于上述的邮件分类方法，本发明实施例一提供的一种基于聚类的邮件分类系统，其结构框架示意图如图2b所示，包括：邮件内容分词模块221、特征向量确定模块222、向量簇创建模块223、向量簇聚类模块224和邮件分类模块225。

其中，邮件内容分词模块221用于对待分类邮件集合中的每个邮件，将该邮件的邮件内容进行分词，得到该邮件的词语集合；根据得到的各邮件的词语集合确定出待分类邮件集合的词语集合。

特征向量确定模块222用于对于待分类邮件集合中的每个邮件，根据邮件内容分词模块221确定出的该邮件的词语集合以及待分类邮件集合的词语集合，确定出该邮件的词语特征向量。

向量簇创建模块223用于将特征向量确定模块222确定出的待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，对于词语特征向量集合中的每个词语特征向量，创建一个包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心。

向量簇聚类模块224用于根据词语特征向量集合中的词语特征向量之间的相似度，对向量簇创建模块223得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇。

邮件分类模块225用于对于向量簇聚类模块224得到的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

上述向量簇聚类模块224的内部结构示意图，如图2c所示，可以包括：相似度计算单元231、相似度排序单元232和聚类单元233。

其中，相似度计算单元231用于计算词语特征向量集合中任意两个词语特征向量之间的相似度。

相似度排序单元232用于对于词语特征向量集合中的每个词语特征向量，将相似度计算单元231计算得到的该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度的相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除。

聚类单元233用于对向量簇创建模块223得到的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括：

确定出优先级队列中最大的相似度，以及与该相似度相关联的两个词语特征向量；将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心；针对优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从优先级队列中删除该相似度以及与其相关联的两个词语特征向量；从相似度排序单元232得到的所述簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除；

本发明实施例一的基于聚类的邮件分类系统中的各模块或单元的具体功能的实现可参考上述图1和图2a所示的各步骤。

本发明实施例一的技术方案中，通过对待分类邮件集合中各邮件向量化，得到各邮件的词语特征向量，根据邮件的词语特征向量之间的相似度，对词语特征向量进行聚类，根据聚类后的词语特征向量对邮件进行分类；从而不必事先需要多种种类的样本邮件，也可以实现按照邮件内容进行多种类的邮件分类。

实施例二

为了提高邮件分类的效率，本发明实施例二的技术方案中先将词语特征向量集合划分成设定数目的子集，并行地对每个子集的向量簇进行聚类合并，以提高聚类合并的效率，之后再将每个子集的向量簇进行聚类合并，从而整体上提高对词语特征向量集合的向量簇进行聚类合并的效率，提高了邮件分类的效率。

本发明的实施例二提供的一种基于聚类的邮件分类的方法，具体流程如图3所示，包括如下步骤：

S301：对于待分类邮件集合中的每个邮件，得到该邮件的词语集合，根据得到的各邮件的词语集合确定出待分类邮件集合的词语集合。

S302：对于待分类邮件集合中的每个邮件，根据该邮件的词语集合，及待分类邮件集合的词语集合，确定出该邮件的词语特征向量。

S303：将待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合，将该词语特征向量集合划分为设定数目的子集。

具体地，在将待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，可以将该词语特征向量集合中的各词语特征向量，均匀划分到设定数目的子集中。例如，1000个邮件组成待分类邮件集合，该待分类邮件集合中的1000个邮件的词语特征向量组成词语特征向量集合，将该词语特征向量集合中的1000个词语特征向量，均匀地划分到10个子集中，每个子集中包含100个词语特征向量。

S304：对于每个划分的子集，针对该子集中的每个词语特征向量，创建一个包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心。

具体地，对于每个划分的子集，针对该子集中的每个词语特征向量，创建一个仅以该词语特征向量为簇元素的向量簇，并将该词语特征向量作为该向量簇的簇中心，即该词语特征向量可以代表该向量簇。

S305：对于每个划分的子集，根据该子集中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值。

由于本步骤中，对每个子集的向量簇进行的聚类合并可以并行执行，因此可以提高对每个子集的向量簇进行聚类合并的效率，从而整体上提高了对词语特征向量集合的向量簇进行聚类合并的效率，提高了邮件分类的效率。对每个子集的向量簇进行聚类合并的具体方法将在后续进行详细介绍。

S306：将各子集的向量簇合并为设定簇数目的向量簇后，得到词语特征向量集合的向量簇。

对将各子集的向量簇合并为设定簇数目的向量簇的具体方法将在后续详细介绍。

S307：对于词语特征向量集合的当前的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一种类邮件。

下面详细介绍上述步骤S305中，对于每个划分的子集，根据该子集中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到该子集中的向量簇的数目达到设定的簇数目阈值的具体流程，如图4所示，具体包括如下步骤：

S401：计算出该子集中任意两个词语特征向量之间的相似度。

具体地，针对每个划分的子集，计算出该子集中任意两个词语特征向量之间的相似度。计算任意两个词语特征向量之间的相似度的具体方法与步骤S201中的相同，此处不再赘述。

在实际应用中，可以采用矩阵的形式来存储词语特征向量之间的相似度，即可以针对每个子集，构建该子集的向量相似度矩阵；

在构建该子集的向量相似度矩阵中，第m行第n列的矩阵元素为该子集中第m个词语特征向量与第n个词语特征向量之间的相似度；m与n均为自然数，且均不大于该子集的词语特征向量的总数。

S402：针对该子集中每个词语特征向量，将该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果。

在实际应用中，针对该子集中每个词语特征向量，该词语特征向量可以对应为步骤S401中构建的向量相似度矩阵的一行，将该行中的相似度进行排序，得到对应该行的词语特征向量的相似度排序结果。

S403：针对每个词语特征向量，将该词语特征向量的相似度排序结果中的最大相似度，及与该相似度相关联的两个词语特征向量，放入到预设的优先级队列中后，将该最大相似度从该词语特征向量的相似度排序结果中删除。

在实际应用中，针对步骤S401中构建的向量相似度矩阵的每一行，删除其中数值为1的相似度，并将该行中最大相似度及与该最大相似度相关联的两个词语特征向量放入到预设的优先级队列中后，将该最大相似度从该行中删除，或者将该最大相似度修改为0。

S404：从优先级队列中确定出最大的相似度，以及与该相似度相关联的两个词语特征向量。

S405：将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心。

具体地，将确定出的两个词语特征向量合并到同一个向量簇中，之后，确定该合并后的向量簇的簇中心；确定向量簇的簇中心的具体方法与步骤S205中的方法相同，此处不再赘述。

S406：针对优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从优先级队列中删除该相似度及与其相关联的两个词语特征向量。

S407：将确定出的簇中心的当前的相似度排序结果中最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除。

具体地，针对确定出的簇中心，确定该簇中心作为词语特征向量的当前的相似度排序结果；该词语特征向量的当前的相似度排序结果具体为之前删除最大相似度，或将该最大相似度置0后得到的相似度排序结果；从确定出的当前的相似度排序结果中再次确定出一个最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到优先级队列中；之后，将该最大相似度从该词语特征向量的当前的相似度排序结果中删除。

对应于步骤S401中构建的向量相似度矩阵，针对被确定为合并后的向量簇的簇中心的一个词语特征向量，将向量相似度矩阵的该词语特征向量对应的行中最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列中；之后，将该最大相似度从向量相似度矩阵的该行中删除，或将该行中的该最大相似度置为0。

S408：针对步骤S407确定出的最大相似度，判断该最大相似度是否大于预设的相似度阈值，若否，则执行步骤S409；若是，则执行步骤S410。

S409：判断优先级队列中的相似度个数是否大于1，若是，则执行步骤S410；若否，则执行步骤S411，结束聚类合并。

S410：将该子集的当前的向量簇的数目与设定的簇数目阈值进行比较，判断所述向量簇的数目是否大于簇数目阈值：若否，则执行步骤S411；若是，则跳转到步骤S404，继续进行聚类合并。

具体地，针对每个子集，将该子集的当前的向量簇的数目与预先设定的簇数目阈值进行比较，判断所述向量簇的数目是否大于簇数目阈值，若否，则执行步骤S411；若是，则跳转到步骤S404，继续对该子集的向量簇进行聚类合并。

S411：结束对该子集的向量簇的聚类合并，得到该子集的数目达到设定的簇数目阈值的向量簇，及每个向量簇的簇中心。

下面详细介绍上述步骤S306中，将各子集的向量簇合并为设定簇数目的向量簇后，得到词语特征向量集合的向量簇的具体流程，如图5a所示，具体包括如下步骤：

S501：将各子集的向量簇作为词语特征向量集合的向量簇后，计算词语特征向量集合中任意两个向量簇的簇中心之间的相似度。

具体地，将各子集的向量簇作为词语特征向量集合的向量簇后，针对词语特征向量集合中任意两个向量簇，计算两个簇中心之间的相似度。计算两个簇中心之间的相似度的具体方法与步骤S201中计算两个词语特征向量之间的相似度的方法相同，此处不再赘述。

在实际应用中，可以采用矩阵的形式来存储向量簇的簇中心之间的相似度，即可以构建词语特征向量集合的向量簇的簇中心的相似度矩阵（本文中简称为簇中心相似度矩阵）；

在构建词语特征向量的簇中心相似度矩阵中，第p行第q列的矩阵元素为词语特征向量集合的第p个向量簇的簇中心与第q个向量簇的簇中心之间的相似度；p与q均为自然数，且均不大于词语特征向量集合的向量簇的总数。

S502：对于词语特征向量集合的每个向量簇的簇中心，将该簇中心与其它向量簇的簇中心之间的相似度进行排序，得到该簇中心的相似度排序结果。

本步骤中，清空优先级队列后，对于词语特征向量集合中每个向量簇的簇中心，根据步骤S501中计算出的词语特征向量集合中任意两个向量簇的簇中心之间的相似度，确定出该向量簇的簇中心与其它向量簇的簇中心之间的相似度，将确定出的相似度进行排序，得到该向量簇的簇中心的相似度排序结果。

在实际应用中，针对词语特征向量集合中每个向量簇的簇中心，该簇中心可以对应为步骤S501中构建的簇中心相似度矩阵的一行，将该行中的相似度进行排序，得到对应该行的簇中心的相似度排序结果。

S503：将得到的该簇中心的相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个向量簇的簇中心放入到优先级队列后，将该最大相似度从该相似度排序结果中删除。

在实际应用中，针对步骤S501中构建的簇中心相似度矩阵的每一行，删除其中数值为1的相似度，并将该行中最大相似度及与该最大相似度相关联的两个簇中心放入到优先级队列中后，将该最大相似度从该行中删除，或者将该最大相似度修改为0。

S504：针对词语特征向量集合中每个向量簇的簇中心，创建一个词语特征向量集合的包含该向量簇的簇中心的簇（本文中称为中心簇）。

具体地，针对词语特征向量集合中每个向量簇的簇中心，创建一个词语特征向量集合的仅以该向量簇的簇中心为簇元素的中心簇，并将该向量簇的簇中心作为代表该中心簇的簇中心。

S505：从优先级队列中确定出最大的相似度，以及与该相似度相关联的两个向量簇的簇中心。

S506：将确定出的两个向量簇的簇中心所分别代表的中心簇合并为同一个中心簇后，确定合并后的中心簇的簇中心。

具体地，将确定出的两个向量簇的簇中心并到同一个中心簇中，之后，确定该合并后的中心簇的簇中心；确定中心簇的簇中心的具体方法与步骤S205中确定向量簇的簇中心的方法相同，此处不再赘述。

S507：针对优先级队列中每个相似度，若判断出与该相似度相关联的两个向量簇的簇中心包含于同一个中心簇中，则从优先级队列中删除该相似度以及与其相关联的两个所述向量簇的簇中心。

S508：对于确定出的中心簇的簇中心，将该簇中心的当前的相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个向量簇的簇中心放入到优先级队列后，将该最大相似度从该簇中心的当前的相似度排序结果中删除。

具体地，对于确定出的中心簇的簇中心，确定出该中心簇的簇中心作为向量簇的簇中心的当前的相似度排序结果；从确定出的当前的相似度排序结果中确定出最大相似度，将该最大相似度以及与其相关联的两个向量簇的簇中心放入到优先级队列中；之后，将该最大相似度从该向量簇的簇中心的当前的相似度排序结果中删除。

对应于步骤S501中构建的簇中心相似度矩阵，针对被确定为合并后的中心簇的簇中心的一个向量簇的簇中心，将簇中心相似度矩阵的该向量簇的簇中心对应的行中最大相似度，以及与该最大相似度相关联的两个向量簇的簇中心放入到优先级队列中；之后，将该最大相似度从簇中心相似度矩阵的该行中删除，或将该行中的该最大相似度置为0。

S509：针对步骤S508确定出的最大相似度，判断该最大相似度是否大于预设的相似度阈值，若否，则执行步骤S510；若是，则执行步骤S511。

S510：判断优先级队列中的相似度个数是否大于1，若是，则执行步骤S511；若否，则执行步骤S512，结束聚类合并。

S511：判断词语特征向量集合的当前的中心簇的簇数目是否大于设定簇数目，若是，则跳转到步骤S505，继续进行聚类合并；否则，执行步骤S512，结束聚类合并。

具体地，将词语特征向量集合的当前的中心簇的簇数目与设定簇数目进行比较，判断当前的中心簇的簇数目是否大于设定簇数目，若是，则跳转到步骤S505，继续对词语特征向量集合的中心簇进行聚类合并；否则，执行步骤S512。

S512：结束对中心簇的聚类合并后，对于词语特征向量集合的每个中心簇，将该中心簇中所包含的向量簇的簇中心所代表的向量簇合并为同一个向量簇。

本步骤中，结束对词语特征向量集合的中心簇的聚类合并后，得到词语特征向量集合的数目达到设定簇数目的中心簇；对于词语特征向量集合的每个中心簇，将该中心簇中所包含的向量簇的簇中心所代表的向量簇合并为同一个向量簇。

本发明实施例二提供的一种基于聚类的邮件分类系统，其结构框架示意图如图5b所示，包括：邮件内容分词模块521、特征向量确定模块522、子集划分模块523、向量簇创建模块524、第一向量簇聚类模块525、第二向量簇聚类模块526和邮件分类模块527。

其中，邮件内容分词模块521用于对待分类邮件集合中的每个邮件，将该邮件的邮件内容进行分词，得到该邮件的词语集合；根据得到的各邮件的词语集合确定出待分类邮件集合的词语集合。

特征向量确定模块522用于对于待分类邮件集合中的每个邮件，根据邮件内容分词模块521确定出的该邮件的词语集合以及待分类邮件集合的词语集合，确定出该邮件的词语特征向量。

子集划分模块523用于将特征向量确定模块522确定出的待分类邮件集合中的所有邮件的词语特征向量组成词语特征向量集合后，将词语特征向量集合划分为设定数目的子集。

向量簇创建模块524用于对于子集划分模块523得到的每个划分的子集，针对该子集中的每个词语特征向量，创建一个该子集的包含该词语特征向量的向量簇，并将该词语特征向量作为代表该向量簇的簇中心。

第一向量簇聚类模块525用于对于子集划分模块523得到的每个划分的子集，根据该子集中的词语特征向量之间的相似度，对向量簇创建模块524得到的该子集的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值。

第二向量簇聚类模块526用于将第一向量簇聚类模块525得到的各子集的向量簇合并为设定簇数目的向量簇后，得到词语特征向量集合的向量簇。

邮件分类模块527用于对于第二向量簇聚类模块526得到的每个向量簇，将该向量簇中所包含的词语特征向量所对应的邮件划分为同一类邮件。

上述第一向量簇聚类模块525的内部结构示意图如图5c所示，可以包括：向量相似度计算单元531、向量相似度排序单元532和向量簇聚类单元533。

其中，向量相似度计算单元531用于对于每个子集，计算该子集中任意两个词语特征向量之间的相似度。

向量相似度排序单元532用于对于该子集中的每个词语特征向量，将向量相似度计算单元531得到的该词语特征向量与其它词语特征向量之间的相似度进行排序，得到该词语特征向量的相似度排序结果；将所述相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从所述相似度排序结果中删除。

向量簇聚类单元533用于对向量簇创建模块524得到的该子集的向量簇进行至少一次聚类合并，在一次聚类合并过程中，包括：

确定出优先级队列中最大的相似度，以及与该相似度相关联的两个词语特征向量；将确定出的两个词语特征向量所分别代表的向量簇合并为同一个向量簇后，确定合并后的向量簇的簇中心；针对优先级队列中每个相似度，若判断出与该相似度相关联的两个词语特征向量包含于同一个向量簇中，则从优先级队列中删除该相似度以及与其相关联的两个词语特征向量；从向量相似度排序单元532得到的所述簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个词语特征向量放入到优先级队列后，将该最大相似度从该簇中心的相似度排序结果中删除；

上述第二向量簇聚类模块526的内容结果示意图如图5d所示，可以包括：向量簇组成单元541、簇中心相似度计算单元542、簇中心相似度排序单元543、中心簇创建单元544、中心簇聚类单元545和向量簇合并单元546。

其中，向量簇组成单元541用于将第一向量簇聚类模块525得到的各子集的向量簇组成词语特征向量集合的向量簇。

簇中心相似度计算单元542用于根据向量簇组成单元541得到的词语特征向量集合的向量簇，对于词语特征向量集合的任意两个向量簇，计算两个簇中心之间的相似度。

簇中心相似度排序单元543用于清空所述优先级队列后，对于词语特征向量集合的每个向量簇的簇中心，将簇中心相似度计算单元542得到的该簇中心与其它向量簇的簇中心之间的相似度进行排序，得到该簇中心的相似度排序结果；将该相似度排序结果中的最大相似度，以及与该最大相似度相关联的两个簇中心放入到优先级队列后，将该最大相似度从该相似度排序结果中删除。

中心簇创建单元544用于针对向量簇组成单元541得到的词语特征向量集合中每个向量簇，创建一个包含该向量簇的簇中心的中心簇，并将该向量簇的簇中心作为代表该中心簇的簇中心。

中心簇聚类单元545用于对中心簇创建单元544得到的中心簇进行至少一次聚类合并，在一次中心簇的聚类合并过程中，包括：

确定出优先级队列中最大的相似度，以及与该相似度相关联的两个簇中心；将确定出的两个簇中心所分别代表的中心簇合并为同一个中心簇后，确定合并后的中心簇的簇中心；针对优先级队列中每个相似度，若判断出与该相似度相关联的两个簇中心包含于同一个中心簇中，则从优先级队列中删除该相似度以及与其相关联的两个簇中心；对于确定出的合并后的中心簇的簇中心，从簇中心相似度排序单元543得到该簇中心的当前的相似度排序结果中确定出最大相似度，将确定出的最大相似度以及与其相关联的两个簇中心放入到优先级队列后，将该最大相似度从该簇中心的当前的相似度排序结果中删除；

在一次中心簇的聚类合并后，判断词语特征向量集合的当前的中心簇的数目是否大于所述设定簇数目，若是，则继续进行下一次中心簇的聚类；否则，中心簇的聚类合并结束，得到数目达到设定簇数目的中心簇后，发送簇合并指令。

向量簇合并单元546用于在接收到中心簇聚类单元545发送的簇合并指令后，对于中心簇聚类单元545得到的每个中心簇，将该中心簇中所包含的向量簇的簇中心所代表的向量簇合并为同一个向量簇。

本发明实施例二的基于聚类的邮件分类系统中的各模块或单元的具体功能的实现可参考上述图3、图4和图5a所示的各步骤。

本发明实施例二的技术方案中，根据邮件的词语特征向量之间的相似度，对词语特征向量进行聚类，根据聚类后的词语特征向量对邮件进行分类；从而不必事先需要多种种类的样本邮件，也可以实现按照邮件内容进行多种类的邮件分类。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于聚类的邮件分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述词语特征向量集合中的词语特征向量之间的相似度，对得到的向量簇进行至少一次聚类合并，得到数目达到设定的簇数目阈值的向量簇，具体包括：

3.一种基于聚类的邮件分类方法，其特征在于，包括：

4.如权利要求3所述的方法，其特征在于，所述根据该子集中的词语特征向量之间的相似度，对该子集的向量簇进行至少一次聚类合并，使得该子集中的向量簇的数目达到设定的簇数目阈值具体包括：

计算该子集中任意两个词语特征向量之间的相似度；

5.如权利要求4所述的方法，其特征在于，所述将各子集的向量簇合并为设定簇数目的向量簇具体包括：

6.一种基于聚类的邮件分类系统，其特征在于，包括：

7.如权利要求6所述的系统，其特征在于，所述向量簇聚类模块包括：

8.一种基于聚类的邮件分类系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，所述第一向量簇聚类模块包括：

10.如权利要求9所述的系统，其特征在于，所述第二向量簇聚类模块包括：