CN101477563A

CN101477563A - 一种短文本聚类的方法、系统及其数据处理装置

Info

Publication number: CN101477563A
Application number: CNA2009100767915A
Authority: CN
Inventors: 刘文印; 倪兴良; 张加龙
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: Guangdong Donghua faster Software Co. Ltd.
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2009-07-08
Anticipated expiration: 2029-01-21
Also published as: CN101477563B

Abstract

本发明公开了一种短文本聚类的方法、系统及其数据处理装置。该方法执行于一数据处理装置中，用于针对给定的短文本集进行聚类，包括：步骤1，将该给定的短文本集中的所有短文本作为一个类别；步骤2，从当前的所有类别中选择一个类别，从中寻找核心词汇；步骤3，如果找到，根据是否包含该核心词汇将所选择的类别分成两类，执行步骤2；步骤4，如果没找到，记录并删除该类别，从剩余的类别中选择一个类别，执行步骤2，直至没有剩余类别为止，所记录的类别作为聚类的结果。本发明以类间相似度最小，类内相似度最大的方式，将短文本依照其内在关联关系进行聚类，使使用者在大量数据中快速定位所需求的数据。计算复杂度较低，计算效率高。

Description

一种短文本聚类的方法、系统及其数据处理装置

技术领域

本发明涉及计算机文本信息处理领域，特别是涉及一种短文本聚类的方法、系统及其数据处理装置。

背景技术

互联网已成为信息数据的载体，使用者利用百度或Google等搜索引擎，输入关键词，即可立即获得大量的相关搜索结果。

然而，数据的庞杂(如在Google中搜索“奶粉”，将得到4580万条结果)使用户很难找到预期的结果，或者，需要花费很长一段时间在搜索结果中进行拣选。究其原因，基于不同新闻媒体对同一事件的报道，科技文章的转载、拷贝等方式，互联网中的信息有很大一部分是重复的，或相似的。

为了实现对数据的快速定位，可通过对大量的搜索结果进行聚类的方式，即，将搜索结果依照其某方面的关联性进行分类，使得搜索结果不再是杂乱的排列而是依照类别信息排放，使得用户可根据需求，从搜索结果中快速定位最为相关的一部分结果数据，而排除掉除此之外大量的无关数据，从而大大便利用户浏览。这样，用户只需浏览每个类别中的代表条目，即可了解该类别的大体内容，帮助用户快速的锁定所需目标，从而节省了用户的时间，实现较好的用户体验。另外，用户可通过每个类别的代表条目，了解该搜索结果所包括的大体种类内容，便于用户获取每个种类包括的详细信息。然而，现有文本聚类技术多是针对长文本，大部分方法的核心步骤是计算两个文本的相似度，这一相似度在很大程度上又取决于两个文本共同包含的单词数。然而，网络中包含大量短文本，如文章、新闻标题，问答系统中的问题/答案等，前面的方法对于这些短文本便不再适用，因为短文本单词数有限，彼此无法包含足够多的相同的单词。

发明内容

本发明解决的技术问题在于，提供一种短文本的聚类方法、系统及其数据处理装置，以便于使用者在大量数据中快速定位所需求的数据，对短文本集进行聚类，特别是保证聚类结果的类间相似度最小，并且类内相似度最大。同时，降低计算复杂度，提高计算效率。

本发明公开了一种短文本聚类的方法，执行于一数据处理装置中，用于针对一短文本集进行聚类，包括：

步骤1，将该短文本集中的所有短文本作为一个类别；

步骤2，从当前的所有类别中选择一个类别，从中寻找核心词汇；

步骤3，如果找到核心词汇，根据是否包含该核心词汇将所选择的类别分成两个类别，执行步骤2；

步骤4，如果没找到核心词汇，记录并删除该所选择的类别，从剩余的类别中选择一个类别，执行步骤2，直至没有剩余类别为止，所记录的类别作为聚类的结果。

本发明还公开了一种短文本聚类的系统，设置于一数据处理装置中，用于针对一短文本集进行聚类，包括：

类别初始化模块，用于将该短文本集中的所有短文本作为一个类别；

核心词汇寻找模块，用于从当前的所有类别中选择一个类别，从中寻找核心词汇；

类别切割模块，用于根据是否包含找到的该核心词汇将所选择的类别分成两类，并调用该核心词汇寻找模块；

类别记录模块，用于在该核心词汇寻找模块没有找到核心词汇时，记录并删除该所选择的类别，从剩余的类别中选择一个类别，调用该核心词汇寻找模块，直至没有剩余类别为止，所记录的类别作为聚类的结果。

本发明还公开了一种数据处理装置，用于针对一短文本集进行聚类，该数据处理装置包括一处理模块，该处理模块包括：

本发明以基于核心词汇对短文本集进行反复切割的方法，对短文本集进行聚类，特别是依照类间相似度最小，并且类内相似度最大的原则，将短文本依照其内在关联关系进行聚类，便于使用者在大量数据中快速定位需求数据。同时，利用本申请的技术方案还可获得较低的计算复杂度，提高计算效率。

附图说明

图1所示为本发明的短文本聚类的方法的流程示意图；

图2所示为该寻找核心词汇函数的主要算法流程图；

图3所示为该短文本聚类系统的结构示意图；

图3A所示为核心词汇寻找模块302的结构示意图；

图4所示为本发明的参数调试示意图；

图5A所示为该网络服务器的处理模块的结构示意图；

图5B所示为本发明用于BuyAns问答系统中问题的聚类结果示意图；

图6A所示为该搜索引擎的网络服务器的处理模块的结构示意图；

图6B所示为本发明对搜索引擎的搜索结果聚类的聚类结果示意图；

图7所示为本发明对论坛中帖子聚类的聚类结果示意图；

图8所示为本发明对Email标题聚类的聚类结果示意图。

具体实施方式

本发明提供了一种针对短文本进行聚类的方法、系统及其数据处理装置，以实现在海量数据中对目标数据的快速定位。该短文本聚类的方法执行于一数据处理装置中。该数据处理装置可接收或产生一个待聚类的短文本集。该待聚类的短文本集可以是通过搜索引擎获得的搜索结果集合、论坛中用户提交的帖子标题集合、邮件系统中邮件标题集合、问答系统中的问题、问答系统中的答案、或直接由使用者输入的短文本集合等。

本发明的短文本聚类的方法执行于该数据处理装置的处理模块。该数据处理装置为一网络服务器、个人电脑或其他数据处理终端。

本发明以基于核心词汇对短文本集进行反复切割的方法，对短文本集进行聚类，特别是依照类间相似度最小，并且类内相似度最大的原则，将短文本依照其内在关联关系进行聚类，以使短文本集体现出一定的逻辑结构性，便于用户获取相关目标数据。同时，利用本申请的技术方案还可获得较低的计算复杂度，提高计算效率。

如图1所示为本发明的短文本聚类的方法的流程示意图。

步骤101，将短文本集初始化为一个类别。

在一个实施例中，可初始化一个类别列表，在该列表中，将短文本集标记为一个类别。

步骤102，从当前的所有类别中选择一个类别，从中寻找核心词汇。

从该类别列表中，选择一个类别，针对该类别，调用寻找核心词汇函数以寻找该类别的核心词汇。该选择一个类别的步骤可通过随机方式选择一个类别，或者，通过顺序选择方式获得。在首次执行该步骤时，只存在唯一供选择的类别，该类别包含所有短文本。

步骤103，如果找到，根据该核心词汇将所选择的类别分成两个类别，执行步骤102；

在一个实施例中，以是否包含该核心词汇为标准，将所选择的类别分成两类。在该类别列表中，将所选择的类别标记为两个新的类别。

步骤104，如果没找到，记录并删除该类别，从剩余的类别中选择一个类别，执行步骤102，直至没有剩余类别为止，所记录的类别作为聚类的结果。

在一个实施例中，如果没找到该核心词汇，在该类别列表中删除所选择的类别，同时在另一分类结果列表中，记录所选择的类别。

本发明中还包括一扫描步骤，用于对该短文本集中的词汇进行扫描识别，记录每个词汇的频率数据。该步骤可执行于步骤101之前或之后。

对于英文短文本，该扫描步骤可依照其单词间的空格轻易识别出一个词汇。对于中文短文本，可利用现有技术中常用的中文分词技术实现，该中文分词技术包括：正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法。本领域的技术人员可轻易实现。

请参阅图2，为该寻找核心词汇函数的主要算法流程图。

步骤201，扫描该类别中的所有短文本，寻找在每个短文本中均出现的普遍词汇。

即，寻找在当前所选择的类别的所有短文本中均出现了的词汇。每次执行至该步骤201，均识别出在当前的类别中的普遍词汇，使得在当前类别所覆盖的短文本越来越少的情况下，以剩余的全部类别最终无法找到核心词汇为流程的终点。

步骤202，依次利用该类别中除该普遍词汇以外的每个词汇对该类别进行分类，分别计算每种分类的Mcut值。

作为分割类别的依据的词汇(以下称为依据词汇)，不是在当前类别中所有短文本中都出现过的词汇。所有在短文本集中出现的词汇，除普遍词汇外，其他均可作为依据词汇T_m。普遍词汇由于在当前类别的所有短文本中均出现，故而该类词汇无法体现出当前类别中进一步包括的类别的差异性，无法达到分割类别的目的，因而需要识别并排除。

即，在步骤201后，依次选取一个依据词汇，依照是否包含该依据词汇，将当前类别中的短文本分割为两个子类，并计算该分类的Mcut值。也就是说，有多少个依据词汇T_m，就对应存在多少种类别分割方式，依照每种类别分割方式，都计算得到一个Mcut值。

该Mcut值的计算依照现有技术中的Mcut准则(Mcut准则，Ding，C.，He，X.，Zha，H.：A min-max cut algorithm for graph partitioning and dataclustering.In：Proceedings of the International Conference on DataMining，pp.107-114(2001))实现。

即，将一个短文本集C模拟为一张图G_C。其中，每个点代表一个短文本，连接两个点的边根据相应的两个短文本间的相似度赋予权值。假设短文本集C被聚类成K个类别{C₁，G₂，…，C_k，…，C_K}，那么，C的Mcut可以表示为：

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{k}, \cdot \cdot \cdot, C_{K}) = Σ_{k = 1}^{K} \frac{cut (C_{k}, C - C_{k})}{Σ_{d_{i}, d_{j} &Element; C_{k}} sim (d_{i}, d_{j})}

其中，C_k为一个子类，C-C_k为C类中除C_k以外的子类，cut(C_k，C-C_k)为子类C_k与子类C-C_k两者中的点间的边割(edge cut，可定义为连接图中两个集合中点的边的权值的累加和)，故而，cut(C_k，C-C_k)可看做类间相似度。K为所有类别数目，d_i为短文本i，sim(d_i，d_j)为短文本i与短文本j之间的相似度。

其中，

cut (C_{k}, C - C_{k}) = \underset{d_{i} &Element; C_{k}}{Σ} \underset{d_{j} &NotElement; C_{k}}{Σ} sim (d_{i}, d_{j}) .

关于短文本i与短文本j之间相似度的计算方法，根据现有技术中的TF-IDF权重计算方法短文本d的权重可以表示为：

V_d＝(tf(t₁)·idf(t₁)，…，tf(t_i)·idf(t_i)，…，tf(t_M)·idf(t_M))

其中，tf(t_i)为短文本d中单词t_i的词频。

idf(t_i)为单词t_i的逆向文件频率(inverse document frequency)，由短文本总数除以包含单词t_i的短文本数，将得到的商取对数，即log(n/df(t_i))，n为短文本总数，df(t_i)为包含单词t_i的短文本数。

由于在短文本中，每个单词的词频tf(t_i)都很低，通常一个词不会在一个短文本中重复出现，故而可将词频tf(t_i)平滑处理为1或0。即，如果一个单词出现在短文本中，它的词频tf(t_i)为1；否则，为0。这样，短文本d的权重可以进一步表示为：

V_d＝(w₁，w₂，…，w_i，…w_M)，其中，w_i表示第i个单词的权值，可通过下式计算，

w_{i} = \{\begin{matrix} 0, & t_{i} &NotElement; d \\ idf (t_{i}), & t_{i} &Element; d \end{matrix} .

在本发明的该实施例中，可通过点乘来计算两个短文本之间的相似度，即，

sim (d_{i}, d_{j}) = V_{d_{i}} \cdot V_{d_{j}} .

然而，这种计算方式的计算复杂度为O(n²)级。

在另一个实施例中，

cut(C_k，C-C_k)可由下式计算，

cut (C_{k}, C - C_{k})

= \underset{d_{i} &Element; C_{k}}{Σ} \underset{d_{j} &NotElement; C_{k}}{Σ} sim (d_{i}, d_{j})

= \underset{d_{i} &Element; C_{k}}{Σ} \underset{d_{j} &NotElement; C_{k}}{Σ} \underset{t &Element; d_{i}, t &Element; d_{j}}{Σ} idf (t) \cdot idf (t)

= \underset{d_{i} &Element; C}{Σ} \underset{d_{j} &Element; C}{Σ} Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot [t_{m} &Element; d_{i}] \cdot [t_{m} &Element; d_{j}] \cdot [d_{i} &Element; C_{k}] \cdot [d_{j} &Element; C - C_{k}]

= Σ_{m = 1}^{M} [idf {(t_{m})}^{2} \cdot \underset{d_{i} &Element; C}{Σ} [t_{m} &Element; d_{i}, d_{i} &Element; C_{k}] \cdot \underset{d_{j} &Element; C}{Σ} [t_{m} &Element; d_{j}, d_{j} &Element; C - C_{k}]]

其中，用F(t_m，C_k)和F(t_m，C-C_k)分别表示单词t_m在C_k和C-C_k中的频率。于是有，

\underset{d_{i} &Element; C}{Σ} [t_{m} &Element; d_{i}, d_{i} &Element; C_{k}] = F (t_{m}, C_{k}),

以及

\underset{d_{j} &Element; C}{Σ} [t_{m} &Element; d_{j}, d_{j} &Element; C - C_{k}] = F (t_{m}, {C - C}_{k}) .

这样，cut(C_k，C-C_k)可进一步化简为

cut (C_{k}, C - C_{k}) = Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F (t_{m}, C_{k}) \cdot F (t_{m}, C - C_{k}) .

同理，分母部分可由下式计算，

Σ_{d_{i}, d_{j} &Element; C_{k}} sim (d_{i}, d_{j})

= \underset{d_{i} &Element; C_{k}}{Σ} \underset{d_{j} &NotElement; C_{k}}{Σ} \underset{t &Element; d_{i}, t &Element; d_{j}}{Σ} idf (t) \cdot idf (t)

= \underset{d_{i} &Element; C}{Σ} \underset{d_{j} &Element; C}{Σ} Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot [t_{m} &Element; d_{i}] \cdot [t_{m} &Element; d_{j}] \cdot [d_{i} &Element; C_{k}] \cdot [d_{j} &Element; C_{k}]

= Σ_{m = 1}^{M} [idf {(t_{m})}^{2} \cdot \underset{d_{i} &Element; C}{Σ} [t_{m} &Element; d_{i}, d_{i} &Element; C_{k}] \cdot \underset{d_{j} &Element; C}{Σ} [t_{m} &Element; d_{j}, d_{j} &Element; C_{k}]]

= Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F {(t_{m}, C_{k})}^{2}

其相当于计算类内相似度。于是，短文本集C的Mcut可以表示为，

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{K}) = Σ_{k = 1}^{K} \frac{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F (t_{m}, C_{k}) \cdot F (t_{m}, C - C_{k})}{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F {(t_{m}, C_{k})}^{2}} .

基于idf(t_m)，F(t_m，C_k)和F(t_m，C-C_k)可通过先前的扫描步骤，扫描所有短文本一次性计算得到，这样，计算复杂度便降低为O(n+M)。

另外，利用该类间相似度与类内相似度相除所得的参数进行聚类，强调了类间相似度与类内相似度之间的权重差别，可进一步提高聚类的准确程度。

步骤203，如果其中最小的Mcut值属于一预定阈值范围，取该最小的Mcut值对应的词汇作为核心词汇。

即，从计算得到的全部Mcut值中选取最小的一个，判断该最小的Mcut值是否属于一预定阈值范围。如果是，将该最小的Mcut值所对应的词汇作为核心词汇，执行步骤103，如果不是，执行步骤104。

在本发明一具体实施例中，寻找核心词汇函数可通过如下方式实现：

初始化一依据词汇变量CoreTerm、初始化一确定核心词汇后的短文本集的Mcut值MinMcut、初始化一短文本集的Mcut初始值OriginalMcut。

其中，该CoreTerm的初始值为null，MinMcut的初始值为maxValue，OriginalMcut的初始值为Mcut(C₁)，在初始化时，针对所选的类别计算其Mcut值。

赋予CoreTerm一字符串，该字符串即为一个依据词汇，基于该依据词汇对所选类别进行分割，计算Mcut值。重复执行该步骤，即，依次赋予CoreTerm一字符串，对应计算每个字符串所对应的分类的Mcut值，取其中最小的Mcut值赋予MinMcut。

最后，判断OriginalMcut(Mcut(C₁))与MinMcut的差值是否大于预先设定的某一阈值，即，OriginalMcut-MinMcut>threshold，也就是Mcut(C₁)-MinMcut>threshold，也就是MinMcut<Mcut(C₁)-threshold。如果是，返回该MinMcut所对应的字符串作为核心词汇，否则返回null。

本发明还公开了一种针对短文本进行聚类的系统。该短文本聚类的系统设置于一数据处理装置中，针对一短文本集，进行聚类。该待聚类的短文本集可以是通过搜索引擎获得的搜索结果集合、论坛中用户提交的帖子标题集合、邮件系统中邮件标题集合、问答系统中的问题、问答系统中的答案或直接由使用者输入的短文本集合等。

本发明的短文本聚类的系统设置于该数据处理装置的处理模块中。该数据处理装置为一网络服务器、个人电脑或其他数据处理终端。

如图3所示为该短文本聚类系统的结构示意图。

该短文本聚类系统300包括一类别初始化模块301、核心词汇寻找模块302、类别切割模块303以及类别记录模块304。

该类别初始化模块301用于将短文本集初始化为一个类别。随后，调用核心词汇寻找模块302。该核心词汇寻找模块302用于从当前的所有类别中选择一个类别，从中寻找核心词汇。如果找到，调用类别切割模块303，根据找到的该核心词汇将所选择的类别分成两类，并调用该核心词汇寻找模块302。如果没找到，调用类别记录模块304，记录并删除该类别，从剩余的类别中选择一个类别，调用该核心词汇寻找模块302，直至没有剩余类别为止，所记录的类别作为聚类的结果。

该类别初始化模块301，可用于初始化一个类别列表，在该列表中，将短文本集标记为一个类别。

该核心词汇寻找模块302从该类别列表中，以随机的方式选择一个类别，或者，通过顺序选择方式获得。

如图3A所示核心词汇寻找模块302进一步包括：

识别模块3021，用于扫描该类别中的所有短文本，寻找在每个短文本中均出现的普遍词汇；

Mcut值计算模块3022，依次利用该类别中除该普遍词汇以外的每个词汇对该类别进行分类，分别计算每种分类的Mcut值；

核心词汇确认模块3023，识别出其中最小的Mcut值，判断该最小的Mcut值是否属于一预定阈值范围，如果属于，取该最小的Mcut值对应的词汇作为核心词汇。

该Mcut值的计算方式如之前的实施例所述。该核心词汇寻找模块302可通过之前所述的寻找核心词汇函数的方式实现。

该类别切割模块303，以是否包含该核心词汇为标准，将所选择的类别分成两类。在该类别列表中，将所选择的类别标记为两个新的类别。

该类别记录模块304，在该类别列表中删除所选择的类别，同时在另一分类结果列表中，记录所选择的类别。

在本发明的另一实施例中，还包括一个扫描模块305，用于对该短文本集中的词汇进行扫描识别，记录每个词汇的频率数据。

针对本发明的技术方案，可采用自动和人工两种方法来评估该短文本聚类方法及系统的准确性。在自动评估中，将本发明中提出的方法与现有技术中的KMeans方法进行了比较。选取BuyAns问答系统(www.buyans.com)中的453个中文问题作为测试数据集，并手动将其分为4个大类，以及13个子类，如表1所示，

表1 测试数据集中的类别

在本发明的一个实施例中，采用现有技术中通常使用的FScore值来测试其有效性。假定有一个包含n_r个短文本的初始类别L_r，一个包含m_k个短文本的聚类好的类别C_k。n_rk表示L_r和C_k中共同包含的短文本数，那么L_r和C_k的FScore值可由下式计算，

F (L_{r}, C_{k}) = \frac{2 * R (L_{r}, C_{k}) * P (L_{r}, C_{k})}{R (L_{r}, C_{k}) + P (L_{r}, C_{k})},

其中，P(L_r，C_k)被定义为精确率，即n_rk/m_k；R(L_r，C_k)被定义为召回率，即n_rk/n_r。初始类别L_r的FScore值被定义为L_r和所有聚类好的类别的FScore最大值，即，

F (L_{r}) = \max_{C_{k} &Element; C} F (L_{r}, C_{k}) .

接着，计算整个聚类结果的宏观平均FScore值和微观平均FScore值来评估本发明中方法的有效性，即，

MacroFScore = \frac{1}{R} Σ_{r = 1}^{R} F (L_{r})

MicroScore = Σ_{r = 1}^{R} \frac{n_{r}}{n} F (L_{r}),

其中，R是类别的总数。

如图4所示，为应用本发明中方法在设定不同阈值Threshold得到的MacroFScore和MicroFScore值。从图中可以看出，开始时，MacroFScore和MicroFScore值逐渐升高，当Threshold取-2和-1.5时，它们分别达到最大值，然后随Threshold增大而下降。

如表2所示，为本发明中方法和KMeans算法的性能比较，其中，本发明方法中Threshold取-1.5。同样，KMeans算法也输入13个类别作为初始数据集。考虑到KMeans算法随机选择初始质心，表2中的结果为测试100次的平均结果。从表中可以看出，相比KMeans算法，本发明方法提高了0.3左右。

表2 本发明中方法和KMeans算法的性能比较

	MicroFScore	MacroFScore
	MicroFScore	MacroFScore	本发明方法	0.77	0.68
KMeans(K＝13)	0.49	0.31	本发明方法	0.77	0.68

如表3所示，为应用本发明方法和KMeans算法的初始类别的FScore值比较。从表中可以看出，绝大部分初始类别FScore值均有提高。Beauty & Style类别的FScore值较低的原因是类别中文本数太少；Sleep problem类别则是由于中文分词的问题。

表3 初始类别的FScore值比较

综上，本发明所提出的短文本聚类方法及系统，相对于KMeans算法，能够实现较好的性能。

在本发明的一个实施例中，该短文本聚类系统设置于BuyAns问答系统的网络服务器中。该网络服务器作为一数据处理装置，其中包括一处理模块，如图5A所示为该网络服务器的处理模块的结构示意图。

该网络服务器的处理模块30中包括一问题产生模块310，用于生成作为问题的短文本集，并将其作为待处理的短文本集传输至类别初始化模块301。该问题产生模块310可为一用户接口，便于用户输入或根据模板设置问题。该网络服务器的处理模块30中还包括一答案收集模块320，用于收集作为答案的短文本集，并将其作为待处理的短文本集传输至类别初始化模块301。图5A的其他部分与图3一致，在此不赘述。BuyAns问答系统可分别对答案或问题进行聚类。

如图5B所示，为该BuyAns问答系统中问题的聚类结果示意图。其结合现有技术中的网页显示技术，可见，左侧为类别信息，右侧为选中类别“北京”中包含的问题。其中，以找到的核心词汇作为类别的标签，该类别即该核心词汇所对应的类别。也就是说，在找到一核心词汇后，将该核心词汇作为包含该核心词汇的类别的类别标签。通过对类别的不断切割，类别标签可以逐级嵌套，大类之下包括小类。

在本发明的一个实施例中，本发明方法及系统可应用于互联网搜索引擎的搜索结果的聚类。图6A所示为该搜索引擎的网络服务器的处理模块的结构示意图。在搜索引擎的服务器的处理模块31中，包括一搜索模块330，用于根据关键词搜索互联网上的数据资源，并得到搜索结果。该搜索结果作为待处理的短文本集传输至类别初始化模块301。图6A的其他部分与图3一致，在此不赘述。

另外，结合现有技术中的网页显示技术，如图6B所示，为搜索“美国”得到的聚类结果。左侧为类别信息，右侧为选中类别“留学“中包含的结果。

在本发明的一个实施例中，本发明方法及系统可应用于对网络中的论坛上用户提交的帖子标题进行聚类。结合现有技术中的网页显示技术，如图7所示，左侧为类别信息，右侧为选中类别“笔记型电脑”中包含的帖子标题。

在本发明的一个实施例中，本发明方法及系统可应用于对一组电子邮件标题进行聚类。结合现有技术中的网页显示技术，如图8所示，左侧为类别信息，右侧为选中类别“戴尔”中包含的Email标题。

在本发明的一个实施例中，进行了人工方法测试。应用C#和ASP.net构建一个网络应用程序，对于给定的关键词，可以抓取前100条Google搜索结果，其中包括链接和标题。这些标题可以作为本发明方法的初始数据集，即所有短文本。将核心词汇作为类别的标签，自始未找到核心词汇的类别放到Others类别里。

对随机抽取的50个中文关键词进行测试，由人工根据聚类后类别中的短文本判断该类别是否正确。如表4所示，为人工测试结果。根据测试结果，本发明方法能够生成6.84个有效的类别，其中，1.38个被判断为错误，5.46个被判断为正确。可见，本发明对于实际搜索结果同样能够实现较好的性能。

表4 人工测试结果

关键词	正确类别数	错误类别数	总类别数
关键词	正确类别数	错误类别数	总类别数	崔真实	8	1	9
建设银行	7	3	10	崔真实	8	1	9
建设银行	7	3	10	陈慧琳	6	1	7
极品家丁	7	0	7	陈慧琳	6	1	7
极品家丁	7	0	7	注册香港公司	9	1	10
迅雷看看	4	0	4	注册香港公司	9	1	10
迅雷看看	4	0	4	婚庆	5	2	7
手机充值卡	6	2	8	婚庆	5	2	7
手机充值卡	6	2	8	魔兽世界	6	0	6

基于上述说明可知，本发明便于使用者在大量数据中快速定位所需求的数据，以基于核心词汇对短文本集进行反复切割，对短文本集进行聚类，特别是依照类间相似度最小，并且类内相似度最大的原则，将短文本依照其内在关联关系进行聚类。同时，利用本申请的技术方案还可获得较低的计算复杂度，提高计算效率。

Claims

1、一种短文本聚类的方法，执行于一数据处理装置中，用于针对一短文本集进行聚类，其特征在于，包括：

步骤1，将该短文本集中的所有短文本作为一个类别；

2、如权利要求1所述的短文本聚类的方法，其特征在于，步骤1之前或者之后还包括扫描该类别中的所有短文本，记录短文本中的词汇的出现频率的步骤。

3、如权利要求2所述的短文本聚类的方法，其特征在于，寻找核心词汇的步骤进一步包括：

扫描该类别中的所有短文本，寻找在每个短文本中均出现的普遍词汇；

依次利用该类别中除该普遍词汇以外的每个词汇，根据是否包含该词汇对该类别进行分类，分别计算每种分类的Mcut值；

如果其中最小的Mcut值属于一预定阈值范围，取该最小的Mcut值对应的词汇作为核心词汇。

4、如权利要求3所述的短文本聚类的方法，其特征在于，Mcut值通过如下公式计算：

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{k}, \cdot \cdot \cdot, C_{K}) = Σ_{k = 1}^{K} \frac{cut (C_{k}, C - C_{k})}{Σ_{d_{i}, d_{j} &Element; C_{k}} sim (d_{i}, d_{j})};

其中，C_k为一个类别，cut(C_k，C-C_k)为类别C_k与类别C-C_k两者中的短文本之间的边割，k为所有类别数目，d_i为短文本i，sim(d_i，d_j)为短文本i与短文本j之间的相似度。

5、如权利要求3所述的短文本聚类的方法，其特征在于，Mcut值通过如下公式计算：

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{k}) = Σ_{k = 1}^{K} \frac{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F (t_{m} \cdot C_{k}) \cdot F (t_{m}, C - C_{k})}{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F {(t_{m}, C_{k})}^{2}}

其中，C_k为一个类别，K为所有类别数目，F(t_m，C_k)和F(t_m，C-C_k)分别表示词汇t_m在C_k和C-C_k中的频率，M表示短文本集的所有词汇数，idf(t_m)是词汇t_m的逆向文件频率，其中，idf(t_m)通过log(n/df(t_m))计算，df(t_m)为包含词汇t_m的短文本数，n为短文本集中短文本的总数。

6、如权利要求3所述的短文本聚类的方法，其特征在于，该预定阈值范围为，该最小的Mcut值小于所选择的类别的Mcut值与一预设值的差。

7、如权利要求1所述的短文本聚类的方法，其特征在于，步骤2中选择一个类别的步骤为随机选择一个类别或顺序选择一个类别。

8、如权利要求1-7中任一所述的短文本聚类的方法，其特征在于，该短文本集包括问答系统中的问题或答案、搜索引擎的搜索结果、论坛中用户提交的帖子标题或邮件系统中邮件标题。

9、一种短文本聚类的系统，设置于一数据处理装置中，用于针对一短文本集进行聚类，其特征在于，包括：

10、如权利要求9所述的短文本聚类的系统，其特征在于，还包括一扫描模块，用于扫描该类别中的所有短文本，记录短文本中的词汇的出现频率。

11、如权利要求9所述的短文本聚类的系统，其特征在于，核心词汇寻找模块进一步包括：

识别模块，用于扫描该类别中的所有短文本，寻找在每个短文本中均出现的普遍词汇；

Mcut值计算模块，依次利用该类别中除该普遍词汇以外的每个词汇，根据是否包含该词汇对该类别进行分类，分别计算每种分类的Mcut值；

核心词汇确认模块，识别出其中最小的Mcut值，判断该最小的Mcut值是否属于一预定阈值范围，如果属于，取该最小的Mcut值对应的词汇作为核心词汇。

12、如权利要求11所述的短文本聚类的系统，其特征在于，Mcut值计算模块通过如下公式计算Mcut值：

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{k}, \cdot \cdot \cdot, C_{K}) = Σ_{k = 1}^{K} \frac{cut (C_{k}, C - C_{k})}{Σ_{d_{i}, d_{j} &Element; C_{k}} sim (d_{i}, d_{j})};

其中，C_k为一个类别，cut(C_k，C-C_k)为类别C_k与类别C-C_k两者中的短文本之间的边割，K为所有类别数目，d_i为短文本i，sim(d_t，d_j)为短文本i与短文本j之间的相似度。

13、如权利要求11所述的短文本聚类的系统，其特征在于，Mcut值计算模块通过如下公式计算Mcut值：

Mcut (C_{1}, C_{2}, \cdot \cdot \cdot, C_{k}) = Σ_{k = 1}^{K} \frac{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F (t_{m} \cdot C_{k}) \cdot F (t_{m}, C - C_{k})}{Σ_{m = 1}^{M} idf {(t_{m})}^{2} \cdot F {(t_{m}, C_{k})}^{2}}

其中，C_k为一个类别，K为所有类别数目，F(t_m，C_k)和F(t_m，C-C_k)分别表示词汇t_m在C_k和C-C_k中的频率，M表示短文本集的所有词汇数，idf(t_m)是词汇t_m的逆向文件频率，其中，idf(t_m)通过log(n/df(t_m))计算，df(t_m)为包含词汇t_m的短文本数。

14、如权利要求11所述的短文本聚类的系统，其特征在于，该预定阈值范围为，该最小的Mcut值小于所选择的类别的Mcut值与一预设值的差。

15、如权利要求9所述的短文本聚类的系统，其特征在于，该核心词汇寻找模块随机选择一个类别或顺序选择一个类别。

16、如权利要求9-15中任一所述的短文本聚类的系统，其特征在于，短文本集包括问答系统中的问题或答案、搜索引擎的搜索结果、论坛中用户提交的帖子标题或邮件系统中邮件标题。

17、一种数据处理装置，用于针对一短文本集进行聚类，该数据处理装置包括一处理模块，其特征在于，该处理模块包括：