CN103886077A

CN103886077A - 短文本的聚类方法和系统

Info

Publication number: CN103886077A
Application number: CN201410112525.4A
Authority: CN
Inventors: 高振华; 杨鹤鸣; 刘俊峰; 梁冠雄; 李炯城; 肖恒辉; 关晓明; 杨若冰
Original assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Current assignee: Guangdong Planning and Designing Institute of Telecommunications Co Ltd
Priority date: 2014-03-24
Filing date: 2014-03-24
Publication date: 2014-06-25
Anticipated expiration: 2034-03-24
Also published as: CN103886077B

Abstract

本发明公开了一种短文本的聚类方法和系统，所述方法包括：获取短文本集中各短文本间的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。实施本发明的方法和系统，在提高聚类精度的同时，可降低数据信息的丢失率，可反映数据集中各短文本的真实数据信息。

Description

短文本的聚类方法和系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种短文本的聚类方法和系统。

背景技术

从短信、微博、论坛和新闻评论等应用中产生的短文本(Short Text)，为长度在100个汉字内的文本。针对短文本的信息过滤系统解决文本聚类的问题。目前的聚类技术一般是将相似度高(文本距离小)的文本聚集到一个主题（划分为一类）。

但是一个短文本中会包含多类的数据信息，仅根据相似度大小，将相似度高的文本划分为一类，会使短文本丢失包含的数据信息，无法反映真实数据的信息。

发明内容

基于此，有必要针对上述聚类技术会会使短文本丢失包含的数据信息的问题，提供一种短文本的聚类方法和系统。

一种短文本的聚类方法，包括以下步骤:

获取短文本集中各短文本间的相似度；

从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；

判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本；

判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。

一种短文本的聚类系统，包括:

获取模块，用于获取短文本集中各短文本间的相似度；

第一查找模块，用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本；

第二查找模块，用于判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本；

聚类模块，用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。

上述短文本的聚类方法和系统，基于各短文本间的相似度，从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值，在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别，通过对比分别与两个短文本相似的短文本集合的重合度来聚类，在提高聚类精度的同时，可进而降低数据信息的丢失率，反映数据集中各短文本的真实数据信息。

附图说明

图1是本发明短文本的聚类方法第一实施方式的流程示意图；

图2是本发明短文本的聚类方法第二实施方式的流程示意图；

图3是本发明短文本的聚类系统第一实施方式的结构示意图；

图4是本发明短文本的聚类系统第二实施方式的结构示意图。

具体实施方式

请参阅图1，图1是本发明短文本的聚类方法第一实施方式的流程示意图。

本实施方式的所述短文本的聚类方法包括以下步骤：

步骤101，获取短文本集中各短文本间的相似度。

步骤102，从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本。

步骤103，判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本。

步骤104，判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。

本实施方式所述的短文本的聚类方法，基于各短文本间的相似度，从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值，在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别，通过对比分别与两个短文本相似的短文本集合的重合度来聚类，在提高聚类精度的同时，可进而降低数据信息的丢失率，反映数据集中各短文本的真实数据信息。

其中，对于步骤101，优选地，可通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。

在一个实施例中，本发明所述的短文本的聚类方法，在所述获取短文本集中各短文本间的相似度的步骤之前，还包括以下步骤：

根据停用词词典，去除各短文本中已停用的词语、数字及标点符号，对各短文本中剩余的词语进行同义词语替换。

通过汉语词法分析系统ICTCLAS分词算法，对同义词语替换后的各短文本进行分词。

对分词后的各短文本进行词频统计。

其中，所述词频统计优选地为统计各个词语在短文本中出现的次数。

在另一个实施例中，所述获取短文本集中各短文本间的相似度的步骤包括以下步骤：

分别对所述短文本集的各短文本中的各词语进行词频统计，并根据各词语的词频统计值计算各词语在各短文本中的权重。

根据各词语在所述短文本集的任意两个短文本中的权重，计算所述任意两个短文本的相似度。

其中，优选地，所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤：

通过以下所述公式计算各词语在各短文本中的权重：

W_{i} = (1 / \sqrt{2 πσ}) \exp (- (p_{i} - μ) / {2 σ}^{2});

μ = Σ_{i = 1}^{N} p_{i} / N;

σ = \sqrt{Σ_{i = 1}^{N} {(p_{i} - μ)}^{2} / N};

其中，W_i为第i个词语在一个短文本中的权重，N为词语总数，P_i为第i个词语的词频统计值。

上述公式计算出的词语权重可精确反映出词语在短文本中的数据比重。

进一步地，所述根据各词语在所述短文本集的任意两个短文本中的权重，计算所述任意两个短文本的相似度的步骤包括以下步骤：

通过以下所述公式计算所述短文本集中任意两个短文本的相似度：

S_{i, j} = (X_{i} \cdot X_{j}) / (| X_{i} | \cdot | X_{j} |) = Σ_{k = 1}^{N} X_{k, i} \cdot X_{k, j} / \sqrt{Σ_{k = 1}^{N} {X_{k, i}}^{2} \cdot Σ_{k = 1}^{N} {X_{k, j}}^{2}};

X_{i} = {\overset{&RightArrow;}{W}}^{T} \cdot \overset{&RightArrow;}{I} / Σ_{k = 1}^{N} W_{k} \cdot I_{k};

{\overset{&RightArrow;}{W}}^{T} = {(W_{1}, W_{2}, . . ., W_{N})}^{T};

\overset{&RightArrow;}{I} = (I_{1}, I_{2}, . . . I_{N});

I_{k} = \{\begin{matrix} 1 \\ 0 \end{matrix};

其中，S_i,j为第i个短文本与第j个短文本之间的相似度，W_k为第k个词语在第i个短文本中的权重，X_i为所述短文本集中第i个短文本的归一化权重向量，X_k,i为第k个词语在第i个短文本中的权重值，

为所述短文本集中所有词语的权重向量的转置，当第k个词语在第i个短文本中出现时I_k的值为1，当第k个词语在第i个短文本中未出现时I_k的值为0。

通过上述公式可计算出精度较高的相似度。

对于步骤102，可提前对所述短文本集中的各短文本进行编号区分，还可设定所述短文本集中作为所述待处理文本的次序，为各短文本分类。

优选地，所述相似度阈值可根据计算量的大小以及最终期望达到的聚类精度进行设定。

在一个实施例中，所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合的步骤包括以下步骤：

分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本，生成分别与所述各个短文本对应的第一集合。

在其他实施方式中，还可在执行完步骤103或104后，回到步骤102，循环执行步骤102至104，直至将所述短文本集中所有短文本聚类。

对于步骤103，优选地，当所述第一集合为空或其中短文本的数量为0时，可将所述待处理短文本划分为噪声数据，可通过为所述待处理短文本设置噪声标记来划分噪声数据类。

优选地，可随机选取所述第一集合中的任意一个短文本为所述待标记短文本，还可根据预先设定的顺序，使所述第一集合中短文本顺次为所述待标记短文本。

在一个实施例中，所述从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合的步骤包括以下步骤：

分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本，生成分别与所述各个短文本对应的第二集合。

在其他实施方式中，还可循环执行步骤103，直至生成分别与所述第一集合中各个短文本对应的第二集合。将所述待处理文本与所述查找到的短文本中的多个短文本划分同一类别。

对于步骤104，所述文本数阈值优选地可预先根据期望的聚类精度和计算量大小设定。

在一个实施例中，在所述判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值的步骤之后，还包括以下步骤：

若未超过，则从所述第一集合中在再选取另一短文本作为待标记文本。

再次从所述短文本集中再次查找与所述待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合。

在本实施例中，可对所述查找到的短文中的各短文本依次执行上述操作。当对所述第一集合的短文本中的每个短文本均执行过上述操作后，还无法将所述待处理短文本与所述第一集合中的短文本中的任一短文本划分为同一类时，将所述待处理的短文本标记为二次处理对象，等待下一次的聚类处理。

优选地，当所述待处理文本无法与所述第一集合中任意一个短文本划分为一类时，可从所述短文本集中查找与所述二次处理对象的相似度大于所述相似度阈值的短文本，生成第三集合，获取所述第三集合内所有划分类别的短文本，将所述二次处理对象分别与获取的已划分类别的短文本划分为同一类别。

其中，所述二次处理对象是边界对象，是在上面步骤101-步骤104中无法划分类别的对象，因此，通过上述操作，二次处理对象会划分到两个或两个以上的类别中，即对所述二次处理对象进行了模糊聚类。

在另一个实施例中，所述将所述待处理短文本与所述待标记短文本划分为同一类别的步骤还包括以下步骤：

判断所述待标记短文本是否已有标记类别。

若是，则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类。

若否，则将所述待处理短文本与所述待标记短文本划分为一个新的类别。

请参阅图2，图2所示是本发明短文本的聚类方法第二实施方式的流程示意图。

本实施方式所述的短文本的聚类方法与第一实施方式的区别在于：当所述短文本集中所有短文本均已划分类别时，还包括以下步骤：

步骤201，获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目。

步骤202，通过以下公式计算用于表征聚类精度的特征值：

P = Σ_{i = 1, j = 2}^{C, i < j} - 1 / c \cdot \log_{C} (2 \cdot E_{i, j}) / (Q_{i} + Q_{j});

其中，P为特征值，C为类别数目，Q_i为第i个类别中的短文本数目，E_i,j为第i个类别与第j个类别中相同短文本的数目。

本实施方式所述的短文本聚类方法，可对聚类结果进行评价，特征值越小则聚类结果越好，不同类别间的界限也越明显。

以下所述是本发明短文本的聚类方法的第三实施方式。

本实施方式所述的短文本的聚类方法与第一与第二实施方式的区别在于：用相似度矩阵的形式标记各短文本之间的相似度，通过计算机语言执行上述聚类操作，用扫描半径eps标识所述相似度阈值，用最小包含点数minpts标识所述文本数阈值，并具体包括以下步骤：

步骤301，输入最小包含点数minPts和扫描半径eps，并初始化待处理队列D。

步骤302，从所述短文本集中随机选择一短文本对象P加入待处理队列D。

步骤303，从待处理队列中D取出对象P，扫面其eps邻域，若其邻域内没有包含任何短文本对象，则标记对象P为噪声数据，并回到步骤302，若其领域内包含有短文本对象，则用对象集合O标识所包含的短文本对象，并执行步骤304。

步骤304，对象集合O中每一个对象O_i，扫描其邻域，如果对象O_i邻域内包含的短文本对象与对象P邻域内的短文本对象中相同短文本对象的个数超过minPts，且对象O_i具有簇标记Y，则为对象P增加簇标记Y，记录P的可达对象为O_i，并标记P为已处理，并返回步骤303，如果没有超过minPts，则转入步骤305，如果对象O_i具有簇标记，则转入步骤305。

步骤305，如果对象P依然没有标记，且其可达对象集合不为空，则新建簇M，并将对象P标记为簇M，标记P为已处理，返回步骤302。如果对象P依然没有标记，且其可达对象集合为空，则将P加入至二次处理对象集合E，返回步骤302。

步骤306，当对象集合中所有对象均已处理完毕，则循环处理需要二次处理的集合E中对象，扫描其邻域内所有已标记对象，将邻域内已标记对象所有的簇标记均添加至此对象。

步骤307，输出每个对象及其簇标记，噪声数据则标记为“噪声”。

本实施方式所述的短文本的聚类方法，可对属于边界对象二次处理对象集合中的短文本进行模糊分类，为其短文本标记两个或两个以上的簇标识。

请参阅图3，图3是本发明短文本的聚类系统第一实施方式的结构示意图。

本实施方式的所述短文本的聚类系统包括获取模块100、第一查找模块200、第二查找模块300和聚类模块400，其中：

获取模块100，用于获取短文本集中各短文本间的相似度。

第一查找模块200，用于从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合，其中，所述待处理短文本为所述短文本集中任意一个短文本。

第二查找模块300，用于判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合，其中，所述待标记短文本为所述第一集合中任意一个短文本。

聚类模块400，用于判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别。

本实施方式所述的短文本的聚类系统，基于各短文本间的相似度，从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，并从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，通过比较所述查找到的短文本与再次查找到的短文中相同短文本的数目是否超过文本数阈值，在相同短文本的数目超过阈值时将所述待处理短文本与所述待标记短文本划分为同一类别，通过对比分别与两个短文本相似的短文本集合的重合度来聚类，在提高聚类精度的同时，可进而降低数据信息的丢失率，反映数据集中各短文本的真实数据信息。

其中，对于获取模块100，优选地，通过短文本中各词语的词频权重计算各短文两两之间的相似度。还可以进一步将所述短文本集中各短文本间的相似度转换为所述短文本集的相似度矩阵。

在一个实施例中，本发明所述的短文本的聚类系统，还可包括预处理模块，用于在所述获取短文本集中各短文本间的相似度之前：

对分词后的各短文本进行词频统计。

在另一个实施例中，获取模块100还可用于：

其中，优选地，获取模块100可通过以下所述公式计算各词语在各短文本中的权重：

W_{i} = (1 / \sqrt{2 πσ}) \exp (- (p_{i} - μ) / {2 σ}^{2});

μ = Σ_{i = 1}^{N} p_{i} / N;

σ = \sqrt{Σ_{i = 1}^{N} {(p_{i} - μ)}^{2} / N};

进一步地，获取模块100可通过以下所述公式计算所述短文本集中任意两个短文本的相似度：

S_{i, j} = (X_{i} \cdot X_{j}) / (| X_{i} | \cdot | X_{j} |) = Σ_{k = 1}^{N} X_{k, i} \cdot X_{k, j} / \sqrt{Σ_{k = 1}^{N} {X_{k, i}}^{2} \cdot Σ_{k = 1}^{N} {X_{k, j}}^{2}};

X_{i} = {\overset{&RightArrow;}{W}}^{T} \cdot \overset{&RightArrow;}{I} / Σ_{k = 1}^{N} W_{k} \cdot I_{k};

{\overset{&RightArrow;}{W}}^{T} = {(W_{1}, W_{2}, . . ., W_{N})}^{T};

\overset{&RightArrow;}{I} = (I_{1}, I_{2}, . . . I_{N});

I_{k} = \{\begin{matrix} 1 \\ 0 \end{matrix};

其中，S_i,j为第i个短文本与第j个短文本之间的相似度，W_k为第k个词语在第i个短文本中的权重，X_i为所述短文本集中第i个短文本的归一化权重向量，X_k，i为第k个词语在第i个短文本中的权重值，

通过上述公式可计算出精度较高的相似度。

对于第一查找模块200，可提前对所述短文本集中的各短文本进行编号区分，还可设定所述短文本集中作为所述待处理文本的次序，为各短文本分类。

在一个实施例中，第一查找模块200可用于分别从所述短文本集中查找与所述短文本集中各个短文本间的相似度大于所述相似度阈值的短文本，生成分别与所述各个短文本对应的第一集合。

对于第二查找模块300，优选地，当所述第一集合为空或其中短文本的数量为0时，可将所述待处理短文本划分为噪声数据，可通过为所述待处理短文本设置噪声标记来划分噪声数据类。

在一个实施例中，第二查找模块300可用于分别从所述短文本集中再次查找与所述第一集合中各个短文本间的相似度大于所述相似度阈值的短文本，生成分别与所述各个短文本对应的第二集合。

对于聚类模块400，所述文本数阈值优选地可预先根据期望的聚类精度和计算量大小设定。

在一个实施例中，聚类模块400可用于：

判断所述待标记短文本是否已有标记类别。

请参阅图4，图4所示是本发明短文本的聚类系统第二实施方式的结构示意图。

本实施方式所述的短文本的聚类系统与第一实施方式的区别在于：还包括精度模块500，用于在所述短文本集中所有短文本均已分类时：

获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目。

通过以下公式计算用于表征聚类精度的特征值：

P = Σ_{i = 1, j = 2}^{C, i < j} - 1 / c \cdot \log_{C} (2 \cdot E_{i, j}) / (Q_{i} + Q_{j});

本实施方式所述的短文本的聚类系统，可对聚类结果进行评价，特征值越小则聚类结果越好，不同类别间的界限也越明显。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种短文本的聚类方法，其特征在于，包括以下步骤:

获取短文本集中各短文本间的相似度；

2.根据权利要求1所述的短文本的聚类方法，其特征在于，所述获取短文本集中各短文本间的相似度的步骤包括以下步骤：

分别对所述短文本集的各短文本中的各词语进行词频统计，并根据各词语的词频统计值计算各词语在各短文本中的权重；

3.根据权利要求2所述的短文本的聚类方法，其特征在于，所述根据各词语的词频统计值计算各词语在各短文本中的权重的步骤包括以下步骤：

通过以下所述公式计算各词语在各短文本中的权重：

W_{i} = (1 / \sqrt{2 πσ}) \exp (- (p_{i} - μ) / {2 σ}^{2});

μ = Σ_{i = 1}^{N} p_{i} / N;

σ = \sqrt{Σ_{i = 1}^{N} {(p_{i} - μ)}^{2} / N};

4.根据权利要求2所述的短文本的聚类方法，其特征在于，所述根据各词语在所述短文本集的任意两个短文本中的权重，计算所述任意两个短文本的相似度的步骤包括以下步骤：

S_{i, j} = (X_{i} \cdot X_{j}) / (| X_{i} | \cdot | X_{j} |) = Σ_{k = 1}^{N} X_{k, i} \cdot X_{k, j} / \sqrt{Σ_{k = 1}^{N} {X_{k, i}}^{2} \cdot Σ_{k = 1}^{N} {X_{k, j}}^{2}};

X_{i} = {\overset{&RightArrow;}{W}}^{T} \cdot \overset{&RightArrow;}{I} / Σ_{k = 1}^{N} W_{k} \cdot I_{k};

{\overset{&RightArrow;}{W}}^{T} = {(W_{1}, W_{2}, . . ., W_{N})}^{T};

\overset{&RightArrow;}{I} = (I_{1}, I_{2}, . . . I_{N});

I_{k} = \{\begin{matrix} 1 \\ 0 \end{matrix};

T为所述短文本集中所有词语的权重向量的转置，当第k个词语在第i个短文本中出现时I_k的值为1，当第k个词语在第i个短文本中未出现时I_k的值为0。

5.根据权利要求1所述的短文本的聚类方法，其特征在于，所述将所述待处理短文本与所述待标记短文本划分为同一类别的步骤还包括以下步骤：

判断所述待标记短文本是否已有标记类别；

若是，则将所述待处理短文本与所述待标记短文本已有的标记类别划分为一类；

6.根据权利要求1所述的短文本的聚类方法，其特征在于，所述从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合的步骤包括以下步骤：

7.根据权利要求1至6中任意一项所述的短文本的聚类方法，其特征在于，所述从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合的步骤包括以下步骤：

8.根据权利要求7所述的短文本的聚类方法，其特征在于，当所述短文本集中所有短文本均已划分类别时，还包括以下步骤：

获取所述短文本集中所包含的类别数目、每个类别中的短文本数目、以及各类别间的相同短文本数目；

通过以下公式计算用于表征聚类精度的特征值：

P = Σ_{i = 1, j = 2}^{C, i < j} - 1 / c \cdot \log_{C} (2 \cdot E_{i, j}) / (Q_{i} + Q_{j});

9.一种短文本的聚类系统，其特征在于，包括:

获取模块，用于获取短文本集中各短文本间的相似度；

10.根据权利要求9所述的短文本的聚类系统，其特征在于，所述获取模块还用于：