CN109614484A

CN109614484A - 一种基于分类效用的文本聚类方法及其系统

Info

Publication number: CN109614484A
Application number: CN201811331547.4A
Authority: CN
Inventors: 蔡毅; 徐静云; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-04-12

Abstract

本发明公开了一种基于分类效用的文本聚类方法，包括：(1)对输入数据集进行预处理；(2)将文本转化为特征向量；(3)计算两两向量之间的夹角余弦值，比较两者的相似度；(4)选择相似度最高的两个类进行合并，计算新类与其他类的相似度；(5)计算合并后分类效用的值，并将该值与合并后的聚类结果分别存储在两个列表中；(6)重复步骤(4)和(5)，直至聚类个数为1或者任意两个类之间相似度为0；(7)找到分类效用的最大值，输出该值所对应的聚类结果；(8)对文本进行第二次聚类，输出分类效用值最大时所对应的聚类结果。本发明具有使得机器对数据的处理过程更加符合人类的认知、帮助用户挖掘潜在知识规律的优点。

Description

一种基于分类效用的文本聚类方法及其系统

技术领域

本发明涉及文本聚类领域，尤其涉及一种基于分类效用的文本聚类方法及其系统。

背景技术

随着大规模分享和应用信息时代的来临，作为重要的信息载体之一，文本呈爆炸式增长的数据量已经远超人们处理的速度，在这种情况下，传统的通过手工方式对数据进行分析是不可行的，人们需要的是利用计算机，使得处理和分析大规模文本数据的过程自动化。因此，数据挖掘应运而生。作为数据挖掘重要技术之一的文本聚类，对其进行研究能够更合理、更有效地利用现有的数据资源。

与文本分类技术相对的，文件聚类的输入是未知类别标签的文档，而文本聚类技术可以自动地根据文档的特征，尽可能地将相似的文档聚在同一个类中，将相异的文档聚在不同类中，由于文本聚类可以处理未知类别标签的文档，更符合实际情况，因此被广泛运用在现实生活中。文件聚类可以用于多文档自动摘要，还可以通过分析用户浏览过的文档，发现用户的兴趣所在，进行相关的推送服务。

目前的文本聚类算法主要有两种，一种是基于层次的文本聚类算法，另一种是k-means算法及其变种算法。但是这两种算法仍然存在着不足之处，前者需要设置终止条件，后者需要设置聚类的个数，即这两种算法都需要用户输入参数。然而现实生活中针对不同的问题需要获得不同的聚类结果，因此终止条件的设定和聚类的个数都会受到环境因素的影响。对于用户来说，可以较准确地设置所需的参数，达到预期的文本聚类效果，但是对于计算机来说，就需要用户的参与才能够较准确地设置参数。所以，如何减少用户的参与，即在用户输入参数最少的情况下，让计算机自动进行文本聚类，是当前的一大难题。

文本聚类：文本聚类为一种无监督的机器学习方法，文本聚类与文本分类的主要区别是文本聚类不需要训练过程，不需要预先对文本类别进行手动标注。而文本分类则需要将数据集按照一定的规则拆分为训练集和测试集，并且预定义好文本的类别，即给每个文本贴上类别标签。

基本层次类别：是指在类别层次结构中，有一个层次处于类别层次结构的中间，人类认知事务时会无意识、自动将新事物映射到处于基本层次的类别中，认知心理学家把这种现象叫做基本层次分类，而处于基本层次上的类别叫做基本层次类别。

认知心理学家通过研究发现基本层次类别最重要的性质是类内相似度最大，类间相似度最小，这与文本聚类的目的：使最相似的文本尽可能地聚在同一个类中，相异的文档尽可能地聚在不同类中，不谋而合。

发明内容

本发明的目的在于提供一种基于分类效用的文本聚类方法，所述方法通过引入认知心理中的分类效用概念，将其与层次聚类算法相结合，有效地解决了本文聚类算法需要设定参数的问题。

本发明的目的能够通过以下技术方案实现：

一种基于分类效用的文本聚类方法，具体步骤包括：

(1)输入文本数据集，对文本数据集进行预处理；

(2)使用无监督的特征选择和特征权重计算方法，将文本转化为特征向量；

(3)计算两两向量之间的夹角余弦值，根据所得结果比较相应两两文本间的相似度，并将其存储在相似度矩阵中；

(4)根据相似度矩阵，选择相似度最高的两个类进行合并，用这两个类的向量的均值来表示合并后的新类，计算新类与其他类的相似度，更新相似度矩阵；

(5)计算合并后分类效用的值，并将该值与合并后的聚类结果分别存储在两个列表中；

(6)重复步骤(4)和(5)，直至聚类个数为1或者任意两个类之间相似度为0时，停止聚类；

(7)从分类效用值的存储列表中找到分类效用的最大值，输出该值所对应的聚类结果；

(8)根据第一次聚类得到的类别信息，使用有监督的方法重新处理文本，用相同的方法对文本进行第二次聚类，输出分类效用值最大时所对应的聚类结果。

具体地，所述步骤(1)中的预处理包括分词、词干提取和词型还原、过滤停用词和标点符号。所述分词是将原始文本的数据转换为更小的单元。目前普通使用的分词方法包括词袋模型和n-gram模型。

更进一步地，所述分词处理具体为：找出所有不重复的数据，然后给每个数据当作一个需要分类的文本，赋予唯一的ID号，并构建文本和ID号之间的映射，然后根据文本的内容，对文本进行切分。其中，将输入数据集中的每条文本都进行分词处理，英文文本按照空格进行切分，中文文本采用分词工具进行切分。

所述词干提取和词型还原是对原始文本的数据进行提取文本中词语的词干，进行词型还原。

所述过滤停用词和标点符号是将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉，提高文本聚类结果的质量。采用停用词表以及选定以构建标点符号词典的方式，来对停用词和标点符号进行过滤。

具体地，所述步骤(2)中的特征选择具体为：对于所有文本中出现的词构造一个词汇表，从词汇表中选出最能代表文本，最具有统计意义的词。所采用的是最普遍的特征选择方法-计算词语的频率，即统计每个词在每个文本中出现的次数，出现次数越多越能够代表文本所想要表达的主题。此外，特征选择的方法还有互信息卡方检测等。

所述步骤(2)中的特征权重具体为：给每一个特征赋值，值越高就代表这个词语对于文本的贡献越大。常用的特征权重计算的方法有tf、idf、df、chi等。其中，最常用的特征权重计算方法为tf*idf，即用每一个词语在一篇文档中出现的次数乘上语料库中的文档总数，再除于这个词语在所有文档中出现的次数。

具体地，在所述步骤(3)中，对经过步骤(2)转化的每一份文档，即一个固定长度的向量，依次遍历语料库中的每篇文档，将其与其他文档两两计算表示向量的余弦相似值，用这个值来代表两篇文档的相似性，并将其存储在相似度矩阵中，余弦相似值越高说明这两篇文档越相似。

具体地，在所述步骤(4)中，如果表示一个类的向量与表示另一个类或者一篇文档的向量的相似度最高，也会用表示这两个类中所有实例的向量的均值或者表示这个类与那篇文档的向量的均值来代表合并后的新类。之后再计算新类与其他类的相似度，更新相似度矩阵；

具体地，在所述步骤(5)中，对经过步骤(4)得到的新的类别集合，利用分类效用函数计算出该类别集合的分类效用值，一个类别集合的分类效用值越高，代表这个类别集合更加地符合人类认知。

在本发明中用于计算分类效用值的分类效用函数的表示方式为：

其中，C表示类别集合，F表示特征集合，f_i表示特征集合中的一个特征，p(f_i|c_k)表示在类别c_k中，一个实例拥有特征f_i的概率，p(c_k)表示一个实例属于类别c_k的概率，p(f_i)表示在整个数据集中，一个实例拥有特征f_i的概率，n表示特征总数，m表示类别总数。

在进行聚类分析之后，采用不同的聚类质量评价指标来判别聚类算法的好坏，以及通过将聚类过程可视化的方法，能够更加直观地理解高维度的聚类过程。

所述系统评估是通过对文本类别的分类正确与否的判断来间接地评估文本聚类算法的结果；

所述系统可视化是通过一种高维度数据的可视化手段，将文本聚类的方法以图形的方式展现。

本发明的另一目的在于提供一种基于分类效用的文本聚类系统，所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块；

所述分词模块，用于将自然语言文本转换为更小的单元；

所述词干提取和词型还原模块，用于通过使用不同的词型词典，将表达相同意思的词还原成同一个词；

所述过滤停用词和标点符号模块，用于将对表达文本的本质内容没有任何作用的停用词以及标点符号过滤掉；

所述特征选择和计算特征权重模块，用于从文本中选出最能代表文本和最具统计意义的词作为特征，并对每一个特征进行赋值；

所述文本聚类模块，用于通过基于分类效用的文本聚类方法，对赋值后的特征进行聚类，得到基本层次类别的信息，并输出聚类结果。

所述评估和可视化模块，用于采用不同的聚类质量评价指标来判别聚类算法的好坏，并将聚类过程可视化。

具体地，在所述文本聚类模块中，具体的工作过程为：对特征选择和计算特征权重模块输出的赋值后的特征文本，利用凝聚型层次聚类算法对文本进行聚类分析，计算每次合并后分类效用的值，直到文本之间的相似度为0，即没有再相似的文本可以进行合并或者所有文本都划分到同一类中时停止，将这个过程中分类效用的值最大时对应的结果输出，输出结果为基本层次类别。根据第一次聚类得到的类别信息，采用有监督的特征选择和特征权重计算算法对文本进行处理，重复上述过程，输出分类效用值最大时所对应的聚类结果。

本发明相较于现有技术，具有以下的有益效果：

1、本发明从认知心理学的角度出发，将文本聚类的目的转化为寻找最符合人类认知的类别，使得每次文本聚类的结果不受环境的影响且尽可能地从用户的角度出发所得到，更加符合人类的基本认知，从而有效地解决了文本聚类算法所需要设定参数的问题。

附图说明

图1为一种基于分类效用的文本聚类方法的具体步骤流程图。

图2为一种基于分类效用的文本聚类方法中主要操作步骤的顺序图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

在本实施例中有两篇文档，文档A＝‘北京到兰州的机票’和文档B＝‘北京到兰州的物流’。

如图1所示为一种基于分类效用的文本聚类方法的具体步骤流程图，具体步骤包括：

(1)输入文本数据集，对数据集进行预处理；

对于本实施例的两篇文档，文档A＝‘北京到兰州的机票’应该聚到类别‘交通’中，文档B＝‘北京到兰州的物流’应该聚到类别‘物流’中。

对于本实施例的两篇文档，构建一个词表＝[‘北京’，‘兰州’，‘机票’，‘物流’]，其中每个词语的idf值分别是1，1，0.5，0.5文档A用这个词表构成的一个向量空间来表示＝[1，1，0.5，0]，文档B可以用向量[1,1,0,0.5]来表示。

(4)根据相似度矩阵，选择相似度最高的两个类进行合并，用这两个类中所有实例的均值来代表合并后的新类，计算新类与其他类的相似度，更新相似度矩阵；

相比于无监督的特征权重计算方法，有监督的特征权重计算考虑到了类别信息的重要性，上文提到的例子中，由于‘兰州’在语料库中出现了两次，无监督的特征权重计算方法会使得模型把‘兰州’当作一个关键词，但是实际上，‘物流’和‘机票’这两个词语在类别中的分布不平衡，更加具有类别辨识度，因此，使用监督的方法重新处理文本，能够使得模型识别出更加重要的特征，指导模型正确地把文本类别聚集在一起。

具体地，在本发明的文本方法聚类之后，通过采用不同的聚类质量评价指标来判别聚类算法的好坏，而且通过将聚类过程可视化，使得能够更加直观地理解将高维度进行聚类的过程。

本发明方法的主要操作步骤如图2所示。

本发明方法的具体算法流程如下:

一种基于分类效用的文本聚类系统，所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块；

所述分词模块，用于将自然语言文本转换为更小的单元；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于分类效用的文本聚类方法，其特征在于，具体步骤包括：

(1)输入文本数据集，对文本数据集进行预处理；

2.根据权利要求1所述的一种基于分类效用的文本聚类方法，其特征在于，所述步骤(1)中的预处理包括分词、词干提取和词型还原、过滤停用词和标点符号。

3.根据权利要求2所述的一种基于分类效用的文本聚类方法，其特征在于，所述分词处理具体操作为：找出所有不重复的数据，然后给每个数据当作一个需要分类的文本，赋予唯一的ID号，并构建文本和ID号之间的映射，然后根据文本的内容，对文本进行切分；其中，将输入数据集中的每条文本都进行分词处理，英文文本按照空格进行切分，中文文本采用分词工具进行切分。

4.根据权利要求2所述的一种基于分类效用的文本聚类方法，其特征在于，所述预处理中中采用停用词表以及选定以构建标点符号词典的方式，来对停用词和标点符号进行过滤。

5.根据权利要求1所述的一种基于分类效用的文本聚类方法，其特征在于，步骤(5)用于计算分类效用值的分类效用函数的表示方式为：

6.根据权利要求1所述的一种基于分类效用的文本聚类方法，其特征在于，在进行聚类分析之后，采用不同的聚类质量评价指标来判别聚类算法的好坏，以及通过将聚类过程可视化的方法，能够更加直观地理解高维度的聚类过程。

7.一种用于实现权利要求1-5的基于分类效用的文本聚类系统，其特征在于，所述系统包括分词模块、词干提取和词型还原模块、过滤停用词和标点符号模块、特征选择和计算特征权重模块、文本聚类模块以及评估和可视化模块；

所述分词模块，用于将自然语言文本转换为更小的单元；

所述文本聚类模块，用于通过基于分类效用的文本聚类方法，对赋值后的特征进行聚类，得到基本层次类别的信息，并输出聚类结果；

8.根据权利要求6所示的一种基于分类效用的文本聚类系统，其特征在于，在所述文本聚类模块中，具体的工作过程为：对特征选择和计算特征权重模块输出的赋值后的特征文本，利用凝聚型层次聚类算法对文本进行聚类分析，计算每次合并后分类效用的值，直到文本之间的相似度为0，即没有再相似的文本可以进行合并或者所有文本都划分到同一类中时停止，将这个过程中分类效用的值最大时对应的结果输出，输出结果为基本层次类别；根据第一次聚类得到的类别信息，采用有监督的特征选择和特征权重计算算法对文本进行处理，重复上述过程，输出分类效用值最大时所对应的聚类结果。