CN107590218B

CN107590218B - 基于Spark的多特征结合中文文本高效聚类方法

Info

Publication number: CN107590218B
Application number: CN201710777064.6A
Authority: CN
Inventors: 蔡晨晓; 毕涛; 徐杨; 卜京; 姚娟; 殷明慧
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2020-11-06
Anticipated expiration: 2037-09-01
Also published as: CN107590218A

Abstract

本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法，该方法利用HDFS文件系统的高容错性、高数据访问吞吐量，将大量的数据集上传到HDFS文件系统中，然后进行数据预处理，通过客户端提交到Spark集群；完成文本集预处理后，将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度，然后将两种相似度进行结合，得到最终的文本相似度，利用得到的文本相似度，并结合最大距离法，进行文本聚类。本发明将语义信息和词频统计信息结合在一起，使得文本相似度的计算更加准确，同时极大减少了迭代的次数。

Description

基于Spark的多特征结合中文文本高效聚类方法

技术领域

本发明属于机器学习领域，特别是一种基于Spark的多特征结合中文文本高效聚类方法。

背景技术

聚类技术是机器学习领域中的一种，它主要是依据样本数据之间的差别及不同参数，将原始样本数据集划分成几种差异较大的数据类别。因此聚类的最终目标是要使得划分到相同数据簇中的不同样本之间的差异较小，而划分到不同数据簇中的样本之间的差异要较大。

文本聚类技术是聚类里面的一种，其主要是按照如下的原理：属于同一个簇的文本之间的差异性较小，而属于不同簇的文本之间差异性较大。与分类不同，聚类技术属于一类无监督的机器学习方法，它需要按照外部给定的某个性能指标，将原始样本集依据此指标进行划分，从而使得相似的文本被划分到同一个类别中。文本聚类技术一般是先按照VSM(VectorSpaceModel，向量空间模型)把原始文本数据转换成为一种高维空间中的向量，其次按照之前所述的某种性能指标将转换后的向量进行聚类分析。不同于英文文本，中文文本是按照标点符号进行划分的，所以为了能够提取到文本的关键特征，必须先对中文文本进行分词处理，其次再进行转化和聚类操作。

文本聚类的作用很广泛，它通过相关性分析将相似的文本归到同一个类别中，从而可以更好地挖掘它们之间内在的联系；其次，文本聚类还可以为自然语言处理等技术提供一些帮助；除此之外，它能够挖掘用户的兴趣模式，找出文本潜在的主题，用于信息过滤和主动推荐。

目前大多数的机器学习算法都是串行的，当数据量不大时，这种方法还是比较有效的。但随着云计算和大数据时代的来临，数据呈爆炸式的趋势增长，这使得串行算法计算效率低下，计算成本和时间成本成倍地增加，所以之前的串行单机算法已经无法满足大数据处理的要求。同时现有的并行计算资源和设备的利用率并不是很高，而且需要专门的服务器，不能将普通的PC机直接连接利用起来。Hadoop虽然可以满足一部分的大数据处理要求，但它是通过Map函数和Reduce函数来实现的，Map函数和Reduce函数之间的通信都是通过HDFS文件系统所建立的，这样会使得Hadoop读写HDFS文件系统的次数增加，从而导致网络传输的增加。而Spark平台是基于内存计算的分布式框架，它把要计算的数据和中间计算结果缓存到内存中，这样可以大大减少读写磁盘的次数，从而降低了网络传输带来的耗时和占用空间的代价。

文本聚类技术从原理上来说一般可以分为两种，分别是划分法以及层次法。其中，划分法主要考虑的是K-means聚类算法，该种算法的计算效率很高，能够处理大批量的文本集数据。然而此算法可以确保局部最优，但是不能确保全局最优，其次该方法的初始簇中心的选择是随机的，这会使得最终的聚类结果不具有稳定性。而层次法主要考虑的则是谱聚类，它的基本原理是将样本数据集看作是一棵树，每个样本是树上的一个分支，该方法依据分解形式的不同，也形成了两种结构，分别是自底往上和自顶往下。层次法的优势明显，它的计算准确度较高，然而该方法的计算速度太慢，复杂度也较高，不太适合数据量的处理。

在文本聚类领域中，目前用的最多的还是K-means算法以及基于此算法的一些改进算法。但是目前的算法普遍存在以下一些缺点：

(1)高维稀疏：目前的文本聚类算法都是基于VSM模型进行计算的，虽然这种模型非常简单，但是由于此模型是将文本表示成向量，从而导致了高维向量的产生，这就使得计算复杂度和时间复杂度的增加。

(2)语义信息丢失，聚类特征单一化：在基于TF-IDF权重的文本相似度计算中，由于没有考虑词与词之间的语义相似度，使得聚类的效果不佳。

(3)耗时长，占用空间大：目前大多数算法都是基于单机进行的，单机处理数据耗时长，计算效率低。

背景技术中涉及的术语解释如下：

(1)特征项

在数据处理模型中每一个特征项代表了一个对词项有用的特征属性，其值称为特征项权重，其计算方法有TF(单一词频)、TF-IDF(词频-逆文档频率)等。

(2)TF-IDF(词频-逆文档频率)

TF代表的是词频，它是词项t在文本d中出现的频率，IDF代表的是逆文档频率，用log(N/df)表示，其中N代表总的文本数，df代表出现该词条的文本数。

(3)VSM(向量空间模型)

将文本进行一系列的分析处理后，转化为相应的向量，向量的维度为文本中对应的特征项的数目，而向量中每一维的数值则为特征项对应的权重。每一个文本都转化成一个向量，最后会形成一个矩阵，由于文本中的特征各不相同，所以对应的向量取值也不同，这样会导致向量非常稀疏，从而形成的矩阵为稀疏矩阵。

(4)RDD(弹性分布式数据集)

RDD是Spark中一个容错的、并行的数据结构，可以根据用户的要求将数据存储到磁盘和内存中，并且能根据用户的设定来设置分区数量。

发明内容

本发明的目的在于提供一种基于Spark的多特征结合中文文本高效聚类方法。

实现本发明目的的技术方案为：一种基于Spark的多特征结合中文文本高效聚类方法，包括以下步骤：

步骤1：在物理服务器上搭建Spark平台以及HDFS文件系统；

步骤2：将原始文本数据集上传到HDFS文件系统中，利用ICTCLAS汉语分词系统和Hadoop并行计算平台将原始文本数据集进行并行分词处理，并重新上传至HDFS文件系统中；

步骤3：Spark平台从HDFS文件系统中读入分好词后的数据集，将其转化为弹性分布式数据集RDD，并根据用户程序中设定的RDD中分区的数目来启动一定数目的并发线程读取数据，并将其存储在系统内存中；

步骤4：按照RDD中分区之间的相互依赖关系，Spark作业调度系统将写好的应用程序拆分为不同的任务组，然后并行运行各个任务组中的任务；

步骤5：对读取到的数据进行预处理，将步骤3中缓存在RDD中的数据转化为纯文本的形式，过滤掉停用词；

步骤6：对预处理后的文本进行降维处理，挑选出对文本表示贡献最大的词项；

步骤7：将步骤6中得到的数据利用文本深度表示模型Word2Vec计算出每个词项的词向量，从而得到文本的语义相似度；

步骤8：将步骤6中得到的数据按照TF-IDF计算公式重新计算每个词项在各自文本中所占的权重，然后将每篇文本的词项的TF-IDF权重按词项顺序组合成一个向量来表示文本，计算得到所有向量之间的余弦相似度，以此来表示文本之间的余弦相似度；

步骤9：将步骤7得到的文本语义相似度与步骤8得到的文本余弦相似度进行结合，计算得到最终的文本相似度；

步骤10：利用最大距离法对文本进行聚类，计算得到最终的聚类结果。

本发明与现有技术相比，其显著优点为：

(1)本发明基于Spark的文本高效聚类算法，大大地了文本聚类的计算效率，降低了计算成本和时间成本；

(2)本发明利用文本深度表示模型Word2Vec来计算文本之间的语义相似度，相比于其它的语义相似度计算方法，本发明提出的方法不依赖于外部的知识库，可以在很大程度上降低计算的复杂度；

(3)本发明将文本语义相似度与基于词频统计的余弦相似度进行结合，以达到更好的文本聚类效果。

下面结合附图对本发明作进一步的详细描述：

附图说明

图1为本发明的基于Spark的多特征结合中文文本高效聚类方法流程图。

图2为本发明实施例提供的数据预处理时数据集的变化图。

图3为本发明实施例提供的计算语义相似度时数据集的变化图。

图4为本发明实施例提供的计算词频统计余弦相似度时数据集的变化图。

图5为三种聚类算法的总耗时示意图。

具体实施方式

结合图1，一种基于Spark的多特征结合中文文本高效聚类方法，包括以下步骤：

步骤1：在物理服务器上搭建Spark平台以及HDFS文件系统(Hadoop DistributedFile System，Hadoop分布式文件系统)；

步骤2：将原始文本数据集上传到HDFS文件系统中，利用ICTCLAS汉语分词系统(Institute of Computing Technology，Chinese Lexical Analysis System)和Hadoop并行计算平台将原始文本数据集进行并行分词处理，并重新上传至HDFS文件系统中；

步骤3：Spark平台从HDFS文件系统中读入分好词后的数据集，将其转化为弹性分布式数据集RDD(Resilient Distributed Datasets)，并根据用户程序中设定的RDD中分区的数目来启动一定数目的并发线程读取数据，并将其存储在系统内存中；

进一步的，步骤5中对所述RDD数据进行预处理的具体过程为：

Spark平台的各个工作节点从字符串类型的RDD中读取数据进行操作，首先对读取到的数据进行筛选，从中筛选出名词、动词以及形容词，因为这些实词最能代表文本的内容；其次，将所有的人名、地名以及机构名进行统一的替换，使得这些词对文本的贡献度降到最小；最后按照停用词字典进行Filter过滤操作，过滤掉停用词。

进一步的，步骤6中对文本进行降维处理的具体过程为：

对步骤5中得到的数据进行TF-IDF权重计算，其次将每篇文本中的词项按照权重的大小进行排序，本发明采用选择关键词项的方法对文本进行降维处理，实验选取了每篇文本的前40％、60％以及80％的词项，并分别对其进行传统的K-means聚类，其中选择60％的词项的文本聚类效果最好，这是因为选择80％的词项的冗余信息较多，对聚类会产生较大的干扰，而选择40％的词项包含的文本信息太少，也不能达到较好的聚类效果，所以这里选择每篇文本的前60％的词项来表示该篇文本，作为该篇文本的关键词项。

进一步的，步骤7中计算文本语义相似度的具体过程为：

对于步骤6中降维处理后得到的每篇文本中的词项，利用文本深度表示模型Word2Vec得到每个词项的词向量，进而计算词项与词项之间的语义相似度。得到词项之间的语义相似度之后，就可以计算出权利要求3中的关键词项集合的语义相似度，具体计算公式由式(1)给出：

在得到关键词项集合的语义相似度之后，就可以用关键词项集合的语义相似度来表示文本之间的语义相似度，其中sim(w_1k,w_2l)表示两个关键词项之间的语义相似度，m是第一篇文本的关键词项数，n是第二篇文本的关键词项数，V₁,V₂表示任意两篇文本的关键词项集合，其定义由式(2)给出：

进一步的，步骤8中计算文本余弦相似度的具体过程为：

对于步骤6中降维处理后得到的每篇文本中的词项，重新计算每个词项在各自文本中的TF-IDF权重，然后按照词项顺序将权值进行组合，形成一个向量，计算向量之间的余弦相似度，从而得到文本之间的余弦相似度Cosim(V₁,V₂)。

进一步的，步骤9中计算最终文本相似度的具体过程由式(3)给出：

Textsim(V₁,V₂)＝wf*Vecsim(V₁,V₂)+(1-wf)*Cosim(V₁,V₂) (3)

其中wf为语义加权因子，具体的计算过程由式(4)给出：

其中，TFIDF(w_1k)表示关键词w_1k在对应文本中的TF-IDF权值。式(4)中的集合Λ₁和Λ₂的定义由式(5)给出：

其中，μ为用户设定的相似度阈值。

进一步的，步骤10中利用最大距离法对中文文本进行聚类的具体过程为：

步骤10-1，计算各个文本之间的距离，找到最大的距离所对应的两个文本d₁、d₂，并将其作为初始聚类中心。

步骤10-2，在剩余的文本数据集中，选取满足式(6)的样本点d₃作为第三个初始聚类中心，依次类推，直至得到所有的初始聚类中心。

dis(d₁,d₃)*dis(d₂,d₃)≥dis(d₁,d_i)*dis(d₂,d_i) (6)

其中，d_i为除d₁、d₂、d₃外的任一文本。

步骤10-3，计算剩余文本与各个聚类中心的距离，并将其归入距离最近的簇。

步骤10-4，重新计算每个簇的聚类中心，具体计算公式由式(7)给出：

其中C_i表示第i个簇；d表示该簇中的任一文本；d_a表示更新后的聚类中心；d_b表示该簇的临时簇中心。

步骤10-5，计算测度函数，具体公式见式(8)：

若满足|E₁-E₂|<ε，则收敛，聚类结束，输出聚类结果，否则返回步骤10-3，其中，E₁、E₂分别代表前一次迭代的测度函数值和本次迭代的测度函数值；ε是用户设定的阈值；k是聚类的数目。

下面结合附图和实施例对发明进行详细说明。

实施例

结合图1，一种基于Spark的多特征结合中文文本高效聚类方法，具体实施步骤包括：

步骤1：在物理服务器上搭建Spark平台以及HDFS文件系统；

步骤4：按照RDD中的分区之间的相互依赖关系，Spark作业调度系统将写好的应用程序拆分为不同的任务组，然后并行地运行各个任务组中的任务；

步骤5：对读取到的数据进行预处理，将步骤3中缓存的RDD中的数据转化为纯文本的形式，过滤掉对文本表示没有太大贡献度词项；

步骤9：将步骤7得到的文本语义相似度与步骤8得到的文本余弦相似度进行有效地结合，计算得到最终的文本相似度；

步骤10：利用最大距离法对文本进行聚类，计算得到最终的聚类结果；

图2描述了在Spark平台上进行数据预处理过程时数据集的变化形式，其具体过程包括以下几个步骤：

步骤51：从HDFS上读取分好词后的文本数据集，将其存入InitialRDD中。

步骤52：将步骤51形成的InitialRDD通过Filter操作保留对文本内容表示有用的名词、动词以及形容词，转化后的RDD记为FilterRDD1。

步骤53：在步骤52形成的FilterRDD1中将人名、地名以及机构名进行统一替换，此时，文本集记为FilterRDD2。

步骤54：将步骤53得到的FilterRDD2通过Filter操作过滤掉停用词，此时，文本集记为FilterRDD3。

步骤55：将步骤54得到的FilterRDD3通过Filter操作过滤掉低频词，此时，文本集记为FilterRDD4。

图3描述了在Spark平台上计算文本语义相似度时文本集的变化形式，其具体步骤如下：

步骤71：将降维后的文本集利用Word2Vec进行神经网络训练，得到每个词项的唯一词向量表示，此时文本集记为WordRDD。

步骤72：通过计算，可以得到词项与词项之间的语义相似度，此时文本集记为WordSimRDD。

步骤73：根据公式，可以计算得到文本之间的语义相似度，此时文本集记为TextSimRDD。

图4描述了在Spark平台上计算基于词频统计的文本余弦相似度时文本集的变化形式，其具体步骤如下：

步骤81：将降维后得到的文本数据集重新映射到向量空间模型中，此时文本集记为VSMRDD。

步骤82：将步骤81得到的VSMRDD进行权重计算，计算的方法为TF-IDF权重计算方法，将每篇文本转化为一个由文本ID与文本向量构成的二元组，此时文本集记为VectorRDD。

步骤83：依据步骤82得到的VectorRDD，计算得到文本向量之间的余弦相似度，此时文本集记为VectorSimRDD。

所述整个过程都在系统内存中进行的，这样大大地提高了算法的计算效率。

为了验证本发明所述方法的效果，将本发明提出的方法与传统的文本聚类算法进行了实验比较，实验平台参数如表1所示。

表1实验平台参数

实验分别对原始K-means算法、最大距离法以及本发明提出的多特征结合高效聚类算法进行了分析及比较。在实验过程中，所选择的实验数据集来自中文文本分类语料库，本发明选择了该实验数据集的1000篇文本，包括四个聚类主题，分别为军事、IT、财经、旅游，每个主题含有250篇文本。得到的实验结果如表2所示。其中P代表准确率(precision)，R代表召回率(recall)，并且由于F度量值是准确率和召回率的综合，所以本实验通过F度量值来评价最终的聚类效果，F度量值的具体计算方法由式(9)给出。

表2三种聚类算法的文本聚类结果比较

各个聚类算法的总耗时如图5所示。

从表2我们可以看到，本发明提出的多特征结合高效聚类算法比原始的K-means聚类算法以及最大距离法的F度量值都要高，所以本发明提出的算法对于文本聚类来说效果更好。并且，由于传统的K-means聚类算法与最大距离法都是基于单机进行计算，而本发明提出的算法是基于Spark并行计算平台来进行聚类的，所以在聚类总耗时上，本发明提出的算法耗时更少，计算效率更高。

综上所述，本发明利用HDFS文件系统的高容错性、高数据访问吞吐量，将大量的数据集上传到HDFS文件系统中，然后进行数据预处理，通过客户端提交到Spark集群。Spark是基于并行计算和内存计算的云平台，它会将提交的工作化分为一系列的子任务，接着根据数据就近和本地性原则将任务分发到各工作节点。在完成文本集预处理后，将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度，然后将两种相似度进行有效地结合，得到最终的文本相似度。最后利用得到的文本相似度，并结合最大距离法，进行文本聚类。各个任务并行地运行在工作节点上，提高了任务的并行度，减少了数据的处理时间，且大部分数据都驻留在内存中，减少了读写HDFS文件系统的次数，也减少了数据传输的网络开销。

Claims

1.一种基于Spark的多特征结合中文文本高效聚类方法，其特征在于，包括以下步骤：

步骤1，在物理服务器上搭建Spark平台以及HDFS文件系统；

步骤2，将原始文本数据集上传到HDFS文件系统中，利用ICTCLAS汉语分词系统和Hadoop并行计算平台将原始文本数据集进行并行分词处理，并重新上传至HDFS文件系统中；

步骤3，Spark平台从HDFS文件系统中读入分好词后的数据集，将其转化为弹性分布式数据集RDD，并根据用户程序中设定的RDD中分区的数目来启动一定数目的并发线程读取数据，并将其存储在系统内存中；

步骤4，按照RDD中分区之间的相互依赖关系，Spark作业调度系统将写好的应用程序拆分为不同的任务组，然后并行运行各个任务组中的任务；

步骤5，对读取到的数据进行预处理，将步骤3中缓存在RDD中的数据转化为纯文本的形式，过滤掉停用词；

步骤6，对预处理后的文本进行降维处理，挑选出对文本表示贡献最大的词项；

步骤7，将步骤6中得到的数据利用文本深度表示模型Word2Vec计算出每个词项的词向量，得到文本的语义相似度；计算文本语义相似度的具体过程为：

对于步骤6中降维处理后得到的每篇文本中的词项，利用文本深度表示模型Word2Vec得到每个词项的词向量，进而计算词项与词项之间的语义相似度；得到词项之间的语义相似度之后，计算关键词项集合的语义相似度，具体计算公式由式(1)给出：

在关键词项集合的语义相似度之后，用关键词项集合的语义相似度来表示文本之间的语义相似度，其中sim(w_1k,w_2l)表示两个关键词项w_1k,w_2l之间的语义相似度，m是第一篇文本的关键词项数，n是第二篇文本的关键词项数，V₁,V₂表示任意两篇文本的关键词项集合，其定义由式(2)给出：

步骤8，将步骤6中得到的数据按照TF-IDF计算公式重新计算每个词项在各自文本中所占的权重，然后将每篇文本的词项的TF-IDF权重按词项顺序组合成一个向量来表示文本，计算得到所有向量之间的余弦相似度，以此来表示文本之间的余弦相似度Cosim(V₁,V₂)；

步骤9，将步骤7得到的文本语义相似度与步骤8得到的文本余弦相似度进行结合，计算得到最终的文本相似度；计算最终文本相似度的具体过程由式(3)给出：

Textsim(V₁,V₂)＝wf*Vecsim(V₁,V₂)+(1-wf)*Cosim(V₁,V₂) (3)

其中wf为语义加权因子，具体的计算过程由式(4)给出：

其中，TFIDF(w_1k)表示关键词w_1k在对应文本中的TF-IDF权值；式(4)中的集合Λ₁和Λ₂的定义由式(5)给出：

其中，μ为用户设定的相似度阈值；

步骤10，利用最大距离法对文本进行聚类，计算得到最终的聚类结果。

2.根据权利要求1所述的基于Spark的多特征结合中文文本高效聚类方法，其特征在于，步骤5中对所述RDD数据进行预处理的具体过程为：

Spark平台的各个工作节点从字符串类型的RDD中读取数据进行操作，首先对读取到的数据进行筛选，从中筛选出名词、动词以及形容词；其次，将所有的人名、地名以及机构名进行统一的替换；最后按照停用词字典进行Filter过滤操作，过滤掉停用词。

3.根据权利要求1所述的基于Spark的多特征结合中文文本高效聚类方法，其特征在于，步骤6中对文本进行降维处理的具体过程为：

对步骤5中得到的数据进行TF-IDF权重计算，将每篇文本中的词项按照权重的大小进行排序，采用选择关键词项的方法对文本进行降维处理，选择每篇文本的前60％的词项来表示该篇文本，作为该篇文本的关键词项。

4.根据权利要求1所述的基于Spark的多特征结合中文文本高效聚类方法，其特征在于，步骤8中计算文本余弦相似度的具体过程为：

5.根据权利要求1所述的基于Spark的多特征结合中文文本高效聚类方法，其特征在于，步骤10中利用最大距离法对中文文本进行聚类的具体过程为：

步骤10-1，计算各个文本之间的距离，找到最大的距离所对应的两个文本d₁、d₂，并将其作为初始聚类中心；

步骤10-2，在剩余的文本数据集中，选取满足式(6)的样本点d₃作为第三个初始聚类中心，依次类推，直至得到所有的初始聚类中心；

dis(d₁,d₃)*dis(d₂,d₃)≥dis(d₁,d_i)*dis(d₂,d_i) (6)

其中，d_i为除d₁、d₂、d₃外的任一文本，dis表示距离；

步骤10-3，计算剩余文本与各个聚类中心的距离，并将其归入距离最近的簇；

其中C_i表示第i个簇；d表示该簇中的任一文本；d_a表示更新后的聚类中心；d_b表示该簇的临时簇中心；

步骤10-5，计算测度函数，具体公式见式(8)：