CN108763576A

CN108763576A - 一种用于高维文本数据的并行k-means算法

Info

Publication number: CN108763576A
Application number: CN201810576890.9A
Authority: CN
Inventors: 申彦明; 单晓磊; 王宇新
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-06
Anticipated expiration: 2038-05-28
Also published as: CN108763576B

Abstract

本发明属于自然语言处理和机器学习的交叉领域，提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化，其次对该向量化后的矩阵建立降维模型，将高维数据转化为具有高效特征的低维数据；然后通过优化k‑means聚类算法进一步提高算法准确度，再对降维后的数据进行聚类，并通过GPU以及MPI技术实现算法并行化，最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度，提高算法的运行速率以及可移植性。

Description

一种用于高维文本数据的并行k-means算法

技术领域

本发明属于自然语言处理和机器学习的交叉领域，涉及一种用于医疗文本数据的并行k-means算法(pk-means)。

背景技术

本发明中提到的医疗文本数据是指医生所开的医嘱，医嘱属于短文本数据，因此在整个医嘱语料库中医嘱就具有高维且稀疏的特性。本发明处在整个工程的预处理部分，意在使用高效的方法对所有医嘱进行初始聚类，为工程后续的其他工作做准备。在下文我们皆用“文本数据”这一词来指代“医疗文本数据”。

现阶段，针对于文本数据的聚类主要可以分为两个步骤：数据预处理、聚类。

在数据预处理方面，主要采用基于降维的思想，大致可以分为特征选择和特征变换这两种方法。在特征选择方法中，本发明企图从源数据中挑选出特征项，例如TF-IDF等。特性转换是一种不同的方法，它将新特性定义为原始数据集中特性的函数表示，例如LSI、PCA、SVD、非负矩阵分解等。这些传统的方法大多采用评估函数进行特征权重的计算，由于这些评估函数是基于统计学的，其中一个主要缺陷就是需要用一个很庞大的训练集才能获得几乎所有的对分类起关键作用的特征。此外，在深度学习领域中，自动编码器已经成功地从图像数据集中学习有意义的表示。然而，他们在文本数据集上的表现还没有被广泛研究。传统的自动编码器倾向于学习文本文档的可能微不足道的特征用来表示文本，因为文本数据具有高维度，稀疏性和幂律分布等复杂性质。所以选择传统的自动编码器来学习特征还是不够完善的。

聚类不需要先验知识，通过发掘数据集内部存在的模式与结构，实现对数据样本的自主划分。其中，文本聚类算法大致可以分为基于划分的和基于层次的这两大类聚类算法。基于划分的k-means聚类算法是目前最受欢迎的算法之一。针对高维文本数据，若采用Lloyd提出的经典k-means，使用随机选取初始聚类种子的方法，会使得聚类结果的随机性过大；此外，在该算法的聚类过程中采用的是基于距离的数据相似度度量方法，但对于高维的文档数据来说，使用距离度量相似性并不适合。

发明内容

本发明提出了一种用于高维文本数据的并行k-means算法，目的在于提高文本数据聚类的准确性以及运行速率。针对传统自编码器在文本数据集上学习文档特征不够准确的特点，本发明使用了加入了一个竞争层的自编码器；针对Lloyd k-means方法选取初始种子节点的随机性特点，本发明提出了一种基于密度以及k-means++思想的初始种子选取方法，并将算法并行化，来提高算法的运行速率与可移植性。如图1显示的是本发明对应的模块化设计。

为了达到上述目的，本发明所采用的技术方案如下：

一种用于高维文本数据的并行k-means算法，首先将文本数据向量化，其次对该向量化后的矩阵建立降维模型，将高维数据转化为具有高效特征的低维数据。然后通过优化k-means聚类算法进一步提高算法准确度，再对降维后的数据进行聚类。并通过GPU以及MPI技术实现算法并行化。从而实现了高维文本数据的准确度以及效率的提高。具体包括以下步骤：

第一步，将高维的文本数据训练得到低维数据

1.1)选择恰当的文本表示模型，将文本数据向量化。本发明采用词袋模型(Bag-of-words)作为文本表示模型。

1.2)设计降维模型

该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中，依据注意力机制的思想加入一个竞争层。在该模型中，输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数将损失函数定义为交叉熵，利用反向传播进行微调以及迭代，进而得到低维数据。

第二步，利用pk-means聚类算法对第一步预处理后的低维数据进行聚类

传统的K-means方法是聚类中的经典算法，是数据挖掘十大经典算法之一。算法接受参数k，将事先输入的n个数据对象划分为k个簇，使得所获得的簇满足簇中对象相似度较高，而不同簇中的对象相似度较小。

根据该思想本发明提出一种改进的k-means聚类算法pk-means，针对高维文本数据进行聚类，改进的k-means聚类算法pk-means包括如下步骤：

步骤1设置相关参数

步骤2初始种子选择

步骤3分配数据点

步骤4更新聚类中心点

步骤5计算当前迭代代价值

步骤6判断是否满足算法终止条件

步骤7停止迭代，输出结果

第三步，将单机算法并行化

在该步骤主要可以分为两个方面，一方面为将第二步得到的单机算法中的聚类过程使用CUDA计算框架实现GPU，启动多线程；另一方面为实现多节点并行计算，本发明中使用MPI来实现，通过将节点分成控制节点和计算节点，让两类型节点协同工作进而实现并行工作。

本发明区别于已有方法的特色在于，首先针对数据降维方向采用了一种前馈神经网络——自编码器和注意力机制思想的结合来设计模型，这区别于传统大多基于统计学思想的降维方法，其次在对于k-means算法初始种子选择这一方面采用了基于密度和k-means++结合的思想，该方法既避免了边界点的影响又保证了算法的准确度。此外在针对后续整合后的聚类算法，则采用CUDA计算框架以及消息传递接口MPI对算法进行提速。

本发明的有益效果为：(1)使得文本聚类的准确度得以大幅度提高；(2)提高了算法的运行速率以及可移植性。

附图说明

图1为对应的是本发明的模块化设计图形；

图2为本发明对应的文本数据向量化流程；

图3为对应的是本发明的降维模型的框架图。

具体实施方法

下面对本发明的实施方式进行详细说明。

一种用于高维文本数据的并行k-means算法，包括以下步骤：

第一步，将高维的文本数据训练得到低维数据

1.1)选择恰当的文本表示模型，将文本数据向量化。本发明采用Bag-of-words文本表示模型，通过该模型得到的矩阵大小为N*d，其中N表示的是文本数量，d表示的是整个语料库的特征词数目，也可以说成是每个文档的当前维度。如图2显示的使用词袋模型将文本向量化的流程：首先，按行读取文件内容；然后，在Python中使用nltk库对所读取的内容进行分词；之后，读取停用词表中内容，去除文件中的停用词；最后，通过对所有文件进行如上操作得到了整个语料库的特征词集合。然后，针对每一个文档进行特征词词频统计，若该文档中未出现该特征词则对应位赋值为0，这样每个文档就对应生成一个统一长度(语料库中特征词个数)的向量。

1.2)将向量化后的文本数据采用log-normalized方法进行数据标准化，公式如下所示：

其中，x∈R^d对应一个文档，x_i表示第i号特征词；n_i对应为其词频，max为针对该特征词对应的最大词频。

1.3)设计降维模型

该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中，依据注意力机制的思想加入一个竞争层，设计为四层模型，如图3所示。令x∈R^d是一个d维的输入向量，h₁,h₂,……h_m为m个隐含层神经元，W∈R^d*m为输入层和隐含层之间的权重矩阵，b∈R^m、c∈R^d为偏差，令g代表激活函数，在输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数因此在训练阶段的数据流向为如下所以：

z＝tanh(Wx+b) (2)

其中，公式(3)中对应的为竞争层，在该层中判断通过激活函数tanh后的神经元情况将神经元分成正神经元和负神经元。最具竞争力的s个神经元是那些具有最大绝对激活值的神经元，s是一个参数。如图3所示在隐含层上层的神经元可以看成是正神经元，下层对应为负神经元。本发明通过选取个绝对值最大的正神经元，将输了的正神经元的能量分配给赢的神经元，同理选取个绝对值最大的负神经元，做同样的操作，这样就使得隐含层的神经元能量实现了再分配。这使得训练出的特征更具有代表性。

此外，在该模型中本发明将训练过程中的损失函数定义为交叉熵，然后利用反向传播进行微调以及迭代；本发明采用Adam优化器来进行学习。本模型采用Keras框架来实现，并在模型中使用了Early Stopping函数来避免过拟合问题。

通过该模型本发明将原本为N*d大小的矩阵，转变为N*m大小的矩阵。

第二步，利用pk-means聚类算法对第一步预处理后的数据作为算法的输入数据进行聚类，聚类过程包括以下步骤：

(1)设置相关参数

初始化聚类数目k、最大迭代次数、误差阈值参数。迭代次数：i＝0

(2)初始种子选择

在该步骤主要需要确定初始中心点：C₁,C₂,……C_k，具体步骤如下所示：

Step 1：定义一个半径R，R为某一个样本到其他样本距离的平均值的整体平均。扫描样本集，选择在该半径组成的球形内样本点数目最多的样本作为初始聚类中心C₁；

Step2：计算每个样本x与当前已有聚类中心C_t-1(t＝2,3,…，k)之间的最短距离(即与最近的一个聚类中心的距离)，用D(x)表示；计算每个样本被选为下一个聚类中心的概率按照轮盘法选择一个聚类中心；

Step3：重复第2步至选择出k个聚类中心。

(3)分配数据点

采用如公式(5)所示的cosine余弦距离计算样本与聚类中心之间的相似度，公式如下：

其中，A为样本，B为聚类中心点，d为向量维度，A_i、B_i为向量的成分。

将样本分配到与其具有最大相似度的聚类中心所在的簇中。迭代次数：i＝i+1

(4)更新聚类中心点

当迭代一次后，所有样本均被分配完毕，依据簇内样本坐标总和除以簇内样本数目得到新的中心点坐标。

(5)计算当前迭代误差

统计当前迭代后生成的误差，采用每次迭代后各个样本距离其所在簇中心点的余弦之和作为本次迭代的误差。

(6)判断是否满足算法终止条件

算法的终止条件是，两次迭代后的误差之差小于阈值，或者聚类的迭代次数超过设定的最大迭代次数，转步骤(7)；否则，转步骤(3)。

(7)停止迭代，输出结果。

本发明中采用标准化互信息(NMI)衡量算法的准确度，公式如下所示：

其中，X表示的聚类后所得的文档对应标签；Y为标准标签；n为文档数目；p(x,y)为x和y的联合概率分布；p(x)为x的概率分布；p(y)为y的概率分布。

经过以上两步实现了单机文本聚类算法准确度的提高。

本发明对所述的第二步中pk-means聚类算法还可以进行如下优化：

1)将单机算法并行化

将pk-means聚类算法中的聚类过程也就是第二步的步骤(3)，采用CUDA计算框架实现GPU，启动多线程，原pk-means聚类算法的固有时间复杂度O(nkdl)。其中，n表示的是文本数量，d为单词数量，k为聚类数目，l为迭代次数。

在这一部分设计主要的工作在于文本相似度计算这一部分，在单机算法中该部分的复杂度为O(nkdl)。通过并行设计启动n个线程，复杂度就降为了O(kdl)，这大大减少了算法复杂度。

2)实现多节点并行计算

将启动的所有节点分为一个控制节点和多个计算节点，通过MPI技术使各个节点协同工作继而实现多节点并行计算。所述的控制节点负责接收外部数据并将数据发布到远程存储窗口，再将控制信息、初始化种子发送给计算节点。所述的计算节点通过从远程存储窗口读取的数据以及收到的控制信息、初始化种子这些信息，进行相应的计算，并将计算结果再发送给控制节点；此时，控制节点接收数据并执行相应判断及其他操作。通过这两个节点之间的信息传递，本发明可以实现多节点并行计算。

所述的判断条件为第二步步骤(6)。

以上本发明所述针对的是医疗文本数据提出的pk-means聚类算法，但是对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以针对其他文本数据，来对pk-means聚类算法做出若干变形和改进。

Claims

1.一种用于高维文本数据的并行k-means算法，其特征在于以下步骤：

第一步，将高维的文本数据训练得到低维数据

1.1)采用Bag-of-words文本表示模型，将文本数据向量化；通过该模型得到大小为N*d的矩阵，其中N表示的是文本数量，d表示的是整个语料库的特征词数目，也可以说成是每个文档的当前维度；

其中，x∈R^d对应一个文档，x_i表示第i号特征词；n_i对应为其词频，max为针对该特征词对应的最大词频；

1.3)设计降维模型

该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中，依据注意力机制的思想加入一个竞争层，设计为四层模型；令x∈R^d是一个d维的输入向量，h₁,h₂,……h_m为m个隐含层神经元，W∈R^d*m为输入层和隐含层之间的权重矩阵，b∈R^m、c∈R^d为偏差，令g代表激活函数，在输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数因此在训练阶段的数据流向为如下所以：

z＝tanh(Wx+b) (2)

其中，公式(3)中对应的为竞争层，在该层中判断通过激活函数tanh后的神经元情况将神经元分成正神经元和负神经元；最具竞争力的s个神经元是具有最大绝对激活值的神经元，s是一个参数；通过选取个绝对值最大的正神经元，将输了的正神经元的能量分配给赢的神经元，同理选取个绝对值最大的负神经元，做同样的操作，这样就使得隐含层的神经元能量实现再分配；

此外，在该模型中将训练过程中的损失函数定义为交叉熵，然后利用反向传播进行微调以及迭代；采用Adam优化器进行学习；采用Keras框架来实现，并在模型中使用了EarlyStopping函数避免过拟合问题；

通过该模型本发明将原本为N*d大小的矩阵，转变为N*m大小的矩阵；

(1)设置相关参数

初始化聚类数目k、最大迭代次数、误差阈值参数；迭代次数：i＝0

(2)初始种子选择

Step1：定义一个半径R，R为某一个样本到其他样本距离的平均值的整体平均；扫描样本集，选择在该半径组成的球形内样本点数目最多的样本作为初始聚类中心C₁；

Step2：计算每个样本x与当前已有聚类中心C_t-1(t＝2,3,…，k)之间的最短距离，用D(x)表示；计算每个样本被选为下一个聚类中心的概率按照轮盘法选择一个聚类中心；

Step3：重复第2步至选择出k个聚类中心；

(3)分配数据点

其中，A为样本，B为聚类中心点，d为向量维度，A_i、B_i为向量的成分；

将样本分配到与其具有最大相似度的聚类中心所在的簇中；迭代次数：i＝i+1

(4)更新聚类中心点

当迭代一次后，所有样本均被分配完毕，依据簇内样本坐标总和除以簇内样本数目得到新的中心点坐标；

(5)计算当前迭代误差

统计当前迭代后生成的误差，采用每次迭代后各个样本距离其所在簇中心点的余弦之和作为本次迭代的误差；

(6)判断是否满足算法终止条件

算法的终止条件是，两次迭代后的误差之差小于阈值，或者聚类的迭代次数超过设定的最大迭代次数，转步骤(7)；否则，转步骤(3)；

(7)停止迭代，输出结果。

2.根据权利要求1所述的一种用于高维文本数据的并行k-means算法，其特征在于，所述的第二步中pk-means聚类算法还可以进行如下优化：

1)将单机算法并行化

将pk-means聚类算法中的聚类过程也就是第二步的步骤(3)，采用CUDA计算框架实现GPU，启动多线程，原pk-means聚类算法的固有时间复杂度O(nkdl)；其中，n表示的是文本数量，d为单词数量，k为聚类数目，l为迭代次数；

在单机算法中在文本相似度计算部分，其复杂度为O(nkdl)；通过并行设计启动n个线程，复杂度就降为O(kdl)，减少算法复杂度；

2)实现多节点并行计算

将启动的所有节点分为一个控制节点和多个计算节点，通过MPI技术使各个节点协同工作继而实现多节点并行计算；所述的控制节点负责接收外部数据并将数据发布到远程存储窗口，再将控制信息、初始化种子发送给计算节点；所述的计算节点通过从远程存储窗口读取的数据以及收到的控制信息、初始化种子这些信息，进行相应的计算，并将计算结果再发送给控制节点；此时，控制节点接收数据并执行相应判断及其他操作；通过这两个节点之间的信息传递，实现多节点并行计算；所述的判断条件与第二步步骤(6)相同。