CN110297901A

CN110297901A - 基于距离参数的大规模文本聚类方法

Info

Publication number: CN110297901A
Application number: CN201910397925.7A
Authority: CN
Inventors: 牟昊; 何宇轩; 徐亚波; 胡湛湛; 李旭日
Original assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Current assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-10-01
Anticipated expiration: 2039-05-14
Also published as: CN110297901B

Abstract

本发明公开了一种基于距离参数的文本聚类处理方法，包括文本特征的提取、降维、聚类、过滤无效簇、以聚类后簇中心点再次聚类五个步骤，通过对获取文本的降维手段使之便于聚类处理，以三元组的方式进行数据存贮，形成三元组列表，具有计算更少，聚类精度更高，处理规模更大，处理更快等特点，尤其适用于大规模文本的聚类。

Description

基于距离参数的大规模文本聚类方法

技术领域

本发明涉及计算机文本处理技术领域，特别是一种基于距离参数的大规模文本聚类方法。

背景技术

文本聚类是处理海量文本的常见操作，聚类操作将相似的文本自动归类，大大降低了后续人工处理信息的成本，也更容易发现文本中的信息。

在现有技术中，普遍会对文本进行同样的预处理，使得相似内容下的长文本和短文本提取特征后区别较大，较难聚成一类；对关键词进行指纹化操作，则会损失相似关键词的信息(如篮球和篮球队两个关键词，经过指纹化操作后会得到相关完全不相关的向量)，使聚类精度下降；若采用基于密度聚类的方法，内存开销较大，较难处理大规模文本；若采用K均值类聚类方法，则难以确定初始点的位置和个数，而这些参数对聚类结果影响非常大；若采用基于层次聚类的方法，则难以确定终止条件。

发明内容

本发明针对上述问题，提供一种精度更高，处理规模更大，处理更快的文本聚类方法。本发明的技术方案为：

一种基于距离参数的大规模文本聚类方法，包括以下步骤：

步骤1)，获取文本，给每个文本分配文本ID并形成文本列表；

步骤2)，逐一对所述文本进行分词操作，得到对应的词表；

步骤3)，对所述词表进行第一降维操作，得到词表向量；

步骤4)，对所述词表进行分字操作，得到字表；

步骤5)，对所述字表进行第二降维操作，得到字表向量；

步骤6)，所述词表向量与所述字表向量拼接形成所述文本对应的文本指纹；

步骤7)，输入距离参数，并根据公式估算族个数N，根据输入文本的数量和所述距离参数对所述文本指纹进行K均值聚类，得到若干聚类族,以三元组的形式保存；三元组为<文本指纹，文本ID列表，文本指纹列表>；

步骤8)，将所述聚类族的数据点合并形成三元组列表；

步骤9)，判断指定条件，不满足时返回步骤7)，满足时结束聚类，输出所述三元组列表。

作为本发明进一步地说明，所述步骤1)中包括对所述文本的消噪处理，除去文本中emoji表情、url链接等。

更进一步地，所述聚类族包括第一聚类族和第二聚类族，所述第一聚类族中点与点之间的最大距离大于所述距离参数，所述第二聚类族中点与点之间的最大距离不大于所述距离参数。

更进一步地，所述步骤7)后得到所述第一聚类族和第二聚类族中的至少一种。

更进一步地，所述文本ID为独立不重复的ID。

更进一步地，所述步骤3)中第一降维操作和步骤5)中第二降维操作采用simhash降维操作，simhash算法中采用sha256算法作为每个词或字的指纹。

更进一步地，所述在步骤2)中，词的权重根据词在词表中的排序计算，排序越前，权重最大。

更进一步地，所述步骤3)中：simhash算法权重为采用以下公式计算：

W＝int(ln(c+1))

其中c为词(或字)出现的次数，int为取整操作。

更进一步地，所述步骤7)中，估算簇个数N的公式为：

class_num＝len/(ln(len)*ln(len)*distance*distance)

其中，len为输入的文本数量，distance为输入的距离参数。

更进一步地，所述步骤7)中，采用MiniBatch的方法进行K均值聚类。

更进一步地，所述指定条件为次数条件或者比例条件，所述次数条件为执行步骤7)到8)的操作6到10次，比例条件为第二聚类族的比例低于10％。

本发明的有益效果：

本发明为一种文本处理方法，通过对获取文本的降维手段使之便于聚类处理，以三元组的方式进行数据存贮，形成三元组列表，具有计算更少，聚类精度更高，处理规模更大，处理更快等特点，解决了K均值聚类必须预设簇个数的问题，同时避免了因簇中心点选取不佳导致同一簇数据差异性过大的问题，尤其适合用于大规模文本聚类。

附图说明

图1为本发明方法的流程图；

图2为本发明文本指纹的计算示意图；

图3为本发明三元组列表构成示意图。

具体实施方式

实施例：最好结合一个具体的处理实例进行说明。

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示的一种基于距离参数的大规模文本距离方法流程图，包括以下步骤：

S001，获取文本，进行预处理。其流程为先获取待聚类的文本，获取的方式可以是网络获取，给获取的待聚类文本进行分配ID，形成文本列表，本步骤中每个待聚类文本所分配的ID为独立不重复的ID。且本步骤中还包括对待聚类文本进行的预处理，使之适于进行后续加工处理，例如，可以对文本中的一些无关的附带信息(例如emoji表情、url连接等)进行过滤处理。若文本存在标题，则将文本的标题和内容进行合并，再进行后续处理。

S002，逐一对每一篇待聚类文本进行关键词提取，得到每篇待聚类文本所对应的词表，使之可以进行降维处理，本步骤中可以采用的一种关键词提取的一种算法为TF-IDF算法，通对每一条文本进行提取关键词，该算法是结合关键词在该待聚类文本中出现的频率(即IF词频)以及在待聚类的文本集中出现的词频(即IDF词频)。对于关键词的提取中，宜采用限定最小关键词数量的方式，例如在本实施例中，限定的一个条件就是最小关键词的数量限定为15个，若提取关键词的数量少于15，则对该条文本，改为分词操作，并取结果的前15个词作为分词结果。

S003，对上述步骤中的词表进行降维操作，得到词表向量，具体地可以采用simhash操作，采用sha256算法提取每个词指纹。词的权重根据词在词表中的排序计算，排序越前，权重最大。如排名第1-第2的词权重为3，排名第3-第5的词权重为2，排名第6-第15的词权重为1。按照simhash算法的流程，将每个词的指纹和权重进行相乘操作，再将各个词的计算结果进行按位累加，得到词表向量。

需要说明的是，本步骤中不需要对以词表向量中每一位进行转换为0或1的操作。

S004，对上述词表进行分字操作，得到字表。

S005，对所述字表进行第二降维操作，得到字表向量，具体地也可以采用simhash操作，采用sha256算法提取每个字指纹。字的权重根据以下公式计算：

W＝int(ln(c+1))

其中c为词(或字)出现的次数，int为取整操作。

按照simhash算法的流程，将每个字的指纹和权重进行相乘操作，再将各个字的计算结果进行按位累加，得到字表向量。

需要说明的是，本步骤中不需要对字表向量每一位进行转换为0或1的操作。

S006，将词表向量和字表向量进行拼接，得到文本指纹。因此本步骤中文本指纹为一个向量，且与文本的ID一一相对应。文本指纹的计算方法参见图2。

S007，以文本指纹为输入，进行K均值聚类，采用MiniBatch方法，采用Kmeans++作为初始中心点的确定方法，每批次取10000条数据进行计算(每批次的计算量为10000)，初始中心点的数量通过根据公式计算：

class_num＝len/(ln(len)*ln(len)*distance*distance)

其中，len为输入的文本数量，distance为本发明定义的一个输入距离参数，其性质对应于文本指纹之间的距离。

K均值聚类结束后，检查每一簇的聚类情况，计算簇中文本指纹之间的距离，当距离的最大值大于输入的距离参数，将此簇标记为坏簇(第一聚类族)，将该簇中每一条文本数据都按如下三元组的方式保存。

<点，文本ID列表，文本指纹列表>

其中点为该文本的指纹，文本ID列表为该文本ID组成的长度为1的列表，文本指纹列表为该文本指纹组成的长度为1的列表，可以通过点方便地找到对应的文本ID列表和文本指纹列表。

当簇中文本指纹之间的距离最大值小于输入的距离参数时，将此簇标记为好簇(第二聚类族)，将该簇按如下三元组的方式保存。

<中心点，文本ID列表，文本指纹列表>

其中，中心点为该簇的中心点，文本ID列表为簇中所有文本的ID列表合并，文本指纹列表为该簇所有文本指纹列表合并，可以通过中心点方便地找到对应的文本ID列表和文本指纹列表。

S008，将上述所有两种三元组合并，得到三元组列表，好簇(第二聚类族)和坏簇(第一聚类族)的合并处理方式参见附图3所示的方式。

以三元组列表中所有点和中心点(所有三元组的第一项)为输入，同样地，采用MiniBatch方法，采用Kmeans++作为初始中心点的确定方法，每批次的计算量为10000，初始中心点的数量通过根据公式计算：

class_num＝len/(ln(len)*ln(len)*distance*distance)

其中，len为输入的文本数量，distance为输入的距离参数。

同样地，K均值聚类结束后，检查每一簇的聚类情况，将簇中所有数据点对应的文本指纹列表合并，计算该合并后列表的文本指纹之间的距离，当距离最大值大于输入的距离参数，将此簇标记为坏簇(第一聚类族)，将该簇中每一条数据都按如下三元组的方式保存。

<点，文本ID列表，文本指纹列表>

其中点为聚类输入的中心点，文本ID列表为聚类输入的中心点对应的文本ID列表，文本指纹列表为聚类输入的中心点对应的文本指纹列表。

合并后列表的文本指纹之间的距离最大值小于输入的距离参数时，将此簇标记为好簇，将该簇按如下三元组的方式保存：

<中心点，文本ID列表，文本指纹列表>

其中中心点为簇的中心点，文本ID列表为簇中所有点对应的文本ID列表合并，文本指纹列表为簇中所有点对应的文本指纹列表合并。

计算好簇(第二聚类族)占所有簇的比例，将这一轮所有好簇(第二聚类族)和坏簇(第一聚类族)生成的三元组合并，得到三元组列表。

当终止条件为好簇(第二聚类族)比例低于10％时，当上述比例低于10％时，三元组列表即为聚类结果，当上述比例高于10％时，以三元组列表为输入(以三元组列表中所有点和中心点为输入)，继续执行聚类，直到上述比例低于10％。

当终止条件为执行聚类次数大于某个值时，执行聚类若干次，直到聚类次数大于指定值，得到最后一次聚类、处理的三元组列表后，该三元组列表中每一列代表一个簇，三元组中，中心点代表该簇的中心点，文本ID列表代表该簇包含的文本的ID，可通过文本ID找到相应文本，进行后续处理。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于距离参数的大规模文本聚类方法，其特征在于，包括以下步骤：

步骤1)，获取文本，给每个文本分配文本ID并形成文本列表；

步骤2)，逐一对所述文本进行分词操作，得到对应的词表；

步骤3)，对所述词表进行第一降维操作，得到词表向量；

步骤4)，对所述词表进行分字操作，得到字表；

步骤5)，对所述字表进行第二降维操作，得到字表向量；

步骤7)，取一距离参数，并根据公式估算族个数N，根据输入文本的数量和所述距离参数对所述文本指纹进行K均值聚类，得到若干聚类族,以三元组的形式保存；

步骤8)，将所述聚类族的数据点合并形成三元组列表；

2.根据权利要求1所述的基于距离参数的大规模文本聚类方法，其特征在于：所述步骤1)中包括对所述文本的消噪处理。

3.根据权利要求1所述的基于距离参数的大规模文本聚类方法，其特征在于：所述聚类族包括第一聚类族和第二聚类族，所述第一聚类族中点与点之间的最大距离大于所述距离参数，所述第二聚类族中点与点之间的最大距离不大于所述距离参数。

4.根据权利要求3所述的基于距离参数的大规模文本聚类方法，其特征在于：所述步骤7)后得到所述第一聚类族和第二聚类族中的至少一种。

5.根据权利要求1所述的基于距离参数的大规模文本聚类方法，其特征在于：所述文本ID为独立不重复的ID。

6.根据权利要求1所述的基于距离参数的大规模文本聚类方法，其特征在于：所述步骤3)中第一降维操作和步骤5)中第二降维操作采用simhash降维操作，simhash算法中采用sha256算法作为每个词或字的指纹。

7.根据权利要求6所述的基于距离参数的大规模文本聚类方法，其特征在于：所述在步骤2)中，词的权重根据词在词表中的排序计算，排序越前，权重最大；所述simhash算法权重为采用以下公式计算：

W＝int(ln(c+1))

其中c为词出现的次数，int为取整操作。

8.根据权利要求3所述的基于距离参数的大规模文本聚类方法，其特征在于：所述步骤7)中，所述估算族个数N的公式为：

class_num＝len/(ln(len)*ln(len)*distance*distance)

其中，len为输入的文本数量，distance为输入的距离参数。

9.根据权利要求3所述的基于距离参数的大规模文本聚类方法，其特征在于：所述步骤7)中，采用MiniBatch的方法进行K均值聚类。

10.根据权利要求3所述的基于距离参数的大规模文本聚类方法，其特征在于：所述指定条件为次数条件或者比例条件；所述次数条件为执行步骤7到8的操作6至10次；所述比例条件为第二聚类族的比例低于10％。