CN111400498A

CN111400498A - 一种基于降维的短信聚类方法

Info

Publication number: CN111400498A
Application number: CN202010202379.XA
Authority: CN
Inventors: 文谟祥; 杨与钦; 李辉城
Original assignee: Guangzhou Need You Computer Service Co ltd
Current assignee: Guangzhou Need You Computer Service Co ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-10

Abstract

本发明公开了一种基于降维的短信聚类方法，包括有以下步骤：S1：对短信文本进行预处理；S2：根据短信文本之间的相似度进行初步分类；S3：对无法处理的短信文本进行降维处理；S4：采用K‑Means算法对降维后的短信进行聚类操作，输出结果，本发明涉及大数据挖掘算法技术领域。本发明，通过相似度进行初步分类，简化了计算量，同时降维的处理使得聚合算法的效率进一步提高。

Description

一种基于降维的短信聚类方法

技术领域

本发明涉及大数据挖掘算法技术领域，特别是涉及一种基于降维的短信聚类方法。

背景技术

随着互联网技术的普及和飞速发展，短信已经由传统的通讯工具演变成接收通知的媒介。垃圾短信开始困恼人们的生活，给我们带来骚扰和不便。对短信进行聚类可以有效缓解垃圾短信给人们生活带来的不变。

不同于正常文本的聚类，短信文本具有稀疏性，文本中的大部分词语只出现一次。传统方法需要对短信进行逐条处理和分析，通过人工手段人为的做一些标记数据，之后才能在某种程度上对短信进行聚类。这样的处理方法效率低下，且硬件的要求较高，不利于大规模处理。

基于传统处理方法效率低下，本发明通过直接计算词块之间的相似度对短信进行初步分类，然后使用Isomap流形学习算法对短信在进行将维操作，最后再使用K-means算法对短信文档集进行聚类，大大提高了聚类的可靠性和速度，解决传统短信过滤效率低下的问题。

发明内容

本发明的目的在于提供一种更为可靠、高效的短信聚类方法。首先，将短信文本进行预处理，剔除无效汉字及标点，并利用最大匹配法进行分词，然后根据短信文本的相似度进行初步分类，对于无法分类的短信，则先进行降维操作，然后再利用K-Means聚类算法进行聚类。本发明通过相似度进行初步分类，简化了计算量，同时降维的处理使得聚合算法的效率进一步提高。

为了实现上述目的，本发明采用如下技术方案：一种基于降维的短信聚类方法，包括有以下步骤：

S1：对短信文本进行预处理；

S2：根据短信文本之间的相似度进行初步分类；

S3：对无法处理的短信文本进行降维处理；

S4：采用K-Means算法对降维后的短信进行聚类操作，输出结果。

优选的，所述S1步骤为：

S1-1：将短信SM_i(i＝1,2,...,n)中的异常标点和无效汉字去除；

S1-2：把短信SM_i(i＝1,2,...,n)分散成m个词语的列表(最大匹配)，即SM_i＝{T_i1,T_i2,...,T_im}，其中每个T_ik表示一个词语。

优选的，所述S2步骤为：S2-1：将短信

和短信

之间的相似度定义为：

S2-2：利用Hungarian算法找出

和

之间的最大匹配，即SM_i'在SM'_j中的最大匹配是

j_k∈{1,2,...,n},k＝1,2,...,m。SM'_j在SM_i'中的最大匹配是

j_k∈{1,2,...,m}，k＝1,2,...,n；

S2-3：短信SM_i,SM_j之间的相似度可如下定义：

其中：

这样就可以计算两条短信之间的语义距离，它比较适用于所计算文本比较短的情况，这里我们用于短信；

S2-4：将相似度高的短信文本直接算做同一类别。

优选的，所述S3步骤为：

S3-1：短信

短信降维的维数d，邻域参数k(ε邻域)；

S3-2：计算每个点

的近邻点(k邻域)，构造近邻图；

S3-3：计算最短路径矩阵；

S3-4：利用MDS构造一个新的d维空间Y(d是降维后空间的维数)，最大限度地保持样本之间的欧式距离误差最小。

优选的，所述S4步骤为：

S4-1：随机选取k个聚类质心点为μ₁,μ₂,...,μ_k；

S4-2：计算每个聚类对象到聚类中心的距离，以此划分数据簇；

S4-3：再次计算每个聚类中心；

S4-4：计算标准测度函数，达到最大迭代次数，则停止，否则，继续S4-2，S4-3操作。

与现有技术相比，本发明实现的有益效果：

1-本发明采用相似度算法，可对一部分短信进行初步分类，减少后期聚类的工作量。

2-采用lsomap算法对短信文本进行降维操作，在保证准确度的基础上，进一步减少了后续聚合的工作量。

3-降维后进行K-Means聚类，算法简单，易于实现。

附图说明

以下结合附图和具体实施方式来进一步详细说明本发明：

图1是基于降维的短信聚类方法的技术框架。

图2是短信文本预处理模块。

图3是相似度计算模块。

图4是降维模块。

图5是K-Means聚合模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1至图5。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1：短信文本预处理模块具体步骤：

1、将短信SM_i(i＝1,2,...,n)中的异常标点和无效汉字去除；现在违法短信为了防止被过滤，在句子中隔一两个词就用标点隔开，对于这种异常标点，需要剔除后才能进行下一步操作；

2、把短信SM_i(i＝1,2,...,n)分散成m个词语的列表(最大匹配)，即SM_i＝{T_i1,T_i2,...,T_im}，其中每个T_ik表示一个词语。

实施例2：相似度计算模块具体步骤如下：

1、将短信

和短信

之间的相似度定义为：

2、利用Hungarian算法找出

和

之间的最大匹配，即SM_i'在SM'_j中的最大匹配是

j_k∈{1,2,...,n},k＝1,2,...,m。SM'_j在SM_i'中的最大匹配是

j_k∈{1,2,...,m}，k＝1,2,...,n；

3、短信SM_i,SM_j之间的相似度可如下定义：

其中：

4、将相似度高的短信文本直接算做同一类别。

实施例3：降维模块具体步骤为：

1、设置短信

降维的维数d，邻域参数k(ε邻域)；

2、计算每个点

的近邻点(k邻域)，构造近邻图；

3、计算最短路径矩阵；

4、利用MDS构造一个新的d维空间Y(d是降维后空间的维数)，最大限度地保持样本之间的欧式距离误差最小。

实施例4:K-Means聚合模块具体步骤为：

1、随机选取k个聚类质心点为μ₁,μ₂,...,μ_k；

2、计算每个聚类对象到聚类中心的距离，以此划分数据簇；

3、再次计算每个聚类中心；

4、计算标准测度函数，达到最大迭代次数，则停止，否则，继续S4-2，S4-3操作。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。