CN111400498A - 一种基于降维的短信聚类方法 - Google Patents

一种基于降维的短信聚类方法 Download PDF

Info

Publication number
CN111400498A
CN111400498A CN202010202379.XA CN202010202379A CN111400498A CN 111400498 A CN111400498 A CN 111400498A CN 202010202379 A CN202010202379 A CN 202010202379A CN 111400498 A CN111400498 A CN 111400498A
Authority
CN
China
Prior art keywords
short message
dimension reduction
clustering
calculating
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010202379.XA
Other languages
English (en)
Inventor
文谟祥
杨与钦
李辉城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Need You Computer Service Co ltd
Original Assignee
Guangzhou Need You Computer Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Need You Computer Service Co ltd filed Critical Guangzhou Need You Computer Service Co ltd
Priority to CN202010202379.XA priority Critical patent/CN111400498A/zh
Publication of CN111400498A publication Critical patent/CN111400498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于降维的短信聚类方法,包括有以下步骤:S1:对短信文本进行预处理;S2:根据短信文本之间的相似度进行初步分类;S3:对无法处理的短信文本进行降维处理;S4:采用K‑Means算法对降维后的短信进行聚类操作,输出结果,本发明涉及大数据挖掘算法技术领域。本发明,通过相似度进行初步分类,简化了计算量,同时降维的处理使得聚合算法的效率进一步提高。

Description

一种基于降维的短信聚类方法
技术领域
本发明涉及大数据挖掘算法技术领域,特别是涉及一种基于降维的短信聚类方法。
背景技术
随着互联网技术的普及和飞速发展,短信已经由传统的通讯工具演变成接收通知的媒介。垃圾短信开始困恼人们的生活,给我们带来骚扰和不便。对短信进行聚类可以有效缓解垃圾短信给人们生活带来的不变。
不同于正常文本的聚类,短信文本具有稀疏性,文本中的大部分词语只出现一次。传统方法需要对短信进行逐条处理和分析,通过人工手段人为的做一些标记数据,之后才能在某种程度上对短信进行聚类。这样的处理方法效率低下,且硬件的要求较高,不利于大规模处理。
基于传统处理方法效率低下,本发明通过直接计算词块之间的相似度对短信进行初步分类,然后使用Isomap流形学习算法对短信在进行将维操作,最后再使用K-means算法对短信文档集进行聚类,大大提高了聚类的可靠性和速度,解决传统短信过滤效率低下的问题。
发明内容
本发明的目的在于提供一种更为可靠、高效的短信聚类方法。首先,将短信文本进行预处理,剔除无效汉字及标点,并利用最大匹配法进行分词,然后根据短信文本的相似度进行初步分类,对于无法分类的短信,则先进行降维操作,然后再利用K-Means聚类算法进行聚类。本发明通过相似度进行初步分类,简化了计算量,同时降维的处理使得聚合算法的效率进一步提高。
为了实现上述目的,本发明采用如下技术方案:一种基于降维的短信聚类方法,包括有以下步骤:
S1:对短信文本进行预处理;
S2:根据短信文本之间的相似度进行初步分类;
S3:对无法处理的短信文本进行降维处理;
S4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。
优选的,所述S1步骤为:
S1-1:将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;
S1-2:把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
优选的,所述S2步骤为:S2-1:将短信
Figure BDA0002419834730000021
和短信
Figure BDA0002419834730000022
之间的相似度定义为:
Figure BDA0002419834730000023
S2-2:利用Hungarian算法找出
Figure BDA0002419834730000024
Figure BDA0002419834730000025
之间的最大匹配,即SMi'在SM'j中的最大匹配是
Figure BDA0002419834730000026
jk∈{1,2,...,n},k=1,2,...,m。SM'j在SMi'中的最大匹配是
Figure BDA0002419834730000027
jk∈{1,2,...,m},k=1,2,...,n;
S2-3:短信SMi,SMj之间的相似度可如下定义:
Figure BDA0002419834730000028
其中:
Figure BDA0002419834730000029
Figure BDA00024198347300000210
这样就可以计算两条短信之间的语义距离,它比较适用于所计算文本比较短的情况,这里我们用于短信;
S2-4:将相似度高的短信文本直接算做同一类别。
优选的,所述S3步骤为:
S3-1:短信
Figure BDA0002419834730000031
短信降维的维数d,邻域参数k(ε邻域);
S3-2:计算每个点
Figure BDA0002419834730000032
的近邻点(k邻域),构造近邻图;
S3-3:计算最短路径矩阵;
S3-4:利用MDS构造一个新的d维空间Y(d是降维后空间的维数),最大限度地保持样本之间的欧式距离误差最小。
优选的,所述S4步骤为:
S4-1:随机选取k个聚类质心点为μ12,...,μk
S4-2:计算每个聚类对象到聚类中心的距离,以此划分数据簇;
S4-3:再次计算每个聚类中心;
S4-4:计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
与现有技术相比,本发明实现的有益效果:
1-本发明采用相似度算法,可对一部分短信进行初步分类,减少后期聚类的工作量。
2-采用lsomap算法对短信文本进行降维操作,在保证准确度的基础上,进一步减少了后续聚合的工作量。
3-降维后进行K-Means聚类,算法简单,易于实现。
附图说明
以下结合附图和具体实施方式来进一步详细说明本发明:
图1是基于降维的短信聚类方法的技术框架。
图2是短信文本预处理模块。
图3是相似度计算模块。
图4是降维模块。
图5是K-Means聚合模块。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图5。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1:短信文本预处理模块具体步骤:
1、将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;现在违法短信为了防止被过滤,在句子中隔一两个词就用标点隔开,对于这种异常标点,需要剔除后才能进行下一步操作;
2、把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
实施例2:相似度计算模块具体步骤如下:
1、将短信
Figure BDA0002419834730000041
和短信
Figure BDA0002419834730000042
之间的相似度定义为:
Figure BDA0002419834730000051
2、利用Hungarian算法找出
Figure BDA0002419834730000052
Figure BDA0002419834730000053
之间的最大匹配,即SMi'在SM'j中的最大匹配是
Figure BDA0002419834730000054
jk∈{1,2,...,n},k=1,2,...,m。SM'j在SMi'中的最大匹配是
Figure BDA0002419834730000055
jk∈{1,2,...,m},k=1,2,...,n;
3、短信SMi,SMj之间的相似度可如下定义:
Figure BDA0002419834730000056
其中:
Figure BDA0002419834730000057
Figure BDA0002419834730000058
4、将相似度高的短信文本直接算做同一类别。
实施例3:降维模块具体步骤为:
1、设置短信
Figure BDA0002419834730000059
降维的维数d,邻域参数k(ε邻域);
2、计算每个点
Figure BDA00024198347300000510
的近邻点(k邻域),构造近邻图;
3、计算最短路径矩阵;
4、利用MDS构造一个新的d维空间Y(d是降维后空间的维数),最大限度地保持样本之间的欧式距离误差最小。
实施例4:K-Means聚合模块具体步骤为:
1、随机选取k个聚类质心点为μ12,...,μk
2、计算每个聚类对象到聚类中心的距离,以此划分数据簇;
3、再次计算每个聚类中心;
4、计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (5)

1.一种基于降维的短信聚类方法,其特征在于,包括有以下步骤:
S1:对短信文本进行预处理;
S2:根据短信文本之间的相似度进行初步分类;
S3:对无法处理的短信文本进行降维处理;
S4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。
2.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S1步骤为:
S1-1:将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;
S1-2:把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
3.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S2步骤为:S2-1:将短信
Figure FDA0002419834720000011
和短信
Figure FDA0002419834720000012
之间的相似度定义为:
Figure FDA0002419834720000013
S2-2:利用Hungarian算法找出
Figure FDA0002419834720000014
Figure FDA0002419834720000015
之间的最大匹配,即SM′i在SM'j中的最大匹配是
Figure FDA0002419834720000016
jk∈{1,2,...,n},k=1,2,...,m。SM'j在SM′i中的最大匹配是
Figure FDA0002419834720000017
jk∈{1,2,...,m},k=1,2,...,n;
S2-3:短信SMi,SMj之间的相似度可如下定义:
Figure FDA0002419834720000018
其中:
Figure FDA0002419834720000021
Figure FDA0002419834720000022
这样就可以计算两条短信之间的语义距离,它比较适用于所计算文本比较短的情况,这里我们用于短信;
S2-4:将相似度高的短信文本直接算做同一类别。
4.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S3步骤为:
S3-1:短信
Figure FDA0002419834720000023
短信降维的维数d,邻域参数k(ε邻域);
S3-2:计算每个点
Figure FDA0002419834720000024
的近邻点(k邻域),构造近邻图;
S3-3:计算最短路径矩阵;
S3-4:利用MDS构造一个新的d维空间Y(d是降维后空间的维数),最大限度地保持样本之间的欧式距离误差最小。
5.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S4步骤为:
S4-1:随机选取k个聚类质心点为μ12,...,μk
S4-2:计算每个聚类对象到聚类中心的距离,以此划分数据簇;
S4-3:再次计算每个聚类中心;
S4-4:计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
CN202010202379.XA 2020-03-20 2020-03-20 一种基于降维的短信聚类方法 Pending CN111400498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010202379.XA CN111400498A (zh) 2020-03-20 2020-03-20 一种基于降维的短信聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010202379.XA CN111400498A (zh) 2020-03-20 2020-03-20 一种基于降维的短信聚类方法

Publications (1)

Publication Number Publication Date
CN111400498A true CN111400498A (zh) 2020-07-10

Family

ID=71428974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010202379.XA Pending CN111400498A (zh) 2020-03-20 2020-03-20 一种基于降维的短信聚类方法

Country Status (1)

Country Link
CN (1) CN111400498A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
CN109389166A (zh) * 2018-09-29 2019-02-26 聚时科技(上海)有限公司 基于局部结构保存的深度迁移嵌入聚类机器学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
CN109389166A (zh) * 2018-09-29 2019-02-26 聚时科技(上海)有限公司 基于局部结构保存的深度迁移嵌入聚类机器学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘金岭 等: "基于Isomap的中文短信文本聚类算法", 《计算机工程与应用》, vol. 45, no. 34, pages 144 - 146 *

Similar Documents

Publication Publication Date Title
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
US7433869B2 (en) Method and apparatus for document clustering and document sketching
CN110619049A (zh) 一种基于深度学习的报文异常检测方法
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
Ong et al. Improved hamming distance search using variable length substrings
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
Toussaint et al. Proximity-graph instance-based learning, support vector machines, and high dimensionality: An empirical comparison
CN115098690A (zh) 一种基于聚类分析的多数据文档分类方法及系统
Nodarakis et al. Using hadoop for large scale analysis on twitter: A technical report
CN111400498A (zh) 一种基于降维的短信聚类方法
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
Chen et al. Learning user embedding representation for gender prediction
Alghamdi et al. The hybrid feature selection k-means method for Arabic webpage classification
CN112883704A (zh) 一种大数据相似文本去重预处理方法、装置及终端设备
Hassan et al. Shape descriptor based document image indexing and symbol recognition
Packiam et al. A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data
CN112084298A (zh) 基于快速btm的舆情主题处理方法和装置
Jingrui et al. A method of optimizing LDA result purity based on semantic similarity
Tarn et al. Reductive clustering: An efficient linear-time graph-based divisive cluster analysis approach
Zhang et al. Association Rules Algorithm Based on Dual Support and Compression Matrix
Zhou et al. Novel Classification Method for Short Texts with Few Words
Mishra et al. Language identification using fuzzy-SVM technique
Yuan An effective Chinese short message texts clustering algorithm based on the ward's method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination