CN111400498A - 一种基于降维的短信聚类方法 - Google Patents
一种基于降维的短信聚类方法 Download PDFInfo
- Publication number
- CN111400498A CN111400498A CN202010202379.XA CN202010202379A CN111400498A CN 111400498 A CN111400498 A CN 111400498A CN 202010202379 A CN202010202379 A CN 202010202379A CN 111400498 A CN111400498 A CN 111400498A
- Authority
- CN
- China
- Prior art keywords
- short message
- dimension reduction
- clustering
- calculating
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于降维的短信聚类方法,包括有以下步骤:S1:对短信文本进行预处理;S2:根据短信文本之间的相似度进行初步分类;S3:对无法处理的短信文本进行降维处理;S4:采用K‑Means算法对降维后的短信进行聚类操作,输出结果,本发明涉及大数据挖掘算法技术领域。本发明,通过相似度进行初步分类,简化了计算量,同时降维的处理使得聚合算法的效率进一步提高。
Description
技术领域
本发明涉及大数据挖掘算法技术领域,特别是涉及一种基于降维的短信聚类方法。
背景技术
随着互联网技术的普及和飞速发展,短信已经由传统的通讯工具演变成接收通知的媒介。垃圾短信开始困恼人们的生活,给我们带来骚扰和不便。对短信进行聚类可以有效缓解垃圾短信给人们生活带来的不变。
不同于正常文本的聚类,短信文本具有稀疏性,文本中的大部分词语只出现一次。传统方法需要对短信进行逐条处理和分析,通过人工手段人为的做一些标记数据,之后才能在某种程度上对短信进行聚类。这样的处理方法效率低下,且硬件的要求较高,不利于大规模处理。
基于传统处理方法效率低下,本发明通过直接计算词块之间的相似度对短信进行初步分类,然后使用Isomap流形学习算法对短信在进行将维操作,最后再使用K-means算法对短信文档集进行聚类,大大提高了聚类的可靠性和速度,解决传统短信过滤效率低下的问题。
发明内容
本发明的目的在于提供一种更为可靠、高效的短信聚类方法。首先,将短信文本进行预处理,剔除无效汉字及标点,并利用最大匹配法进行分词,然后根据短信文本的相似度进行初步分类,对于无法分类的短信,则先进行降维操作,然后再利用K-Means聚类算法进行聚类。本发明通过相似度进行初步分类,简化了计算量,同时降维的处理使得聚合算法的效率进一步提高。
为了实现上述目的,本发明采用如下技术方案:一种基于降维的短信聚类方法,包括有以下步骤:
S1:对短信文本进行预处理;
S2:根据短信文本之间的相似度进行初步分类;
S3:对无法处理的短信文本进行降维处理;
S4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。
优选的,所述S1步骤为:
S1-1:将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;
S1-2:把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
S2-2:利用Hungarian算法找出和之间的最大匹配,即SMi'在SM'j中的最大匹配是jk∈{1,2,...,n},k=1,2,...,m。SM'j在SMi'中的最大匹配是jk∈{1,2,...,m},k=1,2,...,n;
S2-3:短信SMi,SMj之间的相似度可如下定义:
其中:
这样就可以计算两条短信之间的语义距离,它比较适用于所计算文本比较短的情况,这里我们用于短信;
S2-4:将相似度高的短信文本直接算做同一类别。
优选的,所述S3步骤为:
S3-3:计算最短路径矩阵;
S3-4:利用MDS构造一个新的d维空间Y(d是降维后空间的维数),最大限度地保持样本之间的欧式距离误差最小。
优选的,所述S4步骤为:
S4-1:随机选取k个聚类质心点为μ1,μ2,...,μk;
S4-2:计算每个聚类对象到聚类中心的距离,以此划分数据簇;
S4-3:再次计算每个聚类中心;
S4-4:计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
与现有技术相比,本发明实现的有益效果:
1-本发明采用相似度算法,可对一部分短信进行初步分类,减少后期聚类的工作量。
2-采用lsomap算法对短信文本进行降维操作,在保证准确度的基础上,进一步减少了后续聚合的工作量。
3-降维后进行K-Means聚类,算法简单,易于实现。
附图说明
以下结合附图和具体实施方式来进一步详细说明本发明:
图1是基于降维的短信聚类方法的技术框架。
图2是短信文本预处理模块。
图3是相似度计算模块。
图4是降维模块。
图5是K-Means聚合模块。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图5。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1:短信文本预处理模块具体步骤:
1、将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;现在违法短信为了防止被过滤,在句子中隔一两个词就用标点隔开,对于这种异常标点,需要剔除后才能进行下一步操作;
2、把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
实施例2:相似度计算模块具体步骤如下:
2、利用Hungarian算法找出和之间的最大匹配,即SMi'在SM'j中的最大匹配是jk∈{1,2,...,n},k=1,2,...,m。SM'j在SMi'中的最大匹配是jk∈{1,2,...,m},k=1,2,...,n;
3、短信SMi,SMj之间的相似度可如下定义:
其中:
4、将相似度高的短信文本直接算做同一类别。
实施例3:降维模块具体步骤为:
3、计算最短路径矩阵;
4、利用MDS构造一个新的d维空间Y(d是降维后空间的维数),最大限度地保持样本之间的欧式距离误差最小。
实施例4:K-Means聚合模块具体步骤为:
1、随机选取k个聚类质心点为μ1,μ2,...,μk;
2、计算每个聚类对象到聚类中心的距离,以此划分数据簇;
3、再次计算每个聚类中心;
4、计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (5)
1.一种基于降维的短信聚类方法,其特征在于,包括有以下步骤:
S1:对短信文本进行预处理;
S2:根据短信文本之间的相似度进行初步分类;
S3:对无法处理的短信文本进行降维处理;
S4:采用K-Means算法对降维后的短信进行聚类操作,输出结果。
2.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S1步骤为:
S1-1:将短信SMi(i=1,2,...,n)中的异常标点和无效汉字去除;
S1-2:把短信SMi(i=1,2,...,n)分散成m个词语的列表(最大匹配),即SMi={Ti1,Ti2,...,Tim},其中每个Tik表示一个词语。
5.根据权利要求1所述的一种基于降维的短信聚类方法,其特征在于:所述S4步骤为:
S4-1:随机选取k个聚类质心点为μ1,μ2,...,μk;
S4-2:计算每个聚类对象到聚类中心的距离,以此划分数据簇;
S4-3:再次计算每个聚类中心;
S4-4:计算标准测度函数,达到最大迭代次数,则停止,否则,继续S4-2,S4-3操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202379.XA CN111400498A (zh) | 2020-03-20 | 2020-03-20 | 一种基于降维的短信聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202379.XA CN111400498A (zh) | 2020-03-20 | 2020-03-20 | 一种基于降维的短信聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111400498A true CN111400498A (zh) | 2020-07-10 |
Family
ID=71428974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010202379.XA Pending CN111400498A (zh) | 2020-03-20 | 2020-03-20 | 一种基于降维的短信聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400498A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
CN106844748A (zh) * | 2017-02-16 | 2017-06-13 | 湖北文理学院 | 文本聚类方法、装置及电子设备 |
CN109389166A (zh) * | 2018-09-29 | 2019-02-26 | 聚时科技(上海)有限公司 | 基于局部结构保存的深度迁移嵌入聚类机器学习方法 |
-
2020
- 2020-03-20 CN CN202010202379.XA patent/CN111400498A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
CN106844748A (zh) * | 2017-02-16 | 2017-06-13 | 湖北文理学院 | 文本聚类方法、装置及电子设备 |
CN109389166A (zh) * | 2018-09-29 | 2019-02-26 | 聚时科技(上海)有限公司 | 基于局部结构保存的深度迁移嵌入聚类机器学习方法 |
Non-Patent Citations (1)
Title |
---|
刘金岭 等: "基于Isomap的中文短信文本聚类算法", 《计算机工程与应用》, vol. 45, no. 34, pages 144 - 146 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
US7433869B2 (en) | Method and apparatus for document clustering and document sketching | |
CN110619049A (zh) | 一种基于深度学习的报文异常检测方法 | |
CN103679012A (zh) | 一种可移植可执行文件的聚类方法和装置 | |
CN111125469B (zh) | 一种社交网络的用户聚类方法、装置以及计算机设备 | |
Ong et al. | Improved hamming distance search using variable length substrings | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
Toussaint et al. | Proximity-graph instance-based learning, support vector machines, and high dimensionality: An empirical comparison | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Nodarakis et al. | Using hadoop for large scale analysis on twitter: A technical report | |
CN111400498A (zh) | 一种基于降维的短信聚类方法 | |
CN110704611B (zh) | 基于特征解交织的非法文本识别方法及装置 | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
Chen et al. | Learning user embedding representation for gender prediction | |
Alghamdi et al. | The hybrid feature selection k-means method for Arabic webpage classification | |
CN112883704A (zh) | 一种大数据相似文本去重预处理方法、装置及终端设备 | |
Hassan et al. | Shape descriptor based document image indexing and symbol recognition | |
Packiam et al. | A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data | |
CN112084298A (zh) | 基于快速btm的舆情主题处理方法和装置 | |
Jingrui et al. | A method of optimizing LDA result purity based on semantic similarity | |
Tarn et al. | Reductive clustering: An efficient linear-time graph-based divisive cluster analysis approach | |
Zhang et al. | Association Rules Algorithm Based on Dual Support and Compression Matrix | |
Zhou et al. | Novel Classification Method for Short Texts with Few Words | |
Mishra et al. | Language identification using fuzzy-SVM technique | |
Yuan | An effective Chinese short message texts clustering algorithm based on the ward's method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |