CN110597982A - 一种基于词共现网络的短文本主题聚类算法 - Google Patents

一种基于词共现网络的短文本主题聚类算法 Download PDF

Info

Publication number
CN110597982A
CN110597982A CN201910487109.5A CN201910487109A CN110597982A CN 110597982 A CN110597982 A CN 110597982A CN 201910487109 A CN201910487109 A CN 201910487109A CN 110597982 A CN110597982 A CN 110597982A
Authority
CN
China
Prior art keywords
short text
theme
preprocessed
word
clustering algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910487109.5A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Singularity Space-Time Digital Technology Co Ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910487109.5A priority Critical patent/CN110597982A/zh
Publication of CN110597982A publication Critical patent/CN110597982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于词共现网络的短文本主题聚类算法,包括以下具体步骤:S1、收集海量主题短文本数据;S2、对主题短文本数据预处理,得到预处理后主题短文本;S3、提取预处理后主题短文本数据中的关键字;S4、根据主题短文本数据中的关键字构建词共现网络;S5、对短文本主题进行预处理,得到预处理后短文本主题;提取预处理后短文本主题中的关键字;S6、计算预处理后短文本主题和词共现网络中预处理后主题短文本之间的语义相似度;S7、根据得到的语义相识度,对短文本主题进行聚类操作。本发明能对短文本信息进行有效聚类,从而快速得到人们想要的主题信息。

Description

一种基于词共现网络的短文本主题聚类算法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于词共现网络的短文本主题聚类算法。
背景技术
文本聚类是数据挖掘和自然语言处理领域中聚类分析算法的重要主题之一;随着互联网快速发展和信息技术的快速进步,数据的增长速度越来越快。在人们进行学习活动过程中,往往需要确定活动的主题,为了避免主题确定时发生错误,往往需要在网络上对主题进行搜索,但是如何准确且快速的从规模庞大的短文本数据中抽取处符合自己要求的信息成为现阶段新的挑战;为此,本申请中提出一种基于词共现网络的短文本主题聚类算法,对短文本信息进行聚类,从而快速得到人们想要的主题信息。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于词共现网络的短文本主题聚类算法,本发明能对短文本信息进行有效聚类,从而快速得到人们想要的主题信息。
(二)技术方案
为解决上述问题,本发明提供了一种基于词共现网络的短文本主题聚类算法,包括以下具体步骤:
S1、收集海量主题短文本数据A;
S2、对主题短文本数据A预处理,得到预处理后主题短文本B;
S3、提取预处理后主题短文本B数据中的关键字C;
S4、根据主题短文本数据A中的关键字C构建词共现网络;
S5、对短文本主题D进行预处理,得到预处理后短文本主题E;提取预处理后短文本主题E中的关键字F;
S6、计算预处理后短文本主题E和词共现网络中预处理后主题短文本B之间的语义相似度G,得到两者最接近的语义相似度G1;
S7、根据得到的语义相识度G1,对短文本主题D进行聚类操作。
优选的,S1中对得到的主题短文本数据A进行处理前进行去除低频词项。
优选的,低频词项为词频低于0.01的词项。
优选的,S2中对主题短文本数据A中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
优选的,S5中对短文本主题D中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
优选的,S6中计算相识度的具体步骤包括:
S61、从预处理后短文本主题E和预处理后主题短文本B中各抽取连续的G 各关键词,并将两者安装原有的顺序组成短文本H;获取新的短文本H中每个词的词向量表示并组成映射矩阵,利用映射矩阵与相同大小的卷积核进行卷积,获得标量I;
S62、重复执行S61将得到标量集合I1,将标量集合I1按照原有的顺序组合起来,得到关于预处理后短文本主题E和预处理后主题短文本B语义信息的局部特征矩阵;
S63、对局部特征矩阵进行二维池化操作,得到全局特征矩阵;
S64、对全局特征矩阵交替进行二维卷积操作和二维池化操作,并把最终的全局特征矩阵通过一个全连接层变换成一个特征向量;把特征向量输入到一个多层感知机中,得到预处理后短文本主题E和预处理后主题短文本B的语义相似度。
优选的,S7中聚类操作采用K均值聚类算法。
本发明的上述技术方案具有如下有益的技术效果:
本发明中,通过对网络上的主题短文本数据A进行收集并处理后建立词共现网络;对短文本主题D进行处理后,分别计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B的语义相似度,并最终选择与预处理后短文本主题E最为接近的语义相似度的预处理后主题短文本B,根据得到的语义相识度,对短文本主题D快速进行聚类操作,从而快速得到使用者所需要的主题信息。
附图说明
图1为本发明提出的一种基于词共现网络的短文本主题聚类算法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于词共现网络的短文本主题聚类算法,包括以下具体步骤:
S1、收集海量主题短文本数据A,通过实现爬虫或者社交网络平台获取网络上的主题短文本数据A;
S2、对主题短文本数据A预处理,得到预处理后主题短文本B;
S3、对预处理后主题短文本B进行分词并提取预处理后主题短文本B数据中的关键字C;
S4、根据主题短文本数据A中的关键字C构建词共现网络;
S5、对短文本主题D进行预处理,得到预处理后短文本主题E;对预处理后短文本主题E进行分词并提取预处理后短文本主题E中的关键字F;
S6、计算预处理后短文本主题E和词共现网络中预处理后主题短文本B之间的语义相似度G,得到两者最接近的语义相似度G1;
需要说明的是,计算预处理后短文本主题E和预处理后主题短文本B之间的语义相似度G;其中,需要计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B之间的语义相似度G;并最终得到两者最接近的语义相似度G;
S7、根据得到的语义相识度G1,对短文本主题D进行聚类操作。
在一个可选的实施例中,S1中对得到的主题短文本数据A进行处理前进行去除低频词项。
需要时说明的是,低频词项是指出现频率相对较低的词。比如,对于一个含有1000个词语的文本,如果某个词出现100次,则频率为0.1,如果某个词仅出现1次,则频率为0.001,低频词项就是频率小于一定程度的单词;在本发明实施例中,优选词频低于0.01的词汇为低频词汇。
在一个可选的实施例中,S2中对主题短文本数据A中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
在一个可选的实施例中,S5中对短文本主题D中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
在一个可选的实施例中,S6中计算相识度的具体步骤包括:
S61、从预处理后短文本主题E和预处理后主题短文本B中各抽取连续的G 各关键词,并将两者安装原有的顺序组成短文本H;获取新的短文本H中每个词的词向量表示并组成映射矩阵,利用映射矩阵与相同大小的卷积核进行卷积,获得标量I;
S62、重复执行S61将得到标量集合I1,将标量集合I1按照原有的顺序组合起来,得到关于预处理后短文本主题E和预处理后主题短文本B语义信息的局部特征矩阵;
S63、对局部特征矩阵进行二维池化操作,得到全局特征矩阵;
S64、对全局特征矩阵交替进行二维卷积操作和二维池化操作,并把最终的全局特征矩阵通过一个全连接层变换成一个特征向量;把特征向量输入到一个多层感知机中,得到预处理后短文本主题E和预处理后主题短文本B的语义相似度。
在一个可选的实施例中,S7中聚类操作采用K均值聚类算法。
本发明中,通过对网络上的主题短文本数据A进行收集并处理后建立词共现网络;对短文本主题D进行处理后,分别计算预处理后短文本主题E和词共现网络中所有的预处理后主题短文本B的语义相似度,并最终选择与预处理后短文本主题E最为接近的语义相似度的预处理后主题短文本B,根据得到的语义相识度,对短文本主题D快速进行聚类操作。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于词共现网络的短文本主题聚类算法,其特征在于,包括以下具体步骤:
S1、收集海量主题短文本数据A;
S2、对主题短文本数据A预处理,得到预处理后主题短文本B;
S3、提取预处理后主题短文本B数据中的关键字C;
S4、根据主题短文本数据A中的关键字C构建词共现网络;
S5、对短文本主题D进行预处理,得到预处理后短文本主题E;提取预处理后短文本主题E中的关键字F;
S6、计算预处理后短文本主题E和词共现网络中预处理后主题短文本B之间的语义相似度G,得到两者最接近的语义相似度G1;
S7、根据得到的语义相识度G1,对短文本主题D进行聚类操作。
2.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,S1中对得到的主题短文本数据A进行处理前进行去除低频词项。
3.根据权利要求2所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,低频词项为词频低于0.01的词项。
4.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,S2中对主题短文本数据A中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
5.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,S5中对短文本主题D中的词语进行消歧,包括对常规的高频词、停用词、标点符号以及表情符号进行去除。
6.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,S6中计算相识度的具体步骤包括:
S61、从预处理后短文本主题E和预处理后主题短文本B中各抽取连续的G各关键词,并将两者安装原有的顺序组成短文本H;获取新的短文本H中每个词的词向量表示并组成映射矩阵,利用映射矩阵与相同大小的卷积核进行卷积,获得标量I;
S62、重复执行S61将得到标量集合I1,将标量集合I1按照原有的顺序组合起来,得到关于预处理后短文本主题E和预处理后主题短文本B语义信息的局部特征矩阵;
S63、对局部特征矩阵进行二维池化操作,得到全局特征矩阵;
S64、对全局特征矩阵交替进行二维卷积操作和二维池化操作,并把最终的全局特征矩阵通过一个全连接层变换成一个特征向量;把特征向量输入到一个多层感知机中,得到预处理后短文本主题E和预处理后主题短文本B的语义相似度。
7.根据权利要求1所述的一种基于词共现网络的短文本主题聚类算法,其特征在于,S7中聚类操作采用K均值聚类算法。
CN201910487109.5A 2019-06-05 2019-06-05 一种基于词共现网络的短文本主题聚类算法 Pending CN110597982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487109.5A CN110597982A (zh) 2019-06-05 2019-06-05 一种基于词共现网络的短文本主题聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487109.5A CN110597982A (zh) 2019-06-05 2019-06-05 一种基于词共现网络的短文本主题聚类算法

Publications (1)

Publication Number Publication Date
CN110597982A true CN110597982A (zh) 2019-12-20

Family

ID=68852623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487109.5A Pending CN110597982A (zh) 2019-06-05 2019-06-05 一种基于词共现网络的短文本主题聚类算法

Country Status (1)

Country Link
CN (1) CN110597982A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266504B1 (ko) * 2012-01-20 2013-05-24 성균관대학교산학협력단 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
CN108763484A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于lda主题模型的法条推荐方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266504B1 (ko) * 2012-01-20 2013-05-24 성균관대학교산학협력단 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
CN108763484A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于lda主题模型的法条推荐方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵国荣等: "一种基于组块分析的共现词提取方法", 《情报科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN112183108A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 短文本主题分布的推理方法、系统、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
Song et al. A novel classification approach based on Naïve Bayes for Twitter sentiment analysis
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN110188359B (zh) 一种文本实体抽取方法
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN109086265A (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN107577713B (zh) 基于电力词典的文本处理方法
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN109492098B (zh) 基于主动学习和语义密度的目标语料库构建方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
Alqaraleh Turkish Sentiment Analysis System via Ensemble Learning
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220