CN109308317A - 一种基于聚类的非结构化文本的热点词提取方法 - Google Patents
一种基于聚类的非结构化文本的热点词提取方法 Download PDFInfo
- Publication number
- CN109308317A CN109308317A CN201811043258.4A CN201811043258A CN109308317A CN 109308317 A CN109308317 A CN 109308317A CN 201811043258 A CN201811043258 A CN 201811043258A CN 109308317 A CN109308317 A CN 109308317A
- Authority
- CN
- China
- Prior art keywords
- hot spot
- cluster
- vector
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于聚类的非结构化文本的热点词提取方法,属于自然语言处理技术领域。本发明的基于聚类的非结构化文本的热点词提取方法,包括以下步骤:S1:文本数据预处理;S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;S3:对向量进行降维处理,提取主要特征;S4:使用降维后的向量进行聚类;S5:根据聚类结果,提取每类下的热点词。该发明的基于聚类的非结构化文本的热点词提取方法简单有效,能够极大的较少数据的冗余,只保留相对重要的信息,具有很好的推广应用价值。
Description
技术领域
本发明涉及自然语言处理技术领域,具体提供一种基于聚类的非结构化文本的热点词提取方法。
背景技术
热点指的是比较受广大群众关注,或者比较受广大群众欢迎的新闻或信息,或者指某时期引人注目的地方或问题。随着互联网的兴起和发展,人们越来越多的从网络上了解国家大事、世界新闻等信息。这些信息随着互联网的发展其数量也与日俱增,面对这些非结构化文本数据,怎样才能帮助大众更好的抓住主要信息,掌握热带动态成为关键。自然语言处理技术发挥了巨大的作用,自然语言处理作为计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。现在互联网的发展,每天各种新闻铺天盖地,人们只能泛泛浏览,而对于近段时间内究竟有哪些新闻是关注度最高的热点新闻很难悉知。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种简单有效,能够极大的较少数据的冗余,只保留相对重要的信息的基于聚类的非结构化文本的热点词提取方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于聚类的非结构化文本的热点词提取方法,该方法包括以下步骤:
S1:文本数据预处理;
S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;
S3:对向量进行降维处理,提取主要特征;
S4:使用降维后的向量进行聚类;
S5:根据文本聚类结果,提取每类下的热点词。
作为优选,该方法还包括以下步骤S6:人工干预。
作为优选,步骤S1数据预处理过程为,去除无用的字符及特定的表达,然后进行分词及词性标注,去除停用词,使用普通停用词表。可根据具体的情况选择性保留特定词性的词语,减少信息冗余。
所述特定的表达比如时间、无用的书面语等。
作为优选,步骤S2对预处理的文本数据进行文本向量化的过程采用词袋模型或者TF-IDF模型或者Word2vec向量化模型首先得到每个词的向量,将词的向量进行叠加得到文本的向量,或者取词的向量平均得到文本的向量。其中词袋模型和TFIDF模型产生的向量维度为词典的个数,一般较大,而Word2vec向量化模型可以自定义向量维度。
TF-IDF模型中TF-IDF即Term Frequency-Inverse Document Frequency。
作为优选,步骤S3对向量进行降维处理,采用PCA或者LDA主题模型进行。
PCA(Principal Component Analysis)即主成分分析。
LDA即Latent Dirichlet Allocation。
词袋模型和TFIDF模型产生的向量维度为词典的个数,一般较大,会追加该步的降维处理。Word2vec向量化模型可以自定义向量维度,设置适当大小之后可以不进行降维操作。
作为优选,步骤S4使用降维后的向量进行聚类中,降维后的每条文本数据对应一个向量,运用产生的向量进行聚类,经聚类后的每条文本数据对应一个类别标签,统计每类标签的数据量,按照每类数据量从大到小,赋值等级,数据量越多,等级越高,最高的等级为1。如果聚类结果中存在异常类(标签通常是-1),则异常类不纳入计算。例如聚类中产生四个类别,类别标签以及每类的数据量为:{1:300,2:1000,3:700,-1:50},那么对应的等级{label:rank}为{1:3,2:1,3:2,-1:-1}。
所述聚类方法有DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)、K-Means(均值聚类) 、MeanShift(均值漂移聚类) 、GMM(Gaussian MixtureModel混合高斯模型)等,其中DBSCAN、MeanShift方法不需要指定聚类产生的类别数目,K-Means、GMM需要指定聚类产生的类别数目。
作为优选,步骤S5提取每类下的热点词时,根据步骤S4产生的等级,从高到低依次进行每个等级下的热点词的提取,针对每个等级下的数据,统计该等级下所有词的词频,从大到小排列,选取设定个数的词作为该等级下的热点词,可以自定义热点词的个数,比如本发明中可选用30个。
作为优选,步骤S6人工干预针对具体领域的专业停用词,根据每个等级下的词频,选出频率较高,但对具体领域无用的词纳入专业停用词表,与普通停用词表组成新的停用词表。
在步骤S1中,选用的停用词表只是普通停用词表,步骤S6选用的为针对某些具体领域的专业停用词。该步骤也可以放在步骤S1进行,将数据分词去除普通停用词后,进行词频统计,人工选取出现频率较高,但是针对该领域无用的词语纳入专业停用词表。
与现有技术相比,本发明的基于聚类的非结构化文本的热点词提取方法具有以下突出的有益效果:所述基于聚类的非结构化文本的热点词提取方法通过预处理操作过程,可极大的减少数据的冗余,只保留相对重要的信息,通过向量化以及降维操作,获取每条数据的主要特征,避免了维度灾难;通过聚类这种无监督的方法,自动根据数据特征进行类别的分隔,不需要过多人工的干预,最后根据词语的出现频率确定热点词,简单且有效,具有良好的推广应用价值。
附图说明
图1是本发明所述基于聚类的非结构化文本的热点词提取方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的基于聚类的非结构化文本的热点词提取方法作进一步详细说明。
实施例
如图1所示,本发明的基于聚类的非结构化文本的热点词提取方法,包括以下步骤:
S1:文本数据预处理。
观察分析文本数据,去除无用的字符或者根据实际需求去除特定的表达(比如时间、无用的书面语等),然后进行分词以及磁性标注,去除停用词,使用普通停用词表。可根据具体情况选择性保留特定词性的词语,减少信息冗余。
S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达。
该步骤采用词袋模型或者TFIDF模型或者Word2vec向量化模型首先得到每个词的向量,将词的向量进行叠加得到文本的向量,或者取词的向量平均得到文本的向量。其中词袋模型和TFIDF模型产生的向量维度为词典的个数,一般较大,而Word2vec向量化模型可以自定义向量维度。
S3:对向量进行降维处理,提取主要特征。
采用词袋模型和TFIDF模型产生的向量维度为词典的个数,一般较大,会造成维度灾难,特征繁杂不明显,追加该步的降维处理将向量转化为低维度的表达,降维过程采用PCA或者LDA主题模型进行。Word2vec向量化模型可以自定义向量维度,设置适当大小之后可以不进行降维操作。
S4:使用降维后的向量进行聚类。
经过向量化及降维处理后,每条文本数据对应一个向量,运行产生的向量进行聚类。聚类方法有DBSCAN(Density-Based Spatial Clustering of Applications withNoise)、K-Means(均值聚类) 、MeanShift(均值漂移聚类) 、GMM(Gaussian Mixture Model混合高斯模型)等,其中DBSCAN、MeanShift方法不需要指定聚类产生的类别数目,K-Means、GMM需要指定聚类产生的类别数目。经聚类后的每条文本数据对应一个类别标签,统计每类标签的数据量,按照每类数据量从大到小,赋值等级,数据量越多,等级越高,最高的等级为1。如果聚类结果中存在异常类(标签通常是-1),则异常类不纳入计算。例如聚类中产生四个类别,类别标签以及每类的数据量为:{1:300,2:1000,3:700,-1:50},那么对应的等级{label:rank}为{1:3,2:1,3:2,-1:-1}。
S5:根据文本聚类结果,提取每类下的热点词。
根据步骤S4产生的等级,从高到低依次进行每个等级下的热点词的提取,针对每个等级下的数据,统计该等级下所有词的词频,从大到小排列,选取设定个数的词作为该等级下的热点词,可以自定义热点词的个数,比如本发明中可选用30个。
S6:人工干预。
在步骤S1中选用的普通停用词表只是普通的停用词表,针对具体领域会有专业的停用词表,用户可以自定义。根据每个等级下的词频情况,进行人工干预,人工选取出现频率较高,但是对该领域无用的词语纳入专业停用词表,与普通停用词表组成新的停用词表,再进行一次后续的操作。其中,该步骤也可放在步骤S1进行,将数据分词并去除普通停用词后,进行词频统计,同样人工选取出现频率较高,但是针对该领域无用的词语纳入专业停用词表。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (8)
1.一种基于聚类的非结构化文本的热点词提取方法,其特征在于:该方法包括以下步骤:
S1:文本数据预处理;
S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;
S3:对向量进行降维处理,提取主要特征;
S4:使用降维后的向量进行聚类;
S5:根据文本聚类结果,提取每类下的热点词。
2.根据权利要求1所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:该方法还包括以下步骤S6:人工干预。
3.根据权利要求2所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S1数据预处理过程为,去除无用的字符及特定的表达,然后进行分词及词性标注,去除停用词,使用普通停用词表。
4.根据权利要求3所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S2对预处理的文本数据进行文本向量化的过程采用词袋模型或者TFIDF模型或者Word2vec向量化模型首先得到每个词的向量,将词的向量进行叠加得到文本的向量。
5.根据权利要求4所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S3对向量进行降维处理,采用PCA或者LDA主题模型进行。
6.根据权利要求5所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S4使用降维后的向量进行聚类中,降维后的每条文本数据对应一个向量,运用产生的向量进行聚类,经聚类后的每条文本数据对应一个类别标签,统计每类标签的数据量,按照每类数据量从大到小,赋值等级,数据量越多,等级越高。
7.根据权利要求6所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S5提取每类下的热点词时,根据步骤S4产生的等级,从高到低依次进行每个等级下的热点词的提取,针对每个等级下的数据,统计该等级下所有词的词频,从大到小排列,选取设定个数的词作为该等级下的热点词。
8.根据权利要求7所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S6人工干预针对具体领域的专业停用词,根据每个等级下的词频,选出频率较高,但对具体领域无用的词纳入专业停用词表,与普通停用词表组成新的停用词表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043258.4A CN109308317A (zh) | 2018-09-07 | 2018-09-07 | 一种基于聚类的非结构化文本的热点词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043258.4A CN109308317A (zh) | 2018-09-07 | 2018-09-07 | 一种基于聚类的非结构化文本的热点词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109308317A true CN109308317A (zh) | 2019-02-05 |
Family
ID=65224703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811043258.4A Pending CN109308317A (zh) | 2018-09-07 | 2018-09-07 | 一种基于聚类的非结构化文本的热点词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308317A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN114297401A (zh) * | 2021-12-14 | 2022-04-08 | 中航机载系统共性技术有限公司 | 一种基于聚类算法的体系知识抽取方法 |
CN115204150A (zh) * | 2022-09-06 | 2022-10-18 | 北京国电通网络技术有限公司 | 信息校验方法、装置、电子设备和计算机可读介质 |
CN115658879A (zh) * | 2022-12-29 | 2023-01-31 | 北京天际友盟信息技术有限公司 | 自动化威胁情报文本聚类方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
US20180225591A1 (en) * | 2017-02-07 | 2018-08-09 | Fmr Llc | Classifying unstructured computer text for complaint-specific interactions using rules-based and machine learning modeling |
-
2018
- 2018-09-07 CN CN201811043258.4A patent/CN109308317A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN106294689A (zh) * | 2016-08-05 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于文本类特征选择进行降维的方法和装置 |
US20180225591A1 (en) * | 2017-02-07 | 2018-08-09 | Fmr Llc | Classifying unstructured computer text for complaint-specific interactions using rules-based and machine learning modeling |
CN107103043A (zh) * | 2017-03-29 | 2017-08-29 | 国信优易数据有限公司 | 一种文本聚类方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN109829166B (zh) * | 2019-02-15 | 2022-12-27 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN114297401A (zh) * | 2021-12-14 | 2022-04-08 | 中航机载系统共性技术有限公司 | 一种基于聚类算法的体系知识抽取方法 |
CN115204150A (zh) * | 2022-09-06 | 2022-10-18 | 北京国电通网络技术有限公司 | 信息校验方法、装置、电子设备和计算机可读介质 |
CN115658879A (zh) * | 2022-12-29 | 2023-01-31 | 北京天际友盟信息技术有限公司 | 自动化威胁情报文本聚类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN109308317A (zh) | 一种基于聚类的非结构化文本的热点词提取方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN106446148A (zh) | 一种基于聚类的文本查重方法 | |
CN107145503A (zh) | 基于word2vec的远监督非分类关系提取方法及系统 | |
CN104778209A (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN105930509B (zh) | 基于统计与模板匹配的领域概念自动抽取精化方法及系统 | |
CN103699525A (zh) | 一种基于文本多维度特征自动生成摘要的方法和装置 | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN111475609B (zh) | 一种围绕主题建模的改进型K-means服务聚类方法 | |
CN111382276A (zh) | 一种事件发展脉络图生成方法 | |
CN109308323A (zh) | 一种因果关系知识库的构建方法、装置及设备 | |
CN109684476A (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN109271516A (zh) | 一种知识图谱中实体类型分类方法及系统 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN101963989A (zh) | 提取领域本体概念的词语排除法 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
Ghanem et al. | Stemming effectiveness in clustering of Arabic documents | |
CN108595426A (zh) | 基于汉字字形结构性信息的词向量优化方法 | |
CN106227720B (zh) | 一种app软件用户评论模式识别方法 | |
Claster et al. | Unsupervised artificial neural nets for modeling movie sentiment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190205 |
|
RJ01 | Rejection of invention patent application after publication |