CN108268470A - 一种基于演化聚类的评论文本分类提取方法 - Google Patents

一种基于演化聚类的评论文本分类提取方法 Download PDF

Info

Publication number
CN108268470A
CN108268470A CN201611254491.8A CN201611254491A CN108268470A CN 108268470 A CN108268470 A CN 108268470A CN 201611254491 A CN201611254491 A CN 201611254491A CN 108268470 A CN108268470 A CN 108268470A
Authority
CN
China
Prior art keywords
cluster
text
feature
comment
comment text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611254491.8A
Other languages
English (en)
Inventor
侯大勇
李青海
简宋全
邹立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201611254491.8A priority Critical patent/CN108268470A/zh
Publication of CN108268470A publication Critical patent/CN108268470A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于演化聚类的评论文本分类提取方法,该方法包括步骤S1:采集评论样本,对评论内容进行分词以及去除停用词;步骤S2:对文本特征进行处理,除去关联性低或不相关的特征项;步骤S3:将文本特征项根据文本情感向量空间模型,赋予不同权重;步骤S4:利用k‑medoids演化聚类算法对文本特征进行聚类;步骤S5:对各个时间段的聚类结果进行统计,从而得出结论。与现有技术相比:本发明提供了一种基于演化聚类的评论文本分类提取方法,解决了文本特征中可能面临的数据“稀疏性”的问题,同时也降低了计算的复杂度;本发明的方法对异常数据敏感度高、稳定性强,并具有较高的聚类精度。

Description

一种基于演化聚类的评论文本分类提取方法
技术领域
本发明涉及文本分类提取技术领域,具体涉及一种基于演化聚类的评论文本分类提取方法。
背景技术
随着互联网技术的迅速发展,舆论媒介或者平台作为热点事件产生与传播的场所,每天都有这大量的网民参与讨论,并产生大量的评论数据,如何从这些数据中迅速得出网民的情绪分布与观点演变,将及其有利于对其作出针对性营销策略。
传统的聚类方法是一种无监督学习方法,主要用于对静态数据集进行处理。但是,在现实情境中,由于评论数据的特点与复杂性,传统的聚类方法面临数据“稀疏性”的问题,且对异常数据敏感度和稳定性不强,计算复杂,聚类精度较低。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于移动互联网的改进的DES数据加密算法,该方法包括以下步骤:
步骤S1:采集评论样本,对评论内容进行分词,并去除停用词,即数据的预处理;
步骤S2:对文本特征进行处理,除去关联性低或不相关的特征项,采用χ2统计法对评论文本进行处理,χ2统计法的公式为:
其中,A表示包含特征α并且属于类别β的文档数量,B表示包含特征α但是不属于文档类别β的文档数量,C表示不包含特征α但是属于文档类别β的文档数量,D表示既不属于α也不包含特征β的文档数量,N表示语料中文档的总数目;
步骤S3:将步骤S2得出的文本特征项根据文本情感向量空间模型,赋予不同权重,以解决数据的稀疏性问题;
步骤S4:利用k-medoids演化聚类算法,对步骤S3中已经赋予情感倾向权重的文本特征进行聚类,获取各个时间段的聚类中心;
步骤S5:对各个时间段的聚类结果进行统计,得出评论文本的情感倾向与趋势。
较佳的,所述步骤S3具体包括:
步骤S31:选出特征词之后,根据权重计算公式赋予不同的特征词以不同的权重;
步骤S32:利用PMI-IR情感计算方法计算评论文本的情感倾向,结合计算出来的特征词及其权重,构建向量空间,并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类。
较佳的,所述步骤S4具体包括:
步骤S41:输入样本集由人工输入K值,每个固定t的时间段都具有相同的簇数目K,Xt-1中的簇中心为
步骤S42:从Xt个评论文本数据中,随机抽取K个样本作为初始簇中心;
步骤S43:根据选取公式,重新选取t的簇中心,选取公式为:
其中,表示t时段的样本数据集,n表示样本数量;同样的,Xt-1表示t-1时段的样本数据集。如果用Kt表示t时段的簇数目,则为t时段的簇质心,Ct,k为t时段第k个簇的样本数据集;同样的,表示t-1时段的簇质心,Ct-1,k表示t-1时段第k'个簇的样本数据集,Kt-1表示t-1时段簇的个数;
步骤S44:循环迭代,直至收敛,最终得出各个时间段的簇中心关键语段。
与现有技术相比,本发明的有益效果在于:本发明提供了一种基于演化聚类的评论文本分类提取方法,解决了文本特征中可能面临的数据“稀疏性”的问题,同时也降低了计算的复杂度;本发明的方法对异常数据敏感度高、稳定性强,并具有较高的聚类精度。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明提供的一种基于演化聚类的评论文本分类提取方法的流程示意图;
图2为本发明步骤S3的流程示意图;
图3为本发明步骤S4的流程示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明提供的一种基于演化聚类的评论文本分类提取方法的流程示意图,本方法包括以下步骤:
步骤S1:采集评论样本,对评论内容进行分词,并去除停用词,即数据的预处理。
在对评论内容进行分词以及去除停用词时,采用分词工具,综合多个停用词库,特别需要使用词汇更新周期最快的停用词库。
步骤S2:对文本特征进行处理,除去关联性低或不相关的特征项,采取χ2统计法对评论文本进行处理,χ2统计法的公式为:
其中,A表示包含特征α并且属于类别β的文档数量,B表示包含特征α但是不属于文档类别β的文档数量,C表示不包含特征α但是属于文档类别β的文档数量,D表示既不属于α也不包含特征β的文档数量,N表示语料中文档的总数目。
步骤S3:将步骤S2得出的文本特征项根据文本情感向量空间模型赋予不同权重,以解决数据的稀疏性问题。
如图2所示,为步骤S3的流程示意图,该步骤S3具体包括:
步骤S31:选出特征词之后,根据权重计算公式赋予不同的特征词以不同的权重。选取TF-IDF权重计算方式来计算特征词的权重,计算公式为:
其中,W(α,β)表示特征项α在文本β中的权重,而αf(α,β)表示特征项α在文本β中的频数,N表示训练文本的总数,n表示向量的维数,αi表示向量第i个分量对应的特征项,ni表示训练文本集中出现α的数量。
步骤S32:利用PMI-IR情感计算方法计算评论文本的情感倾向,结合计算出来的特征词及其权重,构建向量空间,并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类,具体算法如下(d值由人工输入):
For任何一个特征词WF∈SF
For任何一个情感词WP∈PS
计算
End For
For任何一个特征词WN∈NS
计算
End For
计算特征词的情感倾向
For任何一个情感词WP∈PS
If ST(WF)>d情感倾向为正倾向
Else if ST(WF)<d情感倾向为负倾向
Else为中性
End for
步骤S4:利用k-medoids演化聚类算法,对步骤S3中已经赋予情感倾向权重的文本特征进行聚类,获取各个时间段的聚类中心。
如图3所示,为步骤S4的流程示意图,该步骤S4具体包括:
步骤S41:输入样本集由人工输入K值,每个固定t的时间段都具有相同的簇数目K,Xt-1中的簇中心为
步骤S42:从Xt个评论文本数据中,随机抽取K个样本作为初始簇中心。
步骤S43:根据选取公式,重新选取t的簇中心,选取公式为:
其中,表示t时段的样本数据集,n表示样本数量;同样的,Xt-1表示t-1时段的样本数据集。如果用Kt表示t时段的簇数目,则为t时段的簇质心,Ct,k为t时段第k个簇的样本数据集;同样的,表示t-1时段的簇质心,Ct-1,k表示t-1时段第k'个簇的样本数据集,Kt-1表示t-1时段簇的个数。
步骤S44:循环迭代,直至收敛,最终得出各个时间段的簇中心关键语段。
步骤S5:对各个时间段的聚类结果进行统计,得出评论文本的情感倾向与趋势。
总体来说,本发明提供的一种基于演化聚类的评论文本分类提取方法,首先选取互联网讨论平台,如微博、BBS论坛、贴吧等,然后利用其搜索引擎,采集相关热点事件的评论,并对评论文本进行预处理,其中包括分词与去除不相关的停用词。中文分词工具可采用IKAnalyze分词工具,此工具为开源,可以更加迎合用户的需求做出更改。至于停用此方面,需要综合多个停用词库,因为网络流行语更新的速度十分快,特别需要使用词汇更新周期最快的停用词库,可以考虑使用搜狗网络流行词库作为停用词库的选择之一。
针对于已经分词之后的评论文本数据,采取χ2统计法进行计算,因为此算法经过长时间的试验,实用性高而且计算难度较低,方便实现,可以有效降低实施本发明的所需成本。
选出特征词之后,因为不同的词语对于正负观点的贡献度不一,需要对每个特征词进行情感赋权,运用TF-IDF算法进行特征值权值的计算。在得出特征词的情感权重之后,利用PMI-IR的情感计算方法计算文本的情感倾向值,结合计算出来的特征词及其权重,构建向量空间,根据算法得出的情感倾向值与人工输入的正负观点判别值进行比较,得出正中负观点的观点簇。
得出的观点簇作为样本,从X个样本中,抽取K个样本作为初始观点簇中心,然后利用k-medoids算法进行演化聚类,待最终收敛之后,得出最终的观点簇中心,簇中心为正中负观点的最典型评论,可以针对典型用户评论,得出绝大部分网民的针对于此热点事件的舆情倾向或是情感用词倾向。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于演化聚类的评论文本分类提取方法,其特征在于,该方法包括以下步骤:
步骤S1:采集评论样本,对评论内容进行分词,并去除停用词,即数据的预处理;
步骤S2:对文本特征进行处理,除去关联性低或不相关的特征项,采用χ2统计法对评论文本进行处理,χ2统计法的公式为:
其中,A表示包含特征α并且属于类别β的文档数量,B表示包含特征α但是不属于文档类别β的文档数量,C表示不包含特征α但是属于文档类别β的文档数量,D表示既不属于α也不包含特征β的文档数量,N表示语料中文档的总数目;
步骤S3:将步骤S2得出的文本特征项根据文本情感向量空间模型,赋予不同权重,以解决数据的稀疏性问题;
步骤S4:利用k-medoids演化聚类算法,对步骤S3中已经赋予情感倾向权重的文本特征进行聚类,获取各个时间段的聚类中心;
步骤S5:对各个时间段的聚类结果进行统计,得出评论文本的情感倾向与趋势。
2.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法,其特征在于,所述步骤S3具体包括:
步骤S31:选出特征词之后,根据权重计算公式赋予不同的特征词以不同的权重;
步骤S32:利用PMI-IR情感计算方法计算评论文本的情感倾向,结合计算出来的特征词及其权重,构建向量空间,并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类。
3.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法,其特征在于,所述步骤S4具体包括:
步骤S41:输入样本集由人工输入K值,每个固定t的时间段都具有相同的簇数目K,Xt-1中的簇中心为
步骤S42:从Xt个评论文本数据中,随机抽取K个样本作为初始簇中心;
步骤S43:根据选取公式,重新选取t的簇中心,选取公式为:
其中,表示t时段的样本数据集,n表示样本数量,同样的,Xt-1表示t-1时段的样本数据集,如果用Kt表示t时段的簇数目,则为t时段的簇质心,Ct,k为t时段第k个簇的样本数据集;同样的,表示t-1时段的簇质心,Ct-1,k表示t-1时段第k'个簇的样本数据集,Kt-1表示t-1时段簇的个数;
步骤S44:循环迭代,直至收敛,最终得出各个时间段的簇中心关键语段。
CN201611254491.8A 2016-12-30 2016-12-30 一种基于演化聚类的评论文本分类提取方法 Pending CN108268470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254491.8A CN108268470A (zh) 2016-12-30 2016-12-30 一种基于演化聚类的评论文本分类提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254491.8A CN108268470A (zh) 2016-12-30 2016-12-30 一种基于演化聚类的评论文本分类提取方法

Publications (1)

Publication Number Publication Date
CN108268470A true CN108268470A (zh) 2018-07-10

Family

ID=62754431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254491.8A Pending CN108268470A (zh) 2016-12-30 2016-12-30 一种基于演化聚类的评论文本分类提取方法

Country Status (1)

Country Link
CN (1) CN108268470A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134799A (zh) * 2019-05-29 2019-08-16 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
CN111260295A (zh) * 2020-01-20 2020-06-09 和宇健康科技股份有限公司 一种物品管理分析方法及系统
CN111274402A (zh) * 2020-02-07 2020-06-12 南京邮电大学 一种基于无监督分类器的电商评论情感分析方法
CN111597335A (zh) * 2020-04-30 2020-08-28 北京科技大学 一种针对微博评论文本的K-means初始聚类中心确定方法
WO2021147710A1 (zh) * 2020-01-20 2021-07-29 北京大米未来科技有限公司 一种数据处理方法、装置、存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375848A (zh) * 2010-08-17 2012-03-14 富士通株式会社 评价对象聚类方法和装置
JP2013218638A (ja) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ配信システムおよびリコメンド方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375848A (zh) * 2010-08-17 2012-03-14 富士通株式会社 评价对象聚类方法和装置
JP2013218638A (ja) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ配信システムおよびリコメンド方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
公荣涛: "基于演化聚类的微博热点事件动态观点树构建方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
CN110134799A (zh) * 2019-05-29 2019-08-16 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN110134799B (zh) * 2019-05-29 2022-03-01 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN111260295A (zh) * 2020-01-20 2020-06-09 和宇健康科技股份有限公司 一种物品管理分析方法及系统
WO2021147710A1 (zh) * 2020-01-20 2021-07-29 北京大米未来科技有限公司 一种数据处理方法、装置、存储介质和电子设备
CN111274402A (zh) * 2020-02-07 2020-06-12 南京邮电大学 一种基于无监督分类器的电商评论情感分析方法
CN111274402B (zh) * 2020-02-07 2022-09-23 南京邮电大学 一种基于无监督分类器的电商评论情感分析方法
CN111597335A (zh) * 2020-04-30 2020-08-28 北京科技大学 一种针对微博评论文本的K-means初始聚类中心确定方法
CN111597335B (zh) * 2020-04-30 2023-07-14 北京科技大学 一种针对微博评论文本的K-means初始聚类中心确定方法

Similar Documents

Publication Publication Date Title
CN108268470A (zh) 一种基于演化聚类的评论文本分类提取方法
CN109960763B (zh) 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN106528642A (zh) 一种基于tf‑idf特征提取的短文本分类方法
Tsai et al. Evolutionary instance selection for text classification
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN103473380B (zh) 一种计算机文本情感分类方法
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
Altaher Hybrid approach for sentiment analysis of Arabic tweets based on deep learning model and features weighting
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Zhou et al. A feature selection approach based on interclass and intraclass relative contributions of terms
Khan et al. Lifelong aspect extraction from big data: knowledge engineering
Zhu et al. Identification of opinion leaders in social networks based on sentiment analysis: Evidence from an automotive forum
CN103268346A (zh) 半监督分类方法及系统
Heath et al. Conveying semantics through visual metaphor
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
Huang et al. Contribution of improved character embedding and latent posting styles to authorship attribution of short texts
Sabariah et al. Sentiment analysis on Twitter using the combination of lexicon-based and support vector machine for assessing the performance of a television program
Yana et al. Sentiment analysis of facebook comments on indonesian presidential candidates using the naïve bayes method
Ji et al. Cross-modality sentiment analysis for social multimedia
Sadman et al. Understanding the pandemic through mining covid news using natural language processing
Jong Predicting rating with sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication