CN108268470A

CN108268470A - 一种基于演化聚类的评论文本分类提取方法

Info

Publication number: CN108268470A
Application number: CN201611254491.8A
Authority: CN
Inventors: 侯大勇; 李青海; 简宋全; 邹立斌
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明提供一种基于演化聚类的评论文本分类提取方法，该方法包括步骤S1：采集评论样本，对评论内容进行分词以及去除停用词；步骤S2：对文本特征进行处理，除去关联性低或不相关的特征项；步骤S3：将文本特征项根据文本情感向量空间模型，赋予不同权重；步骤S4：利用k‑medoids演化聚类算法对文本特征进行聚类；步骤S5：对各个时间段的聚类结果进行统计，从而得出结论。与现有技术相比：本发明提供了一种基于演化聚类的评论文本分类提取方法，解决了文本特征中可能面临的数据“稀疏性”的问题，同时也降低了计算的复杂度；本发明的方法对异常数据敏感度高、稳定性强，并具有较高的聚类精度。

Description

一种基于演化聚类的评论文本分类提取方法

技术领域

本发明涉及文本分类提取技术领域，具体涉及一种基于演化聚类的评论文本分类提取方法。

背景技术

随着互联网技术的迅速发展，舆论媒介或者平台作为热点事件产生与传播的场所，每天都有这大量的网民参与讨论，并产生大量的评论数据，如何从这些数据中迅速得出网民的情绪分布与观点演变，将及其有利于对其作出针对性营销策略。

传统的聚类方法是一种无监督学习方法，主要用于对静态数据集进行处理。但是，在现实情境中，由于评论数据的特点与复杂性，传统的聚类方法面临数据“稀疏性”的问题，且对异常数据敏感度和稳定性不强，计算复杂，聚类精度较低。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于移动互联网的改进的DES数据加密算法，该方法包括以下步骤：

步骤S1：采集评论样本，对评论内容进行分词，并去除停用词，即数据的预处理；

步骤S2：对文本特征进行处理，除去关联性低或不相关的特征项，采用χ²统计法对评论文本进行处理，χ²统计法的公式为：

其中，A表示包含特征α并且属于类别β的文档数量，B表示包含特征α但是不属于文档类别β的文档数量，C表示不包含特征α但是属于文档类别β的文档数量，D表示既不属于α也不包含特征β的文档数量，N表示语料中文档的总数目；

步骤S3：将步骤S2得出的文本特征项根据文本情感向量空间模型，赋予不同权重，以解决数据的稀疏性问题；

步骤S4：利用k-medoids演化聚类算法，对步骤S3中已经赋予情感倾向权重的文本特征进行聚类，获取各个时间段的聚类中心；

步骤S5：对各个时间段的聚类结果进行统计，得出评论文本的情感倾向与趋势。

较佳的，所述步骤S3具体包括：

步骤S31：选出特征词之后，根据权重计算公式赋予不同的特征词以不同的权重；

步骤S32：利用PMI-IR情感计算方法计算评论文本的情感倾向，结合计算出来的特征词及其权重，构建向量空间，并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类。

较佳的，所述步骤S4具体包括：

步骤S41：输入样本集由人工输入K值，每个固定t的时间段都具有相同的簇数目K，X_t-1中的簇中心为

步骤S42：从X_t个评论文本数据中，随机抽取K个样本作为初始簇中心；

步骤S43：根据选取公式，重新选取t的簇中心，选取公式为：

其中，表示t时段的样本数据集，n表示样本数量；同样的，X_t-1表示t-1时段的样本数据集。如果用K_t表示t时段的簇数目，则为t时段的簇质心，C_t,k为t时段第k个簇的样本数据集；同样的，表示t-1时段的簇质心，C_t-1,k表示t-1时段第k'个簇的样本数据集，K_t-1表示t-1时段簇的个数；

步骤S44：循环迭代，直至收敛，最终得出各个时间段的簇中心关键语段。

与现有技术相比，本发明的有益效果在于：本发明提供了一种基于演化聚类的评论文本分类提取方法，解决了文本特征中可能面临的数据“稀疏性”的问题，同时也降低了计算的复杂度；本发明的方法对异常数据敏感度高、稳定性强，并具有较高的聚类精度。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明提供的一种基于演化聚类的评论文本分类提取方法的流程示意图；

图2为本发明步骤S3的流程示意图；

图3为本发明步骤S4的流程示意图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

如图1所示，为本发明提供的一种基于演化聚类的评论文本分类提取方法的流程示意图，本方法包括以下步骤：

步骤S1：采集评论样本，对评论内容进行分词，并去除停用词，即数据的预处理。

在对评论内容进行分词以及去除停用词时，采用分词工具，综合多个停用词库，特别需要使用词汇更新周期最快的停用词库。

步骤S2：对文本特征进行处理，除去关联性低或不相关的特征项，采取χ²统计法对评论文本进行处理，χ²统计法的公式为：

其中，A表示包含特征α并且属于类别β的文档数量，B表示包含特征α但是不属于文档类别β的文档数量，C表示不包含特征α但是属于文档类别β的文档数量，D表示既不属于α也不包含特征β的文档数量，N表示语料中文档的总数目。

步骤S3：将步骤S2得出的文本特征项根据文本情感向量空间模型赋予不同权重，以解决数据的稀疏性问题。

如图2所示，为步骤S3的流程示意图，该步骤S3具体包括：

步骤S31：选出特征词之后，根据权重计算公式赋予不同的特征词以不同的权重。选取TF-IDF权重计算方式来计算特征词的权重，计算公式为：

其中，W(α,β)表示特征项α在文本β中的权重，而αf(α,β)表示特征项α在文本β中的频数，N表示训练文本的总数，n表示向量的维数，α_i表示向量第i个分量对应的特征项，n_i表示训练文本集中出现α的数量。

步骤S32：利用PMI-IR情感计算方法计算评论文本的情感倾向，结合计算出来的特征词及其权重，构建向量空间，并对统计出的情感倾向对评论文本进行正向、中性和负向的类别分类，具体算法如下(d值由人工输入)：

For任何一个特征词W_F∈S_F

For任何一个情感词W_P∈P_S

计算

End For

For任何一个特征词W_N∈N_S

计算

End For

计算特征词的情感倾向

For任何一个情感词W_P∈P_S

If ST(W_F)>d情感倾向为正倾向

Else if ST(W_F)<d情感倾向为负倾向

Else为中性

End for

步骤S4：利用k-medoids演化聚类算法，对步骤S3中已经赋予情感倾向权重的文本特征进行聚类，获取各个时间段的聚类中心。

如图3所示，为步骤S4的流程示意图，该步骤S4具体包括：

步骤S42：从X_t个评论文本数据中，随机抽取K个样本作为初始簇中心。

步骤S43：根据选取公式，重新选取t的簇中心，选取公式为：

其中，表示t时段的样本数据集，n表示样本数量；同样的，X_t-1表示t-1时段的样本数据集。如果用K_t表示t时段的簇数目，则为t时段的簇质心，C_t,k为t时段第k个簇的样本数据集；同样的，表示t-1时段的簇质心，C_t-1,k表示t-1时段第k'个簇的样本数据集，K_t-1表示t-1时段簇的个数。

总体来说，本发明提供的一种基于演化聚类的评论文本分类提取方法，首先选取互联网讨论平台，如微博、BBS论坛、贴吧等，然后利用其搜索引擎，采集相关热点事件的评论，并对评论文本进行预处理，其中包括分词与去除不相关的停用词。中文分词工具可采用IKAnalyze分词工具，此工具为开源，可以更加迎合用户的需求做出更改。至于停用此方面，需要综合多个停用词库，因为网络流行语更新的速度十分快，特别需要使用词汇更新周期最快的停用词库，可以考虑使用搜狗网络流行词库作为停用词库的选择之一。

针对于已经分词之后的评论文本数据，采取χ²统计法进行计算，因为此算法经过长时间的试验，实用性高而且计算难度较低，方便实现，可以有效降低实施本发明的所需成本。

选出特征词之后，因为不同的词语对于正负观点的贡献度不一，需要对每个特征词进行情感赋权，运用TF-IDF算法进行特征值权值的计算。在得出特征词的情感权重之后，利用PMI-IR的情感计算方法计算文本的情感倾向值，结合计算出来的特征词及其权重，构建向量空间，根据算法得出的情感倾向值与人工输入的正负观点判别值进行比较，得出正中负观点的观点簇。

得出的观点簇作为样本，从X个样本中，抽取K个样本作为初始观点簇中心，然后利用k-medoids算法进行演化聚类，待最终收敛之后，得出最终的观点簇中心，簇中心为正中负观点的最典型评论，可以针对典型用户评论，得出绝大部分网民的针对于此热点事件的舆情倾向或是情感用词倾向。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于演化聚类的评论文本分类提取方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法，其特征在于，所述步骤S3具体包括：

3.根据权利要求1所述的一种基于演化聚类的评论文本分类提取方法，其特征在于，所述步骤S4具体包括：

步骤S43：根据选取公式，重新选取t的簇中心，选取公式为：

其中，表示t时段的样本数据集，n表示样本数量，同样的，X_t-1表示t-1时段的样本数据集，如果用K_t表示t时段的簇数目，则为t时段的簇质心，C_t,k为t时段第k个簇的样本数据集；同样的，表示t-1时段的簇质心，C_t-1,k表示t-1时段第k'个簇的样本数据集，K_t-1表示t-1时段簇的个数；