CN109783586A

CN109783586A - 基于聚类重采样的水军评论检测系统及方法

Info

Publication number: CN109783586A
Application number: CN201910051767.XA
Authority: CN
Inventors: 廖祥文; 徐阳; 陈志豪; 陈国龙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-05-21
Anticipated expiration: 2039-01-21
Also published as: CN109783586B

Abstract

本发明涉及一种基于聚类重采样的水军评论检测系统，包括：一聚类参数计算模块，用于计算出合适的评论簇个数以及簇中心点参数；一聚类计算模块，用于聚类生成评论簇并重采样；一集成学习模块，用于文本特征提取与集成学习。本发明能够较好地进行评论类别的分析且通用性强，适应非平衡分布的水军评论数据集。

Description

基于聚类重采样的水军评论检测系统及方法

技术领域

本发明涉及情感分析和观点挖掘领域，具体涉及一种基于聚类重采样的水军评论检测系统及方法。

背景技术

当前，有很多技术方法可用于水军评论检测。传统的检测方法采样方法时随机欠采样单纯从采样角度出发，很难确定获取完整的训练集信息。区别于传统的采样方法，如何训练集类多的样本信息，进行针对水军评论的检测，是水军评论检测的问题关键。传统的研究工作主要是基于欠采样与过采样的方法，使用支持向量机（SVM）分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效，但是对训练集样本利用不充分，耗时耗力，并且影响效性以及模型的学习能力，故而其性能还有待提升。

当前，随着聚类采样技术的快速发展，基于聚类采样的方式在数据不平衡时能获取更多的训练集信息。许多研究者们也将这些方法用于水军评论的分类。这类方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集，然后对各个子集进行逐类聚类，分别选出各类中心邻域内的样本点，构成最终的训练集，最后利用支持向量机对所选择的最具代表样本点进行训练建模。可以大幅度降低支持向量机的学习代价，其分类精度比随机欠采样更优，而且可以达到采用完整数据集训练所得的结果。而近邻传播算法正好可以弥补K-Means的参数确定问题。

当前，水军评论方法未充分利用非平衡训练集中数量大的类别信息，无法有效地挖掘出潜在的观点信息。近年来，得到了国内外许多学者和研究机构的高度重视。水军评论检测分类利用了在训练集中不同采样的策略，进行针对不同训练集制定重采样策略，能够站在数据端对模型性能进行提升，提供更加细粒度的信息，有效提高水军评论检测的分析结果的准确程度，有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法，为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战：如何构建一个有效的水军评论检测系统来满足其需要。

发明内容

有鉴于此，本发明的目的在于提供一种基于聚类重采样的水军评论检测系统，够自动选取最优的训练集样本，并对特征进行抽象和组合，最终识别出水军评论。

为实现上述目的，本发明采用如下技术方案：

一种基于聚类重采样的水军评论检测系统，包括：

一聚类参数计算模块，用于计算出合适的评论簇个数以及簇中心点参数；

一聚类计算模块，用于聚类生成评论簇并重采样；

一集成学习模块，用于文本特征提取与集成学习，得到分类结果。

进一步的，所述聚类参数计算模块采用近邻传播算法。

进一步的，所述聚类计算模块采用K-Means聚类算法。

进一步的，所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于，包括以下步骤:

步骤S1:采集待测用户行为特征，包括水军评论数据和非水军评论数据，并通过两次的PCA 主成分分析算法降维获取低维度行为特征；

步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中，通过近邻传播算法，计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块；

步骤S3:将合适的簇个数以及簇中心点参数，作为K-Means聚类的输入参数，得到非水军评论中相似的评论簇；

步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块，得到最终分类结果。

进一步的，所述步骤S3具体为：

步骤S31:将欧式距离作为K-means算法的相似度测度，求对应某一初始聚类中心向量V最优分类，使得评价指标J最小；

步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;

步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇；

步骤S34:制定重采样策略，其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例，按这个计算的比例依次从每个评论簇中选取评论样本，根据采样策略从评论簇中获取文本训练集信息.

进一步的，所述步骤S4具体为：

步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;

步骤S42:通过基模型对整个训练集进行训练，预测结果映射成新的训练集与测试集;

步骤S43:根据新的训练集与测试集，利用第二层融合模型进行检测，得到最终分类结果。

进一步的，所述步骤S42在训练阶段，根据训练的迭代过程中损失函数是否基本不再下降，若下降需要将检测值与目标值求误差，并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新；否则，只需将得到的检测值输出即可。

进一步的，所述损失函数采用XGBoost的均方误差评价标准，具体函数为

其中，为分类器，是评论检测模型损失函数，衡量y与y的相近程度，Ω为正则项，包含两部分，第一个是，T表示模型中类别数量，是超参，另外一部分是L2正则项，通过模型权重进行惩罚，防止过拟合，表示权重。

本发明与现有技术相比具有以下有益效果：

本发明基于聚类重采样，能够较好地进行评论类别的分析且通用性强，适应非平衡分布的水军评论数据集。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于聚类重采样的水军评论检测系统，包括：

一聚类计算模块，用于聚类生成评论簇并重采样；

在本实施例中，所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于，包括以下步骤:

在本实施例中，所述步骤S3具体为：

步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇；可以省去多次k值的取值尝试以及随机初始化类中心点可能导致的无法收敛问题。通过K-Means聚类算法的到非水军评论中相似的评论簇，其聚类原理是通过数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则；

在本实施例中，所述步骤S4具体为：

在本实施例中，所述步骤S42在训练阶段，根据训练的迭代过程中损失函数是否基本不再下降，若下降需要将检测值与目标值求误差，并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新；否则，只需将得到的检测值输出即可。

在本实施例中，所述损失函数采用XGBoost的均方误差评价标准，具体函数为

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于聚类重采样的水军评论检测系统，其特征在于，包括：

一聚类计算模块，用于聚类生成评论簇并重采样；

2.根据权利要求1所述的基于聚类重采样的水军评论检测系统，其特征在于：所述聚类参数计算模块采用近邻传播算法。

3.根据权利要求2所述的基于聚类重采样的水军评论检测系统，其特征在于：所述聚类计算模块采用K-Means聚类算法。

4.根据权利要求3所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于，包括以下步骤:

5.根据权利要求4所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于：所述步骤S3具体为：

步骤S34:制定重采样策略，其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例，按这个计算的比例依次从每个评论簇中选取评论样本，根据采样策略从评论簇中获取文本训练集信息。

6.根据权利要求4所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于：所述步骤S4具体为：

7.根据权利要求6所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于：所述步骤S42在训练阶段，根据训练的迭代过程中损失函数是否基本不再下降，若下降需要将检测值与目标值求误差，并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新；否则，只需将得到的检测值输出即可。

8.根据权利要求7所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于：所述损失函数采用XGBoost的均方误差评价标准，具体函数为