CN109783586B - 基于聚类重采样的水军评论检测方法 - Google Patents
基于聚类重采样的水军评论检测方法 Download PDFInfo
- Publication number
- CN109783586B CN109783586B CN201910051767.XA CN201910051767A CN109783586B CN 109783586 B CN109783586 B CN 109783586B CN 201910051767 A CN201910051767 A CN 201910051767A CN 109783586 B CN109783586 B CN 109783586B
- Authority
- CN
- China
- Prior art keywords
- comment
- clustering
- cluster
- resampling
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于聚类重采样的水军评论检测系统,包括:一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;一聚类计算模块,用于聚类生成评论簇并重采样;一集成学习模块,用于文本特征提取与集成学习。本发明能够较好地进行评论类别的分析且通用性强,适应非平衡分布的水军评论数据集。
Description
技术领域
本发明涉及情感分析和观点挖掘领域,具体涉及一种基于聚类重采样的水军评论检测方法。
背景技术
当前,有很多技术方法可用于水军评论检测。传统的检测方法采样方法时随机欠采样单纯从采样角度出发,很难确定获取完整的训练集信息。区别于传统的采样方法,如何训练集类多的样本信息,进行针对水军评论的检测,是水军评论检测的问题关键。传统的研究工作主要是基于欠采样与过采样的方法,使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是对训练集样本利用不充分,耗时耗力,并且影响效性以及模型的学习能力,故而其性能还有待提升。
当前,随着聚类采样技术的快速发展,基于聚类采样的方式在数据不平衡时能获取更多的训练集信息。许多研究者们也将这些方法用于水军评论的分类。这类方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果。而近邻传播算法正好可以弥补K-Means的参数确定问题。
当前,水军评论方法未充分利用非平衡训练集中数量大的类别信息,无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者和研究机构的高度重视。水军评论检测分类利用了在训练集中不同采样的策略,进行针对不同训练集制定重采样策略,能够站在数据端对模型性能进行提升,提供更加细粒度的信息,有效提高水军评论检测的分析结果的准确程度,有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法,为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战:如何构建一个有效的水军评论检测系统来满足其需要。
发明内容
有鉴于此,本发明的目的在于提供一种基于聚类重采样的水军评论检测系统,够自动选取最优的训练集样本,并对特征进行抽象和组合,最终识别出水军评论。
为实现上述目的,本发明采用如下技术方案:
一种基于聚类重采样的水军评论检测系统,包括:
一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
进一步的,所述聚类参数计算模块采用近邻传播算法。
进一步的,所述聚类计算模块采用K-Means聚类算法。
进一步的,所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。
进一步的,所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息.
进一步的,所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
进一步的,所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否基本不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
进一步的,所述损失函数采用XGBoost的均方误差评价标准,具体函数为
其中,ft为分类器,l是评论检测模型损失函数,衡量y与y的相近程度,Ω为正则项,包含两部分,第一个是γT,T表示模型中类别数量,γT是超参,另外一部分是L2正则项,通过模型权重进行惩罚,防止过拟合,表示权重。
本发明与现有技术相比具有以下有益效果:
本发明基于聚类重采样,能够较好地进行评论类别的分析且通用性强,适应非平衡分布的水军评论数据集。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于聚类重采样的水军评论检测系统,包括:
一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
在本实施例中,所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。
在本实施例中,所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;可以省去多次k值的取值尝试以及随机初始化类中心点可能导致的无法收敛问题。通过K-Means聚类算法的到非水军评论中相似的评论簇,其聚类原理是通过数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息.
在本实施例中,所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
在本实施例中,所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否基本不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
在本实施例中,所述损失函数采用XGBoost的均方误差评价标准,具体函数为
其中,ft为分类器,l是评论检测模型损失函数,衡量y与y的相近程度,Ω为正则项,包含两部分,第一个是γT,T表示模型中类别数量,γT是超参,另外一部分是L2正则项,通过模型权重进行惩罚,防止过拟合,表示权重。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (2)
1.一种基于聚类重采样的水军评论检测系统的检测方法,其特征在于,所述系统包括一聚类参数计算模块,用于计算出评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果;
所述方法包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA 主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果;
所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息;
所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
2.根据权利要求1所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051767.XA CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051767.XA CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783586A CN109783586A (zh) | 2019-05-21 |
CN109783586B true CN109783586B (zh) | 2022-10-21 |
Family
ID=66501927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910051767.XA Active CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783586B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112787878B (zh) * | 2019-11-08 | 2023-03-14 | 大唐移动通信设备有限公司 | 一种网络指标的预测方法及电子设备 |
CN112115324B (zh) * | 2020-08-10 | 2023-10-24 | 微梦创科网络科技(中国)有限公司 | 一种基于幂律分布确认刷赞用户的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN106940732A (zh) * | 2016-05-30 | 2017-07-11 | 国家计算机网络与信息安全管理中心 | 一种面向微博的疑似水军发现方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107688831A (zh) * | 2017-09-04 | 2018-02-13 | 五邑大学 | 一种基于聚类下采样的不平衡数据分类方法 |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
-
2019
- 2019-01-21 CN CN201910051767.XA patent/CN109783586B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
CN106940732A (zh) * | 2016-05-30 | 2017-07-11 | 国家计算机网络与信息安全管理中心 | 一种面向微博的疑似水军发现方法 |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107688831A (zh) * | 2017-09-04 | 2018-02-13 | 五邑大学 | 一种基于聚类下采样的不平衡数据分类方法 |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
Non-Patent Citations (3)
Title |
---|
【论文笔记】CUSBoost:基于聚类的提升下采样的非平衡数据分类;forever_24;《https://blog.csdn.net/u014686462/article/details/78841073》;20171220;全文 * |
Chinese Microblog Sentiment Classification Based on Deep Belief Nets with Extended Multi-Modality Features;Xiao Sun 等;《2014 IEEE International Conference on Data Mining Workshop》;20150129;全文 * |
基于社交网络的垃圾用户检测方法分析与实现;李慧敏;《中国优秀博硕士学位论文全文数据库(硕士)-信息科技辑》;20171215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109783586A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598214B (zh) | 一种基于图卷积神经网络的跨模态检索方法 | |
CN107346328B (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
CN106649275A (zh) | 基于词性信息和卷积神经网络的关系抽取方法 | |
Huang et al. | Exploiting local coherent patterns for unsupervised feature ranking | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN109408600A (zh) | 一种基于数据挖掘的图书荐购方法 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN104035996A (zh) | 基于Deep Learning的领域概念抽取方法 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN109783586B (zh) | 基于聚类重采样的水军评论检测方法 | |
Usino et al. | Document similarity detection using k-means and cosine distance | |
Kotanchek et al. | Symbolic regression via genetic programming as a discovery engine: Insights on outliers and prototypes | |
CN111914912A (zh) | 一种基于孪生条件对抗网络的跨域多视目标识别方法 | |
Banumathi et al. | A novel approach for upgrading Indian education by using data mining techniques | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN110472659A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN109582743A (zh) | 一种针对恐怖袭击事件的数据挖掘方法 | |
CN105701501A (zh) | 一种商标图像识别方法 | |
Zhao et al. | Safe semi-supervised classification algorithm combined with active learning sampling strategy | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
Wu et al. | Optimization and improvement based on K-Means Cluster algorithm | |
CN113792141B (zh) | 基于协方差度量因子的特征选择方法 | |
CN109241146A (zh) | 集群环境下的学生智助方法和系统 | |
CN117077680A (zh) | 问答意图识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |