CN109783586A - 基于聚类重采样的水军评论检测系统及方法 - Google Patents
基于聚类重采样的水军评论检测系统及方法 Download PDFInfo
- Publication number
- CN109783586A CN109783586A CN201910051767.XA CN201910051767A CN109783586A CN 109783586 A CN109783586 A CN 109783586A CN 201910051767 A CN201910051767 A CN 201910051767A CN 109783586 A CN109783586 A CN 109783586A
- Authority
- CN
- China
- Prior art keywords
- cluster
- comment
- waterborne troops
- resampling
- detection system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于聚类重采样的水军评论检测系统,包括:一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;一聚类计算模块,用于聚类生成评论簇并重采样;一集成学习模块,用于文本特征提取与集成学习。本发明能够较好地进行评论类别的分析且通用性强,适应非平衡分布的水军评论数据集。
Description
技术领域
本发明涉及情感分析和观点挖掘领域,具体涉及一种基于聚类重采样的水军评论检测系统及方法。
背景技术
当前,有很多技术方法可用于水军评论检测。传统的检测方法采样方法时随机欠采样单纯从采样角度出发,很难确定获取完整的训练集信息。区别于传统的采样方法,如何训练集类多的样本信息,进行针对水军评论的检测,是水军评论检测的问题关键。传统的研究工作主要是基于欠采样与过采样的方法,使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是对训练集样本利用不充分,耗时耗力,并且影响效性以及模型的学习能力,故而其性能还有待提升。
当前,随着聚类采样技术的快速发展,基于聚类采样的方式在数据不平衡时能获取更多的训练集信息。许多研究者们也将这些方法用于水军评论的分类。这类方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类 聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。可以大幅度降低 支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果。而近邻传播算法正好可以弥补K-Means的参数确定问题。
当前,水军评论方法未充分利用非平衡训练集中数量大的类别信息,无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者和研究机构的高度重视。水军评论检测分类利用了在训练集中不同采样的策略,进行针对不同训练集制定重采样策略,能够站在数据端对模型性能进行提升,提供更加细粒度的信息,有效提高水军评论检测的分析结果的准确程度,有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法,为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战:如何构建一个有效的水军评论检测系统来满足其需要。
发明内容
有鉴于此,本发明的目的在于提供一种基于聚类重采样的水军评论检测系统,够自动选取最优的训练集样本,并对特征进行抽象和组合,最终识别出水军评论。
为实现上述目的,本发明采用如下技术方案:
一种基于聚类重采样的水军评论检测系统,包括:
一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
进一步的,所述聚类参数计算模块采用近邻传播算法。
进一步的,所述聚类计算模块采用K-Means聚类算法。
进一步的,所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA 主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。
进一步的,所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息.
进一步的,所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
进一步的,所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否基本不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
进一步的,所述损失函数采用XGBoost的均方误差评价标准,具体函数为
其中,为分类器,是评论检测模型损失函数,衡量y与y的相近程度,Ω为正则项,包含两部分,第一个是,T表示模型中类别数量,是超参,另外一部分是L2正则项,通过模型权重进行惩罚,防止过拟合,表示权重。
本发明与现有技术相比具有以下有益效果:
本发明基于聚类重采样,能够较好地进行评论类别的分析且通用性强,适应非平衡分布的水军评论数据集。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于聚类重采样的水军评论检测系统,包括:
一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
在本实施例中,所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA 主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。
在本实施例中,所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;可以省去多次k值的取值尝试以及随机初始化类中心点可能导致的无法收敛问题。通过K-Means聚类算法的到非水军评论中相似的评论簇,其聚类原理是通过数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息.
在本实施例中,所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
在本实施例中,所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否基本不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
在本实施例中,所述损失函数采用XGBoost的均方误差评价标准,具体函数为
其中,为分类器,是评论检测模型损失函数,衡量y与y的相近程度,Ω为正则项,包含两部分,第一个是,T表示模型中类别数量,是超参,另外一部分是L2正则项,通过模型权重进行惩罚,防止过拟合,表示权重。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于聚类重采样的水军评论检测系统,其特征在于,包括:
一聚类参数计算模块,用于计算出合适的评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果。
2.根据权利要求1所述的基于聚类重采样的水军评论检测系统,其特征在于:所述聚类参数计算模块采用近邻传播算法。
3.根据权利要求2所述的基于聚类重采样的水军评论检测系统,其特征在于:所述聚类计算模块采用K-Means聚类算法。
4.根据权利要求3所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于,包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA 主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将合适的簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果。
5.根据权利要求4所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息。
6.根据权利要求4所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
7.根据权利要求6所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否基本不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
8.根据权利要求7所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述损失函数采用XGBoost的均方误差评价标准,具体函数为
其中,为分类器,是评论检测模型损失函数,衡量y与y的相近程度,Ω为正则项,包含两部分,第一个是,T表示模型中类别数量,是超参,另外一部分是L2正则项,通过模型权重进行惩罚,防止过拟合,表示权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051767.XA CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910051767.XA CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783586A true CN109783586A (zh) | 2019-05-21 |
CN109783586B CN109783586B (zh) | 2022-10-21 |
Family
ID=66501927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910051767.XA Active CN109783586B (zh) | 2019-01-21 | 2019-01-21 | 基于聚类重采样的水军评论检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783586B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115324A (zh) * | 2020-08-10 | 2020-12-22 | 微梦创科网络科技(中国)有限公司 | 一种基于幂律分布确认刷赞用户的方法及装置 |
CN112787878A (zh) * | 2019-11-08 | 2021-05-11 | 大唐移动通信设备有限公司 | 一种网络指标的预测方法及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN106940732A (zh) * | 2016-05-30 | 2017-07-11 | 国家计算机网络与信息安全管理中心 | 一种面向微博的疑似水军发现方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107688831A (zh) * | 2017-09-04 | 2018-02-13 | 五邑大学 | 一种基于聚类下采样的不平衡数据分类方法 |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
-
2019
- 2019-01-21 CN CN201910051767.XA patent/CN109783586B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
CN106940732A (zh) * | 2016-05-30 | 2017-07-11 | 国家计算机网络与信息安全管理中心 | 一种面向微博的疑似水军发现方法 |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN107315778A (zh) * | 2017-05-31 | 2017-11-03 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据情感分析的自然语言舆情分析方法 |
CN107688831A (zh) * | 2017-09-04 | 2018-02-13 | 五邑大学 | 一种基于聚类下采样的不平衡数据分类方法 |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN108921208A (zh) * | 2018-06-20 | 2018-11-30 | 天津大学 | 基于深度学习的不平衡数据的均衡采样及建模方法 |
Non-Patent Citations (3)
Title |
---|
FOREVER_24: "【论文笔记】CUSBoost:基于聚类的提升下采样的非平衡数据分类", 《HTTPS://BLOG.CSDN.NET/U014686462/ARTICLE/DETAILS/78841073》 * |
XIAO SUN 等: "Chinese Microblog Sentiment Classification Based on Deep Belief Nets with Extended Multi-Modality Features", 《2014 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOP》 * |
李慧敏: "基于社交网络的垃圾用户检测方法分析与实现", 《中国优秀博硕士学位论文全文数据库(硕士)-信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112787878A (zh) * | 2019-11-08 | 2021-05-11 | 大唐移动通信设备有限公司 | 一种网络指标的预测方法及电子设备 |
CN112787878B (zh) * | 2019-11-08 | 2023-03-14 | 大唐移动通信设备有限公司 | 一种网络指标的预测方法及电子设备 |
CN112115324A (zh) * | 2020-08-10 | 2020-12-22 | 微梦创科网络科技(中国)有限公司 | 一种基于幂律分布确认刷赞用户的方法及装置 |
CN112115324B (zh) * | 2020-08-10 | 2023-10-24 | 微梦创科网络科技(中国)有限公司 | 一种基于幂律分布确认刷赞用户的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109783586B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558487A (zh) | 基于层次性多注意力网络的文档分类方法 | |
CN104462184B (zh) | 一种基于双向抽样组合的大规模数据异常识别方法 | |
CN109765333A (zh) | 一种基于GoogleNet模型的变压器故障诊断方法 | |
CN108648191A (zh) | 基于贝叶斯宽度残差神经网络的害虫图像识别方法 | |
CN105975992A (zh) | 一种基于自适应升采样的不平衡数据集分类方法 | |
CN108564094A (zh) | 一种基于卷积神经网络和分类器组合的材质识别方法 | |
CN105005789B (zh) | 一种基于视觉词汇的遥感图像地物分类方法 | |
CN106295507A (zh) | 一种基于集成卷积神经网络的性别识别方法 | |
CN107947921A (zh) | 基于递归神经网络和概率上下文无关文法的密码生成系统 | |
CN103440471B (zh) | 基于低秩表示的人体行为识别方法 | |
CN106682606A (zh) | 一种人脸确认方法及安全认证装置 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN108614997A (zh) | 一种基于改进AlexNet的遥感图像识别方法 | |
CN104008375A (zh) | 基于特征融合的集成人脸识别方法 | |
CN109344856B (zh) | 一种基于多层判别式特征学习的脱机签名鉴别方法 | |
CN102750286A (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN108960488A (zh) | 一种基于深度学习与多源信息融合的饱和负荷空间分布精准预测方法 | |
CN109165672A (zh) | 一种基于渐进式学习的集成分类方法 | |
CN107943897A (zh) | 一种用户推荐方法 | |
CN103246808A (zh) | 一种低渗砂岩含水气藏储层分类方法 | |
CN109978042A (zh) | 一种融合特征学习的自适应快速K-means聚类方法 | |
CN104216993A (zh) | 一种标签共现的标签聚类方法 | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
CN109657147A (zh) | 基于萤火虫和加权极限学习机的微博异常用户检测方法 | |
CN109670927A (zh) | 信用额度的调整方法及其装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |