CN113505223B - 一种网络水军识别方法与系统 - Google Patents

一种网络水军识别方法与系统 Download PDF

Info

Publication number
CN113505223B
CN113505223B CN202110760492.4A CN202110760492A CN113505223B CN 113505223 B CN113505223 B CN 113505223B CN 202110760492 A CN202110760492 A CN 202110760492A CN 113505223 B CN113505223 B CN 113505223B
Authority
CN
China
Prior art keywords
result
network
cart
water army
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110760492.4A
Other languages
English (en)
Other versions
CN113505223A (zh
Inventor
肖玉芝
冶忠林
李明原
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qinghai Normal University
Original Assignee
Qinghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qinghai Normal University filed Critical Qinghai Normal University
Priority to CN202110760492.4A priority Critical patent/CN113505223B/zh
Publication of CN113505223A publication Critical patent/CN113505223A/zh
Application granted granted Critical
Publication of CN113505223B publication Critical patent/CN113505223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Abstract

本发明提供了一种网络水军识别方法,首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果,然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合,可以融合各个网络水军的行为特征,大大提高了对网络水军的识别精度。本发明还提供了一种网络水军识别系统。

Description

一种网络水军识别方法与系统
技术领域
本发明属于网络水军检测技术领域,更具体地说,是涉及一种网络水军识别方法与系统。
背景技术
随着大数据时代的到来,社交网络的受欢迎程度已经不言而喻。在社交平台上用户可以各抒己见,但是真假难辨,舆情意见复杂多变,受干扰因素众多。比如网络水军利用恶意炒作将个体的需求转化为群体需求,将小范围事件转化为热点事件,从而混淆公众视听。倘若纵容水军恶意炒作,网民将难以信任网络媒体,网络基本体系的完整搭建也将更加困难。网络水军的出现对社会舆论的影响是巨大的,甚至可以推动社会舆论的走向,所以水军识别对于控制网络恶性行为、促进和谐发展具有重要的社会意义。
目前针对于水军识别分析和研究相对数量较少,无法获取水军潜在的分布特征和规律。由于目前公开的网络水军数据集较少,传统的网络水军识别算法数据成本高昂,且效果欠佳。目前,针对于水军识别的研究主要分为以下三种:
第一种是以热点事件为研究对象,通过对某个时间段热度最高的事件的评论文本内容进行分析。胡舜良等提出了从技术层面上来实现对水军的识别即通过用户发帖产生的文本和服务器端产生的值进行判断,从而以此来实现对水军的识别。王军博等提出了通过对评论内容进行语义分析、聚类等生成主题模型,进而分析用户评论与该主题的偏离度从而识别水军。李建超等通过每个评论与历史评论文档进行相似度计算,以同一天的最大评论数量来实现对水军的识别。
第二种是以用户特征为研究对象,通过分析正常用户和水军用户之间的差异来识别水军。张艳梅等通过用户之间互相关注数、粉丝关注比、固定时间内发布的平均微博数等6个维度进行构造微博水军分类器从而达到识别水军的目的。SHEN Hua等识别水军是通过挖掘用户微博特征、行为特征和属性特征,在此基础上使用等监督学习方法。苏雪佳等则是从发表评论用户、评论内容本身、话题评论发布时间和评论阅读者这四个方面来阐述评论有用性影响因素指标以此来设计水军识别模型。郝开青等以用户信息特征、问答对特征、用户社交网络特征、内容特征和语言学特征五个维度综合分析用户特征以此来达到水军识别的目的。
可见,现有的水军识别方法,考虑的因素较少,使水军识别方法无法收敛到全局最优点,进而导致识别效果差。
发明内容
本发明的目的在于提供一种网络水军识别方法与系统,旨在解决现有的水军识别方法识别效果差的问题。
为实现上述目的,本发明采用的技术方案是:一种网络水军识别方法,包括以下步骤:
步骤1:获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
步骤2:对所述评论文本进行特征提取生成数据集;
步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;
步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;
步骤5:对所述数据集进行情感分析得到评论文本的情感特征;
步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;
步骤7:分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
步骤8:对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。
优选的,所述步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果,包括:
步骤3.1:采用公式:
Figure GDA0003420408160000041
对所述数据集进行分类,得到分类结果;其中,(w,b)即wTxi+b表示超平面,w表示平面上的法向量,b表示超平面到原点的距离,yi表示样本的类别,当yi=+1时,与xi所对应的评论文本为正常用户,当yi=-1时,与xi所对应的评论文本为水军用户;
步骤3.2:根据所述分类结果建立第一网络水军识别模型;
步骤3.3:对所述数据集按照6∶4比例分割成第一训练集和第一测试集;
步骤3.4:利用所述第一训练集对所述第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型;
步骤3.5:利用所述训练完成的第一网络水军识别模型对所述第一测试集进行水军识别得到第一网络水军识别结果。
优选的,所述第一网络水军识别模型为:
Figure GDA0003420408160000042
其中,y′i表示标签类别,m表示数据集长度。
优选的,所述步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果,包括:
步骤4.1:对所述数据集进行划分得到划分结果;其中,所述划分结果为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi=(x1,x2,...xn,1)表示维度为n的特征向量,该向量末尾为1,代表偏置项;标签yi∈{1,0},其中yi=1时,与xi所对应的评论文本为水军用户,yi=0时,与xi所对应的评论文本为正常用户;
步骤4.2:根据所述划分结果构建预测模型;其中所述预测模型为:
Figure GDA0003420408160000051
其中,w表示权重向量;
步骤4.3:根据所述预测模型建立似然函数;其中,所述似然函数为:
Figure GDA0003420408160000052
步骤4.4:对所述数据集按照8∶2比例分割成第二训练集和第二测试集;
步骤4.5:利用所述第二训练集对所述似然函数进行优化训练得到训练完成的预测模型;
步骤4.6:利用所述训练完成的预测模型对所述第二测试集进行分类得到第二网络水军识别结果。
优选的,所述步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果,包括:
步骤6.1:对所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果进行划分得到CART数据集;其中,所述CART数据集为:
{(a1,b1,c1,Setiment1,d1,e1,y1),...,(an,bn,cn,Setimentn,dn,en,yn)},共n个样本,其中,a表示转发数量,b表示回复数量,c表示点赞数量,Setiment表示评论文本的情感特征,d表示第一网络水军识别结果的数据特征,e表示第二网络水军识别结果的数据特征,y表示数据类别;
步骤6.2:对所述CART数据集中的n个样本按照样本数量进行划分得到第一CART数据集和第二CART数据集;
步骤6.3:根据所述第一CART数据集和所述第二CART数据集构建基尼系数计算公式;
步骤6.4:对所述CART数据集按照8∶2比例分割成第三训练集和第三测试集;
步骤6.5:根据所述基尼系数计算公式和所述第三训练集得到CART树;
步骤6.6:对所述CART树进行剪枝得到剪枝后的CART树;
步骤6.7:根据所述剪枝后的CART树对所述第三测试集进行分类得到CART树分类结果。
优选的,所述基尼系数计算公式为:
Figure GDA0003420408160000061
其中,Ds表示CART数据集,Ds1表示第一CART数据集,n1表示第一CART数据集中样本个数,Ds2表示第二CART数据集,n2表示第二CART数据集中样本个数。
优选的,所述步骤6.6:对所述CART树进行剪枝得到剪枝后的CART树,包括:
采用惩罚函数对所述CART树进行剪枝得到剪枝后的CART树;其中,所述惩罚函数为:
Figure GDA0003420408160000071
Figure GDA0003420408160000072
其中,T为叶子节点的数量,α为惩罚参数,Nt为训练时叶节点处的样本数量,Ht为经验熵,k为类别数量,Ntk为样本点。
本发明还提供了一种网络水军识别系统,包括:
微博评论信息获取模块,用于获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
评论文本特征提取模块,用于对所述评论文本进行特征提取生成数据集;
支持向量机算法训练模块,用于采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;
逻辑回归算法训练模块,用于采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;
情感分析模块,用于对所述数据集进行情感分析得到评论文本的情感特征;
CART树训练模块,用于根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;
结果特征提取模块,用于分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
特征加权融合模块,用于对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。
本发明提供的一种网络水军识别方法与系统的有益效果在于:与现有技术相比,本发明的一种网络水军识别方法,首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果,然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合,可以融合各个网络水军的行为特征,大大提高了对网络水军的识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网络水军识别方法结构图。
图2为本发明实施例提供的一种网络水军识别方法流程图。
图3为本发明实施例提供的融合模型训练部分结果示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的目的在于提供一种网络水军识别方法与系统,旨在解决现有的水军识别方法识别效果差的问题。
为实现上述目的,本发明采用的技术方案是:一种网络水军识别方法,包括以下步骤:
本发明依据微博评论信息的特征,识别网络水军考虑到两种属性特征。第一种是基于微博评论的文本特征;另一种是基于微博评论信息的用户行为特征。利用思想将多种分类器集成在一起以此来完成基于微博评论文本的分类,将分类的结果向量化。将转发数量、回复数量、点赞数量、评论文本情感值、第一网络水军识别结果和第二网络水军识别结果作为多特征,利用树进行分类,最后将多个模型加权融合在一起构造强分类器,以此达到识别微博水军的效果。该算法结构图如图1所示。
图2为本发明提供的一种网络水军识别方法流程图,请参阅图2;
S1:获取微博评论信息;微博评论信息包括评论文本、转发数量、回复数量和点赞数量。
S2:对评论文本进行特征提取生成数据集;
本发明联合PV-DM和PV-DBOw句向量模型,将文本数据集中的每个句子向量被看作是训练的两个向量和训练的两个向量的组合。将最后得到的向量拼接得到400维句向量。下面用一个简单的例子阐述效果。
以下是数据集中任选的简单文本:
文本1:早安新的天从没心没肺的傻笑开始哈哈。采用PV-DM和PV-DBOw融合的向量模型训练部分结果如图3所示。
S3:采用支持向量机算法对数据集进行训练得到第一网络水军识别结果;
S3具体包括:
S3.1:采用公式:
Figure GDA0003420408160000101
对数据集进行分类,得到分类结果;其中,(w,b)即wTxi+b表示超平面,w表示平面上的法向量,b表示超平面到原点的距离,yi表示样本的类别,当yi=+1时,与xi所对应的评论文本为正常用户,当yi=-1时,与xi所对应的评论文本为水军用户;
S3.2:根据分类结果建立第一网络水军识别模型;其中,第一网络水军识别模型为:
Figure GDA0003420408160000102
其中,s·t表示使...满足,y′i表示标签类别,m表示数据集长度。
S3.3:对数据集按照6∶4比例分割成第一训练集和第一测试集;
S3.4:利用第一训练集对第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型;
S3.5:利用训练完成的第一网络水军识别模型对第一测试集进行水军识别得到第一网络水军识别结果。
下面对支持向量机算法进行进一步的描述:
令数据集Dm1有{(x1,y1),(x2,y2),...,(xn,yn)}。其中yi为样本的类别,当结点数据xi为正常用户时,yi=+1,当结点数据xi为水军用户时,yi=-1。给定约束条件yi(wTxi+b)>0,对于数据集中(xi,yi)希望有:
Figure GDA0003420408160000111
对于数据集样本xi代入超平面表示是wTxi+b。如果wTxi+b>0,则输出yi=1即样本xi为正常用户;若wTxi+b<0,则输出yi=-1即样本xi为水军用户。显然,只要这个超平面能正确分类,那么它可以是任意的。考虑到模型能足够鲁棒,需要一定规则的选择最优决策平面。根据规则将二分类问题转化为数学公式,即第一网络水军识别模型为:
Figure GDA0003420408160000112
通过控制w和b来使得距离最远,通过控制xi选中离超平面最近的点。经过以上定义,该算法可以将评论文本分为水军用户和正常用户。本发明将62554条数据按照6∶4比例分割成训练集和测试集。考虑到随机抽样的分布不确定性,故采用更为严谨的分层抽样抽样方法,使其关键特征上具有和总体数据集上基本一致的分布。数据集分布情况,如表1所示。
表1数据集分布情况
Figure GDA0003420408160000121
利用该数据集训练样本50843条数据,在偏差和方差都很小时,即收敛且误差较小,可以达到较好的训练效果。
通过上述实验结果将测试集12711条数据进行预测,得到的结果构造混淆矩阵。
表2混淆矩阵
Figure GDA0003420408160000122
根据算法的评价指标对分类后结果进行分析,发现FN为2680个水军用户,而测试集中水军用户数量为6333个。如表3为算法模型评价指标。
表3算法模型评价指标
Figure GDA0003420408160000123
S4:采用逻辑回归算法对数据集进行训练得到第二网络水军识别结果。
S4具体包括:
S4.1:对数据集进行划分得到划分结果;其中,划分结果为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi=(x1,x2,...xn,1)表示维度为n的特征向量,该向量末尾为1,代表偏置项;标签yi∈{1,0},其中yi=1时,与xi所对应的评论文本为水军用户,yi=0时,与xi所对应的评论文本为正常用户;
S4.2:根据划分结果构建预测模型;其中预测模型为:
Figure GDA0003420408160000131
其中,w表示权重向量;
S4.3:根据预测模型建立似然函数;其中,似然函数为:
Figure GDA0003420408160000132
S4.4:对数据集按照8∶2比例分割成第二训练集和第二测试集;
S4.5:利用第二训练集对似然函数进行优化训练得到训练完成的预测模型;
S4.6:利用训练完成的预测模型对第二测试集进行分类得到第二网络水军识别结果。
下面对逻辑回归算法进行进一步的描述:
令数据集Dm2有{(x1,y1),(x2,y2),...,(xn,yn)}。其中xi=(x1,x2,...xn,1)是一个维度为n的特征向量,该向量末尾为1,代表偏置项;标签yi∈{1,0}表示数据集两类中的一类即yi=1为水军用户,yi=0为正常用户。假设模型的权重向量w=(w1,w2,...wn);定义模型输出为样本数据集属于1的概率即为水军的概率,则对于特征向量xi,其模型输出的预测值
Figure GDA0003420408160000145
的表达式为:
Figure GDA0003420408160000141
为使得权重向量w在训练集中模型的输出与给定的标签越接近越好即若标签为水军用户,则模型输出值越接近1,若标签为正常用户,则模型输出值越接近于0。因此损失函数可采用极大似然估计法作建立一个似然函数L,并将其最大化。
Figure GDA0003420408160000142
本发明将62554条数据按照8∶2比例分割成训练集和测试集。考虑到随机抽样的分布不确定性,故采用更为严谨的分层抽样抽样方法,使其关键特征上具有和总体数据集上基本一致的分布。如下表4为数据集分布情况。
表4数据集分布情况
Figure GDA0003420408160000143
通过上述实验结果将测试集11440条数据进行预测,得到的结果构造混淆矩阵如表5所示。
表5混淆矩阵
Figure GDA0003420408160000144
Figure GDA0003420408160000151
根据算法的评价指标对分类后结果进行分析,发现FN为2351个水军用户,而测试集中水军用户数量为5738个。如表6为算法模型评价指标。
表6算法模型评价指标
Figure GDA0003420408160000152
S5:对数据集进行情感分析得到评论文本的情感特征;
S6:根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;
S6具体包括:
S6.1:对评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果进行划分得到CART数据集;其中,CART数据集为:
{(a1,b1,c1,Setiment1,d1,e1,y1),...,(an,bn,cn,Setimentn,dn,en,yn)},共n个样本,其中,a表示转发数量,b表示回复数量,c表示点赞数量,Setiment表示评论文本的情感特征,d表示第一网络水军识别结果的数据特征,e表示第二网络水军识别结果的数据特征,y表示标签类别;
S6.2:对CART数据集中的n个样本按照样本数量进行划分得到第一CART数据集和第二CART数据集;
S6.3:根据第一CART数据集和第二CART数据集构建基尼系数计算公式;其中,基尼系数计算公式为:
Figure GDA0003420408160000161
其中,Ds表示CART数据集,Ds1表示第一CART数据集,n1表示第一CART数据集中样本个数,Ds2表示第二CART数据集,n2表示第二CART数据集中样本个数。
S6.4:对CART数据集按照8∶2比例分割成第三训练集和第三测试集;
S6.5:根据基尼系数计算公式和第三训练集得到CART树;
S6.6:对CART树进行剪枝得到剪枝后的CART树;具体的,采用惩罚函数对CART树进行剪枝得到剪枝后的CART树;其中,惩罚函数为:
Figure GDA0003420408160000162
Figure GDA0003420408160000163
其中,T为叶子节点的数量,α为惩罚参数,Nt为训练时叶节点处的样本数量,Ht为经验熵,k为类别数量,Ntk为样本点。
S6.7:根据剪枝后的CART树对第三测试集进行分类得到CART树分类结果。
下面对这一过程进行进一步的描述:
本发明将62554条数据按照8∶2比例分割成训练集和测试集。考虑到随机抽样的分布不确定性,故采用更为严谨的分层抽样抽样方法,使其关键特征上具有和总体数据集上基本一致的分布。如下表7为本发明中数据集分布情况。
表7数据集分布情况
Figure GDA0003420408160000171
根据微博评论信息的数据特征a,b,c,Setiment及基于微博评论文本的两种算法水军识别结果d和e,构造CART树。CART树与其他树的不同之处在于ID3树中采用信息增益选择特性,具有较高的增益偏好。在C4.5树中,选择信息增益率来选择特征,从而避免特征值过多导致信息增益大的问题。CART分类树算法利用基尼系数选择特征,确定特征的最优二值分割点。
下面对CART树算法进行相关描述:
在分类问题中假设有K个类,每个样本点属于K类的概率为Pk,对于文本的二分类问题,则K=2即正常用户和水军用户可以将基尼指数公式简化为:
Gini(p)=2P(1-P)
令数据集Ds有:
{(a1,b1,c1,Setiment1,d1,e1,y1),...,(an,bn,cn,Setimentn,dn,en,yn)},共n个样本,其中a,b,c,Setiment,d、e分别为每个样本的数据特征,a为转发数量,b为回复数量,c为点赞数量,Setiment为评论文本的情感特征,d、e为基于微博评论文本的两种算法水军识别结果。根据数据集的第i个属性即(ai,bi,ci,Setimenti,di,ei,yi),将数据集划分为两部分为Ds1和Ds2,则基尼系数计算如下:
Figure GDA0003420408160000181
其中,n1和n2分别为数据集Ds1和Ds2的样本个数。通过比较以上四种的基尼系数,选择最小的,将所得到的属性值及其第i个属性值作为样本的最优分裂属性。
通过上述实验结果将测试集11440条数据进行预测,得到的结果构造混淆矩阵如表8所示。
表8混淆矩阵
Figure GDA0003420408160000182
由于CART树存在一个过拟合的问题,为了提高泛化能力,需要进行剪枝。本发明采用惩罚函数来度量过拟合程度。
剪枝过程是自下而上遍历的CART树,不断剪枝直至根节点,生成子树序列。其剪枝原则为对比剪枝前后子树序列的惩罚函数,若小于剪枝前,则进行剪枝。通过剪枝可以轻松的降低复杂度。
根据算法的评价指标对分类后结果进行分析,发现FN为707个水军用户,而测试集中水军用户数量为5677个,说明以基于微博评论文本的水军识别算法的结果输出d作为此小节的算法的输入以达到多特征(Setiment,a,b,c,d,e)作为CART树的输入,效果良好。如表9为CART树算法模型评价指标。
表9算法模型评价指标
Figure GDA0003420408160000191
S7:分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
S8:对第一预测结果特征、第二预测结果特征和第三预测结果特征进行加权融合得到网络水军识别结果。
在实际应用中,根据基于微博评论文本的水军识别模型与基于微博评论信息的水军识别模型进行融合,这里采用的是Boosting思想,将上述两个分类器加权得到强分类器。水军识别算法描述如下所示。
Figure GDA0003420408160000192
Figure GDA0003420408160000201
上述描述了基于微博评论的水军识别算法流程,利用Boosting思想,融合基于微博评论文本的水军识别模型和基于微博评论信息的水军识别模型,并且赋予不同权重,最后对算法进行迭代训练,可以达到识别水军的效果。根据上述算法对测试集进行预测所得到混淆矩阵如表10所示。
表10混淆矩阵
Figure GDA0003420408160000202
Figure GDA0003420408160000211
经过对比发现,该融合算法效果更佳。如表11所示为算法的评价指标:
表11算法的评价指标
Figure GDA0003420408160000212
本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合,可以融合各个网络水军的行为特征,大大提高了对网络水军的识别精度。
本发明还提供了一种网络水军识别系统,包括:
微博评论信息获取模块,用于获取微博评论信息;微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
评论文本特征提取模块,用于对评论文本进行特征提取生成数据集;
支持向量机算法训练模块,用于采用支持向量机算法对数据集进行训练得到第一网络水军识别结果;
逻辑回归算法训练模块,用于采用逻辑回归算法对数据集进行训练得到第二网络水军识别结果;
情感分析模块,用于对数据集进行情感分析得到评论文本的情感特征;
CART树训练模块,用于根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;
结果特征提取模块,用于分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
特征加权融合模块,用于对第一预测结果特征、第二预测结果特征和第三预测结果特征进行加权融合得到网络水军识别结果。
本发明公开了一种网络水军识别方法与系统,本发明提供的一种网络水军识别方法,首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果,然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合,可以融合各个网络水军的行为特征,大大提高了对网络水军的识别精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种网络水军识别方法,其特征在于,包括以下步骤:
步骤1:获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
步骤2:对所述评论文本进行特征提取生成数据集;
步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;
步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;
步骤5:对所述数据集进行情感分析得到评论文本的情感特征;
步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;
步骤7:分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
步骤8:对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。
2.如权利要求1所述的一种网络水军识别方法,其特征在于,所述步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果,包括:
步骤3.1:采用公式:
Figure FDA0003420408150000021
对所述数据集进行分类,得到分类结果;其中,(w,b)即wTxi+b表示超平面,w表示平面上的法向量,b表示超平面到原点的距离,xi表示结点数据,yi表示样本的类别,当yi=+1时,与xi所对应的评论文本为正常用户,当yi=-1时,与xi所对应的评论文本为水军用户;
步骤3.2:根据所述分类结果建立第一网络水军识别模型;
步骤3.3:对所述数据集按照6∶4比例分割成第一训练集和第一测试集;
步骤3.4:利用所述第一训练集对所述第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型;
步骤3.5:利用所述训练完成的第一网络水军识别模型对所述第一测试集进行水军识别得到第一网络水军识别结果。
3.如权利要求2所述的一种网络水军识别方法,其特征在于,所述第一网络水军识别模型为:
Figure FDA0003420408150000022
其中,y′i表示标签类别,m表示数据集长度。
4.如权利要求1所述的一种网络水军识别方法,其特征在于,所述步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果,包括:
步骤4.1:对所述数据集进行划分得到划分结果;其中,所述划分结果为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi=(x1,x2,...xn,1)表示维度为n的特征向量,该向量末尾为1,代表偏置项;标签yi∈{1,0},其中yi=1时,与xi所对应的评论文本为水军用户,yi=0时,与xi所对应的评论文本为正常用户;
步骤4.2:根据所述划分结果构建预测模型;其中所述预测模型为:
Figure FDA0003420408150000031
其中,w表示权重向量;
步骤4.3:根据所述预测模型建立似然函数;其中,所述似然函数为:
Figure FDA0003420408150000032
步骤4.4:对所述数据集按照8∶2比例分割成第二训练集和第二测试集;
步骤4.5:利用所述第二训练集对所述似然函数进行优化训练得到训练完成的预测模型;
步骤4.6:利用所述训练完成的预测模型对所述第二测试集进行分类得到第二网络水军识别结果。
5.如权利要求1所述的一种网络水军识别方法,其特征在于,所述步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果,包括:
步骤6.1:对所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果进行划分得到CART数据集;其中,所述CART数据集为:
{(a1,b1,c1,Setiment1,d1,e1,y1),...,(an,bn,cn,Setimentn,dn,en,yn)},共n个样本,其中,a表示转发数量,b表示回复数量,c表示点赞数量,Setiment表示评论文本的情感特征,d表示第一网络水军识别结果的数据特征,e表示第二网络水军识别结果的数据特征,y表示标签类别;
步骤6.2:对所述CART数据集中的n个样本按照样本数量进行划分得到第一CART数据集和第二CART数据集;
步骤6.3:根据所述第一CART数据集和所述第二CART数据集构建基尼系数计算公式;
步骤6.4:对所述CART数据集按照8∶2比例分割成第三训练集和第三测试集;
步骤6.5:根据所述基尼系数计算公式和所述第三训练集得到CART树;
步骤6.6:对所述CART树进行剪枝得到剪枝后的CART树;
步骤6.7:根据所述剪枝后的CART树对所述第三测试集进行分类得到CART树分类结果。
6.如权利要求5所述的一种网络水军识别方法,其特征在于,所述基尼系数计算公式为:
Figure FDA0003420408150000041
其中,Ds表示CART数据集,Ds1表示第一CART数据集,n1表示第一CART数据集中样本个数,Ds2表示第二CART数据集,n2表示第二CART数据集中样本个数。
7.如权利要求5所述的一种网络水军识别方法,其特征在于,所述步骤6.6:对所述CART树进行剪枝得到剪枝后的CART树,包括:
采用惩罚函数对所述CART树进行剪枝得到剪枝后的CART树;其中,所述惩罚函数为:
Figure FDA0003420408150000051
Figure FDA0003420408150000052
其中,T为叶子节点的数量,α为惩罚参数,Nt为训练时叶节点处的样本数量,Ht为经验熵,k为表示类别,Ntk为样本点。
8.一种网络水军识别系统,其特征在于,包括:
微博评论信息获取模块,用于获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
评论文本特征提取模块,用于对所述评论文本进行特征提取生成数据集;
支持向量机算法训练模块,用于采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;
逻辑回归算法训练模块,用于采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;
情感分析模块,用于对所述数据集进行情感分析得到评论文本的情感特征;
CART树训练模块,用于根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;
结果特征提取模块,用于分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
特征加权融合模块,用于对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。
CN202110760492.4A 2021-07-06 2021-07-06 一种网络水军识别方法与系统 Active CN113505223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110760492.4A CN113505223B (zh) 2021-07-06 2021-07-06 一种网络水军识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110760492.4A CN113505223B (zh) 2021-07-06 2021-07-06 一种网络水军识别方法与系统

Publications (2)

Publication Number Publication Date
CN113505223A CN113505223A (zh) 2021-10-15
CN113505223B true CN113505223B (zh) 2022-01-28

Family

ID=78011266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110760492.4A Active CN113505223B (zh) 2021-07-06 2021-07-06 一种网络水军识别方法与系统

Country Status (1)

Country Link
CN (1) CN113505223B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063582B1 (en) * 2017-05-31 2018-08-28 Symantec Corporation Securing compromised network devices in a network
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020035B (zh) * 2017-09-06 2023-05-12 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统
US20200372400A1 (en) * 2019-05-22 2020-11-26 The Regents Of The University Of California Tree alternating optimization for learning classification trees
CN110990683B (zh) * 2019-11-29 2022-08-23 重庆邮电大学 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN112200638A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于注意力机制与双向gru网络的水军评论检测系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063582B1 (en) * 2017-05-31 2018-08-28 Symantec Corporation Securing compromised network devices in a network
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法

Also Published As

Publication number Publication date
CN113505223A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
Barushka et al. Review spam detection using word embeddings and deep neural networks
CN108875051A (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
Hassan et al. Sentiment analysis on bangla and romanized bangla text (BRBT) using deep recurrent models
CN111507350B (zh) 一种文本识别方法和装置
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN111666496A (zh) 一种基于评论文本的组推荐方法
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
Anhar et al. Question classification on question-answer system using bidirectional-LSTM
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
Kocayusufoglu et al. Riser: Learning better representations for richly structured emails
Valero-Mas et al. On the suitability of Prototype Selection methods for kNN classification with distributed data
El-Alfy et al. Empirical study on imbalanced learning of Arabic sentiment polarity with neural word embedding
Yao et al. Online deception detection refueled by real world data collection
Mir et al. Online fake review detection using supervised machine learning and BERT model
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Trisal et al. K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
CN113505223B (zh) 一种网络水军识别方法与系统
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant