CN110956210A

CN110956210A - 一种基于ap聚类的半监督网络水军识别方法及系统

Info

Publication number: CN110956210A
Application number: CN201911197218.XA
Authority: CN
Inventors: 李红波; 林义钧; 吴渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-03
Anticipated expiration: 2039-11-29
Also published as: CN110956210B

Abstract

本发明请求保护一种基于AP聚类的半监督网络水军识别方法及系统，涉及网络舆情领域，该方法包括以下步骤：(A)对爬取数据进行打标和数据清理，结合水军定义构造新特征；(B)将数据集拆分成训练集、测试集与验证集，作为水军识别模型的输入；(C)根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法(SVM)组合形成半监督网络水军识别模型；(D)将处理好的数据输入识别模型，判断每个用户是否为水军；(E)通过调整欧氏距离Radius的值提高模型的准确率，输出识别结果。本发明解决了现有算法中对打标数据质量和数量高度依赖，且打标数据不易获取的问题，能利用少量的打标数据实现较高准确率的识别。

Description

一种基于AP聚类的半监督网络水军识别方法及系统

技术领域

本发明属于网络舆情领域，具体涉及一种基于AP聚类的半监督网络水军识别方法。

背景技术

微博随着互联网以及移动互联网技术的迅速发展，微博的数据影响力越来越大，一方面影响着使用数据进行分析的研究人员和使用分析结果的决策者，另一方面也影响着使用微博的普通用户。数据的真实性成为了影响网络空间健康发展、网民情绪导向、甚至是社会安定团结的重要因素。因为微博数据代表着巨大的用户群，在如今的商业决策和网络舆情发展中均扮演着重要的角色，所以某些个人和组织在利益的驱动下，为了达到如影响网络民意，扰乱网络环境等不正当目的，通过操纵软件机器人或雇佣网络写手在互联网中制造、传播虚假意见和垃圾信息。该类危害的源头即俗称的网络水军，其所带来的不良影响不仅破坏了网络空间秩序，而且还可能危及网络空间安全、影响社会安定。

面对网络水军所带来的威胁，研究者们已经开始了关于水军识别的研究，通常从有监督学习、无监督学习和半监督学习三个方面入手。相对于无监督学习准确率较低和有监督学习对标注集数量依赖性较强，无监督学习是通过数据的相似性和差异性进行聚类，聚类结果由于质心的选择具有不稳定性，且簇的边界值较为模糊，因此准确率较低；有监督学习在模型固定的情况下，准确率与训练集的数量成正相关，模型能够学习到的训练集数量越多，模型的准确率就会越高。半监督学习在标注集数量较少的情况下，结合新型特征更适用于网络水军的识别。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种旨在降低对打标数据质量和数量的高度依赖性，利用少量的打标数据实现较高准确率的识别的基于AP聚类的半监督网络水军识别方法及系统。本发明的技术方案如下：

一种基于AP聚类的半监督网络水军识别方法，其包括以下步骤：

步骤1、采集微博数据，并利用先验知识对微博数据进行打标和数据清理得到数据集，结合水军定义构造新特征，包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度；

步骤2、将清理后的数据集拆分成训练集、测试集与验证集，作为水军识别模型的输入；

步骤3、根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型；

步骤4、将处理好的测试集数据输入半监督网络水军识别模型，判断每个用户是否为水军；

步骤5、通过调整欧氏距离Radius距离的值来更新半监督网络水军识别模型，输出识别结果。

进一步的，所述步骤1进行打标和数据清理后将数据分为正常用户和水军两类，然后对数据中存在异常值和空值的数据进行清理，对每个用户的微博相似度进行计算，对每个用户微博中所包含的url数、@数、##数进行计算和提取，得到水军识别模型使用的数据集。

进一步的，所述步骤1用户活跃度的具体构造步骤包括：根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(u_i)，公式如下：

其中，u_i表示ID为i的用户，A_total表示用户u_i所发微博总数，A_original表示用户u_i原创微博数，A_prize表示用户u_i转发抽奖微博数，A_day表示用户u_i发布的第一条微博和最新一条微博的时间间隔。

进一步的，所述步骤1用户身份可靠度的具体构造步骤包括：根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度ID(u_i)，公式如下:

ID(u_i)＝ID_vip+ID_{athentication}+ID_levelvalue,u_i∈U.，ID_vip表示用户是否是VIP、ID_{athentication}表示用户是否官方认证、ID_levelvalue表示用户等级数、u_i表示用户i、U表示所有用户。

进一步的，用户是否是VIP用户的计算步骤包括:

ID_vip表示用户是否是VIP，其具体公式如下：

所述用户是否是官方认证用户的计算步骤包括:

ID_{athentication}表示用户是否官方认证，其具体公式如下：

进一步的，所述用户等级的计算步骤包括：根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数ID_levelvalue(u_i)，公式如下：

其中，u_i表示ID为i的用户，ID_level表示用户u_i等级数，ID_minlevel表示最小用户等级数，ID_maxlevel表示最大用户等级数。

进一步的，所述用户行为合理度的计算步骤包括：根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(u_i)，公式如下：

其中，u_i表示ID为i的用户，B_praise表示用户u_i所获点赞数，B_comment表示用户u_i所获评论数，B_forward表示用户u_i所获转发数，B_total表示用户u_i微博总数。

进一步的，所述用户发布内容合理度的计算步骤包括:根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(u_i)，公式如下:

其中，u_i表示ID为i的用户，C_similarity表示用户u_i微博内容相似度，C_url表示用户u_i所发微博包含url数，C_topic表示用户u_i所发微博包含##话题数，C_@表示用户u_i所发微博包含@提及数，C_total表示用户u_i所发微博总数。

进一步的，在步骤3中，采用根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型的具体步骤包括：

采用AP聚类算法对数据进行聚类，对以标注数据为质心的簇，引入Radius(距离)阈值，在同一个簇中所有数据点到质心的距离代表了数据点与质心的相似程度，距离值越小则表示该数据点与质心的相似度越高，对聚类结果进行距离值排序，将Radius(距离)范围内所有数据点视为与质心同一标签的数据；

支持向量机(SVM)作为分类器构造网络水军识别模型。AP聚类算法与支持向量机算法的以串行的方式组合，首先通过AP聚类算法对所有数据进行聚类，然后以标注数据集也就是训练集为质心的簇中的数据点根据其到质心的距离进行排序，将Radius(距离)范围内的未标记数据点的标签标记为与质心的标签一致，最后将新标记的数据点加入原有训练集，组成新的训练集作为输入，对支持向量机进行训练，从而得到网络水军识别模型。

一种基于AP聚类的半监督网络水军识别系统，其包括：

新特征构造模块：采集微博数据，并利用先验知识对微博数据进行打标和数据清理得到数据集，结合水军定义构造新特征，包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度；

半监督网络水军识别模型构建模块：用于将清理后的数据集拆分成训练集、测试集与验证集，作为水军识别模型的输入；根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型；

识别模块：用于将处理好的数据输入半监督网络水军识别模型，判断每个用户是否为水军；通过调整欧氏距离Radius的值来更新半监督网络水军识别模型，输出识别结果。

本发明的优点及有益效果如下：

本发明的创新点具体是：1、根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型；

AP聚类还未应用在该研究领域，而其不需要提前指定聚类中心和聚类数量的特点使其比K-means等聚类算法更能适应当前的微博水军环境，因为随着水军的进化和发展，水军团体呈现分工化和多元化特点，使研究人员很难通过预处理找准和找齐能作为质心的数据点，而质心是否代具有表性将直接影响聚类结果的好坏。但AP聚类算法本身由于对边界值模糊、不敏感的特性使其难以独立完成识别任务，我通过引入Radius阈值避开AP聚类算法的这一弱点，只取相似度相对较高的数据来扩充训练集，从而解决了有监督学习对训练集数量依赖而训练集仅通过人工标注又成本过高的矛盾，再通过新的扩充后的训练集来训练SVM得到识别模型，再通过调整Radius阈值更新识别模型，使识别效果达到最优。比较难想到的是通过自学习的方法来解决人工标注数据集成本过高这一问题，同时AP聚类算法通常应用场景不在此领域，而我通过引入Radius阈值来避开它的弱点，发挥它的优势，完美解决了存在的问题，也比较难想到。

2、构造新特征，包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度；用户活跃度：已有的用户活跃度计算，通常是简单地取总的微博数除以发微博的天数的值，但是现有水军用户为了取得利益最大化，会转发大量的抽奖类微博，所以现有的活跃度计算方式不能有效区分出水军和正常用户。我的活跃度计算方式在增益了用户发布原创微博行为的同时，抑制了转发抽奖类微博的行为，更能真实地反应出用户的实际活跃度，从而有效区分水军用户和正常用户。由于需要从水军经济性角度思考并通过大量数据观察总结出水军账户转发抽奖类微博的特点，虽然正常用户也可能转发抽奖类微博，但是正常用户同时又具有发布原创内容的特点，因为如此计算的用户活跃度能区分正常用户和水军用户，这比较难想到。

用户身份可靠度：水军用户通常是集团作战，具有账号众多的特点，从经济性角度考虑，通常不会对每个账户都进行精细化运营，这就会导致水军账号通常账号等级偏低、没有官方认证，更不会购买VIP权力，所以这三项指标综合起来就成为了区分水军与正常用户的重要特征，这三项指标得分偏低的账号，可靠性就较低，是水军的可能性就更大。从水军的经济性角度思考比较难，同时结合三项指标形成水军特征，也比较难想到。

用户行为合理度：由于水军用户不是正常用户，所以其与正常用户之间很少存在行为互动，水军通常是单方面向用户传播信息，而用户往往不会与水军形成互动，因此水军微博的点赞、评论、转发数量往往会非常低，而正常用户由于具有正常的社交关系，此类互动数量往往会高于水军账号，所以这也成为了水军与正常用户的区分特征。这一点需要从水军用户交际圈和正常用户交际圈的不同来思考，比较难想到。

用户发布内容合理度：由于水军为了将信息传播给更多的正常用户，通常在发布内容中提及很多正常用户，引起他们的关注，同时会在发布内容中以#某某话题#的形式蹭热度，以引起更多正常用户的关注；而为了其经济性目的，水军经常会在其发布内容中嵌入url外部链接以吸引正常用户去点击，提高其点击数，从而获得利益；水军为了提升自己发布内容的热度，同时提高所发布内容信息对正常用户的触达效果，其会反复发布同样或内容高度相似的信息内容；将这些水军发布内容的特点统计量化，其微博内容的相似度、url数、##数、@数综合起来就会和正常用户形成明显差异。这一点除了需要综合水军用户的发布的内容特征，还要综合其反复发布高相似度内容的这一行为特征，比较难想到。

附图说明

图1是本发明提供优选实施例网络水军识别的总体流程图；

图2是本发明提供网络水军特征构造及提取的流程图；

图3是本发明提供网络水军识别模型构建的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明解决上述技术问题的技术方案是，首先，对爬取数据进行打标和数据清理，结合水军定义构造新特征；其次，将数据集拆分成训练集、测试集与验证集，作为水军识别模型的输入；然后，根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法(SVM)组合形成半监督网络水军识别模型；接着，将处理好的数据输入识别模型，判断每个用户是否为水军；最后，通过调整欧氏距离Radius的值提高模型的准确率，输出识别结果。

如图1所示网络水军识别的总体流程图：

S10：利用先验知识对采集到的微博数据进行人工打标，将数据分为正常用户和水军两类，然后对数据中存在异常值和空值的数据进行清理，对每个用户的微博相似度进行计算，对每个用户微博中所包含的url数、@数、##数进行计算和提取，得到水军识别模型使用的数据集。

S20：对清洗、标注好的数据进行特征提取，包括常用特征以及新特征的构造。

如图2所示网络水军特征构造及提取的流程图，步骤S20包括：

S21：根据5W传播模型对现有水军定义进行要素分解，并从中提取出微博水军特征分类类别，如表2所示。

表2网络水军定义

结合微博社交网络空间，提出用户个人信息特征、微博内容特征、用户行为特征和用户关系特征四个微博水军特征类别。

S22-S23：对数据集中的所有信息进行常用特征的提取，包括用户个人信息特征、微博内容特征、用户行为特征和用户关系特征。其中用户个人信息特征包括：用户名长度、用户名是否为数字、注册时间、阳光信用值、有无简介、有无认证、是否为vip、等级数、性别、地域，微博内容特征包括：url数、##话题数、@数、图片数、平均长度、发布时间、点赞数、评论数、转发数，用户行为特征包括：平均被转发数、平均被点赞数、平均被评论数，用户关系特征包括：相互关注数、关注数、粉丝数、粉丝关注比。

S24：在提取的常用特征的基础上，构造新的特征包括用户活跃度、用户身份可靠度、用户行为合理度和用户发布内容合理度。本发明认为用户活跃度和用户所发微博总数、用户原创微博数、用户转发抽奖微博数和所发微博时间间隔有关。用户活跃度特征的具体构造步骤包括：

根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(u_i)，公式如下：

根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度0ID(u_i)，公式如下:

ID(u_i)＝ID_vip+ID_{athentication}+ID_levelvalue,u_i∈U

具体的，所述用户是否是VIP用户的计算步骤包括:

ID_vip表示用户是否是VIP，其具体公式如下：

具体的，所述用户是否是官方认证用户的计算步骤包括:

ID_{athentication}表示用户是否官方认证，其具体公式如下：

具体的，所述用户等级的计算步骤包括:根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数ID_levelvalue(u_i)，公式如下：

根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(u_i)，公式如下：

根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(u_i)，公式如下:

S30：拆分数据集，根据用户相似性构造水军识别模型。

如图3所示网络水军识别模型构建的流程图，步骤S30包括：

S31：对数据集进行拆分并归一化。所提取的特征可以分为离散特征和连续特征，为了方便将特征输入到水军识别模型中，本发明使用极大极小值法对连续特征进行归一化处理，使用独热编码的方式对离散特征进行处理。然后将数据按照一定比例分为训练集和测试集。

S32-S35：根据用户相似性将欧氏距离引入AP聚类算法与SVM算法组合形成半监督网络水军识别模型。采用AP聚类算法对训练数据进行聚类，对以标注数据为质心的簇，引入半径阈值Radius，将该范围内所有未标注数据点视为与质心同一标签的数据，再将扩充后的标注集输入SVM分类器通过训练得到网络水军识别模型。

S40-S50：通过调整欧氏距离Radius的值，使网络水军识别模型识别效果达到最优，将测试集输入到训练好的网络水军识别模型中，得到每个用户是否为水军的识别结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于AP聚类的半监督网络水军识别方法，其特征在于，包括以下步骤：

步骤3、根据用户相似性将欧氏距离引入AP近邻传播聚类算法与支持向量机算法组合形成半监督网络水军识别模型；

2.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述步骤1进行打标和数据清理后将数据分为正常用户和水军两类，然后对数据中存在异常值和空值的数据进行清理，对每个用户的微博相似度进行计算，对每个用户微博中所包含的url数、@数、##数进行计算和提取，得到水军识别模型使用的数据集。

3.根据权利要求1或2所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述步骤1用户活跃度的具体构造步骤包括：根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(u_i)，公式如下：

4.根据权利要求1或2所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述步骤1用户身份可靠度的具体构造步骤包括：根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度ID(u_i)，公式如下:

5.根据权利要求4所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，用户是否是VIP用户的计算步骤包括:

ID_vip表示用户是否是VIP，其具体公式如下：

所述用户是否是官方认证用户的计算步骤包括:

ID_{athentication}表示用户是否官方认证，其具体公式如下：

6.根据权利要求4所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述用户等级的计算步骤包括：根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数ID_levelvalue(u_i)，公式如下：

7.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述用户行为合理度的计算步骤包括：根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(u_i)，公式如下：

8.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，所述用户发布内容合理度的计算步骤包括:根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(u_i)，公式如下:

9.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法，其特征在于，在步骤3中，采用根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型的具体步骤包括：

采用AP聚类算法对数据进行聚类，对以标注数据为质心的簇，引入Radius距离阈值，在同一个簇中所有数据点到质心的距离代表了数据点与质心的相似程度，距离值越小则表示该数据点与质心的相似度越高，对聚类结果进行距离值排序，将Radius距离范围内所有数据点视为与质心同一标签的数据；

支持向量机作为分类器构造网络水军识别模型包括：支持向量机和AP聚类算法以串行的方式，首先通过AP聚类算法对所有数据进行聚类，然后以标注数据集也就是训练集为质心的簇中的数据点根据其到质心的距离进行排序，将Radius距离范围内的未标记数据点的标签标记为与质心的标签一致，最后将新标记的数据点加入原有训练集，组成新的训练集作为输入，对支持向量机进行训练，从而得到网络水军识别模型。

10.一种基于AP聚类的半监督网络水军识别系统，其特征在于，包括：