CN110956210A - 一种基于ap聚类的半监督网络水军识别方法及系统 - Google Patents

一种基于ap聚类的半监督网络水军识别方法及系统 Download PDF

Info

Publication number
CN110956210A
CN110956210A CN201911197218.XA CN201911197218A CN110956210A CN 110956210 A CN110956210 A CN 110956210A CN 201911197218 A CN201911197218 A CN 201911197218A CN 110956210 A CN110956210 A CN 110956210A
Authority
CN
China
Prior art keywords
user
data
microblog
semi
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911197218.XA
Other languages
English (en)
Other versions
CN110956210B (zh
Inventor
李红波
林义钧
吴渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911197218.XA priority Critical patent/CN110956210B/zh
Publication of CN110956210A publication Critical patent/CN110956210A/zh
Application granted granted Critical
Publication of CN110956210B publication Critical patent/CN110956210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于AP聚类的半监督网络水军识别方法及系统,涉及网络舆情领域,该方法包括以下步骤:(A)对爬取数据进行打标和数据清理,结合水军定义构造新特征;(B)将数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;(C)根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法(SVM)组合形成半监督网络水军识别模型;(D)将处理好的数据输入识别模型,判断每个用户是否为水军;(E)通过调整欧氏距离Radius的值提高模型的准确率,输出识别结果。本发明解决了现有算法中对打标数据质量和数量高度依赖,且打标数据不易获取的问题,能利用少量的打标数据实现较高准确率的识别。

Description

一种基于AP聚类的半监督网络水军识别方法及系统
技术领域
本发明属于网络舆情领域,具体涉及一种基于AP聚类的半监督网络水军识别方法。
背景技术
微博随着互联网以及移动互联网技术的迅速发展,微博的数据影响力越来越大,一方面影响着使用数据进行分析的研究人员和使用分析结果的决策者,另一方面也影响着使用微博的普通用户。数据的真实性成为了影响网络空间健康发展、网民情绪导向、甚至是社会安定团结的重要因素。因为微博数据代表着巨大的用户群,在如今的商业决策和网络舆情发展中均扮演着重要的角色,所以某些个人和组织在利益的驱动下,为了达到如影响网络民意,扰乱网络环境等不正当目的,通过操纵软件机器人或雇佣网络写手在互联网中制造、传播虚假意见和垃圾信息。该类危害的源头即俗称的网络水军,其所带来的不良影响不仅破坏了网络空间秩序,而且还可能危及网络空间安全、影响社会安定。
面对网络水军所带来的威胁,研究者们已经开始了关于水军识别的研究,通常从有监督学习、无监督学习和半监督学习三个方面入手。相对于无监督学习准确率较低和有监督学习对标注集数量依赖性较强,无监督学习是通过数据的相似性和差异性进行聚类,聚类结果由于质心的选择具有不稳定性,且簇的边界值较为模糊,因此准确率较低;有监督学习在模型固定的情况下,准确率与训练集的数量成正相关,模型能够学习到的训练集数量越多,模型的准确率就会越高。半监督学习在标注集数量较少的情况下,结合新型特征更适用于网络水军的识别。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种旨在降低对打标数据质量和数量的高度依赖性,利用少量的打标数据实现较高准确率的识别的基于AP聚类的半监督网络水军识别方法及系统。本发明的技术方案如下:
一种基于AP聚类的半监督网络水军识别方法,其包括以下步骤:
步骤1、采集微博数据,并利用先验知识对微博数据进行打标和数据清理得到数据集,结合水军定义构造新特征,包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度;
步骤2、将清理后的数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;
步骤3、根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型;
步骤4、将处理好的测试集数据输入半监督网络水军识别模型,判断每个用户是否为水军;
步骤5、通过调整欧氏距离Radius距离的值来更新半监督网络水军识别模型,输出识别结果。
进一步的,所述步骤1进行打标和数据清理后将数据分为正常用户和水军两类,然后对数据中存在异常值和空值的数据进行清理,对每个用户的微博相似度进行计算,对每个用户微博中所包含的url数、@数、##数进行计算和提取,得到水军识别模型使用的数据集。
进一步的,所述步骤1用户活跃度的具体构造步骤包括:根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(ui),公式如下:
Figure BDA0002294972750000021
其中,ui表示ID为i的用户,Atotal表示用户ui所发微博总数,Aoriginal表示用户ui原创微博数,Aprize表示用户ui转发抽奖微博数,Aday表示用户ui发布的第一条微博和最新一条微博的时间间隔。
进一步的,所述步骤1用户身份可靠度的具体构造步骤包括:根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度ID(ui),公式如下:
ID(ui)=IDvip+IDathentication+IDlevelvalue,ui∈U.,IDvip表示用户是否是VIP、IDathentication表示用户是否官方认证、IDlevelvalue表示用户等级数、ui表示用户i、U表示所有用户。
进一步的,用户是否是VIP用户的计算步骤包括:
IDvip表示用户是否是VIP,其具体公式如下:
Figure BDA0002294972750000031
所述用户是否是官方认证用户的计算步骤包括:
IDathentication表示用户是否官方认证,其具体公式如下:
Figure BDA0002294972750000032
进一步的,所述用户等级的计算步骤包括:根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数IDlevelvalue(ui),公式如下:
Figure BDA0002294972750000033
其中,ui表示ID为i的用户,IDlevel表示用户ui等级数,IDminlevel表示最小用户等级数,IDmaxlevel表示最大用户等级数。
进一步的,所述用户行为合理度的计算步骤包括:根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(ui),公式如下:
Figure BDA0002294972750000034
其中,ui表示ID为i的用户,Bpraise表示用户ui所获点赞数,Bcomment表示用户ui所获评论数,Bforward表示用户ui所获转发数,Btotal表示用户ui微博总数。
进一步的,所述用户发布内容合理度的计算步骤包括:根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(ui),公式如下:
Figure BDA0002294972750000041
其中,ui表示ID为i的用户,Csimilarity表示用户ui微博内容相似度,Curl表示用户ui所发微博包含url数,Ctopic表示用户ui所发微博包含##话题数,C@表示用户ui所发微博包含@提及数,Ctotal表示用户ui所发微博总数。
进一步的,在步骤3中,采用根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型的具体步骤包括:
采用AP聚类算法对数据进行聚类,对以标注数据为质心的簇,引入Radius(距离)阈值,在同一个簇中所有数据点到质心的距离代表了数据点与质心的相似程度,距离值越小则表示该数据点与质心的相似度越高,对聚类结果进行距离值排序,将Radius(距离)范围内所有数据点视为与质心同一标签的数据;
支持向量机(SVM)作为分类器构造网络水军识别模型。AP聚类算法与支持向量机算法的以串行的方式组合,首先通过AP聚类算法对所有数据进行聚类,然后以标注数据集也就是训练集为质心的簇中的数据点根据其到质心的距离进行排序,将Radius(距离)范围内的未标记数据点的标签标记为与质心的标签一致,最后将新标记的数据点加入原有训练集,组成新的训练集作为输入,对支持向量机进行训练,从而得到网络水军识别模型。
一种基于AP聚类的半监督网络水军识别系统,其包括:
新特征构造模块:采集微博数据,并利用先验知识对微博数据进行打标和数据清理得到数据集,结合水军定义构造新特征,包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度;
半监督网络水军识别模型构建模块:用于将清理后的数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型;
识别模块:用于将处理好的数据输入半监督网络水军识别模型,判断每个用户是否为水军;通过调整欧氏距离Radius的值来更新半监督网络水军识别模型,输出识别结果。
本发明的优点及有益效果如下:
本发明的创新点具体是:1、根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型;
AP聚类还未应用在该研究领域,而其不需要提前指定聚类中心和聚类数量的特点使其比K-means等聚类算法更能适应当前的微博水军环境,因为随着水军的进化和发展,水军团体呈现分工化和多元化特点,使研究人员很难通过预处理找准和找齐能作为质心的数据点,而质心是否代具有表性将直接影响聚类结果的好坏。但AP聚类算法本身由于对边界值模糊、不敏感的特性使其难以独立完成识别任务,我通过引入Radius阈值避开AP聚类算法的这一弱点,只取相似度相对较高的数据来扩充训练集,从而解决了有监督学习对训练集数量依赖而训练集仅通过人工标注又成本过高的矛盾,再通过新的扩充后的训练集来训练SVM得到识别模型,再通过调整Radius阈值更新识别模型,使识别效果达到最优。比较难想到的是通过自学习的方法来解决人工标注数据集成本过高这一问题,同时AP聚类算法通常应用场景不在此领域,而我通过引入Radius阈值来避开它的弱点,发挥它的优势,完美解决了存在的问题,也比较难想到。
2、构造新特征,包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度;用户活跃度:已有的用户活跃度计算,通常是简单地取总的微博数除以发微博的天数的值,但是现有水军用户为了取得利益最大化,会转发大量的抽奖类微博,所以现有的活跃度计算方式不能有效区分出水军和正常用户。我的活跃度计算方式在增益了用户发布原创微博行为的同时,抑制了转发抽奖类微博的行为,更能真实地反应出用户的实际活跃度,从而有效区分水军用户和正常用户。由于需要从水军经济性角度思考并通过大量数据观察总结出水军账户转发抽奖类微博的特点,虽然正常用户也可能转发抽奖类微博,但是正常用户同时又具有发布原创内容的特点,因为如此计算的用户活跃度能区分正常用户和水军用户,这比较难想到。
用户身份可靠度:水军用户通常是集团作战,具有账号众多的特点,从经济性角度考虑,通常不会对每个账户都进行精细化运营,这就会导致水军账号通常账号等级偏低、没有官方认证,更不会购买VIP权力,所以这三项指标综合起来就成为了区分水军与正常用户的重要特征,这三项指标得分偏低的账号,可靠性就较低,是水军的可能性就更大。从水军的经济性角度思考比较难,同时结合三项指标形成水军特征,也比较难想到。
用户行为合理度:由于水军用户不是正常用户,所以其与正常用户之间很少存在行为互动,水军通常是单方面向用户传播信息,而用户往往不会与水军形成互动,因此水军微博的点赞、评论、转发数量往往会非常低,而正常用户由于具有正常的社交关系,此类互动数量往往会高于水军账号,所以这也成为了水军与正常用户的区分特征。这一点需要从水军用户交际圈和正常用户交际圈的不同来思考,比较难想到。
用户发布内容合理度:由于水军为了将信息传播给更多的正常用户,通常在发布内容中提及很多正常用户,引起他们的关注,同时会在发布内容中以#某某话题#的形式蹭热度,以引起更多正常用户的关注;而为了其经济性目的,水军经常会在其发布内容中嵌入url外部链接以吸引正常用户去点击,提高其点击数,从而获得利益;水军为了提升自己发布内容的热度,同时提高所发布内容信息对正常用户的触达效果,其会反复发布同样或内容高度相似的信息内容;将这些水军发布内容的特点统计量化,其微博内容的相似度、url数、##数、@数综合起来就会和正常用户形成明显差异。这一点除了需要综合水军用户的发布的内容特征,还要综合其反复发布高相似度内容的这一行为特征,比较难想到。
附图说明
图1是本发明提供优选实施例网络水军识别的总体流程图;
图2是本发明提供网络水军特征构造及提取的流程图;
图3是本发明提供网络水军识别模型构建的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明解决上述技术问题的技术方案是,首先,对爬取数据进行打标和数据清理,结合水军定义构造新特征;其次,将数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;然后,根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法(SVM)组合形成半监督网络水军识别模型;接着,将处理好的数据输入识别模型,判断每个用户是否为水军;最后,通过调整欧氏距离Radius的值提高模型的准确率,输出识别结果。
如图1所示网络水军识别的总体流程图:
S10:利用先验知识对采集到的微博数据进行人工打标,将数据分为正常用户和水军两类,然后对数据中存在异常值和空值的数据进行清理,对每个用户的微博相似度进行计算,对每个用户微博中所包含的url数、@数、##数进行计算和提取,得到水军识别模型使用的数据集。
S20:对清洗、标注好的数据进行特征提取,包括常用特征以及新特征的构造。
如图2所示网络水军特征构造及提取的流程图,步骤S20包括:
S21:根据5W传播模型对现有水军定义进行要素分解,并从中提取出微博水军特征分类类别,如表2所示。
表2网络水军定义
Figure BDA0002294972750000071
Figure BDA0002294972750000081
Figure BDA0002294972750000091
Figure BDA0002294972750000101
结合微博社交网络空间,提出用户个人信息特征、微博内容特征、用户行为特征和用户关系特征四个微博水军特征类别。
S22-S23:对数据集中的所有信息进行常用特征的提取,包括用户个人信息特征、微博内容特征、用户行为特征和用户关系特征。其中用户个人信息特征包括:用户名长度、用户名是否为数字、注册时间、阳光信用值、有无简介、有无认证、是否为vip、等级数、性别、地域,微博内容特征包括:url数、##话题数、@数、图片数、平均长度、发布时间、点赞数、评论数、转发数,用户行为特征包括:平均被转发数、平均被点赞数、平均被评论数,用户关系特征包括:相互关注数、关注数、粉丝数、粉丝关注比。
S24:在提取的常用特征的基础上,构造新的特征包括用户活跃度、用户身份可靠度、用户行为合理度和用户发布内容合理度。本发明认为用户活跃度和用户所发微博总数、用户原创微博数、用户转发抽奖微博数和所发微博时间间隔有关。用户活跃度特征的具体构造步骤包括:
根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(ui),公式如下:
Figure BDA0002294972750000111
根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度0ID(ui),公式如下:
ID(ui)=IDvip+IDathentication+IDlevelvalue,ui∈U
具体的,所述用户是否是VIP用户的计算步骤包括:
IDvip表示用户是否是VIP,其具体公式如下:
Figure BDA0002294972750000112
具体的,所述用户是否是官方认证用户的计算步骤包括:
IDathentication表示用户是否官方认证,其具体公式如下:
Figure BDA0002294972750000113
具体的,所述用户等级的计算步骤包括:根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数IDlevelvalue(ui),公式如下:
Figure BDA0002294972750000121
根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(ui),公式如下:
Figure BDA0002294972750000122
根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(ui),公式如下:
Figure BDA0002294972750000123
S30:拆分数据集,根据用户相似性构造水军识别模型。
如图3所示网络水军识别模型构建的流程图,步骤S30包括:
S31:对数据集进行拆分并归一化。所提取的特征可以分为离散特征和连续特征,为了方便将特征输入到水军识别模型中,本发明使用极大极小值法对连续特征进行归一化处理,使用独热编码的方式对离散特征进行处理。然后将数据按照一定比例分为训练集和测试集。
S32-S35:根据用户相似性将欧氏距离引入AP聚类算法与SVM算法组合形成半监督网络水军识别模型。采用AP聚类算法对训练数据进行聚类,对以标注数据为质心的簇,引入半径阈值Radius,将该范围内所有未标注数据点视为与质心同一标签的数据,再将扩充后的标注集输入SVM分类器通过训练得到网络水军识别模型。
S40-S50:通过调整欧氏距离Radius的值,使网络水军识别模型识别效果达到最优,将测试集输入到训练好的网络水军识别模型中,得到每个用户是否为水军的识别结果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于AP聚类的半监督网络水军识别方法,其特征在于,包括以下步骤:
步骤1、采集微博数据,并利用先验知识对微博数据进行打标和数据清理得到数据集,结合水军定义构造新特征,包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度;
步骤2、将清理后的数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;
步骤3、根据用户相似性将欧氏距离引入AP近邻传播聚类算法与支持向量机算法组合形成半监督网络水军识别模型;
步骤4、将处理好的测试集数据输入半监督网络水军识别模型,判断每个用户是否为水军;
步骤5、通过调整欧氏距离Radius距离的值来更新半监督网络水军识别模型,输出识别结果。
2.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述步骤1进行打标和数据清理后将数据分为正常用户和水军两类,然后对数据中存在异常值和空值的数据进行清理,对每个用户的微博相似度进行计算,对每个用户微博中所包含的url数、@数、##数进行计算和提取,得到水军识别模型使用的数据集。
3.根据权利要求1或2所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述步骤1用户活跃度的具体构造步骤包括:根据用户的所发微博总数、用户原创微博数、用户转发抽奖微博数和用户发布的第一条微博和最新一条微博的时间间隔计算得到用户活跃度A(ui),公式如下:
Figure FDA0002294972740000011
其中,ui表示ID为i的用户,Atotal表示用户ui所发微博总数,Aoriginal表示用户ui原创微博数,Aprize表示用户ui转发抽奖微博数,Aday表示用户ui发布的第一条微博和最新一条微博的时间间隔。
4.根据权利要求1或2所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述步骤1用户身份可靠度的具体构造步骤包括:根据用户是否是VIP用户、用户是否是官方认证用户和用户等级计算得到用户身份可靠度ID(ui),公式如下:
ID(ui)=IDvip+IDathentication+IDlevelvalue,ui∈U.,IDvip表示用户是否是VIP、IDathentication表示用户是否官方认证、IDlevelvalue表示用户等级数、ui表示用户i、U表示所有用户。
5.根据权利要求4所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,用户是否是VIP用户的计算步骤包括:
IDvip表示用户是否是VIP,其具体公式如下:
Figure FDA0002294972740000021
所述用户是否是官方认证用户的计算步骤包括:
IDathentication表示用户是否官方认证,其具体公式如下:
Figure FDA0002294972740000022
6.根据权利要求4所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述用户等级的计算步骤包括:根据用户的等级数、等级最高的用户等级数、等级最低的用户等级数计算得到用户等级数IDlevelvalue(ui),公式如下:
Figure FDA0002294972740000023
其中,ui表示ID为i的用户,IDlevel表示用户ui等级数,IDminlevel表示最小用户等级数,IDmaxlevel表示最大用户等级数。
7.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述用户行为合理度的计算步骤包括:根据用户所获点赞数、评论数、转发数、总微博数计算得到用户行为合理度B(ui),公式如下:
Figure FDA0002294972740000031
其中,ui表示ID为i的用户,Bpraise表示用户ui所获点赞数,Bcomment表示用户ui所获评论数,Bforward表示用户ui所获转发数,Btotal表示用户ui微博总数。
8.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,所述用户发布内容合理度的计算步骤包括:根据用户微博内容相似度、微博包含url数、微博包含##话题数、微博包含@提及数、微博总数计算得到用户发布内容合理度C(ui),公式如下:
Figure FDA0002294972740000032
其中,ui表示ID为i的用户,Csimilarity表示用户ui微博内容相似度,Curl表示用户ui所发微博包含url数,Ctopic表示用户ui所发微博包含##话题数,C@表示用户ui所发微博包含@提及数,Ctotal表示用户ui所发微博总数。
9.根据权利要求1所述的一种基于AP聚类的半监督网络水军识别方法,其特征在于,在步骤3中,采用根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型的具体步骤包括:
采用AP聚类算法对数据进行聚类,对以标注数据为质心的簇,引入Radius距离阈值,在同一个簇中所有数据点到质心的距离代表了数据点与质心的相似程度,距离值越小则表示该数据点与质心的相似度越高,对聚类结果进行距离值排序,将Radius距离范围内所有数据点视为与质心同一标签的数据;
支持向量机作为分类器构造网络水军识别模型包括:支持向量机和AP聚类算法以串行的方式,首先通过AP聚类算法对所有数据进行聚类,然后以标注数据集也就是训练集为质心的簇中的数据点根据其到质心的距离进行排序,将Radius距离范围内的未标记数据点的标签标记为与质心的标签一致,最后将新标记的数据点加入原有训练集,组成新的训练集作为输入,对支持向量机进行训练,从而得到网络水军识别模型。
10.一种基于AP聚类的半监督网络水军识别系统,其特征在于,包括:
新特征构造模块:采集微博数据,并利用先验知识对微博数据进行打标和数据清理得到数据集,结合水军定义构造新特征,包括用户活跃度、用户身份可靠度、用户行为合理度以及发布内容合理度;
半监督网络水军识别模型构建模块:用于将清理后的数据集拆分成训练集、测试集与验证集,作为水军识别模型的输入;根据用户相似性将欧氏距离引入AP聚类算法与支持向量机算法组合形成半监督网络水军识别模型;
识别模块:用于将处理好的数据输入半监督网络水军识别模型,判断每个用户是否为水军;通过调整欧氏距离Radius的值来更新半监督网络水军识别模型,输出识别结果。
CN201911197218.XA 2019-11-29 2019-11-29 一种基于ap聚类的半监督网络水军识别方法及系统 Active CN110956210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911197218.XA CN110956210B (zh) 2019-11-29 2019-11-29 一种基于ap聚类的半监督网络水军识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911197218.XA CN110956210B (zh) 2019-11-29 2019-11-29 一种基于ap聚类的半监督网络水军识别方法及系统

Publications (2)

Publication Number Publication Date
CN110956210A true CN110956210A (zh) 2020-04-03
CN110956210B CN110956210B (zh) 2023-03-28

Family

ID=69978969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911197218.XA Active CN110956210B (zh) 2019-11-29 2019-11-29 一种基于ap聚类的半监督网络水军识别方法及系统

Country Status (1)

Country Link
CN (1) CN110956210B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111811818A (zh) * 2020-06-02 2020-10-23 桂林电子科技大学 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法
CN112732780A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 人物网络活跃度计算方法、系统、处理终端、计算机设备
CN112800304A (zh) * 2021-01-08 2021-05-14 上海海事大学 一种基于聚类的微博水军团体检测方法
CN113326412A (zh) * 2021-05-11 2021-08-31 雄狮汽车科技(南京)有限公司 汽车主机厂网络数据的水军识别方法及装置
CN113806616A (zh) * 2021-08-16 2021-12-17 北京智慧星光信息技术有限公司 微博用户识别方法、系统、电子设备及存储介质
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
US20130007127A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Determination of a spammer through social network characterization
CN102945270A (zh) * 2012-10-30 2013-02-27 北京腾逸科技发展有限公司 并行化分布式网络舆情数据管理方法及系统
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
US20130297589A1 (en) * 2004-09-02 2013-11-07 Linkedln Corporation Identifying people a person may know
US20150113651A1 (en) * 2013-10-21 2015-04-23 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN109377035A (zh) * 2018-10-12 2019-02-22 食品安全与营养(贵州)信息科技有限公司 一种基于大数据的智慧餐厅管理平台
CN109446465A (zh) * 2018-11-10 2019-03-08 杨果 一种教育网络舆情监测及管理系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297589A1 (en) * 2004-09-02 2013-11-07 Linkedln Corporation Identifying people a person may know
US20130007127A1 (en) * 2011-06-30 2013-01-03 International Business Machines Corporation Determination of a spammer through social network characterization
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN102945270A (zh) * 2012-10-30 2013-02-27 北京腾逸科技发展有限公司 并行化分布式网络舆情数据管理方法及系统
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
US20150113651A1 (en) * 2013-10-21 2015-04-23 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
CN106940732A (zh) * 2016-05-30 2017-07-11 国家计算机网络与信息安全管理中心 一种面向微博的疑似水军发现方法
CN109377035A (zh) * 2018-10-12 2019-02-22 食品安全与营养(贵州)信息科技有限公司 一种基于大数据的智慧餐厅管理平台
CN109446465A (zh) * 2018-11-10 2019-03-08 杨果 一种教育网络舆情监测及管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李岩,邓胜春,林剑: ""社交网络水军用户的动态行为分析及在线检测"", 《计算机工程》, vol. 45, no. 8, 31 August 2019 (2019-08-31), pages 1 - 9 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111811818A (zh) * 2020-06-02 2020-10-23 桂林电子科技大学 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法
CN111811818B (zh) * 2020-06-02 2022-02-01 桂林电子科技大学 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法
CN112732780A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 人物网络活跃度计算方法、系统、处理终端、计算机设备
CN112732780B (zh) * 2020-12-30 2024-04-02 深圳市网联安瑞网络科技有限公司 人物网络活跃度计算方法、系统、处理终端、计算机设备
CN112800304A (zh) * 2021-01-08 2021-05-14 上海海事大学 一种基于聚类的微博水军团体检测方法
CN113326412A (zh) * 2021-05-11 2021-08-31 雄狮汽车科技(南京)有限公司 汽车主机厂网络数据的水军识别方法及装置
CN113806616A (zh) * 2021-08-16 2021-12-17 北京智慧星光信息技术有限公司 微博用户识别方法、系统、电子设备及存储介质
CN113806616B (zh) * 2021-08-16 2023-08-22 北京智慧星光信息技术有限公司 微博用户识别方法、系统、电子设备及存储介质
CN117743698A (zh) * 2024-02-05 2024-03-22 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统
CN117743698B (zh) * 2024-02-05 2024-05-24 青岛国实科技集团有限公司 基于ai大模型的网络恶意写手识别方法及系统

Also Published As

Publication number Publication date
CN110956210B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110956210B (zh) 一种基于ap聚类的半监督网络水军识别方法及系统
Preoţiuc-Pietro et al. Beyond binary labels: Political ideology prediction of Twitter users
Qiu et al. SIGMM: A novel machine learning algorithm for spammer identification in industrial mobile cloud computing
Kumar et al. Dynamics of conversations
CN103150333B (zh) 微博媒体中的意见领袖识别方法
US9317594B2 (en) Social community identification for automatic document classification
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
Bai et al. Characterizing and predicting early reviewers for effective product marketing on e-commerce websites
WO2015039223A1 (en) System and method for actively obtaining social data
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
Wachs et al. Why do men get more attention? Exploring factors behind success in an online design community
CN109978020B (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN107577665B (zh) 文本情感倾向的判别方法
WO2012126259A1 (zh) 一种具有信息发布和搜索功能的系统及信息发布方法
CN108664515B (zh) 一种搜索方法及装置,电子设备
CN103279515A (zh) 基于微群的推荐方法及微群推荐装置
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
WO2020114302A1 (zh) 一种行为预测方法
Giannopoulos et al. Diversifying user comments on news articles
CN108564479A (zh) 一种基于隐链接分析热点话题传播趋势的系统及方法
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
Kim et al. Posting bot detection on blockchain-based social media platform using machine learning techniques
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
Özseyhan et al. An association rule-based recommendation engine for an online dating site
Yang et al. Steeler nation, 12th man, and boo birds: classifying Twitter user interests using time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant