CN106557983A - 一种基于模糊多类svm的微博垃圾用户检测方法 - Google Patents

一种基于模糊多类svm的微博垃圾用户检测方法 Download PDF

Info

Publication number
CN106557983A
CN106557983A CN201611016672.7A CN201611016672A CN106557983A CN 106557983 A CN106557983 A CN 106557983A CN 201611016672 A CN201611016672 A CN 201611016672A CN 106557983 A CN106557983 A CN 106557983A
Authority
CN
China
Prior art keywords
microblogging
junk user
user
average
junk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611016672.7A
Other languages
English (en)
Other versions
CN106557983B (zh
Inventor
徐光侠
高郭威
宋洋洋
刘宴兵
常光辉
齐锦
蒋鹏
李伟凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201611016672.7A priority Critical patent/CN106557983B/zh
Publication of CN106557983A publication Critical patent/CN106557983A/zh
Application granted granted Critical
Publication of CN106557983B publication Critical patent/CN106557983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊多类SVM的微博垃圾用户检测方法,将一对多SVM多类分类器与模糊数学理论相结合用于微博垃圾用户检测。现有的微博垃圾用户研究,都是对全局的垃圾用户特征进行分析,分析力度不够,缺乏针对某类垃圾用户的特征分析,这样会使垃圾用户逃避检测系统的检测。本发明通过对微博垃圾用户的特征进行分析,将垃圾用户分为三类,构造一对多SVM多类分类器,并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,提高了检测精度。

Description

一种基于模糊多类SVM的微博垃圾用户检测方法
技术领域
本发明涉及社交网络安全领域,涉及利用机器学习算法和模糊数学对社交网络中的垃圾用户进行分析处理,特别是涉及一种基于模糊多类SVM的社交网络检测方法。
背景技术
微博(Weibo),也称微博客(MicroBlog),是一种简短实时信息分享的社交平台,用户通过相互关注实现短信息的共享,微博以其独特的弱关系链体系,公开信息分享方式赢得了广大网民的欢迎。近几年,新浪微博、Twitter等微博平台已经成为了互联网用户重要的信息分享平台。在这里,人们关注时事新闻,并分享关于实事和自身事件的看法和评论。随着微博用户的增长,垃圾信息(Spam)和垃圾用户(Spammer)的出现不可避免;例如:病毒网站的蠕虫病毒攻击了Twitter,大批用户发送垃圾Twitter消息,并诱骗更多用户访问病毒网站;新浪微博内的几万名用户由于点击了私信内的恶意链接,成为病毒受害者,并大量转发三俗微博;Facebook旗下照片分享服务Instagram也遭遇了大规模的垃圾信息攻击,受害用户主页上发布不雅照片,其个人简介上的链接也被修改;当正常用户点击了垃圾微博上的恶意URL时,很容易遭受钓鱼攻击或者感染病毒,造成账号被盗或者被劫持等等。
不断出现的微博垃圾问题,严重影响了微博用户的体验效果以及平台的持久发展,对微博上数据的挖掘与分析也造成了一定的干扰。此外,大量的垃圾问题导致了网络资源的严重耗费,给社交网络的运营带来了繁重的工作,造成生产力浪费,严重的会使个人以及公司蒙受巨大经济损失。
在现有的微博垃圾用户检测领域中,垃圾用户检测主要有三种检测方式:一是用户举报机制,用户可以向微博社区管理中心进行举报,其中要经过举证阶段、判定阶段、结果公示阶段,因此需要消耗一定人力成本;二是利用社区网络或图的检测方法,可以从用户的关注与粉丝关系所构成的社交网络入手构建垃圾信息过滤模型,但是垃圾用户为了逃避检测,现阶段的垃圾用户有意弱化其社交关系,因此存在局限性,只能对垃圾社交关系特征明显的垃圾用户有检测作用;三是基于特征分析+机器学习的检测方法,这种检测方法正确率高,是当前垃圾用户检测中很受欢迎的一种方法,该方法分析垃圾用户的特征,并基于这些分析提出了检测垃圾用户的算法。
现阶段的微博垃圾问题层出不穷,垃圾行为越来越多,使得剔除垃圾用户的难度大大增加。传统的特征分析+机器学习检测方法大多缺乏针对性的行为研究,全局的垃圾用户特征研究会使垃圾用户逃避检测系统的检测,缺乏针对某种特定用户的垃圾行为研究。大多基于SVM方法的垃圾用户分类方法基本只考虑了二值分类,没有考虑进行多值分类。此外,多类分类器会产生混分样本,对检测精度有一定影响。
发明内容
为克服上述现有技术中存在的缺陷,本发明的目的是提供一种基于模糊多类SVM的微博垃圾用户检测方法。该方法通过对垃圾用户的特征进行分析,将垃圾用户分为三类,采用SVM的多值分类算法构造分类器,针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,有效提高了微博垃圾用户的分类精度。
为了实现上述目的本发明采用如下技术方案:一种基于模糊多类SVM的微博垃圾用户检测方法,包括以下步骤:
步骤一,根据微博的行为模式将垃圾用户分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3,并根据所述三类垃圾用户得到微博垃圾特征V。
步骤二,根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U。
步骤三,根据S1、S2和S3三类垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D。
步骤四,对S1、S2和S3三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析,分别画出S1、S2和S3的社会关系特征以及微博活跃性特征的CDF(CumulativeDistribution Function)曲线,利用CDF曲线,寻找每一类垃圾用户有区分度的特征向量集V1、V2、V3
步骤五,通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3,从三组训练样本集中分别提取广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3作为训练样本特征,然后根据一对多SVM分类算法(one-versus-rest),得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,将C1、C2和C3构建为多类微博垃圾用户检测分类器C。
步骤六,将待检用户作为输入样本通过C1、C2和C3三个分类器时,每一个分类器都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论,输出检测结果。
在上述方案中,微博垃圾特征V为,V=[粉丝数量,关注数量,微博创建天数,微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率,微博被转发概率,平均每条微博被评论次数(只计算被评论过的微博),平均每条微博被转发次数(只计算被转发过的微博),单条微博被转发次数最大值(只计算被转发过的微博),单条微博被评论次数最大值(只计算被评论过的微博)]。
具体地,上述广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3分别为:
V1=[关注数量,粉丝数量,平均每天微博数量,平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数];
V2=[关注数量,粉丝数量,平均每天微博数量,重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量];
V3=[关注数量,关注数/粉丝数,平均每天微博数量,微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。
为了更好地实现本发明。上述步骤六具体检测步骤为:
S1:输入待测数据。
S2:待测数据通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1,R1表示广告型垃圾用户的判断结果。
S3:待测数据通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1,R2表示重复转发型垃圾用户的判断结果。
S4:待测数据通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1,R3表示过度关注型垃圾用户的判断结果。
S5:对R1,R2,R3进行模糊推理。
S6:输出模糊处理后的判定结果。
更进一步,上述模糊推理的过程为,分别计算广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E),如果D1(E)、D2(E)、D3(E)都小于0,则将与待测数据对应的输入样本归为正常用户;如果D1(E)、D2(E)、D3(E)只有某一个Di(E)>0,则将输入样本归入该类垃圾用户;对于其余情况,采用高斯隶属函数的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E),将输入样本归入D′1(E)、D′2(E)、D′3(E)中的最大值所属垃圾用户类别。高斯隶属函数为c表示某类聚类中心,本方法中代表广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户这三类垃圾用户其中一类的聚类中心;σ为常数,本发明中取2σ2=625;x表示元素自变量。
本发明的优点与有益效果如下:
本发明使用一种基于模糊多类SVM的微博垃圾用户检测方法对微博用户进行多方位检测和判定。由于现有的微博垃圾用户研究,都是对全局的垃圾用户特征进行分析,分析力度不够,缺乏针对某类垃圾用户的特征分析,这样会使垃圾用户逃避检测系统的检测。为了保证微博垃圾用户的识别准确度,保证微博平台的良好环境,本发明提出了基于模糊多类SVM的微博垃圾用户检测方法。首先,对全网微博用户进行特征行为分析,将垃圾用户分为广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户,然后根据三类微博垃圾用户特征采用网页爬虫的方式爬取微博用户数据,得到未标记样本集,对未标注样本集进行数据标注、特征值提取等处理,利用模糊多类SVM方法构造多类分类器,对微博垃圾用户进行检测。这种多类垃圾用户检测机制,有效的提高了全网垃圾用户的检测准确率。本发明采用一种基于模糊多类SVM的微博垃圾用户检测方法,将垃圾用户分为三类,构造一对多SVM多类分类器,并针对多类分类器产生的混分样本使用模糊聚类方法进行模糊处理,得到组合分类器,提高了检测精度。
附图说明
本发明的上述和/或附加的方面和优点,结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的系统结构图;
图2是本发明的多类微博垃圾用户检测流程图;
图3是本发明的模糊多类SVM处理流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1是本发明的整体流程结构示意图。如图所示,本发明提供一种基于模糊多类SVM的微博垃圾用户检测方法。首先,对微博垃圾用户进行行为分析,将垃圾用户分为三类,利用CDF曲线选择区分度大的特征作为训练样本特征;构建一对多SVM多类分类器对用户进行分类;针对多类分类器产生的混分样本采用模糊处理的方法,将混分样本重新划分类别,提高分类精确度,最后对分类器性能进行测试。
具体步聚如下:
S1:分析微博现状,由于目的不同、控制方式不同、行动策略不同,垃圾用户所呈现出来的行为模式也不尽相同,根据其主要行为模式分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3
S2:通过对S1中三种用户行为的分析,得到微博垃圾特征V,根据特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U。
S3:根据S1中的垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D,标记样本集D中包含三类垃圾用户和正常用户。
S4:对垃圾用户特征进行分析,主要包括两类特征:社会关系特征以及微博活跃性特征,其中社会关系特征统计量主要是粉丝数量、好友数量、关注数量以及相互之间的比例,能够体现出微博用户在微博平台的社会关系,微博活跃性特征统计量主要是用户发布的微博总数、每日微博数量、近10天微博数量等,能够体现出微博用户的活跃程度。针对每一类用户(广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3),画出该特征的CDF(Cumulative Distribution Function)曲线,利用CDF曲线,寻找对每一类用户有区分度的特征向量V1、V2、V3
S5:通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3。从三组训练样本集中分别提取S4中的特征向量V1、V2、V3作为训练样本特征,然后根据一对多SVM分类算法(one-versus-rest),得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,结合C1、C2和C3构建为多类微博垃圾用户检测分类器C。
S6:对S5中多类微博垃圾用户检测分类器C产生的混分样本进行模糊后处理来提高分类精度。
S7:利用结合模糊理论的分类器对待测用户进行检测。
图2是本发明的多类微博垃圾用户检测流程图。检测过程用到一对多SVM算法,其思想是:用一类和剩下其它所有类判别分类,它的实现策略是针对N类分类问题构造N个二类SVM分类器,第i(1≤i≤N)个SVM分类器将第i个类中的训练样本作为正的训练样本,而将其它的训练样本作为负的训练样本,待分类样本通过所有的分类器分类,找出属于正类的一个,这就是分类结果。
对于本发明的三类垃圾用户,利用三类垃圾用户的特征向量V1、V2、V3作为训练样本特征,构建三个SVM分类器,分别对应广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3。当待检用户通过这三个SVM分类器时,每一个SVM都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论。具体步聚如下:
S21:输入待测数据L,从存有微博用户数据的数据库中随机抽取一个用户数据放入分类器中;
S22:待测数据L通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1;
S23:待测数据L通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1;
S24:待测数据L通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1;
S25:对R1,R2,R3进行模糊推理,具体模糊步骤如图3所示;
S26:输出模糊处理后的判定结果。
图3是本发明的模糊多类SVM处理流程图。假设将类别i和其它类相区分开的第i个决策函数为:
其中,w是超平面的法向量,b是超平面的常数项,t表示对法向量w的转置,超平面Di(x)=0形成最优分类面,那些属于第i类的支持向量满足Di(x)=1,而属于其它支持向量则满足Di(x)=-1,对于输入向量x,若:
Di(x)>0 (2)
如果x只满足一个i,则x被划分为类别i。但是当公式2满足多个i(混分)的情况下,x是不可分的了。为了处理这样的情况,对满足公式2的数据点在得到相同分类结果的情况下引入模糊隶属度函数。
具体来说,对类别i在垂直于最优分类面Di(x)=0的方向上定义一个一维的隶属度函数mi,j(x),当i=j时:
其中隶属度函数m(x)是高斯隶属函数:c表示某类聚类中心,σ为常数。当i≠j时:
当Di(x)≥1时,只有第i类的训练样本数据存在,那么可以假设此时i的隶属度为1,否则就是Di(x)。这里因为数据点相对于分类面方向的关系,容许负隶属度的存在。在i≠j的情况下,类i的样本处于相对分类面Dj(x)=0为负值的那一半区域,这种情况下,假设Dj(x)≤-1时类i的隶属度为1,其它情况下则为-Dj(x)。
通过对mi,j(x)(j=1,...,n)求最小值定义类i的隶属度函数:
现在可以将向量x归入类别:
如果从公式3和公式4,x满足:
且有mi(x)>0和mj(x)≤0(j≠i,j=1,...,n),那么就将向量x归入到类别i中。这等价于公式2只满足一个i值的情况。
具体流程如下:
S31:对于待测样本E,计算出广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E);
S32:判断是否有混分情况,若没有混分情况,决策函数D1(E)、D2(E)、D3(E)的和就会小于等于0,进入S33;否则进行S36;
S33:判断用户是否属于正常用户,即判断D1(E)、D2(E)、D3(E)的值是否都小于0,若D1(E)==D2(E)==D3(E)<0,此时用户类型M属于正常用户,进行S39;否则进行S34;
S34:判断用户是否属于广告型垃圾用户,即判断D1(E)是否大于0,若D1(E)>0,则用户类型M属于广告型垃圾用户,进行S39;否则进行S35;
S35:判断用户是否属于重复转发型垃圾用户,即判断D2(E)是否大于0,若D2(E)>0,则用户类型M属于重复转发型垃圾用户,否则属于过度关注型垃圾用户,进行S39;
S36:根据上述公式得到的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E);
S37:将D′1(E)、D′2(E)、D′3(E)中的最大值赋给R;
S38:根据R的值判断用户类型M,即R为D′1(E),用户类型M为广告型垃圾用户;R为D′2(E),用户类型M为重复转发型垃圾用户;R为D′3(E),用户类型M为过度关注型垃圾用户;
S39:输出用户类型M。

Claims (6)

1.一种基于模糊多类SVM的微博垃圾用户检测方法,包括以下步骤:
步骤一,根据微博的行为模式将垃圾用户分为三类:广告型垃圾用户S1,重复转发型垃圾用户S2,过度关注型垃圾用户S3,并根据所述三类垃圾用户得到微博垃圾特征V;
步骤二,根据微博垃圾特征V采用网页爬虫的方式爬取微博用户数据,得到未标记样本集U;
步骤三,根据S1、S2和S3三类垃圾用户分类标准,对未标记样本集U进行人工标记得到标记样本集D;
步骤四,对S1、S2和S3三类垃圾用户分别进行社会关系特征以及微博活跃性特征分析,分别画出S1、S2和S3的社会关系特征以及微博活跃性特征的CDF曲线,利用CDF曲线,寻找每一类垃圾用户有区分度的特征向量集V1、V2、V3
步骤五,通过Bootstrap Sampling在标记样本集D中重复采样组成三组不同训练样本集D1,D2,D3,从三组训练样本集中分别提取广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3作为训练样本特征,然后根据一对多SVM分类算法,得到广告型垃圾用户分类器C1、重复转发型垃圾用户分类器C2和过度关注型垃圾用户分类器C3,将C1、C2和C3构建为多类微博垃圾用户检测分类器C;
步骤六,将待检用户作为输入样本通过C1、C2和C3三个分类器时,每一个分类器都会给出判断,结合这三个SVM的综合判断结果和模糊后处理得到最终结论,输出检测结果。
2.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述微博垃圾特征V为,V=[粉丝数量,关注数量,微博创建天数,微博数量,平均每天微博数量,近10天微博数量,关注数/粉丝数,平均每条微博链接数,平均每天发布的链接数,原创链接比例,转发链接比例,平均每条微博图片数,平均每条微博标签数,平均每条微博@符号数,转发的微博比例,平均每天转发的微博数,重复转发的微博占所有转发微博的比例,单条微博平均转发次数,单条微博最高转发次数,不同的上一级用户的数量,微博被评论概率,微博被转发概率,平均每条微博被评论次数,平均每条微博被转发次数,单条微博被转发次数最大值,单条微博被评论次数最大值]。
3.根据权利要求1所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述广告型垃圾用户S1有区分度的特征向量集V1、重复转发型垃圾用户S2有区分度的特征向量集V2、过度关注型垃圾用户S3有区分度的特征向量集V3分别为:
V1=[关注数量,粉丝数量,平均每天微博数量,平均每条微博链接数、平均每天发布链接数、平均每条微博图片数以及平均每条微博@符号数];
V2=[关注数量,粉丝数量,平均每天微博数量,重复转发的微博占所有转发微博的比例、单条微博平均转发次数、单条微博最高转发次数、不同的上一级用户数量];
V3=[关注数量,关注数/粉丝数,平均每天微博数量,微博被转发概率、微博被评论概率以及单条微博被评论的次数的平均值]。
4.根据权利要求1或2或3所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述步骤六具体步骤为:
S1:输入待测数据;
S2:待测数据通过广告型垃圾用户分类器C1,判断是否属于广告型垃圾用户,如果属于,R1等于1,否则令R1等于-1,R1表示广告型垃圾用户的判断结果;
S3:待测数据通过重复转发型垃圾用户分类器C2,判断是否属于重复转发型垃圾用户,如果属于,R2等于1,否则令R2等于-1,R2表示重复转发型垃圾用户的判断结果;
S4:待测数据通过过度关注型垃圾用户分类器C3,判断是否属于过度关注型垃圾用户,如果属于,R3等于1,否则令R3等于-1,R3表示过度关注型垃圾用户的判断结果;
S5:对R1,R2,R3进行模糊推理;
S6:输出模糊处理后的判定结果。
5.根据权利要求4所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述模糊推理的过程为,分别计算广告型垃圾用户、重复转发型垃圾用户和过度关注型垃圾用户的决策函数D1(E)、D2(E)、D3(E),如果D1(E)、D2(E)、D3(E)都小于0,则将与待测数据对应的输入样本归为正常用户;如果D1(E)、D2(E)、D3(E)只有某一个Di(E)>0,则将输入样本归入该类垃圾用户;对于其余情况,采用高斯隶属函数的模糊处理方法,更新D1(E)、D2(E)、D3(E),得到新的D′1(E)、D′2(E)、D′3(E),将输入样本归入D′1(E)、D′2(E)、D′3(E)中的最大值所属垃圾用户类别。
6.根据权利要求5所述一种基于模糊多类SVM的微博垃圾用户检测方法,其特征在于:所述高斯隶属函数为c表示某类聚类中心,σ为常数,x表示元素自变量。
CN201611016672.7A 2016-11-18 2016-11-18 一种基于模糊多类svm的微博垃圾用户检测方法 Active CN106557983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611016672.7A CN106557983B (zh) 2016-11-18 2016-11-18 一种基于模糊多类svm的微博垃圾用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611016672.7A CN106557983B (zh) 2016-11-18 2016-11-18 一种基于模糊多类svm的微博垃圾用户检测方法

Publications (2)

Publication Number Publication Date
CN106557983A true CN106557983A (zh) 2017-04-05
CN106557983B CN106557983B (zh) 2020-11-17

Family

ID=58444836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611016672.7A Active CN106557983B (zh) 2016-11-18 2016-11-18 一种基于模糊多类svm的微博垃圾用户检测方法

Country Status (1)

Country Link
CN (1) CN106557983B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832413A (zh) * 2017-11-07 2018-03-23 电子科技大学 一种微博无效用户的检测方法
CN109102418A (zh) * 2018-08-08 2018-12-28 电子科技大学 基于用户关系的社交网络垃圾账号识别方法
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294833A (zh) * 2012-11-02 2013-09-11 中国人民解放军国防科学技术大学 基于用户的关注关系的垃圾用户发现方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294833A (zh) * 2012-11-02 2013-09-11 中国人民解放军国防科学技术大学 基于用户的关注关系的垃圾用户发现方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHANSHAN GAO 等: "Spammer Detection Based on Comprehensive Features in Sina Microblog", 《IEEE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832413A (zh) * 2017-11-07 2018-03-23 电子科技大学 一种微博无效用户的检测方法
CN109120592A (zh) * 2018-07-09 2019-01-01 四川大学 一种基于用户行为的Web异常检测系统
CN109102418A (zh) * 2018-08-08 2018-12-28 电子科技大学 基于用户关系的社交网络垃圾账号识别方法

Also Published As

Publication number Publication date
CN106557983B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN105956184B (zh) 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法
CN101408883B (zh) 一种网络舆情观点收集方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN103927398B (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN102937951B (zh) 建立ip地址分类模型的方法、对用户分类的方法及装置
CN106296422A (zh) 一种融合多算法的社交网络垃圾用户检测方法
Wang et al. Multiobjective genetic programming for maximizing ROC performance
Shen et al. On robust image spam filtering via comprehensive visual modeling
CN104317891B (zh) 一种对页面标注标签的方法及装置
CN106557983A (zh) 一种基于模糊多类svm的微博垃圾用户检测方法
Ahmed et al. Network sampling designs for relational classification
CN107403007A (zh) 一种基于网络的微博消息可信度判别模型的方法
Osman et al. Artificial neural network model for decreased rank attack detection in RPL based on IoT networks
CN110113338A (zh) 一种基于特征融合的加密流量特征提取方法
CN106681989A (zh) 一种预测微博转发概率的方法
CN106791221A (zh) 一种基于通话的亲友圈关系识别方法
Tan et al. Graph neural network for ethereum fraud detection
CN110365603A (zh) 一种基于5g网络能力开放的自适应网络流量分类方法
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
Tak et al. Query Based approach towards spam attacks using artificial neural network
Shan et al. Novel Approaches to Detect Phony Profile on Online Social Networks (OSNs) Using Machine Learning
CN108494620A (zh) 基于多目标自适应演化算法的网络业务流特征选择与分类方法
CN107169020A (zh) 一种基于关键字的定向网页采集方法
Lu et al. Cascaded classifier for improving traffic classification accuracy
CN116595467A (zh) 一种基于动态加权图卷积的异常用户检测方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant