CN106296422A - 一种融合多算法的社交网络垃圾用户检测方法 - Google Patents

一种融合多算法的社交网络垃圾用户检测方法 Download PDF

Info

Publication number
CN106296422A
CN106296422A CN201610615016.2A CN201610615016A CN106296422A CN 106296422 A CN106296422 A CN 106296422A CN 201610615016 A CN201610615016 A CN 201610615016A CN 106296422 A CN106296422 A CN 106296422A
Authority
CN
China
Prior art keywords
user
message
social networks
data
junk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610615016.2A
Other languages
English (en)
Inventor
徐光侠
齐锦
赵竞腾
刘宴兵
常光辉
高郭威
宋洋洋
唐志京
吴新凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201610615016.2A priority Critical patent/CN106296422A/zh
Publication of CN106296422A publication Critical patent/CN106296422A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多算法的社交网络垃圾用户检测方法,利用网络爬虫的方式从社交网络中爬取用户数据,通过分析用户的行为提取相应特征构成特征向量;接着使用K‑均值(K‑Means)和DBSCAN结合的聚类算法对社交网络中的用户进行聚类;从上一步的聚类结果中挑选簇边界附近的数据和聚类中心附近的数据训练支持向量机(SVM)分类器,得到分类器模型;最后采用训练得到的SVM分类器模型对社交网络中的垃圾用户进行检测。本发明降低了人工标注数据的成本、提高了检测的准确率,并且易于实现。

Description

一种融合多算法的社交网络垃圾用户检测方法
技术领域
本发明涉及社交网络安全领域,涉及利用机器学习算法对社交网络中的垃圾用户进行分析处理,具体涉及一种融合多算法的社交网络垃圾用户检测方法。
背景技术
社交网络(Social Network)也称为社交网络服务(Social Network Service,SNS)、社会媒体网(Social Media Networks,SMN)或社交网站(Social Network Sites,SNS),是指拥有共同兴趣、行为、背景的人们建立社交关系的网络平台。伴随着互联网产业链条的飞速发展,互联网的产业结构以及用户行为习惯也发生了一定的变化,社交网络正引领着互联网产业新的增长势头。国外主流的社交网络平台Twitter、Facebook,国内的新浪微博、腾讯微博、人人网等社交平台的用户增长率接连翻倍。从全球权威的网站排名机构Alexa公布的网站排名结果来看,在排名前20的网站中提供社交网络服务的网站约占80%。由此可见,社交网络己经成为人们生活、工作、交流的重要平台。
社交网络在给人们提供便利沟通的同时,也吸引了大量的恶意用户通过创建虚假账户或盗用正常用户的账户,在社交网站上发布广告、色情、钓鱼网站、虚假新闻等垃圾信息。我们将拥有以下几种行为的用户定义为垃圾用户:
(1)发布广告、虚假新闻、色情信息;
(2)发布指向钓鱼页面、恶意软件、色情页面的URL链接;
(3)反复发布内容相同或相似的消息;
(4)所有对其他用户的骚扰行为(例如频繁的@提醒、私信等);
(5)恶意添加好友、点赞、投票等。
垃圾用户在社交网络中发布的大量的垃圾信息影响了用户正常的信息获取,严重威胁了正常用户的隐私信息和账户安全,影响了用户体验度。同时,这些垃圾信息造成了网络资源的严重耗费,干扰了社交网络中的数据挖掘和分析工作,增加了社交网络的运营负担。此外,还有一些垃圾用户通过利用恶意点赞、评论、投票、转发等行为进行营销推广来获取利益,严重危害了社交网络的信誉评价体系以及用户的信任关系。
目前,已提出的垃圾用户检测方法通常利用特征分析和机器学习中的监督学习或无监督学习算法进行检测。利用监督学习算法进行检测需要构建有标注的数据来训练分类器,并且标注数据的构建往往依赖于昂贵的人为检查。然而,由于垃圾用户会通过不断的调整和改变策略绕过当前的系统检测,导致构建的垃圾标签库失效,从而致使垃圾用户检测陷入循环构建标注训练数据和分类器的问题中,耗费大量的人工成本和训练成本。利用无监督学习算法进行检测虽然不需要提前标注数据来训练分类器,但是检测的准确率相对较低。在传统检测方法的基础上,本发明提出一种融合多种机器学习算法的多层次垃圾用户检测方法,能够在降低成本的同时具有较高的准确率。
发明内容
为了克服现有技术中存在的缺陷,本发明的目的是提供一种确保准确率的同时,降低人工成本和训练成本的垃圾用户检测方法。该方法通过分析社交网络中垃圾用户的行为选出合适的社交网络用户特征,采用聚类算法对社交网络用户数据进行处理,再从聚类结果中提取数据训练分类器,进一步提高检测的准确率。
为了实现上述目的本发明采用如下技术方案:一种融合多算法的社交网络垃圾用户检测方法,包括以下步骤:
S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中。
S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(Cumulative Distribution Function,CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn}。
S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集Ds
S4:在子数据集Ds上执行DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)算法进行聚类,得到簇的数目K和初始簇心m1,m2,…,mk,其中k表示簇的标号;
S5:利用步骤S4得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;
S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用支持向量机(Support Vector Machines,SVM)分类算法训练分类器;
S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
在以上技术方案中,步骤中S2中所述用户特征组成特征向量V为:
V=[注册天数,关注数,粉丝数,消息数,双向关注数,关注数/粉丝数,日发消息数,原创消息比例,消息URL的平均数,消息中含“#”的平均数,消息中“@用户”的平均数,消息中所含图片的平均数,消息获得评论的平均数,消息平均被赞次数,消息获得转发的平均数,用户消息内容相似度的平均值]。
更进一步,所述用户消息内容相似度的平均值的计算步骤包括:
(1)剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model)。
(2)计算每个特征词的词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)值得到其在文本中所占的权重值。
(3)通过余弦公式计算得到用户任意两条消息的相似度,其中 分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
(4)通过公式计算用户消息内容相似度的平均值,其中T表示某一用户消息对的集合,N表示某一用户消息对集合的数目。
上述步骤(2)中计算每个特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
本发明提出了一种融合多算法的社交网络垃圾用户检测方法,该方法首先采用DBSCAN和K-均值(K-Means)结合的聚类算法对社交网络中的用户进行聚类,避免了耗费大量的人工成本来标注数据;然后从聚类得到的结果中筛选部分垃圾用户和正常用户的数据,降低SVM分类算法在大数据环境下的训练代价;最后采用训练得到的SVM分类器对社交网络中的垃圾用户进行检测,进一步提高检测的准确率。
附图说明
图1是本发明的整体流程结构示意图;
图2是本发明的获取社交网络用户数据的流程示意图;
图3是本发明的融合聚类和分类的检测算法的流程示意图;
图4是本发明的计算用户消息内容相似度的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1是本发明的整体流程结构示意图。包括:首先采用网络爬虫的方式从社交网络中采集用户数据,从社交网络用户中提取特征构成特征向量;然后采用K-Means和DBSCAN结合的聚类算法对社交网络的用户进行聚类;由于仅仅采用无监督的聚类算法对垃圾用户进行检测准确率较低,本发明从聚类的结果中挑选簇边界附近的数据和聚类中心附近的数据训练SVM分类器,得到分类器模型;最后采用训练得到的分类器模型对社交网络中的垃圾用户进行检测。
图2是本发明的获取社交网络数据的流程示意图。由于目前国内社交网络平台API开放并不十分完善,功能不能达到实际要求,因此采用网络爬虫的方式获取社交网络用户数据。爬虫策略采用以自身账户为中心的广度优先。首先,采用模拟浏览器技术,进行社交网络模拟登陆,若登陆成功则对页面进行解析,采用正则表达式匹配字符串的方法获取用户自身ID等所需数据信息,同时将自身ID入队。接着判断如果队列不为空或者爬到的用户数量不满足要求,则将对头ID出队,爬取该用户的数据并计算其统计特征(如用户关注数和粉丝数的比例、日发消息数、原创消息的比例等),将得到的数据存储到数据库中并将该用户关注者ID入队。重复上一步骤,直到队列为空或者爬到的用户数量满足要求。
图3是本发明的融合聚类和分类的检测算法的流程示意图。具体步骤如下:
S1:取出数据库中爬到的社交网络用户数据,通过分析用户的行为,计算用户的统计特征;然后绘制CDF曲线选取对垃圾用户和正常用户区别度高的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn};
S2:采用机械抽样的方法对于原始数据集D进行抽样,获得子数据集Ds
S3:在子数据集Ds上执行DBSCAN聚类算法,得到簇的数目K和初始簇心m1,m2,…,mk
S4:利用步骤S3得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法得到聚类结果,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇;
S5:利用S4的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;
S6:利用S5中得到的SVM分类器模型对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
图4是本发明的计算用户消息内容相似度的流程示意图。首先将社交网络用户发布的消息文本转换为由特征词构成的空间向量模型,接着计算每个特征词的TF-IDF值得到用户消息的TF-IDF向量列表,结合余弦定理计算用户任意两条消息之间的相似度,最后求得用户消息内容相似度的平均值。具体步骤如下:
S21:剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model);
S22:通过计算每个特征词的TF-IDF值得到其在文本中所占的权重值;
S23:通过余弦公式计算得到用户任意两条消息的相似度,其中 分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
S24:通过公式计算用户消息内容相似度的平均值,其中T表示消息对的集合,N表示消息对集合的数目。
本发明中,所述的计算特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种融合多算法的社交网络垃圾用户检测方法,其特征在于,包括以下步骤:
S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中;
S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn};
S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集Ds
S4:在子数据集Ds上执行DBSCAN算法进行聚类,得到簇的数目K和初始簇心m1,m2,…,mk,其中k表示簇的标号;
S5:利用步骤S4得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;
S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;
S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
2.根据权利要求1所述一种融合多算法的社交网络垃圾用户检测方法,其特征在于:步骤中S2中所述用户特征组成特征向量V为:
V=[注册天数,关注数,粉丝数,消息数,双向关注数,关注数/粉丝数,日发消息数,原创消息比例,消息URL的平均数,消息中含“#”的平均数,消息中“@用户”的平均数,消息中所含图片的平均数,消息获得评论的平均数,消息平均被赞次数,消息获得转发的平均数,用户消息内容相似度的平均值]。
3.根据权利要求2一种融合多算法的社交网络垃圾用户检测方法,其特征在于:所述用户消息内容相似度的平均值的计算步骤包括:
(1)剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型;
(2)计算每个特征词的词频-逆文档频率(TF-IDF)值得到其在文本中所占的权重值;
(3)通过余弦公式计算得到用户任意两条消息的相似度,其中分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
(4)通过公式计算用户消息内容相似度的平均值,其中T表示某一用户消息对的集合,N表示某一用户消息对集合的数目。
4.根据权利要求3一种融合多算法的社交网络垃圾用户检测方法,其特征在于:所述计算每个特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN,TF表示特征词W在某条消息中词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
CN201610615016.2A 2016-07-29 2016-07-29 一种融合多算法的社交网络垃圾用户检测方法 Pending CN106296422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610615016.2A CN106296422A (zh) 2016-07-29 2016-07-29 一种融合多算法的社交网络垃圾用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610615016.2A CN106296422A (zh) 2016-07-29 2016-07-29 一种融合多算法的社交网络垃圾用户检测方法

Publications (1)

Publication Number Publication Date
CN106296422A true CN106296422A (zh) 2017-01-04

Family

ID=57663378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610615016.2A Pending CN106296422A (zh) 2016-07-29 2016-07-29 一种融合多算法的社交网络垃圾用户检测方法

Country Status (1)

Country Link
CN (1) CN106296422A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909619A (zh) * 2017-01-16 2017-06-30 中国科学院声学研究所 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN107229871A (zh) * 2017-07-17 2017-10-03 梧州井儿铺贸易有限公司 一种安全性高的信息获取装置
CN107333294A (zh) * 2017-07-31 2017-11-07 南昌航空大学 一种结合AdaBoost和支持向量机的链路质量预测方法
CN107370664A (zh) * 2017-07-17 2017-11-21 陈剑桃 一种有效的微博垃圾用户发现系统
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109102418A (zh) * 2018-08-08 2018-12-28 电子科技大学 基于用户关系的社交网络垃圾账号识别方法
CN109150875A (zh) * 2018-08-20 2019-01-04 广东优世联合控股集团股份有限公司 反爬虫方法、装置、电子设备及计算机可读存储介质
CN109145162A (zh) * 2018-08-21 2019-01-04 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
CN109819282A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
CN110110079A (zh) * 2019-03-21 2019-08-09 中国人民解放军战略支援部队信息工程大学 一种社交网络垃圾用户检测方法
CN111008338A (zh) * 2019-11-11 2020-04-14 重庆邮电大学 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质
CN111125486A (zh) * 2019-12-23 2020-05-08 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN111193697A (zh) * 2019-08-07 2020-05-22 腾讯科技(深圳)有限公司 社交账号的不可信度检测方法、装置及系统
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN111385247A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN111669353A (zh) * 2019-03-08 2020-09-15 顺丰科技有限公司 钓鱼网站检测方法及系统
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN117113241A (zh) * 2023-05-12 2023-11-24 中南大学 基于边缘学习的智能漏损监测方法
US11881019B2 (en) 2018-09-20 2024-01-23 Cortexia Sa Method and device for tracking and exploiting at least one environmental parameter
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104090961A (zh) * 2014-07-14 2014-10-08 福州大学 一种基于机器学习的社交网络垃圾用户过滤方法
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104090961A (zh) * 2014-07-14 2014-10-08 福州大学 一种基于机器学习的社交网络垃圾用户过滤方法
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶飞 等: "《基于 K-Means 算法的混合聚类算法研究》", 《阜阳师范学院学报( 自然科学版)》 *
李赫元 等: "《中文微博客的垃圾用户检测》", 《中文信息学报》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN106909619B (zh) * 2017-01-16 2020-04-10 中国科学院声学研究所 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN106909619A (zh) * 2017-01-16 2017-06-30 中国科学院声学研究所 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质
CN107835113A (zh) * 2017-07-05 2018-03-23 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107370664A (zh) * 2017-07-17 2017-11-21 陈剑桃 一种有效的微博垃圾用户发现系统
CN107229871A (zh) * 2017-07-17 2017-10-03 梧州井儿铺贸易有限公司 一种安全性高的信息获取装置
CN107333294A (zh) * 2017-07-31 2017-11-07 南昌航空大学 一种结合AdaBoost和支持向量机的链路质量预测方法
CN107749033A (zh) * 2017-11-09 2018-03-02 厦门市美亚柏科信息股份有限公司 一种网络社区活跃用户簇的发现方法、终端设备及存储介质
CN109819282B (zh) * 2017-11-22 2021-04-23 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
CN109819282A (zh) * 2017-11-22 2019-05-28 腾讯科技(深圳)有限公司 一种视频用户类别识别方法、装置和介质
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
CN107944931A (zh) * 2017-12-18 2018-04-20 平安科技(深圳)有限公司 种子用户拓展方法、电子设备及计算机可读存储介质
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN108777674B (zh) * 2018-04-24 2021-02-26 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109102418A (zh) * 2018-08-08 2018-12-28 电子科技大学 基于用户关系的社交网络垃圾账号识别方法
CN109150875A (zh) * 2018-08-20 2019-01-04 广东优世联合控股集团股份有限公司 反爬虫方法、装置、电子设备及计算机可读存储介质
CN109145162A (zh) * 2018-08-21 2019-01-04 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
CN109145162B (zh) * 2018-08-21 2021-06-15 慧安金科(北京)科技有限公司 用于确定数据相似度的方法、设备和计算机可读存储介质
US11881019B2 (en) 2018-09-20 2024-01-23 Cortexia Sa Method and device for tracking and exploiting at least one environmental parameter
CN111385247B (zh) * 2018-12-28 2022-07-08 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN111385247A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 用户行为分类方法、装置、存储介质及服务器
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN109978020B (zh) * 2019-03-07 2022-04-01 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN111669353A (zh) * 2019-03-08 2020-09-15 顺丰科技有限公司 钓鱼网站检测方法及系统
CN110110079B (zh) * 2019-03-21 2021-06-08 中国人民解放军战略支援部队信息工程大学 一种社交网络垃圾用户检测方法
CN110110079A (zh) * 2019-03-21 2019-08-09 中国人民解放军战略支援部队信息工程大学 一种社交网络垃圾用户检测方法
CN111193697B (zh) * 2019-08-07 2021-06-25 腾讯科技(深圳)有限公司 社交账号的不可信度检测方法、装置及系统
CN111193697A (zh) * 2019-08-07 2020-05-22 腾讯科技(深圳)有限公司 社交账号的不可信度检测方法、装置及系统
CN111008338A (zh) * 2019-11-11 2020-04-14 重庆邮电大学 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质
CN111125486A (zh) * 2019-12-23 2020-05-08 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN111125486B (zh) * 2019-12-23 2022-11-25 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN111259962A (zh) * 2020-01-17 2020-06-09 中南大学 一种针对时序社交数据的Sybil账号检测方法
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN117113241A (zh) * 2023-05-12 2023-11-24 中南大学 基于边缘学习的智能漏损监测方法
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN117670571B (zh) * 2024-01-30 2024-04-19 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Similar Documents

Publication Publication Date Title
CN106296422A (zh) 一种融合多算法的社交网络垃圾用户检测方法
Cresci et al. Fame for sale: Efficient detection of fake Twitter followers
Bindu et al. Discovering spammer communities in twitter
Sankaranarayanan et al. Twitterstand: news in tweets
CN106294590A (zh) 一种基于半监督学习的社交网络垃圾用户过滤方法
Feng et al. Satar: A self-supervised approach to twitter account representation learning and its application in bot detection
US10599774B1 (en) Evaluating content items based upon semantic similarity of text
US10936952B2 (en) Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items
Dewan et al. Facebook Inspector (FbI): Towards automatic real-time detection of malicious content on Facebook
CN108763314A (zh) 一种兴趣推荐方法、装置、服务器及存储介质
US20150025981A1 (en) Url shortening computer-processed platform for processing internet traffic
AU2014304803A1 (en) Systems and methods for image classification by correlating contextual cues with images
CN104504335B (zh) 基于页面特征和url特征的钓鱼app检测方法及系统
Gheewala et al. Machine learning based Twitter Spam account detection: a review
Elyusufi et al. Social networks fake profiles detection using machine learning algorithms
CN104090961B (zh) 一种基于机器学习的社交网络垃圾用户过滤方法
Chakraborty et al. SPAM: a framework for social profile abuse monitoring
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN106681989A (zh) 一种预测微博转发概率的方法
Peng et al. Domain-aware federated social bot detection with multi-relational graph neural networks
Wei et al. Using network flows to identify users sharing extremist content on social media
Karpov et al. Detecting automatically managed accounts in online social networks: Graph embeddings approach
Dewan et al. Hiding in plain sight: The anatomy of malicious pages on facebook
Satija et al. Detecting malicious twitter bots using machine learning
Gera et al. C-ANN: a deep leaning model for detecting black-marketed colluders in Twitter social network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104