CN106296422A - 一种融合多算法的社交网络垃圾用户检测方法 - Google Patents
一种融合多算法的社交网络垃圾用户检测方法 Download PDFInfo
- Publication number
- CN106296422A CN106296422A CN201610615016.2A CN201610615016A CN106296422A CN 106296422 A CN106296422 A CN 106296422A CN 201610615016 A CN201610615016 A CN 201610615016A CN 106296422 A CN106296422 A CN 106296422A
- Authority
- CN
- China
- Prior art keywords
- user
- message
- social networks
- data
- junk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010422 painting Methods 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合多算法的社交网络垃圾用户检测方法,利用网络爬虫的方式从社交网络中爬取用户数据,通过分析用户的行为提取相应特征构成特征向量;接着使用K‑均值(K‑Means)和DBSCAN结合的聚类算法对社交网络中的用户进行聚类;从上一步的聚类结果中挑选簇边界附近的数据和聚类中心附近的数据训练支持向量机(SVM)分类器,得到分类器模型;最后采用训练得到的SVM分类器模型对社交网络中的垃圾用户进行检测。本发明降低了人工标注数据的成本、提高了检测的准确率,并且易于实现。
Description
技术领域
本发明涉及社交网络安全领域,涉及利用机器学习算法对社交网络中的垃圾用户进行分析处理,具体涉及一种融合多算法的社交网络垃圾用户检测方法。
背景技术
社交网络(Social Network)也称为社交网络服务(Social Network Service,SNS)、社会媒体网(Social Media Networks,SMN)或社交网站(Social Network Sites,SNS),是指拥有共同兴趣、行为、背景的人们建立社交关系的网络平台。伴随着互联网产业链条的飞速发展,互联网的产业结构以及用户行为习惯也发生了一定的变化,社交网络正引领着互联网产业新的增长势头。国外主流的社交网络平台Twitter、Facebook,国内的新浪微博、腾讯微博、人人网等社交平台的用户增长率接连翻倍。从全球权威的网站排名机构Alexa公布的网站排名结果来看,在排名前20的网站中提供社交网络服务的网站约占80%。由此可见,社交网络己经成为人们生活、工作、交流的重要平台。
社交网络在给人们提供便利沟通的同时,也吸引了大量的恶意用户通过创建虚假账户或盗用正常用户的账户,在社交网站上发布广告、色情、钓鱼网站、虚假新闻等垃圾信息。我们将拥有以下几种行为的用户定义为垃圾用户:
(1)发布广告、虚假新闻、色情信息;
(2)发布指向钓鱼页面、恶意软件、色情页面的URL链接;
(3)反复发布内容相同或相似的消息;
(4)所有对其他用户的骚扰行为(例如频繁的@提醒、私信等);
(5)恶意添加好友、点赞、投票等。
垃圾用户在社交网络中发布的大量的垃圾信息影响了用户正常的信息获取,严重威胁了正常用户的隐私信息和账户安全,影响了用户体验度。同时,这些垃圾信息造成了网络资源的严重耗费,干扰了社交网络中的数据挖掘和分析工作,增加了社交网络的运营负担。此外,还有一些垃圾用户通过利用恶意点赞、评论、投票、转发等行为进行营销推广来获取利益,严重危害了社交网络的信誉评价体系以及用户的信任关系。
目前,已提出的垃圾用户检测方法通常利用特征分析和机器学习中的监督学习或无监督学习算法进行检测。利用监督学习算法进行检测需要构建有标注的数据来训练分类器,并且标注数据的构建往往依赖于昂贵的人为检查。然而,由于垃圾用户会通过不断的调整和改变策略绕过当前的系统检测,导致构建的垃圾标签库失效,从而致使垃圾用户检测陷入循环构建标注训练数据和分类器的问题中,耗费大量的人工成本和训练成本。利用无监督学习算法进行检测虽然不需要提前标注数据来训练分类器,但是检测的准确率相对较低。在传统检测方法的基础上,本发明提出一种融合多种机器学习算法的多层次垃圾用户检测方法,能够在降低成本的同时具有较高的准确率。
发明内容
为了克服现有技术中存在的缺陷,本发明的目的是提供一种确保准确率的同时,降低人工成本和训练成本的垃圾用户检测方法。该方法通过分析社交网络中垃圾用户的行为选出合适的社交网络用户特征,采用聚类算法对社交网络用户数据进行处理,再从聚类结果中提取数据训练分类器,进一步提高检测的准确率。
为了实现上述目的本发明采用如下技术方案:一种融合多算法的社交网络垃圾用户检测方法,包括以下步骤:
S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中。
S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(Cumulative Distribution Function,CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn}。
S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集Ds;
S4:在子数据集Ds上执行DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)算法进行聚类,得到簇的数目K和初始簇心m1,m2,…,mk,其中k表示簇的标号;
S5:利用步骤S4得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;
S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用支持向量机(Support Vector Machines,SVM)分类算法训练分类器;
S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
在以上技术方案中,步骤中S2中所述用户特征组成特征向量V为:
V=[注册天数,关注数,粉丝数,消息数,双向关注数,关注数/粉丝数,日发消息数,原创消息比例,消息URL的平均数,消息中含“#”的平均数,消息中“@用户”的平均数,消息中所含图片的平均数,消息获得评论的平均数,消息平均被赞次数,消息获得转发的平均数,用户消息内容相似度的平均值]。
更进一步,所述用户消息内容相似度的平均值的计算步骤包括:
(1)剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model)。
(2)计算每个特征词的词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)值得到其在文本中所占的权重值。
(3)通过余弦公式计算得到用户任意两条消息的相似度,其中 分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
(4)通过公式计算用户消息内容相似度的平均值,其中T表示某一用户消息对的集合,N表示某一用户消息对集合的数目。
上述步骤(2)中计算每个特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
本发明提出了一种融合多算法的社交网络垃圾用户检测方法,该方法首先采用DBSCAN和K-均值(K-Means)结合的聚类算法对社交网络中的用户进行聚类,避免了耗费大量的人工成本来标注数据;然后从聚类得到的结果中筛选部分垃圾用户和正常用户的数据,降低SVM分类算法在大数据环境下的训练代价;最后采用训练得到的SVM分类器对社交网络中的垃圾用户进行检测,进一步提高检测的准确率。
附图说明
图1是本发明的整体流程结构示意图;
图2是本发明的获取社交网络用户数据的流程示意图;
图3是本发明的融合聚类和分类的检测算法的流程示意图;
图4是本发明的计算用户消息内容相似度的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1是本发明的整体流程结构示意图。包括:首先采用网络爬虫的方式从社交网络中采集用户数据,从社交网络用户中提取特征构成特征向量;然后采用K-Means和DBSCAN结合的聚类算法对社交网络的用户进行聚类;由于仅仅采用无监督的聚类算法对垃圾用户进行检测准确率较低,本发明从聚类的结果中挑选簇边界附近的数据和聚类中心附近的数据训练SVM分类器,得到分类器模型;最后采用训练得到的分类器模型对社交网络中的垃圾用户进行检测。
图2是本发明的获取社交网络数据的流程示意图。由于目前国内社交网络平台API开放并不十分完善,功能不能达到实际要求,因此采用网络爬虫的方式获取社交网络用户数据。爬虫策略采用以自身账户为中心的广度优先。首先,采用模拟浏览器技术,进行社交网络模拟登陆,若登陆成功则对页面进行解析,采用正则表达式匹配字符串的方法获取用户自身ID等所需数据信息,同时将自身ID入队。接着判断如果队列不为空或者爬到的用户数量不满足要求,则将对头ID出队,爬取该用户的数据并计算其统计特征(如用户关注数和粉丝数的比例、日发消息数、原创消息的比例等),将得到的数据存储到数据库中并将该用户关注者ID入队。重复上一步骤,直到队列为空或者爬到的用户数量满足要求。
图3是本发明的融合聚类和分类的检测算法的流程示意图。具体步骤如下:
S1:取出数据库中爬到的社交网络用户数据,通过分析用户的行为,计算用户的统计特征;然后绘制CDF曲线选取对垃圾用户和正常用户区别度高的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn};
S2:采用机械抽样的方法对于原始数据集D进行抽样,获得子数据集Ds;
S3:在子数据集Ds上执行DBSCAN聚类算法,得到簇的数目K和初始簇心m1,m2,…,mk;
S4:利用步骤S3得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法得到聚类结果,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇;
S5:利用S4的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;
S6:利用S5中得到的SVM分类器模型对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
图4是本发明的计算用户消息内容相似度的流程示意图。首先将社交网络用户发布的消息文本转换为由特征词构成的空间向量模型,接着计算每个特征词的TF-IDF值得到用户消息的TF-IDF向量列表,结合余弦定理计算用户任意两条消息之间的相似度,最后求得用户消息内容相似度的平均值。具体步骤如下:
S21:剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model);
S22:通过计算每个特征词的TF-IDF值得到其在文本中所占的权重值;
S23:通过余弦公式计算得到用户任意两条消息的相似度,其中 分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
S24:通过公式计算用户消息内容相似度的平均值,其中T表示消息对的集合,N表示消息对集合的数目。
本发明中,所述的计算特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (4)
1.一种融合多算法的社交网络垃圾用户检测方法,其特征在于,包括以下步骤:
S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中;
S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V1,V2,…,Vn};
S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集Ds;
S4:在子数据集Ds上执行DBSCAN算法进行聚类,得到簇的数目K和初始簇心m1,m2,…,mk,其中k表示簇的标号;
S5:利用步骤S4得到的簇的数目K和初始簇心m1,m2,…,mk,对原始数据集D执行K-Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;
S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;
S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
2.根据权利要求1所述一种融合多算法的社交网络垃圾用户检测方法,其特征在于:步骤中S2中所述用户特征组成特征向量V为:
V=[注册天数,关注数,粉丝数,消息数,双向关注数,关注数/粉丝数,日发消息数,原创消息比例,消息URL的平均数,消息中含“#”的平均数,消息中“@用户”的平均数,消息中所含图片的平均数,消息获得评论的平均数,消息平均被赞次数,消息获得转发的平均数,用户消息内容相似度的平均值]。
3.根据权利要求2一种融合多算法的社交网络垃圾用户检测方法,其特征在于:所述用户消息内容相似度的平均值的计算步骤包括:
(1)剔除用户消息内容文本中的URL、“@”、“#”和表情,删掉停用词得到纯文本,并用分词器将纯文本转化为由特征词集合构成的向量空间模型;
(2)计算每个特征词的词频-逆文档频率(TF-IDF)值得到其在文本中所占的权重值;
(3)通过余弦公式计算得到用户任意两条消息的相似度,其中分别表示消息a和消息b的特征词向量,S(a,b)表示消息a和消息b的相似度;
(4)通过公式计算用户消息内容相似度的平均值,其中T表示某一用户消息对的集合,N表示某一用户消息对集合的数目。
4.根据权利要求3一种融合多算法的社交网络垃圾用户检测方法,其特征在于:所述计算每个特征词的TF-IDF值的方法为:任取某一特征词W,统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN,以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN,TF表示特征词W在某条消息中词频数,IDF表示特征词W在用户所发的所有消息中的逆词频数,通过计算该特征词W的TF值,通过计算该特征词W的IDF值,最后通过TF-IDF=TF·IDF计算该特征词W的TF-IDF值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615016.2A CN106296422A (zh) | 2016-07-29 | 2016-07-29 | 一种融合多算法的社交网络垃圾用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615016.2A CN106296422A (zh) | 2016-07-29 | 2016-07-29 | 一种融合多算法的社交网络垃圾用户检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106296422A true CN106296422A (zh) | 2017-01-04 |
Family
ID=57663378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610615016.2A Pending CN106296422A (zh) | 2016-07-29 | 2016-07-29 | 一种融合多算法的社交网络垃圾用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106296422A (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909619A (zh) * | 2017-01-16 | 2017-06-30 | 中国科学院声学研究所 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
CN107229871A (zh) * | 2017-07-17 | 2017-10-03 | 梧州井儿铺贸易有限公司 | 一种安全性高的信息获取装置 |
CN107333294A (zh) * | 2017-07-31 | 2017-11-07 | 南昌航空大学 | 一种结合AdaBoost和支持向量机的链路质量预测方法 |
CN107370664A (zh) * | 2017-07-17 | 2017-11-21 | 陈剑桃 | 一种有效的微博垃圾用户发现系统 |
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107944931A (zh) * | 2017-12-18 | 2018-04-20 | 平安科技(深圳)有限公司 | 种子用户拓展方法、电子设备及计算机可读存储介质 |
CN108280766A (zh) * | 2017-01-06 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 交易行为风险识别方法及装置 |
CN108777674A (zh) * | 2018-04-24 | 2018-11-09 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
CN109102418A (zh) * | 2018-08-08 | 2018-12-28 | 电子科技大学 | 基于用户关系的社交网络垃圾账号识别方法 |
CN109150875A (zh) * | 2018-08-20 | 2019-01-04 | 广东优世联合控股集团股份有限公司 | 反爬虫方法、装置、电子设备及计算机可读存储介质 |
CN109145162A (zh) * | 2018-08-21 | 2019-01-04 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN109978020A (zh) * | 2019-03-07 | 2019-07-05 | 武汉大学 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
CN110019677A (zh) * | 2017-11-30 | 2019-07-16 | 南京大学 | 基于聚类分析的微博广告发布者识别方法及装置 |
CN110110079A (zh) * | 2019-03-21 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN111008338A (zh) * | 2019-11-11 | 2020-04-14 | 重庆邮电大学 | 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质 |
CN111125486A (zh) * | 2019-12-23 | 2020-05-08 | 重庆邮电大学 | 一种基于多特征的微博用户属性分析方法 |
CN111193697A (zh) * | 2019-08-07 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及系统 |
CN111259962A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种针对时序社交数据的Sybil账号检测方法 |
CN111385247A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 用户行为分类方法、装置、存储介质及服务器 |
CN111669353A (zh) * | 2019-03-08 | 2020-09-15 | 顺丰科技有限公司 | 钓鱼网站检测方法及系统 |
CN112395556A (zh) * | 2020-09-30 | 2021-02-23 | 广州市百果园网络科技有限公司 | 异常用户检测模型训练方法、异常用户审核方法及装置 |
CN113094567A (zh) * | 2021-03-31 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于文本聚类的恶意投诉识别方法及系统 |
CN117113241A (zh) * | 2023-05-12 | 2023-11-24 | 中南大学 | 基于边缘学习的智能漏损监测方法 |
US11881019B2 (en) | 2018-09-20 | 2024-01-23 | Cortexia Sa | Method and device for tracking and exploiting at least one environmental parameter |
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN104484343A (zh) * | 2014-11-26 | 2015-04-01 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种对微博进行主题发现与追踪的方法 |
-
2016
- 2016-07-29 CN CN201610615016.2A patent/CN106296422A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN104484343A (zh) * | 2014-11-26 | 2015-04-01 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种对微博进行主题发现与追踪的方法 |
Non-Patent Citations (2)
Title |
---|
叶飞 等: "《基于 K-Means 算法的混合聚类算法研究》", 《阜阳师范学院学报( 自然科学版)》 * |
李赫元 等: "《中文微博客的垃圾用户检测》", 《中文信息学报》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280766A (zh) * | 2017-01-06 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 交易行为风险识别方法及装置 |
CN106909619B (zh) * | 2017-01-16 | 2020-04-10 | 中国科学院声学研究所 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
CN106909619A (zh) * | 2017-01-16 | 2017-06-30 | 中国科学院声学研究所 | 一种基于偏移调节和竞价的混合社交网络聚类方法及系统 |
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
CN107835113A (zh) * | 2017-07-05 | 2018-03-23 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107835113B (zh) * | 2017-07-05 | 2020-09-08 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107370664A (zh) * | 2017-07-17 | 2017-11-21 | 陈剑桃 | 一种有效的微博垃圾用户发现系统 |
CN107229871A (zh) * | 2017-07-17 | 2017-10-03 | 梧州井儿铺贸易有限公司 | 一种安全性高的信息获取装置 |
CN107333294A (zh) * | 2017-07-31 | 2017-11-07 | 南昌航空大学 | 一种结合AdaBoost和支持向量机的链路质量预测方法 |
CN107749033A (zh) * | 2017-11-09 | 2018-03-02 | 厦门市美亚柏科信息股份有限公司 | 一种网络社区活跃用户簇的发现方法、终端设备及存储介质 |
CN109819282B (zh) * | 2017-11-22 | 2021-04-23 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN109819282A (zh) * | 2017-11-22 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 一种视频用户类别识别方法、装置和介质 |
CN110019677A (zh) * | 2017-11-30 | 2019-07-16 | 南京大学 | 基于聚类分析的微博广告发布者识别方法及装置 |
CN107944931A (zh) * | 2017-12-18 | 2018-04-20 | 平安科技(深圳)有限公司 | 种子用户拓展方法、电子设备及计算机可读存储介质 |
CN108777674A (zh) * | 2018-04-24 | 2018-11-09 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
CN108777674B (zh) * | 2018-04-24 | 2021-02-26 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
CN109102418A (zh) * | 2018-08-08 | 2018-12-28 | 电子科技大学 | 基于用户关系的社交网络垃圾账号识别方法 |
CN109150875A (zh) * | 2018-08-20 | 2019-01-04 | 广东优世联合控股集团股份有限公司 | 反爬虫方法、装置、电子设备及计算机可读存储介质 |
CN109145162A (zh) * | 2018-08-21 | 2019-01-04 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
CN109145162B (zh) * | 2018-08-21 | 2021-06-15 | 慧安金科(北京)科技有限公司 | 用于确定数据相似度的方法、设备和计算机可读存储介质 |
US11881019B2 (en) | 2018-09-20 | 2024-01-23 | Cortexia Sa | Method and device for tracking and exploiting at least one environmental parameter |
CN111385247B (zh) * | 2018-12-28 | 2022-07-08 | 广州市百果园信息技术有限公司 | 用户行为分类方法、装置、存储介质及服务器 |
CN111385247A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 用户行为分类方法、装置、存储介质及服务器 |
CN109978020A (zh) * | 2019-03-07 | 2019-07-05 | 武汉大学 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
CN109978020B (zh) * | 2019-03-07 | 2022-04-01 | 武汉大学 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
CN111669353A (zh) * | 2019-03-08 | 2020-09-15 | 顺丰科技有限公司 | 钓鱼网站检测方法及系统 |
CN110110079B (zh) * | 2019-03-21 | 2021-06-08 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN110110079A (zh) * | 2019-03-21 | 2019-08-09 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN111193697B (zh) * | 2019-08-07 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及系统 |
CN111193697A (zh) * | 2019-08-07 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 社交账号的不可信度检测方法、装置及系统 |
CN111008338A (zh) * | 2019-11-11 | 2020-04-14 | 重庆邮电大学 | 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质 |
CN111125486A (zh) * | 2019-12-23 | 2020-05-08 | 重庆邮电大学 | 一种基于多特征的微博用户属性分析方法 |
CN111125486B (zh) * | 2019-12-23 | 2022-11-25 | 重庆邮电大学 | 一种基于多特征的微博用户属性分析方法 |
CN111259962A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种针对时序社交数据的Sybil账号检测方法 |
CN112395556A (zh) * | 2020-09-30 | 2021-02-23 | 广州市百果园网络科技有限公司 | 异常用户检测模型训练方法、异常用户审核方法及装置 |
CN113094567A (zh) * | 2021-03-31 | 2021-07-09 | 四川新网银行股份有限公司 | 一种基于文本聚类的恶意投诉识别方法及系统 |
CN117113241A (zh) * | 2023-05-12 | 2023-11-24 | 中南大学 | 基于边缘学习的智能漏损监测方法 |
CN117670571A (zh) * | 2024-01-30 | 2024-03-08 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
CN117670571B (zh) * | 2024-01-30 | 2024-04-19 | 昆明理工大学 | 基于异构消息图关系嵌入的增量式社交媒体事件检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106296422A (zh) | 一种融合多算法的社交网络垃圾用户检测方法 | |
Cresci et al. | Fame for sale: Efficient detection of fake Twitter followers | |
Bindu et al. | Discovering spammer communities in twitter | |
Sankaranarayanan et al. | Twitterstand: news in tweets | |
CN106294590A (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
Feng et al. | Satar: A self-supervised approach to twitter account representation learning and its application in bot detection | |
US10599774B1 (en) | Evaluating content items based upon semantic similarity of text | |
US10936952B2 (en) | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items | |
Dewan et al. | Facebook Inspector (FbI): Towards automatic real-time detection of malicious content on Facebook | |
CN108763314A (zh) | 一种兴趣推荐方法、装置、服务器及存储介质 | |
US20150025981A1 (en) | Url shortening computer-processed platform for processing internet traffic | |
AU2014304803A1 (en) | Systems and methods for image classification by correlating contextual cues with images | |
CN104504335B (zh) | 基于页面特征和url特征的钓鱼app检测方法及系统 | |
Gheewala et al. | Machine learning based Twitter Spam account detection: a review | |
Elyusufi et al. | Social networks fake profiles detection using machine learning algorithms | |
CN104090961B (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
Chakraborty et al. | SPAM: a framework for social profile abuse monitoring | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN106681989A (zh) | 一种预测微博转发概率的方法 | |
Peng et al. | Domain-aware federated social bot detection with multi-relational graph neural networks | |
Wei et al. | Using network flows to identify users sharing extremist content on social media | |
Karpov et al. | Detecting automatically managed accounts in online social networks: Graph embeddings approach | |
Dewan et al. | Hiding in plain sight: The anatomy of malicious pages on facebook | |
Satija et al. | Detecting malicious twitter bots using machine learning | |
Gera et al. | C-ANN: a deep leaning model for detecting black-marketed colluders in Twitter social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |