CN104090961B - 一种基于机器学习的社交网络垃圾用户过滤方法 - Google Patents
一种基于机器学习的社交网络垃圾用户过滤方法 Download PDFInfo
- Publication number
- CN104090961B CN104090961B CN201410332643.6A CN201410332643A CN104090961B CN 104090961 B CN104090961 B CN 104090961B CN 201410332643 A CN201410332643 A CN 201410332643A CN 104090961 B CN104090961 B CN 104090961B
- Authority
- CN
- China
- Prior art keywords
- rubbish
- key
- user
- social
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000010801 machine learning Methods 0.000 title claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 35
- 238000012706 support-vector machine Methods 0.000 claims abstract description 4
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 9
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于机器学习的社交网络垃圾用户过滤方法,包括以下步骤:1、针对一社交网络,定义需要从社交网络的社交用户中提取的特征向量,构建一垃圾消息过滤规则集;2、从社交网络中取一定数量的社交用户作为训练样本,然后对各训练样本发布的社交消息进行特征提取,得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素;3、根据垃圾消息过滤规则集,计算各训练样本的平均垃圾关键字得分,得到各训练样本完整的特征向量;4、将各训练样本的特征向量,输入支持向量机进行训练,得到垃圾用户过滤模型;5、利用垃圾用户过滤模型对待测用户进行检测,判断待测用户是否为垃圾用户。该方法有利于准确提取、过滤社交网络中的垃圾用户。
Description
技术领域
本发明涉及网络垃圾过滤技术领域,特别是一种基于机器学习的社交网络垃圾用户过滤方法。
背景技术
在线社交网络平台如Facebook、Twitter、新浪微博等都是Web2.0最受欢迎的应用程序。数以百万的用户活跃在社交网络中(好友互动,阅读新闻等),并且用户的规模正在逐年增加。社交网站在用户规模扩大的同时,也吸引了大量的垃圾消息(Spam)和垃圾用户(Spammer),Spammer在社交平台上散布广告、色情、暴力、恐怖等活动,给正常用户的社交带来严重的影响。
有研究表明:发布在Twitter上的20万条URL中有8%是钓鱼或者色情链接,而由于社交网络中大量用户的存在,每条URL被点击的概率为0.13%,这个比例远远高于垃圾邮件中URL被点击的概率,因此,在社交网站中,用户更容易受到钓鱼网站的攻击。
传统的基于内容的垃圾邮件过滤是指通过对邮件内容进行分析来判定邮件是否属于垃圾邮件。由于垃圾邮件和正常邮件的内容风格迥异,因此可以利用机器学习算法对垃圾邮件和正常邮件的内容进行训练,利用训练好的模型进行预测。但是,在社交网络(例如新浪微博、Twitter等)中,由于用户发布的消息受到字数(例如140)的限制,垃圾消息和正常消息在内容上并没有太大区别,因此,传统的基于内容的过滤算法不再适用于社交网络Spam过滤。
发明内容
本发明的目的在于提供一种基于机器学习的社交网络垃圾用户过滤方法,该方法有利于准确提取、过滤社交网络中的垃圾用户。
本发明采用的技术方案是:一种基于机器学习的社交网络垃圾用户过滤方法,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交用户中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交用户作为训练样本,所述社交用户包括正常用户和垃圾用户,然后通过信息增益算法对各训练样本发布的社交消息进行特征提取,得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本发布的所有社交消息的垃圾关键字得分,进而求得各训练样本的平均垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾用户过滤模型;
步骤S5:利用所述垃圾用户过滤模型对待测用户进行检测,判断待测用户是否为垃圾用户。
进一步的,步骤S1中,所述社交用户的特征向量V2为:
V2=[关注数,粉丝数,消息数,双向关注数,收藏数,注册天数,关注数/粉丝数,日发消息数,平均被转发次数,平均被评论次数,平均被赞次数,平均URL链接数,平均图片数,平均话题数,平均@的用户数,平均垃圾关键字得分,原创消息比例,垃圾消息比例]。
进一步的,步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
本发明的有益效果是将机器学习算法和社交元素相结合,提出了一种基于机器学习的社交网络垃圾用户过滤方法,该方法适用于社交网络Spammer过滤,能够准确提取、过滤社交网络中的垃圾用户,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明将机器学习算法和社交元素相结合,通过社交元素自身特征而不是内容来提取社交网络垃圾消息。在社交网络中,垃圾用户(Spammer)通常会关注大量用户,大量发布消息,希望借此达到宣传的目的,但是由于这些用户很少受到正常用户的关注,因此他们具有较少的粉丝数。通过提取这些社交元素特征,运用于过滤社交网络Spammer。
本发明基于机器学习的社交网络垃圾用户过滤方法,如图1所示,包括以下步骤:
步骤S1:针对一社交网络(如微博、Twitter等),定义需要从所述社交网络的社交用户中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分。
所述社交用户的特征向量V2为:
V2=[关注数,粉丝数,消息数,双向关注数,收藏数,注册天数,关注数/粉丝数,日发消息数,平均被转发次数,平均被评论次数,平均被赞次数,平均URL链接数,平均图片数,平均话题数,平均@的用户数,平均垃圾关键字得分,原创消息比例,垃圾消息比例]。其中,关注数,粉丝数,消息数,双向关注数,收藏数,注册天数,关注数/粉丝数,日发消息数可以通过社交用户的个人信息得到,其他的特征根据社交用户发布的社交消息来计算,类似于垃圾消息过滤,计算每条消息转发评论以及垃圾关键字得分,然后求平均值。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。如图2所示,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量(如10万条)的垃圾消息。
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词。
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益(IG,Info Gain)值。所述信息增益算法为:
上式中,表示t不出现的概率,表示t出现的情况下文本属于分类的概率,表示t不出现的情况下文本属于分类的概率。因此,IG的值反映了特征在各分类的分布状况。
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值。
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个(如前5000个)分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
步骤S2:从所述社交网络中取一定数量的社交用户作为训练样本,所述社交用户包括正常用户和垃圾用户,然后通过信息增益算法对各训练样本发布的社交消息进行特征提取,得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素。
步骤S3:根据垃圾消息过滤规则集,计算各训练样本发布的所有社交消息的垃圾关键字得分,对所有社交消息的垃圾关键字得分求平均值,进而求得各训练样本的平均垃圾关键字得分,得到各训练样本完整的特征向量。
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾用户过滤模型。
步骤S5:利用所述垃圾用户过滤模型对待测用户进行检测,判断待测用户是否为垃圾用户。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (2)
1.一种基于机器学习的社交网络垃圾用户过滤方法,其特征在于,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交用户中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交用户作为训练样本,所述社交用户包括正常用户和垃圾用户,然后通过信息增益算法对各训练样本发布的社交消息进行特征提取,得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本发布的所有社交消息的垃圾关键字得分,进而求得各训练样本的平均垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾用户过滤模型;
步骤S5:利用所述垃圾用户过滤模型对待测用户进行检测,判断待测用户是否为垃圾用户;
步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1,key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
2.根据权利要求1所述的一种基于机器学习的社交网络垃圾用户过滤方法,其特征在于,步骤S1中,所述社交用户的特征向量V2为:
V2=[关注数,粉丝数,消息数,双向关注数,收藏数,注册天数,关注数/粉丝数,日发消息数,平均被转发次数,平均被评论次数,平均被赞次数,平均URL链接数,平均图片数,平均话题数,平均@的用户数,平均垃圾关键字得分,原创消息比例,垃圾消息比例]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332643.6A CN104090961B (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332643.6A CN104090961B (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104090961A CN104090961A (zh) | 2014-10-08 |
CN104090961B true CN104090961B (zh) | 2017-07-04 |
Family
ID=51638677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410332643.6A Active CN104090961B (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104090961B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
CN109993340A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 数据处理方法 |
CN110278175B (zh) * | 2018-03-14 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 图结构模型训练、垃圾账户识别方法、装置以及设备 |
CN110110079B (zh) * | 2019-03-21 | 2021-06-08 | 中国人民解放军战略支援部队信息工程大学 | 一种社交网络垃圾用户检测方法 |
CN115062223B (zh) * | 2022-06-24 | 2024-02-13 | 摘星社信息科技(浙江)股份有限公司 | 社交大数据平台垃圾广告用户精准识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
CN101520848A (zh) * | 2008-02-27 | 2009-09-02 | 中国科学院自动化研究所 | 一种图像型垃圾邮件的过滤方法 |
US8321516B2 (en) * | 2008-09-30 | 2012-11-27 | Aol Inc. | Systems and methods for creating and updating reputation records |
US8468207B1 (en) * | 2008-05-16 | 2013-06-18 | Google Inc. | Detection of chain-letters in user-generated comments for websites |
CN103294833A (zh) * | 2012-11-02 | 2013-09-11 | 中国人民解放军国防科学技术大学 | 基于用户的关注关系的垃圾用户发现方法 |
CN103389995A (zh) * | 2012-05-10 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 一种垃圾内容识别方法及装置 |
-
2014
- 2014-07-14 CN CN201410332643.6A patent/CN104090961B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
CN101520848A (zh) * | 2008-02-27 | 2009-09-02 | 中国科学院自动化研究所 | 一种图像型垃圾邮件的过滤方法 |
US8468207B1 (en) * | 2008-05-16 | 2013-06-18 | Google Inc. | Detection of chain-letters in user-generated comments for websites |
US8321516B2 (en) * | 2008-09-30 | 2012-11-27 | Aol Inc. | Systems and methods for creating and updating reputation records |
CN103389995A (zh) * | 2012-05-10 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 一种垃圾内容识别方法及装置 |
CN103294833A (zh) * | 2012-11-02 | 2013-09-11 | 中国人民解放军国防科学技术大学 | 基于用户的关注关系的垃圾用户发现方法 |
Non-Patent Citations (2)
Title |
---|
Spam Detection on Twitter Using Traditional Classifiers;McCord M等;《the8th International Conference on Autonomic and Trusted Computing》;20111231;第175-185段 * |
文垃圾邮件多层次过滤技术的应用研究;刘延华等;《计算机工程与应用》;20091231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104090961A (zh) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104090961B (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
CN106296422A (zh) | 一种融合多算法的社交网络垃圾用户检测方法 | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
Wang et al. | Understanding the power of opinion leaders’ influence on the diffusion process of popular mobile games: Travel Frog on Sina Weibo | |
CN104268271B (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
Lee et al. | Uncovering social spammers: social honeypots+ machine learning | |
Vadivu et al. | Digital brand management—A study on the factors affecting customers' engagement in Facebook pages | |
CN104156450B (zh) | 一种基于用户网络数据的物品信息推荐方法 | |
Wang et al. | Guiding internet-scale video service deployment using microblog-based prediction | |
CN103823888B (zh) | 一种基于节点亲密度的社交网站好友推荐方法 | |
CN103778260A (zh) | 一种个性化微博信息推荐系统和方法 | |
CN103177382B (zh) | 微博平台上的关键传播路径和中心节点的探测方法 | |
CN107066476A (zh) | 一种基于物品相似度的实时推荐方法 | |
CN106682770A (zh) | 一种基于好友圈子的动态微博转发行为预测系统及方法 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN103745000A (zh) | 一种中文微博客的热点话题检测方法 | |
CN104239539A (zh) | 一种基于多种信息融合的微博信息过滤方法 | |
CN105843860B (zh) | 一种基于并行item-based协同过滤算法的微博关注推荐方法 | |
CN105095419A (zh) | 一种面向微博特定类型用户的信息影响力最大化方法 | |
CN103345524A (zh) | 微博热点话题检测方法及系统 | |
Han et al. | A big data model supporting information recommendation in social networks | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN108009220A (zh) | 一种网络热点舆情事件中检测和定位异常用户的方法 | |
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
CN104063515A (zh) | 一种基于机器学习的社交网络垃圾消息过滤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |