CN104063515A - 一种基于机器学习的社交网络垃圾消息过滤方法 - Google Patents

一种基于机器学习的社交网络垃圾消息过滤方法 Download PDF

Info

Publication number
CN104063515A
CN104063515A CN201410332314.1A CN201410332314A CN104063515A CN 104063515 A CN104063515 A CN 104063515A CN 201410332314 A CN201410332314 A CN 201410332314A CN 104063515 A CN104063515 A CN 104063515A
Authority
CN
China
Prior art keywords
key
rubbish
message
social
message filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410332314.1A
Other languages
English (en)
Inventor
郑相涵
陈国龙
曾志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410332314.1A priority Critical patent/CN104063515A/zh
Publication of CN104063515A publication Critical patent/CN104063515A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于机器学习的社交网络垃圾消息过滤方法,包括以下步骤:1、针对一社交网络,定义需要从社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;2、从社交网络中取一定数量的社交消息作为训练样本,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;3、根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;4、将各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;5、利用垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。该方法有利于准确提取、过滤社交网络中的垃圾消息。

Description

一种基于机器学习的社交网络垃圾消息过滤方法
技术领域
本发明涉及网络垃圾过滤技术领域,特别是一种基于机器学习的社交网络垃圾消息过滤方法。
背景技术
在线社交网络平台如Facebook、Twitter、新浪微博等都是Web2.0最受欢迎的应用程序。数以百万的用户活跃在社交网络中(好友互动,阅读新闻等),并且用户的规模正在逐年增加。社交网站在用户规模扩大的同时,也吸引了大量的垃圾消息(Spam)和垃圾用户(Spammer),Spammer在社交平台上散布广告、色情、暴力、恐怖等活动,给正常用户的社交带来严重的影响。
有研究表明:发布在Twitter上的20万条URL中有8%是钓鱼或者色情链接,而由于社交网络中大量用户的存在,每条URL被点击的概率为0.13%,这个比例远远高于垃圾邮件中URL被点击的概率,因此,在社交网站中,用户更容易受到钓鱼网站的攻击。
传统的基于内容的垃圾邮件过滤是指通过对邮件内容进行分析来判定邮件是否属于垃圾邮件。由于垃圾邮件和正常邮件的内容风格迥异,因此可以利用机器学习算法对垃圾邮件和正常邮件的内容进行训练,利用训练好的模型进行预测。但是,在社交网络(例如新浪微博、Twitter等)中,由于用户发布的消息受到字数(例如140)的限制,垃圾消息和正常消息在内容上并没有太大区别,因此,传统的基于内容的过滤算法不再适用于社交网络Spam过滤。
发明内容
本发明的目的在于提供一种基于机器学习的社交网络垃圾消息过滤方法,该方法有利于准确提取、过滤社交网络中的垃圾消息。
本发明采用的技术方案是:一种基于机器学习的社交网络垃圾消息过滤方法,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
进一步的,步骤S1中,所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
进一步的,步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
本发明的有益效果是将机器学习算法和社交元素相结合,提出了一种基于机器学习的社交网络垃圾消息过滤方法,该方法适用于社交网络Spam过滤,能够准确提取、过滤社交网络中的垃圾消息,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明将机器学习算法和社交元素相结合,通过社交元素自身特征而不是内容来提取社交网络垃圾消息。在社交网络中,垃圾消息(Spam)通常以URL链接和图片来散布广告,但是由于这些消息很少获得正常用户的关注,因此它们具有较少的转发数、评论数和赞的数。通过提取这些社交元素特征,运用于过滤社交网络Spam。
本发明基于机器学习的社交网络垃圾消息过滤方法,如图1所示,包括以下步骤:
步骤S1:针对一社交网络(如微博、Twitter等),定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分。
所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。如图2所示,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量(如10万条)的垃圾消息。
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词。
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益(IG,Info Gain)值。所述信息增益算法为:
上式中,表示t不出现的概率,表示t出现的情况下文本属于分类的概率,表示t不出现的情况下文本属于分类的概率。因此,IG的值反映了特征在各分类的分布状况。
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值。
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个(如前5000个)分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素。
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量。
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型。
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
2.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,步骤S1中,所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
3.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
CN201410332314.1A 2014-07-14 2014-07-14 一种基于机器学习的社交网络垃圾消息过滤方法 Pending CN104063515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410332314.1A CN104063515A (zh) 2014-07-14 2014-07-14 一种基于机器学习的社交网络垃圾消息过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410332314.1A CN104063515A (zh) 2014-07-14 2014-07-14 一种基于机器学习的社交网络垃圾消息过滤方法

Publications (1)

Publication Number Publication Date
CN104063515A true CN104063515A (zh) 2014-09-24

Family

ID=51551229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410332314.1A Pending CN104063515A (zh) 2014-07-14 2014-07-14 一种基于机器学习的社交网络垃圾消息过滤方法

Country Status (1)

Country Link
CN (1) CN104063515A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统
CN109889436A (zh) * 2019-02-20 2019-06-14 北京航空航天大学 一种社交网络中垃圾邮件发送者的发现方法
CN110034998A (zh) * 2017-11-07 2019-07-19 奥誓公司 控制电子消息及其在传递之后的响应的计算机系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
CN101184259A (zh) * 2007-11-01 2008-05-21 浙江大学 垃圾短信中的关键词自动学习及更新方法
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈欣: "一种基于支持向量机的垃圾微博识别方法", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503075A (zh) * 2016-09-30 2017-03-15 北京奇虎科技有限公司 一种过滤垃圾消息的方法及系统
CN106503075B (zh) * 2016-09-30 2019-07-02 北京安云世纪科技有限公司 一种过滤垃圾消息的方法及系统
CN110034998A (zh) * 2017-11-07 2019-07-19 奥誓公司 控制电子消息及其在传递之后的响应的计算机系统和方法
CN110034998B (zh) * 2017-11-07 2021-08-20 威瑞森传媒公司 控制电子消息及其在传递之后的响应的计算机系统和方法
CN109889436A (zh) * 2019-02-20 2019-06-14 北京航空航天大学 一种社交网络中垃圾邮件发送者的发现方法
CN109889436B (zh) * 2019-02-20 2020-10-13 北京航空航天大学 一种社交网络中垃圾邮件发送者的发现方法

Similar Documents

Publication Publication Date Title
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
Zhang et al. Detecting spam and promoting campaigns in the twitter social network
CN106940732A (zh) 一种面向微博的疑似水军发现方法
US9213997B2 (en) Method and system for social media burst classifications
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
CN106294590B (zh) 一种基于半监督学习的社交网络垃圾用户过滤方法
CN103458042B (zh) 一种微博广告用户检测方法
CN104090961A (zh) 一种基于机器学习的社交网络垃圾用户过滤方法
CN103761239B (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN106296422A (zh) 一种融合多算法的社交网络垃圾用户检测方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
Liu et al. Detecting" smart" spammers on social network: A topic model approach
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及系统
CN103778260A (zh) 一种个性化微博信息推荐系统和方法
CN104156436A (zh) 一种社交云媒体协同过滤推荐方法
CN107609103A (zh) 一种基于推特的事件检测方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN109472027A (zh) 一种基于博文相似性的社交机器人检测系统及方法
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN103150335A (zh) 一种基于联合聚类的煤矿舆情监测系统
CN104268130A (zh) 一种面向Twitter的社交广告可投放性分析方法
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140924