CN104063515A - 一种基于机器学习的社交网络垃圾消息过滤方法 - Google Patents
一种基于机器学习的社交网络垃圾消息过滤方法 Download PDFInfo
- Publication number
- CN104063515A CN104063515A CN201410332314.1A CN201410332314A CN104063515A CN 104063515 A CN104063515 A CN 104063515A CN 201410332314 A CN201410332314 A CN 201410332314A CN 104063515 A CN104063515 A CN 104063515A
- Authority
- CN
- China
- Prior art keywords
- key
- rubbish
- message
- social
- message filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000010801 machine learning Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000012706 support-vector machine Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- BYHQTRFJOGIQAO-GOSISDBHSA-N 3-(4-bromophenyl)-8-[(2R)-2-hydroxypropyl]-1-[(3-methoxyphenyl)methyl]-1,3,8-triazaspiro[4.5]decan-2-one Chemical compound C[C@H](CN1CCC2(CC1)CN(C(=O)N2CC3=CC(=CC=C3)OC)C4=CC=C(C=C4)Br)O BYHQTRFJOGIQAO-GOSISDBHSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于机器学习的社交网络垃圾消息过滤方法,包括以下步骤:1、针对一社交网络,定义需要从社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;2、从社交网络中取一定数量的社交消息作为训练样本,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;3、根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;4、将各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;5、利用垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。该方法有利于准确提取、过滤社交网络中的垃圾消息。
Description
技术领域
本发明涉及网络垃圾过滤技术领域,特别是一种基于机器学习的社交网络垃圾消息过滤方法。
背景技术
在线社交网络平台如Facebook、Twitter、新浪微博等都是Web2.0最受欢迎的应用程序。数以百万的用户活跃在社交网络中(好友互动,阅读新闻等),并且用户的规模正在逐年增加。社交网站在用户规模扩大的同时,也吸引了大量的垃圾消息(Spam)和垃圾用户(Spammer),Spammer在社交平台上散布广告、色情、暴力、恐怖等活动,给正常用户的社交带来严重的影响。
有研究表明:发布在Twitter上的20万条URL中有8%是钓鱼或者色情链接,而由于社交网络中大量用户的存在,每条URL被点击的概率为0.13%,这个比例远远高于垃圾邮件中URL被点击的概率,因此,在社交网站中,用户更容易受到钓鱼网站的攻击。
传统的基于内容的垃圾邮件过滤是指通过对邮件内容进行分析来判定邮件是否属于垃圾邮件。由于垃圾邮件和正常邮件的内容风格迥异,因此可以利用机器学习算法对垃圾邮件和正常邮件的内容进行训练,利用训练好的模型进行预测。但是,在社交网络(例如新浪微博、Twitter等)中,由于用户发布的消息受到字数(例如140)的限制,垃圾消息和正常消息在内容上并没有太大区别,因此,传统的基于内容的过滤算法不再适用于社交网络Spam过滤。
发明内容
本发明的目的在于提供一种基于机器学习的社交网络垃圾消息过滤方法,该方法有利于准确提取、过滤社交网络中的垃圾消息。
本发明采用的技术方案是:一种基于机器学习的社交网络垃圾消息过滤方法,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
进一步的,步骤S1中,所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
进一步的,步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
本发明的有益效果是将机器学习算法和社交元素相结合,提出了一种基于机器学习的社交网络垃圾消息过滤方法,该方法适用于社交网络Spam过滤,能够准确提取、过滤社交网络中的垃圾消息,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明将机器学习算法和社交元素相结合,通过社交元素自身特征而不是内容来提取社交网络垃圾消息。在社交网络中,垃圾消息(Spam)通常以URL链接和图片来散布广告,但是由于这些消息很少获得正常用户的关注,因此它们具有较少的转发数、评论数和赞的数。通过提取这些社交元素特征,运用于过滤社交网络Spam。
本发明基于机器学习的社交网络垃圾消息过滤方法,如图1所示,包括以下步骤:
步骤S1:针对一社交网络(如微博、Twitter等),定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分。
所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
图2是本发明实施例中建立垃圾消息过滤规则集的流程图。如图2所示,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量(如10万条)的垃圾消息。
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词。
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益(IG,Info Gain)值。所述信息增益算法为:
上式中,表示t不出现的概率,表示t出现的情况下文本属于分类的概率,表示t不出现的情况下文本属于分类的概率。因此,IG的值反映了特征在各分类的分布状况。
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值。
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个(如前5000个)分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素。
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量。
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型。
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,包括以下步骤:
步骤S1:针对一社交网络,定义需要从所述社交网络的社交消息中提取的特征向量,构建一垃圾消息过滤规则集;所述垃圾消息过滤规则集中定义有多个垃圾关键字,各垃圾关键字对应有一分值,从而可根据社交消息中出现垃圾关键字的个数、频次,计算社交消息的垃圾关键字得分;
步骤S2:从所述社交网络中取一定数量的社交消息作为训练样本,所述社交消息包括正常消息和垃圾消息,然后通过信息增益算法对各训练样本进行特征提取,得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素;
步骤S3:根据垃圾消息过滤规则集,计算各训练样本的垃圾关键字得分,得到各训练样本完整的特征向量;
步骤S4:将步骤S3得到的各训练样本的特征向量,输入支持向量机进行训练,得到垃圾消息过滤模型;
步骤S5:利用所述垃圾消息过滤模型对待测消息进行检测,判断待测消息是否为垃圾消息。
2.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,步骤S1中,所述社交消息的特征向量V1为:
V1=[转发数,评论数,赞数,URL链接数,图片数,话题数,的用户数,是否为原创消息,垃圾关键字得分]。
3.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法,其特征在于,步骤S1中,所述垃圾消息过滤规则集的建立方法如下:
步骤S101:从所述社交网络中获取一定数量的垃圾消息;
步骤S102:对每条垃圾消息进行中文分词,每条垃圾消息得到一个词语列表{key1, key2, …, keyi, …},keyi表示所述垃圾消息的第i个分词;
步骤S103:对每个词语列表采用信息增益算法计算信息增益值,每个词语列表得到一个键值对集合{key1:IG(key1), key2:IG(key2), …, keyi:IG(keyi), …},IG(keyi)表示第i个分词的信息增益值;
步骤S104:将不同的键值对集合进行合并,其中对不同键值对集合中均有出现的分词的信息增益值进行累加,作为合并后的键值对集合对应于该分词的信息增益值;
步骤S105:对于合并后的键值对集合,根据信息增益值从大到小对分词进行排序,取出前n个分词作为垃圾消息过滤规则集的垃圾关键字,分词的信息增益值作为垃圾关键字的分值,从而建立所述垃圾消息过滤规则集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332314.1A CN104063515A (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410332314.1A CN104063515A (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104063515A true CN104063515A (zh) | 2014-09-24 |
Family
ID=51551229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410332314.1A Pending CN104063515A (zh) | 2014-07-14 | 2014-07-14 | 一种基于机器学习的社交网络垃圾消息过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063515A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503075A (zh) * | 2016-09-30 | 2017-03-15 | 北京奇虎科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
CN110034998A (zh) * | 2017-11-07 | 2019-07-19 | 奥誓公司 | 控制电子消息及其在传递之后的响应的计算机系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101166159A (zh) * | 2006-10-18 | 2008-04-23 | 阿里巴巴公司 | 一种确定垃圾信息的方法及系统 |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN103198396A (zh) * | 2013-03-28 | 2013-07-10 | 南通大学 | 基于社会网络行为特征的邮件分类方法 |
-
2014
- 2014-07-14 CN CN201410332314.1A patent/CN104063515A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101166159A (zh) * | 2006-10-18 | 2008-04-23 | 阿里巴巴公司 | 一种确定垃圾信息的方法及系统 |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN102571484A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种检测网络水军以及找到网络水军的方法 |
CN103198396A (zh) * | 2013-03-28 | 2013-07-10 | 南通大学 | 基于社会网络行为特征的邮件分类方法 |
Non-Patent Citations (1)
Title |
---|
陈欣: "一种基于支持向量机的垃圾微博识别方法", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503075A (zh) * | 2016-09-30 | 2017-03-15 | 北京奇虎科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN106503075B (zh) * | 2016-09-30 | 2019-07-02 | 北京安云世纪科技有限公司 | 一种过滤垃圾消息的方法及系统 |
CN110034998A (zh) * | 2017-11-07 | 2019-07-19 | 奥誓公司 | 控制电子消息及其在传递之后的响应的计算机系统和方法 |
CN110034998B (zh) * | 2017-11-07 | 2021-08-20 | 威瑞森传媒公司 | 控制电子消息及其在传递之后的响应的计算机系统和方法 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
CN109889436B (zh) * | 2019-02-20 | 2020-10-13 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
Zhang et al. | Detecting spam and promoting campaigns in the twitter social network | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
US9213997B2 (en) | Method and system for social media burst classifications | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
CN106294590B (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
CN103458042B (zh) | 一种微博广告用户检测方法 | |
CN104090961A (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
CN103761239B (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN106296422A (zh) | 一种融合多算法的社交网络垃圾用户检测方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN104239539A (zh) | 一种基于多种信息融合的微博信息过滤方法 | |
Liu et al. | Detecting" smart" spammers on social network: A topic model approach | |
CN107291886A (zh) | 一种基于增量聚类算法的微博话题检测方法及系统 | |
CN103778260A (zh) | 一种个性化微博信息推荐系统和方法 | |
CN104156436A (zh) | 一种社交云媒体协同过滤推荐方法 | |
CN107609103A (zh) | 一种基于推特的事件检测方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN104317784A (zh) | 一种跨平台用户识别方法和系统 | |
CN109472027A (zh) | 一种基于博文相似性的社交机器人检测系统及方法 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN103150335A (zh) | 一种基于联合聚类的煤矿舆情监测系统 | |
CN104268130A (zh) | 一种面向Twitter的社交广告可投放性分析方法 | |
CN105224955A (zh) | 基于微博大数据获取网络服务状态的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140924 |