CN104063515A

CN104063515A - 一种基于机器学习的社交网络垃圾消息过滤方法

Info

Publication number: CN104063515A
Application number: CN201410332314.1A
Authority: CN
Inventors: 郑相涵; 陈国龙; 曾志鹏
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2014-09-24

Abstract

本发明涉及一种基于机器学习的社交网络垃圾消息过滤方法，包括以下步骤：1、针对一社交网络，定义需要从社交网络的社交消息中提取的特征向量，构建一垃圾消息过滤规则集；2、从社交网络中取一定数量的社交消息作为训练样本，然后通过信息增益算法对各训练样本进行特征提取，得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素；3、根据垃圾消息过滤规则集，计算各训练样本的垃圾关键字得分，得到各训练样本完整的特征向量；4、将各训练样本的特征向量，输入支持向量机进行训练，得到垃圾消息过滤模型；5、利用垃圾消息过滤模型对待测消息进行检测，判断待测消息是否为垃圾消息。该方法有利于准确提取、过滤社交网络中的垃圾消息。

Description

一种基于机器学习的社交网络垃圾消息过滤方法

技术领域

本发明涉及网络垃圾过滤技术领域，特别是一种基于机器学习的社交网络垃圾消息过滤方法。

背景技术

在线社交网络平台如Facebook、Twitter、新浪微博等都是Web2.0最受欢迎的应用程序。数以百万的用户活跃在社交网络中（好友互动，阅读新闻等），并且用户的规模正在逐年增加。社交网站在用户规模扩大的同时，也吸引了大量的垃圾消息（Spam）和垃圾用户（Spammer），Spammer在社交平台上散布广告、色情、暴力、恐怖等活动，给正常用户的社交带来严重的影响。

有研究表明：发布在Twitter上的20万条URL中有8%是钓鱼或者色情链接，而由于社交网络中大量用户的存在，每条URL被点击的概率为0.13%，这个比例远远高于垃圾邮件中URL被点击的概率，因此，在社交网站中，用户更容易受到钓鱼网站的攻击。

传统的基于内容的垃圾邮件过滤是指通过对邮件内容进行分析来判定邮件是否属于垃圾邮件。由于垃圾邮件和正常邮件的内容风格迥异，因此可以利用机器学习算法对垃圾邮件和正常邮件的内容进行训练，利用训练好的模型进行预测。但是，在社交网络（例如新浪微博、Twitter等）中，由于用户发布的消息受到字数（例如140）的限制，垃圾消息和正常消息在内容上并没有太大区别，因此，传统的基于内容的过滤算法不再适用于社交网络Spam过滤。

发明内容

本发明的目的在于提供一种基于机器学习的社交网络垃圾消息过滤方法，该方法有利于准确提取、过滤社交网络中的垃圾消息。

本发明采用的技术方案是：一种基于机器学习的社交网络垃圾消息过滤方法，包括以下步骤：

步骤S1：针对一社交网络，定义需要从所述社交网络的社交消息中提取的特征向量，构建一垃圾消息过滤规则集；所述垃圾消息过滤规则集中定义有多个垃圾关键字，各垃圾关键字对应有一分值，从而可根据社交消息中出现垃圾关键字的个数、频次，计算社交消息的垃圾关键字得分；

步骤S2：从所述社交网络中取一定数量的社交消息作为训练样本，所述社交消息包括正常消息和垃圾消息，然后通过信息增益算法对各训练样本进行特征提取，得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素；

步骤S3：根据垃圾消息过滤规则集，计算各训练样本的垃圾关键字得分，得到各训练样本完整的特征向量；

步骤S4：将步骤S3得到的各训练样本的特征向量，输入支持向量机进行训练，得到垃圾消息过滤模型；

步骤S5：利用所述垃圾消息过滤模型对待测消息进行检测，判断待测消息是否为垃圾消息。

进一步的，步骤S1中，所述社交消息的特征向量V1为：

V1=[转发数，评论数，赞数，URL链接数，图片数，话题数，的用户数，是否为原创消息，垃圾关键字得分]。

进一步的，步骤S1中，所述垃圾消息过滤规则集的建立方法如下：

步骤S101：从所述社交网络中获取一定数量的垃圾消息；

步骤S102：对每条垃圾消息进行中文分词，每条垃圾消息得到一个词语列表{key₁, key₂, …, key_i, …}，key_i表示所述垃圾消息的第i个分词；

步骤S103：对每个词语列表采用信息增益算法计算信息增益值，每个词语列表得到一个键值对集合{key₁:IG(key₁), key₂:IG(key₂), …, key_i:IG(key_i), …}，IG(key_i)表示第i个分词的信息增益值；

步骤S104：将不同的键值对集合进行合并，其中对不同键值对集合中均有出现的分词的信息增益值进行累加，作为合并后的键值对集合对应于该分词的信息增益值；

步骤S105：对于合并后的键值对集合，根据信息增益值从大到小对分词进行排序，取出前n个分词作为垃圾消息过滤规则集的垃圾关键字，分词的信息增益值作为垃圾关键字的分值，从而建立所述垃圾消息过滤规则集。

本发明的有益效果是将机器学习算法和社交元素相结合，提出了一种基于机器学习的社交网络垃圾消息过滤方法，该方法适用于社交网络Spam过滤，能够准确提取、过滤社交网络中的垃圾消息，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中建立垃圾消息过滤规则集的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明将机器学习算法和社交元素相结合，通过社交元素自身特征而不是内容来提取社交网络垃圾消息。在社交网络中，垃圾消息（Spam）通常以URL链接和图片来散布广告，但是由于这些消息很少获得正常用户的关注，因此它们具有较少的转发数、评论数和赞的数。通过提取这些社交元素特征，运用于过滤社交网络Spam。

本发明基于机器学习的社交网络垃圾消息过滤方法，如图1所示，包括以下步骤：

步骤S1：针对一社交网络（如微博、Twitter等），定义需要从所述社交网络的社交消息中提取的特征向量，构建一垃圾消息过滤规则集；所述垃圾消息过滤规则集中定义有多个垃圾关键字，各垃圾关键字对应有一分值，从而可根据社交消息中出现垃圾关键字的个数、频次，计算社交消息的垃圾关键字得分。

所述社交消息的特征向量V1为：

图2是本发明实施例中建立垃圾消息过滤规则集的流程图。如图2所示，所述垃圾消息过滤规则集的建立方法如下：

步骤S101：从所述社交网络中获取一定数量（如10万条）的垃圾消息。

步骤S102：对每条垃圾消息进行中文分词，每条垃圾消息得到一个词语列表{key₁, key₂, …, key_i, …}，key_i表示所述垃圾消息的第i个分词。

步骤S103：对每个词语列表采用信息增益算法计算信息增益值，每个词语列表得到一个键值对集合{key₁:IG(key₁), key₂:IG(key₂), …, key_i:IG(key_i), …}，IG(key_i)表示第i个分词的信息增益（IG，Info Gain）值。所述信息增益算法为：

上式中，表示t不出现的概率，表示t出现的情况下文本属于分类的概率，表示t不出现的情况下文本属于分类的概率。因此，IG的值反映了特征在各分类的分布状况。

步骤S104：将不同的键值对集合进行合并，其中对不同键值对集合中均有出现的分词的信息增益值进行累加，作为合并后的键值对集合对应于该分词的信息增益值。

步骤S105：对于合并后的键值对集合，根据信息增益值从大到小对分词进行排序，取出前n个（如前5000个）分词作为垃圾消息过滤规则集的垃圾关键字，分词的信息增益值作为垃圾关键字的分值，从而建立所述垃圾消息过滤规则集。

步骤S2：从所述社交网络中取一定数量的社交消息作为训练样本，所述社交消息包括正常消息和垃圾消息，然后通过信息增益算法对各训练样本进行特征提取，得到各训练样本的特征向量中除垃圾关键字得分之外的所有元素。

步骤S3：根据垃圾消息过滤规则集，计算各训练样本的垃圾关键字得分，得到各训练样本完整的特征向量。

步骤S4：将步骤S3得到的各训练样本的特征向量，输入支持向量机进行训练，得到垃圾消息过滤模型。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于机器学习的社交网络垃圾消息过滤方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法，其特征在于，步骤S1中，所述社交消息的特征向量V1为：

3.根据权利要求1所述的一种基于机器学习的社交网络垃圾消息过滤方法，其特征在于，步骤S1中，所述垃圾消息过滤规则集的建立方法如下：

步骤S101：从所述社交网络中获取一定数量的垃圾消息；