CN106296422A

CN106296422A - 一种融合多算法的社交网络垃圾用户检测方法

Info

Publication number: CN106296422A
Application number: CN201610615016.2A
Authority: CN
Inventors: 徐光侠; 齐锦; 赵竞腾; 刘宴兵; 常光辉; 高郭威; 宋洋洋; 唐志京; 吴新凯
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2017-01-04

Abstract

本发明公开了一种融合多算法的社交网络垃圾用户检测方法，利用网络爬虫的方式从社交网络中爬取用户数据，通过分析用户的行为提取相应特征构成特征向量；接着使用K‑均值(K‑Means)和DBSCAN结合的聚类算法对社交网络中的用户进行聚类；从上一步的聚类结果中挑选簇边界附近的数据和聚类中心附近的数据训练支持向量机(SVM)分类器，得到分类器模型；最后采用训练得到的SVM分类器模型对社交网络中的垃圾用户进行检测。本发明降低了人工标注数据的成本、提高了检测的准确率，并且易于实现。

Description

一种融合多算法的社交网络垃圾用户检测方法

技术领域

本发明涉及社交网络安全领域，涉及利用机器学习算法对社交网络中的垃圾用户进行分析处理，具体涉及一种融合多算法的社交网络垃圾用户检测方法。

背景技术

社交网络(Social Network)也称为社交网络服务(Social Network Service，SNS)、社会媒体网(Social Media Networks,SMN)或社交网站(Social Network Sites,SNS)，是指拥有共同兴趣、行为、背景的人们建立社交关系的网络平台。伴随着互联网产业链条的飞速发展，互联网的产业结构以及用户行为习惯也发生了一定的变化，社交网络正引领着互联网产业新的增长势头。国外主流的社交网络平台Twitter、Facebook，国内的新浪微博、腾讯微博、人人网等社交平台的用户增长率接连翻倍。从全球权威的网站排名机构Alexa公布的网站排名结果来看，在排名前20的网站中提供社交网络服务的网站约占80％。由此可见，社交网络己经成为人们生活、工作、交流的重要平台。

社交网络在给人们提供便利沟通的同时，也吸引了大量的恶意用户通过创建虚假账户或盗用正常用户的账户，在社交网站上发布广告、色情、钓鱼网站、虚假新闻等垃圾信息。我们将拥有以下几种行为的用户定义为垃圾用户:

(1)发布广告、虚假新闻、色情信息；

(2)发布指向钓鱼页面、恶意软件、色情页面的URL链接；

(3)反复发布内容相同或相似的消息；

(4)所有对其他用户的骚扰行为(例如频繁的@提醒、私信等)；

(5)恶意添加好友、点赞、投票等。

垃圾用户在社交网络中发布的大量的垃圾信息影响了用户正常的信息获取，严重威胁了正常用户的隐私信息和账户安全，影响了用户体验度。同时，这些垃圾信息造成了网络资源的严重耗费，干扰了社交网络中的数据挖掘和分析工作，增加了社交网络的运营负担。此外，还有一些垃圾用户通过利用恶意点赞、评论、投票、转发等行为进行营销推广来获取利益，严重危害了社交网络的信誉评价体系以及用户的信任关系。

目前，已提出的垃圾用户检测方法通常利用特征分析和机器学习中的监督学习或无监督学习算法进行检测。利用监督学习算法进行检测需要构建有标注的数据来训练分类器，并且标注数据的构建往往依赖于昂贵的人为检查。然而，由于垃圾用户会通过不断的调整和改变策略绕过当前的系统检测，导致构建的垃圾标签库失效，从而致使垃圾用户检测陷入循环构建标注训练数据和分类器的问题中，耗费大量的人工成本和训练成本。利用无监督学习算法进行检测虽然不需要提前标注数据来训练分类器，但是检测的准确率相对较低。在传统检测方法的基础上，本发明提出一种融合多种机器学习算法的多层次垃圾用户检测方法，能够在降低成本的同时具有较高的准确率。

发明内容

为了克服现有技术中存在的缺陷，本发明的目的是提供一种确保准确率的同时，降低人工成本和训练成本的垃圾用户检测方法。该方法通过分析社交网络中垃圾用户的行为选出合适的社交网络用户特征，采用聚类算法对社交网络用户数据进行处理，再从聚类结果中提取数据训练分类器，进一步提高检测的准确率。

为了实现上述目的本发明采用如下技术方案：一种融合多算法的社交网络垃圾用户检测方法，包括以下步骤：

S1：采用网络爬虫的方式采集社交网络用户数据，包过用户个人信息和用户发布的消息内容，并将用户数据存储到数据库中。

S2：取出数据库中的用户数据，通过分析用户的行为，计算用户的统计特征，并通过绘制累计分布函数(Cumulative Distribution Function,CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V；n个用户的特征向量构成原始数据集D＝{V₁,V₂,…,V_n}。

S3：对于原始数据集D，采用机械抽样的方法进行抽样，获得子数据集D_s；

S4：在子数据集D_s上执行DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)算法进行聚类，得到簇的数目K和初始簇心m₁,m₂,…,m_k，其中k表示簇的标号；

S5：利用步骤S4得到的簇的数目K和初始簇心m₁,m₂,…,m_k，对原始数据集D执行K-Means算法，并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇，得到聚类结果；

S6：利用S5的聚类结果，筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集，并采用支持向量机(Support Vector Machines,SVM)分类算法训练分类器；

S7：利用S6得到的SVM分类器对社交网络中的用户进行检测，判断待测用户是否为垃圾用户。

在以上技术方案中，步骤中S2中所述用户特征组成特征向量V为：

V＝[注册天数，关注数，粉丝数，消息数，双向关注数，关注数/粉丝数，日发消息数，原创消息比例，消息URL的平均数，消息中含“#”的平均数，消息中“@用户”的平均数，消息中所含图片的平均数，消息获得评论的平均数，消息平均被赞次数，消息获得转发的平均数，用户消息内容相似度的平均值]。

更进一步，所述用户消息内容相似度的平均值的计算步骤包括：

(1)剔除用户消息内容文本中的URL、“@”、“#”和表情，删掉停用词得到纯文本，并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model)。

(2)计算每个特征词的词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)值得到其在文本中所占的权重值。

(3)通过余弦公式计算得到用户任意两条消息的相似度，其中分别表示消息a和消息b的特征词向量，S(a,b)表示消息a和消息b的相似度；

(4)通过公式计算用户消息内容相似度的平均值，其中T表示某一用户消息对的集合，N表示某一用户消息对集合的数目。

上述步骤(2)中计算每个特征词的TF-IDF值的方法为：任取某一特征词W，统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN，以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数，IDF表示特征词W在用户所发的所有消息中的逆词频数，通过计算该特征词W的TF值，通过计算该特征词W的IDF值，最后通过TF-IDF＝TF·IDF计算该特征词W的TF-IDF值。

本发明提出了一种融合多算法的社交网络垃圾用户检测方法，该方法首先采用DBSCAN和K-均值(K-Means)结合的聚类算法对社交网络中的用户进行聚类，避免了耗费大量的人工成本来标注数据；然后从聚类得到的结果中筛选部分垃圾用户和正常用户的数据，降低SVM分类算法在大数据环境下的训练代价；最后采用训练得到的SVM分类器对社交网络中的垃圾用户进行检测，进一步提高检测的准确率。

附图说明

图1是本发明的整体流程结构示意图；

图2是本发明的获取社交网络用户数据的流程示意图；

图3是本发明的融合聚类和分类的检测算法的流程示意图；

图4是本发明的计算用户消息内容相似度的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

图1是本发明的整体流程结构示意图。包括：首先采用网络爬虫的方式从社交网络中采集用户数据，从社交网络用户中提取特征构成特征向量；然后采用K-Means和DBSCAN结合的聚类算法对社交网络的用户进行聚类；由于仅仅采用无监督的聚类算法对垃圾用户进行检测准确率较低，本发明从聚类的结果中挑选簇边界附近的数据和聚类中心附近的数据训练SVM分类器，得到分类器模型；最后采用训练得到的分类器模型对社交网络中的垃圾用户进行检测。

图2是本发明的获取社交网络数据的流程示意图。由于目前国内社交网络平台API开放并不十分完善，功能不能达到实际要求，因此采用网络爬虫的方式获取社交网络用户数据。爬虫策略采用以自身账户为中心的广度优先。首先，采用模拟浏览器技术，进行社交网络模拟登陆，若登陆成功则对页面进行解析，采用正则表达式匹配字符串的方法获取用户自身ID等所需数据信息，同时将自身ID入队。接着判断如果队列不为空或者爬到的用户数量不满足要求，则将对头ID出队，爬取该用户的数据并计算其统计特征(如用户关注数和粉丝数的比例、日发消息数、原创消息的比例等)，将得到的数据存储到数据库中并将该用户关注者ID入队。重复上一步骤，直到队列为空或者爬到的用户数量满足要求。

图3是本发明的融合聚类和分类的检测算法的流程示意图。具体步骤如下：

S1：取出数据库中爬到的社交网络用户数据，通过分析用户的行为，计算用户的统计特征；然后绘制CDF曲线选取对垃圾用户和正常用户区别度高的用户特征组成特征向量V；n个用户的特征向量构成原始数据集D＝{V₁,V₂,…,V_n}；

S2：采用机械抽样的方法对于原始数据集D进行抽样，获得子数据集D_s；

S3：在子数据集D_s上执行DBSCAN聚类算法，得到簇的数目K和初始簇心m₁,m₂,…,m_k；

S4：利用步骤S3得到的簇的数目K和初始簇心m₁,m₂,…,m_k，对原始数据集D执行K-Means算法得到聚类结果，并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇；

S5：利用S4的聚类结果，筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集，并采用SVM分类算法训练分类器；

S6：利用S5中得到的SVM分类器模型对社交网络中的用户进行检测，判断待测用户是否为垃圾用户。

图4是本发明的计算用户消息内容相似度的流程示意图。首先将社交网络用户发布的消息文本转换为由特征词构成的空间向量模型，接着计算每个特征词的TF-IDF值得到用户消息的TF-IDF向量列表，结合余弦定理计算用户任意两条消息之间的相似度，最后求得用户消息内容相似度的平均值。具体步骤如下：

S21：剔除用户消息内容文本中的URL、“@”、“#”和表情，删掉停用词得到纯文本，并用分词器将纯文本转化为由特征词集合构成的向量空间模型(Vector Space Model)；

S22：通过计算每个特征词的TF-IDF值得到其在文本中所占的权重值；

S23：通过余弦公式计算得到用户任意两条消息的相似度，其中分别表示消息a和消息b的特征词向量，S(a,b)表示消息a和消息b的相似度；

S24：通过公式计算用户消息内容相似度的平均值，其中T表示消息对的集合，N表示消息对集合的数目。

本发明中，所述的计算特征词的TF-IDF值的方法为：任取某一特征词W，统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN，以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN。TF表示特征词W在某条消息中出现的词频数，IDF表示特征词W在用户所发的所有消息中的逆词频数，通过计算该特征词W的TF值，通过计算该特征词W的IDF值，最后通过TF-IDF＝TF·IDF计算该特征词W的TF-IDF值。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种融合多算法的社交网络垃圾用户检测方法，其特征在于，包括以下步骤：

S1：采用网络爬虫的方式采集社交网络用户数据，包过用户个人信息和用户发布的消息内容，并将用户数据存储到数据库中；

S2：取出数据库中的用户数据，通过分析用户的行为，计算用户的统计特征，并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V；n个用户的特征向量构成原始数据集D＝{V₁,V₂,…,V_n}；

S4：在子数据集D_s上执行DBSCAN算法进行聚类，得到簇的数目K和初始簇心m₁,m₂,…,m_k，其中k表示簇的标号；

S6：利用S5的聚类结果，筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集，并采用SVM分类算法训练分类器；

2.根据权利要求1所述一种融合多算法的社交网络垃圾用户检测方法，其特征在于：步骤中S2中所述用户特征组成特征向量V为：

3.根据权利要求2一种融合多算法的社交网络垃圾用户检测方法，其特征在于：所述用户消息内容相似度的平均值的计算步骤包括：

(1)剔除用户消息内容文本中的URL、“@”、“#”和表情，删掉停用词得到纯文本，并用分词器将纯文本转化为由特征词集合构成的向量空间模型；

(2)计算每个特征词的词频-逆文档频率(TF-IDF)值得到其在文本中所占的权重值；

4.根据权利要求3一种融合多算法的社交网络垃圾用户检测方法，其特征在于：所述计算每个特征词的TF-IDF值的方法为：任取某一特征词W，统计其在该条消息中出现的次数TFN与该条消息特征词的总数TSN，以及用户发布的所有的消息数目MN与含有该特征词W的消息数目IDFN，TF表示特征词W在某条消息中词频数，IDF表示特征词W在用户所发的所有消息中的逆词频数，通过计算该特征词W的TF值，通过计算该特征词W的IDF值，最后通过TF-IDF＝TF·IDF计算该特征词W的TF-IDF值。