CN105893484A

CN105893484A - 一种基于文本特征和行为特征的微博Spammer识别方法

Info

Publication number: CN105893484A
Application number: CN201610187897.2A
Authority: CN
Inventors: 刘均; 占梦婷; 陈浩; 米建红; 吕彦章
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-24

Abstract

本发明公开了一种基于用户文本特征和行为特征的微博Spammer识别方法，属于计算机社交网络数据分析技术领域。该方法包括：(1)用户信息元数据获取，通过爬虫工具selenium获得相应的用户链接，在用户页面解析获取用户信息元数据；(2)多视图特征抽取，抽取文本特征与行为特征；(3)基于多视图分类的Spammer检测，在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在未带标签的数据集合上进行标注，得到Spammer识别结果。本发明能够基于多视图分类识别Spammer，解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷，为后续的社交网络挖掘提供良好的数据集。

Description

一种基于文本特征和行为特征的微博Spammer识别方法

技术领域

本发明属于计算机社交网络数据分析技术领域，具体涉及一种基于文本特征和行为特征的微博Spammer识别方法。

背景技术

随着互联网的发展和普及，Twitter、Facebook、新浪微博等这类通过关注机制分享简短实时信息的广播式的社交网络平台，已经拥有大量注册及参与用户，成为人们社交生活的一个重要参与平台。在线社交网络已经成为人们交友、获取和发布信息的一个重要途径。微博独具的信息多样化、表达自由化、裂变式传播速度等特性，同时也使其成为spammer活跃的主要平台。

在中国影响力最大的社交网络站点新浪微博中，含有大量Spammer用户，这些用户利用微博传播商业广告信息，推销传播自己的思想或恶意窃取他人账户隐私等，向正常用户传递垃圾信息，阻碍了真正有效信息的传播，造成人们无法从大量信息中迅速而准确地找到有用的信息。

Spammer的发帖行为和内容往往都带有某种目的，如有些Spammer出于商业利益重复发帖，这些原因使得Spammer与正常用户在文本和行为特征上存在区别。因而，我们需要通过抽取这些特征来进行Spammer的检测。

现有技术中，公开了一种识别微博异常用户的方法和系统[专利号:CN201310076056.0]；在该专利中，系统充分利用了用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征，生成行为时间特征向量和界定参数，将超出界定参数的待测用户判定为异常用户并对异常用户的内容进行关键词抽取和展示。该发明专利的方法主要解决了异常用户的判定方法，需要大量带标签数据且依赖用户行为数据的完整性，但是，其仍然无法识别与正常用户行为相似的Spammer，如有些Spammer发帖时间与正常用户一致，但其微博内容都是推销商品的，这类用户就无法通过该方法进行识别。

发明内容

本发明的目的在于提供一种基于文本特征和行为特征的微博Spammer识别方法，该方法能够基于多视图分类识别Spammer，为后续的社交网络挖掘提供良好的数据集。

本发明是通过以下技术方案来实现：

本发明公开了一种基于文本特征和行为特征的微博Spammer识别方法，包括以下步骤：

1)用户信息元数据获取，通过爬虫工具selenium获得相应的用户链接，在用户页面解析获取用户信息元数据；

2)多视图特征抽取，抽取文本特征和行为特征；

3)基于多视图分类的Spammer检测，在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在未带标签的数据集合上进行标注，得到Spammer识别结果。

本发明公开的基于文本特征和行为特征的微博Spammer识别方法方法，具体包括以下步骤：

1)获取用户信息元数据

在微博页面，通过爬虫工具获取所得帖子的链接并进行保存，从保存的帖子链接中逐一提取链接获得相应的用户链接，在用户页面解析获取用户信息元数据；

2)多视图特征抽取

抽取文本特征和行为特征；

其中，文本特征抽取包括：用户发帖中的帖子相似度f_sim、帖子为转发帖的比例f_re、帖子中包含话题标签的比例f_tag和帖子中包含URL的比例f_url；

行为特征抽取包括：用户等级f_class、关注数/粉丝数f_fof、帖子中包含@的比例f_at和午夜发帖比例f_midn；

3)基于多视图分类的Spammer检测

首先，将每个用户表示为(x,y)，其中x为属性集，y是该实例所代表的类型；

然后，定义实例空间X＝X₁∪X₂，其中X₁和X₂对应于观察实例的文本特征集和行为特征集，针对文本特征集x₁采用SVM作为分类器h₁，针对行为特征集x₂，采用C4.5作为分类器h₂；

再次，令带标签的数据构成实例集合L，令未带标签的数据构成实例集合U；在L上根据多视图特征分别同步训练两个分类器，并使用训练所得分类器在U上进行标注；

最后，将U中一致性高的实例加入L并从U中删除，重复此过程直至U为空，得到Spammer识别结果。

步骤1)所述的获取用户信息元数据的具体操作为：

第一步，通过爬虫工具selenium启动IE9浏览器，进入微博页面；

第二步，通过selenium的变量current_url获取所得帖子的链接urlp并保存；

第三步，从保存的帖子链接中逐一提取链接获得相应的用户链接，在用户页面中用Beautifulsoup解析出用户信息字段，包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数，并存储在数据库的相应表中；

第四步，通过发帖人user_id，得到粉丝链接和关注列表链接，爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。

第四步中，该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。

步骤2)中，文本特征的抽取具体操作为：

用户发帖中的帖子相似度f_sim：采用字符串匹配来统计该用户发帖中每种帖子重复的次数r_i,计算公式如下所示：

f_sim＝max(r₁,r₂,...)；

帖子为转发帖的比例f_re:统计该用户所发的所有帖子中为转发帖的比例，计算公式如下所示，其中N_re表示转发帖子的总数，N表示该用户的总发贴数：

f_{r e} = \frac{N_{r e}}{N};

帖子中包含话题标签的比例f_tag：统计该用户所发的所有帖子中包含话题标签“##”帖子的比例，计算公式如下所示，其中N_tag表示包含话题标签的帖子的总数：

f_{t a g} = \frac{N_{t a g}}{N};

帖子中包含URL的比例f_url：统计该用户所发的所有帖子中包含URL帖子的比例，计算公式如下所示，其中N_url表示包含URL的帖子的总数：

f_{u r l} = \frac{N_{u r l}}{N} .

步骤2)中，行为特征的抽取具体操作为：

用户等级f_class：直接从用户元数据中获取；

关注数/粉丝数f_fof：直接从用户元数据中获取该用户的关注数N_followee、粉丝数N_follower，计算公式如下所示：

f_{f o f} = \frac{N_{f o l l o w e e}}{N_{f o l l o w e r}};

帖子中包含@的比例f_at：统计用户所发的所有帖子中为包含“@”的帖子的比例，计算公式如下所示，其中N_at表示包含“@”的帖子的总数：

f_{a t} = \frac{N_{a t}}{N};

午夜发帖比例f_midn：统计用户在午夜，24:00～6:00时间段内发帖数占总发帖数的比例，计算公式如下所示，其中N_midn表示午夜发帖总数：

f_{m i d n} = \frac{N_{m i d n}}{N} .

步骤3)所述基于多视图分类的Spammer检测的具体操作如下：

第一步，将每个用户表示为(x,y)，其中x为属性集，y是该实例所代表的类型；输出是一个函数h:X×Y→[0,1]，h(x,y)是一个条件概率p(x|y)的估计值；定义实例空间X＝X₁∪X₂，X₁和X₂对应于观察实例的两个不同“视图”，即文本特征和行为特征；f代表在所有实例上的组合目标概念，对于任何观测到标记为1的实例，都有f(X)＝f(X₁)＝f(X₂)＝1；设n个实例中前m个有标签y_i，而i＝m+1…n的实例未带标签；找出函数f，满足f(x_1i,x_2i)＝y_i，满足：

当i＝1…m时，f₁(x₁,i)＝f₂(x₂,i)＝y_i；

当i＝m+1…n时，f₁(x₁,i)＝f₂(x₂,i)；

令带标签的数据构成实例集合L，未带标签的数据构成实例集合U；

第二步，从U中随机选择u个实例构成集合U’；

第三步，使用L训练只考虑x的x₁部分的分类器h₁；使用L训练只考虑x的x₂部分的分类器h₂，其中针对文本特征x₁，采用SVM作为分类器h₁，针对行为特征x₂，采用C4.5作为分类器h₂；

第四步，用h₁来标注U’得到p₁个正例和n₁个反例；用h₂来标注U’得到p₂个正例和n₂个反例；

第五步，选取p₁,p₂和n₁，n₂中一致性高的实例作为正确分类的带标签实例加入L并从U’中删除；

第六步，若U和U’不收敛，转至第三步继续执行；反之，Spammer识别结束。

与现有技术相比，本发明具有以下有益的技术效果：

本发明公开的基于用户文本特征和行为特征的微博Spammer识别方法，首先，通过抽取用户的文本特征和行为特征，考虑了用户的行为和发帖内容两方面信息。同时，采用多视图分类器进行识别，使用少量的带标签数据进行训练，将测试结果正确的可能性较大的未带标签用户加入带标签数据集中再次进行训练，直至结果收敛，解决了带标签微博用户数据集量少、获得困难、人工标记成本较大的问题。与现有相关方法的显著效果是：可以完成基于文本特征和行为特征对微博Spammer的识别，并且不需要大量带标签用户数据。本发明方法能够基于多视图分类识别Spammer，为后续的社交网络挖掘提供良好的数据集。

附图说明

图1为基于文本语义和行为特征的微博Spammer识别的流程示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

新浪微博上基于用户文本特征和行为特征的微博Spammer识别方法的实现过程如图1所示，可以分为如下3个过程：

(1)用户信息元数据获取，包括4个步骤。

第1步：通过爬虫工具selenium启动IE9浏览器，进入新浪微博页面http://s.weibo.com/，选择“综合”搜索查询接口；

第2步：根据搜索结果显示的帖子列表，通过selenium的变量current_url获取所得帖子的链接urlp并保存；

第3步：从保存的帖子链接中逐一提取链接获得相应的用户链接，在用户页面中用Beautifulsoup解析出用户信息字段，包括用户id、用户名、关注数、粉丝数，利用Beautifulsoup定位标签<div class＝"WB_cardwrap S_bg2">，解析出该用户所发的帖子，针对每个帖子解析出所需字段，包括“帖子id(post_id)、帖子内容、发帖时间、评论数、转发数”，存储在数据库的相应表中；

第4步：通过发帖人的user_id，得到好友关系(粉丝和关注列表)链接，爬取该用户的关注和粉丝用户相应数据(用户信息、用户所发帖子信息)存储在数据库的相应表中。

这些步骤的流程如图1用户元数据获取所示。

(2)用户多视图特征抽取，包括2个步骤。

第1步：在文本特征上抽取的特征为：用户发帖中的帖子相似度、帖子为转发帖的比例、帖子中包含话题标签的比例和帖子中包含URL的比例。文本特征的抽取方法如下所示：

帖子相似度(f_sim)：采用字符串匹配来统计该用户发帖中每种帖子的相似度，对每条发帖，其帖子相似度为其所有发帖中的最大重复次数r_i,计算公式如下所示：

f_sim＝max(r₁,r₂,...)

帖子为转发帖的比例(f_re):统计该用户所发的所有帖子中为转发帖的比例，计算公式如下所示，其中N_re表示转发帖子的总数，N表示该用户的总发贴数：

f_{r e} = \frac{N_{r e}}{N}

帖子中包含话题标签的比例(f_tag)：统计该用户所发的所有帖子中包含话题标签(“##”)帖子的比例，话题”是一类特殊的微博，里面必须包含将关键字放在两个“#”号之间的一段形式，后面再加上自己想写的内容，例用户可以通过点击“#...#”里的文字看到所有谈论过这个话题的微博。计算公式如下所示，其中N_tag表示包含话题标签的帖子的总数：

f_{t a g} = \frac{N_{t a g}}{N}

帖子中包含URL的比例(f_url)：统计该用户所发的所有帖子中包含URL帖子的比例，计算公式如下所示，其中N_url表示包含URL的帖子的总数：

f_{u r l} = \frac{N_{u r l}}{N}

第2步：在行为特征上抽取的特征为：用户等级、关注数/粉丝数、帖子中包含@的比例和午夜发帖比例，抽取方法如下所示。

用户等级(f_class)：直接从用户元数据中获取。

关注数/粉丝数(f_fof)：直接从用户元数据中获取该用户的关注数N_followee、粉丝数N_follower，计算公式如下所示：

f_{f o f} = \frac{N_{f o l l o w e e}}{N_{f o l l o w e r}}

帖子中包含@的比例(f_at)：统计用户所发的所有帖子中为包含“@”的帖子的比例，微博中存在一个用户交互的功能@，在微博中的意思是“向某某人说”，这一功能的使用户之间的交流有了更强的针对性。微博中包含“@昵称”的时，用户名为该昵称的用户就能看到这条微博；用户可以通过微博中“@昵称”的信息，直接点击昵称进入到这个用户的个人页面；用户可以在“我的首页”右侧中“提到我的微博”中查看所有@此用户的微博；计算公式如下所示，其中N_at表示包含“@”的帖子的总数：

f_{a t} = \frac{N_{a t}}{N}

午夜发帖比例(f_midn)：统计用户在午夜(24:00～6:00)时间段内发帖数占总发帖数的比例，计算公式如下所示，其中N_midn表示午夜发帖总数：

f_{m i d n} = \frac{N_{m i d n}}{N}

这些步骤的流程如图1多视图特征抽取所示。

(3)基于多视图分类的Spammer检测的方法，包括6个步骤。

第1步：将每个用户表示为(x,y)，其中x为属性集，y是该实例所代表的类型。输出是一个函数h:X×Y→[0,1]，h(x,y)是一个条件概率p(x|y)的估计值。定义实例空间X＝X₁∪X₂，其中X₁和X₂对应于观察实例的两个不同“角度”(文本特征和行为特征)，f代表在所有实例上的组合目标概念，对于任何观测到标记为1的实例，都有f(X)＝f(X₁)＝f(X₂)＝1。设n个实例中前m个有标签y_i，而i＝m+1…n的实例未带标签。学习的任务是找出函数f，满足f(x_1i,x_2i)＝y_i，满足：

当i＝1…m时，f₁(x₁,i)＝f₂(x₂,i)＝y_i；

当i＝m+1…n时，f₁(x₁,i)＝f₂(x₂,i)；

将带标签的数据构成实例集合L，未带标签的数据构成实例集合U；

第2步：从U中随机选择u个实例构成集合U’；

第3步：使用L训练只考虑x的x₁部分的分类器h₁；使用L训练只考虑x的x₂部分的分类器h₂，其中针对文本特征(x₁)采用SVM作为分类器(h₁)，针对行为特征(x₂)采用C4.5作为分类器(h₂)；

第4步：用h₁来标注U’得到p₁个正例和n₁个反例；用h₂来标注U’得到p₂个正例和n₂个反例；

第5步：选取p₁,p₂和n₁，n₂中一致性较高的实例作为正确分类的带标签实例加入L并从U’中删除；

第6步：若U和U’不收敛，转至第3步继续执行；反之，Spammer检测结束。

上述有关本方法的内容的叙述也给出了一个本方法的实例，但本方法不局限与这一实例和附图所公开的内容，凡是未脱离本方法的精神所完成的等效或修改，都落入本方法保护的范围。

Claims

1.一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，包括以下步骤：

2)多视图特征抽取，抽取文本特征和行为特征；

2.根据权利要求1所述的基于文本特征和行为特征的微博Spammer识别方法，其特征在于，包括以下步骤：

1)获取用户信息元数据

2)多视图特征抽取

抽取文本特征和行为特征；

3)基于多视图分类的Spammer检测

3.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤1)所述的获取用户信息元数据的具体操作为：

4.根据权利要求3所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，第四步中，该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。

5.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤2)中，文本特征的抽取具体操作为：

f_sim＝max(r₁,r₂,...)；

f_{r e} = \frac{N_{r e}}{N};

f_{t a g} = \frac{N_{t a g}}{N};

f_{u r l} = \frac{N_{u r l}}{N} .

6.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤2)中，行为特征的抽取具体操作为：

用户等级f_class：直接从用户元数据中获取；

f_{f o f} = \frac{N_{f o l l o w e e}}{N_{f o l l o w e r}};

f_{a t} = \frac{N_{a t}}{N};

f_{m i d n} = \frac{N_{m i d n}}{N} .

7.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法，其特征在于，步骤3)所述基于多视图分类的Spammer检测的具体操作如下：

当i＝1…m时，f₁(x₁,i)＝f₂(x₂,i)＝y_i；

当i＝m+1…n时，f₁(x₁,i)＝f₂(x₂,i)；

第二步，从U中随机选择u个实例构成集合U’；