CN103458042B

CN103458042B - 一种微博广告用户检测方法

Info

Publication number: CN103458042B
Application number: CN201310410578.XA
Authority: CN
Inventors: 邹福泰; 姚雨石; 吴嘉玮; 王佳慧
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2016-06-01
Anticipated expiration: 2033-09-10
Also published as: CN103458042A

Abstract

本发明公开了一种微博广告用户检测方法，包括：收集用户信息，为每个用户添加分类标识；对获得的用户信息进行特征抽取，基于数据挖掘方法得到广告用户和普通用户的内容和行为的特征属性集；根据具有分类标识的特征属性集进行模型训练，得到广告用户判别模型。本发明通过对微博用户各个特征的全面分析，训练出来的判别模型的准确度和回归度较高，综合性能较好，解决了新浪自带的检测工具对广告用户十分不灵敏的缺陷。

Description

一种微博广告用户检测方法

技术领域

本发明涉及社交网络安全领域，特别是涉及一种微博广告用户检测的方法。

背景技术

在中国，在线社交网络已经成为一个主要的平台，人们在网络上搜集信息，结交志同道合的人。新浪微博被称为“Twitter”，因为它类似于Twitter。然而，从用户使用习惯和不同的文化的角度来看，我们所说的微博和Twitter是不同的。根据惠普实验室的研究，人们在微博上更喜欢转发信息而不是发表原创的微博，只要分享的有价值，人们在微博上会很热心帮助转发。此外，两者在用户体验方面也不同。在Twitter，人们只能分享文本信息，但在新浪人们也能分享照片，视频和音频。此外，新浪微博也允许用户跟帖评论微博内容并在同一时间转发，这在Twitter是不可行的。由于微博和Twitter的巨大差异，所采用的检测广告用户的方法也有所不同。因此，研究新浪微博的广告用户监测机制是很有意义的探索。

有许多人研究西方社交网站，然而，对中国社交网络的研究却是一片空白。无论在新浪还是Twitter广告用户都十分猖獗，原因是多方面的，一方面，微博用户数量之庞大使得新浪微博成为广告用户的目标。统计显示，人们往往在社交网站花费更多的时间，并且大多数的社交网站提供移动平台来让人们保持在线另一方面，在新浪微博散布广告消息是十分方便的。社交网络像提供给广告用户一个便利的平台来达到自己的目的。微博用户可以发布有趣的新闻故事或发布链接到他最喜欢的网站。所以广告用户经常利用这个功能创建欺诈帐户和发布链接，诱使用户点击网站。因为微博对所有统一资源定位符(UniformResourceLocato，URL)转换为短连接——这就有可能会误导用户，如果短链接是恶意网站的网址重定向，那么其危险性就不言而喻了。另一方面，为了增加广告微博出现在搜索结果中的持续时间，广告用户经常添加无关的话热门话题或流行词。这种行为可以被广告用户用来大肆宣传自己的网站，目前，许多用户深受广告用户的骚扰，同时广告用户还降低社交网络实时搜索引擎的效率。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种微博广告用户检测方法，准确、快速、高效地识别出微博中存在的广告用户，减轻用户所受骚扰，提高社交网络实时搜索引擎的效率。

本发明解决上述技术问题的技术方案如下：一种微博广告用户检测方法，包括以下步骤：

步骤1收集微博用户数据，并进行人工类别标识；

步骤2对所述步骤1中的所述用户进行特征抽取，并选取出特征属性集；

步骤3根据步骤1标识好的用户类别以及步骤2抽取的特征属性集，利用数据挖掘分类算法进行模型训练，得到用户判别模型；

步骤4利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测。

进一步地，所述步骤1具体步骤如下：

步骤1-1通过新浪API收集一个用户的数据，获得所述一个用户的粉丝和关注者，并加入他们的账户到用户列表，从用户列表中选择下一个用户的账户，并将所述一个用户的粉丝和关注者的账户加入到用户列表，得到所述用户的社交图；

步骤1-2根据所述一个用户的社交图获取图中每一用户对应的用户数据，即通过新浪API访问所述用户微博主页，获取所述用户的用户数据，包括用户的个人资料和发表的微博内容；

步骤1-3步骤1-3、根据收集到的所述用户数据，通过人工判别为所述每个用户添加一个标签，将所述用户分类标识为广告用户或普通用户。

进一步地，所述步骤2的具体步骤如下：

步骤2-1、从所述步骤1中得到的所述用户数据中确定可能具有区分度的属性，所述属性能反映所述用户的行为和所述用户发布的内容特点；

步骤2-2、对所述每个属性，绘制所述广告用户和普通用户的比较图，观察所述属性的区分度，所述区分度大小的判断依据是所述广告用户和普通用户在所述属性上的差异性；

步骤2-3、选取所述区分度最大的前20个所述属性作为所述特征属性集。

更进一步地，所述步骤2-1中所述属性包括内容属性和行为属性，是具有明确的数据字段或不定形式的数据，所述明确的字段数据只能取有限个值，如“性别”、“年龄”和“关系”，所述不定形式的数据指用户的文字信息输入，如“关于我”、“兴趣”和“微博内容”。

进一步地，所述步骤3的具体步骤如下：

步骤3-1、使用WEKA对所述特征属性集进行机器学习，进行分类实验；

步骤3-2、利用所述WEKA输出的训练结果，评估各种数据挖掘算法生成的判别模型的性能，所述模型的性能以所述各种数据挖掘算法的准确度和回归度为标准衡量；

步骤3-3、以性能最好的随机森林算法作为最终的训练算法，并训练出用户判别模型。

更进一步地，所述步骤3-1中所述分类实验使用10倍交叉验证进行，在每次试验中，原始样本划分为10个子样本，其中9个作为训练数据，1个用于测试。

更进一步地，所述步骤3-3中所述随机森林算法由多个决策树组成，每个决策树产生算法流程如下：

(a)设置训练类的数量N，分类器中变量的数量M；

(b)m个输入的变量将用于确定在该树的节点所做的决定；m＜＜M；

(c)通过从N个训练集中以要重复取样的方式选择n(n<N)次来为这棵树选择一个训练集；使用剩下的训练集用来估计这课树的误差；

(d)对于树的每个节点，随机选择m个以此节点作为判断的变量，计算其最佳的分割方式。

本发明提供的微博广告用户检测方法通过对微博用户各个特征的全面分析，训练出来的判别模型的准确度和回归度较高，综合性能较好，解决了新浪自带的检测工具对广告用户十分不灵敏的缺陷。适用于中国社交网络的广告用户判别。

以下将结合附图对本发明的构思、具体流程及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1为本发明所述的一种微博广告用户检测方法的流程示意图；

图2为本发明较佳实施例的收集用户数据流程示意图；

图3为本发明较佳实施例的用户特征抽取流程示意图。

图4为本发明较佳实施例的分类模型训练流程示意图。

具体实施方式

如图1所示，实施例提供了一种微博异常用户检测方法，包括：

步骤1收集微博用户数据，并进行人工类别标识；

步骤2对所述步骤2中的所述用户进行特征抽取，并选取出特征属性集；

以新浪微博为例，对于上述四个步骤，其具体实施步骤描述如下：

第一、收集微博用户数据，并进行人工类别标识。

其具体流程如图2所示，描述如下：

通过新浪API收集用户数据，由用户和他们的粉丝以及他们关注的人得到用户的社交图。数据的收集过程开始从一个用户，获得用户的粉丝和关注者，并加入他们帐户的用户列表，然后选择下一个用户帐户的列表。为了保证随机性的样本，选择不超过1000个粉丝和关注者。第一步是直接解析网页。可以通过登录新浪微博和获取包含用户信息的页面。用这种方法是因为每个用户都有一个个人页面的链接http://weibo.com/userid。“用户名”是一个十进制数，每个用户在新浪微博有一个独特的id。用户数据收集完后进行人工判断将这些用户分为两类：广告用户和普通用户，也可以直接获取新浪微博的“可疑用户”来得到更多的广告用户数据。

第二，进行特征抽取，选取出特征属性集。

具体流程如图3所示，从抓取到的数据中分析那些能反映用户行为的属性以及用户发布的内容特点的属性，并针对他们的区分能力进行筛选，具体步骤如下：

(1)人工确定所有可能具有区分度的属性。如：粉丝数与关注数之比，帐号的申请时间，微博内容是否包含敏感词等等；

(2)对每个属性，通过绘制两种用户的分布来观察该属性的区分度是否够大。区分度大小的判断依据是两种用户在该属性上的差异性。

(3)选取区分度最大的前20个属性作为特征是属性集，用于算法输入。

比较广告用户和普通用户的内容属性和行为属性，可以分析考虑2种数据，在社交网络的个人资料中：

(1)明确的数据字段，只能取有限个值，例如：“性别”，“年龄”，和“关系”等。

(2)不定形式的数据：通常的文字信息输入的用户，例如：“关于我”和“兴趣”，“微博内容”等。

第三，模型训练，得到广告用户判别模型

具体流程如图4所示，主要的步骤如下：

(1)使用WEKA对训练数据集进行机器学习来进行分类实验，分类实验使用10倍交叉验证进行。在每次试验中，原始样本划分为10个子样本，其中9个作为训练数据，1个用于测试。

其中，WEKA是一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化等。

(2)利用WEKA输出的训练结果(这些结果包含的召回，精度，ROC曲线下面积等等)，评估每一个测试算法所生成的模型的预测性能，评估标准主要以高精度、低误报率为准。

(3)以性能最好的随机森林算法作为最终的训练算法，并训练出判别模型。

随机森林算法由许多决策树组成。它输出一个由单个的树的输出所组成的类。

每棵树都由下面的算法产生：

(a)设置训练类的数量N，分类器中变量的数量M.

(b)m个输入的变量将用于确定在该树的节点所做的决定；m＜＜M

(c)通过从N个训练集中以要重复取样的方式选择n(n<N)次来为这棵树选择一个训练集。使用剩下的训练集用来估计这课树的误差。

第四，利用步骤3中训练得到的判别模型对微博广告用户进行预测。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种微博广告用户检测方法，其特征在于，包括以下步骤：

步骤1、收集微博用户数据，并进行人工类别标识；

步骤2、对所述步骤1中的所述用户进行特征抽取，并选取出特征属性集；

步骤3、根据步骤1标识好的用户类别以及步骤2抽取的特征属性集，利用数据挖掘分类算法进行模型训练，得到用户判别模型；

步骤4、利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测；

其中，所述步骤3的具体步骤如下：

步骤3-2、利用所述WEKA输出的训练结果，评估各种数据挖掘分类算法生成的所述用户判别模型的性能，所述模型的性能以所述各种数据挖掘分类算法的准确度和回归度为标准衡量；

步骤3-3、以随机森林算法作为最终的训练算法，训练出所述用户判别模型。

2.如权利要求1所述的微博广告用户检测方法，其中，所述步骤1具体步骤如下：

步骤1-1、通过新浪API收集一个用户的数据，获得所述一个用户的粉丝和关注者，并加入所述粉丝和关注者的账户到用户列表，从所述用户列表中选择下一个用户的账户，并将所述下一个用户的粉丝和关注者的账户加入到用户列表，得到所述一个用户的社交图；

步骤1-2、根据所述一个用户的社交图获取图中每一用户对应的用户数据，即通过新浪API访问所述用户微博主页，获取所述用户的用户数据，包括用户的个人资料和发表的微博内容；

步骤1-3、根据收集到的所述用户数据，通过人工判别为所述每个用户添加一个标签，将所述用户分类标识为广告用户或普通用户。

3.如权利要求1所述的微博广告用户检测方法，其中，所述步骤2的具体步骤如下：

4.如权利要求3所述的微博广告用户检测方法，其中，所述步骤2-1中所述属性包括内容属性和行为属性，具有明确的数据字段或不定形式的数据，所述明确的字段数据只能取有限个值，所述不定形式的数据指用户的文字信息输入。

5.如权利要求1所述的微博广告用户检测方法，其中，所述步骤3-1中所述分类实验使用10倍交叉验证进行，在每次试验中，原始样本划分为10个子样本，其中9个作为训练数据，1个用于测试。

6.如权利要求1所述的微博广告用户检测方法，其中，所述步骤3-3中所述随机森林算法由多个决策树组成，每个决策树产生算法流程如下：

(a)设置训练类的数量N，分类器中变量的数量M；

(b)m个输入的变量将用于确定在该树的节点所做的决定；m<<M；

(c)通过从N个训练集中以要重复取样的方式选择n次来为这棵树选择一个训练集，其中n<N；使用剩下的训练集用来估计这课树的误差；