CN110297990A

CN110297990A - 众包营销微博与水军的联合检测方法及系统

Info

Publication number: CN110297990A
Application number: CN201910434223.1A
Authority: CN
Inventors: 刘波; 艾莉雅; 孙相国; 曹玖新; 倪泽阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-10-01

Abstract

本发明公开了众包营销微博与水军的联合检测方法及系统，在数据采集模块，使用多种异构数据库管理系统作为数据存储与管理后端，通过开发爬虫与任务调度程序实现具有普适性的分布式数据采集任务；在特征提取与先验类别计算模块，提取用户个人属性与用户微博关注转发等属性，形成多维度特征向量，利用二项逻辑斯蒂回归模型计算用户与微博的先验类别向量计算用户、微博间联系强度与转发关系，得到关注关系矩阵、联系强度矩阵与转发关系矩阵；最后将先验类别向量与三种矩阵带入联合检测模型，对营销微博与水军进行判定，在可视化展示模块，系统采用web交互技术实现检测结果和数据分析的可视化展示。本发明可以有效提高检测的准确性，鲁棒性强。

Description

众包营销微博与水军的联合检测方法及系统

技术领域

本发明涉及水军用户检测及营销微博检测方法，特别是涉及一种基于众包营销微博与水军的联合检测方法及系统。

背景技术

随着互联网的快速发展，水军检测成为近年来社交网络的一个研究热点。

早期关于水军检测的相关研究主要从两个角度出发：一种是“基于内容”，从用户的角度出发，通过提取用户的基本属性、行为及其发布的内容等作为用户特征，之后使用随机森林、支持向量机、朴素贝叶斯等算法对用户的属性进行判定，检测出水军用户；另一种是“基于关系”，从用户之间的关系角度出发，通过提取用户之间的关注或转发关系，形成用户关系的拓扑结构，通过对拓扑结构的特征分析，判断水军用户的关系特点。

由于单方面考虑“基于内容”和“基于关系”都过于片面，不能很好地满足众包水军检测的要求，更多的研究侧重于结合两种方法，从多角度提取特征以提高检测结果的精准度。Fakhrae等提取了用户个人属性特征、用户行为序列特征及好友关系拓扑结构特征作为样本特征，通过梯度下降的决策树优化算法对水军进行检测。Lin等从“蜜罐”、“购买水军”等渠道获得真实的水军用户与转发数据，基于用户发布的内容、用户属性与用户间的社交关系建立的拓扑结构，采用多种机器学习算法进行检测分类。在时效性方面，综合考虑用户属性与社交关系网络，多数研究尝试将水军检测转化为优化问题求解的过程。在此基础之上Hu等提出基于最小二乘优化算法，并对实时的水军用户改变状态数据，进行动态的更新迭代学习，使系统可以快速检测水军用户。

近年来，随着众包网站的兴起，水军用户从最初的脚本控制转化为大量的真实用户参与，使得从用户属性到关系网络的多维特征都与真实用户更加接近，因此，对众包水军的检测难度进一步增加。Wang等从猪八戒威客网和三打哈网的雇佣水军在新浪微博中发布广告信息的情况，统计点击广告的人数，发现众包水军能很有效的接近正常用户。Song等针对Twitter中的众包水军发布的推文及众包用户特征设计推文检测算法，但由于特征中包含一些诸如“文本中的短链接被点击次数”等特征，使得算法的鲁棒性难以保证。Yuan等人从众包网站出发，对众包水军用户的行为特征与用户属性进行聚类。Fayazi通过构建用户与评论之间的马尔可夫随机场模型检测水军。

在众包营销检测问题中，由于研究角度单一、特征提取鲁棒性欠佳、多维度特征难以实现联合分析等问题，使得众包营销微博与水军的联合检测系统成为水军检测问题中的一个难题。对于用户在众包营销活动中体现出来的异常特征，大多数研究者倾向于单方面从传播结构的网络拓扑关系或水军用户属性特征出发进行研究，使得特征的选择并不全面。另一方面，现有的研究大都忽视了众包营销与水军用户之间因转发关系而形成关联信息，使得水军用户检测与众包营销微博的检测准确性同时陷入瓶颈。

综上，现阶段大部分关于水军检测的问题都倾向于使用更能体现水军传播结构与特征的网络拓扑关系，并且有一部分研究者在此基础之上加入了用户发布内容的特征分析，而只有少数的研究加入了用户属性特征。同时，针对众包营销和众包水军的研究仍较少，大多数研究缺乏对于众包机制，特别是众包营销任务中水军用户之间以及其与正常用户之间的拓扑关系的深层次挖掘，因而特征考虑并不全面。特别地，在对微博类网站的众包营销活动的研究中，现有研究将众包营销微博或水军用户单独作为研究对象的做法，忽视了两者之间因转发关系而形成的紧密的联系性，因此，基于众包水军与营销微博的联合检测方法是这一领域迫切需要解决的问题。

发明内容

发明目的：为解决现有技术的不足，本发明提供一种众包营销微博与水军的联合检测方法及系统。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

众包营销微博与水军的联合检测方法，包括以下步骤：

(1)数据采集

爬虫模块对采集任务调度模块生成的任务进行数据采集，并结构化地将数据存储到数据存储模块；

(2)数据分析；数据分析模块对步骤(1)中的数据进行统计分析，统计的内容包括：用户的关注数量分布、用户的粉丝数量分布、用户发布微博数量分布和发布微博数量在时间上的分布；

(3)多维度特征提取与先验类别计算

多维度特征提取对步骤(1)中得到的数据进行统计分析，通过特征值标准化输出用户与微博的多维度特征向量；计算用户与微博的先验类别，将用户与微博的多维度特征向量输入二项逻辑斯蒂回归模型，使用划分好的训练集和测试集计算用户与微博的先验类别；

(4)构建联合检测模型；构建优化目标函数得到用户最有可能的身份标签以及微博最有可能的标签；

(5)检测众包水军和营销微博；

(6)系统功能展示。

进一步的，步骤(1)中使用爬虫从国内知名的众包网站页面以及新浪微博网站分别获取众包任务数据与用户和微博数据，并结合内存数据库进行分布式数据采集，获得营销微博、众包水军、及相关用户、关注关系、微博及评论内容信息。

进一步的，步骤(2)中从种子节点开始，通过关注列表采集用户作为目标用户，对采集到的用户关注数量、粉丝数量、发布微博数量取对数，与某一关注数量下统计得到的用户数量取对数，获得的双对数图满足幂律分布。

进一步的，步骤(3)中用户个人属性维度通过计算用户注册时间特征获得，记用户u从注册日期开始到某天的天数差为lifetime(u)，则用户注册时间特征定义为：

关注行为属性维度通过用户与粉丝的关注关系获得，记用户u的关注数为followee(u)，粉丝数为follower(u)，则用户关注数量特征与粉丝数量特征定义为：

通过计算双向关注率特征得到关注行为属性，双向关注率特征定义为：

其中，e(u)为用户u的关注边数量，则为其中双向关注边数量；

转发行为属性维度包括第三方软件使用频率特征、关注转发率特征、一跳转发率特征；

定义用户u发布的微博总数为wblog(u)，其中经由第三方应用发布的微博数为wblogThi(u)，则第三方应用使用频率特征表示为：

令re(u)为某一用户转发的微博总数，refo(u)为该用户转发其关注者的微博的数量，则关注转发率特征定义为：

定义转发原创微博的行为为一跳转发行为，令re(u)为某一用户转发的微博总数，onehop(u)为该用户一跳转发的微博的数量，则一跳转发率特征形式化表示为：

定义微博的评论文本相似度特征

其中，C表示给定微博的评论集合，cosine(c_kc_l)则表示评论c_k与c_l之间的文本余弦相似度；

定义评论情感特征为：

其中，表示给定微博所有评论的情感极性的标准差，表示评论c_k的情感极性，取值范围为0～1，其中0代表绝对消极，1代表绝对积极，使用开源中文自然语言处理库snowNLP获得；

定义reply(m)表示微博m的评论中与其他人互动的评论的条数，like(m)为评论中的点赞数量，则评论互动特征与评论点赞行为特征为：

进一步的，步骤(3)中用户与微博的先验类别计算的具体方法为：

定义为用户特征集合中的第i类特征，μ为的平均值，δ为的方差，则可标准化为：

构造用户与微博各自的特征向量与其中p与q分别表示用户与微博的特征种类数；定义用户特征集合中的每一维特征可设置权重ω_i，表示第i类特征对于用户先验类别计算的重要程度，则用户的先验类别为众包水军的概率为：

其中，ω＝[ω₁，ω₂，…，ω_p]，表示用户特征的权重向量，与b一起构成模型参数；p^u的值视为二项逻辑斯蒂回归算法计算而得的用户类别评分，取值范围为0～1，越接近1表示该用户越有可能是众包水军。

进一步的，步骤(4)包括以下步骤：

(41)关注关系与转发关系建模

定义联系强度：对于用户，如果用户u_i与用户u_j转发了同一条微博m_h，则用户u_i与u_j通过微博m_h具有一定的联系强度值；对于微博，如果有两条微博m_i与m_j被同一个用户u_h转发，则认为m_i与m_j通过u_h具有一定的联系强度值；

具体地，在转发关系网络G_r中，令若满足R_ih＝R_jh＝1，则用户u_i与u_j通过微博m_h的联系强度为：

其中，表示微博m_h的度，也即转发此微博的用户数；

假设共同转发的所有微博都对联系强度有贡献，则定义用户u_i与u_j的联系强度为：

其中，m_h表示任意一条被用户u_i与u_j共同转发的微博，那么s^u(u_i，u_j)也就表示u_i与u_j通过所有共同转发的微博所产生的联系强度之和，特别地，s^u(u_i，u_i)＝0；

在转发关系建模中：

(a)假设有转发关系的用户节点和微博节点之间的类别更有可能相同。转发行为相关目标函数φ_r：

其中，x_i表示用户u_i的类别标签，y_j表示微博m_j的类别标签，R_ij的不同取值则表示用户u_i与微博m_j之间是否有转发关系；

(b)假设用户类别的相似性与其联系强度成正比，用户联系强度相关目标函数为：

其中，表示用户u_i与用户u_j之间的联系强度，x_i与x_j则是用户u_i与用户u_j的类别标签；与分别为x_i与x_j的度，也即转发的微博数；

(c)微博类别的相似性与其联系强度成正比，微博联系强度相关目标函数为：

其中，表示微博m_i与微博m_j之间的联系强度，y_i与y_j则是微博m_i与微博m_j的类别标签，与分别为微博m_i与微博m_j的度，也即被转发数，对于类别不同的两条微博y_i与y_j，如若这两条微博被转发的次数都很多，则很有可能两者都被相同的用户转发过，拥有一定的联系强度；

(d)假设有关注关系的用户节点之间的类别更有可能相同，关注行为相关目标函数φ_f为：

其中，P为在图G_f上进行随机游走生成的概率转移矩阵，且有其中F_ij表示用户u_i是否关注用户u_j，表示用户u_i的出度；由于用户关注网络并不是一个全连接网络，所以为了能获得稳定的概率分布，节点i的概率值π(i)为：

其中，η表示PageRank算法中的阻尼系数，一般设置为0.85；

(42)联合检测建模

基于用户与微博的先验类别，并综合对转发关系中目标函数φ_r，以及关注关系中目标函数φ_f的考虑，联合检测模型形式化为一个带约束的优化目标求解问题：

其中，α、β、γ、θ都是非负实数，用于调节各项的权值。

进一步的，步骤(5)中检测众包水军和营销微博的方法为：通过不断地交替迭代用户和微博的类别向量，直至其类别评分变化的绝对值之和小于规定阈值，即可计算出最终用户和微博的类别评分，挖掘可能存在的众包水军与营销微博；

该算法首先通过计算用户和微博的先验类别，对于已有标签节点，直接进行赋值操作；而对于无标签节点，则使用二项逻辑斯蒂回归算法计算其先验类别；之后，迭代计算用户类别向量x与微博类别向量y，直至收敛，返回检测结果。

进一步的，步骤(6)中系统功能展示包括数据采集模块的展示、数据分析和检测结果的展示，其中，用户在数据采集模块选择爬取对象为新浪微博数据或者三打哈网的众包任务数据，当对象确定之后，用户对Redis、Mysql、MongoDB的数据库地址进行配置，选择是否使用代理ip池；在爬虫类型选取完成之后即点击开始进行爬取；数据分析和检测结果展示包含用户节点与其转发的微博节点之间的转发拓扑示意图，通过设置不同的节点数来观察不同的网络拓扑结构；检测结果包含众包水军检测的Top-K曲线及模型中各因素贡献度分析结果图，并给出最终的检测结果中类别评分排名最为靠前的微博信息，让用户直观地观察检测结果。

本发明还提供了众包营销微博与水军的联合检测系统，包括数据采集与分析模块、特征提取与先验类别计算模块、联合检测模块以及可视化展示模块，在数据采集与分析模块，本系统使用多种异构数据库管理系统作为数据存储与管理后端，通过开发爬虫与任务调度程序实现具有普适性的分布式数据采集任务；在特征提取与先验类别计算模块，提取用户个人属性与用户微博关注转发属性，形成多维度特征向量，利用二项逻辑斯蒂回归模型计算用户与微博的先验类别向量计算用户、微博间联系强度与转发关系，得到关注关系矩阵、联系强度矩阵与转发关系矩阵；最后将先验类别向量与三种矩阵带入联合检测模块，对营销微博与水军进行判定，在可视化展示模块，系统采用web交互技术实现检测结果和数据分析的可视化展示。

有益效果：与现有技术相比，本发明方法可以同时有效提高众包营销微博与众包水军检测的准确性；对评论信息、用户关联关系等特征的加入使得联合检测系统具有更强的可解释性；系统功能展示部分可以针对不同网站进行数据采集分析，使模型更加具有鲁棒性。

附图说明

图1是众包营销微博与水军的联合检测方法流程图；

图2是数据库设计与数据采集具体架构；

图3是联合检测模型流程图；

图4是用户与微博间转发拓扑示意图；

图5是众包水军检测的Top-K曲线图；

图6是众包水军检测分析中模型各因素贡献度分析结果图。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案进行详细说明。

以下只是本发明一种实施例，本发明还有其他多种实施方式，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本发明方法针对数据采集与存储问题，采用采集任务调度模块、爬虫模块及数据存储模块三个模块，完成对网络数据从信息采集到信息预处理与存储的工作。在特征提取问题上，将用户个人属性、关注行为、转发行为及微博评论文本与互动等特征进行标准化，形成多维度特征二项逻辑斯蒂回归模型的输入，并计算用户与微博的先验类别。之后对用户联系、转发关系及微博联系等特征进行建模。本发明通过关联关系模块的输出建立联合检测模型，实现众包营销微博与水军联合检测算法。

如图1所示，本发明的众包营销微博与水军的联合检测方法，包括以下步骤：

(1)数据采集

使用爬虫从国内知名的众包网站页面以及新浪微博网站分别获取众包任务数据与用户和微博数据，并结合内存数据库进行分布式数据采集。获得营销微博、众包水军、及相关用户、关注关系、微博及评论内容等信息。可以根据实际需求修改并行的爬虫程序数量及其他类型网站的数据。

如果网站爬完了就停止爬虫，如果网站出现新的众包任务就继续爬取，更新规则可由用户爬虫需求进行设定。

如图2所示，spider是爬虫进程，proxy是代理，数据采集模块由数据存储模块、采集任务调度模块以及爬虫模块三个模块组成，其中，数据存储模块包含存储用户信息、微博信息、评论信息及用户关注关系等数据信息；采集任务调度模块提供高效的分布式数据采集方案，简化爬虫模块的任务分配过程；对数据存储模块的数据进行任务生成，并使用Redis数据库存储全局任务队列，为爬虫模块提供任务分配方案；爬虫模块提供一种具有良好的可扩展性的爬虫方案，对生成的任务进行数据采集，并结构化地将数据存储到数据存储模块，对出错的数据通过异常处理，返回到任务调度模块。可以根据实际需求修改并行的爬虫程序数量及其他类型网站的数据。

整个数据采集框架的数据持久化部分选用MySql和MongoDB，在数据缓存以及分布式协同部分则选用Redis。Dispatcher模块负责采集任务的生成，并推送进Redis维护的全局任务队列中；Spiders模块包含大量并发的爬虫程序，不断地对Redis进行轮询，完成全局任务队列中的爬取任务，并且当因网络等因素导致任务失败的时候，由Exception Handler模块处理，重新生成任务推送给Redis；采集的数据由Pipeline模块负责调度与预处理，最终保存在MongoDB中。

使用Mysql与MongoDB两个数据库存储所需数据，其中Mysql主要存储经常需要查询且字段较短的数据，包含用户信息表、微博信息表、评论信息表、用户关注关系表等数据。MongoDB主要存储用户个人信息Json数据、微博信息Json数据、评论信息Json数据等包含更为丰富信息的Json格式的数据。其中MongoDB中数据存储的设计较为简单与直观，对于以上提及的不同类数据各建立单独的集合进行存储。

以采集用户信息为例，在该模块中，首先从MySql数据库中读取相应的用户ID信息，然后生成用户主页url以及用户关注列表url，并将这些url封装为任务添加到Redis数据库维持的全局任务队列中。之后从爬虫模块爬取用户相关关注信息、发布内容、评论等，Spiders模块包含大量并发的爬虫程序，不断地对Redis进行轮询，完成全局任务队列中的爬取任务，并且当因网络等因素导致任务失败的时候，由异常处理，重新生成任务推送给Redis，放置于任务队列的末尾。数据存储模块接收爬虫模块采集的数据，参照上一段存储结构化地存储至数据库中，并更新Mysql中的数据以生成最新的采集任务。具体mysql数据存储设计表如下表1：

表1

(2)数据分析：数据分析模块对步骤(1)中的数据进行统计分析，统计的内容包括：用户的关注数量分布、用户的粉丝数量分布、用户发布微博数量分布和发布微博数量在时间上的分布。

对数据集更新后，需进行数据分析模块。数据分析从种子节点开始，通过关注列表采集用户作为目标用户，对采集到的用户关注数量、粉丝数量、发布微博数量取对数，与某一关注数量下统计得到的用户数量取对数，获得的双对数图满足幂律分布，得到结论：目标用户是相对活跃的用户，其关注数量也较多；另一方面，由用户提供原创内容，这使得微博用户为了获得更多感兴趣的信息会倾向于关注大量的其他用户。由此，数据集中关注量少的用户数量也较少。通过统计用户一周发布微博数量的分布情况，发现用户发布微博的行为有明显的周期性，工作日发博数量波动情况相似，周末发博数量降低。以上统计分析结果与目前复杂社交网络的研究结论一致。

(3)多维度特征提取与先验类别计算

多维度特征提取对步骤(1)中得到的数据进行统计分析，统计与计算的内容包括：用户账号在社交平台上的注册时间、用户的粉丝数量、用户的关注数量、双向好友的数量、用户使用第三方平台发布微博的数量、用户转发的微博总数和其转发自关注者微博总数、用户直接转发原创微博的数量、微博评论的文本相似程度、微博评论的情感极性、用户评论点赞数量、微博评论中回复其他人评论的次数、用户与用户之间的关注关系网络拓扑关系以及用户与微博之间的转发网络拓扑关系；通过特征值标准化输出用户与微博的多维度特征向量；计算用户与微博的先验类别，将用户与微博的多维度特征向量输入二项逻辑斯蒂回归模型，使用划分好的训练集和测试集计算用户与微博的先验类别。

若根据实际需求更新数据采集模块，获得新的数据集，需执行特征提取和计算先验类别。

多维度特征包括：用户与微博的节点的集合，量化用户个人属性，包括用户注册时间特性；关注行为属性，包括关注数量，粉丝数量，双向关注率；转发行为属性，包括第三方应用使用频率，关注转发率，一跳转发率；微博特征属性特征，包括评论文本相似度，评论的情感极性，评论回应特征，评论点赞比例。

多维度特征提取首先根据数据库中的输入用户与微博的节点的集合，提取用户个人属性、关注行为属性、转发行为属性，微博特征属性等特征，通过特征值标准化输出用户与微博的多维度特征向量；将用户与微博的多维度特征向量输入二项逻辑斯蒂回归模型，分别对用户数据集和微博数据集划分训练集和测试集，并对模型进行训练，分别计算测试集中用户与微博的先验类别。

用户个人属性维度通过计算用户注册时间特征获得，记用户u从注册日期开始到2016年12月31日的天数差为lifetime(u)，则用户注册时间特征定义为：

其中，对数函数设计可以平滑绝对数量差距。

同时，众包营销微博通常需要众包水军对雇佣者进行关注，同时众包水军会通过相互关注增加自己的粉丝数，因此，通过计算双向关注率特征得到关注行为属性，双向关注率特征定义为：

其中，e(u)为用户u的关注边数量，则为其中双向关注边数量。

转发行为属性维度包括第三方软件使用频率特征、关注转发率特征、一跳转发率特征。

部分众包水军用户使用第三方软件自动发布微博，因此，将第三方应用软件使用频率作为转发行为的特征，定义用户u发布的微博总数为wblog(u)，其中经由第三方应用发布的微博数为wblogThi(u)，则第三方应用使用频率特征表示为：

众包任务中通常带有“关注并转发微博”的要求，因此众包水军相比于正常用户，其出现关注并转发行为的可能性更高。令re(u)为某一用户转发的微博总数，refo(u)为该用户转发其关注者的微博的数量，则关注转发率特征定义为：

本发明定义转发原创微博的行为为一跳转发行为，令re(u)为某一用户转发的微博总数，onehop(u)为该用户一跳转发的微博的数量，则一跳转发率特征可形式化表示为：

微博特征属性包含评论文本相似度特征、评论情感特征、评论互动特征与评论点赞特征。本发明定义微博的评论文本相似度特征

其中，C表示给定微博的评论集合，cosine(c_kc_l)则表示评论c_k与c_l之间的文本余弦相似度。

本发明定义给出评论情感特征的定义：

其中，表示给定微博所有评论的情感极性的标准差，表示评论c_k的情感极性，取值范围为0～1，其中0代表绝对消极，1代表绝对积极，使用开源中文自然语言处理库snowNLP获得。

本发明定义reply(m)表示微博m的评论中与其他人互动的评论的条数，like(m)为评论中的点赞数量，则评论互动特征与评论点赞行为特征为：

在特征提取问题上，考虑到用户的行为特征更能体现用户的类别，用户特征考虑个人属性特征(如用户注册时间特征、用户关注数量特征、粉丝数量特征及双向关注率特征等)，微博特征(如关注转发率特征、评论文本相似度特征等)。先验类别计算首先要对特征进行标准化，本发明采用0均值标准化对特征进行预处理，之后通过二项逻辑斯蒂回归模型计算训练集与测试集的先验类别。

本发明定义为用户特征集合中的第i类特征，μ为的平均值，δ为的方差，则可标准化为：

构造用户与微博各自的特征向量与其中p与q分别表示用户与微博的特征种类数。定义用户特征集合中的每一维特征可设置权重ω_i，表示第i类特征对于用户先验类别计算的重要程度，则用户的先验类别为众包水军的概率为：

其中，ω＝[ω₁，ω₂，…，ω_p]，表示用户特征的权重向量，与b一起构成模型参数，可经模型训练获得。p^u的值可视为二项逻辑斯蒂回归算法计算而得的用户类别评分，取值范围为0～1，越接近1表示该用户越有可能是众包水军。

微博的先验类别与类别评分与用户的先验类别与类别评分计算方法相同。

(4)联合检测模型的构建：

联合模型通过构建优化目标函数的到用户最有可能的身份标签(水军或正常用户)，以及微博最有可能的标签(正常微博或众包营销微博)；优化目标包含六个优化项，包括：最小化用户类别与步骤(3)计算得到的用户先验之间的差异、最小化微博类别与步骤(3)计算得到的微博先验之间的差异、最小化联系紧密的用户间的类别差异、最小化联系紧密的微博间的类别差异、最小化用关注关系的用户间的类别差异以及最小化有转发关系的用户与微博之间的类别差异。

联合检测模型的建立分三步进行建模：关注关系、转发关系、联合检测。

(a)关注关系与转发关系建模

关注关系指用户之间的相互关注关系，在关注关系建模中，在关注关系建模中，有关注关系的用户更有可能有相近的类别，根据用户之间关注情况计算用户类别累计误差函数，实现累计误差最小化；需遍历每一个有关注关系的用户对，通过给定的筛选条件，生成关注关系矩阵。

转发关系指用户对另一用户的链接或发布内容的转载，在转发关系建模中，通过用户共同转发的微博定义用户间的联系强度，通过转发微博的用户定义微博间的联系强度，用户类别相似性与用户联系强度成正相关，微博类别相似性与微博联系强度正相关，有转发关系的用户和微博其类别相关，基于上述发现构建转发网络优化目标函数。

遍历每一个有转发关系的“用户-微博”对、有联系强度的用户对以及微博对，生成转发关系矩阵、用户联系强度矩阵以及微博联系强度矩阵，其中用户联系强度矩阵与微博联系强度矩阵通过计算每个关联对之间的联系强度，将联系强度加入联系强度矩阵中，得到输出用户联系强度矩阵与输出微博联系强度矩阵，输出转发关系矩阵直接通过用户与微博转发关系数据获得。

在函数建模中，本发明定义联系强度：对于用户，如果用户u_i与用户u_j转发了同一条微博m_h，则用户u_i与u_j通过微博m_h具有一定的联系强度值；类似的，对于微博，如果有两条微博m_i与m_j被同一个用户u_h转发，则认为m_i与m_j通过u_h具有一定的联系强度值。

具体地，在转发关系网络G_r中，令若满足R_ih＝R_jh＝1，则用户u_i与u_j通过微博m_h的联系强度(单条微博产生的联系强度)为：

其中，表示微博m_h的度，也即转发此微博的用户数。

现实情况下，两个用户共同转发的微博可能不止一条，本发明中假设共同转发的所有微博都对联系强度有贡献。不失一般性，可以定义用户u_i与u_j的联系强度为：

其中，m_h表示任意一条被用户u_i与u_j共同转发的微博，那么s^u(u_i，u_j)也就表示u_i与u_j通过所有共同转发的微博所产生的联系强度之和。特别地，s^u(u_i，u_i)＝0。

在转发关系建模中，本发明有四个假设，具体如下：

假设1：有转发关系的用户节点和微博节点之间的类别更有可能相同。转发行为相关目标函数φ_r：

其中，x_i表示用户u_i的类别标签，y_j表示微博m_j的类别标签，R_ij的不同取值则表示用户u_i与微博m_j之间是否有转发关系。

假设2：用户类别的相似性与其联系强度成正比。用户联系强度相关目标函数

其中，表示用户u_i与用户u_j之间的联系强度，x_i与x_j则是这两个用户的类别标签。与分别为两者的度，也即转发的微博数。

假设3：微博类别的相似性与其联系强度成正比。微博联系强度相关目标函数

其中，表示微博m_i与微博m_j之间的联系强度，y_i与y_j则是这两条微博的类别标签，与分别为微博m_i与微博m_j的度，也即被转发数，对于类别不同的两条微博y_i与y_j，如若这两条微博被转发的次数都很多，则很有可能两者都被相同的用户转发过，拥有一定的联系强度。

假设4：有关注关系的用户节点之间的类别更有可能相同。关注行为相关目标函数φ_f：

其中，P为在图G_f上进行随机游走生成的概率转移矩阵，且有其中F_ij表示用户u_i是否关注用户u_j，表示用户u_i的出度。由于用户关注网络并不是一个全连接网络，所以为了能获得稳定的概率分布，本发明选用Pagerank算法来计算此概率分布，节点i的概率值π(i)：

其中，η表示PageRank算法中的阻尼系数，一般设置为0.85。

(b)联合检测建模

联合检测通过建立微博与用户之间的联合检测模型，通过缩小用户的先验误差，转发网络误差，关注网络误差，保证样本标签的扩散，实现半监督下众包营销微博与水军的联合检测。

通过用户的关注关系网络和微博转发网络，可以找到众包水军，并检测哪些微博属于营销微博。具体来说，该算法首先融合了转发网络、关注关系网络中的特征，以及用户个人属性和微博内容的特征。在此基础上，提出了一种共同检测目标优化函数，使经验误差最小化，并引导稀疏标签向未标记样本扩散。

基于用户与微博的先验类别，并综合对转发关系中目标函数φ_r，以及关注关系中目标函数φ_f的考虑，本发明的联合检测模型可形式化为一个带约束的优化目标求解问题：

其中，α、β、γ、θ都是非负实数，用于调节各项的权值。

(5)检测众包水军和营销微博；

联合检测通过建立微博与用户之间的联合检测模型，实现众包营销微博与水军的联合检测算法。如图3所示，具体的，通过不断地交替迭代用户和微博的类别向量，直至其类别评分变化的绝对值之和小于规定阈值，即可计算出最终用户和微博的类别评分，挖掘可能存在的众包水军与营销微博。

(51)输入用户先验类别向量微博先验类别向量关注关系矩阵x^TLx，转发关系矩阵x^TRy，联系强度矩阵S^u；其中，L为拉普拉斯矩阵，R_ij的不同取值则表示用户u_i与微博m_j之间是否有转发关系；

(52)将优化目标函数转化为：

s.t.Cx＝x^p

s.t.Dy＝y^p (22)；

交替迭代用户与微博类别向量；

(53)当在第t+1轮迭代x时，也即求解x^t+1时，固定y为第t轮的值y^t，此时对上述优化目标函数的求解等价于：

s.t.Cx＝x^p (23)；

构造拉格朗日乘子罚函数系数σ＞0，将上式改为增广拉格朗日函数形式：

以此计算用户类别向量；

(54)使用交替方向乘子法将(53)中的问题分解为易于求解的局部子问题，分别对x与λ进行迭代更新，即在第k+1轮迭代x时，固定λ为第k轮的值；而在第k+1轮迭代λ时，固定x为第k+1轮的值；交替迭代更新用户类别向量；

(55)当用户类别向量更新收敛时，开始计算微博的类别向量，当在第t+1轮迭代y时，也即求解y^t+1时，将x固定为第t+1轮的值x^t+1，则此时对目标函数的求解可等价于：

s.t.Dy＝y^p (25)；

同样使用广义拉格朗日乘子法求解此等式约束优化问题；

(56)使用交替方向乘子法迭代更新微博类别向量，迭代步骤同(54)；

(57)当微博类别向量更新不收敛，则返回步骤(56)；若收敛，通过联合优化目标函数联合检测用户与微博的类别向量整体是否收敛；

(58)若用户与微博的类别向量整体收敛，则输出检测结果，结束检测系统，若不收敛，返回步骤(52)；

表1是众包营销微博与水军联合检测算法伪代码：

算法解释如下：

第1-14行：计算用户和微博的先验类别。对于已有标签节点，直接进行赋值操作；而对于无标签节点，则使用二项逻辑斯蒂回归算法计算其先验类别。

第15行：初始化用户类别向量x，微博类别向量y以及迭代计数器t。

第16-32行：迭代计算用户类别向量x与微博类别向量y。其中第17-23行表示对x^t+1进行迭代计算，第24-30行表示对y^t+1进行迭代计算。

第33行：返回检测结果。

(6)系统功能展示

系统功能展示模块主要包括数据采集模块的展示以及数据分析和检测结果的展示。形成可直观对数据采集、联合检测等进行设定，并输出检测结果的人机交互界面，包含数据采集、数据分析、先验计算、特征提取、联合检测、检测结果等部分。

数据采集模块的控制界面，用户可以在这里选择爬取对象为新浪微博数据或者三打哈网的众包任务数据。当对象确定之后，用户还可以对Redis、Mysql、MongoDB的数据库地址进行配置，选择是否使用代理ip池。在爬虫类型(关注关系、个人信息、微博信息、评论信息)选取完成之后即可点击开始进行爬取。

数据分析和检测结果展示包含用户节点与其转发的微博节点之间的转发拓扑示意图，可以通过设置不同的节点数来观察不同的网络拓扑结构；如图4所示。如图5和图6所示，检测结果包含众包水军检测的Top-K曲线及模型中各因素贡献度分析结果图，并给出最终的检测结果中类别评分排名最为靠前的检测算法及微博信息，可以让用户直观地观察检测结果。这里我们对比了自己的联合检测算法(CMSCA)和该领域其他研究者的经典方法结果(S3MCD、LR)，评价指标为：Precision-Recall曲线下方的面积称为平均准确率(AveragePrecision，AP)。

平均准确率其计算方式如下：

其中P表示精准率，R表示召回率。AP取值范围为0～1，且AP的值越大，表示算法的效果越好。

本发明的众包营销微博与水军的联合检测系统，主要解决微博类网站中出现的众包营销微博与众包水军检测的问题。该系统主要包括数据采集与分析模块，特征提取与先验类别计算模块，联合检测模块以及可视化展示模块。在数据采集模块，本系统使用多种异构数据库管理系统作为数据存储与管理后端，通过开发爬虫与任务调度程序实现具有普适性的分布式数据采集任务。在特征提取与先验类别计算模块，提取用户个人属性与用户微博关注转发等属性，形成多维度特征向量，利用二项逻辑斯蒂回归模型计算用户与微博的先验类别向量计算用户、微博间联系强度与转发关系，得到关注关系矩阵、联系强度矩阵与转发关系矩阵。最后将先验类别向量与三种矩阵带入联合检测模型，对营销微博与水军进行判定，在可视化展示模块，系统采用web交互技术实现检测结果和数据分析的可视化展示。该系统可以解决众包营销微博与水军用户检测中特征选择考虑不全面、联合检测信息的缺失的问题，使众包营销微博与水军检测的结果准确度都得到有效的提高。与此同时，本发明采用半监督对学习方式，可以缓解大规模数据稀疏标注的问题，有利于本技术在实际场景中的进一步推广。

Claims

1.众包营销微博与水军的联合检测方法，其特征在于，包括以下步骤：

(1)数据采集

(3)多维度特征提取与先验类别计算

(5)检测众包水军和营销微博；

(6)系统功能展示。

2.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(1)中使用爬虫从国内知名的众包网站页面以及新浪微博网站分别获取众包任务数据与用户和微博数据，并结合内存数据库进行分布式数据采集，获得营销微博、众包水军、及相关用户、关注关系、微博及评论内容信息。

3.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(2)中从种子节点开始，通过关注列表采集用户作为目标用户，对采集到的用户关注数量、粉丝数量、发布微博数量取对数，与某一关注数量下统计得到的用户数量取对数，获得的双对数图满足幂律分布。

4.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(3)中用户个人属性维度通过计算用户注册时间特征获得，记用户u从注册日期开始到某天的天数差为lifetime(u)，则用户注册时间特征定义为：

定义微博的评论文本相似度特征

定义评论情感特征为：

5.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(3)中用户与微博的先验类别计算的具体方法为：

6.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(4)包括以下步骤：

(41)关注关系与转发关系建模

其中，表示微博m_h的度，也即转发此微博的用户数；

在转发关系建模中：

其中，η表示PageRank算法中的阻尼系数，一般设置为0.85；

(42)联合检测建模

其中，α、β、γ、θ都是非负实数，用于调节各项的权值。

7.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(5)中检测众包水军和营销微博的方法为：通过不断地交替迭代用户和微博的类别向量，直至其类别评分变化的绝对值之和小于规定阈值，即可计算出最终用户和微博的类别评分，挖掘可能存在的众包水军与营销微博；

8.根据权利要求1所述的众包营销微博与水军的联合检测方法，其特征在于，步骤(6)中系统功能展示包括数据采集模块的展示、数据分析和检测结果的展示，其中，用户在数据采集模块选择爬取对象为新浪微博数据或者三打哈网的众包任务数据，当对象确定之后，用户对Redis、Mysql、MongoDB的数据库地址进行配置，选择是否使用代理ip池；在爬虫类型选取完成之后即点击开始进行爬取；数据分析和检测结果展示包含用户节点与其转发的微博节点之间的转发拓扑示意图，通过设置不同的节点数来观察不同的网络拓扑结构；检测结果包含众包水军检测的Top-K曲线及模型中各因素贡献度分析结果图，并给出最终的检测结果中类别评分排名最为靠前的微博信息，让用户直观地观察检测结果。

9.众包营销微博与水军的联合检测系统，其特征在于，包括数据采集与分析模块、特征提取与先验类别计算模块、联合检测模块以及可视化展示模块，在数据采集与分析模块，本系统使用多种异构数据库管理系统作为数据存储与管理后端，通过开发爬虫与任务调度程序实现具有普适性的分布式数据采集任务；在特征提取与先验类别计算模块，提取用户个人属性与用户微博关注转发属性，形成多维度特征向量，利用二项逻辑斯蒂回归模型计算用户与微博的先验类别向量计算用户、微博间联系强度与转发关系，得到关注关系矩阵、联系强度矩阵与转发关系矩阵；最后将先验类别向量与三种矩阵带入联合检测模块，对营销微博与水军进行判定，在可视化展示模块，系统采用web交互技术实现检测结果和数据分析的可视化展示。