CN109919794A

CN109919794A - 一种基于信任传播的微博用户信任评估方法

Info

Publication number: CN109919794A
Application number: CN201910194857.4A
Authority: CN
Inventors: 王巍; 杨武; 玄世昌; 苘大鹏; 吕继光; 吴毓琳
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-21
Anticipated expiration: 2039-03-14
Also published as: CN109919794B

Abstract

本发明属于社交网络分析领域，具体涉及一种基于信任传播的微博用户信任评估方法。包括选取种子节点；对于用户社交关系图执行剪枝方法；偏差地设置初值，并从可信传播和不可信传播两个方向来传播可信评分。在种子节点选取方面，本发明将数据集中的节点根据用户特征进行聚类，来选取最具有传播价值的两类种子节点集——可信种子和恶意种子。为了防止破坏用户和正常用户建立起的关系对算法产生影响，本发明设计了一种基于社交活跃度和相似度的剪枝方法，能将攻击边有效地裁剪。最后利用用户社交网络图从两类种子节点同时进行信任传播，加权计算出最后的用户可信度，筛选出可信度值低的恶意用户。本发明能够有效抵御恶意用户对评估方法的攻击。

Description

一种基于信任传播的微博用户信任评估方法

技术领域

本发明属于社交网络分析领域，具体涉及一种基于信任传播的微博用户信任评估方法。

背景技术

互联网的大力发展促使多种平台出现，如购物平台、点评平台和社交平台等。在线社交网络(Online Social Network)正在流行并成为人们生活中不可或缺的一部分，微博正是其中一种。但是因为它的匿名性和开放性，微博成为了水军泛滥之所，特别容易受到恶意用户的攻击。攻击者可以无限地创建大量虚假身份，来对系统的舆论健康进行破坏。微博允许用户作为主体信息的创造者，进行交流和协作。这一独特特征加上庞大的用户基数，使其成为许多网络犯罪的温床。因此，在微博平台上对恶意用户进行清理，使正常信息不受这些账户的干扰，能够给用户提供一个更健康的平台。

微博用户可信度的评估到目前为止，都是基于两个方面的：基于行为的方法和基于图的方法。基于行为的方法的研究重点在于对用户行为特征的检测，包括用户画像和用户发表的相关微博内容。而基于图的方法的研究重点在于，如何用户和用户之间的关系、用户和微博的关系对微博用户的可信度进行评估。

M.A.Abbasi提出了一种方法来检测社交媒体中的群体行为，并为参与群体行为的用户分配较低的可信度。他提出一种CredRank算法，这种算法利用用户行为之间的相似度来为网络中的用户划分群体，然后再基于这个群体的规模给他们一个统一的可信评分。群体规模越大，可信评分就越低。Gupta和Kaushal提出了一种发送垃圾信息用户的检测方法，这种方法结合了三种学习算法——NB、聚类和决策树，以期能提高恶意用户检测的准确性。Lim等人使用行为启发式方法来检测评论中的恶意用户，这些恶意用户针对特定产品或产品组有明显的和别的发送者不同的言论。作者提出了一种评估方法，在从网站爬取来的亚马逊评论数据集上进行实验，来对评论者进行排名。Wang等人提出了第一种基于图来检测评论虚假评论发送者的方法。这些方法图的节点是三种实体：评论，评论者和商店(即评论的实体)。作者探讨了如何利用图中节点之间的交互来识别虚假评论，并提出了一种迭代计算模型来识别可疑的评论者。Akoglu等人在描述的方法中提出了FraudEagle框架，用于检测在线评论网站中的虚假评论发送者和虚假评论。该框架利用用户、产品和评论的关系结构，观察虚假评论发送者是否链接到带有负面评论的好产品或者正面评价的坏产品。利用网络边缘的情感“签名”，并通过扩展LBP的签名推理算法来推断用户、产品和评论的标签。由于用户敏感标签的单一性，导致用户的敏感信息被泄露。

发明内容

本发明的目的在于提供一种基于信任传播的微博用户信任评估方法，其能够检测出微博中恶意用户群。

一种基于信任传播的微博用户信任评估方法，具体包括以下步骤：

步骤1、选取种子节点；

步骤2、对于用户社交关系图执行剪枝方法；

步骤3、偏差地设置初值，并从可信传播和不可信传播两个方向来传播可信评分。

所述一种基于信任传播的微博用户信任评估方法，步骤1具体包括以下步骤：

步骤1.1、提取以下七个特征，作为聚类算法的特征，注册年龄，自用户注册其帐户以来的时间过去了几天；推文数，发布的推文数量；粉丝数量，关注用户的人数；朋友数量，用户关注的人数；是否验证过，1或0，表示这个账户是否经过验证；是否有简介，1或0，表示这个账户是否有自我描述；是否有URL，1或0，表示这个账户主页是否放了自己的主页；

步骤1.2、利用k-means算法进行聚类，其中k＝2，将用户分为两类——可信用户和恶意用户；

步骤1.3、利用欧式距离计算方法在两类用户中选取离类簇中心最近的s个节点中；

步骤1.4、在这s个节点中，利用人工筛选，再随机选取j个点作为种子节点。

所述一种基于信任传播的微博用户信任评估方法，步骤2中剪枝方法为：

步骤2.1、将用户活跃度表示成Sa_i,j，公式为：

Sa_i,j＝α×(λ₁tu_vi+λ₂fw_vi+λ₃cm_vi)+(1-α)×(λ₁tu_vj+λ₂fw_vj+λ₃cm_vj)

其中tu_vi代表来自v_i的点赞，fw_vi代表来自v_i的转发，cm_vi代表来自v_i的评论，α是用户活跃度的权重，λ₁+λ₂+λ₃＝1，如果用户间的社交活动往来比较密切，就可以得到一个较高的Sa_i,j值，反之，则低；

步骤2.2、消除具有低活跃度值(Sa_i,j≤T_a)的边，T_a是社交活跃度阈值；

步骤2.3、在“社交网络的局部结构相似性”方面，可信节点和可信种子之间的相似性比可信节点和恶意节点之间的相似度高，因此，消除低相似度值(w_i,j≤T_s)的边消除攻击边，其中w_i,j是节点i和j的相似度值，T_s是相似度阈值。

所述一种基于信任传播的微博用户信任评估方法，步骤3具体包括以下步骤：

步骤3.1、在传播阶段已经获得经过剪枝处理的社交网络拓扑结构和一组通过种子节点选取方法选出的可信种子节点集及恶意种子节点集，根据这些种子的社交关系密切程度将可信/不可信评分传播到相邻节点，可信传播过程用以下模拟：

其中r(v_j)表示节点v_i的得分，α表示权重值，一般来说α＝0.85，|N(j)|是v_i周围邻居节点的总数，d是种子集归一化分数向量，不可信传播的方式与上式相同；

步骤3.2、将每个节点的可信评分和不可信评分统一起来作为最终可信度，用于可信度评估，最终可信度公式为：

Total(v_i)＝α×TR(v_i)+(1-α)×DTR(v_i)

其中TR(v_i)和DTR(v_i)分别表示节点v_i的可信评分和不可信评分，参数α用于衡量总体可信度中可信和不可信的权重。

本发明的有益效果在于：

本发明提出了基于信任传播的微博用户信任评估方法，对微博中用户的可信度进行评估进而分类，并能够有效抵御恶意用户对评估方法的攻击。在种子节点选取方面，将数据集中的节点根据用户特征进行聚类，来选取最具有传播价值的两类种子节点集——可信种子和恶意种子。为了防止破坏用户和正常用户建立起的关系对算法产生影响，本发明设计了一种基于社交活跃度和相似度的剪枝方法。可以将攻击边有效地裁剪。最后利用用户社交网络图进行传播，从两类种子节点同时进行信任传播，最后加权计算出最后的用户可信度，筛选出来可信度值低的恶意用户。

附图说明

图1为用户u_i和用户u_j的关系；

图2为种子节点选取方法流程图；

图3为剪枝方法流程图；

图4是信任传播方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述：

如附图1所示，为用户u_i和用户u_j的关系；如附图2所示，为种子节点选取方法流程图；如附图3所示，为剪枝方法流程图；如附图4所示，是信任传播方法流程图。

1、在微博中，用户以及他们的社交关系(如关注者和关注关系)和社交活动(如发布微博和热门话题)是主要实体。微博中的一些典型社交活动总结见表1。

表1微博中的五种社交活动

为了区分恶意活动与合法活动，非常直观的想法是通过衡量每种实体的可信度来区分这些实体的社交活动是否是恶意活动。这个想法与信任模型的研究有关，并且已经在心理学和社会科学中得到了广泛的研究。这种划分多个实体的模型是用来衡量微博中社交活动的可信度，它是传统信任模型的扩展。其中每个实体(用户/微博/热门主题)都会计算其可信度得分。实体的可信度越低，相关社交活动越不可信。

在用户社交关系图中，我们只考虑一种实体，即用户，且只根据传播关系来考虑实体的可信程度。在用户社交关系图中，信任分数会从一个用户流转到另一个用户。连接图中的边，代表关注关系。如附图1所示，为用户u_i和用户u_j的关系,从u_i到u_j的边代表用户u_i关注了用户u_j。

2、首先，我们提取了以下七个特征，作为聚类算法的特征。1、注册年龄，自用户注册其帐户以来的时间过去了几天；2、推文数，发布的推文数量；3、粉丝数量，关注用户的人数；4、朋友数量，用户关注的人数；5、是否验证过，1或0，表示这个账户是否经过验证；6、是否有简介，1或0，表示这个账户是否有自我描述；7、是否有URL，1或0，表示这个账户主页是否放了自己的主页；然后利用k-means算法进行聚类，其中k＝2。本文根据表中中提到的7种特征值，将用户分为两类——可信用户和恶意用户。然后利用欧式距离计算方法在两类用户中选取离类簇中心最近的s个节点中。在这s个节点中，利用人工筛选，再随机选取j个点作为种子节点。

3、首先，我们对于种子节点周围的区域进行修剪，防止种子节点及其周围的节点被破坏节点污染。另一方面，剪枝不应该对可信的用户产生很大的影响，这点取决于修剪范围的大小。修剪后的社交网络拓扑结构应该满足以下两个要求：1、应使可信种子附近的攻击边最少；2、保留尽可能多的可信节点这种方法利用了“社交活跃度”和“社交网络的局部结构相似性”。在“社交活跃度”方面，本文基于一个假设：有社交关系的正常用户，会有一定数量的社交往来。如点赞、评论或者转发行为，这里将其称为“社交活跃度”。低社交活跃度的边，对信任传播时无用且具有迷惑性的。本文将消除具有低活跃度值(Sa_i,j≤T_a)的边，T_a是社交活跃度阈值；如以下公式。这里考虑活跃度的时间期限是半年时间内。

在“社交网络的局部结构相似性”方面，本文推测可信节点和可信种子之间的相似性比可信节点和恶意节点之间的相似度高得多。因此，通过消除低相似度值(w_i,j≤T_s)的边可以消除攻击边，其中w_i,j是节点i和j的相似度值，T_s是相似度阈值。社交网络中的不同节点相似度计算法有Jaccard算法、余弦相似度和斯皮尔曼等级相关系数等。本文提出一种假设：在社交网络中，恶意用户很难同时欺骗可信节点以及其邻居节点信任他。所以我们通过用户间的共同好友来计算用户相似度。

首先，我们对于种子节点周围的区域进行修剪，防止种子节点及其周围的节点被破坏节点污染。另一方面，剪枝不应该对可信的用户产生很大的影响，这点取决于修剪范围的大小。修剪后的社交网络拓扑结构应该满足以下两个要求：1、应使可信种子附近的攻击边最少；2、保留尽可能多的可信节点。T_p是可信种子和修剪节点的最大直径，T_a是社交活跃度阈值，T_s是相似度阈值，我们可以调整这些参数。对于那些被修剪掉的节点，我们把它们先标记为恶意节点，稍后再重新评估。

4、在传播阶段已经获得经过剪枝处理的社交网络拓扑结构和一组通过种子节点选取方法选出的可信种子节点集及恶意种子节点集，本文可以根据这些种子的社交关系密切程度将可信/不可信评分传播到相邻节点。可信传播过程可以用以下公式模拟：

在整合阶段，需要将每个节点的可信评分和不可信评分统一起来才能够用于可信度评估。因为在传播阶段后，每个节点会获得两个可信评分即可信评分TR(v_i)和不可信评分DTR(v_i)。但是他们不能单独地用来区分可信节点和恶意节点。所以如何将他们结合在一起更好地评估节点可信度成为了一个问题。本方法利用了一个简单而有效的加权方案来获得最终的可信度，如公式：

Total(v_i)＝α×TR(v_i)+(1-α)×DTR(v_i)

其中TR(v_i)和DTR(v_i)分别表示节点v_i的可信评分和不可信评分。参数α用于衡量总体可信度中可信和不可信的权重。

Claims

1.一种基于信任传播的微博用户信任评估方法，其特征在于，具体包括以下步骤：

步骤1、选取种子节点；

步骤2、对于用户社交关系图执行剪枝方法；

2.根据权利要求1所述一种基于信任传播的微博用户信任评估方法，其特征在于，步骤1具体包括以下步骤：

3.根据权利要求1所述一种基于信任传播的微博用户信任评估方法，其特征在于，步骤2具体包括以下步骤：

步骤2.1、将用户活跃度表示成Sa_i,j，公式为：

其中tu_vi代表来自v_i的点赞，fw_vi代表来自v_i的转发，cm_vi代表来自v_i的评论，α是用户活跃度的权重，λ₁+λ₂+λ₃＝1，若用户间的社交活动往来比较密切，就能得到一个高的Sa_i,j值，反之，则低；

4.根据权利要求1所述一种基于信任传播的微博用户信任评估方法，其特征在于，步骤3具体包括以下步骤：

其中r(v_j)表示节点v_i的得分，α表示权重值，α＝0.85，|N(j)|是v_i周围邻居节点的总数，d是种子集归一化分数向量，不可信传播的方式与上式相同；

Total(v_i)＝α×TR(v_i)+(1-α)×DTR(v_i)