CN109919794A - 一种基于信任传播的微博用户信任评估方法 - Google Patents
一种基于信任传播的微博用户信任评估方法 Download PDFInfo
- Publication number
- CN109919794A CN109919794A CN201910194857.4A CN201910194857A CN109919794A CN 109919794 A CN109919794 A CN 109919794A CN 201910194857 A CN201910194857 A CN 201910194857A CN 109919794 A CN109919794 A CN 109919794A
- Authority
- CN
- China
- Prior art keywords
- user
- node
- seed
- credible
- social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于社交网络分析领域,具体涉及一种基于信任传播的微博用户信任评估方法。包括选取种子节点;对于用户社交关系图执行剪枝方法;偏差地设置初值,并从可信传播和不可信传播两个方向来传播可信评分。在种子节点选取方面,本发明将数据集中的节点根据用户特征进行聚类,来选取最具有传播价值的两类种子节点集——可信种子和恶意种子。为了防止破坏用户和正常用户建立起的关系对算法产生影响,本发明设计了一种基于社交活跃度和相似度的剪枝方法,能将攻击边有效地裁剪。最后利用用户社交网络图从两类种子节点同时进行信任传播,加权计算出最后的用户可信度,筛选出可信度值低的恶意用户。本发明能够有效抵御恶意用户对评估方法的攻击。
Description
技术领域
本发明属于社交网络分析领域,具体涉及一种基于信任传播的微博用户信任评估方法。
背景技术
互联网的大力发展促使多种平台出现,如购物平台、点评平台和社交平台等。在线社交网络(Online Social Network)正在流行并成为人们生活中不可或缺的一部分,微博正是其中一种。但是因为它的匿名性和开放性,微博成为了水军泛滥之所,特别容易受到恶意用户的攻击。攻击者可以无限地创建大量虚假身份,来对系统的舆论健康进行破坏。微博允许用户作为主体信息的创造者,进行交流和协作。这一独特特征加上庞大的用户基数,使其成为许多网络犯罪的温床。因此,在微博平台上对恶意用户进行清理,使正常信息不受这些账户的干扰,能够给用户提供一个更健康的平台。
微博用户可信度的评估到目前为止,都是基于两个方面的:基于行为的方法和基于图的方法。基于行为的方法的研究重点在于对用户行为特征的检测,包括用户画像和用户发表的相关微博内容。而基于图的方法的研究重点在于,如何用户和用户之间的关系、用户和微博的关系对微博用户的可信度进行评估。
M.A.Abbasi提出了一种方法来检测社交媒体中的群体行为,并为参与群体行为的用户分配较低的可信度。他提出一种CredRank算法,这种算法利用用户行为之间的相似度来为网络中的用户划分群体,然后再基于这个群体的规模给他们一个统一的可信评分。群体规模越大,可信评分就越低。Gupta和Kaushal提出了一种发送垃圾信息用户的检测方法,这种方法结合了三种学习算法——NB、聚类和决策树,以期能提高恶意用户检测的准确性。Lim等人使用行为启发式方法来检测评论中的恶意用户,这些恶意用户针对特定产品或产品组有明显的和别的发送者不同的言论。作者提出了一种评估方法,在从网站爬取来的亚马逊评论数据集上进行实验,来对评论者进行排名。Wang等人提出了第一种基于图来检测评论虚假评论发送者的方法。这些方法图的节点是三种实体:评论,评论者和商店(即评论的实体)。作者探讨了如何利用图中节点之间的交互来识别虚假评论,并提出了一种迭代计算模型来识别可疑的评论者。Akoglu等人在描述的方法中提出了FraudEagle框架,用于检测在线评论网站中的虚假评论发送者和虚假评论。该框架利用用户、产品和评论的关系结构,观察虚假评论发送者是否链接到带有负面评论的好产品或者正面评价的坏产品。利用网络边缘的情感“签名”,并通过扩展LBP的签名推理算法来推断用户、产品和评论的标签。由于用户敏感标签的单一性,导致用户的敏感信息被泄露。
发明内容
本发明的目的在于提供一种基于信任传播的微博用户信任评估方法,其能够检测出微博中恶意用户群。
一种基于信任传播的微博用户信任评估方法,具体包括以下步骤:
步骤1、选取种子节点;
步骤2、对于用户社交关系图执行剪枝方法;
步骤3、偏差地设置初值,并从可信传播和不可信传播两个方向来传播可信评分。
所述一种基于信任传播的微博用户信任评估方法,步骤1具体包括以下步骤:
步骤1.1、提取以下七个特征,作为聚类算法的特征,注册年龄,自用户注册其帐户以来的时间过去了几天;推文数,发布的推文数量;粉丝数量,关注用户的人数;朋友数量,用户关注的人数;是否验证过,1或0,表示这个账户是否经过验证;是否有简介,1或0,表示这个账户是否有自我描述;是否有URL,1或0,表示这个账户主页是否放了自己的主页;
步骤1.2、利用k-means算法进行聚类,其中k=2,将用户分为两类——可信用户和恶意用户;
步骤1.3、利用欧式距离计算方法在两类用户中选取离类簇中心最近的s个节点中;
步骤1.4、在这s个节点中,利用人工筛选,再随机选取j个点作为种子节点。
所述一种基于信任传播的微博用户信任评估方法,步骤2中剪枝方法为:
步骤2.1、将用户活跃度表示成Sai,j,公式为:
Sai,j=α×(λ1tuvi+λ2fwvi+λ3cmvi)+(1-α)×(λ1tuvj+λ2fwvj+λ3cmvj)
其中tuvi代表来自vi的点赞,fwvi代表来自vi的转发,cmvi代表来自vi的评论,α是用户活跃度的权重,λ1+λ2+λ3=1,如果用户间的社交活动往来比较密切,就可以得到一个较高的Sai,j值,反之,则低;
步骤2.2、消除具有低活跃度值(Sai,j≤Ta)的边,Ta是社交活跃度阈值;
步骤2.3、在“社交网络的局部结构相似性”方面,可信节点和可信种子之间的相似性比可信节点和恶意节点之间的相似度高,因此,消除低相似度值(wi,j≤Ts)的边消除攻击边,其中wi,j是节点i和j的相似度值,Ts是相似度阈值。
所述一种基于信任传播的微博用户信任评估方法,步骤3具体包括以下步骤:
步骤3.1、在传播阶段已经获得经过剪枝处理的社交网络拓扑结构和一组通过种子节点选取方法选出的可信种子节点集及恶意种子节点集,根据这些种子的社交关系密切程度将可信/不可信评分传播到相邻节点,可信传播过程用以下模拟:
其中r(vj)表示节点vi的得分,α表示权重值,一般来说α=0.85,|N(j)|是vi周围邻居节点的总数,d是种子集归一化分数向量,不可信传播的方式与上式相同;
步骤3.2、将每个节点的可信评分和不可信评分统一起来作为最终可信度,用于可信度评估,最终可信度公式为:
Total(vi)=α×TR(vi)+(1-α)×DTR(vi)
其中TR(vi)和DTR(vi)分别表示节点vi的可信评分和不可信评分,参数α用于衡量总体可信度中可信和不可信的权重。
本发明的有益效果在于:
本发明提出了基于信任传播的微博用户信任评估方法,对微博中用户的可信度进行评估进而分类,并能够有效抵御恶意用户对评估方法的攻击。在种子节点选取方面,将数据集中的节点根据用户特征进行聚类,来选取最具有传播价值的两类种子节点集——可信种子和恶意种子。为了防止破坏用户和正常用户建立起的关系对算法产生影响,本发明设计了一种基于社交活跃度和相似度的剪枝方法。可以将攻击边有效地裁剪。最后利用用户社交网络图进行传播,从两类种子节点同时进行信任传播,最后加权计算出最后的用户可信度,筛选出来可信度值低的恶意用户。
附图说明
图1为用户ui和用户uj的关系;
图2为种子节点选取方法流程图;
图3为剪枝方法流程图;
图4是信任传播方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述:
如附图1所示,为用户ui和用户uj的关系;如附图2所示,为种子节点选取方法流程图;如附图3所示,为剪枝方法流程图;如附图4所示,是信任传播方法流程图。
1、在微博中,用户以及他们的社交关系(如关注者和关注关系)和社交活动(如发布微博和热门话题)是主要实体。微博中的一些典型社交活动总结见表1。
表1微博中的五种社交活动
为了区分恶意活动与合法活动,非常直观的想法是通过衡量每种实体的可信度来区分这些实体的社交活动是否是恶意活动。这个想法与信任模型的研究有关,并且已经在心理学和社会科学中得到了广泛的研究。这种划分多个实体的模型是用来衡量微博中社交活动的可信度,它是传统信任模型的扩展。其中每个实体(用户/微博/热门主题)都会计算其可信度得分。实体的可信度越低,相关社交活动越不可信。
在用户社交关系图中,我们只考虑一种实体,即用户,且只根据传播关系来考虑实体的可信程度。在用户社交关系图中,信任分数会从一个用户流转到另一个用户。连接图中的边,代表关注关系。如附图1所示,为用户ui和用户uj的关系,从ui到uj的边代表用户ui关注了用户uj。
2、首先,我们提取了以下七个特征,作为聚类算法的特征。1、注册年龄,自用户注册其帐户以来的时间过去了几天;2、推文数,发布的推文数量;3、粉丝数量,关注用户的人数;4、朋友数量,用户关注的人数;5、是否验证过,1或0,表示这个账户是否经过验证;6、是否有简介,1或0,表示这个账户是否有自我描述;7、是否有URL,1或0,表示这个账户主页是否放了自己的主页;然后利用k-means算法进行聚类,其中k=2。本文根据表中中提到的7种特征值,将用户分为两类——可信用户和恶意用户。然后利用欧式距离计算方法在两类用户中选取离类簇中心最近的s个节点中。在这s个节点中,利用人工筛选,再随机选取j个点作为种子节点。
3、首先,我们对于种子节点周围的区域进行修剪,防止种子节点及其周围的节点被破坏节点污染。另一方面,剪枝不应该对可信的用户产生很大的影响,这点取决于修剪范围的大小。修剪后的社交网络拓扑结构应该满足以下两个要求:1、应使可信种子附近的攻击边最少;2、保留尽可能多的可信节点这种方法利用了“社交活跃度”和“社交网络的局部结构相似性”。在“社交活跃度”方面,本文基于一个假设:有社交关系的正常用户,会有一定数量的社交往来。如点赞、评论或者转发行为,这里将其称为“社交活跃度”。低社交活跃度的边,对信任传播时无用且具有迷惑性的。本文将消除具有低活跃度值(Sai,j≤Ta)的边,Ta是社交活跃度阈值;如以下公式。这里考虑活跃度的时间期限是半年时间内。
Sai,j=α×(λ1tuvi+λ2fwvi+λ3cmvi)+(1-α)×(λ1tuvj+λ2fwvj+λ3cmvj)
其中tuvi代表来自vi的点赞,fwvi代表来自vi的转发,cmvi代表来自vi的评论,α是用户活跃度的权重,λ1+λ2+λ3=1,如果用户间的社交活动往来比较密切,就可以得到一个较高的Sai,j值,反之,则低;
在“社交网络的局部结构相似性”方面,本文推测可信节点和可信种子之间的相似性比可信节点和恶意节点之间的相似度高得多。因此,通过消除低相似度值(wi,j≤Ts)的边可以消除攻击边,其中wi,j是节点i和j的相似度值,Ts是相似度阈值。社交网络中的不同节点相似度计算法有Jaccard算法、余弦相似度和斯皮尔曼等级相关系数等。本文提出一种假设:在社交网络中,恶意用户很难同时欺骗可信节点以及其邻居节点信任他。所以我们通过用户间的共同好友来计算用户相似度。
首先,我们对于种子节点周围的区域进行修剪,防止种子节点及其周围的节点被破坏节点污染。另一方面,剪枝不应该对可信的用户产生很大的影响,这点取决于修剪范围的大小。修剪后的社交网络拓扑结构应该满足以下两个要求:1、应使可信种子附近的攻击边最少;2、保留尽可能多的可信节点。Tp是可信种子和修剪节点的最大直径,Ta是社交活跃度阈值,Ts是相似度阈值,我们可以调整这些参数。对于那些被修剪掉的节点,我们把它们先标记为恶意节点,稍后再重新评估。
4、在传播阶段已经获得经过剪枝处理的社交网络拓扑结构和一组通过种子节点选取方法选出的可信种子节点集及恶意种子节点集,本文可以根据这些种子的社交关系密切程度将可信/不可信评分传播到相邻节点。可信传播过程可以用以下公式模拟:
其中r(vj)表示节点vi的得分,α表示权重值,一般来说α=0.85,|N(j)|是vi周围邻居节点的总数,d是种子集归一化分数向量,不可信传播的方式与上式相同;
在整合阶段,需要将每个节点的可信评分和不可信评分统一起来才能够用于可信度评估。因为在传播阶段后,每个节点会获得两个可信评分即可信评分TR(vi)和不可信评分DTR(vi)。但是他们不能单独地用来区分可信节点和恶意节点。所以如何将他们结合在一起更好地评估节点可信度成为了一个问题。本方法利用了一个简单而有效的加权方案来获得最终的可信度,如公式:
Total(vi)=α×TR(vi)+(1-α)×DTR(vi)
其中TR(vi)和DTR(vi)分别表示节点vi的可信评分和不可信评分。参数α用于衡量总体可信度中可信和不可信的权重。
Claims (4)
1.一种基于信任传播的微博用户信任评估方法,其特征在于,具体包括以下步骤:
步骤1、选取种子节点;
步骤2、对于用户社交关系图执行剪枝方法;
步骤3、偏差地设置初值,并从可信传播和不可信传播两个方向来传播可信评分。
2.根据权利要求1所述一种基于信任传播的微博用户信任评估方法,其特征在于,步骤1具体包括以下步骤:
步骤1.1、提取以下七个特征,作为聚类算法的特征,注册年龄,自用户注册其帐户以来的时间过去了几天;推文数,发布的推文数量;粉丝数量,关注用户的人数;朋友数量,用户关注的人数;是否验证过,1或0,表示这个账户是否经过验证;是否有简介,1或0,表示这个账户是否有自我描述;是否有URL,1或0,表示这个账户主页是否放了自己的主页;
步骤1.2、利用k-means算法进行聚类,其中k=2,将用户分为两类——可信用户和恶意用户;
步骤1.3、利用欧式距离计算方法在两类用户中选取离类簇中心最近的s个节点中;
步骤1.4、在这s个节点中,利用人工筛选,再随机选取j个点作为种子节点。
3.根据权利要求1所述一种基于信任传播的微博用户信任评估方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1、将用户活跃度表示成Sai,j,公式为:
Sai,j=α×(λ1tuvi+λ2fwvi+λ3cmvi)+(1-α)×(λ1tuvj+λ2fwvj+λ3cmvj)
其中tuvi代表来自vi的点赞,fwvi代表来自vi的转发,cmvi代表来自vi的评论,α是用户活跃度的权重,λ1+λ2+λ3=1,若用户间的社交活动往来比较密切,就能得到一个高的Sai,j值,反之,则低;
步骤2.2、消除具有低活跃度值(Sai,j≤Ta)的边,Ta是社交活跃度阈值;
步骤2.3、在“社交网络的局部结构相似性”方面,可信节点和可信种子之间的相似性比可信节点和恶意节点之间的相似度高,因此,消除低相似度值(wi,j≤Ts)的边消除攻击边,其中wi,j是节点i和j的相似度值,Ts是相似度阈值。
4.根据权利要求1所述一种基于信任传播的微博用户信任评估方法,其特征在于,步骤3具体包括以下步骤:
步骤3.1、在传播阶段已经获得经过剪枝处理的社交网络拓扑结构和一组通过种子节点选取方法选出的可信种子节点集及恶意种子节点集,根据这些种子的社交关系密切程度将可信/不可信评分传播到相邻节点,可信传播过程用以下模拟:
其中r(vj)表示节点vi的得分,α表示权重值,α=0.85,|N(j)|是vi周围邻居节点的总数,d是种子集归一化分数向量,不可信传播的方式与上式相同;
步骤3.2、将每个节点的可信评分和不可信评分统一起来作为最终可信度,用于可信度评估,最终可信度公式为:
Total(vi)=α×TR(vi)+(1-α)×DTR(vi)
其中TR(vi)和DTR(vi)分别表示节点vi的可信评分和不可信评分,参数α用于衡量总体可信度中可信和不可信的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910194857.4A CN109919794B (zh) | 2019-03-14 | 2019-03-14 | 一种基于信任传播的微博用户信任评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910194857.4A CN109919794B (zh) | 2019-03-14 | 2019-03-14 | 一种基于信任传播的微博用户信任评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919794A true CN109919794A (zh) | 2019-06-21 |
CN109919794B CN109919794B (zh) | 2022-07-29 |
Family
ID=66964891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910194857.4A Active CN109919794B (zh) | 2019-03-14 | 2019-03-14 | 一种基于信任传播的微博用户信任评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919794B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861122A (zh) * | 2020-06-18 | 2020-10-30 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN112839025A (zh) * | 2020-11-26 | 2021-05-25 | 北京航空航天大学 | 基于节点关注和转发特征的Sybil攻击检测方法和电子设备 |
CN113821706A (zh) * | 2021-09-24 | 2021-12-21 | 河南科技大学 | 基于软间隔支持向量机的社交网络用户可信度评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
CN109376301A (zh) * | 2018-10-09 | 2019-02-22 | 新乡学院 | 一种融合社交信息的个性化推荐方法 |
-
2019
- 2019-03-14 CN CN201910194857.4A patent/CN109919794B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
CN109376301A (zh) * | 2018-10-09 | 2019-02-22 | 新乡学院 | 一种融合社交信息的个性化推荐方法 |
Non-Patent Citations (3)
Title |
---|
XU, KY等: "Micro-blog User Trustworthiness Evaluation", 《11TH IEEE INTERNATIONAL CONFERENCE ON ANTI-COUNTERFEITING,SECURITY,AND IDENTIFICATION(ASID)》 * |
刘蓉等: "恶意社交机器人检测技术研究", 《通信学报》 * |
潘理等: "在线社交网络群体发现研究进展", 《电子与信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861122A (zh) * | 2020-06-18 | 2020-10-30 | 北京航空航天大学 | 一种基于传播属性相似性的社交网络信息可信度评估方法 |
CN112839025A (zh) * | 2020-11-26 | 2021-05-25 | 北京航空航天大学 | 基于节点关注和转发特征的Sybil攻击检测方法和电子设备 |
CN113821706A (zh) * | 2021-09-24 | 2021-12-21 | 河南科技大学 | 基于软间隔支持向量机的社交网络用户可信度评估方法 |
CN113821706B (zh) * | 2021-09-24 | 2024-03-19 | 河南科技大学 | 基于软间隔支持向量机的社交网络用户可信度评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109919794B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Application of motion sensor based on neural network in basketball technology and physical fitness evaluation system | |
Drost et al. | Thwarting the nigritude ultramarine: Learning to identify link spam | |
Kang et al. | Multimodal game bot detection using user behavioral characteristics | |
CN108874927A (zh) | 基于超图和随机森林的入侵检测方法 | |
CN109919794A (zh) | 一种基于信任传播的微博用户信任评估方法 | |
CN106716964A (zh) | 用于没有用户跟踪的个人化的隐私保护cookie | |
Fu et al. | Robust spammer detection in microblogs: Leveraging user carefulness | |
Lee et al. | In-game action sequence analysis for game bot detection on the big data analysis platform | |
CN110134876A (zh) | 一种基于群智传感器的网络空间群体性事件感知与检测方法 | |
Hu et al. | Personalized tag recommendation using social influence | |
CN107798080B (zh) | 一种面向钓鱼url检测的相似样本集构造方法 | |
Cao et al. | Collusion-aware detection of review spammers in location based social networks | |
Wei et al. | Fighting against web spam: a novel propagation method based on click-through data | |
Datta et al. | Identifying misaligned inter-group links and communities | |
Zuech et al. | Investigating rarity in web attacks with ensemble learners | |
Petersen | Data mining for network intrusion detection: A comparison of data mining algorithms and an analysis of relevant features for detecting cyber-attacks | |
Ahmad et al. | Trust amongst rogues? A hypergraph approach for comparing clandestine trust networks in MMOGs | |
Nel et al. | Rumour detection and monitoring in open source intelligence: understanding publishing behaviours as a prerequisite | |
Roy et al. | The ones that got away: False negative estimation based approaches for gold farmer detection | |
Wang et al. | Temporal dual-attributed network generation oriented community detection model | |
Stanovsky et al. | Spot the odd man out: Exploring the associative power of lexical resources | |
Hang et al. | MEGA: Machine learning-enhanced graph analytics for infodemic risk management | |
Patria et al. | Cheat detection on online chess games using convolutional and dense neural network | |
Ortega | Detection of dishonest behaviors in on-line networks using graph-based ranking techniques | |
Tuli | Modeling and Twitter-based surveillance of smoking contagion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |