CN111898041A

CN111898041A - 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法

Info

Publication number: CN111898041A
Application number: CN202010700511.XA
Authority: CN
Inventors: 张凤荔; 谭琪; 王瑞锦; 张志扬; 刘楠; 李志�; 郭鹏宇; 王雪婷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-06
Anticipated expiration: 2040-07-20
Also published as: CN111898041B

Abstract

本发明公开了一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的圈层用户综合影响力评估方法包括：用户身份信息映射、用户间接影响力评估、用户直接影响力评估、用户影响力异常检测、影响力综合评估、影响力分层标签化等步骤。本发明通过对数据库中社交网络用户属性信息与圈层重点事件信息进行影响力的度量分析，并对量化的影响力进行异常检测，减少复杂关系网络中，对用户影响力评估的复杂度，最终通过标签化得到用户影响力评估结果进行语义化表达，直观易懂。

Description

一种结合社交网络的圈层用户综合影响力评估及伪造判别方法

技术领域

本发明涉及网络影响力评估领域，尤其涉及一种结合社交网络的圈层用户综合影响力评估及伪造判别方法。

背景技术

借助于大数据和移动社交技术的迅速发展，如今的社交网络呈现出显著的移动化、本地化特征。目前用户影响力的大多研究方法都是在多元信息量的基础上进行的，只关注个人用户的直接行为与自定义的基本信息，而未深度融合所属圈层、级联转发结构、时间量化因子等重要因素，忽略了信息传播过程中用户间的行为变化以及真实的社交网络存在着信息不可靠或缺失等问题。用户真实的影响力虽然无法从技术方面直接衡量，但是可以通过真实的行为数据去评估，比如转发、回复、参与的讨论圈等，然后根据异常检测，评估故意伪造的可能性，从而更精准地反映用户在信息传播过程中的导向作用。社交网络的圈层作为一种用户的频繁活动范围，有利于分析用户在该话题领域的信用度等因素，更容易将之与其他用户相联系。所以，将社交网络的圈层纳入用户影响力评估中，基于行为数据挖掘它们的潜在关系，可以有效地彰显用户的意见领袖地位和凝聚力。

发明内容

本发明的目的在于，针对上述问题，提出一种结合社交网络的圈层用户综合影响力评估及伪造判别方法。

本发明提供一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的圈层用户综合影响力评估方法通过对数据库中社交网络用户属性信息与圈层重点事件信息进行影响力的度量分析，并对量化的影响力进行异常检测，得到用户的综合影响力评估值；其处理具体包括如下步骤：

用户身份信息映射：将目标用户的在社交网路中的身份信息映射到数据库，并以RDF数据集的形式进行存储；

用户间接影响力评估：选取社交网络参与帖子传播过程所有用户点集合U‘＝{u’₁，u‘₂，...，u′_n}中帖子社区标签构成Region′＝{r′₁，r′₂，...，r′_u}及其评论内容S′＝{s′₁，s′₂，...，s′_l}，提取话题与社区特征得到用户分类集G‘＝{G₁，G₂，...，G_n}，根据对用户分类集中每个圈层社交网络的用户属性指标权重调研结果，将属性值量化为同一个尺度空间构成属性子集P＝{p_n,q∈P′}(q＝1，2，...，h)，遍历该社交网络圈层的全部用户计算间接影响力得分，对所有用户进行排序得到用户间接影响力排序集合；

用户直接影响力评估：遍历该社交网络圈层的全部用户，根据用户参加的圈层重点事件，获取该事件用户完整级转发路径user_1/user_2/.../user_n、对应的加入时间ti,n以及该事件演化所耗费的总时长ti，通过SDRank算法计算用户直接影响力得分，对所有用户进行排序，得到用户直接影响力排序集合；

用户影响力异常检测：根据用户的情感极性值、兴趣度和异常定位度计算用户异常行为的风险值；

影响力综合评估：对获得的影响力参数值进行归一化调整，构建基于基本影响力和异常检测评估的综合影响力模型，计算用户影响力评估得分；

影响力分层标签化：根据基本影响力和异常检测的结果对用户影响力进行分层标签化。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的用户身份信息映射包括如下步骤：

S101：根据关系型数据库的逻辑表，将目标用户在社交网络中的身份信息生成为映射文件；

S102：解析生成的映射文件，获取其中包含的映射元素；

S103：分析获取的映射元素，获取其中子元素和逻辑表及其属性列的映射规则；

S104：从关系型数据库中获取逻辑表中的元组，按照映射规则将元组中对应属性列映射为RDF术语；

S105：将得到的RDF术语组合为RDF三元组，输出到RDF数据集。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的用户间接影响力评估包括如下子步骤：

S201：选取社交网络圈层用户集参与帖子传播过程的所有用户点集合U‘＝{u’₁，u‘₂，...，u′_n}中任意两个用户点及其对应的帖子社区标签Region′＝{r′₁，r′₂，...，r′_u}和评论内容S′＝{s′₁，s′₂，...，s′_l}；

S202：从获取的帖子社区标签Region′＝{r′₁，r′₂，...，r′_u}和评论内容S′＝{s′₁，s′₂，...，s′_l}提取两者的话题与社区特征；

S203：重复步骤S201和S202直至获取所有用户的特征，根据相似特征对用户进行分类，得到用户分类集G‘＝{G₁，G₂，...，G_n}，该集合中的每个元素表示一类圈层社交网络；

S204：提取圈层社交网络的全部用户属性P′＝{p′_n,1，p′_n,2，...，p′_n,j}，其中，p′_n,j为用户u_n的第j个属性，根据层次分析法和熵权法确定的指标权重调研结果，选取用户j个属性中的h个属性，并将相关的属性值量P＝{p_n,q∈P′}(q＝1，2，...，h)化为同一个尺度空间，从而构成了一个属性子集；

S205：根据步骤S204中获取的h个属性，遍历该社交网络圈层的全部用户，计算他们的间接影响力得分，对所有用户进行排序，得到用户间接影响力排序集合。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的对用户进行分类，得到用户分类集G‘＝{G₁，G₂，...，G_n}的过程包括如下步骤：

利用LDA模型获得用户的圈层特征：

S301：按照先验概率p(i′_kI)选择一条帖子及其评论内容s′_l，包括Beta分布和Dirichlet分布；

(1)对于参数α>0,β>0,取值范围为[0,1]的随机变量x的Beta分布概率密度函数为：

且

(2)Dirichlet的概率密度函数为：

且

其中，Beta分布是二项式分布的共轭先验分布，而Dirichlet分布是多项式分布的共轭先验分布。

S302：从Dirichlet分布α中取样生成帖子内容s′_l的主题分布θ_i；

S303：从主题的多项式分布θ_i中取样生成帖子内容第j个词的主题z_i,j；LDA采用词袋模型，M个帖子会对应M个独立Dirichlet-Multinomial共轭结构，K个主题会对应K个独立的Dirichlet-Multinomial共轭结构，LDA的整个物理过程实际就是两个Dirichlet同轴分布；

S304：从Dirichlet分布β中取样生成主题z_i,j对应的词语分布

S305：从词语的多项式分布

中通过GibbsSampling最终生成话题标签ω_i,j，所有话题标签构成的集合为Topic′＝{t′₁，t′₂，...，t′_u}；

S306：用户参与的所有圈层重点事件帖子对应的话题标签集合Topic′与社区标签集合Region′作为圈层标签集合，选择出现总次数前v个的圈层标签作为该用户n的圈层特征c_n＝{c₁，c₂，...，c_v}；

用户综合相似度计算：

S311：结合Jaccard相关系数、余弦相似度和欧几里德距离，计算用户的综合相似度：

similarity(m,n)＝α*Jaccard(m,n)+β*Sim(m,n)+γ*Euclid(m,n)且α+β+γ＝1；

其中：

Jaccard相关系数：

主要用于计算两个用户圈层特征的并集和交集比值来度量用户相似度；

余弦相似度：

通过计算两个用户圈层特征向量间的夹角余弦值衡量两个用户的相似度，首先找到两个用户共同的圈层标签，其出现次数作为向量维度值，则这两个用户向量分别为c′_m和c′_n，然后再计算两者的余弦值，余弦相似度更加注重方向上的相似性而非距离上的；

欧几里德距离：

计算多维空间各个点的绝对距离，需要保证各维度指标在相同的刻度级别。所以，将用户的全部圈层标签值转化为0/1，维度空间为两个用户的圈层标签合集

其中，

表示用户m的第i个圈层标签的0/1值；

S312：遍历整个社交网络的用户，按步骤S311的方式迭代划分，当出现最紧密的圈层，且网络结构不再改变时，即得到网络的最优圈层分割，停止迭代，最终得到社交网络的圈层用户集G‘＝{G₁，G₂，...，G_n}。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的遍历该社交网络圈层的全部用户，计算他们的间接影响力得分的过程包括如下步骤：

S321：根据用户互动性、用户创造力和用户发表内容质量，计算用户活跃度：

其中，maxCk、maxIk和maxQk表示所有用户在时间h内参与圈层所有重点事件过程中的最大创造力、最大互动性和最好发表内容质量；

(1)用户互动性：

其中，Mm表示用户m在时间h内参与圈层所有重点事件过程中，对其他用户的评论/转发总次数；

(2)用户创造力：

其中，Nm表示用户m在时间h内参与圈层所有重点事件过程中的发表微博次数；

(3)用户发表内容质量：

其中，Rm、Cm、Nm表用户m在时间h内参与圈层所有重点事件过程中的转发量、评论量、发表微博总数；

S322：计算用户权威值，

由用户i分配给用户j的活跃度值比例表示，且用户i关注了包括用户j的n个用户；

S323：利用UAR算法计算用户的间接影响力：

其中，m为在时间h内用户i参与的圈层所有重点事件的帖子总数，F(i)为用户i的粉丝集合，d为阻尼系数；

S324：不断迭代该用户的间接影响力值，直到所在圈层社交网络所有用户的UAR值收敛，并对所有用户进行排序，得到用户间接影响力排序集合。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的用户直接影响力评估包括如下子步骤：

S401：根据目标用户u参加的所有圈层重点事件，获取某事件的用户u完整级联转发路径user_1/user_2/.../user_n、对应的加入时间ti,n以及该事件演化所耗费的总时长ti；

S402：遍历该社交网络圈层G＝(U，E，T)的全部用户，同时完成所参与的圈层重点事件的信息收集，最后计算他们的直接影响力得分，对所有用户进行排序，得到用户直接影响力排序集合；

其中，U＝{u₁，u₂，...，u_n}是由该圈层社交网络全部用户构建的点集合，E＝{(u_m，u_n)|u_m与u_n∈U且u_m被u_n转发}是由转发行为构成的边集合，T＝{t_(m,n),k|在圈层重点事件i_k中，u_m被u_n转发}是由转发时间构成的集合。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的直接影响力得分的计算采用SDRank算法，其过程包括如下步骤：S411：根据网页访问PR值、结构度中心性算法值与调节因子计算用户直接影响力：

其中，SDRank(n)是用户n的影响力值，φ是调节因子的权重，μ是结构度中心性因子的权重，PR(n)是用户n的PR值，SD(n)是用户n的结构度中心性算法值；

所述网页访问PR值的计算方法为：

其中，PR(pi)是网页pi的PageRank算法值；Spi是出链到网页pi的所有网页集合；Outdegree(pj)是网页pj的出链总数；N是网页总数；α是阻尼系数，常取0.85；

所述结构度中心性算法值的计算方法为：

SD(n)＝α|Outdegree1(n)|+β(|Outdegree2(n)|+|Outdegree3(n)|)；

其中，SD(n)是用户n的结构度中心性算法值；n是任意用户；Outdegree1(n)是一度邻居集合；Outdegree2(n)是二度邻居集合；Outdegree3(n)是三度邻居集合；α、β是阻尼系数；

所述调节因子的计算方式为：

其中，factor(n)是用户n的调节因子；Retweet(n)是用户n参与的转发帖子集合；Ti是帖子i传播过程所耗费的时间；tn是用户n加入帖子i的传播过程时间；RetweetNumi,n是用户n在帖子i传播过程中被转发和转发的总次数。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的计算用户异常行为的风险值方式为：

根据用户在近期发布的帖子所有评论集合CT_u＝{ct₁,ct₂,...,ct_k}，近期的定位集合Location_u＝{ln₁,ln₂,...,ln_i}，近期的帖子主题集合Topic_u＝{tc₁,tc₂,...,tc_j}，兴趣集合Interest_u＝{it₁,it₂,...,it_l}，常用定位集合Place_u＝{pl₁,pl₂,...,pl_m}中的情感极性值、兴趣度和异常定位度计算风险值，其计算方式为：

Risk(u)＝α*|S(u)|+β*I(u)+γ*L(u)；

所述情感极性值的计算方式为：

若LP>LN，则

且＞0

若LP＝LN，则Q_j＝0

若LP<LN，则

其中，Q_j表示微博j的情感极性值，LP表示正向评论数，LN表示负向评论数，|W(u)|表示用户u的发布微博数；

所述兴趣度的计算方式为：

所述异常定位度的计算方式为：

一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的影响力综合评估的过程包括如下步骤：

S501：对所有参数进行数值归一化处理，计算公式为：

其中，Pnorm是归一化后的标准值，P是某用户的某一参数值，Pmin是所有用户该参数的最小值，Pmax是所有用户该参数的最大值；

S502：得到归一化调整后的用户直接影响力和基本影响力的计算公式：

B(n)＝SDR(n)+UAR_norm(n)；

S503：构建用户综合影响力评估模型：

其中，φ(·)是用户影响力评估函数，B表示目标用户的基本影响力，T表示基于情感倾向、移动倾向与兴趣倾向的异常检测评估结果。

进一步的，一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，所述的影响力分层标签化的过程包括对基本影响力的得分赋予一级标签和对异常检测结果赋予二级标签，所述一级标签包括“意见领袖”、“热门博主”和“普通网民”；所述二级标签包括情感倾向中的“正能量”、“中立”、“负能量”，移动倾向中的“频繁”、“偶尔”、“极少”，兴趣倾向中的“很感兴趣”、“一般兴趣”、“不感兴趣”。

本发明的方法可以减少复杂关系网络中，对用户影响力评估的复杂度，最终通过标签化得到用户影响力评估结果进行语义化表达，直观易懂。

本发明有以下优点：

(1)以转发行为数据为基准，不需要依赖过多的其他行为数据，减少了大量的数据分析工作；

(2)避免了构造冗余繁杂的社交网络用户关系图，直接根据目标用户定位其所拥有的属性信息和参与的圈层重点事件；

(3)给出了用户影响力评估的定量和定性方案，更直观地描述社交网络中用户的真实影响力。

附图说明

图1是结合社交网络的圈层用户综合影响力评估方法流程示意图。

图2是基本影响力与异常检测的分层标签化示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出了一种实施例，参照图1，图1为本发明提出的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法流程示意图。

在本实施例中，提供如下处理步骤：

(一)目标用户的身份信息映射

社交网络的用户信息一般以结构化数据和文本型非结构化数据存储，该存储方式不利于发掘社交网络用户之间的深层信息和隐含关系。本发明将社交网络用户的信息映射为RDF数据集该流程描述如下：

(1)根据关系型数据库的逻辑表，生成映射文件；

(2)解析映射文件，获取其中包含的映射元素；

(3)分析映射元素，获取其中子元素和逻辑表及其属性列的映射规则；

(4)从关系型数据库中获取逻辑表中的元组，按照映射规则将元组中对应属性列映射为RDF术语；

(5)将得到的RDF术语组合为RDF三元组，输出到RDF数据集。

(二)用户间接影响力评估

主体所感受到的影响程度是由不同客体在不同时期的行为组合而成的，影响的有效性应当考虑人际相似性、论据质量或来源可信度等相关因素。同时，除了各种影响策略的单独效果之外，任何组合策略的同时实施也可能会影响用户的感知和行为。用户影响力受所处圈层所限，关注数、转发量、粉丝量和发帖量及其频率构成了用户的主要信息传播能力，而点赞量与评论量则反映了传播效果。本发明将用户间接影响力评估任务描述为：

(1)给定社交网络所有圈层重点事件的帖子I‘＝{i‘₁，i’₂，···，i′_k}，一条帖子由i′_k＝(U′，R‘，S‘)表示，其中，U‘＝{u’₁，u‘₂，...，u′_n}是由参与该帖子传播过程的所有用户构成的点集合，Region′＝{r′₁，r′₂，...，r′_u}是由该帖子发布的所有社区标签构成，S′＝{s′₁，s′₂，...，s′_l}是由该帖子内容及其所有评论内容构成；

(2)初始化一个圈层用户集并将其初始化为空，即G＝{φ}；

(3)在U′中选取任意两个用户及其对应的R′与S′，从中提取两者的话题与社区特征，不断重复至获取所有用户的特征，再将具有相似特征的用户分为一类，最终得到一个用户分类集G‘＝{G₁，G₂，...，G_n}，该集合中的每个元素表示一类圈层社交网络；

(4)给定社交网络该圈层的全部用户属性P′＝{p′_n,1，p′_n,2，...，p′_n,j}，其中，p′_n,j是用户u_n的第j个属性。根据层次分析法和熵权法确定的指标权重调研结果，选取用户j个属性中的h个属性，并将相关的属性值量化为同一个尺度空间，从而构成了一个属性子集P＝{p_n,q∈P′}(q＝1，2，...，h)；

(5)根据上面的h个属性，遍历该社交网络圈层的全部用户，计算他们的间接影响力得分，对所有用户进行排序，得到用户间接影响力排序集合。

由上面的任务可知，圈层社交网络的划分和用户间接影响力得分的计算是该任务的关键部分，本发明选择了LDA模型与用户相似度综合计算来确定圈层社交网络的划分以及UAR算法来计算用户的间接影响力。UAR算法的值区间为[0，1]，且得分越高，该用户的间接影响力越大。

LDA模型的定义如下：

(1)按照先验概率p(i′_k|I)选择一条帖子及其评论内容s′_l，包括Beta分布和Dirichlet分布。

对于参数α>0,β>0,取值范围为[0,1]的随机变量x的Beta分布概率密度函数为：

且

Dirichlet的概率密度函数为：

且

(2)从Dirichlet分布α中取样生成帖子内容s′_l的主题分布θ_i。

(3)从主题的多项式分布θ_i中取样生成帖子内容第j个词的主题z_i,j。LDA采用词袋模型，M个帖子会对应M个独立Dirichlet-Multinomial共轭结构，K个主题会对应K个独立的Dirichlet-Multinomial共轭结构，LDA的整个物理过程实际就是两个Dirichlet同轴分布。

(4)从Dirichlet分布β中取样生成主题z_i,j对应的词语分布

(5)从词语的多项式分布

中通过GibbsSampling最终生成话题标签ω_i,j，所有话题标签构成的集合为Topic′＝{t′₁，t′₂，...，t′_u}

(6)用户参与的所有圈层重点事件帖子对应的话题标签集合Topic′与社区标签集合Region′作为圈层标签集合，选择出现总次数前v个的圈层标签作为该用户n的圈层特征c_n＝{c₁，c₂，...，c_v}

在上述圈层特征的基础上，任意用户m和用户n的相似度综合计算的定义如下：

(1)Jaccard相关系数：主要用于计算两个用户圈层特征的并集和交集比值来度量用户相似度。

(2)余弦相似度：通过计算两个用户圈层特征向量间的夹角余弦值衡量两个用户的相似度，首先找到两个用户共同的圈层标签，其出现次数作为向量维度值，则这两个用户向量分别为c′_m和c′_n，然后再计算两者的余弦值，余弦相似度更加注重方向上的相似性而非距离上的。

(3)欧几里德距离：计算多维空间各个点的绝对距离，需要保证各维度指标在相同的刻度级别。所以，将用户的全部圈层标签值转化为0/1，维度空间为两个用户的圈层标签合集

其中，

表示用户m的第i个圈层标签的0/1值。

(4)用户相似度综合计算：结合Jaccard相关系数、余弦相似度和欧几里德距离的优劣性，综合评估用户的相似度。若similarity(m,n)∈(0.5,1]，则将用户m与用户n划分至同一圈层。

similarity(m,n)＝α*Jaccard(m,n)+β*Sim(m,n)+γ*Euclid(m,n)且α+β+γ＝1

(5)迭代划分圈层：遍历整个社交网络的用户，按(4)的方式迭代划分，当出现最紧密的圈层，且网络结构不再改变时，即得到网络的最优圈层分割，停止迭代，最终得到社交网络的圈层用户集G‘＝{G₁，G₂，...，G_n}。

结合社交网络圈层，用户的UAR算法定义如下：

(1)用户互动性：

其中，Mm表示用户m在时间h内参与圈层所有重点事件过程中，对其他用户的评论/转发总次数。

(2)用户创造力：

其中，Nm表示用户m在时间h内参与圈层所有重点事件过程中的发表微博次数。

(3)用户发表内容质量：

其中，Rm、Cm、Nm表用户m在时间h内参与圈层所有重点事件过程中的转发量、评论量、发表微博总数。

(4)用户活跃度：

其中，maxCk、maxIk和maxQk表示所有用户在时间h内参与圈层所有重点事件过程中的最大创造力、最大互动性和最好发表内容质量。

(5)用户权威值由用户i分配给用户j的活跃度值比例表示，且用户i关注了包括用户j的n个用户。

(6)用户的间接影响力：

其中，m为在时间h内用户i参与的圈层所有重点事件的帖子总数，F(i)为用户i的粉丝集合，d为阻尼系数(常设为0.85)。

(7)不断迭代该用户的间接影响力值，直到所在圈层社交网络所有用户的UAR值收敛，并对所有用户进行排序，得到用户间接影响力排序集合。

(三)用户直接影响力评估

某条帖子被转发的次数是帖子以及其作者受欢迎程度的衡量标准。寻找影响力用户和理解信息传播的主要研究方法之一涉及了用户操作，在其所有的度量中，转发行为最为重要，它有利于找准信息来源和传播方向，同时，时间维度也具有一定的重要性。用户直接影响力评估任务描述如下：

(1)假设有一个目标用户u，用户u参与的k个圈层重点事件帖子为I＝{i₁，i₂，···，i_k}；

(2)给定目标用户u的圈层社交网络G＝(U，E，T)。其中，U＝{u₁，u₂，...，u_n}是由该圈层社交网络全部用户构建的点集合，E＝{(u_m，u_n)|u_m与u_n∈U且u_m被u_n转发}是由转发行为构成的边集合，T＝{t_(m,n),k|在圈层重点事件i_k中，u_m被u_n转发}是由转发时间构成的集合；

(3)根据目标用户u参加的所有圈层重点事件，获取某事件的用户u完整级联转发路径user_1/user_2/.../user_n、对应的加入时间ti,n以及该事件演化所耗费的总时长ti；

(4)遍历该社交网络圈层的全部用户，同时完成所参与的圈层重点事件的信息收集，最后计算他们的直接影响力得分，对所有用户进行排序，得到用户直接影响力排序集合。

由上面的任务可知，用户直接影响力得分的计算是该任务的关键部分，本发明设计了SDRank算法来评估用户的直接影响力。SDRank算法的基本思想是：首先，基于3度影响力原则及其传播有效论，通过分析三度结构的中心性，改进PageRank算法；其次，着重考虑活跃用户的平均被转发数；最后，再综合加入时间的影响，构成调节因子，进一步改善用户直接影响力的有效性和适用性。SDRank算法的值区间为[0，1]，且得分越高，该用户的直接影响力越大。

SDRank算法的定义如下：

(1)PR算法值：PageRank仿照学术论文以引用量评估重要性的方法，根据网页内的链接数自适应调整链接访问和随机访问网页过程的比例，认为链接数少的网页随机访问其他网页的概率大于链接数多的网页。也就是说，若某网页的PR值相对较高，则该网页多次被链接到或是链接到PR值很高的网页。具体地，若存在出入链，则对所有出链节点均匀分配机会；若不存在出入链，则强制对所有网页出链；若只存在自链，则按一定概率α对所有网页出链。

PageRank值的计算方法为：

其中，PR(pi)是网页pi的PageRank算法值；Spi是出链到网页pi的所有网页集合；Outdegree(pj)是网页pj的出链总数；N是网页总数；α是阻尼系数，常取0.85。

(2)结构度中心性：为更好地刻画社交网络，假设位于第二度和第三度结构的邻居具有相同的影响衰减性。

结构度中心性的计算方法为：

SD(n)＝α|Outdegree1(n)|+β(|Outdegree2(n)|+|Outdegree3(n)|)

其中，SD(n)是用户n的结构度中心性算法值；n是任意用户；Outdegree1(n)是一度邻居集合；Outdegree2(n)是二度邻居集合；Outdegree3(n)是三度邻居集合；α、β是阻尼系数。

(3)调节因子：有学者在根据次分析法和熵权法确定指标权重的过程中，发现基于活跃用户集合的平均转发数是对用户影响力影响最大的指标，但他仅考虑了用户行为，降低了活跃用户判定的可靠性，限制了用户的覆盖范围。根据其他学者得出的结论，越早融入信息传播过程的用户影响力越大，且强影响力用户拥有最初阶段聚集出现的特征。因此，将加入时间纳入考量指标，进一步增强影响力的评估。

调节因子的计算公式为：

(4)用户直接影响力的计算公式：

其中，SDRank(n)是用户n的影响力值，φ是调节因子的权重，μ是结构度中心性因子的权重，PR(n)是用户n的PR值，SD(n)是用户n的结构度中心性算法值。

(四)异常检测

用户的行为可能会受到诸多因素的影响，呈现出故意做出某些行为的情况，进而伪造影响力。本发明将异常检测任务描述为：

(1)给定目标用户u近期发布的帖子所有评论集合CT_u＝{ct₁,ct₂,...,ct_k}，近期的定位集合Location_u＝{ln₁,ln₂,...,ln_i}，，近期的帖子主题集合Topic_u＝{tc₁,tc₂,...,tc_j}，兴趣集合Interest_u＝{it₁,it₂,...,it_l}，常用定位集合Place_u＝{pl₁,pl₂,...,pl_m}。

(2)分别计算用户的情感倾向、移动倾向与兴趣倾向程度，最后由此求出该用户的异常程度。

由上面的任务可知，用户异常程度的计算方法是该任务的关键部分，定义如下：

.(1)情感倾向：根据用户u近期发布的帖子所有评论集合，计算其情感极性值。

若LP>LN，则

且＞0

若LP＝LN，则Q_j＝0

若LP<LN，则

且＜0

其中，Q_j表示微博j的情感极性值，LP表示正向评论数，LN表示负向评论数，|W(u)|表示用户u的发布微博数。

(2)兴趣倾向：计算用户u对近期参与帖子的兴趣度。

(3)移动倾向：计算用户u的异常定位度。

(4)异常程度：计算用户异常行为的风险值，其值越高，表明用户存在异常行为的可能性越低。

Risk(u)＝α*|S(u)|+β*I(u)+γ*L(u)

(五)用户综合影响力评估

为了平衡影响因素之间的差异，对所有的参数进行数值的归一化，计算公式如下：

其中，Pnorm是归一化后的标准值，P是某用户的某一参数值，Pmin是所有用户该参数的最小值，Pmax是所有用户该参数的最大值。

调整后的用户直接影响力和基本影响力的计算公式：

B(n)＝SDR(n)+UAR_norm(n)

为了评估目标用户的综合影响力，结合之前的数据，可以初步构建一个影响力模型：

其中，φ(·)是用户影响力评估函数，B表示目标用户的基本影响力，T表示基于情感倾向、移动倾向与兴趣倾向的异常检测评估结果。该模型表示，对于一个社交网络圈层用户u进行影响力评分，评分的结果和他的社交网络属性及其参与的圈层重点事件有关。本发明将每一项的评分以5分区间制计算，对目标用户进行综合影响力评估。

首先，针对目标用户的基本影响力B，其来源为所属社交网络圈层的用户属性信息与重点事件数据。需要对其影响力的重要程度进行评估，本发明给出一个评估的标准，如表1所示。

表1目标用户的基本影响力评估标准

其次，针对目标用户的异常检测T，其来源为所属社交网络圈层的用户属性信息与近期的行为数据。用户的情感极性越鲜明，用户的兴趣程度越高，其言论更具有可信力和渲染力，越可能影响他人对涉及事件的看法。同时，不同常驻地的定位情况，可能存在着被盗号的风险。为了对异常程度进行评估，本发明给出一个评估的标准，如表2所示。此外，基本影响力与异常检测的分层标签化示意图如图2所示。

最后，综合基本影响力和异常检测的结果，从这两个维度去评估用户的真实影响力。异常的意见领袖具有煽动性，把控着舆论导向；异常的热门博主作为推手，将信息传播至更大的范围；异常的网民则类似水军，通过大量的刷评，掩盖其他的言论，形成一种虚假的“大多数”看法。这三类人群在信息传播过程的各个阶段不同程度地影响着正常用户的看法和行为。如何准确地识别异常用户，避免正常的意见领袖(初期)、正常的热门博主(中期)和正常的网民(中后期)在关键期受其影响，有利于有关部门监控网络环境。

表2目标用户的异常检测评估标准

得分	等级	评价标准
			3～5	异常	用户存在故意引导信息传播的风险。
1～3	正常	用户合法参与信息传播的过程。

以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的圈层用户综合影响力评估方法通过对数据库中社交网络用户属性信息与圈层重点事件信息进行影响力的度量分析，并对量化的影响力进行异常检测，得到用户的综合影响力评估值；其处理具体包括如下步骤：

用户间接影响力评估：选取社交网络参与帖子传播过程所有用户点集合U‘＝{u’₁，u‘₂，...，u'_n}中帖子社区标签构成Region'＝{r'₁，r'₂，...，r_u'}及其评论内容S'＝{s'₁，s'₂，...，s'_l}，提取话题与社区特征得到用户分类集G‘＝{G₁，G₂，...，G_n}，根据对用户分类集中每个圈层社交网络的用户属性指标权重调研结果，将属性值量化为同一个尺度空间构成属性子集P＝{p_n,q∈P'}(q＝1，2，...，h)，遍历该社交网络圈层的全部用户计算间接影响力得分，对所有用户进行排序得到用户间接影响力排序集合；

2.根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的用户身份信息映射包括如下步骤：

S102：解析生成的映射文件，获取其中包含的映射元素；

S105：将得到的RDF术语组合为RDF三元组，输出到RDF数据集。

3.根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的用户间接影响力评估包括如下子步骤：

S201：选取社交网络圈层用户集参与帖子传播过程的所有用户点集合U‘＝{u’₁，u‘₂，...，u'_n}中任意两个用户点及其对应的帖子社区标签Region'＝{r'₁，r'₂，...，r'_u}和评论内容S'＝{s'₁，s'₂，...，s'_l}；

S202：从获取的帖子社区标签Region'＝{r'₁，r'₂，...，r'_u}和评论内容S'＝{s'₁，s'₂，...，s'_l}提取两者的话题与社区特征；

S204：提取圈层社交网络的全部用户属性P'＝{p'_n,1，p'_n,2，...，p'_n,j}，其中，p’_n,j为用户u_n的第j个属性，根据层次分析法和熵权法确定的指标权重调研结果，选取用户j个属性中的h个属性，并将相关的属性值量P＝{p_n,q∈P'}(q＝1，2，...，h)化为同一个尺度空间，从而构成了一个属性子集；

4.根据权利要求3所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的对用户进行分类，得到用户分类集G‘＝{G₁，G₂，...，G_n}的过程包括如下步骤：

利用LDA模型获得用户的圈层特征：

S301：按照先验概率p(i'_k|I)选择一条帖子及其评论内容s'_l，包括Beta分布和Dirichlet分布；

且

(2)Dirichlet的概率密度函数为：

且

S302：从Dirichlet分布α中取样生成帖子内容s_l'的主题分布θ_i；

S304：从Dirichlet分布β中取样生成主题z_i,j对应的词语分布

S305：从词语的多项式分布

中通过GibbsSampling最终生成话题标签ω_i,j，所有话题标签构成的集合为Topic'＝{t'₁，t'₂，...，t'_u}；

S306：用户参与的所有圈层重点事件帖子对应的话题标签集合Topic'与社区标签集合Region'作为圈层标签集合，选择出现总次数前v个的圈层标签作为该用户n的圈层特征c_n＝{c₁，c₂，...，c_v}；

用户综合相似度计算：

similarity(m,n)＝α*Jaccard(m,n)+β*Sim(m,n)+γ*Euclid(m,n)且α+β+γ＝1；

其中：

Jaccard相关系数：

余弦相似度：

通过计算两个用户圈层特征向量间的夹角余弦值衡量两个用户的相似度，首先找到两个用户共同的圈层标签，其出现次数作为向量维度值，则这两个用户向量分别为c’_m和c’_n，然后再计算两者的余弦值，余弦相似度更加注重方向上的相似性而非距离上的；

欧几里德距离：

其中，

表示用户m的第i个圈层标签的0/1值；

5.根据权利要求3所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的遍历该社交网络圈层的全部用户，计算他们的间接影响力得分的过程包括如下步骤：

(1)用户互动性：

(2)用户创造力：

(3)用户发表内容质量：

S322：计算用户权威值，

S323：利用UAR算法计算用户的间接影响力：

6.根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的用户直接影响力评估包括如下子步骤：

7.根据权利要求6所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的直接影响力得分的计算采用SDRank算法，其过程包括如下步骤：

S411：根据网页访问PR值、结构度中心性算法值与调节因子计算用户直接影响力：

所述网页访问PR值的计算方法为：

所述结构度中心性算法值的计算方法为：

SD(n)＝α|Outdegree1(n)|+β(|Outdegree2(n)|+|Outdegree3(n)|)；

所述调节因子的计算方式为：

8.根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的计算用户异常行为的风险值方式为：

Risk(u)＝α*|S(u)|+β*I(u)+γ*L(u)；

所述情感极性值的计算方式为：

若LP>LN，则

且＞0

若LP＝LN，则Q_j＝0

若LP>LN，则

且＜0；

所述兴趣度的计算方式为：

所述异常定位度的计算方式为：

9.根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的影响力综合评估的过程包括如下步骤：

S501：对所有参数进行数值归一化处理，计算公式为：

B(n)＝SDR(n)+UAR_norm(n)；

S503：构建用户综合影响力评估模型：

根据权利要求1所述的一种结合社交网络的圈层用户综合影响力评估及伪造判别方法，其特征在于，所述的影响力分层标签化的过程包括对基本影响力的得分赋予一级标签和对异常检测结果赋予二级标签，所述一级标签包括“意见领袖”、“热门博主”和“普通网民”；所述二级标签包括情感倾向中的“正能量”、“中立”、“负能量”，移动倾向中的“频繁”、“偶尔”、“极少”，兴趣倾向中的“很感兴趣”、“一般兴趣”、“不感兴趣”。