CN103488885B - 基于mmsb的微博网络用户行为分析方法 - Google Patents

基于mmsb的微博网络用户行为分析方法 Download PDF

Info

Publication number
CN103488885B
CN103488885B CN201310418198.0A CN201310418198A CN103488885B CN 103488885 B CN103488885 B CN 103488885B CN 201310418198 A CN201310418198 A CN 201310418198A CN 103488885 B CN103488885 B CN 103488885B
Authority
CN
China
Prior art keywords
node
microblogging
micro blog
rightarrow
mmsb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310418198.0A
Other languages
English (en)
Other versions
CN103488885A (zh
Inventor
胡光岷
辛佰惠
刘唯一
于富财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310418198.0A priority Critical patent/CN103488885B/zh
Publication of CN103488885A publication Critical patent/CN103488885A/zh
Application granted granted Critical
Publication of CN103488885B publication Critical patent/CN103488885B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于MMSB的微博网络用户行为分析方法,主要包括:设定所建立的模拟微博网络的混合隶属度和转移概率矩阵B,创建MMSB模拟微博网络;根据所述步骤S1中建立的MMSB微博模拟网络,已知混合隶属度和转移概率矩阵B,由模型可得出整个微博网络中任意两个节点之间的微博转发百分比p(Y)的联合概率公式;根据步骤S2中得到了微博转发百分比p(Y)的表达式,采用平均场变量方法进行分析;根据模拟微博网络实际测得的用户的微博转发百分比p(Y),以及所述步骤S3中得到的不等式,采用坐标上升算法求得微博网络实际的混合隶属度和转移概率矩阵B。本方法用在分析微博网络用户的行为信息,能够得到更接近于实际的用户信息。

Description

基于MMSB的微博网络用户行为分析方法
技术领域
本发明属于网络应用技术领域,具体涉及一种基于MMSB的微博网络用户行为分析方法的设计。
背景技术
微博是一种在线社交网络,它为注册用户提供一个网络交流平台,用户通过该平台可以进行一系列的社交活动,比如商务、交友、获取信息、好友之间互动等,微博已经发展成为一种非常重要的信息传播和交流工具,成为现实社交的一种丰富和扩展。微博有大量的注册用户,而且每个用户都有不同的行为,用户行为的不同主要体现在每个用户的兴趣、爱好、关注的内容、发微博的频率、转发微博的频率上,所以分析用户的行为对整个微博网络具有重要的实际意义。首先,分析用户的行为能够帮助我们找出网络中不同用户之间的关系,从而方便网络管理员对用户和社团的管理;其次,用户的行为分析结果对我们准确找出微博中的关键用户有重要的作用;同时,用户行为信息、关键度信息等为微博舆论的监督、引导、控制等提供了重要的依据。
微博中用户的行为是相互关联的,比如某个用户博文的发布或者转发的数量非常大,那么他的博文被关注他的用户转发的数量也会较多;一个用户的博文发布或转发量和关注他的用户发表博文的数量是有联系的。传统的统计学方法通常假设数据是独立的,因此不适用于微博中用户的行为进行分析。鉴于此,业内一些学者提出了相关联的数据分析方法。现有的用户行为分析方法都认为网络可以划分为若干个社团,所谓社团是指网络中具有共同特征的用户组成的小范围团体。这些方法建立的模型都假定每个用户仅属于一个社团,用户之间的连接关系也受到社团与社团之间连接关系的限制,这样分析的结果中只得到了用户在某一个社团内的行为特征。而现实的微博中每个用户并不一定仅仅属于一个社团,很多活跃度高的用户在多个社团中都有一定的参与度,现有的用户行为分析方法忽略了这种用户跨社团的多角色性。针对现有用户行为分析方法的不足Edoardo等人提出了混合隶属度随机块模型(MixedMembershipStochasticBlockmodels)的用户行为分析方法,该方法中对每个用户提出了混合隶属度的概念,来挖掘用户的多角色性,能更准确的分析出用户的行为特征。虽然MMBS用户行为分析方法考虑到了数据之间的关联性和用户的多角色性,但却不能直接应用于微博网络进行用户行为分析,因为MMSB模型中把用户之间的连接关系分为连接和不连接两种关系,并没有考虑到微博网络中用户之间转发多次微博即节点之间存在多条连接的情况。
对于微博,现有的用户行为分析方法有其一定的局限性:目前的很多用户行为分析方法,都是从单个对象获取数据,并且假设网络中数据是独立的,或者在一定条件下是独立的,而现在的微博用户数据都是相关联的,因此用这些方法分析微博网络得出的结果就不准确;现有的用户行为分析方法假设用户仅属于一个社团,不能挖掘到用户跨社团的多角色信息;MMSB用户行为分析方法考虑到了数据关联性,也能够挖掘用户的多角色信息,但是把网络中用户的连接关系只分为连接和无连接两种情况,没有考虑到微博用户之间的连接权重。因此MMSB用户行为分析方法不适用于微博转发网络。
发明内容
本发明所要解决的技术问题是针对现有用户行为方法不适用于微博网络的缺点,提出了一种基于MMSB的微博网络用户行为分析方法。
本发明解决其技术问题采用的技术方案是:基于MMSB的微博网络用户行为分析方法,具体包括:
S1、设定所建立的模拟微博网络的混合隶属度和转移概率矩阵B,创建MMSB模拟微博网络;
S2、根据所述步骤S1中建立的MMSB微博模拟网络,已知混合隶属度和转移概率矩阵B,由模型可得出整个微博网络中任意两个节点之间的微博转发百分比p(Y)的联合概率公式为:
P ( Y , π → 1 : N , Z → , Z ← | α → , B ) = Π p , q P ( Y ( p , q ) | z → p → q , z → p ← q , B ) P ( z → p → q | π → p ) P ( Z → p ← q | π → q ) Π p P ( π → p | α → ) ; 其中表示向量的概率分布,由狄利克雷参数来表示;表示向量的概率分布,由表示;表示向量的概率分布,由表示;表示节点对(p,q)的微博转发百分比,且由B得来;所述N为微博网络中节点的个数;
S3、根据步骤S2中得到了微博转发百分比p(Y)的表达式,采用平均场变量方法进行分析,对上述p(Y)的表达式的两边边缘概率取对数并用Jensen不等式得出式:
log p ( Y | α , B ) ≥ E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ;
S4、根据模拟微博网络实际测得的用户的微博转发百分比p(Y),以及所述步骤S3中得到的不等式,采用坐标上升算法求得微博网络实际的混合隶属度和转移概率矩阵B。
进一步的,所述步骤S1的具体过程为:
设定节点p的混合隶属度所述服从于参数为的狄利克雷分布,即所述参数表示节点p分别在K个社团中的活跃程度;
设定微博网络中每对节点为(p,q),表示节点p在各个社团中和节点q连接的概率,且服从多项分布,即同样的,表示节点q在各个社团中和节点p连接的概率,且服从多项分布,即
创建MMSB微博模拟网络,设定Y(p,q)表示节点p对节点q的微博转发百分比,所述Y(p,q)服从于参数为的伯努利分布,即其中的转置向量,节点对Y(p,q)的微博转发百分比
进一步的,在所述步骤S3中,用最大似然函数准则求解所述不等式右边的最大值。
本发明的有益效果:本发明基于MMSB的微博网络用户行为分析方法,通过改进MMSB建模方法,使得模型不仅适用于一般的社交网络,也能适用于微博转发网络,能够反映出用户之间微博的转发量,并且引入了混合隶属度的概念,能够挖掘出用户的多角色信息,得到更精确的用户行为信息、网络分组、用户转发关系等数据,本方法用在分析微博网络用户的行为信息,能够得到更接近于实际的用户信息。
附图说明
图1为本发明实施例的基于MMSB的微博网络用户行为分析方法的流程框图;
图2为一种社交网络节点连接示意图;
图3为一种社交网络的连接矩阵;
图4为本发明实施例的基于MMSB的微博网络用户行为分析方法的微博网络中节点连接示意图;
图5为发明实施例的基于MMSB的微博网络用户行为分析方法的微博网络中连接矩阵。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的阐述。
如图1所示为本发明实施例的基于MMSB的微博网络用户行为分析方法的流程框图,在本申请方案中,所述节点都代表微博网络中实际的用户,其具体包括,
S1、设定所建立的模拟微博网络的混合隶属度和转移概率矩阵B,创建MMSB模拟微博网络:假设微博网络有K个社团,则混合隶属度是个K维的向量,每个分量代表该节点在该社团中的隶属度;转移概率矩阵B是K×K矩阵,矩阵中的元素代表博文从一个社团被转发到另一个社团的概率。
设定节点p的混合隶属度所述服从于参数为的狄利克雷分布,即所述参数表示节点p分别在K个社团中的活跃程度;
设定微博网络中每对节点为(p,q),表示节点p在各个社团中和节点q连接的概率,且服从多项分布,即同样的,表示节点q在各个社团中和节点p连接的概率,且服从多项分布,即
创建MMSB微博模拟网络,设定Y(p,q)表示节点p对节点q的微博转发百分比,所述Y(p,q)服从于参数为的伯努利分布,即其中的转置向量,节点对Y(p,q)的微博转发百分比
S2、根据所述步骤S1中建立的MMSB微博模拟网络,已知混合隶属度和转移概率矩阵B,由模型可得出整个微博网络中任意两个节点之间的微博转发百分比p(Y)的联合概率公式为:
p ( Y , π → 1 : N , Z → , Z ← | α → , B ) = Π p , q P ( Y ( p , q ) | z → p → q , z → p ← q B ) P ( z → p → q | π → p ) P ( z → p ← q | π → q ) Π p P ( π → p | α → ) ; 其中表示向量的概率分布,由狄利克雷参数来表示;表示向量的概率分布,由表示;表示向量的概率分布,由表示;表示节点对(p,q)的微博转发百分比,且由B得来;所述N为微博网络中节点的个数;
S3、根据步骤S2中得到了微博转发百分比p(Y)的表达式,采用平均场变量方法进行分析,对上述p(Y)的表达式的两边边缘概率取对数并用Jensen不等式得出式:
log p ( Y | α , B ) ≥ E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] , 其中引入的潜在变量q依赖于一组自由参数对q的分布做因式分解得到 q ( π → 1 : N Z → , Z ← | γ → 1 : N , Φ → , Φ ← ) = Π p q 1 ( π → p | γ → p ) Π p · q ( q 2 ( z → p → q | φ → p → q ) q 2 ( z → p ← q | φ → p ← q ) ) ; 其中,q1是参数为的狄利克雷分布,q2是参数为的多项分布,由于参数没有精确的解,用最优化的方法可以得出他们的估计的估计,是节点连接概率值的估计;
由不等式可看出p(Y)的值可由不等式的右端
的最大值来逼近得到一个最优值,得到此式最大值可用最大似然函数准则求解,即用式分别对未知参数求偏导,并令导数为零,即得到如下公式:
∂ ( E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ) ∂ γ → p = 0
∂ ( E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ) ∂ B = 0
∂ ( E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ) ∂ φ → p → q = 0
∂ ( E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ) ∂ φ → q → p = 0
求解上述偏导公式得出B的表达式分别为:
φ ^ p → q , g ∝ e E q [ log π p , g ] · Π h ( B ( g , h ) Y ( p , q ) · ( 1 - B ( g , h ) ) 1 - Y ( p , q ) ) φ → p ← q , h ;
φ ^ p ← q , h ∝ e E q [ log π p , g ] · Π g ( B ( g , h ) Y ( p , q ) · ( 1 - B ( g , h ) ) 1 - Y ( p , q ) ) φ → p ← q , g ;
其中,αk为常数;
B ^ ( g , h ) = Σ p , q Y ( p , q ) · φ p → qg φ p ← qh φ p → qg φ p ← qh .
上述步骤S3中的求解的方法过程都为现有技术的分析方法,在本发明申请方案中不再详细进行说明。
S4、根据模拟微博网络实际测得的用户的微博转发百分比p(Y),以及所述步骤S3中得到的不等式,采用坐标上升算法求得微博网络实际的混合隶属度和转移概率矩阵B。
其中采用坐标上升算法也属于现有技术中的分析手段,在本发明申请方案中不再详细进行说明。
其中,步骤S1中所述的狄利克雷分布可以看作分布上的分布,举例来说,假设我们有一个骰子,共有六面,分别为{1,2,3,4,5,6},现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在我们想要做10000次试验,每次试验中我们都投掷骰子10000次,在该实验条件下,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少,以及骰子六面出现特定概率分布的概率分布就是一种Dirichlet分布,利用狄利克雷分布即可得出节点p的混合隶属度。
在设定节点p在各个社团中和节点q连接的概率中,采用了多项分布,多项分布是二项分布的推广,表示在一次实验中若有A1、A2......Ak共K中结果,每个结果出现的概率分别是p1、p2......pk。由多项分布的定义可知,服从于概率分布为的多项分布,由于中每个分量代表节点p在一个社团中的活跃程度,因此用作为多项分布的参数,能够准确的表示出节点p在各个社团中和节点q连接的概率。
在创建MMSB微博模拟网络的过程中,MMSB模型根据用户行为准则的定义模拟生成社交网络,用Y(p,q)表示节点p和节点q之间存在连接的概率,并且Y(p,q)∈{0,1},Y(p,q)=0表示节点p和节点q之间不存在连接,Y(p,q)=1表示节点p和节点q之间存在连接。原始MMSB模型中,Y(p,q)服从于参数为的伯努利分布,即Y(p,q)~Bernoulli比如一个社交网络图如图2所示,由图可以看出,节点A分别和节点B、C、D之间存在连接,其他节点之间无连接,则根据MMSB模型,可得到该社交网络的连接矩阵如图3所示,其中0表示节点之间无连接,1表示节点之间有连接。但是在MMSB模型中,Y(p,q)服从于参数为的伯努利分布,但得出的结果仅仅能表示出社交网络中节点之间有无连接,并不能得出节点之间的连接属性或者连接数量,因此不适用于微博网络,原因在于微博转发网络中节点之间转发微博的数量也能反映节点的行为,所以本发明针对此种模型的缺点,选用了其他的方式建模来分析微博转发网络中的用户行为。这种改进如图4所示,节点A和节点B、C、D之间存在连接,且节点A发表微博100篇,节点B、C、D分别转发了其中80篇、50篇、30篇,节点B转发了节点A的80%的微博,节点C转发了节点A的50%的微博,节点D转发了节点A的30%的微博,无其他连接,因此我们得出的该网络的微博转发矩阵如图5所示,其中非0值表示节点之间转发微博占总博文的百分比。根据矩阵可知Y(p,q)可以用直接表示,即此时Y(p,q)表示节点p对节点q的微博转发百分比。由此,建立了适用于微博网络的MMSB模型。

Claims (2)

1.基于MMSB的微博网络用户行为分析方法,其特征在于,具体包括:
S1、设定所建立的模拟微博网络的混合隶属度参数和转移概率矩阵B,创建MMSB模拟微博网络;
所述步骤S1的具体过程为:
设定节点p的混合隶属度所述服从于混合隶属度参数为的狄利克雷分布,即所述混合隶属度参数表示节点p分别在K个社团中的活跃程度;
设定微博网络中每对节点为(p,q),表示节点p在各个社团中和节点q连接的概率,且服从多项分布,即同样的,表示节点q在各个社团中和节点p连接的概率,且服从多项分布,即
创建MMSB微博模拟网络,设定Y(p,q)表示节点p对节点q的微博转发百分比,所述Y(p,q)服从于参数为的伯努利分布,即其中的转置向量,节点对Y(p,q)的微博转发百分比
S2、根据所述步骤S1中建立的MMSB微博模拟网络,已知混合隶属度参数和转移概率矩阵B,由模型可得出整个微博网络中任意两个节点之间的微博转发百分比p(Y)的联合概率公式为:
其中表示向量的概率分布,由混合隶属度参数来表示;表示向量的概率分布,由表示;表示向量的概率分布,由表示;表示节点对(p,q)的微博转发百分比,且由得来;所述N为微博网络中节点的个数;
S3、根据步骤S2中得到了微博转发百分比p(Y)的表达式,采用平均场变量方法进行分析,对上述p(Y)的表达式的两边边缘概率取对数并用Jensen不等式得出式: log p ( Y | α , B ) ≥ E q [ log p ( Y , π → 1 : N , Z → , Z ← | α , B ) ] - E q [ log q ( π → 1 : N , Z → , Z ← ) ] ;
S4、根据模拟微博网络实际测得的用户的微博转发百分比p(Y),以及所述步骤S3中得到的不等式,采用坐标上升算法求得微博网络实际的混合隶属度参数和转移概率矩阵B。
2.如权利要求1所述的基于MMSB的微博网络用户行为分析方法,其特征在于,在所述步骤S3中,用最大似然函数准则求解所述不等式右边的最大值。
CN201310418198.0A 2013-09-13 2013-09-13 基于mmsb的微博网络用户行为分析方法 Expired - Fee Related CN103488885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310418198.0A CN103488885B (zh) 2013-09-13 2013-09-13 基于mmsb的微博网络用户行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310418198.0A CN103488885B (zh) 2013-09-13 2013-09-13 基于mmsb的微博网络用户行为分析方法

Publications (2)

Publication Number Publication Date
CN103488885A CN103488885A (zh) 2014-01-01
CN103488885B true CN103488885B (zh) 2016-07-06

Family

ID=49829101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310418198.0A Expired - Fee Related CN103488885B (zh) 2013-09-13 2013-09-13 基于mmsb的微博网络用户行为分析方法

Country Status (1)

Country Link
CN (1) CN103488885B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986641B (zh) * 2014-04-25 2017-04-05 北京交通大学 一种基于计算几何的微博用户间距离的简单模型
CN105007297A (zh) * 2015-05-27 2015-10-28 国家计算机网络与信息安全管理中心 社交网络的交互方法及装置
CN105894387A (zh) * 2016-04-01 2016-08-24 清华大学 一种预测在线社交网络用户行为的方法
CN106599243A (zh) * 2016-12-20 2017-04-26 西南石油大学 基于微博主题进行微博转发路径预测的方法和系统
CN108509551B (zh) * 2018-03-19 2022-03-01 西北大学 一种基于Spark环境下的微博网络关键用户挖掘系统及方法

Also Published As

Publication number Publication date
CN103488885A (zh) 2014-01-01

Similar Documents

Publication Publication Date Title
CN103488885B (zh) 基于mmsb的微博网络用户行为分析方法
CN111222029B (zh) 一种网络舆情信息传播中关键节点选择方法
Mo et al. Cross-task crowdsourcing
Srivastava et al. Understanding the adoption and usage of data analytics and simulation among building energy management professionals: A nationwide survey
CN108229731B (zh) 一种热点话题下多消息互影响的用户行为预测系统及方法
Jiang et al. Identifying important nodes for temporal networks based on the ASAM model
Feng et al. Testing for balance in social networks
Zhang et al. Research on the information dissemination mechanisms of weibo in scale-free networks
Li et al. Assessing goodness of fit of exponential random graph models
CN109361556A (zh) 一种基于节点熵和结构洞的关键节点感知方法
CN108520337A (zh) 一种基于网络风险熵差的谣言风险评估方法
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法
Castro et al. A particle-learning-based approach to estimate the influence matrix of online social networks
CN106959953A (zh) 一种基于统计特征的社交网络用户关系的计算方法
Wang et al. Multiagent Diffusion and Opinion Dynamics Model Interaction Effects on Controversial Products
Koncar et al. Exploring the impact of trolls on activity dynamics in real-world collaboration networks
Ou et al. Can instant messaging empower teams at work?
Peng Evaluation and Analysis of the Implementation Effects in Practical-Course Blended Learning Based on Virtual Reality Technology.
CN110020375B (zh) 一种社交网络用户影响力的评估方法
Zhang et al. Information dissemination analysis using a time-weight null model: a case study of sina micro-blog
Bashari et al. Modeling opinion formation in social networks: A probabilistic fuzzy approach
Yu et al. Formal Modeling and Analysis of User Activity Sequence in Online Social Networks: A Stochastic Petri Net-Based Approach
Chiu et al. Statistical discourse analysis
Toriumi et al. Simulation of encouragement methods for sns based on user behavior model
CN102780683A (zh) 基于社交网络的动态群体间信任度估算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160706

Termination date: 20190913