CN105761152A - 社交网络中一种基于三元组的参与话题预测方法 - Google Patents

社交网络中一种基于三元组的参与话题预测方法 Download PDF

Info

Publication number
CN105761152A
CN105761152A CN201610083980.5A CN201610083980A CN105761152A CN 105761152 A CN105761152 A CN 105761152A CN 201610083980 A CN201610083980 A CN 201610083980A CN 105761152 A CN105761152 A CN 105761152A
Authority
CN
China
Prior art keywords
triple
information
topic
user
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610083980.5A
Other languages
English (en)
Inventor
肖云鹏
黄恺
刘宴兵
刘瀚松
杨光
赖佳伟
李露
李松阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201610083980.5A priority Critical patent/CN105761152A/zh
Publication of CN105761152A publication Critical patent/CN105761152A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提出了一种预测用户参与话题的方法,属于数据挖掘和信息检索领域。获取数据模块获取热点话题下的用户信息;提取特征模块将用户参与话题的行为通过时间分片,找出每个时间段参与话题的用户组成的信息三元组,为每个用户提取特征属性,基于用户的属性提取信息三元组的属性;模型训练模块基于信息三元组属性对信息三元组的闭合行为建模构建三元信息因子图模型,找出该热点话题下一阶段有哪些信息三元组闭合;结果预测模块根据预测的信息三元组闭合结果,预测得到参与话题的用户。该方法将用户参与话题的行为视作信息三元组的闭合行为,为社交网络中的话题参与预测提供了一种新思路,可以广泛应用于话题推荐、话题分析等相关领域。

Description

社交网络中一种基于三元组的参与话题预测方法
技术领域
本发明涉及社交网络信息分析技术,尤其是社交网络中的信息传播、话题分析领域。
背景技术
社交网络指的是社交参与者及其间的关系的集合,也可以说,一个社交网络是由节点(社交参与者)和节点之间的边(社交参与者之间的关系)组成的集合。因此,常用图模型来描述这样的结构。典型的社交网络研究领域包括角色识别、话题分析和信息传播等。其中话题分析领域由于能够了解舆论导向,及时获取有效信息,成为了近几年研究了热门方向之一。
当前话题分析研究主要包括话题发现、话题参与预测等,所使用的方法包括:基于文本的分析,基于用户影响力的分析和基于网络结构的分析等。其中,基于网络结构的分析是最重要的研究方法之一。有许多重要的理论建立在基于结构的分析之上,例如结构洞理论和小世界理论。也有很多重要的指标用于描述网络结构,包括度、路径、网络密度和聚类系数等。
在基于网络结构的话题参与预测分析中,具体又有基于树形结构的分析方法和基于好友圈子的分析方法等。基于树形结构的分析方法将用户参与话题的行为通过“粉丝转发话题,粉丝的粉丝再转发话题”这样一层一层的树形结构建模;基于用户好友圈子的分析方法,将用户参与话题的行为视为用户的好友圈子对用户产生的影响。以上两种方法的有效性在各自的应用场景中都得到了证明。但是,上述方法都存在一定应用场景的局限性,例如,在参与话题的用户数量极少的情况下,树会只剩下两层,好友圈子更是会萎缩成离散的点。
三元组是三个相互关联的用户组成的小团体,是研究社交网络中团体现象的最基本单位。HONGHUANG等人在《在社交网络中挖掘三元组的闭合模式》(MiningTriadicClosurePatternsinSocialNetworks.WWW’14Companion,April7-11,2014,Seoul,Korea.)一文中,利用一种基于三元组结构的三元因子图模型进行链接预测,成功地对所有三元组的闭合行为进行了研究。该文说明利用三元组的分析方法可以有效地对用户关系的建立进行分析,但三元组结构目前仅应用在链接预测领域,传统的三元因子图模型不适合直接用于预测用户参与话题的问题。
发明内容
本发明针对现有技术社交网络话题信息预测分析中存在的上述技术问题,基于改进的三元组结构和三元因子图模型对社交网络话题进行预测分析。具体包括:获取数据、提取用户属性、提取信息三元组属性、利用改进的三元因子图模型进行建模,预测哪些用户会参与话题。
本发明解决上述技术问题的技术方案是,提出一种社交网络中基于三元组的参与话题预测方法,该方法包括:获取数据模块获取热点话题下的用户信息;提取特征模块将用户参与话题的行为通过时间分片,找出每个时间段参与话题的用户组成的信息三元组,为每个用户提取特征属性,基于用户的属性提取信息三元组的属性;模型训练模块基于信息三元组属性对信息三元组的闭合行为建模构建三元信息因子图模型,找出该热点话题下一阶段有哪些信息三元组闭合;结果预测模块根据预测的信息三元组闭合结果,预测得到参与话题的用户。
本发明的其中一个实施例进一步包括,所述三元信息因子图模型包括,根据信息传播过程及可能的信息传播过程构建话题参与网络拓扑结构,将所有可能闭合的开元三元组作为候选三元组,对候选信息三元组的状态赋值,使用函数f(X,Y,Z,yi)表示三元组本身的属性对三元组取值的影响;使用函数g(yi,yj)表示两个相互影响的候选三元组取值的相互影响。
预测得到参与话题的用户进一步包括:根据公式:
为信息三元组的属性xij确定一个函数fj(xij,yi)和一个参数αj,根据公式:为每一对相互关联的三元组确定函数hk(Yc)和权重参数μk,其中,P(xi|yi)表示信息三元组取yi的情况下属性xi存在的概率,Z1和Z2为正则化因子;根据公式 O ( θ ) = Σ i = 1 | E | Σ j = 1 d α j f j ( x i j , y i ) + Σ c Σ k μ k h k ( Y c ) - log Z 定义一个对数似然目标函数logPθ(Y|X,G)为O(θ),其中,Yc表示一对相互联系的三元组,Z=Z1Z2为正则化因子;计算参数θ=({αj},{μk})使得目标函数最大化,预测得到参与话题的用户,其中,fj(xij,yi)表示信息三元组本身的属性对三元组的影响,hk(Yc)表示相互关联的两个信息三元组之间的第k个属性的相互影响,μk为相互影响的信息三元组的属性的权值参数。信息三元组包括开放和闭合两种状态,表示信息在三元组中的传播过程,每种状态包括的信息三元组包括,开放信息三元组表示三元组中只有两个用户参与话题,闭合信息三元组表示三元组的三个用户都已经参与话题的状态。
本发明所述社交网络中一种基于三元组的参与话题预测方法通过将三元组的概念引入话题参与预测领域。针对话题参与网络的实际情况对传统的三元组结构的物理意义进行重新定义;针对传统三元因子图模型不能直接用于信息三元组闭合的预测的问题,在传统三元因子图模型基础上提出信息三元因子图模型。扩展了三元组结构的应用范围,并为参与话题预测提出了一种新的方法。
附图说明
图1基于三元结构预测参与话题方法的基本流程;
图2第一种信息三元组从开元状态转变为闭合的过程;
图3第二种信息三元组从开元状态转变为闭合的过程;
图4第三种信息三元组从开元状态转变为闭合的过程;
图5改进的三元因子图模型。
图2至图4中,较粗的箭头连接起来的用户表示关注关系网络结构,较细的箭头表示信息的传播方向,其中实线表示真实的已经形成的传播方向,虚线表示下一阶段可能的信息传播方向。
具体实施方式
针对话题传播建立信息三元组;针对传统的三元因子图模型不适合直接用于预测用户参与话题的问题,改进三元因子图模型。本发明提出一种用户参与话题的预测方法,对社交网络中一个热点话题下已经参与话题的用户的关注者是否也会参与话题进行预测。具体包括:
一、传统的三元组结构被用来描述社交参与者之间的好友关系。话题参与领域的三元结构基于传统三元组结构产生,又与传统三元组结构不相同。一个用户要从另一个用户那里得到话题信息,必须与该用户有一定的关系。在有向社交网络中,这种关系是关注关系;在无向社交网络中,这种关系是互为好友的关系。
如图2、图3的左边部分,图4的上面部分用较粗的箭头连接起来的三个用户是关注关系网络结构;图2、图3的中间部分,和图4下面的中间部分,较细的实线表示已经形成的信息传播路径,因此与用户关注关系方向相反,虚线表示可能的信息传播方向;图2、图3的右边部分和图4下面的左右部分表示信息传播之后的结果。其中,虚线表示可能的话题信息传播方向,而实线表示真实的话题信息传播方向。
以下举例作进一步说明,用户参与话题的行为可看作以下三种行为,已经参与话题讨论的用户A、刚刚参与话题讨论的用户B、和可能加入话题讨论的用户C三个用户组成的“三元组”的演变行为,称该类“三元组”为“信息三元组”,表示话题信息在用户之间的传播。定义信息三元组包括两种状态:
1.开元状态:用户B通过用户A参与了话题,而用户C还没有参与话题。此时该三元组的状态是开元状态,这样的三元组为开元三元组。显然,开元状态的信息三元组包括两个已经参与话题的用户和一个没有参与话题的用户。2.闭合状态。用户B通过用户A参与了话题,用户C也参与了话题。此时该三元组的状态是闭合状态,称这样的三元组为闭合三元组。同理,处于闭合状态的三元组包括三个参与话题的用户。
如图2所示为第一种信息三元组从开元到闭合的转变过程。
1.关注关系拓扑结构:如图2的左边部分表示构成该信息三元组的用户间的关注关系。2.开元信息三元组:图2的中间部分表示处于开元状态的信息三元组,箭头表示信息的传播方向。A,B都已经通过转发的形式参与了话题,用实线箭头表示;C有可能通过B参与话题,用虚线箭头表示。C参与话题的形式可以是转发和/或评论。3.闭合信息三元组:图的右边部分表示该三元组从开元状态转变为了闭合状态,此时B指向C的虚线转变为实线。
如图3所示为第二种信息三元组从开元到闭合的转变过程。该过程与图1相似,但是三元组的关注关系拓扑结构不同。他们之间的关系是B关注A,C关注A,并且A已经参与了话题,B也通过A参与了话题,此时C只可能通过A参与话题。
如图4所示为第三种信息三元组从开元到闭合的转变过程,该过程类似第一种和第二种的结合。
1.关注关系拓扑结构:图4的上面部分表示构成该信息三元组的的用户间的关注关系。
2.开元三元组:图4的下面中间部分表示处于开元状态的信息三元组,用箭头表示信息的传播的方向。A,B都已经通过转发的形式参与了话题,C有可能通过A或者B中的任意一个参与话题,用虚线表示。C参与话题的形式可以是转发和/或评论。
3.闭合三元组。包括两种闭合三元组。
闭合三元组1:如图4的下面左边部分。C通过转发和/或评论B的微博内容参与话题,而不是通过A参与。B和C之间的箭头由虚线变为实线,A和C之间的箭头被撤销。形成的该型闭合三元组结构与图2中的闭合三元组相同。
闭合三元组2:C通过转发和/或评论A的微博内容参与话题,而不是通过B参与。A和C之间的箭头由虚线变为实线,B和C之间的箭头被撤销。形成的该型闭合三元组结构与图3中的闭合三元组相同。
二、改进的三元因子图模型:社交网络中话题的参与通常是由一群社交参与者完成的,基于信息三元组和传统的三元因子图模型,提出了一种改进的三元因子图模型。
如图5所示为改进的三元因子图模型,即三元信息因子图模型。以下以6个用户组成一个网络的为例加以说明。可包含:
根据信息传播过程及可能的信息传播过程构建话题参与网络拓扑结构,将所有可能闭合的开元三元组作为候选三元组,对候选信息三元组的状态赋值,使用函数f(X,Y,Z,yi)表示三元组本身的属性对三元组取值的影响;使用函数g(yi,yj)表示两个相互影响的候选三元组取值的相互影响。
1.根据信息传播过程及可能的信息传播过程构建话题参与网络拓扑结构。图的下方大椭圆表示信息传播拓扑结构。其中实线表示发生的信息传播过程,虚线表示可能发生的信息传播过程。该拓扑结构中包含多个信息三元组,例如由用户A,D,E构成的第一种信息三元组,由用户A,B,C构成的第二种信息三元组,由用户A,D,C构成的第三种信息三元组。
2.候选信息三元组:图的中部椭圆内是抽象出来的信息三元组。假设t时刻,三元组如果处于开元状态,那么t+1时刻该三元组就有可能闭合,将所有可能闭合的开元三元组作为候选三元组。需要指出的是,图4中闭合三元组1与闭合三元组2的结构有所区别,因此不同结构的闭合三元组需要区分开来。因此:
如果三元组闭合后形成的是闭合三元组1的结构(话题参与网络拓扑结构),用(A,B,C)的形式表示开元信息三元组;如果形成的是闭合三元组2的结构,用(A,(B,C))表示开元信息三元组。
3.对候选信息三元组的状态赋值:图上面部分的圆形表示候选三元组可能的取值,并用小正方形代表关联函数h(.),表示每个可能取值间的相互影响。使用y的不同取值表示候选三元组的状态,y=0表示三元组处于开元状态,即三元组没有从开元转变为闭合;y=1表示三元组处于闭合状态,即三元组由开元转变为闭合状态;y=?表示三元组的状态不明确。使用函数f(X,Y,Z,yi)表示三元组本身的属性对三元组取值的影响;使用函数g(yi,yj)表示两个相互影响的候选三元组取值的相互影响。需要指出的是,并不是任意两个候选三元组的取值都会相互影响,可以选取来自同一个社团的两个三元组进行分析。另外,显然,三元组(A,D,E)和三元组(D,E,F)的物理意义都是E通过D参与话题,即y1≡y2。在这种情况下,只需规定函数g(yi,yj)让物理意义相等的三元组取值恒等即可。
为了更好地阐述本发明的技术方案并使优点更加简明清晰,下面参照说明书附图,对本发明的具体实施方式做进一步详细说明。
根据网络中所有的用户V,获得用户之间的关系建立给定时间点t时的一个社交网络G=(V,E);给定一系列话题传播行为表示话题信息在用户之间的传播;现有网络X中存在的候选信息三元组Yt={y1,y2...yn}。我们的目标就是预测下一时间点t+1时刻的话题传播也就是t时刻的候选信息三元组Yt在t+1时刻的状态Yt+1,即可表示为:f:({G,Yt,Xt}t=1,2,...,T)→YT+1
如图1所示为本发明的实施实例流程图。包括在线获取数据和离线数据挖掘。
S1:在线获取数据。获取数据的方式可以是直接下载现有的公开数据源,或者是利用成熟的社交网络公共API进行获取。这里需要获取的是热点话题在其生命周期内的参与者参与情况,和该话题参与者的历史行为数据。话题参与情况需要得到的是话题被转发和评论的时间、参与用户的基本信息和参与用户的好友关系信息(包括关注和被关注信息);话题参与者的历史行为包括该用户历史上所转发和评论的信息。
S2:离线数据挖掘。根据获取的某个话题下的目标用户的基本信息和好友信息、历史行为,通过前述的信息三元因子图模型对用户参与话题行为建模,最后得出哪些用户的好友会参与话题。
上述步骤S1得到用户基本信息、用户好友关系和用户历史行为具体可以分为如下两个步骤:
S11:获取原始数据。通过社交网络公共API或直接下载现有数据源都可以得到原始数据,这里以通过社交网络公共API为例。通过社交网络公共API可以获取该网络向公众公开的数据,本发明使用的数据都是可以通过公共API获取的数据。
S111:获取一条热点话题的所有参与者及其基本信息。
S112:获取该热点话题的所有参与者的关注者和粉丝。
S113:获取该热点话题的所有参与者及其关注者、粉丝的历史行为。
S12:使非结构化数据结构化。通常获取的原始数据都是非结构化的,不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如,删除重复数据、清理无效节点等。
利用获取的信息进行离线数据挖掘的过程如图1所示,具体可以分为以下步骤:
S21:特征提取。基于获取的数据提取属性。具体包括提取用户属性和提取三元组属性。
S211:提取用户属性。用户属性包括用户基本信息属性、与好友有关的属性和用户的话题属性。例如,基于用户基本信息,可以提取用户的性别、年龄、地理位置等;基于用户的网络结构信息可以提取与网络结构有关的用户属性,如是否为精英用户,是否为结构洞;基于用户的话题属性可以提取出用户的参与话题总次数、参与话题的深度等属性。
S212:提取信息三元组的属性X。找出信息三元组,并基于网络结构和提取的用户属性提取候选信息三元组的属性。具体可进一步包括如下步骤:
挑选信息三元组Tr。首先将话题的生命周期进行时间切片,找出每个时间段参与话题的用户,然后在每个时间段中找出信息三元组,观察这些信息三元组在下一个时间段是否会闭合。信息三元组包括三个用户,其中两个用户已参与话题,一个用户可能参与话题。因此,如图5的下面部分,通过找到每次用户之间的转发行为即可找到两个参与话题的用户A、B,再加上这两个用户中任意一个的粉丝U,即可构成一个信息三元组。如果加上的是刚刚参与话题的用户的粉丝,则该信息三元组为第一种信息三元组,用(B,A,U)表示;如果加上的是原本已经参与话题的用户的粉丝,则该信息三元组为第二种信息三元组,用(B,(A,U))表示。
为每一个信息三元组提取一组属性X={x1,x2,...,xd},其中xi代表某一类属性,例如精英用户的分部情况、信息三元组类型和对应的传统三元组的拓扑结构等;d代表属性的总数。
S22:模型训练。将提取出的信息三元组属性代入改进的信息三元因子图模型,该模型的输出结果为开元信息三元组的取值。具体步骤如图5所示。
上述模型训练的过程如图5所示,称该模型为信息三元因子图模型。该模型的输入是信息三元组及其属性,即图5中间部分的(B,A,U)或(B,(A,U));输出结果是信息三元组的取值,即图5上面部分yi。基于问题定义f:({G,Yt,Xt}t=1,2,...,T)→YT+1,假定好友关系网络结构不变,给定从1到T时刻的话题传播网络和再此基础上提取出的候选信息三元组的在T+1时刻的闭合情况,它等价于计算:
P ( Y | X , G ) = P ( X , G | Y ) P ( Y ) P ( X , G ) ∝ P ( X | Y ) · P ( Y | G )
为了简洁我们在不会产生歧义的前提下移除了上标,其中P(Y|G)表示给定当前网络结构时下一阶段的话题参与情况,P(X|Y)表示给定话题参与情况时参与话题的影响因子所起的作用。假设所有影响因子是独立的,就有了:
P(Y|X,G)∝P(Y|G)∏P(xi|yi)
这里的P(xi|yi)表示信息三元组取yi的情况下属性xi存在的概率。根据Hammersley-Clifford定理可知:
P ( x i | y i ) = 1 Z 1 exp { Σ j = 1 d α j f j ( x i j , y i ) }
P ( Y | G ) = 1 Z 2 exp { Σ c Σ k μ k h k ( Y c ) }
其中Z1和Z2为正则化因子,上面一个公式表示为信息三元组的每一个属性xij定义一个函数fj(xij,yi)和一个参数αj,其中fj(xij,yi)为属性因子函数,用来衡量信息三元组自身的属性对三元组闭合的影响,αj代表该属性的权重;第二个公式为每一对相互关联的三元组定义函数和参数μk,其中为关联函数,代表信息三元组之间取值的相互影响,μk代表关联函数的权重(具体的属性因子函数和关联函数的实例见S221)。现在我们有了需要求得的参数θ=({αj},{μk})。为了计算参数,我们定义一个对数似然目标函数logPθ(Y|X,G):
O ( θ ) = Σ i = 1 | E | Σ j = 1 d α j f j ( x i j , y i ) + Σ c Σ k μ k h k ( Y c ) - log Z
其中,|E|表示信息三元组的数量,d表示提取的信息三元组属性的个数(即属性因子函数的个数);Yc表示一对相互联系的三元组,c表示这样相互影响的信息三元组的对数,k表示关联函数的个数,Z=Z1Z2为正则化因子。
由此,最大化P(Y|X,G)转变为了最大化目标函数O(θ),预测用户参与话题的问题就变成了找到参数θ=({αj},{μk})使得目标函数最大化,即:
θ*=argmaxΟ(θ)
模型的训练包括以下步骤:定义函数、定义参数、计算三元组闭合的边缘概率、拟合参数、计算结果。
S221:定义模型需要的函数f(.)和h(.)。为每个信息三元组定义一组函数f(.),称这样的函数为属性因子函数,代表信息三元组本身的属性对信息三元组闭合(即信息三元组取值)的影响,例如,精英用户的粉丝可能通过精英用户参与话题,这里的xij代表第i个三元组的第j个属性(如精英用户属性),fj(xij,yi)表示该属性对三元组的影响,;在相互关联的两个信息三元组之间定义一组函数h(.),称这样的函数为关联函数,代表信息三元组取值的相互影响,例如,两个信息三元组若其中一个闭合,如果另外一个三元组与它有相同的结构,那么另外一个三元组也可能闭合,用hk(Yc)表示这一对信息三元组之间的第k个属性(如结构属性)的相互影响。需要注意的是,如图5中的三元组(A,D,E)与三元组(D,(E,F))有相同的物理意义,都代表用户E通过用户D参与了话题,因此这里的h(.)函数需要使这样的信息三元组取值恒等。
S222:本身就喜欢参与话题的用户可能参与话题,而且这样的用户参与话题的概率比精英用户的粉丝参与的概率更大,这说明每个属性的影响程度不同。我们为所有信息三元组Tr中的属性fj(.)定义一个参数αj,代表该属性的权值;为相互影响的信息三元组的属性hk(.)也定义权值参数μk。于是,我们得到一组参数θ=({αj},{μk}),可以给参数赋予一定的初始值。
S223:基于S221定义的两类函数和参数θ的初始值,可以计算每个信息三元组的边缘概率。在本发明中,在信息三元因子图模型中计算这种边缘概率是一个难点,这是因为信息三元因子图的结构是任意的,也有可能带环,计算这种边缘概率其实是一个NP难问题。有许多近似的算法都可以完成这一点,例如LBP算法(LoopyBeliefPropagation,带环的置信传播算法)。Murphy等人在《一种经验性研究:近似计算的带环置信传播》(LoopyBeliefPropagationforApproximateInference:AnEmpiricalStudy,UAI’99.467-475)一文中对LBP算法进行了详尽的阐释。为每个时间点t运行一次LBP算法得出每个t时刻的信息三元组的边缘概率并在此基础上得到每个t时刻整个网络中信息三元组的期望值。
S224:基于步骤S223计算出的1到T时刻的信息三元组的期望和以上对函数的定义可以拟合参数θ。我们可以利用低度下降的方法(或者牛顿算法)来拟合参数,例如参数μk的梯度为:
O ( θ ) μ k = E [ h k ( Y c ) ] - E P μ k ( Y c | X , G ) [ h k ( Y c ) ]
其中E[hk(Yc)]为hk(Yc)的期望,即真实数据下t+1时刻三元组的闭合情况;为信息三元因子图模型给定的分布的情况下hk(Yc)的期望,即把拟合前一阶段的μk值当作已知数的情况下预测的hk(Yc)的期望。
S225:基于步骤S224拟合出的参数,我们再次计算T+1时刻信息三元组yi的边缘概率,直接取概率更大的值作为该信息三元组的状态,即可知下一阶段该信息三元组的闭合情况。
S23:对信息三元组取值计算,得出最终预测结果,即哪些用户会参与话题,以及他们通过谁参与话题。可采用以下方法得到预测结果,包括:合并等价信息三元组、得出最终结果。
S231:基于寻找信息三元组的方法可知,一些信息三元组是等价的,如图5所示,信息三元组(A,D,E)和(D,(E,F))的物理意义相等,均表示用户E通过用户D参与了话题,因此需要合并。由于在定义h(.)函数时已经考虑到了这样的情况,这两个信息三元组的边缘概率必定是相等的,因此合并后的信息三元组与合并前取值相等。
S232:得出的去重之后的信息三元组及其边缘概率即为预测结果,例如,如果三元组(A,D,E)的边缘概率为表示E通过D参与话题的概率为0.1,不参加的概率为0.9。
应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面地理解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造已进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。

Claims (4)

1.一种社交网络中基于三元组的参与话题预测方法,其特征在于,该方法包括:获取数据模块获取热点话题下的用户信息;提取特征模块将用户参与话题的行为通过时间分片,找出每个时间段参与话题的用户组成的信息三元组,为每个用户提取特征属性,基于用户的属性提取信息三元组的属性;模型训练模块基于信息三元组属性对信息三元组的闭合行为建模构建三元信息因子图模型,找出该热点话题下一阶段有哪些信息三元组闭合;结果预测模块根据预测的信息三元组闭合结果,预测得到参与话题的用户。
2.根据权利要求1所述的方法,其特征在于,所述三元信息因子图模型包括,根据信息传播过程及可能的信息传播过程构建话题参与网络拓扑结构,将所有可能闭合的开元三元组作为候选三元组,对候选信息三元组的状态赋值,使用函数f(X,Y,Z,yi)表示三元组本身的属性对三元组取值的影响;使用函数g(yi,yj)表示两个相互影响的候选三元组取值的相互影响。
3.根据权利要求1所述的方法,其特征在于,预测得到参与话题的用户进一步包括:根据公式: P ( x i | y i ) = 1 Z 1 exp { Σ j = 1 d α j f j ( x i j , y i ) } 为信息三元组的属性xij确定一个函数fj(xij,yi)和一个参数αj,根据公式: P ( Y | G ) = 1 Z 2 exp { Σ c Σ k μ k h k ( Y c ) } 为每一对相互关联的三元组确定函数hk(Yc)和权重参数μk,其中,P(xi|yi)表示信息三元组取yi的情况下属性xi存在的概率,Z1和Z2为正则化因子;根据公式 O ( θ ) = Σ i = 1 | E | Σ j = 1 d α j f j ( x i j , y i ) + Σ c Σ k μ k h k ( Y c ) - log Z 定义一个对数似然目标函数logPθ(Y|X,G)为O(θ),其中,Yc表示一对相互联系的三元组,Z=Z1Z2为正则化因子;计算参数θ=({αj},{μk})使得目标函数最大化,预测得到参与话题的用户,其中,fj(xij,yi)表示信息三元组本身的属性对三元组的影响,hk(Yc)表示相互关联的两个信息三元组之间的第k个属性的相互影响,μk为相互影响的信息三元组的属性的权值参数。
4.根据权利要求1所述的方法,其特征在于,信息三元组包括开放和闭合两种状态,表示信息在三元组中的传播过程,每种状态的信息三元组包括,开放信息三元组表示三元组中只有两个用户参与话题的状态,闭合信息三元组表示三元组的三个用户都已经参与话题的状态。
CN201610083980.5A 2016-02-07 2016-02-07 社交网络中一种基于三元组的参与话题预测方法 Pending CN105761152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610083980.5A CN105761152A (zh) 2016-02-07 2016-02-07 社交网络中一种基于三元组的参与话题预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610083980.5A CN105761152A (zh) 2016-02-07 2016-02-07 社交网络中一种基于三元组的参与话题预测方法

Publications (1)

Publication Number Publication Date
CN105761152A true CN105761152A (zh) 2016-07-13

Family

ID=56329672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610083980.5A Pending CN105761152A (zh) 2016-02-07 2016-02-07 社交网络中一种基于三元组的参与话题预测方法

Country Status (1)

Country Link
CN (1) CN105761152A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292390A (zh) * 2017-05-24 2017-10-24 重庆邮电大学 一种基于混沌理论的信息传播模型及其传播方法
CN110825972A (zh) * 2019-11-12 2020-02-21 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
CN111401648A (zh) * 2020-03-20 2020-07-10 李惠芳 一种互联网热点互相影响情况下的事件预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与系统
CN107133219A (zh) * 2017-06-06 2017-09-05 中国人民解放军国防科学技术大学 一种基于张量分解的在线爆炸性话题早发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236722A (zh) * 2011-08-17 2011-11-09 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与系统
CN107133219A (zh) * 2017-06-06 2017-09-05 中国人民解放军国防科学技术大学 一种基于张量分解的在线爆炸性话题早发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG HUANG 等: "Triadic Closure Pattern Analysis and Prediction in Social Networks", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
TIANCHENG LOU 等: "Learning to Predict Reciprocity and Triadic Closure in Social Networks", 《ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292390A (zh) * 2017-05-24 2017-10-24 重庆邮电大学 一种基于混沌理论的信息传播模型及其传播方法
CN110825972A (zh) * 2019-11-12 2020-02-21 重庆邮电大学 一种基于领域差异化的热点话题关键用户发现方法
CN111401648A (zh) * 2020-03-20 2020-07-10 李惠芳 一种互联网热点互相影响情况下的事件预测方法

Similar Documents

Publication Publication Date Title
CN101436206B (zh) 基于本体推理的旅游问答系统答案抽取方法
CN103279887B (zh) 一种基于信息理论的微博传播可视化分析方法
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN105893483A (zh) 大数据挖掘过程模型总体框架的构造方法
CN106909643A (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN106651030A (zh) 一种改进的rbf神经网络热点话题用户参与行为预测方法
CN106411896A (zh) 基于apde‑rbf神经网络的网络安全态势预测方法
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN105893637A (zh) 大规模微博异构信息网络中的链接预测方法
Tan et al. ECRModel: An elastic collision-based rumor-propagation model in online social networks
CN103198228A (zh) 基于广义关系隐话题模型的关系网络链接预测方法
Ardalani-Farsa et al. Residual analysis and combination of embedding theorem and artificial intelligence in chaotic time series forecasting
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN106126607A (zh) 一种面向社交网络的用户关系分析方法
CN108573062A (zh) 一种基于异构社交关系的个性化推荐方法
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法
Zhang et al. Learning latent friendship propagation networks with interest awareness for link prediction
Liu et al. Research and citation analysis of data mining technology based on Bayes algorithm
Liu et al. Using fuzzy neural network approach to estimate contractors’ markup
CN103488885B (zh) 基于mmsb的微博网络用户行为分析方法
Fariha et al. A new framework for mining frequent interaction patterns from meeting databases
CN109213869A (zh) 基于多源数据的热点技术预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160713