CN106649659B - 一种面向社交网络的链接预测系统及方法 - Google Patents

一种面向社交网络的链接预测系统及方法 Download PDF

Info

Publication number
CN106649659B
CN106649659B CN201611144573.7A CN201611144573A CN106649659B CN 106649659 B CN106649659 B CN 106649659B CN 201611144573 A CN201611144573 A CN 201611144573A CN 106649659 B CN106649659 B CN 106649659B
Authority
CN
China
Prior art keywords
user
users
link
interest
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611144573.7A
Other languages
English (en)
Other versions
CN106649659A (zh
Inventor
肖云鹏
李茜曦
刘宴兵
柳靓云
李晓娟
张克毅
赵金哲
孙华超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201611144573.7A priority Critical patent/CN106649659B/zh
Publication of CN106649659A publication Critical patent/CN106649659A/zh
Application granted granted Critical
Publication of CN106649659B publication Critical patent/CN106649659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明请求保护一种面向社交网络的链接预测系统及方法,属于数据挖掘、社交网络分析领域。基于在线用户以及用户好友关系网络,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,构建社交网络链接预测模型。首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;其次,利用高斯加权对标准LDA进行改进,提高主题表达能力;最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。更充分地考虑共邻用户间的相互依赖关系,综合用户行为特征和网络结构特征进行链接预测,并发现链接建立的关键因素。

Description

一种面向社交网络的链接预测系统及方法
技术领域
本发明涉及数据挖掘、社交网络分析领域,涉及用户关系分析,尤其是一种面向社交网络的链接预测方法。
背景技术
随着计算机信息技术的不断发展和互联网的迅速普及,社交网络得到了越来越多人的参与和关注。近几年来,社交网站已逐渐成为信息传播与分享的重要途径,用户留下的相关信息让社交网络成为一个巨大的信息平台,对这些海量数据的挖掘成为了研究热点。其中,对于社交网络中的用户关系分析的研究,可以帮助人们更好地解释网络结构的演化与发现。
现阶段,对于社交网络中的用户关系分析有着不同方面的研究,主要包括用户关系预测以及用户关系强度等方面的研究,所使用的方法包括基于节点相似度的分析,基于概率模型的分析以及基于最大似然估计的分析。其中,基于节点相似度的分析,它存在一个假设前提,即任意两个不相连的节点越相似,越可能产生链接。例如:共同邻居指标(CN)、节点邻居类型的优先链接指标(PA)、Adamic/Adar指标(AA)、Jaccard系数、Katz等;基于概率模型的分析,主要是通过构建一个含一组可调参数的模型,然后采用优化策略找到最优的参数值,从而使得所得到的模型能够很好地重现网络结构和关系特征。例如:Sarukkai等人在《基于马尔可夫链的链接预测和路径分析》(Link Prediction and Path analysisusing Markov chains)中应用马尔科夫链对网络进行路径分析和链路预测;基于最大似然估计的分析,它比较适用于有层次结构的网络中进行计算,例如:Clauset等人在《网络的层次结构和缺失链接预测》(Hierarchical Structure and the Prediction of MissingLinks in Networks)中通过建立一个网络层次结构模型,针对具有明显层次特征的网络进行链接预测。
以上的研究着重于通过分析网络结构特征,即外部因素来预测链接,但这些方法都没有考虑到用户内部因素对链接产生的影响,如用户属性和用户行为,忽略了网络中用户行为信息之间的潜在兴趣关系。LDA主题模型可以对用户属性信息进行主题提取,并且它适合处理“一词多义”、“多词一义”的问题。Yoon-Sik Cho等人在《综合社会数据的潜在空间模型》(Latent Space Model for Multi-Modal Social Data)中分析全网络中的用户属性和行为,构建一种基于LDA的潜在空间模型,对用户行为进行建模分析,得到关于用户行为的主题分布,从而预测用户关系。但用户对不同用户的关注符合幂律分布,会使得LDA模型的主题分布向高频用户倾斜,应当在LDA模型中采用合适的加权策略,提高主题表达能力。另外,LDA模型没有完全体现出网络结构对链接预测的贡献,实际上共同邻居间存在一定的依赖关系,因此,需要更充分地考虑这种依赖关系,提高链接预测的精准度。
发明内容
本发明需要解决的技术问题是:现有技术忽略了网络中用户行为信息之间的潜在兴趣关系,对因共同邻居相互链接而产生的依赖关系考虑不足,链接预测的精准度有提高空间。考虑到用户之间的链接建立受到用户内部因素和外部因素的共同作用,内部因素具体在用户行为中体现出来,可表现为用户的兴趣关注和信息交互,而外部因素又表现为用户间共邻用户对链接产生的影响。提出了一种提高链接预测的精准度的面向社交网络的链接预测系统及方法。本发明的技术方案如下:
一种面向社交网络的链接预测系统,其包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中
数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。
进一步的,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
进一步的,所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为
Figure BDA0001178586240000031
其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;
信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为
Figure BDA0001178586240000032
其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;
共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为
Figure BDA0001178586240000033
其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数。
进一步的,所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。
进一步的,所述获取用户兴趣关注特征包括:统计社交网络中注册用户所关注的所有用户,并统计关注的用户的出现频率;针对每个用户,采用高斯加权公式对用户关注的每个用户wx,n加权
Figure BDA0001178586240000041
其中
Figure BDA0001178586240000042
表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率;给定参数K作为用户兴趣关注的主题数,采用改进的LDA主题模型训练所有注册用户,得到用户兴趣关注的主题分布Θ。采用余弦相似度计算两两用户间基于兴趣关注的相似度,得到用户兴趣关注的相似度矩阵R1,将基于兴趣关注的相似度作为用户兴趣关注特征。
进一步的,所述获取用户信息交互特征包括:获取用户兴趣关注特征,给定参数K'作为用户信息交互的主题数,采用LDA主题模型训练所有注册用户,得到用户信息交互的主题分布Θ';采用余弦相似度计算两两用户间基于信息交互的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
进一步的,所述获取网络结构特征包括:假设共邻用户间的依赖关系分为两种,独立依赖关系和联合依赖关系,独立依赖关系指的是共邻用户受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户受其他多个共邻用户的共同影响,采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户间基于网络结构的相似度,得到网络结构的相似度矩阵R3,将网络结构的相似度作为网络结构特征。
一种面向社交网络的链接预测方法,其包括以下步骤:
首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;
其次,考虑到用户对不同用户的关注符合幂律分布,利用高斯加权对标准LDA进行改进,提高主题表达能力;
最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。
进一步的,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,利用LDA主题模型解决“一词多义”、“多词一义”的基础思想和隐朴素贝叶斯定义的共邻用户贡献算法,构建一种基于改进的LDA社交网络链接预测模型。
本发明的优点及有益效果如下:
本发明针对网络中用户行为信息之间的潜在兴趣关系以及共同邻居相互链接而产生的依赖关系等问题,能够对没有显性链接的用户对是否会产生链接作出准确预测,并发现链接建立的关键因素。根据上述方法,采用高斯加权后的LDA可以让代表主题的多数用户不被少量高频用户所淹没,能有效降低对用户行为处理的复杂度,提高主题表达能力;结合隐朴素贝叶斯定义的共邻用户贡献算法,能更充分地考虑共邻用户间的相互依赖关系,提高链接预测的精准度。
附图说明
图1是本发明提供优选实施例面向社交网络的链接预测方法总体流程图;
图2是本发明的预测模型框图;
图3是本发明的预测模型流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
由于用户之间的链接建立受到用户内部因素和外部因素的共同作用。内部因素具体在用户行为中体现出来,可表现为用户的兴趣关注和信息交互;而外部因素又表现为用户间共邻用户对链接产生的影响。因此本发明分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,针对网络中用户行为信息之间的潜在兴趣关系以及共同邻居相互链接而产生的依赖关系等问题,构建一种基于改进的LDA社交网络链接预测模型,使其能够预测没有显性链接的用户对是否会产生链接,并发现链接建立的关键因素。
具体表述为,给定一个社交网络图Gus=(Us,Eus,Aus),Gus是一个无向图,其中,Us表示社交网络中的注册用户,
Figure BDA0001178586240000061
表示所有用户之间的关系,
Figure BDA0001178586240000062
表示用户间的行为互动;从现有网络Gus中抽取部分网络作为目标网络Gut=(Ut,Eut,Aut),其中Ut表示随机抽取的目标用户;预测目标用户Ut中没有显性链接的用户对是否会产生链接,即预测目标网络Gut中新的用户关系Eu'。上述也可表示为:
Figure BDA0001178586240000063
如图1所示为本发明的总体流程图,包括:获取数据模块,解析属性模块,构建模型模块以及预测分析模块共四大模块。
以下具体说明本发明的详细实施过程。
S1:获取数据源。获取的数据为微博数据,主要通过网络爬虫获取。获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据(转发和原创微博情况)。数据的获取主要采用如下方法(也可采用现有技术的常规方法获取):
S11:获取原始数据。利用网络爬虫或者通过各社交网站开放API平台获取数据。获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
S12:简单的数据清洗。通过简单的数据清洗可以使大部分数据利于分析。例如,删除重复数据、清理无效节点等。
S2:提取相关属性。考虑用户间的链接建立主要受用户的兴趣关注、信息交互以及共邻用户三方面影响,本发明分别从兴趣关注、信息交互以及共邻用户三方面提取相关属性。具体举例作如下说明。
S21:提取兴趣关注属性。兴趣关注属性是指用户对感兴趣的用户的关注,即用户的关注列表。定义用户ux的兴趣关注向量为:
Figure BDA0001178586240000071
其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数。例如:用户a的关注列表中的有效用户有b,c,d,e......,则用户a的兴趣关注向量为F(a)=[b,c,d,e......]。
S22:提取信息交互属性。信息交互属性是指用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互。定义用户ux的信息交互向量为:
Figure BDA0001178586240000072
其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数。例如:用户h转发了用户j的微博2次,转发了用户k的微博3次......,则用户h的信息交互向量为I(h)=[j,j,k,k,k......]。
S23:提取共邻用户属性。共邻用户属性是指用户间的共同好友,这里的好友指的是相互关注关系。定义用户ux与用户uy的共邻用户向量为:
Figure BDA0001178586240000073
其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户。Qxy表示用户ux与用户uy的共邻用户个数。例如:用户s与用户t的共邻用户有g,i,o,r......,则用户s与用户t的共邻用户向量为C(s,t)=[g,i,o,r.....]。
S3:建立模型。如图2所示为本发明的预测模型框图。针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征。同理,利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征。针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征。将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。模型的训练及求解将在接下来的部分详细叙述。
如图3所示为本发明的预测模型流程图。
S31:用户的兴趣关注影响分析。
在社交网络中,假设有M个注册用户,U={u1,u2......uM}。每个注册用户ux可以由Nx个该用户关注的用户构成,即可以表示为该用户的兴趣关注向量
Figure BDA0001178586240000081
注册用户ux的每个关注用户wx,n服从兴趣主题zx,n的多项式分布,每个兴趣主题zx,n服从注册用户ux的多项式分布。
统计注册用户所关注的所有用户,其总数为N,并统计关注的用户的出现频率。针对每个用户ux,采用高斯加权公式对用户关注的每个用户wx,n加权:
Figure BDA0001178586240000082
其中
Figure BDA0001178586240000083
表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率。给定参数K作为用户兴趣关注的主题数,采用高斯加权改进的LDA生成过程如下:
1、
Figure BDA0001178586240000084
Figure BDA0001178586240000085
是Dirichlet分布的参数,以先验参数
Figure BDA0001178586240000086
选择
Figure BDA0001178586240000087
Figure BDA0001178586240000088
服从
Figure BDA0001178586240000089
分布,代表兴趣主题k下的每个关注用户出现的概率。
2、
Figure BDA00011785862400000810
Figure BDA00011785862400000811
是Dirichlet分布的参数,以先验参数
Figure BDA00011785862400000812
选择
Figure BDA00011785862400000813
服从
Figure BDA00011785862400000814
分布,代表用户ux的兴趣主题发生的概率。然后对其Nx个关注用户的每一个,选择兴趣主题zx,n,zx,n服从
Figure BDA00011785862400000815
多项式分布。
3、
Figure BDA00011785862400000816
k=zx,n。根据
Figure BDA00011785862400000817
选择关注用户wx,n
Figure BDA00011785862400000818
表示采用高斯加权后在兴趣主题k条件下出现关注用户wx,n的概率。wx,n服从在zx,n条件下的
Figure BDA00011785862400000819
多项式分布。
所有变量的概率联合分布如下:
Figure BDA0001178586240000091
其中,
Figure BDA0001178586240000092
表示用户ux的兴趣主题标签向量,
Figure BDA0001178586240000093
表示用户ux的高斯加权向量,Φ表示关注用户分布,
Figure BDA0001178586240000094
在该生成模型中,对用户行为建模实际是要计算用户的兴趣关注主题分布
Figure BDA0001178586240000095
以及关注用户分布
Figure BDA0001178586240000096
由于Θ和Φ的耦合,无法直接计算,这里采用Gibbs抽样间接求得Θ和Φ。Gibbs抽样每次迭代估算Θ和Φ的公式如下:
Figure BDA0001178586240000097
Figure BDA0001178586240000098
其中,
Figure BDA0001178586240000099
表示主题k分配到用户ux的次数,
Figure BDA00011785862400000910
表示关注用户t被观察到分配给主题k的加权后的次数。
采用余弦相似度计算两两用户ux与uy间基于兴趣关注的相似度。余弦相似度计算公式如下:
Figure BDA00011785862400000911
其中,
Figure BDA00011785862400000912
Figure BDA00011785862400000913
分别表示用户ux与uy的兴趣主题向量。得到的r1-xy的值越大,表明两个用户的兴趣主题越相似,也就是说他们之间产生链接的可能性越大。
遍历用户的兴趣关注主题分布Θ,通过式(8)计算出社交网络中所有用户对间的基于交互行为条件下的相似度,得到用户兴趣关注的相似度矩阵R1,并将基于兴趣关注的相似度作为用户兴趣关注特征。
S32:用户的信息交互影响分析。
在S31步骤基础上,每个注册用户ux也可以由N'x个与其发生信息交互的用户构成,即可以表示为该用户的信息交互向量,
Figure BDA0001178586240000101
注册用户ux的每个交互用户w'x,n服从兴趣主题z'x,n的多项式分布,每个兴趣主题z'x,n服从注册用户ux的多项式分布。
统计注册用户信息交互的所有用户,其总数为N',给定参数K'作为用户信息交互的主题数,用户的信息交互的生成过程类似于S31中用户的兴趣关注的生成过程。同理,求解出用户的信息交互主题分布Θ',遍历Θ',计算出社交网络中所有用户对间的基于关注行为条件下的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
S33:用户的共邻用户影响分析。
经过S23步骤,我们可以得到两个注册用户ux和uy的共邻用户向量
Figure BDA0001178586240000102
其中每个共邻用户与其他共邻用户之间会存在一定的依赖关系。假设这种依赖关系分两种,独立依赖关系和联合依赖关系。独立依赖关系指的是共邻用户cq受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户cq受其他多个共邻用户的共同影响。这里用隐含因子η表示独立依赖关系的总和,隐含因子π表示联合依赖关系的总和。
我们令Lxy表示两个注册用户ux和uy间的链接状态,
Figure BDA0001178586240000103
其中,lxy表示两个用户间存在链接,
Figure BDA0001178586240000104
表示两个注册用户间无链接。所有变量的概率联合分布如下:
Figure BDA0001178586240000105
Figure BDA0001178586240000111
其中,P(lxy)、
Figure BDA0001178586240000112
表示用户ux与uy间存在链接的概率;P(cqq,lxy)、
Figure BDA0001178586240000113
表示共邻用户cq与其他共邻用户的独立依赖关系在存在链接和不存在链接条件下的加权和;P(cqq,lxy)、
Figure BDA0001178586240000114
表示共邻用户cq与其他共邻用户对的联合依赖关系在存在链接和不存在链接条件下的加权和。共邻用户间的依赖关系的计算公式如下:
Figure BDA0001178586240000115
Figure BDA0001178586240000116
其中,权重Wij、Wijk表示共邻用户间的独立依赖关系和联合依赖关系的重要程度,这里采用共邻用户间的条件互信息加权和来表示,计算公式如下:
Figure BDA0001178586240000117
Figure BDA0001178586240000118
为了减小条件互信息计算时的时间复杂度,这里设置判决条件如下:
Ip(ci,[cj,ck]|lxy)>max{Ip(ci,cj|lxy),Ip(ci,ck|lxy)} (15)
若隐含因子π对共邻用户的影响比隐含因子η要大,则考虑隐含因子η、π共同作用,否则只考虑隐含因子η的影响。在不存在链接条件下的相关计算与上述相类似。
由共邻用户向量作为先验条件预测用户ux与uy存在链接的概率为:
Figure BDA0001178586240000121
同理,可以求解由共邻用户向量作为先验条件预测用户ux与uy不存在链接的概率
Figure BDA0001178586240000122
采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户ux与uy间基于网络结构的相似度,计算公式如下:
Figure BDA0001178586240000123
通过式(17)计算出社交网络中所有用户对间的基于共邻用户条件下的相似度,即基于网络结构的相似度,得到网络结构的相似度矩阵R3,并将基于网络结构的相似度作为网络结构特征。
S34:分类器构造。
经步骤S31~S33,可以得到用户的兴趣关注特征、用户的信息交互特征以及网络结构特征。给定这三种特征一个权值参数集合λ={λ123},其中λ1、λ2、λ3分别表示这三种特征对用户间产生链接的影响程度。将这三种特征一起流入分类器,采用有监督框架来组合这三种特征,得到链接预测模型。这里的分类器采用的是SVM分类器,通过训练分类器以及这三种特征的权值参数来判别形成链接和未形成链接来输出链接预测结果,同时发现链接建立的关键因素。
S4:预测和分析过程。将抽取的目标网络Gut=(Ut,Eut,Aut)输入到经S3步骤得到的链接预测模型中,对其中没有显性链接的用户对是否会产生链接进行预测,得到目标网络Gut中新的用户关系Eu',同时根据训练得到的权值参数集合λ={λ123}来发现链接建立的关键因素。
本发明利用社交网络中用户行为以及用户关系数据分析用户的相关属性,将没有显性链接的用户对作为输入,预测这些用户对是否会产生链接。首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型处理“一词多义”、“多词一义”的基础思想和方法,对用户行为进行建模,得到关于用户行为的主题分布。其次,考虑到用户对不同用户的关注符合幂律分布,利用高斯加权对标准LDA进行改进,提高主题表达能力。最后,针对LDA模型没有完全体现出网络结构对链接预测的贡献的问题,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,更充分地考虑共邻用户间的相互依赖关系,综合用户行为特征和网络结构特征进行链接预测,并发现链接建立的关键因素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种面向社交网络的链接预测系统,其特征在于,包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中
数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素;
所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为
Figure FDA0002547170030000011
其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;
信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为
Figure FDA0002547170030000012
其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;
共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为
Figure FDA0002547170030000013
其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数;
所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素;
用户的共邻用户影响分析;
得到两个注册用户ux和uy的共邻用户向量
Figure FDA0002547170030000021
其中每个共邻用户与其他共邻用户之间会存在一定的依赖关系;假设这种依赖关系分两种,独立依赖关系和联合依赖关系;独立依赖关系指的是共邻用户cq受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户cq受其他多个共邻用户的共同影响;采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户间基于网络结构的相似度,得到网络结构的相似度矩阵R3,将网络结构的相似度作为网络结构特征;这里用隐含因子η表示独立依赖关系的总和,隐含因子π表示联合依赖关系的总和;
我们令Lxy表示两个注册用户ux和uy间的链接状态,
Figure FDA0002547170030000022
其中,lxy表示两个用户间存在链接,
Figure FDA0002547170030000023
表示两个注册用户间无链接;所有变量的概率联合分布如下:
Figure FDA0002547170030000024
Figure FDA0002547170030000025
其中,P(lxy)、
Figure FDA0002547170030000026
表示用户ux与uy间存在链接的概率;P(cqq,lxy)、
Figure FDA0002547170030000027
表示共邻用户cq与其他共邻用户的独立依赖关系在存在链接和不存在链接条件下的加权和;P(cqq,lxy)、
Figure FDA0002547170030000028
表示共邻用户cq与其他共邻用户对的联合依赖关系在存在链接和不存在链接条件下的加权和;共邻用户间的依赖关系的计算公式如下:
Figure FDA0002547170030000031
Figure FDA0002547170030000032
其中,权重Wij、Wijk表示共邻用户间的独立依赖关系和联合依赖关系的重要程度,这里采用共邻用户间的条件互信息加权和来表示,计算公式如下:
Figure FDA0002547170030000033
Figure FDA0002547170030000034
为了减小条件互信息计算时的时间复杂度,这里设置判决条件如下:
Ip(ci,[cj,ck]|lxy)>max{Ip(ci,cj|lxy),Ip(ci,ck|lxy)} (15)
若隐含因子π对共邻用户的影响比隐含因子η要大,则考虑隐含因子η、π共同作用,否则只考虑隐含因子η的影响;在不存在链接条件下的相关计算与上述相类似。
2.根据权利要求1所述的面向社交网络的链接预测系统,其特征在于,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
3.根据权利要求2所述的面向社交网络的链接预测系统,其特征在于,所述获取用户兴趣关注特征包括:统计社交网络中注册用户所关注的所有用户,并统计关注的用户的出现频率;针对每个用户,采用高斯加权公式对用户关注的每个用户wx,n加权
Figure FDA0002547170030000035
其中
Figure FDA0002547170030000036
表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率;给定参数K作为用户兴趣关注的主题数,采用改进的LDA主题模型训练所有注册用户,得到用户兴趣关注的主题分布Θ;采用余弦相似度计算两两用户间基于兴趣关注的相似度,得到用户兴趣关注的相似度矩阵R1,将基于兴趣关注的相似度作为用户兴趣关注特征。
4.根据权利要求3所述的面向社交网络的链接预测系统,其特征在于,所述获取用户信息交互特征包括:获取用户兴趣关注特征,给定参数K'作为用户信息交互的主题数,采用LDA主题模型训练所有注册用户,得到用户信息交互的主题分布Θ';采用余弦相似度计算两两用户间基于信息交互的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
CN201611144573.7A 2016-12-13 2016-12-13 一种面向社交网络的链接预测系统及方法 Active CN106649659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611144573.7A CN106649659B (zh) 2016-12-13 2016-12-13 一种面向社交网络的链接预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611144573.7A CN106649659B (zh) 2016-12-13 2016-12-13 一种面向社交网络的链接预测系统及方法

Publications (2)

Publication Number Publication Date
CN106649659A CN106649659A (zh) 2017-05-10
CN106649659B true CN106649659B (zh) 2020-09-29

Family

ID=58825002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611144573.7A Active CN106649659B (zh) 2016-12-13 2016-12-13 一种面向社交网络的链接预测系统及方法

Country Status (1)

Country Link
CN (1) CN106649659B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392782A (zh) * 2017-06-29 2017-11-24 上海斐讯数据通信技术有限公司 基于word2Vec的社团构建方法、装置及计算机处理设备
CN110020117B (zh) * 2017-09-29 2022-05-03 北京搜狗科技发展有限公司 一种兴趣信息获取方法、装置及电子设备
CN108280115B (zh) * 2017-10-24 2021-09-28 腾讯科技(深圳)有限公司 识别用户关系的方法及装置
CN107808168B (zh) * 2017-10-31 2023-08-01 北京科技大学 一种基于强弱关系的社交网络用户行为预测方法
CN107895038B (zh) * 2017-11-29 2020-05-12 四川无声信息技术有限公司 一种链路预测关系推荐方法及装置
CN108170725A (zh) * 2017-12-11 2018-06-15 仲恺农业工程学院 集成多特征信息的社交网络用户关系强度计算方法和装置
CN109033069B (zh) * 2018-06-16 2022-05-17 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN109086373B (zh) * 2018-07-23 2021-01-12 东南大学 一种构建公平的链接预测评估系统的方法
CN109597875B (zh) * 2018-11-02 2022-08-23 广东工业大学 一种基于词嵌入的高斯lda的优化求解方式
CN110083778A (zh) * 2019-04-08 2019-08-02 清华大学 学习分离表征的图卷积神经网络构建方法及装置
CN110335165B (zh) * 2019-06-28 2021-03-30 京东数字科技控股有限公司 一种链路预测方法和装置
CN110968792A (zh) * 2019-10-28 2020-04-07 东北大学 基于节点嵌入和个性化时间间隔的复杂网络链路预测方法
CN111369374B (zh) * 2020-02-19 2023-06-02 山西大学 一种基于概率产生式的社交网络时序链接预测方法及装置
CN111581511A (zh) * 2020-05-08 2020-08-25 深圳市万佳安人工智能数据技术有限公司 一种面向大规模社交网络的交友推荐方法和系统
CN111625439B (zh) * 2020-06-01 2023-07-04 杭州弧途科技有限公司 基于用户行为的日志数据分析app用户粘性的方法
CN111859163B (zh) * 2020-06-16 2023-09-29 珠海高凌信息科技股份有限公司 基于用户兴趣主题的微博网络链路预测方法、装置及介质
CN111738447B (zh) * 2020-06-22 2022-07-29 东华大学 基于时空关系学习的移动社交网络用户关系推断方法
CN112380427B (zh) * 2020-10-27 2022-07-08 中国科学院信息工程研究所 基于迭代图注意力网络的用户兴趣预测方法及电子装置
CN112364259A (zh) * 2020-11-24 2021-02-12 深圳市元征科技股份有限公司 一种信息推荐方法、装置、设备及介质
CN112541548A (zh) * 2020-12-14 2021-03-23 百果园技术(新加坡)有限公司 关系网络的生成方法、装置、计算机设备及存储介质
CN112733018B (zh) * 2020-12-31 2022-12-06 哈尔滨工程大学 一种基于图神经网络gnn和多任务学习的会话推荐方法
CN115829159B (zh) * 2022-12-29 2023-11-10 人民网股份有限公司 社交媒体粉丝新增预测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077574A1 (en) * 2006-09-22 2008-03-27 John Nicholas Gross Topic Based Recommender System & Methods

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Latent Space Model for Multi-Modal Social Data;Yoon-Sik Cho等;《Proceedings of the 25th International Conference on World Wide Web》;20160415;第447-456页 *
一种改进的 LDA 主题模型;张小平等;《北京交通大学学报》;20100415;第111-114页 *
基于LDA的社交网络链接预测模型研究;补嘉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121015;第I页、第4-36页 *
基于主题模型的有向社交网络链接预测方法;吴梦蝶等;《西南大学学报(自然科学版)》;20140217;全文 *
基于隐朴素贝叶斯模型的链接预测算法;黄宏程等;《四川大学学报(工程科学版)》;20160720;第150-157页 *
社会网络中的链接分析与预测研究;王林澍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415;全文 *
社会网络用户关系分析与预测;李德民等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;第I页、第5页、第10-14页、第19-23页 *

Also Published As

Publication number Publication date
CN106649659A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649659B (zh) 一种面向社交网络的链接预测系统及方法
US11704366B2 (en) Methods and systems for associating internet devices
Liu et al. EGNN: Graph structure learning based on evolutionary computation helps more in graph neural networks
Keikha et al. Influence maximization across heterogeneous interconnected networks based on deep learning
Davis et al. Multi-relational link prediction in heterogeneous information networks
Sowan et al. Fuzzy association rule mining approaches for enhancing prediction performance
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
Lee et al. Link prediction with social vector clocks
CN113918833A (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
Wang et al. Graph active learning for GCN-based zero-shot classification
Chang et al. Link prediction in a bipartite network using Wikipedia revision information
Zhu et al. A hybrid time-series link prediction framework for large social network
Nikzad-Khasmakhi et al. ExEm: Expert embedding using dominating set theory with deep learning approaches
Wang et al. Detecting shilling groups in online recommender systems based on graph convolutional network
Wu et al. Heterogeneous representation learning and matching for few-shot relation prediction
Zhou et al. Rank2vec: learning node embeddings with local structure and global ranking
Lamprier et al. Extracting diffusion channels from real-world social data: a delay-agnostic learning of transmission probabilities
Chen et al. LinkProbe: Probabilistic inference on large-scale social networks
Zeng et al. Influential simplices mining via simplicial convolutional network
Lu et al. A unified link prediction framework for predicting arbitrary relations in heterogeneous academic networks
Li et al. Dynamic multi-view group preference learning for group behavior prediction in social networks
Tripathi et al. Network embedding based link prediction in dynamic networks
Yang et al. Gated graph convolutional network based on spatio-temporal semi-variogram for link prediction in dynamic complex network
Yan et al. Membership inference attacks against deep learning models via logits distribution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant