CN106649659A - 一种面向社交网络的链接预测系统及方法 - Google Patents
一种面向社交网络的链接预测系统及方法 Download PDFInfo
- Publication number
- CN106649659A CN106649659A CN201611144573.7A CN201611144573A CN106649659A CN 106649659 A CN106649659 A CN 106649659A CN 201611144573 A CN201611144573 A CN 201611144573A CN 106649659 A CN106649659 A CN 106649659A
- Authority
- CN
- China
- Prior art keywords
- user
- users
- interest
- attention
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000003012 network analysis Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 2
- 238000003786 synthesis reaction Methods 0.000 abstract 2
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 108010014172 Factor V Proteins 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种面向社交网络的链接预测系统及方法,属于数据挖掘、社交网络分析领域。基于在线用户以及用户好友关系网络,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,构建社交网络链接预测模型。首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;其次,利用高斯加权对标准LDA进行改进,提高主题表达能力;最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。更充分地考虑共邻用户间的相互依赖关系,综合用户行为特征和网络结构特征进行链接预测,并发现链接建立的关键因素。
Description
技术领域
本发明涉及数据挖掘、社交网络分析领域,涉及用户关系分析,尤其是一种面向社交网络的链接预测方法。
背景技术
随着计算机信息技术的不断发展和互联网的迅速普及,社交网络得到了越来越多人的参与和关注。近几年来,社交网站已逐渐成为信息传播与分享的重要途径,用户留下的相关信息让社交网络成为一个巨大的信息平台,对这些海量数据的挖掘成为了研究热点。其中,对于社交网络中的用户关系分析的研究,可以帮助人们更好地解释网络结构的演化与发现。
现阶段,对于社交网络中的用户关系分析有着不同方面的研究,主要包括用户关系预测以及用户关系强度等方面的研究,所使用的方法包括基于节点相似度的分析,基于概率模型的分析以及基于最大似然估计的分析。其中,基于节点相似度的分析,它存在一个假设前提,即任意两个不相连的节点越相似,越可能产生链接。例如:共同邻居指标(CN)、节点邻居类型的优先链接指标(PA)、Adamic/Adar指标(AA)、Jaccard系数、Katz等;基于概率模型的分析,主要是通过构建一个含一组可调参数的模型,然后采用优化策略找到最优的参数值,从而使得所得到的模型能够很好地重现网络结构和关系特征。例如:Sarukkai等人在《基于马尔可夫链的链接预测和路径分析》(Link Prediction and Path analysisusing Markov chains)中应用马尔科夫链对网络进行路径分析和链路预测;基于最大似然估计的分析,它比较适用于有层次结构的网络中进行计算,例如:Clauset等人在《网络的层次结构和缺失链接预测》(Hierarchical Structure and the Prediction of MissingLinks in Networks)中通过建立一个网络层次结构模型,针对具有明显层次特征的网络进行链接预测。
以上的研究着重于通过分析网络结构特征,即外部因素来预测链接,但这些方法都没有考虑到用户内部因素对链接产生的影响,如用户属性和用户行为,忽略了网络中用户行为信息之间的潜在兴趣关系。LDA主题模型可以对用户属性信息进行主题提取,并且它适合处理“一词多义”、“多词一义”的问题。Yoon-Sik Cho等人在《综合社会数据的潜在空间模型》(Latent Space Model for Multi-Modal Social Data)中分析全网络中的用户属性和行为,构建一种基于LDA的潜在空间模型,对用户行为进行建模分析,得到关于用户行为的主题分布,从而预测用户关系。但用户对不同用户的关注符合幂律分布,会使得LDA模型的主题分布向高频用户倾斜,应当在LDA模型中采用合适的加权策略,提高主题表达能力。另外,LDA模型没有完全体现出网络结构对链接预测的贡献,实际上共同邻居间存在一定的依赖关系,因此,需要更充分地考虑这种依赖关系,提高链接预测的精准度。
发明内容
本发明需要解决的技术问题是:现有技术忽略了网络中用户行为信息之间的潜在兴趣关系,对因共同邻居相互链接而产生的依赖关系考虑不足,链接预测的精准度有提高空间。考虑到用户之间的链接建立受到用户内部因素和外部因素的共同作用,内部因素具体在用户行为中体现出来,可表现为用户的兴趣关注和信息交互,而外部因素又表现为用户间共邻用户对链接产生的影响。提出了一种提高链接预测的精准度的面向社交网络的链接预测系统及方法。本发明的技术方案如下:
一种面向社交网络的链接预测系统,其包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中
数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。
进一步的,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
进一步的,所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;
信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;
共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数。
进一步的,所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。
进一步的,所述获取用户兴趣关注特征包括:统计社交网络中注册用户所关注的所有用户,并统计关注的用户的出现频率;针对每个用户,采用高斯加权公式对用户关注的每个用户wx,n加权其中表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率;给定参数K作为用户兴趣关注的主题数,采用改进的LDA主题模型训练所有注册用户,得到用户兴趣关注的主题分布Θ。采用余弦相似度计算两两用户间基于兴趣关注的相似度,得到用户兴趣关注的相似度矩阵R1,将基于兴趣关注的相似度作为用户兴趣关注特征。
进一步的,所述获取用户信息交互特征包括:获取用户兴趣关注特征,给定参数K'作为用户信息交互的主题数,采用LDA主题模型训练所有注册用户,得到用户信息交互的主题分布Θ';采用余弦相似度计算两两用户间基于信息交互的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
进一步的,所述获取网络结构特征包括:假设共邻用户间的依赖关系分为两种,独立依赖关系和联合依赖关系,独立依赖关系指的是共邻用户受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户受其他多个共邻用户的共同影响,采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户间基于网络结构的相似度,得到网络结构的相似度矩阵R3,将网络结构的相似度作为网络结构特征。
一种面向社交网络的链接预测方法,其包括以下步骤:
首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;
其次,考虑到用户对不同用户的关注符合幂律分布,利用高斯加权对标准LDA进行改进,提高主题表达能力;
最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。
进一步的,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,利用LDA主题模型解决“一词多义”、“多词一义”的基础思想和隐朴素贝叶斯定义的共邻用户贡献算法,构建一种基于改进的LDA社交网络链接预测模型。
本发明的优点及有益效果如下:
本发明针对网络中用户行为信息之间的潜在兴趣关系以及共同邻居相互链接而产生的依赖关系等问题,能够对没有显性链接的用户对是否会产生链接作出准确预测,并发现链接建立的关键因素。根据上述方法,采用高斯加权后的LDA可以让代表主题的多数用户不被少量高频用户所淹没,能有效降低对用户行为处理的复杂度,提高主题表达能力;结合隐朴素贝叶斯定义的共邻用户贡献算法,能更充分地考虑共邻用户间的相互依赖关系,提高链接预测的精准度。
附图说明
图1是本发明提供优选实施例面向社交网络的链接预测方法总体流程图;
图2是本发明的预测模型框图;
图3是本发明的预测模型流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
由于用户之间的链接建立受到用户内部因素和外部因素的共同作用。内部因素具体在用户行为中体现出来,可表现为用户的兴趣关注和信息交互;而外部因素又表现为用户间共邻用户对链接产生的影响。因此本发明分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,针对网络中用户行为信息之间的潜在兴趣关系以及共同邻居相互链接而产生的依赖关系等问题,构建一种基于改进的LDA社交网络链接预测模型,使其能够预测没有显性链接的用户对是否会产生链接,并发现链接建立的关键因素。
具体表述为,给定一个社交网络图Gus=(Us,Eus,Aus),Gus是一个无向图,其中,Us表示社交网络中的注册用户,表示所有用户之间的关系,表示用户间的行为互动;从现有网络Gus中抽取部分网络作为目标网络Gut=(Ut,Eut,Aut),其中Ut表示随机抽取的目标用户;预测目标用户Ut中没有显性链接的用户对是否会产生链接,即预测目标网络Gut中新的用户关系Eu'。上述也可表示为:
如图1所示为本发明的总体流程图,包括:获取数据模块,解析属性模块,构建模型模块以及预测分析模块共四大模块。
以下具体说明本发明的详细实施过程。
S1:获取数据源。获取的数据为微博数据,主要通过网络爬虫获取。获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据(转发和原创微博情况)。数据的获取主要采用如下方法(也可采用现有技术的常规方法获取):
S11:获取原始数据。利用网络爬虫或者通过各社交网站开放API平台获取数据。获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
S12:简单的数据清洗。通过简单的数据清洗可以使大部分数据利于分析。例如,删除重复数据、清理无效节点等。
S2:提取相关属性。考虑用户间的链接建立主要受用户的兴趣关注、信息交互以及共邻用户三方面影响,本发明分别从兴趣关注、信息交互以及共邻用户三方面提取相关属性。具体举例作如下说明。
S21:提取兴趣关注属性。兴趣关注属性是指用户对感兴趣的用户的关注,即用户的关注列表。定义用户ux的兴趣关注向量为:
其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数。例如:用户a的关注列表中的有效用户有b,c,d,e......,则用户a的兴趣关注向量为F(a)=[b,c,d,e......]。
S22:提取信息交互属性。信息交互属性是指用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互。定义用户ux的信息交互向量为:
其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数。例如:用户h转发了用户j的微博2次,转发了用户k的微博3次......,则用户h的信息交互向量为I(h)=[j,j,k,k,k......]。
S23:提取共邻用户属性。共邻用户属性是指用户间的共同好友,这里的好友指的是相互关注关系。定义用户ux与用户uy的共邻用户向量为:
其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户。Qxy表示用户ux与用户uy的共邻用户个数。例如:用户s与用户t的共邻用户有g,i,o,r......,则用户s与用户t的共邻用户向量为C(s,t)=[g,i,o,r.....]。
S3:建立模型。如图2所示为本发明的预测模型框图。针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征。同理,利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征。针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征。将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。模型的训练及求解将在接下来的部分详细叙述。
如图3所示为本发明的预测模型流程图。
S31:用户的兴趣关注影响分析。
在社交网络中,假设有M个注册用户,U={u1,u2......uM}。每个注册用户ux可以由Nx个该用户关注的用户构成,即可以表示为该用户的兴趣关注向量注册用户ux的每个关注用户wx,n服从兴趣主题zx,n的多项式分布,每个兴趣主题zx,n服从注册用户ux的多项式分布。
统计注册用户所关注的所有用户,其总数为N,并统计关注的用户的出现频率。针对每个用户ux,采用高斯加权公式对用户关注的每个用户wx,n加权:
其中表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率。给定参数K作为用户兴趣关注的主题数,采用高斯加权改进的LDA生成过程如下:
1、 是Dirichlet分布的参数,以先验参数选择 服从分布,代表兴趣主题k下的每个关注用户出现的概率。
2、 是Dirichlet分布的参数,以先验参数选择服从分布,代表用户ux的兴趣主题发生的概率。然后对其Nx个关注用户的每一个,选择兴趣主题zx,n,zx,n服从多项式分布。
3、k=zx,n。根据选择关注用户wx,n,表示采用高斯加权后在兴趣主题k条件下出现关注用户wx,n的概率。wx,n服从在zx,n条件下的多项式分布。
所有变量的概率联合分布如下:
其中,表示用户ux的兴趣主题标签向量,表示用户ux的高斯加权向量,Φ表示关注用户分布,
在该生成模型中,对用户行为建模实际是要计算用户的兴趣关注主题分布以及关注用户分布由于Θ和Φ的耦合,无法直接计算,这里采用Gibbs抽样间接求得Θ和Φ。Gibbs抽样每次迭代估算Θ和Φ的公式如下:
其中,表示主题k分配到用户ux的次数,表示关注用户t被观察到分配给主题k的加权后的次数。
采用余弦相似度计算两两用户ux与uy间基于兴趣关注的相似度。余弦相似度计算公式如下:
其中,和分别表示用户ux与uy的兴趣主题向量。得到的r1-xy的值越大,表明两个用户的兴趣主题越相似,也就是说他们之间产生链接的可能性越大。
遍历用户的兴趣关注主题分布Θ,通过式(8)计算出社交网络中所有用户对间的基于交互行为条件下的相似度,得到用户兴趣关注的相似度矩阵R1,并将基于兴趣关注的相似度作为用户兴趣关注特征。
S32:用户的信息交互影响分析。
在S31步骤基础上,每个注册用户ux也可以由N'x个与其发生信息交互的用户构成,即可以表示为该用户的信息交互向量,注册用户ux的每个交互用户w'x,n服从兴趣主题z'x,n的多项式分布,每个兴趣主题z'x,n服从注册用户ux的多项式分布。
统计注册用户信息交互的所有用户,其总数为N',给定参数K'作为用户信息交互的主题数,用户的信息交互的生成过程类似于S31中用户的兴趣关注的生成过程。同理,求解出用户的信息交互主题分布Θ',遍历Θ',计算出社交网络中所有用户对间的基于关注行为条件下的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
S33:用户的共邻用户影响分析。
经过S23步骤,我们可以得到两个注册用户ux和uy的共邻用户向量其中每个共邻用户与其他共邻用户之间会存在一定的依赖关系。假设这种依赖关系分两种,独立依赖关系和联合依赖关系。独立依赖关系指的是共邻用户cq受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户cq受其他多个共邻用户的共同影响。这里用隐含因子η表示独立依赖关系的总和,隐含因子π表示联合依赖关系的总和。
我们令Lxy表示两个注册用户ux和uy间的链接状态,其中,lxy表示两个用户间存在链接,表示两个注册用户间无链接。所有变量的概率联合分布如下:
其中,P(lxy)、表示用户ux与uy间存在链接的概率;P(cq|ηq,lxy)、表示共邻用户cq与其他共邻用户的独立依赖关系在存在链接和不存在链接条件下的加权和;P(cq|πq,lxy)、表示共邻用户cq与其他共邻用户对的联合依赖关系在存在链接和不存在链接条件下的加权和。共邻用户间的依赖关系的计算公式如下:
其中,权重Wij、Wijk表示共邻用户间的独立依赖关系和联合依赖关系的重要程度,这里采用共邻用户间的条件互信息加权和来表示,计算公式如下:
为了减小条件互信息计算时的时间复杂度,这里设置判决条件如下:
Ip(ci,[cj,ck]|lxy)>max{Ip(ci,cj|lxy),Ip(ci,ck|lxy)} (15)
若隐含因子π对共邻用户的影响比隐含因子η要大,则考虑隐含因子η、π共同作用,否则只考虑隐含因子η的影响。在不存在链接条件下的相关计算与上述相类似。
由共邻用户向量作为先验条件预测用户ux与uy存在链接的概率为:
同理,可以求解由共邻用户向量作为先验条件预测用户ux与uy不存在链接的概率采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户ux与uy间基于网络结构的相似度,计算公式如下:
通过式(17)计算出社交网络中所有用户对间的基于共邻用户条件下的相似度,即基于网络结构的相似度,得到网络结构的相似度矩阵R3,并将基于网络结构的相似度作为网络结构特征。
S34:分类器构造。
经步骤S31~S33,可以得到用户的兴趣关注特征、用户的信息交互特征以及网络结构特征。给定这三种特征一个权值参数集合λ={λ1,λ2,λ3},其中λ1、λ2、λ3分别表示这三种特征对用户间产生链接的影响程度。将这三种特征一起流入分类器,采用有监督框架来组合这三种特征,得到链接预测模型。这里的分类器采用的是SVM分类器,通过训练分类器以及这三种特征的权值参数来判别形成链接和未形成链接来输出链接预测结果,同时发现链接建立的关键因素。
S4:预测和分析过程。将抽取的目标网络Gut=(Ut,Eut,Aut)输入到经S3步骤得到的链接预测模型中,对其中没有显性链接的用户对是否会产生链接进行预测,得到目标网络Gut中新的用户关系Eu',同时根据训练得到的权值参数集合λ={λ1,λ2,λ3}来发现链接建立的关键因素。
本发明利用社交网络中用户行为以及用户关系数据分析用户的相关属性,将没有显性链接的用户对作为输入,预测这些用户对是否会产生链接。首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型处理“一词多义”、“多词一义”的基础思想和方法,对用户行为进行建模,得到关于用户行为的主题分布。其次,考虑到用户对不同用户的关注符合幂律分布,利用高斯加权对标准LDA进行改进,提高主题表达能力。最后,针对LDA模型没有完全体现出网络结构对链接预测的贡献的问题,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,更充分地考虑共邻用户间的相互依赖关系,综合用户行为特征和网络结构特征进行链接预测,并发现链接建立的关键因素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (9)
1.一种面向社交网络的链接预测系统,其特征在于,包括数据源获取模块、属性解析模块、模型构建模块以及预测分析模块;其中
数据源获取模块,用于获取社交网络中用户行为以及用户关系数据;属性解析模块,用于分别从用户的兴趣关注属性、信息交互属性以及共邻用户属性中解析出上述三部分的相关属性向量;模型构建模块,用于构建改进的LDA链接预测模型,通过获取用户兴趣关注特征、信息交互特征和网络结构特征,并训练前述三种特征的权值参数;预测分析模块,用训练好的改进的LDA链接预测模型来预测社交网络中用户链接关系并发现链接建立的关键因素。
2.根据权利要求1所述的面向社交网络的链接预测系统,其特征在于,所述数据源获取模块获取的数据内容主要包括用户基本信息、用户关注者基本信息、用户粉丝基本信息、用户间好友关系以及用户过往行为数据。
3.根据权利要求1所述的面向社交网络的链接预测系统,其特征在于,所述兴趣关注属性包括:用户对感兴趣的用户关注,即用户的关注列表,定义用户ux的兴趣关注向量为其中,wx,n表示用户ux关注列表中的有效用户,Nx表示用户ux关注列表的有效用户的个数;
信息交互属性包括:用户对感兴趣的微博转发,即用户与微博博主间发生了一次信息交互,定义用户ux的信息交互向量为其中,w'x,n表示与用户ux发生交互关系的用户,N'x表示与用户ux发生交互关系的用户个数;
共邻用户属性包括:用户间的共同好友,这里的好友指的是相互关注关系,定义用户ux与用户uy的共邻用户向量为其中,cq表示用户ux与用户uy的共同好友,也称为共邻用户,Qxy表示用户ux与用户uy的共邻用户个数。
4.根据权利要求1或2或3所述的面向社交网络的链接预测系统,其特征在于,所述模型构建模块:用于针对网络中所有用户的兴趣关注向量,采用高斯加权对用户关注的每个用户加权,利用改进的LDA主题模型训练所有用户,得到用户兴趣关注的主题分布;采用余弦相似度计算得到用户兴趣关注的相似度矩阵,并作为用户兴趣关注特征;利用LDA主题模型训练所有用户,得到用户信息交互的主题分布,采用余弦相似度计算得到用户信息交互的相似度矩阵,并作为用户信息交互特征;针对网络中所有用户的共邻用户向量,利用隐朴素贝叶斯定义的共邻用户贡献算法,量化共邻用户间的依赖关系,计算得到网络结构的相似度矩阵,并作为网络结构特征;将上述三种特征一起流入分类器,通过训练分类器以及三种特征的权值参数来预测是否形成链接以及链接建立的关键因素。
5.根据权利要求4所述的面向社交网络的链接预测系统,其特征在于,所述获取用户兴趣关注特征包括:统计社交网络中注册用户所关注的所有用户,并统计关注的用户的出现频率;针对每个用户,采用高斯加权公式对用户关注的每个用户wx,n加权其中表示关注的用户wx,n的出现频率,fi表示关注的用户的平均出现频率;给定参数K作为用户兴趣关注的主题数,采用改进的LDA主题模型训练所有注册用户,得到用户兴趣关注的主题分布Θ。采用余弦相似度计算两两用户间基于兴趣关注的相似度,得到用户兴趣关注的相似度矩阵R1,将基于兴趣关注的相似度作为用户兴趣关注特征。
6.根据权利要求4或5所述的面向社交网络的链接预测系统,其特征在于,所述获取用户信息交互特征包括:获取用户兴趣关注特征,给定参数K'作为用户信息交互的主题数,采用LDA主题模型训练所有注册用户,得到用户信息交互的主题分布Θ';采用余弦相似度计算两两用户间基于信息交互的相似度,得到用户信息交互的相似度矩阵R2,并将基于信息交互的相似度作为用户信息交互特征。
7.根据权利要求6所述的面向社交网络的链接预测系统,其特征在于,所述获取网络结构特征包括:假设共邻用户间的依赖关系分为两种,独立依赖关系和联合依赖关系,独立依赖关系指的是共邻用户受其他共邻用户中任一用户的单独影响,联合依赖关系指的是共邻用户受其他多个共邻用户的共同影响,采用隐朴素贝叶斯定义的共邻用户贡献算法计算两两用户间基于网络结构的相似度,得到网络结构的相似度矩阵R3,将网络结构的相似度作为网络结构特征。
8.一种面向社交网络的链接预测方法,其特征在于,包括以下步骤:
首先,针对社交网络中用户的多个兴趣标签特点,利用LDA主题模型对用户行为进行建模,得到关于用户行为的主题分布;
其次,考虑到用户对不同用户的关注符合幂律分布,利用高斯加权对标准LDA进行改进,提高主题表达能力;
最后,通过引入隐朴素贝叶斯定义的共邻用户贡献算法,综合用户行为特征和网络结构特征进行链接预测。
9.根据权利要求8所述的面向社交网络的链接预测方法,其特征在于,分别从用户的兴趣关注、信息交互以及共邻用户三个方面出发,利用LDA主题模型解决“一词多义”、“多词一义”的基础思想和隐朴素贝叶斯定义的共邻用户贡献算法,构建一种基于改进的LDA社交网络链接预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611144573.7A CN106649659B (zh) | 2016-12-13 | 2016-12-13 | 一种面向社交网络的链接预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611144573.7A CN106649659B (zh) | 2016-12-13 | 2016-12-13 | 一种面向社交网络的链接预测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649659A true CN106649659A (zh) | 2017-05-10 |
CN106649659B CN106649659B (zh) | 2020-09-29 |
Family
ID=58825002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611144573.7A Active CN106649659B (zh) | 2016-12-13 | 2016-12-13 | 一种面向社交网络的链接预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649659B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392782A (zh) * | 2017-06-29 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 基于word2Vec的社团构建方法、装置及计算机处理设备 |
CN107808168A (zh) * | 2017-10-31 | 2018-03-16 | 北京科技大学 | 一种基于强弱关系的社交网络用户行为预测方法 |
CN107895038A (zh) * | 2017-11-29 | 2018-04-10 | 四川无声信息技术有限公司 | 一种链路预测关系推荐方法及装置 |
CN108170725A (zh) * | 2017-12-11 | 2018-06-15 | 仲恺农业工程学院 | 集成多特征信息的社交网络用户关系强度计算方法和装置 |
CN108280115A (zh) * | 2017-10-24 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 识别用户关系的方法及装置 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109086373A (zh) * | 2018-07-23 | 2018-12-25 | 东南大学 | 一种构建公平的链接预测评估系统的方法 |
CN109597875A (zh) * | 2018-11-02 | 2019-04-09 | 广东工业大学 | 一种基于词嵌入的高斯lda的优化求解方式 |
CN110020117A (zh) * | 2017-09-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种兴趣信息获取方法、装置及电子设备 |
CN110083778A (zh) * | 2019-04-08 | 2019-08-02 | 清华大学 | 学习分离表征的图卷积神经网络构建方法及装置 |
CN110335165A (zh) * | 2019-06-28 | 2019-10-15 | 京东数字科技控股有限公司 | 一种链路预测方法和装置 |
CN110968792A (zh) * | 2019-10-28 | 2020-04-07 | 东北大学 | 基于节点嵌入和个性化时间间隔的复杂网络链路预测方法 |
CN111369374A (zh) * | 2020-02-19 | 2020-07-03 | 山西大学 | 一种基于概率产生式的社交网络时序链接预测方法及装置 |
CN111581511A (zh) * | 2020-05-08 | 2020-08-25 | 深圳市万佳安人工智能数据技术有限公司 | 一种面向大规模社交网络的交友推荐方法和系统 |
CN111625439A (zh) * | 2020-06-01 | 2020-09-04 | 杭州弧途科技有限公司 | 基于用户行为的日志数据分析app用户粘性的方法 |
CN111738447A (zh) * | 2020-06-22 | 2020-10-02 | 东华大学 | 基于时空关系学习的移动社交网络用户关系推断方法 |
CN111859163A (zh) * | 2020-06-16 | 2020-10-30 | 珠海高凌信息科技股份有限公司 | 基于用户兴趣主题的微博网络链路预测方法、装置及介质 |
CN112364259A (zh) * | 2020-11-24 | 2021-02-12 | 深圳市元征科技股份有限公司 | 一种信息推荐方法、装置、设备及介质 |
CN112380427A (zh) * | 2020-10-27 | 2021-02-19 | 中国科学院信息工程研究所 | 基于迭代图注意力网络的用户兴趣预测方法及电子装置 |
CN112541548A (zh) * | 2020-12-14 | 2021-03-23 | 百果园技术(新加坡)有限公司 | 关系网络的生成方法、装置、计算机设备及存储介质 |
CN112733018A (zh) * | 2020-12-31 | 2021-04-30 | 哈尔滨工程大学 | 一种基于图神经网络gnn和多任务学习的会话推荐方法 |
CN115829159A (zh) * | 2022-12-29 | 2023-03-21 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140081965A1 (en) * | 2006-09-22 | 2014-03-20 | John Nicholas Gross | Content recommendations for Social Networks |
-
2016
- 2016-12-13 CN CN201611144573.7A patent/CN106649659B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140081965A1 (en) * | 2006-09-22 | 2014-03-20 | John Nicholas Gross | Content recommendations for Social Networks |
Non-Patent Citations (7)
Title |
---|
YOON-SIK CHO等: "Latent Space Model for Multi-Modal Social Data", 《PROCEEDINGS OF THE 25TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
吴梦蝶等: "基于主题模型的有向社交网络链接预测方法", 《西南大学学报(自然科学版)》 * |
张小平等: "一种改进的 LDA 主题模型", 《北京交通大学学报》 * |
李德民等: "社会网络用户关系分析与预测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王林澍: "社会网络中的链接分析与预测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
补嘉: "基于LDA的社交网络链接预测模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
黄宏程等: "基于隐朴素贝叶斯模型的链接预测算法", 《四川大学学报(工程科学版)》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392782A (zh) * | 2017-06-29 | 2017-11-24 | 上海斐讯数据通信技术有限公司 | 基于word2Vec的社团构建方法、装置及计算机处理设备 |
CN110020117A (zh) * | 2017-09-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种兴趣信息获取方法、装置及电子设备 |
CN110020117B (zh) * | 2017-09-29 | 2022-05-03 | 北京搜狗科技发展有限公司 | 一种兴趣信息获取方法、装置及电子设备 |
CN108280115B (zh) * | 2017-10-24 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 识别用户关系的方法及装置 |
CN108280115A (zh) * | 2017-10-24 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 识别用户关系的方法及装置 |
CN107808168A (zh) * | 2017-10-31 | 2018-03-16 | 北京科技大学 | 一种基于强弱关系的社交网络用户行为预测方法 |
CN107808168B (zh) * | 2017-10-31 | 2023-08-01 | 北京科技大学 | 一种基于强弱关系的社交网络用户行为预测方法 |
CN107895038A (zh) * | 2017-11-29 | 2018-04-10 | 四川无声信息技术有限公司 | 一种链路预测关系推荐方法及装置 |
CN107895038B (zh) * | 2017-11-29 | 2020-05-12 | 四川无声信息技术有限公司 | 一种链路预测关系推荐方法及装置 |
CN108170725A (zh) * | 2017-12-11 | 2018-06-15 | 仲恺农业工程学院 | 集成多特征信息的社交网络用户关系强度计算方法和装置 |
CN109033069A (zh) * | 2018-06-16 | 2018-12-18 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109033069B (zh) * | 2018-06-16 | 2022-05-17 | 天津大学 | 一种基于社会媒体用户动态行为的微博主题挖掘方法 |
CN109086373B (zh) * | 2018-07-23 | 2021-01-12 | 东南大学 | 一种构建公平的链接预测评估系统的方法 |
CN109086373A (zh) * | 2018-07-23 | 2018-12-25 | 东南大学 | 一种构建公平的链接预测评估系统的方法 |
CN109597875A (zh) * | 2018-11-02 | 2019-04-09 | 广东工业大学 | 一种基于词嵌入的高斯lda的优化求解方式 |
CN110083778A (zh) * | 2019-04-08 | 2019-08-02 | 清华大学 | 学习分离表征的图卷积神经网络构建方法及装置 |
CN110335165A (zh) * | 2019-06-28 | 2019-10-15 | 京东数字科技控股有限公司 | 一种链路预测方法和装置 |
CN110335165B (zh) * | 2019-06-28 | 2021-03-30 | 京东数字科技控股有限公司 | 一种链路预测方法和装置 |
CN110968792A (zh) * | 2019-10-28 | 2020-04-07 | 东北大学 | 基于节点嵌入和个性化时间间隔的复杂网络链路预测方法 |
CN111369374A (zh) * | 2020-02-19 | 2020-07-03 | 山西大学 | 一种基于概率产生式的社交网络时序链接预测方法及装置 |
CN111369374B (zh) * | 2020-02-19 | 2023-06-02 | 山西大学 | 一种基于概率产生式的社交网络时序链接预测方法及装置 |
CN111581511A (zh) * | 2020-05-08 | 2020-08-25 | 深圳市万佳安人工智能数据技术有限公司 | 一种面向大规模社交网络的交友推荐方法和系统 |
CN111625439B (zh) * | 2020-06-01 | 2023-07-04 | 杭州弧途科技有限公司 | 基于用户行为的日志数据分析app用户粘性的方法 |
CN111625439A (zh) * | 2020-06-01 | 2020-09-04 | 杭州弧途科技有限公司 | 基于用户行为的日志数据分析app用户粘性的方法 |
CN111859163A (zh) * | 2020-06-16 | 2020-10-30 | 珠海高凌信息科技股份有限公司 | 基于用户兴趣主题的微博网络链路预测方法、装置及介质 |
CN111859163B (zh) * | 2020-06-16 | 2023-09-29 | 珠海高凌信息科技股份有限公司 | 基于用户兴趣主题的微博网络链路预测方法、装置及介质 |
CN111738447A (zh) * | 2020-06-22 | 2020-10-02 | 东华大学 | 基于时空关系学习的移动社交网络用户关系推断方法 |
CN112380427A (zh) * | 2020-10-27 | 2021-02-19 | 中国科学院信息工程研究所 | 基于迭代图注意力网络的用户兴趣预测方法及电子装置 |
CN112364259A (zh) * | 2020-11-24 | 2021-02-12 | 深圳市元征科技股份有限公司 | 一种信息推荐方法、装置、设备及介质 |
CN112541548A (zh) * | 2020-12-14 | 2021-03-23 | 百果园技术(新加坡)有限公司 | 关系网络的生成方法、装置、计算机设备及存储介质 |
CN112733018B (zh) * | 2020-12-31 | 2022-12-06 | 哈尔滨工程大学 | 一种基于图神经网络gnn和多任务学习的会话推荐方法 |
CN112733018A (zh) * | 2020-12-31 | 2021-04-30 | 哈尔滨工程大学 | 一种基于图神经网络gnn和多任务学习的会话推荐方法 |
CN115829159A (zh) * | 2022-12-29 | 2023-03-21 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
CN115829159B (zh) * | 2022-12-29 | 2023-11-10 | 人民网股份有限公司 | 社交媒体粉丝新增预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106649659B (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649659B (zh) | 一种面向社交网络的链接预测系统及方法 | |
Liu et al. | EGNN: Graph structure learning based on evolutionary computation helps more in graph neural networks | |
Keikha et al. | Influence maximization across heterogeneous interconnected networks based on deep learning | |
Davis et al. | Multi-relational link prediction in heterogeneous information networks | |
Sowan et al. | Fuzzy association rule mining approaches for enhancing prediction performance | |
CN113918834B (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
Nikzad-Khasmakhi et al. | ExEm: Expert embedding using dominating set theory with deep learning approaches | |
Zhu et al. | A hybrid time-series link prediction framework for large social network | |
Wang et al. | Detecting shilling groups in online recommender systems based on graph convolutional network | |
Wang et al. | Graph active learning for GCN-based zero-shot classification | |
Lamprier et al. | Extracting diffusion channels from real-world social data: a delay-agnostic learning of transmission probabilities | |
Feng et al. | Link prediction based on orbit counting and graph auto-encoder | |
Xiao et al. | Multi-interaction fusion collaborative filtering for social recommendation | |
Li et al. | Dynamic multi-view group preference learning for group behavior prediction in social networks | |
Tripathi et al. | Network embedding based link prediction in dynamic networks | |
Zhang et al. | Inferring latent network from cascade data for dynamic social recommendation | |
Yang et al. | Gated graph convolutional network based on spatio-temporal semi-variogram for link prediction in dynamic complex network | |
Lu et al. | A unified link prediction framework for predicting arbitrary relations in heterogeneous academic networks | |
Yan et al. | Membership inference attacks against deep learning models via logits distribution | |
Chen et al. | Integrating dual user network embedding with matrix factorization for social recommender systems | |
Chen et al. | Information cascades prediction with graph attention | |
Ma et al. | Friend closeness based user matching cross social networks | |
Khatri et al. | Influence Maximization in social networks using discretized Harris’ Hawks Optimization algorithm | |
CN116306834A (zh) | 一种基于全局路径感知图神经网络模型的链路预测方法 | |
Liu et al. | Capsrec: A capsule graph neural network model for social recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |