CN110599358B - 一种基于概率因子图模型的跨社交网络用户身份关联方法 - Google Patents

一种基于概率因子图模型的跨社交网络用户身份关联方法 Download PDF

Info

Publication number
CN110599358B
CN110599358B CN201910620116.8A CN201910620116A CN110599358B CN 110599358 B CN110599358 B CN 110599358B CN 201910620116 A CN201910620116 A CN 201910620116A CN 110599358 B CN110599358 B CN 110599358B
Authority
CN
China
Prior art keywords
user
representing
network
upg
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910620116.8A
Other languages
English (en)
Other versions
CN110599358A (zh
Inventor
王李冬
安康
张慧熙
胡克用
叶霞
张赟
段凌风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Yunrui Technology Shanghai Co ltd
Original Assignee
Qianjiang College of Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianjiang College of Hangzhou Normal University filed Critical Qianjiang College of Hangzhou Normal University
Priority to CN201910620116.8A priority Critical patent/CN110599358B/zh
Publication of CN110599358A publication Critical patent/CN110599358A/zh
Application granted granted Critical
Publication of CN110599358B publication Critical patent/CN110599358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于概率因子图模型的跨社交网络用户身份关联方法。首先利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对;然后,以所有的候选配对用户对为节点,候选配对用户对的两两朋友关系为边,构建用户对网络图;在构建的UPG和已标注的用户对数据的基础上,融合用户属性相似度因子和朋友关系因子构建概率因子图模型;最后利用梯度下降法对概率因子图模型进行参数的学习,学习结束后同时可得到两个社交网络中具备相同用户身份的用户集合。本发明可以根据部分标注的用户对数据,推断出特定的跨社交网络范围内的所有关联用户对,对商业上的跨社交网络的应用起着至关重要的作用。

Description

一种基于概率因子图模型的跨社交网络用户身份关联方法
技术领域
本发明涉及社交网络的知识挖掘领域。尤其是涉及一种基于概率因子图模型的用户身份关联方法。
背景技术
从早期的电子邮件、BBS,到现今的社交媒体网络(Social Media Network,SMN),越来越多的用户开始习惯在社交网络上实现日常的互动和信息的获取。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的虚拟帐号是较常见的现象。由于各个社交网站相互独立,资料信息并非共有,并且在网络上缺乏统一的身份标识来唯一标识网民,因而隶属于同一个网民的多个社交网站账号之间并无直接关联。为了获取用户的完整图像(profile),需要整合用户在不同社交网络上的数据,其突破口在于跨社交平台的用户身份关联,即识别用户在多个社交网络上的帐号。然而,跨社交网络的用户身份关联在技术实现上依然存在以下问题:
1、不同网络上可获取的属性信息具备不一致、有噪、信息不完整等特性,使得单独依赖属性信息的关联方法无法取得理想的效果;
2、现阶段的社交网络都具备大数据特点,现有的监督式学习方法往往需要消耗大量的学习时间,使得现有算法无法高效率的运用于社交网络大数据平台;
3、社交网络上的朋友关系具备一致性和稳定性,然而现有利用朋友关系的关联方法仅利用了两个用户间的朋友关系,忽略了三个用户间的朋友影响关系,而三角关系往往是社交网络构成的基本结构元素。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于概率因子图模型的跨社交网络用户身份关联方法。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1.针对社交网络SMNA和社交网络SMNB的用户,利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对;
步骤2.以所有的候选配对用户对X={xi}为节点,若用户对xi中的两个用户分别为用户对xj中两个用户的邻居,则xi和xj之间存在一条边,以此为原则构建用户对网络图(User Pair Graph,UPG);
步骤3.由于社交网络中用户间的网络结构比属性信息更加稳定,在构建的UPG和已标注的用户对数据的基础上,融合用户用户属性因子和朋友关系因子构建概率因子图模型;
步骤4.利用梯度下降算法对概率因子图模型进行参数θ={α,β,λ}的学习,学习结束后同时可得到所有候选配对用户对的标签数据,即两个社交网络中具备相同用户身份的用户集合。
步骤1具体实现如下:
1-1.SMNA=(UA,EA)代表社交网络A,UA代表社交网络A的用户集,EA代表社交网络A的用户关系(相互关注关系)集合,
Figure BDA0002125279560000021
代表社交网络A中的某用户;SMNB=(UB,EB)代表社交网络B,UB代表社交网络B的用户集,EB代表社交网络B的用户关系(相互关注关系)集合,
Figure BDA0002125279560000022
代表社交网络B中的某用户;
1-2.对分别来自社交网络SMNA和SMNB的用户名nk A和nj B根据以下公式计算相似度,选取相似度大于0.8的用户对加入到候选配对用户对集合X中。其中,
Figure BDA0002125279560000023
Figure BDA0002125279560000024
其中,
Figure BDA0002125279560000025
代表Levenshtein距离,
Figure BDA0002125279560000026
代表用户名nk A的字符长度,
Figure BDA0002125279560000027
代表用户名
Figure BDA0002125279560000028
的字符长度;
1-3.以候选配对用户对集合X中的每一对用户为种子用户对进行邻居节点的扩展,从种子用户对的邻居节点中选取具备r个共同邻居(已知配对)的用户对加入到X中(根据不同的数据集设置不同的r值)。
步骤2的具体实现过程如下:
2-1.UPG=(UUPG,EUPG)代表用户对网络图,UUPG表示节点集合,EUPG代表节点之间的关系集合;将候选配对用户对xi作为UPG的节点,xi∈UUPG
2-2.假定
Figure BDA0002125279560000031
Figure BDA0002125279560000032
为UPG中的两个节点,如果这两个节点之间存在以下关系,则他们之间存在一条边:
Figure BDA0002125279560000033
其中,
Figure BDA0002125279560000034
表示用户
Figure BDA0002125279560000035
的邻居节点集。
步骤3具体实现过程如下:
3-1.为了同时考虑用户属性特征和网络的结构特征,融合用户属性因子和朋友关系因子构建概率因子图模型,将UPG中的所有候选配对用户对标签集Y的联合分布p(Y|UPG,θ)分解为因子函数的乘积,如下式所示:
Figure BDA0002125279560000036
其中,θ={α,β,γ}代表参数集合,具体的参数含义见步骤3-2和3-3。i代表UPG中节点的下标,Y={yi}代表对应X={xi}的二值标签,yi=1代表xi中的两用户为同一身份,否则不同;||i,j代表xi和xj具备二元朋友关系(即节点xi和xj之间存在一条边),Δi,j,k代表xi,xj和xk具备三元朋友关系(即节点xi,xj和xk之间至少存在两条边);f(xi,yi)代表xi和yi之间关系的属性因子函数,g(yi,yj)代表xi和xj两者之间的二元朋友关系的结构因子函数,g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数;Y代表所有候选配对用户的标签数据集,YL代表已知标注的候选配对用户对的标签数据集;Z代表全局归一化项,即在Y的所有可能取值的情况下,将因子函数的乘积相加,具体计算公式为:
Z=∑YΠf(xi,yi)Πg(yi,yj)Πg'(yi,yj,yk) (4)
3-2.计算属性因子函数f(xi,yi),计算公式为:
Figure BDA0002125279560000041
其中,α代表属性特征的d维权重向量,d代表属性特征个数;
Figure BDA0002125279560000042
代表xi中两用户的特征相似度向量函数,如果某特征值完全相同,则相似度为1,如果不同,则相似度为0;
3-3.计算结构因子函数g(yi,yj)和g'(yi,yj,yk),计算公式为:
g(yi,yj)=exp{βTψ(yi,yj)} (6)
g'(yi,yj,yk)=exp{γTξ(yi,yj,yk)} (7)
其中,β和γ为权重向量;ψ(yi,yj)代表xi和xj两者之间的二元朋友关系函数,其计算公式为:
ψ=(ψ0,00,11,01,1) (8)
Figure BDA0002125279560000043
g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数,其计算公式为:
ξ=(ξ0,0,00,0,10,1,00,1,11,0,01,0,11,1,01,1,1)
Figure BDA0002125279560000044
步骤4具体实现过程如下:
4-1.对参数α,β和γ在[0,1]区间内进行随机值初始化;
4-2.根据当前迭代下的参数α,β和γ的值,通过最大化所有候选配对用户的标签数据的概率分布,计算得到所有未标注的yi数据,计算公式如下:
Figure BDA0002125279560000057
Y|YL代表给定带标注数据的条件下,当前所有候选用户对的标签数据的状态;
4-3.计算参数α,β和γ的梯度,计算公式如下:
Figure BDA0002125279560000051
Figure BDA0002125279560000052
Figure BDA0002125279560000053
p(Y|YL)代表给定带标注数据YL的条件下,当前所有候选用户对的标签数据的概率分布,p(Y)代表当前所有候选用户对的标签数据的概率分布;以分量
Figure BDA0002125279560000054
和分量
Figure BDA0002125279560000055
为例,前者代表给定p(Y|YL)概率分布的条件下,所有二元朋友关系特征总和的期望值,后者代表给定p(Y)概率分布的条件下,所有二元朋友关系特征总和的期望值。其余分量的含义依此类推;
4-4.设定学习率参数η=0.01,通过下式更新参数θ={α,β,γ}:
Figure BDA0002125279560000056
4-5.返回至步骤4-2,迭代至收敛,最后一次迭代中由步骤4-2计算得到的结果为本发明的最终结果。
本发明有益效果如下:
本发明的关注点在于如何通过概率因子图模型,有效融合用户身份关联的关键影响因素,实现两个社交平台上的用户身份关联,并解决上述技术问题。本发明可以根据部分标注的用户对数据,推断出特定的跨社交网络范围内的所有关联用户对,对商业上的跨社交网络的应用起着至关重要的作用,比如多社交网络的用户行为分析、跨社交网络的信息服务推送、跨平台的好友推荐以及政府机关、企事业单位的网络安全治理等。
附图说明
图1为基于概率因子图模型的跨社交网络用户身份关联方法流程图;
图2为候选配对用户对生成示例图;
图3为用户对网络图(UPG)生成示例图;
图4为概率因子图模型示例图;
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于概率因子图模型的跨社交网络用户身份关联方法,包括以下步骤:
步骤1针对社交网络SMNA和社交网络SMNB的用户,利用用户名相似度和网络结构(朋友关系)从两个社交网络中选取候选配对用户对;
步骤2以所有的候选配对用户对X={xi}为节点,若用户对xi中的两个用户分别为用户对xj中两个用户的邻居,则xi和xj之间存在一条边,以此为原则构建用户对网络图(User Pair Graph,UPG);
步骤3由于社交网络中用户间的朋友关系比属性信息更加稳定,在构建的UPG和已标注的用户对(labeled user pairs)数据的基础上,融合用户属性相似度因子和朋友关系因子构建概率因子图模型;
步骤4利用梯度下降算法对概率因子图模型进行参数θ={α,β,λ}的学习,学习结束后同时可得到所有候选配对用户对的标签数据,即两个社交网络中具备相同用户身份的用户集合。
所述步骤1的具体实现过程如下:
1-1.SMNA=(UA,EA)代表社交网络A,UA代表社交网络A的用户集,EA代表社交网络A的用户关系集合,
Figure BDA0002125279560000071
代表社交网络A中的某用户;SMNB=(UB,EB)代表社交网络B,UB代表社交网络B的用户集,EB代表社交网络B的用户关系集合,
Figure BDA0002125279560000072
代表社交网络B中的某用户。
本发明利用网络爬虫从新浪微博(SMNA)和人人网(SMNB)中爬取网络数据,新浪微博包含用户节点数约1.21*105,人人网包含用户节点数约5.4*105。这两个网络共同的用户属性信息包括用户名、email地址、性别、出生年月、毕业院校。
1-2.对分别来自社交网络SMNA和SMNB的用户名nk A和nj B根据以下公式计算相似度,选取相似度大于0.8的用户对加入到候选配对用户对集合X中。其中,
Figure BDA0002125279560000073
Figure BDA0002125279560000074
其中,
Figure BDA0002125279560000075
代表Levenshtein距离,
Figure BDA0002125279560000076
代表用户名nk A的字符长度,
Figure BDA0002125279560000077
代表用户名
Figure BDA0002125279560000078
的字符长度;如果用户名为中文,则以中文字符为计算单位。例如,用户名“北京人”和“北京人在纽约”字符长度分别为3和6,其相似度为0.5。
1-3.以X中的每一对用户为种子用户对进行邻居节点的扩展,从种子用户对的邻居节点中选取具备r个共同邻居(已知配对)的用户对加入到X中(根据不同的数据集设置不同的r值)。在这一步中,本发明提供了图2所示的例子。图2中,假设
Figure BDA0002125279560000079
为用户名相似度大于0.8的用户对,同时设定r=2,根据该步骤,
Figure BDA00021252795600000710
四个用户对被选为候选配对用户对加入到X中,最终
Figure BDA00021252795600000711
所述步骤2的具体实现过程如下:
2-1.UPG=(UUPG,EUPG)代表用户对网络图,UUPG表示节点集合,EUPG代表节点之间的关系集合;将候选配对用户对xi作为UPG的节点,xi∈UUPG
2-2.假定
Figure BDA0002125279560000081
Figure BDA0002125279560000082
为UPG中的两个节点,如果这两个节点之间存在以下关系,则他们之间存在一条边。
Figure BDA0002125279560000083
其中,
Figure BDA0002125279560000084
表示用户
Figure BDA0002125279560000085
的邻居节点集。
本发明为步骤2提供了由图2的两个社交网络产生的用户对网络图示例。根据步骤2-1和步骤2-2,生成的用户对网络图(如图3所示)共包含6个节点,8条边。
所述步骤3的具体实现过程如下:
3-1.为了同时考虑用户属性特征和网络的结构特征,融合用户属性因子和朋友关系因子构建概率因子图模型,将UPG中的所有候选配对用户对标签集Y的联合分布p(Y|UPG,θ)分解为因子函数的乘积,如下式所示:
Figure BDA0002125279560000086
其中,θ={α,β,γ}代表参数集合,具体的参数含义见步骤3-2和3-3。i代表UPG中节点的下标,Y={yi}代表对应X={xi}的二值标签,yi=1代表xi中的两用户为同一身份,否则不同;||i,j代表xi和xj具备二元朋友关系(即节点xi和xj之间存在一条边),Δi,j,k代表xi,xj和xk具备三元朋友关系(即节点xi,xj和xk之间至少存在两条边);f(xi,yi)代表xi和yi之间关系的属性因子函数,g(yi,yj)代表xi和xj两者之间的二元朋友关系的结构因子函数,g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数;Y代表所有候选配对用户的标签数据集合,YL代表已知标注的候选配对用户对的标签数据集;Z代表全局归一化项,即在Y的所有可能取值的情况下,将因子函数的乘积相加,具体计算公式为:
Figure BDA0002125279560000091
在这一步中,本发明提供了由图3的用户对网络图生成的概率因子图示例,具体如图4所示。需要强调,由于二元和三元结构因子函数较多,该图没有画出全部的二元和三元结构因子函数。如图4所示,用户对的具体对应关系如下表:
Figure BDA0002125279560000092
根据该步骤,由图3的用户对网络图生成的所有二元结构因子函数包括:g(y1,y3),g(y2,y3),g(y3,y4),g(y3,y5),g(y1,y6),g(y2,y6),g(y4,y6),g(y5,y6)
由图3的用户对网络图生成的所有三元结构因子函数包括:
g(y1,y2,y3),g(y1,y3,y4),g(y1,y3,y5),g(y2,y3,y4),g(y2,y3,y5),
g(y1,y3,y6),g(y2,y3,y6),g(y3,y4,y6),g(y3,y5,y6),g(y1,y5,y6),
g(y1,y2,y6),g(y2,y4,y6),g(y1,y4,y6),g(y2,y5,y6),g(y4,y5,y6)
3-2.计算属性因子函数f(xi,yi),计算公式为:
Figure BDA0002125279560000093
其中,α代表属性特征的d维权重向量,d代表属性特征个数;
Figure BDA0002125279560000094
代表xi中两用户的特征相似度向量函数,如果某特征值完全相同,则相似度为1,如果不同,则相似度为0。具体特征包括用户名、email地址、性别、出生年月、毕业院校等。
3-3.计算结构因子函数g(yi,yj)和g'(yi,yj,yk),计算公式为:
g(yi,yj)=exp{βTψ(yi,yj)}
g'(yi,yj,yk)=exp{γTξ(yi,yj,yk)}
其中,β和γ为权重向量。ψ(yi,yj)代表xi和xj两者之间的二元朋友关系函数,其计算公式为:
ψ=(ψ0,00,11,01,1)
Figure BDA0002125279560000095
g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数,其计算公式为:
ξ=(ξ0,0,00,0,10,1,00,1,11,0,01,0,11,1,01,1,1)
Figure BDA0002125279560000101
所述步骤4的具体实现过程如下:
4-1.对参数α,β和γ在[0,1]区间内进行随机值初始化;
4-2.根据当前迭代下的参数α,β和γ的值,通过最大化所有候选配对用户的标签数据的概率分布,计算得到所有未标注的yi数据,计算公式如下:
Figure BDA0002125279560000102
Y|YL代表给定带标注数据的条件下,当前所有候选用户对的标签数据的状态。
4-3.计算参数α,β和γ的梯度,计算公式如下:
Figure BDA0002125279560000103
Figure BDA0002125279560000104
Figure BDA0002125279560000105
p(Y|YL)代表给定带标注数据YL的条件下,当前所有候选用户对的标签数据的概率分布,p(Y)代表当前所有候选用户对的标签数据的概率分布;以分量
Figure BDA0002125279560000106
和分量
Figure BDA0002125279560000107
为例,前者代表给定p(Y|YL)概率分布的条件下,所有二元朋友关系特征总和的期望值,后者代表给定p(Y)概率分布的条件下,所有二元朋友关系特征总和的期望值。其余分量的含义依此类推;
4-4.设定学习率参数η=0.01,通过下式更新参数θ={α,β,γ}:
Figure BDA0002125279560000111
4-5.返回至步骤4-2,迭代至收敛。最后一次迭代中由步骤4-2计算得到的结果为本发明的最终结果。
在步骤4中,本发明以爬取的新浪微博用户数据和人人网用户数据为例,分别从数据集中抽取三个网络对,三个网络对的具体信息如下:
Figure BDA0002125279560000112
分别针对上述三个网络对构建概率因子图模型,并对模型进行参数学习,学习过程中的平均迭代次数不超过100。针对三个网络对进行用户身份关联并计算准确率。由于网络对的节点数目量较大,无法准确获取每对网络对的匹配用户对数目,从返回的结果中随机抽取200个用户对计算准确率,最终取得的平均准确率达到71.3%。

Claims (4)

1.一种基于概率因子图模型的跨社交网络用户身份关联方法,其特征在于包括如下步骤:
步骤1.针对社交网络SMNA和社交网络SMNB的用户,利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对;
步骤2.以所有的候选配对用户对X={xi}为节点,若用户对xi中的两个用户分别为用户对xj中两个用户的邻居,则xi和xj之间存在一条边,以此为原则构建用户对网络图;
步骤3.由于社交网络中用户间的网络结构比属性信息更加稳定,在构建的UPG和已标注的用户对数据的基础上,融合用户用户属性因子和朋友关系因子构建概率因子图模型;
步骤4.利用梯度下降算法对概率因子图模型进行参数θ={α,β,λ}的学习,学习结束后同时可得到所有候选配对用户对的标签数据,即两个社交网络中具备相同用户身份的用户集合;
步骤1具体实现如下:
1-1.SMNA=(UA,EA)代表社交网络A,UA代表社交网络A的用户集,EA代表社交网络A的用户关系集合,
Figure FDA0002958764660000011
代表社交网络A中的用户;SMNB=(UB,EB)代表社交网络B,UB代表社交网络B的用户集,EB代表社交网络B的用户关系集合,
Figure FDA0002958764660000012
代表社交网络B中的用户;
1-2.对分别来自社交网络SMNA和SMNB的用户名nk A和nj B根据以下公式计算相似度,选取相似度大于0.8的用户对加入到候选配对用户对集合X中;其中,
Figure FDA0002958764660000013
Figure FDA0002958764660000014
其中,
Figure FDA0002958764660000015
代表Levenshtein距离,
Figure FDA0002958764660000016
代表用户名nk A的字符长度,
Figure FDA0002958764660000017
代表用户名
Figure FDA0002958764660000018
的字符长度;
1-3.以候选配对用户对集合X中的每一对用户为种子用户对进行邻居节点的扩展,从种子用户对的邻居节点中选取具备r个共同邻居的用户对加入到X中。
2.根据权利要求1所述的一种基于概率因子图模型的跨社交网络用户身份关联方法,其特征在于步骤2的具体实现过程如下:
2-1.UPG=(UUPG,EUPG)代表用户对网络图,UUPG表示节点集合,EUPG代表节点之间的关系集合;将候选配对用户对xi作为UPG的节点,xi∈UUPG
2-2.假定
Figure FDA0002958764660000021
Figure FDA0002958764660000022
为UPG中的两个节点,如果这两个节点之间存在以下关系,则他们之间存在一条边:
Figure FDA0002958764660000023
其中,
Figure FDA0002958764660000024
表示用户
Figure FDA0002958764660000025
的邻居节点集。
3.根据权利要求2所述的一种基于概率因子图模型的跨社交网络用户身份关联方法,其特征在于步骤3具体实现过程如下:
3-1.为了同时考虑用户属性特征和网络的结构特征,融合用户属性因子和朋友关系因子构建概率因子图模型,将UPG中的所有候选配对用户对标签集Y的联合分布p(Y|UPG,θ)分解为因子函数的乘积,如下式所示:
Figure FDA0002958764660000026
其中,θ={α,β,γ}代表参数集合,具体的参数含义见步骤3-2和3-3;i代表UPG中节点的下标,Y={yi}代表对应X={xi}的二值标签,yi=1代表xi中的两用户为同一身份,否则不同;||i,j代表xi和xj具备二元朋友关系,即节点xi和xj之间存在一条边,Δi,j,k代表xi,xj和xk具备三元朋友关系,即节点xi,xj和xk之间至少存在两条边;f(xi,yi)代表xi和yi之间关系的属性因子函数,g(yi,yj)代表xi和xj两者之间的二元朋友关系的结构因子函数,g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数;Y代表所有候选配对用户的标签数据, Z代表全局归一化项,即在Y的所有可能取值的情况下,将因子函数的乘积相加,具体计算公式为:
Figure FDA0002958764660000031
3-2.计算属性因子函数f(xi,yi),计算公式为:
Figure FDA0002958764660000032
其中,α代表属性特征的d维权重向量,d代表属性特征个数;
Figure FDA0002958764660000033
代表xi中两用户的特征相似度向量函数,如果某特征值完全相同,则相似度为1,如果不同,则相似度为0;
3-3.计算结构因子函数g(yi,yj)和g'(yi,yj,yk),计算公式为:
g(yi,yj)=exp{βTψ(yi,yj)} (6)
g'(yi,yj,yk)=exp{γTξ(yi,yj,yk)} (7)
其中,β和γ为权重向量;ψ(yi,yj)代表xi和xj两者之间的二元朋友关系函数,其计算公式为:
ψ=(ψ0,00,11,01,1) (8)
Figure FDA0002958764660000034
g'(yi,yj,yk)代表xi,xj和xk三者之间的三元朋友关系的结构因子函数,其计算公式为:
ξ=(ξ0,0,00,0,10,1,00,1,11,0,01,0,11,1,01,1,1)
Figure FDA0002958764660000035
4.根据权利要求3所述的一种基于概率因子图模型的跨社交网络用户身份关联方法,其特征在于步骤4具体实现过程如下:
4-1.对参数α,β和γ在[0,1]区间内进行随机值初始化;
4-2.根据当前迭代下的参数α,β和γ的值,通过最大化所有候选配对用户的标签数据的概率分布,计算得到所有未标注的yi数据,计算公式如下:
Figure FDA0002958764660000041
Y|YL代表给定带标注数据的条件下,当前所有候选用户对的标签数据的状态;YL代表已知标注的候选配对用户对的标签数据;
4-3.计算参数α,β和γ的梯度,计算公式如下:
Figure FDA0002958764660000042
Figure FDA0002958764660000043
Figure FDA0002958764660000044
p(Y|YL)代表给定带标注数据YL的条件下,当前所有候选用户对的标签数据的概率分布,p(Y)代表当前所有候选用户对的标签数据的概率分布;以分量
Figure FDA0002958764660000045
和分量
Figure FDA0002958764660000046
为例,前者代表给定p(Y|YL)概率分布的条件下,所有二元朋友关系特征总和的期望值,后者代表给定p(Y)概率分布的条件下,所有二元朋友关系特征总和的期望值;其余分量的含义依此类推;
4-4.设定学习率参数η=0.01,通过下式更新参数θ={α,β,γ}:
Figure FDA0002958764660000047
4-5.返回至步骤4-2,迭代至收敛,最后一次迭代中由步骤4-2计算得到的结果为本发明的最终结果。
CN201910620116.8A 2019-07-10 2019-07-10 一种基于概率因子图模型的跨社交网络用户身份关联方法 Active CN110599358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620116.8A CN110599358B (zh) 2019-07-10 2019-07-10 一种基于概率因子图模型的跨社交网络用户身份关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620116.8A CN110599358B (zh) 2019-07-10 2019-07-10 一种基于概率因子图模型的跨社交网络用户身份关联方法

Publications (2)

Publication Number Publication Date
CN110599358A CN110599358A (zh) 2019-12-20
CN110599358B true CN110599358B (zh) 2021-05-04

Family

ID=68852711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620116.8A Active CN110599358B (zh) 2019-07-10 2019-07-10 一种基于概率因子图模型的跨社交网络用户身份关联方法

Country Status (1)

Country Link
CN (1) CN110599358B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836139B (zh) * 2021-02-03 2022-04-01 杭州师范大学钱江学院 融合用户特征和嵌入学习的跨社交网络用户身份关联方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012178130A3 (en) * 2011-06-24 2013-05-02 Monster Worldwide, Inc. Social match platform apparatuses, methods and systems
CN103166828A (zh) * 2011-12-12 2013-06-19 中兴通讯股份有限公司 社交网络的互操作方法及系统
CN103944921A (zh) * 2014-05-09 2014-07-23 北京邮电大学 用于社交网络信息集成的客户端、服务器、系统及方法
CN107451703A (zh) * 2017-08-31 2017-12-08 杭州师范大学 一种基于因子图模型的社交网络多任务预测方法
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法
CN109753602A (zh) * 2018-12-04 2019-05-14 中国科学院计算技术研究所 一种基于机器学习的跨社交网络用户身份识别方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054238A (zh) * 2009-11-06 2011-05-11 腾讯科技(深圳)有限公司 基于社交网络关系链的商品认购方法及网络服务器和系统
US8745134B1 (en) * 2011-03-04 2014-06-03 Zynga Inc. Cross social network data aggregation
CN102143485A (zh) * 2011-03-22 2011-08-03 宇龙计算机通信科技(深圳)有限公司 移动终端及其通讯录联系人与社交网站用户关联的方法
CN106572048A (zh) * 2015-10-09 2017-04-19 腾讯科技(深圳)有限公司 一种社交网络中用户信息的识别方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012178130A3 (en) * 2011-06-24 2013-05-02 Monster Worldwide, Inc. Social match platform apparatuses, methods and systems
CN103166828A (zh) * 2011-12-12 2013-06-19 中兴通讯股份有限公司 社交网络的互操作方法及系统
CN103944921A (zh) * 2014-05-09 2014-07-23 北京邮电大学 用于社交网络信息集成的客户端、服务器、系统及方法
CN107451703A (zh) * 2017-08-31 2017-12-08 杭州师范大学 一种基于因子图模型的社交网络多任务预测方法
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN109753602A (zh) * 2018-12-04 2019-05-14 中国科学院计算技术研究所 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN109635201A (zh) * 2018-12-18 2019-04-16 苏州大学 异质社交网络跨平台关联用户账户挖掘方法

Also Published As

Publication number Publication date
CN110599358A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
Li et al. Matching user accounts based on user generated content across social networks
Moosavi et al. Community detection in social networks using user frequent pattern mining
CN103778186B (zh) 一种“网络马甲”的检测方法
CN102591915B (zh) 一种基于标签迁移学习的推荐方法
Ying et al. A temporal-aware POI recommendation system using context-aware tensor decomposition and weighted HITS
CN104731962A (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
Liao et al. POI recommendation of location-based social networks using tensor factorization
Ma et al. Balancing user profile and social network structure for anchor link inferring across multiple online social networks
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN113434782B (zh) 基于联合嵌入学习模型的跨社交网络用户身份识别方法
CN107577742A (zh) 一种基于贝叶斯方法的多关系社交网络模式挖掘方法
CN113806630A (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN103440352A (zh) 基于深度学习的对象间的关联分析方法及其装置
Feng et al. Testing for balance in social networks
Xie et al. Potential links by neighbor communities
CN110599358B (zh) 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN102831219A (zh) 一种应用于社区发现的可覆盖聚类算法
CN114896977A (zh) 一种物联网实体服务信任值的动态评估方法
Li et al. Efficient community detection in heterogeneous social networks
He et al. A topic community-based method for friend recommendation in online social networks via joint nonnegative matrix factorization
Wang et al. Link prediction based on weighted synthetical influence of degree and H-index on complex networks
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
CN105786979B (zh) 一种基于隐链接的用户参与热点话题行为分析方法及系统
Yuan et al. User naming conventions mapping learning for social network alignment
Srivastava et al. Importance of User's Profile Attributes in Identity Matching Across Multiple Online Social Networking Sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221010

Address after: Unit 2801-4, Floor 28 (actual floor 26), No. 268, Hengtong Road, Jing'an District, Shanghai 200070

Patentee after: Yunrui Technology (Shanghai) Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

Effective date of registration: 20221010

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310036 Xiasha Higher Education Park forest Street No. 16

Patentee before: HANGZHOU NORMAL UNIVERSITY QIANJIANG College