CN114298854A - 一种联合学习表示和对齐的弱监督用户身份链接方法 - Google Patents

一种联合学习表示和对齐的弱监督用户身份链接方法 Download PDF

Info

Publication number
CN114298854A
CN114298854A CN202111591929.2A CN202111591929A CN114298854A CN 114298854 A CN114298854 A CN 114298854A CN 202111591929 A CN202111591929 A CN 202111591929A CN 114298854 A CN114298854 A CN 114298854A
Authority
CN
China
Prior art keywords
user
network
vector
layer
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111591929.2A
Other languages
English (en)
Other versions
CN114298854B (zh
Inventor
潘理
郑聪惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111591929.2A priority Critical patent/CN114298854B/zh
Publication of CN114298854A publication Critical patent/CN114298854A/zh
Application granted granted Critical
Publication of CN114298854B publication Critical patent/CN114298854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种联合学习表示和对齐的弱监督用户身份链接方法,该方法包括以下步骤:1)采集源网络与目标网络的用户数据和已知的对应关系集;2)设定表示向量的维度和卷积层数;3)进行嵌入学习,得到源网络用户表示Zs和目标网络用户表示Zt;4)基于映射函数Φ将Zs映射到目标网络的表示空间中;5)进行跨网络强对齐训练,6)获取潜在对齐用户对记为集合;7)计算对应的权重αpq;8)进行跨网络弱对齐训练,9)更新聚合操作、连结操作以及映射函数中神经网络的权重矩阵和偏置参数;10)更新参数直至收敛;11)获取源网络用户us在目标网络中的对应锚用户。与现有技术相比,本发明具有适用于多个且标签缺乏的网络、对齐准确率高等优点。

Description

一种联合学习表示和对齐的弱监督用户身份链接方法
技术领域
本发明涉及社交网络技术领域,尤其是涉及一种联合学习表示和对齐的弱监督用户身份链接方法。
背景技术
随着社交网络的发展,人们通常在多个社交平台上拥有账号并进行相应的社交活动,例如添加好友、发布内容等等,将不同社交平台上对应于同一个自然人的用户身份进行对齐,对于多种社交网络分析任务具有重要作用。一方面,跨网络的用户身份对齐能够将不同网络的用户信息联系起来,缓解各个网络信息不足的问题,帮助更好地进行用户分析;另一方面,用户身份对齐的工作能够实现跨网络的用户追踪,能够帮助检测恶意用户,同时也有助于意见领袖跟踪,对于经济发展、社会稳定和国家安全等都有重大意义。
经对现有技术的文献检索发现,早期的技术大多基于简单的符号特征之间的相似性来寻找跨网络的相似用户,这种思路常常受限于不同网络之间的信息异质性,难以直接计算异质信息的相似性,网络嵌入技术能够学习网络中用户节点的有效低维表示向量,为用户身份对齐提供了新思路,可以通过计算表示向量的相似性来简化用户特征的相似性计算问题,基于网络嵌入的用户身份对齐的基本思路是将来自不同网络的用户节点映射到同一嵌入空间然后进行相似度计算。
现有的一些基于网络嵌入技术的用户身份链接方法分两阶段来进行,第一阶段基于网络嵌入技术学习不同网络的表示向量,第二阶段学习不同网络的表示空间之间的映射函数,实现用户表示向量在不同网络之间的转换,Man等人于2016年在国际会议《IJCAI》发表题为“Predict Anchor Links across Social Networks via an Embedding Approach”的文章,文中研究基于网络嵌入的跨社交网络锚用户链路预测问题。他们首先基于保持结构特征将不同社交网络嵌入到低维空间中,然后基于已知的锚用户标签来学习不同嵌入空间的映射函数,从而发现跨网络用户对应关系。这样的分阶段的方法非常依赖已有的标签信息,标签信息指的是已知对齐关系的锚用户对,现实场景中这样的标签信息非常难获得,因此需要研究弱监督条件下的用户身份链接方法,另外,现有的方法中,对于未知对齐信息的用户对的相似度很难给出准确的定义,并且很影响效果,因此需要开发一种提高对齐准确率的用户身份链接方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种联合学习表示和对齐的弱监督用户身份链接方法。
本发明的目的可以通过以下技术方案来实现:
一种联合学习表示和对齐的弱监督用户身份链接方法,该方法包括以下步骤:
1)分别采集源网络Gs=(Us,As,Es)与目标网络Gt=(Ut,At,Et)的社交平台用户数据,并且同时获取部分跨网络用户已知的对应关系集合 T={(ui,uj)|ui∈Us,uj∈Ut},其中,Us,Ut分别为源网络和目标网络的用户节点集合, As,At分别为源网络和目标网络的属性矩阵,Es,Et分别为源网络和目标网络的邻接矩阵;
2)设定表示向量的维度d和卷积层数L;
3)分别对源网络和目标网络进行嵌入学习,得到源网络用户表示Zs和目标网络用户表示Zt
4)基于跨表示空间的映射函数Φ将源网络的用户表示Zs映射到目标网络的表示空间中,分别获得源网络和目标网络在同一空间中的用户表示Z′s=Φ(Zs),Zt
5)根据已知的对应关系集合T={(ui,uj)|ui∈Us,uj∈Ut}进行跨网络强对齐训练,则对应的强对齐损失函数的表达式为:
Figure RE-GDA0003517388030000021
其中,d(·)为依据实际网络情况定义的距离函数;
6)获取已知的对应关系集合T={(ui,uj)|ui∈Us,uj∈Ut}中的每对用户的潜在对齐用户对记为集合N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)};
7)对集合N(ui,uj)中的每对用户基于注意力机制计算对应的权重αpq
8)基于已知的对应关系集合T、潜在对齐用户对集合N(ui,uj)以及权重αpq进行跨网络弱对齐训练,则对应的弱对齐损失函数的表达式为:
Figure RE-GDA0003517388030000031
9)联合源网络和目标网络的嵌入损失函数、强对齐损失函数和弱对齐损失函数,更新聚合操作、连结操作以及映射函数中神经网络的权重矩阵和偏置参数,则更新公式为:
Ljoint=Lemb(Gs)+Lemb(Gt)+λ(Lhard+Lsoft);
10)更新参数直至收敛,得到最终属于同一表示空间的源网络和目标网络用户表示Z′s=Φ(Zs),Zt
11)计算us∈Us的z's(u)∈Z′s与目标网络中每个节点向量zt(u)∈Zt的余弦相似度,并按照降序进行排序,并根据排序结合用户名属性获取源网络用户us在目标网络中的对应锚用户,完成身份链接。
所述的步骤1)具体包括以下步骤:
11)建立描述网络原始结构信息的邻接矩阵
Figure RE-GDA0003517388030000032
n为网络中用户节点数量,邻接矩阵中的向量
Figure RE-GDA0003517388030000033
代表用户i对应的邻接向量,邻接向量中元素ei,j代表用户i和用户j的连接情况,1代表存在边相连,0代表不存在边相连;
12)建立描述网络原始属性信息的属性矩阵
Figure RE-GDA0003517388030000034
m代表网络中属性的种类数量,属性矩阵中
Figure RE-GDA0003517388030000035
向量代表用户i的属性向量,属性向量中元素ai,j代表用户i对应的属性j情况,1代表具有对应属性,0代表不具有对应属性。
所述的步骤3)具体包括以下步骤:
31)设置属性矩阵中对应的属性向量
Figure RE-GDA0003517388030000036
为网络用户的初始表示向量,即第0层的用户表示h0(u),基于图卷积模型逐层作卷积操作获得每层的用户表示 hl(u),l=1,...,L;
32)以第L层的用户表示作为学习到的网络用户表示z(u)=hL(u),即对应整个网络的用户表示Z;
33)对网络做表示学习,计算如下的嵌入损失函数:
Figure RE-GDA0003517388030000037
其中,(z(ui),z(uj))为根据网络中所有边所取得的正样本用户对,σ为sigmoid 函数,z(uk)为按照Pn(u)∝du 3/4分布所取得的负样本,du为用户节点的度数,Q为对于每个正样本取负样本的数量,
Figure RE-GDA0003517388030000041
为基于负样本所计算的期望。
所述的步骤31)中,实现每一层的卷积操作具体包括以下步骤:
311)对于源网络和目标网络中的每个用户u∈U,在其邻居用户节点中均匀采样p个用户节点,记作集合N(u);
312)对集合N(u)中的用户节点的第l-1层表示做聚合操作Faggre l,得到邻居聚合表示向量
Figure RE-GDA0003517388030000042
313)对邻居聚合向量
Figure RE-GDA0003517388030000043
和用户节点自身的第l-1层表示向量hl-1(u)进行连结操作得到用户节点自身的第l层表示向量hl(u);
314)对用户节点自身的第l层表示向量hl(u)做归一化操作,得到归一化后的第l层的用户表示向量
Figure RE-GDA0003517388030000044
则有:
Figure RE-GDA0003517388030000045
其中,||·||2表示l-2范数。
所述的步骤312)中,进行聚合操作Faggre l具体包括以下步骤:
3121)建立聚合操作的单层神经网络,该单层神经网络的输入层和输出层的神经元数分别为p*d和d,通过随机初始化分别得到该单层神经网络的权重矩阵WF l和偏置向量bF l,上标l表示它们属于第l层的卷积操作中聚合操作的单层神经网络;
3122)对集合N(u)中的用户节点做基于神经网络的聚合操作Faggre l,其输出向量,即邻居聚合表示向量
Figure RE-GDA0003517388030000046
的计算式为:
Figure RE-GDA0003517388030000047
聚合操作Faggre l的表达式为:
Figure RE-GDA0003517388030000048
其中,max表示取最大值,RELU表示线性整流函数。
所述的步骤313)中,进行连结操作具体包括以下步骤:
3131)建立连结操作的单层神经网络,该单层神经网络的输入层和输出层神经元数分别为2d和d,通过随机初始化分别得到该神经网络的权重矩阵Wl和偏置向量bl,上标l表示它们属于第l层卷积操作中连结操作的单层神经网络;
3132)基于神经网络连结邻居聚合向量和用户自身表示向量,则该单层神经网络的输出向量,即用户节点自身的第l层表示向量hl(u)的计算式为:
Figure RE-GDA0003517388030000049
其中,concat指的是串联向量,RELU表示线性整流函数。
所述的步骤4)具体包括以下步骤:
41)基于神经网络构建映射函数Φ,该神经网络为三层,通过随机取值得到初始化的第k层与第k+1层之间的权重向量
Figure RE-GDA0003517388030000051
和偏置向量
Figure RE-GDA0003517388030000052
k=1,2,3;
42)将源网络的用户表示Zs中的用户节点向量zs(u)依次输入映射函数Φ,通过映射函数Φ的逐层计算,得到用户节点向量zs(u)在目标网络表示空间中的映射向量z's(u),则每一层的输出向量的计算式为:
yk=σ(Wst kyk-1+bst k),k=2,3,4
其中,σ为sigmoid函数,最后一层的输出y4即为映射函数Φ输出的映射后的表示向量z's(u)。
所述的步骤6)具体包括以下步骤:
61)对于每个未知对应关系的用户对(ui,uj),获得用户ui,uj的一阶邻居集合 N(ui),N(uj);
62)得到用户ui,uj的一阶邻居集合中具有标签的用户节点
LN(ui)=N(ui)∩T,LN(uj)=N(uj)∩T
63)记LN′(ui)为源网络用户节点LN(ui)所对应的目标网络用户的集合,并计算用户对(ui,uj)之间的相似度,则有:
Figure RE-GDA0003517388030000053
64)对于已知的对应关系集合T中的每个用户对(ui,uj),得到其一阶邻居集合 N(ui),N(uj),对未知标签的邻居用户进行两两组合,并按照sim(ui,uj)进行排序,取前p对邻居对作为潜在对齐的用户对集合,记为:
N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)}。
所述的步骤7)具体包括以下步骤:
71)基于用户对(ui,uj)的表示向量(z(ui),z(uj))和用户对(uip,ujq)的表示向量(z(uip),z(ujq))得到差异注意力|z(uip)-z(ujq)|以及个体特征注意力[z(uip);z(ujq)];
72)基于单层神经网络建立的注意力机制,该单层神经网络的输入层和输出层神经元数分别为3d和1,通过随机初始化分别得到该神经网络的权重矩阵Wa和偏置向量ba
73)将差异注意力和个体特征注意力串联,输入单层神经网络进行计算得到用户对(uip,ujq)的注意力系数epq,则有:
epq=Wa[z(uip);z(ujq);|z(uip)-z(ujq)|]+ba
74)基于用户对集合N(ui,uj)对注意力系数进行归一化处理,则有:
αpq=softmax(epq)
其中,softmax为softmax函数。
所述的步骤11)具体为:
取相似度最大的前r个目标网络节点,若数据集中包含用户名属性,则将相似度最大的前r个目标网络节点和源网络用户us分别进行用户名比对,以用户名最相似的节点作为源网络用户us在目标网络中的对应锚用户,若数据集中不包含用户名属性,则取相似度最大的节点作为源网络用户us在目标网络中的对应锚用户。
与现有技术相比,本发明具有以下优点:
1、相较于大多数方法研究两个网络的用户对齐问题,本发明的用户身份链接方法能够适用于多个网络的用户身份对齐。
2、相较于大多数现有方法依赖大量锚用户标签,本发明所提技术方案能够适用于标签缺乏的网络。
3、本发明在大部分网络上比其他基础的用户身份对齐方法的对齐准确率更高,在真实网络上可以适应更多的情况,例如有标签的锚节点对数量少的情况。
附图说明
图1为本发明的一个较佳实施例的方法流程图。
图2为本发明与其他技术方案在小规模网络Foursquare-Twitter网络上进行仿真实验的用户身份对齐准确度性能结果对比。
图3为本发明与其他技术方案在不同稀疏程度的子网络上的仿真实验性能结果对比。
图4为本发明与其他技术方案在不同重叠程度的子网络上的仿真实验性能结果对比。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,对于现有技术的缺陷,包括由于已知的跨网络锚用户节点很有限且难以获得,需要考虑如何克服锚用户标签稀疏的问题,研究弱监督条件下的用户身份链接问题;以及未标签的用户对之间的对齐关系未知,需要找到合适的方法定义它们之间的相似度,本发明提供一种联合学习表示和对齐的弱监督用户身份链接方法,包括以下步骤:
步骤1、采集不同社交平台的用户数据,这里以2个网络为例,分别表示为源网络Gs=(Us,As,Es)与目标网络Gt=(Ut,At,Et),其中,Us,Ut分别为源网络和目标网络的用户节点集合,As,At分别为源网络和目标网络的属性矩阵,Es,Et分别为源网络和目标网络的邻接矩阵,采集时同时得到部分跨网络用户的对应关系,记作 T={(ui,uj)|ui∈Us,uj∈Ut};
进一步地,步骤1具体包括以下步骤:
步骤1.1、为源网络和目标网络分别执行步骤1.2-1.3;
步骤1.2、建立描述网络原始结构信息的邻接矩阵
Figure RE-GDA0003517388030000071
n代表网络中用户节点数量,矩阵中向量
Figure RE-GDA0003517388030000072
代表用户i对应的邻接向量,矩阵中元素ei,j代表用户i和用户j的连接情况,1代表有边相连,0代表不存在边;
步骤1.3、建立描述网络原始属性信息的属性矩阵
Figure RE-GDA0003517388030000073
m代表网络中属性的种类数量,矩阵中
Figure RE-GDA0003517388030000074
向量代表用户i的属性向量,根据真实网络中用户属性信息的高度非对称情况,以非对称形式来记录用户的属性信息,于是矩阵中元素ai,j代表用户i对应的属性j情况,1代表具有该属性,0代表不具有该属性。
步骤2、给定表示向量的维度d=128以及卷积层数L=2,以上参数均以常数表示,具体数值由测试结果决定;
步骤3、为源网络和目标网络分别执行步骤4-10,进行嵌入学习,获得源网络用户表示和目标网络用户表示Zs,Zt,下面步骤的描述中社交网络使用G=(U,A,E) 来表示,在执行源网络和目标网络的计算时替换为对应网络的数据即可;
步骤4、设置属性矩阵中对应的属性向量
Figure RE-GDA0003517388030000075
为网络中用户的初始表示向量,即第0层的用户表示h0(u),基于图卷积模型逐层做卷积操作获得每层的用户表示hl(u),l=1,...,L,执行步骤5-8来实现每一层的卷积操作;
步骤5、对于网络中的每个用户u∈U,在其邻居用户节点中均匀采样p个用户节点,记作集合N(u);
步骤6、对集合N(u)中的用户节点的第l-1层表示做聚合操作Faggre l,得到邻居聚合表示向量
Figure RE-GDA0003517388030000081
进一步地,步骤6具体包括以下步骤:
步骤6.1、建立聚合操作的单层神经网络,其输入层和输出层的神经元数分别为p*d和d,通过随机初始化分别得到该神经网络的该单层神经网络的权重矩阵 WF l和偏置向量bF l,其上标l指的是它们属于第l层的卷积操作中的聚合操作的神经网络;
步骤6.2、对集合N(u)中的用户节点做基于神经网络的聚合操作Faggre l,其输出向量计算方式如下:
Figure RE-GDA0003517388030000082
其中,Faggre l表示为以下公式:
Figure RE-GDA0003517388030000083
其中,max表示取最大值,RELU表示线性整流函数。
步骤7、连结邻居聚合向量
Figure RE-GDA0003517388030000084
和用户自身的第l-1层表示向量hl-1(u),得到 hl(u);
进一步地,步骤7具体包括以下步骤:
步骤7.1、建立连结操作的单层神经网络,其输入层和输出层神经元数分别为 2d和d,通过随机初始化分别得到该神经网络的权重矩阵和偏置向量Wl,bl,其上标l指的是它们属于第l层卷积操作中的连结操作的神经网络;
步骤7.2、基于神经网络连结邻居聚合向量和用户自身表示向量,该神经网络的输出向量计算方式如下:
Figure RE-GDA0003517388030000085
其中,concat指的是串联向量,RELU表示线性整流函数。
步骤8、按照以下公式对生成的向量做归一化操作,得到第l层的用户表示向量,则有:
Figure RE-GDA0003517388030000086
其中,||·||2表示l-2范数,本例中为了符号的简便,后面将
Figure RE-GDA0003517388030000087
简单记作hl(u);
步骤9、以第L层的用户表示作为学习到的网络用户表示z(u)=hL(u),整个网络的表示记作Z;
步骤10、对网络做表示学习,计算如下的嵌入损失函数:
Figure RE-GDA0003517388030000091
其中,(z(ui),z(uj))指的是根据网络中的所有的边所取的正样本用户对,σ指的是sigmoid函数,z(uk)指的是按照Pn(u)∝du 3/4分布所取的负样本,du指的用户节点的度数,Q指的是对于每个正样本取负样本的数量,
Figure RE-GDA0003517388030000092
为基于负样本所计算的期望,本发明在计算中可以用采样得到的负样本计算的均值作为期望值;
步骤11、基于步骤4-10获得的源网络和目标网络在各自空间中的用户表示 Zs,Zt,基于跨表示空间的映射函数Φ将源网络用户表示Zs映射到目标网络的表示空间中,获得源网络和目标网络在同一空间中的用户表示Z′s=Φ(Zs),Zt
进一步地,步骤11具体包括以下步骤:
步骤11.1、基于神经网络建立的映射函数Φ,该神经网络有三层,每层的神经元数分别为d,1200,1600,d,通过随机取值得到初始化的第k层与第k+1层之间的权重向量
Figure RE-GDA0003517388030000093
和偏置向量
Figure RE-GDA0003517388030000094
k=1,2,3;
步骤11.2、将Zs中的用户节点向量zs(u)依次输入映射函数Φ,通过映射函数Φ的逐层计算,得到用户节点向量zs(u)在目标网络表示空间中的映射向量z's(u),每一层的输出向量计算方式如下:
yk=σ(Wst kyk-1+bst k),k=2,3,4
其中,σ为sigmoid函数,最后一层的输出y4即为映射函数Φ输出的映射后的表示向量z's(u)。
步骤12、基于已知的用户对应关系T={(ui,uj)|ui∈Us,uj∈Ut},进行跨网络强对齐训练,计算如下的损失函数:
Figure RE-GDA0003517388030000095
其中d(·)指的是依据实际网络情况所定义的距离函数,默认为余弦相似度函数;
步骤13、基于已知的用户对应关系T={(ui,uj)|ui∈Us,uj∈Ut}中的每对用户,取潜在对齐用户对,记为集合N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)};
进一步地,步骤13具体包括以下步骤:
步骤13.1、对于每个未知对应关系的用户对(ui,uj)进行步骤13.2-13.4;
步骤13.2、得到用户ui,uj的一阶邻居集合N(ui),N(uj);
步骤13.3、得到它们邻居中具有标签的用户节点:
LN(ui)=N(ui)∩T,LN(uj)=N(uj)∩T
步骤13.4、记LN′(ui)为源网络用户节点LN(ui)所对应的目标网络用户的集合,并计算用户对(ui,uj)之间的相似度为:
Figure RE-GDA0003517388030000101
步骤13.5、对于T={(ui,uj)|ui∈Us,uj∈Ut}中的每个用户对(ui,uj),得到其一阶邻居集合N(ui),N(uj),对未知标签的邻居用户进行两两组合,按照的sim(ui,uj)进行排序,取前p对邻居对,作为潜在对齐的用户对,记为:
N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)}。
步骤14、对于集合N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)}中的每对用户(uip,ujq)基于注意力机制计算其权重αpq
进一步地,步骤14具体包括以下步骤:
步骤14.1、基于用户对(ui,uj)的表示向量(z(ui),z(uj))和用户对(uip,ujq)的表示向量(z(uip),z(ujq)),得到差异注意力|z(uip)-z(ujq)|,和个体特征注意力[z(uip);z(ujq)];
步骤14.2、基于单层神经网络建立的注意力机制,其输入层和输出层神经元数分别为3d和1,通过随机初始化分别得到该神经网络的权重矩阵和偏置向量Wa,ba
步骤14.3、将得到的差异注意力和个体特征注意力串联,输入神经网络进行计算得到(uip,ujq)的注意力系数:
epq=Wa[z(uip);z(ujq);|z(uip)-z(ujq)|]+ba
步骤14.4、基于N(ui,uj)对注意力系数进行归一化:
Figure RE-GDA0003517388030000102
其中,softmax指的是softmax函数。
步骤15、基于已知对应关系的用户对集合T、其潜在对齐用户对集合N(ui,uj) 和计算得到的权重αpq,进行跨网络弱对齐训练,计算如下的损失函数:
Figure RE-GDA0003517388030000103
步骤16、联合基于步骤10分别得到源网络和目标网络的嵌入损失函数、基于步骤12得到的强对齐损失函数、基于步骤15得到的弱对齐损失函数,按照以下公式更新步骤6-7中聚合操作和连结操作以及步骤11中映射函数所涉及到的权重矩阵和偏置参数:
Ljoint=Lemb(Gs)+Lemb(Gt)+λ(Lhard+Lsoft)
步骤17、更新参数直至收敛,得到最终的属于同一表示空间的源网络和目标网络用户表示Z′s=Φ(Zs),Zt
步骤18、计算us∈Us的z's(u)∈Z′s与目标网络中每个节点向量zt(u)∈Zt的余弦相似度,并按照降序进行排序;
步骤19、取相似度最大的30个目标网络节点,若数据集中包含用户名属性,则将相似度最大的30个目标网络节点和us分别进行用户名比对,用户名最相似的节点为us在目标网络中的对应锚用户,若数据集中不包含用户名属性,则取相似度最大的节点作为us在目标网络中的对应锚用户。
实施例
本实施例的有效性可以通过下面的仿真实验来进一步说明,需要说明的是,实验中应用的参数不影响本发明的一般性。
1)仿真条件:
Dell Precision Tower 5810,Intel Xeon CPU E5-1620 v3@3.50GHz,RAM 16GBdesktop,操作系统Windows 10,仿真程序编写语言为Python3。
2)仿真内容:
在2组真实网络上进行实验来评估算法的效率和效果,2组真实网络分别为Weibo-Douban网络和Facebook网络,第1组网络中Weibo和Douban各包含141,614 个用户,且用户之间互相对齐,第2组网络是基于Facebook数据集构建的2个子网络,各自有48484个用户,而子网络中用户间连边由原始网络随机采样而得,因此天然存在48484对锚用户,实验中统一采用10%的节点进行测试。
本实施例在仿真实验中用JORA表示。
将本实施例与现有的4个用户身份对齐方法在2组真实网络上进行仿真对比,现有的4个用户身份对齐方法分别包括:Zhou等人于2018年在《INFOCOM》发表的“Deeplink:Adeep learning approach for user identity linkage”中提出的DeepLink 方法;Li等人于2019年在《AAAI》发表的“Adversarial learning for weakly-supervised socialnetwork alignment”中提出的SNNA方法;Chen等人于2020年在《SIGKDD》发表的“Multi-level graph convolutional networks for cross-platform anchor link prediction”中提出的MGCN方法;Liu等人于2016年在《IJCAI》发表的“Aligning users across socialnetworks using network embedding”中提出的IONE方法。上述方法都跟本方法一样基于深度的网络嵌入技术来实现,其他一些基于其他技术实现的方法在前面的工作中被证明性能稍差,所以这里不再做仿真对比。
仿真实验在小规模网络Foursquare-Twitter网络上的用户身份对齐准确度性能如图2所示。度量用户身份对齐性能的指标为precision@k,表示对测试集中的用户基于各个方法进行对齐计算,取相似度最大的前k个节点其中存在对应锚节点的用户在所有测试集用户中所占的比例,其值越大,则说明使用的用户身份对齐方法的准确度越高。本发明的JORA的precision@30分别比IONE、DeepLink、SNNA、 MGCN高44.9%、81.9%、53.7%、22.9%。
仿真实验在大规模网络Facebook网络上的用户身份对齐准确度性能如图3和图4所示,图3为不同稀疏程度的子网络上的性能结果,图4为不同重叠程度的子网络上的性能结果,随着稀疏程度的变化,各方法的准确度变化趋势不明显,说明各方法受网络稀疏程度的影响不大;随着两个网络重叠程度的减小,各方法的准确度结果都有一定程度的下降趋势,DeepLink、SNNA、MGCN、JORA分别下降了18.1%、17.8%、19.1%、18.9%。在不同稀疏程度和不同重叠程度的网络上,本发明JORA均达到最高的准确度。
综上,本发明提供的一种联合学习表示和对齐的弱监督用户身份链接方法,可用于恶意用户检测、意见领袖跟踪以及其他用户追踪任务,本实施例基于联合学习表示和对齐来实现,在学习过程中同时考虑了网络表示学习(即,网络嵌入)的目标和用户对齐的目标,并且基于注意力机制来定义自适应的无标签的用户对之间的相似度,使学习到的模型不会过拟合于有限的标签信息,得到更准确的用户身份对齐结果。本实施例所得到的用户身份对齐关系能够直接进行用户追踪任务,用于社交网络信息传播控制,并且可以缓解其他网络分析任务的用户信息稀疏问题。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,该方法包括以下步骤:
1)分别采集源网络Gs=(Us,As,Es)与目标网络Gt=(Ut,At,Et)的社交平台用户数据,并且同时获取部分跨网络用户已知的对应关系集合T={(ui,uj)|ui∈Us,uj∈Ut},其中,Us,Ut分别为源网络和目标网络的用户节点集合,As,At分别为源网络和目标网络的属性矩阵,Es,Et分别为源网络和目标网络的邻接矩阵;
2)设定表示向量的维度d和卷积层数L;
3)分别对源网络和目标网络进行嵌入学习,得到源网络用户表示Zs和目标网络用户表示Zt
4)基于跨表示空间的映射函数Φ将源网络的用户表示Zs映射到目标网络的表示空间中,分别获得源网络和目标网络在同一空间中的用户表示Z′s=Φ(Zs),Zt
5)根据已知的对应关系集合T={(ui,uj)|ui∈Us,uj∈Ut}进行跨网络强对齐训练,则对应的强对齐损失函数的表达式为:
Figure RE-FDA0003517388020000011
其中,d(·)为依据实际网络情况定义的距离函数;
6)获取已知的对应关系集合T={(ui,uj)|ui∈Us,uj∈Ut}中的每对用户的潜在对齐用户对记为集合N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)};
7)对集合N(ui,uj)中的每对用户基于注意力机制计算对应的权重αpq
8)基于已知的对应关系集合T、潜在对齐用户对集合N(ui,uj)以及权重αpq进行跨网络弱对齐训练,则对应的弱对齐损失函数的表达式为:
Figure RE-FDA0003517388020000012
9)联合源网络和目标网络的嵌入损失函数、强对齐损失函数和弱对齐损失函数,更新聚合操作、连结操作以及映射函数中神经网络的权重矩阵和偏置参数,则更新公式为:
Ljoint=Lemb(Gs)+Lemb(Gt)+λ(Lhard+Lsoft);
10)更新参数直至收敛,得到最终属于同一表示空间的源网络和目标网络用户表示Z′s=Φ(Zs),Zt
11)计算us∈Us的z's(u)∈Z′s与目标网络中每个节点向量zt(u)∈Zt的余弦相似度,并按照降序进行排序,并根据排序结合用户名属性获取源网络用户us在目标网络中的对应锚用户,完成身份链接。
2.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤1)具体包括以下步骤:
11)建立描述网络原始结构信息的邻接矩阵
Figure RE-FDA0003517388020000021
n为网络中用户节点数量,邻接矩阵中的向量
Figure RE-FDA0003517388020000022
代表用户i对应的邻接向量,邻接向量中元素ei,j代表用户i和用户j的连接情况,1代表存在边相连,0代表不存在边相连;
12)建立描述网络原始属性信息的属性矩阵
Figure RE-FDA0003517388020000023
m代表网络中属性的种类数量,属性矩阵中
Figure RE-FDA0003517388020000024
向量代表用户i的属性向量,属性向量中元素ai,j代表用户i对应的属性j情况,1代表具有对应属性,0代表不具有对应属性。
3.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤3)具体包括以下步骤:
31)设置属性矩阵中对应的属性向量
Figure RE-FDA0003517388020000025
为网络用户的初始表示向量,即第0层的用户表示h0(u),基于图卷积模型逐层作卷积操作获得每层的用户表示hl(u),l=1,...,L;
32)以第L层的用户表示作为学习到的网络用户表示z(u)=hL(u),即对应整个网络的用户表示Z;
33)对网络做表示学习,计算如下的嵌入损失函数:
Figure RE-FDA0003517388020000026
其中,(z(ui),z(uj))为根据网络中所有边所取得的正样本用户对,σ为sigmoid函数,z(uk)为按照Pn(u)∝du 3/4分布所取得的负样本,du为用户节点的度数,Q为对于每个正样本取负样本的数量,
Figure RE-FDA0003517388020000027
为基于负样本所计算的期望。
4.根据权利要求3所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤31)中,实现每一层的卷积操作具体包括以下步骤:
311)对于源网络和目标网络中的每个用户u∈U,在其邻居用户节点中均匀采样p个用户节点,记作集合N(u);
312)对集合N(u)中的用户节点的第l-1层表示做聚合操作Faggre l,得到邻居聚合表示向量
Figure RE-FDA0003517388020000031
313)对邻居聚合向量
Figure RE-FDA0003517388020000032
和用户节点自身的第l-1层表示向量hl-1(u)进行连结操作得到用户节点自身的第l层表示向量hl(u);
314)对用户节点自身的第l层表示向量hl(u)做归一化操作,得到归一化后的第l层的用户表示向量
Figure RE-FDA0003517388020000033
则有:
Figure RE-FDA0003517388020000034
其中,||·||2表示l-2范数。
5.根据权利要求4所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤312)中,进行聚合操作Faggre l具体包括以下步骤:
3121)建立聚合操作的单层神经网络,该单层神经网络的输入层和输出层的神经元数分别为p*d和d,通过随机初始化分别得到该单层神经网络的权重矩阵WF l和偏置向量bF l,上标l表示它们属于第l层的卷积操作中聚合操作的单层神经网络;
3122)对集合N(u)中的用户节点做基于神经网络的聚合操作Faggre l,其输出向量,即邻居聚合表示向量
Figure RE-FDA0003517388020000035
的计算式为:
Figure RE-FDA0003517388020000036
聚合操作Faggre l的表达式为:
Figure RE-FDA0003517388020000037
其中,max表示取最大值,RELU表示线性整流函数。
6.根据权利要求4所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤313)中,进行连结操作具体包括以下步骤:
3131)建立连结操作的单层神经网络,该单层神经网络的输入层和输出层神经元数分别为2d和d,通过随机初始化分别得到该神经网络的权重矩阵Wl和偏置向量bl,上标l表示它们属于第l层卷积操作中连结操作的单层神经网络;
3132)基于神经网络连结邻居聚合向量和用户自身表示向量,则该单层神经网络的输出向量,即用户节点自身的第l层表示向量hl(u)的计算式为:
Figure RE-FDA0003517388020000038
其中,concat指的是串联向量,RELU表示线性整流函数。
7.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤4)具体包括以下步骤:
41)基于神经网络构建映射函数Φ,该神经网络为三层,通过随机取值得到初始化的第k层与第k+1层之间的权重向量
Figure RE-FDA0003517388020000041
和偏置向量
Figure RE-FDA0003517388020000042
k=1,2,3;
42)将源网络的用户表示Zs中的用户节点向量zs(u)依次输入映射函数Φ,通过映射函数Φ的逐层计算,得到用户节点向量zs(u)在目标网络表示空间中的映射向量z's(u),则每一层的输出向量的计算式为:
yk=σ(Wst kyk-1+bst k),k=2,3,4
其中,σ为sigmoid函数,最后一层的输出y4即为映射函数Φ输出的映射后的表示向量z's(u)。
8.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤6)具体包括以下步骤:
61)对于每个未知对应关系的用户对(ui,uj),获得用户ui,uj的一阶邻居集合N(ui),N(uj);
62)得到用户ui,uj的一阶邻居集合中具有标签的用户节点LN(ui)=N(ui)∩T,LN(uj)=N(uj)∩T
63)记LN′(ui)为源网络用户节点LN(ui)所对应的目标网络用户的集合,并计算用户对(ui,uj)之间的相似度,则有:
Figure RE-FDA0003517388020000043
64)对于已知的对应关系集合T中的每个用户对(ui,uj),得到其一阶邻居集合N(ui),N(uj),对未知标签的邻居用户进行两两组合,并按照sim(ui,uj)进行排序,取前p对邻居对作为潜在对齐的用户对集合,记为:
N(ui,uj)={(uip,ujq)|uip∈N(ui),ujq∈N(uj)}。
9.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤7)具体包括以下步骤:
71)基于用户对(ui,uj)的表示向量(z(ui),z(uj))和用户对(uip,ujq)的表示向量(z(uip),z(ujq))得到差异注意力|z(uip)-z(ujq)|以及个体特征注意力[z(uip);z(ujq)];
72)基于单层神经网络建立的注意力机制,该单层神经网络的输入层和输出层神经元数分别为3d和1,通过随机初始化分别得到该神经网络的权重矩阵Wa和偏置向量ba
73)将差异注意力和个体特征注意力串联,输入单层神经网络进行计算得到用户对(uip,ujq)的注意力系数epq,则有:
epq=Wa[z(uip);z(ujq);|z(uip)-z(ujq)|]+ba
74)基于用户对集合N(ui,uj)对注意力系数进行归一化处理,则有:
αpq=softmax(epq)
其中,softmax为softmax函数。
10.根据权利要求1所述的一种联合学习表示和对齐的弱监督用户身份链接方法,其特征在于,所述的步骤11)具体为:
取相似度最大的前r个目标网络节点,若数据集中包含用户名属性,则将相似度最大的前r个目标网络节点和源网络用户us分别进行用户名比对,以用户名最相似的节点作为源网络用户us在目标网络中的对应锚用户,若数据集中不包含用户名属性,则取相似度最大的节点作为源网络用户us在目标网络中的对应锚用户。
CN202111591929.2A 2021-12-23 2021-12-23 一种联合学习表示和对齐的弱监督用户身份链接方法 Active CN114298854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111591929.2A CN114298854B (zh) 2021-12-23 2021-12-23 一种联合学习表示和对齐的弱监督用户身份链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111591929.2A CN114298854B (zh) 2021-12-23 2021-12-23 一种联合学习表示和对齐的弱监督用户身份链接方法

Publications (2)

Publication Number Publication Date
CN114298854A true CN114298854A (zh) 2022-04-08
CN114298854B CN114298854B (zh) 2024-07-26

Family

ID=80970441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111591929.2A Active CN114298854B (zh) 2021-12-23 2021-12-23 一种联合学习表示和对齐的弱监督用户身份链接方法

Country Status (1)

Country Link
CN (1) CN114298854B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080871A (zh) * 2022-07-07 2022-09-20 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN112508724A (zh) * 2020-10-21 2021-03-16 上海交通大学 一种基于循环一致性对抗学习的用户身份对齐方法
CN113673615A (zh) * 2021-08-25 2021-11-19 上海颂艺信息科技有限公司 一种无监督的跨平台用户身份关联方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN112508724A (zh) * 2020-10-21 2021-03-16 上海交通大学 一种基于循环一致性对抗学习的用户身份对齐方法
CN113673615A (zh) * 2021-08-25 2021-11-19 上海颂艺信息科技有限公司 一种无监督的跨平台用户身份关联方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CONGHUI ZHENG: "JORA:Weekly Supervised User Identity Linkage via Jointly Learning to represent and align", IEEE, vol. 35, no. 3, 31 August 2022 (2022-08-31), pages 3900 - 3911, XP011962100, DOI: 10.1109/TNNLS.2022.3201102 *
吴铮;于洪涛;刘树新;朱宇航;: "基于信息熵的跨社交网络用户身份识别方法", 计算机应用, no. 08, 10 August 2017 (2017-08-10), pages 252 - 258 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080871A (zh) * 2022-07-07 2022-09-20 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法
CN115080871B (zh) * 2022-07-07 2024-05-17 国家计算机网络与信息安全管理中心 一种跨社交网络社交用户对齐方法

Also Published As

Publication number Publication date
CN114298854B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN108108854B (zh) 城市路网链路预测方法、系统及存储介质
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN112417219A (zh) 基于超图卷积的超边链接预测方法
CN111861756A (zh) 一种基于金融交易网络的团伙检测方法及其实现装置
CN113190654A (zh) 一种基于实体联合嵌入和概率模型的知识图谱补全方法
CN110619084B (zh) 一种根据图书馆读者借阅行为进行图书推荐的方法
CN113961759A (zh) 基于属性图表示学习的异常检测方法
CN110136017A (zh) 一种基于数据增强和非负矩阵稀疏分解的群组发现方法
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及系统
Bi et al. Knowledge transfer for out-of-knowledge-base entities: Improving graph-neural-network-based embedding using convolutional layers
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及系统
CN116226467A (zh) 基于节点结构特征的图卷积神经网络的社区发现方法
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN117893807B (zh) 基于知识蒸馏的联邦自监督对比学习图像分类系统及方法
CN114298854B (zh) 一种联合学习表示和对齐的弱监督用户身份链接方法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
Elhenawy et al. A new approach to improve the topological stability in non-linear dimensionality reduction
CN114782209B (zh) 一种基于社交网络拓扑图的关联用户身份识别方法
CN112508724B (zh) 一种基于循环一致性对抗学习的用户身份对齐方法
Zhao et al. Intrusion Detection Based on Improved SOM with Optimized GA.
CN113706290A (zh) 在区块链上采用神经架构搜索的信用评估模型构建方法、系统、设备及存储介质
Peng et al. TH-SLP: Web service link prediction based on topic-aware heterogeneous graph neural network
CN112445939A (zh) 一种社交网络群体发现系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant