CN114298854A

CN114298854A - 一种联合学习表示和对齐的弱监督用户身份链接方法

Info

Publication number: CN114298854A
Application number: CN202111591929.2A
Authority: CN
Inventors: 潘理; 郑聪惠
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-08
Anticipated expiration: 2041-12-23
Also published as: CN114298854B

Abstract

本发明涉及一种联合学习表示和对齐的弱监督用户身份链接方法，该方法包括以下步骤：1)采集源网络与目标网络的用户数据和已知的对应关系集；2)设定表示向量的维度和卷积层数；3)进行嵌入学习，得到源网络用户表示Z^s和目标网络用户表示Z^t；4)基于映射函数Φ将Z^s映射到目标网络的表示空间中；5)进行跨网络强对齐训练，6)获取潜在对齐用户对记为集合；7)计算对应的权重α_pq；8)进行跨网络弱对齐训练，9)更新聚合操作、连结操作以及映射函数中神经网络的权重矩阵和偏置参数；10)更新参数直至收敛；11)获取源网络用户u_s在目标网络中的对应锚用户。与现有技术相比，本发明具有适用于多个且标签缺乏的网络、对齐准确率高等优点。

Description

一种联合学习表示和对齐的弱监督用户身份链接方法

技术领域

本发明涉及社交网络技术领域，尤其是涉及一种联合学习表示和对齐的弱监督用户身份链接方法。

背景技术

随着社交网络的发展，人们通常在多个社交平台上拥有账号并进行相应的社交活动，例如添加好友、发布内容等等，将不同社交平台上对应于同一个自然人的用户身份进行对齐，对于多种社交网络分析任务具有重要作用。一方面，跨网络的用户身份对齐能够将不同网络的用户信息联系起来，缓解各个网络信息不足的问题，帮助更好地进行用户分析；另一方面，用户身份对齐的工作能够实现跨网络的用户追踪，能够帮助检测恶意用户，同时也有助于意见领袖跟踪，对于经济发展、社会稳定和国家安全等都有重大意义。

经对现有技术的文献检索发现，早期的技术大多基于简单的符号特征之间的相似性来寻找跨网络的相似用户，这种思路常常受限于不同网络之间的信息异质性，难以直接计算异质信息的相似性，网络嵌入技术能够学习网络中用户节点的有效低维表示向量，为用户身份对齐提供了新思路，可以通过计算表示向量的相似性来简化用户特征的相似性计算问题，基于网络嵌入的用户身份对齐的基本思路是将来自不同网络的用户节点映射到同一嵌入空间然后进行相似度计算。

现有的一些基于网络嵌入技术的用户身份链接方法分两阶段来进行，第一阶段基于网络嵌入技术学习不同网络的表示向量，第二阶段学习不同网络的表示空间之间的映射函数，实现用户表示向量在不同网络之间的转换，Man等人于2016年在国际会议《IJCAI》发表题为“Predict Anchor Links across Social Networks via an Embedding Approach”的文章，文中研究基于网络嵌入的跨社交网络锚用户链路预测问题。他们首先基于保持结构特征将不同社交网络嵌入到低维空间中，然后基于已知的锚用户标签来学习不同嵌入空间的映射函数，从而发现跨网络用户对应关系。这样的分阶段的方法非常依赖已有的标签信息，标签信息指的是已知对齐关系的锚用户对，现实场景中这样的标签信息非常难获得，因此需要研究弱监督条件下的用户身份链接方法，另外，现有的方法中，对于未知对齐信息的用户对的相似度很难给出准确的定义，并且很影响效果，因此需要开发一种提高对齐准确率的用户身份链接方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种联合学习表示和对齐的弱监督用户身份链接方法。

本发明的目的可以通过以下技术方案来实现：

一种联合学习表示和对齐的弱监督用户身份链接方法，该方法包括以下步骤：

1)分别采集源网络G^s＝(U^s,A^s,E^s)与目标网络G^t＝(U^t,A^t,E^t)的社交平台用户数据，并且同时获取部分跨网络用户已知的对应关系集合 T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}，其中，U^s,U^t分别为源网络和目标网络的用户节点集合， A^s,A^t分别为源网络和目标网络的属性矩阵，E^s,E^t分别为源网络和目标网络的邻接矩阵；

2)设定表示向量的维度d和卷积层数L；

3)分别对源网络和目标网络进行嵌入学习，得到源网络用户表示Z^s和目标网络用户表示Z^t；

4)基于跨表示空间的映射函数Φ将源网络的用户表示Z^s映射到目标网络的表示空间中，分别获得源网络和目标网络在同一空间中的用户表示Z′^s＝Φ(Z^s)，Z^t；

5)根据已知的对应关系集合T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}进行跨网络强对齐训练，则对应的强对齐损失函数的表达式为：

其中，d(·)为依据实际网络情况定义的距离函数；

6)获取已知的对应关系集合T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}中的每对用户的潜在对齐用户对记为集合N(u_i,u_j)＝{(u_ip,u_jq)|u_ip∈N(u_i),u_jq∈N(u_j)}；

7)对集合N(u_i,u_j)中的每对用户基于注意力机制计算对应的权重α_pq；

8)基于已知的对应关系集合T、潜在对齐用户对集合N(u_i,u_j)以及权重α_pq进行跨网络弱对齐训练，则对应的弱对齐损失函数的表达式为：

9)联合源网络和目标网络的嵌入损失函数、强对齐损失函数和弱对齐损失函数，更新聚合操作、连结操作以及映射函数中神经网络的权重矩阵和偏置参数，则更新公式为：

L_joint＝L_emb(G_s)+L_emb(G_t)+λ(L_hard+L_soft)；

10)更新参数直至收敛，得到最终属于同一表示空间的源网络和目标网络用户表示Z′^s＝Φ(Z^s)，Z^t；

11)计算u_s∈U^s的z'^s(u)∈Z′^s与目标网络中每个节点向量z^t(u)∈Z^t的余弦相似度，并按照降序进行排序，并根据排序结合用户名属性获取源网络用户u_s在目标网络中的对应锚用户，完成身份链接。

所述的步骤1)具体包括以下步骤：

11)建立描述网络原始结构信息的邻接矩阵

n为网络中用户节点数量，邻接矩阵中的向量

代表用户i对应的邻接向量，邻接向量中元素e_i,j代表用户i和用户j的连接情况，1代表存在边相连，0代表不存在边相连；

12)建立描述网络原始属性信息的属性矩阵

m代表网络中属性的种类数量，属性矩阵中

向量代表用户i的属性向量，属性向量中元素a_i,j代表用户i对应的属性j情况，1代表具有对应属性，0代表不具有对应属性。

所述的步骤3)具体包括以下步骤：

31)设置属性矩阵中对应的属性向量

为网络用户的初始表示向量，即第0层的用户表示h⁰(u)，基于图卷积模型逐层作卷积操作获得每层的用户表示 h^l(u),l＝1,...,L；

32)以第L层的用户表示作为学习到的网络用户表示z(u)＝h^L(u)，即对应整个网络的用户表示Z；

33)对网络做表示学习，计算如下的嵌入损失函数：

其中，(z(u_i),z(u_j))为根据网络中所有边所取得的正样本用户对，σ为sigmoid 函数，z(u_k)为按照P_n(u)∝d_u ^3/4分布所取得的负样本，d_u为用户节点的度数，Q为对于每个正样本取负样本的数量，

为基于负样本所计算的期望。

所述的步骤31)中，实现每一层的卷积操作具体包括以下步骤：

311)对于源网络和目标网络中的每个用户u∈U，在其邻居用户节点中均匀采样p个用户节点，记作集合N(u)；

312)对集合N(u)中的用户节点的第l-1层表示做聚合操作F_aggre ^l，得到邻居聚合表示向量

313)对邻居聚合向量

和用户节点自身的第l-1层表示向量h^l-1(u)进行连结操作得到用户节点自身的第l层表示向量h^l(u)；

314)对用户节点自身的第l层表示向量h^l(u)做归一化操作，得到归一化后的第l层的用户表示向量

则有：

其中，||·||₂表示l-2范数。

所述的步骤312)中，进行聚合操作F_aggre ^l具体包括以下步骤：

3121)建立聚合操作的单层神经网络，该单层神经网络的输入层和输出层的神经元数分别为p*d和d，通过随机初始化分别得到该单层神经网络的权重矩阵W_F ^l和偏置向量b_F ^l，上标l表示它们属于第l层的卷积操作中聚合操作的单层神经网络；

3122)对集合N(u)中的用户节点做基于神经网络的聚合操作F_aggre ^l，其输出向量，即邻居聚合表示向量

的计算式为：

聚合操作F_aggre ^l的表达式为：

其中，max表示取最大值，RELU表示线性整流函数。

所述的步骤313)中，进行连结操作具体包括以下步骤：

3131)建立连结操作的单层神经网络，该单层神经网络的输入层和输出层神经元数分别为2d和d，通过随机初始化分别得到该神经网络的权重矩阵W^l和偏置向量b^l，上标l表示它们属于第l层卷积操作中连结操作的单层神经网络；

3132)基于神经网络连结邻居聚合向量和用户自身表示向量，则该单层神经网络的输出向量，即用户节点自身的第l层表示向量h^l(u)的计算式为：

其中，concat指的是串联向量，RELU表示线性整流函数。

所述的步骤4)具体包括以下步骤：

41)基于神经网络构建映射函数Φ，该神经网络为三层，通过随机取值得到初始化的第k层与第k+1层之间的权重向量

和偏置向量

k＝1,2,3；

42)将源网络的用户表示Z^s中的用户节点向量z^s(u)依次输入映射函数Φ，通过映射函数Φ的逐层计算，得到用户节点向量z^s(u)在目标网络表示空间中的映射向量z'^s(u)，则每一层的输出向量的计算式为：

y^k＝σ(W_st ^ky^k-1+b_st ^k),k＝2,3,4

其中，σ为sigmoid函数，最后一层的输出y⁴即为映射函数Φ输出的映射后的表示向量z'^s(u)。

所述的步骤6)具体包括以下步骤：

61)对于每个未知对应关系的用户对(u_i,u_j)，获得用户u_i,u_j的一阶邻居集合 N(u_i),N(u_j)；

62)得到用户u_i,u_j的一阶邻居集合中具有标签的用户节点

LN(u_i)＝N(u_i)∩T,LN(u_j)＝N(u_j)∩T

63)记LN′(u_i)为源网络用户节点LN(u_i)所对应的目标网络用户的集合，并计算用户对(u_i,u_j)之间的相似度，则有：

64)对于已知的对应关系集合T中的每个用户对(u_i,u_j)，得到其一阶邻居集合 N(u_i),N(u_j)，对未知标签的邻居用户进行两两组合，并按照sim(u_i,u_j)进行排序，取前p对邻居对作为潜在对齐的用户对集合，记为：

N(u_i,u_j)＝{(u_ip,u_jq)|u_ip∈N(u_i),u_jq∈N(u_j)}。

所述的步骤7)具体包括以下步骤：

71)基于用户对(u_i,u_j)的表示向量(z(u_i),z(u_j))和用户对(u_ip,u_jq)的表示向量(z(u_ip),z(u_jq))得到差异注意力|z(u_ip)-z(u_jq)|以及个体特征注意力[z(u_ip)；z(u_jq)]；

72)基于单层神经网络建立的注意力机制，该单层神经网络的输入层和输出层神经元数分别为3d和1，通过随机初始化分别得到该神经网络的权重矩阵W^a和偏置向量b^a；

73)将差异注意力和个体特征注意力串联，输入单层神经网络进行计算得到用户对(u_ip,u_jq)的注意力系数e_pq，则有：

e_pq＝W^a[z(u_ip)；z(u_jq)；|z(u_ip)-z(u_jq)|]+b^a；

74)基于用户对集合N(u_i,u_j)对注意力系数进行归一化处理，则有：

α_pq＝softmax(e_pq)

其中，softmax为softmax函数。

所述的步骤11)具体为：

取相似度最大的前r个目标网络节点，若数据集中包含用户名属性，则将相似度最大的前r个目标网络节点和源网络用户u_s分别进行用户名比对，以用户名最相似的节点作为源网络用户u_s在目标网络中的对应锚用户，若数据集中不包含用户名属性，则取相似度最大的节点作为源网络用户u_s在目标网络中的对应锚用户。

与现有技术相比，本发明具有以下优点：

1、相较于大多数方法研究两个网络的用户对齐问题，本发明的用户身份链接方法能够适用于多个网络的用户身份对齐。

2、相较于大多数现有方法依赖大量锚用户标签，本发明所提技术方案能够适用于标签缺乏的网络。

3、本发明在大部分网络上比其他基础的用户身份对齐方法的对齐准确率更高，在真实网络上可以适应更多的情况，例如有标签的锚节点对数量少的情况。

附图说明

图1为本发明的一个较佳实施例的方法流程图。

图2为本发明与其他技术方案在小规模网络Foursquare-Twitter网络上进行仿真实验的用户身份对齐准确度性能结果对比。

图3为本发明与其他技术方案在不同稀疏程度的子网络上的仿真实验性能结果对比。

图4为本发明与其他技术方案在不同重叠程度的子网络上的仿真实验性能结果对比。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，对于现有技术的缺陷，包括由于已知的跨网络锚用户节点很有限且难以获得，需要考虑如何克服锚用户标签稀疏的问题，研究弱监督条件下的用户身份链接问题；以及未标签的用户对之间的对齐关系未知，需要找到合适的方法定义它们之间的相似度，本发明提供一种联合学习表示和对齐的弱监督用户身份链接方法，包括以下步骤：

步骤1、采集不同社交平台的用户数据，这里以2个网络为例，分别表示为源网络G^s＝(U^s,A^s,E^s)与目标网络G^t＝(U^t,A^t,E^t)，其中，U^s,U^t分别为源网络和目标网络的用户节点集合，A^s,A^t分别为源网络和目标网络的属性矩阵，E^s,E^t分别为源网络和目标网络的邻接矩阵，采集时同时得到部分跨网络用户的对应关系，记作 T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}；

进一步地，步骤1具体包括以下步骤：

步骤1.1、为源网络和目标网络分别执行步骤1.2-1.3；

步骤1.2、建立描述网络原始结构信息的邻接矩阵

n代表网络中用户节点数量，矩阵中向量

代表用户i对应的邻接向量，矩阵中元素e_i,j代表用户i和用户j的连接情况，1代表有边相连，0代表不存在边；

步骤1.3、建立描述网络原始属性信息的属性矩阵

m代表网络中属性的种类数量，矩阵中

向量代表用户i的属性向量，根据真实网络中用户属性信息的高度非对称情况，以非对称形式来记录用户的属性信息，于是矩阵中元素a_i,j代表用户i对应的属性j情况，1代表具有该属性，0代表不具有该属性。

步骤2、给定表示向量的维度d＝128以及卷积层数L＝2，以上参数均以常数表示，具体数值由测试结果决定；

步骤3、为源网络和目标网络分别执行步骤4-10，进行嵌入学习，获得源网络用户表示和目标网络用户表示Z^s,Z^t，下面步骤的描述中社交网络使用G＝(U,A,E) 来表示，在执行源网络和目标网络的计算时替换为对应网络的数据即可；

步骤4、设置属性矩阵中对应的属性向量

为网络中用户的初始表示向量，即第0层的用户表示h⁰(u)，基于图卷积模型逐层做卷积操作获得每层的用户表示h^l(u),l＝1,...,L，执行步骤5-8来实现每一层的卷积操作；

步骤5、对于网络中的每个用户u∈U，在其邻居用户节点中均匀采样p个用户节点，记作集合N(u)；

步骤6、对集合N(u)中的用户节点的第l-1层表示做聚合操作F_aggre ^l，得到邻居聚合表示向量

进一步地，步骤6具体包括以下步骤：

步骤6.1、建立聚合操作的单层神经网络，其输入层和输出层的神经元数分别为p*d和d，通过随机初始化分别得到该神经网络的该单层神经网络的权重矩阵 W_F ^l和偏置向量b_F ^l，其上标l指的是它们属于第l层的卷积操作中的聚合操作的神经网络；

步骤6.2、对集合N(u)中的用户节点做基于神经网络的聚合操作F_aggre ^l，其输出向量计算方式如下：

其中，F_aggre ^l表示为以下公式：

其中，max表示取最大值，RELU表示线性整流函数。

步骤7、连结邻居聚合向量

和用户自身的第l-1层表示向量h^l-1(u)，得到 h^l(u)；

进一步地，步骤7具体包括以下步骤：

步骤7.1、建立连结操作的单层神经网络，其输入层和输出层神经元数分别为 2d和d，通过随机初始化分别得到该神经网络的权重矩阵和偏置向量W^l,b^l，其上标l指的是它们属于第l层卷积操作中的连结操作的神经网络；

步骤7.2、基于神经网络连结邻居聚合向量和用户自身表示向量，该神经网络的输出向量计算方式如下：

其中，concat指的是串联向量，RELU表示线性整流函数。

步骤8、按照以下公式对生成的向量做归一化操作，得到第l层的用户表示向量，则有：

其中，||·||₂表示l-2范数，本例中为了符号的简便，后面将

简单记作h^l(u)；

步骤9、以第L层的用户表示作为学习到的网络用户表示z(u)＝h^L(u)，整个网络的表示记作Z；

步骤10、对网络做表示学习，计算如下的嵌入损失函数：

其中，(z(u_i),z(u_j))指的是根据网络中的所有的边所取的正样本用户对，σ指的是sigmoid函数，z(u_k)指的是按照P_n(u)∝d_u ^3/4分布所取的负样本，d_u指的用户节点的度数，Q指的是对于每个正样本取负样本的数量，

为基于负样本所计算的期望，本发明在计算中可以用采样得到的负样本计算的均值作为期望值；

步骤11、基于步骤4-10获得的源网络和目标网络在各自空间中的用户表示 Z^s,Z^t，基于跨表示空间的映射函数Φ将源网络用户表示Z^s映射到目标网络的表示空间中，获得源网络和目标网络在同一空间中的用户表示Z′^s＝Φ(Z^s)，Z^t；

进一步地，步骤11具体包括以下步骤：

步骤11.1、基于神经网络建立的映射函数Φ，该神经网络有三层，每层的神经元数分别为d,1200,1600,d，通过随机取值得到初始化的第k层与第k+1层之间的权重向量

和偏置向量

k＝1,2,3；

步骤11.2、将Z^s中的用户节点向量z^s(u)依次输入映射函数Φ，通过映射函数Φ的逐层计算，得到用户节点向量z^s(u)在目标网络表示空间中的映射向量z'^s(u)，每一层的输出向量计算方式如下：

y^k＝σ(W_st ^ky^k-1+b_st ^k),k＝2,3,4

步骤12、基于已知的用户对应关系T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}，进行跨网络强对齐训练，计算如下的损失函数：

其中d(·)指的是依据实际网络情况所定义的距离函数，默认为余弦相似度函数；

步骤13、基于已知的用户对应关系T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}中的每对用户，取潜在对齐用户对，记为集合N(u_i,u_j)＝{(u_ip,u_jq)|u_ip∈N(u_i),u_jq∈N(u_j)}；

进一步地，步骤13具体包括以下步骤：

步骤13.1、对于每个未知对应关系的用户对(u_i,u_j)进行步骤13.2-13.4；

步骤13.2、得到用户u_i,u_j的一阶邻居集合N(u_i),N(u_j)；

步骤13.3、得到它们邻居中具有标签的用户节点：

LN(u_i)＝N(u_i)∩T,LN(u_j)＝N(u_j)∩T

步骤13.4、记LN′(u_i)为源网络用户节点LN(u_i)所对应的目标网络用户的集合，并计算用户对(u_i,u_j)之间的相似度为：

步骤13.5、对于T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}中的每个用户对(u_i,u_j)，得到其一阶邻居集合N(u_i),N(u_j)，对未知标签的邻居用户进行两两组合，按照的sim(u_i,u_j)进行排序，取前p对邻居对，作为潜在对齐的用户对，记为：

N(u_i,u_j)＝{(u_ip,u_jq)|u_ip∈N(u_i),u_jq∈N(u_j)}。

步骤14、对于集合N(u_i,u_j)＝{(u_ip,u_jq)|u_ip∈N(u_i),u_jq∈N(u_j)}中的每对用户(u_ip,u_jq)基于注意力机制计算其权重α_pq；

进一步地，步骤14具体包括以下步骤：

步骤14.1、基于用户对(u_i,u_j)的表示向量(z(u_i),z(u_j))和用户对(u_ip,u_jq)的表示向量(z(u_ip),z(u_jq))，得到差异注意力|z(u_ip)-z(u_jq)|，和个体特征注意力[z(u_ip)；z(u_jq)]；

步骤14.2、基于单层神经网络建立的注意力机制，其输入层和输出层神经元数分别为3d和1，通过随机初始化分别得到该神经网络的权重矩阵和偏置向量W^a,b^a；

步骤14.3、将得到的差异注意力和个体特征注意力串联，输入神经网络进行计算得到(u_ip,u_jq)的注意力系数：

e_pq＝W^a[z(u_ip)；z(u_jq)；|z(u_ip)-z(u_jq)|]+b^a；

步骤14.4、基于N(u_i,u_j)对注意力系数进行归一化：

其中，softmax指的是softmax函数。

步骤15、基于已知对应关系的用户对集合T、其潜在对齐用户对集合N(u_i,u_j) 和计算得到的权重α_pq，进行跨网络弱对齐训练，计算如下的损失函数：

步骤16、联合基于步骤10分别得到源网络和目标网络的嵌入损失函数、基于步骤12得到的强对齐损失函数、基于步骤15得到的弱对齐损失函数，按照以下公式更新步骤6-7中聚合操作和连结操作以及步骤11中映射函数所涉及到的权重矩阵和偏置参数：

L_joint＝L_emb(G_s)+L_emb(G_t)+λ(L_hard+L_soft)

步骤17、更新参数直至收敛，得到最终的属于同一表示空间的源网络和目标网络用户表示Z′^s＝Φ(Z^s)，Z^t；

步骤18、计算u_s∈U^s的z'^s(u)∈Z′^s与目标网络中每个节点向量z^t(u)∈Z^t的余弦相似度，并按照降序进行排序；

步骤19、取相似度最大的30个目标网络节点，若数据集中包含用户名属性，则将相似度最大的30个目标网络节点和u_s分别进行用户名比对，用户名最相似的节点为u_s在目标网络中的对应锚用户，若数据集中不包含用户名属性，则取相似度最大的节点作为u_s在目标网络中的对应锚用户。

实施例

本实施例的有效性可以通过下面的仿真实验来进一步说明，需要说明的是，实验中应用的参数不影响本发明的一般性。

1)仿真条件：

Dell Precision Tower 5810，Intel Xeon CPU E5-1620 v3@3.50GHz，RAM 16GBdesktop，操作系统Windows 10，仿真程序编写语言为Python3。

2)仿真内容：

在2组真实网络上进行实验来评估算法的效率和效果，2组真实网络分别为Weibo-Douban网络和Facebook网络，第1组网络中Weibo和Douban各包含141,614 个用户，且用户之间互相对齐，第2组网络是基于Facebook数据集构建的2个子网络，各自有48484个用户，而子网络中用户间连边由原始网络随机采样而得，因此天然存在48484对锚用户，实验中统一采用10％的节点进行测试。

本实施例在仿真实验中用JORA表示。

将本实施例与现有的4个用户身份对齐方法在2组真实网络上进行仿真对比，现有的4个用户身份对齐方法分别包括：Zhou等人于2018年在《INFOCOM》发表的“Deeplink:Adeep learning approach for user identity linkage”中提出的DeepLink 方法；Li等人于2019年在《AAAI》发表的“Adversarial learning for weakly-supervised socialnetwork alignment”中提出的SNNA方法；Chen等人于2020年在《SIGKDD》发表的“Multi-level graph convolutional networks for cross-platform anchor link prediction”中提出的MGCN方法；Liu等人于2016年在《IJCAI》发表的“Aligning users across socialnetworks using network embedding”中提出的IONE方法。上述方法都跟本方法一样基于深度的网络嵌入技术来实现，其他一些基于其他技术实现的方法在前面的工作中被证明性能稍差，所以这里不再做仿真对比。

仿真实验在小规模网络Foursquare-Twitter网络上的用户身份对齐准确度性能如图2所示。度量用户身份对齐性能的指标为precision@k，表示对测试集中的用户基于各个方法进行对齐计算，取相似度最大的前k个节点其中存在对应锚节点的用户在所有测试集用户中所占的比例，其值越大，则说明使用的用户身份对齐方法的准确度越高。本发明的JORA的precision@30分别比IONE、DeepLink、SNNA、 MGCN高44.9％、81.9％、53.7％、22.9％。

仿真实验在大规模网络Facebook网络上的用户身份对齐准确度性能如图3和图4所示，图3为不同稀疏程度的子网络上的性能结果，图4为不同重叠程度的子网络上的性能结果，随着稀疏程度的变化，各方法的准确度变化趋势不明显，说明各方法受网络稀疏程度的影响不大；随着两个网络重叠程度的减小，各方法的准确度结果都有一定程度的下降趋势，DeepLink、SNNA、MGCN、JORA分别下降了18.1％、17.8％、19.1％、18.9％。在不同稀疏程度和不同重叠程度的网络上，本发明JORA均达到最高的准确度。

综上，本发明提供的一种联合学习表示和对齐的弱监督用户身份链接方法，可用于恶意用户检测、意见领袖跟踪以及其他用户追踪任务，本实施例基于联合学习表示和对齐来实现，在学习过程中同时考虑了网络表示学习(即，网络嵌入)的目标和用户对齐的目标，并且基于注意力机制来定义自适应的无标签的用户对之间的相似度，使学习到的模型不会过拟合于有限的标签信息，得到更准确的用户身份对齐结果。本实施例所得到的用户身份对齐关系能够直接进行用户追踪任务，用于社交网络信息传播控制，并且可以缓解其他网络分析任务的用户信息稀疏问题。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种联合学习表示和对齐的弱监督用户身份链接方法，其特征在于，该方法包括以下步骤：

1)分别采集源网络G^s＝(U^s,A^s,E^s)与目标网络G^t＝(U^t,A^t,E^t)的社交平台用户数据，并且同时获取部分跨网络用户已知的对应关系集合T＝{(u_i,u_j)|u_i∈U^s,u_j∈U^t}，其中，U^s,U^t分别为源网络和目标网络的用户节点集合，A^s,A^t分别为源网络和目标网络的属性矩阵，E^s,E^t分别为源网络和目标网络的邻接矩阵；

2)设定表示向量的维度d和卷积层数L；