CN112036445B

CN112036445B - 基于神经张量网络的跨社交网络用户身份识别方法

Info

Publication number: CN112036445B
Application number: CN202010780686.6A
Authority: CN
Inventors: 郭晓宇; 刘琰; 杨春芳; 赵媛; 李永林
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2023-05-26
Anticipated expiration: 2040-08-06
Also published as: CN112036445A

Abstract

本发明提供一种基于神经张量网络的跨社交网络用户身份识别方法。该方法包括：步骤1、基于Random Walks和Skip‑gram模型的网络表示学习，将源网络G^s和目标网络G^t的网络结构空间均各自映射到向量空间；步骤2、基于步骤1得到的向量空间，使用神经张量网络模型对源网络G^s和目标网络G^t中的用户节点之间的关联关系进行建模；步骤3、将步骤2中建模得到的关联关系向量输入至多层感知机模型进行二分类，根据分类结果判断源网络G^s和目标网络G^t之间的用户节点对是否指向同一个真实用户。本发明采用神经张量网络模型替换了标准的神经网络模型，该模型具有更强的表达跨网络用户之间关系的能力，可以在多个维度上关联两个用户向量。

Description

基于神经张量网络的跨社交网络用户身份识别方法

技术领域

本发明涉及身份识别技术领域，尤其涉及一种基于神经张量网络的跨社交网络用户身份识别方法。

背景技术

随着互联网的快速发展和移动设备的逐渐普及，在线社交网络已经变得越来越流行，这给人们之间的交流带来了极大的便利。不同的社交网络提供不同类型的服务，人们通常根据工作与生活的需要加入到不同的社交网络中。每个用户通常在不同的社交网络中拥有账户，但是属于同一个人的账户之间往往是相互隔离的，彼此之间几乎没有联系。跨社交网络用户身份识别问题的典型目标是检测来自不同社交网络的账户是否属于现实世界中的同一个自然人，也称为账户关联、锚链接预测和网络对齐。

用户身份识别问题在社交网络分析中起着重要作用。它是许多有趣的互联网应用之间的关键先决条件，实现了从单一网络分析向多个网络分析的跳跃，例如用户行为预测、跨平台好友推荐和跨网络信息传播。

早期的研究通常利用用户自身的属性特征和统计特征将属于同一用户的账户关联在一起。例如，Goga等人(Goga,O.,Lei,H.,Parthasarathi,S.,Friedland,G.,Sommer,R.,Teixeira,R.:Exploiting innocuous activity for correlating users acrosssites.In:The 22nd International Conference on World Wide Web.pp.447–458.WWW(2013))利用从用户帖子中提取的地理位置、时间戳以及语言等特征识别用户多重身份。Zafarani等人(Zafarani,R.,Liu,H.:Connecting users across social media sites:Abehavioral-modeling approach.In:The 19th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining.pp.41-49.ACM(2013))应用社会学和心理学的理论建模用户行为模式特征，通过计算行为模式特征的相似性将同一用户的账户关联在一起。然而由于隐私意识的增强，许多用户在不同的社交网络中登记不同的信息或者虚假信息，并且社交网络中的用户属性信息随时可能被更改；此外，不能保证用户信息的丰富性，不同社交网络的用户属性信息存在较大的差异,存在不平衡的现象。

与用户属性信息相比，网络结构特征也可以直接用于解决用户身份识别问题，并且社交网络用户之间的连接关系是相对可靠且丰富的。于是基于网络结构的用户身份识别问题受到越来越多的关注。随着网络表示学习技术的发展，许多用户身份识别算法利用网络表示学习代替传统的特征工程，将社交网络结构特征保存到低维向量空间，不仅降低了算法的复杂度，而且提高了用户身份识别的准确度。Zhang等人(Zhang,Y.,Tang,J.,Yang,Z.,Pei,J.,Yu,P.:Cosnet:Connecting heterogeneous social networks with localand global consistency.In:The 21st ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.pp.1485–1494.ACM(2015))提出了COSNET方法，考虑局部和全局一致性，采用基于能量的模型将用户身份识别问题转化为最优化问题进行求解，并通过次梯度算法进行训练得到最优解，实现多个社交网络之间用户身份的识别。Liu等人(Liu,L.,Cheung,W.,Li,X.,Liao,L.:Aligning users across social networksusing network embedding.In:The 25th International Joint Conference onArtificial Intelligence.pp.1774–1780.IJCAI(2016))提出了一种针对有向图的IONE模型，利用用户的关注关系和被关注关系对节点进行表示，然后根据余弦相似性识别数同一用户的多重身份。

然而，上述的用户身份识别算法通常使用线性模型或者标准神经网络层衡量跨社交网络用户之间的相似性。但是跨网络用户之间的关系非常复杂，传统的线性模型几乎无法对它们之间的隐含关系进行建模。

发明内容

针对现有的用户身份识别算法通常使用线性模型或者标准神经网络层衡量跨社交网络用户之间的相似性而几乎无法对它们之间的隐含关系进行建模的问题，本发明提供一种基于神经张量网络的跨社交网络用户身份识别方法。

本发明提供的一种基于神经张量网络的跨社交网络用户身份识别方法，包括：

步骤1、基于Random Walks和Skip-gram模型的网络表示学习，将源网络G^s和目标网络G^t的网络结构空间均各自映射到向量空间；所述源网络G^s和目标网络G^t属于两种不同类型的社交网络；

步骤2、基于步骤1得到的向量空间，使用神经张量网络模型对源网络G^s和目标网络G^t中的用户节点之间的关联关系进行建模；

步骤3、将步骤2中建模得到的关联关系向量输入至多层感知机模型进行二分类，根据分类结果判断源网络G^s和目标网络G^t之间的用户节点对是否指向同一个真实用户。

进一步地，步骤1包括：

步骤1.1：针对源网络G^s和目标网络G^t，均通过多轮随机游走为网络中的每个用户节点产生多个序列，所述序列用于指示用户节点之间的社交关系；

步骤1.2：针对每个用户节点，使用Skip-gram模型生成所述用户节点的向量表示。

进一步地，步骤1.2包括：

通过式(2)最大化对数概率：

其中，w表示滑动窗口的大小，

为节点序列，L表示节点序列的长度；条件概率p(v_t+j|v_t)表示给定用户节点v_t的条件下，其第j跳邻居节点v_t+j出现的概率；

采用负采样的方式近似表示，将(2)式转化为：

其中，u_i和u′_i分别表示用户节点v_i的输入和输出向量；K表示负样例数目；每个用户节点被抽样的概率服从分布

为用户节点v_i的度；

使用随机梯度下降算法进行训练得到每个用户节点的向量表示。

进一步地，步骤2包括：

对于任意一个用户节点对

使用神经张量网络模型按照公式(6)对它们之间的关系进行建模：

其中，

表示对两个列向量的连接操作；f是一个非线性应用单元，NTN表示神经张量网络，/>

表示张量层的参数，/>

和/>

表示标准神经网络层的参数，/>

表示用户节点对/>

之间的关联关系向量，/>

表示/>

的向量表示，

表示/>

的向量表示。

进一步地，所述步骤3包括：

对于任意一个用户节点对

将/>

输入到多层感知机模型，输出预测标签p_label，实现二分类：

其中，g_label表示真实标签；

时，表示/>

和/>

指向同一个真实用户；MLP多层感知机。

进一步地，利用交叉熵构造得到整个方法的损失函数：

其中，

表示用于训练的用户节点对的集合，/>

表示/>

中用户节点对的真实标签，Ω为模型中参数的集合，包括神经张量网络模型的参数W、V、b，以及多层感知机模型中的参数W_MLP、b_MLP；g_label为/>

的简写，p_label为/>

的简写。

本发明的有益效果：

1、本发明提供的基于神经张量网络的跨社交网络用户身份识别方法应用RandomWalks和Skip-gram模型将网络结构空间映射到低维向量空间中，从而可以学习节点的有效向量表示；

2、本发明提供的基于神经张量网络的跨社交网络用户身份识别方法采用神经张量网络模型替换了标准的神经网络模型，该模型具有更强的表达跨网络用户之间关系的能力，可以在多个维度上关联两个用户向量。

3、根据在真实社交网络数据集上的一系列实验结果，与最新的方法相比，本发明提供的基于神经张量网络的跨社交网络用户身份识别方法在准确率、召回率和综合评价指标上都有了显著的提高，特别是综合评价指标F1值超过0.7，有了超过20％的提升。

附图说明

图1为本发明实施例提供的跨社交网络用户身份识别问题的示意图；

图2为本发明实施例提供的基于神经张量网络的跨社交网络用户身份识别方法的整体框架图；

图3为本发明实施例提供的神经张量网络的结构示意图；

图4为本发明实施例提供的评估指标F1随参数和的变化示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的研究对象是无向无权图，将社交网络表示为G＝(V,E)，其中V是社交网络中用户节点的集合，E是社交网络中用户连接关系的集合。跨多个社交网络之间的用户识别均可以转化为跨两个社交网络之间的用户识别，因此本发明各实施例中以两个社交网络为例，用G^s＝(V^s,E^s)表示源网络，用G^t＝(V^t,E^t)表示目标网络。

本发明各实施例中，小写粗体字母代表向量，大写粗体字母代表矩阵。以源网络G^s为例，表1总结了本发明中的符号表示，目标网络G^t的表示类似。

表1符号表示

为了后面讨论中描述的方便，本发明中给出以下专业术语的释义，并在图1给出了示例。

用户和账户：用户是社交网络应用的使用者参与者，其对应于现实世界中的个人实体；账户是用户在使用社交网络应用时用于表示身份的载体。

锚链接：对于一个链接

其中/>

如果/>

和/>

分别表示同一个用户在两个社交网络中的账户，那么链接/>

是一个锚链接。例如图1中(A，a)，(B，b)，(C，c)为锚链接。/>

锚用户(也称锚节点)：同时参与两个社交网络的用户被定义为锚用户(或者锚节点)，而其他用户则是非锚用户(非锚节点)。例如图1中，A与a为一对锚用户，B与b为一对锚用户，C与c为一对锚用户。

在实际的社交网络环境下，有些用户在同一社交网络中拥有多个账户，但是经常假设这些账户是独立的并且属于不同的个人。因此后面的讨论中不再详细地区分用户、账户与节点的概念。

实施例1

如图2所示，本发明实施例提供一种基于神经张量网络的跨社交网络用户身份识别方法，包括以下步骤：

S101、基于Random Walks和Skip-gram模型的网络表示学习，将源网络G^s和目标网络G^t的网络结构空间均各自映射到向量空间；所述源网络G^s和目标网络G^t属于两种不同类型的社交网络；

S102、基于步骤S101得到的向量空间，使用神经张量网络模型对源网络G^s和目标网络G^t中的用户节点之间的关联关系进行建模；

S103、将步骤S102中建模得到的关联关系向量输入至多层感知机模型进行二分类，根据分类结果判断源网络G^s和目标网络G^t之间的用户节点对是否指向同一个真实用户。

本发明实施例通过先对两个社交网络进行网络表示学习，将网络结构空间转化为向量空间，进而基于向量空间采用神经张量网络模型进行建模，最后将建模得到的向量作为多层感知机模型的输入，最终将跨网络用户身份识别问题转化为二分类问题，即判断跨网络的用户节点对是否指向自然界中的同一个真实用户，可以形式化地定义如下：

其中

时表明/>

和/>

属于同一个真实自然人。

相比于现有的研究通常采用网络表示学习将社交网络结构空间映射到低维向量空间，然后利用标准的神经网络层(通过线性模型表达跨网络用户之间关系的能力十分有限)将用户身份识别问题转换为分类问题，本发明实施例通过采用神经张量网络模型进行建模，可以更好地获取跨网络用户之间的高阶复杂关系，以便得到的分类结果更为准确。

实施例2

在上述实施例的基础上，本发明实施例提供又一种基于神经张量网络的跨社交网络用户身份识别方法，包括以下步骤：

S201、基于Random Walks和Skip-gram模型的网络表示学习，将源网络G^s和目标网络G^t的网络结构空间均各自映射到向量空间：

具体地，本步骤包括两个阶段：网络结构抽样和网络表示。其中：

网络结构抽样具体为：首先，针对源网络G^s和目标网络G^t，均通过多轮随机游走为网络中的每个用户节点产生多个序列，所述序列用于指示用户节点之间的社交关系；这些序列可以被称为“语料库”，用来学习用户节点的向量表示。

例如，以源网络中节点为例，从一个用户节点

出发，然后随机选择一条边(其中一个节点为/>

)，直到达到设定的长度L。将产生的序列记为/>

其中r表示抽样的轮数。通过随机游走进行抽样，可以提取隐藏的结构化社交信息，例如友谊关系，社区关系。

网络表示具体为：在得到“语料库”之后，使用Skip-gram模型生成每个用户节点的向量表示。即定义节点序列为

通过式(2)最大化对数概率：

其中，w表示滑动窗口的大小，L表示节点序列的长度。

条件概率p(v_t+j|v_t)通过Softmax函数定义，表示给定用户v_t的条件下，其第j跳邻居节点v_t+j出现的概率：

其中，u_i和u′_i分别表示用户v_i的输入和输出向量。

但是对于大规模网络，

的计算是昂贵的，因此本发明实施例采用负采样的方式近似表示，将(2)式转化为：

其中，K表示负样例数目；按照经验，每个节点被抽样的概率服从分布

为节点v_i的度。

通过最大化目标函数(4)近似地表示目标函数(2)，使用随机梯度下降算法进行训练得到每个节点v_i的向量表示。

按照上述过程分别在源网络G^s和目标网络G^t上应用网络表示学习，得到对应的向量空间U^s和U^t。

S202、基于步骤S201得到的向量空间U^s和U^t，使用神经张量网络模型对源网络G^s和目标网络G^t中的用户节点之间的关联关系进行建模：

具体地，神经张量网络(NTN)用双线性张量层代替了标准线性神经网络层，该双线性张量层从多个维度将两个实体向量相关联。本发明实施例中采用的神经张量网络的架构如图3所示。

给定两个实体，通过d维向量表示为(e₁,e₂)，NTN模型的目标就是预测它们之间是否存在关系R。传统应用中，NTN通过下面的函数计算这两个实体存在关系R的可能性：

其中，

为两个实体的向量表示，/>

是一个张量，双线性张量积/>

产生一个k维向量/>

其中/>

其余部分是单层神经网络的标准形式/>

和/>

将张量层的输出转化为标量，表示在特定关系R下这对实体的相关性系数。/>

张量层训练一个高阶张量作为输入相乘之间的权重；与标准神经网络相比，双线性张量积可以从更高的维度挖掘实体之间的关系，它具有更强的表达输入之间关系的能力。

基于上述的NTN模型，本发明实施例对其进行了改进，对于任意一对用户节点

按照公式(6)对它们之间的关系进行建模：

其中

表示对两个列向量的连接操作；f是一个非线性应用单元，如tanh函数，NTN表示神经张量网络，/>

表示张量层的参数，/>

和/>

表示标准神经网络层的参数，/>

表示用户节点对/>

之间的关联关系向量，/>

表示/>

的向量表示，/>

表示/>

的向量表示。

通过公式(6)给出的NTN模型，本步骤将节点对

之间的关系表示为

本发明实施例改进的NTN模型与原始的NTN模型的不同之处在于，在得到向量之后，本发明实施例并不应用将其转换为标量，而是将其作为多层感知机模型的输入，执行步骤S203。

S203：将步骤S202中建模得到的关联关系向量输入至多层感知机模型进行二分类，根据分类结果判断源网络G^s和目标网络G^t之间的用户节点对是否指向同一个真实用户：

具体地，多层感知机(Multilayer Perceptron，MLP)，也叫人工神经网络，除了输入输出层，它中间可以有多个隐藏层，层与层之间是全连接的。除了输入层，每个节点都是一个带有非线性激活函数的神经元。

本发明实施例中应用多层感知机将跨社交网络的节点配对问题转化为分类问题。具体来说，对任意一对用户节点

真实标签为g_label，通过改进的NTN模型将两者之间的复杂交互关系建模为向量/>

然后将其输入到MLP模型，输出预测标签p_label，实现二分类：

因此结合公式(6)(7)(8)，利用交叉熵构造出整个模型的损失函数如下：

其中，

表示用于模型训练的用户节点对的集合，/>

表示/>

中节点对的真实标签，Ω为模型中参数的集合，包括神经张量网络模型的参数W、V、b，以及多层感知机模型中的参数W_MLP、b_MLP，即Ω＝{W，V，b,W_MLP，b_MLP}。公式中分别将/>

和/>

简写为g_label和p_label。/>

基于实施例2所述的方法，假设已知锚节点对的集合为，按照1:的正负样本比例构造用户节点对

应用反向传播算法和随机梯度下降算法，以监督的方式进行训练可以得到基于神经张量网络的跨社交网络用户身份识别模型(下称NUIL模型)。

为了验证本发明提供的基于神经张量网络的跨社交网络用户身份识别方法的有效性，下面将NUIL模型在由两个真实社交网络构成的数据集上进行实验，并与当前最先进的方法进行对比。

(一)数据集：

该数据集由Foursquare和Twitter两个真实的社交网络组成；该数据集可以从https://github.com/ColaLL/IONE处下载，进入该网站后，点击“AcrossNetworkEmbeddingData”文件夹，该文件夹内存在Twitter和Foursqaure两个文件夹，两个文件夹内各有一个following.number文件，即为对应网络的连接关系。Foursquare是一家基于用户地理位置信息(LBS)的手机服务网站，是一个融合了Twitter、LBS、趣味性和商家点评等概念的新型Mobile SNS服务。表2描述了Twitter-Foursquare数据集的具体信息。

表2 Twitter-Foursquare数据集

数据集预处理：将正实例与负实例之间的比例设置为1:1，即锚链接数为1609，通过随机的方式为源网络中的每个锚节点在目标网络中选择一个非对应的节点，构成负实例。这样数据集包含的正负实例总量为3218。然后将训练集、验证集与测试集之间的比例设置为8:1:1。表3展示了数据集的具体信息。

表3正负实例数据集

(二)基准方法和实验环境设置：

使用DeepWalk和Node2vec作为网络表示学习方法，分别与NTN模型结合，得到模型NUIL_D和NUIL_N。然后选用三种基于网络结构特征的用户身份识别算法作为对比算法。

PALE(由Man,T.,Shen,H.,Liu,S.,Jin,X.,Cheng,X.:Predict anchor linksacross social networks via an embedding approach.In:The 25th InternationalJoint Conference on Artificial Intelligence.pp.1823–1829.IJCAI(2016)提出)：PALE模型应用网络表示学习(例如，DeepWalk)，将已知的锚链接作为监督信息，捕获网络的结构特征，并学习得到一个用于锚链接预测的跨社交网络的映射函数。

FRUIP(由Zhou,X.,Liang,X.,Du,X.,Zhao,X.:Structure based useridentification across social networks.IEEE Transactions on Knowledge and DataEngineering 30(6),1178–1191(2018)提出)：基于结构的跨社交网络用户身份识别(FRUIP)，首先基于网络中的朋友关系将社交网络中每个用户的朋友关系特征提取到节点特征向量中，然后计算两个社交网络之间候选用户对的相似度，并用“一对一”配对策略实现用户身份识别。

Node2vec(由Grover,A.,Leskovec,J.:node2vec:Scalable feature learningfor networks.In:The 22nd KDD.pp.855–864.ACM(2016)提出)：Node2vec是一种综合考虑深度优先搜索(DFS)邻域和广度优先搜索邻域(BFS)的图表示学习方法。Node2vec依然采用随机游走的方式获取顶点的近邻序列，不同的是Node2vec采用的是一种有偏的随机游走。在得到向量表示空间后，应用传统的多层感知机模型将用户身份识别问题转化为分类问题。

参数设置：对于本发明的NUIL模型，设置节点向量维度为64；NTN模型中的参数k为8；多层感知机模型设置两个隐藏层，神经元个数分别为32和8，输出层1维；模型训练中的learning rate为0.001，batch size设置为8，epoch设置为500。基准方法中需要的参数按照原文中实验环境进行设置。

(三)评估指标：

应用召回率(Recall rate)、准确率(Precision)和F1值(F1-measure)作为评价方法性能的指标，分别定义如下：

(四)实验结果：

模型NUIL_D和NUIL_N与基准方法在Twitter-Fousquare数据集上的准确率、召回率和F1值如表4所示。为了全面准确地分析实验结果，进行以下几组对比分析。

(1)PALE，FRUIP和Node2vec：从表4中可以看出，考虑了社交网络中朋友关系的FRUIP模型的性能要优于采用传统的基于随机游走的网络表示的PALE模型。在三种不同的基准方法中，Node2vec模型表现得最好，并且三种评价指标都达到0.6。

(2)PALE和NUIL_D：这两种模型都应用了传统的基于随机游走的网络表示，但是通过对比实验结果，我们发现应用了神经张量网络的NUIL_D模型在准确率上比PALE模型有了27％的提高。通过这组比较，可以直观地看到NTN模型在解决用户身份识别问题方面的高效性能。

(3)Node2vec，NUIL_D和NUIL_N：第一组比较表明，Node2vec在基准方法中表现最佳。NUIL_N模型在node2vec进行网络表示的基础上，应用NTN模型，在评价指标F1上比Node2vec模型提高了20％左右。尽管将基于传统随机游走的DeepWalk与NTN相结合，NUIL_D的表现依然优于Node2vec。通过横向与纵向地比较，可以发现NTN模型在解决用户身份识别问题上是十分有效的。

表4 NUIL及基准方法实验结果统计

(五)参数分析

通过上面对实验结果的分析，可以看到NUIL模型在对跨社交网络用户身份识别问题的有效性。进一步地，以NUIL_N模型为例，分析实验参数对实验结果的影响，如用于训练的锚节点比例p、节点向量维度d以及NTN结构的层数k。

(1)用于训练的锚节点比例p和节点向量维度d

将向量维度分别设置为16、32、64和128，将用于训练的锚节点比例分别设置为0.2、0.4、0.6和0.8。图4显示了评价指标F1随参数p和d的变化。总体上，随着用于训练的锚节点比例和节点向量维度的增加，NUIL_N模型的F1值逐渐增大并达到收敛。

(2)NTN结构的层数

设置NTN结构的层数分别为1、4、8、16和32，表5显示了NUIL_N在不同层数的NTN结构下的性能变化。如果将NTN层数设置为1时，NTN结构就变成了传统的线性结构。当NTN结构层数增加到4时，F1值有了8％左右的提升。当采用8层的NTN结构时，F1值有了明显的提高，并逐渐达到了收敛。

表5 F1随NTN层数k的变化

通过对比PALE与Node2vec以及Node2vec与NUIL_D两组模型，可以直观地看到，用NTN结构代替标准线性神经网络对解决跨社交网络用户身份识别问题非常有效。此外，如果结合更加高效的网络表示学习方法，可以进一步提高NUIL的性能，如NUIL_N。

NUIL模型不仅可以方便地与当前流行的网络表示学习方法相结合，而且还可以方便地与社交网络中用户的属性特征相结合，如用户的个人基本属性特征或者用户活动特征等。

像目前主流的方法一样，本发明也通过网络表示学习技术将网络结构空间映射到节点向量表示空间，从而捕获社交网络的结构特征。与传统的节点配对方法不同的是，本发明应用神经张量网络模型将节点配对问题转化为分类问题。神经张量网络使用双线性张量层代替标准线性神经网络，可以充分地对跨网络用户之间的复杂交互关系进行建模。在多个真实社交网络数据集上的实验证实了NUIL模型的有效性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。