CN112036445B - 基于神经张量网络的跨社交网络用户身份识别方法 - Google Patents

基于神经张量网络的跨社交网络用户身份识别方法 Download PDF

Info

Publication number
CN112036445B
CN112036445B CN202010780686.6A CN202010780686A CN112036445B CN 112036445 B CN112036445 B CN 112036445B CN 202010780686 A CN202010780686 A CN 202010780686A CN 112036445 B CN112036445 B CN 112036445B
Authority
CN
China
Prior art keywords
network
user
model
representation
user node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010780686.6A
Other languages
English (en)
Other versions
CN112036445A (zh
Inventor
郭晓宇
刘琰
杨春芳
赵媛
李永林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202010780686.6A priority Critical patent/CN112036445B/zh
Publication of CN112036445A publication Critical patent/CN112036445A/zh
Application granted granted Critical
Publication of CN112036445B publication Critical patent/CN112036445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于神经张量网络的跨社交网络用户身份识别方法。该方法包括:步骤1、基于Random Walks和Skip‑gram模型的网络表示学习,将源网络Gs和目标网络Gt的网络结构空间均各自映射到向量空间;步骤2、基于步骤1得到的向量空间,使用神经张量网络模型对源网络Gs和目标网络Gt中的用户节点之间的关联关系进行建模;步骤3、将步骤2中建模得到的关联关系向量输入至多层感知机模型进行二分类,根据分类结果判断源网络Gs和目标网络Gt之间的用户节点对是否指向同一个真实用户。本发明采用神经张量网络模型替换了标准的神经网络模型,该模型具有更强的表达跨网络用户之间关系的能力,可以在多个维度上关联两个用户向量。

Description

基于神经张量网络的跨社交网络用户身份识别方法
技术领域
本发明涉及身份识别技术领域,尤其涉及一种基于神经张量网络的跨社交网络用户身份识别方法。
背景技术
随着互联网的快速发展和移动设备的逐渐普及,在线社交网络已经变得越来越流行,这给人们之间的交流带来了极大的便利。不同的社交网络提供不同类型的服务,人们通常根据工作与生活的需要加入到不同的社交网络中。每个用户通常在不同的社交网络中拥有账户,但是属于同一个人的账户之间往往是相互隔离的,彼此之间几乎没有联系。跨社交网络用户身份识别问题的典型目标是检测来自不同社交网络的账户是否属于现实世界中的同一个自然人,也称为账户关联、锚链接预测和网络对齐。
用户身份识别问题在社交网络分析中起着重要作用。它是许多有趣的互联网应用之间的关键先决条件,实现了从单一网络分析向多个网络分析的跳跃,例如用户行为预测、跨平台好友推荐和跨网络信息传播。
早期的研究通常利用用户自身的属性特征和统计特征将属于同一用户的账户关联在一起。例如,Goga等人(Goga,O.,Lei,H.,Parthasarathi,S.,Friedland,G.,Sommer,R.,Teixeira,R.:Exploiting innocuous activity for correlating users acrosssites.In:The 22nd International Conference on World Wide Web.pp.447–458.WWW(2013))利用从用户帖子中提取的地理位置、时间戳以及语言等特征识别用户多重身份。Zafarani等人(Zafarani,R.,Liu,H.:Connecting users across social media sites:Abehavioral-modeling approach.In:The 19th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining.pp.41-49.ACM(2013))应用社会学和心理学的理论建模用户行为模式特征,通过计算行为模式特征的相似性将同一用户的账户关联在一起。然而由于隐私意识的增强,许多用户在不同的社交网络中登记不同的信息或者虚假信息,并且社交网络中的用户属性信息随时可能被更改;此外,不能保证用户信息的丰富性,不同社交网络的用户属性信息存在较大的差异,存在不平衡的现象。
与用户属性信息相比,网络结构特征也可以直接用于解决用户身份识别问题,并且社交网络用户之间的连接关系是相对可靠且丰富的。于是基于网络结构的用户身份识别问题受到越来越多的关注。随着网络表示学习技术的发展,许多用户身份识别算法利用网络表示学习代替传统的特征工程,将社交网络结构特征保存到低维向量空间,不仅降低了算法的复杂度,而且提高了用户身份识别的准确度。Zhang等人(Zhang,Y.,Tang,J.,Yang,Z.,Pei,J.,Yu,P.:Cosnet:Connecting heterogeneous social networks with localand global consistency.In:The 21st ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.pp.1485–1494.ACM(2015))提出了COSNET方法,考虑局部和全局一致性,采用基于能量的模型将用户身份识别问题转化为最优化问题进行求解,并通过次梯度算法进行训练得到最优解,实现多个社交网络之间用户身份的识别。Liu等人(Liu,L.,Cheung,W.,Li,X.,Liao,L.:Aligning users across social networksusing network embedding.In:The 25th International Joint Conference onArtificial Intelligence.pp.1774–1780.IJCAI(2016))提出了一种针对有向图的IONE模型,利用用户的关注关系和被关注关系对节点进行表示,然后根据余弦相似性识别数同一用户的多重身份。
然而,上述的用户身份识别算法通常使用线性模型或者标准神经网络层衡量跨社交网络用户之间的相似性。但是跨网络用户之间的关系非常复杂,传统的线性模型几乎无法对它们之间的隐含关系进行建模。
发明内容
针对现有的用户身份识别算法通常使用线性模型或者标准神经网络层衡量跨社交网络用户之间的相似性而几乎无法对它们之间的隐含关系进行建模的问题,本发明提供一种基于神经张量网络的跨社交网络用户身份识别方法。
本发明提供的一种基于神经张量网络的跨社交网络用户身份识别方法,包括:
步骤1、基于Random Walks和Skip-gram模型的网络表示学习,将源网络Gs和目标网络Gt的网络结构空间均各自映射到向量空间;所述源网络Gs和目标网络Gt属于两种不同类型的社交网络;
步骤2、基于步骤1得到的向量空间,使用神经张量网络模型对源网络Gs和目标网络Gt中的用户节点之间的关联关系进行建模;
步骤3、将步骤2中建模得到的关联关系向量输入至多层感知机模型进行二分类,根据分类结果判断源网络Gs和目标网络Gt之间的用户节点对是否指向同一个真实用户。
进一步地,步骤1包括:
步骤1.1:针对源网络Gs和目标网络Gt,均通过多轮随机游走为网络中的每个用户节点产生多个序列,所述序列用于指示用户节点之间的社交关系;
步骤1.2:针对每个用户节点,使用Skip-gram模型生成所述用户节点的向量表示。
进一步地,步骤1.2包括:
通过式(2)最大化对数概率:
Figure BDA0002620063550000031
其中,w表示滑动窗口的大小,
Figure BDA0002620063550000032
为节点序列,L表示节点序列的长度;条件概率p(vt+j|vt)表示给定用户节点vt的条件下,其第j跳邻居节点vt+j出现的概率;
采用负采样的方式近似表示,将(2)式转化为:
Figure BDA0002620063550000033
其中,ui和u′i分别表示用户节点vi的输入和输出向量;K表示负样例数目;每个用户节点被抽样的概率服从分布
Figure BDA0002620063550000034
为用户节点vi的度;
使用随机梯度下降算法进行训练得到每个用户节点的向量表示。
进一步地,步骤2包括:
对于任意一个用户节点对
Figure BDA0002620063550000035
使用神经张量网络模型按照公式(6)对它们之间的关系进行建模:
Figure BDA0002620063550000036
其中,
Figure BDA0002620063550000037
表示对两个列向量的连接操作;f是一个非线性应用单元,NTN表示神经张量网络,/>
Figure BDA0002620063550000041
表示张量层的参数,/>
Figure BDA0002620063550000042
和/>
Figure BDA0002620063550000043
表示标准神经网络层的参数,/>
Figure BDA0002620063550000044
表示用户节点对/>
Figure BDA0002620063550000045
之间的关联关系向量,/>
Figure BDA0002620063550000046
表示/>
Figure BDA0002620063550000047
的向量表示,
Figure BDA0002620063550000048
表示/>
Figure BDA0002620063550000049
的向量表示。
进一步地,所述步骤3包括:
对于任意一个用户节点对
Figure BDA00026200635500000410
将/>
Figure BDA00026200635500000411
输入到多层感知机模型,输出预测标签plabel,实现二分类:
Figure BDA00026200635500000412
Figure BDA00026200635500000413
其中,glabel表示真实标签;
Figure BDA00026200635500000414
时,表示/>
Figure BDA00026200635500000415
和/>
Figure BDA00026200635500000416
指向同一个真实用户;MLP多层感知机。
进一步地,利用交叉熵构造得到整个方法的损失函数:
Figure BDA00026200635500000417
其中,
Figure BDA00026200635500000418
表示用于训练的用户节点对的集合,/>
Figure BDA00026200635500000419
表示/>
Figure BDA00026200635500000420
中用户节点对的真实标签,Ω为模型中参数的集合,包括神经张量网络模型的参数W、V、b,以及多层感知机模型中的参数WMLP、bMLP;glabel为/>
Figure BDA00026200635500000421
的简写,plabel为/>
Figure BDA00026200635500000422
的简写。
本发明的有益效果:
1、本发明提供的基于神经张量网络的跨社交网络用户身份识别方法应用RandomWalks和Skip-gram模型将网络结构空间映射到低维向量空间中,从而可以学习节点的有效向量表示;
2、本发明提供的基于神经张量网络的跨社交网络用户身份识别方法采用神经张量网络模型替换了标准的神经网络模型,该模型具有更强的表达跨网络用户之间关系的能力,可以在多个维度上关联两个用户向量。
3、根据在真实社交网络数据集上的一系列实验结果,与最新的方法相比,本发明提供的基于神经张量网络的跨社交网络用户身份识别方法在准确率、召回率和综合评价指标上都有了显著的提高,特别是综合评价指标F1值超过0.7,有了超过20%的提升。
附图说明
图1为本发明实施例提供的跨社交网络用户身份识别问题的示意图;
图2为本发明实施例提供的基于神经张量网络的跨社交网络用户身份识别方法的整体框架图;
图3为本发明实施例提供的神经张量网络的结构示意图;
图4为本发明实施例提供的评估指标F1随参数和的变化示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的研究对象是无向无权图,将社交网络表示为G=(V,E),其中V是社交网络中用户节点的集合,E是社交网络中用户连接关系的集合。跨多个社交网络之间的用户识别均可以转化为跨两个社交网络之间的用户识别,因此本发明各实施例中以两个社交网络为例,用Gs=(Vs,Es)表示源网络,用Gt=(Vt,Et)表示目标网络。
本发明各实施例中,小写粗体字母代表向量,大写粗体字母代表矩阵。以源网络Gs为例,表1总结了本发明中的符号表示,目标网络Gt的表示类似。
表1符号表示
Figure BDA0002620063550000051
Figure BDA0002620063550000061
为了后面讨论中描述的方便,本发明中给出以下专业术语的释义,并在图1给出了示例。
用户和账户:用户是社交网络应用的使用者参与者,其对应于现实世界中的个人实体;账户是用户在使用社交网络应用时用于表示身份的载体。
锚链接:对于一个链接
Figure BDA0002620063550000062
其中/>
Figure BDA0002620063550000063
如果/>
Figure BDA0002620063550000064
和/>
Figure BDA0002620063550000065
分别表示同一个用户在两个社交网络中的账户,那么链接/>
Figure BDA0002620063550000066
是一个锚链接。例如图1中(A,a),(B,b),(C,c)为锚链接。/>
锚用户(也称锚节点):同时参与两个社交网络的用户被定义为锚用户(或者锚节点),而其他用户则是非锚用户(非锚节点)。例如图1中,A与a为一对锚用户,B与b为一对锚用户,C与c为一对锚用户。
在实际的社交网络环境下,有些用户在同一社交网络中拥有多个账户,但是经常假设这些账户是独立的并且属于不同的个人。因此后面的讨论中不再详细地区分用户、账户与节点的概念。
实施例1
如图2所示,本发明实施例提供一种基于神经张量网络的跨社交网络用户身份识别方法,包括以下步骤:
S101、基于Random Walks和Skip-gram模型的网络表示学习,将源网络Gs和目标网络Gt的网络结构空间均各自映射到向量空间;所述源网络Gs和目标网络Gt属于两种不同类型的社交网络;
S102、基于步骤S101得到的向量空间,使用神经张量网络模型对源网络Gs和目标网络Gt中的用户节点之间的关联关系进行建模;
S103、将步骤S102中建模得到的关联关系向量输入至多层感知机模型进行二分类,根据分类结果判断源网络Gs和目标网络Gt之间的用户节点对是否指向同一个真实用户。
本发明实施例通过先对两个社交网络进行网络表示学习,将网络结构空间转化为向量空间,进而基于向量空间采用神经张量网络模型进行建模,最后将建模得到的向量作为多层感知机模型的输入,最终将跨网络用户身份识别问题转化为二分类问题,即判断跨网络的用户节点对是否指向自然界中的同一个真实用户,可以形式化地定义如下:
Figure BDA0002620063550000071
其中
Figure BDA0002620063550000072
时表明/>
Figure BDA0002620063550000073
和/>
Figure BDA0002620063550000074
属于同一个真实自然人。
相比于现有的研究通常采用网络表示学习将社交网络结构空间映射到低维向量空间,然后利用标准的神经网络层(通过线性模型表达跨网络用户之间关系的能力十分有限)将用户身份识别问题转换为分类问题,本发明实施例通过采用神经张量网络模型进行建模,可以更好地获取跨网络用户之间的高阶复杂关系,以便得到的分类结果更为准确。
实施例2
在上述实施例的基础上,本发明实施例提供又一种基于神经张量网络的跨社交网络用户身份识别方法,包括以下步骤:
S201、基于Random Walks和Skip-gram模型的网络表示学习,将源网络Gs和目标网络Gt的网络结构空间均各自映射到向量空间:
具体地,本步骤包括两个阶段:网络结构抽样和网络表示。其中:
网络结构抽样具体为:首先,针对源网络Gs和目标网络Gt,均通过多轮随机游走为网络中的每个用户节点产生多个序列,所述序列用于指示用户节点之间的社交关系;这些序列可以被称为“语料库”,用来学习用户节点的向量表示。
例如,以源网络中节点为例,从一个用户节点
Figure BDA0002620063550000075
出发,然后随机选择一条边(其中一个节点为/>
Figure BDA0002620063550000076
),直到达到设定的长度L。将产生的序列记为/>
Figure BDA0002620063550000077
其中r表示抽样的轮数。通过随机游走进行抽样,可以提取隐藏的结构化社交信息,例如友谊关系,社区关系。
网络表示具体为:在得到“语料库”之后,使用Skip-gram模型生成每个用户节点的向量表示。即定义节点序列为
Figure BDA0002620063550000078
通过式(2)最大化对数概率:
Figure BDA0002620063550000079
其中,w表示滑动窗口的大小,L表示节点序列的长度。
条件概率p(vt+j|vt)通过Softmax函数定义,表示给定用户vt的条件下,其第j跳邻居节点vt+j出现的概率:
Figure BDA0002620063550000081
其中,ui和u′i分别表示用户vi的输入和输出向量。
但是对于大规模网络,
Figure BDA0002620063550000082
的计算是昂贵的,因此本发明实施例采用负采样的方式近似表示,将(2)式转化为:
Figure BDA0002620063550000083
其中,K表示负样例数目;按照经验,每个节点被抽样的概率服从分布
Figure BDA0002620063550000084
Figure BDA0002620063550000085
为节点vi的度。
通过最大化目标函数(4)近似地表示目标函数(2),使用随机梯度下降算法进行训练得到每个节点vi的向量表示。
按照上述过程分别在源网络Gs和目标网络Gt上应用网络表示学习,得到对应的向量空间Us和Ut
S202、基于步骤S201得到的向量空间Us和Ut,使用神经张量网络模型对源网络Gs和目标网络Gt中的用户节点之间的关联关系进行建模:
具体地,神经张量网络(NTN)用双线性张量层代替了标准线性神经网络层,该双线性张量层从多个维度将两个实体向量相关联。本发明实施例中采用的神经张量网络的架构如图3所示。
给定两个实体,通过d维向量表示为(e1,e2),NTN模型的目标就是预测它们之间是否存在关系R。传统应用中,NTN通过下面的函数计算这两个实体存在关系R的可能性:
Figure BDA0002620063550000086
其中,
Figure BDA0002620063550000087
为两个实体的向量表示,/>
Figure BDA0002620063550000088
是一个张量,双线性张量积/>
Figure BDA0002620063550000089
产生一个k维向量/>
Figure BDA00026200635500000810
其中/>
Figure BDA00026200635500000811
其余部分是单层神经网络的标准形式/>
Figure BDA0002620063550000091
和/>
Figure BDA0002620063550000092
将张量层的输出转化为标量,表示在特定关系R下这对实体的相关性系数。/>
张量层训练一个高阶张量作为输入相乘之间的权重;与标准神经网络相比,双线性张量积可以从更高的维度挖掘实体之间的关系,它具有更强的表达输入之间关系的能力。
基于上述的NTN模型,本发明实施例对其进行了改进,对于任意一对用户节点
Figure BDA0002620063550000093
按照公式(6)对它们之间的关系进行建模:
Figure BDA0002620063550000094
其中
Figure BDA0002620063550000095
表示对两个列向量的连接操作;f是一个非线性应用单元,如tanh函数,NTN表示神经张量网络,/>
Figure BDA0002620063550000096
表示张量层的参数,/>
Figure BDA0002620063550000097
和/>
Figure BDA0002620063550000098
Figure BDA0002620063550000099
表示标准神经网络层的参数,/>
Figure BDA00026200635500000910
表示用户节点对/>
Figure BDA00026200635500000911
之间的关联关系向量,/>
Figure BDA00026200635500000912
表示/>
Figure BDA00026200635500000913
的向量表示,/>
Figure BDA00026200635500000914
表示/>
Figure BDA00026200635500000915
的向量表示。
通过公式(6)给出的NTN模型,本步骤将节点对
Figure BDA00026200635500000916
之间的关系表示为
Figure BDA00026200635500000917
本发明实施例改进的NTN模型与原始的NTN模型的不同之处在于,在得到向量之后,本发明实施例并不应用将其转换为标量,而是将其作为多层感知机模型的输入,执行步骤S203。
S203:将步骤S202中建模得到的关联关系向量输入至多层感知机模型进行二分类,根据分类结果判断源网络Gs和目标网络Gt之间的用户节点对是否指向同一个真实用户:
具体地,多层感知机(Multilayer Perceptron,MLP),也叫人工神经网络,除了输入输出层,它中间可以有多个隐藏层,层与层之间是全连接的。除了输入层,每个节点都是一个带有非线性激活函数的神经元。
本发明实施例中应用多层感知机将跨社交网络的节点配对问题转化为分类问题。具体来说,对任意一对用户节点
Figure BDA00026200635500000918
真实标签为glabel,通过改进的NTN模型将两者之间的复杂交互关系建模为向量/>
Figure BDA00026200635500000919
然后将其输入到MLP模型,输出预测标签plabel,实现二分类:
Figure BDA00026200635500000920
Figure BDA0002620063550000101
因此结合公式(6)(7)(8),利用交叉熵构造出整个模型的损失函数如下:
Figure BDA0002620063550000102
其中,
Figure BDA0002620063550000103
表示用于模型训练的用户节点对的集合,/>
Figure BDA0002620063550000104
表示/>
Figure BDA0002620063550000105
中节点对的真实标签,Ω为模型中参数的集合,包括神经张量网络模型的参数W、V、b,以及多层感知机模型中的参数WMLP、bMLP,即Ω={W,V,b,WMLP,bMLP}。公式中分别将/>
Figure BDA0002620063550000106
和/>
Figure BDA0002620063550000107
简写为glabel和plabel。/>
基于实施例2所述的方法,假设已知锚节点对的集合为,按照1:的正负样本比例构造用户节点对
Figure BDA0002620063550000108
应用反向传播算法和随机梯度下降算法,以监督的方式进行训练可以得到基于神经张量网络的跨社交网络用户身份识别模型(下称NUIL模型)。
为了验证本发明提供的基于神经张量网络的跨社交网络用户身份识别方法的有效性,下面将NUIL模型在由两个真实社交网络构成的数据集上进行实验,并与当前最先进的方法进行对比。
(一)数据集:
该数据集由Foursquare和Twitter两个真实的社交网络组成;该数据集可以从https://github.com/ColaLL/IONE处下载,进入该网站后,点击“AcrossNetworkEmbeddingData”文件夹,该文件夹内存在Twitter和Foursqaure两个文件夹,两个文件夹内各有一个following.number文件,即为对应网络的连接关系。Foursquare是一家基于用户地理位置信息(LBS)的手机服务网站,是一个融合了Twitter、LBS、趣味性和商家点评等概念的新型Mobile SNS服务。表2描述了Twitter-Foursquare数据集的具体信息。
表2 Twitter-Foursquare数据集
Figure BDA0002620063550000109
数据集预处理:将正实例与负实例之间的比例设置为1:1,即锚链接数为1609,通过随机的方式为源网络中的每个锚节点在目标网络中选择一个非对应的节点,构成负实例。这样数据集包含的正负实例总量为3218。然后将训练集、验证集与测试集之间的比例设置为8:1:1。表3展示了数据集的具体信息。
表3正负实例数据集
Figure BDA0002620063550000111
(二)基准方法和实验环境设置:
使用DeepWalk和Node2vec作为网络表示学习方法,分别与NTN模型结合,得到模型NUIL_D和NUIL_N。然后选用三种基于网络结构特征的用户身份识别算法作为对比算法。
PALE(由Man,T.,Shen,H.,Liu,S.,Jin,X.,Cheng,X.:Predict anchor linksacross social networks via an embedding approach.In:The 25th InternationalJoint Conference on Artificial Intelligence.pp.1823–1829.IJCAI(2016)提出):PALE模型应用网络表示学习(例如,DeepWalk),将已知的锚链接作为监督信息,捕获网络的结构特征,并学习得到一个用于锚链接预测的跨社交网络的映射函数。
FRUIP(由Zhou,X.,Liang,X.,Du,X.,Zhao,X.:Structure based useridentification across social networks.IEEE Transactions on Knowledge and DataEngineering 30(6),1178–1191(2018)提出):基于结构的跨社交网络用户身份识别(FRUIP),首先基于网络中的朋友关系将社交网络中每个用户的朋友关系特征提取到节点特征向量中,然后计算两个社交网络之间候选用户对的相似度,并用“一对一”配对策略实现用户身份识别。
Node2vec(由Grover,A.,Leskovec,J.:node2vec:Scalable feature learningfor networks.In:The 22nd KDD.pp.855–864.ACM(2016)提出):Node2vec是一种综合考虑深度优先搜索(DFS)邻域和广度优先搜索邻域(BFS)的图表示学习方法。Node2vec依然采用随机游走的方式获取顶点的近邻序列,不同的是Node2vec采用的是一种有偏的随机游走。在得到向量表示空间后,应用传统的多层感知机模型将用户身份识别问题转化为分类问题。
参数设置:对于本发明的NUIL模型,设置节点向量维度为64;NTN模型中的参数k为8;多层感知机模型设置两个隐藏层,神经元个数分别为32和8,输出层1维;模型训练中的learning rate为0.001,batch size设置为8,epoch设置为500。基准方法中需要的参数按照原文中实验环境进行设置。
(三)评估指标:
应用召回率(Recall rate)、准确率(Precision)和F1值(F1-measure)作为评价方法性能的指标,分别定义如下:
Figure BDA0002620063550000121
Figure BDA0002620063550000122
Figure BDA0002620063550000123
其中|CorrKinks|表示实验结果中找到的真实的锚链接的数量;|RealAnchorLinks|表示所有已知的锚链接数量;|ResultLinks|表示实验结果中锚链接的数量。
(四)实验结果:
模型NUIL_D和NUIL_N与基准方法在Twitter-Fousquare数据集上的准确率、召回率和F1值如表4所示。为了全面准确地分析实验结果,进行以下几组对比分析。
(1)PALE,FRUIP和Node2vec:从表4中可以看出,考虑了社交网络中朋友关系的FRUIP模型的性能要优于采用传统的基于随机游走的网络表示的PALE模型。在三种不同的基准方法中,Node2vec模型表现得最好,并且三种评价指标都达到0.6。
(2)PALE和NUIL_D:这两种模型都应用了传统的基于随机游走的网络表示,但是通过对比实验结果,我们发现应用了神经张量网络的NUIL_D模型在准确率上比PALE模型有了27%的提高。通过这组比较,可以直观地看到NTN模型在解决用户身份识别问题方面的高效性能。
(3)Node2vec,NUIL_D和NUIL_N:第一组比较表明,Node2vec在基准方法中表现最佳。NUIL_N模型在node2vec进行网络表示的基础上,应用NTN模型,在评价指标F1上比Node2vec模型提高了20%左右。尽管将基于传统随机游走的DeepWalk与NTN相结合,NUIL_D的表现依然优于Node2vec。通过横向与纵向地比较,可以发现NTN模型在解决用户身份识别问题上是十分有效的。
表4 NUIL及基准方法实验结果统计
Figure BDA0002620063550000131
(五)参数分析
通过上面对实验结果的分析,可以看到NUIL模型在对跨社交网络用户身份识别问题的有效性。进一步地,以NUIL_N模型为例,分析实验参数对实验结果的影响,如用于训练的锚节点比例p、节点向量维度d以及NTN结构的层数k。
(1)用于训练的锚节点比例p和节点向量维度d
将向量维度分别设置为16、32、64和128,将用于训练的锚节点比例分别设置为0.2、0.4、0.6和0.8。图4显示了评价指标F1随参数p和d的变化。总体上,随着用于训练的锚节点比例和节点向量维度的增加,NUIL_N模型的F1值逐渐增大并达到收敛。
(2)NTN结构的层数
设置NTN结构的层数分别为1、4、8、16和32,表5显示了NUIL_N在不同层数的NTN结构下的性能变化。如果将NTN层数设置为1时,NTN结构就变成了传统的线性结构。当NTN结构层数增加到4时,F1值有了8%左右的提升。当采用8层的NTN结构时,F1值有了明显的提高,并逐渐达到了收敛。
表5 F1随NTN层数k的变化
Figure BDA0002620063550000132
通过对比PALE与Node2vec以及Node2vec与NUIL_D两组模型,可以直观地看到,用NTN结构代替标准线性神经网络对解决跨社交网络用户身份识别问题非常有效。此外,如果结合更加高效的网络表示学习方法,可以进一步提高NUIL的性能,如NUIL_N。
NUIL模型不仅可以方便地与当前流行的网络表示学习方法相结合,而且还可以方便地与社交网络中用户的属性特征相结合,如用户的个人基本属性特征或者用户活动特征等。
像目前主流的方法一样,本发明也通过网络表示学习技术将网络结构空间映射到节点向量表示空间,从而捕获社交网络的结构特征。与传统的节点配对方法不同的是,本发明应用神经张量网络模型将节点配对问题转化为分类问题。神经张量网络使用双线性张量层代替标准线性神经网络,可以充分地对跨网络用户之间的复杂交互关系进行建模。在多个真实社交网络数据集上的实验证实了NUIL模型的有效性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (3)

1.基于神经张量网络的跨社交网络用户身份识别方法,其特征在于,包括:
步骤1、基于Random Walks和Skip-gram模型的网络表示学习,将源网络Gs和目标网络Gt的网络结构空间均各自映射到向量空间;所述源网络Gs和目标网络Gt属于两种不同类型的社交网络;步骤1包括:
步骤1.1:针对源网络Gs和目标网络Gt,均通过多轮随机游走为网络中的每个用户节点产生多个序列,所述序列用于指示用户节点之间的社交关系;
步骤1.2:针对每个用户节点,使用Skip-gram模型生成所述用户节点的向量表示;步骤1.2包括:
通过式(2)最大化对数概率:
Figure FDA0004136926240000011
其中,w表示滑动窗口的大小,
Figure FDA0004136926240000019
为节点序列,L表示节点序列的长度;条件概率p(vt+j|vt)表示给定用户节点vt的条件下,其第j跳邻居节点vt+j出现的概率;
采用负采样的方式近似表示,将(2)式转化为:
Figure FDA0004136926240000012
其中,ui和u′i分别表示用户节点vi的输入和输出向量;K表示负样例数目;每个用户节点被抽样的概率服从分布
Figure FDA0004136926240000013
Figure FDA00041369262400000110
为用户节点vi的度;
使用随机梯度下降算法进行训练得到每个用户节点的向量表示;
步骤2、基于步骤1得到的向量空间,使用神经张量网络模型对源网络Gs和目标网络Gt中的用户节点之间的关联关系进行建模;步骤2包括:对于任意一个用户节点对
Figure FDA0004136926240000014
使用神经张量网络模型按照公式(6)对它们之间的关系进行建模:
Figure FDA0004136926240000015
其中,
Figure FDA00041369262400000111
表示对两个列向量的连接操作;f是一个非线性应用单元,NTN表示神经张量网络,/>
Figure FDA0004136926240000016
表示张量层的参数,/>
Figure FDA0004136926240000017
和/>
Figure FDA0004136926240000018
表示标准神经网络层的参数,
Figure FDA0004136926240000021
表示用户节点对/>
Figure FDA0004136926240000022
之间的关联关系向量,/>
Figure FDA0004136926240000023
表示/>
Figure FDA0004136926240000024
的向量表示,/>
Figure FDA0004136926240000025
表示/>
Figure FDA0004136926240000026
的向量表示;
步骤3、将步骤2中建模得到的关联关系向量输入至多层感知机模型进行二分类,根据分类结果判断源网络Gs和目标网络Gt之间的用户节点对是否指向同一个真实用户。
2.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
对于任意一个用户节点对
Figure FDA0004136926240000027
将/>
Figure FDA0004136926240000028
输入到多层感知机模型,输出预测标签plabel,实现二分类:
Figure FDA0004136926240000029
/>
Figure FDA00041369262400000210
其中,glabel表示真实标签;
Figure FDA00041369262400000211
时,表示/>
Figure FDA00041369262400000212
和/>
Figure FDA00041369262400000213
指向同一个真实用户;MLP多层感知机。
3.根据权利要求2所述的方法,其特征在于,利用交叉熵构造得到整个方法的损失函数:
Figure FDA00041369262400000214
其中,
Figure FDA00041369262400000215
表示用于训练的用户节点对的集合,/>
Figure FDA00041369262400000216
表示/>
Figure FDA00041369262400000217
中用户节点对的真实标签,Ω为模型中参数的集合,包括神经张量网络模型的参数W、V、b,以及多层感知机模型中的参数WMLP、bMLP;glabel为/>
Figure FDA00041369262400000218
的简写,plabel为/>
Figure FDA00041369262400000219
的简写。/>
CN202010780686.6A 2020-08-06 2020-08-06 基于神经张量网络的跨社交网络用户身份识别方法 Active CN112036445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010780686.6A CN112036445B (zh) 2020-08-06 2020-08-06 基于神经张量网络的跨社交网络用户身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010780686.6A CN112036445B (zh) 2020-08-06 2020-08-06 基于神经张量网络的跨社交网络用户身份识别方法

Publications (2)

Publication Number Publication Date
CN112036445A CN112036445A (zh) 2020-12-04
CN112036445B true CN112036445B (zh) 2023-05-26

Family

ID=73582456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010780686.6A Active CN112036445B (zh) 2020-08-06 2020-08-06 基于神经张量网络的跨社交网络用户身份识别方法

Country Status (1)

Country Link
CN (1) CN112036445B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507312B (zh) * 2020-12-08 2022-10-14 电子科技大学 在深度学习系统中基于数字指纹的验证与追踪方法
CN112800468B (zh) * 2021-02-18 2022-04-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN113127752B (zh) * 2021-03-18 2023-04-07 中国人民解放军战略支援部队信息工程大学 基于用户命名习惯映射学习的社交网络账号对齐方法及系统
CN112765491B (zh) * 2021-04-07 2021-06-22 中国人民解放军国防科技大学 考虑节点局域链接紧密度的链路预测方法和装置
CN113822419B (zh) * 2021-09-26 2023-08-01 广东技术师范大学 一种基于结构信息的自监督图表示学习运行方法
CN114640449B (zh) * 2022-03-29 2024-05-28 北京神州数码云科信息技术有限公司 一种多用户的高维量子隐私块查询方法
CN116091260B (zh) * 2023-04-07 2023-07-25 吕梁学院 一种基于Hub-node节点的跨域实体身份关联方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106996A1 (de) * 2018-03-26 2019-09-26 Nvidia Corporation Darstellen eines neuronalen netzwerks unter verwendung von pfaden innerhalb des netzwerks zum verbessern der leistung des neuronalen netzwerks
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN111476673A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于神经网络的社交网络间用户对齐的方法、装置、介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019106996A1 (de) * 2018-03-26 2019-09-26 Nvidia Corporation Darstellen eines neuronalen netzwerks unter verwendung von pfaden innerhalb des netzwerks zum verbessern der leistung des neuronalen netzwerks
CN110532436A (zh) * 2019-07-17 2019-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
CN111476673A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于神经网络的社交网络间用户对齐的方法、装置、介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Class-aware tensor factorization for multi-relational classification;GeorgiosKatsimpras等;《Information Processing & Management》;20200331;第57卷(第02期);全文 *
基于网络表征学习的异构社交网络对齐研究;王宁;《中国优秀硕士学位论文全文数据库信息科技辑》;20181015(第10期);全文 *
社交网络间用户身份识别算法研究;李思琦;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415(第04期);全文 *

Also Published As

Publication number Publication date
CN112036445A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112036445B (zh) 基于神经张量网络的跨社交网络用户身份识别方法
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN113095948B (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN110147911B (zh) 一种基于内容感知的社交影响力预测模型及预测方法
Nuñez-Gonzalez et al. Reputation features for trust prediction in social networks
Zhou et al. Prre: Personalized relation ranking embedding for attributed networks
CN112884045B (zh) 基于多视角的随机删边嵌入模型的分类方法
CN113434782B (zh) 基于联合嵌入学习模型的跨社交网络用户身份识别方法
Xiao et al. Link prediction based on feature representation and fusion
Chen et al. An ensemble model for link prediction based on graph embedding
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN116401380B (zh) 面向异构知识图谱的对比学习预测方法及系统
Wang et al. A novel dual-graph convolutional network based web service classification framework
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
Zhang et al. Multiview graph restricted Boltzmann machines
Yuan et al. User naming conventions mapping learning for social network alignment
Lu et al. Social network alignment: a bi-layer graph attention neural networks based method
Ma et al. Friend closeness based user matching cross social networks
Guo et al. User identity linkage across social networks via community preserving network embedding
Han et al. An effective heterogeneous information network representation learning framework
CN113962748A (zh) 基于元路径的全貌信息表示异质电商平台用户对齐方法
Cheng et al. Community detection based on directed weighted signed graph convolutional networks
Qin et al. A two-stagse approach for social identity linkage based on an enhanced weighted graph model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant