CN112836139A

CN112836139A - 融合用户特征和嵌入学习的跨社交网络用户身份关联方法

Info

Publication number: CN112836139A
Application number: CN202110148895.3A
Authority: CN
Inventors: 王李冬; 安康; 张慧熙; 胡克用; 叶霞; 刘军
Original assignee: Qianjiang College of Hangzhou Normal University
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-25
Anticipated expiration: 2041-02-03
Also published as: CN112836139B

Abstract

本发明公开一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。本发明针对每一个种子用户对根据网络的拓扑结构选出候选用户对；然后获取每个用户的结构嵌入向量，将多层感知机模型作为映射函数；在候选用户对集合中对多种属性通过计算得到属性匹配度；再计算SMN^A用户在MLP上的映射向量与SMN^B用户的嵌入向量之间的欧式距离作为朋友匹配度；最后，综合属性匹配度和朋友匹配度，在候选配对用户对中选择匹配分值最大的用户对作为匹配用户对，并将新的配对用户对作为种子用户对迭代运行。本发明可以根据少量标注的用户对数据，找出特定的跨社交网络范围内的所有可能的关联用户对，对商业上的跨社交网络的应用起着至关重要的作用。

Description

融合用户特征和嵌入学习的跨社交网络用户身份关联方法

技术领域

本发明涉及社交网络的用户关系挖掘领域。尤其是涉及一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。

背景技术

自媒体时代越来越多的用户开始习惯在社交网络(Social Media Network，SMN)上实现日常的互动和信息的获取。现今，社交网络个数已达上百个，且种类繁多，典型的如校园类的人人网、开心网，学习类的知乎网等，综合类的如MySpace、Twitter和Facebook等。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的帐号是较普遍的情况。用户可以在Foursquare上用手机与别人分享地理位置信息进行交流，也可以在MySpace上交友、分享个人信息并进行即时通讯。每个用户若在不同的社交网络注册，将在不同的社交网站包含其个人信息(如年龄，工作单位，毕业院校等等)，以及发表的文本内容，发布的视频、图像等多媒体信息，以及在自己感兴趣内容下的评论、转发等。对这些信息进行整合、分析，将构成用户完整的个人画像。

现有的社交网络与社交网络之间由于功能不同，因此往往是相互独立的，而且针对同一用户在不同网络上的注册信息缺乏有效的管理平台进行统一管理。为了分析某用户甚至群体用户在社交网络上的行为，获取用户的完整图像(profile)，需要整合用户在不同社交网络上的数据，其突破口在于跨社交平台的用户身份匹配，即识别用户在多个社交网络上的帐号。跨社交平台的身份匹配对商业上的信息服务推送、好友推荐以及网络安全治理有极其重要的意义。

同一用户在不同社交网络注册时往往会填报相同或相似的属性信息，如相同的用户名，相同的性别、生日等信息。这些信息为跨社交网络的身份匹配提供了一定的表面特征条件。但是，表面特征信息往往存在稀疏性、内容缺失以及部分属性与事实不符等特征，因此单纯依靠表征特征会提升匹配的错误率。此外，现阶段的社交网络都具备大数据特点，现有的监督式学习方法往往需要大量的标注数据集，而庞大的标注数据集在现有的条件下很难获取，这就需要用小部分的标注数据集进行训练。

发明内容

本发明的目的是克服现有技术的不足，提供一种融合用户特征和嵌入学习的跨社交网络用户身份关联方法。

本发明所采用的技术方案包括以下步骤：

步骤1.给定社交网络SMN_A和社交网络SMN_B，并通过人工标注获取少量种子用户对集合MP_prior；

步骤2.利用用户的连接关系使用网络嵌入方法学习得到社交网络SMN_A和社交网络SMN_B中每个节点的结构嵌入向量，利用种子用户对集合MP_prior训练多层感知机模型，作为两个社交网络间节点的结构嵌入向量空间的映射函数；

步骤3.从种子用户对集合MP_prior中随机选取一对种子用户c，利用该对种子用户c从两个社交网络中选取候选配对用户对集合；

步骤4.针对候选配对用户对集合中的每对候选配对用户对，利用用户名、毕业院校和地理位置以及个人简介的特征，通过Levenshtein距离和简单字符串匹配得到候选配对用户对的用户属性匹配度；

步骤5.针对候选配对用户对集合中的每对候选配对用户对，根据训练好的多层感知机模型，将社交网络SMN_A用户的嵌入特征空间映射到社交网络SMN_B用户的嵌入特征空间，再计算社交网络SMN_A用户的映射向量与社交网络SMN^B用户的嵌入向量之间的欧式距离作为两用户的朋友匹配度；

步骤6.利用用户属性匹配度和朋友匹配度的匹配准则得到匹配用户对，并将匹配用户对加入到匹配用户对集合MP中；

步骤7.将步骤3中选取的一对种子用户c从种子用户对集合MP_prior中删除，并将匹配用户对加入种子用户对集合MP_prior，返回步骤3，直到种子用户对集合MP_prior为空。

进一步，所述的步骤1具体实现如下：

1-1.给定的社交网络SMN_A和社交网络SMN_B，分别表示为SMN_A＝{U_A,E_A}，SMN_B＝{U_B,E_B}；U_A表示社交网络SMN_A的用户实体集合，E_A为社交网络SMN_A的用户关系，U_B表示社交网络SMN_B的用户实体集合，E_B为社交网络SMN_B的用户关系，U_Ai代表用户实体集合U_A中的第i个用户，U_Bj代表用户实体集合U_B中的第j个用户；若用户U_Ai和用户U_Bj在现实生活中属于同一个体，则(U_Ai,U_Bj)∈MP,MP为匹配用户对集合；

1-2.通过人工标注段获取少量种子用户对集合MP_prior，其中种子用户对集合MP_prior是已知的匹配用户对。

进一步，所述的步骤2的具体实现过程如下：

2-1.针对社交网络SMN_A中用户的连接关系对社交网络SMN_A进行嵌入学习；给定节点U_Aj和节点U_Ai的嵌入向量分别为z_Aj和z_Ai，按照下式计算社交网络SMN_A中节点U_Aj和节点U_Ai间存在边(U_Ai,U_Aj)的概率为：

基于此，社交网络SMN_A嵌入学习的目标函数：

其中，σ(x)代表sigmoid函数，E_A为社交网络SMN_A中用户关系；

2-2.针对社交网络SMN_B中用户的连接关系对社交网络SMN_B进行嵌入学习；给定节点U_Bi和U_Bj的嵌入向量分别为z_Bi和z_Bj，按照下式计算社交网络SMN_B中节点U_Bi和U_Bj间存在边的概率为：

基于此，社交网络SMN_B嵌入学习的目标函数为：

其中，E_B为社交网络SMN_B中边的用户关系；；

2-3.综合两个网络的目标函数得到网络嵌入学习的最终目标函数：

为了学习到嵌入向量，需要对最终目标函数O进行最小化；采用随机梯度下降法分别对O₁和O₂进行最小化求解；同时采用负采样方法解决目标函数求解过程中的耗时较大问题，对于每条边(U_Ai,U_Aj)，重新根据下式计算logp(U_Aj,U_Ai)：

其中，

对边(U_Ai,U_Aj)建模，

对负采样边(U_Ai,U_Ak)建模，N代表负采样边的个数，设定N＝5；针对负采样边的生成，即在选取了U_Ai后，如何选取另外一个节点形成负采样边，采用目前通用的负采样方法确定噪声分布p_n(U)如下：

其中，d_U代表节点U的度；基于噪声分布p_n(U)，采样N个节点与节点U_Ai构成N条负采样边；按照同样方法计算logp(U_Bj,U_Bi)：

2-4.学习到所有节点的嵌入向量后，根据种子用户对的嵌入向量，学习SMN_A和SMN_B中节点的结构嵌入向量之间的映射函数

给定z_Ai∈Z_A，映射函数

将向量z_Ai映射到向量空间Z_B；其中，θ代表映射函数的参数集合；利用多层感知器模型构建非线性映射函数

获得向量空间Z_A到向量空间Z_B的映射关系；设计的多层感知器模型包括输入层、隐藏层和输出层；隐藏层单元个数设定为2*d，d为输入层个数，即向量z_Ai的维度；将种子用户对的结构嵌入向量作为训练数据，对MLP模型进行训练。

进一步，所述的步骤3的具体实现过程如下：

设U_Ai和U_Bj分别为两个社交网络中的先验种子用户，即U_Ai和U_Bj代表不同网络中的同一用户；如果满足U_Ak∈friend(U_Ai)，U_Bl∈friend(U_Bj)，则(U_Ak,U_Bl)属于候选配对用户对C_MP，其中，friend(U_Ai)＝{U_Aj|(U_Ai,U_Aj)∈E_A}。

进一步，所述的步骤4具体实现过程如下：

4-1.针对用户名、个人简介的信息，将其看作字符串并采用Levenshtein距离进行度量；将两个用户名U₁和U₂之间的用户名相似度Sim_u(U₁,U₂)按照下式进行计算：

其中，lev(U₁,U₂)表示用户U₁和U₂之间的Levenshtein距离，l(U₁)、l(U₂)分别表示用户名U₁和U₂的字符数；

4-2.针对毕业院校和地理位置的信息，若相同的院校和地理位置则匹配度为1，否则为0。

进一步，所述的步骤5具体实现过程如下：

5-1.针对候选配对用户对中的每对用户对，根据训练好的MLP模型，通过映射函数

将向量z_Ai映射到向量空间Z_B，再计算

和向量z_Bj之间的距离得到用户U_Ai和用户U_Bj的用户匹配度：

进一步，所述的步骤6具体实现过程如下：

针对候选配对用户对集合中的候选配对用户对，计算每对候选配对用户对中两用户的匹配分值，选取匹配分值最大的候选配对用户对为匹配用户对，并将其加入到集合MP中；匹配分值Mat_score计算如下：

Mat_score(U_Ai,U_Bj)＝(1-α)R^k(U_Ai,U_Bj)+αf(F_Match_ij) (10)

其中，Match_k(U_Ai,U_Bj)表示为用户U_Ai和用户U_Bj在第k种匹配因子上的匹配度，1≤k≤|K|，k表示规则使用的匹配因子种类标记，K表示所有的属性匹配因子的种类集合，|K|代表匹配因子种类的总个数，参数α用于平衡属性匹配值和朋友匹配度，w_k代表第k种匹配因子的权重；根据不同的数据集调整α和w_k的值。

本发明有益效果如下：

本发明的关注点在于如何通过有效融合网络嵌入和用户表征特征实现两个社交平台上的用户身份关联，并解决上述技术问题。本发明根据少量标注的用户对数据，计算出特定的跨社交网络范围内的所有关联用户对，对商业上的跨社交网络的应用起着至关重要的作用，比如多社交网络的用户行为分析、跨社交网络的信息服务推送、跨平台的好友推荐以及政府机关、企事业单位的网络安全治理等。

附图说明

图1为融合用户表面特征和网络嵌入的跨社交网络用户身份关联方法流程图；

图2为两个社交网络的匹配用户示例图；

图3为候选配对用户对生成示例图；

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明主要包含候选用户对选取和匹配过程两部分。前者主要根据网络的拓扑结构选出有较大可能成为匹配用户对的候选用户对。后者在候选用户对集合中进一步选择，利用字符串匹配等手段计算用户属性匹配度，并利用网络嵌入学习算法计算朋友匹配度，最后通过融合用户属性匹配度和朋友匹配度的判定准则对匹配因子进行比较，以得到最终匹配用户对。上述两个过程相互迭代，直到种子用户集为空。具体包括以下步骤：

步骤1具体实现如下：

1-1.给定两个社交网络，分别表示为SMN_A＝{U_A,E_A}，SMN_B＝{U_B,E_B}。U_A表示网络SMN_A的用户实体集合，E_A为网络SMN_A的用户关系(相互关注或连接关系)，U_B表示网络SMN_B的用户实体集合，U_Ai代表用户集合U_A中的第i个用户，U_Bj代表用户集合U_B中的第j个用户。若用户U_Ai和用户U_Bj在现实生活中属于同一个体，则(U_Ai,U_Bj)∈MP,MP为配对用户集合。

本发明提供了图2所示的例子，图中虚线连接的不同社交网络中的两个节点构成了匹配用户对，集合{(2，7)，(1，6),(4,0)}构成了匹配用户对集合MP。

1-2.通过人工标注手段获取少量种子用户对集合MP_prior(已知的匹配用户对)。

本发明爬取了新浪微博用户数据和人人网用户数据，构成了三个网络对，具体信息见下表。爬取的数据包括用户信息(构成网络的节点)和用户之间的关注(构成网络的边),用户数据的属性信息包括用户名、毕业院校、所在城市以及个人简介。针对这三个网络对通过人工手段标注了152、143和167对配对用户对。

步骤2的具体实现过程如下：

2-1.针对社交网络SMN_A中用户的连接关系(即朋友关系)对社交网络SMN_A进行嵌入学习。给定节点U_Aj和节点U_Ai的嵌入向量z_Aj和z_Ai，可以按照下式计算社交网络SMN_A中节点U_Aj和节点U_Ai间存在边的概率为：

其中，σ(x)代表sigmoid函数。基于此，社交网络SMN_A嵌入学习的目标函数计算如下：

2-2.针对社交网络SMN_B中用户的连接关系(即朋友关系)对社交网络SMN_B进行嵌入学习。给定节点U_Bi和U_Bj的嵌入向量z_Bi和z_Bj，按照下式计算社交网络SMN_B中节点U_Bi和U_Bj间存在边的概率为：

基于此，社交网络SMN_B嵌入学习的目标函数为：

为了学习到嵌入向量，需要对目标函数O进行最小化。本发明采用随机梯度下降法分别对O₁和O₂进行最小化求解。同时，采用负采样方法(Negative Sampling)解决目标函数求解过程中的耗时较大问题，对于每条边(U_Ai,U_Aj)，重新根据下式计算logp(U_Aj,U_Ai)：

其中，

对可观察边进行建模，N代表负采样边的个数，

代表节点的度。根据经验值设定，本发明选取N＝5，

按照同样方法计算logp(U_Bj,U_Bi)：

2-4.学习到所有节点的嵌入向量之后，再根据种子配对用户对的嵌入向量，学习SMN_A和SMN_B中节点的结构嵌入向量之间的映射函数

给定z_Ai∈Z_A，映射函数

将向量z_Ai映射到空间Z_B。其中，θ代表映射函数的参数集合。本发明利用多层感知器模型(MLP)构建非线性映射函数

获得向量空间Z_A到向量空间Z_B的映射关系。设计的MLP模型包括输入层，隐藏层和输出层，隐藏层单元个数设定为2*d(d为输入层个数，即向量z_Ai的维度)。将种子配对用户的结构嵌入向量作为训练数据，对MLP模型进行训练。

步骤3的具体实现过程如下：

假设U_Ai和U_Bj为两个社交网络中的先验种子用户(即代表同一用户)，如果满足U_Ak∈friend(U_Ai)，U_Bl∈friend(U_Bj)，则(U_Ak,U_Bl)属于候选用户对C_MP，其中，friend(U_Ai)＝{U_Aj|(U_Ai,U_Aj)∈E_A}。

本发明提供了图3所示的例子。图3描述了两个社交网络SMN_A和SMN_B，两个网络中的虚线表示先验种子点，即存在于两个社交网络中的同一用户。根据候选用户选取规则，从种子点出发，得到(Lisa,Ben)×(Lisa,Ray,Cathy,Violet)为候选用户对，其中，×表示笛卡儿积。

步骤4具体实现过程如下：

4-1.针对用户名信息和个人简介等文本信息，将其看作字符串并采用Levenshtein距离进行度量。Levenshtein距离作为计算两个字符串间的差异程度的字符串度量，曾被多次应用于用户名的差异度量并取得较好的效果。将两个用户名U₁和U₂之间的用户名相似度Sim_u(U₁,U₂)按照下式进行计算：

其中，lev(U₁,U₂)表示用户U₁和U₂之间的Levenshtein距离，l(u_i)表示u_i的字符数。

例如，用户名“杭州人”和“杭州人在北京”的相似度为0.5。

4-2.针对毕业院校和地理位置信息，若相同的院校和地理位置则匹配度为1，否则为0。

步骤5具体实现过程如下：

针对候选配对用户对中的每对用户对，根据训练好的MLP模型，通过计算

将向量z_Ai映射到空间Z_B，再计算

和z_Bj之间的欧氏距离得到用户U_Ai和用户U_Bj的用户匹配度：

步骤6具体实现过程如下：

针对每一个候选配对中的两用户计算匹配分值，选取匹配分值最大的用户为匹配用户对，并将其加入到集合MP中。匹配分值Mat_score计算如下：

Mat_score(U_Ai,U_Bj)＝(1-α)R^k(U_Ai,U_Bj)+αf(F_Match_ij)

其中，Match_k(U_Ai,U_Bj)表示为用户U_Ai和用户U_Bj在匹配因子k上的匹配度，1≤k≤|K|，k表示规则使用的匹配因子，K表示所有的属性匹配因子集合，|K|代表匹配因子总个数，参数α用于平衡属性匹配值和朋友匹配度，w_k代表匹配因子k的权重。本发明可以根据不同的数据集调整α和w_k的值。

在步骤6中，本发明以爬取的新浪微博用户集以及人人网用户集为例，针对这三个网络将用户名、毕业院校、地理位置以及个人简介分别设定权重w_k为0.3，0.2，0.2，0.3，参数α设为0.5。分别针对三个网络对进行用户身份关联并计算准确率。由于网络对的节点数目量较大，无法准确获取每对网络对的匹配用户对数目，从返回的结果中随机抽取200个用户对计算准确率，最终取得的平均准确率达到75.3％。