CN110599358B

CN110599358B - 一种基于概率因子图模型的跨社交网络用户身份关联方法

Info

Publication number: CN110599358B
Application number: CN201910620116.8A
Authority: CN
Inventors: 王李冬; 安康; 张慧熙; 胡克用; 叶霞; 张赟; 段凌风
Original assignee: Qianjiang College of Hangzhou Normal University
Current assignee: Yami Technology Guangzhou Co ltd; Yunrui Technology Shanghai Co ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-05-04
Anticipated expiration: 2039-07-10
Also published as: CN110599358A

Abstract

本发明公开一种基于概率因子图模型的跨社交网络用户身份关联方法。首先利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对；然后，以所有的候选配对用户对为节点，候选配对用户对的两两朋友关系为边，构建用户对网络图；在构建的UPG和已标注的用户对数据的基础上，融合用户属性相似度因子和朋友关系因子构建概率因子图模型；最后利用梯度下降法对概率因子图模型进行参数的学习，学习结束后同时可得到两个社交网络中具备相同用户身份的用户集合。本发明可以根据部分标注的用户对数据，推断出特定的跨社交网络范围内的所有关联用户对，对商业上的跨社交网络的应用起着至关重要的作用。

Description

一种基于概率因子图模型的跨社交网络用户身份关联方法

技术领域

本发明涉及社交网络的知识挖掘领域。尤其是涉及一种基于概率因子图模型的用户身份关联方法。

背景技术

从早期的电子邮件、BBS，到现今的社交媒体网络(Social Media Network，SMN)，越来越多的用户开始习惯在社交网络上实现日常的互动和信息的获取。人们为了享受不同网站提供的服务往往需要注册为该网站的用户。普通用户拥有多个不同社交网站的虚拟帐号是较常见的现象。由于各个社交网站相互独立，资料信息并非共有，并且在网络上缺乏统一的身份标识来唯一标识网民，因而隶属于同一个网民的多个社交网站账号之间并无直接关联。为了获取用户的完整图像(profile)，需要整合用户在不同社交网络上的数据，其突破口在于跨社交平台的用户身份关联，即识别用户在多个社交网络上的帐号。然而，跨社交网络的用户身份关联在技术实现上依然存在以下问题：

1、不同网络上可获取的属性信息具备不一致、有噪、信息不完整等特性，使得单独依赖属性信息的关联方法无法取得理想的效果；

2、现阶段的社交网络都具备大数据特点，现有的监督式学习方法往往需要消耗大量的学习时间，使得现有算法无法高效率的运用于社交网络大数据平台；

3、社交网络上的朋友关系具备一致性和稳定性，然而现有利用朋友关系的关联方法仅利用了两个用户间的朋友关系，忽略了三个用户间的朋友影响关系，而三角关系往往是社交网络构成的基本结构元素。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于概率因子图模型的跨社交网络用户身份关联方法。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1.针对社交网络SMN^A和社交网络SMN^B的用户，利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对；

步骤2.以所有的候选配对用户对X＝{x_i}为节点，若用户对x_i中的两个用户分别为用户对x_j中两个用户的邻居，则x_i和x_j之间存在一条边，以此为原则构建用户对网络图(User Pair Graph，UPG)；

步骤3.由于社交网络中用户间的网络结构比属性信息更加稳定，在构建的UPG和已标注的用户对数据的基础上，融合用户用户属性因子和朋友关系因子构建概率因子图模型；

步骤4.利用梯度下降算法对概率因子图模型进行参数θ＝{α,β,λ}的学习，学习结束后同时可得到所有候选配对用户对的标签数据，即两个社交网络中具备相同用户身份的用户集合。

步骤1具体实现如下：

1-1.SMN^A＝(U^A,E^A)代表社交网络A，U^A代表社交网络A的用户集，E^A代表社交网络A的用户关系(相互关注关系)集合，

代表社交网络A中的某用户；SMN^B＝(U^B,E^B)代表社交网络B，U^B代表社交网络B的用户集，E^B代表社交网络B的用户关系(相互关注关系)集合，

代表社交网络B中的某用户；

1-2.对分别来自社交网络SMN^A和SMN^B的用户名n_k ^A和n_j ^B根据以下公式计算相似度，选取相似度大于0.8的用户对加入到候选配对用户对集合X中。其中，

其中，

代表Levenshtein距离，

代表用户名n_k ^A的字符长度,

代表用户名

的字符长度；

1-3.以候选配对用户对集合X中的每一对用户为种子用户对进行邻居节点的扩展，从种子用户对的邻居节点中选取具备r个共同邻居(已知配对)的用户对加入到X中(根据不同的数据集设置不同的r值)。

步骤2的具体实现过程如下：

2-1.UPG＝(U_UPG,E_UPG)代表用户对网络图，U_UPG表示节点集合，E_UPG代表节点之间的关系集合；将候选配对用户对x_i作为UPG的节点，x_i∈U_UPG；

2-2.假定

和

为UPG中的两个节点，如果这两个节点之间存在以下关系，则他们之间存在一条边：

其中，

表示用户

的邻居节点集。

步骤3具体实现过程如下：

3-1.为了同时考虑用户属性特征和网络的结构特征，融合用户属性因子和朋友关系因子构建概率因子图模型，将UPG中的所有候选配对用户对标签集Y的联合分布p(Y|UPG,θ)分解为因子函数的乘积，如下式所示：

其中，θ＝{α,β,γ}代表参数集合，具体的参数含义见步骤3-2和3-3。i代表UPG中节点的下标，Y＝{y_i}代表对应X＝{x_i}的二值标签，y_i＝1代表x_i中的两用户为同一身份，否则不同；||_i,j代表x_i和x_j具备二元朋友关系(即节点x_i和x_j之间存在一条边)，Δ_i,j,k代表x_i,x_j和x_k具备三元朋友关系(即节点x_i,x_j和x_k之间至少存在两条边)；f(x_i,y_i)代表x_i和y_i之间关系的属性因子函数，g(y_i,y_j)代表x_i和x_j两者之间的二元朋友关系的结构因子函数，g'(y_i,y_j,y_k)代表x_i,x_j和x_k三者之间的三元朋友关系的结构因子函数；Y代表所有候选配对用户的标签数据集，Y^L代表已知标注的候选配对用户对的标签数据集；Z代表全局归一化项，即在Y的所有可能取值的情况下，将因子函数的乘积相加，具体计算公式为：

Z＝∑_YΠf(x_i，y_i)Πg(y_i，y_j)Πg'(y_i，y_j，y_k) (4)

3-2.计算属性因子函数f(x_i,y_i)，计算公式为：

其中，α代表属性特征的d维权重向量，d代表属性特征个数；

代表x_i中两用户的特征相似度向量函数，如果某特征值完全相同，则相似度为1，如果不同，则相似度为0；

3-3.计算结构因子函数g(y_i,y_j)和g'(y_i,y_j,y_k)，计算公式为：

g(y_i,y_j)＝exp{β^Tψ(y_i,y_j)} (6)

g'(y_i,y_j,y_k)＝exp{γ^Tξ(y_i,y_j,y_k)} (7)

其中，β和γ为权重向量；ψ(y_i,y_j)代表x_i和x_j两者之间的二元朋友关系函数，其计算公式为：

ψ＝(ψ_0,0,ψ_0,1,ψ_1,0,ψ_1,1) (8)

g'(y_i,y_j,y_k)代表x_i,x_j和x_k三者之间的三元朋友关系的结构因子函数，其计算公式为：

ξ＝(ξ_0,0,0,ξ_0,0,1,ξ_0,1,0,ξ_0,1,1,ξ_1,0,0,ξ_1,0,1,ξ_1,1,0,ξ_1,1,1)

步骤4具体实现过程如下：

4-1.对参数α,β和γ在[0，1]区间内进行随机值初始化；

4-2.根据当前迭代下的参数α，β和γ的值，通过最大化所有候选配对用户的标签数据的概率分布，计算得到所有未标注的y_i数据，计算公式如下：

Y|Y^L代表给定带标注数据的条件下，当前所有候选用户对的标签数据的状态；

4-3.计算参数α，β和γ的梯度，计算公式如下：

p(Y|Y^L)代表给定带标注数据Y^L的条件下，当前所有候选用户对的标签数据的概率分布，p(Y)代表当前所有候选用户对的标签数据的概率分布；以分量

和分量

为例，前者代表给定p(Y|Y^L)概率分布的条件下，所有二元朋友关系特征总和的期望值，后者代表给定p(Y)概率分布的条件下，所有二元朋友关系特征总和的期望值。其余分量的含义依此类推；

4-4.设定学习率参数η＝0.01，通过下式更新参数θ＝{α,β,γ}：

4-5.返回至步骤4-2，迭代至收敛，最后一次迭代中由步骤4-2计算得到的结果为本发明的最终结果。

本发明有益效果如下：

本发明的关注点在于如何通过概率因子图模型，有效融合用户身份关联的关键影响因素，实现两个社交平台上的用户身份关联，并解决上述技术问题。本发明可以根据部分标注的用户对数据，推断出特定的跨社交网络范围内的所有关联用户对，对商业上的跨社交网络的应用起着至关重要的作用，比如多社交网络的用户行为分析、跨社交网络的信息服务推送、跨平台的好友推荐以及政府机关、企事业单位的网络安全治理等。

附图说明

图1为基于概率因子图模型的跨社交网络用户身份关联方法流程图；

图2为候选配对用户对生成示例图；

图3为用户对网络图(UPG)生成示例图；

图4为概率因子图模型示例图；

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于概率因子图模型的跨社交网络用户身份关联方法，包括以下步骤：

步骤1针对社交网络SMN^A和社交网络SMN^B的用户，利用用户名相似度和网络结构(朋友关系)从两个社交网络中选取候选配对用户对；

步骤2以所有的候选配对用户对X＝{x_i}为节点，若用户对x_i中的两个用户分别为用户对x_j中两个用户的邻居，则x_i和x_j之间存在一条边，以此为原则构建用户对网络图(User Pair Graph，UPG)；

步骤3由于社交网络中用户间的朋友关系比属性信息更加稳定，在构建的UPG和已标注的用户对(labeled user pairs)数据的基础上，融合用户属性相似度因子和朋友关系因子构建概率因子图模型；

步骤4利用梯度下降算法对概率因子图模型进行参数θ＝{α,β,λ}的学习，学习结束后同时可得到所有候选配对用户对的标签数据，即两个社交网络中具备相同用户身份的用户集合。

所述步骤1的具体实现过程如下：

1-1.SMN^A＝(U^A,E^A)代表社交网络A，U^A代表社交网络A的用户集，E^A代表社交网络A的用户关系集合，

代表社交网络A中的某用户；SMN^B＝(U^B,E^B)代表社交网络B，U^B代表社交网络B的用户集，E^B代表社交网络B的用户关系集合，

代表社交网络B中的某用户。

本发明利用网络爬虫从新浪微博(SMN^A)和人人网(SMN^B)中爬取网络数据，新浪微博包含用户节点数约1.21*10⁵，人人网包含用户节点数约5.4*10⁵。这两个网络共同的用户属性信息包括用户名、email地址、性别、出生年月、毕业院校。

其中，

代表Levenshtein距离，

代表用户名n_k ^A的字符长度,

代表用户名

的字符长度；如果用户名为中文，则以中文字符为计算单位。例如，用户名“北京人”和“北京人在纽约”字符长度分别为3和6，其相似度为0.5。

1-3.以X中的每一对用户为种子用户对进行邻居节点的扩展，从种子用户对的邻居节点中选取具备r个共同邻居(已知配对)的用户对加入到X中(根据不同的数据集设置不同的r值)。在这一步中，本发明提供了图2所示的例子。图2中，假设

为用户名相似度大于0.8的用户对，同时设定r＝2，根据该步骤，

四个用户对被选为候选配对用户对加入到X中，最终

所述步骤2的具体实现过程如下：

2-2.假定

和

为UPG中的两个节点，如果这两个节点之间存在以下关系，则他们之间存在一条边。

其中，

表示用户

的邻居节点集。

本发明为步骤2提供了由图2的两个社交网络产生的用户对网络图示例。根据步骤2-1和步骤2-2，生成的用户对网络图(如图3所示)共包含6个节点，8条边。

所述步骤3的具体实现过程如下：

其中，θ＝{α,β,γ}代表参数集合，具体的参数含义见步骤3-2和3-3。i代表UPG中节点的下标，Y＝{y_i}代表对应X＝{x_i}的二值标签，y_i＝1代表x_i中的两用户为同一身份，否则不同；||_i,j代表x_i和x_j具备二元朋友关系(即节点x_i和x_j之间存在一条边)，Δ_i,j,k代表x_i,x_j和x_k具备三元朋友关系(即节点x_i,x_j和x_k之间至少存在两条边)；f(x_i,y_i)代表x_i和y_i之间关系的属性因子函数，g(y_i,y_j)代表x_i和x_j两者之间的二元朋友关系的结构因子函数，g'(y_i,y_j,y_k)代表x_i,x_j和x_k三者之间的三元朋友关系的结构因子函数；Y代表所有候选配对用户的标签数据集合，Y^L代表已知标注的候选配对用户对的标签数据集；Z代表全局归一化项，即在Y的所有可能取值的情况下，将因子函数的乘积相加，具体计算公式为：

在这一步中，本发明提供了由图3的用户对网络图生成的概率因子图示例，具体如图4所示。需要强调，由于二元和三元结构因子函数较多，该图没有画出全部的二元和三元结构因子函数。如图4所示，用户对的具体对应关系如下表：

根据该步骤，由图3的用户对网络图生成的所有二元结构因子函数包括：g(y₁，y₃)，g(y₂，y₃)，g(y₃，y₄)，g(y₃，y₅)，g(y₁，y₆)，g(y₂，y₆)，g(y₄，y₆)，g(y₅，y₆)

由图3的用户对网络图生成的所有三元结构因子函数包括：

g(y₁,y₂,y₃),g(y₁,y₃,y₄),g(y₁,y₃,y₅),g(y₂,y₃,y₄),g(y₂,y₃,y₅),

g(y₁,y₃,y₆),g(y₂,y₃,y₆),g(y₃,y₄,y₆),g(y₃,y₅,y₆),g(y₁,y₅,y₆),

g(y₁,y₂,y₆),g(y₂,y₄,y₆),g(y₁,y₄,y₆),g(y₂,y₅,y₆),g(y₄,y₅,y₆)

3-2.计算属性因子函数f(x_i,y_i)，计算公式为：

其中，α代表属性特征的d维权重向量，d代表属性特征个数；

代表x_i中两用户的特征相似度向量函数，如果某特征值完全相同，则相似度为1，如果不同，则相似度为0。具体特征包括用户名、email地址、性别、出生年月、毕业院校等。

3-3.计算结构因子函数g(y_i,y_j)和g'(y_i,y_j,y_k)，计算公式为：

g(y_i,y_j)＝exp{β^Tψ(y_i,y_j)}

g'(y_i,y_j,y_k)＝exp{γ^Tξ(y_i,y_j,y_k)}

其中，β和γ为权重向量。ψ(y_i,y_j)代表x_i和x_j两者之间的二元朋友关系函数，其计算公式为：

ψ＝(ψ_0,0,ψ_0,1,ψ_1,0,ψ_1,1)

ξ＝(ξ_0,0,0,ξ_0,0,1,ξ_0,1,0,ξ_0,1,1,ξ_1,0,0,ξ_1,0,1,ξ_1,1,0,ξ_1,1,1)

所述步骤4的具体实现过程如下：

4-1.对参数α,β和γ在[0，1]区间内进行随机值初始化；

4-2.根据当前迭代下的参数α,β和γ的值，通过最大化所有候选配对用户的标签数据的概率分布，计算得到所有未标注的y_i数据，计算公式如下：

Y|Y^L代表给定带标注数据的条件下，当前所有候选用户对的标签数据的状态。

4-3.计算参数α,β和γ的梯度，计算公式如下：

和分量

4-4.设定学习率参数η＝0.01，通过下式更新参数θ＝{α,β,γ}：

4-5.返回至步骤4-2，迭代至收敛。最后一次迭代中由步骤4-2计算得到的结果为本发明的最终结果。

在步骤4中，本发明以爬取的新浪微博用户数据和人人网用户数据为例，分别从数据集中抽取三个网络对，三个网络对的具体信息如下：

分别针对上述三个网络对构建概率因子图模型，并对模型进行参数学习，学习过程中的平均迭代次数不超过100。针对三个网络对进行用户身份关联并计算准确率。由于网络对的节点数目量较大，无法准确获取每对网络对的匹配用户对数目，从返回的结果中随机抽取200个用户对计算准确率，最终取得的平均准确率达到71.3％。

Claims

1.一种基于概率因子图模型的跨社交网络用户身份关联方法，其特征在于包括如下步骤：

步骤2.以所有的候选配对用户对X＝{x_i}为节点，若用户对x_i中的两个用户分别为用户对x_j中两个用户的邻居，则x_i和x_j之间存在一条边，以此为原则构建用户对网络图；

步骤4.利用梯度下降算法对概率因子图模型进行参数θ＝{α,β,λ}的学习，学习结束后同时可得到所有候选配对用户对的标签数据，即两个社交网络中具备相同用户身份的用户集合；

步骤1具体实现如下：

代表社交网络A中的用户；SMN^B＝(U^B,E^B)代表社交网络B，U^B代表社交网络B的用户集，E^B代表社交网络B的用户关系集合，

代表社交网络B中的用户；

1-2.对分别来自社交网络SMN^A和SMN^B的用户名n_k ^A和n_j ^B根据以下公式计算相似度，选取相似度大于0.8的用户对加入到候选配对用户对集合X中；其中，

其中，

代表Levenshtein距离，

代表用户名n_k ^A的字符长度,

代表用户名

的字符长度；

1-3.以候选配对用户对集合X中的每一对用户为种子用户对进行邻居节点的扩展，从种子用户对的邻居节点中选取具备r个共同邻居的用户对加入到X中。

2.根据权利要求1所述的一种基于概率因子图模型的跨社交网络用户身份关联方法，其特征在于步骤2的具体实现过程如下：

2-2.假定

和

其中，

表示用户

的邻居节点集。

3.根据权利要求2所述的一种基于概率因子图模型的跨社交网络用户身份关联方法，其特征在于步骤3具体实现过程如下：

其中，θ＝{α,β,γ}代表参数集合，具体的参数含义见步骤3-2和3-3；i代表UPG中节点的下标，Y＝{y_i}代表对应X＝{x_i}的二值标签，y_i＝1代表x_i中的两用户为同一身份，否则不同；||_i,j代表x_i和x_j具备二元朋友关系，即节点x_i和x_j之间存在一条边，Δ_i,j,k代表x_i,x_j和x_k具备三元朋友关系，即节点x_i,x_j和x_k之间至少存在两条边；f(x_i,y_i)代表x_i和y_i之间关系的属性因子函数，g(y_i,y_j)代表x_i和x_j两者之间的二元朋友关系的结构因子函数，g'(y_i,y_j,y_k)代表x_i,x_j和x_k三者之间的三元朋友关系的结构因子函数；Y代表所有候选配对用户的标签数据， Z代表全局归一化项，即在Y的所有可能取值的情况下，将因子函数的乘积相加，具体计算公式为：