CN112989218B

CN112989218B - 基于多级属性嵌入和约束典型相关分析的身份链接方法

Info

Publication number: CN112989218B
Application number: CN202110269377.7A
Authority: CN
Inventors: 陈晓亮; 陈白杨; 李显勇; 杜亚军
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-06-28
Anticipated expiration: 2041-03-12
Also published as: CN112989218A

Abstract

本发明公开了基于多级属性嵌入和约束典型相关分析的身份链接方法，该方法先将社交网络用户数据进行数据预处理，并构建无向无权图，再嵌入多级文本属性形成相应的用户特征矩阵；再进行网络结构嵌入和用户特征聚合，然后再基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间中，从而使得匹配用户在空间中的距离最近；最终通过比较任意用户与另一网络中所有用户在同一潜在向量空间中的距离，进而确定该用户的匹配用户；本发明适用于用户属性缺失或网络结构稀疏的情况；且大大减少了运行所需的先验信息量，解决了先验信息匮乏情况下的实际问题，节约了数据采集和方法训练的成本。

Description

基于多级属性嵌入和约束典型相关分析的身份链接方法

技术领域

本发明涉及用户身份链接的技术领域，具体涉及基于多级属性嵌入和约束典型相关分析的身份链接方法。

背景技术

用户身份链接(User Identity Linkage)，又可以称为“用户对齐(UserAlignment)”、“用户识别(User Identification)”等，旨在识别不同社交网络上的同一自然人，在商业推荐、舆论监督、网络安全等领域中越来越重要；大量社交网络应用，包括朋友推荐、信息扩散、链路预测、网络动态分析等表明了用户身份链接的必要性和益处。

早期的跨社交网络用户身份链接研究主要通过利用公开的用户属性信息来获取用户特征，包括用户基本资料(如用户名、性别、位置)、用户生成的内容(如微博、帖子、文章)和用户行为(如地理位置轨迹、用词习惯)；基于用户属性的解决方案主要通过启发式的字符串模式或文本相似性比较函数来实现，这些方法有以下两个显著缺点：

(1)难以统一应对多种类型的属性文本。例如，用户名通常有很大比例的自定义词汇(如流浪的蛤蟆ヽ(￣▽￣)

、§春哥的哥§、Tommy996等)；职业通常是由一些常规词组成的短语(如XX大学教授、XX助理)；用户发布的博客则可以包含多个段落或较长的一段文本，其中蕴含了高级语义特征(如帖子主题、用户的观点等)；传统的启发式属性建模方法只能涵盖某部分属性类型，而不能涵盖所有类型，缺乏处理多种属性文本的通用方法。

(2)难以捕捉不同用户属性之间的隐含联系；例如，出现在某用户职业属性中的“老师”和“教授”两个词语，如果仅从字符串模式或者相似性上进行比较，则两者之间很难产生联系。然而，“老师”和“教授”在语义上是高度相关的，大部分情况下“教授”往往同时是一名“老师”；传统的启发式方法不适用于这种情况。

发明内容

本发明的目的在于：针对目前用户身份链接存在难以统一应对多种类型的属性文本和难以捕捉不同用户属性之间的隐含联系的问题，提供了基于多级属性嵌入和约束典型相关分析的身份链接方法，解决了上述问题。

本发明的技术方案如下：

基于多级属性嵌入和约束典型相关分析的身份链接方法，所述方法包括以下步骤：

(a)将社交网络用户数据进行数据预处理，并构建无向无权图G＝(V,E,A)；其中V表示网络中的用户集合，E表示用户之间的关系的集合，A表示用户属性集合；

(b)嵌入多级文本属性；将每个用户属性集合分为三个部分A＝(A_c,A_w,A_t)，其中A_c表示字符级属性，A_w表示词级属性，A_t表示主题级属性；然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵P_c、P_w和P_t；

(c)网络结构嵌入和用户特征聚合；网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间，使得具有相似拓扑结构特性的用户之间距离最小。

(d)基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间Z中，从而使得匹配用户在空间中的距离最近；

(e)识别匹配用户对；对于来自网络G^X中的任意一个用户V_i，通过比较用户V_i与另一网络G^Y中所有用户在同一潜在向量空间Z中的距离，进而确定用户V_i的匹配用户：距离越小，说明两个用户更可能是同一个自然人。

进一步地，所述步骤(b)中生成用户特征矩阵P_c包括以下步骤：

(b1)将网络中所有用户的字符级属性

通过词袋模型转化为矩阵

(b2)采用自编码器对矩阵

进行降维，最终得到字符级属性A_c的特征矩阵

进一步地，所述步骤(b)中生成用户特征矩阵P_w包括以下步骤：

(b3)采用词嵌入技术训练词向量，从而得到词语w_ik的向量表达形式

(b4)再将用户词级属性

中所有词语的词向量进行求和，即可得到该用户的词级属性向量

(b5)根据网络同质性原理，将单个用户的词级属性和其邻居进行平滑；用户的词级属性A_w最终被转换为一个特征矩阵

进一步地，所述步骤(b)中生成用户特征矩阵P_t包括以下步骤：

(b6)采用LDA主题模型构建主题级属性文本的特征表示，并通过吉布斯采样进行参数估计；从而得到用户v_i的主题概率向量

主题概率向量

即代表了该用户主题级属性的特征向量；由此网络中所有用户的主题级属性A_t转换为矩阵

进一步地，所述步骤(c)的详细步骤为：

(c1)采用网络嵌入模型LINE将待匹配的社交网络转换为一个特征矩阵

其中d_s表示网络结构特征的维度；

(c2)将(b)中的用户特征矩阵P_c、P_w、P_t和网络结构特征矩阵

进行拼接，得到最终的用户特征矩阵。

(c3)在最终的用户特征矩阵上进行0-1标准化操作，将每一行的平均值转化为0，标准差转化为1。

进一步地，所述步骤(d)的详细步骤为：通过构建两个线性投影矩阵

和

来分别将两个网络的特征矩阵X和Y投影到同一个潜在向量空间Z中，并使得H^TX和M^TY之间的相关性最大化

与现有的技术相比本发明的有益效果是：

1、本发明公开了一种通过多级用户属性文本嵌入方法来处理多种类型的用户属性文本，并结合用户属性特征和网络结构特征来进行社交网络用户建模；该方法适用于用户属性缺失或网络结构稀疏的情况，具有很强的鲁棒性，并且在不依赖任何标记数据的情况下，捕获多种类型用户属性文本特征及高层语义特征。

2、本发明在多级属性嵌入的基础上，还公开了一种基于约束典型相关分析的线性投影方法，将不同社交网络中用户的特征矩阵投影到同一个潜在向量空间中，使得不同网络中的相同用户在潜在向量空间中的距离最小，并通过向量距离的比较来识别不同网络中的同一用户；基于多层属性嵌入和约束典型相关分析的用户身份链接方法是一种半监督的方法，与传统监督方法相比，大大减少了运行所需的先验信息量，能用于解决先验信息匮乏情况下的实际问题，节约了数据采集成本与方法训练成本。

附图说明

图1为基于多级属性嵌入和约束典型相关分析的身份链接方法的流程图。

具体实施方式

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

请参阅图1，基于多级属性嵌入和约束典型相关分析的身份链接方法，包括以下步骤：

(a)将社交网络用户数据进行预处理；将社交网络的用户表示为节点，用户之间关系(如好友、关注/粉丝等)表示为边，构建无向无权图G＝(V,E,A)，其中V表示网络中的用户集合，E表示用户之间关系(如朋友关系、关注/粉丝关系等)的集合，A表示用户属性集合，例如用户姓名、职业和教育经历等。

(b)嵌入多级文本属性；首先将每个网络的文本属性分为三个部分A＝(A_c,A_w,A_t)，其中A_c表示字符级属性，A_w表示词级属性，A_t表示主题级属性；然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵P_c，P_w和P_t；具体包括以下六个子步骤：

(b1)用户属性文本中包含大量自定义词汇的属性(如用户名、昵称等)被划分为字符级属性，任意用户v_i的字符级属性

可以看作是由一个符号序列w＝w₁,w₂,…,w_k,…,w_m来构成的，其中w_k表示

的组成元素，包括字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等，m表示所有元素的总计数量；采用词袋模型将

转换为向量形式

其中k∈{1,2,…,m}，

对应

中符号w_k出现的次数；由此，网络中所有用户的字符级属性

被转化为一个矩阵

(b2)再采用一个自编码器对矩阵

进行降维；该自编码器首先用一个映射函数

将输入向量

表示为一个隐含向量表示

其中

和

分别表示权重矩阵和偏置向量；然后再用另一个映射函数

将

重构为

使得

和

之间距离最小，其中

和

分别表示权重矩阵和偏置向量；自编码器的参数通过以下目标函数进行优化；

由此得到字符级属性A_c的特征矩阵

其中W和b为自编码器的参数。

(b3)用户属性文本中主要由常规词汇组成的属性(如性别、地点、职业、教育背景等)被划分为词级属性，任意用户v_i的词级属性

可以看作是由一个词语序列w_i＝w_i1,w_i2,…,w_ik,…,w_im来构成的，其中w_ik表示对应词汇表中的第k个词语，m表示词汇表的长度；网络中所有用户的词级属性

可以看作一个语料库，每个用户v_i的词级属性

对应着语料库中的一个文档；采用自然语言处理中的词嵌入技术CBOW来训练词向量，从而得到词语w_ik的向量表达形式

(b4)再将用户词级属性

中所有词语的词向量通过(式2)进行求和即可得到该用户的词级属性向量

(b5)因为在实践中，用户数据往往存在缺失或无法识别的现象；对此，根据网络同质性原理，再将单个用户的词级属性和其邻居通过(式3)进行平滑；

其中参数λ∈[0,1]代表邻居的重要性，

代表用户v_i的邻居集合，

表示邻居的数量；由此，用户的词级属性A_w被转换为一个特征矩阵

(b6)用户属性文本中由大篇幅的段落或篇章组成的属性(如微博、博客、文章等)被划分为主题级属性，任意用户v_i的主题级属性

可以看作是一个文档w_i，网络中所有用户的主题级属性

则构成一个语料库；然后采用LDA主题模型来构建主题级属性文本的特征表示，并通过吉布斯采样(Gibbs Sampling)进行参数估计；任意文档w_i对应的主题分布

进行参数估计；最后通过计算(式4)可得到每个文档w_i的主题概率向量

其中DT表示文档对应主题的计数矩阵，

表示文档w_i中所有单词的分配给主题j的总次数，d_t表示主题数量，α为主题模型的超参数，代表主题分布的特性；从而可以得到用户v_i的主题概率向量

该向量即代表了该用户主题级属性的特征向量；由此，网络中所有用户的主题级属性A_t被转换为一个矩阵

(c)网络结构嵌入和用户特征聚合；网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间，使得具有相似拓扑结构特性的用户之间距离最小，具体包括以下三个步骤：

(c1)采用当前比较流行的网络嵌入模型LINE来将待匹配的社交网络转换为一个特征矩阵

其中d_s表示网络结构特征的维度。

(c2)将步骤(b)中的用户特征矩阵P_c、P_w、P_t和网络结构特征矩阵

进行拼接，得到最终的用户特征矩阵；

对任意待匹配的两个社交网络G^X/G^Y，其特征矩阵表示为：

其中d＝d_c+d_w+d_t+d_s表示特征的维度。

(c3)在最终的用户特征矩阵上进行0-1标准化操作，即将每一行的平均值转化为0，标准差转化为1。

(d)通过上述步骤，已将待匹配的任意两个社交网络映射到了两个不同的向量空间中，接下来再将两个社交网络投影到同一个潜在向量空间中，从而使得匹配用户在空间中的距离最近。

假设两个网络之间的映射是线性的，并采用典型相关分析方法来进行投影；典型相关分析(Canonical Correlation Analysis，CCA)方法通常用于研究两个变量之间的相关性，其目标在于为两个变量找到一对投影函数，从而使它们之间的相关性最大化；经典的典型相关分析方法假设特征维数小于观测样本数，当观测样本数较少时，算法则无法收敛。因此，本发明通过引入约束项使之适用于社交网络用户身份链接问题。

约束典型相关分析通过构建两个线性投影矩阵

和

来分别将两个网络的特征矩阵X/Y投影到同一个潜在向量空间Z中，并使得H^TX和M^TY之间的相关性最大化。

对任意一对典型变量

及

其相关性通过(式6)进行计算：

其中，

和

中的上标T表示向量的转置操作，C_XY，C_XX和C_YY是特征矩阵X/Y的协方差矩阵；由于X/Y的均值都为0，这三个协方差矩阵可以通过(式7)进行计算：

由于任意一组典型变量h_i和m_j都与系数无关，(式6)的优化目标等价于：

通过对协方差矩阵添加约束项r^X>0及r^Y>0可以确保以上优化目标在观察样本数量较小时能够收敛，即：

其中I为单位矩阵；由此，投影矩阵H和M可以通过广义特征值分解进行求解，即：

由此，两个网络在潜在向量空间Z中分别表示为：Z^X＝H^TX和Z^Y＝M^TY。

(e)识别匹配用户对；对于来自网络G^X中的任意一个用户v_i，通过比较它与另一网络G^Y中所有用户的在同一潜在向量空间Z中的距离，进而确定它的匹配用户，距离越小，说明两个用户更可能是同一个自然人；向量距离通过(式11)进行计算：

实施例二

下面将结合具体的实例来对本发明进行进一步说明，本实例为从互联网上采集的两个真实社交网络，新浪微博和豆瓣网，其具体信息如表1所示。

表1微博-豆瓣网络数据统计表

步骤(a)：社交网络用户数据进行预处理。；

将待匹配的微博和豆瓣两个社交网络中的用户看作网络G^X/G^Y＝(V,E,A)中的节点V，并用不同的数字来区分不同的用户，如微博网络中用户对应数字0到9713，豆瓣网络用户则对应数字9714到19239。

将用户之间关系关注/粉丝关系看作网络中的边E，即如果两个用户之间有关注或粉丝关系，则他们之间构建一条边(u_i,u_j)∈E。

将两个网络中用户各自的网名(即昵称)作为该用户的字符级属性文本A_c，将两个网络中用户的地址作为该用户的词级属性文本A_w，将微博网络用户发表的最近10条微博以及豆瓣网络用户最近发表的10条帖子分别进行合并，作为该用户的主题级属性文本。

步骤(b)嵌入多级文本属性；将待匹配的微博和豆瓣两个社交网络中用户各自的字符级、词级、主题级属性文本分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵P_c，P_w和P_t；具体步骤如下：

字符级属性文本A_c由一系列字符串

构成，将每个字符串分割为由单一字符构成的列表，每个字符可能表示一个字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等；对于中文字符，用其对应的拼音符号进行替换；文本中所有字符构成一个字符表，如V＝{1，2，…，a，b，..，！，@，#}，其长度为m；由此，每个字符串

可以表示为一个长度为m的向量：

其中

对应

中符号w_k出现的次数；待匹配的两个网络中各自用户的字符级属性

进而被转化为一个矩阵

举例来说，对于字符串“流浪的蛤蟆”，其对应字符序列表示为：[l，i，u，l，a，n，g，d，e，h，a，m，a]，其中各个字符出现的次数为{a:3，d:1，e:1，g:1，h:1，i:1，l:2，m:1，n:1，u:1，其他:0}，因此其对应的向量表示为：[3，0，0，1，1，0，1，1，1，0，0，2，1，1，0，0，0，0，0，0，1，…]。

(b2)采用自编码器对矩阵

进行降维；该自编码器首先用一个映射函数

将输入向量

表示为一个隐含向量表示

其中

和

分别表示权重矩阵和偏置向量；然后用另一个映射函数

将

重构为

使得

和

之间距离最小，其中

和

分别表示权重矩阵和偏置向量；将A_c的向量表示X_c作为自编码器的训练数据，进而得到字符级属性A_c的特征矩阵

其中W和b为自编码器的参数；微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为

和

(b3)嵌入词级属性；词级属性文本A_w由一系列字符串

构成，通过分词技术将每个字符串分割为由单一词语构成的列表，文本中所有词语构成一个词汇表，如V＝{你，我，…，中国，美国today，Monday，...}，其长度为m；由此，任意用户v_i的词级属性

可以看作是由一个词语序列w_i＝w_i1,w_i2,…,w_ik,…,w_im来构成的，其中w_ik表示对应词汇表中的第k个词语；两个待匹配的网络中所有用户的词级属性

可以看作一个语料库，每个用户v_i的词级属性

对应着语料库中的一个文档；采用自然语言处理中的词嵌入技术CBOW来训练词向量，进而通过(式2)得到词语w_ik的向量表达形式

举例来说，对于某用户的词级属性字符串“四川成都”，其对应词语列表为：[四川，成都]，每个词语通过词嵌入都对应一个维度相同的实数向量，如{四川:0.11，0.22，0.3，0.7，…}，{成都:0.31，0.25，0.33，0.17，…}。

(b4)再将用户词级属性

中所有词语的词向量进行求和即可得到该用户的词级属性向量

如字符串“四川成都”对应的向量表示为：[0.42，0.47，0.63，0.87，…]。

(b5)再根据网络同质性原理，将单个用户的词级属性和他的邻居进行平滑。

例如上文中某用户的邻居的词级属性文本为“四川绵阳”，且词语“绵阳”对应的词向量为{绵阳:0.32，0.24，0.31，0.11，…}，邻居权重λ取0.5，则用户的词级属性向量表示为：[0.425，0.465，0.62，0.84，…]。

由此，用户的词级属性A_w被转换为一个特征矩阵

微博网络和豆瓣网络各自用户的词级属性特征矩阵分别表示为

和

(b6)嵌入主题级属性；主题级属性文本A_t由一系列长文本

组成，每个

首先需要通过分词技术转换为由单一词语构成的列表，这个词语列表即看作是一个文档w_i，网络中所有用户的主题级属性

则构成一个语料库；接下来，采用LDA主题模型来计算每个用户主题级属性文本的主题分布，并通过吉布斯采样进行参数估计，最后通过计算(式4)可得到每个文档w_i的主题概率向量

由此，网络中所有用户的主题级属性A_t被转换为一个矩阵

微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为

和

(c)采用网络嵌入模型LINE来将待匹配的社交网络转换为一个特征矩阵

其中d_s表示网络结构特征的维度；将步骤(b)中的用户属性特征P_c，P_w，P_t以及网络结构特征P_s进行拼接，得到最终的用户特征矩阵。

微博网络和豆瓣网络各自用户的特征矩阵分别表示为X和Y；接下来，在用户特征矩阵上进行0-1标准化操作，即将每一行的平均值转化为0，标准差转化为1。

(d)基于约束典型相关分析的线性投影；通过上述步骤，已将待匹配的两个社交网络(微博网络和豆瓣网络)映射到了两个不同的向量空间中，接下来将两个网络投影到同一个潜在向量空间中，从而使得匹配用户在空间中的距离最近。

在微博-豆瓣网络数据中，已知部分用户的真实身份，即两个网络中有少量预先匹配的用户对(即观察到的样本数据)；首先将这部分用户对应的特征向量从矩阵X和Y中提取出来，形成新的特征矩阵X_train和Y_train；再采用约束典型相关分析方法构建优化目标：ρ＝maxcorr(H^TX_train,M^TY_train)。

再根据(式6)-(式10)进行广义特征值分解即可求得两个线性投影矩阵

和

由此，微博网络和豆瓣网络各自在潜在向量空间Z中分别表示为：Z^X＝H^TX和Z^Y＝M^TY。

(e)识别匹配用户；对于来自微博网络G^X中的任意一个用户v_i，通过比较它与豆瓣网络G^Y中所有用户的在同一潜在向量空间Z中的距离，可以确定它的匹配用户：距离越小，说明两个用户更可能是同一个自然人。

本实例采用Top-k精确度(Precision@top-k)指标来评估所提出方法的性能。

命中精确度即真实样例在预测结果中排前k(k≥1)名的加权平均分数，命中精确度对排名靠前的样例赋予了较高的权重，其计算公式为：

其中hit(x)表示真实样例在前k个候选样例评分列表中的位置，当真实样例不在top-k列表中时，返回k+1。

在实验中，将用户特征维度设置为d_c＝d_w＝d_t＝d_s＝100，投影矩阵H/M的维度设置为k＝25，约束项r^X＝r^Y＝10⁵，训练样本数量设置为200个，测试样本数量设置为500个。

为说明本发明的优越性，选取了三个网络对齐的经典算法IONE、REGAL、ABNE来进行对比，每个方法进行10次随机重复实验，并取平均值作为最后结果，实验结果如表2所示。

表2在微博-豆瓣网络数据上的实验结果

实验结果表明本发明相比经典算法具有显著优越性。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。