CN115080871B

CN115080871B - 一种跨社交网络社交用户对齐方法

Info

Publication number: CN115080871B
Application number: CN202210847062.0A
Authority: CN
Inventors: 佟玲玲; 段运强; 任博雅; 时磊; 候炜; 段东圣; 王海洋; 余翠玲; 井雅琪; 吕东
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-05-17
Anticipated expiration: 2042-07-07
Also published as: CN115080871A

Abstract

本发明公开了一种跨社交网络社交用户对齐方法，涉及社交网络的用户关系挖掘领域。本发明为了解决现有社交用户对齐方法不能跨社交网络、计算精度低、对齐效率低的缺陷，采用如下步骤实现：采集社交网络的用户属性信息，构建用户关系拓扑图；根据边权重和节点的出入度计算节点权重；构建一阶近邻关系模型和二阶近邻关系模型，确定一阶邻居节点和二阶邻居节点，得到用户节点之间的相互关系；构建社交对齐神经网络，通过社交对齐神经网络对用户关系拓扑图中各节点进行邻居节点的信息聚合、拼接与非线性变换，得到跨社交网络的社交用户身份对齐结果。本发明主要用于通过跨社交网络对其社交用户实现用户关系挖掘。

Description

一种跨社交网络社交用户对齐方法

技术领域

本发明涉及社交网络的用户关系挖掘领域，尤其涉及一种跨社交网络社交用户对齐方法。

背景技术

移动互联网时代，在网络上开展社交活动已成为人们学习、工作生活之余必不可少的部分，而随着人们社交需求日趋丰富，各式各样的社交媒体平台应运而生，在满足用户多样化社交目标的同时，也造成用户信息碎片化、难以有效收集与利用。如果能够有效识别来自于不同社交媒体平台的、属于同一社会自然人实体的多个社交虚拟账户，关联与融合同一社会自然人在多个社交媒体平台的用户数据，将有助于构建更为全面、准确的用户画像，为政府监管、企业推广提供有价值的参考。

然而，目前主流的跨社交网络用户对齐方法多面向静态社交网络，将用户属性信息及用户结构信息分离开来，分别构建应用于跨社交网络用户对齐模型，既无法将两类异构数据有效结合以提高用户对齐效率，又无法应对社交网络的动态变化。近期，一小部分研究将图卷积神经网络应用于社交网络用户对齐任务，特别是使用以GraphSAGE(GraphSAmple and aggreGatE，图样本聚合)为代表的“归纳学习式”图卷积神经网络，GraphSage(Graph SAmple and aggreGatE)属于Inductive learning算法，它能够学习一种聚合函数，通过聚合节点邻居的特征信息来学习目标节点本身的embedding(嵌入)表达，算法的核心步骤分别是邻居采样以及特征聚合。不仅可以同时捕获用户节点的属性信息与拓扑结构信息，还可有效应对社交网络的动态更新。然而，此类研究多直接将GraphSAGE等图卷积神经网络“移植”到“无权”跨社交网络用户对齐任务中，选取默认的信息聚合方法并采用无监督学习方式，未结合跨社交网络用户对齐任务的现实需求，做出有针对性的改进与调整。

我国专利申请号：CN202110718740.9，公开日：2021.09.24，公开了基于联合嵌入学习模型的跨社交网络用户身份识别方法，首先利用用户名相似度和网络结构从两个社交网络中选取候选配对用户对；然后以所有的候选配对用户对为节点构建用户对网络图；其次在构建的UPG(用户对网络图)和已标注的用户对数据的基础上，融合标注好的配对用户信息标签、结构信息和属性信息搭建联合嵌入学习模型，并将其设计成1个输入和2个输出的深度神经网络结构；最后利用随机梯度下降算法对联合嵌入模型的损失函数进行最小化学习，学习结束后利用模型的参数对需要预测的用户对进行预测，并判断输出是否为相同用户。

但本申请发明人在实现上述技术方案的过程中，发现上述技术至少存在如下技术问题：现有技术对于跨社交网络用户对齐方法多选取默认的信息聚合方法并采用无监督学习方式，未结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整，对齐过程中计算精度不足，导致对齐效率有待提高。

因此，就需要一种能够结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整、计算精度高、对齐效率高的跨社交网络社交用户对齐方法。

发明内容

本发明的目的是为了解决现有社交用户对齐方法不能跨社交网络、计算精度低、对齐效率低的缺陷，提供了一种能够结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整、计算精度高、对齐效率高的跨社交网络社交用户对齐方法。

本发明所述的一种跨社交网络社交用户对齐方法，包括以下步骤：

S1、构建用户关系拓扑图：采集N个社交网络的用户属性信息，分别以用户为节点，以用户间的关系为边，构建用户关系拓扑图；

S2、进行数据处理：预设边权重，基于所述用户关系拓扑图，对各用户节点的出入度进行统计，确定节点的出度和入度数量，根据所述边权重和所述节点的出入度计算节点权重；

S3、构建模型：为每个用户节点构建近邻关系模型，设立因子；

S4、确定邻居节点：根据节点权重设置起始用户节点，设立游走规则，根据游走规则对起始用户节点的邻居节点进行采样；根据游走规则遍历节点序列，最终得到用户节点之间的相互关系，并确定起始用户节点的邻居节点；

S5、构建社交对齐神经网络：对图卷积神经网络进行优化训练，得到社交对齐神经网络；

S6、获得社交用户身份对齐结果：利用所述用户关系拓扑图中已知的用户对组成三元组样本并构成三元组样本集合，将所述三元组样本集合中对应的用户特征向量作为所述社交对齐神经网络的输入，通过所述社交对齐神经网络对所述用户关系拓扑图中各节点进行K次邻居节点的信息聚合、拼接与非线性变换，得到跨社交网络的社交用户身份对齐结果；

所述N≥2，所述K≥2，且N和K均为自然数。

进一步地：在S4中，所述起始用户节点为节点权重最高的用户节点。

进一步地：在S4中，若N＝2，K＝2时，所述游走规则如下：

从起始用户节点的邻居中选取游走概率最高的邻居节点作为下一跳，所述游走概率为

其中，P(v₀,v_i)表示从起始用户节点v₀游走到用户节点v_i的游走概率，p为一阶因子，ω(e_0，i)表示起始用户节点v₀与用户节点v_i之间边的权重，q是二阶因子，dis(v₀，v_j)表示用户节点v_j到起始用户节点v₀的邻居节点数，ε是邻居节点数的阈值，e(dis(v₀)≤ε)表示到起始用户节点v₀的邻居节点数符合阈值的节点，v_j是到起始用户节点v₀的邻居节点数符合阈值的节点中的任意一个。

进一步地：在S4中，所述邻居节点采样遵循的规则为：

若节点实际邻居数量小于所需的邻居样本量，则采用有放回的采样方式；否则，采用无放回的采样方式。

进一步地：在S5中，所述优化训练方法为：设立多层隐含层，将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接，输入所述隐含层中进行学习训练，最终输出结果为输入用户对是同一自然人的概率与输入用户对不是同一自然人的概率，从而判断输入用户对是否为同一社会自然人实体。

进一步地：在S5中，所述优化训练方式使用有监督的训练方式，损失函数选择三元损失函数Triplet Loss。

进一步地：在S6中，采用加权平均的聚合函数，对所述各节点的聚合信息进行拼接与非线性变换。

本发明的有益效果是：

本发明设立游走规则获取用户节点间的结构信息，详细掌握用户节点的一阶邻居和高阶邻居情况，通过聚合用户多层好友的身份特征来获得自己的身份特征，充分考虑了社交网络的实际特点，有效避免了由于网络规模过大而导致的节点的度分辨率不高的问题和排除了对齐效果的冗余性。

通过对GraphSAGE进行优化，构建社交对齐神经网络，提取社交网络用户融合了网络嵌入和用户表征特征Embedding(嵌入层)，借鉴Triplet Network(三元组和网络)结构思想，采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习，在考虑跨社交网络对齐用户间相似性的同时，兼顾跨社交网络非对齐用户间差异，更符合跨社交网络用户对齐任务需求；提高了用户识别的准确率，在给定相同社交网络数据集条件下，本发明可以比仅考虑局部结构或仅利用配置文件信息的方法识别出更多的不同社交网络上的用户，具有较强的弹性拓展能力。

本发明的技术方案能够有效解决现有的对于跨社交网络用户对齐方法多选取默认的信息聚合方法并采用无监督学习方式，未结合跨社交网络用户对齐任务的现实需求作出有针对性的改进与调整，对齐过程中计算精度不足，导致对齐效率有待提高的问题。并且，上述方法经过了一系列的效果调研，通过验证，最终能够利用社交对齐神经网络提取社交网络用户融合了属性信息及拓扑结构信息的身份特征Embedding，借鉴Triplet Network结构思想，采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习，在考虑跨社交网络对齐用户间相似性的同时，兼顾跨社交网络非对齐用户间差异，更符合跨社交网络用户对齐任务需求。

附图说明

图1是一种跨社交网络社交用户对齐方法的流程图；

图2是一种跨社交网络社交用户对齐方法的整体设计图；

图3是图1所述的利用Triplet Loss训练社交对齐神经网络示意图。

具体实施方式

以下仅为本发明较佳的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。以下所述实施例仅用于解释本发明，而不能解释为对本发明的限制，本发明的保护范围应该以权利要求的保护范围为准。下面详细描述本发明的实施例，为了便于描述本发明和简化描述，本发明的说明书中使用的技术术语应当做广义解读，包括但不限于本申请未提及的常规替换方案，同时包括直接实现方式和间接实现方式。

实施例1

结合图1和图2说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，包括以下步骤：

S1、构建用户关系拓扑图：采集N个社交网络的用户属性信息，分别以用户为节点，以用户间的关系为边，构建用户关系拓扑图；其中，N＝2；

提取社交网络S₁与社交网络S₂共有的用户属性，利用自然语言处理及图像识别算法对各用户的共有属性作向量化处理；用户属性，如用户名、用户头像、性别、手机号等，对于文本类的用户属性中，利用现有的预训练语音模型(如：BERT模型)作向量化处理；图片类用户属性(如：用户头像等)，利用现有的图像处理算法(如：VGG16)将图片转为向量；将用户属性特征向量加以拼接，作为最终的用户特征向量；

基于预先采集的社交网络S₁与社交网络S₂的用户粉丝、关注等(包括关注、被关注、双向关注和不关注)社交关系，分别以用户为节点、用户间的粉丝/关注关系为边，构建社交网络的用户关系拓扑图G₁＝(V₁，E₁)、G₂＝(V₂，E₂)，其中，G₁和G₂为社交网络S₁与社交网络S₂所对应的用户关系拓扑图，V₁和V₂表示用户节点，E₁和E₂表示用户关系所构成的边；相比于“单向关注/被关注关系”，真实社会生活中存在好友关系的用户间往往倾向于在线上的社交网络中继续维持“双向关注”关系，故按照如下表所示规则，分别为社交网络用户关系拓扑图G₁、G₂的连接边赋予权重。

表1社交网络用户关系拓扑图边权重

边关系类型	权重
		单向关注/被关注	1
双向关注	2

S2、进行数据处理：预设边权重，基于所述用户关系拓扑图，对社交网络S₁与社交网络S₂中各用户节点的出入度进行统计，确定节点的出度和入度数量，根据所述边权重和所述节点的出入度计算节点权重；

所述节点权重的计算公式为：

其中，ω(v)表示用户节点v的权重，N(v)是与节点v有社交关系的其他节点的总数，u是与节点v有社交关系的任意一个节点，ω(v，u)是节点u与节点v之间边的权重。分子部分的含义为：与节点v有社交关系的所有节点与节点v之间边的权重之和，再乘2。

S3、构建模型：为每个用户节点构建一阶近邻关系模型和二阶近邻关系模型，设立一阶因子和二阶因子；一阶近邻关系是两个节点直接连接，二阶近邻关系是两个节点通过第三节点连接；

S4、确定一阶邻居节点和二阶邻居节点：根据节点权重设置起始用户节点，所述起始用户节点v₀为节点权重最高的用户节点，

设立游走规则，根据游走规则对起始用户节点的邻居节点进行采样；根据游走规则遍历节点序列，最终得到用户节点之间的相互关系，并确定起始用户节点v₀的一阶邻居节点和二阶邻居节点；同理，根据设立游走规则获取用户节点间的结构信息，详细掌握用户节点的一阶邻居、二阶邻居以及高阶邻居情况，通过聚合用户多层好友的身份特征来获得自己的身份特征，充分考虑了社交网络的实际特点，有效避免了由于网络规模过大而导致的节点的度分辨率不高的问题和排除了对齐效果的冗余性。

S5、构建社交对齐神经网络：对GraphSAGE图卷积神经网络进行优化训练，得到社交对齐神经网络；GraphSAGE是一种图神经网络算法，GraphSAGE使用多层聚合函数，每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量，GraphSAGE采用了节点的邻域信息，不依赖于全局的图结构。

S6、获得社交用户身份对齐结果：利用所述用户关系拓扑图中已知的用户对组成三元组样本并构成三元组样本集合，将所述三元组样本集合中对应的用户特征向量作为所述社交对齐神经网络的输入，通过所述社交对齐神经网络对所述用户关系拓扑图中各节点进行K次邻居节点的信息聚合、拼接与非线性变换，得到跨社交网络的社交用户身份对齐结果。

利用社交网络用户关系拓扑图G₁、G₂中已知的、确切指向同一社会自然人实体的用户对(分别记作与/>)及G₂中已知的、与/>确切不匹配的一个用户(记作/>)组成三元组样本，记作/> 由多个上述三元组样本构成三元组样本集合，记作

其中，|T|表示样本集合的数量。

实施例2

结合实施例1说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，在S4中，所述游走规则如下：

从起始用户节点v₀的邻居中选取游走概率最高的邻居节点作为下一跳，所述游走概率为

其中，P(v₀,v_i)表示起始用户节点v₀游走到用户节点v_i的游走概率，p为一阶因子，ω(e_0,i)表示起始用户节点v₀与用户节点v_i之间边的权重，q是二阶因子，dis(v₀,v_j)表示用户节点v_j到起始用户节点v₀的邻居节点数，ε是邻居节点数的阈值，e(dis(v₀)≤ε)表示到起始用户节点v₀的邻居节点数符合阈值的节点，v_j是到起始用户节点v₀的邻居节点数符合阈值的节点中的任意一个。一阶近邻关系模型中的节点与起始用户节点直接相连，二阶近邻关系模型中的节点与起始用户节点不直接相连，是通过其他节点间接连接，但中间的节点数不超过阈值。

实施例3

结合实施例1说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，在S4中，所述邻居节点采样遵循的规则为：

考虑到社交网络具有以极高频率、不断动态变化的特性，选择对GraphSAGE图卷积神经网络进行优化，得到社交对齐神经网络，以应用于动态变化的社交网络；根据优化后的GraphSAGE运行流程，首先需要对社交网络用户关系拓扑图、中各节点进行邻居节点采样。

具体的，分别对社交网络用户关系拓扑图G₁、G₂中各节点进行固定数量的一阶邻居、二阶邻居采样，采样遵循的规则为：若节点实际邻居数量小于所需的邻居样本量，则采用有放回的采样方式；否则，采用无放回的采样方式。采样结果标记如下：G₁网络中节点v的一阶、二阶邻居采样结果分别记作G₂网络中节点v的一阶、二阶邻居采样结果分别记作/>

将三元组样本集合T中对应的用户特征向量作为社交对齐神经网络的输入，对社交网络用户关系拓扑图G₁、G₂中各节点进行K次邻居节点信息聚合、拼接与非线性变换。该过程的伪代码如下：

其中，为以用户节点v为中心的初始聚合函数，x_v为初始聚合函数的值，V_i表示社交网络用户关系拓扑图G₁、G₂中的节点集合，AGGREGATE_k表示聚合函数公式，/>表示社交网络用户关系拓扑图G₁、G₂中节点v的k层邻居采样结果，节点u是节点v的k层邻居中的一个，CONCAT用于连接两个或多个数组，完成节点信息的拼接，/>为非线性变换后的值，为由聚合函数公式AGGREGATE_k得到的聚合函数值，z_v表示最终得到的聚合函数结果。

AGGREGATE函数是返回列表或数据库中的合计，AGGREGATE函数可将不同的聚合函数应用于列表或数据库，并提供忽略隐藏行和错误值的选项。CONCAT函数是将多个区域或字符串中的文本组合起来。

实施例4

结合实施例1-3说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，在S5中，所述优化训练方法为：设立多层隐含层，将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接，输入所述隐含层中进行学习训练，最终输出结果为输入用户对为同一自然人的概率与非同一自然人的概率；从而判断是否为同一用户。

设立多层隐含层，将学习得到的社交网络S₁与社交网络S₂的用户身份特征Embedding进行两两拼接，输入隐含层中进行学习训练，最终输出结果为输入用户对为同一自然人的概率与非同一自然人的概率；从而判断是否为同一用户。将(anchor_user^S1,positive_user^S2,negative_user^S2)三元组样本Embedding表示分别进行拼接，anchor_user^S1与positive_user^S2拼接结果作为正样本，anchor_user^S1与negative_user^S2拼接结果作为负样本，使用随机梯度下降法，对模型参数进行多轮学习与训练；直至正确率达到预期的效果为止，从而完成社交对齐神经网络的训练，通过将样本数据输入到社交对齐神经网络中，得到最终的用户身份对齐结果。通过对GraphSAGE进行优化，构建社交对齐神经网络，提取社交网络用户融合了网络嵌入和用户表征特征Embedding，借鉴Triplet Network结构思想，采用Triplet Loss作为损失函数对GraphSAGE网络进行有监督学习，在考虑跨社交网络对齐用户间相似性的同时，兼顾跨社交网络非对齐用户间差异，更符合跨社交网络用户对齐任务需求；提高了用户识别的准确率，在给定相同社交网络数据集条件下，本实施例可以比仅考虑局部结构或仅利用配置文件信息的方法识别出更多的不同社交网络上的用户，具有较强的弹性拓展能力。

实施例5

结合图3和实施例1-4说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，在S5中，所述优化训练方式使用有监督的训练方式，损失函数选择Triplet Loss。

在现有研究中，多基于“图中临近节点具有更为相似的向量表示，分离节点向量表示尽可能有所区分”思想，以“无监督”方式进行网络参数学习。然而，上述思想只适用于描述“同一网络内”的节点关系，并不符合“多源异构”网络用户对齐任务的现实需求。因此，本实施例提出使用有监督的训练方式，损失函数选择Triplet Loss(如下公式所示)。该损失函数可同时兼顾“多源网络匹配节点特征向量尽可能相似”、“多源网络非匹配节点特征向量尽可能有所区别”的训练目标；具体损失函数公式为：

其中，threshold为阈值，i＝{1,2}。

训练完成后，得到各节点对应的融合了属性信息及网络拓扑结构信息的用户身份特征Embedding。对于社交网络中新增的用户节点，可利用该节点的属性信息及其邻居信息作为输入，利用训练完成的社交对齐神经网络可快速聚合得到新增节点的身份特征Embedding，以适应社交网络的动态变化特性。

实施例6

结合实施例1说明本实施例，本实施例公开一种跨社交网络社交用户对齐方法，在S6中，采用加权平均的聚合函数，对所述各节点的聚合信息进行拼接与非线性变换。

具体的，在聚合函数选择方面，现有的相关研究多选择“平均聚合”方式对节点的采样邻居节点特征向量进行聚合。然而，本实施例所述社交网络用户关系拓扑结构图G₁、G₂属于加权网络，不同权重的采样邻居节点对目标节点的信息聚合影响程度不同。因此，本实施例采用“加权平均”的聚合函数，即在对采样邻居节点各维度特征向量进行聚合时，同时考虑采样邻居节点与目标节点间的边权重，以及邻近节点的节点权重，聚合函数如下所示：

其中，AGGREGATE_k表示第k层聚合函数，ω(e_u,n)表示邻居节点u与邻居节点n之间边的连接权重，ω(u)表示节点u的节点权重，ω(n)表示节点n的节点权重，表示邻居节点u的k层聚合函数，/>对于所有的节点u均计算社交网络用户关系拓扑图G₁、G₂中节点v的k层邻居采样结果。在非线性变换方面，可选择RELU函数(取最大值函数)作为激活函数。激活函数是用来加入非线性因素的，因为线性模型的表达力不够。

对聚合信息进行拼接与非线性变换，迭代公式从1开始遍历到最大网络层数K停止。具体公式如下：

Claims

1.一种跨社交网络社交用户对齐方法，其特征在于，包括以下步骤：

所述游走规则如下：

其中，P(v₀,v_i)表示起始用户节点v₀游走到用户节点v_i的游走概率，p为一阶因子，ω(e_0,i)表示起始用户节点v₀与用户节点v_i之间边的权重，q是二阶因子，dis(v₀,v_j)表示用户节点v_j到起始用户节点v₀的邻居节点数，ε是邻居节点数的阈值，e(dis(v₀)≤ε)表示到起始用户节点v₀的邻居节点数符合阈值的节点，v_j是到起始用户节点v₀的邻居节点数符合阈值的节点中的任意一个；

所述N≥2，所述K≥2，且N和K均为自然数。

2.根据权利要求1所述的一种跨社交网络社交用户对齐方法，其特征在于，在S4中，所述起始用户节点为节点权重最高的用户节点。

3.根据权利要求1所述的一种跨社交网络社交用户对齐方法，其特征在于，在S4中，所述邻居节点采样遵循的规则为：

4.根据权利要求1-3任一项所述的一种跨社交网络社交用户对齐方法，其特征在于，在S5中，所述优化训练方法为：设立多层隐含层，将学习得到的所述社交对齐神经网络与用户的身份特征进行两两拼接，输入所述隐含层中进行学习训练，最终输出结果为输入用户对是同一自然人的概率与输入用户对不是同一自然人的概率，从而判断输入用户对是否为同一社会自然人实体。

5.根据权利要求1-3任一项所述的一种跨社交网络社交用户对齐方法，其特征在于，在S5中，所述优化训练方式使用有监督的训练方式，损失函数选择Triplet Loss。

6.根据权利要求1-3任一项所述的一种跨社交网络社交用户对齐方法，其特征在于，在S6中，采用加权平均的聚合函数，对所述各节点的聚合信息进行拼接与非线性变换。