CN109981337B

CN109981337B - 面向数据开放共享的多源数据对齐方法

Info

Publication number: CN109981337B
Application number: CN201910109179.7A
Authority: CN
Inventors: 熊贇; 焦乙竹; 朱扬勇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-02-04
Filing date: 2019-02-04
Publication date: 2021-04-30
Anticipated expiration: 2039-02-04
Also published as: CN109981337A

Abstract

本发明属于大数据技术领域，具体为一种面向数据开放共享的多源数据对齐方法。本发明方法包括：通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示，这里的邻居包括同一网络中的相邻结点和跨网络中通过锚链接连接的锚结点；对多源网络的复杂结构进行建模；其中，采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点，使网络之间通过锚链接转换更多有效信息，进一步丰富网络包含的信息，提升网络内部链接预测的性能。此外，对网络内部结点的有效建模，能够进一步提升跨网络链接的预测准确率。通过该方法，最后将多个来源的数据网络实现对齐。

Description

面向数据开放共享的多源数据对齐方法

技术领域

本发明属于大数据技术领域，具体涉及面向数据开放共享的多源数据对齐方法，即来自多个数据源的数据一致性检测方法。

背景技术

数据已经成为一种重要的基础性战略资源，实施国家大数据战略旨在全面推进我国大数据发展和应用,推动数据资源开放共享。数据开放共享能够为数据使用者提供多种来源的数据，这些数据之间存在着关联性，其中，多个数据源的数据一致性检测是一项重要的任务。大数据环境下，数据的形式越来越复杂，数据网络是复杂数据的一种重要表示形式，或称为图数据。这种类型的数据表达了数据之间的关系。而来自不同数据源的数据网络中的某些数据节点事实上表达了一致的信息，例如，一个用户会在微博上注册账户，同时也会在腾讯上注册账户，但是该用户在两个平台上使用的账户名可能是不同的，即在这两个平台上不同的节点表示了同一个用户。因此，当前众多在线平台鼓励用户使用跨平台账户登录，这便自然形成跨网络链接，用户针对不同的用途选择不同的社交应用，例如，人们通常使用Linkedln来结识工作伙伴同时在Instagram上发布图片。

在用户画像等数据分析应用场景中，通过利用这两个网络的数据，能够获得该用户更全面的信息，为后续用户分析提供丰富的数据基础。然而，存在大量的未使用跨平台账户登录的用户，即在不同平台仍然使用不同的账户名，因此，如何确定来自多个网络中的账户名是否对应同一个用户这样的问题是当前的一个研究热点，被称为网络对齐(NetworkAlignment)问题，即不同网络中的多个账户由同一用户持有，其被定义为“锚用户”。多网络链接预测是网络对齐的一种主要技术，即给定多个网络，通过这些网络中已知的部分节点间的对齐关系(经过人工核验的)，发现那些未知的对齐关系，即多个网络之间的锚链接。

本发明提出一种基于深度学习的注意力机制的多源数据对齐方法，实现网络对齐。该方法通过聚合其邻域的特征来计算多个网络中每个结点的隐藏表示，包括同一网络中的相邻结点和跨网络通过锚链接连接的锚结点。注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点，这使得网络之间通过锚链接转换更多有效信息，同时促进网络内部链接预测的性能。此外，网络之间有效的信息融合和传递有利于提升锚链接预测的性能。

发明内容

本发明的目的在于提供一种有效的基于注意力机制的面向数据开放共享的多源数据对齐方法。

本发明提供的基于注意力机制的面向数据开放共享的多源数据对齐方法，是通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示(这里的邻居包括同一网络中的相邻结点和跨网络中通过锚链接连接的锚结点)，对多源网络的复杂结构进行建模。其中，采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点，这使得网络之间通过锚链接转换更多有效信息，进一步丰富网络包含的信息，提升网络内部链接预测的性能。此外，对网络内部结点的有效建模，能够进一步提升跨网络链接的预测准确率。通过该方法，最后将多个来源的数据网络实现对齐。为下文方便描述，我们称需要对齐的多个来源的数据网络为待对齐网络。

本发明的核心是对复杂的多源网络进行有效的建模，通过跨网络信息传输和融合，学习网络结点的特征向量，从而在多个网络内部和网络之间进行更好的链接预测。网络结点邻居的传统定义是单个网络内部与指定结点之间有链接的结点，为此对待对齐网络进行建模，我们将网络结点邻居的概念拓展为同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点。我们提出跨网络的注意力机制，可以通过聚合来自其邻居的特征来学习每个结点的向量表示，将不同的重要性分配给不同的邻居结点，其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合。

下面以两个待对齐网络为例，介绍本发明方法，依此可扩展到多个网络，具体步骤如下：

(1)数据准备：给定两个待对齐网络

其中

表示两个网络G⁽¹⁾和G⁽²⁾之间的锚链接；节点对

当且仅当节点v_i ⁽¹⁾和u_j ⁽²⁾是网络G⁽¹⁾和G⁽²⁾中的对齐结点。例如，v_i ⁽¹⁾和u_j ⁽²⁾是两个社交网络G⁽¹⁾和G⁽²⁾中的同一个用户的不同账号。结点初始特征向量设为

其中，N是结点个数，F是每个结点的特征个数。

(2)模型构建：聚合邻居特征计算待对齐网络结点特征表示，即将步骤(1)中的初始特征转换到更高层的特征。对每个结点的特征使用共享的权重矩阵W∈R^F′×F进行线性变换，F′为转换后的特征个数；然后，使用共享的注意力机制a:R^F′×R^F′→R(注意力机制a是一个单层的前馈神经网络^[1])来计算注意力系数；将不同的重要性分配给邻域内的不同结点：

此处，以网络G⁽¹⁾中的结点v_i ⁽¹⁾为例，结点

表示结点v_i ⁽¹⁾在G⁽¹⁾中所有邻居结点，A_i ^(1,2)表示结点v_i ⁽¹⁾在G⁽²⁾中由锚链接连接的所有锚用户。

网络结点邻居包括同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点。为了方便描述，我们以结点的一阶邻居为例。为了使得不同结点的系数具有可比较性，使用softmax函数做正则化：

所述注意力机制a，即单层前馈神经网络，其参数为权重矩阵

激活函数选用LeakyReLU。因此，经过扩展后的注意力系数计算过程可表示如下：

其中，·^T表示矩阵转置，||表示向量连接操作。

我们提出跨网络的注意力机制以正则化后的注意力系数为权重，对邻居结点特征进行加权求和，最终得到每个结点的特征向量，将不同的重要性分配给不同的邻居结点，其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合(其中σ是激活函数)：

为了稳固注意力机制的学习过程，我们的方法使用多头(multi-head)注意力策略^[2]，具体来说，将k个独立的注意力机制得到的特征进行连接，从而产生以下特征表示：

其中，||表示向量连接操作，α_ij是第k次注意力机制计算出来的正则化后的注意力系数，W^k是对应的线性变换的权重矩阵。至此，我们通过注意力机制计算得到网络中所有结点新的特征向量，

对于网络中的所有链接(v_i,v_j)，包括网络内部的链接和跨网络的锚链接，我们采用负采样^[3]的方法来定义该链接的损失函数。

其中，σ(x)＝1/(1+exp(-x))是sigmoid函数。设置P_n(v)∝d_v ^3/4[3]，d_v是节点v的出度。所以整个网络的目标函数是所有链接的损失函数之和：

整个框架的完整目标函数除了上述的损失函数，还包含避免模型过拟合的正则化项，引入参数β表示正则化的强度，具体表达式如下：

(3)迭代优化参数：针对上述损失函数，选用优化方法进行多轮训练，迭代更新模型中的参数，最优化损失值的同时学习对齐网络这种复杂结构的特征，直到算法收敛或者达到设定的最高迭代次数。至此，我们的模型可以学到一系列新的结点特征：

(4)进行网络对齐：给定一对节点v_i和u_j，利用模型输出的结点特征来计算结点之间存在链接的概率：

我们认为概率较高的结点对更有可能形成链接，即具有一致的特征表示，例如，同一个用户的账号。如果给定属于不同网络的一对节点v_i ⁽¹⁾和u_j ⁽²⁾，模型的输出是这对节点之间形成锚链接的概率p(v_i ⁽¹⁾,u_j ⁽²⁾)，从而同时完成网络对齐。

附图说明

图1基于注意力机制的多源网络对齐问题示意图。

具体实施方式

下面将给出基于注意力机制对多源网络对齐的具体实施方法

(1)数据预处理：选取两个社交网络数据集twitter和foursquare进行实验，数据集包含两个网络中用户信息、用户之间的好友关系、用户发布的定位、时间戳和文章等，以及两个网络之间的锚链接。数据预处理的过程是先从数据集中提取用户发布的定位，进行one-hot编码，作为用户的初始特征向量。例如，数据集中总共包含五个位置{a,b,c,d,e},某用户发布过4次定位{a,a,c,d}，则该用户的初始特征为[2,0,1,1,0]。由此，可以得到两个网络中所有用户的初始特征向量

此外，分别将数据集的好友链接及锚链接都分为两个部分：随机选取60％的链接作为训练集，处理得到网络结构的邻接矩阵；剩下的链接作为测试集，对模型的预测性能进行评估。

(2)模型设计：模型的设计如上述内容介绍，模型的输入是两个网络中所有用户的初始特征向量、网络结构的邻接矩阵、锚链接。对于每一个结点，计算和其所有邻居(包括锚用户)的注意力系数，并进行归一化处理，基于注意力系数聚合邻居结点的特征，作为该结点的新特征。例如，设定用户的特征向量维度为3，权重矩阵W是单位矩阵，twitter中的用户a共有3个好友{b,c,d}，a在foursquare中的账号是e，用户b,c,d,e的特征向量分别是[1，2，0]，[3，0，0]，[0，1，1]，[1，1，1]，计算出a对这4个邻居结点的注意力系数分别为0.1,0.2,0.3,0.4，则可以计算出结点a新的特征向量为0.1*[1，2，0]+0.2*[3，0，0]+0.3*[0，1，1]+0.4*[1，1，1]＝[1，0.9，0.7]。这个过程采用多头注意力思想，选用不同的权重矩阵，分别进行8次计算，并将8次的结果拼接到一起，作为模型的输出。

(3)迭代优化参数：针对上述的目标函数，将进行多轮迭代优化，更新模型的参数，可以选用梯度下降^[4]的优化方法，每次迭代计算梯度，并按负梯度方向更新参数，直到算法收敛或者达到设定的最高迭代次数。此时，在训练集上完成模型的训练。

(4)完成网络对齐：对于测试集中的结点对，利用模型输出的结点特征来计算结点之间存在链接的概率：

我们认为概率较高的结点对更有可能形成好友链接或是同一个用户的账号。例如，给定结点v_i,结点v_j和结点v_k,三个结点的特征向量分别是

通过上述公式可得结点v_i和结点v_j之间形成连接的概率是p(v_i,v_j)＝1/(1+exp(-1.8))＝0.86，而结点v_i和结点v_k之间形成连接的概率是p(v_i,v_k)＝1/(1+exp(-0.2))＝0.55，因为p(v_i,v_j)>p(v_i,v_k)，所以结点v_i和结点v_j之间形成连接的概率更大。

通过本发明方法，为多个数据源的共享提供了一致性检测方法，采用注意力机制的思想，对面向数据开放共享的多源对齐网络数据进行有效建模，充分利用多个网络中的结构和属性信息，实现了跨网络的信息传输和融合，从而同时在网络内部链接预测和锚链接预测任务上达到很好的效果，相较于传统方法准确率提高近10％。

参考文献：

[1]Petar Velickovic,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Lio`,and Yoshua Bengio.Graph attention networks.ICLR 2018.

[2]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez,Lukasz Kaiser,and Illia Polosukhin.Attention is all youneed.Advances in Neural Information Processing Systems(NIPS)，2017.

[3]omas Mikolov,Ilya Sutskever,Kai Chen,Gregory S.Corrado,and JeffreyDean.Distributed Representations of Words and Phrases and theirCompo-sitionality.Advances in Neural Information Processing Systems(NIPS)，2013:3111-3119.

[4]A.Rakhlin,O.Shamir,and K.Sridharan.Making gradient descent optimalforstrongly convex stochastic optimization.Proceedings of the 29thInternationalConference on Machine Learning(ICML),2012.。

Claims

1.一种面向数据开放共享的多源数据对齐方法，其特征在于，通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示，对多源网络的复杂结构进行建模，其中，采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点，使得网络之间通过锚链接转换更多有效信息；具体步骤如下：

(1)数据准备：给定两个待对齐网络

其中

表示两个网络G⁽¹⁾和G⁽²⁾之间的锚链接；结点对

当且仅当结点v_i ⁽¹⁾和u_j ⁽²⁾是网络G⁽¹⁾和G⁽²⁾中的对齐结点；设结点初始特征向量设为

其中，N是结点个数，F是每个结点的特征个数；

(2)模型构建：聚合邻居特征计算待对齐网络结点特征表示，即将步骤(1)中的初始特征转换到更高层的特征；对每个结点的特征使用共享的权重矩阵W∈R^F′×F进行线性变换，F′为转换后的特征个数；然后，使用共享的注意力机制a:R^F′×R^F′→R来计算注意力系数，将不同的重要性分配给邻域内的不同结点：

以网络G⁽¹⁾中的结点v_i ⁽¹⁾为例，结点

表示结点v_i ⁽¹⁾在G⁽¹⁾中所有邻居结点，A_i ^(1,2)表示结点v_i ⁽¹⁾在G⁽²⁾中由锚链接连接的所有锚用户；

网络结点邻居包括同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点；为了使得不同结点的系数具有可比较性，使用softmax函数做正则化：

所述注意力机制a是一个单层的前馈神经网络，其参数为权重矩阵

激活函数选用LeakyReLU；于是，经过扩展后的注意力系数计算过程表示如下：

其中，·T表示矩阵转置，||表示向量连接操作；

跨网络的注意力机制以正则化后的注意力系数为权重，对邻居结点特征进行加权求和，最终得到每个结点的特征向量，将不同的重要性分配给不同的邻居结点，其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合：

其中，σ是激活函数；

为了稳固注意力机制的学习过程，使用多头注意力策略，即将k个独立的注意力机制得到的特征进行连接，从而产生以下特征表示：

其中，||表示向量连接操作，α_ij是第k次注意力机制计算出来的正则化后的注意力系数，W^k是对应的线性变换的权重矩阵；至此，通过注意力机制计算得到网络中所有结点新的特征向量，

对于网络中的所有链接(v_i,v_j)，包括网络内部的链接和跨网络的锚链接，采用负采样的方法定义该链接的损失函数：

其中，σ(x)＝1/(1+exp(-x))是sigmoid函数；设置P_n(v)∝d_v ^3/4[3]，d_v是结点v的出度；所以整个网络的目标函数是所有链接的损失函数之和：

(3)迭代优化参数：针对上述损失函数，选用优化方法进行多轮训练，迭代更新模型中的参数，最优化损失值的同时学习对齐网络这种复杂结构的特征，直到算法收敛或者达到设定的最高迭代次数；至此，模型可以学到一系列新的结点特征：

(4)进行网络对齐：给定一对结点v_i和u_j，利用模型输出的结点特征来计算结点之间存在链接的概率：

概率较高的结点对更有可能形成链接，即具有一致的特征表示；如果给定属于不同网络的一对结点v_i ⁽¹⁾和u_j ⁽²⁾，模型的输出是这对结点之间形成锚链接的概率p(v_i ⁽¹⁾,u_j ⁽²⁾)，从而同时完成网络对齐。