CN109981337B - 面向数据开放共享的多源数据对齐方法 - Google Patents
面向数据开放共享的多源数据对齐方法 Download PDFInfo
- Publication number
- CN109981337B CN109981337B CN201910109179.7A CN201910109179A CN109981337B CN 109981337 B CN109981337 B CN 109981337B CN 201910109179 A CN201910109179 A CN 201910109179A CN 109981337 B CN109981337 B CN 109981337B
- Authority
- CN
- China
- Prior art keywords
- network
- node
- nodes
- networks
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Abstract
本发明属于大数据技术领域,具体为一种面向数据开放共享的多源数据对齐方法。本发明方法包括:通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示,这里的邻居包括同一网络中的相邻结点和跨网络中通过锚链接连接的锚结点;对多源网络的复杂结构进行建模;其中,采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点,使网络之间通过锚链接转换更多有效信息,进一步丰富网络包含的信息,提升网络内部链接预测的性能。此外,对网络内部结点的有效建模,能够进一步提升跨网络链接的预测准确率。通过该方法,最后将多个来源的数据网络实现对齐。
Description
技术领域
本发明属于大数据技术领域,具体涉及面向数据开放共享的多源数据对齐方法,即来自多个数据源的数据一致性检测方法。
背景技术
数据已经成为一种重要的基础性战略资源,实施国家大数据战略旨在全面推进我国大数据发展和应用,推动数据资源开放共享。数据开放共享能够为数据使用者提供多种来源的数据,这些数据之间存在着关联性,其中,多个数据源的数据一致性检测是一项重要的任务。大数据环境下,数据的形式越来越复杂,数据网络是复杂数据的一种重要表示形式,或称为图数据。这种类型的数据表达了数据之间的关系。而来自不同数据源的数据网络中的某些数据节点事实上表达了一致的信息,例如,一个用户会在微博上注册账户,同时也会在腾讯上注册账户,但是该用户在两个平台上使用的账户名可能是不同的,即在这两个平台上不同的节点表示了同一个用户。因此,当前众多在线平台鼓励用户使用跨平台账户登录,这便自然形成跨网络链接,用户针对不同的用途选择不同的社交应用,例如,人们通常使用Linkedln来结识工作伙伴同时在Instagram上发布图片。
在用户画像等数据分析应用场景中,通过利用这两个网络的数据,能够获得该用户更全面的信息,为后续用户分析提供丰富的数据基础。然而,存在大量的未使用跨平台账户登录的用户,即在不同平台仍然使用不同的账户名,因此,如何确定来自多个网络中的账户名是否对应同一个用户这样的问题是当前的一个研究热点,被称为网络对齐(NetworkAlignment)问题,即不同网络中的多个账户由同一用户持有,其被定义为“锚用户”。多网络链接预测是网络对齐的一种主要技术,即给定多个网络,通过这些网络中已知的部分节点间的对齐关系(经过人工核验的),发现那些未知的对齐关系,即多个网络之间的锚链接。
本发明提出一种基于深度学习的注意力机制的多源数据对齐方法,实现网络对齐。该方法通过聚合其邻域的特征来计算多个网络中每个结点的隐藏表示,包括同一网络中的相邻结点和跨网络通过锚链接连接的锚结点。注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点,这使得网络之间通过锚链接转换更多有效信息,同时促进网络内部链接预测的性能。此外,网络之间有效的信息融合和传递有利于提升锚链接预测的性能。
发明内容
本发明的目的在于提供一种有效的基于注意力机制的面向数据开放共享的多源数据对齐方法。
本发明提供的基于注意力机制的面向数据开放共享的多源数据对齐方法,是通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示(这里的邻居包括同一网络中的相邻结点和跨网络中通过锚链接连接的锚结点),对多源网络的复杂结构进行建模。其中,采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点,这使得网络之间通过锚链接转换更多有效信息,进一步丰富网络包含的信息,提升网络内部链接预测的性能。此外,对网络内部结点的有效建模,能够进一步提升跨网络链接的预测准确率。通过该方法,最后将多个来源的数据网络实现对齐。为下文方便描述,我们称需要对齐的多个来源的数据网络为待对齐网络。
本发明的核心是对复杂的多源网络进行有效的建模,通过跨网络信息传输和融合,学习网络结点的特征向量,从而在多个网络内部和网络之间进行更好的链接预测。网络结点邻居的传统定义是单个网络内部与指定结点之间有链接的结点,为此对待对齐网络进行建模,我们将网络结点邻居的概念拓展为同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点。我们提出跨网络的注意力机制,可以通过聚合来自其邻居的特征来学习每个结点的向量表示,将不同的重要性分配给不同的邻居结点,其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合。
下面以两个待对齐网络为例,介绍本发明方法,依此可扩展到多个网络,具体步骤如下:
(1)数据准备:给定两个待对齐网络其中表示两个网络G(1)和G(2)之间的锚链接;节点对当且仅当节点vi (1)和uj (2)是网络G(1)和G(2)中的对齐结点。例如,vi (1)和uj (2)是两个社交网络G(1)和G(2)中的同一个用户的不同账号。结点初始特征向量设为其中,N是结点个数,F是每个结点的特征个数。
(2)模型构建:聚合邻居特征计算待对齐网络结点特征表示,即将步骤(1)中的初始特征转换到更高层的特征。对每个结点的特征使用共享的权重矩阵W∈RF′×F进行线性变换,F′为转换后的特征个数;然后,使用共享的注意力机制a:RF′×RF′→R(注意力机制a是一个单层的前馈神经网络[1])来计算注意力系数;将不同的重要性分配给邻域内的不同结点:
网络结点邻居包括同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点。为了方便描述,我们以结点的一阶邻居为例。为了使得不同结点的系数具有可比较性,使用softmax函数做正则化:
其中,·T表示矩阵转置,||表示向量连接操作。
我们提出跨网络的注意力机制以正则化后的注意力系数为权重,对邻居结点特征进行加权求和,最终得到每个结点的特征向量,将不同的重要性分配给不同的邻居结点,其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合(其中σ是激活函数):
为了稳固注意力机制的学习过程,我们的方法使用多头(multi-head)注意力策略[2],具体来说,将k个独立的注意力机制得到的特征进行连接,从而产生以下特征表示:
对于网络中的所有链接(vi,vj),包括网络内部的链接和跨网络的锚链接,我们采用负采样[3]的方法来定义该链接的损失函数。
其中,σ(x)=1/(1+exp(-x))是sigmoid函数。设置Pn(v)∝dv 3/4[3],dv是节点v的出度。所以整个网络的目标函数是所有链接的损失函数之和:
整个框架的完整目标函数除了上述的损失函数,还包含避免模型过拟合的正则化项,引入参数β表示正则化的强度,具体表达式如下:
(3)迭代优化参数:针对上述损失函数,选用优化方法进行多轮训练,迭代更新模型中的参数,最优化损失值的同时学习对齐网络这种复杂结构的特征,直到算法收敛或者达到设定的最高迭代次数。至此,我们的模型可以学到一系列新的结点特征:
附图说明
图1基于注意力机制的多源网络对齐问题示意图。
具体实施方式
下面将给出基于注意力机制对多源网络对齐的具体实施方法
(1)数据预处理:选取两个社交网络数据集twitter和foursquare进行实验,数据集包含两个网络中用户信息、用户之间的好友关系、用户发布的定位、时间戳和文章等,以及两个网络之间的锚链接。数据预处理的过程是先从数据集中提取用户发布的定位,进行one-hot编码,作为用户的初始特征向量。例如,数据集中总共包含五个位置{a,b,c,d,e},某用户发布过4次定位{a,a,c,d},则该用户的初始特征为[2,0,1,1,0]。由此,可以得到两个网络中所有用户的初始特征向量此外,分别将数据集的好友链接及锚链接都分为两个部分:随机选取60%的链接作为训练集,处理得到网络结构的邻接矩阵;剩下的链接作为测试集,对模型的预测性能进行评估。
(2)模型设计:模型的设计如上述内容介绍,模型的输入是两个网络中所有用户的初始特征向量、网络结构的邻接矩阵、锚链接。对于每一个结点,计算和其所有邻居(包括锚用户)的注意力系数,并进行归一化处理,基于注意力系数聚合邻居结点的特征,作为该结点的新特征。例如,设定用户的特征向量维度为3,权重矩阵W是单位矩阵,twitter中的用户a共有3个好友{b,c,d},a在foursquare中的账号是e,用户b,c,d,e的特征向量分别是[1,2,0],[3,0,0],[0,1,1],[1,1,1],计算出a对这4个邻居结点的注意力系数分别为0.1,0.2,0.3,0.4,则可以计算出结点a新的特征向量为0.1*[1,2,0]+0.2*[3,0,0]+0.3*[0,1,1]+0.4*[1,1,1]=[1,0.9,0.7]。这个过程采用多头注意力思想,选用不同的权重矩阵,分别进行8次计算,并将8次的结果拼接到一起,作为模型的输出。
(3)迭代优化参数:针对上述的目标函数,将进行多轮迭代优化,更新模型的参数,可以选用梯度下降[4]的优化方法,每次迭代计算梯度,并按负梯度方向更新参数,直到算法收敛或者达到设定的最高迭代次数。此时,在训练集上完成模型的训练。
(4)完成网络对齐:对于测试集中的结点对,利用模型输出的结点特征来计算结点之间存在链接的概率:我们认为概率较高的结点对更有可能形成好友链接或是同一个用户的账号。例如,给定结点vi,结点vj和结点vk,三个结点的特征向量分别是通过上述公式可得结点vi和结点vj之间形成连接的概率是p(vi,vj)=1/(1+exp(-1.8))=0.86,而结点vi和结点vk之间形成连接的概率是p(vi,vk)=1/(1+exp(-0.2))=0.55,因为p(vi,vj)>p(vi,vk),所以结点vi和结点vj之间形成连接的概率更大。
通过本发明方法,为多个数据源的共享提供了一致性检测方法,采用注意力机制的思想,对面向数据开放共享的多源对齐网络数据进行有效建模,充分利用多个网络中的结构和属性信息,实现了跨网络的信息传输和融合,从而同时在网络内部链接预测和锚链接预测任务上达到很好的效果,相较于传统方法准确率提高近10%。
参考文献:
[1]Petar Velickovic,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Lio`,and Yoshua Bengio.Graph attention networks.ICLR 2018.
[2]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez,Lukasz Kaiser,and Illia Polosukhin.Attention is all youneed.Advances in Neural Information Processing Systems(NIPS),2017.
[3]omas Mikolov,Ilya Sutskever,Kai Chen,Gregory S.Corrado,and JeffreyDean.Distributed Representations of Words and Phrases and theirCompo-sitionality.Advances in Neural Information Processing Systems(NIPS),2013:3111-3119.
[4]A.Rakhlin,O.Shamir,and K.Sridharan.Making gradient descent optimalforstrongly convex stochastic optimization.Proceedings of the 29thInternationalConference on Machine Learning(ICML),2012.。
Claims (1)
1.一种面向数据开放共享的多源数据对齐方法,其特征在于,通过聚合其邻居的特征来计算多个网络中每个结点的隐藏表示,对多源网络的复杂结构进行建模,其中,采用注意力策略允许隐含地将不同的重要性分配给邻域内的不同结点,使得网络之间通过锚链接转换更多有效信息;具体步骤如下:
(1)数据准备:给定两个待对齐网络其中表示两个网络G(1)和G(2)之间的锚链接;结点对当且仅当结点vi (1)和uj (2)是网络G(1)和G(2)中的对齐结点;设结点初始特征向量设为其中,N是结点个数,F是每个结点的特征个数;
(2)模型构建:聚合邻居特征计算待对齐网络结点特征表示,即将步骤(1)中的初始特征转换到更高层的特征;对每个结点的特征使用共享的权重矩阵W∈RF′×F进行线性变换,F′为转换后的特征个数;然后,使用共享的注意力机制a:RF′×RF′→R来计算注意力系数,将不同的重要性分配给邻域内的不同结点:
网络结点邻居包括同一网络中的相邻结点和通过其他网络中的锚链接连接的锚结点;为了使得不同结点的系数具有可比较性,使用softmax函数做正则化:
其中,·T表示矩阵转置,||表示向量连接操作;
跨网络的注意力机制以正则化后的注意力系数为权重,对邻居结点特征进行加权求和,最终得到每个结点的特征向量,将不同的重要性分配给不同的邻居结点,其中通过聚合锚用户的有效信息来确保跨网络信息传输和融合:
其中,σ是激活函数;
为了稳固注意力机制的学习过程,使用多头注意力策略,即将k个独立的注意力机制得到的特征进行连接,从而产生以下特征表示:
对于网络中的所有链接(vi,vj),包括网络内部的链接和跨网络的锚链接,采用负采样的方法定义该链接的损失函数:
其中,σ(x)=1/(1+exp(-x))是sigmoid函数;设置Pn(v)∝dv 3/4[3],dv是结点v的出度;所以整个网络的目标函数是所有链接的损失函数之和:
整个框架的完整目标函数除了上述的损失函数,还包含避免模型过拟合的正则化项,引入参数β表示正则化的强度,具体表达式如下:
(3)迭代优化参数:针对上述损失函数,选用优化方法进行多轮训练,迭代更新模型中的参数,最优化损失值的同时学习对齐网络这种复杂结构的特征,直到算法收敛或者达到设定的最高迭代次数;至此,模型可以学到一系列新的结点特征:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910109179.7A CN109981337B (zh) | 2019-02-04 | 2019-02-04 | 面向数据开放共享的多源数据对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910109179.7A CN109981337B (zh) | 2019-02-04 | 2019-02-04 | 面向数据开放共享的多源数据对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109981337A CN109981337A (zh) | 2019-07-05 |
CN109981337B true CN109981337B (zh) | 2021-04-30 |
Family
ID=67076923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910109179.7A Active CN109981337B (zh) | 2019-02-04 | 2019-02-04 | 面向数据开放共享的多源数据对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109981337B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931505A (zh) * | 2020-05-22 | 2020-11-13 | 北京理工大学 | 一种基于子图嵌入的跨语言实体对齐方法 |
CN112507247B (zh) * | 2020-12-15 | 2022-09-23 | 重庆邮电大学 | 一种融合用户状态信息的跨社交网络用户对齐方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1777037A (zh) * | 2005-12-01 | 2006-05-24 | 复旦大学 | 可抑制比较器失调影响的流水线结构模数转换器 |
CN101876892A (zh) * | 2010-05-20 | 2010-11-03 | 复旦大学 | 面向通信和多媒体应用的单指令多数据处理器电路结构 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107608655A (zh) * | 2016-10-03 | 2018-01-19 | 上海兆芯集成电路有限公司 | 微处理器中执行fma指令的方法和微处理器 |
CN107633181A (zh) * | 2017-09-12 | 2018-01-26 | 复旦大学 | 面向数据开放共享的数据模型及其运作系统 |
CN107656972A (zh) * | 2017-09-02 | 2018-02-02 | 复旦大学 | 一种保持数据稀缺性的开放数据细粒度访问控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001267216A (ja) * | 2000-03-17 | 2001-09-28 | Nikon Corp | 位置検出方法、位置検出装置、露光方法、及び露光装置 |
-
2019
- 2019-02-04 CN CN201910109179.7A patent/CN109981337B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1777037A (zh) * | 2005-12-01 | 2006-05-24 | 复旦大学 | 可抑制比较器失调影响的流水线结构模数转换器 |
CN101876892A (zh) * | 2010-05-20 | 2010-11-03 | 复旦大学 | 面向通信和多媒体应用的单指令多数据处理器电路结构 |
CN107608655A (zh) * | 2016-10-03 | 2018-01-19 | 上海兆芯集成电路有限公司 | 微处理器中执行fma指令的方法和微处理器 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN107656972A (zh) * | 2017-09-02 | 2018-02-02 | 复旦大学 | 一种保持数据稀缺性的开放数据细粒度访问控制方法 |
CN107633181A (zh) * | 2017-09-12 | 2018-01-26 | 复旦大学 | 面向数据开放共享的数据模型及其运作系统 |
Non-Patent Citations (4)
Title |
---|
A Framework for Collective Evolution Inference in Dynamic Heterogeneous Networks;熊贇等;《IEEE》;20180111;全文 * |
Attention-based Wav2Text with feature transfer learning;Andros Tjandra 等;《IEEE》;20180125;全文 * |
数据自治开放模式;朱杨勇等;《大数据》;20180315;全文 * |
面向数据自治开放的数据盒模型;熊贇等;《大数据》;20180315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109981337A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909865B (zh) | 边缘计算中基于分层张量分解的联邦学习方法 | |
CN109960759B (zh) | 基于深度神经网络的推荐系统点击率预测方法 | |
CN109948029B (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN114912705A (zh) | 一种联邦学习中异质模型融合的优化方法 | |
CN109981337B (zh) | 面向数据开放共享的多源数据对齐方法 | |
CN109977972B (zh) | 一种基于step的智能特征识别方法 | |
CN108734223A (zh) | 基于社区划分的社交网络好友推荐方法 | |
CN113407864B (zh) | 一种基于混合注意力网络的群组推荐方法 | |
CN115775026B (zh) | 一种基于组织相似度的联邦学习方法 | |
CN110263236A (zh) | 基于动态多视图学习模型的社交网络用户多标签分类方法 | |
CN114639483A (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
CN112884045A (zh) | 基于多视角的随机删边嵌入模型的分类方法 | |
CN111597276A (zh) | 实体对齐方法、装置和设备 | |
CN115098692A (zh) | 跨域推荐方法、装置、电子设备及存储介质 | |
CN109299491B (zh) | 一种基于动态影响图对策的元模型建模方法及使用方法 | |
CN116757262B (zh) | 图神经网络的训练方法、分类方法、装置、设备及介质 | |
CN109919793A (zh) | 活动参与分析及推荐方法 | |
CN116450954A (zh) | 一种基于图卷积网络的协同过滤推荐方法 | |
Zhao et al. | Building innovative service composition based on two-way selection in cloud manufacturing environment | |
CN114792187A (zh) | 基于意愿和信任双重约束的群智感知团队招募方法及系统 | |
CN113361928B (zh) | 一种基于异构图注意力网络的众包任务推荐方法 | |
CN116304289A (zh) | 基于图神经网络的供应链的信息链推荐方法及装置 | |
CN113849725B (zh) | 一种基于图注意力对抗网络的社会化推荐方法及系统 | |
CN115908600A (zh) | 基于先验正则化的大批量图像重建方法 | |
CN113034298A (zh) | 移动社会网络中一种基于节点吸引力的重要用户识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |