CN111460275B

CN111460275B - 一种面向社交网络的动态网络表示学习方法及系统

Info

Publication number: CN111460275B
Application number: CN202010042807.7A
Authority: CN
Inventors: 金海�; 黄宏; 王璐
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-04-18
Anticipated expiration: 2040-01-15
Also published as: CN111460275A

Abstract

本发明公开了一种面向社交网络的动态网络表示学习方法及系统，属于社交网络数据挖掘领域，包括：获取社交网络的动态网络在多个连续时间戳下的拉普拉斯矩阵；对于每一个拉普拉斯矩阵，由其对应的私有自编码器和共享自编码器分别进行网络表示学习，将两个网络表示结果拼接后输入对应的解编码器，还原出拉普拉斯矩阵；基于重构损失约束、相似性损失约束和差异损失约束构建损失函数，以最小化损失函数值为目标，在反向传播的过程中调整自编码器的模型参数，完成一次训练；重复直至满足终止条件；将最后一次训练的拼接结果作为对应时间戳下动态网络的最终表示结果。本发明能够提取动态网络结构的高阶非线性结构，并准确挖掘动社交网络的演化特征。

Description

一种面向社交网络的动态网络表示学习方法及系统

技术领域

本发明属于社交网络数据挖掘领域，更具体地，涉及一种面向社交网络的动态网络表示学习方法及系统。

背景技术

随着互联网的兴起，用于社交的网络相关应用(如qq，微信，微博等)变得越来越普及，基于社交网络的数据挖掘任务(如用户分类，朋友推荐等)也变得越来越重要，动态网络是一种十分重要的用于表示社交网络的工具。社交网络的网络数据通常是复杂难处理的，且其网络结构实时变化，用户的兴趣点以及社会关系都在平滑变化，因此如何从历史的社交网络结构中挖掘动态的演变特征、学习节点的低维向量表示是十分必要的。

网络表示学习(Network Representation Learning)，又称为网络嵌入(NetworkEmbedding)、图嵌入(Graph Embedding)，它旨在将网络中的节点表示成低维、实值、稠密的向量形式，使得得到的向量形式可以在向量空间中具有表示以及推理的能力，同时可轻松方便的作为机器学习模型的输入，进而可将得到的向量表示运用到社交网络中常见的应用中，如可视化任务、节点分类任务、链接预测以及社区发现等任务，还可以以链接预测的形式应用到推荐系统等其他常见任务中。网络表示学习是挖掘社交网络结构的动态演变特征、学习节点的低维向量表示的有效方法。

动态网络表示学习依赖于已得到广泛研究的静态网络表示学习方法，在浅层模型中，比如用skip-gram模型从随机游走序列中提取表示向量。但是，现有的动态网络表示模型只能获取网络的低阶线性结构，但是，现实中，社交网络往往是不断变化的，相应地，用于表示社交网络的动态网络中不同时间的网络结构也会不断变化，仅仅获取网络的低阶非线性结构，并不能准确挖掘网络结构的演化特征，从而链接预测、节点分类、社区发现等下游应用的准确性也会受到影响。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种面向社交网络的动态网络表示方法及系统，其目的在于，提取用于表示社交网络的动态网络结构的高阶非线性结构，并准确挖掘动态网络结构的演化特征。

为实现上述目的，按照本发明的第一方面，提供了一种面向社交网络的网络表示学习方法，包括：

(S1)从历史数据中获取动态网络在v个连续时间戳下的拉普拉斯矩阵；动态网络用于表示社交网络，v为正整数；

(S2)对于每一个时间戳下的拉普拉斯矩阵，将其分别输入与其时间戳对应的私有自编码器和由所有时间戳共享的共享自编码器，由私有自编码器和共享自编码器分别进行网络表示学习，将所得到的两个网络表示结果拼接以得到该时间戳下的中间表示结果，并将中间表示结果输入与其时间戳相对应的解编码器，由解编码器还原出拉普拉斯矩阵；

(S3)在还原得到各时间戳下的拉普拉斯矩阵后，基于重构损失约束、相似性损失约束和差异损失约束构建损失函数，以最小化损失函数值为目标，在反向传播的过程中调整各私有自编码器及共享自编码器的模型参数，从而完成一次训练；

(S4)重复执行步骤(S2)～(S3)，直至达到最大迭代次数或满足精度要求，从而完成对私有自编码器及共享自编码器的训练；

(S5)将最后一次训练中，各时间戳下的中间表示结果作为对应时间戳下，动态网络的最终表示结果；

其中，自编码器为基于神经网络的模型，并且其中每一层的输出都直接与输入的拉普拉斯矩阵相关；自编码器为共享自编码器或私有自编码器。

本发明中，自编码器(包括私有自编码器和共享自编码器)均为神经网络结构，并且其中每一层的输出都直接与输入的拉普拉斯矩阵相关，能够在自编码器的基础上应用图卷积神经网络的思想，从而能够利用自编码器提取到动态网络的高阶非线性结构；利用动态网络在各时间戳下的拉普拉斯矩阵共同训练共享自编码器，并且利用各时间戳下的拉普拉斯矩阵分别训练与其时间戳相对应的私有自编码器，使得共享自编码器能够学习到动态网络在各时间戳下的共有结构特征，而各私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征，因此，本发明能够利用各个时间戳下的动态网络信息协作准确挖掘出动态网络结构的演变特征。总的来说，本发明能够提取到动态网络的高阶非线性结构特征，并准确挖掘出动态网络的结构演变特征，保证了下游应用的准确性。

进一步地，自编码器的表达式为：

Y⁽¹⁾＝σ(W⁽¹⁾X+b⁽¹⁾)

Y^(k)＝σ(XW^(k)Y^(k-1)+b^(k)),k＝2,…,K

其中，X表示输入自编码器的拉普拉斯矩阵；Y⁽¹⁾表示自编码器的第一层的输出，W⁽¹⁾和b⁽¹⁾表示自编码器的第一层中需要通过训练确定的参数；Y^(k-1)和Y^(k)分别表示自编码器中第k-1层和第k层的输出，W^(k)和b^(k)表示自编码器的第k层中需要通过训练确定的参数；表示K表示自编码器的总层数；σ(·)表示激活函数。

本发明中，基于上述表达式实现的自编码器，其每一层的输出都与输入自编码器的拉普拉斯矩阵直接相关，最终能够通过上述自编码器提取到动态网络的高阶非线性结构特征。

进一步地，步骤(S3)中，损失函数中表达式为：

L＝L_recon+αL_similary+βL_difference

其中，L_recon表示重构损失，L_similary表示相似性损失，L_different表示差异损失；α和β为超参数，用于控制各损失约束项的比重。

本发明所构建的损失函数中，基于重构损失约束，能够使得自编码器所学习良好的网络表示结果；基于相似性约束，能够共享自编码器学习到动态网络在各时间戳下的共有结构特征，私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征；基于差异损失，能够使得在同一个时间戳下，共享自编码器学习到的共有结构特征与私有自编码器学习到的独有结构特征尽可能少的重合，从而避免信息冗余。

进一步地，

其中，X_i表示动态网络在第i个时间戳下的拉普拉斯矩阵，

表示由第i个时间戳对应的解编码器还原得到的拉普拉斯矩阵，

表示加权因子。

社交网络具有稀疏性，本发明基于交叉熵损失计算重构损失，并在计算过程中引入加权因子

能够有效处理正、负样本不均衡的问题，避免在训练过程中，将注意力过多地集中到无用数据上，而忽略动态网络结构的有用信息，从而能够提高训练效果。

进一步地，

其中，

表示共享自编码器对在第i个时间戳下的拉普拉斯矩阵进行网络表示学习后，所得到的网络表示结果；Y_comm表示通过训练学习到的动网络结构在各时间戳下的一致性信息；

表示二范式。

进一步地，

其中，

和

分别表示共享自编码器和第i个时间戳对应的私有自编码器对第i个时间戳下的拉普拉斯矩阵进行网络表示学习后，所得到的网络表示结果；

表示二范式。

进一步地，本发明第一方面提供的面向社交网络的网络表示学习方法，还包括：

(T1)在对共享自编码器训练结束后，获取第动态网络在第v+1个时间戳下的拉普拉斯矩阵后，将其分别输入到第v+1个时间戳对应的私有自编码器和共享自编码器，由该私有自编码器和共享自编码器进行网络表示学习；

(T2)将所得到的两个网络表示结果拼接以得到第v+1个时间戳对应的中间表示结果，并将该中间表示结果输入与其时间戳相对应的解编码器，由解编码器还原出拉普拉斯矩阵；

(T3)基于重构损失约束、相似性损失约束和差异损失约束构建自适应训练的损失函数，以最小化增量训练的损失函数值为目标，在反向传播的过程中调整第v+1个时间戳对应的私有自编码器的模型参数，从而完成一轮自适应训练；

(T4)重复执行步骤(T2)～(T3)，直至达到自适应训练的最大迭代次数或满足精度要求，从而完成对第v+1个时间戳对应的私有自编码器的训练；

(T5)将自适应训练的最后一次迭代中，第v+1个时间戳下的中间表示结果作为第v+1个时间戳，动态网络的最终表示结果。

本发明基于上述自适应训练的过程，能够在新增时间戳时，利用已训练好的共享自编码器，辅助训练得到与新增时间戳(第v+1个时间戳)相对应的私有自编码器，因此，本发明中，由私有自编码器和共享自编码器所构成的模型能够自适应动态网络的演变，并且，由于社交网络的体量庞大，本发明在挖掘其动态特征时，使模型具有自适应能力，能够降低每次训练的代价。

进一步地，自适应训练的损失函数为：

其中，L_adaptive表示自适应训练的损失函数；X_v+1表示动态网络在第v+1个时间戳下的拉普拉斯矩阵，

表示由第v+1个时间戳对应的解编码器还原得到的拉普拉斯矩阵，

表示加权因子；Y_comm表示通过训练学习到的动网络结构在各时间戳下的一致性信息；

和

分别表示共享自编码器和第v+1个时间戳对应的私有自编码器对第v+1个时间戳下的拉普拉斯矩阵进行网络表示学习后，所得到的网络表示结果；

表示二范式。

本发明在自适应训练过程中，基于上述自适训练的损失函数，在反向传播过程中调整模型参数，使得随着时间推移，模型能够保留之前时间段中每个时间戳下的网络特征，同时越早的网络对模型的约束约束作用越小。

在完成对私有自编码器和共享自编码器的训练后，根据

预测动态网络在第v+1个时间戳下的网络表示结果，或者获得所述动态网络在第1个时间戳至第v个时间戳这一时间段内的网络表示结果；

其中，Y_v+1表示动态网络在第v+1个时间戳下的网络表示结果；

表示第i个时间戳对应的私有自编码器对在第i个时间戳下的拉普拉斯矩阵进行网络表示学习后，所得到的网络表示结果，i∈{1,2,…v}；Y_comm表示通过训练学习到的动网络结构在各时间戳下的一致性信息；

表示拼接操作。

本发明基于上述表达式，能够基于动态网络在各时间戳下的一致性信息及各时间戳下的独有结构特征获得动态网络在某一个时间段的网络表示，并且由于动态网络随时间的演变是渐进的，利用该时间段内的网络表示结果作为下一个时间戳的网络表示结果，也能够预测动态网络的结构演变特征。

按照本发明的第二方面，提供了一种系统，包括计算机可读存储介质和处理器，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的面向社交网络的动态网络表示学习方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在自编码器的基础上应用图卷积神经网络的思想，能够利用自编码器提取到动态网络的高阶非线性结构；利用动态网络在各时间戳下的拉普拉斯矩阵共同训练共享自编码器，并且利用各时间戳下的拉普拉斯矩阵分别训练与其时间戳相对应的私有自编码器，使得共享自编码器能够学习到动态网络在各时间戳下的共有结构特征，而各私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征，因此，本发明能够利用各个时间戳下的动态网络信息协作准确挖掘出动态网络结构的演变特征。总的来说，本发明能够提取到动态网络的高阶非线性结构特征，并准确挖掘出动态网络的结构演变特征，保证了下游应用的准确性。

(2)本发明所构建的损失函数中，基于重构损失约束，能够使得自编码器所学习良好的网络表示结果；基于相似性约束，能够共享自编码器学习到动态网络在各时间戳下的共有结构特征，私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征；基于差异损失，能够使得在同一个时间戳下，共享自编码器学习到的共有结构特征与私有自编码器学习到的独有结构特征尽可能少的重合，从而避免信息冗余。

(3)本发明在新增时间戳时，利用已训练好的共享自编码器，辅助训练得到与新增时间戳(第v+1个时间戳)相对应的私有自编码器，因此，本发明中，由私有自编码器和共享自编码器所构成的模型能够自适应动态网络的演变，并且在挖掘其动态特征时，使模型具有自适应能力，能够降低每次训练的代价。

(4)本发明基于动态网络在各时间戳下的一致性信息及各时间戳下的独有结构特征，能够获得动态网络在某一个时间段的网络表示，利用该时间段内的网络表示结果作为下一个时间戳的网络表示结果，从而预测动态网络的结构演变特征。

附图说明

图1为本发明实施例提供的面向社交网络的动态网络表示学习方法流程图；

图2为本发明实施例提供的共享自编码器和私有自编码器的训练示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为提取用于表示社交网络的动态网络结构的高阶非线性结构，并准确挖掘动态网络结构的演化特征，本发明提供的面向社交网络的网络表示学习方法，如图1所示，包括：

当用动态网络表示社交网络时，为每个均匀间隔的时间戳下的节点及节点间关系构建网络；用户为节点，用户间关系为边可用图表示社交网络的复杂结构信息；由于社交网络的结构变化是平滑的，所以分析间隔均匀且间隔时长合适的时间戳下的网络可捕获社交网络结构的变化特征；

在任意一个时间戳下，根据图谱理论，计算动态网络在该时间戳下的邻接矩阵，之后对该邻接矩阵进行对称归一化，即可得到动态网络在该时间戳下的拉普拉斯矩阵；通过计算拉普拉斯矩阵，可以将原始的动态网络表示为一个计算机可以处理的矩阵，即拉普拉斯矩阵；

自编码器(共享自编码器或私有自编码器)为基于神经网络的模型，并且其中每一层的输出都直接与输入的拉普拉斯矩阵相关；

在本实施例中，自编码器的具体表达式如下：

Y⁽¹⁾＝σ(W⁽¹⁾X+b⁽¹⁾)

Y^(k)＝σ(XW^(k)Y^(k-1)+b^(k)),k＝2,…,K

其中，X表示输入自编码器的拉普拉斯矩阵；Y⁽¹⁾表示自编码器的第一层的输出，W⁽¹⁾和b⁽¹⁾表示自编码器的第一层中需要通过训练确定的参数；Y^(k-1)和Y^(k)分别表示自编码器中第k-1层和第k层的输出，W^(k)和b^(k)表示自编码器的第k层中需要通过训练确定的参数；表示K表示自编码器的总层数，具体可根据网络表示的精度要求设定，一般设置为2-4层，这个范围既可获取网络的高阶邻域信息，也具有较高的训练效率；σ(·)表示激活函数；

基于上述表达式实现的自编码器，其每一层的输出都与输入自编码器的拉普拉斯矩阵直接相关，最终能够通过上述自编码器提取到动态网络的高阶非线性结构特征；

不失一般性地，以v＝2为例，如图2所示，共需训练v+1＝3个自编码器，其中一个为共享自编码器，2个为私有自编码器；2个私有自编码器分别于第一个时间戳和第二个时间戳相对应，分别记为private_encoder1和private_encoder2；相应地，需要借助于两个解编码器，两个解编码器分别于两个时间戳相对应，分别记为decoder1和decoder2；

以X₁和X₂分别表示动态网络在第一个时间戳和第二个时间戳下的拉普拉斯矩阵，以

表示私有自编码器private_encoder1从拉普拉斯矩阵X₁学习到的网络表示结果，以

表示私有自编码器private_encoder2从拉普拉斯矩阵X₂学习到的网络表示结果，以

和

分别表示共享自编码器从拉普拉斯矩阵X₁和X₂中学习到的网络表示结果，以

和

分别表示解编码器和还原得到的拉普拉斯矩阵；

将私有自编码器和共享自编码器学习到的网络表示结果拼接后，分别得到中间表示结果

表示拼接操作；

解编码器decoder1和decoder2通过内积运算即可还原得到

和

具体地，

在本实施例中，步骤(S3)中，损失函数中表达式为：

L＝L_recon+αL_similary+βL_difference

其中，L_recon表示重构损失，L_similary表示相似性损失，L_different表示差异损失；α和β为超参数，用于控制各损失约束项的比重，超参数α和β的具体取值可根据动态网络的演变特征(社交网络的演变特征)确定，不同演变特征的动态网络网络，其三个损失约束项所起的作用也不相同；

上述损失函数，基于重构损失约束，能够使得自编码器所学习良好的网络表示结果；基于相似性约束，能够共享自编码器学习到动态网络在各时间戳下的共有结构特征，私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征；基于差异损失，能够使得在同一个时间戳下，共享自编码器学习到的共有结构特征与私有自编码器学习到的独有结构特征尽可能少的重合，从而避免信息冗余；

可选地，

其中，X_i表示动态网络在第i个时间戳下的拉普拉斯矩阵，

和

表示二范式；

社交网络具有稀疏性，本实施例基于交叉熵损失计算重构损失，并在计算过程中引入加权因子

能够有效处理正、负样本不均衡的问题，避免在训练过程中，将注意力过多地集中到无用数据上，而忽略动态网络结构的有用信息，从而能够提高训练效果；

(S5)将最后一次训练中，各时间戳下的中间表示结果作为对应时间戳下动态网络的最终表示结果；

其中，自编码器为神经网络，并且其中每一层的输出都直接与输入的拉普拉斯矩阵相关；自编码器为共享自编码器或私有自编码器。

经过上述训练过程，本实施例利用动态网络在各时间戳下的拉普拉斯矩阵共同训练共享自编码器，并且利用各时间戳下的拉普拉斯矩阵分别训练与其时间戳相对应的私有自编码器，使得共享自编码器能够学习到动态网络在各时间戳下的共有结构特征，而各私有自编码器能够学习到动态网络在对应时间戳下的独有结构特征，因此，能够利用各个时间戳下的动态网络信息协作准确挖掘出动态网络结构的演变特征。

为了使得模型具有自适应性，上述面向社交网络的网络表示学习方法，还包括：

可选地，自适应训练的损失函数为：

和

上述自适训练的损失函数，在反向传播过程中调整模型参数，使得随着时间推移，模型能够保留之前时间段中每个时间戳下的网络特征，同时越早的网络对模型的约束约束作用越小；

基于上述自适应训练的过程，本实施例能够在新增时间戳时，利用已训练好的共享自编码器，辅助训练得到与新增时间戳(第v+1个时间戳)相对应的私有自编码器，因此，由私有自编码器和共享自编码器所构成的模型能够自适应动态网络的演变，由于社交网络的体量庞大，本实施例在挖掘其动态特征时，使模型具有自适应能力，能够降低每次训练的代价。

为了获得一个时间段内动态网络的网络表示结果，或者在不更新模型的情况下预测动态网络在下一个时间戳的网络表示结果，上述面向社交网络的网络表示学习方法，还可包括：

在完成对私有自编码器和共享自编码器的训练后，根据

表示拼接操作。

本实施例基于上述表达式，能够基于动态网络在各时间戳下的一致性信息及各时间戳下的独有结构特征获得动态网络在某一个时间段的网络表示，并且由于动态网络随时间的演变是渐进的，利用该时间段内的网络表示结果作为下一个时间戳的网络表示结果，也能够预测动态网络的结构演变特征。

本发明还提供了一种系统，包括计算机可读存储介质和处理器，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行上述面向社交网络的动态网络表示学习方法。

总的来说，本发明将在神经网络中应用图卷积神经网络的思想，可提取到动态网络的高阶非线性结构，以捕获网络更完整的结构信息；在挖掘动态社交网络特征时，利用各个时间戳网络信息协作挖掘动态网络结构的演变特征，保证了所挖掘的结构演变特征的准确度，进一步保证了下游应用的准确性；在挖掘其动态特征时，使模型具有自适应性，能够降低每次训练的代价，由于社交网络的体量庞大，降低模型的训练代价，具有重要的实际意义。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向社交网络的动态网络表示学习方法，其特征在于，包括：

(S1)从历史数据中获取动态网络在v个连续时间戳下的拉普拉斯矩阵；所述动态网络用于表示社交网络，v为正整数；

其中，自编码器为基于神经网络的模型，并且其中每一层的输出都直接与输入的拉普拉斯矩阵相关；所述自编码器为共享自编码器或私有自编码器。

2.如权利要求1所述的面向社交网络的动态网络表示学习方法，其特征在于，所述自编码器的表达式为：

Y⁽¹⁾＝σ(W⁽¹⁾X+b⁽¹⁾)

Y^(k)＝σ(XW^(k)Y^(k-1)+b^(k))，k＝2，...，K

其中，X表示输入所述自编码器的拉普拉斯矩阵；Y⁽¹⁾表示所述自编码器的第一层的输出，W⁽¹⁾和b⁽¹⁾表示所述自编码器的第一层中需要通过训练确定的参数；Y^(k-1)和Y^(k)分别表示所述自编码器中第k-1层和第k层的输出，W^(k)和b^(k)表示所述自编码器的第k层中需要通过训练确定的参数；K表示所述自编码器的总层数；σ(·)为激活函数。

3.如权利要求1或2所述的面向社交网络的动态网络表示学习方法，其特征在于，所述步骤(S3)中，损失函数中表达式为：

L＝L_recon+αL_similary+βL_difference

其中，L表示损失函数，L_recon表示重构损失，L_similary表示相似性损失，L_different表示差异损失；α和β为超参数，用于控制各损失约束项的比重。

4.如权利要求3所述的面向社交网络的动态网络表示学习方法，其特征在于，