CN111368074A

CN111368074A - 一种基于网络结构和文本信息的链路预测方法

Info

Publication number: CN111368074A
Application number: CN202010113634.3A
Authority: CN
Inventors: 易运晖; 郭泰吉; 赵楠; 陈南; 权东晓; 何先灯; 程相泽
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-07-03
Anticipated expiration: 2040-02-24
Also published as: CN111368074B

Abstract

本发明涉及计算机网络技术领域，公开了一种基于网络结构和文本信息的链路预测方法，包括：S1、基于网络结构中随机游走的节点，获得节点的结构嵌入向量；S2、构建卷积神经网络来处理节点的文本信息，获得节点的文本信息嵌入向量；S3、将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入；S4、生成训练集和测试集；S5、构建神经网络进行二分类学习；S6、训练神经网络；S7、预测结果，这种基于网络结构和文本信息的链路预测方法，计算过程简单，误差小，预测准确率高。

Description

一种基于网络结构和文本信息的链路预测方法

技术领域

本发明涉及计算机网络技术领域，特别涉及一种基于网络结构和文本信息的链路预测方法。

背景技术

链路预测方法是指，对于一个由交互元素组成的复杂系统，根据实体对的属性和当前观察到的链接推断出实体对之间存在的新的关系或仍然未知的相互作用。在复杂网络中，一个节点与不同的节点连接交互可以表现不同的方面，产生不同的结果。例如在社交网站中，一个用户与不同的朋友之间会有不同的话题和兴趣。在学术工作中，不同的研究员之间会有不同的研究主题。而现有的链路预测方法一般分为基于相似性的方法，基于似然概率统计的方法，基于机器学习的方法。第一种方法倾向于与其它相似节点形成连接，但往往效率低下，计算复杂度高，并且很难扩展到大型网络中。第二种方法需要创建整个网络的系统信息，计算复杂度也很高。为了捕获网络中的信息，传统的方法在很大程度上依赖于人力和知识，这是非常不足的。为了解决这一问题，提出了一种基于网络表示学习的方法，通过对潜在特征向量的自动学习来嵌入整个网络。网络表示学习可以追溯到那些把网络分解成矩阵或张量的因式分解模型，例如邻接矩阵等。然而，这样的模型往往存在计算成本高、源数据稀疏等问题，使得模型效率低下。而随着机器学习技术的发展，许多新方法都采用了这些技术，如单词嵌入模型。DeepWalk从网络中提取随机游走路径，并对这些随机游走执行SkipGram(一种有效的word2vec嵌入模型)来学习网络表示。node2vec采用无约束随机游走策略，较好地探索了网络的结构。LINE同时捕获了网络节点的一阶邻近性和二阶邻近性，以嵌入局部和邻近结构信息。Long等人在Hupu网络中将用户信息和文本信息结合起来进行用户偏好识别。GrapRep进一步探索了DeepWalk中的高阶近似，以捕获网络的全局结构。SDNE采用带自编码神经网络的半监督深度模型捕获非线性结构信息。CENE通过将文本建模为一种特殊的节点，利用网络链接信息和文本信息，优化异构链接的概率。但是，这些网络嵌入方法只是单纯的使用词嵌入方法得到了节点的静态低维向量，并没有很好地考虑上下文的信息，精确考虑节点之间的语义关系。因此，本发明提出了基于网络结构和文本信息的链路预测方法，通过引入节点之间的交互机制，充分考虑了节点的语义信息，实验结果表明优于基线的方法。

发明内容

本发明提供一种基于网络结构和文本信息的链路预测方法，计算过程简单，误差小，预测准确率高。

本发明提供了一种基于网络结构和文本信息的链路预测方法，包括以下步骤：S1、基于网络结构中随机游走的节点，获得节点的结构嵌入向量；

S11、对于网络结构中的任一节点，采取宽度优先搜索和深度优先搜索两种随机游走搜索方式来获取该节点的一阶邻居节点集合；

S12、根据一阶邻居节点的随机游走，得到该节点的二阶邻居节点集合；

S13、对一阶和二阶邻居节点集合进行采样，采用基于skip-gram的方法得到节点的结构嵌入向量；

S2、构建卷积神经网络来处理节点的文本信息，获得节点的文本信息嵌入向量；

S21、构建一个卷积神经网络，卷积神经网络包括卷积层、交互层、池化层和全连接层；

S22、给定一由两个节点组成的节点对，该节点对中每一个节点对应一个单词序列，卷积层将每一个单词序列中每一个单词转换为相应的词向量，从而得到词嵌入序列；通过卷积层提取词嵌入序列的局部的特征，利用卷积矩阵对滑动窗口进行卷积运算，分别得到该节点对的词嵌入序列的卷积结果，即两个相关矩阵；

S23、在交互层嵌入节点对的词嵌入序列的卷积结果，并计算该节点对中两个节点之间的两个交互权重；

S24、在池化层采用均值池化方法对卷积层得到的两个相关矩阵进行下采样，分别得到该节点对的采样向量；将该节点对所计算的两个交互权重分别与相对应节点的的采样向量相结合，最终得到该节点对中两个节点的文本信息嵌入向量；

S3、将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入；

S31、根据给定节点的结构嵌入向量和文本信息嵌入向量，根据哈达玛积运算，获得给定节点的联合嵌入向量；

S4、生成训练集和测试集；

S41、将每个节点的联合嵌入向量进行归一化处理；

S42、对于网络中的节点，将两两节点的联合嵌入向量由哈达玛积运算组合生成它们之间连边的嵌入向量，由此得到网络中所有连边的嵌入向量，

S43、将所有节点对的嵌入向量按照设定比例随机选取一部分作为训练集，剩余数据作为测试集；

S5、构建神经网络进行二分类学习；

S51、构建神经网络；

S52、使用交叉熵损失函数作为神经网络的损失函数进行二分类学习，使用Adadelta算法作为优化函数对构建的神经网络进行优化；

S6、训练神经网络；

S61、将训练集输入到构建的神经网络中；

S62、设置神经网络的迭代次数，通过选取样本训练神经网络并更新参数；

S7、预测结果；

S71、将测试集中的每个样本输入到已经训练好的神经网络中，得到预测的结果；

S72、计算预测结果分类的性能指标值，得到在各个训练比例下的网络链路预测的结果。

所述步骤S22中的卷积运算步骤为：

S221、给定一个词序列S＝(ω₁,ω₂,...ω_n)，卷积层将每一个单词ω_i转换为相应的词向量w_i∈R^d，这样就得到了词嵌入序列S＝(w₁,w₂,...w_n)，这里d表示词嵌入的维数，然后在卷积层，利用卷积矩阵C∈R^d×(l×d)对长度为l的滑动窗口进行卷积运算

x_i＝C·S_i:i+l-1+b

其中x_i表示第i个窗口内的单词序列的卷积结果，S_i:i+l-1表示第i个窗口内单词嵌入序列，b是一个参数；

S222、给定两个节点u和v的相应的两个词嵌入序列S_u和S_v，通过卷积层，可以得到矩阵M∈R^d×m和N∈R^d×n，m和n表示S_u和S_v的长度，然后采用非线性激活函数ReLU对于所获得的矩阵M和N计算相关矩阵H＝ReLU(M^TN)。

所述步骤S23中的交互权重定义为，从卷积层获得的节点u和v的相应的输出嵌入分别为

和

对于每个词嵌入x_i ^u和x_j ^v，交互权重定义如下：

和

所述步骤S24中的池化步骤为，对H的行和列进行池化操作，采用均值池化分别得到向量：

最后在全连接层根据softmax分类函数得到：

最终得到节点u和v的文本信息嵌入向量为：

所述步骤S51中构建的神经网络为：

S511、构建一个4层的神经网络，分别为输入层→隐藏层1→隐藏层2→输出层；

S512、自定义输入层的神经元数量为128个，隐藏层1的神经元数量为256个，隐藏层2的神经元数量为512个，输出层的神经元数量为1个。

与现有技术相比，本发明的有益效果在于：

本发明充分结合了网络节点间的结构以及文本内容的语义信息。它不仅考虑了网络的结构关系，同时也考虑了节点之间的文本信息的丰富语义关系。解决了用户节点信息缺少，网络嵌入静态、固定单一的缺点，精确地定义了节点之间的语义关系。

本发明在文本内容中新引入了节点间的交互机制，并在神经网络模型中建立了节点之间的交互，它可以引导神经网络模型去强调那些相邻节点所聚焦的成员，并获得基于文本内容的嵌入，最终的链路预测实验表明它优于基线方法。

本发明计算过程简单，误差小，预测准确率高。

附图说明

图1为本发明提供的一种基于网络结构和文本信息的链路预测方法的流程图。

具体实施方式

下面结合附图1，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

参照附图1的流程图，对本发明实现的具体步骤作进一步的描述。

步骤1，基于网络结构的随机游走

对于社交网络中的某个节点，采取宽度优先搜索方式和深度优先搜索的两种随机游走方式来获取它的邻居节点。

根据节点的随机游走，得到它的二阶邻居节点的序列。

采样全部节点序列，基于skip-gram的方法得到节点的嵌入向量。

文献[1]Mikolov T,Chen K,Corrado G S,et al.Efficient Estimation ofWord Representations in Vector Space[C].international conference on learningrepresentations,2013.由Google的Tomas Mikolov提出一个词嵌入算法word2vec，word2vec算法包括两个模型，跳字模型(skip-gram)和连续词袋模型(CBOW)，skip-gram通过将节点视为一个词，通过模型的学习将每个词映射为一个嵌入向量。

步骤2，构建卷积神经网络处理文本信息

构建一个卷积神经网络，它由输入层，卷积层，池化层和全连接层构成。

首先给定一个单词序列，将每个单词转换为相应的词嵌入，得到相应的词嵌入序列。通过卷积层可以提取输入词嵌入序列的不同局部特征，利用卷积矩阵对滑动窗口进行卷积运算得到序列的卷积结果。

所述的卷积步骤为，利用卷积矩阵C∈R^d×(l×d)对长度为l的滑动窗口进行卷积运算

x_i＝C·S_i:i+l-1+b

其中x_i表示第i个窗口内的单词序列的卷积结果，S_i:i+l-1表示第i个窗口内单词嵌入序列，b是一个参数。给定一条边e_u,v以及两个节点u和v的相应的两个词序列S_u和S_v。通过卷积层，可以得到矩阵M∈R^d×m和N∈R^d×n。m和n表示S_u和S_v的长度。然后采用非线性激活函数ReLU对于所获得的矩阵M和N计算相关矩阵H＝ReLU(M^TN)。

在交互层将从卷积层获得的两个节点的输出嵌入，进行计算嵌入权重。

上述的交互权重定义为对于连边e_u,v，从卷积层获得的节点u和v的相应的输出嵌入分别为

和

对于每个词嵌入x_i ^u和x_j ^v，交互权重定义如下：

和

对得到的相关矩阵进行下采样即池化，采用均值池化方法，和每个词嵌入的权重相结合得到两个节点的文本嵌入。

上述的池化步骤为，对H的行和列进行池化操作，采用均值池化分别得到向量：

f_i ^u＝mean(H_i,1,...,H_i,m),

f_i ^v＝mean(H_1,i,...,H_n,i)

在全连接层根据softmax分类函数得到：

最终得到节点u和v的文本信息嵌入向量为：

步骤3，联合嵌入

根据哈达玛积运算将基于网络结构的嵌入向量和基于文本信息的嵌入向量生成给定节点的嵌入向量。

其中哈达玛积的运算公式为

f(x)代表节点嵌入的一般表示形式。

步骤4，生成训练集和测试集

将每个节点的嵌入向量进行归一化处理。

对于网络中每个节点，将两两节点的嵌入向量生成得到节点对连边的嵌入向量，根据网络中节点之间的连接关系，将所有节点对向量中有实际连边的向量标注为1，无实际连边的标注为0。

将所有连边嵌入向量的一定比例作为训练集，剩余数据作为测试集。

步骤5，构建神经网络进行二分类学习

构建一个4层的神经网络，分别为输入层→隐藏层→隐藏层→输出层。

输入层的神经元数量为128个，隐藏层1的神经元数量为256个，隐藏层2的神经元数量为512个，最后输出层的神经元数量为1个。

使用交叉熵损失函数作为神经网络的损失函数，使用Adadelta算法作为优化函数，来保证预测值与实际值之间的交叉熵最小。

步骤6，训练神经网络

将训练集输入到自定义的神经网络中。

设置神经网络的迭代次数，通过选取样本训练神经网络并更新参数。

步骤7，预测结果

将测试集中的每个样本输入到已经训练好的神经网络中，得到预测的结果。

计算预测结果标签AUC值，得到在各个训练比例下的网络链路预测的结果。

本发明的效果通过以下仿真实验进一步说明。

1.仿真条件：

本发明的仿真实验所用计算机配置如下：处理器为Intel Core i5-8400 CPU，显卡为NVIDIA GeForce GTX 1060，显存内存为6GB。计算机操作系统为Windows10，使用tensorflow深度学习网络框架实现仿真实验。

2.数据集

本文在真实的数据集上进行了链路预测实验，来验证本模型的有效性。

知乎是中国的一个在线大型问答网站，上面的用户可以回答问题，并且可以互相关注。首先通过python软件爬虫程序，在2019.5.21到2019.5.31的时间段上爬取了到了10000名用户的信息，以及用户所关注的话题，并保存到本地中。筛选得到了45000条关注和被关注关系。并且将获取到的他们关注的话题作为文本信息。

Cora数据是由McCallum构建的一个典型的论文引用网络。在过滤掉没有文本信息的论文后，这个网络中有2300篇机器学习论文，共分为7类。

Citeseer数据集是另一个引用网络，这些论文涉及的内容主要是计算机领域。通过过滤筛选得到1050篇论文，共分为6类。

3.仿真内容及其结果分析：

把数据集按一定比例随机选取作为训练集，余下的则为测试集。然后将训练集送入到深度神经网络中进行学习，然后将测试集中的样本送入到已经训练好的神经网络中进行学习，最终得到AUC值结果。

其中AUC(Area Under Curve，ROC曲线下的面积)的计算方法为，在有M个正样本和N个负样本的数据集里，一共有M*N对样本。统计这M*N对样本对里，正样本的预测概率大于负样本的预测概率的个数。

即，

其中，

当AUC＝0.5时，表示所有分数等价于随机产生的，当AUC＝1时，表示算法完全正确的预测出连边的变化情况。AUC越大说明预测结果越准确，AUC的大小反映了所用的算法相对于随机算法准确度的高低。

数据集训练比例为55％到95％的情况。在最佳的参数值下，与不同的基线方法的实验结果对比如下表所示。本文所提出的模型在各个数据集上的实验结果均实现了显著的改进，在训练比例为95％的情况下，对于知乎数据集，结果比基线方法分别提高了10％，4％，7.2％，8.8％，4.2％，如表1所示。

表1

对于cora数据集，结果比基线方法分别提高了6.5％，7.6％，8％，3.7％，1.8％，如表2所示。

表2

对于citeseer数据集，结果比基线方法分别提高了9％，10.5％，6.2％，3.1％，3.2％。如表3所示。

表3

表1、表2和表3均证明了该方法在链路预测实验中的有效性。

本发明公开一种基于网络结构和文本信息的链路预测方法，通过对真实的数据集进行仿真，充分考虑了网络的结构关系，以及节点之间丰富的语义关系。解决了网络节点信息缺少，节点向量固定单一的缺点，其步骤为：(1)基于网络结构的随机游走；(2)构建卷积神经网络处理文本信息；(3)联合嵌入；(4)生成训练集和测试集；(5)构建神经网络进行二分类学习；(6)训练神经网络；(7)预测结果。本发明不仅考虑了网络的结构关系，同时也考虑了节点之间的文本信息和丰富的语义关系。解决了用户节点信息缺少，网络嵌入固定单一的缺点。本发明具有计算过程简单，误差小和预测准确率高的优点。

本发明可用于预测社交网络中的新的关系的形成，根据当前观察到的连接，通过预测缺失或未来的关系来推断网络链路形成过程的行为。例如研究人员通常在不同的研究主题上与不同的合作伙伴合作，社交媒体用户与不同的朋友联系，分享不同的兴趣，可以在大量注册的用户中找到自己的熟人。并且自动向熟人推荐具有高度准确性的用户。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。