CN111368074B - 一种基于网络结构和文本信息的链路预测方法 - Google Patents

一种基于网络结构和文本信息的链路预测方法 Download PDF

Info

Publication number
CN111368074B
CN111368074B CN202010113634.3A CN202010113634A CN111368074B CN 111368074 B CN111368074 B CN 111368074B CN 202010113634 A CN202010113634 A CN 202010113634A CN 111368074 B CN111368074 B CN 111368074B
Authority
CN
China
Prior art keywords
node
embedding
layer
nodes
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010113634.3A
Other languages
English (en)
Other versions
CN111368074A (zh
Inventor
易运晖
郭泰吉
赵楠
陈南
权东晓
何先灯
程相泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010113634.3A priority Critical patent/CN111368074B/zh
Publication of CN111368074A publication Critical patent/CN111368074A/zh
Application granted granted Critical
Publication of CN111368074B publication Critical patent/CN111368074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及计算机网络技术领域,公开了一种基于网络结构和文本信息的链路预测方法,包括:S1、基于网络结构中随机游走的节点,获得节点的结构嵌入向量;S2、构建卷积神经网络来处理节点的文本信息,获得节点的文本信息嵌入向量;S3、将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入;S4、生成训练集和测试集;S5、构建神经网络进行二分类学习;S6、训练神经网络;S7、预测结果,这种基于网络结构和文本信息的链路预测方法,计算过程简单,误差小,预测准确率高。

Description

一种基于网络结构和文本信息的链路预测方法
技术领域
本发明涉及计算机网络技术领域,特别涉及一种基于网络结构和文本信息的链路预测方法。
背景技术
链路预测方法是指,对于一个由交互元素组成的复杂系统,根据实体对的属性和当前观察到的链接推断出实体对之间存在的新的关系或仍然未知的相互作用。在复杂网络中,一个节点与不同的节点连接交互可以表现不同的方面,产生不同的结果。例如在社交网站中,一个用户与不同的朋友之间会有不同的话题和兴趣。在学术工作中,不同的研究员之间会有不同的研究主题。而现有的链路预测方法一般分为基于相似性的方法,基于似然概率统计的方法,基于机器学习的方法。第一种方法倾向于与其它相似节点形成连接,但往往效率低下,计算复杂度高,并且很难扩展到大型网络中。第二种方法需要创建整个网络的系统信息,计算复杂度也很高。为了捕获网络中的信息,传统的方法在很大程度上依赖于人力和知识,这是非常不足的。为了解决这一问题,提出了一种基于网络表示学习的方法,通过对潜在特征向量的自动学习来嵌入整个网络。网络表示学习可以追溯到那些把网络分解成矩阵或张量的因式分解模型,例如邻接矩阵等。然而,这样的模型往往存在计算成本高、源数据稀疏等问题,使得模型效率低下。而随着机器学习技术的发展,许多新方法都采用了这些技术,如单词嵌入模型。DeepWalk从网络中提取随机游走路径,并对这些随机游走执行SkipGram(一种有效的word2vec嵌入模型)来学习网络表示。node2vec采用无约束随机游走策略,较好地探索了网络的结构。LINE同时捕获了网络节点的一阶邻近性和二阶邻近性,以嵌入局部和邻近结构信息。Long等人在Hupu网络中将用户信息和文本信息结合起来进行用户偏好识别。GrapRep进一步探索了DeepWalk中的高阶近似,以捕获网络的全局结构。SDNE采用带自编码神经网络的半监督深度模型捕获非线性结构信息。CENE通过将文本建模为一种特殊的节点,利用网络链接信息和文本信息,优化异构链接的概率。但是,这些网络嵌入方法只是单纯的使用词嵌入方法得到了节点的静态低维向量,并没有很好地考虑上下文的信息,精确考虑节点之间的语义关系。因此,本发明提出了基于网络结构和文本信息的链路预测方法,通过引入节点之间的交互机制,充分考虑了节点的语义信息,实验结果表明优于基线的方法。
发明内容
本发明提供一种基于网络结构和文本信息的链路预测方法,计算过程简单,误差小,预测准确率高。
本发明提供了一种基于网络结构和文本信息的链路预测方法,包括以下步骤:S1、基于网络结构中随机游走的节点,获得节点的结构嵌入向量;
S11、对于网络结构中的任一节点,采取宽度优先搜索和深度优先搜索两种随机游走搜索方式来获取该节点的一阶邻居节点集合;
S12、根据一阶邻居节点的随机游走,得到该节点的二阶邻居节点集合;
S13、对一阶和二阶邻居节点集合进行采样,采用基于skip-gram的方法得到节点的结构嵌入向量;
S2、构建卷积神经网络来处理节点的文本信息,获得节点的文本信息嵌入向量;
S21、构建一个卷积神经网络,卷积神经网络包括卷积层、交互层、池化层和全连接层;
S22、给定一由两个节点组成的节点对,该节点对中每一个节点对应一个单词序列,卷积层将每一个单词序列中每一个单词转换为相应的词向量,从而得到词嵌入序列;通过卷积层提取词嵌入序列的局部的特征,利用卷积矩阵对滑动窗口进行卷积运算,分别得到该节点对的词嵌入序列的卷积结果矩阵M和N,然后采用非线性激活函数计算得到该节点对的相关矩阵H;
S23、在交互层嵌入节点对的词嵌入序列的卷积结果,并计算该节点对中两个节点之间的两个交互权重;
S24、在池化层采用均值池化方法对卷积层得到的相关矩阵进行下采样,分别得到该节点对的采样向量;将该节点对所计算的两个交互权重分别与相对应节点的采样向量相结合,最终得到该节点对中两个节点的文本信息嵌入向量;
S3、将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入;
S31、根据给定节点的结构嵌入向量和文本信息嵌入向量,根据哈达玛积运算,获得给定节点的联合嵌入向量;
S4、生成训练集和测试集;
S41、将每个节点的联合嵌入向量进行归一化处理;
S42、对于网络中的节点,将两两节点的联合嵌入向量由哈达玛积运算组合生成它们之间连边的嵌入向量,由此得到网络中所有连边的嵌入向量,
S43、将所有连边的嵌入向量按照设定比例随机选取一部分作为训练集,剩余数据作为测试集;
S5、构建神经网络进行二分类学习;
S51、构建神经网络;
S52、使用交叉熵损失函数作为神经网络的损失函数进行二分类学习,使用Adadelta算法作为优化函数对构建的神经网络进行优化;
S6、训练神经网络;
S61、将训练集输入到构建的神经网络中;
S62、设置神经网络的迭代次数,通过选取样本训练神经网络并更新参数;
S7、预测结果;
S71、将测试集中的每个样本输入到已经训练好的神经网络中,得到预测的结果;
S72、计算预测结果分类的性能指标值,得到在各个训练比例下的网络链路预测的结果。
所述步骤S22中的卷积运算步骤为:
S221、给定一个词序列S=(ω12...ωp),p为词序列S的长度,卷积层将每一个单词ωi转换为相应的词向量wi∈Rd,这样就得到了词嵌入序列S=(w1,w2...wp),这里d表示词嵌入的维数,然后在卷积层,利用卷积矩阵C∈Rd×(l×d)对长度为l的滑动窗口进行卷积运算
xi=C·Si:i+l-1+b
其中xi表示第i个窗口内的单词序列的卷积结果,Si:i+l-1表示第i个窗口内单词嵌入序列,b是一个参数;
S222、给定两个节点u和v的相应的两个词嵌入序列Su和Sv,通过卷积层,可以得到矩阵M∈Rd×m和N∈Rd×n,m和n表示Su和Sv的长度,然后采用非线性激活函数ReLU对于所获得的矩阵M和N计算相关矩阵H=ReLU(MTN)。
所述步骤S23中的交互权重定义为,从卷积层获得的节点u和v的相应的输出词嵌入序列分别为
Figure GDA0003634791120000051
Figure GDA0003634791120000052
对于每个词向量
Figure GDA0003634791120000053
Figure GDA0003634791120000054
节点u和v的交互权重定义如下:
Figure GDA0003634791120000055
Figure GDA0003634791120000056
所述步骤S24中的池化步骤为,对H的行和列进行池化操作,采用均值池化分别得到向量:
Figure GDA00036347911200000511
最后在全连接层根据softmax分类函数得到:
Figure GDA0003634791120000057
Figure GDA0003634791120000058
最终得到节点u和v的文本信息嵌入向量为:
Figure GDA0003634791120000059
Figure GDA00036347911200000510
所述步骤S51中构建的神经网络为:
S511、构建一个4层的神经网络,分别为输入层→隐藏层1→隐藏层2→输出层;
S512、自定义输入层的神经元数量为128个,隐藏层1的神经元数量为256个,隐藏层2的神经元数量为512个,输出层的神经元数量为1个。
与现有技术相比,本发明的有益效果在于:
本发明充分结合了网络节点间的结构以及文本内容的语义信息。它不仅考虑了网络的结构关系,同时也考虑了节点之间的文本信息的丰富语义关系。解决了用户节点信息缺少,网络嵌入静态、固定单一的缺点,精确地定义了节点之间的语义关系。
本发明在文本内容中新引入了节点间的交互机制,并在神经网络模型中建立了节点之间的交互,它可以引导神经网络模型去强调那些相邻节点所聚焦的成员,并获得基于文本内容的嵌入,最终的链路预测实验表明它优于基线方法。
本发明计算过程简单,误差小,预测准确率高。
附图说明
图1为本发明提供的一种基于网络结构和文本信息的链路预测方法的流程图。
具体实施方式
下面结合附图1,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
参照附图1的流程图,对本发明实现的具体步骤作进一步的描述。
步骤1,基于网络结构的随机游走
对于社交网络中的某个节点,采取宽度优先搜索方式和深度优先搜索的两种随机游走方式来获取它的邻居节点。
根据节点的随机游走,得到它的二阶邻居节点的序列。
采样全部节点序列,基于skip-gram的方法得到节点的嵌入向量。
文献[1]Mikolov T,Chen K,Corrado G S,et al.Efficient Estimation ofWordRepresentations in Vector Space[C].international conference onlearningrepresentations,2013.由Google的Tomas Mikolov提出一个词嵌入算法word2vec,word2vec算法包括两个模型,跳字模型(skip-gram)和连续词袋模型(CBOW),skip-gram通过将节点视为一个词,通过模型的学习将每个词映射为一个嵌入向量。
步骤2,构建卷积神经网络处理文本信息
构建一个卷积神经网络,它由输入层,卷积层,池化层和全连接层构成。
首先给定一个单词序列,将每个单词转换为相应的词嵌入,得到相应的词嵌入序列。通过卷积层可以提取输入词嵌入序列的不同局部特征,利用卷积矩阵对滑动窗口进行卷积运算得到序列的卷积结果。
所述的卷积步骤为,利用卷积矩阵C∈Rd×(l×d)对长度为l的滑动窗口进行卷积运算
xi=C·Si:i+l-1+b
其中xi表示第i个窗口内的单词序列的卷积结果,Si:i+l-1表示第i个窗口内单词嵌入序列,b是一个参数。给定一条边eu,v以及两个节点u和v的相应的两个词序列Su和Sv。通过卷积层,可以得到矩阵M∈Rd×m和N∈Rd×n。m和n表示Su和Sv的长度。然后采用非线性激活函数ReLU对于所获得的矩阵M和N计算相关矩阵H=ReLU(MTN)。
在交互层将从卷积层获得的两个节点的输出嵌入,进行计算嵌入权重。
上述的交互权重定义为对于连边eu,v,从卷积层获得的节点u和v的相应的输出词嵌入序列分别为
Figure GDA0003634791120000081
Figure GDA0003634791120000082
对于每个词向量
Figure GDA0003634791120000083
Figure GDA0003634791120000084
节点u和v的交互权重定义如下:
Figure GDA0003634791120000085
Figure GDA0003634791120000086
对得到的相关矩阵进行下采样即池化,采用均值池化方法,和每个词嵌入的权重相结合得到两个节点的文本嵌入。
上述的池化步骤为,对H的行和列进行池化操作,采用均值池化分别得到向量:
fi u=mean(Hi,1,...,Hi,m),
fi v=mean(H1,i,...,Hn,i)
在全连接层根据softmax分类函数得到:
Figure GDA0003634791120000087
Figure GDA0003634791120000088
最终得到节点u和v的文本信息嵌入向量为:
Figure GDA0003634791120000089
Figure GDA00036347911200000810
步骤3,联合嵌入
根据哈达玛积运算将基于网络结构的嵌入向量和基于文本信息的嵌入向量生成给定节点的嵌入向量。
其中哈达玛积的运算公式为
Figure GDA0003634791120000091
f(x)代表节点嵌入的一般表示形式。
步骤4,生成训练集和测试集
将每个节点的嵌入向量进行归一化处理。
对于网络中每个节点,将两两节点的嵌入向量生成得到节点对连边的嵌入向量,根据网络中节点之间的连接关系,将所有节点对向量中有实际连边的向量标注为1,无实际连边的标注为0。
将所有连边嵌入向量的一定比例作为训练集,剩余数据作为测试集。
步骤5,构建神经网络进行二分类学习
构建一个4层的神经网络,分别为输入层→隐藏层→隐藏层→输出层。
输入层的神经元数量为128个,隐藏层1的神经元数量为256个,隐藏层2的神经元数量为512个,最后输出层的神经元数量为1个。
使用交叉熵损失函数作为神经网络的损失函数,使用Adadelta算法作为优化函数,来保证预测值与实际值之间的交叉熵最小。
步骤6,训练神经网络
将训练集输入到自定义的神经网络中。
设置神经网络的迭代次数,通过选取样本训练神经网络并更新参数。
步骤7,预测结果
将测试集中的每个样本输入到已经训练好的神经网络中,得到预测的结果。
计算预测结果标签AUC值,得到在各个训练比例下的网络链路预测的结果。
本发明的效果通过以下仿真实验进一步说明。
1.仿真条件:
本发明的仿真实验所用计算机配置如下:处理器为Intel Core i5-8400CPU,显卡为NVIDIA GeForce GTX 1060,显存内存为6GB。计算机操作系统为Windows10,使用tensorflow深度学习网络框架实现仿真实验。
2.数据集
本文在真实的数据集上进行了链路预测实验,来验证本模型的有效性。
知乎是中国的一个在线大型问答网站,上面的用户可以回答问题,并且可以互相关注。首先通过python软件爬虫程序,在2019.5.21到2019.5.31的时间段上爬取了到了10000名用户的信息,以及用户所关注的话题,并保存到本地中。筛选得到了45000条关注和被关注关系。并且将获取到的他们关注的话题作为文本信息。
Cora数据是由McCallum构建的一个典型的论文引用网络。在过滤掉没有文本信息的论文后,这个网络中有2300篇机器学习论文,共分为7类。
Citeseer数据集是另一个引用网络,这些论文涉及的内容主要是计算机领域。通过过滤筛选得到1050篇论文,共分为6类。
3.仿真内容及其结果分析:
把数据集按一定比例随机选取作为训练集,余下的则为测试集。然后将训练集送入到深度神经网络中进行学习,然后将测试集中的样本送入到已经训练好的神经网络中进行学习,最终得到AUC值结果。
其中AUC(Area Under Curve,ROC曲线下的面积)的计算方法为,在有M个正样本和N个负样本的数据集里,一共有M*N对样本。统计这M*N对样本对里,正样本的预测概率大于负样本的预测概率的个数。
Figure GDA0003634791120000111
其中,
Figure GDA0003634791120000112
当AUC=0.5时,表示所有分数等价于随机产生的,当AUC=1时,表示算法完全正确的预测出连边的变化情况。AUC越大说明预测结果越准确,AUC的大小反映了所用的算法相对于随机算法准确度的高低。
数据集训练比例为55%到95%的情况。在最佳的参数值下,与不同的基线方法的实验结果对比如下表所示。本文所提出的模型在各个数据集上的实验结果均实现了显著的改进,在训练比例为95%的情况下,对于知乎数据集,结果比基线方法分别提高了10%,4%,7.2%,8.8%,4.2%,如表1所示。
表1
实验结果(知乎)
Figure GDA0003634791120000113
对于cora数据集,结果比基线方法分别提高了6.5%,7.6%,8%,3.7%,1.8%,如表2所示。
表2
实验结果(cora|)
Figure GDA0003634791120000121
对于citeseer数据集,结果比基线方法分别提高了9%,10.5%,6.2%,3.1%,3.2%。如表3所示。
表3
实验结果(citeseer)
Figure GDA0003634791120000122
表1、表2和表3均证明了该方法在链路预测实验中的有效性。
本发明公开一种基于网络结构和文本信息的链路预测方法,通过对真实的数据集进行仿真,充分考虑了网络的结构关系,以及节点之间丰富的语义关系。解决了网络节点信息缺少,节点向量固定单一的缺点,其步骤为:(1)基于网络结构的随机游走;(2)构建卷积神经网络处理文本信息;(3)联合嵌入;(4)生成训练集和测试集;(5)构建神经网络进行二分类学习;(6)训练神经网络;(7)预测结果。本发明不仅考虑了网络的结构关系,同时也考虑了节点之间的文本信息和丰富的语义关系。解决了用户节点信息缺少,网络嵌入固定单一的缺点。本发明具有计算过程简单,误差小和预测准确率高的优点。
本发明可用于预测社交网络中的新的关系的形成,根据当前观察到的连接,通过预测缺失或未来的关系来推断网络链路形成过程的行为。例如研究人员通常在不同的研究主题上与不同的合作伙伴合作,社交媒体用户与不同的朋友联系,分享不同的兴趣,可以在大量注册的用户中找到自己的熟人。并且自动向熟人推荐具有高度准确性的用户。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (5)

1.一种基于网络结构和文本信息的链路预测方法,包括以下步骤:
S1、基于网络结构中随机游走的节点,获得节点的结构嵌入向量;
S11、对于网络结构中的任一节点,采取宽度优先搜索和深度优先搜索两种随机游走搜索方式来获取该节点的一阶邻居节点集合;
S12、根据一阶邻居节点的随机游走,得到该节点的二阶邻居节点集合;
S13、对一阶和二阶邻居节点集合进行采样,采用基于skip-gram的方法得到节点的结构嵌入向量;
S2、构建卷积神经网络来处理节点的文本信息,获得节点的文本信息嵌入向量;
S21、构建一个卷积神经网络,卷积神经网络包括卷积层、交互层、池化层和全连接层;
S22、给定一由两个节点组成的节点对,该节点对中每一个节点对应一个单词序列,卷积层将每一个单词序列中每一个单词转换为相应的词向量,从而得到词嵌入序列;通过卷积层提取词嵌入序列的局部的特征,利用卷积矩阵对滑动窗口进行卷积运算,分别得到该节点对的词嵌入序列的卷积结果矩阵M和N,然后采用非线性激活函数计算得到该节点对的相关矩阵H;
S23、在交互层嵌入节点对的词嵌入序列的卷积结果,并计算该节点对中两个节点之间的两个交互权重;
S24、在池化层采用均值池化方法对卷积层得到的相关矩阵进行下采样,分别得到该节点对的采样向量;将该节点对所计算的两个交互权重分别与相对应节点的采样向量相结合,最终得到该节点对中两个节点的文本信息嵌入向量;
S3、将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入;
S31、根据给定节点的结构嵌入向量和文本信息嵌入向量,根据哈达玛积运算,获得给定节点的联合嵌入向量;
S4、生成训练集和测试集;
S41、将每个节点的联合嵌入向量进行归一化处理;
S42、对于网络中的节点,将两两节点的联合嵌入向量由哈达玛积运算组合生成它们之间连边的嵌入向量,由此得到网络中所有连边的嵌入向量,
S43、将所有连边的嵌入向量按照设定比例随机选取一部分作为训练集,剩余数据作为测试集;
S5、构建神经网络进行二分类学习;
S51、构建神经网络;
S52、使用交叉熵损失函数作为神经网络的损失函数进行二分类学习,使用Adadelta算法作为优化函数对构建的神经网络进行优化;
S6、训练神经网络;
S61、将训练集输入到构建的神经网络中;
S62、设置神经网络的迭代次数,通过选取样本训练神经网络并更新参数;
S7、预测结果;
S71、将测试集中的每个样本输入到已经训练好的神经网络中,得到预测的结果;
S72、计算预测结果分类的性能指标值,得到在各个训练比例下的网络链路预测的结果。
2.如权利要求1所述的基于网络结构和文本信息的链路预测方法,其特征在于,所述步骤S22中的卷积运算步骤为:
S221、给定一个词序列S=(ω12...ωp),p为词序列S的长度,卷积层将每一个单词ωi转换为相应的词向量wi∈Rd,这样就得到了词嵌入序列S=(w1,w2...wp),这里d表示词嵌入的维数,然后在卷积层,利用卷积矩阵C∈Rd×(l×d)对长度为l的滑动窗口进行卷积运算
xi=C·Si:i+l-1+b
其中xi表示第i个窗口内的单词序列的卷积结果,Si:i+l-1表示第i个窗口内单词嵌入序列,b是一个参数;
S222、给定两个节点u和v的相应的两个词嵌入序列Su和Sv,通过卷积层,得到矩阵M∈Rd ×m和N∈Rd×n,m和n表示Su和Sv的长度,然后采用非线性激活函数ReLU对于所获得的矩阵M和N计算相关矩阵H=ReLU(MTN)。
3.如权利要求2所述的基于网络结构和文本信息的链路预测方法,其特征在于,所述步骤S23中的交互权重定义为,从卷积层获得的节点u和v的相应的输出词嵌入序列分别为
Figure FDA0003634791110000031
Figure FDA0003634791110000032
对于每个词向量
Figure FDA0003634791110000033
Figure FDA0003634791110000034
节点u和v的交互权重定义如下:
Figure FDA0003634791110000035
Figure FDA0003634791110000036
4.如权利要求3所述的基于网络结构和文本信息的链路预测方法,其特征在于,所述步骤S24中的池化步骤为,对H的行和列进行池化操作,采用均值池化分别得到向量:
Figure FDA0003634791110000041
最后在全连接层根据softmax分类函数得到:
Figure FDA0003634791110000042
Figure FDA0003634791110000043
最终得到节点u和v的文本信息嵌入向量为:
Figure FDA0003634791110000044
Figure FDA0003634791110000045
5.如权利要求1所述的基于网络结构和文本信息的链路预测方法,其特征在于,所述步骤S51中构建的神经网络为:
S511、构建一个4层的神经网络,分别为输入层→隐藏层1→隐藏层2→输出层;
S512、自定义输入层的神经元数量为128个,隐藏层1的神经元数量为256个,隐藏层2的神经元数量为512个,输出层的神经元数量为1个。
CN202010113634.3A 2020-02-24 2020-02-24 一种基于网络结构和文本信息的链路预测方法 Active CN111368074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010113634.3A CN111368074B (zh) 2020-02-24 2020-02-24 一种基于网络结构和文本信息的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010113634.3A CN111368074B (zh) 2020-02-24 2020-02-24 一种基于网络结构和文本信息的链路预测方法

Publications (2)

Publication Number Publication Date
CN111368074A CN111368074A (zh) 2020-07-03
CN111368074B true CN111368074B (zh) 2022-06-10

Family

ID=71208171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010113634.3A Active CN111368074B (zh) 2020-02-24 2020-02-24 一种基于网络结构和文本信息的链路预测方法

Country Status (1)

Country Link
CN (1) CN111368074B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860783B (zh) * 2020-07-22 2021-07-30 中山大学 图节点低维表征学习方法、装置、终端设备及存储介质
CN111784081B (zh) * 2020-07-30 2022-03-01 南昌航空大学 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
CN112446542B (zh) * 2020-11-30 2023-04-07 山西大学 基于注意力神经网络的社交网络链路预测方法
CN112465253B (zh) * 2020-12-09 2022-07-01 重庆邮电大学 一种城市路网中的链路预测方法及装置
CN112541065A (zh) * 2020-12-11 2021-03-23 浙江汉德瑞智能科技有限公司 基于表示学习的医学新词发现处理方法
CN112766464B (zh) * 2021-01-31 2023-07-25 西安电子科技大学 基于时空聚合的灵活动态网络链路预测方法、系统及应用
CN113111224B (zh) * 2021-03-17 2023-08-18 中山大学 一种基于拓扑感知文本表征的网络嵌入学习方法
CN112862082B (zh) * 2021-03-18 2023-09-29 杭州师范大学 一种基于支持向量机的链路预测方法
CN112989199B (zh) * 2021-03-30 2023-05-30 武汉大学 一种基于多维邻近属性网络的合作网络链路预测方法
CN112989202B (zh) * 2021-04-02 2024-01-12 常熟理工学院 基于动态网络嵌入的个性化推荐方法及系统
CN113240086B (zh) * 2021-05-13 2022-12-20 宿州学院 一种复杂网络链接预测方法及系统
CN113269647B (zh) * 2021-06-08 2022-11-18 上海交通大学 基于图的交易异常关联用户检测方法
CN113392323B (zh) * 2021-06-15 2022-04-19 电子科技大学 基于多源数据联合学习的商务角色预测方法
CN114900435B (zh) * 2022-01-30 2023-12-08 华为技术有限公司 一种连接关系预测方法及相关设备
CN114491080B (zh) * 2022-02-28 2023-04-18 中国人民解放军国防科技大学 一种面向人物关系网络的未知实体关系推断方法
CN114860246A (zh) * 2022-03-29 2022-08-05 湖北大学 一种图中图卷积神经网络的软件系统中类交互关系预测方法
CN114579892B (zh) * 2022-05-06 2022-07-22 南京航空航天大学 一种基于跨城市兴趣点匹配的用户异地访问位置预测方法
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN109636658A (zh) * 2019-01-17 2019-04-16 电子科技大学 一种基于图卷积的社交网络对齐方法
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN110677284A (zh) * 2019-09-24 2020-01-10 北京工商大学 一种基于元路径的异构网络链路预测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389151A (zh) * 2018-08-30 2019-02-26 华南师范大学 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN109636658A (zh) * 2019-01-17 2019-04-16 电子科技大学 一种基于图卷积的社交网络对齐方法
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN110677284A (zh) * 2019-09-24 2020-01-10 北京工商大学 一种基于元路径的异构网络链路预测的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PME: projected metric embedding on heterogeneous networks for link prediction;Chen H et al.;《Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;20181231;全文 *
从信息学的角度分析复杂网络链路预测;王慧 等;《小型微型计算机系统》;20200215;全文 *
基于Word2vec和粒子群的链路预测算法;贾承丰 等;《自动化学报》;20190129;全文 *

Also Published As

Publication number Publication date
CN111368074A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368074B (zh) 一种基于网络结构和文本信息的链路预测方法
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN110929164A (zh) 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN108563755A (zh) 一种基于双向循环神经网络的个性化推荐系统及方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN107357899B (zh) 基于和积网络深度自动编码器的短文本情感分析方法
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN113127737B (zh) 融合注意力机制的个性化搜索方法和搜索系统
CN113095948A (zh) 一种基于图神经网络的多源异构网络用户对齐方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113806630A (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN112329444A (zh) 融合文本和传播结构的早期谣言检测方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN111340187A (zh) 基于对抗注意力机制的网络表征方法
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN110874392A (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及系统
CN116306834A (zh) 一种基于全局路径感知图神经网络模型的链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant