CN110688474A - 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 - Google Patents

基于深度学习与链接预测的嵌入表示获得及引文推荐方法 Download PDF

Info

Publication number
CN110688474A
CN110688474A CN201910826787.XA CN201910826787A CN110688474A CN 110688474 A CN110688474 A CN 110688474A CN 201910826787 A CN201910826787 A CN 201910826787A CN 110688474 A CN110688474 A CN 110688474A
Authority
CN
China
Prior art keywords
network
updated
embedded representation
weight matrix
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910826787.XA
Other languages
English (en)
Other versions
CN110688474B (zh
Inventor
蔡晓妍
顾铭
杨黎斌
王楠鑫
梅欣
刘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201910826787.XA priority Critical patent/CN110688474B/zh
Publication of CN110688474A publication Critical patent/CN110688474A/zh
Application granted granted Critical
Publication of CN110688474B publication Critical patent/CN110688474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度学习与链接预测的引文推荐方法,包括以下步骤:步骤1,获取已知论文库中所有论文结点特征信息和已知论文库的引文网络;步骤2,将论文结点分别在引文网络中进行传播,得到每个论文结点的嵌入表示;步骤3,输入待推荐引文的论文结点,计算待推荐引文的论文结的嵌入表示;步骤4,根据待推荐引文的论文结点的嵌入表示和已知论文库中每个论文结点的嵌入表示,计算待推荐引文的论文结点和已知论文库中每个论文节点的余弦相似度,并选取前t个余弦相似度所对应的论文节点作为待推荐引文的论文结点的引文列表。

Description

基于深度学习与链接预测的嵌入表示获得及引文推荐方法
技术领域
本发明文档搜索领域,具体涉及一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法。
背景技术
一篇科学研究论文需要引用之前相关的重要工作来帮助读者了解它的背景和创新点,科研人员通常想要快速地了解这个领域中已有的文献,包括哪些论文是最相关的,这些论文中有哪些子主题等。查找参考文献的两种常见方法是:
1)在搜索引擎上搜索文档,如谷歌;
2)从少量的初始论文(种子论文)开始跟踪被引用的参考文献。
但是第一种方法很难找到一个全面的关键字列表涵盖所有的论文,尤其是对于一个领域的新入门者来说,而且对于术业有专攻的研究人员来说,这样做也很有可能错过他领域之外相关交叉内容的重要发展。第二种方法平均一篇论文可以引用20多篇论文,如果对每一个引用进行分析,看看它是否有用,随着跟踪深度的增加这将花费相当多的时间。此外,由于篇幅的限制,即使是一篇组织良好的论文也可能遗漏一些重要的“相关工作”。
更重要的是,如今庞大且迅速增长的科学文献库使任何人都很难阅读和消化所有的论文。文献和方法的数量对新研究人员来说是一个问题:他们不知道哪些文章最相关,哪些推荐方法最有希望。即使熟悉研究报告推荐系统的研究人员也难以跟踪当前的发展情况。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法,解决现有技术无法高效全面获取推荐引文的技术问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种基于深度学习与链接预测的嵌入表示获得方法,用于获得待表示引文网络中每个论文结点的嵌入表示,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文节点的特征信息,N为正整数;
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将所述的特征向量矩阵X输入至嵌入表示获得网络中;
其中所述的嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
所述的初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d
所述的信息传播模块将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
进一步地,所述的信息传播模块中将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新时,通过式II获得每个论文结点的嵌入表示Xe
Figure BDA0002189348920000031
式II中,L为迭代次数,L≥1,α为转移概率,α∈[0,1];Z(0)=X′,H=X′;A为引文网络的邻接矩阵,A∈RN×N
Figure BDA0002189348920000032
IN为单位矩阵,IN∈RN×N
进一步地,获得更新后的第一权值矩阵W,具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用所述的M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,所述的分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次及以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用所述的本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。
进一步地,通过式III计算损失函数loss,所述的损失函数包括第一损失函数以及第二损失函数:
Figure BDA0002189348920000041
式III中,l(v,u)为引用边(v,u)的标签,
Figure BDA0002189348920000042
表示引用边(v,u)标签预测值l′(v,u)的第一维,
Figure BDA0002189348920000043
表示引用边(v,u)标签预测值l′(v,u)的第二维;
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文节点作为待推荐引文的论文结点的推荐序列,t≥1。
本发明与现有技术相比具有以下技术效果:
本发明通过更符合引文推荐场景需求的链接预测方式来训练网络,通过将待推荐论文已有的特征数据(文本、标签、协同信息等)在已有的引文网络中进行传播,从而达到结合引文网络的结构信息和文本等非结构信息的目的,获得待推荐的论文在潜在特征空间中信息保留更全面的嵌入表示。最后对嵌入表示进行相似度评分与排序,获得推荐引文列表。
附图说明
图1为本发明的方法流程图。
以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
引文网络:由文献间引用和被引用的关系构成的集合,这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。
实施例一:
本实施例给出一种基于深度学习与链接预测的嵌入表示获得方法,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文节点的特征信息,N为正整数;
本发明中论文结点特征信息包括文本、标签和协同信息等,引文网络的结点链接信息只需要读取并记录论文的参考文献部分即可获得,很多论文网站都直接提供参考文献列表,比如谷歌学术、数字书目索引与图书馆项目(Digital Bibliography&LibraryProject,简称DBLP)等,只需要进行爬取即可,在获取完之后将其转化论文结点之间的邻接矩阵或邻接表存储下来。
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将特征向量矩阵X输入至嵌入表示获得网络中;
其中嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d
信息传播模块将初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
以文本信息作为例子,对于一篇论文来说,其标题和摘要中蕴含的信息应当是最能够体现该篇论文主题和研究内容的,所以可以选取每一个论文节点的标题和摘要作为待处理文本信息。然后利用Quoc Le和Tomas Mikolov在2014年提出的文本嵌入算法Doc2Vec将获取到的文本信息转化为潜在特征空间中的D维特征向量,以此作为输入的待传播信息。
在本实施例中为了更好地提取表征其特征信息,需要对D维特征向量进行升维或降维。
可选地,信息传播模块中将初始特征向量矩阵X′在待表示引文网络中进行传播更新时,通过式II迭代L次计算,获得任一论文结点的嵌入表示Xe,L≥1:
Figure BDA0002189348920000071
式II中,α为转移概率,α∈[0,1];Z(0)=X′,H=X′;IN为单位矩阵,IN∈RN×N;A为引文网络的邻接矩阵,A∈RN×N
Figure BDA0002189348920000072
在本实施例中,迭代计算的过程具体如下:
Z(0)=H=X'
Figure BDA0002189348920000073
初始值Z(0)=X′,第一次迭代时
Figure BDA0002189348920000081
第二次迭代时
Figure BDA0002189348920000082
第三次迭代时
Figure BDA0002189348920000083
一直重复迭代,直至获得第L次的迭代结果,将第L次的迭代结果作为嵌入表示Xe
可选地,获得更新后的第一权值矩阵W,具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。
在本实施例中,如图1所示,通过构建了包含分类器的分类网络对嵌入表示获得网络进行训练,目的是为了获得最终更新后的第一权值矩阵,具体过程为多次迭代训练:
首次训练:训练分类网络,获得首次训练的第一损失函数,利用首次训练的第一损失函数,更新第一权值矩阵以及第二权值矩阵,第一权值矩阵以及第二权值矩阵更新完成之后,相当于获得了一个新的分类网络,再次利用测试集数据计算这个新的分类网络的第二损失函数,作为一个迭代停止条件,例如在首次训练时第二损失函数为0.000121;
第二次训练:训练经过首次训练已经更新过的分类网络,获得第一损失函数,利用本次训练获得的第一损失函数,再次更新第一权值矩阵以及第二权值矩阵,获得本次训练更新后的第一权值矩阵、第二权值矩阵以及新的分类网络,再次利用测试集数据计算新的分类网络的第二损失函数,例如本次训练获得的第二损失函数也为0.000121;
重复多次训练,每次训练时分类网络都是上一次训练后更新获得的新的分类网络,对这个分类网络进行不断的迭代更新,迭代更新的停止条件是10次训练获得的第二损失函数保持不变,则说明当前的分类网络更新完成,将更新完成后的分类网络中的嵌入表示获得网络取出来,作为步骤22中的嵌入表示获得网络。
可选地,通过式III计算损失函数loss:
Figure BDA0002189348920000101
式III中,l(v,u)为引用边(v,u)的标签,
Figure BDA0002189348920000102
表示引用边(v,u)标签预测值l′(v,u)的第一维,
Figure BDA0002189348920000103
表示引用边(v,u)标签预测值l′(v,u)的第二维;
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
在本实施例中,引用边(v,u)可表示任意一条引用边,即论文节点v和论文结点u的直接连接边。
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
在本实施例中,若(v,u)之间实际存在一条边,则(v,u)标签定为l(v,u)=1,若实际不存在则l(v,u)=0;
实施例二
在本实施例中公开了一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用实施例一中的基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文节点作为待推荐引文的论文结点的推荐序列,t≥1。
在本实施例中,根据式IV计算待推荐引文的论文结点PQ和已知论文库中每个论文节点的余弦相似度:
Similarity(Q,e)=cos<XQ,Xe>式IV
式IV中,Xe为已知论文库中任一论文节点的嵌入表示,XQ为待推荐引文的论文结点PQ的嵌入表示,cos<,>表示余弦相似度函数。
实施例三
在本实施例中对本发明提供的引文推荐方法与现有技术中的方法进行比较,在本实施例中选取了四种现有的基线算法,如表1所示:
表1基线算法
Figure BDA0002189348920000111
Figure BDA0002189348920000121
其中,Doc2Vec为文本嵌入算法,只对非结构文本信息进行嵌入表示,DeepWalk与Node2Vec为网络嵌入算法,只对结构信息进行嵌入表示,这两者与本发明提供的方法一起对比可以分析本发明提供的方法选择结合结构与非结构信息进行嵌入表示的优势。另一方面,TriDNR为前人设计的结合结构与非结构(文本)信息的嵌入表示算法,其与本发明提供的方法对比,可以体现本设计的信息传播算法在结合两种特征的算法中的优势。实验中,将各算法训练完成后得到的结点嵌入表示统一为128维。
在本实施例中选取的实验数据集如表2所示:
表2数据集选取
Figure BDA0002189348920000122
数据集网络均为无向图,实验从三个不同的角度设计了数据集的选取。
首先,考虑不同非结构特征的选取是否会影响算法的效果。Cora_ml数据集的初始非结构特征为2879维独热编码后的特征向量,其将直接作为模型输入的待传播信息;而其余四个数据集的初始非结构特征为每一篇论文的标题与摘要的文本信息,这些文本会被Doc2Vec算法预处理为256维的特征向量作为模型输入的待传播信息。
其次,考虑同一非结构特征的不同质量将会怎样影响结合结构与非结构特征的算法表现。AAN与DBLP的非结构特征均选取为标题加摘要的文本形式,但AAN数据集给出的文本是直接对论文的PDF文件OCR所得,其中字符识别存在小部分乱码及单词识别错误的情况,其文本质量是差的;而DBLP数据集给出的文本是由人工输入的,是精确的标题与摘要,其质量是好的。
最后,考虑算法在不同规模的网络数据上的表现是否有差异。DBLP的初始数据集是千万级别的网络,实验抽取了2531、7578和34277个结点的三个版本,用于对比分析。
实验选取的评估指标为信息检索领域推荐任务的三个通用指标,平均倒数排名(MRR@N)、平均精度均值(MAP@N)和召回率(Recall@N)。
MRR@N(Mean reciprocal rank):平均倒数排名依据排序的正确性,对检索请求响应结果评估。相同条件下,MRR值越大,表明模型越能够将相关性高的结果置于检索结果列表靠前的位置。PN表示前N个检索结果当中正确结果的集合,ranki表示第i个正确结果的排序序号。
MAP@N(Mean average precision):平均精度均值是一组查询的每个检索结果的平均精度得分的均值,其值越高,表明模型检索的准确率越高。TP(k)表示前k个结果中正确结果的个数,Q表示检索请求个数。
Recall@N:召回率是指前N个检索结果中正确结果被召回的个数,其值越高,表明模型能召回的正确样本越多。
实验对比结果见表3至表7,表3为利用Cora_ml数据集对5种方法的测试实验结果对比,表4为利用AAN数据集对5种方法的测试实验结果对比,表5为利用DBLP_2531数据集对5种方法的测试实验结果对比,表6为利用DBLP_7578数据集对5种方法的测试实验结果对比,表7为利用DBLP_34277数据集对5种方法的测试实验结果对比。
表3 Cora_ml实验结果
表4 AAN实验结果
表5 DBLP_2531实验结果
Figure BDA0002189348920000143
表6 DBLP_7578实验结果
Figure BDA0002189348920000144
表7 DBLP_34277实验结果
Figure BDA0002189348920000152
从对比结果中可以看出,本发明提供的推荐方法与其他算法相比具有明显优势,无论是在平均倒数排名、平均精度均值还是召回率上,本发明提供的推荐方法的性能均要优于现有技术中的推荐算法。

Claims (5)

1.一种基于深度学习与链接预测的嵌入表示获得方法,用于获得待表示引文网络中每个论文结点的嵌入表示,其特征在于,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文节点的特征信息,N为正整数;
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将所述的特征向量矩阵X输入至嵌入表示获得网络中;
其中所述的嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
所述的初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d
所述的信息传播模块将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
2.如权利要求1所述的基于深度学习与链接预测的嵌入表示获得方法,其特征在于,所述的信息传播模块中将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新时,通过式II获得每个论文结点的嵌入表示Xe
Figure FDA0002189348910000011
式II中,L为迭代次数,L≥1,α为转移概率,α∈[0,1];Z(0)=X′,H=X′;A为引文网络的邻接矩阵,A∈RN×N
Figure FDA0002189348910000021
IN为单位矩阵,IN∈RN×N
3.如权利要求1所述的基于深度学习与链接预测的嵌入表示获得方法,其特征在于,获得更新后的第一权值矩阵W,具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用所述的M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,所述的分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次及以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用所述的本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。
4.如权利要求3所述的基于深度学习与链接预测的嵌入表示获得方法,其特征在于,通过式III计算损失函数loss,所述的损失函数包括第一损失函数以及第二损失函数:
Figure FDA0002189348910000031
式III中,l(v,u)为引用边(v,u)的标签,
Figure FDA0002189348910000032
表示引用边(v,u)标签预测值l′(v,u)的第一维,
Figure FDA0002189348910000033
表示引用边(v,u)标签预测值l′(v,u)的第二维;
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
5.一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,其特征在于,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用权利要求1-4任一项权利要求所述的基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用权利要求1-4任一项权利要求所述的基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文节点作为待推荐引文的论文结点的推荐序列,t≥1。
CN201910826787.XA 2019-09-03 2019-09-03 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 Active CN110688474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910826787.XA CN110688474B (zh) 2019-09-03 2019-09-03 基于深度学习与链接预测的嵌入表示获得及引文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910826787.XA CN110688474B (zh) 2019-09-03 2019-09-03 基于深度学习与链接预测的嵌入表示获得及引文推荐方法

Publications (2)

Publication Number Publication Date
CN110688474A true CN110688474A (zh) 2020-01-14
CN110688474B CN110688474B (zh) 2023-03-14

Family

ID=69107763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910826787.XA Active CN110688474B (zh) 2019-09-03 2019-09-03 基于深度学习与链接预测的嵌入表示获得及引文推荐方法

Country Status (1)

Country Link
CN (1) CN110688474B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN112613559A (zh) * 2020-12-23 2021-04-06 电子科技大学 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端
WO2021159894A1 (en) * 2020-02-12 2021-08-19 Huawei Technologies Co., Ltd. Recommender system using bayesian graph convolution networks
CN114818737A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
US20180373754A1 (en) * 2017-06-23 2018-12-27 City University Of Hong Kong System and method for conducting a textual data search
US20190065986A1 (en) * 2017-08-29 2019-02-28 International Business Machines Corporation Text data representation learning using random document embedding
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
US20180373754A1 (en) * 2017-06-23 2018-12-27 City University Of Hong Kong System and method for conducting a textual data search
US20190065986A1 (en) * 2017-08-29 2019-02-28 International Business Machines Corporation Text data representation learning using random document embedding
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WALEED WAHEED ETC.: "A Hybrid Approach Toward Research Paper Recommendation Using Centrality Measures and Author Ranking", 《 IEEE ACCESS》 *
XIAOYAN CAI ETC.: "A Three-Layered Mutually Reinforced Model for Personalized Citation Recommendation", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
李飞: "基于文本向量表示学习的引文推荐方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
陈志涛: "基于深度学习的个性化引文搜索推荐算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159894A1 (en) * 2020-02-12 2021-08-19 Huawei Technologies Co., Ltd. Recommender system using bayesian graph convolution networks
US11494617B2 (en) 2020-02-12 2022-11-08 Huawei Technologies Co., Ltd. Recommender system using bayesian graph convolution networks
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN112364151B (zh) * 2020-10-26 2023-06-27 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN112613559A (zh) * 2020-12-23 2021-04-06 电子科技大学 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端
CN112613559B (zh) * 2020-12-23 2023-04-07 电子科技大学 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端
CN114818737A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN114818737B (zh) * 2022-06-29 2022-11-18 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和系统
CN116628350B (zh) * 2023-07-26 2023-10-10 山东大学 基于可区分主题的新论文推荐方法和系统

Also Published As

Publication number Publication date
CN110688474B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
US9589208B2 (en) Retrieval of similar images to a query image
US9110922B2 (en) Joint embedding for item association
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US9305083B2 (en) Author disambiguation
Xie et al. Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109145087A (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN109710725A (zh) 一种基于文本分类的中文表格列标签恢复方法和系统
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
CN113269477B (zh) 一种科研项目查询评分模型训练方法、查询方法及装置
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN112417147A (zh) 训练样本的选取方法与装置
Tian et al. Automatic image annotation with real-world community contributed data set
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法
Nghiem et al. Which one is better: presentation-based or content-based math search?
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN116071636B (zh) 商品图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant