CN115129850A - 基于学术异质网络表示学习的参考文献引荐方法及设备 - Google Patents

基于学术异质网络表示学习的参考文献引荐方法及设备 Download PDF

Info

Publication number
CN115129850A
CN115129850A CN202210699287.6A CN202210699287A CN115129850A CN 115129850 A CN115129850 A CN 115129850A CN 202210699287 A CN202210699287 A CN 202210699287A CN 115129850 A CN115129850 A CN 115129850A
Authority
CN
China
Prior art keywords
article
document
vector
keywords
academic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210699287.6A
Other languages
English (en)
Inventor
毛进
李纲
周华阳
陈子洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210699287.6A priority Critical patent/CN115129850A/zh
Publication of CN115129850A publication Critical patent/CN115129850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于学术异质网络表示学习的参考文献引荐方法及设备,包括:根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的三类文献节点进行唯一编码;根据三类文献节点构造学术异质网络;将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度并进行参考文献推荐。本发明有效提高了推荐效率,综合考虑了学科类目,具有较强的使用场景泛化性。

Description

基于学术异质网络表示学习的参考文献引荐方法及设备
技术领域
本发明实施例涉及文献检索技术领域,尤其涉及一种基于学术异质网络表示学习的参考文献引荐方法及设备。
背景技术
随着科学研究的蓬勃发展,科研文献数量高速增长。研究人员在撰写相关研究文章时,会查阅相关文献,以借鉴其研究思路、方法,并为自身观点提供理论依据。但这一检索的过程会耗费大量的时间和精力。目前的文献检索方法虽然能够在一定程度上满足推荐参考文献需求,但仍然存在着推荐效率低下、未考虑学科的综合性等问题。此外,由于实际情况的复杂性,参考文献推荐方法多处于实验研究阶段,即在小部分数据集上可能表现良好,无法适用于所有场景,未被广泛应用于大规模数据集的推荐任务上。因此,开发一种基于学术异质网络表示学习的参考文献引荐方法及设备,可以有效克服上述相关技术中的缺陷,就成为业界亟待解决的技术问题。
发明内容
针对现有技术存在的上述问题,本发明实施例提供了一种基于学术异质网络表示学习的参考文献引荐方法及设备。
第一方面,本发明的实施例提供了一种基于学术异质网络表示学习的参考文献引荐方法,包括:根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;根据三类文献节点构造学术异质网络;将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,包括:将摘要和题名进行拼接,提取初始关键词,得到一文章的名词或名词词组,作为候选关键词,使用词频-逆文档频率为指标计算一文献候选关键词的词频-逆文档频率值,词频-逆文档频率值越大则该候选关键词越能代表该篇文献的内容,筛选候选关键词中词频-逆文档频率值排名前十的关键词,得到这篇文章的关键词集合。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述根据三类文献节点构造学术异质网络,包括:根据数据集中每篇文章信息以文献节点对的形式生成边关系,然后进行存储;在获得对每篇文章的题名、关键词、作者的编码后,将文章与关键词间的内容标引关系、作者与文章的撰写关系、文章与文章间的引用关系按照(v1,v2)的形式进行组织,其中v1和v2代表文献节点的第一编码和第二编码,并将数据集中的节点对构成的边关系存储至txt格式文件中。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000021
其中,
Figure BDA0003703349750000022
为网络表示学习得到的关键词ki的向量表示,
Figure BDA0003703349750000023
为网络表示学习得到的作者aj的向量表示,
Figure BDA0003703349750000024
是指第i个关键词ki的词频-逆文档频率值,
Figure BDA0003703349750000025
是指第j个作者aj出现在数据集中的频率,embr1为第一目标文献的向量表示,m为作者的数量,n为关键词的数量。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,还包括:
Figure BDA0003703349750000026
其中,embr2为第二目标文献的向量表示。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000031
其中,embr3为第三目标文献的向量表示。
在上述方法实施例内容的基础上,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,包括:
Figure BDA0003703349750000032
其中,r为输入文献,pj为数据集中候选文章节点,fi r表示输入文献向量的第i维度值,
Figure BDA0003703349750000033
表示数据集中候选文章节点pj的向量的第i维度值,d为节点向量的维度数。
第二方面,本发明的实施例提供了一种基于学术异质网络表示学习的参考文献引荐装置,包括:第一主模块,用于根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;第二主模块,用于根据三类文献节点构造学术异质网络;第三主模块,用于将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;第四主模块,用于计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
第三方面,本发明的实施例提供了一种电子设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的基于学术异质网络表示学习的参考文献引荐方法。
第四方面,本发明的实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的基于学术异质网络表示学习的参考文献引荐方法。
本发明实施例提供的基于学术异质网络表示学习的参考文献引荐方法及设备,通过构建融合内容主题与外部特征的学术异质网络,使用网络表示学习的方法提供参考文献推荐,根据学术数据构建学术异质网络,通过使用网络表示学习的方法获得文章的向量表示,在此基础上计算文章向量间的余弦相似度,根据相似度排序进行引文推荐,有效提高了推荐效率,综合考虑了学科类目,具有较强的使用场景泛化性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于学术异质网络表示学习的参考文献引荐方法流程图;
图2为本发明实施例提供的基于学术异质网络表示学习的参考文献引荐装置结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图;
图4为本发明实施例提供的参考文献推荐算法的整体流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
针对参考文献推荐中复杂的实际场景,提供一种以学术异质网络为基础,智能高效进行推荐的方法。在引文推荐具体实践过程中,通过使用文章、关键词、作者等信息构建学术引文网络,并按照相似度大小进行排序,将参考文献推荐给研究者,这一方法可以避免在推荐过程中进行繁杂的操作。基于这种思想,本发明实施例提供了一种基于学术异质网络表示学习的参考文献引荐方法,参见图1,该方法包括:根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;根据三类文献节点构造学术异质网络;将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,包括:将摘要和题名进行拼接,提取初始关键词,得到一文章的名词或名词词组,作为候选关键词,使用词频-逆文档频率为指标计算一文献候选关键词的词频-逆文档频率值,词频-逆文档频率值越大则该候选关键词越能代表该篇文献的内容,筛选候选关键词中词频-逆文档频率值排名前十的关键词,得到这篇文章的关键词集合。
具体地,学术文本数据库中文献是参考文献推荐的基础数据集,每篇文献包括作者、题名、摘要、年份、关键词、引文等信息。其中,针对数据集存在的缺乏关键词的问题,需要根据文章题名和摘要信息,使用关键词提取方法提取出每篇文章的关键词。具体做法如下:首先将摘要和题名进行拼接,然后使用相关工具提取初始关键词,得到每篇文章的名词或名词词组,作为候选关键词。然后使用TF-IDF(词频-逆文档频率)为指标计算每篇文献候选关键词的TF-IDF值,TF-IDF值越大说明该候选关键词越能代表该篇文献主要内容,筛选候选关键词中TF-IDF值排名前十的关键词,得到这篇文章的关键词集合。接着将每篇文章的题名、作者、关键词这三类实体节点进行唯一编码,即使用不重复的非零整数对实体进行表示。并按照每列字段为“文章”、“作者”、“关键词”的形式对数据集中的每篇文章信息进行存储,同时需要保存不同实体与编码的映射关系。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述根据三类文献节点构造学术异质网络,包括:根据数据集中每篇文章信息以文献节点对的形式生成边关系,然后进行存储;在获得对每篇文章的题名、关键词、作者的编码后,将文章与关键词间的内容标引关系、作者与文章的撰写关系、文章与文章间的引用关系按照(v1,v2)的形式进行组织,其中v1和v2代表文献节点的第一编码和第二编码,并将数据集中的节点对构成的边关系存储至txt格式文件中。具体可以参见表1的学术异质网络节点及边的符号表示。
表1
Figure BDA0003703349750000061
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000062
其中,
Figure BDA0003703349750000063
为网络表示学习得到的关键词ki的向量表示,
Figure BDA0003703349750000064
为网络表示学习得到的作者aj的向量表示,
Figure BDA0003703349750000065
是指第i个关键词ki的词频-逆文档频率值,
Figure BDA0003703349750000066
是指第j个作者aj出现在数据集中的频率,embr1为第一目标文献的向量表示,m为作者的数量,n为关键词的数量。
具体地,将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章、关键词和作者等各类文献节点的低维度向量表示。对于任意一节点,每个节点的低维度向量为emb=(f1,f2,f3,…,fd),其中d为节点向量的维度数,fd为连续实数值,取值范围为(0,1)。采用的网络表示学习模型包括但不局限于DeepWalk、LINE、node2vec、metapath2vec等。
在对数据集中文献进行向量化后,进一步对输入文献(也就是被引荐文献)的向量表示进行构造。针对未出现在数据集中的正在撰写的目标文献,可将该文章对应的关键词与作者向量直接相加,得到这篇文章的向量表示。
针对输入文献r,包含作者集合{a1,a2,…,aj,…,am}和关键词集合{k1,k2,…,ki,…,kn},其中m为文献中作者的数量,作者序号1≤j≤m,n即为文献中关键词的数量,关键词序号1≤i≤n。计算第r篇输入文献的低维度向量表示时,有四种不同情况,分别有不同的计算方法。具体来说,分成四种不同情况:若输入文献的作者和关键词均存在于数据集包含的作者与关键词集合中,则该输入文献的节点向量构建公式如(1)式所示。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,还包括:
Figure BDA0003703349750000071
其中,embr2为第二目标文献的向量表示。
具体地,若输入文献的作者存在于作者集合中,而关键词不存在于关键词集合时,则使用关键词节点向量来构建该输入文献节点向量,公式如(2)式所示。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000072
其中,embr3为第三目标文献的向量表示。
具体地,若输入的关键词存在于关键词集合中,而作者不存在于作者集合时,则使用作者节点向量来构建文献节点向量,公式如(3)式所示。当作者或关键词信息均不存在于集合中时,文献向量则随机初始化为与数据集中文献节点向量维度相同的向量。这种情况出现概率较低,其中d为节点向量维度,fd为连续实数值:emb=(f1,f2,f3,…,fd)。
基于上述方法实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐方法,所述计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,包括:
Figure BDA0003703349750000081
其中,r为输入文献,pj为数据集中候选文章节点,fi r表示输入文献向量的第i维度值,
Figure BDA0003703349750000082
表示数据集中候选文章节点pj的向量的第i维度值,d为节点向量的维度数。
在上一阶段获取输入文献与数据集中候选文献的节点向量表示后,基于余弦相似度的方法进行参考文献的推荐,余弦相似度越大,说明二者在网络中的结构特征和语义特征上越接近,这一候选文献最终被参考的概率就越大。由此,按照相似度进行排序,选择前N篇文献作为推荐的参考文献结果。在实际应用中,N需要根据具体场景进行设置。
本发明实施例提供的基于学术异质网络表示学习的参考文献引荐方法,通过构建融合内容主题与外部特征的学术异质网络,使用网络表示学习的方法提供参考文献推荐,根据学术数据构建学术异质网络,通过使用网络表示学习的方法获得文章的向量表示,在此基础上计算文章向量间的余弦相似度,根据相似度排序进行引文推荐,有效提高了推荐效率,综合考虑了学科类目,具有较强的使用场景泛化性。
本发明的参考文献推荐系统整体应用流程如图4所示,整个方法的应用包括四步:
第一步,根据学术文本数据集,进行学术异质网络节点及边的表示与存储。
第二步,基于获得的作者、关键词、文章节点关系对,进一步对学术异质网络进行构造,并用网络表示学习方法获取节点向量。
第三步,收集用户输入的主题、关键字等描述性信息,并基于输入的文章信息构建向量。关键词节点向量根据文献中关键词的TF-IDF加权得到,作者节点向量根据文献中作者的词频加权得到,将两者节点向量表示直接相加,得到最终这一文献的节点向量表示。
第四步,通过计算每篇输入的目标文献信息与所有候选文献中文章向量的余弦相似度,并按照相似度大小进行降序排序,筛选出排名前K的文献作为该篇用户输入文献的推荐文献列表,并进行展示。
本发明的优势在于:构建融合主题和外部特征的学术异质网络,并进行网络表示学习。将计算机领域中信息网络的分析与应用方法运用到学术网络中,使用作者、文章、关键词主题等实体以及实体之间的多元关系构建了学术异质网络。进一步通过网络表示学习方法学习得到网络中各类节点的向量表示,融合了学术网络的结构特征和语义特征。利用文献多元结构构建文献的低维向量表示,高效解决参考文献引荐问题。本发明基于文章、作者、关键词等多类型节点构建目标文献的低维向量表示,方法不仅适用于学术数据库中已存在的文献,也适用于“冷启动”问题,即学者新撰写的文献,实现目标文献向量表示。与传统的参考文献引荐方法相比,网络表示学习方法集成了学术网络的结构特征和语义特征,是参考文献引荐的新方法路径。与已有的网络表示学习参考文献推荐方法相比,本发明的优势在于通过灵活的目标文献向量表示构建过程,适宜于包括新文献撰写等场景的参考文献推荐。
在另一实施例中,选取某几篇输入文献信息为例进行分析,根据实际情况展示为其进行推荐的过程与结果。
1、导入模拟输入文献信息
表2输入文献信息
文章 作者 关键词
A David algorithm
B Daniel、Andrew model
C Richard method、theorem
D John 未直接给出
2、数据预处理
对于未直接给出关键词的文章D,将摘要和题名进行拼接,以TF-IDF为指标得到候选关键词集合{vector、law},并对其进行唯一性编码和记录。
表3唯一性编码结果
Figure BDA0003703349750000101
3、得到输入文献的向量表示
由于输入文献的作者、关键词是否已经包含在候选作者、关键词集合会使向量表示方法有区别,因此首先对这两条进行区分,结果如下表所示:
Figure BDA0003703349750000102
假设向量的维度均为100,对四篇文章的节点向量仅展示前3和最后1维的数值。对于文章A,作者和关键词均存在于现有数据集合中,因此把作者、关键词的向量相加,得到其节点向量为:
Figure BDA0003703349750000103
对于文章B,作者存在于现有数据集合中,而关键词不存在,因此使用关键词节点向量来构建文章B的节点向量:
Figure BDA0003703349750000104
对于文章C,关键词存在于现有数据集合中,而作者不存在,因此使用作者节点向量来构建文章C的节点向量:
embr3=(1,1,0,…,1)
对于文章D,作者和关键词均不存在于现有数据集合,由此文章D的节点向量为100维的随机初始化向量:
embr4=(1,1,0,…,0)
4、得到参考文献推荐结果
根据上述公式,对余弦相似度计算,并对大小进行排序,对每篇文章获得相似度前2的两篇文献,作为参考文献列表推荐给科研工作者,示例如下表所示。
Figure BDA0003703349750000111
本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种基于学术异质网络表示学习的参考文献引荐装置,该装置用于执行上述方法实施例中的基于学术异质网络表示学习的参考文献引荐方法。参见图2,该装置包括:第一主模块,用于根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;第二主模块,用于根据三类文献节点构造学术异质网络;第三主模块,用于将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;第四主模块,用于计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
本发明实施例提供的基于学术异质网络表示学习的参考文献引荐装置,采用图2中的若干模块,通过构建融合内容主题与外部特征的学术异质网络,使用网络表示学习的方法提供参考文献推荐,根据学术数据构建学术异质网络,通过使用网络表示学习的方法获得文章的向量表示,在此基础上计算文章向量间的余弦相似度,根据相似度排序进行引文推荐,有效提高了推荐效率,综合考虑了学科类目,具有较强的使用场景泛化性。
需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征获得相应的技术手段,以及由这些技术手段构成的技术方案,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。例如:
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第一子模块,用于实现所述根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,包括:将摘要和题名进行拼接,提取初始关键词,得到一文章的名词或名词词组,作为候选关键词,使用词频-逆文档频率为指标计算一文献候选关键词的词频-逆文档频率值,词频-逆文档频率值越大则该候选关键词越能代表该篇文献的内容,筛选候选关键词中词频-逆文档频率值排名前十的关键词,得到这篇文章的关键词集合。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第二子模块,用于实现所述根据三类文献节点构造学术异质网络,包括:根据数据集中每篇文章信息以文献节点对的形式生成边关系,然后进行存储;在获得对每篇文章的题名、关键词、作者的编码后,将文章与关键词间的内容标引关系、作者与文章的撰写关系、文章与文章间的引用关系按照(v1,v2)的形式进行组织,其中v1和v2代表文献节点的第一编码和第二编码,并将数据集中的节点对构成的边关系存储至txt格式文件中。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第三子模块,用于实现所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000131
其中,
Figure BDA0003703349750000132
为网络表示学习得到的关键词ki的向量表示,
Figure BDA0003703349750000133
为网络表示学习得到的作者aj的向量表示,
Figure BDA0003703349750000134
是指第i个关键词ki的词频-逆文档频率值,
Figure BDA0003703349750000135
是指第j个作者aj出现在数据集中的频率,embr1为第一目标文献的向量表示,m为作者的数量,n为关键词的数量。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第四子模块,用于实现所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,还包括:
Figure BDA0003703349750000136
其中,embr2为第二目标文献的向量表示。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第五子模块,用于实现所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure BDA0003703349750000141
其中,embr3为第三目标文献的向量表示。
基于上述装置实施例的内容,作为一种可选的实施例,本发明实施例中提供的基于学术异质网络表示学习的参考文献引荐装置,还包括:第六子模块,用于实现所述计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,包括:
Figure BDA0003703349750000142
其中,r为输入文献,pj为数据集中候选文章节点,fi r表示输入文献向量的第i维度值,
Figure BDA0003703349750000143
表示数据集中候选文章节点pj的向量的第i维度值,d为节点向量的维度数。
本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,如图3所示,该电子设备包括:至少一个处理器(processor)、通信接口(Communications Interface)、至少一个存储器(memory)和通信总线,其中,至少一个处理器,通信接口,至少一个存储器通过通信总线完成相互间的通信。至少一个处理器可以调用至少一个存储器中的逻辑指令,以执行前述各个方法实施例提供的方法的全部或部分步骤。
此外,上述的至少一个存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的一些部分所述的方法。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于学术异质网络表示学习的参考文献引荐方法,其特征在于,包括:根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;根据三类文献节点构造学术异质网络;将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
2.根据权利要求1所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,包括:将摘要和题名进行拼接,提取初始关键词,得到一文章的名词或名词词组,作为候选关键词,使用词频-逆文档频率为指标计算一文献候选关键词的词频-逆文档频率值,词频-逆文档频率值越大则该候选关键词越能代表该篇文献的内容,筛选候选关键词中词频-逆文档频率值排名前十的关键词,得到这篇文章的关键词集合。
3.根据权利要求2所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述根据三类文献节点构造学术异质网络,包括:根据数据集中每篇文章信息以文献节点对的形式生成边关系,然后进行存储;在获得对每篇文章的题名、关键词、作者的编码后,将文章与关键词间的内容标引关系、作者与文章的撰写关系、文章与文章间的引用关系按照(v1,v2)的形式进行组织,其中v1和v2代表文献节点的第一编码和第二编码,并将数据集中的节点对构成的边关系存储至txt格式文件中。
4.根据权利要求3所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure FDA0003703349740000011
其中,
Figure FDA0003703349740000021
为网络表示学习得到的关键词ki的向量表示,
Figure FDA0003703349740000022
为网络表示学习得到的作者aj的向量表示,
Figure FDA0003703349740000023
是指第i个关键词ki的词频-逆文档频率值,
Figure FDA0003703349740000024
是指第j个作者aj出现在数据集中的频率,embr1为第一目标文献的向量表示,m为作者的数量,n为关键词的数量。
5.根据权利要求4所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,还包括:
Figure FDA0003703349740000025
其中,embr2为第二目标文献的向量表示。
6.根据权利要求5所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示,包括:
Figure FDA0003703349740000026
其中,embr3为第三目标文献的向量表示。
7.根据权利要求6所述的基于学术异质网络表示学习的参考文献引荐方法,其特征在于,所述计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,包括:
Figure FDA0003703349740000031
其中,r为输入文献,pj为数据集中候选文章节点,fi r表示输入文献向量的第i维度值,
Figure FDA0003703349740000032
表示数据集中候选文章节点pj的向量的第i维度值,d为节点向量的维度数。
8.一种基于学术异质网络表示学习的参考文献引荐装置,其特征在于,包括:第一主模块,用于根据文章题名和摘要信息,使用关键词提取出每篇文章的关键词,将每篇文章的题名、作者、关键词三类文献节点进行唯一编码;第二主模块,用于根据三类文献节点构造学术异质网络;第三主模块,用于将学术异质网络以实体关系对的方式输入到网络表示学习模型中,通过模型训练得到数据集中的文章的题名、关键词和作者三类文献节点的低维度向量,对输入的目标文献节点的低维度向量进行构造,将未出现在数据集中的撰写中的目标文献对应的关键词与作者向量相加得到目标文献的向量表示;第四主模块,用于计算目标文献与数据集中候选文章集合中每篇文章的余弦相似度,根据余弦相似度进行参考文献推荐。
9.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器和通信接口;其中,
所述处理器、存储器和通信接口相互间进行通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行权利要求1至7任一项权利要求所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至7中任一项权利要求所述的方法。
CN202210699287.6A 2022-06-20 2022-06-20 基于学术异质网络表示学习的参考文献引荐方法及设备 Pending CN115129850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210699287.6A CN115129850A (zh) 2022-06-20 2022-06-20 基于学术异质网络表示学习的参考文献引荐方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210699287.6A CN115129850A (zh) 2022-06-20 2022-06-20 基于学术异质网络表示学习的参考文献引荐方法及设备

Publications (1)

Publication Number Publication Date
CN115129850A true CN115129850A (zh) 2022-09-30

Family

ID=83380621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210699287.6A Pending CN115129850A (zh) 2022-06-20 2022-06-20 基于学术异质网络表示学习的参考文献引荐方法及设备

Country Status (1)

Country Link
CN (1) CN115129850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116561605B (zh) * 2023-06-01 2023-10-24 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US9679030B2 (en) Ontological subjects of a universe and knowledge processing thereof
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
KR101423549B1 (ko) 감상 기반 질의 처리 시스템 및 방법
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
US9070087B2 (en) Methods and systems for investigation of compositions of ontological subjects
CA2698763A1 (en) System and method for a unified semantic ranking of compositions of ontological subjects and the applications thereof
CN109359201B (zh) 多媒体教学资源的编码、存储方法及其设备
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
Zhu et al. Graph-based multimodal ranking models for multimodal summarization
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
Wankerl et al. f2tag—Can Tags be Predicted Using Formulas?
Henderi et al. Unsupervised Learning Methods for Topic Extraction and Modeling in Large-scale Text Corpora using LSA and LDA
CN115129850A (zh) 基于学术异质网络表示学习的参考文献引荐方法及设备
Sahu et al. Automatic question tagging using multi-label classification in community question answering sites
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
Kowsher et al. Bengali information retrieval system (BIRS)
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
US8554696B2 (en) Efficient computation of ontology affinity matrices
Jayasekara et al. Opinion mining of customer reviews: feature and smiley based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination