CN110083696A

CN110083696A - 基于元结构技术的全局引文推荐方法、推荐系统

Info

Publication number: CN110083696A
Application number: CN201910326299.2A
Authority: CN
Inventors: 赵姝; 赵桓幜; 陈喜; 陈洁; 段震; 张燕平
Original assignee: Anhui University
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-02
Anticipated expiration: 2039-04-23
Also published as: CN110083696B

Abstract

本发明公开基于元结构技术的全局引文推荐方法，对原始数据集进行文章提取、词频统计、关键短语筛选数据清洗操作，得到文章并使用文章、文章的作者、出版商和术语信息构建文章库；通过文章库中文章以及文章的作者、出版商和术语，建立异构信息网络；使用三度影响力原则选取三度以内的元结构，并依据所选的元结构和基于元结构的相似度计算技术得到文章库中文章的相似度；提出方法为每个元结构加权来融合文章间基于不同元结构获得的不同的相似度；使用优化算法优化以求得使推荐效果最优的权重；为每篇文章根据最优权重下的相似度和年份生成推荐列表。本发明通过元结构将语义信息融入到文章的相似性计算中，增强了引文推荐的可解释性。

Description

基于元结构技术的全局引文推荐方法、推荐系统

技术领域

本发明涉及信息推荐技术领域，尤其涉及基于元结构技术的全局引文推荐方法、推荐系统。

近年来，随着科学技术的发展，学者们把撰写论文作为展示自己科研成果的重要手段，随之带来的科研文献数量飞速的增长。因此，如何准确地、高效地为科研人员推荐参考文献是一个具有挑战性的任务。全局引文推荐可以提高科研人员查找文献的效率，增强初学者对当前领域的认知，同时一定程度上降低错、漏引出现的概率。

如专利申请201511026567.7公开的一种基于文献内容知识图谱的多层引文推荐方法，首先获取用户的查询需求，查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后，基于文献内容的知识图谱扩展查询检索词语，知识图谱由文献的研究对象词语和研究行为词语结点，以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后，构建数据集中文献的倒排索引，选取候选引文，计算候选引文和查询的相似度，采用梯度渐进回归树来进行引文推荐。

又如专利申请201810994562.0公开的一种基于神经机器翻译技术的局部引文推荐方法及系统，通过对原始数据集进行引文提取、词形还原、词频统计数据清洗操作，得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库；通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量，构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架，将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入，被引文章标题作为输出来训练模型；将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算；依据文章年份，选取符合要求的文章作为推荐列表。

目前，全局引文推荐主要有两种方法：(1)基于主题的方法；(2)基于图结构的方法。其中基于主题的方法认为引文周围的词与引文外部的词享有不同的主题分布，并根据引文上下文和文章主题的相关性来推荐引文。基于图结构的方法相对于基于主题的方法增加了更多的限定条件，例如将论文合作者信息加入到引文推荐中，构建多层图结构用以分析特征间的联系。然而每张图只能呈现出两个特征间的关系(邻接矩阵的行和列)，这些分析方法并不能从全局的角度综合的考量文章与多种特征之间的关系。两种方法相比，基于主题适用于整理较为干净的文本，对文章的内容信息要求较高。而基于图结构的方法使用的文章特征较多，虽然精确度较高，但适用场景却十分有限。

发明内容

本发明所要解决的技术问题在于如何通过增强了引文推荐的可解释性来提高引文推荐的精确度。

本发明通过以下技术手段实现解决上述技术问题的：一种基于元结构技术的全局引文推荐方法，包括以下步骤：

S1、收集文章，构建原始数据集，原始数据集包括候选文章集与目标文章集；对原始数据集中的文章进行文章提取，得到文章的作者、出版商和术语，并使用文章、文章的作者、出版商和术语四种属性构建文章库；

S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络；

S3、列举所有在异构信息网络中度数在三以内的元结构，并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度；

S4、对S3中的每个元结构进行加权，用以融合文章间基于不同元结构获得的不同的相似度；根据候选文章与目标文章之间的相似度，为所有目标文章根据相似度排名生成推荐列表；

S5、使用优化算法优化推荐列表。

优选地，所述步骤S1中的术语的提取包括以下步骤：

S11、提取原始数据集中所有的文章信息，并去除信息不全的文章，将题目和摘要作为文章的文本信息；

S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF，文章中的某个词α的词频计算公式如下：

词a的逆文本频率计算公式如下：

根据词频和逆文本频率计算词a的TF-IDF值，公式如下：

TF-IDF＝TF(a)×IDF(a)

取TF-IDF值排名靠近的词作为文章的关键词；

将每篇文章的文本输入TextBlob工具，得到每篇文章的关键短语；

S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重，将去重后的关键词、关键短语作为文章的术语。

优选地，所述S2中通过以下步骤建立异构信息网络；

S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边；

S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边；

S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边；

S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。

优选地，所述S3包括以下步骤：

S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构，表示为S＝{S₁，S₂，...，S_M}；

S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度，得到目标文章tp_u与候选文章cp_i在元结构下的相似度；

原始数据集中K篇目标文章TP＝{tp₁，tp₂，...，tp_K}和N篇候选文章CP＝{cp₁，cp₂，...，cp_N}之间基于所选的M个元结构下的相似度：

其中，tp_u表示第u篇目标文章，表示第u篇目标文章在网络中对应的节点，u∈[1，K]；

S_j表示第j个元结构；其中，d(S_j)表示元结构S_j的维度；j∈[1，M]；

cp_i表示第i篇候选文章，表示第i篇候选文章在网络中对应的节点，i∈[1，N]；

表示从目标文章节点的邻居节点中选出类型为的节点，其中，v_l表示目标文章节点的邻居节点中，类型为的节点中的第l个，表示网络中目标文章节点的所有邻居节点，表示目标文章节点的邻居节点个数，|V|表示网络中所有节点的个数；r(v_l)∈{文章，作者，出版商，术语}；

表示元结构S_j的第二项；

表示网络中从节点v_l开始到候选文章节点为止，所有满足元结构的路径实例的个数；其中，表示S_j去除第一项的剩余部分的元结构，表示元结构S_j的第一项；

表示网络中从点v_l开始，所有满足元结构的路径实例的个数，其中，表示S_j去除第一项的剩余部分的元结构，表示元结构S_j的第一项；

表示网络中从目标文章节点开始，满足元结构的路径实例的个数的β次幂，其中，表示第u篇目标文章在网络中对应的节点；表示由元结构S_j的第一项和第二项组成的元结构；β是一个权重系数，取值在[0，1]之间。

优选地，所述S4包括：

S41、为S31步骤中所选的M个元结构赋予权重，权重依次为W＝{w₁，w₂，...，w_M}；其中，w_M表示第M个元结构的权重；

S42、采用相似度模型以衡量目标文章tp_u∈TP与候选文章cp_i∈CP之间的相似性，相似度模型如下：

优选地，所述S5采用粒子群优化算法，包括以下步骤：

S51、将待求解的权重W＝{w₁，w₂，...，w_M}作为粒子群优化算法中待求解的问题，不同权重的排列组合构成解空间中不同的解，在粒子群优化算法第h次迭代中，解x_h为并且，每个解x_h作为粒子群优化算法中粒子的位置；

S52、在粒子群优化算法的下一次迭代中，解优化的过程中，将推荐的召回率作为目标函数，并且每个粒子记录自己所走过的位置中的最优位置p_best，优化过程中也会记录空间中所有粒子走过的位置中的最优位置g_best，设置终止的损失函数值γ，方法遵循以下步骤：

S521、将解中的权重值输入S42步骤中的相似度模型中，计算所有目标文章TP与所有候选文章CP之间的相似度，SIM(tp_u，cp_i)，其中tp_u∈TP，cp_i∈CP；

S522、根据候选文章与目标文章之间的相似度，为所有目标文章根据相似度排名生成推荐列表，推荐列表长度为25；若某一篇目标文章的推荐列表长度不足25，则以其推荐列表长度为准；

S523、根据推荐结果与目标文章实际的参考文献作对比，计算召回率，公式如下：

其中，K为目标文章的总数，为目标文章tp_u的推荐列表中的所有文章集合，为目标文章tp_u的实际的参考文献集合；

S524、若没有达到设定的迭代次数或Recall@25＜γ，继续下一步S525，否则跳出循环，确定当前的解为最优解；

S525、计算每个粒子的速度

v_h＝v_h+c₁×rand×(p_best-x_h)+c₂×rand×(g_best-x_h)

其中，v_h表示粒子在第h次迭代时的速度，c₁，c₂为学习因子，rand表示随机数，rand∈(0，1)；

使用粒子的速度来更新第·h+1次迭代时，粒子的位置x_h+1＝x_h+v_h，其中，

S53、将步骤S524中的最优权重输入步骤S42中的相似度模型SIM(tp_u，cp_i)中，其中tp_u∈TP，cp_i∈CP；得到所有目标文章TP和所有候选文章CP之间的相似度；

S54、根据用户的推荐篇数的需求，为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。

本发明还公开一种基于元结构技术的全局引文推荐系统，

包括：

文章库模块，用以构建文章、文章的作者、出版商和术语四种属性；

异构信息网络模块，用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系；

元结构模块，用以列举所述属性在异构信息网络中度数在三以内的元结构；

BSCSE算法模块，所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度；

相似度模型，用以融合文章间基于不同元结构获得的不同的相似度；

优化算法模块，用以优化相似度模型。

优选地，包括以下步骤建立所述异构信息网络；

S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边。

优选地，所述S3列举所述属性在异构信息网络中度数在三以内的元结构，包括以下步骤：

表示元结构S_j的第二项；

优选地，所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度，包括以下步骤：

本发明的优点在于：从全局的角度出发，综合文章的各种特征，以及多种特征间的联系，来衡量两篇文章互为引用关系的可能性；异构信息网络蕴含着多种语义信息，本发明通过元结构将语义信息融入到文章的相似性计算中，增强了引文推荐的可解释性。

附图说明

图1为本发明实施例1的结构流程图。

图2为本发明实施例1中的异构信息网络的拓扑示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。

如图1所示，本实施例公开一种基于元结构技术的全局引文推荐方法，包括以下步骤：

S1、收集文章，构建原始数据集，对原始数据集进行文章提取，词频统计、逆文本频率指数计算以及关键短语筛选数据清洗，得到文章的作者、出版商和术语，并使用文章、文章的作者、出版商和术语构建文章库；

本实施方式中，需要对原始数据集中信息不全的文章进行去除，确定年份，发表在该年份之前的文章定义为候选文章，在该年份发表的文章定义为目标文章，候选文章集包含去除目标文章在该年份下的引文后得到的目标文章的引文。

将文章的题目和摘要作为文章的文本信息，计算词频和逆文本频率指数作为文本中词的权重；本实施例选择权重排名前十五的词语和采用TextBlob工具提取该文章的关键短语作为文章的术语。

在实际操作过程中，步骤S1具体包括以下步骤：

S11、提取原始数据集中所有的文章信息，并去除信息不全的文章(无题目、无摘要、无年份、无出版商、无作者，满足以上条件之一的均视为信息不全)，将题目和摘要作为文章的文本信息；

S12、根据词频(TF)和逆文本频率指数(IDF)相乘得到每个词的TF-IDF，文章中的某个词α的词频计算公式如下：

词a的逆文本频率计算公式如下：

根据词频和逆文本频率计算词a的TF-IDF值，公式如下：

TF-IDF＝TF(a)×IDF(a)

对于文章库中的每篇文章，取TF-IDF值排名前十五的词作为文章的关键词；

将每篇文章的文本输入TextBlob工具，使用该工具的“noun_phrases”(名词短语)功能得到每篇文章的关键短语；

S13、将步骤S11获得的关键词与步骤S12获得的关键短语使用现有技术的字符匹配进行合并、去重，将去重后的关键词、关键短语作为文章的术语。

S2、通过文章库中文章的作者1、文章2、术语3和出版商4共四种类型，建立异构信息网络，类型间的关系如图2所示；

本发明的异构信息网络为下式：

G＝(V，E，T，φ，ψ)

其中，V表示网络中所有的节点，E表示网络中所有的边，T表示网络中所有的类型，对于网络中的任意一个节点v∈V和的任意一个边e∈E存在影射Φ(v)：V→Tv和Ψ(v)：E→T_E；Tv和T_E分别表示节点和边的类型，Tv＝{文本信息、作者、出版商、术语}，T_E＝{作者写文章(作者→文章)、文章被作者写(文章→作者)、文章发表在出版商(文章→出版商)、出版商刊登文章(出版商→文章)、文章包含术语(文章→术语)、术语属于文章(术语→文章)、文章引用文章(文章→文章)}；

在本实施例中，在文章库里使用节点与节点之间表示一条边，点与点之间采用分隔符分隔。

在实际操作过程中，步骤S2具体包括以下步骤：

S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。因目标是为目标文章推荐候选文章集中的文章作为目标文章的引文，所以在异构信息网络构建中，不加入目标文章与其引文的连边；

S3、使用三度影响力原则选取三度以内的元结构，并依据所选的元结构和基于元结构的相似度技术计算得到文章库中文章的相似度；

本实施方式中，使用社交网络中的三度影响力原则来选取元结构，三度影响力原则认为信息在网络中传播的过程中，经过的对象越多，影响力会逐渐削弱，如果传播范围超出三度，则影响力会消失；本步骤计算异构信息网络中两个文章类型的节点的相似度时，若两篇文章通过三度以上(不包括三度)的元结构连接，则两篇文章之间的关联可以忽略。

在实际操作过程中，S3具体包括：

S31、列举所有在异构信息网络(包括文章、作者、术语和出版商构成)中度数在三以内的(包括三度)从目标文章节点出发到候选文章节点结束的M个元结构，表示为S＝{S₁，S₂，...，S_M}；

本步骤使用的元结构如表1所示：

表1

表示从目标文章节点的邻居节点中选出类型为的节点，其中，v_l表示目标文章节点的邻居节点中，类型为的节点中的第l个，表示网络中目标文章节点的所有邻居节点，表示目标文章节点的邻居节点个数，|V|表示网络中所有节点的个数；r(v_l)表示网络中节点v_l的类型，本发明节点的类型为四种，文章、作者，出版商和术语，r(v_l)∈{文章，作者，出版商，术语}；表示元结构S_j的第二项；

表示网络中从节点v_l开始到候选文章节点为止，所有满足元结构的路径实例的个数；其中，表示S_j去除第一项的剩余部分的元结构，表示元结构S_j的第一项。

表示网络中从点v_l开始，所有满足元结构的路径实例的个数，其中，表示S_j去除第一项的剩余部分的元结构，表示元结构S_j的第一项。

S4、对S3中的每个元结构进行加权，用以融合文章间基于不同元结构获得的不同的相似度；

在实际操作过程中，步骤S4具体包括：

S5、使用优化算法优化以求得使推荐效果最优的权重；

本实施方式中，我们可以采用四种优化算法来优化相似度模型，分别是，遗传算法、粒子群优化算法、和声算法和模拟退火算法；在推荐的准确度上，遗传算法略高于其他三种算法，而在时间开销上，和声算法速度最快。

在本发明中，以粒子群优化算法为例，步骤S5具体包括：

S525、计算每个粒子的速度

v_h＝v_h+c₁×rand×(p_best-x_h)+c₂×rand×(g_best-x_h)

其中，v_h表示粒子在第h次迭代时的速度，c₁，c₂为学习因子，rand表示随机数，rand∈(0，1)。

S6、为每篇文章根据最优权重下的相似度和年份生成推荐列表。

在实际操作过程中，步骤S6具体包括：

S61、将步骤S5中的最优权重输入步骤S42中的相似度模型SIM(tp_u，cp_i)中，其中tp_u∈TP，cp_i∈CP；计算所有目标文章TP和所有候选文章CP之间的相似度；

S62、根据用户的推荐篇数NUM的需求，也就是需要为每篇目标文章推荐NUM篇候选文章，所以，为每篇目标文章返回相似性排名靠前的NUM篇候选文章作为全局引文推荐算法的输出。NUM指推荐篇数。

实施例2

以题目为“Exploiting partial annotations with EM training”的文章为例，在数据集中，它的真实引文为“5275”，“4908”，“10302”，“12534”，“7374”，“3703”，“11213”，“2217”，“7400”，“12704”，“9144”，“9095”，“471”，“9733”，“10540”；我们的方法推荐的前10篇文章为“p9233”，“p10302”，“p7126”，“p7374”，“p8026”，“p8621”，“p1251”，“p3355”，“p9095”，“p11182”；其中，下划线“_”列出的文章为本方法预测正确的三篇文章，本方法在数据集中为每篇目标文章推荐5，10，15和20篇文章时的准确率和F1值如表2，表3所示，不同的优化算法对本技术的推荐效果影响不大，本方法同现有的引文推荐方法“文章-词图算法”和“多层次相互查询算法”的对比如表4所示，在推荐篇数25，50，75时在召回率和归一化折损累计增益两个指标下均对原方法有所提升。

表2

表3

表4

Claims

1.一种基于元结构技术的全局引文推荐方法，其特征在于，包括以下步骤：

S5、使用优化算法优化推荐列表。

2.根据权利要求1所述的基于元结构技术的全局引文推荐方法，其特征在于，所述步骤S1中的术语的提取包括以下步骤：

词a的逆文本频率计算公式如下：

根据词频和逆文本频率计算词a的TF-IDF值，公式如下：

TF-IDF＝TF(a)×IDF(a)

取TF-IDF值排名靠近的词作为文章的关键词；

3.根据权利要求1所述的基于元结构技术的全局引文推荐方法，其特征在于，所述S2中通过以下步骤建立异构信息网络；

4.根据权利要求1所述的基于元结构技术的全局引文推荐方法，其特征在于，所述S3包括以下步骤：

表示元结构S_j的第二项；

5.根据权利要求4所述的基于元结构技术的全局引文推荐方法，其特征在于，所述S4包括：

6.根据权利要求5所述的基于元结构技术的全局引文推荐方法，其特征在于，所述S5采用粒子群优化算法，包括以下步骤：

S525、计算每个粒子的速度

v_h＝v_h+c₁×rand×(p_best-x_h)+c₂×rand×(g_best-x_h)

7.一种基于元结构技术的全局引文推荐系统，其特征在于，

包括：

优化算法模块，用以优化相似度模型。

8.根据权利要求7中所述的基于元结构技术的全局引文推荐系统，其特征在于，包括以下步骤建立所述异构信息网络；

9.根据权利要求7中所述的基于元结构技术的全局引文推荐系统，其特征在于，所述S3列举所述属性在异构信息网络中度数在三以内的元结构，包括以下步骤：

表示元结构S_j的第二项；

表示网络中从目标文章节点开始，满足元结构的路径实例的个数的β次幂，其中，表示第u篇目标文章在网络中对应的节点；表示由元结构Sj的第一项和第二项组成的元结构；β是一个权重系数，取值在[0，1]之间。

10.根据权利要求7中所述的基于元结构技术的全局引文推荐系统，其特征在于，所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度，包括以下步骤：