CN111581401A

CN111581401A - 一种基于深度相关性匹配的局部引文推荐系统及方法

Info

Publication number: CN111581401A
Application number: CN202010373507.7A
Authority: CN
Inventors: 饶元; 王雷鹏; 赵永强; 卞秦豫
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-25
Anticipated expiration: 2040-05-06
Also published as: CN111581401B

Abstract

本发明公开了一种基于深度相关性匹配的局部引文推荐系统及方法，使用预训练的多层语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富的问题。本发明解决了深度语义匹配方法中存在语义模糊的问题。并对引文上下文和候选论文内容建立交互矩阵学习，解决了文本长度差异较大导致传统模型推荐效果较大的影响。本发明创新性的提出了构建作者网络，解决了传统局部引文推荐方法中使用特征单一的问题，将最具影响力和相关性的作者信息融入到模型中，充分的将作者特征与相关性特征相结合。本发明使用相同的MLP网络对每一个相关性特征进行学习，有效了减少了神经网络参数，减少的模型过拟合的可能性。

Description

一种基于深度相关性匹配的局部引文推荐系统及方法

【技术领域】

本发明属于电子信息技术领域，涉及一种基于深度相关性匹配的局部引文推荐系统及方法。

【背景技术】

引用相关研究成果是研究者在撰写学术文献时的重要环节，研究者需要从文献借鉴其研究思路或者将其作为最新研究进展加以描述。研究者在撰写学术文献时往往需要引用大量的参考文献来支撑自己的观点，并且不同学科之间所需的引文数量差异巨大，特别是一些相对较成熟的学科，有时甚至需要深度挖掘出所有相关的参考文献，这必然会耗费研究者大量的精力。如何迅速地在质量参差不齐的学术资源中快速找到合适的相关文献来供科研人员进行优化选择则是目前面临的一大挑战。因此，通过研究局部引文推荐算法，将引文句本身或者由引文句和其前后若干句所组成的引文上下文，来为论文提供所需要添加和引用文献则成为了目前的关键。

现有的局部引文推荐主要分为基于主题模型、基于翻译模型以及基于深度语义匹配的方法。其中，基于主题模型的方法通过提取引文上下文中的主题，然后给每一个主题推荐最合适的引文，最后将推荐的引文与各个引文句进行匹配。这类方法一般采取迭代算法进行模型训练，往往需要较长的训练时间，所以不适用于在动态更新的数据集中做引文推荐；基于翻译模型将引文上下文和引证文献看成两种不同的“语言”，然后使用最大似然估计来计算它们之间翻译的概率，这种方法存在引文与目标文档使用词汇不一致问题，导致模型性能较差。而基于深度语义匹配的方法使用深度神经网络自动捕获单词、短语和句子的相似性，推理引文上下文和目标文档之间两端文本的语义关系，从而进行全局匹配，这种方法已成为目前局部引文推荐的主流方法，虽然取得了很多成就，但是目前由于存在文本长度差异较大而导致语义模糊、文献信息没有得到充分利用等问题，这在很大程度上影响到局部引文推荐的性能。

【发明内容】

本发明的目的在于解决现有技术中的问题，提供一种基于深度相关性匹配的局部引文推荐系统及方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于深度相关性匹配的局部引文推荐系统，包括：

上下文交互特征的提取与表示模块，用于对引文上下文和候选文档句子生成文本高级表示向量，然后使用BiLSTM模型学习文本向量中的上下文信息，最后利用注意力机制实现对引文上下文和候选文档的特征交互提取，以及对相关性特征进行表示；

影响力与作者特征的融合表示模块，用于利用预训练模型Word2vec对作者信息进行词嵌入表示，使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习，提取最具影响力和相关性的作者特征表示；

局部引文推荐模块，用于利用全连接网络对相关性特征和作者特征进行分层学习，然后在线性层对特征联合学习，完成局部引文推荐任务。

本发明还公开了一种基于深度相关性匹配的局部引文推荐方法，包括以下步骤：

阶段0：数据预处理

步骤0：将文献数据集中的引文上下文和文献内容使用Word2vec工具进行词嵌入表示，对句子中所有单词利用IDF值加权后求平均得到句向量；

步骤1：将生成的引文上下文和论文内容句子向量，计算余弦相似度得到TOP100篇相似文献生成候选集；

阶段1：相关性特征表示学习

步骤2：嵌入层是模型的基础层，采用预训练的语言模型BERT作为单词嵌入工具；使用BERT模型输入格式表示为“[CLS]上下文[SEP]”；通过BERT的多头自注意力机制计算引文上下文和论文内容的初级表示：

其中，

表示句子中第i个单词的输入，BERT^g表示全局交互表示学习阶段所使用的语言模型，

表示句子中第i个单词通过BERT生成的嵌入表示；

步骤3：在获取引文上下文和候选文献内容的嵌入表示之后，将其输入到Bi-LSTM层中获取句子的序列信息，使用预训练词向量作为残差e(t_i)结合Bi-LSTM编码的词向量；

步骤4：使用注意力机制对引文上下文和候选文献之间的每一个单词进行交互，计算单词之间的匹配度，挖掘句子之间的关系，给定一个含有m个词的候选文献d＝(d₁,...,d_m)，首先计算每个引文上下文词q_i相对于所有论文d_i的内积注意力分数，如下所示：

a_i,j＝sofmax(c(q_i)^Tc(d_j)；d₁,...,d_m) (3)

步骤5：对论文d_i的上下文编码进行加权求和，根据注意分数加权，将引文上下文q_i相对于论文文档d的每一个d_i产生基于注意力的表示向量d_qi，如下所示：

d_qi＝∑_ja_i,jc(d_j) (4)

步骤6：使用L2正则化后的d_qi与L2正则化后的引文上下文q_i进行Hadamard运算，得到每一个q_i维度固定的上下文感知编码φH(q_i)，如下所示：

步骤7：将引文上下文所有词的IDF值与φh(q_i)进行拼接，如下所示：

e(q_i)＝[φH(q_i)；idf(q_i)] (6)

阶段2：作者特征表示学习

步骤8：使用word2vec模型将引文上下文和候选文献的作者特征表示为词嵌入，使用Word2vec模型输入格式表示为“[CLS]上下文[SEP]”；给定一个维度为g的引文上下文作者向量

其包含t名引文上下文作者，定义如下：

步骤9：利用CNN模型学习作者特征之间关联信息；给定上具有一维卷积的长期依赖关系；CNN中卷积核为

其中h是卷积窗口的大小，产生特征向量

如下所示：

其中，ReLU是非线性激活函数max(0,x)，使用最大池化(max-pooling)提取最大特征，为了捕捉更复杂的关系，该过程被重复多次与不同权重的卷积核进行卷积操作；

步骤10：将引文上下文作者表示向量(A^q)和候选文献作者表示向量(A^d)分别输入到CNN模型中，使用公式8产生的特征向量进行拼接：

阶段3：特征联合学习

步骤11：使用相同的MLP网络独立地计算步骤7产生每一个相关性向量e(q_i)的分数，同时将步骤10产生的作者向量f(A)输入到MLP网络中计算分数，最终将这些MLP层输出聚合到线性层中得出相关得分rel(q,d)，公式如下所示：

rel(q,d)＝linear(MLP(e(q_i)),MLP(f(A))) (10)。

本发明进一步的改进在于：

所述步骤3中，如果

和

是单词t_i的双向LSTM左右两边最后一层隐藏层状态，上下文编码公式如下所示：

其中，c(t)是上下文编码层的输出。

与现有技术相比，本发明具有以下有益效果：

本发明通过引文上下文和候选文献内容的相关性交互和引入作者之间的信息，克服了现有技术在实验局部引文推荐中缺点与不足；本发明使用预训练的多层语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富，无法解决一词多义的问题；并利用BiLSTM模型对单词进行学习解决文本中缺乏上下文序列信息的问题。本发明提出了基于注意力机制的深度相关性匹配，解决了深度语义匹配方法中存在语义模糊的问题。并对引文上下文和候选论文内容建立交互矩阵学习，解决了文本长度差异较大导致传统模型推荐效果较大的影响。本发明创新性的提出了构建作者网络，解决了传统局部引文推荐方法中使用特征单一的问题，将最具影响力和相关性的作者信息融入到模型中，充分的将作者特征与相关性特征相结合，从而提升了局部引文推荐的性能。本发明使用相同的MLP网络对每一个相关性特征进行学习，有效了减少了神经网络参数，减少的模型过拟合的可能性。

【附图说明】

图1为本发明的架构图；

图2为本发明中使用的BERT单句输入格式；

图3为本发明交互注意力图；

图4为本发明相关性表示向量。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于深度相关性匹配的局部引文推荐系统，通过引文上下文和目标文档的文本相关性交互，引入最具影响力和相关性的作者特征联合学习，实现了在学术论文撰写过程中引用参考文献的推荐。本发明系统包括：

上下文交互特征的提取与表示模块：利用预训练语言模型BERT对引文上下文和候选文档句子生成文本高级表示向量，从而解决了传统预训练语言模型方法无法区分单词的多义特征的问题，然后进一步通过使用BiLSTM模型学习文本向量中的上下文信息，解决传统局域引文推荐任务中语义模糊导致推荐性能较差的问题；最终利用注意力机制实现对引文上下文和候选文档的特征交互提取，以及对相关性特征进行表示。

影响力与作者特征的融合表示模块：利用预训练模型Word2vec对作者信息进行词嵌入表示，使用两个独立CNN模型分别对引用作者和被引用作者信息进行学习，提取最具影响力和相关性的作者特征表示，解决传统局部引文推荐模型特征单一的问题。

局部引文推荐模块：利用全连接网络对相关性特征和作者特征进行分层学习，然后在线性层对特征联合学习，完成局部引文推荐任务。

如图1所示，本发明基于深度相关性匹配的局部引文推荐方法，包括以下步骤：

阶段0：数据预处理

步骤0：将科学文献数据集中的引文上下文和文献内容(标题和摘要)使用Word2vec工具进行词嵌入表示，对句子中所有单词利用IDF值加权后求平均得到句向量。

步骤1：将生成的引文上下文和论文内容句子向量，计算余弦相似度得到TOP100篇相似文献生成候选集。

阶段1：相关性特征表示学习

步骤2：嵌入层是模型的基础层，目的是将每个单词通过嵌入层映射到向量空间中，采用预训练的语言模型BERT作为单词嵌入工具，相较传统的词嵌入方法可以获取单词情境化的嵌入语义表示；使用BERT模型输入格式可以表示为“[CLS]上下文[SEP]”，具体样例如图2所示。通过BERT自身的多头自注意力机制计算引文上下文和论文内容的初级表示：

其中，

表示句子中第i个单词通过BERT生成的嵌入表示；

步骤3：在获取引文上下文和候选文献内容的嵌入表示之后，将其输入到Bi-LSTM层中获取句子的序列信息，使用预训练词向量作为残差e(t_i)结合Bi-LSTM编码的词向量。特别地，如果

和

步骤4：使用注意力机制对引文上下文和候选文献之间的每一个单词进行交互，计算单词之间的匹配度，挖掘句子之间的关系(具体样例如图3所示)，给定一个含有m个词的候选文献d＝(d₁,...,d_m)，首先计算每个引文上下文词q_i相对于所有论文d_i的内积注意力分数(dot-product)，其中c(t)是公式2中上下文编码层的输出。公式如下所示：

a_i,j＝sofmaxtmax(c(q_i)^Tc(d_j)；d₁,...,d_m) (3)

步骤5：对论文d_i的上下文编码进行加权求和，根据它们的注意分数加权，将引文上下文q_i相对于论文文档d的每一个d_i产生基于注意力的表示向量d_qi，公式如下所示：

d_qi＝∑_ja_i,jc(d_j) (4)

步骤6：使用L2正则化后的d_qi与L2正则化后的引文上下文q_i进行Hadamard运算(⊙)，得到每一个q_i维度固定的上下文感知编码φH(q_i)，公式如下所示：

步骤7：将引文上下文(query)所有词的IDF值与φh(q_i)进行拼接，具体样例如图4所示，公式如下所示：

e(q_i)＝[φH(q_i)；idf(q_i)] (6)

阶段2：作者特征表示学习

步骤8：使用word2vec模型将引文上下文和候选文献的作者特征表示为词嵌入，使用Word2vec模型输入格式可以表示为“[CLS]上下文[SEP]”，具体样例如图2所示。给定一个维度为g的引文上下文作者向量

其包含t名引文上下文作者，其定义如下：

步骤9：利用CNN模型学习作者特征之间关联信息，捕获最具学术文献中最具影响力的信息。给定上具有一维卷积的长期依赖关系。CNN中卷积核为

其中h是卷积窗口的大小，产生特征向量

定义公式如下所示：

其中ReLU是非线性激活函数max(0,x)，使用最大池化(max-pooling)提取最大特征，为了捕捉更复杂的关系，该过程被重复多次与不同权重的卷积核进行卷积操作。

阶段3：特征联合学习

步骤11：使用相同的MLP网络独立地计算步骤7产生每一个相关性向量e(q_i)(矩阵的每一行)的分数，同时将步骤10产生的作者向量f(A)输入到MLP网络中计算分数，最终将这些MLP层输出聚合到线性层中得出相关得分rel(q,d)，公式如下所示：

rel(q,d)＝linear(MLP(e(q_i)),MLP(f(A))) (9)

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。