CN112035607A

CN112035607A - 基于mg-lstm的引文差异匹配方法、装置及存储介质

Info

Publication number: CN112035607A
Application number: CN202010834878.0A
Authority: CN
Inventors: 王也; 龙军; 章成源; 魏翔翔; 杨展
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-04
Anticipated expiration: 2040-08-19
Also published as: CN112035607B

Abstract

本发明公开了一种于MG‑LSTM的引文差异匹配方法、装置及存储介质，其中方法包括：获取待甄别引文和可信引文的标题、作者、出版社元数据；以单词和字符为分割粒度，将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；基于注意力机制分别学习各嵌入向量对的权重，并基于对应权重更新各嵌入向量对；将更新后的各嵌入向量对输入预先训练好的引文差异识别模型中，输出引文差异匹配结果类别。可进行引文细粒度甄别，判断引文存在何种差异类型；通过引入注意力机制能更好的表征待甄别引文与可信引文的各元数据间的相互关系，再结合双向LSTM网络同时保留两个方向的特征信息，确保了甄别精度。

Description

基于MG-LSTM的引文差异匹配方法、装置及存储介质

技术领域

本发明涉及引文差异识别技术领域，尤其涉及一种基于MG-LSTM的引文差异匹配方法、装置及存储介质。

背景技术

近年来，随着国家对科研投入不断增加，各类科学基金项目申请数量也屡创新高，在项目申请书中包含大量的引文数据。面对海量的引文数据，依靠管理人员发现或面向社会征求举报的方式，工作量巨大、效率低且准确性难以保证，难以满足实际需求。

引文甄别是指对基金项目申请书中成果引文数据的真实性判别，为基金项目形式审查中对申请人前期研究基础评估提供辅助支持。在引文甄别过程中存在诸多挑战：针对引文整体相似性比对难以甄别出引文的差异类型；待甄别引文通常是手工录入，而可信引文可能来源于不同的数据库，存在数据规范不一致的问题，增加了引文精确甄别的难度。

发明内容

本发明提供了一种基于MG-LSTM(Multi-granularity Long Short-Term Memory，多粒度长短期记忆网络)的引文差异匹配方法、装置及存储介质，以解决相关技术中依靠人工发现效率低、工作量大，且准确性难以保证的问题。

第一方面，提供了一种基于MG-LSTM的引文差异匹配方法，包括：

步骤1：获取待甄别引文和可信引文的标题、作者、出版社元数据；

步骤2：以单词和字符为分割粒度，将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

步骤3：基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的权重，并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

步骤4：将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好的引文差异识别模型中，输出引文差异匹配结果类别；其中，

所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分类器，三个输入子网络的输出作为引文差异分类器的三个输入，更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入；而且，

每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层，引文特征提取层的输出为引文相似性表示层的输入；具体的，

用U′_i和U′_j表示更新后的标题嵌入向量对，或作者嵌入向量对，或出版社嵌入向量对；将 U′_i和U′_j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入，提取得到对应的特征向量H_i和H_j；并将特征向量H_i和H_j输入基于张量的引文相似性表示层，通过如下公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q；

其中，g为Tanh函数，W_t、b_t分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置，S^[1:n]表示一个张量。

进一步地，所述步骤3包括：

用U_i和U_j表示标题嵌入向量对，或作者嵌入向量对，或出版社嵌入向量对；通过如下公式计算注意力矩阵A，

A_i,j＝F(U_i[:m],U_j[:n])

其中，A为一个m×n维矩阵，m和n分别表示U_i和U_j的长度；A_i,j表示U_i中第i个单词或字符的嵌入表示与U_j中第j个单词或字符的嵌入表示的余弦距离，F由如下公式得出；

通过如下公式计算U_i和U_j对应的注意力向量E_i和E_j；

E_i＝∑_bA[a][b]

E_j＝∑_aA[a][b]

其中，E_i和E_j的长度分别与U_i和U_j相等，E_i是由注意力矩阵A的每一行求和得到，E_j由注意力矩阵A的每一列求和得到；然后使用softmax归一化处理得到与U_i和U_j对应的权重向量V_i和V_j，如下式所示；

最后通过下式更新U_i和U_j，得到对应的U′_i和U′_j；

U′_i＝concat(U_i,V_i*U_i)

U′_j＝concat(U_j,V_j*U_j)

其中，concat表示concat函数。

进一步地，所述基于全连接层神经网络的引文差异分类器包括输入层、隐藏层和输出层；

输入层为三个输入子网络输出的标题相似性特征向量Q^t、作者相似性特征向量Q^a、出版社相似性特征向量Q^v；

隐藏层中的计算如下式所示；

n＝tanh((Q^a，Q^t，Q^v)*W_d+b_d)

其中，W_d和b_d分别表示基于全连接层神经网络的引文差异分类器中权重和偏置；

输出层设置有3个神经元分别代表引文差异匹配结果类别，且通过softmax函数计算每个神经元概率，取最大预测概率为最终预测结果。

进一步地，所述引文差异识别模型通过如下方法训练得到：

获取若干组待甄别引文和可信引文，并采用步骤1～3对其进行处理，对应得到若干组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

分别对应标注若干组待甄别引文和可信引文的引文差异匹配结果类别；

基于干组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对及对应的标注构建训练集；

以更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对为输入，以对应待甄别引文和可信引文的引文差异匹配结果类别为输出，基于训练集训练由三个输入子网络和一个基于全连接层神经网络的引文差异分类器构成的复合神经网络得到引文差异识别模型；其中，三个输入子网络的输出作为引文差异分类器的三个输入，每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层，引文特征提取层的输出为引文相似性表示层的输入，每组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对分别为三个基于孪生的双向LSTM网络的引文特征提取层的输入。

第二方面，提供了一种基于MG-LSTM的引文差异匹配装置，包括：

数据获取模块：用于获取待甄别引文和可信引文的标题、作者、出版社元数据；

粒度分割模块：用于以单词和字符为分割粒度，将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

嵌入向量加权模块：用于基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的权重，并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

引文差异识别模块：用于将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好的引文差异识别模型中，输出引文差异匹配结果类别；其中，

第三方面，提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序适于被处理器加载并执行如上所述的基于MG-LSTM的引文差异匹配方法。

有益效果

本发明提出了一种基于MG-LSTM的引文差异匹配方法、装置及存储介质，将引文整体匹配转换为基于引文的标题、作者、出版社元数据粒度的匹配，把待甄别引文与可信引文的各引文元数据组成不同的元数据对，对其加权后并使用已训练好的引文差异识别模型中基于孪生的双向LSTM网络的引文特征提取层中特征提取，最后将不同元数据对的特征通过基于全连接层神经网络的引文差异分类器得到引文差异匹配最终结果，进而通过匹配结果分析引文差异类型。本方案可进行引文细粒度甄别，可判断分析引文存在何种差异类型，甄别精度高；通过对各嵌入向量对进行注意力机制加权处理，能更好的表征待甄别引文与可信引文的各引文元数据间的相互关系，再结合双向LSTM网络提取特征时同时保留引文元数据序列两个方向的特征信息，确保了甄别精度。

附图说明

图1是本发明实施例提供的引文特征提取层中双向LSTM网络结构图；

图2是本发明实施例提供的引文差异分类器结构图；

图3是本发明实施例提供的一种基于MG-LSTM的引文差异匹配方法的流程图。

具体实施方式

下面结合附图及具体实施方式对本发明进行详细说明。

实施例1

为了实现本发明的目的，首先需构建并训练好引文差异识别模型，具体过程如下。

引文包括标题、作者、出版社等元数据，由于不同引文由不同的元数据构成，具有不同的文本特性，本实施例采用单词嵌入和字符嵌入两种，将待甄别引文和可信引文对应的标题、作者、出版社以单词或字符等粒度进行分割，进而将其序列映射到一个低维的向量空间。本实施例以标题元数据为例进行具体说明，首先将待甄别引文和可信引文的标题元数据

和

分别转换为标题嵌入向量

和

标题嵌入向量

和

构成标题嵌入向量对，

和

中的元素即为对应单词或字符的嵌入表示。

结合注意力机制学习引文元数据嵌入表示的权重，即给每个单词或字符添加一个权重V 来表示单词或字符的重要程度。首先计算注意力矩阵A(m×n维矩阵，m和n分别代表标题嵌入向量

和

的长度)，如公式(1)所示。

其中A_i,j表示标题嵌入向量

中第i个单词或字符的嵌入表示与

中第j个单词或字符的嵌入表示的余弦距离，F由公式(2)得出，其中x、y此处仅表示F的两个变量以对其计算方式进行说明。

然后计算标题嵌入向量

和

的注意力向量E(长度为对应标题嵌入向量长度)，其计算方法如公式(3)所示。

对于待甄别引文的标题嵌入向量

其中

是由注意力矩阵A的每一行求和得到，对于可信引文的标题嵌入向量

由注意力矩阵A的每一列求和得到，然后使用softmax归一化处理得到对应的权重向量，如公式(4)所示。

最后更新标题嵌入向量

和

如公式(5)所示。

注意力机制通过对待甄别引文和可信引文的标题元数据的标题嵌入向量进行融合，获得的新的向量同时具有待甄别引文和可信引文的标题元数据的信息，能够更好的表征引文标题元数据对的相互关系。

然后构建基于孪生的双向LSTM网络的引文特征提取层，经过注意力机制加权后，得到更新后的标题嵌入向量对，将其输入引文特征提取层，得到标题特征向量

和

序列中的元素表示LSTM在某个时刻的隐藏单元的状态。LSTM网络可以对前向信息编码，但是不能后向信息编码，而引文元数据序列信息非常重要，为了同时保留两个方向的信息，使用双向LSTM网络对更新后的标题嵌入向量对进行特征抽取，双向LSTM 网络的网络架构如图1所示。它包含两个平行的LSTM网络，在时间步长上以相反的方向运行，通过将两个方向的嵌入向量信息进行综合组成最后的引文元数据特征向量，其计算公式如下所示。

h^forward＝f(w₁×u_t+w₂×u_t-1) (6)

h^backward＝f(w₃×u_t+w₅×u_t-1) (7)

h＝g(w₄×h^forward+w₆×h^backward) (8)

其中，h∈R^2*d为引文元数据的特征向量，h^forward∈R^d，h^backward∈R^d分别为前向向量和后向向量，w₁～w₆为网络权重，数值通过训练得到。

构建基于张量的引文相似性表示层，通过引入张量对两个引文元数据的匹配程度建模。张量是描述矢量、标量和其他张量之间关系的几何对象，它可以表示为数值的多维数组。以双向LSTM网络的输出

和

作为输入，通过公式(9)计算两个引文标题元数据间交互表示的标题相似性特征向量。

其中，Q^t表示标题元数据对的标题相似性特征向量，通过一个非线性激活函数g计算得出，本实施例中g函数为Tanh函数，W_t、b_t分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置，W_t、b_t的取值通过对基于孪生的双向LSTM网络的引文特征提取层进行训练得到，S^[1:n]表示一个张量，用向量m表示双线性的张量积的结果

其中，m_i由张量的分片计算得出。

其中，Sⁱ表示张量中的第i维，其取值通过训练得到；n表示张量的维度，n的取值对应标题特征向量的长度。

使用上述相同的方法，可以得到作者相似性特征向量Q^a和出版社相似性特征向量Q^v，具体过程在此不再赘述。

构建基于全连接层神经网络的引文差异分类器，预测引文差异匹配结果类别，该引文差异分类器的结构如图2所示。引文差异分类器是由输入层、隐藏层、输出层构成的全连接层神经网络模型，可以由多层网络构成。输入层为三个输入子网络产生的引文各元数据对的相似性向量，即标题相似性特征向量Q^t、作者相似性特征向量Q^a、出版社相似性特征向量Q^v，其中，每个输入子网络均包括如上所述的一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层，引文特征提取层的输出为引文相似性表示层的输入。隐藏层中的计算如公式(11)所示。

n＝tanh((Q^a，Q^t，Q^v)*W_d+b_d) (11)

其中，W_d和b_d分别表示基于全连接层神经网络的引文差异分类器中权重和偏置。

在输出层设置3个神经元分别代表引文差异匹配结果的类别，通过softmax函数计算每个神经元概率，取最大预测概率为最终预测结果。其中匹配结果的类别包括作者、标题、出版社是否匹配，用0代表不匹配，1代表匹配，如：000代表都不匹配，001代表只有出版社匹配，010代表只有标题匹配，100表示只有作者匹配，111代表都匹配。

获取若干组待甄别引文和可信引文，并分别提取其标题元数据、作者元数据和出版社元数据，构成相应的若干组标题元数据对、作者元数据对和出版社元数据对，然后依据上述方法进行转换得到若干组标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对，然后基于注意力机制进行加权后得到更新后的若干组标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对，然后标注每组对应的引文差异匹配结果类别，从而构建包含若干组样本的训练集。然后基于训练集训练由上述三个输入子网络和引文差异分类器构成的复合神经网络，得到最终的引文差异识别模型。

基于上述训练好的引文差异识别模型，本实施例提供了一种基于MG-LSTM的引文差异匹配方法，如图3所示，包括：

S01：获取待甄别引文和可信引文的标题、作者、出版社元数据；

S02：以单词和字符为分割粒度，将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

S03：基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的权重，并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对；

S04：将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好的引文差异识别模型中，输出引文差异匹配结果类别。

实施例2

本实施例提供了一种基于MG-LSTM的引文差异匹配装置，包括：

本实施例提供的基于MG-LSTM的引文差异匹配装置的其他具体技术实现参见实施例1 提供的基于MG-LSTM的引文差异识别方法，在此不再赘述。

实施例3

本实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序适于被处理器加载并执行如实施例1所述的基于MG-LSTM的引文差异匹配方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MG-LSTM的引文差异匹配方法，其特征在于，包括：

用U′_i和U′_j表示更新后的标题嵌入向量对，或作者嵌入向量对，或出版社嵌入向量对；将U′_i和U′_j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入，提取得到对应的特征向量H_i和H_j；并将特征向量H_i和H_j输入基于张量的引文相似性表示层，通过如下公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q；