CN112035607A - 基于mg-lstm的引文差异匹配方法、装置及存储介质 - Google Patents
基于mg-lstm的引文差异匹配方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112035607A CN112035607A CN202010834878.0A CN202010834878A CN112035607A CN 112035607 A CN112035607 A CN 112035607A CN 202010834878 A CN202010834878 A CN 202010834878A CN 112035607 A CN112035607 A CN 112035607A
- Authority
- CN
- China
- Prior art keywords
- citation
- vector pair
- difference
- author
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种于MG‑LSTM的引文差异匹配方法、装置及存储介质,其中方法包括:获取待甄别引文和可信引文的标题、作者、出版社元数据;以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;基于注意力机制分别学习各嵌入向量对的权重,并基于对应权重更新各嵌入向量对;将更新后的各嵌入向量对输入预先训练好的引文差异识别模型中,输出引文差异匹配结果类别。可进行引文细粒度甄别,判断引文存在何种差异类型;通过引入注意力机制能更好的表征待甄别引文与可信引文的各元数据间的相互关系,再结合双向LSTM网络同时保留两个方向的特征信息,确保了甄别精度。
Description
技术领域
本发明涉及引文差异识别技术领域,尤其涉及一种基于MG-LSTM的引文差异匹配方法、 装置及存储介质。
背景技术
近年来,随着国家对科研投入不断增加,各类科学基金项目申请数量也屡创新高,在项 目申请书中包含大量的引文数据。面对海量的引文数据,依靠管理人员发现或面向社会征求 举报的方式,工作量巨大、效率低且准确性难以保证,难以满足实际需求。
引文甄别是指对基金项目申请书中成果引文数据的真实性判别,为基金项目形式审查中 对申请人前期研究基础评估提供辅助支持。在引文甄别过程中存在诸多挑战:针对引文整体 相似性比对难以甄别出引文的差异类型;待甄别引文通常是手工录入,而可信引文可能来源 于不同的数据库,存在数据规范不一致的问题,增加了引文精确甄别的难度。
发明内容
本发明提供了一种基于MG-LSTM(Multi-granularity Long Short-Term Memory,多粒度长 短期记忆网络)的引文差异匹配方法、装置及存储介质,以解决相关技术中依靠人工发现效 率低、工作量大,且准确性难以保证的问题。
第一方面,提供了一种基于MG-LSTM的引文差异匹配方法,包括:
步骤1:获取待甄别引文和可信引文的标题、作者、出版社元数据;
步骤2:以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、出版社元数 据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
步骤3:基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对 的权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
步骤4:将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练 好的引文差异识别模型中,输出引文差异匹配结果类别;其中,
所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分 类器,三个输入子网络的输出作为引文差异分类器的三个输入,更新后的标题嵌入向量对、 作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入;而且,
每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量 的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入;具体的,
用U′i和U′j表示更新后的标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;将 U′i和U′j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入,提取得到对应 的特征向量Hi和Hj;并将特征向量Hi和Hj输入基于张量的引文相似性表示层,通过如下 公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q;
其中,g为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,S[1:n]表示一个张量。
进一步地,所述步骤3包括:
用Ui和Uj表示标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;通过如下公 式计算注意力矩阵A,
Ai,j=F(Ui[:m],Uj[:n])
其中,A为一个m×n维矩阵,m和n分别表示Ui和Uj的长度;Ai,j表示Ui中第i个单词或字符的嵌入表示与Uj中第j个单词或字符的嵌入表示的余弦距离,F由如下公式得出;
通过如下公式计算Ui和Uj对应的注意力向量Ei和Ej;
Ei=∑bA[a][b]
Ej=∑aA[a][b]
其中,Ei和Ej的长度分别与Ui和Uj相等,Ei是由注意力矩阵A的每一行求和得到,Ej由注意力矩阵A的每一列求和得到;然后使用softmax归一化处理得到与Ui和Uj对应的权重向量Vi和Vj,如下式所示;
最后通过下式更新Ui和Uj,得到对应的U′i和U′j;
U′i=concat(Ui,Vi*Ui)
U′j=concat(Uj,Vj*Uj)
其中,concat表示concat函数。
进一步地,所述基于全连接层神经网络的引文差异分类器包括输入层、隐藏层和输出层;
输入层为三个输入子网络输出的标题相似性特征向量Qt、作者相似性特征向量Qa、出版 社相似性特征向量Qv;
隐藏层中的计算如下式所示;
n=tanh((Qa,Qt,Qv)*Wd+bd)
其中,Wd和bd分别表示基于全连接层神经网络的引文差异分类器中权重和偏置;
输出层设置有3个神经元分别代表引文差异匹配结果类别,且通过softmax函数计算每个 神经元概率,取最大预测概率为最终预测结果。
进一步地,所述引文差异识别模型通过如下方法训练得到:
获取若干组待甄别引文和可信引文,并采用步骤1~3对其进行处理,对应得到若干组更 新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
分别对应标注若干组待甄别引文和可信引文的引文差异匹配结果类别;
基于干组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对及对应的标注 构建训练集;
以更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对为输入,以对应待甄 别引文和可信引文的引文差异匹配结果类别为输出,基于训练集训练由三个输入子网络和一 个基于全连接层神经网络的引文差异分类器构成的复合神经网络得到引文差异识别模型;其 中,三个输入子网络的输出作为引文差异分类器的三个输入,每个输入子网络包括一个基于 孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层,引文特征提 取层的输出为引文相似性表示层的输入,每组更新后的标题嵌入向量对、作者嵌入向量对、 出版社嵌入向量对分别为三个基于孪生的双向LSTM网络的引文特征提取层的输入。
第二方面,提供了一种基于MG-LSTM的引文差异匹配装置,包括:
数据获取模块:用于获取待甄别引文和可信引文的标题、作者、出版社元数据;
粒度分割模块:用于以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、 出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
嵌入向量加权模块:用于基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、 出版社嵌入向量对的权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社 嵌入向量对;
引文差异识别模块:用于将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向 量对输入预先训练好的引文差异识别模型中,输出引文差异匹配结果类别;其中,
所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分 类器,三个输入子网络的输出作为引文差异分类器的三个输入,更新后的标题嵌入向量对、 作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入;而且,
每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量 的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入;具体的,
用U′i和U′j表示更新后的标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;将 U′i和U′j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入,提取得到对应 的特征向量Hi和Hj;并将特征向量Hi和Hj输入基于张量的引文相似性表示层,通过如下 公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q;
其中,g为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,S[1:n]表示一个张量。
第三方面,提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序适 于被处理器加载并执行如上所述的基于MG-LSTM的引文差异匹配方法。
有益效果
本发明提出了一种基于MG-LSTM的引文差异匹配方法、装置及存储介质,将引文整体 匹配转换为基于引文的标题、作者、出版社元数据粒度的匹配,把待甄别引文与可信引文的 各引文元数据组成不同的元数据对,对其加权后并使用已训练好的引文差异识别模型中基于 孪生的双向LSTM网络的引文特征提取层中特征提取,最后将不同元数据对的特征通过基于 全连接层神经网络的引文差异分类器得到引文差异匹配最终结果,进而通过匹配结果分析引 文差异类型。本方案可进行引文细粒度甄别,可判断分析引文存在何种差异类型,甄别精度 高;通过对各嵌入向量对进行注意力机制加权处理,能更好的表征待甄别引文与可信引文的 各引文元数据间的相互关系,再结合双向LSTM网络提取特征时同时保留引文元数据序列两 个方向的特征信息,确保了甄别精度。
附图说明
图1是本发明实施例提供的引文特征提取层中双向LSTM网络结构图;
图2是本发明实施例提供的引文差异分类器结构图;
图3是本发明实施例提供的一种基于MG-LSTM的引文差异匹配方法的流程图。
具体实施方式
下面结合附图及具体实施方式对本发明进行详细说明。
实施例1
为了实现本发明的目的,首先需构建并训练好引文差异识别模型,具体过程如下。
引文包括标题、作者、出版社等元数据,由于不同引文由不同的元数据构成,具有不同 的文本特性,本实施例采用单词嵌入和字符嵌入两种,将待甄别引文和可信引文对应的标题、 作者、出版社以单词或字符等粒度进行分割,进而将其序列映射到一个低维的向量空间。本 实施例以标题元数据为例进行具体说明,首先将待甄别引文和可信引文的标题元数据和分别转换为标题嵌入向量和标题嵌入向量和构成标题嵌入向量对,和中的元 素即为对应单词或字符的嵌入表示。
结合注意力机制学习引文元数据嵌入表示的权重,即给每个单词或字符添加一个权重V 来表示单词或字符的重要程度。首先计算注意力矩阵A(m×n维矩阵,m和n分别代表标题嵌 入向量和的长度),如公式(1)所示。
对于待甄别引文的标题嵌入向量其中是由注意力矩阵A的每一行求和得到,对于 可信引文的标题嵌入向量 由注意力矩阵A的每一列求和得到,然后使用softmax归一 化处理得到对应的权重向量,如公式(4)所示。
注意力机制通过对待甄别引文和可信引文的标题元数据的标题嵌入向量进行融合,获得 的新的向量同时具有待甄别引文和可信引文的标题元数据的信息,能够更好的表征引文标题 元数据对的相互关系。
然后构建基于孪生的双向LSTM网络的引文特征提取层,经过注意力机制加权后,得到 更新后的标题嵌入向量对,将其输入引文特征提取层,得到标题特征向量和 序列中的元素表示LSTM在某个时刻的隐藏单元的状态。LSTM网络可以 对前向信息编码,但是不能后向信息编码,而引文元数据序列信息非常重要,为了同时保留 两个方向的信息,使用双向LSTM网络对更新后的标题嵌入向量对进行特征抽取,双向LSTM 网络的网络架构如图1所示。它包含两个平行的LSTM网络,在时间步长上以相反的方向运 行,通过将两个方向的嵌入向量信息进行综合组成最后的引文元数据特征向量,其计算公式 如下所示。
hforward=f(w1×ut+w2×ut-1) (6)
hbackward=f(w3×ut+w5×ut-1) (7)
h=g(w4×hforward+w6×hbackward) (8)
其中,h∈R2*d为引文元数据的特征向量,hforward∈Rd,hbackward∈Rd分别为前向向量和后 向向量,w1~w6为网络权重,数值通过训练得到。
构建基于张量的引文相似性表示层,通过引入张量对两个引文元数据的匹配程度建模。 张量是描述矢量、标量和其他张量之间关系的几何对象,它可以表示为数值的多维数组。以 双向LSTM网络的输出和作为输入,通过公式(9)计算两个引文标题元数据间交互表 示的标题相似性特征向量。
其中,Qt表示标题元数据对的标题相似性特征向量,通过一个非线性激活函数g计算得 出,本实施例中g函数为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,Wt、bt的取值通过对基于孪生的双向LSTM网络的引文特征提取层进行训练得到,S[1:n]表示一个张量,用向量m表示双线性的张量积的结果其中,mi由张量的分片计算得出。
其中,Si表示张量中的第i维,其取值通过训练得到;n表示张量的维度,n的取值对应 标题特征向量的长度。
使用上述相同的方法,可以得到作者相似性特征向量Qa和出版社相似性特征向量Qv,具 体过程在此不再赘述。
构建基于全连接层神经网络的引文差异分类器,预测引文差异匹配结果类别,该引文差 异分类器的结构如图2所示。引文差异分类器是由输入层、隐藏层、输出层构成的全连接层 神经网络模型,可以由多层网络构成。输入层为三个输入子网络产生的引文各元数据对的相 似性向量,即标题相似性特征向量Qt、作者相似性特征向量Qa、出版社相似性特征向量Qv, 其中,每个输入子网络均包括如上所述的一个基于孪生的双向LSTM网络的引文特征提取层和 一个基于张量的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入。隐 藏层中的计算如公式(11)所示。
n=tanh((Qa,Qt,Qv)*Wd+bd) (11)
其中,Wd和bd分别表示基于全连接层神经网络的引文差异分类器中权重和偏置。
在输出层设置3个神经元分别代表引文差异匹配结果的类别,通过softmax函数计算每个 神经元概率,取最大预测概率为最终预测结果。其中匹配结果的类别包括作者、标题、出版 社是否匹配,用0代表不匹配,1代表匹配,如:000代表都不匹配,001代表只有出版社匹 配,010代表只有标题匹配,100表示只有作者匹配,111代表都匹配。
获取若干组待甄别引文和可信引文,并分别提取其标题元数据、作者元数据和出版社元 数据,构成相应的若干组标题元数据对、作者元数据对和出版社元数据对,然后依据上述方 法进行转换得到若干组标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对,然后基于注 意力机制进行加权后得到更新后的若干组标题嵌入向量对、作者嵌入向量对、出版社嵌入向 量对,然后标注每组对应的引文差异匹配结果类别,从而构建包含若干组样本的训练集。然 后基于训练集训练由上述三个输入子网络和引文差异分类器构成的复合神经网络,得到最终 的引文差异识别模型。
基于上述训练好的引文差异识别模型,本实施例提供了一种基于MG-LSTM的引文差异 匹配方法,如图3所示,包括:
S01:获取待甄别引文和可信引文的标题、作者、出版社元数据;
S02:以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、出版社元数据 分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
S03:基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的 权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
S04:将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好 的引文差异识别模型中,输出引文差异匹配结果类别。
实施例2
本实施例提供了一种基于MG-LSTM的引文差异匹配装置,包括:
数据获取模块:用于获取待甄别引文和可信引文的标题、作者、出版社元数据;
粒度分割模块:用于以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、 出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
嵌入向量加权模块:用于基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、 出版社嵌入向量对的权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社 嵌入向量对;
引文差异识别模块:用于将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向 量对输入预先训练好的引文差异识别模型中,输出引文差异匹配结果类别;其中,
所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分 类器,三个输入子网络的输出作为引文差异分类器的三个输入,更新后的标题嵌入向量对、 作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入;而且,
每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量 的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入;具体的,
用U′i和U′j表示更新后的标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;将 U′i和U′j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入,提取得到对应 的特征向量Hi和Hj;并将特征向量Hi和Hj输入基于张量的引文相似性表示层,通过如下 公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q;
其中,g为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,S[1:n]表示一个张量。
本实施例提供的基于MG-LSTM的引文差异匹配装置的其他具体技术实现参见实施例1 提供的基于MG-LSTM的引文差异识别方法,在此不再赘述。
实施例3
本实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序适于 被处理器加载并执行如实施例1所述的基于MG-LSTM的引文差异匹配方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。 因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的 形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储 介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形 式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令 到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个 机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工 作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制 造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指 定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或 其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编 程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多 个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细 说明的内容可以参见其他实施例中相同或相似的内容。
本发明提出了一种基于MG-LSTM的引文差异匹配方法、装置及存储介质,将引文整体 匹配转换为基于引文的标题、作者、出版社元数据粒度的匹配,把待甄别引文与可信引文的 各引文元数据组成不同的元数据对,对其加权后并使用已训练好的引文差异识别模型中基于 孪生的双向LSTM网络的引文特征提取层中特征提取,最后将不同元数据对的特征通过基于 全连接层神经网络的引文差异分类器得到引文差异匹配最终结果,进而通过匹配结果分析引 文差异类型。本方案可进行引文细粒度甄别,可判断分析引文存在何种差异类型,甄别精度 高;通过对各嵌入向量对进行注意力机制加权处理,能更好的表征待甄别引文与可信引文的 各引文元数据间的相互关系,再结合双向LSTM网络提取特征时同时保留引文元数据序列两 个方向的特征信息,确保了甄别精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员 来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于MG-LSTM的引文差异匹配方法,其特征在于,包括:
步骤1:获取待甄别引文和可信引文的标题、作者、出版社元数据;
步骤2:以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
步骤3:基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
步骤4:将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好的引文差异识别模型中,输出引文差异匹配结果类别;其中,
所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分类器,三个输入子网络的输出作为引文差异分类器的三个输入,更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入;而且,
每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入;具体的,
用U′i和U′j表示更新后的标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;将U′i和U′j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入,提取得到对应的特征向量Hi和Hj;并将特征向量Hi和Hj输入基于张量的引文相似性表示层,通过如下公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q;
其中,g为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,S[1:n]表示一个张量。
2.根据权利要求1所述的基于MG-LSTM的引文差异匹配方法,其特征在于,所述步骤3包括:
用Ui和Uj表示标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;通过如下公式计算注意力矩阵A,
Ai,j=F(Ui[:m],Uj[:n])
其中,A为一个m×n维矩阵,m和n分别表示Ui和Uj的长度;Ai,j表示Ui中第i个单词或字符的嵌入表示与Uj中第j个单词或字符的嵌入表示的余弦距离,F由如下公式得出;
通过如下公式计算Ui和Uj对应的注意力向量Ei和Ej;
Ei=∑bA[a][b]
Ej=∑aA[a][b]
其中,Ei和Ej的长度分别与Ui和Uj相等,Ei是由注意力矩阵A的每一行求和得到,Ej由注意力矩阵A的每一列求和得到;然后使用softmax归一化处理得到与Ui和Uj对应的权重向量Vi和Vj,如下式所示;
最后通过下式更新Ui和Uj,得到对应的U′i和U′j;
U′i=concat(Ui,Vi*Ui)
U′j=concat(Uj,Vj*Uj)
其中,concat表示concat函数。
3.根据权利要求1所述的基于MG-LSTM的引文差异匹配方法,其特征在于,所述基于全连接层神经网络的引文差异分类器包括输入层、隐藏层和输出层;
输入层为三个输入子网络输出的标题相似性特征向量Qt、作者相似性特征向量Qa、出版社相似性特征向量Qv;
隐藏层中的计算如下式所示;
n=tanh((Qa,Qt,Qv)*Wd+bd)
其中,Wd和bd分别表示基于全连接层神经网络的引文差异分类器中权重和偏置;
输出层设置有3个神经元分别代表引文差异匹配结果类别,且通过softmax函数计算每个神经元概率,取最大预测概率为最终预测结果。
4.根据权利要求1至3任一项所述的基于MG-LSTM的引文差异匹配方法,其特征在于,所述引文差异识别模型通过如下方法训练得到:
获取若干组待甄别引文和可信引文,并采用步骤1~3对其进行处理,对应得到若干组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
分别对应标注若干组待甄别引文和可信引文的引文差异匹配结果类别;
基于干组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对及对应的标注构建训练集;
以更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对为输入,以对应待甄别引文和可信引文的引文差异匹配结果类别为输出,基于训练集训练由三个输入子网络和一个基于全连接层神经网络的引文差异分类器构成的复合神经网络得到引文差异识别模型;其中,三个输入子网络的输出作为引文差异分类器的三个输入,每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入,每组更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对分别为三个基于孪生的双向LSTM网络的引文特征提取层的输入。
5.一种基于MG-LSTM的引文差异匹配装置,其特征在于,包括:
数据获取模块:用于获取待甄别引文和可信引文的标题、作者、出版社元数据;
粒度分割模块:用于以单词和字符为分割粒度,将待甄别引文和可信引文的标题、作者、出版社元数据分别分割转换为标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
嵌入向量加权模块:用于基于注意力机制分别学习标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对的权重,并基于对应权重更新标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对;
引文差异识别模块:用于将更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对输入预先训练好的引文差异识别模型中,输出引文差异匹配结果类别;其中,
所述引文差异识别模型包括三个输入子网络和一个基于全连接层神经网络的引文差异分类器,三个输入子网络的输出作为引文差异分类器的三个输入,更新后的标题嵌入向量对、作者嵌入向量对、出版社嵌入向量对分别作为三个输入子网络的输入;而且,
每个输入子网络包括一个基于孪生的双向LSTM网络的引文特征提取层和一个基于张量的引文相似性表示层,引文特征提取层的输出为引文相似性表示层的输入;具体的,
用U′i和U′j表示更新后的标题嵌入向量对,或作者嵌入向量对,或出版社嵌入向量对;将U′i和U′j分别作为基于孪生的双向LSTM网络的引文特征提取层的两个输入,提取得到对应的特征向量Hi和Hj;并将特征向量Hi和Hj输入基于张量的引文相似性表示层,通过如下公式计算待甄别引文和可信引文的对应元数据的相似性特征向量Q;
其中,g为Tanh函数,Wt、bt分别表示基于孪生的双向LSTM网络的引文特征提取层中权重和偏置,S[1:n]表示一个张量。
6.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序适于被处理器加载并执行如权利要求1至4任一项所述的基于MG-LSTM的引文差异匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834878.0A CN112035607B (zh) | 2020-08-19 | 2020-08-19 | 基于mg-lstm的引文差异匹配方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010834878.0A CN112035607B (zh) | 2020-08-19 | 2020-08-19 | 基于mg-lstm的引文差异匹配方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112035607A true CN112035607A (zh) | 2020-12-04 |
CN112035607B CN112035607B (zh) | 2022-05-20 |
Family
ID=73578005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010834878.0A Active CN112035607B (zh) | 2020-08-19 | 2020-08-19 | 基于mg-lstm的引文差异匹配方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035607B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966524A (zh) * | 2021-03-26 | 2021-06-15 | 湖北工业大学 | 基于多粒度孪生网络的中文句子语义匹配方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086255A (zh) * | 2018-07-09 | 2018-12-25 | 北京大学 | 一种基于深度学习的参考文献自动标注方法及系统 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
US20190370332A1 (en) * | 2018-05-31 | 2019-12-05 | Siemens Aktiengesellschaft | Semantic textual similarity system |
-
2020
- 2020-08-19 CN CN202010834878.0A patent/CN112035607B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370332A1 (en) * | 2018-05-31 | 2019-12-05 | Siemens Aktiengesellschaft | Semantic textual similarity system |
CN109086255A (zh) * | 2018-07-09 | 2018-12-25 | 北京大学 | 一种基于深度学习的参考文献自动标注方法及系统 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966524A (zh) * | 2021-03-26 | 2021-06-15 | 湖北工业大学 | 基于多粒度孪生网络的中文句子语义匹配方法及系统 |
CN112966524B (zh) * | 2021-03-26 | 2024-01-26 | 湖北工业大学 | 基于多粒度孪生网络的中文句子语义匹配方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112035607B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benchaji et al. | Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
JP6566397B2 (ja) | 認識装置、実数行列分解方法、認識方法 | |
CN111538761A (zh) | 基于注意力机制的点击率预测方法 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN113255321B (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN109766469A (zh) | 一种基于深度哈希学习优化的图像检索方法 | |
Raj et al. | ConvNet frameworks for multi-modal fake news detection | |
Rajamohana et al. | An effective hybrid cuckoo search with harmony search for review spam detection | |
CN113761218A (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN113343125A (zh) | 一种面向学术精准推荐的异质科研信息集成方法及系统 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
Ciaburro et al. | Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Hassanat et al. | Magnetic force classifier: a Novel Method for Big Data classification | |
CN112035607B (zh) | 基于mg-lstm的引文差异匹配方法、装置及存储介质 | |
CN111966828B (zh) | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 | |
CN106844765B (zh) | 基于卷积神经网络的显著信息检测方法及装置 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
Diallo et al. | Permutation learning via lehmer codes | |
CN114358813B (zh) | 一种基于场矩阵因子分解机改进的广告投放方法及系统 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |