CN109086255A

CN109086255A - 一种基于深度学习的参考文献自动标注方法及系统

Info

Publication number: CN109086255A
Application number: CN201810744884.XA
Authority: CN
Inventors: 高良才; 安东; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-12-25

Abstract

本发明公布了一种基于深度学习的参考文献自动标注方法及系统，通过分析文档内容，定位到文档中的参考文献区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动分段和标注，由此得到引文的元数据信息；包括：提取文档包含的所有的引文条目；训练基于深度学习的引文标注模型；对每一条引文利用训练好的引文标注模型进行标注，即完成文档的参考文献自动标注。本发明可取得更高的准确率，更易于扩展到新的领域和风格的参考文献上。

Description

一种基于深度学习的参考文献自动标注方法及系统

技术领域

本发明涉及一种基于深度学习的参考文献自动标注方法。涉及机器学习、信息抽取等领域。

背景技术

学术著作中包含了大量的参考文献，它们提供了若干关于被引用文献的元数据信息，体现了对他人研究成果的尊重，体现了学术研究的延续性。参考文献的引文中包含了作者、标题、出版者、年份、页码、卷期等字段的元数据信息。引文元数据在数字图书馆、学术信息检索、知识管理、语义网等领域具有重要的价值，是进行引用关系分析、主题发现等课题研究的基础。但引文本身是纯文本形式的字符串，即词、数字、标点和其他字符的序列，本身不具有结构化的信息，需要通过对引文进行标注，从中抽取出元数据信息。

参考文献的自动标注具有很强的实用价值。例如，学术数据库每天会收录大量的新的学术著作。对于一篇新文献，它引用了很多学术数据库中已有的文献。为了在学术数据库中建立文献间的引用关系，需要对一篇文档的参考文献进行标注，发现并抽取引文的元数据，确定引文对应的参考文献，然后和数据库中的该文献建立引用关系。这一过程如果由人工的方式完成，工作量将会极其大，需要借助机器实现自动的抽取。此外，通过对参考文献的自动标注，还可以用来实现对文档内的参考文献的自动校对，帮助作者和编辑发现和修正参考文献中的错误。

引文的自动标注将引文看作词的序列，通过标注每个词的元数据字段，来实现对整条引文的标注，抽取其中的元数据。因为引文的文本具有元数据字段多、风格多、领域多、类型多等特点，引文的自动标注是一项具有挑战性的工作。首先，引文中含有和所引用文献相关的若干种字段；另外，引文在领域、风格和类型上都是多样的。不同领域的引文内容会有所差异，不同的类型包含的内容也有所不同；引文还拥有成千上万种不同的引文风格，不同的引文风格，元数据字段的排列顺序也千差万别。现有的引文元数据抽取的方法包括基于规则、基于模板和基于机器学习的方法。基于规则和基于模板的方法需要制定规则或模板，对于规则或模板无法覆盖的情况，效果就会很差，所以可靠性低；现有的基于机器学习的方法依赖在已知的引文上人工定义的特征来实现标注，不能从普遍存在的引文数据自动学习特征，效果仍然有很大的提升空间。

发明内容

本发明的目的就是提出一种基于深度学习的参考文献自动标注方法及系统。具体而言，通过分析文档内容，定位出文后参考文献的区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动的分段和标注，得到引文的元数据信息。通过将深度学习的技术应用于引文的标注，可以改进现有的引文元数据抽取的效果。

为了实现上述目的，本发明采用的技术方案如下：

一种基于深度学习的参考文献自动标注方法，通过分析文档内容，定位到文档中的参考文献区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动的分段和标注，由此得到引文的元数据信息；包括如下步骤：

1)通过分析文档内容，定位到文档中的参考文献区域，提取其中包含的所有的引文条目；具体执行如下操作：

11)在文档中按照段落寻找参考文献区域的标志性关键词(如“参考文献”、“References”等)，定位到参考文献区域；参考文献区域可以有多个；

12)对每个参考文献区域，从第一个段落开始对每个段落按照如下方法进行检查：

12A)检查序号，判断段落的开始位置是否含有设定格式及类似变形(如“[数字]”、“[作者，年份]”)；如有，则将该段落序号之后的部分整体作为引文；

12B)检查内容，判断段落中是否含有设定格式的关键词(如常见的年份、页码、卷期等格式，或常见姓名、或“会议”、“出版社”等关键词)；如有，则将该段落整体作为引文，并继续检查下一段落；否则停止检查；

2)使用带有标注的引文训练数据，预先训练一个基于深度学习的引文标注模型，这一步骤只执行一次；具体执行如下操作：

21)在互联网上有大量公开的BibTeX资源。一条BibTeX的记录以键值对的形式记录引文的字段和内容。首先，从互联网上收集来自各个研究领域的BibTeX数据并进行预处理，预处理的过程包括删除无效的文件、无效的记录和不合法的字符等；利用引文生成工具(如citeproc-java，https://github.com/michel-kraemer/citeproc-java)，将BibTeX记录输出为不同风格的引文，在这个过程中，利用BibTeX记录中已知的引文字段和内容的键值对，指导生成引文的带有标注的训练数据；

22)引文标注模型采用类似于文献(Lample G,Ballesteros M,Subramanian S,etal.Neural Architectures for Named Entity Recognition[J].2016:260-270.)等的序列标注网络架构，使用双向长短期记忆单元(LSTM)自动抽取引文词序列中的深度特征，使用条件随机场(CRF)来预测标签。不同之处在于，本发明在CRF之前加入了一个段分割的层。这个层根据LSTM的输出预测每个时刻的片段标签，来确定它和前后时刻是否属于一个片段。根据这个标签，可以通过段分割层的输出来得到段的集合。然后对得到的段集合中每个段计算段特征，然后将段的序列送入CRF中。

3)对步骤1)中提取到的所有引文条目，使用步骤2)中预训练的引文标注模型，对每一条引文进行标注，完成文档的参考文献自动标注；

在步骤2)和步骤3)中将引文输入到引文标注模型中进行训练或进行标注时，将每条引文分离词和标点，作为词序列送入引文标注模型；

在步骤2)和步骤3)中的引文标注模型，具体而言，根据双向LSTM的输出h＝(h₁，h₂，...，h_T)，将某个时刻t的输出h_t送入softmax层，输出分别对应段开始(B)和段中间(I)。因此段的集合S＝(S₁，S₂，...，S_N)可以通过I、B的标签序列推断，N表示段集合的大小。对集合S中的每个段计算段的特征。令h_ij表示段S_i的第j个词，其中段S_i的长度为l_i。则S_i的段特征(为方便起见，同样用S_i表示)可以计算为(表示向量的拼接)。将段特征的序列送入CRF，由CRF预测出段级别的标签序列。在本发明的改进中，共有分割和标注两个训练目标，对应了分割损失和标注损失两部分。模型的损失函数是分割损失和标记损失的加权和。以上的引文分段的这种做法的出发点是引文内部成段的特点。即，引文通常是词组成的片段的集合，不同的片段包含不同的元数据。在一个片段内部的词形成一定的含义，如书名字段的词能表示一本书的名字，标题字段的词能表示一个研究课题等。而两个字段之间，往往含义就会发生变化。此外，在引文中，一种元数据通常只出现在一个片段，而不常见词性标注任务的一个标签出现在不相邻位置的情况。

本发明还提供了一种基于深度学习的参考文献自动标注系统，包括引文发现模块、引文标注数据获取模块、引文标注模型训练模块、引文标注模块和标注结果显示模块；

引文发现模块通过分析文档内容，通过基于规则的方法定位出参考文献区域，并提取出引文条目；

引文标注数据获取模块包括BibTeX数据获取模块、引文无标注数据生成模块和引文标注数据生成模块；BibTeX数据获取模块从互联网上收集BibTeX数据并进行预处理；引文无标注数据生成模块将获取到的BibTeX数据输出为不同风格的无标注引文；引文标注数据生成模块利用BibTeX数据和无标注引文数据，生成引文带有标注的训练数据；

引文标注模型训练模块基于大量带标注的引文数据集，构造基于深度神经网络的引文标注模型，通过对引文中的词自动地提取深度特征，得到训练好的引文标注模型；

引文标注模块基于引文发现模块输入的引文，利用引文标注模型训练模块提供的引文标注模型，得到引文标注结果；

标注结果显示模块基于引文标注模块输入的标注结果数据，将结果以可视化的方式显示给用户。

与现有技术相比，本发明的有益效果是：

本发明针对现有方法存在的缺点，提出了一种基于深度学习的参考文献自动标注方法。通过使用自动的段分割来对引文分段并预测段标签，充分利用了引文内部成段的特点；同时使用深度神经网络自动地抽取深度特征。这种方法可以取得比现有的方法更高的准确率，更易于扩展到新的领域和风格的参考文献上。

附图说明

图1是本发明实施例提供的一条典型的引文标注示意图。

图2是本发明提供的参考文献自动标注方法的流程图。

图3是本发明实施例提供的带有标注的引文训练数据生成示意图。

图4是本发明实施例提供的引文发现方法的流程框图。

图5是本发明实施例得到的引文发现效果图。

图6是本发明实施例中的标注结果显示的效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于深度学习的参考文献自动标注方法及系统，通过分析文档内容，定位出文后参考文献的区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动的分段和标注，得到引文的元数据信息，可改进引文元数据抽取的效果。

以下实施例采用本发明提供的技术方案实现了基于深度学习的参考文献自动标注。

附图1是一条典型的引文，通过引文标注，可以抽取出作者、标题等元数据字段。

参考文献自动标注系统的总流程如附图2所示。

本发明具体实施例提供了一个基于深度学习的参考文献自动标注系统，包括引文发现模块、引文标注数据获取模块、引文标注模型训练模块、引文标注模块和标注结果显示模块；引文发现模块通过分析文档内容，通过基于规则的方法定位出参考文献区域，并提取出引文条目；引文标注数据获取模块包括BibTeX数据获取模块、引文无标注数据生成模块和引文标注数据生成模块；引文标注模型训练模块基于大量带标注的引文数据集，构造基于深度神经网络的引文标注模型，通过对引文中的词自动地提取深度特征，得到训练好的引文标注模型；引文标注模块基于引文发现模块输入的引文，利用引文标注模型训练模块提供的引文标注模型，得到引文标注结果；标注结果显示模块基于引文标注模块输入的标注结果数据，将结果以可视化的方式显示给用户。

为了训练引文标注模型，在模型准备阶段，通过引文标注数据获取模块获取引文标注数据，如附图3所示。将每条引文分离词和标点，作为词序列送入引文标注模型。基于这些训练数据，训练得到一个引文标注模型。

对于演示文档，按照基于规则的引文发现方法(附图4所示的方法流程)提取出文档内的引文条目，得到如附图5中带下划线文字所示，为文档内的引文条目。

将从文档中提取到的引文条目作为输入，调用预训练的引文标注模型，得到引文的标注结果，如附图6所示。图6显示了本实施例中提取到的引文和经过标注后引文对应的元数据，分别以字段和内容的形式给出。可以看到本发明的引文标注方法较好地实现了引文的发现和标注，给出了准确的引文元数据。

通过上述操作，即实现基于深度学习的参考文献自动标注。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于深度学习的参考文献自动标注方法，通过分析文档内容，定位到文档中的参考文献区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动分段和标注，由此得到引文的元数据信息；包括如下步骤：

1)通过分析文档内容，定位到文档中的参考文献区域，提取文档包含的所有的引文条目；

2)使用带有标注的引文训练数据，预先训练基于深度学习的引文标注模型；具体执行如下操作：

21)首先，从互联网上收集BibTeX数据并进行预处理；通过将BibTeX记录输出为不同风格的引文，并利用BibTeX记录中已知的引文字段和内容的键值对，生成引文的带有标注的训练数据；

22)引文标注模型：采用序列标注网络架构，使用双向长短期记忆单元LSTM自动抽取引文词序列中的深度特征；然后加入一个段分割的层，根据LSTM的输出预测每个时刻的片段标签，确定片段与前后时刻是否属于同一个片段；根据标签，通过段分割层的输出得到段的集合；然后对得到的段集合中每个段计算段特征，将段的序列送入条件随机场CRF中；使用条件随机场CRF预测标签；

3)对步骤1)中提取到的所有引文条目，使用步骤2)中训练的引文标注模型，对每一条引文进行标注，即完成文档的参考文献自动标注。

2.如权利要求1所述基于深度学习的参考文献自动标注方法，其特征是，在步骤2)和步骤3)中，将引文输入到引文标注模型中进行训练或进行标注，具体是将每条引文分离词和标点作为词序列送入引文标注模型。

3.如权利要求1所述基于深度学习的参考文献自动标注方法，其特征是，在步骤2)和步骤3)中的引文标注模型，具体根据双向LSTM的输出h＝(h₁，h₂，...，h_T)，将某个时刻t的输出h_t送入softmax层，输出分别对应段开始B和段中间I；通过I、B的标签序列推断段的集合S＝(S₁，S₂，...，S_N)，N表示段集合的大小；对集合S中的每个段计算段的特征；

令h_ij表示段S_i的第j个词，其中段S_i的长度为l_i；则S_i的段特征可以计算为段特征表示向量的拼接；

将段特征的序列送入CRF，由CRF预测出段级别的标签序列。

4.如权利要求3所述基于深度学习的参考文献自动标注方法，其特征是，引文标注模型包括分割和标注两个训练目标，分别对应分割损失和标注损失两部分；模型的损失函数是分割损失和标记损失的加权和。

5.如权利要求1所述基于深度学习的参考文献自动标注方法，其特征是，步骤1)提取文档包含的引文条目；具体执行如下操作：

11)在文档中按照段落寻找参考文献区域的标志性关键词，定位到参考文献区域；参考文献区域可有多个；

12A)检查序号，判断段落的开始位置是否含有设定格式及类似变形；如有，则将该段落序号之后的部分整体作为引文；

12B)检查内容，判断段落中是否含有设定格式的关键词；如有，则将该段落整体作为引文，并继续检查下一段落；否则停止检查；

由此提取文档包含的所有的引文条目。

6.如权利要求5所述基于深度学习的参考文献自动标注方法，其特征是，步骤11)参考文献区域的标志性关键词包括参考文献、References；步骤12A)设定格式及类似变形包括：[数字]、[作者，年份]；步骤12B)设定格式的关键词包括：常见的年份、页码、卷期格式、常见姓名或关键词“会议”、关键词“出版社”。

7.如权利要求1所述基于深度学习的参考文献自动标注方法，其特征是，步骤22)采用文献(Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures forNamed Entity Recognition[J].2016:260-270.)记载的序列标注网络架构，通过改进得到所述引文标注模型。

8.一种基于深度学习的参考文献自动标注系统，包括引文发现模块、引文标注数据获取模块、引文标注模型训练模块、引文标注模块和标注结果显示模块；

引文发现模块用于通过分析文档内容，通过基于规则的方法定位出参考文献区域，并提取出引文条目；

引文标注数据获取模块包括BibTeX数据获取模块、引文无标注数据生成模块和引文标注数据生成模块；BibTeX数据获取模块用于从互联网上收集BibTeX数据并进行预处理；引文无标注数据生成模块用于将获取到的BibTeX数据输出为不同风格的无标注引文；引文标注数据生成模块具体利用BibTeX数据和无标注引文数据，生成引文带有标注的训练数据；