CN110516069B

CN110516069B - 一种基于FastText-CRF的引文元数据抽取方法

Info

Publication number: CN110516069B
Application number: CN201910799548.XA
Authority: CN
Inventors: 杨柳; 胡雷; 龙军
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-07-25
Anticipated expiration: 2039-08-28
Also published as: CN110516069A

Abstract

本发明公开了一种基于FastText‑CRF的引文元数据抽取方法，考虑了引文段对引文元数据的影响，先从引文数据中提取引文段，然后利用FastText模型做一个分类器，对引文段做一个粗分类，最后将粗分类的结果输入到CRF(条件随机场模型)得出最后的分类标签。通过将FastText模型与CRF模型相结合的技术应用于引文元数据抽取，可以改进现有的引文元数据抽取的效果，极大缩短引文元数据抽取时间。

Description

一种基于FastText-CRF的引文元数据抽取方法

技术领域

本发明涉及一种基于FastText-CRF的引文元数据抽取方法。

背景技术

在基金申报书中往往会列出申请人的研究成果，且一般以引文形式列出。引文数据主要包含作者、标题、出版者、年份、页码、卷等字段的元数据信息。少数申请人为了让“成果”夺人眼球、追赶乃至超越其他竞争者，会对引文进行篡改，包括对引文文献信息调换作者顺序(第二作者变第一作者)、篡改期刊名称、论文发表时间，盗用他人论文等行为。通过对引文元数据抽取是引文元数据差异性比对前提，为引文甄别提供数据基础。此外，引文元数据在学术信息检索、引文分析、语义网建设等领域也具有重要价值。

引文本身是纯文本形式的字符串，即词、数字、标点和其他字符的序列，本身不具有结构化的信息，需要通过对引文进行标注，从中抽取出元数据信息。引文元数据的自动抽取是一项具有挑战性的工作。首先引文风格多种多样，不同的语主题、出版物类型(如图书、期刊、会议)所采用的引文风格不尽相同，其次，不同引文所包含的元数据个数和排列顺序也有所不同。

目前引文元数据抽取的方法包括4类：基于规则的方法、基于模板的方法、传统机器学习的方法，基于深度学习的方法。

基于规则的方法缺点是需要事先由领域专家设计一系列的抽取规则，并要实时对这些规则进行维护，另外抽取规则的适应性较差，而不同的引文的格式往往不同，甚至当有较多的规则存在时，还需要解决规则间的不一致性和冲突，引文的特征数量越多，所需要制定的规则数量就越多，这使得基于规则的系统难以处理特征数量较多的引文数据。

基于模板的元数据抽取方法实现简单，但其元数据抽取结果严重依赖于数字文档的风格和版式。

基于机器学习的方法依赖在已知的引文上人工定义的特征来实现标注，不能从普遍存在的引文数据自动学习特征。

基于深度学习的抽取方法，预训练模型往往需要很长时间、无法满足抽取的时效性，并且神经网络构建及调参过程也较复杂。

发明内容

为了解决目前在对引文进行数据抽取时存在的适应性差、处理难度大的技术问题，本发明提供一种能够准确快速有效的对引文进行数据抽取的基于FastText-CRF的引文元数据抽取方法。

为了实现上述技术目的，本发明的技术方案是，

一种基于FastText-CRF的引文元数据抽取方法，包括以下步骤：

步骤1，采集用于训练的原始引文数据集，然后进行包括删除非法字符在内的预处理，并对预处理后的引文基于标点符号进行分段，再根据引文内容为引文添加相应标签，最后将数据集分为训练集和验证集；

步骤2，训练词向量模型，然后搭建包括输入层、隐藏层、CRF层和输出层在内的FastText-CRF抽取模型，然后输入训练集，并根据输出的标签结果的准确率来对FastText-CRF抽取模型进行优化后重新输入训练集，循环执行直到准确率达到预设值；

步骤3，对待抽取引文基于标点符号进行预处理及分段，然后输入至训练完毕的FastText-CRF抽取模型中进行抽取，最后得到作为结果的标签。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，所述的用于训练的原始引文数据集，是从网络上收集的各学科的BibTeX格式即键值对形式表示的引文数据。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，所述的预处理包括包括删除无效的引文，删除不合法的字符以及替换表示连接关系的连词。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，所述的基于标点符号进行分段包括以下步骤：

步骤1.1，依次遍历引文中的每一个单词，判断单词后面字符是否为标点符号，是则执行步骤1.2，否则继续遍历后续单词；

步骤1.2，判断标点符号是否为“.”号，是则执行步骤1.3，否则执行步骤1.4；

步骤1.3，判断“.”号是否属于分隔符，是则执行步骤1.4，否则返回执行步骤1.1；

步骤1.4，将前一个分隔符到当前词的这一段引文划分为同一段并存储；

步骤1.5，判断是否遍历完所有单词，遍历完则保存引文序列的所有段并结束分段过程，否则跳转执行步骤1.1。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1.3中，在判断“.”号是否属于分隔符时，是将其分为用于断句的分隔符和不是用于断句的非分隔符。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，根据引文内容为引文添加相应标签，是根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，包括有_AS_lable_即作者开头，_AI_lable_即作者中间，_TS_lable_即标题开头，_TI_lable_即标题中间，_JS_lable_即期刊开头，_JI_lable_即期刊中间，_CS_lable_即会议开头，_CI_lable_即会议中间，_DS_lable_即日期，_PS_lable_即页码开始，_JI_lable_即页码中间，_O_lable_即其他类型共12类标签。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，是将BibTeX格式的引文中各个不同的内容部分，为每个分段标注上12类标签中的一个，其中包含“开头”的标签标注给相应内容的第一个分段，相应内容除第一个分段外的其他分段标注包含“中间”的标签，相应内容包括作者、标题、期刊、会议和页码。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤1中，训练集和验证集所占数据集的比例为8∶2。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的步骤2包括以下步骤：

步骤2.1，预训练词向量模型，首先以英文语料库训练基于word2vec的词向量模型，然后以步骤1中的引文数据训练集作为训练数据来二次训练词向量模型；

步骤2.2，搭建FastText-CRF抽取模型，将步骤2.1中训练后的词向量模型作为输入层，并依次构建隐藏层、CRF层和输出层，并为FastText-CRF抽取模型赋予包括优化器、损失函数和评价指标在内的参数；

步骤2.3，设置FastText-CRF模型的超参数，包括学习率和n-grams的长度；

步骤2.4，将步骤1中得到的包含段标签信息的训练集输入FastText-CRF抽取模型；

步骤2.5，按指定的优化器类型对FastText-CRF抽取模型进行优化并跳转执行步骤2.4，直至准确率达到预设的评价指标；若模型达到指定评价标准则保存模型，执行步骤2.3重新设置一组超参数训练模型，直到训练出预设个数模型为止；

步骤2.6，通过验证集验证上述模型得到各模型精度，取最高精度为最终模型。

所述的一种基于FastText-CRF的引文元数据抽取方法，所述的FastText-CRF抽取模型中，各层为：

输入层：将输入的经过分段后的引文段序列中每个词汇映射成词向量，以进行后续计算；

隐藏层：用于对一个引文段中所有单词的向量进行叠加平均，公式如下

其中N代表引文段中单词的个数，Xi代表段序列中每一个词的词向量，段向量y为输出层的输入，每个引文段数据对应一个隐藏层的输出；

输出层：采用Hierarchical Softmax分类，对于一个引文数据段，输出层会产生多个概率值，分别表示此引文数据段属于当前类的可能性，每个引文段对应一个隐藏层的输出；

CRF层：每个引文段对应一个CRF层的输出，CRF层为最终预测标签添加约束，输出结果为每个引文段的最终标签。

本发明的技术效果在于，在进行引文元数据抽取时，不需要手工提取特征和自定义模板，极大的简化了处理过程。同时，FastText模型由于采用了浅层网络，训练速度快，不需要像深度学习那样几小时或者几天的训练时间，普通CPU上最快几十秒就可以训练模型，而且效果与深度学习的方法相当，能够极大的缩短了训练时间。同时一般机器学习的方法都将引文元数据抽取任务看作是序列标注任务，通过给出引文序列中每个词的标签进一步抽取处引文元数据。一条引文由引文元数据构成，部分元数据块包含几个部分，例如标题由两部分组成，以标点符号间隔。而本发明以标点符号为界限，将元数据划分为引文段。本发明考虑了引文段对引文元数据的影响，先从引文数据中提取引文段，然后利用FastText模型做一个分类器，对引文段做一个粗分类，最后将粗分类的结果输入到CRF(条件随机场模型)得出最后的分类标签。通过将FastText的技术与CRF模型相结合的技术应用于引文元数据抽取，可以改进现有的引文元数据抽取的效果，极大缩短引文元数据抽取时间。

附图说明

图1为引文示例；

图2为对图1的引文加入标签后的表现形式；

图3为FastText-CRF标记模型。

具体实施方式

本实施例中包括的步骤为：

步骤1，采集用于训练的原始引文数据集，然后进行包括删除非法字符在内的预处理。通过观察引文数据，可以发现两个标点符号之间的词往往属于一个部分的元数据。故对预处理后的引文基于标点符号进行分段，再根据引文内容为引文添加相应标签，最后将数据集分为训练集和验证集；

其中用于训练的原始引文数据集，是从网络上收集的各学科的BibTeX格式即键值对形式表示的引文数据。本实施例中采用的是从web of science网站上收集的各学科，如计算机、医学、化学、物理等等总计50万条BibTeX格式(键值对形式)引文数据，也可根据不同需要进行相应引文数据的采集。

步骤1中，预处理包括包括删除无效的引文，删除不合法的字符以及替换表示连接关系的连词。此处提到的表示连接关系的连词是作者字段中的“and”，这里的“and”通常表示两个相邻作者的连接，若不替换将导致两个作者字段连在一起，影响提取精度，故这里将“and”替换为分隔符。其他的连词一般不需要进行替换。

步骤1中，基于标点符号进行分段包括以下步骤：

步骤1.1，依次遍历引文中的每一个单词，判断单词后面字符是否为标点符号，是则执行步骤1.2，否则继续遍历后续单词。

步骤1.2，判断标点符号是否为“.”号，是则执行步骤1.3，否则执行步骤1.4。即除了“.”号以外的标点符号都为起到分隔作用的符号。

步骤1.3，判断“.”号是否属于分隔符，是则执行步骤1.4，否则返回执行步骤1.1。这个步骤在判断“.”号是否属于分隔符时，是将其分为用于断句的分隔符和不是用于断句的非分隔符。之所以采用以上步骤进行判断，是因为在分段时不能完全根据标点符号来进行，比如名字中间出现缩写时不能依靠标点分段，因为缩写标点前后实际上属于同一个人名，比如William.H.Gates，中间名Henry进行了缩写，并用“.”号分开，但实际上是一个人的名字。此外，在文章标题、期刊标题等地方往往也会出现缩写。另外还有日期，如2019.01.01的这种写法。以及表示软件或其他工具的版本号，如window 8.0。故这里要对“.”进行作用上的区分。

在步骤1中提到的根据引文内容为引文添加相应标签，是根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，包括有_AS_lable_即作者开头，_AI_lable_即作者中间，_TS_lable_即标题开头，_TI_lable_即标题中间，_JS_lable_即期刊开头，_JI_lable_即期刊中间，_CS_lable_即会议开头，_CI_lable_即会议中间，_DS_lable_即日期，_PS_lable_即页码开始，_JI_lable_即页码中间，_O_lable_即其他类型共12类标签。

这里提到的根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，将BibTeX格式的引文中各个不同的内容部分，为每个分段标注上12类标签中的一个，其中包含“开头”的标签标注给相应内容的第一个分段，相应内容除第一个分段外的其他分段标注包含“中间”的标签，相应内容包括作者、标题、期刊、会议和页码。比如引文中标题的内容由分隔符隔开，则标题内容被分成了多个段。那么给标题多个段的第一段打上_TS_lable_标签、其他段打上_TI_lable_标签。因为一条普通引文无法区分哪一块是标题、作者等，如果需要打标签需人工指导，但是本实施例采用的是先用BibTeX格式引文指导打标签。然后再将引文转化成普通格式引文。这样引文的每一个段都会有相应的标签。

传统基于CRF的引文元数据抽取方法通过人工定义一些特征作为特征向量，不能从普遍存在的引文数据自动学习特征。本方案采用词向量作为特征向量。词向量技术是将词转化成为稠密向量，并且对于相似的词，其对应的词向量也相近。在自然语言处理应用中，词向量作为深度学习模型的特征进行输入，其效果得到广泛验证。本方案通过二次训练词向量模型提升词向量效果。

为了对模型进行训练和验证，步骤1中，训练集和验证集所占数据集的比例为8∶2。

一种基于FastText-CRF的引文元数据抽取方法，步骤2包括以下步骤：

步骤2.1，预训练词向量模型，首先以英文语料库训练基于word2vec的词向量模型，然后以步骤1中的引文数据训练集作为训练数据来二次训练词向量模型。其中词向量是单词的向量表示。就是提取每个单词特征，将每个单词用一个高维向量，高位向量能够代表每个单词。数据集是原始数据集，词向量模型是已有的word2vec模型，二次训练就是在训练料库中加入引文数据集。

步骤2.2，搭建FastText-CRF抽取模型，将步骤3.1中训练后的词向量模型作为输入层，并依次构建隐藏层、CRF层和输出层，并为FastText-CRF抽取模型赋予包括优化器、损失函数和评价指标在内的参数。其中损失函数、优化器、评价指标都是模型的参数。损失函数用来评估模型预测与实际的差距程度，在训练过程中，是以真实标签为指引，但是预测值和真实值存在差距，通过真实值的指引，来最小化一个损失函数，使得预测值最接近真实值，损失函数越小，模型的鲁棒性就越好。优化器用来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化损失函数。评价指标：即精度，就是预测准确得标签占总预测数的比例。

步骤2.3，设置FastText-CRF模型的超参数，包括学习率和n-grams的长度。这里第一次设定的超参数一般设置在默认值范围内，即学习率范围为[0.01,1]，n-grams默认值范围为[1,3]。

步骤2.4，将步骤1中得到的包含段标签信息的训练集输入FastText-CRF抽取模型。

步骤2.5，按指定的优化器类型对FastText-CRF抽取模型进行优化并跳转执行步骤2.4，直至准确率达到预设的评价指标；若模型达到指定评价标准则保存模型，执行步骤2.3重新设置一组超参数训练模型，直到训练出预设个数模型为止。这里的预设个数可根据具体需要来确定，本实施例取30。

将引文序列通过本方案构建的模型，得出对应的引文标签。传统的LSTM网络结构复杂，效率较低，本实施例采用FastText模型结构简单，熟读快，但FastText模型用于序列标注问题往往存在标签之前约束确实的问题，故本实施例引入CRF层来解决约束缺失的问题，从而提高分类准确率。

在FastText-CRF抽取模型中，各层为：

输入层：将输入的经过分段后的引文段序列中每个词汇映射成词向量，以进行后续计算。模型的输入层所输入的是单词序列，经过输入层，将其转化为词向量，FastText-CRF模型中用词向量表示原始的单词。这里需要指出的是，输入层单词的数量以及引文段的个数是不确定的，附图结构中输入层中左边三个代表一个引文段单词多对应的词向量，右边两个是另一个引文段所对应的词向量。

CRF层：每个引文段对应一个CRF层的输出，CRF层为最终预测标签添加约束，输出结果为每个引文段的最终标签。经历过输出层的处理，可以通过选择每个段序列得分最高的标签得到一个序列标签。但是仍然存在不足，会造成一些约束丧失，传统的fastText模型分类没有考虑引文段之间的关系。例如，最终的序列标签中不会往往不会出现作者、标题、作者的情况，在某些情况下会输出“AS_lableTS_lableAS_lable”的形式，即约束缺失。在训练过程中，CRF层可以为最终预测标签添加一些约束以确保它们有效，CRF的特征函数能够对给定的序列观察学习各种特征(n-gram，窗口)，这些特征就是在限定窗口大小下的各种标签之间的关系，因此，不会出现上述约束缺失的情况。CRF层接收FastText输出层传递下来的权重值，并且通过CRF得到新的权值向量。由于CRF考虑了输出标签的上下文关系，因此CRF产生的结果是整个序列中的最优解。

CRF层进行处理的具体原理如下：对于给定的引文序列x＝(x₁,x₂...x_n),经过隐藏层处理得到y＝(y₁,y₂...y_k),后经过FastText输出层处理得到P∈R^k*t，其中t为标签个数，包括前面提到的11种不同标签，k为引文段个数。P_ij为第i个引文段被预测为标签j的概率。在CRF层定义得分函数s，s(y,q)表示引文段序列y＝(y₁,y₂...y_k)被标记q＝(q₁,q₂...q_k)的分数。s由两部分组成:状态特征与转移特征。在FastText的输出层，仅考虑了状态特征，即取每一种最大概率的标签为最终标签，这往往会出现依赖缺失，在CRF层考虑了状态特征与转移特征共同组成最后的得分函数。得分最高即为最优标记序列。

对于一条标记序列q＝(q₁,q₂...q_k)定义

其中，A为转移矩阵，A_ij表示从标签i转移至标签j的分数。训练时通过最大化p(q|Y)即可得到最优标签序列。

Claims

1.一种基于FastText-CRF的引文元数据抽取方法，其特征在于，包括以下步骤：

步骤3，对待抽取引文基于标点符号进行预处理及分段，然后输入至训练完毕的FastText-CRF抽取模型中进行抽取，最后得到作为结果的标签；

所述的步骤1中，所述的基于标点符号进行分段包括以下步骤：

步骤1.5，判断是否遍历完所有单词，遍历完则保存引文序列的所有段并结束分段过程，否则跳转执行步骤1.1；

所述的步骤1.3中，在判断“.”号是否属于分隔符时，是将其分为用于断句的分隔符和不是用于断句的非分隔符；

所述的步骤1中，根据引文内容为引文添加相应标签，是根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，包括有_AS_lable_即作者开头，_AI_lable_即作者中间，_TS_lable_即标题开头，_TI_lable_即标题中间，_JS_lable_即期刊开头，_JI_lable_即期刊中间，_CS_lable_即会议开头，_CI_lable_即会议中间，_DS_lable_即日期，_PS_lable_即页码开始，_JI_lable_即页码中间，_O_lable_即其他类型共12类标签；

所述的步骤1中，根据BibTeX记录中已知的引文元数据内容和对应的名称，生成带有标签的引文的训练数据，是将BibTeX格式的引文中各个不同的内容部分，为每个分段标注上12类标签中的一个，其中包含“开头”的标签标注给相应内容的第一个分段，相应内容除第一个分段外的其他分段标注包含“中间”的标签，相应内容包括作者、标题、期刊、会议和页码；

所述的步骤2包括以下步骤：

步骤2.6，通过验证集验证上述模型得到各模型精度，取最高精度为最终模型；

所述的FastText-CRF抽取模型中，各层为：

2.根据权利要求1所述的一种基于FastText-CRF的引文元数据抽取方法，其特征在于，所述的步骤1中，所述的用于训练的原始引文数据集，是从网络上收集的各学科的BibTeX格式即键值对形式表示的引文数据。

3.根据权利要求1所述的一种基于FastText-CRF的引文元数据抽取方法，其特征在于，所述的步骤1中，所述的预处理包括包括删除无效的引文，删除不合法的字符以及替换表示连接关系的连词。

4.根据权利要求1所述的一种基于FastText-CRF的引文元数据抽取方法，其特征在于，所述的步骤1中，训练集和验证集所占数据集的比例为8∶2。