CN116070602A

CN116070602A - 一种pdf文档智能标注与抽取方法

Info

Publication number: CN116070602A
Application number: CN202310016945.1A
Authority: CN
Inventors: 王露笛; 黄梦依; 宋东泽; 崔文娟; 杜一
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-05
Anticipated expiration: 2043-01-05
Also published as: CN116070602B

Abstract

本发明公开了一种PDF文档智能标注与抽取方法，其步骤包括：1)利用文本抽取模块抽取PDF文档中的文字信息和文字位置坐标；2)利用智能标注模型对抽取出的所述文字信息进行标注；3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显，并根据预先定义的知识本体进行标注筛选：31)定义知识本体和关系；32)对定义的实体名和关系名进行向量化，基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系；33)根据从PDF文档抽取的文字和文字坐标信息，将筛选出的实体和关系定位到在PDF上；34)在原始PDF上建立一个智能标注层，标注出实体类别和关系类别。

Description

一种PDF文档智能标注与抽取方法

技术领域

本发明涉及计算机领域，使用主动学习训练一个科研论文PDF文档的智能标注和抽取方法。方法使用深度学习模型从PDF文档中抽取论文中的实体和关系信息，在不同科研领域进行领域模型训练并在原始PDF格式上进行结果回显。此方法作为一项标注工具的后台为PDF文档提供智能标注，基于主动学习的思想，将标注工具的使用者的使用反馈作为模型再训练和更新的数据，实现对PDF文档的智能标注和抽取。

背景技术

PDF是Portable Document Format的简称，意为可携带文件格式。与其他文件格式相比，PDF文件格式在跨平台的稳定性和阅读的流畅性上具有明显的优势，其安全性高、文件信息丰富，同时也不易编辑，是现今大量科学文献的统一传播格式。

在计算机应用技术领域，使用模型对文档进行智能标注与抽取能迅速对标注工作项目的文档进行先一步标注，大幅提高标注工作的效率。对科研文献中的实体和关系进行抽取，是帮助科研人员从大量科研文献迅速获取知识，统一建立科学知识体系的基础。

公开号CN201911285809.2的专利公开了一种确定PDF文件中待标注位置的方法，使用PDF文档上方创建的透明画布和鼠标指针获取的位置坐标对PDF文档上待标注的位置进行定位。

公开号CN202110424249.5的专利公开了一种针对PDF文档的标注方法，通过用户框选范围内文本结构信息使用直接抽取或光学字符识别的方法得到PDF文本并由用户进行NER标注，标注的结果可以用于模型训练。

公开号CN202210953243.1的专利公开了一种智能标注PDF文件中表格的方法、装置及电子设备，基于PDF文件中的目标表格数据以及对应的表格类型，获取结构化表格并基于预先获取的标注标签标注智能标注目标表格。

综合目前存在的PDF标注工具，目前存在的PDF标注工具的智能模型化发展相较于直接的文字智能标注较为缓慢，而且主要在于包含结构化信息的表格图像数据的智能标注，对于非结构的文字数据的智能标注尚存问题。

以科研文献为例的PDF文本全文较长，针对科研文献PDF全文的标注的模型缺少。

不同的科研领域，如生物领域和计算机领域对文献中实体识别的要求完全不同，标注模型需要针对不同的领域进行专门的训练。

不同的科研领域、标注项目和科研人员对同一实体的定位不同，对知识本体的定位也存在差异，使用自动标注方法对一篇科研文献进行自动标注后的实体结果和关系结果需要对应科研人员进行文本标注前预先定义的不同知识本体进行差异化筛选。

基于此现状，本发明提供一种基于主动学习的PDF文档智能标注与抽取方法，能直接从PDF文档中抽取信息，训练模型，且使用主动学习的思想对不同科研领域进行领域模型训练并在原始PDF格式上进行结果回显。

发明内容

为解决上述问题，本发明提供一种基于主动学习的PDF文档智能标注与抽取方法，尤其适用于科研文献等专有领域标注项目的标注。

本发明的技术方案为：

一种PDF文档智能标注与抽取方法，其步骤包括：

1)利用文本抽取模块抽取PDF文档中的文字信息和文字位置坐标；

2)利用智能标注模型对抽取出的所述文字信息进行标注：21)首先对抽取出的文字以句子为单位进行切分，将字符数大于设定阈值的句子保存到句子列表；22)将所述句子列表中的句子输入命名实体识别模型进行预测，提取出句子中的命名实体及其类别；以字典的形式保存每个句子中各实体的名称、长度、在句子中的偏移量、实体类型和原始句子；23)对于非同一句子的两实体A、B，关系抽取模型根据两实体A、B所在句子及其前后若干句中的所有实体，预测得到两实体A、B之间的关系；

3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显，并根据预先定义的知识本体进行标注筛选：31)在标注工具中定义知识本体和关系，包含标注项目中需要标注的实体类别和实体间的关系类别；32)对定义的实体名和关系名进行向量化，基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系，并将其输出保存到对应的实体字典、关系字典；33)根据从PDF文档抽取的文字和文字坐标信息，将筛选出的实体和关系定位到在PDF上；34)在原始PDF上建立一个智能标注层，根据步骤33)定位的坐标构建标注框，标注出实体类别和关系类别。

进一步的，还包括一主动学习模块，用于定期对所述智能标注模型进行训练，以及根据标注人员对智能标注识别的信息进行修改所得更新数据，对所述智能标注模型进行增量训练。

进一步的，在SCIERC数据集使用BERT_BASE_UNCASED预训练模型，构建NER模型；然后对所述NER模型进行知识蒸馏，得到所述命名实体识别模型。

进一步的，所述命名实体识别模型为具有三层Transformers的学生模型。

进一步的，在SCIERC数据集使用SCIBERT_SCIVOCAB_UNCASED预训练模型并对进行知识蒸馏，得到所述关系抽取模型。

进一步的，所述关系抽取模型为具有四层Transformers的学生模型。

进一步的，为抽取的每一文字设置一词语选框，利用(x0，y0，x1，y1)表示对应文字的位置坐标；x0为从页面左侧到框左边缘的距离，y0为从页面底部到框的下边缘的距离，x1为从页面左侧到方框右边缘的距离，y1为从页面底部到框的上边缘的距离。

进一步的，所述文本抽取模块以字符串格式依次保存PDF文档中的文字信息；采用文字坐标信息字典依次保存PDF文档中每一个词语的文字坐标信息，文字信息中的顺序和文字坐标信息中的顺序一一对应。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明分为四个模块，文本抽取模块、智能标注模块、标注回显模块和主动学习模块。附图1展示了智能标注方法的模块。

文本抽取模块基于PDF文档抽取文档中的文字和文字的位置信息，智能标注模块基于抽取出的文字进行模型智能标注，标注回显模块基于模型输出结果在PDF文档相应位置显示，主动学习模块基于主动学习使用用户反馈信息进行模型更新。

下面对本发明的四个模块进行详细的说明。

一、文本抽取模块。

文本抽取模块抽取PDF中的文字信息和文字位置坐标。从PDF文档中按词抽取PDF中的文字并保存每一个词语的坐标信息。以每一个词语选框，保存#x0：从页面左侧到框左边缘的距离。#y0：从页面底部到框的下边缘的距离。#x1：从页面左侧到方框右边缘的距离。#y1：从页面底部到框的上边缘的距离。

以字符串格式保存PDF文档中的依次的文字信息，以字典格式依次保存PDF文档中每一个词语的文字坐标信息，文字信息中的顺序和文字坐标信息中的顺序一一对应。

二、智能标注模块

智能标注模块对抽取出的PDF文档中的文字信息进行智能标注，原始智能标注模型是基于BERT的命名实体识别模型和关系抽取模型，原始模型的训练集来源于500篇人工标注的科学摘要的SCIERC数据集。

在数据集上按照BIO序列标注规则，将实体的首个单词部分标注为B，实体的非首个单词部分标注为I，非实体单词标注为O，即每个训练句子可以视为一个使用B-X标签、I-X标签和O标签组成的序列，其中X为实体类别。原始模型使用训练集中的句子和对应的BIO标签序列训练模型，使得输入句子后能够预测输入句子的BIO标签。关系抽取任务一般被视为文本多分类任务，在训练好的模型上输入原始句子和两种实体，模型输出实体间的关系类型。使用BERT_BASE_UNCASED预训练模型和SCIBERT_SCIVOCAB_UNCASED模型训练命名实体识别模型和关系抽取模型，模型的具体架构和训练细节将在说明书的具体实施方法部分详细说明。

此发明中PDF文档智能标注与抽取方法的智能标注模块主要分为三步。

第一步，句子切分。

对PDF文档抽取出的文字以句子为单位进行切分和保存，以句子标点符号为界限，字符数大于5的句子保存在句子列表中以减少单一词汇乱码。

将每个句子的每个词生成子词序列，后续命名实体识别模型为句子的每一个子词预测命名实体标签。分词器结果保存为子词列表，长度为句子中单词数量。子词序列是对于每一个词生成的，句子本身是词的组合，子词序列是保存每一个词切分成子词的形式。子词列表是子词序列的组合，具体形式是，一个句子对应一个子词列表，子词列表长度为子词序列总数，即句子中词数；每个子词序列长度为对应词切分成子词的子词数。

第二步，实体识别。

调用原始版本的命名实体识别模型进行模型预测，输出转化为BIO标签与原始文本对应，提取出句子中的命名实体及其类别。

模型预测的BIO标注序列提取出单词序列，从头到尾遍历模型预测的BIO标注序列，直到遍历到第一个标注为B-X的标注标签，其中X为实体类别。

对B-X标签后面区分，不为I-X是单子词实体标签，为I-X时是多子词实体标签。使用保存的子词列表，单子词实体标签直接找到其来源的原始单词，将原始单词的标注为B-X；多子词实体标签找到头尾子词来源的原始单词，为同一个时原始单词标注为B-X，不为同一个时原始实体首个单词标注为B-X，其他单词标注为I-X。

在单个句子遍历过程中记录下子词列表的搜索偏移以防止搜索重复，下一次子词搜索将从记录的偏移之后开始。

以字典的形式保存下句子中抽取的每个实体的名称、长度、在句子中的偏移量、实体类型和原始句子。

第三步，关系抽取。

关系抽取模型的输入为两个实体的名称、类型和句子，对于抽取的每一个实体，选择其句子编号前后两句之间的所有实体一一对应，保存两个实体的名称和两个实体所在的句子和之间的句子为待预测列表。一个句子中可能会有多个实体，比如第一个句子里有1个实体，第二个句子有两个，待预测列表里就需要对应两次。

将两个实体名称在关系句子上进行位置匹配，标记出两个实体在句子中的位置，使用关系抽取模型预测两个实体之间的关系，模型输出为分别属于每种关系类别的概率，选择概率最大的关系类别作为模型预测的关系。

将命名实体模型抽取的实体信息与实体字典中对应实体序号在数据库中连接并记录关系种类，与多个实体之间存在关系时，按照出现在文本中的前后顺序以字典的形式保存两个实体编号和实体之间的关系。

附图2为智能标注模块的整体架构。

三、标注回显模块

根据模型得到的实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显，并根据预先定义的知识本体进行标注筛选，以实现方便使用者使用的PDF科研文献自动标注工具。

1、用户在标注工具中建立标注项目本体和关系，包含标注项目中需要标注的实体类别和实体间的关系类别。在标注工具中预定义用户需要标注的哪一类实体和关系名称。

2、使用Word2Vec模型对用户定义的实体名和关系名向量化，基于向量的余弦相似度计算每一个名称(包括实体名和关系名)对应的智能标注模型中标出的实体和关系类别。

3、根据步骤2中选择的实体和关系名称进行智能标注模型输出筛选。智能标注模块模型的输出结果为实体字典和关系字典，根据字典中的类别名称筛选出标注项目需要的类别。

4、根据PDF文档的文字和文字坐标信息字典进行定位，将筛选出的实体和关系定位到在PDF上的坐标。关系定位是和实体连接的，每个关系标签包含实体的编号，在PDF上找到了实体的位置之后，两个实体之间连线就是关系的位置。

5、在原始PDF上建立一个智能标注层，根据坐标构建标注框，标注出实体类别和关系类别。

附图3为标注回显模块的整体架构。

四、主动学习模块

主动学习模块能够实现基于主动学习的PDF文档智能标注与抽取方法的两个定期任务：模型更新任务和领域划分任务。

依据使用者对自动标注工具的使用反馈信息作为新的训练数据，通过增量学习或者重新学习的方式更新、优化智能标注模型，提高模型准确率和性能。

对于不同领域的科研PDF文本，专业领域的预测模型能够使得标注人员得到更准确的帮助。根据主动学习获得的用户领域细分信息，训练专用的领域标注模型版本。

模型的更新和领域更新需要依赖于用户对智能标注的实体和关系结果给与的反馈，用户对标注结果的反馈分为两个部分。

第一部分，领域选择模型。智能标注之前，用户依据标注项目的选择不同的模型领域，如果选择了通用领域模型，同时需要输入用户认为该篇科研文献属于的领域类别，得到文献的领域信息和用户使用信息的数据存入后台积累领域信息数据。

第二部分，标注修正模型。用户对自动标注提供的实体和关系标签进行修正，标签修正的结果保存在后台，针对这些训练数据对模型进行增量训练，提高模型版本和标注正确率。

以上的两部分基于主动学习的对于模型版本的更新和领域细分的反馈任务使得智能标注模型具有了不断提高和更新的能力，能在学习过程中为科研标注人员用户提供不断完善的标注体验。

附图4为主动学习模块的整体架构；附图5为本发明的总体流程图。

与现有技术相比，本发明具有以下优点：

1、是一种专门针对科研文献的PDF文档的智能标注与抽取方法，对PDF文档中的文字信息进行智能标注和回显，满足科研文献的PDF文档级的智能标注需求。

2、自适应的从标注项目出发对标注标签进行匹配和筛选，适应不同标注项目的需求。

3、基于主动学习的思想使用标注项目人员的反馈信息推出专有领域的标注模型和进行模型更新。

附图说明

图1为智能标注方法模块图。

图2为智能标注模块架构。

图3为标注回显模块架构。

图4为主动学习模块架构。

图5为智能标注与抽取方法总体流程图。

图6为模型架构总体图。

图7为知识蒸馏后模型图；

(a)实体识别模型知识蒸馏过程，(b)关系抽取模型知识蒸馏过程。

具体实施方式

下面对本发明细节做进行详细说明。

一、通用模型训练训练

图6展示了本方法使用的智能模型的模型细节架构。

1、命名实体识别模型

在SCIERC数据集使用BERT_BASE_UNCASED预训练模型构建一个命名实体识别模型，该模型从SCIERC数据集中提取基于多篇科研文本的摘要文本作为输入，以SCIERC数据集中人工标注的命名实体及类别信息生成的BIO序列作为标签，进行基于BERT的深度学习模型的训练，其中模型的训练过程为：

(1)数据预处理。SCIERC数据集中原始格式为json字典格式，命名实体信息为实体在句子中的偏移量和实体种类。将原始数据转化为BIO标注序列。

(2)模型构建。使用BERT_BASE_UNCASED预训练模型构建NER模型，模型分为编码层、BERT模型层、线性分类层、CRF层和输出层。编码层使用Tokenizer分词器将句子分为subword并编码成向量，BERT模型层使用BERT_BASE_UNCASED预训练模型，线性分类层返回每个subword属于各个标签的概率，句子CRF层使用条件随机场转移矩阵映射标签序列，输出层输出每个句子的BIO标签结果。

(3)在训练集上训练，对比验证集中句子经过模型输出的BIO标签序列和句子本身的BIO标签序列。随着训练轮次的提升，模型逐渐收敛且loss值递减。

(4)保存训练效果最好的一次模型在内存中，作为原始命名实体识别模型。

2、关系抽取模型

在SCIERC数据集使用SCIBERT_SCIVOCAB_UNCASED预训练模型构建一个关系抽取模型，该模型从SCIERC数据集中提取基于多篇科研文本的摘要文本作为输入，以SCIERC数据集中人工标注的实体间关系信息作为训练数据，进行基于BERT的深度学习模型的训练，其中模型的训练过程为：

(1)数据预处理。SCIERC数据集中原始格式为json字典格式，实体间关系信息为两个实体在句子中的偏移量和关系种类。将原始数据转化为两个实体名称，关系类别和句子的格式。对于不存在关系的实体构建负样本；

(2)模型构建。使用SCIBERT_SCIVOCAB_UNCASED预训练模型构建关系抽取模型，模型分为编码层、BERT模型层、池化层、非线性激活层、线性分类层和输出层。编码层使用Tokenizer分词器将实体名称句子分为subword并编码成向量，BERT模型层使用SCIBERT_SCIVOCAB_UNCASED预训练模型，池化层将每个实体用所有Token向量的平均值表示，非线性激活层使用Tanh激活函数进行非线性映射，线性分类层返回每组实体和句子属于各个类别的概率，输出层输出每组实体和句子的关系抽取分类结果。

(3)在训练集上训练，在测试集上进行训练效果验证。对比验证集中每组实体和句子经过模型预测的关系抽取分类结果和实际关系，随着训练轮次的提升，模型逐渐收敛且loss值递减。

(4)保存训练效果最好的一次模型在内存中，作为原始关系抽取模型。

3、知识蒸馏

使用BERT预训练模型训练出的结果有模型大、预测慢的缺点，不适用于我们工具需要的线上部署、及时反馈的功能。使用知识蒸馏的技术减少模型的规模，部署蒸馏后的模型既可以保留大规模模型的准确性优势，又能够发挥小规模模型的速度优势。

深度学习神经网络主要运行时间实在BERT模型层。BERT模型为12层或24层Transformers组成，参数量较大，对BERT模型进行知识蒸馏使用更少的Transformers层数或更少的参数量模拟深度模型的序列效果。

(1)进行知识蒸馏的流程将原始的基础命名实体识别模型蒸馏为T3(3层Transformers)学生模型，将原始的基础关系抽取蒸馏T4Tiny(4层Transformers，具有较小的隐藏尺寸和前馈尺寸)学生模型。

附图7为知识蒸馏后模型的层数规模示意图。

(2)在在线环境上部署小规模模型。

二、标注本体构建和PDF标注显示

1、本体构建和标签筛选。

使用本发明的用户可以构建知识本体，根据用户构建的本体内容筛选智能标注结果。

不同用户在构建知识体系时，对实体的名称定义可能会有差异，用户构建的知识本体包含实体名称和关系名称，采用Word2Vec对每一个实体名称进行向量化表示，基于向量的余弦相似度进行匹配。

用户定义的本体包含实体名称和关系名称，本体的架构为知识图结构，图的节点集V_U为实体名称集，边集E_U为关系名称集。智能标注模型预测的实体名称集V_M，关系名称集E_M。

标签筛选使用标签匹配函数将本体知识图集合对应为智能标注模型集合。

V_U→V_M,E_U→E_M

基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系类别。

其中M(x)是标签匹配函数，v(i)是智能标注模型标注的名称对应的Word2Vec向量，v(j)是用户定义的名称对应的Word2Vec向量。

2、PDF标注定位

实体字典的一项包含实体名称、实体长度、句子中偏移量、实体类别、序号和原始句子。

取实体字典中的第一项，取出原始句子，从PDF文档开头匹配整个句子的字符串直到匹配完全。

取出实体名称和句子中偏移量，定位实体位置，并在文字坐标信息字典上定位到实体坐标#x0，#y0，#x1，#y1。记录匹配到的句子和坐标位置，在PDF标注层上完成智能标注选框。

取实体字典中的下一项，从上一个实体的句子偏移量开始继续匹配，重复直至匹配完成实体字典。

取关系字典的第一项，对应实体字典中的头尾实体序号，在PDF标注层对应的智能标注选框间构建关系连线。

三、基于主动学习的模型更新

1、领域模型训练

针对不同的标注领域，定期对专用领域模型进行针对性训练。初始的标注工具只有原始数据集训练的通用领域标注模型，随着标注工具的使用，收集到不同科研领域的标注数据，如生物、医学、材料等领域，数据可以用于针对特定科研领域的模型训练。1)在标注工具使用时选择或输入待标注文本的科研领域；2)在标注工具使用时修改自动标注推荐的实体和关系；3)根据标注人员修改的自动标注结果增量学习更新模型；4)根据文章的领域信训练领域自动标注模型。

标注人员进行标注时，选择所需要的自动标注模型领域，给标注人员在科研文献PDF上展示专属领域的标注信息。如暂时无所需要的领域模型，可以选择通用领域并输入标注人员判断的文章所属领域。

根据通用模型下的领域信息进行数据合并，使用特定领域下文献的标注层信息训练领域下模型，储存在模型后台，之后使用者使用智能标注工具时可以使用领域模型进行智能标注。

2、模型更新训练

标注人员对智能标注识别的信息进行修改，对标注人员对于每一条实体和关系信息的使用和修改情况用数据库中的两个字段进行记录，用于模型新版本的训练。

模型进行定期的效果判断任务，根据标注人员使用自动标注智能模型的使用反馈进行当前模型效果判断并修改，对旧版本模型进行增量训练。增量训练使得智能标注模型得到人工反馈信息，提高自动标注智能模型的标注效果，并更新在模型后台。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种PDF文档智能标注与抽取方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，还包括一主动学习模块，用于定期对所述智能标注模型进行训练，以及根据标注人员对智能标注识别的信息进行修改所得更新数据，对所述智能标注模型进行增量训练。

3.根据权利要求1或2所述的方法，其特征在于，在SCIERC数据集使用BERT_BASE_UNCASED预训练模型，构建NER模型；然后对所述NER模型进行知识蒸馏，得到所述命名实体识别模型。

4.根据权利要求3所述的方法，其特征在于，所述命名实体识别模型为具有三层Transformers的学生模型。

5.根据权利要求1或2所述的方法，其特征在于，在SCIERC数据集使用SCIBERT_SCIVOCAB_UNCASED预训练模型并对进行知识蒸馏，得到所述关系抽取模型。

6.根据权利要求5所述的方法，其特征在于，所述关系抽取模型为具有四层Transformers的学生模型。

7.根据权利要求1所述的方法，其特征在于，为抽取的每一文字设置一词语选框，利用(x0，y0，x1，y1)表示对应文字的位置坐标；x0为从页面左侧到框左边缘的距离，y0为从页面底部到框的下边缘的距离，x1为从页面左侧到方框右边缘的距离，y1为从页面底部到框的上边缘的距离。

8.根据权利要求1所述的方法，其特征在于，所述文本抽取模块以字符串格式依次保存PDF文档中的文字信息；采用文字坐标信息字典依次保存PDF文档中每一个词语的文字坐标信息，文字信息中的顺序和文字坐标信息中的顺序一一对应。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。