CN113468889A

CN113468889A - 一种基于bert预训练模型信息提取的方法和装置

Info

Publication number: CN113468889A
Application number: CN202110730085.9A
Authority: CN
Inventors: 金鑫; 李鹏辉
Original assignee: Shanghai Alphainsight Technology Co ltd
Current assignee: Shanghai Alphainsight Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-01

Abstract

本发明涉及一种基于BERT预训练模型信息提取的方法，包括以下步骤：对文本进行预处理；通过BERT预训练模型对文本进行命名实体识别，提取出预先定义好的字段，得到事件类型和/或事件触发词；根据命名实体抽取出的事件类型和/或者事件触发词的结果，抽取出与字段相对应事件的实体结构化数据。本发明还涉及一种基于BERT预训练模型信息提取的装置，包括：文本预处理模块、命名实体识别模块、事件论元模块。本发明的一种基于BERT预训练模型信息提取的方法及装置，通过分步训练命名实体识别和事件论元，能够抽取出与字段相对应的多条结构化数据。

Description

一种基于BERT预训练模型信息提取的方法和装置

技术领域

本发明属于信息抽取技术领域，具体涉及一种基于BERT预训练模型信息提取的方法和装置。

背景技术

在NLP信息抽取领域中，在进行信息抽取时大都使用正则表达式或者CRF等传统技术模型。这些技术模型无法完全覆盖各种不同形式的说法，以及识别出抽取出文本中的事件元素。

发明内容

针对上述问题中存在的不足之处，本发明提供一种通过分步训练命名实体识别和关系判断，以抽取出与字段相对应的多条结构化数据的一种基于BERT预训练模型信息提取的方法和装置。

为达到上述目的，作为本申请的其中一个方案，提供一种基于BERT预训练模型信息提取的方法，包括以下步骤：

步骤1、对文本进行预处理；

步骤2、通过BERT预训练模型对文本进行命名实体识别，提取出预先定义好的字段，得到事件类型和/或事件触发词；

步骤3、根据命名实体抽取出的事件类型和/或者事件触发词的结果，抽取出与字段相对应事件的实体结构化数据。

其优选的技术方案为：

如上所述的一种基于BERT预训练模型信息提取的方法，所述结构化数据包括但不限于与预先定义好的字段相对应的事件主体、时间、地点。

如上所述的一种基于BERT预训练模型信息提取的方法，步骤1中，对文本进行的预处理具体包括：

步骤11：检测当前文本的数据类型是否为doc格式、docx格式或pdf格式；

步骤12：若是，将文本的数据类型转换为xml格式；

步骤13：对xml格式的文本依次进行目录抽取、表格抽取、文本抽取，以去除文本中除文字信息以外的内容；

步骤14：对文本按照句号进行拆分，并对拆分后的文本进行另存。

如上所述的一种基于BERT预训练模型信息提取的方法，步骤2具体包括：

步骤21：命名实体识别，对文本通过BERT预训练模型进行编码，将文本序列转化为基于字的向量表示；

步骤22：通过条件随机场对每个字段对应的标签进行预测，以得知该字段是否为预先定义好的字段，得到事件类型和/或事件触发词。

如上所述的一种基于BERT预训练模型信息提取的方法，步骤2和步骤3中，BERT预训练模型中命名实体识别和事件抽取的训练过程如下：

根据任务定义，对文本进行字段和事件主体的语料标注；

将语料标注作为BERT预训练模型的输入，输送至BERT预训练模型进行命名实体识别和事件论元的训练，以得到训练后BERT预训练模型。

作为本申请的另一个方面，提供一种实施如上任一项所述的基于BERT预训练模型信息提取的方法的装置，包括：文本预处理模块、命名实体识别模块、事件论元模块；

所述文本预处理模块用于对文本进行预处理；

所述命名实体识别模块用于通过BERT预训练模型文本进行命名实体识别，以提取出预先定义好的字段；

所述事件论元模块用于根据命名实体识别出的事件触发词，抽取出与字段相对应事件的实体结构化数据。

其优选的技术方案为：

如上所述的装置，所述文本预处理模块至少包括：

检测模块，用于检测当前文本的数据类型是否为doc格式、docx格式或pdf格式；

处理模块，用于根据检测模块的检测结果，将数据类型为doc格式、docx格式或pdf格式的数据类型转换为xml格式；

删减模块，用于对xml格式的文本依次进行目录抽取、表格抽取、文本抽取，去除文本中除文字信息以外的内容；

拆分模块，用于对经删减模块去除文字信息以外内容后的文本进行拆分，并对拆分后的文本进行另存。

如上所述的装置，所述命名实体识别模块至少包括：

编码转化模块，用于通过BERT预训练模型对文本进行编码，将文本序列转化为基于字的向量表示；

预测模块，用于通过条件随机场对每个字段对应的标签进行预测，以得知该字段是否为预先定义好的字段，得到事件类型和/或事件触发词。

如上所述的装置，所述事件论元模块至少包括：

语料标注模块，用于对文本进行字段和事件主体的语料标注，并将语料标注后的文本送入BERT预训练模型；

抽取模块，用于根据预测模块预测得到的事件类型和/或者事件触发词，抽取出与字段相对应事件的实体结构化数据。

与现有技术相比，本发明具有以下优点：

本发明通过设计基于预训练模型深度学习的事件信息抽取框架，通过分步训练命名实体识别和事件论元，能够抽取出与字段相对应的多条结构化数据。

附图说明

图1为本发明的基于BERT预训练模型信息提取的方法的流程图；

图2为本发明中流程部分的结构框图。

主要附图标记说明如下：

1、文本预处理模块；2、命名实体识别模块；3、事件论元模块。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

针对上述问题，请参阅图1～2，本实施例提供一种基于BERT预训练模型信息提取的方法，包括以下步骤：

步骤1、对文本进行预处理。

其中，对文本进行的预处理操作具体包括：

步骤12：若是，将文本的数据类型转换为xml格式；

步骤13：对xml格式的文本依次进行目录抽取、表格抽取、文本抽取，以去除文本中除文字信息以外的内容，例如文本中出现的表格和页眉页脚等；

步骤1中，对文本进行目录抽取、表格抽取、文本抽取的方式为常规技术手段，本实施例中不再赘述。其中，对文本的数据类型进行转换是为了方便后续操作；而对文本依次进行目录抽取、表格抽取、文本抽取是为了对文本中的大段文字先进行清洗，去除掉文字中存在的表格、页眉页脚。

步骤2、通过BERT预训练模型对文本进行命名实体识别，提取出预先定义好的字段，得到事件类型和/或事件触发词。

其具体包括：

步骤3、根据命名实体抽取出的事件类型和/或者事件触发词的结果，抽取出与字段相对应事件的实体结构化数据，如:人物、时间、地点等。

步骤2和步骤3中，BERT预训练模型中命名实体识别和事件抽取的训练过程如下：

根据任务定义，对文本进行字段和事件主体的语料标注；

作为本实施例的另一个方面，提供一种实施如上任一项所述的基于BERT预训练模型信息提取的方法的装置，包括：文本预处理模块1、命名实体识别模块2、事件论元模块3。

所述文本预处理模块1用于对文本进行预处理；所述文本预处理模块1至少包括：

所述命名实体识别模块2用于通过BERT预训练模型文本进行命名实体识别，以提取出预先定义好的字段；所述命名实体识别模块2至少包括：

所述事件论元模块3用于根据命名实体识别出的事件触发词，抽取出与字段相对应事件的实体结构化数据。所述事件论元模块3至少包括：

本实施例中的基于BERT预训练模型信息提取的方法和装置，基于预训练模型深度学习的事件信息抽取框架，通过分步训练命名实体识别和事件论元，能够抽取出与字段相对应的多条结构化数据。

以上所述仅为本发明的较佳实施例，对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于BERT预训练模型信息提取的方法，其特征在于，包括以下步骤：

步骤1、对文本进行预处理；

2.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法，其特征在于，所述结构化数据包括但不限于与预先定义好的字段相对应的事件主体、时间、地点。

3.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法，其特征在于，步骤1中，对文本进行的预处理具体包括：

步骤12：若是，将文本的数据类型转换为xml格式；

4.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法，其特征在于，步骤2具体包括：

5.根据权利要求1所述的一种基于BERT预训练模型信息提取的方法，其特征在于，步骤2和步骤3中，BERT预训练模型中命名实体识别和事件抽取的训练过程如下：

根据任务定义，对文本进行字段和事件主体的语料标注；

6.一种实施权利要求1～5任一项所述的基于BERT预训练模型信息提取的方法的装置，其特征在于，包括：文本预处理模块、命名实体识别模块、事件论元模块；

所述文本预处理模块用于对文本进行预处理；

7.根据权利要求6所述的装置，其特征在于，所述文本预处理模块至少包括：

8.根据权利要求6所述的装置，其特征在于，所述命名实体识别模块至少包括：

9.根据权利要求8所述的装置，其特征在于，所述事件论元模块至少包括：