CN111914555B

CN111914555B - 基于Transformer结构的自动化关系抽取系统

Info

Publication number: CN111914555B
Application number: CN201910384159.0A
Authority: CN
Inventors: 孟小峰
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2022-08-23
Anticipated expiration: 2039-05-09
Also published as: CN111914555A

Abstract

本发明涉及一种基于Transformer结构的自动化关系抽取系统，其包括用户输入层、数据预处理层、模型训练层和关系实例输出层；用户输入层根据用户输入的数据类型选择相应的工作模式；数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理，得到分句后的文本语料数据和模型训练数据，并将预处理后的模型训练数据发送到模型训练层进行训练，将分句后的文本语料数据发送到关系实例输出层；模型训练层采用接收到的模型训练数据进行模型训练，得到最优训练模型；关系实例输出层采用最优训练模型从分句后的文本语料数据中抽取实体关系三元组，作为系统的输出。本发明可以广泛应用于关系抽取领域。

Description

基于Transformer结构的自动化关系抽取系统

技术领域

本发明涉及关系抽取领域，特别是关于一种基于Transformer结构的自动化关系抽取系统。

背景技术

关系抽取旨在从文本中识别实体并抽取实体之间的语义关系。现有的主流关系抽取技术可以分为有监督关系抽取、弱监督关系抽取和无监督关系抽取三种，介绍如下：

1、有监督关系抽取技术可以分为联合抽取和流水线抽取两种。前者目前并没有发展出一种统一和实用的方法，且通常依赖于复杂的数据预处理或者复杂的建模过程。而后者通过将关系抽取任务分解为上游的命名实体识别任务和下游的关系分类任务，大大简化了任务复杂度。同时由于命名实体识别和关系分类都属于基本的自然语言处理任务，所以可以充分利用NLP(自然语言处理)领域最新的技术来提升模型效果。

2、关系抽取领域主流的弱监督学习方法有远程监督和半监督两种。前者通常利用已有的知识库(如freebase)，用启发式方法构建一个含噪声的数据集，再在传统的有监督关系抽取技术基础上加入降噪措施以训练出鲁棒的关系抽取模型。后者主要采用Bootstrapping方法进行关系抽取，对于要抽取的关系，该方法首先手工设定少量种子实例，然后迭代地从海量文本中抽取对应的关系模板和更多的关系实例。

3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息，因此可以利用每个实体对对应的上下文信息来代表该实体对的语义关系，并对所有实体对的语义关系进行聚类。

目前流行的自动化关系抽取工具，如清华大学开源的神经网络关系抽取工具包OpenNRE，只集成了有监督和远程监督模型。其中，有监督模型需要提供大量高质量的标注训练语料，而标注训练语料是一件费时费力的工作，导致模型实用性不强；而远程监督模型的局限性在于实体和关系的类型必须是存在于知识库中的，否则方法会失效。而半监督模型通常只需要用户提供少量种子关系实例，就可以训练出相对有效的关系抽取模型，因此是相当实用的一种方法，而上述自动化关系抽取工具并未集成。

此外，基于神经网络的关系抽取模型通常面临复杂的数据预处理、模型结构选择、超参数调优等困难，这对没有深度学习经验的普通用户来说是不现实的。而目前的关系抽取工具包不提供自动超参数调优等功能。

目前在关系抽取领域被广泛采用的循环神经网络(RNN)结构存在处理长距离依赖能力不足、不能并行计算等缺点，而谷歌最新提出的Transformer结构理论上可以解决长距离依赖问题，并且网络层数可以做得很深，所以捕捉特征的能力更强，同时Transformer结构可以并行计算，大大提高了训练效率。

发明内容

针对上述问题，本发明的目的是提供一种基于Transformer结构的自动化关系抽取系统，该系统可以自动进行数据预处理、超参数调优，且集成了有监督、远程监督、半监督三种关系抽取模型。

为实现上述目的，本发明采取以下技术方案：一种基于Transformer结构的自动化关系抽取系统，其包括：用户输入层、数据预处理层、模型训练层和关系实例输出层；所述用户输入层根据用户输入的数据类型选择相应的工作模式，包括有监督训练模式、远程监督训练模式以及半监督关系抽取模式；所述数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理，得到分句后的文本语料数据和模型训练数据，并将预处理后的模型训练数据发送到所述模型训练层进行训练，将分句后的文本语料数据发送到所述关系实例输出层；所述模型训练层采用接收到的模型训练数据进行模型训练，得到最优训练模型；所述关系实例输出层采用所述最优训练模型从分句后的文本语料数据中抽取实体关系三元组，作为系统的输出。

进一步的，所述用户输入层根据用户输入的数据类型选择相应的工作模式是指：当用户给定目标实体和关系类型、文本语料和手工标注的训练数据时，则系统工作在有监督训练模式上；当用户给定目标实体和关系类型、文本语料时，则系统工作在远程监督训练模式上；当用户给定目标实体和关系类型、文本语料和关系实例时，系统工作在半监督关系抽取模式上。

进一步的，所述数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理是指：在有监督训练模式下，将文本语料进行分句，将数据集分割为训练集、验证集和测试集三个部分，并将训练集、验证集和测试集分别处理为实体识别模型和关系分类模型的输入格式，作为有监督训练数据；在远程监督训练模式下，对文本语料分句，选择部分句子和知识库对齐用以生成含噪声的数据集，然后将含噪声的数据集处理成远程监督模型需要的输入格式，作为远程监督训练数据；在半监督关系抽取模式下，对文本语料分句，并用NLP工具识别出其中的目标实体作为半监督训练数据。

进一步的，所述模型训练层进行模型训练时，采用流水线方法构建有监督关系抽取模型，采用编码-解码架构构建远程监督关系抽取模型，采用生成对抗思想构建半监督关系抽取模型。

本发明由于采取以上技术方案，其具有以下优点：

1.本发明主要基于Transformer结构搭建神经网络模型，相比于循环神经网络(RNN)和卷积神经网络(CNN)，Transformer结构具有捕捉长距离依赖能力更强、模型准确率更高、层数可以做得更深、捕捉语义特征能力更强、训练速度更快等优点。

2.本发明集成了有监督、远程监督、半监督三种关系抽取模型，可以满足用户在各种现实条件下的需求。其中有监督模型在标注语料丰富时有最好的关系抽取表现；远程监督模型在知识库可用时不需要用户提供高质量的标注数据即可训练出可用的模型；而当用户需要抽取的语义关系不存在于知识库中时，半监督模型仅仅需要用户提供少量关系实例作为种子，即可训练出一个相对准确的模型。

3.本发明可以自动化地进行数据预处理、模型结构选择、超参数调优，用户只需要提供需要抽取的实体和关系类型和文本语料，在有监督条件下提供标注数据，在半监督条件下提供少量种子实例即可，不需要具备关系抽取或者深度学习等方面的领域知识。因此，本发明可以广泛应用于关系抽取领域。

附图说明

图1是本发明基于Transformer结构的自动化关系抽取系统框架图；

图2a和图2b是本发明有监督关系抽取模型结构图；

图3a和图3b是本发明远程监督关系抽取模型结构图；

图4a和图4b是本发明半监督关系抽取模型结构图。

具体实施方式

下面结合附图和实施例对本发明的进行详细的描述。

如图1所示，本发明提供的一种基于Transformer结构的自动化关系抽取系统，其包括用户输入层、数据预处理层、模型训练层和关系实例输出层。其中，用户输入层根据用户输入的数据类型选择相应的工作模式，包括有监督训练模式、远程监督训练模式以及半监督关系抽取模式；数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理，得到分句后的文本语料数据和模型训练数据，并将模型训练数据发送到模型训练层进行训练，将分句后的文本语料数据发送到关系实例输出层；模型训练层采用接收到的模型训练数据进行模型训练，在模型训练过程中，自动进行超参数调优，选择使得模型取得最好效果的超参数，进而得到最优训练模型；关系实例输出层采用最优训练模型从分句后的文本语料数据中抽取实体关系三元组，作为系统的输出。

进一步的，用户输入层根据用户输入的数据类型选择相应的工作模式的方法为：当用户给定目标实体和关系类型、文本语料和手工标注的高质量训练数据(即手工标注数据集)时，系统会工作在有监督训练模式上；当用户给定目标实体和关系类型、文本语料时，系统会工作在远程监督训练模式上；当用户给定目标实体和关系类型、文本语料和少量关系实例时，系统会工作在半监督关系抽取模式上。

进一步的，数据预处理层根据选定的工作模式，按照模型需求对用户给定的输入进行数据预处理，具体的：在有监督训练模式下，将文本语料进行分句，将手工标注数据集分割为训练集、验证集和测试集三个部分，并将得到的训练集、验证集和测试集分别处理为实体识别模型和关系分类模型的输入格式，作为有监督训练数据；在远程监督训练模式下，对文本语料分句，选择部分句子和知识库对齐用以生成含噪声的数据集，然后将含噪声的数据集处理成远程监督模型需要的输入格式，作为远程监督训练数据；在半监督关系抽取模式下，对文本语料分句，并用NLP工具识别出其中的目标实体作为半监督训练数据。

如图2a和图2b所示，本系统采用流水线方法构建有监督关系抽取模型，即将有监督关系抽取任务分解为命名实体识别和关系分类任务，分别用不同的网络结构实现。

如图2a所示，是本发明构建的用来实现命名实体识别的，基于6层Transformer结构和CRF(条件随机场)层的命名实体识别模型。各层Transformer(图中只画了一层Transformer结构，左侧写了*N表示可以设置为6层)结构均包括位置向量表示层、输入向量表示层、多头注意力网络层、第一残差连接和归一化层、前馈神经网络层和第二残差连接和归一化层。其中，位置向量表示层用于将每个位置编号，每个编号对应一个向量，向量是随机初始化的，在训练中更新；输入向量表示层用于下载Word2Vec词向量表，通过查表，每个词对应一个唯一的向量作为初始化的向量表示，在训练中也会更新；位置向量表示层和输入向量表示层的数据拼接后发送到多头注意力网络层和第一残差连接和归一化层；多头注意力网络层对输入的数据进行self-attention操作(自注意力操作)处理后发送到第一残差连接和归一化层；第一残差连接和归一化层根据接收到的数据进行处理，以缓解反向传播过程中的梯度消失问题，更好地训练模型，处理结果分别发送到前馈神经网络层和第二残差连接和归一化层；前馈神经网络层对接收到的数据进行处理后发送到第二残差连接和归一化层；第二残差连接和归一化层根据接收到的数据进行处理，处理结果发送到CRF层；CRF层对接收的数据进行序列标注，得到每个单词对应的标签。

如图2b所示，是6层Transformer结构接Softmax(柔性最大值)层的分类器，用来实现关系分类模型。其中，6层Transformer结构与图2a所示的6层Transformer结构相同，在此不再赘述。Softmax层用于分类，假如目标关系类型有5种，那么输出就对应其中一种。

系统在训练模型时，对命名实体识别模型和关系分类模型分开训练，而当模型训练完成后，对海量文本语料进行关系抽取时，需要先运行命名实体识别模型以识别出句子中包含的实体，然后用生成的中间结果构造关系分类模型的输入，再运行关系分类模型，最终得到实体关系三元组。

如图3a和图3b所示，本发明采用编码-解码架构进行远程监督关系抽取，而编码-解码架构是目前取得最好效果的远程监督模型。编码器选择Transformer结构抽取句子特征，解码器同样选择Transformer后接Softmax层进行解码。解码过程中，要求模型先输出表达最显著的关系，后输出表达较弱的关系，这就解决了两个实体间可能包含多个关系的问题。在编码过程中，对于已经预测出来的关系，要减弱对应句子在构成总的编码表示时所占的比重，有利于预测出所有存在的关系。

如图3a所示，本发明构建的远程监督关系抽取模型的编码部分包括句子包层、Transformer结构层、句子特征向量层以及编码器输出层。其中，句子包层是指含有相同关系实例的句子构成的句子集合，可以有效降低远程监督数据集包含的噪声；Transformer结构层用于从句子包层中提取句子特征向量，并发送到句子特征向量层；句子特征向量层用于将各句子特征向量进行合并，得到句子包的句子特征向量；编码器输出层将句子特征向量发送到解码器部分，作为解码器部分的输入。

如图3b所示，本发明构建的远程监督关系抽取模型的解码器部分包括一Transformer结构，该Transformer结构在每一时刻的输入包括两部分，一是编码器部分的输出向量，另一个是上一时刻解码器部分的输出。

如图4a和图4b所示，为本发明采用的半监督关系抽取模型，该半监督关系抽取模型包括模板组件和分布式组件。模板组件首先利用初始的种子实例抽取模板，然后用抽取到的模板去文本中挖掘新的实体对。这个过程可以得到很多的实体对，把这些实体对送入到分布式组件，训练一个分类器，可以对每个实体对打分，分数看做这个实体对的置信度。由于本发明采用的半监督关系抽取模型为已有技术，本发明在此不再赘述。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于Transformer结构的自动化关系抽取系统，其特征在于其包括：

用户输入层、数据预处理层、模型训练层和关系实例输出层；

所述用户输入层根据用户输入的数据类型选择相应的工作模式，包括有监督训练模式、远程监督训练模式以及半监督关系抽取模式；

所述数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理，得到分句后的文本语料数据和模型训练数据，并将预处理后的模型训练数据发送到所述模型训练层进行训练，将分句后的文本语料数据发送到所述关系实例输出层；

所述模型训练层采用接收到的模型训练数据进行模型训练，得到最优训练模型；

所述关系实例输出层采用所述最优训练模型从分句后的文本语料数据中抽取实体关系三元组，作为系统的输出；

所述数据预处理层根据选择的工作模式按照模型需求对用户输入的数据进行预处理是指：在有监督训练模式下，将文本语料进行分句，将数据集分割为训练集、验证集和测试集三个部分，并将训练集、验证集和测试集分别处理为命名实体识别模型和关系分类任务模型的输入格式，作为有监督训练数据；在远程监督训练模式下，对文本语料分句，选择部分句子和知识库对齐用以生成含噪声的数据集，然后将含噪声的数据集处理成远程监督关系抽取模型需要的输入格式，作为远程监督训练数据；在半监督关系抽取模式下，对文本语料分句，并用NLP工具识别出其中的目标实体作为半监督训练数据；

所述模型训练层进行模型训练时，采用流水线方法构建有监督关系抽取模型，采用编码-解码架构构建远程监督关系抽取模型，采用生成对抗思想构建半监督关系抽取模型；

所述有监督关系抽取模型包括命名实体识别模型和关系分类任务模型；

所述命名实体识别模型包括6层第一Transformer结构和CRF层；各层所述第一Transformer结构均包括位置向量表示层、输入向量表示层、多头注意力网络层、第一残差连接和归一化层、前馈神经网络层和第二残差连接和归一化层；其中，位置向量表示层用于将每个位置编号，每个编号对应一个向量，向量是随机初始化的，在训练中更新；所述输入向量表示层用于下载Word2Vec词向量表，通过查表，每个词对应一个唯一的向量作为初始化的向量表示，在训练中也会更新；所述位置向量表示层和输入向量表示层的数据拼接后发送到所述多头注意力网络层和第一残差连接和归一化层；所述多头注意力网络层用于对输入的数据进行自注意力操作处理后发送到所述第一残差连接和归一化层；所述第一残差连接和归一化层根据接收到的数据进行处理，以缓解反向传播过程中的梯度消失问题，处理结果分别发送到所述前馈神经网络层和第二残差连接和归一化层；所述前馈神经网络层对接收到的数据进行处理后发送到所述第二残差连接和归一化层；所述第二残差连接和归一化层根据接收到的数据进行处理，处理结果发送到CRF层；所述CRF层对接收的数据进行序列标注，得到每个单词对应的标签；

所述关系分类任务模型包括6层第二Transformer结构、线性层和Softmax层，各层所述第二Transformer结构与所述第一Transformer结构相同，所述第二Transformer结构的输出经所述线性层进行线性变换后输入所述Softmax层分类；

所述远程监督关系抽取模型包括编码器部分和解码器部分；所述编码器部分包括句子包层、第三Transformer结构层、句子特征向量层以及编码器输出层；所述句子包层是指含有相同关系实例的句子构成的句子集合，用于降低远程监督数据集包含的噪声；所述第三Transformer结构层用于从所述句子包层中提取句子特征向量，并发送到所述句子特征向量层；所述句子特征向量层用于将各句子特征向量进行合并，得到句子包的句子特征向量；所述编码器输出层将所述句子特征向量发送到所述解码器部分；

所述解码器部分包括第四Transformer结构，所述第四Transformer结构在每一时刻的输入包括两部分，一是所述编码器部分的输出向量，另一个是上一时刻所述解码器部分的输出；

所述半监督关系抽取模型包括模板组件和分布式组件；所述模板组件用于从初始的种子实例中抽取模板，并用抽取到的模板去文本中挖掘新的实体对；所述分布式组件用于利用所述实体对训练分类器，并对各实体对进行打分，得到各实体对的置信度。

2.如权利要求1所述的一种基于Transformer结构的自动化关系抽取系统，其特征在于：所述用户输入层根据用户输入的数据类型选择相应的工作模式是指：当用户给定目标实体和关系类型、文本语料和手工标注的训练数据时，则系统工作在有监督训练模式上；当用户给定目标实体和关系类型、文本语料时，则系统工作在远程监督训练模式上；当用户给定目标实体和关系类型、文本语料和关系实例时，系统工作在半监督关系抽取模式上。