CN112084790B

CN112084790B - 一种基于预训练卷积神经网络的关系抽取方法及系统

Info

Publication number: CN112084790B
Application number: CN202011014318.7A
Authority: CN
Inventors: 曹卫东; 徐秀丽
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-07-05
Anticipated expiration: 2040-09-24
Also published as: CN112084790A

Abstract

本发明公开了一种基于预训练卷积神经网络的关系抽取方法及系统，属于数据处理技术领域，其特征在于，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息；具体为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系。本发明通过预训练和神经网络可以分别提取实体级和句子级的语义信息，在没有使用任何自然语言处理工具的情况下，提高了关系抽取的准确率。

Description

一种基于预训练卷积神经网络的关系抽取方法及系统

技术领域

本发明属于数据处理技术领域，特别是涉及一种基于预训练卷积神经网络的关系抽取方法及系统。

背景技术

实体关系抽取是一项从非结构化文本中提取信息的任务，其目的是对非结构化的文本中所蕴涵的实体语义关系进行挖掘处理，从而整理成三元组REL(e1，e2)存储在数据库中，为之后的智能信息检索和语义分析提供了一定的支持和帮助。关系抽取任务可以是一种特殊的分类任务。分类任务是指通过对文本做特征抽取，然后根据待预测的关系训练多分类模型,每种关系都是一个特定的类别。关系抽取任务可以更进一步的将关系抽取算法分为有监督关系抽取算法、boostrap关系抽取算法、无监督关系抽取以及远程监督关系抽取算法。

1、有监督关系抽取：采用有监督学习的思想，利用人工标注的语料来训练模型，学习句子的句法和语法语义特征，然后基于训练好的模型来做关系抽取。有监督的关系抽取往往准确率和召回率都是比较高的，但是其需要人工标注的训练数据，而标注的成本往往是比较高的。所以其很难扩展大新的领域，只能在一些小规模的垂直领域有很好的落地。

2、boostrap关系抽取就是基于boostraping的思想，首先利用少量的种子实例或模板来为每种关系标注少量的种子实体对，基于这些实体对在文本语料库中抽取相关的句子集合，基于这些句子抽取表达关系的模式，一次循环迭代，即“滚雪球”式的关系抽取。boostrap的方法可以较少模型对标注数据的依赖，但是这种方法也容易产生语义漂移的现象，同时抽取结果的准确率较低也是一个需要迫切解决的问题。

3、无监督关系抽取是指通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对，但是抽取结果很难映射到知识库中。

4、远程监督关系抽取。为了解决有监督关系抽取对人工标注预料的过于以来的问题，2009年Mintz提出了远程监督关系抽取的思想，如果一个实体对在知识库中国存在某种关系，那所有包含该实体对的句子都存在这种关系。基于这种假设就可以完成对文本的远程标注，然后再使用类似有监督学习的思想来训练学习。远程监督关系抽取降低了模型对人工标注语料的依赖，为大规模跨领域的关系抽取提供了实现的可能。自该思想被提出依赖，工业和学术界都在做持续深入的研究，并已取得了很不错的效果。

发明内容

技术问题

本发明要解决的技术问题是传统关系抽取方法准确率不高，依赖人工标注且未能充分利用句子和目标实体语义的问题，提供一种预训练卷积神经网络关系抽取方法。该方法在将文本输入到预训练模型(Bidirectional Encoder Representation fromTransformers,BERT)进行微调之前，首先在目标实体之前和之后插入特殊标记，以便识别两个目标实体的位置并传输信息进入BERT模型，从BERT模型中定位两个目标实体在输出嵌入中的位置。然后使用它们的嵌入以及句子编码(在BERT设置中嵌入的特殊字符[CLS]，[SEP])输入到CNN提取句子级别的语义信息，并将获得的标签向量，实体向量和句子向量通过全连接神经网络和Softmax分类器中进行关系抽取。它能够捕捉句子和两个目标实体的语义，以更好地适应关系抽取任务。

技术方案

本发明的第一目的是提供一种基于预训练卷积神经网络的关系抽取方法，基于预训练卷积神经网络的关系抽取方法体现在两个方面，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息。具体表现为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，以更好的识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系。包含下列步骤：

步骤一：数据预处理，对于标签序列s＝{x₁,x₂,……x_n}，x_i为句子的第i个词向量，n为模型设置的输入句子的最大长度，开头和结尾分别添加[CLS]，[SEP]标签和一些特殊的规范字符；输入处理模块将每个x_i编码成一个包含两个目标实体和特殊标签符号的向量e_i的公式为：

e_i＝E_token(x_i)+E_seg(x_i)+E_pos(x_i)

其中，E_token(x_i)表示词嵌入，E_seg(x_i)表示片段嵌入，E_pos(x_i)表示位置嵌入。

步骤二：将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练；

经过预训练BERT后最终输出的隐藏向量是H＝{H₀，H₁，H₂，…，Hn}，标签向量为H₀，向量H_i到H_j是实体e1的BERT的最终隐藏状态向量，而H_k到H_m是实体e2的BERT的最终隐藏状态向量。

步骤三：BERT预训练完成后，对实体向量取平均并激活，再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息；

1，标签语义获取

H'₀＝W₀(tanh(H₀))+b₀

其中：W₀是参数矩阵，且W₀∈R_d×d，d是BERT的隐藏状态大小。b₀是偏差向量。

2，实体语义获取

其中，W₁，W₂是参数矩阵，具有相同的维度，即W₁∈R_d×d，W₂∈R_d×d，d是BERT的隐藏状态大小。b₁，b₂是偏差向量，且W₁＝W₂，b₁＝b₂。

3，句子语义提取

对BERT层的输出矩阵H＝{H₀,H₁,H₂,…,Hn}进行卷积、降采样操作，然后通过拼接层，提取文本特征。假设卷积核长度为k，卷积核滑动的步长设为1，对文本矩阵进行上下滑动，则H可以分成{H_0:k,H_1:k+1,H_2:k+2,…,H_n-k+1:n},其中H_i:j表示向量H_i到H_j的所有向量的级联，对于每一个分量执行卷积操作后得到向量C＝{C₀,C₁,C₂,…,C_n-k+1},C_i是对分量H_i:i+k-1执行卷积操作后得到的值，称为一个局部特征映射，计算公式为：

C_i＝W₃ ^TH_i:i+k-1+b₃

其中，W₃是卷积核的参数，按照均匀分布随机初始化，并在模型训练过程中不断学习。b₃是偏差向量。

对卷积捕获的文本特征映射向量C进行最大池化操作：

对于q个卷积核：

卷积操作实质上完成了对文本特征中表示局部重要信息的捕获，池化操作则完成了局部重要特征的提取。经过全连接后CNN的输出向量为最终的向量C’。

步骤四：将提取的标签语义，句子语义和实体语义信息进行全连接；

h”＝W₄[concat(C',H'₀,H'₁,H'₂)]+b₄

其中，W₄∈R_L×4d，L是关系类型的个数，b₄是偏差向量。

步骤五：通过softmax分类器对实体关系进行抽取，输出两个目标实体的关系。

p＝softmax(h”)

p是概率输出。

本专利的第二发明目的是提供一种基于预训练卷积神经网络的关系抽取系统，基于预训练卷积神经网络的关系抽取方法体现在两个方面，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息。具体表现为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，以更好的识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系；包括：

数据预处理模块，对于标签序列s＝{x₁,x₂,……x_n}，x_i为句子的第i个词向量，n为模型设置的输入句子的最大长度，开头和结尾分别添加[CLS]，[SEP]标签和一些特殊的规范字符；输入处理模块将每个x_i编码成一个包含两个目标实体和特殊标签符号的向量e_i的公式为：

e_i＝E_token(x_i)+E_seg(x_i)+E_pos(x_i)

预训练模块：将处理好的数据输出到预训练模型(Bidirectional EncoderRepresentation from Transformers,BERT)模型中进行预训练；

信息处理模块：BERT预训练完成后，对实体向量取平均并激活，再分别使用卷积神经网络(Convolutional Neural Networks,CNN)和全连接神经网络提取句子和两个目标实体中的语义信息；

标签语义获取

H'₀＝W₀(tanh(H₀))+b₀

实体语义获取

句子语义提取

C_i＝W₃ ^TH_i:i+k-1+b₃

对卷积捕获的文本特征映射向量C进行最大池化操作：

对于q个卷积核：

连接模块：将提取的标签语义，句子语义和实体语义信息进行全连接；

h”＝W₄[concat(C',H'₀,H'₁,H'₂)]+b₄

其中，W₄∈R_L×4d，L是关系类型的个数，b₄是偏差向量。

输出模块：通过softmax分类器对实体关系进行抽取，输出两个目标实体的关系。

p＝softmax(h”)

p是概率输出。

本专利的第三发明目的是提供一种实现上述基于预训练卷积神经网络的关系抽取方法的计算机程序。

本专利的第四发明目的是提供一种实现上述基于预训练卷积神经网络的关系抽取方法的信息数据处理终端。

本专利的第五发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于预训练卷积神经网络的关系抽取方法。

本发明的优点及积极效果为：

通过采用上述技术方案，本发明具有如下的技术效果：

本发明的基于预训练卷积神经网络实体关系抽取方法采用SemEval 2010 Task 8数据，将实体级信息纳入预先训练的语言模型，并使用CNN提取句子级的信息，能够更好的捕捉句子和两个目标实体的语义，在不依赖任何自然语言处理工具的情况下更好地适应关系抽取任务。通过与现有方法相比，本文没有依赖任何自然语言处理工具，准确率和召回率都有了很大的提高，且缩短了训练时间。

附图说明

图1为本发明优选实例的实体关系抽取框架图；

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

本发明针对传统实体关系抽取方法准确率不高，依赖人工标注且未能充分利用句子和目标实体语义的问题，本发明将实体级信息融入预训练模型，并采用卷积神经网络提取句子级的语义信息，然后将目标实体信息向量，句子向量和标签向量连接，获得全局信息，建立了基于预训练卷积神经网络模型，最后引入softmax分类器抽取实体之间的关系。本发明通过预训练和神经网络可以分别提取实体级和句子级的语义信息，在没有使用任何自然语言处理工具的情况下，提高了关系抽取的准确率。

请参阅图1，具体方案为：

一种基于预训练卷积神经网络的关系抽取方法，基于预训练卷积神经网络的关系抽取方法体现在两个方面，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息。具体表现为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，以更好的识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系。包含下列步骤：

e_i＝E_token(x_i)+E_seg(x_i)+E_pos(x_i)

标签语义获取

H'₀＝W₀(tanh(H₀))+b₀

实体语义获取

句子语义提取

C_i＝W₃ ^TH_i:i+k-1+b₃

对卷积捕获的文本特征映射向量C进行最大池化操作：

对于q个卷积核：

h”＝W₄[concat(C',H'₀,H'₁,H'₂)]+b₄

其中，W₄∈R_L×4d，L是关系类型的个数，b₄是偏差向量。

p＝softmax(h”)

p是概率输出。

一种基于预训练卷积神经网络的关系抽取系统，基于预训练卷积神经网络的关系抽取方法体现在两个方面，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息。具体表现为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，以更好的识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系；包括：

e_i＝E_token(x_i)+E_seg(x_i)+E_pos(x_i)

标签语义获取

H'₀＝W₀(tanh(H₀))+b₀

实体语义获取

句子语义提取

C_i＝W₃ ^TH_i:i+k-1+b₃

对卷积捕获的文本特征映射向量C进行最大池化操作：

对于q个卷积核：

h”＝W₄[concat(C',H'₀,H'₁,H'₂)]+b₄

其中，W₄∈R_L×4d，L是关系类型的个数，b₄是偏差向量。

p＝softmax(h”)

p是概率输出。

一种实现上述基于预训练卷积神经网络的关系抽取方法的计算机程序。

一种实现上述基于预训练卷积神经网络的关系抽取方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于预训练卷积神经网络的关系抽取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于预训练卷积神经网络的关系抽取方法，其特征在于，一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息；具体为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系；

所述关系抽取方法包括如下步骤：

e_i＝E_token(x_i)+E_seg(x_i)+E_pos(x_i)

其中，E_token(x_i)表示词嵌入，E_seg(x_i)表示片段嵌入，E_pos(x_i)表示位置嵌入；

步骤二：将处理好的数据输出到预训练模型中进行预训练；

经过预训练BERT后最终输出的隐藏向量是H＝{H₀，H₁，H₂，…，H_n}，标签向量为H₀，向量H_i到H_j是实体e1的BERT的最终隐藏状态向量，而H_k到H_m是实体e2的BERT的最终隐藏状态向量；

步骤三：BERT预训练完成后，对实体向量取平均并激活，再分别使用卷积神经网络和全连接神经网络提取句子和两个目标实体中的语义信息；

标签语义获取：

H′₀＝W₀(tanh(H₀))+b₀

其中：W₀是参数矩阵，且W₀∈R_d×d，d是BERT的隐藏状态大小，b₀是偏差向量；

实体语义获取：

其中，W₁，W₂是参数矩阵，具有相同的维度，即W₁∈R_d×d，W₂∈R_d×d，d是BERT的隐藏状态大小，b₁，b₂是偏差向量，且W₁＝W₂，b₁＝b₂；

句子语义提取：

对BERT层的输出矩阵H＝{H₀,H₁,H₂,…,H_n}进行卷积、降采样操作，然后通过拼接层，提取文本特征；当卷积核长度为k，卷积核滑动的步长设为1时，对文本矩阵进行上下滑动，则H分成{H_0:k,H_1:k+1,H_2:k+2,…,H_n-k+1:n}，其中H_i:j表示向量H_i到H_j的所有向量的级联，对于每一个分量执行卷积操作后得到向量C＝{C₀,C₁,C₂,…,C_n-k+1}，C_i是对分量H_i:i+k-1执行卷积操作后得到的值，称为一个局部特征映射，计算公式为：

C_i＝W₃ ^TH_i:i+k-1+b₃

其中，W₃是卷积核的参数，按照均匀分布随机初始化，并在模型训练过程中不断学习；b₃是偏差向量；

对卷积捕获的文本特征映射向量C进行最大池化操作：

对于q个卷积核：

经过全连接后卷积神经网络的输出向量为最终的向量C’；

h”＝W₄[concat(C′,H′₀,H′₁,H′₂)]+b₄

其中，W₄∈R_L×4d，L是关系类型的个数，b₄是偏差向量；

步骤五：通过softmax分类器对实体关系进行抽取，输出两个目标实体的关系；

p＝softmax(h”)

p是概率输出。

2.一种基于预训练卷积神经网络的关系抽取系统，其特征在于：一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息；具体为：先对数据集进行处理，在文本句子的开头、结尾以及实体前后加入特殊标签，识别出一个句子和两个目标实体，然后将处理好的数据输入预训练模型、卷积神经网络模型，提取目标实体和句子的语义，将获取的句子语义、实体语义、标签语义连接，通过softmax分类器获取目标实体之间的关系；所述关系抽取系统包括：