CN111767409A

CN111767409A - 一种基于多头自注意力机制的实体关系抽取方法

Info

Publication number: CN111767409A
Application number: CN202010539229.8A
Authority: CN
Inventors: 刘杰; 陈少维; 王炳荃; 张嘉鑫; 李娜
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-06-14
Filing date: 2020-06-14
Publication date: 2020-10-13
Anticipated expiration: 2040-06-14
Also published as: CN111767409B

Abstract

一种基于多头自注意力机制的实体关系抽取方法，涉及计算机应用技术。本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取，将关系检测转化为一个多标签分类问题，并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联，通过将不同的关系类别转化为多头注意力机制中不同的特征子空间，本发明可以独立学习不同关系类别下词之间的语义交互，并独立建模不同关系类别下词之间的关联程度，进而可以灵活地识别重叠的关系三元组。

Description

一种基于多头自注意力机制的实体关系抽取方法

技术领域

本发明涉及计算机应用技术。

背景技术

随着信息技术的发展，互联网中积累了大量的文本数据，例如新闻文本数据、社交文本数据等。这些数据背后通常蕴含着大量的知识，基于这些知识构建的大型知识图谱被广泛应用于搜索引擎、问答系统等自然语言处理任务中。为了自动化地从海量文本数据中构建知识图谱，实体关系抽取逐渐成为一个热门的研究任务。实体关系抽取任务旨在识别文本中存在的(实体，关系类型，实体)三元组，而文本中存在的三元组又可以分为三类，即普通三元组、单实体重叠三元组、以及实体对重叠三元组。其中，单实体重叠三元组是指两个关系三元组共享同一个实体；实体对重叠三元组是指两个实体间存在多重关系。

传统的实体关系抽取方法[1-7]通常构建管道式的模型，这类模型将实体关系抽取任务拆解为实体抽取和关系分类两个相互独立的子任务，首先识别句子中存在的实体集合，随后预测任意两个实体之间存在的关系。虽然这类方法可以灵活地对实体抽取和关系分类进行独立优化，但是存在错误传递问题。

为了有效地考虑实体抽取和关系分类两个子任务之间的交互关系，许多研究工作[8-11]构建了统一的框架进行实体和关系的联合抽取。但是这些方法通常假定一个实体仅属于一个关系三元组，因此无法准确抽取上述的两类重叠关系三元组。

近年来，最新的研究工作主要关注于如何有效预测重叠的关系三元组。例如，Fu等人[12]提出一个基于图卷积神经网络(Graph Convolutional Network，GCN)的两阶段联合模型，通过在第二阶段构建关系加权GCN可以有效学习关系三元组之间的交互关系。Takanobu等人[13]提出了一个层次强化学习框架，该框架设计了一个低层策略进行实体抽取，并构建了一个高层策略进行关系检测。 Dai等人[14]设计了一种新的标注规则，并提出了一个位置感知的注意力机制来识别重叠的关系三元组。此外，序列到序列模型[15-18]也被广泛用于识别重叠的关系三元组，但是这类方法通常存在难以预测完整的实体边界、实体边界识别准确率较低等问题。

为了提升重叠关系三元组的识别效果，现有的研究工作通常采用图神经网络、强化学习、序列到序列模型等技术。虽然现有工作取得了突出的研究成果，但是它们均将关系分类转化为普通的多分类问题，并构建一个简单的分类器来预测任意两个实体之间可能存在的关系类别。这类做法存在以下两个问题：

第一，无法学习不同关系类别下实体之间不同的交互特征。例如，若在给定文本中，实体对(柬埔寨，金边)存在“包含”和“首都”两类关系，那么在预测“包含”关系时，应考虑地理位置上的语义，而当预测“首都”关系时，则应考虑行政功能上的语义。

第二，无法独立计算不同关系类别下实体之间的关联程度。例如，当两个实体之间存在三种关系时，两个实体在三个关系类别下都应具有较高的关联强度。但是如果简单地采用一个分类器来进行关系预测，则会导致三个关系类别之间发生互斥，进而使得三个关系对应的概率分别仅为0.3左右。

以上两个问题在一定程度上限制了现有模型的性能。

发明内容

本发明目的是解决现有实体关系抽取工作中存在的重叠关系三元组识别问题，并提供一种基于多头自注意力机制的实体关系抽取方法。

为了有效解决上述问题，本发明提供一种基于多头自注意力机制的实体关系抽取方法。为了同步识别文本中的实体集合以及实体之间的关系，本发明构建了一个实体抽取模块和一个关系检测模块。在实体抽取模块，本发明采用条件随机场(CRF)来识别实体的边界。在关系检测模块，为了灵活识别重叠的关系三元组，本发明将关系检测转化为一个多标签分类问题，并提出词级别有监督的多头自注意力机制来检测文本中词之间的语义关联。特别地，在关系检测模块，为了独立建模不同关系类型下的交互特征与关联程度，本发明将不同的关系类别映射到多头自注意力机制中不同的特征子空间，并学习不同特征子空间下词之间的语义关联。基于两个模块的识别结果，本发明提出一个推理层来得到最终的关系三元组集合。

一种基于多头自注意力机制的实体关系抽取方法，包括以下步骤：

步骤1)编码层：基于双向长短期记忆网络学习文本中词的上下文语义表示；

步骤2)实体抽取模块：基于步骤1)编码的词的上下文语义表示，利用条件随机场识别文本中的实体边界；

步骤3)关系检测模块：基于步骤1)编码的词的上下文语义表示，利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系；

步骤4)联合学习：构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化；

步骤5)推理层：对步骤2)和步骤3)的识别结果进行整合，得到最终预测的意见三元组。

本发明的有益效果是：

1、实体关系联合抽取：本发明主要包含一个实体抽取模块和一个关系检测模块，通过共享相同的编码层以及联合学习的方式可以实现两个模块的联合学习，进而有效避免传统方法中存在的错误传递问题。2、重叠关系三元组的识别：考虑到两个实体之间可能存在多重关系，本发明将关系检测转化为一个多标签分类任务，并提出一个词级别有监督的多头自注意力机制。通过将不同的关系类别转化为多头注意力机制中不同的特征子空间，本发明可以独立学习不同关系类别下词之间的语义交互，并独立建模不同关系类别下词之间的关联程度，进而可以灵活地识别重叠的关系三元组。

附图说明

附图1是本发明的整体系统结构示意图。

附图2是基于多头注意力机制的实体关系抽取方法的示意图。

具体实施方式

下面结合附图和具体实施对本发明提供的基于多头自注意力机制的实体关系抽取方法进行详细说明。

本发明主要采用深度学习技术以及自然语言处理相关的理论方法对文本进行实体关系抽取，为了保证系统的正常运行，在具体实施中，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz、 GPU环境、Linux操作系统，并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。

如图1所示，本发明提供的基于多头自注意力机制的实体关系组抽取方法包括按顺序执行的下列步骤：

步骤1)编码层：基于双向长短期记忆网络学习文本中词的上下文语义表示。

步骤1.1)采用Stanford NLP工具包对输入文本进行分词处理，得到对应的词序列。

步骤1.2)对词序列中的每个词，构建词嵌入表示和字符级特征表示，并将两者进行拼接得到每个词的初始特征表示。

步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层，输入步骤1.2) 得到的词初始特征表示，输出每个词的上下文语义表示。

步骤2)实体抽取模块：基于步骤1)编码的词的上下文语义表示，利用条件随机场识别文本中的实体边界。

步骤2.1)采用全连接层对步骤1)编码的上下文语义表示进行变换，得到实体抽取模块的输入特征表示序列。

步骤2.2)将实体抽取任务转化为序列标注任务，并基于步骤2.1)得到的输入特征表示序列，采用条件随机场(CRF)进行实体边界的识别。

步骤3)关系检测模块：基于步骤1)编码的词的上下文语义表示，利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。

步骤3.1)采用全连接层对步骤1)编码的上下文语义表示进行变换，得到关系检测模块的输入特征表示序列。

步骤3.2)将关系检测任务转化为多标签分类任务，并基于步骤3.1)得到的输入特征表示序列，采用词级别有监督的多头自注意力机制进行词级别的关系检测。

步骤4)联合学习：构建联合损失函数对步骤1)、步骤2)和步骤3)中的参数进行联合优化。

步骤5.1)基于步骤2)预测的标签序列，抽取文本中存在的实体集合。

步骤5.2)基于步骤5.1)得到的实体集合和步骤3)预测的词级别自注意力权重矩阵，抽取关系三元组。

参见附图2，本发明详细步骤如下：

步骤1.1)采用StanfordNLP工具包对输入文本进行分词处理，得到对应的词序列X＝{x₁,x₂,…,x_N}。

例如，给定文本“北京是中国的首都。”，经过分词处理，可以得到词序列X＝ {"北京","是","中国","的","首都","。"}。

步骤1.2)对词序列中的每个词x_i，构建其对应的词嵌入表示

和字符级特征表示

这里，字符级的特征表示是由一个BLSTM结构得到， d_w和d_c分别表示词嵌入表示维度和字符级特征表示维度。通过将上述两个表示进行拼接，可以得到每个词的初始特征表示e_i。

例如，对于词序列中的第一个词“北京”，其对应的词嵌入表示可为

其对应的字符级特征表示可为

通过拼接，可以得到其初始特征表示e₁＝[0.44,0.82,…,0.78,0.55,0.68,…,-0.89]。

步骤1.3)使用双向长短期记忆网络(BLSTM)作为编码层，输入步骤1.2) 得到的词初始特征表示序列

E＝{e₁,e₂,…,e_N}，输出每个词的上下文语义表示序列H＝{h₁,h₂,…,h_N}。具体的计算过程如下：

其中，LSTM^f和LSTM^b分别表示前向和后向的LSTM结构。

例如，对于词序列中的第一个词“北京”，其经过BLSTM编码后的语义表示可为h₁＝[0.99,0.14,…,0.57]。

步骤2.1)采用全连接层对步骤1)编码的上下文语义表示序列H＝ {h₁,h₂,…,h_N}进行全连接层变换，得到实体抽取模块的输入特征表示序列U＝ {u₁,u₂,…,u_N}：

U＝HW_u+b_u

其中，

和

为模型参数，d_h为上下文语义表示的维度，d_u为实体抽取模块输入特征表示的维度。

例如，对于词序列中的第一个词“北京”，其实体抽取模块输入特征表示可为u₁＝[0.02,0.56,…,0.12]。

步骤2.2)将实体抽取任务转化为序列标注任务，并基于步骤2.1)得到的输入特征表示序列U＝{u₁,u₂,…,u_N}，采用条件随机场(CRF)进行实体边界的识别。

具体地，CRF主要包含一个状态特征矩阵

和一个转移特征矩阵

这里，状态特征矩阵主要用于建模词与标签之间的映射关系，而转移特征矩阵主要建模相邻标签之间的转移关系。此外，K表示标签空间的维度，本发明采用BIO的标注规则，由此标签空间的维度是3。对于任意一个可能的标签序列

其对应的分值可通过如下公式进行计算：

P＝UW_p+b_p

其中，

和

为模型参数。随后，标签序列对应的概率可由如下公式进行计算：

例如，标签序列

对应的概率为0.9。

在模型训练过程中，本发明最大化标准标签序列对应的概率P(Y|X)。因此，本发明采用最小化如下负对数似然函数的方式对参数进行优化：

在测试过程中，本发明采用维特比算法搜索最优的标签序列。

步骤3)关系检测模块：基于步骤1)编码的词的上下文语义表示序列，利用词级别有监督的多头自注意力机制检测文本中任意两个词之间存在的关系。

步骤3.1)采用全连接层对步骤1)编码的上下文语义表示序列H＝ {h₁,h₂,…,h_N}进行全连接层变换，得到关系检测模块的输入特征表示序列A＝ {a₁,a₂,…,a_N}：

A＝HW_a+b_a

其中，

和

为模型参数，d_a为关系检测模块输入特征表示的维度。

例如，对于词序列中的第一个词“北京”，其关系检测模块输入特征表示可为a₁＝[0.8,0.1,…,0.98]。

步骤3.2)将关系检测任务转化为多标签分类任务，并基于步骤3.1)得到的输入特征表示序列A＝{a₁,a₂,…,a_N}，采用词级别有监督的多头自注意力机制进行词级别的关系检测。

具体地，为了独立建模词在不同关系类别下的交互信息和关联强度，本步骤首先将不同的关系类别映射到多头自注意力机制的不同的特征子空间：

其中，

和

为模型参数，d_r为每个特征子空间的维度。

和

为第m个特征子空间(即第m个关系类别)的查询(query)和关键词(key)。

随后，可计算每个特征子空间下的注意力权重矩阵

其中，矩阵中每个元素

表示在第m个关系类别下第i个词和第j个词之间的关联强度。

例如，文本中第一个词“北京”和第三个词“中国”在“首都”的关系类别下的关联程度为0.8。

为了指导本步骤进行关系检测，本发明进一步引入了监督信息，并最大化标准关系对应的似然概率：

其中，

表示第i个词和第j个词之间具有第m种关系，

则表示两个词之间不存在第m种关系。为了有效识别重叠的关系三元组，本发明将关系检测当作多标签分类问题，并在模型训练过程中采用二元交叉熵损失优化模型参数：

其中，

为标准的关系分布，

为模型预测的关系分布。

为了对步骤1)、步骤2)和步骤3)中的参数进行联合学习，本发明将步骤 2)和步骤3)中介绍的两个损失函数进行加和作为最终的损失，并采用RMSprop 优化器对参数进行优化：

步骤5.1)基于步骤2)预测的标签序列

可得到文本中存在的实体集合ε＝{e₁,e₂,…,e_N}。

例如，基于步骤2)预测的标签序列

可得到文本中包含的实体集合ε＝{"北京","中国"}。

步骤5.2)基于步骤5.1)得到的实体集合ε和步骤3)预测的词级别注意力权重矩阵G，抽取关系三元组。

本发明遍历实体集合ε中所有可能的实体对，并根据注意力权重矩阵G判断实体对是否存在关系以及存在何种关系。例如，给定实体集合中的第i个实体

和第j个实体

两个实体在第m种关系类别下的关联强度δ可计算如下：

其中，p_i、q_i、p_j和q_j分别表示两个实体在文本中的起止位置。当关联强度δ高于给定的阈值

时，可得到关系三元组<e_i,r_m,e_j>。这里，r_m表示第m种关系。

例如，经过计算，实体“北京”和实体“中国”在“首都”的关系类别下的关联程度为0.8。本发明设置阈值

因此可以得到关系三元组 <"北京","首都","中国">。

参考文献：

[1]Dmitry Zelenko,Chinatsu Aone,and Anthony Richardella.Kernelmethods for relation extraction.J.Mach.Learn.Res.,3:1083–1106,2003.

[2]Makoto Miwa,Rune

Yusuke Miyao,and Jun’ichi Tsujii.A richfeature vector for protein-protein interaction extraction from multiplecorpora.In EMNLP 2009,pages 121–130,2009.

[3]Mike Mintz,Steven Bills,Rion Snow,and Daniel Jurafsky.Distantsupervision for relation extraction without labeled data.In ACL 2009,Singapore, pages 1003–1011,2009.

[4]Yee Seng Chan and Dan Roth.Exploiting syntactico-semanticstructures for relation extraction.In ACL 2011,Portland,Oregon,USA,pages 551–560,2011.

[5]Raphael Hoffmann,Congle Zhang,Xiao Ling,Luke S.Zettlemoyer,andDaniel S.Weld.Knowledge-based weak supervision for information extraction ofoverlapping relations.In ACL 2011,Portland,Oregon,USA,pages 541–550,2011.

[6]Daojian Zeng,Kang Liu,YuboChen,and Jun Zhao.Distant supervisionfor relation extraction via piecewise convolutional neuralnetworks.EMNLP2015, Lisbon,Portugal,September 17-21,2015,pages 1753–1762,2015.

[7]Yatian Shen and Xuanjing Huang.Attention-based convolutionalneural network for semantic relation extraction.In COLING 2016,December 11-16,2016, Osaka,Japan,pages 2526–2536,2016.

[8]Makoto Miwa and Mohit Bansal.End-to-end relation extraction usinglstms on sequences and tree structures.In ACL 2016,2016.

[9]Meishan Zhang,Yue Zhang,and Guohong Fu.End-to-end neural relationextraction with global optimization.In EMNLP 2017,pages 1730–1740,2017.

[10]Suncong Zheng,Feng Wang,Hongyun Bao,Yuexing Hao,Peng Zhou,and BoXu.Joint extraction of entities and relations based on a novel taggingscheme.In ACL 2017,pages 1227–1236,2017.

[11]Changzhi Sun,Yeyun Gong,Yuanbin Wu,Ming Gong,Daxin Jiang,Man Lan,Shiliang Sun,and Nan Duan.Joint type inference on entities and relations viagraph convolutional networks.In ACL 2019,pages 1361–1370,2019.

[12]Tsu-Jui Fu,Peng-Hsuan Li,and Wei-Yun Ma.Graphrel:Modeling text asrelational graphs for joint entity and relation extraction.In ACL 2019,pages1409–1418,2019.

[13]Ryuichi Takanobu,Tianyang Zhang,Jiexi Liu,and Minlie Huang.Ahierarchical framework for relation extraction with reinforcement learning.InAAAI 2019,pages 7072–7079,2019.

[14]Dai Dai,Xinyan Xiao,Yajuan Lyu,Shan Dou,Qiaoqiao She,and HaifengWang.Joint extraction of entities and overlapping relations using position-attentive sequence labeling.In AAAI 2019,pages 6300–6308,2019.

[15]Xiangrong Zeng,Daojian Zeng,Shizhu He,Kang Liu,and Jun Zhao.Extracting relational facts by an end-to-end neural model with copymechanism.In ACL 2018,pages 506–514,2018.

[16]Daojian Zeng,Haoran Zhang,and Qianying Liu.Copymtl:Copy mechanismfor joint extraction of entities and relations with multi-task learning.CoRR,abs/1911.10438,2019.

[17]Xiangrong Zeng,Shizhu He,Daojian Zeng,Kang Liu,Shengping Liu,andJun Zhao.Learning the extraction order of multiple relational facts in asentence with reinforcement learning.In EMNLP 2019,pages 367–377,2019.

[18]Tapas Nayak and Hwee Tou Ng.Effective modeling of encoder-decoderarchitecture for joint entity and relation extraction.CoRR,abs/1911.09886,2019. 。