CN113535973A

CN113535973A - 基于知识映射的事件关系抽取、语篇关系分析方法及装置

Info

Publication number: CN113535973A
Application number: CN202110632197.0A
Authority: CN
Inventors: 孙乐; 唐家龙; 廖梦; 陆垚杰; 韩先培; 谢炜坚; 徐进; 林鸿宇
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Software of CAS
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Software of CAS
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-22
Anticipated expiration: 2041-06-07
Also published as: CN113535973B

Abstract

本发明公开一种基于知识映射的事件关系抽取、语篇关系分析方法及装置，包括基于语言模型，挖掘事件文本中存在相似的词法与句法结构，得到特殊字词[CLS]的嵌入表示h_[CLS]；基于变分自编码的语义表示编码器，获取事件文本中可类推的语义关系表示h_z；根据嵌入表示h_[CLS]与语义关系表示h_z进行粗粒度关系分类，并获得粗粒度类别嵌入表示

利用嵌入表示h_[CLS]、语义关系表示h_z及粗粒度类别嵌入表示

对事件文本中事件对的关系类别进行分类，得到事件关系抽取结果。本发明降低训练事件关系抽取数据要求，发现大量有价值的隐式事件关系，提升事件抽取及语篇分析的准确率，丰富了大量有价值的隐式事件关系后的事件知识图谱，能够更有效地提升下游自然语言理解任务性能。

Description

基于知识映射的事件关系抽取、语篇关系分析方法及装置

技术领域

本发明涉及一种事件关系抽取方法，特别是涉及一种基于知识映射的事件关系抽取、语篇关系分析方法及装置，属于自然语言处理技术领域。

背景技术

以事件为核心的知识图谱结构化地存储事件以及事件之间的关系，是机器智能理解的关键技术，并广泛应用在诸如自动问答，阅读理解，常识知识获取等下游任务中。

近年来，半自动构建的以事件为核心的知识图谱受到了研究人员的广泛关注。这类方法能够在少量或者没有人为干预的情况下从海量的自然语言文本中构建出大规模的事件知识图谱。通常，知识图谱中的每一个节点表示一个结构化的事件，每一条连边表示一个事件对存在的关系，并且事件关系的抽取十分依赖显式的连接词。例如，如图1所示，事件E²：“PER orders two hamburgers”与事件E³：“PER is so hungry”之间由于存在连接词“because”才能抽取出事件关系Reason。

然而，基于连接词的事件关系抽取方法面临着覆盖率过低的问题。大量有价值的事件关系因为没有显式的连接词而没有被抽取。本发明将其称为“隐式事件关系”。如图1所示，事件E¹：“PER goes to the restaurant”与事件E³：“PER is so hungry”之间的隐式事件关系Reason由于缺少显式连接词而被遗漏。同时，由于高质量的事件关系抽取数据的缺少，很难利用监督学习从零开始训练一个有效的事件关系分类器。

发明内容

为解决上述问题，本发明公开了一种基于知识映射的事件关系抽取、语篇关系分析方法及装置，利用字词表示级别的知识映射模块、语义表示级别的知识映射模块及粗粒度分类级别的知识映射模块，发现大量有价值的隐式事件关系，有效地提升下游自然语言理解任务性能。

为达到上述目的，本发明采用具体技术方案是：

一种基于知识映射的事件关系抽取方法，其步骤包括：

1)基于语言模型，挖掘事件文本中存在相似的词法与句法结构，得到特殊字词[CLS]的嵌入表示h_[CLS]；

2)基于变分自编码的语义表示编码器，获取事件文本中可类推的语义关系表示h_z；

3)根据嵌入表示h_[CLS]与语义关系表示h_z进行粗粒度关系分类，并获得粗粒度类别嵌入表示

4)利用嵌入表示h_[CLS]、语义关系表示h_z及粗粒度类别嵌入表示

对事件文本中事件对的关系类别进行分类，得到事件关系抽取结果。

进一步地，所述语言模型包括：BERT模型。

进一步地，通过以下步骤得到事件对中特殊字词[CLS]的嵌入表示h_[CLS]：

1)对于文本中的事件关系对<E¹，E²>，序列化地表示为

其中特殊字词[CLS]是事件关系对的开始标记，特殊字词[SEP]是事件关系对中每一个事件的结束标记，e是事件关系对中出现的自然语言字符；

2)对序列中的每一自然语言字符e，将获取的词向量、分割向量及位置向量拼接在一起，得到各字词的初始字词表示向量；

3)利用各字词的初始字词表示向量，获取序列表示向量；

4)将序列表示向量输入语言模型，得到特殊字词[CLS]的嵌入表示h_[CLS]。

进一步地，通过以下步骤获取事件文本中可类推的语义关系表示h_z：

1)通过独立的关系嵌入表示网络获得输出端的关系嵌入表示h_Y；

2)通过一个非线性的变换层，将嵌入表示h_[CLS]与关系嵌入表示h_Y映射到一个公共的语义表示空间，得到在同一空间的语义表示h′_z＝tanh(W_z[h_[CLS]；h_Y]+b_z)，其中W为可学习的参数矩阵，b为可学习的偏置项；

3)通过线性回归方法，分别得到第一高斯语义表示参数μ＝W_μh′_z+b_μ与第二高斯语义表示参数log(σ²)＝W_σh′_z+b_σ；

4)通过重参数的方法，获得最终的语义关系表示h_z＝μ+σ⊙∈，其中∈是服从标准高斯分布

的噪声。

进一步地，粗粒度关系分类的标准包括：时序关系、应变关系、比较关系和阐述关系。

进一步地，通过以下步骤得到粗粒度类别嵌入表示

1)获取粗粒度分类结果Y^c；

2)将粗粒度分类结果Y^c输入粗粒度关系嵌入网络，获得粗粒度类别嵌入表示

其中粗粒度关系嵌入网络接受一个具体的关系，通过一个映射矩阵得到该关系对应的稠密向量表示。

进一步地，利用一分类器，对事件文本中事件对的关系类别进行分类，其中训练分类器的目标函数L(θ)＝α(L(θ；Y)+λKL(P||Q))+(1-α(L(θ；Y^c))，λ与α分别是两个超参数，Y^c为粗粒度关系分类，KL(P||Q)是语义表示编码器中的KL距离，

L(θ；Y^c)＝logp(Y^c|h_[CLS]，h_z)，p为先验模型。

一种基于知识映射的语篇关系分析方法，其步骤包括：

1)基于语言模型，挖掘语篇文本中存在相似的词法与句法结构，得到特殊字词[CLS]的嵌入表示h_[CLS]；

2)基于变分自编码的语义表示编码器，获取语篇文本中可类推的语义关系表示h_z；

对语篇文本中事件对的关系类别进行分类，得到语篇关系分析结果。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果：

1)通过多层级从语篇到事件的知识映射，能够大幅度降低训练事件关系抽取数据要求，发现大量有价值的隐式事件关系，相较于从零开始训练的模型以及简单的迁移学习等框架有稳定的准确率提升；

2)丰富了大量有价值的隐式事件关系后的事件知识图谱，能够更有效地提升下游自然语言理解任务性能。

附图说明

图1为从语篇到事件的知识映射范式方法示意图。

图2为变分语义编码器有向图结构。

图3为模型概览图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为了克服基于连接词的事件关系抽取方法低覆盖率的不足以及利用监督学习从零开始训练一个事件关系分类器遇到的高质量人工标注数据瓶颈，本发明提供了一种基于知识映射的事件关系抽取方法。其主要利用语篇和事件之间存在的多层级人类语言学关联，内容包括：(一)字词表示级别的知识映射模块；(二)语义表示级别的知识映射模块；(三)粗粒度分类级别的知识映射模块。字词表示级别的知识映射模块充分挖掘了语篇文本和事件文本存在相似的词法和句法结构。语义表示级别的知识映射模块充分建模了语篇语义和事件语义蕴含可类推的语义关系。粗粒度分类级别的知识映射模块充分利用了语篇关系和事件关系共享相同的粗粒度分类标准。通过上述多层级从语篇到事件的知识映射范式，本发明能够大幅度降低训练事件关系抽取数据要求，发现大量有价值的隐式事件关系，相较于从零开始训练的模型以及简单的迁移学习等框架有稳定的准确率提升，并更有效地提升下游自然语言理解任务性能。

本发明所采用的技术方案概述如下：

一种基于知识映射的事件关系抽取方法，其关键步骤包括：

关键技术

1)字词表示级别的知识映射模块，通过共享基于预训练模型的字词表示编码器，充分挖掘了语篇文本和事件文本存在相似的词法和句法结构，为事件关系抽取提供更具有泛化性的字词表示信息；

2))语义表示级别的知识映射模块，通过共享基于变分语义表示编码器，充分建模了语篇语义和事件语义蕴含可类推的语义关系，为事件关系抽取提供更精确的语义表示信息；

3)粗粒度分类级别的知识映射模块，通过共享基于粗粒度类别解码器，充分利用了语篇关系和事件关系共享相同的粗粒度分类标准，为事件关系抽取提供更可信的粗粒度类别表示信息；

4)基于上述三个不同层级的知识映射模块，获得更具有泛化性的字词表示信息，更精确的语义表示信息和更可信的粗粒度类别表示信息，使用事件关系类别分类器对事件对关系类别分类，从而大幅度降低训练事件关系抽取数据要求。

本发明涉及以下所述的关键要素：

一)核心技术

1.字词表示级别的知识映射模块

最近相关工作展示出相似的自然语言任务文本具有相似的词法和句法结构因此应当具有相似的字词表示。因此，字词表示级别的知识映射模块共享语篇分析以及事件关系抽取的基于预训练模型的字词表示编码器参数。通过多任务学习的框架，字词表示编码器在接收更多的监督信号的条件下能够更加有效地编码出具有泛化性的字词表示信息。

具体地，给定一个事件关系对<E¹,E²>，本发明首先将其序列化地表示为：

其中，[CLS]以及[SEP]是两个特别的字符分别是整个事件关系对的开始标记和事件关系对中每一个事件的结束标记，e则是事件关系对中出现的自然语言字符。对序列中的每个字词，本发明将其对应的词向量，分割向量以及位置向量拼接在一起作为最终初始的字词表示向量。然后，将整个事件对序列输入基于预训练语言模型BERT的字词表示编码器，通过多层编码器Transformer的更新。最终，本发明获取字词表示编码器的顶层特殊字符[CLS]对应的隐藏层向量表示作为整个事件对的字词级别表示：

相似地，针对语篇分析输入，本发明通过相同的方法获得整个语篇分析对的字词级别表示

如图3所示，通过映射字词级别的语篇知识到事件，本发明共享相同的基于预训练语言模型BERT的字词表示编码器。在优化阶段，字词表示编码器参数能够同时受益于事件关系抽取数据和语篇关系分析数据带来的监督信号。

2.语义表示级别的知识映射模块

由于事件关系和语篇关系分析都需要准确地表示输入对地深层次语义表示，浅层地字词级别表示还远远不能满足该要求。基于预训练模型BERT的字词级别表示往往有各向异性的缺点，无法建模连续地语义空间。

为了解决这个缺陷，本发明引入了基于变分自编码的语义表示编码器。变分语义表示编码器将各项异性的字词级别表示投影到连续光滑的高斯分布空间。并且，本发明通过共享事件关系和语篇关系任务的语义表示编码器参数，以充分建模语篇语义和事件语义蕴含可类推的语义关系。

具体地，如图2所示，变分语义编码器是由生成模型P以及变分模型Q组成的有向图，并通过自编码器训练方法进行参数训练。本发明假设语义表示h_z服从高斯分布

其中μ和σ²分别是高斯分布的均值和方差。基于该假设，原本事件关系/语篇关系的条件概率能够表达为：

后验近似为q(h_z|h_[CLS]，h_Y)，其中h_[CLS]根据不同的任务(事件关系抽取或者语篇关系分析)可以是

或者

为特殊字词[CLS]对应的嵌入表示，h_Y可以是

或者

为关系的嵌入表示。具体地，本发明首先通过共享的基于预训练语言模型BERT获得输入端的嵌入表示h_[CLS(同步骤一)和通过独立的关系嵌入表示网络获得输出端的关系嵌入表示h_Y。其次，本发明再通过一个非线性的变换层将上述字词级别表示与关系嵌入表示映射到一个公共的语义表示空间以获得在同一空间的语义表示h′_z：

h′_z＝tanh(W_z[h_[CLS]；h_Y]+b_z)

再通过线性回归方法获得第一高斯语义表示参数μ和第二高斯语义表示参数log(σ²):

μ＝W_μh′_z+b_μ，log(σ²)＝W_σh′_z+b_σ

其中，W和b分别是可学习的参数矩阵和偏置项。最后，本发明通过重参数的技巧获得最终的语义表示：

h_z＝μ+σ⊙∈

其中，∈是服从标准高斯分布

的噪声，h_z据不同的任务(事件关系抽取或者语篇关系分析)可以是

或者

先验模型p(h_z|h_[CLS])和后验近似q(h_z|h_[CLS]，h_Y)拥有相同的神经网络结构，除了h_Y的缺少。并且这两个模型参数是独立于彼此的。

在测试阶段，由于无法直接获得h_Y，本发明直接平均先验模型p(h_z|h_[CLS])以获得语义表示h_z。在训练阶段，本发明通过最小化生成模型P与变分模型Q之间的Kullback-Leibler距离KL(P||Q)来拉近这两个模型之间的表示距离：

KL(q(h_z|h_[CLS]，h_Y)||p(h_z|h_[CLS]))

如图3所示，通过映射语义级别的语篇知识到事件，本发明共享相同的基于变分自编码器的语义表示编码器。在优化阶段，变分语义编码器能够同时受益于事件关系抽取数据和语篇关系分析数据带来的监督信号与格外加入的KL距离约束。

3.粗粒度分类级别的知识映射模块

字词级别的知识映射模块以及语义级别的知识映射模块很好地覆盖了输入端的相关知识。然而，本发明发现，事件关系抽取与语篇关系分析在输出端共享相同的粗粒度分类标准：Temporal(时序关系),Contingency(应变关系),Comparison(比较关系)和Expansion(阐述关系)。因此本发明在输出端引入从粗粒度到细粒度的框架拉近事件和语篇异构的细粒度类别距离。具体的，本发明根据字词级别的表示h_[CLS]与深度语义表示h_z先进行粗粒度的关系分类：

Y^c＝Classifier^Coarse(h_[CLS]，h_z)

其中，Y^c是粗粒度的分类结果，属于{Temporal(时序关系),Contingency(应变关系),Comparison(比较关系),Expansion(阐述关系)}中的其中一个。其次，本发明再通过粗粒度关系嵌入网络获得粗粒度类别嵌入表示

具体的，粗粒度关系嵌入网络接受一个具体的关系，通过一个映射矩阵得到该关系对应的稠密向量表示。

如图3所示，通过映射粗粒度分类级别的语篇知识到事件，本发明共享相同的粗粒度关系分类器。在优化阶段，粗粒度关系分类器能够同时受益于事件关系抽取数据和语篇关系分析数据带来的监督信号。

4.基于上述三个层次知识映射的事件关系抽取模块

基于上述三个不同层级的知识映射模块，获得更具有泛化性的字词表示信息，更精确的语义表示信息和更可信的粗粒度类别表示信息，使用事件关系类别分类器对事件对关系类别分类。最终目标函数如下：

L(θ)＝α(L(θ；Y)+λKL(P||Q))+(1-α(L(θ；Y^c))

其中，Y根据不同的任务(事件关系抽取或者语篇关系分析)可以是Y^e(代表事件关系)或者Y^d(代表语篇关系)，λ和α分别是两个超参数，KL(P||Q)是语义编码器中的KL距离，L(θ；Y)和L(θ；Y^c)分别是细粒度的关系抽取目标与粗粒度的关系抽取目标：

L(θ；Y^c)＝log p(Y^c|h_[CLS]，h_z)

值得注意的是，整个模型中只有基于预训练语言模型的字词表示编码器，基于变分自编码器的语义表示编码器和粗粒度级别分类器的参数是共享的，细粒度级别分类器参数以及其他参数是独立的。

以抽取事件E¹：“PER goes to the restaurant”与事件E³：“PER is so hungry”之间的隐式事件关系Reason为例。

场景：

训练语料：

事件关系抽取训练例1：<“PER orders two hamburgers”；“PER is so hungry”>的细粒度关系标记为“Reason”，粗粒度标记为“Contingency”。

语篇关系分析训练例1：<“Tom orders two hamburgers”；“Tom is so hungry”>的细粒度关系标记为“Reason”，粗粒度标记为“Cause”。

测试语料：

测试例1：<“PER goes to the restaurant”；“PER is so hungry”>。

实施：

(一)基于训练语料，使用神经网络模型构建事件关系抽取分类器。在本方法中，神经网络模型基于字词表示级别的知识映射模块,语义表示级别的知识映射模块，粗粒度分类级别的知识映射模块以及最终的事件关系分类器。

(二)基于神经网络模型，判定测试实例中每个事件对的粗粒度关系与细粒度关系。例如测试例1，模型将<“PER goes to the restaurant”；“PER is so hungry”>细粒度关系标记为“Reason”，粗粒度标记为“Contingency”。在本例中，这是由于，之前在模型训练中，模型从事件关系抽取训练实例1和语篇关系分析训练实例1中学习到了更具有泛化性的字词表示信息，更精确的语义表示信息和更可信的粗粒度类别表示信息。从而对测试例1做出正确的判断。

实验数据

与现有的技术相比，本发明在公开的数据ASER和PDTB2.0上展现出充足的进步性。其中，ASER是当前公开的权威事件知识图谱用于评价事件关系抽取性能，PDTB2.0是当前公开的权威语篇关系数据用于评价语篇关系分析性能。具体数据包括：表1中的本发明与现有技术在事件关系抽取上的表现对比和表2中本发明与现有技术在语篇关系分析上的表现对比，具体如下：

表1

方法	准确率
		基于预训练语言模型的抽取技术	50.91
与本发明同架构但没有引入语篇知识的抽取技术	52.86
		本发明	54.09

表2

其中，F1分数是指关系抽取精确率和召回率的调和平均值，用于综合衡量系统的精确性和召回性。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应当以所附权利要求为准。