CN112463970A

CN112463970A - 一种基于时间关系对文本包含的因果关系进行抽取的方法

Info

Publication number: CN112463970A
Application number: CN202011489612.3A
Authority: CN
Inventors: 郑余祥; 左祥麟; 史振坤; 张一嘉; 梁世宁; 左万利
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-09
Anticipated expiration: 2040-12-16
Also published as: CN112463970B

Abstract

本发明公开了一种基于时间关系对文本包含的因果关系进行抽取的方法，包括：构建基于时间关系的Bi‑LSTM+GCN网络模型；将待输入的文本中的单词输入到Bi‑LSTM网络获得文本中单词的特征；将文本中单词的时间关系转化成时间关系特征矩阵输入到GCN网络，由GCN网络输出特征向量；将GCN网络输出特征向量输入分类器，获得因果关系的抽取结果：原因、结果和非因非果。与现有技术相比，本发明利用时间关系与因果关系的联系,本文通过将时间关系转化成特征矩阵的方式结合了Bi‑LST+GCN网络模型，并且通过实验能准确获得因果关系标注，时间关系有利于因果关系的抽取，本发明提出的基于时间关系的Bi‑LSTM+GCN模型能有效的获取因果关系。

Description

一种基于时间关系对文本包含的因果关系进行抽取的方法

技术领域

本发明涉及领域，特别是一种基于时间关系对文本包含的因果关系进行抽取的方法。

背景技术

近些年伴随着互联网的飞速发展,产生了大量的文本数据，文本中的关系抽取对于理解和得到有价值的信息变得越来越重要。因果关系的抽取在文本关系中占重要的位置，当获得了文本中的因果关系，很容易就可以判断文本的主干，因果关系的信息可能会有益于许多自然语言处理任务，例如问答系统、文本摘要、决策支持等。因果关系是一个已经从哲学、心理和逻辑的角度进行了广泛研究的概念。如何在以NLP为中心的应用程序中对它的识别和表示进行建模成为一个热门的话题。

理解事件是自然语言处理的重要组成部分。此过程中的重要步骤是确定事件之间的关系，在事件之间可能存在的许多关系类型中，时间关系对因果关系的提取的作用有很大影响。

在时间关系中包含事件发生的顺序，这有助于对于因果关系的判断。ParamitaMirza等人，从文本中获取指定事件上下文关系、词性、时间标签等特征，使用分类器对指定的事件进行判断，并提出利用时间TimeML标注对因果事件进行标注。之后提出CATENA模型，设定了基于时间关系的过滤规则，证实对时间和因果进行联合抽取相互促进。NasrinMostafazadeh等人提出事件结构的语义注释的因果和时间关系方案(CaTeRS)通过大量的故事型事件，获得时间关系对因果关系的判断。Qiang Ning等人提出连接结构TCR根据指定的规则去推理事件的因果关系。然而这些方法都没有利用深度学习的优势，对文本包含的因果关系进行抽取效果不理想。

发明内容

本发明的目的是要提供一种基于时间关系对文本包含的因果关系进行抽取的方法。

为达到上述目的，本发明是按照以下技术方案实施的：

一种基于时间关系对文本包含的因果关系进行抽取的方法，包括以下步骤：

S1、构建基于时间关系的Bi-LSTM+GCN网络模型，所述Bi-LSTM+GCN模型由输入端到输出端包括Bi-LSTM网络、GCN网络和分类器；

S2、将待输入的文本中的单词输入到Bi-LSTM网络获得文本中单词的特征；

S3、将文本中单词的时间关系转化成时间关系特征矩阵输入到GCN网络，由GCN网络输出特征向量；

S4、将GCN网络输出特征向量输入分类器，获得因果关系的抽取结果：原因、结果和非因非果。

进一步地，所述S2中，在将待输入的文本中的单词输入到Bi-LSTM网络模型之前，首先将待输入的文本中的单词通过Word Embedding转换成300维度的词向量并添加词性POS特征。

进一步地，所述S3中GCN网络输出的特征向量为：

其中N(v)是和v有关系的单词的集合，每一个L(u,v)代表从u到v的时间关系，W_L(u,v)表示u到v的时间关系的参数矩阵，h_u是来自上一层输出的u的特征向量。

进一步地，所述S4中将使用SoftMax的DENSE层作为分类器，DENSE层使用SoftMax进行分类,使用交叉熵损失函数计算损失,分类器的分类损失E定义为：

其中n＝2，x_i是真实标签one-hot形式第i维的值，P(x_i)是输出预测向量第i维的值。

与现有技术相比，本发明利用时间关系与因果关系的联系,本文通过将时间关系转化成特征矩阵的方式结合了Bi-LST+GCN网络模型，并且通过实验能准确获得因果关系标注，时间关系有利于因果关系的抽取，本发明提出的基于时间关系的Bi-LSTM+GCN模型能有效的获取因果关系。

附图说明

图1为本发明实施例中的Bi-LST+GCN网络模型的结构图。

图2为本发明实施例中的LSTM的单元结构图。

图3为本发明实施例中的时间关系特征矩阵。

图4为本发明实施例中的GCN网络的实现图。

图5为本发明实施例中的标注后的单词的时间关系图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定发明。

本实施例具体公开了一种基于时间关系对文本包含的因果关系进行抽取的方法，包括以下步骤：

S1、构建基于时间关系的Bi-LSTM+GCN网络模型，其具体结果如图1所示，所述Bi-LSTM+GCN模型由输入端到输出端包括Bi-LSTM网络、GCN网络和分类器；

传统的循环神经网络(RNN)，能过对带有时序关系的数据进行处理，本文将文本序列中的每一个单词作为时间步，整个句子理解为一个时序序列。在处理当前的单词时，利用模型内部的记忆单元，能够得到过去时序中单词的特征。但对于时序跨度过大的单词，RNN不能很好的获取到特征。长短其记忆网络模型(LSTM)是RNN的改进,可以获得长跨度的单词的特征，LSTM的单元结构如图2所示。LSTM利用三种门单元来决定保留的信息：

1)遗忘门

根据当前的输入x_t与上一时刻的隐藏层输出h_t-1，忘门选择保留多少上一时刻的细胞状态C_t到当前时刻：

f_t＝σ(W_f·[h_t-1,x_t]+b_f), (1)

2)输入门

输入门决定有多少输入信息x_t保留到C_t中,

i_t＝σ(W_i·[h_t-1,x_t]+b_i)， (2)

3)输出门

输出门决定细胞状态C_t有多少输出到当前时刻LSTM的输出值h_t中,

o_t＝σ(W_o·[h_t-1,x_t]+b_o)， (3)

生成备选更新的内容C'_t根据i_t和f_t将旧细胞状态C_t-1更新为新细胞状态C_t,

C'_t＝tanh(W_c·[h_t-1,x_t]+b_c)， (4)

C_t＝f_t·C_t-1+i_t·C'_t， (5)

最后新细胞状态C_t通过tanh层与o_t相乘得到当前时刻隐藏层的输出h_t，

h_t＝o_t·tanh(C_t)， (6)

LSTM模型虽然能够很好的获取过去的时序数据特征，却不包含之后的时序数据特征。对于处理文本序列标注问题需要能获得上下文特征，因此本实施例选择双向长短期记忆模型(Bi-LSTM)，输出的特征向量由从前向后的LSTM和从后向前的LSTM输出拼接组成，包含时序上在前和在后的文本特征。

S2、首先将待输入的文本中的单词通过Word Embedding转换成300维度的词向量并添加词性POS特征，将待输入的文本中的单词输入到Bi-LSTM网络获得包含时序上在前和在后的文本特征即300维度的特征向量；

S3、将文本中单词的时间关系特征矩阵，如图3所示，例句为“The tsunami causeddeath and suffering”，在时间关系中我们将“tsunami”对“death”设定为“before”，并且由于时间关系具有相对性，将“death”对“tsunami”的关系设定为“after”，“death”和“suffering”是相互伴随，同时发生的所以是“simultaneous”关系；然后将时间关系特征矩阵输入到GCN网络进行图卷积，由GCN网络输出100维的特征向量；本实施例将时间关系矩阵结合GCN网络，训练不同时间关系的参数矩阵，如图4所示。单词的特征向量和对应的关系参数矩阵做矩阵乘法，GCN层的输出特征向量

需要说明的是图卷积后紧接一个Relu激活和Batch Normalization，最后输入到分类器中；

S4、使用SoftMax的DENSE层作为分类器，DENSE层使用SoftMax进行分类，将100维的特征向量转换成三维向量预测单词的因果类型，三个维度对应三类标签，分别对应原因、结果和非因非果；DENSE层使用交叉熵损失函数计算损失，分类器的分类损失E定义为：

为了进一步验证Bi-LSTM+GCN网络模型对文本包含的因果关系进行抽取效果，本实施例通过以下实验进行验证：

1.参数的设定

优化器：Adam；词向量维度：300；梯度裁剪值：5.0；学习率：0.001；迭代次数：150.

Bi-LSTM层：隐藏层：300；

GCN层：卷积后的特征向量100维。

2.设置1000条时间因果语句作为训练集，200条时间因果语句作为测试集。

其中，数据来自于CausalTimeBank数据集，StoryLine数据集和SemEval2020_task5原始数据集，根据需求最终标注了1200个句子，并且大量句子中包含超过一对的因果关系。根据需求的数据格式和SemEval2018_task5原始数据并不包含因果时间标签，因此本实施例对数据重新进行了因果和时间关系标注，对原始数据进行了一下几个修改：

1)未标注的因果关系，句子中存在多因多果,原始数据集只包含一对因果，本实施例标注的数据集包含句子中所有因果；

2)标注长度不一致，原始数据中包含短语和词组标注为原因或结果，本实施例统一选取核心单词进行标注；

3)标注连锁因果，一个单词即是原因又是结果，本实施例将这个单词标记为结果，只标注最根本的原因；

4)抽取每条句子中所有的时间关系，时间关系标注依据TimeML时间事件标注标准，去除仅仅表示日期的单词和带有导致、使得、抑制三种语义的动词如“cause”、“make”、“prevent”不参与时间关系的标注，选择其他包含时间关系属性的单词进行时间标注，本实施例选取5种时间关系进行标注如图5所示。

本实施例使用序列标注的方法抽取因果关系，选取“O”“C”“E”作为标签去标注因果关系，“O”表示不具有因果关系，“C”表示原因，“E”表示结果。进行标注时间关系时，我们选取“B”，“A”，“S”，“I”，“N”，“O”代表时间关系。“B”表示在之前，“A”表示在之后，“S”表示同时发生，“I”表示时间上包含，“N”表示时间上被包含，“O”表示不具有时间关系。单词的时间关系如图5所示，时间关系含有传递性、相对性，例如当事件A在B之前，B在C之前时我们标注A在C之前，并且由于时间的相对性则B在A之后，根据单词时间属性生成时间关系矩阵。

为了突出本实施例的优越性，选取多种模型进行对比，对比模型具体包括：

LSTM模型、Bi-LSTM模型、Bi-LSTM+CRF模型、带有wordnet语义属性的Bi-LSTM模型、带有句法依存关系的Bi-LSTM模型、带有char级别的词嵌入的Bi-LSTM标注模型。

3.实验结果与分析

本实施例测试模型对比试验结果如表1所示，显示“C”、“E”、“O”三种标签的准确率(Precision)，召回率(Recall)和F1评分。

表1

根据实验结果，LSTM模型只能单向的获取长跨度文本的特征效果对于因果标签的准确率和召回率都很低，并不能获得好的效果。Bi-LSTM模型效果有了一定提升，添加CRF层各项指标只有小幅度的提升，加入wordnet语义和依存关系后模型的“C”和“E”各项指标都有很大提升，字符级的词嵌入对原因标签的召回率以及结果标签的三项指标都有很大提升。对比其他的模型，基于时间关系的Bi-LSTM+GCN网络模型对“C”和“E”的准确率召回率和F1评分分别达到了92.59％，86.21％，89.59％，0.9286％，88.64％，90.70％。添加依存关系的模型效果并不理想，可能是由于句子中存在多对因果关系的标注，使得因果标注在句子中的句法结构变得多样，而且因果关系中事件语义复杂，wordnet语义并不能很好的覆盖所有语义类型，所以效果也不理想.时间关系能明确的把握事件发生的顺序，对于句子文本中含有的因果关系能起到提高因果事件标注的几率，并且有助于判断是原因还是结果。

本文实验结果表明，我们提出的模型对于“C”的F1评分达到0.8959，对于“E”的F1评分达到0.9070，显示时间关系对于因果关系标注的有着明显的的提升效果。

综述，时间关系有利于因果关系的抽取，因此本实施例提出的基于时间关系的Bi-LSTM+GCN网络模型能有效的获取因果关系。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.一种基于时间关系对文本包含的因果关系进行抽取的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于时间关系对文本包含的因果关系进行抽取的方法，其特征在于，所述S2中，在将待输入的文本中的单词输入到Bi-LSTM网络模型之前，首先将待输入的文本中的单词通过Word Embedding转换成300维度的词向量并添加词性POS特征。

3.根据权利要求1所述的基于时间关系对文本包含的因果关系进行抽取的方法，其特征在于，所述S3中GCN网络输出的特征向量为：

4.根据权利要求1所述的基于时间关系对文本包含的因果关系进行抽取的方法，其特征在于，所述S4中将使用SoftMax的DENSE层作为分类器，DENSE层使用SoftMax进行分类,使用交叉熵损失函数计算损失,分类器的分类损失E定义为：