CN114153942A

CN114153942A - 一种基于动态注意力机制的事件时序关系抽取方法

Info

Publication number: CN114153942A
Application number: CN202111364393.0A
Authority: CN
Inventors: 刘浏; 杨俊�; 丁鲲; 刘姗姗; 张骁雄; 刘茗; 张慧; 蒋国权
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-08
Anticipated expiration: 2041-11-17
Also published as: CN114153942B

Abstract

本发明公开一种基于动态注意力机制的事件时序关系抽取方法，步骤包括：S01.获取待抽取文本并转化为词向量；S02.将词向量输入至BERT预训练模型中，抽取待抽取文本的语义关系特征，其中在BERT预训练模型的注意力机制中，根据输入的词向量生成得到注意力权重向量，以实现动态注意力机制；S03.判断待抽取文本中句子的时间元素是否为隐性，如果是则将BERT预训练模型输出的语义关系特征输入至GCN模型中，以进行隐形时态时序关系抽取，否则根据句子的时间元素或连接词进行时序关系识别。本发明能够结合动态注意力机制实现事件中时序关系的抽取，具有实现方法简单、抽取效率以及精度高、灵活性强等优点。

Description

一种基于动态注意力机制的事件时序关系抽取方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于动态注意力机制的事件时序关系抽取方法。

背景技术

伴随着互联网的发展，如何处理数以万计的信息成为了当前关键需要解决的研究难题。知识图谱作为结构化组织信息的有效形式，其广泛应用在各领域，但是知识图谱只是对客观事物的描述，即是对知识库的中知识的一种表现形式，缺乏对客观世界运动规律的描述能力，事理图谱则可以解决上述问题。事理图谱最重要的特点即在于是以事件为中心，能够有效的展示事件之间包括时序关系、因果关系、上下位关系等，而时序关系是实现事件图谱知识推理能力的重要环节，因而对文本中时序关系抽取是实现事件图谱的关键。

现有技术中对于文本事件中的时序关系识别，通常都是通过构建时序关系识别模型实现，即通过提取事件中的特征信息，然后使用构建的时序关系识别模型对特征信息进行识别，判别出事件中的时序关系，且其中在进行特征信息提取时通常是使用文档识别工具抽取简单的特征信息，或者直接使用BERT(Bidirectional Encoder Representationsform Transformers，双向注意力神经网络)模型等预训练模型抽取事件特征。

如中国专利申请CN201510698260.5公开一种中文事件时序关系识别方法及系统，该方案通过对需要识别事件时序关系的原始文本的每个文档进行词语切分、实体识别、句法分析等，得到测试语料事件集合；分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息，并根据标注语料特征集合中各个事件对的特征，训练最大熵事件时序关系识别模型；再利用最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系，得到事件时序关系第一集合。该方案即是通过直接使用文档识别工具抽取简单的特征信息，然后使用构建的最大熵事件时序关系识别模型来实现时序关系识别。

但是上述时序关系识别方法，会存在以下问题：

(1)实现复杂、精度低。由于不同文本事件中的时序关系存在多种可能性，时序关系识别模型的构建不仅实现复杂、构建难度大，而且按照该类方式构建的识别模型的识别精度并不高，实际就难以构建得到精准的时序关系识别模型；

(2)注意力机制结构单一，时序抽取精度不高。现有技术中是直接使用BERT模型进行语义特征提取，BERT模型是使用双向的Transformer搭建深度预训练模型，其Transformer 模块中关键即是多头注意力机制，但是目前BERT预训练模型中所使用多头注意力机制是直接对所有输入的文本采用相同的计算方法，即注意力机制中不区分输入文本的不同，因而输入文本会导致结构单一化，注意力的作用不依赖于输入文本，致使不能充分挖掘出不同文本的时序特征而影响时序关系抽取的精度。

(3)适用场景受限，不适用于时间元素为隐性时态的情况。上述时序关系识别方式是直接基于识别模型来实现时序关系识别，实际仅适用于文本中时间元素为显性的情况，即在文本中存在明确的时间元素，但是句子中的时间元素可能是隐性的，即句子中包含的时间元素是不明确的，该类情况下就不能使用上述方法进行时序关系进行抽取。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、抽取效率以及精度高、灵活性强的基于动态注意力机制的事件时序关系抽取方法。

为解决上述技术问题，本发明提出的技术方案为：

一种基于动态注意力机制的事件时序关系抽取方法，步骤包括：

S01.获取待抽取文本并转化为词向量；

S02.语义特征提取：将步骤S01转化得到的词向量输入至BERT预训练模型中，抽取待抽取文本的语义关系特征，其中在所述BERT预训练模型的注意力机制中，根据输入的所述词向量生成得到注意力权重向量，以实现动态注意力机制；

S03.时序关系识别：判断待抽取文本中句子的时间元素是否为隐性，如果是则将所述 BERT预训练模型输出的语义关系特征输入至GCN模型中，以进行隐形时态时序关系抽取，否则根据句子的时间元素或连接词进行时序关系识别。

进一步的，所述步骤S02中，通过在所述BERT预训练模型中设置一个动态机制模块以及一个注意力自适应模块，以实现所述动态注意力机制，其中由所述动态机制模块根据输入的所述词向量生成所述注意力权重向量，并提供给所述注意力自适应模块，由所述注意力自适应模块将生成的所述注意力权重向量对所述BERT预训练模型中注意力机制的输出结果进行权重乘法，以使得注意力的作用依赖于输入词向量。

进一步的，所述动态机制模块采用一个多层感知器实现，所述BERT预训练模型中具体按下式计算实现所述动态注意力机制：

其中，Z表示基于所述动态注意力机制得到的输出结果，π_k(x)表示依赖于输入词向量x 生成的所述注意力权重向量，Softmax·V表示注意力机制的输出结果，d_k表示归一化系数， QK^T为相关性分值矩阵,Q表示查询向量组成的矩阵、K表示键向量组成的矩阵，k表示第k 头注意力。

进一步的，所述注意力权重向量中各注意力权重π_k的取值范围为：π_k∈[0,1]，且

π_k(x)表示依赖于输入词向量x生成的所述注意力权重向量。

进一步的，所述GCN模型由词节点和有向边组成，其中后一层的输出依赖于前一层的输出，即所述后一层的输出根据所述前一层的输出计算得到，每层的输出基于依存句法树获得的词语依存关系权重矩阵以及当前层与前一层之间的紧密程度计算得到，具体计算公式为：

其中，

表示顶l层GCN模型的所述词语依存关系权重矩阵，

是第l-1层的输出， b^l表示第l层偏置向量，a_ij表示第l-1层输出单元h^l-1与第l层输出单元h^l之间的紧密程度，且

W为可训练参数，h_i、h_j分别表示GCN每一层的不同的输出，ReLU表示激活函数。

进一步的，所述步骤S03中，通过获取所述GCN模型的输出，经过全连接层的计算后，最终抽取得到所述隐形时态时序关系，具体公式为：

其中，

表示模型的预测结果，u^t表示全连接层输出第t个时序类别的结果，W为全连接层的训练参数矩阵，

为输入词向量的集合，ρ^l为第l层的可训练参与系数，L为总层数，b表示偏置参数，

表示所述GCN模型中第l层的第i个输出。

进一步的，所述步骤S03中当判断到待抽取文本中句子的时间元素为显性时，使用基于BERT模型的事件元素提取方法进行时序关系抽取识别，步骤包括：

S301.对时间元素进行提问，并将问句转化为词向量作为所述BERT模型的输入；

S302.将所述步骤S301中所述BERT模型输出的语义特征变为任务特征，提取出时间元素；

S303.根据步骤S302提取出的时间元素，比较每个时间的事件关系，得到事件对之间的时序关系。

进一步的，所述步骤S03中当判断到待抽取文本中句子的时间元素为半显性时，即事件对之间具有时间连接词，使用识别时间连接词的方式进行时序关系抽取识别，包括：通过对待处理文本进行分词处理，并构建时序关系连接词词典，最后将所述分词结果与所述连接词词典进行比对，得到事件对的时序关系。

进一步的，所述步骤S01中转化词向量时，位置嵌入使用基于三角函数的编码方法，其中位置为偶数和奇数的位置编码公式分别为：

其中，2i和2i+1表示词所在的偶数位和奇数位，PE_2i、PE_2i+1分别表示第2i、 2i+1位的位置编码，d表示词特征向量的维数，postion表示词序。

一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序以执行如上述方法。

与现有技术相比，本发明的优点在于：

1、本发明通过使用基于动态注意力机制的BERT预训练模型进行语义特征提取，使得多头注意力机制的结构能够随样本动态变化，能够提高语义特征提取的精度，同时根据句子中时间元素的明确类型，采用不同的时序关系抽取方法，以使得能够适应于不同类型进行事件时序关系抽取，对于显性以及半显性类型，直接采用时间元素提取以及连接词抽取的方式实现，对隐性时态类型，则结合使用GCN模型实现，由GCN模型充分挖掘不同事件文本之间的词语语境以及词语之间的依存关系，因而能够无需依赖于明确的时间元素，即可以实现具有隐性时序状态的事件对间的时序关系进行识别。

2、本发明通过对BERT预训练模型的多头注意力机制进行动态化改造，在注意力机制中注意力权重向量根据输入的词向量得到，实现动态注意力机制，从而可以在不增加模型训练参数数据量的情况下，多头注意力机制的结构能够随样本动态变化，使得动态多头注意力结构具有多样性，解决传统注意力机制结构单一化问题，通过动态注意力机制不仅能够区分不同的输入文本实现不同的效果，还能够充分挖掘出不同文本的语义特征，从而有效提高时序关系抽取的精度。

3、本发明针对于隐性时态类型的时序关系抽取，通过将BERT预训练模型输出的语义关系特征输入至GCN模型中，由GCN模型挖掘不同事件文本之间的词语语境以及词语之间的依存关系，能够结合GCN模型实现精准有效的隐形时态时序关系抽取，且能够将非欧几里得空间的事件元素关系进行建模，从而更好的适应文本词间依赖关系的挖掘。

附图说明

图1是本实施例基于动态注意力机制的事件时序关系抽取方法的实现流程示意图。

图2是本实施例中动态注意力机制的实现原理示意图。

图3是本实施例中BERT预训练模型的结构原理示意图。

图4是本实施例中实现隐性时序关系抽取的实现流程示意图。

图5是本发明具体应用实施例中实现词向量转换的实现原理示意图。

图6是本发明具体应用实施例中实现显性时序关系识别的实现原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1～5所示，本实施例基于动态注意力机制的事件时序关系抽取方法的步骤包括：

S01.获取待抽取文本并转化为词向量。

词向量的主要作用是将字符型的词汇或者字映射为计算机可以识别的数值向量的形式。本实施例具体采用Token Embeddings(词嵌入)、Position Embeddings(位置嵌入)、Segment Embeddings(文段嵌入)三种嵌入向量的和作为词向量，同时加入简约模板作为词向量的一部分。

本实施例获取待抽取中文文本后，首先使用分词工具对中文文本进行分词，然后映射每个词语的编码，该编码即表示词嵌入，位置嵌入采用基于三角函数的编码方法进行位置编码；文段嵌入是为了表示不同句子，本实施例使用0对应第一个句子的每一个词，用1对应第二个句子的每一个词。

本实施例上述使用基于三角函数的编码方法进行位置编码时，位置为偶数和奇数的位置编码具体按下式得到：

其中，2i和2i+1表示词所在的偶数位和奇数位，PE_2i、PE_2i+1分别表示第2i、 2i+1位的位置编码，d表示词特征向量的维数，postion表示词语在句子中的位置，即词序。

通过上述步骤即可将待抽取中文文本转化为相应的词向量输出。

S02.语义特征提取：将步骤S01转化得到的词向量输入至BERT预训练模型中，抽取待抽取文本的语义关系特征，其中在BERT预训练模型的注意力机制中，根据输入的词向量生成得到注意力权重向量，以实现动态注意力机制。

本实施例在使用BERT预训练模型对输入词向量进行语义特征提取的基础上，对传统 BERT预训练模型的多头注意力机制进行动态化改造，在注意力机制中注意力权重向量根据输入的词向量得到，实现动态注意力机制，即不同的词向量会相应的生成不同的注意力权重向量，注意力机制的效果依赖于输入文本，从而可以在不增加模型训练参数数据量的情况下，，多头注意力机制的结构能够随样本动态变化，使得动态多头注意力结构具有多样性，解决传统注意力机制结构单一化问题，通过动态注意力机制不仅能够区分不同的输入文本实现不同的效果，还能够充分挖掘出不同文本的语义特征，从而有效提高后续时序关系抽取的精度。

如图2所示，本实施例具体通过在BERT预训练模型中设置一个动态机制(DynamicStrategy)模块以及一个注意力自适应(Adapting Attention)模块，以实现动态注意力机制，其中由动态机制模块根据输入的词向量生成注意力权重向量，并提供给注意力自适应模块，由注意力自适应模块将生成的注意力权重向量对BERT预训练模型中注意力机制的输出结果进行权重乘法，以使得注意力的作用依赖于输入词向量不同产生差异性的效果，从而实现多头注意力机制的结构随样本动态变化的动态机制。

本实施例动态机制模块具体采用一个多层感知器实现，即在BERT预训练模型的基础上，增加一个多层感知器用以生成权重向量，多层感知器具体包括两个全连接层(FC)、一个激活函数层(ReLU函数)以及一个概率输出层(Softmax函数)，将输入词向量输入至第一全连接层，依次经过激活函数层、第二全连接层以及概率输出层后得到对应于各输入词向量的注意力权重向量，可以根据输入样本的不同产生不同的注意力权重向量。

本实施例BERT预训练模型中具体按下式计算实现动态注意力机制：

其中，Z表示基于动态注意力机制得到的输出结果，π_k(x)表示依赖于输入词向量x生成的注意力权重向量，Softmax·V表示注意力机制的输出结果，d_k表示归一化系数，QK^T为相关性分值矩阵,Q表示查询向量组成的矩阵、K表示键向量组成的矩阵，k表示第k头注意力。

上述通过在BERT模型的多头注意力机制基础上实现动态机制，使得多头注意力机制的结构会随样本动态变化，但是这会带来新的问题：如何实现动态机制的网络模型与BERT模型中的多层Transformer模块同时进行学习。为解决上述问题，本实施例进一步将上述注意力权重向量中各注意力权重π_k的取值范围设定为：π_k∈[0,1]，且

π_k(x)表示依赖于输入词向量x生成的注意力权重向量。通过对动态机制产生的权重π_k进行限制，将权重在一定范围内取值，可以使得模型结果具有相对的可控性，从而使得便于实现动态机制的网络模型与BERT模型中的多层Transformer模块同时进行学习。

如图3所示，本实施例BERT模型截图由N个Transformer模块组成，每个Transformer 模块包括动态注意力模块、Layer Norm模块以及Feed Forward模块等组成，动态注意力模块的结构如图2所示，由该动态注意力模块进行文本的上下文语义关系提取，Layer Norm 模块用于控制模型的收敛性，Feed Forward表示模型残差网络模块。输入词向量首先经过动态注意力模块，得到动态注意力机制结果输出，该结果即为基于输入词向量所生成的注意力权重向量对注意力机制的输出结果进行权重乘法后得到的结果，动态注意力模块输出结果再依次经过Layer Norm模块、Feed Forward模块后，输出最终的语义特征。由于使用了动态注意力机制，注意力的作用可以依赖于输入词向量不同产生差异性的效果，因而可以充分挖掘出不同输入词向量的语义关系特征，以利于后续实现更为精准的时序关系抽取。

S03.时序关系识别：判断待抽取文本中句子的时间元素是否为隐性，如果是则将BERT 预训练模型输出的语义关系特征输入至GCN模型中，以进行隐形时态时序关系抽取，否则根据句子的时间元素或连接词进行时序关系识别。

句子中的时间元素可能是显性的，即是明确的，也可能是隐性的，即是不明确的。本实施例通过对句子中的事件元素进行分析，将句子分为三个层级分别进行事件时序关系识别，根据时间元素的明确性，将句子分为{显性时态，半显性时态，隐性时态}三种类型，其中显性时态对应为时间元素是明确的，半显性时态对应为事件对之间具有明显的时间连接词，隐性时态则对应为句子中包含的时间元素是不明确的。针对上述三种不同时间元素类型，本实施例采取不同的策略进行识别，以使得能够适应于不同类型进行事件时序关系抽取。

在具有连续语义且部分时间元素缺失的情况下，对应为隐性时态，即时间元素是隐性的。本实施例对于隐性时态，即当句子中的时间元素是不明确的，无法直接获取到明确的时间元素，通过将BERT预训练模型输出的语义关系特征输入至GCN(加权图神经网络)模型中，由于GCN模型能够挖掘不同事件文本之间的词语语境以及词语之间的依存关系，因而在使用基于动态注意力机制的BERT预训练模型提取语义特征的基础上，结合GCN模型即可以实现隐形时态时序关系抽取，使得无需依赖于明确的时间元素，即可以实现具有隐性时序状态的事件对间的时序关系进行识别，且能够将非欧几里得空间的事件元素关系进行建模，从而更好的适应文本词间依赖关系的挖掘。

上述GCN模型由词节点和有向边组成，即G＝{V,E}，其中模型中后一层的输出h^l依赖于前一层的输出h^l-1，即后一层的输出h^l根据前一层的输出h^l-1计算得到，同时为了区分不同输出单元对后一层的影响，本实施例为后一层的输出h^l与前一层的h^l-1之间设置权重系数a，权重系数a依据前一层输出单元对后一层的影响程度设置，以表征后一层的输出h^l与前一层的输出h^l-1之间的紧密程度。

本实施例中每层的输出具体基于依存句法树获得的词语依存关系权重矩阵以及当前层与前一层之间的紧密程度计算得到，计算公式为：

其中，

表示顶l层GCN模型的所述词语依存关系权重矩阵，

本实施例在GCN模型中，通过基于依存句法树获得的词语依存关系权重矩阵以及当前层与前一层之间的紧密程度来计算每层的输出，能够充分结合前后层之间紧密关系提取出词语之间的依存关系，从而利于实现更为精准的时序关系抽取。

本实施例具体在获取GCN模型的输出后，经过全连接层的计算，即可抽取得到隐形时态时序关系，具体公式为：

其中，

为输入词向量的集合，ρ^l为第l层的可训练参与系数，它决定了GCN模型每一次状态输出的参与度；L为总层数，b表示偏置参数，

表示GCN模型中第 l层的第i个输出，其中H⁽⁰⁾＝BERT(Embeddings)。

即在获得GCN模型的输出后，按照上述式(3)、(4)进行全连接层的计算即可最终获取模型的时序结果。

本实施例当判断到待抽取文本中句子的时间元素为显性时，即时间元素是明确的，则使用基于BERT模型的事件元素提取方法进行时序关系抽取识别，即问答的方式获取事件元素的起始位置，使用基于BERT模型的事件元素提取方法进行时序关系抽取识别的步骤包括：

S301.对时间元素进行提问，并将问句转化为词向量作为BERT模型的输入；

S302.将步骤S301中BERT模型输出的语义特征变为任务特征，提取出时间元素；

针对于显性时态下的时序关系抽取，具体首先对时间的元素进行提问，并将该问句转化为词向量作为上述BERT模型(基于动态注意力机制的BERT模型)的输入，同时使用Segment Embeddings以及[sep]标记对问句和文本进行区分；然后，经过BERT模型学习语义特征之后，使用全连接层将语义特征变为任务特征，实现对时间元素的提取；通过比较每个时间的事件关系，即可以获取事件对之间的时序关系。

如果事件对中缺少或者部分缺少时间元素，可以通过连接词的识别进行时序关系判断。本实施例中当判断到待抽取文本中句子的时间元素为半显性时，即事件的句子中或者句间存在时序关系连接词，则使用识别时间连接词的方式进行时序关系抽取识别，包括：通过对待处理文本进行分词处理，并构建时序关系连接词词典，最后将分词结果与连接词词典进行比对，得到事件对的时序关系。上述连接词词典进一步还可以包括近义词词典，以构建得到更完备的连接词词典，将分词结果与该连接词词典进行比对即可获得事件对的时序关系。

本发明通过使用基于动态注意力机制的BERT预训练模型进行语义特征提取，使得多头注意力机制的结构能够随样本动态变化，能够提高语义特征提取的精度，同时根据句子中时间元素的明确类型，采用不同的时序关系抽取方法，以使得能够适应于不同类型进行事件时序关系抽取，对于显性以及半显性类型，直接采用时间元素提取以及连接词抽取的方式实现，对隐性时态类型，则结合使用GCN模型实现，由GCN模型充分挖掘不同事件文本之间的词语语境以及词语之间的依存关系，因而能够无需依赖于明确的时间元素，即可以实现具有隐性时序状态的事件对间的时序关系进行识别。

以下以在具体应用实施例中采用本发明上述方法实现基于动态注意力机制的事件时序关系抽取为例，对本发明上述方法进行进一步说明。

本实施例实现基于动态注意力机制的事件时序关系抽取的详细步骤为：

步骤1：词向量转换

将原始的情报文本转化为可计算的数值向量，即词向量。词向量由TokenEmbeddings (词嵌入)、Position Embeddings(位置嵌入)、Segment Embeddings(文段嵌入)三种类型组成，其中标记[CLS]表示句子的开始，标记[SEP]表示句子的分割，如图5所示。首先使用分词工具JieBa对中文文本进行分词，然后使用One-hot词表映射每个词语的编码，该编码即表示词嵌入。位置嵌入具体使用基于三角函数的编码方法，其位置为偶数和奇数的位置编码公式分别如式(1)、(2)所示。文段嵌入时用0对应第一个句子的每一个词，用1 对应第二句话的每一个词。按照上述方式，最终词嵌入输出维度都是768，从词汇量为30522 个，位置嵌入的最大长度是512。

步骤2：语义特征提取

步骤2.1：构建动态注意力机制模型结构

在BERT预训练模型中设置动态机制模块和注意力自适应模块动态机制模块由两层全连接层组成的多层神经网络，结果由SoftMax函数输出16维概率向量，如图2所示。本实施例多头注意力机制由16个自注意力组成，按照式(3)得到动态注意力机制，结果为 [π₁·SA₁,…,π₁₆·SA₁₆]。

步骤2.2：BERT预训练模型。BERT模型具体由12*Transformer Block模块组成，每个模块中注意力机制self-Attention中的Q,V,K矩阵尺寸都为768×64。同时，TransformerBlock中的Layer norm公式具体为：

其中，α和β为可训练参数，∈＝0.1⁶，μ为x的期望值，σ为x的均方差。

Feed-Back为两层前向传播层，第一层有768×4个神经元，第二层有768个神经元，隐藏单元Hidden_Size具体为768，batch_size具体为256,最大序列长度为512。

步骤3：时序关系抽取

步骤3.1：时间元素分类

本实施例首先依据句子中时间元素是否明确进行类型划分，划分方式如表1所示，如果是句子中存在明确的时间元素(日期)且存在连接词(“此前”)的连续语义事件对时，则划分为半显性时态，如果是存在明确的时间元素(日期)但没有连接词的非连续语义事件，则划分为显性时态，如果是两个以上的事件且没有连接词的连续语义事件对，则划分为时间元素不明确的隐性时态(如表1中第三列第四行元素中包含“经第一区域”、“返回第二区域”两个连续事件且没有连接词，则对应划分为时间元素不明确的隐性时态)。

表1：时间元素类型划分

根据上述依据时间元素进行类型的划分后，各类型分别采用不同的事件时序抽取方法，对于半显性时态时序关系识别，转入步骤3.2，对于显性时态时序关系，转入步骤3.3，对于隐性时态时序关系抽取，转入步骤3.4。

步骤3.2：半显性时态时序关系识别：

半隐性时态即为事件的句子中或者句间存在时序关系连接词，针对该类型，首先通过分词工具J ieba对句子进行分析，然后使用时序连接词词表或连接词词典进行匹配，依据匹配结果便可确定事件间的时序关系。表2为本实施例具体构建的{后序关系、并发关系、前序关系}三类时序连接词的近义词词表。

表2；时序关系近义词词表

步骤3.3：显性时态时序关系识别

显性时态即为事件对中的事件元素明确的情况，对于该类型，使用事件元素提取方法进行识别。本实施例具体采用基于BERT预训练模型的问答方法对事件元素进行抽取，如图6 所示，BERT预训练模型即为上述基于动态注意力机制的预训练模型。问答的结果输出一个 Span，即输出事件元素所在句子的开始和结束位置。

以从表3所示的text中提取事件触发词为例，则问答方法的问题可以为“事件触发词？”，其答案触发词的开始和结束位置即<21,22>。针对BERT模型的输入则是{CLS问题 SEP文本}的模式。

表3：问答方法进行事件元素抽取示例

步骤3.4：隐性时态时序关系识别

对于隐形时态类型，本实施例使用GCN模型进行隐形时态时序关系抽取。GCN模型中包含4个Hidden状态层，其是第0层状态为BERT模型的输出

输出层为

每一层的输出按照上式(4)计算得到，GCN的输出层作为2层神经网络的输入，神经网络的输出经过Softmax函数转化为概率的形式{p₀，p₁，p₂，p₃}，分别代表{前序、并发、后序、未知}四种时序关系的概率，并取值最大的为该事件对的时序关系。如果是两个事件在不同的句子中，那么通常不会呈现隐形时态关系。

本实施例还提供计算机装置，包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序，处理器用于执行计算机程序以执行如上述方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于动态注意力机制的事件时序关系抽取方法，其特征在于，步骤包括：

S01.获取待抽取文本并转化为词向量；

S03.时序关系识别：判断待抽取文本中句子的时间元素是否为隐性，如果是则将所述BERT预训练模型输出的语义关系特征输入至GCN模型中，以进行隐形时态时序关系抽取，否则根据句子的时间元素或连接词进行时序关系识别。

2.根据权利要求1所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述步骤S02中，通过在所述BERT预训练模型中设置一个动态机制模块以及一个注意力自适应模块，以实现所述动态注意力机制，其中由所述动态机制模块根据输入的所述词向量生成所述注意力权重向量，并提供给所述注意力自适应模块，由所述注意力自适应模块将生成的所述注意力权重向量对所述BERT预训练模型中注意力机制的输出结果进行权重乘法，以使得注意力的作用依赖于输入词向量。

3.根据权利要求2所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述动态机制模块采用一个多层感知器实现，所述BERT预训练模型中具体按下式计算实现所述动态注意力机制：

其中，Z表示基于所述动态注意力机制得到的输出结果，π_k(x)表示依赖于输入词向量x生成的所述注意力权重向量，Softmax·V表示注意力机制的输出结果，d_k表示归一化系数，QK^T为相关性分值矩阵，Q表示查询向量组成的矩阵、K表示键向量组成的矩阵，k表示第k头注意力。

4.根据权利要求3所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述注意力权重向量中各注意力权重π_k的取值范围为：π_k∈[0，1]，且

π_k(x)表示依赖于输入词向量x生成的所述注意力权重向量。

5.根据权利要求1所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述GCN模型由词节点和有向边组成，其中后一层的输出依赖于前一层的输出，即所述后一层的输出根据所述前一层的输出计算得到，每层的输出基于依存句法树获得的词语依存关系权重矩阵以及当前层与前一层之间的紧密程度计算得到，具体计算公式为：

其中，

表示顶l层GCN模型的所述词语依存关系权重矩阵，

是第l-1层的输出，b^l表示第l层偏置向量，a_ij表示第l-1层输出单元h^l-1与第l层输出单元h^l之间的紧密程度，且

6.根据权利要求5所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述步骤S03中，通过获取所述GCN模型的输出，经过全连接层的计算后，最终抽取得到所述隐形时态时序关系，具体公式为：

其中，

为输入词向量的集合，ρ^l为第l层的可训练参与系数，L为表示总层数，b表示偏置参数，

表示所述GCN模型中第l层的第i个输出。

7.根据权利要求1～6中任意一项所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述步骤S03中当判断到待抽取文本中句子的时间元素为显性时，使用基于BERT模型的事件元素提取方法进行时序关系抽取识别，步骤包括：

8.根据权利要求1～6中任意一项所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述步骤S03中当判断到待抽取文本中句子的时间元素为半显性时，即事件对之间具有时间连接词，使用识别时间连接词的方式进行时序关系抽取识别，包括：通过对待处理文本进行分词处理，并构建时序关系连接词词典，最后将所述分词结果与所述连接词词典进行比对，得到事件对的时序关系。

9.根据权利要求1～6中任意一项所述的基于动态注意力机制的事件时序关系抽取方法，其特征在于，所述步骤S01中转化词向量时，位置嵌入使用基于三角函数的编码方法，其中位置为偶数和奇数的位置编码公式分别为：

其中，2i和2i+1表示词所在的偶数位和奇数位，PE_2i、PE_2i+1分别表示第2i、2i+1位的位置编码，d表示词特征向量的维数，postion表示词语在句子中的位置，即词序。

10.一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～9中任意一项所述方法。