CN111428525B

CN111428525B - 隐式篇章关系识别方法、系统及可读存储介质

Info

Publication number: CN111428525B
Application number: CN202010539890.9A
Authority: CN
Inventors: 邬昌兴; 俞亮; 胡超文
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-09-15
Anticipated expiration: 2040-06-15
Also published as: CN111428525A

Abstract

本发明提出一种隐式篇章关系识别方法、系统及可读存储介质，所述方法包括如下步骤：接收编码器发送的全局语义关系向量以及局部语义关系向量，将所述全局语义关系向量作为GRU网络的第零个隐状态；将上一级对应的隐状态以及所有的所述局部语义关系向量，根据注意力机制计算得到当前级别篇章关系的局部语义关系信息；将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后，输入至当前GRU单元，以计算得到当前级别的隐式篇章关系。本发明提出的隐式篇章关系识别方法，能灵活地在多级篇章关系之间实现信息共享，并实现每一级篇章关系预测结果之间的依赖。

Description

隐式篇章关系识别方法、系统及可读存储介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种隐式篇章关系识别方法、系统及可读存储介质。

背景技术

随着科技的不断发展以及技术的不断提升，近年来，大部分融入篇章信息的自然语言处理系统的性能也得到了较为显著的提高。具体的包括命名实体识别、抽取式文本摘要以及机器翻译等。目前，越来越多的研究者都在探索如何建模并利用篇章信息。

具体的，篇章是指由一系列结构衔接、语义连贯的句子所组成的语言单位。它们之间遵从一定的语义关系或层次结构，用于阐述某一方面的问题或场景。篇章结构分析在于如何获取某段文本中句子之间的语义关系和层次结构。其中，句间语义关系识别属于篇章结构分析中的核心子任务之一，同时也是性能瓶颈所在。对于句间语义关系，一般包括显式因果关系以及隐式因果关系。以两个具体的语句为例进行说明：【例1】句子1 ：[西环线通车后货运列车可以不用经过南昌城区，] 句子2:[从而][解决南昌站的客货相互制约运能的问题。]，此时即为显式因果关系。【例2】句子1：[南昌新建的一座国际集装箱码头日前交付使用，]句子2:[进一步改善了江西现有的对外通道状况。]，此时即为隐式因果关系。

句间语义关系识别，通常被称作篇章关系识别(Discourse relationrecognition)，旨在自动判断两个句子或者子句之间的语义关系。例如，转折关系以及因果关系等。如上所述，根据两个句子之间是否存在连接词，可进一步分为显式篇章关系识别以及隐式篇章关系识别。如例1所示为带有连接词“从而”的显式篇章关系实例，例2为省略了连接词的隐式篇章关系实例。显式篇章关系识别只需针对少数存在歧义的连接词进行消歧，性能已经达到了实用的要求。相对而言，由于缺少连接词，隐式篇章关系识别需要先建模两个句子的语义，然后推理出它们之间的关系。目前，隐式篇章关系识别的准确率还比较低，离实用尚有一定的差距。

针对多级隐式篇章关系识别，由于多个级别的篇章关系所代表的语义关系之间具有层次性，且篇章关系预测结果之间具有一定的依赖关系。然而，现有技术中，不仅没有有效地利用语义的层次性，也没有利用预测结果之间的依赖关系，从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。

发明内容

鉴于上述状况，有必要解决现有技术中，由于没有有效地利用语义的层次性，以及预测结果之间的依赖关系，从而导致多个级别的隐式篇章关系识别任务之间信息共享存在一定障碍的问题。

本发明实施例提供了一种隐式篇章关系识别方法，其中，所述方法包括如下步骤：

步骤一：接收编码器发送的全局语义关系向量以及局部语义关系向量，将所述全局语义关系向量作为GRU网络的第零个隐状态；

步骤二：将上一级对应的隐状态以及所有的所述局部语义关系向量，根据注意力机制计算得到当前级别篇章关系的局部语义关系信息；

步骤三：将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后，输入至当前GRU单元，以计算得到当前级别的隐式篇章关系。

本发明提出的隐式篇章关系识别方法，解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量，将全局语义关系向量作为GRU网络的第零个隐状态，然后将上一级对应的隐状态以及所有的局部语义关系向量，计算得到当前级别篇章关系的局部语义关系信息，最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接，最终计算得到当前级别的隐式篇章关系。在本发明中，基于门机制有选择地共享全局语义关系信息，并基于注意力机制提取特定于当前级别任务的局部语义关系信息，不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的，也满足了不同级别的任务需要不同粒度的信息。与此同时，通过序列生成的方式来达到多级隐式篇章关系识别，可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。

所述隐式篇章关系识别方法，其中，在所述步骤二中，所述计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤：

根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重分布；

根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。

所述隐式篇章关系识别方法，其中，所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的方法对应的公式表达式为：

其中，

表示根据注意力机制计算得到的第

个权重，

表示第

级篇章关系的隐状态，

为注意力机制参数，

表示第

个局部语义关系向量，

为局部语义关系向量的个数；

表示根据注意力机制计算得到的归一化后的权重分布；

所述根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息的方法对应的公式表达式为：

其中，

表示第

级篇章关系的局部语义关系信息，

表示归一化的权重分布

的第

个权重。

所述隐式篇章关系识别方法，其中，在所述步骤三中，输入至所述当前GRU单元的数据表达式为：

其中，

为当前GRU单元的输入，

为所预测的第

级篇章关系的向量表示，

表示第

级篇章关系的局部语义关系信息。

所述隐式篇章关系识别方法，其中，在所述步骤三中，还存在如下关系式：

其中，

表示第

个重置门，

表示第

个更新门，

均为GRU单元的矩阵参数，

表示当前时刻的状态信息，

表示第

级篇章关系的隐状态，

。

所述隐式篇章关系识别方法，其中，所述方法还包括如下步骤：

根据第j级篇章关系的隐状态进行篇章关系分类，以得到第j级篇章关系预测结果；

对应的表达式为：

表示第

级篇章关系的预测结果，MLP为多层感知机，softmax为用于计算概率的归一化指数函数。

所述隐式篇章关系识别方法，其中，在所述步骤一之前，所述方法还包括：

计算所输入的第一语句与第二语句之间的词对相关性矩阵，根据所述词对相关性矩阵，从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵；

根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征；

根据所述第一局部语义关系特征以及所述第二局部语义关系特征，提取得到所述全局语义关系向量。

所述隐式篇章关系识别方法，其中，所述词对相关性矩阵、所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系式：

其中，

为所述词对相关性矩阵，

为所述第一权重矩阵，

为所述第二权重矩阵，

为需要训练的参数矩阵，

为输入的第一语句，

为输入的第二语句；

所述第一局部语义关系特征、所述第二局部语义关系特征与所述第一权重矩阵以及所述第二权重矩阵之间存在如下关系：

其中，

为第一加权求和矩阵，

为第二加权求和矩阵，

为所述第一局部语义关系特征，

为所述第二局部语义关系特征，“；”表示矩阵或向量的拼接操作，

和

为多层非线性前馈神经网络；

所述全局语义关系向量与所述第一局部语义关系特征以及所述第二局部语义关系特征之间存在如下关系：

其中，

为所述全局语义关系向量。

本发明还提出一种隐式篇章关系识别系统，包括相互之间进行数据传输的编码器以及解码器，其中，所述解码器包括：

数据接收模块，用于接收编码器发送的全局语义关系向量以及局部语义关系向量，将所述全局语义关系向量作为GRU网络的第零个隐状态；

第一处理模块，用于将上一级对应的隐状态以及所有的所述局部语义关系向量，根据注意力机制计算得到当前级别篇章关系的局部语义关系信息；

第二处理模块，用于将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后，输入至当前GRU单元，以计算得到当前级别的隐式篇章关系，所述当前级别包括第一级别、第二级别以及第三级别；

其中，若所述当前级别为第一级别，则使用第零个隐状态作为对应的上一级别的隐状态，使用一个空向量作为对应的上一级别的篇章关系向量；

若所述当前级别为第二级别，则使用第一级别的隐状态作为对应的上一级别的隐状态，使用第一级别的篇章关系向量作为对应的上一级别的篇章关系向量；

若所述当前级别为第三级别，则使用第二级别的隐状态作为对应的上一级别的隐状态，使用第二级别的篇章关系向量作为对应的上一级别的篇章关系向量；

所述第一处理模块用于：

根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息；

其中，所述根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重的公式表达式为：

其中，

表示根据注意力机制计算得到的第

个权重，

表示第

级篇章关系的隐状态，

为注意力机制参数，

表示第

个局部语义关系向量，

为局部语义关系向量的个数；

表示根据注意力机制计算得到的归一化后的权重分布；

其中，

表示第

级篇章关系的局部语义关系信息，

表示归一化的权重分布

的第

个权重。

本发明还提出一种可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上所述的隐式篇章关系识别方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的现有技术中汉语篇章关系层次结构示意图；

图2为本发明第一实施例提出的隐式篇章关系识别方法的流程图；

图3为本发明第一实施例提出的多级隐式篇章关系识别模型的结构示意图；

图4为本发明第二实施例提出的编码器的编码方法的流程图；

图5为本发明第四实施例提出的隐式篇章关系识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

现有技术中，通常把句子间的篇章关系定义为一种层次结构。如图1所示，在汉语CDTB（汉语篇章结构树库，Chinese Discourse TreeBank）语料中，把篇章关系分为两个层级。其中，第一级包括4大类（因果类、并列类、转折类和解说类）；第二级包括17小类。另外，篇章连接词（因为、如果等）可以看作是第三级篇章关系。

从语义的角度来看，第二级篇章关系可以看作是第一级关系的进一步细化，而连接词则是第二级篇章关系的进一步细化。例如，第一级“因果类”关系可进一步细化为“因果关系、推断关系、假设关系、目的关系、条件关系和背景关系”。因此，隐式篇章关系识别通常包括多级分类任务：第一级篇章关系分类、第二级篇章关系分类和连接词分类，上述可统称为多级隐式篇章关系识别。

由于多个级别的篇章关系所代表的语义关系具有层次性。然而现有技术中，并没有有效地利用这种语义的层次性，从而达到在多个级别的隐式篇章关系识别任务之间实现信息共享、相互促进的目的。另一方面，由于多个级别的篇章关系预测结果之间具有一定的依赖关系，然而现有方法中，基于不同的分类模型单独预测每个级别的隐式篇章关系，没有利用它们之间的依赖关系。例如，如果第一级篇章关系的预测结果是“因果”关系，那么第二级篇章关系预测为“并列”关系的可能性就很小，连接词预测为“并且”的可能性也很小。

实施例一：

为了解决上述技术问题，本发明提出一种隐式篇章关系识别方法，请参阅图2与图3，对于本发明第一实施例提出的隐式篇章关系识别方法，该方法包括如下步骤：

S101，接收编码器发送的全局语义关系向量以及局部语义关系向量，将所述全局语义关系向量作为GRU网络的第零个隐状态。

在本发明中，解码器将编码器所输出的全局语义关系向量

和局部语义关系向量

作为输入，生成一个多级隐式篇章关系序列。

在本步骤中，将全局语义关系向量

作为GRU网络的初始状态

（第零个隐状态）。可以理解的，在本步骤中，相当于将人们第一次阅读的两个句子获得的全局信息作为输入。

S102，将上一级对应的隐状态以及所有的所述局部语义关系向量，根据注意力机制计算得到当前级别篇章关系的局部语义关系信息。

在本步骤中，计算得到当前级别篇章关系的局部语义关系信息的方法包括如下步骤：

S1021，根据上一级对应的隐状态以及每个所述局部语义关系向量计算得到对应的权重。

其中，

表示根据注意力机制计算得到的第

个权重，

表示第

级篇章关系的隐状态，

为注意力机制参数，

表示第

个局部语义关系向量，

为局部语义关系向量的个数。

表示根据注意力机制计算得到的归一化后的权重分布。

S1022，根据所述权重分布以及每个所述局部语义关系向量计算得到所述当前级别篇章关系的局部语义关系信息。

具体的，步骤S1022所对应的公式表达式为：

其中，

表示第

级篇章关系的局部语义关系信息，

表示归一化的权重分布

的第

个权重。在本发明中，

。

S103，将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后，输入至当前GRU单元，以计算得到当前级别的隐式篇章关系。

如上所述，在计算得到了当前级别（在本实施例中为第j级别）篇章关系对应的局部语义关系信息之后，结合上一级别的篇章关系向量一并输入到当前GRU单元中。在此需要说明的是，若上一级别的篇章关系为第零级别，则对应的篇章关系向量为空。

在本步骤中，输入至所述当前GRU单元的数据表达式为：

其中，

为当前GRU单元的输入，

为所预测的第

级篇章关系的向量表示，

表示第

级篇章关系的局部语义关系信息。

进一步的，在本步骤中，还存在如下关系式：

其中，

表示第

个重置门，

表示第

个更新门，

均为GRU单元的矩阵参数，

表示当前时刻的状态信息，

表示第

级篇章关系的隐状态，

。

在此需要说明的是，重置门用于控制忽略前一时刻的隐状态

的程度，重置门的值越小，说明忽略得越多。更新门用于控制当前时刻的状态信息

被更新到

中的程度。

此外，从本步骤中的相关公式可以看出：（1）解码器所接收到的编码器所输出的全局语义关系向量

（也即为

），基于门控机制有选择性地对各级别的隐式篇章关系识别任务之间进行共享。（2）当前GRU单元的输出

融合了三部分信息：上一级别的篇章关系的隐状态

；局部语义关系信息

，以及上一级篇章关系预测结果

。

进一步的，再利用当前级别（第j级）篇章关系的隐状态进行篇章关系分类，以得到第j级篇章关系预测结果。

具体的，其所对应的表达式为：

表示第j级篇章关系的预测结果，MLP为多层感知机，softmax为用于计算概率的归一化指数函数。

在本发明中，第一次执行上述的步骤S102以及步骤S103，可得到第一级隐式篇章关系的预测结果

；第二次执行上述的步骤S102以及步骤S103，可得到第二级隐式篇章关系的预测结果

；第三次执行上述的步骤S102以及步骤S103，可得到连接词的预测结果

，也即生成了一个隐式篇章关系序列

。需要说明的是，为了简洁，图3中只画出了第二次执行上述步骤S102以及步骤S103推导第二级关系的过程，而省略了推导第一级关系和第三级关系的过程。

作为补充的，本发明提出的基于序列生成的多级隐式篇章关系识别模型，可使用随机梯度下降算法端到端进行训练。

例如，给定一个训练实例，使用交叉熵作为每一级隐式篇章分类关系的代价函数，如以下公式所示：

其中，

均为代价函数，

表示隐式篇章关系训练实例的正确标签分布的one-hot编码，

，

以及

表示对应级别的预测结果。

给定M个训练实例，模型的训练目标是最小化三个分类代价函数的线性和，具体的公式可表示为：

其中，

为第m个训练实例对应的代价函数，

为每一级分类任务对应的权重，整个参数集合

包括编码层的参数和解码层的参数。

本发明提出的隐式篇章关系识别方法，解码器首先接收编码器所发送的全局语义关系向量以及局部语义关系向量，将全局语义关系向量作为GRU网络的第零个隐状态，然后将上一级对应的隐状态以及所有的局部语义关系向量，计算得到当前级别篇章关系的局部语义关系信息，最后将上一级别的篇章关系向量与当前级别篇章关系的局部语义关系信息进行拼接，最终计算得到当前级别的隐式篇章关系。

在本发明中，基于门机制有选择地共享全局语义关系信息，并基于注意力机制提取特定于当前级别任务的局部语义关系信息，不仅达到了在多个级别的隐式篇章关系识别任务之间实现信息共享的目的，也满足了不同级别的任务需要不同粒度的信息。与此同时，通过序列生成的方式来达到多级隐式篇章关系识别，可有效地建模任意两级篇章关系的预测结果之间可能存在的依赖。

实施例二：

可以理解的，解码器在接收编码器所发送的全局语义关系向量之前，编码器需要先对所输入的语句进行编码处理。在本实施例中，重点介绍一种基于基于Bi-LSTM（双向长短时记忆网络）和双向注意力机制的编码器。

在本实施例中，请参阅图4，具体的编码规则包括如下步骤：

S201，计算所输入的第一语句与第二语句之间的词对相关性矩阵，根据所述词对相关性矩阵，从行和列两个方向分别进行归一化处理得到第一权重矩阵以及第二权重矩阵。

在此需要指出的是，Bi-LSTM（双向长短时记忆网络）是一种常用于学习句子语义表示的神经网络结构，其能够把上下文信息编码到词的向量表示中。具体的，如下所示：

其中，

和

分别用于第一语句以及第二语句，矩阵

与矩阵

为融合了上下信息的第一语句与第二语句中的词的表示。这一部分用作于编码器中的输入层。

在实际应用中，双向注意力机制（Bi-Attention）在很多NLP任务上被证明是一种非常有效的方式，常用于捕获句子之间的交互信息。例如自然语言推理、问答系统以及句子匹配等任务。具体的，以

、

作为输入，双向注意力模块首先计算第一语句与第二语句之间的词对相关性矩阵

，然后分别从行和列两个方向进行归一化得出权重矩阵

和

，具体如以下公式所示：

其中，

为所述词对相关性矩阵，

为所述第一权重矩阵，

为所述第二权重矩阵，

为需要训练的参数矩阵，

为输入的第一语句，

为输入的第二语句。在此需要补充说明的是，

中的第k行可以看作第一语句中第k个词与第二语句中每个词对应的权重（相关性越高、权重越大），

中的每一行也具有类似的含义。

S202，根据所述第一权重矩阵以及所述第二权重矩阵计算得到第一局部语义关系特征以及第二局部语义关系特征。

在本步骤中，基于上述的第一权重矩阵以及第二权重矩阵计算局部语义关系特征，如以下公式所示：

其中，

为第一加权求和矩阵，

为第二加权求和矩阵，

为所述第一局部语义关系特征，

和

为多层非线性前馈神经网络。

中的第k行可以看作为第一语句中的第k个词与第二语句中相关的词的向量表示。

在此需要补充说明的是，

与

中的行可看作是对应于句子中每个词的局部语义关系表示。局部语义关系表示向量可记为

，其中

，m为第一语句中的个数，n为第二语句中的个数。这一部分用作编码器中的局部语义关系提取层。

S203，根据所述第一局部语义关系特征以及所述第二局部语义关系特征，提取得到所述全局语义关系向量。

最后，全局语义关系提取层可基于max操作，融合局部语义关系特征中所包含的信息，如以下公式所示：

其中，

为所述全局语义关系向量，也即是最终提取的全局语义关系表示。

实施例三：

对于所输入的语句的编码，本发明第三实施例还提出一种基于Transformer编码器的编码方法，其具体实现方式如下所述：

首先将隐式篇章关系实例中的第一语句与第二语句组织成形如“[CLS]+第一语句+[SEP]+第二语句+[SEP]”的序列。其中，[CLS]作为一个特殊的标记，添加在第一语句的开头，期望上述第一语句与第二语句之间的全局语义信息能够汇集在此处。[SEP]用于第一语句与第二语句之间的分割标记。

为进一步区分第一语句与第二语句，第一语句使用

向量标识，第二语句使用

向量标识。为了利用句子中的词序信息，使用位置向量

标识，其中m，n分别为第一语句和第二语句的长度。因此，Transformer编码器的输入中，对应于每个词的表示包括三部分：词向量、位置向量以及句子标识向量，这一部分用作Transformer编码器中的输入层。

Transformer编码器的特征提取层主要包含两个子模块：多头自注意力模块（Multi-Head Attention）和前馈神经网络模块（Feed Forward）。多头自注意力模块用于建模序列中任一词（标记）与其他词（标记）之间多个角度的相关性，并基于这些相关性学习词在上下文中的表示。

具体的，给定输入的向量序列表示为

，

为第一语句中的词对应的向量表示，

为第二语句中的词对应的向量表示，

和

分别为开始标记和分割标记的向量表示，多头注意力模块的具体计算过程如以下公式所示：

其中，

为对应于第i组注意力机制的参数，

是输入向量的维度。多头注意力模块拼接每组注意力机制得到的结果作为输出。

表示经过第一层中的多头自注意力模块后所得到的序列中的词的表示（拼接在一起），包含了从多个角度建模的词之间的关系，

表示从第i个角度建模的序列中的词的关系的表示。此种通过

(查询）和

(关键字）的相似性程度来确定

(值）的权重的方法称为注意力机制。

前馈神经网络（Feed Forward）包括一个普通的多层非线性前馈神经网络，可表示如下：

其中，矩阵

为第一个特征提取层的输出，

指代的是编码器第一层中的前馈神经网络模块，用于进一步融合

中由多头注意力机制学习到的信息。需要说明的是，两个子层都含有残差操作和正则化操作。残差操作常用于深度神经网络模型中，是一种有效的防止模型训练过程中梯度消失的方法。常用的正则化方法是层正则化（LayerNormalization），其基本思想是将该层中的向量调整为方差为1，均值为0的分布。

为了学习多层次的特征，Transformer使用N个堆叠在一起的特征提取层，最终得到的对应于输入序列的矩阵表示为

。其中，对应于标记[CLS]的向量可以作为全局语义关系的表示，记为

；对应于第一语句和第二语句中每个词的向量可以作为局部语义关系的表示，记为

。也可以认为，基于Transformer的编码器把局部语义关系提取层和全局语义关系提取层整合在一起。

实施例四：

本发明还提出一种隐式篇章关系识别系统，包括相互之间进行数据传输的编码器11以及解码器12，其中，所述解码器12包括依次连接的数据接收模块121、第一处理模块122以及第二处理模块123；

其中数据接收模块121用于：

接收编码器发送的全局语义关系向量以及局部语义关系向量，将所述全局语义关系向量作为GRU网络的第零个隐状态；

第一处理模块122用于：

将上一级对应的隐状态以及所有的所述局部语义关系向量，根据注意力机制计算得到当前级别篇章关系的局部语义关系信息；

第二处理模块123用于：

将上一级别的篇章关系向量与所述当前级别篇章关系对应的所述局部语义关系信息进行拼接后，输入至当前GRU单元，以计算得到当前级别的隐式篇章关系。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。